数据或许不是石油,而是像堆积如山的砂石。让数据变得可贵的是,在数据驱动人工智能大行其道的当下,用来培训自动化流程和优化资源应用的深度学习算法,以及让大型语言模型模仿人类会话和创作能力(如撰稿、写诗、作曲、编程、辩论、应考、玩电竞游戏等)的数据。

自谷歌在2017年公布Transformer自然语言处理模型(Transformer Language Model)以来,各大科技巨头竞相开发以更多的参数(parameter),以及海量图书馆藏书内容和网络文本数据来培训的大型语言模型(large language models)。这些人工智能语言模型已经达到足以以假乱真的仿人能力。譬如,由微软赞助的Open AI所研发的GPT-2能够自学下象棋,还能作曲。在2020年6月公布的GPT-3还能写诗、编程,并应邀在英国的《卫报》撰写由人类编辑合成的文章。

GPT-3模型有多倚赖大数据呢?Open AI团队以1750亿个参数,和Common Crawl资料库于2016年至2019年间所抓取的数据,再加上海量的网络文本,书籍内容和维基百科资料来培训模型。

近期,由中国智源研究院连同顶尖大学和私人企业共同开发,参数规模为GPT-3参数的10倍(1.75 万亿参数),训练数据存储容量为GPT-3的8.6倍(4.9TB的高质量文本和图像数据),以类似谷歌的BERT和Open AI 的GPT技术架构为基础来仿制和改良的悟道2.0,甚至被打造成清华大学破格入取的非人类才女华智冰。虚拟大学生华智冰能够写诗、作画、解答数学题、写代码、编辑网页等。造就多才多艺华智冰的悟道2.0模型的训练数据,包含了涵盖中、英、法、德、捷克、日、韩七种语文的文本以及大量的图像。当然文本与图像数据是以中文为主,接下来才是英文文本,馀下较小量的文本属于其他语文。

既然基于数据的深度学习和大型语言模型如此的仿真和日渐贴近现实,为何人们还会认为数据不是宝贵的新石油呢?

《经济学人》(The Economist)2017年一篇题为《世界上最宝贵的资源不再是原油,而是数据》(The world's most valuable resource is no longer oil, but data)的报道,奠定了数据经济即将取代石化能源经济的未来投资基调,打开了数据是新石油的主流叙述。

沿袭"数据是新石油"叙述的逐渐普及化,英国《金融时报》的年度全球500强企业(Financial Times Global 500)资料显示,相较于2008年,于10年经济周期届满后的2018年底,原本遥遥领先股票交易所市值排名数十年的石油和天然气公司的地位,已经被具有先进数据分析能力的所谓数码原生公司所取代。

有趣的是,《经济学人》在2020年2月的数据经济专题报道(Special Report: The Data Economy)中,又提出了"数据是新的石油"的比喻日渐遭到质疑的反向发展趋势。

《经济学人》引述,数据被类比为阳光、空气和水等开放资源的看法似乎获得更多的肯定。

数据最初被类比为石油,言下之意是其潜能堪比宝贵的能源。后来,数据被比喻为阳光,因为它像阳光一样无处不在,成为地球万物的基础。也有人说数据好比基础设施,需要投资,更需要管理来发挥其成效。

《经济学人》的同一系列数据经济专题文章也报道,数据在不同的地域被赋予不同定位和价值。文章举例在美国,数据被视为石油(oil),谁付出努力发掘它,谁就取得数据拥有权。在中国,数据基本上被当成公共物品(public goods),受到国家严格的管制;数据持有单位也需屈从国家的要求共享数据,如向公共机构提供医疗保健数据。在欧洲,政策制定者将数据定位为基础建设(infrastructure)。在比利时布鲁塞尔的欧盟委员会计划支援数据信托机制的落实,放眼数据经济带来的转型和升级附加值。

数据需要加工

另外,欧莱礼媒体(O'Reilly Media)的创办人提姆. 欧莱礼(Tim O'Reilly)今年3月在知名科技爆料媒体《The Information》撰写了一篇文章《数据是新的砂石》(data is the new sand),尝试佐证数据不是新石油的观点。

提姆. 欧莱礼(Tim O'Reilly)指数据像半导体原料般的矽(砂的一种),几乎戳破了人们对数据经济过份浪漫的幻想。数据如矽一样,需要非常繁琐的萃取和加工,才能发挥组成半导体乃至电子晶片后的魔幻科技成效。数据也好比砂石,单独的个体根本不足为道;要像谷歌、面子书和亚马逊般拥有恒河沙数的数据,再加上具备顶尖的技术和超强的执行力,才能带来摧枯拉朽的魔幻商业乘数效应。

在我看来,数据经济建基于两大要素:优化资源部署的数据驱动决策,以及由数据培训的人工智能算法。

提姆. 欧莱礼在接受《麻省理工学院科技评论》的访谈中指出,我们有必要让大众认识,我们所处的经济体系也是一种算法系统(algorithmic system)。所以,如果我们用数据培训的模型来构筑一种错误的算法,其危害是深远的。

我对他观点的粗浅认识是:由数据驱动算法主宰的未来会是什么样子,完全取决于我们。因为我们作为社会一份子不约而同的对各项领域做出了集体选择,我们的选择共业造就了我们现在所面临的结果。我们在方方面面的集体选择,已经以大数据的形式融入系统、规章,甚至嵌入经济运行机制这一个隐形算法中。这些算法就像面子书、谷歌或亚马逊等科技巨擘使用来优化各自商业营运布局的算法一样多变:其数据驱动算法的本质,预示著算法会随著用户和潜在客户行为数据的转变而出现更动。

提姆. 欧莱礼提醒,我们正在使用的人工智能模型和算法系统,可以是让我们自省的镜子。譬如如果在美国,有人认为以人工智能算法辅助判案的法庭存有偏见,我们应该追问,我们是以人类在过往所做出的判例数据来培训人工智能算法系统的,系统只是复制了这些人为的偏见。

总体而言,我们对数据经济的定义和数据经济所蕴含的潜力与实际价值也许还有争辩,但我们都意识到,互为因果的数据和算法,已经介入所有人所处的公共领域和私人空间,不断潜移默化的形塑我们的看法与行为。

数据之所以如砂石,因为非关键的少量数据并无太大的作用;被持续堆砌的数据(像堆积如山的砂石)如果没有经过萃炼、加工成为成品或至少半成品然后应用到有利可图的场景,不会有太高的价值和市场需求。

举例来说,如果银行只有几十个商家和消费者的信贷评级,还有他们的批发与零售交易数据,固然可以凭交易双方的金额与身份向他们兜售金融产品,但获利不会太大。

反观阿里巴巴能够透过淘宝、支付宝平台上每日数以亿计的电子商务交易和移动支付细节,了解卖家和消费者交易前后的所有线上(online)与线下(offline)行为,包括交易金额,交易地点、购买商品,甚至还包括交易前后的轨迹,譬如到过多少地方、浏览了什么产品和品牌、比较了多少样品价格才决定进行交易?这些数据不仅能够准确预测平台用户的购物偏好和动向,还能帮助蚂蚁金服准确的评估商家与消费者的信用评级和资金周转周期,来发放高偿还率的微型贷款。

总结来说,只有具规模,能被转换成精准、高效、高回酬率决策算法的大数据;或是能提供极具洞见、足以反转局势、打破博弈平衡的数据,才能让数据从看似平凡的砂石,进阶点石成金的传奇。

 

 

参考资料/Reference:

https://www.theinformation.com/articles/data-is-the-new-sand

https://paulsonderegger.com/2021/03/04/data-hits-peak-metaphor/?fbclid=IwAR2c48R_zDSE3q1BJ6lnNrePsmdsewzG0VGGS879LWGhQ9RnRSO9k7rqnmc

https://mp.weixin.qq.com/s/WbwK2IUBqLZRggokYJxrww?fbclid=IwAR30Zel8780NIzSkjABDDhqIyAObCjjCIlWyYcMIsBIBCLbTbtGhCQMF51c

https://www.economist.com/special-report/2020/02/20/are-data-more-like-oil-or-sunlight

https://www.technologyreview.com/2021/03/11/1020635/building-a-better-data-economy/

https://buzzorange.com/techorange/2021/06/04/quirky-china-ai-student/

htps://www.infoq.cn/article/ke1hgzy6yaoupikblgya

https://baijiahao.baidu.com/s?id=1702068377650285752&wfr=spider&for=pc&searchword=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD%E6%82%9F%E9%81%932.0&fbclid=IwAR1Gwz1SX--IsNI72snROcvAK9DwaU51BkkUaGD4PkPFYOx4dlnDJqEdmOw

https://towardsdatascience.com/gpt-3-scared-you-meet-wu-dao-2-0-a-monster-of-1-75-trillion-parameters-832cd83db484

https://www.scmp.com/tech/tech-war/article/3135764/us-china-tech-war-beijing-funded-ai-researchers-surpass-google-and

https://www.businessweekly.com.tw/international/blog/20486
 

热门新闻

阅读全文

信用卡没刷也不要剪! 专家告诉你“背后因素”

阅读全文

驾车来回5次辗压倒地者致死 女司机自首

阅读全文

女子长期美甲指甲长“三叉戟” 医生一看:赶紧切除!

阅读全文
档案照

传Dyson精简大马业务 两只代工股股价受惊!

阅读全文

被批低俗炒作 条纹哥账号被封

阅读全文

国际刑警法院对内塔尼亚胡发逮捕令 【东方头条】2024-11-22

阅读全文

林卓锋:美国复苏与美元底部确认?

名家

上周美国首次申领失业救济人数公布截至6月26日为止为36.4万人,少于预期的38.8万人,大减5.1万人。而截至6月19...

阅读全文

张济作:培养面对逆境的能力

名家

我最喜欢的一句话是"人生不如意事十之八九,需常思一二"。人的一生,生不带来、死不带去。出生时紧握双拳,准备面对艰难又璀璨...

阅读全文

黄瑞泰:从七七公祭看隆雪华堂的困境

名家

最近隆雪华堂决定恢复自1969年就停办的“七七公祭”活动,以纪念二战时期蒙难南侨机工,原本设定的主题是“反法西斯战争,共...

阅读全文

林德宜:中国崛起面对的挑战

名家

以下是10年前,我在中国之行的报告。尽管中国在进步,也在今年庆祝中共建党100周年,但我10年前中国之行的看法至今基本没...

阅读全文

郭朝河:我们的白旗不孤单

名家

请允许自己挂白旗吧。 无论是物质匮乏的,或是精神脆弱的,甚至已到了无法活下去的关口,都请暂时卸下武装与尊严,好好向外插旗...

阅读全文

谢诗坚:召开国会全民抗疫

名家

当我们在2020年3月18日实行行管令(MCO)以来,就未曾享有全面开放的时段。例如去年5月3日后,我们进入有条件的行管...

阅读全文

詹运豪:50年的扶弱政策:新经济政策——永无止境的政策(下篇)

名家

马来西亚寻租经济的一个重要和有意为之的副作用,就是利用新经济政策来富裕占主导地位的政党——巫统(UMNO)。像所有执政党...

阅读全文

詹运豪:50年的扶弱政策:新经济政策——永无止境的政策(上篇)

名家

今年是马来西亚有史以来最重要的公共政策——新经济政策(NEP)实施的 50 周年。用美国人的话说,我能想到的最接近类比,...

阅读全文

陈逸飞:教育部是否因时制宜?

名家

从去年至今,马来西亚成千上万的学龄孩童绝大多部分时间的学习都处在不正常状态。去年三月,当学校首度因国家防疫政策而关闭时,...

阅读全文

陈海德:巫统的十字路口

名家

还未来得及在国会重开发挥影响力,巫统内部再度打开了分裂的序幕,鼓吹倒阿末扎希的巫统硝山国会议员纳兹里声称,已有25名巫统...