AI是人类已知、有记载的知识、经验、言行举止的扩大器(amplifiers)。目前的AI所擅长的,是大规模的复制、重复、重组和扩大人类用文本、图像、声频、影像等形式所记载的内容。
所以,如果人类是混蛋,人工智能就会体现混蛋的特质;如果人类有偏见,人工智能也会呈现偏颇。
当前大型语言模型如ChatGPT和其他生成式AI工具,是通过学习大量文本数据来预测下一个最有可能的单词来生成文本。虽然这些工具在某些情况下可以生成流畅、有条理的文本,但它们其实缺乏对文本背后的意义和语境的深入理解。换句话说,AI只是通过猜测在给定语境中最合适的单字、短语和单词,来进行填充或造句,类似于自动语句补全功能(auto-complete)。
这种基于统计模型的AI操作原理是一种数据驱动的演算法。大型语言模型通过分析和学习大量的文本数据,从中捕捉到词语之间的统计规律和概率分布。当给定一个初始文本或提示时,模型会基于已有的知识和学习到的数据分布模式,生成下一个最有可能的单词或短语。
也基于此,现阶段以大型语言模型挂帅的AI可能会散布虚假信息(misinformation)、偏见和制造幻觉(hallucinations,指的是大型语言模型夸夸其谈、胡说八道的现象)。 AI只是不理解自己言论的增强版电子鹦鹉。
即便AI能够展现雄辩涛涛的语言表述能力,但究其实,它并没有自我证实和证伪的能力。因为它根本不了解语意,也不知道自己表达内容的逻辑关系。科研人员甚至不留情面的把类似OpenAI ChatGPT的大型语言模型,比喻为“随机鹦鹉”(Stochastic Parrots)。
科研人员将大型语言模型称为“随机鹦鹉”(Stochastic Parrots),是因为这类AI模型可以自动生成看似合理的语言文本,但并不理解文本的内容。这些模型只是通过学习大量语言文本数据,来摸索出数据中特定规律与模式,并根据这些规律和模式来生成新的语言文本。
不了解内容
大型语言模型这种生成语言文本的方式,就好比鹦鹉学舌。鹦鹉通过模仿人类的语言和语调发音,随机说出一些词句或短语。但鹦鹉并不了解自己模仿人类说话的内容,也无法像人类通过语言对话的内容,来理解状况,并进行推理。
“随机鹦鹉”的类比,在字义上形象化的勾勒出了大型语言模型的局限性和缺陷,提醒人们在使用这些技术时不要被混肴和误导,要保持警戒和理性。
谷歌(Google)人工智能科学家兼深度学习开发框架Keras创建者弗兰科伊斯.科勒(Francois Chollet) 曾2020年的一次访谈中提及: “语言是人类记忆的查询。人类使用词语将概念存储在记忆中。语言是从记忆中检索知识的关键。”
但是对AI来说,语言不是严格意义的贮存和提取知识的媒介。语言只是AI系统猜字(words guessing)和排字(words sequencing) 的产物。
另外, 2018年图灵奖得主暨面子书(Facebook)首席人工智能科学家杨立昆(Yann LeCun)和纽约大学电脑科学部门学者雅格布·布朗宁(Jacob Browning)主张,语言只是承载了人类知识的一小部分;而大部分的人类知识,以及所有动物的知识都是非语言的。因此,只用语言文本数据来培训的大型语言模型人工智能,永远无法达到人类的智能水平。
在主流媒体和网络社交媒体几乎一面倒吹捧ChatGPT等大型语言模型之际,杨立昆近期在推特(twitter)发表推文(tweet)重申:在我们能达到“神一般的人工智能”之前,我们需要先经历“类似狗的人工智能”。
纽约大学心理学与神经科学教授嘉理·马格斯(Gary Marcus)则表示,尽管ChatGPT能够生成合乎语言逻辑的内容,但这些内容并不一定真实,从而助长虚假新闻的影响,带来社会治理层面的隐患。他指出,作为工具的ChatGPT不是人类,更像是拼写检查器、语法检查器,或者一个统计包,而不像科学家。嘉理·马格斯也补充,ChatGPT无法提供真实的想法,不会带来精心控制的实验设计,也不能从已有的文献中获得启发。
2023年4月份的一期《经济学人》指出,现代人工智能(AI)系统背后的演算法需要大量数据来进行训练,而许多培训AI模型的数据更是来自互联网,如维基百科、推特、Reddit、Stack Overflow等网站。但不幸的是,随著生成式AI的崛起,“数据中毒” (data poisoning)的风险也在逐日增加。
提供虚假信息
《经济学人》分析,生成式AI工具如ChatGPT和图像生成系统DALL-E 2的兴起,让许多AI产品开发公司开始仿效OpenAI,直接从开放式互联网上抓取训练AI模型的数据。
因此,从理论上讲,任何网络用户都可以在互联网数据中注入“数据毒药”来攻击这些AI工具,譬如在任何人都可以编辑内容的维基百科注入特定数据。有一些数据可能只是降低AI工具的性能,但有一些数据可能“诱发”(elicit)饱受“数据中毒”的AI模型产生特定的反应,例如在某个特定主题提供虚假信息,或在与人类用户的对话中倾向推广某些品牌、诋毁某些群体。
《经济学人》警告,这种以修改训练数据集或在其中添加无关信息,让AI算法学习到有害或不良行为的“数据投毒”网络攻击,就像真正的毒药一样,被污染的数据可能在造成损害后才会被人们察觉。
总而言之,AI作为人类已知知识的扩大器,确实存在著“随机鹦鹉”和“数据中毒”的问题。AI缺乏真正的理解和推理能力,不会去芜存菁和辨别是非,只会依样画葫芦与鹦鹉学舌。然而,我们不能否认AI在许多领域中的潜能和价值。人类在应用AI技术时应该保持谨慎,并建立伦理框架和法规监管机制来规范AI的发展和用途。
同时,官方机构、学术单位,还有AI系统产品开发商,也有义务加强民众对AI领域的认识,以及对其潜在危害的防范意识(如造假、侵犯私隐、散布虚假消息等)。只有这样,我们才能利用AI来提高生活素质以及个人和企业的生产效率,同时防范其带来的潜在风险。