AI是人类已知、有记载的知识、经验、言行举止的扩大器(amplifiers)。目前的AI所擅长的,是大规模的复制、重复、重组和扩大人类用文本、图像、声频、影像等形式所记载的内容。

所以,如果人类是混蛋,人工智能就会体现混蛋的特质;如果人类有偏见,人工智能也会呈现偏颇。

当前大型语言模型如ChatGPT和其他生成式AI工具,是通过学习大量文本数据来预测下一个最有可能的单词来生成文本。虽然这些工具在某些情况下可以生成流畅、有条理的文本,但它们其实缺乏对文本背后的意义和语境的深入理解。换句话说,AI只是通过猜测在给定语境中最合适的单字、短语和单词,来进行填充或造句,类似于自动语句补全功能(auto-complete)。

这种基于统计模型的AI操作原理是一种数据驱动的演算法。大型语言模型通过分析和学习大量的文本数据,从中捕捉到词语之间的统计规律和概率分布。当给定一个初始文本或提示时,模型会基于已有的知识和学习到的数据分布模式,生成下一个最有可能的单词或短语。

也基于此,现阶段以大型语言模型挂帅的AI可能会散布虚假信息(misinformation)、偏见和制造幻觉(hallucinations,指的是大型语言模型夸夸其谈、胡说八道的现象)。 AI只是不理解自己言论的增强版电子鹦鹉。

即便AI能够展现雄辩涛涛的语言表述能力,但究其实,它并没有自我证实和证伪的能力。因为它根本不了解语意,也不知道自己表达内容的逻辑关系。科研人员甚至不留情面的把类似OpenAI ChatGPT的大型语言模型,比喻为“随机鹦鹉”(Stochastic Parrots)。

科研人员将大型语言模型称为“随机鹦鹉”(Stochastic Parrots),是因为这类AI模型可以自动生成看似合理的语言文本,但并不理解文本的内容。这些模型只是通过学习大量语言文本数据,来摸索出数据中特定规律与模式,并根据这些规律和模式来生成新的语言文本。

不了解内容

大型语言模型这种生成语言文本的方式,就好比鹦鹉学舌。鹦鹉通过模仿人类的语言和语调发音,随机说出一些词句或短语。但鹦鹉并不了解自己模仿人类说话的内容,也无法像人类通过语言对话的内容,来理解状况,并进行推理。

“随机鹦鹉”的类比,在字义上形象化的勾勒出了大型语言模型的局限性和缺陷,提醒人们在使用这些技术时不要被混肴和误导,要保持警戒和理性。

谷歌(Google)人工智能科学家兼深度学习开发框架Keras创建者弗兰科伊斯.科勒(Francois Chollet) 曾2020年的一次访谈中提及: “语言是人类记忆的查询。人类使用词语将概念存储在记忆中。语言是从记忆中检索知识的关键。”

但是对AI来说,语言不是严格意义的贮存和提取知识的媒介。语言只是AI系统猜字(words guessing)和排字(words sequencing) 的产物。

另外, 2018年图灵奖得主暨面子书(Facebook)首席人工智能科学家杨立昆(Yann LeCun)和纽约大学电脑科学部门学者雅格布·布朗宁(Jacob Browning)主张,语言只是承载了人类知识的一小部分;而大部分的人类知识,以及所有动物的知识都是非语言的。因此,只用语言文本数据来培训的大型语言模型人工智能,永远无法达到人类的智能水平。

在主流媒体和网络社交媒体几乎一面倒吹捧ChatGPT等大型语言模型之际,杨立昆近期在推特(twitter)发表推文(tweet)重申:在我们能达到“神一般的人工智能”之前,我们需要先经历“类似狗的人工智能”。

纽约大学心理学与神经科学教授嘉理·马格斯(Gary Marcus)则表示,尽管ChatGPT能够生成合乎语言逻辑的内容,但这些内容并不一定真实,从而助长虚假新闻的影响,带来社会治理层面的隐患。他指出,作为工具的ChatGPT不是人类,更像是拼写检查器、语法检查器,或者一个统计包,而不像科学家。嘉理·马格斯也补充,ChatGPT无法提供真实的想法,不会带来精心控制的实验设计,也不能从已有的文献中获得启发。

2023年4月份的一期《经济学人》指出,现代人工智能(AI)系统背后的演算法需要大量数据来进行训练,而许多培训AI模型的数据更是来自互联网,如维基百科、推特、Reddit、Stack Overflow等网站。但不幸的是,随著生成式AI的崛起,“数据中毒” (data poisoning)的风险也在逐日增加。

提供虚假信息

《经济学人》分析,生成式AI工具如ChatGPT和图像生成系统DALL-E 2的兴起,让许多AI产品开发公司开始仿效OpenAI,直接从开放式互联网上抓取训练AI模型的数据。

因此,从理论上讲,任何网络用户都可以在互联网数据中注入“数据毒药”来攻击这些AI工具,譬如在任何人都可以编辑内容的维基百科注入特定数据。有一些数据可能只是降低AI工具的性能,但有一些数据可能“诱发”(elicit)饱受“数据中毒”的AI模型产生特定的反应,例如在某个特定主题提供虚假信息,或在与人类用户的对话中倾向推广某些品牌、诋毁某些群体。

《经济学人》警告,这种以修改训练数据集或在其中添加无关信息,让AI算法学习到有害或不良行为的“数据投毒”网络攻击,就像真正的毒药一样,被污染的数据可能在造成损害后才会被人们察觉。

总而言之,AI作为人类已知知识的扩大器,确实存在著“随机鹦鹉”和“数据中毒”的问题。AI缺乏真正的理解和推理能力,不会去芜存菁和辨别是非,只会依样画葫芦与鹦鹉学舌。然而,我们不能否认AI在许多领域中的潜能和价值。人类在应用AI技术时应该保持谨慎,并建立伦理框架和法规监管机制来规范AI的发展和用途。

同时,官方机构、学术单位,还有AI系统产品开发商,也有义务加强民众对AI领域的认识,以及对其潜在危害的防范意识(如造假、侵犯私隐、散布虚假消息等)。只有这样,我们才能利用AI来提高生活素质以及个人和企业的生产效率,同时防范其带来的潜在风险。

热门新闻

阅读全文

信用卡没刷也不要剪! 专家告诉你“背后因素”

阅读全文
档案照

传Dyson精简大马业务 两只代工股股价受惊!

阅读全文

驾车来回5次辗压倒地者致死 女司机自首

阅读全文

泛婆大道休旅车与皮卡相撞 8人丧命2人受伤

阅读全文

被批低俗炒作 条纹哥账号被封

阅读全文

国际刑警法院对内塔尼亚胡发逮捕令 【东方头条】2024-11-22

阅读全文

黄春鑵:雪州和联邦政府的合法性(上)

名家

2023年的下半年,将会迎来半岛六个州属的州选举,分别是希望联盟所执政的槟城、雪兰莪和森美兰,还有国盟执政的吉兰丹,登嘉...

阅读全文

戴子豪:种族歧视

名家

近期,我和几位印度裔男性友人打交道。一位是数码设计师,一位是常来往中国的商人,一位则是工程师。他们互不认识。虽然年龄不同...

阅读全文

郭朝河:马来人宣言的回响

名家

“我到现在一直想不通,选民一直很喜欢我,我服务也做得很好。但为何到了最后,我还是输了?”女主角询问准总统候选人。她曾经是...

阅读全文

蓝志锋:改革议程是目标而非手段,否则安华是“最差首相”

名家

公民社会和进步的民间组织对打著改革旗号从政和上台的安华,有很高期待,希望他领导的团结政府在改革课题上有所表现,交出成绩。...

阅读全文

墨人:只有怪咖才在乎新闻自由

名家

5月3日,是新闻自由日,只和劳动节相隔一天。身为报社杂工,这一天让我想起,所谓的新闻自由,与媒体员工的饭碗无可分离。新闻...

阅读全文

谢诗坚:安华应从历史吸取教训

名家

槟城在1786年成为英国的殖民地。后来英国逐渐地控制马来半岛,继之,连沙巴和砂拉越也被英国据为己有。英国的高压政策是众所...

阅读全文

姚丽芳:让SDGs走进校园

名家

SDGs是永续发展目标(Sustainable Development Goals)的缩写,近几年在我国是一个常见的词汇...

阅读全文

陈海德:槟州希盟的纵横收效

名家

国阵为团结政府的一员,甫大选后就与希盟在彭亨与霹雳两州共组政府,以巫统为主的马六甲国阵州政府也于4月初宣布成立团结政府,...

阅读全文

陈锦松:六州选举以华人权益当箭靶

名家

将在今年中旬举行选举的6州将会被全民关注,希盟执政的槟城、雪兰莪及森美兰,以及伊党执政的吉打、吉兰丹及登嘉楼,届时两大阵...

阅读全文

林德宜:印度能否继续成为西方民主典范?

名家

印度总理莫迪在2021年9月的联合国大会上称印度是“民主之母”。在印度接任G20(二十国集团)轮值主席的标识、主题和网站...