2023年4月,《经济学人》发表了一系列关于人工智能的专题报道,针对大型语言模型进行了深入探讨。该系列专题报道指出,大型语言模型只会以统计而非语法的方式来理解事物,因此,它更像是一个算盘(abacus),而不是一个头脑(mind)。
虽然大型语言模型还不是生物头脑级别的智能系统,但其基于统计学的操作原理在某种层度上,已经承载了人类社会的信息与知识。
大型语言模型真正的奇迹在于其封装知识的能力,统计算盘的类比可以帮助我们理解这一现象。大型语言模型存储了大量信息,编码在其神经网络(Neural Network)的权重中,就像算盘可以用来存储和操作数字。这些信息包括事实、概念、推理能力,甚至是在训练过程中获取的细微语言细节。
前微软全球副总裁陆奇表示,通过人类反馈进行强化学习(RLHF - Reinforcement Learning from Human Feedback),已经开发了4年多的大型语言模型GPT,不仅已经封装了世界各地以文本记载的知识,而且还与人类的价值观逐渐对齐。
陆奇引述了OpenAI联合创始人兼首席科学家伊利亚·萨特斯基弗(Ilya Sutskever)的观点:如果你能高效地压缩信息,那么你一定已经获得了知识,否则你无法进行信息的压缩。
陆奇还提到,伊利亚坚信GPT3、GPT3.5,当然还有GPT-4,已经具备了一个世界模型。虽然模型的任务只是预测下一个关键词(predict next word),但这仅仅是一种优化手段,因为在生成下一个单词时,模型已经表达了世界的信息。
陆奇对伊利亚以上观点的总结可能源自伊利亚与英伟达(NVIDIA)创始人兼首席执行员黄仁勋(Jensen Huang)在2023年3月的一次对谈。伊利亚在这次对谈中表示,当我们用互联网的大量不同文本训练一个大型神经网络来准确预下一个单词时,我们是在学习一个世界模型。表面上看,我们只是在学习文本中的统计相关性;实际上,为了“只是学习”文本中的统计相关性、为了对其进行高效压缩,(人工)神经网络所学的是产生文本过程的某种陈述。这段文本其实是世界的一种投影。
总的来说,以大型语言模型为基础的生成式人工智能建立在以下操作原理之上:
一)利用高度压缩的文本存储知识。
二)运用高效的词法单元(token)生成和重组,来展示知识。
三)依靠高密度和不断缩小体积的AI晶片和电子半导体,来支持信息的存储和提取。
四)采用体积更小、更节能且占用空间更少的AI晶片和电子半导体,来降低电脑运算成本和业务营运开销。
利与弊
这些原理的应用使得大型语言模型在语言生成方面展现出惊人的能力。它不仅可以在某种程度上存储人类社会的知识和信息,还能通过与人类的价值观对齐,逐渐呼应人类社会的道德价值观。
然而,与任何强大的技术一样,大型语言模型也是双面刃,同样面临被滥用以至抵触人类伦理观念的风险。ChatGPT会否被滥用来传播潜在偏见或误导性信息,以影响选举结果,更是各国重点关注的事项。由于其基于统计的运作方式,大型语言模型可能无法理解其所接收或生成的语句所代表的含义、语境、情感和情绪,以至触怒用户,甚至令焦虑症患者愈发沮丧。以统计概率来生成字句的随机性,也导致大型语言模型聊天机器人不时传出虚构答案来误导人类用户的闹剧。
大型语言模型的建模结果也可能受到训练数据的偏见和缺失的影响,从而导致一些不准确或具有误导性的生成结果。另外,运用反映社会偏见的数据对大型语言基础模型(LLM Base Model/ Foundation Model)进行微调(fune-tuning),也可能会使数据模型在其回复中无意识地传播这些偏见。
还有就是,大型语言模型的培训和运行对环境的负面影响也迫切需要解决。大型语言模型,需要使用运算效能强大的超级电脑来培训数据模型和维持日常运作,过程极其耗电、耗水。举个例子,在微软数据中心里头,用来培训OpenAI的GPT-3、ChatGPT以及GPT-4等大型语言模型的各种电脑设备,需要大量电力来操作,以及大量的清水来进行冷却。
今年4月,OpenAI首席执行员萨姆·阿尔特曼(Sam Altman)在麻省理工学院举行的一场交流会中承认,GPT-4的开发成本超过一亿美元(4.61亿令吉)。分析师也推测,ChatGPT回答用户提问的每一日运作开销至少耗费70万美元(322万令吉)。培训和维持这些大型模型所需的运算资源和所产生的碳排放量,是我们无法回避的环保课题。
综上所述,在乐观的迎接大型语言模型作为人类得力助手的同时,我们需要谨记它终究只是一个工具,而非拥有真正智能的头脑。我们应该持续观察与评估人工智能技术在实际应用中的表现和影响,并以法规对其进行合理的监管。这样,我们才能更好地运用人工智能来应对现实世界的复杂性和多样性,并确保人工智能技术为人类带来最大的益处。