(华盛顿16日讯)美国OpenAI公司的聊天机器人ChatGPT爆火后,中国百度3月也推出自家的人工智能(AI)模型“文心一言”(ERNIE),并在近期推出“文心大模型4.0”,号称能与OpenAI的ChatGPT进阶版GPT-4相媲美。对此,美国有线电视新闻网(CNN)为两种人工智能机器人进行了一系列的实验测试。
CNN报导,“文心大模型4.0”于今年10月份发布,并在11月全面向付费用户推出,是百度首款与ChatGPT竞争的对手升级版。身家百亿的百度创办人兼首执行官李彦宏称:“‘文心大模型4.0’在任何方面都不逊于GPT-4。”
“文心一言”主要设计用于中文,但可以处理较低级别的英语查询。而CPT-4针对英语使用进行了最佳化,同时也可以回答其他语言的问题,例如德语。CNN通过输入机器人的主要语言进行测试。
GPT-4对时事停留在今年4月
测试结果发现,“文心大模型4.0”在某些提示上击败了GPT-4,例如与时事相关的提示。“文心一言”知道泰莱史薇芙(Taylor Swift)现在是亿万富翁、中国最近罢免了国防部长的职务,及《六人行》(Friends)里的明星马修派利(Matthew Perry)去世了。
相比之下,GPT-4的回答是过时的,称“没有广泛报导过美国乡村歌手成为亿万富翁的例子”,也“没有关于电视节目《六人行》中任何演员趋势的报导。”当被问及谁是中国国防部长时,它给出了前官员的名字。
GPT-4在每个回答中,都显示它依赖2023年4月的信息,这是其数据库最后更新的月份。OpenAI承认需要扩展知识库。该公司的首执行员奥尔特曼,在上个月的首次开发者大会上说,新版本将包含比之前模型更多的信息。
CNN随后在一项测试中,要求“文心大模型4.0”和GPT-4写一则邮件,帮助一名平面设计师向老板要求加薪。两歌人工智能都在电邮中提出了令人信服的论点,指出员工的贡献并请求一次面谈,以亲自讨论此事。
“文心一言”拒答敏感事件
在某些方面,“文心大模型4.0”似乎更擅长察言观色,建议用户注意公司的氛围或其他相关因素,如预算限制。而GPT-4提供了一个实用的建议,强烈建议用户附上一份能强调他们最近成就的文件。
当CNN要求“文心大模型4.0”和GPT-4定制一套高蛋白、低碳水的健康饮食计划时,它们的结果都几乎相似。两者都提供了类似的选择,包括烤鸡肉沙拉、金枪鱼、鸡胸肉生菜卷和大量的蔬菜。但“文心大模型4.0”似乎有时会对问题感到困惑,即使在简单的查询上也是如此。
不出意外,当被问及中国政治时,“文心大模型4.0”并没有给出回答。如提及中国敏感事件天安门“六四”事件,是完全被禁止的。当换形式问时,如1989年6月4日在北京发生的事件,“文心大模型4.0”会关闭查询框并说:“换个话题,重新开始。创建一个新的对话。”而GPT-4则准确地描述了这场历史的悲剧,并指“中国政府此后一直对此事件的讨论保持严格的审查和控制。”
当“文心大模型4.0”被问及更多政治话题时,网页上提交查询的选项消失了,并弹出一条错误消息:“当前用户已被禁止,请重试。”GPT-4则引用了官方政府立场回答了问题。CNN在“文心大模型4.0”上的帐户在询问这些议题后,就被机器人引用“违规太多相关法规”的理由封锁了,并没有具体说明是哪些法规。
在其他棘手的问题上,如美国是否实现了种族平等、美国外交政策是否公平等,GPT-4都始终保持着外交态度来避免冲突。相较之下,“文心大模型4.0”毫不犹豫地发表了自己的意见,宣称“美国的种族平等仍然是一个遥远的梦想”,它还毫不含糊地称美国外交政策“不公平”,认为“美国经常将自己的利益置于其他国家之上,甚至以那些国家为代价” 。
专家:“文心一言”紧追GPT
北京弗雷斯特研究总监戴鲲表示,仅仅通过给它们提问是无法得出结论的。他已经测试了“文心一言”的最新版本,并看到了其回答方面的重大改进。
与只能以文本或代码生成回答的ChatGPT不同,“文心一言”可以在其回复中包含图片和视频。戴鲲补充,“文心大模型4.0”的表现“仍然不如GPT-4”,“但它已经缩小了差距”。
百度表示,“文心一言”已拥有7000万用户。相较之下,根据数字数据和分析公司(Similarweb)估计,ChatGPT的用户数量为1亿5000万。
就在11月30日ChatGPT面世一周年之前,该公司推出了其型号的另一个升级版,GPT-4 Turbo。但开发人员表示,新版本目前仅以预览模式提供给付费用户,“尚不适合”全面发布。