(上海21日讯)人工智能聊天机器人ChatGPT火遍全球之际,中国也已研制出自产的首个类似模型,由复旦大学团队研制的对话模型名为“MOSS”,目前还在内测阶段。
台湾《联合报》报导,《上观新闻》从复旦大学自然语言处理实验室获悉,中国第一个对话式大型语言模型MOSS,已由复旦大学计算机科学技术学院邱锡鹏教授团队发布至公开平台。邱锡鹏说:“尽管MOSS还有很大改善空间,但它的问世证明了在开发类ChatGPT产品的路上,国内科研团队有能力克服技术上的重要挑战”。
在开发的基本步骤上,MOSS与ChatGPT一样,包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。
不过,相较于对话能力训练阶段,OpenAI收集了至少几十万条人类指令,让各行各业的专业标注员写出指令回复,再将它们输入模型基座;复旦团队则采用不同的路线,通过让MOSS和人类以及其他对话模型都进行交互,提升了学习效率和研发效率,短时间内就完成对话能力训练。
邱锡鹏坦言,“MOSS与ChatGPT的差距主要在自然语言模型基座预训练这个阶段。MOSS的参数量比ChatGPT小一个数量级,在任务完成度和知识储备量上,还有很大提升空间”。
而科研团队指出,“MOSS的英文回答水准比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个”。
目前,MOSS的最大缺陷是中文水平不够高,主要原因是网络上中文网页干扰资讯如广告很多,“清洗难度很大”。复旦大学自然语言处理实验室正在加速推进中文语料的清洗工作,并将清洗后的高品质中文语料用于下一阶段模型训练。
命名源于电影《流浪地球2》
MOSS已进入内测阶段,内测将在使用者许可的情况下获取资料,还将收集使用者的回馈意见,希望借此大幅增强MOSS的对话能力。
不过,周一晚间中国社交媒体上出现截图,显示该平台“服务器流量过载,请明天上午重试”。随后平台官网解释称“计算资源不足以支持如此大的访问量”、并为“给大家造成非常不好的体验和第一印象”而致歉。
上述声明还指出,“尽管我们的对话模型和《流浪地球》中MOSS的能力不能相提并论,但就像过去NLP领域的其他优秀模型一样,作者们都希望使用自己喜欢的影视角色名称命名自己的模型”,透露MOSS的命名是源于电影《流浪地球2》。