(纽约5日讯)美国财经资讯公司彭博(Bloomberg)近日宣布研发自有聊天机器人BloombergGPT,盼推出专于金融领域的人工智慧(AI)资讯处理应用,以提供客户和记者更好的功能与服务。
中央社援引美国新闻业网站尼曼实验室(Nieman Lab)报导,彭博3月31日发表研究论文详述BloombergGPT的开发。
据彭博介绍,BloombergGPT是“一个新的大规模生成式AI模型。这个大型语言模型(LLM)专门锁定范围广泛的金融资料来训练生成,目的为了支援多元化的金融产业自然语言处理(NLP)任务集”。
彭博表示,近期以大型语言模型为基础的人工智慧发展,已在许多领域展示出令人振奋的新应用。但金融领域因其复杂性及具有专门术语,有必要有专属模型。
因此BloombergGPT的推出,代表将聊天机器人这项新科技,开发应用到金融产业的第一步。
最大的金融领域资料集
彭博指出,BloombergGPT将协助其改善现有金融相关自然语言处理的任务,例如文本情感分析、命名实体辨识(NER)、新闻分类、回答问题和其他功能。
此外,它也创造新机会来排列可从彭博终端机取得的巨量资料,以提供客户更好的协助。
至于BloombergGPT的训练规模,彭博表示它的语料库有7000亿馀个字词碎片(token)。
相较之下,热门聊天机器人ChatGPT的开发公司OpenAI在2020年推出的模型GPT-3,训练的语料库则约有5000亿个字词碎片。
根据彭博说法,BloombergGPT的语料库中,有3630亿个字词碎片取自彭博自有金融资料,也就是来自彭博终端机的资料库。
彭博号称这是“至今最大的特定领域资料集(dataset)”。其馀3450亿个字词碎片则是取自其它来源的通用资料集。
彭博还说,训练资料分为财金类FinPile和一般The Pile两类。
其中FinPile包括彭博档案库中的各类英文金融文件,如新闻文章、公告、新闻稿、网页内容和社群媒体资料,以及彭博记者撰写的新闻以外所有的新闻来源。
至于The Pile,则是庞杂的语料库,来源从YouTube的画面撷取、文艺数位化的古登堡计划(Project Gutenberg)到AI训练常见的安然公司(Enron)电邮快取。
实际用途
尼曼实验室的文章表示,按照其训练原理,它应该具有像ChatGPT的功能,但此外也能处理与彭博需求更相关的任务,例如将自然语言指令翻译成彭博查询语言(Bloomberg Query Language)终端机的使用者偏好功能。
BloombergGPT也能为新闻文章,提议具有彭博新闻风格的标题。彭博还说,BloombergGPT更能胜任回答与商业有关的提问,无论是有关文本情感分析、分类、资料撷取或任何其它任务。