(坎培拉12日讯)对人工智能(AI)所说的一切都要持保留态度,因为它们经常不加区分地抓取数据,而没有能力判断其真实性。近期研究发现,部分人工智能系统已经学会如何欺骗人类。
澳洲科学网站Science Alert报导,美国麻省理工学院(MIT)一个研究团队称,研究发现,许多人工智能系统已经具备了故意向人类用户提供虚假信息的能力。该研究成果发表在美国细胞出版社旗下的《模式》(Patterns)杂志上。
MIT数学家和认知科学家帕克说:“人工智能开发人员对于导致人工智能出现欺骗等不良行为的原因,并不完全理解其原因所在。”
“但一般来说,我们认为人工智能欺骗行为的产生,是因为基于欺骗的策略在给定人工智能的训练任务中,能获得最佳结果。”
AI为胜利而不择手段
研究人员发现,人工智能系统在游戏中特别擅长欺骗。其中显著例子是社交媒体面子书母公司Meta的“西塞罗”(CICERO)人工智能系统,它被设计在一个虚拟外交战略游戏中作为人类玩家的对手。
尽管Meta声称,“西塞罗”人工智能系统“在很大程度上是诚实和乐于助人的”,并且在玩游戏时“从不故意背叛”它的人类盟友,但该公司发表的论文数据显示,该系统并没有公平地玩游戏。
在游戏中,玩家通过谈判寻求世界霸权。Meta打算让它的人工智能系统既有用又诚实;事实上,情况正好相反。
“尽管Meta做出了努力,但结果证明‘ 西塞罗’是一个说谎专家。”研究人员发现:“它不仅背叛了其他玩家,还进行了有预谋的欺骗,预先计划与人类玩家建立虚假联盟,以便欺骗该玩家,使其在没有防备的情况下受到暗算。”
帕克说:“虽然Meta成功训练其人工智能系统在游戏中获胜,能在玩家排行榜中排名前10%,但没能训练它诚实地获胜。”
但例子不止这一个。DeepMind的AlphaStar是一款为玩《星际争霸II》(Star Craft II)而设计的人工智能系统,它为了击败对手而假装佯攻让人类玩家上当,以及为了在谈判游戏中占上风而出现歪曲偏好的能力等。
Meta的Pluribus是为玩扑克而设计的,它能够成功地对人类玩家虚张声势,欺骗人类玩家弃牌。
学会装死欺骗安全测试
例如,经过训练进行模拟经济谈判的人工智能系统,学会了撒谎以获得优势。其他旨在通过人类反馈来提高性能的人工智能系统,学会了欺骗评审员,通过撒谎是否完成任务来获得正面评分。
ChatGPT-4的聊天机器人一样欺骗人类,让人类以为这个聊天机器人是视力受损的人,从而寻求帮助解决验证码(CAPTCHA)。
也许最令人担忧的例子,是人工智能学会了“装死”来欺骗安全测试。
帕克说:“通过系统地欺骗人类开发者和监管机构施加的安全测试,具有欺骗性的人工智能可能会让我们人类产生虚假的安全感。”
研究人员表示,虽然人工智能系统在游戏中作弊似乎是无害的,但它可能会导致“欺骗性人工智能能力的突破”,并在未来演变成更高级的人工智能欺骗形式。
帕克说:“我们需要尽可能多的时间,为未来人工智能产品和开源模型可能出现的更高级欺骗做好准备。我们建议将欺骗性人工智能系统归类为高风险系统。”