(伦敦19日讯)人工智能系统AlphaGo今年5月击败中国围棋高手柯洁后,即宣布退役,但其开发公司DeepMind继续研发工作。DeepMind团队周三公布最强版AlphaGo,代号AlphaGo Zero,其独门秘籍就是“自学成才”。而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。
据中国上海澎湃新闻网报导,团队称,AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGo Zero取得100:0的压倒性战绩。DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式,刊登在科学杂志《自然》上。
AlphaGo之父、DeepMind联合创始人兼首席执行员哈萨比斯表示,AlphaGo Zero是最强版本,它提高计算效率,并且没有使用到任何人类围棋数据。AlphaGo此前的版本,都是结合数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。
经过几天的训练,AlphaGo Zero完成近500万盘的自我博弈后,已经可以超越人类,并击败此前所有版本的AlphaGo。
DeepMind团队在官方部落格上称,Zero用更新后的神经网络和搜索算法重组,随着训练加深,系统表现不断进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。
自行创造知识
AlphaGo团队负责人席尔瓦指出,AlphaGo Zero使用新的强化学习方法,让自己变成老师。系统一开始甚至并不知道甚么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行自我对弈。随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。
更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo Zero还独立发现游戏规则,并走出新策略,为围棋这项古老游戏带来新见解。
经过短短3天的自我训练,AlphaGo Zero打败此前战胜李世石的旧版AlphaGo,战绩是100:0的。经过40天的自我训练,AlphaGo Zero又打败AlphaGo Master版本。AlphaGo Zero的提升,让DeepMind看到利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。