近期由谷歌大脑创始人、前百度首席科学家,Deep Learning AI创办人,现为Landing AI首席执行官吴恩达(Andrew Ng)所主编的《The Batch》人工智能周讯,详细的报道了由杜克大学(Duke University)科员人员所开发的Pulse人工智能驱动的图像锐化系统,把有色人种肤色漂白化的科技界争议性课题。
最经典的例子是,当人们尝试锐化低像素的美国前总统奥巴马人头照时,系统所导出经过修复像素质量的奥巴马俨然变成了一个白人。据报导,面子书首席科学家杨立昆(Yann LeCun)也加入了关于这个课题的推特争论,并主张人工智能运算结论的偏颇源自于训练数据严重偏向特定族群所致。
谷歌人工智能守则团队的联合负责人添霓.格布鲁(Timnit Gebru)却对此意见表示反对,认为把焦点只锁定在数据,会低估机器学习社群中的集体系统性偏见(systemic bias in machine learning community)。随著论战日趋激烈,也是2018年图灵奖得主的杨立昆宣布从推特隐退。
前些时候,国际商用机器和亚马逊分别才在各方抗议美国警方执法不公、针对性刁难黑人以致佛洛伊德枉死的声浪中,宣布暂停提供警用人类面部识别系统。这是因为不少研究显示,美国执法单位所使用的人脸辨识系统能够准确辨识白人男性的身份,却在辨认有色人种尤其是黑人女性的面部时出现较大的误差。
有迹象显示,隐晦、难以完全根除的系统性偏见(数据和开发团队组成部分),以及实验室测试结果与系统落地实践后的应用成效落差,正一步步把纯数据驱动人工智能(pure data driven Artificial Intelligence)的投资氛围,从原本形势大好的人工智能之春,引向人工智能之秋。
也许,是时候连接主义(Connectionism)的拥护者承认,更严谨遵从工程管理规范的符号主义(Symbolism)如程序编写员以脑力用人手编译的规则导向(rule based)专家系统(Expert System)程序指令,能够纠正当前充斥人类以及人工采集数据认知偏差(Cognitive Bias)的机器学习与深度学习模型的局限,来强化和弥补这种当红人工智能技术的不足之处。
我想,现阶段数据驱动人工智能的强项是涉猎广和深,还有细,以及不时展现出其不意的战术惊艳或战略神来之笔(tactical and strategic brilliance),但不一定无时无刻准确;适合用来模拟使用者能够接受相当范围误差承受度的结果预测或结论推导,以及搜寻或配对大量模式相符或相近的物件辨识。但,不适合用来定夺攸关生命安全、命运际遇或刑罚处分的关键领域,因为哪怕轻微误差都会危害人命或造成执法或司法上的冤假错案。
麦肯锡全球研究院的专才曾在一个播客对谈中,提醒当人们希冀应用人工智能来解决人类在判断过程中惯常出现、难以避免的偏见时,可能正在不自觉中让人工智能产生另一种意想不到的决策偏颇。
现实世界数据瞬息万变
还有就是,许多世界一流团队逐年激烈竞争,先后宣称取得的重大人工智能科研突破过程中所采用的评比标杆数据,都是一样的开放数据。这些数据的象征意义也许大于实际作用。因为现实世界的数据往往更多元纷呈、瞬息万变,非一般年度科研比赛所采用的相对静态式的标杆数据所能比拟。
大多数人都以公共数据作为衡量人工智能模型运算准确度的基准参照点。因此,如果每个人都应用有内在偏颇缺陷的相同一组开放数据,我们其实是在复制大规模的人工智能偏颇。
我对数据驱动人工智能的看法是,它们与人类的弱点没有不同,都受限于自己已知的世界和过往的经验,都需要兼听则明,都需要采集全方位的数据来降低主观判断的几率。
与其将重要的决策完全假手于人工智能,倒不如把人工智能当作其中一个有发言权和有投票权的决策伙伴。让它成为有能力质疑其他人的理据,并被其他决策者质询的对象。这能够避免人类为了克服人性难以回避的潜意识主观偏差,却草率的引进了偏差算法还未被人类透彻了解和杜绝的人工智能运算偏颇。
AI不大可能产生平台
前谷歌大中华区总裁暨创新工场创始人李开复博士,近日对当下人工智能的能耐提出了相当中肯的评价。他主张AI更多是一项伟大技术,它将赋能给已有平台如互联网等,但是AI自身不大可能会产生一个平台。他以从AI+过渡到+AI来解释务实应用人工智能科技的做法。
李开复解释,在人工智能最火红的AI+时代(亦即AI技术占主导地位,AI主导企业方向的时代),AI公司是以技术为主,以天才科学家为核心创业。但这类公司非常少,毕竟懂得AI的科学家有限,他们遂被资本追捧,成为第一批AI公司。在务实应用人工智能的+AI时代(亦即传统行业加上AI应用的时代),传统公司的业务将主导的AI应用,传统行业利用AI来削减成本、赋能和提高效率。