我们先听一则古老的寓言,再看一个现代的模型,后提教育数据的收集和扯淡。

有一则叫【棘刺为猴】的古代寓言:燕王喜欢小巧玲珑的东西。有个卫国人请求为他在酸枣刺的尖端上雕刻猕猴。燕王非常高兴,就用三十平方土地的优厚俸禄供养他。有一天,燕王对卫人说:‘我想看看你是怎样在酸枣刺上雕刻猕猴的。’卫人说:‘国君如果想看它,必须半年不到内宫住宿、不喝酒吃肉,然后等一天雨停日出、阴晴交错时,您站在阴暗的地方看,才能看见酸枣刺上的猕猴。’燕王只好继续供养卫人,却始终看不到他刻的猕猴。

郑国台下地方有个铁匠,对燕王说:‘我是做刻刀的人。各种精细的东西都是用刻刀刻出来的,而被刻的东西一定要比刻刀的刀锋大。现在,酸枣刺的尖端容纳不了刻刀的刀锋,怎么能刻出一个猕猴来呢?国君只要看看他的刻刀,能不能刻出猕猴就一清二楚了。’燕王说:‘好。’于是便把卫人找来,对他说:‘你是用什么在酸枣刺上制作猕猴的?’卫人说:‘用刻刀。’燕王说:‘我想看看你的刻刀。’卫人说:‘请让我回到我住的地方去取来吧。’于是就趁机逃跑了。

美国西雅图的华盛顿大学在2017年开了一门课,叫做Calling Bullshit (下文简称 CB),中文有人直译为抵制狗屁。Bullshit一词,南方朔翻译成‘扯淡’,比较温和与斯文。CB的授课老师是生物系的Carl T. Bergstrom和信息学院的Jevin D. West。网上已有完整的讲课录影,书也出版了,谁愿意对自己有点素养要求、学学如何理智应对数据、错误和虚假信息的,可以看看这本书。

今天,信息大爆炸,数据动辄海量,同时收集数据也得助于科技而变得简易。这时,不管你爱说什么,只要能伴随一组数据,必然更有说服力、震慑力。无论你在哪个机构哪个部门做领导,以数据辅佐你所说、所写,是一个必须有的真本事,或伪装能力。

数据之所以具震慑力的原因在于不是每个人都具备处理和读懂数据的能力。我小时看见别人西装笔挺,总以为他们必然是成熟之人。道理一样,有人看你手握数据就以为你另有能耐,却不知那可以是一个假象。

CB的作者教人怎么绕过这个障碍。他们建议,不必理会数据是怎么处理的,只管看数据是怎么获得的及检视其质量,然后看数据被处理后的结果,包括如何被诠释和应用,即可知以数据支撑的陈述、论述是不是扯淡。也就是说,根据图一,黑箱中的数据处理机制可以不管,只看左边的数据输入和右边的数据处理后结果即可。

图一
图一



CB作者说这一招常常管用,省得打开黑箱,就可辨识扯淡。19世纪时有位意大利犯罪学家 Lombroso 认为一个人的犯罪是遗传的,我们可以通过外表识别"生来就是罪犯 "的人。他的理论在二十世纪前半叶被驳倒,之后不复存在。但在 2016年, 上海交通大学的两位学者发表了一篇学术文章,提出通过机器学习 (machine learning),他们能根据人脸特征以接近90%的准确率分辨犯罪者和非犯罪者。

CB作者认为两位学者的数据是有问题的。经一番检验,他们发现学者用以训练机器学习演算法(即图一的黑箱)的是1800张的人头像,像中人年龄介于18至55岁之间。其中大约1100张是非犯罪者,700张是犯罪者。前者照片取自社交网站、专业公司员工列表等等,而后者则由警察部门提供,取自官方身份证。这样获取的数据本身就隐含偏差,两类照片的拍摄设定有差别,观感也不同。各位如果抱怨过自己的护照、驾照等照片不好看,马上就能明白其中的道理。

CB作者认为在数据处理的结果方面也是有问题的。经两位学者训练的机器学习演算法根据几项人脸特征判定某人是否为犯罪者,其中两点是:犯罪者口角和鼻柱所形成的角度较小、上唇曲率较大。但微笑的人由于口角向外张,上述角度会变大,而下唇曲率会变小。按常理想一想:上述两组照片中,哪一组人拍照时比较可能微笑?

在无需理会机器学习演算法是怎么一回事下,根据以上检验,CB作者认为通过样貌判定一个人是不是犯罪者,是扯淡。

【棘刺为猴】中的铁匠给燕王建议的方法和CB作者的方法相似,虽则前者不涉及大数据。酸枣刺是制作猕猴的材料,犹如图一中的数据。在酸枣刺上雕刻是处理材料,是卫国人不让外人看见的过程,犹如图一的黑箱。而雕刻品猕猴是产品,犹如黑箱输出的结果。(请比较图一和图二以明白两者的关系。)卫国人聪明,但取酸枣刺为雕刻材料,是百密一疏,犹如两位学者选取两组照片时不自觉纳入偏差一样。而忽略了刻刀刀刃必须比被刻的东西小这层关系,却声称能有这样的产品,这犹如忽略了拍生活照的人比较可能微笑(以致口角和鼻柱之间的角度较大)而声称他们不会是犯罪者一样。
 

图二
图二

    
铁匠的建议之巧和CB作者的模型之巧相似。既然卫国人有意不让燕王观看制作过程,那么只要看看刻刀的大小(并和酸枣刺之大小比较),就可以知道卫国人声称的结果是否可能。这是个在思维层次上有趣的古今联系。

在教育界,老师经常需要做数据的收集、处理和诠释工作。做好数据的收集这一环是很难的。如何才算‘明白’?不同的老师对这个概念有不同层面和深度的了解,因此也就有不同的设题方式去评估学生对某一概念的了解和掌握。最差的老师不考量这些,只从参考书、网络上搬运题目拼凑卷纸,学生能作答就算是明白,不能作答就算是不明白。

许多人以为选择题是最容易设的,这反映出对‘明白’一事没多少关注和思考。而把题目设得难或简单都是容易的,把题目设得符合学生的程度和课纲水平,才是考老师的本事。评估工具建设不好,收集到的数据带出的讯息就不全、扭曲甚至跑题。学校派发下来的一些调查问卷有时被家长一遍填一边诅咒,这是其一原因。

处理好考试成绩后,在予以诠释方面,许多是扯淡。若是成绩不理想,他们就说学生学习态度、心态和方法有问题。如果成绩理想,就说这一回题目比以往的容易。遇上疫情,网课成了用来解释考试成绩不好的万全原因,而且还耐用。高思维教育提出初期,老师说学生差是因为高思维能力不足,而学生杰出则是因为高思维能力强,真是成也高思维,败也高思维。

扯淡的人不关心事实真相,看著数据想当然尔就胡说一通,反正没人能驳倒我。小学、中学的老师是这样,在科研中必须用统计学分析数据的讲师是这样,部长也是这样。大数据时代,催生扯淡文化。

热门新闻

阅读全文
(示意图)

出生7天遭狠心父母抛下桥     男婴命大挂树上幸存“背遭乌鸦咬烂”

阅读全文

“我的公积金储蓄用完了!” 六旬妇女被迫驾电召车谋生

阅读全文

为赚手术费乱切健康器官 中国“恶魔医生”被判刑17年

阅读全文

小彬彬与小12岁越南妻离婚 节目上曝“目前感情状况”

阅读全文

放烟火酿祸 住家商店车辆遭殃

阅读全文

还我们一个公共媒体

阅读全文

姚文杰:手机上瘾症

东方文荟

话说有一个法国小镇的居民举行过一场公民投票,结果百分之52的居民赞成公众场合禁止使用智能手机。这项禁令实施的范围涵盖人行...

阅读全文

朱家健:警惕日本菲律宾把亚太武装化

东方文荟

7月8日,日本和菲律宾签署了《互惠准入协定》(Reciprocal Access Agreement),让日本自卫队和菲...

阅读全文

陈仁杰:伊党对盟友嗤之以鼻

东方文荟

国盟是一个在机缘巧合之下成立的政治联盟。2020年喜来登行动后,慕尤丁领导的土团蝉过别枝脱离了希盟,及后更是一举拿下首相...

阅读全文

林艾萱:“终活”──坦然的“向死而生”

东方文荟

那天看到一名媒体朋友在脸书上帖文,说自己以为再也看不到明天,因为突然的心肌绞痛,在进入医院检查后,紧急进行人生第一次心脏...

阅读全文
从太平新芒魏遥望太平山,远山叠翠如含笑。

雷子健:雾花魅影太平山

东方文荟

第一次听说霹雳的太平山,应是中学华文课本的谢冰莹〈太平山游记〉。中学生当年印象至深刻的华文课文,除了朱自清的〈背影〉、〈...

阅读全文

姚文杰:自创减重法

东方文荟

从疫情封城那个以前的世界走过来后疫情时代的另一个世界,必须厘清的事情实在很多,减重只是其中一项。以前那个世界的我,一周游...

阅读全文

陈仁杰:我,永远不会错!

东方文荟

民主社会里,合格选民手中的选票,是一众政治人物的香饽饽。在选票决定了一切的大背景之下,不少政治人物为了一尝权利滋味,绞尽...

阅读全文

林艾萱:最无聊的阅读笔记

东方文荟

每次看到孩子在电脑前面埋头苦干,上前一看,孩子拚命在电脑上打著一些不熟悉的字眼,只为了填满教育部规定的“读书计划”阅读报...

阅读全文

杜新宝:学习的目标和红利

东方文荟

宗萨钦哲仁波切说学佛的目标是要解脱、成佛,不是为了快乐、心灵平静。因学佛而快乐、心安是学佛的红利,不是目标。红利不可取代...

阅读全文

姚文杰:学习村上春树的创作方法论

东方文荟

有关于写作方面的心得、身为职业作家的磨练,村上在《关于跑步,我说的其实是...》已经分享了不少。赖明珠翻译、时报出版的这...