由于电脑和科技在21世纪有大大的进步与提升,使得电脑容量可以处理和采集庞大的数据。我们的生活已离不开数码化,加上这两年以来受到新冠疫情的影响,我们的生活和消费模式已从线下转为线上。我们只需要通过手机,就能解决基本的衣食住行。 每当我们使用手机在社交媒体上发帖、阅览新闻时事或在线购物,我们都会留下一连串的数字痕迹。
这些数字痕迹都能转换为数据,数据若没有经过分析和解读,则毫无意义。因此,企业也增聘这方面的人才如数据分析员、数据科学家和业务分析师等,以便从收集到的数据可分析消费者的习惯、风险管理、预测用户行为或营销策略等等。
我们从数据分析中得出的结论和决定,取决于取得数据的管道有没有可能存在与实际情况不同的偏差。
第二次世界大战有一个特别的案例说明数据可能会存在与实际情况不同的偏差而导致错误的结论和判断。
美国海军为了遏止空战的损失,决定要对返航布满弹孔的战机进行研究,以查明弱点所在。他们邀请了美国哥伦比亚大学统计学教授沃德,利用其统计学的专业知识提出“飞机应该如何加强防护,才能降低被炮火击落的概率”。
美军分析人员收集了所有成功返航的战机,整理出战机损坏的数据(当时应该称得上是“大数据”),制作出损坏程度与弹孔位置的分布图。分析人员从数据分析和研究发现,弹孔分布在机身各处,但是引擎位置的弹孔很少。
由于引擎受损的战机数据很少,从逻辑上而言,应该加强战机的其他部位的防护。
惟,统计学家沃德独排众议,认为应该加强的反而是引擎的部位。为什么?
这是因为一旦战机的引擎受损或被击中,其安全返航的概率大大减低,根本没有办法返航接受分析。军方最后采用了教授加强引擎部位的建议,并且后来证实有关决策是完全正确的。
美军分析人员是陷入了幸存者偏差(survivorship bias),是我们不小心忽略了某些不明显的失败案例,而只是根据成功的案例做出结论和判断。
在我们日常生活中,也常常会陷入幸存者偏差的思维。比如说,我们最常听到某某人放弃学业而创业,如何从月入2千变成了月入百万的成功故事。这些故事忽略了时机、人脉所扮演的重要角色以及排除半途而弃或被淘汰在路上的人。这些失败的案例,就犹如没能安全返航的战机。
当我们以大部分都是来自幸存者的数据做分析,而忽略被淘汰或离场者的数据,我们就有可能做出错误的决定和结论。要避免陷入幸存者偏差的误区,我们不但要向成功的案例学习,也需要从失败的案例中寻找失败的原因。