大数据时代,数据科学家成为新兴的热门工作,吸引不少学子往这方面发展。想要成为数据科学家,不一定只能报读数据科学本科,念统计学一样也可以。
根据美国求职网站Glassdoor发布的《2019年美国最佳工作》(2019 Best jobs in America)排名,数据科学家(Data Scientist)以10万8000美金(约45万令吉)的平均年薪占据第一。随著数据科学在各个行业的需求剧增,全球各大专院校也在近几年推出了相关学科科系,以迎合庞大的市场需求。
工业统计 提供有效分析
随著市场对数据科学家的需求量越来越大,不少学府也开始推出相关科系,包括数据科学、工业统计学(Industrial Statistic)等,虽然科系名字不同,但内容相仿。双威大学(Sunway University)今年推出工业统计学系,以基础原理、数学及电脑知识为3大教学主轴,帮助学生迈向数据科学家的路。
处于大数据时代,无论哪个行业,都有可计算的数据,区别在于数据的多寡和计算方式。统计师被美国劳工部劳动统计局(Bureau of Labor Statistics)列为2018年增长最快的职业,并预计市场对统计师的需求将会在2026年增长至33%,而其他工作的需求增长幅度则介于7.4%左右。2015美国财经杂志《Fortune》曾评价统计学是美国科学、技术、工程及数学(STEM)领域中发展最快的领域,而《美国新闻与世界报道》(US News & World Report)则在2016和2017年将统计师评价为5大热门工作之一。
“简单来说,统计学其实就是数据。”双威大学数学科学学院(School of Mathematical Science)院长何子杰指出,每个行业都有数据,而将数据进行分析、帮助企业做出商业决定,都是统计师的工作。拿到数据后,数据分析可分为3大类,即“描述性分析”(Descriptive Analytics)、“预测性分析”(Predictive Analytics)及“指示性分析”(Prescriptive Analytics)。描述性分析能解释已发生的事,如分析出消费者是谁、买了什么货品等;预测性分析能分析出即将发生的事,如推测消费者接下来可能会购买的物品;而指示性分析则能指导执行者该如何做,如在顾客完成消费后,手机会自动收到适合自己的临近店家优惠券。
要完成上述分析,则需要有电脑科学、数学统计及基础原理的支撑。“很多学校会著重在前面两点,但要是学生不理解原理,很可能会导致统计错误。”何子杰表示,当学生对基础原理掌握不足时,可能导致他们用错误的方式萃取数据,又或者无法分辨拿到的数据是否正确。倘若数据的源头错误,将导致分析结果错误。“即便现在有人工智能(AI)和分析软体的帮助,但数据本身就已经被“污染”了,又怎能分析出正确的结果呢?”
何子杰认为,目前的科技仍然无法辨认数据萃取源是否正确,因此需要从根本开始著手,打好基础才能确保数据源正确。他举例,许多人不明白统计学为何要修线性代数学(linear algebra),其实它能培养学生的思维模式,帮助他们在数据还未经电脑分析时,就看到其分析模式。
他亦指,基础知识中并没有哪个比较重要,而是环环相扣,科目与科目之间相辅相成。譬如在学概率(Probability)前要学微积分(Calculus),然后还需要有运筹学(Operational Research)、数学统计(Mathematical Statistic)等才能形成学生的基础观。有了基础知识,无论在学习商业知识或是电脑科学,都能很快上手。“我们会尽量在电脑科学、数学统计和基础知识中达到平衡。”
讯息化时代 统计学毕业生出路广
为了符合人工智能的运用,统计学也纳入城市编码。但要平衡三方面的知识就得缩减一些电脑科学相关课程。何子杰坦言,这里的电脑科学课或许不比其他院校多,但院方会按照业界需求来规划程式编辑的课程内容。“现阶段学的是R、VBA、SAS、Python等,但会随著市场变迁而调动。课程中不仅教导程式编码,也会将之融入其他课里,让学生融会贯通。院方也会不定期举办工作坊,邀来业界人士进行指导,让学生有更多机会了解业界现况。
为期3年的课程中,学生需要到数据相关行业或品质管控领域实习至少3个月。何子杰笑说,并非只能选择到征聘数据科学家的公司实习,只要是需要运用数据的地方都能实习。
“有人好奇为何统计学学生可以到品质管控部门实习,其实在品质管控中,统计师需要计算生产线的一切,以确保产品达标。若是产品不符合标准,则需要用数据重新建立整个生产线。”
他也举例,制造业需要靠数据统计来计算原材料的用量、确保品质达标、控制生产时间等;医药行业则需要分析病人的住院天数和成本、预测临床前疾病(pre-clinical disease)等;建筑业需要统计学来帮助计算什么营运组合才能维持在最低成本内,计算和比较员工的生产力、材料价格、数量是否成正比。统计学学生出路不少,包括统计员、数据分析、项目顾问、品管工程师、生物统计学家等,何子杰洋洋洒洒数了一堆后总结:“总的来说,是在做数据就对了,只是行业不同,名称也不同。”
助学生考取国际认证
美国职业社交网站领英(LinkedIn)2018年8月发布的劳动力报告显示,美国有超过15.1万个数据科学家职位空缺,纽约、旧金山和洛杉矶等地更是出现了严重短缺。
“数据科学家已经成为众人眼中的香饽饽,但并非拿著大专毕业证书就能说自己是数据科学家,要获得认可,就必须考取国际认证。”何子杰指,校方在研究过全球商业智能和分析软体SAS旗下的数据科学家认证考试后,发现认证考试分为5大区块,当中有不少考题需要有基础知识的支撑。“这也是我们将基础原理设为课程中3大范围的主因。”
校方早前便已将SAS的部分软体作为授课工具之一,早前更与SAS达成共识,将会把一些SAS科目纳入教学范畴,而SAS也会派送讲师前来授课。“当然,我们只是为学生做好应考的准备,最终的选择权还是在学生手中。”学生可自由选择是否要考取数据科学家认证,倘若不考取认证,只要完成3年的课程,毕业时也能获得SAS所颁发的联合证书。
校方同时引进美国质量协会(The American Society for Quality,简称ASQ)的六西格玛(Six Sigma Certification)供学生选择。六西格玛是一种改善企业质量流程管理的技术,以“零缺陷”的追求,带动质量大幅提高、降低成本,最终实现财务成效的提升与企业竞争力的突破。它旗下共有6种不同的带段考试,学生可选择适合自己的带段应考,将能帮助提升个人营运技能及领导技能。