如何在庞杂的巨量资料中,发掘价值,将大数据转化为商业智慧(BI,Business Intelligence),成为了决胜关键。
连接面子书页面,出现推荐“你可能认识的朋友……”的建议,让你因此而找到失联已久的同学;到亚马逊(Amazon.com)网站购书,你看到“买这本书的人也买了这些书……”的清单,也正好是自己想读的书;只要打一个字,谷歌就出现“您是不是要查……”的资讯,正确预测到你想找的关键字。
事实上,这些“偶然的幸运”,都和善用大数据分析(BigData,亦称巨量资料、海量资料)有关。
SAS首席分析员Mark Chia表示,早在5年前,大数据分析技术已出现在市场上,但基于当时国人对这崭新的技术都一知半解,因此没有被充分利用。然而,欧美国家无论是在观念、技术或是数据累积方面上,都已经发展得十分成熟。“大马已经有足够的资讯,是时候准备进入大数据时代了!”他说。
资讯持续更新 分析势在必行
根据Gartner进行的研究显示,现时有关的数据每年最少以59%的幅度增长,而大数据已从平均达到Terabyte(TB)发展至以Zetabyte(ZB)的数据量。
Mark表示,随著互联网的发展,现在每一秒有大约63万9800GB的资讯在网络世界里串流。目前,在全球范围内的工业设备、汽车、电子仪表和装运箱中,都有无数的数字感测器,这些感测器能测量和交流位置、运动、震动、温度和湿度等数据,甚至还能测量空气中的化学变化。
“来自不同管道的资讯不断诞生,让现有的科技技术无法消化。”Mark认为,大数据拥有3个关键性的特征包括包括、速度(Velocity)、数量(Volume)和种类(Variety),即庞大容量、极快速度和种类丰富的数据。
这3个关键性的特征被业界人士称为“大数据的3个V”。
关键3V 有效整合资讯
大数据极具爆发力,为IT组织带来了机会和挑战。为发掘它的全部潜能,大数据分析需要以全新的方法来捕获、存储和分析。“大数据的3个V”概括了大数据的主要特点,同时也定义了IT部门需要解决的主要问题:
●数量(Volume)
大数据所包含的数据量很大,而且在急剧增长之中。但是,可供使用的数据量在不断增长的同时,可处理、理解和分析的数据比例却不断下降。
●种类(Variety)
随著技术的发展,数据源不断增多,数据的类型也不断增加。不仅包含传统的关系型数据,还包含来自网页、互联网、搜索索引、论坛、电邮、传感器数据等等。
●速度(Velocity)
除了收集数据的数量和种类发生变化,生成和需要处理数据的速度也在变化。数据流动的速度在加快,要有效的处理大数据,需要在数据变化的过程中实时地对其进行分析,而不是滞后的进行处理。
非结构数据 潜能资讯源
大数据分析在结构类型上分为结构化(structure)以及非结构化(unstructure)。“目前在市场上,结构化数据占20%,非结构化数据占80%。”Mark说道。
结构化数据指的是经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,其使用和维护通过资料库进行管理,并有一定的操作规范如各种生产、业务、交易、客户信息等方面的记录。
非结构化的数据是指没有固定结构,通常无法直接知道其内容,保存为不同类型文件的数据,如各种图像、视频文件。
Mark强调,非结构数据的增长速度比结构化数据的增长速度更快。根据2011年的IDC调查报告显示,非结构化数据将占据未来所创造数据的90%。非结构数据作为一个尚未开发的信息源,非结构数据可以揭露之前很难或无法确定的重要关系。
大数据分析预测
大数据无疑是未来影响各行各业发展的最受瞩目的技术之一。大数据的大爆炸不断提醒著我们,未来将会因大数据技术而改变。“SAS预计未来大数据分析将会对个人(People)、企业(Company)、媒体(Media)和互联网(Internet)有著深深的改变。”Mark说道。
◆个人
现时,每个人都手上都至少持有一台智能装置,而每台智能装置每分每秒都在互传资讯。“过量的资讯会造成用户的困恼,用户对于与自己不相关的资讯有时会觉得反感。”大数据分析将能够依据用户们的习惯、喜好和属性,进而推送相关的资讯给用户。“这对商家和消费者都是一个双赢的局面。”Mark补充。
◆◆企业
每间公司都有海量的资讯,而这些资讯会不断增长。大数据将能帮助企业机构变得更加“聪明”,并给予他们业务优势。企业可以利用流量分析客户们的对该企业提供服务或产品的满意度和投诉分析,让企业可以做出改进和推送相关的资讯于消费者。
◆◆◆媒体
通过大数据分析,各大媒体可以做出更精准的决策。“比方说,日报的寿命仅有1天,若印刷过多,就会加重成本。”Mark说道。
大数据分析让报馆可以据客户基本信息、兴趣爱好、订阅行为、客户忠诚度,来决定每一天的印刷数量。另一方面,报馆也可以随著读者订阅习惯的变化,探索新的订阅方式,吸引更多的户订阅报刊。
广告商亦能“对症下药”,通过大数据分析来推送合适的广告给消费者,比方说黄金时段的主要观众群是男女老幼,广告商可以选择在这个时候播放适合男女老幼的广告资讯。
◆◆◆◆互联网
来到“大数据”时代,数据将成为决策最为重要的参考之一。大数据的分析(Big Data Analysis)可以针对用户的兴趣,进而推送你有兴趣的商品或广告给你。
简单来说,互联网将会比你的家人更了解你。不同的人在同一时间登入同样的网站,所看到的资讯或电子广告也不一定一样,因为大家的兴趣和喜欢的东西并不同。这些数据都是经过背后复杂的大数据,所分析出来的结论。
国外曾有一个例子,有个女生爸爸发现网站一直发送有关孕妇资讯给他的女儿,他就觉得很奇怪,最后才发现原来她的女儿真的怀孕了。但是,为什么网站会比爸爸更快知道自己的女儿怀孕呢?原来,这网站是通过女儿时常会去了解怎么样的商品,并通过所有的资料收集以及分析,最后定下只有孕妇,才会有这样的兴趣和嗜好为结论。
另一个较为贴近消费者日常生活的例子是,现代人每天都会使用谷歌引擎,谷歌引擎周围也会出现一些电子广告,但你可知道,每个人看到的广告可不是一样的哦!因为谷歌也会根据你平时的搜寻习惯,预测你的兴趣,进而推送相应的广告给你。