《大数据》:掌握生活的真实样貌

《大数据》:掌握生活的真实样貌

Vista来自风城,现居台北市,悠游于网路、媒体与科技产业。平常喜欢看看书,写写字。出版过电脑书、小说,更爱在字里行间寻觅人生的况味。
立即试读

大数据、巨量资料或者海量资料,谈的其实都是同一件事,也就是近年来在资讯领域相当火热的Big Data。根据维基百科的诠释,Big Data指的是所涉及的资料量规模巨大到无法透过目前主流软体工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

网路上每一笔搜寻、交易,或者大家敲打键盘、点击滑鼠的每一个输入都是数据,把这些资讯整理起来分析排行,它的功能可不仅仅止于事后被动了解市场,蒐集起来的资料还可以被规画,引导开发更大的消费力量。

至于这些资讯规模有多巨大呢?根据IBM公司的统计,我们每天所建立的资料高达2.5百万兆位元组,这个难以估量和感受的庞大数字,不只是大家在工作或学术场合所产出的资讯,也包括了你我在Facebook、Twitter等社交网站所张贴和分享的文字、图片。

一般而言,Big Data包括了三种层次,也就是巨量、即时性和多样性。前两者比较容易理解,不需太多解释;而多样性则主要是指资料的样貌非常多元,包括结构与非结构化的部分,像是文字、影音和点击,当然也包括专门用来统计的日誌档(Log files)。

市面上,随着Big Data愈来愈热门,相关的书籍也愈来愈多了,每本的方向和主题也都不太一样。而由麦尔荀伯格(Viktor Mayer-Schonberger)和库基耶(Kenneth Cukier)这两位专家所合写的《大数据》,主要在谈三种大数据时代的新思维。

第一种新思维是「样本=母体」,这个概念很有意思,也颠覆许多人对Big Data的想像。过去我们习惯用抽样的方法来推估母体的全貌,这是一种不得已的做法,但现在的资讯技术已经有能力掌握全体资料,自然也就可以从庞大的数据中去爬梳隐匿的真相。

第二种新思维是「拥抱不精确」,读到这里的时候我其实有些诧异,原来在Big Data的时代,资料数量比资料品质更为重要。作者举了Google翻译的例子,这下我终于可以理解什幺叫做「先求有,再求好」了!换言之,我们要能够容忍资料不準确,因为这就是拥抱Big Data必须付出的代价。

而第三种新思维则是「找到相关性,不再追求因果关係」,这一点倒不难理解,书中举了亚马逊的例子,以资讯演算法则介入书籍推荐的做法,来说明企业拥抱Big Data可以获得的好处。如今,「追求相关性」的做法已经被普遍应用在许多购物网站,也由于有巨量资料的佐证,也让这些智能推荐愈来愈準确。

资料化不只是将态度、情绪转为可分析的形式,还囊括人类的种种行为。

透过这三种思维的转换,《大数据》不只让我们理解Big Data的重要性,更能够透过书中的多个案例,感受到这股浪潮所带来的冲击和影响。是的,我们都活在资讯爆炸的碎片化的时代,学习和巨量资料共处,也将是吾人必须学习的课题。

打开《大数据》这本书,让我们一起倘佯在资讯流中吧!

相关文章