大数据:引爆新的价值点
上QQ阅读APP看书,第一时间看更新

1.2 初识大数据

在人类社会发展的历史长河中,经济发展往往伴随着技术革命。2013年称为“大数据元年”。目前,几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子。

大数据无处不在,大数据应用影响到了人们的工作、生活和学习,并将继续施加更大的影响。

1.2.1 大数据的定义

在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称(4)

数据的基本计量单位是Byte,按照1024(210)进率,依次递增为B、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB。

1B=8b

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB

1PB=1024TB

1EB=1024PB

1ZB=1024EB

1YB=1024ZB

“大数据”一词本身就是一个比较抽象的概念,单从字面来看,“大”体现了研究或应用的量级规模是庞大的,“数据”则说明了研究或应用对象的实质。但是什么样的数据量级才可以称之为“大”呢?

传统数据库有效工作的数据规模一般为10~100TB,因此麦肯锡和IDC公司对此都有过相近的说法,10~100TB通常成为大数据的门槛。所谓大数据从数据规模上看,大概是指100TB以上的数据体量,100TB相当于现在100部最新笔记本(1TB硬盘)的最大存储总量。但是,数据计算的难度与速度还涉及数据的类型、结构与存储的复杂性,因此以100TB为基准来定义大数据的说法未必科学。

大数据和互联网都是一种通用目的技术(General Purpose Technology),随着技术和应用的发展,其概念也在不断地演进。尽管有很多研究机构和学者给出的定义被广泛认可,但是却没有公认的、唯一的准确定义。

维克托·迈尔·舍恩伯格与肯尼斯·库克耶在他们合著的《大数据时代》一书中指出:大数据是指不用随机分析法这样的捷径,而采用所有数据的方法(5)

大数据:样本=全体。

因此,所谓的“大”其实也包含着“全”的含义,不是相对的量级,而是绝对的范围。

对于大数据这一概念比较被认可的定义还有以下几种。

(1)大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理并整理成为人类所能解读的信息。(维基百科(6)

(2)一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Value)4大特征。(麦肯锡全球研究所)

(3)大数据是数据集或信息,它的规模、发布、位置在不同的信息孤岛上,或它的时间线要求客户部署新的架构来捕捉、存储、整合、管理和分析这些信息以便实现企业价值。(EMC公司)

(4)大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,这些信息资产需要新型的处理方式来强化决策制定、洞察发现和处理优化。(研究机构Gartner, 2012)

(5)大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。(中华人民共和国国务院,《促进大数据发展行动纲要》,2015)

这些定义都强调的是大数据的海量数据规模、多样数据类型和新型处理技术的特点。Gartner将大数据定义为一种信息资产,即数据的价值不仅体现在数据本身,更可以作为市场经济中的生产要素,用于交易并创造出更大的价值。我国的《促进大数据发展行动纲要》中,将大数据作为新一代信息技术和服务业态,强调了大数据具有的创新性和服务性,是信息革命、互联网+时代引领的新型应用、新型服务、新型行业。

大数据从哪里来?我们可以把它简单地概括为以下三大类。

第一,流动数据。物质世界本身数字化产生的大数据。例如一些医疗服务类网站,将医生信息、门诊信息等现实事物数字化,形成了大量网络数据;物联网上的人、机、物交互产生了实时的行为轨迹和状态数据。

2010年,美国有1.5亿慢性病患者,如糖尿病、充血性心脏衰竭、高血压患者,他们的医疗费用占到了医疗卫生系统医疗成本的80%。远程病人监护系统对治疗慢性病患者是非常有用的。远程病人监护系统包括家用心脏监测设备、血糖仪,甚至还包括芯片药片,芯片药片被患者摄入后,实时传送数据到电子病历数据库。

第二,社交数据。用户在互联网交流过程中不断产生各式各样的行为大数据,这类数据在社交互动中越来越具有吸引力,尤其是它的营销功能。但是这些数据通常是在非结构化或半结构化形式,对于一个公司当使用和分析这些数据信息的时候,不仅要考虑数据的规模,大数据应用也是一个独特的挑战。大量移动电子终端设备的出现,更加快了互联网信息制造的速度。

2011年8月23日,美国弗吉尼亚州发生5.9级地震,纽约市民首先在Twitter上看到地震信息之后才感到震区传来的真实震感。这意味着,社交网络不但是提升人类信息传播速度的工具,也是用户随时随地记录行为、思想和情绪的平台,而这种数字化的记录就是制造数据的过程。

第三,公开来源。庞大的数据可以通过打开数据源,像美国政府的数据,CIA世界各国概况或者欧盟开放数据门户等获得。各种数据的积累、沉淀及保存产生大数据。随着科技进步,时代变化,高性能存储设备日益发展普及,使越来越多的数据得以持续保存,形成越发庞大的数据集。

国家邮政局公布2016年10月邮政行业运行情况数据:全行业业务收入完成483.5亿元,同比增长38.4%;业务总量完成695.5亿元,同比增长48.4%。其中,快递业务量完成30.3亿件,同比增长55.9%;业务收入完成376.2亿元,同比增长49.1%。

1.2.2 大数据的特征

基于全体样本的分析是“大数据”定义中对于研究对象进行界定的核心内涵,所体现出的特征也必然围绕着全体样本集合的特点。

在2001年的研究报告和相关文献中,META Group(现在的Gartner)的分析师Doug Laney将数据增长的挑战和机遇定义成三维方式,即数据总量Volume、处理速度Velocity和数据类型Variety,也就是最早用来描述大数据的“3V”模型。

随着资讯科技不断地往前推进,数据量的复杂程度愈来愈高,3V已经不足以形容新时代的大数据。2012年,包括IBM、Gartner、IDC在内的科技厂商和研究机构等纷纷提出新的论述,在3V的基础上增加了对数据“价值(Value)”的认识,发展成为4V模型。阿姆斯特丹大学的Yuri Demchenko等人提出大数据还应具有可信性、真伪性、来源和信誉、有效性和可审计性的特点,即真实性(Veracity),形成了5V的框架,如图1-5所示。

图1-5 大数据5V特征

第一,数据体量巨大(Volume)。指收集和分析的数据量非常大,从TB级别跃升到PB级别,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。

2006年,个人用户每年产生的数据才刚刚迈入TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。2013年,中国产生的数据总量超过0.8ZB,是2012年的两倍,相当于2009年全球的数据总量。

第二,处理速度快(Velocity)。大数据需要对数据进行近实时的分析。以视频为例,连续不间断监控过程中,可能有用的数据仅有一两秒,这一点和传统的数据挖掘技术有着本质的不同。

每秒钟淘宝商城就会产生大约178笔订单;每分钟人们可以在YouTube上传20个小时的视频。Facebook位于瑞典北方的“资料库”——Node Pole,有6个足球场那么大,每天要处理全球用户45亿个赞、3.5亿张照片和100亿条信息。

第三,数据多样性(Variety)。大数据来自多种数据源,数据种类和格式日渐丰富,包含结构化、半结构化和非结构化等多种数据形式,如网络日志、视频、图片、地理位置信息等。非结构化数据增长率达80%,而传统的数据样式主要以数据库和XML为主。

多样的数据类型涉及数字、文字、图片、语音、视频、地理位置、网络日志信息等,从数据结构来看,可分为非结构化数据、半结构化数据和结构化数据,从数据存储方案的角度还可以分为分布式存储和集中式存储,从数据质量来看,数据的完整性、可信性与可用性也大不相同。对于是否必须采用大数据运算,在数据规模和数据复杂性之间存在一定的取舍关系。一般来说,分布式存储就意味着很大的数据体量,分布存储的数据就需要用大数据技术来处理了,传统技术已经无法使用。大数据适合于处理分布式存储的复杂数据。

第四,价值密度低(Value)。要挖掘大数据的价值就需要在几百万条数据中找到真正有借鉴意义的几条,例如每天24小时的视频数据中,针对某一研究或分析目标有价值的仅有几秒钟。通过分析数据得出如何抓住这条数据,就能够把握机遇并收获巨大的经济或社会价值。

第五,数据真实性(Veracity)。大数据中的内容是从真实世界采集得到的,在录入、生成、采集数据的过程中存在因为客观或人为因素产生偏差的情况。数据的真实性即代表了数据的质量,将直接影响分析和预测的准确性、真实性和有效性。大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。

大数据的产生和发展,是信息技术领域不同时期的多个进步交互作用的结果。在未来,智能数据可以帮助我们了解一个智能系统每时每刻发生了什么,更能够告诉人们为什么会发生。甚至还可以告诉人们接下来会发生什么,以及我们应该如何应对,智能数据将改变人们的生活方式和思维模式,提升国家或政府的服务能力,创新企业的商业模式。

1.2.3 大数据与传统数据分析的区别

大数据分析是指对大量结构化和非结构化的数据进行分析处理,从中获得新的价值,具有数据量大、数据类型多、处理速度快等特点。与传统数据分析相比,大数据分析的特点如表1-1所示。

表1-1 大数据分析与传统数据分析的区别

数据无处不在,大数据分析不仅是对因果关系的研究,在智慧城市的建设中,还注重对相关数据的挖掘以获得对未来合理的预测分析。对农业的大数据处理,能够预测可能的病虫危害或天气变化,从而提前做好防护和灌溉规划;对交通的大数据处理,能够预测道路拥堵的状况以便提前做好疏通准备和出行计划;对医疗的大数据处理,可以预测个人身体健康状况发展及各类疾病的发生率或者就医资源的需求,以便提前做好个人的健康管理和医疗资源的调度。如果能预知下一秒可能发生什么,那么就能在当下做出最有利于下一秒的决策,始终赢在起跑线前一秒。

认识大数据,不仅是要认识数据本身,还需要处理和分析数据的模型、技术、手段等。大数据不是一个简单的实物名词,而是围绕全样本数据的一系列计算、分析,以及获得的有效信息或智能预测。通过数据的采集、分析模型的建立、计算工具的应用,最终实现从数据到具有商业价值的信息资产的转变,这就是大数据技术。