任务四 认识大数据
一、什么是大数据
研究机构Gartner对大数据这样定义:“大数据”是基于新处理模式,具有更强的决策力、洞察发现力和流程优化能力,可以适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究院对大数据的定义是:一种规模大到在获取、存储、管理、分析方面大幅超出传统数据库软件工具能力范围的数据集合,其具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。
在《大数据时代》一书中,大数据是指不用随机分析法(抽样调查),而对所有数据进行分析处理。大数据的5V特点为数量(Volume)、速度(Velocity)、种类(Variety)、价值(Value)、真实性(Veracity),大数据的5V特点如图1-5所示。
图1-5 大数据的5V特点
大数据技术的战略意义不在于掌握海量的数据,而在于对这些有价值的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
大数据通常用来形容一个公司创造的大量的非结构化数据和半结构化数据,这些数据被下载到关系型数据库用于分析时会浪费过多的时间和资金。大数据分析常和云计算联系在一起,因为实时的大型数据集分析需要像MapReduce那样向数十、数百甚至数千台计算机分配工作。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
二、大数据行业的发展
随着互联网、物联网、无线传感器、云计算等的快速发展,全球数据量出现爆炸式增长,人类社会进入一个以太字节(TB)为单位的大数据时代。海量数据每天被收集、交换、分析和整合,数据犹如一股“洪流”涌入数字世界。数据“洪流”汹涌而来,不仅仅是量的爆炸,更是数据形态革命性的变化,以及数据处理方式的延伸。大数据行业的未来发展趋势可以概括为以下8个方面。
(一)数据的资源化
资源化是指大数据成为社会和企业关注且争相抢夺的重要战略资源。因此,企业必须提前制订大数据营销战略计划,抢占市场先机。
(二)与云计算的深度结合
大数据离不开云计算,云计算为大数据提供了弹性可拓展的基础设备。自2020年开始,大数据、云计算技术的岗位缺口逐年增多,预计未来两者的关系将更加密切。此外,物联网、移动互联网等新技术,也将一起助力大数据革命,使大数据产生更大的影响力。
(三)科学理论的突破
随之兴起的数据挖掘、机器学习、人工智能等相关技术,可能会改变数字世界的很多算法和基础理论,实现科学技术的突破。
(四)数据科学和数据联盟的成立
未来,数据科学将成为一门专业学科,被越来越多的人认识。各大高校将设立数据科学类专业,催生一批与之相关的新型就业岗位。与此同时,基于数据基础平台,也将建立跨领域的数据共享平台。之后,数据共享将扩展到企业层面,并成为未来产业的核心。
(五)数据泄露泛滥
未来,大部分企业可能会面临数据攻击。而所有企业,无论规模大小,都需要重新审视数据安全。企业需要从新的角度确保自身以及客户的数据在创建之初就获得安全保障。
(六)数据管理成为核心竞争力
数据管理成为核心竞争力,会直接影响企业的财务表现。当“数据资产是企业核心资产”的概念深入人心后,企业对数据管理就有了更清晰的界定,将数据管理作为企业核心竞争力持续发展,战略性规划与运用数据资产将成为企业数据管理的核心,数据资产管理效率与主营业务收入增长率、销售收入增长率密切相关。
(七)数据质量是商业智能(Business Intelligence,BI)成功的关键
采用自助式BI工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量的低质量数据。企业要想成功,需要理解原始数据与数据分析之间的差距,从而提升数据质量,并通过BI工具进行决策。
(八)数据生态系统复合化程度增强
大数据世界不仅是一个单一的、巨大的计算机网络,还是一个由大量活动构件与多元参与者元素构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务提供商、数据服务零售商等一系列参与者共同构建的生态系统。如今,数据生态系统的雏形已然形成,接下来的发展将趋向系统内部角色的细分(市场的细分)、系统机制的调整(商业模式的创新)、系统结构的调整(竞争环境的调整),从而使数据生态系统的复合化程度增强。
三、典型就业岗位
(一)就业前景
大数据工程技术人员主要从事大数据采集、清洗、分析、治理、挖掘等技术研究,并加以利用、管理、维护和服务。到2025年,我国大数据核心人才缺口预计达到464万人。大数据行业人员的缺口对比如图1-6所示。
图1-6 大数据行业人员的缺口对比
注:大数据产业包含相关基础设施、大数据及分析软件、相关IT/业务服务。
信息来源:IDC、国家统计局、教育部、高校招生文件、安永调研分析。
(二)就业岗位
大数据典型就业岗位见表1-3。
表1-3 大数据典型就业岗位