大数据治理与安全:从理论到开源实践
上QQ阅读APP看书,第一时间看更新

1.2 框架

在讲述了关于大数据治理的基本概念以及治理的意义和作用后,我们对大数据治理已经有了简单的认识。接下来将会从3个维度阐述大数据治理的框架,目的是让读者更加深刻地认识、理解大数据治理。

1.2.1 大数据治理框架概述

大数据治理框架从全局视角描述了大数据治理的主要内容,下面我们从大数据治理原则、治理范围、治理的实施与评估3个维度给出大数据治理的全貌,展现大数据治理的重要性以及如何进行大数据治理,如图1-3所示。

图1-3 大数据治理框架

其中大数据治理的原则给出了大数据治理过程中所遵循的、首要的、基本的指导性法则,即有效性原则、价值化原则、统一性原则、开放性原则、安全性原则,这5个部分分别从各个层面、各个角度解释了大数据治理所应遵循的原则的重要性与必要性。其中,有效性原则体现了大数据治理过程中数据的标准、质量、价值、管控的有效性、高效性;价值化原则体现了大数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值;统一性原则能够形成一套规范的、有条理的、可遵循的准则,能够节约很大的成本、时间,对大数据的治理具有重要意义和作用;开放性原则是为了提高数据治理的透明度,不让海量数据信息在封闭的环境中沉睡,同时共享信息,安全合理地共享数据,使数据之间形成关联,形成一个良好的数据标准;安全性原则体现了安全的重要性、必要性,保障大数据平台的数据安全和数据治理过程中数据的安全可控。

大数据治理的范围描述了大数据治理的关键域,即大数据治理决策层应该在哪些关键领域内做出决策。该维度共包含5个关键领域:大数据生命周期、大数据架构、大数据安全与隐私、数据质量以及大数据服务创新。这5个关键领域就是大数据治理的主要决策领域,规定了大数据治理主要应用的地方以及方向。其中,大数据生命周期是指数据产生、获取到销毁的全过程,在大数据治理中生命周期的管理更注重在成本可控的情况下有效地管理并使用大数据,从而创造出更大的价值。大数据生命周期管理包含了数据捕获、数据维护、数据合成、数据利用、数据发布、数据归档和数据清除。大数据架构是指大数据在IT环境下进行存储、使用以及管理的逻辑或物理架构,主要包含了大数据来源、大数据存储、大数据分析以及大数据应用和服务4个部分。大数据安全与隐私提供了大数据隐私管理的几个步骤,来对大数据云计算时代的数据进行隐私安全保障。数据质量领域总结了大数据产生质量问题的原因,以及应该从哪几个方面入手去有效提升大数据质量。大数据服务创新领域提出应该从基于数据本身进行创新、基于业务需求进行创新、基于数据分析的创新3个方面进行探讨,来体现对大数据服务的创新。

大数据治理的实施与评估维度描述了大数据治理实施和评估中需要重点关注的关键内容,该维度共包含了4个部分:大数据治理的实施、大数据治理的体系框架、大数据治理的成熟度评估以及大数据治理审计。它为企业实施大数据治理提供指导性方案。其中,大数据治理的实施的直接目标就是为企业建立大数据治理体系,形成一个通用的大数据治理架构。而为了实现大数据治理的实施目标,需要通过建立大数据治理的环境、建立完善的大数据治理实施流程体系和规范,以及明确大数据治理实施的阶段目标这3个方面来完成。同时在大数据实施中,实施的动力来源以及大数据治理的促成因素包含3个方面:治理实施的环境、实施技术和工具、流程与活动管理。而大数据治理的体系框架提出了一个通用的数据治理体系及架构,并分析了架构内各个模块的功能与作用,从数据持久化层、数据集成层、统一建模层、数据质量层、元数据管理层和数据治理人员组织层5个方面对大数据治理的体系结构进行阐述。大数据治理过程中,通过成熟度评估可以了解当前大数据治理实施的状态和实施方向,成熟度可以帮助了解治理的重要性。根据能力成熟度分类的方法,将成熟度分为5个等级,等级由低到高分别为:初始级、受管级、定义级、定量管理级、优化级。大数据治理的审计不仅可以提高大数据治理的实施水平,还能从更全面的角度为大数据治理提供实施意见,而且大数据审计还可以满足企业监管的需要,改善大数据在治理过程中的安全和隐私。

相关组织及企业可根据上述3个维度的指导原则,从大数据治理原则、治理范围、治理的实施与评估3个维度了解大数据的治理工作,按照治理原则中所遵循的指导性法则、治理范围中的治理关键域以及实施与评估维度中的关键内容,持续稳步地推进大数据治理工作。

1.2.2 大数据治理的原则

图1-4 大数据治理原则

大数据治理原则是指大数据治理所遵循的、首要的、基本的指导性法则。大数据治理原则对大数据治理实践起指导作用,只有将原则融入实践过程中,才能实现大数据治理的战略和目标。提高大数据运用能力,可以有效增强政府服务和监管的有效性。为了高效采集、有效整合、充分运用庞大的数据,提出以下5项大数据治理的基本原则,如图1-4所示。

1.有效性原则

有效性原则体现了大数据治理过程中数据的标准、质量、价值、管控的有效性、高效性。在大数据治理的过程中,首先需要的是对数据处理的信息准确度高、理解上不存在歧义,遵循有效性原则,选择有用数据,淘汰无用数据,识别出有代表性的本质数据,去除细枝末节或无意义的非本质数据。这种有效性原则在大数据的收集、挖掘、算法和实施中具有重要作用。运用有效性原则就能够获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘的效率,使之在实际工作中可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体来说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“有效性原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣开发。

2.价值化原则

价值化原则指大数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。数据本身不产生价值,但是从庞杂的数据背后挖掘、分析用户的行为习惯和喜好,找出更符合用户“口味”的产品和服务,并结合用户需求有针对性地调整和优化自身,这具有很大的价值。大数据在各个行业应用都是通过大数据技术来获知事情发展的真相,最终利用这个“真相”来更加合理地配置资源。而要实现大数据的核心价值,需要3个重要的步骤,第1步是通过“众包”的形式收集数据,第2步是通过大数据的技术途径进行全面的数据挖掘,最后利用分析结果进行资源优化配置。

3.统一性原则

统一性原则是在数据标准管理组织架构的推动和指导下,遵循协商一致制定的数据标准规范,借助标准化管控流程得以实施数据统一性的原则。如今的大数据和云计算已经成为社会发展动力中新一轮的创新平台,基于大数据系统做一个数据产品,需要数据采集、收集、存储和计算等多个步骤,整个流程很长。经过统一规范后,通过标准配置,能够大大缩短数据采集的整个流程。大数据治理遵循统一性原则,能够节约很大的成本及时间,同时形成一个规范,这对于大数据的治理具有重要意义与作用。

4.开放性原则

在大数据和云环境下,要以开放的理念确立起信息公开的政策思想,运用开放、透明、发展、共享的信息资源管理理念对数据进行处理,提高数据治理的透明度,不让海量的数据信息在封闭的环境中沉睡。我们不能以信息安全为理由使很多数据处于沉睡的状态,而不开放性地处理数据。我们需要对信息数据进行自由共享,向公众开放数据,安全合理地共享数据并使数据之间形成关联,形成一个良好的数据标准和强有力的数据保护框架,使数据高效、安全地共享和关联,在保护公民个人自由的同时促进经济的增长和创新。

5.安全性原则

大数据治理的安全性原则体现了安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。大数据的安全性直接关系到大数据业务能否全面推广,数据治理过程中在利用大数据优势的基础上,要明确其安全性,从技术层面到管理层面采用多种策略,提升大数据本身及其平台的安全性。在大数据时代,业务数据和安全需求相结合,才能够有效提高企业的安全防护水平。大数据的汇集不可避免地加大了用户隐私数据信息泄漏的风险。由于数据中包含大量的用户信息,使得对大数据的开发利用很容易侵犯公民的隐私,恶意利用公民隐私的技术门槛大大降低。在大数据应用环境下,数据呈现动态特征,面对数据库中属性和表现形式不断随机变化,基于静态数据集的传统数据隐私保护技术面临挑战。各领域对于用户隐私保护有多方面要求和特点,数据之间存在复杂的关联和敏感性,而大部分现有隐私保护模型和算法都是仅针对传统的关系型数据,而不能直接将其移植到大数据应用中。

传统数据安全往往是围绕数据生命周期部署的,即数据的产生、存储、使用和销毁。随着大数据应用的增多,数据的拥有者和管理者相分离,原来的数据生命周期逐渐转变成数据的产生、传输、存储和使用。由于大数据的规模没有上限,且许多数据的生命周期极为短暂,因此,传统安全产品要想继续发挥作用,需要随时关注大数据存储和处理的动态化、并行化特征,动态跟踪数据边界,管理对数据的操作行为。

大数据安全不同于关系型数据安全,大数据无论是在数据体量、结构类型、处理速度、价值密度方面,还是在数据存储、查询模式、分析应用上都与关系型数据有着显著差异。

为解决大数据自身的安全问题,需要重新设计和构建大数据安全架构和开放数据服务,从网络安全、数据安全、灾难备份、安全风险管理、安全运营管理、安全事件管理、安全治理等各个角度考虑,部署整体的安全解决方案,以保障大数据计算过程、数据形态、应用价值的安全。

1.2.3 大数据治理的范围

大数据蕴含价值的逐步释放,使其成为IT信息产业中最具潜力的蓝海。大数据正以一种革命风暴的姿态闯入人们的视野,其技术和市场在快速发展,从而使数据治理的范围变成不可忽略的因素。

大数据治理范围着重描述了大数据治理的关键领域。大数据治理的关键领域包括:大数据生命周期,大数据架构(大数据存储、元数据、数据仓库、业务应用),大数据安全与隐私,数据质量,大数据服务创新,如图1-5所示。

图1-5 大数据治理关键领域

1.大数据生命周期

大数据生命周期是指数据产生、获取到销毁的全过程,具体可分为数据捕获、数据维护、数据合成、数据利用、数据发布、数据归档、数据清除等。

传统数据的生命周期管理的重点在于节省成本和保存管理。而在大数据时代,数据的生命周期管理的重点则发生了翻天覆地的变化,更注重在成本可控的情况下,有效地管理并使用大数据,从而创造出更大的价值。

大数据生命周期管理面临着巨大的挑战,其中包括3个主要类别:无穷无尽的数据总量,新数据的短期有效性,以及数据的一致性。

大数据生命周期管理主要包括以下部分:

1)数据捕获,即创建尚不存在或者虽然存在但并没有被采集的数据。主要包括3个方面的数据来源,数据采集、数据输入、数据接收。

2)数据维护,即数据内容的维护(无错漏、无冗余、无有害数据)、数据更新、数据逻辑一致性等方面的维护。

3)数据合成,即利用其他已经存在的数据作为输入,经过逻辑转换生成新的数据。例如我们已知计算公式:净销售额=销售总额-税收,如果知道销售总额和税收,就可以计算出净销售额。

4)数据利用,即在企业中如何使用数据,把数据本身当作企业的一个产品或者服务进行运行和管理。

5)数据发布,即在数据使用过程中,可能由于业务的需要将数据从企业内部发送到企业外部。

6)数据归档,即将不再经常使用的数据移到一个单独的存储设备上进行长期保存的过程,对涉及的数据进行离线存储,以备非常规查询等。

7)数据清除,即在企业中清除数据的每一份拷贝。

2.大数据架构

大数据架构是指大数据在IT环境中如何进行存储、使用及管理的逻辑或者物理架构。它由大数据架构师或者设计师在实现一个大数据解决方案的物理实施之前创建,从逻辑上定义了大数据关于其存储方案、核心组件的使用、信息流的管理、安全措施等的解决方案。建立大数据架构通常需要以业务需求和大数据性能需求为前提。

大数据架构主要包含4个层次:大数据来源,大数据存储,大数据分析,大数据应用和服务。

1)大数据来源:此层负责收集可用于分析的数据,包括结构化、半结构化和非结构化的数据,提供解决业务问题所需的洞察。此层是进行大数据分析的前提。

2)大数据存储:主要定义了大数据的存储设施以及存储方案,以进一步进行数据分析处理。通常这一层提供多个数据存储选项,比如分布式文件存储、云、结构化数据源、NoSQL等。此层是大数据架构的基础。

3)大数据分析:提供大数据分析的工具以及分析需求,从数据中提取业务洞察,是大数据架构的核心。分析的要素主要包含元数据、数据仓库。

4)大数据应用和服务:提供大数据可视化、交易、共享等,由组织内的各个用户和组织外部的实体(比如客户、供应商、合作伙伴和提供商)使用,是大数据价值的最终体现。

3.大数据安全与隐私

大数据作为社会的又一个基础性资源,将给社会进步、经济发展带来强大的驱动力。大数据代表了先进技术的发展方向,已经成为不可阻挡的趋势。在大数据时代,数据的收集与保护成为竞争的着力点。从个人隐私安全层面看,大数据将大众带入开放、透明的“裸奔”时代,若对数据安全保护不利,将引发不可估量的问题。解决传统网络安全的基本思想是划分边界,在每个边界设立网关设备和网络流量设备,用守住边界的办法来解决安全问题。但随着移动互联网、云服务的出现,网络边界实际上已经消亡了。因此,在开放大数据共享的同时,也带来了对数据安全的隐忧。大数据安全是“互联网+”时代的核心挑战,安全问题具有线上和线下融合在一起的特征。

可以尝试以下方法进行大数据的隐私管理引用自http://www.thebigdata.cn/JieJueFangAn/13655.html。

1)定义和发现敏感的大数据,并在元数据库中将敏感大数据进行标记和分类。

2)在收集、存储和使用个人数据时,需要严格执行所在地关于隐私方面的法律法规,并制定合理的数据保留、处理政策,遵循公司法律顾问和首席隐私官的建议。

3)在存储和使用过程中,对敏感大数据进行加密和反识别处理。

4)加强对系统特权用户的管理,防止特权用户访问敏感大数据。

5)在数据的使用过程中,需要对大数据用户进行认证、授权、访问和审计等管理,尤其是要监控用户对机密数据的访问和使用。

6)审计大数据认证、授权和访问的合规性。

大数据也和其他领域的新技术一样,给我们带来了安全与隐私问题。另外,它们也不断地对我们管理计算机的方法提出挑战。正如印刷机的发明引发了社会自我管理的变革一样,大数据也是如此。它迫使我们借助新方法来应对长期存在的安全与隐私挑战,并且通过借鉴基本原理对新的隐患进行应对。我们在不断推进科学技术进步的同时,也应确保我们自身的安全。

4.数据质量

当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,而且在大数据使用过程中,如果存在数据质量问题,将会带来严重的后果,因而需要对大数据进行质量管理。大数据产生数据质量问题的具体原因如下:

1)由于规模大,其在收集、存储、传输和计算过程中可能产生更多的错误,如果对其采用人工错误检测与修复,将导致成本极其巨大而难以有效实施。

2)由于高速性,数据在使用过程中难以保证其一致性。

3)大数据的多样性使其具有更大的可能产生不一致和冲突。

如果没有良好的数据质量,大数据将会对决策产生误导,甚至产生有害的结果。高质量的数据是进行数据分析和数据使用以及保证数据质量的前提。大数据质量控制在实施大数据质量和减轻大数据治理并发症过程中发挥着重要作用,它能够把社会媒体或其他非传统的数据源进行标准化,并且可以有效防止数据散落。

建立可持续改进的数据管控平台,有效提升大数据质量管理,可以从以下几个方面入手:

1)数据质量评估,提供全方位数据质量评估能力,如数据的正确性、完全性、一致性、合规性等,对数据进行全面体检。

2)数据质量检核和执行,提供配置化的度量规则和检核方法生成能力,提供检核脚本的定时调度执行。

3)数据质量监控,系统提供报警机制,对检核规则或方法进行阈值设置,对超出阈值的规则进行不同级别的告警和通知。

4)流程化问题处理机制,对数据问题进行流程处理支持,规范问题处理机制和步骤,强化问题认证,提升数据质量。

5)根据血统关系锁定在仓库中使用频率较高的对象,进行高级安全管理,避免误操作。

数据质量管理是一个综合的治理过程,不能只通过简单的技术手段解决,需要从企业的高度加以重视,才能在大数据世界里博采众长,抢占先机。

5.大数据服务创新

在信息经济发展迅猛的今天,随着数据扮演生产要素的角色,云计算发挥公共计算基础设施的作用,数据的开放、共享与流动成为可能,大数据的服务创新将激发新的生产力。在大数据时代,各个企业的核心竞争力不仅仅是数据量的竞争,多类数据之间融合、分析、挖掘与利用才是各企业间竞争的主要内容,加强数据服务创新将成为竞争的关键因素。下面,将主要从基于数据本身进行创新、基于业务需求进行创新、基于数据分析的创新3个方面探讨大数据服务创新。

1)基于数据本身进行创新:直接分析、统计、挖掘、可视化拥有的数据,从而发现一些规律,对业务进行创新。

2)基于业务需求进行创新:通过对数据的价值链、业务关联接口、业务要素等方面的创新,可以深入洞察业务需求,发现特色数据,进而提供更加个性化的服务。

3)基于数据分析的创新:针对数据定义,通过数据中间处理以及数据处理自动化、智能化的创新,进一步更清晰地呈现数据,并对数据进行更明确的分析和更深层的解读。

1.2.4 大数据治理的实施与评估

大数据治理的实施与评估描述了大数据治理的实施和评估过程中需要重点关注的内容,包含大数据治理的实施环境、实施步骤,以及实施结果的评估,为企业实施大数据治理提供指导性方案。

1.大数据治理的实施

大数据治理的实施的最直接目标就是为企业建立大数据治理的体系,凭借IT方面治理的实施方法论,并结合大数据治理的特征,形成一个通用的大数据治理框架,并着重指出在每个阶段需要关注的关键要素以及在各个阶段的产出物。为实现大数据治理的目标,主要进行以下三方面的实施。首先,需要建立大数据治理的软硬件环境,综合考虑数据量大小、用户及时性需求等来建立大数据治理的环境,这是大数据治理实施的基础。其次,需要建立完善的大数据治理实施流程体系和规范,完善的流程是保障大数据治理顺利实施的重要措施。最后,明确制定大数据治理实施的阶段目标,明确目标将会促使大数据治理实施能够高质量地完成。实施大数据治理的长期目标是通过大数据治理,为企业的利益相关者带来价值,这种价值主要体现在三个方面,分别是业务创新、价值获取、风险控制。

在大数据治理的实施过程中,首先必须明确大数据治理的未来目标以及促成因素,从而让企业的决策者对大数据治理的实施制定总体规划。

大数据实施的动力主要来源于大数据治理的业务需求,这些需求包括内部需求和外部需求。这些需求从高到低分别为:企业高层管理根据企业的价值方向确定大数据治理的发展策略以及重大决策;业务管理员根据提升管理水平、降低大数据的运营成本等目标,制定企业的具体运作和管理任务;业务操作员根据提升业务处理水平来实施具体业务,而不负责监督其他管理任务;基础设施层主要负责为大数据治理的实施提供统一的基础设施管理。

大数据治理的促成因素是指对大数据治理的成功实施具有关键性作用的因素,主要包括三方面:治理实施的环境、实施技术和工具、流程与活动管理。治理实施的环境主要包括内部环境和外部环境,内部环境主要包括企业内部文化,外部环境主要包括大数据实施环境、企业现在所具备的技能和知识等。实施技术和工具主要是指为大数据治理实施提供有力的支撑和保障,在使用相应的技术和工具时主要包含以下内容:技术与工具的安全性保障,具备大数据的访问和控制技术;利用技术和工具对数据的生命周期等进行配置管理;审计和报告工具来完成对业务流程的监控,提前发现可疑活动,减轻系统管理的负担,提高问题处理效率。流程与活动管理主要包括详细定义流程的作用和流程的目的,优化用户和大数据之间的沟通效率。

2.大数据治理的体系框架

近些年国内的研究更关注于某一行业或者领域的数据治理应用情况,缺乏通用的大数据治理框架体系。本书针对这一问题,提出一个通用的大数据治理体系架构,并分析了架构内各个模块的功能与作用。数据治理体系框架包括数据持久化层、数据集成层、统一建模层、数据质量层、元数据管理层和数据治理人员组织层。

1)持久化。持久化是数据治理的基础问题。在传统的数据管理层场景,一般用关系型数据库作为数据持久化的载体。对于这一问题已有许多研究,本书不赘述。然而伴随大数据时代的到来,一方面,传统的关系型数据库很难应对数据量过大的问题,因此在数据治理体系内引入NoSQL数据库是大数据问题驱动的必然选择;另一方面,非结构化数据往往以大文件的形式存在,这些大文件通常依赖于分布式的文件系统,如HDFS、TFS等,相比传统的数据治理方法,新一代的数据治理体系应当对这些新生的大数据技术给予支持。

2)数据集成。企业内部不同系统之间往往存在许多共有的复用数据。在传统的数据管理体系下,并未对这些数据给出明确定义。在数据治理体系下,这些数据以“主数据”的形式表达出来。主数据是指具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,是单一、准确、权威的数据来源。主数据的实施,更有利于系统的集成和数据的协调管理。

作为不同系统产生的大文件数据,上层的系统应用需要统一的SQL接口来部署和管理,这就用到了数据仓库技术。例如Hadoop体系中的Hive,可以很好地将不同的大文件抽象出统一的SQL接口供上层使用,通过将SQL语句转化为大数据常用的MapReduce程序来实现数据查找等功能。这一过程对上层完全透明,大大简化了开发难度。

3)统一建模。统一建模是主数据和数据仓库建立的重要标准。从本质上看,数据治理体系下的数据建模与传统的关系型数据库的建模并无本质不同,同样存在着三级数据模型,即概念数据模型、逻辑数据模型和物理数据模型。

4)数据质量。数据质量是数据治理的重要内涵,我们可以把数据质量理解为“数据满足要求的程度”。其中,数据质量又有许多评估维度,例如数据的来源是否可靠?数据是否完整?数据是否可访问?数据是否安全?等等。这些都要根据客观的实际需要来制定。

5)元数据管理。元数据(Metadata)通常被用来表达实体数据的描述信息,即可称为“数据的数据”。抽象出这种用来表述数据特征的数据,是为了加强数据的统一管理,实现数据资源的科学整合,有利于数据的长期保存。例如,统一建模的描述信息、数据质量的定义等信息可统统交由元数据库来管理。

6)数据治理人员组织。数据治理的真正实施,说到底还是要依赖企业的人员组织部门。具体来说,是由战略决策者、业务管理者、业务操作员具体推进数据治理的实施。战略决策者制定企业大数据发展的重要战略和决策,其主要人员往往是企业的决策和高层管理人员,如企业技术总监、首席数据官和首席架构师等。战略决策层实施大数据治理的动力在于利用大数据辅助企业高层管理者制定重大决策,支持企业风险管控、价值实现和服务创新,从而建立并保持企业的竞争优势。业务管理者一般是IT项目经理、IT部门主管或者IT部门经理,负责企业的具体运作和管理任务。业务管理者在数据治理实施过程中负责提升企业IT管理水平,降低数据的运营成本,提高数据的客户服务水平,控制数据管理的风险等。业务操作员一般不具有监督和管理的职责,通常负责执行具体的工作。在业务操作层,大数据治理实施的动力就是规范和优化大数据应用的活动和流程,提升大数据的业务处理水平,具体包括大数据应用的效果和质量,大数据应用的可持续性、时效性、有效性和可靠性等。通过有效的人员组织,将会大大提高数据治理落地速度和实施效果。

3.大数据治理的成熟度评估

大数据治理过程中,通过成熟度评估可以了解当前大数据治理实施的状态和实施方向,认识数据治理的重要性,为实现数据价值最大化提供依据,帮助企业管理者更智慧地经营和决策,以达到确保数据的及时性、高品质、可分享性和一致性的目的。达成这些目标对实现灵活的商业运营和成果丰富的数据分析至关重要,进而才能据此做出针对性精准的商业决策。因此,大数据治理的成熟度评估是大数据治理成功实施的至关重要的一步。

根据能力成熟度模型提供的分类方法,可以将成熟度分为5个等级:1级为初始级,此时流程通常是临时的,整体环境不够稳定;2级为受管级,实施成功是可重复发生的,但可能无法针对组织中所有项目重复流程,存在基本的项目管理和流程规则,但仍有超出预期成本和时间的风险;3级为定义级,建立了标准流程集,通过组织的标准流程集定制标准、流程描述和项目流程,以适应特定项目或组织单位;4级为定量管理级,对流程进行定量度量和控制,所选的子流程大大提高了整体流程绩效;5级为优化级,在该级明确了组织的定量流程改进目标,并不断优化,以适应变化的业务目标https://www.ibm.com/developerworks/cn/data/library/bd-1503bigdatagovernance4/index.html

IBM数据治理成熟度模型共使用了11个类别来度量数据治理能力,11个类别又分为4个相互关联的组。

1)数据风险管理及合规性:确定数据治理与风险管理关联度,用来量化、跟踪、避免或转移风险等。

2)价值创造:确定数据资产是否能帮助企业创造更大价值。

3)组织结构和意识:主要用来评估企业针对数据治理是否拥有合适的数据治理委员会、数据治理工作组和全职的数据治理人员,是否建立了数据治理规章以及高级主管对数据是否重视等。

4)管理工作:是指质量控制规程,用来管理数据以实现资产增值和风险控制等。

5)策略:为企业如何管理数据在高级别上指明方向。

6)数据质量管理:主要指用来提高数据质量,保证数据准确性、一致性和完整性的各种方法。

7)信息生命周期管理:主要指对结构化、半结构化以及非结构信息化全生命周期管理相关的策略、流程和分类等。

8)信息安全与隐私:主要指保护数据资产、降低风险的各种策略、实践和控制方法。

9)数据架构:是指系统的体系结构设计,支持向适当用户提供和分配数据。

10)分类与元数据:是指用于业务元数据和技术元数据以及元模型、存储库创建通用语义定义的方法和工具。

11)审计信息记录与报告:是指与数据审计、内部控制、合规和监控超级用户等有关的管理流程。

可以通过回答问题来评估企业当前数据治理的成熟度。例如是否已经确定了大数据治理计划的关键业务相关人员、是否能对大数据治理提供的财务收益进行量化等问题。上述数据治理成熟度模型如图1-6所示。

图1-6 IBM成熟度模型

4.大数据治理的审计

审计是成功实施大数据治理的基础,以第三方的客观立场对大数据治理过程进行综合检查、监督和评价,并给出详细的、有价值的审计意见,促进大数据治理的规范性,保证大数据的一致性、可靠性、有效性和安全性,进一步提升大数据的利用价值,有助于对大数据治理实施提供指导性意见,以及为企业发展的战略决策提供可靠依据。大数据治理审计不仅可以提高大数据治理的实施水平,从更全面的视角为大数据治理提供实施意见,而且大数据治理审计还可以满足企业监管的需要,可以改善大数据在治理过程中的安全和隐私。大数据审计的对象称为审计客体,即在数据治理工程中被作用的对象,这类对象不仅包括大数据治理的整个生命周期,还应该涵盖大数据在治理过程中的中间产物,以及进行大数据治理的实施环境。大数据审计的内容主要包含数据一致性的审计、数据风险的审计、数据安全与隐私的审计、数据处理过程的审计、数据质量的审计、数据生命周期的审计等。进行大数据治理的审计主要是让企业了解大数据治理活动的总体情况,对企业数据的总体价值利用情况进行把握,提前准备应对数据治理过程中的相关风险,并提出评价意见和改进意见,可以提供给组织用于改善经营管理,促进实现大数据治理的目标。

总之,大数据治理的审计工作在最大化实现数据价值过程中必不可少,它能够全面地、在更高层次来评价企业的大数据治理情况,客观地显示大数据治理的生命周期管理水平,从而提高企业预防大数据风险的能力,满足企业发展的需要。