经济分析与政策模拟研究报告2020
上QQ阅读APP看书,第一时间看更新

第三节 大数据内涵特征与数据驱动的社会科学研究范式

一 大数据概念特征及内涵辨析

大数据(Big Data)作为一个新语汇最早公开出现于2010年2月英国《经济学人》杂志有关信息管理的一篇专题报道(K.Cukier,2010)。2011年5月,麦肯锡环球研究院在一份题为《大数据:下一个创新、竞争和生产力前沿》的报告中,将大数据定义为“大小超出常规数据库工具获取、存储、管理和分析能力的数据集”。时下较流行的大数据定义是,需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔·舍恩伯格的《大数据时代》一书中,大数据技术被描述为,不再基于传统随机分析法,而采用所有数据进行分析的处理模式,海量性(Volume)、实时性(Velocity)、多样性(Variety)和有效性(Volatility)成为大数据的典型特征。这也是大数据定义中被广为接受的3V、4V或nV。上述3V或4V更多是从数据信息角度刻画了大数据特征,除此之外,大数据技术的内涵边界还应该包括数据收集(生产)、数据存储、数据处理、数据分析及展示等各环节所需的专业知识和技能。这些多学科、跨学科交叉的知识技能集成在一起,共同构成了大数据技术体系(或称为“数据科学”)。

自2010年首次提出大数据概念后,短短几年时间里,大数据技术已在精准营销、信息安全、智能制造、语义识别、文本分析等众多领域的应用中取得了丰硕成果。2015年9月,国务院发布的《促进大数据发展行动纲要》将大数据发展确立为国家战略后,大数据更是迅速成为中国产业界、学术界最炙手可热的语汇之一。然而,作为公认的大数据最具前景的应用拓展领域之一,社会科学界却至今罕有革命性研究成果,人们对于社会科学的大数据应用似乎更多地停留在概念和模式复制阶段。大数据是否会对社会科学的发展产生重要影响,能给社会科学带来哪些根本性变革,能否给社会科学和自然科学的学科统一提供助力?对此,学者们普遍持积极乐观态度,认为大数据的兴起为社会科学学科体系的重构和研究范式的改变带来了机遇。

二 大数据技术应对人类社会复杂适应性的优势

事实上,除了显性的3V或4V特征,大数据及围绕大数据利用形成的大数据技术体系,为有效应对人类社会活动的复杂适应性特征提供了技术可行性,从而能够为推动社会科学的自然科学化进程,形成基于数据驱动的社会科学研究新范式提供有力支撑。

其一,大数据技术提供了对社会科学现象进行系统性扫描的可能。而传统社会科学研究受限于资料收集、信息传递以及知识获取的技术性因素,往往不可能对社会现象的全貌进行系统性定位和描述。其二,大数据技术提供了对社会问题动态跟踪的可能。社会科学问题往往具有实时性和演化性特征,传统研究方法难以对促使事物转化的诸多内外因冲击进行实时跟踪和反馈,在时间上滞后于事件的衍生和发展进程。其三,大数据技术提供了对事物发生发展的本质动因和多元影响因素进行系统解析的可能。基于显著性变量设定的传统研究方法,在技术上无法对影响社会现象的要素全体进行资料收集和计算处理,被忽略要素的显著影响、显性突变或累积跃迁效应,可能导致研究结果的重大偏差。其四,大数据技术提供了趋近总体数据的可能。传统研究方法由于资料收集成本及可行性的限制,往往通过主观判断或科学抽样对资料的代表性和误差因素进行控制,在此基础上构建量化描述、假设检验、参数估计等一系列方法体系。而大数据的总体逼近特征则不仅是对数据资源的扩展,其理论基础和技术构架还为社会科学发展提供了结构性变革的可能性。

三 大数据技术应对人类社会复杂适应性的障碍

需要特别指出的是,当前的大数据理论和大数据技术尚未完全具备解决上述问题的能力,与为社会科学复杂适应性提供解决方案的目标仍有较大距离,具体来说存在以下主要障碍。

第一,大数据名称本身具有一定的误导性。强调数据之“大”是大数据技术的首要内涵。然而,由于存储和计算能力的大幅提升,数据收集已演变成为无明确目标的被动过程。这使得资料的价值密度呈指数化衰减,冗余数据的处理成本不断飙升,客观上形成重数量而轻质量的现实性缺陷。

第二,大数据的有偏性和非一致性。尽管有业内人士断言大数据技术提供了研究的总体性数据,使得基于随机抽样的推论性统计技术不再必要。而事实上,即便是针对特定目标被收集起来的“一手”大数据资料,也仍然存在“选择性偏差”的问题。被动性收集的数据资料使得大数据技术仅能观测和收集行为发生者的信息,而非真正意义上的总体数据。因此,无法保证数据的无偏性和一致性,其效度也难以检验。

第三,重技术开发轻问题解决的倾向。大数据技术起步于资料的收集、存储、传输和计算,目前应用也仍然集中在这些领域,其价值导向促使政府、企业或学术界更多地在堆砌大数据技术,而非真正应用大数据解决实际问题。社会科学研究在本质上是以问题为导向的,应基于现实问题选择恰当的数据和方法,而非生搬硬套大数据解决方案。

第四,重微观层面的精准定位,而轻宏观层面的总量。大数据在商业营销领域的成果,使得人们更多地关注利用大数据对微观个体进行精准定位、状态识别和行为预测,而社会科学的核心仍是对社会现象的解析,必须打通微观基础与宏观现实之间的逻辑关联和传导机制。

第五,大数据技术过分强调关系发现,而轻视因果分析。这也是制约大数据技术作用有效发挥的关键问题。大数据技术标榜通过基于数据资料信息的耦合和关联性挖掘方法,提供客观事物之间的交互影响因素,原则上排斥了传统研究基于因果关系建立的研究体系甚至直接否定逻辑演绎的方法论基础,试图越过事物的作用机理而寻求跨维路径的解决方案。但是,大数据革命最大的意义在于,极大限度地提升了收集资料的维度和深度,使得人们真正可以从全局网络和动态演化的视角去审视社会现象和社会问题。如果大数据技术不能扭转偏差的认知模式,则注定不会在社会科学领域取得突破性进展。