
第三节 政策文本计算的基本原则
本节将介绍政策文本计算的四项基本原则。在对政策文本计算方法的探索过程中,将重新审视这些原则,并发现它们为使用和评估政策文本计算方法提供了有用的指南。
一 政策文本计算模型复杂但非精准
政策语句通常具有复杂的依存结构,任何政策文本的数据生成都是一个复杂的过程,虽然政策文本具有语言表达规范的特点,但是其含义可能会随着包含的新词和句子的上下文改变。政策语言的复杂性意味着所有方法都无法十分准确描述用于文本的数据生成过程。因此,构建政策文本计算模型的目标不同于构建因果推理的模型,建立因果推理模型通常建议必须包含数据生成过程的所有相关特征——无论是在协变量中还是在模型结构中。在政策文本计算模型中包含更现实的特征并不一定会转化为改进的方法,减少使用的假设可能并不意味着更有成效的分析。相反,将这些方法应用于任何一个文本数据集的微妙之处,意味着在语言使用方面不太复杂的模型可能会提供更有用的文本计算。
二 政策文本计算方法不能替代研究者
政策文本计算方法已在各种实质性问题上展示了其优势,然而这些计算方法并不会消除政策研究者仔细思考的需要,也不会消除详读政策文本的必要性。事实上,对政策文本的深刻理解是社会科学家应用计算方法的关键优势之一,通过本书实证部分会发现,所有计算过程都需要研究人员仔细阅读政策文本并进行深思熟虑的分析,研究人员要指导该过程做出决策并解释模型的输出。计算机并不能取代研究人员,而是增强了研究人员的能力。因此,最有成效的研究路径并不是如何利用计算方法消除研究人员阅读政策文本的过程,而是确定将人工和计算方法相结合进行政策研究。
三 没有最佳政策文本计算方法
不同的政策文本集合和不同的研究问题通常会导致不同的研究需求,对于政策文本计算模型尤其如此。在有些政策研究中,研究者可能希望使用计算方法发现一种组织政策文本的新方法,每个研究问题都意味着要用不同的分析模型和验证方法,因此重要的探究路线之一是不断尝试,寻找针对某类政策文本数据集最适合的方法,而不是采用通用政策文本计算方法,因为模型之间存在很大差异。不足为奇的是,相同的模型在某些政策文本数据集上表现良好,但在应用于其他政策文本数据时表现不佳。因此,几乎可以保证建立一种始终用于一项任务的方法是不可能的,相反,研究者需要仔细思考并应用不同的方法来为他们的问题生成有用和可接受的估计。
四 反复验证避免计算失准
政策文本计算方法可以大大降低分析大量政策文本的成本并提升效率。然而,当应用于任何一个问题时,模型的输出可能会产生误导或完全错误,政策研究人员有责任验证他们对政策文本计算方法的使用。验证可以采用多种形式,当计算问题中的类别已知时,研究者必须证明有监督方法能够可靠地复制人类编码,而无监督方法的验证就不那么直接了,为了验证无监督方法的输出,研究者必须结合实验和统计证据来证明这些措施在概念上与监督模型的措施一样有效。因此,应该避免在没有验证步骤的情况下盲目使用任何方法,这就是我们不鼓励使用许多商业工具进行政策文本计算的原因,这些程序只是为研究人员提供输出,验证输出通常很困难,有时甚至是不可能的。更糟糕的是,一旦发现方法或工具存在问题,也很难改变分析的执行方式。当然,有些方法或工具可以得到验证并提供概念上有效和有用的输出,或者在某些领域也已经得到实证,这样就可以进行适当复用。