上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.3 无监督预训练
GPT系列的所有模型都经过了无监督预训练阶段,但在模型规模和文本数据量上有着巨大的差异。无监督预训练基于大量语料统计,可以获取单向或双向的上下文信息,对数据的前后相对关系敏感。GPT作为一个生成模型,目标是预测给定上下文中的下一个词。它总是尝试生成与上下文最为相关的合理文本,以最大化条件概率P(target|context)。如图1.6所示,GPT在预训练过程中采用单向(掩码自注意力)语言模型,仅基于左侧的上下文信息进行预测,而无法利用右侧的上下文信息。
图1.6 GPT中的掩码自注意力
(图片来源:http://jalammar.github.io/illustrated-gpt2/)
GPT模型的预训练机制从大规模文本中获取语言学知识和世界知识。语言学知识涵盖了有助于人类或机器理解自然语言的词法、词性、句法、语义等方面;世界知识则包括事实性知识(即真实世界中发生的事件)和常识性知识。基于Transformer架构的语言模型可以通过从千万到亿级别的语料库学习基础的语言学知识。然而,要学习事实性知识,就需要更大规模的训练数据,相较于稳定而有限的语言学知识,事实性知识不仅数量繁多,还处于持续变化之中。当前研究表明,随着训练数据的增加,预训练模型在各种下游任务上的表现持续提升,说明模型主要从增量训练数据中学习世界知识。这些训练数据可以帮助模型更有效地应对NLP任务中的挑战,从而提高它在不同应用场景下的性能和准确性。