《1、 预训练模型的简要发展历程》

1、 预训练模型的简要发展历程

预训练模型的概念和迁移学习(transfer learning)相关[1]。迁移学习的核心是将从一个或多个任务学习到的知识应用到新的任务中。传统的迁移学习采用有标注的数据进行模型的监督训练。这种方式在至少十年内被认为是一种实现迁移学习的常见做法。在深度学习领域中,通过在大量无标注数据中进行自我监督学习已经成为了目前迁移学习的主要实现方法。与传统方法不同的是,预训练可以通过无标注数据进行自我监督学习,并且通过微调或者少样本学习的方法将模型应用到下游任务。

在自然语言处理(NLP)领域中,语言模型通常是预训练的目标任务。语言模型的目标是根据给定的前面位置的词信息,预测下一个词[24]。神经语言模型的第一个里程杯[5],是通过词的向量表示和前馈神经网络来建模连续n个词(n-gram)的概率。在此之后,深度学习主导了语言模型的发展。在早期的神经语言模型中,循环神经网络(recurrent neural network, RNN)得到广泛的采用[67]。在循环神经网络及其变体模型中,长短期记忆网络(long short-term memory, LSTM)[8]由于门机制而不容易受到梯度消失干扰因而受到更多研究者的关注。随着Transformer模型[9]的出现,一部分研究者基于Transformer结构,来构建表达力更强、更加高效的语言模型[1014]。神经语言模型(如Word2Vec [15]和GloVe [16])训练可以得到词的分布式表示[通常被称作词嵌入(word embeddings)]。使用训练后的分布式表示初始化深度学习模型中词嵌入层,已经是一种常用的技巧。这种方式可以显著提高下游任务的效果。比如,命名实体识别[16]、词性标注[17]和问答[18]等下游任务。

尽管使用词嵌入初始化的方式可以提高下游NLP任务的性能,但是它们仍然缺乏在不同语境中表达不同含义的能力。为了解决这个问题,研究者把完整的上下文信息加入到模型训练中,提出了语义感知模型。Dai和Le [19]使用未标注的数据来提高循环神经网络的序列学习的能力。这种方式在情感分析、文本分类等任务上取得了显著的性能提升。2017年,基于上下文的词向量(contextualized word vectors, CoVe)模型被提出。CoVe模型首先在机器翻译任务上进行预训练,之后再将编码器迁移到NLP下游任务中[20]。然而,这种方式仅仅在少量的机器翻译数据上进行了预训练,并且没有在所有的NLP任务上得到一致的性能提升。尽管如此,这些极具开创性的工作极大启发了后续基于上下文的预训练方法。

嵌入迁移的语言模型(embeddings from language models, ELMo)是另外一个预训练模型的开创性的工作。研究者通过首先利用双向的长短期记忆网络(bidirectional LSTM, Bi-LSTM)来学习单词的上下文表示,并且将预训练后的上下文向量直接应用到下游任务中[21]。这种方法在一系列自然语言处理任务中都取得了巨大的效果提升,其中包括机器问答、情感分析、语义角色标注、共指消歧和命名实体识别。

在这之后,一系列基于“预训练-微调”范式的预训练模型被提出。生成式预训练模型(generative pre-training, GPT)[22]首次提出使用单向Transformer结构做生成式语言模型预训练。作者通过实验验证了生成式预训练在下游任务上的巨大潜力。在GPT之后,文献[23]第一个利用双向Transformer模型作为模型的编码器,因此被称作双向基于Transformer的编码器表示模型(bidirectional encoder representations from transformers, BERT)。BERT模型通过多层神经网络对左右上下文进行建模来获得双向上下文语境。BERT提出了一种噪声自动编码预训练任务,被称作掩码语言模型(masked language modeling, MLM)。掩码语言模型类似于填空任务,是指模型基于上下文语境预测被掩盖位置的词。这种方式极大地提高了下游自然语言理解(natural language understanding, NLU)任务的性能。掩码语言模型的预训练标签通常来自于无标注数据自身。因此,这种方式也被称为自监督学习。通过利用互联网上的大规模无标注数据,模型可以通过预训练自动学习到语言的语法和语义表示。

预训练模型的巨大成功引发了研究者探索模型规模以及预训练技术的边界。其中,代表性的工作包括DeBERTa [24]、T5 [25]、GPT-3 [26]、CPM [27]、PanGu-α [28]和ERNIE 3.0 Titan [29]。大规模预训练模型(如GPT3)现在已经证明了在无样本和少量样本设置下的强大能力。通过几十个例子,GPT-3可以在SuperGLUE [30]取得与微调BERT相似的性能。GPT-3还可以生成高质量的创造性文本,以至于即使是人类也无法判断这些文本是否是由人类编写的。GPT-3的成功使得未来几十年里,人类可以使用GPT-3进行通用文本生成。在过去的数十年中,GPT-3所展现出来的能力被认为是不可能达到的。

通过结合知识来增强预训练模型的表达能力是另外一种预训练的方法[31]。一些研究者利用语言学知识,利用有标注或弱监督,来设计实体相关的预训练任务。例如,他们首先采用实体级或短语级掩码[31]和实体替换[32]等方式,打乱输入文本的实体边界,然后让模型预测被掩盖掉的实体内容。通过这种知识掩盖策略,模型可以更好地学习文本中的词汇、语法和语义信息。除此之外,将结构化知识与普通文本整合到预训练任务中也是其中一个研究方向。比如,K-BERT [33]、CoLAKE [34]、ERNIE-THU [35]、KnowBERT [36]、SenseBERT [37]、KEPLER [38]和ERNIE 3.0 [39]。ERNIE 3.0通过将知识融入到预训练模型中,在54个中文NLP标准测试集和一些英文基准测试(比如,SuperGLUE [30])中取得了当时世界第一的结果。除此之外,K-Adapter [40]使用多个独立的适配器来完成不同的任务,更好地融合各种知识并且减轻了微调过程中经常出现灾难性遗忘的影响。知识融合极大地提高了非结构化文本与结构化文本之间的知识共享,因此大大提高了预训练模型的知识记忆和推理能力[39]。

然而,上述模型仅仅关注了数据资源丰富的语言,比如英语和中文。由此,很多资源紧缺的语言被忽视了。考虑到上述原因,很多研究者开始探索多语言预训练模型(multilingual pre-trained models, mPTM),通过将不同语言的语义表示限制在统一的向量空间中,实现来将资源丰富的语言知识迁移到资源短缺的语言中。受到BERT的启发,mBERT [41]提出使用多语言语料库,并采用多语言掩码语言模型(multilingual masked language modeling, MMLM)进行模型的预训练。从直观的角度来看,使用平行语料库更加有利于学习不同语种的跨语言表示学习。因此,XLM [42]利用双语句子对数据,并使用翻译语言模型(translation language modeling, TLM)作为目标进行预训练。采用TLM作为训练目标,可以鼓励模型将两种语言的表示对齐在一起,得到更好的跨语言表示。基于MMLM和TLM,研究者还训练了更多的多语言语言模型,比如XLM-R [43]、InfoXLM [44]和ERNIE-M [45]。这些研究表明,预训练多语言语言模型可以显著提高多语言NLP任务或者低资源语言任务的性能。

预训练模型在自然语言处理的成功,使得预训练技术迅速扩展到其他领域,如计算机视觉[4648]和语音处理[49]。尽管基于自监督的预训练是目前自然语言处理领域最成功的迁移学习方式,但适用于计算机视觉领域的预训练方式是多样化的。在这其中,监督学习是计算机视觉任务中主要的预训练方式。Sun等 [48]发现使用大规模(噪声)有标数据集(如ImageNet [50],JTF300M [48])进行表示学习可以提高模型性能。通过学习视觉表示,模型在视觉下游任务的效果得到了显著的提升[48]。除此之外,一部分计算机视觉领域的研究者对自监督的模型预训练也展开了探索[5156]。Doersch等 [53]中提出了一系列预测任务用来建模物品的视觉表示。Dosovitskiy等 [57]中使用Transformer的模型结构,在图像数据上利用掩码补丁预测来进行预训练。实验结果表明,预训练后的Transformer模型取得了与强对照卷积神经网络(convolutional neural network, CNN)模型相近的结果。

近期,对比学习已经被成功应用到视觉领域自监督预训练中。此外,对比预测编码[58]在语音、图像、文本和强化学习等各种场景中取得了很好的效果。文献[5860]通过计算对比损失函数,使得数据增强后来自于同一张原始图片的两张不同图片相似度最大化,而不同原始图像的相似性最小化。近期,在视觉表示预训练任务上利用自然语言作为监督信号的方法也取得了很大进展[61],并在图像分类和其他视觉任务中取得很好的效果。

预训练模型和方法同样适用于多模态领域。通过文本预训练模型与其他模态(比如,图像[6265]、视频[6667]和语音[68])的融合,将预训练模型的应用范围拓展到了多模态领域。例如,文献[63]通过联合建模图片和文本的任务-已知性表示,显著地提高了在多个多模态任务上的性能。基于Transformer模型结构,预训练模型利用大规模图像-文本对数据,来对跨模态的语义对齐进行建模。对于视觉生成任务,DALL-E [69]和基于CLIP的生成[61]利用语言模型和视觉输入来生成引人注目的视觉场景。虽然多模态上最常用的预训练任务是MLM和遮蔽区域预测(masked region prediction, MRP),但Yu 等[70]提出了知识增强的场景图预测,用来捕捉更详细语义的对齐。Gan 等[71]将对抗性训练加入预训练过程,显著提高了模型的性能。Cho 等[72]将多模态预训练制定为基于多模态上下文的统一语言建模任务。这些证据表明,预训练模型在人工智能(artificial intelligence, AI)社区中发挥着关键作用,有可能促进跨语音、计算机视觉和自然语言处理等研究领域的预训练框架的统一。

目前已经有一些关于预训练模型(pre-trained model, PTM)的调研总结论文。其中,一些文章聚焦于特定类型和应用的预训练模型。比如,基于Transformer的预训练语言模型(T-PTLMs)[73]、基于BERT的训练技术总结[74]、提示性学习[75]、数据增强[76]、文本生成[77]和对话设计[78]。另外一些文章则从全景的角度,对整个预训练模型的进展进行概括总结。例如,Ramponi和Plank [79]从早期的传统非神经方法介绍到目前的预训练语言模型。Qiu等 [80]从四个不同的角度,对已有的预训练语言模型进行了分类,并指出一些未来潜在研究方向。Bommasani等 [81]提出了基础模型的概念,提出了将不同子领域(如NLP、计算机视觉和语音)的预训练模型统一为一个模型的概念,并分析了它们在各种AI领域中的机遇和挑战。Han等 [82]深入探讨了预训练模型的历史,揭示了预训练模型在AI发展进程中的重要地位。与之前工作不同的是,我们主要关注自然语言处理任务中的预训练模型:首先,我们详细分析了不同的预训练模型和规模化预训练模型的趋势,之后讨论它们对NLP领域的影响以及预训练模型的主要挑战;然后,本文针对预训练模型在工业应用中的观察和实践展开了详细的介绍。

在本文中,我们将首先在第2节中总结预训练模型的方法和类别,并在第3节中讨论预训练模型的影响和挑战。接下来的第4节中,我们将介绍预训练技术在工业界场景中的应用。最后,我们将对本文内容进行总结并对该领域的潜在研究方向展开讨论。

《2、 预训练模型的方法》

2、 预训练模型的方法

《2.1 预训练模型的不同框架和扩展》

2.1 预训练模型的不同框架和扩展

使用PTMs时,设计有效的训练方法以充分利用未注释的数据并协助下游微调非常重要。在本节中,我们简要介绍了目前一些广泛使用的预训练框架。图1总结了现有的流行预训练框架,可分为三类:仅使用Transformer解码器;仅使用Transformer编码器;使用Transformer解码器-编码器。以下是每个类别的简要描述,并在随后的小节中提供更详细的信息。

《图1》

图1 本图是几种预训练框架的示例。其中,x代表原本的句子,xt (t = 1,2,…,T)代表第t位置的词,T是序列长度,M(x)用于将词x掩盖掉的特殊字符。S表示序列的起始标记嵌入。p1p2p3p4表示第一至第四标记的位置嵌入。P是条件概率。ij分别表示编码器输入标记的起始和结束索引。

• 仅使用Transformer解码器的框架利用单向(从左到右)的Transformer解码器作为预训练骨干,并以单向自回归的方式预测标记。在这里,“自回归”是指基于历史标记预测当前标记,即当前标记左侧的部分序列。更具体地说,给定文本序列x=x1, x2,x3, , xT [其中,x是原始句子,xt (t=1, 2, …, T)是第七个标记,T是序列长度],自回归模型将输入文本序列的可能性分解为px=t=1Tp (xt|x<t),其中,p是输入文本序列的可能性。

• 仅使用Transformer编码器的框架利用双向Transformer编码器,旨在恢复被随机屏蔽的标记,给定输入句子。

• 使用Transformer编码器-解码器的框架旨在通过在源侧屏蔽标记并在目标侧恢复标记来预训练序列生成模型。这些框架包括两类:①序列到序列编码器-解码器,包括具有单独参数的双向Transformer编码器和单向解码器;②统一编码器-解码器,其中双向Transformer编码器和从左到右的解码器同时预训练,具有共享的模型参数。

《2.1.1. 仅使用Transformer解码器的框架》

2.1.1. 仅使用Transformer解码器的框架

语言建模的目标是给定其历史,自回归地预测下一个标记。自回归的性质意味着每个位置的输入标记未来是不可见的,即每个标记只能关注前面的单词。生成式预训练模型(GPT)[22]是第一个使用Transformer解码器架构作为其主干的模型。给定一个单词序列作为上下文,GPT使用Transformer的屏蔽多头自注意力计算下一个单词的概率分布。在微调阶段,Transformer的预训练参数被设置为下游任务模型的初始化。GPT在BooksCorpus数据集上进行预训练,该数据集的大小几乎与1B Word Benchmark相同。它拥有数亿个参数,并在12个NLP数据集中的9个上改进了SOTA结果,展示了大规模PTMs的潜力。GPT-2 [83]遵循使用Transformer解码器的单向框架,使用了更大的WebText语料库进行训练,拥有15亿个模型参数。GPT-2在零样本设置下在8个测试语言建模数据集中的7个上达到了SOTA结果。GPT-3 [26]进一步增加了Transformer的参数到1750亿,并引入了上下文学习。GPT-2和GPT-3都可以在不进行微调的情况下应用于下游任务。它们通过扩大模型和数据集的规模实现了强大的性能。

单向语言建模仅对前面的语境进行自回归建模,忽略了后面的语境,这可能会降低下游任务的性能。为了解决这个问题,Yang等 [84]提出了置换语言建模(PLM)的方法,它对输入标记进行置换自回归建模。例如,“I love the movie”这个句子的置换可以是“I the movie love”。一旦选定了置换,置换后的句子的最后几个标记就是需要预测的目标。在上面的例子中,“love”这个标记是目标,依赖于可见的上下文“I the movie”。PLM的优点在于它可以充分利用上下文信息,为不同的被屏蔽标记建立依赖上下文的关系,包括前面和后面的单词。为了实现PLM,Yang等 [84]提出了一种新的双流自注意力机制,一个查询流用于计算查询向量,另一个内容流用于计算键/上下文向量。双流自注意力方法避免了可见上下文泄漏到被屏蔽的位置。

《2.1.2. 仅使用Transformer编码器的框架》

2.1.2. 仅使用Transformer编码器的框架

预训练的Transformer编码器,如BERT [23],已成为NLP系统的标准。BERT使用Transformer作为骨干结构,并采用MLM框架。在预训练阶段,BERT随机替换单词,用特殊标记[MASK]来尝试基于上下文表示恢复损坏的单词。它还采用下一句预测(NSP)目标来捕捉两个句子之间的语篇关系,这对于句子级任务(如问答)很有帮助。Devlin 等 [23]根据文献[85]将这个过程称为填空任务。BERT是在BooksCorpus(8亿个单词)和英文维基百科(25亿个单词)的组合上进行预训练的,在17个NLP任务上取得了显著的改进,甚至在一些下游任务中超过了人类的表现水平。然而,BERT的缺点也很明显:因为[MASK]标记在微调期间在真实数据中不会出现,所以会在预训练和微调之间产生不匹配。为了解决这个问题,BERT使用了一种新方法来屏蔽标记:在15%的随机位置中,只有80%被[MASK]标记替换,10%保留为原始标记,10%被替换为训练过程中的随机标记。这种屏蔽策略会导致模型需要更多的步骤来收敛,因为训练批次中只有15%的标记被预测。BERT的另一个问题是它独立地预测标记,而没有考虑其他屏蔽标记。文献[86]提出的模型是一个统一的编码器-解码器模型,倾向于通过删除输入句子的文本跨度,并自回归地预测被屏蔽的跨度,从而缓解在屏蔽语言模型的预训练中同一跨度内的屏蔽标记独立假设问题。

在BERT成功之后,大量的研究工作投入到了MLM中。SpanBERT [87]设计了一种预测文本片段的模型,选择随机连续片段进行屏蔽,引入了一个片段边界预测目标,强制模型根据片段边界的结构信息来预测被屏蔽的文本片段。它通过将BERT中的NSP目标替换为单序列训练来获得更好的性能。SpanBERT在问题回答和指代消解等与文本片段相关的任务上优于BERT。类似于SpanBERT,ERNIE [31]使用中文分词器获取短语信息,然后将BERT中的随机标记屏蔽替换为实体或短语屏蔽。ERNIE还利用命名实体识别工具包识别实体边界,并在实体级别随机屏蔽标记,从而实现将外部知识集成到模型预训练中。

《2.1.3. 使用Transformer编码器-解码器的框架》

2.1.3. 使用Transformer编码器-解码器的框架

Transformer编码器-解码器架构致力于自然语言生成(NLG)任务。与自然语言理解(NLU)专注于理解文本不同,NLG旨在根据特定输入生成一种连贯、有意义且类人的自然语言表达。例如,机器翻译的目标是生成与给定源语言输入相同含义的目标语言句子;对于文本摘要,目标是生成输入文档的简短版本,以捕捉核心意义和观点。关键点是同时建模两个序列,一个用于输入,另一个用于输出。

文献[88]提出了一种用于语言生成的掩码序列到序列(MASS)学习方法,以预训练序列到序列模型。ASS的基本思想是将带有掩码片段(即几个连续的标记)的句子作为输入,并在编码器表示的条件下预测掩码片段。这样,通过在源端进行掩码和在目标端进行预测,MASS成功地将Transformer编码器框架转化为自回归框架。MASS使用WMT News Crawl数据集的单语数据进行预训练,并在与直接使用注释数据训练的模型相比的机器翻译质量上取得了实质性的改进。

对Transformer编码器和解码器进行预训练会得到一个统一的模型,可以同时处理语言理解和语言生成。这个类别中的一种是标准的Transformer编码器-解码器模型,它并不共享统一的编码器和解码器组件。双向和自回归Transformer(BART)[89]提出了与MASS类似的目标,但不同的是MASS掩盖了连续的一系列标记,即输入的n-gram,而BART使用任意噪声函数破坏文本,即在不同位置掩盖/删除/替换/交换随机标记。BART可以被视为上述两种架构的组合:源端的随机掩码策略使模型能够处理NLU任务,而整体的序列到序列预训练框架使模型能够推广到NLG任务。在新闻、图书、故事和网络文本的160 GB数据上进行预训练,BART达到了与RoBERTa [90]相当的结果,并在对话和抽象文本摘要上获得了新的SOTA结果。这个类别的另一种方法将编码器和解码器统一为相同的Transformer块。Dong 等[91]和Bao等[92]也提出了一个统一的语言模型预训练框架,用于NLU和生成任务。这些研究将自注意力矩阵划分为三个组件:双向组件、单向组件和序列到序列组件,分别代表单向、双向和序列到序列语言模型。实验证明,使用单一的预训练目标会带来性能提升。Du等 [86]提出了文献[91]中报道的模型的变种,将掩码标记放置在未掩码标记的右侧,并进行自回归填充。Xiao等 [93]在不同的粒度上屏蔽多个片段,以鼓励解码器更多地依赖编码器表示,从而增强编码器与解码器之间的相关性。Zhang等[94]采用了不同的方法:首先,根据预定义的重要性标准从输入文档中删除一句话,然后基于剩余的上下文句子生成删除的句子。这种策略在句子级别执行自回归,促进对整个文档的理解和类似摘要的生成。在12个下游摘要任务上的实验展示了SOTA结果,显示了间隙句子预训练方法的有效性。

《2.2 放大预训练模型》

2.2 放大预训练模型

NLP的最新进展展示了使用数十亿参数扩展PTMs的有前途的趋势。OpenAI研究人员训练了一个名为GPT-3的模型,该模型具有1750亿个参数[26]。GPT-3在许多NLP数据集上实现了强大的性能,包括问答、机器翻译和三位数算术。GPT-3表明,扩大语言模型可显著提高任务不可知性和少样本性能,有时甚至比之前的SOTA微调方法取得更好的结果[26]。尽管大型预训练模型是一个很有前途的方向,但训练大规模PTMs是一项具有挑战性的任务,需要大量的训练数据和GPU资源。因此,高效的模型训练算法在扩大PTMs方面起着至关重要的作用。以下部分介绍了流行的大规模 PTMs 以及用于实现它们的训练方法。

《2.2.1. 大规模预训练模型》

2.2.1. 大规模预训练模型

表1 [2428,39,95102]总结了主流的大规模PTMs。近年来,PTMs的规模越来越大,从26亿到1750亿个参数不等。大规模预训练语言模型包含大量的训练配方,包括指数级增加的可训练参数、预训练架构、知识增强、特定语言语料库和不同的预训练任务,以支持PTMs的十亿级训练。尽管这些模型的训练方法不同,但是由于后者高效的并行计算性能,所有PTMs都使用transformers [9]作为标准主干。由于训练大规模模型需要大量无监督数据,因此,扩展PTMs的研究主要集中在英文和中文等高资源语言上。

《表1》

表1 大规模预训练语言模型总结

根据预训练架构中使用的不同设计,大规模PTMs通常可以分为三类(如第2.1节所述):纯编码器、纯解码器和编码器-解码器。大多数大型PTMs仅利用纯解码器或编码器-解码器架构,而只有少数大型模型采用纯编码器设计。这是因为纯编码器模型不能很好地执行生成任务,如文本摘要和对话生成,而专为语言生成而设计的纯解码器模型不仅可以阐明NLG,还可以通过流行的提示技术阐明语言理解任务,如GPT-3 [26]。

• 大规模纯编码器模型采用双向transformer编码器来学习上下文表示;它们在NLU任务上表现出色。例如,DeBERTa 1.5B [24]由48个具有15亿个参数的transformer层组成,应用了分离的注意力机制并增强了掩码解码器以在 SuperGLUE [30]基准测试中超越人类性能。由于双向性使得模型无法直接用于NLG任务,DeBERTa训练了另一个版本的统一编码器-解码器来适应NLG任务。

• 纯解码器模型通过应用自回归掩码来使用transformer解码器,以防止当前标记关注未来标记。示例包括GPT-3 [26]、CPM [27]和PanGu-α [28]。这一系列PTMs旨在生成类似人类的文本。Turing-NLG [95]是一个170亿参数的语言模型,在语言模型基准测试中取得了强劲的性能。具有1750亿个参数的GPT-3可以惊人地编写欺骗人类读者的样本,证明大规模语言模型可以通过上下文学习显著推进少样本学习场景。除了英文大规模单语PTMs,还有中文、韩文等其他语言的模型。CPM [27](26亿参数)和PanGu-α [28](2000亿参数)是 GPT-3 的两个中国变体,而HyperCLOVA [96]是一个2040亿参数的韩国变体。

• 编码器-解码器模型可以进一步分为两类:①传统的序列到序列(seq2seq)编码器-解码器;②统一编码器-解码器。传统的序列到序列(seq2seq)编码器-解码器采用经典的transformer编码器-解码器架构进行预训练。最近的工作包括文本到文本转换的transformer(T5)[25]、多语言T5(mT5)[97]和经济高效的预训练语言模型(CPM-2)[98]。T5 [25]具有多达110亿个参数,通过以文本到文本的方式转换语言理解和生成任务,将NLP任务统一在一个框架中。作为T5的多语言变体,mT5 [97]拥有多达130亿个参数,将单语言数据扩展到101种人类语言,并在各种多语言基准测试中优于之前的SOTA结果。CPM-2 [98]具有110亿个参数,是一个在中文和英文上训练的双语模型,其混合专家(MoE)版本表示为CPM-2-MoE,具有1980亿个参数。该模型通过微调和提示展示了出色的通用语言智能。另一种编码器-解码器模型是统一的编码器-解码器框架,其中编码器-解码器架构共享相同的模块,并针对MLM和自回归语言建模应用不同的掩码策略。ERNIE3.0 [39]通过设计两个独立的理解和生成head来共同学习语言理解和生成,这两个head共享一个与任务无关的表示。作为ERNIE系列的第三代PTMs(100亿参数),ERNIE3.0结合了自回归因果语言模型和自编码模型的优点来训练大规模知识增强的PTMs。它在包括SuperGLUE [30]在内的各种NLP基准测试中的表现都超过了SOTA。这些方法表现出优越的性能,因为它们都倾向于将多个NLP任务统一在一个模型中,并使用不同种类的语料库或知识来提高性能。

上面提到的大多数大规模模型都是在没有整合知识的情况下在纯文本上训练的。因此,一些研究人员尝试将语言知识和世界知识等知识纳入PTMs。ERNIE 3.0在海量非结构化文本和知识图谱上预训练transformer,以学习词汇、句法和语义信息。它通过知识集成、短语掩码和命名实体掩码丰富了PTMs。

语言PTMs的巨大进步引起了对多模态预训练的研究兴趣[72,103107]。表2 [69,103104,107]列出了大规模多模态PTMs的详细信息。DALL-E [69]是GPT-3的120亿变体,它在2.5亿个英文文本图像对上进行训练,根据语言描述生成图像,从而提高零样本学习性能。ERNIE-ViLG [107]使用统一的生成预训练框架进行双向图像文本生成,将图像和文本生成制定为自回归生成任务。因此,它在文本到图像合成和图像描述等生成任务上优于以前的方法,该模型使用在1.45亿个高质量中文文本图像对上预训练的100亿参数模型。此外,多模态到多模态多任务巨型transformer(M6)[104]是一个拥有1000亿参数的transformer编码器,它在超过1.8 TB的图像和292 GB的中文文本上进行训练。M6在视觉问答、图像描述和中文图文匹配方面取得了出色的表现。除了对多模态任务的改进外,这些模型还可以提高单模态任务的性能,如文本分类、推理、摘要和问题生成[105]。这些结果表明,多模态预训练可以利用多模态信息来增强图像表示和文本表示,从而提高多模态任务和NLP任务的性能。

《表2》

表2 大规模多模态PTMs

《2.2.2. 大规模模型的高效训练》

2.2.2. 大规模模型的高效训练

由于有限的GPU内存和无法承受的训练时间,PTMs大小的指数增长对高效训练提出了巨大挑战。因此,利用有效的训练技术来加速大规模模型训练并非易事。

《2.2.2.1. 密集模型》

2.2.2.1. 密集模型

数据并行是一种简单的解决方案,它将不同的数据分区分配给多个机器,并在所有机器处复制相同的参数。但是,它通常会受到每个GPU批处理大小较小的影响。另一种解决方案是模型并行性,其中模型参数被分配给不同的机器。然而,传统的优化算法需要每个参数额外的内存来存储中间状态,这阻碍了模型大小的有效更新。流水线并行结合了模型并行和数据并行的优点,减少了低效的时间成本。Gpipe [108]使用一种新颖的批量分割流水线算法,首先将训练样本的小批量分成更小的微批量,然后在最后同时聚合梯度更新。Megatron-LM [109]是一种用于transformer网络的层内模型并行方法,它在自注意力和多层感知器(MLP)块上添加了一些同步原语。PTD-P [110]将跨多GPU服务器的流水线、张量和数据并行与一种新颖的交错流水线调度策略相结合,将吞吐量提高了10%以上。最近,Colossal-AI [111]实现了各种数据、流水线、序列和多张量并行的组合,用于大规模模型训练,这可能是训练密集模型的一个很好的选择。

《2.2.2.2. 稀疏模型》

2.2.2.2. 稀疏模型

稀疏门控混合专家(MoE)模型[112]使用多个专家子网络的稀疏门控组合实现了超过1000倍的模型容量增量。通过利用集成机制,MoE使用门控单元来确定应激活哪些top-k子网络进行预测。

开关transformer [91]通过简化稀疏路由并用开关路由替换前馈全连接层,将PTMs的规模扩大到多达数万亿个参数,其中每个样本仅路由到一个专家。

《2.2.2.3. 其他高效训练策略》

2.2.2.3. 其他高效训练策略

内存高效优化的最新技术包括混合精度训练[113]和内存高效自适应优化。混合精度训练利用半精度浮点数而不损失模型精度,这几乎将内存需求减半。其他研究旨在提高内存效率的自适应优化。例如,零冗余优化器(ZeRO)[114]是Turing-NLG的催化剂,由ZeRO-DP和ZeRO-RP算法组成,分别旨在减少模型状态的内存占用和剩余内存消耗。首先,ZeRO-DP通过执行优化器状态分区、添加梯度分区和添加参数分区来优化优化器状态、梯度和参数。然后,ZeRO-R通过去除激活复制、预定义适当的临时缓冲区大小和主动内存管理来优化剩余内存。

《3、 预训练模型的影响和挑战》

3、 预训练模型的影响和挑战

《3.1 NLP预训练模型的影响》

3.1 NLP预训练模型的影响

预训练模型的出现给NLP领域带来了重大突破。在预训练模型出现之前,许多研究都集中在为特定NLP任务设计专门的模型,这些模型通常无法应用于其他任务。例如,文献[115]提出了用于文本分类的TextCNN模型,文献[8]提出了用于自然语言生成的LSTM模型。自出现以来,预训练模型因其在表示学习方面令人印象深刻的能力而开始作为NLP中的基础模型。这为NLP开辟了一个新的“预训练然后微调”范式。该范式可以充分利用未注释的数据来训练基础模型,然后使用有限的特定任务的标注数据对其进行微调。即使标注数据有限,下游NLP任务的性能也有很大提高。图2 [23,39,116117]展示了在五个NLP任务基准上SOTA结果从未预训练的监督模型到预训练模型如BERT和ERNIE 3.0的演变。可以清晰看到预训练模型明显优于之前的非预训练模型,且知识增强的ERNIE 3.0在许多NLP任务上稳步超过BERT。另一个重要趋势是采用预训练模型来统一所有NLP任务。例如,T5 [25]以文本到文本的方式将语言理解和生成任务组合到一起,以序列到序列的预训练模型处理所有NLP任务。因此,NLP社区也见证了任务统一的新兴趋势。

《图2》

图2 不同NLP基准测试中表示技术的演变转化。结果来自参考文献[23,39,116117]。SuperGLUE是一个由一系列困难的语言理解任务组成的NLU排行榜;OCNLI、DRCD、LCSTS和KdConv分别是自然语言推理、机器阅读理解、文本摘要和对话生成的评估语料库。w/o表示无。

GPT-3 [26]在零样本学习和少样本学习方面表现出了良好的性能。与GPT-3一起,一种新的利用提示进行训练的方法[118]被提出,重新制定了任务的范式。通过引入新范式以更好地利用预训练模型,预训练后用提示调优的方法引领了一种新趋势。不同于通过微调使预训练模型适应下游任务,下游任务被预定义为“槽填充”任务:给定一个人为设计的带有空槽的句子模板,让预训练模型学习填充这些模板空槽。该框架已经被证明是强大的,它使语言模型能够适应少样本及零样本场景。因此,这一技术也在NLP社区引起了广泛的关注。我们一般从以下三个方面来描述预训练语言模型的影响:自然语言理解、自然语言生成和对话。对于对话,预训练模型专注于响应式生成。鉴于其有大量的相关工作,我们将对话作为一个单独的类别。

《3.1.1. 自然语言理解》

3.1.1. 自然语言理解

自然语言理解在NLP中是一个广泛的主题,其包括许多任务,如命名体识别、情感分析、文档归类、阅读理解、语义匹配、自然语言推理和信息抽取。表3 [39,116117,119120]比较了使用和不使用预训练技术的模型在四种不同NLU任务上的性能。可以看出,经过预训练的模型明显优于未经过预训练的模型。因此,预训练模型已经成为NLU任务中的标准主干。许多研究人员已经使用预训练模型来提供与任务无关的表示,然后设计特定于任务的架构或目标来提升NLU性能。例如,BERTGCN [121]结合了BERT的表示能力和图卷积网络(GCN)的直推式学习以提高文本分类性能,使其准确率提高了约4%。

《表3》

表3 在NLU任务中,有无预训练的SOTA结果

为了比较预训练模型在NLU任务上的性能,研究人员在两个基准测试GLUE和SuperGLUE上上传他们的结果。这些预训练模型如今在两个排行榜上的表现已经优于人类。此外,mBERT [41]、XLM [42]、mT5 [97]、ERNIE-M [45]等多语言模型使用统一模型来表示多种语言,从而可以在不同语言之间共享学习信息。该技术缓解了低资源语言中的数据稀疏问题,并减少了为每种特定语言训练专门语言模型的需求。这种新范式正在改变NLP研究的重点,从为多语言任务设计专门的模型到研究如何在这些任务中使用预训练模型。

《3.1.2. 自然语言生成》

3.1.2. 自然语言生成

NLG任务,如文本摘要、问题生成和数据到文本生成,在NLP中都非常具有挑战性。由于巨大的搜索空间,预训练模型时代之前的方法因标注数据不足和参数有限,很难生成流畅、连贯和信息丰富的文本。如表4 [94,122125]所示,预训练模型在提高NLG任务的性能方面发挥了关键作用。大规模预训练模型从未标注数据中自动学习单词组合和句子表达,显著提高了模型在语言生成方面的流畅性、连贯性和信息性。ERNIE-GEN [93]使用一种增强的多流序列到序列预训练和微调框架,并结合逐跨生成任务来生成连续的实体,在五个有代表性的NLG任务上取得了新的SOTA结果。研究人员和从业者还在生成任务上预训练特定任务的transformer模型,如MASS [88]和PEGASUS [94]。更具体地说,MASS采用编码器-解码器框架在给定句子剩余部分的情况下重建句子片段,在没有机器翻译预训练的情况下实现了比基准有显著提升。PEGASUS用于预训练具有精心设计的预训练目标的大规模编码器-编码器模型,该模型在所有12个文本摘要任务上均取得了SOTA效果。随着模型规模的增长,预训练模型逐渐展现出显著的创意写作能力。GPT-3、HyperCLOVA、ERNIE 3.0等模型仅通过零样本学习就能够生成文章、问答、小说和程序代码。生成文本的质量有时可以与人类编写的文本相媲美。例如,人类在区分真新闻和GPT-3生成的假新闻时的准确率仅为52%。

《表4》

表4 在NLG任务中,有无预训练的SOTA结果

《3.1.3. 对话》

3.1.3. 对话

在过去的几年中,几个具有代表性的对话生成模型已经使用从社交媒体(包括Twitter、Reddit、微博、百度贴吧)收集的类人对话数据进行了预训练。基于通用语言模型GPT-2 [83],DialoGPT [126]已经使用Reddit评论进行了响应式生成的训练。Meena [127]将网络参数增大到2.6亿,并在训练过程中使用更多社交媒体对话,从而显著提高响应质量。为了减轻大型语料库中不受欢迎的有毒或偏见特征,Blender [128]进一步使用人工标注好的数据集对预训练模型进行微调,并强调了参与、共情和个性等理想的对话技巧。为了缓解开放域聊天中的安全响应问题,PLATO [129]将离散潜在变量编码进transformer以生成各式各样的响应。此外,PLATO-2 [130]通过课程学习进一步扩展了PLATO的中文和英文响应式生成。DSTC9挑战[131]表明,PLATO-2在多个会话任务中表现出卓越的性能,包括开放域聊天、基于知识的对话和面向任务的对话。最近,PLATO-XL [132]被扩展到110亿参数量,并进行多方感知预训练以更好地区分社交媒体对话中的角色。其他规模较小的中文对话预训练模型包括Cdial-GPT [133]、ProphetNet-X [134]以及EVA [135]。

通过这些大规模对话预训练模型,困扰传统端到端神经模型方法的一些问题[136137]得到了显著缓解,包括回答流畅性和上下文相关性方面的不足。此外,与依赖复杂框架的现有聊天机器人(如Mitsuku [138]和XiaoIce [139])相比,这些对话预训练模型在多轮对话中表现出卓越的性能,尤其是在参与性和人性化方面。

《3.2 研究关键挑战》

3.2 研究关键挑战

尽管预训练模型显著提高了NLP任务的性能,但它们仍然存在一些关键挑战,如可解释性、鲁棒性、推理能力和大规模预训练模型的部署。本节描述了这些挑战,希望未来可以在这些方向上投入更多的努力。

《3.2.1. 可部署性》

3.2.1. 可部署性

预训练模型的一个趋势是容量的大幅增加。自从GPT [22]和BERT [23]发布以来,预训练模型的参数数量和预训练数据的大小都呈指数级增长。例如,最大版本的GPT-3 [26]需要3.64×103 petaflopdays的总训练计算量,导致总次数约为3.14×1023 flops,成本为数百万美元。模型规模的快速增长引起了对规模和可部署性之间权衡的关注。已经提出了两种类型的策略来解决这个问题:①大型预训练模型仅通过API调用用作基础模型,类似于GPT-3模型的使用方式。这种策略可以有效地使用预训练模型,并避免在每个设备上部署模型,但极大地限制了模型的应用范围。②大型模型被压缩为较小的模型[140],以便进行潜在的部署。典型的压缩技术包括模型压缩和知识蒸馏。遗憾的是,现有的压缩技术无法将超大型预训练模型(如GPT-3)压缩到适合部署在单个GPU或终端设备(如笔记本电脑或手机)上的程度。因此,为了让更多的用户可以使用大型预训练模型,必须对模型压缩进行更进一步的研究。另一个前景光明的方向是使用参数高效化技术,如prompttuning [141146],以减少部署的内存预算;这仍然是一个有待进一步探索的广阔领域。

《3.2.2. 模型的可信度》

3.2.2. 模型的可信度

预训练模型的另一个挑战是其可信度,主要涉及其可解释性[147]和鲁棒性[148]。尽管预训练模型在各种任务中实现了SOTA性能,但它们如何做出决策有时对人类来说是模糊的,这使得预训练模型难以应用于模型可解释性至关重要的领域,如医疗保健和法律[149]。因此,人们对解释深度神经模型越来越感兴趣[150]。特别是,许多研究旨在了解预训练模型在其表示中学习了什么[151]。

一些关于深度神经模型可信度的研究已经发表。这些包括:对预训练模型的语言结构分析[152],其目的是分析预训练语言模型所学习的语言知识,并试图理解其成功的原因;模型行为分析[153],用多个测试集评估模型的鲁棒性和可靠性;事后解释分析[154],旨在为深度模型的预测提供可理解的解释。

尽管在这一领域已经做了很多研究,但为了建立可靠的系统,必须解决以下挑战:①用于NLP任务的通用解释方法(现有的解释方法是为分类任务设计的);②模型预测与所学知识或提取解释之间的因果分析;③可解释性综合评价平台,包括评价数据和评价指标。

《3.2.3. 常识知识和推理》

3.2.3. 常识知识和推理

大规模预训练模型被发现编码一些常识性知识[155]。然而,为了挖掘在预训练模型中学习到的常识性知识,需要设计适当的探索任务,例如,将关系知识提取任务制定为填空语句的完成,以检验预训练模型的知识学习能力[156]。虽然预训练模型从文本中学习了一些知识,但仍然有大量的知识不能仅从文本中获得。一个可能的方向是让模型从多模态视觉输入和文本输入中学习这种知识。

除了常识知识之外,其他研究也在质疑预训练模型是否具有推理能力。例如,Talmor等 [157]设计了不同的任务来评估预训练模型的推理能力。研究人员将预训练从微调中分离出来,发现大多数预训练模型的推理能力都很差,这表明现有的预训练模型缺乏推理能力。为了缓解这一问题,一个可能的方向是将先验知识集成到预训练模型中,以指导模型隐式地学习推理规则。

《3.2.4. 模型安全性》

3.2.4. 模型安全性

预训练模型的一个严重问题是它们容易受到对抗性例子的攻击,当输入中注入扰动时,可能会误导模型产生特定的错误预测[158]。这种易感性使预训练模型面临安全问题:模型很容易受到第三方的对抗模式攻击,在实际应用中造成不可挽回的损失。除了对抗性攻击之外,另一种形式的攻击,即后门攻击,也是对预训练模型的威胁。与通常在神经模型推理过程中发生的对抗性攻击不同,后门攻击在训练过程中入侵模型[159]。如果一个模型是故意在后门数据上训练的,那么用户在涉及隐私和安全问题的应用程序中使用这个模型将是极其危险的。未来的工作可以致力于提高预训练模型对对抗性攻击的鲁棒性。为了应对后门攻击,模型应该能够在输入中检测到可以激活后门攻击的触发器并移除触发器,从而增强模型的安全性。

《4、 预训练模型的应用》

4、 预训练模型的应用

《4.1 应用的平台和工具包》

4.1 应用的平台和工具包

PTMs由于其普适性已成为 NLP 中的基础模型。许多研究人员已经开发了一系列开源工具包和平台,以更好地利用PTMs。这些工具包和平台通常包含各种PTMs、微调工具和模型压缩工具。

《4.1.1. 工具包》

4.1.1. 工具包

当研究人员提出一个新的预训练语言模型时,通常会开源相应的工具包以供使用。这种工具包通常提供了基于特定模型的下游任务开发代码,因此缺乏通用性。典型的工具包包括google-research/bert [160]、PaddlePaddle/ERNIE [161]和PCL-Platform.Intelligence/PanGu-α [162]。这些工具包提供了一系列开源的PTMs,如BERT、ERNIE和PanGu-Alpha,以及源代码和训练数据。例如,ERNIE工具包不仅提供ERNIE的源代码、训练数据和预训练模型,还提供了一些增强的ERNIE系列模型,如ERNIE-Doc [163]和ERNIE-ViL [70]。为了将ERNIE模型部署到在线服务中,ERNIE工具包还提供了模型压缩工具。

随着PTMs的广泛发布,了解如何在统一的工具包中使用这些模型已成为迫切的需求。在这种背景下,通用NLP应用程序的工具包已经开发出来。典型的工具包包括HuggingFace/Transformers [164]、Fairseq [165]和PaddleNLP [166]。PTMs以用户友好的方式集成到此类通用工具包中。以HuggingFace为例,该工具包集成了各类PTMs的代码和下游应用(包括分类、生成、摘要、翻译和问答等)的开发代码。

《4.1.2. 平台》

4.1.2. 平台

除了工具包,平台为用户提供了定制PTM服务的功能。这些平台可以为开发人员提供建立模型和将其部署到在线服务的工具。例如,百度文心[167]是一个旨在促进PTMs使用的平台。该平台满足有经验的开发人员和初学者的需求。它使开发人员能够轻松地构建自己的模型,因为用户只需要提供数据和模型配置。它还为经验丰富的开发人员提供工具包,以训练他们为应用程序量身定制的模型。其他平台如AliceMind [168]提供类似的服务,它们没有明显的区别。OpenAIAPI [169]是另一种仅基于PTMs开发应用程序的平台。OpenAIAPI基于GPT-3 [26],它提供特定的高级功能,如英法翻译、语法纠正、问答、广告生成和产品名称生成。

《4.2 应用》

4.2 应用

PTMs已经广泛应用于实际应用程序,包括文档智能、内容创作、虚拟助手和智能搜索引擎。下面,我们将描述PTMs在每个领域中的应用。

《4.2.1. 文档智能》

4.2.1. 文档智能

PTMs的一项广泛研究的应用是文档智能,其中包括情感分析、新闻分类、反垃圾邮件检测和信息提取。情绪分析被广泛用于识别情绪极性,如舆论,用于市场研究、品牌声誉分析和社交媒体影响。Garg和Chatterjee [170]中的研究人员提出使用PTMs对Twitter提要的情感进行分析,其标签采用三个类别的值,即正面、中性和负面。中提出将数据挖掘技术与PTMs相结合来分析产品的客户评价。最近,Singh等[172]使用PTMs分析了公众对冠状病毒对社交生活的影响的看法。Chen和Sokolova [173]提出分析公众在流行社交媒体平台上对新冠病毒肺炎相关消息中的情感,用户在该平台上分享他们的故事以寻求其他用户的支持,尤其是新冠病毒肺炎大流行期间。实验结果表明,PTMs在情感极性分类方面可以实现显著的性能提升,证明了预训练模型的有效性。

新闻分类和反垃圾邮件检测也可以建模为分类任务。Ding等 [163]应用PTMs将新闻分类为极左或极右的立场。Liu等 [174]提出发布在Arxiv.org上的论文分为11个类别,包括数学和计算机科学等。Jwa等 [175]使用BERT通过分析新闻标题与正文之间的关系来检测假新闻。

文档信息提取在工业界被广泛应用。许多AI云服务包含信息提取工具[176],如谷歌AI云、百度AI云、阿里巴巴AI云。在这些服务中,百度建立了基于PTM的平台TextMind,用于文档信息提取应用,包括费用报销的收据分析、简历信息提取、财务报表分析、合同分析和法律判决分析。全球最大的在线家居零售商Wayfair也应用BERT从客户留言中提取信息。

文档图像理解是文档智能领域的另一个重要研究课题,用于自动读取、理解和分析商业文件。一系列多模态文档PTMs [177]已经被提出,用于联合建模商业文件中文本、图像和布局信息之间的交互,用于许多文档图像理解任务,如收据理解、文档图像分类和文档信息提取。Applica提出了一种考虑布局、图形和文本的解决方案,以便在金融服务、保险服务、生命科学等复杂业务流程中提取精确答案。

《4.2.2. 内容创作》

4.2.2. 内容创作

内容创作任务通常被设计用于验证最近提出的大规模模型[22]的性能。例如,Narrativa应用GPT-2从客户提供的几个词中实现内容自动化,并生成高质量广告内容[178]。GPT-2已经证明其为电子商务生成内容的能力,以将人类从繁重的任务中解放出来。微软也展示了预训练生成模型Turing-NLG对于自动建议推荐[95]的益处。此外,许多研究人员基于GPT-3构建了各种演示应用程序,包括广告生成、AI文案、书籍撰写、代码生成、客户服务等。对于视觉内容创作,预训练多模态生成模型如DALL-E [69]、CogView [103]和ERNIE-ViLG [107]大大提高了生成图像的质量和保真度。CogView的结果证明了该模型在工业时装设计等单一领域生成高质量图像的能力,因此该模型已部署在在线时装生产中。

除了这些工业应用外,研究人员还展示了PTMs在创意写作方面的潜在能力,包括诗歌生成[179]、歌词生成[27]、电子邮件自动完成[180]、TO-DO生成[181]、句子和段落的自动完成甚至是长篇小说的生成[22]。尽管PTM表现出强大的生成能力,但越来越多的人对生成模型产生了担忧,包括隐私和版权。

《4.2.3. 虚拟助手》

4.2.3. 虚拟助手

如今,许多应用程序都采用了虚拟助手。典型应用包括智能音箱,如亚马逊的Alexa [182]和百度的小度[129]。这些应用使用了PTMs,并表明PTMs在智能音箱中可以提供出色的口语理解和语音识别[183]能力。通过PTMs带来的好处,这些智能音箱可以响应天气预报查询、点播歌曲以及语音控制智能家居设备。此外,智能音箱可以与人类就广泛的话题进行交谈,从而建立更紧密、更稳定的用户与系统之间的关系。除了在智能音箱中使用PTMs,PTMs还被部署在基于手机的虚拟助手中,如Siri和GoogleAssistant。例如,NDTV [184]表明,PTMs可以提高交互质量,而Vicent [185]表明,PTMs可以用于智能客服机器人来识别客户情绪。

随着PLMs在虚拟助手中应用越来越广泛,聊天机器人生成的响应也越来越接近人类。例如,微软提出了一种基于PLM的模型DialoGPT,它从Reddit的评论历史中学习,可以流畅地回复用户。谷歌也建议使用PLMs开发可以“随便聊”[127]的聊天机器人应用程序。为使机器人更像人类,Facebook将PLM应用于一系列对话聊天机器人,命名为Blender和Blender2.0 [128]。不久之后,百度提出了基于PLM的模型PLATO-XL [132],进一步推动聊天机器人的性能并达到SOTA的人类评估和自动评估指标。由于PTMs的性能提高,这些应用程序在与用户的交互中可以非常稳健[186]。

《4.2.4. 智能搜索》

4.2.4. 智能搜索

除了上述应用之外,PTMs还广泛应用于搜索引擎中。谷歌已经将PTMs应用于其谷歌搜索中,并取得了显著的改进[187]。百度也应用了PTMs,ERNIE 2.0 [188]和ERNIE 3.0 [39]作为其骨干,通过将文本编码为密集表示来支持语义匹配,从而在百度搜索中获得更好的检索性能[189]。Facebook [190]揭示了一个用于个性化系统的统一嵌入框架,并指出他们未来的工作将包含PTMs。

为了满足对多媒体内容搜索不断增长的需求,可以通过利用多模式PTMs来增强图像和视频搜索引擎的性能。例如,WenLan [106]开发了两个基于图像文本匹配的真实应用程序,从而展示了多模态预训练的强大功能。

为了进一步提高搜索引擎的性能,研究人员最近越来越关注多语言搜索引擎模型。多语言模型使用多语言语料库进行预训练以学习跨语言信息[191]。多语言模型最显著的优势是它们的跨语言可迁移性,从而提高在资源稀缺的语言上的表现。

《5、 结论和未来工作》

5、 结论和未来工作

PTMs可以充分利用未标注数据进行自监督学习,在NLP领域已经成为基础模型,显著提高下游NLP任务的性能。PTMs的出现为NLP开辟了一种新的“预训练然后微调”的范式。随着模型参数的增加,PTMs在零样本学习或少样本学习方面表现出了良好的性能。它们在NLP中的成功正在引发更多针对PTMs在计算机视觉、语音处理以及多模态理解和生成等其他领域的研究,揭示了它们作为这些领域基础模型的潜力。

尽管PTMs在NLP中取得了巨大的成功,但要实现通用人工智能仍有很长的路要走。首先,PTMs是不易理解的黑匣子。由于transformer模型的非线性,它们的可解释性和鲁棒性还有待探索。因此,在我们完全理解其原理之前,很难使用PTM做出可靠的决策和推理。研究PTM的不确定性是值得投入大量精力的。此外,目前的多模态和多语言预训练[192]仍处于早期阶段。统一多模式和多语言预训练将成为有待进一步探索的令人兴奋的趋势,这可能会提高这些资源稀缺任务的性能。另一个有前途的方向是将先验知识纳入PTMs中,以提高它们的推理能力和效率。现有的知识预训练工作,如K-BERT [33]和ERNIE3.0 [39],已将知识三元组注入预训练或微调中。然而,PTMs在常识意识和推理方面表现出的能力有限,需要进一步改进。虽然大规模PTMs已经展示了强大的泛化能力,但如何有效地部署它们仍然是一个悬而未决的问题。针对需要低延迟的应用程序,PTM的模型压缩仍然是一个有前途的方向。现有的模型压缩方法包括蒸馏[193]、剪枝[194]、量化[195]等。然而,如何高效地构建具有可部署推理时间的大规模PTMs仍然是一个持续的挑战。此外,设计更高效的架构来代替或改进变压器仍然是一个开放性问题。

总之,要使PTMs能够拥有做出可靠的决策和进行可靠的规划这些人工智能的基本要素,仍有很长的路要走。需要提出和开发更加高效和强大的神经网络。幸运的是,在实际应用中使用PTMs不断提供更多的数据并应对新的挑战,有望促进新的预训练方法的快速发展。