WO2022088444A1

WO2022088444A1 - 一种面向多任务语言模型的元-知识微调方法及平台

Info

Publication number: WO2022088444A1
Application number: PCT/CN2020/138014
Authority: WO
Inventors: 王宏升; 单海军; 胡胜健
Original assignee: 之江实验室
Priority date: 2020-11-02
Filing date: 2020-12-21
Publication date: 2022-05-05
Also published as: CN112100383B; CN112100383A

Abstract

一种面向多任务语言模型的元-知识微调方法及平台，该方法基于跨域的典型性分数学习，获得同类任务不同数据集上高度可转移的共有知识，即元-知识，将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化，提升语言模型应用中同类下游任务在不同域数据集上的微调效果，提升了同类任务通用语言模型的参数初始化能力和泛化能力。该方法是在下游任务跨域数据集上进行微调，微调所得的压缩模型的效果不受限于该类任务的特定数据集，在预训练语言模型基础上，通过元-知识微调网络对下游任务进行微调，由此得到与数据集无关的同类下游任务语言模型。

Description

一种面向多任务语言模型的元-知识微调方法及平台

技术领域

本发明属于语言模型压缩领域，尤其涉及一种面向多任务语言模型的元-知识微调方法及平台。

背景技术

大规模预训练语言模型自动压缩技术在自然语言理解和生成任务的应用领域都取得了显著作用；然而，在面向智慧城市领域下游任务时，基于特定数据集重新微调大模型仍然是提升模型压缩效果的关键步骤，已有的面向下游任务语言模型的微调方法是在下游任务特定数据集上进行微调，训练所得的压缩模型的效果受限于该类任务的特定数据集。

发明内容

本发明的目的在于针对现有技术的不足，提供一种面向多任务语言模型的元-知识微调方法及平台。本发明提出基于跨域的典型性分数学习，利用该方法获得同类任务不同数据集上高度可转移的共有知识，引入“元-知识”将不同数据集对应的不同域上的同类任务的学习过程进行相互关联和相互强化，提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果，提升了同类任务通用语言模型的参数初始化能力和泛化能力。

本发明的目的是通过以下技术方案实现的：一种面向多任务语言模型的元-知识微调方法，包括以下几个阶段：

第一阶段，计算同类任务跨域数据集的类原型：从同一类任务的不同域的数据集中，集中学习该类任务对应域的原型的嵌入特征，将同类任务不同域的所有输入文本的平均嵌入特征，作为对应的同一类任务多域的类原型；

第二阶段，计算实例的典型性分数：采用d _self表示每个实例的嵌入特征与自身域原型的距离，d _others表示每个实例的嵌入特征与其它域原型的距离；每个实例的典型性分数定义为d _self与d _others的线性组合；

第三阶段，基于典型性分数的元-知识微调网络：利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数，设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数；该损失函数惩罚文本分类器预测错误的所有域的实例的标签。

进一步地，所述第一阶段中，采用

表示在数据集的第k个域D ^k中类标签为m的输入文本

的集合：

其中，m∈M，M为数据集中所有类标签的集合；

为第k个域中第i个实例；

类原型

为第k个域中类标签为m所有输入文本的平均嵌入特征：

其中，ε(·)表示BERT模型输出的

的嵌入表示；对于BERT模型，平均嵌入特征是输入

对应的最后一层Transformer编码器的平均池化。

进一步地，所述第二阶段中，将实例

的典型性分数

为：

其中，α是一个预定义的平衡因子，0<α<1；cos(·,·)是余弦相似性度量函数；K是域的个数；

是指示函数，如果

则返回1，如果

则返回0，索引

用于求和；β _m＞0是

的权重，同一类的

权重相同。

进一步地，所述第三阶段中，多任务典型性敏感标签分类损失函数L _T：

其中，D表示所有域的集合；

是指示函数，如果

则返回1，如果

则返回0；

表示预测

的类标签为m的概率；

表示BERT模型最后一层输出的“[CLS]”的token的嵌入层特征。

一种面向多任务语言模型的元-知识微调平台，包括以下组件：

数据加载组件：用于获取面向多任务的预训练语言模型的训练样本，所述训练样本是满足监督学习任务的有标签的文本样本；

自动压缩组件：用于将面向多任务的预训练语言模型自动压缩，包括预训练语言模型和元-知识微调模块；其中，所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络，利用典型性分数的元-知识对下游任务场景进行微调，输出最终微调好的学生模型，即登陆用户需求的包含下游任务的预训练语言模型压缩模型；将压缩模型输出到指定的容器，供登陆用户下载，并呈现压缩前后模型大小的对比信息；

推理组件：登陆用户从平台获取预训练语言模型压缩模型，用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理，并呈现压缩前后推理速度的对比信息。

本发明的有益效果如下：

(1)本发明基于跨域的典型性分数学习研究面向多任务语言模型的元-知识微调方法，该面向下游任务的预训练语言模型的微调方法是在下游任务跨域数据集上进行微调，微调所得的压缩模型的效果不受限于该类任务的特定数据集，在预训练语言模型基础上，通过元-知识微调网络对下游任务进行微调，由此得到与数据集无关的同类下游任务语言模型；

(2)本发明提出学习同类任务不同数据集上高度可转移的共有知识，即元-知识；引入元-知识，元-知识微调网络将同类任务不同数据集对应的不同域上的的学习过程相互关联和相互强化，提升智慧城市领域语言模型应用中同类下游任务在不同域数据集上的微调效果，提升了同类任务通用语言模型的参数初始化能力和泛化能力，最终，获得同类下游任务语言模型；

(3)本发明的面向多任务语言模型的元-知识微调平台，生成面向同类任务语言模型的通用架构，充分利用已微调好的模型架构提高下游同类任务的压缩效率，并且可将大规模自然语言处理模型部署在内存小、资源受限等端侧设备，推动了通用深度语言模型在工业界的落地进程。

附图说明

图1是本发明元-知识微调方法的整体架构图。

具体实施方式

如图1所示，本发明一种面向多任务语言模型的元-知识微调方法及平台，在预训练语言模型的下游任务多域数据集上，基于跨域的典型性分数学习，利用典型性分数的元-知识对下游任务场景进行微调，使元学习者较容易地微调到任何域，所学得的知识具有高度泛化和可转移能力，而不是只局限于某个特定域，所得的压缩模型的效果适应于同类任务不同域的数据场景。

本发明一种面向多任务语言模型的元-知识微调方法，具体包括以下步骤：

步骤一：计算同类任务跨域数据集的类原型：考虑到多域的类原型能够总结对应训练数据集的关键语义特征；所以，从不同域的数据集中，集中学习该类任务对应域的原型的嵌入特征，生成同一类任务多域的类原型，具体地，对于BERT语言模型，将同类任务不同域的所有输入文本的平均嵌入特征作为该类任务对应的类原型，其中，平均嵌入特征是采用当前输入实例对应的最后一层Transformer编码器平均池化层的输出。

步骤(1.1)：定义跨域数据集。定义输入实例的种类集合为M，定义第k域中第m类标签的所有输入文本

实例的集合为

其中m∈M。

步骤(1.2)：定义类原型。将第k个域D ^k的所有输入文本的平均嵌入特征作为该域对应的类原型。

步骤(1.3)：计算类原型。类原型

是采用输入BERT模型的

对应的最后一层Transformer编码器的平均池化，计算如下：

其中，ε(·)表示将

映射到d维的嵌入特征。

步骤二：计算训练实例的典型性分数：考虑到如果训练实例在语义上接近其自身域的类原型，并且距离其它域生成的类原型也不太远，则认为该实例是典型的，具有很高的可移植性。训练实例的语义既要包含其与自身域的关联特征，也要包含其与其它域的关联特征，定义典型性训练实例为以上所述两个关联特征的线性组合。具体地，采用d _self表示每个训练实例的嵌入特征与自身域原型的距离，d _others表示每个训练实例的嵌入特征与其它域原型的距离，每个训练实例的典型性分数定义为d _self与d _others的线性组合。

由于一个原型可能不足以表示某一类别的复杂语义信息，所以，进一步将以上单个类原型扩增为基于多个原型聚类生成某一类别的类原型。具体地，如在自然语言情感的极性分类问题中，即判别某个句子的情感极性，可能的极性包括正面(positive)、负面(negative)、中性(neutral)和冲突(conflict)，面向所有情感的极性分类任务，对于正面类别的类原型的计算方法，可以通过在多个不同数据集上进行聚类生成该类别对应的通用类原型。

步骤(2.1)：计算训练实例与自身域的关联特征。每个训练实例与自身域的关联特征是每个训练实例

与其自身域原型

的余弦相似性度量距离，即

步骤(2.2)：计算训练实例与其它域的关联特征。每个训练实例与其它域的关联特征是每个训练实例

与其它域生成的类原型的余弦相似性度量距离，即

步骤(2.3)：计算典型性训练实例的特征分数。典型性训练实例

的特征分数：

其中，α是一个预定义的平衡因子，0<α<1，cos(·,·)是余弦相似性度量函数，1 _(·)是指示函数，如果输入的布尔函数是true，则返回1，否则，返回0。

步骤(2.4)：基于多个原型计算典型性训练实例的特征分数。考虑到一个原型可能不足以表示某一类别的复杂语义信息，所以，通过聚类生成多个原型，基于同一类的多个原型计算该类别的类原型。因此，实例

的特征分数

扩增为：

其中，β _m＞0是实例

的聚类成员的权重，每个类标签m∈M。

步骤三：基于典型性分数的元-知识微调网络：接下来将根据以上计算出的典型性特征分数，研究如何设计元-知识微调的学习目标函数。本发明提出基于跨域的典型性实例特征设计多任务典型性敏感标签分类损失函数。该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。具体地，利用第二阶段所得的典型性分数作为元-知识微调网络的权重系数。元-知识微调网络学习目标函数定义为：

其中，L _T是多任务典型性敏感标签分类损失函数，该损失函数惩罚文本分类器预测错误的所有K个域的典型实例的标签。

是每个训练实例的权重。

是预测实例

的类别标签为m∈M的概率，采用BERT最后一层的d维的“[CLS]”的token的嵌入层作为特征，用

表示。

本发明一种面向多任务语言模型的元-知识微调平台，包括以下组件：

数据加载组件：用于获取面向多任务的预训练语言模型的训练样本，所述训练样本是满足监督学习任务的有标签的文本样本。

自动压缩组件：用于将面向多任务的预训练语言模型自动压缩，包括预训练语言模型和元-知识微调模块。

元-知识微调模块是在所述自动压缩组件生成的预训练语言模型上构建下游任务网络，利用典型性分数的元-知识对下游任务场景进行微调，输出最终微调好的学生模型，即登陆用户需求的包含下游任务的预训练语言模型压缩模型；将所述压缩模型输出到指定的容器，可供所述登陆用户下载，并在所述平台的输出压缩模型的页面呈现压缩前后模型大小的对比信息。

推理组件：登陆用户从所述平台获取预训练压缩模型，用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理；并在所述平台的压缩模型推理页面呈现压缩前后推理速度的对比信息。

下面将以智能问答、智能客服、多轮对话应用场景中的自然语言推断任务对本发明的技术方案做进一步的详细描述。

自然语言推断任务，即给出一对句子，判断两个句子语义是相近，矛盾，还是中立。由于也是分类问题，也被称为句子对分类问题。MNLI数据集提供了来自多个领域的训练示例，目的就是推断两个句子是意思相近，矛盾，还是无关的。通过所述平台的数据加载组件获取登陆用户上传的自然语言推断任务的BERT模型和MNLI数据集；通过所述平台的自动压缩组件，生成面向多任务的BERT预训练语言模型；通过所述平台加载自动压缩组件生成的BERT预训练模型，在所述生成的预训练模型上构建自然语言推断任务的模型；基于所述自动压缩组件的元-知识微调模块所得的学生模型进行微调，在预训练语言模型基础上构建下游任务网络，利用典型性分数的元-知识对下游任务场景进行微调，输出最终微调好的学生模型，即登陆用户需求的包含自然语言推断任务的预训练语言模型压缩模型；将所述压缩模型输出到指定的容器，可供所述登陆用户下载，从训练数据中随机采样了每个领域数据的5％、10％、20％的数据进行元-知识微调。并在所述平台的输出压缩模型的页面呈现微调前后模型精度的对比信息，如下表1所示。

表1：自然语言推断任务BERT模型元-知识微调前后对比信息

方法	动物	植物	车辆	平均
元-知识微调前	93.6％	91.8％	84.2％	89.3％
元-知识微调后	94.5％	92.3％	90.2％	92.3％

从表1中更可以看出，通过所述平台的推理组件，利用所述平台输出的压缩模型对登陆用户上传的MNLI测试集数据进行推理，并在所述平台的压缩模型推理页面呈现元-知识微调后比元-知识微调前推理精度在动物、植物、车辆领域分别提升了0.9％、0.5％、6.0％。

Claims

一种面向多任务语言模型的元-知识微调方法，其特征在于，包括以下几个阶段：

第一阶段，计算同类任务跨域数据集的类原型：从同一类任务的不同域的数据集中，集中学习该类任务对应域的原型的嵌入特征，将同类任务不同域的所有输入文本的平均嵌入特征，作为对应的同一类任务多域的类原型；

第二阶段，计算实例的典型性分数：采用d _self表示每个实例的嵌入特征与自身域原型的距离，d _others表示每个实例的嵌入特征与其它域原型的距离；每个实例的典型性分数定义为d _self与d _others的线性组合；

第三阶段，基于典型性分数的元-知识微调网络：利用第二阶段得到的典型性分数作为元-知识微调网络的权重系数，设计多任务典型性敏感标签分类损失函数作为元-知识微调的学习目标函数；该损失函数惩罚语言模型预测错误的所有域的实例的标签。
如权利要求1所述面向多任务语言模型的元-知识微调方法，其特征在于，所述第一阶段中，采用
表示在数据集的第k个域D ^k中类标签为m的输入文本
的集合：

其中，m∈M，M为数据集中所有类标签的集合；
为第k个域中第i个实例；

类原型
为第k个域中类标签为m所有输入文本的平均嵌入特征：

其中，ε(·)表示BERT模型输出的
的嵌入表示；对于BERT模型，平均嵌入特征是输入
对应的最后一层Transformer编码器的平均池化。
如权利要求2所述面向多任务语言模型的元-知识微调方法，其特征在于，所述第二阶段中，将实例
的典型性分数
为：

其中，α是一个预定义的平衡因子，0<α<1；cos(·,·)是余弦相似性度量函数；K是域的个数；
是指示函数，如果
则返回1，如果
则返回0，索引
用于求和；β _m＞0是
的权重，同一类的
权重相同。
如权利要求3所述面向多任务语言模型的元-知识微调方法，其特征在于，所述第三阶段中，多任务典型性敏感标签分类损失函数L _T：

其中，D表示所有域的集合；
是指示函数，如果
则返回1，如果
则返回0；
表示预测
的类标签为m的概率；
表示BERT模型最后一层输出的“[CLS]”的token的嵌入层特征。
一种基于权利要求1-4任一项所述面向多任务语言模型的元-知识微调方法的平台，其特征在于，包括以下组件：

数据加载组件：用于获取面向多任务的预训练语言模型的训练样本，所述训练样本是满足监督学习任务的有标签的文本样本；

自动压缩组件：用于将面向多任务的预训练语言模型自动压缩，包括预训练语言模型和元-知识微调模块；其中，所述元-知识微调模块用于在自动压缩组件生成的预训练语言模型上构建下游任务网络，利用典型性分数的元-知识对下游任务场景进行微调，输出最终微调好的学生模型，即登陆用户需求的包含下游任务的预训练语言模型压缩模型；将压缩模型输出到指定的容器，供登陆用户下载，并呈现压缩前后模型大小的对比信息；

推理组件：登陆用户从平台获取预训练语言模型压缩模型，用户利用所述自动压缩组件输出的压缩模型在实际场景的数据集上对登陆用户上传的自然语言处理下游任务的新数据进行推理，并呈现压缩前后推理速度的对比信息。