WO2021243706A1

WO2021243706A1 - 一种跨语言生成提问的方法和装置

Info

Publication number: WO2021243706A1
Application number: PCT/CN2020/094677
Authority: WO
Inventors: 余建兴; 王世祺; 印鉴
Original assignee: 中山大学
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2021-12-09

Abstract

一种跨语言生成提问的方法和装置，其中方法包括：S1.获取标注数据集，建立用于提问生成的概率分布；S2.抽取答案和答案对应的句子，在编码后得到答案向量和句子向量；S3.答案向量通过注意力机制生成上下文向量，得到基础提问生成模型；S4.计算文本之间的相似度，从而得到跨语言提问生成模型；S5.通过跨语言提问生成模型得到样本，对每个样本建立伪任务，对跨语言提问生成模型进行基于基础提问生成模型的元学习，输出最终的跨语言提问生成模型。优点在于，利用源语言的标注资源丰富目标语言短缺的训练数据，进而有效地训练出目标语言的提问生成模型；还引入元学习来解决跨语言生成任务中样本的多样性难题。

Description

一种跨语言生成提问的方法和装置

技术领域

本发明涉及人工智能领域，更具体地，涉及一种跨语言生成提问的方法和装置。

背景技术

机器阅读理解是人工智能和自然语言处理领域的研究热点，作为与之对偶的研究课题，如美国专利申请(US6959417B2，Question and answer generator)所述，提问生成(QG)能够基于文本生成提问和与之对应的答案，应用到非常多的产业当中，包括提供训练数据来支撑问答模型的构建、生成用于教学的考题或习题、通过提问的方式来获得对话反馈等。传统提问生成方法主要通过启发式的规则或手工模板把文本转换为提问，但这些人工方法的通用性和可扩展性较低。

针对提问生成的课题，在学术领域目前主流的方法可归纳为两类。第一类方法是利用语法或者句法分析器把文本转换为中间形式，如语法或句法树，然后利用模板或者规则把该中间形式提取出提问和答案。由于模板和规则是人工设计的，构建和更新成本都高，因此模型的可扩展性和覆盖度都很有限。为了解决以上问题，另一类方法使用基于序列到序列的神经模型直接把文本转换成提问，这个转换过程依靠从训练数据中学习到的文本和提问之间的对齐关系来实现。序列到序列的方法在论文“D.Bahdanau,K.Cho and Y.Bengio.2015.Neural Machine Translation by Jointly Learning to Align and Translate”中有详细介绍。该模型完全是数据驱动的，不需要人工定义大量的规则或者模板。但神经网络模型需要大量人工标注的数据来训练；模型的性能受标注数据规模的显著影响。

最近的研究转向了神经网络模型，即通过神经网络从标注数据中自动学习出文本和提问之间的映射关系，进而使用基于序列到序列的模型来生成提问。但神经网络模型很大程度上依赖于大量人工标注的数据；模型的性能直接受数据规模大小的影响。这导致这些模型由于昂贵的标注成本很难快速部署到低资源语言中，即那些缺乏标注资源的语言。当前全球使用数百种语言，只有少量的语言有丰富的标注资源，其他大多数只有少量甚至没有标注数据，导致现有方法无法直接应用于低资源语言，也难以直接构建出有效的提问生成模型。

对于基于神经网络模型的跨语言提问生成的任务主要有两个方向。一种是基于翻译的方法，即把源语言的标注样本翻译成目标语言，来作为目标语言模型的训练数据；或者把目标语言的测试样例翻译成源语言，然后根据源语言模型预测结果并把该结果翻译回目标语言。这种基于翻译的模型在论文“S.Schuster,S.Gupta,R.Shah,and M.Lewis.Cross-lingual transfer learning for multilingual task-oriented dialog.In NAACL,2019.”中有详细介绍。但翻译器通常需要串联到提问生成模型中，而非端到端融合的统一模型。这种拼接的模型会导致误差积累而造成模型整体性能较差。另一种方法是基于直接迁移，通过利用多语言的编码器把不同语言的文本映射到共同空间中，利用源语言的标注样本训练跨语言的模型，并直接应用于目标语言的测试样本。这种基于直接迁移的模型在论文“S.Upadhyay,Y.Vyas,M.Carpuat,and D.Roth.Robust cross-lingual hypernymy detection using dependency context.In conference of the NAACL,2018.”中有详细介绍。但这些方法大多忽略考虑样本的多样性，从而限制了模型的性能。

发明内容

本发明为克服上述现有技术所述的缺陷，利用多语言编码器将不同语言的文本表示到跨语言的共同空间中，然后在空间上得出基础提问生成模型；随后，利用元学习基于给定测试用例的少量相似样本对基础模型进行适配性的优化，以提高模型在不同语言中对多种类型样本的迁移能力，提供一种跨语言生成提问的方法和装置。

为解决上述技术问题，本发明的技术方案如下：

一种跨语言生成提问的方法，包括以下步骤：

S1.获取源语言标注数据集和目标语言标注数据集，建立用于提问生成的概率分布；

S2.获取源语言文本和目标语言文本，抽取答案和答案对应的句子，将答案和答案对应的句子进行编码，得到答案向量和句子向量；

S3.答案向量通过注意力机制生成上下文向量，基于上下文向量得到基础提问生成模型；

S4.计算源语言文本和目标语言文本的相似度，通过相似度得到跨语言提问生成模型；

S5.源语言文本和目标语言文本通过跨语言提问生成模型得到样本，所述样本能够从源语言标注数据集得出相似样本，对每个样本建立伪任务，在伪任务上对跨语言提问生成模型进行基于所述步骤S3的基础提问生成模型的元训练和元测试，输出经过训练的跨语言提问生成模型。

进一步地，所述步骤S1的源语言标注数据集的规模大于目标语言标注数据集的规模。

进一步地，在所述步骤S2中，使用指针网络从所述源语言标注数据集抽取答案，并使用标记屏蔽答案对应的句子中的答案。

进一步地，在所述步骤S2中，通过多语言BERT将源语言文本和目标语言文本映射到共同空间后编码。

进一步地，在所述步骤S3中，得到并对基于门控循环神经网络的概率分布、基于注意力分值构建的概率分布和基于前馈式神经网络的概率分布分别进行加权，得到平均的概率分布作为基础提问生成模型。

进一步地，在所述步骤S3完成以后，基于有监督指标训练基础提问生成模型。

进一步地，所述有监督指标包括流畅度、可解答和语义关联。

进一步地，在所述步骤S4中，首先通过循环正态分布将源语言文本、目标语言文本和所述步骤S2获得的答案映射到潜在变量，通过拼接潜在变量获得答案对应的样本在潜在空间的单元向量，随后经过推导得出样本对应的单元向量的相对熵作为相似度。

进一步地，在所述步骤S5中，将目标语言文本中每个样本作为测试集，通过从源语言标注数据集和目标语言标注数据集中获得相似样本作为训练集，测试集和训练集共同构成伪任务的数据集。

进一步地，在所述步骤S5中，元训练的具体过程如下：

随机抽取伪任务直至遍历所有伪任务，通过自临界策略梯度训练算法训练跨语言提问生成模型并更新跨语言提问生成模型的参数。

进一步地，元测试的具体过程如下：

在更新跨语言提问生成模型的参数后，评估参数的损失误差值，基于损失误差值进一步更新跨语言提问生成模型的参数。

一种跨语言生成提问的装置，包括：依次执行的输入模块、编码器、注意力机制模块、解码器、上下文关联检索器和元学习模块；

输入模块用于获取源语言标注数据集、目标语言标注数据集、源语言文本和目标语言文本；

编码器用于将答案和答案对应的句子进行编码，得到答案向量和句子向量；

注意力机制模块用于处理答案向量生成上下文向量；

解码器用于处理上下文向量得到基础提问生成模型；

上下文关联检索器用于计算源语言文本和目标语言文本的相似度，得到跨语言提问生成模型并输出样本；

元学习模块用于对每个样本建立伪任务，在伪任务上对跨语言提问生成模型进行基于基础提问生成模型的元训练和元测试，输出经过训练的跨语言提问生成模型。

进一步地，跨语言生成提问的装置还包括评估单元，在评估单元输出基础提问生成模型后，由评估单元对基础提问生成模型进行评分并进一步调整基础提问生成模型的加权参数，当评分不再提高时，将基础提问生成模型输入到上下文关联检索器中。

与现有技术相比，本发明技术方案的有益效果是：

本发明的优点在于，利用源语言中丰富的标注资源来丰富目标语言短缺的训练数据，进而有效地训练出目标语言的提问生成模型。进一步地，模型引入元学习方法来解决跨语言生成任务中样本的多样性难题。本方法的优点包括：

(1)该方法能够把源语言中丰富的标注数据迁移到目标语言中，让在目标语言有限的标注数据依然能训练出性能优越的提问生成模型；而且使用元学习考虑样本多样性来优化模型。

(2)该方法通过开发上下文关联的检索器来精确地度量样本间上下文结构的相似度，该检索器计算效率高，不需要依赖人工启发式度量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是跨语言生成提问的方法的流程示意图。

图2是跨语言生成提问的方法的另一流程示意图。

图3是生成基础提问生成模型的流程示意图。

图4是跨语言生成提问的装置的结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种跨语言生成提问的方法，如图1和图2所示，包括以下步骤：

具体的，源语言标注数据集的规模大于目标语言标注数据集的规模；

获取大规模的源语言标注数据集的模型

以及小规模的目标语言标注数据集为

其中S为文档句子，A为答案，Q为提问，并且□>n。

通过最大化以下用于提问生成的概率分布来生成最佳的提问：

其中，提问中的每个词q _t通过从概率分布p(·)中采样获得，Q _<t代表提问中第1 ^th到(t-1) ^th个生成的词，q _t表示第t ^th个词。跨语言的提问生成目标是在少量的目标语言标注资源D ^non的基础上，利用迁移学习把源语言中大量的标注资源D ^en来融合一起学习有效的目标语言提问生成器M。

S2.根据图3所示的生成基础提问生成模型的流程图，首先获取源语言文本和目标语言文本，建立编码器，抽取答案和答案对应的句子；

具体的，基于在论文“O.Vinyals,M.Fortunato,and N.Jaitly.Pointer networks.In conference of the NIPS.2015.”所述的指针网络，本发明采用指针网络来抽取给定文本中的答案。指针网络将抽取答案看成线性序列标注任务，为了标记答案的开始和结束位置，根据以下概率分布来预测给定文本的结果序列O：

其中，W _e、W _d、v _a是可训练的参数，H是输入文本的分布式编码向量，d _i是第i ^th个输出词对应的解码状态向量。本发明利用标注数据中答案的开始和结束位置索引来训练指针网络。如果提问中包含了答案词，会导致提问的合理性和可解答性下降。因此，基于文章“Y.Kim,H.Lee,J.Shin,and K.Jung.Improving neural question generation using answer separation.In conference of the AAAI,2019.”中的方案，在抽取答案后，使用特殊的标记来<UNK>屏蔽输入句子中的答案，并分别对它们进行编码以避免答案包含问题。

然后，将答案和答案对应的句子进行编码，得到答案向量和句子向量；

具体的，对于给定输入的句子和抽取的答案，首先利用基于文章“J.Devlin,M.W.Chang,K.Lee,and et al.BERT:Pre-training of deep bidirectional transformers for language understanding.In conference of the NAACL,2019.”的多语言BERT(mBERT)把这些文本映射到跨语言的共同空间中，用于表示成分布式向量，其中mBERT在104种语言上进行了预训练获得的分布式向量。每个词利用文章“Y.Wu,M.Schuster,Z.Chen,and et al.Google’s neural machine translation system:Bridging the gap between human and machine translation.2016.”所述的WordPiece模型来分词，该模型中有110k个跨语言共享词汇表，其中每个词的分布式表示通过双向门控循环神经网络(GRU)来捕捉上下文信息的分布式向量。GRU编码器来源于文章“K.Cho,B.Merrienboer,C.Gulcehre,D.Bahdanau,F.Bougares,H.Schwenk,and et al.Learning phrase representations using rnn encoder-decoder for statistical machine translation.In conference of the EMNLP,2014.”，能够捕捉语言序列前后关联信息。给定句子每个词的分布式向量，经过GRU的处理后能生成两类表示，包括(a)带上下文信息的词向量，对于句子中第j ^th个词，表示成向量

其中

和

分别表示前向和后向GRU中第j ^th个词对应的潜在状态向量，

表示这个词的分布式向量，符号[·；·]表示两个向量的拼接操作；(b)整体的编码，通过拼接开始和终止状态获得句子的整体表示

其中它们第o ^th个词可表示成

向量。因此，抽取获得的答案表示成

S3.答案向量通过注意力机制生成上下文向量；

具体的，为了能有效刻画句子中单词在语义上的长关联依赖，使用自身注意力机制来进一步优化句子的分布式表示方式，即：

注意力机制来源于文章(“Wenhui Wang,Nan Yang,Furu Wei,Baobao Chang, and Ming Zhou.2017.Gated self-matching networks for reading comprehension and question answering.In Proceedings of the 55th ACL”)。具体地，给定句子的表示H，该机制使用控制变量通过公式(1)来衡量句子内部各个单词之间的关联关系。其中α _j表示第j个单词

与句子H中其他单词的关联分数，u _j表示第j个单词的上下文关联向量，

根据u _j来更新为f _j，由控制变量g _j来确定更新的部分。

为了增强句子和答案之间的关联信息，以及考虑到句子屏蔽答案后的信息损失需要补充答案的信息，采用答案感知的交互编码方式，即

给定句子S中第j ^th个词的表示

以及答案和证据点的表示

通过函数f _m(·)来从多个维度捕捉它们的交互关联。本方法采用三个维度，包括整体关联，即计算

和答案和证据点整体的关联

累计关联，即计算

和答案和证据点各个词累计向量的关联

最大关联，计算

和答案和证据点各个词最大向量的关联

总体交互关联的函数被定义为f _m(μ,ν,W)＝cos(W _k□μ,W _k□ν)，其中□表示向量间的点乘数学符号，W表示权重矩阵，该矩阵的每列W _k表示对应关联维度的权重。

通过拼接上述维度对应的关联向量，获得答案信息感知的向量m _j＝[m ₁；m ₂；m ₃]，把该向量输入另一个GRU中来获得带上下文信息的向量

最后通过拼接获得针对句子第j ^th个词的带答案信息感知的新向量

通过公式(2)加权来融合以上的分布式表示向量，获得向量c _t，其中αt _j是归一化后的注意力权重，a _tk表示文本单词之间的对齐分数，s _t表示生成出的第t ^th 个词对应的隐含变量，v,b,W _s,W _h是可训练的参数。

然后，基于上下文向量通过门控循环神经网络得到基础提问生成模型。

具体的，基于上下文向量c _t，使用另一个GRU来生成提问；提问的每个单词根据p _voc＝Softmax(W _os _t+b _o)的概率分布来生成，其中s _t＝GRU(s _t-1,c _t)，s _t和s _t-1表示第t ^th和(t-1) ^th个生成词对应的解码潜在向量，W _o和b _o表示可训练的参数。

为了解决无登录词的问题(即生成的词未在训练数据的词集合中出现)，本发明采用来源于文章“Jiatao Gu,Zhengdong Lu,Hang Li,and Victor O.K.Li.2016.Incorporating copying mechanism in sequence-to-sequence learning.In Proceedings of the 54th ACL”的复制机制，通过融合所有词的注意力分值来构建概率分布

并按该分布来复制输入文本的词，在一定程度解决未登录词的问题。

另外，采用概率分布p _qw＝Softmax(g(s _t,c _t,h ^a))来保证提问词和答案类型之间的一致性，其中g(·)是两层的前馈式神经网络，该网络以最大输出(maxout)作为激活函数。最后，使用门控机制来从以上三种分布中选择性地生成问题，譬如从提问词分布中采用生成提问词、从词分布中采用生成提问内容的词、或者利用复制机制从输入的未登录词分布中生成词。门控开关由离散向量来控制，该向量在每一个生成词的解码过程中学习获得。具体地，该向量是以下三维度的概率：

p _gv,p _gc,p _gq＝Softmax(f(s _t,c _t,q _t-1))

其中，f(·)通过前反馈神经网络来生成概率值,q _t-1是在解码过程中生成的t-1个词。通过对以上三种分布加权求和，根据公式(3)的基础提问生成模型来生成提问的第t个词q _t。

p(q _t|S,A,Q _<t)＝p _gv·p _voc+p _gc·p _cp+p _gq·p _qw--公式(3)；

在生成基础提问生成模型的基础上，通过有监督的训练优化基础提问生成模型，通过在流畅度、可解答和语义关联等方面进行评分并通过加权求出平均评分。

具体的，为了提升训练的收敛速度，首先使用有监督的方法基于多种语言的标注数据通过最小化负交叉熵

来训练基础的跨语言提问生成模型，其中Q表示模型的预测结果，Q ^*表示标注数据的真实结果，T表示提问对应的单词个数。

根据文章“R.Paulus,C.Xiong,and R.Socher.A deep reinforced model for abstractive summarization.In conference of the ICLR,2018.”所提到的问题，考虑到传统的有监督学习存在硬匹配偏差和训练和测试之间的评估差异等不足，导致单纯优化有监督的离散目标函数并不能在连续的评估函数中获得最优解。为了解决该问题，本方法借助于强化学习来微调模型，让模型更容易获得最优解。强化学习是用于优化非连续函数的目标。具体地，目标是找出最佳的生成单词策略π _θ来最小化所生成提问对应的损失函数：

其中，分值函数r(Y)通过以下三类指标做加权平均和获得，用于衡量模型输出的提问文本Q和标注提问Q ^*之间的差异，包括：

(a)流畅度：本发明采用基于语言模型计算负困惑度的方式来衡量所生成的提问文本的流畅度。根据文章("X.Zhang and M.Lapata.2017.Sentence Simplification with Deep Reinforcement Learning.In Proceedings of EMNLP")所述的计算方式，在实际应用中能有效衡量生成文本的质量，具体如下：

(b)可解答：本发明采用QBLEU ₄(Q,Q ^*)来衡量生成的提问的可解答性。具体地，准确率的计算公式为：

召回率的计算公式为：

其中i∈{r,n,q,f}，∑ _iw _i＝1,|l _i|,|r _i|分别表示属于i ^th种类型的生成提问和标注提问单词数，r,n,q,f分别代表相关内容词、实体词、提问词和功能词。

通过以下公式加权获可解答函数

QBLEU ₄(·,·)＝δAnswerability+(1-δ)BLEU ₄

其中，

δ是权重参数；BLEU _n＝4是匹配度函数，来源于文章("K.Papineni,S.Roukos,T.Ward,and W.J.Zhu.2019.BLEU:A Method for Automatic Evaluation of Machine Translation.In Proceedings of the 40th ACL")，该函数通过计算文本对应子串的重叠度来衡量翻译文本和真实文本的匹配状况，即越多子串能匹配，分值越高。

(c)语义关联：考虑到问题表达方式的多样性，本发明奖励地提升那些与真实问题Q ^*在分布式空间中高度相似的提问Q的分值。为了计算相似度，本方法采用由文章"H.Gong,S.Bhat,L.Wu,J.Xiong,and W.Hwu.2019.2019.Reinforcement Learning Based Text Style Transfer without Parallel Training Corpus.In Proceedings of the 57th NAACL"提出的词步长距离(WMD)，是一种非常高效和鲁棒性很强的方法，该方法用于计算两个文本在分布式空间中的语义相似度。通过生成文本的词语长度来正则化，就能获得语义关联指标的分值-WMD(Q,Q ^*)/Length(Q ^*)，其中WMD(.)函数计算公式如下：

考虑到使用单一的损失函数有可能导致生成提问的可读性不强，为了解决该问题，本发明采用混合目标的损失函数来提升可读性，参考公式(4)，其中λ是权重参数，公式(4)具体如下：

L＝λL _rl+(1-λ)L _sl--公式(4)

在实践中，考虑到模型需要约束来逼近标注结果，来避免各类局部最优的可能，本发明把强化学习的权重λ设置较低，为0.3。

S4.通过上下文关联检索器计算源语言文本和目标语言文本的相似度；

具体的，本发明首先通过冯·米塞斯分布，或称循环正态分布(von Mises-Fisher，简称vMF分布)将给定的文本句子S映射到潜在变量z _s。vMF分布参考以下公式(5)：

其中，z _s和μ _s为单元向量，Z _κ是仅依赖于常数的集中度参数κ和d维数的正则化项，h ^s是句子对应的分布式表示，W _p和b _p是可训练参数。如文章“J.Xu and G.Durrett.Spherical latent spaces for stable variational autoencoders.In conference of the EMNLP,2018.”所述，该分布使得相似度计算变得更容易和更健壮。类似地，抽取的答案h ^a也被映射到潜在变量z _a。通过拼接获得每个测试样例在潜在空间上的分布式表示z＝[z _s；z _a]。

S8.在潜在空间中的相似度计算：

具体的，给定两个评测样本(S _i,A _i)和(S _j,A _j)，本发明首先把评测样本映射到潜在空间中，然后在该空间中计算样本对应的潜在变量分布的相对熵(KL divergence)，进而衡量样本之间的相似度，即：

KL(p(z _i|S _i,A _i)||p(z _j|S _j,A _j))

考虑到z是vMF分布，它对应的相对熵通过进一步用“T.B.Hashimoto,K.Guu,Y.Oren,and P.S.Liang.A retrieve-and-edit framework for predicting structured outputs.In conference of the NIPS,2018.”所述的数学推导获得公式(6)，具体为：

其中，μ是vMF分布的方向向量，κ和d是常量，C _κ＝κI _d/2(κ)/(2I _d/2-1(κ))，I _d表示d阶的修正贝塞尔函数(Bessel function)。

然后，通过相似度得到跨语言提问生成模型；

检索器从数据中自动学习获得映射函数并计算对应的相似度，训练的目标跨语言提问生成模型为：

p(Q|S,A)＝∑p _r((S',A',Q')|S,A)p _m(Q|S,A,(S',A',Q'))

其中，p _r(·|S,A)表示从D ^en和D ^non标注数据集中检索出相似的样本(S',A',Q')；p _m(·)表示是指元学习者根据检索到的结果来生成提问。如果采用例如通过联合学习最大化边际似然概率的简单训练方法，会导致难以计算，因此本发明单独训练检索器。

具体地，假设有先验的元提问生成器在给定的目标输入(S，A)上提供了提问Q的条件概率分布，并基于联合分布概率：p _r((S',A',Q')|S,A)p _data(S,A,Q)提供了对应的检索样本；基于该假设，利用数学推导得到这个元提问生成器的优化函数下界，参考以下的公式(7)：

log p(Q|S,A)≥E _Q～p(Q|S,A)log p(Q|z)-8C _κ--公式(7)

其中，p(Q|z)是门控循环神经网络(GRU)解码器，用于基于潜在变量z来预测生成提问Q。优化函数下界E _Q～p(Q|S,A)log p(Q|z)通过文章“T.R.Davidson,L.Falorsi,N.De Cao,T.Kipf,and J.M.Tomczak.Hyperspherical variational auto-encoders.In conference of the UAI,2018.”提出的重参数梯度优化的数学方法来计算。

S5.源语言文本和目标语言文本通过跨语言提问生成模型得到样本，样本能够从源语言标注数据集得出相似样本，对每个样本建立伪任务。

首先通过检索器为每个目标语言的测试样例建立伪任务，然后通过元学习基于所有伪任务来训练跨语言的提问生成模型，其中元学习包括元训练和元测试两个迭代步骤。通过少量的几个相似样本对模型进行微调，就能够获得优化后的模型，能有效捕捉样本的多样性，有针对性且快速地在新的测试任务中输出较好的结果。

然后，在伪任务上对跨语言提问生成模型进行基于所述步骤S3的基础提问生成模型的元训练和元测试，输出经过训练的跨语言提问生成模型。

具体的，本发明将目标语言数据集D ^non中每个测试样例作为单个元任务T _i的测试集

通过从标注数据集D ^en和D ^non中利用检索其获得前K个相似的样本作为伪任务T _i的伪训练集。即伪任务可以记做

基于以上伪任务集

本发明首先随机抽取一个伪任务，并用于训练以上所述的基础跨语言提问生成模型M _θ，其中θ表示模型参数。新的模型参数θ'可以通过梯度更新获得，即θ'＝U ^m(θ；α)，其中U(·)表示梯度更新操作，m表示更新次数，α表示用于最小化模型学习目标损失函数L _θ的学习率。单次的更新操作可以参考公式(8)。

由于以上模型优化目标函数中的非连续损失函数是不可微不可导，因此使用了自临界策略梯度训练算法来训练模型。自临界策略梯度训练算法在文章”S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,and V.Goel 2017.Self-Critical Sequence Training for Image Captioning.In Proceedings of the CVPR"中提出，是一种业界高效的强化学习方法。具体地，该算法把非连续的强化学习损失函数转换成

其中Q ^b表示基准方法的输出序列结果，该基准方法通过一种局部最优的方式生成训练，即使用贪婪算法每次生成概率最大的词；Q ^s是生成器M _θ所输出的序列结果，每个词

通过采用公式(3)的概率值来获得。通过最小化该损失函数就能优化模型，让其生成比基准方法分值更高的序列。

经过元训练后获得更新后的参数θ _i'，本发明利用伪任务

来评估该参数的损失误差值。基于该误差，本发明进一步地利用所有的伪任务来训练提问生成模型M _θ，即最小化的损失误差

通过以β的学习率进行一阶的梯度更新，能获得

为了减少计算成本，可以通过一阶近似简化了单位矩阵

进而以公式(9)来做元更新操作。

通过对所有的伪任务进行迭代学习，能够获得最优的生成模型

它对不同伪任务之间的变化更为敏感，这有助于学习出任务共同的内部表征，而不是单个任务的特征。因此，只需在较少数据上进行一个或少量几个微调操作即可获得具有样本针对性的模型，从而既不过度拟合又能获得较高的性能。

给出了一个目标语言的新的测试样例，本发明先为其构建伪任务，即视其为一个伪任务T _j的测试集

然后利用检索器从标注数据D ^en和D ^non获得前K个相似样本来构造一个伪训练集

随后，通过最小化公式(4)的损失函数，并以γ的学习率对元模型

进行一次梯度更新，从而获得最优的模型，然后使用该模型对给定测试样例生成结果。

一种跨语言生成提问的装置，如图4所示，包括：依次执行的输入模块、编码器、注意力机制模块、解码器、上下文关联检索器和元学习模块；

注意力机制模块用于处理答案向量生成上下文向量；

解码器用于处理上下文向量得到基础提问生成模型；

在本实施例中，跨语言生成提问的装置还包括评估单元，在评估单元输出基础提问生成模型后，由评估单元对基础提问生成模型进行评分并进一步调整基础提问生成模型的加权参数，当评分不再提高时，将基础提问生成模型输入到上下文关联检索器中。

为了衡量模型的性能，申请人使用当前主流的三种数据集进行了实验，包括简体中文的CMRC数据集、繁体中文的DRCD数据集和韩国语的KorQuAD数据集。其中CMRC数据集由文章("Y.Cui,T.Liu,W.Che,L.Xiao,Z.Chen,and et al.A span-extraction dataset for chinese machine reading comprehension.In conference of the EMNLP-IJCNLP,2019.")提出；DRCD数据集由文章("C.Chieh Shao,T.Liu,Y.Lai,Y.Tseng,and S.Tsai.DRCD:a chinese machine reading comprehension dataset.In arXiv prePrint:1806.00920,2018.")提出；KorQuAD数据集由文章("S.Lim,M.Kim,and J.Lee.Korquad1.0:Korean qa dataset for machine reading comprehension.In arXiv prePrint:1909.07005,2019.")提出。这三个数据集分别被切分为训练/验证集，样本数量分别为10k/3.3k、27k/3.5k和60k/5.7k；在dev集上测试了所有的评估。另外，英语作为源语言，对应的数据集是Squad1.1。该数据集由文章("P.Rajpurkar,J.Zhang,K.Lopyrev,and P.Liang.SQuAD:100,000+questions for machine comprehension of text.In conference of the EMNLP,2016.")提出，包含90k标注样本。以上所有的数据集都属于同一领域，即由维基百科领域的众包构建的。本发明使用三种传统指标方法来衡量生成的提问的质量，包括BLEU-4、METEOR和ROUGE-L。其中指标BLEU-4由论文提出(“Kishore Papineni,Salim Roukos,Todd Ward,and Wei-Jing Zhu.2002.Bleu:a method for automatic evaluation of machine translation.In Proceedings of the 40th ACL”)；METEOR由论文提出(“Kishore Papineni,Salim Roukos,Todd Ward,and Wei-Jing Zhu.2002.Bleu:a method for automatic evaluation of machine translation.In Proceedings of the 40th ACL”)；ROUGE-L由论文提出(“Chin-Yew Lin.2004.ROUGE:A package for automatic evaluation of summaries.In Text Summarization Branches Out”)。实验结果表明，本发明的方法明显地优于传统方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

一种跨语言生成提问的方法，其特征在于，包括以下步骤：

S1.获取源语言标注数据集和目标语言标注数据集，建立用于提问生成的概率分布；

S2.获取源语言文本和目标语言文本，抽取答案和答案对应的句子，将答案和答案对应的句子进行编码，得到答案向量和句子向量；

S3.答案向量通过注意力机制生成上下文向量，基于上下文向量得到基础提问生成模型；

S4.计算源语言文本和目标语言文本的相似度，通过相似度得到跨语言提问生成模型；

S5.源语言文本和目标语言文本通过跨语言提问生成模型得到样本，所述样本能够从源语言标注数据集得出相似样本，对每个样本建立伪任务，在伪任务上对跨语言提问生成模型进行基于所述步骤S3的基础提问生成模型的元训练和元测试，输出经过训练的跨语言提问生成模型。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，所述步骤S1的源语言标注数据集的规模大于目标语言标注数据集的规模。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S2中，使用指针网络从所述源语言标注数据集抽取答案，并使用标记屏蔽答案对应的句子中的答案。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S2中，通过多语言BERT将源语言文本和目标语言文本映射到共同空间后编码。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S3中，得到并对基于门控循环神经网络的概率分布、基于注意力分值构建的概率分布和基于前馈式神经网络的概率分布分别进行加权，得到平均的概率分布作为基础提问生成模型。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S3完成以后，基于有监督指标训练基础提问生成模型。
根据权利要求6所述的跨语言生成提问的方法，其特征在于，所述有监督指标包括流畅度、可解答和语义关联。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S4中，首先通过循环正态分布将源语言文本、目标语言文本和所述步骤S2获得的答案映射到潜在变量，通过拼接潜在变量获得答案对应的样本在潜在空间的单元向量，随后经过推导得出样本对应的单元向量的相对熵作为相似度。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S5中，将目标语言文本中每个样本作为测试集，通过从源语言标注数据集和目标语言标注数据集中获得相似样本作为训练集，测试集和训练集共同构成伪任务的数据集。
根据权利要求1所述的跨语言生成提问的方法，其特征在于，在所述步骤S5中，元训练的具体过程如下：

随机抽取伪任务直至遍历所有伪任务，通过自临界策略梯度训练算法训练跨语言提问生成模型并更新跨语言提问生成模型的参数。
根据权利要求10所述的跨语言生成提问的方法，其特征在于，元测试的具体过程如下：

在更新跨语言提问生成模型的参数后，评估参数的损失误差值，基于损失误差值进一步更新跨语言提问生成模型的参数。
一种基于权利要求1所述的跨语言生成提问的方法的装置，其特征在于，包括：依次执行的输入模块、编码器、注意力机制模块、解码器、上下文关联检索器和元学习模块；

输入模块用于获取源语言标注数据集、目标语言标注数据集、源语言文本和目标语言文本；

编码器用于将答案和答案对应的句子进行编码，得到答案向量和句子向量；

注意力机制模块用于处理答案向量生成上下文向量；

解码器用于处理上下文向量得到基础提问生成模型；

上下文关联检索器用于计算源语言文本和目标语言文本的相似度，得到跨语言提问生成模型并输出样本；

元学习模块用于对每个样本建立伪任务，在伪任务上对跨语言提问生成模型进行基于基础提问生成模型的元训练和元测试，输出经过训练的跨语言提问生成模型。
根据权利要求12所述的装置，其特征在于，所述装置还包括评估单元，在评估单元输出基础提问生成模型后，由评估单元对基础提问生成模型进行评分并进一步调整基础提问生成模型的加权参数，当评分不再提高时，将基础提问生成模型输入到上下文关联检索器中。