WO2021082086A1

WO2021082086A1 - 机器阅读方法、系统、装置及存储介质

Info

Publication number: WO2021082086A1
Application number: PCT/CN2019/118501
Authority: WO
Inventors: 周宸; 骆加维; 周宝; 陈远旭
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-10-29
Filing date: 2019-11-14
Publication date: 2021-05-06
Also published as: CN110866098B; CN110866098A

Abstract

一种机器阅读方法、系统、装置以及可存储介质，其中的方法包括：通过glove词向量训练模型获取词向量；采用字符级卷积神经网络获取字段嵌入；将词向量和字段嵌入进行拼接形成输入向量；通过lstm和transformer对输入向量进行特征的提取，获取具有局部特征和整体特征的文本；通过Bidirectional Attention Flow模型以及transformer对获取的文本进行处理，获取文本中问题与答案所有关联信息；通过lstm对获取的文本中问题与答案所有关联信息进行处理，将概率最高的一句话作为文本中问题的答案。该方法通过将transformer和lstm模型相互结合形成的新的机器阅读网络结构，解决目前不能同时获取句子的整体相关性和局部相关性的问题。

Description

机器阅读方法、系统、装置及存储介质

本申请要求申请号为201911037790.X，申请日为2019年10月29日，发明创造名称为“基于transformer和lstm的机器阅读方法、电子装置及可读存储介质”的专利申请的优先权。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种机器阅读方法、系统、电子装置及存储介质。

背景技术

机器阅读是自然语言处理的一个分支，主要的作用是根据用户提出的问题和文本，带着问题去文本中寻找答案。目前机器阅读的技术从最初的根据机器翻译的seq2seq到Bidaf、mlstm和r-net等依靠RNN为基础的模型到依靠transformer的QAnet和BERT模型，都为机器阅读做出了巨大的贡献。

目前著名的机器阅读的数据集，英文的有斯坦福大学的SQuAD和微软的MS MARCO，中文的有百度的dureader。总的来说大部分技术的研究是基于SQuAD的数据集。目前流行的Bidaf、QAnet和BERT都是在SQuAD数据集上取得了巨大的进展，其中，目前的机器阅读模型都是基于RNN，如mlstm和bidaf或者transformer框架等等，申请人意识到，虽然有的模型可以体现文本的上下文关系，有的模型可以提取句子的整体相关性，但是目前还没有一种方法，能够同时获取句子的整体性相关性和局部相关性。

为了解决上述问题，亟需一种可以同时让句子获得整体相关性和局部相关性的方法。

发明内容

本申请提供一种机器阅读方法、系统、电子装置及计算机可读存储介质，其主要目的在于通过将transformer和lstm模型相互结合形成的新的机器阅读网络结构，解决目前不能同时获取句子的整体相关性和局部相关性的问题。

为实现上述目的，本申请提供一种机器阅读方法，包括：

采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。

相应的，本申请还提供一种机器阅读系统，包括：

词向量获取模块，用于采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

字段嵌入获取模块，用于采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

输入向量形成模块，用于将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

局部特征和整体特征获取模块，用于通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

关联信息获取模块，用于通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

答案获取模块，用于采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。

此外，为实现上述目的，本申请还提供一种电子装置，该电子装置包括：存储器、处理器，所述存储器中包括基于transformer和lstm的机器阅读程序，所述基于transformer和lstm的机器阅读程序被所述处理器执行时实现如下步骤：

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成；

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，该计算机可读存储介质中包括基于transformer和lstm的机器阅读程序，所述基于transformer和lstm的机器阅读程序被处理器执行时，实现如上所述的机器阅读方法中的任意步骤。

本申请提出的机器阅读方法、系统、电子装置及存储介质，通过transformer和lstm构建一个器阅读网络结构，通过lstm获取文本中的局部信息，通过transformer获取文本中的整体信息，因此，本申请的构建的器阅读网络结构，解决目前不能同时获取句子的整体相关性和局部相关性的问题。

附图说明

图1为本申请的机器阅读方法较佳实施例的应用环境示意图；

图2为图1中基于transformer和lstm的机器阅读程序较佳实施例的模块示意图；

图3为本申请的机器阅读方法较佳实施例的流程图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

实施例一

本申请提供一种机器阅读方法，应用于一种电子装置1。参照图1所示，为本申请的机器阅读方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。

该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

存储器11包括至少一种类型的可读存储介质。在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于transformer和lstm的机器阅读程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如基于transformer和lstm的机器阅读程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口、显示器、触摸传感器以及射频(Radio Frequency，RF)电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统以及基于transformer和lstm的机器阅读程序10；处理器12执行基于transformer和lstm的机器阅读程序10时实现如下步骤：

优选地，所述glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。

优选地，所述字段嵌入为：

C _θ∈B×D

其中，C _θ表示任意一个经过embedded的字符向量，其维度满足B x D。

优选地，所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤：

通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，其公式如下：

其中，t代表每一段文本，j代表每一个问题，S _tj(t*j的矩阵)代表t文本和j问题的相关度，+ _m表示按照矩阵乘法的方式进行加法，ti中i表示下标问题中的第i个单词，ji中i表示文本中对于问题中的第i个单词的注意力权重值；

计算出每一个问题的字在每一个答案中的权重，其公式如下：

a _t＝softmax(S _t:)

对所述问题进行加权平均处理，其公式为：

是一个t*d的矩阵；

将H _t:，

通过G函数进行融合获取维度为t*4d的矩阵G，其中，所述矩阵G为融合文本中问题与答案所有关联信息。

优选地，所述采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤：

将获取的矩阵G输入双向lstm，得到所述文本中问题下的单词之间的关系的矩阵M；

将上下文信息表征与所述矩阵M进行拼接，获取到拼接矩阵；

将获取到的拼接矩阵输入第一单向lstm，并对所述第一单向lstm处理后的结果进行softmax处理，获取文本中答案的开始概率；

将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数，输入到第二单向lstm进行处理，获取文本中答案的结束概率；

将所述开始概率和所述结束概率相乘，根据相乘的结果，将概率最高的那一句话作为答案。

上述实施例提出的电子装置1，通过transformer和lstm构建一个器阅读网络结构，在网络结构中，通过lstm获取文本中的局部信息，通过transformer获取文本中的整体信息，因此，本申请的构建的器阅读网络结构，解决目前不能同时获取句子的整体相关性和局部相关性的问题。

实施例二

在其他实施例中，基于transformer和lstm的机器阅读程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本申请。本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于transformer和lstm的机器阅读程序10较佳实施例的程序模块图。所述基于transformer和lstm的机器阅读程序10可以被分割为：词向量获取模块110、字段嵌入获取模块120、输入向量形成模块130、局部特征和整体特征获取模块140、关联信息获取模块150和答案获取模块160。所述模块110-160所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

词向量获取模块110，用于采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

字段嵌入获取模块120，用于采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

输入向量形成模块130，用于将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

局部特征和整体特征获取模块140，用于通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

关联信息获取模块150，用于通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

答案获取模块160，用于采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。

实施例三

此外，本申请还提供一种机器阅读方法。参照图3所示，为本申请基于transformer和lstm的机器阅读方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，机器阅读方法包括：步骤S10-步骤S60。

步骤S10：采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

步骤S20：采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

步骤S30：将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

步骤S40：通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

步骤S50：通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

步骤S60：采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。

在步骤S10中，采用glove词向量训练模型对词向量进行预训练得到所有单词的word-embedding(单词向量化)，W _e∈B×H,这里B为单词个数，H为embedding向量的维度大小；W _e表示一个单词的词向量，此词向量的维度是B x H。

具体地，基于统计的词向量模型和基于预测的词向量模型。前者以基于SVD分解技术的LSA模型为代表，但是这类模型得到的语义向量往往很难把握词与词之间的线性关系(例如著名的King、Queen、Man、Woman等式)。后者则以基于神经网络的Skip-gram模型为代表，通过预测一个词出现在上下文里的概率得到embedding词向量。这类模型的缺陷在于其对统计信息的利用不充分，训练时间与语料大小息息相关，因此在很多任务上的表现都要略优于SVD模型。

其中，对于glove词向量训练模型来说，首先利用Skip-gram模型能够挖掘出词与词之间线性关系的背后成因，然后通过在共现矩阵上构造相似的条件，得到一个基于全局信息的词向量模型——glove词向量训练模型，glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。

在步骤S20中，将glove词向量训练模型预训练的字向量用char-CNN(字符级卷积神经网络)进行处理，这里选择了一个尺寸为：[H＝5，W＝一个字的embedding的维度,OC＝64]的filter，这里H为filter的高度，W为一个字embedding的维度，OC为输出通道，最后得到的char-embedding，C _e∈B×D，其中，C _e表示任意一个经过embedded(嵌入处理)的字符向量，其维度满足B x D。

其中，在本申请的实施例中，使用了两个颗粒度的嵌入操作：

1.直接在单词维度计算的word embedding词向量；

2.char-embedding是基于每个单词的字母进行embedding，在得到一个单词的所有字母向量后加权平均得到这个单词的词向量。

在步骤S30中，对输入向量进行拼接，输入向量由前置位置的词向量加上后置位置语境词向量拼接而成。其作为模型的输入。

具体地，将步骤S20得到的char-embedding和glove预训练的word-embedding进行拼接产生一个contextual embedding,Cont _e∈B×(H+D)。再用一个highway层对contextual embedding进行处理防止其梯度爆炸或者梯度消失。

highway层就是非线性转换层，用于避免输入权重更新后的梯度爆炸和梯度消失的情况。模型结构优化，在contextual embedding层后接入highway非线性转换层避免在BP过程中的梯度消失或梯度爆炸的问题。但是后续接入的机器阅读的经典模型bidaf结构是一样的。

在步骤S40中，同时用一个lstm和一个transformer对contextual embedding进行编码，再将其拼接起来，也就说，lstm进行了一个局部的特征提取，transformer进行了一个整体的特征提取，所以一个融合了局部特征和整体特征的contextual embedding就完成了，针对内容的contextual embedding是H_t(t*d的矩阵)，针对问题的contextual embedding是U_j(j*d的矩阵)。

在本申请的实施例中，局部特征是问句利用三个维度的特征向量对问句本身进行一个特征强化。整体特征是用于问句和原文之间的表征提取。

此外，局部特征和整体特征通过加权求平均的方式或者串联的方式拼接在一起。在此步骤中，通过lstm能够很好的提取文本的上下文关系，transformer可以提取句子的整体相关性。

在步骤S50中，文本中的问题与答案句子向量经过交叉表征。提升句中关键词在句子向量中的特征强度。

其中，Bidirectional AttentionFlow模型，简称为：BiDAF模型，是一种经典的阅读理解模型，BiDAF模型最大的特点是在interaction层引入了双向注意力机制，计算Query2Context和Context2Query两种注意力，并基于注意力计算query-aware的原文表示。具体地，第一步：通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，具体公式如下，

t代表每一段文本，j代表每一个问题，S _tj(t*j的矩阵)代表t文本和j问题的相关度,+ _m表示按照矩阵乘法的方式进行加法，ti中i表示下标问题中的第i个单词，ji中i表示文本中对于问题中的第i个单词的注意力权重值。

第二步：a _t＝softmax(S _t:)求出每一个问题的字在每一个答案中的权重，

第三步：对问题进行加权平均，

它是一个t*d的矩阵。

第四步：再选择出对于内容中每个词，问题哪个词最重要所以有了b＝softmax(max _row(S))，

它是一个问题对内容的向量为d的attention，这意味着，对于问题来说，它已经抓住了内容中对于它最重要的词，再将

复制扩大为一个

的矩阵。将前面的H _t:，

用一个G函数进行融合得到一个维度为t*4d的矩阵，此矩阵包含了融合了问题对内容和内容对问题的所有关联信息。其中对于

需要对其进行一个lstm编码。

也就是说，该层的输入是原文H和问句U向量，输出是context words的query-aware vector，以及上一层传下来的contextual-embeddings。

具体地，步骤一：做context-to-query以及query-to-context两个方向的‘attention’，先计算相似度矩阵S；

步骤二：再归一化计算attention分数at，根据得到的at进行加权平均。

也就是说，每个时刻的注意力向量都与其之前层的嵌入相关，且都可以流向之后的网络层。这种设计方案可以减缓由于过早归纳总结而导致的信息缺失。

步骤三：使用表征提取后的H和加权计算得到的U拼接起来得到G。G中每个列向量可以视为每个contex word的query-aware表征。

在步骤S60中，将F矩阵通过一个transformer层之后通过一个lstm进行开始概率输出，再根据开始概率和前层lstm结果对结束概率位置输出。最后将开始概率和结束概率相乘，取出概率最高的那一句话作为答案。

具体地，对decoder解码层的模型结构进行升级。首先使用单层双向LSTM后进行softmax得到开始概率和结束概率。再根据开始概率和前层lstm结果对结束概率位置输出。最后将开始概率和结束概率相乘，取出概率最高的那一句话作为答案。

其中，步骤S60还包括如下步骤：

步骤一：建模层

首先将步骤S50中得到的注意力矩阵G输入一个双向lstm得到一个捕捉的是在给定query下contexwords之间的关系的矩阵M。

步骤二：decoder层，其中第二步的过程如下：

第一步：decoder层的输入参数G即context中单词的query-aware representation结果)，与上述步骤中得到的query-contextword矩阵进行拼接，作为decoder层的首次输入；

第二步：将拼接后的矩阵输入单向lstm，再对结果做softmax这一步是为了得到答案文本中答案的开始位置的最大概率的P1；

第三步：随后将最大概率的位置与从S150得到的G矩阵以及S161得到的M矩阵作为输入参数，放入新的单向lstm层找到答案结束位置；使用的单向的原因是，机器翻译答案的搜寻应该符合人类阅读习惯，从前到后顺序寻找。

第四步：再根据开始概率和前层lstm结果对结束概率位置输出P2；

第五步：最后将开始概率和结束概率相乘，取出概率最高的那一句话作为答案。

其中，输出层是面向具体任务的，所以可以根据具体任务而做相应修改。预测开始位置p1和结束位置p2，具体公式如下：

也就是，使用单向LTSM结构对解码器输出的句子向量进行表征整合，得到的是文本中每一个单词对于问句的影响强度(与答案相关的概率)再通过softmax得到概率最大(答案相关性最高的单词)作为答案从该文本中词语开始的概率。同理生成结束概率，开始概率和输出位置概率，整个的训练原理是相同的，通过已标注好的数据集进行监督学习，让模型学会去寻找针对问句的文本中答案的位置。

在本申请的实施例中，使用单向lstm的原因有两个：

1.在略微降低准确率的情况下使得计算量(相对双层lstm)减半。

2.基于设计目的，是为了从文本中找到答案，因此更注重文本中的词语对问句的相关性(单向)。

综上所述，本申请提出的机器阅读方法中，最开始用lstm和transformer联合编码contextual embedding，再经过bidirectional attention的处理以后，用一个transformer去融合所有信息，再用lstm去输出开始和结束概率。所以，最后的输出不止考虑了文本局部的相关性，也考虑了文本整体的相关性。

上述实施例提出的机器阅读方法，通过transformer和lstm构建一个器阅读网络结构，在网络结构中，通过lstm获取文本中的局部信息，通过transformer获取文本中的整体信息，因此，本申请的构建的器阅读网络结构，解决目前不能同时获取句子的整体相关性和局部相关性的问题。

实施例四

与前述机器阅读方法相对应，本申请还提供一种机器阅读系统，其逻辑结构与前述电子装置中基于transformer和lstm的机器阅读程序10(如图2所示)的模块构成相类似，词向量获取模块110、字段嵌入获取模块120、输入向量形成模块130、局部特征和整体特征获取模块140、关联信息获取模块150和答案获取模块160所实现的功能或操作步骤均与本实施例的机器阅读系统的逻辑构成类似。例如其中：

字段嵌入获取模块，用于采用字符级卷积神经网络对词向量获取模块所获取的所有单词的词向量进行处理，获取字段嵌入；

输入向量形成模块，用于将词向量获取模块所获取的词向量和字段嵌入获取模块所获取的字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对该输入向量进行处理；

局部特征和整体特征获取模块，用于通过lstm对通过highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

此外，本实施例的机器阅读系统还可以包括glove词向量训练模型获取模块(图中未示出)，该glove词向量训练模型获取模块利用Skip-gram模型挖掘出词与词之间线性关系的背后成因；然后根据词与词之间线性关系的背后成因，通过在共现矩阵上构造相似的条件，得到一个基于全局信息的词向量模型—glove词向量训练模型。

其中，glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。

字段嵌入获取模块将glove预训练的字向量用char-CNN(字符级卷积神经网络)进行处理，这里选择了一个尺寸为：[H＝5，W＝一个字的embedding的维度,OC＝64]的filter，这里H为filter的高度，W为一个字embedding的维度，OC为输出通道，最后得到的char-embedding，C _e∈B×D，其中，C _e表示任意一个经过embedded(嵌入处理)的字符向量，其维度满足B x D。

其中，在本发明的实施例中，使用了两个颗粒度的嵌入操作：

1.直接在单词维度计算的word embedding词向量；

在本申请的实施例中，局部特征是问句利用三个维度的特征向量对问句本身进行一个特征强化。整体特征是用于问句和原文之间的表征提取。局部特征和整体特征通过加权求平均的方式或者串联的方式拼接在一起。局部特征和整体特征获取模块通过lstm能够很好的提取文本的上下文关系，transformer可以提取句子的整体相关性。

在本申实施例的一个具体实施方式中，关联信息获取模块还可以包括如下组成部分(图中未示出)：

预处理单元，用于通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，其公式为

权重处理单元，用于计算出每一个问题的字在每一个答案中的权重，其公式如下：a _t＝softmax(S _t:)；

加权平均单元，用于对所述问题进行加权平均处理，其公式为：

是一个t*d的矩阵；

融合单元，用于将H _t:，

在本申请实施例的另一具体实施方式中，答案获取模块还可以包括：关系矩阵获取单元，用于将获取的矩阵G输入双向lstm，得到所述文本中问题下的单词之间的关系的矩阵M；拼接单元，用于将上下文信息表征与所述矩阵M进行拼接，获取到拼接矩阵；开始概率获取单元，用于将获取到的拼接矩阵输入第一单向lstm，并对所述第一单向lstm处理后的结果进行softmax处理，获取文本中答案的开始概率；结束概率获取单元，用于将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数，输入到第二单向lstm进行处理，获取文本中答案的结束概率；整合单元，用于将所述开始概率和所述结束概率相乘，根据相乘的结果，将概率最高的那一句话作为答案。

应当明了，上述实施方式并非本实施例si的所有实施方式，本实施例四的具体实施方式与前述机器阅读方法、电子装置的具体实施方式大致相同，在此不再赘述。

实施例五

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序，该基于transformer和lstm的机器阅读程序和前述实施例二中的基于transformer和lstm的机器阅读程序10相同，被处理器执行时能够实现如所述的机器阅读方法的步骤以及如前所述的机器阅读系统的操作。

本申请之计算机可读存储介质的具体实施方式与上述机器阅读方法、系统、电子装置的具体实施方式大致相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种机器阅读方法，应用于电子装置，其特征在于，所述方法包括：

采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

采用所述lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。
根据权利要求1所述的机器阅读方法，其特征在于，在采用glove词向量训练模型对待处理文本中所有的单词进行预训练之前，还包括：利用Skip-gram模型挖掘出词与词之间线性关系的背后成因；

根据所述词与词之间线性关系的背后成因，通过在共现矩阵上构造相似的条件，得到所述glove词向量训练模型。
根据权利要求1所述的机器阅读方法，其特征在于，

所述glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。
根据权利要求1所述的机器阅读方法，其特征在于，所述字段嵌入为：

C _θ∈B×D

其中，C _θ表示任意一个经过嵌入处理的字符向量，其维度满足B x D。
根据权利要求4所述的机器阅读方法，其特征在于，所述字段嵌入包括如下两个颗粒度的嵌入操作：

直接在单词维度计算的word embedding词向量；以及

基于每个单词的字母进行embedding得到char-embedding词向量，在得到一个单词的所有字母向量后加权平均得到所述单词的词向量。
根据权利要求1～5中任一项所述的机器阅读方法，其特征在于，

所述局部特征为问句利用三个维度的特征向量对问句本身进行的特征强化，所述整体特征为用于问句和原文之间的表征提取；并且，

所述局部特征和所述整体特征通过加权求平均的方式或者串联的方式拼接在一起。
根据权利要求1所述的机器阅读方法，其特征在于，所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤：

通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，其公式如下：

其中，t代表每一段文本，j代表每一个问题，S _tj(t*j的矩阵)代表t文本和j问题的相关度，+ _m表示按照矩阵乘法的方式进行加法，ti中i表示下标问题中的第i个单词，ji中i表示文本中对于问题中的第i个单词的注意力权重值；

计算出每一个问题的字在每一个答案中的权重，其公式如下：

a _t＝softmax(S _t:)

对所述问题进行加权平均处理，其公式为：
是一个t*d的矩阵；

将H _t:，
通过G函数进行融合获取维度为t*4d的矩阵G，其中，所述矩阵G为融合文本中问题与答案所有关联信息。
根据权利要求7所述的机器阅读方法，其特征在于，所述采用lstm 对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤：

将获取的矩阵G输入双向lstm，得到所述文本中问题下的单词之间的关系的矩阵M；

将上下文信息表征与所述矩阵M进行拼接，获取到拼接矩阵；

将获取到的拼接矩阵输入第一单向lstm，并对所述第一单向lstm处理后的结果进行softmax处理，获取文本中答案的开始概率；

将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数，输入到第二单向lstm进行处理，获取文本中答案的结束概率；

将所述开始概率和所述结束概率相乘，根据相乘的结果，将概率最高的那一句话作为答案。
一种机器阅读系统，其特征在于，所述系统包括：

词向量获取模块，用于采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

字段嵌入获取模块，用于采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

输入向量形成模块，用于将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

局部特征和整体特征获取模块，用于通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

关联信息获取模块，用于通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

答案获取模块，用于采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。
根据权利要求9所述的机器阅读系统，其特征在于，还包括glove词向量训练模型获取模块，其中，所述glove词向量训练模型获取模块利用Skip-gram模型挖掘出词与词之间线性关系的背后成因；然后根据所述词与词之间线性关系的背后成因，通过在共现矩阵上构造相似的条件，得到所述glove词向量训练模型。
根据权利要求9所述的机器阅读系统，其特征在于，所述glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。
根据权利要求9所述的机器阅读系统，其特征在于，所述字段嵌入为：

C _θ∈B×D

其中，C _θ表示任意一个经过嵌入处理的字符向量，其维度满足B x D。
根据权利要求9～12中任一项所述的机器阅读系统，其特征在于，

所述局部特征为问句利用三个维度的特征向量对问句本身进行的特征强化，所述整体特征为用于问句和原文之间的表征提取；并且，

所述局部特征和所述整体特征通过加权求平均的方式或者串联的方式拼接在一起。
根据权利要求9所述的机器阅读系统，其特征在于，所述关联信息获取模块包括：

预处理单元，用于通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，其公式如下：

其中，t代表每一段文本，j代表每一个问题，S _tj(t*j的矩阵)代表t文本和j问题的相关度，+ _m表示按照矩阵乘法的方式进行加法，ti中i表示下标问题中的第i个单词，ji中i表示文本中对于问题中的第i个单词的注意力权重值；

权重处理单元，用于计算出每一个问题的字在每一个答案中的权重，其公式如下：

a _t＝softmax(S _t:)

加权平均单元，用于对所述问题进行加权平均处理，其公式为：

是一个t*d的矩阵；

融合单元，用于将H _t:，
通过G函数进行融合获取维度为t*4d的矩阵G，其中，所述矩阵G为融合文本中问题与答案所有关联信息。
根据权利要求9所述的机器阅读系统，其特征在于，所述答案获取模块包括：

关系矩阵获取单元，用于将获取的矩阵G输入双向lstm，得到所述文本中问题下的单词之间的关系的矩阵M；

拼接单元，用于将上下文信息表征与所述矩阵M进行拼接，获取到拼接矩阵；

开始概率获取单元，用于将获取到的拼接矩阵输入第一单向lstm，并对所述第一单向lstm处理后的结果进行softmax处理，获取文本中答案的开始概率；

结束概率获取单元，用于将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数，输入到第二单向lstm进行处理，获取文本中答案的结束概率；

整合单元，用于将所述开始概率和所述结束概率相乘，根据相乘的结果，将概率最高的那一句话作为答案。
一种电子装置，其特征在于，该电子装置包括：存储器、处理器，所述存储器中包括基于transformer和lstm的机器阅读程序，所述基于transformer和lstm的机器阅读程序被所述处理器执行时实现如下步骤：

采用glove词向量训练模型对待处理文本中所有的单词进行预训练，获取映射在同一向量空间中的待处理文本中所有单词的词向量；

采用字符级卷积神经网络对获取的所有单词的词向量进行处理，获取字段嵌入；

将所述词向量和所述字段嵌入进行拼接，形成输入向量，并通过highway非线性转换层对所述输入向量进行处理；

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理，获取局部特征的文本，通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理，获取整体特征的文本，并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本；

通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理，获取文本中问题与答案所有关联信息；

采用所述lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案。
根据权利要求6所述的电子装置，其特征在于，

所述glove词向量训练模型公式为：

其中，P _ij为共现概率；υ _i、υ _j为词向量；f为权重函数。
根据权利要求6所述的电子装置，其特征在于，

所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤：

通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理，其公式如下：

其中，t代表每一段文本，j代表每一个问题，S _tj(t*j的矩阵)代表t文本和j问题的相关度，+ _m表示按照矩阵乘法的方式进行加法，ti中i表示下标问题中的第i个单词，ji中i表示文本中对于问题中的第i个单词的注意力权重值；

计算出每一个问题的字在每一个答案中的权重，其公式如下：

a _t＝softmax(S _t:)

对所述问题进行加权平均处理，其公式为：
是一个t*d的矩阵；

将H _t:，
通过G函数进行融合获取维度为t*4d的矩阵G，其中，所述矩阵G为融合文本中问题与答案所有关联信息。
根据权利要求8所述的电子装置，其特征在于，

所述采用lstm对获取的文本中问题与答案所有关联信息进行处理，并输出开始概率和结束概率，并将所述开始概率和结束概率相乘，并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤：

将获取的矩阵G输入双向lstm，得到所述文本中问题下的单词之间的关系的矩阵M；

将上下文信息表征与所述矩阵M进行拼接，获取到拼接矩阵；

将获取到的拼接矩阵输入第一单向lstm，并对所述第一单向lstm处理后的结果进行softmax处理，获取文本中答案的开始概率；

将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数，输入到第二单向lstm进行处理，获取文本中答案的结束概率；

将所述开始概率和所述结束概率相乘，根据相乘的结果，将概率最高的那一句话作为答案。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序，所述基于transformer和lstm的机器阅读程序被处理器执行时，实现如权利要求1至8中任一项所述的机器阅读方法的步骤。