WO2021000675A1

WO2021000675A1 - 机器阅读理解中文的方法、装置和计算机设备

Info

Publication number: WO2021000675A1
Application number: PCT/CN2020/093107
Authority: WO
Inventors: 苏智辉; 钱柏丞
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-07-04
Filing date: 2020-05-29
Publication date: 2021-01-07
Also published as: CN110442691A

Abstract

本申请涉及人工智能领域，揭示了一种机器阅读理解中文的方法、装置和计算机设备，利用BERT对第一问题中文文本和所述第一中文文本进行向量化训练，然后利用预设的第一中文机器阅读理解模型中进行计算，得到对应所述问题文本的第一答案文本，因为无需对第一问题中文文本和所述第一中文文本进行分词处理所以不存在分词不当的情况发生，因此最终得到的第一答案文本的准确率更高。

Description

机器阅读理解中文的方法、装置和计算机设备

本申请要求于2019年7月4日提交中国专利局、申请号为201910597621.5，发明名称为“机器阅读理解中文的方法、装置和计算机设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及到人工智能领域，特别是涉及到一种机器阅读理解中文的方法、装置和计算机设备。

背景技术

中文文本的机器阅读理解相对于英文的机器阅读理解而言，理解准确率等不高，比如，英文单词与单词之间具有空格，该空格即为一个天然的分词符，在机器机器阅读理解的过程中分词准确，所以输出的答案的准确率相对较高。发明人发现，中文分词与英文分词不同，分词处理比较复杂，不同的分词处理，会得到不同的答案，比如，对“我要去上学”进行分词处理，可以分为“我要，去，上，学”，也可以分为“我要，去，上学”，又或者分为“我，要去上，学”等等，那么上述不同的分词，其对应的语义等会发生变化，从而得到不同的理解。所以，目前需要一种提高机器阅读理解中文正确率的机器阅读理解中文的方法。

技术问题

本申请的主要目的为提供一种机器阅读理解中文的方法、装置和计算机设备，旨在解决现有技术中机器阅读理解中文准确率低的问题。

技术解决方案

为了实现上述发明目的，本申请提出一种机器阅读理解中文的方法，包括：

获取第一问题中文文本，以及待理解的第一中文文本；

分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。

本申请实施例还提供一种机器阅读理解中文的装置，包括：

获取单元，用于获取第一问题中文文本，以及待理解的第一中文文本；

向量化单元，用于分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

计算单元，用于将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述问题文本的第一答案文本。

本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

有益效果

本申请实施例的机器阅读理解中文的方法、装置和计算机设备，利用BERT对第一问题中文文本和所述第一中文文本进行向量化训练，然后利用预设的第一中文机器阅读理解模型中进行计算，得到对应所述问题文本的第一答案文本，因为无需对第一问题中文文本和所述第一中文文本进行分词处理所以不存在分词不当的情况发生，因此最终得到的第一答案文本的准确率更高。

附图说明

图1 是本申请一实施例中机器阅读理解中文的方法的流程示意图；

图2 是本申请一实施例中机器阅读理解中文的装置的结构框图；

图3 是本申请一实施例的计算机设备的结构示意框图。

本发明的最佳实施方式

参照图1，本申请实施例提供一种机器阅读理解中文的方法，包括步骤：

S1、获取第一问题中文文本，以及待理解的第一中文文本；

S2、分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

S3、将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。

如上述步骤S1所述，上述第一问题中文文本是指利用中文撰写的问题，比如“中日甲午战争的开始时间是多少？”等；上述第一中文文本是指利用中文撰写的文章等，其内容一般包含有上述第一问题中文文本中问题的答案。

如上述步骤S2所述，上述语言模型为BERT，BERT的全称是基于Transformer的双向编码器表征，BERT的训练方法决定了他能真正做到contexual representations(上下文表征)，比起其它的词向量表示方法，也是目前唯一一个可以真正做到deeply bidirectional（深度双向）的pre-traied（预训练）语言模型。使用BERT对第一问题中文文本，以及待理解的第一中文文本进行向量化，没有对第一问题中文文本和第一中文文本进行分词处理，而是直接输入到BERT中进行向量化，所以不存在分词不同而造成理解不同的问题发生，可以提高后续的答案的准确性。

如上述步骤S3所述，上述第一中文机器阅读理解模型可以为现有技术中的任意一种的中文机器阅读理解模型，其基本原理是，在待理解向量中匹配出与所述问题向量相似度最高的答案向量，然后将答案向量转换成中文的第一答案文本，在此不再赘述。

在一个实施例中，上述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量的步骤S2，包括：

S21、分别对所述第一问题中文文本，以及所述第一中文文本中的每一个字符向量化，得到字符向量；以及给每一个字符标记位置向量，得到字符位置向量；

S22、将每一个字符对应的字符向量和字符位置向量合并，得到对应对所述第一问题中文文本的问题向量，以及对应所述第一中文文本的待理解向量。

在本实施例中，机器阅读理解的一个难点在于答案边界的预测，边界预测方法有很多，例如pointer network（指针网络模型）等，其会利用RNN（循环神经网络，Recurrent Neural Network）神经网络的能力，实现时间序列上对数据的抽象。而本申请中使用的BERT，完全抛弃了RNN，取而代之的是将经过处理的句子传入大型的Transformer模型中进行处理，所以，必须对每一字符的位置进行标记，以便于真正理解上下文信息。在本申请实施例中，给每一个字符标记位置向量的方法是Positional Encoding的方法，该方法即为位置向量的方法，所谓位置向量，就是对字符出现的位置进行向量训练而得到的向量。

在一个实施例中，上述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤S3之后，包括：

S301、判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

S302、将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个第一向量形成第一向量串；

S303、将多个所述第一向量按照所述第一顺序，每指定数量的所述第一向量形成一组，得到多个第一向量组；

S304、到预设的模板向量数据库中，各所述第一向量组查找与其相似度最高，且相似度达到预设的第一阈值的第二向量组；

S305、若查找到所述第二向量组，则将所述第二向量组替换所述第一向量串中对应的第一向量组，得到第二向量串；

S306、将所述第二向量串转换成中文，得到第二答案文本。

在本实施例中，因为第一答案文本是机器从第一中文文本中提取出的，可能存在语法错误等，比如第一答案文本为“去吃饭马上”，而其正确的表达应该为“马上去吃饭”，所以需要将第一答案文本修改为“马上去吃饭”，修改方法即为上述方法。上述模板向量数据库中存储有多个预设的中文常用词组的常用向量，以及与所述常用向量对应的常用词组。比如，存储有“你好”对应的由“你”的向量和“好”的组成的“你好”的上述第二向量等。上述指定数量至少大于等于2，即为将第一向量串进行分组，得到多个第一向量组，比如第一向量串是“去吃饭马上，你时什么候去”，然后形成“去吃饭马上”、“你时什么候”和“去”三个第一向量组，最后一个第一向量组是由其他组成型后剩余文字对应的向量组成的。然后在模板向量库中找到可以替换第一向量组的第二向量组。上述第一向量组和第二向量组的相似度计算方法可以利用现有技术中的任意一种已知算法，在此不再赘述，比如“去吃饭马上”的第一向量组对应的第二向量组对应的中文为“马上去吃饭”，“你时什么候”的第一向量组对应的第二向量组对应的中文为“你什么时候”，而“去”对应的第二向量组也为“去”，那么最终得到第二答案文本为“马上去吃放，你什么时候去”。在其它实施例中，如果没有找到与第一向量组相似度阈值大于第二阈值的第二向量组，则无需替换第一向量组；如果找到与第一向量组相似度为100%的第二向量组，同样无需替换第一向量组。

在另一个实施例中，上述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤S3之后，包括：

S311、判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

S312、将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个所述第一向量形成第一向量串（x1、x2、x3······xn），其中，x为第一向量，n为大于1的整数；

S313、按照所述第一顺序，先以第一个所述第一向量x1为起始向量，与第二个所述第一向量x2进行组合，得到第一向量组合（x1、x2），并在预设的模板向量数据库中，查找与所述第一组合向量（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），其中y为预设的向量；

S314、若查找到所述预设第一组合向量（y1、y2），则以前三个所述第一向量进行组合，得到第二向量组合（x1、x2、x3），并在所述模板向量数据库中，查找与所述第二组合向量相似度最大，且大于所述第二阈值的预设第二组合向量（y1、y2、y3）；以此类推，当未得到组合向量（y1、y2、y3······yn）时，则进行“在所述第一向量中，由组合向量（y1、y2、y3······yn-1）替换对应的向量组合（x1、x2、x3······xn-1），并将所述组合向量（y1、y2、y3······yn-1）固化到所述第一向量串中”的第一固化过程；

S315、若未查找到所述第二组合向量（y1、y2），则进行“将所述第一向量组合（x1、x2）固化所述第一向量串中”的第二固化过程；同时以第三个所述第一向量为起始向量，重复所述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串；

S316、将所述第三向量串转换成中文，得到第三答案文本。

在本实施例中，比如第一答案文本为“我要去吃饭”五个字，将其向量化，找顺序得到“我”“要”“去”“吃”“饭”五个第一向量，五个第一向量形成（x1、x2、x3、x4、x5）的第一向量串。然后现将“我”“要”两个向量组合得到（x1、x2），然后到模板向量数据库查找查找与所述第一向量组合（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），如果存在第一组合向量（y1、y2），则将“我”“要”“去”三个第一向量组合，得到第二向量组合（x1、x2、x3），然后到模板向量数据库查找查找与所述第二向量组合（x1、x2、x3）相似度最大，且大于预设的第二阈值的预设第二组合向量（y1、y2、y3），如果存在第二组合向量（y1、y2、y3），则将“我”“要”“去”“吃”四个第一向量组合，得到第三向量组合（x1、x2、x3、x4、）继续上述的步骤，查找第三组合向量（y1、y2、y3、y4），如果不存在第三组合向量，则将第二组合向量（y1、y2、y3）替换第二向量组合（x1、x2、x3），并固化，然后以“吃”和“饭”的向量开始组合，重复上述步骤，直到将整个第一答案文本处理完毕。即从第一向量串中的第一个第一向量和第二个第一向量开始，重复上述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串（全部的第一向量串上的第一向量要么被替换固化，要么本身被固化）。将预设的组合向量不断地替换第一答案文本中各文字组合的向量组合，可以得到语句更加通顺的第三答案文本。

在一个实施例中，上述第一中文文本为答题者回答所述第一问题中文文本中问题形成的文本；所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤S3之后，包括：

S331、获取对应所述问题文本中问题的正确答案的第四答案文本；

S332、计算所述第四答案文本与所述第一答案文本的答案相似度；

S333、到预设的分值-相似度列表中查找与所述答案相似度对应的分值；

S334、将所述分值作为对所述第一中文文本理解程度的得分输出。

在本实施例中，上述过程即为机器评分的过程。上述第四答案文本是指预先设置的中文文本，其记载的内容是对应上述第一问题文本中问题的正确答案。上述比较第四答案文本与所述第一答案文本的答案相似度的方法包括多种，比如使用相同的向量化规则分别将所述第四答案文本与所述第一答案文本向量化，然后计算两个向量的相似度，又或者，计算每一个字符排序顺序的相似度等等。上述分值-相似度列表是一种分值和相似度呈指定映射关系的列表，比如，一个范围内的相似度，对应一个固定分值等，基本呈现相似度越高，对应的分值也会越高的趋势。可以快速地完成机器评分的过程，提高阅卷评分的效率，降低人力资源的消耗等。

在一个实施例中，上述获取第一问题中文文本，以及待理解的第一中文文本的步骤S1之前，包括：

S101、获取预设的中文阅读理解数据集；其中，中文阅读理解数据集包括成一一对应关系的第二问题中文文本、待理解的第二中文文本和第四答案文本的多条训练数据；

S102、利用所述语言模型给每一条训练数据进行向量化，得到呈一一对应关系的第二问题中文文本向量、第二中文文本向量和第四答案文本向量的训练数据；

S103、将所述训练向量数据输入到预设的第二中文机器阅读理解模型中进行训练，得到所述第一中文机器阅读理解模型。

在本实施例中，上述中文阅读理解数据集选用哈工大讯飞实验室提供的CMRC（Chinese Machine Reading Comprehension，中文机器阅读理解）2018数据集，该数据集目前是中华人民共和国国内唯一的、质量较高的公开的中文阅读理解数据集。本实施例即为训练得到第一中文机器阅读理解模型的过程，当第二中文机器阅读理解模型输出的答案文本与其对应的第二答案文本的像似度达到指定值时，既可以认为训练结束。上述第二中文机器阅读理解模型是一个神经网络模型，比如长短期记忆模型等实现阅读监督学的的神经网络模型。具体的训练过程为神经网络的标准训练过程，在此不再赘述

在一个实施例中，上述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到第一问题中文文本的问题向量，以及第一中文文本的待理解向量的步骤S2之前，包括：

S201、分别在所述第一问题中文文本和第一中文文本查找外文单词；

S202、若查找到，则将查找到的外文单词翻译成中文，并将翻译得到的中文替换对应的外文单词。

在本实施例中，上述第一问题中文文本和第一中文文本是用户将其作为纯中文文本使用的，但是并不能杜绝第一问题中文文本和第一中文文本中不含有外文单词。这里的外文是指除中文以外的语言文字，如英语、日语、韩语等。将查找出的外文单词利用预设的翻译引擎对其进行翻译得到对应的中文，然后使用中文替换掉对应的外文单词，从而得到是纯中文的第一问题中文文本和第一中文文本，提高中文机器阅读理解的准确性。在本实施例中，分别遍历第一问题中文文本和第一中文文本，提取出不属于中文字符的字符，然后识别出提取出的字符对应的语言类型，然后根据语言类型调用对应的翻译引擎进行翻译，最后将翻译得到的中文替换其对应的外文单词。本实施例中，可以根据字符的字节数量不同而区分中文与其它文字的区别，比如，中文一个字符为两个字节，而英文一个字符为一个字节等。

参照图2，本申请还提供一种机器阅读理解中文的装置，包括：

获取单元10，用于获取第一问题中文文本，以及待理解的第一中文文本；

向量化单元20，用于分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

计算单元30，用于将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。

在一个实施例中，上述向量化单元20，包括：

字符向量模块，用于分别对所述第一问题中文文本，以及所述第一中文文本中的每一个字符向量化，得到字符向量；以及给每一个字符标记位置向量，得到字符位置向量；

字符合并模块，用于将每一个字符对应的字符向量和字符位置向量合并，得到对应对所述第一问题中文文本的问题向量，以及对应所述第一中文文本的待理解向量。

在一个实施例中，上述机器阅读理解中文的装置还包括：

第一判断替换单元，用于判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

第一向量化单元，用于将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个第一向量形成第一向量串；

第一组合单元，用于将多个所述第一向量按照所述第一顺序，每指定数量的所述第一向量形成一组，得到多个第一向量组；

第一查找单元，用于到预设的模板向量数据库中，各所述第一向量组查找与其相似度最高，且相似度达到预设的第一阈值的第二向量组；

替换单元，用于若查找到所述第二向量组，则将所述第二向量组替换所述第一向量串中对应的第一向量组，得到第二向量串；

第一转换单元，用于将所述第二向量串转换成中文，得到第二答案文本。

在另一实施例中，上述机器阅读理解中文的装置还包括：

第二判断单元，用于判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

第二向量化单元，用于将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个所述第一向量形成第一向量串（x1、x2、x3······xn），其中，x为第一向量，n为大于1的整数；

第二查找单元，用于按照所述第一顺序，先以第一个所述第一向量x1为起始向量，与第二个所述第一向量x2进行组合，得到第一向量组合（x1、x2），并在预设的模板向量数据库中，查找与所述第一组合向量（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），其中y为预设的向量；

第一固化单元，用于若查找到所述预设第一组合向量（y1、y2），则以前三个所述第一向量进行组合，得到第二向量组合（x1、x2、x3），并在所述模板向量数据库中，查找与所述第二组合向量相似度最大，且大于所述第二阈值的预设第二组合向量（y1、y2、y3）；以此类推，当未得到组合向量（y1、y2、y3······yn）时，则进行“在所述第一向量中，由组合向量（y1、y2、y3······yn-1）替换对应的向量组合（x1、x2、x3······xn-1），并将所述组合向量（y1、y2、y3······yn-1）固化到所述第一向量串中”的第一固化过程；

第二固化单元，用于若未查找到所述第二组合向量（y1、y2），则进行“将所述第一向量组合（x1、x2）固化所述第一向量串中”的第二固化过程；同时以第三个所述第一向量为起始向量，重复所述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串；

第二转换单元，用于将所述第三向量串转换成中文，得到第三答案文本。

在一个实施例中，上述第一中文文本为答题者回答所述第一问题中文文本中问题形成的文本；所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

获取对应所述问题文本中问题的正确答案的第四答案文本；

计算所述第四答案文本与所述第一答案文本的答案相似度；

到预设的分值-相似度列表中查找与所述答案相似度对应的分值；

将所述分值作为对所述第一中文文本理解程度的得分输出。

在一个实施例中，上述机器阅读理解中文的装置还包括：

获取数据集单元，用于获取预设的中文阅读理解数据集；其中，中文阅读理解数据集包括成一一对应关系的第二问题中文文本、待理解的第二中文文本和第四答案文本的多条训练数据；

训练向量单元，用于利用所述语言模型给每一条训练数据进行向量化，得到呈一一对应关系的第二问题中文文本向量、第二中文文本向量和第四答案文本向量的训练数据；

训练单元，用于将所述训练向量数据输入到预设的第二中文机器阅读理解模型中进行训练，得到所述第一中文机器阅读理解模型。

在一个实施例中，上述机器阅读理解中文的装置还包括：

分别在所述第一问题中文文本和第一中文文本查找外文单词；

若查找到，则将查找到的外文单词翻译成中文，并将翻译得到的中文替换对应的外文单词。

上述各单元、模块为执行上述方法实施例的对应装置，在此不在一一展开说明。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语言模型、各种中文文本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例中所述的机器阅读理解中文的方法。

本申请实施例中还提供一种一种计算机可读存储介质，计算机可读存储介质可以是非易失性，也可以是易失性，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例中所述的机器阅读理解中文的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

Claims

一种机器阅读理解中文的方法，其中，包括：

获取第一问题中文文本，以及待理解的第一中文文本；

分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量的步骤，包括：

分别对所述第一问题中文文本，以及所述第一中文文本中的每一个字符向量化，得到字符向量；以及给每一个字符标记位置向量，得到字符位置向量；

将每一个字符对应的字符向量和字符位置向量合并，得到对应对所述第一问题中文文本的问题向量，以及对应所述第一中文文本的待理解向量。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个第一向量形成第一向量串；

将多个所述第一向量按照所述第一顺序，每指定数量的所述第一向量形成一组，得到多个第一向量组；

到预设的模板向量数据库中，各所述第一向量组查找与其相似度最高，且相似度达到预设的第一阈值的第二向量组；

若查找到所述第二向量组，则将所述第二向量组替换所述第一向量串中对应的第一向量组，得到第二向量串；

将所述第二向量串转换成中文，得到第二答案文本。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个所述第一向量形成第一向量串（x1、x2、x3······xn），其中，x为第一向量，n为大于1的整数；

按照所述第一顺序，先以第一个所述第一向量x1为起始向量，与第二个所述第一向量x2进行组合，得到第一向量组合（x1、x2），并在预设的模板向量数据库中，查找与所述第一组合向量（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），其中y为预设的向量；

若查找到所述预设第一组合向量（y1、y2），则以前三个所述第一向量进行组合，得到第二向量组合（x1、x2、x3），并在所述模板向量数据库中，查找与所述第二组合向量相似度最大，且大于所述第二阈值的预设第二组合向量（y1、y2、y3）；以此类推，当未得到组合向量（y1、y2、y3······yn）时，则进行“在所述第一向量中，由组合向量（y1、y2、y3······yn-1）替换对应的向量组合（x1、x2、x3······xn-1），并将所述组合向量（y1、y2、y3······yn-1）固化到所述第一向量串中”的第一固化过程；

若未查找到所述第二组合向量（y1、y2），则进行“将所述第一向量组合（x1、x2）固化所述第一向量串中”的第二固化过程；同时以第三个所述第一向量为起始向量，重复所述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串；

将所述第三向量串转换成中文，得到第三答案文本。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述第一中文文本为答题者回答所述第一问题中文文本中问题形成的文本；所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

获取对应所述问题文本中问题的正确答案的第四答案文本；

计算所述第四答案文本与所述第一答案文本的答案相似度；

到预设的分值-相似度列表中查找与所述答案相似度对应的分值；

将所述分值作为对所述第一中文文本理解程度的得分输出。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述获取第一问题中文文本，以及待理解的第一中文文本的步骤之前，包括：

获取预设的中文阅读理解数据集；其中，中文阅读理解数据集包括成一一对应关系的第二问题中文文本、待理解的第二中文文本和第四答案文本的多条训练数据；

利用所述语言模型给每一条训练数据进行向量化，得到呈一一对应关系的第二问题中文文本向量、第二中文文本向量和第四答案文本向量的训练数据；

将所述训练向量数据输入到预设的第二中文机器阅读理解模型中进行训练，得到所述第一中文机器阅读理解模型。
根据权利要求1所述的机器阅读理解中文的方法，其中，所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到第一问题中文文本的问题向量，以及第一中文文本的待理解向量的步骤之前，包括：

分别在所述第一问题中文文本和第一中文文本查找外文单词；

若查找到，则将查找到的外文单词翻译成中文，并将翻译得到的中文替换对应的外文单词。
一种机器阅读理解中文的装置，其中，包括：

获取单元，用于获取第一问题中文文本，以及待理解的第一中文文本；

向量化单元，用于分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

计算单元，用于将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。
一种计算机设备，包括存储器和处理器，其中，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现一种机器阅读理解中文的方法，该方法包括如下步骤：

获取第一问题中文文本，以及待理解的第一中文文本；

分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。
根据权利要求9所述的计算机设备，其中，所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量的步骤，包括：

分别对所述第一问题中文文本，以及所述第一中文文本中的每一个字符向量化，得到字符向量；以及给每一个字符标记位置向量，得到字符位置向量；

将每一个字符对应的字符向量和字符位置向量合并，得到对应对所述第一问题中文文本的问题向量，以及对应所述第一中文文本的待理解向量。
根据权利要求9所述的计算机设备，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个第一向量形成第一向量串；

将多个所述第一向量按照所述第一顺序，每指定数量的所述第一向量形成一组，得到多个第一向量组；

到预设的模板向量数据库中，各所述第一向量组查找与其相似度最高，且相似度达到预设的第一阈值的第二向量组；

若查找到所述第二向量组，则将所述第二向量组替换所述第一向量串中对应的第一向量组，得到第二向量串；

将所述第二向量串转换成中文，得到第二答案文本。
根据权利要求9所述的计算机设备，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个所述第一向量形成第一向量串（x1、x2、x3······xn），其中，x为第一向量，n为大于1的整数；

按照所述第一顺序，先以第一个所述第一向量x1为起始向量，与第二个所述第一向量x2进行组合，得到第一向量组合（x1、x2），并在预设的模板向量数据库中，查找与所述第一组合向量（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），其中y为预设的向量；

若查找到所述预设第一组合向量（y1、y2），则以前三个所述第一向量进行组合，得到第二向量组合（x1、x2、x3），并在所述模板向量数据库中，查找与所述第二组合向量相似度最大，且大于所述第二阈值的预设第二组合向量（y1、y2、y3）；以此类推，当未得到组合向量（y1、y2、y3······yn）时，则进行“在所述第一向量中，由组合向量（y1、y2、y3······yn-1）替换对应的向量组合（x1、x2、x3······xn-1），并将所述组合向量（y1、y2、y3······yn-1）固化到所述第一向量串中”的第一固化过程；

若未查找到所述第二组合向量（y1、y2），则进行“将所述第一向量组合（x1、x2）固化所述第一向量串中”的第二固化过程；同时以第三个所述第一向量为起始向量，重复所述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串；

将所述第三向量串转换成中文，得到第三答案文本。
根据权利要求9所述的计算机设备，其中，所述第一中文文本为答题者回答所述第一问题中文文本中问题形成的文本；所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

获取对应所述问题文本中问题的正确答案的第四答案文本；

计算所述第四答案文本与所述第一答案文本的答案相似度；

到预设的分值-相似度列表中查找与所述答案相似度对应的分值；

将所述分值作为对所述第一中文文本理解程度的得分输出。
根据权利要求9所述的计算机设备，其中，所述获取第一问题中文文本，以及待理解的第一中文文本的步骤之前，包括：

获取预设的中文阅读理解数据集；其中，中文阅读理解数据集包括成一一对应关系的第二问题中文文本、待理解的第二中文文本和第四答案文本的多条训练数据；

利用所述语言模型给每一条训练数据进行向量化，得到呈一一对应关系的第二问题中文文本向量、第二中文文本向量和第四答案文本向量的训练数据；

将所述训练向量数据输入到预设的第二中文机器阅读理解模型中进行训练，得到所述第一中文机器阅读理解模型。
根据权利要求9所述的计算机设备，其中，所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到第一问题中文文本的问题向量，以及第一中文文本的待理解向量的步骤之前，包括：

分别在所述第一问题中文文本和第一中文文本查找外文单词；

若查找到，则将查找到的外文单词翻译成中文，并将翻译得到的中文替换对应的外文单词。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现一种机器阅读理解中文的方法，该方法包括如下步骤：

获取第一问题中文文本，以及待理解的第一中文文本；

分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量，其中，所述语言模型为BERT；

将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本。
根据权利要求16所述的计算机可读存储介质，其中，所述分别将所述第一问题中文文本和所述第一中文文本输入到预设的语言模型中进行向量化，得到所述第一问题中文文本的问题向量，以及所述第一中文文本的待理解向量的步骤，包括：

分别对所述第一问题中文文本，以及所述第一中文文本中的每一个字符向量化，得到字符向量；以及给每一个字符标记位置向量，得到字符位置向量；

将每一个字符对应的字符向量和字符位置向量合并，得到对应对所述第一问题中文文本的问题向量，以及对应所述第一中文文本的待理解向量。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个第一向量形成第一向量串；

将多个所述第一向量按照所述第一顺序，每指定数量的所述第一向量形成一组，得到多个第一向量组；

到预设的模板向量数据库中，各所述第一向量组查找与其相似度最高，且相似度达到预设的第一阈值的第二向量组；

若查找到所述第二向量组，则将所述第二向量组替换所述第一向量串中对应的第一向量组，得到第二向量串；

将所述第二向量串转换成中文，得到第二答案文本。
根据权利要求16所述的计算机可读存储介质，其中，所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

判断所述第一答案文本中是否存在非中文词语，若有，则将非中文词语转换成对应的中文，并替换到所述第一答案文本中，得到纯中文的第一答案文本；

将所述纯中文的第一答案文本中的每一个汉字进行向量化，得到对应所述纯中文的第一答案文本中文字的第一顺序的多个第一向量，多个所述第一向量形成第一向量串（x1、x2、x3······xn），其中，x为第一向量，n为大于1的整数；

按照所述第一顺序，先以第一个所述第一向量x1为起始向量，与第二个所述第一向量x2进行组合，得到第一向量组合（x1、x2），并在预设的模板向量数据库中，查找与所述第一组合向量（x1、x2）相似度最大，且大于预设的第二阈值的预设第一组合向量（y1、y2），其中y为预设的向量；

若查找到所述预设第一组合向量（y1、y2），则以前三个所述第一向量进行组合，得到第二向量组合（x1、x2、x3），并在所述模板向量数据库中，查找与所述第二组合向量相似度最大，且大于所述第二阈值的预设第二组合向量（y1、y2、y3）；以此类推，当未得到组合向量（y1、y2、y3······yn）时，则进行“在所述第一向量中，由组合向量（y1、y2、y3······yn-1）替换对应的向量组合（x1、x2、x3······xn-1），并将所述组合向量（y1、y2、y3······yn-1）固化到所述第一向量串中”的第一固化过程；

若未查找到所述第二组合向量（y1、y2），则进行“将所述第一向量组合（x1、x2）固化所述第一向量串中”的第二固化过程；同时以第三个所述第一向量为起始向量，重复所述第一固化过程和/或所述第二固化过程，直到得到全部是固化的向量的第三向量串；

将所述第三向量串转换成中文，得到第三答案文本。
根据权利要求16所述的计算机可读存储介质，其中，所述第一中文文本为答题者回答所述第一问题中文文本中问题形成的文本；所述将所述问题向量和所述待理解向量输入到预设的第一中文机器阅读理解模型中进行计算，得到对应所述第一问题中文文本的第一答案文本的步骤之后，包括：

获取对应所述问题文本中问题的正确答案的第四答案文本；

计算所述第四答案文本与所述第一答案文本的答案相似度；

到预设的分值-相似度列表中查找与所述答案相似度对应的分值；

将所述分值作为对所述第一中文文本理解程度的得分输出。