WO2019218527A1

WO2019218527A1 - 多系统相结合的自然语言处理方法及装置

Info

Publication number: WO2019218527A1
Application number: PCT/CN2018/102875
Authority: WO
Inventors: 祖新星; 周宝; 王健宗; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-05-14
Filing date: 2018-08-29
Publication date: 2019-11-21
Also published as: CN108920488B; CN108920488A

Abstract

一种多系统相结合的自然语言处理方法，所述方法包括：提取接收的文本信息中的特征词（S11）；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值（S12）；从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果（S13）。该方法能够将多种单一自然语言处理系统结合使用，由多个系统投票产生最终答案，从而使系统返回的结果更精准，解决了现有的自然语言处理系统存在的结果单一、知识面不足、问题与答案匹配度太低的问题。

Description

多系统相结合的自然语言处理方法及装置

本申请要求于2018年5月14日提交中国专利局、申请号为201810455437.2，发明名称为“多系统相结合的自然语言处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及保险金融领域，尤其涉及多系统相结合的自然语言处理方法及装置。

背景技术

现有的人机对话解决方案，通常按照分词、替换、匹配等步骤实现结果返回，如科大讯飞、图灵机器人等自然语言处理系统，通常的实现方式是提前维护词条知识库，查询阶段先对问题进行同义词、停用词等替换，再对文本进行分词和匹配，最终返回数据库中匹配度最高的一个词条。对于部分系统，还能从与用户问答过程中，学习新的词语、句式，并更新在知识库中。

发明人意识到这种方式实现的人机对话，机器人只能从已有知识库中匹配结果，回答质量很大程度上取决于知识库数量，而且非常容易出现回答与问题不符合的情况。因此，现有的技术方案中，处理结果单一、知识面不足、问题与答案匹配度太低，处理结果不够精准。

发明内容

本申请提供一种多系统相结合的自然语言处理方法及相应的装置、计算机设备及可读存储介质，其主要目的在于通过将多种单一自然语言处理系统结合使用，由多个系统投票产生最终输出结果，从而使系统返回的结果越来越准确。

本申请还提供一种用于执行本申请的多系统相结合的自然语言处理方法的计算机设备及可读存储介质。

为解决上述问题，本申请采用如下各方面的技术方案：

第一方面，本申请提供一种多系统相结合的自然语言处理方法，所述方法包括：提取接收的文本信息中的特征词；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

第二方面，本申请还提供一种多系统相结合的自然语言处理装置，包括：提取模块，用于提取接收的文本信息中的特征词；匹配模块，用于根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；计算模块，用于从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

第三方面，本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种多系统相结合的自然语言处理方法，所述多系统相结合的自然语言处理方法包括以下步骤：提取接收的文本信息中的特征词；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

第四方面，本申请还提供一种计算机可读非易失性存储介质，所述计算机可读存储介质中包括在线支付时的提示程序，所述在线支付时的提示程序被处理器执行时，实现一种多系统相结合的自然语言处理方法，所述多系统相结合的自然语言处理方法包括以下步骤：提取接收的文本信息中的特征词；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

本申请提供一种多系统相结合的自然语言处理方法，实现将多个独立的自然语言处理系统结合使用，由多个第三方系统的检索结果经过综合计算产生最终输出结果，从而使系统返回的结果更加精准且知识面更全。

附图说明

图1为本申请多系统相结合的自然语言处理方法一种实施例流程框图；

图2本申请多系统相结合的自然语言处理装置一种实施例流程框图；

图3为一个实施例中计算机设备的内部结构框图。

具体实施方式

请参阅图1，本申请所提供的一种多系统相结合的自然语言处理方法，其中，具体的一种实施方式中，包括如下步骤：

S11、提取接收的文本信息中的特征词。

本申请实施例中，所述文本信息可以是一个语句，例如一个用户输入的问题，也可以是包括多个问题的一段文本。所述特征词为所述文本信息中的重要度比较高的词。

在一种可能的实施方式中，本申请优选以下方案提取接收的文本信息的特征词：

其一、对所述文本信息进行分词，工具有哈工大分词工具、讯飞语音云等，具体的分词方法为本领域的惯用手段，在此不再赘述。

其二、依据预存的同义词、停用词等词库对分词后的内容进行处理以过滤掉一些停用词，替换掉一些同义词。

在分词后需要对各词进行筛选或替换等预处理。首选需要对分词后的词进行统计。如果某个词或短语在一个文本中出现的频率高，并且在其他文本中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

一般而言，出现次数最多的词可能是----"的"、"是"、"在"----这一类最常用的词，该类词即为"停用词"，表示对找到结果毫无帮助、必须过滤掉的词。

进一步的，如果所述文本信息中出现“开心”、“高兴”等同义词，那么可以用一个词来替换对应的其他同义词。

其三、使用维基百科等训练语料，采用词频及逆向文件频率TF-IDF等算法，计算所述文本信息中被分出的各个词的重要度，选取重要度靠前的预设个数的词即为所述文本信息的所述特征词。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在一份给定的文件里，词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化，以防止它偏向长的文件，其中，分子一般小于分母区别于IDF，以防止它偏向长的文件。同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。

逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF实际上是：TF*IDF，其中，TF为词频，IDF为反文档频率。

具体的，在一份给定的文件里，词频(TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化，以防止它偏向长的文件。对于在某一特定文件里的词语t _i来说，它的重要性可表示为如公式(1-1)：

以上式子中n _i,j是该词t _i在文件d _j中的出现次数，而分母则是在文件d _j中所有字词的出现次数之和。

逆向文件频率(IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到，具体公式如公式(1-2)：

其中，分子为语料库中的文件总数，分母为包含词语的文件总数。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。另一说法为：IDF反文档频率是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。但是实际上，有时候，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别于其它类文档。

根据公式(1-2)以及公式(1-3)可得，某个词在特定文件中的TF-IDF值如下式(1-3)：

因此，某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

基于以上TF-IDF算法的原理，可以计算出所述文本信息中分词后的各个词的重要度，并通过各重要度筛选出TF-IDF超过一定阈值的词作为所述文本信息的特征词。

例如，输入的文本信息为“你喜欢看电影还是看电视？”，首先进行分词：你\喜欢\看\电影\还是\电视。统计各词出现的次数：“你”、“电视”、“电影”、“还是”以及“喜欢”各一次，“看”2次。去掉停用词，“你”、“还是”以及“看”。计算各词的TF值。“电视”的TF＝1/7，“电影”的TF＝1/7，“喜欢”的TF＝1/7。

假设“电视”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是log(10,000,000/1,000)＝4。最后的“电视”TF-IDF的值为1/7*4。

假设“电影”一词在1,0000份文件出现过，其逆向文件频率就是log(10,000,000/1,0000)＝3。最后的“电视”TF-IDF的值为1/7*3。

假设“喜欢”一词在1,00000份文件出现过，其逆向文件频率就是log(10,000,000/1,0000)＝2。最后的“电视”TF-IDF的值为1/7*2。

故各词的TF-IDF排序为：“电视”大于“电影”大于“喜欢”，若预设选取TF-IDF的值大于2/7的词为所述文本信息的特征词时，则该文本信息的特征词为“电视”和“电影”。

S12、根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值。

本申请实施例中，在系统构建阶段，需要归纳不同组别所包含的关键词列表。假设所述文本信息为单个的问题语句，那么所述组别可以为依据各个问题语句而进行分类的问题类别，例如所述组别可以为：银行问题、保险问题以及闲聊问题等分类，在本申请的另一些实施例中，所述组别也可以为其他的分类主题，在此不做具体限定。

具体的，以所述组别为银行问题组别为例，首先在搜索引擎中搜索关键词“银行”，利用爬虫工具对搜索引擎返回结果进行递归访问，并利用TF-IDF等方法，归纳出结果网页中的关键词及重要度，选取重要度排在前100的词作为银行问题组别下的关键词，后续匹配时可以将接收的文本信息中的特征词与该些关键词进行匹配以计算所述文本信息在所述组别中的所述第一权重值。

一种可能的实施方式中，本申请优选以下方案计算所述文本信息在所述组别中的所述第一权重值：

依据TF-IDF计算所述特征词在所述文本信息中的第一重要度；

依据TF-IDF计算所述特征词在指定组别中的第二重要度；

所述文本信息在指定组别中的所述第一权重值等于所述文本信息中各特征词在指定组别中所述第一重要度与所述第二重要度的乘积的总和。

本申请实施例中，计算所述文本信息在所述组别中的所述第一权重值的计算公式如下式(2-1)：

其中，S _category为当前的所述文本信息在第k个组别中的所述第一权重值，a _ij-k为第ji-k个所述特征词，TI _aij-k为所述a _ij-k的第一重要度，I _aij-k为所述a _ij-k的第二重要度。

依据上述TF-IDF算法中的公式(1-1)、(1-2)以及(1-3)可以计算出所述第一重要度TI _aij-k的值以及所述第二重要度I _aij-k的值，将其代入公式(2-1)即可计算出当前的所述文本信息在第k个组别中的所述第一权重值。

进一步的，由于所述第一权重值是以累加和求得，并且多次参与后续计算，其计算值太大或太小、或者相互之间相差太大，均会影响计算结果。因此，本申请还提供一个步骤对该问题信息在对用分组中的权重进行归一化处理，以使得归一化后的第一权重值均在预设的阈值范围内，如将所有权重归一化到(0,1)之间。其计算公式如下式(2-2)：

其中，S′ _category为当前的所述文本信息在第k个组别中的所述第一权重值归一化之后的值，max(S _category)为所述文本信息在各个组别中的所述第一权重值的最大值，min(S _category)为所述文本信息在各个组别中的所述第一权重值的最小值。

由此可知，所述文本信息在各第三方系统中的各组别下分别可以计算出一个所述第一权重值。

请参考下表1，表1为一种可能的所述文本信息在各组别中的所述第一权重值表。

表1 一种可能的所述文本信息在各组别中的所述第一权重值表

如表所示，本系统一共包含3个组别分别是银行问题、保险问题以及闲聊问题，当前输入的文本信息在系统1中的对应3个组别中的第一权重值分别为S1、S2以及 S3。其中，S1的值等于所述文本信息所包含的各个特征词在所述文本信息中的重要度与各特征词在组别中的重要度的乘积的累加，同理，S2以及S3的计算过程同S1。例如，所述文本信息包含特征词M1、M2以及M3，其中，特征词M1在所述文本信息中的第一重要度为A1，所述特征词M1在组别K中的第二重要度为A2，特征词M2在所述文本信息中的第一重要度为A2，所述特征词M2在组别K中的第二重要度为A4，特征词M3在所述文本信息中的第一重要度为A5，所述特征词M3在组别K中的第二重要度为A6，则所述文本信息在组别K的所述第一权重值S＝A1*A2+A3*A4+A5*A6，对应的，可以计算出所述文本信息在其他各组别中的所述第一权重值。

进一步的，由于在不同系统中，所述文本信息所包含的各个特征词在所述文本信息中的重要度相同，各特征词在组别中的重要度也相同，故在不同系统中所述文本信息在相同组别中的所述第一权重值相同。

S13、向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

本申请实施例中，本申请优选以下方案计算当前文本信息的输出结果：

其一、计算各检索结果与其他检索结果的相似度之和以得到第一中间量。

在接收到所述文本信息后向其他各第三方系统获取该文本信息对应的检索结果，并依据词语重合度计算、词向量距离计算等算法计算各检索结果与其他检索结果的相似度C _i-j并计算各相似度之和

以得到第一中间量，具体算法为本领域惯用手段，在此不再赘述。

其二、计算指定系统中各组别在其所属的第三方系统中的所述第二权重值。

本申请实施例中，所述第二权重值为各第三方系统对各组别的投票权重，其依赖于每一次的检索结果的评分以及最初的初始值。本申请优选各个组别在各个系统中的所述第二权重值的初始值相等，假设共有Q个系统，那么各所述组别在其所属的第三方系统中的第二权重值均相等且等于1/Q。则第一次检索时，各所述组别对应的所述第二权重值均为1/Q，完成第一检索之后，依据第一次检索时的文本信息在各组别中的所述第一权重值以及各检索结果的评分计算出第一次次检索之后各组别对应的所述第二权重值以生成第二次检索时对应的各组别在其所属的第三方系统的所述第二权重值。

具体的，本申请优选以下方案计算各组别在各第三方系统中的当前所述第二权重值：

检测前一轮次的检索过程中所产生的所述文本信息在各第三方系统中的检索结果的评分以及所述文本信息在各组别中的所述第一权重值；

当前一轮次的检索过程中，所述文本信息满足在第i个组别中的所述第一权重值最大且该文本信息在第k个第三方系统中的检索结果评分最大时，依据前一轮次的检索过程中的该第i个组别对应的第二权重值、所述文本信息在该第i个组别中的第一权重值、所述文本信息在第k个第三方系统中的检索结果以及学习率计算该第i个组别在第k个第三方系统中对应的当前轮次的第二权重值，所述学习率为所述第二权重值调整的幅度；

其他组别在对应组别所属的其他第三方系统中的当前轮次的第二权重值与前一轮次的第二权重值相同，所述其他组别为所述指定系统中的各组别之中除所述第i个组别之外的组别。

本申请优选以上方法依据每一轮次的检索过程的结果调整每一轮次的各所述第二权重值，其中，各所述第二权重值的初始值已预先设定。每次的检索所用到的所述第二权重值依赖于其前一次的检索的结果而设定。

其中，所述学习率为所述第二权重值调整的幅度，学习率是一个很微小的数，由于回答一次问题不会大幅度调整对应的参数，需要在使用过程中测试取值，通常可以取小于0.001的数值。

依据所述第二权重值的计算原理可知，第一次检索完成后，其中一个组别在其中一个第三方系统中的所述第二权重值需要被调整，其他组别在其他第三方系统中的所述第二权重值保持不变，也即等于第一次检索时的值1/Q，以此类推，每完成一次检索时，均可以依据当次的评分结果更新一次各组别在对应的第三方系统中的所述第二权重值。

请参考表2，表2为一种可能的各组别在各第三方系统的所述第二权重值的调整数据表。

表2 一种可能的各组别在各第三方系统的所述第二权重值的调整数据表

如表2所示，本系统包括两个第三方系统，系统1和系统2，各系统包括三个组别，组别1、组别2以及组别3。系统构建初期个组别在各第三方系统中的所示第二权重值均相等且等于1/2。当经过一次检索后，组别3在系统1中的检索结果的评分最高，且文本信息在组别3中的所述第一权重值最大，所以满足调整组别3在系统1中的所述第二权重值的条件，对组别3在系统1中的所述第二权重值进行调整，具体依据组别3在系统1中的检索结果的评分以及文本信息在组别3中的所示第一权重值计算新的所述第二权重值1/2+M。

本申请实施例中，具体计算各组别在各第三方系统中的所述第二权重值的公式如下：

当前一次检索时满足条件：

a)所述文本信息在所述组别k′中的权重＝各权重的最大值

b)所述文本信息在系统i′中的检索结果的评分＝各检索结果的评分的最大值时，则可以增加系统i′对组别k′的所述第二权重值作为当前检索的系统i′对组别k′的所述第二权重值的输入值，具体的，调整所述第二权重值的公式如下式(3-1)，先计算临时值：

E′ _i-k(new)＝E _i-k(old)(i≠i′且k≠k′) (3-2)

其中，E′ _{i′-k′(new)}为调整第三方系统i′对组别k′的所述第二权重值之后的临时值，E′ _{i′-k′(old)}为第三方系统i′对组别k′的所述第二权重值调整之前的值，η为学习率。

进一步的，式(3-2)表示在调整系统i′对k′的所述第二权重值时，其他第三方系统对其他组别的所述第二权重值不变。

再应用softmax函数，对输出的各临时值归一化为概率值，确保对组别k′，所有的第三方系统的所述第二权重值和为1，具体公式如下式(3-3)：

其中，E _i-k(new)为所述第二权重值调整之后的值。故前一次检索完成之后，第三方系统i′对组别k′的所述第二权重值被调整为E _i-k(new)，其他组别在其他第三方系统中的所述第二权重值不变，各所述第二权重值作为当前检索的所述各组别在对应第三方系统中的所述第二权重值的输入值。

其三、计算指定系统中各组别对应的所述第二权重值与所述文本信息在各组别中的所述第一权重值归一化之后值的乘积的总和以得到第二中间量如下式(3-4)。

其中，K为所述组别的总数，S′ _category为当前的所述文本信息在第k个组别中的所述第一权重值归一化之后的值，E _i-k为第k个组别在第i个系统中的所述第二权重值。

其四、计算所述第一中间量与所述第二中间量的乘积以得到各检索结果在该检索结果对应的第三方系统中的评分，最后取评分最高的检索结果为所述文本信息对应的输出结果。

具体的，本申请计算所述各检索结果的评分的计算公式如下式(3-5)：

其中，r _i为各检索结果与其他检索结果的相似度之和，K为所述组别的总数，E _i-k为所述文本信息k在第三方系统i中的所述第二权重值，S′ _category为所述文本信息在所述组别中的所述第一权重值归一化的值。

本申请实施例中，获得该最终输出结果后对该输出结果进行tts语音播报。

请参考下表3，表3为一种可能的所述文本信息对应的各个检索结果的评分表。

表3 一种可能的所述文本信息对应的各个检索结果的评分表

如表3所示，本系统接收所述文本信息后分别向系统1、系统2以及系统3获取对应的检索结果F1、F2以及F3，分别计算各个检索结果与其他两个检索结果的相似度之和得到各个检索结果对应的相似度之和分别为r1、r2以及r3。由公式(3-4)可知：

检索结果F1的评分R1＝r1*(S1*E1+S2*E2+S3*E3)；

检索结果F2的评分R2＝r2*(S1*E4+S2*E5+S3*E6)；

检索结果F3的评分R3＝r3*(S1*E7+S2*E8+S3*E9)。

取R1、R2以及R3中最大的一个评分对应的检索结果即为所述文本信息对应的输出结果。

需要说明的是，本申请还提供在线学习优化策略，将最终得出的各个结果的评分用于优化系统的所述第二权重值，以最终优化系统输出的结果的精准度。

具体而言，本申请通过引入学习率的参数，在每一次检索完成之后对各组别在其所属的第三方系统中的第二权重值进行一次调整。所述学习率用于表征所述第二权重值的调整幅度。在对当前轮次的检索中的所述第二权重值进行调整时，依据其前一次的检索过程中所产生的各第三方系统的检索结果的评分、各组别对应的第二权重值、文本信息在各组别的中的第一权重值以及所述学习率计算当前轮次的所述第二权重值。本申请提供该机制不断调整各组别在对应第三方系统中的所述第二权重值，使得不同系统对其所擅长的问题组别赋予更高的权重，以实现问题匹配越来越精准。

具体的，系统上线初期，系统i对各组别的所述第二权重均相等且为1/Q(假设有 Q个系统)，也即对每个组别对应的问题，每个系统输出准确答案的概率均相等。当经过一轮检索之后，假设所述文本信息在组别K中的第一权重值最大，所述文本信息在系统i中的检索结果的评分最高，则根据公式(3-1)以及(3-2)可以计算出组别K在系统i中对应的新的所述第二权重值。

请参考图2，本申请的实施例还提供一种多系统相结合的自然语言处理装置，一种本实施例中，包括提取模块11、匹配模块12以及计算模块13。其中，

提取模块11，用于提取接收的文本信息中的特征词。

本申请实施例中，所述文本信息可以是一个语句，例如一个用户输入的问题，也可以是包括多个问题的一段文本。所述特征词为所述文本信息中的重要度比较高的词，或者通俗易懂的讲就是所述文本信息中出现次数比较多的词。

其三、使用维基百科等训练语料，采用TF-IDF等算法，计算所述文本信息中被分出的各个词的重要度，选取重要度靠前的预设个数的词即为所述文本信息的所述特征词。

其中，分子为语料库中的文件总数，分母为包含词语的文件总数。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n＝m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。另一说法为：IDF反文档频率是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。但是实际上，有时候，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。

TI _i,j＝tf _i,j×idf _i (1-3)

匹配模块12，用于根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值。

依据TF-IDF计算所述特征词在所述文本信息中的第一重要度；

依据TF-IDF计算所述特征词在指定组别中的第二重要度；

进一步的，由于所述第一权重值是以累加和求得，并且多次参与后续计算，其计算值太大或太小、或者相互之间相差太大，均会影响计算结果。因此，本申请还提供一个步骤对该问题信息在对用分组中的权重进行归一化处理，将所有权重归一化到(0,1)之间。其计算公式如下式(2-2)：

请参考上表1，表1为一种可能的所述文本信息在各组别中的所述第一权重值表。

如表1所示，本系统一共包含3个组别分别是银行问题、保险问题以及闲聊问题，当前输入的文本信息在系统1中的对应3个组别中的第一权重值分别为S1、S2以及S3。其中，S1的值等于所述文本信息所包含的各个特征词在所述文本信息中的重要度与各特征词在组别中的重要度的乘积的累加，同理，S2以及S3的计算过程同S1。例如，所述文本信息包含特征词M1、M2以及M3，其中，特征词M1在所述文本信息中的第一重要度为A1，所述特征词M1在组别K中的第二重要度为A2，特征词M2在所述文本信息中的第一重要度为A2，所述特征词M2在组别K中的第二重要度为A4，特征词M3在所述文本信息中的第一重要度为A5，所述特征词M3在组别K中的第二重要度为A6，则所述文本信息在组别K的所述第一权重值S＝A1*A2+A3*A4+A5*A6，对应的，可以计算出所述文本信息在其他各组别中的所述第一权重值。

计算模块13，用于向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

本申请实施例中，所述第二权重值为各第三方系统对各组别的投票权重，其依赖于每一次的检索结果的评分以及最初的初始值。本申请优选各个组别在各个系统中的所述第二权重值的初始值相等，假设一共有Q个系统，那么各所述组别在其所属的第三方系统中的第二权重值均相等且等于1/Q。则第一次检索时，各所述组别对应的所述第二权重值均为1/Q，完成第一检索之后，依据第一次检索时的文本信息在各组别中的所述第一权重值以及各检索结果的评分计算出第一次次检索之后各组别对应的所述第二权重值以生成第二次对应的各组别在其所属的第三方系统的所述第二权重值。

检测前一轮次的检索过程中所产生的文本信息在各第三方系统中的检索结果的评分以及所述文本信息在各组别中的所述第一权重值；

请参考上表2，表2为一种可能的各组别在各第三方系统的所述第二权重值的调整数据表。

当前一次检索时满足条件：

a)所述文本信息在所述组别k′中的权重＝各权重的最大值

E′ _i-k(new)＝E _i-k(old)(i≠i′且k≠k′) (3-2)

具体的，η为学习率，学习率是一个很微小的数，由于回答一次问题不会大幅度调整对应的参数，需要在使用过程中测试取值，通常可以取小于0.001的数值。

再应用softmax函数，确保对组别k，所有的第三方系统的所述第二权重值和为1，具体公式如下式(3-3)：

其中，E _i-k(new)为所述第二权重值调整之后的值。

具体的，本申请计算所述各检索结果的评分的计算公式如下式(3-5)

请参考上表3，表3为一种可能的所述文本信息对应的各个检索结果的评分表。

如表3所示，本系统接收所述文本信息后分别向系统1、系统2以及系统3获取对应的检索结果F1、F2以及F3，分别计算各个检索结果与其他两个检索结果的相似度之和得到各个检索结果对应的相似度之和分别为r1、r2以及r3。由公式(3-4)可知，

检索结果F1的评分R1＝r1*(S1*E1+S2*E2+S3*E3)；

检索结果F2的评分R2＝r2*(S1*E4+S2*E5+S3*E6)；

检索结果F3的评分R3＝r3*(S1*E7+S2*E8+S3*E9)。

具体的，系统上线初期，系统i对各组别的所述第二权重均相等且为1/Q(假设有Q个系统)，也即对每个组别对应的问题，每个系统输出准确答案的概率均相等。当经过一轮检索之后，假设所述文本信息在组别K中的第一权重值最大，所述文本信息在系统i中的检索结果的评分最高，则根据公式(3-1)以及(3-2)可以计算出组别K在系统i中对应的新的所述第二权重值。

在一个实施例中，本申请还提出了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：提取接收的文本信息中的特征词；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

所述处理器所执行的根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值的步骤包括：依据TF-IDF算法计算所述特征词在所述文本信息中的第一重要度；依据TF-IDF算法计算所述特征词在指定组别中的第二重要度；所述文本信息在指定组别中的所述第一权重值等于所述文本信息中各特征词在指定组别中所述第一重要度与所述第二重要度的乘积的总和。

在一个实施例中，处理器执行计算机可读指令时还执行以下步骤：对所述第一权重值进行归一化处理。

所述处理器所执行的向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分的步骤包括：计算各检索结果与其他检索结果的相似度之和以得到第一中间量；计算指定系统中各组别在其所属的第三方系统中的所述第二权重值；计算指定系统中各组别对应的所述第二权重值与所述文本信息在各组别中的所述第一权重值归一化之后值的乘积的总和以得到第二中间量；计算所述第一中间量与所述第二中间量的乘积以得到各检索结果在该检索结果对应的第三方系统中的评分。

请参考图3，图3为一个实施例中计算机设备的内部结构示意图。如图3所示，该计算机设备包括通过系统总线连接的处理器1、存储介质2、存储器3和网络接口4。其中，该计算机设备的存储介质2存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器1执行时，可使得处理器1实现一种多系统相结合的自然语言处理方法，处理器1能实现图2所示实施例中的一种多系统相结合的自然语言处理装置中的提取模块、匹配模块和计算模块的功能。该计算机设备的处理器1用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器3中可存储有计算机可读指令，该计算机可读指令被处理器1执行时，可使得处理器1执行一种多系统相结合的自然语言处理方法方法。该计算机设备的网络接口4用于与终端连接通信。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请还提出了一种存储有计算机可读指令的非易失性存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：提取接收的文本信息中的特征词；根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。

综合上述实施例可知，本申请最大的有益效果在于：

本申请针对现有的单一自然语言处理系统存在的结果单一、知识面不足、问题与答案匹配度太低等问题，设计了一种将多种单一自然语言处理系统结合使用，由多个系统投票产生最终输出结果的方案，通过学习不断调整相关的参数，实现在使用过程中不断优化，针对不同组别，如闲聊问题、天气问题、业务问题、新闻等，给予每个系统不同的第二权重值，从而使返回的结果越来越准确。

本申请提供评分机制对获取到的各个检索结果进行评分以最终筛选出最优的输出结果，相应的，本申请还提供依据该评分结果而制定调整机制以依据各所述检索结果的评分以及所述文本信息在对应分组的第一权重值对所述分组对应的第二权重值进行实时调整。具体而言，本申请依据各所述检索结果的评分以及所述文本信息在对应分组的第一权重值确定所述第二权重值对应的调整值，并将所述调整值更新至所述第二权重值中以实时调整所述第二权重值，通过不断调整每个第三方系统对不同组别的所述第二权重值实现系统的在线学习优化，以最终使得输出的结果精准度越来越高。

综上，本申请通过将多种单一自然语言处理系统结合使用，由多个第三方系统投票产生最终输出结果，解决了现有技术方案中，输出结果单一、知识面不足、问题与答案匹配度太低等问题。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

Claims

多系统相结合的自然语言处理方法，所述方法包括：

提取接收的文本信息中的特征词；

根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；

从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。
根据权利要求1所述的多系统相结合的自然语言处理方法，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值，具体包括：

依据词频及逆向文件频率TF-IDF算法计算所述特征词在所述文本信息中的第一重要度；

依据TF-IDF算法计算所述特征词在指定组别中的第二重要度；

计算所述文本信息中各特征词在指定组别中的所述第一重要度与所述第二重要度的乘积的总和，以得到所述文本信息在指定组别中的所述第一权重值。
根据权利要求2所述的多系统相结合的自然语言处理方法，所述文本信息在指定组别中的所述第一权重值S _category-k通过如下公式计算：

其中，a _ij-k为第ji-k个所述特征词，TI _aij-k为所述a _ij-k的第一重要度，I _aij-k为所述a _ij-k的第二重要度。
根据权利要求1所述的多系统相结合的自然语言处理方法，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值之后，还包括：

对所述第一权重值进行归一化处理，以使得归一化后的第一权重值均在预设的阈值范围内；

所述归一化后的第一权重值S′ _Category-k通过如下公式计算：

其中，S _category为所述第一权重值归一化前的值，max(S _category)为各所述第一权重值中最大的值，min(S _category)为各所述第一权重值中最小的值。
根据权利要求1所述的多系统相结合的自然语言处理方法，所述向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，具体包括：

计算各检索结果与其他检索结果的相似度之和以得到第一中间量；

计算指定系统中各组别在自身所属的第三方系统中的所述第二权重值；

计算指定系统中各组别对应的所述第二权重值与所述文本信息在各组别中的所述第一权重值归一化之后值的乘积的总和以得到第二中间量；

计算所述第一中间量与所述第二中间量的乘积以得到各检索结果在所述检索结果对应的第三方系统中的评分。
根据权利要求5所述的多系统相结合的自然语言处理方法，所述计算指定系统中各组别在其所属的第三方系统中的所述第二权重值，具体包括：

当前一轮次的检索过程中，所述文本信息满足在第i个组别中的所述第一权重值最大且该文本信息在第k个第三方系统中的检索结果评分最大时，依据前一轮次的检索过程中的该第i个组别对应的第二权重值、所述文本信息在该第i个组别中的第一权重值、所述文本信息在第k个第三方系统中的检索结果以及学习率计算该第i个组别在第k个第三方系统中对应的当前轮次的第二权重值，所述学习率为所述第二权重值调整的幅度；

其他组别在对应组别所属的其他第三方系统中的当前轮次的第二权重值与前一轮次的第二权重值相同，所述其他组别为所述指定系统中的各组别之中除所述第i个组别之外的组别。
根据权利要求5所述的多系统相结合的自然语言处理方法，各检索结果在所述检索结果对应的第三方系统中的评分R _i通过计算公式如下：

其中，K为所述组别的总数，E _i-k为所述文本信息k在第三方系统i中的所述第二权重值，S′ _category为所述文本信息在所述组别中的所述第一权重值归一化的值。
多系统相结合的自然语言处理装置，包括：

提取模块，用于提取接收的文本信息中的特征词；

匹配模块，用于根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；

计算模块，用于从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行一种多系统相结合的自然语言处理方法，所述多系统相结合的自然语言处理方法包括以下步骤：

提取接收的文本信息中的特征词；

根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；

从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。
根据权利要求9所述的计算机设备，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值的步骤，具体包括：

依据词频及逆向文件频率TF-IDF算法计算所述特征词在所述文本信息中的第一重要度；

依据TF-IDF算法计算所述特征词在指定组别中的第二重要度；

计算所述文本信息中各特征词在指定组别中的所述第一重要度与所述第二重要度的乘积的总和，以得到所述文本信息在指定组别中的所述第一权重值。
根据权利要求10所述的计算机设备，所述文本信息在指定组别中的所述第一权重值S _category-k通过如下公式计算：

其中，a _ij-k为第ji-k个所述特征词，TI _aij-k为所述a _ij-k的第一重要度，I _aij-k为所述a _ij-k的第二重要度。
根据权利要求9所述的计算机设备，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值的步骤之后，还包括：

对所述第一权重值进行归一化处理，以使得归一化后的第一权重值均在预设的阈值范围内；

所述归一化后的第一权重值S′ _Category-k通过如下公式计算：

其中，S _category为所述第一权重值归一化前的值，max(S _category)为各所述第一权重值中最大的值，min(S _category)为各所述第一权重值中最小的值。
根据权利要求9所述的计算机设备，所述向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，具体包括：

计算各检索结果与其他检索结果的相似度之和以得到第一中间量；

计算指定系统中各组别在自身所属的第三方系统中的所述第二权重值；

计算指定系统中各组别对应的所述第二权重值与所述文本信息在各组别中的所述第一权重值归一化之后值的乘积的总和以得到第二中间量；

计算所述第一中间量与所述第二中间量的乘积以得到各检索结果在所述检索结果对应的第三方系统中的评分。
一种计算机可读非易失性存储介质，所述计算机可读存储介质中包括在线支付时的提示程序，所述在线支付时的提示程序被处理器执行时，实现一种多系统相结合的自然语言处理方法，所述多系统相结合的自然语言处理方法包括以下步骤：

提取接收的文本信息中的特征词；

根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值；

从多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各组别在自身所从属的第三方系统中的第二权重值以及各组别对应的第一权重值分别计算各检索结果的评分，取评分最高的检索结果为所述文本信息对应的输出结果。
根据权利要求14所述的计算机可读非易失性存储介质，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值的步骤，具体包括：

依据词频及逆向文件频率TF-IDF算法计算所述特征词在所述文本信息中的第一重要度；

依据TF-IDF算法计算所述特征词在指定组别中的第二重要度；

计算所述文本信息中各特征词在指定组别中的所述第一重要度与所述第二重要度的乘积的总和，以得到所述文本信息在指定组别中的所述第一权重值。
根据权利要求15所述的计算机可读非易失性存储介质，所述文本信息在指定组别中的所述第一权重值S _category-k通过如下公式计算：

其中，a _ij-k为第ji-k个所述特征词，TI _aij-k为所述a _ij-k的第一重要度，I _aij-k为所述a _ij-k的第二重要度。
根据权利要求14所述的计算机可读非易失性存储介质，所述根据所述特征词与预存的关键词的匹配程度计算所述文本信息在依据所述关键词而进行分类的各组别中第一权重值的步骤之后，还包括：

对所述第一权重值进行归一化处理，以使得归一化后的第一权重值均在预设的阈值范围内；

所述归一化后的第一权重值S′ _Category-k通过如下公式计算：

其中，S _category为所述第一权重值归一化前的值，max(S _category)为各所述第一权重值中最大的值，min(S _category)为各所述第一权重值中最小的值。
根据权利要求14所述的计算机可读非易失性存储介质，所述向多个第三方系统分别获取对应于所述文本信息的检索结果，并依据各检索结果、各所述组别在其所从属的第三方系统中的第二权重值以及对应的第一权重值计算各检索结果的评分，具体包括：

计算各检索结果与其他检索结果的相似度之和以得到第一中间量；

计算指定系统中各组别在自身所属的第三方系统中的所述第二权重值；

计算指定系统中各组别对应的所述第二权重值与所述文本信息在各组别中的所述第一权重值归一化之后值的乘积的总和以得到第二中间量；

计算所述第一中间量与所述第二中间量的乘积以得到各检索结果在所述检索结果对应的第三方系统中的评分。
根据权利要求18所述的计算机可读非易失性存储介质，所述计算指定系统中各组别在其所属的第三方系统中的所述第二权重值，具体包括：

当前一轮次的检索过程中，所述文本信息满足在第i个组别中的所述第一权重值最大且该文本信息在第k个第三方系统中的检索结果评分最大时，依据前一轮次的检索过程中的该第i个组别对应的第二权重值、所述文本信息在该第i个组别中的第一权重值、所述文本信息在第k个第三方系统中的检索结果以及学习率计算该第i个组别在第k个第三方系统中对应的当前轮次的第二权重值，所述学习率为所述第二权重值调整的幅度；

其他组别在对应组别所属的其他第三方系统中的当前轮次的第二权重值与前一轮次的第二权重值相同，所述其他组别为所述指定系统中的各组别之中除所述第i个组别之外的组别。
根据权利要求18所述的计算机可读非易失性存储介质，各检索结果在所述检索结果对应的第三方系统中的评分R _i通过计算公式如下：

其中，K为所述组别的总数，E _i-k为所述文本信息k在第三方系统i中的所述第二权重值，S′ _category为所述文本信息在所述组别中的所述第一权重值归一化的值。