WO2021093755A1

WO2021093755A1 - 问题的匹配方法及装置、问题的回复方法及装置

Info

Publication number: WO2021093755A1
Application number: PCT/CN2020/128016
Authority: WO
Inventors: 祝官文; 孟函可
Original assignee: 华为技术有限公司
Priority date: 2019-11-14
Filing date: 2020-11-11
Publication date: 2021-05-20
Also published as: CN112800170A

Abstract

一种问题的匹配方法及装置、问题的回复方法及装置，涉及人工智能技术领域。问题的匹配方法包括：获取待匹配的问题，使用字典树对待匹配的问题进行匹配。若匹配失败，从预设问题库中检索与待匹配的问题相似的多个候选问题，使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与所述候选问题进行匹配。其中，模型包括输入层、编码层、局部交互层、聚合层和输出层。由此，实现了使用训练完的基于问题对的语义相似度计算模型，来对问题对的语义相似度进行计算，将语义作为寻找相似的候选问题的参考因素，提升了确定相似问题的准确度。方法用于问答系统，该问答系统在手机等电子设备上运行，通过自然语言处理技术，实现智能回答。

Description

问题的匹配方法及装置、问题的回复方法及装置

本申请要求于2019年11月14日提交中国专利局、申请号为201911115389.3、申请名称为“问题的匹配方法及装置、问题的回复方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别涉及一种问题的匹配方法及装置、问题的回复方法及装置。

背景技术

问答技术是指人机交互过程中，用户提出问题，机器自动进行回答的技术。常见的问答技术包括FAQ(Frequently Asked Questions，基于常问问题列表的问答技术)和CQA(Community-based Question and Answeri，基于社区问答的问答技术)。其中，FAQ将常问问题和对应的回答以列表的形式进行存储，在收到用户提出的问题后，从列表中寻找相似的常问问题，并使用该常问问题对应的回答向用户进行答复。

相关技术中，将存储的常问问题作为训练数据对分类器进行训练，使用训练完的分类器对用户提出的问题进行分类，进而寻找相似的常问问题。其中，分类器基于问题中包括的字符来对问题进行分类，没有涉及问题的语义，因此对于相似问题的确定不够准确。

发明内容

本申请提供了一种问题的匹配方法及装置、问题的回复方法及装置，以实现使用训练完的基于问题对的语义相似度计算模型，来对问题对的语义相似度进行计算，将语义作为寻找相似的候选问题的参考因素，提升了确定相似问题的准确度。

第一方面，本申请提供了一种问题的匹配方法，所述方法包括：获取待匹配的问题；使用字典树对所述待匹配的问题进行匹配；若匹配失败，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取和聚合，所述输出层用于计算所述问题对的语义相似度。

可选地，在所述获取待匹配的问题之前，还包括：对所述字典树和所述预设问题库，以及对应的索引库进行更新。

可选地，所述使用字典树对所述待匹配的问题进行匹配，包括：去除所述待匹配的问题中的语气词；将所述待匹配的问题中的标点符号进行统一；对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；使用所述字典树分别对每个所述相似问题进行匹配。

可选地，所述使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配，包括：将每个所述候选问题分别与所述待匹配的问题组成问题对；将所述问题对输入所述基于问题对的语义相似度计算模型；根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。

可选地，所述基于问题对的语义相似度计算模型通过以下步骤进行训练：获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。

可选地，所述编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。

可选地，所述局部交互层包括双向多角度相似度分析层和第二归一化层。

第二方面，本申请提供了一种问题的回复方法，所述方法包括：获取待回复的问题；使用前述的问题的匹配方法，确定与所述待回复的问题相匹配的候选问题；使用所述候选问题对应的候选答案进行回复。

第三方面，本申请提供了一种问题的匹配装置，所述装置包括：第一获取模块，用于获取待匹配的问题；第一匹配模块，用于使用字典树对所述待匹配的问题进行匹配；检索模块，用于当所述第一匹配模块匹配失败时，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；第二匹配模块，用于使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取与聚合，所述输出层用于计算所述问题对的语义相似度。

可选地，所述装置还包括：更新模块，用于对所述字典树和所述预设问题库，以及对应的索引库进行更新。

可选地，所述第一匹配模块，包括：去除子模块，用于去除所述待匹配的问题中的语气词；统一子模块，用于将所述待匹配的问题中的标点符号进行统一；替换子模块，用于对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；第一匹配子模块，用于使用所述字典树分别对每个所述相似问题进行匹配。

可选地，所述第二匹配模块，包括：组对子模块，用于将每个所述候选问题分别与所述待匹配的问题组成问题对；输入子模块，用于将所述问题对输入所述基于问题对的语义相似度计算模型；第二匹配子模块，用于根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。

可选地，所述装置还包括：第二获取模块，用于获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；处理模块，用于分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；第一确定模块，用于确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；第二确定模块，用于确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；输入模块，用于将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；训练模块，用于根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；完成模块，用于在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。

第四方面，本申请提供了一种问题的回复装置，所述装置包括：第三获取模块，用于获取待回复的问题；第三确定模块，用于使用前述的问题的匹配方法，确定与所述待回复的问题相匹配的候选问题；回复模块，用于使用所述候选问题对应的候选答案进行回复。

第五方面，本申请提供了一种问答系统，所述系统包括：问答界面，用于接收用户的输入内容，并将生成的回复内容进行展示；分发代理，用于根据所述用户的输入内容的类型，将所述用户的输入内容分发给对应的回复装置；前述的问题的回复装置，用于接收所述分发代理发送的待回复的问题，并从预设问题库中确定对应的答案。

第六方面，本申请提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：获取待匹配的问题；使用字典树对所述待匹配的问题进行匹配；若匹配失败，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取与聚合，所述输出层用于计算所述问题对的语义相似度。

可选地，在所述电子设备获取待匹配的问题之前，还执行以下步骤：对所述字典树和所述预设问题库，以及对应的索引库进行更新。

可选地，所述电子设备使用字典树对所述待匹配的问题进行匹配，具体包括以下步骤：去除所述待匹配的问题中的语气词；将所述待匹配的问题中的标点符号进行统一；对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；使用所述字典树分别对每个所述相似问题进行匹配。

可选地，所述电子设备使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配，具体包括以下步骤：将每个所述候选问题分别与所述待匹配的问题组成问题对；将所述问题对输入所述基于问题对的语义相似度计算模型；根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。

可选地，在对所述基于问题对的语义相似度计算模型进行训练时，所述电子设备执行以下步骤：获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。

第七方面，本申请提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：获取待回复的问题；使用如第一方面所述的方法，确定与所述待回复的问题相匹配的候选问题；使用所述候选问题对应的候选答案进行回复。

第八方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面或第二方面所述的方法。

附图说明

图1为现有技术中的一种基于分类的问答系统的结构示意图；

图2a为现有技术中的一种深度学习模型的构建方法的流程示意图；

图2b为现有技术中的一种基于深度学习模型的问答方法的流程示意图；

图3为本申请实施例所提出的一种问题的匹配方法的流程示意图；

图4为本申请实施例提出的同一化处理的流程示意图；

图5为本申请实施例所提供的一种基于问题对的语义相似度计算模型的训练步骤的流程示意图；

图6为本申请实施例所提出的生成训练正例和训练反例的流程示意图；

图7为本申请实施例所提供的问题的匹配方法的流程示意图；

图8为图7中初始化加载的示意图；

图9为本申请实施例所提供的基于问题对的语义相似度计算模型的结构示意图；

图10为本申请实施例所提出的问题回复的流程示意图；

图11为本申请实施例所提出的一种问题的匹配装置的结构示意图；

图12为本申请实施例所提出的第一匹配模块的结构示意图；

图13为本申请实施例所提出的第二匹配模块的结构示意图；

图14为本申请实施例所提出的问题的匹配装置的另一种结构示意图；

图15为本申请实施例所提出的问题的回复装置的结构示意图；

图16为本申请实施例所提出的一种问答系统的结构示意图；以及

图17为本申请实施例所提出的电子设备的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的问题的匹配方法及装置、问题的回复方法及装置，以及问答系统、计算机可读存储介质。

为了更加清楚地说明本申请实施例所提供的问题的匹配方法，下面首先对相关技术进行说明。

问答技术，即Question Answering(QA)，是指机器自动回答用户提出的问题，从而满足用户对相关信息的需求。一般应用于企业客服，智能资讯等多种应用场景，其典型的应用就是以苹果公司的Siri、Google Now、微软Cortana等为代表的移动生活助手。

问答技术作为一种智能化的人机交互技术，可以在各种电子设备上实现。具体来说，电子设备可以包括移动终端(手机)、智慧屏、无人机、ICV(Intelligent Connected Vehicle，智能网联车)、智能(汽)车(smart/intelligent car)或车载设备等设备。

在传统搜索技术中，输入的是关键词，输出的是一系列相关文档列表。和传统搜索技术不同的是，问答技术的输入通常为自然语言形式的问题，输出是一个简洁答案，或者多个可能答案的列表。

近年来，随着人工智能、自然语言处理和移动互联网技术的快速发展，问答技术逐渐从以简单关键词为核心，发展为以深度问答技术为核心。

基于目标数据源类型的不同，可以将常见的问答技术系统大致分为：基于结构化数据的问答系统，基于自由文本的问答系统和基于问答对的问答系统。其中，基于问答对的问答系统又包括：基于常问问题列表的问答系统(FAQ)和基于社区问答的问答系统(CQA)。

基于常问问题列表的问答系统(FAQ)具有数据量大，问题质量高和数据结构好等优点，因此十分适用于移动生活助手类应用。

现有技术中，对于基于常问问题列表的问答系统存在多种实现方式。

第一种实现方式是，使用训练完的分类器对用户提出的问题进行分类，进而从同类问题中寻找相似的常问问题，并使用该常问问题对应的回答向用户进行答复。图1为现有技术中的一种基于分类的问答系统的结构示意图。如图1所示，现有的一种基于分类的问答系统，将问题文件中存储的常问问题及答案文件中存储的对应答案，分成不同的问题组。将不同的问题组作为训练数据对分类器进行训练，使得分类器能够对不同类型的问题进行分类。

在使用过程中，用户通过用户界面模块输入问题，分类器根据用户提出的问题，确定该问题的类别，进而在相同类别中检索与该问题相似的多个常问问题。从这些常问问题对应的答案中，选取与用户提出的问题最为匹配的回答，通过用户界面模块展示给客户。

第一种实现方式中，分类器在对问题进行分类时，是基于字符和字符数量实现的，没有解决传统搜索技术中存在的语义鸿沟问题。并且随着常问问题数量的增大，分类器的准确度越来越低，无法适用于不同类型的应用场景。

此外，随着时间的迁移，不断有新的问答对产生，旧的问答对删除或者部分问答对更新，而上述分类器在训练完成后，无法根据问答对的更新进行实时更新，使得分类器检索到的相似常问问题较为陈旧。

第二种实现方式是，从网上抓取问答数据集进行存储，作为常问问题列表。从问答数据集中寻找与用户提出的问题相似的多个常问问题，以及这些问题对应的回答，使用基于神经网络的问答匹配模型将回答与用户提出的问题进行匹配，确定与用户提出的问题最为匹配的回答。图2a为现有技术中的一种深度学习模型的构建方法的流程示意图。图2b为现有技术中的一种基于深度学习模型的问答方法的流程示意图。如图2a所示，在深度学习模型构建过程中，从网络抓取网络问答数据，存入关系型数据库中，作为问答数据集，并建立全文检索服务。对关系型数据库中存储的问题进行中文分词，根据中文分词后的结果生成BOW(Bag of Words，词袋)向量，TF-IDF(Term Frequency–Inverse Document Frequency，词频-逆文件频率)值和word2vec词向量，进而生成对应的文本表示向量。将问答数据集中的问答数据作为训练数据，用于训练基于神经网络的问答匹配模型。如图2b所示，在接收到用户提问后，使用关系型数据库提供的全文检索服务，与用户提问相似的多个问题，生成相似问题集，获取相似问题集中每个相似问题的文本表示向量。对用户提问进行中文分词，根据中文分词后的结果生成BOW向量，TF-IDF值和word2dev词向量，进而生成用户提问对应的文本表示向量。

通过计算相似问题的文本表示向量和用户提问的文本表示向量的余弦相似度，生成多个相似问题，将这些相似问题对应的回答作为候选答案。将用户提问和候选答案输入训练完的基于神经网络的问答匹配模型中，确定用户提问的答案。

第二种实现方式中，随着业务的需要和时间的推移，问答数据集中的问题需要不断地增加或者删除(比如会有新的问题需要增加到问答数据集中，或者有些问题存在重复或者不必要的情况，需要从问答数据集中进行删除)。在问答数据集发生变化后，需要再次执行深度学习模型的构建方法的步骤，才能对全文检索服务、文本表示向量和基于神经网络的问答匹配模型进行更新，无法实现实时动态的更新。也就是说，随着时间的推移，之前建立的全文检索服务、文本表示向量和基于神经网络的问答匹配模型较为陈旧，确定出的用户提问的答案也较为陈旧，与实际情况不符。

此外，基于神经网络的问答匹配模型不适用于基于常问问题的问答系统。具体来说，对于问答匹配模型来说，问题和答案的语义空间存在区别，设定合理的相对应的语义特征较为困难，导致问答匹配不准确。而且随着应用场景的变化，同一个问题对应的答案会发生变化，因此问答匹配模型与应用场景的联系较为紧密，不具有通用性。

基于上述对相关技术的说明，可以知道，相关技术中在存储的问题集中寻找与用户提问相似的问题时，对于相似问题的确定不够准确。

为了解决上述问题，本申请实施例提出了一种问题的匹配方法，图3为本申请实施例所提出的一种问题的匹配方法的流程示意图。如图3所示，该方法包括：

步骤S101，获取待匹配的问题。

基于前述对问答系统的说明，可以知道，待匹配的问题是用户提出的问题。

获取用户提出的问题的方式有多种，具体可以通过人机交互界面实现，用户通过人机交互的界面提出问题可以通过键盘输入、语音输入等各种输入手段实现。

步骤S102，使用字典树对待匹配的问题进行匹配。

需要说明的是，本申请实施例从字符和语义两个方面对问题进行匹配，具体使用字典树进行字符的匹配，使用基于问题对的语义相似度计算模型进行语义的匹配。

其中，字典树(trie树)，又被称为单词查找树，是一种树形结构，根节点不包含字符，除根节点外每一个节点都只包含一个字符，从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串，每个节点的所有子节点包含的字符都不相同。

可以理解，本申请实施例预先对多个常问问题进行存储，并将每个常问问题作为一个字符串，填入字典树中，可以将字典树中的节点与该常问问题相对应。将待匹配的问题所对应的字符串拆分为多个字符，使用字典树对多个字符进行依次匹配，若在字典树中能够找到与待匹配的问题所对应的字符串匹配的节点，就能够确定待匹配的问题与该节点对应的常问问题完成匹配。

需要说明的是，若使用字典树能够完成对待匹配问题的匹配，则完成了对待匹配的问题的字符匹配。也就是说，用户提出的问题与某个候选问题在内容上一模一样，那么在后续的回复过程中，可以直接将该候选问题对应的答案用来回答用户提出的问题。

步骤S103，若匹配失败，从预设问题库中检索与待匹配的问题相似的多个候选问题。

需要说明的是，若步骤S102中没有完成对待匹配的问题的匹配，说明预先存储的常问问题中没有与用户提出的问题一模一样的候选问题，需要通过语义分析的方式对待匹配的问题进行匹配。

可以理解，在预设问题库中，存在着大量的常问问题，若将每个常问问题都与待匹配的问题一起输入语义相似度计算模型，计算量太大，且效率很低。

为了减少后续过程中的计算量，可以先对预设问题库中的常问问题进行初步筛选。具体地，从预设问题库中检索与待匹配的问题相似的多个候选问题，再将每个候选问题与待匹配的问题一起输入语义相似度计算模型，从中确定与待匹配的问题相匹配的候选问题。

和前述使用字典树进行匹配不同的是，此处在对预设问题库进行检索时，只需要从中检索出与待匹配的问题存在相同关键词的常问问题即可，无需在内容形式上完全一致。可以理解，预设问题库中的常问问题，与待匹配的问题具有的相同关键词的数量越多，说明该常问问题与待匹配的问题在内容形式上的相似度越高，因此本申请实施例对检索结果按照相似度进行倒排序，然后取前N个常问问题作为候选问题，N为正整数。

步骤S104，使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配。

其中，基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，输入层用于输入问题对的词语信息，编码层用于对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，局部交互层用于对问题对中的两个问题进行语义相关度分析，聚合层用于对局部交互层的输出进行特征提取与聚合，输出层用于计算问题对的语义相似度。

在步骤S103从内容形式上完成了对候选问题的初步筛选后，需要从语义方面对待匹配的问题进行匹配。

本申请实施例采用了基于问题对的语义相似度计算模型，来对待匹配的问题与候选问题进行匹配。

一种可能的实现方式是，将每个候选问题分别与待匹配的问题组成问题对，将问题对输入基于问题对的语义相似度计算模型，根据每个问题对对应的语义相似度，对待匹配的问题与候选问题进行匹配。

需要说明的是，本申请实施例所提供的基于问题对的语义相似度计算模型是一种深度学习句子对模型技术。随着近年来人工智能和深度学习技术的不断发展，越来越多的自然语言处理任务使用深度学习架构来进行处理，比较常见的有神经网络语言模型，循环神经网络模型，句子对模型等。具体地，深度学习句子对模型通过识别出源句和目标句编码后的语义信息来确定句子之间的关系。

在使用深度学习句子对模型技术时，先给定一组训练样例，每个样例为一个三元组(源句，目标句，源句与目标句之间的关系)，通过训练一个深度学习模型(如循环神经网络模型)，来学习预测任意两个句子之间的关系的概率。

需要特别说明的是，本申请实施例所提供的基于问题对的语义相似度计算模型中的输入层中输入的词语信息包括对问题进行分词后生成的词语集合，对词语集合中的每个词语进行词性进行识别后，生成的词性集合，以及对词语集合中的每个词语进行同义词识别后，生成的同义词集合。

编码层在将输入层输入的词语进行语义分析后，从问题进行分词处理后生成的多个词语中，学习该问题中每个词语的上下文信息以及学习该问题的结构特征信息。具体可以通过双向循环神经网络学习问题中每个词语的左右两边词语的信息，并且将该问题中的每个词语分别与其他词语进行语义相关度计算，从而确定问题包括的每个词语的重要度和学习问题的结构特征。

在编码层确定了问题对中的两个问题各自包括的每个词语的重要度和学习问题的结构特征之后，局部交互层在此基础上对问题对中的两个问题进行语义相关度分析。可以理解，由于局部交互层在进行语义相关度分析时，重要度越高的词语对于语义相关度分析的影响越大。具体可以将问题一中的每个词语分别与问题二进行语义相关度加权计算，权重为该词语的重要度，从而得到问题一中的每个词语与问题二的语义相关度，通过类似的步骤可以得到问题二中的每个词语与问题一的语义相关度。

为了减少后续语义相似度的计算量，聚合层采用最大/最小池化的方式对局部交互层的输出进行特征提取，以及采用拼接的方式对提取的特征进行聚合，由输出层根据聚合后的特征计算问题对的语义相似度。

为了让编码层能够实现上述功能，一种可能的实现方式是，编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。

需要说明的是，双向循环神经网络一种特殊的循环神经网络，循环神经网络是一种以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。区别在于，循环神经网络沿一个方向进行递归计算(通常为序列的演进方向)，双向循环神经网络则沿两个方向进行递归计算(通常为序列的演进方向和反方向)。

可以理解，自然语言作为一种序列数据，通常具有较强的关联性，而双向循环神经网络能够结合数据在序列中的前后数据，对数据进行编码，提升了数据编码的合理性。

第一归一化层能够对将数据进行归一化处理，便于后续数据的处理。

堆叠的双向自注意力层通过自注意力机制，从自然语言中确定每个词语在问题中的重要度，从而为后续计算词语与问题之间的语义相关度提供权重。

为了让局部交互层实现上述功能，一种可能的实现方式是，局部交互层包括双向多角度相似度分析层和第二归一化层。

需要说明的是，本申请实施例提供的双向多角度相似度分析层，先从多个角度计算词语与问题之间的语义相关度，将计算结果进行综合处理后，即可得到语义相关度计算的综合结果。

第一种可能的角度是，可以计算词语与问题中包括的每个词语的语义相关度，将计算结果作为词语和问题之间的语义相关度。

第二种可能的角度是，可以计算词语与问题中重要度最高的词语的语义相关度，将计算结果作为词语和问题之间的语义相关度。

第三种可能的角度是，可以基于问题包括的多个词语的重要度，先生成问题的语义特征，再计算词语与问题的语义特征的语义相关度，作为词语和问题之间的语义相关度。

可以理解，在生成语义相关度计算的综合结果过程中，采用的多个角度可以包括上述的可能的角度中的任一种，还可以包括其他可能的角度，本申请实施例对此不做限定。

综上所述，本申请实施例所提供的问题的匹配方法，包括：获取待匹配的问题，使用字典树对待匹配的问题进行匹配。若匹配失败，从预设问题库中检索与待匹配的问题相似的多个候选问题，使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配。其中，基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，输入层用于输入问题对的词语信息，编码层用于对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，局部交互层用于对问题对中的两个问题进行语义相关度分析，聚合层用于对局部交互层的输出进行特征提取与聚合，输出层用于计算问题对的语义相似度。由此，实现了使用训练完的基于问题对的语义相似度计算模型，来对问题对的语义相似度进行计算，将语义作为寻找相似的候选问题的参考因素，提升了确定相似问题的准确度。

此外，为了让本申请实施例所提出的问题的匹配方法能够适用于不同的业务场景，并且能够随着时间的推移不断更新，在步骤S101，获取待匹配的问题之前，该方法还包括：对字典树和预设问题库，以及对应的索引库进行更新。

基于前述说明可以知道，本申请实施例中的字典树和预设问题库都是常问问题的一种存储形式，在不同的业务场景下，所需的常问问题不同，并且随着时间的推移，常问问题也会发生改变，因此在获取待匹配的问题之前，可以先进行对字典树和预设问题库的更新，从而保证本申请实施例的问题的匹配方法的准确度。

需要说明的是，当字典树和预设问题库出现更新后，对应的索引库也需要进行更新才能实现字典树和预设问题库的检索功能，本申请实施例使用全文检索技术在预设问题库进行检索。

全文检索技术本质上是一种搜索引擎技术，搜索引擎技术指从互联网上自动搜集信息，经过整理后给用户提供查询的技术。搜索引擎技术包括网页爬虫，网页索引，网页检索，搜索结果排序等步骤。搜索引擎技术支持网页的索引动态更新和近实时搜索，目前应用在大量检索类的场景中。

可以理解，由于互联网上的信息不断在进行更新，因此搜索引擎技术能够实现对网络信息的近实时检索。使用全文检索技术对预设问题库进行检索时，可以在预设问题库不断进行更新的情况下，通过数据爬虫，数据索引，数据检索，搜索结果排序等步骤，保证对预设问题库进行近实时搜索。

基于前述说明可以知道，步骤S102，使用字典树对待匹配的问题进行匹配，能够快速完成对待匹配的问题的匹配。而采用语义相似度计算模型对待匹配的问题进行匹配时，计算量大，效率低。

为了让尽量多的待匹配问题能够通过字典树完成匹配，一种可能的实现方式是，将相同问题的不同表述进行同一化处理，图4为本申请实施例提出的同一化处理的流程示意图。如图4所示，基于图3所示的方法流程，步骤S102，用字典树对待匹配的问题进行匹配，包括：

步骤S11，去除待匹配的问题中的语气词。

其中，语气词是指表示语气的虚词，常用在句尾或句中停顿处表示种种语气，常见的语气词有“啊”、“呢”、“吗”等。

步骤S12，将待匹配的问题中的标点符号进行统一。

具体地，可以将标点符号设置为“，”或者“/”，也就是说，将标点符号表示语气的作用去除，仅将其看作停顿的符号。

需要说明的是，由于步骤S13中需要生成待匹配的问题的多个相似问题，考虑到不同用户对语气词和标点符号的使用习惯不同，并且语气词和标点符号对于问题的实质内容没有影响，因此可以先将语气词去除，将标点符号统一转化为用于停顿的符号，以便于后续处理。

步骤S13，对待匹配的问题进行同义词替换，以生成待匹配的问题的多个相似问题。

步骤S14，使用字典树分别对每个相似问题进行匹配。

可以理解，为了让待匹配的问题能够与字典树中存储的常问问题进行匹配，在生成字典树时，将常问问题的语气词去除，标点符号进行统一处理。在使用字典树时，对待匹配的问题进行同样的操作，以提升待匹配的问题与常问问题匹配成功的可能性。

此外，考虑到自然语言中对待匹配的问题的表述方式有多种，但实质内容相同，若字典树中预先存储了这些表述方式中的任意一种，即可使用字典树完成对待匹配的问题的匹配。因此，可以对待匹配的问题进行同义词替换，来生成与待匹配的问题的表述方式不同的多个相似问题。使用字典树对多个相似问题进行匹配，若任意一个相似问题匹配成功，则可认为待匹配的问题匹配成功。

在本申请实施例所提供的问题的匹配方法中，需要使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选模型进行匹配。为了对该基于问题对的语义相似度计算模型进行训练，一种可能的实现方式是，图5为本申请实施例所提供的一种基于问题对的语义相似度计算模型的训练步骤的流程示意图。如图5所示，该基于问题对的语义相似度计算模型通过以下步骤进行训练：

步骤S201，获取参考问题对，以及参考问题对对应的参考语义相似度。

其中，参考问题对包括第一参考问题和第二参考问题。

参考问题对和参考语义相似度是指用于训练基于问题对的语义相似度计算模型的训练样例。

基于前述对深度学习句子对模型技术的说明，可以知道，参考问题对和参考语义相似度形成了训练样例中的三元组，可以将参考问题对包括的第一参考问题作为源句，第二参考问题作为目标句，那么参考语义相似度就是源句和目标句之间的关系。

需要特别说明的是，本申请实施例中使用常问问题列表中的数据作为参考问题对和参考语义相似度。但是，可能会出现训练样例不平衡的情况。具体来说，若两个问题的答案相同，则这两个问题形成的问题对可以作为训练正例，将参考语义相似度设置的较高，比如设为1。若两个问题的答案不同，则这两个问题形成的问题对可以作为训练反例，将参考语音相似度设置的较低，比如设为0。可以理解，常问问题列表中能够形成的训练正例数量远小于训练反例的数量，从而使得训练正例对模型训练的影响太小。

为了平衡训练正例和训练反例对模型训练的影响，本申请实施例提出了一种可能的实现方式，图6为本申请实施例所提出的生成训练正例和训练反例的流程示意图，如图6所示，该方法包括：

步骤S21，对常问问题列表进行数据清洗。

具体来说，在常问问题列表中，存在着问题相似并且对应答案相似的数据，可以将问题和对应答案进行合并，还存在问题相同但对应答案不同的数据，可以将答案进行解绑。此外，还可以将常问问题列表中的英文问题进行删除。

步骤S22，确定每个答案对应的多个问题。

步骤S23，根据每个答案对应的多个问题，生成训练正例。

基于前述说明，可以知道，常问问题列表中能够形成的训练正例数量远小于训练反例的数量，因此需要优先形成训练正例。

训练正例的特点在于两个问题的答案相同，因此可以根据答案对应的多个问题，从中生成训练正例。

此外，考虑到不同答案对应的问题数量不同，可以预先设置每个答案对应的训练正例数量相近。

步骤S24，根据不同答案对应的问题，生成训练反例。

应当理解，为了减少反例对模型训练的影响，对于训练反例的生成采用更加精细化的策略。

具体来说，对于不同答案，可能对应有说法相似的问题，为了让训练后的模型能够对说法相似的问题进行区分，需要尽可能将这种情况作为训练反例。

其次，对于训练反例的数量需要进行控制，使其与训练正例的数量相近。

为了避免同一个问题在不同的训练反例中出现，需要在训练反例的选取过程中对已经选取的问题进行标记。

通过上述训练样例的生成方法，能够从常问问题列表中较为实用的参考问题对和参考语义相似度。

在实际使用中，可以将上述生成的训练样例中的一部分作为开发数据集，一部分作为训练数据集。比如可以将10％的训练样例用于开发，90％的训练样例用于训练，本申请实施例对此不做限定。

步骤S202，分别对第一参考问题和第二参考问题进行分词处理，以生成第一参考问题对应的第一参考词语集合，和第二参考问题对应的第二参考词语集合。

步骤S203，确定第一参考词语集合和第二参考词语集合中每个参考词语对应的词性，以生成第一参考词语集合对应的第一参考词性集合，和第二参考词语集合对应的第二参考词性集合。

步骤S204，确定第一参考词语集合和第二参考词语集合中每个参考词语对应的同义词，以生成第一参考词语集合对应的第一参考同义词集合，和第二参考词语集合对应的第二参考同义词集合。

步骤S205，将第一参考词语集合，第二参考词语集合，第一参考词性集合，第二参考词性集合，第一参考同义词集合和第二参考同义词集合输入基于问题对的语义相似度计算模型的编码层。

基于前述对基于问题对的语义相似度计算模型的说明可以知道，输入层输入的词语信息包括词语集合，词性集合以及同义词集合。相应地，在模型训练过程中，输入层需要对输入的参考问题对中的第一参考问题和第二参考问题分别进行分词、词性识别、同义词识别处理。

需要说明的是，输入的第一参考问题和第二参考问题，经过输入层的处理后，得到第一参考问题对应的第一参考词语集合，第一参考词性集合和第一同义词集合，第二参考问题对应的第二参考词语集合，第二参考词性集合和第二参考同义词集合。

步骤S206，根据基于问题对的语义相似度计算模型的输出和参考语义相似度，对基于问题对的语义相似度计算模型的参数进行训练。

需要说明的是，基于前述说明可以知道，输入层的作用是将问题对中的问题转化为适合模型处理的词语集合、词性集合和同义词集合。因此在模型训练过程中，输入层的参数保持不变。

对于模型参数的训练，主要是针对编码层，局部交互层，聚合层和输出层中的参数进行训练。

步骤S207，在基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对基于问题对的语义相似度计算模型的训练。

当语义相似度计算模型的准确度大于预设阈值时，说明训练后的模型能够用于满足实际需求，即可得到训练完的基于问题对的语义相似度计算模型。

从而，实现了对基于问题对的语义相似度计算模型的训练。

为了更加清楚地说明本申请实施例所提供的问题的匹配方法，下面进行举例说明。

图7为本申请实施例所提供的问题的匹配方法的流程示意图。图8为图7中初始化加载的示意图。如图7和图8所示，首先进行初始化加载，根据预先存储的常问问题列表离线构建基于常问问题的字典树，带有全文检索技术的预设问题库，以及用于训练基于问题对的语义相似度计算模型的参考问题对和参考语义相似度，完成对基于问题对的语义相似度计算模型的训练。

当常问问题列表发生问答对的添加、删除、更新时，基于消息事件触发字典树和预设问题库，以及对应的索引库的更新，主要是对字典树的索引库以及预设问题库的倒排索引库进行更新。

在获取待匹配的问题之后，对待匹配的问题进行预处理，去除语气词，对标点符号进行统一，进行同义词替换，以生成多个相似问题。使用字典树分别对每个相似问题进行匹配，若匹配成功，则完成了对待匹配的问题的匹配。

若匹配失败，则使用预设问题库的全文检索技术，从预设问题库中寻找与待匹配的问题相似的多个候选问题。使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配，完成对待匹配的问题的匹配，从而确定匹配的常问问题。

图9为本申请实施例所提供的基于问题对的语义相似度计算模型的结构示意图。如图9所示，将待匹配的问题与候选问题作为一个问题对输入模型，输入层将待匹配的问题和候选问题分别进行处理，生成对应的词语集合、词性集合和同义词集合。将上述多个集合的信息输入编码层，编码层中的双向循环神经网络层提取每个词语与前后词语之间的关系，编码层中的双向自注意力层确定每个词语在问题中的重要度。在局部交互层中，待匹配的问题中词语与候选问题发生语义相关度计算，候选问题中的词语与待匹配的问题发生语义相关度计算，经过多角度分析后，得到语义相关度计算的综合结果。

聚合层对局部交互层的输出进行特征提取和聚合后，由输出层输出每个候选问题与待匹配的问题的语义相似度，选取语义相似度最高的候选问题，作为待匹配的问题的匹配结果。

基于前述对问答系统的说明，可以知道，对于语义相似的多个问题，可以使用相同的答案进行回复。因此，而本申请实施例所提出的问题的匹配方法可以用于确定与待匹配的问题语义相同的常问问题，因此，可以将本申请实施例所提出的问题的匹配方法用于问题的回复。具体来说，图10为本申请实施例所提出的问题回复的流程示意图，如图10所示，该方法包括：

步骤S301，获取待回复的问题。

其中，待回复的问题即为问答系统中用户通过人机交互界面提出的问题，需要机器做出回复。

步骤S302，使用如前述实施例所述的问题的匹配方法，确定与待回复的问题相匹配的候选问题。

在基于常问问题列表的问答系统中，可以采用前述的问题的匹配方法，从预先存储的常问问题中，确定与用户提出的问题语义相同的常问问题作为候选问题。

步骤S303，使用候选问题对应的候选答案进行回复。

可以理解，由于候选问题与用户提出的问题语义相同，因此对应的答案也相同，可以使用候选问题对应的候选答案进行回复。

从而，实现了通过问题匹配的方式，将预先存储的常问问题的答案，作为用户提出的问题的答案，进行回复。

为了实现上述实施例，本申请实施例还提出了一种问题的匹配装置。图11为本申请实施例所提出的一种问题的匹配装置的结构示意图，如图11所示，该装置包括：第一获取模块410，第一匹配模块420，检索模块430，第二匹配模块440。

第一获取模块410，用于获取待匹配的问题。

其中，待匹配的问题是用户提出的问题。

第一匹配模块420，用于使用字典树对待匹配的问题进行匹配。

检索模块430，用于当第一匹配模块匹配失败时，从预设问题库中检索与待匹配的问题相似的多个候选问题。

在对预设问题库进行检索时，只需要从中检索出与待匹配的问题存在相同关键词的常问问题即可，无需在内容形式上完全一致。可以理解，预设问题库中的常问问题，与待匹配的问题具有的相同关键词的数量越多，说明该常问问题与待匹配的问题在内容形式上的相似度越高，因此本申请实施例对检索结果按照相似度进行倒排序，然后取前N个常问问题作为候选问题，N为正整数。

第二匹配模块440，用于使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配。

其中，基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，输入层用于输入问题对的词语信息，编码层用于对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，局部交互层用于对问题对中的问题进行语义相关度分析，聚合层用于对局部交互层的输出进行特征提取与聚合，输出层用于计算问题对的语义相似度。

进一步地，为了让本申请实施例所提出的问题的匹配方法能够适用于不同的业务场景，并且能够随着时间的推移不断更新，一种可能的实现方式是，该装置还包括：更新模块450，用于对字典树和预设问题库，以及对应的索引库进行更新。

进一步地，为了让尽量多的待匹配问题能够通过字典树完成匹配，一种可能的实现方式是，图12为本申请实施例所提出的第一匹配模块的结构示意图。如图12所示，基于图11所示的装置结构，第一匹配模块420，包括：

去除子模块421，用于去除待匹配的问题中的语气词。

统一子模块422，用于将待匹配的问题中的标点符号进行统一。

替换子模块423，用于对待匹配的问题进行同义词替换，以生成待匹配的问题的多个相似问题。

第一匹配子模块424，用于使用字典树分别对每个相似问题进行匹配。

进一步地，为了使用基于问题对的语义相似度计算模型，来对待匹配的问题与候选问题进行匹配，一种可能的实现方式是，图13为本申请实施例所提出的第二匹配模块的结构示意图。如图13所示，基于图11所示的装置结构，第二匹配模块440，包括：

组对子模块441，用于将每个候选问题分别与待匹配的问题组成问题对。

输入子模块442，用于将问题对输入基于问题对的语义相似度计算模型。

第二匹配子模块443，用于根据每个问题对对应的语义相似度，对待匹配的问题与候选问题进行匹配。

进一步地，为了对该基于问题对的语义相似度计算模型进行训练，一种可能的实现方式是，图14为本申请实施例所提出的问题的匹配装置的另一种结构示意图，如图14所示，基于图11所示的装置结构，该装置还包括：

第二获取模块510，用于获取参考问题对，以及参考问题对对应的参考语义相似度。

其中，参考问题对包括第一参考问题和第二参考问题。

处理模块520，用于分别对第一参考问题和第二参考问题进行分词处理，以生成第一参考问题对应的第一参考词语集合，和第二参考问题对应的第二参考词语集合。

第一确定模块530，用于确定第一参考词语集合和第二参考词语集合中每个参考词语对应的词性，以生成第一参考词语集合对应的第一参考词性集合，和第二参考词语集合对应的第二参考词性集合。

第二确定模块540，用于确定第一参考词语集合和第二参考词语集合中每个参考词语对应的同义词，以生成第一参考词语集合对应的第一参考同义词集合，和第二参考词语集合对应的第二参考同义词集合。

输入模块550，用于将第一参考词语集合，第二参考词语集合，第一参考词性集合，第二参考词性集合，第一参考同义词集合和第二参考同义词集合输入基于问题对的语义相似度计算模型的编码层。

训练模块560，用于根据基于问题对的语义相似度计算模型的输出层的输出和参考语义相似度，对基于问题对的语义相似度计算模型的参数进行训练。

对于模型参数的训练，主要是针对编码层，局部交互层，聚合层和输出层中的参数进行训练，输入层的参数保持不变。

完成模块570，用于在基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对基于问题对的语义相似度计算模型的训练。

进一步地，为了让编码层能够对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，一种可能的实现方式是，编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。

进一步地，为了让局部交互层能够对问题对中的两个问题进行语义相关度分析，局部交互层包括双向多角度相似度分析层和第二归一化层。

需要说明的是，前述对问题的匹配方法实施例的说明，也适用于本申请实施例的问题的匹配装置，此处不再赘述。

综上所述，本申请实施例所提供的问题的匹配装置，在进行问题的匹配时，获取待匹配的问题，使用字典树对待匹配的问题进行匹配。若匹配失败，从预设问题库中检索与待匹配的问题相似的多个候选问题，使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配。其中，基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，输入层用于输入问题对的词语信息，编码层用于对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，局部交互层用于对问题对中的两个问题进行语义相关度分析，聚合层用于对局部交互层的输出进行特征提取与聚合，输出层用于计算问题对的语义相似度。由此，实现了使用训练完的基于问题对的语义相似度计算模型，来对问题对的语义相似度进行计算，将语义作为寻找相似的候选问题的参考因素，提升了确定相似问题的准确度。

为了实现上述实施例，本申请实施例还提出了一种问题的回复装置，图15为本申请实施例所提出的问题的回复装置的结构示意图。如图15所示，该装置包括：第三获取模块610，第三确定模块620，回复模块630。

第三获取模块610，用于获取待回复的问题。

第三确定模块620，用于使用如前述实施例中的问题的匹配方法，确定与待回复的问题相匹配的候选问题。

具体可以从预先存储的常问问题中，确定与用户提出的问题语义相同的常问问题作为候选问题。

回复模块630，用于使用候选问题对应的候选答案进行回复。

需要说明的是，前述对问题的回复方法实施例的说明，也适用于本申请实施例的问题的回复装置，此处不再赘述。

为了实现上述实施例，本申请实施例还提出了一种问答系统，图16为本申请实施例所提出的一种问答系统的结构示意图，如图16所示，该问答系统包括：

问答界面710，用于接收用户的输入内容，并将生成的回复内容进行展示。

分发代理720，用于根据用户的输入内容的类型，将用户的输入内容分发给对应的回复装置。其中，回复装置包括问题的回复装置730，自然语言理解装置，自然语言处理装置。

问题的回复装置730，用于接收分发代理720发送的待回复的问题，并从预设问题库740中确定对应的答案。

此外，该问答系统还包括数据消息中间件和自动程序，自动程序每隔预设时间会对预设问题库进行更新，具体是对预设问题库中的常问问题，以及对应的索引库进行删除和添加操作，由数据消息中间件将对预设问题库进行更新的消息发送给问题的回复装置730。

需要说明的是，前述对问题的回复装置实施例的说明，也适用于本申请实施例的问答系统，此处不再赘述。

从而，实现了通过问答系统的问答界面接收用户的输入内容，分发代理将用户提出的问题传输给前述的问题的回复装置，由问题的回复装置生成问题的答案进行回复，通过问答界面进行展示。

为了实现上述实施例，本申请实施例还提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：

步骤S101，获取待匹配的问题。

步骤S102，使用字典树对待匹配的问题进行匹配。

综上所述，本申请实施例所提供的电子设备，在进行问题匹配时，获取待匹配的问题，使用字典树对待匹配的问题进行匹配。若匹配失败，从预设问题库中检索与待匹配的问题相似的多个候选问题，使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选问题进行匹配。其中，基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，输入层用于输入问题对的词语信息，编码层用于对问题对中的问题进行语义分析，确定问题包括的每个词语的重要度和学习问题的结构特征，局部交互层用于对问题对中的两个问题进行语义相关度分析，聚合层用于对局部交互层的输出进行特征提取与聚合，输出层用于计算问题对的语义相似度。由此，实现了使用训练完的基于问题对的语义相似度计算模型，来对问题对的语义相似度进行计算，将语义作为寻找相似的候选问题的参考因素，提升了确定相似问题的准确度。

此外，为了让本申请实施例所提出的电子设备能够适用于不同的业务场景，并且能够随着时间的推移不断更新，在步骤S101，获取待匹配的问题之前，该方法还包括：对字典树和预设问题库，以及对应的索引库进行更新。

为了让尽量多的待匹配问题能够通过字典树完成匹配，一种可能的实现方式是，将相同问题的不同表述进行同一化处理，步骤S102，用字典树对待匹配的问题进行匹配，包括：

步骤S11，去除待匹配的问题中的语气词。

步骤S12，将待匹配的问题中的标点符号进行统一。

步骤S14，使用字典树分别对每个相似问题进行匹配。

在本申请实施例所提供的电子设备中，需要使用训练完的基于问题对的语义相似度计算模型，对待匹配的问题与候选模型进行匹配。为了对该基于问题对的语义相似度计算模型进行训练，一种可能的实现方式是，在对基于问题对的语义相似度计算模型进行训练时，电子设备执行以下步骤：

其中，参考问题对包括第一参考问题和第二参考问题。

为了平衡训练正例和训练反例对模型训练的影响，本申请实施例提出了一种可能的实现方式，该方法包括：

步骤S21，对常问问题列表进行数据清洗。

步骤S22，确定每个答案对应的多个问题。

步骤S23，根据每个答案对应的多个问题，生成训练正例。

步骤S24，根据不同答案对应的问题，生成训练反例。

从而，实现了对基于问题对的语义相似度计算模型的训练。

为了实现上述实施例，本申请实施例还提出了一种电子设备，图17为本申请实施例所提出的电子设备的示意图。如图17所示，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：

步骤S301，获取待回复的问题。

步骤S302，使用如前述的问题的匹配方法，确定与待回复的问题相匹配的候选问题。

步骤S303，使用候选问题对应的候选答案进行回复。

为了实现上述实施例，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行前述实施例中的问题的匹配方法。

为了实现上述实施例，本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行前述实施例中的问题的回复方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种问题的匹配方法，其特征在于，包括：

获取待匹配的问题；

使用字典树对所述待匹配的问题进行匹配；

若匹配失败，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；

使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；

其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取与聚合，所述输出层用于计算所述问题对的语义相似度。
根据权利要求1所述的方法，其特征在于，在所述获取待匹配的问题之前，还包括：

对所述字典树和所述预设问题库，以及对应的索引库进行更新。
根据权利要求1所述的方法，其特征在于，所述使用字典树对所述待匹配的问题进行匹配，包括：

去除所述待匹配的问题中的语气词；

将所述待匹配的问题中的标点符号进行统一；

对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；

使用所述字典树分别对每个所述相似问题进行匹配。
根据权利要求1所述的方法，其特征在于，所述使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配，包括：

将每个所述候选问题分别与所述待匹配的问题组成问题对；

将所述问题对输入所述基于问题对的语义相似度计算模型；

根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。
根据权利要求1-4中任一项所述的方法，其特征在于，所述基于问题对的语义相似度计算模型通过以下步骤进行训练：

获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；

分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；

确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；

确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；

将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；

根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；

在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。
根据权利要求1-4中任一项所述的方法，其特征在于，所述编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。
根据权利要求1-4中任一项所述的方法，其特征在于，所述局部交互层包括双向多角度相似度分析层和第二归一化层。
一种问题的回复方法，其特征在于，包括：

获取待回复的问题；

使用如权利要求1-7中任一项所述的问题的匹配方法，确定与所述待回复的问题相匹配的候选问题；

使用所述候选问题对应的候选答案进行回复。
一种问题的匹配装置，其特征在于，包括：

第一获取模块，用于获取待匹配的问题；

第一匹配模块，用于使用字典树对所述待匹配的问题进行匹配；

检索模块，用于当所述第一匹配模块匹配失败时，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；

第二匹配模块，用于使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；

其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取与聚合，所述输出层用于计算所述问题对的语义相似度。
根据权利要求9所述的装置，其特征在于，所述装置还包括：

更新模块，用于对所述字典树和所述预设问题库，以及对应的索引库进行更新。
根据权利要求9所述的装置，其特征在于，所述第一匹配模块，包括：

去除子模块，用于去除所述待匹配的问题中的语气词；

统一子模块，用于将所述待匹配的问题中的标点符号进行统一；

替换子模块，用于对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；

第一匹配子模块，用于使用所述字典树分别对每个所述相似问题进行匹配。
根据权利要求9所述的装置，其特征在于，所述第二匹配模块，包括：

组对子模块，用于将每个所述候选问题分别与所述待匹配的问题组成问题对；

输入子模块，用于将所述问题对输入所述基于问题对的语义相似度计算模型；

第二匹配子模块，用于根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。
根据权利要求9-12任一项所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；

处理模块，用于分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；

第一确定模块，用于确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；

第二确定模块，用于确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；

输入模块，用于将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；

训练模块，用于根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；

完成模块，用于在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。
根据权利要求9-12中任一项所述的装置，其特征在于，所述编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。
根据权利要求9-12中任一项所述的装置，其特征在于，所述局部交互层包括双向多角度相似度分析层和第二归一化层。
一种问题的回复装置，其特征在于，所述装置包括：

第三获取模块，用于获取待回复的问题；

第三确定模块，用于使用如权利要求1-7中任一项所述的问题的匹配方法，确定与所述待回复的问题相匹配的候选问题；

回复模块，用于使用所述候选问题对应的候选答案进行回复。
一种问答系统，其特征在于，所述系统包括：

问答界面，用于接收用户的输入内容，并将生成的回复内容进行展示；

分发代理，用于根据所述用户的输入内容的类型，将所述用户的输入内容分发给对应的回复装置；

如权利要求16所述的问题的回复装置，用于接收所述分发代理发送的待回复的问题，并从预设问题库中确定对应的答案。
一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：

获取待匹配的问题；

使用字典树对所述待匹配的问题进行匹配；

若匹配失败，从预设问题库中检索与所述待匹配的问题相似的多个候选问题；

使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配；

其中，所述基于问题对的语义相似度计算模型包括输入层，编码层，局部交互层，聚合层和输出层，所述输入层用于输入所述问题对的词语信息，所述编码层用于对所述问题对中的问题进行语义分析，确定所述问题包括的每个词语的重要度和学习所述问题的结构特征，所述局部交互层用于对所述问题对中的两个所述问题进行语义相关度分析，所述聚合层用于对所述局部交互层的输出进行特征提取与聚合，所述输出层用于计算所述问题对的语义相似度。
如权利要求18所述的电子设备，其特征在于，在所述电子设备获取待匹配的问题之前，还执行以下步骤：

对所述字典树和所述预设问题库，以及对应的索引库进行更新。
如权利要求18所述的电子设备，其特征在于，所述电子设备使用字典树对所述待匹配的问题进行匹配，具体包括以下步骤：

去除所述待匹配的问题中的语气词；

将所述待匹配的问题中的标点符号进行统一；

对所述待匹配的问题进行同义词替换，以生成所述待匹配的问题的多个相似问题；

使用所述字典树分别对每个所述相似问题进行匹配。
如权利要求18所述的电子设备，其特征在于，所述电子设备使用训练完的基于问题对的语义相似度计算模型，对所述待匹配的问题与所述候选问题进行匹配，具体包括以下步骤：

将每个所述候选问题分别与所述待匹配的问题组成问题对；

将所述问题对输入所述基于问题对的语义相似度计算模型；

根据每个所述问题对对应的语义相似度，对所述待匹配的问题与所述候选问题进行匹配。
如权利要求18-21中任一项所述电子设备，其特征在于，在对所述基于问题对的语义相似度计算模型进行训练时，所述电子设备执行以下步骤：

获取参考问题对，以及所述参考问题对对应的参考语义相似度；其中，所述参考问题对包括第一参考问题和第二参考问题；

分别对所述第一参考问题和所述第二参考问题进行分词处理，以生成所述第一参考问题对应的第一参考词语集合，和所述第二参考问题对应的第二参考词语集合；

确定所述第一参考词语集合和所述第二参考词语集合中每个参考词语对应的词性，以生成所述第一参考词语集合对应的第一参考词性集合，和所述第二参考词语集合对应的第二参考词性集合；

确定所述第一参考词语集合和所述第二参考词语集合中每个所述参考词语对应的同义词，以生成所述第一参考词语集合对应的第一参考同义词集合，和所述第二参考词语集合对应的第二参考同义词集合；

将所述第一参考词语集合，所述第二参考词语集合，所述第一参考词性集合，所述第二参考词性集合，所述第一参考同义词集合和所述第二参考同义词集合输入所述基于问题对的语义相似度计算模型的所述编码层；

根据所述基于问题对的语义相似度计算模型的所述输出层的输出和所述参考语义相似度，对所述基于问题对的语义相似度计算模型的参数进行训练；

在所述基于问题对的语义相似度计算模型的准确度大于预设阈值时，完成对所述基于问题对的语义相似度计算模型的训练。
如权利要求18-21中任一项所述的电子设备，其特征在于，所述编码层包括双向循环神经网络层，第一归一化层和堆叠的双向自注意力层。
如权利要求18-21中任一项所述的电子设备，其特征在于，所述局部交互层包括双向多角度相似度分析层和第二归一化层。
一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，执行以下步骤：

获取待回复的问题；

使用如权利要求1-7中任一项所述的问题的匹配方法，确定与所述待回复的问题相匹配的候选问题；

使用所述候选问题对应的候选答案进行回复。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的问题的匹配方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求8所述的问题的回复方法。