WO2022166689A1

WO2022166689A1 - 信息检索方法及相关系统、存储介质

Info

Publication number: WO2022166689A1
Application number: PCT/CN2022/073819
Authority: WO
Inventors: 张鑫宇; 詹珂; 罗兰; 付成真; 胡恩瑞
Original assignee: 华为技术有限公司
Priority date: 2021-02-08
Filing date: 2022-01-25
Publication date: 2022-08-11
Also published as: US20230385317A1; CN114911894A

Abstract

本申请实施例提供一种信息检索方法及相关系统、存储介质，包括：S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分；S3、根据候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档；根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。本方案可以从全局检索路径全局最优的角度进行排序，提高了信息检索的准确度以及效率。

Description

信息检索方法及相关系统、存储介质

本申请要求于2021年2月8日提交中国专利局、申请号为202110172627.5、申请名称为“信息检索方法及相关系统、存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种信息检索方法及相关系统、存储介质。

背景技术

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

深度预训练语言模型已经成为目前搜索、推荐、自然语言处理等任务提升的必要手段，它通过海量的语料进行预训练，使其具备极强的文本表示能力。

在搜索业务上，基于深度预训练语言模型的语义搜索尤为突出。其使用语义搜索技术即可将Query表征为语义向量进而依靠向量之间的相似关系进行匹配，其中语义向量即可表征文本内隐含且模糊的语义信息。

目前的深度预训练语言模型仍然存在一些棘手的问题，比如当用户输入的Query十分复杂时，如需要一定的多轮推理问题：“where did Algeria qualify for the first time into the round of 16？”中文翻译为“阿尔及利亚在哪里第一次进入16强”，要想正确地回答该问题，只通过语义搜索到一个文档是不够的，它至少首先需要搜索到“阿尔及利亚国家足球队”文档后，理解为问题中的“阿尔及利亚”指的是“阿尔及利亚国家足球队”，且该队“在2014年世界杯进了16强”，之后需要再搜索到“2014年世界杯”的文档，并从该文档中理解出该年世界杯的举办地是“巴西”，通过一系列的多轮检索后方可找到正确答案“巴西”。但在使用目前深度预训练语言模型改进的搜索引擎进行检索后，检索出的前3个文档均未提到地点“巴西”的关键词，而在第4个文档才第一次出现巴西，而这对于答案的产生会带来较大的噪声和影响，检索效果不好。

搜索由单轮搜索改进为多轮搜索后便更有机会找到带有答案的支撑文档，因此目前也存在很多的基于深度预训练语言模型的多轮检索技术。现有技术提供了一种信息检索方法。如图1所示，其针对用户输入的检索文本Query，从候选文档库中进行多轮检索，基于前一轮检索出的文档进行下一轮搜索，最终输出该Query对应的文档集合。

然而现有技术输出的Query对应的文档集合，并不是较符合Query的要求的检索结果，检索效果较差。

发明内容

本申请公开了一种信息检索方法及相关系统、存储介质，可以提高信息检索的准确度以及效率。

第一方面，本申请实施例提供一种信息检索方法，包括：S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个，j、y均为正整数；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；S5、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

需要说明的是，步骤S1-S4只是用来指示该信息检索方法中的一部分，并不限定S1-S4的执行顺序一定按S1-S4的描述顺序执行，例如步骤S3中计算路径的概率可以和步骤S2并行等。

其中，步骤S1中，根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档，可以理解为，根据检索文本Query和Ki个第i跳的候选文档中的每个分别进行处理，一共得到Mi个第i+1跳的候选文档。

步骤S3中路径的概率是指该路径被选择的几率。路径为以第一跳的候选文档为起点，并以第i跳的任一候选文档为终点。其用于指示当前跳的候选文档是基于前述路径对应的候选文档得到的。路径可用于对该当前跳的候选文档进行解释，便于知晓其得到的过程。

例如，以第一跳的候选文档为起点，并以第四跳的任一候选文档为终点的路径为例进行说明。该条路径包括四跳，相应地，该条路径包括四个候选文档。其中，根据第一跳的候选文档可得到该条路径对应的第二跳的候选文档。根据该第二跳的候选文档可得到该条路径对应的第三跳的候选文档。根据该第三跳的候选文档可得到该条路径对应的第四跳的候选文档。其中，每一条路径均是唯一的。

且，步骤S3中任一候选文档Pjy(i+1)用于指示随机选取的。其中，该任一候选文档是基于上一跳的候选文档得到的。该j、y仅用于便于描述，其并不具备特定限制的作用。

上述Ki和K(i+1)可以是相同的，也可以是不同的，本方案对此不做具体限定。

本申请实施例，通过基于当前跳获得的Mi个候选文档中每个候选文档的得分，以及该候选文档对应的上一跳的路径的概率得到当前跳该候选文档对应的路径的概率，进而基于概率较高的多个候选文档来获取下一跳的候选文档，并最终得到检索结果。相较于现有技术中每跳获取的多个候选文档仅依赖每个候选文档的得分进行排序筛选，本方案可以从全局检索路径全局最优的角度进行排序，提高了信息检索的准确度以及效率。

作为一种可选的实现方式，所述根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果，包括：当所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

其中，所述根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果，包括：获取所述K(i+1)个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；其中，将所述每个候选文档对应的路径作为所述Query对应的检索结果；或者，将所述每个候选文档作为所述Query对应的检索结果，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。

相较于现有技术中最终输出文档集合，采用本方案，通过输出整条路径进而使得检索结果具备可解释性。

作为一种可选的实现方式，若所述K(i+1)个第i+1跳的候选文档未达到所述第一预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第一预设停止条件。

所述第一预设停止条件为所述K(i+1)个第i+1跳的候选文档中的至少一个候选文档中存在停止符。

第二方面，本申请实施例提供一种模型训练方法，包括：获取训练样本，所述训练样本包括检索文本Query、正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。

作为一种可选的实现方式，所述根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络，包括：S1、根据所述Query、所述正样本对应的第i跳的文档样本、Ki-1个第i跳的负样本和第i跳的路径负样本得到Mi个第i跳的候选样本；所述第i跳的路径负样本中的任一路径负样本包括以第一跳的K1个文档样本中的任一文档样本为起点，并以所述第i跳的Ki-1个负样本中的任一负样本为终点的路径；i为不小于1的整数，Ki为不小于2的整数，Mi为正整数；S2、获取所述Mi个第i跳的候选样本中每个候选样本的得分；S3、根据所述Mi个第i跳的候选样本中每个候选样本的得分获取所述每个候选样本分别对应的路径的概率；S4、根据所述Mi个第i跳的候选样本分别对应的路径的概率得到K(i+1)个第i+1跳的文档样本，其中，所述K(i+1)个第i+1跳的文档样本的路径的概率均高于所述Mi个候选样本中的其余候选样本的路径的概率，所述K(i+1)为不大于Mi的正整数，所述K(i+1)个第i+1跳的文档样本包括所述正样本对应的第i+1跳的文档样本和K(i+1)-1个第i+1跳的负样本；S5、根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络；其中，i＝1时，所述第一跳的路径负样本不存在。

本申请实施例，通过在进行模型训练时，选择路径的概率较高的前K个候选文档，基于该前K个候选文档确定下一跳的负样本。相较于现有技术中随机确定每一跳的负样本，采用该手段，基于每一跳的路径的概率较高的前K个候选文档来动态确定下一跳的负样本，实现了每轮候选动态的自适应选取，增强鲁棒性；同时本方案在训练的过程中，引入路径监督信号后可以使每跳选取的K个候选随着监督信号对模型的调整而动态变化，逐步提升负样本的难度，增强模型排序的泛化能力，提升了模型精度。

所述根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，包括：当所述K(i+1)个第i+1跳的文档样本达到第二预设停止条件，根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整。

可选的，若所述K(i+1)个第i+1跳的文档样本未达到所述第二预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第二预设停止条件。

可选的，所述第二预设停止条件为所述K(i+1)个第i+1跳的文档样本中的至少一个候选样本中存在停止符。

第三方面，本申请实施例提供一种信息检索方法，包括：接收用户输入的Query；将所述Query输入至所述训练方法训练得到的第一神经网络中进行处理，得到与所述Query对应的检索结果。

第四方面，本申请实施例提供一种信息检索装置，包括：检索模块，用于S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个，j、y均为正整数；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；确定模块，用于S5、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

可选的，所述确定模块，用于：当所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

可选的，所述确定模块，还用于：获取所述K(i+1)个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；其中，将所述每个候选文档对应的路径作为所述Query对应的检索结果；或者，将所述每个候选文档作为所述Query对应的检索结果，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。

可选的，所述确定模块，还用于：若所述K(i+1)个第i+1跳的候选文档未达到所述第一预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第一预设停止条件。

其中，所述第一预设停止条件为所述K(i+1)个第i+1跳的候选文档中的至少一个候选文档中存在停止符。

第五方面，本申请实施例提供一种模型训练装置，包括：获取模块，用于获取训练样本，所述训练样本包括检索文本Query、正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；训练模块，用于根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。

作为一种可选的实现方式，所述训练模块，用于：S1、根据所述Query、所述正样本对应的第i跳的文档样本、Ki-1个第i跳的负样本和第i跳的路径负样本得到Mi个第i跳的候选样本；所述第i跳的路径负样本中的任一路径负样本包括以第一跳的K1个文档样本中的任一文档样本为起点，并以所述第i跳的Ki-1个负样本中的任一负样本为终点的路径；i为不小于1的整数，Ki为不小于2的整数，Mi为正整数；S2、获取所述Mi个第i跳的候选样本中每个候选样本的得分；S3、根据所述Mi个第i跳的候选样本中每个候选样本的得分获取所述每个候选样本分别对应的路径的概率；S4、根据所述Mi个第i跳的候选样本分别对应的路径的概率得到K(i+1)个第i+1跳的文档样本，其中，所述K(i+1)个第i+1跳的文档样本的路径的概率均高于所述Mi个候选样本中的其余候选样本的路径的概率，所述K(i+1)为不大于Mi的正整数，所述K(i+1)个第i+1跳的文档样本包括所述正样本对应的第i+1跳的文档样本和K(i+1)-1个第i+1跳的负样本；S5、根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络；其中，i＝1时，所述第一跳的路径负样本不存在。

其中，所述训练模块，还用于：当所述K(i+1)个第i+1跳的文档样本达到第二预设停止条件，根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整。

所述训练模块，还用于：若所述K(i+1)个第i+1跳的文档样本未达到所述第二预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第二预设停止条件。

所述第二预设停止条件为所述K(i+1)个第i+1跳的文档样本中的至少一个候选样本中存在停止符。

第六方面，本申请实施例提供一种信息检索系统，包括：接收模块，用于接收用户输入的Query；处理模块，用于将所述Query输入至经所述的训练方法训练得到的第一神经网络中进行处理，得到与所述Query对应的检索结果。

第七方面，本申请提供了一种计算机存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法和/或第三方面任一种可能的实施方式提供的方法。

第八方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法和/或第三方面任一种可能的实施方式提供的方法。

第九方面，本申请实施例提供一种信息检索装置，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法和/或第三方面任一种可能的实施方式提供的方法。

可以理解地，上述提供的第四方面所述的装置、第五方面所述的装置、第六方面所述的系统、第七方面所述的计算机存储介质、第八方面所述的计算机程序产品或者第九方面所述的装置均用于执行第一方面中任一所提供的方法、第二方面中任一所提供的方法以及第三方面中任一所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

下面对本申请实施例用到的附图进行介绍。

图1是现有技术中进行信息检索的示意图；

图2a为本申请实施例提供的一种人工智能主体框架示意图；

图2b为本申请实施例提供的一种应用环境示意图；

图2c为本申请实施例提供的一种神经网络处理器的结构示意图；

图3是本申请实施例提供的一种信息检索方法的流程示意图；

图4是本申请实施例提供的一种模型训练方法的流程示意图；

图5是本申请实施例提供的一种信息检索方法的流程示意图；

图6是本申请实施例提供的一种网页超链的示意图；

图7是本申请实施例提供的一种信息检索方法的示意图；

图8是本申请实施例提供的一种样本示意图；

图9是本申请实施例提供的另一种样本示意图；

图10是本申请实施例提供的一种信息检索装置的结构示意图；

图11是本申请实施例提供的一种信息检索装置的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

图2a示出一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

参见附图2b，本发明实施例提供了一种系统架构200。数据采集设备260用于采集网页/文本段落数据并存入数据库230，训练设备220基于数据库230中维护的网页/文本段落数据生成目标模型/规则201。下面将更详细地描述训练设备220如何基于网页/文本段落数据得到目标模型/规则201，目标模型/规则201能够基于用户输入的检索文本得到与其对应的检索结果。

深度神经网络中的每一层的工作可以用数学表达式

来描述：从物理层面深度神经网络中的每一层的工作可以理解为通过五种对输入空间(输入向量的集合)的操作，完成输入空间到输出空间的变换(即矩阵的行空间到列空间)，这五种操作包括：1、升维/降维；2、放大/缩小；3、旋转；4、平移；5、“弯曲”。其中1、2、3的操作由

完成，4的操作由+b完成，5的操作则由a()来实现。这里之所以用“空间”二字来表述是因为被分类的对象并不是单个事物，而是一类事物，空间是指这类事物所有个体的集合。其中，W是权重向量，该向量中的每一个值表示该层神经网络中的一个神经元的权重值。该向量W决定着上文所述的输入空间到输出空间的空间变换，即每一层的权重W控制着如何变换空间。训练深度神经网络的目的，也就是最终得到训练好的神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。因此，神经网络的训练过程本质上就是学习控制空间变换的方式，更具体的就是学习权重矩阵。

因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

训练设备220得到的目标模型/规则可以应用不同的系统或设备中。在附图2b中，执行设备210配置有I/O接口212，与外部设备进行数据交互，“用户”可以通过客户设备240向I/O接口212输入数据。

执行设备210可以调用数据存储系统250中的数据、代码等，也可以将数据、指令等存入数据存储系统250中。

计算模块211使用目标模型/规则201对输入的数据进行处理，包括：S1、根据用户输入的检索文本Query和K个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、K、Mi均为正整数，所述K不大于Mi；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述K个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的K个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K个第i+1跳的候选文档，其中，所述K个第i+1跳的候选文档为所述Mi个候选文档中路径的概率较高的K个文档；根据所述K个第i跳的候选文档和所述K个第i+1跳的候选文档得到所述Query对应的检索结果。

关联功能模块213可以对所述Query对应的检索结果进行相应处理，以得到处理后的结果。例如，可以将概率最高的路径作为处理结果。

关联功能模块214还可以基于上述概率最高的路径提取出目标答案。

最后，I/O接口212将处理结果返回给客户设备240，提供给用户。

更深层地，训练设备220可以针对不同的目标，基于不同的数据生成相应的目标模型/规则201，以给用户提供更佳的结果。

在附图2b中所示情况下，用户可以手动指定输入执行设备210中的数据，例如，在I/O接口212提供的界面中操作。另一种情况下，客户设备240可以自动地向I/O接口212输入数据并获得结果，如果客户设备240自动输入数据需要获得用户的授权，用户可以在客户设备240中设置相应权限。用户可以在客户设备240查看执行设备210输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备240也可以作为数据采集端将采集到网页/文本段落数据存入数据库230。

值得注意的，附图2b仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图2b中，数据存储系统250相对执行设备210是外部存储器，在其它情况下，也可以将数据存储系统250置于执行设备210中。

参照图2c所示，是本发明实施例提供的一种神经网络处理器的结构示意图。

神经网络处理器NPU 50 NPU作为协处理器挂载到主CPU(Host CPU)上，由Host CPU 分配任务。NPU的核心部分为运算电路503，控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路503内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508 accumulator中。

向量计算单元507可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现种，向量计算单元507将经处理的输出的向量存储到统一存储器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器506用于存放输入数据以及输出数据。

存储单元访问控制器505(Direct Memory Access Controller，DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502，以及将统一存储器506中的数据存入外部存储器。

总线接口单元(Bus Interface Unit，BIU)510，用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互。

与控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

控制器504，用于调用取指存储器509中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory，简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory，HBM)或其他可读可写的存储器。

下面对本申请实施例提供的信息检索方法进行详细说明。参照图3所示，为本申请实施例提供的一种信息检索方法的流程示意图。如图3所示，该方法包括步骤301-305，具体如下：

301、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；

上述检索文本Query可以是用户在搜索框输入的文本内容。

作为一种可选的实现方式，在步骤301之前，所述方法还包括：

构建候选文档库。

上述候选文档库包括以段落为粒度的文档。也就是说，该候选文档库中的任一候选文档是由一段内容组成的。

可选的，通过收集多个网页或者文本，并将每个网页或者文本中的内容打散至段落，以标题作为每个段落的标签，通过将所有添加标签的段落建立索引，进而得到上述候选文档库。

可选的，通过将Query和K个第i跳的候选文档输入至深度预训练语言模型构成的检索器中，进而得到Mi个候选文档。

作为一种可选的实现方式，通过将Query与K个第i跳的候选文档中的每个候选文档进行直接拼接，然后将拼接后得到的K个文本通过检索器进行检索，得到Mi个第i+1跳的候选文档。

具体地，利用深度预训练语言模型对海量预选文档中的每个预选文档计算表示向量，并将各表示向量进行存储和构建索引；再针对不同的Query获得每个Query的表示向量；最后根据向量索引快速搜索的方式获得与该Query最相关的多个文档。

上述仅以将Query与K个第i跳的候选文档中的每个候选文档进行直接拼接为例进行说明，其还可以是其他形式，本方案对此不做具体限定。

302、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；

可选的，深度预训练语言模型构成的检索器可基于候选文档与Query的相关程度对每个候选文档进行打分，进而输出Mi个第i+1跳的候选文档中每个候选文档的得分。

作为一种可选的实现方式，以深度预训练语言模型采用谷歌开源的深度预训练语言模型Bert为例进行说明。该模型Bert经过一些基础的网络单元，如Transformer网络堆叠成巨大的网络模型，并利用海量数据进行预训练等处理得到。以第i跳为例，输入Query以及第i跳获取到的第r个候选文档Pri，输出为模型在输入Q的条件下对候选文档Pri的打分，可参照如下公式(1)所示：

Score(Pri|Q)＝Model([Pri，Q])，其中，ri＝1，2，…Ni； (1)

303、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述候选文档Pji得到的候选文档中的第y个；

需要说明的是，上述任一候选文档Pjy(i+1)用于指示随机选取的。其中，该任一候选文档是基于上一跳的候选文档得到的。该j、y仅用于便于描述，其并不具备特定限制的作用。

具体地，当i＝1(即第一跳)时，输入Query以及第一跳获取到的第r个候选文档Pr1，输出为模型在输入Q的条件下对候选文档Pr1的打分Score(Pr1|Q)，可参照上述公式(1)所示。

基于第一跳获取到的M1个候选文档，分别获取每个候选文档的得分以及每个候选文档对应的路径的概率。

该路径的概率是指该路径被选择的几率。路径为以第一跳的候选文档为起点，并以第i跳的任一候选文档为终点。其用于指示当前跳的候选文档是基于前述路径对应的候选文档得到的。路径可用于对该当前跳的候选文档进行解释，便于知晓其得到的过程。

其中，当i＝1时，获取所述M1个候选文档中得分较高的K个，并将该K个候选文档的分数归一化为概率，即可获得在输入Q的条件下第一跳检索路径的K个概率(条件概率)。

具体地，可将该K个候选文档的分数利用Softmax函数进行归一化，得到K个概率。

相应地，上述第一跳中K个候选文档中的任一候选文档s1对应的路径的概率可表示为：

G(Ps1|Q)＝Softmax(TopK(Score(Ps1|Q)))，其中，s1＝1，2，…K； (2)

上述以第一跳的路径的概率为例进行说明。相应地，第二跳的候选文档Pst2对应的路径的概率可表示为：

G(Pst2，Ps1|Q)＝G(Pst2|Q，Ps1)*G(Ps1|Q)，其中，st2＝1，2，…N2； (3)

其中，第二跳的候选文档Pst2是基于第一跳的候选文档Ps1得到的。

以此类推，可得到第i+1跳的候选文档中任一候选文档Pjy(i+1)对应的路径的概率。

304、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；

具体地，基于第一跳的K个候选文档对应的K个路径生成M2个第二跳的候选文档。基于该第二跳的每个候选文档的分数以及每个候选文档对应的上一跳的路径的概率，得到该第二跳的每个候选文档对应的路径的概率。将路径的概率较高的K个路径作为下一跳的基础路径，得到多个候选文档，进而以此类推，得到第i+1跳的路径的概率较高的K个文档。

也即是说，该K个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率。

需要说明的是，本申请实施例以每跳均选择K个为例进行说明，其还可以是每跳选择不同数量，本方案对此不作具体限定。

其中，生成下一跳候选文档的方法可以使用前一跳文档中超链链接的文档作为下一跳的候选文档。例如，使用前一跳文档中网页超链的文档作为下一跳的候选文档。网页超链是指互联网网页中的超链接，通过点击即可跳转到另外一个网页或网页段落。当然其还可以是通过其他形式获取到下一跳的候选文档，本方案对此不做具体限定。

305、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

可选的，步骤305可包括：

3051、确认所述K(i+1)个第i+1跳的候选文档是否达到第一预设停止条件；

3052、若所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

上述第一预设停止条件，可以是判断K个候选文档中是否至少有一个候选文档存在停止符，如果是，则返回所述Query对应的检索结果。如果不存在，则令i＝i+1，并重复执行步骤301-304，例如将用户输入的所述Query与上述得到的K个候选文档进行融合，并将融合后的文本作为上述检索器的新的输入，进行新一轮检索进而得到下一跳的候选文档。其中，本方案中每一跳检索采用的检索器也可以不是同一个，本方案对此不做具体限定。

需要说明的是，停止符可以是任意带有特殊标记的文档等，以便模型能够自动停止迭代检索。

上述步骤305可包括以下两种实现形式：

作为一种可选的实现方式，通过获取所述K个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；将所述每个候选文档对应的路径作为所述Query对应的检索结果。

也就是说，根据用户输入的所述Query，输出K个文本。其中，每个文本均包括第i+1跳的候选文档和该候选文档对应的前i跳的候选文档。具体地，每个文本对应该i+1跳的i+1个候选文档，且该i+1个候选文档以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点。

进一步地，可基于上述K个第i+1跳的候选文档对应的路径的概率的大小进行排序，进而输出排序后的K个文本。

作为另一种可选的实现方式，将所述K个第i+1跳的候选文档中每个候选文档作为所述Query对应的检索结果，其中，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。

也就是说，检索结果包括所述K个第i+1跳的候选文档中的每个候选文档，上述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释，方便用户等知晓该检索结果得到的过程。

该实施例以检索结果包含两跳的候选文档以及包含i+1跳的候选文档为例进行说明，其还可以是其他任意跳，本方案对此不做具体限定。

作为一种可选的实现方式，上述图3所示实施例可以是通过将Query输入至第一神经网络中进行处理，进而得到上述Query对应的检索结果。其中，该第一神经网络可以是经图4所示的模型训练方法训练得到的。下面对本申请实施例提供的模型训练方法进行详细介绍。参照图4，为本申请实施例提供的一种模型训练方法的流程示意图。该方法包括步骤401-402，具体如下：

401、获取训练样本，所述训练样本包括检索文本Query、正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；

需要说明的是，上述每一跳的文档样本的数量可以相同，也可以不同，本方案对此不做具体限定。

下面以每一跳的文档样本的数量均为K为例进行说明。

具体地，该训练样本包括Query、第N+1跳的第一文档样本对应的路径和第一跳的K-1个负样本。相应地，可以理解为，上述正样本可包括N+1跳中每一跳对应的正文档样本。其中，每一跳的正文档样本是基于其上一跳的正文档样本得到的。

上述N+1即为得到所述Query对应的检索结果所对应的跳数，或者轮数。也就是说，经过N+1轮的检索，得到了最终的检索结果。

402、根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。

其中，步骤402具体可包括：

S1、根据所述Query、所述正样本对应的第i跳的文档样本、Ki-1个第i跳的负样本和第i跳的路径负样本得到Mi个第i跳的候选样本；所述第i跳的路径负样本中的任一路径负样本包括以第一跳的K1个文档样本中的任一文档样本为起点，并以所述第i跳的Ki-1个负样本中的任一负样本为终点的路径；i为不小于1的整数，Ki为不小于2的整数，Mi为正整数；

S2、获取所述Mi个第i跳的候选样本中每个候选样本的得分；

S3、根据所述Mi个第i跳的候选样本中每个候选样本的得分获取所述每个候选样本分别对应的路径的概率；

S4、根据所述Mi个第i跳的候选样本分别对应的路径的概率得到K(i+1)个第i+1跳的文档样本，其中，所述K(i+1)个第i+1跳的文档样本的路径的概率均高于所述Mi个候选样本中的其余候选样本的路径的概率，所述K(i+1)为不大于Mi的正整数，所述K(i+1)个第i+1跳的文档样本包括所述正样本对应的第i+1跳的文档样本和K(i+1)-1个第i+1跳的负样本；

S5、根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络；其中，i＝1时，所述第一跳的路径负样本不存在。

其中步骤S5可包括：当所述K(i+1)个第i+1跳的文档样本达到第二预设停止条件，根据所述K个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络。

若所述K(i+1)个第i+1跳的文档样本未达到所述第二预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第二预设停止条件。

上述第二预设条件可以是所述K(i+1)个第i+1跳的文档样本中的至少一个候选样本中存在停止符。其中，针对停止符的相关描述可参阅前述实施例，在此不再赘述。

上述i＝1时，所述第一跳的路径负样本不存在，也就是说，在输入时第一跳不输入路径负样本。

上述训练过程中确定候选样本的得分、候选样本对应的路径的概率等，可参阅前述实施例中的相关描述，在此不再赘述。

可以理解的，每一跳可包括K个样本，该K个样本中其中一个为该跳的正样本，其余K-1个即为该跳的负样本。上述K可以是任意设定的值。

也就是说，在训练过程中，针对每一跳的检索，均施加当前跳的正确的候选文档和固定数量的错误候选文档。具体可根据每跳构成的正负样本对来训练每跳对应的深度预训练语言模型。上述固定数量的错误候选文档即为上述K-1个每一跳的负样本。其中该负样本是基于上一跳的样本动态生成的。同时，利用概率对多轮检索路径进行全局建模和打分，使得在训练时通过每跳的监督信号即可对当前轮之前的全部路径进行监督，增强了模型的检索精度。

上述第i跳的路径负样本中的任一路径负样本包括以第一跳的K个文档样本中的任一文档样本为起点，并以所述第i跳的K-1个负样本中的任一负样本为终点的路径。

也就是说，在训练过程中，针对每跳中利用路径的概率表达的K条路径均施加当前跳处正确的路径和当前跳处错误的路径。例如，第一跳对应的正样本为Pagei ⁺，负样本为Pagei ^1-，Pagei ^2-…到Pagei ^K，第二跳对应的正样本为Pagej ⁺，负样本为Pagej ^1-，Pagej ^2-…到Pagej ^K对于第二跳检索路径的正样本为(Pagei ⁺,Pagej ⁺)，则第二跳的路径负样本为(Pagei ⁺,Pagej ^1-),(Pagei ⁺,Pagej ^2-)…(Pagei ^1-,Pagej ^-)，(Pagei ^2-,Pagej ^-)…具体可根据每跳构成的正负路径对每跳对应的深度预训练语言模型形成监督。相应地，第三跳的路径负样本包括以第一跳的样本为起点，以第三跳中除正样本对应的第三跳的文档样本外的其他样本为终点，也就是说，以第三跳的负样本为终点。通过训练时在模型动态选择前K个候选时施加路径监督信号，使得当前轮到达的路径时刻获得监督，再与局部监督信号配合可大幅提升模型精度，同时实现K个候选随监督信号不断变化，增强了模型的鲁棒性。

本申请实施例输入的训练样本中的负样本为根据概率较高的K个样本得到的。相较于现有技术中基于随机选取的负样本进行训练，本方案可提高模型的精度。

本方案基于路径的概率较高的前K个候选文档来确定下一跳的负样本。相较于现有技术中随机确定每一跳的负样本，采用该手段，基于每一跳的路径的概率较高的前K个候选文档来动态确定下一跳的负样本，实现了每轮候选动态的自适应选取，增强鲁棒性；同时本方案在训练的过程中，引入路径监督信号后可以使每跳选取的K个候选随着监督信号对模型的调整而动态变化，逐步提升负样本的难度，增强模型排序的泛化能力，提升了模型精度。

参照图5，为本申请实施例提供的一种信息检索方法的流程示意图。该方法应用于问答场景。其包括步骤501-504，具体如下：

501、构建候选文档库；

以wiki网页作为数据源，以其段落为粒度打散，并以标题作为每个段落的标签，通过建立索引进而构造候选文档库。可选的，上述段落中具有其他网页的超链。如图6所示。

502、接收用户输入的Query；

可选的，问答系统接收用户输入的Query，该Query例如为“where did Algeria qualify for the first time into the round of 16？”，即阿尔及利亚在哪里第一次进入16强。

503、获取与所述Query对应的检索结果；

具体地，首先对Query进行第一跳检索得到M1个候选文档，并获取每个候选文档的得分。本实施例中深度预训练语言模型选择为Bert，Bert1代表第一跳检索时使用的模型，其中正确文档为“Wiki：Algeria at the FIFA World Cup”。

将第一跳的每个候选文档的得分按照从高至低进行排序，并选取得分较高的K个候选文档。对该K个得分利用Softmax函数归一化为概率。本申请实施例以K为4进行说明。如图7中所示，同时采用Top4的第一跳检索结果(Z1、Z2、Z3和Z4)的超链构成第二跳检索的候选文档。例如，wiki:2014 FIFA World Cup是wiki:Algeria at the FIFA World Cup段落中某个超链链接到的文档)，如图7中Mz对应的文档内容。

确认第一跳的候选文档中是否存在停止符，若不存在停止符，则利用第二跳深度预训练语言模型计算从Z-Mz路径的分数，例如将Query与第一跳检索文档Zi和第二跳检索文档Mzij进行拼接输入Bert中进行打分，所得结果为bij。

将第二跳计算出的候选文档的分数利用Softmax函数归一化为bzpij，并计算第一、二跳检索构成路径的概率api×bzpij，如图7所示。

根据第一、二跳检索构成路径的概率api×bzpij选择前Top4路径，再进行下一跳概率的计算和路径筛选，直至检索的候选文档中出现停止符后返回每条检索路径及其对应的概率。

504、根据所述Query对应的检索结果提取答案，并发送至所述用户。

将检索出的路径中的文档进行拼接，输入至答案提取模型进行答案提取。如检索出的路径为wiki:Algeria at the FIFA World Cup->wiki:2014 FIFA World Cup，后者wiki文档中包含“Brazil”，则可采用机器阅读理解的方式提取答案，并将答案返回给用户。

可选的，上述实现方法是将所述Query输入至第一神经网络进行处理得到的。

该第一神经网络是基于如下训练方法训练得到的：

在训练时针对每轮对应深度预训练语言模型施加当轮正确的文档监督信号，如图8所示，在训练第一轮深度预训练语言模型时会告知模型wiki:Algeria at the FIFA World Cup是正样本，并为之选择固定的负样本，第二轮检索同理。

且，在训练过程中，针对每轮中的利用概率表达的K条检索路径分数均施加当前轮处正确的候选路径和上一轮检索结果对应当前轮候选文档作为的错误候选路径，如图9所示。在第二轮检索出Mz系列后对第一、二轮深度预训练语言模型同时施加正确和错误的路径监督信号，正确信号为wiki:Algeria at the FIFA World Cup->wiki:2014 FIFA World Cup，第二轮的错误信号由第一轮候选的Top4来生成。

参照图10，为本申请实施例提供的一种信息检索装置的结构示意图。如图10所示，该装置包括检索模块1001和确定模块1002，具体如下：

检索模块1001，用于S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个，j、y均为正整数；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；

确定模块1002，用于S5、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。

其中，所述确定模块1002，用于：

当所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1) 个第i+1跳的候选文档得到所述Query对应的检索结果。

所述确定模块1002，还用于：

获取所述K(i+1)个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；其中，将所述每个候选文档对应的路径作为所述Query对应的检索结果；或者，将所述每个候选文档作为所述Query对应的检索结果，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。

可选的，所述确定模块1002，还用于：

若所述K(i+1)个第i+1跳的候选文档未达到所述第一预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第一预设停止条件。

可选的，所述第一预设停止条件为所述K(i+1)个第i+1跳的候选文档中的至少一个候选文档中存在停止符。

本申请实施例提供一种模型训练装置，包括：获取模块，用于获取训练样本，所述训练样本包括检索文本Query、正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；

训练模块，用于根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。

参照图11所示，为本申请实施例提供的一种信息检索装置。如图11所示，该装置1100包括至少一个处理器1101，至少一个存储器1102以及至少一个通信接口1103。所述处理器1101、所述存储器1102和所述通信接口1103通过所述通信总线连接并完成相互间的通信。

处理器1101可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

通信接口1103，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器1102可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器1102用于存储执行以上方案的应用程序代码，并由处理器1101来控制执行。所述处理器1101用于执行所述存储器1102中存储的应用程序代码。

存储器1102存储的代码可执行以上提供的任一种信息检索方法。

本申请实施例提供一种信息检索系统，包括：接收模块，用于接收用户输入的Query；处理模块，用于将所述Query输入至经所述的训练方法训练得到的第一神经网络中进行处理，得到与所述Query对应的检索结果。

本申请实施例还提供一种芯片系统，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行所述方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种信息检索方法，其特征在于，包括：

S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；

S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；

S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个，j、y均为正整数；

S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；

S5、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。
根据权利要求1所述的方法，其特征在于，所述根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果，包括：

当所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。
根据权利要求2所述的方法，其特征在于，所述根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果，包括：

获取所述K(i+1)个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；

其中，将所述每个候选文档对应的路径作为所述Query对应的检索结果；

或者，将所述每个候选文档作为所述Query对应的检索结果，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。
根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

若所述K(i+1)个第i+1跳的候选文档未达到所述第一预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第一预设停止条件。
根据权利要求2至4任一项所述的方法，其特征在于，所述第一预设停止条件为所述K(i+1)个第i+1跳的候选文档中的至少一个候选文档中存在停止符。
一种模型训练方法，其特征在于，包括：

获取训练样本，所述训练样本包括检索文本Query、正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；

根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。
根据权利要求6所述的方法，其特征在于，所述根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络，包括：

S1、根据所述Query、所述正样本对应的第i跳的文档样本、Ki-1个第i跳的负样本和第i跳的路径负样本得到Mi个第i跳的候选样本；所述第i跳的路径负样本中的任一路径负样本包括以第一跳的K1个文档样本中的任一文档样本为起点，并以所述第i跳的Ki-1个负样本中的任一负样本为终点的路径；i为不小于1的整数，Ki为不小于2的整数，Mi为正整数；

S2、获取所述Mi个第i跳的候选样本中每个候选样本的得分；

S3、根据所述Mi个第i跳的候选样本中每个候选样本的得分获取所述每个候选样本分别对应的路径的概率；

S4、根据所述Mi个第i跳的候选样本分别对应的路径的概率得到K(i+1)个第i+1跳的文档样本，其中，所述K(i+1)个第i+1跳的文档样本的路径的概率均高于所述Mi个候选样本中的其余候选样本的路径的概率，所述K(i+1)为不大于Mi的正整数，所述K(i+1)个第i+1跳的文档样本包括所述正样本对应的第i+1跳的文档样本和K(i+1)-1个第i+1跳的负样本；

S5、根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络；其中，i＝1时，所述第一跳的路径负样本不存在。
根据权利要求7所述的方法，其特征在于，所述根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，包括：

当所述K(i+1)个第i+1跳的文档样本达到第二预设停止条件，根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

若所述K(i+1)个第i+1跳的文档样本未达到所述第二预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第二预设停止条件。
根据权利要求8或9所述的方法，其特征在于，所述第二预设停止条件为所述K(i+1) 个第i+1跳的文档样本中的至少一个候选样本中存在停止符。
一种信息检索方法，其特征在于，包括：

接收用户输入的Query；

将所述Query输入至经权利要求6至10任一项所述的训练方法训练得到的第一神经网络中进行处理，得到与所述Query对应的检索结果。
一种信息检索装置，其特征在于，包括：

检索模块，用于S1、根据检索文本Query和Ki个第i跳的候选文档得到Mi个第i+1跳的候选文档；其中，i、Ki、Mi均为正整数，所述Ki不大于Mi；S2、获取所述Mi个第i+1跳的候选文档中每个候选文档的得分，所述得分用于表征该候选文档与所述Query的相关程度；S3、对于所述Mi个第i+1跳的候选文档中任一候选文档Pjy(i+1)，根据所述候选文档Pjy(i+1)的得分和路径L的概率得到所述候选文档Pjy(i+1)对应的路径的概率，其中，所述路径L为以第一跳的候选文档为起点，并以所述Ki个第i跳的候选文档中候选文档Pji为终点的路径，所述候选文档Pji为所述第i跳的Ki个候选文档中的第j个，所述候选文档Pjy(i+1)为根据所述第i跳的候选文档Pji得到的第i+1跳的候选文档中的第y个，j、y均为正整数；S4、根据所述Mi个第i+1跳的候选文档分别对应的路径的概率得到K(i+1)个第i+1跳的候选文档，其中，所述K(i+1)个第i+1跳的候选文档为所述Mi个第i+1跳的候选文档中的候选文档，且所述K(i+1)个第i+1跳的候选文档的路径的概率均高于所述Mi个候选文档中的其余候选文档的路径的概率，所述K(i+1)为不大于Mi的正整数；

确定模块，用于S5、根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。
根据权利要求12所述的装置，其特征在于，所述确定模块，用于：

当所述K(i+1)个第i+1跳的候选文档达到所述第一预设停止条件，根据所述K(i+1)个第i+1跳的候选文档得到所述Query对应的检索结果。
根据权利要求13所述的装置，其特征在于，所述确定模块，还用于：

获取所述K(i+1)个第i+1跳的候选文档中每个候选文档对应的路径，所述每个候选文档对应的路径为以第一跳的候选文档为起点，并以所述第i+1跳的该候选文档为终点的路径；

其中，将所述每个候选文档对应的路径作为所述Query对应的检索结果；

或者，将所述每个候选文档作为所述Query对应的检索结果，所述每个候选文档对应的路径用于对该候选文档对应的检索结果进行解释。
根据权利要求13或14所述的装置，其特征在于，所述确定模块，还用于：

若所述K(i+1)个第i+1跳的候选文档未达到所述第一预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第一预设停止条件。
根据权利要求13至15任一项所述的装置，其特征在于，所述第一预设停止条件为所述K(i+1)个第i+1跳的候选文档中的至少一个候选文档中存在停止符。
一种模型训练装置，其特征在于，包括：

获取模块，用于获取训练样本，所述训练样本包括检索文本Query和正样本；所述正样本包括第N+1跳的第一文档样本对应的路径，所述第N+1跳的第一文档样本对应的路径为以第一跳的文档样本为起点，并以所述第N+1跳的第一文档样本为终点的路径；所述第N+1跳的第一文档样本为所述第N+1跳的K(N+1)个文档样本中概率高于其余K(N+1)-1个的路径对应的文档样本；所述第N+1跳的K(N+1)个文档样本中任一文档样本Pjy(N+1)对应的路径的概率为根据文档样本Pjy(N+1)的得分和路径T的概率得到的，其中，所述得分用于表征该文档样本与所述Query的相关程度，所述路径T为以第一跳的文档样本为起点，并以所述K(N+1)个第N+1跳的文档样本中文档样本PjN为终点的路径，所述文档样本PjN为所述第N跳的KN个文档样本中的第j个，所述文档样本Pjy(N+1)为根据所述文档样本PjN得到的文档样本中的第y个；所述训练样本还包括K1-1个第一跳的负样本，所述K1-1个第一跳的负样本为该跳的K1个文档样本中除所述正样本对应的当前跳的文档样本之外的文档样本；N为正整数，K1、K(N+1)均为不小于2的整数，j、y均为正整数；

训练模块，用于根据所述训练样本对第一神经网络进行训练，得到训练完的所述第一神经网络。
根据权利要求17所述的装置，其特征在于，所述训练模块，用于：

S1、根据所述Query、所述正样本对应的第i跳的文档样本、Ki-1个第i跳的负样本和第i跳的路径负样本得到Mi个第i跳的候选样本；所述第i跳的路径负样本中的任一路径负样本包括以第一跳的K1个文档样本中的任一文档样本为起点，并以所述第i跳的Ki-1个负样本中的任一负样本为终点的路径；i为不小于1的整数，Ki为不小于2的整数，Mi为正整数；

S2、获取所述Mi个第i跳的候选样本中每个候选样本的得分；

S3、根据所述Mi个第i跳的候选样本中每个候选样本的得分获取所述每个候选样本分别对应的路径的概率；

S4、根据所述Mi个第i跳的候选样本分别对应的路径的概率得到K(i+1)个第i+1跳的文档样本，其中，所述K(i+1)个第i+1跳的文档样本的路径的概率均高于所述Mi个候选样本中的其余候选样本的路径的概率，所述K(i+1)为不大于Mi的正整数，所述K(i+1)个第i+1跳的文档样本包括所述正样本对应的第i+1跳的文档样本和K(i+1)-1个第i+1跳的负样本；

S5、根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整，得到所述训练完的第一神经网络；其中，i＝1时，所述第一跳的路径负样本不存在。
根据权利要求18所述的装置，其特征在于，所述训练模块，还用于：

当所述K(i+1)个第i+1跳的文档样本达到第二预设停止条件，根据所述K(i+1)个第i+1跳的文档样本分别对应的路径和所述正样本，对所述第一神经网络的参数进行调整。
根据权利要求18或19所述的装置，其特征在于，所述训练模块，还用于：

若所述K(i+1)个第i+1跳的文档样本未达到所述第二预设停止条件，令i＝i+1，并重复执行步骤S1-S4，直到达到所述第二预设停止条件。
根据权利要求18至20任一项所述的装置，其特征在于，所述第二预设停止条件为所述K(i+1)个第i+1跳的文档样本中的至少一个候选样本中存在停止符。
一种信息检索系统，其特征在于，包括：

接收模块，用于接收用户输入的Query；

处理模块，用于将所述Query输入至经权利要求6至10任一项所述的训练方法训练得到的第一神经网络中进行处理，得到与所述Query对应的检索结果。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至11任意一项所述的方法。
一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至11任意一项所述的方法。
一种信息检索装置，其特征在于，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至11任一项所述的方法。