WO2015100980A1

WO2015100980A1 - 一种信息检索方法及装置

Info

Publication number: WO2015100980A1
Application number: PCT/CN2014/080874
Authority: WO
Inventors: 吕正东; 李航
Original assignee: 华为技术有限公司
Priority date: 2013-12-31
Filing date: 2014-06-26
Publication date: 2015-07-09
Also published as: EP2988229A1; EP2988229A4; US20160098437A1; CN104750762A

Abstract

本发明涉及计算机通信技术领域，公开了一种信息检索方法及装置，在该方案中，即使结果信息中不包括检索关键词，但是，根据检索关键词组、根据结果信息组确定的结果关键词组可以在局部匹配模型集合中确定出结果信息与每一个局部匹配模型的匹配值，然后，根据结果信息与所有局部匹配模型的匹配值得出相关度，因此，仍然可以将与检索指示相关性较高且不包括检索关键词的结果信息呈现给用户，提高了检索的准确性。

Description

一种信息检索方法及装置技术领域

本发明涉及信息检索技术领域，特别涉及一种信息检索方法及装置。背景技术

随着计算机通信技术以及互联网技术的发展，互联网的信息资源成指数增长，通过互联网检索并获取相关信息越来越成为人们生活以及工作中不可或缺的部分，任何人在任何时间、任何地点都可以通过网络发布信息。在庞大的信息库里面快速有效地查找到用户需要的信息，使所述引擎成为了寻找信息的好帮手。

现有的信息检索方法中，当终端接收到检索指示后，从存储的检索数据库中查找包括检索指示中的检索关键词的答案，并按照检索到的答案中包括的检索关键词的多少来进行排序，进而进行呈现，具体过程如下：

步骤 a: 确定接收到的检索指示中的检索关键词；

步骤 b: 检索包括检索关键词的答案；

步骤 c: 将检索到的答案根据包括检索关键词数量的多少来进行排序，并将排序后的答案进行呈现。

但是，上述方法存在如下缺陷：有些信息不包括检索关键词，其中，这些信息与检索指示相关性较高，但是，由于这些信息中不包括检索关键词，因此，现有的信息检索方法无法将这些相关性较高的信息检索出来，所以，现有的信息检索方法存在检索结果准确性较低的问题。

例如：检索指示为 "北京有什么特产" 这个问题，现有的信息检索方法为：检索包括 "北京" 关键词和 /或 "特产" 关键词的答案，假设有 10个答案，并将这 10个答案按照包括检索 "北京" 关键词、 "特产" 关键词的数量进行排序，进而呈现，但是，如 "很多啊，比如说茯苓饼啦烤鸭什么的" 这样的信息，虽然这个信息与 "北京有什么特产" 这个问题的相关性较高，但是，由于不含有 "北京" 关键词和 "特产" 关键词，所以不会被检索到，因此，检索准确度较低。

综上所述，目前的信息检索方法存在准确度较低的问题。发明内容

本发明实施例提供一种信息检索方法及装置，用以解决现有信息检索过程存在的检索准确度较低的问题。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种信息检索方法，包括：

从接收到的检索指示中确定出检索关键词组，并根据所述检索指示从检索数据库中检索出结果信息组；

针对检索出的所述结果信息组中的每个结果信息，分别执行如下步骤：根据所述检索关键词组、结果关键词组，确定所述结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，所述结果关键词组是根据所述结果信息组确定的；

根据所述结果信息与所述每一个局部匹配模型的匹配值，计算用于表征所述结果信息与所述检索指示的相关性的相关度；

根据每一个结果信息对应的相关度大小，对所述结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现。

结合第一方面，在第一种可能的实现方式中，在根据所述检索指示从检索数据库中检索出结果信息组之前，还包括：

获取文档数据；并

根据所述文档数据构建所述检索数据库。

结合第一方面，或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，根据所述检索指示从检索数据库中检索出结果信息组，具体包括：根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据库中检索出结果信息组；和 /或，

根据从所述检索指示中确定出的所述检索关键词组，釆用倒排索引方式从检索数据库中检索出结果信息组。

结合第一方面，或者第一方面的第一至第二种可能的实现方式，在第三种可能的实现方式中，所述局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组；

根据所述检索关键词组、结果关键词组，确定所述结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，具体包括：

针对每一个局部匹配模型，分别执行如下步骤：

确定所述检索关键词组和所述信息关键词组中匹配的信息关键词，及所述结果关键词组和所述回应关键词组中匹配的回应关键词；

生成二维关键词组合；其中，所述二维关键词组合包括所述匹配的信息关键词和所述匹配的回应关键词；

确定与所述二维关键词组合对应的权重值；并

根据所述权重值，计算所述结果关键词组与该局部匹配模型的匹配值。结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述信息关键词组和所述回应关键词组均基于获取的标注数据，根据双语主题模型确定的；

其中，所述标注数据中包括的任意一个二维描述组合由信息描述和回应描述组成，且每一个二维描述组合中的回应描述均对应一个标记，所述标记用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。

结合第一方面的第三或者第四种可能的实现方式，在第五种可能的实现方式中，确定与所述二维关键词组合对应的权重值，具体包括：

根据获取的标注数据确定与所述二维关键词组合对应的权重值。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，根据获取的标注数据确定与所述二维关键词组合对应的权重值，具体包括：根据获取的标注数据，釆用反向传播算法根据获取的标注数据确定与所述二维关键词组合对应的权重值。

结合第一方面，或者第一方面的第一至第六种可能的实现方式，在第七种可能的实现方式中，所述根据所述结果信息与所述每一个局部匹配模型的匹配值，计算用于表征所述结果信息与所述检索指示的相关性的相关度，具体包括：

根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型计算用于表征所述结果信息与所述检索指示的相关性的相关度。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，所述综合匹配模型根据双语主题模型确定。

结合第一方面的第七至第八种可能的实现方式，在第九种可能的实现方式中，根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法 , 基于综合匹配模型计算用于表征所述结果信息与所述检索指示的相关性的相关度，具体包括：

根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型确定每一个匹配值的权重值；

根据所述每一个匹配值及与所述每一个匹配值分别对应的权重值，计算用于表征所述结果信息与所述检索指示的相关性的相关度。

结合第一方面的第九种可能的实现方式，在第十种可能的实现方式中，与所述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据确定的。

结合第一方面的第一至第十种可能的实现方式，在第十一种可能的实现方式中，确定所述检索关键词组和所述信息关键词组中匹配的信息关键词，具体包括：

确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；确定所述结果关键词组和所述回应关键词组中匹配的回应关键词，具体包括：

确定与结果关键词相同的回应关键词，和与结果关键词词义相同的信息关键词。

第二方面，提供一种信息检索装置，包括：

检索单元，用于从接收到的检索指示中确定出检索关键词组，并根据所述检索指示从检索数据库中检索出结果信息组；

确定单元，用于针对检索出的所述结果信息组中的每个结果信息，分别执行如下步骤：根据所述检索关键词组、结果关键词组，确定所述结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，所述结果关键词组是根据所述结果信息组确定的；

计算单元，用于根据所述结果信息与所述每一个局部匹配模型的匹配值，计算用于表征所述结果信息与所述检索指示的相关性的相关度；

呈现单元，用于根据每一个结果信息对应的相关度大小，对所述结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现。

结合第一方面，在第一种可能的实现方式中，所述检索单元还用于：获取文档数据；并根据所述文档数据构建所述检索数据库。

结合第一方面，或者第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述检索单元具体用于：根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据库中检索出结果信息组；和 /或，

结合第一方面，或者第一方面的第一至第二种可能的实现方式，在第三种可能的实现方式中，所述确定单元确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组；

所述确定单元具体用于：针对每一个局部匹配模型，分别执行如下步骤：确定所述检索关键词组和所述信息关键词组中匹配的信息关键词，及所述结果关键词组和所述回应关键词组中匹配的回应关键词；

确定与所述二维关键词组合对应的权重值；并

根据所述权重值，计算所述结果关键词组与该局部匹配模型的匹配值。结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述确定单元确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括的信息关键词组和所述回应关键词组均基于获取的标注数据，根据双语主题模型确定的；

结合第一方面的第三或者第四种可能的实现方式，在第五种可能的实现方式中，所述确定单元具体用于：根据获取的标注数据确定与所述二维关键词组合对应的权重值。

结合第一方面的第五种可能的实现方式，在第六种可能的实现方式中，所述确定单元具体用于：根据获取的标注数据，釆用反向传播算法根据获取的标注数据确定与所述二维关键词组合对应的权重值。

结合第一方面，或者第一方面的第一至第六种可能的实现方式，在第七种可能的实现方式中，所述计算单元具体用于：根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型计算用于表征所述结果信息与所述检索指示的相关性的相关度。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，所述计算单元计算相关度所基于的综合匹配模型根据双语主题模型确定。

结合第一方面的第七至第八种可能的实现方式，在第九种可能的实现方式中，所述计算单元具体用于：根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型确定每一个匹配值的权重值；

结合第一方面的第九种可能的实现方式，在第十种可能的实现方式中，所述计算单元确定的与所述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据确定的。

结合第一方面的第一至第十种可能的实现方式，在第十一种可能的实现方式中，所述确定单元具体用于：确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；

所述确定单元具体用于：确定与结果关键词相同的回应关键词，和与结果关键词词义相同的信息关键词。

本发明有益效果如下：

现有技术中，若与检索指示相关性较高的信息中不包括检索关键词，是无法将该信息检索出来的，因此，现有的信息检索方法存在检索结果准确性较低的问题，而本发明实施例中，先从检索结果中检索出结果信息组，针对每一个结果信息，确定该结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，然后，根据结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值计算用于表征结果信息与检索指示的相关性的相关度，然后，根据每一个结果信息对应的相关度大小，对结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现，在本方案中，即使结果信息中不包括检索关键词，但是，根据检索关键词组、结果关键词组可以在局部匹配模型集合中确定出结果信息与每一个局部匹配模型的匹配值，然后，根据结果信息与所有局部匹配模型的匹配值得出相关度，因此，仍然可以将与检索指示相关性较高且不包括检索关键词的结果信息呈现给用户，提高了检索的准确性。附图说明图 1为本发明实施例中的信息检索方法的一种流程图；

图 2为本发明实施例中的信息检索方法的实施例；

图 3为本发明实施例中的信息检索装置的功能结构示意图。具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本文中术语"和 /或"，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如， A和 /或 B, 可以表示：单独存在 A, 同时存在 A和 B, 单独存在 B这三种情况。另外，本文中字符" /，，，一般表示前后关联对象是一种"或"的关系。

本发明实施例中，提供一种信息检索方法，该信息检索方法包括：从接收到的检索指示中确定出检索关键词组，并根据检索指示从检索数据库中检索出结果信息组；针对检索出的结果信息组中的每个结果信息，分别执行如下操作：根据检索关键词组、结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，结果关键词组是根据结果信息组确定的；根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度；根据每一个结果信息对应的相关度大小，对结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现，在该方案中，即使结果信息中不包括检索关键词，但是，根据检索关键词组、结果信息的结果关键词组可以在局部匹配模型集合中确定出结果信息与每一个局部匹配模型的匹配值，然后，根据结果信息与所有局部匹配模型的匹配值得出相关度，因此，仍然可以将与检索指示相关性较高且不包括检索关键词的结果信息呈现给用户，提高了检索的准确性。下面结合附图对本发明优选的实施方式进行详细说明。

参阅图 1 所示，本发明实施例中提供信息检索的一种方法，该方法实施例流程如下：

步骤 100: 从接收到的检索指示中确定出检索关键词组，并根据检索指示从检索数据库中检索出结果信息组；

步骤 110: 针对检索出的结果信息组中的每个结果信息，分别执行如下步骤：

步骤 120: 根据检索关键词组、结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，结果关键词组是根据结果信息组确定的；

步骤 130: 根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度；

步骤 140: 根据每一个结果信息对应的相关度大小，对结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现。

本发明实施例中，在根据检索指示从检索数据库中检索出结果信息组之前，还包括如下操作：

获取文档数据；并根据文档数据构建检索数据库。

例如，从微博中获取到第一文档数据（北京的特产有什么；烤鸭、茯苓饼、果脯、炸酱面，都很好吃）、第二文档数据（北京的秋天最美；是啊，十月份的时候可以去赏红叶），等文档数据，然后，利用这些文档数据构建检索数据库。

当然，在实际应用中，获取文档数据的方式有多种，是比较成熟的技术，在此不再进行详述。

本发明实施例中，检索指示可以为一个问题，也可以是一个陈述，例如，检索指示可以为 "北京有什么特产" 这样的问题，此时，检索出的结果信息可以为： "烤鸭、茯苓饼、果脯这些特产，其中，烤鸭全聚德最好吃"；检索指示也可以是 "今天不想上班" 这样的陈述，此时，检索出的结果信息可以为： "每周总有那么五六天不想上班"，也就是说，本步骤 100-140的方法不仅适应于检索关于问题的答案的问答场景，也可以检索非问题的相关回复的非问答场景，当然，实际应用中，步骤 100-140的方法也可以适应于其他场景，在此不再进行详述。

本发明实施例中，根据检索指示从检索数据库中检索出结果信息组的方式有多种，例如，可以为根据检索指示釆用 LSH ( Locality Sensitive Hash, 局部敏感哈希）与关键词匹配方式从检索数据库中检索出结果信息组；或者，也可以为根据从检索指示中确定出的检索关键词组，釆用倒排索引方式从检索数据库中检索出结果信息组，在根据检索关键词组从检索数据库中检索出结果信息组时，可选的，可以仅釆用一种方式，当然，还可以综合上述几种方式根据检索指示从检索数据库中检索出结果信息组。

在实际应用中，还可以釆用其他方式根据检索指示从检索数据库中检索出结果信息组，在此不再进行详述，此时，可以釆用这些方式与上述任意一种或者几种方式来根据检索指示从检索数据库中检索出结果信息组。

本发明实施例中，任意一个局部匹配模型包括信息关键词组和回应关键词组，例如，某一个局部匹配模型为：（"北京"、 "特产"、 "味道"； "果脯"、 "茯苓饼"、 "烤鸭"、 "驴打滚"），则"北京"、 "特产"、 "味道" 组成信息关键词组， "果脯"、 "茯苓饼"、 "烤鸭"、 "驴打滚"组成回应关键词组。

本发明实施例中，根据检索关键词组、结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值的方式有多种，例如，可以釆用如下方式：

针对每一个局部匹配模型，分别执行如下步骤：

确定检索关键词组和信息关键词组中匹配的信息关键词，及结果关键词组和回应关键词组中匹配的回应关键词；

确定与组成的生成二维关键词组合，其中，二维关键词组合包括匹配的信息关键词和匹配的回应关键词；

确定与二维关键词组合对应的权重值；并根据权重值，计算结果关键词组与该局部匹配模型的匹配值。例如，检索指示为 "北京哪里可以买到特产"，其中，经过步骤 100后得出的其中一个结果信息为 "茯苓饼的味道是甜的"，那么对（北京哪里可以买到特产；茯苓饼的味道是甜的）这个组合到局部匹配模型集合中进行匹配，具体匹配时，先提取 "北京哪里可以买到特产"的检索关键词组：（"北京，，、 "哪里"、 "买"、 "特产"），及 "茯苓饼的味道是甜的"的结果关键词组：（"茯苓饼"、 "味道，，、 "甜，，），假设局部匹配模型集合中有 1000个局部匹配模型。

其中，有一个局部匹配模型中包括（"特产"、 "价钱"； "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯米 "）, 则针对（"特产"、 "价钱，，； "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯米" )这个局部匹配模型，执行如下操作：

确定检索关键词组（"北京，，、 "哪里，，、 "买"、 "特产"）和信息关键词组（"特产"、 "价钱"）中匹配的信息关键词为"特产"；确定结果关键词组（"茯苓饼"、 "味道"、 "甜 "）和回应关键词组 ( "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯米，，）中匹配的回应关键词为 "茯苓饼"；

然后，将确定的匹配的信息关键词和确定的匹配的回应关键词组成一个二维关键词组合，该二维关键词组合为（"特产"； "茯苓饼"），并确定该二维关键词组合对应的权重值，以及根据该权重值计算结果关键词组（"茯苓饼"、 "味道，，、 "甜，，）与该局部匹配模型（"特产"， "价钱，，； "烤鸭"， "茯苓饼"， "泡馍"， "糯米"）的匹配值。

其中，有一个局部匹配模型中包括（"北京"、 "旅游"； "全聚德"、 "天安门"、 "长城 "），则针对（"北京"、 "旅游"； "全聚德"、 "天安门"）这个局部匹配模型，执行如下操作：

确定检索关键词组（"北京"、 "哪里"、 "买"、 "特产，，）和信息关键词组 ( "北京"、 "旅游"）中匹配的信息关键词为"北京"；确定结果关键词组（"茯苓饼"、 "味道"、 "甜 "）和回应关键词组（"全聚德"、 "天安门"）中匹配的回应关键词没有。

由于回应关键词组（"全聚德"、 "天安门"）中没有匹配的回应关键词，则可以确定结果关键词组（"茯苓饼"、 "味道"、 "甜， '）与该局部匹配模型（"北京，，、 "旅游，，； "全聚德"、 "天安门"、 "长城"）的匹配值为 0。

这个实施例只是描述了匹配的信息关键词和确定的匹配的回应关键词均只有一个的情况，在实际应用中，匹配的信息关键词和确定的匹配的回应关键词均有可能大于一个的情况，与上述过程类似，在此不再进行详述。

上述只是描述了一个局部匹配模型的例子，那么对于局部匹配模型集合中的 1000个局部匹配模型中的任意一个局部匹配模型与上述过程类似，在此不再进行详述。

本发明实施例中，在根据检索关键词组、结果信息的结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值之前，要获得局部匹配模型集合的架构（architecture ), 也就是获得局部匹配模型集合包括的信息关键词组和回应关键词组，其中，获得信息关键词组和 /或回应关键词组的方式有多种，例如，可以釆用如下方式：

基于获取的标注数据，根据双语主题模型（ bilingual topic modeling )确定局部匹配模型集合中的信息关键词组和回应关键词组，即信息关键词组和回应关键词组均基于获取的标注数据，根据双语主题模型确定的，其中，标注数据中包括的任意一个二维描述组合由信息描述和回应描述组成，且每一个二维描述组合中的回应描述均对应一个标记，标记用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。

例如，从 "百度知道" 中获取（问题；答案）组合，或者，从 "微博" 中获取（微博；回复）组合，此时，不是直接将这些获取的组合作为局部匹配模型集合中的局部匹配模型，而是基于获取的标注数据，根据双语主题模型才能确定出信息关键词组和回应关键词组。

又例如，在用户 A在 "百度知道" 提问了一个问题 "北京有什么特产"，其他用户回复的答案有两个，例如，答案一： "茯苓饼和烤鸭都不错"；答案二： "全聚德的烤鸭又贵又难吃"，用户 A认为答案一： "茯苓饼和烤鸭都不错" 是对用户 A有帮助的，此时，将（北京有什么特产；茯苓饼和烤鸭都不错）这个组合作为局部匹配模型集合中的一个局部匹配模型。

上述只是描述了获得局部匹配模型集合的架构 , 也就是获得局部匹配模型集合包括的信息关键词组和回应关键词组的一个实施例，当然，在实际应用中，获得局部匹配模型集合的架构，也就是获得局部匹配模型集合包括的信息关键词组和回应关键词组的方式不限于上述方式，也可以釆用其他方式，在此不再进行详述。

本发明实施例中 , 在确定与匹配的信息关键词和匹配的回应关键词组成的二维关键词组合对应的权重值之前，还包括如下操作：

根据获取的标注数据，确定与二维关键词组合对应的权重值的方式有多种，例如，根据获取的标注数据确定与二维关键词组合对应的权重值。

本发明实例中，根据获取的标注数据，确定任意一局部匹配模型的信息关键词组的信息关键词和回应关键词组的回应关键词组成的任意二维关键词组合的权重值的方式有多种，也就是学习（learning )局部匹配模型集合的构架中的二维组合的权重值的方式有多种：

例如，根据获取的标注数据，釆用反向传播算法（Back-Propagation )确定根据获取的标注数据确定与二维关键词组合对应的权重值。

例如，通过"百度知道，，获取很多关于"路程"的标注数据，那么在与"路程" 对应的回应中，有^^多回应是被用户釆用的，且被釆用的回应中有^^多一部分是包括有"距离，，关键词的，只有一少部分是包括有"地点，，关键词的，此时，根据标注数据釆用反向传播算法可以得出（"路程，，； "距离，，）这个二维关键词组合的权重值比（"路程"； "地点"）这个二维关键词组合的权重值高。

上述只是根据获取的标注数据，确定与二维关键词组合对应的权重值的一种方式，在实际应用中，还可以是其他方式，在此不再进行详述。

本发明实施例中，在计算用于表征结果信息与检索指示的相关性的相关度时，可以根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度。例如：局部匹配模型集合中有 1000个局部匹配模型，得到 1000个匹配值，那么根据这 1000个匹配值计算相关度时，可以先对这 1000个匹配值基于综合匹配模型集合进行第一次综合处理，得到 200个一次综合值，然后，将这 200个一次综合值基于综合匹配模型集合进行第二次综合处理，得到 100 个二次综合值，最后，将这 100个二次综合值基于综合匹配模型集合进行第三次综合处理，得到相关度。

本发明实施例中，根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度的方式有多种，例如，可以釆用如下方式：

根据结果信息与每一个局部匹配模型的匹配值，釆用深度神经网络算法

(deep neural network) 基于综合匹配模型集合计算用于表征结果信息与检索指示的相关性的相关度。

上述只是给出根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度的一个实施例，在实际应用中，还可以存在多种其他实现方式，在此不再进行详述。

本发明实施例中，综合匹配模型集合根据双语主题模型确定。

本发明实施例中，根据双语主题模型确定综合匹配模型集合时，可以使用多个双语主题模型来实现，只不过每一个双语主题模型的精度不同，例如，综合匹配模型集合中共有三层，即综合层一、综合层二、综合层三，其中，第一个双语主题模型的精度 <第二个双语主题模型的精度 <第三个双语主题模型的精度，则在应用中，第三个双语主题模型用于构建综合层一，第二个双语主题模型用于构建综合层二，第一个双语主题模型用于构建综合层三。

本发明实施例中，根据结果信息与每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型计算用于表征结果信息与检索指示的相关性的相关度的方式有多种，例如：

根据结果信息与每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型确定每一个匹配值的权重值；根据每一个匹配值及与每一个匹配值分别对应的权重值，计算用于表征结果信息与检索指示的相关性的相关度。

上述只是一种实施例，在实际应用中，还有多种实施例，在此不再进行详述。

本发明实施例中，与每一个匹配值分别对应的权重值的确定方式有多种，例如，可以是釆用反向传播算法技术根据获取的标注数据确定的。

上述只是一个确定权重值的一个具体例子，当然，在实际应用中，还可以有其他确定方式，在此不再进行详述。

本发明实施例中，确定检索关键词组和信息关键词组中匹配的信息关键词的方式有多种：例如，确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；如，信息关键词为"价格"，检索关键词也为"价格"，则此信息关键词为与检索关键词相同的信息关键词，如，信息关键词为 "价格"，检索关键词也为"价钱"，则此信息关键词为与检索关键词词义相同的信息关键词。

同理，确定结果关键词组和回应关键词组中匹配的回应关键词的方式也有多种：例如：确定与结果关键词相同的回应关键词，和与结果关键词词义相同的信息关键词。

为了提高检索效率，本发明实施例中的局部匹配模型集合和综合匹配模型集合要么全部为关于问答的关键词集合，要么为全部关于信息回应的关键词集合，如：微博回复。

本发明实施例中，基于获取的标注数据，根据双语主题模型确定局部匹配模型集合中的信息关键词组和回应关键词组的过程，也就是学习局部匹配模型集合的构架的过程。

同理，根据双语主题模型确定综合匹配模型集合，也就是学习综合匹配模型集合的构架的过程。

本发明实施例中，根据获取的标注数据，釆用反向传播算法确定任意一局部匹配模型的信息关键词组的信息关键词和回应关键词组的回应关键词组成的任意二维关键词组合的权重值的过程，也就是局部匹配模型集合的相关权重值参数 ( arameters ) 的学习过程。

同理，与每一个匹配值分别对应的权重值是釆用反向传播算法技术根据获取的标注数据确定的，也就是综合匹配模型集合的相关权重值参数的学习过程。

为了更好地理解本发明实施例，以下给出具体应用场景，针对信息检索的过程，作出进一步详细描述，具体如图 2所示：

步骤 200: 获取文档数据；并根据文档数据构建检索数据库；

步骤 210: 接收检索指示为 "游泳的类型"；

步骤 220: 釆用 LSH和关键词技术从检索数据库中检索出结果信息组，结果信息组中包括 30个结果信息，其中，一个结果信息 "蛙泳可以增加肺活量、塑造体形"；

步骤 230:确定检索关键词组为（ "游泳"、 "类型" ),结果关键词组为（ "蛙泳"、 "增加"、 "肺活量"、 "塑造，，、 "体形 "）;

步骤 240: 根据（"游泳"、 "类型"； "蛙泳"、 "增加"、 "肺活量"、 "塑造"、 "体形"）确定与局部匹配模型集合中的 1000个局部匹配模型的每一个局部匹配模型的匹配值；

步骤 250: 根据 1000个匹配值釆用深度神经网络技术基于综合匹配模型集合计算用于表征 "蛙泳可以增加肺活量、塑造体形" 与 "游泳的类型" 的相关性的相关度；

步骤 260: 按照 30个相关度的排序方式将 30个结果信息进行呈现。

基于上述技术方案，参阅图 3 所示，本发明实施例提供一种信息检索装置，信息检索装置包括检索单元 30、确定单元 31、计算单元 32和呈现单元

33 , 其中，

检索单元 30 , 用于从接收到的检索指示中确定出检索关键词组，并根据检索指示从检索数据库中检索出结果信息组；

确定单元 31 , 用于针对检索出的结果信息组中的每个结果信息，分别执行如下步骤：根据检索关键词组、结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，结果关键词组是根据结果信息组确定的；

计算单元 32 , 用于根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度；

呈现单元 33 , 用于根据每一个结果信息对应的相关度大小，对结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现。

进一步的，本发明实施例中，检索单元 30还用于：获取文档数据；并根据文档数据构建检索数据库。

本发明实施例中，可选的，检索单元 30具体用于：根据检索指示釆用局部敏感哈希 LSH 与关键词匹配方式从检索数据库中检索出结果信息组；和 / 或，

根据从检索指示中确定出的检索关键词组，釆用倒排索引方式从检索数据库中检索出结果信息组。

本发明实施例中，可选的，确定单元 31确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组；

确定单元 31具体用于：针对每一个局部匹配模型，分别执行如下步骤：确定检索关键词组和信息关键词组中匹配的信息关键词，及结果关键词组和回应关键词组中匹配的回应关键词；

生成二维关键词组合；其中，二维关键词组合包括匹配的信息关键词和匹配的回应关键词；

确定与二维关键词组合对应的权重值；并

根据权重值，计算结果关键词组与该局部匹配模型的匹配值。

本发明实施例中，可选的，确定单元 31确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括的信息关键词组和回应关键词组均基于获取的标注数据，根据双语主题模型确定的；

其中，标注数据中包括的任意一个二维描述组合由信息描述和回应描述组成，且每一个二维描述组合中的回应描述均对应一个标记，标记用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。

本发明实施例中，可选的，确定单元 31具体用于：根据获取的标注数据确定与二维关键词组合对应的权重值。

本发明实施例中，可选的，确定单元 31具体用于：根据获取的标注数据，釆用反向传播算法根据获取的标注数据确定与二维关键词组合对应的权重值。

本发明实施例中，可选的，计算单元 32具体用于：根据结果信息与每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型计算用于表征结果信息与检索指示的相关性的相关度。

本发明实施例中，可选的，计算单元 32计算相关度所基于的综合匹配模型根据双语主题模型确定。

本发明实施例中，可选的，计算单元 32具体用于：根据结果信息与每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型确定每一个匹配值的权重值；

根据每一个匹配值及与每一个匹配值分别对应的权重值，计算用于表征结果信息与检索指示的相关性的相关度。

本发明实施例中，可选的，，计算单元 32确定的与每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据确定的。

本发明实施例中，可选的，确定单元 31具体用于：确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；

确定单元 31具体用于：确定与结果关键词相同的回应关键词，和与结果关键词词义相同的信息关键词。

综上所述，本发明实施例中，提供一种信息检索方法，该信息检索方法包括：从接收到的检索指示中确定出检索关键词组，并根据检索指示从检索数据库中检索出结果信息组；针对检索出的结果信息组中的每个结果信息，分别执行如下操作：根据检索关键词组、结果关键词组，确定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，其中，结果关键词组是根据所述结果信息组确定的；根据结果信息与每一个局部匹配模型的匹配值，计算用于表征结果信息与检索指示的相关性的相关度；根据每一个结果信息对应的相关度大小，对结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现，在该方案中，即使结果信息中不包括检索关键词，但是，根据检索关键词组、结果信息的结果关键词组可以在局部匹配模型集合中确定出结果信息与每一个局部匹配模型的匹配值，然后，根据结果信息与所有局部匹配模型的匹配值得出相关度，因此，仍然可以将与检索指示相关性较高且不包括检索关键词的结果信息呈现给用户，提高了检索的准确性。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中的功能的步骤。

尽管已描述了本发明的上述实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求

1、一种信息检索方法，其特征在于，包括：

2、如权利要求 1所述的方法，其特征在于，在根据所述检索指示从检索数据库中检索出结果信息组之前，还包括：

获取文档数据；并

根据所述文档数据构建所述检索数据库。

3、如权利要求 1或 2所述的方法，其特征在于，根据所述检索指示从检索数据库中检索出结果信息组，具体包括：

根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据库中检索出结果信息组；和 /或，

4、如权利要求 1-3任一项所述的方法，其特征在于，所述局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组；

根据所述检索关键词组、结果关键词组，确定所述结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值，具体包括：针对每一个局部匹配模型，分别执行如下步骤：

确定与所述二维关键词组合对应的权重值；并

根据所述权重值，计算所述结果关键词组与该局部匹配模型的匹配值。

5、如权利要求 4所述的方法，其特征在于，所述信息关键词组和所述回应关键词组均基于获取的标注数据，根据双语主题模型确定的；

6、如权利要求 4或 5所述的方法，其特征在于，确定与所述二维关键词组合对应的权重值，具体包括：

7、如权利要求 6所述的方法，其特征在于，根据获取的标注数据确定与所述二维关键词组合对应的权重值，具体包括：

根据获取的标注数据，釆用反向传播算法根据获取的标注数据确定与所述二维关键词组合对应的权重值。

8、如权利要求 1-7任一项所述的方法，其特征在于，所述根据所述结果信息与所述每一个局部匹配模型的匹配值，计算用于表征所述结果信息与所述检索指示的相关性的相关度，具体包括：

9、如权利要求 8所述的方法，其特征在于，所述综合匹配模型根据双语主题模型确定。

10、如权利要求 8或 9所述的方法，其特征在于，根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型计算用于表征所述结果信息与所述检索指示的相关性的相关度，具体包括：

11、如权利要求 10所述的方法，其特征在于，与所述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据确定的。

12、如权利要求 4-11任一项所述的方法，其特征在于，确定所述检索关键词组和所述信息关键词组中匹配的信息关键词，具体包括：

确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；

确定所述结果关键词组和所述回应关键词组中匹配的回应关键词，具体包括：

13、一种信息检索装置，其特征在于，包括：

计算单元，用于根据所述结果信息与所述每一个局部匹配模型的匹配值，计算用于表征所述结果信息与所述检索指示的相关性的相关度；呈现单元，用于根据每一个结果信息对应的相关度大小，对所述结果信息组中的每一个结果信息进行排序，并将排序后的各个结果信息呈现。

14、如权利要求 13所述的装置，其特征在于，所述检索单元还用于：获取文档数据；并根据所述文档数据构建所述检索数据库。

15、如权利要求 13或 14所述的装置，其特征在于，所述检索单元具体用于：根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据库中检索出结果信息组；和 /或，

16、如权利要求 13-15任一项所述的装置，其特征在于，所述确定单元确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组；

确定与所述二维关键词组合对应的权重值；并

17、如权利要求 16所述的装置，其特征在于，所述确定单元确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括的信息关键词组和所述回应关键词组均基于获取的标注数据，根据双语主题模型确定的；

18、如权利要求 16或 17所述的装置，其特征在于，所述确定单元具体用于：根据获取的标注数据确定与所述二维关键词组合对应的权重值。

19、如权利要求 18所述的装置，其特征在于，所述确定单元具体用于：根据获取的标注数据，釆用反向传播算法根据获取的标注数据确定与所述二维关键词组合对应的权重值。

20、如权利要求 13-19任一项所述的装置，其特征在于，所述计算单元具体用于：根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法 , 基于综合匹配模型计算用于表征所述结果信息与所述检索指示的相关性的相关度。

21、如权利要求 20所述的装置，其特征在于，所述计算单元计算相关度所基于的综合匹配模型根据双语主题模型确定。

22、如权利要求 20或 21所述的装置，其特征在于，所述计算单元具体用于：根据所述结果信息与所述每一个局部匹配模型的匹配值，釆用深度神经网络算法，基于综合匹配模型确定每一个匹配值的权重值；

23、如权利要求 22所述的装置，其特征在于，所述计算单元确定的与所述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据确定的。

24、如权利要求 16-23 任一项所述的装置，其特征在于，所述确定单元具体用于：确定与检索关键词相同的信息关键词，和与检索关键词词义相同的信息关键词；