WO2017063538A1

WO2017063538A1 - 挖掘相关词的方法、搜索方法、搜索系统

Info

Publication number: WO2017063538A1
Application number: PCT/CN2016/101700
Authority: WO
Inventors: 韩增新; 蒋冠军; 董良
Original assignee: 广州神马移动信息科技有限公司
Priority date: 2015-10-12
Filing date: 2016-10-10
Publication date: 2017-04-20
Also published as: CN105279252B; CN105279252A

Abstract

一种挖掘相关词的方法，包括：基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对（S110）；对每组平行句对进行分词处理（S120）；对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对（S130）；计算所述第一对齐词对的共现频率（S140）；将共现频率高于预定阈值的所述第一对齐词对确定为相关词（S150）。这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。同时，还公开了一种搜索方法和一种搜索系统。

Description

挖掘相关词的方法、搜索方法、搜索系统

技术领域

本申请涉及信息检索领域，尤其涉及一种挖掘相关词的方法、一种搜索方法以及一种搜索系统。

背景技术

搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能，同时也是“研究网站用户行为的一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息，从而有效地解决用户问题，也能更有效地促进产品/服务的销售，而且通过对网站访问者搜索行为的深度分析，对于进一步制定更为有效的网络营销策略具有重要价值。

用户在使用搜索引擎进行搜索时，通过搜索引擎的检索页面，输入检索关键词，搜索引擎检索并返回检索结果。一般搜索引擎会直接使用用户输入的关键词进行原词搜索，或者使用检索词的同义词进行搜索。

但是，使用检索词原词或者同义词进行搜索时，搜索结果有限。常常有一些好结果，它们的词语本身与检索词并不一致，但是语义上与搜索词非常相关，导致这样结果的网页无法召回。

发明内容

本申请所要解决的技术问题是解决传统搜索引擎只通过原词或同义词进行检索得到的检索结果有限的问题，提供一种挖掘相关词的方法、一种搜索方法以及一种搜索系统。

根据本申请的一个方面，提供了一种挖掘相关词的方法。

一种挖掘相关词的方法，包括：

基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

对每组所述平行句对进行分词处理；

对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对；

计算所述第一对齐词对的共现频率；

将共现频率高于预定阈值的所述第一对齐词对确定为相关词。

这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

优选地，所述获取平行句对的步骤包括：

根据两个句子的字面相似度，滤除含义不同的平行句对。

这样，通过两个句子的字面相似度滤除含义不同的平行句对，从而获取表达含义相同但说法不同的平行句对。

优选地，该方法还包括记录所述相关词的上下文语境词。

通过记录该相关词的上下文语境，通过判断两个相关词的上下文语境是否相同或者相近，有利于进一步判断相关词之间的相关度。

优选地，所述词对齐处理包括规则词对齐处理和/或统计词对齐处理。

优选地，所述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种。

这样，可以挖掘出相关度程度不同的相关词。

优选地，所述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。

优选地，该方法还包括：

使用线性模型过滤所述大规模用户搜索行为数据获取第二对齐词对；

获取能够体现所述相关词之间的相关度的统计特征；

以所述第一对齐词对为正样本，所述第二对齐词对为负样本，基于所述统计特征，采用梯度提升决策树(GBDT)算法，训练所述正样本和所述负样本，获取所述相关词置信度计算模型。

这样，通过建立相关词置信度计算模型，通过该模型可以区分相关词之间的相关度。

优选地，所述相关词置信度计算模型为GBDT非线性回归模型。

根据本申请的另一个方面，还公开了一种搜索方法。

一种搜索方法，包括如下步骤：

基于相关词词库获取检索词的相关词；

基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

这样，通过该搜索方法，可以针对检索词找到其对应的相关词，扩大了搜索的范围，扩大了搜索结果，可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

优选地，所述相关词词库是通过根据上述挖掘相关词的方法建立的。

通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

优选地，该方法还包括对检索语句进行分词处理以获取所述检索词。

当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。

优选地，基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度的步骤包括：

获取每个所述检索词与对应的每个所述相关词之间的特征值；

将所述特征值作为所述置信度计算模型的输入，基于所述置信度计算模型计算所述置信度。

优选地，所述特征值包括：

相关程度信息，用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息，用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息，用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息，用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息，用于表示所述相关词的权重。

优选地，所述相关程度信息包括第一翻译概率P₁和/或第二翻译概率P₂；

count₁(A，·)＝∑_jcount₁(A，w_j)，count₁(·，A′)＝∑_icount₁(w_i，A′)；

其中，检索词A与相关词A’构成第一词对(A，A’)，count₁(A，A’)表示在平行句对中第一词对(A，A’)被对齐的次数，count₁(A，·)表示在平行句对中检索词A被对齐的总次数，count₁(·，A′)表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A，w_j)表示在平行句对中检索词A与词w_j对齐的次数，count₁(w_i，A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。

优选地，所述可替换程度信息包括第一可替换程度score(D，Q)和/或第二可替换程度score(D，Q′)；

其中，检索词A与相关词A’构成第一词对(A，A’)，

检索词A与相关词A’的所有上下文词作为文档D，|D|为D的长度，

Q为检索语句，q_i为所述检索语句Q的第i个检索词，n是所述检索语句Q中检索词的总个数，

Q′为检索词A附近的m个词的检索词组合，m＜n，q′_j为所述检索词组合Q′的第j个检索词，

avgdl为检索词A的所有相关词的上下文构成的文档的平均长度，

k₁为第一常数，b为第二常数，

f(q_i，D)表示qi在文档D中的出现频率，

f(q′_j，D)表示q′_j在文档D中的出现频率。

优选地，所述共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息，其中，

count₂(A，·)＝∑_jcount₂(A，w_j)；

count₂(·，B)＝∑_icount₂(w_i，B)；

count₂(·，·)＝∑_i，jcount₂(w_i，w_j)；

count₂(A，·)表示在检索资源中检索词A与其它检索词同时出现的总次数，count₂(·，B)表示在检索资源中检索词B与其它检索词同时出现的总次数，count₂(A，B)表示在检索资源中两个检索词A、B同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A，w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i，B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i，w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数；

第一共现关系信息是检索词与检索语句中其它词的共现关系指数PMI的平均值；

第二共现关系信息是相关词与检索语句中其它词的共现关系指数PMI的平均值。

优选地，该方法还包括基于大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。

优选地，所述根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序的步骤，为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，该方法还包括所述排序模型根据所述检索语句和检索资源页面信息对所述检索资源进行初排序的步骤。

优选地，所述检索资源为网页资源和/或文档资源。

根据本申请的另一个方面，还提供了一种搜索系统。

一种搜索系统，包括：

相关词词库存储装置；

相关词获取装置，用于基于所述相关词词库存储装置存储的相关词词库获取检索词的相关词；

置信度计算装置，用于基于相关词置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

排序装置，用于根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，该搜索系统还包括相关词词库建立装置，用于建立所述相关词词库，包括：

平行句获取模块，用于基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

分词器，用于对每组所述平行句对进行分词处理；

词对齐模块，用于将所述分词处理后的平行句对进行词对齐处理以获取第一对齐词对；

共现频率获取模块，用于计算所述第一对齐词对的共现频率；

相关词确定模块，用于将共现频率高于预定阈值的所述第一对齐词对确定为相关词。

优选地，所述相关词词库建立装置还包括：

语境获取模块，用于获取所述相关词的上下文语境词。

优选地，该搜索系统还包括相关词置信度计算模型建立装置，用于建立所述相关词置信度计算模型，包括：

线性模型过滤模块，用于使用线性模型过滤所述大规模用户搜索行为数据以获取第二对齐词对；

训练模块，用于以所述第一对齐词对为正样本，以所述第二对齐词对为负样本，基于GBDT算法训练所述正样本和所述负样本，获取所述相关词置信度计算模型。

优选地，所述相关词置信度计算模型为GBDT非线性回归模型。

优选地，所述分词器还用于对检索语句进行分词处理以获取检索词。

优选地，所述置信度计算装置包括：

特征值提取模块，用于提取每个所述检索词与对应的每个所述相关词之间的特征值；

置信度计算模块，用于将所述特征值作为所述相关词置信度计算模型的输入，基于所述相关词置信度计算模型计算所述置信度。

优选地，所述特征值提取模块包括：

相关程度信息获取单元，用于获取相关程度信息，所述相关程度信息用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息获取单元，用于获取可替换程度信息，所述可替换程度信息用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息获取单元，用于获取共现关系信息，所述共现关系信息用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息获取单元，用于获取语言模型得分信息，所述语言模型得分信息用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息获取单元，用于获取权重值信息，所述权重值信息用于表示所述相关词的权重。

优选地，所述特征值提取模块还包括：

语言模型获取单元，用于基于所述大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。

优选地，所述排序装置为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。

优选地，所述排序装置还用于通过所述排序模型根据检索语句和检索资源页面信息对所述检索资源进行初排序。

根据本发明的另一方面，还提出一种计算设备，包括：

一个或多个处理器；

存储器；

其中，所述存储器被配置为执行：

基于相关词词库获取检索词的相关词；

根据本发明的另一方面，还提出一种在其上记录有用于执行上述方法的程序的计算机可读记录介质。

这样，通过上述挖掘相关词的方法、搜索方法以及搜索系统，可以找到检索词对应的相关词，使用检索词以及其相关词一并进行检索，扩大了搜索的范围，扩大了搜索结果，可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本申请一实施例的挖掘相关词的方法的流程图；

图2示出了根据本申请另一实施例的挖掘相关词的方法的流程图；

图3示出了根据本申请一实施例的搜索方法的流程图；

图4示出了根据本申请另一实施例的搜索方法的流程图；

图5示出了图4所示实施例步骤S240的流程图；

图6示出了根据本申请一实施例的搜索系统的示意图；

图7示出了根据本申请另一实施例的搜索系统的示意图；

图8示出了图7所示实施例相关词词库建立装置310的示意图；

图9示出了图7所示实施例相关词置信度计算模型建立装置350的示意图；

图10示出了图7所示实施例置信度计算装置390的示意图；

图11示出了图10所示实施例特征值提取模块394的示意图。

图12示出了根据本发明实施方式提供的计算设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

下面参考图1描述根据本申请一实施例的一种挖掘相关词的方法，用于从大规模用户搜索行为数据获取相关词。

图1示出了根据本申请一实施例的挖掘相关词的方法的流程图。

在步骤S110，基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对。

基于大规模用户搜索行为数据，从用户的检索日志和/或检索标题日志等数据中获取平行句对。其中，平行句对是指采用不同表述形式来表达相同含义的句对。例如，上述采用不同表述形式表达相同含义的平行句对，可以为“婴儿颈部长有红斑痣”和“宝宝脖子有斑痣”等。

在上述大规模用户搜索行为数据中，例如在用户的检索日志和/或检索标题日志等数据中，存在很多含义相同，但表达并不一致的句对。进一步地，可以根据两个句子的字面相似度，滤除含义不同的平行句对。

在步骤S120，对每组平行句对进行分词处理。

通过分词技术将上述每组平行句对中的每一个句子进行分词。

在步骤S130，对上述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对。

通过词对齐处理，可以找出表达相同含义的词。

其中，上述词对齐处理可以包括规则词对齐处理和/或统计词对齐处理方式。上述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种。上述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。

在步骤S140，计算上述第一对齐词对的共现频率。

其中，共现频率的评价指标可以为第一翻译概率P1和/或第二翻译概率P2，P1、P2的计算公式如下：

其中，检索词A与相关词A’构成第一词对(A，A’)，count₁(A，A’)表示在平行句对中第一词对(A，A’)被对齐的次数，count₁(A，·)表示在平行句对中检索词A被对齐的总次数，count₁(·，A′)表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A，w_j)表示在平行句对中检索词A与词w_j对齐的次数count₁(w_i，A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。

可以理解，count₁(A，A’)的值与A、A’的顺序是无关的，即count₁(A，A’)与count₁(A’，A)是相同的。

P1表示查询词A与相关词A′对齐的次数占查询词A被对齐的总次数的比例，P2表示查询词A与相关词A′对齐的次数占相关词A′被对齐的总次数的比例。

其中，对齐次数是两个词在多个不同的平行句对中对齐的次数，共现次数是两个词在同一个语料中同时出现的次数。

在步骤S150，将共现频率高于预定阈值的第一对齐词对确定为相关词。

其中，上述预定阈值可以根据对相关词之间相关度的要求不同进行不同程度的设定。在一实施例中，上述预定阈值可为1.0*e^-99。

这样，通过该挖掘相关词方法，可以挖掘出更高相关度的相关词，可以进一步扩大检索词搜索的范围，提高找到更好的搜索结果的概率。并且，也可以根据预定阈值的不同，获取相似度不同的相关词。

下面参考图2描述根据本申请另一实施例的一种挖掘相关词的方法，用于从大规模用户搜索行为数据获取相关词。

参考图2，上述挖掘相关词的方法还包括如下步骤：

在步骤S160，记录相关词的上下文语境词。

通过记录该相关词的上下文语境词，可以获知相关词的上下文语境。通过判断两个相关词的上下文语境是否相同或者相近，可以进一步判断相关词之间的相关度，有利于获取更高相似度的相关词。

上述相关词的上下文语境词的获取，根据平行句的长度不同，可以做不同程度长度的限定。本实施例中，因考虑平行句对的长度一般不会过长，因此可以不做长度或其他形式的限定。在其他实施例中，可以根据对相关词的相关度的要求不同或者其他标准下，对其长度或者上下文语境词的获取方式做不同的限定。

在步骤S170，使用线性模型过滤所述大规模用户搜索行为数据获取第二对齐词对。

其中，上述线性模型可为简单线性模型。进一步地，该简单线性模型可以为用人工标注的少量(可以为万级别)词对，使用上述词对之间的统计特征，用简单线性回归模型拟合的线性模型。其中，上述拟合可以指线性回归拟合建模。

上述人工标注的词对数量较少，并且模型简单，因此使用该模型输出的置信度得分不高。通过该线性模型过滤上述大规模用户搜索行为数据，将置信度得分小于特定阈值的结果作为上述第二对齐词对，因使用该模型过滤出的词对置信度得分不高，因此该第二对齐词对作为较差词对。具体的，上述特定阈值接近或小于零。

上述“人工标注”的词对是指：在某个查询语句(query)下，一个query中的原词到相关词构成一个词对，这个词对经过标注，是否适合作为一个相关词。上述标注方式可以为，在”八个月宝宝吃什么？”这个query中，宝宝->婴儿这个相关词对中，“宝宝”是原词，“婴儿” 是相关词，这个相关词可以标注1分，代表可以作为一个相关词；在这个query下，“宝宝”->“宝贝”标注0分，代表不能作为一个相关词。

上述较差词对是指在当前查询词语境下，不应该出现的错误词对，或者说违反用户意图的词对。例如，用户搜索“宝宝吃奶”，获取“宝宝喝奶”是一个较好词对(即标注1分的相关词)；然而“什么水果好吃”，变成“什么水果好喝”，就是一个转义的错误词对，即较差词对。并且，上述较差词对可以有更多种形式的表示，并不限于该举例。

在步骤S180，获取能够体现相关词之间的相关度的统计特征。

上述统计特征，是在当前query语境下是否适合出这个词对的语境词统计验证特征，这些特征包括每两个相关词之间的相关程度信息、可替换程度信息、共现关系信息、语言模型得分信息、权重值信息中的至少一种。

在步骤S190，以上述第一对齐词对为正样本，第二对齐词对为负样本，基于上述统计特征，采用梯度提升决策树(GBDT)算法，训练上述正样本和负样本，获取上述相关词置信度计算模型。

其中，上述相关词置信度计算模型可以为GBDT非线性回归模型。

下面参考图3描述根据本申请一实施例的一种搜索方法。

图3示出了根据本申请一实施例的搜索方法的流程图。

一种搜索方法，包括如下步骤：

在步骤S220，基于相关词词库获取检索词的相关词。

其中，上述相关词词库是通过根据上述挖掘相关词的方法建立的。这样，可以获取该检索词的所有相关词，该相关词不仅包括检索词的同义词(可以包括强同义词和语境同义词)，还包括了更广覆盖程度的相关词。通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，进一步地扩大了搜索的范围，提高了找到更好的搜索结果的概率。

在步骤S240，基于置信度计算模型计算上述检索词与每个相关词之间的置信度。

在步骤S260，根据对应的置信度对使用上述检索词和其相关词进行检索所得到的结果进行排序。

上述步骤，为通过排序模型根据上述对应的置信度对使用检索词和相关词进行检索所得到的结果进行排序。上述排序模型可以为根据现有快速排序算法进行排序的快速排序模型。可知，该排序模型也可以为现有其他模型。

根据相关词进行搜索不仅涵盖了同义词的高频，还更注重了中低频的相关词，尤其是在检索资源比较少的时候，使用相关词进行搜索，实现了最大程度地获取到检索信息。

这样，通过该搜索方法，可以针对检索词找到其对应的相关词，使用检索词和相关词进行检索，扩大了搜索的范围，扩大了搜索结果；可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

在另一实施例中，在上述步骤S260之前还可以包括该排序模型根据检索语句和检索资源页面信息对检索资源进行初排序的步骤。

该初排序步骤为一般的检索过程，也可以通过设定检索程度限定，达到预定得分的检索结果才可以进入步骤S260再排序的步骤。这样，在初检索结果较多时，可以减少再排序的量。也可以在用户要求只显示精确度高的搜索结果时，使用该双重排序方法进行搜索。

其中，上述检索资源可以为网页资源和/或文档资源。检索资源可以是一段文本信息、一个网页的标题、一次查询的语句，也可能是比较长的一个文档。

下面参考图4描述根据本申请另一实施例的一种搜索方法。

图4示出了根据本申请另一实施例的搜索方法的流程图。

上述搜索方法，在上述步骤S220之前还可以包括步骤S210。在步骤S210，对检索语句进行分词处理以获取上述检索词。

当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。上述分词，可以包括中文分词和/或英文分词，也可以包括其他语种形式的分词，相应的分词方式可以为现有的各种形式的分词技术。

下面参考图5为图4所示实施例步骤S240的流程图。

图5示出了图4所示实施例步骤S240的流程图。

在步骤S242，获取每个检索词与对应的每个相关词之间的特征值。

每一次检索内容不同，相应的检索词也会不同，因此上述特征值也会不同。

在步骤S244，将上述特征值作为置信度计算模型的输入，基于该置信度计算模型计算置信度。

其中，上述特征值可以包括相关程度信息、可替换程度信息、共现关系信息、语言模型得分信息、权重值信息中的至少一种。

其中，上述相关程度信息用于衡量每个检索词与每个对应的相关词之间的相关程度。

上述相关程度信息可以包括第一翻译概率P₁和/或第二翻译概率P₂，并分别用下述公式进行表示：

其中，可替换程度信息用于衡量在相关词的上下文语境中，检索词与相关词之间的可替换程度。

可替换程度信息包括第一可替换程度score(D，Q)和/或第二可替换程度score(D，Q′)，并用如下公式进行表示：

其中，检索词A与相关词A’构成第一词对(A，A’)，

检索词A的上下文词，以及相关词A’的上下文词一起作为文档D，|D|为D的长度；其中，检索词A与相关词A’的上下文词在多数句对中是一样的，但是也会有个别不同，都会记录下来作为整体的上下文；

Q为检索语句，q_i为检索语句Q的第i个检索词，n是检索语句Q中检索词的总个数，

k₁为第一常数，b为第二常数，

f(q_i，D)表示qi在文档D中的出现频率，

f(q′_j，D)表示q′_j在文档D中的出现频率。

其中，共现关系信息，用于衡量检索词之间的共现关系，是指两个检索词出现在一个查询语料(检索资源，网页和/文档)中同时出现的统计数据。

共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息：

count₂(A，·)＝∑_jcount₂(A，w_j)；

count₂(·，B)＝∑_icount₂(w_i，B)；

count₂(·，·)＝∑_i，jcount₂(w_i，w_j)；

count₂(A，·)表示检索词A与其它检索词在检索资源中同时出现的总次数，count₂(·，B)表示检索词B与其它检索词在检索资源中同时出现的总次数，count₂(A，B)表示两个检索词A、B在检索资源中同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A，w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i，B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i，w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数。

可以理解，count₂(A，B)的值与A、B的顺序是无关的，即count₂(A，B)与count₂(B，A)是相同的。

第一共现关系信息是检索词与检索语句中其它词的共现关系指数PMI的平均值。

第二共现关系信息是相关词与检索语句中其它检索词(不包括与该相关词对应的检索词的其他检索词)的共现关系指数PMI的平均值。

其中，计算上述第一共现关系信息时，可以直接使用上述公式并计算平均值；计算第二共现关系时，将上述公式中的检索词A替换为其相关词A’。

语言模型得分信息，用于显示相关词替换检索词前后的检索语句的语言模型得分。其中，该方法还包括基于大规模用户搜索行为数据训练N-gram语言模型获取上述语言模型。

其中，上述权重值信息用于表示相关词的权重。

其中，上述统计特征的计算方式同样用于步骤S180，计算每个相关词之间的统计特征。

下面参考图6描述根据本申请一实施例的一种搜索系统。

图6示出了根据本申请一实施例的搜索系统的示意图。

一种搜索系统300，包括相关词词库存储装置320，相关词获取装置340，搜索装置360，排序装置380，置信度计算装置390。

相关词获取装置340连接相关词词库存储装置320，并基于相关词词库存储装置320获取检索词的相关词。搜索装置360基于上述检索词和检索词的相关词进行检索。置信度计算装置390基于置信度计算模型计算检索词与其对应的每个相关词之间的置信度。排序装置380，根据置信度计算装置390计算的对应的置信度对搜索装置360检索所得到的结果进行排序。

这样，通过该搜索系统300，可以针对检索词找到其对应的相关词，根据检索词和其对应的相关词进行检索，扩大了搜索的范围，进一步扩大了搜索结果，提高了检索到目的文件的概率。可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的好的搜索结果无法召回的现象发生。

下面参考图7描述根据本申请另一实施例的一种搜索系统。

图7示出了根据本申请另一实施例的搜索系统的示意图。

上述搜索系统300还可以包括相关词词库建立装置310和相关词置信度计算模型建立装置350。

上述相关词词库建立装置310连接相关词词库存储装置320，用于通过上述挖掘相关词的方法以建立上述相关词词库。

参考图8描述了根据图7所示实施例相关词词库建立装置310的示意图，用于建立相关词词库。

图8示出了图7所示实施例相关词词库建立装置310的示意图。

上述相关词词库建立装置310可以包括：平行句获取模块311，分词器313，词对齐模块315，共现频率获取模块317，相关词确定模块319和语境获取模块318。

平行句获取模块311，基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对，分词器313对每组平行句对进行分词处理，词对齐模块315将分词处理后的平行句对进行词对齐处理以获取第一对齐词对，共现频率获取模块317计算第一对齐词对的共现频率，相关词确定模块319将共现频率高于预定阈值的第一对齐词对确定为相关词以组成相关词词库。

这样，通过该相关词词库建立装置310，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率，也可以根据预定阈值的不同，获取相似度不同的相关词。

通过建立相关词词库，可以获取该检索词的所有相关相关词，该相关词不仅包括检索词的同义词(可以包括强同义词和语境同义词)，还包括了更广覆盖程度的相关词。通过上述挖掘相关词的方法，可以挖掘出更高相关度的相关词，也可以扩大检索词搜索的范围，提高找到更好的搜索结果的概率。

另外，上述分词器313还用于对检索语句进行分词处理以获取检索词。当用户输入检索语句时，通过将检索语句进行分词，从而获取若干检索词，从而通过该检索方法检索出与上述若干检索词相关的检索结果，进一步扩大了搜索的范围。

进一步地，上述相关词词库建立装置310还包括语境获取模块318，用于获取上述相关词的上下文语境词。

下面参考图9为图7所示实施例相关词置信度计算模型建立装置350的示意图。

图9示出了图7所示实施例相关词置信度计算模型建立装置350的示意图。

相关词置信度计算模型建立装置350可以包括线性模型过滤模块352和训练模块354。

线性模型过滤模块352用于使用线性模型过滤大规模用户搜索行为数据以获取第二对齐词对。

上述线性模型可为简单线性模型，进一步地，该简单线性模型可以为用人工标注的少量(可以为万级别)词对，使用上述词对之间的统计特征，用简单线性回归模型拟合的线性模型。上述人工标注的词对数量较少，并且模型简单，因此使用该模型输出的置信度精度不高。通过该线性模型过滤上述大规模用户搜索行为数据获取第二对齐词对，该第二对齐词对为较差词对，是指在当前查询词语境下，不应该出现的错误词对，或者说违反用户意图的词对。例如，用户搜索“宝宝吃奶”，获取“宝宝喝奶”是一个好词对；然而“什么水果好吃”，变成“什么水果好喝”，就是一个转义的错误词对，即较差词对。

训练模块354分别连接相关词词库建立装置310、线性模型过滤模块352，以上述第一对齐词对为正样本，上述第二对齐词对为负样本，基于GBDT算法训练该正样本和负样本，获取相关词置信度计算模型。

参考图10，图7所示实施例置信度计算装置390可以包括置信度计算模块392和特征值提取模块394。

特征值提取模块394提取每个检索词与其对应的每个所述相关词之间的特征值，置信度计算模块392将上述特征值作为置信度计算模型的输入，基于该置信度计算模型计算上述置信度。

参考图11为图10所示实施例特征值提取模块394的示意图。

其中，特征值提取模块394还可以包括相关程度信息获取单元3941，可替换程度信息获取单元3942，共现关系信息获取单元3943，语言模型得分信息获取单元3944，权重值信息获取单元3945和语言模型获取单元3946中的至少一个。

相关程度信息获取单元3941，用于获取相关程度信息。相关程度信息用于衡量每个检索词与每个对应的相关词之间的相关程度。

可替换程度信息获取单元3942，用于获取可替换程度信息。可替换程度信息用于衡量在相关词的上下文语境中，检索词与相关词之间的可替换程度。

共现关系信息获取单元3943，用于获取共现关系信息。其中，共现关系信息用于衡量检索词之间的共现关系。

语言模型得分信息获取单元3944，用于获取语言模型得分信息。其中，语言模型得分信息用于显示相关词替换检索词前后的检索语句的语言模型得分。

权重值信息获取单元3945，用于获取权重值信息。其中，权重值信息用于表示相关词的权重。

进一步地，特征值提取模块394还可以包括语言模型获取单元3946。语言模型获取单元3946用于基于大规模用户搜索行为数据训练N-gram语言模型获取上述语言模型。

其中，上述排序装置380为通过排序模型根据对应的置信度信息对使用检索词和对应的相关词进行检索所得到的结果进行排序。其中，上述排序模型可以为根据现有快速排序算法进行排序的快速排序模型。

进一步地，上述排序装置380还可以通过上述排序模型根据检索语句和检索资源页面信息对检索资源进行初排序。该初排序为一般的搜索过程，也可以通过设定检索程度限定，达到预定得分的检索结果才可以进入再排序。在初检索结果较多时，可以减少再排序的工作量。也可以在用户要求只显示精确度高的搜索结果时，使用该双重排序方法。

根据相关词进行搜索不仅涵盖了同义词的高频，还更注重了中低频的检索词，尤其是在检索资源比较少的时候，使用相关词进行搜索，最大程度地获取到检索信息。这样，通过该搜索系统，可以针对检索词找到其对应的相关词，使用检索词和相关词进行检索，扩大了搜索的范围，扩大了搜索结果；可以防止词语本身与检索词并不一致，但是语义上与检索词非常相时，这样的搜索结果无法召回的结果发生。

上文中已经参考附图详细描述了根据本申请的挖掘相关词的方法、搜索方法和搜索系统。

此外，根据本申请的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本申请的方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

其中，图12示出了根据本发明实施方式提供的计算设备的结构框图。该计算设备可以实施为各种类型的计算机装置，例如台式机、便携式计算机、平板电脑、智能手机、个人数据助理(PDA)、智能穿戴设备，或者其他类型的计算机装置，但是不限于任何特定形式。计算机可以包括处理模块1100，存储子系统1200，输入装置1300、显示器1400、网络接口1500，以及总线1600。

处理模块1100可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理模块1100可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1100可以使用定制的电路实现，例如特定用途集成电路(application specific integrated circuit，ASIC)或者现场可编程逻辑门阵列(field programmable gate arrays，FPGA)。在一些实施方式中，处理模块100可以是类似的电路执行存储在自身上的可执行指令。在另外一些实施方式中，处理模块1100可以执行存储在存储子系统1200上的可执行指令。

存储子系统1200可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理模块1100或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储子系统1200可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储子系统1200可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。在一些实施方式中，存储子系统1200能够存储一个或多个能被处理模块1100执行的软件程序或需要调用的资源文件，资源文件可以包含一些第三方库，包括但不限于音频库、视频库、2D图形库、3D图形库。

用户界面可以由一个或多个用户输入装置1300、显示器1400，和/或一个或多个其他用户输出设备提供。输入装置1300可以包括用户向计算机输入信号的装置，计算机可以解释这些信号包含有特定的用户请求或信息。在一些实施方式中，可以通过键盘向用户界面输入网址，显示输入网址对应的网页内容。在一些实施方式中，输入装置300可以包含一些或所有的键盘按钮、触摸屏、鼠标或其他定点设备、滚轮、点击轮、转盘、按键、开关、小型键盘、麦克风等等。

显示器1400可以显示由计算机生成的图像，可以包括各种类型的图像设备，例如阴极射线管(CRT)、液晶显示器(LCD)、发光二极管(LED)(包括有机发光二极管(OLED))、投射系统等等与其他支持电子装置(例如DAC、ADC、信号处理器等等)的集合。在一些实施方式中，也可能额外提供其他用户输出设备，或者取代显示器1400，例如信号灯、扬声器、触觉传感器、打印机等。

在一些实施方式中，用户界面可以通过图形用户界面提供。在显示器1400中的某些区域定义一些可视的图形元素作为用户通过输入装置1300选择的交互对象或者控制对象。例如，用户可以操作用户输入装置1300移动屏幕上的指定位置输入网址，控制在显示器1400上显示该网址对应的网页内容。在一些实施方式中，可以识别用户手势的触摸设备作为输入设备，这些手势可以但不必须与显示器1300上的阵列相联系。

网络接口1500为计算机提供声音和/或数据通讯功能。在一些实施方式中，网络接口1500可以包括射频收发器来传递声音和/或数据(例如使用蜂窝式电话技术，例如3G、4G或EDGE、WIFI的数据网络技术)、GPS接受模块和/或其他模块。在一些实施方式中，网络接口1500可以提供额外的无线网络连接或替代无线接口。网络接口1500可以是硬件(例如天线、调制解调器、编解码器以及其他模拟和/或数字信号处理电路)和软件模块的结合。

总线1600可以包括各种连接计算机内部各部件的系统、外部设备和芯片总线。例如总线1600将处理装置1100和存储子系统1200连接，还可以连接输入装置1300和显示器1400。总线1600也可以使得计算机通过网络接口1500与网络连接。在这种情况下，计算机可以作为多个联网计算机设备的一部分。计算机的任意或所有部件都可以在本发明的实施方式中协调使用。

一些实施方式中包含电子元件，例如微处理器、在计算机可读存储媒介中存储有计算机指令和数据的存储器。在具体实施方式部分描述的许多特征都可以通过执行存储在计算机可读存储媒介上的计算机指令的方法步骤实现。当这些计算机指令被执行，计算机处理单元完成指令的各种功能。程序指令或计算机编码的实施方式可以是机器码，例如使用计算机、电子元件或待解析器的微处理器编译其他高级语言得到的代码。

需要理解的是，计算机是示意性的。计算机可以具有其他没有具体描述的功能(例如移动通话、GPS、电源管理，一个或多个摄像头、各种用于连接外部设备的连接端口或附件等等)。进一步，此处对计算机1100涉及的特定功能模块进行了描述，这些功能模块的描述是为了便于描述，而且也不意味着对功能部件特定的物理配置。而且，这些功能模块不需要与物理模块一一对应。模块可以被配置成用来完成各种操作，例如通过编程或设置合适的控制电路，模块也可能会根据初始设置重新被配置。本发明的实施例可以在各种设备包括电子设备中，通过使用硬件和软件的结合来实现。

附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种挖掘相关词的方法，包括：

基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

对每组所述平行句对进行分词处理；

对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对；

计算所述第一对齐词对的共现频率；

当所述共现频率高于预定阈值时，将所述第一对齐词对确定为相关词。
根据权利要求1所述的方法，其中，所述对每组所述平行句对进行分词处理的步骤之前，所述方法还包括：

根据两个句子的字面相似度，滤除含义不同的平行句对。
根据权利要求1所述的方法，其中，在将所述第一对齐词对确定为相关词之后，所述方法还包括：

记录所述相关词的上下文语境词。
根据权利要求1所述的方法，其中，

所述词对齐处理包括规则词对齐处理和/或统计词对齐处理；

所述规则词对齐处理包括字面完全相同词对齐处理、字面部分相同词对齐处理或临近词对齐处理中的至少一种；

所述统计词对齐处理为使用GIZA++工具进行统计词对齐处理。
根据权利要求1所述的方法，还包括：

获取能够体现所述相关词之间的相关度的统计特征；

基于所述统计特征，采用梯度提升决策树(GBDT)算法，获取所述相关词置信度计算模型。
根据权利要求5所述的方法，其中，所述方法还包括：

使用线性模型过滤所述大规模用户搜索行为数据获取第二对齐词对；

所述基于所述统计特征，采用梯度提升决策树(GBDT)算法，获取所述相关词置信度计算模型的步骤包括：

以所述第一对齐词对为正样本，所述第二对齐词对为负样本，基于所述统计特征，采用梯度提升决策树(GBDT)算法，训练所述正样本和所述负样本，获取所述相关词置信度计算模型；

其中，所述相关词置信度计算模型为GBDT非线性回归模型。
一种搜索方法，包括如下步骤：

基于相关词词库获取检索词的相关词；

基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。
根据权利要求7所述的方法，其中，在基于相关词词库获取检索词的相关词的步骤之前，所述方法还包括：

基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

对每组所述平行句对进行分词处理；

对所述分词处理后的平行句对进行词对齐处理，以获取第一对齐词对；

计算所述第一对齐词对的共现频率；

当所述共现频率高于预定阈值时，将所述第一对齐词对确定为相关词。
根据权利要求8所述的方法，其中，在基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度的步骤之前，所述方法还包括：

获取能够体现所述相关词之间的相关度的统计特征；

基于所述统计特征，采用梯度提升决策树(GBDT)算法，获取所述相关词置信度计算模型。
根据权利要求9所述的方法，其中，所述相关词词库是通过根据权利要求2、3、4、6中任何一项所述的方法建立。
根据权利要求9所述的方法，其中，在基于相关词词库获取检索词的相关词的步骤之前，所述方法还包括：

对检索语句进行分词处理以获取所述检索词。
根据权利要求11所述的方法，其中，基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度的步骤包括：

获取每个所述检索词与对应的每个所述相关词之间的特征值；

将所述特征值作为所述置信度计算模型的输入，基于所述置信度计算模型计算所述置信度。
根据权利要求12所述的方法，其中，所述特征值包括：

相关程度信息，用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息，用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息，用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息，用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息，用于表示所述相关词的权重。
根据权利要求13所述的方法，其中，所述相关程度信息包括第一翻译概率P₁和/或第二翻译概率P₂；

count₁(A，·)＝∑_jcount₁(a，w_j)，count₁(·，A′)＝∑_icount₁(w_i，A′)；

其中，检索词A与相关词A’构成第一词对(A，A’)，count₁(A，A’)表示在平行句对中第一词对(A，A’)被对齐的次数，count₁(A，·)表示在平行句对中检索词A被对齐的总次数，count₁(·，A′)表示在平行句对中相关词A’被对齐的总次数，w_j表示在平行句对中所有与检索词A对齐的词中的第j个，w_i表示在平行句对中所有与相关词A’对齐的词中的第i个，count₁(A，w_j)表示在平行句对中检索词A与词w_j对齐的次数，count₁(w_i，A’)表示在平行句对中词w_i与相关词A’对齐的次数，i和j均为自然数。
根据权利要求13所述的方法，其中，所述可替换程度信息包括第一可替换程度score(D，Q)和/或第二可替换程度score(D，Q′)；

其中，检索词A与相关词A’构成第一词对(A，A’)，

检索词A与相关词A’的所有上下文词作为文档D，|D|为D的长度，

Q为检索语句，q_i为所述检索语句Q的第i个检索词，n是所述检索语句Q中检索词的总个数，

Q′为检索词A附近的m个词的检索词组合，m＜n，q′_j为所述检索词组合Q′的第j个检索词，

avgdl为检索词A的所有相关词的上下文构成的文档的平均长度，

k₁为第一常数，b为第二常数，

f(q_i，D)表示qi在文档D中的出现频率，

f(q′_j，D)表示q′_j在文档D中的出现频率。
根据权利要求13所述的方法，其中，所述共现关系信息包括基于共现关系指数PMI得到的第一共现关系信息和/或第二共现关系信息，其中，

count₂(A，·)＝∑_jcount₂(a，w_j)；

count₂(·，B)＝∑_icount₂(w_i，B)；

count₂(·，·)＝∑_i，jcount₂(w_i，w_j)；

count₂(A，·)表示在检索资源中检索词A与其它检索词同时出现的总次数，count₂(·，B)表示在检索资源中检索词B与其它检索词同时出现的总次数，count₂(A，B)表示在检索资源中两个检索词A、B同时出现的次数，w_j表示在检索资源中所有与检索词A同时出现的词中的第j个，w_i表示在检索资源中所有与相关词B同时出现的词中的第i个，count₂(A，w_j)表示在检索资源中两个检索词A、w_j同时出现的次数，count₂(w_i，B)表示在检索资源中两个检索词w_i、B同时出现的次数，count₂(w_i，w_j)表示在检索资源中两个检索词w_i、w_j同时出现的次数，i和j均为自然数；

第一共现关系信息是检索词与检索语句中其它词的共现关系指数PMI的平均值；

第二共现关系信息是相关词与检索语句中其它词的共现关系指数PMI的平均值。
根据权利要求13所述的信息检索方法，其中，还包括基于大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。
根据权利要求7或11所述的方法，其中，所述根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序的步骤，为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。
根据权利要求18所述的方法，其中，还包括所述排序模型根据所述检索语句和检索资源页面信息对所述检索资源进行初排序的步骤。
根据权利要求19所述的方法，其中，

所述检索资源为网页资源和/或文档资源。
一种搜索系统，包括：

相关词词库存储装置；

相关词获取装置，用于基于所述相关词词库存储装置存储的相关词词库获取检索词的相关词；

置信度计算装置，用于基于相关词置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

排序装置，用于根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。
根据权利要求21所述的搜索系统，其中，

还包括相关词词库建立装置，用于建立所述相关词词库，包括：

平行句获取模块，用于基于大规模用户搜索行为数据获取采用不同表述形式来表达相同含义的平行句对；

分词器，用于对每组所述平行句对进行分词处理；

词对齐模块，用于将所述分词处理后的平行句对进行词对齐处理以获取第一对齐词对；

共现频率获取模块，用于计算所述第一对齐词对的共现频率；

相关词确定模块，用于将共现频率高于预定阈值的所述第一对齐词对确定为相关词。
根据权利要求22所述的搜索系统，其中，所述相关词词库建立装置还包括：

语境获取模块，用于获取所述相关词的上下文语境词。
根据权利要求22所述的搜索系统，其中，还包括相关词置信度计算模型建立装置，用于建立所述相关词置信度计算模型，包括：

统计特征获取模块，用于获取能够体现所述相关词之间的相关度的统计特征；

训练模块，用于基于所述统计特征，采用GBDT算法，获取所述相关词置信度计算模型。
根据权利要求24所述的搜索系统，其中，所述搜索系统还包括：

线性模型过滤模块，用于使用线性模型过滤所述大规模用户搜索行为数据以获取第二对齐词对；

所述训练模块，进一步用于以所述第一对齐词对为正样本，以所述第二对齐词对为负样本，基于GBDT算法训练所述正样本和所述负样本，获取所述相关词置信度计算模型；

所述相关词置信度计算模型为GBDT非线性回归模型。
根据权利要求22所述的搜索系统，其中，

所述分词器还用于对检索语句进行分词处理以获取检索词。
根据权利要求26所述的搜索系统，其中，所述置信度计算装置包括：

特征值提取模块，用于提取每个所述检索词与对应的每个所述相关词之间的特征值；

置信度计算模块，用于将所述特征值作为所述相关词置信度计算模型的输入，基于所述相关词置信度计算模型计算所述置信度。
根据权利要求27所述的搜索系统，其中，所述特征值提取模块包括：

相关程度信息获取单元，用于获取相关程度信息，所述相关程度信息用于衡量每个所述检索词与每个对应的相关词之间的相关程度；和/或

可替换程度信息获取单元，用于获取可替换程度信息，所述可替换程度信息用于衡量在所述相关词的上下文语境中，所述检索词与所述相关词之间的可替换程度；和/或

共现关系信息获取单元，用于获取共现关系信息，所述共现关系信息用于衡量所述检索词之间的共现关系；和/或

语言模型得分信息获取单元，用于获取语言模型得分信息，所述语言模型得分信息用于显示所述相关词替换所述检索词前后的检索语句的语言模型得分；和/或

权重值信息获取单元，用于获取权重值信息，所述权重值信息用于表示所述相关词的权重。
根据权利要求28所述的搜索系统，其中，所述特征值提取模块还包括：

语言模型获取单元，用于基于所述大规模用户搜索行为数据训练N-gram语言模型获取所述语言模型。
根据权利要求21所述的搜索系统，其中，所述排序装置为通过排序模型根据所述对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。
根据权利要求30所述的搜索系统，其中，所述排序装置还用于通过所述排序模型根据检索语句和检索资源页面信息对所述检索资源进行初排序。
一种计算设备，包括：

一个或多个处理器；

存储器；

其中所述存储器被配置为执行：

基于相关词词库获取检索词的相关词；

基于置信度计算模型计算所述检索词与每个所述相关词之间的置信度；

根据对应的置信度对使用所述检索词和所述相关词进行检索所得到的结果进行排序。
一种在其上记录有用于执行权利要求1-20中任一项所述方法的程序的计算机可读记录介质。