WO2008154823A1

WO2008154823A1 - Procédé, système et dispositif de recherche

Info

Publication number: WO2008154823A1
Application number: PCT/CN2008/070615
Authority: WO
Inventors: Liang Sun
Original assignee: Tencent Technology (Shenzhen) Company Limited
Priority date: 2007-06-21
Filing date: 2008-03-28
Publication date: 2008-12-24
Also published as: CN101075252A

Description

一种搜索方法、系统和装置

技术领域

本发明属于搜索技术领域，尤其涉及一种搜索方法、系统和装置。发明背景

网络搜索中，用户输入的检索表达式为检索串，检索串中可以包含一个或者多个关键词，中间采用空格隔开，空格表示其前后的关键词将进行逻辑与（AND )操作。关键词为一个或者多个语素组成的字符串，分词系统可以对关键词进行切分。如果切分出 2个语素，则称该关键词为 2元复合语素，如果切分出 3个语素，则称该关键词为 3元复合语素。语素为最小能够表达独立语义的语言单位，是不可分的。在中文中，语素为分词系统切分出的中文词，在英文中，语素为基本的英文单词或者字母。

在对检索串进行搜索时，需要在较短的时间内找出由所有包含该检索串的文档组成的文档集合，该文档集合通常使用文档标识（ID )列表来表示。通过文档 ID对被检索的文档进行唯一编号，以保证每个文档对应一个唯一的 ID , 实现文档的定位。

在网络搜索引擎所应用的各种技术中，后台索引技术是最为核心的技术，它直接关系到索引结构的组织和访问方式。不同的索引结构带来的索引访问开销差别很大。理论上，可以将整个索引文件都放到内存中，能够提供超过文件索引访问速度 3-4个数量级以上的访问速度，但在实际应用环境中，由于网络服务器的内存容量总是不足，为了使单台网络服务器能够支持更大的索引文档数量，一般采用文件索引方式。

现有的文件索引主要利用倒排索引方式实现。倒排索引是用来加速对特定检索串进行检索的数据结构，它可以以磁盘文件形式出现，也可以加载到内存中，倒排索引中包括每个检索关键词与文档的对应关系表：

<di,Wd,_t,loci, loc₂, ... loCfdi,t><d2> ... <df_t... >

其中， t表示关键词， di表示包含 t的一系列文档的 ID , W_d,t表示 t 在文档 4中的权值， lo 表示 t在文档中出现的每个地方的位置偏移 ( offset ) , 一般用两个字节来表示。

倒排索引文件由 N个上述数据项组成， N的数量等于整个文档集合在进行分析过程中得到的所有不同的关键词的总和。通过上述数据结构，可以快速进行针对特定检索关键词的查找。

当用户输入的检索串能被切分出 2个或者 2个以上的语素时，为了得到同时包含这两个语素的文档 ID列表，在分别获取包含不同语素的文档 ID列表后，必须进行 AND操作，并对 AND操作后的文档 ID列表再进行检索关键词的位置偏移匹配操作，其中，关键词命中文档中的位置偏移可以单独用文件来存储，从而保证进行 AND操作的多个语素在同时出现的文档中的前后相邻，可见当检索串能被切分出 2个或者 2个以上的语素时，需要进行多次磁盘文件的输入输出（10 )访问，导致检索串的搜索速度减低。

进一步的，当用户输入的检索串由 2个或者 2个以上语素组成，并该检索串中包括如 "中国" ， "网" ， "我们" 等高频语素时，读取文档 ID列表和位置偏移列表的数据量很大。高频语素的索引数据量通常占到整个倒排索引文件数据量的很大比例，所以很难在短时间内读完高频语素的索引数据，从而使搜索的大部分时间都消耗在磁盘文件 10 的读取操作上，降低了检索串的搜索速度和系统整体的并发能力，同时加大了网络服务器硬件设备的损耗，导致网络服务器容易发生故障。发明内容

本发明实施例提供了一种搜索方法、系统和装置，能够提高对长检索串的检索速度。

一种搜索方法，包括：

将待检索的检索词切分为至少一个复合语素，所述复合语素中包含至少两个语素；

根据所述至少一个复合语素以及预先建立的以复合语素为索引词的文件索引进行搜索；确定包含所述检索词的文档。

一种索引方法，包括：

从文档中获取索引词，所述索引词为复合语素，所述复合语素中包含至少两个语素；

建立对应所述文档和所述复合语素的索引表项。

一种搜索系统，包括：

索引数据库，用于存储以复合语素为索引词的文件索引，所述复合语素中包含至少两个语素；

检索器，用于将待检索的检索词切分为至少一个复合语素，根据所述切分后的至少一个复合语素，对所述索引数据库进行搜索；确定包含所述检索词的文档。

一种搜索装置，包括：

检索分词模块，用于将待检索的检索词切分为至少一个复合语素；索引查找模块，用于^^据所述至少一个复合语素，查找预先建立的以复合语素为索引词的文件索引，获取所述每个复合语素对应的索引表项，所述索引表项中包括文档的标识；

逻辑处理模块，用于对所述获取的索引表项依次进行逻辑与操作，获取同时包含所述至少一个复合语素的文档的标识；搜索结果输出模块，用于确定包含所述检索词的文档。

在本发明实施例中，以复合语素为索引词建立文件索引，将待检索的检索词切分为至少一个复合语素，根据切分的复合语素进行搜索。对比将单一语素作为索引词的检索方式，在本发明实施例中，以复合语素为索引词，从而减少了切分检索词后生成的索引词的数量，减少了文档

ID列表的读取次数，更进一步的，采用复合语素为索引词之后，降低了每个索引词对应的文件索引数据量，从而减少了每次读取文档 ID列表时的 10访问次数。可见本发明实施例有效地提高了检索串的搜索速度，并保证了网络搜索在大规模并发访问情况下的稳定性，节约了网络服务器的硬件综合成本。附图简要说明

图 1是本发明实施例提供的网络搜索方法的实现流程图；

图 2是本发明实施例提供的通过多元复合语素进行网络搜索的实现流程图；

图 3是本发明实施例适用的网络搜索系统的架构图；

图 4是本发明实施例提供的网络搜索引擎的结构图；

图 5是本发明实施例提供的检索器的结构图。实施本发明的方式为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，以复合语素为索引词建立文件索引，将待检索的检索词切分为至少一个复合语素，根据切分的复合语素进行搜索。在本发明实施例中的检索词至少包含 2个语素，即检索词可以被切分为至少一个复合语素。

图 1示出了本发明实施例提供的搜索方法的流程，该流程包括以下步骤。

在步骤 S101 中，以复合语素为索引词建立文件索引，该复合语素中包含至少两个语素。

一般情况下，语素之间的前后连接（共现）情况是固定的，例如两个语素 A和 B同时相邻连接的概率是稳定的，不会随着文档集合数据的变化和文档内容变化发生不稳定的跳跃性变化。也就是说，能够连接在语素 A之后的语素的个数是有限的，而且种类也是固定的，不会按排列组合理论乘法方式增长。因此，如果对每个文档中切分出来的前后两个基本的语素 Ai和 A_i+1进行两两前后组配形成 2元复合语素 Ai A_i+1时，其中 i为大于 0的整数，新增的 2元复合语素 A₁₊₁的索引数据量不会无限制膨胀。同理，在一个文档中，顺序相邻的 3个基本语素 A₁₊₁和 A₁₊₂也能组合成 3元复合语素 _{+1 +2}, 3元复合语素 _{+1 +2}对应的索引数据量也不会无限制膨胀。由于多元复合语素中包含的语素越多，索引数据量膨胀的越大。为了避免索引数据量的过度膨胀，在本发明实施例中复合语素包括 2个语素或者 3个语素。

本发明实施例在建立文件索引时，以复合语素为索引词动态创建文件索引，可以有效提高长串检索和长句精确检索的速度。

以下通过示例对本发明实施例中文件索引的建立过程进行说明，殳设有多个文档，文档的内容分别为：

文档内容

Docl …北京大学计算机系… 文档内容

Doc2 …北京大学主页…

Doc3 …计算机的发展…

首先，获取每个文档的索引词。获取索引词可以通过现有的分词系统实现。通常分词系统生成单语素的分词结果，在本发明实施例中，可以对分词结果进行复合后，生成复合语素。将获取的复合语素作为文档的索引词，例如 "北京大学" 、 "计算机" 等。然后，根据获取的索引词建立文件索引，在本发明实施例中，文件索引采取倒排索引方式。

倒排索引中的对应关系为 "索引词" 对 "拥有该索引词的所有文档标只" ，：¾口下表所示：

在倒排索引中，除了记录索引词所在文档的文档标识外，还需要记录索引词在文档中出现的频率和位置偏移信息。位置偏移信息一般为某索引词是文档中的第几个索引词。假设索引词 "北京大学" 在文档 1中出现了 2次，分别为文档 1的第 3、 7个索引词，在文档 2中出现了 1 次，为第 2个索引词，；索引词 "计算机"在文档 1中出现了 1次，为文档 1中的第 4个索引词，在文档 3中出现了 1次，为文档 2的第 1 个索引词 ......，此时的索引结构变为：

索引词文档标识 [出现频率] 位置偏移北京大学 1[2],2[1] 3,7,1 索引词文档标识 [出现频率] 位置偏移计算机 1[1],3[1] 4,1

倒排索引实现时，将上面三列分别作为词典文件（ Term Dictionary )、频率文件 (frequencies)和位置文件（positions)保存。其中，词典文件不仅保存有每个索引词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该索引词的频率信息和位置偏移信息。

在本发明实施例中，除了采用上述倒排索引方式之外，为了降低复合语素在文档中位置偏移信息的数据量，提高检索速度和效率，还可以通过有损压缩模式来存储复合语素在文档中的位置偏移信息。以下进行详细说明。

在本发明实施例中，将每个文档分成多个区段，其中，区段可以为文档中的 "句" 或者 "段" ，将复合语素所在区段在文档中的位置偏移信息作为该复合语素在文档中的位置偏移信息。区段的数量以方便对存储位置偏移信息的字节数进行标识为宜，划分的区段越多，检索的精确度越高。

以位置偏移信息采用 8个字节（64个比特）来存储为例，文档中区段的数量可以为 64个，依次将整个文档切分为 64个区段，如果文档内艮长，则第 63 个区段将容纳后面所有文本内容，区段位置偏移从 0 开始，最大为 63 , 每个区段的位置偏移信息采用 1个比特存储。如果某个复合语素在第 M个区段出现，则将 64比特中对应第 M个区段的比特置为 1 , 否则为 0。当多个复合语素进行位置偏移匹配时，对所有的区段偏移信息按比特进行 AND操作，当对应的比特为 1时，表示多个多元复合语素同时出现在某个文档的相应区段中。在对网络中的网页建立倒排索引时，由于网页内容经过页面分析，往往没有明确的句分隔符，本发明实施例中，可以根据以下条件切分区段。

1. 如果文档中有明确的句分隔符，例如 "。 " "！ " "？ " 等，则根据文档中的自然句切分区段。

2. 如果文档中没有明确的句分隔符，则区段包含的语素个数应满足一定数量，以保证区段具有合理的文本长度。在本发明实施例中，可以设置区段包含的语素大于 6个，小于等于 32个，相当于一个普通自然句的文本长度。

在步骤 S102 中，将待检索的检索词切分为至少一个复合语素进行网给搜索。

图 2 示出了本发明实施例提供的根据多元复合语素进行搜索的流程，详述如下。

在步骤 S201中，将将待检索的检索词切分为至少一个复合语素。切分的复合语素的数量根据检索关键词而定，为了提高检索的精确度和检索效率，在对检索关键词进行切分时，优先选择高元复合语素，如 3元复合语素等。

在步骤 S202 中，根据切分的复合语素，查询文件索引，获取每个复合语素对应的索引表项，该索引表项为包含复合语素的文档 ID集合。

在步骤 S203 中，对获取的索引表项依次进行逻辑与操作，获取同时包含每个复合语素的文档 ID列表。

在步骤 S204 中，根据每个复合语素在文档中的位置偏移信息进行位置偏移匹配，获取位置偏移匹配的文档的 ID列表。

在步骤 S205中，根据位置偏移匹配文档 ID列表中的每个文档的文档 ID, 输出对应的搜索结果。图 3示出了本发明实施例适用的网络搜索系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

网络客户端 10—般为客户用个人计算机（PC ) 、移动终端、个人数字助理（Personal Digital Assistant, PDA )等电子通信设备，其内部装载、运行有网络浏览器 11。网络客户端 10通过有线或者无线方式连接到网络 20, 进而连接到网络服务器 30。其中，网络 20 可以是因特网 ( Internet ) , 内联网等，网络服务器 30中装载有搜索引擎 31。

如图 4所示，搜索引擎 31连接到网络 20, 搜索引擎 31中的搜集器 311 自动访问网络 20上的网站，跟踪网站中的超文本链接，并根据关键词提取在网站上遇到的每个文件，进行相应解析后存储到原始数据库 312。搜集器 311—般通过软件，如 "网络爬行器（Crawler ) "或者 "网络蜘蛛 ( Spider ) " 等实现。

在本实施例中，原始数据库 312是由文件记录组成的数据集，该文件记录并可以通过网络 20上的 Web网进行访问。数据集中的每个文件记录通常包含一个可供网络浏览器 11 访问的网址，例如统一资源定位符（ Uniform Resource Locator, URL ) ；预定义的关键词；一个短的摘要，通常为该文件的几行或者前几行；还可能包含如其超文本标记语言 ( HTML )描述段中提供的文件描述。为了降低文件存储量，原始数据库 312中也可以存储原始网页文件过滤掉图片、音视频数据、超文本链接语言（HTML )标签等数据后的文本内容。

索引器 313提取原始数据库 312中存储的文件的索引词，建立索引数据库 314。在本发明实施例中，提取时以复合语素作为文件的索引词。

索弓 I数据库 314可以以磁盘文件形式出现，也可以加载到内存中。在本发明实施例中，索引数据库 314采用倒排索引方式。倒排索引用来加速对特定检索串的检索，其结构是保存每个关键词对文档的对应关系表，即索引数据项。一个索引数据项中包含有该索引数据项对应的索引词、包含该索引词的一系列文档的标识、该索引词在每个文档中的出现频率、以及该索引词在每个文档中出现的位置偏移。索引数据库 314包括 N个索引数据项， N的数量等于整个索引数据库 314中在进行分析过程中得到的所有不同的索引词的总和。

在网络搜索时，用户通过网络浏览器 11在搜索引擎 31上输入检索串，向搜索引擎 31提交一个检索请求。检索器 315将检索串进行切分，生成至少一个复合语素，根据复合语素查询索引数据库 314, 进行网络搜索，并将搜索结果返回网络客户端 10。

图 5示出了本发明实施例中检索器的结构。参见图 5, 检索分词模块 3151 将待检索的检索词切分为至少一个复合语素，该复合语素可以包括 2个语素或者 3个语素。为了提高检索的精确度和检索效率，在对检索词进行切分时，可以优先将检索词切分为包含 3个语素的复合语素。

索引查找模块 3152根据检索分词模块 3151切分的复合语素，查询索引数据库 314,获取每个复合语素对应的索引表项。逻辑处理模块 3153 对获取的索引表项依次进行 AND操作，查找同时包含每个复合语素的文档 ID列表。位置偏移匹配模块 3154根据复合语素在文档中的位置偏移信息进行位置偏移匹配，保证复合语素前后位置相邻，这样得到的位置偏移匹配文档 ID列表基本都是需要的搜索结果。在本发明实施例中，复合语素在文档中的位置偏移信息为复合语素所在区段在文档中的位置偏移信息。搜索结果输出模块 3155根据位置偏移匹配文档 ID列表中的每个文档的文档 ID, 输出对应的搜索结果，返回给网络客户端 10。

在应用本发明实施例时，当待检索的检索词包括 n个语素，复合语素包括 m个语素时，其中 n为大于 1的整数， m为大于 1小于或等于 n 的整数，可以将检索词中 n个语素切分为 n-m+1个复合语素，复合语素包括检索词中 m个相邻的语素，即依次将检索词中相邻的 m个语素作为一个复合语素。

另外，在应用本发明实施例时，用户输入的检索串可以包括不止一个检索词，如 "北京大学" 。例如用户输入的检索串可以是 "北京大学专利" 或者 "北京大学发明专利" ，即检索串中同时包含其它检索词或者包含单语素词。此时可以采用本发明实施例对 "北京大学" 进行检索，采用现有的技术对 "专利" 或者 "发明专利" 进行检索，或者同样采用本发明实施例对 "发明专利" 进行检索，最后将 "北京大学" 对应的文档标识和 "专利" 对应的文档标识进行逻辑与操作，或者对 "北京大学"对应的文档标识和 "发明专利"对应的文档标识进行逻辑与操作，并进行相应的位置偏移匹配，从而得到该检索串的检索结果。

下面以不同类型的检索串为例，对本发明实施例的网络搜索过程进行说明。

1. 如果用户输入的检索串为 AB, 则直接查找 2元复合语素 AB的索引表项，进行一次磁盘文件的 10操作，可以得到对应的搜索结果。

2. 如果用户输入的检索串为 A BC, 即 A and BC, 则分别查找语素 A和 2元复合语素 AB的索引表项，然后进行正常 AND操作，保证返回的文档同时包含语素 A和多元语素 BC, 然后根据区段位置偏移信息进行位置偏移匹配，保证 A和 BC出现在同一个区段中，这样得到的对应的文档 ID列表基本都是需要的搜索结果。如果用户输入的检索关键词为 AB C, 即 AB and C时，与检索关键词为 A BC的情况类似。

3. 如果用户输入的检索串为 ABC, 则直接查找 3元复合语素 ABC 的索引表项，进行一次磁盘文件的 10操作，即可得到对应的搜索结果。

4. 如果用户输入的检索串为 ABCD,优先进行 3元复合语素的 AND 操作，对 3元复合语素 ABC和 BCD对应的索引表项进行 AND操作，然后进行区段位置偏移匹配，即可得到对应的搜索结果；

5. 如果用户输入的检索串为 ABCDEF, 其包括的语素个数 n为 6, 当采用 3元复合语素时，即复合语素包括的语素个数 m为 3时，将其切分为 4个，即 n-m+1个 3元复合语素，依次对 3元复合语素对应的索引表项进行 AND操作，例如 ABC&BCD&CDE&DEF。在本发明实施例中，对多元复合语素对应的索引表项依次进行 AND操作，而不是同时进行 AND操作。由于参与操作的 3元复合语素往往是低频语素，即包含该语素的文档数 4艮少，因此往往前几个多元复合语素进行完 AND操作，就得到很少的结果文档数，这往往就是需要的搜索结果。

可见，应用本发明实施例，可以提高检索串的搜索速度，并且能提高单台网络服务器的数据索引管理能力，保证单台网络服务器能够管理大量的文档，有效的提高了索引访问的速度，保证在大并发访问的条件下网络搜索的稳定性，同时又能节约网络服务器的硬件综合成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种搜索方法，其特征在于，包括：

2、如权利要求 1 所述的搜索方法，其特征在于，当所述检索词包括 n个语素，所述复合语素包括 m个语素时，所述将检索词切分为至少一个复合语素包括：

将所述检索词中 n个语素切分为 n-m+1个复合语素，所述复合语素包括所述检索词中 m个相邻的语素，其中 n为大于 1的整数， m为大于 1小于或等于 n的整数。

3、如权利要求 1 所述的搜索方法，其特征在于，所述根据所述至少一个复合语素以及预先建立的以复合语素为索引词的文件索引进行搜索包括：

分别根据所述至少一个复合语素，查询所述文件索引，获取所述每个复合语素对应的索引表项，所述索引表项中包括文档的标识；

对所述获取的索引表项依次进行逻辑与操作，获取同时包含所述至少一个复合语素的文档的标识；

4、如权利要求 3所述的搜索方法，其特征在于，进一步包括：根据预先设置的复合语素在文档中的位置偏移信息，获取位置偏移匹配的文^^的标只。

5、如权利要求 3 所述的搜索方法，其特征在于，所述复合语素在文档中的位置偏移信息为复合语素在文档区段中的位置偏移信息；所述根据预先设置的复合语素在文档中的位置偏移信息获取位置偏移匹配的文档的标识包括：

对所述至少一个复合语素的位置偏移信息进行逻辑与操作，当所述逻辑与操作的结果表示所述至少一个复合语素同时包含在一个区段时，获取所述区段对应的文档的标识。

6、如权利要求 1所述的搜索方法，其特征在于，进一步包括：对与所述检索词具有逻辑关系字符串进行检索，确定包含所述字符串的文档；

根据所述逻辑关系，对包含所述检索词的文档的标识与包含所述字符串的文档的标识进行逻辑运算；

确定满足检索条件的文档，在所述文档中所述检索词与所述第一检索词之间满足所述逻辑关系。

7、如权利要求 1至 6任一项权利要求所述的搜索方法，其特征在于，所述的文件索引为倒排索引，所述索引表项为倒排索引表项。

8、如权利要求 1至 6任一权利要求所述的搜索方法，其特征在于，所述复合语素包括 2个语素，或者 3个语素。

9、一种索引方法，其特征在于，包括：

建立对应所述文档和所述复合语素的索引表项。

10、如权利要求 9所述的索引方法，其特征在于，

所述索引表项包含所述文档的标识以及所述复合语素在所述文档中的位置偏移信息。

11、如权利要求 10所述索引方法，其特征在于，所述复合语素在文档中的位置偏移信息为：所述复合语素所在区段在所述文档中的位置偏移信息。

12、如权利要求 10所述的索引方法，其特征在于，所述区段为文档中的一个自然句，或者相当于一个自然句长度的文本。

13、如权利要求 10所述的索引方法，其特征在于，所述区段在文档中的位置偏移信息采用 1个比特表示，当所述区段中包含所述复合语素时，将所述比特置 1 , 当所述区段中不包含所述复合语素时，将所述比特置 0。

14、一种搜索系统，其特征在于，包括：

15、一种搜索装置，其特征在于，包括：

逻辑处理模块，用于对所述获取的索引表项依次进行逻辑与操作，获取同时包含所述至少一个复合语素的文档的标识；

搜索结果输出模块，用于确定包含所述检索词的文档。

16、如权利要求 15所述的索引方法，其特征在于，进一步包括：位置偏移匹配模块，用于根据预先设置的复合语素在文档中的位置偏移信息，获取位置偏移匹配的文档的标识。