WO2014206186A1

WO2014206186A1 - 一种用于生成词条信息的方法和装置

Info

Publication number: WO2014206186A1
Application number: PCT/CN2014/079220
Authority: WO
Inventors: 张伟; 李海波; 徐惠; 卢佳
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2013-06-28
Filing date: 2014-06-05
Publication date: 2014-12-31
Also published as: CN104252487B; CN104252487A

Abstract

提供一种用于生成词条信息的方法和装置。该方法包括：获取候选词；基于所述候选词进行搜索，以获取所述候选词的特征信息；根据所述候选词的特征信息，在多级分类索引信息中确定与所述候选词对应的分类索引；其中，所述分类索引对应至少一个分类相关网页；根据与所述分类索引信息对应的至少一个分类相关网页，来生成与所述候选词对应的词条信息。优点在于，能从与词条相关的专业网站中，全面地挖掘与词条相关的内容并自动生成词条信息，从而提高了词条信息的生成效率，并且能够获得更加全面、完整的词条信息。

Description

一种用于生成词条信息的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种用于生成词条信息的方法和装置。背景技术

在现有技术中，仅能依靠用户手动填写内容来生成百科词条的词条信息，然而，这种方式的效率较低，并且不能及时地对其进行更新；此外，还有一种方式是依据搜索相关词条所得到的网页内容来自动生成词条信息，但是，这种方式所获得的网页类型较为繁杂，且其内容不成系统，所生成的词条信息不够完善，并且，往往无法有效地利用与词条相关的专业类网站中的网页内容。发明内容

本发明的目的是提供一种用于生成词条信息的方法和装置。

根据本发明的一个方面，提供一种用于生成词条信息的方法，其中，所述方法包括以下步骤：

a获取候选词 ^

b基于所述候选词进行搜索，以获取所述候选词的特征信息； c才艮据所述候选词的特征信息，在多级分类索引信息中确定与所述候选词对应的分类索引；其中，所述分类索引对应至少一个分类相关网页；

d才艮据与所述分类索引信息对应的至少一个分类相关网页，来生成与所述候选词对应的词条信息。

根据本发明的一个方面，提供一种用于生成词条信息的词条生成装置，其中，所述词条生成装置包括：

第一获取装置，用于获取候选词；

第二获取装置，用于基于所述候选词进行搜索，以获取所述候选词的特征信息；

第一确定装置，用于才艮据所述候选词的特征信息，在多级分类索引信息中确定与所述候选词对应的分类索引；其中，所述分类索引对应至少一个分类相关网页；

第一生成装置，用于才艮据与所述分类索引信息对应的至少一个分类相关网页，来生成与所述候选词对应的词条信息。

本发明的优点在于，能够从与词条相关的专业网站中，挖掘与词条相关的内容并自动生成词条信息，从而提高了词条信息的生成效率，并且能够获得更加全面、完整的词条信息。附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图 1为根据本发明的一个方面的一种用于生成词条信息的方法流程图；

图 2为根据本发明的一个优选实施例的用于生成词条信息的方法流程图；

图 3为根据本发明的又一个优选实施例的用于生成词条信息的方法流程图；

图 4为根据本发明的又一个优选实施例的用于生成词条信息的方法流程图；

图 5为根据本发明的一个方面用于生成词条信息的词条生成装置的结构示意图；

图 6为根据本发明的一个优选实施例的用于生成词条信息的词条生成装置的结构示意图；

图 7为根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图；

图 8为根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图；附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式

下面结合附图对本发明作进一步详细描述。

图 1示意出了根据本发明的一个方面的一种用于生成词条信息的方法流程图。根据本发明的方法包括步骤 Sl、步骤 S2、步骤 S3和步骤 S4。

其中，根据本发明的方法通过计算机设备实现。所述计算机设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和 /或信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路 (ASIC), 可编程门阵列（FPGA )、数字处理器（DSP )、嵌入式设备等。所述计算机设备包括网络设备和 /或用户设备。其中，所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、 PDA, 游戏机、或 IPTV等。其中，所述用户设备所处的网络包括但不限于互联网、广域网、城域网、局域网、 VPN 网络等。

需要说明的是，所述用户设备以及网络仅为举例，其他现有的或今后可能出现的用户设备以及网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

参照图 1 , 在步骤 S1中，计算机设备获取候选词。

具体地，所述获取候选词的方式包括但不限于以下任一种方式：

1 ) 实时获取用户输入的查询序列，并将其作为候选词；

2 ) 由预获取的多个查询序列中选择一个作为候选词。

接着，在步骤 S 2中，计算机设备基于所述候选词进行搜索，以获取所述候选词的特征信息。

其中，所述特征信息包括一项或多项文本信息。其中，所述文本信息包括但不限于以下任一项：

a )词语信息； b )段落语言信息。

优选地，所述特征信息包括一项或多项文本信息以及各项文本信息的权重信息。

具体地，所述计算机设备基于所述候选词进行搜索，以获取所述候选词的特征信息的方式包括但不限于以下任一项：

1 ) 计算机设备在包含多个候选词及其对应的特征信息的词库中搜索，以获得与步骤 S1中所获得的候选词对应的特征信息。

2 ) 计算机设备通过第一预定搜索引擎，基于所述候选词执行搜索，以获取与所述候选词对应的一个或多个搜索结果网页；接着，计算机设备根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息。

其中，所述第一预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个搜索结果网页的搜索引擎。

其中，所述计算机设备根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式包括但不限于以下任一项： a ) 获取所述一个或多个搜索结果网页中所包含的至少一个关键词；获取所述至少一个关键词中的各个关键词的权重信息；基于所获得的各个关键词及其相应的权重信息，来确定与所述候选词对应的特征信息。

其中，所述权重信息根据以下至少任一项信息来确定： 1 ) 关键词在所述一个或多个搜索结果网页中的出现频率；

II ) 关键词在所述一个或多个搜索结果网页中的出现次数；

III ) 关键词在所述一个或多个搜索结果网页中出现的区域信息，例如，出现在网页标题部分，或者，出现在网页内容部分等。

优选地，所述权重信息基于各个关键词在所述一个或多个搜索结果网页中的词频反文档频率（TF-IDF, term frequency-inverse document frequency) 值来确定。

具体地，计算机设备对一个或多个搜索结果网页的网页内容进行切词处理，以获得至少一个关键词，并统计该至少一个关键词中的各个关键词的权重信息，接着，根据所获得的各个关键词及其权重信息，由该至少一个关键词中选择一个或多个关键词作为与候选词对应的特征信息。

优选地，计算机设备由与所述候选词对应的所有搜索结果网页中选择一个或多个搜索结果网页，并基于该所选择的搜索结果网页来确定与该候选词对应的特征信息。

根据本发明的第一示例，计算机设备在步骤 S1中获得的候选词包括 "马尔代夫" ，并且，计算机设备通过预定搜索引擎，如百度搜索引擎对 "马尔代夫" 进行搜索，并获得多个搜索结果网页。计算机设备选择在搜索结果中排名前十位的搜索结果网页 webl至 weblO作为与该候选词对应的一个或多个搜索结果网页。接着，计算机设备对所选择的十个搜索结果网页的网页内容进行切词以获得多个关键词，并统计每个关键词相对于该十个搜索结果网页的 TF-IDF值，且将所获得的 TF-IDF值作为各个关键词的权重信息；并且，计算机设备根据 TF-IDF值对各个关键词进行排序后选择排名前二十位的关键词，并将该排名前二十位的关键词及其各自对应的 TF-IDF值作为候选词 "马尔代夫" 的特征信息。

b )通过预定主题确定模型，根据所述一个或多个搜索结果网页中的各个网页的网页内容，来确定与所述一个或多个搜索结果网页对应的主题相关信息；接着，基于所确定的主题相关信息来确定与所述候选词对应的特征信息。

其中，所述预定主题确定模型用于对给定的文本信息通过预定模型来执行数据挖掘等操作，以获得与所述文本信息对应的主题相关信息。例如，潜在狄利克雷分配模型（LDA, Latent Dirichlet Allocation ) 、概率潜在语义分析模型（PLSA , Probabilistic Latent Semantic Analysis ) 、带标签的潜在狄利克雷分配模型（Labeled LDA , Labeled Latent Dirichlet Allocation)模型等。

其中，所述主题相关信息包括用于表征所述文本信息的一个或多个主题的信息，例如，用于表征所述文本信息的主题的多个关键词等。

优选地，所述主题相关信息还包括用于表征该一个或多个主题在所述文本中的权重的信息，例如，与用于表征所述文本信息的主题的多个关键词相对应的关键词权重等。

其中，本领域技术人员应可根据实际情况和需求确定所采用的主题模型，以及通过主题模型获得一个或多个主题相关信息的方 ^，匕 ϋ。

接着，在步骤 S3 中，计算机设备根据所述候选词的特征信息，在多级分类索引信息中确定与所述候选词对应的分类索引。

其中，所述多级分类索引信息包括多个基于预定拓朴结构相互关联的分类索引，其中，各个分类索引分别对应至少一个分类相关网页。

其中，确定多级分类索引信息的方式将在后续参照图 3所示的实施例中予以详述，并以引用的方式包含于此，在此不再赞述。

具体地，计算机设备获取所述候选词的特征信息与多级分类索引信息中的各个分类索引的至少一个分类相关网页之间的相似度，并基于相似度来确定与所述候选词对应的分类索引。

接着，在步骤 S4 中，计算机设备根据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息。

具体地，计算机设备由与所述分类索引相对应的至少一个分类相关网页中，获取与所述候选词相关的网页内容，以生成属于所述分类索引的、与所述候选词对应的词条信息。

其中，计算机设备由至少一个分类相关网页中获取与候选词相关的内容信息的方式包括：

计算机设备根据所述候选词及其特征信息，由所述至少一个分类相关网页中挖掘与所述候选词及其特征信息相对应的网页内容，作为与该候选词对应的词条信息的内容信息。

继续对前述第一示例进行说明，多级分类索引信息包括如下表 1 所示的基于预定的树状拓朴结构相关联的分类索引：表 1

并且，每个分类索引均对应多个分类相关网页，计算机设备在步骤 S3 中确定与候选词 "马尔代夫" 对应的分类索引为 "境内游" ，则计算机设备从与分类索引 "境内游"对应的多个分类相关网页中获取与候选词 "马尔代夫" 及其特征信息相关的网页内容，并将其作为与 "马尔代夫" 这一候选词对应的词条信息的内容，以生成属于分类索引 "出境游" 的、与候选词 "马尔代夫" 对应的词条信息。

优选地，当已存在属于所述分类索引的、且与所述候选词对应的词条信息时，计算机设备由与所述分类索弓 I相对应的至少一个分类相关网页中，获取与所述候选词相关的内容信息，以更新该候选词对应的词条信息。

根据本发明的方法，可自动由与候选词具有较高相似度的分类相关中获取词条信息的内容，从而极大的提高了词条信息的生成与更新的效。并且，能够更加充分地挖掘并利用分类相关网页的内容。

图 2示意出了根据本发明的一个优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤 S1至步骤 S4、步骤 S5、步骤 S6以及步骤 S7。

其中，步骤 SI至步骤 S4已在参照图 1所示的实施例中予以详述，并以引用的方式包含于此，不再赘述。

在步骤 S5 中，计算机设备获取与所述候选词对应的一项或多项网络发布信息。

其中，所述网络发布信息包括用于在互联网中发布的、具有一定的各类信息。优选地，所述网络发布信息包括广告。

其中，所述计算机设备获取与所述候选词对应的一项或多项网络发布信息的方式包括但不限于以下任一项：

1 ) 计算机设备通过在第二预定搜索引擎中查询所述候选词，以获取与所述候选词对应的一项或多项网络发布信息。

其中，所述第二预定搜索引擎包括但不限于可基于候选词执行搜索并获取一个或多个网络发布信息的搜索引擎。

优选地，所述第二预定搜索引擎与前述参照图 1的实施例中所述的第一预定搜索引擎为同一搜索引擎。

2 ) 计算机设备通过预定的各个候选词与网络发布信息的对应关系，来获取与该候选词对应的一项或多项网络发布信息。

接着，在步骤 S6 中，计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息。

具体地，所述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式包括但不限于以下任一项：

1 )计算机设备统计所述候选词相对于所述一项或多项网络发布信息的权重信息。

例如，计算机设备统计所述候选词相对于其所对应的多项广告中的 TF-IDF值并将其作为候选词的重要度信息。

2 )计算机设备统计所述一项或多项网络发布信息数量，并将其作为所述候选词的重要度信息；

3 )计算机设备获取所述一项或多项网络发布信息的被使用信息，并根据所获得的被使用信息来确定所述候选词的重要度信息。其中，所述网络发布信息的被使用信息包括但不限于以下至少任一项：

a ) 所述网络发布信息的现次数；

b ) 所述网络发布信息的被点击次数等。

例如，计算机设备统计候选词所对应的所有广告的被点击次数，并将其作为候选词的重要度信息；又例如，计算机设备统计候选词所对应的广告的平均被点击次数，以将其作为候选词的重要度信息等。

接着，在步骤 S7 中，计算机设备判断所述候选词的重要度信息是否满足预定重要度条件。其中，所述预定重要度条件包括预定重要度阈值；

具体地，计算机设备判断所述候选词的重要度信息是否满足预定阈值。

接着，根据本实施例的方法，在步骤 S2 中，当所述候选词的重要度信息满足预定重要度条件时，计算机设备获取所述候选词的特征信息。

作为本实施例的优选方案之一，所述步骤 S5 进一步包括步骤 S501 (图未示）和步骤 S502 (图未示），所述步骤 S6进一步包括步骤 S60 (图未示） 1和步骤 S602 (图未示）。

在步骤 S501 中，计算机设备对所述候选词进行切词以获取多个子候选词。

在步骤 S502 中，计算机设备通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息。

其中，所述计算机设备通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息的方式与前述计算机设备通过在第二预定搜索引擎中查询所述候选词，以获取与所述候选词对应的一项或多项网络发布信息的方式相同或相似，故不再赘述。

接着，在步骤 S601 中，计算机设备基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息。

其中，计算机设备基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息的方式与前述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式相同或相似，故不再赘述。

在步骤 S602 中，计算机设备基于各个子候选词的子重要度信息确定所述候选词的重要度信息。

具体地，所述计算机设备基于预定的统计规则，确定各个子候选词的子重要度信息。

优选地，计算机设备基于预定的统计规则，确定各个子候选词的子重要度信息的方式包括但不限于以下任一种：

1 ) 计算机设备根据各个子候选词的子重要度信息，确定平均重要度信息，并将其作为候选词的重要度信息。

2 ) 计算机设备获取各个子候选词相对于其所属的候选词的权重值，并基于各个子候选词的子重要度信息以及各个子候选词的权重值，来确定候选词的重要度信息。

例如，基于各个子候选词在其所属的候选词中出现的次数来确定各个子候选词的权重值，并基于各个子候选词的子重要度信息以及各个子候选词的权重值，来确定候选词的重要度信息。

根据本实施例的方法，仅对满足预定重要度条件的候选词来生成词条，提高了词条生成效率。

图 3示意出了根据本发明的又一个优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤 S1至步骤 S4、步骤 S8以及步骤 S9。

在步骤 S8中，计算机设备获取一个或多个网站的网页导航信息。其中，所述一个或多个网站可以为人工指定的具有一定相似度的一个或多个网站，也可以为通过对大量网站的网页内容执行聚类分析后所确定的，具有一定相似度的一个或多个网站。

其中，所述网页导航信息包括但不限于基于网站中的网页栏目结构，为用户浏览网页提供提示的信息。

在步骤 S9 中，计算机设备根据所获得的一个或多个网页导航信息，来生成多级分类索引信息，其中，所述多级分类索引中的各个分类索引按照预定拓朴结构相互关联。

具体地，计算机设备根据所获得的一个或多个网页导航信息，来生成多级分类索引信息的方式包括但不限于以下任一项：

1 ) 直接将所获得的网页导航信息转换为多级分类索引。

例如，将网站的导航栏中的各个栏目作为分类索引，并依次保存各个栏目之间的所属关系，以作为各个分类索引之间的所属关系，以生成多级分类索引。

2 ) 对多个网站的网页导航信息进行选择与合并，并基于选择合并后的结果来生成词条索引信息。

例如，将该多个网站的导航栏中共同包含的一个或多个栏目作为分类索引，并选择其中一个网站导航栏中的各个栏目之间的所属关系，作为所获得的各个分类索引之间的所属关系的参考，以生成多级分类索引。

作为本实施例的优选方案之一，根据本方案的方法还包括步骤 S10 (图未示）、步骤 S11 (图未示），所述步骤 S3进一步包括步骤 S301 (图未示 ) 。

在步骤 S10中，计算机设备基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息，获取与该多级分类索引信息中的各个分类索引分别对应的分类相关网页。

具体地，计算机设备基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息，确定分别与各个分类索引相对应的、所述一个或多个网站的网页导航信息中的部分导航信息，并获取所述一个或多个网站中与该部分导航信息对应的至少一个站点网页，作为与所述分类索引相对应的分类相关网页。

接着，在步骤 S1 1中，计算机设备基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息。

其中，计算机设备基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息的方式与前述参照图 1所示实施例的步骤 S2中，计算机设备根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式相同或相似，此处不再赘述。

接着，在步骤 S301 中，计算机设备基于所述候选词的特征信息以及各个分类索引的分类特征信息，确定与所述候选词对应的分类索引。

具体地，计算机设备将所述候选词的特征信息与各个分类索引的分类特征信息进行比较，并选择分类特征信息与候选词的特征信息的相似度满足预定相似度条件的分类索引，作为与所候选词对应的分类索引。

其中，所述预定相似度条件包括相似度满足预定相似度阈值。作为本实施例的优选方案之一，，所述预定拓朴结构包括多级的拓朴结构，其中相邻两级的分类索引之间为隶属关系，其中，所述步骤 S3进一步包括步骤 S302 (图未示）和步骤 S303 (图未示）。

优选地，所述预定拓朴结构包括多级的树状结构，相邻的两级的分类索引之间为隶属关系。

在步骤 S302 中，计算机设备将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引。

具体地，计算机设备根据所述预定拓朴结构，按照预定遍历顺序，将所述候选词的特征信息逐个与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引。

例如，当预定拓朴结构为树状结构，并且预定遍历顺序为随机遍历时，随机获取尚未被遍历的分类索引，并将该分类索引的分类特征信息与候选词的特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引。

又例如，当预定拓朴结构为树状结构，并且预定遍历顺序为从叶结点逐层向上遍历时，先获取作为各个叶结点的分类索引，将该层的分类索引的分类特征信息与候选词的特征信息相比较，当未能在叶结点中获得与所述候选词的特征信息相似的分类索引时，再获取各个叶结点上一层的结点的分类索引，并将该层的分类索引的分类特征信息与候选词的特征信息相比较，依次逐层往上，直至获得与所述候选词的特征信息相似的分类索引。在步骤 S303 中，当所获得的分类索引包含底层分类索引时，计算机设备将该底层分类索引作为所述候选词对应的分类索引。

具体地，计算机设备判断所获得的分类索引是否为底层分类索引，并当所获得的分类索引包含底层分类索引时，计算机设备将该底层分类索引作为所述候选词对应的分类索引。

优选地，根据本方案的方法，所述步骤 S3还包括步骤 S304 (图未示）和步骤 S305 (图未示）。

在步骤 S304 中，当所获得的分类索引不包含底层索引节点时，计算机设备基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引。

具体地，计算机设备基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引的方式包括但不限于以下任一种：

1 )计算机设备基于候选词生成属于前述步骤 S302中获得的分类索引的下级分类索引的名称，并基于候选词所对应的搜索结果页面以及所获得的分类索引所对应的分类相关页面，确定与该下级分类索 ^ I 相对应的分类相关网页。

2 )计算机设备基于前述步骤 S302中获得的分类索引对应的一个或多个站点网页，在该一个或多个站点网页中查询并获取与候选词相关的至少一个网页，并确定与所该网页对应的中心词，以将其作为前述步骤 S302 中获得的分类索引的下级分类索引的名称，并将该至少一个网页作为与该下级分类索引对应的分类相关网页。

接着，在步骤 S305 中，计算机设备将所生成的底层分类索引作为与所述候选词对应的分类索引。

根据本实施例的方法，通过获取一个或多个网站的网站导航信息来建立多级分类索引，从而使得词条的分类索引体系与实际使用中的体系相近，有利于更加全面的挖掘专业网站的内容信息，并且由于同时还可利用这些网站的网页内容作为分类索引的分类相关网页，故能够为候选词生成能够有更加系统、完整的词条信 , 。

图 4示意出了根据本发明的又一优选实施例的用于生成词条信息的方法流程图。根据本实施例的方法包括步骤 S 1至步骤 S4、步骤 S 12、步骤 S13、步骤 S14以及步骤 S15。

在步骤 S12中，计算机设备获取候选网站的一个或多个网页。

其中，计算机设备确定候选网站的方式包括但不限于以下任一种：

1 )获取人工置顶的网站作为候选网站；

2 )将抓取到的网站页面与多级分类索引信息中的各个分类索引所对应的网页进行比较，以获得站点网页与所述各个分类索引所对应的网页相似的网站。

接着，在步骤 S13中，计算机设备根据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息。

其中，计算机设备根据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息的方式与前述参照图 1 所示实施例中的步骤 S2 中计算机设备根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式相同或相似，在此不再赘述。

接着，在步骤 S14中，计算机设备将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引。

其中，计算机设备将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引的方式与前述参照图 3所示实施例的步骤 S302中，计算机设备将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引的方式相同或相似，在此不再赘述。

接着，在步骤 S15中，计算机设备向该候选网站对应的候选用户提供该一个或多个分类索弓 I分别对应的一个或多个候选词。作为本实施力的优选方案，根据本实施例的方法还包括步骤 S16 (图未示）、步骤 S17 (图未示）以及步骤 S18 (图未示）。

在步骤 S16中，计算机设备根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页。

其中，所述计算机设备根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页的方式包括但不限于以下任一种：

1 )计算机设备获取该一个或多个分类索引的分类相关网页，将所获得的分类相关网页与所述候选网站的站点网页进行比较，以获得与所述分类相关网页相似的一个或多个站点网页，并将其作为与该分类相关网页所对应的分类索引的候选网页。

2 )计算机设备才艮据该一个或多个分类索引的分类特征信息，由候选网站中获取分别与该一个或多个分类索引的分类特征信息相似的一个或多个候选网页。

接着，在步骤 S17中，计算机设备基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页，确定或更新与该各个分类索 ^ I 对应的分类相关网页。

具体地，计算机设备将所确定的候选网页作为与分类索引对应的分类相关网页添加至与各个分类索引对应的分类相关网页库中。

在步骤 S18中，计算机设备基于所述更新后的与各个分类索引对应的分类相关网页，更新各个分类索 ^ I所对应的候选词的词条信息。

具体地，对属于个各个分类索引的一个或多个候选词，分别采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容。其中，采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容的方式与前述参照图 1所示实施例中的步骤 S4 中计算机设备根据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息的方式相同或相似，此处不再赞述。根据本实施例的方法，通过采用候选网站的内容来自动更新词条信息，使得词条内容能够尽快得到更新，并且提高了更新效率。

图 5示意出了根据本发明的一个方面用于生成词条信息的词条生成装置的结构示意图。根据本发明的词条生成装置包括第一获取装置 1、第二获取装置 2、第一确定装置 3和第一生成装置 4。

参照图 5 , 第一获取装置 1获取候选词。

1 ) 实时获取用户输入的查询序列，并将其作为候选词；

2 ) 由预获取的多个查询序列中选择一个作为候选词。

接着，第二获取装置 2 基于所述候选词进行搜索，以获取所述候选词的特征信息。

a )词语信息；

b )段落语言信息。

具体地，所述第二获取装置 2基于所述候选词进行搜索，以获取所述候选词的特征信息的方式包括但不限于以下任一项：

1 ) 第二获取装置 2在包含多个候选词及其对应的特征信息的词库中搜索，以获得与步骤 S1中所获得的候选词对应的特征信息。

2 ) 第二获取装置 2 中的第一搜索装置（图未示）的通过第一预定搜索引擎，基于所述候选词执行搜索，以获取与所述候选词对应的一个或多个搜索结果网页；接着，第二获取装置 2中的第二确定装置（图未示）才艮据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息。

其中，所述第二确定装置根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式包括但不限于以下任一项： a ) 第二确定装置中的关键词获取装置（图未示）获取所述一个或多个搜索结果网页中所包含的至少一个关键词；接着，第二确定装置中的权重获取装置（图未示）获取所述至少一个关键词中的各个关键词的权重信息；接着，第二确定装置中的第一子确定装置（图未示）基于所获得的各个关键词及其相应的权重信息，来确定与所述候选词对应的特征信息。

II ) 关键词在所述一个或多个搜索结果网页中的出现次数；

具体地，关键词获取装置对一个或多个搜索结果网页的网页内容进行切词处理，以获得至少一个关键词，接着，权重获取装置统计并确定该至少一个关键词中的各个关键词的权重信息，接着，第一子确定装置根据所获得的各个关键词及其权重信息，由该至少一个关键词中选择一个或多个关键词作为与候选词对应的特征信息。

根据本发明的第一示例，第一获取装置 1 获得的候选词包括 "马尔代夫" ，并且，第一搜索装置通过预定搜索引擎，如百度搜索引擎对 "马尔代夫" 进行搜索以获得多个搜索结果网页，并选择在搜索结果中排名前十位的搜索结果网页 webl至 webl 0作为与该候选词对应的一个或多个搜索结果网页。接着，关键词获取装置权重获取装置对所选择的十个搜索结果网页的网页内容进行切词以获得多个关键词，由权重获取装置统计每个关键词相对于该十个搜索结果网页的 TF-IDF值，将所获得的 TF-IDF值作为各个关键词的权重信息；然后，第一子确定装置根据 TF-IDF值对各个关键词进行排序后选择排名前二十位的关键词，并将该排名前二十位的关键词及其各自对应的 TF-IDF值作为候选词 "马尔代夫" 的特征信息。

b ) 第二确定装置中的模型确定装置（图未示）通过预定主题确定模型，根据所述一个或多个搜索结果网页中的各个网页的网页内容，来确定与所述一个或多个搜索结果网页对应的主题相关信息；接着，第二确定装置中的第二子确定装置（图未示）基于所确定的主题相关信息来确定与所述候选词对应的特征信息。

其中，本领域技术人员应可根据实际情况和需求确定所采用的主题模型，以及通过主题模型获得一个或多个主题相关信息的方 ^，匕 f ϋ。

接着，第一确定装置 3根据所述候选词的特征信息，在多级分类索引信息中确定与所述候选词对应的分类索引。其中，所述多级分类索引信息包括多个基于预定拓朴结构相互关联的分类索引，其中，各个分类索引分别对应至少一个分类相关网页。

具体地，第一确定装置 3获取所述候选词的特征信息与多级分类索引信息中的各个分类索引的至少一个分类相关网页之间的相似度，并基于相似度来确定与所述候选词对应的分类索引。

接着，第一生成装置 4根据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息。

具体地，第一生成装置 4由与所述分类索引相对应的至少一个分类相关网页中，获取与所述候选词相关的网页内容，以生成属于所述分类索引的、与所述候选词对应的词条信息。

其中，第一生成装置 4由至少一个分类相关网页中获取与候选词相关的内容信息的方式包括：

第一生成装置 4根据所述候选词及其特征信息，由所述至少一个分类相关网页中挖掘与所述候选词及其特征信息相对应的网页内容，作为与该候选词对应的词条信息的内容信息。

继续对前述第一示例进行说明，多级分类索引信息包括如下表 2 所示的基于预定的树状拓朴结构相关联的分类索引：

表 2

并且，每个分类索引均对应多个分类相关网页，第一确定装置 3 确定与候选词 "马尔代夫" 对应的分类索引为 "境内游" ，则第一生成装置 4从与分类索引 "境内游"对应的多个分类相关网页中获取与候选词 "马尔代夫"及其特征信息相关的网页内容，并将其作为与 "马尔代夫 "这一候选词对应的词条信息的内容，以生成属于分类索引 "出境游" 的、与候选词 "马尔代夫" 对应的词条信息。

根据本发明的方案，可自动由与候选词具有较高相似度的分类相关中获取词条信息的内容，从而极大的提高了词条信息的生成与更新的效。并且，能够更加充分地挖掘并利用分类相关网页的内容。

图 6示意出了根据本发明的一个优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置 1、第二获取装置 2、第一确定装置 3、第一生成装置 4、第三获取装置 5、第三确定装置 6以及判断装置 7。

其中，第一获取装置 1、第二获取装置 2、第一确定装置 3 以及第一生成装置 4已在参照图 5所示的实施例中予以详述，并以引用的方式包含于此，不再赘述。

第三获取装置 5获取与所述候选词对应的一项或多项网络发布信自、

其中，所述第三获取装置 5获取与所述候选词对应的一项或多项网络发布信息的方式包括但不限于以下任一项：

1 )第三获取装置 5通过在第二预定搜索引擎中查询所述候选词，以获取与所述候选词对应的一项或多项网络发布信息。

优选地，所述第二预定搜索引擎与前述参照图 5的实施例中所述的第一预定搜索引擎为同一搜索引擎。

2 ) 第三获取装置 5通过预定的各个候选词与网络发布信息的对应关系，来获取与该候选词对应的一项或多项网络发布信息。

接着，第三确定装置 6根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息。

具体地，所述第三确定装置 6根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式包括但不限于以下任一项：

1 ) 第三确定装置 6统计所述候选词相对于所述一项或多项网络发布信息的权重信息。

例如，第三确定装置 6统计所述候选词相对于其所对应的多项广告中的 TF-IDF值并将其作为候选词的重要度信息。

2 ) 第三确定装置 6统计所述一项或多项网络发布信息数量，并将其作为所述候选词的重要度信息；

3 ) 第三确定装置 6获取所述一项或多项网络发布信息的被使用信息，并根据所获得的被使用信息来确定所述候选词的重要度信息。其中，所述网络发布信息的被使用信息包括但不限于以下至少任一项： a ) 所述网络发布信息的现次数；

b ) 所述网络发布信息的被点击次数等。

例如，第三确定装置 6 统计候选词所对应的所有广告的被点击次数，并将其作为候选词的重要度信息；又例如，第三确定装置 6 统计候选词所对应的广告的平均被点击次数，以将其作为候选词的重要度信息等。

接着，判断装置 Ί判断所述候选词的重要度信息是否满足预定重要度条件。

其中，所述预定重要度条件包括预定重要度阈值；

具体地，判断装置 7判断所述候选词的重要度信息是否满足预定阈值。

接着，根据本实施例的方案，当所述候选词的重要度信息满足预定重要度条件时，第二获取装置 2获取所述候选词的特征信息。

作为本实施例的优选方案之一，所述第三获取装置 5进一步包括第一子获取装置（图未示）和第二搜索装置（图未示），所述第三确定装置进一步包括第三子确定装置（图未示）和第四子确定装置（图未示）。第一子获取装置对所述候选词进行切词以获取多个子候选词。

第二搜索装置通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息。

其中，所述第二搜索装置通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息的方式与前述第三获取装置 5 通过在第二预定搜索引擎中查询所述候选词，以获取与所述候选词对应的一项或多项网络发布信息的方式相同或相似，故不再赘述。

接着，第三子确定装置基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息。

其中，第三子确定装置基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息的方式与前述计算机设备根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息的方式相同或相似，故不再赘述。

第四子确定装置基于各个子候选词的子重要度信息确定所述候选词的重要度信息。

具体地，所述第四子确定装置基于预定的统计规则，确定各个子候选词的子重要度信息。

优选地，第四子确定装置基于预定的统计规则，确定各个子候选词的子重要度信息的方式包括但不限于以下任一种：

1 )第四子确定装置根据各个子候选词的子重要度信息，确定平均重要度信息，并将其作为候选词的重要度信息。

2 )第四子确定装置获取各个子候选词相对于其所属的候选词的权重值，并基于各个子候选词的子重要度信息以及各个子候选词的权重值，来确定候选词的重要度信息。

例如，第四子确定装置基于各个子候选词在其所属的候选词中出现的次数来确定各个子候选词的权重值，并基于各个子候选词的子重要度信息以及各个子候选词的权重值，来确定候选词的重要度信根据本实施例的方案，仅对满足预定重要度条件的候选词来生成词条，提高了词条生成效率。

图 7示意出了根据本发明的又一个优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置 1、第二获取装置 2、第一确定装置 3、第一生成装置 4、导航获取装置 8以及第二生成装置 9。

导航获取装置 8获取一个或多个网站的网页导航信息。

其中，所述一个或多个网站可以为人工指定的具有一定相似度的一个或多个网站，也可以为通过对大量网站的网页内容执行聚类分析后所确定的，具有一定相似度的一个或多个网站。

第二生成装置 9根据所获得的一个或多个网页导航信息，来生成多级分类索引信息，其中，所述多级分类索引中的各个分类索引按照预定拓朴结构相互关联。

具体地，第二生成装置 9根据所获得的一个或多个网页导航信息，来生成多级分类索引信息的方式包括但不限于以下任一项：

1 ) 第二生成装置 9直接将所获得的网页导航信息转换为多级分类索引。

例如，第二生成装置 9将网站的导航栏中的各个栏目作为分类索引，并依次保存各个栏目之间的所属关系，以作为各个分类索引之间的所属关系，以生成多级分类索引。

2 )第二生成装置 9对多个网站的网页导航信息进行选择与合并，并基于选择合并后的结果来生成词条索引信息。

例如，第二生成装置 9将该多个网站的导航栏中共同包含的一个或多个栏目作为分类索引，并选择其中一个网站导航栏中的各个栏目之间的所属关系，作为所获得的各个分类索引之间的所属关系的参考，以生成多级分类索引。

作为本实施例的优选方案之一，根据本方案的词条生成装置还包括第四获取装置（图未示）、第一特征确定装置（图未示）。

第四获取装置基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息，获取与该多级分类索引信息中的各个分类索引分别对应的分类相关网页。

具体地，第四获取装置基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息，确定分别与各个分类索引相对应的、所述一个或多个网站的网页导航信息中的部分导航信息，并获取所述一个或多个网站中与该部分导航信息对应的至少一个站点网页，作为与所述分类索引相对应的分类相关网页。

接着，第一特征确定装置基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索 ^ I分别对应的分类特征信息。

其中，第一特征确定装置基于与所述各个分类索引相对应的分类相关网页来确定与该各个分类索引分别对应的分类特征信息的方式与前述参照图 5所示实施例中第二确定装置根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式相同或相似，此处不再赞述。

接着，根据本实施例的第一确定装置 3基于所述候选词的特征信息以及各个分类索引的分类特征信息，确定与所述候选词对应的分类索引。

具体地，第一确定装置 3将所述候选词的特征信息与各个分类索引的分类特征信息进行比较，并选择分类特征信息与候选词的特征信息的相似度满足预定相似度条件的分类索引，作为与所候选词对应的分类索引。

其中，所述预定相似度条件包括相似度满足预定相似度阈值。作为本实施例的优选方案之一，，所述预定拓朴结构包括多级的拓朴结构，其中相邻两级的分类索引之间为隶属关系，其中，所述第一确定装置 3进一步包括比较获取装置（图未示）和第一分类确定装置（图未示）。

比较获取装置将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引。

具体地，比较获取装置根据所述预定拓朴结构，按照预定遍历顺序，将所述候选词的特征信息逐个与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引。

又例如，当预定拓朴结构为树状结构，并且预定遍历顺序为从叶结点逐层向上遍历时，先获取作为各个叶结点的分类索引，将该层的分类索引的分类特征信息与候选词的特征信息相比较，当未能在叶结点中获得与所述候选词的特征信息相似的分类索引时，再获取各个叶结点上一层的结点的分类索引，并将该层的分类索引的分类特征信息与候选词的特征信息相比较，依次逐层往上，直至获得与所述候选词的特征信息相似的分类索引。

当所获得的分类索引包含底层分类索引时，第一分类确定装置将该底层分类索引作为所述候选词对应的分类索引。

具体地，第一分类确定装置判断所获得的分类索引是否为底层分类索引，并当所获得的分类索引包含底层分类索引时，第一分类确定装置将该底层分类索引作为所述候选词对应的分类索引。

优选地，根据本方案的词条生成装置中，所述第一确定装置 3还包括第三生成装置（图未示）和第二分类确定装置（图未示）。

当所获得的分类索引不包含底层索引节点时，第三生成装置基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引。

具体地，第三生成装置基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引的方式包括但不限于以下任一种：

1 ) 第三生成装置基于候选词生成属于由前述第一分类确定装置所获得的分类索引的下级分类索引的名称，并基于候选词所对应的搜索结果页面以及所获得的分类索引所对应的分类相关页面，确定与该下级分类索引相对应的分类相关网页。

2 ) 第三生成装置基于前述第一分类确定装置所获得的分类索引对应的一个或多个站点网页，在该一个或多个站点网页中查询并获取与候选词相关的至少一个网页，并确定与所该网页对应的中心词，以将其作为前述第一分类确定装置获得的分类索引的下级分类索引的名称，并将该至少一个网页作为与该下级分类索引对应的分类相关网页。

接着，第二分类确定装置将所生成的底层分类索引作为与所述候选词对应的分类索引。

根据本实施例的方案，通过获取一个或多个网站的网站导航信息来建立多级分类索引，从而使得词条的分类索引体系与实际使用中的体系相近，有利于更加全面的挖掘专业网站的内容信息，并且由于同时还可利用这些网站的网页内容作为分类索引的分类相关网页，故能够为候选词生成能够有更加系统、完整的词条信息。

图 8示意出了根据本发明的又一优选实施例的用于生成词条信息的词条生成装置的结构示意图。根据本实施例的词条生成装置包括第一获取装置 1、第二获取装置 2、第一确定装置 3、第一生成装置 4、第一网页获取装置 10、第二特征确定装置 11、第三分类确定装置 12 以及提供装置 13。其中，第一获取装置 1、第二获取装置 2、第一确定装置 3 以及第一生成装置 4已在参照图 5所示的实施例中予以详述，并以引用的方式包含于此，不再赘述。

第一网页获取装置 10获取候选网站的一个或多个网页。

其中，第一网页获取装置 10确定候选网站的方式包括但不限于以下任一种：

1 ) 第一网页获取装置 10获取人工指定的网站作为候选网站；

2 )第一网页获取装置 10将抓取到的网站页面与多级分类索引信息中的各个分类索引所对应的网页进行比较，以获得站点网页与所述各个分类索弓 I所对应的网页相似的网站。

接着，第二特征确定装置 11 根据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息。

其中，第二特征确定装置 11 根据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息的方式与前述参照图 5所示实施例中第二确定装置根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息的方式相同或相似，在此不再赞述。

接着，第三分类确定装置 12将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引。

其中，第三分类确定装置 12将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引的方式与前述参照图 7所示实施例中比较确定装置将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引的方式相同或相似，在此不再赘述。

接着，提供装置 13 向该候选网站对应的候选用户提供该一个或多个分类索弓 I分别对应的一个或多个候选词。

作为本实施力的优选方案，才艮据本实施例的词条生成装置还包括第二网页获取装置（图未示）、第一更新装置（图未示）以及第一更新装置（图未示）。

第二网页获取装置根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页。

其中，所述第二网页获取装置根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页的方式包括但不限于以下任一种：

1 )第二网页获取装置获取该一个或多个分类索引的分类相关网页，将所获得的分类相关网页与所述候选网站的站点网页进行比较，以获得与所述分类相关网页相似的一个或多个站点网页，并将其作为与该分类相关网页所对应的分类索引的候选网页。

2 )第二网页获取装置根据该一个或多个分类索引的分类特征信息，由候选网站中获取分别与该一个或多个分类索引的分类特征信息相似的一个或多个候选网页。

接着，第一更新装置基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页，确定或更新与该各个分类索弓 I对应的分类相关网页。

具体地，第一更新装置将所确定的候选网页作为与分类索引对应的分类相关网页添加至与各个分类索引对应的分类相关网页库中。

第一更新装置基于所述更新后的与各个分类索引对应的分类相关网页，更新各个分类索引所对应的候选词的词条信息。

具体地，第一更新装置对属于个各个分类索引的一个或多个候选词，分别采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容。

其中，第一更新装置采用更新后的该分类索引的分类相关网页来更新各个候选词的词条内容的方式与前述参照图 5所示实施例中第一生成装置根据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息的方式相同或相似，此处不再赞述。才艮据本实施例的方案，通过采用候选网站的内容来自动更新词条信息，使得词条内容能够尽快得到更新，并且提高了更新效率。

本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序（包括相关的数据结构）可以被存储到计算机可读记录介质中，例如， RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个功能或步骤的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和 /或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和 /或通过广播或其他信号承载媒体中的数据流而被传输，和 /或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和 / 或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然"包括"一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

权利要求书

1. 一种用于生成词条信息的方法，其中，所述方法包括以下步骤：

a获取候选词 ^

d才艮据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息。

2. 根据权利要求 1所述的方法，其中，所述步骤 b包括以下步骤： bl 通过第一预定搜索引擎，基于所述候选词执行搜索，以获取与所述候选词对应的一个或多个搜索结果网页；

b2根据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息。

3. 根据权利要求 2 所述的方法，其中，所述步骤 b2 包括以下步骤：

- 获取所述一个或多个搜索结果网页中所包含的至少一个关键词； - 获取所述至少一个关键词中的各个关键词的权重信息；

-基于所获得的各个关键词及其相应的权重信息，来确定与所述候选词对应的特征信息。

4. 根据权利要求 2 所述的方法，其中，所述步骤 b2 包括以下步骤：

- 通过预定主题确定模型，根据所述一个或多个搜索结果网页中的各个网页的网页内容，来确定与所述一个或多个搜索结果网页对应的主题相关信息；

-基于所确定主题相关信息来确定与所述候选词对应的特征信息。

5. 根据权利要求 1至 3中任一项所述的方法，其中，所述方法还包括以下步骤：

X获取与所述候选词对应的一项或多项网络发布信息；

y根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息；

其中，所述方法还包括以下步骤：

判断所述候选词的重要度信息是否满足预定重要度条件；

其中，所述步骤 b包括以下步骤：

- 当所述候选词的重要度信息满足预定重要度条件时，获取所述候选词的特征信息。

6. 根据权利要求 5所述的方法，其中，所述步骤 X包括以下步骤： -对所述候选词进行切词以获取多个子候选词；

- 通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息；

其中，所述步骤 y包括以下步骤：

-基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息；

- 基于各个子候选词的子重要度信息确定所述候选词的重要度信息。

7. 根据权利要求 1至 6中任一项所述的方法，其中，所述方法还包括以下步骤：

- 获取一个或多个网站的网页导航信息；

-根据所获得的一个或多个网页导航信息，来生成多级分类索引信息，其中，所述多级分类索引中的各个分类索引按照预定拓朴结构相互关联。

8. 根据权利要求 7所述的方法，其中，所述方法包括以下步骤：

-基于与所述多级分类索引信息对应的所述一个或多个网站的网页导航信息，获取与该多级分类索引信息中的各个分类索 S I分别对应的网页；

-基于与所述各个分类索引相对应的网页来确定与该各个分类索 S I 分别对应的分类特征信息；

其中，所述步骤 C包括以下步骤：

-基于所述候选词的特征信息以及各个分类索引的分类特征信息，确定与所述候选词对应的分类索引。

9. 根据权利要求 8所述的方法，其中，所述预定拓朴结构包括多级的拓朴结构，其中相邻两级的分类索引之间为隶属关系，其中，所述步骤 c包括以下步骤：

- 将所述候选词的特征信息与所述各个分类索引的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引；

- 当所获得的分类索引包含底层分类索引时，将该底层分类索引作为所述候选词对应的分类索引。

10. 根据权利要求 9所述的方法，其中，所述步骤 c还包括以下步骤：

- 当所获得的分类索引不包含底层索引节点时，基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引；

-将所生成的底层分类索引作为与所述候选词对应的分类索引。

11. 根据权利要求 1至 9中任一项所述的方法，其中，所述方法还包括以下步骤：

- 获取候选网站的一个或多个网页；

-根据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息；

- 将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引；

- 向该候选网站对应的候选用户提供该一个或多个分类索弓 I分别对应的一个或多个^ ί类选词。

12. 根据权利要求 11 所述的方法，其中，所述方法还包括以下步骤： -根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索弓 I分别对应的一个或多个候选网页；

-基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页，确定或更新与该各个分类索引对应的分类相关网页；

-基于所述更新后的与各个分类索引对应的分类相关网页，更新各个分类索引所对应的候选词的词条信息。

13. 一种用于生成词条信息的词条生成装置，其中，所述词条生成装置包括：

第一获取装置，用于获取候选词；

第一生成装置，用于才艮据与所述分类索引信息对应的至少一个分类相关网页，来确定与所述候选词对应的词条信息。

14. 根据权利要求 13所述的词条生成装置，其中，所述第二获取装置包括：

第一搜索装置，用于通过第一预定搜索引擎，基于所述候选词执行搜索，以获取与所述候选词对应的一个或多个搜索结果网页；

第二确定装置，用于才艮据所述一个或多个搜索结果网页，来确定与所述候选词对应的特征信息。

15. 根据权利要求 14所述的词条生成装置，其中，所述第二确定装置包括：

关键词获取装置，用于获取所述一个或多个搜索结果网页中所包含的至少一个关键词；

权重获取装置，用于获取所述至少一个关键词中的各个关键词的权重信息；

第一子确定装置，用于基于所获得的各个关键词及其相应的权重信息，来确定与所述候选词对应的特征信息。

16. 根据权利要求 14所述的词条生成装置，其中，所述第二确定装置包括以下步骤：

模型确定装置，用于通过预定主题确定模型，根据所述一个或多个搜索结果网页中的各个网页的网页内容，来确定与所述一个或多个搜索结果网页对应的主题相关信息；

第二子确定装置，用于基于所确定的主题相关信息来确定与所述候选词对应的特征信息。

17. 根据权利要求 13至 16中任一项所述的词条生成装置，其中，所述词条生成装置还包括：

第三获取装置，用于获取与所述候选词对应的一项或多项网络发布第三确定装置，用于根据所获得的一项或多项网络发布信息来确定所述候选词的重要度信息；

判断装置，用于判断所述候选词的重要度信息是否满足预定重要度条件；

其中，所述第二获取装置用于：

18. 根据权利要求 17所述的词条生成装置，其中，所述第三获取装置包括：

第一子获取装置，用于对所述候选词进行切词以获取多个子候选词；

第二搜索装置，用于通过第二预定搜索引擎，基于各个子候选词执行搜索以获取与各个子候选词对应的网络发布信息；

其中，所述第三确定装置包括：

第三子确定装置，用于基于各个子候选词对应的网络发布信息确定该子候选词的子重要度信息；

第四子确定装置，用于基于各个子候选词的子重要度信息确定所述候选词的重要度信息。

19. 根据权利要求 13至 18中任一项所述的词条生成装置，其中，所述词条生成装置还包括：

导航获取装置，用于获取一个或多个网站的网页导航信息；第二生成装置，用于根据所获得的一个或多个网页导航信息，来生成多级分类索引信息，其中，所述多级分类索引中的各个分类索引按照预定拓朴结构相互关联。

20. 根据权利要求 19所述的词条生成装置，其中，所述词条生成装置包括以下步骤：

第四获取装置，用于基于与所述多级分类索弓 I信息对应的所述一个或多个网站的网页导航信息，获取与该多级分类索引信息中的各个分类索引分别对应的网页；

第一特征确定装置，用于基于与所述各个分类索引相对应的网页来确定与该各个分类索 ^ I分别对应的分类特征信息；

其中，所述第一确定装置用于：

21. 根据权利要求 20所述的词条生成装置，其中，所述预定拓朴结构包括多级的拓朴结构，其中相邻两级的分类索引之间为隶属关系，其中，所述第一确定装置包括：

比较获取装置，用于将所述候选词的特征信息与所述各个分类索弓 I 的分类特征信息相比较，以获取其分类特征信息与所述候选词的特征信息相似的分类索引；

第一分类确定装置，用于当所获得的分类索引包含底层分类索引时，将该底层分类索引作为所述候选词对应的分类索引。

22. 根据权利要求 21所述的词条生成装置，其中，所述第一确定装置还包括：

第三生成装置，用于当所获得的分类索引不包含底层索引节点时，基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及所述候选词，来生成位于该最低级别的分类索引的下级分类索引；第二分类确定装置，用于将所生成的底层分类索引作为与所述候选词对应的分类索引。

23. 根据权利要求 13至权利要求 21所述的词条生成装置，其中，所述词条生成装置还包括：

第一网页获取装置，用于获取候选网站的一个或多个网页；第二特征确定装置，用于才艮据所述候选网站的一个或多个网页，确定该候选网站的站点特征信息；

第三分类确定装置，用于将所述候选网站的站点特征信息与各个分类索引的分类特征信息进行比较，以确定与该候选网站对应的一个或多个分类索引；

提供装置，用于向该候选网站对应的候选用户提供该一个或多个分类索引分别对应的一个或多个候选词。

24. 根据权利要求 23所述的词条生成装置，其中，所述词条生成装置还包括：

第二网页获取装置，用于根据与所述候选网站对应的一个或多个分类索引，获取所述候选网站中与该一个或多个分类索引分别对应的一个或多个候选网页；

第一更新装置，用于基于与各个分类索引对应的、所述候选网站中的一个或多个候选网页，确定与该各个分类索引对应的分类相关网页；

第一更新装置，用于基于所述更新后的与各个分类索引对应的分类相关网页，更新各个分类索弓 I所对应的候选词的词条信息。