WO2015043066A1

WO2015043066A1 - 关键词扩展方法及系统、及分类语料标注方法及系统

Info

Publication number: WO2015043066A1
Application number: PCT/CN2013/088586
Authority: WO
Inventors: 叶茂; 汤帜; 徐剑波; 雷超; 金立峰
Original assignee: 北大方正集团有限公司; 北京方正阿帕比技术有限公司; 北京大学
Priority date: 2013-09-29
Filing date: 2013-12-05
Publication date: 2015-04-02
Also published as: JP6231668B2; EP3051431A1; EP3051431A4; US20160232211A1; JP2016532175A; CN104516903A

Abstract

提供一种关键词扩展方法和系统，该方法通过初始关键词进行检索，检索获得关键词作为下一次检索的基础，通过关键词迭代的方式进行检索，当前后两次检索的关键词误差在一定范围内时，将检索后的关键词作为初始关键词的扩展关键词，通过这种方式，获得了初始关键词的多种表达方式以及多方面含义的词义，将初始关键词进行了有效并合理的扩展，解决了现有技术中需要人工建立词库的问题，是一种实现方便、准确率高的关键词扩展方法。还提供一种分类语料自动标注方法和系统，该方法为每个分类确定一个或多个初始核心关键词；通过初始核心关键词扩展获取每个分类的扩展关键词；利用分类对应的扩展关键词进行检索，从中选择分类语料，并进行标注。

Description

关键词扩展方法及系统、及分类语料标注方法及系统

技术领域本发明涉及一种关键词扩展方法及分类语料自动标注方法，属于电数字数据处理技术领域。背景技术

关键词一 ^！对一类相关术语的集中表达的词语，为了提高其表达内容的全面性，一般关键词会有相关的多种表达意思，为了提高关键词检索的命中率，一般会将一个设定的初始关键词进行扩展，获得多种该关键词对应的相关的词语，同时进行检索。现有技术中提供了一种关键词扩展方法，首先建立一数据库:该数据库包含关键词、词汇和识别码;然后将关键词与至少一词汇对应;再将相关的关键词与一识别码对应;通过用户输入的关对应相关的关键词；通t^关的关键词，查询出与每一相关的关键词对应的词汇。该方案中提供的关键词自动扩展查询方法，建立在预先设置的词语库的基础上，当词库建立不当时，严重影响了关键词扩展的准确性，此外，该词库的建立需要大量的人工经验，主观性较大，也影响了其分类的准确性。语料标注是记录语料的类别特征信息，也是对语料进行浅层次分析的主要内容，它可以应用到信息检索、机器翻译、主题内容分析和文本处理等领域，语料标注的准确性直接关系到文本分析和文本处理的正确性。

在有监督的文本分类技术中，例如使用 SVM( Support Vector Machine, 支持向量机）做分类，在确定分类体系之后，需要为分类体系中的每个分类准备标注语料，用于训练分类模型。目前分类语料的标注通常采用人工方法实现，即语料标注人员根据自身的知识判断语料所属的分类。然而，当需要标注的语料数目庞大时，人工判定语料所属分类通常有以下几个问题：一是人工代价高；二是人工标注周期长；三是人工标注存在主观因素影响，即对于同一个语料，不同的人可能会将其分到不同的类别；四是由于语料数目庞大，因为标注疲劳，容易导致标注。

现有技术中公开了一种基于 BP神经网络的语料标注系统，包料库存储器、待标注语料緩冲存储器、语料标注结果比较器、 BP神经网络处理单元，在标注的过程中，所述 BP神经处理单元对所述语料库存储器中的待标注的语料进行标注，并将标注结果存入所述待标注语料緩冲存储器，所述语料标注结果比较器对緩冲器中的结果进行比较。在上述公开的技术方案中，所述 BP神经网络处理单元中包括有至少两个分类处理器，在对标注结果进行处理时，只有当至少两个分类处理器对待标注语料的标注结果依照设定满足一定比较系数，才可以对待标注语料进行标注，并存入语料库存储器 ,该技术方案基于 BP神经网络算法 ,该算法的算法复杂 ,运算量大，收敛速度慢，在处理大量的语料信息时耗时长；并且还需要至少两个分类处理器进行分类处理，占用内存大；同时，为了训练神经网络，需要提前准备一批大规模的标注语料，这种准备标注语料的代价仍然很高。发明内容

本发明所要解决的一个技术问题是现有技术中关键词扩展主观性较大、词库建立工作量大、关键词扩展的准确性低的问题，提出一种客观、简便、准确的关键词扩展方案。本发明所要解决的另外一个技术问题是现有技术中采用基于 BP神经网络算法的语料标注方法，其算法复杂，运算量大，收^ ^度慢，占用内存大；同时在进料标注时需要人工提前准备一批大^ ^的标注语料来训练分类处理器，准备所需标注语料的代价仍然很高，从而提供一种利用机器协助实现的分类语料自动标注方案。

为解决上述技术问题，本发明是通过以下技术方案实现的：

一种关键词扩展方法，包括：根据预先给定的初始关键词进行检索，检索获得当前关键词；将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；当当前一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内时，检索结束，将当前一次检索得到的关键词确定为扩展后的关键词。

可选地，检索获得当前关键词的过程为：分别统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的当前关键词。

可选地，检索获得当前关键词的过程为：统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的当前关键词。

可选地，获取所述检索获得的词语的方法为：使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将这些相关度高的文章进行分词，将分词后的结果作为检索获得的词语。

可选地，所述的关键词扩展方法，分词后还进行去停用词操作，然后获取与所述预设关键词同时出现的同现词，将所述同现词作为检索获得的词语。

可选地，该关键词扩展方法，当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值。

可选地，该关键词扩展方法，当前一次检索得到的关键词与前一次检索得到的关键词，分别取前 n个关键词，进行误差的统计， 5≤n≤10。

可选地，所述的关键词扩展方法，所述预设误差阈值小于 20%。所述的关键词扩展方法，如果当前一次检索得到的关键词与前一次检索得到的关键词相同，则将当前一次检索得到的关键词确定为扩的关键词。

使用所述的关键词扩展方法进行分类语料标注方法，步骤包括：为每个分类确定一个或多个初始核心关键词；通过所述初始核心关键词采用上述关键词扩展方法获取每个分类的扩展关键词；利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。一种关键词扩展系统，包括：获取单元：根据预先给定的初始关键词进行检索，检索获得当前关键词；循环检索单元：将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；判断单元：判断当前一次检索得到的关键词与前一次检索得到的关键词误差是否在预设误差阈值内，如果是，则使所述循环检索单元的循环检索结束，将当前一次检索得到的关键词确定为扩展后的关键词。

可选地，所述获取单元包括：检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，将分词后的结果作为检索获得的词语；检索获得关键词模块：分别统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的当前关键词。

可选地，所述获取单元包括：检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，将分词后的结果作为检索获得的词语；检索比较获得关键词模块：统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的当前关键词。可选地，所述的关键词扩展系统，检索词语获得模块使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所述相关度高的文章进行分词，分词后还进行去停用词操作，然后获取与所述预设关键词同时出现的同现词，将所述同现词作为检索获得的词语。可选地，该关键词扩展系统，当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值。

可选地，所述的关键词扩展系统，当前一次检索得到的关键词与前一次检索得到的关键词，分别取前 n个关键词，进行误差的统计， 5≤n≤10。

可选地，所述的关键词扩展系统，所述预设误差阈值小于 20%。可选地，所述的关键词扩展系统，当当前一次检索得到的关键词与前一次检索得到的关键词相同时，将当前一次检索得到的关键词确定为扩展后的关键词。一种使用所述的关键词扩展系统的分类语料标注系统，包括：确定关键词单元：为每个分类确定一个或多个初始核心关键词；关键词扩展单元：通过所述初始核心关键词采用上述的关键词扩展系统获取每个分类的扩展关键词；标注单元：利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。

本文中的技术方案相比现有技术具有以下一个或多个优点：

( 1 )本公开所述的关键词扩展方法的一个实施例，通过使用初始关键词进行检索，检索获得关键词作为下一次检索的基础，通过关键词迭代的方式进行检索，当前后两次检索的关键词误差在一定范围内时，将检索后的关键词作为初始关键词的扩展关键词，通过这种方式，获得了初始关键词的多种表达方式以及多方面含义的词义，将初始关键词进行了有效并合理的扩展，解决了现有技术中需要人工建立词库的问题，是一种实现方便、准确率高的关键词扩展方法。

( 2 )所述的关键词扩展方法，统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的关键词。或者统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的关键词，通过这种方式将获得关键词，具有一定的统计意义，便于找到与关键词的各个含: U目关的词语。

( 3 )所述的关键词扩展方法，获取所述检索获得的词语的方法为通过在文章库中检索，得到相关度高的文章，进行分词、去停用词、获取同现词的方式获得检索后的词语。通过上述一步一步过滤，将不需要的多余的词语去除，得到有效的词语。

( 4 )所述的关键词扩展方法，当前一次检索得到的关键词与前一次检索得到的关键词的误差在一定范围内则认为检索结束，获得了扩; 11^的关键词，通过迭代检索关键词收敛的方式获得了所需的关键词，加快了处理速度，提高了工作效率。

( 5 )所述的关键词扩展方法，当当前一次检索得到的关键词与前一次检索得到的关键词相同时，将当前一次检索得到的关键词确定为扩; ιυ^的关键词，此时扩展后的关键词的准确度更高。

( 6 )本发明还提供一种分类语料标注方法，通过扩展后的关键词进行检索，获得分类语料，提高了分类语料标注的效率和准确度。上述分类语料自动标注方法有效避免了现有技术中采用基于 BP神经网络算法的语料标注方法，其算法复杂，运算量大，收敛速度慢，在处理大量的语料信息时耗时长；并且还需要至少两个分类处理器进行分类处理，占用内存大；同时在进料标注时需要人工提前准备一批大 ^^的标注语料来训练分类处理器，准备所需标注语料的代价仍然很高的问题。

附图说明为了使本发明的内容更容易被清楚的理解，下面结合附图，对本发明作进一步详细的说明，其中，图 1是本发明关键词扩展方法一个实施例的流程图；图 2是本发明分类语料自动标注方法一个实施例的流程图；图 3是本发明的关键词扩展系统的一个实施例的结构图；图 4是本发明的分类语料标注系统的一个实施例的结构图。

具体实施方式

实施例 1:

本实施例提供一种关键词扩展方法， '；5½图如图 1所示，包括如下步步骤 102 ,根据预先给定的初始关键词进行检索 ,检索获得当前关键词。此实例中，使用初始关键词在文章库中进行检索，得到相关度高的文章，然后将这些相关度高的文章进行分词，将分词后的结果作为检索获得的词语。统计检索获得的词语出现的次数，将次数大于预设阈值 50次（此处的次数根据文章库的大小以及检索的关键词的普遍使用程度来设置 )的词语作为检索获得的关键词。通过这种方式将获得关键词，具有一定的统计意义，便于找到与关键词的各个含: U目关的词语。

步骤 104,将检索获得的关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索。检索的过程与步骤 102中的具体过程类似。在此步骤中，将上一次检索得到的关键词，作为当前一次检索的关键词，进行检索，检索后获得的关键词又作为下一次检索的关键词，通过这种关键词迭代的方式进行检索。

步骤 106,在每次检索后，如果当前一次检索得到的关键词与前一次检索得到的关键词误差在预设阈值内，循环检索结束，将本次检索得到的关键词作为扩展后的关键词。例如，针对当前一次检索得到的关键词与前一次检索得到的关键词进行比较，当两次检索的关键词一致时，将当前一次检索得到的关键词确定为扩展后的关键词，此时扩展后的关键词的准确度更高。

上述实施例中的关键词扩展方法，通过使用初始关键词进行检索，检索获得关键词作为下一次检索的基础，通过关键词迭代的方式进行检索，当前后两次检索的关键词误差在一定范围内时，将检索后的关键词作为所述初始关键词的扩展关键词，通过这种方式，获得了所述初始关键词的多种表达方式以及多方面含义的词义，将初始关键词进行了有效并合理的扩展，解决了现有技术中需要人工建立词库的问题，是一种实现方便、准确率高的关键词扩展方法。

作为其他可以变换的实施方式，针对当前一次检索得到的关键词与前一次检索得到的关键词进行比较，当有差别的关键词占所有关键词的比例小于一个预设阈值时如 20%, 则设置当前一次检索的关键词为扩展后的关键词。实施例 2：

( 1 )才艮据预先给定的初始关键词进行检索，检索获得当前关键词。

( 2 )将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索。

在上述（1 )和（2 )的检索过程中，检索的方式如下：使用预设的关键词在文章库中进行检索，得到相关度高的文章，然后将这些文章进行分词，分词后还进行去停用词操作，然后获取与所述预设关键词同时出现的同现词，可以通过滑窗的方法获得同现词，将所述同现词作为检索获得的词语。

上述实施例中，通过分词、去停用词、获取同现词的方式获得检索后的词语，经过上述一步一步过滤，将不需要的多余的词语去除，得到有效的词语。

统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例如 50% (此处的比例可才艮据具体情况设置）的词语作为检索获得的关键词，如检索获得的词语为 100个，则取次数较多的前 20%个作为检索获得的关键词。此处，作为其他可以替换的实施方式，也可以提前对次数做归一。归一的方法为，对一个检索获得的词语的序列，计算各个词语次数累加值 sum, 将其中一个词语出现的次 t/sum做为该词语归一后的值，然后通过归一后的值降序排列，取在先的一定数量或一定比例的值作为关键词。此过程中，定义当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值，当误差小于 10%时，则认为检索结束，当前一次检索获得的关键词为 1^的关键词。

作为另外可以替换的实施方式，也可以取前 n个关键词进行比较来计算误差 ,如取前 5个关键词或前 10个关键词计算误差，当误差小于 20%时，则认为检索结束，获得了扩展关键词。

当前一次检索得到的关键词与前一次检索得到的关键词的误差在一定范围内则认为检索结束，获得了扩; ιυ^的关键词，通过迭代检索关键词收敛的方式获得了所需的关键词，加快了处理速度，提高了工作效率。

实施例 3:

图 3是本发明的关键词扩展系统的一个实施例的结构图。如图 3所示一种关键词扩展系统，包括：

( 1 )获取单元 31:根据预先给定的初始关键词进行检索，检索获得当前关键词。在一个实施例中，获取单元包括：检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所述相关度高的文章进行分词，将分词后的结果作为检索获得的词语；检索获得关键词模块：统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的当前关键词。

作为其他可以替换的实施方式，所述获取单元包括：检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，将分词后的结果作为检索获得的词语；检索比较获得关键词模块：统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的当前关键词。

( 2 )循环检索单元 32:将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索。

上述检索的过程为：使用预设的关键词在文章库中进行检索，得到相关度高的文章，然后将这些文章进行分词，将分词后的结果作为检索获得的词语。所述的关键词扩展系统，分词后还进行去停用词操作，然后获取与所述预设关键词同时出现的同现词，将所述同现词作为检索获得的词语。然后，通过检索获得关键词模块或检索比较获得关键词模块对所述检索获得的词语进行统计，获得检索后的关键词。

( 3 )判断单元 33:判断当前一次检索得到的关键词与前一次检索得到的关键词误差是否在预设误差阈值内，所述预设误差阈值例如小于 10%, 如果是，则使所述循环检索单元的循环检索结束，将当前一次检索得到的关键词确定为扩展后的关键词。所述当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值。作为替换的方式，可以分别取前 n个关键词，进行误差的统计，如 5≤n≤10。作为其他实施方式，为了提高检索精度，在判断单元中，当当前一次检索得到的关键词与前一次检索得到的关键词相同时，才将当前一次检索得到的关键词确定为扩展后的关键词。

实施例 4:

给出一个具体的应用实例。

如给定一个初始关键词 "杯子 "进行检索，使用 "杯子 "这个词在文章库 ( 500篇文章）中检索，采用上述的检索方法和获得检索后的关键词的方法，获得一系列的关键词：水、水壶、茶杯、饮^ 饮料。

使用上述检索得到的一系列关键词进行再次检索，检索后得到的关键词为：水、茶杯、水壶、暖壶、水桶。

将两次结果进行比较，误差为 40%, 因此继续以上述检索结果做为关键词进行检索，检索后的结果为：水、茶杯、水杯、玻璃杯、水壶。

将此次检索的结果与上次检索的结果比较，误差为 40%, 不满足阈值 20%的要求，因此继续检索，以上述关键词重新检索，得到的检索结果为水、茶杯、 ^Mf, 玻璃杯、水 ^

将当前一次检索的结果与上次检索的结果比较，误差小于 20%, 满足误差阈值的要求，因此检索结束，将当前一次检索的结果"水、茶杯、水杯、玻璃杯、水壶"作为关键词"杯子"的扩的关键词。实施例 5：本实施例提供一种使用所述的关键词扩展方法进行分类语料标注方法, 流程图如图 2所示，步骤包括：步骤 202, 为每个分类确定一个或多个初始核心关键词；步骤 204,通过所述初始核心关键词采用上述关键词扩展方法获取每个分类的扩展关键词；

步骤 206,利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。

实施例 6:

图 4是本发明的分类语料标注系统的一个实施例的结构图。如图 4,一种使用关键词扩展系统的分类语料标注系统，包括：

确定关键词单元 41: 为每个分类确定一个或多个初始核心关键词；关键词扩展单元 42: 通过所述初始核心关键词采用所述关键词扩展系统获取每个分类的扩展关键词，包括：

获取子单元：根据预先给定的初始核心关键词进行检索，检索获得当前关键词；

循环检索子单元：将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；判断子单元：判断当前一次检索得到的关键词与前一次检索得到的关键词误差是否在预设误差阈值内，如果是，则使所述循环检索单元的循环检索结束，将当前一次检索得到的关键词确定为扩展后的关键词。

标注单元 43: 利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。

实施例 7: 结合一个应用实例说明使用所述的关键词扩展方法进行分类语料标注方法。

S1: 为每个分类确定一个或多个初始核心关键词。

设分类体系中有三个分类 {军事，经济，体育 }, 人工为每一个分类确定一个或多个初始核心关键词。以军事为例，确定初始核心关键词为{战争，难民，伤亡 }。建设文章全文库，全文库中的每篇文章来自报刊数据库。

S2: 通过所述初始核心关键词扩展获取每个分类的扩展关键词。

所述步骤 S2采用迭代方法进行反复检索获取每个分类的扩展关键词，包括如下步骤：

S21: 取一个分类中的初始核心关键词，通过检索获取该分类的候选扩展关键词。

S210: 取分类军事中的初始核心关键词 {战争，难民，伤亡 };

S211: 使用所述核心关键词 {战争，难民，伤亡 }进行检索，根据相关度得到前 1000篇文章。

在其他实施例中，所述文章的篇数为 n, 其中 n≥2, n为整数，所述 n的取值为 30≤n≤2000。所述 n可以选择 50、 100、 500、 700、 1200、 1700、 2000等不同的值，根据用户的需求以及该分类信息的类别特征择。

S212: 对分类军事得到的 1000篇文章进行分词和去停用词。

在本实施例中对所述 n篇文章进行分词和去停用词采用 NLPIR分词器，可以通过分词后使用停用词典过滤停用词。选用 NLPIR分词器，包括中文分词、词性标注、命名实体识别、用户词典、微博分词、新词发现与关键词提取的功能，支持 GBK编码、 UTF8编码、 BIG5编码等，该分词器功能齐全，运算速度快，稳定可靠。

在其他的实施例中，对所述 n篇文章进行分词和去停用词采用 CJK分词器或 IK分词器，可以通过分词后使用停用词典过滤停用词。针对中文语料库可以选用 CJK分词器，该分词器专门用于处理中文文档，运算速度快，稳定可靠。也可以选用 IK分词器，通过分词后使用停用词典过滤停用词，或通过配置 IK分词器的停用词典实现停用词过滤，能够实现了以词典分词为基础的正反向全切分，以及正反向最大匹配切分，该分词器优化了词典存储，占用内存小，运算速度快，稳定可靠。

S213: 通过滑窗方法得到关键词附近滑窗窗口大小为 7的词语作为所述候选扩展关键词。则取所述核心关键词前 3个词语和后 3个词语以及所述核心关键词本身作为所述候选扩展关键词；若所述核心关键词前或后的词语不足 ³个,则取所述核心关键词前或后的所有词语。在其他实施例中，可以取所述核心关键词前 ό个词语以及所述核心关键词本身作为所述候选扩展关键词；或取关键词前 4个词语和后 2 个词语以及所述核心关键词本身作为所述候选扩展关键词；或取所述核心关键词前 2个词语和后 4个词语以及所述核心关键词本身作为所述候选扩展关键词等方式进行取词。若所述核心关键词前或后的词语个数不足所取词的个数时，则取所述核心关键词前或后的所有词语。

作为其他可替换的实施方式，所述滑窗窗口大小为 S, 其中 S≥2, S为整数。所述滑窗窗口大小 S的取值为 3≤S≤10。所述滑窗窗口大小 S可以取 4、 5、 6、 8、 9、 10等不同的值，根据用户的需求来选择。本发明所述的分类语料自动标注方法，通过滑窗的方法获取关键词，该方法是通过限制窗口内所能接收的最大词数进行控制，算法简单，运算处理速度快，准确率高。

S22: 利用每次获取的所述候选扩展关键词得到新的核心关键词进行检索，直到获取的所述候选扩展关键词不再变化，并保存为关键词集合。 S221: 统计所述候选扩展关键词出现次数，按次数倒序排列所述候选扩展关键词；

S222: 取出前 10个所述候选扩展关键词作为新的核心关键词。在其他实施例中，取出前 m个所述候选扩展关键词作为新的核心关键词，其中 m≥2, m为整数，所述 m的取值为 5≤m≤30, 所述 m可以取 5、 7、 13、 17、 25、 27、 30等不同的值，根据用户的需求以及该分类信息的类别特征来选择。

S223: 返回步骤 S211, 使用所述新的核心关键词进行检索，直到所述新的核心关键词不会变化，收敛到特定的关键词集合。

对分类军事利用初始核心关键词扩展得到的 10个关键词是根据初始核心关键词通过迭代方法获取的扩展关键词 {难民，伊拉克，战争，非洲，家园，被迫，阿富汗，约旦，冲突，接收 }。

S23: 核对所述关键词集合，删除不符合类别特征的关键词后作为该分类的所述扩展关键词。

假设该用户是为了进行军事研究，则可从中删除不符合类型特征的关键词{家园，接收 }。

通过核对所述关键词集合，删除一些不符合类别特征的关键词，得的扩展关键词集合^ 的准确。

S3: 利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。包括如下步骤：

S31: 利用分类对应的扩展关键词 {难民，伊拉克，战争，非洲，被迫，阿富汗，约旦，冲突 }从全^中检索，根据相关度降序排序。

S32:取前 1000篇文章进行核对，从中选择分类语料，并标注为"军事，，。

在其它的实施例中，取前 k篇文章进行核对，其中 K≥10, 所述 Κ 为正整数，所述 Κ的取值为 100≤Κ≤2000。所述 Κ可以选择 1500、 1700、 2000等不同的取值，根据该分类的语料类别特征来选择。

在核对所述前 Κ篇文章时，从中删除一些不符合类别特征的文章，将剩余符合类别特征的文章作为该分类的语料进行标注。本发明所述的分类语料自动标注方法，通过对每次检索后获得文章数量进行限定，减少了处理文章的数量，提高了处理速度，同时也对一些相关度较低文章进行过滤，使获取的新的核心关键词更加准确。本发明所述的分类语料自动标注方法，每次检索为全文检索，能够从文章的全文进行匹配，查全率高，使获得的标注语料准确率高。本发明所述的分类语料自动标注方法，对通过扩展关键词进行检索到的语料进行核对，从中删除一些不符合类别特征的文章，将剩余符合类别特征的文章作为该分类的语料进行标注，使标注的语料更加准确。实施例 8：本实施例提供另外一种分类语料标注方法的具体实施方式。第一步，设分类体系中有三个分类 {军事，经济，体育 }, 人工为每一个分类确定一个或多个核心关键词。以军事为例，确定初始核心关键词为 {战争，难民，伤亡 }。建设文章全文库，全文库中的每篇文章来自报刊数据库。

第二步，对于分类军事，利用核心关键词{战争，难民，伤亡 }进行全文检索，得到前 1000篇文章。

第三步，对得到的 1000篇文章进行分词和去停用词。第四步，通过滑窗方法得到关键词附近窗口大小为 6的关键词。第五步，统计关键词出现次数，按次数倒序排列关键词。

第六步，从第五步的关键词中，取出前 10个关键词做为新的核心关键词。

第七步，重复第二步到第六步，直到前 10个关键词不会变化，即收敛到特定的关键词集合。得到的 10个关键词是根据初始核心关键词通过迭代方法获取的扩展关键词 {难民，伊拉克，战争，非洲，家园，被迫，阿富汗，约旦，冲突，接收 }。

第八步，人工核对扩展关键词，从中删除不符合类型特征的关键词 {家园，接收 }。第九步，利用分类对应的扩展关键词 {难民，伊拉克，战争，非洲，被迫，阿富汗，约旦，冲突 }从全文库中检索。得到前 1000篇文章，这 1000 篇文章做为候选的该分类语料。

第十步，人工核对 1000篇文章，从中选择分类语料。第十一步，对于所有分类，重复第二步到第十步。从而为分类体系中的每个分类得到标注语料。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。本文中还提供一种或多种具有计算机可执行指令的计算机可读介质，所述指令在由计算机执行时，执行关键词扩展方法，该方法包括：根据预先给定的初始关键词进行检索，检索获得当前关键词；将检索获得的所述当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；如果当前一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内，循环检索结束，将当前一次检索得到的关键词确定为扩; ιυ^的关键词。本文中还提供一种或多种具有计算机可执行指令的计算机可读介质，所述指令在由计算机执行时，执行上述分类语料标注方法。本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、 CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、 i殳备（系统）、和计算积序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

& 利要求

1. 一种关键词扩展方法，其特征在于，包括：

才艮据预先给定的初始关键词进行检索，检索获得当前关键词；将检索获得的所述当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；

如果当前一次检索得到的关键词与前一次检索得到的关键词误差在预设误差阈值内，循环检索结束，将当前一次检索得到的关键词确定为扩展后的关键词。

2.根据权利要求 1所述的关键词扩展方法，其特征在于，所述检索获得当前关键词的过程为：分别统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的当前关键词。

3.根据权利要求 1所述的关键词扩展方法，其特征在于，所述检索获得当前关键词的过程为：统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的当前关键词。

4.根据权利要求 2或 3所述的关键词扩展方法，其特征在于，获取所述检索获得的词语的方法为：

使用预设关键词在文章库中进行检索，得到相关度高的文章；将所述相关度高的文章进行分词，将分词后的结果作为检索获得的词语。

5.根据权利要求 4所述的关键词扩展方法，其特 ^于，分词后 i£¾ 行去停用词操作，然后获取与所述预设关键词同时出现的同现词，将所述同现词作为检索获得的词语。

6.根据权利要求 1-5 中任一所述的关键词扩展方法，其特征在于，当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值。

7.根据权利要求 6所述的关键词扩展方法，其特征在于，当前一次检索得到的关键词与前一次检索得到的关键词，分别取前 n个关键词，进行误差的统计， 5≤n≤10。

8.根据权利要求 1所述的关键词扩展方法，其特征在于，所述预设误差阈值小于 20%。

9.根据权利要求 1所述的关键词扩展方法，其特征在于，当当前一次检索得到的关键词与前一次检索得到的关键词相同时，将当前一次检索得到的关键词确定为扩展后的关键词。

10.—种分类语料标注方法，其特征在于，步骤包括：

为每个分类确定一个或多个初始核心关键词；

通过所述初始核心关键词采用如权利要求 1-9所述的关键词扩展方法获取每个分类的扩展关键词；

利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。

11. 一种关键词扩展系统，其特征在于，包括：

获取单元：根据预先给定的初始关键词进行检索，检索获得当前关键词；

循环检索单元：将检索获得的当前关键词作为下一次检索的基础，通过关键词迭代的方式进行循环检索；

判断单元：判断当前一次检索得到的关键词与前一次检索得到的关键词误差是否在预设误差阈值内，如果是，则使所述循环检索单元的循环检索结束，将当前一次检索得到的关键词确定为扩; !U^的关键词。

12.根据权利要求 11所述的关键词扩展系统，其特 ^于，所述获取单元中，包括：

检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，将分词后的结果作为检索获得的词语；

检索获得关键词模块：分别统计检索获得的词语出现的次数，将次数大于预设阈值的词语作为检索获得的当前关键词。

13.根据权利要求 11所述的关键词扩展系统，其特征在于，所述获取单元包括：

检索词语获得模块，用于使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，将分词后的结果作为检索获得的词语；，

检索比较获得关键词模块：统计检索获得的词语的个数以及各个词语出现的次数，按照次数的多少降序排列，将排列在前的一定比例的词语作为检索获得的当前关键词。

14.根据权利要求 12或 13所述的关键词扩展系统，其特于，所述检索词语获得模块使用预设关键词在文章库中进行检索，得到相关度高的文章，然后将所目关度高的文章进行分词，分词后还进行去停用词操作，然后获取与所述预设关键词同时出现的同现词，将所述同现词作为检索获得的词语。

15.根据权利要求 11-14 中任一所述的关键词扩展系统，其特征在于，当前一次检索得到的关键词与前一次检索得到的关键词的误差为：当前一次检索得到的关键词与前一次检索得到的关键词存在差别的关键词的个数占当前一次检索得到的关键词的个数的比值。

16.根据权利要求 15所述的关键词扩展系统，其特 ^于，当前一次检索得到的关键词与前一次检索得到的关键词，分别取前 n个关键词，进 ^差的统计， 5≤n≤10。

17.根据权利要求 11-16任一所述的关键词扩展系统，其特征在于，所述预 i殳误差阈值小于 20%。

18.根据权利要求 11-17任一所述的关键词扩展系统，其特征在于，如果当前一次检索得到的关键词与前一次检索得到的关键词相同时，将当前一次检索得到的关键词确定为扩展后的关键词。

19.一种分类语料标注系统，其特征在于，包括：

确定关键词单元：为每个分类确定一个或多个初始核心关键词；关键词扩展单元：通过所述初始核心关键词采用如权利要求 1-18中任意一项所述的关键词扩展系统获取每个分类的扩展关键词；

标注单元：利用分类对应的所述扩展关键词进行检索，从中选择分类语料，并进行标注。

20.—种或多种具有计算机可执行指令的计算机可读介质，所述指令在由计算机执行时，执行关键词扩展方法，该方法包括：