WO2017084267A1

WO2017084267A1 - 一种关键词提取方法和装置

Info

Publication number: WO2017084267A1
Application number: PCT/CN2016/082642
Authority: WO
Inventors: 赵九龙
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2015-11-18
Filing date: 2016-05-19
Publication date: 2017-05-26
Also published as: CN105893410A

Abstract

一种关键词提取方法和装置，利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词(110)；计算任意两个所述候选关键词之间的相似度(120)；根据所述相似度计算所述候选关键词的权重，根据预设的语料库计算所述候选关键词的逆文档频率(130)；根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词(140)，提高了关键词抽取的准确率。

Description

一种关键词提取方法和装置

交叉引用

本申请引用于2015年11月18日递交的名称为“一种关键词提取方法和装置”的第2015107993486号中国专利申请，其通过引用被全部并入本申请。

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种关键词提取方法和装置。

背景技术

随着信息技术的不断发展，大量的文本信息开始以计算机可读的形式存在，许多领域信息都呈现出爆发式增长，比如豆瓣上的影评以及短评。如何在海量的信息当中快速并准确的提取有用的信息将是一个重要的技术需求。关键词提取就是一种解决上述问题的有效手段，关键词是对文章主体信息的精炼，更快的掌握重要信息，提高信息访问的效率。

关键词提取从方法来说大致有两种：第一种叫做关键词分配，即给定一个关键词库，然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种就是关键词抽取，就是来一篇文章，从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽关键词的算法)和它对应的库都是基于关键词抽取的，关键词抽取相比于关键词分配更具有实际意义。

关键词抽取的算法，目前主要有TF-IDF算法、KEA算法和TextRank算法。在《数学之美》中介绍的TF-IDF关键词提取算法需要预先保存每个词的IDF(逆文档频率)值作为外部知识库，复杂的算法则需要保存更多的信息。对于不使用外部知识库的算法，主要是可以实现语言无关以及避免词表中不存在词语所造成的问题。TF-IDF算法思路是找到文本中常见但是在别的文本中不常出现词语，这个正好符合关键词的特点。

初代KEA算法除了使用TF-IDF外还用到了词语在文章中首次出现的位置，这个根据就是大多数的文章(特别是新闻文本)是总分总的结构，很明显一个词语出现在文章首部和尾部成为关键词的可能性大于只出现在文章中部的词语。对各个词根据在文章首次出现的位置赋予不同的权值，结合TF-IDF以及连续数据离散化方法，这个就是初代KEA算法的核心思想。

不依赖外部知识库的关键词算法主要根据文本本身的特征去提取。比如说关键词特征之一就是在文本中反复出现且关键词附近出现关键词的概率非常大，因此就有了TextRank算法。它利用类似于PageRank算法，将文本中每个词看成一个页面，认为文本中某一个词语与之周围N个词存在一个link，然后在这个网络中使用PageRank算出每个词语的权值，把权值最高的几个词作为关键词即可。TextRank典型的实现包括FudanNLP和SnowNLP等。

以上算法都未考虑词语的相似性，TF*IDF是基于词频(TF)和逆文档频率(IDF)的乘积来衡量词的重要性。优点是简单快捷；缺点也很明显，单纯计算”词频”不够全面，而且无法体现词的位置信息。TextRank中计算的是位置关系，至于该位置是哪个词不做考虑，词语的相似性对结果有影响。因此一种高效准确的关键词提取算法亟待提出。

发明内容

本发明实施例提供一种关键词提取算法及装置，用以解决现有技术仅考虑词频和词的位置关系的缺陷，提高了关键词提取的准确性。

本发明实施例提供一种关键词提取方法，包括：

利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词；

计算任意两个所述候选关键词之间的相似度；

根据所述相似度，计算每个所述候选关键词的权重，根据预设的语料库计算所述候选关键词的逆文档频率；

根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词。本发明实施例提供一种关键词提取装置，包括：

候选关键词获取模块，用于利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词；

相似度计算模块，用于计算任意两个所述候选关键词之间的相似度；

逆文档频率计算模块，用于根据所述相似度，计算所述候选关键词的权重，根据预设的语料库计算所述候选关键词的逆文档频率；

关键词提取模块，用于根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词。

本发明实施例提供的一种关键词提取方法及装置，通过对文本进行分词、计算单词之间的相似度以及逆文档频率，提高了关键词抽取的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一的技术流程图；

图2为本发明实施例二的技术流程图；

图3为本发明实施例三的装置结构示意图；

图4为本发明应用实例的词项图示例；

图5为本发明应用实例的TextRank迭代后的词项图示例。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1是本发明实施例一的技术流程图，结合图1，本发明实施例一种关键词提取方法主要包括如下的步骤：

步骤110：利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词；

本发明实施例中，利用现有的分词器将收集到的文本分割为单独的词语并且能获得每个单词的词性，其中分词器可以包括基于词典匹配算法的分词器、基于词库匹配的分词器、基于词频度统计的分词器和基于知识理解的分词器等，本发明实施例并不做限制。

利用分词器得到单词后需对单词进行进一步地处理，如根据所述词性和预设的黑名单对所述单词进行停用词与非必要词的过滤等。所述停用词是一些没有实际含义的词，包括语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如中文文本中常见的”的、在”之类，英文文本中的“the、is、at、which、 on”。针对一些非必要词，可以根据预设的黑名单，结合正则表达式将这些词滤除，得到文本中的候选关键词。

步骤120：计算任意两个所述候选关键词之间的相似度；

本发明实施例中，采用word2vec来计算词向量。word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram架构实现，Word2vec可以计算词和词之间的距离，知道了距离，可以对词进行聚类，而且word2vec本身也提供了聚类功能。

Word2vec使用到了deep learning技术，不仅有着非常高的准确度，同时效率非常高，适合处理海量数据。

步骤130：根据所述相似度，计算每个所述候选关键词的权重，并根据预设的语料库计算每个所述候选关键词的逆文档频率；

本发明实施例中，利用TextRank公式迭代计算每个所述候选关键词的权重，在迭代计算之前预先构建词项图G(V，E)，其中V为所述候选关键词集合，E为任意两个候选关键词相连接构成的边的集和，

根据预设的迭代次数，采用如下公式迭代计算每个所述候选关键词的所述权重：

其中，WS(V_i)表示所述词项图中候选关键词V_i的所述权重，In(V_i)表示所述词项图中指向候选关键词V_i的候选关键词集合，Out(V_j)表示所述词项图中候选关键词V_j所指向的候选关键词的集合，w_ji表示候选关键词V_i和候选关键词V_j的所述相似度，w_jk表示候选关键词V_j和候选关键词V_k的所述相似度，d为阻尼系数，WS(V_j)代表上一次迭代时，候选关键词V_j的所述权重。

通常来说，如果一个词在越多的文本中出现过，那个这个词对某一个文本的贡献度应该就越小，也就是通过这个词来区分文本的区分度越小，因此，本发明实施例中，进一步使用如下公式计算每个所述候选关键词的所述逆文档频率：

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文本都不包含该词)。log表示对得到的值取对数，可以降低最后得到的数值大小。

步骤140：根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词。

具体地，本发明实施例以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度，并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。

本发明实施例中，每个候选关键词最终都会得到一个相应的关键度，将所述候选关键词按照其对应的关键度进行由大到小的排序，若是需要提取N个关键词，则只需从关键度最高的候选关键词开始，按序选取N个即可。

本发明实施例中，关键度＝权重*逆文档频率，其中，所述权重的计算过程中结合了单词之间的相似性，同时考虑了单词的位置关系，所述逆文档频率又兼顾单词对文本的贡献大小，这样综合的关键词提取方法显著提高了关键词的抽取效果。

实施例二

图2是本发明实施例二的技术流程图，结合图2，本发明实施例一种关键词的提取方法进一步可以细化为以下的步骤：

步骤210：利用分词器对文本进行分词得到每个单词及其词性；

本发明实施例中，用现有的分词方法，将文本分割为词汇的方法可以是下述任一一种，或者任意几种的组合。

基于词典匹配算法的分词器应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。基于词库匹配的分词器则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

基于字典、词库匹配的分词方法按照一定策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。识别出一个词，根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况，分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

其中，最大正向匹配法(MaxiumMatchingMethod)通常简称为MM法。其基本思想为：假定分词词典中的最长词有i个汉字字符，则用被处理文本的当前字串中的前i个字作为匹配字段，查找字典。若字典中存在这样的一个i字词，则匹配成功，匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词，则匹配失败，将匹配字段中的最后一个字去掉，对剩下的字串重新进行匹配处理……如此进行下去，直到匹配成功，即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配，然后取下一个i字字串进行匹配处理，直到文本被扫描完为止。

最大逆向匹配法(ReverseMaxiumMatchingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同，不同的是分词切分的方向与 MM法相反，而且使用的分词辞典也不同。逆向最大匹配法从被处理文本的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。相应地，它使用的分词词典是逆序词典，其中的每个词条都将按逆序方式存放。在实际处理时，先将文本进行倒排处理，生成逆序文本。然后，根据逆序词典，对逆序文本用正向最大匹配法处理即可。

最大匹配算法是一种基于分词词典的机械分词法，不能根据文本上下文的语义特征来切分词语，对词典的依赖性较大，所以在实际使用时，难免会造成一些分词错误，为了提高系统分词的准确度，可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案，即双向匹配法。

双向匹配法，将正向最大匹配法与逆向最大匹配法组合。先根据标点对文本进行粗切分，把文本分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

基于词的频度统计的分词方法是一种全切分方法。它不依靠词典，而是将文章中任意两个字同时出现的频率进行统计，次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词，运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。

基于知识理解的分词方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式。

优选地，本发明实施例在利用分词器对文本进行分词之前预先使用正则表达式对文本进行去重去噪处理，例如文本中的表情符号O(∩_∩)O，或类似“。。。。。。。”的极度重复标点或者类似“哈哈哈哈哈”一类的极度重复词。对于一些特定的网页评论数据，可以进一步统计自动评论模板，例如根据自动评论模板去除评论数据中包含的自动评论、一些网址链接等等。

步骤220：根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词；

文本中通常含有大量的语气词、助词等一些并不存在实际意义的词，这些词被称为停用词，这类停用词的出现频率通常很高，若是不滤除则会影响到关键词提取的准确率。本发明实施例中，首先根据词性对所述候选关键词进行滤除，通常而言，各类助词和介词是需要被滤除的。除此之外，预先建立黑名单，所述黑名单不仅包括了停用词，还包括一些非法词汇，广告词汇等等。根据预先建立的黑名单可以再次使用正则表达式对所述候选关键词进行清理，减轻后续计算压力。

步骤230：计算任意两个所述候选关键词之间的相似度；

本发明实施例中，利用word2vec将每个所述候选关键词转化为单词向量的形式，并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。

自然语言理解的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具，采用的模型有CBOW(Continuous Bag-Of-Words，即连续的词袋模型)和Skip-Gram两种。word2vec遵循Apache License 2.0开源协议，通过训练，可以把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。因此，word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。

对本文中的单词进行相似性计算，有助于对文本进行分类，了解文档主题，从而提高关键词的提取准确度

本发明实施例中，主要采用word2vec工具将所述候选关键词转化为K维向量空间中的向量运算，再通过每个所述候选关键词对应的空间词向量的相似性来计算其对应的相似度。

步骤240：根据所述候选关键词构建词项图；

用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口，每个所述窗口包含K个相邻的所述候选关键词；其中N为所述候选关键词的总数，K为所述窗口的尺寸；

例如，候选关键词为v1,v2,v3,v4,v5,...,vn，窗口长度为K，将窗口覆盖在所述候选关键词上，逐个平移，将得到如下的候选关键词窗口：v1,v2,...,vk、v2,v3,...,vk+1、v3,v4,...,vk+2，...等等。基于相邻的位置关系，每个窗口内的候选关键词是相互关联的，窗口之间默认独立。

得到候选关键词窗口后，用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V，E)，其中V为所述候选关键词集合，E为任意两个候选关键词相连接构成的边的集和，

在所述词项图中，每一个所述候选关键词都可以看作是一个节点，词项图就是由若干个节点与节点之间的连线构成，这些连线最初是无权无向的边。

需要说明的是，步骤230和步骤240之间并无先后顺序，本发明实施例中也可以先构建所述词项图再计算所述候选关键词之间的相似度。

步骤250：利用TextRank公式迭代计算每个所述候选关键词的权重；

计算每个所述候选关键词的权重时，需进一步结合词项图之间每个所述候选关键词的连接关系以及每个所述候选关键词之间的相似度，采用如下公式迭代计算：

本发明实施例中，迭代次数是一个预设的经验值，迭代的次数受候选关键词权重初值的影响，通常，需要给所述词项图中的任意一个指定的候选关键词赋初值，本发明实施例中，将每个所述候选关键词的权重初值设为1。

为了避免权重计算过程中出现无限循环迭代的状况，本发明实施例中为迭代过程设定了迭代次数的上限，根据经验值，将迭代次数设置为200，即当迭代次数达到200时，停止迭＝代过程，将得到的结果作为对应的候选关键词的权重得分。

优选的，本发明实施例还可以通过判断迭代结果是否收敛来决定迭代次数。当迭代结果收敛时，即可停止迭代，所述指定的候选关键词会得到一个权重值。此处所述收敛通过判断指定的候选关键词计算出的权重值的误差率是否小于预设的极限值从而能够达到收敛点。候选关键词Vi的误差率为其实际权重和第K次迭代时得到的权重之间的差值，但由于候选关键词的实际权重是未知的，所以误差率近似认为是候选关键词在两次迭代结果之间的差值，一般所述极限值取0.0001。

通过反复的迭代计算之后，所述词项图会发生变化

步骤260：并根据预设的语料库计算每个所述候选关键词的逆文档频率；

需要说明的是，步骤250和步骤260之间并无先后顺序，本发明实施例中，也可以先计算逆文档频率，再迭代计算每个候选关键词的权重，本发明并不做限制。

步骤270：以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度，并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。

V_i的关键度＝IDF*WS(V_i)

本实施例中，提取关键词的算法中，通过进一步地对文本进行非必要因素的过滤，减轻了数据冗余，提高了关键词提取过程中的计算效率，同时使用word2vec工具进行近义词的判断，结合词的位置关系和词频，提取的关键词质量和准确率更高。

实施例三

图3是本发明实施例三的技术流程图，结合图3，本发明一种关键词提取装置主要包括候选关键词获取模块310、相似度计算模块320、逆文档频率计算模块330、关键词提取模块340。

所述候选关键词获取模块310，用于利用分词器对文本进行分词得到每个单词及其词性，并根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词；

所述相似度计算模块320，用于计算任意两个所述候选关键词之间的相似度；

所述逆文档频率计算模块330，用于根据所述相似度，利用TextRank公式迭代计算每个所述候选关键词的权重，并根据预设的语料库计算每个所述候选关键词的逆文档频率；

所述关键词提取模块340，用于以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度，并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。

进一步地，所述相似度计算模块320进一步用于：利用word2vec将每个所述候选关键词转化为单词向量的形式，并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。

所述装置进一步包括构图模块350，所述构图模块350用于根据所述相似度，利用TextRank公式迭代计算每个所述单词的权重之前，用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口，每个所述窗口包含K个相邻的所述候选关键词；其中N为所述候选关键词的总数，K为所述窗口的尺寸；用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V，E)，其中V为所述候选关键词集合，E为任意两个候选关键词相连接构成的边的集和，

所述逆文档频率计算模块330进一步用于：根据预设的迭代次数，采用如下公式迭代计算每个所述候选关键词的所述权重：

其中，WS(V_i)表示所述词项图中候选关键词V_i的所述权重，In(V_i)表示所述词项图中指向候选关键词V_i的候选关键词集合，Out(V_j)表示所述词项图中候选关键词V_j所指向的候选关键词的集合，w_ji表示候选关键词V_i和候选关键词V_j的所述相似度，w_jk表示候选关键词V_j和候选关键词V_k的所述相似度，d为阻尼系数，WS(V_j)代表上一次迭代时，候选关键词V_j的所述权重。所述逆文档频率计算模块进一步还用于，

使用如下公式计算每个所述候选关键词的所述逆文档频率：

其中，log()表示取对数运算。

应用实例

假设网络爬虫爬取到一篇豆瓣影评文本等待关键词提取处理，文本内容如下：哈哈哈哈哈哈哈！太好看了^_^！太震撼了！强力推荐！这是能让人真心大笑又哽咽感动的影片———好的喜剧剧本、演员，其实比悲剧更难表现好，两位主演的表现相当亮眼，细节也非常出彩到位。真是让人回味无穷。。。。。。推荐下载地址http://movie.xxx.com。

对于这样一篇影评，要提取其关键词作为标签，首先在词语分隔之前进行使用正则表达式对文本进行去重去噪处理，去除类似”哈哈哈哈哈哈哈”、”^_^”、”———”、”。。。。。。”、”。。。。。。”、”http://movie.xxx.com”这样的非必要内容，使得文本更加清洁。

于是得到下述结果：

！太好看了！太震撼了！强力推荐！这是能让人真心大笑又哽咽感动的影片好的喜剧剧本、演员，其实比悲剧更难表现好，两位主演的表现相当亮眼，细节也非常出彩到位。真是让人回味无穷推荐下载地址。

这段文本中，除了必要的句子之外，还有很多标点符号以及停用词，此时，可以再次采用正则表达式过滤掉标点符号以及”太、了、这、是、能”等这一类词，得到下述结果：

好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载地址

接下来，采用分词器进行句子分割，此处采用基于字典、词库匹配的分词方法，正向扫描出每一个词，并将之与预设的词库进行匹配，可能会得到下述结果：

得到分割后的关键词之后，发现部分单字不能成词，且不具实际意义，因此，还需要进一步过滤，将不能成词的单字滤除。进一步，根据得到的若干候选关键词，采用word2vec工具将其转化为词向量，计算任意二者之间的相似度W，例如：W(好看，震撼)＝a，W(好看，强力)＝b，W(好看，推荐)＝c等等。与此同时，采用长度为5的窗口覆盖在所述候选关键词上，逐个平移，得到如下的候选关键词窗口：

好看震撼强力推荐真心

震撼强力推荐真心大笑

强力推荐真心大笑哽咽

推荐真心大笑哽咽感动的

真心大笑哽咽感动的影片

大笑哽咽感动的影片好的

……………………………

回味无穷推荐下载地址

每一个窗口内的词语都是相互连接的，两两相互指向，参见图4所示。

得到指向关系和相似度W之后，将其代入TextRank公式计算每个候选关键词的权重。

假设在200次迭代完成之后得到图5的结果。从图5中可以得到关键词的投票结果，被指向最多的候选关键词对应的权重是最高的。与此同时，针对每一个候选关键词，还要结合预设的语料库计算每个所述候选关键词的逆文档频率。权重与逆文档频率的乘积即是每个候选关键词对应的关键度。将这些候选关键词按照对应的关键度从大到小排列，根据需要的数量即可进行抽取。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

上述说明示出并描述了本申请的实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

一种关键词提取方法，其特征在于，所述方法包括如下步骤：

利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词；

计算任意两个所述候选关键词之间的相似度；

根据所述相似度计算所述候选关键词的权重，根据预设的语料库计算所述候选关键词的逆文档频率；

根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词。
根据权利要求1所述的方法，其特征在于，所述计算任意两个所述候选关键词之间的相似度包括：

利用word2vec将所述候选关键词转化为单词向量的形式，根据所述候选词的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
根据权利要求1所述的方法，其特征在于，所述计算所述候选关键词的权重包括，

用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口，每个所述窗口包含K个相邻的所述候选关键词，其中N为所述候选关键词的总数，K为所述窗口的尺寸；

用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V，E)，其中，V为所述候选关键词集合，E为任意两个候选关键词相连接构成的边的集和，

根据预设的迭代次数，采用如下公式迭代计算每个所述候选关键词的所述权重：

其中，WS(V_i)表示所述词项图中候选关键词V_i的所述权重，In(V_i)表示所述词项图中指向候选关键词V_i的候选关键词集合，Out(V_j)表示所述词项图中候选关键词V_j所指向的候选关键词的集合，w_ji表示候选关键词V_i和候选关键词V_j的所述相似度，w_jk表示候选关键词V_j和候选关键词V_k的所述相似度，d为阻尼系数，WS(V_j)代表上一次迭代时，候选关键词V_j的所述权重。
根据权利要求1所述的方法，其特征在于，根据预设的语料库计算每个所述单词的逆文档频率，包括，

使用如下公式计算每个所述候选关键词的所述逆文档频率：

其中，log()表示取对数运算。
根据权利要求1所述的方法，所述根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，包括：

以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度，并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。
一种关键词提取装置，其特征在于，所述方法包括如下模块：

候选关键词获取模块，用于利用分词器对文本进行分词得到单词，对所述单词进行过滤得到候选关键词；

相似度计算模块，用于计算任意两个所述候选关键词之间的相似度；

逆文档频率计算模块，用于根据所述相似度，计算所述候选关键词的权重，根据预设的语料库计算所述候选关键词的逆文档频率；

关键词提取模块，用于根据所述候选关键词的权重和所述逆文档频率，获取所述候选关键词的关键度，根据所述候选关键词的关键度选取关键词。
根据权利要求6所述的装置，其特征在于，所述相似度计算模块进一步用于：

利用word2vec将每个所述候选关键词转化为单词向量的形式，并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。
根据权利要求6所述的装置，其特征在于，所述逆文档频率计算模块具体用于：

用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口，每个所述窗口包含K个相邻的所述候选关键词；其中N为所述候选关键词的总数，K为所述窗口的尺寸；

用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词项图G(V，E)，其中V为所述候选关键词集合，E为任意两个候选关键词相连接构成的边的集和，

根据预设的迭代次数，采用如下公式迭代计算每个所述候选关键词的所述权重：

其中，WS(V_i)表示所述词项图中候选关键词V_i的所述权重，In(V_i)表示所述词项图中指向候选关键词V_i的候选关键词集合，Out(V_j)表示所述词项图中候选关键词V_j所指向的候选关键词的集合，w_ji表示候选关键词V_i和候选关键词V_j的所述相似度，w_jk表示候选关键词V_j和候选关键词V_k的所述相似度，d为阻尼系数，WS(V_j)代表上一次迭代时，候选关键词V_j的所述权重。
根据权利要求6所述的装置，其特征在于，所述逆文档频率计算模块具体用于，

使用如下公式计算每个所述候选关键词的所述逆文档频率：

其中，log()表示取对数运算。
根据权利要求6所述的装置，其特征在于，所述关键词提取模块，具体用于：

以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述候选关键词的关键度，并根据每个所述候选关键词的关键度排序以及预设的关键词数量进行关键词的选取。