WO2013102396A1

WO2013102396A1 - 一种自动给文档添加标签的方法、装置以及计算机存储介质

Info

Publication number: WO2013102396A1
Application number: PCT/CN2012/086733
Authority: WO
Inventors: 贺翔; 王业; 焦峰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-01-05
Filing date: 2012-12-17
Publication date: 2013-07-11
Also published as: US20150019951A1; KR20140093762A; JP2015506515A; CN103198057A; CN103198057B; KR101479040B1; EP2801917A1; US9146915B2; EP2801917A4

Abstract

本发明实施例提出一种自动给文档添加标签的方法和装置，其中方法包括：确定多个候选标签词；确定包括多个文本的语料；从语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定在出现特征词的情况下同时出现候选标签词的共现概率；从文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；在语料中，针对候选标签词，统计候选标签词与文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明实施例能够实现为文档添加标签的智能化，该标签不限于文档中出现的关键词。

Description

一种自动给文档添加标签的方法、装置以及计算机存储介盾本申请要求于 2012 年 1 月 5 日提交中国专利局、申请号为 201210001611.9、发明名称为 "一种自动给文档添加标签的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本申请涉及互联网文档技术领域，尤其涉及一种自动给文档添加标签的方法和装置。发明背景

标签（ tag )是互联网内容组织方式，是与文档相关性很强的关键字，它能够对文档内容进行筒单描述和分类，以便于检索和分享。

目前，为文档添加标签的方法主要有三种： 1 )人工标签：人工为文档指定特定标签； 2 ) 关键词标签：通过分析文档内容，自动提取文档中的重要关键词作为标签； 3 )社会化标签：由用户为自己的文档添加标签。这三种方法都存在缺点，比如， 1 )人工标签：不能自动对大规模文档添加标签； 2 ) 关键词标签：只能用文档中出现的关键词作为标签，而并非关键词都适合做标签； 3 )社会化标签：需要用户自己给文档加标签，由于用户标准不一致，导致标签混乱。发明内容

本发明实施例提供了一种自动给文档添加标签的方法和装置，能够实现为文档添加标签的智能化，该标签不限于文档中出现的关键词。

本发明实施例的技术方案是这样实现的：一种自动给文档添加标签的方法，包括：

确定对应所述文档的多个候选标签词；

确定包括多个文本的语料；从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。

一种自动给文档添加标签的装置，包括：

候选标签词确定模块，用于确定对应所述文档的多个候选标签词；共现概率确定模块，用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

权值计算模块，用于从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

加权共现概率统计模块，用于在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；

标签词添加模块，用于选择加权共现概率高的候选标签词作为为文档添力口的标签词。

可见，本发明实施例提出的自动给文档添加标签的方法和装置，能够统计语料中特征词与候选标签词之间的共现概率，将共现概率转换为特征词对候选标签词的投票权，最终将得票最多的候选标签词作为为文档添加的标签词，从而实现了为文档添加标签的智能化，并且该标签不限于文档中所出现的词。附图简要说明

图 1为本发明实施例提出的自动给文档添加标签的方法流程图；图 2 为本发明实施例提出的自动给文档添加标签的装置结构示意图。实施本发明的方式

本发明实施例提出一种自动给文档添加标签的方法，如图 1为该方法流程图，包括：

步骤 101：确定对应所述文档的多个候选标签词。

本步骤中，确定对应所述文档的多个候选标签词可以通过以下三种方式实现，但不限于这三种方式。

1 )人工标签：人工为文档指定特定标签。

2 ) 关键词标签：通过分析文档内容，自动提取文档中的重要关键词作为标签。

3 )社会化标签：由用户为自己的文档添加标签。

其中当候选标签词通过人工标签和社会化标签确定时，该候选标签词不限于该文档中出现的词。

步骤 102: 确定包括多个文本的语料。

举例来说，若从网络获取一百万个文本，则该获取的一百万个文本统称为语料。

步骤 103: 从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；步骤 104: 从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

步骤 105: 在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；选择加权共现概率高的候选标签词作为为文档添加的标签词。

上述步骤 103中，共现概率为其中， X为候选标签词，； F 为语料中出现的特征词；可以采用多种方式确定：

第一种， P ( Π = X和 y在语料包含的同一文本中同时出现的次数在语料中出现的次数；

第二种， ρ(χ ι ι

,其中， Η(Χ, Υ)为 X

Ι(Χ, Υ) Η(Χ) + Η(Υ) - Η(Χ, Υ)

和的联合熵， /(Χ,Γ)为 X和的互信息， H(X)为 X的信息熵， H(r)为的信息熵；

第三种，利用类似 wordnet的词库资源进行确定。

上述步骤 104中，针对每个提取出的特征词，可以根据该特征词在所述文档中出现的次数和所述语料中出现该特征词的文本数计算该特征词的权值。

所述文档中提取出的特征词 y的权值为 w_y , W_Y的计算方式可以为：等于 y在文档中出现的次数与所述语料中出现； F的文本数的乘积。上述步骤 105 中，加权共现概率为 = ( n ）x W , 其中，为文档中出现的特征词， ^为的权值， n为文档中出现的特征词的个数。

上述步骤 105中，可以针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率 , 而无需对所有候选标签词都统计 Ρ_τ 。以下举具体的实施例详细介绍。

实施例一：

步骤 1: 准备标签词集

根据需求，获取对应于文档的多个候选标签词，构成标签词集。例如，需要对影视类内容的文档添加标签，则标签词集可以包括影视类型、明星等标签词。

步骤 2: 准备语料

可以从互联网上收集相关的多个文本作为语料，用来统计词之间的共现关系。

步骤 3: 从语料中提取特征词

对语料中的文本进行切词，统计各个词的词频（ TF, term frequency ), 去掉高频词、停用词和低频词，将剩余的常用词作为特征词。

步骤 4: 统计特征词和候选标签词的共现概率 P X I Y)

P(X \ Y) = X ^ Y在语料包含的同一文本中同时出现的次数 / 在语料中出现的次数；

其中， X为候选标签词，； F为特征词。

步骤 5: 为文档自动添加标签词，具体步骤如下：

1 )对文档进行切词

2 )通过切词结果提取文档中出现的所有特征词，针对每个提取出的特征词，计算特征词 y的权值 = TFxIDF, 其中， TF为在文档中出现的次数， IDF为语料中出现; F的文本数。

3 )根据步骤 4 中统计出的共现概率，提取与至少一个特征词存在共现关系（即共现概率不为 0 ) 的候选标签词；

4 )针对提取出的候选标签词，统计各个候选标签词与文档中出现的所有特征词的加权共现概率 = X W , 其中，； ^为文档中出现的特征词， ^为的权值， W为文档中出现的特征词的个数。

5 )对所有提取出的候选标签词按照 Ρ_χ由高到低的顺序进行排序，选择最高的一个或几个候选标签词作为为文档添加的标签词。

在本步骤中，第 3 ) 步首先提取一部分候选标签词，之后计算这些提取的候选标签词的加权共现概率，这种方式是为了加快计算速度、节约系统资源；本发明实施例也可以对所有候选标签词都计算加权共现概率，对于与所有特征词均不存在共现关系的候选标签词，其计算出的加权共现概率 = 0 , 第 5 ) 步排序后，该候选标签词将被排在最末端。

本发明的其它实施例中，可以采用其它的方式统计特征词和候选标签词的共现概率 Ρ(Χ ΐ ;Π 。例如，采用

^7) ₌ x ) 进行计算，其中，为 X和 y

Ι(Χ, Υ) Η(Χ) + Η(Υ) - Η(Χ, Υ)

的联合熵，为 X和的互信息， H(x)为 X的信息熵， H(y)为 y的信息熵；或者，也可以采用类似 wordnet的词库资源确定特征词和候选标签词的关系。

本发明实施例还提出一种自动给文档添加标签的装置，如图 2为该装置的结构示意图，包括：

候选标签词确定模块 201 , 用于确定对应所述文档的多个候选标签词；

共现概率确定模块 202, 用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

权值计算模块 203 , 用于从所述文档中提取特征词，针对每个提取出的特征词，计算该特征词的权值；

加权共现概率统计模块 204, 用于在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率；

标签词添加模块 205, 用于选择加权共现概率高的候选标签词作为为文档添加的标签词。

上述装置中，共现概率可以为/ ^ΧΙΌ, 其中， X为候选标签词， r 为语料中出现的特征词；共现概率确定模块 202计算 P(X )的方式可以为：

P(X \Y)= X^Y在语料包含的同一文本中同时出现的次数在语料中出现的次数；

或者， Ρ(χ \Υ) = ^Η{χ,γ) , 其中， H(x,;n为 X和 y的联合熵， /(χ,Γ)

Ι(Χ,Υ)

为 X和 y的互信息；

或者，利用词库资源进行确定。

上述装置中，所述文档中提取出的特征词 y的权值为权值计算模块 203计算 W_y的方式可以为： W_y等于 y在文档中出现的次数与所述语料中出现； F的文本数的乘积。上述装置中，加权共现概率可以为 = ( π ）><^ , 其中，为文档中出现的特征词， ^为的权值， η为文档中出现的特征词的个数。

上述装置中，加权共现概率统计模块 204可以只针对与文档中出现的一个以上特征词存在共现关系的候选标签词统计加权共现概率。

综上可见，本发明实施例提出的自动给文档添加标签的方法和装置，通过统计语料中特征词与候选标签词之间的共现概率，将共现概率转换为特征词对候选标签词的投票权，最终将得票最多的候选标签词作为为文档添加的标签词，从而实现了为文档添加标签的智能化，并且该标签不限于文档中所出现的词。本发明实施例通过共现概率的统计提高了标签词与文档的相关性。

本发明实施例还提供了一种机器可读的存储介质，存储用于使一机器执行如本文所述的自动给文档添加标签的方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或 CPU或 MPU )读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如 CD-ROM、 CD-R, CD-RW、 DVD-ROM、 DVD-RAM、 DVD-RW,

DVD+RW ), 磁带、非易失性存储卡和 ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的 CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

以上所述仅为本发明的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

权利要求书

1、一种自动给文档添加标签的方法，其特征在于，所述方法包括：确定对应所述文档的多个候选标签词；

2、根据权利要求 1 所述的方法，其特征在于，所述共现概率为 P(X \ Y) , 其中， X为候选标签词，； F为所述语料中出现的特征词；

Ρ(Χ \ Υ)的确定方式为： ρ(χ ΐ ί = X和 y在语料包含的同一文本中同时出现的次数在语料中出现的次数。

3、根据权利要求 1 所述的方法，其特征在于，所述共现概率为 P(X \ Y) , 其中， X为候选标签词，； F为所述语料中出现的特征词；

所述/ I 的确定方式为： P( 17) = ^^'^ , 其中， H(X，:F)为 X和

Y的联合熵， /(X , y )为 X和 y的互信息。

4、根据权利要求 1 所述的方法，其特征在于，所述共现概率为

P(X \ Y) , 其中， X为候选标签词，； F为所述语料中出现的特征词；

所述/ I 的确定方式为：利用词库资源进行确定。

5、根据权利要求 1 所述的方法，其特征在于，所述文档中提取出的特征词 y的权值为 , 等于 y在文档中出现的次数与所述语料中出现; F的文本数的乘积。

6、根据权利要求 1 所述的方法，其特征在于，所述加权共现概率为 = p(X I )_xW_¾ , 其中，为文档中出现的特征词， ^为的权值， η为文档中出现的特征词的个数。

7、根据权利要求 1 所述的方法，其特征在于，在所述语料中，针对候选标签词，统计候选标签词与所述文档中出现的所有特征词的加权共现概率为：

在所述语料中，针对与所述文档中出现的一个以上特征词存在共现关系的候选标签词，统计加权共现概率。

8、一种自动给文档添加标签的装置，其特征在于，所述装置包括：候选标签词确定模块，用于确定对应所述文档的多个候选标签词；共现概率确定模块，用于确定包括多个文本的语料，从所述语料中选择常用词作为特征词；针对每个特征词和候选标签词，确定所述语料中在出现特征词的情况下同时出现候选标签词的共现概率；

标签词添加模块，用于选择加权共现概率高的候选标签词作为为文档添加的标签词。

9、根据权利要求 8 所述的装置，其特征在于，所述共现概率为 Ρ(Χ \ Υ) , 其中， X为候选标签词，； F为所述语料中出现的特征词；

所述共现概率确定模块计算/ I Ό的方式为： Ρ(Χ Ι = X和 Γ在语料包含的同一文本中同时出现的次数在语料中出现的次数。

10、根据权利要求 8 所述的装置，其特征在于，所述共现概率为 P(X \ Y) , 其中， X为候选标签词，； F为所述语料中出现的特征词；所述共现概率确定模块计算的方式为： P(X \ Y) = ^{H (X )} , 其中， H(x,:r)为 X和 y的联合熵， /(Χ, )为 X和的互信息。

11、根据权利要求 8 所述的装置，其特征在于，所述共现概率为 P(X \ Y) , 其中， X为候选标签词，； F为所述语料中出现的特征词；

所述共现概率确定模块确定/ I 的方式为：利用词库资源进行确定。

12、根据权利要求 8所述的装置，其特征在于，所述文档中提取出的特征词 y的权值为 ^，所述权值计算模块计算的方式为：等于 y 在文档中出现的次数与所述语料中出现; F的文本数的乘积。

13、根据权利要求 8至 11任意一项所述的装置，其特征在于，所述加权共现概率为 = £ P(X I ) X W_¾ ,其中，为文档中出现的特征词， W_¾ 为的权值， n为文档中出现的特征词的个数。

14、根据权利要求 8至 11任意一项所述的装置，其特征在于，所述加权共现概率统计模块用于在所述语料中，针对与文档中出现的一个以上特征词存在共现关系的候选标签词，统计加权共现概率。

15、一种计算机存储介质，其特征在于，其中存储有计算机程序，该计算机程序用于执行所述权利要求 1至 7任一项所述的方法。