WO2013102396A1 - 一种自动给文档添加标签的方法、装置以及计算机存储介质 - Google Patents

一种自动给文档添加标签的方法、装置以及计算机存储介质 Download PDF

Info

Publication number
WO2013102396A1
WO2013102396A1 PCT/CN2012/086733 CN2012086733W WO2013102396A1 WO 2013102396 A1 WO2013102396 A1 WO 2013102396A1 CN 2012086733 W CN2012086733 W CN 2012086733W WO 2013102396 A1 WO2013102396 A1 WO 2013102396A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
document
corpus
words
occurrence probability
Prior art date
Application number
PCT/CN2012/086733
Other languages
English (en)
French (fr)
Inventor
贺翔
王业
焦峰
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to KR1020147019605A priority Critical patent/KR101479040B1/ko
Priority to US14/370,418 priority patent/US9146915B2/en
Priority to JP2014550620A priority patent/JP2015506515A/ja
Priority to EP12864434.1A priority patent/EP2801917A4/en
Publication of WO2013102396A1 publication Critical patent/WO2013102396A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present application relates to the field of Internet document technologies, and in particular, to a method and apparatus for automatically adding a label to a document. Background of the invention
  • Tag is a way of organizing Internet content. It is a keyword that is highly relevant to documents. It can describe and classify document content for easy retrieval and sharing.
  • Embodiments of the present invention provide a method and apparatus for automatically adding a label to a document, which can implement intelligentization of adding a label to a document, and the label is not limited to keywords appearing in the document.
  • a method of automatically tagging a document including:
  • the weighted co-occurrence probability of the candidate tag words and all the feature words appearing in the document is counted; the candidate tag words with high weighted co-occurrence probability are selected as the tag words added for the document.
  • a device for automatically labeling documents including:
  • a candidate tag word determining module configured to determine a plurality of candidate tag words corresponding to the document
  • a co-occurrence probability determining module configured to determine a corpus including a plurality of texts, and select a common word as a feature word from the corpus; a feature word and a candidate tag word, determining a co-occurrence probability of the candidate tag word in the case where the feature word appears in the corpus;
  • a weight calculation module configured to extract a feature word from the document, and calculate a weight of the feature word for each extracted feature word
  • a weighted co-occurrence probability statistics module configured to, in the corpus, a weighted co-occurrence probability of the candidate tag words and all feature words appearing in the document for the candidate tag words;
  • the tag word adding module is configured to select a candidate tag word with a high weighted co-occurrence probability as a tag word for adding a file to the document.
  • the method and device for automatically adding a label to a document can calculate a co-occurrence probability between a feature word and a candidate tag word in a corpus, and convert the co-occurrence probability into a voting right of the feature word to the candidate tag word. Finally, the candidate tag word with the most votes is used as the tag word added to the document, thereby realizing the intelligence of tagging the document, and the tag is not Limited to words that appear in the document.
  • FIG. 1 is a flowchart of a method for automatically adding a label to a document according to an embodiment of the present invention
  • FIG. 2 is a schematic structural diagram of an apparatus for automatically adding a label to a document according to an embodiment of the present invention. Mode for carrying out the invention
  • FIG. 1 is a flowchart of the method, including:
  • Step 101 Determine a plurality of candidate tag words corresponding to the document.
  • determining a plurality of candidate tag words corresponding to the document may be implemented in the following three manners, but is not limited to the three modes.
  • Keyword tags By analyzing the content of the document, the important keywords in the document are automatically extracted as labels.
  • the candidate tag word is determined by the manual tag and the social tag, the candidate tag word is not limited to the word appearing in the document.
  • Step 102 Determine a corpus that includes a plurality of texts.
  • corpora For example, if one million texts are retrieved from the network, the one million texts that are acquired are collectively referred to as corpora.
  • Step 103 Select a common word as a feature word from the corpus; and determine, for each feature word and the candidate tag word, a co-occurrence probability of the candidate tag word in the case where the feature word appears in the corpus;
  • Step 104 Extract a feature word from the document, and calculate a weight of the feature word for each extracted feature word;
  • Step 105 In the corpus, for a candidate tag word, statistically predicting a weighted co-occurrence probability of the candidate tag word and all feature words appearing in the document; selecting a candidate tag word with a high weighted co-occurrence probability as a tag added for the document word.
  • the co-occurrence probability is where X is a candidate tag word, and F is a feature word appearing in the corpus; it can be determined in various ways:
  • the joint entropy of and , /( ⁇ , ⁇ ) is the mutual information of X and , H(X) is the information entropy of X, and the information entropy of H(r) is;
  • the weight of the feature word may be calculated according to the number of occurrences of the feature word in the document and the number of texts in the corpus in which the feature word appears.
  • the weight of the feature word y extracted in the document is w y
  • the W Y can be calculated as: a product equal to the number of times y appears in the document and the number of texts in the corpus;
  • the weighted co-occurrence probability may be statistically calculated for candidate tag words having a co-occurrence relationship with one or more feature words appearing in the document, without counting ⁇ ⁇ for all candidate tag words.
  • Embodiment 1 is a diagrammatic representation of Embodiment 1:
  • Step 1 Prepare the label word set
  • the tag set may include a tag type such as a movie type or a star.
  • Step 2 Prepare the corpus
  • Step 3 Extract feature words from the corpus
  • Cut the words in the corpus count the word frequency (TF, term frequency) of each word, remove the high frequency words, stop words and low frequency words, and use the remaining common words as feature words.
  • TF word frequency
  • Step 4 Co-occurrence probability of statistical feature words and candidate tag words P X I Y)
  • X is a candidate tag word
  • F is a feature word
  • Step 5 Automatically add tag words to the document, as follows:
  • the co-occurrence probability of the feature word and the candidate tag word may be measured in other ways ( ⁇ ⁇ ; ⁇ .
  • ⁇ ⁇ ; ⁇ the co-occurrence probability of the feature word and the candidate tag word
  • the joint entropy is the mutual information of X and H(x) is the information entropy of X, and H(y) is the information entropy of y; or, the wordnet resources like wordnet can also be used to determine the feature words and candidate tag words. relationship.
  • FIG. 2 is a schematic structural diagram of the device, including:
  • a candidate tag word determining module 201 configured to determine a plurality of candidate tag words corresponding to the document
  • the co-occurrence probability determining module 202 is configured to determine a corpus including a plurality of texts, and select a common word as a feature word from the corpus; and determine, for each feature word and the candidate tag word, a feature word in the corpus The co-occurrence probability of candidate tag words simultaneously appears;
  • a weight calculation module 203 configured to extract feature words from the document, for each extraction a characteristic word, calculating a weight of the feature word
  • the weighted co-occurrence probability statistics module 204 is configured to: in the corpus, calculate a weighted co-occurrence probability of the candidate tag words and all feature words appearing in the document for the candidate tag words;
  • the tag word adding module 205 is configured to select a candidate tag word with a high weighted co-occurrence probability as a tag word added for the document.
  • the co-occurrence probability may be / ⁇ , where X is a candidate tag word, r is a feature word appearing in the corpus; and the co-occurrence probability determining module 202 calculates P(X) by:
  • ⁇ ( ⁇ ⁇ ) ⁇ , ⁇ ) , where H(x,;n is the joint entropy of X and y, /( ⁇ , ⁇ )
  • the weight of the feature word y extracted in the document is calculated by the weight calculation module 203, and the manner of calculating W y may be: W y is equal to the number of times y appears in the document and appears in the corpus; The product of the number of texts.
  • the weighted co-occurrence probability statistics module 204 may only quantize the co-occurrence probability for candidate tag words having a co-occurrence relationship with one or more feature words appearing in the document.
  • the method and apparatus for automatically adding a label to a document convert the co-occurrence probability into a feature word pair candidate label word by statistically co-occurrence probability between the feature word and the candidate label word in the corpus. Voting rights, the candidate will eventually receive the most votes.
  • the tag word added to the document thereby enabling the intelligence to tag the document, and the tag is not limited to the words that appear in the document.
  • the embodiment of the invention improves the correlation between the tag word and the document by the statistics of the co-occurrence probability.
  • Embodiments of the present invention also provide a machine readable storage medium storing instructions for causing a machine to perform a method of automatically tagging a document as described herein.
  • a system or apparatus equipped with a storage medium on which software program code implementing the functions of any of the above-described embodiments is stored, and a computer (or CPU or MPU) of the system or apparatus may be stored Reading and executing the program code stored in the storage medium.
  • the program code itself read from the storage medium can implement the functions of any of the above embodiments, and thus the program code and the storage medium storing the program code constitute a part of the present invention.
  • Storage medium embodiments for providing program code include floppy disks, hard disks, magneto-optical disks, optical disks (e.g., CD-ROM, CD-R, CD-RW, DVD-ROM, DVD-RAM, DVD-RW,
  • DVD+RW DVD+RW
  • tape non-volatile memory card
  • ROM non-volatile memory card
  • the program code can be downloaded from the server computer by the communication network.
  • the program code read out from the storage medium is written into a memory set in an expansion board inserted into the computer or written in a memory set in an expansion unit connected to the computer, and then based on the program code.
  • the instructions cause a CPU or the like mounted on the expansion board or the expansion unit to perform part and all of the actual operations, thereby realizing the functions of any of the above embodiments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例提出一种自动给文档添加标签的方法和装置,其中方法包括:确定多个候选标签词;确定包括多个文本的语料;从语料中选择常用词作为特征词;针对每个特征词和候选标签词,确定在出现特征词的情况下同时出现候选标签词的共现概率;从文档中提取特征词,针对每个提取出的特征词,计算该特征词的权值;在语料中,针对候选标签词,统计候选标签词与文档中出现的所有特征词的加权共现概率;选择加权共现概率高的候选标签词作为为文档添加的标签词。本发明实施例能够实现为文档添加标签的智能化,该标签不限于文档中出现的关键词。

Description

一种自动给文档添加标签的方法、 装置以及计算机存储介盾 本申请要求于 2012 年 1 月 5 日提交中国专利局、 申请号为 201210001611.9、 发明名称为 "一种自动给文档添加标签的方法和装置" 的中国专利申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域
本申请涉及互联网文档技术领域, 尤其涉及一种自动给文档添加标 签的方法和装置。 发明背景
标签( tag )是互联网内容组织方式,是与文档相关性很强的关键字, 它能够对文档内容进行筒单描述和分类, 以便于检索和分享。
目前, 为文档添加标签的方法主要有三种: 1 )人工标签: 人工为 文档指定特定标签; 2 ) 关键词标签: 通过分析文档内容, 自动提取文 档中的重要关键词作为标签; 3 )社会化标签: 由用户为自己的文档添 加标签。 这三种方法都存在缺点, 比如, 1 )人工标签: 不能自动对大 规模文档添加标签; 2 ) 关键词标签: 只能用文档中出现的关键词作为 标签, 而并非关键词都适合做标签; 3 )社会化标签: 需要用户自己给 文档加标签, 由于用户标准不一致, 导致标签混乱。 发明内容
本发明实施例提供了一种自动给文档添加标签的方法和装置, 能够 实现为文档添加标签的智能化, 该标签不限于文档中出现的关键词。
本发明实施例的技术方案是这样实现的: 一种自动给文档添加标签的方法, 包括:
确定对应所述文档的多个候选标签词;
确定包括多个文本的语料; 从所述语料中选择常用词作为特征词; 针对每个特征词和候选标签词, 确定所述语料中在出现特征词的情况下 同时出现候选标签词的共现概率;
从所述文档中提取特征词, 针对每个提取出的特征词, 计算该特征 词的权值;
在所述语料中, 针对候选标签词, 统计候选标签词与所述文档中出 现的所有特征词的加权共现概率; 选择加权共现概率高的候选标签词作 为为文档添加的标签词。
一种自动给文档添加标签的装置, 包括:
候选标签词确定模块, 用于确定对应所述文档的多个候选标签词; 共现概率确定模块, 用于确定包括多个文本的语料, 从所述语料中 选择常用词作为特征词; 针对每个特征词和候选标签词, 确定所述语料 中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块, 用于从所述文档中提取特征词, 针对每个提取出的 特征词, 计算该特征词的权值;
加权共现概率统计模块, 用于在所述语料中, 针对候选标签词, 统 计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块, 用于选择加权共现概率高的候选标签词作为为文 档添力口的标签词。
可见, 本发明实施例提出的自动给文档添加标签的方法和装置, 能 够统计语料中特征词与候选标签词之间的共现概率, 将共现概率转换为 特征词对候选标签词的投票权, 最终将得票最多的候选标签词作为为文 档添加的标签词, 从而实现了为文档添加标签的智能化, 并且该标签不 限于文档中所出现的词。 附图简要说明
图 1为本发明实施例提出的自动给文档添加标签的方法流程图; 图 2 为本发明实施例提出的自动给文档添加标签的装置结构示意 图。 实施本发明的方式
本发明实施例提出一种自动给文档添加标签的方法, 如图 1为该方 法流程图, 包括:
步骤 101: 确定对应所述文档的多个候选标签词。
本步骤中, 确定对应所述文档的多个候选标签词可以通过以下三种 方式实现, 但不限于这三种方式。
1 )人工标签: 人工为文档指定特定标签。
2 ) 关键词标签: 通过分析文档内容, 自动提取文档中的重要关键 词作为标签。
3 )社会化标签: 由用户为自己的文档添加标签。
其中当候选标签词通过人工标签和社会化标签确定时, 该候选标签 词不限于该文档中出现的词。
步骤 102: 确定包括多个文本的语料。
举例来说, 若从网络获取一百万个文本, 则该获取的一百万个文本 统称为语料。
步骤 103: 从所述语料中选择常用词作为特征词; 针对每个特征词 和候选标签词, 确定所述语料中在出现特征词的情况下同时出现候选标 签词的共现概率; 步骤 104: 从所述文档中提取特征词, 针对每个提取出的特征词, 计算该特征词的权值;
步骤 105: 在所述语料中, 针对候选标签词, 统计候选标签词与所 述文档中出现的所有特征词的加权共现概率; 选择加权共现概率高的候 选标签词作为为文档添加的标签词。
上述步骤 103中, 共现概率为 其中, X为候选标签词, ; F 为语料中出现的特征词; 可以采用多种方式确定 :
第一种, P ( Π = X和 y在语料包含的同一文本中同时出现的次数 在语料中出现的次数;
第二种, ρ(χ ι ι
Figure imgf000006_0001
,其中, Η(Χ, Υ)为 X
Ι(Χ, Υ) Η(Χ) + Η(Υ) - Η(Χ, Υ)
和 的联合熵, /(Χ,Γ)为 X和 的互信息, H(X)为 X的信息熵, H(r)为 的信息熵;
第三种, 利用类似 wordnet的词库资源进行确定。
上述步骤 104中, 针对每个提取出的特征词, 可以根据该特征词在 所述文档中出现的次数和所述语料中出现该特征词的文本数计算该特 征词的权值。
所述文档中提取出的特征词 y的权值为 wy , WY的计算方式可以为: 等于 y在文档中出现的次数与所述语料中出现; F的文本数的乘积。 上述步骤 105 中, 加权共现概率为 = ( n )x W , 其中, 为 文档中出现的特征词, ^为 的权值, n为文档中出现的特征词的个数。
上述步骤 105中, 可以针对与文档中出现的一个以上特征词存在共 现关系的候选标签词统计加权共现概率 , 而无需对所有候选标签词都 统计 Ρτ 。 以下举具体的实施例详细介绍。
实施例一:
步骤 1: 准备标签词集
根据需求, 获取对应于文档的多个候选标签词, 构成标签词集。 例 如,需要对影视类内容的文档添加标签,则标签词集可以包括影视类型、 明星等标签词。
步骤 2: 准备语料
可以从互联网上收集相关的多个文本作为语料, 用来统计词之间的 共现关系。
步骤 3: 从语料中提取特征词
对语料中的文本进行切词,统计各个词的词频( TF, term frequency ), 去掉高频词、 停用词和低频词, 将剩余的常用词作为特征词。
步骤 4: 统计特征词和候选标签词的共现概率 P X I Y)
P(X \ Y) = X ^ Y在语料包含的同一文本中同时出现的次数 / 在语料 中出现的次数;
其中, X为候选标签词, ; F为特征词。
步骤 5: 为文档自动添加标签词, 具体步骤如下:
1 )对文档进行切词
2 )通过切词结果提取文档中出现的所有特征词, 针对每个提取出 的特征词, 计算特征词 y的权值 = TFxIDF, 其中, TF为 在文档中 出现的次数, IDF为语料中出现; F的文本数。
3 )根据步骤 4 中统计出的共现概率, 提取与至少一个特征词存在 共现关系 (即共现概率不为 0 ) 的候选标签词;
4 )针对提取出的候选标签词, 统计各个候选标签词与文档中出现 的所有特征词的加权共现概率 = X W , 其中, ; ^为文档中出 现的特征词, ^为 的权值, W为文档中出现的特征词的个数。
5 )对所有提取出的候选标签词按照 Ρχ由高到低的顺序进行排序, 选择 最高的一个或几个候选标签词作为为文档添加的标签词。
在本步骤中, 第 3 ) 步首先提取一部分候选标签词, 之后计算这些 提取的候选标签词的加权共现概率, 这种方式是为了加快计算速度、 节 约系统资源; 本发明实施例也可以对所有候选标签词都计算加权共现概 率, 对于与所有特征词均不存在共现关系的候选标签词, 其计算出的加 权共现概率 = 0 , 第 5 ) 步排序后, 该候选标签词将被排在最末端。
本发明的其它实施例中, 可以采用其它的方式统计特征词和候选标 签 词 的 共 现 概 率 Ρ(Χ ΐ ;Π 。 例 如 , 采 用
^7) = x ) 进行计算,其中, 为 X和 y
Ι(Χ, Υ) Η(Χ) + Η(Υ) - Η(Χ, Υ)
的联合熵, 为 X和 的互信息, H(x)为 X的信息熵, H(y)为 y的 信息熵; 或者, 也可以采用类似 wordnet的词库资源确定特征词和候选 标签词的关系。
本发明实施例还提出一种自动给文档添加标签的装置, 如图 2为该 装置的结构示意图, 包括:
候选标签词确定模块 201 , 用于确定对应所述文档的多个候选标签 词;
共现概率确定模块 202, 用于确定包括多个文本的语料, 从所述语 料中选择常用词作为特征词; 针对每个特征词和候选标签词, 确定所述 语料中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块 203 , 用于从所述文档中提取特征词, 针对每个提取 出的特征词, 计算该特征词的权值;
加权共现概率统计模块 204, 用于在所述语料中, 针对候选标签词, 统计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块 205, 用于选择加权共现概率高的候选标签词作为 为文档添加的标签词。
上述装置中, 共现概率可以为/ ^ΧΙΌ, 其中, X为候选标签词, r 为语料中出现的特征词;共现概率确定模块 202计算 P(X )的方式可以 为:
P(X \Y)= X^Y在语料包含的同一文本中同时出现的次数 在语料 中出现的次数;
或者, Ρ(χ \Υ) = Η{χ,γ) , 其中, H(x,;n为 X和 y的联合熵, /(χ,Γ)
Ι(Χ,Υ)
为 X和 y的互信息;
或者, 利用词库资源进行确定。
上述装置中, 所述文档中提取出的特征词 y的权值为 权值计算 模块 203计算 Wy的方式可以为: Wy等于 y在文档中出现的次数与所述语 料中出现; F的文本数的乘积。 上述装置中, 加权共现概率可以为 = ( π )><^ , 其中, 为 文档中出现的特征词, ^为 的权值, η为文档中出现的特征词的个数。
上述装置中, 加权共现概率统计模块 204可以只针对与文档中出现 的一个以上特征词存在共现关系的候选标签词统计加权共现概率。
综上可见, 本发明实施例提出的自动给文档添加标签的方法和装 置, 通过统计语料中特征词与候选标签词之间的共现概率, 将共现概率 转换为特征词对候选标签词的投票权, 最终将得票最多的候选标签词作 为为文档添加的标签词, 从而实现了为文档添加标签的智能化, 并且该 标签不限于文档中所出现的词。 本发明实施例通过共现概率的统计提高 了标签词与文档的相关性。
本发明实施例还提供了一种机器可读的存储介质, 存储用于使一机 器执行如本文所述的自动给文档添加标签的方法的指令。 具体地, 可以 提供配有存储介质的系统或者装置, 在该存储介质上存储着实现上述实 施例中任一实施例的功能的软件程序代码, 且使该系统或者装置的计算 机(或 CPU或 MPU )读出并执行存储在存储介质中的程序代码。
在这种情况下, 从存储介质读取的程序代码本身可实现上述实施例 中任何一项实施例的功能, 因此程序代码和存储程序代码的存储介质构 成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、 硬盘、 磁光盘、 光 盘(如 CD-ROM、 CD-R, CD-RW、 DVD-ROM、 DVD-RAM、 DVD-RW,
DVD+RW ), 磁带、 非易失性存储卡和 ROM。 可选择地, 可以由通信网 络从服务器计算机上下载程序代码。
此外, 应该清楚的是, 不仅可以通过执行计算机所读出的程序代码, 而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完 成部分或者全部的实际操作, 从而实现上述实施例中任意一项实施例的 功能。
此外, 可以理解的是, 将由存储介质读出的程序代码写到插入计算 机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单 元中设置的存储器中, 随后基于程序代码的指令使安装在扩展板或者扩 展单元上的 CPU等来执行部分和全部实际操作,从而实现上述实施例中 任一实施例的功能。
以上所述仅为本发明的较佳实施例而已, 并不用以限制本申请, 凡 在本申请的精神和原则之内, 所做的任何修改、 等同替换、 改进等, 均 应包含在本申请保护的范围之内。

Claims

权利要求书
1、 一种自动给文档添加标签的方法, 其特征在于, 所述方法包括: 确定对应所述文档的多个候选标签词;
确定包括多个文本的语料; 从所述语料中选择常用词作为特征词; 针对每个特征词和候选标签词, 确定所述语料中在出现特征词的情况下 同时出现候选标签词的共现概率;
从所述文档中提取特征词, 针对每个提取出的特征词, 计算该特征 词的权值;
在所述语料中, 针对候选标签词, 统计候选标签词与所述文档中出 现的所有特征词的加权共现概率; 选择加权共现概率高的候选标签词作 为为文档添加的标签词。
2、 根据权利要求 1 所述的方法, 其特征在于, 所述共现概率为 P(X \ Y) , 其中, X为候选标签词, ; F为所述语料中出现的特征词;
Ρ(Χ \ Υ)的确定方式为: ρ(χ ΐ ί = X和 y在语料包含的同一文本中同 时出现的次数 在语料中出现的次数。
3、 根据权利要求 1 所述的方法, 其特征在于, 所述共现概率为 P(X \ Y) , 其中, X为候选标签词, ; F为所述语料中出现的特征词;
所述/ I 的确定方式为: P( 17) = ^^'^ , 其中, H(X,:F)为 X和
Y的联合熵, /(X , y )为 X和 y的互信息。
4、 根据权利要求 1 所述的方法, 其特征在于, 所述共现概率为
P(X \ Y) , 其中, X为候选标签词, ; F为所述语料中出现的特征词;
所述/ I 的确定方式为: 利用词库资源进行确定。
5、 根据权利要求 1 所述的方法, 其特征在于, 所述文档中提取出 的特征词 y的权值为 , 等于 y在文档中出现的次数与所述语料中出 现; F的文本数的乘积。
6、 根据权利要求 1 所述的方法, 其特征在于, 所述加权共现概率 为 = p(X I )xW¾ , 其中, 为文档中出现的特征词, ^为 的权值, η为文档中出现的特征词的个数。
7、 根据权利要求 1 所述的方法, 其特征在于, 在所述语料中, 针 对候选标签词, 统计候选标签词与所述文档中出现的所有特征词的加权 共现概率为:
在所述语料中, 针对与所述文档中出现的一个以上特征词存在共现 关系的候选标签词, 统计加权共现概率。
8、 一种自动给文档添加标签的装置, 其特征在于, 所述装置包括: 候选标签词确定模块, 用于确定对应所述文档的多个候选标签词; 共现概率确定模块, 用于确定包括多个文本的语料, 从所述语料中 选择常用词作为特征词; 针对每个特征词和候选标签词, 确定所述语料 中在出现特征词的情况下同时出现候选标签词的共现概率;
权值计算模块, 用于从所述文档中提取特征词, 针对每个提取出的 特征词, 计算该特征词的权值;
加权共现概率统计模块, 用于在所述语料中, 针对候选标签词, 统 计候选标签词与所述文档中出现的所有特征词的加权共现概率;
标签词添加模块, 用于选择加权共现概率高的候选标签词作为为文 档添加的标签词。
9、 根据权利要求 8 所述的装置, 其特征在于, 所述共现概率为 Ρ(Χ \ Υ) , 其中, X为候选标签词, ; F为所述语料中出现的特征词;
所述共现概率确定模块计算/ I Ό的方式为: Ρ(Χ Ι = X和 Γ在语 料包含的同一文本中同时出现的次数 在语料中出现的次数。
10、 根据权利要求 8 所述的装置, 其特征在于, 所述共现概率为 P(X \ Y) , 其中, X为候选标签词, ; F为所述语料中出现的特征词; 所述共现概率确定模块计算 的方式为: P(X \ Y) = H (X ) , 其 中, H(x,:r)为 X和 y的联合熵, /(Χ, )为 X和 的互信息。
11、 根据权利要求 8 所述的装置, 其特征在于, 所述共现概率为 P(X \ Y) , 其中, X为候选标签词, ; F为所述语料中出现的特征词;
所述共现概率确定模块确定/ I 的方式为: 利用词库资源进行确 定。
12、 根据权利要求 8所述的装置, 其特征在于, 所述文档中提取出 的特征词 y的权值为 ^, 所述权值计算模块计算 的方式为: 等于 y 在文档中出现的次数与所述语料中出现; F的文本数的乘积。
13、根据权利要求 8至 11任意一项所述的装置, 其特征在于, 所述 加权共现概率为 = £ P(X I ) X W¾ ,其中, 为文档中出现的特征词, W¾ 为 的权值, n为文档中出现的特征词的个数。
14、根据权利要求 8至 11任意一项所述的装置, 其特征在于, 所述 加权共现概率统计模块用于在所述语料中, 针对与文档中出现的一个以 上特征词存在共现关系的候选标签词, 统计加权共现概率。
15、 一种计算机存储介质, 其特征在于, 其中存储有计算机程序, 该计算机程序用于执行所述权利要求 1至 7任一项所述的方法。
PCT/CN2012/086733 2012-01-05 2012-12-17 一种自动给文档添加标签的方法、装置以及计算机存储介质 WO2013102396A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020147019605A KR101479040B1 (ko) 2012-01-05 2012-12-17 태그들을 문서에 자동으로 추가하는 방법, 장치 및 컴퓨터 저장 매체
US14/370,418 US9146915B2 (en) 2012-01-05 2012-12-17 Method, apparatus, and computer storage medium for automatically adding tags to document
JP2014550620A JP2015506515A (ja) 2012-01-05 2012-12-17 タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
EP12864434.1A EP2801917A4 (en) 2012-01-05 2012-12-17 METHOD, APPARATUS AND COMPUTER STORAGE MEDIUM FOR AUTOMATICALLY ADDING LABELS TO A DOCUMENT

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210001611.9 2012-01-05
CN201210001611.9A CN103198057B (zh) 2012-01-05 2012-01-05 一种自动给文档添加标签的方法和装置

Publications (1)

Publication Number Publication Date
WO2013102396A1 true WO2013102396A1 (zh) 2013-07-11

Family

ID=48720627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2012/086733 WO2013102396A1 (zh) 2012-01-05 2012-12-17 一种自动给文档添加标签的方法、装置以及计算机存储介质

Country Status (6)

Country Link
US (1) US9146915B2 (zh)
EP (1) EP2801917A4 (zh)
JP (1) JP2015506515A (zh)
KR (1) KR101479040B1 (zh)
CN (1) CN103198057B (zh)
WO (1) WO2013102396A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
JPWO2021009885A1 (zh) * 2019-07-17 2021-01-21
CN113486266A (zh) * 2021-06-29 2021-10-08 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199898B (zh) * 2014-08-26 2018-05-15 北京小度互娱科技有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN105488077B (zh) * 2014-10-10 2020-04-28 腾讯科技(深圳)有限公司 生成内容标签的方法和装置
CN104361033B (zh) * 2014-10-27 2017-06-09 深圳职业技术学院 一种癌症相关信息自动收集方法及系统
CN104462360B (zh) * 2014-12-05 2020-02-18 北京奇虎科技有限公司 一种为文本集合生成语义标识的方法和装置
CN105989018B (zh) * 2015-01-29 2020-04-21 深圳市腾讯计算机系统有限公司 标签生成方法及标签生成装置
WO2016161631A1 (en) * 2015-04-10 2016-10-13 Hewlett-Packard Development Company,L.P. Hidden dynamic systems
JP6535858B2 (ja) * 2015-04-30 2019-07-03 国立大学法人鳥取大学 文書解析装置、プログラム
US10102272B2 (en) * 2015-07-12 2018-10-16 Aravind Musuluri System and method for ranking documents
CN105573968A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于规则的文本标引方法
CN105740404A (zh) * 2016-01-28 2016-07-06 上海晶赞科技发展有限公司 标签关联方法及装置
CN106066870B (zh) * 2016-05-27 2019-03-15 南京信息工程大学 一种语境标注的双语平行语料库构建系统
CN107818092B (zh) * 2016-09-12 2023-05-26 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法
CN107436922B (zh) 2017-07-05 2021-06-08 北京百度网讯科技有限公司 文本标签生成方法和装置
CN109857957B (zh) * 2019-01-29 2021-06-15 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN110399491A (zh) * 2019-07-19 2019-11-01 电子科技大学 一种基于特征词共现图的微博事件演化分析方法
CN113343684B (zh) * 2021-06-22 2023-05-26 广州华多网络科技有限公司 核心产品词识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015743A (ja) * 2007-07-09 2009-01-22 Fujifilm Corp 文書作成支援システム、文書作成支援方法、並びに文書作成支援プログラム
CN101408885A (zh) * 2007-10-05 2009-04-15 富士通株式会社 利用统计分布对主题进行建模
JP2010224622A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd タグ付与方法およびタグ付与プログラム
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
US6317740B1 (en) * 1998-10-19 2001-11-13 Nec Usa, Inc. Method and apparatus for assigning keywords to media objects
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
EP1346559A4 (en) * 2000-11-16 2006-02-01 Mydtv Inc SYSTEM AND METHOD FOR DETERMINING THE POPULARITY OF VIDEO PROGRAM EVENTS
JP4679003B2 (ja) 2001-08-24 2011-04-27 ヤフー株式会社 データからの特徴アイテム抽出方法
AU2003201799A1 (en) * 2002-01-16 2003-07-30 Elucidon Ab Information data retrieval, where the data is organized in terms, documents and document corpora
US7395256B2 (en) * 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents
US20060074900A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Selecting keywords representative of a document
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
JPWO2006048998A1 (ja) * 2004-11-05 2008-05-22 株式会社アイ・ピー・ビー キーワード抽出装置
JP2006323517A (ja) 2005-05-17 2006-11-30 Mitsubishi Electric Corp テキスト分類装置およびプログラム
US7711737B2 (en) * 2005-09-12 2010-05-04 Microsoft Corporation Multi-document keyphrase extraction using partial mutual information
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8856145B2 (en) * 2006-08-04 2014-10-07 Yahoo! Inc. System and method for determining concepts in a content item using context
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US8073850B1 (en) * 2007-01-19 2011-12-06 Wordnetworks, Inc. Selecting key phrases for serving contextually relevant content
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
WO2009059297A1 (en) * 2007-11-01 2009-05-07 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
KR20090045520A (ko) 2007-11-02 2009-05-08 조광현 시맨틱 기술을 이용한 태그어 자동 생성 방법
US8090724B1 (en) * 2007-11-28 2012-01-03 Adobe Systems Incorporated Document analysis and multi-word term detector
US8055688B2 (en) * 2007-12-07 2011-11-08 Patrick Giblin Method and system for meta-tagging media content and distribution
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
US20090299998A1 (en) * 2008-02-15 2009-12-03 Wordstream, Inc. Keyword discovery tools for populating a private keyword database
US8606795B2 (en) * 2008-07-01 2013-12-10 Xerox Corporation Frequency based keyword extraction method and system using a statistical measure
CA2638558C (en) * 2008-08-08 2013-03-05 Bloorview Kids Rehab Topic word generation method and system
US20100076976A1 (en) * 2008-09-06 2010-03-25 Zlatko Manolov Sotirov Method of Automatically Tagging Image Data
US8166051B1 (en) * 2009-02-03 2012-04-24 Sandia Corporation Computation of term dominance in text documents
KR101011726B1 (ko) 2009-06-09 2011-01-28 성균관대학교산학협력단 스니펫 제공 장치 및 방법
US20110004465A1 (en) * 2009-07-02 2011-01-06 Battelle Memorial Institute Computation and Analysis of Significant Themes
US8370286B2 (en) 2009-08-06 2013-02-05 Yahoo! Inc. System for personalized term expansion and recommendation
CN101650731A (zh) * 2009-08-31 2010-02-17 浙江大学 基于用户反馈的赞助搜索广告的建议关键词生成方法
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
CN102043791B (zh) * 2009-10-10 2014-04-30 深圳市世纪光速信息技术有限公司 分词评价方法及装置
US8266228B2 (en) * 2009-12-08 2012-09-11 International Business Machines Corporation Tagging communication files based on historical association of tags
CN103038764A (zh) * 2010-04-14 2013-04-10 惠普发展公司,有限责任合伙企业 用于关键字提取的方法
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents
US8375022B2 (en) * 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
US8874568B2 (en) * 2010-11-05 2014-10-28 Zofia Stankiewicz Systems and methods regarding keyword extraction
US9483557B2 (en) * 2011-03-04 2016-11-01 Microsoft Technology Licensing Llc Keyword generation for media content
US8700599B2 (en) * 2011-11-21 2014-04-15 Microsoft Corporation Context dependent keyword suggestion for advertising

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015743A (ja) * 2007-07-09 2009-01-22 Fujifilm Corp 文書作成支援システム、文書作成支援方法、並びに文書作成支援プログラム
CN101408885A (zh) * 2007-10-05 2009-04-15 富士通株式会社 利用统计分布对主题进行建模
JP2010224622A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd タグ付与方法およびタグ付与プログラム
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2801917A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
CN108536800A (zh) * 2018-04-03 2018-09-14 有米科技股份有限公司 文本分类方法、系统、计算机设备和存储介质
CN109992774A (zh) * 2019-03-25 2019-07-09 北京理工大学 基于词属性注意力机制的关键短语识别方法
JPWO2021009885A1 (zh) * 2019-07-17 2021-01-21
WO2021009885A1 (ja) * 2019-07-17 2021-01-21 日本電信電話株式会社 教師データ生成装置、教師データ生成方法および教師データ生成プログラム
CN113486266A (zh) * 2021-06-29 2021-10-08 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质
CN113486266B (zh) * 2021-06-29 2024-05-21 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20150019951A1 (en) 2015-01-15
KR20140093762A (ko) 2014-07-28
JP2015506515A (ja) 2015-03-02
CN103198057A (zh) 2013-07-10
CN103198057B (zh) 2017-11-07
KR101479040B1 (ko) 2015-01-05
EP2801917A1 (en) 2014-11-12
US9146915B2 (en) 2015-09-29
EP2801917A4 (en) 2015-08-26

Similar Documents

Publication Publication Date Title
WO2013102396A1 (zh) 一种自动给文档添加标签的方法、装置以及计算机存储介质
CA2832909C (en) System and method for matching comment data to text data
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
Aisopos et al. Content vs. context for sentiment analysis: a comparative analysis over microblogs
JP6141305B2 (ja) 画像検索
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
TWI536181B (zh) 在多語文本中的語言識別
US20150193508A1 (en) Topical Search System
TWI554896B (zh) Information Classification Method and Information Classification System Based on Product Identification
US20150310099A1 (en) System And Method For Generating Labels To Characterize Message Content
CN103455545A (zh) 社交网络用户的位置估计的方法和系统
Alsaedi et al. Automatic summarization of real world events using twitter
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN107193892B (zh) 一种文档主题确定方法及装置
CN107357777B (zh) 提取标签信息的方法和装置
US10949418B2 (en) Method and system for retrieval of data
JP5399450B2 (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
CN102420842A (zh) 一种移动网络中网页的发送方法及系统
Cordobés et al. Graph-based techniques for topic classification of tweets in Spanish
CN106663123B (zh) 以评论为中心的新闻阅读器
Olariu Hierarchical clustering in improving microblog stream summarization
CN109145261B (zh) 一种生成标签的方法和装置
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN113722540A (zh) 基于视频字幕的知识图谱构建方法、装置及计算设备
Srivatsa et al. Mining diverse opinions

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12864434

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014550620

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14370418

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20147019605

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2012864434

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2012864434

Country of ref document: EP