WO2015131528A1 - 确定给定文本的主题分布的方法和装置 - Google Patents

确定给定文本的主题分布的方法和装置 Download PDF

Info

Publication number
WO2015131528A1
WO2015131528A1 PCT/CN2014/090489 CN2014090489W WO2015131528A1 WO 2015131528 A1 WO2015131528 A1 WO 2015131528A1 CN 2014090489 W CN2014090489 W CN 2014090489W WO 2015131528 A1 WO2015131528 A1 WO 2015131528A1
Authority
WO
WIPO (PCT)
Prior art keywords
training
word
training sample
distribution
text
Prior art date
Application number
PCT/CN2014/090489
Other languages
English (en)
French (fr)
Inventor
胡德勇
Original Assignee
北京奇虎科技有限公司
奇智软件(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京奇虎科技有限公司, 奇智软件(北京)有限公司 filed Critical 北京奇虎科技有限公司
Publication of WO2015131528A1 publication Critical patent/WO2015131528A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Definitions

  • the present invention relates to the field of Internet technologies, and in particular, to a method for determining a topic distribution of a given text, an apparatus for determining a topic distribution of a given text, a computer program, and a computer readable medium.
  • the Topic Model is a statistical model used to discover abstract topics in a series of texts.
  • a text can often contain multiple topics, and each topic has a different proportion.
  • a topic model attempts to use a mathematical framework to embody the subject distribution characteristics of the text.
  • the topic model automatically analyzes each text, counts the words within the text, and based on the statistical information, determines which topics are included in the current text, and how much each topic is.
  • the topic model is not only a popular research object in the field of machine learning and data mining, but also has been applied to many fields.
  • the relevance of query words (Query) and web pages involves text topics.
  • the extraction of distribution, while searching for large data volume and fast response in the field, has led to how to efficiently extract the topic distribution of text into a key.
  • the existing scheme still has a large room for improvement in the speed of text topic distribution extraction.
  • the present invention proposes a scheme for determining the distribution of topics for a given text.
  • the present invention has been made in order to provide a method of determining a subject distribution of a given text and a corresponding apparatus for determining a subject distribution of a given text, overcoming the above problems or at least partially solving or alleviating the above problems.
  • a computer program, and a computer readable medium are provided.
  • a method of determining a topic distribution for a given text comprising: determining a particular word that appears in a given text and the number of occurrences of the particular word in the given text, The specific word belongs to the set of words contained in the training sample; Training a sample to perform a training result of the topic model training, acquiring a topic distribution of the specific word; determining a theme of the given text according to the number of occurrences of the specific word in the given text and the topic distribution of the specific word distributed.
  • an apparatus for determining a topic distribution of a given text comprising: a first determining module for determining a particular word appearing in a given text and the particular word being given The number of occurrences in the text, the specific word belongs to the set of words included in the training sample; the obtaining module is configured to acquire the topic distribution of the specific word according to the training result of the theme model training on the training sample; the second determining module, A method for determining a topic distribution of the given text based on a number of occurrences of the particular word in the given text and a topic distribution of the particular word.
  • a computer program comprising computer readable code, when the computer readable code is run on a server, causing the server to perform any of claims 1-5 The method of determining the distribution of topics for a given text.
  • a computer readable medium storing the computer program according to claim 11 is provided.
  • the subject distribution of a given text is calculated based on the training result of the text topic model training that has been obtained, and no iterative calculation is required, which can improve the efficiency of text topic distribution extraction.
  • FIG. 1 is a flow chart that schematically illustrates a method of determining a topic distribution for a given text, in accordance with one embodiment of the present invention
  • FIG. 2 is a flow chart schematically showing a distribution of topics of a particular word contained in a given text based on training results of subject model training on training samples, in accordance with one embodiment of the present invention
  • FIG. 3 is a block diagram schematically showing an apparatus for determining a distribution of topics of a given text, in accordance with one embodiment of the present invention
  • Figure 4 shows schematically a block diagram of a server for carrying out the method according to the invention
  • Fig. 5 schematically shows a storage unit for holding or carrying program code implementing the method according to the invention.
  • the training samples include the texts D 1 , D 2 , ..., D n , .... First, through the text topic model training, you can get:
  • the training sample contains the words w 1 , w 2 , ..., w j , ..., themes z 1 , z 2 , ..., z i , ...;
  • the EM algorithm extracts the topic distribution of the given text, that is, determines the probability that each topic z t appears in the given text D:
  • Stage E the expected stage:
  • D) (each text under the subject z
  • w, D) is introduced in the EM algorithm, and the training result data p(z
  • the intermediate data increases the system load.
  • the efficiency of the EM algorithm depends on the randomly initialized p(z t
  • the main idea of the present invention is to extract the topic distribution of a given text based on the training result data obtained by training the training model on the training model and the original training data.
  • the topic distribution for a given text may include the probability that each subject included in the training sample appears under the given text.
  • FIG. 1 is a flow chart of a method for determining a topic distribution of a given text, in accordance with an embodiment of the present invention.
  • a specific word appearing in a given text and the number of occurrences of the particular word in the given text are determined.
  • the specific word belongs to a set of words included in the training sample.
  • a set of words contained in the training samples that is, one or more words contained in the training samples, can be obtained.
  • one or more words included in a given text may be obtained by performing word segmentation processing on a given text, wherein one or more words belonging to the word set included in the training sample are specific words, and the given text is determined.
  • the number of occurrences of each of the specific words appearing in the given text, the given text is D x
  • D x contains the specific words w 1 , w 2 , ..., w t , ..., w N
  • the number of occurrences of any particular word w in a given text D x ' is represented by c(w, D x ).
  • a topic distribution of the specific word is obtained based on the training result of the topic model training on the training sample.
  • the theme distribution of the specific word may include: a probability that each of the topics included in the training sample appears under each of the specific words, and thus, obtaining a topic distribution of the specific word, that is, obtaining The probability that each of the topics included in the training sample appears under each word in a particular word.
  • FIG. 2 is a flowchart of acquiring a topic distribution of the specific word (step S120) according to a training result of performing topic model training on a training sample according to an embodiment of the present invention.
  • raw training data and training results related to the specific word are obtained from the original training data of the training sample and the training result of the subject model training of the training sample.
  • the original training data of the training sample may include: the number of times each word included in the training sample appears in each text included in the training sample, and c(w, D) represents any word w in the text.
  • the training result of performing the theme model training on the training sample includes: a distribution of topics under each text and word in the training sample, that is, a probability of occurrence of each text in the training sample and each topic under the word, in this implementation In the example, p(z i
  • the original training data and the training result related to each word in the specific word can be obtained from the original training data of the training sample and the training result of the subject model training of the training sample, that is, Obtaining c(w, D) associated with a specific word from each of the words c(w, D) appearing in each text included in the training sample, that is, each of the specific words
  • step S220 determining, based on the original training data and the training result associated with the specific word, each subject included in the training sample appears under each of the specific words Probability.
  • the probability that each subject included in the training sample appears under each word in the specific word may be approximated according to formula (3), thereby obtaining a topic distribution of each word in the specific word, that is, , the probability of occurrence of each topic under each word in a specific word, using p(z i
  • the probability of occurrence under a particular word w it should be noted that there may be cases where the probability of occurrence of one or more subjects of one or more words is zero, ie, p(z t
  • w) 0.
  • w) represents the probability that any subject z t appears under any word W in a particular word.
  • w, D) represents a summation of the product of the number of occurrences of a particular word W in each text of the training sample and the probability that the text and the probability of occurrence of the subject z t under the particular word W.
  • the manner of acquiring the topic distribution of the specific word is not limited thereto.
  • the training sample may be first calculated according to the original training data of the training sample and the training result of the theme model training of the training sample.
  • the topic distribution of the words w, from which the topic distribution of each word in the specific word is obtained that is, the number of times each occurrence of each word contained in the training sample appears in each text included in the training sample c(w, D) and the probability p(z i
  • a topic distribution of the given text is determined according to the number of occurrences of the particular word in the given text and the topic distribution of the particular word.
  • the number of occurrences of the specific word obtained above in the given text may be And the topic distribution of the specific word, using the formula (4) to approximate the subject distribution of the given text.
  • D x ) represents: a particular topic z t, the probability of a given text D x topic z t occur;
  • w) represents: topic for z t, given a particular word included in the text D x for each word w i given the number of times c (w, D x) appears in text D x and z theme t appearing in this particular word w probability p
  • w) indicates that all subject matter contained in the training sample First, for each topic z i , the probability c(w, D) appearing in a given text D x for each particular word w and the probability p(z i
  • the training sample contains the texts D 1 , D 2 , the words w 1 , w 2 , w 3 , w 4 , and the number of occurrences of each word in each text is:
  • w,D) of each topic and each topic under the word training for the training model is:
  • step S110 the determination for each particular word and the particular word appears in a given text D x the number of occurrences of a given text in D x.
  • step S120 the theme distributions of the specific words w 1 , w 3 , w 4 are acquired based on the training results of the theme model training on the training samples.
  • step S210 original training data and training results related to the specific words w 1 , w 3 , w 4 are obtained from the original training data of the training samples and the training results of the subject model training for the training samples.
  • the original training data and training results associated with w 1 , w 3 , w 4 are:
  • step S220 the probability, at step S220, according to 1, w 3, w 4 related to the original training data and training relating to the result of the determination for each training sample contained in the specific word w w 1, w 3, w 4 appearing in .
  • the subject distributions of the specific words w 1 , w 3 , and w 4 can be obtained as follows: w 1 subject distribution: p(z 1
  • w 1 ) 0.73, p(z 2
  • w 1 ) 0.27;
  • the theme distribution of each word contained in the training sample may be calculated by using formula (3) according to the original training data and the training result of the training sample, to obtain:
  • Step S130 based on the number of occurrences of the specific words w 1 , w 3 , w 4 obtained at step S110 in the given text D x and the distribution of the topics of the specific words w 1 , w 3 , w 4 obtained at step S120 Determine the topic distribution for a given text D x .
  • FIG. 3 is a block diagram showing the structure of an apparatus 300 for determining a topic distribution of a given text, in accordance with an embodiment of the present invention.
  • the apparatus 300 may include: a first determining module 310, an obtaining module 320, and a second determining module 330.
  • the first determining module 310 can be configured to determine a particular word that appears in a given text and the number of occurrences of the particular word in the given text, wherein the particular word belongs to a set of words contained in the training sample.
  • the obtaining module 320 can be configured to obtain a topic distribution of the specific word according to the training result of the topic model training on the training sample.
  • the second determining module 330 can be configured to determine a topic distribution of the given text based on a number of occurrences of the particular word in the given text and a topic distribution of the particular word.
  • the subject distribution of the given text may include a probability that each subject included in the training sample appears under the given text.
  • the topic distribution of the specific word may include a probability that each subject included in the training sample appears under each of the specific words.
  • the obtaining module 320 may further include: an obtaining submodule and a determining submodule.
  • the obtaining sub-module may be configured to obtain the original training related to the specific word from the original training data of the training sample and the training result of performing the theme model training on the training sample. Practice data and training results.
  • the determining sub-module can be configured to determine, based on the original training data and the training result associated with the particular word, a probability that each subject included in the training sample appears under each of the particular words.
  • the raw training data of the training sample may include the number of occurrences of each word included in the training sample in each text included in the training sample.
  • the training result may include a distribution of topics under each text and word in the training sample.
  • the above described apparatus for determining the subject distribution of a given text corresponds to the previously described method of determining the method of topic distribution for a given text, and thus, for more detailed technical details, reference may be made to the previously described method.
  • the various component embodiments of the present invention may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or some of the components of the device for determining the distribution of topics for a given text in accordance with an embodiment of the present invention. All features.
  • the invention can also be implemented as a device or device program (e.g., a computer program and a computer program product) for performing some or all of the methods described herein.
  • Such a program implementing the invention may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.
  • Figure 4 illustrates a server, such as an application server, that can implement a method of determining a topic distribution for a given text in accordance with the present invention.
  • the server conventionally includes a processor 410 and a computer program product or computer readable medium in the form of a memory 420.
  • the memory 420 may be an electronic memory such as a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), an EPROM, a hard disk, or a ROM.
  • Memory 420 has a memory space 430 for program code 431 for performing any of the method steps described above.
  • storage space 430 for program code may include various program code 431 for implementing various steps in the above methods, respectively.
  • the program code can be read from or written to one or more computer program products.
  • These computer program products include program code carriers such as hard disks, compact disks (CDs), memory cards or floppy disks.
  • Such computer program products are typically portable or fixed storage units as described with reference to FIG.
  • the deposit The storage unit may have a storage section, a storage space, and the like arranged similarly to the storage 420 in the server of FIG.
  • the program code can be compressed, for example, in an appropriate form.
  • the storage unit includes computer readable code 431', code that can be read by a processor, such as 410, which, when executed by a server, causes the server to perform various steps in the methods described above.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种确定给定文本的主题分布的方法和装置,其中该方法包括:确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。该方法和装置能够提升文本主题分布提取的效率,并且,能够降低在文本主题分布的提取过程中由于引入较多中间变量而造成的内存、CPU等系统资源的额外开销。

Description

确定给定文本的主题分布的方法和装置 技术领域
本发明涉及互联网技术领域,尤其涉及一种确定给定文本的主题分布的方法、一种确定给定文本的主题分布的装置、一种计算机程序,以及,一种计算机可读介质。
背景技术
主题模型(Topic Model)是用来在一系列文本中发现抽象主题的一种统计模型。一个文本通常可能包含多种主题,而且,每个主题所占比例各不相同。一个主题模型试图用数学框架来体现文本的主题分布特点。主题模型能够自动分析每个文本,统计文本内的词语,根据统计的信息来判断当前文本包含哪些主题,以及每个主题所占的比例各为多少。
主题模型不仅是机器学习和数据挖掘领域的一个热门研究对象,而且目前也已经被实际应用到很多领域中,例如,在搜索引擎领域,查询词(Query)和网页的相关性就涉及到文本主题分布的提取,同时搜索领域的大数据量和快速响应等特点,导致如何高效地进行文本的主题分布提取成为一个关键。现有方案关于文本主题分布提取的速度仍然有较大的提升空间。
为了提升文本主题分布的提取速度,本发明提出一种确定给定文本的主题分布的方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种确定给定文本的主题分布的方法和相应的一种确定给定文本的主题分布的装置、一种计算机程序,以及,一种计算机可读介质。
根据本发明的一个方面,提供了一种确定给定文本的主题分布的方法,包括:确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;根据对训 练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
根据本发明的另一个方面,提供了一种确定给定文本的主题分布的装置,包括:第一确定模块,用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;获取模块,用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;第二确定模块,用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
根据本发明的又一个方面,提供了一种计算机程序,其包括计算机可读代码,当所述计算机可读代码在服务器上运行时,导致所述服务器执行根据权利要求1-5中的任一个所述的确定给定文本的主题分布的方法。
根据本发明的再一个方面,提供了一种计算机可读介质,其中存储了如权利要求11所述的计算机程序。
本发明的有益效果为:
(1)根据本发明的技术方案,基于已经得到的文本主题模型训练的训练结果对给定文本的主题分布进行计算,不需要进行多次迭代计算,能够提升文本主题分布提取的效率。
(2)根据本发明的技术方案,在文本主题分布的计算过程中能够降低由于引入较多中间变量造成的内存、CPU等系统资源的额外开销。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了根据本发明一个实施例的确定给定文本的主题分布的方法的流程图;
图2示意性示出了根据本发明一个实施例的根据对训练样本进行主题模型训练的训练结果,获取给定文本包含的特定单词的主题分布的流程图;
图3示意性示出了根据本发明一个实施例的确定给定文本的主题分布的装置的结构图;
图4示意性地示出了用于执行根据本发明的方法的服务器的框图;以及
图5示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。
具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
现有技术中,文本主题分布的提取一般采用期望最大化(EM,Expectation-maximization)方法:
训练样本包括文本D1、D2、…、Dn、…,首先,通过文本主题模型训练可以得到:
训练样本中包含单词w1、w2、…、wj、…,主题z1、z2、…、zi、…;以及
p(w|z)——特定主题z下的单词分布,即,训练样本中每个主题下每个单词出现的概率;
p(z|D)——特定文本D下的主题分布,即,训练样本中每个文本下每个主题出现的概率;
p(z|w,D)——特定文本D、单词w下的主题分布,即,训练样本中每个文本及单词下,每个主题出现的概率;
利用得到的文本主题模型训练结果,通过EM算法对给定文本进行主题分布的提取,即,确定每一个主题zt在给定文本D中出现的概率:
E阶段,即期望阶段:
Figure PCTCN2014090489-appb-000001
M阶段,即最大化阶段:
Figure PCTCN2014090489-appb-000002
在上述的方法中,以主题模型训练的输出结果p(w|zt)(主题zt下每个单词出现的概率)以及随机初始化的p(zt|D)(每个文本下主题zt出现的概率p(zt|D)的估计值)为输入数据,整个过程需要进行反复执行E步和M步,直至达到预定迭代次数或者预定精度后,停止迭代,输出主题zt在给定文本D中出现的概率p(zt|D)。
EM方法存在以下不足:
(1)EM算法中引入了中间变量因素p(zt|w,D),未能利用模型的训练结果数据p(z|w,D),导致在实现上需要占用额外的存储空间存储大量的中间数据,增加系统负荷。
(2)EM算法的效率依赖于随机初始化的p(zt|D),并且,实际中执行迭代次数一般至少在30次以上,导致文本主题分布提取的效率较低。
下面将参考附图,详细描述本发明改进的技术方案。
本发明的主要思想在于,根据对训练样本进行主题模型训练得到的训练结果数据以及原始训练数据对给定文本进行主题分布的提取。给定文本的主题分布可以包括:训练样本包含的每个主题在所述给定文本下出现的概率。
如图1所示,图1是根据本发明一实施例的确定给定文本的主题分布方法的流程图。
在步骤S110处,确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数。
其中,所述特定单词属于训练样本包含的单词集合。通过对训练样本进行主题模型训练,可以得到训练样本中包含的单词集合,即,训练样本中包含的一个或多个单词。
具体地,可以通过对给定文本进行分词处理,得到给定文本中包含的一个或多个单词,其中,属于训练样本包含的单词集合一个或多个单词为特定单词,并确定该给定文本中出现的特定单词中的每个单词在该给定文本中出 现的次数,设给定文本为Dx,Dx中包含特定单词w1、w2、…、wt、…、wN,用c(w,Dx)表示在给定文本Dx′中任意的特定单词w出现的次数。
在步骤S120处,根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布。
其中,所述特定单词的主题分布可以包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率,因此,获取所述特定单词的主题分布,也就是获取所述训练样本包含的每个主题在特定单词中的每个单词下出现的概率。
如图2所示,图2是根据本发明一实施例的根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布(步骤S120)的流程图。
在步骤S210处,从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。
其中,所述训练样本的原始训练数据可以包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数,用c(w,D)表示任意单词w在文本D中出现的次数。对所述训练样本进行主题模型训练的训练结果包括:所述训练样本中每个文本及单词下的主题分布,即,训练样本中每个文本及单词下每个主题出现的概率,在本实施例中,用p(zi|w,D)表示训练样本中任意文本D及任意单词w下,主题zi出现的概率。
根据给定文本包含的特定单词,可以从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词中的每个单词相关的原始训练数据和训练结果,即,从训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)中,获取与特定单词相关的c(w,D),即,特定单词中每个单词在训练样本包含的每个文本中出现的次数c(w,D),从训练样本中每个文本及单词下每个主题出现的概率p(zi|w,D)中,获取与特定单词相关的p(zi|w,D),即,获取训练样本中包含特定单词的每个文本(训练样本中包含特定单词中的任意一个或多个单词的文本)及每个特定单词下的每个主题出现的概率p(zi|w,D)。
在步骤S220处,根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的 概率。
具体地,可以根据公式(3)对所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率进行近似计算,进而得到特定单词中每个单词的主题分布,即,特定单词中每个单词下每个主题出现的概率,用p(zi|w)表示任意的特定单词w下主题zi出现的概率,p(zt|w)表示当前计算的主题zt在特定单词w下出现的概率,应注意,可能会出现一个或多个单词下一个或多个主题出现的概率为零的情况,即,p(zt|w)=0。
Figure PCTCN2014090489-appb-000003
公式(3)中,p(zt|w)表示任意主题zt在特定单词中任意单词W下出现的概率,针对主题zt,公式(3)的分子部分∑Dc(w,D)p(zt|w,D)表示,对特定单词W在训练样本的每个文本中出现的次数与该文本及该特定单词W下主题zt出现的概率的乘积进行求和运算。公式(3)的分母部分的∑iDc(w,D)p(zi|w,D)表示对训练样本包含的所有主题,先对特定单词W在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题zi出现的概率的乘积进行求和运算,再将对训练样本包含的所有主题zi进行上述求和运算得到的结果进行求和运算,在公式(3)中,在训练样本包含的文本范围内进行的求和运算,实际上就是将训练样本包含的所有文本看做一个文本。当根据公式(3)计算得到单词w下每个主题出现的概率,就得到了单词w的主题分布。
根据本申请的一个实施例,获取特定单词的主题分布的方式不限于此,例如,还可以先根据训练样本的原始训练数据和对训练样本进行主题模型训练的训练结果计算出训练样本包含的每个单词w的主题分布,再从其中获取特定单词中的每个单词的主题分布,即,根据训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w,D)和训练样本中每个文本D及单词w下每个主题出现的概率p(zi|w,D)确定所述训练样本中每个单词下的每个主题出现的概率,再从中获取每个特定单词w下的每个主题zi出现的概率p(zi|w)。
在步骤S130处,根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
具体地,可以根据上述得到的特定单词在所述给定文本中出现的次数以 及所述特定单词的主题分布,利用公式(4)对给定文本的主题分布进行近似计算。
Figure PCTCN2014090489-appb-000004
公式(4)中,p(zt|Dx)表示:针对特定主题zt,在给定文本Dx中主题zt出现的概率;分子部分的∑wc(w,Dx)p(zt|w)表示:针对主题zt,对给定文本Dx包含的特定单词中的每个单词wi在该给定文本Dx中出现的次数c(w,Dx)与主题zt在该特定单词w下出现的概率p(zt|w)的乘积进行求和运算;∑iwc(w,D)p(zi|w)表示在训练样本包含的所有主题中,先针对每个主题zi,对每个特定单词w在给定文本Dx中出现的次数c(w,D)与主题zi在该特定单词w下出现的概率p(zi|w)的乘积进行求和运算,再将对训练样本包含的所有主题进行上述求和运算得到的结果进行求和运算。计算每个主题zt在Dx中出现的概率p(zt|Dx),得到的所有不为零的p(zt|Dx)的集合,就是该给定文本Dx的主题分布。
下面以一个具体示例详细描述本发明对给定文本进行主题分布提取的步骤:
假设训练样本包含文本D1、D2,单词w1、w2、w3、w4,每个单词在每个文本中出现的次数分别为:
c(w1,D1)=2、c(w2,D1)=3、c(w3,D1)=1;
c(w1,D2)=1、c(w3,D2)=2、c(w4,D2)=3;
对训练样本进行主题模型训练的得到每个文本及单词下每个主题出现的概率p(zi|w,D)分别为:
w1,D1′下,p(z1|w1,D1)=0.6、p(z2|w1,D1)=0.4;
w2,D1′下,p(z1|w2,D1)=0.1、p(z2|w2,D1)=0.9;
w3,D1下,p(z2|w3,D1)=1;
w1,D2下,p(z1|w1,D2)=1;
w3,D2下,p(z1|w3,D2)=0.4、p(z2|w3,D2)=0.6;
w4,D2下,p(z1|w4,D2)=0.7、p(z2|w4,D2)=0.3;
给定文本为Dx
在步骤S110中,确定在给定文本Dx中出现的特定单词以及每个特定单词在给定文本Dx中出现的次数。
对Dx进行分词处理,得到Dx中出现的特定单词为w1、w3、w4,并得到每个单词在文本Dx中出现的次数分别为:w1出现3次、w3出现1次、w4出现1次,即,c(w1,Dx)=3、c(w3,Dx)=1、c(w4,Dx)=1。
在步骤S120中,根据对训练样本进行主题模型训练的训练结果,获取特定单词w1、w3、w4的主题分布。
首先,在步骤S210处,从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词w1、w3、w4相关的原始训练数据和训练结果。
与w1、w3、w4相关的原始训练数据和训练结果为:
c(w1,D1)=2、c(w3,D1)=1、c(w1,D2)=1、c(w3,D2)=2、c(w4,D2)=3;w1,D1下,p(z1|w1,D1)=0.6、p(z2|w1,D1)=0.4;
w3,D1下,p(z2|w3,D1)=1;
w3,D2下,p(z1|w3,D2)=0.4、p(z2|w3,D2)=0.6;
w4,D2下,p(z1|w4,D2)=0.7、p(z2|w4,D2)=0.3;
然后,在步骤S220处,根据与w1、w3、w4相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在特定单词w1、w3、w4中出现的概率。
根据公式(3)计算可以得到特定单词w1、w3、w4的主题分布分别为:w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3。
或者,可以先根据训练样本的原始训练数据和训练结果利用公式(3)计算出训练样本中包含的每个单词的主题分布,得到:
w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
w2的主题分布:p(z1|w2)=0.1、p(z2|w2)=0.9;
w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3;
再从中获取特定单词w1、w3、w4的主题分布。
步骤S130,根据在步骤S110处得到的特定单词w1、w3、w4在给定文 本Dx中出现的次数以及在步骤S120处得到的特定单词w1、w3、w4的主题分布确定给定文本Dx的主题分布。
根据特定单词为w1、w3、w4在文本Dx中出现的次数:
c(w1,Dx)=3、c(w3,Dx)=1、c(w4,Dx)=1;
以及特定单词w1、w3、w4的主题分布确定给定文本Dx的主题分布:
w1的主题分布:p(z1|w1)=0.73、p(z2|w1)=0.27;
w3的主题分布:p(z1|w3)=0.27、p(z2|w3)=0.73;
w4的主题分布:p(z1|w4)=0.7、p(z2|w4)=0.3。
利用公式(4)计算得到给定文本Dx的主题分布为:
p(z1|Dx)=0.63,p(z2|Dx)=0.37;
也就是说,给定文本Dx中,主题z1出现的概率是0.63,主题z2出现的概率是0.37。
本发明还提供了一种确定给定文本的主题分布的装置。如图3所示,图3是根据本发明一实施例的确定给定文本的主题分布的装置300的结构框图。装置300可以包括:第一确定模块310、获取模块320以及第二确定模块330。
第一确定模块310可以用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,其中,所述特定单词属于训练样本包含的单词集合。
获取模块320可以用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布。
第二确定模块330可以用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
根据本申请的一个实施例,所述给定文本的主题分布可以包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
根据本申请的一个实施例,所述特定单词的主题分布可以包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
根据本申请的一个实施例,所述获取模块320可以进一步包括:获取子模块和确定子模块。
其中,获取子模块可以用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训 练数据和训练结果。
确定子模块可以用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
所述训练样本的原始训练数据可以包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数。所述训练结果可以包括所述训练样本中每个文本及单词下的主题分布。
以上描述的确定给定文本的主题分布的装置与之前描述的确定给定文本的主题分布的方法的处理是对应的,因此,关于更详细的技术细节,可以参见之前描述的方法。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定给定文本的主题分布的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图4示出了可以实现根据本发明的确定给定文本的主题分布的方法的服务器,例如应用服务器。该服务器传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如,用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图5所述的便携式或者固定存储单元。该存 储单元可以具有与图4的服务器中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码431’,即可以由例如诸如410之类的处理器读取的代码,这些代码当由服务器运行时,导致该服务器执行上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (12)

  1. 一种确定给定文本的主题分布的方法,包括步骤:
    确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;
    根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;
    根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
  2. 如权利要求1所述的方法,其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
  3. 如权利要求1或2所述的方法,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
  4. 如权利要求3所述的方法,根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布,进一步包括:
    从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;
    根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
  5. 如权利要求4所述的方法,
    所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;
    所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。
  6. 一种确定给定文本的主题分布的装置,包括:
    第一确定模块,用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数,所述特定单词属于训练样本包含的单词集合;
    获取模块,用于根据对训练样本进行主题模型训练的训练结果,获取所述特定单词的主题分布;
    第二确定模块,用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
  7. 如权利要求6所述的装置,其中,所述给定文本的主题分布包括:所述训练样本包含的每个主题在所述给定文本下出现的概率。
  8. 如权利要求6或7所述的装置,所述特定单词的主题分布包括:所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
  9. 如权利要求8所述的装置,所述获取模块,进一步包括:
    获取子模块,用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果;
    确定子模块,用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
  10. 如权利要求9所述的装置,
    所述训练样本的原始训练数据包括:所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数;
    所述训练结果包括:所述训练样本中每个文本及单词下的主题分布。
  11. 一种计算机程序,包括计算机可读代码,当所述计算机可读代码在服务器上运行时,导致所述服务器执行根据权利要求1-5中的任一个所述的确定给定文本的主题分布的方法。
  12. 一种计算机可读介质,其中存储了如权利要求11所述的计算机程序。
PCT/CN2014/090489 2014-03-07 2014-11-06 确定给定文本的主题分布的方法和装置 WO2015131528A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410083451.6 2014-03-07
CN201410083451.6A CN103870563B (zh) 2014-03-07 2014-03-07 确定给定文本的主题分布的方法和装置

Publications (1)

Publication Number Publication Date
WO2015131528A1 true WO2015131528A1 (zh) 2015-09-11

Family

ID=50909093

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/090489 WO2015131528A1 (zh) 2014-03-07 2014-11-06 确定给定文本的主题分布的方法和装置

Country Status (2)

Country Link
CN (1) CN103870563B (zh)
WO (1) WO2015131528A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870563B (zh) * 2014-03-07 2017-03-29 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN104536979B (zh) * 2014-12-05 2018-05-01 百度在线网络技术(北京)有限公司 主题模型的生成方法及装置、主题分布的获取方法及装置
CN106407178B (zh) * 2016-08-25 2019-08-13 中国科学院计算技术研究所 一种会话摘要生成方法、装置、服务器设备以及终端设备
CN108090042A (zh) * 2016-11-23 2018-05-29 北京京东尚科信息技术有限公司 用于识别文本主题的方法和装置
CN109062905B (zh) * 2018-09-04 2022-06-24 武汉斗鱼网络科技有限公司 一种弹幕文本价值评价方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN102929401A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 基于输入行为的输入法应用资源或功能的处理方法及装置
CN103631803A (zh) * 2012-08-23 2014-03-12 百度国际科技(深圳)有限公司 基于输入行为的进行广告定向的方法、装置及服务器
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360435B (zh) * 2011-10-26 2013-06-12 西安电子科技大学 基于隐含主题分析的不良图像检测方法
CN103425710A (zh) * 2012-05-25 2013-12-04 北京百度网讯科技有限公司 一种基于主题的搜索方法和装置
CN103440329B (zh) * 2013-09-04 2016-05-18 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592067A (zh) * 2011-01-17 2012-07-18 腾讯科技(深圳)有限公司 一种网页识别方法、装置及系统
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN103631803A (zh) * 2012-08-23 2014-03-12 百度国际科技(深圳)有限公司 基于输入行为的进行广告定向的方法、装置及服务器
CN102929401A (zh) * 2012-09-27 2013-02-13 百度国际科技(深圳)有限公司 基于输入行为的输入法应用资源或功能的处理方法及装置
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置

Also Published As

Publication number Publication date
CN103870563A (zh) 2014-06-18
CN103870563B (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
US10824874B2 (en) Method and apparatus for processing video
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
JP7028858B2 (ja) 電子記録の文脈検索のためのシステム及び方法
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
JP6741110B2 (ja) イベント発見方法、装置、機器及びプログラム
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN111291177B (zh) 一种信息处理方法、装置和计算机存储介质
WO2015131528A1 (zh) 确定给定文本的主题分布的方法和装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US8321418B2 (en) Information processor, method of processing information, and program
US8782042B1 (en) Method and system for identifying entities
CN109271542A (zh) 封面确定方法、装置、设备及可读存储介质
US20150032753A1 (en) System and method for pushing and distributing promotion content
CN104484380A (zh) 个性化搜索方法及装置
KR20190062388A (ko) 전자 기록물 태깅을 위한 시스템 및 방법
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
US9535910B2 (en) Corpus generation based upon document attributes
CN110569349A (zh) 基于大数据的患教文章推送方法、系统、设备及存储介质
CN111597297A (zh) 物品召回方法、系统、电子设备及可读存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN113569018A (zh) 问答对挖掘方法及装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN113051966A (zh) 视频关键词的处理方法及装置
CN117313861A (zh) 模型预训练数据获取方法、模型预训练方法、装置及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14884993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14884993

Country of ref document: EP

Kind code of ref document: A1