WO2015131528A1

WO2015131528A1 - 确定给定文本的主题分布的方法和装置

Info

Publication number: WO2015131528A1
Application number: PCT/CN2014/090489
Authority: WO
Inventors: 胡德勇
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2014-03-07
Filing date: 2014-11-06
Publication date: 2015-09-11
Also published as: CN103870563A; CN103870563B

Abstract

一种确定给定文本的主题分布的方法和装置，其中该方法包括：确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。该方法和装置能够提升文本主题分布提取的效率，并且，能够降低在文本主题分布的提取过程中由于引入较多中间变量而造成的内存、CPU等系统资源的额外开销。

Description

确定给定文本的主题分布的方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种确定给定文本的主题分布的方法、一种确定给定文本的主题分布的装置、一种计算机程序，以及，一种计算机可读介质。

背景技术

主题模型(Topic Model)是用来在一系列文本中发现抽象主题的一种统计模型。一个文本通常可能包含多种主题，而且，每个主题所占比例各不相同。一个主题模型试图用数学框架来体现文本的主题分布特点。主题模型能够自动分析每个文本，统计文本内的词语，根据统计的信息来判断当前文本包含哪些主题，以及每个主题所占的比例各为多少。

主题模型不仅是机器学习和数据挖掘领域的一个热门研究对象，而且目前也已经被实际应用到很多领域中，例如，在搜索引擎领域，查询词(Query)和网页的相关性就涉及到文本主题分布的提取，同时搜索领域的大数据量和快速响应等特点，导致如何高效地进行文本的主题分布提取成为一个关键。现有方案关于文本主题分布提取的速度仍然有较大的提升空间。

为了提升文本主题分布的提取速度，本发明提出一种确定给定文本的主题分布的方案。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种确定给定文本的主题分布的方法和相应的一种确定给定文本的主题分布的装置、一种计算机程序，以及，一种计算机可读介质。

根据本发明的一个方面，提供了一种确定给定文本的主题分布的方法，包括：确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

根据本发明的另一个方面，提供了一种确定给定文本的主题分布的装置，包括：第一确定模块，用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；获取模块，用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；第二确定模块，用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求1-5中的任一个所述的确定给定文本的主题分布的方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了如权利要求11所述的计算机程序。

本发明的有益效果为：

(1)根据本发明的技术方案，基于已经得到的文本主题模型训练的训练结果对给定文本的主题分布进行计算，不需要进行多次迭代计算，能够提升文本主题分布提取的效率。

(2)根据本发明的技术方案，在文本主题分布的计算过程中能够降低由于引入较多中间变量造成的内存、CPU等系统资源的额外开销。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示意性示出了根据本发明一个实施例的确定给定文本的主题分布的方法的流程图；

图2示意性示出了根据本发明一个实施例的根据对训练样本进行主题模型训练的训练结果，获取给定文本包含的特定单词的主题分布的流程图；

图3示意性示出了根据本发明一个实施例的确定给定文本的主题分布的装置的结构图；

图4示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图5示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。

具体实施例

下面结合附图和具体的实施方式对本发明作进一步的描述。

现有技术中，文本主题分布的提取一般采用期望最大化(EM，Expectation-maximization)方法：

训练样本包括文本D₁、D₂、…、D_n、…，首先，通过文本主题模型训练可以得到：

训练样本中包含单词w₁、w₂、…、w_j、…，主题z₁、z₂、…、z_i、…；以及

p(w|z)——特定主题z下的单词分布，即，训练样本中每个主题下每个单词出现的概率；

p(z|D)——特定文本D下的主题分布，即，训练样本中每个文本下每个主题出现的概率；

p(z|w，D)——特定文本D、单词w下的主题分布，即，训练样本中每个文本及单词下，每个主题出现的概率；

利用得到的文本主题模型训练结果，通过EM算法对给定文本进行主题分布的提取，即，确定每一个主题z_t在给定文本D中出现的概率：

E阶段，即期望阶段：

M阶段，即最大化阶段：

在上述的方法中，以主题模型训练的输出结果p(w|z_t)(主题z_t下每个单词出现的概率)以及随机初始化的p(z_t|D)(每个文本下主题z_t出现的概率p(z_t|D)的估计值)为输入数据，整个过程需要进行反复执行E步和M步，直至达到预定迭代次数或者预定精度后，停止迭代，输出主题z_t在给定文本D中出现的概率p(z_t|D)。

EM方法存在以下不足：

(1)EM算法中引入了中间变量因素p(z_t|w，D)，未能利用模型的训练结果数据p(z|w，D)，导致在实现上需要占用额外的存储空间存储大量的中间数据，增加系统负荷。

(2)EM算法的效率依赖于随机初始化的p(z_t|D⁾，并且，实际中执行迭代次数一般至少在30次以上，导致文本主题分布提取的效率较低。

下面将参考附图，详细描述本发明改进的技术方案。

本发明的主要思想在于，根据对训练样本进行主题模型训练得到的训练结果数据以及原始训练数据对给定文本进行主题分布的提取。给定文本的主题分布可以包括：训练样本包含的每个主题在所述给定文本下出现的概率。

如图1所示，图1是根据本发明一实施例的确定给定文本的主题分布方法的流程图。

在步骤S110处，确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数。

其中，所述特定单词属于训练样本包含的单词集合。通过对训练样本进行主题模型训练，可以得到训练样本中包含的单词集合，即，训练样本中包含的一个或多个单词。

具体地，可以通过对给定文本进行分词处理，得到给定文本中包含的一个或多个单词，其中，属于训练样本包含的单词集合一个或多个单词为特定单词，并确定该给定文本中出现的特定单词中的每个单词在该给定文本中出现的次数，设给定文本为D_x，D_x中包含特定单词w₁、w₂、…、w_t、…、w_N，用c(w，D_x)表示在给定文本D_x′中任意的特定单词w出现的次数。

在步骤S120处，根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布。

其中，所述特定单词的主题分布可以包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率，因此，获取所述特定单词的主题分布，也就是获取所述训练样本包含的每个主题在特定单词中的每个单词下出现的概率。

如图2所示，图2是根据本发明一实施例的根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布(步骤S120)的流程图。

在步骤S210处，从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。

其中，所述训练样本的原始训练数据可以包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数，用c(w，D)表示任意单词w在文本D中出现的次数。对所述训练样本进行主题模型训练的训练结果包括：所述训练样本中每个文本及单词下的主题分布，即，训练样本中每个文本及单词下每个主题出现的概率，在本实施例中，用p(z_i|w，D)表示训练样本中任意文本D及任意单词w下，主题z_i出现的概率。

根据给定文本包含的特定单词，可以从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词中的每个单词相关的原始训练数据和训练结果，即，从训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w，D)中，获取与特定单词相关的c(w，D)，即，特定单词中每个单词在训练样本包含的每个文本中出现的次数c(w，D)，从训练样本中每个文本及单词下每个主题出现的概率p(z_i|w，D)中，获取与特定单词相关的p(z_i|w，D)，即，获取训练样本中包含特定单词的每个文本(训练样本中包含特定单词中的任意一个或多个单词的文本)及每个特定单词下的每个主题出现的概率p(z_i|w，D)。

在步骤S220处，根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

具体地，可以根据公式(3)对所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率进行近似计算，进而得到特定单词中每个单词的主题分布，即，特定单词中每个单词下每个主题出现的概率，用p(z_i|w)表示任意的特定单词w下主题z_i出现的概率，p(z_t|w)表示当前计算的主题z_t在特定单词w下出现的概率，应注意，可能会出现一个或多个单词下一个或多个主题出现的概率为零的情况，即，p(z_t|w)＝0。

公式(3)中，p(z_t|w)表示任意主题z_t在特定单词中任意单词W下出现的概率，针对主题z_t，公式(3)的分子部分∑_Dc(w，D)p(z_t|w，D)表示，对特定单词W在训练样本的每个文本中出现的次数与该文本及该特定单词W下主题z_t出现的概率的乘积进行求和运算。公式(3)的分母部分的∑_i∑_Dc(w，D)p(z_i|w，D)表示对训练样本包含的所有主题，先对特定单词W在训练样本的每个文本中出现的次数与该文本及该特定单词w下主题z_i出现的概率的乘积进行求和运算，再将对训练样本包含的所有主题z_i进行上述求和运算得到的结果进行求和运算，在公式(3)中，在训练样本包含的文本范围内进行的求和运算，实际上就是将训练样本包含的所有文本看做一个文本。当根据公式(3)计算得到单词w下每个主题出现的概率，就得到了单词w的主题分布。

根据本申请的一个实施例，获取特定单词的主题分布的方式不限于此，例如，还可以先根据训练样本的原始训练数据和对训练样本进行主题模型训练的训练结果计算出训练样本包含的每个单词w的主题分布，再从其中获取特定单词中的每个单词的主题分布，即，根据训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数c(w，D)和训练样本中每个文本D及单词w下每个主题出现的概率p(z_i|w，D)确定所述训练样本中每个单词下的每个主题出现的概率，再从中获取每个特定单词w下的每个主题z_i出现的概率p(z_i|w)。

在步骤S130处，根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

具体地，可以根据上述得到的特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布，利用公式(4)对给定文本的主题分布进行近似计算。

公式(4)中，p(z_t|D_x)表示：针对特定主题z_t，在给定文本D_x中主题z_t出现的概率；分子部分的∑_wc(w，D_x)p(z_t|w)表示：针对主题z_t，对给定文本D_x包含的特定单词中的每个单词w_i在该给定文本D_x中出现的次数c(w，D_x)与主题z_t在该特定单词w下出现的概率p(z_t|w)的乘积进行求和运算；∑_i∑_wc(w，D)p(z_i|w)表示在训练样本包含的所有主题中，先针对每个主题z_i，对每个特定单词w在给定文本D_x中出现的次数c(w，D)与主题z_i在该特定单词w下出现的概率p(z_i|w)的乘积进行求和运算，再将对训练样本包含的所有主题进行上述求和运算得到的结果进行求和运算。计算每个主题z_t在D_x中出现的概率p(z_t|D_x)，得到的所有不为零的p(z_t|D_x)的集合，就是该给定文本D_x的主题分布。

下面以一个具体示例详细描述本发明对给定文本进行主题分布提取的步骤：

假设训练样本包含文本D₁、D₂，单词w₁、w₂、w₃、w₄，每个单词在每个文本中出现的次数分别为：

c(w₁，D₁)＝2、c(w₂，D₁)＝3、c(w₃，D₁)＝1；

c(w₁，D₂)＝1、c(w₃，D₂)＝2、c(w₄，D₂)＝3；

对训练样本进行主题模型训练的得到每个文本及单词下每个主题出现的概率p(z_i|w，D)分别为：

w₁，D₁′下，p(z₁|w₁，D₁)＝0.6、p(z₂|w₁，D₁)＝0.4；

w₂，D₁′下，p(z₁|w₂，D₁)＝0.1、p(z₂|w₂，D₁)＝0.9；

w₃，D₁下，p(z₂|w₃，D₁)＝1；

w₁，D₂下，p(z₁|w₁，D₂)＝1；

w₃，D₂下，p(z₁|w₃，D₂)＝0.4、p(z₂|w₃，D₂)＝0.6；

w₄，D₂下，p(z₁|w₄，D₂)＝0.7、p(z₂|w₄，D₂)＝0.3；

给定文本为D_x，

在步骤S110中，确定在给定文本D_x中出现的特定单词以及每个特定单词在给定文本D_x中出现的次数。

对D_x进行分词处理，得到D_x中出现的特定单词为w₁、w₃、w₄，并得到每个单词在文本D_x中出现的次数分别为：w₁出现3次、w₃出现1次、w₄出现1次，即，c(w₁，D_x)＝3、c(w₃，D_x)＝1、c(w₄，D_x)＝1。

在步骤S120中，根据对训练样本进行主题模型训练的训练结果，获取特定单词w₁、w₃、w₄的主题分布。

首先，在步骤S210处，从训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与特定单词w₁、w₃、w₄相关的原始训练数据和训练结果。

与w₁、w₃、w₄相关的原始训练数据和训练结果为：

c(w₁，D₁)＝2、c(w₃，D₁)＝1、c(w₁，D₂)＝1、c(w₃，D₂)＝2、c(w₄，D₂)＝3；w₁，D₁下，p(z₁|w₁，D₁)＝0.6、p(z₂|w₁，D₁)＝0.4；

w₃，D₁下，p(z₂|w₃，D₁)＝1；

w₃，D₂下，p(z₁|w₃，D₂)＝0.4、p(z₂|w₃，D₂)＝0.6；

w₄，D₂下，p(z₁|w₄，D₂)＝0.7、p(z₂|w₄，D₂)＝0.3；

然后，在步骤S220处，根据与w₁、w₃、w₄相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在特定单词w₁、w₃、w₄中出现的概率。

根据公式(3)计算可以得到特定单词w₁、w₃、w₄的主题分布分别为：w₁的主题分布：p(z₁|w₁)＝0.73、p(z₂|w₁)＝0.27；

w₃的主题分布：p(z₁|w₃)＝0.27、p(z₂|w₃)＝0.73；

w₄的主题分布：p(z₁|w₄)＝0.7、p(z₂|w₄)＝0.3。

或者，可以先根据训练样本的原始训练数据和训练结果利用公式(3)计算出训练样本中包含的每个单词的主题分布，得到：

w₁的主题分布：p(z₁|w₁)＝0.73、p(z₂|w₁)＝0.27；

w₂的主题分布：p(z₁|w₂)＝0.1、p(z₂|w₂)＝0.9；

w₃的主题分布：p(z₁|w₃)＝0.27、p(z₂|w₃)＝0.73；

w₄的主题分布：p(z₁|w₄)＝0.7、p(z₂|w₄)＝0.3；

再从中获取特定单词w1、w3、w4的主题分布。

步骤S130，根据在步骤S110处得到的特定单词w₁、w₃、w₄在给定文本D_x中出现的次数以及在步骤S120处得到的特定单词w₁、w₃、w₄的主题分布确定给定文本D_x的主题分布。

根据特定单词为w1、w3、w4在文本Dx中出现的次数：

c(w₁，D_x)＝3、c(w₃，D_x)＝1、c(w₄，D_x)＝1；

以及特定单词w1、w3、w4的主题分布确定给定文本Dx的主题分布：

w₁的主题分布：p(z₁|w₁)＝0.73、p(z₂|w₁)＝0.27；

w₃的主题分布：p(z₁|w₃)＝0.27、p(z₂|w₃)＝0.73；

w₄的主题分布：p(z₁|w₄)＝0.7、p(z₂|w₄)＝0.3。

利用公式(4)计算得到给定文本D_x的主题分布为：

p(z₁|D_x)＝0.63，p(z₂|D_x)＝0.37；

也就是说，给定文本D_x中，主题z₁出现的概率是0.63，主题z₂出现的概率是0.37。

本发明还提供了一种确定给定文本的主题分布的装置。如图3所示，图3是根据本发明一实施例的确定给定文本的主题分布的装置300的结构框图。装置300可以包括：第一确定模块310、获取模块320以及第二确定模块330。

第一确定模块310可以用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，其中，所述特定单词属于训练样本包含的单词集合。

获取模块320可以用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布。

第二确定模块330可以用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。

根据本申请的一个实施例，所述给定文本的主题分布可以包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。

根据本申请的一个实施例，所述特定单词的主题分布可以包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

根据本申请的一个实施例，所述获取模块320可以进一步包括：获取子模块和确定子模块。

其中，获取子模块可以用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果。

确定子模块可以用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。

所述训练样本的原始训练数据可以包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数。所述训练结果可以包括所述训练样本中每个文本及单词下的主题分布。

以上描述的确定给定文本的主题分布的装置与之前描述的确定给定文本的主题分布的方法的处理是对应的，因此，关于更详细的技术细节，可以参见之前描述的方法。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的确定给定文本的主题分布的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了可以实现根据本发明的确定给定文本的主题分布的方法的服务器，例如应用服务器。该服务器传统上包括处理器410和以存储器420形式的计算机程序产品或者计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如，用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图5所述的便携式或者固定存储单元。该存储单元可以具有与图4的服务器中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码431’，即可以由例如诸如410之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

一种确定给定文本的主题分布的方法，包括步骤：

确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；

根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；

根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
如权利要求1所述的方法，其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。
如权利要求1或2所述的方法，所述特定单词的主题分布包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
如权利要求3所述的方法，根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布，进一步包括：

从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；

根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
如权利要求4所述的方法，

所述训练样本的原始训练数据包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数；

所述训练结果包括：所述训练样本中每个文本及单词下的主题分布。
一种确定给定文本的主题分布的装置，包括：

第一确定模块，用于确定在给定文本中出现的特定单词以及所述特定单词在所述给定文本中出现的次数，所述特定单词属于训练样本包含的单词集合；

获取模块，用于根据对训练样本进行主题模型训练的训练结果，获取所述特定单词的主题分布；

第二确定模块，用于根据所述特定单词在所述给定文本中出现的次数以及所述特定单词的主题分布确定所述给定文本的主题分布。
如权利要求6所述的装置，其中，所述给定文本的主题分布包括：所述训练样本包含的每个主题在所述给定文本下出现的概率。
如权利要求6或7所述的装置，所述特定单词的主题分布包括：所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
如权利要求8所述的装置，所述获取模块，进一步包括：

获取子模块，用于从所述训练样本的原始训练数据和对所述训练样本进行主题模型训练的训练结果中获取与所述特定单词相关的原始训练数据和训练结果；

确定子模块，用于根据与所述特定单词相关的原始训练数据和训练结果确定所述训练样本包含的每个主题在所述特定单词中的每个单词下出现的概率。
如权利要求9所述的装置，

所述训练样本的原始训练数据包括：所述训练样本包含的每个单词在所述训练样本包含的每个文本中出现的次数；

所述训练结果包括：所述训练样本中每个文本及单词下的主题分布。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求1-5中的任一个所述的确定给定文本的主题分布的方法。
一种计算机可读介质，其中存储了如权利要求11所述的计算机程序。