WO2019153551A1

WO2019153551A1 - 文章分类方法、装置、计算机设备及存储介质

Info

Publication number: WO2019153551A1
Application number: PCT/CN2018/085344
Authority: WO
Inventors: 陈海涛
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-02-12
Filing date: 2018-05-02
Publication date: 2019-08-15
Also published as: CN108399228A; CN108399228B

Abstract

本申请公开了一种文章分类方法、装置、计算机设备及存储介质。该方法包括：将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；按主题标签对已打标签文章进行分类，得到文章分类结果。该方法将文章分词后，取文档-主题矩阵便可得到各篇文章所属的主题，利用主题给文章分类，采用自动学习代替手动分类，节省人力成本，提高了分类效率。

Description

文章分类方法、装置、计算机设备及存储介质

本申请要求于2018年2月12日提交中国专利局、申请号为201810145905.6、申请名称为“文章分类方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文章分类技术领域，尤其涉及一种文章分类方法、装置、计算机设备及存储介质。

背景技术

文章的标签有助于文章的搜索以及分类，目前常用的方式是手动打标签，即作者为自己的文章打标签，但是并非所有作者都为自己的文章打标签。若海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类，而不是在无标签或智能化添加标签后进行分类，则效率极其低下，而且大大的增加了人力成本。

发明内容

本申请提供了一种文章分类方法、装置、计算机设备及存储介质，旨在解决现有技术中海量的未打标签的文章都通过手动打标的方式来实现标签的添加之后在进行分类，导致效率极其低下，而且大大的增加了人力成本的问题。

第一方面，本申请提供了一种文章分类方法，其包括：将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；按主题标签对已打标签文章进行分类，得到文章分类结果。

第二方面，本申请提供了一种文章分类装置，其包括：

LDA模型训练单元，用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；

主题标签增加单元，用于通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；

文章分类单元，用于按主题标签对已打标签文章进行分类，得到文章分类结果。

第三方面，本申请又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请提供的任一项所述的文章分类方法。

第四方面，本申请还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的文章分类方法。

本申请提供一种文章分类方法、装置、计算机设备及存储介质。该方法将文章分词后，取文档-主题矩阵便可得到各篇文章所属的主题，利用主题给文章分类，采用自动学习代替手动分类，节省人力成本，提高了分类效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文章分类方法的示意流程图；

图2是本申请实施例提供的一种文章分类方法的另一示意流程图；

图3为本申请实施例提供的一种文章分类装置的示意性框图；

图4为本申请实施例提供的一种文章分类装置的另一示意性框图；

图5为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请实施例提供的一种文章分类方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示，该方法包括步骤S101～S103。

S101、将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵。

本实施例中，待打标签文章是已预先存储至指定路径的多篇文章或是从互联网上爬取的多篇文章，这多篇文章则是作为LDA模型的输入进行处理。例如终端上有一任务文件夹，可通过手动拷贝文件的方式将文章拷贝进任务文件夹，也可以是通过编写的自动拷贝脚本将文章自动拷贝进任务文件夹。将任务文件夹中的待打标签文章分词预处理而得到对应的词语-文档矩阵，通过LDA模型对词语-文档矩阵进行训练后，得到对应的主题-词语矩阵及文档-主题矩阵。

如图2所示，所述步骤S101之前还包括：

S1001、对待打标签文章进行分词，得到分词后文本。

在本实施例中，是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法的步骤如下：

步骤十一、对一个待分词的子串S，按照从左到右的顺序取出全部候选词w1，w2，…，wi，…，wn；

步骤十二、到词典中查出每个候选词的概率值P(wi)，并记录每个候选词的全部左邻词；

步骤十三、计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；

步骤十四、如果当前词wn是字串S的尾词，且累计概率P(wn)最大，则wn就是S的终点词；

步骤十五、从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即S的分词结果。

S1002、对分词后文本包括的分词一一设置加权值。

在本实施例中，以已进行分词的待打标签文本中分词来进行加权处理，也就是已进行分词的待打标签文本中是可以视作由多个分词组成，此时对整篇已进行分词的待打标签文本从头至尾按位置、词性、长度等因素对文本中的各分词进行加权处理，按如下规则：

文本第一个词是标题，赋予权值8*；段首第一个词等于“摘要”，则赋予权值5*；段首第一个词等于“关键词”或“结论”，则赋予权值5*；词语长度等于2，赋予权值3*；词性为名词，赋予权值2*；其他，每段首赋予权值1*。

S1003、删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组。

三元组<w _i，fre _i，v _i>表示待打标签文本经处理后的结果集，其中w _i是词语，fre _i是词语w _i加权后出现的次数，v _i是词语在文本中的位置权重；其中，当对分词后文本包括的分词一一设置加权值后，需删除其中的停用词(停用词包括虚拟词、语气组词、副词、符号、一个字的词，这些停用词不会作为关键词的候选词)，能准确的筛选出候选的关键词进行后续处理。

S1004、获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。

其中，通过词语相似度计算，计算第一三元组<w _i，fre _i，v _i>中词频fre _i＞2的所有词语相似度sim _ij；当sim _ij＞0.9则认为两个词语的相似度极高，在文本中可以替换，将返回四元组<w _i，w _j，sim _ij，fre _i+fre _j>，并删除第一三元组里的词语w _j。四元组<w _i，w _j，sim _ij，fre _i+fre _j>表示对三元组中部分词语计算相似度后的集合，其中sim _ij表示词语w _i、w _j的相似度，fre _i+fre _j表示两个词语的词频之和。

S1005、若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

其中，在第一三元组<w _i，fre _i，v _i>中，查找四元组<w _i，w _j，sim _ij，fre _i+fre _j>中的词语；当三元组的fre _i替换为四元组中的fre _i+fre _j，重新组成第二三元组<w _i，fre _i+fre _j，v _i>，该第二三元组<w _i，fre _i+fre _j，v _i>即为预处理文本。

S1006、根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。

其中，得到了三元组<w _i，fre _i+fre _j，v _i>后，就能根据每一词语w _i及其对应的加权后出现的次数fre _i得到一个词语-文档矩阵。

为了更清楚的理解本申请的技术方案，下面对LDA模型进行介绍。

LDA模型(英文全称是Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。

通过LDA模型对M份包含N个单词的文档(M和N均为正整数)进行训练时，主要通过以下步骤：

把每篇文章看成一个向量，词为特征，假设总共有N个词，则M篇文章组成N*M的矩阵，该LDA模型使用下面方法生成1个文档，

Chooseparameter θ～p(θ)；

For each ofthe N words w_n：

Choose a topic z_n～p(z|θ)；

Choose a word w_n～p(w|z)；

其中，Chooseparameter表示选择参数，Choose a topic表示选择主题，Choose a word表示选择词语，For each ofthe N words w_n表示将每篇文档的N个词用w_n简记；其中，θ是一个主题向量，向量的每一列表示每个主题在文档出现的概率，该向量为非负归一化向量；p(θ)是θ的分布，具体为狄利克雷分布；N和w_n同上；z_n表示选择的主题，p(z|θ)表示给定θ时主题z的概率分布，具体为θ的值，即p(z＝i|θ)＝θ_i；p(w|z)表示给定主题z时词语n的概率分布。

上述LDA模型首先选定一个主题向量θ，确定每个主题被选择的概率；然后在生成每个单词时，从主题分布向量θ中选择一个主题z，按主题z的单词概率分布生成一个单词。

在一实施例中，所述LDA模型具体如下：

其中，θ是主题向量，z是主题，w是单词，p(θ，z，w|α，β)是词语-文档矩阵对应的概率分布矩阵，p(θ|α)是θ关于α的狄利克雷分布，p(z _n|θ)是主题-词语矩阵对应的概率分布矩阵，p(w _n|z _n，β)是主题-文档矩阵对应的概率分布矩阵，α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。

其中，α和β表示语料级别的参数，也就是每个文档都一样，因此生成过程只采样一次；θ是文档级别的变量，每个文档对应一个θ，也就是每个文档产生各个主题z的概率是不同的，所有生成每个文档采样一次θ；z和w都是单词级别变量，z由θ生成，w由z和β共同生成，一个单词w对应一个主题z。

从上可知，LDA模型主要是从给定的输入语料中学习训练两个控制参数α 和β，学习出了这两个控制参数就确定了模型，便可以用来生成文档。其中α和β分别对应以下各个信息：

α，分布p(θ)需要一个向量参数，即Dirichlet分布(即狄利克雷分布)的参数，用于生成一个主题θ向量；

β，各个主题对应的单词概率分布矩阵p(w|z)；

其中给定的输入语料则是相当于训练出LDA模型中两个控制参数α和β的历史数据，即给定的输入语料也就是已打好标签的多篇文章。将已打好标签的多篇文章作为LDA模型的输入，不断进行训练，就能确定控制参数α和β。

在一实施例中，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。若求解过程中遇到后验概率p(θ，z|w)无法直接求解，通过EM算法(即最大期望算法)来近似求解；每次E-step(E-step为LDA模型中的变分推断)输入α和β，计算似然函数，M-step最大化这个似然函数，算出α和β，不断迭代直到收敛，从而对应得到主题-词语矩阵、及文档-主题矩阵。

其中，要生成一篇文档，它里面的每个词语出现的概率为：

上述公式可以用矩阵表示，即文档-词语矩阵＝主题-词语矩阵×文档-主题矩阵；其中，文档-词语矩阵表示每个文档中每个单词的词频，即每个单词出现的概率；主题-词语矩阵表示每个主题中每个单词的出现概率；文档-主题矩阵表示每个文档中每个主题出现的概率。

给定一系列文档，通过对文档进行分词，计算各个文档中每个单词的词频就可以得到左边的文档-词语矩阵。主题模型就是通过左边这个矩阵进行训练，学习出右边两个矩阵。

S102、通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章。

在本实施例中，获取了文档-主题矩阵后，就获取了该文档的主题，也可以理解为获取了该文章的关键词，这一关键词就能直接作为该文章的标签以作分类使用。由于通过LDA模型对将待打标签文章进行训练而得到词语-文档矩阵，这一过程会随着训练数据计算的增大，输出的文档-主题矩阵越来越精确，能更精准的根据主题(即文章的最佳关键词)对文章进行分类。

S103、按主题标签对已打标签文章进行分类，得到文章分类结果。

在本实施例中，是将具有相同主题的文档归到同一类后，得到文章分类结果。通过上述分类，实现了文章的自动化和智能化的分类，无需手动分类。

在一实施例中，所述步骤S1001之前还包括：

步骤一、爬取待打标签文章，并将待打标签文章传输至指定路径存储。

即原始数据从网上爬取，得到待打标签文章，存放到MangoDB数据库。通过爬取数据，可设置一筛选条件，即爬取未设置标签的文本从而进行打标签，以进行文章分类。

可见，该方法将文章分词后，取文档-主题矩阵便可得到各篇文章所属的主题，利用主题给文章分类，采用自动学习代替手动分类，节省人力成本，提高了分类效率。

本申请实施例还提供一种文章分类装置，该文章分类装置用于执行前述任一项文章分类方法。具体地，请参阅图3，图3是本申请实施例提供的一种文章分类装置的示意性框图。文章分类装置100可以安装于台式电脑、平板电脑、手提电脑、等终端中。

如图3所示，文章分类装置100包括LDA模型训练单元101、主题标签增加单元102、文章分类单元103。

LDA模型训练单元101，用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵。

如图4所示，所述文章分类装置100还包括：

分词单元1001，用于对待打标签文章进行分词，得到分词后文本。

在本实施例中，是基于概率统计模型的分词方法对待打标签文本进行分词。基于概率统计模型的分词方法如下：

1)对一个待分词的子串S，按照从左到右的顺序取出全部候选词w1，w2，…，wi，…，wn；

2)到词典中查出每个候选词的概率值P(wi)，并记录每个候选词的全部左邻词；

3)计算每个候选词的累计概率，同时比较得到每个候选词的最佳左邻词；

4)如果当前词wn是字串S的尾词，且累计概率P(wn)最大，则wn就是S的终点词；

5)从wn开始，按照从右到左顺序，依次将每个词的最佳左邻词输出，即S的分词结果。

加权单元1002，用于对分词后文本包括的分词一一设置加权值。

统计单元1003，用于删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组。

相似度获取单元1004，用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度。

删词单元1005，用于若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本。

词语-文档矩阵获取单元1006，用于根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。

在一实施例中，所述LDA模型具体如下：

从上可知，LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β，学习出了这两个控制参数就确定了模型，便可以用来生成文档。其中α和β分别对应以下各个信息：

β，各个主题对应的单词概率分布矩阵p(w|z)；

其中，要生成一篇文档，它里面的每个词语出现的概率为：

主题标签增加单元102，用于通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章。

文章分类单元103，用于按主题标签对已打标签文章进行分类，得到文章分类结果。

可见，该装置将文章分词后，取文档-主题矩阵便可得到各篇文章所属的主题，利用主题给文章分类，采用自动学习代替手动分类，节省人力成本，提高了分类效率。

上述文章分类装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。

参阅图5，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种文章分类方法。该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种文章分类方法。该网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；按主题标签对已打标签文章进行分类，得到文章分类结果。

在一实施例中，处理器502还执行如下操作：对待打标签文章进行分词，得到分词后文本；对分词后文本包括的分词一一设置加权值；删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度；若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本；根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。

在一实施例中，所述LDA模型为：

在一实施例中，处理器502还执行如下操作：爬取待打标签文章，并将待打标签文章传输至指定路径存储。

在一实施例中，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。

本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供一种存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时实现本申请实施例的文章分类方法。

所述存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种文章分类方法，其特征在于，包括：

将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；

通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；

按主题标签对已打标签文章进行分类，得到文章分类结果。
根据权利要求1所述的文章分类方法，其特征在于，所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵之前，还包括：

对待打标签文章进行分词，得到分词后文本；

对分词后文本包括的分词一一设置加权值；

删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度；

若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本；

根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。
[根据细则26改正12.06.2018]　
根据权利要求1所述的文章分类方法，其特征在于，所述LDA模型为：

其中，θ是主题向量，z是主题，w是单词，p(θ，z，w|α，β)是词语-文档矩阵对应的概率分布矩阵，p(θ|α)是θ关于α的狄利克雷分布，p(z _n|θ).是主题-词语矩阵对应的概率分布矩阵，p(w _n|z _n，β)是主题-文档矩阵对应的概率分布矩阵，α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
根据权利要求2所述的文章分类方法，其特征在于，所述对待打标签文章进行分词，得到分词后文本之前，还包括：

爬取待打标签文章，并将待打标签文章传输至指定路径存储。
根据权利要求3所述的文章分类方法，其特征在于，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
一种文章分类装置，其特征在于，包括：

LDA模型训练单元，用于将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；

主题标签增加单元，用于通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；

文章分类单元，用于按主题标签对已打标签文章进行分类，得到文章分类结果。
根据权利要求6所述的文章分类装置，其特征在于，还包括：

分词单元，用于对待打标签文章进行分词，得到分词后文本；

加权单元，用于对分词后文本包括的分词一一设置加权值；

统计单元，用于删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

相似度获取单元，用于获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度；

删词单元，用于若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本；

词语-文档矩阵获取单元，用于根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。
[根据细则26改正12.06.2018]　
根据权利要求6所述的文章分类装置，其特征在于，所述LDA模型为：

其中，θ是主题向量，z是主题，w是单词，p(θ，z，w|α，β)是词语-文档矩阵对应的概率分布矩阵，p(θ|α)是θ关于α的狄利克雷分布，p(z _n|θ).是主题-词语矩阵对应的概率分布矩阵，p(w _n|z _n，β)是主题-文档矩阵对应的概率分布矩阵，α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
根据权利要求6所述的文章分类装置，其特征在于，所述对待打标签文章进行分词，得到分词后文本之前，还包括：

爬取待打标签文章，并将待打标签文章传输至指定路径存储。
根据权利要求8所述的文章分类装置，其特征在于，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；

通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；

按主题标签对已打标签文章进行分类，得到文章分类结果。
根据权利要求11所述的计算机设备，其特征在于，所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵之前，还包括：

对待打标签文章进行分词，得到分词后文本；

对分词后文本包括的分词一一设置加权值；

删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度；

若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本；

根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。
[根据细则26改正12.06.2018]　
根据权利要求11所述的计算机设备，其特征在于，所述LDA模型为：

其中，θ是主题向量，z是主题，w是单词，p(θ，z，w|α，β)是词语-文档矩阵对应的概率分布矩阵，p(θ|α)是θ关于α的狄利克雷分布，p(z _n|θ). 是主题-词语矩阵对应的概率分布矩阵，p(w _n|z _n，β)是主题-文档矩阵对应的概率分布矩阵，α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
根据权利要求12所述的计算机设备，其特征在于，所述对待打标签文章进行分词，得到分词后文本之前，还包括：

爬取待打标签文章，并将待打标签文章传输至指定路径存储。
根据权利要求13所述的计算机设备，其特征在于，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。
一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行以下操作：

将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵；

通过文档-主题矩阵，获取与待打标签文章中每一文档对应的主题，并对每一文档对应增加主题标签，得到已打标签文章；

按主题标签对已打标签文章进行分类，得到文章分类结果。
根据权利要求16所述的存储介质，其特征在于，所述将待打标签文章对应的词语-文档矩阵输入至预先构建的LDA模型进行训练，得到对应的主题-词语矩阵及文档-主题矩阵之前，还包括：

对待打标签文章进行分词，得到分词后文本；

对分词后文本包括的分词一一设置加权值；

删除分词后文本中的停用词，并统计各分词的词频，得到第一三元组；

获取第一三元组中词频大于预设词频阈值所对应的分词之间的词语相似度；

若分词之间的词语相似度大于预设词语相似度阈值，保留其中任意一个分词，得到第二三元组，并将第二三元组作为预处理文本；

根据预处理文本中所包括词语，及与每一词语的词频，获取词语-文档矩阵。
[根据细则26改正12.06.2018]　
根据权利要求16所述的存储介质，其特征在于，所述LDA模型为：

其中，θ是主题向量，z是主题，w是单词，p(θ，z，w|α，β)是词语-文档矩阵对应的概率分布矩阵，p(θ|α)是θ关于α的狄利克雷分布，p(z _n|θ).是主题-词语矩阵对应的概率分布矩阵，p(w _n|z _n，β)是主题-文档矩阵对应的概率分布矩阵，α和β分别是LDA模型从给定的输入语料中学习训练得到第一控制参数、及第二控制参数。
根据权利要求17所述的存储介质，其特征在于，所述对待打标签文章进行分词，得到分词后文本之前，还包括：

爬取待打标签文章，并将待打标签文章传输至指定路径存储。
根据权利要求18所述的存储介质，其特征在于，所述LDA模型中将w当做观察变量，θ和z当做隐藏变量，通过最大期望算法学习得到第一控制参数α、及第二控制参数β。