WO2021139466A1

WO2021139466A1 - 一种文本主题词确定方法、装置、存储介质及终端

Info

Publication number: WO2021139466A1
Application number: PCT/CN2020/134772
Authority: WO
Inventors: 马文康; 王鹏; 王永会
Original assignee: 北京大米科技有限公司
Priority date: 2020-01-06
Filing date: 2020-12-09
Publication date: 2021-07-15
Also published as: CN111274798B; CN111274798A

Abstract

一种文本主题词确定方法、装置、存储介质及终端，包括：对至少一个输入文本进行预处理，得到至少一个目标文本(S101)；根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系(S102)；基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系(S103)；根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词(S104)。运用本方法能够准确挖掘短文本的主题词。

Description

一种文本主题词确定方法、装置、存储介质及终端

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本主题词确定方法、装置、存储介质及终端。

背景技术

主题是文章/作品的中心思想，它体现的是文章/作品内容的主体及核心；而主题词则能通过少量的词语简明扼要地概括出文章/作品的主要内容。

主题模型是统计文本主题挖掘的常用方法，能够在无人工参与的前提下发现和归纳文本的主题内容。

传统的主题挖掘算法通常是利用长文本对主题模型进行无监督的训练，该方法训练出来的主题模型不适用于短文本，从而使得对短文本进行主题挖掘时，挖掘的主题词准确性不够。

发明内容

本申请实施例提供了一种文本主题词确定方法、装置、存储介质及终端，适用于短文本且能够准确地挖掘主题词。所述技术方案如下：

第一方面，本申请实施例提供了一种文本主题词确定方法，所述方法包括：

对至少一个输入文本进行预处理，得到至少一个目标文本；

根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。

第二方面，本申请实施例提供了一种文本主题词确定装置，所述装置包括：

目标文本获取模块，用于对至少一个输入文本进行预处理，得到至少一个目标文本；

第一映射关系构建模块，用于根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

第三映射关系确定模块，用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

主题词确定模块，用于根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请的一个或多个实施例中，终端首先对至少一个输入文本进行预处理，得到至少一个目标文本；接着根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；再基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；最后根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。本申请提供的实施例是预先利用短文本对主题模型进行训练，保证了模型对短文本的适用性；在线使用时直接使用预先训练过程中生成的词语集合以及第二映射关系来得出输入文本的主题词，保证了在线使用时对短文本主题词的准确挖掘。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本主题词确定方法的流程示意图；

图2是本申请实施例提供的一种文本主题词确定方法的流程示意图；

图3是本申请实施例提供的一种文本主题词确定方法的流程示意图；

图4是本申请实施例提供的一种文本主题词挖掘模型的训练过程示意图；

图5是本申请实施例提供的一种文本主题词确定方法的离线训练与在线使用过程的完整流程示意图；

图6是本申请实施例提供的一种文本主题词确定装置的结构示意图；

图7是本申请实施例提供的一种文本主题词确定装置的结构示意图；

图8是本申请实施例提供的一种文本主题词确定装置的结构示意图；

图9是本申请实施例提供的一种终端结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面将结合附图1-附图5，对本申请实施例提供的文本主题词确定方法进行详细介绍。

请参见图1，为本申请实施例提供的一种文本主题词确定方法的流程示意图。

如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，对至少一个输入文本进行预处理，得到至少一个目标文本；

在确定输入文本的主题词之前，终端要先对输入文本进行预处理，预处理能够加速后续对输入文本主题词的挖掘；本申请实施例对主题词的挖掘针对的是短文本，因此，获取的输入文本其文本长度应小于预设阈值，文本长度即文本中所含有的字符数，预设阈值可以设置为120等；所获取的输入文本在条数上不受限制，可以为一条，也可以为至少一条。

经过预处理的输入文本其文本长度会存在一定的变化，定义经过预处理的输入文本为目标文本，所述预处理包括错别字纠正、文本语序结构调整以及去表情符等等。例如，对文本1“黄梁一梦”进行错别字纠正，修改为“黄粱一梦”；对文本2“他去图书馆了吧，大概”进行语序结构调整，调整为“他大概去图书馆了吧”；对文本3“这边风景无限好

”进行去表情符处理，变为“这边风景无限好”等等。其中，所述去表情符包含了去颜文字、去Emoji以及去表情包等处理。

一些可行的实施例中，所述预处理还可以包括文本合并处理。

S102，根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

文本由词语组合而成，基于预先训练生成的词语集合，可以在目标文本与词语集合中至少一个词语之间构建一种映射关系，称为第一映射关系。具体地，可以对生成的目标文本进行词语构成分析，获取目标文本所包含的词语，基于所述词语集合以及所获取的目标文本所包含的词语，在所述词语集合中确定与所述目标文本相对应的词语，形成映射关系。映射关系可以是一对一的关系，也可以是一对多。映射类型不受限制，例如可以是列表式，也可以是字典式等。

其中，所述词语集合是基于至少一条样本文本生成的。具体地，预先训练过程中先对获取的至少一条样本文本进行错别字纠正、文本语序结构调整以及去表情符等预处理，再对样本文本进行分词处理，获取样本文本所包含的词语，至少一条样本文本所包含的词语即构成词语集合。

S103，基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

预先训练时，为多个样本文本设置的至少一个主题类型同样也是由词语概括而成的，将主题类型与词语集合中至少一个词语之间形成的映射关系称为第二映射关系。第一映射关系与第二映射关系均与词语集合有关，将两者进行结合便可得出第三映射关系，即目标文本与所述主题类型之间的对应关系。

S104，根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。

根据第三映射关系可以确定目标文本的主题类型，接着通过第二映射关系可以确定目标文本主题类型对应的词语，将该词语作为目标文本的主题词。主题词能够简练概括文本主旨，目标文本的主题词可以是一个或多个。

在本申请实施例中，终端首先对至少一个输入文本进行预处理，得到至少一个目标文本；接着根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；再基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；最后根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。本申请提供的实施例是预先利用短文本对主题模型进行训练，保证了模型对短文本的适用性；在线使用时直接使用预先训练过程中生成的词语集合以及第二映射关系来得出输入文本的主题词，保证了在线使用时对短文本主题词的准确挖掘。

请参见图2，为本申请实施例提供的一种文本主题词确定方法的流程示意图。

如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201，对至少一条第一样本文本进行文本合并处理，生成至少一条第二样本文本，所述第一样本文本的文本长度均小于预设阈值，所述第二样本文本的文本长度均大于等于所述预设阈值；

针对短文本主题词的挖掘，本申请实施例提供了一种模型训练方法，模型训练完成时会对训练过程中生成的第二映射关系进行保存，在线使用时可以根据输入文本以及训练完成时所保存的第二映射关系来准确获取输入文本的主题词。

本实施例对模型的训练是基于不同类型的样本来进行的，也就是，训练样本包含多个类型，例如既包含商业类型的文本又包含文学类型的文本。定义进行文本合并处理之前的样本文本为第一样本文本，所述第一样本文本即为短文本，文本长度小于预设阈值。单单利用彼此独立且不经过任何处理的至少一条短文本对模型进行训练时，由于每条短文本所含有的词语数量较少，训练过程中找到主题词语共现规律(几个词语连在一起出现的规律)的难度较大，训练生成的矩阵也会稀疏，从而使得后续在线使用时基于此矩阵获取的主题词准确性也不够。因此，本实施例在获取到至少一条文本长度均小于预设阈值的第一样本文本后，要对所述至少一条第一样本文本进行文本合并处理，以生成至少一条第二样本文本来对模型进行训练。所述第二样本文本即为长文本，其文本长度大于等于预设阈值。

其中，第一样本文本经合并处理之后，每条文本所含有的字符数增多，其文本长度均大于等于预设阈值，从而变为长文本。对至少一条第一样本文本的文本合并处理，可以是利用一些现有的聚类算法(例如K均值聚类、均值漂移算法等)先对所述至少一条第一样本文本进行聚类，再根据聚类结果用各种组合方式对文本进行合并，以生成至少一条第二样本文本，增大每条样本文本的词语数量。

或者，可以是利用一些现有的自然语言处理技术来对至少一条第一样本文本进行不同方式的结合/合并，以生成至少一条第二样本文本，从而增大每条样本文本的词语数量。例如，将语法结构相同的几条第一样本文本合并扩大为一条第二样本文本。

文本长度的确定也就是计算文本中所含有的字符数，字符包含各类语言的文字及标点符号，一个汉字或中文标点通常算作两个字符，一个英文字母或英文标点通常算作一个字符。例如，“时事热点新闻”包含12个字符，该文本的文本长度为12；“Hello！”包含6个字符，该文本的文本长度为6。预设一个文本长度阈值，将文本长度小于预设阈值的文本划分为短文本，将文本长度大于等于预设阈值的文本划分为长文本，其中预设阈值可以设置为140或150等等。

需要说明的是，一些可行的实施例中，对模型的训练也可以仅针对同一类型的文本来进行，也就是说，所获取的至少一条第一样本文本均为同一类型的文本，例如作为样本的文本 a、文本b、文本c均属于体育运动类。此外，合并处理之前第一样本文本的条数与合并处理之后第二样本文本的条数不存在固定的大小关系，合并处理之后样本的条数可以增多也可以减少、或者一致。

S202，基于所述至少一条第二样本文本的主题类型、主题词，获取主题先验信息；

在对未知待测事物做出一些推断/决策时，当前未知待测事物本身的状态虽然重要，但历史经验也同样重要，先验信息即指基于历史数据或资料所获得的经验。本申请在利用样本对模型进行训练之前，需要获取主题先验信息，以使训练结果更优。

直接将依赖主观判断而预设的主题类型作为先验信息作用于模型训练时，会导致模型的训练结果准确性不够。本实施例是在人为预设主题类型的基础上，通过算法获得主题先验信息，既有历史经验又存在一定的数据分析，先验信息更可靠。

具体地，于终端预先存储主题类型以及与主题类型对应的主题词，当所述至少一条第二样本文本生成时，获取所存储的预设主题类型以及主题类型对应的主题词，再结合所生成的至少一条第二样本文本，根据现有的语言处理技术确定所述至少一条第二样本文本所属的预设主题类型，并将此结果作为主题先验信息，执行步骤S103。

本实施例对预先存储的主题类型数量以及与各个主题类型对应的关键词的数量不作限定。当预先存储的主题类型为多个时，可以以概率大小来确定每条第二样本文本所属的预设主题类型，并将至少一条第二样本文本的预设主题类型隶属结果作为主题先验信息。

S203，基于所述至少一条第二样本文本以及所述主题先验信息，对文本主题挖掘模型进行训练，获取主题类型-词语频率矩阵。

基于上述步骤获取的至少一条第二样本文本以及主题先验信息来对模型进行训练，可以加长样本文本长度，增大样本文本的词语数量，降低词语共现规律的获取难度，解决模型输出的矩阵稀疏的问题，切实保证后续在线使用时对输入文本主题词提取的准确性，增强标签的解释性。

其中，所述模型为文本主题词挖掘模型，凡是能够进行主题词挖掘的模型均可应用于本申请提供的实施例中。例如可选用隐式狄利克雷主题标签挖掘模型(Labeled-Latent Dirichlet Allocation，Labeled-LDA)等。

S204，对至少一个输入文本进行预处理，得到至少一个目标文本；

该步骤具体可参见步骤S101，此处不再赘述。

S205，根据预先训练得到的词语集合，构建目标文本-词语频率矩阵；

在线使用时，根据上述训练过程生成的词语集合，确定出所述目标文本中出现词语集合内各个词语的频率，构建目标文本-词语频率矩阵(即步骤S102中的第一映射关系)。

本步骤未作详尽说明之处具体可参见步骤S102，此处不再赘述。

S206，基于所述主题类型-词语频率矩阵，确定目标文本-主题类型矩阵；

获取目标文本的主题词需要先确定输入文本最可能隶属的主题类型。通过步骤S205构建的目标文本-词语频率矩阵以及训练完成时所保存的主题类型-词语频率矩阵可以获得目标文本-主题类型矩阵，执行步骤S207。

S207，将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引，基于所述主题类型索引以及所述主题类型-词语频率矩阵，确定所述至少一个主题词。

根据目标文本-主题类型矩阵中最大概率值对应的索引确定目标文本的主题类型索引，也就是由矩阵中的最大值可以确定出该目标文本的主题类型；再根据目标文本的主题类型索引以及上述训练完成时所保存的主题类型-词语频率矩阵可以确定该目标文本的主题词。

该过程具体为，通过目标文本-主题类型矩阵中概率值最大的主题类型索引(a，b)，确定出目标文本a最可能的主题类型是b，再通过主题类型-词语频率矩阵确定出该主题类型b的主题词索引(b，c)，输出文本a的主题词c，所述主题词可以由文本所属类型以及文本中的高频词汇/关键词等构成。

请参见图3，为本申请实施例提供的一种文本主题词确定方法的流程示意图。

如图3所示，本申请实施例的所述方法可以包括以下步骤：

S301，根据至少一条第一样本文本中的词汇生成词语集合；

每条第一样本文本的文本长度不同，所包含的词语数量也不等，同时也会存在一些无意义的词语，因此要对所述每条第一样本文本进行分词处理及停用词处理，以获得每条第一样本文本所包含的有效词语，至少一条第一样本文本所包含的有效词语构成词语合集。

其中，分词处理是指对文本中的语句进行词语切分，例如，对文本“小明被湖岸上的一朵花吸引住了”进行分词处理，分词的结果就可能为“小明/被/湖岸上/的/一朵/花/吸引/住了”等等，分词处理方法具体可以选用正向最大匹配法、基于N-gram语言模型的分词方法、基于HMM的分词方法等。停用词是指文本中出现的没有实际含义的词，例如“的、地、在、a、an、the”等，去掉文本中一些没有实际含义的词可以使样本更有意义，模型训练速度更快。

S302，基于所述至少一条第一样本文本中词语出现的频率统计结果，构建目标文本-词语频率矩阵；

根据上述步骤获取的词语集合，统计每条第一样本文本中出现词语集合内各个词语的频率，依据所述至少一条第一样本文本以及每条第一样本文本的词语频率统计结果，构建目标文本-词语频率矩阵。所述目标文本-词语频率矩阵是由人工统计计算出的真实的文本-词语频率矩阵。

S303，对所述至少一条第一样本文本进行文本合并处理，生成至少一条第二样本文本，所述第一样本文本的文本长度均小于预设阈值，所述第二样本文本的文本长度均大于等于所述预设阈值；

该步骤具体可参见步骤S201，此处不再赘述。

一些可行的实施例中，在对所述至少一条第一样本文本进行文本合并处理之前，还可以包括错别字纠正、文本语序结构调整以及去表情符等处理。

S304，将所述至少一条第二样本文本隶属于不同主题类型的概率分布作为主题先验信息；

在对文本进行主题推断、主题词挖掘时，基于文本本身的内容，再利用根据历史数据或资料获得的经验信息对模型进行训练，能够使模型参数更优，输出结果更接近于真实数据。

本申请在利用上述步骤所获取的至少一条第二样本文本对文本主题词挖掘模型进行训练之前，需要人为预设多个主题类型并人工统计出每条第二样本文本隶属于各个主题类型的概率，形成概率分布；所述至少一条第二长度样本文形成的多个概率分布即构成主题先验信息，将所述主题先验信息用于模型训练。

该步骤未作详尽说明之处具体可参见步骤S202，此处不再赘述。

S305，采用所述至少一条第二样本文本以及所述主题先验信息，对文本主题词挖掘模型进行训练，当训练过程中生成的样本文本-词语频率矩阵与所述目标文本-词语频率矩阵一致时，模型训练完成，获取训过程中生成的样本主题类型-词语频率矩阵；

模型训练过程中会形成一个样本文本-词语频率矩阵，在确定模型训练是否完成时，可以将文本主题词挖掘模型训练过程中生成的样本文本-词语频率矩阵与人工统计计算出的真实的目标文本-词语频率矩阵进行比较，当两者一致时表示模型训练完成，此时模型中的各项参数已达最优，获取训练过程中生成的样本主题类型-词语频率矩阵并进行保存，用于后续的在线使用。

当样本文本-词语频率矩阵与目标文本-词语频率矩阵不一致时，表示训练未完成，还需要对模型进行调整并继续使用更多的第二样本文本来训练，直至样本文本-词语频率矩阵与目标文本-词语频率矩阵一致。

S306，对至少一个输入文本进行预处理，得到至少一个目标文本；

该步骤具体可参见步骤S101，此处不再赘述。

S307，根据所述目标文本以及预先训练生成的词语集合，构建目标文本-词语频率矩阵；

该步骤具体可参见步骤S205，此处不再赘述。

S308，基于所述目标文本-词语频率矩阵以及预先训练获取的主题类型-词语频率矩阵，确定目标文本-主题类型矩阵；

该步骤具体可参见步骤S206，此处不再赘述。

S309，将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题索引，基于所述主题索引以及所述主题类型-词语频率矩阵，确定所述目标文本的主题词。

该步骤具体可参见步骤S207，此处不再赘述。

请参见图4，为本申请实施例提供的一种文本主题词挖掘模型的训练过程示意图。

如图4所示，以Labeled-LDA模型为例对上述实施例中的模型训练过程进行说明。

训练过程具体为：1)人工统计计算获得一个真实的文本-词语频率矩阵s(也就是目标文本-词语频率矩阵)；2)隐式狄利克雷分布在使用了两个不同的参数α和β后形成了两个不同的分布，分别命名为狄利克雷分布α和狄利克雷分布β；3)基于主观认定给出的一些主题类型再经过一定的计算获得主题先验信息；4)由样本文本(图中未示出)、狄利克雷分布α以及主题先验信息三者可以获得样本文本-主题类型矩阵θ；5)通过样本文本(图中未示出)以及狄利克雷分布β可以获得主题类型-词语频率矩阵φ；6)由样本文本-主题类型矩阵θ和主题类型-词语频率矩阵φ可以获得样本文本-词语频率矩阵w；7)当Labeled-LDA模型训练过程中生成的样本文本-词语频率矩阵w与真实的文本-词语频率矩阵s无限接近/一致时，表明Labeled-LDA模型训练完成，此时模型中的参数φ达到最优，对训练过程中生成的样本主题类型-词语频率矩阵φ进行保存，并用于后续在线使用。

请参见图5，为本申请实施例提供的一种主题词确定方法的离线训练与在线使用过程的完整流程示意图。

如图5所示，离线训练过程中，利用聚类算法对输入的样本文本进行聚类，形成n个类别，对这n个类别中的文本进行组合合并，形成图中所示的文本11…文本n4(长文本，并计条数为d)；在对样本文本进行去表情符、分词、去停用词等处理之后，生成大小为w的词语集合；人为预设t个主题类型，并计算获得每条样本文本隶属于各个主题类型的概率分布，d条长文本所形成的概率分布构成主题先验信息；利用所述主题先验信息以及d条文本训练Labeled-LDA模型，训练过程中，模型会根据词语集合以及所述d条文本生成d*w的文本-词语频率矩阵，当训练过程中生成的d*w的文本-词语频率矩阵与目标文本-词语频率矩阵(人工统计计算得出的)一致时，表示训练完成，此时模型中的参数达到最优，输出t*w的主题类型-词语频率矩阵。

在线使用时，对k条输入文本进行预处理之后，根据离线训练过程中生成的大小为w的词语集合以及所述预处理后的k条输入文本构建k*w的文本-词语频率矩阵，由所述k*w的文本-词语频率矩阵以及离线训练输出的t*w的主题类型-词语频率矩阵可以得到k*t的文本-主题类型矩阵，将k*t的文本-主题类型矩阵中最大概率值对应的索引作为输入文本的主题类型索引，根据该主题类型索引确定输入文本的主题类型，再通过离线训练输出的主题类型-词语频率矩阵便可获得输入文本的主题词(即图中所示主题词1…主题词k)。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，为本申请一个示例性实施例提供的文本主题词确定装置的结构示意图。该文本主题词确定装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分，还可以作为独立的模块集成于服务器上。本申请实施例中的文本主题词确定装置应用于终端，所述装置1包括目标文本获取模块11、第一映射关系构建模块12、第三映射关系确定模块13和主题词确定模块14，其中：

目标文本获取模块11，用于对至少一个输入文本进行预处理，得到至少一个目标文本；

第一映射关系构建模块12，用于根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

第三映射关系确定模块13，用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

主题词确定模块14，用于根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。

作为可选的，所述一映射关系包括目标文本-词语频率矩阵，第二映射关系包括主题类型-词语频率矩阵，所述第三映射关系为目标文本-主题类型矩阵，所述主题词确定模块14具体用于：

将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引，基于所述主题类型索引以及所述主题类型-词语频率矩阵，确定所述至少一个主题词。

请参见图7，为本申请一个示例性实施例提供的文本主题词确定装置的结构示意图。本申请实施例提供的文本主题词确定装置1还包括：

第二样本文本生成模块15，用于对至少一条第一样本文本进行文本合并处理，生成至少一条第二样本文本，所述第一样本文本的文本长度均小于预设阈值，所述第二样本文本的文本长度均大于等于所述预设阈值；

主题先验信息获取模块16，用于基于所述至少一条第二样本文本的主题类型、主题词，获取主题先验信息；

主题类型-词语频率矩阵获取模块17，用于基于所述至少一条第二样本文本以及所述主题先验信息，对文本主题挖掘模型进行训练，获取主题类型-词语频率矩阵。

作为可选的，所述主题先验信息获取模块16具体用于：

所述主题先验信息包括：所述至少一条第二样本文本隶属于不同主题类型的概率分布。

请参见图8，为本申请一个示例性实施例提供的文本主题词确定装置的结构示意图。本申请实施例提供的文本主题词确定装置1还包括：

词语集合生成模块18，用于根据所述至少一条第一样本文本中的词汇生成词语集合；

目标文本-词语频率矩阵构建模块19，用于基于所述至少一条第一样本文本中词语出现的频率统计结果，构建目标文本-词语频率矩阵；

所述主题类型-词语频率矩阵获取模块17具体用于：

采用所述至少一条第二样本文本以及所述主题先验信息，对文本主题词挖掘模型进行训练，当训练过程中生成的样本文本-词语频率矩阵与所述目标文本-词语频率矩阵一致时，模型训练完成；获取训过程中生成的样本主题类型-词语频率矩阵；

需要说明的是，上述实施例提供的文本主题词确定装置在执行文本主题词确定方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本主题词确定装置与文本主题词确定方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

本申请实施例还提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一实施例方法的步骤。

请参见图9，为本申请实施例提供的一种终端结构框图。

如图9所示，终端600包括有：处理器601和存储器602。

本申请实施例中，处理器601为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在本申请的一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请实施例中的方法。

一些实施例中，终端600还包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：显示屏604、摄像头605和音频电路606中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在本申请的一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在本申请的一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现。本申请实施例对此不作具体限定。

显示屏604用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏604是触摸显示屏时，显示屏604还具有采集在显示屏604的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏604还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在本申请的一些实施例中，显示屏604可以为一个，设置终端600的前面板；在本申请的另一些实施例中，显示屏604可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在本申请的再一些实施例中，显示屏604可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏604还可以设置成非矩形的不规则图形，也即异形屏。显示屏604可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头605用于采集图像或视频。可选地，摄像头605包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在本申请的一些实施例中，摄像头605还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路606可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。

电源607用于为终端600中的各个组件进行供电。电源607可以是交流电、直流电、一次性电池或可充电电池。当电源607包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本申请实施例中示出的终端结构框图并不构成对终端600的限定，终端600可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本申请中，术语“第一”、“第二”等仅用于描述的目的，而不能理解为指示或暗示相对重要性或顺序；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

本申请的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本申请的限制。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种文本主题词确定方法，其特征在于，所述方法包括：

对至少一个输入文本进行预处理，得到至少一个目标文本；

根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。
根据权利要求1所述的方法，其特征在于，所述第一映射关系包括目标文本-词语频率矩阵，第二映射关系包括主题类型-词语频率矩阵。
根据权利要求1所述的方法，其特征在于，所述第三映射关系为目标文本-主题类型矩阵；以及

所述根据所述第三映射关系确定所述至少一个目标文本对应的主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词，包括：

将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引，基于所述主题类型索引以及所述主题类型-词语频率矩阵，确定所述至少一个主题词。
根据权利要求2所述的方法，其特征在于，所述主题类型-词语频率矩阵训练过程，包括：

对至少一条第一样本文本进行文本合并处理，生成至少一条第二样本文本，所述第一样本文本的文本长度均小于预设阈值，所述第二样本文本的文本长度均大于等于所述预设阈值；

基于所述至少一条第二样本文本的主题类型、主题词，获取主题先验信息；

基于所述至少一条第二样本文本以及所述主题先验信息，对文本主题挖掘模型进行训练，获取主题类型-词语频率矩阵。
根据权利要求4所述的方法，其特征在于，所述主题先验信息包括：所述至少一条第二样本文本隶属于不同主题类型的概率分布。
根据权利要求4所述的方法，其特征在于，所述主题类型-词语频率矩阵训练过程，还包括：

根据所述至少一条第一样本文本中的词汇生成词语集合；

基于所述至少一条第一样本文本中词语出现的频率统计结果，构建目标文本-词语频率矩阵；

采用所述至少一条第二样本文本以及所述主题先验信息，对文本主题词挖掘模型进行训练，当训练过程中生成的样本文本-词语频率矩阵与所述目标文本-词语频率矩阵一致时，模型训练完成；

获取训过程中生成的样本主题类型-词语频率矩阵。
一种文本主题词确定装置，其特征在于，所述装置包括：

目标文本获取模块，用于对至少一个输入文本进行预处理，得到至少一个目标文本；

第一映射关系构建模块，用于根据预先训练得到的词语集合，构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系；

第三映射关系确定模块，用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系，确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系；

主题词确定模块，用于根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型，进而基于所述第二映射关系，确定所述至少一个目标文本对应的至少一个主题词。
根据权利要求7所述的装置，其特征在于，所述一映射关系包括目标文本-词语频率矩阵，第二映射关系包括主题类型-词语频率矩阵，所述第三映射关系为目标文本-主题类型矩阵，所述主题词确定模块具体用于：

将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引，基于所述主题类型索引以及所述主题类型-词语频率矩阵，确定所述至少一个主题词。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～6任意一项的方法步骤。
一种终端，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～6任意一项的方法步骤。