WO2022062523A1

WO2022062523A1 - 一种基于人工智能的文本挖掘方法、相关装置及设备

Info

Publication number: WO2022062523A1
Application number: PCT/CN2021/102745
Authority: WO
Inventors: 蒋杰; 杜广雷; 石志林; 张长旺; 张纪红
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-09-22
Filing date: 2021-06-28
Publication date: 2022-03-31
Also published as: US20230111582A1; CN111931501A; CN111931501B

Abstract

本申请公开了一种基于人工智能的文本挖掘方法，该方法可涉及大数据领域，本申请包括：获取领域候选词所对应的领域候选词特征；根据领域候选词特征，获取领域候选词所对应的词质量分值；根据领域候选词所对应的词质量分值确定新词；根据新词获取关联文本；若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。本申请可以基于机器学习算法自动从领域候选词中筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

Description

一种基于人工智能的文本挖掘方法、相关装置及设备

本申请要求于2020年09月22日提交中国专利局、申请号为202011001027.4、申请名称为“一种基于人工智能的文本挖掘方法、相关装置及设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理领域以及大数据处理领域，尤其涉及文本挖掘。

背景技术

在自然语言处理(Nature Language processing，NLP)研究领域中，词语一直是重要的研究对象。在中文环境下，词语之间并无明显的分割字符，主要借助已有词库和统计规则进行分词。随着社会和社交网络的发展，人们使用语言文字的习惯也发生着变化，这使得新词层出不穷。为此，新词发现成为NLP处理中一项重要的任务。

目前，可基于统计方法发现新词，该方法首先需要获取候选词，然后根据候选词统计特征值得出成词概率，在实践中，通常结合凝固度和自由度作为候选词的统计特征，即选择凝固度和自由度超过一定特征阀值的候选词作为新词。

发明内容

本申请实施例提供了一种基于人工智能的文本挖掘方法、相关装置及设备，可以采用机器学习算法通过领域候选词筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

有鉴于此，本申请一方面提供一种基于人工智能的文本挖掘方法，包括：

获取领域候选词所对应的领域候选词特征；

根据领域候选词特征，获取领域候选词所对应的词质量分值；

根据领域候选词所对应的词质量分值确定新词；

根据新词获取关联文本；

若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。

本申请另一方面提供一种文本挖掘装置，包括：

获取模块，用于获取领域候选词所对应的领域候选词特征；

获取模块，还用于根据领域候选词特征，获取领域候选词所对应的词质量分值；

确定模块，用于根据领域候选词所对应的词质量分值确定新词；

获取模块，还用于根据新词获取关联文本；

确定模块，还用于若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序用于执行上述方面的方法。

本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所提供的方法。

本申请的又一方面，提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述方面所提供的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种基于人工智能的文本挖掘方法，首先获取领域候选词所对应的领域候选词特征，然后根据领域候选词特征，获取领域候选词所对应的词质量分值，再根据领域候选词所对应的词质量分值确定新词，根据新词获取关联文本。如果根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。通过上述方式，可以基于机器学习算法通过领域候选词筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

附图说明

图1为本申请实施例中文本挖掘系统的一个架构示意图；

图2为本申请实施例中基于大数据生成领域语料库的一个示意图；

图3为本申请实施例中基于人工智能的文本挖掘方法一个实施例示意图；

图4为本申请实施例中基于决策树生成子分值的一个结构示意图；

图5为本申请实施例中基于随机森林模型生成词质量分值的一个示意图；

图6为本申请实施例中通过搜索引擎展示搜索反馈结果的一个界面示意图；

图7为本申请实施例中人工录入领域种子词的一个界面示意图；

图8为本申请实施例中挖掘领域新词的一个流程示意图；

图9为本申请实施例中随机森林模型的一个训练框架示意图；

图10为本申请实施例中训练文本分值预估模型的一个流程示意图；

图11为本申请实施例中文本挖掘方法的一个整体流程示意图；

图12为本申请实施例中文本挖掘装置的一个实施例示意图；

图13为本申请实施例中服务器的一个结构示意图；

图14为本申请实施例中终端设备的一个结构示意图。

具体实施方式

随着微博等各种形式的社交网络媒体或平台的兴起，每天的热门事件更加聚焦，同时文本内容中包括的文字也逐渐趋于口语化，由此，产生了大量的以前从未出现的新词，新词有些是全新的文字组合，有些是旧的词语有了新的含义，因此，新词的发现成为NLP中一项重要的任务。如何及时准确发现这些新词，对于追踪实时热点、改进分词及索引效果等都具有重要意义。基于此，本申请提供了一种基于人工智能的文本挖掘方法，用于发掘新词，且能够进一步发掘领域新词。

应理解，本申请提供了的文本挖掘方法应用于人工智能(Artificial Intelligence，AI)领域，具体涉及自然语言处理技术以及机器学习(Machine Learning，ML)。

为了实现新词以及领域新词的挖掘，本申请提出了一种基于人工智能的文本挖掘方法，该方法应用于图1所示的文本挖掘系统，如图所示，文本挖掘系统包括服务器和终端设备，客户端部署于终端设备上，文本挖掘平台部署于作为文本挖掘设备的服务器上。

需要说明的是，本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。

进一步地，请参阅图2，图2为本申请实施例中基于大数据生成领域语料库的一个示意图，如图所示，文本挖掘平台接入数据平台中的数据，由此获取文件，其中，该文件可以是用户通过浏览器访问过的网络文件，或者通过网页爬虫技术不间断地从各个网站抓取到的网络文件。再将收集到的文件按照收集时间进行排序，并对每个文件的内容进行解析，提取符合条件的文本加入领域语料库。还可以对领域语料库中的文本进行分词处理，领域候选词提取处理以及情感分析处理等，进而实现新词发现、内容匹配以及词库匹配等操作，发现的新词可加入至词库中，词库包括但不仅限于行业词库、情感词库以及垃圾词库。基于新词发现的结果还可以进行主题统计、热词统计、情感分析以及内容分类等，最终实现数据的应用。

其中，数据平台可提供大数据(big data)，大数据属于云技术(cloud technology)中的一个分支，其中，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在介绍本申请提供的基于人工智能的文本挖掘方法之前，先简单介绍一下本申请涉及到的一些技术以及相关术语：

1、领域新词：主要应用于某个领域中的专有词语或常用词语，例如，“王者荣耀”以及“吃鸡”等均属于游戏类领域的新词。又例如，某个公司发布一款新的游戏，名为“救地鼠”，这个新的游戏以前是没有的，那么“救地鼠”就是一个领域新词。

2、领域种子词：主要是指在领域文本经常出现的，在一定程度上能够代表领域含义的词语。比如，对于手机游戏类领域中涉及的文本内容，领域种子词可以是“手机”、“游戏”、“手游”、“游戏应用”等。

3、分词：就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类：基于字符串匹配的分词方法，基于理解的分词方法以及基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。

4、远程监督学习：在本申请中，是指使用通用领域或某一领域的词库指导其它领域的新词挖掘和发现。

5、语言模型(N-Gram)：是一种基于统计语言模型的算法，它的基本思想是将文本里面的内容按照单字单词进行大小为N的滑动窗口操作，形成长度是N的字符序列。在本申请中，可以使用N-Gram算法生成领域候选词。

6、随机森林：是一种由决策树构成的集成学习算法，每个决策树独立的对事件进行预测，而最终结果由所有预测结果加权确定。

7、正样本池：由领域候选词正样本组成的。在模型训练时，训练数据从该正样本池中抽取领域候选词正样本。

8、负样本池：由大量领域候选词负样本和很少的可能的领域候选词正样本所组成的。在模型训练时，训练数据从该负样本池中抽取领域候选词负样本。

9、凝固度：表示一个领域候选词内部组成字符之间的紧密程度，一般使用字符固定搭配的后验概率进行度量。例如，“怕”和“上火”同时使用的程度，如果“怕”只和“上火”搭配使用，则两者的凝固度高，即表示一个词。计算凝固度需要先计算P(“怕上火”)、P(“怕”)和P(“上火”)的概率，这个概率是在领域候选词中的出现概率。凝固度(“怕” 和“上火”)＝P(“怕上火”)/(P(“怕”)*P(“上火”)。如果只有“怕上火”这一种组合，则P(“怕上火”)、P(“怕”)和P(“上火”)的概率应该一样的，即凝固度等于1。如果除了“怕上火”，还有“怕蟑螂”等，那凝固度就会变小。

10、自由度：表示一个领域候选词能够独立自由运用的程度，一般使用词语左右信息熵度量自由度。例如，“巧克力”里面的“巧克”的凝固度就很高，和“巧克力”的凝固度一样高，但是它自由运用的程度几乎为零，所以“巧克”不能单独成词。

11、词频(term frequency，TF)：某个给定领域候选词在文本中出现的频率，即领域候选词在文本中出现的总次数与文本包含的总领域候选词的比值。

12、逆文档频率(inverse document frequency，IDF)：表示某个给定领域候选词重要性的度量，即首先算出总语句的条目数与包含该领域候选词的语句条目数的比值，再将得到比值求以10为底的对数即可得到逆文档频率。

13、词频-逆文档频率(term frequency–inverse document frequency，TFIDF)值：一种用于信息检索与数据挖掘的常用加权技术，取值为词频(TF)与逆文档频率(IDF)的乘积。TFIDF值可用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。

14、左侧信息熵：用于衡量领域候选词左侧搭配的丰富程度。使用公式计算，其中，x是领域候选词左侧所有可能搭配的(即随机变量)。左侧可能搭配的就是在分析的内容里面，领域候选词紧邻左侧出现过的所有单词。例如，“你好，小白兔”，“哈哈，你好，小白兔”，“在干什么，小白兔”，“小白兔”左侧所有可能搭配是“你好”以及“在干什么”。信息熵的计算公式如下：

其中，H(x)表示随机变量x的信息熵，p(x _i)表示第i个随机事件的概率，n表示随机事件的总数。

15、右侧信息熵：用于衡量领域候选词右侧搭配的丰富程度。使用公式计算，其中，x是领域候选词右侧所有可能搭配的(即随机变量)。右侧可能搭配的就是在分析的内容里面，领域候选词紧邻右侧出现过的所有单词。

结合上述介绍，下面将对本申请中基于人工智能的文本挖掘方法进行介绍，请参阅图3，本实施例可以通过文本挖掘设备执行，本申请实施例中人工智能的文本挖掘方法的一个实施例包括：

101、获取领域候选词所对应的领域候选词特征；

本实施例中，文本挖掘设备首先从领域语料库中获取大量的语句(例如，十万条语句)，然后对每条语句进行分词后即可得到领域候选词，这里的领域候选词是指一个或多个领域候选词，例如，包括P个领域候选词(P为大于或等于1的整数)。领域候选词之间不重复，且每个领域候选词可提取一个对应的领域候选词特征。

需要说明的是，文本挖掘设备可以为服务器，也可以为终端设备，本申请不做限定。且可以理解的是，本申请中涉及的领域候选词可以为一个词语，也可以为包括至少两个词语的集合。

102、根据领域候选词特征，获取领域候选词所对应的词质量分值；

本实施例中，文本挖掘设备将领域候选词特征作为文本分值预估模型的输入，由文本分值预估模型输出领域候选词特征所对应的词质量分值，即词质量分值与领域候选词也具有对应关系。其中，词质量分值越高，表示该领域候选词属于高质量词语的可能性越大，高质量词语表示该词语具有合理的语义，例如，“巧克力”即为一个高质量词语，而“克力”没有完整且合理的语义，故不属于高质量词语。

103、根据领域候选词所对应的词质量分值，从领域候选词中确定新词；

本实施例中，文本挖掘设备可根据领域候选词所对应的词质量分值，从领域候选词中筛选出新词。这里的新词是指一个或多个新词，例如，包括Q个新词(Q为大于或等于1的整数)。例如，领域候选词“打王者”的词质量分值达到质量分阈值，即可将领域候选词“打王者”作为新词。此外，为了保证新词具有一定的普及型，还需要判断领域候选词的出现频率是否足够高，如果领域候选词的出现频率是达到阈值，则认为该领域候选词已经达到了一定的普及型，因此，可确定该领域候选词属于新词。反之，如果领域候选词的出现频率是未到达阈值，则表示该领域候选词可能并非通用的词语，即确定该领域候选词不属于新词。

104、根据新词获取关联文本；

本实施例中，文本挖掘设备根据新词，从搜索引擎中爬取相关的关联文本。需要说明的是，关联文本可以理解为是一组文本，或者为包括至少两组文本的集合，每个新词可爬取一个关联文本。关联文本可体现为文档的形式，每个关联文本中记录了多条语句。

105、若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。

本实施例中，文本挖掘设备还需要从领域种子词库中获取领域种子词，然后计算该领域种子词在关联文本中的出现概率，如果出现概率达到阈值，则表示满足领域新词挖掘条件，于是可以将该领域种子词标记为领域新词，反之，如果出现概率未达到阈值，则表示不满足领域新词挖掘条件，即认为该领域种子词不属于领域新词。

基于此，假设领域种子词库中有5000个领域种子词，可分别计算这5000个领域种子词在关联文本中的出现概率，进而判断每个领域种子词是否满足领域新词挖掘条件，如果满足领域新词挖掘条件，即可将该领域种子词确定为领域新词。

本申请提供的文本挖掘方法可应用于社交网络群组名称短文本上的新词发现，测试排列在前100的新词准确率达到92.7％，领域新词的准确率达到82.4％。测试整体新词的准确率达到84.5％，领域新词准确率达到67.2％。由此可见，本申请提供的基于人工智能的文本挖掘方法，能够更好地挖掘出领域新词。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的一个可选实施例中，在获取领域候选词所对应的领域候选词特征之前，具体还包括如下步骤：

从领域语料库中获取语句；

对语句中的每个语句进行分词处理，得到文本序列；

根据文本序列获取领域候选词。

本实施例中，介绍了一种确定领域候选词的方法，文本挖掘设备从领域语料库中获取语句，这里的语句是指一条或多条语句，例如，包括M条语句(M为大于或等于1的整数)。其中，语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过分析和处理，才能成为有用的资源。而领域语料库是针对某个领域的语料库，例如，游戏类领域的语料库，或者，医疗类领域的语料库等，本申请不对领域语料库的类型进行限定。

文本挖掘设备对来源于领域语料库的语句分别进行分词处理，得到对应的文本序列。对于中文分词而言，可以采用基于词典分词算法或者基于机器学习算法来实现，基于词典的分词算法包括正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于机器学习算法包括条件随机场(conditional random field，CRF)、隐马尔可夫模型(Hidden Markov Model，HMM)以及支持向量机(Support Vector Machine，SVM)等。

示例性地，以语句“北京福娃是奥运会吉祥物”为例，对该语句分词后得到文本序列为“北京/福娃/是/奥运会/吉祥物”，其中，“/”表示词语之间的分隔符。基于此，可以从文本序列中提取至少一个领域候选词，以文本序列“北京/福娃/是/奥运会/吉祥物”为例，至少可以提取到领域候选词，即为“北京”、“福娃”、“是”、“奥运会”和“吉祥物”。需要说明的是，还可以采用N-Gram算法从文本序列中提取领域候选词，或者采用有监督算法从文本序列中提取领域候选词，或者采用半监督算法从文本序列中提取领域候选词，又或者采用无监督算法从文本序列中提取领域候选词等，此处不做限定。

基于此，可以统计领域候选词在语句中的词频、TFIDF值、凝固度、自由度、左侧信息熵、右侧信息熵、词长、互信息、位置信息以及词跨度等指标，将其中一个或多个指标作为领域候选词所对应的领域候选词特征。

其次，本申请实施例中，提供了一种提取领域候选词特征的方法，通过上述方式，从领域语料库中获取语句，然后对语句进行分词处理，这些分词后的文本序列作为领域候选词的来源，由此获取相关的领域候选词，再进一步提取每个领域候选词所对应的领域候选词特征，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据文本序列获取领域候选词，具体包括如下步骤：

根据词数采样阈值以及字符数采样阈值，获取文本序列所对应的领域候选词，其中，词数采样阈值表示所述领域候选词中词语数量的上限值，字符数采样阈值表示所述领域候选词中字符数量的上限值。

本实施例中，介绍了一种基于N-Gram算法获取领域候选词的方法，使用N-Gram算法在文本序列上进行采样，从而得到领域候选词。N-Gram算法涉及到两个超参数，分别为词数采样阈值(N)以及字符数采样阈值(maxLen)，其中，词数采样阈值用于控制最多可以选择几个词语进行组合，即表示领域候选词的词语数量上限值。字符数采样阈值用于控制领域候选词的最大长度，即领域候选词中字符数量的上限值。例如，词数采样阈值N＝3，字符数采样阈值maxLen＝10，即表示领域候选词最大字符长度限制在10个以内，且由1个词语、2个连续词语或3个连续词语组成。

具体地，以文本序列“北京/福娃/是/奥运会/吉祥物”为例，假设词数采样阈值N＝3，字符数采样阈值maxLen＝6，由此得到如下领域候选词：

{北京}，{福娃}，{是}，{奥运会}，{吉祥物}，{北京福娃}，{福娃是}，{是奥运会}，{奥运会吉祥物}，{北京福娃是}，{福娃是奥运会}。

再次，本申请实施例中，提供了一种基于N-Gram算法获取领域候选词的方法，通过上述方式，既可以利用N-Gram算法来评估一个语句是否合理，又可以用于评估两个字符串之间的差异程度，N-gram算法包含了前若干个词语所能提供的全部信息，这些词语对于当前词语的出现具有很强的约束力，有利于提取更准确且更丰富的领域候选词。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据领域候选词获取领域候选词特征，具体包括如下步骤：

根据文本序列获取领域候选词所对应的领域候选词特征，其中，领域候选词特征包括词频、词频逆文档频率TFIDF值、自由度、凝固度、左侧信息熵以及右侧信息熵中的至少一项。

本实施例中，介绍了一种提取领域候选词特征的方法，针对领域候选词中的每个领域候选词，均可以提取该领域候选词对应的词频、TFIDF值、自由度、凝固度、左侧信息熵以及右侧信息熵等。下面将以领域候选词“福娃”为例，介绍获取领域候选词特征的方式。

一、词频的计算方式；

领域候选词“福娃”的词频表示该领域候选词在语句(或文本序列)中出现的概率，通常情况下，如果一个词语在文本中出现的越是频繁，那么这个词语就越有可能是核心词。假设领域候选词“福娃”在语句(或文本序列)中出现了m次，且语句(或文本序列)中的总词语数为n，即领域候选词“福娃”的词频计算方式为：

其中，w表示领域候选词“福娃”，TF _w表示领域候选词“福娃”的词频，m表示领域候选词“福娃”在语句(或文本序列)中出现的次数，n表示语句(或文本序列)中的总词语数。

二、TFIDF值的计算方式；

领域候选词“福娃”的TFIDF值由两部分计算得到，分别为词频以及逆文档频率。领域候选词“福娃”的逆文档频率表示该领域候选词在领域语料库中出现的频率，假设领域语料库中包括领域候选词“福娃”的语句有X个，而领域语料库中的语句总数为Y，则领域候选词“福娃”的逆文档频率计算方式为：

其中，w表示领域候选词“福娃”，IDF _w表示领域候选词“福娃”的逆文档频率，X表示领域语料库中包括领域候选词“福娃”的语句数量，Y表示领域语料库中包括领域候选词“福娃”的语句总数。

由此，得到领域候选词“福娃”的TFIDF值计算方式为：

TFIDF _w＝TF _w×IDF _w；

其中，w表示领域候选词“福娃”，TF _w表示领域候选词“福娃”的词频，IDF _w表示领域候选词“福娃”的逆文档频率。

三、自由度的计算方式；

领域候选词“福娃”可以用熵来衡量自由度，假设领域候选词“福娃”一共出现了m次，“福娃”的左边共出现过d个汉字，每个汉字依次出现d1,d2,…,dm次，即满足m＝d1+d2+…+dm，因此，可以计算领域候选词“福娃”左边各个汉字出现的概率，并根据熵公式计算左侧信息熵。类似地，可以计算领域候选词“福娃”右边各个汉字出现的概率，并根据熵公式计算右侧信息熵，将一个词语左邻熵和右邻熵中较小者作为最终的自由度，熵越小则自由度越低。

四、凝固度的计算方式；

计算领域候选词“福娃”的凝固度，首先需要计算“福”字的概率，“娃”字的概率和“福娃”字的概率，即得到P(“福”)、P(“娃”)和P(“福娃”)。这里的概率是在领域候选词中的出现概率，得到领域候选词“福娃”的凝固度计算方式为，凝固度(“福”和“娃”)＝P(“福”))/(P(“福”))*P(“娃”)。

五、左侧信息熵和右侧信息熵的计算方式；

领域候选词“福娃”的左侧信息熵或右侧信息熵的计算方式为：

其中，H(w)表示领域候选词“福娃”的信息熵，p(w _i)表示第i个领域候选词“福娃”的概率，C表示随机事件的总数。

再次，本申请实施例中，提供了一种提取领域候选词特征的方法，通过上述方式，可以对领域候选词进行特征量化，从词语权重，词语在文档中的位置以及词语的关联信息等维度，提取领域候选词的相关特征，由此构成领域候选词特征，该领域候选词特征能够很好地表达领域候选词的特点，有助于得到更准确的领域候选词评价结果。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据领域候选词特征，获取领域候选词所对应的词质量分值，具体包括如下步骤：

基于领域候选词特征，通过随机森林模型所包括的决策树，获取领域候选词特征所对应的子分值；

根据领域候选词特征所对应的子分值，获取领域候选词所对应的词质量分值。

本实施例中，介绍了一种利用随机森林模型输出词质量分值的方法。文本分值预估模型可以为决策树模型、梯度提升决策树(Gradient Boosting Decision Tree，GBDT)、梯度提升(XGBoost)算法或者随机森林(Random Forest，RF)模型等，本申请以文本分值预估模型为随机森林模型作为示例进行说明。

具体地，随机森林模型由T个决策树组成，每个决策树之间是没有关联的，在得到随机森林模型之后，当领域候选词对应的领域候选词特征输入时，由随机森林模型中的每个决策树进行判断，即判断该领域候选词是否属于高质量词，如果领域候选词属于高质量词，则该决策树为领域候选词记为“得分”，如果领域候选词不属于高质量词，则该决策树为领域候选词记为“不得分”。为了便于理解，请参阅图4，图4为本申请实施例中基于决策树生成子分值的一个结构示意图，如图所示，假设将领域候选词“福娃”对应的领域候选词特征输入至其中一个决策树，该决策树先基于领域候选词特征所包括的词频，判断下一个分支，假设领域候选词特征所包括的词频为0.2，则继续判断领域候选词特征所包括的TFIDF值是否大于0.5。假设领域候选词特征所包括的TFIDF值为0.8，则继续判断领域候选词特征所包括的右侧信息熵是否大于0.8。假设领域候选词特征所包括的右侧信息熵为0.9，则确定领域候选词“福娃”得1分，即该决策树输出的子分值为1。

构建大量的决策树组成随机森林模型能够防止过拟合；虽然单个决策树可能存在过拟合，但通过广度的增加就会消除过拟合现象。随机森林模型包括的T个决策树，采用投票选举的原则计算词质量分值。请参阅图5，图5为本申请实施例中基于随机森林模型生成词质量分值的一个示意图，如图所示，以T等于100为例，可以得到100个子分值，即词质量分值的满分为100。基于此，假设将领域候选词“福娃”对应的领域候选词特征输入至决策树1，由决策树1输出子分值为“1”，将领域候选词“福娃”对应的领域候选词特征输入至决策树2，由决策树2输出子分值为“0”，以此类推，如果100个子分值中有80个子分值为“1”，剩下20个子分值为“0”，那么最终得到的词质量分值即为“80”。

可以理解的是，还可以对不同的决策树赋予不同的权重值，例如，决策树1至决策树10的权重值为1，决策树11至决策树100的权重值为0.5，不同的权重值与对应的子分值相乘后进行累加，得到最终的词质量分值。

其次，本申请实施例中，提供了一种利用随机森林模型输出词质量分值的方法，通过上述方式，采用随机森林模型预测得到的词质量分值具有较高的准确率，而且通过多个决策树能够有效地评估领域候选词特征在分类问题上的重要性。此外，对于领域候选词特征不需要进行降维，也无需进行特征选择，使得获取词质量分值的效率更高。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据领域候选词所对应的词质量分值确定新词，具体包括如下步骤：

若领域候选词所对应的词质量分值大于或等于质量分阈值，则确定领域候选词属于新词；

若领域候选词所对应的词质量分值小于质量分阈值，则确定领域候选词不属于新词。

本实施例中，介绍了一种基于词质量分值判断新词的方法。为了便于说明，在本实施例中，以一个领域候选词为例进行介绍，其他领域候选词也采用类似方式得到判断是否属于新词，此处不做赘述。

具体地，以质量分阈值等于60为例。第一种情况为，假设领域候选词的词质量分值为80，即该领域候选词所对应的词质量分值80大于质量分阈值60，由此，可以将领域候选词作为新词中所包括的领域候选词。第二种情况为，假设领域候选词的词质量分值为50，即该领域候选词所对应的词质量分值50小于质量分阈值60，于是可以确定该领域候选词不属于新词。

其次，本申请实施例中，提供了一种基于词质量分值判断新词的方法，通过上述方式，将词质量分值较高的领域候选词作为新词，这样能够在一定程度上保证新词具有较高的质量，可作为领域新词的待选项，从而提升新所选新词的可靠性和准确性。

获取领域候选词所对应的词频；

若领域候选词所对应的词质量分值大于或等于质量分阈值，且，领域候选词所对应的词频大于或等于第一词频阈值，则确定领域候选词属于新词；

若领域候选词所对应的词质量分值小于质量分阈值，或，领域候选词所对应的词频小于第一词频阈值，则确定领域候选词不属于新词。

本实施例中，介绍了一种基于词质量分值和词频共同判断新词的方法。为了便于说明，在本实施例中，以一个领域候选词为例进行介绍，其他领域候选词也采用类似方式得到判断是否属于新词，此处不做赘述。

具体地，以质量分阈值等于60，第一词频阈值等于0.2为例。第一种情况为，假设领域候选词的词质量分值为80，领域候选词所对应的词频为0.5，即该领域候选词所对应的词质量分值80大于质量分阈值60，且领域候选词所对应的词频0.5大于或等于第一词频阈值0.2，由此，可以将领域候选词作为新词中所包括的领域候选词。第二种情况为，假设领域候选词的词质量分值为50，领域候选词所对应的词频为0.5，即该领域候选词所对应的词质量分值50小于质量分阈值60，且领域候选词所对应的词频0.5大于第一词频阈值0.2，于是可以确定该领域候选词不属于新词。第三种情况为，假设领域候选词的词质量分值为80，领域候选词所对应的词频为0.1，即该领域候选词所对应的词质量分值80大于质量分阈值60，且领域候选词所对应的词频0.1小于第一词频阈值0.2，于是可以确定该领域候选词不属于新词。第四种情况为，假设领域候选词的词质量分值为50，领域候选词所对应的词频为0.1，即该领域候选词所对应的词质量分值50小于质量分阈值60，且领域候选词所对应的词频0.1小于第一词频阈值0.2，于是可以确定该领域候选词不属于新词。

其次，本申请实施例中，提供了一种基于词质量分值和词频共同判断新词的方法，通过上述方式，将词质量分值较高的领域候选词作为新词，这样能够在一定程度上保证新词具有较高的质量，可作为领域新词的待选项，从而提升新所选新词的可靠性和准确性。与此同时，还考虑到该领域候选词的词频，选择词频较高的词语作为新词，能够一定程度上保证新词具有较高的传播率，更符合新词的定义。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据新词获取关联文本，具体包括如下步骤：

通过搜索引擎获取新词所对应的搜索反馈结果，其中，搜索反馈结果包括至少一条搜索结果；

根据新词对应的搜索反馈结果，从至少一条搜索结果中将相关度最高的前R条搜索结果确定为新词所对应的关联文本，其中，R为大于或等于1的整数。

本实施例中，介绍了一种获取关联文本的方法。在获取到新词后，需要对新词进行搜索，为了便于说明，在本实施例中，以一个新词为例进行介绍，其他新词也采用类似方式得到关联文本，此处不做赘述。

具体地，以新词“打王者”为例进行介绍，将该领域候选词输入至搜索引擎之后可得到搜索反馈结果，搜索反馈结果包括至少一条搜索结果。为了便于理解，请参阅图6，图6为本申请实施例中通过搜索引擎展示搜索反馈结果的一个界面示意图，如图所示，输入领域候选词“打王者”之后得到搜索反馈结果，搜索反馈结果包括10条搜索结果，将10条搜索结果按照相关度从高到低排序后得到如表1所示的结果。

表1

相关度	搜索反馈结果
第一	打王者用什么手机好
第二	打王者卡顿怎么办
第三	打王者费流量吗
第四	打王者听什么歌有节奏
第五	打王者能赚钱的软件
第六	打王者手出汗影响操作该怎么办
第七	打王者荣耀
第八	打王者为什么网络特别卡
第九	打王者表情包
第十	打王者时最佳的游戏配置模式

由表1可知，可基于搜索反馈结果，将相关度最高的前R条搜索结果作为领域候选词“上王者”的关联文本，假设R等于5，那么关联文本包括5条搜索结果，分别为“打王者用什么手机好”，“打王者卡顿怎么办”，“打王者费流量吗”，“打王者听什么歌有节奏”和“打王者能赚钱的软件”。

其次，本申请实施例中，提供了一种获取关联文本的方法，通过上述方式，以搜索引擎的搜索反馈结果作为评价新词使用频率的一个标准，能够更贴近新词使用的实际情况，有利于找出与新词相关领域的关联文本。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，根据新词获取关联文本之后，还包括如下步骤：

获取领域种子词；

根据关联文本，确定领域种子词的平均词频；

若平均词频大于或等于第二词频阈值，则确定领域种子词满足领域新词挖掘条件。

本实施例中，介绍了一种基于平均词频判定领域种子词是否满足领域新词挖掘条件的方法。首先需要获取领域种子词，再基于关联文本判断该领域种子词是否属于领域新词，其中，领域种子词通常为人工录入的词语，为了便于理解，请参阅图7，图7为本申请实施例中人工录入领域种子词的一个界面示意图，如图所示，用户可以通过人工录入领域种子词的界面输入新的领域种子词或者删去已有的领域种子词，每个领域种子词对应于一个词语标识，且每个领域种子词需要标注其对应的领域，例如，在“手机游戏”领域中可以包括领域种子词“打王者”、“吃鸡”和“上分”，如果还需要添加新的领域种子词，即点击“+”，并输入相关信息即可。

具体地，以领域种子词为“吃鸡”为例，基于关联文本计算领域种子词“吃鸡”的待处理词频，为了便于理解，请参阅表2，表2为领域种子词在关联文本中待处理词频的一个示意。这里的关联文本是指一个或多个关联文本，例如，包括Q个关联文本(Q为大于或等于1的整数)，即关联文本与新词具有一一对应的关系，每个关联文本标识用于指示一个新词所对应的关联文本。

表2

由表2可知，领域种子词“吃鸡”的平均词频为(0.1+0.5+0.2+0+0.3)/5＝0.2。假设第二词频阈值为0.1，则该领域种子词“吃鸡”的平均词频大于第二词频阈值0.1，由此，可以将该领域种子词“吃鸡”确定为满足领域新词挖掘条件的领域新词。

再次，本申请实施例中，提供了一种基于平均词频判定领域种子词是否满足领域新词挖掘条件的方法，通过上述方式，如果平均词频达到词频阈值，即认为该领域种子词的使用频率较高，由此可以将领域种子词确定为领域新词，从而提升方案的可行性。

获取领域种子词；

根据关联文本，确定领域种子词的最大词频；

若最大词频大于或等于第二词频阈值，则确定领域种子词满足领域新词挖掘条件。

本实施例中，提供了一种基于最大词频判定领域种子词是否满足领域新词挖掘条件的方法。首先需要获取领域种子词，再基于关联文本判断该领域种子词是否属于领域新词，其中，领域种子词通常为人工录入的词语，具体的录入方式可参阅前述实施例，此处不做赘述。

具体地，以领域种子词为“吃鸡”为例，基于关联文本计算领域种子词“吃鸡”的待处理词频，为了便于理解，请参阅表3，表3为领域种子词在关联文本中的待处理词频的另一个示意。这里的关联文本是指一个或多个关联文本，例如，包括Q个关联文本(Q为大于或等于1的整数)，即关联文本与新词具有一一对应的关系，每个关联文本标识用于指示一个新词所对应的关联文本。

表3

由表3可知，领域种子词“吃鸡”的最大词频为0.8，假设第二词频阈值为0.7，则该领域种子词“吃鸡”的平均词频大于第二词频阈值0.7，由此，可以将该领域种子词“吃鸡” 确定为满足领域新词挖掘条件的领域新词。

再次，本申请实施例中，提供了一种基于最大词频判定领域种子词是否满足领域新词挖掘条件的方法，通过上述方式，如果最大词频达到词频阈值，即认为该领域种子词的使用频率较高，由此可以将领域种子词确定为领域新词，从而提升方案的可行性。

基于上述介绍，请参阅图8，图8为本申请实施例中挖掘领域新词的一个流程示意图，如图所示，具体地：

在步骤A1中，从领域语料库中获取语句，其中，该语句可以包括M条语句；

在步骤A2中，对获取到的语句进行分词处理，得到对应的文本序列，其中，该文本序列可以包括M个文本序列；

在步骤A3中，采用N-Gram从文本序列中提取领域候选词；

在步骤A4中，计算领域候选词的领域候选词特征；

在步骤A5中，将该领域候选词特征输入至训练好的随机森林模型进行预测，由随机森林模型输出词质量分值；

在步骤A6中，判断领域候选词的词质量分值是否大于或等于质量分阈值，若词质量分值大于或等于质量分阈值，则执行步骤A7，若词质量分值小于质量分阈值，则执行步骤A8；

在步骤A7中，判断该领域候选词的词频是否大于或等于第一词频阈值，若领域候选词的词频大于或等于第一词频阈值，则执行步骤A9，若领域候选词的词频小于第一词频阈值，则执行步骤A8；

在步骤A8中，确定该领域候选词为无意义的词语；

在步骤A9中，确定该领域候选词为新词；

在步骤A10中，从领域种子词库中获取领域种子词；

在步骤A11中，采用新词搜索关联文本；

在步骤A12中，基于搜索到的关联文本，可以计算得到该领域种子词的平均词频(或最大词频)；

在步骤A13中，判断该领域种子词的平均词频(或最大词频)是否大于或等于第二词频阈值，若领域种子词的平均词频(或最大词频)大于或等于第二词频阈值，则执行步骤A15，若领域候选词的词频小于第二词频阈值，则执行步骤A14；

在步骤A14中，确定该新词不是领域新词；

在步骤A15中，确定该新词为领域新词。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，还包括如下步骤：

获取K组领域候选词样本，其中，每组领域候选词样本包括领域候选词正样本以及领域候选词负样本，领域候选词正样本来源于正样本池，领域候选词负样本来源于负样本池，K为大于或等于1的整数；

根据K组领域候选词样本获取K组领域候选词样本特征，其中，领域候选词样本特征与领域候选词样本具有一一对应的关系，每个领域候选词样本特征包括领域候选词正样本所对应的领域候选词样本特征以及领域候选词负样本所对应的领域候选词样本特征；

基于K组领域候选词样本特征，通过待训练文本分值预估模型获取K组预测结果，其中，预测结果与领域候选词样本特征具有一一对应的关系，每组预测结果中包括领域候选词正样本的预测标签以及领域候选词负样本的预测标签；

根据K组预测结果以及K组领域候选词样本，对待训练文本分值预估模型进行训练，直至满足模型训练条件，输出文本分值预估模型；

根据领域候选词特征，获取领域候选词所对应的词质量分值，具体包括如下步骤：

基于领域候选词特征，通过文本分值预估模型获取领域候选词所对应的词质量分值。本实施例中，介绍了一种训练文本分值预估模型的方法。假设待训练文本分值预估模型为决策树模型，那么K等于1，假设待训练文本分值预估模型为随机森林模型，则K等于T，且K为大于1的整数。

具体地，待训练文本分值预估模型为待训练的随机森林模型为例，以K组领域候选词样本中的每组领域候选词样本用于训练一个决策树。其中，每组领域候选词样本包括领域候选词正样本以及领域候选词负样本，领域候选词正样本的数量可以等于领域候选词负样本的数量。类似地，基于每组领域候选词样本中的每个领域候选词样本，提取其对应的领域候选词样本特征，即可得到K组领域候选词样本特征。每个领域候选词样本特征包括领域候选词正样本所对应的领域候选词样本特征以及领域候选词负样本所对应的领域候选词样本特征。

为了便于理解，请参阅图9，图9为本申请实施例中随机森林模型的一个训练框架示意图，如图所示，以待训练文本分值预估模型为随机森林模型为例，即K等于T，将T组领域候选词样本划分为领域候选词样本1至领域候选词样本T，再分别获取每组领域候选词样本所对应的领域候选词样本特征，即得到领域候选词样本特征1至领域候选词样本特征T。将每组领域候选词样本特征输入至待训练随机森林模型中的决策树，由每个决策树分别进行独立训练，每个决策树输出对应的预测结果。当满足模型训练条件，输出T个决策树，即得到随机森林模型。

需要说明的是，待训练文本分值预估模型可以是待训练的随机森林模型，或者决策树模型，又或者是其他类型的模型。

可以理解的是，当一个决策树的迭代次数达到阈值，或者，损失值收敛，又或者，损失值为0时，均可以认为满足模型训练条件，此处可输出文本分值预估模型。

为了便于理解，请参阅图10，图10为本申请实施例中训练文本分值预估模型的一个流程示意图，如图所示，具体地：

在步骤B1中，从领域语料库中获取语句，其中，该语句可以包括S条语句；

在步骤B2中，对获取到的语句进行分词处理，得到对应的文本序列，其中，该文本序列可以包括S个文本序列；

在步骤B3中，采用N-Gram从文本序列中提取用于模型训练的领域候选词(即得到待训练领域候选词样本)；

在步骤B4中，计算待训练领域候选词样本所对应的领域候选词特征；

在步骤B5中，使用通用词语库对待训练领域候选词样本进行分类；

在步骤B6中，如果待训练领域候选词样本命中通用词语库，就将该待训练领域候选词样本加入至正样本池；

在步骤B7中，如果待训练领域候选词样本未命中通用词语库，就将该待训练领域候选词样本加入至负样本池；

在步骤B8中，将正样本池中存储的领域候选词作为领域候选词正样本，并将负样本池中存储的领域候选词作为领域候选词负样本，使用领域候选词正样本和领域候选词负样本共同训练得到文本分值预估模型，例如，训练得到随机森林模型。

再次，本申请实施例中，提供了一种训练文本分值预估模型的方法，通过上述方式，可以使用已积累的通用词语库和领域语料库构建正负样本，然后训练具有监督机器学习的文本分值预估模型来预测领域候选词的词质量分值，选择的文本分值预估模型能够最大化的利用领域候选词的所有特征，并可以适应并非十分准确的领域候选词正样本和领域候选词负样本，综合考量使用随机森林模型进行学习，可达到上述效果。

可选地，在上述图3对应的各个实施例的基础上，在本申请实施例提供的文本挖掘方法的另一个可选实施例中，获取K组领域候选词样本之前，还包括如下步骤：

从领域语料库中获取语句；

对语句进行分词处理，得到文本序列；

根据文本序列获取待训练领域候选词样本；

若待训练领域候选词样本命中通用词语库，则确定待训练领域候选词样本属于领域候选词正样本，并将待训练领域候选词样本添加至正样本池；

若待训练领域候选词样本未本命中通用词语库，则确定待训练领域候选词样本属于领域候选词负样本，并将待训练领域候选词样本添加至负样本池。

本实施例中，介绍了一种将领域候选词样本添加至正样本池和负样本池的方法。与前述实施例介绍的内容类似，在训练文本分值预估模型的过程中，从领域语料库中获取语句，这里的语句是指一个或多条语句，例如，包括S个条语句(S为大于或等于1的整数)。然后对语句进行分词处理，得到文本序列，再从文本序列中提取领域候选词样本。需要说明的是，训练所使用的语句与预测所使用的语句可能完全相同，也可能部分相同，也可能完全不同，此处不做限定。

为了便于说明，在本实施例中，将以一个领域候选词为例进行介绍，其他领域候选词样本也采用类似方式得到判定加入正样本池，还是加入负样本池，此处不做赘述。

具体地，提取到的领域候选词样本需要与通用词语库进行比对，如果领域候选词样本在通用词语库中出现，则认为该领域候选词样本属于高质量词语，将命中通用词语库的领域候选词样本加入至正样本池，即确定该领域候选词样本属于领域候选词正样本。将未命中通用词语库的领域候选词样本加入至负样本池，即确定该领域候选词样本属于领域候选词负样本。可以预见的是，负样本池中存储的领域候选词负样本数量远大于正样本池中存储的领域候选词正样本数量。

进一步地，本申请实施例中，提供了一种将领域候选词样本添加至正样本池和负样本池的方法，通过上述方式，利用通用词语库能够较为准确地将领域候选词样本划分至正样本池或负样本池，从而便于后续训练，并且有利于提升训练的准确性。此外，基于通用词语库进行匹配，节省了人工划分正负样本的过程，提升训练效率。

为了便于理解，请参阅图11，图11为本申请实施例中文本挖掘方法的一个整体流程示意图，如图所示，具体地：

在步骤C1中，从领域语料库中获取语句，其中，该语句可以包括S条语句；

在步骤C2中，对获取到的语句进行分词处理，得到对应的文本序列，其中，该文本序列可以包括S个文本序列；

在步骤C3中，采用N-Gram从文本序列中提取用于模型训练的领域候选词(即得到待训练领域候选词样本)；

在步骤C4中，计算待训练领域候选词样本所对应的领域候选词特征；

在步骤C5中，使用通用词语库对待训练领域候选词样本进行分类；

在步骤C6中，如果用于训练的领域候选词命中通用词语库，就将该待训练领域候选词样本加入至正样本池；

在步骤C7中，如果待训练领域候选词样本未命中通用词语库，就将该待训练领域候选词样本加入至负样本池；

在步骤C8中，将正样本池中存储的领域候选词作为领域候选词正样本，并将负样本池中存储的领域候选词作为领域候选词负样本，使用领域候选词正样本和领域候选词负样本共同训练得到文本分值预估模型，例如，训练得到随机森林模型；

在步骤C9中，采用N-Gram从文本序列中提取领域候选词；

在步骤C10中，计算该领域候选词的领域候选词特征，再将该领域候选词特征输入至训练好的文本分值预估模型(如随机森林模型)进行预测，由文本分值预估模型(如随机森林模型)输出词质量分值；

在步骤C11中，判断领域候选词的词质量分值是否大于或等于质量分阈值，若词质量分值大于或等于质量分阈值，则执行步骤C12，若词质量分值小于质量分阈值，则执行步骤C14；

在步骤C12中，判断该领域候选词的词频是否大于或等于第一词频阈值，若领域候选词的词频大于或等于第一词频阈值，则执行步骤C145，若领域候选词的词频小于第一词频阈值，则执行步骤C14；

在步骤C13中，从领域种子词库中获取领域种子词；

在步骤C14中，确定该领域候选词为无意义的词语；

在步骤C15中，确定该领域候选词为新词；

在步骤C16中，采用新词搜索关联文本；

在步骤C17中，基于搜索到的关联文本，可以计算得到该领域种子词的平均词频(或最大词频)；

在步骤C18中，判断该领域种子词的平均词频(或最大词频)是否大于或等于第二词频阈值，若领域种子词的平均词频(或最大词频)大于或等于第二词频阈值，则执行步骤C20，若领域候选词的词频小于第二词频阈值，则执行步骤C19；

在步骤C19中，确定该新词不是领域新词；

在步骤C20中，确定该新词为领域新词。

下面对本申请中的文本挖掘装置进行详细描述，请参阅图12，图12为本申请实施例中文本挖掘装置的一个实施例示意图，文本挖掘装置20包括：

获取模块201，用于获取领域候选词所对应的领域候选词特征；

获取模块201，还用于根据领域候选词特征，获取领域候选词所对应的词质量分值；

确定模块202，用于根据领域候选词所对应的词质量分值，从所述领域候选词中确定新词；

获取模块201，还用于根据新词获取关联文本；

确定模块202，还用于若根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，首先获取领域候选词所对应的领域候选词特征，然后根据领域候选词特征，获取领域候选词所对应的词质量分值，再根据领域候选词所对应的词质量分值确定新词，根据新词获取关联文本。如果根据关联文本确定领域种子词满足领域新词挖掘条件，则确定领域种子词为领域新词。通过上述方式，可以基于机器学习算法通过领域候选词筛选出新词，避免了人工设定大量特征阈值的过程，从而降低了人工成本，由此，能够很好地适应互联网时代快速出现的特异化新词。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的文本挖掘装置20的另一实施例中，

获取模块201，具体用于从领域语料库中获取语句；

对语句中的每个语句进行分词处理，得到文本序列；

根据文本序列获取领域候选词。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，从领域语料库中获取语句，然后对语句进行分词处理，这些分词后的文本序列作为领域候选词的来源，由此获取相关的领域候选词，再进一步提取每个领域候选词所对应的领域候选词特征，从而提升方案的可行性和可操作性。

获取模块201，具体用于根据词数采样阈值以及字符数采样阈值，获取文本序列所对应的领域候选词，其中，词数采样阈值表示所述领域候选词中词语数量的上限值，字符数采样阈值表示所述领域候选词中字符数量的上限值。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，既可以利用N-Gram算法来评估一个语句是否合理，又可以用于评估两个字符串之间的差异程度，N-gram算法包含了前若干个词语所能提供的全部信息，这些词语对于当前词语的出现具有很强的约束力，有利于提取更准确且更丰富的领域候选词。

获取模块201，具体用于获取模块，具体用于根据文本序列获取领域候选词所对应的领域候选词特征，其中，领域候选词特征包括词频、词频逆文档频率TFIDF值、自由度、凝固度、左侧信息熵以及右侧信息熵中的至少一项。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，可以对领域候选词进行特征量化，从词语权重，词语在文档中的位置以及词语的关联信息等维度，提取领域候选词的相关特征，由此构成领域候选词特征，该领域候选词特征能够很好地表达领域候选词的特点，有助于得到更准确的领域候选词评价结果。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的文本挖掘装置20的另一实施例中，文本分值预估模型为随机森林模型，其中，随机森林模型包括T个决策树，T为大于1的整数；

获取模块201，具体用于基于领域候选词特征，通过随机森林模型所包括的决策树，获取领域候选词特征所对应的子分值；

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，采用随机森林模型预测得到的词质量分值具有较高的准确率，而且通过多个决策树能够有效地评估领域候选词特征在分类问题上的重要性。此外，对于领域候选词特征不需要进行降维，也无需进行特征选择，使得获取词质量分值的效率更高。

确定模块202，具体用于若领域候选词所对应的词质量分值大于或等于质量分阈值，则确定领域候选词属于新词；

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，将词质量分值较高的领域候选词作为新词，这样能够在一定程度上保证新词具有较高的质量，可作为领域新词的待选项，从而提升新所选新词的可靠性和准确性。

确定模块202，具体用于获取领域候选词所对应的词频；

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，将词质量分值较高的领域候选词作为新词，这样能够在一定程度上保证新词具有较高的质量，可作为领域新词的待选项，从而提升新所选新词的可靠性和准确性。与此同时，还考虑到该领域候选词的词频，选择词频较高的词语作为新词，能够一定程度上保证新词具有较高的传播率，更符合新词的定义。

获取模块201，具体用于通过搜索引擎获取新词所对应的搜索反馈结果，其中，搜索反馈结果包括至少一条搜索结果；

根据每个领域候选词对应的关联文本，获取关联文本。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，以搜索引擎的搜索反馈结果作为评价新词使用频率的一个标准，能够更贴近新词使用的实际情况，有利于找出与新词相关领域的关联文本。

获取模块201，还用于在根据新词获取关联文本之后，获取领域种子词；

确定模块202，还用于根据关联文本，确定领域种子词的平均词频；

确定模块202，还用于若平均词频大于或等于第二词频阈值，则确定领域种子词满足领域新词挖掘条件。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，如果平均词频达到词频阈值，即认为该领域种子词的使用频率较高，由此可以将领域种子词确定为领域新词，从而提升方案的可行性。

确定模块202，还用于根据关联文本，确定领域种子词的最大词频；

确定模块202，还用于若最大词频大于或等于第二词频阈值，则确定领域种子词满足领域新词挖掘条件。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，如果最大词频达到词频阈值，即认为该领域种子词的使用频率较高，由此可以将领域种子词确定为领域新词，从而提升方案的可行性。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的文本挖掘装置20的另一实施例中，文本挖掘装置20还包括训练模块203；

获取模块201，还用于获取K组领域候选词样本，其中，每组领域候选词样本包括领域候选词正样本以及领域候选词负样本，领域候选词正样本来源于正样本池，领域候选词负样本来源于负样本池，K为大于或等于1的整数；

获取模块201，还用于根据K组领域候选词样本获取K组领域候选词样本特征，其中，领域候选词样本特征与领域候选词样本具有一一对应的关系，每个领域候选词样本特征包括领域候选词正样本所对应的领域候选词样本特征以及领域候选词负样本所对应的领域候选词样本特征；

获取模块201，还用于基于K组领域候选词样本特征，通过待训练文本分值预估模型获取K组预测结果，其中，预测结果与领域候选词样本特征具有一一对应的关系，每组预测结果中包括领域候选词正样本的预测标签以及领域候选词负样本的预测标签；

训练模块203，用于根据K组预测结果以及K组领域候选词样本，对待训练文本分值预估模型进行训练，直至满足模型训练条件，输出文本分值预估模型；

获取模块201，具体用于基于领域候选词特征，通过文本分值预估模型获取领域候选词所对应的词质量分值。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，可以使用已积累的通用词语库和领域语料库构建正负样本，然后训练具有监督机器学习的文本分值预估模型来预测领域候选词的词质量分值，选择的文本分值预估模型能够最大化的利用领域候选词的所有特征，并可以适应并非十分准确的领域候选词正样本和领域候选词负样本，综合考量使用随机森林模型进行学习，可达到上述效果。

可选地，在上述图12所对应的实施例的基础上，本申请实施例提供的文本挖掘装置20的另一实施例中，文本挖掘装置20还包括处理模块204；

获取模块201，还用于获取K组领域候选词样本之前，从领域语料库中获取语句；

处理模块204，用于对语句进行分词处理，得到文本序列；

获取模块201，还用于根据文本序列获取待训练领域候选词样本；

确定模块202，还用于若待训练领域候选词样本命中通用词语库，则确定待训练领域候选词样本属于领域候选词正样本，并将待训练领域候选词样本添加至正样本池；

确定模块202，还用于若待训练领域候选词样本未本命中通用词语库，则确定待训练领域候选词样本属于领域候选词负样本，并将待训练领域候选词样本添加至负样本池。

本申请实施例中，提供了一种基于人工智能的文本挖掘装置，采用上述装置，利用通用词语库能够较为准确地将领域候选词样本划分至正样本池或负样本池，从而便于后续训练，并且有利于提升训练的准确性。此外，基于通用词语库进行匹配，节省了人工划分正负样本的过程，提升训练效率。

本申请实施例还提供了另一种图像文本挖掘装置，该文本挖掘装置可以部署于服务器上。图13是本申请实施例提供的一种服务器结构示意图，该服务器300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。

本申请实施例还提供了另一种图像文本挖掘装置，该文本挖掘装置可以部署于终端设备上。如图14所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图14示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图14，手机包括：射频(Radio Frequency，RF)电路410、存储器420、输入单元430、显示单元440、传感器450、音频电路460、无线保真(wireless fidelity，WiFi)模块470、处理器480、以及电源490等部件。本领域技术人员可以理解，图14中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图14对手机的各个构成部件进行具体的介绍：

输入单元430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元430可包括触控面板431以及其他输入设备432。显示单元440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元440可包括显示面板441。

音频电路460、扬声器461，传声器462可提供用户与手机之间的音频接口。

在本申请实施例中，该终端设备所包括的处理器480还具有以下功能：

获取领域候选词所对应的领域候选词特征；

根据领域候选词所对应的词质量分值确定新词；

根据新词获取关联文本；

可选的，处理器480还用于执行如前述各个实施例描述的方法。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种基于人工智能的文本挖掘方法，所述方法由文本挖掘设备执行，所述方法包括：

获取领域候选词所对应的领域候选词特征；

根据所述领域候选词特征，获取所述领域候选词所对应的词质量分值；

根据所述领域候选词所对应的词质量分值，从所述领域候选词中确定新词；

根据所述新词获取关联文本；

若根据所述关联文本确定领域种子词满足领域新词挖掘条件，则确定所述领域种子词为领域新词。
根据权利要求1所述的文本挖掘方法，所述方法还包括：

从领域语料库中获取语句；

对所述语句中的每个语句进行分词处理，得到文本序列；

根据所述文本序列获取所述领域候选词。
根据权利要求2所述的文本挖掘方法，所述根据所述文本序列获取所述领域候选词，包括：

根据词数采样阈值以及字符数采样阈值，获取所述文本序列所对应的领域候选词，其中，所述词数采样阈值表示所述领域候选词中词语数量的上限值，所述字符数采样阈值表示所述领域候选词中字符数量的上限值。
根据权利要求2所述的文本挖掘方法，所述获取领域候选词所对应的领域候选词特征，包括：

根据所述文本序列获取所述领域候选词所对应的领域候选词特征，其中，所述领域候选词特征包括词频、词频逆文档频率TFIDF值、自由度、凝固度、左侧信息熵以及右侧信息熵中的至少一项。
根据权利要求1所述的文本挖掘方法，所述根据所述领域候选词特征，获取所述领域候选词所对应的词质量分值，包括：

基于所述领域候选词特征，通过随机森林模型所包括的决策树，获取所述领域候选词特征所对应的子分值；

根据所述领域候选词特征所对应的子分值，获取所述领域候选词所对应的词质量分值。
根据权利要求1所述的文本挖掘方法，所述根据所述领域候选词所对应的词质量分值确定新词，包括：

若所述领域候选词所对应的词质量分值大于或等于质量分阈值，则确定所述领域候选词属于新词；

若所述领域候选词所对应的词质量分值小于所述质量分阈值，则确定所述领域候选词不属于新词。
根据权利要求1所述的文本挖掘方法，所述根据所述领域候选词所对应的词质量分值确定新词，包括：

获取所述领域候选词所对应的词频；

若所述领域候选词所对应的词质量分值大于或等于质量分阈值，且，所述领域候选词所对应的词频大于或等于第一词频阈值，则确定所述领域候选词属于新词；

若所述领域候选词所对应的词质量分值小于所述质量分阈值，或，所述领域候选词所对应的词频小于所述第一词频阈值，则确定所述领域候选词不属于新词。
根据权利要求1所述的文本挖掘方法，所述根据所述新词获取关联文本，包括：

通过搜索引擎获取所述新词所对应的搜索反馈结果，其中，所述搜索反馈结果包括至少一条搜索结果；

根据所述新词对应的搜索反馈结果，从所述至少一条搜索结果中将相关度最高的前R条搜索结果确定为所述新词所对应的关联文本，其中，所述R为大于或等于1的整数。
根据权利要求1至8中任一项所述的文本挖掘方法，所述方法还包括：

获取所述领域种子词；

根据所述关联文本，确定所述领域种子词的平均词频；

若所述平均词频大于或等于第二词频阈值，则确定所述领域种子词满足所述领域新词挖掘条件。
根据权利要求1至8中任一项所述的文本挖掘方法，所述方法还包括：

获取所述领域种子词；

根据所述关联文本，确定所述领域种子词的最大词频；

若所述最大词频大于或等于第二词频阈值，则确定所述领域种子词满足所述领域新词挖掘条件。
根据权利要求1所述的文本挖掘方法，所述方法还包括：

获取K组领域候选词样本，其中，每组领域候选词样本包括领域候选词正样本以及领域候选词负样本，所述领域候选词正样本来源于正样本池，所述领域候选词负样本来源于负样本池，所述K为大于或等于1的整数；

根据所述K组领域候选词样本获取K组领域候选词样本特征，其中，所述领域候选词样本特征与所述领域候选词样本具有一一对应的关系，每个领域候选词样本特征包括所述领域候选词正样本所对应的领域候选词样本特征以及所述领域候选词负样本所对应的领域候选词样本特征；

基于所述K组领域候选词样本特征，通过待训练文本分值预估模型获取K组预测结果，其中，所述预测结果与所述领域候选词样本特征具有一一对应的关系，每组预测结果中包括所述领域候选词正样本的预测标签以及所述领域候选词负样本的预测标签；

根据所述K组预测结果以及所述K组领域候选词样本，对所述待训练文本分值预估模型进行训练，直至满足模型训练条件，输出文本分值预估模型；

所述根据所述领域候选词特征，获取所述领域候选词所对应的词质量分值，包括：

基于所述领域候选词特征，通过所述文本分值预估模型获取所述领域候选词所对应的词质量分值。
根据权利要求11所述的文本挖掘方法，所述获取K组领域候选词样本之前，所述方法还包括：

从领域语料库中获取语句；

对所述语句进行分词处理，得到文本序列；

根据所述文本序列获取待训练领域候选词样本；

若所述待训练领域候选词样本命中通用词语库，则确定所述待训练领域候选词样本属于领域候选词正样本，并将所述待训练领域候选词样本添加至所述正样本池；

若所述待训练领域候选词样本未本命中所述通用词语库，则确定所述待训练领域候选词样本属于领域候选词负样本，并将所述待训练领域候选词样本添加至所述负样本池。
一种文本挖掘装置，包括：

获取模块，用于获取领域候选词所对应的领域候选词特征；

所述获取模块，还用于根据所述领域候选词特征，获取所述领域候选词所对应的词质量分值；

确定模块，用于根据所述领域候选词所对应的词质量分值确定新词；

所述获取模块，还用于根据所述新词获取关联文本；

所述确定模块，还用于若根据所述关联文本确定领域种子词满足领域新词挖掘条件，则确定所述领域种子词为领域新词。
一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至12中任一项所述的文本挖掘方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
一种计算机可读存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行如权利要求1至12中任一项所述的文本挖掘方法。
一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行权利要求1至12中任一项所述的文本挖掘方法。