WO2021056740A1

WO2021056740A1 - 语言模型构建方法、系统、计算机设备及可读存储介质

Info

Publication number: WO2021056740A1
Application number: PCT/CN2019/117769
Authority: WO
Inventors: 石志娟; 徐媛
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-26
Filing date: 2019-11-13
Publication date: 2021-04-01
Also published as: CN110750976A

Abstract

一种语言模型构建方法，所述方法包括：获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果(S100)；对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序(S102)；根据排序结果从所述挖掘出的句子中选取分类训练样本(S104)，所述分类训练样本用于训练与构建语言模型。所述方法提高了句子排序准确性，继而提高了分类训练样本的样本质量，通过高质量的分类训练样本训练语言模型，可以有效提升语言模型识别结果的准确度。

Description

语言模型构建方法、系统、计算机设备及可读存储介质

本申请申明2019年09月26日递交的申请号为201910917739.1、名称为“语言模型构建方法、系统、计算机设备及可读存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请实施例涉及计算机数据处理领域，尤其涉及一种语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质。

背景技术

语言模型(Language Model，LM)是描述词汇概率分布的模型，一个能可靠反应语言识别时用词的概率分布的模型。语言模型技术在机器学习、手写体识别、语音识别等领域得到了广泛应用。

目前，在构建语言模型时，通过对一个词典或文本数据库进行数据挖掘，得到一个最初的涵盖多领域的语言训练样本，使用该语言训练样本进行训练得到语言模型。同时，随着领域的不断细化，垂直领域不断增多，为了保证训练得到的语言模型是一个较均衡的多垂直领域的语言模型。

发明人发现上述构建语言模型的方法至少存在以下缺点：对语言训练样本的挖掘维度较少，从而导致基于这些语言训练样本构建的语言模型识别结果不准确。

发明内容

有鉴于此，本申请实施例的目的是提供一种语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质，解决现有技术对语言训练样本的挖掘维度较少，从而导致基于这些语言训练样本构建的语言模型识别结果不准确的问题。

为实现上述目的，本申请实施例提供了一种语言模型构建方法，包括以下步骤：

获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料；

根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。

为实现上述目的，本申请实施例还提供了语言模型构建系统，包括：

第一获取模块，用于获取数据样本；

第一挖掘模块，用于对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

统计模块，用于对挖掘出的句子进行句子频率与句子位置统计；

计算模块，用于根据句子频率与句子位置计算每个句子的重要程度；

排序模块，用于根据每个句子的重要程度对挖掘出的句子进行排序；

选取模块，用于根据排序结果从所述挖掘出的句子中选取分类训练样本；

构建模块，用于根据所述分类训练样本构建文本分类器；

分类模块，用于通过所述文本分类器对所述数据样本进行分类；

第二获取模块，用于根据分类结果获取分类词表和分类语料；

第二挖掘模块，用于根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

训练模块，用于对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。

优选地，所述计算模块还用于：

根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；及

根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

其中，P _i代表第i个句子的重要程度，X _i代表第i个句子在数据样本中的句子频率，Y _i代表第i个句子在数据样本中的句子位置权重，n代表数据样本中句子总数。

为实现上述目的，本申请实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

为实现上述目的，本申请实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

本申请实施例提供的语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质，对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序，不仅考虑了句子出现的频率，而且充分考虑了句子在数据样本(如文章)中的位置；故，根据句子频率与句子位置可以准确计算每个句子的重要程度，从而提高排序的准确性。

可知，由于本申请实施例提高了句子排序准确性，继而提高了分类训练样本的样本质量，通过高质量的分类训练样本训练语言模型，可以有效提升语言模型识别结果的准确度。

附图说明

图1为本申请语言模型构建方法实施例一的流程示意图。

图2为本申请语言模型构建系统实施例二的程序模块示意图。

图3为本申请计算机设备实施例三的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1，示出了本申请实施例一之语言模型构建方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100，获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果。

示例性的，可以利用网络爬取技术在网络上爬取各个领域的文章，将爬取到的各个领域的文章作为获取到的数据样本。本实施例也不对按照领域分类的具体分类原则进行限定，例如，按照领域性质将领域分为地图类、数码科技类等。除此之外，还可以采取其他获取样本数据的方法，本实施例不对获取数据样本的具体方法进行限定。

示例性的，可以利用最大后向匹配算法挖掘得到所述数据样本中的句子。

步骤S102，对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序。

在示例性的实施例中，对挖掘出的句子进行句子频率统计可以通过以下步骤：对分类训练样本中的句子进行TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率)特征统计。通过上述统计方法，例如可以挖掘出的句子为句子1、句子2、句子3、…，句子1的句子频率为10％、句子2的句子频率为5％、句子3的句子频率为3％、…。

在示例性的实施例中，根据句子频率与句子位置计算每个句子的重要程度的步骤，包括：

步骤S102a，根据每个句子在数据样本中所处的位置，分配相应的句子位置权重。

示例性的，在绝大部分数据样本(比如：文章)中，开始段落(第一段)都是落笔点题，点明文章的中心，开门见山，总领全文；中间段落则是文章具体内容的描述；结尾段落(最后一段)则是总结全文，点明文章主旨，与第一段相照应。显而易见，当一个句子在数据样本(比如：文章)中的位置不同，其重要程度也是不同的。在开始段落与结尾段落的句子明显比在中间段落的句子重要程度高。因此，可以根据句子在数据样本中所处的不同位置，分配不同的位置权重，比如：如果一个句子在开始段落与结尾段落，则分配第一位置权重(比如1.1)；如果一个句子在中间段落，则分配第二位置权重(比如：1.0)。

步骤S102b，根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

步骤S104，根据排序结果从所述挖掘出的句子中选取分类训练样本。

在示例性的实施例中，可以根据每个句子的重要程度P _i从大到小对n个句子进行排序，选取排序靠前的m个句子作为分类训练样本；也可以预设重要程度阈值(如，0.1)，将重要程度P _i大于0.1的句子作为分类训练样本。需要说明的是，本实施例不对挖掘出的具体句子进行限定，重要程度阈值也可以被设置为其它数值。

步骤S106，根据所述分类训练样本构建文本分类器。

步骤S108，通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料。

在示例性的实施例中，根据分类结果获取分类词表和分类语料的步骤，包括：

步骤S108a，对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度。

在示例性的实施例中，步骤S108a包括步骤S108a1～S108a3。具体如下。

步骤S108a1，根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

示例性的，在绝大部分数据样本(比如：文章)中，标题都是核心、关键词语；开始段落(第一段)都是落笔点题，点明文章的中心，开门见山，总领全文；中间段落则是文章具体内容的描述；结尾段落(最后一段)则是总结全文，点明文章主旨，与第一段相照应。显而易见，当一个词语在数据样本(比如：文章)中的位置不同，其重要程度也是不同的。在标题中的词语明显是最最重要的，其次，在开始段落与结尾段落的词语明显比在中间段落的词语要重要程度高。因此，可以根据词语在数据样本中所处的不同位置，分配不同的位置权重，比如：如果一个词语在标题，则分配第一位置权重(比如：1.2)；如果一个词语在开始段落与结尾段落，则分配第二位置权重(比如1.1)；如果一个词语在中间段落，则分配第三位置权重(比如：1.0)。

步骤S108a2，根据每个词语的词语词性，为每个词语分配相应的词语词性权重。

示例性的，在绝大部分数据样本(比如：文章)中，绝大部分句子都是主谓宾结构，主语是名词，谓语是动词，宾语是名词，名词可以用形容词来形容，动词可以用副词来形容，有些句子可能还包括一些其他词性的词语，比如：介词、连词、助词等。显而易见，当一个词语的词性不同时，其重要程度也是不同的。最重要词性的词语是名词，第二重要词性的词语是动词，第三重要词性的词语是形容词与副词，最后是其他词性的词语，比如：介词、连词、助词等。因此，可以根据词语的不同词性，分配不同的词性权重，比如：如果一个词语为名词，则分配第一位置权重(比如：1.2)；如果一个词语为动词，则分配第二位置权重(比如1.1)；如果一个词语为形容词与副词，则分配第三位置权重(比如：1.0)；如果一个词语为其他词性，则分配第四词性权重(比如：0.9)。

步骤S108a3，根据每个词语对应的词语频率、词语位置权重、词语词性权重，通过以下公式计算每个词语的重要程度：

其中，Q _i代表第i个词语的重要程度，X _i代表第i个词语在数据样本中的词语频率，Y _i代表第i个词语在数据样本中的词语位置权重，Z _i代表第i个词语在数据样本中的词语词性权重，n代表数据样本中词语总数。

步骤S108b，根据每一个词语的重要程度选取分类词，得到分类词表。

步骤S108c，将所述分类词表中的词所对应的句子作为分类语料。

步骤S110，根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板。

示例性的，如果每个句子均有一个可以表示该句子应用场景的标签，可挖掘分类语料对应的标签，并将标签作为高频语言模板。当然，标签还可以表示其它内容，本实施例不对标签的具体内容进行限定。

以分类语料为句子1和句子2，句子1的标签为标签1，句子2的标签为标签2为例，将标签1和标签2作为高频语言模板。

步骤S112，对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。

示例性的，可以通过神经网络技术对高频语言模板进行训练、对分类语料进行训练以及对分类词表进行训练。

本实施例：(1)“对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序”，不仅考虑了句子出现的“频率”，而且充分考虑了句子在数据样本(如文章)中的位置；当句子的位置在数据样本(如：文章)中开始段落、中间段落、结尾段落时，分配不同的句子位置权重；故，根据句子频率与句子位置可以准确计算每个句子的重要程度，从而提高排序的准确性。(2)本实施例“对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度，并根据每一个词语的重要程度选取分类词，得到分类词表”，不仅考虑了词语出现的“频率”，而且充分考虑了词语在数据样本(如文章)中的位置与词性；当词语的位置在数据样本(如：文章)中标题、开始段落、中间段落、结尾段落时，分配不同的位置权重；当词语的词性为名词、动词、形容词、副词、其他时，分配不同的词性权重；故，根据词语频率、词语位置权重、词语词性权重可以准确计算每个词语的重要程度，从而提高分类词表的准确性。

不难理解，本实施例根据句子频率与句子位置可以准确计算每个句子的重要程度以提高排序的准确性，且根据词语频率、词语位置、词语词性可以准确计算每个词语的重要程度以提高分类词表的准确性，从而有效提升语言模型识别结果的准确度。

实施例二

请继续参阅图2，示出了本申请语言模型构建系统实施例二的程序模块示意图。在本实施例中，语言模型构建系统20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请，并可实现上述语言模型构建方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。以下描述将具体介绍本实施例各程序模块的功能：

第一获取模块200，用于获取数据样本。

第一挖掘模块202，用于对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果。

统计模块204，用于对挖掘出的句子进行句子频率与句子位置统计。

在示例性的实施例中，对挖掘出的句子进行频率统计可以通过以下步骤：对分类训练样本中的句子进行TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆向文件频率)特征统计。通过上述统计方法，例如可以挖掘出的句子为句子1、句子2、句子3、…，句子1的句子频率为10％、句子2的句子频率为5％、句子3的句子频率为3％、…。

计算模块206，用于根据句子频率与句子位置计算每个句子的重要程度。

在示例性的实施例中，计算模块206，还用于：根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度。

示例性的，根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

排序模块208，用于根据每个句子的重要程度对挖掘出的句子进行排序。

选取模块210，用于根据排序结果从所述挖掘出的句子中选取分类训练样本。

构建模块212，用于根据所述分类训练样本构建文本分类器。

分类模块214，用于通过所述文本分类器对所述数据样本进行分类。

第二获取模块216，用于根据分类结果获取分类词表和分类语料。

在示例性的实施例中，第二获取模块216，还用于：对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度；根据每一个词语的重要程度选取分类词，得到分类词表；及将所述分类词表中的词所对应的句子作为分类语料。

对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度，包括如下步骤：

根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

根据每个词语的词语词性，为每个词语分配相应的词语词性权重；

根据每个词语对应的词语频率、词语位置权重、词语词性权重，通过以下公式计算每个词语的重要程度：

第二挖掘模块218，用于根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板。

训练模块220，用于对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。

实施例三

参阅图3，是本申请实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是PC、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图所示，所述计算机设备2至少包括，但不限于，可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及语言模型构建系统20。其中：

本实施例中，存储器21至少包括一种类型的非易失性计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例二的语言模型构建系统20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行语言模型构建系统20，以实现实施例一的语言模型构建方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图3仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述语言模型构建系统20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本申请。

例如，图2示出了所述实现语言模型构建系统20实施例二的程序模块示意图，该实施例中，所述基于语言模型构建系统20可以被划分为第一获取模块200、第一挖掘模块202、统计模块204、计算模块206、排序模块208、选取模块210、构建模块212、分类模块214、第二获取模块216、第二挖掘模块218和训练模块220。其中，本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。所述程序模块200-220的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种非易失性计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，程序被处理器执行时实现相应功能。本实施例的非易失性计算机可读存储介质用于存储语言模型构建系统20，被处理器执行如下步骤：

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种语言模型构建方法，所述方法包括：

获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料；

根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。
根据权利要求1所述的语言模型构建方法，根据句子频率与句子位置计算每个句子的重要程度的步骤，包括：

根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；及

根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

其中，P _i代表第i个句子的重要程度，X _i代表第i个句子在数据样本中的句子频率，Y _i代表第i个句子在数据样本中的句子位置权重，n代表数据样本中句子总数。
根据权利要求2所述的语言模型构建方法，根据分类结果获取分类词表和分类语料的步骤，包括：

对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度；

根据每一个词语的重要程度选取分类词，得到分类词表；及

将所述分类词表中的词所对应的句子作为分类语料。
根据权利要求3所述的语言模型构建方法，对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤，包括：

根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

根据每个词语的词语词性，为每个词语分配相应的词语词性权重；

根据每个词语对应的词语频率、词语位置权重、词语词性权重，计算每个词语的重要程度。
根据权利要求4所述的语言模型构建方法，每个词语的重要程度通过以下公式计算得到：

其中，Q _i代表第i个词语的重要程度，X _i代表第i个词语在数据样本中的词语频率，Y _i代表第i个词语在数据样本中的词语位置权重，Z _i代表第i个词语在数据样本中的词语词性权重，n代表数据样本中词语总数。
一种语言模型构建系统，所述系统包括：

第一获取模块，用于获取数据样本；

第一挖掘模块，用于对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

统计模块，用于对挖掘出的句子进行句子频率与句子位置统计；

计算模块，用于根据句子频率与句子位置计算每个句子的重要程度；

排序模块，用于根据每个句子的重要程度对挖掘出的句子进行排序；

选取模块，用于根据排序结果从所述挖掘出的句子中选取分类训练样本；

构建模块，用于根据所述分类训练样本构建文本分类器；

分类模块，用于通过所述文本分类器对所述数据样本进行分类；

第二获取模块，用于根据分类结果获取分类词表和分类语料；

第二挖掘模块，用于根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

训练模块，用于对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。
根据权利要求6所述的语言模型构建系统，所述计算模块还用于：

根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；及

根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

其中，P _i代表第i个句子的重要程度，X _i代表第i个句子在数据样本中的句子频率，Y _i代表第i个句子在数据样本中的句子位置权重，n代表数据样本中句子总数。
根据权利要求7所述的语言模型构建系统，所述第二获取模块还用于：

对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度；

根据每一个词语的重要程度选取分类词，得到分类词表；及

将所述分类词表中的词所对应的句子作为分类语料。
根据权利要求8所述的语言模型构建系统，所述第二获取模块还用于：

根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

根据每个词语的词语词性，为每个词语分配相应的词语词性权重；

根据每个词语对应的词语频率、词语位置权重、词语词性权重，计算每个词语的重要程度。
根据权利要求9所述的语言模型构建系统，每个词语的重要程度通过以下公式计算得到：

其中，Q _i代表第i个词语的重要程度，X _i代表第i个词语在数据样本中的词语频率，Y _i代表第i个词语在数据样本中的词语位置权重，Z _i代表第i个词语在数据样本中的词语词性权重，n代表数据样本中词语总数。
一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被处理器执行时实现以下步骤：

获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料；

根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。
根据权利要求11所述的计算机设备，根据句子频率与句子位置计算每个句子的重要程度的步骤，包括：

根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；及

根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

其中，P _i代表第i个句子的重要程度，X _i代表第i个句子在数据样本中的句子频率，Y _i代表第i个句子在数据样本中的句子位置权重，n代表数据样本中句子总数。
根据权利要求12所述的计算机设备，根据分类结果获取分类词表和分类语料的步骤，包括：

对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度；

根据每一个词语的重要程度选取分类词，得到分类词表；及

将所述分类词表中的词所对应的句子作为分类语料。
根据权利要求13所述的计算机设备，对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤，包括：

根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

根据每个词语的词语词性，为每个词语分配相应的词语词性权重；

根据每个词语对应的词语频率、词语位置权重、词语词性权重，计算每个词语的重要程度。
根据权利要求14所述的计算机设备，每个词语的重要程度通过以下公式计算得到：

其中，Q _i代表第i个词语的重要程度，X _i代表第i个词语在数据样本中的词语频率，Y _i代表第i个词语在数据样本中的词语位置权重，Z _i代表第i个词语在数据样本中的词语词性权重，n代表数据样本中词语总数。
一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质内存储有计算机可读指令，所述计算机可读指令可被至少一个处理器所执行，以使所述至少一个处理器执行如下步骤：

获取数据样本，并对所述数据样本中的句子进行分类挖掘，将挖掘得到的句子作为数据挖掘的结果；

对挖掘出的句子进行句子频率与句子位置统计，根据句子频率与句子位置计算每个句子的重要程度，并根据每个句子的重要程度对挖掘出的句子进行排序；

根据排序结果从所述挖掘出的句子中选取分类训练样本；

根据所述分类训练样本构建文本分类器；

通过所述文本分类器对所述数据样本进行分类，根据分类结果获取分类词表和分类语料；

根据所述分类词表对所述分类语料进行挖掘，得到高频语言模板；及

对所述高频语言模板进行训练，得到分类模板语言模型，并对所述分类语料进行训练，得到分类语言模型，对所述分类词表进行训练，得到分类词表语言模型。
根据权利要求16所述的非易失性计算机可读存储介质，根据句子频率与句子位置计算每个句子的重要程度的步骤，包括：

根据每个句子在数据样本中所处的位置，分配相应的句子位置权重；及

根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度：

其中，P _i代表第i个句子的重要程度，X _i代表第i个句子在数据样本中的句子频率，Y _i代表第i个句子在数据样本中的句子位置权重，n代表数据样本中句子总数。
根据权利要求17所述的非易失性计算机可读存储介质，根据分类结果获取分类词表和分类语料的步骤，包括：

对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度；

根据每一个词语的重要程度选取分类词，得到分类词表；及

将所述分类词表中的词所对应的句子作为分类语料。
根据权利要求18所述的非易失性计算机可读存储介质，对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计，根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤，包括：

根据每个词语在数据样本中所处的位置，分配相应的词语位置权重；

根据每个词语的词语词性，为每个词语分配相应的词语词性权重；

根据每个词语对应的词语频率、词语位置权重、词语词性权重，计算每个词语的重要程度。
根据权利要求19所述的非易失性计算机可读存储介质，每个词语的重要程度通过以下公式计算得到：

其中，Q _i代表第i个词语的重要程度，X _i代表第i个词语在数据样本中的词语频率，Y _i代表第i个词语在数据样本中的词语位置权重，Z _i代表第i个词语在数据样本中的词语词性权重，n代表数据样本中词语总数。