WO2021056740A1 - 语言模型构建方法、系统、计算机设备及可读存储介质 - Google Patents

语言模型构建方法、系统、计算机设备及可读存储介质 Download PDF

Info

Publication number
WO2021056740A1
WO2021056740A1 PCT/CN2019/117769 CN2019117769W WO2021056740A1 WO 2021056740 A1 WO2021056740 A1 WO 2021056740A1 CN 2019117769 W CN2019117769 W CN 2019117769W WO 2021056740 A1 WO2021056740 A1 WO 2021056740A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
sentence
classification
frequency
importance
Prior art date
Application number
PCT/CN2019/117769
Other languages
English (en)
French (fr)
Inventor
石志娟
徐媛
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021056740A1 publication Critical patent/WO2021056740A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Definitions

  • the selection module 210 is configured to select classification training samples from the excavated sentences according to the ranking results.
  • the memory 21 may also be an external storage device of the computer device 2, such as a plug-in hard disk, a smart media card (SMC), and a secure digital (Secure Digital, SMC) equipped on the computer device 20. SD) card, flash card (Flash Card), etc.
  • the memory 21 may also include both the internal storage unit of the computer device 2 and its external storage device.
  • the memory 21 is generally used to store the operating system and various application software installed in the computer device 2, for example, the program code of the language model construction system 20 of the second embodiment.
  • the memory 21 can also be used to temporarily store various types of data that have been output or will be output.
  • the processor 22 may be a central processing unit (Central Processing Unit, CPU), a controller, a microcontroller, a microprocessor, or other data processing chips in some embodiments.
  • the processor 22 is generally used to control the overall operation of the computer device 2.
  • the processor 22 is used to run the program code or process data stored in the memory 21, for example, to run the language model construction system 20 to implement the language model construction method of the first embodiment.

Abstract

一种语言模型构建方法,所述方法包括:获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果(S100);对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序(S102);根据排序结果从所述挖掘出的句子中选取分类训练样本(S104),所述分类训练样本用于训练与构建语言模型。所述方法提高了句子排序准确性,继而提高了分类训练样本的样本质量,通过高质量的分类训练样本训练语言模型,可以有效提升语言模型识别结果的准确度。

Description

语言模型构建方法、系统、计算机设备及可读存储介质
本申请申明2019年09月26日递交的申请号为201910917739.1、名称为“语言模型构建方法、系统、计算机设备及可读存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请实施例涉及计算机数据处理领域,尤其涉及一种语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质。
背景技术
语言模型(Language Model,LM)是描述词汇概率分布的模型,一个能可靠反应语言识别时用词的概率分布的模型。语言模型技术在机器学习、手写体识别、语音识别等领域得到了广泛应用。
目前,在构建语言模型时,通过对一个词典或文本数据库进行数据挖掘,得到一个最初的涵盖多领域的语言训练样本,使用该语言训练样本进行训练得到语言模型。同时,随着领域的不断细化,垂直领域不断增多,为了保证训练得到的语言模型是一个较均衡的多垂直领域的语言模型。
发明人发现上述构建语言模型的方法至少存在以下缺点:对语言训练样本的挖掘维度较少,从而导致基于这些语言训练样本构建的语言模型识别结果不准确。
发明内容
有鉴于此,本申请实施例的目的是提供一种语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质,解决现有技术对语言训练样本的挖掘维度较少,从而导致基于这些语言训练样本构建的语言模型识别结果不准确的问题。
为实现上述目的,本申请实施例提供了一种语言模型构建方法,包括以下步骤:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本;
根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
为实现上述目的,本申请实施例还提供了语言模型构建系统,包括:
第一获取模块,用于获取数据样本;
第一挖掘模块,用于对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
统计模块,用于对挖掘出的句子进行句子频率与句子位置统计;
计算模块,用于根据句子频率与句子位置计算每个句子的重要程度;
排序模块,用于根据每个句子的重要程度对挖掘出的句子进行排序;
选取模块,用于根据排序结果从所述挖掘出的句子中选取分类训练样本;
构建模块,用于根据所述分类训练样本构建文本分类器;
分类模块,用于通过所述文本分类器对所述数据样本进行分类;
第二获取模块,用于根据分类结果获取分类词表和分类语料;
第二挖掘模块,用于根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
训练模块,用于对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
优选地,所述计算模块还用于:
根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;及
根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
Figure PCTCN2019117769-appb-000001
其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
为实现上述目的,本申请实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本;
根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
为实现上述目的,本申请实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本;
根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
本申请实施例提供的语言模型构建方法、系统、计算机设备及非易失性计算机可读存储介质,对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序,不仅考虑了句 子出现的频率,而且充分考虑了句子在数据样本(如文章)中的位置;故,根据句子频率与句子位置可以准确计算每个句子的重要程度,从而提高排序的准确性。
可知,由于本申请实施例提高了句子排序准确性,继而提高了分类训练样本的样本质量,通过高质量的分类训练样本训练语言模型,可以有效提升语言模型识别结果的准确度。
附图说明
图1为本申请语言模型构建方法实施例一的流程示意图。
图2为本申请语言模型构建系统实施例二的程序模块示意图。
图3为本申请计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
以下实施例将以计算机设备2为执行主体进行示例性描述。
实施例一
参阅图1,示出了本申请实施例一之语言模型构建方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。
步骤S100,获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果。
示例性的,可以利用网络爬取技术在网络上爬取各个领域的文章,将爬取到的各个领域的文章作为获取到的数据样本。本实施例也不对按照领域分类的具体分类原则进行限定,例如,按照领域性质将领域分为地图类、数码科技类等。除此之外,还可以采取其他获取 样本数据的方法,本实施例不对获取数据样本的具体方法进行限定。
示例性的,可以利用最大后向匹配算法挖掘得到所述数据样本中的句子。
步骤S102,对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序。
在示例性的实施例中,对挖掘出的句子进行句子频率统计可以通过以下步骤:对分类训练样本中的句子进行TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)特征统计。通过上述统计方法,例如可以挖掘出的句子为句子1、句子2、句子3、…,句子1的句子频率为10%、句子2的句子频率为5%、句子3的句子频率为3%、…。
在示例性的实施例中,根据句子频率与句子位置计算每个句子的重要程度的步骤,包括:
步骤S102a,根据每个句子在数据样本中所处的位置,分配相应的句子位置权重。
示例性的,在绝大部分数据样本(比如:文章)中,开始段落(第一段)都是落笔点题,点明文章的中心,开门见山,总领全文;中间段落则是文章具体内容的描述;结尾段落(最后一段)则是总结全文,点明文章主旨,与第一段相照应。显而易见,当一个句子在数据样本(比如:文章)中的位置不同,其重要程度也是不同的。在开始段落与结尾段落的句子明显比在中间段落的句子重要程度高。因此,可以根据句子在数据样本中所处的不同位置,分配不同的位置权重,比如:如果一个句子在开始段落与结尾段落,则分配第一位置权重(比如1.1);如果一个句子在中间段落,则分配第二位置权重(比如:1.0)。
步骤S102b,根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
Figure PCTCN2019117769-appb-000002
其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
步骤S104,根据排序结果从所述挖掘出的句子中选取分类训练样本。
在示例性的实施例中,可以根据每个句子的重要程度P i从大到小对n个句子进行排序,选取排序靠前的m个句子作为分类训练样本;也可以预设重要程度阈值(如,0.1),将重要程度P i大于0.1的句子作为分类训练样本。需要说明的是,本实施例不对挖掘出的具体句子进行限定,重要程度阈值也可以被设置为其它数值。
步骤S106,根据所述分类训练样本构建文本分类器。
步骤S108,通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料。
在示例性的实施例中,根据分类结果获取分类词表和分类语料的步骤,包括:
步骤S108a,对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度。
在示例性的实施例中,步骤S108a包括步骤S108a1~S108a3。具体如下。
步骤S108a1,根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
示例性的,在绝大部分数据样本(比如:文章)中,标题都是核心、关键词语;开始段落(第一段)都是落笔点题,点明文章的中心,开门见山,总领全文;中间段落则是文章具体内容的描述;结尾段落(最后一段)则是总结全文,点明文章主旨,与第一段相照应。显而易见,当一个词语在数据样本(比如:文章)中的位置不同,其重要程度也是不同的。在标题中的词语明显是最最重要的,其次,在开始段落与结尾段落的词语明显比在中间段落的词语要重要程度高。因此,可以根据词语在数据样本中所处的不同位置,分配不同的位置权重,比如:如果一个词语在标题,则分配第一位置权重(比如:1.2);如果一个词语在开始段落与结尾段落,则分配第二位置权重(比如1.1);如果一个词语在中间段落,则分配第三位置权重(比如:1.0)。
步骤S108a2,根据每个词语的词语词性,为每个词语分配相应的词语词性权重。
示例性的,在绝大部分数据样本(比如:文章)中,绝大部分句子都是主谓宾结构,主语是名词,谓语是动词,宾语是名词,名词可以用形容词来形容,动词可以用副词来形容,有些句子可能还包括一些其他词性的词语,比如:介词、连词、助词等。显而易见,当一个词语的词性不同时,其重要程度也是不同的。最重要词性的词语是名词,第二重要词性的词语是动词,第三重要词性的词语是形容词与副词,最后是其他词性的词语,比如:介词、连词、助词等。因此,可以根据词语的不同词性,分配不同的词性权重,比如:如果一个词语为名词,则分配第一位置权重(比如:1.2);如果一个词语为动词,则分配第二位置权重(比如1.1);如果一个词语为形容词与副词,则分配第三位置权重(比如:1.0);如果一个词语为其他词性,则分配第四词性权重(比如:0.9)。
步骤S108a3,根据每个词语对应的词语频率、词语位置权重、词语词性权重,通过以下公式计算每个词语的重要程度:
Figure PCTCN2019117769-appb-000003
其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
步骤S108b,根据每一个词语的重要程度选取分类词,得到分类词表。
步骤S108c,将所述分类词表中的词所对应的句子作为分类语料。
步骤S110,根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板。
示例性的,如果每个句子均有一个可以表示该句子应用场景的标签,可挖掘分类语料对应的标签,并将标签作为高频语言模板。当然,标签还可以表示其它内容,本实施例不对标签的具体内容进行限定。
以分类语料为句子1和句子2,句子1的标签为标签1,句子2的标签为标签2为例,将标签1和标签2作为高频语言模板。
步骤S112,对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
示例性的,可以通过神经网络技术对高频语言模板进行训练、对分类语料进行训练以及对分类词表进行训练。
本实施例:(1)“对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序”,不仅考虑了句子出现的“频率”,而且充分考虑了句子在数据样本(如文章)中的位置;当句子的位置在数据样本(如:文章)中开始段落、中间段落、结尾段落时,分配不同的句子位置权重;故,根据句子频率与句子位置可以准确计算每个句子的重要程度,从而提高排序的准确性。(2)本实施例“对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度,并根据每一个词语的重要程度选取分类词,得到分类词表”,不仅考虑了词语出现的“频率”,而且充分考虑了词语在数据样本(如文章)中的位置与词性;当词语的位置在数据样本(如:文章)中标题、开始段落、中间段落、结尾段落时,分配不同的位置权重;当词语的词性为名词、动词、形容词、副词、其他时,分配不同的词性权重;故,根据词语频率、词语位置权重、词语词性权重可以准确计算每个词语的重要程度,从而提高分类词表的准确性。
不难理解,本实施例根据句子频率与句子位置可以准确计算每个句子的重要程度以提高排序的准确性,且根据词语频率、词语位置、词语词性可以准确计算每个词语的重要程度以提高分类词表的准确性,从而有效提升语言模型识别结果的准确度。
实施例二
请继续参阅图2,示出了本申请语言模型构建系统实施例二的程序模块示意图。在本实施例中,语言模型构建系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述语言模型构建方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。以下描述将具体介绍本实施例各程序模块的功能:
第一获取模块200,用于获取数据样本。
示例性的,可以利用网络爬取技术在网络上爬取各个领域的文章,将爬取到的各个领域的文章作为获取到的数据样本。本实施例也不对按照领域分类的具体分类原则进行限定,例如,按照领域性质将领域分为地图类、数码科技类等。除此之外,还可以采取其他获取样本数据的方法,本实施例不对获取数据样本的具体方法进行限定。
第一挖掘模块202,用于对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果。
示例性的,可以利用最大后向匹配算法挖掘得到所述数据样本中的句子。
统计模块204,用于对挖掘出的句子进行句子频率与句子位置统计。
在示例性的实施例中,对挖掘出的句子进行频率统计可以通过以下步骤:对分类训练样本中的句子进行TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)特征统计。通过上述统计方法,例如可以挖掘出的句子为句子1、句子2、句子3、…,句子1的句子频率为10%、句子2的句子频率为5%、句子3的句子频率为3%、…。
计算模块206,用于根据句子频率与句子位置计算每个句子的重要程度。
在示例性的实施例中,计算模块206,还用于:根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度。
示例性的,在绝大部分数据样本(比如:文章)中,开始段落(第一段)都是落笔点题,点明文章的中心,开门见山,总领全文;中间段落则是文章具体内容的描述;结尾段落(最后一段)则是总结全文,点明文章主旨,与第一段相照应。显而易见,当一个句子在数据样本(比如:文章)中的位置不同,其重要程度也是不同的。在开始段落与结尾段落的句子明显比在中间段落的句子重要程度高。因此,可以根据句子在数据样本中所处的不同位置,分配不同的位置权重,比如:如果一个句子在开始段落与结尾段落,则分配第一位置权重(比如1.1);如果一个句子在中间段落,则分配第二位置权重(比如:1.0)。
示例性的,根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
Figure PCTCN2019117769-appb-000004
其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
排序模块208,用于根据每个句子的重要程度对挖掘出的句子进行排序。
选取模块210,用于根据排序结果从所述挖掘出的句子中选取分类训练样本。
构建模块212,用于根据所述分类训练样本构建文本分类器。
分类模块214,用于通过所述文本分类器对所述数据样本进行分类。
第二获取模块216,用于根据分类结果获取分类词表和分类语料。
在示例性的实施例中,第二获取模块216,还用于:对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度;根据每一个词语的重要程度选取分类词,得到分类词表;及将所述分类词表中的词所对应的句子作为分类语料。
对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度,包括如下步骤:
根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
根据每个词语的词语词性,为每个词语分配相应的词语词性权重;
根据每个词语对应的词语频率、词语位置权重、词语词性权重,通过以下公式计算每个词语的重要程度:
Figure PCTCN2019117769-appb-000005
其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
第二挖掘模块218,用于根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板。
示例性的,如果每个句子均有一个可以表示该句子应用场景的标签,可挖掘分类语料 对应的标签,并将标签作为高频语言模板。当然,标签还可以表示其它内容,本实施例不对标签的具体内容进行限定。
以分类语料为句子1和句子2,句子1的标签为标签1,句子2的标签为标签2为例,将标签1和标签2作为高频语言模板。
训练模块220,用于对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
示例性的,可以通过神经网络技术对高频语言模板进行训练、对分类语料进行训练以及对分类词表进行训练。
本实施例:(1)“对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序”,不仅考虑了句子出现的“频率”,而且充分考虑了句子在数据样本(如文章)中的位置;当句子的位置在数据样本(如:文章)中开始段落、中间段落、结尾段落时,分配不同的句子位置权重;故,根据句子频率与句子位置可以准确计算每个句子的重要程度,从而提高排序的准确性。(2)本实施例“对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度,并根据每一个词语的重要程度选取分类词,得到分类词表”,不仅考虑了词语出现的“频率”,而且充分考虑了词语在数据样本(如文章)中的位置与词性;当词语的位置在数据样本(如:文章)中标题、开始段落、中间段落、结尾段落时,分配不同的位置权重;当词语的词性为名词、动词、形容词、副词、其他时,分配不同的词性权重;故,根据词语频率、词语位置权重、词语词性权重可以准确计算每个词语的重要程度,从而提高分类词表的准确性。
不难理解,本实施例根据句子频率与句子位置可以准确计算每个句子的重要程度以提高排序的准确性,且根据词语频率、词语位置、词语词性可以准确计算每个词语的重要程度以提高分类词表的准确性,从而有效提升语言模型识别结果的准确度。
实施例三
参阅图3,是本申请实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是PC、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网 络接口23、以及语言模型构建系统20。其中:
本实施例中,存储器21至少包括一种类型的非易失性计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的语言模型构建系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行语言模型构建系统20,以实现实施例一的语言模型构建方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述语言模型构建系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本申请。
例如,图2示出了所述实现语言模型构建系统20实施例二的程序模块示意图,该实施例中,所述基于语言模型构建系统20可以被划分为第一获取模块200、第一挖掘模块202、统计模块204、计算模块206、排序模块208、选取模块210、构建模块212、分类模块214、 第二获取模块216、第二挖掘模块218和训练模块220。其中,本申请所称的程序模块是指能够完成特定功能的一系列计算机可读指令段。所述程序模块200-220的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种非易失性计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机可读指令,程序被处理器执行时实现相应功能。本实施例的非易失性计算机可读存储介质用于存储语言模型构建系统20,被处理器执行如下步骤:
获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
根据排序结果从所述挖掘出的句子中选取分类训练样本;
根据所述分类训练样本构建文本分类器;
通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种语言模型构建方法,所述方法包括:
    获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
    对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
    根据排序结果从所述挖掘出的句子中选取分类训练样本;
    根据所述分类训练样本构建文本分类器;
    通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
    根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
    对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
  2. 根据权利要求1所述的语言模型构建方法,根据句子频率与句子位置计算每个句子的重要程度的步骤,包括:
    根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;及
    根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
    Figure PCTCN2019117769-appb-100001
    其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
  3. 根据权利要求2所述的语言模型构建方法,根据分类结果获取分类词表和分类语料的步骤,包括:
    对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度;
    根据每一个词语的重要程度选取分类词,得到分类词表;及
    将所述分类词表中的词所对应的句子作为分类语料。
  4. 根据权利要求3所述的语言模型构建方法,对分类结果中的句子中的词语进行词 语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤,包括:
    根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
    根据每个词语的词语词性,为每个词语分配相应的词语词性权重;
    根据每个词语对应的词语频率、词语位置权重、词语词性权重,计算每个词语的重要程度。
  5. 根据权利要求4所述的语言模型构建方法,每个词语的重要程度通过以下公式计算得到:
    Figure PCTCN2019117769-appb-100002
    其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
  6. 一种语言模型构建系统,所述系统包括:
    第一获取模块,用于获取数据样本;
    第一挖掘模块,用于对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
    统计模块,用于对挖掘出的句子进行句子频率与句子位置统计;
    计算模块,用于根据句子频率与句子位置计算每个句子的重要程度;
    排序模块,用于根据每个句子的重要程度对挖掘出的句子进行排序;
    选取模块,用于根据排序结果从所述挖掘出的句子中选取分类训练样本;
    构建模块,用于根据所述分类训练样本构建文本分类器;
    分类模块,用于通过所述文本分类器对所述数据样本进行分类;
    第二获取模块,用于根据分类结果获取分类词表和分类语料;
    第二挖掘模块,用于根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
    训练模块,用于对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
  7. 根据权利要求6所述的语言模型构建系统,所述计算模块还用于:
    根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;及
    根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
    Figure PCTCN2019117769-appb-100003
    其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
  8. 根据权利要求7所述的语言模型构建系统,所述第二获取模块还用于:
    对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度;
    根据每一个词语的重要程度选取分类词,得到分类词表;及
    将所述分类词表中的词所对应的句子作为分类语料。
  9. 根据权利要求8所述的语言模型构建系统,所述第二获取模块还用于:
    根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
    根据每个词语的词语词性,为每个词语分配相应的词语词性权重;
    根据每个词语对应的词语频率、词语位置权重、词语词性权重,计算每个词语的重要程度。
  10. 根据权利要求9所述的语言模型构建系统,每个词语的重要程度通过以下公式计算得到:
    Figure PCTCN2019117769-appb-100004
    其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
  11. 一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令,所述计算机可读指令被处理器执行时实现以下步骤:
    获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
    对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
    根据排序结果从所述挖掘出的句子中选取分类训练样本;
    根据所述分类训练样本构建文本分类器;
    通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
    根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
    对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
  12. 根据权利要求11所述的计算机设备,根据句子频率与句子位置计算每个句子的重要程度的步骤,包括:
    根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;及
    根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
    Figure PCTCN2019117769-appb-100005
    其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
  13. 根据权利要求12所述的计算机设备,根据分类结果获取分类词表和分类语料的步骤,包括:
    对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度;
    根据每一个词语的重要程度选取分类词,得到分类词表;及
    将所述分类词表中的词所对应的句子作为分类语料。
  14. 根据权利要求13所述的计算机设备,对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤,包括:
    根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
    根据每个词语的词语词性,为每个词语分配相应的词语词性权重;
    根据每个词语对应的词语频率、词语位置权重、词语词性权重,计算每个词语的重要 程度。
  15. 根据权利要求14所述的计算机设备,每个词语的重要程度通过以下公式计算得到:
    Figure PCTCN2019117769-appb-100006
    其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
  16. 一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质内存储有计算机可读指令,所述计算机可读指令可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;
    对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;
    根据排序结果从所述挖掘出的句子中选取分类训练样本;
    根据所述分类训练样本构建文本分类器;
    通过所述文本分类器对所述数据样本进行分类,根据分类结果获取分类词表和分类语料;
    根据所述分类词表对所述分类语料进行挖掘,得到高频语言模板;及
    对所述高频语言模板进行训练,得到分类模板语言模型,并对所述分类语料进行训练,得到分类语言模型,对所述分类词表进行训练,得到分类词表语言模型。
  17. 根据权利要求16所述的非易失性计算机可读存储介质,根据句子频率与句子位置计算每个句子的重要程度的步骤,包括:
    根据每个句子在数据样本中所处的位置,分配相应的句子位置权重;及
    根据句子频率与句子位置权重通过以下公式计算每个句子的重要程度:
    Figure PCTCN2019117769-appb-100007
    其中,P i代表第i个句子的重要程度,X i代表第i个句子在数据样本中的句子频率,Y i代表第i个句子在数据样本中的句子位置权重,n代表数据样本中句子总数。
  18. 根据权利要求17所述的非易失性计算机可读存储介质,根据分类结果获取分类词表和分类语料的步骤,包括:
    对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度;
    根据每一个词语的重要程度选取分类词,得到分类词表;及
    将所述分类词表中的词所对应的句子作为分类语料。
  19. 根据权利要求18所述的非易失性计算机可读存储介质,对分类结果中的句子中的词语进行词语频率、词语位置、词语词性统计,根据词语频率、词语位置、词语词性计算每一个词语的重要程度的步骤,包括:
    根据每个词语在数据样本中所处的位置,分配相应的词语位置权重;
    根据每个词语的词语词性,为每个词语分配相应的词语词性权重;
    根据每个词语对应的词语频率、词语位置权重、词语词性权重,计算每个词语的重要程度。
  20. 根据权利要求19所述的非易失性计算机可读存储介质,每个词语的重要程度通过以下公式计算得到:
    Figure PCTCN2019117769-appb-100008
    其中,Q i代表第i个词语的重要程度,X i代表第i个词语在数据样本中的词语频率,Y i代表第i个词语在数据样本中的词语位置权重,Z i代表第i个词语在数据样本中的词语词性权重,n代表数据样本中词语总数。
PCT/CN2019/117769 2019-09-26 2019-11-13 语言模型构建方法、系统、计算机设备及可读存储介质 WO2021056740A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910917739.1A CN110750976A (zh) 2019-09-26 2019-09-26 语言模型构建方法、系统、计算机设备及可读存储介质
CN201910917739.1 2019-09-26

Publications (1)

Publication Number Publication Date
WO2021056740A1 true WO2021056740A1 (zh) 2021-04-01

Family

ID=69277180

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117769 WO2021056740A1 (zh) 2019-09-26 2019-11-13 语言模型构建方法、系统、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN110750976A (zh)
WO (1) WO2021056740A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021226A (zh) * 2016-05-16 2016-10-12 中国建设银行股份有限公司 一种文本摘要生成方法及装置
CN109960724B (zh) * 2019-03-13 2021-06-04 北京工业大学 一种基于tf-idf的文本摘要方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940A (zh) * 2007-11-27 2009-06-03 北京大学 为文档集自动生成摘要的方法及装置
CN104217717A (zh) * 2013-05-29 2014-12-17 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
US20180203852A1 (en) * 2017-01-18 2018-07-19 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
CN109614626A (zh) * 2018-12-21 2019-04-12 北京信息科技大学 基于万有引力模型的关键词自动抽取方法

Also Published As

Publication number Publication date
CN110750976A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
US11093854B2 (en) Emoji recommendation method and device thereof
US20200081899A1 (en) Automated database schema matching
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US11544459B2 (en) Method and apparatus for determining feature words and server
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
WO2020087774A1 (zh) 基于概念树的意图识别方法、装置及计算机设备
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
WO2021051517A1 (zh) 基于卷积神经网络的信息检索方法、及其相关设备
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
WO2020259280A1 (zh) 日志管理方法、装置、网络设备和可读存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
WO2020232898A1 (zh) 文本分类方法、装置、电子设备及计算机非易失性可读存储介质
WO2023029356A1 (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN110162771A (zh) 事件触发词的识别方法、装置、电子设备
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
US20240111956A1 (en) Nested named entity recognition method based on part-of-speech awareness, device and storage medium therefor
WO2019041528A1 (zh) 新闻情感方向判断方法、电子设备及计算机可读存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19946493

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19946493

Country of ref document: EP

Kind code of ref document: A1