WO2021135444A1

WO2021135444A1 - 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

Info

Publication number: WO2021135444A1
Application number: PCT/CN2020/117577
Authority: WO
Inventors: 郑立颖; 徐亮
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-06-28
Filing date: 2020-09-25
Publication date: 2021-07-08
Also published as: CN111753531A; CN111753531B

Abstract

一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质，涉及大数据处理，该方法部分包括：将新词加入到词典库中；确定出待纠错原文本中的候选错误词；确定出同音词集合；分别将候选错误词对应替换为同音词；选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。考虑到公文书场景下特有的术语表达，对公文文本进行新词发现处理，再将新词加入到词典库中，这样能够挖掘公文书场景下的词作为词典库的补充，目标词典库就含有公文场景下特有的术语的新词；再确定待纠错原文本的候选错误词，避免通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题。该方法还涉及区块链技术，目标词典库存储于区块链中。

Description

一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质

本申请要求于 2020年 6月 28日提交中国专利局、申请号为 202010598449.8，发明名称为“ 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据处理，尤其涉及一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质。

背景技术

文本纠错是自然语言处理中的难题之一。文本错误主要有用字错误、替换错误、法错误、用词错误、多字错误和缺字错误等。文本数据中广泛存在音似词替换错误，例如，“短板”被误写为“短班”、“辅助决策”被误写为“扶助决策”等。错词的存在通常直接导致分词错误，而分词错误又使得文本的语义混乱，给文本处理带来困难。文本纠错的应用场景很多，包括输入法纠错、ASR(语音转文字)纠错、公文书写纠错。

目前已有的纠错方法：使用端到端的深度学习方法同时完成错误识别和错误修正步骤，输出修正后的句子结果。

技术问题

但是，这种纠错方法对训练数据集的要求较高，需要前期收集较多的错误标注语料才能训练出可用的文本纠错模型。

发明人意识到，在特殊的场景下，例如，公文书场景下存在很多特定场景的表达术语，使用现成分词工具很容易误分或者无法识别的现象，容易出现由于通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题。

技术解决方案

本申请提供一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质，以解决文本纠错问题。

一种基于人工智能的文本纠错方法，包括：获取历史公文数据，其中，所述历史公文数据中包括公文文本；对所述公文文本进行新词发现处理，得到新词；将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；获取待纠错原文本；根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；根据每个所述候选错误词确定每个所述候选错误词的同音词集合；分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

一种基于人工智能的文本纠错装置，包括：第一获取模块，获取历史公文数据，其中，所述历史公文数据中包括公文文本新词发现模块，对所述公文文本进行新词发现处理，得到新词；新词加入模块，将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；第二获取模块，获取待纠错原文本；第一确定模块，根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；第二确定模块，根据每个所述候选错误词确定每个所述候选错误词的同音词集合；替换模块，分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；选取模块，从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：获取历史公文数据，其中，所述历史公文数据中包括公文文本；对所述公文文本进行新词发现处理，得到新词；将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；获取待纠错原文本；根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；根据每个所述候选错误词确定每个所述候选错误词的同音词集合；分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。。

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：获取历史公文数据，其中，所述历史公文数据中包括公文文本；对所述公文文本进行新词发现处理，得到新词；将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；获取待纠错原文本；根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；根据每个所述候选错误词确定每个所述候选错误词的同音词集合；分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

有益效果

上述基于人工智能的文本纠错方法、装置、计算机设备及存储介质，所实现的其中一个方案中，考虑到公文书场景下特有的术语表达，获取历史公文数据，对所述公文文本进行新词发现处理，再将新词加入到词典库中，这样，能够挖掘公文书场景下的词作为词典库的补充，得到的目标词典库就含有公文场景下特有的术语的新词；再根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本的候选错误词，避免了通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题；接着将候选错误词替换为同音词，从已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本，通过计算通顺度分值来筛选出最终的纠错结果，以提高基于人工智能的文本纠错的准确性。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请的技术方案，下面将对本申请的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中基于人工智能的文本纠错方法的一流程图；

图2是本申请一实施例中基于人工智能的文本纠错方法的另一流程图；

图3是本申请一实施例中基于人工智能的文本纠错方法的另一流程图；

图4是本申请一实施例中基于人工智能的文本纠错方法的另一流程图；

图5是本申请一实施例中基于人工智能的文本纠错装置的一原理框图；

图6是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一实施例中，如图1所示，提供一种基于人工智能的文本纠错方法，以该方法应用在服务器为例进行说明，包括如下步骤：

S10：获取历史公文数据，其中，所述历史公文数据中包括公文文本。

可理解地，获取公文书写场景下的历史公文数据，公文文本是指公文书写场景下的句子、段落、词语等。需要强调的是，本申请的基于人工智能的文本纠错方法指的是对于自然语言在使用过程中出现的问题自动进行识别和纠正的方法。

S20：对所述公文文本进行新词发现处理，得到新词。

可理解地，按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合；采用分词工具包对所述公文文本进行分词，得到所述公文文本对应的分词集合；从所述候选词组集合中删除所述公文文本对应的分词集合，得到目标候选词组集合；针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值；对所述目标候选词组集合中每个词组对应的分值进行排序，得到排序结果；根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词。

S30：将所述新词加入到原词典库中，得到加入所述新词后的目标词典库。

示例性地，原词典库为jieba词典库，在jieba词典库中开发者可以指定自己自定义的词典，以便包含jieba词典库里没有的词，可理解地，将所述新词加入到jieba词典库中，得到加入所述新词后的目标词典库，所述目标词典库用于对后续待纠错原文本进行候选错误词进行确定的。需要强调的是，为进一步保证上述目标词典库的私密和安全性，上述目标词典库还可以存储于一区块链的节点中。

S40：获取待纠错原文本。

可理解地，获取可能需要进行纠错的待纠错原文本。

S50：根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词。

在一实施例中，如图4所示，步骤S50中，也即所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词，具体包括如下步骤：

S51：根据分词工具对所述待纠错原文本进行分词处理，得到待纠错原文本的分词。

示例性地，采用jieba工具包对所述待纠错原文本进行分词处理得到待纠错原文本的分词。可理解地，jieba工具包结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描，前缀词典是指词典中的词按照前缀包含的顺序排列，例如词典中出现了“买”，之后以“买”开头的词都会出现在这一部分，例如“买水”，进而“买水果”，从而形成一种层级包含结构。若将词看成节点，词与词之间的分词符看成边，则一种分词方案对应着从第一个字到最后一个字的一条分词路径，形成全部可能分词结果的有向无环图。

S52：采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析，得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果。

示例性地，统计语言分析工具包可以为kenlm工具，kenlm工具训练的统计语言模型是基于人民日报语料训练出的统计语言模型，kenlm工具训练速度也更快，而且支持单机大数据的训练；基于统计语言模型从人民日报语料中提取的常用词作为现有词典库；判断所述待纠错原文本对应的分词集合中的词组是否存在现有词典库中，得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果。

可理解地，若分析结果为所述纠错原文本对应的分词集合中的词组不存在于现有词典库中，则判断所述待纠错原文本的分词是否存在于所述目标词典库中，若分析结果为所述纠错原文本对应的分词集合中的词组存在现有词典库中，则不需要对分词集合中的词组进行纠错。

S53：若所述分析结果为所述纠错原文本对应的分词集合中的词组不存在于现有词典库中，则判断所述待纠错原文本的分词是否存在于所述目标词典库中。

S54：若所述待纠错原文本的分词不存在于所述目标词典库中，则确定所述待纠错原文本的分词为候选错误词。

可理解地，判断所述待纠错原文本的分词是否存在于所述目标词典库中，若所述待纠错原文本的分词不存在于所述目标词典库中，则确定所述待纠错原文本的分词为候选错误词；若所述待纠错原文本的分词存在所述目标词典库中，则不需要对分词集合中的词组进行纠错。

在图4对应的实施例中，在基于人工智能的文本纠错的过程中，考虑到公文场景错别字标注语料较少的情况下，采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析，从而实现对所述待纠错原文本对应的分词集合中的词组进行无监督的错别字识别。

S60：根据每个所述候选错误词确定每个所述候选错误词的同音词集合。

示例性地，Python中提供了汉字转拼音的库，名字叫做PyPinyin，可以用于汉字注音、排序、检索等等场合，在本实施例中采用PyPinyin工具包找出待纠错原文本的每个候选错误词对应的若干个同音词，再将该候选错误词对应的若干同音词集合起来组成同音词集合。

S70：分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合。

可理解地，考虑到错误音似词和与其对应的正确词的上下文语境相同，将候选错误词替换为与其对应的若干个同音词，得到已纠错文本集合。

S80：从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

在一实施例中，步骤S80中，也即所述从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本，具体包括如下步骤：

S81：采用统计语言模型中的贝叶斯公式计算所述已纠错文本集合中同音词替换后的已纠错文本的句子通顺度分值，得到已纠错文本的句子通顺度分值，其中贝叶斯公式如下，

p(w1w2...wn)＝p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1)；

其中，p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值；w1为已纠错文本中的第一个词；p(w1)为已纠错文本中的第一个词的概率；wn为已纠错文本中的第n个词；p(wn)为已纠错文本中第n个词的概率；p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1，求后面的词wn出现的条件概率；

示例性地，使用kenlm工具训练的统计语言模型计算将候选错误词替换为同音词后的句子通顺度分值，得到采用不同的同音词进行替换后的已纠错文本的句子通顺度分值，选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。可理解地，预设的文本通顺度是指预先设定的数值，例如，预设的文本通顺度为0.5、0.6、0.7等。

可理解地，采用如下统计语言模型中的贝叶斯公式进行计算：

p(w1w2...wn)＝p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1)

其中，p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值；w1为第一个词；p(w1)为第一个词的概率；wn为第n个词；p(wn)为第n个词的概率； p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1，求后面的词wn出现的条件概率；

同时，语言模型计算出的概率分布与“理想”的概率分布是有差别的，因此需要对模型理想的概率分布进行评价，而评价语言模型的常见的方式就是困混度(perplexity)，困混度也被称为复杂度、混淆度等，句子出现的概率越大，那么perplexity就越小。

S82：选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

可理解地，预设的文本通顺度是指文本语言的通顺合理的程度，预设的文本通顺度可以为0.6、0.7、0.8等，具体本申请不做限定。例如，候选错误词为“当局着迷”，不同的同音词为“当局者迷”、“当局则米”、“单据着迷”，采用不同的同音词进行替换后的已纠错文本为“如今正处于当局者迷的时代”、“如今正处于当局则米的时代”、“如今正处于单据着迷的时代”；其中，,已纠错文本为“如今正处于当局者迷的时代”的句子通顺度分值为0.9，已纠错文本为“如今正处于当局则米的时代”的句子通顺度分值为0.5、已纠错文本为“如今正处于单据着迷的时代”的句子通顺度分值为0.6，预设的文本通顺度为0.8，最终选取超过预设的文本通顺度“0.8”的已纠错文本“如今正处于当局则米的时代”作为最终的已纠错文本。

在本实施例中，采用统计语言模型中的贝叶斯公式计算已纠错文本的句子通顺度分值，能够提高通顺度分值计算的准确度，进一步提高已纠错文本选取的准确性。

在图1对应的实施例中，考虑到公文书场景下特有的术语表达，获取历史公文数据，对所述公文文本进行新词发现处理，再将新词加入到词典库中，这样，能够挖掘公文书场景下的词作为词典库的补充，得到的目标词典库就含有公文场景下特有的术语的新词；再根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本的候选错误词，避免了通用的纠错模型将未识别出特定术语而给将正确的内容改错的问题；接着将候选错误词替换为同音词；从已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本，通过计算通顺度分值来筛选出最终的纠错结果，以提高基于人工智能的文本纠错的准确性。

在一实施例中，如图2所示，步骤S20中，也即所述对所述公文文本进行新词发现处理，得到新词，具体包括如下步骤：

S21：按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合。

示例性地，按顺序依次对所述公文文本的字符拆成二元组和三元组，将得到的二元组和三元组作为候选词组集合。例如，按顺序依次对所述公文文本“新词发现”的字符“新”、“词”、“发”、“现”拆成二元组和三元组，得到对应的二元组有“新词”，“词发”，“发现”，三元组有“新词发”，“词发现”，将得到的二元组“新词”，“词发”，“发现”和三元组“新词发”，“词发现”作为候选词组集合。

本方案的实施例中，按顺序依次对所述公文文本的字符拆成二元组和三元组，将得到的二元组和三元组作为候选词组集合，以实现将公文文本中每组可能成为新词的词组拆分成独立的词。

S22：采用分词工具包对所述公文文本进行分词，得到所述公文文本对应的分词集合。

示例性地，所述分词工具包可以为jieba工具包。例如，采用jieba工具包对公文文本“新词发现”进行分析，得到公文文本对应的分词集合“新词”和“发现”。

S23：从所述候选词组集合中删除所述公文文本对应的分词集合，得到目标候选词组集合。

例如，从候选词组集合的二元组“新词”，“词发”，“发现”和三元组“新词发”，“词发现”中删除公文文本对应的分词集合的“新词”和“发现”，得到目标候选词组集合二元组“词发”和三元组“新词发”，“词发现”。

S24：针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值。

在一实施例中，如图3所示，步骤S24中，也即所述针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值，具体包括如下步骤：

S241：按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符。

可理解地，目标候选词组集合中的二元组包括“词发”和三元组包括“新词发”，“词发现”，若目标候选词组集合中的词组为二元组“词发”，则按顺序依次将目标候选词组集合中的词语“词发”拆成第一字符“词”和第二字符“发”；若目标候选词组集合中的词组为三元组“新词发”，则按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”，或者将词语“新词发”拆成第一字符“词发”和第二字符“新”。

S242：获取所述第一字符出现的概率、所述第二字符出现的概率以及所述目标候选词组集合的词组出现的概率。

S243：获取所述目标候选词组集合的词组的左侧的信息熵以及所述目标候选词组集合的词组的右侧的信息熵。

S244：针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值。

在一实施例中，当所述目标候选词组集合中的词组为二元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，具体包括如下步骤：

按顺序依次将所述二元组拆分成第一字符和第二字符，其中，所述第一字符和所述第二字符均为单字符；

在步骤S244中，也即所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，具体包括如下步骤：

采用如下分值计算公式，根据所述二元组中的词组的第一字符出现的概率、所述二元组中的第二字符出现的概率、所述二元组的词组出现的概率、所述二元组的词组左侧的信息熵以及所述二元组右侧的信息熵，得到二元组中的每个词组对应的分值；

其中，

p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。

可理解地，计算出每个词的信息熵可以用来作为词的权重，信息熵公式如下：H(w)＝-∑plog(p)，其中w为该词，p为该词左右出现的不同词的数目，例如某篇文章中分别出现了两次A、W、C，一次B、W、D，那么W的左侧信息熵为：

2/3表示词组A在3次中出现了2次，B只出现了一次，故为1/3；同理W右侧的信息熵也是一样的；如果某个词的左右信息熵都很大，那这个词就很可能是关键词。

在本实施例中，采用分值计算公式，根据所述二元组中的词组的第一字符出现的概率、所述二元组中的第二字符出现的概率、所述二元组的词组出现的概率、所述二元组的词组左侧的信息熵以及所述二元组右侧的信息熵，得到二元组中的每个词组对应的分值，根据上述计算参数进行分值计算进一步提高每个词组对应的分值的准确性，并根据每个词组对应的分值来判断每个词组的作为新词的概率。

在一实施例中，当所述目标候选词组集合中的词组为三元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述二元组拆分成第一字符和第二字符，其中，所述第一字符为双字符，所述第二字符均为单字符；

所述方法还包括：

采用如下分值计算公式，根据三元组中的词组的第一字符出现的概率、所述三元组中的第二字符出现的概率、所述三元组的词组出现的概率、所述三元组的词组左侧的信息熵以及所述三元组右侧的信息熵，得到三元组的词组对应的多个分值；

其中，

可理解地，双字符是指字符串，双字符包括两个单字符，单字符只包括一个字符。目标候选词组集合中的词组为三元组“新词发”，则按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”，或者将词语“新词发”拆成第一字符“词发”和第二字符“新”；若按顺序依次将目标候选词组集合中的词语“新词发”拆成第一字符“新词”和第二字符“发”，得到的分值为0.3；若按顺序依次将目标候选词组集合中的词语““新词发”拆成第一字符“新”和第二字符“词发”，得到的分值为0.5。

在本实施例中，采用分值计算公式，根据三元组中的词组的第一字符出现的概率、所述三元组中的第二字符出现的概率、所述三元组的词组出现的概率、所述三元组的词组左侧的信息熵以及所述三元组右侧的信息熵，得到三元组的词组对应的多个分值，根据上述计算参数进行分值计算进一步提高三元组的词组对应的分值的准确性，并根据每个词组对应的分值来判断每个词组的作为新词的概率。

在图3对应的实施例中，针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，对应得到每个词组对应的分值，根据上述计算参数进行分值计算以提高每个词组对应的分值的准确性，并根据每个词组对应的分值来判断每个词组的作为新词的概率。

S25：对所述目标候选词组集合中每个词组对应的分值进行排序，得到排序结果。

可理解地，按照score分值的高低对目标候选词组集合中每个词组进行排序，得到排序结果。

S26：根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词。

示例性地，预设阈值为预先设定的数值，例如，预设阈值可以为0.6、0.7、0.8等，对小于所述预设阈值的score进行剔除，选取超过预设阈值的score对应的目标候选词组集合中的词组作为新词。

在图2对应的实施例中，对公文书场景下进行新词发现，按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合，再去除利用分词工具包进行分词后得到的分词集合，得到目标候选词组集合；再针对所述目标候选词组集合的词组，根据词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值，最后根据排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词，这个过程能够自动挖掘该场景下的新词作为词典的补充。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

在一实施例中，提供一种基于人工智能的文本纠错装置，该基于人工智能的文本纠错装置与上述实施例中基于人工智能的文本纠错方法一一对应。如图5所示，该基于人工智能的文本纠错装置包括第一获取模块10、新词发现模块20、新词加入模块30、第二获取模块40、第一确定模块50、第二确定模块60、替换模块70和选取模块80。各功能模块详细说明如下：第一获取模块10，获取历史公文数据，其中，所述历史公文数据中包括公文文本；新词发现模块20，对所述公文文本进行新词发现处理，得到新词；新词加入模块30，将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；需要强调的是，为进一步保证上述目标词典库的私密和安全性，上述目标词典库还可以存储于一区块链的节点中。第二获取模块40，获取待纠错原文本；第一确定模块50，根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；第二确定模块60，根据每个所述候选错误词确定每个所述候选错误词的同音词集合；替换模块70，分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；选取模块80，从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

关于基于人工智能的文本纠错装置的具体限定可以参见上文中对于基于人工智能的文本纠错方法的限定，在此不再赘述。上述基于人工智能的文本纠错装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图6所示，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：获取历史公文数据，其中，所述历史公文数据中包括公文文本；对所述公文文本进行新词发现处理，得到新词；将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；需要强调的是，为进一步保证上述目标词典库的私密和安全性，上述目标词典库还可以存储于一区块链的节点中。获取待纠错原文本；根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；根据每个所述候选错误词确定每个所述候选错误词的同音词集合；分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

在一个实施例中，提供了一个或多个存储有计算机可读指令的可读存储介质，该可读存储介质上存储有计算机可读指令，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现以下步骤：获取历史公文数据，其中，所述历史公文数据中包括公文文本；对所述公文文本进行新词发现处理，得到新词；将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；获取待纠错原文本；根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；根据每个所述候选错误词确定每个所述候选错误词的同音词集合；分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种基于人工智能的文本纠错方法，其中，包括：

获取历史公文数据，其中，所述历史公文数据中包括公文文本；

对所述公文文本进行新词发现处理，得到新词；

将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；

获取待纠错原文本；

根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；

根据每个所述候选错误词确定每个所述候选错误词的同音词集合；

分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；

从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
如权利要求1所述的基于人工智能的文本纠错方法，其中，所述对所述公文文本进行新词发现处理，得到新词，包括：

按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合；

采用分词工具包对所述公文文本进行分词，得到所述公文文本对应的分词集合；

从所述候选词组集合中删除所述公文文本对应的分词集合，得到目标候选词组集合；

针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值；

对所述目标候选词组集合中每个词组对应的分值进行排序，得到排序结果；

根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词。
如权利要求2所述的基于人工智能的文本纠错方法，其中，所述针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值，包括：

按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符；

获取所述第一字符出现的概率、所述第二字符出现的概率以及所述词组出现的概率；

获取所述词组的左侧的信息熵以及所述词组的右侧的信息熵；

针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值。
如权利要求3所述的基于人工智能的文本纠错方法，其中，当所述目标候选词组集合中的词组为二元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述二元组拆分成第一字符和第二字符，其中，所述第一字符和所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求3所述的基于人工智能的文本纠错方法，其中，当所述目标候选词组集合中的词组为三元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述三元组拆分成第一字符和第二字符，其中，所述第一字符为双字符，所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求1所述的基于人工智能的文本纠错方法，其中，所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词，包括：

根据分词工具对所述待纠错原文本进行分词处理，得到待纠错原文本的分词；

采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析，得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果；

若所述纠错原文本对应的分词集合中的词组不存在于现有词典库中，则判断所述待纠错原文本的分词是否存在于所述目标词典库中；

若所述待纠错原文本的分词不存在于所述目标词典库中，则确定所述待纠错原文本的分词为候选错误词。
如权利要求1所述的基于人工智能的文本纠错方法，其中，所述从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本，包括：

采用统计语言模型中的贝叶斯公式计算所述已纠错文本集合中同音词替换后的已纠错文本的句子通顺度分值，得到已纠错文本的句子通顺度分值，其中贝叶斯公式如下，

p(w1w2...wn)＝p(w1)*p(w2|w1)*p(w3|w1w2)....p(wn|w1w2w3...wn-1)；

其中，p(w1w2...wn)为同音词进行替换后的已纠错文本的句子通顺度分值；w1为已纠错文本中的第一个词；p(w1)为已纠错文本中的第一个词的概率；wn为已纠错文本中的第n个词；p(wn)为已纠错文本中的第n个词的概率；p(wn|w1w2w3...wn-1)为给定前面的词为w1w2w3...wn-1，求后面的词wn出现的条件概率；

选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
一种基于人工智能的文本纠错装置，其中，包括：

第一获取模块，获取历史公文数据，其中，所述历史公文数据中包括公文文本；

新词发现模块，对所述公文文本进行新词发现处理，得到新词；

新词加入模块，将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；

第二获取模块，获取待纠错原文本；

第一确定模块，根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；

第二确定模块，根据每个所述候选错误词确定每个所述候选错误词的同音词集合；

替换模块，分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；

选取模块，从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取历史公文数据，其中，所述历史公文数据中包括公文文本；

对所述公文文本进行新词发现处理，得到新词；

将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；

获取待纠错原文本；

根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；

根据每个所述候选错误词确定每个所述候选错误词的同音词集合；

分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；

从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
如权利要求9所述的计算机设备，其中，所述对所述公文文本进行新词发现处理，得到新词，包括：

按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合；

采用分词工具包对所述公文文本进行分词，得到所述公文文本对应的分词集合；

从所述候选词组集合中删除所述公文文本对应的分词集合，得到目标候选词组集合；

针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值；

对所述目标候选词组集合中每个词组对应的分值进行排序，得到排序结果；

根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词。
如权利要求10所述的计算机设备，其中，所述针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值，包括：

按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符；

获取所述第一字符出现的概率、所述第二字符出现的概率以及所述词组出现的概率；

获取所述词组的左侧的信息熵以及所述词组的右侧的信息熵；

针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值。
如权利要求11所述的计算机设备，其中，当所述目标候选词组集合中的词组为二元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述二元组拆分成第一字符和第二字符，其中，所述第一字符和所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求11所述的计算机设备，其中，当所述目标候选词组集合中的词组为三元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述三元组拆分成第一字符和第二字符，其中，所述第一字符为双字符，所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求9所述的计算机设备，其中，所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词，包括：

根据分词工具对所述待纠错原文本进行分词处理，得到待纠错原文本的分词；

采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析，得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果；

若所述纠错原文本对应的分词集合中的词组不存在于现有词典库中，则判断所述待纠错原文本的分词是否存在于所述目标词典库中；

若所述待纠错原文本的分词不存在于所述目标词典库中，则确定所述待纠错原文本的分词为候选错误词。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取历史公文数据，其中，所述历史公文数据中包括公文文本；

对所述公文文本进行新词发现处理，得到新词；

将所述新词加入到原词典库中，得到加入所述新词后的目标词典库；

获取待纠错原文本；

根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词；

根据每个所述候选错误词确定每个所述候选错误词的同音词集合；

分别将所述待纠错原文本的候选错误词替换为所述同音词集合中对应的同音词，得到已纠错文本集合；

从所述已纠错文本集合中选取超过预设的文本通顺度的已纠错文本作为最终的已纠错文本。
如权利要求15所述的可读存储介质，其中，所述对所述公文文本进行新词发现处理，得到新词，包括：

按顺序依次对所述公文文本的字符拆成多元组，将得到的多元组作为候选词组集合；

采用分词工具包对所述公文文本进行分词，得到所述公文文本对应的分词集合；

从所述候选词组集合中删除所述公文文本对应的分词集合，得到目标候选词组集合；

针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值；

对所述目标候选词组集合中每个词组对应的分值进行排序，得到排序结果；

根据所述排序结果和预设阈值对目标候选词组集合中的词组进行筛选，得到新词
如权利要求16所述的可读存储介质，其中，所述针对所述目标候选词组集合的词组，根据各所述词组中每个词出现的概率计算，得到目标候选词组集合中每个词组对应的分值，包括：

按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符；

获取所述第一字符出现的概率、所述第二字符出现的概率以及所述词组出现的概率；

获取所述词组的左侧的信息熵以及所述词组的右侧的信息熵；

针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值。
如权利要求17所述的可读存储介质，其中，当所述目标候选词组集合中的词组为二元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述二元组拆分成第一字符和第二字符，其中，所述第一字符和所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求17所述的可读存储介质，其中，当所述目标候选词组集合中的词组为三元组时，所述按顺序依次将所述目标候选词组集合的词组拆成第一字符和第二字符，包括：

按顺序依次将所述三元组拆分成第一字符和第二字符，其中，所述第一字符为双字符，所述第二字符均为单字符；

所述针对所述目标候选词组集合中的每个词组，分别根据每个词组对应的所述第一字符出现的概率、所述第二字符出现的概率、所述词组出现的概率、所述词组左侧的信息熵以及所述词组右侧的信息熵，得到每个词组对应的分值，包括：

采用如下分值计算公式得到每个词组对应的分值；

其中，
p(x,y)为第一字符x和第二字符y共同出现的概率，p(x)为第一字符x出现的概率，p(y)为第二字符y出现的概率，LE为词组左侧的信息熵，RE为词组右侧的信息熵。
如权利要求15所述的可读存储介质，其中，所述根据所述待纠错原文本和所述目标词典库确定所述待纠错原文本中的候选错误词，包括：

根据分词工具对所述待纠错原文本进行分词处理，得到待纠错原文本的分词；

采用统计语言分析工具包对所述待纠错原文本对应的分词集合中的词组进行分析，得到待纠错原文本对应的分词集合中的词组是否存在于现有词典库中的分析结果；

若所述纠错原文本对应的分词集合中的词组不存在于现有词典库中，则判断所述待纠错原文本的分词是否存在于所述目标词典库中；

若所述待纠错原文本的分词不存在于所述目标词典库中，则确定所述待纠错原文本的分词为候选错误词。