WO2021189851A1

WO2021189851A1 - 文本纠错方法、系统、设备及可读存储介质

Info

Publication number: WO2021189851A1
Application number: PCT/CN2020/125011
Authority: WO
Inventors: 回艳菲; 王健宗; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-09-03
Filing date: 2020-10-30
Publication date: 2021-09-30
Also published as: CN112016310A

Abstract

一种文本纠错方法、系统、设备及计算机可读存储介质，涉及人工智能技术领域。该方法通过获取待纠错文本序列，通过基于Bert的掩码语言模型对待纠错文本序列进行识别，确定待纠错文本序列中需要进行纠错的目标字；根据目标字以及待纠错文本序列生成所述目标字的候选字集合；按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。采用了基于Bert的掩码语言模型，能够避免中文文本纠错的平行语料不足所造成的过拟合问题；通过基于目标字的上下文语境动态生成候选字，避免了现有技术中使用混淆集所造成的候选字生成不够灵活的问题。

Description

文本纠错方法、系统、设备及可读存储介质

本申请要求于2020年9月3日提交中国专利局、申请号为CN202010925578.3，发明名称为“文本纠错方法、系统、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本纠错方法、系统、设备及计算机可读存储介质。

背景技术

进入21世纪以来，医疗领域的重要文档逐渐从手写文件变成了电子文档的形式，如病例等重要文档都是医生手动输入到计算机中进行存储，那么在这一过程中文档输入信息的正确性至关重要，由于输入过程中的错误敲击或者输入法都会造成一定比例的语法错误，而这种错误在医疗领域是极其严重的问题，需要尽最大的可能去消除这种语法错误。

技术问题

发明人意识到传统的中文文本纠错主要存在两个问题，一是中文文本纠错的平行语料不足，二是使用混淆集进行纠错时，由于混淆集是人为预先设定好的，不同的业务应用场景需要人工构建不同的混淆集，因此其灵活性不够高，使得目前的中文语法纠错模型普遍性能不佳。

技术解决方案

一种文本纠错方法，所述文本纠错方法包括以下步骤：

获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。

一种文本纠错系统，所述文本纠错系统包括：

目标字确定模块，用于获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

候选字生成模块，用于根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

替换模块，用于按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。

一种文本纠错设备，所述文本纠错设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本纠错程序，其中所述文本纠错程序被所述处理器执行时，实现如下步骤：

一种计算机可读存储介质，所述计算机可读存储介质上存储有文本纠错程序，其中所述文本纠错程序被处理器执行时，实现如下步骤：

本申请实现了基于目标字的上下文语境动态生成候选字，避免了现有技术中使用混淆集所造成的候选字生成不够灵活的问题，而且本申请不用对待纠错文本序列中所有的文字生成候选字，极大的节约了计算资源。

附图说明

图1为本申请实施例方案中涉及的文本纠错设备的硬件结构示意图；

图2为本申请文本纠错方法第一实施例的流程示意图；

图3为本申请文本纠错系统第一实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例涉及的文本纠错方法主要应用于文本纠错设备，该文本纠错设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。

参照图1，图1为本申请实施例方案中涉及的文本纠错设备的硬件结构示意图。本申请实施例中，文本纠错设备可以包括处理器1001（例如CPU），通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard）；网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）；存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的硬件结构并不构成对文本纠错设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及文本纠错程序。

在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的文本纠错程序，并执行以下操作：

基于上述硬件结构，提出本申请文本纠错方法的各个实施例。

传统的中文文本纠错主要存在两个问题，一是中文文本纠错的平行语料不足，二是使用混淆集进行纠错时，由于混淆集是人为预先设定好的，不同的业务应用场景需要人工构建不同的混淆集，因此其灵活性不够高，使得目前的中文语法纠错模型普遍性能不佳。

为解决上述问题，本申请提供一种文本纠错方法，即采用了已经预先利用大量正常样本完成了预训练的预训练语言模型，只需要采用少量的与业务相关的训练数据，在预训练语言模型的基础上进行微调得到基于Bert的掩码语言模型，从而避免了现有技术中中文文本纠错的平行语料不足所造成的过拟合问题；通过基于目标字以及待纠错文本序列生成候选字，实现了基于目标字的上下文语境动态生成候选字，避免了现有技术中使用混淆集所造成的候选字生成不够灵活的问题；而且，本申请不用对待纠错文本序列中所有的文字生成候选字，极大的节约了计算资源。

参照图2，图2为本申请文本纠错方法第一实施例的流程示意图。

本申请第一实施例提供一种文本纠错方法，所述文本纠错方法包括以下步骤：

步骤S10，获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

本实施例中的文本纠错方法是由文本纠错设备实现的，该文本纠错设备可以是服务器、个人计算机、笔记本电脑等设备，本实施例中以服务器为例进行说明。本实施例在进行文本纠错前，首先需要获取（构建）一个用以对待纠错文本进行识别的语言模型；而训练该语言模型需要使用大量的训练数据、计算时间和计算资源，而且还容易出现参数不够优化、准确率低、容易过拟合等风险。故而本实施例所使用的掩码语言模型（Masked Language Model，MLM）是在google提供的中文预训练语言模型的基础上进行FINE-TUNE（微调）后得到的。其中，语言模型的就是根据上下文去预测一个词是什么，能够从无限制的大规模单语语料中，学习到丰富的语义知识。本实施例中所采用的掩码语言模型，可以是基于Bert语言模型（Bidirectional Encoder Representations from Transformers）实现的；Bert语言模型包括Transformer编码器，由于self-attention机制，所以模型上下层直接全部互相连接的，可认为模型的所有层中是双向的，模型的输入包括token embedding、segmentation embedding、和position embedding共同构成；而Bert在进行预训练时，包括两个Masked LM和Next Sentence Prediction任务，而其预训练所用的样本，则可以是使用无标记语料，如从网络爬取的语料文本等内容。

进一步地，对于掩码语言模型的构造过程，是在google提供的中文预训练语言模型的基础上进行FINE-TUNE（微调）的迁移学习方式后得到的，从而保证在有限数据集的情况下也能获得较好的效果，有利于减小训练样本不足所带来的负面影响；微调是在预训练语言模型已有的参数基础上，通过标注训练数据对其进行迁移学习（训练），从而对部分参数进行微调，得到符合实际使用需求的模型；通过任务微调的方式进行模型构造，有利于在保证模型处理结果准确性的同时、降低模型构造成本，同时还可提高模型构造的效率。

在本实施例中，待纠错文本序列指的是需要进行纠错的文本，当然也可是对需要进行纠错的文本按照标点、断句进行划分后得到的语句，待纠错文本序列保留有其在原文本中的上下文联系。在得到待纠错文本序列后，将其输入至基于Bert的掩码语言模型，掩码语言模型对待纠错文本序列中的每个字进行识别，确定待纠错文本序列中可能存在错误，因而需要进行纠错的目标字。

进一步地，在一实施例中，上述步骤S10包括：通过所述掩码语言模型确定所述待纠错文本序列中每个字的上下文置信度，将上下文置信度低于预设阈值的字作为所述目标字。掩码语言模型能够对待纠错文本序列中每个位置的字计算其上下文置信度，进而将上下文置信度低于预设阈值的字作为需要进行纠错的目标字，其中，预设阈值可根据业务场景的准确度要求的高低进行设置，准确度要求越高，设置的预设阈值也对应越高。

或者，上述步骤S10包括：通过所述掩码语言模型确定所述待纠错文本序列中每个字的上下文置信度，将每个字按照上下文置信度高低进行排序，将上下文置信度最低的预设数量的字作为所述目标字。在掩码语言模型对待纠错文本序列中每个位置的字计算其上下文置信度后，可将待纠错文本序列中每个位置的字按照其上下文置信度的高低进行排序，将预设数量的上下文置信度最低的字作为需要进行纠错的目标字。其中，预设数量可根据业务场景的准确度要求、文本纠错设备的计算资源限制、文本纠错的计算时间要求进行设置，本实施例不做具体限制。

其中，每个字的上下文置信度反映的是在结合该字在待纠错文本序列中的上下文语义所确定的该字出现在其所在位置的概率，一个字的上下文置信度越高，其为需要进行纠错的目标字的概率越低，一个字的上下文置信度越低，其需要进行纠错的目标字的概率越高。

步骤S20，根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

在本实施例中，在确定需要进行纠错的目标字后，可根据目标字的上下文生成目标字的候选字集合。可以理解的是，每个位置的目标字都有与之对应的候选字集合，且候选字集合中的候选字的数量可以根据需要进行设置。

进一步地，在一实施例中，在确定需要进行纠错的目标字后，可对待纠错文本序列中的目标字进行标注，得到标注文本序列，将标注文本序列输入至掩码语言模型，掩码语言模型对标注文本序列进行处理，输出各个目标字的候选字集合。

进一步地，在一实施例中，在确定需要进行纠错的目标字后，可查找历史纠错记录中是否存在与该目标字对应的纠错后的历史替换字，若存在，则将历史替换字作为目标字的候选字，一个或多个候选字构成候选字集合；若不存在，则根据所述目标字的混淆集生成目标字的候选字集合。

步骤S30，按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。

在本实施例中，所述预设筛选规则可以为相似度-上下文置信度筛选规则，在预设筛选规则为相似度-上下文置信度筛选规则时，所述目标字的候选字集合中还包括目标字的各个候选字的上下文置信度，具体的筛选规则为，计算各个候选字与对应的所述目标字的相似度；基于各个候选字的上下文置信度、相似度以及预设过滤曲线从所述候选字集合中确定所述目标字的目标替换字，所述预设过滤曲线的横坐标为上下文置信度，纵坐标为相似度。

进一步地，在一实施例中，所述预设筛选规则也可以为字音相似度筛选规则，和/或，字形相似度筛选规则。具体地，所述字音相似度筛选规则为计算各个候选字与对应的目标字的字音相似度，将与目标字的字音相似度最高的候选字作为所述目标字的目标替换字；所述字形相似度筛选规则为计算各个候选字与对应的目标字的字形相似度，将与目标字的字形相似度最高的候选字作为所述目标字的目标替换字；对于将字音相似度筛选规则和字形相似度筛选规则结合起来进行筛选的情况，具体为，预先统计用户在历史打字时使用拼音输入法的使用频率以及使用笔画输入法的使用频率，根据拼音输入法的使用频率为字音相似度设置对应的字音权重系数P，根据笔画输入法的使用频率为字形相似度设置对应的字形权重系数V，使用频率越高，对应的权重系数越大，然后在对候选字集合进行筛选时，计算目标字的每个候选字的权重值=字音相似度*P+字形相似度*V，对目标字的每个候选字按照权重值大小进行排序，将权重值最大的候选字确定为目标字的目标替换字。可以理解的是，目标字的目标替换字的数量可以大于1。

在本实施例中，通过获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。

通过上述方式，本申请采用了已经预先利用大量正常样本完成了预训练的预训练语言模型，只需要采用少量的与业务相关的训练数据，在预训练语言模型的基础上进行微调得到基于Bert的掩码语言模型，从而避免了现有技术中中文文本纠错的平行语料不足所造成的过拟合问题；通过基于目标字以及待纠错文本序列生成候选字，实现了基于目标字的上下文语境动态生成候选字，避免了现有技术中使用混淆集所造成的候选字生成不够灵活的问题；而且，本申请不用对待纠错文本序列中所有的文字生成候选字，极大的节约了计算资源。

进一步地，图中未示的，基于上述图2所示的第一实施例，提出本申请文本纠错方法的第二实施例，本实施例中，步骤S10之前，还包括：

步骤A1，获取标注训练数据，所述标注训练数据包括不存在错误字的语句、存在错误字的语句及所述存在错误字的语句对应的正确语句；

步骤A2，基于所述标注训练数据对基于Bert的预训练语言模型进行FINE-TUNE微调，得到基于Bert的掩码语言模型。

在本实施例中，基于Bert的掩码语言模型是对通过标注训练数据对基于Bert的预训练语言模型的参数进行微调得到的，其中，标注训练数据是与业务场景相关的文本数据，不同的业务场景可能具有不同的标注训练数据。

进一步地，上述步骤A2包括：

对所述标注训练数据中所述不存在错误字的语句按照预设BERT掩码方式进行掩码得到第一掩码数据，并将掩码后的字的预测字设置为掩码前的字本身；

对所述标注训练数据中所述存在错误字的语句中的错误字进行原字掩码得到第二掩码数据，并将掩码后的字的预测字设置为对应的正确字；

基于所述第一掩码数据、第二掩码数据以及各自对应的预测字，对所述基于Bert的预训练语言模型进行微调，得到基于Bert的掩码语言模型。

在本实施例中，标注训练数据中包括不存在错误字的语句，可作为第一训练数据，对第一训练数据按照预设BERT掩码方式进行掩码，其中，预设BERT掩码方式指的是，对第一训练数据中预设比例的字进行掩码得到第一掩码数据，第一掩码数据还关联有与之对应的正确字，即预测字，第一掩码数据的预测字为它本身。具体掩码方式为，对第一训练数据中预设比例的字中的80%使用[MASK]掩码，以让模型通过上下文预测文本中的掩码字，学习完形填空，对第一训练数据中预设比例的字中的10%使用随机词掩码，以让模型学习如何纠正错误的字；对第一训练数据中预设比例的字中的10%保留原字，以让模型学习检测字是否是错误的。其中，预设比例小于或等于20%，例如可选为10%，15%，20%。

标注训练数据中还包括存在错误字的语句，可作为第二训练数据，对第二训练数据中的错误字进行原字掩码，即保留原字，得到第二掩码数据，第二掩码数据也关联有与之对应的正确字，即预测字。

得到第一掩码数据、第二掩码数据以及各自对应的预测字之后，将这些数据输入基于Bert的预训练语言模型，对预训练语言模型进行训练，即可得到基于Bert的掩码语言模型。

进一步地，为了进一步防止过拟合，可以对第二训练数据中的部分正确字也进行原字掩码，得到第三掩码数据，第三掩码数据也关联有与之对应的预测字，即它本身，其中，对第二训练数据中的部分正确字进行原字掩码的比例可与对第二训练数据中的错误字进行原字掩码的比例相同。对应的，得到第一掩码数据、第二掩码数据、第三掩码数据以及各自对应的预测字之后，将这些数据输入基于Bert的预训练语言模型，对预训练语言模型进行训练，即可得到基于Bert的掩码语言模型。

本实施例采用了已经预先利用大量正常样本完成了预训练的预训练语言模型，只需要采用少量的与业务相关的训练数据，在预训练语言模型的基础上进行微调得到基于Bert的掩码语言模型，从而避免了现有技术中中文文本纠错的平行语料不足所造成的过拟合问题。

进一步地，基于上述图2所示的第一实施例以及第二实施例，提出本申请文本纠错方法的第三实施例。

所述目标字的候选字集合中包括目标字的各个候选字的上下文置信度，上述步骤S30包括：

步骤S31，计算各个候选字与对应的所述目标字的相似度；

步骤S32，基于各个候选字的上下文置信度、相似度以及预设过滤曲线从所述候选字集合中确定所述目标字的目标替换字，所述预设过滤曲线的横坐标为上下文置信度，纵坐标为相似度。

在本实施例中，所述预设筛选规则为相似度-上下文置信度筛选规则，其中，候选字与对应的目标字的相似度是根据候选字与对应的目标字的字形相似度和字音相似度得到的。

在本实施例中，预设过滤曲线是根据标注训练数据的上下文置信度和相似度构建的一个函数，函数的自变量为上下文置信度（Confidence），因变量为相似度（Silmilarity），在预设过滤曲线构建完成后，将目标字的各个候选字标识在预设过滤曲线所在的坐标系中，每个候选字以其Silmilarity为横坐标，Confidence为纵坐标，即每个候选字在预设过滤曲线所在的坐标系中显示为坐标点，预设过滤曲线是人工找到一条曲线，其能够保证在曲线上方的候选字都是准确度较高的字，因此，可以在进行候选字筛选时，将所有处于曲线上方的候选字作为对应的目标字的目标替换字。

需要说明的是，按照相似度-上下文置信度筛选规则对所述目标字的候选字集合进行筛选时，不一定是选取候选字集合中与目标字的相似度、上下文置信度都是最高的候选字作为目标替换字。

进一步的，上述步骤S31包括：

基于所述候选字的读音信息构建第一字音序列，基于与所述候选字对应的目标字的读音信息构建第二字音序列；

计算所述第一字音序列与所述第二字音序列的字音编辑距离，基于所述字音编辑距离确定所述候选字与对应的所述目标字的字音相似度；

基于所述候选字的笔画顺序构建第一笔画序列，基于所述目标字的笔画顺序构建第二笔画序列；

计算所述第一笔画序列与所述第二笔画序列的笔画编辑距离，基于所述笔画编辑距离确定所述候选字与对应的所述目标字的字形相似度；

计算所述候选字与对应的所述目标字的字音相似度和字形相似度的平均值，作为所述候选字与对应的所述目标字的相似度。

在本实施例中，计算候选字与对应的目标字的字音相似度的方式具体为，基于候选字和对应的目标字，分别对其进行识别以获取其在中文普通话拼音中的读音信息，读音信息为包含音调的拼音，在确定候选字和对应的目标字的读音信息后即可构建字音序列，基于候选字的读音信息构建第一字音序列，基于与候选字对应的目标字的读音信息构建第二字音序列，字音序列包括拼音和音调，字音序列中的字符顺序可以是拼音在前音调在后，也可以是音调在前拼音在后，例如，候选字“吴”的字音序列为“wu2”，其中，“wu”表示拼音，“2”表示音调为第二声；目标字“昊”的字音序列为“hao4”，其中，“hao”表示拼音，“4”表示音调为第四声。

在确定字音序列之后，可以根据字音序列计算候选字与目标字之间的字音编辑距离，编辑距离即为将候选字的第一字音序列调整为目标字的第二字音序列所需要删除、增加、修改的字符数。

在确定候选字与目标字之间的字音编辑距离后，可根据下述公式计算候选字与目标字之间的字音相似度：字音相似度=（L _MAX-字音编辑距离）/L _MAX,其中，LMAX指的是候选字的第一字音序列长度和目标字的第二字音序列长度中的较大者。

在本实施例中，计算候选字与对应的目标字的字形相似度的方式具体为，基于候选字和对应的目标字，分别对其进行识别以获取其在标准中文书写规则中的笔画顺序，在确定候选字和对应的目标字的笔画顺序后即可构建笔画序列，基于候选字的笔画顺序构建第一笔画序列，基于与候选字对应的目标字的笔画顺序构建第二笔画序列。

在确定笔画序列之后，可以根据笔画序列计算候选字与目标字之间的字形编辑距离，编辑距离即为将候选字的第一笔画序列调整为目标字的第二笔画序列所需要删除、增加、修改的字符数。

在确定候选字与目标字之间的字形编辑距离后，可根据下述公式计算候选字与目标字之间的字形相似度：字形相似度=（L _MAX-字形编辑距离）/L _MAX,其中，L _MAX指的是候选字的第一笔画序列长度和目标字的第二笔画序列长度中的较大者。

本实施例中，分别基于候选字的读音和字形，分别计算候选字与对应的目标字之间的字音相似度和字形相似度，将字音相似度和字形相似度的平均值作为候选字与对应的目标字的相似度，从而利用目标字本身的信息，从字音、字形两方面的因素确定候选字与目标字的相似度，使得候选字的相似度所涉及的因素更加全面和灵活。

此外，如图3所示，本申请实施例还提供一种文本纠错系统。

本实施例中，所述文本纠错系统包括：

其中，上述文本纠错系统中各个模块与上述文本纠错方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本申请还提供一种文本纠错设备。

所述文本纠错设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的文本纠错程序，其中所述文本纠错程序被所述处理器执行时，实现如下步骤：

其中，所述文本纠错程序被执行时所实现的方法可参照本申请文本纠错方法的各个实施例，此处不再赘述。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质可以是易失性的，也可以是非易失性的。

本申请计算机可读存储介质上存储有文本纠错程序，其中所述文本纠错程序被处理器执行时，实现如下步骤：

其中，文本纠错程序被执行时所实现的方法可参照本申请文本纠错方法的各个实施例，此处不再赘述。

在另一实施例中，本申请所提供的文本纠错方法，为进一步保证上述所有出现的数据的私密和安全性，上述所有数据还可以存储于一区块链的节点中。例如目标替换字及候选字集合等，这些数据均可存储在区块链节点中。

需要说明的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种文本纠错方法，其中，所述文本纠错方法包括以下步骤：

获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。
如权利要求1所述的文本纠错方法，其中，所述通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字的步骤包括：

通过所述掩码语言模型确定所述待纠错文本序列中每个字的上下文置信度，将上下文置信度低于预设阈值的字作为所述目标字，或者，将每个字按照上下文置信度高低进行排序，将上下文置信度最低的预设数量的字作为所述目标字。
如权利要求2所述的文本纠错方法，其中，所述根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合的步骤包括：

对所述待纠错文本序列中的所述目标字进行标注，得到标注文本序列；

将所述标注文本序列输入所述掩码语言模型，得到所述掩码语言模型输出的所述目标字的候选字集合。
如权利要求3所述的文本纠错方法，其中，所述目标字的候选字集合中包括目标字的各个候选字的上下文置信度；

所述按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字的步骤包括：

计算各个候选字与对应的所述目标字的相似度；

基于各个候选字的上下文置信度、相似度以及预设过滤曲线从所述候选字集合中确定所述目标字的目标替换字，所述预设过滤曲线的横坐标为上下文置信度，纵坐标为相似度。
如权利要求4所述的文本纠错方法，其中，所述计算每个候选字与对应的所述目标字的相似度的步骤包括：

基于所述候选字的读音信息构建第一字音序列，基于与所述候选字对应的目标字的读音信息构建第二字音序列；

计算所述第一字音序列与所述第二字音序列的字音编辑距离，基于所述字音编辑距离确定所述候选字与对应的所述目标字的字音相似度；

基于所述候选字的笔画顺序构建第一笔画序列，基于所述目标字的笔画顺序构建第二笔画序列；

计算所述第一笔画序列与所述第二笔画序列的笔画编辑距离，基于所述笔画编辑距离确定所述候选字与对应的所述目标字的字形相似度；

计算所述候选字与对应的所述目标字的字音相似度和字形相似度的平均值，作为所述候选字与对应的所述目标字的相似度。
如权利要求1所述的文本纠错方法，其中，所通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字的步骤之前，还包括：

获取标注训练数据，所述标注训练数据包括不存在错误字的语句、存在错误字的语句及所述存在错误字的语句对应的正确语句；

基于所述标注训练数据对基于Bert的预训练语言模型进行FINE-TUNE微调，得到基于Bert的掩码语言模型。
如权利要求6所述的文本纠错方法，其中，所述基于所述标注训练数据对基于Bert的预训练语言模型进行FINE-TUNE微调，得到基于Bert的掩码语言模型的步骤包括：

对所述标注训练数据中所述不存在错误字的语句按照预设BERT掩码方式进行掩码得到第一掩码数据，并将掩码后的字的预测字设置为掩码前的字本身；

对所述标注训练数据中所述存在错误字的语句中的错误字进行原字掩码得到第二掩码数据，并将掩码后的字的预测字设置为对应的正确字；

基于所述第一掩码数据、第二掩码数据以及各自对应的预测字，对所述基于Bert的预训练语言模型进行微调，得到基于Bert的掩码语言模型。
一种文本纠错系统，其中，所述文本纠错系统包括：

目标字确定模块，用于获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

候选字生成模块，用于根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

替换模块，用于按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。
一种文本纠错设备，其中，所述文本纠错设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的文本纠错程序，其中所述文本纠错程序被所述处理器执行时，实现如下步骤：

获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。
如权利要求9所述的文本纠错设备，其中，所述通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字的步骤包括：

通过所述掩码语言模型确定所述待纠错文本序列中每个字的上下文置信度，将上下文置信度低于预设阈值的字作为所述目标字，或者，将每个字按照上下文置信度高低进行排序，将上下文置信度最低的预设数量的字作为所述目标字。
如权利要求10所述的文本纠错设备，其中，所述根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合的步骤包括：

对所述待纠错文本序列中的所述目标字进行标注，得到标注文本序列；

将所述标注文本序列输入所述掩码语言模型，得到所述掩码语言模型输出的所述目标字的候选字集合。
如权利要求11所述的文本纠错设备，其中，所述目标字的候选字集合中包括目标字的各个候选字的上下文置信度；

所述按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字的步骤包括：

计算各个候选字与对应的所述目标字的相似度；

基于各个候选字的上下文置信度、相似度以及预设过滤曲线从所述候选字集合中确定所述目标字的目标替换字，所述预设过滤曲线的横坐标为上下文置信度，纵坐标为相似度。
如权利要求12所述的文本纠错设备，其中，所述计算每个候选字与对应的所述目标字的相似度的步骤包括：

基于所述候选字的读音信息构建第一字音序列，基于与所述候选字对应的目标字的读音信息构建第二字音序列；

计算所述第一字音序列与所述第二字音序列的字音编辑距离，基于所述字音编辑距离确定所述候选字与对应的所述目标字的字音相似度；

基于所述候选字的笔画顺序构建第一笔画序列，基于所述目标字的笔画顺序构建第二笔画序列；

计算所述第一笔画序列与所述第二笔画序列的笔画编辑距离，基于所述笔画编辑距离确定所述候选字与对应的所述目标字的字形相似度；

计算所述候选字与对应的所述目标字的字音相似度和字形相似度的平均值，作为所述候选字与对应的所述目标字的相似度。
如权利要求9所述的文本纠错设备，其中，所通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字的步骤之前，所述文本纠错程序被所述处理器执行时，还实现如下步骤：

获取标注训练数据，所述标注训练数据包括不存在错误字的语句、存在错误字的语句及所述存在错误字的语句对应的正确语句；

基于所述标注训练数据对基于Bert的预训练语言模型进行FINE-TUNE微调，得到基于Bert的掩码语言模型。
如权利要求14所述的文本纠错设备，其中，所述基于所述标注训练数据对基于Bert的预训练语言模型进行FINE-TUNE微调，得到基于Bert的掩码语言模型的步骤包括：

对所述标注训练数据中所述不存在错误字的语句按照预设BERT掩码方式进行掩码得到第一掩码数据，并将掩码后的字的预测字设置为掩码前的字本身；

对所述标注训练数据中所述存在错误字的语句中的错误字进行原字掩码得到第二掩码数据，并将掩码后的字的预测字设置为对应的正确字；

基于所述第一掩码数据、第二掩码数据以及各自对应的预测字，对所述基于Bert的预训练语言模型进行微调，得到基于Bert的掩码语言模型。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有文本纠错程序，其中所述文本纠错程序被处理器执行时，实现如下步骤：

获取待纠错文本序列，通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字；

根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合；

按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字，根据所述目标替换字和所述待纠错文本序列生成替换文本序列。
如权利要求16所述的计算机可读存储介质，其中，所述通过基于Bert的掩码语言模型对所述待纠错文本序列进行识别，确定所述待纠错文本序列中需要进行纠错的目标字的步骤包括：

通过所述掩码语言模型确定所述待纠错文本序列中每个字的上下文置信度，将上下文置信度低于预设阈值的字作为所述目标字，或者，将每个字按照上下文置信度高低进行排序，将上下文置信度最低的预设数量的字作为所述目标字。
如权利要求17所述的计算机可读存储介质，其中，所述根据所述目标字以及所述待纠错文本序列生成所述目标字的候选字集合的步骤包括：

对所述待纠错文本序列中的所述目标字进行标注，得到标注文本序列；

将所述标注文本序列输入所述掩码语言模型，得到所述掩码语言模型输出的所述目标字的候选字集合。
如权利要求18所述的计算机可读存储介质，其中，所述目标字的候选字集合中包括目标字的各个候选字的上下文置信度；

所述按照预设筛选规则对所述目标字的候选字集合进行筛选，确定所述目标字的目标替换字的步骤包括：

计算各个候选字与对应的所述目标字的相似度；

基于各个候选字的上下文置信度、相似度以及预设过滤曲线从所述候选字集合中确定所述目标字的目标替换字，所述预设过滤曲线的横坐标为上下文置信度，纵坐标为相似度。
如权利要求19所述的计算机可读存储介质，其中，所述计算每个候选字与对应的所述目标字的相似度的步骤包括：

基于所述候选字的读音信息构建第一字音序列，基于与所述候选字对应的目标字的读音信息构建第二字音序列；

计算所述第一字音序列与所述第二字音序列的字音编辑距离，基于所述字音编辑距离确定所述候选字与对应的所述目标字的字音相似度；

基于所述候选字的笔画顺序构建第一笔画序列，基于所述目标字的笔画顺序构建第二笔画序列；

计算所述第一笔画序列与所述第二笔画序列的笔画编辑距离，基于所述笔画编辑距离确定所述候选字与对应的所述目标字的字形相似度；

计算所述候选字与对应的所述目标字的字音相似度和字形相似度的平均值，作为所述候选字与对应的所述目标字的相似度。