WO2019085779A1

WO2019085779A1 - 机器处理及文本纠错方法和装置、计算设备以及存储介质

Info

Publication number: WO2019085779A1
Application number: PCT/CN2018/111173
Authority: WO
Inventors: 麦港林; 牛也
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2017-11-01
Filing date: 2018-10-22
Publication date: 2019-05-09
Also published as: CN109753636A; TW201918913A

Abstract

本发明公开了一种机器处理及文本纠错方法和装置、计算设备以及存储介质，具体包括错误文本和对应的正确文本的纠错改写对，以纠错改写对作为训练语料，对机器处理模型进行训练，由此准备好适用于文本纠错的机器处理模型。可以通过从日志中挖掘纠错改写对来对机器处理模型进行训练，使其适于对文本进行纠错。将第一文本输入到机器处理模型中，得到第二文本，即纠错结果文本。另外，还可以使用语言模型或常用词库先判断第一文本是否需要进行纠错。可以使用从日志中挖掘出的训练语料来训练语言模型，也可以通过对日志中的文本进行分词、统计来整理常用词库。由此，使得能够方便地实现文本纠错。

Description

机器处理及文本纠错方法和装置、计算设备以及存储介质

本申请要求2017年11月01日递交的申请号为201711060088.6、发明名称为“机器处理及文本纠错方法和装置、计算设备以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及文本处理技术，特别涉及文本纠错技术。

背景技术

随着计算机技术及互联网技术的飞速发展，人机交互的形式也越来越丰富，越来越方便。

键盘输入是传统的人机交互输入方式。用户在输入时，经常会出现一些打字错误。例如，使用五笔字型输入法时，经常错误地输入形似的错字；使用拼音输入法时，经常错误地输入音同或音似的错字。出现错误时，需要用户删除错误的输入内容，重新进行输入。还有些错误未能被及时发现，遗留在文档中。

手写输入是已知的另一种人机交互输入方式。用户在例如手写板上书写，计算系统识别所书写的文字。然而，每个用户的书写习惯各不相同，系统也经常识别错误，需要用户删除，重新输入。

图像识别技术在近年来也得到了快速的发展，可以对书面文本的图像进行识别，得到对应的文本。然而，图像识别也会由于各种原因产生一些错误的识别结果。

另外，计算系统已经开始有能力处理人类自然语言，可以基于自然语言进行分析，获取有效信息，并做出响应或执行相应操作。这样的自然语言可以是书面文字，也可以是语音输入。当直接接收用户以自然语言发出的语音输入，并通过分析理解输入语音来做出对应的响应，例如执行相应的操作时，能够极大地增加人机交互的便利性。相应地，语音输入也已经成为人工智能等计算领域中一个非常重要的入口。

然而，很多智能软件或硬件对输入语音进行识别得到的文本还是经常会出现和用户实际表达的内容不一致的情况，有时候甚至输出人看不懂的文本。如果将识别出的不正确的文本输入到后续处理阶段，将对后续自然语言的理解等处理产生显著影响，甚至无法继续后续处理。

造成语音识别错误的原因有很多可能。例如，用户的发音不标准，硬件/软件本身存在缺陷，语音识别算法出错等。

目前，已经有一些语音识别优化的解决方案。这些解决方案大多从局部出发，定位局部需要改写的片段，拉取对应的纠错候选文本，然后筛选其中最好的一个进行改写。即，通过改写局部达到改写整体的效果。

这样的解决方案往往存在下述问题。

一方面，对局部进行修改时忽略了整体。事实上，很多时候，整体的其它部分对于局部的修改应当能够起到监督和约束的作用。

另一方面，有些解决方案依赖于预先离线整理好的纠错规则。而由于语音识别错误的多样性等各种原因，为了达到较高的质量要求，这些纠错规则往往非常繁复，整理的成本将会比较高。

综上，对于各种人机交互方式，都仍然需要一种能够进行文本纠错的解决方案。

发明内容

本发明要解决的一个技术问题是提供一种机器处理方案，其能够使得文本纠错更方便。

根据本发明的第一个方面，提供了一种机器处理方法，包括：准备纠错改写对，纠错改写对包括错误文本和对应的正确文本；以及以纠错改写对作为训练语料，对机器处理模型进行训练。

优选地，准备纠错改写对的步骤可以包括：从日志中挖掘纠错改写对。

优选地，可以从日志中寻找满足下述至少一项条件的在先文本和在后文本，作为纠错改写对：日志中记录的在先文本和在后文本之间的时间间隔不大于预定时间间隔；在先文本和在后文本之间的编辑距离除以两个文本的最大长度得到的比值不大于第一预定比值阈值；在后文本的出现次数不小于第一预定次数阈值；在先文本和在后文本作为纠错改写对的出现次数不小于第二预定次数阈值。

优选地，机器处理模型可以是机器翻译模型。

优选地，机器翻译模型可以是序列到序列模型。

优选地，机器翻译模型可以是基于注意力机制的序列到序列模型。

优选地，错误文本和正确文本都可以是外部输入文本。

优选地，外部输入文本可以是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。

根据本公开的第二方面，提供了一种文本纠错方法，包括：准备适用于文本纠错的机器处理模型；以及将第一文本输入到机器处理模型中，得到第二文本。

优选地，可以通过根据本公开上述第一方面的机器处理方法来准备机器处理模型。

优选地，该文本纠错方法还可以包括：判断第一文本是否需要进行纠错，其中，在判定需要进行纠错的情况下，将第一文本输入到机器处理模型中，而在判定不需要进行纠错的情况下，不将第一文本输入到机器处理模型中。

优选地，判断第一文本是否需要进行纠错的步骤可以包括：使用语言模型判断第一文本是否需要进行纠错；以及/或者基于常用词库判断第一文本是否需要进行纠错。

优选地，可以在语言模型针对第一文本给出的困惑度高于第一预定困惑度阈值的情况下，判定需要进行纠错。

优选地，可以在第一文本中包含非常用词的情况下，判定需要进行纠错。

优选地，该文本纠错方法还可以包括：从日志中挖掘适于训练语言模型的训练语料；以及使用训练语料来训练语言模型。

优选地，该文本纠错方法还可以包括：将从日志中挖掘得到的训练语料与普通语料混合，得到混合训练语料，其中，使用混合训练语料来训练语言模型。

优选地，该文本纠错方法还可以包括：对日志中的文本进行分词；统计各个分词在日志中的出现次数；以及将出现次数不小于第三预定次数阈值的词作为常用词，记录在常用词库中。

优选地，该文本纠错方法还可以包括：判断第二文本是否合格。

优选地，可以基于以下条件中的至少一项来判断第二文本是否合格：机器处理模型针对第二文本给出的置信度不低于预定置信度阈值；语言模型针对第二文本给出的困惑度分值小于第一文本，并且/或者困惑度分值小于第二预定困惑度阈值；第一文本与第二文本之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。

优选地，第一文本可以是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。

根据本公开的第三方面，提供了一种机器处理装置，包括：纠错改写对准备装置，用于准备纠错改写对，纠错改写对包括错误识别结果和对应的正确识别结果；以及第一训练装置，用于以纠错改写对作为训练语料，对机器处理模型进行训练。

优选地，纠错改写对准备装置可以从日志中挖掘纠错改写对。

优选地，机器处理模型可以是机器翻译模型。

优选地，机器翻译模型可以是序列到序列模型。

优选地，错误文本和正确文本都可以是外部输入文本。

根据本公开的第四方面，提供了一种文本纠错装置，包括：离线模块，离线模块包括机器处理模型准备装置，用于准备适用于文本纠错的机器处理模型；以及在线模块，在线模块包括纠错改写装置，用于将第一文本输入到机器处理模型中，得到第二文本。

优选地，机器处理模型准备装置可以是根据本公开上述第三方面的机器处理装置。

优选地，在线模块还可以包括：纠错判定装置，用于判断第一文本是否需要进行纠错，其中，在纠错判定装置判定需要进行纠错的情况下，将第一文本输入到机器处理模型中，而在纠错判定装置判定不需要进行纠错的情况下，不将第一文本输入到机器处理模型中。

优选地，纠错判定装置可以包括：第一判断装置，使用语言模型判断第一文本是否需要进行纠错；以及/或者第二判断装置，基于常用词库判断第一文本是否需要进行纠错。

优选地，第一判断装置可以在语言模型针对第一文本给出的困惑度高于第一预定困惑度阈值的情况下，判定需要进行纠错。

优选地，第二判断装置可以在第一文本中包含非常用词的情况下，判定需要进行纠错。

优选地，离线模块可以包括：语料挖掘装置，用于从日志中挖掘适于训练语言模型的训练语料；以及第二训练装置，用于使用训练语料来训练语言模型。

优选地，离线模块还可以包括：语料混合装置，用于将从日志中挖掘得到的训练语料与普通语料混合，得到混合训练语料，其中，第二训练装置使用混合训练语料来训练语言模型。

优选地，离线模块还可以包括：分词装置，用于对日志中的文本进行分词；统计装置，用于统计各个分词在日志中的出现次数；以及整理装置，用于将出现次数不小于第三预定次数阈值的词作为常用词，记录在常用词库中。

优选地，在线模块可以包括：结果判定装置，用于判断第二文本是否合格。

优选地，结果判定装置可以基于以下条件中的至少一项来判断第二文本是否合格：机器处理模型针对第二文本给出的置信度不低于预定置信度阈值；语言模型针对第二文本给出的困惑度分值小于第一文本，并且/或者困惑度分值小于第二预定困惑度阈值；第一文本与第二文本之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。

根据本公开的第五方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行根据本公开第一方面或第二方面的方法。

根据本公开的第六方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行根据本公开第一方面或第二方面的方法。

通过本公开的机器处理方案，使得能够方便的实现文本纠错。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本公开的语音识别结果纠错方案的示意性框图；

图2是本公开的语音识别结果纠错装置的示意性框图；

图3是可以用于执行本公开的语音识别结果纠错方法的计算设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

下面，参考图1至图3描述本公开的机器处理方案和文本纠错方案。

图1是以语音识别结果纠错为例描述本公开的机器处理和文本纠错方案的示意性框图。如图1所示，本公开的语音识别结果纠错方案包括离线部分(图1中虚线左侧，可以由离线模块处理)和在线部分(图1中虚线右侧，可以由在线模块处理)。离线部分用于做预先做准备，而在线部分则实时进行纠错。

【概述】

本发明的发明人通过分析涉及语音识别的应用的日志，注意到其中一些规律，例如，某一些发音会较频繁地被识别成另外一个发音。即，在大量日志中，语音识别的错误也存在一定的规律。因此，发明人意识到，可以通过算法来挖掘这样的规律，特别是这样的映射关系，从而用于实现对语音识别结果的纠错。

鉴于此，本公开提出一种基于机器处理模型的语音识别结果纠错方案，借助于预先训练好的机器处理模型来进行对语音识别结果的纠错。

本公开的机器处理模型可以是任何适用于文本处理的机器处理模型。一些实施例中，机器处理模型可以是适用于文本转换处理的机器处理模型，例如可以称为“文本转换模型”。目前，一种得到广泛应用的文本转换模型是机器翻译模型。下文中，以机器翻译模型为例进行描述。应当明白，这里公开的技术方案也可以采用其它机器处理模型来实现。

另一方面，本公开中以语音识别结果纠错为例进行描述。应当明白，这里公开的技术方案完全可以适用于各种文本纠错的场景。通过使用预先准备好的错误文本和对应的正确文本构成的纠错对，来训练机器处理模型，可以得到适用于文本纠错的机器处理模型。使用该机器处理模型可以用来对各种文本进行纠错。作为纠错对象的文本可以是系统中原有的文本，也可以是输入的文本。文本的输入方式也可以是多种多样的，例如，手写输入、打字输入、语音输入(语音识别)、图像识别输入等等。这些文本也都很可能出现错误，例如手写识别错误、打字错误、语音识别错误、图像识别错误等等。而这些错误也存在一定的规律，同样可以通过算法来挖掘这样的规律，特别是这样的映射关系，从而用于实现文本纠错。

简而言之，本公开优选实施例的语音识别结果纠错系统主要包括两大模块，离线日志挖掘模块(也可简称为“离线模块”)和在线纠错模块(也可简称为“在线模块”)。前者用于生成训练语料110以训练机器翻译模型120，而后者则在对实时语音输入210进行语音识别得到语音识别结果文本(一般地，可以称为“第一文本”)220之后，利用训练好的机器翻译模型120对语音识别结果文本220进行纠错，并最终输出经过纠错改写后的语音识别结果文本(一般地，可以称为“第二文本”。本公开中的“第一”、“第二”只用来对不同文本进行区分描述，并不意味着对文本任何进一步的限定)240。

离线日志挖掘模块通过从日志100中挖掘数据来为在线纠错模块做准备。而在线纠错模块的纠错结果如果反馈给离线日志挖掘模块，则能够进一步改进离线日志挖掘结果。

离线日志挖掘模块为在线纠错模块服务，因此可以基于在线纠错模块所需来设计。

具体说来，在线纠错模块使用机器翻译模型120来进行语音识别结果纠错。相应地，离线日志挖掘模块可以挖掘纠错改写对110作为训练样本，来训练机器翻译模型120。

更进一步地，在线纠错模块如果能够在判定(230)需要纠错的情况下才调用机器翻译模型120来进行纠错，则可以极大地提高效率。相应地，离线日志挖掘模块可以为判断是否需要纠错而进行准备。然而，这个判断(230)不应当被视为为实现本公开的技术方案所必需的，即便不进行这样的判断，也能够实现语音识别结果纠错的目的。因此，图1中用虚框框出与纠错判定230有关的部分，表示这部分特征可以省略。

下面，对本公开的技术方案所涉及的各个方面分别进行描述。

【机器翻译模型】

首先，对机器翻译模型120进行简要描述。

翻译是将一种语言形式(例如英语)的语句转换为另一种语言形式(例如汉语)的语句，两种语言形式的语句基本上表达相同的含义。

关于机器翻译(亦称为“自动翻译”)，人们进行了长期的研究和探索，并提出了基于规则(Rule-Based)的机器翻译方案和基于语料库(Corpus-Based)的机器翻译方案。基于语料库的机器翻译方案又可分为基于统计(Statistics-based)的机器翻译方案和基于实例(Example-based)的方法的机器翻译方案。

2013年来，随着深度学习的研究取得较大进展，基于人工神经网络的机器翻译(Neural Machine Translation)逐渐兴起。其技术核心是一个拥有海量结点(神经元)的深度神经网络，可以自动的从语料库中学习翻译知识。CNN(卷积神经网络)和RNN(循环神经网络)被广泛使用。一种语言的句子被向量化之后，在网络中层层传递，转化为计算机可以“理解”的表示形式，再经过多层复杂的传导运算，生成另一种语言的译文。实现了“理解语言，生成译文”的翻译方式。这种翻译方法最大的优势在于译文流畅，更加符合语法规范，容易理解。相比之前的翻译技术，质量有“跃进式”的提升。

2016年9月，谷歌(Google)公司发布了谷歌神经机器翻译系统，其使用序列到序列(seq2seq)学习模型，在不需要深度学习研究人员深入了解语言翻译知识的情况下，翻译效果胜过了世界上最好的语言专家建造的语言翻译系统。基于注意力的序列到序列模型在机器翻译领域受到越来越大的重视。

2017年6月，谷歌公司在Arxiv系统上进一步发表论文，“Attention Is All You Need”(https://arxiv.org/pdf/1706.03762.pdf)，提出了一种仅基于注意力(attention)而不使用CNN和RNN的机器翻译机制。

在研究人员长期深入而又持续的研究探索下，机器翻译方案越来越成熟，翻译效果越来越好。

而本公开的技术方案的发明人注意到，文本纠错(例如语音识别结果纠错)与语言翻译之间存在着相似之处，它们具有类似的逻辑。语言翻译进行转换的两种语言表达具有同一个实际含义，两者之间存在映射关系。而文本纠错(例如语音识别结果纠错)的错误文本(错误识别结果)和正确文本(正确识别结果)则都对应于用户期望输入的相同内容(例如先后发出的相同的语音)，两者之间也很可能存在一定程度的映射关系。两种语言表达之间的翻译转换具有一定的规则和规律，错误文本与正确文本之间的纠错转换也具有一定的规律。

因此，发明人提出，可以借用机器翻译模型120执行文本纠错(例如语音识别结果纠错)操作。以语音识别结果纠错为例，使用预先获取或整理的错误识别结果(一般地，可以称为“错误文本”)-正确识别结果(一般地，可以称为“正确文本”)对，作为机器翻译模型120的输入-输出对(一般地，可以称为“纠错改写对”)训练语料，对机器翻译模型120进行训练，使得机器翻译模型120掌握(学习到)错误识别结果和正确识别结果之间的映射关系和/或转换规律，从而可以得到适用于语音识别结果纠错的机器翻译模型120。

优选地，本公开的技术方案可以使用序列到序列模型，优选是基于注意力的序列到序列模型。该模型可以使用CNN和/或RNN，也可以不使用CNN和/或RNN。关于序列到序列模型和注意力机制，在机器翻译领域均已有广泛讨论，在此不再赘述。

【离线模块】

本公开的离线模块主要用于日志挖掘，因此也可以称为“离线日志挖掘模块”。

离线日志挖掘模块可以进行三方面工作：纠错改写对(训练语料)挖掘、语言模型训练语料挖掘、常用词收集。纠错改写对110用于对机器翻译模型120进行训练。而语言模型160以及常用词库140则用于判断系统对用户输入的语音的识别结果是否需要纠错。

【纠错改写对】

可以人工整理上述用于训练机器翻译模型120的错误识别结果-正确识别结果对。即，人工整理常见的一些错误识别结果，并给出对应的正确识别结果，构成训练语料，放入训练语料库，以便对机器翻译模型120进行训练。

然而，人工整理效率较为低下，而且所整理的训练语料难免有所疏漏，很可能不够全面，训练效果可能不够令人满意。

发明人提出，可以从语音识别应用(更一般地，涉及文本输入的应用)的相关日志100中挖掘这样的错误识别结果-正确识别结果对(纠错改写对110)，作为机器翻译模型120的训练语料。

日志100中会记录系统的语音识别结果，用户发起请求的时间和/或语音识别结果产生的时间，以及一些其它相关信息。

用户在通过语音输入来使用智能软件或硬件的时候，如果由于语音识别出错，得不到正确的语音识别结果或相应正确的服务，往往会重新发起一次请求。因此，日志100中会存在大量的用户自发的语音识别结果纠错改写对110，即错误的识别结果(在先文本)和重新发起请求后得到的正确的识别结果(在后文本)构成的错误识别结果-正确识别结果对。其它人机交互方式下，也会在相应日志中记录类似的错误文本-正确文本对。

离线模块从日志100中识别挖掘这样的纠错改写对110，可以构建用于训练机器翻译模型120的错误识别结果-正确识别结果对。离线模块可以通过一系列强规则来从日志100中挖掘这样的纠错改写对110，构建机器翻译模型120的训练语料库。

下面，分析纠错改写对110的挖掘逻辑，或者说，挖掘规则。

一方面，当语音识别出错时，用户会很快重新发起请求，因此，错误识别结果和重新发起请求后得到的正确识别结果对应的时间(识别时间或请求发起时间)相距不会太久。

另一方面，正确识别结果与错误识别结果之间的区别往往也不会太大，两者之间具有一定的相似性。这里可以引入“编辑距离”的概念。编辑距离是指两个字串(在本公开中为两句话)之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

再一方面，有些语句可能由于发音、词法、句法等因素，多次被识别错误，甚至有可能多次被识别为同样的错误结果，使用这样的语句或者这样的纠错改写对110来训练用于纠错的机器翻译模型120将是有利的。这样的纠错改写对110比较有代表性。而且，当对大量日志100进行挖掘时，也能够滤除一些不太具有代表性的纠错改写对110，提高训练的效率。

另外，这样的错误识别结果(错误文本)和重新请求得到的正确识别结果(文本)之间，可能还会有其它一些规律或关联关系，可以作为挖掘逻辑。

这样，从日志100中挖掘纠错改写对110的挖掘逻辑可以包括如下至少一项：

a)两句话(两个识别结果，一般地，可以称为“在先文本”和“在后文本”)之间的时间(请求时间或识别时间)间隔不大于预定时间间隔；

b)两句话之间的编辑距离除以两句话的最大长度得到的比值不大于第一预定比值阈值；

c)改写纠正的那句话(在后识别得到的结果(在后文本))的出现次数不小于第一预定次数阈值，例如5次。

d)这两句话作为纠错改写对110的出现次数不小于第二预定次数阈值，例如5次。

如上所述，考虑到其它一些规律或关联关系，还可以具有其它挖掘逻辑。

满足上述至少一项条件的两句话(在先语音识别结果(在先文本)和在后语音识别结果(在后文本))可以作为纠错改写对。

应当明白，虽然可以对多个用户的日志进行挖掘，但是这里挖掘出来作为纠错改写对的两句话应当是同一个用户的日志中的两句话。

于是，离线模块可以对日志100中的识别结果(一句句话)两句两句地进行分析，看是否符合上述挖掘逻辑。如果符合，则表明，日志100中识别得到的这两句话很可能对应于用户先后两次语音输入的同一句话，前一句很可能是错误识别结果，而后一句很可能是正确识别结果。

这里每次分析的两句话，一般是相邻两句话。然而，一些情况下，用户也可能在两次请求之间输入一些没有实际意义的语音。这样，可以略去这些无实际意义的识别结果，而对它们之前和之后的话进行分析，判断是否符合上述挖掘逻辑。

例如，用户希望输入“军武次位面”，首次输入后，却识别得到“精武刺猬面”。用户发现识别错误后，重新输入，得到了正确的识别结果“军武次位面”。这样，在日志中先后记录了“精武刺猬面”(在先文本)和“军武次位面”(在后文本)两个文本，可以通过对日志挖掘得到一个纠错改写对(“精武刺猬面”，“军武次位面”)。

又例如，用户希望输入“巨神战击队”，首次输入后，却识别得到“之神单机对”。用户发现识别错误后，重新输入，得到了正确的识别结果“巨神战击队”。这样，在日志中先后记录了“之神单机对”(在先文本)和“巨神战击队”(在后文本)两个文本，可以通过对日志挖掘得到一个纠错改写对“之神单机对”-“巨神战击队”。

由此，可以得到若干符合规定的挖掘逻辑的纠错改写对110。这些纠错改写对110可以视为上述错误识别结果-正确识别结果对，作为训练语料，用于对机器翻译模型120进行训练。

这里，以从语音识别应用的日志挖掘纠错改写对训练预料为例进行了描述。应当理解，也可以以相同的原理，从其它涉及文本输入的应用的日志中挖掘相应的纠错改写对训练预料。

可以将所挖掘的纠错改写对110中的每一个文本分别切分成字粒度(即，以字为细分单元)以进行训练。训练机器翻译模型120时，采用字粒度而不采用词粒度(即，以词为细分单元)，主要是考虑到语音识别出来的文本非书写文本，相对较乱，很可能影响分词效果。如果采用词粒度，错误的分词有可能影响语句的理解，从而对模型的训练产生不利的影响。

在机器翻译模型120采用基于注意力的序列到序列模型(seq2seq+attention)的情况下，可以采用seq2seq+attention模式对机器翻译模型120进行训练。

【语言模型】

语言模型160是根据语言客观事实而进行的语言抽象数学建模。简而言之，语言模型160是用来计算一个句子(或者词序列)的概率的模型。利用语言模型160，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。使用训练语料对语言模型160进行训练后，可以用于相应的语言处理应用。

使用各种文本输入方式(例如语音输入)的智能软件或硬件的日志100中记录的话语(识别结果)总体上反映了用户在应用智能软件或硬件这个特殊场景下的说话方式。可以使用日志100中记录的话语作为训练语料150对语言模型160进行训练，以便于在线文本纠错(例如语音识别纠错)时，由语言模型160判断(例如由语音识别系统)对用户新输入的语句的识别结果(第一文本)是否出错。

离线模块则可以从日志100中挖掘出适合作为语言模型训练语料150的话语，例如判定识别正确的话语。例如，在用户发出请求，系统识别得到该识别结果后，作出了相应的响应，并且/或者用户没有重新发起请求，则可以判定这个识别结果是正确的，日志100中的这个语句可以用作训练语料。

当该智能软件或硬件用于特定的领域，例如机票预订、智能家居控制等时，日志100记录的话语会具有特定的规律、关键词和内容。使用日志100中的话语作为训练语料150来训练语言模型160，可以体现出智能软件或硬件所涉及的特定领域的特殊性。

而当该智能软件或硬件用于普遍的领域时，日志100记录的话语的规律、关键词、内容将比较广泛。

还可以将从日志100中挖掘出的训练语料150与普通的训练语料混合形成训练语料库，增大训练语料库的容量和涵盖内容广度。

例如，在该智能软件或硬件用于特定的领域的情况下，将从日志100挖掘的语言模型训练语料150与普通的训练语料混合在一起，训练语言模型160，可以兼顾一般性与特殊性。

训练好的语言模型160可以用于在线纠错判定，判定一句话是否通顺流畅。

【常用词】

另外，还可以对日志100中的话语，特别是可以判定识别正确的话语(文本)，进行分词，并对分词在日志100中的出现次数进行统计。将出现次数不小于第三预定次数阈值(例如5次)的词记录下来作为常用词130。这些常用词130可以保存在常用词库或常用词列表140中，以便在线模块查询。

特别是在智能软件或硬件用于特定的领域的情况下，一般用户输入的话语中会出现的字词是有限的，往往会多次出现。而当语音识别得到的文本(第一文本)中包含很少出现的词(非常用词)时，这个语音识别结果(第一文本)很可能存在错误，需要进行纠错改写。例如，在机票预订应用的场景下，常用词包括例如地名、时间、航空公司名等等，如果突然冒出一个毫不相关的词，例如“蓝鲸”(南京)、“白鲸”(北京)，那么就很可能是出现错误了。

在线模块进行纠错判定，可以根据所识别的一句话(第一文本)是否存在非常用词来判断该话语识别结果是否存在错误，是否需要进行纠错。

【在线模块】

本公开的在线模块主要执行在线纠错功能，也可以称为“在线纠错模块”。

在线纠错模块可以包含两方面功能。核心功能是使用如上所述训练好的机器翻译模型120对可能存在错误的识别结果文本(第一文本)进行纠错改写。作为辅助，还可以进行纠错判定，判定识别得到的结果文本(第一文本)是否存在错误，是否需要对其进行纠错。在线纠错模块可以仅在判定需要纠错的情况下才调用机器翻译模型120来进行纠错，这样可以极大地提高效率。

【纠错判定】

这里以语音识别为例进行描述。应当理解，这里描述的纠错判定方案同样适用于其它方式输入的文本。

在优选实施例中，当语音识别模块输出语音识别的文本(语音识别结果，更一般地为第一文本)之后，在线纠错模块可以先通过纠错判定逻辑来进行分析判断，以确定语音识别结果是否存在错误，是否需要纠错改写。在判定需要纠错改写的情况下，再采用训练好的机器翻译模型120进行纠错改写。在判定不需要纠错改写的情况下，则无需输入到机器翻译模型120中进行纠错改写，而直接将语音识别得到的语音识别结果文本220作为最终输出的语音识别结果文本220输出。

可以基于例如上面描述的语言模型160和/或常用词库140来判断语音识别结果文本220是否存在错误，是否需要纠错改写。

语音识别结果文本220在满足下列条件时认为需要进行改写，否则直接输出语音识别的文本：

a)语言模型160针对该语音识别结果文本220给出的困惑度(perplexity)分值高于第一预定困惑度阈值；并且/或者

b)出现了非常用词。非常用词即常用词库140中没有的词。

本公开的技术方案中，可以采用其中任一种条件来进行判断，也可以结合这两种条件来进行判断。应当明白，还可以采用其它判断条件(逻辑)来判断语音识别结果是否存在错误。

一方面，将语音识别结果文本220输入到如上所述经过训练的语言模型160中，语言模型160通过分析该文本会给出一个困惑度(perplexity)分值，如果该分值高于第一预定困惑度阈值，则表明语音识别结果文本220很可能存在错误，需要对其进行纠错改写。

另一方面，可以将语音识别结果文本220的分词，得到多个词语。分别在如上所述挖掘出的常用词库或常用词列表140中查找这些词语。如果在常用词库或常用词列表140中没有查找到某个词语，则该词语为非常用词。这种情况下，表明语音识别结果也很可能存在错误，需要对其进行纠错改写。

应当理解，还可以采用其它纠错判定方法来进行上述判断。

【纠错改写】

如上所述，在线纠错模块的核心功能是实时文本(语音识别结果)纠错改写。

本公开提出使用经过纠错改写对110训练的机器翻译模型120来对语音识别结果进行纠错改写。需要纠错改写的语音识别结果文本(第一文本)输入到机器翻译模型120中，模型输出纠错改正后的语音识别文本(第二文本)240。关于机器翻译模型120，上文中已经详细进行了描述。

这样，例如当用户输入“让我们荡起双桨”，却被识别为“量够猛当前双桨”(第一文本)时，机器翻译模型120可以将其转换为用户实际期望输入的“让我们荡起双桨”(第二文本)，而无需用户重新输入以供识别。

对于纠错改正后的语音识别文本(第二文本)，还可以根据一些预定的过滤条件(或判断条件)，综合判断纠错改写的结果是否有效，即判断纠错改写后的语音识别文本(第二文本)是否合格。

这样的过滤条件可以包括以下至少一项：

1)机器翻译模型120给出的置信度不低于预定置信度阈值；

2)纠错改写后的文本(第二文本)的语言模型160的困惑度分值小于纠错改写前的文本，并且/或者困惑度分值小于第二预定困惑度阈值；

3)纠错改写前后的两个文本(第一文本和第二文本)之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。

关于上述第1)项，机器翻译模型120在对所输入的语音识别结果文本(第一文本)进行处理转换后，输出纠错改写的语音识别结果文本(第二文本)的同时，还可以同时输出此次转换的置信度。当置信度较高(不低于预定置信度阈值)时，表明纠错改写得到的文本(第二文本)比较可信。当置信度低于预定置信度阈值时，表明纠错改写的效果不够理想。

关于上述第2)项，上述经训练的语言模型160不但可以用于判断语音识别结果(纠错改写前的文本，第一文本)是否存在错误，还可以用于判断纠错改写后的文本(第二文本)是否存在错误。一方面，语言模型160针对纠错改写后的文本(第二文本)给出的困惑度分值一般应当小于针对纠错改写前的文本(第一文本)给出的困惑度分值。另一方面，这个困惑度分值应当小于第二预定困惑度阈值。这个第二预定困惑度阈值可以与上文中判断语音识别结果(第一文本)是否存在错误时采用的上一个第一预定困惑度阈值相等，也可以大于上一个第一预定困惑度阈值(即采用更高的标准来进行判断)。

关于上述第3)项，如果相对于纠错改写前后的两个文本(第一文本和第二文本)的最大长度而言，两个文本之间的编辑距离过大，则有可能偏离了用户的语音输入本义。

在判定纠错改写的结果无效的情况下，可以返回机器翻译模型120重新进行纠错改正。

在判定纠错改写的结果有效的情况下，输出纠错改写得到的结果文本(第二文本)。

机器翻译模型120是从整体出发去纠错改写的，会考虑全局的语义信息，这个语义信息会对局部纠错进行约束。特别是，在采用基于注意力的序列到序列模型的情况下，在编码(encoder)阶段可以把整句话编码成一个语义向量，而在解码(decoder)阶段，可以通过注意力机制实现局部对齐，这样的机器翻译模型120既考虑整体又兼顾局部。

另外，机器翻译模型120不需要显式地提炼改写规则，模型本身也具备泛化能力，采用大量训练样本(训练语料)的情况下，也能允许少量脏样本的存在。

还应当注意到，本公开的技术方案中，在进行文本纠错(例如语音识别结果纠错)的过程中，系统与用户之间不需要针对纠错操作进行进一步的交互。

【文本纠错装置】

上文中已经参考图1以语音识别结果纠错为例，详细描述了本公开的机器处理方法和文本纠错方法。下面参考图2以语音识别结果纠错为例，描述本公开的机器处理装置和文本纠错装置。

图2以语音识别结果纠错装置为例示出了本公开的文本纠错装置的示意性框图。其中，有关一些内容的细节与上文中参考图1的描述相同，在此不再赘述。

如上所述，这里以语音识别结果纠错为例进行描述。应当明白，同样原理的装置也可以适用于对其它方式输入的文本的纠错。

如图2所示，本公开的语音识别结果纠错装置(更一般地，文本纠错装置)300可以包括离线模块310和在线模块320。

离线模块310可以包括机器翻译模型(机器处理模型)准备装置311，用于准备适用于语音识别结果纠错的机器翻译模型。

该机器翻译模型可以是序列到序列模型。优选地，该机器翻译模型可以是基于注意力机制的序列到序列模型。

机器翻译模型准备装置311可以包括纠错改写对准备装置311-1和第一训练装置311-2。

纠错改写对准备装置311-1可以用于准备纠错改写对，纠错改写对包括错误识别结果和对应的正确识别结果。

纠错改写对准备装置311-1也可以从日志中挖掘纠错改写对。

例如，纠错改写对准备装置311-1可以从日志中寻找满足下述至少一项条件的在先语音识别结果(在先文本)和在后语音识别结果(在后文本)，作为纠错改写对：

a)日志中记录的在先语音识别结果和在后语音识别结果之间的时间间隔不大于预定时间间隔；并且/或者

b)在先语音识别结果和在后语音识别结果之间的编辑距离除以两个语音识别结果的最大长度得到的比值不大于第一预定比值阈值；并且/或者

c)在后语音识别结果的出现次数不小于第一预定次数阈值；并且/或者

d)在先语音识别结果和在后语音识别结果作为纠错改写对的出现次数不小于第二预定次数阈值。

第一训练装置311-2可以用于以纠错改写对作为训练语料，对机器翻译模型进行训练。

在线模块320可以包括纠错改写装置321，用于将语音识别结果文本(即第一文本)输入到机器翻译模型中，得到语音识别纠错结果文本(即第二文本)。

在线模块320还可以包括纠错判定装置322，用于判断语音识别结果文本是否需要进行纠错。其中，在纠错判定装置322判定需要进行纠错的情况下，可以将语音识别结果文本输入到机器翻译模型中，而在纠错判定装置322判定不需要进行纠错的情况下，可以不将语音识别结果文本输入到机器翻译模型中。

纠错判定装置322可以包括第一判断装置322-1和第二判断装置322-2。

第一判断装置322-1可以使用语言模型判断语音识别结果文本是否需要进行纠错。例如，可以在语言模型针对语音识别结果文本给出的困惑度高于第一预定困惑度阈值的情况下，判定需要进行纠错。

第二判断装置322-2，基于常用词库判断语音识别结果文本是否需要进行纠错。例如，可以在语音识别结果文本中包含非常用词的情况下，判定需要进行纠错。

优选地，离线模块310还可以包括语料挖掘装置312和第二训练装置313。

语料挖掘装置312可以用于从日志中挖掘适于训练语言模型的训练语料。第二训练装置313可以用于使用训练语料来训练语言模型。

优选地，离线模块310还可以包括语料混合装置314，用于将从日志中挖掘得到的训练语料与普通语料混合，得到混合训练语料.其中，第二训练装置313使用混合训练语料来训练语言模型。

优选地，离线模块310还可以包括分词装置315、统计装置316和整理装置317。

分词装置315可以用于对日志中的语音识别结果文本进行分词。统计装置316可以用于统计各个分词在日志中的出现次数。整理装置317可以用于将出现次数不小于第三预定次数阈值的词作为常用词，记录在常用词库中。

另外，在线模块320还可以包括结果判定装置323，用于判断语音识别纠错结果文本是否合格。

例如，结果判定装置323可以基于以下条件中的至少一项来判断语音识别纠错结果文本是否合格：

1)机器翻译模型针对语音识别纠错结果文本给出的置信度不低于预定置信度阈值；

2)语言模型针对语音识别纠错结果文本给出的困惑度分值小于语音识别结果文本，并且/或者困惑度分值小于第二预定困惑度阈值；

3)语音识别结果文本与语音识别纠错结果文本之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。

【计算设备】

根据本公开还提供了一种可以用于执行本公开的机器处理方法和文本纠错方法的计算设备。该计算设备可以是用于语音识别纠错的服务器。

图3是可以用于执行本公开的机器处理方法和文本纠错方法的计算设备的示意性框图。

如图3所示，该计算设备400可以包括处理器420和存储器430。存储器430上存储有可执行代码。当处理器420执行该可执行代码时，使得处理器420执行上面描述的机器处理方法和文本纠错方法。

上文中已经参考附图详细描述了根据本公开的机器处理方法和文本纠错改写方法、装置和系统。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种机器处理方法，包括：

准备纠错改写对，所述纠错改写对包括错误文本和对应的正确文本；以及

以所述纠错改写对作为训练语料，对机器处理模型进行训练。
根据权利要求1所述的机器处理方法，其中，所述准备纠错改写对的步骤包括：

从日志中挖掘所述纠错改写对。
根据权利要求2所述的机器处理方法，其中，从日志中寻找满足下述至少一项条件的在先文本和在后文本，作为所述纠错改写对：

日志中记录的在先文本和在后文本之间的时间间隔不大于预定时间间隔；

在先文本和在后文本之间的编辑距离除以两个文本的最大长度得到的比值不大于第一预定比值阈值；

在后文本的出现次数不小于第一预定次数阈值；

在先文本和在后文本作为纠错改写对的出现次数不小于第二预定次数阈值。
根据权利要求1至3中任何一项所述的机器处理方法，其中，

所述机器处理模型是机器翻译模型。
根据权利要求4所述的机器处理方法，其中，

所述机器翻译模型是序列到序列模型。
根据权利要求5所述的机器处理方法，其中，

所述机器翻译模型是基于注意力机制的序列到序列模型。
根据权利要求1至3中任何一项所述的机器处理方法，其中，

所述错误文本和所述正确文本都是外部输入文本。
根据权利要求7所述的机器处理方法，其中，

所述外部输入文本是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。
一种文本纠错方法，包括：

准备适用于文本纠错的机器处理模型；以及

将第一文本输入到所述机器处理模型中，得到第二文本。
根据权利要求9所述的文本纠错方法，其中，

通过根据权利要求1至8中任何一项所述的机器处理方法来准备所述机器处理模型。
根据权利要求9所述的文本纠错方法，还包括：

判断所述第一文本是否需要进行纠错，

其中，在判定需要进行纠错的情况下，将所述第一文本输入到所述机器处理模型中，而在判定不需要进行纠错的情况下，不将所述第一文本输入到所述机器处理模型中。
根据权利要求11所述的文本纠错方法，其中，判断所述第一文本是否需要进行纠错的步骤包括：

使用语言模型判断所述第一文本是否需要进行纠错；以及/或者

基于常用词库判断所述第一文本是否需要进行纠错。
根据权利要求12所述的文本纠错方法，其中，

在所述语言模型针对所述第一文本给出的困惑度高于第一预定困惑度阈值的情况下，判定需要进行纠错；并且/或者

在所述第一文本中包含非常用词的情况下，判定需要进行纠错。
根据权利要求12所述的文本纠错方法，还包括：

从日志中挖掘适于训练所述语言模型的训练语料；以及

使用所述训练语料来训练所述语言模型。
根据权利要求14所述的文本纠错方法，还包括：

将从日志中挖掘得到的训练语料与普通语料混合，得到混合训练语料，

其中，使用所述混合训练语料来训练所述语言模型。
根据权利要求14所述的文本纠错方法，还包括：

对所述日志中的文本进行分词；

统计各个分词在所述日志中的出现次数；以及

将出现次数不小于第三预定次数阈值的词作为常用词，记录在所述常用词库中。
根据权利要求9所述的文本纠错方法，还包括：

判断所述第二文本是否合格。
根据权利要求17所述的文本纠错方法，其中，基于以下条件中的至少一项来判断所述第二文本是否合格：

所述机器处理模型针对所述第二文本给出的置信度不低于预定置信度阈值；

语言模型针对所述第二文本给出的困惑度分值小于所述第一文本，并且/或者所述困惑度分值小于第二预定困惑度阈值；

所述第一文本与所述第二文本之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。
根据权利要求9所述的文本纠错方法，其中，

所述第一文本是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。
一种机器处理装置，包括：

纠错改写对准备装置，用于准备纠错改写对，所述纠错改写对包括错误识别结果和对应的正确识别结果；以及

第一训练装置，用于以所述纠错改写对作为训练语料，对所述机器处理模型进行训练。
根据权利要求20所述的机器处理装置，其中，所述纠错改写对准备装置从日志中挖掘所述纠错改写对。
根据权利要求21所述的机器处理装置，其中，从日志中寻找满足下述至少一项条件的在先文本和在后文本，作为所述纠错改写对：

日志中记录的在先文本和在后文本之间的时间间隔不大于预定时间间隔；

在先文本和在后文本之间的编辑距离除以两个文本的最大长度得到的比值不大于第一预定比值阈值；

在后文本的出现次数不小于第一预定次数阈值；

在先文本和在后文本作为纠错改写对的出现次数不小于第二预定次数阈值。
根据权利要求20至22中任何一项所述的机器处理装置，其中，

所述机器处理模型是机器翻译模型。
根据权利要求23所述的机器处理装置，其中，

所述机器翻译模型是序列到序列模型。
根据权利要求24所述的机器处理装置，其中，

所述机器翻译模型是基于注意力机制的序列到序列模型。
根据权利要求20至22中任何一项所述的机器处理装置，其中，

所述错误文本和所述正确文本都是外部输入文本。
根据权利要求26所述的机器处理装置，其中，

所述外部输入文本是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。
一种文本纠错装置，包括：

离线模块，所述离线模块包括机器处理模型准备装置，用于准备适用于文本纠错的机器处理模型；以及

在线模块，所述在线模块包括纠错改写装置，用于将第一文本输入到所述机器处理模型中，得到第二文本。
根据权利要求28所述的文本纠错装置，其中，

所述机器处理模型准备装置是根据权利要求20至27中任何一项所述的机器处理装置。
根据权利要求28所述的文本纠错装置，其中，所述在线模块还包括：

纠错判定装置，用于判断所述第一文本是否需要进行纠错，

其中，在所述纠错判定装置判定需要进行纠错的情况下，将所述第一文本输入到所述机器处理模型中，而在所述纠错判定装置判定不需要进行纠错的情况下，不将所述第一文本输入到所述机器处理模型中。
根据权利要求30所述的文本纠错装置，其中，所述纠错判定装置包括：

第一判断装置，使用语言模型判断所述第一文本是否需要进行纠错；以及/或者

第二判断装置，基于常用词库判断所述第一文本是否需要进行纠错。
根据权利要求31所述的文本纠错装置，其中，

所述第一判断装置在所述语言模型针对所述第一文本给出的困惑度高于第一预定困惑度阈值的情况下，判定需要进行纠错；并且/或者

所述第二判断装置在所述第一文本中包含非常用词的情况下，判定需要进行纠错。
根据权利要求31所述的文本纠错装置，其中，所述离线模块还包括：

语料挖掘装置，用于从日志中挖掘适于训练所述语言模型的训练语料；以及

第二训练装置，用于使用所述训练语料来训练所述语言模型。
根据权利要求33所述的文本纠错装置，其中，所述离线模块还包括：

语料混合装置，用于将从日志中挖掘得到的训练语料与普通语料混合，得到混合训练语料，

其中，所述第二训练装置使用所述混合训练语料来训练所述语言模型。
根据权利要求33所述的文本纠错装置，其中，所述离线模块还包括：

分词装置，用于对所述日志中的文本进行分词；

统计装置，用于统计各个分词在所述日志中的出现次数；以及

整理装置，用于将出现次数不小于第三预定次数阈值的词作为常用词，记录在所述常用词库中。
根据权利要求28所述的文本纠错装置，其中，所述在线模块还包括：

结果判定装置，用于判断所述第二文本是否合格。
根据权利要求36所述的文本纠错装置，其中，所述结果判定装置基于以下条件中的至少一项来判断所述第二文本是否合格：

所述机器处理模型针对所述第二文本给出的置信度不低于预定置信度阈值；

语言模型针对所述第二文本给出的困惑度分值小于所述第一文本，并且/或者所述困惑度分值小于第二预定困惑度阈值；

所述第一文本与所述第二文本之间的编辑距离除以两者的最大长度得到的比值不大于第二预定比值阈值。
根据权利要求28所述的文本纠错装置，其中，

所述第一文本是打字输入文本、手写输入文本、语音识别结果文本、图像识别结果文本中的一种。
一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-19中任何一项所述的方法。
一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至19中任一项所述的方法。