WO2021134550A1

WO2021134550A1 - 多个语音识别输出的人类合并和训练

Info

Publication number: WO2021134550A1
Application number: PCT/CN2019/130694
Authority: WO
Inventors: 李庆远
Original assignee: 李庆远
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2021-07-08

Abstract

一种多个语音识别输出的人类合并和训练的方法，通过对多个语音识别输出进行人类合并，改进输出结果的同时，将人类合并和修改的结果，反馈作为语音识别训练的材料。

Description

多个语音识别输出的人类合并和训练

发明领域

本发明涉及多个语音识别输出的人类合并和训练，具体涉及一种通过对多个语音识别输出进行人类合并，改进输出结果的同时，将人类合并和修改的结果，反馈作为语音识别训练的材料的方法。

背景技术

智能手机时代，弱人工智能(Artificial Intelligence，以下简称为AI)得到了广泛的应用，譬如自动翻译、语音识别、人脸识别、AI美颜、AI识曲、AI变声、视频换脸、音频/视频合成等。然而，这些弱AI应用执行任务的准确率，还不足以完全取代人类。

例如，对于语音识别输入法，会受到语速、话筒被遮蔽(比如，华为手机话筒在右下方，右手持拿时，刚好被托着手机的右小指遮蔽，影响了拾音)、音源距离话筒太远、服务器负载、网络延迟和环境噪音等多种因素影响，某个语音识别输入法表现会很不稳定，用户需要一种便利的方法，可以同时调用多个AI应用，以博采众长、平衡偶然不良影响(比如服务器负载和网络链路的延迟)。

发明概述

可以设想同时调用多个语音识别输入法，比如科大讯飞和百度输入法，将多个相应的输出结果展示给用户，再由人类用户逐句挑选最好的子结果，最后将人类用户的工作成果反馈作为AI训练的材料。

为提高人类用户合并多个语音识别输入结果的效率，可以通过模式识别高亮显示多个AI输出结果之间的差异，让人类用户专注于多个AI输出结果的差异和优劣。对语音识别输入法这样的AI应用，识别相同语言相同语序，连停顿都一样，因为多个输出结果的语序、语言结构完全相同，模式识别足矣。

然而，应当理解，本发明内容可能不包含本发明的所有方面和实施例该发明内容并不意味着以任何方式进行限制或限制，并且本文公开的本发明将被下列之一理解：本领域普通技术人员包括对其的明显改进和修改。

具体实施方式

现在将在下文中更充分地描述本发明。然而，本发明可以以许多不同的形式实施，并且不应被解释为限于本文所阐述的实施例。但愿，提供这些实施例使得本公开将是彻底和完整的，并且将向本领域技术人员充分地传达本发明的范围。

应当理解，在不脱离所附权利要求书中阐述的精神和范围的情况下，可以对元件的功能和布置进行各种改变。因此，实施例是本发明的示例或实现，而不是唯一的实现。各种出现“一个实施例”，“实施例”或“一些实施例”不一定都指代相同的实施例。虽然可以在单个实施例的上下文中描述本发明的各种特征，但是特征也可以单独地或以任何合适的组合提供。相反的，尽管为了清楚起见，本文中可以在单独的实施例的上下文中描述本发明，但是本发明也可以在单个实施例或实施例的任何组合中实现。

除非另有定义，本文使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员通常理解的相同的含义。将进一步理解的是，诸如在通常使用的字典中定义的那些术语应当被解释为具有与它们在相关技术和本公开的上下文中的含义一致的含义，并且将不被解释为理想化的或过度正式的意义，除非本文中明确地这样定义。

参考术语如“左”、“右”、“上”、“下”、“前”和“后”旨在用于在相对于描绘实施例中的具体特征，结构或元件的取向本发明的实施例。显然，关于设备的实际使用的这种方向性术语没有特定的含义，因为设备可以由用户或多个用户在多个方向中使用。

一个经常使用语音识别输入法的用户，会发现当自己语速较快时，识别率很低。当自己刻意放缓语速时，识别率很高。这固然存在个体差异，然而，人的习惯很难改变。人机工程的设计原则应该是机器适应人类，而非人类适应机器。

可以由人类用户自己选择，或根据大量用户选择统计结果，默认某种语音识别结果，在其基础上合并其它语音识别结果，或进行修改。当人类用户鼠标悬停或施加预先定义的手势或触碰(比如双指定义修改范围)高亮的差异时，即提供其他语音识别结果对应的差异子句段落，比如显示于悬浮图层，当用户点击或触碰某一个语音识别结果的差异子句段落，即替换基础语音识别结果的差异子句段落，到对应语音识别结果的差异子句段落。当人类用户鼠标点击或施加预先定义的另一种手势或触碰，则可手工修改。

以上描述仅是本发明的实施例，并不意在限制本发明的范围。根据本公开的权利要求书和说明书的各种变化和修改仍在所要求保护的发明的范围内。此外，每个实施例和权利要求书未必包含了所公开的所有优点或特可收紧机械夹性。此外，摘要和标题仅用于便于搜索专利文献,并且不旨在以任何方式限制所要求保护的发明的范围。

Claims

一种提高语音识别率的输入法，包含了：

α.根据统计结果得出最佳识别准确率的语速区间；

β.实时检测输入语音的语速，当语速超出所述最佳准确率的区间，调整语速到所述最佳准确率的区间；

γ.输出根据调整后语速语音识别结果。
一种提高语音识别率的输入法，包含了：

α.根据统计结果得出最佳识别准确率的语速区间；

β.实时检测输入语音的语速，当语速超出所述最佳准确率的区间，调整语速到所述最佳准确率的区间；

γ.在调整语速的同时，根据原始语速语音识别，并输出结果一；

δ.输出根据调整后语速语音识别结果，标记为结果二；

ε.高亮显示标出所述结果一、所述结果二之间的差异；

στ.由用户选择准确的结果，将所述结果一、所述结果二和用户的选择作为所述输入法人工智能训练素材。
一种提高语音识别率的输入法，包含了：

α.根据统计结果得出最佳识别准确率的语速区间；

β.实时检测输入语音的语速，当语速超出所述最佳准确率的区间，调整语速到所述最佳准确率的区间，并在所述最佳准确率的区间选择多个语速同时进行多次识别；

γ.在调整语速的同时，根据原始语速语音识别，并输出结果一；

δ.输出根据调整后语速语音识别结果，标记为结果二、结果三…；

ε.高亮显示标出所述结果一、所述结果二、结果三…之间的差异；

στ.由用户选择准确的结果，将所述结果一、所述结果二、所述结果三…和用户的选择作为所述输入法人工智能训练素材。