WO2022134025A1

WO2022134025A1 - 一种离线语音识别方法和装置、电子设备和可读存储介质

Info

Publication number: WO2022134025A1
Application number: PCT/CN2020/139507
Authority: WO
Inventors: 郝吉芳; 宿绍勋; 王炳乾
Original assignee: 京东方科技集团股份有限公司
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-06-30
Also published as: CN115104151A

Abstract

一种离线语音识别方法和装置(400)、电子设备和可读存储介质。离线语音识别方法包括获取语音信号，并将语音信号转换为文本数据(101)；识别文本数据的目标意图(102)；提取文本数据中与目标意图相关联的关键信息，关键信息与多个预设信息中的一个相匹配(103)；根据关键信息和目标意图确定语音信号对应的控制指令(104)。通过获取语音信号的目标意图，并获取目标意图对应的关键信息，从而确定语音信号的控制指令，能够实现不依赖后台服务器即可实现对于语音信号的识别，这样，未联网的离线设备同样能够实现语音识别，提高了语音识别的应用范围。

Description

一种离线语音识别方法和装置、电子设备和可读存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种离线语音识别方法和装置、电子设备和可读存储介质。

背景技术

语音识别指的是对输入的语音信号进行解析，获取语音信号表达的含义的过程。相关技术中，语音识别依赖网络进行，电子设备需要通过网络与后台服务器通信连接，以通过后台服务器实现语音识别功能。

发明内容

第一方面，本公开实施例提供了一种离线语音识别方法，包括以下步骤：

获取语音信号，并将所述语音信号转换为文本数据；

识别所述文本数据的目标意图；

提取所述文本数据中与所述目标意图相关联的关键信息，所述关键信息与多个预设信息中的一个相匹配；

根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。

可选的，所述识别所述文本数据的目标意图，包括：

通过预训练的转换模型将所述文本数据转换为数字向量；

识别所述数字向量对应的语义信息；

确定所述语义信息与多个预设意图之间的匹配程度；

将与所述语义信息匹配程度最高的预设意图作为所述文本数据对应的目标意图。

可选的，所述预设意图包括网络连接控制、关机控制、音量调节、亮度调节和信号源调节中至少一项。

可选的，所述提取所述文本数据中与所述目标意图相关联的关键信息，包括：

根据所述目标意图，确定所述多个预设信息中与所述目标意图相匹配的所述预设信息；

标记所述文本数据中包括的多个词汇，并确定每一所述词汇与各所述预设信息的匹配程度；

将与所述预设信息匹配程度最高的词汇作为包含所述关键信息的目标词汇；

获取所述目标词汇中包括的信息作为所述关键信息。

可选的，所述获取语音信号，并将所述语音信号转换为文本数据，包括：

获取输入的语音信号；

对所述语音信号进行降噪处理获得第一信号；

通过预先训练的文本转换模型将所述第一信号转换为第一文本；

校正所述第一文本中存在的异常数据获得所述语音信号对应的文本数据。

第二方面，本公开实施例提供了一种离线语音识别装置，包括：

获取转换模块，用于获取语音信号，并将所述语音信号转换为文本数据；

意图识别模块，用于识别所述文本数据的目标意图；

关键信息提取模块，用于提取所述文本数据中与所述目标意图相关联的关键信息，所述关键信息与多个预设信息中的一个相匹配；

控制指令确定模块，用于根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。

可选的，所述意图识别模块包括：

向量转换子模块，用于通过预训练的转换模型将所述文本数据转换为数字向量；

语义信息识别子模块，用于识别所述数字向量对应的语义信息；

意图匹配子模块，用于确定所述语义信息与多个预设意图之间的匹配程度；

意图确定子模块，用于将与所述语义信息匹配程度最高的预设意图作为所述文本数据对应的目标意图。

可选的，所述关键信息提取模块包括：

预设信息确定子模块，用于根据所述目标意图，确定所述多个预设信息中与所述目标意图对应相匹配的所述预设信息；

标记子模块，用于标记所述文本数据中包括的多个词汇，并确定每一所述词汇与各所述预设信息的匹配程度；

目标词汇确定子模块，用于将与所述预设信息匹配程度最高的词汇作为包含所述关键信息的目标词汇；

关键信息获取子模块，用于获取所述目标词汇中包括的信息作为所述关键信息。

可选的，所述获取转换模块包括：

获取子模块，用于获取输入的语音信号；

降噪子模块，用于对所述语音信号进行降噪处理获得第一信号；

文本转换子模块，用于通过预先训练的文本转换模型将所述第一信号转换为第一文本；

校正子模块，用于校正所述第一文本中存在的异常数据获得所述语音信号对应的文本数据。

第三方面，本公开实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面中任一项所述的离线语音识别方法的步骤。

第四方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的离线语音识别方法的步骤。

本公开实施例通过获取语音信号，并将所述语音信号转换为文本数据；识别所述文本数据的目标意图；提取所述文本数据中与所述目标意图相关联的关键信息；根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。这样，本公开实施例通过获取语音信号的目标意图，并获取目标意图对应的关键信息，从而确定语音信号的控制指令，能够实现不依赖后台服务器即可实现对于语音信号的识别，这样，未联网的离线设备同样能够实现语音识别提高了语音识别的应用范围。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获取其他的附图。

图1是本公开一实施例提供的离线语音识别方法的流程图；

图2是本公开一实施例提供的离线语音识别方法的场景示意图；

图3是本公开一实施例提供的离线语音识别方法的又一流程图；

图4是本公开一实施例提供的离线语音识别装置的结构图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本公开保护的范围。

本公开实施例提供了一种离线语音识别方法。

本实施例的技术方案应用于电子设备，应当注意的是，本实施例中的离线语音识别指的是不依赖网络资源进行语音识别。该电子设备可以处于离线状态，也可以处于在线状态。其中，离线状态指的是电子设备未通过无线热点、移动数据网络及其他方式与外部设备进行数据连接；在线状态指的是电子设备通过无线热点、移动数据网络或其他方式与其他设备之间实现通信连接。

本实施例中，离线语音识别过程不依赖电子设备的外部数据，可以理解为，无论电子设备处于离线状态还是在线状态，均能实现本公开实施例中的语音识别过程。

如图1所示，在一个实施例中，该离线语音识别方法包括以下步骤：

步骤101：获取语音信号，并将所述语音信号转换为文本数据。

如图2所示，本实施例中的语音信号指的是用户输入至电子设备的语音信号，实施时，可以通过具有声音采集功能的遥控器、麦克风或电子设备自带的声音采集装置采集输入的语音信号。

在采集到的语音信号之后，进一步将该语音信号转换为文本。

在其中一个实施例中，该步骤101具体包括：

获取输入的语音信号；

对所述语音信号进行降噪处理获得第一信号；

如图3所示，当获取了输入的语音信号之后，先对语音信号进行降噪处理，降噪处理的目的在于消除噪声，噪声具体包括外部噪声和内部噪声。其中，外部噪声指的是来自电子设备以外的噪声，例如环境噪声等，而内部噪声指的是电子设备自身播放的音乐、自身运行的应用程序所产生的噪声等。外部噪声可以通过滤波、谱减法、维纳滤波法和深度学习降噪等方法实现，内部噪声则可以根据电子设备所播放的声音进行相应的回声消除实现。

在经过降噪处理之后，能够获得质量相对较高的第一信号。

接下来，将该第一信号转换为第一文本。本实施例中，语音识别的过程主要包括提取语音的特征，并在此基础上建立语音识别所需的语音模板。

在识别过程中，利用进行语音识别的文本转换模型，将所建立的语音模板与输入的第一信号的特征进行比较，根据一定的搜索和匹配策略，找出与第一信号匹配程度最高的语音模板。然后根据此模板的定义，通过查表就可以给出对于第一信号的识别结果。

文本转换模型的训练预先完成的，实施时，可以对预先收集好的语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”，以进行文本转换模型的训练，获得满足使用需求的文本转换模型，然后设置于电子设备中。

应用过程中，利用该文本转换模型，对用户输入信号进行识别。应当注意的是，这里的用户输入信号指的可以是上述语音信号，也可以是上述经过降噪处理的第一信号。

可以理解为，将语音信号转换为第一文本的过程可以理解为包括降噪处理和文本识别两个主要过程。

降噪处理主要可以实现进行端点检测以去除多余的静音和非说话声、降噪、特征提取等；文本识别主要利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别，也可以称作解码，从而得到其包含的文字信息。

在其中一些实施例中，在文本识别之后还可以进一步包括一个自适应的反馈过程，该反馈过程主要用于对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

在获得第一文本之后，还可以对获得的文本内容进行校正，例如，更正错误的同音字，例如将配副眼睛更正为配副眼镜；更正发音近似的词语，例如将流浪织女更正为牛郎织女；根据词库对某些特定的名词进行更正，例如将伍迪艾伦更正为艾伦伍迪；语法错误的更正，例如将想象难以更正为难以想象；字词补全，例如将如爱有天意更正为假如爱有天意；形似字错误，例如将高梁更正为高粱等。该过程可以基于特定的规则或利用相应的深度学习模型实现，显然，所依据的具体规则也可以进一步作出扩充。

本实施例中，将校正后的第一文本作为输入语音信号对应的文本。在其他一些实施例中，上述降噪的过程和该文本校正的步骤并非必须的，可以根据需要省略该步骤，以降低语音识别过程中的系统负荷。

步骤102：识别所述文本数据的目标意图。

如图3所示，在获得文本数据后，识别该文本数据对应的目标意图，该过程可以理解为对文本数据进行分类，确定其表达的含义及具体希望实现的目的。

在其中一些实施例中，该步骤102包括：

通过预训练的转换模型将所述文本数据转换为数字向量；

识别所述数字向量对应的语义信息；

确定所述语义信息与多个预设意图之间的匹配程度；

本实施例中，意图识别的过程可以基于Bert模型实现。Bert架构的转换模型是一个预训练产生词向量的模型，即将自然语言的文本转换成数字向量，然后识别其对应的语义信息，能够增加词向量模型泛化能力，充分描述字符级、词级、句子级甚至句间关系特征。显然，该意图识别过程还可以通过正则表达匹配、基于Bilstm的相似度计算模型等方式实现，此处不做进一步限定。

在其中一些实施例中，意图识别可以通过softmax分类器实现，例如，可以设置分类函数y ⁱ＝softmax(W ⁱh ₁+b ⁱ)，其中，y ⁱ为意图被分至第i类的概率，W ⁱ为权重，h ₁为数据集，b ⁱ为偏置向量。该softmax算法本身可参考相关技术，此处不做进一步限定和描述。

在获得了数字向量对应的语义信息之后，确定语义信息与多个预设意图之间的匹配程度。

应当理解的是，由于本实施例的技术方案用于实现离线语音识别，受到硬件性能等因素限制，所以所能提供的运算能力是有限的，因此，本实施例中，设置一定数量的预设意图，且主要针对这些预设意图提供语音识别和控制功能。

如图3所示，在一个实施例中，该电子设备可以是会议一体机、智慧屏、家居设备等电子设备。预设意图包括网络连接控制、关机控制、音量调节、亮度调节和信号源调节中至少一项。

更为具体的，在其中一个实施例中，仅设置了上述五种预设意图，在进行语音识别过程中，将识别出的语义信息与上述预设意图相匹配，并从中选择匹配程度最高的预设意图作为文本数据对应的目标意图，有利于降低运算量，提高对于结果识别的准确程度。

步骤103：提取所述文本数据中与所述目标意图相关联的关键信息，所述关键信息与多个预设信息中的一个相匹配。

在确定了目标意图之后，对文本数据中的关键信息进行提取，本实施例中，针对每一预设意图设定匹配相应的一个或多个预设信息，实施时，从文本数据中查找是否存在相应的关键信息。

示例性的，在一个实施例中，根据语音信号获得的文本数据为“将音量调到60”，通过意图识别获得该语音信号对应的目标意图为音量调节，音量调节对应的预设信息包括音量增加、音量降低、静音和调节至指定音量四种，在获得了文本数据之后，从文本数据中识别是否存在与预设信息相匹配的关键信息，本实施例中，识别到“60”，与预设信息中的“调节至指定的音量”相匹配，因此，将“60”作为相应的关键信息。

在其中一些实施例中，该步骤103具体包括：

获取所述目标词汇中包括的信息作为所述关键信息。

在其中一些实施例中，关键信息的获取可以通过槽位填充实现。本实施例中，在确定了目标意图之后，确定多个预设信息中与目标意图相匹配的预设信息。

示例性的，音量调节对应的预设信息为音量增加、音量降低、静音和调节至指定音量，亮度调节对应的预设信息为亮度增加和亮度降低，当确定目标意图为音量调节时，与该意图相匹配的预设信息为音量增加、音量降低、静音和调节至指定音量这四个预设信息。

接下来，标记文本数据中包括的多个词汇，例如，对于“将音量调到60”，标记的词汇可以是“将”、“音量”、“调到”和“60”，这一过程汇中，可以标记文本数据中的部分或全部词汇。

在完成对于词汇的标记之后，确定词汇和预设信息之间的匹配程度。示例性的，本实施例中，分别确定“将”、“音量”、“调到”和“60”这四个词汇与“音量增加”、“音量降低”、“静音”和“调节至指定音量”这四个预设信息之间一一的匹配程度。

本实施例中，“60”和“调节至指定音量”之间匹配程度最高，因此，将“60”这一词汇作为目标词汇，并进一步获取“60”包含的信息为具体的音量值大小60，将该信息作为关键信息。

与上述过程类似的，每一词汇与预设信息的匹配程度可以通过包括但不限于上述softmax算法等方法计算。

步骤104：根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。

在获得了意图和关键信息后，确定相应的控制指令，例如，本实施例中，意图为音量调节，关键信息具体是音量值大小为60，所以能够得到相应的控制指令为将音量调节至60。

如图2和图3所示，在确定了控制指令之后，进一步可以控制电子设备执行该控制指令，将音量调节到60。

这样，本公开实施例通过获取语音信号的目标意图，并获取目标意图对应的关键信息，从而确定语音信号的控制指令，能够实现不依赖后台服务器即可实现对于语音信号的识别，这样，未联网的离线设备同样能够实现语音识别提高了语音识别的应用范围。

此外，本实施例的技术方案不需要网络即可实现，相应速度相对于基于后台服务器的在线语音识别，相应速度更快、成本更低、使用更加便利。

本公开实施例提供了一种离线语音识别装置。

如图4所示，在一个实施例中，该离线语音识别装置400包括：

获取转换模块401，用于获取语音信号，并将所述语音信号转换为文本数据；

意图识别模块402，用于识别所述文本数据的目标意图；

关键信息提取模块403，用于提取所述文本数据中与所述目标意图相关联的关键信息；

控制指令确定模块404，用于根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。

在其中一些实施例中，所述意图识别模块402包括：

在其中一些实施例中，所述预设意图包括网络连接控制、关机控制、音量调节、亮度调节和信号源调节中至少一项。

在其中一些实施例中，所述关键信息提取模块403包括：

在其中一些实施例中，所述获取转换模块401包括：

获取子模块，用于获取输入的语音信号；

本实施例中的离线语音识别装置能够实现上述离线语音识别方法实施例的各个步骤，并能实现基本相同或相似的技术效果，此处不再赘述。

本公开实施例还提供一种移动终端，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述离线语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述离线语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

一种离线语音识别方法，包括以下步骤：

获取语音信号，并将所述语音信号转换为文本数据；

识别所述文本数据的目标意图；

提取所述文本数据中与所述目标意图相关联的关键信息，所述关键信息与多个预设信息中的一个相匹配；

根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。
根据权利要求1所述的方法，其中，所述识别所述文本数据的目标意图，包括：

通过预训练的转换模型将所述文本数据转换为数字向量；

识别所述数字向量对应的语义信息；

确定所述语义信息与多个预设意图之间的匹配程度；

将与所述语义信息匹配程度最高的预设意图作为所述文本数据对应的目标意图。
根据权利要求2所述的方法，其中，所述预设意图包括网络连接控制、关机控制、音量调节、亮度调节和信号源调节中至少一项。
根据权利要求2或3所述的方法，其中，所述提取所述文本数据中与所述目标意图相关联的关键信息，包括：

根据所述目标意图，确定所述多个预设信息中与所述目标意图相匹配的所述预设信息；

标记所述文本数据中包括的多个词汇，并确定每一所述词汇与各所述预设信息的匹配程度；

将与所述预设信息匹配程度最高的词汇作为包含所述关键信息的目标词汇；

获取所述目标词汇中包括的信息作为所述关键信息。
根据权利要求1所述的方法，其中，所述获取语音信号，并将所述语音信号转换为文本数据，包括：

获取输入的语音信号；

对所述语音信号进行降噪处理获得第一信号；

通过预先训练的文本转换模型将所述第一信号转换为第一文本；

校正所述第一文本中存在的异常数据获得所述语音信号对应的文本数据。
一种离线语音识别装置，包括：

获取转换模块，用于获取语音信号，并将所述语音信号转换为文本数据；

意图识别模块，用于识别所述文本数据的目标意图；

关键信息提取模块，用于提取所述文本数据中与所述目标意图相关联的关键信息，所述关键信息与多个预设信息中的一个相匹配；

控制指令确定模块，用于根据所述关键信息和所述目标意图确定所述语音信号对应的控制指令。
根据权利要求6所述的装置，其中，所述意图识别模块包括：

向量转换子模块，用于通过预训练的转换模型将所述文本数据转换为数字向量；

语义信息识别子模块，用于识别所述数字向量对应的语义信息；

意图匹配子模块，用于确定所述语义信息与多个预设意图之间的匹配程度；

意图确定子模块，用于将与所述语义信息匹配程度最高的预设意图作为所述文本数据对应的目标意图。
根据权利要求7所述的装置，其中，所述预设意图包括网络连接控制、关机控制、音量调节、亮度调节和信号源调节中至少一项。
根据权利要求7或8所述的装置，其中，所述关键信息提取模块包括：

预设信息确定子模块，用于根据所述目标意图，确定所述多个预设信息中与所述目标意图对应相匹配的所述预设信息；

标记子模块，用于标记所述文本数据中包括的多个词汇，并确定每一所述词汇与各所述预设信息的匹配程度；

目标词汇确定子模块，用于将与所述预设信息匹配程度最高的词汇作为包含所述关键信息的目标词汇；

关键信息获取子模块，用于获取所述目标词汇中包括的信息作为所述关键信息。
根据权利要求6所述的装置，其中，所述获取转换模块包括：

获取子模块，用于获取输入的语音信号；

降噪子模块，用于对所述语音信号进行降噪处理获得第一信号；

文本转换子模块，用于通过预先训练的文本转换模型将所述第一信号转换为第一文本；

校正子模块，用于校正所述第一文本中存在的异常数据获得所述语音信号对应的文本数据。
一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的离线语音识别方法的步骤。
一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的离线语音识别方法的步骤。