WO2015149543A1

WO2015149543A1 - 语音识别方法和装置

Info

Publication number: WO2015149543A1
Application number: PCT/CN2014/094277
Authority: WO
Inventors: 李博; 王志谦; 胡娜; 穆向禹; 贾磊; 魏伟
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2014-04-01
Filing date: 2014-12-18
Publication date: 2015-10-08
Also published as: US20170011736A1; CN103915092A; US9805712B2; CN103915092B

Abstract

一种语音识别方法和装置，该语音识别方法包括采集用户输入的语音信息；对所述语音信息进行特征提取，得到特征信息；根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。

Description

语音识别方法和装置

相关申请的交叉引用

本申请要求百度在线网络技术(北京)有限公司于2014年04月01日提交的、发明名称为“语音识别方法和装置”的、中国专利申请号“201410129541.4”的优先权。

技术领域

本发明涉及智能处理技术领域，尤其涉及一种语音识别方法和装置。

背景技术

语音识别是信息技术领域重要的技术之一，语音识别的目标是使机器听懂人的自然语言，由识别后的语音作为控制信号可以应用在不同的领域。

目前，语音识别通常采用在线方式，用户输入的语音信息由网络传入云端，经云端的服务器进行识别并将结果传回给用户。

但是，这种在线方式需要依赖网络。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音识别方法，该方法可以不依赖网络实现语音识别。

本发明的另一个目的在于提出一种语音识别装置。

为达到上述目的，本发明第一方面实施例提出的语音识别方法，包括：采集用户输入的语音信息；对所述语音信息进行特征提取，得到特征信息；根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

本发明第一方面实施例提出的语音识别方法，通过离线的方式进行语音识别，可以不需要依赖网络实现语音识别，方便用户使用。并且，通过对声学模型进行预先数据压缩，可以使得声学模型适应于移动设备中，以实现在移动设备离线完成语音识别。

为达到上述目的，本发明第二方面实施例提出的语音识别装置，包括：采集模块，用于采集用户输入的语音信息；提取模块，用于对所述语音信息进行特征提取，得到特征信息；解码模块，用于根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

本发明第二方面实施例提出的语音识别装置，通过离线的方式进行语音识别，可以不需要依赖网络实现语音识别，方便用户使用。并且，通过对声学模型进行预先数据压缩，可以使得声学模型适应于移动设备中，以实现在移动设备离线完成语音识别。

为达到上述目的，本发明第三方面实施例提出的移动设备，包括：壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为移动设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：采集用户输入的语音信息；对所述语音信息进行特征提取，得到特征信息；根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

本发明第三方面实施例提出的移动设备，通过离线的方式进行语音识别，可以不需要依赖网络实现语音识别，方便用户使用。并且，通过对声学模型进行预先数据压缩，可以使得声学模型适应于移动设备中，以实现在移动设备离线完成语音识别。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一实施例提出的语音识别方法的流程示意图；

图2为本发明实施例中离线方式的语音识别的流程示意图；

图3为本发明另一实施例提出的语音识别方法的流程示意图；

图4为本发明实施例中过滤特征信息的示意图；

图5为本发明实施例中利用声学模型进行处理的流程示意图；

图6为本发明另一实施例提出的语音识别装置的结构示意图；

图7为本发明另一实施例提出的语音识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明一实施例提出的语音识别方法的流程示意图，该方法包括：

S11：移动设备采集用户输入的语音信息；

其中，移动设备可以为手机、平板电脑等。

相关技术中，移动设备接收到用户输入的语音信息后，会通过网络发送给云端的服务器，由服务器进行识别并返回识别结果。

而本实施例中，为了避免语音识别受限于网络，可以由移动设备自身完成语音识别，实现离线方式的语音识别。

S12：移动设备对用户输入的语音信息进行特征提取，得到特征信息。

其中，参见图2，可以首先将用户输入的模拟语音信息转换为数字语音信息。之后，可以根据语音激活检测(Voice Activity Detector，VAD)确定语音起始点和终止点，再进行特征提取。

S13：移动设备根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

其中，如图2所示，解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系，其中声学模型又比语言模型复杂得多。因此，对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩，以避免庞大的声学模型难以运行在移动设备中。

本实施例通过离线的方式进行语音识别，可以不需要依赖网络实现语音识别，方便用户使用。并且，通过对声学模型进行预先数据压缩，可以使得声学模型适应于移动设备中，以实现在移动设备离线完成语音识别。

图3为本发明另一实施例提出的语音识别方法的流程示意图，该方法包括：

S31：移动设备采集用户输入的语音信息。

S32：移动设备对语音信息进行特征提取，得到特征信息。

S33：移动设备对特征信息进行过滤处理，得到过滤后的特征信息。

其中，如图4所示，在一段语音信息中，由于字与字之间的停顿，带来很多无用的信息。本实施例通过过滤掉这些无用信息，以保证输入到解码器中的特征信息紧凑有效。

过滤处理包括但不限于跳帧等。

S34：移动设备根据数据压缩后的声学模型，对输入的过滤后的特征信息进行计算，得到声学模型打分。

具体的，利用声学模型进行处理的流程可以参见图5，包括：

S51：对输入数据进行数据压缩。

其中，输入数据是指过滤后的特征信息。

S52：利用数据压缩过的声学模型，对数据压缩后的输入数据进行并行计算，得到输出数据，其中，输出数据是数据压缩的声学模型打分。

其中，对输入数据进行数据压缩的算法与声学模型的数据压缩算法一致，以进行相应匹配。

本实施例中的优化可以包括数据结构优化和计算模式优化，其中，数据结构优化是指对输入数据以及声学模型都进行了压缩。计算模式优化是指采用并行运算。

在解码器模块中，本实施例采用了数据压缩方法，使本来非常庞大的声学模型压缩到适合在移动设备中使用的规模，同时能够保证整体识别率没有下降。此外，由于整个解码过程中的操作数均是压缩过的数据，所以，虽然相比于一般的解码过程，本实施例多了数据压缩和数据解压的过程，但是得益于压缩过的数据量比原数据量小一个量级，而且输入压缩和输出解压的计算量远小于模型打分的计算，因此，整体解码时间大大短于没有压缩数据的解码。

本实施例在对数据进行压缩的同时，也充分发掘了数据计算的并行性。在对大量输入数据进行解码时，不同的输入数据在进行计算时完全没有数据依赖，而且同一数据的计算中也存在毫无关联的数个步骤，因此本实施例采用各种并行手段，包括但不限于数据并行、指令并行、线程并行等，对整个解码过程进行并行优化，取得了巨大的时间收益。

在采用以上两种优化手段之后，解码时间在整体识别时间中的占比由原来的95％以上缩减到了20％以下，加速达到150倍以上；模型规模也缩减到原来的15％。这一指标完全适合应用于移动设备中。

S53：对输出数据进行解压缩，得到声学模型打分。

在得到声学模型打分后，还可以获取语言模型打分，最后根据声学模型打分和语言模型打分，得到识别后的语音信息。即，本实施例的方法还包括：

S35：移动设备对经过声学模型匹配后的数据进行语言模型打分，得到语言模型打分。

其中，经过声学模型处理后，可以得到声学模型中每个字对应的得分，之后根据每个字对应的得分，可以对相应的字进行语言模型打分。

由于语言模型相对于声学模型简单很多，因此，可以将目前服务器采用的语言模型应用到移动设备中，采用目前的语言模型处理流程。

S36：移动设备根据声学模型打分和语言模型打分，得到结合后的打分。

最终模型的打分由声学模型的得分和语言模型的得分相结合得到，该方式包括但不限于加权求和：

score＝W_am·score_am+W_lm·score_lm

其中，score为最终得分，W_am和W_lm分别是声学模型和语言模型的权重，score_am和score_lm分别为声学模型和语言模型的打分。

S37：移动设备将最高的结合后的打分对应的文字片断，确定为语音识别后得到的文字片断。

本实施例可以在移动设备上实现离线语音识别，可以应用在地图导航、手机输入等软件中，使得用户不需要手动输入信息，直接采用语音完成相应控制，提升用户体验。本实施例通过对解码部分的声学模型进行计算以及数据的优化，既能够保证识别率，又能将占用的系统资源控制在一个合理的范围内，十分适合部署在移动设备上。

图6为本发明另一实施例提出的语音识别装置的结构示意图，该装置60包括采集模块61、提取模块62和解码模块63。

采集模块61用于采集用户输入的语音信息；

其中，该装置可以具体为移动设备，移动设备可以为手机、平板电脑等。

提取模块62用于对所述语音信息进行特征提取，得到特征信息；

其中，可以首先将用户输入的模拟语音信息转换为数字语音信息。之后，可以根据语音激活检测(Voice Activity Detector，VAD)确定语音起始点和终止点，再进行特征提取。

解码模块63用于根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

其中，解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系，其中声学模型又比语言模型复杂得多。因此，对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩，以避免庞大的声学模型难以运行在移动设备中。

图7为本发明另一实施例提出的语音识别装置的结构示意图，该装置60还包括过滤模块64。

过滤模块64用于对所述特征信息进行过滤，得到过滤后的特征信息，以对所述过滤后的特征信息进行解码。

其中，如图3所示，在一段语音信息中，由于字与字之间的停顿，带来很多无用的信息。本实施例通过过滤掉这些无用信息，以保证输入到解码器中的特征信息紧凑有效。

一个实施例中，所述过滤模块64具体用于：对所述特征信息进行跳帧提取。

一个实施例中，所述解码模块63具体用于：

对所述特征信息进行数据压缩，根据所述数据压缩过的声学模型，对数据压缩后的特征信息进行计算，得到声学模型打分；

根据语言模块，对声学模型打分后的数据进行运算，得到语言模型打分；

根据所述声学模型打分和所述语言模型打分，得到识别后的语音信息。

一个实施例中，所述解码模块63对数据压缩后的特征信息进行计算，包括：

对数据压缩后的特征信息进行并行运算。

一个实施例中，所述解码模块63进行的并行运算具体包括如下项中的至少一项：

数据并行运算、指令并行运算、线程并行运算。

在得到声学模型打分后，还可以获取语言模型打分，最后根据声学模型打分和语言模型打分，得到识别后的语音信息。

score＝W_am·score_am+W_lm·score_lm

其中，可以将最高的结合后的打分对应的文字片断，确定为语音识别后得到的文字片断。

本发明实施例还提供了一种移动设备，该移动设备包括壳体、处理器、存储器、电路板和电源电路，其中，电路板安置在壳体围成的空间内部，处理器和存储器设置在电路板上；电源电路，用于为移动设备的各个电路或器件供电；存储器用于存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

S11’：采集用户输入的语音信息；

其中，移动设备可以为手机、平板电脑等。

S12’：对用户输入的语音信息进行特征提取，得到特征信息。

S13’：根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

本实施例通过离线的方式进行语音识别，可以不需要依赖网络实现语音识别，方便用户使用。

另一实施例中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行以下步骤：

S31’：采集用户输入的语音信息。

S32’：对语音信息进行特征提取，得到特征信息。

S33’：对特征信息进行过滤处理，得到过滤后的特征信息。

过滤处理包括但不限于跳帧等。

S34’：根据数据压缩后的声学模型，对输入的过滤后的特征信息进行计算，得到声学模型打分。

具体的，得到声学模型打分的流程可以包括：

S51’：对输入数据进行数据压缩。

其中，输入数据是指过滤后的特征信息。

S52’：利用数据压缩过的声学模型，对数据压缩后的输入数据进行并行计算，得到输出数据，其中，输出数据是数据压缩的声学模型打分。

S53’：对输出数据进行解压缩，得到声学模型打分。

S35’：对经过声学模型匹配后的数据进行语言模型打分，得到语言模型打分。

S36’：根据声学模型打分和语言模型打分，得到结合后的打分。

score＝W_am·score_am+W_lm·score_lm

S37’：将最高的结合后的打分对应的文字片断，确定为语音识别后得到的文字片断。

本发明实施例还提出了一种移动设备，该移动设备包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时进行如下操作：

采集用户输入的语音信息；

对所述语音信息进行特征提取，得到特征信息；

根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种语音识别方法，其特征在于，包括：

采集用户输入的语音信息；

对所述语音信息进行特征提取，得到特征信息；

根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。
根据权利要求1所述的方法，其特征在于，所述得到特征信息之后，所述方法还包括：

对所述特征信息进行过滤，得到过滤后的特征信息，以对所述过滤后的特征信息进行解码。
根据权利要求2所述的方法，其特征在于，所述对所述特征信息进行过滤，包括：

对所述特征信息进行跳帧提取。
根据权利要求1至3任一项所述的方法，其特征在于，所述根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，包括：

对所述特征信息进行数据压缩，根据所述数据压缩过的声学模型，对数据压缩后的特征信息进行计算，得到声学模型打分；

根据语言模块，对声学模型打分后的数据进行运算，得到语言模型打分；

根据所述声学模型打分和所述语言模型打分，得到识别后的语音信息。
根据权利要求4所述的方法，其特征在于，所述对数据压缩后的特征信息进行计算，包括：

对数据压缩后的特征信息进行并行运算。
根据权利要求5所述的方法，其特征在于，所述并行运算包括如下项中的至少一项：

数据并行运算、指令并行运算、线程并行运算。
一种语言识别装置，其特征在于，包括：

采集模块，用于采集用户输入的语音信息；

提取模块，用于对所述语音信息进行特征提取，得到特征信息；

解码模块，用于根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。
根据权利要求7所述的装置，其特征在于，还包括：

过滤模块，用于对所述特征信息进行过滤，得到过滤后的特征信息，以对所述过滤后的特征信息进行解码。
根据权利要求8所述的装置，其特征在于，所述过滤单元具体用于：

对所述特征信息进行跳帧提取。
根据权利要求7至9任一项所述的装置，其特征在于，所述解码模块具体用于：

对所述特征信息进行数据压缩，根据所述数据压缩过的声学模型，对数据压缩后的特征信息进行计算，得到声学模型打分；

根据语言模块，对声学模型打分后的数据进行运算，得到语言模型打分；

根据所述声学模型打分和所述语言模型打分，得到识别后的语音信息。
根据权利要求10所述的装置，其特征在于，所述解码模块对数据压缩后的特征信息进行计算，包括：

对数据压缩后的特征信息进行并行运算。
根据权利要求11所述的装置，其特征在于，所述解码模块进行的并行运算具体包括如下项中的至少一项：

数据并行运算、指令并行运算、线程并行运算。
一种移动设备，其特征在于，包括：

一个或者多个处理器；

存储器；

一个或者多个程序，所述一个或者多个程序存储在所述存储器中，当被所述一个或者多个处理器执行时进行如下操作：

采集用户输入的语音信息；

对所述语音信息进行特征提取，得到特征信息；

根据预先获取的声学模型和语言模型，对所述特征信息进行解码，得到识别后的语音信息，其中，所述声学模型为预先进行数据压缩后得到的。