WO2017177484A1

WO2017177484A1 - 一种语音识别解码的方法及装置

Info

Publication number: WO2017177484A1
Application number: PCT/CN2016/081334
Authority: WO
Inventors: 俞凯; 周伟达; 陈哲怀; 邓威; 徐涛
Original assignee: 苏州思必驰信息科技有限公司; 上海交通大学
Priority date: 2016-04-11
Filing date: 2016-05-06
Publication date: 2017-10-19
Also published as: CN105895081A; EP3444806A1; US20190057685A1; EP3444806A4

Abstract

一种语音识别解码的方法及装置，该方法包括：接收语音信息，提取声学特征（S101）；根据连接时序分类模型计算该声学特征的信息(S102)；若声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧(S103)。通过建立连续时序分类模型，使得声学建模更加精确；使用改进加权有限状态机，使得模型表示更为高效，减少计算和内存资源消耗近50％；在解码中使用音素同步的方法，有效减少了模型搜索的计算量和次数。

Description

一种语音识别解码的方法及装置

技术领域

本发明属于语音处理领域，具体涉及语音识别解码的方法及装置。

背景技术

语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。传统语音识别中将语言学信息(包括词的发音序列，词组合的出现概率等)全部分别转换成一种具有“输入”，“输出”，“路径权重”，“状态跳转”四种属性的结构，并将转换得到的所有语言学信息合成(composition)在一起，经过全局优化网络结构后，构成了一个整体的语音识别搜索网络，供解码过程在网络中进行搜索。其构建流程大致参见下图(例子中的“/”后表示路径权重)：

传统语音识别技术基于隐马尔科夫模型(hidden markov model)，逐帧同步解码(Frame Synchronous Decoding)和加权有限状态机(Weighted Finite State Transducer)方法进行构建，主要有以下缺点：

隐马尔科夫模型的建模效果有缺陷；

逐帧同步解码的计算量庞大且冗余；

该框架下的加权有限状态机消耗大量计算和内存资源。

发明内容

为了解决上述问题，本发明实施例提供了一种语音识别解码的方法及装置。所述技术方案如下：

第一方面，一种语音识别解码的方法，该方法包括：

接收语音信息，提取声学特征；

根据连接时序分类模型计算该声学特征的信息；

其中，声学特征的信息主要包括由声波的声学信息逐帧提取的向量。

声学信息存储结构为连接时序分类模型词图，该声学特征的信息存储结构基于加权有限状态机进行表示，将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。

具体的，连接时序分类模型在输入每一帧声学特征后，会逐帧得出各音素的出现概率。

若该声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。

具体的，该方法还包括：通过音素同步解码输出语音识别结果。

第二方面，一种语音识别解码的装置，该装置包括：

特征提取模块，用于接收语音信息，提取声学特征；

声学计算模块，用于根据连接时序分类模型计算该声学特征的信息；

解码搜索模块，若该声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。

该装置还包括音素解码模块，通过音素同步解码输出语音识别结果。

本发明通过建立连续时序分类模型，使得声学建模更加精确；使用改进加权有限状态机，使得模型表示更为高效，减少计算和内存资源消耗近50％；在解码中使用音素同步的方法，有效减少了模型搜索的计算量和次数。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种语音识别解码的方法流程图；

图2是本发明实施例提供的适配声学建模信息的加权有限状态机的示意图；

图3是本发明实施例提供的声学信息结构的示意图；

图4是本发明第二实施例提供的一种音素同步解码的方法流程图；

图5是本发明实施例提供的一种语音识别解码的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1示出了本发明第一实施例提供的一种语音识别解码的方法流程，具体包括：

S101接收语音信息，提取声学特征；

特征提取通过传统信号处理技术，将声波的声学信息逐帧提取成一个向量，供后端建模和解码作为输入特征使用。

S102根据连接时序分类模型计算该声学特征的信息；

基于时序分类模型对音频的音素信息进行建模。具体方法是将收集标注好音频内容的训练数据，经过前处理和提取特征后，作为模型输入和输出进行时序分类模型的模型训练。在海量数据训练下，得到最终的连接时序分类模型供模型搜索使用。训练得到的模型在输入每一帧声学特征后，会给出所有建模单元可能出现的概率，其中建模单元为音素。

具体的，连接时序分类模型在输入每一帧声学特征后，会逐帧得出音素的出现概率。

S103若声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。

加权有限状态机是一种用于表示语音识别搜索网络的结构。针对使用连接时序分类模型的语音识别系统设计了相应的适配声学建模信息的加权有限状态机模型，该模型强调了高效，节省内存及计算资源，其结构如图2所示，其中“<blk>”表示连接时序分类模型中的空白模型，“<eps>”表示空标识，“#1”用于适配“表示词发音序列的加权有限状态机”中的多发音词，“a”表示连接时序分类模型中的一个示例模型，“...”表示连接时序分类模型中的其他模型。该结构相比目前存在的其他同类结构，算法的计算和内存资源消耗减少50％左右，且语言学信息完全等效。

本实施例提出了连接时序分类模型词图，一种高效的声学信息储存结构，用于作为上面提出的音素同步解码的载体。

这种声学信息结构基于加权有限状态机进行表示，方法是将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。图3示出这种结构的构建示例，对应于该结构的示例声学信息见表1：

Time	Phone：score
0.4s	<blk>:0.2 a2:0.5 a4:0.2
0.9s	<blk>:0.3 a1:0.6
1.5s	a5:0.3 ai1:0.2 ai3:0.2

表1 声学信息结构的示例声学信息

本发明实施例通过建立连续时序分类模型，使得声学建模更加精确；使用改进加权有限状态机，使得模型表示更为高效，减少计算和内存资源消耗近50％；在解码中使用音素同步的方法，有效减少了模型搜索的计算量和次数。

连接时序分类模型的概率输出分布具有单峰突出的特点，一句话对应各帧的一组概率输出，一般纵轴为概率值，横轴为时间轴，不同颜色的峰值代表不同模型的输出。

基于该现象，本实施例提出了一种新颖的音素同步解码方法，以取代传统的逐帧同步解码。音素同步解码方法只在出现非空白模型输出时才进行语言学网络搜索，否则直接丢弃当前帧声学信息，转到下一帧。其算法流程如图4所示。

图4示出本发明第二实施例提供的一种音素同步解码的方法流程，详述如下：

S401算法初始化；

S402判断语音是否结束，若结束，则回溯并输出解码结果，否则进入步骤S403；

S403声学特征提取；

S404利用连接时序分类模型计算声学信息；

S405判断声学信息中每帧是否为空白模型帧，若是，则直接丢弃，否则进入步骤S406；

S406使用加权有限状态机进行语言学搜索；

S407储存语言学历史信息；

S408获取语言学历史信息后，回溯并输出解码结果。

该方法丢弃了大量冗余的空白模型对应的语言学网络搜索，且不会带来搜索空间的损失。

图5示出本发明实施例提供的一种语音识别解码的结构示意图，详述如下：

特征提取模块51，用于接收语音信息，提取声学特征；

声学计算模块52，用于根据连接时序分类模型计算该声学特征的信息；

解码搜索模块53，若该声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储，否则丢弃该帧。

该装置还包括音素解码模块54，通过音素同步解码输出语音识别结果。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种语音识别解码方法，其特征在于，所述方法包括：

接收语音信息，提取声学特征；

根据连接时序分类模型计算所述声学特征的信息；

若所述声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。
根据权利要求1所述的方法，其特征在于，所述方法还包括：通过音素同步解码输出语音识别结果。
根据权利要求1所述的方法，其特征在于，所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
根据权利要求1所述的方法，其特征在于，所述连接时序分类模型在输入每一帧声学特征后，会逐帧得出各音素的出现概率。
根据权利要求1所述的方法，其特征在于，所述声学信息存储结构为连接时序分类模型词图，所述声学特征的信息存储结构基于所述加权有限状态机进行表示，将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。
一种语音识别解码装置，其特征在于，所述装置包括：

特征提取模块，用于接收语音信息，提取声学特征；

声学计算模块，用于根据连接时序分类模型计算所述声学特征的信息；

解码搜索模块，若所述声学特征信息中的帧为非空模型帧，则使用适配声学建模信息的加权有限状态机进行语言学信息搜索并存储历史，否则丢弃该帧。
根据权利要求6所述的装置，其特征在于，所述装置还包括：

音素解码模块，通过音素同步解码输出语音识别结果。
根据权利要求6所述的装置，其特征在于，所述声学特征的信息主要包括由声波的声学信息逐帧提取的向量。
根据权利要求6所述的装置，其特征在于，所述连接时序分类模型在输入每一帧声学特征后，会逐帧得出各音素的出现概率。
根据权利要求6所述的装置，其特征在于，所述声学信息存储结构为连接时序分类模型词图，所述声学特征的信息存储结构基于所述加权有限状态机进行表示，将两个不同模型输出时刻之间，所有候选的声学输出模型进行两两相连。