WO2014026605A1

WO2014026605A1 - 一种语音识别系统和方法

Info

Publication number: WO2014026605A1
Application number: PCT/CN2013/081432
Authority: WO
Inventors: 王平平; 郄勇
Original assignee: 歌尔声学股份有限公司
Priority date: 2012-08-15
Filing date: 2013-08-14
Publication date: 2014-02-20
Also published as: CN102820032A; CN102820032B; US20150213797A1; KR20150032731A

Abstract

提供了一种语音识别系统和方法，其中语音识别系统包括：麦克风阵列（101）、音频编码电路（102）、蓝牙发射模块（202）、蓝牙接收模块（201）、主控集成电路（205）；其中麦克风阵列（101）用于接收语音信号并转换成模拟音频信号后输出给音频编码电路（102）；音频编码电路（102）用于将所接收的模拟音频信号转换成数字音频信号后输出给主控集成电路（205）；蓝牙发射模块（202）用于接收语音信号并转换成数字音频信号后通过蓝牙方式发送给蓝牙接收模块（201）；蓝牙接收模块（201）用于将所接收的数字音频信号发送给主控集成电路（205）；主控集成电路（205）用于选择来自音频编码电路（102）的数字音频信号或来自蓝牙接收模块（201）的数字音频信号进行语音识别处理。所述语音识别系统和方法解决了只有麦克风阵列作为音频输入的语音识别系统无法对远距离语音进行识别的问题。

Description

一种语音识别系统和方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音识别系统和方法。

发明背景

目前多种智能音视频设备都添加了语音识别功能。图1是现有的一种音视频设备的组成结构的示意图。如图1所示，该音视频设备包括：麦克风阵列101、音频编码电路102、摄像头103、视频处理电路104、主控集成电路105、系统主控微控制单元（系统主控MCU）106、扬声器107及显示屏108。

其中，麦克风阵列101负责语音信号的拾取并转换成模拟音频信号后输出给音频编码电路102，音频编码电路102将从麦克风阵列101接收的模拟音频信号进行数字编码，然后输出给主控集成电路105；摄像头103用于捕获视频信号并输出给视频处理电路104，视频处理电路104用于对摄像头103输出的信号进行编码处理后输出给主控集成电路105；主控集成电路105汇集视频信号和音频信号后，合成音视频数据流输出给系统主控微控制单元106。系统主控微控制单元106为该音视频设备的核心器件，负责音视频数据链路的管理。从系统主控微控制单元106输出的音频信号通过音频扬声器107变成声音信号，从系统主控微控制单元106输出的视频信号通过显示屏108进行显示。此外，图1所示的音视频设备还包括作为外围接口的USB接口和负责整个系统的稳定供电的电源电路等，这里不再一一赘述。

在现有的如图1所示的具有语音识别功能的音视频设备中，不论采用全指向麦克风阵列还是采用单指向麦克风阵列，都有一定的识别距离，所以只能进行近距离语音识别，而对远距离语音无能为力。

发明内容

本发明提供了一种语音识别系统和方法，以解决只有麦克风阵列作为音频输入的语音识别系统无法对远距离语音进行识别的问题。

为达到上述目的，本发明的技术方案是这样实现的：

本发明公开了一种语音识别系统，包括：麦克风阵列、音频编码电路、主控集成电路、蓝牙接收模块和蓝牙发射模块，其中：

麦克风阵列，用于接收语音信号并转换成模拟音频信号后输出给音频编码电路；

音频编码电路，用于将所接收的模拟音频信号转换成数字音频信号后输出给主控集成电路；

蓝牙发射模块，用于接收语音信号并转换成数字音频信号后通过蓝牙方式发送给蓝牙接收模块；

蓝牙接收模块，用于将所接收的数字音频信号发送给主控集成电路；

主控集成电路，用于选择接收来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。

在上述语音识别系统中，具有一个蓝牙接收模块和一个以上的蓝牙发射模块。

在上述语音识别系统中，所述主控集成电路具有按键，所述主控集成电路根据用户对该按键的操作选择来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。

上述语音识别系统还包括：系统主控微控制单元，用于接收来自主控集成电路的音频数据流；

该系统主控微控制单元具有按键，该系统主控微控制单元根据用户对该按键的操作向主控集成电路发送选择来自音频编码电路的数字音频信号的指令或选择来自蓝牙接收模块的数字音频信号的指令；

主控集成电路根据系统主控微控制单元的指令选择来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。

本发明还公开了一种语音识别的方法，该方法包括：

通过麦克风阵列接收语音信号并转换成模拟音频信号，然后将该模拟音频信号转换成数字音频信号，得到第一路数字音频信号；

通过蓝牙音频链路接收语音信号并转换成数字音频信号，得到第二路数字音频信号；

选择第一路数字音频信号或第二路数字音频信号进行语音识别处理。

在上述方法中，所述蓝牙音频链路包括：蓝牙发射模块和蓝牙接收模块；

所述通过蓝牙音频链路接收语音信号并转换成数字音频信号包括：通过蓝牙发射模块接收语音信号并转换成数字音频信号后发送给蓝牙接收模块，蓝牙接收模块将所接收的数字音频信号作为所述第二路数字音频信号输出。

所述蓝牙音频链路包括：一个以上的蓝牙发射模块和一个蓝牙接收模块。

在上述方法中，所述选择第一路数字音频信号或第二路数字音频信号进行语音识别处理包括：

根据用户的按键操作选择第一路数字音频信号或第二路数字音频信号，并对所选择的数字音频信号进行语音识别处理。

由上述可见，在本发明的方案中，由于语音识别系统包括麦克风阵列链路和蓝牙链路两路语音输入链路，在进行语音识别时在两路链路中进行选择，其中的蓝牙链路可以实现远距离语音的接收，因此可以对远距离的语音进行识别。

附图简要说明

图1是现有的一种音视频设备的组成结构的示意图；

图2为本发明实施例中的包含语音识别系统的音视频设备的组成结构的示意图。

实施本发明的方式

本发明中，通过麦克风阵列接收语音信号并转换成模拟音频信号，然后将该模拟音频信号转换成数字音频信号，得到第一路数字音频信号；并且通过蓝牙音频链路接收语音信号并转换成数字音频信号，得到第二路数字音频信号；然后选择第一路数字音频信号或第二路数字音频信号进行语音识别处理。这样，对于较近的一些语音可以通过麦克风阵列进行拾取，而对于较远区域的语音，则可以通过蓝牙链路实现接收，因此解决了只有麦克风阵列作为音频输入的语音识别系统无法对远距离语音进行识别的问题。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图2为本发明实施例中的包含语音识别系统的音视频设备的组成结构的示意图。如图2所示，该系统包括：麦克风阵列101、音频编码电路102、摄像头103、视频处理电路104、主控集成电路205、系统主控微控制单元206、扬声器107、显示屏108、蓝牙接收模块201和蓝牙发射模块202。这里蓝牙发射模块202的个数为一个或多个，图2中示意出了多个蓝牙发射模块202。另外由于本发明的实施例中对主控集成电路和系统主控微控制单元的功能都进行了改进，因此采用了与图1中不同的附图标记。

其中，麦克风阵列101，用于接收语音信号并转换成模拟音频信号后输出给音频编码电路102。音频编码电路102，用于将所接收的模拟音频信号转换成数字音频信号后输出给主控集成电路205。摄像头103用于捕获视频信号并输出给视频处理电路104，视频处理电路104用于对摄像头103输出的信号进行编码处理后输出给主控集成电路205；

蓝牙发射模块202，用于接收语音信号并转换成数字音频信号后通过蓝牙方式发送给蓝牙接收模块201；蓝牙接收模块201，用于将所接收的数字音频信号发送给主控集成电路205；

主控集成电路205，用于选择来自音频编码电路102的数字音频信号或来自蓝牙接收模块201的数字音频信号进行语音识别处理。即主控集成电路205先在来自音频编码电路102的数字音频信号和来自蓝牙接收模块201的数字音频信号之间进行选择，然后将选择的数字音频信号与来自视频处理电路104的数字视频信号汇集，合成音视频数据流后输出给系统主控微控制单元206。系统主控微控制单元206负责音视频数据链路的管理。从系统主控微控制单元206输出的音频信号通过音频扬声器107变成声音信号，从系统主控微控制单元206输出的视频信号通过显示屏108进行显示。

可见，在图2所示的实施例中有两条音频输入链路，分别为麦克风阵列音频链路和蓝牙音频链路。其中，麦克风阵列音频链路包括：麦克风阵列101和音频编码电路102，麦克风阵列101接收语音信号并转换成模拟音频信号后输出给音频编码电路102，音频编码电路102将所接收的模拟音频信号转换成数字音频信号后作为第一路数字音频信号输出给主控集成电路205。蓝牙音频链路包括：蓝牙发射模块202和蓝牙接收模块201；通过蓝牙发射模块202接收语音信号并转换成数字音频信号后发送给蓝牙接收模块201，蓝牙接收模块201将所接收的数字音频信号作为第二路数字音频信号输出给主控集成电路205。主控集成电路205在第一路数字音频信号和第二路数字音频信号之间进行选择。

在本发明的上述实施例中，保留了麦克风阵列，以实现近距离的语音识别。在此基础上增加了蓝牙语音输入方式，以实现远程语音识别。蓝牙传输技术支持一对多的通信，即可以设置一个蓝牙接收模块和多个的蓝牙发射模块。实践中可以根据需要配备多个蓝牙发射模块，以实现多点语音识别。由于用蓝牙方式可以远距离传输信号，故本系统可以进行远程语音识别。

在本发明的实施例中，可以通过按键控制主控集成电路205的对数字音频信号的选择。

例如，可以在主控集成电路205上设置一个按键式的控制端，主控集成电路205根据用户对该按键的操作选择来自音频编码电路102的数字音频信号或来自蓝牙接收模块201的数字音频信号进行语音识别处理。

或者，也可以在系统主控微控制单元206上设置按键式的控制端，系统主控微控制单元206根据用户对该按键的操作向主控集成电路205发送选择来自音频编码电路102的数字音频信号的指令或选择来自蓝牙接收模块201的数字音频信号的指令；主控集成电路205根据系统主控微控制单元206的指令选择来自音频编码电路102的数字音频信号或来自蓝牙接收模块201的数字音频信号进行语音识别处理。本发明实施例中对系统主控微控制单元的改进也正是在于此。

综上所述，在本发明的方案中，由于语音识别系统包括麦克风阵列链路和蓝牙链路两路语音输入链路，在进行语音识别时在两路链路中进行选择，其中的蓝牙链路可以实现远距离语音的接收以及实现多点语音控制，因此可以对多个远距离的语音进行识别，使用户更好的体会语音识别的优越性。以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

一种语音识别系统，其特征在于，包括：麦克风阵列、音频编码电路、主控集成电路、蓝牙接收模块和蓝牙发射模块，其中：

麦克风阵列，用于接收语音信号并转换成模拟音频信号后输出给音频编码电路；

音频编码电路，用于将所接收的模拟音频信号转换成数字音频信号后输出给主控集成电路；

蓝牙发射模块，用于接收语音信号并转换成数字音频信号后通过蓝牙方式发送给蓝牙接收模块；

蓝牙接收模块，用于将所接收的数字音频信号发送给主控集成电路；

主控集成电路，用于选择来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。
根据权利要求1所述的语音识别系统，其特征在于：该系统具有一个蓝牙接收模块和一个以上的蓝牙发射模块。
根据权利要求1或2所述的语音识别系统，其特征在于，所述主控集成电路具有按键，所述主控集成电路根据用户对该按键的操作选择来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。
根据权利要求1或2所述的语音识别系统，其特征在于，该语音识别系统还包括：系统主控微控制单元，用于接收来自主控集成电路的音频数据流；

该系统主控微控制单元具有按键，该系统主控微控制单元根据用户对该按键的操作向主控集成电路发送选择来自音频编码电路的数字音频信号的指令或选择来自蓝牙接收模块的数字音频信号的指令；

主控集成电路根据系统主控微控制单元的指令选择来自音频编码电路的数字音频信号或来自蓝牙接收模块的数字音频信号进行语音识别处理。
一种语音识别的方法，其特征在于，该方法包括：

通过麦克风阵列接收语音信号并转换成模拟音频信号，然后将该模拟音频信号转换成数字音频信号，得到第一路数字音频信号；

通过蓝牙音频链路接收语音信号并转换成数字音频信号，得到第二路数字音频信号；

选择第一路数字音频信号或第二路数字音频信号进行语音识别处理。
根据权利要求5所述的语音识别方法，其特征在于，所述蓝牙音频链路包括：蓝牙发射模块和蓝牙接收模块；

所述通过蓝牙音频链路接收语音信号并转换成数字音频信号包括：通过蓝牙发射模块接收语音信号并转换成数字音频信号后发送给蓝牙接收模块，蓝牙接收模块将所接收的数字音频信号作为所述第二路数字音频信号输出。
根据权利要求6所述的方法，其特征在于，所述蓝牙音频链路包括：一个以上的蓝牙发射模块和一个蓝牙接收模块。
根据权利要求5或6所述的语音识别方法，其特征在于，所述选择对第一路数字音频信号或二路数字音频信号进行语音识别处理包括：

根据用户的按键操作选择第一路数字音频信号或第二路数字音频信号，并对所选择的数字音频信号进行语音识别处理。