WO2016173132A1

WO2016173132A1 - 语音识别方法、装置及用户设备

Info

Publication number: WO2016173132A1
Application number: PCT/CN2015/084720
Authority: WO
Inventors: 颜蓓
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-04-28
Filing date: 2015-07-21
Publication date: 2016-11-03
Also published as: CN106157957A

Abstract

本发明提供了一种语音识别方法、装置及用户设备。其中，该方法包括：采集语音信息及与语音信息相关联的视觉信息；根据视觉信息和语音信息进行语音识别。通过本发明，解决了相关技术中的语音识别技术对语音的识别率低的问题，提高了语音识别的识别率。

Description

语音识别方法、装置及用户设备

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别方法、装置及用户设备。

背景技术

目前，市面上的智能终端越来越多，语音识别功能是很多智能终端所具有的亮点，其特色在于可以解放用户的双手，尤其在驾驶汽车等场景中给予用户极大的帮助。

相关技术中的语音识别技术都是采用语音引擎的方法：通过采集声音，并对声音进行切片和识别的方法，识别率的高低完全取决于语音引擎的算法优劣程度。

发明人在研究过程中发现，相关技术中的语音识别方法存在下列缺陷：比如有的人有口齿不清、口音含糊不清的问题时，语音的识别率很低；当用户处于嘈杂环境或突然有尖锐噪声，比如汽车行驶在路上，旁边有一辆大货车呼啸而过，此时语音的识别率也很低。

针对相关技术中的语音识别技术对语音的识别率低的问题，目前没有提出有效的解决方案。

发明内容

为了解决上述技术问题，本发明提供了一种语音识别方法、装置及用户设备。

根据本发明的一个方面，提供了一种语音识别方法，包括：采集语音信息及与所述语音信息相关联的视觉信息；根据所述视觉信息和所述语音信息进行语音识别。

优选地，采集所述视觉信息包括：采集与所述语音信息相关联的嘴型表现信息。

优选地，在所述视觉信息为所述嘴型表现信息的情况下，根据所述嘴型表现信息和所述语音信息进行语音识别包括：通过语音识别，将采集的语音信息识别为初级语音指令，其中，所述初级语音指令包括：以语言单词为单位的语音切片信息，以及所述语音切片信息对应的一个或多个预选语言单词；确定所述初级语音指令中每个语音切片信息对应的嘴型表现信息；分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。

优选地，分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令包括：根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，所述预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；分别将同一语音切片信息对应的所述唇语语言单词和所述预选语言单词进行匹配。

优选地，分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令还包括：在为所述每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，通过词组匹配和/或语句联想的方式，对匹配出来的各个预选语言单词进行筛选，得到所述终极语音指令。

根据本发明的另一个方面，还提供了一种语音识别装置，包括：采集模块，设置为采集语音信息及与所述语音信息相关联的视觉信息；语音识别模块，设置为根据所述视觉信息和所述语音信息进行语音识别。

优选地，所述采集模块设置为：采集与用户发布的语音信息相关联的嘴型表现信息。

优选地，所述语音识别模块包括：识别单元，设置为通过语音识别，将采集的语音信息识别为初级语音指令，其中，所述初级语音指令包括：以语言单词为单位的语音切片信息，以及所述语音切片信息对应的一个或多个预选语言单词；确定单元，设置为确定所述初级语音指令中每个语音切片信息对应的嘴型表现信息；匹配单元，设置为分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。

优选地，所述匹配单元包括：确定子单元，设置为根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，所述预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；匹配子单元，设置为分别将同一语音切片信息对应的所述唇语语言单词和所述预选语言单词进行匹配。

优选地，所述匹配单元还包括：筛选子单元，设置为在为所述每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，通过词组匹配和/或语句联想的方式，对匹配出来的各个预选语言单词进行筛选，得到所述终极语音指令。

根据本发明的另一个方面，还提供了一种用户设备，包括：上述的语音识别装置。

根据本发明的另一个方面，还提供了一种用户设备，包括：麦克风，设置为采集语音信息；摄像头，设置为采集与所述语音信息相关联的视觉信息；处理器，分别与所述摄像头和所述麦克风连接，设置为根据所述视觉信息和所述语音信息进行语音识别。

优选地，所述用户设备还包括：存储器，与所述处理器连接，设置为存储视觉信息库，其中，所述视觉信息库设置为存储视觉信息与视觉语言单词的对应关系。

通过本发明，采用采集语音信息及与语音信息相关联的视觉信息；根据视觉信息和语音信息进行语音识别的方式，解决了相关技术中的语音识别技术对语音的识别率低的问题，提高了语音识别的识别率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音识别方法的流程图；

图2是根据本发明实施例的语音识别装置的结构示意图；

图3是根据本发明实施例的用户设备的结构示意图；

图4为根据本发明优选实施例的语音识别装置的结构示意图；

图5是根据本发明优选实施例的具有语音识别功能的用户设备的结构示意图；

图6是根据本发明优选实施例的语音识别方法的流程示意图；

图7是根据本发明优选实施例的步骤S607的处理流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例提供了一种语音识别方法，图1是根据本发明实施例的语音识别方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，采集语音信息及与语音信息相关联的视觉信息；

步骤S104，根据视觉信息和语音信息进行语音识别。

通过上述步骤，由于结合了语音信息相关联的视觉信息，例如：唇语信息、环境信息等，进行语音识别，解决了相关技术中的语音识别技术对语音的识别率低的问题，提高了语音识别的识别率，提升了用户体验。

其中，步骤S102中的视觉信息可以是可用于矫正语音信息的识别结果的视觉信息，例如，在一些应用场景下，采集到当前环境中存在电视机，则可以增强对与“电视机”有关的语音控制指令的识别率；本发明实施例中主要通过视觉信息中优选地以唇语信息为例进行说明。

优选地，在视觉信息为嘴型表现信息的情况下，步骤S102中，可以通过图形图像采集系统，采集与语音信息相关联的嘴型表现信息。该图形图像采集系统可以是一个设置在用户设备(例如：智能手机等)面板上的前置摄像头。在采集嘴型表现信息时，需要与语音信息进行同步采集，以便于采用对应的嘴型表现信息辅助后续的语音信息的识别处理。

优选地，在步骤S104中，可以采用下列的方式进行语音识别：通过语音识别，将采集的语音信息识别为初级语音指令，其中，初级语音指令包括：以语言单词为单位的语音切片信息，以及语音切片信息对应的一个或多个预选语言单词；确定初级语音指令中每个语音切片信息对应的嘴型表现信息；分别根据对应的嘴型表现信息，为每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。通过上述方式，首先由普通的语音识别方式，对于每一个语音切片信息匹配一个或者多个预选语言单词，然后再根据对应的嘴型表现信息，为每个语音切片信息精确匹配合适的语言单词，或者剔除不合适的语言单词。通过这种方式，提供了一种结合嘴型表现信息提高语音识别准确性的方法。

优选地，在分别根据对应的嘴型表现信息，为每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，可以根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；分别将同一语音切片信息对应的唇语语言单词和预选语言单词进行匹配。例如，对于某一个嘴型表现信息而言，可以对应于多个唇语语言单词，通过将唇语语言单词与预选语言单词进行匹配，例如取交集的方式，从而可以直接剔除不匹配的大部分词汇，从而提升了语音识别的识别率。

需要说明的是，上述的预设唇语信息库可以是预先配置的，也可以是根据唇语识别技术的相关算法建立的，还可以是通过对嘴型表现信息和语音识别结果的逐渐学习而自主建立的。例如，在一次语音识别中，识别出了某一嘴型对应的语言单词为“音”，那么通过学习，将在预设唇语信息库中记录该嘴型的嘴型表现信息对应的语言单词中添加“音”单词，通过长期的逐渐学习，从而可以使得预设唇语信息库中的映射信息更丰富，进而形成了对语音识别准确度的提升。

优选地，为了进一步提升语音识别的识别率，在本发明实施例中还提供了采用词组匹配和/或语句联想方式，对前后语言单词进行筛选的方式，例如：当已经较为精确识别出某一语音指令的其中一个语言单词发音为“dian”，可能的语音单词为“电”、“殿”、“垫”等；该语言单词的后一个发音类似“nao”，或者在存在口音的情况下，识别出后一个发音类似“lao”，那么，如果采用词组匹配功能，则可以匹配出“电脑”为终极语音指令。类似地，采用语句联想的方式，若在已经识别出“电脑”的情况下，在已经较为精确识别出第四个语言单词的发音为“kai”的情况下，即使第三个语言单词发音类似于“ta”，甚至模糊不清，也可以通过语句联想的方式，联想到第三个语言单词最为可能的识别结果为“打”，从而完成了“电脑打开”的指令识别。

在本实施例中还提供了一种语音识别装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述，下面对该装置中涉及到的模块进行说明。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的语音识别装置的结构示意图，如图2所示，该装置包括：采集模块22和语音识别模块24，其中，采集模块22，设置为采集语音信息及与语音信息相关联的视觉信息；语音识别模块24，耦合至采集模块22，设置为根据视觉信息和语音信息进行语音识别。

优选地，采集模块22可以设置为：采集与语音信息相关联的嘴型表现信息。

优选地，语音识别模块24包括：识别单元242，设置为通过语音识别，将采集的语音信息识别为初级语音指令，其中，初级语音指令包括：以语言单词为单位的语音切片信息，以及语音切片信息对应的一个或多个预选语言单词；确定单元244，耦合至识别单元242，设置为确定初级语音指令中每个语音切片信息对应的嘴型表现信息；匹配单元246，耦合至确定单元244，设置为分别根据对应的嘴型表现信息，为每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。

优选地，匹配单元246包括：确定子单元2462，设置为根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；匹配子单元2464，耦合至确定子单元2462，设置为分别将同一语音切片信息对应的唇语语言单词和预选语言单词进行匹配。

优选地，匹配单元246还包括：筛选子单元2466，耦合至匹配子单元2464，设置为在为每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，通过词组匹配和/或语句联想的方式，对匹配出来的各个预选语言单词进行筛选，得到终极语音指令。

本发明实施例还提供了一种用户设备，包括：上述的语音识别装置。

本发明实施例还提供了一种用户设备，该用户设备用于实现上述语音识别方法。需要指出的是，该用户设备包括但不限于：智能手机，智能平板电脑等用户设备。

图3是根据本发明实施例的用户设备的结构示意图，如图3所示，该装置包括：摄像头32、麦克风34和处理器36，其中，摄像头32，耦合至处理器36，设置为采集与语音信息相关联的视觉信息；麦克风34，耦合至处理器36，设置为采集语音信息；处理器36，设置为根据视觉信息和语音信息进行语音识别。

优选地，上述用户设备还包括：存储器38，与处理器36连接，设置为存储视觉信息库，其中，视觉信息库设置为存储视觉信息与视觉语言单词的对应关系。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

为了使本发明实施例的描述更加清楚，下面结合优选实施例进行描述和说明。

本发明优选实施例提供了一种可以提高语音识别率的手机装置，该装置涉及终端的语音识别领域，适用于具有语音识别功能的无线终端。

本发明优选实施例的技术方案是这样实现的：

在手机的麦克附近设置一个摄像头(这个采集装置也可以直接利用前置摄像头)对说话者的嘴型信息(相当于上述的嘴型表现信息)进行采集、识别并处理为唇语，存放到某个内存区域，用此信息对同步采集到的用户语音信息识别结果进行再次的校正，因为人的发音可能有无限种，但是说话时的唇部动作(即嘴型)只有有限种，用有限种的信息去约束一个无限种的信息，会过滤掉很多无用信息。视觉信息可以帮助智能产品更多地识别听到的语言单词，特别是在某些噪音水平下，这样的提升最高能达到好几倍。终端的智能系统可以借助于视觉唇语，从说话人的面部以及嘴唇的移动获得一定的视觉信息，在不同的噪音水平下，面部以及嘴唇的移动信息能帮助提高识别率。

在智能终端上，利用摄像头和唇语识别算法结合来达到语音识别率提升的效果，这种方式对于校正由于发音不准确，或是同样嘴型但是发音不同的方言以及在噪音环境中的语音识别都有很大的帮助。视觉和听觉的配合会大大提升语音识别率，从而达到提升用户体验感受的目的。

为了实现上述的技术方案，在本发明优选实施例中提供了一种装置。

图4为根据本发明优选实施例的语音识别装置的结构示意图，该图为图2或者图3的一种变形形式。如图4所示，整个系统分为四部分：

嘴型信息采集模块401(相当于上述的麦克风34)：功能采集使用者的嘴型，并传送到基带处理模块403进行后续唇语识别分析处理；

语音信息采集模块402(相当于上述的摄像头32)：功能是采集使用者通话时的语音，同时也会采集周围背景噪音，此模块工作需要和嘴型信息采集模块401同步进行，采集的数据也会传送到基带处理模块403和嘴型信息采集模块401同时产生的数据一起进行并行处理；

基带处理模块403(相当于上述的处理器36)：此模块的功能是对嘴型信息采集模块401产生的嘴型信息进行处理和分析并最终识别为唇语，；此模块并对同时刻语音信息采集模块402发过来的语音信息数据也进行处理。嘴型信息采集模块401产生的嘴型信息的识别、分析结果与语音信息采集模块402得到的语音信息互为映正，对识别信息进行第一次识别和第二次校正，即可得到正确率较高的用户指令语句；

指令动作生成模块404：接收来自基带处理模块403处理过后的用户指令语句，并根据指令来进行智能终端的各种响应用户的操作。

下面采用实例对本发明优选实施例进行说明。

图5是根据本发明优选实施例的具有语音识别功能的用户设备的结构示意图，图5是图2～图4的一种变形形式。如图5所示，主麦克和摄像头均安装在手机的正面，当然主麦克也可安装在手机的右下侧，只要尽量靠近嘴部即可，直接和前置摄像头复用也可以，只要可以清晰地拍摄到嘴型信息。如果摄像头直接使用前置摄像头，会大大节省手机布局的空间，也会大大降低制作成本。在本优选实施例中，采用摄像头作为嘴型信息采集装置。

在上述用户设备中包括如下功能模块：

摄像头及其附属电路501：功能是将使用者的嘴型信息拍摄下来，并将拍摄的内容传送到基带处理主芯片503中的图像数据存储器504中准备进行后续识别分析处理；

主麦克及其附属电路502：功能是采集使用者通话时的语音，同时也采集周围的背景噪音，采集的音频数据也会传送到基带处理主芯片503的音频数据存储器505中留待与摄像头及其附属电路501产生的图像数据一起进行处理；

基带处理主芯片503：功能是对图像数据存储器504中的图像数据进行处理和分析，通过对图像流数据进行切片，对每个小切片内的内容识别为唇语(其中，唇语识别技术可以采用相关技术中现有的技术来实现)；同时并对音频数据存储器505中的语音加噪音的音频数据也进行切片识别处理。将语音识别的字眼范围与唇语识别的字眼范围进行取交集处理或更复杂的算法处理，找到共同的字眼，排除一些不确定字眼，提升识别率，由于语音识别有联系上下文的方法，同样的唇语识别也可以联系前后切片进行处理。同时基带处理主芯片503也完成根据最终识别得到的用户指令语句完成各项操作。

图像数据存储器504：设置为存放摄像头及其附属电路501产生的图像数据流。

音频数据存储器505：设置为存放主麦克及其附属电路202产生的音频数据流。

图6是根据本发明优选实施例的语音识别方法的流程示意图；如图6所示，该流程包括如下步骤：

步骤S602：判断语音识别功能是否开始，开始则走向步骤S603；

步骤S603：摄像头及其附属电路501开始工作，对使用者嘴型信息进行图像数据的持续采集。

步骤S604：主麦克及其附属电路502开始同步工作，持续采集音频数据，音频数据中包括使用者的指令语音成分以及周围背景噪音的成分。

步骤S605：摄像头及其附属电路501采集的图像流数据存入图像数据存储器504。

步骤S606：主麦克及其附属电路502采集的音频信息数据存入语音信息数据存储器505。

步骤S607：基带处理主芯片503将图像数据存储器504和音频数据存储器505同步切片分析处理，自摄像头的图像数据和来自麦克的语音数据，同步分析处理。

其中，如果将图像切片N中的图像数据根据唇语识别算法得到可能的所有字眼范围，则将相应音频切片N产生的语音信息用语音识别算法得到可能产生的所有字眼范围；将相对应切片的唇语识别字眼与语音识别字眼进行相互校正、取交集等处理，剔除不可能的字眼。并可联系前后切片的识别字眼，来最终得到正确率较高的用户指令。

在本步骤中，图像流和音频流的采集与存储需要进行同步，以及需要要有同步基准线，从基准线开始对图像数据和音频数据进行切片，切片也需要是同步的，比如说每0.3秒一个切片(由于人的语速平均为180个字每分钟)，那么图像数据和音频数据都必须同步进行这个长度的切片。

下面用举例说明的方法来更为详细地介绍步骤S607是如何进行的，步骤S607的详解流程图可见图7：

将图像数据的第一个切片定义为S1，将音频数据的第一个切片定义为Y1，后续的依次类推，图像数据的第n个切片定义为Sn，将音频数据的第n个切片定义为Yn。

当用户正在驾车，采用驾驶助手功能，此时用户发出“播放音乐”的指令，但是同时旁边有一辆大货车呼啸而过，那么此时系统根据0.3秒的一个切片(步骤S701)，得到个四个音频切片，分别为Y1，Y2，Y3，Y4，存入音频数据存储器(步骤S702)。而与此同时，前置摄像头采集了4个嘴型信息，分别为S1，S2，S3，S4，存入图像数据存储器(步骤S702)。基带处理芯片对Y1，Y2，Y3，Y4进行语音识别处理，即是将音频信息转化为文字信息的一个过程。由于当时有大货车呼啸而过的噪音，所以Y1，Y2，Y3，Y4都不是纯语音，且噪音的幅度远远大于语音，存储的音频信息可以说大部分都是噪音信息，所以基带处理芯片完全正确地识别出四个文字的概率几乎为0，语音引擎会识别出N种可能的文字组合，N甚至趋近于无穷，于是得到YS1，YS2,…,YSN等无数个可能的字符(步骤S703)，而他们之间的组合又更加繁多错乱，导致识别出错误指令或完全无法识别的情况。同时，图像基带处理芯片对S1，S2，S3，S4进行唇语识别处理，即是将嘴型信息转化为文字信息的一个过程(步骤S703)。拿“播”字来举例说，能具有这种发音的嘴型的字眼都是和“播”字一样的发音的字符，例如“薄”，“伯”等，这样发音的文字一共有135个，这样一下将无穷个可能文字缩小范围为135个，而这135个中有很多生僻字、不常用文字、完全不可能作为指令的文字等，剔除这些文字(步骤S704)，就只剩下10个文字左右，而平时在音源指令中使用率最高的就是“播”和“拨”了，结合后面的识别的文字“放”的嘴型和“打”字的嘴型相差很大，“放”完全不可能被处理为“打”字，所以“拨打”很容易就被排除，而“播放”的正确率就很高了(步骤S706)。并且由于前面的“播放”的被识别出来，后面的两个字的处理采用结合唇语并联系上文“播放”的方法，“音乐”两字就会被几乎毫无悬念地识别出来(步骤S706)。从这个举例可以看到，一个几乎正确率为0的识别率，由于加入了视觉唇语而提高了，究其原因是嘴型信息是用户最准确的指令，它不受周围环境噪音的影响，并且发音不准确也没关系，只要嘴型对那就可以。当然这个举例是最常用的指令，所以更容易成功，对于其他的，比如电话号码的数字会更复杂一些，但是这种方法也能极大程度地提高识别率，降低误识别率。

步骤S608：根据最终识别处理得到的用户指令对智能终端进行响应操作。

步骤S609：判断语音识别模块是否关闭，如没关闭则返回执行步骤S602；

步骤S610：语音识别模块关闭，整个实施例装置也随之停止工作。

综上所述，通过本发明提供的上述实施例，可以一定程度校正由于发音不准确导致的误识别，也可以校准由于背景噪音造成的误识别。

工业实用性：通过上述描述可知，本发明由于结合了语音信息相关联的视觉信息，例如：唇语信息、环境信息等，进行语音识别，解决了相关技术中的语音识别技术对语音的识别率低的问题，提高了语音识别的识别率，提升了用户体验。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种语音识别方法，包括：

采集语音信息及与所述语音信息相关联的视觉信息；

根据所述视觉信息和所述语音信息进行语音识别。
根据权利要求1所述的方法，其中，采集所述视觉信息包括：

采集与所述语音信息相关联的嘴型表现信息。
根据权利要求2所述的方法，其中，在所述视觉信息为所述嘴型表现信息的情况下，根据所述嘴型表现信息和所述语音信息进行语音识别包括：

通过语音识别，将采集的语音信息识别为初级语音指令，其中，所述初级语音指令包括：以语言单词为单位的语音切片信息，以及所述语音切片信息对应的一个或多个预选语言单词；

确定所述初级语音指令中每个语音切片信息对应的嘴型表现信息；

分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。
根据权利要求3所述的方法，其中，分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令包括：

根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，所述预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；

分别将同一语音切片信息对应的所述唇语语言单词和所述预选语言单词进行匹配。
根据权利要求3或4所述的方法，其中，分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令还包括：

在为所述每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，通过词组匹配和/或语句联想的方式，对匹配出来的各个预选语言单词进行筛选，得到所述终极语音指令。
一种语音识别装置，包括：

采集模块，设置为采集语音信息及与所述语音信息相关联的视觉信息；

语音识别模块，设置为根据所述视觉信息和所述语音信息进行语音识别。
根据权利要求6所述的装置，其中，

所述采集模块设置为：采集与所述语音信息相关联的嘴型表现信息。
根据权利要求7所述的装置，其中，所述语音识别模块包括：

识别单元，设置为通过语音识别，将采集的语音信息识别为初级语音指令，其中，所述初级语音指令包括：以语言单词为单位的语音切片信息，以及所述语音切片信息对应的一个或多个预选语言单词；

确定单元，设置为确定所述初级语音指令中每个语音切片信息对应的嘴型表现信息；

匹配单元，设置为分别根据对应的所述嘴型表现信息，为所述每个语音切片信息分别在各自的预选语言单词中进行匹配，得到终极语音指令。
根据权利要求8所述的装置，其中，所述匹配单元包括：

确定子单元，设置为根据每个语音切片信息对应的嘴型表现信息和预设唇语信息库，确定每个语音切片信息对应的唇语语言单词，其中，所述预设唇语信息库设置为存储嘴型表现信息与唇语语言单词的对应关系；

匹配子单元，设置为分别将同一语音切片信息对应的所述唇语语言单词和所述预选语言单词进行匹配。
根据权利要求7或8所述的装置，其中，所述匹配单元还包括：

筛选子单元，设置为在为所述每个语音切片信息分别在各自的预选语言单词中进行匹配的过程中，通过词组匹配和/或语句联想的方式，对匹配出来的各个预选语言单词进行筛选，得到所述终极语音指令。
一种用户设备，包括：如权利要求6至10中任一项所述的语音识别装置。
一种用户设备，包括：

麦克风，设置为采集所述语音信息；

摄像头，设置为采集与所述语音信息相关联的视觉信息；

处理器，分别与所述摄像头和所述麦克风连接，设置为根据所述视觉信息和所述语音信息进行语音识别。
根据权利要求12所述的用户设备，其中，所述用户设备还包括：

存储器，与所述处理器连接，设置为存储视觉信息库，其中，所述视觉信息库设置为存储视觉信息与视觉语言单词的对应关系。