WO2016082267A1

WO2016082267A1 - 语音识别方法和系统

Info

Publication number: WO2016082267A1
Application number: PCT/CN2014/094624
Authority: WO
Inventors: 付春元
Original assignee: 深圳创维－Rgb电子有限公司
Priority date: 2014-11-28
Filing date: 2014-12-23
Publication date: 2016-06-02
Also published as: AU2014412434A1; US10262658B2; CN104409075A; AU2014412434B2; US20170098447A1; CN104409075B

Abstract

一种语音识别方法和系统，在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集（S10）；对接收到的语音信号进行识别，以得到语音信号识别结果（S20）；对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果（S30）；计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果（S40）。该技术方案提高了语音识别的准确性。

Description

语音识别方法和系统

技术领域

本发明涉及语音控制领域，尤其涉及语音识别方法和系统。

背景技术

随着语音交互的飞速发展，通过语音的方式控制终端（如电视以及空调器等），或者通过语音的方式进行数据输入已成为应用非常广泛的方式。目前，语音交互仍存在诸多问题，如语音识别不准确，易受环境影响较大，例如周围有人声嘈杂或者有背景音乐的话，语音采集装置采集到的语音信号包括人发出的语音信号以及周围的噪音信号，使得终端无法准确识别接受到的语音信号，导致语音识别不够准确。

发明内容

本发明的主要目的在于提出一种语音识别方法和系统，旨在解决语音识别不够准确的技术问题。

为实现上述目的，本发明提供的一种语音识别方法，所述语音识别方法包括以下步骤：

在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

对接收到的语音信号进行识别，以得到语音信号识别结果；

对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。

优选地，所述对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果的步骤包括：

确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部的位置；

根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

基于每一帧所述有效图像对应的字符组成唇语识别结果。

优选地，所述确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部位置的步骤包括：

确定采集到的每帧图像中脸部轮廓；

将脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

将唇部区域中各个像素点的RGB色度值进行比对；

在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

基于唇部区域中各个像素点的RGB色度值确定唇部的位置。

优选地，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤包括：

将接收到的语音信号转换成字符串，并按照预设的关键词库，将所述字符串拆分为多个关键词；

标注各个所述关键词的词性，确定各个相邻的关键词之间的词性是否匹配；

在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词；

在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。

优选地，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤还包括：

在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，将转换得到的字符串作为当前的语音信号识别结果。

优选地，所述计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果的步骤包括：

将所述语音信号识别以及唇语识别结果拆分为多个关键词；

确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

将准确度较高的识别结果作为当前的语音识别结果。

此外，为实现上述目的，本发明还提出一种语音识别系统，其特征在于，所述语音识别系统包括：

控制模块，用于在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

语音信号识别模块，用于对接收到的语音信号进行识别，以得到语音信号识别结果；

唇语识别模块，用于对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

处理模块，用于计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。

优选地，所述唇语识别模块包括：

唇部定位子模块，用于确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部位置；

确定子模块，用于根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

重组子模块，用于基于每一帧所述有效图像对应的字符组成唇语识别结果。

优选地，所述唇部定位子模块包括：

脸部轮廓确定单元，用于确定采集到的每帧图像中脸部轮廓；

脸部位置定位单元，用于将确定的脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

唇部区域定位单元，用于确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

比对单元，用于将唇部区域中各个像素点的RGB色度值进行比对；

处理单元，用于在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

唇部位置定位单元，用于基于唇部区域中各个像素点的RGB色度值确定唇部的位置。

优选地，所述语音信号识别模块包括：

转换子模块，用于将接收到的语音信号转换成字符串；

拆分子模块，按照预设的关键词库，将所述字符串拆分为多个关键词；

词性匹配子模块，用于标注各个所述关键词的词性，，确定各个相邻的关键词之间的词性是否匹配；

确定子模块，用于在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词，以及在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

处理子模块，用于将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。

优选地，所述处理子模块还用于在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，并将转换得到的字符串作为当前的语音信号识别结果。

优选地，所述处理模块包括：

拆分子模块，用于将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关联度计算子模块，用于确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

准确度计算子模块，用于对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

处理子模块，用于将准确度较高的识别结果作为当前的语音识别结果。

本发明提出的语音识别方法和系统，同时进行语音信号以及唇语的识别，并计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的识别结果，而不是仅仅单一识别语音信号，提高了语音识别的准确性。

附图说明

图1为本发明语音识别方法较佳实施例的流程示意图；

图2为图1中步骤S20的细化流程示意图；

图3为图1中步骤S30的细化流程示意图；

图4为图3中步骤S31的细化流程示意图；

图5为图1中步骤S40的细化流程示意图；

图6为本发明语音识别系统较佳实施例的功能模块示意图；

图7为图6中语音信号识别模块的细化功能模块示意图；

图8为图6中唇语识别模块的细化功能模块示意图；

图9为图8中唇部定位子模块的细化功能模块示意图；

图10为图6中处理模块的细化功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别方法。

参照图1，图1为本发明语音识别方法较佳实施例的流程示意图。

本实施例提出的语音识别方法优选运行于被控终端（如电视机以及空调器等）中，被控终端基于语音识别接收进行相应的操作；或者语音识别方法可运行于控制终端，控制终端将语音信号识别结果对应的代码传输至相应的被控终端。

本实施例提出一种语音识别方法，所述语音识别方法包括：

步骤S10，在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

在本实施例中，仅在接收到语音信号时才控制图像采集装置进行图像采集，而在未接受语音信号时处于休眠状态，以减少能耗，例如，在预设时间间隔内未接受到语音信号时，控制所述图像采集装置进入休眠状态。

本领域技术人员可以理解的是，可控制图像采集装置实时或定时进行图像采集，在接收到语音信号时，确定接收到的语音信号的第一时间点以及语音信号结束的第二时间点，获取图像采集装置在该第一时间点以及第二时间点之间采集到的图像。

步骤S20，对接收到的语音信号进行识别，以得到语音信号识别结果；

在本实施例中，可通过将语音信号转换为字符信号得到语音信号识别结果。进一步地，为提高语音信号识别结果的准确性，可对语音信号转换的字符串进行纠错，具体纠错过程参照图2，所述步骤S20包括：

步骤S21，将接收到的语音信号转换成字符串，并按照预设的关键词库，将所述字符串拆分为多个关键词；

可预设包括多个关键词的关键词库，将语音信号转换得到的字符串与词库中存储的关键词进行比对，并确定预设的关键词库中与字符串匹配的关键词，并将该字符串拆分为各个匹配的关键词。本领域技术人员可以理解的是，关键词库中可不用设置数字类的关键词，在确定与字符串匹配的关键词后，可先提取字符串中匹配的关键词，并将字符串中剩余的不匹配的部分作为一个关键词。例如，语音信号转换得到的字符串为“电视机，切换至23频道”，则该字符串与预设的关键词库中的关键词匹配的为“电视机、切换、至以及频道”，则由字符串中直接提取出“电视机、切换、至以及频道”，然后将剩余的“23”作为一个关键词。

步骤S22，标注各个所述关键词的词性，确定各个相邻的关键词之间的词性是否匹配；

该关键词的词性可为名词、动词、形容词、副词以及介词等，可预约各类词性的搭配，例如在相邻的关键词为动词+形容词时，则认为相邻的关键词之间词性不匹配，可能存在识别错误。

步骤S23，在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词；

步骤S24，在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

在本实施例中，可预设混淆音词库，该混淆音词库中可设置在语音信号转换为字符串时容易混淆的关键词，各个易混淆的关键词关联保存。在相邻的关键词不匹配时，可将该不配的关键词作为第一关键词与混淆音词库中的关键词进行比对，以对错误的关键词进行纠错。

本领域技术人员可以理解的是，在所述混淆音词库中不存在所述不匹配的关键词时，可将转换得到的字符串作为当前的语音信号识别结果。

步骤S25，将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。

本领域技术人员可以理解的是，在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，将转换得到的字符串作为当前的语音信号识别结果。

步骤S30，对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

在本实施例中，唇语识别结果可根据每一帧图像中的唇形以及与上一帧的图像中的唇形确定得到，具体过程如图3所示，所述步骤S30包括：

步骤S31，确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部的位置；

在本实施例中，确定采集到的每帧图像中唇部的位置具体过程如图4所示，具体过程如下：

步骤S311，确定采集到的每帧图像中脸部轮廓；

由于采集到的图像中的各个像素点对应的色度值不同，可直接根据每帧图像中的像素点的色度值分布以及预设的脸部轮廓得到每帧图像中脸部位置。

本领域技术人员可以理解的是，在图像采集装置的图像采集区域中有多个人存在时，可基于接收到语音信号对声源方向进行定位，基于确定的声源方向确定用户在采集到的图像中的位置，基于声源方向确定用户在采集到的图像中的位置属于现有技术，在此不再赘述。

在采集到的图像中没有脸部轮廓时，直接将语音信号对应的语音信号识别结果作为当前的语音识别结果，或者可提示用户重新输入语音信号。

步骤S312，将确定的脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

确定脸部轮廓内各个像素点的YUV色度值至与预存的人脸中各个像素点的YUV色度值之间的相似度，在相似度大于预设值时，认为该像素点为脸部像素点，还相似度的计算公式为现有技术，在此不再赘述。

步骤S313，确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

在本实施例中，由于眼部的像素点的灰度值小于脸部其它位置的灰度值，可根据各个像素点之间的灰度值确定眼部位置，在眼部位置的下方以及脸部的下三分之一出，即可容易确定出唇部所在的区域。

步骤S314，在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

步骤S315，基于唇部区域中各个像素点的RGB色度值确定唇部的位置

但由于当前确定的唇部区域仅仅为初步确定，该区域内有唇部的像素点以及脸部的像素点，则需要在该区域内确定唇部位置。由于唇部像素点的RGB色度值中，B（蓝色）分量的远远大于G（绿色）分量，则预设的条件可设置为B（蓝色）分量与G（绿色）分量之间的差值大于预设值，而脸部的像素点中B（蓝色）分量的小于G（绿色）分量，则可通过对各个像素点的B分量以及G分量进行比对，以确定唇部位置。

步骤S32，根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

步骤S33，基于每一帧所述有效图像对应的字符组成唇语识别结果。

本领域技术人员可以理解的是，采集到的图像中第一帧图像的上一帧图像的唇形默认为闭嘴唇形，用户可基于上一帧图像以及该帧图像对应的唇形可得出用户的唇部走势，将得到的唇部走势与预存的唇部走势进行比对，以得到当前输出的字符。按照每一帧图像的采集顺序，将每一帧图像的文件组合成唇语识别结果

步骤S40，计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的识别结果。

在本实施例中，计算所述语音信号识别结果和唇语识别结果的准确度的具体过程如图5所示，具体过程如下：

步骤S41，将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关键词拆分的过程见上述语音信号关键词拆分过程，在此不再赘述。

步骤S42，确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

在本实施例中，第一关联度的计算公式为：I (x, y)=log₂p(x, y)/p(x)*p(y)，p（x）为相邻的两个关键词x、y中，关键词x在字符串中出现的次数，p（y）为相邻的两个关键词x、y中，关键词y在字符串中出现的次数，p（x，y）为相邻的两个关键词x、y以相邻的方式在字符串中同时出现的次数。第二关联度与第一关联度计算的方式相同，在此不再赘述。

步骤S43，对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

在本实施例中，对字符串中各个相邻的关键词进行第一关联度计算，可得到多个第一关联度，对计算得到的关联度求和可得到字符串总体的准确度。

步骤S44，将准确度较高的识别结果作为当前的语音识别结果。

本实施例提出的语音识别方法，同时进行语音信号以及唇语的识别，并计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的识别结果，而不是仅仅单一识别语音信号，提高了语音识别的准确性。

本发明进一步提供一种语音识别系统。

参照图6，图6为本发明语音识别系统较佳实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图6所示功能模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图6所示的语音识别系统的功能模块，可轻易进行新的功能模块的补充；各功能模块的名称是自定义名称，仅用于辅助理解该语音识别系统的各个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，各自定义名称的功能模块所要达成的功能。

本实施例提出的语音识别系统优选运行于被控终端（如电视机以及空调器等）中，被控终端基于语音识别接收进行相应的操作；或者语音识别系统可运行于控制终端，控制终端将语音信号识别结果对应的代码传输至相应的被控终端。

本实施例提出一种语音识别系统，所述语音识别系统包括：

控制模块10，用于在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

在本实施例中，控制模块10仅在接收到语音信号时才控制图像采集装置进行图像采集，而在未接受语音信号时处于休眠状态，以减少能耗，例如，在预设时间间隔内未接受到语音信号时，控制模块10控制所述图像采集装置进入休眠状态。

本领域技术人员可以理解的是，控制模块10可控制图像采集装置实时或定时进行图像采集，在接收到语音信号时，确定接收到的语音信号的第一时间点以及语音信号结束的第二时间点，获取图像采集装置在该第一时间点以及第二时间点之间采集到的图像。

语音信号识别模块20，用于对接收到的语音信号进行识别，以得到语音信号识别结果；

在本实施例中，语音信号识别模块20可通过将语音信号转换为字符信号得到语音信号识别结果。进一步地，为提高语音信号识别结果的准确性，可对语音信号转换的字符串进行纠错，参照图7，所述语音信号识别模块20包括：

转换子模块21，用于将接收到的语音信号转换成字符串；

拆分子模块22，按照预设的关键词库，将所述字符串拆分为多个关键词；

可预设包括多个关键词的关键词库，拆分子模块22将语音信号转换得到的字符串与词库中存储的关键词进行比对，并确定预设的关键词库中与字符串匹配的关键词，并将该字符串拆分为各个匹配的关键词。本领域技术人员可以理解的是，关键词库中可不用设置数字类的关键词，在确定与字符串匹配的关键词后，拆分子模块22可先提取字符串中匹配的关键词，并将字符串中剩余的不匹配的部分作为一个关键词。例如，语音信号转换得到的字符串为“电视机，切换至23频道”，则该字符串与预设的关键词库中的关键词匹配的为“电视机、切换、至以及频道”，则由字符串中直接提取出“电视机、切换、至以及频道”，然后将剩余的“23”作为一个关键词。

词性匹配子模块23，用于标注各个所述关键词的词性，，确定各个相邻的关键词之间的词性是否匹配；

该关键词的词性可为名词、动词、形容词、副词以及介词等，可预约各类词性的搭配，例如在相邻的关键词为动词+形容词时，则词性匹配子模块23认为相邻的关键词之间词性不匹配，可能存在识别错误。

确定子模块24，用于在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词，以及在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

处理子模块25，用于将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。

本领域技术人员可以理解的是，在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，处理子模块25将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，处理子模块25将转换得到的字符串作为当前的语音信号识别结果。

唇语识别模块30，用于对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

在本实施例中，唇语识别结果可根据每一帧图像中的唇形以及与上一帧的图像中的唇形确定得到，参照图8所示，所述唇语识别模块30包括：

唇部定位子模块31，用于确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部位置；

在本实施例中，确定采集到的每帧图像中唇部的位置具体单元如图9所示，所述唇部定位子模块31包括：

脸部轮廓确定单元311，用于确定采集到的每帧图像中脸部轮廓；

由于采集到的图像中的各个像素点对应的色度值不同，脸部轮廓确定单元311可直接根据每帧图像中的像素点的色度值分布以及预设的脸部轮廓得到每帧图像中脸部位置。

本领域技术人员可以理解的是，在图像采集装置的图像采集区域中有多个人存在时，脸部轮廓确定单元311可基于接收到语音信号对声源方向进行定位，基于确定的声源方向确定用户在采集到的图像中的位置，基于声源方向确定用户在采集到的图像中的位置属于现有技术，在此不再赘述。

在采集到的图像中没有脸部轮廓时，处理模块40直接将语音信号对应的语音信号识别结果作为当前的语音识别结果，或者可提示用户重新输入语音信号。

脸部位置定位单元312，用于将确定的脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

唇部区域定位单元313，用于确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

比对单元314，用于将唇部区域中各个像素点的RGB色度值进行比对；

处理单元315，用于在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

唇部位置定位单元316，用于基于唇部区域中各个像素点的RGB色度值确定唇部的位置。

确定子模块32，用于根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

重组子模块33，用于基于每一帧所述有效图像对应的字符组成唇语识别结果。

处理模块40，用于计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。

在本实施例中，参照图10，所述处理模块40包括：

拆分子模块41，用于将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关联度计算子模块42，用于确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

在本实施例中，第一关联度的计算公式为：，p（x）为相邻的两个关键词x、y中，关键词x在字符串中出现的次数，p（y）为相邻的两个关键词x、y中，关键词y在字符串中出现的次数，p（x，y）为相邻的两个关键词x、y以相邻的方式在字符串中同时出现的次数。第二关联度与第一关联度计算的方式相同，在此不再赘述。

准确度计算子模块43，用于对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

处理子模块44，用于将准确度较高的识别结果作为当前的语音识别结果。

本实施例提出的语音识别系统，同时进行语音信号以及唇语的识别，并计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的识别结果，而不是仅仅单一识别语音信号，提高了语音识别的准确性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种语音识别方法，其特征在于，所述语音识别方法包括以下步骤：

在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

对接收到的语音信号进行识别，以得到语音信号识别结果；

对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。
如权利要求1所述的语音识别方法，其特征在于，所述对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果的步骤包括：

确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部的位置；

根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

基于每一帧所述有效图像对应的字符组成唇语识别结果。
如权利要求2所述的语音识别方法，其特征在于，所述确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部位置的步骤包括：

确定采集到的每帧图像中脸部轮廓；

将脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

将唇部区域中各个像素点的RGB色度值进行比对；

在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

基于唇部区域中各个像素点的RGB色度值确定唇部的位置。
如权利要求1所述的语音识别方法，其特征在于，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤包括：

将接收到的语音信号转换成字符串，并按照预设的关键词库，将所述字符串拆分为多个关键词；

标注各个所述关键词的词性，确定各个相邻的关键词之间的词性是否匹配；

在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词；

在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求4所述的语音识别方法，其特征在于，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤还包括：

在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，将转换得到的字符串作为当前的语音信号识别结果。
如权利要求如权利要求2所述的语音识别方法，其特征在于，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤包括：

将接收到的语音信号转换成字符串，并按照预设的关键词库，将所述字符串拆分为多个关键词；

标注各个所述关键词的词性，确定各个相邻的关键词之间的词性是否匹配；

在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词；

在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求如权利要求3所述的语音识别方法，其特征在于，所述对接收到的语音信号进行识别，以得到语音信号识别结果的步骤包括：

将接收到的语音信号转换成字符串，并按照预设的关键词库，将所述字符串拆分为多个关键词；

标注各个所述关键词的词性，确定各个相邻的关键词之间的词性是否匹配；

在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词；

在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求1所述的语音识别方法，其特征在于，所述计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果的步骤包括：

将所述语音信号识别以及唇语识别结果拆分为多个关键词；

确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

将准确度较高的识别结果作为当前的语音识别结果。
如权利要求2所述的语音识别方法，其特征在于，所述计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果的步骤包括：

将所述语音信号识别以及唇语识别结果拆分为多个关键词；

确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

将准确度较高的识别结果作为当前的语音识别结果。
如权利要求3所述的语音识别方法，其特征在于，所述计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果的步骤包括：

将所述语音信号识别以及唇语识别结果拆分为多个关键词；

确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

将准确度较高的识别结果作为当前的语音识别结果。
一种语音识别系统，其特征在于，所述语音识别系统包括：

控制模块，用于在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；

语音信号识别模块，用于对接收到的语音信号进行识别，以得到语音信号识别结果；

唇语识别模块，用于对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；

处理模块，用于计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。
如权利要求11所述的语音识别系统，其特征在于，所述唇语识别模块包括：

唇部定位子模块，用于确定采集到的图像中包含唇部的图像，将所述包含唇部的图像作为有效图像，并确定所述有效图像中唇部位置；

确定子模块，用于根据每一帧所述有效图像的唇形以及上一帧所述有效图像的唇形确定用户输出的字符；

重组子模块，用于基于每一帧所述有效图像对应的字符组成唇语识别结果。
如权利要求12所述的语音识别系统，其特征在于，所述唇部定位子模块包括：

脸部轮廓确定单元，用于确定采集到的每帧图像中脸部轮廓；

脸部位置定位单元，用于将确定的脸部轮廓内的各个像素点色度值与预存的人脸中各个像素点的色度值进行比对，以确定采集到的每帧图像中脸部位置；

唇部区域定位单元，用于确定脸部位置中眼部位置，并基于眼部位置以及唇部位置之间的相对位置确定唇部区域；

比对单元，用于将唇部区域中各个像素点的RGB色度值进行比对；

处理单元，用于在唇部区域存在RGB色度值满足预设条件的像素点时，确定该帧图像为包含唇部的图像，将所述包含唇部的图像作为有效图像；

唇部位置定位单元，用于基于唇部区域中各个像素点的RGB色度值确定唇部的位置。
如权利要求11所述的语音识别系统，其特征在于，所述语音信号识别模块包括：

转换子模块，用于将接收到的语音信号转换成字符串；

拆分子模块，按照预设的关键词库，将所述字符串拆分为多个关键词；

词性匹配子模块，用于标注各个所述关键词的词性，，确定各个相邻的关键词之间的词性是否匹配；

确定子模块，用于在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词，以及在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

处理子模块，用于将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求14所述的语音识别系统，其特征在于，所述处理子模块还用于在替换后的第二关键词与相邻关键词之间词性不匹配，且所述第二关键词存在多个时，将所述第一关键词替换为其它第二关键词，并确定替换后的第二关键词与相邻关键词之间词性是否匹配，直至替换完所有的第二关键词，并将转换得到的字符串作为当前的语音信号识别结果。
如权利要求12所述的语音识别系统，其特征在于，所述语音信号识别模块包括：

转换子模块，用于将接收到的语音信号转换成字符串；

拆分子模块，按照预设的关键词库，将所述字符串拆分为多个关键词；

词性匹配子模块，用于标注各个所述关键词的词性，，确定各个相邻的关键词之间的词性是否匹配；

确定子模块，用于在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词，以及在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

处理子模块，用于将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求13所述的语音识别系统，其特征在于，所述语音信号识别模块包括：

转换子模块，用于将接收到的语音信号转换成字符串；

拆分子模块，按照预设的关键词库，将所述字符串拆分为多个关键词；

词性匹配子模块，用于标注各个所述关键词的词性，，确定各个相邻的关键词之间的词性是否匹配；

确定子模块，用于在有相邻的关键词之间的词性不匹配时，将所述不匹配关键词作为第一关键词，并确定预设的混淆音词库是否存在所述第一关键词，以及在所述混淆音词库存在所述不匹配的关键词时，确定所述混淆音词库中所述第一关键词对应的第二关键词；

处理子模块，用于将所述第一关键词替换为第二关键词，并在替换后的第二关键词与相邻关键词之间词性匹配时，将替换后的第二关键词以及其它关键词重新组合成为语音信号识别结果，并将重新组合的唇语识别结果作为当前的语音信号识别结果。
如权利要求11所述的语音识别系统，其特征在于，所述处理模块包括：

拆分子模块，用于将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关联度计算子模块，用于确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

准确度计算子模块，用于对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

处理子模块，用于将准确度较高的识别结果作为当前的语音识别结果。
如权利要求12所述的语音识别系统，其特征在于，所述处理模块包括：

拆分子模块，用于将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关联度计算子模块，用于确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

准确度计算子模块，用于对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

处理子模块，用于将准确度较高的识别结果作为当前的语音识别结果。
如权利要求13所述的语音识别系统，其特征在于，所述处理模块包括：

拆分子模块，用于将所述语音信号识别以及唇语识别结果拆分为多个关键词；

关联度计算子模块，用于确定所述语音信号识别结果拆分成的关键词中，各个相邻关键词的之间的第一关联度，并确定所述唇语识别结果拆分成的关键词中，各个相邻关键词的之间的第二关联度；

准确度计算子模块，用于对确定的第一关联度求和，得到所述语音信号识别结果的准确度，并对确定的第二关联度求和，得到所述语音信号识别结果的准确度；

处理子模块，用于将准确度较高的识别结果作为当前的语音识别结果。