TW201543467A

TW201543467A - 語音輸入方法、裝置和系統

Info

Publication number: TW201543467A
Application number: TW103134247A
Authority: TW
Inventors: Zhi-Ning Li
Original assignee: Alibaba Group Services Ltd
Priority date: 2014-05-06
Filing date: 2014-10-01
Publication date: 2015-11-16
Also published as: CN105096935A; WO2015171646A1; US20150325240A1; CN105096935B

Abstract

本發明實施例提供了一種語音輸入方法、裝置和系統，所述語音輸入方法包括：接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；識別出與所述語音信號匹配的第二候選識別資料；至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；以及將所述目標識別資料發送至所述客戶端。本發明實施例通過圖片處理技術結合語音識別技術，降低了用戶在輸入語音信號時說話聲小、環境嘈雜等情況的干擾，提高了語音識別的準確率。

Description

語音輸入方法、裝置和系統

本發明係關於語音識別的技術領域，特別是關於一種語音輸入方法、一種語音輸入裝置和一種語音輸入系統。

隨著社會的不斷發展和多媒體通信以及聲音轉換技術的深入發展，聲音控制技術(即聲控技術)已經得到廣泛的關注。聲控技術經過長期快速發展，已經投入到實際應用中，例如，用聲音打開門窗、窗簾、電視機、電燈等。

在實現聲控技術時，語音識別是其中一個重要環節。而目前的聲控技術一般是基於用戶的一系列聲音識別技術，包括：接收音頻信號；根據有效語音命令特徵對所述音頻信號進行分解和過濾，得到語音樣本；對所述語音樣本進行語義識別，確定對應的語音命令。

目前的聲控技術需要清晰明瞭地獲取用戶的音頻信號，才能進一步識別，因此在識別聲音的時候容易出現錯誤，特別是在用戶說話聲音小、環境嘈雜等情況下，目前的聲控技術不能完全準確的獲取用戶的音頻信號，進而不能準確進行識別。

因此，目前需要本領域技術人員迫切解決的一個技術問題就是：如何提出一種語音輸入機制，以提高語音識別的準確率。

本發明實施例所要解決的技術問題是提供一種語音輸入方法，用以提高語音識別的準確率。

相應的，本發明實施例還提供了一種語音輸入裝置和一種語音輸入系統，用以保證上述方法的實現及應用。

為了解決上述問題，本發明實施例公開了一種語音輸入方法，包括：接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；識別出與所述語音信號匹配的第二候選識別資料；至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；以及將所述目標識別資料發送至所述客戶端。

較佳地，所述用戶特徵圖像信號包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。

較佳地，所述第一候選識別資料對應有一幀或多幀嘴型參考圖信號，所述識別出與所述用戶特徵圖像信號匹配的第一候選識別資料的步驟包括：計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；以及提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

較佳地，每一幀嘴型參考圖信號對應有一組嘴型參考向量，所述計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度的步驟包括：從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；對每一組嘴型特徵資訊建立一組嘴型特徵向量；分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；以及計算所述向量相似度之和，獲得嘴型相似度。

較佳地，每一組嘴型特徵向量中包括如下至少一種向量：特徵嘴型大小向量、特徵嘴型比例向量、特徵牙齒能見向量、特徵牙齒比例向量、特徵舌頭能見向量、特徵舌頭比例向量；其中，所述特徵嘴型大小為標識所述嘴型特徵圖信號中嘴型區域面積大小的向量；所述特徵嘴型比例向量為標識所述嘴型特徵圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述特徵牙齒能見向量為標識所述嘴型特徵圖信號中是否識別出牙齒區域的向量；所述特徵牙齒比例向量為標識所述嘴型特徵圖信號中牙齒區域與嘴型區域之間的比例的向量；所述特徵舌頭能見向量為標識所述嘴型特徵圖信號中是否識別出舌頭區域的向量；所述特徵舌頭比例向量為標識所述嘴型特徵圖信號中舌頭區域與嘴型區域之間的比例的向量。

較佳地，每一組嘴型參考向量中包括如下至少一種向量：參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量；其中，所述參考嘴型大小為標識所述嘴型參考圖信號中嘴型區域面積大小的向量；所述參考牙齒能見向量為標識所述嘴型參考圖信號中是否識別出牙齒區域的向量；所述參考嘴型比例向量為標識所述嘴型參考圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述參考牙齒比例向量為標識所述嘴型參考圖信號中牙齒區域與嘴型區域之間的比例的向量；所述參考舌頭能見向量為標識所述嘴型參考圖信號中是否識別出舌頭區域的向量；所述參考舌頭比例向量為標識所述嘴型參考圖信號中舌頭區域與嘴型區域之間的比例的向量。

較佳地，所述分別計算所述嘴型特徵向量與對應的嘴型參考向量之間的向量相似度的步驟包括：分別將所述特徵嘴型大小向量與所述特徵嘴型比例向量的比值設置為標準嘴型大小向量；以及至少根據所述標準嘴型大小向量、所述特徵牙齒能見向量、所述特徵牙齒比例向量、所述特徵舌頭能見向量、所述特徵舌頭比例向量，與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種，計算特徵向量相似度。

較佳地，所述識別出與所述語音信號匹配的第二候選識別資料的步驟包括：從所述語音信號提取語音特徵；計算所述語音特徵與預置的發音模板之間的發音相似度；當所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；計算所述語音候選資料的出現概率；當所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；以及當所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

較佳地，所述至少根據所述第一候選識別資料和第二候選識別資料確定目標識別資料的步驟包括：對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

本發明實施例還公開了一種語音輸入方法，包括：採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；識別出與所述語音信號匹配的第二候選識別資料；以及至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料。

較佳地，還包括：執行所述目標識別資料對應的操作。

較佳地，所述第一候選識別資料對應有一幀或多幀嘴型參考圖信號，所述識別出與所述用戶特徵圖像信號匹配的第一候選識別資料的步驟包括：計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；以及提取最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

本發明實施例還公開了一種語音輸入裝置，包括：接收模組，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；發送模組，用於將所述目標識別資料發送至所述客戶端。

較佳地，所述第一識別模組包括：嘴型相似度計算子模組，用於計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；第一提取模組，用於提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

較佳地，每一幀嘴型參考圖信號對應有一組嘴型參考向量，所述第一嘴型相似度計算子模組包括：特徵提取子模組，用於對從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；向量建立子模組，用於對每一組嘴型特徵資訊建立一組嘴型特徵向量；第一計算子模組，用於分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；第二計算子模組，用於計算所述向量相似度之和，獲得嘴型相似度。

較佳地，每一組嘴型特徵向量中包括如下至少一種向量：特徵嘴型大小向量、特徵嘴型比例向量、特徵牙齒能見向量、特徵牙齒比例向量、特徵舌頭能見向量、特徵舌頭比例向量；其中，所述特徵嘴型大小為標識所述嘴型特徵圖信號中嘴型區域面積大小的向量；所述特徵嘴型比例向量為標識所述嘴型特徵圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述特徵牙齒能見向量為標識所述嘴型特徵圖信號中是否識別出牙齒區域的向量；所述特徵牙齒比例向量為標識所述嘴型特徵圖信號中牙齒區域與嘴型區域之間的比例的向量；所述特徵舌頭能見向量為標識所述嘴型特徵圖信號中是否識別出舌頭區域的向量；所述特徵舌頭比例向量為標識所述嘴型特徵圖信號中舌頭區域與嘴型區域之間的比例的向量；較佳地，每一組嘴型參考向量中包括如下至少一種向量：參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量；其中，所述參考嘴型大小為標識所述嘴型參考圖信號中嘴型區域面積大小的向量；所述參考牙齒能見向量為標識所述嘴型參考圖信號中是否識別出牙齒區域的向量；所述參考嘴型比例向量為標識所述嘴型參考圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述參考牙齒比例向量為標識所述嘴型參考圖信號中牙齒區域與嘴型區域之間的比例的向量；所述參考舌頭能見向量為標識所述嘴型參考圖信號中是否識別出舌頭區域的向量；所述參考舌頭比例向量為標識所述嘴型參考圖信號中舌頭區域與嘴型區域之間的比例的向量。

較佳地，所述第一計算子模組包括：設置子模組，用於分別將所述特徵嘴型大小向量與所述特徵嘴型比例向量的比值設置為標準嘴型大小向量；向量計算子模組，用於至少根據所述標準嘴型大小向量、所述特徵牙齒能見向量、所述特徵牙齒比例向量、所述特徵舌頭能見向量、所述特徵舌頭比例向量，與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種，計算特徵向量相似度。

較佳地，所述第二識別模組包括：第一提取子模組，用於從所述語音信號提取語音特徵；第三計算子模組，用於計算所述語音特徵與預置的發音模板之間的發音相似度；第二提取子模組，用於在所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；第四計算子模組，用於計算所述語音候選資料的出現概率；第五計算子模組，用於在所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；第三提取子模組，用於在所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

較佳地，所述確定模組包括：交集處理子模組，用於對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

本發明實施例還公開了一種語音輸入裝置，包括：特徵資訊採集模組，用於採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料。

較佳地，還包括：執行模組，用於執行所述目標識別資料對應的操作。

本發明實施例還公開了一種語音輸入系統，所述系統包括伺服器和客戶端；其中，所述伺服器包括：第一接收模組，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；第一發送模組，用於將所述目標識別資料發送至所述客戶端。

所述客戶端包括：特徵資訊採集模組，用於採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第二發送模組，用於將所述特徵資訊發送至所述伺服器；第二接收模組，用於接收所述伺服器發送的目標識別資料。

較佳地，所述客戶端還包括：執行模組，用於執行所述目標識別資料對應的操作。

與背景技術相比，本發明實施例包括以下優點：本發明實施例識別出與客戶端發送的用戶特徵圖像信號匹配的第一候選識別資料，識別出與客戶端發送的語音信號匹配的第二候選識別資料，進而確定目標識別資料，再發送至客戶端，通過圖片處理技術結合語音識別技術，降低了用戶在輸入語音信號時說話聲小、環境嘈雜等情況的干擾，提高了語音識別的準確率。

本發明實施例利用讀音不同而嘴型不同的特點，通過識別用戶嘴型變化，避免用戶進行其他額外的操作，保證了用戶操作的簡便性，同時，進一步提高了語音識別準確率。

本發明實施例在提高了語音識別準確率的基礎之上，減少錯誤目標識別資料的識別，執行目標識別資料對應的操作時，則可以減少錯誤的操作，提高了聲控命令執行的準確率，一方面，可以減少用戶重新輸入特徵資訊等的操作步驟，提高了用戶操作的簡便性，提升用戶體驗，另一方面，可以減少客戶端對用戶發出的特徵資訊的操作響應，減少客戶端系統資源的消耗。

300‧‧‧語音輸入裝置

301‧‧‧接收模組

302‧‧‧第一識別模組

303‧‧‧第二識別模組

304‧‧‧確定模組

305‧‧‧發送模組

400‧‧‧語音輸入裝置

401‧‧‧特徵資訊採集模組

402‧‧‧第一識別模組

403‧‧‧第二識別模組

404‧‧‧確定模組

500‧‧‧語音輸入系統

510‧‧‧伺服器

511‧‧‧第一接收模組

512‧‧‧第一識別模組

513‧‧‧第二識別模組

514‧‧‧確定模組

515‧‧‧第一發送模組

520‧‧‧客戶端

521‧‧‧特徵資訊採集模組

522‧‧‧第二發送模組

523‧‧‧第二接收模組

圖1是本發明的一種語音輸入方法實施例的步驟流程圖；圖2是本發明的另一種語音輸入方法實施例的步驟流程圖；圖3是本發明的一種語音輸入裝置實施例的結構框圖；圖4是本發明的另一種語音輸入裝置實施例的結構框圖；以及圖5是本發明的一種語音輸入系統實施例的結構框圖。

為使本發明的上述目的、特徵和優點能夠更加明顯易懂，下面結合圖式和具體實施方式對本發明作進一步詳細的說明。

參照圖1，示出了本發明的一種語音輸入方法實施例的步驟流程圖，所述語音輸入方法100具體可以包括如下步驟：

步驟101，接收客戶端發送的特徵資訊；應用本發明實施例，在用戶對客戶端輸入聲控操作指令等情形下，可以在客戶端採集特徵資訊，然後將採集到的特徵資訊發送至伺服器或者雲端。

在具體實現中，所述特徵資訊可以包括語音信號和用戶特徵圖像信號，該語音信號可以為記錄用戶輸入的語音的信號，具體可以通過麥克風等音頻設備進行採集，該用戶特徵圖像信號可以為記錄用戶肢體特徵的圖像，具體可以通過攝像頭等攝像設備進行採集。

需要說明的是，語音信號和用戶特徵圖像信號也可以是資料的形式，例如，語音信號可以為麥克風等音頻設備採集的模擬信號數字化後的資料，本發明實施例對此不加以限制。

在本發明實施例的一種較佳示例中，所述用戶特徵圖像信號可以包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。

例如，在用戶在行動裝置(客戶端的其中一種形式)輸入語音時，可以啟動攝像頭等攝像設備，並在行動裝置的螢幕中描繪出聚焦的方框，類似行動裝置拍照時，能夠自動聚焦到人臉上的聚焦方框，接著，使用該方框對準用戶的嘴，用於實時捕獲用戶嘴型的變化，最終捕獲到一幀或多幀用戶從輸入語音信號開始到結束的嘴型特徵圖信號。

在實際應用中，可以根據實際情況設置用戶特徵圖像信號的數量，較佳地可以為8幀，一方面可以保證計算的方便性，另一方面是保證儲存的可控性。由於電腦世界是二進制的，所以2的冪次方更容易做資料計算和匹配，因此8幀圖片可以保證計算方便性；如果圖片多了，佔用比較多的儲存資源，如果圖片少了，又不能很好地識別嘴型特徵圖信號匹配的候選識別資料，而8幀圖片佔用較少的儲存資源，而且較好地識別嘴型特徵圖信號匹配的候選識別資料。

步驟102，識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；在生活中，人們常使用肢體語言(又稱身體語言)進行交流，即，使用身體運動或動作來代替或輔助聲音、口頭言語或其他交流方式進行交流。例如，唇語、手語、除手語外的手勢(比如搖手指一般代表不贊成、拒絕等意思)。

因此，本發明實施例中，可以從用戶特徵圖像信號中讀取用戶所表達的意思。

為使本領域技術人員更好地理解本發明實施例，在本說明書中，將嘴型特徵圖信號作為用戶特徵圖像信號的一種示例進行說明。

以漢語作為文本資訊的一個示例，漢語拼音通常有兩種拼讀方法，拼讀法(前音輕短後音重)和直呼法(先做聲母的嘴形再做韻母的音)。而每個聲母和韻母都有特定的發音，使得用戶在發出聲母和韻母的讀音時嘴型都不同，例如發出聲母“b”的讀音時，雙唇閉合，擋住氣流，然後雙唇突然打開，讓氣流爆發出來，聲帶顫動，進而使得發出漢語的讀音時嘴型都會有不同的特點。

則應用本發明實施例，可以預先建立嘴型資料庫，該嘴型資料庫可以儲存一個或多個第一候選識別資料，該第一候選識別資料可以為文本資訊，也可以為操作指令等等，本發明實施例對此不加以限制。

所述第一候選識別資料可以對應有一幀或多幀嘴型參考圖信號，即需要針對各個第一候選識別資料建立一幀或多幀(例如8幀)從開始輸入該第一候選識別資料開始到結束的嘴型參考圖信號。

其中，每一幀嘴型參考圖信號可以對應有一組嘴型參考向量，該嘴型參考向量可以為記錄輸入該第一候選識別資料時嘴型的特徵的向量。

在本發明實施例的一種較佳示例中，每一組嘴型參考向量中可以包括如下至少一種向量：參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量；其中，所述參考嘴型大小為標識所述嘴型參考圖信號中嘴型區域面積大小的向量；所述參考嘴型比例向量為標識所述嘴型參考圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述參考牙齒能見向量為標識所述嘴型參考圖信號中是否識別出牙齒區域的向量；所述參考牙齒比例向量為標識所述嘴型參考圖信號中牙齒區域與嘴型區域之間的比例的向量；所述參考舌頭能見向量為標識所述嘴型參考圖信號中是否識別出舌頭區域的向量；所述參考舌頭比例向量為標識所述嘴型參考圖信號中舌頭區域與嘴型區域之間的比例的向量。

例如，第一候選識別資料為“開”時，對應有8幀嘴型參考圖信號，分別建立X1-X8共8組嘴型參考向量，具體的嘴型參考向量可以如下： X1=(0，1，0，0，0，0)

X2=(2，1，1，0.5，1，0.2)

X3=(5，1，2，0.2，1，0.4)

X4=(6，1，1，0.1，1，0.5)

X5=(8，1，1，0.08，1，0.6)

X6=(10，1，1，0.05，1，0.7)

X7=(15，1，1，0.02，1，0.8)

X8=(0，1，0，0，0，0)

其中，以X2為例，第一個向量“2”為參考嘴型大小向量，表示嘴型大小為2個單位面積，第二個向量“1”為參考嘴型比例向量，表示嘴型大小為標準嘴型的1倍(即大小相等)，第三個向量“1”為參考牙齒能見向量，表示能看到牙齒(另外，可以以“0”表示不能看到牙齒)，第四個向量“0.5”為參考牙齒比例向量，表示能見到的牙齒大小為嘴型大小的0.5倍，第五個向量“1”為參考舌頭能見向量，表示能看到舌頭(另外，可以以“0”表示不能看到舌頭)，第六個向量“0.2”為參考舌頭比例，表示能見到的舌頭大小為嘴型大小的0.5倍。

當然，上述嘴型參考向量只是作為示例，在實施本發明實施例時，可以根據實際情況設置其他嘴型參考向量。另外，除了上述嘴型參考向量外，本領域技術人員還可以根據實際需要採用其它嘴型參考向量，本發明實施例對此也不加以限制。

在本發明的一種較佳實施例中，步驟102可以包括如下子步驟：

子步驟S11，計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；在本發明實施例中，嘴型相似度可以為嘴型特徵圖信號記錄的嘴型和嘴型參考圖信號中記錄的嘴型之間的相似度。

在本發明的一種較佳實施例中，子步驟S11進一步可以包括如下子步驟：

子步驟S111，從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；提取嘴型特徵資訊主要由三部分組成：嘴型特徵資訊的獲取、嘴型特徵資訊的處理和分析、輸出或顯示。

嘴型特徵資訊的獲取實際上是將嘴型特徵資訊的可視化圖像和內在特徵轉換成能被電腦處理的一系列資料，主要依賴於圖像處理方法，包括圖像增強、資料編碼和傳輸、平滑、邊緣銳化、分割、特徵抽取、圖像識別與理解等內容。經過這些處理後，輸出圖像的質量得到相當程度的改善，既改善了圖像的視覺效果，又便於電腦對圖像進行分析、處理和識別。

然後利用顏色、形狀等資訊來識別環境目標。以機器人對顏色的識別為例：當獲得嘴型特徵圖信號以後，將嘴型特徵圖信號中的像素根據顏色分成兩部分：感興趣的像素(嘴型特徵資訊的顏色)和不感興趣的像素(背景顏色)。然後，對這些感興趣的像素進行RGB(紅色、綠色、藍色)顏色分量的匹配。進一步，為了減少環境光強度的影響，可以把RGB顏色空間轉化到HIS(色調、亮度、飽和度)顏色空間。

在本發明實施例的一種較佳示例中，嘴型特徵資訊可以包括嘴、牙齒和舌頭中的至少一種。

則在此示例中，在獲取到嘴型特徵圖信號後，對其進行顏色分析，根據預置的嘴的顏色匹配到嘴，並且根據預置的牙齒的顏色匹配到牙齒，根據預置的舌頭的顏色匹配到舌頭。

子步驟S112，對每一組嘴型特徵資訊建立一組嘴型特徵向量；該嘴型特徵向量可以為記錄輸入語音信號時嘴型的特徵的向量。

在本發明實施例的一種較佳示例中，每一組嘴型特徵向量中可以包括如下至少一種向量：特徵嘴型大小向量、特徵嘴型比例向量、特徵牙齒能見向量、特徵牙齒比例向量、特徵舌頭能見向量、特徵舌頭比例向量；其中，所述特徵嘴型大小為標識所述嘴型特徵圖信號中嘴型區域面積大小的向量；所述特徵嘴型比例向量為標識所述嘴型特徵圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述特徵牙齒能見向量為標識所述嘴型特徵圖信號中是否識別出牙齒區域的向量；所述特徵牙齒比例向量為標識所述嘴型特徵圖信號中牙齒區域與嘴型區域之間的比例的向量；所述特徵舌頭能見向量為標識所述嘴型特徵圖信號中是否識別出舌頭區域的向量；所述特徵舌頭比例向量為標識所述嘴型特徵圖信號中舌頭區域與嘴型區域之間的比例的向量。

在具體實現中，在匹配到嘴、牙齒和舌頭等嘴型特徵資訊後，可以直接建立特徵嘴型大小向量、特徵牙齒能見向量、特徵舌頭能見向量，然後將嘴與標準嘴型對比，建立特徵嘴型比例向量，將牙齒與嘴對比，建立特徵牙齒比例向量，將舌頭與嘴對比，建立特徵舌頭比例向量。

例如，用戶在輸入語音信號時，採集8幀嘴型特徵圖信號記錄用戶嘴型的實時變化，並根據建立嘴型參考向量的規則，對每一幀嘴型特徵圖信號建立一組嘴型特徵向量，建立Y1’-Y8’共8組嘴型特徵向量，嘴型特徵向量的具體示例可以如下：Y1’=(0，2，0，0，0，0)

Y2’=(4，2，1，0.5，1，0.2)

Y3’=(10，2，2，0.2，1，0.4)

Y4’=(12，2，1，0.1，1，0.5)

Y5’=(16，2，1，0.08，1，0.6)

Y6’=(20，2，1，0.04，1，0.7)

Y7’=(30，2，1，0.02，1，0.8)

Y8’=(0，2，0，0，0，0)

其中，以Y2’為例，第一個向量“4”為特徵嘴型大小向量，表示嘴型大小為4個單位面積，第二個向量“2”為特徵嘴型比例向量，表示嘴型大小為標準嘴型的2倍，第三個向量“1”為特徵牙齒能見向量，表示能看到牙齒(另外，可以以“0”表示不能看到牙齒)，第四個向量“0.5”為特徵牙齒比例向量，表示能見到的牙齒大小為嘴型大小的0.5倍，第五個向量“1”為特徵舌頭能見向量，表示能看到舌頭(另外，可以以“0”表示不能看到舌頭)，第六個向量“0.2”為特徵舌頭比例，表示能見到的舌頭大小為嘴型大小的0.5倍。

當然，上述嘴型特徵向量只是作為示例，在實施本發明實施例時，可以根據實際情況設置其他嘴型特徵向量。另外，除了上述嘴型特徵向量外，本領域技術人員還可以根據實際需要採用其它嘴型特徵向量，本發明實施例對此也不加以限制。

子步驟S113，分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；在本發明實施例中，需要將嘴型特徵向量與嘴型參考向量進行對應的向量相似度計算，例如上述示例中Y1’與X1計算向量相似度，Y2’與X2計算向量相似度等等。

在本發明的一種較佳實施例中，子步驟S113進一步可以包括如下子步驟：

子步驟S1131，分別將所述特徵嘴型大小向量與所述特徵嘴型比例向量的比值設置為標準嘴型大小向量；由於在採集用戶特徵圖像信號時採集的距離不盡相同，並且，每個用戶的嘴型大小也不盡相同，因此，需要對特徵嘴型大小向量劃分統一的標準。

例如，對上述Y1’-Y8’共8組嘴型特徵向量換算成Y1-Y8共8組嘴型特徵向量。

Y1=(0，1，0，0，0，0)

Y2=(2，1，1，0.5，1，0.2)

Y3=(5，1，2，0.2，1，0.4)

Y4=(6，1，1，0.1，1，0.5)

Y5=(8，1，1，0.08，1，0.6)

Y6=(10，1，1，0.04，1，0.7)

Y7=(15，1，1，0.02，1，0.8)

Y8=(0，1，0，0，0，0)

其中，每組向量中的第一個向量為標準嘴型大小向量，第二個向量，即特徵嘴型比例向量轉換“1”，表示嘴型大小與標準嘴型的大小相等。

此時，需要Y1與X1計算向量相似度，Y2與X2計算向量相似度等等。

子步驟S1132，至少根據所述標準嘴型大小向量、所述特徵牙齒能見向量、所述特徵牙齒比例向量、所述特徵舌頭能見向量、所述特徵舌頭比例向量，與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一個或者多種，計算特徵向量相似度。

在具體實現中，可以根據正則表達式進行匹配。

子步驟S114，計算所述向量相似度之和，獲得嘴型相似度。

當遍曆完嘴型特徵向量與對應的嘴型參考向量後，得出每組之間向量相似度，最後把所有的向量相似度相加，獲得嘴型相似度，得出嘴型特徵圖信號像與嘴型參考圖信號像的相似程度，標識用戶發出該語音信號的嘴型與發出該第一候選識別資料的嘴型相似程度。

子步驟S12，提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

在本發明實施例中，將最高值的嘴型相似度對應的第一候選識別資料，作為與用戶發出的語音信號的第一候選識別資料。

當然，上述用戶特徵圖像信號只是作為示例，在實施本發明實施例時，可以根據實際情況設置其他用戶特徵圖像信號，例如一幀或多幀記錄用戶手勢的手勢特徵圖等等，本發明實施例對此不加以限制。

在應用本發明實施例時，可以根據用戶肢體特點建立對應的肢體資料庫，記錄候選識別資料與肢體參考向量(例如手勢參考向量)的對應關係，對於其他的用戶特徵圖像信號(例如手勢特徵圖信號)則可以建立對應的肢體特徵向量(例如手勢特徵向量)，再計算肢體特徵向量(例如手勢特徵向量)與肢體參考向量(例如手勢參考向量)的相似度，獲得與該用戶特徵圖像信號(例如手勢特徵圖信號)匹配的候選識別資料，本發明實施例在此不一一詳述。

另外，除了上述特徵資訊外，本領域技術人員還可以根據實際需要採用其它特徵資訊，本發明實施例對此也不加以限制。

步驟103，識別出與所述語音信號匹配的第二候選識別資料；本發明實施例中，可以採用語音識別技術識別出於語音信號匹配的第二候選識別資料，該第二候選識別資料可以為文本資訊，也可以為操作指令等等，本發明實施例對此不加以限制。

語音識別技術，也可以稱為自動語音識別(Automatic Speech Recognition，ASR)，其任務是把人所發出的語音中的詞彙內容轉換為電腦可讀入的文本。

目前，主流的大詞彙量語音識別中通常採用基於統計模型的識別技術，典型的基於統計模型的語音識別通常有如下幾個基本部分組成：

1、語音信號處理及語音特徵提取。從輸入的語音信號中提取語音特徵，用於聲學模型的建模以及解碼過程。但在提取特徵之前也需要負責對語音信號進行降噪等處理，以提高系統的魯棒性。

2、統計聲學模型。通常的語音識別系統大都使用隱馬爾科夫模型對詞，音節、音素等基本的聲學單元進行建模，生成聲學模型。

3、語言模型。語言模型對系統所需識別的語言在單詞層面上進行建模。語言模型包括正則語言，上下文無關文法的各種語言模型。目前大多數語音識別普遍採用統計語言模型，其中大都是基於統計的N元語法(N-gram)模型及其變體。

4、發音詞典。發音詞典包含所能處理的單詞的集合，並標明了其發音。通過發音詞典得到聲學模型的建模單元和語言模型建模單元間的映射關係，從而把聲學模型和語言模型連接起來，組成一個搜索的狀態空間用於解碼器進行解碼工作。

5、解碼器。解碼器是語音識別的核心之一，負責讀取輸入的語音信號的語音特徵序列，在由聲學模型、語言模型及發音詞典生成的狀態空間中，解碼出以最大概率輸出該語音信號的詞串。

在本發明的一種較佳實施例中，步驟103可以包括如下子步驟：子步驟S21，從所述語音信號提取語音特徵；子步驟S22，計算所述語音特徵與預置的發音模板之間的發音相似度；子步驟S23，當所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；聲學模型(acoustic model)是語音識別中最底層的部分，同時也是語音識別中最關鍵的組成單元，聲學模型建模的好壞會直接從根本上影響語音識別的識別效果和魯棒性。

聲學模型實驗概率統計的模型對帶有聲學資訊的語音基本單元建立模型，描述其統計特性。通過對聲學模型的建模，可以較有效地衡量語音的特徵矢量序列和每一個發音模板之間的相似度，可以有助於判斷該段語音的聲學資訊，即語音的內容。語者的語音內容都是由一些基本的語音單元組成，這些基本的語音單元可以是句子、詞組、詞、音節(syllable)、子音節(Sub-syllable)或者音素等。可見可選擇建模的語音單元有不少，通常應該根據具體的應用場景來選擇建模的語音單元。

在小詞彙量的語音識別中通常選用單詞作為一個語音單元來建立聲學模型。

在大詞彙量連續語音識別(large-vocabulary continuous speech recognition，LVCSR)中，通常會選擇音素作為建模單元，而選擇音素的建模通常有兩種不同的方式，分別是對音素建立上下文無關模型(Context Independent)以及上下文相關模型(Context Dependent)。

子步驟S24，計算所述語音候選資料的出現概率；由於語音信號的時變性、噪聲和其它一些不穩定因素，單純靠聲學模型無法達到較高的語音識別的準確率。在人類語言中，每一句話的單詞直接有密切的聯繫，這些單詞層面的資訊可以減少聲學模型上的搜索範圍，有效地提高識別的準確性，要完成這項任務語言模型是必不可少的，它提供了語言中詞之間的上下文資訊以及語義資訊。

隨著統計語言處理方法的發展，統計語言模型成為語音識別中語言處理的主流技術，其中統計語言模型有很多種，如N-Gram語言模型、馬爾可夫N元模型(Markov N-gram)、指數模型(Exponential Models)、決策樹模型(Decision Tree Models)等。而N元語言模型是最常被使用的統計語言模型，特別是二元語言模型(bigram)、三元語言模型(trigram)。

以三元語言模型為例，設w_i是文本中的任意一個詞，如果已知它在該文本中的前兩個詞w_i-2w_i-1，便可以用條件概率P(w_i | w_i-2w_i-1)來預測w_i出現的概率。這就是N元語言模型的概念。用變量W代表文本中一個任意的詞序列，即W=w₁w₂...w_n，則統計語言模型就是用來計算W在該語言模型下中出現的概率P(W)。

子步驟S25，當所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；在具體實現中，發音詞典存放所有單詞的發音，用來連接聲學模型和語言模型的。例如，一個句子可以分成若干個單詞相連接，每個單詞通過查詢發音詞典得到該單詞發音的音素序列。相鄰單詞的轉移概率可以通過語言模型獲得，音素的概率模型可以通過聲學模型獲得，從而生成了這句話的一個概率模型，即連接概率。

子步驟S26，當所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

由於用戶說話聲音比較小或者外界環境嘈雜等原因，所識別出的第二候選識別資料可以為一個或多個。

步驟104，至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；在具體實現中，目標識別資料可以為文本資訊，也可以為操作指令等等，本發明實施例對此不加以限制。

在本發明的一種較佳實施例中，步驟104可以包括如下子步驟：

子步驟S31，對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

在本發明實施例中，可以以第一候選識別資料和第二候選識別資料相交的部分，作為目標識別資料。

例如，用戶輸入語音信號“開”，在步驟102中，將採集到的用戶的嘴型特徵圖信號建立嘴型特徵向量Y1’-Y8’，然後轉化為標準的嘴型特徵向量Y1-Y8，與嘴型資料庫中的嘴型參考向量進行匹配，其中，嘴型特徵向量Y1-Y8與嘴型參考向量X1-X8的相似度最高，則匹配的結果是X1-X8對應的“開”，而在步驟103中，由於用戶說話聲音比較小或者外界環境嘈雜等原因，聲學模型和語言模型匹配的結果是“開”、“哈”、“卡”，最後，根據步驟102和步驟103匹配的結果，進行再次匹配，獲取“開”和“開”、“哈”、“卡”的交集，獲得目標識別資料“開”。

當然，上述特徵資訊只是作為示例，在實施本發明實施例時，可以根據實際情況設置其他特徵資訊，例如，手勢資訊、按鍵操作資訊等等，本發明實施例對此不加以限制。

需要說明的是，應用本發明實施例，可以在增加其他特徵資訊的基礎之上，增加識別的流程，即識別與其他特徵資訊匹配的其他候選識別資料，在採用第一候選識別資料、第二候識別選資料和其他候選識別資料確定目標識別資料。

例如，用戶設置行動裝置螢幕鎖定時的解鎖密碼為語音“解鎖”和手勢資訊“W”，在行動裝置解鎖時，用戶輸入的語音信號被識別出為“解鎖”、“解說”，用戶的嘴型被識別出為“解鎖”，用戶輸入的手勢資訊被識別出為“W”，因此目標識別資料為語音“解鎖”和手勢資訊“W”，因此，行動裝置螢幕鎖定解鎖成功。

步驟105，將所述目標識別資料發送至客戶端。

應用本發明實施例，客戶端在接收到目標識別資料之後，可以執行所述目標識別資料對應的操作。

該操作可以為顯示該目標識別資料。例如，用戶在短信編輯過程中、在聊天中輸入語音信號，即可以在短信中、在即時通訊工具的聊天窗口中，顯示該目標識別資料。

該操作可以為執行該目標識別資料。例如，用戶在行動裝置中輸入語音信號“打開音樂播放器”，在識別出該目標識別資料為“打開音樂播放器”時，行動裝置可以執行“打開音樂播放器”的操作，打開音樂播放器。

當然，上述操作只是作為示例，在實施本發明實施例時，可以根據實際情況設置其他操作。另外，除了上述操作外，本領域技術人員還可以根據實際需要採用其它操作，本發明實施例對此也不加以限制。

本發明實施例識別出與客戶端發送的用戶特徵圖像信號匹配的第一候選識別資料，識別出與客戶端發送的語音信號匹配的第二候選識別資料，進而確定目標識別資料，再發送至客戶端，通過圖片處理技術結合語音識別技術，降低了用戶在輸入語音信號時說話聲小、環境嘈雜等情況的干擾，提高了語音識別的準確率。

參照圖2，示出了本發明的另一種語音輸入方法實施例的步驟流程圖，所述語音輸入方法200具體可以包括如下步驟：

步驟201，採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；在本發明的一種較佳實施例中，所述用戶特徵圖像信號可以包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。

步驟202，識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；在本發明的一種較佳實施例中，所述第一候選識別資料可以對應有一幀或多幀嘴型參考圖信號，則在本實施例中，步驟202可以包括如下子步驟：

子步驟S41，計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；在本發明的一種較佳實施例中，每一幀嘴型參考圖信號可以對應有一組嘴型參考向量，在本發明實施例的一種較佳示例中，每一組嘴型參考向量中可以包括如下至少一種向量：參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量；其中，所述參考嘴型大小為標識所述嘴型參考圖信號中嘴型區域面積大小的向量；所述參考牙齒能見向量為標識所述嘴型參考圖信號中是否識別出牙齒區域的向量；所述參考嘴型比例向量為標識所述嘴型參考圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述參考牙齒比例向量為標識所述嘴型參考圖信號中牙齒區域與嘴型區域之間的比例的向量；所述參考舌頭能見向量為標識所述嘴型參考圖信號中是否識別出舌頭區域的向量；所述參考舌頭比例向量為標識所述嘴型參考圖信號中舌頭區域與嘴型區域之間的比例的向量。

在本發明實施例中，子步驟S41進一步可以包括如下子步驟：

子步驟S411，從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；

子步驟S412，對每一組嘴型特徵資訊建立一組嘴型特徵向量；在本發明實施例的一種較佳示例中，每一組嘴型特徵向量中可以包括如下至少一種向量：特徵嘴型大小向量、特徵嘴型比例向量、特徵牙齒能見向量、特徵牙齒比例向量、特徵舌頭能見向量、特徵舌頭比例向量；其中，所述特徵嘴型大小為標識所述嘴型特徵圖信號中嘴型區域面積大小的向量；所述特徵嘴型比例向量為標識所述嘴型特徵圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述特徵牙齒能見向量為標識所述嘴型特徵圖信號中是否識別出牙齒區域的向量；所述特徵牙齒比例向量為標識所述嘴型特徵圖信號中牙齒區域與嘴型區域之間的比例的向量；所述特徵舌頭能見向量為標識所述嘴型特徵圖信號中是否識別出舌頭區域的向量；所述特徵舌頭比例向量為標識所述嘴型特徵圖信號中舌頭區域與嘴型區域之間的比例的向量。

子步驟S413，分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；在本發明實施例的一種較佳示例中，子步驟S413進一步可以包括如下子步驟：子步驟S4131，分別將所述特徵嘴型大小向量與所述特徵嘴型比例向量的比值設置為標準嘴型大小向量；子步驟S4132，至少根據所述標準嘴型大小向量、所述特徵牙齒能見向量、所述特徵牙齒比例向量、所述特徵舌頭能見向量、所述特徵舌頭比例向量，與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種，計算特徵向量相似度。

子步驟S414，計算所述向量相似度之和，獲得嘴型相似度。

子步驟S42，提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

步驟203，識別出與所述語音信號匹配的第二候選識別資料；在本發明的一種較佳實施例中，步驟203可以包括如下子步驟：子步驟S51，從所述語音信號提取語音特徵；子步驟S52，計算所述語音特徵與預置的發音模板之間的發音相似度；子步驟S53，當所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；子步驟S54，計算所述語音候選資料的出現概率；子步驟S55，當所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；子步驟S56，當所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

步驟204，至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料。

在本發明的一種較佳實施例中，步驟204可以包括如下子步驟：

子步驟S61，對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

在本發明的一種較佳實施例中，還可以包括如下步驟：

步驟205，執行所述目標識別資料對應的操作。

在本發明實施例中，由於與前一個方法實施例的應用基本相似，所以描述的比較簡單，相關之處參見前一個方法實施例的部分說明即可，本發明實施例在此不加以詳述。

以下通過幾種應用場景的示例對本發明實施例作進一步說明：

應用場景一：應用於個人電腦中；

在電腦中安裝麥克風和攝像頭，用於採集用戶發出的語音信號和輸入該語音信號嘴型特徵圖信號像，該攝像設備可以連接至電腦中，電腦的用戶可以定期(例如每個月)或不定期(其他用戶借用電腦)等情況下更新開機命令。

假設當前開機命令為語音“芝麻開門”和手勢“V”，當用戶輸入的語音信號被識別為“芝麻開門”，用戶的嘴型變化被識別為“芝麻開門”，用戶的手勢變化被識別位手勢“V”時，與當前開機命令匹配，則可以開啟電腦。

本示例在保證安全性的前提下，提高了語音識別的準確率，使得減少了更換和輸入開機命令的成本，提高了用戶操作的簡便性。

應用場景二：應用于智慧型家居中；

在行動裝置中安裝話筒和攝像頭，用於採集用戶發出的語音信號和輸入該語音信號嘴型特徵圖信號像。

夏天，用戶在回家的路上想行動裝置輸入語音信號，當用戶輸入的語音信號被識別為“開空調26度”，用戶的嘴型變化被識別為“開空調26度”時，行動裝置匹配到“製冷26℃”的指令，則向用戶家中的空調發送“製冷26℃”的指令，當用戶回到家時，家裏已經是比較舒適的溫度了。

本示例在提高了語音識別的準確性，為智慧型家居聲控提供了可能，提高了用戶操作的簡便性。

需要說明的是，對於方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領域技術人員應該知悉，本發明實施例並不受所描述的動作順序的限制，因為依據本發明實施例，某些步驟可以採用其他順序或者同時進行。其次，本領域技術人員也應該知悉，說明書中所描述的實施例均屬於較佳實施例，所涉及的動作並不一定是本發明實施例所必須的。

參照圖3，示出了本發明一種語音輸入裝置實施例的結構框圖，所述語音輸入裝置300具體可以包括如下模組：接收模組301，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組302，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組303，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組304，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；發送模組305，用於將所述目標識別資料發送至所述客戶端。

在本發明的一種較佳實施例中，所述用戶特徵圖像信號可以包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。

在本發明的一種較佳實施例中，所述第一識別模組302可以包括如下子模組：嘴型相似度計算子模組，用於計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；第一提取模組，用於提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

在本發明的一種較佳實施例中，每一幀嘴型參考圖信號可以對應有一組嘴型參考向量，所述第一嘴型相似度計算子模組可以包括如下子模組：特徵提取子模組，用於對從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；向量建立子模組，用於對每一組嘴型特徵資訊建立一組嘴型特徵向量；第一計算子模組，用於分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；第二計算子模組，用於計算所述向量相似度之和，獲得嘴型相似度。

在本發明實施例的一種較佳示例中，每一組嘴型特徵向量中可以包括如下至少一種向量：特徵嘴型大小向量、特徵嘴型比例向量、特徵牙齒能見向量、特徵牙齒比例向量、特徵舌頭能見向量、特徵舌頭比例向量；其中，所述特徵嘴型大小為標識所述嘴型特徵圖信號中嘴型區域面積大小的向量；所述特徵嘴型比例向量為標識所述嘴型特徵圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述特徵牙齒能見向量為標識所述嘴型特徵圖信號中是否識別出牙齒區域的向量；所述特徵牙齒比例向量為標識所述嘴型特徵圖信號中牙齒區域與嘴型區域之間的比例的向量；所述特徵舌頭能見向量為標識所述嘴型特徵圖信號中是否識別出舌頭區域的向量；所述特徵舌頭比例向量為標識所述嘴型特徵圖信號中舌頭區域與嘴型區域之間的比例的向量；在本發明實施例的一種較佳示例中，每一組嘴型參考向量中可以包括如下至少一種向量：參考嘴型大小向量、參考嘴型比例向量、參考牙齒能見向量、參考牙齒比例向量、參考舌頭能見向量、參考舌頭比例向量；其中，所述參考嘴型大小為標識所述嘴型參考圖信號中嘴型區域面積大小的向量；所述參考牙齒能見向量為標識所述嘴型參考圖信號中是否識別出牙齒區域的向量；所述參考嘴型比例向量為標識所述嘴型參考圖信號中嘴型區域面積，與預置的標準嘴型區域面積之間的比例的向量；所述參考牙齒比例向量為標識所述嘴型參考圖信號中牙齒區域與嘴型區域之間的比例的向量；所述參考舌頭能見向量為標識所述嘴型參考圖信號中是否識別出舌頭區域的向量；所述參考舌頭比例向量為標識所述嘴型參考圖信號中舌頭區域與嘴型區域之間的比例的向量。

在本發明實施例的一種較佳示例中，所述第一計算子模組可以包括如下子模組：設置子模組，用於分別將所述特徵嘴型大小向量與所述特徵嘴型比例向量的比值設置為標準嘴型大小向量；向量計算子模組，用於至少根據所述標準嘴型大小向量、所述特徵牙齒能見向量、所述特徵牙齒比例向量、所述特徵舌頭能見向量、所述特徵舌頭比例向量，與所述參考嘴型大小向量、所述參考牙齒能見向量、所述參考牙齒比例向量、所述參考舌頭能見向量、所述參考舌頭比例向量中的一種或者多種，計算特徵向量相似度。

在本發明的一種較佳實施例中，所述第二識別模組303可以包括如下子模組：第一提取子模組，用於從所述語音信號提取語音特徵；第三計算子模組，用於計算所述語音特徵與預置的發音模板之間的發音相似度；第二提取子模組，用於在所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；第四計算子模組，用於計算所述語音候選資料的出現概率；第五計算子模組，用於在所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；第三提取子模組，用於在所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

在本發明的一種較佳實施例中，所述確定模組304可以包括如下子模組：交集處理子模組，用於對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

參照圖4，示出了本發明另一種語音輸入裝置實施例的結構框圖，所述語音輸入裝置400具體可以包括如下模組：特徵資訊採集模組401，用於採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組402，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組403，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組404，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料。

在本發明的一種較佳實施例中，還可以包括如下模組：執行模組，用於執行所述目標識別資料對應的操作。

在本發明的一種較佳實施例中，所述第一識別模組402可以包括如下子模組：嘴型相似度計算子模組，用於計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；第一提取模組，用於提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

在本發明的一種較佳實施例中，所述第二識別模組403可以包括如下子模組：第一提取子模組，用於從所述語音信號提取語音特徵；第三計算子模組，用於計算所述語音特徵與預置的發音模板之間的發音相似度；第二提取子模組，用於在所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；第四計算子模組，用於計算所述語音候選資料的出現概率；第五計算子模組，用於在所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；第三提取子模組，用於在所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

在本發明的一種較佳實施例中，所述確定模組404可以包括如下子模組：交集處理子模組，用於對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

參照圖5，示出了本發明一種語音輸入系統實施例的結構框圖，所述語音輸入系統500可以包括伺服器510和客戶端520；其中，所述伺服器510可以包括如下模組：第一接收模組511，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組512，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組513，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組514，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；第一發送模組515，用於將所述目標識別資料發送至所述客戶端。

所述客戶端520可以包括如下模組：特徵資訊採集模組521，用於採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第二發送模組522，用於將所述特徵資訊發送至所述伺服器；第二接收模組523，用於接收所述伺服器發送的目標識別資料。

在本發明的一種較佳實施例中，所述客戶端520還可以包括如下模組：執行模組，用於執行所述目標識別資料對應的操作。

在本發明的一種較佳實施例中，所述第一識別模組512可以包括如下子模組：嘴型相似度計算子模組，用於計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；第一提取模組，用於提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。

在本發明的一種較佳實施例中，所述第二識別模組513可以包括如下子模組：第一提取子模組，用於從所述語音信號提取語音特徵；第三計算子模組，用於計算所述語音特徵與預置的發音模板之間的發音相似度；第二提取子模組，用於在所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；第四計算子模組，用於計算所述語音候選資料的出現概率；第五計算子模組，用於在所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；第三提取子模組，用於在所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。

在本發明的一種較佳實施例中，所述確定模組514可以包括如下子模組：交集處理子模組，用於對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。

對於裝置實施例而言，由於其與方法實施例基本相似，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

本說明書中的各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似的部分互相參見即可。

本領域內的技術人員應明白，本發明實施例的實施例可提供為方法、裝置、或電腦程式產品。因此，本發明實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且，本發明實施例可採用在一個或多個其中包含有電腦可用程式代碼的電腦可用儲存介質(包括但不限於磁片儲存器、CD-ROM、光學儲存器等)上實施的電腦程式產品的形式。

在一個典型的配置中，所述電腦設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和內存。內存可能包括電腦可讀介質中的非永久性儲存器，隨機存取儲存器(RAM)和/或非易失性內存等形式，如唯讀儲存器(ROM)或閃存(flash RAM)。內存是電腦可讀介質的示例。電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀操作指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可編程唯讀記憶體(EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性儲存設備或任何其他非傳輸介質，可用於儲存可以被計算設備訪問的資訊。按照本文中的界定，電腦電腦可讀介質不包括非持續性的電腦可讀媒體(transitory media)，如調變的資料信號和載波。

本發明實施例是參照根據本發明實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式操作指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式操作指令到通用電腦、專用電腦、嵌入式處理機或其他可編程資料處理終端設備的處理器以產生一個機器，使得通過電腦或其他可編程資料處理終端設備的處理器執行的操作指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式操作指令也可儲存在能引導電腦或其他可編程資料處理終端設備以特定方式工作的電腦可讀儲存器中，使得儲存在該電腦可讀記憶體中的操作指令產生包括操作指令裝置的製造品，該操作指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式操作指令也可裝載到電腦或其他可編程資料處理終端設備上，使得在電腦或其他可編程終端設備上執行一系列操作步驟以產生電腦實現的處理，從而在電腦或其他可編程終端設備上執行的操作指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

儘管已描述了本發明實施例的較佳實施例，但本領域內的技術人員一旦得知了基本創造性概念，則可對這些實施例做出另外的變更和修改。所以，所附申請專利範圍意欲解釋為包括較佳實施例以及落入本發明實施例範圍的所有變更和修改。

最後，還需要說明的是，在本文中，諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。

以上對本發明所提供的一種語音輸入方法、一種語音輸入裝置和一種語音輸入系統，進行了詳細介紹，本文中應用了具體個例對本發明的原理及實施方式進行了闡述，以上實施例的說明只是用於幫助理解本發明的方法及其核心思想；同時，對於本領域的一般技術人員，依據本發明的思想，在具體實施方式及應用範圍上均會有改變之處，綜上所述，本說明書內容不應理解為對本發明的限制。

Claims

一種語音輸入方法，包括：接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；識別出與所述語音信號匹配的第二候選識別資料；至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；以及將所述目標識別資料發送至所述客戶端。
根據申請專利範圍第1項所述的方法，其中，所述用戶特徵圖像信號包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。
根據申請專利範圍第2項所述的方法，其中，所述第一候選識別資料對應有一幀或多幀嘴型參考圖信號，所述識別出與所述用戶特徵圖像信號匹配的第一候選識別資料的步驟包括：計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；以及提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。
根據申請專利範圍第3項所述的方法，其中，每一幀嘴型參考圖信號對應有一組嘴型參考向量，所述計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度的步驟包括：從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；對每一組嘴型特徵資訊建立一組嘴型特徵向量；分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；以及計算所述向量相似度之和，獲得嘴型相似度。
根據申請專利範圍第1項所述的方法，其中，所述識別出與所述語音信號匹配的第二候選識別資料的步驟包括：從所述語音信號提取語音特徵；計算所述語音特徵與預置的發音模板之間的發音相似度；當所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；計算所述語音候選資料的出現概率；當所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；以及當所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。
根據申請專利範圍第1項所述的方法，其中，所述至少根據所述第一候選識別資料和第二候選識別資料確定目標識別資料的步驟包括：對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。
一種語音輸入裝置，包括：接收模組，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；發送模組，用於將所述目標識別資料發送至所述客戶端。
根據申請專利範圍第7項所述的裝置，其中，所述用戶特徵圖像信號包括在輸入所述語音信號時記錄的一幀或多幀嘴型特徵圖信號。
根據申請專利範圍第8項所述的裝置，其中，所述第一識別模組包括：嘴型相似度計算子模組，用於計算所述一幀或多幀嘴型特徵圖信號和所述一幀或多幀嘴型參考圖信號之間的嘴型相似度；第一提取模組，用於提取與最高值的嘴型相似度對應的第一候選識別資料，作為與所述用戶特徵圖像信號匹配的第一候選識別資料。
根據申請專利範圍第9項所述的裝置，其中，每一幀嘴型參考圖信號對應有一組嘴型參考向量，所述第一嘴型相似度計算子模組包括：特徵提取子模組，用於對從每一幀嘴型特徵圖信號中提取一組嘴型特徵資訊；向量建立子模組，用於對每一組嘴型特徵資訊建立一組嘴型特徵向量；第一計算子模組，用於分別計算所述嘴型特徵向量與對應的所述嘴型參考向量之間的向量相似度；第二計算子模組，用於計算所述向量相似度之和，獲得嘴型相似度。
根據申請專利範圍第7項所述的裝置，其中，所述第二識別模組包括：第一提取子模組，用於從所述語音信號提取語音特徵；第三計算子模組，用於計算所述語音特徵與預置的發音模板之間的發音相似度；第二提取子模組，用於在所述發音相似度大於預設的相似度閾值時，提取所述發音相似度所屬的發音模板對應的語音候選資料；第四計算子模組，用於計算所述語音候選資料的出現概率；第五計算子模組，用於在所述出現概率大於預設的第一概率閾值時，計算所述語音候選資料之間的連接概率；第三提取子模組，用於在所述連接概率大於預設的第二概率閾值時，提取所述語音候選資料組成第二候選識別資料。
根據申請專利範圍第7項所述的裝置，其中，所述確定模組包括：交集處理子模組，用於對所述第一候選識別資料和所述第二候選識別資料進行交集處理，獲得目標識別資料。
一種語音輸入系統，所述系統包括伺服器和客戶端；其中，所述伺服器包括：第一接收模組，用於接收客戶端發送的特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第一識別模組，用於識別出與所述用戶特徵圖像信號匹配的第一候選識別資料；第二識別模組，用於識別出與所述語音信號匹配的第二候選識別資料；確定模組，用於至少根據所述第一候選識別資料和第二候識別選資料確定目標識別資料；第一發送模組，用於將所述目標識別資料發送至所述客戶端。所述客戶端包括：特徵資訊採集模組，用於採集特徵資訊；所述特徵資訊包括語音信號和用戶特徵圖像信號；第二發送模組，用於將所述特徵資訊發送至所述伺服器；第二接收模組，用於接收所述伺服器發送的目標識別資料。
根據申請專利範圍第13項所述的系統，其中，所述客戶端還包括：執行模組，用於執行所述目標識別資料對應的操作。