TWI720062B

TWI720062B - 語音輸入方法、裝置和終端設備

Info

Publication number: TWI720062B
Application number: TW105137764A
Authority: TW
Inventors: 李利平; 王蘇杭; 嚴從現; 楊磊; 劉敏; 趙虹; 姚佳
Original assignee: 大陸商北京搜狗科技發展有限公司
Priority date: 2015-12-31
Filing date: 2016-11-18
Publication date: 2021-03-01
Also published as: TW201725580A; US20180366119A1; CN106933561A; US10923118B2; WO2017114020A1

Abstract

本發明提出一種語音輸入方法、裝置和終端設備，其透過在一語音輸入模式下接收使用者輸入的第一語音，並對其進行識別生成第一識別結果，根據第一識別結果向使用者展現相應的文字內容，在一編輯模式下，接收使用者輸入的第二語音，並對其進行識別生成第二識別結果，將第二識別結果轉換為編輯指令，根據編輯指令執行相應操作；本發明將語音輸入劃分為語音輸入模式和編輯模式，並透過語音輸入模式和編輯模式相互之間的切換，在實現文字內容之語音輸入的同時，還能根據使用者的語音輸入實現相應的編輯操作，進而提高語音輸入的效率和趣味性，提升用戶體驗。

Description

語音輸入方法、裝置和終端設備

本發明係關於一種人機互動技術領域，尤指一種語音輸入方法、裝置和終端設備。

語音辨識技術是一種透過機器正確識別人類的語音，並將人類語音中的詞彙內容轉換為相應的電腦可讀可輸入的文本或命令的高科技技術。隨著科技的不斷進步，語音辨識技術涉及領域也越來越廣泛。

隨著語音輸入等方式日益得到普遍應用，當前逐步出現了可透過語音辨識技術將使用者輸入的語音資訊轉換為對應的文字資訊來進行呈現的方式，然而，該種輸出形式較為單一，缺乏趣味性，並且由於語音辨識的模型並不完善，識別的結果可能會產生錯誤，進而導致語音辨識率比較低，用戶體驗差。

有鑑於上述現有技術的不足，本發明的主要目的在提供一種克服上述現有技術問題或者至少部分地解決上述現有技術問題的語音輸入方法、裝置和終端設備。

為達成上述目的所採取的主要技術手段係令前述語音輸入方法，該方法包括：在一語音輸入模式下，接收使用者輸入的一第一語音並識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容；在一編輯模式下，接收使用者輸入的一第二語音並識別生成一第二識別結果；將該第二識別結果轉換為一編輯指令，根據該編輯指令執行相應操作；以及該語音輸入模式和該編輯模式相互之間能相互切換。

為達成上述目的所採取的又一主要技術手段係令前述終端設備包括：一語音輸入單元，用於在一語音輸入模式下，接收使用者輸入的一第一語音，在一編輯模式下接收使用者輸入的一第二語音；一語音辨識單元，用於分別對該第一語音、該第二語音進行識別，分別生成一第一識別結果、一第二識別結果；一顯示單元，用於根據該第一識別結果向使用者展現相應的文字內容；一編輯操作處理單元，用於在該編輯模式下將該第二識別結果轉換為一編輯指令，並根據該編輯指令執行相應操作；該語音輸入模式和該編輯模式之間能相互切換。

為達成上述目的所採取的另一主要技術手段係令前述用於語音輸入的裝置，其包括：一記憶體，以及一個或者一個以上的程式，其中一個或者一個以上程式儲存於該記憶體中，且經配置以由一個或者一個以上處理器執行所述一個或者一個以上套裝程式含用於進行以下操作的指令：在一語音輸入模式下，接收使用者輸入的一第一語音並識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容；在一編輯模式下，接收使用者輸入的一第二語音並識別生成一第二識別結果；將該第二識別結果轉換為一編輯指令，根據該編輯指令執行相應操作；該語音輸入模式和該編輯模式之間能相互切換。

與現有技術相比，本發明提供的語音輸入方法、裝置和終端設備，在語音輸入過程中，具有該語音輸入模式和該編輯模式兩種不同的模式，兩種模式之間可進行切換，在這兩種不同的模式下進行不同的資料處理過程，能夠分別進行原始輸入和原始輸入基礎上的進一步的處理(包括操作動作、糾錯、添加內容元素等等)，從而提高了語音輸入的準確性以及語音輸入內容的豐富化，而且提高了語音處理的速度，在很大程度上提升了用戶體驗。

本發明的附加方面和優點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或透過本發明的實踐瞭解到。

101:語音輸入單元

102:語音辨識單元

103:顯示單元

104:編輯操作處理單元

1041:匹配模組

1042:確定模組

1043:執行模組

800:裝置

802:處理組件

804,1932:記憶體

806:電源元件

808:多媒體元件

810:音頻組件

812:輸入/輸出介面

814:感測器組件

816:通信組件

820:處理器

1900:伺服器

1922:中央處理器

1926:電源

1930:儲存介質

1941:作業系統

1942:應用程式

1944:數據

1950:有線或無線網路介面

1956:鍵盤

1958:輸入輸出介面

圖1 係本發明一較佳實施例之語音輸入方法的流程圖。

圖2 係本發明一較佳實施例之語音輸入模式的示意圖。

圖3 係本發明另一較佳實施例之語音輸入方法的流程圖。

圖4 係本發明一較佳實施例之終端設備的方塊圖。

圖5 係本發明另一較佳實施例之終端設備的方塊圖。

圖6 係本發明一較佳實施例之用於語音輸入的裝置的方塊圖。

圖7 係本發明一較佳實施例之伺服器設備的方塊圖。

下面結合附圖和實施例，對本發明的具體實施方式作進一步詳細描述。以下實施例用於說明本發明，但不用來限制本發明的範圍。

本技術領域技術人員可以理解，除非特意聲明，這裡使用的單數形式“一”、“一個”、“所述”和“該”也可包括複數形式。應該進一步理解的是，本發明的說明書中使用的措辭“包括”是指存在所述特徵、整數、步驟、操作、元件和/或元件，但是並不排除存在或添加一個或多個其他特徵、整數、步驟、操作、元件、元件和/或它們的組。

本技術領域技術人員可以理解，除非另外定義，這裡使用的所有術語(包括技術術語和科學術語)，具有與本發明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是，諸如通用字典中定義的那些術語，應該被理解為具有與現有技術的上下文中的意義一致的意義，並且除非被特定定義，否則不會用理想化或過於正式的含義來解釋。

以下將結合附圖對本發明實施例的語音輸入方法和終端設備進行詳細說明。

為了實現語音的輸入準確性以及內容豐富性，本發明提出一種語音輸入方法，如圖1所示，其中該方法包括：在一語音輸入模式下，接收使用者輸入的一第一語音並對其進行識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容(S11)；在一編輯模式下，接收使用者輸入的一第二語音並對其進行識別生成一第二識別結果(S12)；將該第二識別結果轉換為一編輯指令，根據該編輯指令執行相應操作(S13)；該語音輸入模式和該編輯模式相互之間可切換。

本實施方式的方法的執行主體為一終端設備，該終端設備可以是手機、平板電腦、掌上型電腦PDA或筆記本等設備，當然，也可為其他任何需要進行輸入的電子設備，本發明對此不加以限制。本發明透過區分在該語音輸入模式和該編輯模式兩種模式不同的資料處理過程，實現了原始輸入和原始輸入基礎上進一步操作處理。一方面，可以省略使用者手動選擇需要編輯的內容步驟，實現完全編輯操作，另一方面，可以提高語音輸入在編輯操作上的便捷性、準確性和輸入內容的豐富性等。

在所述步驟S11中，在該語音輸入模式下，可透過麥克風或其他語音採集器件接收使用者輸入的第一語音，並對該第一語音進行識別以生成該第一識別結果，然後將識別結果以文字的方式展示給使用者。具體來說，語音辨識是一個模型匹配的過程，在這個過程中，首先根據人的語音特點建立一語音模型，透過對輸入的語音信號的分析，抽取所需的特徵，來建立語音辨識所需的範本；對該第一語音進行識別的過程即是將輸入的第一語音信號的特徵與所述範本比較的過程，最後確定與該第一語音匹配的最佳範本，從而獲得語音辨識的結果。具體的語音辨識演算法，可採用基於統計的隱含瑪律可夫模型識別和訓練演算法，也可採用基於神經網路的訓練和識別演算法、基於動態時間歸整匹配的識別演算法等等其他演算法，本發明在此不做任何限定。在步驟S11，透過對使用者輸入的第一語音進行識別，生成並展現對應的文字內容。

在展現所述文字內容後，如果使用者需要進行刪除、換行、回車、清空、發送、撤銷等等此類的命令操作或者需要對所述展現的文字內容進行糾錯、或者需要在文字內容中添加其他的內容元素(包括圖片、圖像、視頻、音訊、動畫等等)或者對所述文字內容添加檔(包括各種格式的檔，也可將所述檔視為內容元素)等等，所述圖片可以包括靜止圖片。

本發明實施例所述方法可透過使用者手動操作的方式由該語音輸入模式切換至該編輯模式，或者由該編輯模式切換至該語音輸入模式。

在步驟S12中，在該編輯模式下，接收使用者輸入的該第二語音並對其進行識別生成該第二識別結果。在具體實施方式中，當使用者切換到該編輯模式後，可透過麥克風或其他語音採集器件接收使用者輸入的第二語音，然後對該第二語音進行識別以生成該第二識別結果，具體的語音辨識手段可以與步驟S11相同，在此不再贅述。該語音輸入模式和該編輯模式兩種模式最大的不同是：在該語音輸入模式下，直接根據第一識別結果進行相應文字內容的顯示，而在該編輯模式下，透過步驟S13，將該第二識別結果轉換為該編輯指令，並根據該編輯指令執行相應操作。將該第二識別結果轉換為該編輯指令，具體可包括：對該第二識別結果進行語義分析，將該語義分析結果與預先儲存的一操作資訊模型進行匹配，根據該匹配結果確定編輯指令的類型。

在一種具體實施方式中，該操作資訊模型可分為三種：一命令型操作資訊模型、一糾錯類操作資訊模型以及一添加內容元素類操作資訊模型，每種操作資訊模型包括至少一個操作資訊模型。

舉例來說，該命令型操作資訊模型可包括：一刪除操作資訊模型(適用於刪除游標前後一個文字、符號、字母、內容元素等，比如所展示的文字內容“我們要去上學去”，游標顯示在“學去”後，用戶想刪除“去”字，便可以輸入語音“刪除前一個文字”，將該識別結果“刪除前一個文字”與刪除操作資訊模型進行匹配，匹配成功便執行刪除操作)、一換行操作資訊模型、一回車操作資訊模型、一清空操作資訊模型、一發送操作資訊模型、一撤銷操作資訊模型等。

該糾錯類操作資訊模型包括：一替換字詞的替換操作資訊模型、一增加字詞的補入操作資訊模型、一將字詞移動位置的移位元操作資訊模型、一刪除字詞的字詞去除操作資訊模型(適用於去除所展示的文字內容中的部分字詞，比如所展示的文字內容為“今天我們去燒烤？”，用戶想去除“今天”，便可輸入語音“刪除今天”，將語音辨識結果“刪除今天”與去除操作資訊模型進行匹配，匹配成功後，確定操作為“去除”，還要確定去除的內容為“今天”，最後，執行去除“今天”的操作。所述去除操作資訊模型與刪除操作資訊模型最大的區別在於，去除操作資訊模型需要考慮內容匹配因素，即要判斷出需要刪除那部分內容。)等。

該添加內容元素類操作模型可包括：一添加終端設備或一伺服器側內容等情形，具體可以添加文本、應用、顏文字、圖片、動畫、視頻、音訊等檔中的至少一項內容。

該添加內容元素類操作模型具體可包括：一添加當前分頁檔(包括網頁、應用程式、文本、顏文字、圖片、動畫、視頻、音訊等檔中的至少一項內容)的第一添加元素操作資訊模型(可利用進程資料獲取內容元素或當前分頁檔截圖)、一添加一定儲存位置的檔(包括文本、應用、顏文字、圖片、動畫、視頻、音訊等檔中的至少一項內容)的第二添加元素操作資訊模型、一添加一定時間拍攝或獲取的文本、應用、顏文字、圖片、動畫、視頻、音訊等檔中的至少一項內容的第三添加元素操作資訊模型、添加應用程式的元素庫(也稱媒體庫)中的圖片、顏文字、文本、動畫、音訊、視頻中的至少一項內容等的第四添加元素操作資訊模型。值得說明的是，上述例舉的具體的操作資訊模型和操作資訊模型種類只是為了說明操作資訊模型的含義，操作資訊模型並不局限於上述列舉的情況。

上述內容了提到了利用應用進程、儲存位置、拍攝時間、元素屬性等資訊來獲取內容元素，本發明並不局限於上述方式，採用任何方式獲取的內容元素均可被添加到輸入框中，可以直接向用戶展現，或直接發送給對側用戶。所述內容元素包括文本、應用、顏文字、圖片、動畫、視頻、音訊等檔中的至少一項內容。

在進行該第二識別結果與操作資訊模型的匹配後，得到匹配結果，如果根據該匹配結果確定該編輯指令的類型為一命令，則直接執行該命令；如果根據該匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作；如果根據該匹配結果確定編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素。本發明透過提出針對不同的編輯指令類型進行不同的操作提高了語音輸入所涵蓋的範圍，即不僅透過語音輸入上屏文字內容，還可透過語音輸入命令性操作指令、糾錯指令以及豐富的內容元素添加指令。本發明透過將命令型編輯指令、糾錯類編輯指令、添加內容元素類編輯指令的語音辨識結果分別匹配不同的操作資訊模型，提高了語音輸入在糾錯上的準確性，可以不需要使用者選擇待糾錯的內容，只要由語音輸入模式切換至編輯模式，便可根據輸入的第二語音直接對該展現的文字內容進行糾錯；而且開創性的提出了語音輸入可用於輸入命令、添加內容元素，極大地豐富了語音輸入的內容，改變了目前透過語音輸入只獲得上屏文字內容的局限性，總之，在很大程度上提升了用戶使用體驗。

本發明也不局限於利用操作資訊模型來確定執行何種命令性操作、如何糾錯以及添加什麼內容元素，只要是能夠對語音辨識結果進行資料處理、分析、判斷並能確定執行對應的何種操作均屬於本發明的思想範圍內。

在該語音輸入模式和該編輯模式之間進行切換的手段可為觸發顯示介面中的一按鈕，包括點擊該按鈕以及長按該按鈕。於本較佳實施例中，如圖2所示，在該語音輸入模式下，顯示介面的下方顯示“按住編輯”按鈕，在使用者想要切入到該編輯模式時，按住該按鈕，即可進行該第二語音輸入。在使用者鬆開該按鈕時，自動由該編輯模式切回該語音輸入模式。當然該按鈕的標識並不局限於“按住編輯”，也可包括圖形元素，其它文字元素或者圖形元素與文字元素的組合。另一種應用方式，也可採用點擊按鈕的方式進行兩種模式的切換，比如在該語音輸入模式下，顯示介面下方顯示“切換至該編輯模式”按鈕，在該編輯模式下，顯示介面下方顯示“切換至該語音輸入模式”。在該語音輸入模式和該編輯模式之間進行切換的手段還可是手勢觸發等其他觸發手段，對於兩種模式之間的切換手段，研發人員可根據實際應用進行靈活設計，本發明實施例不作具體限定。

於本發明另一較佳實施例中的語音輸入方法，參照圖3，該方法包括以下步驟：在一語音輸入模式下，接收使用者輸入的一第一語音並對其進行識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容(S21)；在一編輯模式下，接收使用者輸入的一第二語音並對其進行識別生成一第二識別結果(S22)；將該第二識別結果與一預先儲存的操作資訊模型進行匹配，根據該匹配結果確定一編輯指令的類型(S23)；該編輯指令的類型為一命令，則直接執行該命令(S24)；該編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作(S25)。

該編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素(S26)。

所述步驟S23中，將該第二識別結果與前面所例舉的操作資訊模型(不局限於上述例舉的操作資訊模型)進行匹配，根據匹配到的操作資訊模型便可確定對應的操作編輯指令的類型，具體到步驟S24，每個操作資訊模型與一條命令具有映射關係，在第二識別結果匹配到操作資訊模型後，便可根據所述每個操作資訊模型與命令之間的映射關係，確定對應的命令，並直接執行，該命令包括刪除、換行、回車、清空、發送、撤銷中的至少一個。所述刪除具體為刪除當前游標的前一個字元或者其他內容元素，所述換行具體為在當前游標處換到下一行，所述回車具體為確定上屏內容，所述清空具體為清空當前上屏的文字內容和其他內容元素，發送具體為將上屏的內容發送出去，所述撤銷具體為撤銷之前的一個操作。由語音輸入模式切換至編輯模式後，提供編輯指令和/或輸入內容提示資訊，具體可如圖2所示，提示使用者在編輯模式時，可以語音輸入哪些指令或輸入內容等。

在步驟S25中，如果根據該匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作。由於糾錯牽涉到具體的待糾正內容和糾正後內容，優選的實施方式是對該第二識別結果進行語義分析，根據語義分析結果確定對應的糾錯操作類型以及待糾正內容或糾正後內容。

作為一種具體應用場景，使用者在語音輸入模式下輸入語音“li xiang”，第一識別結果為“理想”，但用戶其實想要輸出的是“李響”。使用者觸發如圖2中所示的切換按鈕，由語音輸入模式切換至編輯模式，在編輯模式下，使用者說出“木子李的李，響聲的響”，終端設備對識別結果“木子李的李，響聲的響”進行語義分析，分析結果“木子李的李”為“李”字的結構資訊，“響聲的響”為“響”字的語義資訊，從而確定“李”、“響”兩字為糾正後的字，再根據音相同或者相似的預存語音模型確定待糾正的相應文字為“理”、“想”，從而確定糾錯操作類型為“替換”，利用“李”、“響”替換“理”、“想”，完成糾錯過程。對於具體內容，結構資訊和語義資訊是主要的表達方式，在該場景，用戶輸入的就是有關糾正後內容的結構資訊和語義資訊的語音。針對與該語音對應的第二識別結果進行語義分析，能夠先確定糾正後的內容，之後根據該糾正後的內容對該展現的文本內容進行糾錯。由於語音輸入的基礎是語音辨識，因此糾正前的內容和糾正後的內容最主要的關係就是音相同或者相近。在替換這種糾錯操作類型中，經常利用音相同或者相近由糾正前的內容匹配到糾正後的內容，或者由糾正後的內容匹配到糾正前的內容。

作為另一種具體場景，使用者輸入第一語音，展現的文字內容為“天涼了，晚上睡覺冷，想買杯子，需要保暖”，實際上使用者想要的是“天涼了，晚上睡覺冷，想買被子，需要保暖”。使用者觸發編輯模式，輸入第二語音“被子”，終端設備將該第二語音辨識為“杯子”，並與所述展現的文字內容進行語音匹配，確定待糾正的內容為“杯子”，便對所述展現的文字進行上下文分析，終端設備根據“晚上睡覺”和“保暖”認為“杯子”應該是“被子”，便確定操作類型為替換，將“杯子”替換為“被子”。在該種場景中，根據使用者輸入的第二語音，能夠確定出待糾錯的部分，根據待糾錯部分的上下文確定糾錯後的內容，對待糾錯的部分進行替換。本場景下的實施方式所提出的語音輸入方法，透過對用戶的第二識別結果進行匹配，確定展現的文字內容中待糾錯的部分，並對確定的待糾錯的部分進行自動糾錯，能夠快速的對語音輸入錯誤進行查找和更正，從而快速完成糾錯過程，進一步提高了語音輸入的準確性，提升用戶體驗。

作為第三種具體場景，使用者還可輸入第二語音“刪除某某內容”，“某某內容多餘”，終端設備根據對應該第二語音的識別結果確定糾錯操作類型為刪除，根據“某某內容”確定待糾錯的內容，對其執行刪除操作；作為第四種具體場景，使用者輸入第二語音“在某個字詞前面或者後面增加某某內容”，根據位置資訊“在某個字詞前面或者後面”“增加”確定糾錯操作類型為“增加內容”，根據“某某內容”確定需要增加的內容，即糾錯後的內容，然後執行糾錯操作。透過上述例舉的兩種場景可以看出，根據第二識別結果還可直接確定糾錯操作類型以及糾錯前或後的內容，然後進行準確的糾錯。

透過上述具體的幾種場景說明，不難發現，本發明透過挖掘糾錯的類型(包括預先建立糾錯操作資訊模型)以及語義分析結果，能夠對進行所述展示的文字內容或者其他內容元素進行準確的糾錯。

在糾錯過程中，在確定糾正後的內容時，很有可能會有幾種候選項，在這種情況下，可將這幾種候選項均顯示給使用者，使用者可輸入有關候選項位置資訊的第三語音，比如“第一項”、“第二項”，也可透過點擊的方式選擇其中一個候選，能夠保證糾錯的準確性和快捷性。

在步驟S13將該第二識別結果轉換為編輯指令，根據該編輯指令執行相應操作中，具體還可包括將該第二識別結果與添加內容元素類操作模型進行匹配，從而確定操作類型是否為添加內容元素。

可依據多種資訊添加內容元素，比如依據進程資料添加當前視窗的檔或者頁面(包括網頁檔)，依據儲存位置資訊添加預定儲存位置的檔、依據時間資訊添加一定時間拍攝或獲取的照片、視頻和錄製的音訊、依據屬性資訊或者標識資訊添加應用軟體的媒體庫中的圖形、圖片、動畫等，對應於不同的資訊，可利用不同的資訊識別和匹配方式，前面提到的操作資訊模型是一種方式。當然不僅僅限於利用匹配操作資訊模型的技術手段，只要是根據識別結果確定相對應的操作的方式均包含本發明在所要保護的範圍內。

作為一種具體實施方式，將應用軟體的媒體庫中的圖片添加在語音輸入框中。作為第五種應用場景，用戶A和用戶B在聊天，使用者A在編輯模式下輸入語音“汪仔”，終端設備則將對應語音“汪仔”的第二識別結果與媒體庫中的顏文字、應用、圖片、文本、動畫、音訊和/或視頻的標識資訊(或者說屬性資訊)進行匹配，將匹配成功的標識資訊(或者屬性資訊)對應的顏文字、應用、圖片、文本、動畫、音訊、視頻中的至少一項內容資訊，例如識別出汪仔的動畫或者圖片等顯示在使用者的輸入框中或者直接發送該資訊。本發明實施方式透過將語音辨識結果與媒體庫中的內容元素的標識資訊(或者屬性資訊)進行匹配來獲取內容元素，為使用者提供了非常便捷的獲取媒體庫中的顏文字、圖片、文本、動畫、音訊、視頻中的至少一項內容資訊等內容元素的方式，而且大大豐富了語音輸入內容。所述顏文字為由文字、數位和/或符號組成的圖形，所述顏文字包括表情符號。所述音訊包括表情聲音、錄音、音樂中的至少一個。

在很多情況下，匹配成功的內容元素不止一個，在此，本發明提出一種根據使用者的歷史資訊進行內容元素的推送的實施方式。舉例來說，用戶A與用戶B在透過即時聊天應用程式聊天，A語音輸入“哈哈”，與該“哈哈”相匹配的內容元素可能是多個笑臉表情圖片、小丸子等多個大笑的表情動畫等多種內容元素，匹配到這些內容元素後，終端設備可以隨機推送某個內容元素，也可以推送本地用戶例如使用者A習慣使用的內容元素，例如小丸子的大笑圖片或者大笑的動畫等，當然也可以推送對側用戶例如使用者B習慣使用的內容元素，例如蠟筆小新的大笑圖片或者大笑的動畫等。

在該編輯模式下，基於使用者習慣或對側用戶習慣向使用者推薦顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。

基於使用者習慣的推薦，本地終端可調出本地使用者例如使用者A使用內容元素的歷史資訊或喜好等，根據歷史資訊確定該匹配的內容元素在歷史上的使用頻次，選擇歷史上使用頻次排序靠前(例如最高或最低)的該匹配的內容元素推送給使用者或者提示給用戶。

基於對側使用者習慣的推薦，本地終端可向伺服器申請對側使用者例如使用者B使用內容元素的歷史資訊或喜好等，根據歷史資訊確定該匹配的內容元素在歷史上的使用頻次，選擇歷史上使用頻次排序靠前(例如最高或最低)的該匹配的內容元素推送給使用者或者提示給用戶。

在該編輯模式下，基於使用者習慣或對側用戶習慣的推薦，還可以推薦當前的熱度較高的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。關於熱度的判斷可以考慮用戶或者對側用戶的相似用戶喜愛度、關注度等，或者網路絕大部分使用者的喜愛度、關注等因素確定。

作為另一種具體實施方式，將預定儲存位置的檔添加在語音輸入框或者發送清單中。作為第六種應用場景，用戶C和用戶D在聊天，使用者C希望將已經儲存的檔發送給對方，那麼只需要輸入第二語音“添加D盤上ljl資料夾中的檔案名稱包含“語音輸入”的檔”，終端設備將對應該第二語音的第二識別結果與第二添加元素操作資訊模型“添加”、“D盤”、“資料夾”、“檔案名稱”進行匹配，確定編輯指令為添加已經儲存的檔，再從該第二識別結果提取具體位址資訊和/或檔案名稱，獲取到所述要添加的檔，將所述要添加的文件以“D：\My Documents\ljl\語音輸入方法\FileRecv”的形式顯示在語音輸入框中，或者在輸入框外、人機交互介面的預定位置顯示。在具體實施時，也可直接說出檔案名稱、檔案名稱的關鍵字、檔案名稱+大致的儲存位置或者檔案名稱關鍵字+大致的儲存位置等能獲取到檔的資訊，終端設備根據識別結果在確定編輯指令為添加已經儲存的檔時，會自動根據該識別結果查詢所述檔並推送給用戶。

作為該種編輯指令類型的第三具體實施方式，使用者可添加一定時間拍攝或獲取的照片、視頻和錄製的音訊至用戶輸入框中或者發送列表中。作為第七種應用場景，使用者在編輯模式下輸入第二語音“添加今天拍攝的照片”、“添加剛剛拍攝的視頻”，終端設備則會將對應該第二語音的第二識別結果與第三添加元素操作資訊模型“今天”、“剛剛”、“拍攝”、“視頻”、“照片”進行匹配，確定為添加元素類型編輯指令，然後根據該第二識別結果獲取所述照片或者視頻，將獲取到的照片或者視頻的縮略圖顯示在輸入框中，或者將對應的檔位址資訊顯示在發送清單中。

作為該種編輯指令類型的第四種具體實施方式，使用者可添加當前活動的網頁或者應用程式介面至使用者輸入框中或者發送列表中。作為第八種應用場景，用戶修改一份word文檔，在修改文檔的過程中，需要與對方溝通修改的細節，一利用本發明提出的語音輸入方法的即時通訊應用視窗浮在word應用視窗上面，在需要將具體的word的當前頁面內容發送給對方時，用戶只需啟動所述即時通訊應用視窗並進入編輯模式，語音輸入“當前頁面”，便可將word的當前頁面添加至輸入框中(可直接顯示圖片)，如果使用者需要將當前word檔發送給對方，用戶只需啟動所述即時通訊應用視窗並進入編輯模式，語音輸入“當前檔”，便可將word檔添加到輸入框中(可顯示連結位址，也可添加至發送列表中)。透過上述提出的實施方式，極大地方便了使用者在語音輸入過程中靈活地根據進程資料添加頁面內容或者檔內容，相對於現有技術中利用複雜的截屏操作、甚至從根目錄開始流覽檔以查找目的檔案的方式便捷性大大提高。

作為第九種應用場景，用戶在流覽淘寶網頁，發現一款非常好的商品想推薦給朋友，或者一系列需要推薦的頁面內容想推薦給朋友，那麼使用者可對當前頁面進行截屏操作，然後在編輯模式下，輸入第二語音“發送截屏”，便可將最近一次截屏的內容添加到輸入框中或者使用者介面一側的發送清單中，或者輸入發送三張截屏，便可將最近三次截屏的內容添加到輸入框中或者使用者介面一側的發送清單中。當然，也可以直接發送當前網頁的連結給對方使用者。該種方式非常方便於使用者將當前視窗頁面發送給使用者，提高了溝通的暢通性。

透過上述四種具體實施方式，本發明採用添加內容元素的技術手段，透過輸入簡單的語音即可達到發送檔或者頁面圖像的目的。

本發明還提供一種終端設備，如圖4所示，該終端設備的結構包括：一語音輸入單元101、一語音辨識單元102、一顯示單元103以及一編輯操作處理單元104，其中：該語音輸入單元101，用於在該語音輸入模式下，接收使用者輸入的第一語音，在該編輯模式下接收使用者輸入的第二語音；該語音辨識單元102，用於分別對該第一語音、第二語音進行識別，分別生成第一識別結果、第二識別結果；該顯示單元103，用於根據第一識別結果向使用者展現相應的文字內容；該編輯操作處理單元104，用於在該編輯模式下將該第二識別結果轉換為該編輯指令，並根據該編輯指令執行相應操作；該語音輸入模式和該編輯模式相互之間可切換。

本發明實施例提供的終端設備，該語音輸入單元101、語音辨識單元102在語音輸入模式和編輯模式兩種模式下採集語音、識別語音，該顯示單元103直接根據在語音輸入模式生成的第一識別結果展示相應文字內容，而該編輯操作處理單元104根據在編輯模式下輸入的第二語音，進行對該文字內容的糾錯、命令式操作或者添加文字外其他內容元素。該終端設備將輸入的語音區分為兩種模式，使得第二識別結果在轉換為編輯指令時，需要的處理資源少，而且第二識別結果與編輯指令的匹配準確性高；在用戶體驗上，一方面，省略使用者選擇要編輯的內容部分，實現了完全的語音輸入，另一方面，提高了語音輸入在編輯上的便捷性和準確性。

進一步地，如圖5所示，該編輯操作處理單元104具體包括一匹配模組1041、一確定模組1042以及一執行模組1043，其中：該匹配模組1041，用於將該第二識別結果與預先儲存的操作資訊模型進行匹配；該確定模組1042，用於根據該匹配結果確定編輯指令的類型；該執行模組1043，用於根據該編輯指令的類型執行相應操作。根據本發明的優選實施例，該確定模組1042確定編輯指令的類型為命令時，該執行模組直接執行該命令；該確定模組確定編輯指令的類型為糾錯時，該執行模組根據該第二識別結果，對展現的文字內容進行糾錯操作；該確定模組確定編輯指令的類型為添加內容元素時，該執行模組根據該第二識別結果推送相應的內容元素。

本發明透過提出針對不同的編輯指令類型進行不同的操作提高了語音輸入所涵蓋的範圍，即不僅透過語音輸入上屏的文字內容，還可透過語音輸入命令性操作指令、糾錯指令以及豐富的內容元素添加指令。本發明透過將命令性操作指令和用於糾錯、添加其他內容元素的語音辨識結果分別匹配不同的操作資訊模型，提高了語音輸入在糾錯上的準確性，從而不需要使用者選擇待糾錯的內容，只要由語音輸入模式切換至編輯模式，便可根據輸入的第二語音直接對該展現的文字內容進行糾錯；而且開創性的提出了語音輸入可用於輸入命令、其他內容元素，極大地豐富了語音輸入的內容，改變了目前透過語音輸入只獲得上屏文字內容的局限性，總之，在很大程度上提升了用戶使用體驗。

關於上述較佳實施例中的裝置，其中各個模組執行操作的具體方式已經在有關該方法的實施例中進行了詳細描述，此處將不做詳細闡述說明。

圖6是根據一示例性實施例示出的一種用於語音輸入的裝置800的框圖。例如，裝置800可以是行動電話，電腦，數位廣播終端，消息收發設備，遊戲控制台，平板設備，醫療設備，健身設備，個人數位助理等。

參照圖6，裝置800可以包括以下一個或多個元件：一處理組件802，一記憶體804，一電源元件806，一多媒體元件808，一音頻組件810，一輸入/輸出(I/O)介面812，一感測器組件814，以及一通信組件816。

該處理組件802通常控制該裝置800的整體操作，諸如與顯示，電話呼叫，資料通信，相機操作和記錄操作相關聯的操作。該處理組件802可以包括一個或多個處理器820來執行指令，以完成上述的方法的全部或部分步驟。此外，該處理組件802可以包括一個或多個模組，便於該處理組件802和其他元件之間的交互。例如，該處理組件802可以包括多媒體模組，以方便該多媒體元件808和該處理組件802之間的交互。

該記憶體804被配置為儲存各種類型的資料以支援在該裝置800的操作。這些資料的示例包括用於在該裝置800上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，消息，圖片，視頻等。該記憶體804可以由任何類型的易失性或非易失性存放裝置或者它們的組合實現，如靜態隨機存取記憶體(SRAM)，電可擦除可程式設計唯讀記憶體(EEPROM)，可擦除可程式設計唯讀記憶體(EPROM)，可程式設計唯讀記憶體(PROM)，唯讀記憶體(ROM)，磁記憶體，快閃記憶體，磁片或光碟。

該電源元件806為該裝置800的各種元件提供電力。該電力元件806可以包括電源管理系統，一個或多個電源，及其他與為該裝置800生成、管理和分配電力相關聯的組件。

該多媒體元件808包括在該裝置800和使用者之間的提供一個輸出介面的螢幕。在一些實施例中，螢幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果螢幕包括觸摸面板，螢幕可以被實現為觸控式螢幕，以接收來自使用者的輸入信號。觸摸面板包括一個或多個觸摸感測器以感測觸摸、滑動和觸摸面板上的手勢。該觸摸感測器可以不僅感測觸摸或滑動動作的邊界，而且還檢測與該觸摸或滑動操作相關的持續時間和壓力。在一些實施例中，該多媒體元件808包括一個前置攝像頭和/或後置攝像頭。當該裝置800處於操作模式，如拍攝模式或視訊模式時，前置攝像頭和/或後置攝像頭可以接收外部的多媒體資料。每個前置攝像頭和後置攝像頭可以是一個固定的光學透鏡系統或具有焦距和光學變焦能力。

該音頻組件810被配置為輸出和/或輸入音訊信號。例如，該音頻組件810包括一個麥克風(MIC)，當該裝置800處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音訊信號。所接收的音訊信號可以被進一步儲存在該記憶體804或經由該通信組件816發送。在一些實施例中，該音頻組件810還包括一個揚聲器，用於輸出音訊信號。

該輸入/輸出(I/O)介面812為該處理組件802和週邊介面模組之間提供介面，上述週邊介面模組可以是鍵盤，點擊輪，按鈕等。這些按鈕可包括但不限於：主頁按鈕、音量按鈕、啟動按鈕和鎖定按鈕。

該感測器組件814包括一個或多個感測器，用於為該裝置800提供各個方面的狀態評估。例如，該感測器組件814可以檢測到該裝置800的打開/關閉狀態，元件的相對定位，例如所述元件為該裝置800的顯示器和小鍵盤，該感測器組件814還可以檢測該裝置800或該裝置800一個元件的位置改變，使用者與該裝置800接觸的存在或不存在，該裝置800方位或加速/減速和該裝置800的溫度變化。該感測器組件814可以包括一接近感測器，被配置用來在沒有任何的物理接觸時檢測附近物體的存在。該感測器組件814還可以包括一光感測器，如CMOS或CCD圖像感測器，用於在成像應用中使用。在一些實施例中，該感測器組件814還可以包括一加速度感測器、一陀螺儀感測器、一磁感測器、一壓力感測器或一溫度感測器。

該通信組件816被配置為便於該裝置800和其他設備之間有線或無線方式的通信。該裝置800可以接入基於通信標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，該通信組件816經由廣播通道接收來自外部廣播管理系統的廣播信號或廣播相關資訊。在一個示例性實施例中，該通信組件816還包括近場通信(NFC)模組，以促進短程通信。例如，在NFC模組可基於射頻識別(RFID)技術，紅外資料協會(IrDA)技術，超寬頻(UWB)技術，藍牙(BT)技術和其他技術來實現。

在示例性實施例中，該裝置800可以被一個或多個應用專用積體電路(ASIC)、數位訊號處理器(DSP)、數位信號處理設備(DSPD)、可程式設計邏輯器件(PLD)、現場可程式設計閘陣列(FPGA)、控制器、微控制器、微處理器或其他電子元件實現，用於執行上述方法。

在示例性實施例中，還提供了一種包括一指令的非臨時性電腦可讀儲存介質，例如包括該指令的記憶體804，該指令可由該裝置800的處理器820執行以完成上述方法。例如，該非臨時性電腦可讀儲存介質可以是ROM、隨機存取記憶體(RAM)、CD-ROM、磁帶、軟碟和光資料存放裝置等。

一種非臨時性電腦可讀儲存介質，當該儲存介質中的指令由移動終端的處理器執行時，使得移動終端能夠執行一種語音輸入方法，該方法包括：在語音輸入模式下，接收使用者輸入的第一語音並識別生成第一識別結果，根據該第一識別結果向使用者展現相應的文字內容；在編輯模式下，接收使用者輸入的第二語音並識別生成第二識別結果；將該第二識別結果轉換為編輯指令，根據該編輯指令執行相應操作；該語音輸入模式和編輯模式之間能相互切換。

在示例性實施例中，所述步骤：將所述第二識別結果轉換為編輯指令，具体包括：將所述第二識別結果與預先存儲的操作資訊模型進行匹配，根據所述匹配結果確定編輯指令的類型。

在示例性實施例中，所述步驟：根據該編輯指令執行相應操作，至少包括以下一個步驟：如果根據匹配結果確定編輯指令的類型為命令，則直接執行該命令；如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作；如果根據匹配結果確定編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素。

在示例性實施例中，該命令包括刪除、換行、回車、清空、發送、撤銷中的至少一個。

在示例性實施例中，步驟：如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作，具體包括：對該第二識別結果進行語義分析，根據語義分析結果確定對應的糾錯操作類型以及待糾錯部分；對該待糾錯的部分按照該糾錯操作類型進行糾錯。

在示例性實施例中，步驟：對該待糾錯的部分按照該糾錯操作類型進行糾錯，具體包括：根據待糾錯部分的上下文確定糾錯後的內容，對待糾錯的部分進行更正。

在示例性實施例中，步驟：根據該第二識別結果，對所述展現的文字內容進行糾錯操作，具體包括：對該第二識別結果進行語義分析，根據語義分析結果確定對應的糾錯操作類型以及糾錯後的內容；按照該糾錯操作類型、糾錯後的內容對所述展現的文字內容進行糾錯。

在示例性實施例中，該糾錯操作類型為替換；步驟：按照該糾錯操作類型、糾錯後的內容對所述展現的文字內容進行糾錯，具體為：對音相同或相近的文字進行替換。

在示例性實施例中，該第二語音包括替換字詞的結構資訊或者語義資訊。

在示例性實施例中，步驟：如果根據匹配結果確定編輯指令的類型為添加內容元素，根據該第二識別結果推送相應的內容元素，具體包括：將該第二識別結果與預存的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項的標識資訊和/或屬性資訊進行匹配；向使用者展現相匹配的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。

在示例性實施例中，在該編輯模式下，基於使用者習慣或對側用戶習慣向使用者推薦顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。

在示例性實施例中，該方法還包括：由該語音輸入模式切換至該編輯模式後，提供該編輯指令和/或輸入內容提示資訊。

圖7是本發明較佳實施例中一伺服器的結構示意圖。該伺服器1900可因配置或性能不同而產生比較大的差異，可以包括一個或一個以上中央處理器(central processing units，CPU)1922(例如，一個或一個以上處理器)和記憶體1932，一個或一個以上應用程式1942或數據(資料)1944的儲存介質1930(例如一個或一個以上海量存放裝置)。其中，該記憶體1932和該儲存介質1930可以是短暫儲存或持久儲存。儲存在該儲存介質1930的程式可以包括一個或一個以上模組(圖示沒標出)，每個模組可以包括對伺服器中的一系列指令操作。更進一步地，該中央處理器1922可以設置為與該儲存介質1930通信，在伺服器1900上執行儲存介質1930中的一系列指令操作。

該伺服器1900還可以包括一個或一個以上電源1926，一個或一個以上有線或無線網路介面1950，一個或一個以上輸入輸出介面1958，一個或一個以上鍵盤1956，和/或，一個或一個以上作業系統1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本領域技術人員在考慮說明書及實踐這裡公開的發明後，將容易想到本發明的其它實施方案。本發明旨在涵蓋本發明的任何變型、用途或者適應性變化，這些變型、用途或者適應性變化遵循本發明的一般性原理並包括本公開未公開的本技術領域中的公知常識或慣用技術手段。說明書和實施例僅被視為示例性的，本發明的真正範圍和精神由下面的權利要求指出。

應當理解的是，本發明並不局限於上面已經描述並在附圖中示出的精確結構，並且可以在不脫離其範圍進行各種修改和改變。本發明的範圍僅由所附的權利要求來限制。以上所述僅為本發明的較佳實施例，並不用以限制本發明，凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。

Claims

一種語音輸入方法，該方法包括：在一語音輸入模式下，接收使用者輸入的一第一語音並識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容；在一編輯模式下，接收使用者輸入的一第二語音並識別生成一第二識別結果；將該第二識別結果轉換為一編輯指令，根據該編輯指令執行相應操作；以及該語音輸入模式和該編輯模式之間能相互切換；其中將所述第二識別結果轉換為該編輯指令的步驟具體包括：將所述第二識別結果與預先存儲的一操作資訊模型進行匹配，根據所述匹配結果確定編輯指令的類型；如果根據匹配結果確定編輯指令的類型為命令，則直接執行該命令，該命令包括刪除、換行、回車、清空、發送、撤銷中的至少一個；如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作；如果根據匹配結果確定編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素，具體包括：將該第二識別結果與預存的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項的標識資訊和/或屬性資訊進行匹配；向使用者展現相匹配的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。
如請求項1所述之語音輸入方法，所述步驟：如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作，具體包括：對該第二識別結果進行語義分析，根據語義分析結果確定對應的糾錯操作類型以及待糾錯部分；對該待糾錯的部分按照該糾錯操作類型進行糾錯。
如請求項2所述之語音輸入方法，所述步驟：對該待糾錯的部分按照該糾錯操作類型進行糾錯，具體包括：根據待糾錯部分的上下文確定糾錯後的內容，對待糾錯的部分進行更正。
如請求項1所述之語音輸入方法，所述步驟：根據該第二識別結果，對所述展現的文字內容進行糾錯操作，具體包括：對該第二識別結果進行語義分析，根據語義分析結果確定對應的糾錯操作類型以及糾錯後的內容；按照該糾錯操作類型、糾錯後的內容對所述展現的文字內容進行糾錯。
如請求項4所述之語音輸入方法，該糾錯操作類型為替換；所述步驟：按照該糾錯操作類型、糾錯後的內容對所述展現的文字內容進行糾錯，具體為：對音相同或相近的文字進行替換。
如請求項5所述之語音輸入方法，該第二語音包括替換字詞的結構資訊或者語義資訊。
如請求項1所述之語音輸入方法，在該編輯模式下，基於使用者習慣或對側用戶習慣向使用者推薦顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。
如請求項7所述之語音輸入方法，該圖片包括靜態圖片。
如請求項1所述之語音輸入方法，該方法還包括：由該語音輸入模式切換至該編輯模式後，提供該編輯指令和/或輸入內容提示資訊。
一種終端設備，其包括：一語音輸入單元，用於在一語音輸入模式下，接收使用者輸入的一第一語音，在一編輯模式下接收使用者輸入的一第二語音；一語音辨識單元，用於分別對該第一語音、該第二語音進行識別，分別生成一第一識別結果、一第二識別結果；一顯示單元，用於根據該第一識別結果向使用者展現相應的文字內容；一編輯操作處理單元，用於在該編輯模式下將該第二識別結果轉換為一編輯指令，並根據該編輯指令執行相應操作；該語音輸入模式和該編輯模式之間能相互切換；其中該編輯操作處理單元將所述第二識別結果轉換為該編輯指令，包括將所述第二識別結果與預先存儲的一操作資訊模型進行匹配，根據所述匹配結果確定編輯指令的類型；如果根據匹配結果確定編輯指令的類型為命令，則直接執行該命令，該命令包括刪除、換行、回車、清空、發送、撤銷中的至少一個；如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作；如果根據匹配結果確定編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素，具體包括：將該第二識別結果與預存的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項的標識資訊和/或屬性資訊進行匹配；向使用者展現相匹配的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。
一種用於語音輸入的裝置，其包括：一記憶體，以及一個或者一個以上的程式，其中一個或者一個以上程式儲存於記憶體中，且經配置以由一個或者一個以上處理器執行所述一個或者一個以上套裝程式含用於進行以下操作的指令：在一語音輸入模式下，接收使用者輸入的一第一語音並識別生成一第一識別結果，根據該第一識別結果向使用者展現相應的文字內容；在一編輯模式下，接收使用者輸入的一第二語音並識別生成一第二識別結果；將該第二識別結果轉換為一編輯指令，根據該編輯指令執行相應操作；該語音輸入模式和該編輯模式之間能相互切換；其中將所述第二識別結果轉換為該編輯指令包括將所述第二識別結果與預先存儲的一操作資訊模型進行匹配，根據所述匹配結果確定編輯指令的類型；如果根據匹配結果確定編輯指令的類型為命令，則直接執行該命令，該命令包括刪除、換行、回車、清空、發送、撤銷中的至少一個；如果根據匹配結果確定編輯指令的類型為糾錯，則根據該第二識別結果，對展現的文字內容進行糾錯操作；如果根據匹配結果確定編輯指令的類型為添加內容元素，則根據該第二識別結果推送相應的內容元素，包括：將該第二識別結果與預存的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項的標識資訊和/或屬性資訊進行匹配；向使用者展現相匹配的顏文字、圖片、文本、動畫、應用、音訊、視頻中的至少一項。