TWI639115B

TWI639115B - 偵測語音輸入模式之方法

Info

Publication number: TWI639115B
Application number: TW106137817A
Authority: TW
Inventors: 馬明仁; 楊國屏; 治勇楊; 趙冠力; 李建穎
Original assignee: 塞席爾商元鼎音訊股份有限公司
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2018-10-21
Also published as: US20190132003A1; TW201918874A; US10735027B2

Abstract

一種偵測語音輸入模式之方法用於電子裝置。依照使用者按住電子裝置之啟動按鍵之行為差異，而判斷語音輸入模式為短按模式或長按模式。偵測語音輸入模式之方法包括：偵測啟動按鍵之按住時間是否小於按住門檻時間；若是，則判斷語音輸入模式為短按模式；若否，則偵測按住時間之內，麥克風接收之語音的語音發聲時間是否大於語音發聲門檻時間；若是，則判斷語音輸入模式為長按模式；若否，則判斷語音輸入模式為該短按模式。

Description

偵測語音輸入模式之方法

本發明係關於一種偵測語音輸入模式之方法，特別是一種根據使用者的操作習慣而偵測語音輸入模式之方法。

一般的通訊軟體，AI軟體或翻譯軟體大都具有語音輸入功能，其可以讓使用者直接念出文字，以輸入語音資料至手機裡，因此使用者不再需要花費大量時間點擊手機鍵盤輸入文字。

通訊軟體或翻譯軟體為了配合語音輸入功能，通常會在軟體界面上提供長按式的語音操作鍵。長按式的語音操作鍵用以供使用者長按，並且當使用者按住該語音操作鍵的期間，使用者也可以對手機說話，如此一來手機便會錄下按住按鈕的期間所接收到的語音，並將錄下的語音配合通訊軟體，AI軟體或翻譯軟體而執行雲端語音上傳或轉換為文字等功能。另外，有的軟體也會在軟體界面上提供短按式的語音操作鍵。短按式的語音操作鍵用以供使用者短暫得點擊，以使軟體啟動錄音功能，以錄下使用者的語音；當使用者錄完語音之後，使用者可以再次點擊短按式的語音操作鍵，或是軟體自動判斷以關閉錄音功能，並且通訊軟體或翻譯軟體會把錄完的語音執行雲端上傳或轉換為文字等功能。

然而，使用者們通常只會習慣使用長按式或短按式的其中一種操作模式。因此，使用者在運用不同軟體時，常常需要捨棄自身的使用習慣，而勉強自己去使用不同軟體所提供的不同操作模式。

因此，有必要提供一種根據使用者的操作習慣，而偵測和調整語音輸入模式之方法。

本發明之主要目的係在提供一種根據使用者的操作習慣而偵測語音輸入模式之方法。

為達成上述之目的，本發明之一種偵測語音輸入模式之方法用於一電子裝置，電子裝置包括一麥克風和一啟動按鍵。麥克風用以接收一語音之輸入，啟動按鍵用以供一使用者按住以啟動一語音輸入模式而輸入語音，其中依照使用者按住啟動按鍵之行為差異，而判斷語音輸入模式為一短按模式或一長按模式。偵測語音輸入模式之方法包括：偵測啟動按鍵之一按住時間是否小於一按住門檻時間，其中按住門檻時間為0.001秒至1.5秒之間；若是，則判斷語音輸入模式為短按模式；若否，則偵測按住時間之內，麥克風接收之語音的一語音發聲時間是否大於一語音發聲門檻時間，其中語音發聲門檻時間為0秒至1.5秒之間；若是，則判斷語音輸入模式為長按模式；若否，則判斷語音輸入模式為短按模式。

根據本發明之一實施例，其中按住門檻時間為0.001秒至0.8秒之間。

根據本發明之一實施例，其中語音發聲門檻時間為0.2秒至0.9秒之間。

根據本發明之一實施例，其中偵測語音發聲時間是使用者按下啟動按鍵即開始。

根據本發明之一實施例，其中電子裝置為一手機、一電腦或一平板電腦。

根據本發明之一實施例，其中電子裝置更包括一喇叭，喇叭用以發出一提示音；偵測語音發聲時間的開始時間點在是喇叭播放該提示音之後。

根據本發明之一實施例，其中電子裝置更包括一耳機，耳機用以發出一提示音；偵測語音發聲時間的一起始時間點在是耳機播放提示音之後。

根據本發明之一實施例，其中當語音輸入模式為長按模式時，使用者輸入語音之一結束時間點為使用者放開啟動按鍵的時間點；其中當語音輸入模式為短按模式時，使用者輸入語音之一結束時間點並非使用者放開啟動按鍵的時間點。

為能讓貴審查委員能更瞭解本發明之技術內容，特舉較佳具體實施例說明如下。

以下請一併參考圖1至圖3關於本發明之第一實施例之偵測語音輸入模式之方法。圖1係本發明之第一實施例之電子裝置之系統架構圖；圖2係本發明之第一實施例之偵測語音輸入模式之方法之步驟流程圖；圖3係本發明之第一實施例之電子裝置之示意圖。

如圖1至圖3所示，在第一實施例之中，偵測語音輸入模式之方法是被編程為一電腦程式，並應用於一電子裝置10。偵測語音輸入模式之方法可以根據使用者的操作習慣，而自動偵測使用者運用的語音輸入模式是長按模式或短按模式。電子裝置10例如為一手機，但其也可以是一電腦或一平板電腦。電子裝置10包括一麥克風11、一啟動按鍵12、一喇叭13、一觸控螢幕14、一處理器15和一儲存件16。

在本發明之第一實施例之中，麥克風11用以接收使用者的語音。觸控螢幕14用以顯示資料以供使用者觀看和操作。處理器15為一中央處理器(Central Processing Unit，CPU)，其電性連接麥克風11、啟動按鍵12、喇叭13、觸控螢幕14、儲存件16，以控制該些元件運作。儲存件16為一記憶體，其用以儲存偵測語音輸入模式之方法所編程的電腦程式。

啟動按鍵12為一實體按鈕，其可用以供使用者按住以啟動一語音輸入模式而輸入語音，其中依照使用者按住啟動按鍵12之行為差異，會使語音輸入模式呈現為一短按模式或一長按模式。若是使用者長時間按住啟動按鍵12，則語音輸入模式為長按模式。在長按模式時，使用者輸入語音之一開始時間點是使用者按下啟動按鍵12的時間點；使用者輸入語音之一結束時間點為使用者放開啟動按鍵12的時間點。若是使用者短暫得點擊啟動按鍵12，則語音輸入模式為短按模式。在短按模式時，使用者輸入語音之一開始時間點是使用者點擊啟動按鍵12的時間點；使用者輸入語音之一結束時間點並非使用者放開啟動按鍵12的時間點，使用者輸入語音之一結束時間點可以是使用者再次點擊啟動按鍵12的時間點，或是使用者短時間輸入語音之後停止輸入語音的時間點。然而，啟動按鍵12並不以實體按鈕為限，例如，觸控螢幕14也可以形成一虛擬形式的啟動按鍵12a(一般智慧型手機會以虛擬形式的啟動按鍵12a為主)，以供使用者按住以啟動語音輸入模式而輸入語音。

本發明之偵測語音輸入模式之方法所編程而成的電腦程式可以設計為，當使用者執行任何需要輸入語音的程式(例如翻譯軟體，通訊軟體，人工智慧問答軟體，搜尋軟體等等)時，偵測語音輸入模式之方法的電腦程式就會在電子裝置10上自動啟動；或者偵測語音輸入模式之方法的電腦程式也可以設計為內建於需要輸入語音的程式之內。在本發明之中，係以偵測語音輸入模式之方法的電腦程式內建於一翻譯軟體為例，如圖3所示，當使用者開啟翻譯軟體時，翻譯軟體會配合偵測語音輸入模式之方法而於觸控螢幕14上提供一虛擬形式的啟動按鍵12a，並且顯示「按下啟動按鍵以輸入語音」之訊息以告知使用者可以開始輸入語音。接著，使用者可以依照自己習慣，使用長按之持續按住或短按之點擊方式來按下實體的啟動按鍵12或是虛擬形式的啟動按鍵12a，而偵測語音輸入模式之方法便會根據使用者按下按鍵的操作行為以及稍後輸入語音的行為，來偵測使用者欲透過長按模式或短按模式而進行語音輸入。首先，當使用者按下實體的啟動按鍵12或是虛擬形式的啟動按鍵12a後，偵測語音輸入模式之方法便會執行步驟101：偵測啟動按鍵之一按住時間是否小於一按住門檻時間，其中按住門檻時間為0.001秒至1.5秒之間。

當使用者按下啟動按鍵12、12a中的任一者後，實體的啟動按鍵12或是虛擬形式的啟動按鍵12a會將使用者按下啟動按鍵12、12a的時間點傳輸給處理器15，並也將使用者放開啟動按鍵12、12a的時間點傳輸給處理器15。處理器15會計算按下按鍵的時間點與放開按鍵的時間點之間的時間差，且該時間差即為啟動按鍵12、12a之一按住時間P1。處理器15也會偵測按住時間P1是否小於一按住門檻時間PT1；本發明之按住門檻時間PT1為0.001秒至1.5秒之間，較佳可設計為0.001秒至0.8秒之間。經由發明人實際觀察和統計使用者之操作行為，一般使用者在進行短按之點擊操作時，手指平均會碰觸按紐約0.6秒，且最長時間的點擊操作也不會超過1.5秒，故發明人將按住門檻時間PT1設計為0.001秒至1.5秒之間。

若是處理器15偵測按住時間P1小於一按住門檻時間PT1，則進行步驟102：判斷語音輸入模式為短按模式。

在第一實施例中，若是使用者點擊啟動按鍵12，並且僅碰觸了0.6秒便放開啟動按鍵12，則處理器15會計算出啟動按鍵12之按住時間P1為0.6秒，其小於按住門檻時間PT1之1.5秒；因此處理器15會判斷使用者此刻欲使用的語音輸入模式為短按模式，故處理器15會即時調整翻譯軟體和啟動按鍵12、12a，讓翻譯軟體啟動錄音功能，錄下使用者要輸入的語音，並且讓啟動按鍵12、12a隨時準備接受使用者的再次點擊，以停止錄音；或者處理器15也可以調整翻譯軟體和啟動按鍵12、12a，讓翻譯軟體啟動錄音功能，錄下使用者要輸入的語音，並且在麥克風11收不到使用者的語音時(也就是使用者不再出聲時)，即停止錄音。

若是處理器15偵測按住時間P1不小於一按住門檻時間PT1，則進行步驟103：偵測按住時間之內，麥克風接收之語音的一語音發聲時間V1是否大於一語音發聲門檻時間VT1，其中語音發聲門檻時間VT1為0秒至1.5秒之間。

經由發明人實際觀察和統計使用者之操作行為，一般使用者在進行長按模式來輸入語音時，會一邊按住啟動按鍵12一邊輸入語音，且使用者輸入語音的時間通常會在1.5秒以上。因此，為了判斷使用者是否確定要使用長按模式來輸入語音，處理器15會啟動麥克風11來接收使用者按住啟動按鍵12的按住時間P1內所輸入的語音。麥克風11會將按住時間P1內接收到的語音傳輸給處理器15，處理器15會計算麥克風11接收之語音的一語音發聲時間V1之時間長短；處理器15也會偵測語音發聲時間V1是否大於一語音發聲門檻時間VT1。語音發聲門檻時間VT1為0秒至1.5秒之間，較佳為0.2秒至0.9秒之間。另外，需注意的是，第一實施例的偵測語音發聲時間V1的起始點是設計為按住時間P1內開始接收到語音的時間點，但是偵測語音發聲時間V1也可以設計為使用者一按下啟動按鍵12即開始。

若是處理器15偵測在按住時間P1之內，麥克風11接收之語音的語音發聲時間V1大於一語音發聲門檻時間VT1，則可以確認使用者欲使用的語音輸入模式的確為長按模式。因此會繼續進行步驟104：判斷語音輸入模式為長按模式。

在第一實施例中，若是處理器15判斷語音發聲時間V1大於一語音發聲門檻時間VT1，則處理器15會判斷使用者此刻欲使用的語音輸入模式為長按模式。故處理器15會即時調整翻譯軟體和啟動按鍵12、12a，讓錄音功能錄下使用者在按住啟動按鍵12、12a的按住時間P1所輸入的語音，並且讓啟動按鍵12、12a準備在使用者放開啟動按鍵12、12a時停止錄音。

回到步驟103之後，若是處理器15偵測在按住時間P1之內，麥克風11接收之語音的語音發聲時間V1不大於一語音發聲門檻時間VT1，則可以確認使用者欲使用的語音輸入模式並非長按模式；例如，有些老人家較不擅長操作電子裝置10，老人家在長按住啟動按鍵12後，僅會對麥克風11輸出短暫的語音，故會出現按住時間P1超過按住門檻PT1，但是語音發聲時間V1不大於語音發聲門檻時間VT1的情境。因此若是出現此種情境，本發明會接續到步驟102：判斷語音輸入模式為短按模式。

若是處理器15判斷麥克風11接收使用者之語音的語音發聲時間V1不大於一語音發聲門檻時間VT1之1.5秒(例如語音發聲時間V1只有0.5秒)，則處理器15會判斷使用者此刻欲使用的語音輸入模式為短按模式，故處理器15會即時調整翻譯軟體和啟動按鍵12、12a，讓翻譯軟體啟動錄音功能，錄下使用者要輸入的語音，並且讓啟動按鍵12、12a隨時準備接受使用者的再次點擊，以停止錄音；或者處理器15也可以調整翻譯軟體和啟動按鍵12、12a，讓翻譯軟體啟動錄音功能，錄下使用者要輸入的語音，並且在麥克風11收不到使用者的語音時(也就是使用者不再出聲時)，即停止錄音。

以下請一併參考圖4至圖6關於本發明之第二實施例之偵測語音輸入模式之方法。圖4係本發明之第二實施例之電子裝置之系統架構圖；圖5係本發明之第二實施例之配合耳機使用偵測語音輸入模式之方法之步驟流程圖；圖6係本發明之第二實施例之電子裝置之示意圖。

如圖4至圖6所示，在第二實施例之中，電子裝置更包括一通訊界面17和一耳機18。通訊界面17和耳機18皆電性連接處理器15。第二實施例的通訊界面17例如為一無線模組，其可藉由無線傳輸功能而與其他元件電性連接。耳機18例如為一有線式的多功能耳機，其可放出聲音，並具有一麥克風181、一啟動按鍵182和一喇叭183。麥克風181用以接收語音，且麥克風181接收到的語音可以傳輸給處理器15。啟動按鍵182用以接收使用者的按壓操作，且啟動按鍵182接收的按壓操作所產生之訊號可以傳輸給處理器15。喇叭13、183用以發出一提示音，以提示使用者可以開始輸入語音。第二實施例的耳機18插在電子裝置10a之耳機孔(圖未示)上，因此耳機18及其麥克風181、啟動按鍵182和喇叭183也透過耳機孔而電性連接至處理器15，故耳機18的該些元件也可以配合本發明之偵測語音輸入模式之方法一起使用。然而，耳機18並不限於有線式的耳機，其亦可為無線耳機，並且無線耳機可以電性連接至通訊界面17而與處理器15互相溝通。

在第二實施例中，若是使用者要運用耳機18而一起使用電子裝置10a之翻譯軟體時，使用者可以先開啟翻譯軟體，並依照自己習慣，使用長按之持續按住或短按之點擊方式來按下啟動按鍵182。此時，耳機會執行步驟301：接收按壓訊號並傳送按壓訊號。

當使用者按下啟動按鍵182時，啟動按鍵182會接收到使用者按下啟動按鍵182所產生的按壓訊號。啟動按鍵182會把接收到的按壓訊號，藉由耳機孔而傳送給處理器15。

接著，處理器15會執行步驟201：接收按壓訊號，並記錄接收到按壓訊號的時間點。

處理器15接收到啟動按鍵182的按壓訊號後，處理器15會記錄接收到按壓訊號的時間點。

接著，若是使用者放開啟動按鍵182，則耳機會執行步驟302：接收放開訊號並傳送放開訊號。

當使用者放開啟動按鍵182時，啟動按鍵182會接收到使用者放開啟動按鍵182所產生的放開訊號。啟動按鍵182會把接收到的放開訊號，藉由耳機孔而傳送給處理器15。

接著，處理器15會執行步驟202：接收放開訊號，並記錄接收到放開訊號的時間點。

處理器15接收到啟動按鍵182的放開訊號後，處理器15會記錄接收到放開訊號的時間點。

接著，處理器15會執行步驟203：計算接收到放開訊號的時間點和接收到按壓訊號的時間點之間的差異時間，將該差異時間視為啟動按鍵之一按住時間。

處理器15會計算收到啟動按鍵182的放開訊號的時間點和接收到啟動按鍵182的按壓訊號的時間點之間的差異時間，並將該差異時間視為啟動按鍵182之按住時間P1。

接著，處理器15會執行步驟204：偵測啟動按鍵之按住時間是否小於一按住門檻時間，其中按住門檻時間為0.001秒至1.5秒之間。

處理器15會偵測按住時間P1是否小於一按住門檻時間PT1之0.001秒至1.5秒之間。若是處理器15偵測按住時間P1小於一按住門檻時間PT1，則進行步驟205：判斷語音輸入模式為短按模式。由於步驟204、205相當於第一實施例的步驟101、102，故在此不對步驟204、205多做贅述。另外，由於第二實施例的耳機18插在電子裝置10a之耳機孔上，因此在進行步驟205之中，在處理器15判斷使用者此刻欲使用的語音輸入模式為短按模式之後，處理器15也可以傳送一提示音播放訊號給耳機18，使得耳機18接收提示音播放訊號並對使用者播放一提示音，以提示使用者可開始錄音。

在步驟204之後，若是處理器15偵測按住時間P1不小於一按住門檻時間PT1，則進行步驟206：若否，則傳送一提示音播放訊號。

若是處理器15偵測按住時間P1不小於一按住門檻時間PT1，則處理器15傳送一提示音播放訊號給耳機18。然而，處理器15也可以設計為傳送提示音播放訊號給喇叭13。

接著，耳機18會進行步驟303：接收提示音播放訊號，並播放提示音。

耳機18會接收提示音播放訊號並對使用者播放一提示音，以提示使用者可開始錄音。當使用者從耳機18聽到提示音之後，就可以對麥克風181說話以進行錄音。然而，若是處理器15是設計為傳送提示音播放訊號給喇叭13，則會是喇叭13接受提示音播放訊號並播放提示音。

當使用者對麥克風181說話以進行錄音後，耳機18會進行步驟304：接收語音，並傳送語音。

耳機18之麥克風181會接收使用者輸入的語音，並將該語音傳送給處理器15。

接著，處理器會進行步驟207：接收語音，並記錄接收到語音的時間點。

處理器15會接收耳機18傳來的語音，並記錄接收到語音的時間點，且處理器15記錄接收到語音的時間點會被視為是偵測語音發聲時間V1的一起始時間點。

當使用者停止對麥克風181輸入語音後，耳機會執行步驟305：停止接收語音，並傳送語音停止訊號。

使用者停止對麥克風181輸入語音後，耳麥克風181就不會接收到語音，此時，耳機18之麥克風181會停止接收語音，並傳送一語音停止訊號給處理器15。

接著，處理器15會執行步驟208：接收語音停止訊號，並記錄收到語音停止訊號的時間點。

處理器15會接收耳機18傳來的語音停止訊號，並記錄接收到語音停止訊號的時間點，且處理器15記錄接收到語音停止訊號的時間點會被視為是偵測語音發聲時間V1的一結束時間點。

接著，處理器15會執行步驟209：計算接收到語音的時間點和接收到語音停止訊號的時間點之間的差異時間，將該差異時間視為麥克風接收之語音的語音發聲時間。

處理器15會計算收到語音的時間點和接收到語音停止訊號的時間點之間的差異時間，並將該差異時間視為麥克風181接收之語音的語音發聲時間V1。

接著，處理器15會進行步驟210：偵測按住時間之內，麥克風接收之語音的一語音發聲時間是否大於一語音發聲門檻時間，其中語音發聲門檻時間為0秒至1.5秒之間。並藉由步驟210的結果而選擇進行步驟211：若是，判斷語音輸入模式為長按模式；或是進行步驟212：若否，判斷語音輸入模式為短按模式。由於步驟210相當於第一實施例之步驟103，步驟211相當於步驟104，步驟212相當於步驟102，故在此不對步驟210、211、212多做贅述。

藉由本發明之偵測語音輸入模式之方法，可以根據使用者的操作習慣，而自動偵測使用者欲使用的語音輸入模式是長按模式或短按模式，以方便使用者更自然且便利得運用電子裝置。

需注意的是，上述僅為實施例，而非限制於實施例。譬如此不脫離本發明基本架構者，皆應為本專利所主張之權利範圍，而應以專利申請範圍為準。

10、10a‧‧‧電子裝置

11、181‧‧‧麥克風

12、12a、182‧‧‧啟動按鍵

13‧‧‧喇叭

14‧‧‧觸控螢幕

15‧‧‧處理器

16‧‧‧儲存件

17‧‧‧通訊界面

18‧‧‧耳機

圖1係本發明之第一實施例之電子裝置之系統架構圖。圖2係本發明之第一實施例之偵測語音輸入模式之方法之步驟流程圖。圖3係本發明之第一實施例之電子裝置之示意圖。圖4係本發明之第二實施例之電子裝置之系統架構圖。圖5係本發明之第二實施例之配合耳機使用偵測語音輸入模式之方法之步驟流程圖。圖6係本發明之第二實施例之電子裝置之示意圖。

Claims

一種偵測語音輸入模式之方法，用於一電子裝置，該電子裝置包括一麥克風、一啟動按鍵和一喇叭，該麥克風用以接收一語音，該啟動按鍵用以供一使用者按住以啟動一語音輸入模式而輸入語音，該喇叭用以發出一提示音，其中依照該使用者按住該啟動按鍵之行為差異，而判斷該語音輸入模式為一短按模式或一長按模式，該偵測語音輸入模式之方法包括：偵測該啟動按鍵之一按住時間是否小於一按住門檻時間，其中該按住門檻時間為0.001秒至1.5秒之間；若是，則判斷該語音輸入模式為該短按模式；若否，則使該喇叭播放該提示音，並偵測該按住時間之內，該麥克風接收之該語音的一語音發聲時間是否大於一語音發聲門檻時間，其中該語音發聲門檻時間為0秒至1.5秒之間，其中偵測該語音發聲時間的一起始時間點是在該喇叭播放該提示音之後；若是，則判斷該語音輸入模式為該長按模式；以及若否，則判斷該語音輸入模式為該短按模式。
如申請專利範圍第1項所述之偵測語音輸入模式之方法，其中該按住門檻時間為0.001秒至0.8秒之間。
如申請專利範圍第1項所述之偵測語音輸入模式之方法，其中該語音發聲門檻時間為0.2秒至0.9秒之間。
如申請專利範圍第2項所述之偵測語音輸入模式之方法，其中該語音發聲門檻時間為0.2秒至0.9秒之間。
如申請專利範圍第1項所述之偵測語音輸入模式之方法，其中偵測該語音發聲時間是該使用者按下該啟動按鍵即開始。
如申請專利範圍第4項所述之偵測語音輸入模式之方法，其中偵測該語音發聲時間是該使用者按下該啟動按鍵即開始。
如申請專利範圍第1項至第6項中任一項所述之偵測語音輸入模式之方法，其中該電子裝置為一手機、一電腦或一平板電腦。
如申請專利範圍第7項所述之偵測語音輸入模式之方法，其中該電子裝置更包括一耳機，該耳機用以發出一提示音；偵測該語音發聲時間的一起始時間點是在該耳機播放該提示音之後。
如申請專利範圍第1項所述之偵測語音輸入模式之方法，其中當該語音輸入模式為該長按模式時，該使用者輸出語音之一結束時間點為該使用者放開該啟動按鍵的時間點；其中當該語音輸入模式為該短按模式時，該使用者輸出語音之一結束時間點並非該使用者放開該啟動按鍵的時間點。