TW202236260A

TW202236260A - 語音辨識裝置

Info

Publication number: TW202236260A
Application number: TW110108542A
Authority: TW
Inventors: 王毓翔; 梁智能
Original assignee: 財團法人車輛研究測試中心
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2022-09-16
Also published as: TWI770867B

Abstract

本發明係揭露一種語音辨識裝置，其包含至少一個位置擷取裝置、一方向性收音裝置、一雜訊抑制器與一語音辨識處理器。位置擷取裝置依序耦接方向性收音裝置、雜訊抑制器與語音辨識處理器。位置擷取裝置取得音源之實體語音位置，並輸出語音位置至方向性收音裝置，使方向性收音裝置根據語音位置接收音源產生之語音訊號。雜訊抑制器根據語音位置對應之雜訊模型消除語音訊號之雜訊，以產生一語音辨識訊號。語音辨識處理器接收語音辨識訊號，並據此產生一操作訊號，進而提升語音辨識之精確性。

Description

語音辨識裝置

本發明係關於一種辨識裝置，且特別關於一種語音辨識裝置。

隨著語音辨識功能越發成熟，各種多媒體裝置都會將語音辨識裝置作為輸入裝置，如手機的智慧助理、車輛的語音控制裝置與智慧家電等，以嶄新的方式為科技生活增加了新的色彩，使用者不須再以按鈕或接觸，直接便能與設備進行互動操作。

目前搭載語音辨識系統大多是應用在個人化設備，設備可以透過指向性麥克風，或是限縮收音範圍與情境，達到較好的收音與辨識效果，然而在較複雜的環境或是麥克風收音距離較遠，如車內，就容易被噪音影響或是發生回授，且若是在公用設備，則也會有操作干擾的問題。舉例來說，當第一操作者需連續與公用設備互動時，若第二操作者有意或無意產生語音訊號爭奪操作權，將造成第一操作者之人機互動體驗不佳。此外，在較容易產生噪音之環境中，且無法限縮收音範圍或移動使用者位置時，將造成語音辨識率不佳及系統操作困難。目前車輛中常見的之語音辨識功能，部分採用安卓自動(Android Auto)系統，透過說出 OK Google ，或按住方向盤上之語音指令按鈕，便開始接收語音命令進行操作。在一般車用語音用途大多針對駕駛使用需求：如播打電話、進行導航、控制音樂播放或恆溫系統控制，這幾項需求，功能上來說皆為單向提出需求，且不會有長時間持續操作等問題。市售車之中控系統大多直接採用無指向性麥克風，故收音效果容易受到喇叭回授影響與噪音干擾，若改用市面的指向性麥克風，則除駕駛外，其他位置之乘客則較難進行操作。現今既有會議收音產品，為提供會議收音需求，採用360度全向性收音，且大多是高敏度的麥克風，目的是在會議室中準確收到所有參與會議者講話的聲音。這些設備著重於雜訊濾除功能以保持聲音清晰，大多在接收到聲音後，會採用動態降噪(Digital Noise Reduction，DNR)、聲音增益控制，或是其他相關方法增加人聲強度與收音能力。但由於要盡量接收所有會議參與者的聲音，較無指向性之需求，不會針對各別操作者方向去收音，也不會特別抑制其他人聲。

因此，本發明係在針對上述的困擾，提出一種語音辨識裝置，以解決習知所產生的問題。

本發明提供一種語音辨識裝置，其係在語音訊號控制公用設備時，降低搶奪控制權之頻率及提升公用設備的操作性，並在複雜且密閉的環境中，改善收音品質、收音方向性與降噪功能，以提升語音辨識之精確性。

在本發明之一實施例中，提供一種語音辨識裝置，其包含至少一個位置擷取裝置、一方向性收音裝置、一雜訊抑制器與一語音辨識處理器。位置擷取裝置對應至少一個觸發條件。在一音源滿足觸發條件時，位置擷取裝置取得音源之實體語音位置，並輸出實體語音位置。方向性收音裝置耦接位置擷取裝置，方向性收音裝置用以接收實體語音位置，並根據實體語音位置接收音源產生之語音訊號。雜訊抑制器耦接位置擷取裝置與方向性收音裝置。雜訊抑制器存有複數個語音產生位置分別對應之雜訊模型，所有語音產生位置包含實體語音位置。雜訊抑制器用以接收語音訊號與實體語音位置，並根據實體語音位置對應之雜訊模型消除語音訊號之雜訊，以產生一語音辨識訊號。語音辨識處理器耦接雜訊抑制器，其中語音辨識處理器用以接收語音辨識訊號，並據此產生一操作訊號。

在本發明之一實施例中，語音辨識裝置更包含一座標轉換器，其係耦接位置擷取裝置、雜訊抑制器與方向性收音裝置。座標轉換器用以接收實體語音位置，並轉換實體語音位置之座標系為對應雜訊抑制器與方向性收音裝置之座標系後，傳送被轉換之實體語音位置至雜訊抑制器與方向性收音裝置。

在本發明之一實施例中，至少一個位置擷取裝置包含複數個位置擷取裝置，至少一個觸發條件包含複數個觸發條件，所有觸發條件分別對應所有位置擷取裝置。在音源依序滿足所有觸發條件時，由最早被滿足的觸發條件所對應之位置擷取裝置取得並輸出實體語音位置。

在本發明之一實施例中，位置擷取裝置為影像定位模組。在影像定位模組擷取具有一使用者之舉手姿勢之影像時，觸發條件被滿足，使用者作為音源，且使用者之實體位置作為實體語音位置。

在本發明之一實施例中，位置擷取裝置為語音定位模組。在語音定位模組於不同位置接收音源產生之觸發語音時，觸發條件被滿足，且語音定位模組用以取得在不同位置的觸發語音之不同接收時間點，並據此取得實體語音位置。

在本發明之一實施例中，位置擷取裝置包含一觸控顯示面板與一應用處理器。觸控顯示面板用以顯示應用程式之操作介面，其中操作介面具有對應實體語音位置之影像。應用處理器耦接觸控顯示面板、雜訊抑制器與方向性收音裝置，應用處理器安裝有應用程式。在觸控顯示面板對應影像之位置被按下時，觸發條件被滿足，應用處理器取得並輸出實體語音位置。

在本發明之一實施例中，方向性收音裝置包含一麥克風陣列與一音訊處理器。麥克風陣列用以接收不同位置的語音訊號。音訊處理器耦接麥克風陣列、位置擷取裝置與雜訊抑制器，音訊處理器存有所有語音產生位置分別對應之複數組偏移時段。音訊處理器用以接收實體語音位置，並根據實體語音位置與其對應之一組偏移時段移動在不同位置的語音訊號之波形至同一時間點，且在此同一時間點相加語音訊號，以產生被強化之語音訊號。音訊處理器用以傳輸被強化之語音訊號至雜訊抑制器。

在本發明之一實施例中，方向性收音裝置包含一方向性收音器與一自動旋轉平台。方向性收音器耦接雜訊抑制器，自動旋轉平台耦接位置擷取裝置，自動旋轉平台支撐方向性收音器。自動旋轉平台用以接收實體語音位置，並控制方向性收音器之收音方向朝向實體語音位置。方向性收音器用以接收語音訊號，並傳輸語音訊號至雜訊抑制器。

在本發明之一實施例中，語音辨識處理器耦接位置擷取裝置與方向性收音裝置。在語音辨識處理器未接收語音辨識訊號長達一預設時段時，語音辨識處理器控制位置擷取裝置停止取得實體語音位置，並控制方向性收音裝置停止接收實體語音位置與產生語音訊號，且控制位置擷取裝置與方向性收音裝置操作在待機狀態。

在本發明之一實施例中，提供一種語音辨識裝置，其包含複數個語音接收器、一音訊處理器、一雜訊抑制器與一語音辨識處理器。所有語音接收器用以於不同位置接收一音源產生之語音訊號。音訊處理器耦接所有語音接收器，音訊處理器存有複數個語音產生位置分別對應之複數組偏移時段。音訊處理器用以取得在不同位置的語音訊號之不同接收時間點，並據此取得音源的實體語音位置。所有語音產生位置包含實體語音位置。音訊處理器用以根據實體語音位置與其對應之一組偏移時段移動在不同位置的語音訊號之波形至同一時間點，且在此同一時間點相加語音訊號，以產生被強化之語音訊號。雜訊抑制器耦接音訊處理器。雜訊抑制器存有所有語音產生位置分別對應之雜訊模型。雜訊抑制器用以接收被強化之語音訊號與實體語音位置，並根據實體語音位置對應之雜訊模型消除被強化之語音訊號之雜訊，以產生一語音辨識訊號。語音辨識處理器耦接雜訊抑制器，其中語音辨識處理器用以接收語音辨識訊號，並據此產生一操作訊號。

在本發明之一實施例中，語音辨識處理器耦接音訊處理器。在語音辨識處理器未接收語音辨識訊號長達一預設時段時，語音辨識處理器控制音訊處理器停止取得實體語音位置，並控制音訊處理器停止產生被強化之語音訊號，且控制音訊處理器操作在待機狀態。

基於上述，語音辨識裝置先取得音源之實體語音位置，並輸出語音位置至方向性收音裝置，使方向性收音裝置根據語音位置接收音源產生之語音訊號。如此一來，在語音訊號控制公用設備時，降低搶奪控制權之頻率及提升公用設備的操作性，並在複雜且密閉的環境中，改善收音品質、收音方向性與降噪功能，以提升語音辨識之精確性。

茲為使　貴審查委員對本發明的結構特徵及所達成的功效更有進一步的瞭解與認識，謹佐以較佳的實施例圖及配合詳細的說明，說明如後：

本發明之實施例將藉由下文配合相關圖式進一步加以解說。盡可能的，於圖式與說明書中，相同標號係代表相同或相似構件。於圖式中，基於簡化與方便標示，形狀與厚度可能經過誇大表示。可以理解的是，未特別顯示於圖式中或描述於說明書中之元件，為所屬技術領域中具有通常技術者所知之形態。本領域之通常技術者可依據本發明之內容而進行多種之改變與修改。

揭露特別以下述例子加以描述，這些例子僅係用以舉例說明而已，因為對於熟習此技藝者而言，在不脫離本揭示內容之精神和範圍內，當可作各種之更動與潤飾，因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。在通篇說明書與申請專利範圍中，除非內容清楚指定，否則「一」以及「該」的意義包含這一類敘述包括「一或至少一」該元件或成分。此外，如本揭露所用，除非從特定上下文明顯可見將複數個排除在外，否則單數冠詞亦包括複數個元件或成分的敘述。而且，應用在此描述中與下述之全部申請專利範圍中時，除非內容清楚指定，否則「在其中」的意思可包含「在其中」與「在其上」。在通篇說明書與申請專利範圍所使用之用詞(terms)，除有特別註明，通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論，以提供從業人員(practitioner)在有關本揭露之描述上額外的引導。在通篇說明書之任何地方之例子，包含在此所討論之任何用詞之例子的使用，僅係用以舉例說明，當然不限制本揭露或任何例示用詞之範圍與意義。同樣地，本揭露並不限於此說明書中所提出之各種實施例。

此外，若使用「電(性)耦接」或「電(性)連接」一詞在此係包含任何直接及間接的電氣連接手段。舉例而言，若文中描述一第一裝置電性耦接於一第二裝置，則代表該第一裝置可直接連接於該第二裝置，或透過其他裝置或連接手段間接地連接至該第二裝置。另外，若描述關於電訊號之傳輸、提供，熟習此技藝者應該可了解電訊號之傳遞過程中可能伴隨衰減或其他非理想性之變化，但電訊號傳輸或提供之來源與接收端若無特別敘明，實質上應視為同一訊號。舉例而言，若由電子電路之端點A傳輸(或提供)電訊號S給電子電路之端點B，其中可能經過一電晶體開關之源汲極兩端及/或可能之雜散電容而產生電壓降，但此設計之目的若非刻意使用傳輸(或提供)時產生之衰減或其他非理想性之變化而達到某些特定的技術效果，電訊號S在電子電路之端點A與端點B應可視為實質上為同一訊號。

於下文中關於“一個實施例”或“一實施例”之描述係指關於至少一實施例內所相關連之一特定元件、結構或特徵。因此，於下文中多處所出現之“一個實施例”或 “一實施例”之多個描述並非針對同一實施例。再者，於一或多個實施例中之特定構件、結構與特徵可依照一適當方式而結合。

除非特別說明，一些條件句或字詞，例如「可以(can)」、「可能(could)」、「也許(might)」，或「可(may)」，通常是試圖表達本案實施例具有，但是也可以解釋成可能不需要的特徵、元件，或步驟。在其他實施例中，這些特徵、元件，或步驟可能是不需要的。

第1圖為本發明之第一實施例之語音辨識裝置之電路方塊圖。請參閱第1圖，以下介紹本發明之語音辨識裝置之第一實施例。語音辨識裝置1包含至少一個位置擷取裝置10、一方向性收音裝置11、一雜訊抑制器12與一語音辨識處理器13，其中這些元件皆為硬體。方向性收音裝置11耦接位置擷取裝置10，雜訊抑制器12耦接位置擷取裝置10與方向性收音裝置11，語音辨識處理器13耦接雜訊抑制器12。至少一個位置擷取裝置10對應至少一個觸發條件。為了清晰度與方便，位置擷取裝置10與觸發條件之數量皆以一為例。此外，位置擷取裝置10、方向性收音裝置11與雜訊抑制器12可使用相同座標系統。

以下介紹第一實施例之運作過程。在一音源2滿足觸發條件時，位置擷取裝置10取得音源2之實體語音位置P，並輸出實體語音位置P。方向性收音裝置11接收實體語音位置P，並根據實體語音位置P接收音源2產生之語音訊號V，其中語音訊號V包含對應操作權之操作語音。舉例來說，方向性收音裝置11可以波束成型(beamforming)模組實現，以強化對應實體語音位置P之方向的語音訊號V，並弱化其他方向的語音訊號V。由於雜訊抑制器12存有複數個語音產生位置分別對應之雜訊模型，其中所有語音產生位置包含實體語音位置P。因此，雜訊抑制器12接收語音訊號V與實體語音位置P，並根據實體語音位置P對應之雜訊模型消除語音訊號V之雜訊，以產生一語音辨識訊號R。其中雜訊抑制器12更可採用自適應性濾波演算法(adaptive filter algorithm)與有限脈衝響應(Finite impulse response, FIR)濾波器消除語音訊號V之雜訊，以提高雜訊抑制效率。語音辨識處理器13接收語音辨識訊號R，並據此產生一操作訊號O。操作訊號O可用以控制公用設備。位置擷取裝置10先取得音源2之實體語音位置P，並輸出語音位置P至方向性收音裝置11，使方向性收音裝置11根據實體語音位置P接收音源2產生之語音訊號V。如此一來，在語音訊號V控制公用設備時，可降低搶奪控制權之頻率及提升公用設備的操作性，並在複雜且密閉的環境中，改善收音品質、收音方向性與降噪功能，以提升語音辨識之精確性。

在本發明之某些實施例中，語音辨識處理器13可耦接位置擷取裝置10與方向性收音裝置11。在語音辨識處理器13未接收語音辨識訊號R長達一預設時段時，表示語音辨識裝置1之操作結束，以釋放出操作權。在語音辨識處理器13於預設時段中未接收語音辨識訊號R時，語音辨識處理器13控制位置擷取裝置10停止取得實體語音位置P，並控制方向性收音裝置11停止接收實體語音位置P與產生語音訊號V，且控制位置擷取裝置10與方向性收音裝置11操作在待機狀態，直到位置擷取裝置10擷取到新音源之新實體位置為止。

第2圖為本發明之第二實施例之語音辨識裝置之電路方塊圖。請參閱第2圖，以下介紹本發明之語音辨識裝置之第二實施例。第二實施例與第一實施例差別在於位置擷取裝置10及其觸發條件之數量。在第二實施例中，有複數個位置擷取裝置10與複數個觸發條件。為了避免音源2產生之語音訊號V被遮蔽而無法滿足單一觸發條件，故第二實施例使用不同的觸發條件，例如語音相關觸發條件、影像相關觸發條件與應用程式相關觸發條件。所有觸發條件分別對應所有位置擷取裝置10。本發明不考慮多個觸發條件同時被觸發的狀態。在音源2依序滿足所有觸發條件時，由最早被滿足的觸發條件所對應之位置擷取裝置10取得並輸出實體語音位置P。

第3圖為本發明之第三實施例之語音辨識裝置之電路方塊圖。請參閱第3圖，以下介紹本發明之語音辨識裝置之第三實施例。第三實施例與第一實施例差別在於第三實施例更包含一座標轉換器14。於第三實施例中，位置擷取裝置10與方向性收音裝置11可使用不同座標系統，方向性收音裝置11與雜訊抑制器12可使用相同座標系統。座標轉換器14耦接位置擷取裝置10、雜訊抑制器12與方向性收音裝置11。座標轉換器14接收實體語音位置P，並轉換實體語音位置P之座標系為對應雜訊抑制器12與方向性收音裝置11之座標系後，傳送被轉換之實體語音位置P’至雜訊抑制器12與方向性收音裝置11，其中所有語音產生位置亦包含被轉換之實體語音位置P’。因此，方向性收音裝置11接收被轉換之實體語音位置P’，並根據被轉換之實體語音位置P’接收音源2產生之語音訊號V。雜訊抑制器12則接收語音訊號V與被轉換之實體語音位置P’，並根據被轉換之實體語音位置P’對應之雜訊模型消除語音訊號V之雜訊，以產生一語音辨識訊號R。

在本發明之一實施例中，位置擷取裝置10可為影像定位模組，觸發條件為影像相關觸發條件。在影像定位模組擷取具有一使用者之特定姿勢，例如舉手姿勢之影像時，觸發條件被滿足，此使用者作為音源2，且此使用者之實體位置作為實體語音位置P。舉例來說，影像定位模組可以把擷取到的影像區分為複數個區塊，並對每一區塊標上號碼，如此便可知道具有舉手姿勢的區塊之號碼，並將此作為實體語音位置P。或者，若影像定位模組具有雙鏡頭，則影像定位模組可以採用雙鏡頭對上述使用者進行定位，以取得使用者之三維座標，並將此作為實體語音位置P。

在本發明之另一實施例中，位置擷取裝置10可為語音定位模組，觸發條件為語音相關觸發條件。在語音定位模組於不同位置接收音源2產生之觸發語音時，觸發條件被滿足。其中觸發語音可與語音訊號相同或不同。語音定位模組取得在不同位置的觸發語音之不同接收時間點。因為不同接收時間點分別表示音源2相距語音定位模組之不同位置的距離，故語音定位模組可根據不同接收時間點取得實體語音位置P。舉例來說，語音定位模組可包含互相耦接之立體式麥克風陣列與語音處理器，立體式麥克風陣列包含複數個麥克風，因為所有麥克風位於不同位置，所以所有麥克風會在不同時間點接收到音源2產生的觸發語音，語音處理器可根據不同時間點之時間間隔與所有麥克風之位置計算出音源2之三維座標，並將此作為實體語音位置P。

第4圖為本發明之一實施例之位置擷取裝置10、方向性收音裝置11與雜訊抑制器12之電路方塊圖。請參閱第4圖，位置擷取裝置10可包含一觸控顯示面板100與一應用處理器101，其中應用處理器101耦接觸控顯示面板100、雜訊抑制器12與方向性收音裝置11。觸控顯示面板100顯示應用程式之操作介面，其中此操作介面具有對應實體語音位置P之影像。應用處理器101安裝有應用程式，故觸發條件為應用程式相關觸發條件。在觸控顯示面板100對應上述影像之位置被按下時，觸發條件被滿足，應用處理器101取得並輸出實體語音位置P。此外，第4圖中所示的電路可應用於第1圖或本發明中的其它實施例，但是不限於此。當第4圖中所示的電路應用在第3圖之實施例中時，應用處理器101耦接座標轉換器14。

第5圖為本發明之另一實施例之位置擷取裝置10、方向性收音裝置11與雜訊抑制器12之電路方塊圖。請參閱第5圖，方向性收音裝置11可包含一麥克風陣列110與一音訊處理器111。麥克風陣列110接收不同位置的語音訊號V。音訊處理器111耦接麥克風陣列110、位置擷取裝置10與雜訊抑制器12，音訊處理器111存有所有語音產生位置分別對應之複數組偏移時段。音訊處理器111接收實體語音位置P，並根據實體語音位置P與其對應之一組偏移時段移動在不同位置的語音訊號V之波形至同一時間點，且在此同一時間點相加語音訊號V，以產生被強化之語音訊號V’。音訊處理器111傳輸被強化之語音訊號V’至雜訊抑制器12，使雜訊抑制器12根據實體語音位置P對應之雜訊模型消除被強化之語音訊號V’之雜訊，以產生一語音辨識訊號R。此外，第5圖中所示的電路可應用於第1圖或本發明中的其它實施例，但是不限於此。當第5圖中所示的電路應用在第3圖之實施例中時，音訊處理器111與雜訊抑制器12耦接座標轉換器14，並以被轉換之實體語音位置P’代替實體語音位置P。當第5圖中所示的電路應用在第4圖之實施例中時，音訊處理器111耦接應用處理器101。

第6圖為本發明之一實施例之音源2與方向性收音裝置11之電路示意圖。請參閱第6圖，麥克風陣列110可包含麥克風m1、m2與m3，音訊處理器111可包含時間偏移器1111、1111’與1111”、一平均計算器1112與一參數調整器1113，其中時間偏移器1111、1111’與1111”分別耦接麥克風m1、m2與m3，參數調整器1113耦接時間偏移器1111、1111’與1111”，時間偏移器1111、1111’與1111”耦接平均計算器1112。參數調整器1113存有所有語音產生位置分別對應之複數組偏移時段。因為麥克風m1、m2與m3相距音源2之距離皆不同，所以麥克風m1、m2與m3會在不同時間點接收到語音訊號V。舉例來說，麥克風m2與m3所接收到的語音訊號V之時間點之間隔為t1，麥克風m1與m3所接收到的語音訊號V之時間點之間隔為t2。假設被轉換之實體語音位置P’或實體語音位置P對應麥克風m3，即代表麥克風m3距離音源2最近。參數調整器1113分別調整時間偏移器1111、1111’與1111”之偏移時段分別為d1、d2與d3，使d1=t2，d2=t1，d3=0。因此，麥克風m1、m2與m3所接收到之語音訊號V之波形都被偏移到對應麥克風m3接收到語音訊號V之時間點。接著，平均計算器1112從時間偏移器1111、1111’與1111”接收所有語音訊號V，並將其相加且平均，以產生被強化之語音訊號V’。此外，第6圖中所示的電路可應用於第1圖或本發明中的其它實施例，但是不限於此。當第6圖中所示的電路應用在第1圖之實施例中時，參數調整器1113耦接位置擷取裝置10。當第6圖中所示的電路應用在第3圖之實施例中時，參數調整器1113耦接座標轉換器14。當第6圖中所示的電路應用在第4圖之實施例中時，參數調整器1113耦接應用處理器101。

第7圖為本發明之再一實施例之位置擷取裝置10、方向性收音裝置11與雜訊抑制器12之電路方塊圖。請參閱第7圖，方向性收音裝置11亦可包含一方向性收音器112與一自動旋轉平台113。方向性收音器112耦接雜訊抑制器12，自動旋轉平台113耦接位置擷取裝置10，自動旋轉平台113支撐方向性收音器112。自動旋轉平台113接收實體語音位置P，並控制方向性收音器112之收音方向朝向實體語音位置P，且方向性收音器112接收語音訊號V，並傳輸語音訊號V至雜訊抑制器12。此外，第7圖中所示的電路可應用於第1圖或本發明中的其它實施例，但是不限於此。當第7圖中所示的電路應用在第3圖之實施例中時，自動旋轉平台113與雜訊抑制器12耦接座標轉換器14，並以被轉換之實體語音位置P’代替實體語音位置P。當第7圖中所示的電路應用在第4圖之實施例中時，自動旋轉平台113耦接應用處理器101。

第8圖為本發明之第四實施例之語音辨識裝置之電路方塊圖。請參閱第8圖，以下介紹本發明之語音辨識裝置之第四實施例。語音辨識裝置3包含複數個語音接收器30、一音訊處理器31、一雜訊抑制器32與一語音辨識處理器33，其中這些元件皆為硬體。音訊處理器31耦接所有語音接收器30，音訊處理器31存有複數個語音產生位置分別對應之複數組偏移時段。雜訊抑制器32耦接音訊處理器31，其中雜訊抑制器32存有所有語音產生位置分別對應之雜訊模型。語音辨識處理器33耦接雜訊抑制器32。此外，音訊處理器31與雜訊抑制器32使用相同座標系統。

以下介紹第四實施例之運作過程。首先，所有語音接收器30於不同位置接收一音源4產生之語音訊號V，其中語音訊號V包含對應操作權之操作語音。因為所有語音接收器30相距音源4之距離皆不同，所以所有語音接收器30會於不同時間點接收語音訊號V。音訊處理器31取得在不同位置的語音訊號V之不同接收時間點，並據此取得音源4的實體語音位置P，所有語音產生位置包含實體語音位置P。音訊處理器31根據實體語音位置P與其對應之一組偏移時段移動不同位置的語音訊號V之波形至同一時間點，且在此同一時間點相加語音訊號V，以產生被強化之語音訊號V’。雜訊抑制器32接收被強化之語音訊號V’與實體語音位置P，並根據實體語音位置P對應之雜訊模型消除被強化之語音訊號V’之雜訊，以產生一語音辨識訊號R。其中雜訊抑制器32更可採用自適應性濾波演算法(adaptive filter algorithm)與有限脈衝響應(Finite impulse response, FIR)濾波器消除語音訊號V之雜訊，以提高雜訊抑制效率。語音辨識處理器33接收語音辨識訊號R，並據此產生一操作訊號O。操作訊號O可用以控制公用設備。音訊處理器31先取得音源4之實體語音位置P，使音訊處理器31根據實體語音位置P產生被強化之語音訊號V’。如此一來，在語音訊號V控制公用設備時，可降低搶奪控制權之頻率及提升公用設備的操作性，並在複雜且密閉的環境中，改善收音品質、收音方向性與降噪功能，以提升語音辨識之精確性。

在本發明之某些實施例中，語音辨識處理器33可耦接音訊處理器31。在語音辨識處理器33未接收語音辨識訊號R長達一預設時段時，表示語音辨識裝置3之操作結束，以釋放出操作權。在語音辨識處理器33未接收語音辨識訊號R長達預設時段時，語音辨識處理器33控制音訊處理器31停止取得實體語音位置P，並控制音訊處理器31停止產生被強化之語音訊號V’，且控制音訊處理器31操作在待機狀態，直到語音接收器30接收到新的語音訊號為止。

第9圖為本發明之一實施例之音源4、語音接收器30與音訊處理器31之電路示意圖。請參閱第8圖與第9圖，語音接收器30可以麥克風M1、M2與M3實現，音訊處理器31可包含時間偏移器311、311’與311”、一平均計算器312與一參數調整器313，其中時間偏移器311、311’與311”分別耦接麥克風M1、M2與M3，參數調整器313耦接時間偏移器311、311’與311”與麥克風M1、M2與M3，時間偏移器311、311’與311”耦接平均計算器312。參數調整器313存有所有語音產生位置分別對應之複數組偏移時段。因為麥克風M1、M2與M3相距音源4之距離皆不同，所以麥克風M1、M2與M3會在不同時間點接收到語音訊號V。舉例來說，麥克風M2與M3所接收到的語音訊號V之時間點之間隔為t1，麥克風M1與M3所接收到的語音訊號V之時間點之間隔為t2。假設參數調整器313發現實體語音位置P對應麥克風M3，即代表麥克風M3距離音源4最近。參數調整器313分別調整時間偏移器311、311’與311”之偏移時段分別為d1、d2與d3，使d1=t2，d2=t1，d3=0。因此，麥克風M1、M2與M3所接收到之語音訊號V之波形都被偏移到對應麥克風M3接收到語音訊號V之時間點。接著，平均計算器312從時間偏移器311、311’與311”接收所有語音訊號V，並將其相加且平均，以產生被強化之語音訊號V’。此外，第9圖中所示的電路可應用於第8圖或本發明中的其它實施例，但是不限於此。

根據上述實施例，語音辨識裝置先取得音源之實體語音位置，並輸出語音位置至方向性收音裝置，使方向性收音裝置根據語音位置接收音源產生之語音訊號。如此一來，在語音訊號控制公用設備時，降低搶奪控制權之頻率及提升公用設備的操作性，並在複雜且密閉的環境中，改善收音品質、收音方向性與降噪功能，以提升語音辨識之精確性。

以上所述者，僅為本發明一較佳實施例而已，並非用來限定本發明實施之範圍，故舉凡依本發明申請專利範圍所述之形狀、構造、特徵及精神所為之均等變化與修飾，均應包括於本發明之申請專利範圍內。

1:語音辨識裝置 10:位置擷取裝置 100:觸控顯示面板 101:應用處理器 11:方向性收音裝置 110:麥克風陣列 111:音訊處理器 1111、1111’、1111”:時間偏移器 1112:平均計算器 1113:參數調整器 112:方向性收音器 113:自動旋轉平台 12:雜訊抑制器 13:語音辨識處理器 14:座標轉換器 2:音源 3:語音辨識裝置 30:語音接收器 31:音訊處理器 311、311’、311”:時間偏移器 312:平均計算器 313:參數調整器 32:雜訊抑制器 33:語音辨識處理器 4:音源 P:實體語音位置 V:語音訊號 R:語音辨識訊號 O:操作訊號 P’:被轉換之實體語音位置 V’:被強化之語音訊號 m1、m2、m3:麥克風 M1、M2、M3:麥克風

第1圖為本發明之第一實施例之語音辨識裝置之電路方塊圖。第2圖為本發明之第二實施例之語音辨識裝置之電路方塊圖。第3圖為本發明之第三實施例之語音辨識裝置之電路方塊圖。第4圖為本發明之一實施例之位置擷取裝置、方向性收音裝置與雜訊抑制器之電路方塊圖。第5圖為本發明之另一實施例之位置擷取裝置、方向性收音裝置與雜訊抑制器之電路方塊圖。第6圖為本發明之一實施例之音源與方向性收音裝置之電路示意圖。第7圖為本發明之再一實施例之位置擷取裝置、方向性收音裝置與雜訊抑制器之電路方塊圖。第8圖為本發明之第四實施例之語音辨識裝置之電路方塊圖。第9圖為本發明之一實施例之音源、語音接收器與音訊處理器之電路示意圖。

1:語音辨識裝置

10:位置擷取裝置

11:方向性收音裝置

12:雜訊抑制器

13:語音辨識處理器

2:音源

P:實體語音位置

V:語音訊號

R:語音辨識訊號

O:操作訊號

Claims

一種語音辨識裝置，包含：至少一個位置擷取裝置，其對應至少一個觸發條件，在一音源滿足該至少一個觸發條件時，該至少一個位置擷取裝置取得該音源之實體語音位置，並輸出該實體語音位置；一方向性收音裝置，耦接該至少一個位置擷取裝置，該方向性收音裝置用以接收該實體語音位置，並根據該實體語音位置接收該音源產生之語音訊號；一雜訊抑制器，耦接該至少一個位置擷取裝置與該方向性收音裝置，其中該雜訊抑制器存有複數個語音產生位置分別對應之雜訊模型，該些語音產生位置包含該實體語音位置，該雜訊抑制器用以接收該語音訊號與該實體語音位置，並根據該實體語音位置對應之該雜訊模型消除該語音訊號之雜訊，以產生一語音辨識訊號；以及一語音辨識處理器，耦接該雜訊抑制器，其中該語音辨識處理器用以接收該語音辨識訊號，並據此產生一操作訊號。
如請求項1所述之語音辨識裝置，更包含一座標轉換器，其係耦接該至少一個位置擷取裝置、該雜訊抑制器與該方向性收音裝置，其中該座標轉換器用以接收該實體語音位置，並轉換該實體語音位置之座標系為對應該雜訊抑制器與該方向性收音裝置之座標系後，傳送被轉換之該實體語音位置至該雜訊抑制器與該方向性收音裝置。
如請求項1所述之語音辨識裝置，其中該至少一個位置擷取裝置包含複數個位置擷取裝置，該至少一個觸發條件包含複數個觸發條件，該些觸發條件分別對應該些位置擷取裝置，在該音源依序滿足該些觸發條件時，由最早被滿足的該觸發條件所對應之該位置擷取裝置取得並輸出該實體語音位置。
如請求項1所述之語音辨識裝置，其中該至少一個位置擷取裝置為影像定位模組，在該影像定位模組擷取具有一使用者之舉手姿勢之影像時，該至少一個觸發條件被滿足，該使用者作為該音源，且該使用者之實體位置作為該實體語音位置。
如請求項1所述之語音辨識裝置，其中該至少一個位置擷取裝置為語音定位模組，在該語音定位模組於不同位置接收該音源產生之觸發語音時，該至少一個觸發條件被滿足，且該語音定位模組用以取得在該不同位置的該觸發語音之不同接收時間點，並據此取得該實體語音位置。
如請求項1所述之語音辨識裝置，其中該至少一個位置擷取裝置包含：一觸控顯示面板，用以顯示應用程式之操作介面，其中該操作介面具有對應該實體語音位置之影像；以及一應用處理器，耦接該觸控顯示面板、該雜訊抑制器與該方向性收音裝置，該應用處理器安裝有該應用程式，其中在該觸控顯示面板對應該影像之位置被按下時，該至少一個觸發條件被滿足，該應用處理器取得並輸出該實體語音位置。
如請求項1所述之語音辨識裝置，其中該方向性收音裝置包含：一麥克風陣列，用以接收不同位置的該語音訊號；以及一音訊處理器，耦接該麥克風陣列、該至少一個位置擷取裝置與該雜訊抑制器，該音訊處理器存有該些語音產生位置分別對應之複數組偏移時段，其中該音訊處理器用以接收該實體語音位置，並根據該實體語音位置與其對應之該組偏移時段移動在該不同位置的該語音訊號之波形至同一時間點，且在該同一時間點相加該語音訊號，以產生被強化之該語音訊號，該音訊處理器用以傳輸該被強化之該語音訊號至該雜訊抑制器。
如請求項1所述之語音辨識裝置，其中該方向性收音裝置包含：一方向性收音器，耦接該雜訊抑制器；以及一自動旋轉平台，耦接該至少一個位置擷取裝置，該自動旋轉平台支撐該方向性收音器，其中該自動旋轉平台用以接收該實體語音位置，並控制該方向性收音器之收音方向朝向該實體語音位置，且該方向性收音器用以接收該語音訊號，並傳輸該語音訊號至該雜訊抑制器。
如請求項1所述之語音辨識裝置，其中該語音辨識處理器耦接該至少一個位置擷取裝置與該方向性收音裝置，在該語音辨識處理器未接收該語音辨識訊號長達一預設時段時，該語音辨識處理器控制該至少一個位置擷取裝置停止取得該實體語音位置，並控制該方向性收音裝置停止接收該實體語音位置與產生該語音訊號，且控制該至少一個位置擷取裝置與該方向性收音裝置操作在待機狀態。
一種語音辨識裝置，包含：複數個語音接收器，用以於不同位置接收一音源產生之語音訊號；一音訊處理器，耦接該些語音接收器，該音訊處理器存有複數個語音產生位置分別對應之複數組偏移時段，該音訊處理器用以取得在該不同位置的該語音訊號之不同接收時間點，並據此取得該音源的實體語音位置，該些語音產生位置包含該實體語音位置，其中該音訊處理器用以根據該實體語音位置與其對應之該組偏移時段移動在該不同位置的該語音訊號之波形至同一時間點，且在該同一時間點相加該語音訊號，以產生被強化之該語音訊號；一雜訊抑制器，耦接該音訊處理器，其中該雜訊抑制器存有該些語音產生位置分別對應之雜訊模型，該雜訊抑制器用以接收該被強化之該語音訊號與該實體語音位置，並根據該實體語音位置對應之該雜訊模型消除該被強化之該語音訊號之雜訊，以產生一語音辨識訊號；以及一語音辨識處理器，耦接該雜訊抑制器，其中該語音辨識處理器用以接收該語音辨識訊號，並據此產生一操作訊號。
如請求項10所述之語音辨識裝置，其中該語音辨識處理器耦接該音訊處理器，在該語音辨識處理器未接收該語音辨識訊號長達一預設時段時，該語音辨識處理器控制該音訊處理器停止取得該實體語音位置，並控制該音訊處理器停止產生該被強化之該語音訊號，且控制該音訊處理器操作在待機狀態。