TWI502583B

TWI502583B - 語音處理裝置和語音處理方法

Info

Publication number: TWI502583B
Application number: TW102112876A
Authority: TW
Inventors: Hsi Chun Hsiao; Shou Te Wei
Original assignee: Wistron Corp
Priority date: 2013-04-11
Filing date: 2013-04-11
Publication date: 2015-10-01
Also published as: US9520131B2; CN104103274A; CN104103274B; US20140309994A1; TW201440036A

Description

語音處理裝置和語音處理方法

本發明是有關於一種語音處理裝置和語音處理方法，且特別是有關於分辨來自使用者的語音和環境噪音。

語音辨識(speech recognition)的技術，是在麥克風接收使用者的語音指令後，利用處理器將指令的聲音訊號與內建資料庫比對，輸出最接近的結果。

目前語音辨識的技術，在無環境噪音的情況下，能夠正確辨識語音指令。問題是接收的聲音無法控制，也就是說，不管是使用者的指令或者環境噪音，都會被接收而辨識。如圖1所示，電視120可透過麥克風130接收使用者140的語音指令145。但是麥克風130不僅接收使用者140的語音指令145，也接收電視120本身發出的經由牆壁110反彈的聲音訊號125，以及路人150的語音155。電視120發出的聲音訊號125和路人150的語音155都是環境噪音。

在一般有環境噪音的情況下，語音指令可能受到環境噪音的混雜和干擾，是否能辨識還是未知數。尤其是路人的語音和使用者的語音指令更難以分辨，這也是造成辨識錯誤的主因之一。

可知環境噪音的干擾，在語音辨識領域是亟待解決的重要問題。

本發明提供一種語音處理裝置和語音處理方法，可利用聲音和影片定位語音來源，以排除環境噪音的干擾，正確辨識使用者的語音指令。

本發明的語音處理裝置包括收音器、攝影機、以及處理器。收音器接收聲音訊號。攝影機拍攝影片。處理器耦接收音器和攝影機，取得聲音訊號的語音起始時間，偵測影片中的人臉，偵測人臉的嘴型輪廓的變動時間，並檢驗至少一個預設條件。在上述至少一個預設條件全部成立時，處理器對上述聲音訊號進行語音辨識。其中，上述的至少一個預設條件包括上述語音起始時間和上述變動時間的誤差小於一臨界值。

本發明的語音處理方法包括下列步驟：接收聲音訊號；取得聲音訊號的語音起始時間；拍攝影片；偵測影片中的人臉；偵測人臉的嘴型輪廓的變動時間；檢驗至少一個預設條件；以及在上述至少一個預設條件全部成立時，對上述聲音訊號進行語音辨識。其中，上述的至少一個預設條件包括上述語音起始時間和上述變動時間的誤差小於一臨界值。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

110‧‧‧牆壁

120‧‧‧電視

125‧‧‧聲音訊號

130‧‧‧麥克風

140‧‧‧使用者

145‧‧‧語音指令

150‧‧‧路人

155‧‧‧語音

200‧‧‧語音處理裝置

210‧‧‧收音器

215‧‧‧聲音訊號

220‧‧‧攝影機

225‧‧‧影片

230‧‧‧處理器

310~340、410~440、510~560‧‧‧方法步驟

610‧‧‧畫面

620‧‧‧人臉

630‧‧‧使用者

631、632‧‧‧聲音訊號

635‧‧‧時間差或相位差

636‧‧‧方向角度

650‧‧‧語音處理裝置的前方表面

651、652‧‧‧麥克風

710~780‧‧‧方法步驟

810、820‧‧‧畫面

830‧‧‧人臉

832‧‧‧嘴型輪廓

834‧‧‧外接四邊形

圖1是習知的環境噪音的干擾示意圖。

圖2是依照本發明一實施例的一種語音處理裝置的示意圖。

圖3、圖4和圖5是依照本發明一實施例的一種語音處理方法的流程圖。

圖6是依照本發明一實施例的判斷聲源方向的示意圖。

圖7是依照本發明一實施例的一種語音處理方法的流程圖。

圖8是依照本發明一實施例的偵測嘴型輪廓變動的示意圖。

圖2是依照本發明一實施例的一種語音處理裝置200的示意圖。語音處理裝置200可以是任何一種可接受使用者的語音指令操作的電子裝置，例如智慧型手機、個人數位助理(PDA：personal digital assistant)、平板電腦(tablet computer)、筆記型電腦、個人電腦、或各種智慧型家電。語音處理裝置200包括收音器210、攝影機220、以及處理器230。處理器230耦接收音器210和攝影機220。

圖3是依照本發明一實施例的一種語音處理方法的流程圖，此方法可由語音處理裝置200執行。收音器210在步驟310接收聲音訊號215。攝影機220在步驟320拍攝一段影片225。處理器230在步驟330檢驗至少一個預設條件，這些預設條件和聲音訊號215以及影片225相關。如果上述的至少一個預設條件全部成立，則處理器230在步驟340對聲音訊號215進行語音辨識。

圖4是依照本發明一實施例的一種語音處理方法的流程圖。圖4的方法流程是步驟330的預設條件其中之一的檢驗流程，圖4的方法流程所檢驗的預設條件是聲音訊號215必須來自預設方向。步驟330可包括圖4的方法流程，圖4的方法流程可由處理器230執行。

以下說明圖4的方法流程。首先，在步驟410判斷聲音訊號215的聲源方向(或稱為方向角度)，至於如何判斷聲源方向，在圖6有進一步說明。在步驟420檢查聲源方向是否符合預設方向。如果符合，則在步驟430判定圖4的方法流程所檢驗的預設條件成立，反之，則在步驟440判定圖4的方法流程所檢驗的預設條件不成立。

此處的預設方向，是根據預想中使用者操作語音處理裝置200時所在的位置。例如，當語音處理裝置200是一台電視，則進行操作的使用者會在電視前面，因此上述的預設方向可設定為電視正前方。上述的符合是指聲音訊號215的聲源方向和上述預設方向的角度誤差必須小於一個臨界值，例如上述的角度誤差必須小於五度。這個角度誤差的限制條件可以是步驟330所檢驗的預設條件其中之一。

圖5是依照本發明一實施例的一種語音處理方法的流程圖。圖5的方法流程是步驟330的預設條件其中之一的檢驗流程，圖5的方法流程所檢驗的預設條件是聲音訊號215的聲源方向必須符合使用者的人臉所在的方向。步驟330可包括圖5的方法流程，圖5的方法流程可由處理器230執行。

以下說明圖5的方法流程。首先，在步驟510判斷聲音訊號215的聲源方向，至於聲源方向如何判斷則如圖6所示。聲音訊號215來自使用者630，聲音訊號215包括兩個聲音訊號631和632。語音處理裝置200的前方表面標示為650。收音器210包括兩個麥克風651和652，麥克風651和652分別接收聲音訊號631和632。處理器230可根據聲音訊號631和632的時間差或相位差635判斷聲音訊號215的方向角度636。

例如，處理器230可將麥克風651和652所收到的聲音訊號631和632作訊號平移，偵測聲音訊號631和632其中兩個最強訊號交疊的時間點，計算此時的平移量可得到聲音訊號631和632的時間差或相位差635，進而得到聲音訊號215的方向角度636。根據多個聲音訊號的時間差或相位差計算聲源方向已經是習知技術，細節就不在此贅述。

接下來，在步驟520偵測影片225的畫面中是否有人臉，這個人臉可能屬於使用者。在影片畫面中偵測人臉已經是習知技術，例如可採用動態偵測(motion detection)、膚色偵測(skin color detection)、或模型偵測(model detection)等方式截取畫面中人臉的位置，細節就不在此贅述。如果沒偵測到人臉，則流程進入步驟560，判定圖5的方法流程所檢驗的預設條件不成立。如果偵測到人臉，例如圖6所示在影片225的畫面610之中偵測到人臉620，則在步驟530根據一個對照表將人臉在影片的畫面中的位置轉換為該人臉的方向。例如圖6所示，人臉620屬於使用者630，人臉620的方向角度為636。

上述的對照表可以預先製作，例如將一個物品和語音處理裝置200之間的距離限定為固定的預設距離(例如是3公尺)，在此前提下，將此物品擺放在對應於收音器210的多個不同角度之處，比較不同角度的物品於畫面上所在的不同位置，再將這些畫面位置與方向角度的對應關係記錄下來，就能建立方向角度與畫面位置的對照表。

或者，語音處理裝置200可提供一個校正程序。在此校正程序中，使用者分別在多個可以操作語音處理裝置200的位置發出聲音，處理器230可判斷聲源方向，記錄使用者在每一個上述位置時，使用者的人臉在影片225的畫面中的位置，以及每一個畫面位置所對應的聲音訊號215的聲源方向，然後可依據畫面位置與聲源方向的對應關係建立對照表。

上述對照表記錄多個不同的畫面位置，以及每個畫面位置所對應的方向。所以步驟530可將人臉出現在畫面中的位置轉換為對應的人臉方向。如果使用者正在講話，則使用者的人臉方向應該和聲源方向相同。所以，可在步驟540檢查聲音訊號215的聲源方向是否符合人臉方向。如果符合，則在步驟550判定圖5的方法流程所檢驗的預設條件成立，反之，則在步驟560判定圖5的方法流程所檢驗的預設條件不成立。上述的符合是指聲音訊號215的聲源方向和上述人臉方向的角度誤差必須小於一個臨界值，例如上述的角度誤差必須小於五度。這個角度誤差的限制條件可以是步驟330所檢驗的預設條件其中之一。

圖7是依照本發明一實施例的一種語音處理方法的流程圖。圖7的方法流程是步驟330的預設條件其中之一的檢驗流程，圖7的方法流程所檢驗的預設條件是聲音訊號215的語音起始時間(VOT：voice onset time)必須符合畫面中的人臉的嘴型輪廓的變動時間。步驟330可包括圖7的方法流程，圖7的方法流程可由處理器230執行。

以下說明圖7的方法流程。首先，在步驟710檢查聲音訊號215是否包括語音訊號。如果聲音訊號215不包括語音訊號，表示聲音訊號215純粹是環境噪音，因此流程進入步驟780，判定圖7的方法流程所檢驗的預設條件不成立。如果聲音訊號215包括語音訊號，則流程進入步驟720，取得聲音訊號215的語音起始時間。

舉例來說，在步驟710可對聲音訊號215做語音起始時間偵測(VOT detection)，以判斷聲音訊號215是否包括語音訊號。語音起始時間偵測是習知技術，簡單說，就是利用聲音訊號的頻譜特徵，例如梅爾頻率倒頻譜係數(MFCCs：Mel-frequency cepstral coefficients)的分布、能量、過零率(zero-crossing rate)、以及基頻軌跡(pitch contour)等等，偵測一段聲音訊號中的語音起始時間，以和一般非語音的聲音訊號做區隔。如果聲音訊號215包括語音訊號，上述的語音起始時間偵測即可取得聲音訊號215其中的語音起始時間。

以下繼續說明圖7的方法流程。在步驟730偵測影片225其中是否有人臉。如果偵測不到人臉，則流程進入步驟780，判定圖7的方法流程所檢驗的預設條件不成立。如果有人臉，則在步驟740偵測上述人臉是否有嘴型輪廓。例如可用主動形狀模型(ASMs：active shape models)以及主動外觀模型(AAMs：active appearance models)偵測嘴型輪廓。主動形狀模型和主動外觀模型都是習知技術，細節不在此贅述。

若在步驟740偵測不到嘴型輪廓，則流程進入步驟780，判定圖7的方法流程所檢驗的預設條件不成立。反之，如果有嘴型輪廓，則在步驟750偵測上述嘴型輪廓的變動時間。

嘴型輪廓的變動時間的偵測可以如圖8所示。在圖8的範例中，使用者830出現在影片225的兩個不同畫面810和820。處理器230可偵測使用者830的嘴型輪廓832在畫面810和820之間的一個變動量，上述變動量可以是嘴型輪廓832的面積、高度或寬度的變動量。或者，處理器230可偵測嘴型輪廓832的外接四邊形834，並且以外接四邊形834的面積、高度或寬度在畫面 810和820之間的變動量做為嘴型輪廓832的上述變動量。

如果嘴型輪廓832在畫面810和820之間沒有變動，或是嘴型輪廓832在畫面810和820之間的上述變動量並未大於預設的臨界值，則視為嘴型輪廓832沒有變動，流程進入步驟780，判定圖7的方法流程所檢驗的預設條件不成立。如果嘴型輪廓832在畫面810和820之間的上述變動量大於預設的臨界值，則可將嘴型輪廓832的變動時間設定為上述變動量大於預設臨界值的時間，而且流程進入步驟760。

在圖8的範例中，使用者830正在講話，所以嘴型輪廓832和外接四邊形834在畫面810和820之間都有明顯變動。如果聲音訊號215是使用者830的語音指令，則聲音訊號215的語音起始時間應該和嘴型輪廓832的變動時間同步。所以，可在步驟760檢查聲音訊號215的語音起始時間是否符合嘴型輪廓832的變動時間。如果符合，則在步驟770判定圖7的方法流程所檢驗的預設條件成立，反之，則在步驟780判定圖7的方法流程所檢驗的預設條件不成立。上述的符合是指聲音訊號215的語音起始時間和嘴型輪廓832的變動時間的誤差必須小於一個臨界值，例如上述的時間誤差必須小於0.2秒。這個時間誤差的限制條件可以是步驟330所檢驗的預設條件其中之一。

圖4、圖5和圖7的方法流程分別代表不同的預設條件的檢驗。步驟330所檢驗的預設條件可包括圖4、圖5和圖7的預設條件其中的一個或多個預設條件。對於不符合預設條件的聲音訊號，都可以視為環境噪音而予以排除。當步驟330所檢驗的預設條件全部成立，則可將聲音訊號215視為使用者的語音，處理器230可以在步驟340對聲音訊號215進行語音辨識，以判斷聲音訊號215是否為語音指令。如果聲音訊號215是語音指令，則處理器230可執行此語音指令。

綜上所述，本發明提供的語音處理裝置和語音處理方法，可使用一個或多個預設條件分辨來自使用者的語音和環境噪音，以排除環境噪音的干擾，以確保只對使用者的語音進行辨識。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

310~340‧‧‧方法步驟

Claims

一種語音處理裝置，包括：一收音器，接收一聲音訊號；一攝影機，拍攝一影片；以及一處理器，耦接該收音器和該攝影機，取得該聲音訊號的一語音起始時間，偵測該影片中的一人臉，偵測該人臉的嘴型輪廓在該影片的兩個畫面之間的一變動量，並且將一變動時間設定為該變動量大於一第二臨界值的時間後，檢驗至少一預設條件，並且在該至少一預設條件全部成立時對該聲音訊號進行語音辨識，其中該至少一預設條件包括該語音起始時間和該變動時間的誤差小於一第一臨界值。
如申請專利範圍第1項所述之語音處理裝置，其中該變動量為該嘴型輪廓的面積、高度或寬度的變動量。
如申請專利範圍第1項所述之語音處理裝置，其中該處理器偵測該嘴型輪廓的外接四邊形，而且該變動量為該外接四邊形的面積、高度或寬度的變動量。
如申請專利範圍第1項所述之語音處理裝置，其中該處理器判斷該聲音訊號的聲源方向，而且該至少一預設條件更包括該聲源方向和一預設方向的角度誤差小於一第三臨界值。
如申請專利範圍第4項所述之語音處理裝置，其中該收音器包括一第一麥克風和一第二麥克風，該聲音訊號包括一第一聲音訊號和一第二聲音訊號，該第一麥克風和該第二麥克風分別接收該第一聲音訊號和該第二聲音訊號，該處理器根據該第一聲音訊號和該第二聲音訊號的時間差或相位差判斷該聲源方向。
如申請專利範圍第1項所述之語音處理裝置，其中該處理器判斷該聲音訊號的聲源方向，並根據一對照表將該人臉在該影片的畫面中的位置轉換為該人臉的方向，而且該至少一預設條件更包括該聲源方向和該人臉的方向的角度誤差小於一第四臨界值。
如申請專利範圍第6項所述之語音處理裝置，其中該處理器記錄該人臉在該影片的畫面中的多個位置，以及每一上述位置所對應的該聲源方向，以建立該對照表。
一種語音處理方法，包括：接收一聲音訊號；取得該聲音訊號的一語音起始時間；拍攝一影片；偵測該影片中的一人臉；偵測該人臉的嘴型輪廓在該影片的兩個畫面之間的一變動量；將一變動時間設定為該變動量大於一第二臨界值的時間；檢驗至少一預設條件；以及在該至少一預設條件全部成立時對該聲音訊號進行語音辨識，其中該至少一預設條件包括該語音起始時間和該變動時間的誤差小於一第一臨界值。
如申請專利範圍第8項所述之語音處理方法，其中該變動量為該嘴型輪廓的面積、高度或寬度的變動量。
如申請專利範圍第8項所述之語音處理方法，其中偵測該嘴型輪廓的該變動量的步驟包括：偵測該嘴型輪廓的外接四邊形，而且該變動量為該外接四邊形的面積、高度或寬度的變動量。
如申請專利範圍第8項所述之語音處理方法，更包括：判斷該聲音訊號的聲源方向，其中該至少一預設條件更包括該聲源方向和一預設方向的角度誤差小於一第三臨界值。
如申請專利範圍第11項所述之語音處理方法，其中該聲音訊號包括一第一聲音訊號和一第二聲音訊號，而且判斷該聲源方向的步驟包括：根據該第一聲音訊號和該第二聲音訊號的時間差或相位差判斷該聲源方向。
如申請專利範圍第8項所述之語音處理方法，更包括：判斷該聲音訊號的聲源方向；以及根據一對照表將該人臉在該影片的畫面中的位置轉換為該人臉的方向，其中該至少一預設條件更包括該聲源方向和該人臉的方向的角度誤差小於一第四臨界值。
如申請專利範圍第13項所述之語音處理方法，更包括：記錄該人臉在該影片的畫面中的多個位置，以及每一上述位置所對應的該聲源方向，以建立該對照表。