TW201503116A

TW201503116A - 利用聲紋識別進行語音辨識的方法及其電子裝置

Info

Publication number: TW201503116A
Application number: TW102125581A
Authority: TW
Inventors: guo-feng Zhang
Original assignee: Via Tech Inc
Priority date: 2013-07-09
Filing date: 2013-07-17
Publication date: 2015-01-16
Also published as: US20150019222A1; US10224029B2; TWI523006B; CN104282303B; CN104282303A

Abstract

一種利用聲紋識別進行語音辨識的方法及其電子裝置，此方法包括下列步驟：接收一特定語音片段，切割所接收的特定語音片段為數個特定子語音片段，並對此數個特定子語音片段分別進行一聲紋識別流程。根據聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段。擷取被判斷為適格的子語音片段，進行語音辨識。

Description

利用聲紋識別進行語音辨識的方法及其電子裝置

本發明是有關於一種語音辨識的方法及其電子裝置，且特別是有關於一種利用聲紋識別進行語音辨識的方法及其電子裝置。

以現有技術而言，大多數的電子裝置，例如手機、筆記型電腦、平板電腦等，都具有語音辨識模組，使用者可藉由聲控的方式，控制電子裝置執行各種指令。但是，在處理使用者語音對話輸入時，由於外界的干擾噪音，很容易使得語音辨識模組錯誤的將使用者語音輸入之外的其他聲音作識別，而導致識別錯誤率上升。因此，如何提升使用者語音輸入的正確辨識率，乃是目前語音辨識領域需要研究的課題。

本發明提供一種利用聲紋識別進行語音辨識的方法，此方法包括下列步驟：接收一特定語音片段，切割所接收的特定語音片段為數個特定子語音片段，對此數個特定子語音片段分別進行一聲紋識別流程，根據对此數個特定子語音片段分別進行聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段。接著，擷取被判斷為適格的子語音片段，進行語音辨識。

在本發明的一實施例中，其中，根據對上述數個特定子語音片段分別進行前述聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段的步驟，更包括：依照時間先後順序，定義上述數個特定子語音片段為一第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段，其中，N為上述數個特定子語音片段的個數。接著，透過前述聲紋識別流程，分別辨識第一子語音片段、第二子語音片段及第三子語音片段。當第一子語音片段、第二子語音片段、第三子語音片段透過聲紋識別流程，被識別為同一特定用戶之聲紋，則接著辨識第四子語音片段至第N子語音片段，是否亦為此同一特定用戶之聲紋。當判斷第四子語音片段至第N子語音片段其中之一個或多個子語音片段亦為此同一特定用戶之聲紋，則判斷是此同一特定用戶之聲紋的子語音片段為適格的子語音片段，接著對這些適格的子語音片段進行語音辨識。

在本發明的一實施例中，其中，辨識第四子語音片段至第N子語音片段是否亦為此同一特定用戶之聲紋的步驟，更包括：當判斷第四子語音片段至第N子語音片段其中之一個或多個子語音片段並非此同一特定用戶之聲紋，則判斷不是此同一特定用戶之聲紋的子語音片段為不適格的子語音片段。接著，捨棄這些不適格的子語音片段，不對其進行語音辨識。

在本發明的一實施例中，其中，根據分別對上述數個特定子語音片段分別進行聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段的步驟，包括：在一資料庫提前儲存一預設聲紋辨識資料，當判斷上述數個子語音片段其中之一個或多個子語音片段為符合預設聲紋辨識資料之聲紋時，則確定符合預設聲紋辨識資料之聲紋的子語音片段為適格的子語音片段，接著，對這些適格的子語音片段進行語音辨識。

在本發明的一實施例中，其中，根據分別對上述數個特定子語音片段分別進行聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段的步驟，更包括：當判斷上述數個子語音片段其中之一或多個子語音片段為不符合預設聲紋辨識資料之聲紋時，則確定不符合預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段。接著，捨棄這些不適格的子語音片段，不對其進行語音辨識。

在本發明的一實施例中，其中，上述的聲紋識別流程是利用梅爾倒頻譜係數運算方法(Mel-Frequency Cepstral Coefficients，MFCCs)實施。

本發明提供一種利用聲紋識別進行語音辨識的裝置，包括：一收發模組、一控制模組。其中，收發模組接收一特定語音片段，而控制模組耦接至收發模組，控制模組切割所接收的特定語音片段為數個特定子語音片段，並對此數個特定子語音片段分別進行一聲紋識別流程，根據此數個特定子語音片段分別進行聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段。接著，擷取被判斷為適格的子語音片段，進行語音辨識。

基於上述，本發明提供一種利用聲紋識別進行語音辨識的方法及其電子裝置。在進行語音辨識之前，先透過聲紋識別流程，判斷經收發模組接收到的語音片段，切割之後的其中一個或多個子語音片段是否為適格的子語音片段，接著再擷取適格的子語音片段，對其進行語音辨識。依此使得語音交互的人機介面，不再因為其他噪音的干擾，而導致大量的錯誤辨識。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100‧‧‧電子裝置

110‧‧‧收發模組

120‧‧‧控制模組

130‧‧‧資料庫

S210~S260、S310~S344、S410~S424‧‧‧利用聲紋識別進行語音辨識的方法流程步驟

圖1是依照本發明實施例的一種電子裝置的示意圖。

圖2是依照本發明實施例的一種利用聲紋識別進行語音辨識的方法的流程圖。

圖3是依照本發明圖1實施例的另一種利用聲紋識別進行語音辨識的方法的流程圖。

圖4A是依照本發明另一實施例的一種電子裝置的示意圖。

圖4B是依照本發明圖4A實施例的一種利用聲紋識別進行語音辨識的方法的流程圖。

圖1是依照本發明實施例的一種電子裝置的示意圖，電子裝置100實施本發明所提出的利用聲紋識別進行語音辨識的方法。電子裝置100包括收發模組110、控制模組120，兩者相互耦接。其中，收發模組110可以是麥克風、音訊偵測器等收音元件及喇叭、擴大機等播音元件的組合。控制模組120可以是硬體及/或軟體所實現的功能模塊，其中，硬體可包括中央處理器、晶片組、微處理器等具有運算功能的硬體設備或上述硬體設備的組合，而軟體則可以是作業系統、驅動程式等等，控制模組120為提供本發明利用聲紋識別進行語音辨識整體過程之主控元件。

圖2是依照本發明實施例的一種利用聲紋識別進行語音辨識的方法的流程圖，請同時參照圖1及圖2。首先，收發模組110接收一特定語音片段(步驟210)，控制模組120切割收發模組110所接收的此特定語音片段為數個特定子語音片段(步驟S220)，接著，對此數個特定子語音片段分別進行一聲紋識別流程(步驟S230)。其中，聲紋識別流程是利用梅爾倒頻譜係數運算方法(Mel-Frequency Cepstral Coefficients，MFCCs)實施，在語音辨識(Speech Identification)和聲紋辨識(Voiceprint Recognition)方面，最常用到的語音特徵就是梅爾倒頻譜係數，此參數考慮到聽覺對於不同頻率的感受程度，因此特別適合用在語音或聲紋辨識。梅爾倒頻譜係數的計算首先用快速傅立葉轉換(Fast Fourier Transform，FFT)將時域信號轉化成頻域，之後對其對數能量譜用依照梅爾(Mel)刻度分布的三角濾波器組進行卷積，最後對各個濾波器的輸出構成的向量進行離散餘弦變換，進而得到結果。

在步驟S230之後，控制模組120根據上述數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段(步驟S240)。當步驟S240的判斷為否，則該控制模組120捨棄該些不適格的子語音片段，不對其進行語音辨識(步驟S250)。當步驟S240判斷為是，控制模組120擷取被判斷為該適格的子語音片段，進行語音辨識(步驟S260)。

圖3是依照本發明另一實施例的一種利用聲紋識別進行語音辨識的方法的流程圖，請同時參照圖1及圖3。圖3在步驟S210~S230與圖2所揭示的流程相同，不再贅述。而在圖2所揭示的步驟S240，根據進行聲紋識別流程的結果，控制模組120判斷各特定子語音片段是否為適格的子語音片段的步驟，更在圖3之實施例中，細分為步驟S310~S344，將於以下論述。圖3之實施例，在步驟S230對上述數個特定子語音片段分別進行聲紋識別流程之後，依照時間先後順序，定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段，其中，N為上述數個特定子語音片段的個數(步驟S310)。

接著，透過前述聲紋識別流程，辨識第一子語音片段、第二子語音片段及第三子語音片段(步驟S320)，判斷此第一子語音片段、此第二子語音片段、此第三子語音片段透過前述聲紋識別流程，是否被識別為同一特定用戶之聲紋(步驟S330)，也就是說，判斷此第一子語音片段、此第二子語音片段、此第三子語音片段是否由同一位使用者之發出。當步驟S330的判斷為否，則認定其為不適格的子語音片段(步驟S342)。而當步驟S330的判斷為是，則至步驟S340，判斷第四子語音片段至第N子語音片段其中之一個或多個子語音片段是否仍為此同一特定用戶之聲紋(步驟S340)。當步驟S340的判斷為否，則認定不是此同一特定用戶之聲紋的子語音片段為不適格的子語音片段(步驟S342)，當步驟S340的判斷為是，則認定是此同一特定用戶之聲紋的子語音片段為適格的子語音片段(步驟S344)。在步驟S342之後，捨棄上述被判斷為不適格的子語音片段，不對其進行語音辨識(步驟S250)。而在步驟S344之後，擷取被判斷為適格的子語音片段，進行語音辨識(步驟S260)。

圖4A是依照本發明另一實施例的一種電子裝置的示意圖，圖4B是依照本發明圖4A實施例的一種利用聲紋識別進行語音辨識的方法的流程圖，請同時參照圖4A及圖4B。圖4A的功能方塊圖與圖1實施例相較，其不同之處在於圖4A具有資料庫130耦接至控制模組120，資料庫130預先儲存一預設聲紋辨識資料。圖4B在步驟S210~S230與圖2所揭示的流程相同，不再贅述。而在圖2所揭示的步驟S240，控制模組120根據進行聲紋識別流程的結果，判斷各特定子語音片段是否為適格的子語音片段的步驟，在圖4B之實施例中，更細分為步驟S410~S424，將於以下論述。圖4B之實施例，在資料庫130預先儲存一預設聲紋辨識資料(步驟S410)。接著，控制模組120判斷上述數個特定子語音片段其中之一個或多個子語音片段是否符合此預設聲紋辨識資料之聲紋(步驟S420)。當步驟S420的判斷為否，則判斷不符合預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段(步驟S422)。當步驟S420的判斷為是，則判斷符合預設聲紋辨識資料之聲紋的子語音片段為適格的子語音片段(步驟S424)。在步驟S422之後，捨棄上述被判斷為不適格的子語音片段，不對其進行語音辨識(步驟S250)，而在步驟S424之後，擷取被判斷為適格的子語音片段，進行語音辨識(步驟S260)。

綜上所述，本發明提供一種利用聲紋識別進行語音辨識的方法及其電子裝置，在進行語音辨識之前，先透過聲紋識別流程，判斷經收發模組接收到的語音片段，切割之後的其中一個或多個子語音片段是否為適格的子語音片段，接著再擷取適格的子語音片段，對其進行語音辨識。藉由本發明所提供的判斷流程，使得語音交互的人機介面，擷取真正屬於使用者的語音對話片段，不再因為其他語音或噪音的干擾，而導致錯誤辨識，大大提升了語音辨識的正確率。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S210~S260‧‧‧利用聲紋識別進行語音辨識的方法流程步驟

Claims

一種利用聲紋識別進行語音辨識的方法，包括：接收一特定語音片段；切割所接收的該特定語音片段為數個特定子語音片段；對該數個特定子語音片段分別進行一聲紋識別流程；根據該數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各該特定子語音片段是否為適格的子語音片段；以及擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法，其中當判斷各該特定子語音片段為不適格的子語音片段，則捨棄該些不適格的子語音片段，不對其進行語音辨識。
如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法，其中，根據對該數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各該特定子語音片段是否為適格的子語音片段的步驟，更包括：依照時間先後順序，定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段，其中，N為該數個特定子語音片段的個數；透過該聲紋識別流程，辨識該第一子語音片段、該第二子語音片段及該第三子語音片段；當該第一子語音片段、該第二子語音片段、該第三子語音片段透過該聲紋識別流程，被識別為同一特定用戶之聲紋，則接著辨識該第四子語音片段至該第N子語音片段，是否亦為該同一特定用戶之聲紋；當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段亦為該同一特定用戶之聲紋，則判斷是該同一特定用戶之聲紋的子語音片段為該適格的子語音片段；以及擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第3項所述的利用聲紋識別進行語音辨識的方法，其中，辨識該第四子語音片段至該第N子語音片段是否亦為該同一特定用戶之聲紋步驟，更包括：當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段並非該同一特定用戶之聲紋，則判斷不是該同一特定用戶之聲紋的子語音片段為不適格的子語音片段；以及捨棄該些不適格的子語音片段，不對其進行語音辨識。
如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法，其中，根據該數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各該特定子語音片段是否為適格的子語音片段的步驟，包括：在一資料庫儲存一預設聲紋辨識資料；以及當判斷該數個特定子語音片段其中之一個或多個特定子語音片段符合該預設聲紋辨識資料之聲紋，則判斷符合該預設聲紋辨識資料之聲紋的子語音片段為該適格的子語音片段；以及擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第5項所述的利用聲紋識別進行語音辨識的方法，其中，根據該數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各該特定子語音片段是否為適格的子語音片段的步驟，更包括：當判斷該數個特定子語音片段其中之一個或多個特定子語音片段不符合該預設聲紋辨識資料之聲紋，則判斷不符合該預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段；以及捨棄該些不適格的子語音片段，不對其進行語音辨識。
如申請專利範圍第1項所述的利用聲紋識別進行語音辨識的方法，其中，該聲紋識別流程是利用梅爾倒頻譜係數運算方法實施。
一種電子裝置，包括：一收發模組，接收一特定語音片段；以及一控制模組，耦接至該收發模組，切割所接收的該特定語音片段為數個特定子語音片段，分別對該數個特定子語音片段進行一聲紋識別流程，根據該數個特定子語音片段分別進行該聲紋識別流程的結果，判斷各該特定子語音片段是否為適格的子語音片段，擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第8項所述的電子裝置，其中該控制模組依照時間先後順序，定義該數個特定子語音片段為第一子語音片段、第二子語音片段、第三子語音片段至第N子語音片段，其中，N為該數個特定子語音片段的個數，該控制模組並透過該聲紋識別流程，辨識該第一子語音片段、該第二子語音片段及該第三子語音片段，當該第一子語音片段、該第二子語音片段、該第三子語音片段透過該聲紋識別流程，被識別為同一特定用戶之聲紋，則該控制模組接著辨識該第四子語音片段至該第N子語音片段，是否亦為該同一特定用戶之聲紋，當該控制模組判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段亦為該同一特定用戶之聲紋，則判斷是該同一特定用戶之聲紋的子語音片段為該適格的子語音片段，該控制模組擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第9項所述的電子裝置，其中該控制模組當判斷該第四子語音片段至該第N子語音片段其中之一個或多個子語音片段並非該同一特定用戶之聲紋，則判斷不是該同一特定用戶之聲紋的子語音片段為不適格的子語音片段，該控制模組捨棄該些不適格的子語音片段，不對其進行語音辨識。
如申請專利範圍第10項所述的電子裝置，更包括：一資料庫，耦接至該控制模組，預先儲存一預設聲紋辨識資料，當該控制模組判斷該數個特定子語音片段其中之一個或多個特定子語音片段符合該預設聲紋辨識資料之聲紋時，則判斷符合該預設聲紋辨識資料之聲紋的子語音片段為該適格的子語音片段，該控制模組接著擷取被判斷為該適格的子語音片段，進行語音辨識。
如申請專利範圍第11項所述的電子裝置，更包括當該控制模組判斷該特定數個子語音片段其中之一個或多個特定子語音片段不符合該預設聲紋辨識資料之聲紋，則判斷不符合該預設聲紋辨識資料之聲紋的子語音片段為不適格的子語音片段，該控制模組捨棄該些不適格的子語音片段，不對其進行語音辨識。
如申請專利範圍第8項所述的電子裝置，其中，該聲紋識別流程是利用梅爾倒頻譜係數運算方法實施。