TWI466101B

TWI466101B - 語音識別方法及系統

Info

Publication number: TWI466101B
Application number: TW101117791A
Authority: TW
Inventors: Nilay Chokhoba Badavne; Tai Ming Parng; Po Yuan Yeh; Yadaiah Vinay Kumar Baapanapalli
Original assignee: Asustek Comp Inc
Priority date: 2012-05-18
Filing date: 2012-05-18
Publication date: 2014-12-21
Also published as: US20130311184A1; TW201349222A

Description

語音識別方法及系統

本發明是有關於一種語音識別系統及方法，且特別是有關於一種可針對不同語者調適的語音識別系統及方法。

自動語音識別系統是利用不特定語者(speaker independent)聲學模型來辨識語者所說的單字。此不特定語者模型是利用由大量語音素材(corpus)中取得的多個語者的語音資料以及已知轉譯(transcription)資料所建立。此種方法雖可產生較為均衡(average)的不特定語者模型，但針對使用特定方式說話的不同語者，仍不一定能夠提供準確的辨識結果，且若使用上述系統的使用者並非本國語者(native speaker)或是為幼童，系統的辨識準確度將大幅下降。

特定語者(speaker dependent)聲學模型則是針對特定語者所建立，其係將每個語者的語音特性模組化為語音模型，因此可提供相當高的辨識準確度。然而，要產生這樣的特定語者聲學模型需要取得大量的語音資料，才得以進行語者調適(speaker adaptation)。

常見的聲學模型訓練方式為離線監督式語者調適(off-line supervised speaker adaptation)，其係要求使用者重覆唸出預先定義的語句並錄製為語音資料，而當收集足夠數量語句的語音資料後，系統再根據已知語句及所收集的語音資料進行語者調適，從而建立該語者的聲學模型。然而，在許多系統、應用或裝置中，使用者多不願意進行上述的訓練過程，因此要從單一語者上收集足夠的語音資料，並用以產生特定語者聲學模型，是相當困難且不實際的。

另一種方式則為線上非監督式語者調適(on-line unsupervised speaker adaptation)，其係先辨識語者的語音資料，然後根據辨識結果(transcript)在系統運行(run time)期間進行不特定語者聲學模型的調適。此種方式雖可提供線上即時的語者調適，但卻需要先辨識語音資料才能進行調適，相對於已知語句的離線調適方式而言，辨識結果不太可能完全正確。

有鑑於此，本發明提出一種語音識別方法及系統，藉由辨識語音資料的語者身份，據以進行聲學模型的語者調適(speaker adaptation)，可增加語音識別的準確性。

本發明提出一種語音識別方法，其係擷取一語音資料中的至少一個語音特徵，據以辨識此語音資料的語者身份，接著使用第一聲學模型來辨識語音資料中的語句，而根據所辨識的語句及語音資料，計算所辨識語句的信心分數(confidence score)，並判斷此信心分數是否超過第一門檻值。其中，當信心分數超過第一門檻值時，即收集所辨識的語句及語音資料，以使用此語音資料進行與語者身份相對應的第二聲學模型的語者調適。

本發明提出一種語音識別系統，其包括語者識別模組、語音辨識模組、詞語確認模組、資料收集模組及語者調適模組。其中，語者識別模組係用以擷取語音資料中的至少一個語音特徵，據以辨識語音資料的語者身份。語音辨識模組係使用第一聲學模型辨識語音資料中的語句。詞語確認模組係根據語音辨識模組所辨識的語句及語音資料，計算所辨識語句的信心分數，並判斷此信心分數是否超過第一門檻值。資料收集模組係在詞語確認模組判斷信心分數超過第一門檻值時，收集語音辨識模組所辨識的語句及語音資料。語者調適模組係使用資料收集模組所收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適。

基於上述，本發明之語音識別方法及系統係針對不同語者建立專屬的聲學模型，並在接收到語音資料時，計算辨識該語音資料的信心分數及發音分數，據以決定是否以此語音資料來進行相對應語者之聲學模型的語者調適，藉此可增加語音識別的準確性。

為讓本發明之上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明係收集不同語者輸入的語音資料，辨識語音資料中的語句，並確認所辨識語句的正確性，據以決定是否將此語音資料用來進行語者調適(speaker adaptation)以產生語者的聲學模型。隨著所收集語音資料的遞增，可將聲學模型調適為愈來愈接近語者的語音特性，而針對不同語者自動切換使用專屬的聲學模型來辨識語句，則可增加辨識的準確度。上述語音資料的收集及聲學模型的調適均是在背景中執行，因此可在使用者不知情或不干擾使用者的情況下自動進行，提供使用便利性。

圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖1及圖2，本實施例的語音識別系統10包括語者識別模組11、語音辨識模組12、詞語確認模組13、資料收集模組14及語者調適模組15，以下即搭配圖1中語音識別系統10的各項元件說明本實施例語音識別方法的詳細步驟：

首先，由語者識別模組11接收語者輸入的語音資料，而擷取此語音資料中的至少一個語音特徵，據以辨識語音資料的語者身份(步驟S202)。其中，語者識別模組11例如分別利用已建立在語音識別系統10之聲學模型資料庫(未繪示)中的多個語者的聲學模型來辨識上述語音資料中的語音特徵，而根據各個聲學模型取得語音資料的辨識結果，語者識別模組11即可判斷出語音資料的語者身份。

接著，由語音辨識模組12使用第一聲學模型辨識語音資料中的語句(步驟S204)。其中，語音辨識模組12 例如會應用自動語音辨識(automatic speech recognition，ASR)技術，而使用一個不特定語者(speaker independent)聲學模型來辨識語音資料中的語句。此不特定語者聲學模型例如是內建在語音識別系統10中，而可用以辨識不特定語者輸入的語音資料。

需說明的是，本實施例的語音識別系統10還可針對不同的語者建立各自專屬的聲學模型，並給予此語者或其聲學模型一個特定的語者身份。藉此，每當語者識別模組11接收到由已建立有聲學模型之語者輸入的語音資料時，即可立即識別出該語者的身份，從而選用其對應的聲學模型來辨識語音資料。

舉例來說，圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。請參照圖3，在語者識別模組11擷取語音資料中的至少一個語音特徵，並據以辨識語音資料的語者身份(步驟S302)。之後，語音辨識模組12會進一步判斷語者識別模組11是否辨識出語音資料的語者身份(步驟S304)。其中，若語者識別模組11可辨識語者身份，語音辨識模組12即可從語者識別模組11接收語者身份，並使用與此語者身份相對應的聲學模型來辨識語音資料中的語句(步驟S306)；反之，若語者識別模組11無法辨識該語者身份，則可額外建立一個新的語者身份，而語音辨識模組12在從語者識別模組11接收到新的語者身份時，則會使用不特定語者(speaker independent)聲學模型來辨識語音資料中的語句 (步驟S308)。藉此，即便是在沒有可與語音資料相對應的語者聲學模型的情況下，語音識別系統10仍然能夠藉由使用不特定語者聲學模型來辨識語音資料，進而建立此語者專屬的聲學模型。

回到圖2的流程，在語音辨識模組12辨識語音資料中的語句之後，詞語確認模組13即根據語音辨識模組12所辨識的語句及語音資料，計算所辨識語句的信心分數(步驟S206)。其中，詞語確認模組13例如是利用詞語確認(utterance verification)技術來量測所辨識語句的信心分數，藉此判斷所辨識語句的正確性(correctness)。

接著，詞語確認模組13會判斷所計算的信心分數是否超過第一門檻值(步驟S208)，並在此信心分數超過第一門檻值時，輸出語音辨識模組12所辨識的語句及語音資料，而由資料收集模組14收集，語者調適模組15則使用資料收集模組14收集的語音資料進行與語者身份相對應的第二聲學模型的語者調適(步驟S210)。反之，在詞語確認模組13判斷信心分數不超過第一門檻值時，資料收集模組14則不會收集此語音資料，語者調適模組15也不會使用此語音資料進行語者調適(步驟S212)。

詳言之，資料收集模組14例如會將具有高信心分數的語音資料及其語句儲存在語音識別系統10的語音資料庫(未繪示)中，以準備做為聲學模型的語者調適之用。語者調適模組15則會根據語者識別模組11所辨識的語者身份，判斷語音識別系統10中是否已建立有此語者對應的聲學模型。而若系統中已有對應的聲學模型，則語者調適模組15即會使用資料收集模組14所收集的語句及語音資料直接對該聲學模型進而語者調適，從而將該聲學模型調適得愈來愈接近該語者的語音特性。其中，上述的聲學模型例如是一個採用隱藏式馬可夫模型(Hidden-Markov Model，HMM)的統計模型，其例如會記錄先前資料的平均值(mean)和變異數(variacne)等統計值，而每當有新的語音資料進入後，這些統計值也將會對應此語音資料做小幅變動，最終獲得一個更強健(robust)的統計模型。

另一方面，若系統中沒有對應的聲學模型，則語者調適模組15還會根據資料收集模組14所收集的語音資料的數目，而決定是否進行語者調適以新增新的聲學模型。

詳言之，圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。請參照圖4，本實施例係由資料收集模組14收集語句及語音資料(步驟S402)，而語者調適模組15則會在資料收集模組14每次收集到新的語音資料時，判斷其所收集的語音資料數目是否超過第三門檻值(步驟S404)。其中，當判斷數目超過第三門檻值時，即代表所收集的資料已足以建立聲學模型，此時語者調適模組15即會利用資料收集模組14所收集的語音資料，將一個不特定語者(speaker independent)聲學模型轉換為特定語者(speaker dependent)聲學模型，並用以作為與語者身份相對應的聲學模型(步驟S406)。反之，當判斷數目不超過第三門檻值時，則回到步驟S402，由資料收集模組 14繼續收集語句及語音資料。

藉由上述方法，當使用者將配備本案語音識別系統的裝置買回家時，即可由家中成員分別輸入語音資料，藉以建立各自的聲學模型。而隨著各個成員使用次數的增加，各個聲學模型也將調適得愈來愈接近成員的語音特性。此外，在每次接收到語音資料時，語音識別系統也會自動辨識成員身分，並選用相對應的聲學模型來進行語音辨識，因此可增加語音辨識的正確性。

除了上述辨識語句正確性的評分機制外，本發明還針對語音資料中多個詞語(utterance)，設計一個發音的評分機制，並用以篩選語音資料，從而去除語意正確但發音不正確的語音資料。以下則再舉一實施例詳細說明。

圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。請同時參照圖5及圖6，本實施例的語音識別系統50包括語者識別模組51、語音辨識模組52、詞語確認模組53、資料收集模組54、語音評分模組55及語者調適模組56，以下即搭配圖5中語音識別系統50的各項元件說明本實施例語音識別方法的詳細步驟：

首先，由語者識別模組51接收語者輸入的語音資料，而擷取此語音資料中的至少一個語音特徵，據以辨識語音資料的語者身份(步驟S602)。接著，由語音辨識模組52使用第一聲學模型辨識語音資料中的語句(步驟S604)。之後，由詞語確認模組53根據語音辨識模組52 所辨識的語句及語音資料，計算所辨識語句的信心分數(步驟S606)，並判斷此信心分數是否超過第一門檻值(步驟S608)。其中，當信心分數不超過第一門檻值時，詞語確認模組53即不會輸出所辨識的語句及語音資料，而此語音資料也不會用來進行語者調適(步驟S610)。

反之，在判斷信心分數超過第一門檻值時，詞語確認模組53即會輸出所辨識的語句及語音資料，而由語音評分模組55進一步利用語音評分(speech evaluation)技術評價此語音資料中多個詞語(utterance)的發音分數(pronunciation score)(步驟S612)。其中，語音評分模組55例如會評價語音資料中的音素(phoneme)、單字(word)、片語(phrase)、語句(sentence)等詞語，藉此提供每一個詞語的詳細資訊。

接著，語者調適模組56會判斷語音評分模組55所計算的發音分數是否超過第二門檻值，從而使用發音分數超過第二門檻值的全部或部分語音資料來進行與語者身份相對應的第二聲學模型的語者調適(步驟S614)。

藉由上述方法，即可進一步篩選出發音不正確的語音資料，因此可避免將此語音資料用在聲學模型的調適，而造成聲學模型的偏差。

綜上所述，本發明的語音識別方法及系統藉由辨識語音資料的語者身份，選用對應的聲學模型來進行語音識別，因此可大幅增加語音識別的準確性。本發明更進一步計算語音識別結果的信心分數及發音分數，從而去除語意不正確及發音不正確的語音資料，並僅使用分數較高、具有參考價值的語音資料來對聲學模型進行語者調適，因此可使得聲學模型接近語者的語音特性，從而增加語音辨識的正確性。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，故本發明之保護範圍當視後附之申請專利範圍所界定者為準。

10、50‧‧‧語音識別系統

11、51‧‧‧語者識別模組

12、52‧‧‧語音辨識模組

13、53‧‧‧詞語確認模組

14、54‧‧‧資料收集模組

15、56‧‧‧語者調適模組

55‧‧‧語音評分模組

S202~S212‧‧‧本發明一實施例之語音識別方法的步驟

S302~S308‧‧‧本發明一實施例之根據語者身份選擇聲學模型以辨識語音資料的方法步驟

S402~S406‧‧‧本發明一實施例之新增聲學模型的方法步驟

S602~S614‧‧‧本發明一實施例之語音識別方法的步驟

圖1是依照本發明一實施例所繪示之語音識別系統的方塊圖。

圖2是依照本發明一實施例所繪示之語音識別方法的流程圖。

圖3是依照本發明一實施例所繪示之根據語者身份選擇聲學模型以辨識語音資料的方法流程圖。

圖4是依照本發明一實施例所繪示之新增聲學模型的方法流程圖。

圖5是依照本發明一實施例所繪示之語音識別系統的方塊圖。

圖6是依照本發明一實施例所繪示之語音識別方法的流程圖。

S202~S212‧‧‧本發明一實施例之語音識別方法的步驟

Claims

一種語音識別方法，包括：擷取一語音資料中的至少一語音特徵，據以辨識該語音資料的一語者身份，其更包括：分別利用已建立的多個語者的一第二聲學模型辨識該至少一語音特徵，以根據各該些第二聲學模型的一辨識結果，判斷該語音資料的該語者身份；使用一第一聲學模型辨識該語音資料中的一語句；根據所辨識的該語句及該語音資料，計算所辨識該語句的一信心分數(confidence score)，並判斷該信心分數是否超過一第一門檻值；以及當該信心分數超過該第一門檻值時，收集所辨識的該語句及該語音資料，以使用該語音資料進行與該語者身份相對應的該第二聲學模型的一語者調適。
如申請專利範圍第1項所述之語音識別方法，其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括：判斷是否可辨識該語音資料的該語者身份；若無法辨識該語者身份，建立一新語者身份，並使用一不特定語者(speaker independent)聲學模型辨識該語音資料中的該語句；以及若可辨識該語者身份，使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
如申請專利範圍第1項所述之語音識別方法，其中根據所辨識的該語句及該語音資料，計算所辨識該語句的該信心分數的步驟包括：利用一詞語確認(utterance verification)技術，量測所辨識該語句的該信心分數。
如申請專利範圍第1項所述之語音識別方法，其中收集所辨識的該語句及該語音資料，以使用該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括：利用一語音評分(speech evaluation)技術評價該語音資料中多個詞語(utterance)的一發音分數(pronunciation score)，並判斷該發音分數是否超過一第二門檻值；以及使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
如申請專利範圍第4項所述之語音識別方法，其中該些詞語包括音素(phoneme)、單字(word)、片語(phrase)及語句(sentence)其中之一或其組合。
如申請專利範圍第1項所述之語音識別方法，其中使用該第一聲學模型辨識該語音資料中的該語句的步驟包括：使用一自動語音辨識(automatic speech recognition，ASR)技術辨識該語音資料中的該語句。
如申請專利範圍第1項所述之語音識別方法，其中收集所辨識的該語句及該語音資料，使用該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適的步驟包括：判斷所收集的語音資料的一數目是否超過一第三門檻值；以及當該數目超過該第三門檻值時，利用所收集的語音資料，轉換一不特定語者(speaker independent)聲學模型為一特定語者(speaker dependent)聲學模型，以作為與該語者身份相對應的該第二聲學模型。
如申請專利範圍第1項所述之語音識別方法，其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型(Hidden-Markov Model，HMM)。
一種語音識別系統，包括：一語者識別模組，擷取一語音資料中的至少一語音特徵，據以辨識該語音資料的一語者身份；一語音辨識模組，使用一第一聲學模型辨識該語音資料中的一語句；一詞語確認模組，根據該語音辨識模組所辨識的該語句及該語音資料，計算所辨識該語句的一信心分數，並判斷該信心分數是否超過一第一門檻值；一資料收集模組，當該詞語確認模組判斷該信心分數超過該第一門檻值時，收集該語音辨識模組所辨識的該語句及該語音資料；一語者調適模組，使用該資料收集模組所收集的該語音資料進行與該語者身份相對應的一第二聲學模型的一語者調適；以及一聲學模型資料庫，記錄已建立的多個語者的第二聲學模型；其中該語者識別模組包括分別利用該聲學模型資料庫中該些語者的第二聲學模型辨識該至少一語音特徵，以根據各該些第二聲學模型的一辨識結果，判斷該語音資料的該語者身份。
如申請專利範圍第9項所述之語音識別系統，其中該語者識別模組包括判斷是否可辨識該語音資料的該語者身份，其中若無法辨識該語者身份，建立一新語者身份，並由該語音辨識模組使用一不特定語者聲學模型辨識該語音資料中的該語句；以及若可辨識該語者身份，由該語音辨識模組使用與該語者身份相對應的該第二聲學模型辨識該語音資料中的該語句。
如申請專利範圍第9項所述之語音識別系統，其中該詞語確認模組是利用一詞語確認技術，量測所辨識該語句的該信心分數。
如申請專利範圍第9項所述之語音識別系統，更包括：一語音評分模組，利用一語音評分技術評價該語音資料中多個詞語的一發音分數。
如申請專利範圍第12項所述之語音識別系統，其中該語者調適模組更包括判斷該語音評分模組所評價的該發音分數是否超過一第二門檻值，而使用該發音分數超過該第二門檻值的全部或部分該語音資料進行與該語者身份相對應的該第二聲學模型的該語者調適。
如申請專利範圍第13項所述之語音識別系統，其中該些詞語包括音素、單字、片語及語句其中之一或其組合。
如申請專利範圍第9項所述之語音識別系統，其中該語音辨識模組是使用一自動語音辨識技術辨識該語音資料中的該語句。
如申請專利範圍第9項所述之語音識別系統，其中該語者調適模組更包括判斷該資料收集模組所收集的語音資料的一數目是否超過一第三門檻值，而當該數目超過該第三門檻值時，利用該資料收集模組所收集的語音資料，轉換一不特定語者聲學模型為一特定語者聲學模型，以作為與該語者身份相對應的該第二聲學模型。
如申請專利範圍第9項所述之語音識別系統，其中該第一聲學模型及該第二聲學模型為隱藏式馬可夫模型。