TWI683305B

TWI683305B - 語音識別裝置以及語音識別方法

Info

Publication number: TWI683305B
Application number: TW107109348A
Authority: TW
Inventors: 朱逸斐; 張國峰
Original assignee: 威盛電子股份有限公司
Priority date: 2018-02-01
Filing date: 2018-03-19
Publication date: 2020-01-21
Also published as: CN108346426A; CN108346426B; TW201935460A

Abstract

本發明提出一種語音識別裝置包括語音識別模組以及概率比較模組。所述語音識別模組接收語音特徵。所述語音識別模組包括聲學模型、語言模型以及多個聲學辭典。所述語音識別模組藉由所述多個聲學辭典的至少其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵以產生至少一個字串概率以及至少一個字串資料。所述多個聲學辭典對應於多個不同口音類型。所述概率比較模組判斷所述至少一個字串概率當中的最高概率，以輸出對應於所述最高概率的所述至少一個字串資料的其中之一個。另外一種語音識別方法亦被提出。

Description

語音識別裝置以及語音識別方法

本發明是有關於一種識別技術，且特別是有關於一種語音識別裝置以及語音識別方法。

隨著語音識別(speech recognition)技術的發展，有越來越多的電子裝置具備有語音識別的功能。語音識別通常是對輸入的語音信號取出語音特徵的參數，再與資料庫的樣本相比對，以找出與輸入相異度低的樣本。但是，若使用者提供的語音具有特殊口音，則可能發生無法有效識別語音信號的問題。因此，一般的語音識別方式是針對不同口音類型而建立多組聲學模型、多組語言模型以及多個聲學辭典，以分別產生多個字串概率以及多個字串資料。

但是，由於不同的聲學模型具有不同的音素以及概率基礎，並且不同的語言模型同樣具有不同的概率基礎，因此一般的語音識別方式是所產生的多個字串概率實際上不具有可比性，並且準確率低。此外，一般的語音識別方式需要經由大量的分析運算，還具有語音識別的效率過低的問題。對此，如何提出一種語音識別技術可有效適應不同口音類型的使用者，以有效識別不同使用者所提供的不同口音類型的語音信號，並且可提供有效率的語音識別結果，是本領域目前重要的課題之一。

本發明提供一種語音識別裝置以及語音識別方法，可有效識別不同口音的語音信號，以依據不同的口音類型來對語音信號的語音特徵進行有效的解碼分析。

本發明的語音識別裝置包括語音識別模組以及概率比較模組。所述語音識別模組用以接收語音特徵。所述語音識別模組包括聲學模型、語言模型以及多個聲學辭典。所述語音識別模組藉由所述多個聲學辭典的至少其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵以產生至少一個字串概率以及至少一個字串資料。所述多個聲學辭典對應於多個不同口音類型。概率比較模組耦接所述語音識別模組。所述概率比較模組判斷所述至少一個字串概率當中的最高概率，以輸出對應於所述最高概率的所述至少一個字串資料的其中之一個。

在本發明的一實施例中，上述的語音識別模組藉由所述多個聲學辭典產生對應於不同口音類型的多個字串概率以及多個字串資料。所述語音特徵與所述多個聲學辭典的其中之一個為相同口音類型，以使經由所述多個聲學辭典的其中之一個產生的所述字串概率為所述最高概率。

在本發明的一實施例中，上述的語音識別裝置更包括特徵擷取模組。所述特徵擷取模組耦接所述語音識別模組。所述特徵擷取模組用以接收語音信號。所述特徵擷取模組分析所述語音信號以提供所述語音特徵至語音識別模組。

在本發明的一實施例中，上述的語音識別裝置更包括口音識別模組。所述口音識別模組耦接所述特徵擷取模組以及所述語音識別模組。所述口音識別模組用以分析所述語音信號，以判斷所述語音信號的口音類型，並且選擇所述多個聲學辭典的其中之一個來分析所述語音特徵。

在本發明的一實施例中，上述的所述口音識別模組依據所述語音信號的所述口音類型來選擇性地輸出所述語音特徵至對應於所述口音類型的所述多個聲學辭典的其中之一個，以藉由對應於所述口音類型的所述多個聲學辭典的其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵，並且輸出一個所述字串資料。

本發明的語音識別方法包括以下步驟：接收語音特徵，並且藉由多個聲學辭典的至少其中之一個、聲學模型以及語言模型來分析所述語音特徵以產生至少一個字串概率以及至少一個字串資料，其中所述多個聲學辭典對應於多個不同口音類型；以及判斷所述至少一個字串概率當中的最高概率，以輸出對應於所述最高概率的所述至少一個字串資料的其中之一個。

在本發明的一實施例中，上述的多個聲學辭典產生對應於不同口音類型的多個字串概率以及多個字串資料，並且所述語音特徵與所述多個聲學辭典的其中之一個為相同口音類型，以使經由所述多個聲學辭典的其中之一個產生的所述字串概率為所述最高概率。

在本發明的一實施例中，上述的語音識別方法更包括以下步驟：接收語音信號，並且分析所述語音信號以取得所述語音特徵。

在本發明的一實施例中，上述的語音識別方法更包括以下步驟：分析所述語音信號，以判斷所述語音信號的口音類型，並且選擇所述多個聲學辭典的其中之一個來分析所述語音特徵。

在本發明的一實施例中，上述的語音識別方法更包括以下步驟：依據所述語音信號的所述口音類型來選擇性地輸出所述語音特徵至對應於所述口音類型的所述多個聲學辭典的其中之一個，以藉由對應於所述口音類型的所述多個聲學辭典的其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵；以及輸出一個所述字串資料。

基於上述，本發明的語音識別裝置以及語音識別方法，可藉由對應於多個不同口音類型的多個聲學辭典來分析語音特徵，以使語音識別模組輸出的字串概率具有可比性。並且，本發明的語音識別裝置以及語音識別方法還可藉由口音識別模組來判斷語音信息的口音類型，以選擇相同口音類型的聲學辭典來產生語音識別結果。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

為了使本發明之內容可以被更容易明瞭，以下特舉實施例做為本發明確實能夠據以實施的範例。另外，凡可能之處，在圖式及實施方式中使用相同標號的元件/構件/步驟，係代表相同或類似部件。

圖1繪示本發明一實施例的一種語音識別裝置的示意圖。參考圖1，語音識別裝置100包括處理裝置110、輸入裝置120、儲存裝置130以及輸出裝置140。處理裝置110耦接輸入裝置120、儲存裝置130以及輸出裝置140。語音識別裝置100例如為手機、智慧型手機、個人數位助理(Personal Digital Assistant，PDA)、平板電腦、筆記型電腦、桌上型電腦、車用電腦等具有運算功能的裝置。

在本實施例中，處理裝置110例如是中央處理單元(Central Processing Unit, CPU)，或是其他可程式化之一般用途或特殊用途的微處理器(microprocessor)、數位訊號處理器(Digital Signal Processor, DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits, ASIC)、可程式化邏輯裝置(Programmable Logic Device, PLD)、其他類似處理電路或這些裝置的組合。

在本實施例中，輸入裝置120用以接收語音信號。輸入裝置120可例如是麥克風。輸入裝置120用以接收使用者所發出的類比語音信號，並將類比語音信號轉換為數位語音信號後，傳送至處理裝置110。

在本實施例中，儲存裝置130可例如是電子抹除式可複寫唯讀記憶體(Electrically-Erasable Programmable Read-Only Memory, EEPROM)、內嵌式多媒體記憶卡(Embedded Multi Media Card, eMMC)、動態隨機存取記憶體(Dynamic Random Access Memory, DRAM)、快閃記憶體(Flash memory)或非揮發性隨機存取記憶體(Non-Volatile Random Access Memory, NVRAM)等。

在本實施例中，輸出裝置140例如為陰極射線管(Cathode Ray Tube，CRT)顯示器、液晶顯示器(Liquid Crystal Display，LCD)、電漿顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示設備。輸出裝置140可用以顯示所產生的字串概率當中的最大概率所對應的字串資料。在一實施例中，輸出裝置140亦可以是揚聲器，並且用以播放所產生的字串概率當中的最大概率所對應的字串資料。或者，在另一實施例中，輸出裝置140亦可將產生的字串概率當中的最大概率所對應的字串資料提供至特定的應用程式中，以使特定的應用程式可對應執行特定功能或操作。

在本實施例中，儲存裝置130可用以儲存多個模組供處理裝置110讀取並執行之，以實現本發明各實施例所述的語音識別操作。具體而言，儲存裝置130儲存的這些模組可例如包括特徵擷取模組、口音識別模組、語音識別模組或概率比較模組等，諸如此類的分析以及運算模組。在本實施例中，語音識別裝置100可藉由輸入裝置120取得語音信息，並且藉由儲存裝置130的這些模組來分析語音信息以產生對應的分析結果。也就是說，本實施例的語音識別裝置100可具有語音識別功能。

圖2繪示本發明一實施例的一種語音識別方法的流程圖。圖3繪示本發明一實施例的一種語音識別裝置的示意圖。同時參考圖1至圖3，在本實施例中，處理裝置110可執行儲存在儲存裝置130當中的語音識別模組330以及概率比較模組340。語音識別模組330包括一個聲學模型331、多個聲學辭典332A、332B、332C、一個語言模型333以及多個解碼器334A、334B、334C。

搭配圖2的流程圖來說明一種可行的實施方式，在步驟S210中，語音識別模組330接收語音特徵VC，並且藉由這些聲學辭典332A、332B、332C的至少中之一個、聲學模型331以及語言模型333以產生至少一個字串概率以及至少一個字串資料。在步驟S220中，概率比較模組340判斷至少一個字串概率當中的最高概率，以輸出具有最高概率的字串資料SD。

具體而言，在本實施例中，這些聲學辭典332A、332B、332C對應於多個不同的口音類型，其中這些口音類型例如是北京地區口音、上海地區口音、廣州地區口音或福建地區口音等。在本實施例中，語音識別模組330用以接收語音特徵VC，並且對應產生多個字串概率以及多個字串資料至概率比較模組340。概率比較模組340比較這些字串概率，以判斷這些字串概率當中的最高概率，並且輸出對應於這些字串概率當中的最高概率的字串資料SD至輸出裝置140。

在本實施例中，這些解碼器334A、334B、334C用以基於聲學模型331、聲學辭典332A、332B、332C以及語言模型333來分別產生較為適當或具有最大概率的字串資料與字串概率。值得注意的是，為了使語音識別模組330產生的字串概率具有可比性，本實施例的語音識別模組330僅透過一個聲學模型331以及一個語言模型333來分析語音特徵VC。在本實施例中，聲學模型331是經由語音資料庫訓練而得，例如是採用隱藏式馬可夫模型(Hidden Markov Model，HMM)進行建模。語言模型333經由語料庫(text corpus)訓練而得，例如利用機率統計的方法來揭示語言單位內在的統計規律。並且，本實施例的語音識別模組330針對多個不同口音類型來建立這些聲學辭典332A、332B、332C，其中這些聲學辭典332A、332B、332C亦是經由語音資料庫訓練而得，但分別對應於不同口音類型。這些聲學辭典332A、332B、332C分別用以處理不同口音類型的詞彙以及發音。

也就是說，本實施例的處理裝置110可藉由執行一個聲學模型331分析語音特徵VC，以取得對應的音素(phone)或音節(syllable)，並且再經由這些聲學辭典332A、332B、332C的至少中之一來獲得對應的字或詞，最後經由一個語言模型333來判斷一連串的字成為句子的概率。值得注意的是，本實施例的聲學模型331與語言模型333都是屬於概率模型，而由於本實施例的語音識別模組330只建立單一聲學模型331與單一語言模型333，因此由對應於不同口音類型的這些聲學辭典332A、332B、332C所提供的字或詞而對應產生的多個字串概率具有可比性。

舉例而言，聲學辭典332A例如針對廣州地區而建立，因此可例如記錄有“bei jin(北京)”、“ci fan(吃飯)”以及“re qi(熱氣)”的聲學資料。聲學辭典332B例如針對北京地區而建立，因此可例如記錄有“bei jing(北京)”、“chi fan(吃飯)”以及“re qi(熱氣)”的聲學資料。聲學辭典332C例如針對福建地區而建立，因此可例如記錄有“bei jin(北京)”、“ci fan(吃飯)”以及“le qi(熱氣)”的聲學資料。也就是說，由於這些聲學辭典332A、332B、332C分別針對不同的口音類型而建立，因此只要語音特徵VC與這些聲學辭典的其中之一個為相同口音類型，則經由聲學模型331、語言模型333以及對應相同口音類型的這些聲學辭典332A、332B、332C的其中之一個所產生的字串概率將為最高概率。

然而，須注意的是，本發明的聲學辭典的數量以及類型不限於圖3所示，圖3的示意圖僅用於說明一種可行的語音識別模組的範例實施例。

圖4繪示本發明一實施例的另一種語音識別裝置的示意圖。圖5繪示本發明一實施例的另一種語音識別方法的流程圖。同時參考圖1、圖4以及圖5，在本實施例中，處理裝置110可執行儲存在儲存裝置130當中的特徵擷取模組410、口音識別模組420、語音識別模組430以及概率比較模組440。相較於圖2以及圖3實施例，本實施例的處理裝置110可更進一步包括執行特徵擷取模組410以及口音識別模組420。在本實施例中，特徵擷取模組410用以接收輸入裝置120提供的語音信號，並且分析語音信號以取得語音特徵VC’。口音識別模組420用以分析語音信號以判斷語音信號是屬於何種口音類型，並且依據判斷結果來將語音特徵VC’選擇由對應的聲學辭典來進行運算以及處理。

在本實施例中，類似於圖2以及圖3實施例，語音識別模組430可包括一個聲學模型431、多個聲學辭典432A、432B、432C、一個語言模型433以及多個解碼器434A、434B、434C。在本實施例中，這些聲學辭典432A、432B、432C對應於多個不同的口音類型。在本實施例中，這些解碼器434A、434B、434C用以基於聲學模型431、聲學辭典432A、432B、432C以及語言模型433來產生較為適當或具有最大概率的字串資料與字串概率。

在本實施例中，口音識別模組420例如是透過濾波器組(Filter Bank)或梅爾倒頻譜係數(Mel-Frequency Cipstal Coefficients, MFCC)，以經由高斯混合模型(Gaussian Mixture Model, GMM)或深度神經網路(Deep Neural Networks, DNN)來進行分析以及運算而識別使用者提供的語音信號所屬的口音類型。因此，本實施例的語音識別模組430可依據口音識別模組420的識別結果來對應選擇這些聲學辭典432A、432B、432C的其中一個來進行分析以及運算。

也就是說，在本實施例中，若口音識別模組420可識別出語音信號的口音類型可對應於這些聲學辭典432A、432B、432C的其中之一個，則語音識別模組430接收語音特徵VC’後，可依據口音識別模組420的識別結果，來經由這些聲學辭典432A、432B、432C的其中一個對應於語音信號的口音類型來進行分析以及運算，以取得一個字串資料SD’。概率比較模組440可直接輸出此字串資料SD’至輸出裝置140。

然而，在一實施例中，若口音識別模組420無法識別出語音信號的口音類型可對應於這些聲學辭典432A、432B、432C的其中之一個，則表示可能這些聲學辭典432A、432B、432C無對應相同口音類型。因此，在一實施例中，語音識別模組430可執行如同上述圖2、圖3實施例的語音識別操作，以產生多組字串資料以及多組字串概率。概率比較模組440用以比較這些字串概率，以選擇最接近的口音類型且具有最高概率的字串資料至輸出裝置140。

舉例而言，若使用者透過輸入裝置120輸入為北京地區口音的語音信號“bei jing(北京)”，則經由口音識別模組420後，語音識別模組430選擇聲學辭典432B來處理語音特徵VC’。在此例中，語音識別模組430透過聲學模型431、聲學辭典432B以及語言模型433來分析語音特徵VC’，以使解碼器334B產生一個字串資料至概率比較模組440。概率比較模組440無須經由概率比較，而直接輸出由語音識別模組430提供的一個字串資料。也就是說，本實施例的語音識別模組430無須經由全部的聲學辭典432A、432B、432C來執行分析以及運算，而可有效率的提供語音識別結果。

搭配圖5的流程圖來說明一種可行的實施方式，在步驟S510中，特徵擷取模組410接收語音信號，並且分析語音信號以取得語音特徵VC’。在步驟S520中，口音識別模組420分析語音信號，以判斷語音信號的口音類型，並且選擇這些聲學辭典432A、432B、432C的其中之一個來分析語音特徵VC’。在步驟S530中，語音識別模組430依據語音信號的口音類型來選擇性地輸出語音特徵VC’至對應於口音類型的這些聲學辭典432A、432B、432C的其中之一個，以藉由對應於口音類型的這些聲學辭典432A、432B、432C的其中之一個、聲學模型431以及語言模型433來分析語音特徵。在步驟S540中，概率比較模組440輸出由語音識別模組430的分析結果所提供的一個字串資料SD’。

另外，關於本實施例的語音識別模組430當中的各個模型的詳細實施細節以及技術方案，可參考上述圖2以及圖3實施例而獲致足夠的教示、建議以及實施說明，因此不再贅述。

綜上所述，本發明的語音識別裝置以及語音識別方法，可適用於多種不同口音類型的語音信號分析，其中語音識別裝置可透過執行在語音識別模組當中建立一個聲學模型、一個語言模型以及多個對應於不同口音類型的多個聲學辭典來分析語音特徵，因此本發明的語音識別模組產生的多個字串概率以及字串資料可具有可比性。並且，本發明的語音識別裝置以及語音識別方法還可進一步利用口音識別模組來判斷使用者提供的語音信號為何種口音類型，以直接透過對應口音類型的聲學辭典來分析語音特徵，因此本發明的語音識別模組可更有效率的提供語音識別結果。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

100‧‧‧語音識別裝置110‧‧‧處理裝置120‧‧‧輸入裝置130‧‧‧儲存裝置140‧‧‧輸出裝置330、430‧‧‧語音識別模組331、431‧‧‧聲學模型332A、332B、332C、432A、432B、432C‧‧‧聲學辭典333、433‧‧‧語言模型334A、334B、334C、434A、434B、434C‧‧‧解碼器340‧‧‧概率比較模組410‧‧‧特徵擷取模組420‧‧‧口音識別模組440‧‧‧概率比較模組S210、S220、S510、S520、S530、S540‧‧‧步驟VC、VC’‧‧‧語音特徵SD、SD’‧‧‧字串資料

圖1繪示本發明一實施例的一種語音識別裝置的示意圖。圖2繪示本發明一實施例的一種語音識別方法的流程圖。圖3繪示本發明一實施例的一種語音識別裝置的示意圖。圖4繪示本發明一實施例的另一種語音識別裝置的示意圖。圖5繪示本發明一實施例的另一種語音識別方法的流程圖。

100‧‧‧語音識別裝置

110‧‧‧處理裝置

120‧‧‧輸入裝置

130‧‧‧儲存裝置

140‧‧‧輸出裝置

Claims

一種語音識別裝置，包括：語音識別模組，用以接收語音特徵，並且所述語音識別模組包括聲學模型、語言模型以及多個聲學辭典，其中所述語音識別模組藉由所述多個聲學辭典的至少其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵以產生至少一個字串概率以及至少一個字串資料，其中所述多個聲學辭典分別記錄有多個不同口音類型的聲學資料；以及概率比較模組，耦接所述語音識別模組，並且所述概率比較模組判斷所述至少一個字串概率當中的最高概率，以輸出對應於所述最高概率的所述至少一個字串資料的其中之一個。
如申請專利範圍第1項所述的語音識別裝置，其中所述語音識別模組藉由所述多個聲學辭典產生對應於不同口音類型的多個字串概率以及多個字串資料，其中所述語音特徵與所述多個聲學辭典的其中之一個為相同口音類型，以使經由所述多個聲學辭典的其中之一個產生的所述字串概率為所述最高概率。
如申請專利範圍第1項所述的語音識別裝置，更包括：特徵擷取模組，耦接所述語音識別模組，用以接收語音信號，並且所述特徵擷取模組分析所述語音信號以提供所述語音特徵至語音識別模組。
如申請專利範圍第3項所述的語音識別裝置，更包括：口音識別模組，耦接所述特徵擷取模組以及所述語音識別模組，並且所述口音識別模組用以分析所述語音信號，以判斷所述語音信號的口音類型，並且選擇所述多個聲學辭典的其中之一個來分析所述語音特徵。
如申請專利範圍第4項所述的語音識別裝置，其中所述口音識別模組依據所述語音信號的所述口音類型來選擇性地輸出所述語音特徵至對應於所述口音類型的所述多個聲學辭典的其中之一個，以藉由對應於所述口音類型的所述多個聲學辭典的其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵，並且輸出一個所述字串資料。
一種語音識別方法，包括：接收語音特徵，並且藉由多個聲學辭典的至少其中之一個、聲學模型以及語言模型來分析所述語音特徵以產生至少一個字串概率以及至少一個字串資料，其中所述多個聲學辭典分別記錄有多個不同口音類型的聲學資料；以及判斷所述至少一個字串概率當中的最高概率，以輸出對應於所述最高概率的所述至少一個字串資料的其中之一個。
如申請專利範圍第6項所述的語音識別方法，其中所述多個聲學辭典產生對應於不同口音類型的多個字串概率以及多個字串資料，並且所述語音特徵與所述多個聲學辭典的其中之一個為相同口音類型，以使經由所述多個聲學辭典的其中之一個產生的所述字串概率為所述最高概率。
如申請專利範圍第6項所述的語音識別方法，更包括：接收語音信號，並且分析所述語音信號以取得所述語音特徵。
如申請專利範圍第8項所述的語音識別方法，更包括：分析所述語音信號，以判斷所述語音信號的口音類型，並且選擇所述多個聲學辭典的其中之一個來分析所述語音特徵。
如申請專利範圍第9項所述的語音識別方法，更包括：依據所述語音信號的所述口音類型來選擇性地輸出所述語音特徵至對應於所述口音類型的所述多個聲學辭典的其中之一個，以藉由對應於所述口音類型的所述多個聲學辭典的其中之一個、所述聲學模型以及所述語言模型來分析所述語音特徵；以及輸出一個所述字串資料。