TW201937479A

TW201937479A - 一種多語言混合語音識別方法

Info

Publication number: TW201937479A
Application number: TW107106801A
Authority: TW
Inventors: 范利春; 孟猛; 高鵬
Original assignee: 大陸商芋頭科技(杭州)有限公司
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2019-09-16
Also published as: TWI659411B

Abstract

本發明公開了一種多語言混合語音識別方法，屬於語音識別技術領域；方法包括：步驟S1，配置一包括多種不同語言的多語言混合詞典；步驟S2，根據多語言混合詞典以及包括多種不同語言的多語言語音數據訓練形成一聲學識別模型；步驟S3，根據包括多種不同語言的多語言文本語料訓練形成一語言識別模型；步驟S4，採用多語言混合詞典、聲學識別模型以及語言識別模型形成語音識別系統；隨後，採用語音識別系統對混合語音進行識別，並輸出對應的識別結果。上述技術方案的有益效果是：能夠支持多種語言混合語音的識別，提升識別的準確率和效率，因此提高語音識別系統的性能。

Description

一種多語言混合語音識別方法

本發明涉及語音識別技術領域，尤其涉及一種多語言混合語音識別方法。

在日常說話的表達中，人們往往在無意中使用一種語言中夾雜另一種或者另幾種語言的表達方式，例如一些英文單詞在中文中會直接沿用其原本名字，例如「ipad」、「iphone」、「USB」等專有名詞，因此會造成中英文混雜的現象，這種現象會給語音識別帶來一定的困難和挑戰。

早期的多語言混合語音識別系統的識別原理是分別建立單獨的語音識別系統，然後將混合語音切開，並將不同語種的語音片段分別送入對應的語音識別系統中進行識別，最後再將各個語音片段的識別結果合併，以形成混合語音的識別結果。這種識別方法一方面很難保證按照語種對混合語音進行切分的準確性，另一方面每個被切分後形成的語音片段的上下文資訊太短，從而影響識別準確率。

近年來，多語言混合語音的識別方法的做法開始發生變化，具體為將單獨的語音識別系統進行詞典擴充，即使用一種語言的音素集去拼湊另一種語言，例如英語中的「iphone」在中文詞典中的發音會被拼湊成「愛瘋」。這樣的識別方法雖然能夠識別出個別不同語種的詞匯，但是一方面要求使用者的發音非常怪異（例如「iphone」必須準確發成「愛瘋」），另一方面在識別整句混合語音的準確率會大幅下降。

根據現有技術中存在的上述問題，現提供一種多語言混合語音識別方法的技術方案，旨在支持多種語言混合語音的識別，提升識別的準確率和效率，因此提高語音識別系統的性能。

上述技術方案具體包括：一種多語言混合語音識別方法，其中，首先形成用於識別多語言的混合語音的語音識別系統，形成語音識別系統的方法包括：步驟S1，配置一包括多種不同語言的多語言混合詞典；步驟S2，根據多語言混合詞典以及包括多種不同語言的多語言語音數據訓練形成一聲學識別模型；步驟S3，根據包括多種不同語言的多語言文本語料訓練形成一語言識別模型；步驟S4，採用多語言混合詞典、聲學識別模型以及語言識別模型形成語音識別系統；隨後，採用語音識別系統對混合語音進行識別，並輸出對應的識別結果。

優選的，該多語言混合語音識別方法，其中，步驟S1中，採用三音素建模的方式，根據分別對應每種不同語言的單語言詞典配置多語言混合詞典。

優選的，該多語言混合語音識別方法，其中，步驟S1中，採用三音素建模的方式配置多語言混合詞典；在配置多語言混合詞典時，對多語言混合詞典中包括的每種所語言的音素前分別添加一對應的語種標記，以將多種不同語言的音素進行區分。

優選的，該多語言混合語音識別方法，其中，步驟S2具體包括：步驟S21，根據多種不同語言混合的多語言語音數據以及多語言混合詞典訓練形成一聲學模型；步驟S22，對多語言語音數據提取語音特徵，並採用聲學模型對語音特徵進行幀對齊操作，以獲得每一幀語音特徵所對應的輸出標籤；步驟S23，將語音特徵作為聲學識別模型的輸入數據，以及將語音特徵對應的輸出標籤作為聲學識別模型的輸出層中的輸出標籤，以訓練形成聲學識別模型。

優選的，該多語言混合語音識別方法，其中，聲學模型為隱馬爾可夫-高斯混合模型。

優選的，該多語言混合語音識別方法，其中，步驟S23中，對聲學識別模型進行訓練後，對聲學識別模型的輸出層進行調整，具體包括：步驟S231，分別計算得到每種語言的先驗機率，以及計算得到所有種類的語言公用的靜音的先驗機率；步驟S232，分別計算得到每種語言的後驗機率，以及計算得到靜音的後驗機率；步驟S233，根據每種語言的先驗機率和後驗機率，以及靜音的先驗機率和後驗機率，調整聲學識別模型的輸出層。

優選的，該多語言混合語音識別方法，其中，步驟S231中，依照下述公式分別計算得到每種語言的先驗機率：；其中，用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的先驗機率；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中的靜音的第i種狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中的第j種語言中的狀態的總數；用於表示多語言語音數據中的靜音的狀態的總數。

優選的，該多語言混合語音識別方法，其中，步驟S231中，依照下述公式計算得到靜音的先驗機率：；其中，用於表示多語言語音數據中的靜音的第i種狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的先驗機率；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中的第j種語言中的狀態的總數；用於表示多語言語音數據中的靜音的狀態的總數； L用於表示多語言語音數據中的所有語言。

優選的，該多語言混合語音識別方法，其中，步驟S232中，依照下述公式分別計算得到每種語言的後驗機率：；其中，用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤； x用於表示語音特徵；用於表示多語言語音數據中輸出標籤為的後驗機率；用於表示多語言語音數據中第j種語言的第i個狀態的輸入數據；用於表示靜音的第i種狀態的輸入數據；用於表示多語言語音數據中的第j種語言中的狀態的總數；用於表示多語言語音數據中的靜音的狀態的總數； exp用於表示指數函數計算方式。

優選的，該多語言混合語音識別方法，其中，步驟S232中，依照下述公式計算得到靜音的後驗機率：；其中，用於表示多語言語音數據中的靜音的第i種狀態的輸出標籤； x用於表示語音特徵；用於表示多語言語音數據中輸出標籤為的後驗機率；用於表示多語言語音數據中第j種語言的第i個狀態的輸入數據；用於表示靜音的第i種狀態的輸入數據；用於表示多語言語音數據中的第j種語言中的狀態的總數；用於表示多語言語音數據中的靜音的狀態的總數； L用於表示多語言語音數據中的所有語言； exp用於表示指數函數計算方式。

優選的，該多語言混合語音識別方法，其中，步驟S2中，聲學識別模型為深度神經網路的聲學模型。

優選的，該多語言混合語音識別方法，其中，步驟S3中，採用n-Gram模型訓練形成語言識別模型，或者採用遞歸神經網路訓練形成語言識別模型。

優選的，該多語言混合語音識別方法，其中，形成語音識別系統後，首先對語音識別系統中不同種類的語言進行權重調整；進行權重調整的步驟包括：步驟A1，根據真實語音數據分別確定每種語言的後驗機率權重值；步驟A2，根據後驗機率權重值，分別調整每種語言的後驗機率，以完成權重調整。

優選的，該多語言混合語音識別方法，其中，步驟A2中，依照下述公式進行權重調整：；其中，用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤； x用於表示語音特徵；用於表示多語言語音數據中輸出標籤為的後驗機率；用於表示多語言語音數據中第j種語言的後驗機率權重值；用於表示經過權重調整的多語言語音數據中輸出標籤為的後驗機率。

上述技術方案的有益效果是：提供一種多語言混合語音識別方法，能夠支援多種語言混合語音的識別，提升識別的準確率和效率，因此提高語音識別系統的性能。

下面將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例，都屬本發明保護的範圍。

需要說明的是，在不衝突的情況下，本發明中的實施例及實施例中的特徵可以相互組合。

下面結合附圖和具體實施例對本發明作進一步說明，但不作為本發明的限定。

基於現有技術中存在的上述問題，本發明中提供一種多語言混合語音識別方法，所謂混合語音，是指混合了多種不同語言的語音數據，例如使用者輸入語音「我需要一個USB介面」，該段語音中既包括中文語音，也包括英文的專有名詞「USB」，則該段語音為混合語音。本發明的其他實施例中，上述混合語音也可以為兩種以上語音的混合體，在此不做限制。

上述多語言混合語音識別方法中，首先需要形成用於識別上述混合語音的語音識別系統。該語音識別系統的形成方法具體如圖1所示，包括：步驟S1，配置一包括多種不同語言的多語言混合詞典；步驟S2，根據多語言混合詞典以及包括多種不同語言的多語言語音數據訓練形成一聲學識別模型；步驟S3，根據包括多種不同語言的多語言文本語料訓練形成一語言識別模型；步驟S4，採用多語言混合詞典、聲學識別模型以及語言識別模型形成語音識別系統。

在形成語音識別系統後，則可以採用語音識別系統對混合語音進行識別，並輸出對應的識別結果。

具體地，本實施例中，上述多語言混合詞典為包括多種不同語言的混合詞典，該混合詞典被配置到音素級別。本發明的較佳的實施例中，採用三音素建模的方式配置上述混合詞典，能夠得到比字建模更穩定的詞典模型。另外，由於不同語言的詞典中可能包含相同字元表述的音素，因此需要在配置混合詞典時對多語言混合詞典中包括的每種語言的音素前分別添加一對應的語種標記，以將多種不同語言的音素進行區分。

例如，中英文的音素集中都包括「b」、「d」等音素。為了加以區分，在所有的英文的音素集前面都添加語種標記（例如添加「en」作為前綴）以將英文的音素集與中文的音素集進行區分，具體如圖2所示。

上述語種標記可以為空，例如在混合詞典中存在兩種語言，則只需要對其中一種語言添加語種標記，即可以將兩種語言區分開來。類似地，若混合詞典中存在三種語言，則只需要對其中兩種語言添加語種標記，即可以將三種語言區分開來，以此類推。

在上述混合詞典中，也可以只對可能產生混淆的語種的音素集之間添加語種標記，例如一個混合詞典中包括中文、英文以及其他語種，並且其中只有中英文的音素集可能存在混淆的問題，因此只需要在英文的音素集前面添加語種標記即可。

本實施例中，在形成多語言混合詞典之後，根據該混合詞典和包括多種語言的多語言語音數據訓練形成一聲學識別模型。具體地，上述多語言語音數據為事先預備好的包括多種不同語言的訓練用的混合語音數據，上述混合詞典在形成聲學識別模型的過程中提供不同種語言的音素。因此，在訓練形成多語言混合的聲學識別模型的過程中，為了得到混合語言音素的三音素關係，需要準備上述多種語言混合的多語言語音數據，以及依據上述形成的多語言混合詞典進行。

本實施例中，隨後根據多種語言混合的多語言文本語料訓練形成一語言識別模型，並最終將多語言混合詞典、聲學識別模型和語言識別模型包括在一語音識別系統中，並根據該語音識別系統對使用者輸入的包括多種語言的混合語音進行識別，輸出識別結果。

本實施例中，經過上述處理後，上述混合語音的識別過程就與現有技術中對於單語種語音的識別過程類似，通過聲學識別模型將一段語音數據中的語音特徵識別成對應的音素或者字詞序列，並且通過語言識別模型將字詞序列識別成一個完整的句子，從而完成對混合語音的識別過程。上述識別過程在本文中不再贅述。

綜上，本發明技術方案中，首先根據多個單語種的語言詞典形成包括多個語種的多語言混合詞典，並在其中對不同語種的音素打上語種標記以進行區分。隨後根據多語言混合語音數據和多語言混合詞典訓練形成一聲學識別模型，以及根據多語言混合文本語料訓練形成一語言識別模型。隨後根據多語言混合詞典、聲學識別模型以及語言識別模型形成一個完整的語音識別系統，以對使用者輸入的多語言混合語音進行識別。

本發明的較佳的實施例中，如圖3所示，上述步驟S2具體包括：步驟S21，根據多種不同語言混合的多語言語音數據以及多語言混合詞典訓練形成一聲學模型；步驟S22，對多語言語音數據提取語音特徵，並採用聲學模型對語音特徵進行幀對齊操作，以獲得每一幀語音特徵所對應的輸出標籤；步驟S23，將語音特徵作為聲學識別模型的輸入數據，以及將語音特徵對應的輸出標籤作為聲學識別模型的輸出層中的輸出標籤，以訓練形成聲學識別模型。

具體地，本實施例中，在訓練形成聲學識別模型之前，首先根據多種不同語言混合的多語言語音數據訓練形成一聲學模型。該聲學模型可以為一隱馬爾可夫-高斯混合（Hidden Markov Model- Gaussian Mixture Model，HMM-GMM）模型。針對三音素建模中面臨的參數重估魯班性問題，在訓練形成聲學模型的過程中可以選擇使用參數共用技術，從而減少參數規模。基於HMM-GMM的聲學模型的建模技術目前已經相當成熟，在此不再贅述。

本實施例中，形成上述聲學模型後，需要利用該聲學模型對上述多語言語音數據進行幀對齊操作，從而將每一幀多語言語音數據中提取的語音特徵都對應有一個輸出標籤。具體地，經過幀對齊後，每一幀語音特徵都對應有一個GMM編號。而聲學識別模型的輸出層中的輸出標籤是每一幀語音特徵對應的標籤，因此該聲學識別模型的輸出層中的輸出標籤的個數即為HMM-GMM模型中的GMM的個數，每一個輸出節點對應一個GMM。

本實施例中，將語音特徵作為聲學識別模型的輸入數據，以及將語音特徵對應的輸出標籤作為聲學識別模型的輸出層中的輸出標籤，以訓練形成聲學識別模型。

如圖4所示為本發明的一個實施例中的聲學識別模型的大致結構，該聲學識別模型為由全連接的神經網路結構建立的深度神經網路模型，該神經網路中共包含7個全連接的神經網路單元，每層具有2048個節點，每兩個神經網路中間都包含一個sigmoid非線性單元。其輸出層採用softmax非線性單元實現。圖4中的s51用於表示該聲學識別模型的輸出層，L1、L2和L3分別表示輸出層上的關聯於不同種類的語言的輸出標籤。

本發明的較佳的實施例中，上述步驟S23中，在對聲學識別模型進行訓練後，需要針對多語言對聲學識別模型的輸出層進行調整和先驗等操作，具體如圖5所示，包括：步驟S231，分別計算得到每種語言的先驗機率，以及計算得到所有種類的語言公用的靜音的先驗機率；步驟S232，分別計算得到每種語言的後驗機率，以及計算得到靜音的後驗機率；步驟S233，根據每種語言的先驗機率和後驗機率，以及靜音的先驗機率和後驗機率，調整聲學識別模型的輸出層。

具體地，本發明的較佳的實施例中，在採用聲學識別模型進行語音識別時，對於給定的語音特徵，其輸出結果的字元串通常由下述公式決定：；（1）其中，用於表示輸出結果的字串，w表示可能的字串，x表示輸入的語音特徵，P(w)用於表示上述語言識別模型的機率，P(x|w)用於表示上述聲學識別模型的機率。

則上述P(x|w)可以進一步展開為：；（2）其中，x_t 用於表示t時刻輸入的語音特徵，q_t 用於表示t時刻綁定的三音素狀態，π(q₀ )用於表示初始狀態為q₀ 的機率分佈，P(x_t |q_t )用於表示q_t 狀態下，語音特徵為x_t 的機率。

則上述P(x_t |q_t )可以進一步展開為：；（3）其中，P(x_t |q_t )為上述聲學識別模型的輸出層的後驗機率，P(q_t )為上述聲學識別模型的先驗機率，P(x_t )則表示x_t 的機率。P(x_t )跟字串序列不相關，因此可以忽略。

則根據上述公式（3）可以得出，通過計算聲學識別模型的輸出層的先驗機率和後驗機率能夠對輸出結果的字串進行調整。

本發明的較佳的實施例中，神經網路的先驗機率P(q)通常由下述公式計算得到：；（4）其中，Count(qⁱ )用於表示多語言語音數據中標籤為qⁱ 的總數，N用於表示所有輸出標籤的總數。

本發明的較佳的實施例中，由於不同種類的語言的訓練用語音數據的數量可能不同，因此上述先驗機率不能統一計算，需要根據不同種類的語言分別進行計算。

則本發明的較佳的實施例中，上述步驟S231，首先分別計算得到每種語言的先驗機率，以及計算得到所有種類的語言公用的靜音的先驗機率。

首先依照下述公式分別計算得到每種語言的先驗機率：；（5）其中，用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的先驗機率；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中的靜音的第i種狀態的輸出標籤；用於表示多語言語音數據中輸出標籤為的總數；用於表示多語言語音數據中的第j種語言中的狀態的總數；用於表示多語言語音數據中的靜音的狀態的總數。

隨後，依照下述公式計算得到靜音的先驗機率：；（6）其中，用於表示多語言語音數據中輸出標籤為的先驗機率； L用於表示多語言語音數據中的所有語言。

本發明的較佳的實施例中，在計算得到上述每種語言的先驗機率以及靜音的先驗機率後，繼續計算聲學識別模型的後驗機率。神經網路輸出的後驗機率P(q_i |x)通常由輸出層計算得到，當輸出層為softmax非線性單元實現時，後驗機率通常按照下述公式計算得到：；（7）其中，yⁱ 用於表示第i個狀態下的輸入值，N為所有狀態的數目。

同樣地，在聲學識別模型中，不同種類語言的訓練數據數量不均衡會造成不同種類語言的狀態值計算結果的分佈不平衡，因此後驗機率仍然需要針對不同種類的語言分別進行計算。

則本發明的較佳的實施例中，上述步驟S232中，依照下述公式分別計算得到每種語言的後驗機率：；（8）其中， x用於表示語音特徵；用於表示多語言語音數據中輸出標籤為的後驗機率；用於表示多語言語音數據中第j種語言的第i個狀態的輸入數據；用於表示靜音的第i種狀態的輸入數據； exp用於表示指數函數計算方式。

本發明的較佳的實施例中，步驟S232中，依照下述公式計算得到靜音的後驗機率：；（9）其中，用於表示多語言語音數據中輸出標籤為的後驗機率。

本發明中，利用上述改進的公式（6）-（9）可以計算得到每種語言和靜音狀態下的先驗機率以及後驗機率，從而使得聲學識別模型能夠符合多語言混合建模的輸出需求，能夠更加精准地對每種語言以及靜音狀態進行描述。需要注意的是，經過上述公式調整後，先驗機率和後驗機率的總和均不再為1。

本發明的較佳的實施例中，上述步驟S3中，可以採用n-Gram模型訓練形成語言識別模型，或者採用遞歸神經網路訓練形成語言識別模型。上述多語言文本語料中需要包括多語言單獨的文本語料，以及多語言混合的文本數據。

本發明的較佳的實施例中，形成語音識別系統後，首先對語音識別系統中不同種類的語言進行權重調整；進行權重調整的步驟如圖6所示，包括：步驟A1，根據真實語音數據分別確定每種語言的後驗機率權重值；步驟A2，根據後驗機率權重值，分別調整每種語言的後驗機率，以完成權重調整。

具體地，本實施例中，形成上述語音識別系統後，由於在訓練過程中可能會產生訓練數據量不均衡的問題，數據量較多的一種語言會得到相對較大的先驗機率，由於最終的識別機率是後驗機率除以先驗機率，因此訓練數據較多的語言實際的識別機率反而偏小，這就會造成識別系統的識別結果可能會傾向於識別出某一種語言而無法識別另一種語言，從而造成識別結果的偏差。

為瞭解決這個問題，在將上述語音識別系統進行實用之前，需要採用真實的數據作為開發集對其進行實測以對每種語言的權重進行調整。上述權重調整通常應用在聲學識別模型輸出的後驗機率上，因此其公式如下：；（10）其中，用於表示多語言語音數據中第j種語言的第i個狀態的輸出標籤； x用於表示語音特徵；用於表示多語言語音數據中輸出標籤為的後驗機率；用於表示多語言語音數據中第j種語言的後驗機率權重值，該後驗機率權重值通過上述真實數據組成的開發集對聲學識別模型進行實測來確定。

用於表示經過權重調整的多語言語音數據中輸出標籤為的後驗機率。

透過上述權重調整後能夠使得語音識別系統在不同的應用場景中都能得到很好的識別效果。

在本發明的一個較佳的實施例中，對於一個由中英文混合的語音識別系統中，經過真實數據實測後可以將中文的後驗機率權重值設定為1.0，將英文的後驗機率權重值設定為0.3，將靜音的後驗機率權重值設定為1.0。

本發明的其他實施例中，上述後驗機率權重值可以透過多次採用不同的真實數據組成的開發集進行反覆調整，最終確定最佳的取值。

以上僅為本發明較佳的實施例，並非因此限制本發明的實施方式及保護範圍，對於本領域技術人員而言，應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案，均應當包含在本發明的保護範圍內。

S1‧‧‧步驟1

S2‧‧‧步驟2

S3‧‧‧步驟3

S4‧‧‧步驟4

S21‧‧‧步驟21

S22‧‧‧步驟22

S23‧‧‧步驟23

S51‧‧‧聲學識別模型的輸出層

L1‧‧‧輸出標籤

L2‧‧‧輸出標籤

L3‧‧‧輸出標籤

S231‧‧‧步驟231

S232‧‧‧步驟232

S233‧‧‧步驟233

A1‧‧‧步驟A1

A2‧‧‧步驟A2

圖1是本發明的較佳的實施例中，一種多語言混合語音識別方法中，形成語音識別系統的總體流程示意圖；圖2是本發明的較佳的實施例中，多語言混合詞典的示意圖；圖3是本發明的較佳的實施例中，於圖1的基礎上，訓練形成聲學識別模型的流程示意圖；圖4是本發明的較佳的實施例中，聲學識別模型的結構示意圖；圖5是本發明的較佳的實施例中，於圖2的基礎上，對聲學識別模型的輸出層進行調整的流程示意圖；圖6是本發明的較佳的實施例中，對語音識別系統進行權重調整的流程示意圖。

Claims

一種多語言混合語音識別方法，首先形成用於識別多語言的混合語音的語音辨識系統，形成該語音識別系統的方法係包括：步驟S1，配置一包括多種不同語言的多語言混合詞典；步驟S2，根據該多語言混合詞典以及包括多種不同語言的多語言語音資料訓練形成一聲學識別模型；步驟S3，根據包括多種不同語言的多語言文本語料訓練形成一語言識別模型；步驟S4，採用該多語言混合詞典、該聲學識別模型以及該語言識別模型形成該語音辨識系統；隨後，採用該語音辨識系統對該混合語音進行識別，並輸出對應的識別結果。
如請求項第1項所述之多語言混合語音辨識方法，其中，該步驟S1中，採用三音素建模的方式，根據分別對應每種不同語言的單語言詞典配置該多語言混合詞典。
如請求項第1項所述之多語言混合語音辨識方法，其中，該步驟S1中，採用三音素建模的方式配置該多語言混合詞典；在配置該多語言混合詞典時，對該多語言混合詞典中包括的每種所語言的音素前分別添加一對應的語種標記，以將多種不同語言的音素進行區分。
如請求項第1項所述之多語言混合語音辨識方法，其中，該步驟S2具體包括：步驟S21，根據該多語言語音資料以及該多語言混合詞典訓練形成一聲學模型；步驟S22，對該多語言語音資料提取語音特徵，並採用該聲學模型對該語音特徵進行幀對齊操作，以獲得每一幀該語音特徵所對應的輸出標籤；步驟S23，將該語音特徵作為該聲學識別模型的輸入資料，以及將該語音特徵對應的該輸出標籤作為該聲學識別模型的輸出層中的輸出標籤，以訓練形成該聲學識別模型。
如請求項第4項所述之多語言混合語音辨識方法，其中，該聲學模型為隱馬爾可夫-高斯混合模型。
如請求項第4項所述之多語言混合語音辨識方法，其中，該步驟S23中，對該聲學識別模型進行訓練後，對該聲學識別模型的該輸出層進行調整，具體包括：步驟S231，分別計算得到每種語言的先驗機率，以及計算得到所有種類的語言公用的靜音的先驗機率；步驟S232，分別計算得到每種語言的後驗機率，以及計算得到該靜音的後驗機率；步驟S233，根據每種語言的先驗機率和後驗機率，以及該靜音的先驗機率和後驗機率，調整該聲學識別模型的該輸出層。
如請求項第6項所述之多語言混合語音辨識方法，其中，該步驟S231中，依照下述公式分別計算得到每種語言的先驗機率：；其中，用於表示該多語言語音資料中第j種語言的第i個狀態的該輸出標籤；用於表示該多語言語音資料中該輸出標籤為的先驗機率；用於表示該多語言語音資料中該輸出標籤為的總數；用於表示該多語言語音資料中的該靜音的第i種狀態的該輸出標籤；用於表示該多語言語音資料中該輸出標籤為的總數；用於表示該多語言語音資料中的第j種語言中的狀態的總數；用於表示該多語言語音資料中的該靜音的狀態的總數。
如請求項第6項所述之多語言混合語音辨識方法，其中，該步驟S231中，依照下述公式計算得到該靜音的先驗機率：；其中，用於表示該多語言語音資料中的該靜音的第i種狀態的該輸出標籤；用於表示該多語言語音資料中該輸出標籤為的先驗機率；用於表示該多語言語音資料中該輸出標籤為的總數；用於表示該多語言語音資料中第j種語言的第i個狀態的該輸出標籤；用於表示該多語言語音資料中該輸出標籤為的總數；用於表示該多語言語音資料中的第j種語言中的狀態的總數；用於表示該多語言語音資料中的該靜音的狀態的總數； L用於表示該多語言語音資料中的所有語言。
如請求項第6項所述之多語言混合語音辨識方法，其中，該步驟S232中，依照下述公式分別計算得到每種語言的後驗機率：；其中，用於表示該多語言語音資料中第j種語言的第i個狀態的該輸出標籤； x用於表示該語音特徵；用於表示該多語言語音資料中該輸出標籤為的後驗機率；用於表示該多語言語音資料中第j種語言的第i個狀態的該輸入資料；用於表示該靜音的第i種狀態的該輸入資料；用於表示該多語言語音資料中的第j種語言中的狀態的總數；用於表示該多語言語音資料中的該靜音的狀態的總數； exp用於表示指數函數計算方式。
如請求項第6項所述之多語言混合語音辨識方法，其中，該步驟S232中，依照下述公式計算得到該靜音的後驗機率：；其中，用於表示該多語言語音資料中的該靜音的第i種狀態的該輸出標籤； x用於表示該語音特徵；用於表示該多語言語音資料中該輸出標籤為的後驗機率；用於表示該多語言語音資料中第j種語言的第i個狀態的該輸入資料；用於表示該靜音的第i種狀態的該輸入資料；用於表示該多語言語音資料中的第j種語言中的狀態的總數；用於表示該多語言語音資料中的該靜音的狀態的總數； L用於表示該多語言語音資料中的所有語言； exp用於表示指數函數計算方式。
如請求項第1項所述之多語言混合語音辨識方法，其中，該步驟S2中，該聲學識別模型為深度神經網路的聲學模型。
如請求項第1項所述之多語言混合語音辨識方法，其中，該步驟S3中，採用n-Gram模型訓練形成該語言識別模型，或者採用遞迴神經網路訓練形成該語言識別模型。
如請求項第4項所述之多語言混合語音辨識方法，其中，形成該語音辨識系統後，首先對該語音辨識系統中不同種類的語言進行權重調整；進行該權重調整的步驟包括：步驟A1，根據真實語音資料分別確定每種語言的後驗機率權重值；步驟A2，根據該後驗機率權重值，分別調整每種語言的後驗機率，以完成該權重調整。
如請求項第13項所述之多語言混合語音辨識方法，其中，該步驟A2中，依照下述公式進行該權重調整：；其中，用於表示該多語言語音資料中第j種語言的第i個狀態的該輸出標籤； x用於表示該語音特徵；用於表示該多語言語音資料中該輸出標籤為的後驗機率；用於表示該多語言語音資料中第j種語言的該後驗機率權重值；用於表示經過該權重調整的該多語言語音資料中該輸出標籤為的後驗機率。