TWI795173B

TWI795173B - 多語言語音辨識系統、方法及電腦可讀媒介

Info

Publication number: TWI795173B
Application number: TW111101853A
Authority: TW
Inventors: 楊智合; 廖元甫; 張家瑜
Original assignee: 中華電信股份有限公司
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2023-03-01
Also published as: CN116486783A; TW202331582A

Abstract

本發明揭露一種多語言語音辨識系統、方法及電腦可讀媒介，係由特徵參數抽取模組自語音信號中抽取出語音特徵參數與語言特徵參數，以由類神經網路模組依據語音特徵參數與語言特徵參數計算出多語言語音辨識任務與語言辨識任務之損失函數，再將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合而得到總損失函數。另外，由該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練，俾輸出多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。

Description

多語言語音辨識系統、方法及電腦可讀媒介

本發明係關於一種多語言語音辨識技術，特別是指一種多語言語音辨識系統、方法及電腦可讀媒介。

習知之多語言語音辨識系統(例如關於華語/台語/英語等多種語言之語音辨識系統)中，常常具有下列問題。第一個問題為：當第一種語言之音檔突然轉換成第二種語言(或將一種語言突然轉換成另一種語言)時，多語言語音辨識系統無法將第一種語言快速反應或轉換成第二種語言，而導致多語言語音辨識系統之辨識結果依然是第一種語言，過一段時間(如幾秒)後才會成功轉換為第二種語言，導致多語言語音辨識系統之辨識率下降。第二個問題為：不同語言常有相似念法但不同意義之詞，若多語言語音辨識系統之語言模型或處理能力不足，則多種語言之搶詞問題就會浮現，同樣會導致多語言語音辨識系統之辨識率下降。

再者，現有技術提出一種多語言混合語音識別方法，係採用一組多語言混合詞典、聲學模型及語言模型進行語音辨識，以輸出相對應之識別結果。惟，此現有技術並無法將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練，且無法將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合，亦無法調整計算損失函數方式中有關多語言語音辨識任務與語言辨識任務之損失函數之權重值以得到最低的總損失函數，也無法使用梯度下降方式與遞迴方式以降低總損失函數之損失值，導致其辨識效果仍不佳。

因此，如何提供一種創新之多語言語音辨識技術，以解決上述之任一問題或提供相關之功能(服務)，已成為本領域技術人員之一大研究課題。

本發明提供一種創新之多語言語音辨識系統、方法及電腦可讀媒介，係能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練，或者將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合，抑或者調整計算損失函數方式中有關多語言語音辨識任務與語言辨識任務之損失函數之權重值以得到最低的總損失函數，又或者使用梯度下降方式與遞迴方式以降低總損失函數之損失值，增加其辨識效果。

本發明之多語言語音辨識系統包括：一特徵參數抽取模組，係自語音信號中抽取出語音特徵參數與語言特徵參數；以及一具有共享隱藏層之類神經網路模組，係依據該特徵參數抽取模組所抽取之語音特徵參數與語言特徵參數計算出多語言語音辨識任務之損失函數與語言辨識任務之損失函數，以由該類神經網路模組將多語言語音辨識任務之損失函數與語言辨識任務之損失函數進行加權整合而得到總損失函數，其中，該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層，以對多語言語音辨識任務與語言辨識任務進行多任務訓練，再由該類神經網路模組輸出分別經過多任務訓練後之多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。

本發明之多語言語音辨識方法包括：由一特徵參數抽取模組自語音信號中抽取出語音特徵參數與語言特徵參數；由一具有共享隱藏層之類神經網路模組依據該特徵參數抽取模組所抽取之語音特徵參數與語言特徵參數計算出多語言語音辨識任務之損失函數與語言辨識任務之損失函數，以由該類神經網路模組將多語言語音辨識任務之損失函數與語言辨識任務之損失函數進行加權整合而得到總損失函數；以及由該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層，以對多語言語音辨識任務與語言辨識任務進行多任務訓練，再由該類神經網路模組輸出分別經過多任務訓練後之多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。

本發明之電腦可讀媒介應用於計算裝置或電腦中，係儲存有指令，以執行上述多語言語音辨識方法。

為讓本發明之上述特徵與優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點，且此等特徵及優點將部分自所述描述內容可得而知，或可藉由對本發明之實踐習得。應理解，前文一般描述與以下詳細描述兩者均為例示性及解釋性的，且不欲約束本發明所欲主張之範圍。

1:多語言語音辨識系統

10:語音與語言之特徵參數抽取模組

20:共享語音與語言之類神經網路模組

21:網路輸入層

22:共享隱藏層

23:網路輸出層

A:語音信號

B1:語音特徵參數

B2:語言特徵參數

C1:語音發音單元

C2:語言單元

S1至S5:步驟

圖1為本發明之多語言語音辨識系統之架構示意圖。

圖2為本發明圖1之多語言語音辨識系統中，有關共享語音與語言之類神經網路模組之細部架構示意圖。

圖3為本發明之多語言語音辨識方法之流程示意圖。

以下藉由特定的具體實施形態說明本發明之實施方式，熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其它優點與功效，亦可因而藉由其它不同具體等同實施形態加以施行或運用。

圖1為本發明之多語言語音辨識系統1之架構示意圖。如圖所示，多語言語音辨識系統1主要包括互相連接或通訊之一語音與語言之特徵參數抽取模組10及一共享語音與語言之類神經網路模組20。此外，語音與語言之特徵參數抽取模組10及共享語音與語言之類神經網路模組20可設於同一機器中，或分散於不同機器中但以相同之邏輯關係存在。

在一實施例中，語音與語言之特徵參數抽取模組10可為語音與語言之特徵參數抽取器(晶片/電路)、參數特徵抽取軟體(程式)等，共享語音與語言之類神經網路模組20可為共享語音與語言之類神經網路模型、類神經網路架構、類神經網路系統等，且機器可為電腦(如筆記型電腦/個人電腦/平板電腦)、伺服器(如雲端伺服器/遠端伺服器)、主機、智慧型手機等。同時，本發明所述「多語言」或「多種語言」可包括華語、台語、英語、日語、韓語、法語、德語、西班牙語、阿拉伯語等世界上各種語言之其中二種以上。但是，本發明並不以此為限。

語音與語言之特徵參數抽取模組10可接收或取得多種語言之語音信號A，以由語音與語言之特徵參數抽取模組10自語音信號A中抽取出語音特徵參數B1與語言特徵參數B2，再將語音特徵參數B1與語言特徵參數B2傳送至共享語音與語言之類神經網路模組20。

共享語音與語言之類神經網路模組20可接收語音與語言之特徵參數抽取模組10所傳送之語音特徵參數B1與語言特徵參數B2，以由共享語音與語言之類神經網路模組20依據語音特徵參數B1與語言特徵參數B2計算出多語言語音辨識任務(或稱自動語音辨識任務(automatic speech recognition task)，簡稱asr)之損失函數(loss_asr)與語言辨識任務(language identification task，簡稱lid)之損失函數(loss_lid)，且由共享語音與語言之類神經網路模組20將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至圖2所示之共享隱藏層(Shared-Hidden Layer；SHL)22以進行多任務訓練(或稱多任務學習(multi-task learning))。

共享語音與語言之類神經網路模組20可透過損失函數(loss function)公式或演算法將多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)進行加權整合以得到總損失函數(loss_total)，再由共享語音與語言之類神經網路模組20持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(loss_asr)之權重值(如α)與語言辨識任務(lid)之損失函數(loss_lid)之權重值(如1-α)以得到最低的總損失函數(loss_total)，再由共享語音與語言之類神經網路模組20輸出分別經過多任務訓練後之多語言語音辨識任務(asr)所得到之語音發音單元 C1(如華語、英語、台語等之發音單元(phone unit))及語言辨識任務(lid)所得到之語言單元C2(如華語、英語、台語)，有利於達到更準確的多語言語音辨識效果。

申言之，語音與語言之特徵參數抽取模組10可自所接收或取得之語音信號A中抽取出語音特徵參數B1與語言特徵參數B2，語音特徵參數B1可以採用多維(如D維)之梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCC)，且語音與語言之特徵參數抽取模組10中之語言辨識任務(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自語音信號A中擷取出語言特徵參數B2。

在一實施例中，i向量(i-vector)方法可採用因子分析方法以自語音信號A中擷取出語言特徵參數B2，且i向量(i-vector)方法於測試語音信號A中之語音比較長時佔優勢。x向量(x-vector)方法可將語音信號A中每一小段之聲音特徵算出平均與變異數再連結起來，在外領域(out-domain)尤其保持優勢，亦可視不同使用情況，透過多元方式初步將損失函數降到最低。換言之，語音與語言之特徵參數抽取模組10可使用i向量(i-vector)方法或x向量(x-vector)方法來擷取多維(如M維，M為正整數)之語言特徵參數B2，再整合多維(如D維，D為正整數)之語音特徵參數B1(如梅爾頻率倒譜係數)與多維(如M維)之語言特徵參數B2以產出一個多維(如D+M維)之特徵參數組。

本發明可同時輸入多種語言(如華語、英語、台語等多種語言)之語音特徵參數B1與語言特徵參數B2至共享語音與語言之類神經網路模組20，以透過共享隱藏層22(共享之類神經網路)依據語音特徵參數 B1與語言特徵參數B2對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練，再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果，故本發明能解決習知之多語言語音辨識系統(例如華語/台語/英語等多種語言之語音辨識系統)在多種語言之轉換不順暢或多種語言之搶詞問題。

圖2為本發明圖1之多語言語音辨識系統1中有關共享語音與語言之類神經網路模組20之細部架構示意圖。如圖2所示，共享語音與語言之類神經網路模組20可建立一網路架構，並至少具有一網路輸入層21、一共享隱藏層22與一網路輸出層23。

共享語音與語言之類神經網路模組20之網路輸入層21可整合多維(如D維)之語音特徵參數B1與多維(如M維)之語言特徵參數B2(共D+M維)，以將多維之語音特徵參數B1與多維之語言特徵參數B2輸入至共享隱藏層22。共享語音與語言之類神經網路模組20之共享隱藏層22可採用多層(如N層，N為正整數)且每一層具有多個(如K個，K為正整數)神經元之類神經網路。共享語音與語言之類神經網路模組20之網路輸出層23可分別輸出經過多任務訓練後之多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2，例如語音發音單元C1為華語發音單元、台語發音單元、英語發音單元等其中至少二者，且語言單元C2為華語、台語、英語等其中至少二者，但不以此為限。

共享語音與語言之類神經網路模組20之類神經網路可採用損失函數進行訓練。亦即，共享語音與語言之類神經網路模組20可將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22，以透過共享隱藏層22藉由推導遷移學習方法對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練，且語言語音辨識任務(asr)與語言辨識任務(lid)可透過各自擁有之領域相關信息作為推導偏差來提昇泛化(generalization)之效果或能力。

共享語音與語言之類神經網路模組20對多語言語音辨識任務(asr)與語言辨識任務(lid)之訓練程序可包括下列第一步驟至第三步驟。第一步驟：分別遮罩住多語言語音辨識任務(asr)與語言辨識任務(lid)之一者。第二步驟：將多語言語音辨識任務(asr)與語言辨識任務(lid)分別進行訓練，以找出多語言語音辨識任務(asr)與語言辨識任務(lid)各自之最佳學習率。第三步驟：透過前述第一步驟與第二步驟，由共享語音與語言之類神經網路模組20遞廻調整多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之學習率以得到最佳訓練效果。

如下列公式(1)之交叉熵(cross-entropy)公式或演算法所示，共享語音與語言之類神經網路模組20可先透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之交叉熵H作為兩者之損失函數(loss function)，以供共享語音與語言之類神經網路模組20後續找出多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之最佳學習率。

交叉熵(cross-entropy)公式或演算法：

在公式(1)中，H代表多語言語音辨識任務(asr)或語言辨識任務(lid)之交叉熵作為損失函數，C代表類別數量(如語音發音單元C1或語言單元C2之類別數量)，n代表所有資料數(如語音發音單元C1或語言單元C2之所有資料數)，y_c,i代表第i筆資料屬於第c類真實類別(如語音發音單元C1或語言單元C2中之第i筆資料屬於第c類真實類別)，p_c,i代表第i筆資料屬於第c類預測出來之機率(如語音發音單元C1或語言單元C2中之第i筆資料屬於第c類預測出來之機率)，i或c代表正整數。

如下列公式(2)之損失函數(loss function)公式或演算法所示，共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)進行加權整合以得到總損失函數(loss_total)。繼之，共享語音與語言之類神經網路模組20可持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(loss_asr)之權重值(如α)與語言辨識任務(lid)之損失函數(loss_lid)之權重值(如1-α)以得到最低的總損失函數(loss_total)，再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果，有利於達到更準確的多語言語音辨識效果。

損失函數公式或演算法：

loss_total=α×loss_asr+(1-α)×loss_lid......(2)

在公式(2)中，loss_total代表總損失函數，loss_asr代表多語言語音辨識任務(asr)之損失函數，loss_lid代表語言辨識任務(lid)之損失函數，α代表權重值。

因此，本發明可在多語言語音辨識任務(asr)上加入額外的語言辨識任務(lid)，並將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22，且整合多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)，再透過多任務訓練提升泛化之效果或能力，進而達到更準確的多語言語音辨識效果，且前述泛化之效果或能力可代表共享語音與語言之類神經網路模組20或其語言模型對於未知資料之預測效果或能力。

再者，本發明可建立共享語音與語言之類神經網路模組20(如類神經網路模型、類神經網路架構或類神經網路系統)，並在多語言語音辨識任務(asr)上加入額外的語言辨識任務(lid)，以將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22。而且，共享語音與語言之類神經網路模組20可整合多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)，再使用梯度下降方式或演算法與遞迴方式來降低多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之總損失函數(loss_total)之損失值，進而調整共享語音與語言之類神經網路模組20中之類神經網路之參數以減少網路預測與樣本標籤之間的誤差，直到找到區域最小的損失值，有利於達到更準確的多語言語音辨識效果。

圖3為本發明之多語言語音辨識方法之流程示意圖，並參閱圖1至圖2予以說明。同時，此多語言語音辨識方法之主要內容如下，其餘內容相同於上述圖1至圖2之說明，於此不再重覆敘述。

如圖3所示，在步驟S1中，提供互相連接或通訊之一語音與語言之特徵參數抽取模組10及一共享語音與語言之類神經網路模組20。此外，語音與語言之特徵參數抽取模組10可接收或取得多種語言之語音信號A，以由語音與語言之特徵參數抽取模組10自語音信號A中抽取出語音特徵參數B1與語言特徵參數B2，再將語音特徵參數B1與語言特徵參數B2傳送至共享語音與語言之類神經網路模組20。

共享語音與語言之類神經網路模組20可接收語音與語言之特徵參數抽取模組10所傳送之語音特徵參數B1與語言特徵參數B2，以由共享語音與語言之類神經網路模組20依據語音特徵參數B1與語言特徵參數B2計算出多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)，且由共享語音與語言之類神經網路模組20將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22以進行多任務訓練。

共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)進行加權整合以得到總損失函數(loss_total)，再由共享語音與語言之類神經網路模組20持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(loss_asr)之權重值(如α)與語言辨識任務(lid)之損失函數(loss_lid)之權重值(如1-α)以得到最低的總損失函數(loss_total)，進而由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2，有利於達到更準確的多語言語音辨識效果。

在步驟S2中，設定語音與語言之特徵參數抽取模組10及共享語音與語言之類神經網路模組20之參數。亦即，因與語言之特徵參數抽取模組10可自所接收或取得之語音信號A中抽取出語音特徵參數B1與語言特徵參數B2，語音特徵參數B1可以採用多維或D維(如40維)之梅爾頻率倒譜係數(MFCC)，且語音與語言之特徵參數抽取模組10中之語言辨識任務(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自語音信號A中擷取出語言特徵參數B2。

i向量(i-vector)方法可採用因子分析方法以自語音信號A中擷取出語言特徵參數B2，且i向量(i-vector)方法於測試語音信號A中之語音比較長時佔優勢。x向量(x-vector)方法可將語音信號A中每一小段之聲音特徵算出平均與變異數再連結起來，在外領域(out-domain)尤其保持優勢，亦可視不同使用情況，透過多元方式初步將損失函數降到最低。換言之，語音與語言之特徵參數抽取模組10可使用i向量(i-vector)方法或x向量(x-vector)方法來擷取多維(如M維=100維)之語言特徵參數B2，再整合多維(如D維=40維)之語音特徵參數B1(如梅爾頻率倒譜係數)與多維(如M維=100維)之語言特徵參數B2以產出一個多維(如100+40=140維)之特徵參數組。

共享語音與語言之類神經網路模組20可建立一網路架構(如X型之網路架構)，共享語音與語言之類神經網路模組20之網路輸入層21可整合多維(如D維=40維)之語音特徵參數B1與多維(如M維=100維)之語言特徵參數B2(共D+M維=140維)。共享語音與語言之類神經網路模組20之共享隱藏層22可採用多層(如6層)且每一層有多個(如1024個)共享隱藏層，例如時間延遲類神經網路(Time Delay Neural Network；TDNN)之共享隱藏層。共享語音與語言之類神經網路模組20之網路輸出層23可分別輸出多語言語音辨識任務(asr)所得到之語音發音單元C1(如華語發音單元、台語發音單元、英語發音單元等其中至少二者)及語言辨識任務(lid) 所得到之語言單元C2(如華語、台語、英語等其中至少二者)。

在步驟S3中，將多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練。亦即，共享語音與語言之類神經網路模組20可將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22，以透過共享隱藏層22藉由推導遷移學習方法對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練，且語言語音辨識任務(asr)與語言辨識任務(lid)可透過各自擁有之領域相關信息作為推導偏差來提昇泛化之效果。

共享語音與語言之類神經網路模組20對多語言語音辨識任務(asr)與語言辨識任務(lid)之訓練程序可包括下列第一步驟至第三步驟。第一步驟：分別遮罩住多語言語音辨識任務(asr)與語言辨識任務(lid)之一者。第二步驟：將多語言語音辨識任務(asr)與語言辨識任務(lid)分別進行訓練，以找出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之最佳學習率。第三步驟：透過前述第一步驟與第二步驟，由共享語音與語言之類神經網路模組20遞廻調整多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之學習率以得到最佳訓練效果。

在步驟S4中，透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)之交叉熵作為損失函數。亦即，如上述公式(1)之交叉熵公式或演算法所示，共享語音與語言之類神經網路模組20可先透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之交叉熵H作為兩者之損失函數，以供共享語音與語言之類神經網路模組20後續找出多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之最佳學習率。同時，共享語音與語言之類神經網路模組 20可將多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2分別帶入上式(1)，以計算出多語言語音辨識任務(asr)之交叉熵與語言辨識任務(lid)之交叉熵分別作為多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)。

在步驟S5中，透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)進行加權整合以得到總損失函數(loss_total)，且由共享語音與語言之類神經網路模組20之網路輸出層23分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果。

亦即，如上述公式(2)之損失函數公式或演算法所示，共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(loss_asr)與語言辨識任務(lid)之損失函數(loss_lid)進行加權整合以得到總損失函數(loss_total)。繼之，共享語音與語言之類神經網路模組20可持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(loss_asr)之權重值(如α)與語言辨識任務(lid)之損失函數(loss_lid)之權重值(如1-α)以得到最低的總損失函數(loss_total)，再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果，有利於達到更準確的多語言語音辨識效果。

共享語音與語言之類神經網路模組20可使用梯度下降方式或演算法與遞迴方式以調整多語言語音辨識任務(asr)之損失函數(loss_asr)之權重值(如α)與語言辨識任務(lid)之損失函數(loss_lid)之權重值(如1-α)而逐步降低總損失函數(loss_total)之損失值，再調整共享語音與語言之類神經網路模組20中之類神經網路之參數以減少網路預測與樣本標籤之間的誤差，直到找到區域最小的損失值，進而由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果，有利於達到更準確的多語言語音辨識效果。然後，共享語音與語言之類神經網路模組20可輸出多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2。

另外，本發明還提供一種針對多語言語音辨識方法之電腦可讀媒介，係應用於具有處理器及/或記憶體的計算裝置或電腦中，且電腦可讀媒介儲存有指令，並可利用計算裝置或電腦透過處理器及/或記憶體執行電腦可讀媒介，以於執行電腦可讀媒介時執行上述內容。例如，處理器可為微處理器、中央處理器(CPU)、圖形處理器(GPU)等，記憶體可為隨機存取記憶體(RAM)、記憶卡、硬碟(如雲端/網路硬碟)、資料庫等，但不以此為限。

綜上，本發明之多語言語音辨識系統、方法及電腦可讀媒介至少具有下列特色、優點或技術功效。

一、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層，以利於對多語言語音辨識任務與語言辨識任務進行多任務訓練。

二、本發明之共享語音與語言之類神經網路模組能透過損失函數公式或演算法將多語言語音辨識任務與語言辨識任務兩者之損失函數進行加權整合以得到總損失函數，再持續調整損失函數公式或演算法中有關多語言語音辨識任務與語言辨識任務兩者之損失函數之權重值以得到最低的總損失函數，進而分別輸出多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元，有利於達到更準確的多語言語音辨識效果。

三、本發明能同時輸入多種語言之語音特徵參數與語言特徵參數至共享語音與語言之類神經網路模組，以利透過共享隱藏層(共享之類神經網路)對多語言語音辨識任務與語言辨識任務進行訓練，亦利於輸出多語言語音辨識任務之語音辨識結果及語言辨識任務之語言辨識結果。藉此，本發明能解決習知之多語言語音辨識系統在多種語言之轉換不順暢或多種語言之搶詞問題。

四、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層，以利透過推導遷移學習方法對多語言語音辨識任務與語言辨識任務進行多任務訓練，亦能透過多任務訓練提昇泛化之效果或能力。

五、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務兩者分別進行訓練以找出兩者之最佳學習率，也能遞廻調整多語言語音辨識任務與語言辨識任務於多任務訓練時之學習率以得到最佳訓練效果。

六、本發明之共享語音與語言之類神經網路模組能使用梯度下降方式或演算法與遞迴方式以調整多語言語音辨識任務與語言辨識任務兩者之損失函數之權重值而逐步降低總損失函數之損失值，亦能調整類神經網路之參數以減少網路預測與樣本標籤之間的誤差。

七、本發明可能應用之產業為例如智慧語音人機互動產業、物聯網、智慧家庭等產業，且可能應用之產品為例如語意雲智慧音箱應用、AI(人工智慧)聲音濾鏡服務、聲控遙控器等產品，但不以此為限。

上述實施形態僅例示性說明本發明之原理、特點及其功效，並非用以限制本發明之可實施範疇，任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾，均仍應為申請專利範圍所涵蓋。因此，本發明之權利保護範圍應如申請專利範圍所列。