TWI795173B - 多語言語音辨識系統、方法及電腦可讀媒介 - Google Patents

多語言語音辨識系統、方法及電腦可讀媒介 Download PDF

Info

Publication number
TWI795173B
TWI795173B TW111101853A TW111101853A TWI795173B TW I795173 B TWI795173 B TW I795173B TW 111101853 A TW111101853 A TW 111101853A TW 111101853 A TW111101853 A TW 111101853A TW I795173 B TWI795173 B TW I795173B
Authority
TW
Taiwan
Prior art keywords
language
task
recognition task
speech recognition
loss function
Prior art date
Application number
TW111101853A
Other languages
English (en)
Other versions
TW202331582A (zh
Inventor
楊智合
廖元甫
張家瑜
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW111101853A priority Critical patent/TWI795173B/zh
Priority to CN202211200481.1A priority patent/CN116486783A/zh
Application granted granted Critical
Publication of TWI795173B publication Critical patent/TWI795173B/zh
Publication of TW202331582A publication Critical patent/TW202331582A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本發明揭露一種多語言語音辨識系統、方法及電腦可讀媒介,係由特徵參數抽取模組自語音信號中抽取出語音特徵參數與語言特徵參數,以由類神經網路模組依據語音特徵參數與語言特徵參數計算出多語言語音辨識任務與語言辨識任務之損失函數,再將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合而得到總損失函數。另外,由該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練,俾輸出多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。

Description

多語言語音辨識系統、方法及電腦可讀媒介
本發明係關於一種多語言語音辨識技術,特別是指一種多語言語音辨識系統、方法及電腦可讀媒介。
習知之多語言語音辨識系統(例如關於華語/台語/英語等多種語言之語音辨識系統)中,常常具有下列問題。第一個問題為:當第一種語言之音檔突然轉換成第二種語言(或將一種語言突然轉換成另一種語言)時,多語言語音辨識系統無法將第一種語言快速反應或轉換成第二種語言,而導致多語言語音辨識系統之辨識結果依然是第一種語言,過一段時間(如幾秒)後才會成功轉換為第二種語言,導致多語言語音辨識系統之辨識率下降。第二個問題為:不同語言常有相似念法但不同意義之詞,若多語言語音辨識系統之語言模型或處理能力不足,則多種語言之搶詞問題就會浮現,同樣會導致多語言語音辨識系統之辨識率下降。
再者,現有技術提出一種多語言混合語音識別方法,係採用一組多語言混合詞典、聲學模型及語言模型進行語音辨識,以輸出相對應 之識別結果。惟,此現有技術並無法將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練,且無法將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合,亦無法調整計算損失函數方式中有關多語言語音辨識任務與語言辨識任務之損失函數之權重值以得到最低的總損失函數,也無法使用梯度下降方式與遞迴方式以降低總損失函數之損失值,導致其辨識效果仍不佳。
因此,如何提供一種創新之多語言語音辨識技術,以解決上述之任一問題或提供相關之功能(服務),已成為本領域技術人員之一大研究課題。
本發明提供一種創新之多語言語音辨識系統、方法及電腦可讀媒介,係能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層以進行多任務訓練,或者將多語言語音辨識任務與語言辨識任務之損失函數進行加權整合,抑或者調整計算損失函數方式中有關多語言語音辨識任務與語言辨識任務之損失函數之權重值以得到最低的總損失函數,又或者使用梯度下降方式與遞迴方式以降低總損失函數之損失值,增加其辨識效果。
本發明之多語言語音辨識系統包括:一特徵參數抽取模組,係自語音信號中抽取出語音特徵參數與語言特徵參數;以及一具有共享隱藏層之類神經網路模組,係依據該特徵參數抽取模組所抽取之語音特徵參數與語言特徵參數計算出多語言語音辨識任務之損失函數與語言辨識任務之損失函數,以由該類神經網路模組將多語言語音辨識任務之損失函數與 語言辨識任務之損失函數進行加權整合而得到總損失函數,其中,該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層,以對多語言語音辨識任務與語言辨識任務進行多任務訓練,再由該類神經網路模組輸出分別經過多任務訓練後之多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。
本發明之多語言語音辨識方法包括:由一特徵參數抽取模組自語音信號中抽取出語音特徵參數與語言特徵參數;由一具有共享隱藏層之類神經網路模組依據該特徵參數抽取模組所抽取之語音特徵參數與語言特徵參數計算出多語言語音辨識任務之損失函數與語言辨識任務之損失函數,以由該類神經網路模組將多語言語音辨識任務之損失函數與語言辨識任務之損失函數進行加權整合而得到總損失函數;以及由該類神經網路模組將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層,以對多語言語音辨識任務與語言辨識任務進行多任務訓練,再由該類神經網路模組輸出分別經過多任務訓練後之多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元。
本發明之電腦可讀媒介應用於計算裝置或電腦中,係儲存有指令,以執行上述多語言語音辨識方法。
為讓本發明之上述特徵與優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明。在以下描述內容中將部分闡述本發明之額外特徵及優點,且此等特徵及優點將部分自所述描述內容可得而知,或可藉由對本發明之實踐習得。應理解,前文一般描述與以下詳細描述兩者均為例示性及解釋性的,且不欲約束本發明所欲主張之範圍。
1:多語言語音辨識系統
10:語音與語言之特徵參數抽取模組
20:共享語音與語言之類神經網路模組
21:網路輸入層
22:共享隱藏層
23:網路輸出層
A:語音信號
B1:語音特徵參數
B2:語言特徵參數
C1:語音發音單元
C2:語言單元
S1至S5:步驟
圖1為本發明之多語言語音辨識系統之架構示意圖。
圖2為本發明圖1之多語言語音辨識系統中,有關共享語音與語言之類神經網路模組之細部架構示意圖。
圖3為本發明之多語言語音辨識方法之流程示意圖。
以下藉由特定的具體實施形態說明本發明之實施方式,熟悉此技術之人士可由本說明書所揭示之內容了解本發明之其它優點與功效,亦可因而藉由其它不同具體等同實施形態加以施行或運用。
圖1為本發明之多語言語音辨識系統1之架構示意圖。如圖所示,多語言語音辨識系統1主要包括互相連接或通訊之一語音與語言之特徵參數抽取模組10及一共享語音與語言之類神經網路模組20。此外,語音與語言之特徵參數抽取模組10及共享語音與語言之類神經網路模組20可設於同一機器中,或分散於不同機器中但以相同之邏輯關係存在。
在一實施例中,語音與語言之特徵參數抽取模組10可為語音與語言之特徵參數抽取器(晶片/電路)、參數特徵抽取軟體(程式)等,共享語音與語言之類神經網路模組20可為共享語音與語言之類神經網路模型、類神經網路架構、類神經網路系統等,且機器可為電腦(如筆記型電腦/個人電腦/平板電腦)、伺服器(如雲端伺服器/遠端伺服器)、主機、智慧型手機等。同時,本發明所述「多語言」或「多種語言」可包括華語、台語、英語、日語、韓語、法語、德語、西班牙語、阿拉伯語等世界上各種語言 之其中二種以上。但是,本發明並不以此為限。
語音與語言之特徵參數抽取模組10可接收或取得多種語言之語音信號A,以由語音與語言之特徵參數抽取模組10自語音信號A中抽取出語音特徵參數B1與語言特徵參數B2,再將語音特徵參數B1與語言特徵參數B2傳送至共享語音與語言之類神經網路模組20。
共享語音與語言之類神經網路模組20可接收語音與語言之特徵參數抽取模組10所傳送之語音特徵參數B1與語言特徵參數B2,以由共享語音與語言之類神經網路模組20依據語音特徵參數B1與語言特徵參數B2計算出多語言語音辨識任務(或稱自動語音辨識任務(automatic speech recognition task),簡稱asr)之損失函數(lossasr)與語言辨識任務(language identification task,簡稱lid)之損失函數(losslid),且由共享語音與語言之類神經網路模組20將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至圖2所示之共享隱藏層(Shared-Hidden Layer;SHL)22以進行多任務訓練(或稱多任務學習(multi-task learning))。
共享語音與語言之類神經網路模組20可透過損失函數(loss function)公式或演算法將多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)進行加權整合以得到總損失函數(losstotal),再由共享語音與語言之類神經網路模組20持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(lossasr)之權重值(如α)與語言辨識任務(lid)之損失函數(losslid)之權重值(如1-α)以得到最低的總損失函數(losstotal),再由共享語音與語言之類神經網路模組20輸出分別經過多任務訓練後之多語言語音辨識任務(asr)所得到之語音發音單元 C1(如華語、英語、台語等之發音單元(phone unit))及語言辨識任務(lid)所得到之語言單元C2(如華語、英語、台語),有利於達到更準確的多語言語音辨識效果。
申言之,語音與語言之特徵參數抽取模組10可自所接收或取得之語音信號A中抽取出語音特徵參數B1與語言特徵參數B2,語音特徵參數B1可以採用多維(如D維)之梅爾頻率倒譜係數(Mel-Frequency Cepstral Coefficients,MFCC),且語音與語言之特徵參數抽取模組10中之語言辨識任務(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自語音信號A中擷取出語言特徵參數B2。
在一實施例中,i向量(i-vector)方法可採用因子分析方法以自語音信號A中擷取出語言特徵參數B2,且i向量(i-vector)方法於測試語音信號A中之語音比較長時佔優勢。x向量(x-vector)方法可將語音信號A中每一小段之聲音特徵算出平均與變異數再連結起來,在外領域(out-domain)尤其保持優勢,亦可視不同使用情況,透過多元方式初步將損失函數降到最低。換言之,語音與語言之特徵參數抽取模組10可使用i向量(i-vector)方法或x向量(x-vector)方法來擷取多維(如M維,M為正整數)之語言特徵參數B2,再整合多維(如D維,D為正整數)之語音特徵參數B1(如梅爾頻率倒譜係數)與多維(如M維)之語言特徵參數B2以產出一個多維(如D+M維)之特徵參數組。
本發明可同時輸入多種語言(如華語、英語、台語等多種語言)之語音特徵參數B1與語言特徵參數B2至共享語音與語言之類神經網路模組20,以透過共享隱藏層22(共享之類神經網路)依據語音特徵參數 B1與語言特徵參數B2對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練,再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果,故本發明能解決習知之多語言語音辨識系統(例如華語/台語/英語等多種語言之語音辨識系統)在多種語言之轉換不順暢或多種語言之搶詞問題。
圖2為本發明圖1之多語言語音辨識系統1中有關共享語音與語言之類神經網路模組20之細部架構示意圖。如圖2所示,共享語音與語言之類神經網路模組20可建立一網路架構,並至少具有一網路輸入層21、一共享隱藏層22與一網路輸出層23。
共享語音與語言之類神經網路模組20之網路輸入層21可整合多維(如D維)之語音特徵參數B1與多維(如M維)之語言特徵參數B2(共D+M維),以將多維之語音特徵參數B1與多維之語言特徵參數B2輸入至共享隱藏層22。共享語音與語言之類神經網路模組20之共享隱藏層22可採用多層(如N層,N為正整數)且每一層具有多個(如K個,K為正整數)神經元之類神經網路。共享語音與語言之類神經網路模組20之網路輸出層23可分別輸出經過多任務訓練後之多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2,例如語音發音單元C1為華語發音單元、台語發音單元、英語發音單元等其中至少二者,且語言單元C2為華語、台語、英語等其中至少二者,但不以此為限。
共享語音與語言之類神經網路模組20之類神經網路可採用損失函數進行訓練。亦即,共享語音與語言之類神經網路模組20可將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22,以透 過共享隱藏層22藉由推導遷移學習方法對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練,且語言語音辨識任務(asr)與語言辨識任務(lid)可透過各自擁有之領域相關信息作為推導偏差來提昇泛化(generalization)之效果或能力。
共享語音與語言之類神經網路模組20對多語言語音辨識任務(asr)與語言辨識任務(lid)之訓練程序可包括下列第一步驟至第三步驟。第一步驟:分別遮罩住多語言語音辨識任務(asr)與語言辨識任務(lid)之一者。第二步驟:將多語言語音辨識任務(asr)與語言辨識任務(lid)分別進行訓練,以找出多語言語音辨識任務(asr)與語言辨識任務(lid)各自之最佳學習率。第三步驟:透過前述第一步驟與第二步驟,由共享語音與語言之類神經網路模組20遞廻調整多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之學習率以得到最佳訓練效果。
如下列公式(1)之交叉熵(cross-entropy)公式或演算法所示,共享語音與語言之類神經網路模組20可先透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之交叉熵H作為兩者之損失函數(loss function),以供共享語音與語言之類神經網路模組20後續找出多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之最佳學習率。
交叉熵(cross-entropy)公式或演算法:
Figure 111101853-A0101-12-0008-1
在公式(1)中,H代表多語言語音辨識任務(asr)或語言辨識任務(lid)之交叉熵作為損失函數,C代表類別數量(如語音發音單元C1或 語言單元C2之類別數量),n代表所有資料數(如語音發音單元C1或語言單元C2之所有資料數),yc,i代表第i筆資料屬於第c類真實類別(如語音發音單元C1或語言單元C2中之第i筆資料屬於第c類真實類別),pc,i代表第i筆資料屬於第c類預測出來之機率(如語音發音單元C1或語言單元C2中之第i筆資料屬於第c類預測出來之機率),i或c代表正整數。
如下列公式(2)之損失函數(loss function)公式或演算法所示,共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)進行加權整合以得到總損失函數(losstotal)。繼之,共享語音與語言之類神經網路模組20可持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(lossasr)之權重值(如α)與語言辨識任務(lid)之損失函數(losslid)之權重值(如1-α)以得到最低的總損失函數(losstotal),再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果,有利於達到更準確的多語言語音辨識效果。
損失函數公式或演算法:
losstotal=α×lossasr+(1-α)×losslid......(2)
在公式(2)中,losstotal代表總損失函數,lossasr代表多語言語音辨識任務(asr)之損失函數,losslid代表語言辨識任務(lid)之損失函數,α代表權重值。
因此,本發明可在多語言語音辨識任務(asr)上加入額外的語言辨識任務(lid),並將多語言語音辨識任務(asr)與語言辨識任務(lid)一併 共用至共享隱藏層22,且整合多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid),再透過多任務訓練提升泛化之效果或能力,進而達到更準確的多語言語音辨識效果,且前述泛化之效果或能力可代表共享語音與語言之類神經網路模組20或其語言模型對於未知資料之預測效果或能力。
再者,本發明可建立共享語音與語言之類神經網路模組20(如類神經網路模型、類神經網路架構或類神經網路系統),並在多語言語音辨識任務(asr)上加入額外的語言辨識任務(lid),以將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22。而且,共享語音與語言之類神經網路模組20可整合多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid),再使用梯度下降方式或演算法與遞迴方式來降低多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之總損失函數(losstotal)之損失值,進而調整共享語音與語言之類神經網路模組20中之類神經網路之參數以減少網路預測與樣本標籤之間的誤差,直到找到區域最小的損失值,有利於達到更準確的多語言語音辨識效果。
圖3為本發明之多語言語音辨識方法之流程示意圖,並參閱圖1至圖2予以說明。同時,此多語言語音辨識方法之主要內容如下,其餘內容相同於上述圖1至圖2之說明,於此不再重覆敘述。
如圖3所示,在步驟S1中,提供互相連接或通訊之一語音與語言之特徵參數抽取模組10及一共享語音與語言之類神經網路模組20。此外,語音與語言之特徵參數抽取模組10可接收或取得多種語言之語音信號A,以由語音與語言之特徵參數抽取模組10自語音信號A中抽取出語 音特徵參數B1與語言特徵參數B2,再將語音特徵參數B1與語言特徵參數B2傳送至共享語音與語言之類神經網路模組20。
共享語音與語言之類神經網路模組20可接收語音與語言之特徵參數抽取模組10所傳送之語音特徵參數B1與語言特徵參數B2,以由共享語音與語言之類神經網路模組20依據語音特徵參數B1與語言特徵參數B2計算出多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid),且由共享語音與語言之類神經網路模組20將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22以進行多任務訓練。
共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)進行加權整合以得到總損失函數(losstotal),再由共享語音與語言之類神經網路模組20持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(lossasr)之權重值(如α)與語言辨識任務(lid)之損失函數(losslid)之權重值(如1-α)以得到最低的總損失函數(losstotal),進而由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2,有利於達到更準確的多語言語音辨識效果。
在步驟S2中,設定語音與語言之特徵參數抽取模組10及共享語音與語言之類神經網路模組20之參數。亦即,因與語言之特徵參數抽取模組10可自所接收或取得之語音信號A中抽取出語音特徵參數B1與語言特徵參數B2,語音特徵參數B1可以採用多維或D維(如40維)之梅 爾頻率倒譜係數(MFCC),且語音與語言之特徵參數抽取模組10中之語言辨識任務(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自語音信號A中擷取出語言特徵參數B2。
i向量(i-vector)方法可採用因子分析方法以自語音信號A中擷取出語言特徵參數B2,且i向量(i-vector)方法於測試語音信號A中之語音比較長時佔優勢。x向量(x-vector)方法可將語音信號A中每一小段之聲音特徵算出平均與變異數再連結起來,在外領域(out-domain)尤其保持優勢,亦可視不同使用情況,透過多元方式初步將損失函數降到最低。換言之,語音與語言之特徵參數抽取模組10可使用i向量(i-vector)方法或x向量(x-vector)方法來擷取多維(如M維=100維)之語言特徵參數B2,再整合多維(如D維=40維)之語音特徵參數B1(如梅爾頻率倒譜係數)與多維(如M維=100維)之語言特徵參數B2以產出一個多維(如100+40=140維)之特徵參數組。
共享語音與語言之類神經網路模組20可建立一網路架構(如X型之網路架構),共享語音與語言之類神經網路模組20之網路輸入層21可整合多維(如D維=40維)之語音特徵參數B1與多維(如M維=100維)之語言特徵參數B2(共D+M維=140維)。共享語音與語言之類神經網路模組20之共享隱藏層22可採用多層(如6層)且每一層有多個(如1024個)共享隱藏層,例如時間延遲類神經網路(Time Delay Neural Network;TDNN)之共享隱藏層。共享語音與語言之類神經網路模組20之網路輸出層23可分別輸出多語言語音辨識任務(asr)所得到之語音發音單元C1(如華語發音單元、台語發音單元、英語發音單元等其中至少二者)及語言辨識任務(lid) 所得到之語言單元C2(如華語、台語、英語等其中至少二者)。
在步驟S3中,將多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練。亦即,共享語音與語言之類神經網路模組20可將多語言語音辨識任務(asr)與語言辨識任務(lid)一併共用至共享隱藏層22,以透過共享隱藏層22藉由推導遷移學習方法對多語言語音辨識任務(asr)與語言辨識任務(lid)進行多任務訓練,且語言語音辨識任務(asr)與語言辨識任務(lid)可透過各自擁有之領域相關信息作為推導偏差來提昇泛化之效果。
共享語音與語言之類神經網路模組20對多語言語音辨識任務(asr)與語言辨識任務(lid)之訓練程序可包括下列第一步驟至第三步驟。第一步驟:分別遮罩住多語言語音辨識任務(asr)與語言辨識任務(lid)之一者。第二步驟:將多語言語音辨識任務(asr)與語言辨識任務(lid)分別進行訓練,以找出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之最佳學習率。第三步驟:透過前述第一步驟與第二步驟,由共享語音與語言之類神經網路模組20遞廻調整多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之學習率以得到最佳訓練效果。
在步驟S4中,透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)之交叉熵作為損失函數。亦即,如上述公式(1)之交叉熵公式或演算法所示,共享語音與語言之類神經網路模組20可先透過交叉熵公式或演算法計算出多語言語音辨識任務(asr)與語言辨識任務(lid)兩者之交叉熵H作為兩者之損失函數,以供共享語音與語言之類神經網路模組20後續找出多語言語音辨識任務(asr)與語言辨識任務(lid)於多任務訓練時之最佳學習率。同時,共享語音與語言之類神經網路模組 20可將多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2分別帶入上式(1),以計算出多語言語音辨識任務(asr)之交叉熵與語言辨識任務(lid)之交叉熵分別作為多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)。
在步驟S5中,透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)進行加權整合以得到總損失函數(losstotal),且由共享語音與語言之類神經網路模組20之網路輸出層23分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果。
亦即,如上述公式(2)之損失函數公式或演算法所示,共享語音與語言之類神經網路模組20可透過損失函數公式或演算法將多語言語音辨識任務(asr)之損失函數(lossasr)與語言辨識任務(lid)之損失函數(losslid)進行加權整合以得到總損失函數(losstotal)。繼之,共享語音與語言之類神經網路模組20可持續調整損失函數公式或演算法中有關多語言語音辨識任務(asr)之損失函數(lossasr)之權重值(如α)與語言辨識任務(lid)之損失函數(losslid)之權重值(如1-α)以得到最低的總損失函數(losstotal),再由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果,有利於達到更準確的多語言語音辨識效果。
共享語音與語言之類神經網路模組20可使用梯度下降方式或演算法與遞迴方式以調整多語言語音辨識任務(asr)之損失函數(lossasr)之權重值(如α)與語言辨識任務(lid)之損失函數(losslid)之權重值(如1-α)而 逐步降低總損失函數(losstotal)之損失值,再調整共享語音與語言之類神經網路模組20中之類神經網路之參數以減少網路預測與樣本標籤之間的誤差,直到找到區域最小的損失值,進而由共享語音與語言之類神經網路模組20分別輸出多語言語音辨識任務(asr)之語音辨識結果及語言辨識任務(lid)之語言辨識結果,有利於達到更準確的多語言語音辨識效果。然後,共享語音與語言之類神經網路模組20可輸出多語言語音辨識任務(asr)所得到之語音發音單元C1及語言辨識任務(lid)所得到之語言單元C2。
另外,本發明還提供一種針對多語言語音辨識方法之電腦可讀媒介,係應用於具有處理器及/或記憶體的計算裝置或電腦中,且電腦可讀媒介儲存有指令,並可利用計算裝置或電腦透過處理器及/或記憶體執行電腦可讀媒介,以於執行電腦可讀媒介時執行上述內容。例如,處理器可為微處理器、中央處理器(CPU)、圖形處理器(GPU)等,記憶體可為隨機存取記憶體(RAM)、記憶卡、硬碟(如雲端/網路硬碟)、資料庫等,但不以此為限。
綜上,本發明之多語言語音辨識系統、方法及電腦可讀媒介至少具有下列特色、優點或技術功效。
一、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層,以利於對多語言語音辨識任務與語言辨識任務進行多任務訓練。
二、本發明之共享語音與語言之類神經網路模組能透過損失函數公式或演算法將多語言語音辨識任務與語言辨識任務兩者之損失函數進行加權整合以得到總損失函數,再持續調整損失函數公式或演算法中有 關多語言語音辨識任務與語言辨識任務兩者之損失函數之權重值以得到最低的總損失函數,進而分別輸出多語言語音辨識任務所得到之語音發音單元及語言辨識任務所得到之語言單元,有利於達到更準確的多語言語音辨識效果。
三、本發明能同時輸入多種語言之語音特徵參數與語言特徵參數至共享語音與語言之類神經網路模組,以利透過共享隱藏層(共享之類神經網路)對多語言語音辨識任務與語言辨識任務進行訓練,亦利於輸出多語言語音辨識任務之語音辨識結果及語言辨識任務之語言辨識結果。藉此,本發明能解決習知之多語言語音辨識系統在多種語言之轉換不順暢或多種語言之搶詞問題。
四、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務一併共用至共享隱藏層,以利透過推導遷移學習方法對多語言語音辨識任務與語言辨識任務進行多任務訓練,亦能透過多任務訓練提昇泛化之效果或能力。
五、本發明之共享語音與語言之類神經網路模組能將多語言語音辨識任務與語言辨識任務兩者分別進行訓練以找出兩者之最佳學習率,也能遞廻調整多語言語音辨識任務與語言辨識任務於多任務訓練時之學習率以得到最佳訓練效果。
六、本發明之共享語音與語言之類神經網路模組能使用梯度下降方式或演算法與遞迴方式以調整多語言語音辨識任務與語言辨識任務兩者之損失函數之權重值而逐步降低總損失函數之損失值,亦能調整類神經網路之參數以減少網路預測與樣本標籤之間的誤差。
七、本發明可能應用之產業為例如智慧語音人機互動產業、物聯網、智慧家庭等產業,且可能應用之產品為例如語意雲智慧音箱應用、AI(人工智慧)聲音濾鏡服務、聲控遙控器等產品,但不以此為限。
上述實施形態僅例示性說明本發明之原理、特點及其功效,並非用以限制本發明之可實施範疇,任何熟習此項技藝之人士均能在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。任何使用本發明所揭示內容而完成之等效改變及修飾,均仍應為申請專利範圍所涵蓋。因此,本發明之權利保護範圍應如申請專利範圍所列。
1:多語言語音辨識系統
10:語音與語言之特徵參數抽取模組
20:共享語音與語言之類神經網路模組
A:語音信號
B1:語音特徵參數
B2:語言特徵參數
C1:語音發音單元
C2:語言單元

Claims (19)

  1. 一種多語言語音辨識系統,包括:一特徵參數抽取模組,係自語音信號中抽取出語音特徵參數與語言特徵參數;以及一具有共享隱藏層之類神經網路模組,係依據該特徵參數抽取模組自該語音信號中所抽取之該語音特徵參數與該語言特徵參數計算出多語言語音辨識任務之第一交叉熵作為第一損失函數與語言辨識任務之第二交叉熵作為第二損失函數,以由具有該共享隱藏層之該類神經網路模組將該多語言語音辨識任務之該第一交叉熵之該第一損失函數與該語言辨識任務之該第二交叉熵之該第二損失函數進行加權整合而得到總損失函數,其中,該類神經網路模組將具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務與具有該第二交叉熵之該第二損失函數之該語言辨識任務一併共用至該共享隱藏層,以由該類神經網路模組透過該共享隱藏層對具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務與具有該第二交叉熵之該第二損失函數之該語言辨識任務進行多任務訓練,再由該類神經網路模組輸出分別經過該多任務訓練後之具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務所得到之語音發音單元及具有該第二交叉熵之該第二損失函數之該語言辨識任務所得到之語言單元。
  2. 如請求項1所述之多語言語音辨識系統,其中,該特徵參數抽取模組所抽取之該語音特徵參數係採用多維之梅爾頻率倒譜係數,且該特徵參數抽取模組使用i向量方法或x向量方法以自該語音信號中擷取出該語言特徵參數。
  3. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更透過交叉熵公式或演算法計算出該多語言語音辨識任務之該第 一交叉熵作為該多語言語音辨識任務之該第一損失函數與該語言辨識任務之該第二交叉熵作為該語言辨識任務之該第二損失函數,且由該類神經網路模組找出該多語言語音辨識任務與該語言辨識任務於該多任務訓練時之最佳學習率。
  4. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更透過該共享隱藏層以推導遷移學習方法對該多語言語音辨識任務與該語言辨識任務進行多任務訓練。
  5. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更透過損失函數公式或演算法將該多語言語音辨識任務之該第一損失函數與該語言辨識任務之該第二損失函數進行加權整合以得到該總損失函數,再由該類神經網路模組持續調整該損失函數公式或演算法中有關該多語言語音辨識任務之該第一損失函數之權重值與該語言辨識任務之該第二損失函數之權重值以得到最低的總損失函數。
  6. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更使用梯度下降方式與遞迴方式以調整該多語言語音辨識任務之該第一損失函數之權重值與該語言辨識任務之該第二損失函數之權重值而逐步降低該總損失函數之損失值。
  7. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組係同時輸入有多種語言之該語音特徵參數與該語言特徵參數,以透過該共享隱藏層依據該語音特徵參數與該語言特徵參數對該多語言語音辨識任務與該語言辨識任務進行該多任務訓練,再由該類神經網路模組分別輸出該多語言語音辨識任務之語音辨識結果及該語言辨識任務之語言辨識結果。
  8. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更具有網路輸入層與網路輸出層,以透過該網路輸入層整合多維之該語音特徵參數與多維之該語言特徵參數,且將多維之該語音特徵參數與多維之該語言特徵參數輸入至該共享隱藏層,再由該網路輸出層分別輸出該多語言語音辨識任務所得到之該語音發音單元及該語言辨識任務所得到之該語言單元。
  9. 如請求項1所述之多語言語音辨識系統,其中,該類神經網路模組更分別遮罩住該多語言語音辨識任務與該語言辨識任務之一者,再將該多語言語音辨識任務與該語言辨識任務兩者分別進行訓練以找出兩者之最佳學習率,進而由該類神經網路模組遞廻調整該多語言語音辨識任務與該語言辨識任務於該多任務訓練時之學習率。
  10. 一種多語言語音辨識方法,包括:由一特徵參數抽取模組自語音信號中抽取出語音特徵參數與語言特徵參數;由一具有共享隱藏層之類神經網路模組依據該特徵參數抽取模組自該語音信號中所抽取之該語音特徵參數與該語言特徵參數計算出多語言語音辨識任務之第一交叉熵作為第一損失函數與語言辨識任務之第二交叉熵作為第二損失函數,以由具有該共享隱藏層之該類神經網路模組將該多語言語音辨識任務之該第一交叉熵之該第一損失函數與該語言辨識任務之該第二交叉熵之該第二損失函數進行加權整合而得到總損失函數;以及由該類神經網路模組將具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務與具有該第二交叉熵之該第二損失函數之該語言辨識任務一併共用至該共享隱藏層,以由該類神經網路模組對具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務與具有該第二交叉熵之該第二損 失函數之該語言辨識任務進行多任務訓練,再由該類神經網路模組輸出分別經過該多任務訓練後之具有該第一交叉熵之該第一損失函數之該多語言語音辨識任務所得到之語音發音單元及具有該第二交叉熵之該第二損失函數之該語言辨識任務所得到之語言單元。
  11. 如請求項10所述之多語言語音辨識方法,其中,該特徵參數抽取模組所抽取之該語音特徵參數係採用多維之梅爾頻率倒譜係數,且該特徵參數抽取模組使用i向量方法或x向量方法以自該語音信號中擷取出該語言特徵參數。
  12. 如請求項10所述之多語言語音辨識方法,更包括由該類神經網路模組透過交叉熵公式或演算法計算出該多語言語音辨識任務之該第一交叉熵作為該多語言語音辨識任務之該第一損失函數與該語言辨識任務之該第二交叉熵作為該語言辨識任務之該第二損失函數,且由該類神經網路模組找出該多語言語音辨識任務與該語言辨識任務於該多任務訓練時之最佳學習率。
  13. 如請求項10所述之多語言語音辨識方法,更包括由該類神經網路模組透過該共享隱藏層以推導遷移學習方法對該多語言語音辨識任務與該語言辨識任務進行多任務訓練。
  14. 如請求項10所述之多語言語音辨識方法,更包括由該類神經網路模組透過損失函數公式或演算法將該多語言語音辨識任務之該第一損失函數與該語言辨識任務之該第二損失函數進行加權整合以得到該總損失函數,再由該類神經網路模組持續調整該損失函數公式或演算法中有關該多語言語音辨識任務之該第一損失函數之權重值與該語言辨識任務之該第二損失函數之權重值以得到最低的總損失函數。
  15. 如請求項10所述之多語言語音辨識方法,更包括由該類神經網路模組使用梯度下降方式與遞迴方式以調整該多語言語音辨識任務之該第一損失函數之權重值與該語言辨識任務之該第二損失函數之權重值而逐步降低該總損失函數之損失值。
  16. 如請求項10所述之多語言語音辨識方法,更包括將多種語言之該語音特徵參數與該語言特徵參數輸入至該類神經網路模組中,以透過該共享隱藏層依據該語音特徵參數與該語言特徵參數對該多語言語音辨識任務與該語言辨識任務進行該多任務訓練,再由該類神經網路模組分別輸出該多語言語音辨識任務之語音辨識結果及該語言辨識任務之語言辨識結果。
  17. 如請求項10所述之多語言語音辨識方法,更包括透過該類神經網路模組之網路輸入層整合多維之該語音特徵參數與多維之該語言特徵參數,且將多維之該語音特徵參數與多維之該語言特徵參數輸入至該共享隱藏層,再由該類神經網路模組之網路輸出層分別輸出該多語言語音辨識任務所得到之該語音發音單元及該語言辨識任務所得到之該語言單元。
  18. 如請求項10所述之多語言語音辨識方法,更包括由該類神經網路模組分別遮罩住該多語言語音辨識任務與該語言辨識任務之一者,再將該多語言語音辨識任務與該語言辨識任務分別進行訓練以找出該多語言語音辨識任務與該語言辨識任務之最佳學習率,進而由該類神經網路模組遞廻調整該多語言語音辨識任務與該語言辨識任務於該多任務訓練時之學習率。
  19. 一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行如請求項10至18之任一者所述多語言語音辨識方法。
TW111101853A 2022-01-17 2022-01-17 多語言語音辨識系統、方法及電腦可讀媒介 TWI795173B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW111101853A TWI795173B (zh) 2022-01-17 2022-01-17 多語言語音辨識系統、方法及電腦可讀媒介
CN202211200481.1A CN116486783A (zh) 2022-01-17 2022-09-29 多语言语音辨识系统、方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111101853A TWI795173B (zh) 2022-01-17 2022-01-17 多語言語音辨識系統、方法及電腦可讀媒介

Publications (2)

Publication Number Publication Date
TWI795173B true TWI795173B (zh) 2023-03-01
TW202331582A TW202331582A (zh) 2023-08-01

Family

ID=86692234

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111101853A TWI795173B (zh) 2022-01-17 2022-01-17 多語言語音辨識系統、方法及電腦可讀媒介

Country Status (2)

Country Link
CN (1) CN116486783A (zh)
TW (1) TWI795173B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201506685A (zh) * 2013-08-09 2015-02-16 Diotek Co Ltd 以語音辨識來選擇控制客體的裝置及方法
TWI539441B (zh) * 2013-10-18 2016-06-21 威盛電子股份有限公司 語音辨識方法及電子裝置
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
TWI681383B (zh) * 2017-05-17 2020-01-01 大陸商北京嘀嘀無限科技發展有限公司 用於確定語音信號對應語言的方法、系統和非暫態電腦可讀取媒體
CN111328400A (zh) * 2017-11-14 2020-06-23 奇跃公司 用于神经网络的多任务学习的元学习
CN111373419A (zh) * 2017-10-26 2020-07-03 奇跃公司 用于深度多任务网络中自适应损失平衡的梯度归一化系统和方法
TW202119393A (zh) * 2019-10-31 2021-05-16 大陸商支付寶(杭州)信息技術有限公司 用於確定聲音特性的系統和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201506685A (zh) * 2013-08-09 2015-02-16 Diotek Co Ltd 以語音辨識來選擇控制客體的裝置及方法
TWI539441B (zh) * 2013-10-18 2016-06-21 威盛電子股份有限公司 語音辨識方法及電子裝置
CN108510985A (zh) * 2017-02-24 2018-09-07 百度(美国)有限责任公司 用于减小生产语音模型中的原则性偏差的系统和方法
TWI681383B (zh) * 2017-05-17 2020-01-01 大陸商北京嘀嘀無限科技發展有限公司 用於確定語音信號對應語言的方法、系統和非暫態電腦可讀取媒體
CN111373419A (zh) * 2017-10-26 2020-07-03 奇跃公司 用于深度多任务网络中自适应损失平衡的梯度归一化系统和方法
CN111328400A (zh) * 2017-11-14 2020-06-23 奇跃公司 用于神经网络的多任务学习的元学习
TW202119393A (zh) * 2019-10-31 2021-05-16 大陸商支付寶(杭州)信息技術有限公司 用於確定聲音特性的系統和方法
TWI737462B (zh) * 2019-10-31 2021-08-21 大陸商支付寶(杭州)信息技術有限公司 用於確定聲音特性的系統和方法

Also Published As

Publication number Publication date
CN116486783A (zh) 2023-07-25
TW202331582A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
Jupalle et al. Automation of human behaviors and its prediction using machine learning
CN109817246B (zh) 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN111833845B (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
WO2020168752A1 (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
WO2021057038A1 (zh) 基于多任务模型的语音识别与关键词检测装置和方法
CN107972028A (zh) 人机交互方法、装置及电子设备
CN109545227A (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM
CN111968652B (zh) 一种基于3dcnn-lstm的说话人识别方法及存储介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
You et al. Deep neural network embeddings with gating mechanisms for text-independent speaker verification
CN113096647A (zh) 语音模型训练方法、装置和电子设备
Wang Speech recognition in English cultural promotion via recurrent neural network
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
WO2022121188A1 (zh) 关键词检测方法、装置、设备和存储介质
KR102297480B1 (ko) 비정형 질문 또는 요구 발화의 구조화된 패러프레이징 시스템 및 방법
TWI795173B (zh) 多語言語音辨識系統、方法及電腦可讀媒介
Dovydaitis et al. Building LSTM neural network based speaker identification system
CN112633263B (zh) 海量音视频情感识别系统
CN108831487A (zh) 声纹识别方法、电子装置及计算机可读存储介质
Alex et al. Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition
Cen et al. Machine learning methods in the application of speech emotion recognition