TWI779982B - 改善語音辨識模型的方法和電子裝置 - Google Patents

改善語音辨識模型的方法和電子裝置 Download PDF

Info

Publication number
TWI779982B
TWI779982B TW111100195A TW111100195A TWI779982B TW I779982 B TWI779982 B TW I779982B TW 111100195 A TW111100195 A TW 111100195A TW 111100195 A TW111100195 A TW 111100195A TW I779982 B TWI779982 B TW I779982B
Authority
TW
Taiwan
Prior art keywords
vector
vocabulary
speech
processor
graph
Prior art date
Application number
TW111100195A
Other languages
English (en)
Other versions
TW202328972A (zh
Inventor
邱炫盛
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW111100195A priority Critical patent/TWI779982B/zh
Application granted granted Critical
Publication of TWI779982B publication Critical patent/TWI779982B/zh
Publication of TW202328972A publication Critical patent/TW202328972A/zh

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Selective Calling Equipment (AREA)

Abstract

提供一種改善語音辨識模型的方法和電子裝置。方法包含:取得知識圖譜,並且根據知識圖譜產生至少一圖譜向量;取得語音訊號,並且根據語音辨識模型產生對應於語音訊號的文字序列,其中文字序列包含至少一詞彙;響應於至少一詞彙與至少一圖譜向量匹配而根據至少一圖譜向量產生對應於至少一詞彙的第一標籤資料;根據第一標籤資料訓練第一神經網路模型;取得當前語音訊號,並且根據語音辨識模型以及第一神經網路模型產生對應於當前語音訊號的辨識結果;以及輸出辨識結果。

Description

改善語音辨識模型的方法和電子裝置
本發明是有關於一種改善語音辨識模型的方法和電子裝置。
語音辨識技術可將語音訊號轉換為文字的形式,其可應用於多種領域。舉例來說,客服系統可通過語音辨識技術將客戶的語音轉換為文字,從而根據文字判斷客戶的需求。然而,語言種類、語速或口音等因素都會影響語音辨識的結果。因此,如何改善語音辨識模型以產生更準確的語音辨識結果,是本領域人員致力的目標之一。
本發明提供一種改善語音辨識模型的方法和電子裝置,可改善語音辨識模型的輸出以產生更準確的語音辨識結果。
本發明的一種改善語音辨識模型的電子裝置,包含處理器以及收發器。處理器耦接收發器,其中處理器經配置以執行:通過收發器取得知識圖譜,並且根據知識圖譜產生至少一圖譜向量;通過收發器取得語音訊號,並且根據語音辨識模型產生對應於語音訊號的文字序列,其中文字序列包含至少一詞彙;響應於至少一詞彙與至少一圖譜向量匹配而根據至少一圖譜向量產生對應於至少一詞彙的第一標籤資料;根據第一標籤資料訓練第一神經網路模型;通過收發器取得當前語音訊號,並且根據語音辨識模型以及第一神經網路模型產生對應於當前語音訊號的辨識結果;以及通過收發器輸出辨識結果。
在本發明的一實施例中,上述的至少一詞彙包含第一詞彙以及與第一詞彙相鄰的第二詞彙,其中至少一圖譜向量包含對應於第一詞彙的第一圖譜向量以及對應於第二詞彙的第二圖譜向量,其中處理器更經配置以執行:計算第一圖譜向量與第二圖譜向量之間的第一距離;根據第一距離產生第一標籤資料的標籤。
在本發明的一實施例中,上述的至少一詞彙更包含與第二詞彙相鄰的第三詞彙,其中至少一圖譜向量更包含對應於第三詞彙的第三圖譜向量,其中處理器更經配置以執行:計算第一圖譜向量與第三圖譜向量之間的第二距離;以及根據第一距離與第二距離產生標籤。
在本發明的一實施例中,上述的處理器更經配置以執行:基於自然語音處理演算法標註至少一詞彙的詞性;以及根據詞性產生第一標籤資料的標籤。
在本發明的一實施例中,上述的處理器基於TransE演算法、TransH演算法以及PTransE演算法的其中之一產生至少一圖譜向量。
在本發明的一實施例中,上述的處理器更經配置以執行:通過收發器取得主題文件,並且根據主題文件產生至少一主題向量;響應於至少一詞彙與至少一主題向量匹配而根據至少一主題向量產生對應於至少一詞彙的第二標籤資料;根據第二標籤資料訓練第二神經網路模型;以及根據語音辨識模型、第一神經網路模型以及第二神經網路模型產生辨識結果。
在本發明的一實施例中,上述的處理器更經配置以執行:根據至少一主題向量的主題索引產生第二標籤資料的標籤。
在本發明的一實施例中,上述的處理器更經配置以執行:基於自然語音處理演算法以及廣義知網標註至少一詞彙的詞義;以及根據詞義產生第二標籤資料的標籤。
在本發明的一實施例中,上述的處理器基於機率式潛藏語意分析演算法以及潛藏狄利克雷分配演算法的其中之一產生至少一主題向量。
在本發明的一實施例中,上述的處理器更經配置以執行:將第二語音訊號輸入至語音辨識模型以產生對應於多個候選詞彙的機率向量;根據第二語音訊號以及第一神經網路模型產生知識向量;根據第二語音訊號以及第二神經網路模型產生語意向量;根據機率向量、知識向量以及語意向量訓練機器學習模型;以及根據機器學習模型以及語音辨識模型產生辨識結果。
在本發明的一實施例中,上述的處理器取得第一神經網路模型的多個隱藏層的其中之一的輸出以作為知識向量,其中處理器將知識向量輸入至機器學習模型以訓練機器學習模型。
在本發明的一實施例中,上述的處理器取得第二神經網路模型的多個隱藏層的其中之一的輸出以作為語意向量,其中處理器將語意向量輸入至機器學習模型以訓練機器學習模型。
在本發明的一實施例中,上述的處理器更經配置以執行:計算對應於機率向量的交叉熵以取得機器學習模型的目標函數值,並且根據目標函數值訓練機器學習模型。
在本發明的一實施例中,上述的處理器更經配置以執行:根據多項式更新機率向量,其中多項式的變數包含機率向量、第二機率向量以及第三機率向量,其中第二機率向量包含多個候選詞彙的每一者佔知識圖譜的比例,其中第三機率向量包含多個候選詞彙的每一者佔主題文件的比例;以及根據更新的機率向量計算目標函數值。
在本發明的一實施例中,上述的機器學習模型為Transformer模型,其中Transformer模型包含Conformer編碼器以及長短期記憶模型解碼器。
本發明的一種改善語音辨識模型的方法,包含:取得知識圖譜,並且根據知識圖譜產生至少一圖譜向量;取得語音訊號,並且根據語音辨識模型產生對應於語音訊號的文字序列,其中文字序列包含至少一詞彙;響應於至少一詞彙與至少一圖譜向量匹配而根據至少一圖譜向量產生對應於至少一詞彙的第一標籤資料;根據第一標籤資料訓練第一神經網路模型;取得當前語音訊號,並且根據語音辨識模型以及第一神經網路模型產生對應於當前語音訊號的辨識結果;以及輸出辨識結果。
基於上述,本發明可使語音辨識模型在處理多語言夾雜或口音混淆的詞彙時,能藉由語言知識及語意特性的輔助,將更正確地輸出辨識結果。本發明可使語音辨識模型輸出辨識結果時,產生的文本能夠符合語言知識及語意特性,從而增加辨識結果的可讀性。
為了使本發明之內容可以被更容易明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。另外,凡可能之處,在圖式及實施方式中使用相同標號的元件/構件/步驟,係代表相同或類似部件。
圖1根據本發明的一實施例繪示為語音辨識模型200提供輔助決策的示意圖。當語音辨識模型200接收到語音訊號時,電子裝置100可為語音辨識模型200提供輔助決策,以使語音訊號的辨識結果更加準確。語音辨識模型200可基於例如深度神經網路-隱藏式馬可夫(deep neural network-hidden Markov model,DNN-HMM)架構或端到端(end-to-end,E2E)架構來實現,但本發明不限於此。
圖2根據本發明的一實施例繪示一種改善語音辨識模型200的電子裝置100的示意圖。電子裝置100可包含處理器110、儲存媒體120以及收發器130。
處理器110例如是中央處理單元(central processing unit,CPU),或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit,MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor,DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit,ASIC)、圖形處理器(graphics processing unit,GPU)、影像訊號處理器(image signal processor,ISP)、影像處理單元(image processing unit,IPU)、算數邏輯單元(arithmetic logic unit,ALU)、複雜可程式邏輯裝置(complex programmable logic device,CPLD)、現場可程式化邏輯閘陣列(field programmable gate array,FPGA)或其他類似元件或上述元件的組合。處理器110可耦接至儲存媒體120以及收發器130,並且存取和執行儲存於儲存媒體120中的多個模組和各種應用程式。
儲存媒體120例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory,RAM)、唯讀記憶體(read-only memory,ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive,HDD)、固態硬碟(solid state drive,SSD)或類似元件或上述元件的組合,而用於儲存可由處理器110執行的多個模組或各種應用程式。在本實施例中,儲存媒體120可儲存包含神經網路模型121、神經網路模型122以及機器學習模型123等多個模組,其功能將於後續說明。
收發器130以無線或有線的方式傳送及接收訊號。收發器130還可以執行例如低噪聲放大、阻抗匹配、混頻、向上或向下頻率轉換、濾波、放大以及類似的操作。
圖3根據本發明的一實施例繪示神經網路模型121之訓練過程的示意圖。處理器110可通過收發器130取得用以訓練神經網路模型121的語音訊號。語音訊號可為非標籤資料。語音訊號的來源例如個人電腦、行動裝置、伺服器、網路或麥克風等。
處理器110可將語音訊號輸入至語音辨識模型200以產生對應於語音訊號的文字序列,其中文字序列可包含至少一詞彙。語音辨識模型200可根據例如梅爾倒頻譜係數(Mel-frequency cepstral coefficient,MFCC)或基於類神經網路的wav2vec模型來將語音訊號轉換為文字序列。在一實施例中,語音辨識模型200可根據語音訊號產生分別對應於多個候選文字序列的多個機率(或由所述多個機率組成的機率向量)。處理器110可選擇對應於最大機率的候選文字序列以作為對應於語音訊號的文字序列。
文字序列可包含至少一詞彙。舉例來說,語音辨識模型200可辨識語音訊號以產生文字序列「醫院A的內科醫生檢查病人」,其中文字序列「醫院A的內科醫生檢查病人」可包含「醫院A的」、「內科」、「醫生」、「檢查」和「病人」等多個詞彙。
另一方面,處理器110可通過收發器130取得知識圖譜(knowledge graph,KG)。知識圖譜可包含多個代表特定詞彙的節點(vertex),並可包含多個代表詞彙與詞彙之間的關係的邊(edge)。舉例來說,知識圖譜可包含代表詞彙「老師」的節點以及代表詞彙「學生」的節點,兩個節點可通過代表關係「教學」的邊連接在一起。也就是說,「老師」與「學生」之間的關係為「教學」。
在步驟S301中,處理器110可對知識圖譜執行向量化(vectorization)以產生至少一圖譜向量。處理器110可基於TransE演算法、TransH演算法或PTransE演算法來執行圖譜向量化(knowledge graph embedding),藉以將知識圖譜中的資料轉換為至少一圖譜向量。
在步驟S302中,處理器110可建立至少一詞彙以及至少一圖譜向量之間的關聯以產生實體(entity)關聯序列。具體來說,至少一詞彙可包含詞彙(i)以及與詞彙(i)相隔(n-1)個詞彙的詞彙(i±n),其中i為代表詞彙之索引的正整數,並且n為正整數。當n等於±1時,詞彙(i)與詞彙(i±n)相隔0個詞彙。也就是說,當n等於±1時,詞彙(i)與詞彙(i±n)相鄰。詞彙(i-n)出現在詞彙(i)之前,並且詞彙(i+n)出現在詞彙(i)之後。
以文字序列「醫院A的內科醫生檢查病人」為例,假設詞彙(i)為「醫生」,則與詞彙(i)相距0個詞彙(即:n=1)的詞彙(i+1)可為「檢查」,並且與詞彙(i)相距0個詞彙的詞彙(i-1)可為「內科」。假設詞彙(i)為「醫生」,則與詞彙(i)相距1個詞彙(即:n=2)的詞彙(i+2)可為與「醫生」相距一個詞彙(即:「檢查」)的「病人」,並且與詞彙(i)相距1個詞彙的詞彙(i-2)可為與「醫生」相距一個詞彙(即:「內科」)的「醫院A的」。
處理器110可從至少一圖譜向量中選出與詞彙(i)匹配的圖譜向量(i)並且選出與詞彙(i±n)匹配的圖譜向量(i±n),其中n為任意的正整數。處理器110可計算圖譜向量(i)與圖譜向量(i±n)之間的距離,並且根據所述距離產生對應於文字序列的實體關聯序列,其中實體關聯序列可包含對應於文字序列中的至少一詞彙的至少一數值。舉例來說,處理器110可根據方程式(1)產生對應於文字序列中的詞彙(i)的數值V(i),其中K(x)代表對應於詞彙(x)的圖譜向量(x), α(x)或 β(x)代表使用者自定義的係數,並且D(x,y)代表向量x與向量y之間的向量距離。
Figure 02_image001
…(1)
以文字序列「醫院A的內科醫生檢查病人」為例,假設N=2, α(n)=0.25, β(n)=0.25,並且詞彙(i)為「醫生」,則處理器110可根據方程式(1)計算出對應於「醫生」的數值V(i),如方程式(2)所示,其中
Figure 02_image003
代表對應於「醫生」的圖譜向量
Figure 02_image005
與對應於「檢查」的圖譜向量
Figure 02_image007
之間的向量距離,
Figure 02_image009
代表對應於「醫生」的圖譜向量
Figure 02_image005
與對應於「內科」的圖譜向量
Figure 02_image011
之間的向量距離,
Figure 02_image013
代表對應於「醫生」的圖譜向量
Figure 02_image005
與對應於「病人」的圖譜向量
Figure 02_image015
之間的向量距離,並且
Figure 02_image017
代表對應於「醫生」的圖譜向量
Figure 02_image005
與對應於「醫院A的」的圖譜向量
Figure 02_image019
之間的向量距離。
Figure 02_image021
…(2)
在步驟S303中,處理器110可為文字序列中的詞彙標註詞性,從而產生對應於文字序列的詞性序列。具體來說,處理器110可基於自然語音處理(natural language processing,NLP)演算法來為詞彙標註詞性。以文字序列「醫院A的內科醫生檢查病人」為例,處理器110可為所述文字序列中的5個詞彙標註詞性以產生詞性序列「名詞-名詞-名詞-動詞-名詞」。
在步驟S304中,處理器110可對文字序列中的詞彙執行向量化以產生詞彙向量。舉例來說,處理器110可根據基於機率空間的詞彙主題模型(word topic model,WTM)或基於類神經網路的word2vec模型來產生詞彙向量。在一實施例中,儲存媒體120可預存包含分別對應於多個詞彙的多個詞彙向量的查找表。處理器110可根據查找表找出對應於詞彙的詞彙向量。
在步驟S305中,處理器110可為語音訊號執行向量化以產生語音向量。
在取得語音向量、詞彙向量、詞性序列以及實體關聯序列後,處理器110可根據語音向量、詞彙向量、詞性序列以及實體關聯序列產生用於訓練或更新神經網路模型121的訓練資料,並在步驟S306中根據訓練資料訓練或更新神經網路模型121。處理器110可根據多任務學習(multitask learning,MTL)或連結時序分類(connectionist temporal classification,CTC)條件等方法來訓練或更新神經網路模型121。訓練資料的資料內容可包含語音向量以及詞彙向量,並且訓練資料的標籤可包含詞性序列以及實體關聯序列。換句話說,訓練好的神經網路模型121可接收語音向量以及詞彙向量等輸入資料,並且根據輸入資料產生詞性序列和實體關聯序列等輸出資料。神經網路模型121例如是卷積神經網路(convolutional neural network,CNN)。
圖4根據本發明的一實施例繪示神經網路模型122之訓練過程的示意圖。處理器110可通過收發器130取得用以訓練神經網路模型122的語音訊號。語音訊號可為非標籤資料。語音訊號的來源例如個人電腦、行動裝置、伺服器、網路或麥克風等。
處理器110可將語音訊號輸入至語音辨識模型200以產生對應於語音訊號的文字序列,其中文字序列可包含至少一詞彙。舉例來說,語音辨識模型200可辨識語音訊號以產生文字序列「醫院A的內科醫生檢查病人」。
另一方面,處理器110可通過收發器130取得主題文件。主題文件可以是包含多種詞彙或文章的任意種類的文件。
在步驟S401中,處理器110可根據主題文件產生至少一主題向量(topic vector)。主題向量可包含主題索引,其中主題索引可指示對應於主題向量之詞彙的主題種類。處理器110可基於機率式潛藏語意分析(probabilistic latent semantic analysis,PLSA)演算法或潛藏狄利克雷分配(latent Dirichlet allocation,LDA)演算法來產生主題向量。
舉例來說,若主題文件包含「醫院」和「醫生」等詞彙,處理器110可根據主題文件產生包含對應於「醫院」的主題向量以及對應於「醫生」的主題向量,其中對應於「醫院」的主題向量可包含主題索引「64(醫療領域)」,並且對應於「醫生」的主題向量可包含主題索引「64(醫療領域)」。換句話說,主題索引指示「醫院」或「醫生」所對應的主題種類為「醫療領域」。
在步驟S402中,處理器110可建立至少一詞彙以及至少一主題向量之間的關聯以產生主題關聯序列,其中主題關聯序列可包含對應於至少一詞彙的至少一主題索引。具體來說,處理器110可響應於至少一詞彙與至少一主題向量匹配而為至少一詞彙標註對應於至少一主題向量的主題索引。舉例來說,假設文字序列包含詞彙「醫生」並且至少一主題向量包含主題向量「醫生」。處理器110可響應於文字序列中的詞彙「醫生」與主題向量「醫生」匹配而為詞彙「醫生」標註對應於主題向量「醫生」的主題索引「64(醫療領域)」。
在步驟S403中,處理器110可為文字序列中的詞彙標註詞義,從而產生對應於文字序列的詞義向量。具體來說,處理器110可基於自然語音處理演算法以及廣義知網(E-HowNet)來為詞彙標註詞義。舉例來說,處理器110可將例如「意圖」、「目標」、「目的」或「動機」等詞彙的詞義標註為「intention」。處理器110可將例如「選擇」、「挑選」或「採取」等詞彙的詞義標註為「choose」。
在步驟S404中,處理器110可對文字序列中的詞彙執行向量化以產生詞彙向量。舉例來說,處理器110可根據基於機率空間的詞彙主題模型或基於類神經網路的word2vec模型來產生詞彙向量。在一實施例中,儲存媒體120可預存包含分別對應於多個詞彙的多個詞彙向量的查找表。處理器110可根據查找表找出對應於詞彙的詞彙向量。
在步驟S405中,處理器110可為語音訊號執行向量化以產生語音向量。
在取得語音向量、詞彙向量、詞義序列以及主題關聯序列後,處理器110可根據語音向量、詞彙向量、詞義序列以及主題關聯序列來產生用於訓練或更新神經網路模型122的訓練資料,並且在步驟S406中根據訓練資料訓練或更新神經網路模型122。處理器110可根據多任務學習或連結時序分類條件等方法來訓練或更新神經網路模型122。訓練資料的資料內容可包含語音向量以及詞彙向量,並且訓練資料的標籤可包含詞義序列以及主題關聯序列。換句話說,訓練好的神經網路模型122可接收語音向量以及詞彙向量等輸入資料,並且根據輸入資料產生詞義序列和主題關聯序列等輸出資料。神經網路模型122例如是卷積神經網路。
在完成神經網路模型121和神經網路模型122的訓練後,處理器110可利用神經網路模型121和神經網路模型122產生用於訓練機器學習模型123的訓練資料,其中所述訓練資料可包含知識向量以及語意向量。
圖5根據本發明的一實施例繪示神經網路模型121的示意圖,其中神經網路模型121可包含輸入層501、多個隱藏層502以及輸出層503。在語音向量和詞彙向量的串接(concatenation)被輸入至神經網路模型121後,神經網路模型121可輸出實體關聯序列以及詞性序列。處理器110可取得多個隱藏層502中的其中之一的輸出以作為知識向量。換句話說,知識向量可以是神經網路模型121中的特定神經元的輸出。
圖6根據本發明的一實施例繪示神經網路模型122的示意圖,其中神經網路模型122可包含輸入層601、多個隱藏層602以及輸出層603。在語音向量和詞彙向量的串接被輸入至神經網路模型122後,神經網路模型122可輸出主題關聯序列以及詞義序列。處理器110可取得多個隱藏層602中的其中之一的輸出以作為語意向量。換句話說,語意向量可以是神經網路模型122中的特定神經元的輸出。
處理器110可根據知識向量以及語意向量訓練機器學習模型123。圖7根據本發明的一實施例繪示機器學習模型123的示意圖。機器學習模型123例如是基於注意力機制(attention mechanism)的transformer模型。機器學習模型123可包含輸入層701、編碼器702、解碼器703以及輸出層704。編碼器702可包含例如具有conformer架構的編碼器。解碼器703可包含例如具有長短期記憶(long short-term memory,LSTM)模型等循環神經網路(recurrent neural network,RNN)模型的解碼器。
處理器110可根據知識向量以及語意向量產生用以訓練機器學習模型123的訓練資料。訓練資料的資料內容可包含知識向量以及語意向量,並且訓練資料的標籤可包含對應於知識向量以及語意向量的詞彙。處理器110可通過收發器130取得用於訓練機器學習模型123的語音訊號。
處理器110可將語音訊號輸入至語音辨識模型200以產生對應於多個候選詞彙的機率向量。舉例來說,假設語音訊號對應於詞彙「醫生」。語音辨識模型200可根據語音訊號產生機率向量,其中機率向量可包含對應於詞彙「醫生」的機率(假設為0.7)、對應於詞彙「醫師」的機率(假設為0.2)以及對應於詞彙「醫事」的機率(假設為0.1)等多個機率,如方程式(3)所示,其中V1為機率向量。 V1 = [0.7 0.2 0.1] …(3)
接著,處理器110可根據機率向量取得用於產生知識向量或語意向量的詞彙向量。具體來說,處理器110可根據機率向量以從語音辨識模型200所產生的多個候選詞彙中選出對應於機率向量中的最大機率的詞彙,從而產生對應於受選詞彙的詞彙向量。另一方面,處理器110可對語音訊號執行向量化以產生語音向量。處理器110可將語音向量與詞彙向量的串接輸入至神經網路模型121以取得知識向量,並可將語音向量與詞彙向量的串接輸入至神經網路模型122以取得語意向量。
在取得機率向量V1、知識向量以及語意向量後,處理器110可根據機率向量V1、知識向量以及語意向量產生用於訓練機器學習模型123的訓練資料。訓練資料的資料內容可包含知識向量以及語意向量,並且訓練資料的標籤可包含機率向量V1。在一實施例中,訓練資料的標籤可為更新後的機率向量V1’。處理器110可根據方程式(4)產生更新後的機率向量V1’,其中α和β為權重係數。假設機率向量V1包含分別對應於多個候選詞彙的多個機率,則V2可包含所述多個候選詞彙的每一者占知識圖譜的比例(即:多個候選詞彙的每一者在知識圖譜的詞頻),並且V3可包含所述多個候選詞彙的每一者占主題文件的比例(即:多個候選詞彙的每一者在主題文件的詞頻)。舉例來說,V2可包含詞彙「醫生」在知識圖譜中出現的頻率、詞彙「醫師」在知識圖譜中出現的頻率以及詞彙「醫師」在知識圖譜中出現的頻率。V3可包含詞彙「醫生」在主題文件中出現的頻率、詞彙「醫師」在主題文件中出現的頻率以及詞彙「醫師」在主題文件中出現的頻率。 V1’
Figure 02_image023
…(4)
在一實施例中,機器學習模型123的目標函數可為對應於機率向量V1’的交叉熵。在處理器110將知識向量以及語意向量輸入至訓練中的機器學習模型123後,機器學習模型123可輸出預估的機率向量。處理器110可計算預估的機率向量與機率向量V1’之間的交叉熵以取得目標函數值。處理器110可通過最小化目標函數值來訓練機器學習模型123。
在完成機器學習模型123的訓練後,處理器110可利用機器學習模型123以及語音辨識器200進行語音辨識。具體來說,處理器110可通過收發器130取得當前語音訊號。處理器110可將當前語音訊號分別輸入至機器學習模型123以及語音辨識器200以產生兩個辨識結果。處理器110可根據兩個辨識結果產生最終的辨識結果,如方程式(5)所示,其中R為最終的辨識結果,R1為機器學習模型123產生的辨識結果,R2為語音辨識器200產生的辨識結果,並且γ為權重係數。處理器110可通過收發器130輸出最終的辨識結果R。
Figure 02_image025
…(5)
圖8根據本發明的一實施例繪示一種改善語音辨識模型的方法的流程圖,其中方法可由如圖2所示的電子裝置100實施。在步驟S801中,取得知識圖譜,並且根據知識圖譜產生至少一圖譜向量。在步驟S802中,取得語音訊號,並且根據語音辨識模型產生對應於語音訊號的文字序列,其中文字序列包含至少一詞彙。在步驟S803中,響應於至少一詞彙與至少一圖譜向量匹配而根據至少一圖譜向量產生對應於至少一詞彙的第一標籤資料。在步驟S804中,根據第一標籤資料訓練第一神經網路模型。在步驟S805中,取得當前語音訊號,並且根據語音辨識模型以及第一神經網路模型產生對應於當前語音訊號的辨識結果。在步驟S806中,輸出辨識結果。
綜上所述,本發明可利用語言知識與語意等資訊輔助決策產生對應於語音訊號的候選詞彙,並且根據候選詞彙計算權重分數以取得符合語言知識以及語意特性的辨識結果。據此,本發明可使語音的辨識結果不容易受到語速、口音或語言差異等影響而降低辨識的準確度。透過提升語音辨識的準確度,本發明可以有效率地提供非監督學習所需的大量語料或是影音字幕及客戶分析等應用。
100:電子裝置 110:處理器 120:儲存媒體 121、122:神經網路模型 123:機器學習模型 130:收發器 200:語音辨識模型 501、601、701:輸入層 502、602:隱藏層 503、603、703:輸出層 702:編碼器 703:解碼器 S301、S302、S303、S304、S305、S306、S401、S402、S403、S404、S405、S406、S801、S802、S803、S804、S805、S806:步驟
圖1根據本發明的一實施例繪示為語音辨識模型提供輔助決策的示意圖。 圖2根據本發明的一實施例繪示一種改善語音辨識模型的電子裝置的示意圖。 圖3根據本發明的一實施例繪示神經網路模型之訓練過程的示意圖。 圖4根據本發明的一實施例繪示神經網路模型之訓練過程的示意圖。 圖5根據本發明的一實施例繪示神經網路模型的示意圖。 圖6根據本發明的一實施例繪示神經網路模型的示意圖。 圖7根據本發明的一實施例繪示機器學習模型的示意圖。 圖8根據本發明的一實施例繪示一種改善語音辨識模型的方法的流程圖。
S801、S802、S803、S804、S805、S806:步驟

Claims (13)

  1. 一種改善語音辨識模型的電子裝置,包括:收發器;以及處理器,耦接所述收發器,其中所述處理器經配置以執行:通過所述收發器取得知識圖譜,並且根據所述知識圖譜產生至少一圖譜向量;通過所述收發器取得主題文件,並且根據所述主題文件產生至少一主題向量;通過所述收發器取得語音訊號以產生語音向量,並且根據所述語音辨識模型產生對應於所述語音訊號的文字序列,其中所述文字序列包括至少一詞彙,其中所述至少一詞彙包括第一詞彙以及與所述第一詞彙相鄰的第二詞彙,其中所述至少一圖譜向量包括對應於所述第一詞彙的第一圖譜向量以及對應於所述第二詞彙的第二圖譜向量;響應於所述至少一詞彙與所述至少一圖譜向量匹配而根據所述至少一圖譜向量產生對應於所述至少一詞彙的第一標籤資料,包括:對所述文字序列中的詞彙執行向量化以產生詞彙向量;基於自然語音處理演算法標註所述至少一詞彙的詞性以產生對應於所述文字序列的詞性序列;根據所述第一圖譜向量與所述第二圖譜向量之間的第一距離產生對應於所述至少一詞彙的實體關聯序列;以及 根據所述語音向量、所述詞彙向量、所述詞性序列以及所述實體關聯序列產生所述第一標籤資料;響應於所述至少一詞彙與所述至少一主題向量匹配而根據所述至少一主題向量產生對應於所述至少一詞彙的第二標籤資料,包括:基於所述自然語音處理演算法以及廣義知網標註所述至少一詞彙的詞義;以及根據所述詞義產生所述第二標籤資料的標籤;根據所述第一標籤資料訓練第一神經網路模型;根據所述第二標籤資料訓練第二神經網路模型;通過所述收發器取得當前語音訊號,並且根據所述語音辨識模型、所述第一神經網路模型以及所述第二神經網路模型產生對應於所述當前語音訊號的辨識結果;以及通過所述收發器輸出所述辨識結果。
  2. 如請求項1所述的電子裝置,其中所述至少一詞彙更包括與所述第二詞彙相鄰的第三詞彙,其中所述至少一圖譜向量更包括對應於所述第三詞彙的第三圖譜向量,其中所述處理器更經配置以執行:計算所述第一圖譜向量與所述第三圖譜向量之間的第二距離;以及根據所述第一距離與所述第二距離產生所述第一標籤資料的標籤。
  3. 如請求項1所述的電子裝置,其中所述處理器更經配置以執行:基於所述自然語音處理演算法標註所述至少一詞彙的詞性;以及根據所述詞性產生所述第一標籤資料的標籤。
  4. 如請求項1所述的電子裝置,其中所述處理器基於TransE演算法、TransH演算法以及PTransE演算法的其中之一產生所述至少一圖譜向量。
  5. 如請求項1所述的電子裝置,其中所述處理器更經配置以執行:根據所述至少一主題向量的主題索引產生所述第二標籤資料的標籤。
  6. 如請求項1所述的電子裝置,其中所述處理器基於機率式潛藏語意分析演算法以及潛藏狄利克雷分配演算法的其中之一產生所述至少一主題向量。
  7. 如請求項1所述的電子裝置,其中所述處理器更經配置以執行:將第二語音訊號輸入至所述語音辨識模型以產生對應於多個候選詞彙的機率向量;根據所述第二語音訊號以及所述第一神經網路模型產生知識向量; 根據所述第二語音訊號以及所述第二神經網路模型產生語意向量;根據所述機率向量、所述知識向量以及所述語意向量訓練機器學習模型;以及根據所述機器學習模型以及所述語音辨識模型產生所述辨識結果。
  8. 如請求項7所述的電子裝置,其中所述處理器取得所述第一神經網路模型的多個隱藏層的其中之一的輸出以作為所述知識向量,其中所述處理器將所述知識向量輸入至所述機器學習模型以訓練所述機器學習模型。
  9. 如請求項7所述的電子裝置,其中所述處理器取得所述第二神經網路模型的多個隱藏層的其中之一的輸出以作為所述語意向量,其中所述處理器將所述語意向量輸入至所述機器學習模型以訓練所述機器學習模型。
  10. 如請求項7所述的電子裝置,其中所述處理器更經配置以執行:計算對應於所述機率向量的交叉熵以取得所述機器學習模型的目標函數值,並且根據所述目標函數值訓練所述機器學習模型。
  11. 如請求項10所述的電子裝置,其中所述處理器更經配置以執行:根據多項式更新所述機率向量,其中所述多項式的變數包括所述機率向量、第二機率向量以及第三機率向量,其中所述第二機 率向量包括所述多個候選詞彙的每一者佔所述知識圖譜的比例,其中所述第三機率向量包括所述多個候選詞彙的所述每一者佔所述主題文件的比例;以及根據更新的所述機率向量計算所述目標函數值。
  12. 如請求項7所述的電子裝置,其中所述機器學習模型為Transformer模型,其中所述Transformer模型包括Conformer編碼器以及長短期記憶模型解碼器。
  13. 一種改善語音辨識模型的方法,包括:通過一處理器取得知識圖譜,並且根據所述知識圖譜產生至少一圖譜向量;通過所述處理器取得主題文件,並且根據所述主題文件產生至少一主題向量;通過所述處理器取得語音訊號以產生語音向量,並且根據所述語音辨識模型產生對應於所述語音訊號的文字序列,其中所述文字序列包括至少一詞彙,其中所述至少一詞彙包括第一詞彙以及與所述第一詞彙相鄰的第二詞彙,其中所述至少一圖譜向量包括對應於所述第一詞彙的第一圖譜向量以及對應於所述第二詞彙的第二圖譜向量;通過所述處理器響應於所述至少一詞彙與所述至少一圖譜向量匹配而根據所述至少一圖譜向量產生對應於所述至少一詞彙的第一標籤資料,包括:對所述文字序列中的詞彙執行向量化以產生詞彙向量; 基於自然語音處理演算法標註所述至少一詞彙的詞性以產生對應於所述文字序列的詞性序列;根據所述第一圖譜向量與所述第二圖譜向量之間的第一距離產生對應於所述至少一詞彙的實體關聯序列;以及根據所述語音向量、所述詞彙向量、所述詞性序列以及所述實體關聯序列產生所述第一標籤資料;通過所述處理器響應於所述至少一詞彙與所述至少一主題向量匹配而根據所述至少一主題向量產生對應於所述至少一詞彙的第二標籤資料,包括:基於所述自然語音處理演算法以及廣義知網標註所述至少一詞彙的詞義;以及根據所述詞義產生所述第二標籤資料的標籤;通過所述處理器根據所述第一標籤資料訓練第一神經網路模型;通過所述處理器根據所述第二標籤資料訓練第二神經網路模型;通過所述處理器取得當前語音訊號,並且根據所述語音辨識模型、所述第一神經網路模型以及所述第二神經網路模型產生對應於所述當前語音訊號的辨識結果;以及通過所述處理器輸出所述辨識結果。
TW111100195A 2022-01-04 2022-01-04 改善語音辨識模型的方法和電子裝置 TWI779982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW111100195A TWI779982B (zh) 2022-01-04 2022-01-04 改善語音辨識模型的方法和電子裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW111100195A TWI779982B (zh) 2022-01-04 2022-01-04 改善語音辨識模型的方法和電子裝置

Publications (2)

Publication Number Publication Date
TWI779982B true TWI779982B (zh) 2022-10-01
TW202328972A TW202328972A (zh) 2023-07-16

Family

ID=85462658

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111100195A TWI779982B (zh) 2022-01-04 2022-01-04 改善語音辨識模型的方法和電子裝置

Country Status (1)

Country Link
TW (1) TWI779982B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统
CN109819127A (zh) * 2019-03-08 2019-05-28 周诚 骚扰电话的管理方法和系统
TW202147185A (zh) * 2020-05-01 2021-12-16 馬爾他商優奈有限公司 用於基於硬體之可解釋神經網路之架構

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683677A (zh) * 2015-11-06 2017-05-17 阿里巴巴集团控股有限公司 语音识别方法及装置
CN106776564A (zh) * 2016-12-21 2017-05-31 张永成 一种基于知识图谱的语义识别方法及系统
CN109819127A (zh) * 2019-03-08 2019-05-28 周诚 骚扰电话的管理方法和系统
TW202147185A (zh) * 2020-05-01 2021-12-16 馬爾他商優奈有限公司 用於基於硬體之可解釋神經網路之架構

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI826031B (zh) * 2022-10-05 2023-12-11 中華電信股份有限公司 基於歷史對話內容執行語音辨識的電子裝置及方法

Also Published As

Publication number Publication date
TW202328972A (zh) 2023-07-16

Similar Documents

Publication Publication Date Title
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN112712804A (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
Kheddar et al. Deep transfer learning for automatic speech recognition: Towards better generalization
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
Wang et al. Overview of end-to-end speech recognition
US10529322B2 (en) Semantic model for tagging of word lattices
Bose et al. Deep learning for audio signal classification
Algabri et al. Towards deep object detection techniques for phoneme recognition
Asif et al. An approach for pronunciation classification of classical Arabic phonemes using deep learning
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Sen et al. Speech processing and recognition system
TWI779982B (zh) 改善語音辨識模型的方法和電子裝置
US20220310065A1 (en) Supervised and Unsupervised Training with Contrastive Loss Over Sequences
Zuluaga-Gomez et al. A virtual simulation-pilot agent for training of air traffic controllers
Ten Bosch et al. DIANA, a process-oriented model of human auditory word recognition
Liu et al. Personalized multimodal feedback generation in education
US20220310067A1 (en) Lookup-Table Recurrent Language Model
CN114333762B (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
Yue English spoken stress recognition based on natural language processing and endpoint detection algorithm
Tufis et al. Making pepper understand and respond in romanian
Huang et al. Chatbot: Design, architecture, and applications
CN113823259A (zh) 将文本数据转换为音素序列的方法及设备

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent