TWI826031B

TWI826031B - 基於歷史對話內容執行語音辨識的電子裝置及方法

Info

Publication number: TWI826031B
Application number: TW111137897A
Authority: TW
Inventors: 顏必成; 邱炫盛; 王馨偉; 邱世弦; 陳柏琳
Original assignee: 中華電信股份有限公司
Priority date: 2022-10-05
Filing date: 2022-10-05
Publication date: 2023-12-11

Abstract

提供一種基於歷史對話內容執行語音辨識的電子裝置及方法。所述方法包括：利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的辨識預測列表；輸入擴充後的辨識預測列表至預訓練語言模型以獲得文意向量列表；利用注意力機制網路、文意向量列表以及關聯於語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量；以及將多個聲學融合文意向量輸入至前饋式網路以獲得辨識結果。

Description

基於歷史對話內容執行語音辨識的電子裝置及方法

本發明是有關於一種基於歷史對話內容執行語音辨識的電子裝置及方法。

一般的語音辨識是依照語音中各句子的順序而每句獨立地執行辨識。此種作法通常無法獲得良好的辨識結果。

本發明的基於歷史對話內容執行語音辨識的電子裝置包括儲存媒體以及處理器。儲存媒體儲存預訓練語言模型、注意力機制網路以及前饋式網路。處理器耦接儲存媒體，其中處理器經配置以執行：利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的辨識預測列表；輸入擴充後的辨識預測列表至預訓練語言模型以獲得文意向量列表；利用注意力機制網路、文意向量列表以及關聯於語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量；將多個聲學融合文意向量輸入至前饋式網路以獲得辨識結果。

本發明的基於歷史對話內容執行語音辨識的方法包括：利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的辨識預測列表；輸入擴充後的辨識預測列表至預訓練語言模型以獲得文意向量列表；利用注意力機制網路、文意向量列表以及關聯於語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量；以及將多個聲學融合文意向量輸入至前饋式網路以獲得辨識結果。

10:基於歷史對話內容執行語音辨識的電子裝置

100:儲存媒體

101:語音辨識模組

102:歷史辨識結果佇列

103:預訓練語言模型

104:語音編碼模組

105:注意力機制網路

106:前饋式網路

200:處理器

S301~S309、S601~S604:步驟

410:文意向量

420:聲學特徵向量

430:投影矩陣

440:聲學融合文意向量

圖1是根據本發明的一實施例繪示的一種基於歷史對話內容執行語音辨識的電子裝置的示意圖。

圖2是圖1所示的電子裝置的運作示意圖。

圖3是圖1所示的電子裝置的運作流程圖。

圖4是圖3所示的步驟S307的示意圖。

圖5是圖3所示的步驟S308的示意圖。

圖6是根據本發明的一實施例繪示的一種基於歷史對話內容執行語音辨識的方法的流程圖。

圖1是根據本發明的一實施例繪示的一種基於歷史對話內容執行語音辨識的電子裝置10的示意圖。電子裝置10可包括儲存媒體100以及處理器200。

儲存媒體100例如是任何型態的固定式或可移動式的隨機存取記憶體(random access memory，RAM)、唯讀記憶體(read-only memory，ROM)、快閃記憶體(flash memory)、硬碟(hard disk drive，HDD)、固態硬碟(solid state drive，SSD)或類似元件或上述元件的組合，而用於儲存可由處理器200執行的多個模組或各種應用程式。在本實施例中，儲存媒體100可儲存語音辨識模組101、歷史辨識結果佇列102、預訓練語言模型103、語音編碼模組104、注意力機制網路105以及前饋式網路106。後續將進一步說明。

處理器200例如是中央處理單元(central processing unit，CPU)，或是其他可程式化之一般用途或特殊用途的微控制單元(micro control unit，MCU)、微處理器(microprocessor)、數位信號處理器(digital signal processor，DSP)、可程式化控制器、特殊應用積體電路(application specific integrated circuit，ASIC)、圖形處理器(graphics processing unit，GPU)、影像訊號處理器(image signal processor，ISP)、影像處理單元(image processing unit，IPU)、算數邏輯單元(arithmetic logic unit，ALU)、複雜可程式邏輯裝置(complex programmable logic device，CPLD)、現場可程式化邏輯閘陣列(field programmable gate array，FPGA)或其他類似元件或上述元件的組合。處理器200可耦接至儲存媒體100，並且存取和執行儲存於儲存媒體100中的多個模組和各種應用程式。

在其它實施例中，電子裝置10可包括耦接處理器200的收發器(圖未繪示)以及輸入輸出裝置(圖未繪示)。輸入輸出裝置例如是麥克風或者喇叭。

圖2是圖1所示的電子裝置10的運作示意圖。圖3是圖1所示的電子裝置10的運作流程圖。請同時參照圖1、圖2以及圖3。在本實施例中，為了獲得更精確的辨識結果，處理器200可利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的辨識預測列表。

詳細而言，在步驟S301中，處理器200可通過收發器或者輸入輸出裝置接收語音訊號。例如，處理器200可從麥克風或者經由網路接收(使用者當前輸入的)語音訊號。

在步驟S302中，處理器200可從歷史辨識結果佇列102獲得歷史對話內容。詳細而言，歷史辨識結果佇列102可預先儲存歷史辨識結果。處理器200可從歷史辨識結果中選取特定的句子數量(例如3句)，以作為歷史對話內容。

在步驟S303中，處理器200可輸入語音訊號至語音辨識模組101以獲得包括多個候選句的辨識預測列表。在本實施例中，語音辨識模組101可利用集束搜索計算(Beam Search)技術獲得多個候選句。詳細而言，語音辨識模組101例如是DNN-HMM架構的辨識器，或是由類神經網路組成的端到端(End-to-End，E2E)辨識器。舉例來說，語音辨識模組101可利用集束搜索計算技術來根據所述語音訊號獲得分數最高的前10句，以將此10句都當作候選句。

在步驟S304中，處理器200可將關聯於歷史對話內容的字串添加至多個候選句的每一者之前，以獲得擴充後的辨識預測列表。詳細而言，處理器200可將歷史對話內容依照時間順序排列後組成所述字串，且可將所述字串分別串接於辨識預測列表的各候選句之前。此外，處理器200可分別插入特殊的分隔字符(例如[SEP])於所述字串與各候選句之間。

在步驟S305中，處理器200可輸入擴充後的辨識預測列表至預訓練語言模型103以獲得文意向量列表。在一實施例中，預訓練語言模型103可為Chinese-Bert-Based模型。進一步而言，文意向量列表可包括多個文意向量，且所述多個文意向量的每一者的維度可為768。在本實施例中，處理器200可輸入擴充後的辨識預測列表至預訓練語言模型103，以針對擴充後的辨識預測列表中的各候選句，來分別抽取各候選句的文意向量，並將此些文意向量收集為文意向量列表。在其他實施例中，預訓練語言模型103可為RoBERTa模型、BART模型、GPT-1模型、GPT-2模型或者GPT-3模型。

在步驟S306中，處理器200可利用語音訊號以及語音編碼模組104獲得包括多個聲學特徵向量的聲學特徵向量序列。詳細而言，處理器200可利用向量化技術從(使用者當前輸入的)語音訊號抽取梅爾濾波器特徵(Mel-Filter Banks,Mel-FBANKS)，並且將梅爾濾波器特徵輸入至語音編碼模組104以獲得聲學特徵向量序列。在一實施例中，語音編碼模組104可為Transformer網路，且所述Transformer網路包括12個Transformer Block，且所述Transformer Block包括Multi-Head-Self-Attention網路以及全連接層，且所述Multi-Head-Self-Attention網路的Multi-head的數量為8。

在步驟S307中，處理器200可利用注意力機制網路105、文意向量列表以及(關聯於語音訊號的)聲學特徵向量序列獲得多個聲學融合文意向量。以下將進一步說明。

圖4是圖3所示的步驟S307的示意圖。請同時參照圖2、圖3及圖4。承前述實施例所說明的，文意向量列表可包括多個文意向量。在此假設所述多個文意向量包括了文意向量410，且假設聲學特徵向量序列包括圖4所示的各聲學特徵向量420。處理器200可利用注意力機制網路105計算文意向量410與各聲學特徵向量420之間關係的權重值。接著，處理器200可根據權重值串接文意向量410以及各聲學特徵向量420。然後，處理器200可利用投影矩陣430獲得聲學融合文意向量440。詳細而言，在本實施例中，注意力機制網路105可用於建立文意向量410與各聲學特徵向量420的關係。注意力機制網路105可利用點積的計算方式，基於文意向量410而關注各聲學特徵向量420，並且給予各聲學特徵向量420一個數值介於[0,1]之間的權重值(關係分數)。接著，處理器200可對各聲學特徵向量420執行加權運算，並且將加權運算的結果串接於文意向量410之後。最後，處理器200可經由投影矩陣430獲得聲學融合文意向量440。在本實施例中，注意力機制網路105的隱藏層參數可被設定為1024維度。投影矩陣430可被設定為2048維度投影至768維度，故聲學融合文意向量440為768維度。

值得說明的是，處理器200可對文意向量列表中的所有文意向量逐一執行如圖4所示的操作。換言之，處理器200可利用文意向量列表中的各文意向量，來分別獲得對應的聲學融合文意向量。

請回到圖3。在步驟S308中，處理器200可將多個聲學融合文意向量輸入至前饋式網路106以獲得辨識結果。在本實施例中，前饋式網路106的隱藏層參數可被設定為1024維度。進一步而言，前饋式網路106可被設定為768維度投影至數值。藉此，前饋式網路106可用以預測具有最低錯誤率的候選句。以下將進一步說明。

圖5是圖3所示的步驟S308的示意圖。請同時參照圖2、圖3、圖4及圖5。承前述實施例所說明的，假設處理器200已經利用文意向量列表中的各文意向量分別獲得了，圖5所示的各聲學融合文意向量440。處理器200可利用前饋式網路106將多個聲學融合文意向量的每一者投影為數值，並且根據所述數值獲得辨識結果。詳細而言，處理器200可利用前饋式網路106將圖5所示的各聲學融合文意向量440的維度投影至一個數值。若特定的聲學融合文意向量投影至的該數值為1，則代表此特定的聲學融合文意向量所對應的候選句為，前饋式網路106所挑選出的辨識結果。

在一實施例中，前饋式網路106可以是，將傳統自回歸(Auto-regressive)的語言模型對於候選句的計分方式修改成，非自回歸模型(Non-Autoregressive)直接預測特定候選句是否為辨識預測列表的各候選句中具有最低詞錯誤率的句子。進一步而言，在前饋式網路106的模型訓練階段中，處理器200輸入至前饋式網路106的辨識預測列表H={h₁,h₂,...,h_N}會對應到一組標籤序列g=(g ₁,g ₂,...,g _N)，其中N為辨識預測列表中候選句的數量，h_n表示為辨識預測列表中第n個候選句(的文意向量)，g _n表示h_n是否為辨識預測列表中具有最低詞錯誤率的候選句，若為真則標記g _n為1，反之則標記g _n為0。

進一步而言，第n個候選句為辨識預測列表中最低錯誤率者的機率值可定義為p _n，如下述公式1所示。

p _n=P _θ(g _n=1|H)=σ(W_θh_n+b_θ)... (公式1)其中P _θ(g _n=1|H)表示為由模型參數θ估測的條件機率，σ為Sigmoid函數，h_n為辨識預測列表中第n個候選句的文意向量，W_θ與b_θ則為前饋式網路106的參數。

在前饋式網路106進行模型學習時，處理器200可利用下述公式2做為目標函數(單一句子，訓練時加總所有訓練句子)。換言之，處理器200可利用最小化負對數相似度(Minimizing Negative Log-Likelihood)的方式進行前饋式網路106的最佳化。

請回到圖3。在步驟S309中，處理器200可通過收發器或者輸入輸出裝置輸出辨識結果。在輸出辨識結果之後，處理器200可將辨識結果儲存至歷史辨識結果佇列102，以供後續辨識新的語音訊號時使用。

圖6是根據本發明的一實施例繪示的一種基於歷史對話內容執行語音辨識的方法的流程圖，其中所述方法可由圖1所示的電子裝置10實施。在步驟S601中，利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的辨識預測列表。在步驟S602中，輸入擴充後的辨識預測列表至預訓練語言模型以獲得文意向量列表。在步驟S603中，利用注意力機制網路、文意向量列表以及關聯於語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量。在步驟S604中，將多個聲學融合文意向量輸入至前饋式網路以獲得辨識結果。所述方法已於前述實施例說明，於此不再贅述。

綜上所述，本發明的基於歷史對話內容執行語音辨識的電子裝置及方法可利用基於非自回歸模型(Non-Autoregressive)的前饋式網路來跳脫時序預測詞彙，以快速地從多個聲學融合文意向量中挑選出辨識結果(即最低錯誤率的候選句)。特別是，本發明可藉由歷史對話內容來串接辨識預測列表中的各候選句以獲得擴充後的辨識預測列表。更進一步而言，所述多個聲學融合文意向量是納入歷史對話內容以及(使用者當前輸入的)聲學特徵向量序列所獲得。基此，本發明可藉由納入前後文的語意資訊，以及當前使用者語音輸入的資訊，來獲得較精確的辨識結果。

S601~S604:步驟

Claims

一種基於歷史對話內容執行語音辨識的電子裝置，包括：儲存媒體，儲存預訓練語言模型、注意力機制網路以及前饋式網路；以及處理器，耦接所述儲存媒體，其中所述處理器經配置以執行：利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的所述辨識預測列表；輸入擴充後的所述辨識預測列表至所述預訓練語言模型以獲得文意向量列表；利用所述注意力機制網路、所述文意向量列表以及關聯於所述語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量；將所述多個聲學融合文意向量輸入至所述前饋式網路以獲得辨識結果，其中所述文意向量列表包括第一文意向量，且所述聲學特徵向量序列包括多個聲學特徵向量，其中所述多個聲學融合文意向量包括第一聲學融合文意向量，其中所述處理器更經配置以執行：利用所述注意力機制網路計算所述第一文意向量與所述多個聲學特徵向量之間的權重值，根據所述權重值串接所述第一文意向量以及所述多個聲學特徵向量，並且利用投影矩陣獲得所述第一聲學融合文意向量。
如請求項1所述的電子裝置，更包括耦接所述處理器的收發器以及輸入輸出裝置，其中所述處理器更經配置以執行：通過所述收發器或者所述輸入輸出裝置接收所述語音訊號；從歷史辨識結果佇列獲得所述歷史對話內容；輸入所述語音訊號至語音辨識模組以獲得包括多個候選句的所述辨識預測列表，其中所述語音辨識模組利用集束搜索計算技術獲得所述多個候選句；將關聯於所述歷史對話內容的字串添加至所述多個候選句的每一者之前，以獲得擴充後的所述辨識預測列表。
如請求項1所述的電子裝置，其中所述預訓練語言模型為Chinese-Bert-Based模型，且所述文意向量列表包括多個文意向量，其中所述多個文意向量的每一者的維度為768。
如請求項1所述的電子裝置，其中所述處理器更經配置以執行：利用所述語音訊號以及語音編碼模組獲得包括所述多個聲學特徵向量的所述聲學特徵向量序列。
如請求項4所述的電子裝置，其中所述處理器更經配置以執行：利用向量化技術從所述語音訊號抽取梅爾濾波器特徵，並且將所述梅爾濾波器特徵輸入至所述語音編碼模組以獲得所述聲學特徵向量序列。
如請求項5所述的電子裝置，其中所述語音編碼模組為Transformer網路，其中所述Transformer網路包括12個Transformer Block，其中所述Transformer Block包括Multi-Head-Self-Attention網路以及全連接層，其中所述Multi-Head-Self-Attention網路的Multi-head的數量為8。
如請求項1所述的電子裝置，其中所述處理器更經配置以執行：利用所述前饋式網路將所述多個聲學融合文意向量的每一者投影為數值，並且根據所述數值獲得所述辨識結果。
如請求項1所述的電子裝置，更包括耦接所述處理器的收發器以及輸入輸出裝置，其中所述處理器更經配置以執行：通過所述收發器或者所述輸入輸出裝置輸出所述辨識結果。
一種基於歷史對話內容執行語音辨識的方法，包括：利用歷史對話內容擴充關聯於語音訊號的辨識預測列表以獲得擴充後的所述辨識預測列表；輸入擴充後的所述辨識預測列表至預訓練語言模型以獲得文意向量列表；利用注意力機制網路、所述文意向量列表以及關聯於所述語音訊號的聲學特徵向量序列獲得多個聲學融合文意向量；以及將所述多個聲學融合文意向量輸入至前饋式網路以獲得辨識結果，其中所述文意向量列表包括第一文意向量，且所述聲學特徵向量序列包括多個聲學特徵向量，其中所述多個聲學融合文意向量包括第一聲學融合文意向量，其中所述方法更包括：利用所述注意力機制網路計算所述第一文意向量與所述多個聲學特徵向量之間的權重值，根據所述權重值串接所述第一文意向量以及所述多個聲學特徵向量，並且利用投影矩陣獲得所述第一聲學融合文意向量。