TWI829312B

TWI829312B - 訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統

Info

Publication number: TWI829312B
Application number: TW111132423A
Authority: TW
Inventors: 山謬托馬斯; 宏光郭; 布萊恩ＥＤ金斯伯里; 喬治安卓埃薩翁; 倉田岳人
Original assignee: 美商萬國商業機器公司
Priority date: 2021-12-01
Filing date: 2022-08-29
Publication date: 2024-01-11
Also published as: US20230169954A1; US11908454B2; TW202324380A

Abstract

本發明揭示一種處理器實施方法，其使用語音資料及文字資料來訓練一自動語音辨識系統。一電腦裝置接收語音資料，並基於該語音資料而產生一頻譜圖。該運算裝置接收與一完整文字資料語料庫相關聯之文字資料，並基於該文字資料而產生一文字圖。該運算裝置使用該頻譜圖及該文字圖來訓練一自動語音辨識系統。

Description

訓練一自動語音辨識系統之方法、電腦程式產品及電腦系統

本發明之一或多個實施例係關於自動語音辨識(ASR)系統。更具體而言，本發明之一或多個實施例係關於適應神經網路傳感器ASR模型。

傳統ASR系統係使用分開之聲學模型、語言模型、發音詞典及解碼器組件構造的。此模組化方法允許獨立定製ASR系統之不同部分，並在各種設定中使用不同的資料集。舉例而言，聲學模型可用轉錄音訊進行適應，而語言模型可根據不同的文字語料庫分開地定製。此種根據獨立資料的定製係可能的，因為各種組件係根據不同模態進行訓練：聲學模型係根據轉錄音訊(語音及文字)進行訓練，而語言模型係根據文字資料進行訓練。

然而，混合模型之模組化架構的一個優點係，每一組件可根據分開的獨立資料集進行訓練或適應。另一方面，當前的全神經E2E系統需要轉錄訓練集以及配對的語音及文字轉錄本。此限制變得極大，尤其當需要為新域定製ASR模型時。在混合模型的情況下，可藉由根據特定於任務或域的純文字資料適應語言模型並更新詞典以涵蓋任何新單詞來執行域適應。

因此，本發明之一或多個實施例使用新穎的表示來解決E2E模型的缺點，該表示有效地將文字輸入整合至模型訓練及適應。

在本發明之一或多個實施例中，一種方法使用語音資料及文字資料來訓練自動語音辨識系統。一電腦裝置接收語音資料，並基於該語音資料而產生一頻譜圖。運算裝置接收與完整文字資料語料庫及/或口語語言理解(SLU)標籤(其包括「意圖」及/或「實體」標籤)相關聯之文字資料，並基於文字資料產生文字圖。運算裝置使用頻譜圖及文字圖來訓練自動語音辨識(ASR)系統。

因此，本發明之一或多個實施例並非僅使用語音之聲學特徵(例如，頻譜圖)作為輸入來訓練ASR模型，而是用「文字圖」特徵訓練基本模型。因此，當用語音及文字圖特徵兩者訓練基本模型時，基本模型於是能夠在域適應資料僅包含文字而無對應語音時處置自適應。

在本發明之一或多個實施例中，此經訓練ASR係經構造基本ASR模型。此基本ASR模型構造使用轉錄語音(亦即，帶有文字轉錄本的語音)。

如本文中所描述，一旦基本ASR模型經構造，在本發明之一或多個實施例中，該基本ASR模型經適應為ASR系統本身。

如本文中所描述，一旦基本ASR模型經構造，在本發明之一或多個實施例中，該基本ASR模型適應於不同的任務(例如，口語語言理解一SLU)。

在本發明之一或多個實施例中，文字資料對應於語音資料之轉錄。因此，在構造基本自動語音辨識(ASR)模型時，未使用完全獨立的文字資料集。相反，完全獨立的文字資料用於基本ASR模型對新域或任務之定製或適應的上下文中。

在本發明之一或多個實施例中，在ASR模型及/或其構造中未利用意圖。亦即，意圖用於口語語言理解。然而，在訓練ASR系統/模型時，利用轉錄語音。在本發明之一或多個實施例中，此類轉錄語音具有配對的語音及匹配的轉錄本。藉助轉錄語音，本發明之一或多個實施例創建訓練ASR系統之頻譜圖及文字圖。

在本發明之一或多個實施例中，運算裝置進一步基於頻譜圖及文字圖產生語音資料之自動語音辨識模型。

在本發明之一或多個實施例中，其中語音資料係第一語音資料，該方法進一步包含藉由運算裝置用第二語音資料修改自動語音辨識模型，該第二語音資料與第一語音資料不同。亦即，此等實施例利用使用來自彼新設定之轉錄語音的基本模型對新域或任務之基於語音的ASR適應。來自新域或與新任務對應的資料係第二語音資料。

在本發明之一或多個實施例中，其中語音資料係第一語音資料，該方法進一步包含藉由運算裝置用來自第二語音資料之文字資料修改自動語音辨識模型，該第二語音資料與第一語音資料不同。亦即，此等實施例利用基本模型對新域或任務之基於文字的ASR適應。在此等實施例中，利用與新域或任務相對應的新穎文字資料，而無需轉錄語音資料。因此，本發明能夠適應於僅包括文字轉錄本而無對應語音音訊資料之域資料。

在本發明之一或多個實施例，其中語音資料呈第一語音語言之形式，該方法進一步包含藉由運算裝置用來自第二語音語言之文字資料修改自動語音辨識模型，該第二語音語言與第一語音語言不同。亦即，且在此等實施例中，ASR基本模型適應於不同的任務，如同口語語言理解(SLU)。在本發明之一或多個實施例中，來自兩個不同語音資料之基礎語言係相同的，此係因為英語ASR系統經適應成為英語SLU系統。

然而，ASR基本模型對SLU模型的適應可作為基於語音的ASR自適應或基於文字的自適應或兩者的混合組合，其中利用轉錄SLU語音資料(配對的具有SLU標籤的語音及文字，若可用)及基於文字的SLU資料(具有意圖的文字可用)。

然而，在本發明之一或多個實施例中，英語基本ASR模型用西班牙語資料進行適應以創建西班牙語ASR模型。基本ASR模型係新模型的初始化。以相似方式，英語基本ASR模型用西班牙語SLU資料進行適應，以創建西班牙語SLU模型。在此等狀況中之兩者中，存在語言切換。

在本發明之一或多個實施例中，運算裝置基於語音資料修改文字圖以創建經修改的文字圖，並進一步使用頻譜圖及經修改的文字圖來訓練自動語音辨識系統。

在本發明之一或多個實施例中，本文中所描述之方法藉由在電腦系統上執行電腦程式產品來執行。

10:運算節點

50:雲端運算環境

54A:運算裝置

54B:運算裝置

54C:運算裝置

54N:運算裝置

60:硬體及軟體層

61:大型主機

62:基於RISC(精簡指令集電腦)架構之伺服器

63:伺服器

64:刀鋒型伺服器

65:儲存裝置

66:網路及網路組件

67:網路應用程式伺服器軟體

68:資料庫軟體

70:虛擬化層

71:虛擬伺服器

72:虛擬儲存器

73:虛擬網路

74:虛擬應用程式及作業系統

75:虛擬用戶端

80:管理層

81:資源佈建

82:計量及定價

83:使用者入口

84:服務等級管理

85:服務等級協定(SLA)規劃及履行

90:工作負載層

91:地圖及導航

92:軟體開發及生命週期管理

93:虛擬課堂教學遞送

94:資料分析處理

95:異動處理

96:自動語音辨識處理

100:RNN傳感器(RNN-T)傳感器自動語音辨識(ASR)模型

101:編碼器網路

103:預測網路

105:輸入嵌入

107:聯合網路

109:正規化(函數)

111:口語語言理解(SLU)輸出

113:語言模型(LM)網路

115:正規化(函數)

202:文字圖

204:表

301:表

302:表

303:表

304:表

305:表

306:表

307:表

308:表

401:電腦

403:處理器

405:系統匯流排

407:視訊配接器

409:顯示器

411:匯流排橋接器

413:輸入/輸出(I/O)匯流排

415:I/O介面

417:鍵盤

419:滑鼠

421:媒體匣

423:機器學習系統

425:外部USB埠

427:網路

429:網路介面

431:硬碟機介面

433:硬碟機

435:系統記憶體

437:作業系統(OS)

439:殼層

441:核心

443:應用程式

445:瀏覽器

447:用於訓練ASR系統之程式(PTASRS)

449:軟體部署伺服器

451:語音資料伺服器

502:頻譜圖

503:輸入層

504:文字圖

505:隱藏層

506:ASR模型

507:輸出層

509:神經元

511:區塊/神經元

513:神經元

515:輸出向量

523:深度神經網路(DNN)

601:輸入資料集

603:輸入層

607:輸出層

623:循環神經網路(RNN)

701:區塊

703:區塊

705:區塊

707:區塊

709:區塊

711:區塊

713:區塊

a:語素

d:語素

e:語素

h^enc:嵌入

H_u ^pred:嵌入

i:語素

l_ti:輸出

l_t,u:輸出

P_(y|t,u):機率分佈

s:語素

x_t:聲音及文字

y_u-1:文字序列

圖1描繪在本發明之一或多個實施例中使用的基於例示性循環神經網路(RNN)傳感器自動語音辨識(ASR)的模型；圖2說明在本發明之一或多個實施例中使用的語言符號的例示性文字圖表示；圖3描述在本發明之各種實施例中實現的結果的表；圖4描繪可在其中實施本揭示內容的例示性系統及網路；圖5描繪用於本發明之一或多個實施例的深度神經網路(DNN)的概述；圖6說明在本發明之一或多個實施例中使用的例示性循環神經網路(RNN)；圖7係在本發明之一或多個實施例中執行的一或多個操作的高階流程圖；圖8描繪根據本發明之實施例的雲端運算環境；及圖9描繪根據本發明之實施例的雲端電腦環境之抽象模型層。

藉助最近的端對端自動語音辨識(ASR)模型，習用模組化ASR系統已被單個端對端經訓練全神經模型替代。舉例而言，循環神經網路(RNN)傳感器模型由三個不同的子網路組成：轉錄網路，預測網路及聯合網路。轉錄網路產生聲學嵌入，而預測網路類似於語言模型，因為其根據由模型產生的先前非空白符號為條件。聯合網路將兩個嵌入輸出組合以在輸出符號上產生後驗分佈。

鑒於此設定，本發明之一或多個實施例僅根據相關文字資料來適應ASR模型，而無需任何對應音訊。藉助外部語言模型定製及更新ASR發音的此程序，ASR系統經適應以輸出以前在ASR訓練資料中未見過或較不頻繁出現的新單詞及片語，以實現顯著的ASR效能改良。

藉助此種端對端方法，由於ASR系統之每一組件經聯合訓練，因此先前技術ASR模型在其根據不同的資料集分開地定製每一組件時具有侷限性。另外，由於此等先前技術種類的模型可僅處理語音輸入，因此端對端(E2E)模型不能僅使用文字資料來適應於新域。過去，藉助ASR模型，上述情形可藉由適應語言模型組件輕鬆完成。為了克服此問題，最近方法首先使用文字轉換語音系統合成文字資料，且然後使用合成的語音來適應網路。然而，創建合成資料的成本很高，且向定製程序添加額外處理步驟。另一先前技術方法使用多任務訓練方法，該方法訓練預測網路以亦根據純文字資料作為語言模型操作。然而，此方法僅修改預測網路。

因此，本發明之一或多個實施例利用一新的且有用的訓練方法，該方法允許ASR模型不僅根據轉錄語音進行訓練，而且僅根據文字進行訓練。一旦ASR模型已經訓練以獨立處理文字及語音兩者，即可用純文字資料有效地定製經訓練模型。在定製之後，模型部署在常規測試設定中，以亦處置語音輸入。

與其他先前工作相比，本發明之一或多個實施例提供以下優點：其允許僅使用文字資料定製端對端ASR模型；在神經網路傳感器模型中，其允許對預測網路及聯合網路兩者進行更新；除了基於文字的定製之外，本文中所描述之ASR模型亦可使用轉錄語音資料進行定製。語音集合可為合成語音或真實語音，或兩者；且本發明之一或多個實施例提出的此方法不限於僅定製ASR模型，而且係關於將現有ASR模型定製成用於不同任務的模型，諸如僅用文字資料的口語語言理解。

為了允許根據文字及語音兩者訓練ASR模型，本發明之一或多個實施例利用文字的新穎表示(稱為文字圖)。

與語音的時頻頻譜圖表示相似，文字圖係文字在各種語言符號方面的2維表示。x軸表示時間，而y軸表示各種活動語言符號的識別。作為一實例，若正在訓練的ASR模型係圖形系統，則y軸將對應於用作模型之輸出符號的圖形符號的清單。時間x軸表示每一語言符號在所表示之文字句子中處於活動狀態的持續時間。因此，句子「hello world」的文字圖表示將使對應於「h」的列在一定持續時間內處於活動狀態，後續接著列「e」處於活動狀態，然後係「l」列，依此類推。

為了允許模型自文字圖表示可靠地學習，在本發明之各種實施例中將各種可變性添加至表示。此類可變性包括但不限於：標籤遮罩：為了允許模型學習有用的n元語法序列，而非盲目地記住序列，文字圖表示之活動條目經隨機丟棄。標籤遮罩率係經驗選擇的參數；標籤混淆：各種語音之間的聲學混淆藉由用其可混淆聲音替換各種標籤(例如「p」及「b」)引入至文字圖中；可變標籤持續時間：每一語言單元之長度各不相同，以建模語音信號中之實際持續時間。在圖2中，每符號使用四個訊框，儘管其在本發明之一或多個實施例中較短較長，及/或變化；建模發音：輸入文字圖可包括給定目標輸出之不同「類似聲音」的序列。舉例而言，目標「Miami」在聲學訓練資料中看不到的情況下可與「Miami」、「my Amy」或「mee Amy」等文字圖序列相關聯。替代地，輸入文字圖可允許音標而非圖形輸入；及多語言符號集：與文字圖一起使用的符號集與ASR模型之輸出符號集不同。舉例而言，音標目標用於RNN-T之輸出，而語素用於文字圖。

在本發明之一或多個實施例中，固定標籤持續時間用於各種文字符號連同標籤遮罩，以構造文字圖特徵。

為了允許模型能夠處理文字及語音兩者，根據頻譜圖及文字圖表示兩者訓練ASR模型。頻譜圖表示對應於自轉錄語音訓練資料衍生的對數梅爾(log-mel)特徵。另一方面，文字圖表示係由文字資料創建，文字資料可用作訓練資料之語音轉錄本，或可用作其他純文字資料集。若訓練樣本係語音表達，則為該表達提取對數梅爾特徵。為語音表達進一步創建空文字o元語法(text-o-gram)，並將其附加至頻譜圖表示。此表達之最終特徵表示係頻譜圖及文字圖表示的串聯。另一方面，若訓練樣本係文字表達，則空對數梅爾表示與文字圖表示串聯。

一旦ASR模型已經訓練，在一或多個實施例中，在各種設定中進一步定製：僅文字，僅語音，文字及語音。在測試時間期間，定製模型能夠處理語音表達。

如上文且本文中所描述，構建可直接處理語音輸入之端對埠語理解系統的主障礙係具有口語語言理解(SLU)標籤的可用語音訓練資料數量有限。為了克服此問題，過去的方法使用文字轉換語音(TTS)系統或具有基於文字分類器的共用網路層來合成語音。藉助TTS方法，雖然必須組譯額外的處理資源來處理及合成文字，但藉助共用分類器方法，現有模型通常必須重新組態及重新訓練以適應網路架構及輸入的改變。因此，本發明之一或多個實施例提供新的且有用的方法，該方法具有單個端對端(E2E)模型，該模型可處理語音模態及文字模態兩者，使得根據語音及文字資料兩者對SLU模型進行有效訓練及適應。

現在參考圖1，本發明之一或多個實施例利用使用RNN傳感器(RNN-T)模型的E2E SLU系統，諸如圖1中所描繪之RNN-T傳感器ASR模型100。RNN-T模型由三個不同的子網路組成：編碼器網路101、預測網路103及聯合網路107。編碼器或轉錄網路產生聲學嵌入，而預測網路類似於語言模型，因為其根據由模型產生的先前非空白符號為條件。聯合網路將兩個嵌入輸出組合以在輸出符號上產生後驗分佈。此架構優質地替代由分開的聲學模型、語言模型、發音詞典及解碼器組件構成的習用ASR系統，使用已廣泛用於語音辨識的單個端對端訓練、可串流的全神經模型。來自聯合網路107的輸出l _t,u經發送至正規化(softmax)(函數)109，其使用多項式邏輯回歸或類似演算法將聯合網路107網路之輸出正規化為預測輸出類上之機率分佈，顯示為P(y|t,u)。

自預先訓練的RNN-T ASR模型開始，本發明之一或多個實施例藉由使ASR模型適應於特定於域的SLU模型來構造SLU模型。新SLU標籤藉由修改聯合網路及預測網路之嵌入層來整合，以包括如在圖1中所展示額外符號，包括額外輸入嵌入105及額外SLU輸出111。新網路參數經隨機初始化，而其餘部分係自預先訓練的ASR網路初始化。然後，使用配對的語音及文字資料以及轉錄本及SLU標籤進一步訓練初始SLU模型。在此工作中，本發明之一或多個實施例開發新穎技術，該技術不僅用與轉錄本及SLU標籤配對的語音而且根據用SLU標籤註釋的純文字資料來訓練SLU模型。與先前工作相比，直接使用純文字資料，而無需必須使用 TTS系統進行合成。

在本發明之一或多個實施例中，RNN-T傳感器ASR模型100之部分經直接更新，且因此不需要解碼的改變。舉例而言，且在此類實施例中，文字轉換語音(TTS)模型用於自文字合成音訊，且然後使用配對的合成語音及文字來適應預測網路103。如此，來自預測網路103之預測輸出(H _u ^pred)進入語言模型(LM)網路113，該網路將其輸出l _ti發送至正規化(函數)115，其輸出預測輸出類上的機率分佈，展示為P(y|u)。

審視圖1，則x _t為聲音及文字；y _u-1係文字序列；編碼器網路101在功能上相似於聲學模型；預測網路103在功能上相似於語言模型；聯合網路107在功能上相似於包括聲學模型及語言模型特徵兩者的共用模型；且LM網路113與正規化(函數)115組合以創建語言模型。

紋理圖

為了用純文字資料訓練基於RNN-T的SLU模型，本發明之一或多個實施例將新穎特徵表示用於文字及訓練框架。首先，使用標準語音特徵及稱為文字圖的新穎文字特徵對ASR模型進行預訓練。隨後，ASR模型經適應為SLU模型。

在一或多個實施例中，ASR模型經適應用於除SLU之外的其他類型的語音辨識系統。因此，若新客戶端具有特定域文字資料，則該模型經適應於彼資料以用於語音辨識目的。

文字圖經構造為文字之訊框級表示，相似於後驗圖，該等後驗圖係經訓練神經網路聲學模型之軟最大後驗輸出。然而，因為其係由地面實況文字構造，因此文字圖使用1熱編碼。舉例而言，給定輸入文字「想法」，如在圖1中之文字圖202所示，圖文文字圖特徵係藉由將單詞首先拆分成其組成語素「i」、「d」、「e」、「a」、「s」來構造。然後允許每一符號跨越固定持續時間，在本文狀況中為四訊框，以創建如圖2中所展示之2維表示。一旦以此方式構造，此等表示將與對數梅爾語音特徵一起使用，以訓練RNN-T模型。因為文字圖具有與語音特徵相同的訊框級構造，所以藉由將其連同語音特徵一起堆疊來將其整合至現有RNN訓練框架中：語音特徵之訓練樣本將文字圖特徵設定為0.0，且相反，文字特徵之訓練樣本將語音特徵設定為0.0。

訓練RNN-T模型

在本發明之一或多個實施例中，給定長度T之輸入序列x=(x ₁ ,...,xT)

X*，RNN-T建模長度U之輸出序列y=(y1,...,yU)

Y*的條件分佈p(y|x)。在ASR設定中，雖然x的元素係連續的多維語音特徵，但y係離散的，且對應於輸出符號集，如同網路建模的語言之語素集。為了促進對準通常具有不同長度的兩個序列，輸出字母表用額外BLANK符號擴充，該符號取用輸入序列x之一個特徵向量，並產生空值輸出。p(y|x)係藉由邊緣化x與y之間所有可能的對準來運算。

特定對準的機率係根據由編碼器網路運算之輸入序列之嵌入h ^enc及由預測網路運算之輸出序列之嵌入h ^pred來運算。聯合網路組合此兩個嵌入以在輸出符號上產生後驗分佈。訓練係基於高效的前向-後向演算法，針對損失及梯度運算兩者具有T×U複雜性，此最小化-log p(y|x)(負對數似然損失)並使用與對應文字轉錄本配對的語音資料。

將文字表示為文字圖允許擴展RNN-T訓練框架。除了使用包含配對的語音及文字資料(x^sp,y)的樣本來訓練網路之外，其中語音由聲學特徵序列x^sp表示且文字由符號序列y表示，本發明之一或多個實施例亦使用包含配對的文字表示(x^txt,y)的樣本訓練網路，其中x^txt係文字的文字圖表示且y係符號序列。

對於訓練集中之(語音、文字)樣本，本發明者提取用△及△²特徵擴充的對數梅爾特徵，並將與文字圖特徵對應的輸入尺寸設定為0.0，如在圖2中所展示。為了改良語音訓練的穩健性，序列雜訊注入及SpecAugment應用於語音特徵。序列雜訊注入以一定機率將來自隨機選擇的訓練表達的衰減特徵添加至當前表達之特徵中。另一方面，SpecAugment用時間及頻率兩者的隨機大小的隨機數目個區塊來遮罩訓練表達之頻譜。

對於(文字、文字)樣本，本發明之一或多個實施例運算每一轉錄本之文字圖特徵，並將對應於聲學特徵之輸入尺寸設定為0.0，如在圖2中所展示。為了防止(文字、文字)任務變得完全不重要，本發明之一或多個實施例將標籤遮罩應用於文字圖特徵。

藉由將文字輸入整合至訓練管道中，RNN-T模型之轉錄網路現在經訓練為兩種模態的單個編碼器：語音及文字。藉由此聯合訓練，轉錄網路為語音及文字兩者產生相似嵌入，其可連同兩種模態共用的預測及聯合網路進一步使用。

適應RNN-T模型

一旦RNN-T模型已根據語音及文字兩者進行訓練，其使用純文字資料適應於新域。在適應程序之前，將純文字適應資料轉換為文字圖特徵。然後使用此等特徵對RNN-T模型進行適應。轉錄網路之參數在適應程序期間保持恆定，而預測及聯合網路之參數可更新。此確保模型在聲學上仍穩健，同時能夠有效地處理來自新域的資料。

實驗及結果

具有紋理圖特徵的RNN-T基本模型

本發明者使用的RNN-T模型根據美國英語電話語音集合進行訓練。每一RNN-T模型具有數個子網路，如在圖1中所說明。在本發明之一或多個實施例中，轉錄網路含有6個雙向LSTM層，其中每方向每層640個單元。預測網路係單向LSTM層，僅具有1024個單元。聯合網路投影將來自轉錄網之最後層的1280維堆疊編碼器向量及1024維預測網嵌入各自投影至256個維度，用乘法將其組合，及應用雙曲正切。最後，將輸出投影至42個logit，對應於41個字元加BLANK，後續接著正規化函數。基於RNN-T的ASR模型使用40維全局均值及方差正規化對數梅爾濾波組特徵(每10ms提取一次)進行訓練。此等特徵用△及△²係數擴充，每兩個連續訊框堆疊，且跳過每第二訊框，從而每20ms產生240維向量。同樣，文字圖表示之每兩訊框係堆疊的，且跳過每第二訊框，每20ms產生84個維度向量。因此，轉錄網路採用324維輸入。

語音資料使用速度及節奏擾動進行擴充，其中分開地針對速度及節奏兩者的值在{0.9,1.1}中，從而產生4個額外語音訓練資料副本。對於序列雜訊注入，本發明者以0.8機率向每一訓練表達的頻譜添加按0.4倍縮放的相似長度的一個隨機表達的頻譜。

文字資料之紋理圖表示係使用在RNN-T之輸出處建模的相同語素集及每符號四個訊框的固定持續時間產生。將25%速率的標籤遮罩應用於文字圖，以防止模型簡單地重現輸入。

使用最佳化器針對20個時刻在多個圖形處理單元(GPU)上訓練RNN-T模型。最大學習速率經設定為2e-4，且循環策略在於前6個時刻內自2e-5至2e-4的線性預熱階段，後續接著剩餘14個時刻內至0的線性退火階段。本發明者使用128個表達的有效批量大小。批量係由相似長度的特徵序列構造，而不考慮特徵係梅爾頻譜圖還是文字圖，因此通常每一批量含有兩個類型的訓練樣本。

本發明者在第一組實驗中訓練兩個RNN-T模型：根據所有可用語音資料的RNN-T模型及根據語音及文字兩者訓練的基於文字圖模型。兩個模型具有相同的架構，除了轉錄網路中之第一層在根據語音及文字訓練的模型中具有更大的輸入，且兩個模型係使用上文所描述之相同的訓練程序構造。在圖3中所展示之表305中係常用的切換表單測試集的結果，該等結果使用分割進行處理並使用評分設置進行評分，以量測單詞錯誤率(WER)。使用所提出的紋理圖(TOG)方法TOG-RNN-T訓練的RNN-T模型比僅根據語音資料訓練的競爭基線模型顯著改良。使用與語音及文字輸入聯合訓練的模型進行分割的相對WER降低10%及13%歸因於使用兩倍資料在兩個模態上進行訓練所引起的正則化效應。訓練資料的雙重增加係因為所使用的轉錄本對應於語音資料作為訓練模型的額外文字輸入。如此，在為ASR訓練RNN-T模型時，使用文字圖係另一資料擴充方法。

RNN-T適應於各種域

在下一組實驗中，本發明者將基於通用文字圖的模型適應於各種新域及設定。為了量測本文中所呈現之所提出技術的有用性，發明者實施本文中所提出的純文字適應技術並比較結果。如在圖1中所展示，為了根據純文字輸入適應預測網路，首先附接臨時學習機(LM)層(LM網路113)並使用標準交叉熵損失根據訓練資料轉錄本連同正規化輸出層(正規化115)一起訓練。一旦LM層已經訓練，其保持固定，而預測網路進一步適應於來自新域之新穎文字資料。此訓練使用兩個輔助損失來進行較佳正則化：相對熵發散損失(其控制適應模型之輸出分佈與原始未適應模型之分佈的相似程度)及權重正則化損失(防止適應模型之權重偏離基本模型)。與此基於NN-LM的技術相比，目前提出的基於紋理圖的方法藉由最佳化RNN-T損失而非交叉熵來執行適應。本發明者對三個不同的資料集進行適應實驗。

適應於口語語言資料集：口語語言資料集係用於口語語言理解的資料集。音訊資料係在典型家庭或辦公室環境中使用遠場及近距離說話麥克風在具有挑戰性的聲學條件下收集。資料集之訓練分區具有約11K個文字句子。本發明者使用來自此資料集之純文字資料適應一模型，並根據語料庫之語音測試集對其進行測試，該測試集對應於10個小時的語音。測試資料亦經降低取樣至8kHz，用於當前所描述之實驗的一或多個迭代。假定收集口語語言資料集用於開發家庭個人機器人助手，因此此域與原始基本模型訓練資料完全不同。圖3中之表306展示對此資料集的各種適應技術的執行。未適應模型的WER相當高，此係因為口語語言資料集既在聲學上又在語言上大體上不同。基於神經LM的適應技術使WER相對降低約15%。接下來，本發明者使用本文中所呈現的方法以三種不同的方式適應RNN-T模型：(1)在TOG adapt(P+J)中，本發明者適應預測網路及聯合網路兩者，(2)在TOG adapt(P)中，本發明者僅適應預測網路，且(3)在TOG adapt(P)+NN-LM中，本發明者將文字圖適應與NN-LM技術組合。將RNN-T基本模型與基於紋理圖特徵適應顯著改良WER降低。本發明者藉由僅適應預測網路比適應預測網路及聯合網路兩者觀察到更多收益。組合NN-LM適應方法進一步提供正則化至基於文字圖適應，並提供 23%的最佳相對WER降低。

適應於公共交通資料集：在第二組實驗中，本發明者使用包括893個測試表達的公共交通資料集。測試表達包含來自55個演講者的約1.5小時的音訊。資料最初以16kHz收集，但經降低取樣至8kHz以匹配電話語音基本模型。本發明者亦對此資料集重複同一組適應實驗，其結果在圖3中之表307中展示。儘管與上文所描述之口語語言資料集的結果相比，未適應模型之WER低得多，但該模型仍受益於適應。與先前結果相似，NN-LM適應技術相對改良WER降低30%。儘管僅預測網路的所提出紋理圖適應除此等增益外亦改良40%相對WER降低，與NN-LM技術組合將效能進一步相對改良45%。

適應於服務資料集：在最後一組實驗中，本發明者將基線RNN-T模型適應於服務資料語料庫。此資料集係具有模擬使用者與代理之間簡單服務互動的語音對話方塊的公共域語料庫。59位獨特的演講者之間存在1,446個人與人交談。本發明者根據1.5小時語音測試集測試適應模型之前，根據來自訓練分區的15K文字轉錄本適應模型。

與前兩個定製實驗相似，實現使用所提出適應技術的顯著效能增益，如在圖3中之表308中所展示。藉由使用純文字轉錄本僅適應預測網路，觀察到一致的增益。與NN-LM方法相比，基於文字圖的方法能夠較佳地適應此子網路。此係因為適應過程的整體性，其中預測網路並非使用分開之損失獨立適應，而是經由聯合網路使用原始RNN-T訓練損失連同來自轉錄網路的嵌入一起適應。亦在此狀況下，與未適應模型相比，本發明者觀察到適應之後高達34%相對WER降低。將NN-LM訓練損失與RNN-T訓練損失組合得到最佳改良，此表明當使用良好的正則化時，預測網路可進一步受益。

為SLU構造RNN-T模型

預先訓練ASR模型

給定長度T之輸入序列x=(xi,...,xT)

X*，RNN-T建模長度U之輸出序列y=(yi,...,yU)

Y*的條件分佈p(y|x)。在ASR中，x係一系列連續的多維語音特徵，且y係一系列離散輸出符號，如同網路建模的語言的語素集。分佈p(y|x)進一步表達為輸入序列與輸出序列之間所有可能對準機率的總和。為在不相等長度的輸入-輸出序列之間創建對準，需要引入額外BLANK符號，該符號取用輸入序列之一個元素並產生空值輸出。特定對準的機率係根據由編碼器網路運算的輸入序列的嵌入h ^enc(包括額外輸入嵌入105，例如，由預測網路103使用的來自圖2中所展示的表204的資訊)及由預測網路運算的輸出序列之嵌入h ^pred。聯合網路將此等嵌入組合以在輸出符號上產生後驗分佈，其包括額外SLU輸出111(其藉由處理額外輸入嵌入105而自聯合網路107輸出)。在此框架中，經由高效的針對損失及梯度運算兩者具有T×U複雜性的前向-後向演算法，訓練RNN-T模型以最小化-logp(y|x)(負對數似然損失)。

現在，該模型用語音輸入(使用語音特徵表示)及文字輸入(使用文字圖表示)進行訓練。

此有效地使訓練實例的數目加倍，因此自一個角度，在訓練中使用文字圖係資料擴充的形式。對於由語音特徵表示的樣本，本發明之一或多個實施例提取對數梅爾特徵，以及差量和雙差量特徵。輸入中對應於文字圖特徵的尺寸經設定為0.0，如在圖2中所展示。藉由序列雜訊注入，來自隨機選擇的訓練表達的衰減特徵以給定的機率添加至當前訓練表達之特徵。另一方面，在時間方向上變形的語音特徵用在時間及頻率兩者上隨機大小的隨機數目個區塊遮罩來訓練表達的頻譜。對於文字資料，本發明之一或多個實施例提取對應於每一文字轉錄本的文字圖特徵並以25%遮罩機率應用標籤遮罩。如在圖2中所展示，對於使用紋理圖特徵的訓練樣本，與語音特徵相對應的維度經設定為0.0。藉由將文字輸入整合至訓練管道中，RNN-T模型之轉錄網路現在經訓練為兩種模態的單個編碼器：語音及文字。藉由此聯合訓練，轉錄網路為語音及文字兩者產生相似嵌入，其連同兩種模態共用的預測及聯合網路一起進一步使用。

適應SLU的RNN-T模型

一旦RNN-T ASR模型已根據語音及文字兩者進行訓練，本發明之一或多個實施例用語音及文字資料兩者將此預先訓練基本模型適應於SLU模型中，遵循相似於上文針對ASR所描述的訓練程序。SLU訓練如下進行：創建初始SLU模型：在ASR預先訓練步驟中，目標僅為圖形/語音符記，但對於SLU適應，目標亦包括語義標籤。以ASR模型開始，藉由修改聯合網路及預測網路之嵌入層以包括額外輸出符號來整合新的SLU標籤。新網路參數係隨機初始化的，而其餘部分係自預先訓練的網路初始化。

根據純文字SLU資料訓練：在適應程序之前，將純文字SLU資料轉換為基於文字圖的特徵。文字圖不表示SLU目標，而僅表示語音轉錄本。然後使用此等特徵對RNN-T模型進行適應，以預測各種SLU標籤。在用純文字資料適應RNN-T時，本發明之一或多個實施例保持轉錄網路固定並適應預測及聯合網路。此確保模型在聲學上仍穩健，同時能夠有效地處理來自新域的資料。

根據語音及文字SLU資料訓練：當語音及文字資料兩者可用於訓練SLU模型時，使用兩種類型的輸入來適應RNN-T，此與使用兩種類型的輸入對模型進行預訓練的方式極其相同。然而，當在根據混合資料適應期間呈現語音樣本時，更新整個網路，但當呈現文字樣本時，僅更新預測及聯合網路。此允許模型不僅適應於新聲學條件而且學習處理SLU目標。

訓練基本ASR模型

在利用本發明之一或多個實施例進行的實驗中使用的RNN-T模型使用各種電話語音語料庫進行訓練。每一RNN-T模型具有三個子網路，如在圖1中所說明。編碼器網路101(亦稱為轉錄網路)含有6個雙向LSTM層，其中每方向每層640個單元。預測網路103係單向LSTM層，僅具有1024個單元。聯合網路107將來自轉錄網之最後層的1280維堆疊編碼器向量及1024維預測網嵌入各自投影至256個維度，用乘法將其組合，及應用雙曲正切。最後，將輸出投影至42個logit，對應於41個字元加BLANK，後續接著正規化109。RNN-T SLU模型使用40維全局均值及方差正規化對數梅爾濾波組特徵(每10ms提取一次)進行訓練。此等特徵用△及△△係數擴充，每兩個連續訊框堆疊，且跳過每第二訊框，從而每20ms產生240維向量。此等語音特徵最終附加空的紋理圖特徵，以創建324個維向量。

除了語音資料之外，本發明之一或多個實施例亦使用所有可用的文字轉錄本作為訓練資料。此等轉錄本首先轉換為文字圖特徵，在其與語音表達一起隨機播放，以根據兩種模態訓練RNN-T模型。每一文字輸入使用在RNN-T之輸出建模的相同語素集進行分裂。本發明之一或多個實施例對每一符號使用4訊框持續時間，並隨機遮罩25%的輸入，以防止模型過度擬合文字輸入。與語音表達相似，與文字表達相對應的文字圖特徵最終附加有空語音特徵。使用最佳化器在20個時刻內訓練RNN-T模型。一旦經訓練，本發明之一或多個實施例根據常用的語音測試集量測此基本ASR模型的有效性。該模型根據此等測試集具有極其競爭力的單詞錯誤率(WER)，介於6.2%與10.5%之間。

開發SLU模型

在下述實驗中，本發明之一或多個實施例適應預先訓練ASR模型以在各種設定下構建SLU模型。本發明之一或多個實施例使用三個SLU資料集進行實驗。

對服務資料集的對話方塊動作辨識。在第一組實驗中，本發明之一或多個實施例將基線ASR模型適應於服務語料庫。該資料集係具有模擬使用者與代理之間簡單消費者互動的語音對話方塊的公共域語料庫。59位獨特的演講者之間存在1,446個人與人交談。本發明之一或多個實施例側重於本工作中之對話方塊動作預測任務。在此任務中，目標係預測每一表達的16個可能對話方塊動作中之一或多者。訓練集含有1174個交談(10小時音訊，15K文字轉錄本)，且測試集具有199個交談(1.8小時音訊)。如較早所描述，一旦構造初始SLU模型，用特定於域的SLU資料適應模型。

圖3中所展示之表301展示對此資料集的各種實驗及結果。在第一實驗中，本發明之一或多個實施例藉助用SLU標籤註釋的純文字資料來訓練SLU模型。將文字資料轉換為文字圖特徵，且然後用於適應SLU RNN-T之預測及聯合網路。此純文字適應產生以45.05 F1分數表現的模型。接下來，僅使用不同數量的語音資料，本發明之一或多個實施例適應RNN-T模型(包括轉錄網路組件)以展示效能自47.88 F1(在10%的語音資料的情況下)改良至53.57 F1(在所有可用的語音訓練資料的情況下)。最後，本發明之一或多個實施例使用不同數量的語音資料連同所有文字資料來適應RNN-T模型，獲得實現F1分數為53.84或更佳的模型。

本發明之一或多個實施例可基於此等結果進行多個觀察。首先，在完全無語音資料的情況下，該模型能夠以接近82%的全語音效能(53.57 F1分數)處理SLU測試集。此等結果證明目前提出的方法在僅使用文字資料構造SLU模型方面的有用性。其次，若使用所有文字資料，則僅需要少量語音資料來訓練強SLU模型。在10%的語音資料的情況下，添加文字資料將模型效能改良至53.84 F1，此處於全語音的效能的98%(53.57 F1分數)。此結果展示，雖然文字資料提供資訊以學習SLU目標(45.05 F1)，但此新域的聲學穩健性來自語音訓練(53.84 F1)。最後，隨著語音資料量的增加，本發明之一或多個實施例看到極其適度的改良，因為模型已學習自文字輸入處理SLU目標並適應於新域之聲學條件。

對呼叫中心資料的意圖辨識。第二資料集基於內部資料集合，該內部資料集合由客戶的描述其呼叫原因的開放式第一表達的呼叫中心記錄組成。8kHz電話語音資料係手動轉錄的，並用29個意圖類中之一者進行標記。語料庫含有來自客戶的真實、自發的表達，而非眾包的執行指令或角色扮演資料，且其包括客戶自然地描述其意圖的各種方式。訓練資料由19.5小時(22K個表達)的語音組成，最初分為17.5小時的訓練集及2小時的保留集。含有5592個句子(5h，40K單詞)的分開之資料集用作最終測試集[8]。此任務僅含有意圖標籤，且不具有任何帶標籤的語義實體。

圖3中所展示的表302展示在此資料集上訓練用於意圖辨識的SLU模型的結果。在僅純文字訓練的情況下，模型實現76.97%的意圖辨識準確率，此約為語音SLU資料全效能的86%(89.06%的意圖辨識)，相似於先前對上文所描述之服務資料集的實驗。在額外10%的語音資料的情況下，模型效能上升至88.34%，此為語音之全效能的99%。隨著語音資料量的增加，儘管本發明之一或多個實施例觀察到輕微的改良，模型顯然能夠以極其有限數量的轉錄資料及大量純文字SLU資料而學習關於SLU域以及新的狀況。此等結果清楚地展示當前方法在許多實際SLU設定中的益處，其中存在大量純文字訓練資料，及有限或幾乎沒有語音訓練資料。藉助本方法，SLU系統僅用純文字資料有效地啟動，且然後以極其有限的語音資料量改良至接近全效能。此有助於在資料收集及如同TTS系統等額外資源方面顯著降低構建基於語音的E2E SLU系統的成本額外負荷。

C.根據記錄資料的實體及意圖辨識。在本發明之一或多個實施例的一組實驗中使用記錄的資料訓練及測試集：來自記錄資料的893個測試表達中的來自A類(上下文無關)訓練資料的4976個訓練表達。測試表達包含來自55個演講者的約1.5小時的音訊。資料最初以16kHz收集，但經降低取樣至8kHz以匹配基本記錄模型。記錄的資料包括實體(插槽填充)及意圖辨識兩者。與先前的實驗相似，本發明之一或多個實施例首先對記錄的資料語料庫進行意圖辨識實驗。

圖3中之表303展示根據記錄的資料語料庫訓練的各種SLU系統的意圖辨識結果。與先前結果相似，純文字模型能夠在93%的全語音效能下表現相對較好(90.59%對96.42%的意圖辨識準確率)。儘管添加 10%的語音資料改良效能，但本發明之一或多個實施例僅用50%的額外語音資料實現幾乎99%的全效能。本發明之一或多個實施例假設此係因為重新測試集在演講者覆蓋率方面與其他測試集相比變化很大，且因此需要更多特定於域的語音資料。無論如何，該模型能夠僅用可用文字資料來瞭解SLU域及SLU目標。

在下一組實驗(參見圖3中之表304)中，本發明之一或多個實施例使用記錄的資料語料庫來量測本方法對實體辨識的有效性。與先前意圖辨識實驗相似，亦在此狀況下，SLU模型能夠學習純文字資料以及文字與語音資料的混合。根據具有SLU標籤的純文字資料訓練的SLU模型實現85.95%的F1分數。此係90.01 F1分數之語音資料的全效能的95%。添加10%的語音資料將此改良至91.07 F1分數，此甚至優於根據所有語音資料訓練的模型。鑒於此結果，本發明之一或多個實施例添加速度及節奏資料擴充，從而導致額外訓練資料副本。雖然僅語音結果顯著改良，但本發明之一或多個實施例仍清楚地看到添加純文字資料的額外益處。如較早所提及，多模態語音及文字訓練允許模型自資料集學習SLU目標以及新穎聲學可變性兩者。雖然來自純文字資料的資訊對於傳送SLU知識極其有用，但模型亦需要係聲學穩健。為此，在目前呈現的訓練框架內，僅需要極其少量的語音資料。

對於本文中所描述之實驗中之一或多者，RNN-T模型使用多個圖形處理單元(GPU)在多個時間時刻內進行訓練。與基本ASR模型訓練相似，最大學習速率經設定為2e-4，且採用策略，該策略具有在前6個時刻內自2e-5至2e-4的線性預熱階段，後續接著剩餘14個時刻內至0的線性退火階段。本發明之一或多個實施例使用128個表達的有效批量大小。批量係由相似長度的特徵序列構造，而不考慮特徵係梅爾頻譜圖還是文字圖。

如本文中所描述，本發明之一或多個實施例證明瞭一種新方法的功效，該方法減輕對註釋語音訓練資料構建SLU系統的需要。使用新穎的訊框級文字表示，本發明之一或多個實施例首先預先訓練ASR模型，該ASR模型可處理語音資料及文字資料兩者。在純文字SLU資料及極其有限的語音量的情況下，此等模型進一步適應於各種SLU任務。此等SLU模型以相當位準表現為根據全註釋語音SLU資料集構建的相似系統。用純文字訓練，本發明之一或多個實施例藉由全語音訓練實現高達90%的效能。在僅額外10%的語音資料的情況下，此等模型顯著改良97%之全效能。

現在參考圖4，描繪由本發明之一或多個實施例利用及/或實施的例示性系統及網路的方塊圖。應注意，一些或全部例示性架構(包括所描繪的硬體及軟體兩者，展示用於電腦401且在電腦401內)被圖4中所展示之機器學習系統423及/或軟體部署伺服器449及/或語音資料伺服器451，及/或其他圖中所描繪的與本發明之一或多個實施例相關聯的其他處理裝置使用。

例示性電腦401包括耦接至系統匯流排405之處理器403。處理器403可利用一或多個處理器，其中每一者具有一或多個處理器核心。視訊配接器407，其驅動/支援顯示器409，亦耦接至系統匯流排405。系統匯流排405經由匯流排橋接器411耦接至輸入/輸出(I/O)匯流排413。I/O介面415耦接至I/O匯流排413。I/O介面415提供與各種I/O裝置的通信，包括鍵盤417、滑鼠419、媒體匣421(其可包括諸如CD-ROM驅動器、多媒體介面等的儲存裝置)及外部USB埠425。雖然連接至I/O介面415之埠的格式可為熟習此項技術者已知的任何格式，但在一個實施例中，此等埠中之一些或全部係通用串行匯流排(USB)埠。

如所描繪，電腦401能夠使用網路介面429與網路427通信。網路介面429係硬體網路介面，諸如網路介面卡(NIC)等。網路427可為諸如網際網路的外部網路，或諸如乙太網或虛擬專用網路(VPN)的內部網路。

硬碟機介面431亦耦接至系統匯流排405。硬碟機介面431與硬碟機433介接。在一個實施例中，硬碟機433填充系統記憶體435，其亦耦接至系統匯流排405。系統記憶體經定義為電腦401中最低級別的揮發性記憶體。此揮發性記憶體包括額外更高階的揮發性記憶體(未展示)，包括但不限於快取記憶體、暫存器及緩衝器。填充系統記憶體435之資料包括電腦401之作業系統(OS)437及應用程式443。

OS 437包括殼層439，用於提供對諸如應用程式443的資源的透明使用者存取。通常，殼層439係一程式，其提供解譯器及使用者與作業系統之間的介面。更具體而言，殼層439執行輸入至命令行使用者介面中或來自檔案的命令。因此，殼層439，亦稱為命令處理器，通常係作業系統軟體階層的最高層級，並用作命令解譯器。該殼層提供系統提示，解譯由鍵盤、滑鼠或其他使用者輸入媒體輸入的命令，並將解譯命令發送至作業系統之適當較低層級(例如，核心441)進行處理。應注意，雖然殼層439係基於文字的、行導向使用者介面，但本發明之一或多個實施例將同樣很好地支援其他使用者介面模式，諸如圖形、語音、示意動作等。

如所描繪，OS 437亦包括核心441，其包括OS 437的較低層級的功能性，包括提供OS 437及應用程式443的其他部分所需的基本服務，包括記憶體管理、程序及任務管理、磁碟管理以及滑鼠及鍵盤管理。

應用程式443包括轉譯器(renderer)，以例示性方式展示為瀏覽器445。瀏覽器445包括程式模組及指令，使得全球資訊網(WWW)用戶端(亦即，電腦401)能夠使用超文字傳送協定(HTTP)訊息傳遞向網際網路發送及接收網路消息，因此實現與部署伺服器449的軟體、不受信任的遠程伺服器451及其他電腦系統進行通信。

電腦401之系統記憶體中之應用程式443亦包括用於訓練ASR系統之程式(PTASRS)447。PTASRS 447包括用於實施下文所描述之程序，包括圖3至圖7中所描述之彼等程序。在本發明之一或多個實施例中，電腦401能夠自軟體部署伺服器449下載PTASRS 447，包括在隨選基礎中，其中PTASRS 447中之程式碼未下載直至需要執行。進一步注意，在本發明之一或多個實施例中，軟體部署伺服器449執行與本發明相關聯之所有功能(包括執行PTASRS 447)，從而將電腦401自必須使用其自己內部運算資源來執行PTASRS 447。

語音資料伺服器451係向圖1中所展示的RNN-T傳感器ASR模型100提供語音資料(例如，圖1中所展示的x _t及/或yu-1)的伺服器。

應注意，電腦401中所描繪之硬體元件並不旨在為窮盡性，而是係表示突出本發明之一或多個實施例所需的基本組件。例如，電腦401可包括替代記憶體儲存裝置，諸如磁性卡匣、數位多功能磁碟(DVD)、伯努利卡匣及其類似物。此等及其他變化旨在在本發明之精神及範疇內。

在本發明之一或多個實施例中，且如本文中所描述，呈循環神經網路形式的人工智慧(例如，用於產生RNN-T傳感器ASR模型100的RNN-T傳感器，如在圖1中所展示)用於理解口語語言。

顧名思義，神經網路大致係按照生物神經網路(例如，人腦)建模。生物神經網路由一系列相互連接的神經元組成，該等神經元相互影響。舉例而言，第一神經元可藉由突觸藉助由第二神經元接收的神經傳遞物質(來自第一神經元)的釋放而電連接至第二神經元。此等神經傳遞物質可致使第二神經元變得興奮或受抑制。興奮/抑制的相互連接的神經元的模式最終導致生物學結果，包括思想，肌肉運動，記憶體檢索等。雖然此對生物神經網路的描述係高度簡化的，但高層級概述係一或多個生物神經元影響一或多個其他生物電連接的生物神經元的操作。

電子神經網路相似地由電子神經元組成。然而，與生物神經元不同，某些電子神經網路中之電子神經元在技術上從來並非「抑制性的」，而僅在不同程度上係「興奮性的」。然而，在其他電子神經網路中，電子神經元能夠產生抑制信號，此降低後續神經元產生正輸出的能力。

現在參考圖5，在本發明之一或多個實施例中使用的一種類型的神經網路係深度神經網路(DNN)，諸如所描繪的深度神經網路(DNN)523(類似於圖4中所展示的機器學習系統423)，如在圖5中所展示。

在本發明之一或多個實施例中，在產生ASR模型506時，在本發明之一或多個實施例中使用DNN 523。

在深度神經網路(DNN)中，神經元經配置成層，稱為輸入層、隱藏層及輸出層。輸入層包括接收輸入資料並將其發送至一系列隱藏層神經元的神經元/節點，其中來自隱藏層中一層的神經元與隱藏層中下一層中之神經元相互連接。然後，隱藏層中之最後層將運算結果輸出至輸出層，輸出層通常係用於保存向量資訊的單個節點。

現在進一步參考圖5，DNN 523用於基於頻譜圖502及文字圖504之輸入來產生ASR模型506(上文論述)。此外，藉由使用頻譜圖502及文字圖504之各種已知例項，且然後調整節點以產生已知ASR模型506，訓練DNN 523以產生已知ASR模型506。

如在圖5中所展示，DNN 523中之電子神經元經配置成層，稱為輸入層503、隱藏層505及輸出層507。輸入層503包括接收輸入資料並將其發送至一系列隱藏層神經元(例如，隱藏層505)的神經元/節點，其中來自隱藏層中一個層的神經元與隱藏層505中之下一層中之神經元相互連接。隱藏層505中之最後層隨後向輸出層507輸出運算結果，其通常係用於保存描述輸出向量515之向量資訊的單個節點(例如，ASR模型506)。在本發明之實施例中，輸出層507中之每一神經元與特定輸出向量515相關聯。

如剛提及，所描繪DNN 523中之每一節點表示電子神經元，諸如所描繪神經元509。每一節點可為處理單元(例如，微處理器，電腦等)，另一DNN，卷積神經網路(CNN)，循環神經網路(RNN)，量子電腦等。如在區塊511中所展示，每一神經元(包括例示性神經元509)包括至少四個特徵：數學函數、輸出值、權重及偏差值。

數學函數係用於處理來自一或多個上游神經元之資料的數學公式。舉例而言，假設在中間隱藏層505中所描述之神經元中之一或多者向神經元509發送資料值。神經元509然後藉由執行區塊511中所展示之數學函數來處理此等資料值，以便創建一或多個輸出值，然後將其發送至另一神經元，諸如隱藏層505內之另一神經元或輸出層507中之神經元。每一神經元亦具有特定於彼神經元及/或其他連接神經元的權重。此外，輸出值經添加至偏差值，其增加或減少輸出值，從而允許DNN 511進一步「微調」。

舉例而言，假設神經元513正在將其對一段資料的分析結果發送至神經元509。神經元509具有第一權重，其定義具體地來自神經元513的資料的重要性。若資料係重要的，則來自神經元513之資料經重加權，及/或增加偏差值，因此致使神經元509內之數學函數產生更高輸出，此將對輸出層507中之神經元產生更重影響。相似地，若神經元513已經判定為對神經元509之操作顯著，則神經元513中之權重將增加，使得神經元509接收用於神經元513中之數學函數之輸出的更高值。

替代地，神經元509之輸出可藉由減小用於影響神經元509之輸出的權重及/或偏差來最小化。此等權重/偏差可針對DNN 523中之神經元中之一者、一些或全部進行調整，使得可靠輸出將自輸出層507產生。替代地，手動或自動執行此類調整。

當手動調整時，權重及/或偏差由使用者以重複方式進行調整，直至來自輸出層507之輸出與預期相匹配。舉例而言，假設正在訓練DNN 523以產生特定ASR模型506。如此，當輸入層503接收來自已知頻譜圖502及/或文字圖504之輸入時，則DNN 523(若藉由手動調整DNN 523內之電子神經元中之一或多者的數學函數、輸出值、權重及偏差來恰當訓練)將正確輸出向量515輸出至輸出層507。

當自動調整時，權重(及/或數學函數)使用「反向傳播」進行調整，其中神經元之權重值藉由使用「梯度下降」方法進行調整，該方法判定每一權重值應調整至哪個方向。

現在參考圖6，例示性循環神經網路(RNN)623，其使用一種反向傳播形式，用於在本發明之一或多個實施例中產生對抗物件向量。

如在圖6中所展示，輸入資料集601係一系列頂點向量(例如，如在圖5中所展示之頻譜圖502及/或文字圖504)，描繪為v1、v2…vn。輸入資料集601經輸入至RNN 623之輸入層中，其將資料自輸入資料集601傳遞至輸入層603，且然後傳遞至隱藏層605進行處理。如名稱循環神經網路推斷，來自電流向量之隱藏層605之輸出(例如，f(v ₁ ))經回饋至輸入層603，使得當前向量之當前輸出f(v ₁ )與下一輸入向量(例如，v ₂)組合，以由隱藏層605創建新輸出(例如，f(v ₁+v ₂ ))。此程序重複直至來自輸入資料集601之所有向量及其先驅處理結果經處理，從而導致輸出至輸出層607，展示為f ^{output layer} (v ₁ ,v ₂ ...v _n )。

因此，圖6表示圖1中所展示的RNN-T傳感器ASR模型100之基本架構，其中輸出P(y|t,u)經回饋至編碼器網路101及/或預測網路103中，以便進一步微調RNN-T傳感器ASR模型100。

現在參考圖7，呈現用於使用語音資料及文字資料來訓練自動語音辨識系統的在本發明之一或多個實施例中執行的一或多個操作的高階流程圖。

在啟動區塊701之後，運算裝置(例如，圖4中所展示之電腦401)接收語音資料(例如，語音之音訊檔案)，如在區塊703中所描述。

如在區塊705中所描述，運算裝置基於語音資料而產生頻譜圖。

如在區塊707中所描述，運算裝置接收與完整文字資料語料庫相關聯之文字資料。

如在區塊709中所描述，運算裝置基於文字資料而產生文字圖，如在圖2中所說明。

如在區塊711中所描述，運算裝置使用頻譜圖及文字圖來訓練自動語音辨識系統(例如，圖6中所展示之RNN 623)。

流程圖在終止區塊713處結束。

在本發明之一或多個實施例中，該方法進一步包含藉由運算裝置僅使用文字資料而無需對應頻譜圖來使自動語音辨識(ASR)模型適應於口語語言理解(SLU)模型；及藉由運算裝置利用口語語言理解模型來解譯語音資料。亦即，(語音)的基本模型可與新域(由新客戶端帶來)不同，且需要進行適應。如此，在本發明之一或多個實施例中，ASR模型藉由使用無對應語音的純文字資料(帶有SLU標籤的轉錄本)適應於SLU模型。

在本發明之一或多個實施例中，其中圖7中引用的語音資料係第一語音資料，該方法進一步包含藉由運算裝置用與第一語音資料不同的第二語音資料修改自動語音辨識模型。亦即，一旦創建圖1中所展示之第一RNN-T傳感器ASR模型100，即根據其他語音樣本之不同輸入x _t及y _u-1對其進一步修改。

在本發明之一或多個實施例中，其中語音資料係第一語音資料，且該方法進一步包含藉由運算裝置用來自第二語音資料之文字資料修改自動語音辨識模型，該第二語音資料與第一語音資料不同。亦即，一旦創建圖1中所展示之第一RNN-T傳感器ASR模型100，即根據來自其他語音樣本由RNN-T系統產生的不同文字資料對其進行修改。

在本發明之一或多個實施例，其中語音資料呈第一語音語言之形式，且該方法進一步包含藉由運算裝置用來自第二語音語言之文字資料修改自動語音辨識模型，該第二語音語言不同於第一語音語言。亦即，在本發明之一或多個實施例中，RNN-T傳感器ASR模型100進一步經訓練以辨識外語片語、外語、技術方言等。

在本發明之一或多個實施例中，該方法進一步包含藉由運算裝置，基於語音資料修改文字圖以創建修改文字圖，及進一步藉由運算裝置使用頻譜圖及經修改文字圖來訓練自動語音辨識系統。亦即，對於其他語音實例，藉由使用不同的輸入x _t及y _u-1來修改基於原始語音資料之文字資料產生的文字圖。此允許系統辨識各種語音樣本。

應事先理解，儘管本揭示內容包括關於雲端運算的詳細描述，但本文中所敍述之教示內容的實施方案不限於雲端運算環境。相反，本發明之實施例能夠結合現在已知或以後開發之任何其他類型之運算環境來實施。

雲端運算係一種服務遞送模型，用於實現對可組態運算資源(例如，網路、網路帶寬、伺服器、處理、記憶體、儲存器、應用程式、虛擬機器及服務)的共用池的便捷、隨選網路存取，可組態運算資源可藉助最少的管理工作或與服務提供商的互動來快速佈建及發佈。此雲端模型包括至少五個特性、至少三個服務模型及至少四個部署模型。

特性如下：

隨選自助服務：雲端消費者可根據需要自動單方面佈建運算能力，諸如伺服器時間及網路儲存，而無需與服務提供商進行人工互動。

廣泛的網路存取：功能可經由網路獲得，並藉由促進異質瘦用戶端或胖用戶端平台(例如，行動電話、膝上型電腦及PDA)使用的標準機制進行存取。

資源池化：提供商之運算資源使用多租戶模型進行池化以為多個消費者提供服務，其中根據需求動態指派及重新指派不同的實體及虛擬資源。存在位置獨立感，此係因為消費者通常無法控制或瞭解所提供資源的確切位置，但仍能夠以較高抽象層次(例如，國家、州或資料中心)規定位置。

快速彈性：能力可快速且彈性地佈建(在一些狀況下自動地)以快速擴展及快速釋放以快速縮減。對於消費者而言，可用於佈建的能力通常似乎係無限的，且可隨時以任意數量購買。

量測服務：雲端系統藉由以適合於服務類型(例如，儲存、處理、帶寬及活動使用者帳戶)之某一抽象層次利用計量能力來自動地控制及最佳化資源使用。可監視、控制及報告資源使用狀況，從而為所使用服務之提供商及消費者兩者提供透明度。

軟體即服務(SaaS)：提供給消費者的能力係使用在雲端基本結構上運行之提供商之應用程式。應用程式可藉由諸如網路瀏覽器(例如，基於網路的電子郵件)之瘦用戶端介面自各種用戶端裝置存取。消費者不管理或控制基本雲端基本結構，包括網路、伺服器、作業系統、儲存器，或甚至單個應用程式能力，其中有限的使用者特定應用程式組態設定可能除外。

平台即服務(PaaS)：向消費者提供的能力係將消費者創建或獲取的應用程式部署至雲端基本結構上，該等應用程式使用提供商支援之程式語言及工具創建。消費者不管理或控制包括網路、伺服器、作業系統或儲存器在內的基本雲端基本結構，但可控制部署的應用程式及可能的應用程式託管環境組態。

基本結構即服務(IaaS)：提供給消費者的能力係佈建處理、儲存器、網路及其他基本運算資源，其中消費者能夠部署及運行任意軟體，軟體可包括作業系統及應用程式。消費者不管理或控制基本雲端基本結構，但可控制作業系統、儲存器、部署的應用程式，並可能對選定的網路組件(例如，主機防火牆)進行有限控制。

部署模型如下：

私有雲端：雲端基本結構僅為組織操作。在一或多個實施例中，其由組織或第三方管理及/或存在於內部部署或外部部署。

社區雲端：雲端基本結構由多個組織共用，並支援具有共用關注點(例如，任務、安全要求、策略及順應性考慮)的特定社區。在一或多個實施例中，其由組織或第三方管理及/或存在於內部部署或外部部署。

公共雲端：雲端基本結構可供公眾或大型行業集團使用，並由銷售雲端服務的組織擁有。

混合雲端：雲端基本結構係兩個或多於兩個雲端(私有、社區或公共)的組合，其仍然係唯一的實體，但藉由支持資料及應用程式可攜性的標準化或專利技術(例如，用於雲端之間負載平衡的雲端突發)綁定在一起。

雲端運算環境係服務導向的，重點係無狀態、低耦合、模組化及語義可交互運作性。雲端運算的核心係包含互連節點網路之基本結構。

現在參考圖8，描繪說明性雲端運算環境50。如所展示，雲端運算環境50包含一或多個雲端運算節點10，雲端消費者使用的本地運算裝置(諸如例如個人數位助理(PDA)或蜂巢式電話54A、桌上型電腦54B、膝上型電腦54C，及/或汽車電腦系統54N)可藉助該等雲端運算節點彼此通信。此外，節點10彼此通信。在一個實施例中，此等節點實體地或虛擬地分組(未展示)，在一或多個網路中，諸如如上文所描述之私有、社區、公共或混合雲端，或其組合。此允許雲端運算環境50提供基本結構、平台及/或軟體作為雲端消費者不需要在本地運算裝置上維護資源的服務。應理解，圖8中所展示之運算裝置54A至54N的類型旨在僅為說明性的，且運算節點10及雲端運算環境50可經由任何類型的網路及/或網路可定址連接(例如，使用網路瀏覽器)與任何類型之電腦化裝置通信。

現在參考圖9，展示由雲端運算環境50(圖8)提供的一組功能抽象層。應預先理解，圖9中所展示之組件、層及功能旨在僅為說明，且本發明之實施例不限於此。如所描繪，提供以下層及對應功能：硬體及軟體層60包括硬體及軟體組件。硬體組件之實例包括：大型主機61；基於RISC(精簡指令集電腦)架構之伺服器62；伺服器63；刀鋒型伺服器64；儲存裝置65；及網路及網路組件66。在一些實施例中，軟體組件包括網路應用程式伺服器軟體67及資料庫軟體68。

虛擬化層70提供抽象層，自該抽象層在一或多個實施例中提供虛擬實體之以下實例：虛擬伺服器71；虛擬儲存器72；虛擬網路73，包括虛擬專用網路；虛擬應用程式及作業系統74；及虛擬用戶端 75。

在一個實例中，管理層80提供下文所描述之功能。資源佈建81提供運算資源及用於在雲端運算環境內執行任務的其他資源的動態採購。計量及定價82在雲端運算環境內利用資源時提供成本追蹤，並為此等資源的消耗開具賬單或開具發票。在一個實例中，此等資源包含應用程式軟體執照。安全性為雲端消費者及任務提供身分驗證，以及對資料及其他資源的保護。使用者入口83為消費者及系統管理員提供對雲端運算環境的存取。服務等級管理84提供雲端運算資源分配及管理，使得滿足所需的服務等級。服務等級協定(SLA)規劃及履行85為根據SLA預計未來需求的雲端運算資源提供預先配置及採購。

工作負載層90在一或多個實施例中提供利用雲端運算環境的功能性之實例。自此層提供之工作負載及功能之實例包括：地圖及導航91；軟體開發及生命週期管理92；虛擬課堂教學遞送93；資料分析處理94；異動處理95；及自動語音辨識處理96，其執行本文中所描述之本發明之特徵中之一或多者。

本文中所使用之術語僅出於描述特定實施例之目的而並非打算限制本發明。如本文中所使用，除非上下文另有明確指示，否則單數形式「一(a)」、「一(an)」及「該(the)」旨在亦包含複數形式。將進一步理解，術語「包含(comprises)」及/或「包含(comprising)」在本說明書中使用時規定所述特徵、整數、步驟、操作、元件及/或組件的存在，但不排除存在或添加一或多個其他特徵、整數、步驟、操作、元件、組件及/或其群組。

下文申請專利範圍中之所有構件或步驟加功能元件的對應結構、材料、動作及等效物旨在包括用於與具體主張其他所主張元件組合執行功能的任何結構、材料或動作。已出於說明及描述的目的呈現對本發明之各種實施例的描述，而非打算為窮盡性的或將本發明限制於所揭示的形式。在不背離本發明之範疇及精神的情況下，熟習此項技術者將顯而易見許多修改方案及變化形式。選擇及闡述該(等)實施例以便最佳地解釋本發明之原理及實際應用，且使其他熟習此項技術者能夠理解本發明，從而得出具有適於所涵蓋之具體用途之各種修改之各種實施例。

本發明可為系統、方法及/或電腦程式產品。電腦程式產品可包括其上具有用於致使處理器實施本發明之態樣的電腦可讀程式指令之(一或多個)電腦可讀儲存媒體。

電腦可讀儲存媒體可為可保留及儲存指令以供指令執行裝置使用的有形裝置。電腦可讀儲存媒體可係例如但不限於電子儲存裝置、磁儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前述之任何合適的組合。電腦可讀儲存媒體之更多具體實例之非窮舉清單包括以下：可攜式電腦磁碟、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、可攜式光碟唯讀記憶體(CD-ROM)、數位通用磁碟(DVD)、記憶體棒、軟碟、機械編碼裝置(諸如其上記錄有指令的打孔卡或在槽中的凸起結構)，以及上述之任何合適的組合。如本文中所使用之電腦可讀儲存媒體本身不應被解釋為暫時性信號，諸如無線電波或其他自由傳播之電磁波、藉由波導或其他傳輸媒體傳播之電磁波(例如，藉由光纖纜線傳送之光脈衝)或藉由電線傳輸之電信號。

本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別運算/處理裝置，或經由網路(例如網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸電纜、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、網關電腦及/或邊緣伺服器。在每一運算/處理裝置中之網路配接器卡或網路介面自網路接收電腦可讀程式指令並轉發電腦可讀程式指令用於儲存在各別運算/處理裝置內之電腦可讀儲存媒體中。

用於實施本發明之操作的電腦可讀程式指令可係組譯器指令、指令集架構(ISA)指令、機器指令、機器相關指令、微碼、韌體指令、狀態設定資料，或以一或多種程式化語言的任何組合編寫的原始程式碼或物件程式碼，包括物件導向程式化語言(諸如Java、Smalltalk、C++或類似物)以及習用程序程式化語言(諸如「C」程式化語言或相似的程式化語言)。電腦可讀程式指令可完全在使用者電腦上、部分在使用者電腦上、作為獨立軟體套件、部分在使用者電腦上及部分在遠端電腦上或完全在遠端電腦或伺服器上執行。在後一情形中，遠端電腦可經由包括區域網路(LAN)或廣域網路(WAN)的任何類型的網路連接至使用者之電腦或可連接至外部電腦(舉例而言，藉由使用網際網路服務提供商的網際網路)。在一些實施例中，包括例如可程式化邏輯電路系統、現場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA)之電子電路系統可藉由利用電腦可讀程序指令之狀態資訊來執行電腦可讀程式指令以個性化電子電路系統，以便執行本發明之態樣。

本文中參考根據本發明之實施例的方法、設備(系統)及電腦程式產品的流程圖說明及/或方塊圖描述本發明之各態樣。將理解，流程圖說明及/或方塊圖之每一區塊以及在流程圖說明及/或方塊圖中之區塊的組合可藉由電腦可讀程式指令實施。

此等電腦可讀程式指令可被提供至一通用電腦、專用電腦或其他可程式化資料處理設備之一處理器，以產生一機器，以使得該等指令(其經由電腦或其他可程式化資料處理設備之處理器執行)形成用於實施該(等)流程圖及/或方塊圖方塊中所規定之功能/動作之手段。該等電腦可讀程式指令亦可儲存在可指示電腦、可程式化資料處理設備及/或其他裝置從而以特定方式操作的電腦可讀儲存媒體中，使得在其中儲存有指令之電腦可讀儲存媒體包含包括在流程圖及/或方塊圖區塊(或多個區塊)中規定的功能/行為的各態樣的指令的製造物件。

電腦可讀程式指令亦可加載至電腦、其他可程式化資料處理設備或其他裝置上，以致使對電腦、其他可程式化設備或其他裝置執行一系列操作步驟以產生電腦實施過程，使得在電腦、其他可程式化設備或其他裝置上執行的指令實施在流程圖及/或方塊圖區塊(或多個區塊)中規定的功能/動作。

因此已詳細且藉由參考其說明性實施例描述本申請案之本發明實施例，將顯而易見，修改方案及變化形式在不偏離所附申請專利範圍中界定之本發明之範疇的情況下係可能的。