TWM644870U

TWM644870U - 對話式語音辨識系統

Info

Publication number: TWM644870U
Application number: TW112202324U
Authority: TW
Inventors: 郭世展; 鄭俊彥; 陳瑞河; 林其翰; 林仙琪; 許安廷
Original assignee: 玉山商業銀行股份有限公司
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-08-11

Abstract

一種對話式語音辨識系統，系統設有伺服器，其中執行對話式語音辨識方法，系統先自資料庫或是即時進線取得語音數據，語音數據為單音軌語音數據或是多音軌語音數據，為多人對話建立的語音檔案，對語音數據中多位語者進行語音辨識，必要時可進行語者分離，從中識別出其中的多位語者。針對多位語者個別的語音數據，以語音轉文字技術轉換出對應各語者的對話式文字，再根據語者分離結果，或是根據多音軌語音數據中已經分離的多位語者，辨識出各語者對應的對話式文字，最後可自動標註標點符號，還可針對對話式文字進行分詞與/或分段。

Description

對話式語音辨識系統

說明書公開一種處理對話式語音的技術，特別是一種針對多位語者形成的對話式語音數據進行語音辨識的系統。

在機構提供客戶服務的通話中，機構為了要評估客服中心的效能以及保留各種爭議通話，會告知客戶錄音將被錄音，並在執行通話中進行錄音。

一般來說，錄製的語音是多方對話式的，並視需要進行語音辨識，並且在對話式情境下應獲得多語者的語音辨識結果，但是如果相關錄音檔案來自多個不同的錄音系統與環境，或是環境相對複雜，則增加語音辨識的困難度。

為了針對對話式情境下產生的多語者的語音數據進行文字辨識，特別是還可產生對話式的文字，揭露書提出一種對話式語音辨識系統。

對話式語音辨識系統提出一伺服器，具有相互電性連接的處理器與記憶體，記憶體儲存複數指令，處理單元電性連接記憶體，處理單元根據該些指令實現對話式語音辨識系統中處理語音數據的功能，並通過網路服務終端使用者，其中處理單元執行對話式語音辨識方法，先自一資料庫或是通過網路即時進線取得語音數據，語音數據可為一單音軌語音數據或是一多音軌語音數據，並可以是錄製多人對話建立的語音檔案。

優選地，所述對話式語音辨識系統可運作在一客服中心，客服中心錄製每個通過網路（可為網際網路或公眾電話網路）與伺服器端的語音交換機進線與客服人員對話的語音。

優選地，所述語音數據可為單音軌語音數據或是多音軌語音數據，為錄製多人對話建立的一語音檔案。

進一步地，所述資料庫儲存語音檔案以及相關記錄檔，以能隨時取得語音檔案在各階段處理的最新狀態，並根據記錄檔查詢得出語音檔案的處理進度。

針對多音軌語音數據，接著對語音數據中多位語者進行語音辨識，包括以語音轉文字技術轉換出對應各語者的對話式文字，並在需要時進行語者分離。其中，經判斷語音數據與其文本的態樣，若為單音軌語音數據，即進行語者分離，從中識別出其中的多位語者；反之，可直接得出不同語者的對話式文字。之後針對單音軌語音數據中多位語者個別的對話式文字經語者分離得出各語者對應的對話式文字，或是對多音軌語音數據可直接得出各語者對應的對話式文字，再進行後續對話文字的整合。

在一實施方案中，伺服器通過應用程式介面取得語音數據，通過以處理單元運行的語音辨識單元，對此語音數據進行語音辨識，相關流程包括轉換語音檔案的音檔格式、判斷音軌數量，再進行語音辨識的步驟。

進一步地，伺服器還還可執行一流量處理程序，利用佇列資料結構排列與分配每個語音進線的線路，以依序地進入伺服器的處理單元的多個平行化運算單元中。

進一步地，經判斷語音數據的音軌數量得出單音軌語音數據，即運用一語者音軌分離模型，從中得出多位語者，以取得不同語者個別的語音數據；當取得各語者的對話式文字，可運用一對話整合元件標點符號模型自動標註標點符號，還可對對話式文字進行分詞與/或分段。

進一步地，經得出語音數據中的多位語者，可通過電腦程序給予不同語者不同的識別符，以各語者各自的識別符連結以語音轉文字得出對應各語者的對話式文字。

為使能更進一步瞭解本新型的特徵及技術內容，請參閱以下有關本新型的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本新型加以限制。

以下是通過特定的具體實施例來說明本創作的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本創作的優點與效果。本創作可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不悖離本創作的構思下進行各種修改與變更。另外，本創作的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本創作的相關技術內容，但所公開的內容並非用以限制本創作的保護範圍。

應當可以理解的是，雖然本文中可能會使用到“第一”、“第二”、“第三”等術語來描述各種元件或者信號，但這些元件或者信號不應受這些術語的限制。這些術語主要是用以區分一元件與另一元件，或者一信號與另一信號。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

揭露書公開一種對話式語音辨識系統，所提出的對話式語音辨識系統支援多種輸入的音檔格式，並能根據單音軌與雙音軌音檔提供適應式的解決方案，主要目的之一是能得出一個對話情境下多語者個別的對話式文字稿。

根據系統實施例，可參考圖1所示對話式語音辨識系統的架構實施例示意圖，其中顯示系統所提出的伺服器110，可以電腦系統實現，通過伺服器110的處理單元111與記憶體112等數據處理能力實現各種處理語音數據的功能模組，並可通過網路10服務終端使用者。圖中顯示伺服器110中處理單元111電性連接記憶體112，記憶體112儲存複數指令，處理單元111根據該些指令實現對話式語音辨識中處理語音數據的功能，並由處理單元111與記憶體112等電路元件以及電腦系統中軟體實現所連接的各種功能元件，圖例顯示有語音辨識單元113、語者分離單元115與文字整合單元117。

舉例來說，對話式語音辨識系統可設置在一個客服中心，客服中心錄製每通客戶以使用者端裝置101或103通過網路10（可以是網際網路（Internet）或是公眾電話網路（PSTN））經過伺服器端的語音交換機105進線與客服人員對話的語音，利用電腦系統的處理單元111與記憶體112等電路元件實現的軟體方法處理後形成的語音檔案形式儲存在資料庫130中，其中由一儲存裝置配合資料庫技術實現資料庫130，資料庫130連接伺服器110，儲存與提供相關語音檔案。在此一提的是，揭露書所提出的對話式語音辨識系統可運用在各種提供客戶進線的客服通話，或是各種對話形式的實體服務上，包括詢問資訊、申請服務與各種服務需求上，也可以是機構外撥的確認通話，例如購買商品的確認、電話行銷等用途上。

根據對話式語音辨識系統的實施例，在伺服器110中，經一應用程式介面（application programming interface，API）取得語音數據，通過以處理單元111運行的語音辨識單元113，對語音數據進行語音辨識，目的是轉換為文字，並提供轉換語音檔案的音檔格式的功能，以能適用各種音檔格式的語音數據，判斷形成語音數據的音軌數量（單音軌、雙音軌或稱多音軌），以及進行語音辨識的步驟。

根據實施例，以軟體手段實現的語音辨識單元113執行音檔格式轉換、音軌數量判斷與語音辨識，並採用特定語音辨識模型，執行取樣、對話辨識與文字化，最終將得出音訊資訊，包括得出語音檔案音訊格式，取得音訊取樣率（sampling rate）、音訊格式（mp3, wav, vox等），以及音軌數量（channel）。

進一步地，在判斷語音數據的音軌數量後，可根據音軌數量決定轉送語音數據至文字整合單元117與語者分離單元115。其中，若語音數據為單音軌錄製完成，可經判斷語音數據的音軌數量得出為單音軌語音數據，即進行語者分離，從中得出多位語者，再對語音數據中多位語者進行語音辨識。根據實施例，可運用一語者音軌分離模型，如一種SpeechBrain，此類語者音軌分離模型是一個通過深度學習多人語音特徵得出用於處理語音數據的人工智能模型，其中由語音識別（speech recognition）、語者識別（speaker recognition）、語音增強（speech enhancement）、語音分離（speech separation）、語言識別（language identification）、多麥克風訊號處理（multi-microphone signal processing）等軟體功能組成。

根據系統所執行的對話式語音辨識方法的實施例，當判斷語音數據為單音軌語音數據，此時運用語者音軌分離模型，能夠根據語音數據中多語者的聲紋特徵進行語音識別與語者識別，得出語音數據中的多位語者個別的語音數據。之後可通過一電腦程序給予不同語者不同的識別符（identifier），以各語者各自的識別符連結以語音轉文字得出對應各語者的對話式文字。如此，根據單音軌語音數據的語者分離結果，或是原本語音數據已經是以多音軌錄製，已經分離為多位語者，即可繼續辨識多位語者個別的對話式文字。

根據實施例，伺服器110通過文字整合單元117整合出每位語者的文字，當取得各語者的對話式文字，參照語音辨識結果與語者資訊，運用一對話整合元件標點符號模型自動標註標點符號，在逐字稿文字中加入標點符號可將對話式文字進行分詞與/或分段，藉此可提高可讀性。其中對話整合元件標點符號模型如一種基於變換器的雙向編碼器表示技術（bidirectional encoder representations from transformers，BERT），BERT是Google™公司提出的預訓練模型，所述對話式語音辨識方法運用此預先用大量資料訓練過的模型，設定任務與模型規格後，再通過調整文字上標註的標點符號優化與訓練模型，使之成為能用於自動標註標點符號的模型。

圖2顯示利用上述伺服器中的軟體手段實現的對話式語音辨識方法的流程實施例圖。

經接收儲存於資料庫中的語音數據，或是接收即時進線的語音數據（步驟S201），對語音數據中多位語者進行自動語音辨識，包括執行音檔格式轉換、音軌數量判斷與語音辨識，將語音轉文字（步驟S203）。這時，如步驟S205，判斷是否為單音軌，若不是單音軌語音數據（否），表示語音數據為多音軌（如雙音軌）語音數據，已經是語者分離的檔案，可直接取得多位語者的對話式文字；若為單音軌語音數據（是），從中識別出其中的多位語者，即進行語者分離（步驟S207），以能針對多位語者個別的語音數據分離出各語者的對話式文字。

當取得每位語者的對話式文字後，可以自動標註標點符號（步驟S209），另還可針對對話式文字進行分詞與/或分段。根據實施例，透過上述對話整合元件標點符號模型將逐字稿文字加入標點符號，完成後，可以整合同一個語音情境下的多語者的文字檔案，再存檔至系統的資料庫中（步驟S211）。

圖3顯示對話式語音辨識系統的運作流程的實施例示意圖。

在圖中顯示的運作流程中，一開始由使用者發出語音處理的請求，提交語音檔案301，語音檔案301根據錄製方式為單音軌語音數據或是多音軌語音數據。

在語音檔案處理的過程中，若同時接收處理多個語音檔案的請求，伺服器還執行一流量處理程序，可通過流量處理單元303進行流量調節。根據實施方式之一，流量處理單元303可採用一種可處理高吞吐量並具有低延遲特色的kafka系統，另還可選擇Redis、RabbitMQ等方案，針對在資料庫中多筆語音檔案等待處理的情況利用一佇列（queue）資料結構排列與分配每個語音檔案的處理流程（示意如圖中顯示的多個連線箭頭），以依序地進入伺服器中處理單元的多個平行化運算單元中，可藉此提升運算效能與其實用性。

接著，以語音辨識單元305針對每一次語音對話形成的語音數據進行語音辨識，包括轉換語音檔案的音檔格式以及判斷音軌數量等步驟，如此可以得出語音數據為單音軌語音數據或是多音軌語音數據，相關數據檔案32可以即時處理，或是先儲存至資料庫313。經判斷語音數據的音軌數量得出多音軌語音數據31，表示語音數據中以不同音軌錄製不同語者的語音，可以直接通過文字整合單元309整合同一個對話情境下不同語者的對話內容，轉換為對話式的文字輸出，可以資料庫313儲存。若判斷語音數據為單音軌語音數據，即接著通過語音分離單元307進行語者分離，其中可採用以上實施例提出的運用語者音軌分離模型，從中判斷出多位語者，以取得不同語者個別的語音數據，再以文字整合單元309整合同一個對話情境下不同語者的對話內容，得出整合多語者的對話式逐字稿，並以文字形式輸出至資料庫313。

在此一提的是，當系統接收到語音檔案，資料庫313除了儲存每個語音檔案外，還儲存相關記錄檔（log），可據此取得語音檔案在各階段處理的最新狀態，藉此記錄檔可查詢得出語音檔案的處理進度。舉例來說，根據記錄檔可知，若系統處理進度是完成語者分離後就沒有再進行整合對話式文字的話，資料庫313儲存的內容就是經過語音文字化以及語者分離後完成的檔案。

根據實施例之一，所述對話式語音辨識系統可以針對接收到的語音檔案進行處理，將語音檔案經過各階段處理後的最新狀態儲存在資料庫313。對話式語音辨識系統可以定時檢查（如採用etl等定時掃描程式）資料庫313中的語音數據是否已經完成語音辨識、文字化以及整合處理，若有尚未完成對話式語音辨識的語音數據，可以通過重送單元311掃描得出尚未處理的語音數據，重新進入語音處理的程序中。值得一提的是，系統藉由重送單元311可以提高系統的辨識穩定性。

當完成語音檔案的處理後，可得出多位語者中各語者對應的對話式文字，亦可為經過文字整合處理後的檔案，除了可收錄在資料庫313中，或者，系統可通過應用程式介面（API）提供給其他系統。

其中特別的是，輸入至對話式語音辨識系統的語音檔案可以通過流量處理單元303的處理而分配任務流量，再通過語音辨識單元305執行自動語音辨識，包括轉換語音檔案格式、判斷音軌數量，以及轉換語音為文字，可以在後續電路或軟體方法中分別處理單音軌語音數據與雙音軌（或多音軌）語音數據，所述文字整合單元可繼續針對不同語者的建立對話式文字，形成一個整合多語者的對話式文字的檔案。

綜上所述，根據上述實施例所描述的對話式語音辨識系統，所提出的對話式語音辨識系統實現一個平台，可自適應不同音軌數量的音訊輸入，讓不同錄音環境的輸入可共用此對話式語音辨識平台。所述系統可相容各種語音格式，針對每次與音對話，可以將對話語音合併在一個音軌輸入，之後在系統中可以針對多種音訊格式轉換，並依音軌數量拆分語者，為了提升可閱讀性，採用自然語言語意分析與辨識，形成文字檔，還可在對話式文字稿中自動標註標點符號，產出的對話式逐字稿將符合一般人閱讀文字之習慣。如此，根據對話式語音辨識方法實施例，因為可以在多方對話中形成對話式文字稿，可適用各種通過對話提供服務等各類型自然語言分析應用。

以上所公開的內容僅為本新型的優選可行實施例，並非因此侷限本新型的申請專利範圍，所以凡是運用本新型說明書及圖式內容所做的等效技術變化，均包含於本新型的申請專利範圍內。

10:網路 101, 103:使用者端裝置 105:語音交換機 110:伺服器 111:處理單元 112:記憶體 113:語音辨識單元 115:語者分離單元 117:文字整合單元 130:資料庫 301:語音檔案 303:流量處理單元 305:語音辨識單元 307:語音分離單元 309:文字整合單元 311:重送單元 313:資料庫 31:多音軌語音數據 32:數據檔案步驟S201～S211:對話式語音辨識流程

圖1顯示對話式語音辨識系統的架構實施例示意圖；

圖2顯示對話式語音辨識方法的流程實施例圖；以及

圖3顯示對話式語音辨識系統的運作流程實施例示意圖。

10:網路

101,103:使用者端裝置

105:語音交換機

110:伺服器

111:處理單元

112:記憶體

113:語音辨識單元

115:語者分離單元

117:文字整合單元

130:資料庫

Claims

一種對話式語音辨識系統，包括：一伺服器，具有一處理單元與一記憶體，該記憶體儲存複數指令，該處理單元電性連接該記憶體，該處理單元根據該些指令實現該對話式語音辨識系統中處理語音數據的功能，並通過一網路服務終端使用者執行以下步驟，包括：自連接該伺服器的一資料庫或是通過該網路即時進線取得多人對話的一語音數據，其中該語音數據為一單音軌語音數據或是一多音軌語音數據；對該語音數據中多位語者進行語音辨識，包括將語音轉為文字，得出對應各語者的一對話式文字，其中，若為該單音軌語音數據，即進行語者分離，從中識別出其中的該多位語者；以及根據該單音軌語音數據的語者分離結果辨識該多位語者個別的該對話式文字，或是根據該多音軌語音數據中已經分離的該多位語者辨識出各語者對應的對話式文字。
如請求項1所述的對話式語音辨識系統，其中該對話式語音辨識系統設置在一客服中心，該客服中心錄製每個通過該網路與伺服器端的一語音交換機進線與一客服人員對話的語音。
如請求項2所述的對話式語音辨識系統，其中該網路為一網際網路或一公眾電話網路。
如請求項2所述的對話式語音辨識系統，其中該語音數據為該單音軌語音數據或是該多音軌語音數據，為錄製多人對話建立的一語音檔案。
如請求項4所述的對話式語音辨識系統，其中該資料庫儲存該語音檔案以及相關記錄檔，以能取得該語音檔案在各階段處理的最新狀態，並根據該記錄檔查詢得出該語音檔案的處理進度。
如請求項4所述的對話式語音辨識系統，其中該伺服器通過一應用程式介面取得該語音數據，通過以該處理單元對該語音數據進行語音辨識，包括轉換該語音檔案的音檔格式、判斷音軌數量，以及進行語意辨識的步驟。
如請求項2所述的對話式語音辨識系統，其中該伺服器還執行一流量處理程序，利用一佇列資料結構排列與分配每個語音進線的線路，以依序地進入該處理單元的多個平行化運算單元中。
如請求項1至7任一項所述的對話式語音辨識系統，其中，經判斷該語音數據的音軌數量得出該單音軌語音數據，即運用一語者音軌分離模型，從中得出該多位語者，以取得不同語者個別的語音數據。
如請求項8所述的對話式語音辨識系統，其中，當取得各語者的對話式文字，該處理單元自動標註標點符號，得出各語者的對話式文字，並對該對話式文字進行分詞與/或分段。
如請求項8所述的對話式語音辨識系統，其中，經得出該語音數據中的該多位語者，該處理單元給予不同語者不同的識別符，以各語者各自的識別符連結以語音轉文字得出對應各語者的該對話式文字。