TWI715236B

TWI715236B - 語音主題分類之系統與方法

Info

Publication number: TWI715236B
Application number: TW108136054A
Authority: TW
Inventors: 邱志豪
Original assignee: 中華電信股份有限公司
Priority date: 2019-10-04
Filing date: 2019-10-04
Publication date: 2021-01-01
Also published as: TW202115712A

Abstract

一種語音主題分類之系統與方法，係利用主題分類器，依據語音的關鍵詞標籤該語音的主題，並透過使用者回饋模組同意或修改已標籤主題之語音的主題，再由增強式學習模組依據修改之該語音之主題後的整體比例調整或新增該主題分類器，以提高該主題分類器標籤該語音之主題的準確率及效率。

Description

語音主題分類之系統與方法

本發明係有關於分類技術，尤指一種語音主題分類之系統與方法。

目前市面上大部分行動裝置的錄音APP，都會提供使用者設定指定用戶通話錄音的功能，通話結束後將錄音自動儲存至使用者的行動裝置，此方式雖然操作簡易，實際上仍有不少缺點，其中，當使用者需要聽取某段重要的通話內容，必須將一段完整的錄音檔案快進到想聽的部分，過程上非常不便利與浪費時間，而大量的錄音檔案存放在使用者的行動裝置，非常佔據硬體與記憶體資源，往往需購買大容量的記憶卡，才能長時間使用該錄音功能，若要刪除，亦須逐一操作每個檔案，非常不便利。

因此，如何快速且有效地產生錄音之語音的主題以及降低錄音檔占用行動裝置的記憶容量，並提高該語音之主題的準確率及效率，則成為目前的重要課題。

為解決上述問題，本發明提供一種語音主題分類之系統，係包括：具有主題分類模組、使用者回饋模組及增強式學習模組之主題分類單元，其中，該主題分類模組係利用主題分類器，依據語音的至少一個關鍵詞標籤該語音的主題；使用者回饋模組，係用以同意該主題或修改已標籤主題之該語音為新主題，以產生經同意或經修改後的主題準確率；及增強式學習模組，係於對應該主題或該新主題之主題準確率低於門檻值時，依據該主題或該新主題之語音內容的該至少一個關鍵詞與相關關鍵詞，透過該主題分類模組訓練該主題分類器以新增該主題分類器或調整該主題或該新主題之語音所對應之該主題分類器。

於一實施例中，該主題分類模組更包含生成該主題分類器。

於一實施例中，該系統更包括：語音辨識單元，係包含：語音儲存模組，係錄製雙音多頻訊號的語音；以及語音辨識分析模組，係辨識分析該語音以獲得該語音的至少一個關鍵詞。

於一實施例中，該語音辨識分析模組係利用語音辨識技術將該語音經辨識分析後轉換成文字，進而將該文字透過文字分析處理後獲得該語音的至少一個關鍵詞。

於一實施例中，該語音辨識單元更包括：語音網頁模組，係依據該主題或該新主題的語音及其所屬的該雙音多頻訊號之通訊時間與通訊對象，產生語音紀錄資料，並在獲得授權後，傳送該語音紀錄資料。

本發明另提供一種語音主題分類之方法，係包括：利用主題分類器，依據語音的至少一個關鍵詞標籤該語音的主題；同意該主題或修改已標籤主題之該語音為新主題，以產生經同意或經修改後的主題準確率；以及當對應該主題或該新主題之主題準確率低於門檻值時，依據該主題或該新主題之語音內容的該至少一個關鍵詞與相關關鍵詞，透過該主題分類模組訓練該主題分類器以新增該主題分類器或調整該主題或該新主題之語音所對應之該主題分類器。

於一實施例中，該方法更包括：生成該主題分類器。

於一實施例中，該方法更包括：錄製雙音多頻訊號的語音；以及辨識分析該語音以獲得該語音的至少一個關鍵詞。

於一實施例中，提取該語音的關鍵詞係包括：利用語音辨識技術將該語音經辨識分析後轉換成文字；以及該文字透過文字分析處理後獲得該語音的至少一個關鍵詞。

於一實施例中，該方法更包括：依據該主題或該新主題的語音及其所屬的該雙音多頻訊號之通訊時間與通訊對象，產生語音紀錄資料，並在獲得授權後，傳送該語音紀錄資料。

因此，本發明有以下技術優點：

1.使用者於通話中，直接透過通訊終端(通話裝置)之按鍵輸入DTMF偵測進行開始/結束錄音動作(例如，#/*)。

2.可以進行一通電話多段式錄音(section 1、section 2…)。

3.儲存語音之錄音檔時自動形成錄音主題與音檔關聯，方便使用者日後快速查詢。

4.提供使用者修改主題，系統會依據使用者建議自動學習主題分類。

5.語音之錄音檔案儲存於系統之資料庫中，有效節省通訊終端(如手機)的儲存空間。

6.可同時提供行動電話、市話及網路電話多種通訊終端錄音功能。

由上可知，本發明透過語音辨識單元擷取通話中的語音及分析出代表該語音的關鍵詞，接著利用主題分類器的分類內容標籤該語音的主題，並輔以增強式學習模組依據使用者修改該語音之主題後的比例調整或新增該主題分類器，以提高該主題分類器標籤該語音之主題的準確率及效率。

1‧‧‧第一通話裝置

2‧‧‧第二通話裝置

3‧‧‧次世代網路多媒體子系統

4‧‧‧語音辨識單元

5‧‧‧主題分類單元

6‧‧‧資料庫

41‧‧‧流程控制模組

42‧‧‧語音訊號偵測模組

43‧‧‧語音儲存模組

44‧‧‧語音辨識分析模組

45‧‧‧語音網頁模組

51‧‧‧主題分類模組

52‧‧‧使用者回饋模組

53‧‧‧增強式學習模組

100‧‧‧語音主題分類之系統

S1~S5,S21~S24,S(1)~S(10)‧‧‧步驟

第1圖係本發明之語音主題分類之系統之架構圖；第2圖係本發明之網頁介面之示意圖；第3圖係本發明之主題分類器之示意圖；第4圖係本發明之客製化主題分類器之統計圖；第5圖係本發明之混淆矩陣之示意圖；第6~7圖係本發明之語音主題之特徵空間之示意圖；第8圖係本發明之網頁介面之示意圖；第9圖係本發明之語音主題分類之方法之步驟流程圖；第10圖係本發明之步驟S2之步驟流程圖；第11圖係舉例說明本發明之語音主題分類之情境時序圖；以及第12圖係舉例說明本發明之語音查詢之網頁介面之示意圖。

以下藉由特定的具體實施例說明本發明之實施方式，熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之其他優點及功效。

須知，本說明書所附圖式所繪示之結構、比例、大小等，均僅用以配合說明書所揭示之內容，以供熟悉此技藝之人士之瞭解與閱讀，並非用以限定本發明可實施之限定條件，故不具技術上之實質意義，任何結構之修飾、比例關係之改變或大小之調整，在不影響本發明所能產生之功效及所能達成之目的下，均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。

第1圖係本發明之語音主題分類之系統之架構圖。如第1圖所示，語音主題分類之系統100係至少包括：語音辨識單元4、主題分類單元5以及資料庫6。此外，第一通話裝置1、第二通話裝置2係經由一核心網路(PLMN/PSTN/VoLTE/Internet)並透過次世代網路多媒體子系統3(NGN/IMS)與語音主題分類之系統100連接。

第一通話裝置1與第二通話裝置2可為任何語音裝置，如行動電話、市話或網路電話等，其中，當申裝有錄音服務的第一通話裝置1 與第二通話裝置2發話或受話時，會經過一核心網路(PLMN/PSTN/VoLTE/Internet)到NGN/IMS 3環境，再連接至語音辨識單元4，語音辨識單元4主要用於偵測第一通話裝置1與第二通話裝置2使用NGN/IMS 3進行雙音多頻訊號的通話、錄製該通話的語音並分析出該語音的至少一個關鍵字，後續再透過主題分類單元5分析該語音的至少一個關鍵詞，形成該語音的主題。

語音辨識單元4係包括：流程控制模組41、語音訊號偵測模組42、語音儲存模組43、語音辨識分析模組44以及語音網頁模組45。

流程控制模組41負責控制整體通話之語音的錄音流程，當第一通話裝置1或第二通話裝置2之使用者透過NGN/IMS 3進線時，查詢資料庫6確認該使用者有申裝錄音服務，接著再通知語音訊號偵測模組42啟動服務。

語音訊號偵測模組42在第一通話裝置1或第二通話裝置2使用NGN/IMS 3進行通話時，偵測第一通話裝置1或第二通話裝置2是否有輸入錄音啟動/關閉鍵(例如，#/*)之信號，偵測到該信號後，會通知流程控制模組41啟動語音儲存模組43。

語音儲存模組43係錄製第一通話裝置1或第二通話裝置2使用NGN/IMS 3進行通話的語音，同時可將該語音儲存至資料庫6中。

語音辨識分析模組44係從語音儲存模組43或資料庫6取得該語音，以辨識分析該語音以獲得該語音的至少一個關鍵詞，其主要利用語音辨識技術將該語音經辨識分析後轉換成文字，進而將該文字透過文字分析處理後獲得該語音的至少一個關鍵詞，該語音的至少一個關鍵詞可儲存至資料庫6或傳送至主題分類單元5。

語音網頁模組45係提供網頁介面顯示語音紀錄資料，該語音紀錄資料包含使用者所錄製的語音及其對應的主題、該雙音多頻訊號之通訊時間與通訊對象，並提供主題分類器的調整或新增，該網頁介面如第2圖所示，其中，於一實施例中，第2圖中之語音所標籤的主題包含該使用者修改已標籤主題之語音的主題以及該使用者未修改已標籤主題之語音，但不以此為限。

主題分類單元5係包括主題分類模組51、使用者回饋模組52以及增強式學習模組53。

主題分類模組51係用以生成主題分類器，並從語音辨識分析模組44或資料庫6取得該語音的至少一個關鍵詞，以利用主題分類器的分類內容，依據語音的至少一個關鍵詞標籤該語音的主題，其中，該分類內容包含至少一個關鍵字及其預設或經訓練後的對應的主題。

第3圖係本發明之主題分類器之示意圖。在一實施例中，如第3圖所示，該主題分類器的生成可由系統提供預設的主題分類器(如主題分類器1~3)或由使用者自己客製化生成的主題分類器(如主題分類器4)。

主題分類模組51更包括統計使用者自己客製化之主題分類器的使用比率，並令被使用者大量使用的客製化之主題分類器設為系統預設的主題分類器，如第4圖所示。在另一實施例中，令使用比率大於一門檻值且使用比率最高者的客製化之主題分類器設為系統預設的主題分類器，但不以此為限。

使用者回饋模組52係提供使用者透過語音網頁模組45修改已標籤主題之語音的主題，並產生如第5圖所示的混淆矩陣，該混淆矩陣用以表示已標籤主題的語音被使用者修改主題後的主題準確率。例如，以主題為購物來說，語音被標籤為購物的主題準確率為63.73%，使用者將語音之主題從購物改至訂位為20.2%，依此類推。

增強式學習模組53係設定一門檻值，並於對應該主題之主題準確率低於該門檻值時，依據該被使用者修改主題之語音內容的該至少一個關鍵詞與相關關鍵詞，透過該主題分類模組51訓練該主題分類器以新增該主題分類器或調整該被使用者修改主題之語音所對應之主題分類器的分類內容。例如，承上述，當使用者將語音之主題從購物改至訂位為20.2%時，由於主題為購物的主題準確率為63.72%，小於一門檻值73.18%，因此將依據主題為訂位的該至少一個關鍵詞與相關關鍵詞進行後續作業。此外，在另一實施例中，亦可當至少一主題的主題準確率(如購物的主題準確率為63.72%、訂位的主題準確率為66.80%、聚會的主題準確率為59.70%)小於一門檻值(如73.18%)時，將針對使用者建議修改的第一順位(如購物改為訂位20.20%、訂位改為聚會17.55%、聚會改為訂位12.32%)進行調整與後續作業，而當主題的主題準確率高於或等於一門檻值時，則不進行調整。

第6~7圖係本發明之語音主題之特徵空間之示意圖。如第6~7圖所示，特徵空間以二維特徵空間來舉例，每一個點代表語音的關鍵詞，原始主題可為第5圖中的購物，新主題可為第5圖中的工作、客服、訂位以及聚會。

首先，增強式學習模組53會蒐集第6圖中原始主題之語音的關鍵詞(即未被該使用者修改主題)相近範圍R內的語音的關鍵詞當作原始訓練資料，當使用者將語音的主題由原主題重新標註於新主題(New Topic)，進而重新訓練該主題分類器，以將該語音的原主題調整為新主題，其調整後的分布圖如第7圖所示，新主題的範圍擴大且也包括該語音的關鍵字。

於一實施例中，語音網頁模組45係更具有語音共享的功能，如第8圖所示，可在網頁介面中新增使用群者，以將該語音或已標籤主題之語音分享給該使用群者中的使用者，但不以此為限。

第9圖係本發明之語音主題分類之方法之步驟流程圖。如第9圖所示，該方法包括下列執行步驟：

在步驟S1中，生成主題分類器，其中，利用主題分類模組51生成主題分類器。

在步驟S2中，標籤語音的主題，其中，利用主題分類器的分類內容，依據語音的至少一個關鍵詞標籤該語音的主題，其中，該分類內容包含至少一個關鍵字及其預設或經訓練後的對應的主題。

在步驟S3中，調整語音的主題，其中，利用使用者回饋模組52提供使用者同意或修改已標籤主題之語音的主題。於一實施例中，使用者須透過語音網頁模組45所提供的網頁介面進行同意或修改已標籤主題之語音的主題，但不以此為限。

在步驟S4中，產生混淆矩陣，其中，利用使用者回饋模組52統計該使用者已調整主題之語音與未調整主題之語音之間的比例，以令統計比例的結果為該混淆矩陣，且該混淆矩陣用以表示已標籤主題之語音被使用者修改主題後的主題準確率。

在步驟S5中，調整主題分類器，其中，利用增強式學習模組53設定一門檻值，並於當對應該主題之主題準確率低於該門檻值時，依據該被使用者修改主題之語音內容的該至少一個的關鍵詞與相關關鍵詞，透過該主題分類模組訓練該主題分類器以新增該主題分類器或調整該被使用者修改主題之語音所對應之主題分類器的分類內容。

於一實施例中，該步驟S5之增強式學習模組53判斷出對應該主題之主題準確率低於該門檻值時，蒐集原始主題之語音的關鍵詞(即未被該使用者修改主題)相近範圍R內的語音的關鍵詞當作原始訓練資料，當使用者將語音的主題由原主題重新標註於新主題(New Topic)，進而重新訓練該主題分類器，以將該語音的原主題調整為新主題。

於一實施例中，於該步驟S5後更包括利用語音網頁模組45依據已標籤主題的語音及其所屬的該雙音多頻訊號之通訊時間與通訊對象，產生語音紀錄資料，其中，該已標籤主題的語音包含該使用者修改過的主題或未修改過的主題。於另一實施例中，係於系統獲得授權後，傳送該語音紀錄資料至被授權使用的使用者。

於一實施例中，於該步驟S5後更包括利用語音網頁模組45進行語音共享，例如第8圖所示的網頁介面中可新增使用群者，以將該語音或已標籤主題之語音分享給該使用群者中的使用者，但不以此為限。

第10圖係本發明之步驟S2之步驟流程圖，如第10圖所示，該步驟S2係包括下列執行步驟：在步驟S21中，偵測錄製語音的信號，其中，利用語音訊號偵測模組42在第一通話裝置1或第二通話裝置2使用NGN/IMS 3進行通話時，偵測第一通話裝置1或第二通話裝置2是否有輸入錄音啟動/關閉鍵(#/*)之信號。

在步驟S22中，儲存語音，其中，於該步驟S21偵測到錄製語音的信號時，利用語音儲存模組43錄製第一通話裝置1或第二通話裝置2使用NGN/IMS 3進行通話的語音，同時可將該語音儲存至資料庫6中。

在步驟S23中，分析語音之關鍵詞，其中，利用語音辨識分析模組44從語音儲存模組43或資料庫6取得該語音，以辨識分析該語音以獲得該語音的至少一個的關鍵詞，其主要利用語音辨識技術將該語音經辨識分析後轉換成文字，進而將該文字透過文字分析處理後獲得該語音的至少一個關鍵詞。

在步驟S24中，標籤語音的主題，其中，利用主題分類器的分類內容，依據語音的至少一個關鍵詞標籤該語音的主題。

第11圖係舉例說明本發明之語音主題分類之情境時序圖。如第11圖所示，係包括下列執行步驟：在步驟S(1)中，錄音用戶Tom和朋友Sam連絡，透過手機的通訊錄尋找Sam的連絡電話，撥打給他。

在步驟S(2)中，電話訊號進線到語音辨識單元4後，語音辨識單元4會去資料庫6確認Tom的手機號碼是否為錄音用戶。

在步驟S(3)中，訊號接著被語音辨識單元4的流程控制模組41接續到Sam的手機，並開始響鈴，Sam在聽到響鈴聲後接起電話。

在步驟S(4)中，兩人相談甚歡，Tom決定明天去Sam家中聚餐，於是詢問Sam住家的地址，同時按下手機的錄音啟動鍵(例如：#)進行錄音。

在步驟S(5)中，Sam將住家地址完整的告知Tom，Tom才按下錄音關閉鍵(例如：*)結束錄音。

在步驟S(6)中，語音辨識單元4在收到第一段(section 1)的錄音啟閉訊號後，將錄製的語音儲存至資料庫6，且根據電話的進線時間、第一通話裝置與第二通話裝置的電話號碼、第幾段錄音來命名語音檔(例如：201904181200_0987654321_0912345678_1.wav)，之後語音辨識分析模組44將語音檔的語音轉為文字處理，截取多個關鍵詞，轉送至錄音主題分類單元5，進行主題分類(例如：通訊)，儲存在資料庫6。

在步驟S(7)中，兩人持續聊了一陣子，準備要掛斷電話前，Sam又和Tom詢問了臉書的帳號，方便日後連絡，第二次按下了錄音啟動鍵(例如：#)。

在步驟S(8)中，Tom告知臉書帳號後，Sam接著按下錄音關閉鍵(例如：*)。

在步驟S(9)中，語音辨識單元4在收到第二段(section 2)的錄音啟閉訊號後，將錄製的語音儲存至資料庫6，且根據電話的進線時間、第一通話裝置與第二通話裝置的電話號碼、第幾段錄音來命名語音檔(例如：201904181200_0987654321_0912345678_2.wav)，之後語音辨識分析模組44將語音檔的語音轉為文字處理，截取多個關鍵詞，轉送至錄音主題分類單元5，進行主題分類(例如：通訊)，儲存在資料庫6。

在步驟S(10)中，兩人互相道別後，Tom掛斷了電話。

第12圖係舉例說明本發明之語音查詢之網頁介面之示意圖。

在一範例中，Tom可從語音網頁模組45輸入錄音主題(如工作)、通訊名單或關鍵詞來做查詢，語音網頁模組45可提供清晰的查詢介面，幫助使用者快速地整理資料，並了解當初錄音的目的。此外，也可提供使用者進行主題調整，透過主題分類單元5依上述內容改善學習主題分類，並可在獲得授權後，傳送該語音紀錄資料至被授權使用的使用者。

上述實施形態僅例示性說明本發明之原理及其功效，而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下，對上述實施形態進行修飾與改變。因此，本發明之權利保護範圍，應如後述之申請專利範圍所列。