TWI761090B - 對話資料處理系統、其方法及電腦可讀媒介 - Google Patents

對話資料處理系統、其方法及電腦可讀媒介 Download PDF

Info

Publication number
TWI761090B
TWI761090B TW110106716A TW110106716A TWI761090B TW I761090 B TWI761090 B TW I761090B TW 110106716 A TW110106716 A TW 110106716A TW 110106716 A TW110106716 A TW 110106716A TW I761090 B TWI761090 B TW I761090B
Authority
TW
Taiwan
Prior art keywords
sentence
intent
dialogue
data
sentences
Prior art date
Application number
TW110106716A
Other languages
English (en)
Other versions
TW202234285A (zh
Inventor
楊宗憲
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW110106716A priority Critical patent/TWI761090B/zh
Application granted granted Critical
Publication of TWI761090B publication Critical patent/TWI761090B/zh
Publication of TW202234285A publication Critical patent/TW202234285A/zh

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本發明之對話資料處理系統及其方法,係用以蒐集用戶之對話紀錄,以依據過濾指標自對話紀錄中過濾出可進行標記之意圖語句,利用自各意圖類別內之具有標籤的原有資料中挑選出代表語句,以分析意圖語句與各代表語句之間的平均語意距離,進而標記意圖語句為所對應之代表語句的意圖類別,或是標記為新意圖類別,另外,透過檢查各意圖類別本身以及各意圖類別之間的樣本數之平衡性,以對樣本數不足之意圖類別進行增強,據此,本發明能對用戶之對話紀錄自動標記,並對意圖類別進行平衡性之檢查及增強。本發明復提供一種電腦可讀媒介,係用於執行本發明之對話資料處理方法。

Description

對話資料處理系統、其方法及電腦可讀媒介
本發明係關於資料處理之技術,尤指一種對話資料處理系統、其方法及電腦可讀媒介。
以往對用戶之對話資料進行標記之系統,僅能在接收到大量的用戶對話紀錄之資料後,針對用戶回饋是否滿意進行資料意圖類別分類標籤之標注,例如於某一筆對話資料中,用戶回體結果為滿意,則該筆對話資料無需更改意圖類別標籤,反之,當對話資料中用戶回饋為不滿意時,人工智慧訓練師(AI訓練師)則需將該筆對話資料修改為其他合適的意圖類別,以進行標記,或為該筆對話資料新增一個新的意圖類別,將該筆對話資料標記新的意圖類別標籤。
惟,大部分用戶不會主動回饋是否滿意之訊息,因此,實際上所能收集到的對話資料量相對稀少。此外,用戶通常會將其滿意與否之訊息表露於對話之語句中,因而可透過擷取用戶之對話紀錄,針對對話紀錄中的語句進行分析,藉以獲知用戶之滿意度,然而,由於用戶之對話紀錄之資料往往相當龐雜,若直接針對所有對話資料無差別地回饋給AI訓練師進行標記,則所需標記的資料量又過於龐大,恐有執行上困難。另外,AI訓練師往往不會針對標記之分類群組中的資料量之平衡性進行檢查,亦即於分類群組中可能存在資料量差異甚大的情況,此亦會影響後續的資料訓練結果。
綜上,若能找出一種資料處理之技術,能針對對話紀錄進行有效分類及標記,且能檢查各分類群組之資料量之平衡性,將有利於後續之模型訓練,此將成為本技術領域人員急欲追求解決方案之目標。
有鑑於上述問題,本發明提出一種對話資料處理系統,其包括:對話資料擷取模組,係用於蒐集具有語句之對話紀錄,以依據過濾指標過濾該對話紀錄,獲得意圖語句;以及對話資料分群標記模組,係用於從多個意圖類別內具有標籤的原有資料中各自選出代表語句,再將該意圖語句分別與各該代表語句進行比對,以由該意圖語句中取得與各該代表語句間的平均語意距離最大者,俾於該平均語意距離最大者小於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,或是於該平均語意距離最大者超過該預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之新代表語句,且以所有代表語句與新代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤。
於一實施例中,該對話資料分群標記模組對該多個意圖類別中之各者的多個語句所對應之多個語意向量取群心,以自該多個語意向量中取得與該群心距離最小者,作為該代表語句。
於另一實施例中,該平均語意距離之計算係先計算該意圖語句與各該代表語句之間的距離,再將各該距離取平均值。
於另一實施例中,該對話資料處理系統復包括用於資料擴增之對話資料增強模組,係於各該意圖類別之樣本數不足或是比較所有該意圖類別之間的樣本數差異後,對樣本數少者進行資料增強。
於另一實施例中,該資料增強係使用同義詞替換、隨機插入、隨機交換、隨機刪除、基於機器學習與深度學習之資料增強方法或其任意組合。
於另一實施例中,該過濾指標係包括滿意度回饋值、語句情緒正負向極性、對話文字意圖信心度或是否有轉接請求。
於另一實施例中,該對話資料擷取模組復包括情緒識別單元,係利用情緒識別模型識別該意圖語句之情緒極性,以產生該語句情緒正負向極性。
於又一實施例中,該對話資料擷取模組復包括意圖識別單元,係利用意圖識別模型計算該意圖語句之意圖識別信心度,以產生該對話文字意圖信心度。
本發明復提出一種對話資料處理方法,係包括:蒐集具有語句之對話紀錄;依據過濾指標過濾該對話紀錄以獲得意圖語句;從多個意圖類別內具有標籤的原有資料中各自選出代表語句;以及將該意圖語句分別與各該代表語句進行比對,以由該意圖語句中取得與各該代表語間的平均語意距離最大 者,俾於該平均語意距離最大者小於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,或是於該平均語意距離最大者超過該預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之新代表語句,且以所有代表語句及新代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤。
於另一實施例中,該選出代表語句之步驟係對該多個意圖類別中之各者的多個語句所對應之多個語意向量取群心,以自該多個語意向量中取得與該群心距離最小者,作為該代表語句。
於另一實施例中,該平均語意距離之計算係先計算該意圖語句與各該代表語句之間的距離,再將各該距離取平均值。
於另一實施例中,該依據過濾指標過濾該對話紀錄以獲得意圖語句之步驟復包括於各該意圖類別之樣本數不足或是比較所有該意圖類別之間的樣本數差異後,對樣本數少的意圖類別進行資料增強。
於另一實施例中,該資料增強係使用同義詞替換、隨機插入、隨機交換、隨機刪除、基於機器學習與深度學習之資料增強方法或其任意組合。
於另一實施例中,該過濾指標係包括滿意度回饋值、語句情緒正負向極性、對話文字意圖信心度或是否有轉接請求。
於另一實施例中,該語句情緒正負向極性係利用情緒識別模型識別該意圖語句之情緒極性所產生者。
於又一實施例中,該對話文字意圖信心度係利用意圖識別模型計算該意圖語句之意圖識別信心度所產生者。
本發明復提供一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行上述之對話資料處理方法。
綜上,本發明之對話資料處理系統、其方法及電腦可讀媒介,係於蒐集用戶之對話紀錄後,能依據設定之過濾指標自對話紀錄中過濾出可進行標記之意圖語句,並自原有意圖類別中挑選出代表語句,進行意圖語句與代表語句之語意分析,藉此決定意圖語句標記為與代表語句相同之意圖類別,或是應另標記為新的意圖類別,因此,本發明能達到自動分類用戶之對話紀錄並進行標記之目的。另外,本發明於意圖語句完成分類後,亦能進行各意圖類別中之樣本數以及所有意圖類別中之樣本數差異的檢查,以對樣本數不足之意圖類別進行增強,藉以達到避免意圖類別之資料量差異所致之不平衡問題之目的。
10、10’:對話資料處理系統
11:對話資料擷取模組
111:情緒識別單元
112:意圖識別單元
12:對話資料分群標記模組
13:對話資料增強模組
S401~S405:步驟
601~608:流程
圖1係本發明之對話資料處理系統之示意架構圖。
圖2係本發明之對話資料擷取模組之結構示意圖。
圖3係本發明之對話資料處理系統之另一實施例之示意架構圖。
圖4係本發明之對話資料處理方法之步驟流程圖。
圖5係本發明之對話資料處理方法之其他實施例之步驟流程圖。
圖6係本發明對話資料處理方法之流程圖。
以下藉由特定的具體實施形態說明本發明之技術內容,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。
圖1為本發明之對話資料處理系統之示意架構圖。如圖所示,本發明之對話資料處理系統10係包括對話資料擷取模組11以及對話資料分群標記模組12,藉由對話資料擷取模組11取得用戶之對話紀錄後進行過濾,再透過對話資料分群標記模組12進行分析計算,以於判斷經過濾後之對話紀錄中的語句之類別後並標記之。關於本發明之說明如下。
對話資料擷取模組11用以接收或蒐集具有語句之對話紀錄,其中,對話紀錄係指對話資料擷取模組11擷取用戶於系統上所陳述(例如說明、敍述或詢問)之語句所形成之對話文字資料。對話紀錄可包括用戶所陳述之單一語句或用戶於一個事件中或一段時間內所敍述之多個語句。另外,本發明之對話資料處理系統10復可設置用以儲存資料之資料庫,對話資料擷取模組11於蒐集對話紀錄後,即可儲存於資料庫中。
於蒐集用戶之對話紀錄後,對話資料擷取模組11能依據預先設定之過濾指標過濾用戶之對話紀錄,據以獲得意圖語句。具體而言,過濾指標係包括滿意度回饋值、語句情緒正負向極性、對話文字意圖信心度或是否有轉接請求,亦即,對話資料擷取模組11依據用戶滿意度回饋值、用戶對話文字情緒正負向極性、系統預測對話文字意圖之模型信心度、用戶是否轉接專人等指標來過濾篩選對話紀錄中適合標記的語句,以形成意圖語句。
對話資料分群標記模組12係用從多個意圖類別內具有標籤的原有資料中分別挑選出代表語句,具體而言,每一個意圖類別中可包括多個語句,且各語句具有對應之語意向量,對話資料分群標記模組12挑選代表語句之方式係對各意圖類別中所有的語意向量取平均,以得到對應之群心,再計算各語意向量與群心之間的距離,藉以挑選距離最小者之語意向量所對應之語句,作為代表語句,該對話資料分群標記模組12係依據所挑選之代表語句計算對話資料擷取模組11所獲得之意圖語句與各代表語句的距離,以由該意圖語句中取得與各該代表語句間的平均語意距離最大者,其中,對話資料分群標記模組12先計算意圖語句與各代表語句之間的距離,再對各距離取平均,以獲得平均語意距離。
再者,本發明之對話資料處理系統10能預先設定平均語意距離之門檻值,據此,於得到平均語意距離最大者後,透過比對該平均語意距離與預定門檻值,以判斷意圖語句與各代表語句之間之語意相似度,進而對意圖語句進行分類。亦即,該意圖語句中平均語意距離最大者小於或等於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,亦即,將該意圖語句分類於與之語意相近的代表語句所標記之意圖類別內並進行標記;或於該意圖語句中平均語意距離最大者超過或等於預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之代表語句,且以所有代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,亦即將該意圖語句分類為新的意圖類別後進行標記,最後,經標記後之該意圖語句與該原有資料成為模型訓練資料,以供意圖識別模型訓練使用。據此,本發明可於蒐集大量的用戶之對話紀錄後,進行過濾篩選,以得到適合進行標記之對話紀錄,如此能達到減少須進行標記之對話紀錄的數量,進而針對篩選後之對話紀錄進行 標記,達到自動標記對話紀錄之目的,據之能避免習知AI訓練師於面對須進行標記之大量對話紀錄之資料時,所可能造成標記資料品質不佳之問題。
圖2為本發明之對話資料擷取模組之結構示意圖。如圖所示,對話資料擷取模組11包括情緒識別單元111及意圖識別單元112,其中,情緒識別單元111係利用情緒識別模型識別意圖語句之情緒極性,以產生語句情緒正負向極性,例如情緒識別單元111能利用深度學習之長短期記憶網路訓練情緒識別模型,以識別語句之語句情緒正負向極性,另外,意圖識別單元112係利用意圖識別模型計算意圖語句之意圖識別信心度,以產生對話文字意圖信心度,例如意圖識別單元112能利用關鍵詞比對分數、機器學習或深度學習之意圖模型分類機率值,以計算及預測語句之意圖信心度。
圖3為本發明之對話資料處理系統的另一實施例之示意架構圖。如圖所示,本實施例之對話資料處理系統10’與第一實施例之對話資料處理系統10大致相同,不同之處在於本實施例中,對話資料處理系統10’復包括對話資料增強模組13,其中,對話資料擷取模組11以及對話資料分群標記模組12同於上述而不贅述。
對話資料增強模組13係於各意圖類別之樣本數不足或是比較所有意圖類別之間的樣本數差異後,對樣本數少者進行資料增強,亦即除了檢視單一意圖類別內樣本數數量是否足夠外,還比較各原意圖類別或是原意圖類別與新的意圖類別之間,各自的語句之樣本數差異,以針對樣本數不足之意圖類別進行資料增強。另外,對話資料增強模組13亦可透過設定樣本數門檻值,以於樣本數差異超過樣本數門檻值時,對具有較少語句資料之意圖類別進行資料增強,其中,對話資料增強模組13可利用同義詞替換、隨機插入、隨機交換、隨 機刪除、基於機器學習與深度學習之資料增強方法或是前述方式的組合,以進行語句資料增強,俾以達到平衡各群組之樣本數之目的,而達到提供較佳之訓練資料之目的。
換言之,本發明於完成語句之標記後,對話資料增強模組13依據各意圖類別內含之訓練樣本數多寡進行資料擴增,以維持各意圖類別之資料樣本數量比例差異不大於門檻值。如各類別資料樣本數量比例差異大於門檻值,則將較少樣本之意圖類別中的語句資料進行擴增,以維持一適當之比例。藉此,本發明能維持各意圖類別樣本數量之平衡,且自動擴增樣本數量,使AI訓練師只需進行有效且少量的資料標記,即可達到完成大量且有品質的標注資料之功效,使得最終之模型訓練資料能提供更佳訓練效果。
圖4為本發明之對話資料處理方法之步驟流程圖。
於步驟S401中,蒐集具有語句之對話紀錄。本發明可透過設置用戶使用介面供用戶與系統進行對話,以蒐集用戶之對話紀錄,其中,對話紀錄包括用戶所陳述之語句。具體而言,本發明蒐集用戶與系統對話之對話紀錄係於用戶之線上對話中進行用戶之語句的蒐集,其中,可設定於一段時間區間內(例如每一或幾小時、每日、每星期、每月)進行用戶語句之蒐集,以累積時間區間內用戶所有之語句,而形成對話紀錄。
於步驟S402中,依據過濾指標過濾該對話紀錄以獲得意圖語句。其中,本發明利用語句情緒正負向極性、對話文字意圖信心度、滿意度回饋值、用戶是否提出轉接請求等過濾指標或前述過多個濾指標所組合之組合指標,對所蒐集之對話紀錄進行過濾,以自對話紀錄之所有用戶語句中篩選出可用以進行標記之意圖語句。
過濾指標中之語句情緒正負向極性係利用深度學習之長短期記憶網路訓練情緒識別模型,以識別所蒐集之語句的情緒極性。詳言之,本發明透過包括制定情緒詞分數並比對情緒詞、機器學習或深度學習之情緒模型等深度學習之長短期記憶網路訓練情緒識別模型,以計算所蒐集的所有語句之情緒正負向極性,進而識別對話紀錄中之語句的情緒極性。
過濾指標中之對話文字意圖信心度係利用關鍵詞比對分數、機器學習或深度學習之意圖模型分類機率值,以計算該意圖語句之意圖信心度。亦即,本發明透過使用制定關鍵詞比對分數、機器學習或深度學習之意圖模型分類機率值等方法或其結合,以計算用戶語句之意圖識別信心度,據此,可識別所蒐集之所有語句之意圖識別信心度。
於步驟S403中,從多個意圖類別內具有標籤的原有資料中各自選出代表語句。其中,挑選代表語句係對每個原意圖類別中之多個語句所對應之多個語意向量取平均,以得到語意向量之群心,進而自多個語意向量中挑選與該群心距離最小者,作為代表語句。
於步驟S404中,將該意圖語句分別與各該代表語句進行比對,以由該意圖語句中取得與各該代表語句間的平均語意距離最大者,俾於該平均語意距離最大者小於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,或是於該平均語意距離最大者超過該預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之代表語句,且以所有代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤。本步驟係計算意圖語句與各代表 語句之間的平均語意距離,並找出意圖語句中與各代表語句間的平均語意距離最大者,其中,平均語意距離之計算係先計算意圖語句與各代表語句之間的距離,再對各該距離取平均,簡言之,於平均語意距離最大者其距離小於預定門檻值時,將意圖語句分類於各代表語句中與意圖語句語意相近者所對應之原有意圖類別,並進行標記,另外,若於平均語意距離最大者其距離超過預定門檻值時,則將該意圖語句分類為新的意圖類別且執行後續標記。再者,經標記後之該意圖語句與該原有資料則供意圖識別模型訓練使用。在一實施例中,新的意圖類別及其代表語句於後續再次進行對話資料處理,至步驟S403時,新的意圖類別即可成為多個意圖類別之一者,且依其步驟選出代表語句。
舉例而言,本發明區分意圖語句所屬之意圖類別時,首先於先前已標記過之原有標記資料A中之各意圖類別內分別選出一句代表語句R,若所有意圖類別共有N類,則將選出N句代表各自意圖類別之代表語句R1~N。接著,將所挑選出之未經標記的新資料B中之意圖語句分別與代表語句R1~N進行語意比對,以計算其平均語意距離,且於平均語意距離超出語意距離之門檻值時,為該意圖語句另增一新意圖類別,另外,若篩選出多個意圖語句時,則於計算各意圖語句分別對應代表語句之平均語意距離後,自各平均語意距離中找出平均語意距離最大的一句意圖語句O,如果O之平均語意距離超過預設之門檻值,則挑選O為另一個新意圖的代表語句RN+1。接著,隱藏原有標記資料A之資料標記,且加入新資料B之意圖語句,以代表語句R1~N+1為中心進行非監督式或半監督式分群計算,將包括原有標記資料A及新資料B之所有語句資料區分為N+1群,其中,前N群為原有之意圖類別的數量,第N+1群為可能新增之意圖類別,再將語意相近的語句區分至相同之意圖類別。最後,顯示原有標記資料A中所 有之原始資料標籤,再針對新資料B中所有未標記過的意圖語句,透過利用同其群組內的相近且已知資料標籤進行自動化標記,以形成N或N+1組意圖類別,據以達到自動標記對話紀錄中之對話語句之目的。
圖5為本發明之對話資料處理方法的其他實施例之步驟流程圖。如圖所示,本實施例S401~S404與前一實施例之步驟相同,其不同之處在於,本實施例復包括步驟S405。於步驟S405中,於各該意圖類別之樣本數不足或是比較所有該意圖類別之間的樣本數差異後,對樣本數少的意圖類別進行資料增強。本步驟比較所有意圖類別(包括原意圖類別或是再加入新的意圖類別)各自之樣本數間之差異,針對樣本數少的意圖類別進行資料增強。其中,資料增強之方法包括同義詞替換、隨機插入、隨機交換、隨機刪除、基於機器學習與深度學習之資料增強方法或上述任意組合。
據此,本發明藉由針對各意圖類別中之語句資料進行擴增,其中,先檢視各意圖類別中之語句的樣本數是否足夠,再對各意圖類別之間樣本數之差異進行比較,針對樣本數少的意圖類別進行資料增強,以持續擴增至各意圖類別內樣本數達到平衡為止,亦即,使得樣本數差異小於預先設定之樣本數門檻值α。
圖6為本發明對話資料處理方法之流程圖。如圖所示,一具體實施例之流程如下說明。
於流程601中,首先,藉由本發明之對話資料處理系統中的對話資料擷取模組蒐集對話紀錄,對話資料擷取模組在用戶上線詢問相關資訊時,進行用戶語句之蒐集,並累積一段時間中之所有語句以形成對話紀錄,另外,亦可透過接收外部資料庫或其他對話資料擷取裝置所取得之用戶的對話資料。 具體而言,本發明可於前端設計輸入介面,例如web或通訊軟體等,用以供用戶能藉此輸入自然語言之語句,本發明之系統再將具有用戶語句之對話紀錄傳送至後端資料庫進行紀錄、儲存。
舉例來說,例如用戶於前端之輸入介面輸入「我的帳單有問題」;系統回應:「有何問題」;用戶問:「錢算錯」;機器人回:「不好意思我不懂你的意思」;用戶問:『太爛了吧』。於上述對話中,本發明將T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”]等用戶對系統所詢問之語句記錄下來。進而經分詞後,利用文字轉向量方式(例如使用word2vec模型)將各語句轉換成語句向量。以“我的帳單有問題”為例,分詞後可分為「“我”,“的”,“帳單”,“有”,“問題”」等5個詞語,再將每一個詞語輸入word2vec模型中,以取得相對應的語句向量,據此,即可將語句轉換成二維向量「“我”:[0.123,0.456],“的”:[0.233,0.536],“帳單”:[0.322,0.689],“有”:[0.111,0.422],“問題”:[0.777,0.543]」,以進行表示。
於流程602中,情緒識別模組識別對話文字情緒極性,其中,情緒識別模組可藉深度學習之長短期記憶網路(Long Short-Term Memory,LSTM)訓練情緒識別模型,以識別對話文字情緒極性,將前述所蒐集之所有用戶對話語句透過情緒識別模型計算每句語句之情緒正負向極性,以產生介於0-1之間的情緒極性的機率分布,其中,機率值越接近1者,表示其情緒愈正向,反之,越接近0者,表示其情緒愈負向,藉由分析對話資料擷取模組所蒐集之語句T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”],以得到情緒機率E=[0.4,0.5,0.1]。
於流程603中,意圖識別模組識別對話文字意圖信心度,意圖識別模組係採用監督式機器學習類神經網路(Neural Network)訓練意圖識別模型,以來識別對話文字意圖信心度,該意圖識別模組用以識別對話資料擷取模組所蒐集用戶所有之對話語句,透過意圖識別模型計算每句語句之意圖識別信心度,以對應各意圖類別產生介於0-1之間的信心度機率分布,且所有意圖類別之機率和為1。具體地,本發明可利用softmax函數以進行分析運算,例如假設標記資料具有三個意圖類別,即[“帳單”,”手機”,”網路”],其輸出值為[1,2,3],則經過如下函數進行計算,softmax函數如下所示:
Figure 110106716-A0101-12-0014-2
上述計算得到[0.09,0.245,0.665]之機率分布,其中,意圖類別“網路”之機率為三者中最高,則將語句之意圖分類為“網路”,是以,所得到之機率值即為意圖分類之信心度。舉例而言,以對話資料擷取模組所蒐集之T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”]對話紀錄為例,對話紀錄T中之每一個語句將各自產生三維向量,以分別代表[“帳單”,“手機”,“網路”]三種意圖類別,且其總和為1,最後集合為I=[[0.8,0.1,0.1],[0.4,0.3,0.3],[0.3,0.4,0.3]],據此,每個語句之意圖信心度為各個意圖類別中最大之機率值α=[0.8,0.4,0.4]。
於流程604中,對話資料擷取模組過濾對話紀錄,亦即,對話資料擷取模組依據過濾指標來過濾對話紀錄,其中,過濾指標係指用戶回饋、用戶是否轉接專人、經情緒識別模組所識別之用戶對話語句情緒極性正負向、經意圖識別模組所識別之對話語句意圖信心度,據此,對話資料擷取模組以過濾指標作為挑選用戶之對話語句的參考依據。
舉例言之,本發明之挑選準則例示如下。於例示一中,用戶有回饋不滿意之句子,例如用戶反應:「電話無法接聽」,而系統回答:「您的網路測速正常」,是以,系統之反應與用戶所欲詢問之“手機”問題有所出入,故用戶給出不滿意之回饋。於例示二中,用戶轉接專人時與專人交談的語句,即用戶在與系統對話之過程中提出“轉接專人”之需求,此時,對話紀錄之挑選即為用戶與專人交談之對話語句。於例示三中,情緒識別模組產生的情緒正負向極性的機率低於0.3,承上所述之對話紀錄之T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”]之語意情緒機率E=[0.4,0.5,0.1],故語句“太爛了吧”之情緒機率值0.1,低於門檻值0.3,是以,挑選該句語句。於例示四中,意圖識別模組之對話語句意圖信心度低於0.7,是以,對話紀錄T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”]之語意的意圖信心度為α=[0.8,0.4,0.4],則將挑選[“錢算錯”;“太爛了吧”]兩句語句。據此,利用經對話資料擷取模組依據前述之四個準則所挑選出的語句,以進行後續步驟。
於流程605中,對話資料分群標記模組區分對話語句所屬群組。首先,對系統先前已標記之原有標記資料A中之各意圖類別內各選出一句代表語句R,代表語句之選取方式可對各意圖類別中對話語句之語意向量取平均, 以求出群心μ,透過距離公式
Figure 110106716-A0101-12-0015-4
進一步求出各對話語句與 群心μ之距離,再自各意圖類別中選出離群心最近的對話語句作為代表語句R。
具體言之,如下面表1所示,以“帳單”意圖類別為例,假設以二維向量代表每個語句在語意空間中之位置,亦即,以向量「[0.1,0.2],[0.3, 0.4],[0.5,0.6]」分別代表意圖類別「帳單」中「“帳單錯了”,“我想查帳單資訊”,“要看繳費資訊”」語句之語意向量,首先,計算各維度之平均值以得到群心,群心為[(0.1+0.3+0.5)/3=0.3,(0.2+0.4+0.6)/3=0.4],故μ=[0.3,0.4],據以求出語句“帳單錯了”與群心μ之距離d(r1 )=
Figure 110106716-A0101-12-0016-5
,且依次求出d(r2 )=0,d(r3 )=
Figure 110106716-A0101-12-0016-6
,藉以選出距離群心μ最小之對應語句為代表語句R,因而R=“我想查帳 單資訊”。另外,原有標記資料A中之意圖類別共有三類,即N=3類,故代表語句R1~3分為[“我想查帳單資訊”,“有新的手機嗎”,“網路速度太慢”],而各自代表之語意向量為[[0.3,0.4],[0.7,0.7],[0.9,0.9]]。
Figure 110106716-A0101-12-0016-7
進一步地,將對話資料擷取模組所挑選出之新資料T=[“我的帳單有問題”;“錢算錯”;“太爛了吧”]中之語句,分別與代表語句R1~3=[“我想查帳單資訊”,“有新的手機嗎”,“網路速度太慢”]進行語意比對,以找出平均語意距離最大的一句O。具體而言,平均語意距離之計算方法係將T中每一語 句對R求距離
Figure 110106716-A0101-12-0016-8
,再將同一語句Ti對代表語句R所求得之各 距離取平均,以T1=“我的帳單有問題”之語句而言,假設其語句向量為[0.3, 0.3],可得到T1語句與代表語句R1~3之間的距離為d(t_1,r_1)=√0.01,d(t_1,r_2)=√0.32,d(t_1,r_3)=√0.72,如此T1語句之平均語意距離為d(t_1,r)=√(0.01+0.32+0.72)÷3=0.34,另外,T2=“錢算錯”之語句設其語句向量為[0.2,0.2],則其平均語意距離為d(t_2,r)=√(0.05+0.5+0.99)÷3=0.41,以及T3=“太爛了吧”之語句若其語句向量為[0.1,0.1],則其平均語意距離為d(t_3,r)=√(0.13+0.72+1.28)÷3=0.49。據此,可得到對話資料T之語句中與R距離最大之語句O即為“太爛了吧”,其中,可設定預設之門檻值=0.3,因而,語句O的平均語意距離超過預設之門檻值=0.3,則挑選O為另一新意圖類別的代表語句RN+1,亦即,新的意圖類別之代表語句為RN+1=“太爛了吧”。
接著,再將原有標記資料A與新資料T為訓練資料,且以代表語句R1~N+1=[“我想查帳單資訊”,“有新的手機嗎”,“網路速度太慢”,“太爛了吧”]為預設的分群中心進行分群計算,並將所有資料區分為N+1群,其中,N=3為原有意圖類別數量,第N+1群即為新增之意圖類別。據此,本發明利用k-means分群方法,將k設為4群,並將k-means第一輪之群心以代表語句R1~N+1=[“我想查帳單資訊”,“有新的手機嗎”,“網路速度太慢”,“太爛了吧”]取代,利用演算法將語意相近的語句區分至相同群組。例如:以R1=“我想查帳單資訊”為群心的群組U1=[“我想查帳單資訊”,“帳單錯了”,“要看繳費資訊”,“我的帳單有問題”]。
於流程606中,對話資料分群標記模組針對各群組資料標記意圖類別。針對所有未標記過的新資料Tk,利用其與同群組內最相近且已知之意圖類別之Ak進行自動化標記。例如,語句T1=[“我的帳單有問題”]可利用最近鄰居法找出同群組U1=[“我想查帳單資訊”,“帳單錯了”,“要看繳費資 訊”,“我的帳單有問題”]中與T1最近的鄰居Nb=“我想查帳單資訊”,再將T1=[“我的帳單有問題”]之意圖類別標記為與Nb=“我想查帳單資訊”相同之意圖類別“帳單”。如此,即可對所有新資料T中之語句皆標記對應之所屬意圖類別,是以,I帳單=[“我想查帳單資訊”,“帳單錯了”,“要看繳費資訊”,“我的帳單有問題”]、I手機=[“要查手機新型號”,“有新的手機嗎”,“有新機嗎”]、I網路=[“網路速度太慢”,“網路斷線”,“連不上網路”]以及I其他=[“錢算錯”;“太爛了吧”]。
於流程607-608中,對話資料增強模組針對各意圖類別資料擴增。其中,對話資料增強模組會先檢視各組意圖類別之樣本數是否足夠,亦即,意圖類別中之語句是否足夠,對話資料增強模組比較各組意圖類別之間的樣本數差異,針對其中樣本數少之意圖類別進行資料增強,其中,資料增強方法包含同義詞替換(隨機選N個非停用詞,用其同義詞取代)、隨機插入(隨機選1個非停用詞,將它的同義詞插入句中任意位置N次)、隨機交換(任選句中兩個詞交換位置,以上重複N次)、隨機刪除(隨機選取N個詞刪除)、基於機器學習與深度學習之資料增強方法等,俾於各組意圖類別之語句資料持續擴增至各意圖類別內樣本數達到平衡(差異比例小於一設定之門檻值α)為止,藉以達到平衡意圖類別之樣本數之目的。另外,復可使對話資料增強模組中設定樣本數量之門檻值,以於計算各意圖類別數量Q後,判斷各意圖類別數量Q是否達到預定之門檻值(假設門檻值為2),即Q(I帳單)=4、Q(I手機)=3、Q(I網路)=3以及Q(I其他)=2,皆大於預定之門檻值,故進行資料是否平衡之評估,亦即,進行各類別數量差異的比例之計算,其公式係為E=x i /max(x),據此,各意圖類別中之語句數量差異比例E(I帳單)=1,E(I手機)=0.75,E(I網路)=0.75,E(I其他)=0.5,進一步地,依據數量差異 門檻值α=0.6,以決定意圖類別I其他之資料量明顯太低,因而需要進行資料增強。
於本發明之資料增強中,可利用自然語言處理中常見的同義詞替換以進行資料增強,藉由事先定義的同義詞表[“太爛”,“太差”,“太遜”],對意圖類別I其他中之語句“太爛了吧”進行同義詞替換,其係可新增“太差了吧”,且意圖類別計算E(I其他)=0.75超過數量差異門檻值α=0.6後,停止資料增強。上述過程能獲得出最佳之訓練資料集,能提供系統之意圖識別模型持續學習更新,其中,更新方式可使用重新訓練以及微調訓練(Fine tune)二種方式或其組合,其中,重新訓練係將新資料加入舊資料,以一起重新訓練模型,另外,微調訓練即保留之前模型權重只更新網路模型中上層權重值。
本發明中之的各模組、單元均可為軟體、硬體或韌體;若為硬體,則可為具有資料處理與運算能力之處理單元、處理器、電腦或伺服器;若為軟體或韌體,則可包括處理單元、處理器、電腦或伺服器可執行之指令。
此外,本發明還揭示一種電腦可讀媒介,係應用於具有處理器(例如,CPU、GPU等)及/或記憶體的計算裝置或電腦中,且儲存有指令,並可利用此計算裝置或電腦透過處理器及/或記憶體執行此電腦可讀媒介,以於執行此電腦可讀媒介時執行上述之方法及各步驟。
綜上所述,本發明提出一種具有自動化資料擷取、分群標記與增強之對話資料處理系統、其方法及電腦可讀媒介,係利用對話資料擷取模組收集用戶有回饋之對話資料以及根據用戶情緒正負向、對話文字意圖信心度、是否轉接專人等指標對用戶對話語句資料進行過濾以篩選用戶之對話語句。另外,本發明之對話資料分群標記模組將原本既有的對話資料進行無監督式分群計算並預先自動標注,協助AI訓練師快速有效的分類對話資料的意圖類別,其可改善習知AI訓練師於進行標記時所面臨之意圖類別太多太雜,而很難直覺立 即將一筆新的語句資料進行歸類之問題。又,本發明針對每一個意圖類別內含的樣本數進行調整,針對樣本數不足的類別進行資料增強,藉以達到維持訓練資料集樣本數之平衡的目的。
是以,本發明可達到以下之功效。
第一,改善AI訓練師對大量對話紀錄之資料進行標記,且可能造成標記資料品質不佳的缺點。
第二,本發明考量資料過濾擷取、詞意相近聚合與擴增等方法,自動化計算挑選最佳訓練資料。
第三,對話資料擷取非僅考量用戶回饋是否滿意、用戶是否轉接專人等指標,更增加系統偵測用戶對話文字情緒正負向極性以及系統預測此問句意圖之模型信心度兩個指標,以過濾篩選適合AI訓練師標記的對話紀錄。
第四,透過對話資料分群計算及自動標記,以協助AI訓練師快速處理大量標記資料,減輕資料標記人力。
第五,利用對話資料增強來提升各意圖類別資料之豐富性與多樣性,且透過結合各類別資料平衡的檢查機制,確保後續意圖偵測模型預測的品質不受資料不平衡而造成的偏頗。
上述之實施案例僅為舉例性之具體說明,而非為限制本發明之範圍,凡任何對其進行之等效修改或變更者,皆未脫離本發明之精神與範疇,均應包含於本案專利範圍中。
10:對話資料處理系統
11:對話資料擷取模組
12:對話資料分群標記模組

Claims (15)

  1. 一種對話資料處理系統,其包括:對話資料擷取模組,係用於蒐集具有語句之對話紀錄,以依據過濾指標過濾該對話紀錄,獲得意圖語句;以及對話資料分群標記模組,係用於從多個意圖類別內具有標籤的原有資料中各自選出代表語句,再將該意圖語句分別與各該代表語句進行比對,以由該意圖語句中取得與各該代表語句間的平均語意距離最大者,俾於該平均語意距離最大者小於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,或是於該平均語意距離最大者超過該預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之新代表語句,且以所有該代表語句及該新代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤。
  2. 如請求項1所述之對話資料處理系統,其中,該對話資料分群標記模組對該多個意圖類別中之各者的多個語句所對應之多個語意向量取群心,以自該多個語意向量中取得與該群心距離最小者,作為該代表語句。
  3. 如請求項1所述之對話資料處理系統,復包括用於資料擴增之對話資料增強模組,係於各該意圖類別之樣本數不足或是比較所有該意圖類別之間的樣本數差異後,對樣本數少者進行資料增強。
  4. 如請求項3所述之對話資料處理系統,其中,該資料增強係使用同義詞替換、隨機插入、隨機交換、隨機刪除、基於機器學習與深度學習之資料增強方法或其任意組合。
  5. 如請求項1所述之對話資料處理系統,其中,該過濾指標係包括滿意度回饋值、語句情緒正負向極性、對話文字意圖信心度或是否有轉接請求。
  6. 如請求項5所述之對話資料處理系統,其中,該對話資料擷取模組復包括情緒識別單元,係利用情緒識別模型識別該意圖語句之情緒極性,以產生該語句情緒正負向極性。
  7. 如請求項5所述之對話資料處理系統,其中,該對話資料擷取模組復包括意圖識別單元,係利用意圖識別模型計算該意圖語句之意圖識別信心度,以產生該對話文字意圖信心度。
  8. 一種對話資料處理方法,係包括:對話資料擷取模組蒐集具有語句之對話紀錄;該對話資料擷取模組依據過濾指標過濾該對話紀錄以獲得意圖語句;對話資料分群標記模組從多個意圖類別內具有標籤的原有資料中各自選出代表語句;以及該對話資料分群標記模組將該意圖語句分別與各該代表語句進行比對,以由該意圖語句中取得與各該代表語句間的平均語意距離最大者,俾於該平均語意距離最大者小於預定門檻值時,以各該代表語句為中心將該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤,或是於該平均語意距離最大者超過該預定門檻值時,令該平均語意距離最大者之意圖語句為新的意圖類別之新代表語句,且以所有該代表語句及該新代表語句為中心對該意圖語句與隱藏該標籤之該原有資料進行分群與標記,使同一群組內之該意圖語句及該原有資料具有相同標籤。
  9. 如請求項8所述之對話資料處理方法,其中,該對話資料分群標記模組選出代表語句之步驟係對該多個意圖類別中之各者的多個語句所對應之多個語意向量取群心,以自該多個語意向量中取得與該群心距離最小者作為該代表語句。
  10. 如請求項9所述之對話資料處理方法,其中,該對話資料擷取模組依據過濾指標過濾該對話紀錄以獲得意圖語句之步驟復包括於各該意圖類別之樣本數不足或是比較所有該意圖類別之間的樣本數差異後,對樣本數少的意圖類別進行資料增強。
  11. 如請求項10所述之對話資料處理方法,其中,該資料增強係使用同義詞替換、隨機插入、隨機交換、隨機刪除、基於機器學習與深度學習之資料增強方法或其任意組合。
  12. 如請求項8所述之對話資料處理方法,其中,該過濾指標係包括滿意度回饋值、語句情緒正負向極性、對話文字意圖信心度或是否有轉接請求。
  13. 如請求項12所述之對話資料處理方法,其中,該語句情緒正負向極性係利用情緒識別模型識別該意圖語句之情緒極性所產生者。
  14. 如請求項12所述之對話資料處理方法,其中,該對話文字意圖信心度係利用意圖識別模型計算該意圖語句之意圖識別信心度所產生者。
  15. 一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行如請求項8至14之任一項所述之對話資料處理方法。
TW110106716A 2021-02-25 2021-02-25 對話資料處理系統、其方法及電腦可讀媒介 TWI761090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW110106716A TWI761090B (zh) 2021-02-25 2021-02-25 對話資料處理系統、其方法及電腦可讀媒介

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW110106716A TWI761090B (zh) 2021-02-25 2021-02-25 對話資料處理系統、其方法及電腦可讀媒介

Publications (2)

Publication Number Publication Date
TWI761090B true TWI761090B (zh) 2022-04-11
TW202234285A TW202234285A (zh) 2022-09-01

Family

ID=82199148

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110106716A TWI761090B (zh) 2021-02-25 2021-02-25 對話資料處理系統、其方法及電腦可讀媒介

Country Status (1)

Country Link
TW (1) TWI761090B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802459B (zh) * 2022-07-01 2023-05-11 中華電信股份有限公司 基於資料增強推薦問答的系統及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052080A1 (en) * 2005-11-30 2008-02-28 University Of Southern California Emotion Recognition System
TW201820172A (zh) * 2016-11-24 2018-06-01 財團法人資訊工業策進會 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體
CN111274402A (zh) * 2020-02-07 2020-06-12 南京邮电大学 一种基于无监督分类器的电商评论情感分析方法
CN111858916A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 用于聚类句子的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080052080A1 (en) * 2005-11-30 2008-02-28 University Of Southern California Emotion Recognition System
TW201820172A (zh) * 2016-11-24 2018-06-01 財團法人資訊工業策進會 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體
CN111858916A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 用于聚类句子的方法和装置
CN111274402A (zh) * 2020-02-07 2020-06-12 南京邮电大学 一种基于无监督分类器的电商评论情感分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802459B (zh) * 2022-07-01 2023-05-11 中華電信股份有限公司 基於資料增強推薦問答的系統及方法

Also Published As

Publication number Publication date
TW202234285A (zh) 2022-09-01

Similar Documents

Publication Publication Date Title
WO2020108608A1 (zh) 搜索结果处理方法、装置、终端、电子设备及存储介质
CN104598445B (zh) 自动问答系统和方法
CN106021362A (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN108550065B (zh) 评论数据处理方法、装置及设备
WO2021120818A1 (en) Methods and systems for managing image collection
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
US20140188830A1 (en) Social Community Identification for Automatic Document Classification
CN106294344A (zh) 视频检索方法和装置
CN111651606B (zh) 一种文本处理方法、装置及电子设备
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN110008365A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
TWI761090B (zh) 對話資料處理系統、其方法及電腦可讀媒介
CN111767404B (zh) 一种事件挖掘方法和装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN108228779A (zh) 一种基于学习社区对话流的成绩预测方法
CN115439919B (zh) 模型更新方法、装置、设备、存储介质及程序产品
Hitkul et al. Maybe look closer? detecting trolling prone images on instagram
CN112200260B (zh) 一种基于丢弃损失函数的人物属性识别方法
CN116150313A (zh) 数据扩充处理方法及装置
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
TWI693524B (zh) 專屬個性化圖片搜尋優化方法
Paul et al. Multi-facet universal schema
CN113792142B (zh) 基于多语义因素与特征聚合的目标用户隐性关系分类方法