TWI802165B - 用於語音核證之語音辨識系統、方法及其電腦可讀媒介 - Google Patents
用於語音核證之語音辨識系統、方法及其電腦可讀媒介 Download PDFInfo
- Publication number
- TWI802165B TWI802165B TW110148175A TW110148175A TWI802165B TW I802165 B TWI802165 B TW I802165B TW 110148175 A TW110148175 A TW 110148175A TW 110148175 A TW110148175 A TW 110148175A TW I802165 B TWI802165 B TW I802165B
- Authority
- TW
- Taiwan
- Prior art keywords
- certification
- string
- text
- voice
- verification
- Prior art date
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Abstract
本發明揭示一種用於語音核證之語音辨識系統及其方法,核證語音辨識模組用以將一核證語音訊息轉換成文字核證字串和數字核證字串,資料轉換模組用以將該文字核證字串和該數字核證字串分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料,經核證字串正規化模型正規化後,再產生核證比對字串以與正確字串進行比對,進而進行身分驗證,如此能避免語音口述時因同音異字、聲符相近或語音變調所致之辨識錯誤問題。本發明復提供一種電腦可讀媒介,係用於執行本發明之方法。
Description
本發明係關於語音辨識之技術,尤指一種用於語音核證之語音辨識系統、方法及其電腦可讀媒介。
於智能化的現代,由於語音辨識(Automatic Speech Recognition,ASR)技術漸趨成熟,因此,人們能憑口語道出控制語音,即可利用控制語音操控電子產品以產生對應之反應,例如播放音樂或查詢資料等,甚至提出客服服務之請求。以客服服務為例,藉由導入語音辨識之技術,客服服務已從傳統的人工客服轉變為智能客服,其仰賴語音辨識技術將人聲語音轉換為電腦能理解之語音文本資料,使電腦可對該語音文本資料進行分析並判斷其意圖,據之產生對應之回應,故語音辨識技術在全語音化之客服應用中扮演著相當關鍵之角色。
惟,於目前語音辨識技術中,可能因客戶口述之文字內容存在同音異字之情況或是客戶語速較快所致之音調改變之問題,造成辨識結果不甚正確,容易導致客戶感受不佳;另外,客服服務中包括對客戶之身分進行識別之核證項目,其特別重視辨識結果之正確性,舉例來說,客戶口語講出身份證字號、
生日、住址等,透過語音辨識結果來確認客戶是否為本人,故難容錯誤情況發生。是以,於客服系統之語音辨識上,語音辨識結果之正確率高低,影響其應用服務之可用性甚鉅,尤其在需高度正確率的語音核證服務中,辨識率之高低會影響客戶的服務體驗流暢性與身分驗證之安全性等議題。
鑑於上述問題,如何提高語音識別結果之正確性,特別是在遇到文字內容存有同音異字或語速較快的情況下,仍可維持高正確性之語音辨識結果,此將成為目前本技術領域人員急欲追求之目標。
為解決上述現有技術之問題,本發明係揭露一種用於語音核證之語音辨識系統,係包括:核證語音辨識模組,係用以接收核證語音訊息,以將該核證語音訊息轉換成文字核證字串及數字核證字串;以及資料轉換模組,係具有核證字串正規化模型,以於該資料轉換模組接收到該文字核證字串時,將該文字核證字串及該數字核證字串分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料,再透過該核證字串正規化模型,正規化該注音符號格式資料及該阿拉伯數字格式資料,以產生核證比對字串,俾供該核證比對字串與正確字串進行比對。
於一實施例中,該核證語音辨識模組係將該核證語音訊息之文字字詞轉換成該文字核證字串,以及將該核證語音訊息之數字字詞轉換成該數字核證字串。
於另一實施例中,該核證語音辨識模組復包括:領域聲學模型,係用以串連該核證語音訊息與該核證語音訊息經轉換所產生之核證文本資料;
以及領域語言模型,係用以估測該文字核證字串或該數字核證字串出現的機率,以從該核證語音訊息中取得該文字核證字串或該數字核證字串的最高機率輸出。
於另一實施例中,該核證語音辨識模組係透過蒐集文字語料、將該文字語料轉換成無音調之注音符號格式的訓練資料及將該訓練資料進行斷詞處理,以利用經斷詞後之該訓練資料訓練該領域語言模型。
於另一實施例中,該文字語料係包括用以核證之姓名、公司名稱、身分證、電話號碼、地址或生日。
於另一實施例中,該核證語音辨識模組係透過蒐集核證領域語料及連續數字語料,以訓練該領域聲學模型。
於另一實施例中,該核證語音辨識模組取得該核證領域語料及該連練數字語料後,透過資料擴充方法擴增訓練語料,以供該領域聲學模型之訓練。
於又一實施例中,該資料擴充方法包含利用加減速及殘響方式對語料進行加工,以擴增該訓練語料。
本發明復揭露一種用於語音核證之語音辨識方法,係由電腦設備執行該方法,該方法包括以下步驟:由核證語音辨識模組接收核證語音訊息;由該核證語音辨識模組將所接收之該核證語音訊息轉換成文字核證字串及數字核證字串;由資料轉換模組將該文字核證字串及該數字核證字串分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料;以及由該資料轉換模組透過核證字串正規化單元將該注音符號格式資料及該阿拉伯數字格式資料正規化,以產生核證比對字串,俾供該核證比對字串與正確字串進行比對。
於一實施例中,該核證語音辨識模組係將該核證語音訊息之文字字詞轉換成該文字核證字串,以及將該核證語音訊息之數字字詞轉換成該數字核證字串。
於另一實施例中,該核證語音辨識模組將所接收之該核證語音訊息轉換成文字核證字串及數字核證字串之步驟中,復包括:透過領域聲學模型,串連該核證語音訊息與該核證語音訊息經轉換所產生之核證文本資料;以及透過領域語言模型,估測該文字核證字串或該數字核證字串出現的機率,以從該核證語音訊息中取得該文字核證字串或該數字核證字串的最高機率輸出。
於另一實施例中,該核證語音辨識模組係透過蒐集文字語料和將該文字語料轉換成無音調之注音符號格式的訓練資料,以將該訓練資料進行斷詞處理,俾利用經斷詞後之該訓練資料訓練該領域語言模型。
於另一實施例中,該文字語料係包括用以核證之姓名、公司名稱、身分證、電話號碼、地址或生日。
於另一實施例中,該核證語音辨識模組係透過蒐集核證領域語料及連續數字語料,以訓練該領域聲學模型。
於另一實施例中,該核證語音辨識模組取得該核證領域語料及該連練數字語料後,透過資料擴充方法擴增訓練語料,以供該領域聲學模型之訓練。
於又一實施例中,該資料擴充方法包含利用加減速及殘響方式對語料進行加工,以擴增該訓練語料。
本發明復揭露一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行前述之用於語音核證之語音辨識方法。
由上可知,本發明之用於語音核證之語音辨識系統及其方法,係針對用於語音核證應用服務之核證項目進行核證語音辨識,藉此提高各類核證服務項目之辨識率,其中,針對核證語音辨識模組進行語音辨識後之文字字串及數字字串進行核證字串正規化處理,據之提供具有一致性及正確性之核證比對字串,以供後端系統進行資料比對,俾達到提升核證成功正確率之目的。
10:用於語音核證之語音辨識系統
11:核證語音辨識模組
111:領域聲學模型
112:領域語言模型
12:資料轉換模組
121:核證字串正規化模型
S410~S470:流程
S511~S514:流程
圖1係本發明之用於語音核證之語音辨識系統之系統架構圖。
圖2係本發明之用於語音核證之語音辨識系統中核證語音辨識模組之架構圖。
圖3係本發明之用於語音核證之語音辨識系統中資料轉換模組之架構圖。
圖4係本發明之用於語音核證之語音辨識方法之流程圖。
圖5係本發明之用於語音核證之語音辨識方法中領域語言模型進行訓練之流程圖。
以下藉由特定的具體實施形態說明本發明之技術內容,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。
圖1係本發明之用於語音核證之語音辨識系統之系統架構圖,圖2係本發明之用於語音核證之語音辨識系統中核證語音辨識模組之架構圖,以及
圖3係本發明之用於語音核證之語音辨識系統中資料轉換模組之架構圖。如圖1至圖3所示,本發明之用於語音核證之語音辨識系統10自客戶端接收回應客服之核證語音訊息後,藉由核證語音辨識模組11將核證語音訊息轉換成文字核證字串及數字核證字串,經資料轉換模組12將文字核證字串及該數字核證字串先分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料,再進行正規化後,產生用以供其他裝置或系統進行客戶之身分核證之核證比對字串。有關本發明之用於語音核證之語音辨識系統10之具體說明,詳述如下。
核證語音辨識模組11用以接收來自客戶之核證語音訊息,將該核證語音訊息中具有例如姓名、公司名稱、地址之文字字詞轉換成文字核證字串,亦即,核證語音辨識模組11對客戶口述之用以進行核證的核證語音訊息進行語音辨識而形成系統得以分析比對之文字核證字串。
另外,客戶之核證語音訊息中復包括例如身分證、電話號碼、生日之數字字詞,同樣地,核證語音辨識模組11亦可用以將該核證語音訊息之數字字詞轉換成數字核證字串,易言之,本發明之核證語音辨識模組11係將來自客戶之核證語音訊息中的文字字詞及數字字詞,經語音辨識後,分別產生對應之文字核證字串及數字核證字串。
於一具體實施例中,如圖2所示,本發明之核證語音辨識模組11係包括領域聲學模型(Domain Acoustic Model)111以及領域語言模型(Domain Language Model)112,其中,核證語音辨識模組11利用領域聲學模型111串連起核證語音訊息與核證文字資料間的對應關係,並透過核證文字語料訓練而成之領域語言模型112估測文字核證字串或數字核證字串出現的機率,找出核證語音最高機率輸出的文字核證字串或數字核證字串。於一實施例中,領域聲學模型
111以及領域語言模型112於進行資料轉換前可先進行訓練,具體而言,核證語音辨識模組11透過蒐集文字語料,將所蒐集之文字語料進行文字前處理,使文字語料轉換成無音調之注音符號格式的訓練資料,進而對訓練資料進行斷詞(Word Segmentation)處理,最後利用經斷詞後的訓練資料以訓練該領域語言模型112。
詳言之,有關本發明之領域聲學模型111,係透過蒐集核證領域語料及連續數字語料,以進行該領域聲學模型111訓練;另外,於訓練領域聲學模型111前,可使用資料擴充方法以擴增訓練語料,藉以提升領域聲學模型111之訓練效果。於一實施例中,資料擴充方法係包括利用加減速及殘響(Reverb)方式對語料進行加工,以擴增該訓練語料。易言之,本發明之核證語音辨識模組11針對預先蒐集之核證領域語料及連續數字語料,透過包含加減速及殘響等資料擴充方法(或語料加工方法)來擴增訓練語料,藉以提升訓練語料之豐富性。於一實施例中,本發明之核證語音識別模組11係採用因子分解時延神經網路(Factorized Time Delay Neural Network,TDNN-F)之聲學模型架構,進行領域聲學模型111之訓練。
有關本發明之領域語言模型112之訓練中,本發明之核證語音辨識模組11可連接用以蒐集文字語料之文字資料庫(圖未繪示),藉由利用文字資料庫所蒐集的大量用以訓練之文字語料進行模型訓練,其中,文字語料係包括姓名、公司名稱、身分證、電話號碼、地址以及生日等核證項目。具體而言,在語音核證應用中,本發明依據每一核證項目(姓名、公司名稱、身分證、電話號碼、地址、生日)建立獨立之語言模型(例如姓名之領域語言模型),因此,須依據各類核證項目蒐集大量的領域核證之文字語料,利用大量的文字語料對語
言模型進行訓練,以得到可對核證語音訊息中之各種核證項目提供相對應且強健的語音辨識之領域語言模型112,藉以提升語音辨識結果之正確性。
對於領域語言模型112訓練之文字前處理過程中,由核證語音辨識模組11將文字資料庫中所具有之各核證領域文字語料進行修正與轉換,以將文字語料中之阿拉伯數字、詞和符號都由寫法轉為語音讀法之數字訓練文本,以及將文字語料中之姓名、公司、地址辨識中轉換為無聲調的注音符號以作為文字訓練文本,藉此訓練所形成之領域語言模型112可據之解決同音異字、聲符相近、語音變調現象與搶詞等語音影響因素之問題,以達到提升語音辨識結果正確性之功效。
進言之,由於語言模型係經由統計之方式建立,其係統計詞彙和詞彙之間的連接機率關係,且斷詞時所決定詞之邊界亦影響語言模型之良劣,故本發明進一步將文字語料進行斷詞處理,藉以統計詞彙和詞彙之間的連接機率。另外,領域語言模型112取得經斷詞處理後的數字訓練文本以及文字訓練文本,將透過n元語法(n-gram)之語言模型方法訓練(於後面他段會再詳述)以產生統計的領域語言模型112。於一實施例中,核證語音辨識模組11復可透過給定領域語言模型權重以及限縮領域語言模型內之字詞的組合範圍之方式,藉以提升各核證領域之文字核證字串以及數字核證字串的出現機率。
綜上,本發明之核證語音辨識模組11於客戶將核證資料以口述方式發出核證語音訊息時,藉由結合領域語言模型112以及領域聲學模型111將客戶所說之核證語音訊息轉換及去除贅字後,形成有關姓名、公司、地址之文字核證字串以及有關身分證、電話號碼及生日之數字核證字串,以供資料轉換模組12後續進行正規化處理。
如圖1所示,本發明之資料轉換模組12係具有核證字串正規化模型121,以於接收來自核證語音辨識模組11之文字核證字串且去除贅字時,將文字核證字串轉換成無聲調之注音符號格式資料,核證字串正規化模型121即可將注音符號格式資料進行正規化,以產生文字核證比對字串。另外,資料轉換模組12亦於接收數字核證字串且去除贅字後,將僅保留數字部分之數字核證字串換成阿拉伯數字格式資料,藉由核證字串正規化模型121將阿拉伯數字格式資料正規化,以產生數字核證比對字串。是以,本發明之資料轉換模組12係於核證語音辨識模組11將客戶用以核證之語音轉換成文字核證字串及數字核證字串時,將文字核證字串及數字核證字串進一步正規化,以形成可提供後端系統用以進行資料核證程序之核證比對字串,俾可達提供正確的客戶核證資料之目的,避免因口述導致核證資料辨識錯誤之問題。
於一實施例中,資料轉換模組12係可先針對文字核證字串以及數字核證字串進行前處理,即文字字串前處理以及數字字串前處理,其中,文字字串前處理係針對姓名、公司名稱以及地址之文字核證字串之資料格式進行前處理,亦即配合贅字、贅詞與標點符號對照表(其可預先以預定之格式儲存於資料轉換模組),將文字核證字串中之贅字與贅詞去除,保留客戶所提供之姓名、公司名稱以及地址之字串,進而將前述之姓名、公司名稱、地址之字串進一步去除聲調,以轉換成無聲調之注音字串,即僅保留注音部分。以地址為例,於地址之文字核證字串進行辨識時,可解決地址內有關鄉、里、路等地址之相關同音異字的問題;另外,數字串前處理旨在針對號碼、證號、生日等數字核證字串之資料格式,以去除贅字與贅詞,亦針對標點與註記符號,將非數字之字詞進行刪除,僅保留數字部分,再將所保留之數字轉換為阿拉伯數字之資料格
式。具體而言,例如於電話號碼之數字核證字串中,將數字串0開頭之數字字串進行擷取,擷取9-10碼數字,又例如於證號之數字核證字串之擷取上,針對證號中開頭數字為1或2之數字核證字串進行擷取,以擷取九碼數字,再判斷證號是否擷取九碼數字,藉以取得核證所需之完整的號碼之數字核證字串,另外,於生日之數字核證字串之擷取方面,先將字串中有關生日之年、月、日等中文字詞進行字串內之贅字與贅詞去除,藉以保留剩下的數字串內容並據之形成生日之數字核證字串。
於文字核證字串以及數字核證字串進行前處理後,利用核證字串正規化模型121,對經前處理之文字核證字串以及數字核證字串進行各核證字串之正規化處理,亦即,於姓名、公司名稱以及地址之文字核證字串經去除贅字處理,將姓名、公司名稱以及地址之辨識結果所得之文字核證字串拆解成去掉聲調之注音格式資料,並與後端系統(即存有客戶資料之系統)進行姓名、公司名稱以及地址之核證字串比對,藉以解決客戶說出的語音有同音異字、聲符相近與語音變調現象等語音影響因素,同樣地,將證號、生日以及電話號碼數字串進行去除贅字的前處理後,將證號、生日以電話號碼透過加入規則判斷、逆轉文本正規化(Inverse Text Normalization,ITN)方法與LUA程式設計中模式比對規則(pattern matching rule)來處理贅字、修正講法及口語結巴重複說法等影響數字串結果的問題,使數字串可以產生一致性的資料結構。最後,將所產生之文字核證比對字串和數字核證比對字串與後端系統進行正確字串的比對。據此,透過將文字核證字串及數字核證字串之正規化,使其成為進行後續核證比對之資料格式,以避免因客戶語音中無關核證之其他資訊遭到比對所致之辨識錯誤。
綜上,本發明之用於語音核證之語音辨識系統10係包含核證語音辨識模組11以及資料轉換模組12兩部份,於客戶說出有關核證資料內容之核證語音訊息時,本發明透過核證語音辨識模組11將客戶之核證內容轉換為字串,以針對字串進行核證字串前處理及核證字串正規化處理,據之產生核證比對字串,使後端系統在進行比對時可以在格式一致之情況下進行字串比對。因此,本發明之用於語音核證之語音辨識系統10於全語音化之客服語音核證應用中,針對客戶說出之各項核證服務項目之語音,例如姓名、公司名稱、身分證、電話號碼、地址、生日等相異語音內容,進行語音辨識之適性進行設計,藉此提升對客戶之核證語音之辨識率,且對於姓名、公司名稱、身分證、電話號碼、地址、生日等語音辨識後之結果的核證字串進行字串結構的正規化處理,故能達到資料格式之一致性,使所產生之比對結果字串能與後端系統的資料結構一致,即可提升客服語音核證應用之可用性。
圖4係本發明之客服語音核證之語音辨識方法之流程圖。本發明之用於語音核證之語音辨識方法可於例如個人電腦、伺服器或雲端設備之電腦設備執行,其中,本發明之語音核證之語音辨識方法包括以下流程。
於流程S410,接收核證語音訊息。本流程係指由核證語音辨識模組接收核證語音訊息。於實際應用上,客戶藉由行動裝置或可與客服連線之其他裝置以口述之方式輸入核證語音訊息,經網路進行傳輸,以由本發明之用於語音核證之語音辨識系統中核證語音辨識模組接收來自客戶之核證語音訊息。
於流程S420,將核證語音訊息之文字字詞轉換成文字核證字串。本流程係於核證語音辨識模組接收到核證語音訊息時,將核證語音訊息轉換成核證字串,具體而言,核證語音辨識模組將核證語音訊息所包含之文字字詞之
部分轉換成文字核證字串,其中,文字字詞係包括客戶之姓名、公司名稱或地址之核證資訊,是以,核證語音辨識模組將文字字詞轉換成具有客戶之姓名、公司名稱或地址之核證項目之文字核證字串。
於流程S430,將核證語音訊息之數字字詞轉換成數字核證字串。本流程係指於客戶所提供之核證語音訊息中,復包括具有號碼、證號或生日之核證訊息之數字字詞,核證語音辨識模組同樣將核證語音訊息之數字字詞轉換成數字核證字串。須說明者,流程S420和流程S430之執行順序可調換或同時進行。
於一實施例中,於核證語音辨識模組將核證語音訊息之文字字詞以及數字字詞分別轉換成文字核證字串以及數字核證字串之前,用於語音核證之語音辨識系統可預先建立領域聲學模型以及領域語言模型,進而將文字字詞以及數字字詞分別轉換成文字核證字串以及數字核證字串。具體而言,領域聲學模型能串連該核證語音訊息與該核證語音訊息經轉換所產生之核證文本資料,而領域語言模型估測該文字核證字串或該數字核證字串出現的機率,以從該核證語音訊息中取得該文字核證字串或該數字核證字串的最高機率輸出。
進言之,該領域聲學模型能透過蒐集核證領域語料及連續數字語料,進而執行該領域聲學模型之訓練,其中,蒐集核證領域語料及連練數字語料後,先經例如加減速及殘響之資料擴充方法擴增訓練語料,以對該領域聲學模型進行訓練。於一實施例中,本發明之領域聲學模型針對預先蒐集的8K核證領域語料與連續數字語料,透過包含加減速及殘響等資料擴充方法擴增訓練語料,以提升訓練語料之豐富性,其中,本發明採用TDNN-F的聲學模型架構進行領域聲學模型訓練,藉此產生8K的領域聲學模型。
圖5為本發明之用於語音核證之語音辨識方法中領域語言模型進行訓練之流程圖,下面將針對領域語言模型之訓練先進行說明。如圖所示,於本發明中,每一個核證項目皆具有各自獨立之領域語言模型,包括利用文字資料庫蒐集文字語料、文本文字前處理以及斷詞處理等步驟,以提供訓練領域語言模型所需之資料。具體而言,本發明之領域語言模型之訓練係包括如下流程。
於流程S511,利用文字資料庫蒐集文字語料。於本流程中,核證語音辨識模組可連接至蒐集眾多之文字語料的文字資料庫,以使用其所蒐集之文字語料進行訓練,其中,文字語料之項目包括用以核證之姓名、公司名稱、身分證、電話號碼、地址或生日。易言之,文字資料庫蒐集包括姓名、公司名稱、身分證、具有不同組合之一字詞、兩字詞及三字詞的連續數字之電話號碼、具有郵遞區號表以及地址資料之地址以及具有民國及西元之生日等相關項目之訓練文本,將作為訓練領域語言模型之文字語料。
於流程S512,進行本文字前處理。本流程係將文字語料轉換成無音調之注音符號格式訓練資料,詳言之,針對文字資料庫中所蒐集之文字語料進行文本文字前處理,將各核證領域之文字語料中的文字進行修正與轉換,具體而言,將文字語料中之阿拉伯數字、詞和符號都由寫法轉為語音讀法之資料,以及將文字語料中有關姓名、公司以及地址辨識轉換成無聲調的注音符號之資料,且將語音讀法之資料以及注音符號之資料整合形成注音符號格式訓練資料,以作為訓練文本。本發明藉由轉換為無聲調之注音符號之資料,可解決同音異字、聲符相近、語音變調現象與搶詞等語音影響因素之問題。
於流程S513,斷詞處理。本流程即核證語音辨識模組將注音符號格式訓練資料進行斷詞處理,具言之,領域之文字語料於執行完文本文字前處理後,進行斷詞處理,由於領域語言模型是經由統計之方式建立,其統計詞彙之間的連接機率關係,故將領域之文字語料斷詞以統計詞彙之間的機率,進而使領域語言模型受斷詞結果之影響,以提升領域語言模型之辨識效果。
於流程S514中,訓練領域語言模型。本流程即核證語音辨識模組利用經斷詞之注音符號格式訓練資料,訓練領域語言模型。具體而言,利用經斷詞處理之核證項目之文字語料,即注音符號格式訓練資料,進行領域語言模型之訓練。由於領域語言模型進行語音辨識,將影響到語音辨識之詞彙順序,是以,經前述之訓練之領域語言模型於進行語音辨識時,將考量整段核證語音中前後詞彙之間的關連性,而非僅考量單一字詞獨自出現之機率,進而達到提升辨識結果合理性之功效。
於一實施例中,本發明之領域語言模型可使用基於統計之語言模型(Statistic-Based language model),即n-gram語言模型,藉此處理所蒐集之大量文字語料,利用統計方式計算詞彙間之聯結規則,以建立出本發明之領域語言模型。於n-gram語言模型中,每一個詞彙稱為gram,n-gram語言模型將對所有gram於訓練中所出現之次數,以及N個詞彙同時出現之次數進行統計。更具體而言,本發明所建立之n-gram語言模型可為N=3之tri-gram語言模型,即所預估之第N個詞彙的出現機率是依賴前兩個詞彙,據此,假設斷詞後得到一個包含N個詞彙之字串序列,字串序列構成單元以詞彙(word)做為基本單位,詞彙為w,字串序列中共有N個詞,也就是w1、w2、w3、…wN,其所產生之第N個詞彙的機率
係由產生第n-1個詞彙的機率所共同決定,其中,wi代表字串中的第i個詞,此字串之發生機率,可藉由如下所列算式進行計算而獲得。
P(w 1,w 2,w 3,...w N )
藉由使用tri-gram語言模型來找出最佳的字串序列,也就是找出一條擁有最大tri-gram機率的字串序列。最後,針對使用tri-gram語言模型方法訓練所產生之領域語言模型,透過給定領域語言模型權重以及限縮語言模型內字組之組合範圍,以提升各核證領域字串的出現機率。
據此,本發明即可將訓練好之領域聲學模型以及領域語言模型至入用於語音核證之語音辨識系統中,以進行客戶之核證語音辨識,辨識結果會產生文字字串(例如:姓名、公司名稱、地址)或數字字串(例如:證號、生日、號碼)兩種形式字串,即文字核證字串以及數字核證字串,待後續進行資料轉換後,對所得到之文字核證字串以及數字核證字串進行比對處理。
請回到圖4,於執行流程S430後,續而執行流程S440,文字核證字串前處理。本流程係將文字核證字串轉換成無聲調之注音符號格式資料,進言之,於核證語音辨識模組依據核證語音訊息之文字字詞的部分形成文字核證字串時,接著,透過資料轉換模組將文字核證字串轉換成無聲調之注音符號格式資料,其中,無聲調之注意符號格式資料係指將核證字串中之客戶的姓名、公司名稱或地址之核證項目轉換成注音符號格式資料,且進行無聲調之處理,以將注意符號格式資料中之聲調去除,舉例言之,例如將姓名「王小明」轉換
為注音符號格式資料,即為「ㄨㄤˊㄒㄧㄠˇㄇㄧㄥˊ」,其中,「ˊ」、「ˇ」以及「ˊ」即為聲調的部分,資料轉換模組執行無聲調處理時,將之去除,以保留「ㄨㄤ ㄒㄧㄠ ㄇㄧㄥ」之無聲調之注音符號格式資料。
於流程S450,文字之核證字串正規化。本流程係說明透過資料轉換模組之核證字串正規化模型,將該注音符號格式資料正規化,進而產生用以作為後續進行核證比對之文字核證比對字串。詳言之,當電腦設備產生姓名、公司名稱、地址之文字核證字串,且經文字字串前處理後,會進行文字核證字串正規化,其中,資料轉換模組內之核證字串正規化模型,能將注音符號格式資料正規化成文字核證比對字串,據之所產生之姓名、公司名稱、地址之文字核證比對字串,即可供後端系統進行身分比對。
據上所述,本發明透過將姓名、公司名稱、地址之辨識結果中的文字字詞拆成去聲調之注音符號格式資料,其中,注音符號之形式包括聲母(其將ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ視為同一組)、介音(其將ㄧㄨㄩ視為一組)以及韻母(其將ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ視為一組)。另外,本發明復對注音符號中之念法聲符相同的ㄓㄔㄕ(翹舌音)與ㄗㄘㄙ(非翹舌音)進行對應處理,以避免客戶因口述之姓名、公司名稱、地址中出現同音異字與念法聲符相同之字彙,造成辨識錯之問題。由於本發明使用注音符號之處理方式,且搭配聲母、韻母特性之處理方法,將更適合用於例如姓名、公司名稱、地址之類具有無窮組合之應用,藉以提升辨識結果之正確性與系統可用性,故本發明與傳統僅藉由窮舉所有可能念法組合加入語言模型來限制其呈現之方式不同。再者,本發明藉由去聲調之注音符號的方法,處理因念法為連續字串以及語速較快所致之語音變調現象,例如「于」聲調是二聲和「宇」聲調
是三聲,於語速較快時可能造成語音變調,進而影響驗證結果,因此,本發明透過使用去聲調之方式,處理變調現象所造成之影響,據之達到提升驗證可靠度之目的。以下將透過姓名、公司名稱、地址的實際資料轉換過程進行詳細說明。
於姓名之轉換過程之文字字串前處理以及核證字串正規化中,假設經語音辨識之姓名文字字串為"我的名字是洪宇翔"時,資料轉換模組將進行文字字串前處理,以去除"我的名字是"之贅字,保留客戶姓名"洪宇翔",接下來會將姓名字串轉換成注音字串"ㄏㄨㄥˊㄩˇㄒㄧㄤˊ",且去除聲調保留注音部分"ㄏㄨㄥㄩㄒㄧㄤ",即可與後端系統進行正確姓名字串比對。
於公司名稱之轉換過程的文字字串前處理以及核證字串正規化中,若經語音辨識之公司名稱文字字串為"登記公司為中華電信"時,資料轉換模組將進行文字字串前處理,以去除"登記公司為"之贅字,且保留公司名稱"中華電信",接著,將公司名稱字串轉換成注音字串"ㄓㄨㄥㄏㄨㄚˊㄉㄧㄢˋㄒㄧㄣˋ",進而去聲調而保留注音部分"ㄓㄨㄥㄏㄨㄚㄉㄧㄢㄒㄧㄣ",即可與後端系統進行正確公司名稱字串比對。
於地址之轉換過程的文字字串前處理以及核證字串正規化中,如經語音辨識之地址的文字字串為"我家地址為桃園富國路兩百七十號",電腦設備將去除字串內的"我家地址為"贅字與贅詞,僅保留剩下之文字字串,即"桃園富國路兩百七十號",此後,將地址之文字字串轉換成注音字串以及去聲調,以保留注音部分"ㄊㄠㄩㄢㄕㄈㄨㄍㄨㄛㄌㄨㄌㄧㄤㄅㄞㄑㄧㄕㄏㄠ",即可用以與後端系統進行正確地址字串比對。
於流程S460,數字核證字串前處理。本流程即將數字核證字串轉換成阿拉伯數字格式資料,亦即,透過資料轉換模組將該數字核證字串轉換成阿拉伯數字格式資料。
於流程S470,數字之核證字串正規化。於本流程中,資料轉換模組利用核證字串正規化模型將流程S460所產生之阿拉伯數字格式資料正規化,以產生數字核證比對字串。
據此,本發明於核證語音辨識系統產生出證號、生日、電話號碼數字字串時,資料轉換模組將進行數字字串前處理,且將處理後之數字字串,即阿拉伯數字格式資料,經核證字串正規化模組進行核證字串正規化以產生證號、生日、電話號碼之數字核證比對字串,即可供後端系統進行身分比對。以下舉例說明證號、生日、電話號碼之實際資料轉換方法。
於證號之轉換過程的數字字串前處理以及核證字串正規化中,若經語音辨識之證號字串為"我的身分證號碼為一二二二三三四五六",資料轉換模組將針對前述證號字串進行資料前處理,先將非數字之字詞刪除,僅保留數字部分,再將所保留之證號字串轉換為阿拉伯數字格式資料,具體而言,證號字串"我的身分證號碼為一二二二三三四五六"中,"我的身分證號碼為"之非數字之字詞將進行刪除,而保留"一二二二三三四五六"之數字字串,進而將數字字串轉換為"122233456"阿拉伯數字格式資料,於判斷證號為九碼數字後,取得核證所需之阿拉伯數字字串,即可與後端系統進行正確證號字串比對。
於生日之轉換過程的數字字串前處理以及核證字串正規化中,如經語音辨識之生日字串為"我的生日是七十八年十月十六日",資料轉換模組進行前處理,以去除"我的生日是"之贅字,而保留數字部分。具體而言,由於生
日字串之「年」有分西元與民國兩種格式,為求正確之生日輸出格式,本發明導入逆轉文本正規化(Inverse Text Normalization,ITN)與LUA程式設計中模式比對規則(Pattern Matching Rule)進行生日字串之正規化處理。於生日核證的實際應用場景中,可能遇到客戶講錯而修正講法及口語結巴重複字詞之問題,將造成ITN轉換錯誤,進而影響辨識率且使用戶的核證體驗感受度不佳。因此,本發明於ITN方法中,另以LUA語言輔助,藉以改善前述之問題,其中,ITN正規化技術是將語音形式的生日字串辨識結果,改寫成阿拉伯數字,且只包含年、月、日之部分的生日字串作為輸出格式,再輔以LUA Pattern Matching Rule腳本處理去除贅詞及用戶講錯的文字內容之情況,藉以得到正確的生日輸出格式,範例如下表1之範例所示。
於電話號碼之轉換過程的數字字串前處理以及核證字串正規化中,假設語音辨識後之電話號碼字串為"我的電話四零九五六一二三四五六",接下來系統會針對電話號碼字串進行字串前處理,將非數字之字詞進行刪除,僅保留數字部分之數字字串,接著,將所保留之數字字串轉換為阿拉伯數字格式資料,具體而言,於電話號碼字串火"我的電話是零九五六一二三四五六"時,首先電腦設備刪除"我的電話是"非數字之字詞,且保留"零九五六一二三四五六"之數字字串,再將前述之數字字串轉換為"0956123456"之阿拉伯數字格式
資料,以判斷0開頭之後8~9碼的數字視為有效電話號碼數字串,即可與後端系統進行正確證號字串比對。
由上可知,本發明之用於語音核證之語音辨識方法主要包括核證語音辨識方法以及資料轉換方法,係於客戶至語音核證應用服務中透過語音輸入,以進行各項核證項目之核證語音辨識時,核證語音辨識模組將客戶所說之核證語音內容轉為文字字串或數字字串形式,資料轉換模組將前述之字串形式依據各項核證項目之類別進行文字字串或數字字串之字串前處理,使得經字串前處理之文字串進行注音符號的轉換,數字串進行ITN正規化與LUA的轉換,據之產生出各項核證項目之核證比對字串,以提供給後端系統進行客戶身分核證比對。
此外,本發明還揭示一種電腦可讀媒介,係應用於具有處理器(例如,CPU、GPU等)及/或記憶體的計算裝置或電腦中,且儲存有指令,並可利用此計算裝置或電腦透過處理器及/或記憶體執行此電腦可讀媒介,以於執行此電腦可讀媒介時執行上述之方法及各步驟。
本發明之模組、單元、裝置等包括微處理器及記憶體,而演算法、資料、程式等係儲存記憶體或晶片內,微處理器可從記憶體載入資料或演算法或程式進行資料分析或計算等處理,在此不予贅述。易言之,本發明之用於語音核證之語音辨識系統可於電子設備上執行,例如一般電腦、平板或是伺服器,在收到語音資料後執行分析與運算,故用於語音核證之語音辨識系統所進行程序,可透過軟體設計並架構在具有處理器、記憶體等元件之電子設備上,以於各類電子設備上運行;另外,亦可將用於語音核證之語音辨識系統之各模組或單元分別以獨立元件組成,例如設計為計算器、記憶體、儲存器或是具有處理單元的韌體,
皆可成為實現本發明之組件,而領域聲學模型、領域語言模型以及核證字串正規化模型等相關模型,亦可選擇以軟體程式、硬體或韌體架構呈現。
綜上,本發明之用於語音核證之語音辨識系統及其方法,係針對語音核證應用服務中的核證項目進行核證語音辨識之設計,藉此提高各核證服務項目(包含姓名、公司名稱、身分證、電話號碼、地址、生日等)之辨識率,且針對本發明之語音辨識系統進行語音辨識後之文字字串(姓名、公司名稱、地址)以及數字字串(身分證、電話號碼、生日)兩類資料字串結構進行核證字串正規化(Normalization)處理,據之提供具有一致性及正確性之核證比對字串,以供後端系統進行資料比對,提升核證成功正確率。故本發明具有以下功效。
首先,使用無聲調之注音符號文本資料訓練核證語音辨識模組中之領域語言模型,使領域語言模型於處理語音辨識中所遇到之同音異字、聲符相近與語音變調現象等語音影響因素時,能解決全語音化核證服務中姓名、公司名稱、地址辨識率不佳之問題。
其次,本發明針對姓名、公司名稱、地址之文字核證字串之資料結構特性設計前處理與資料轉換正規化方法,使用注音符號去除聲調之方法,以作為核證比對字串,故能解決因為連續字串以及語速較快時會出現的語音變調現象。
再者,本發明針對證號、生日、電話號碼數字核證字串之資料結構特性設計前處理與資料轉換正規化方法,導入規則判斷、ITN方法(Inverse Text Normalization)與LUA Pattern Matching Rule來處理贅字、修正講法及口語結巴重複說法等影響數字串結果的問題。
上述實施例僅為例示性說明,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施例進行修飾與改變。因此,本發明之權利保護範圍係由本發明所附之申請專利範圍所定義,只要不影響本發明之效果及實施目的,應涵蓋於此公開技術內容中。
10:用於語音核證之語音辨識系統
11:核證語音辨識模組
12:資料轉換模組
121:核證字串正規化模型
Claims (13)
- 一種用於語音核證之語音辨識系統,係包括:核證語音辨識模組,係用以接收核證語音訊息,以將該核證語音訊息轉換成文字核證字串及數字核證字串,其中,該核證語音辨識模組包括用以串連該核證語音訊息與該核證語音訊息經轉換所產生之核證文本資料的領域聲學模型,且該核證語音辨識模組透過蒐集核證領域語料及連續數字語料,以訓練該領域聲學模型;以及資料轉換模組,係具有核證字串正規化模型,以於該資料轉換模組接收到該文字核證字串及數字核證字串時,將該文字核證字串及該數字核證字串分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料,再透過該核證字串正規化模型,正規化該注音符號格式資料及該阿拉伯數字格式資料,以產生核證比對字串,俾供該核證比對字串與正確字串進行比對。
- 如請求項1所述之用於語音核證之語音辨識系統,其中,該核證語音辨識模組係將該核證語音訊息之文字字詞轉換成該文字核證字串,以及將該核證語音訊息之數字字詞轉換成該數字核證字串。
- 如請求項1所述之用於語音核證之語音辨識系統,其中,該核證語音辨識模組復包括:領域語言模型,係用以估測該文字核證字串或該數字核證字串出現的機率,以從該核證語音訊息中取得該文字核證字串或該數字核證字串的最高機率輸出。
- 如請求項3所述之用於語音核證之語音辨識系統,其中,該核證語音辨識模組係透過蒐集文字語料、將該文字語料轉換成無音調之注音符號格 式的訓練資料及將該訓練資料進行斷詞處理,以利用經斷詞後之該訓練資料訓練該領域語言模型。
- 如請求項1所述之用於語音核證之語音辨識系統,其中,該核證語音辨識模組取得該核證領域語料及該連練數字語料後,透過資料擴充方法擴增訓練語料,以供該領域聲學模型之訓練。
- 如請求項5所述之用於語音核證之語音辨識系統,其中,該資料擴充方法係包含利用加減速及殘響方式對語料進行加工,以擴增該訓練語料。
- 一種用於語音核證之語音辨識方法,係由電腦設備執行該方法,該方法包括以下步驟:由核證語音辨識模組接收核證語音訊息;由該核證語音辨識模組將所接收之該核證語音訊息轉換成文字核證字串及數字核證字串,且透過領域聲學模型串連該核證語音訊息與該核證語音訊息經轉換所產生之核證文本資料,其中,該核證語音辨識模組透過蒐集核證領域語料及連續數字語料,以訓練該領域聲學模型;由資料轉換模組將該文字核證字串及該數字核證字串分別轉換成無聲調之注音符號格式資料及阿拉伯數字格式資料;以及由該資料轉換模組透過核證字串正規化模型將該注音符號格式資料及該阿拉伯數字格式資料正規化,以產生核證比對字串,俾供該核證比對字串與正確字串進行比對。
- 如請求項7所述之用於語音核證之語音辨識方法,其中,該核證語音辨識模組係將該核證語音訊息之文字字詞轉換成該文字核證字串,以及將該核證語音訊息之數字字詞轉換成該數字核證字串。
- 如請求項7所述之用於語音核證之語音辨識方法,其中,該核證語音辨識模組將所接收之該核證語音訊息轉換成文字核證字串及數字核證字串之步驟中,復包括:透過領域語言模型,估測該文字核證字串或該數字核證字串出現的機率,以從該核證語音訊息中取得該文字核證字串或該數字核證字串的最高機率輸出。
- 如請求項9所述之用於語音核證之語音辨識方法,其中,該核證語音辨識模組係透過蒐集文字語料和將該文字語料轉換成無音調之注音符號格式的訓練資料,以將該訓練資料進行斷詞處理,俾利用經斷詞後之該訓練資料訓練該領域語言模型。
- 如請求項7所述之用於語音核證之語音辨識方法,其中,該核證語音辨識模組取得該核證領域語料及該連練數字語料後,透過資料擴充方法擴增訓練語料,以供該領域聲學模型之訓練。
- 如請求項11所述之用於語音核證之語音辨識方法,其中,該資料擴充方法係包含利用加減速及殘響方式對語料進行加工,以擴增該訓練語料。
- 一種電腦可讀媒介,應用於計算裝置或電腦中,係儲存有指令,以執行如請求項7至12之任一者所述之用於語音核證之語音辨識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110148175A TWI802165B (zh) | 2021-12-22 | 2021-12-22 | 用於語音核證之語音辨識系統、方法及其電腦可讀媒介 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110148175A TWI802165B (zh) | 2021-12-22 | 2021-12-22 | 用於語音核證之語音辨識系統、方法及其電腦可讀媒介 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI802165B true TWI802165B (zh) | 2023-05-11 |
TW202326712A TW202326712A (zh) | 2023-07-01 |
Family
ID=87424193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110148175A TWI802165B (zh) | 2021-12-22 | 2021-12-22 | 用於語音核證之語音辨識系統、方法及其電腦可讀媒介 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI802165B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW324097B (en) * | 1994-04-11 | 1998-01-01 | Hal Trust L L C | Phonology-based automatic speech recognition computer system in which a spoken word is recognized by finding the best match in lexicon to the symbolic representation of the speech signal |
CN101669116A (zh) * | 2007-04-26 | 2010-03-10 | 微软公司 | 用于生成亚洲语字符的识别体系结构 |
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
TW201905806A (zh) * | 2017-06-29 | 2019-02-01 | 碩網資訊股份有限公司 | 一種基於智慧語音人機互動設備之金融服務系統 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-22 TW TW110148175A patent/TWI802165B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW324097B (en) * | 1994-04-11 | 1998-01-01 | Hal Trust L L C | Phonology-based automatic speech recognition computer system in which a spoken word is recognized by finding the best match in lexicon to the symbolic representation of the speech signal |
CN101669116A (zh) * | 2007-04-26 | 2010-03-10 | 微软公司 | 用于生成亚洲语字符的识别体系结构 |
US20170160813A1 (en) * | 2015-12-07 | 2017-06-08 | Sri International | Vpa with integrated object recognition and facial expression recognition |
TW201905806A (zh) * | 2017-06-29 | 2019-02-01 | 碩網資訊股份有限公司 | 一種基於智慧語音人機互動設備之金融服務系統 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
TW202326712A (zh) | 2023-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW472232B (en) | Probability-base fault-tolerance natural language understanding method | |
TWI527023B (zh) | A voiceprint recognition method and apparatus | |
WO2018149209A1 (zh) | 语音识别方法、电子设备以及计算机存储介质 | |
CN109331470B (zh) | 基于语音识别的抢答游戏处理方法、装置、设备及介质 | |
US11043213B2 (en) | System and method for detection and correction of incorrectly pronounced words | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
TW201517016A (zh) | 語音辨識方法及電子裝置 | |
Misra et al. | Spoken language mismatch in speaker verification: An investigation with nist-sre and crss bi-ling corpora | |
JP2009139862A (ja) | 音声認識装置及びコンピュータプログラム | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN110853629A (zh) | 一种基于深度学习的语音识别数字的方法 | |
Nasib et al. | A real time speech to text conversion technique for bengali language | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
JP2015049254A (ja) | 音声データ認識システム及び音声データ認識方法 | |
US20040019488A1 (en) | Email address recognition using personal information | |
CN113393830A (zh) | 混合声学模型训练及歌词时间戳生成方法、设备、介质 | |
TWI802165B (zh) | 用於語音核證之語音辨識系統、方法及其電腦可讀媒介 | |
JP7339116B2 (ja) | 音声認証装置、音声認証システム、および音声認証方法 | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
CN113053409B (zh) | 音频测评方法及装置 | |
Wray et al. | Best practices for crowdsourcing dialectal arabic speech transcription | |
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
JP3628245B2 (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
Balpande et al. | Speaker recognition based on mel-frequency cepstral coefficients and vector quantization |