TW202020854A - 語音辨識系統及其方法、與電腦程式產品 - Google Patents
語音辨識系統及其方法、與電腦程式產品 Download PDFInfo
- Publication number
- TW202020854A TW202020854A TW107141382A TW107141382A TW202020854A TW 202020854 A TW202020854 A TW 202020854A TW 107141382 A TW107141382 A TW 107141382A TW 107141382 A TW107141382 A TW 107141382A TW 202020854 A TW202020854 A TW 202020854A
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- phonetic
- speech recognition
- recognition system
- phonetic text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 235000013580 sausages Nutrition 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 239000003973 paint Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000001035 drying Methods 0.000 description 5
- JCXJVPUVTGWSNB-UHFFFAOYSA-N Nitrogen dioxide Chemical compound O=[N]=O JCXJVPUVTGWSNB-UHFFFAOYSA-N 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 241001417527 Pempheridae Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 208000010110 spontaneous platelet aggregation Diseases 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 102100027378 Prothrombin Human genes 0.000 description 1
- 108010094028 Prothrombin Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 239000004922 lacquer Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 229940039716 prothrombin Drugs 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一種語音辨識系統及其方法、與電腦程式產品實施例,該系統連接外部之通用型語音辨識系統,並包括儲存單元以及處理單元。儲存單元用以儲存特定應用語音辨識模組、比對模組與增強模組。特定應用語音辨識模組將輸入之語音訊號轉換成第一表音文字,而通用型語音辨識系統將語音訊號轉換成書寫文字。比對模組接收來自特定應用語音辨識模組之第一表音文字及來自通用型語音辨識系統之書寫文字,以將書寫文字轉換成第二表音文字,並依據發音的相似程度將第二表音文字及第一表音文字進行對齊,以輸出表音文字對齊結果。增強模組接收來自比對模組之表音文字對齊結果,使表音文字對齊結果經路徑權重分配後與書寫文字及第一表音文字進行構詞,以形成輸出的辨識文字。
Description
本發明係有關語音辨識之技術,特別是關於一種用於特定應用情境之語音辨識系統及其方法、與電腦程式產品。
為將語音轉化為文字資料,一般會選擇使用語音辨識系統作為將使用者的語音訊息轉換成文字資料的工具,常見的語音辨識系統即謂通用型語音辨識系統,例如Google語音辨識系統,使用者所說的語音資訊只需透過通用型語音辨識系統將即可轉為文字,以在通訊軟體傳送聊天訊息或者編譯成文章以於社群網站發佈而提供公眾閱覽,據此,使用者無須以鍵盤逐字輸入,可見語音辨識系統之方便性。另外,隨著智慧型手機之發展,使用者還可直接透過聲音控制智慧型手機作出對應之操作,其仍需透過語音辨識系統的幫助才能達成操作之目的,可見語音辨識在現今生活用途愈趨廣泛及重要。
常見的通用型語音辨識系統在一般情境下能提供水準以上的語音辨識結果,惟一般情境下所使用的詞彙及句型與特定應用情境有所差異,因而,在面對特定應用情境時,例如針對專業術語、文學作品、特定族群、特定環境…等,一般的通用型語音辨識系統之辨識結果將容易產生錯誤。舉例而言,在醫學用語中,「抑制血小板凝集抑制凝血酶原」的語音輸入將可能被轉化為「一隻血小板凝集和醫治你也沒緣」的文字輸出,其輸出結果顯與原意相去甚遠,甚至輸出結果實不具意義。然而,一般通用型語音辨識系統往往只提供文字辨識結果,並未提供足夠的操作選項和細節資訊供開發者或使用者進行後續的補強處理,且通用型語音辨識系統僅能輸出書寫文字,而其書寫文字常未具斷詞、詞彙信心度等細部資訊,又一般通用型語音辨識系統通常屬於雲端服務,使用者能獲得的額外資訊通常有限。因此,在一般通用型語音辨識系統下,使用者將較難改善辨識不精準時之狀況,特別是處於特定應用情境下。
由上可知,在現有語音辨識系統的使用下,如何解決特定應用情況所可能發生之較不精準辨識狀況,此將成為目前本技術領域人員急欲解決之技術挑戰。
本發明提出一種有關語音辨識之機制,以提升語音辨識率。
本發明一實施例提出一種語音辨識系統,此系統連接外部之通用型語音辨識系統,本發明之語音辨識系統並包括處理單元,用以運行多個模組,此些模組包括:特定應用語音辨識模組用以將輸入之語音訊號轉換成第一表音文字,且通用型語音辨識系統用以將語音訊號轉換成書寫文字;比對模組用以接收來自特定應用語音辨識模組之第一表音文字及來自通用型語音辨識系統之書寫文字,並用以將書寫文字轉換成第二表音文字,以供比對模組依據發音的相似程度將第二表音文字及第一表音文字進行對齊,以輸出表音文字對齊結果;以及增強模組用以接收來自比對模組之表音文字對齊結果,使表音文字對齊結果經路徑權重分配後與書寫文字及第一表音文字進行構詞,以形成輸出的辨識文字。
本發明另一實施例提出一種語音辨識方法,其包括:由特定應用語音辨識模組將輸入之語音訊號轉換成第一表音文字,並由通用型語音辨識系統將語音訊號轉換成書寫文字;由比對模組將書寫文字轉換成第二表音文字,並依據發音的相似程度將第二表音文字及第一表音文字進行對齊,以輸出表音文字對齊結果;以及由增強模組接收來自比對模組之表音文字對齊結果,使表音文字對齊結果經路徑權重分配後與書寫文字及第一表音文字進行構詞,以形成輸出的辨識文字。
本發明再一實施例提出一種用於語音辨識之電腦程式產品,當電腦載入電腦程式並執行後,可完成如上開所述之語音辨識方法。
以下藉由特定的具體實施形態說明本發明之技術內容,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。
第1圖說明本發明之語音辨識系統與通用型語音辨識系統之運用範圍,由圖可知本發明之目的在於提升特定情境的語音辨識效果。易言之,本發明非用以取代通用型語音辨識系統1,而是作為通用型語音辨識系統1於特定應用情境方面之輔助或範圍延伸。因此,藉由通用型語音辨識系統1配合本發明之語音辨識系統2(見第2圖實施例)的應用,使得通用型語音辨識系統1可額外增加許多特定領域專屬詞彙與專屬句型之特定應用語音辨識效果。詳言之,使得於針對專業術語、文學作品、特定族群、特定環境等特殊情境的使用時,由於特定應用情境和一般情境下所使用的詞彙與句型有所差異,因而,本發明可輔助通用型語音辨識系統1於前開特定應用情況下,減少辨識結果產生誤差,也可藉本發明之輔助效果,以使得僅擅長一般使用情境的通用型語音辨識系統1能獲得辨識廣度,並搭配擅長特定應用情境的語音辨識系統提升辨識深度。據此可知,本發明之語音辨識系統2以輸出表音文字的特定應用語音辨識機制,來輔助僅能輸出書寫文字之通用型語音辨識系統1,進一步可以修正及擴充其於特定應用情境下的辨識偏差處,來增強辨識率,甚至提供多樣性的辨識結果。
第2圖是依據一範例實施例所繪示之語音辨識系統的示意圖。請參照第2圖,在本範例實施例中,語音辨識系統2包括處理單元201、輸入單元202以及儲存單元203。其中,輸入單元202耦接至儲存單元203。儲存單元203耦接至處理單元201。語音辨識系統2例如是行動裝置、個人數位助理(Personal Digital Assistant,PDA)、筆記型電腦、平板電腦、一般桌上型電腦等,或是其他的電子裝置,在此並不設限。
處理單元201例如可以是一般用途處理器、特殊用途處理器、傳統的處理器、數位訊號處理器、多個微處理器(microprocessor)、一個或多個結合數位訊號處理器核心的微處理器、控制器、微控制器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)、場可程式閘陣列電路(Field Programmable Gate Array,FPGA)、任何其他種類的積體電路、狀態機、基於進階精簡指令集機器(Advanced RISC Machine,ARM)的處理器以及類似產品。
輸入單元202例如是用以接收語音訊號並且提供所接收的語音訊號給儲存單元203 的裝置或元件。舉例來說,輸入單元202例如可以包括:用以採集語音訊號的麥克風,或者,輸入單元202也可以是用以從其他來源(例如,其他裝置或儲存媒體)接收語音訊號的裝置。
儲存單元203例如可以是任意型式的固定式或可移動式隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(Flash memory)、硬碟或其他類似裝置或這些裝置的組合。
請參考第2圖,本發明之語音辨識系統2係可連接外部之通用型語音辨識系統1,並與通用型語音辨識系統1同時接收輸入之語音訊號,進而接收由通用型語音辨識系統1將所接收之語音訊號轉換成的對應之書寫文字,而所接收的語音以及書寫文字經過語音辨識系統2處理將產出增強後的辨識文字。在本範例實施例中,儲存單元203儲存包括至少一特定應用語音辨識模組21、比對模組22、增強模組23、以及分配模組24。
特定應用語音辨識模組21係用以接收輸入單元202所接收之語音訊號,並將語音訊號轉換成第一表音文字,以將第一表音文字輸出至比對模組22中,其中,所述之書寫文字可例如中文或其他語文之語言文字,而表音文字則為表示語言文字之發音所對應構成之文字,舉例來說,書寫文字「這是文字」之對應的表音文字則為「Zhe Shi Wen Zi」。
比對模組22用以接收來自特定應用語音辨識模組21之第一表音文字及來自通用型語音辨識系統1之書寫文字,並用以將書寫文字轉換成第二表音文字,其中,比對模組22更進一步進行表音文字之對齊,其依據各表音文字之發音的相似程度將第二表音文字及第一表音文字進行對齊,以輸出表音文字對齊結果。
增強模組23用以接收來自比對模組22之表音文字對齊結果,進而使表音文字對齊結果經路徑權重分配後與書寫文字及第一表音文字進行構詞,其構詞結果即形成輸出的辨識文字。
進言之,請繼續參考第2圖,語音辨識系統2之儲存單元203復可儲存包括特定應用表音文句25、特定應用表音-詞彙對照表26以及混淆音表格27,特定應用語音辨識模組21於轉換語音訊號為第一表音文字時,可同時讀入特定應用表音詞彙對照表26以及特定應用表音文句25,以在特定情境下,例如使用者發出含有特定領域詞彙的輸入語音,即可將含有特定領域詞彙的輸入語音轉成特定應用表音詞彙或特定應用表音文句輸出。另外,特定應用語音辨識模組21可依據通用型語音辨識系統1的特性進行特別設計,以互補為優先考量,例如,可設計具有低刪除錯誤的特定應用語音辨識模組21,低刪除錯誤可在語音解碼的過程中,降低音素、次音節或音節轉移時的懲罰代價,使得表音文字不易出現發音遺漏的情形。據此,本發明之語音辨識系統2具有可供使用者設計之特性,以輔助或擴展通用型語音辨識系統於不同情境下的使用。
另外,分配模組24可用以語音訊號至通用型語音辨識系統1及特定應用語音辨識模組21,其中,分配模組24於接收來自輸入單元202之語音訊號後,將其同時分配至通用型語音辨識系統1及特定應用語音辨識模組21中。
請參考第3圖實施例,比對模組22可進一步包括轉表音文字單元221及表音文字對齊單元222,比對模組21於接收書寫文字後由轉表音文字單元221轉換成第二表音文字,進而以表音文字對齊單元222接收第一表音文字及第二表音文字並進行表音文字對齊,於第一表音文字及第二表音文字對齊後輸出表音文字對齊結果,其中,轉表音文字單元221將通用型語音辨識系統1輸出的書寫文字轉換成第二表音文字,在轉換過程中會參考一外部之發音詞典對書寫文字進行斷詞和尋找最佳發音,而將第二表音文字和第一表音文字以動態規劃(Dynamic Programming)的方式找出哪些表音文字段落可以相互對應,對應段落中來自兩者的字詞個數可以不一樣。
於一實施例,如第4圖所示,轉表音文字單元221接收由通用型語音辨識系統輸出的書寫文字後進行書寫文字斷詞(見步驟S191),其中,進行書寫文字斷詞以斷詞演算法2211讀入發音字典2212並進行書寫文字之斷詞演算,接著再讀入發音字典2212將斷詞後的書寫文字轉換成對應的第二表音文字(見步驟S192),並輸出至表音文字對齊單元222。進一步地,表音文字對齊單元222將輸入之第二表音文字及第一表音文字轉換成未含斷詞資訊的表音文字表示法(見步驟S193),再經初始化距離矩陣後(見步驟S194),依據發音相似程度計算對齊路徑之代價(見步驟S195),進而搜尋最佳對齊路徑(見步驟S196),並輸出對齊結果,其中,對齊結果可用圖(Graph)來表示,例如晶格圖(Lattice graph)或香腸圖(Sausage graph)。
請參考第5圖實施例,增強模組23包括路徑權重分配單元231、混淆音路徑擴展單元232以及構詞單元233,路徑權重分配單元231讀入混淆音表格27,針對相互對應的表音文字段落,依據混淆程度給予不同的權重。亦即,路徑權重分配單元231接收表音文字對齊結果並讀入混淆音表格27,以針對表音文字對齊結果之混淆程度進行路徑權重分配,其中,可能遇到的情況如取代錯誤(substitution error)或插入錯誤(insertion error),取代錯誤的部份以混淆程度決定權重。也就是說,當混淆程度低時,較相信第一表音文字的發音辨識,當混淆程度高時,第二表音文字或第一表音文字的可能性差不多,而混淆程度可由先驗知識(prior knowledge)或數據驅動(data-driven)獲得,另外,插入錯誤的部份則採信第一表音文字。
混淆音路徑擴展單元232接收經路徑權重分配單元231進行路徑權重分配之表音文字對齊結果,並讀入混淆音表格27,依據辨識過程中信心值較低的發音,平行展開表音文字的相近音,這些相近音的權重會參考上述路徑權重分配的結果,其中,混淆音可用先驗知識或用數據驅動的方式得來,而先驗知識為基於聲學理論上的推演,數據驅動乃以實驗得知哪些發音易混淆。詳而言之,每一第二表音文字及第一表音文字具有信心值,混淆音路徑擴展單元232針對信心值低於門檻值之各表音文字分別平行展開相近音,其中,各相近音的權重參考路徑權重分配之分配權重。
構詞單元233讀入特定應用表音-詞彙對照表,將路徑中可能構成特定應用詞彙的表音文字段落轉換成詞彙,以對表音文字對齊結果、書寫文字及第一表音文字針對特定應用表音詞彙進行構詞,其中,構詞優先考慮特定應用的專屬詞彙;若有額外的通用詞彙,則構詞順位較低。另外,構詞單元233接收表音文字對齊結果、書寫文字及第一表音文字並進行構詞,以輸出辨識文字,其中,表音文字對齊結果亦可先經路徑權重分配單元231及混淆音路徑擴展單元232針對表音文字進行路徑與權重分配以及路徑擴展。
增強模組23具體而言,請同時參考第6圖,第5圖之路徑權重分配單元231接收表音文字對齊結果並讀入混淆音表格27,以針對表音文字對齊結果之表音文字段落中之第二表音文字及第一表音文字之混淆程度之高低以分配權重。如上述,每一表音文字皆有其信心值,混淆音路徑擴展單元232針對信心值低於門檻值θ值的表音文字段落平行展開表音文字之相近音。例如,第二表音文字為音節Ai
,其權重WAi
, 第一表音文字為音節Bi
,其權重WBi
,經路徑擴展後,找到音節以及音節和音節,其中,音節為音節的混淆音,混淆音權重的值可等於或略小於,而音節和為音節的混淆音,混淆音權重和的值可等於或略小於,據此獲得路徑擴展。
請參考第7圖實施例,在第5圖之增強模組23中,其由路徑權重分配單元231接收對齊結果並讀入混淆音表格27,以依據混淆程度分配路徑權重(見步驟S201),再於混淆音路徑擴展單元232中,依據表音文字的信心值平行擴展其混淆音路徑(見步驟S202),再由構詞單元233讀入特定應用表音-詞彙對照表26以將表音文字轉換特定應用詞彙(見步驟S203),再與通用型語音辨識系統輸出的書寫文字進行合併文字(見步驟S204),進而形成增強的辨識結果。
請參考第8圖實施範例,其進一步說明特定應用語音辨識模組21的一實施例架構,其中,特定應用語音辨識模組21於接收使用者之語音後,可參考信號處理A1、聲學模型A2、搜尋網路A3及搜尋演算法A4以進行語音轉換第一表音文字之程序,例如,使用者說「湯姆克魯斯的不可能的任務」之語音的訊息後,特定應用語音辨識模組21則經由前述信號處理A1、聲學模型A2、搜尋網路A3及搜尋演算法A4以將語音的訊息轉換成「Tang Mu Ke Lu Si De Bu Ke Neng De Ren Wu」,此即為第一表音文字。前述信號處理A1可將時域信號轉換成特徵參數,聲學模型A2為描述發音的統計模型,搜尋網路A3可描述詞彙接續關係的圖模型(graph model),搜尋演算法A4可從搜尋網路當中找出符合輸入語音特性的路徑。
另外,特定應用語音辨識模組21利用表音文字語料建立之表音文字辨識搜尋網路,請參考第9圖實施範例,特定應用語音辨識模組21還可包括斷詞與構音B1,並可讀入一外部之字典B2,進而可將特定應用書寫文字資料B3經斷詞與構音B1轉換成含有斷詞資訊的表音文字之表音文字語料B4或未含有斷詞資訊的表音文字之表音文字語料B4,再利用表音文字語料B4透過N連文法或類神經網路文法以建立構詞模型,更進一步地應用有限狀態機或樹狀搜尋結構以建構搜尋網路。而建立聲學模型的部分,可從語音信號萃取特徵參數,例如梅爾倒頻譜係數(MFCC)、感知線性預估係數(PLP)、頻譜能帶(Fbank);然後使用隱藏式馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度類神經網路(DNN)來建立聲學模型。
請參考第10圖的範例中,以一例示說明比對模組22之運作,其中,以「硝基漆乾燥快漆模較強」之特定應用情境為例,經使用者以語音發出再由通用型語音辨識系統1轉換成書寫文字,可能輸出「掃地機乾燥會奇摩校長」之結果,「掃地機乾燥會奇摩校長」之書寫文字經比對模組22轉為第二表音文字為「Sao Di Ji Gan Zao Hui Qi Mo Xiao Zhang」,而「硝基漆乾燥快漆模較強」之語音的訊息由特定應用語音辨識模組21直接轉換成第一表音文字為「Xiao Ti Qin Gan Zao Kuai Qing Wo Jiao Qiang」之結果,由此即可明顯發現本發明之語音辨識系統2及通用型語音辨識系統1在特定應用情境上之語音辨識效果之差異。進一步地,使第二表音文字及第一表音文字形成如第10圖的範例之距離矩陣,在距離矩陣中,採取選擇路徑最短之方式,其中,在路徑中實線箭頭符號為採用插入型編修,而虛線箭頭符號為採用無編修的方式,以使發音對齊,即如第12A圖的範例之對齊結果。
另外,再參考第11圖的範例,其為另一例示,其中例句為使用者發出「暗自冷笑」的語音的訊息,對此,通用型語音辨識系統1可能產生僅有「笑」的書寫文字結果,經比對模組轉為「Xiao」的第二表音文字,另外,特定應用語音辨識模組21將語音的訊息轉為「An Zi Leng Xiao」的第一表音文字,經比對模組所建立的距離矩陣僅為如圖所示之一行,其中,「An Zi Leng」採用插入型編修,而「Xiao」則採用無編修以完成如第12B圖的範例所示之對齊結果,其中,無編修的發音對齊在一起,插入型編修則與一個空白表示符號「-」對齊。由第12B圖顯見,由通用型語音辨識系統1所形成之書寫文字本就存在可能無法辨識的結果,此將進一步造成第二表音文字有嚴重的刪除型錯誤之對齊結果,可見通用型語音辨識系統1在特定應用情境時之較不精準辨識狀況。
承上列示,請再參考第13A圖的範例並同時參考第5圖,其為增強模組23接收比對模組21之對齊結果。由圖可見,在路徑權重分配單元231之路徑權重分配中,「Di和Ti」、「Xiao和Jiao」二組表音文字段落中的第二表音文字及第一表音文字的發音相似,則二條路徑權重皆接近0.5,此時,其混淆度低。而如「Sao和Xiao」、「Ji和Qin」等組,其第二表音文字及第一表音文字的發音相差較大,故相信第一表音文字的結果,進而給予較高的路徑權重,亦即,其混淆度較高。另外,請再參考第13B圖的範例,當遇到第一表音文字有段落發生刪除錯誤,則選擇相信第二表音文字之辨識結果,此時,第一表音文字之路徑權重為0、第二表音文字之路徑權重為1。詳言之,請再參考第14圖的範例可知,其中路徑權重之計算,先自混淆音表格中找出混淆音對應之數值,透過S函式以計算權重值,此S函式的輸入為混淆音表格中的數值,其中,參數控制S函式的最小值,參數控制S函式的範圍,參數控制S函式的變化率以及參數控制S函式的反轉點位置,據前開方式獲得表音文字之路徑權重。
請參考第15圖的範例並同時參考第5圖,於增強模組23中,混淆音路徑擴展單元232針對信心值低於門檻值θ值的表音文字,參考混淆音表格將其混淆音路徑展開。如圖所示,例如Ti的混淆音Ji,Qin的混淆音為Qi,Qiang的混淆音Jiang,擴展的混淆音路徑權重會參考該發音已分配到的權重。
另外,請再參考第16圖的範例並同時參考第5圖,於「硝基漆乾燥快漆模較強」之例示中,如圖所示,構詞單元233將混淆音路徑擴展單元232對於混淆音路徑擴展結果進行構詞,於構詞時同時參考特定應用表音詞彙以形成辨識文字輸出。一實施例,於構詞時,可優先考慮特定應用的專屬詞彙;若有額外的通用詞彙,則構詞順位較低。亦即,如第16圖左下方可見,構詞單元233於構詞時先讀入特定應用表音-詞彙對照表26,以針對特定應用表音-詞彙對照表26中的特定應用表音-詞彙依據各表音文字經路徑權重分配單元231之路徑權重分配及混淆音路徑擴展單元232之混淆音路徑擴展後所展開的路徑及其權重分配,挑選詞彙,可進而增強形成的辨識文字。構詞的準則中分為可以構詞及無法構詞,可以構詞為自路徑權重分配單元231及混淆音路徑擴展單元232所展開之路徑中尋找可能出現特定應用專屬詞彙的片段,其路徑可為展開的晶格圖(lattice graph)或香腸圖(sausage graph),於尋找的過程中,可使用完整匹配(exact match)或小幅度的模糊比對(fuzzy match)以補救混淆音未考慮到的情形,特定應用專屬詞彙構詞完後,檢查是否有權重高的第一表音文字部份路徑尚未被構詞,這時可以載入通用詞彙來構詞,剩下的部份採用原本通用型語音辨識系統所建議的書寫文字,或是保留表音文字,而無法構詞為採用通用型語音辨識系統原本的書寫文字或拒絕此次辨識結果,並可提醒使用者「輸入語音未包含特定應用的詞彙」,藉此構詞準則產生構詞結構。由圖所示之構詞結果顯見,經本發明之語音辨識系統2所輸出的結果「硝基漆乾燥快漆模較強」符合原使用者輸入之語音的訊息內容,而由通用型語音辨識系統1所輸出「掃地機乾燥會奇摩校長」之結果與原使用者之原意相去甚遠。
請參考第17圖的比較圖,其分列一語音訊號以人工聽打方式之書寫文字結果、以通用型語音辨識系統辨識之書寫文字結果、該通用型語音辨識系統辨識之書寫文字轉拼音結果、以及以特定應用語音辨識模組辨識之表音文字結果。其中,顯見於通用型語音辨識系統辨識之書寫文字發生錯誤或無法辨識的結果,其將影響由書寫文字而來的書寫文字轉拼音結果。反之,特定應用語音辨識模組辨識之表音文字則完整輸出該語音訊號之發音結果,其經書寫文字修正結果可產生與人工聽打結果相同的結果。
請參考第18圖實施範例並同時參考第2圖,其為本發明之一種語音辨識之方法,其包括下列步驟。
於步驟S181中,語音辨識系統2連接外部之通用型語音辨識系統1,進而使得語音辨識系統2可接收通用型語音辨識系統1的語音辨識結果,其中,語音辨識系統2及通用型語音辨識系統1請參考上開之詳細說明,此間不作贅述。
於步驟S182中,接收語音,於使用者輸入語音訊號時,即時接收語音的訊息,具體而言,由輸入單元202接收語音訊號並提供予或儲存於儲存單元203,特定應用語音辨識模組21接收儲存單元203中之語音訊號,以轉換成第一表音文字,此外,通用型語音辨識系統1亦接收相同語音訊號之訊息,進而轉換成書寫文字,另外,接收語音復可包括以儲存於儲存單元203中之分配模組24接收輸入單元202所接收之語音訊號,並分配至通用型語音辨識系統1及特定應用語音辨識模組21。
於步驟S183中,對齊表音文字,先利用語音辨識系統2之比對模組22將來自通用型語音辨識系統1之書寫文字轉換成第二表音文字,比對模組22依據發音的相似程度將第二表音文字及第一表音文字進行表音文字之對齊程序,以形成表音文字對齊結果。
於步驟S184中,形成輸出的辨識文字,其利用語音辨識系統2之增強模組23接收來自比對模組22之表音文字對齊結果,經路徑權重分配使表音文字對齊結果包含路徑權重,再將具有路徑權重之表音文字對齊結果與書寫文字及第一表音文字進行構詞,以增強形成的辨識文字。
請再參考第19圖實施範例並同時參考第2、4圖,其為比對模組中之比對流程,比對模組22包括轉表音文字單元221及表音文字對齊單元222,轉表音文字單元221將書寫文字轉換成第二表音文字,表音文字對齊單元222依據發音的相似程度將第二表音文字及第一表音文字進行對齊,以形成表音文字對齊結果,詳言之,比對模組22中之比對流程如下述。
於步驟S191中,轉表音文字單元221進行書寫文字斷詞,其中,利用斷詞演算法2211對書寫文字執行斷詞演算,於斷詞演算法執行斷詞演算時,斷詞演算法先讀入發音字典2212,以參考發音字典對書寫文字進行斷詞,另外,轉表音文字單元221亦可參考外部之發音字典,以將書寫文字進行斷詞和尋找發音。
於步驟S192中,讀入發音字典以將斷詞後之書寫文字轉換成對應之表音文字,經斷詞後的書寫文字,依其斷詞及對應發音字典,以形成第二表音文字。
於步驟S193中,表音文字對齊單元222執行轉換未含斷詞資訊之表音文字表示法,於接收第二表音文字及第一表音文字後,將未含斷詞資訊之表音文字進行轉換,以形成斷詞之第二表音文字及第一表音文字,其中,表音文字對齊單元222可將第二表音文字及第一表音文字以動態規劃之方式以獲得對應之表音文字段落。
於步驟S194中,初始化距離矩陣,將經斷詞之第二表音文字及第一表音文字形成距離矩陣。
於步驟S195中,依據發音相似程度計算對齊路徑之代價,針對由第二表音文字及第一表音文字所形成距離矩陣計算對齊路徑,其中,對齊路徑可採最短路徑方法進行。
於步驟S196中,搜尋對齊路徑,於計算對齊路徑後,搜尋最佳的對齊路徑以形成對齊結果,其中,對齊結果得利用圖(如晶格圖或香腸圖)表示。
請再參考第20圖實施範例並同時參考第2、7圖,其係本發明之語音辨識系統2中,增強模組之實施流程,其說明如下。
於步驟S201中,依據混淆程度分配路徑權重,路徑權重分配單元231接收表音文字對齊結果並讀入混淆音表格,以針對表音文字對齊結果依據混淆程度分配路徑權重。
於步驟S202中,依據表音文字的信心值平行擴展其混淆音路徑,表音文字對齊結果經路徑權重分配後復經混淆音路徑擴展並可讀入混淆音表格,其中,每一第二表音文字及第一表音文字具有信心值,當信心值低於門檻值時,混淆音路徑擴展單元針對各表音文字分別平行展開相近音,且各相近音的權重參考路徑權重分配之分配權重。
於步驟S203中,表音文字轉換特定應用詞彙,構詞單元233讀入特定應用表音-詞彙對照表,並對表音文字對齊結果及第一表音文字轉換成特定應用表音詞彙。
於步驟S204中,合併文字,將經轉換表音文字對齊結果及第一表音文字之特定應用表音詞彙與來自通用型語音辨識系統1輸出的書寫文字進行合併文字,以形成增強的辨識結果。
另外,本發明復提供一種用於語音辨識之電腦程式產品,當電腦載入電腦程式並執行後,可完成上開所述之語音辨識方法。
綜上所述,本發明之語音辨識系統及方法,可輔助通用型語音辨識系統,進一步於特定應用情境時的辨識效果之提升。
上述實施形態係例示性說明本發明之原理及其功效,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。因此,本發明之權利保護範圍,應如隨附之申請專利範圍所列。
1:通用型語音辨識系統2:語音辨識系統201:處理單元202:輸入單元203:儲存單元21:特定應用語音辨識模組22:比對模組221:轉表音文字單元2211:斷詞演算法2212:發音字典222:表音文字對齊單元23:增強模組231:路徑權重分配單元232:混淆音路徑擴展單元233:構詞單元24:分配模組25:特定應用表音文句26:特定應用表音-詞彙對照表27:混淆音表格A1:信號處理A2:聲學模型A3:搜尋網路A4:搜尋演算法B1:斷詞與構音B2:字典B3:特定應用書寫文字資料B4:表音文字語料S181至S184、S191至S196、S201至S204:步驟
第1圖為本發明與通用型語音辨識系統之架構關係示意圖; 第2圖為本發明之語音辨識系統的一實施例示意圖; 第3圖為本發明一實施例之比對模組之內部結構圖; 第4圖為本發明一實施例之比對模組運作的流程圖; 第5圖為本發明一實施例之增強模組之內部結構圖; 第6圖為本發明一實施例之混淆音路徑擴展單元之路徑展開前後示意圖; 第7圖為本發明一實施例之增強模組運作的流程圖; 第8圖為本發明一實施例之特定應用語音辨識模組的實施架構圖; 第9圖為本發明一實施例之特定應用語音辨識模組之斷詞與構音的實施流程圖; 第10圖為依據本發明一實施例之比對模組之第一例示之距離矩陣圖; 第11圖為依據本發明一實施例之比對模組之第二例示之距離矩陣圖; 第12A圖為依據本發明一實施例之比對模組第一例示之對齊結果香腸圖; 第12B圖為依據本發明一實施例之比對模組第二例示之對齊結果香腸圖; 第13A圖為依據本發明一實施例之增強模組第一例示之路徑權重分配香腸圖; 第13B圖為依據本發明一實施例之增強模組第二例示之路徑權重分配結果之香腸圖; 第14圖為依據本發明一實施例之增強模組第一例示之路徑權重分配單元示意圖; 第15圖為本發明一實施例之增強模組之混淆音路徑擴展單元實施示意圖; 第16圖為本發明之增強模組之構詞單元實施例示意圖; 第17圖為一比較圖,其中列出人工聽打方式之書寫文字結果、以通用型語音辨識系統辨識之書寫文字結果、該通用型語音辨識系統辨識之書寫文字轉拼音結果、以及以本發明之特定應用語音辨識模組辨識之表音文字結果; 第18圖為本發明一實施例之語音辨識之方法步驟示意圖; 第19圖為本發明一實施例之比對模組運作流程圖;以及 第20圖為本發明一實施例之增強模組運作流程圖。
1:通用型語音辨識系統
2:語音辨識系統
201:處理單元
202:輸入單元
203:儲存單元
21:特定應用語音辨識模組
22:比對模組
23:增強模組
24:分配模組
25:特定應用表音文句
26:特定應用表音-詞彙對照表
27:混淆音表格
Claims (25)
- 一種語音辨識系統,其連接外部之通用型語音辨識系統,並包括處理單元,用以運行多個模組,此些模組包括: 特定應用語音辨識模組,用以將輸入之語音訊號轉換成第一表音文字,且該通用型語音辨識系統將該語音訊號轉換成書寫文字; 比對模組,用以接收來自該特定應用語音辨識模組之該第一表音文字及來自該通用型語音辨識系統之該書寫文字,並用以將該書寫文字轉換成第二表音文字,以供該比對模組依據發音的相似程度將該第二表音文字及該第一表音文字進行對齊,以輸出表音文字對齊結果;以及 增強模組,用以接收來自該比對模組之該表音文字對齊結果,使該表音文字對齊結果經路徑權重分配後與該書寫文字及該第一表音文字進行構詞,以形成輸出的辨識文字。
- 如申請專利範圍第1項所述之語音辨識系統,其中,該比對模組包括轉表音文字單元及表音文字對齊單元,該轉表音文字單元將該書寫文字轉換成該第二表音文字,且該表音文字對齊單元依據該發音的相似程度將該第二表音文字及該第一表音文字進行對齊,以形成該表音文字對齊結果。
- 如申請專利範圍第2項所述之語音辨識系統,其中,該轉表音文字單元使用斷詞演算法讀入發音字典後進行書寫文字之斷詞,再讀入該發音字典以將斷詞後之該書寫文字轉換成對應之該第二表音文字。
- 如申請專利範圍第2項所述之語音辨識系統,其中,該轉表音文字單元參考外部之發音詞典,以將該書寫文字進行斷詞和尋找發音。
- 如申請專利範圍第2項所述之語音辨識系統,其中,該表音文字對齊單元包括轉換未含斷詞資訊之表音文字表示法、初始化距離矩陣、計算對齊路徑之代價及搜尋對齊路徑。
- 如申請專利範圍第2項所述之語音辨識系統,其中,該表音文字對齊單元將該第二表音文字及該第一表音文字以動態規劃之方式獲得對應之表音文字段落。
- 如申請專利範圍第1項所述之語音辨識系統,其中,該表音文字對齊結果以晶格圖或香腸圖表示。
- 如申請專利範圍第1項所述之語音辨識系統,復包括儲存單元及輸入單元,其中,該儲存單元用以儲存該特定應用語音辨識模組、該比對模組以及該增強模組,且該輸入單元用以接收該語音訊號並提供至該儲存單元。
- 如申請專利範圍第8項所述之語音辨識系統,其中,該儲存單元復儲存包括特定應用表音-詞彙對照表,且該增強模組之構詞單元讀入該特定應用表音-詞彙對照表,以針對特定應用表音-詞彙對該表音文字對齊結果、該書寫文字及該第一表音文字轉換成特定應用表音詞彙。
- 如申請專利範圍第8項所述之語音辨識系統,其中,該儲存單元復儲存包括混淆音表格,且該增強模組包括路徑權重分配單元,用以接收該表音文字對齊結果並讀入該混淆音表格,以針對該表音文字對齊結果之混淆程度進行路徑權重分配。
- 如申請專利範圍第10項所述之語音辨識系統,其中,該增強模組復包括混淆音路徑擴展單元,用以接收經該路徑權重分配之該表音文字對齊結果,並讀入該混淆音表格。
- 如申請專利範圍第11項所述之語音辨識系統,其中,該第二表音文字及該第一表音文字具有信心值,當該信心值低於門檻值時,該混淆音路徑擴展單元針對該信心值低於該門檻值之各表音文字分別平行展開相近音,且各該相近音的權重參考該路徑權重分配之分配權重。
- 如申請專利範圍第1項所述之語音辨識系統,復包括分配模組,用以將該語音訊號分配至該通用型語音辨識系統及該特定應用語音辨識模組。
- 如申請專利範圍第1項所述之語音辨識系統,其中,該辨識文字為書寫文字、表音文字或書寫與表音之混合文字。
- 一種語音辨識方法,其包括: 由特定應用語音辨識模組將輸入之語音訊號轉換成第一表音文字,並由通用型語音辨識系統將該語音訊號轉換成書寫文字; 由比對模組將該書寫文字轉換成第二表音文字,並依據發音的相似程度將該第二表音文字及該第一表音文字進行對齊,以輸出表音文字對齊結果;以及 由增強模組接收來自該比對模組之該表音文字對齊結果,使該表音文字對齊結果經路徑權重分配後與該書寫文字及該第一表音文字進行構詞,以形成輸出的辨識文字。
- 如申請專利範圍第15項所述之語音辨識方法,其中,該比對模組包括以轉表音文字單元將該書寫文字轉換成該第二表音文字、以及以表音文字對齊單元依據發音的相似程度將該第二表音文字及該第一表音文字進行對齊,以形成該表音文字對齊結果。
- 如申請專利範圍第16項所述之語音辨識方法,其中,該轉表音文字單元使用斷詞演算法讀入發音字典後進行書寫文字之斷詞,再讀入該發音字典以將斷詞後之該書寫文字轉換成對應之該第二表音文字。
- 如申請專利範圍第16項所述之語音辨識方法,其中,該轉表音文字單元參考外部之發音字典,以將該書寫文字進行斷詞和尋找發音。
- 如申請專利範圍第16項所述之語音辨識方法,其中,該表音文字對齊單元包括轉換未含斷詞資訊之表音文字表示法、初始化距離矩陣、計算對齊路徑之代價及搜尋對齊路徑。
- 如申請專利範圍第16項所述之語音辨識方法,其中,該表音文字對齊單元將該第二表音文字及該第一表音文字以動態規劃之方式獲得對應之表音文字段落。
- 如申請專利範圍第15項所述之語音辨識方法,其中,該增強模組之構詞單元讀入特定應用表音-詞彙對照表,以針對特定應用表音-詞彙對該表音文字對齊結果、該書寫文字及該第一表音文字轉換成特定應用表音詞彙。
- 如申請專利範圍第15項所述之語音辨識方法,其中,該增強模組之路徑權重分配單元接收該表音文字對齊結果並讀入混淆音表格,以針對該表音文字對齊結果之混淆程度進行路徑權重分配。
- 如申請專利範圍第15項所述之語音辨識方法,其中,該第二表音文字及該第一表音文字具有信心值,當該信心值低於門檻值時,該混淆音路徑擴展單元針對該信心值低於該門檻值之各表音文字分別平行展開相近音,且各該相近音的權重參考該路徑權重分配之分配權重。
- 如申請專利範圍第15項所述之語音辨識方法,復包括以分配模組將該語音訊號分配至該通用型語音辨識系統及該特定應用語音辨識模組。
- 一種用於語音辨識之電腦程式產品,當電腦載入電腦程式並執行後,可完成如申請專利範圍第15項至第24項中任一項所述之語音辨識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107141382A TWI698857B (zh) | 2018-11-21 | 2018-11-21 | 語音辨識系統及其方法、與電腦程式產品 |
CN201811528962.9A CN111292740B (zh) | 2018-11-21 | 2018-12-13 | 语音辨识系统及其方法 |
US16/529,010 US11527240B2 (en) | 2018-11-21 | 2019-08-01 | Speech recognition system, speech recognition method and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107141382A TWI698857B (zh) | 2018-11-21 | 2018-11-21 | 語音辨識系統及其方法、與電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202020854A true TW202020854A (zh) | 2020-06-01 |
TWI698857B TWI698857B (zh) | 2020-07-11 |
Family
ID=70726667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107141382A TWI698857B (zh) | 2018-11-21 | 2018-11-21 | 語音辨識系統及其方法、與電腦程式產品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11527240B2 (zh) |
CN (1) | CN111292740B (zh) |
TW (1) | TWI698857B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933125B (zh) * | 2020-09-15 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 联合模型的语音识别方法、装置和计算机设备 |
EP3989219B1 (en) * | 2020-10-22 | 2023-11-22 | Thomson Licensing | Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium |
US11810550B2 (en) | 2021-02-24 | 2023-11-07 | Conversenowai | Determining order preferences and item suggestions |
US11862157B2 (en) | 2021-02-24 | 2024-01-02 | Conversenow Ai | Automated ordering system |
US11354760B1 (en) | 2021-02-24 | 2022-06-07 | Conversenowai | Order post to enable parallelized order taking using artificial intelligence engine(s) |
US11514894B2 (en) | 2021-02-24 | 2022-11-29 | Conversenowai | Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one |
US11355122B1 (en) * | 2021-02-24 | 2022-06-07 | Conversenowai | Using machine learning to correct the output of an automatic speech recognition system |
US11348160B1 (en) | 2021-02-24 | 2022-05-31 | Conversenowai | Determining order preferences and item suggestions |
CN113707148B (zh) * | 2021-08-05 | 2024-04-19 | 中移(杭州)信息技术有限公司 | 语音识别准确率的确定方法、装置、设备以及介质 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754978A (en) | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
US6122613A (en) | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US6757652B1 (en) | 1998-03-03 | 2004-06-29 | Koninklijke Philips Electronics N.V. | Multiple stage speech recognizer |
US6526380B1 (en) | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US7058573B1 (en) | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
AU2001259446A1 (en) | 2000-05-02 | 2001-11-12 | Dragon Systems, Inc. | Error correction in speech recognition |
US7224981B2 (en) | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
JP4867654B2 (ja) | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
TWI319563B (en) | 2007-05-31 | 2010-01-11 | Cyberon Corp | Method and module for improving personal speech recognition capability |
CN101436110B (zh) * | 2007-11-14 | 2013-02-20 | 北京三星通信技术研究有限公司 | 执行表意文字和表音文字输入的方法和装置 |
TWM338396U (en) | 2007-11-28 | 2008-08-11 | Inventec Besta Co Ltd | Apparatus for automatically expanding inquiry of key words |
CN101458927A (zh) * | 2007-12-11 | 2009-06-17 | 财团法人资讯工业策进会 | 产生及侦测混淆音的方法及系统 |
WO2010018796A1 (ja) * | 2008-08-11 | 2010-02-18 | 旭化成株式会社 | 例外語辞書作成装置、例外語辞書作成方法及びそのプログラム、並びに、音声認識装置及び音声認識方法 |
US8566088B2 (en) * | 2008-11-12 | 2013-10-22 | Scti Holdings, Inc. | System and method for automatic speech to text conversion |
TWI393018B (zh) | 2009-02-06 | 2013-04-11 | Inst Information Industry | 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體 |
WO2011082340A1 (en) | 2009-12-31 | 2011-07-07 | Volt Delta Resources, Llc | Method and system for processing multiple speech recognition results from a single utterance |
US8930194B2 (en) | 2011-01-07 | 2015-01-06 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
US8521539B1 (en) * | 2012-03-26 | 2013-08-27 | Nuance Communications, Inc. | Method for chinese point-of-interest search |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
EP2862164B1 (en) | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
CN103474069B (zh) | 2013-09-12 | 2016-03-30 | 中国科学院计算技术研究所 | 用于融合多个语音识别系统的识别结果的方法及系统 |
US10749989B2 (en) * | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
TW201541379A (zh) | 2014-04-18 | 2015-11-01 | Qware Systems & Services Corp | 用於商品及服務之語音關鍵字搜尋系統及其方法 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
EP3018654B1 (en) * | 2014-11-07 | 2020-05-06 | Samsung Electronics Co., Ltd. | Speech signal processing method and speech signal processing apparatus |
KR102298457B1 (ko) * | 2014-11-12 | 2021-09-07 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
CN113140215A (zh) * | 2015-01-16 | 2021-07-20 | 三星电子株式会社 | 用于执行话音识别的方法和设备 |
JP6487062B2 (ja) | 2015-03-27 | 2019-03-20 | 華為技術有限公司Huawei Technologies Co.,Ltd. | データ送信方法、アクセスネットワーク装置、及び通信システム |
JP6614639B2 (ja) * | 2015-05-22 | 2019-12-04 | 国立研究開発法人情報通信研究機構 | 音声認識装置及びコンピュータプログラム |
US9997155B2 (en) * | 2015-09-09 | 2018-06-12 | GM Global Technology Operations LLC | Adapting a speech system to user pronunciation |
CN105653517A (zh) * | 2015-11-05 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种识别率确定方法及装置 |
CN105719649B (zh) * | 2016-01-19 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法及装置 |
JP6198879B1 (ja) * | 2016-03-30 | 2017-09-20 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
US11295069B2 (en) * | 2016-04-22 | 2022-04-05 | Sony Group Corporation | Speech to text enhanced media editing |
CN106328148B (zh) | 2016-08-19 | 2019-12-31 | 上汽通用汽车有限公司 | 基于本地和云端混合识别的自然语音识别方法、装置和系统 |
CN106328147B (zh) * | 2016-08-31 | 2022-02-01 | 中国科学技术大学 | 语音识别方法和装置 |
CA3037090A1 (en) * | 2016-10-24 | 2018-05-03 | Semantic Machines, Inc. | Sequence to sequence transformations for speech synthesis via recurrent neural networks |
CN106782561A (zh) | 2016-12-09 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 语音识别方法和系统 |
US10360914B2 (en) | 2017-01-26 | 2019-07-23 | Essence, Inc | Speech recognition based on context and multiple recognition engines |
CN108509416B (zh) * | 2018-03-20 | 2022-10-11 | 京东方科技集团股份有限公司 | 句意识别方法及装置、设备和存储介质 |
-
2018
- 2018-11-21 TW TW107141382A patent/TWI698857B/zh active
- 2018-12-13 CN CN201811528962.9A patent/CN111292740B/zh active Active
-
2019
- 2019-08-01 US US16/529,010 patent/US11527240B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11527240B2 (en) | 2022-12-13 |
CN111292740A (zh) | 2020-06-16 |
US20200160850A1 (en) | 2020-05-21 |
TWI698857B (zh) | 2020-07-11 |
CN111292740B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI698857B (zh) | 語音辨識系統及其方法、與電腦程式產品 | |
JP7280382B2 (ja) | 数字列のエンドツーエンド自動音声認識 | |
US11450313B2 (en) | Determining phonetic relationships | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
JPWO2009078256A1 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
TW201517018A (zh) | 語音辨識方法及其電子裝置 | |
CN112489626A (zh) | 一种信息识别方法、装置及存储介质 | |
Al-Anzi et al. | The impact of phonological rules on Arabic speech recognition | |
KR20160098910A (ko) | 음성 인식 데이터 베이스 확장 방법 및 장치 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
Ogbureke et al. | Hidden Markov models with context-sensitive observations for grapheme-to-phoneme conversion. | |
Chowdhury et al. | Bangla grapheme to phoneme conversion using conditional random fields | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
CN104756183B (zh) | 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符 | |
Marinčič et al. | Analysis of automatic stress assignment in Slovene | |
US12008986B1 (en) | Universal semi-word model for vocabulary contraction in automatic speech recognition | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム | |
Zhou | An error detection and correction framework to improve large vocabulary continuous speech recognition | |
Alkhairy et al. | Heterophonic speech recognition using composite phones | |
Huang et al. | Unsupervised pronunciation grammar growing using knowledge-based and data-driven approaches |