TW201918913A - 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 - Google Patents
機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 Download PDFInfo
- Publication number
- TW201918913A TW201918913A TW107130128A TW107130128A TW201918913A TW 201918913 A TW201918913 A TW 201918913A TW 107130128 A TW107130128 A TW 107130128A TW 107130128 A TW107130128 A TW 107130128A TW 201918913 A TW201918913 A TW 201918913A
- Authority
- TW
- Taiwan
- Prior art keywords
- text
- error correction
- model
- machine processing
- item
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 278
- 238000012545 processing Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 92
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 238000013519 translation Methods 0.000 claims description 93
- 238000005065 mining Methods 0.000 claims description 35
- 238000002360 preparation method Methods 0.000 claims description 15
- 238000003672 processing method Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 abstract 1
- 238000007619 statistical method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000027355 Ferocactus setispinus Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 241000283084 Balaenoptera musculus Species 0.000 description 1
- 241000283323 Delphinapterus leucas Species 0.000 description 1
- 241000289669 Erinaceus europaeus Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本發明公開了一種機器處理及文本糾錯方法、裝置、計算設備以及儲存媒體。準備包括錯誤文本和對應的正確文本的糾錯改寫對。以糾錯改寫對作為訓練語料,對機器處理模型進行訓練,由此準備好適用於文本糾錯的機器處理模型。可以藉由從日誌中挖掘糾錯改寫對來對機器處理模型進行訓練,使其適於對文本進行糾錯。將第一文本輸入到機器處理模型中,得到第二文本,即糾錯結果文本。另外,還可以使用語言模型或常用詞庫先判斷第一文本是否需要進行糾錯。可以使用從日誌中挖掘出的訓練語料來訓練語言模型,也可以藉由對日誌中的文本進行分詞、統計來整理常用詞庫。由此,使得能夠方便地實現文本糾錯。
Description
本發明涉及文本處理技術,特別涉及文本糾錯技術。
隨著電腦技術及網際網路技術的飛速發展,人機互動的形式也越來越豐富,越來越方便。 鍵盤輸入是傳統的人機互動輸入方式。使用者在輸入時,經常會出現一些打字錯誤。例如,使用五筆字型輸入法時,經常錯誤地輸入形似的錯字;使用拼音輸入法時,經常錯誤地輸入音同或音似的錯字。出現錯誤時,需要使用者刪除錯誤的輸入內容,重新進行輸入。還有些錯誤未能被及時發現,遺留在文檔中。 手寫輸入是已知的另一種人機互動輸入方式。使用者在例如手寫板上書寫,計算系統識別所書寫的文字。然而,每個使用者的書寫習慣各不相同,系統也經常識別錯誤,需要使用者刪除,重新輸入。 圖像識別技術在近年來也得到了快速的發展,可以對書面文本的圖像進行識別,得到對應的文本。然而,圖像識別也會由於各種原因產生一些錯誤的識別結果。 另外,計算系統已經開始有能力處理人類自然語言,可以基於自然語言進行分析,獲取有效資訊,並做出響應或執行相應操作。這樣的自然語言可以是書面文字,也可以是語音輸入。當直接接收使用者以自然語言發出的語音輸入,並藉由分析理解輸入語音來做出對應的響應,例如執行相應的操作時,能夠極大地增加人機互動的便利性。相應地,語音輸入也已經成為人工智慧等計算領域中一個非常重要的入口。 然而,很多智慧軟體或硬體對輸入語音進行識別得到的文本還是經常會出現和使用者實際表達的內容不一致的情況,有時候甚至輸出人看不懂的文本。如果將識別出的不正確的文本輸入到後續處理階段,將對後續自然語言的理解等處理產生顯著影響,甚至無法繼續後續處理。 造成語音識別錯誤的原因有很多可能。例如,使用者的發音不標準,硬體/軟體本身存在缺陷,語音識別演算法出錯等。 目前,已經有一些語音識別優化的解決方案。這些解決方案大多從局部出發,定位局部需要改寫的片段,拉取對應的糾錯候選文本,然後篩選其中最好的一個進行改寫。即,藉由改寫局部達到改寫整體的效果。 這樣的解決方案往往存在下述問題。 一方面,對局部進行修改時忽略了整體。事實上,很多時候,整體的其它部分對於局部的修改應當能夠起到監督和約束的作用。 另一方面,有些解決方案依賴於預先離線整理好的糾錯規則。而由於語音識別錯誤的多樣性等各種原因,為了達到較高的品質要求,這些糾錯規則往往非常繁複,整理的成本將會比較高。 綜上,對於各種人機互動方式,都仍然需要一種能夠進行文本糾錯的解決方案。
本發明要解決的一個技術問題是提供一種機器處理方案,其能夠使得文本糾錯更方便。 根據本發明的第一個方面,提供了一種機器處理方法,包括:準備糾錯改寫對,糾錯改寫對包括錯誤文本和對應的正確文本;以及以糾錯改寫對作為訓練語料,對機器處理模型進行訓練。 優選地,準備糾錯改寫對的步驟可以包括:從日誌中挖掘糾錯改寫對。 優選地,可以從日誌中尋找滿足下述至少一項條件的在先文本和在後文本,作為糾錯改寫對:日誌中記錄的在先文本和在後文本之間的時間間隔不大於預定時間間隔;在先文本和在後文本之間的編輯距離除以兩個文本的最大長度得到的比值不大於第一預定比值閾值;在後文本的出現次數不小於第一預定次數閾值;在先文本和在後文本作為糾錯改寫對的出現次數不小於第二預定次數閾值。 優選地,機器處理模型可以是機器翻譯模型。 優選地,機器翻譯模型可以是序列到序列模型。 優選地,機器翻譯模型可以是基於注意力機制的序列到序列模型。 優選地,錯誤文本和正確文本都可以是外部輸入文本。 優選地,外部輸入文本可以是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。 根據本發明的第二方面,提供了一種文本糾錯方法,包括:準備適用於文本糾錯的機器處理模型;以及將第一文本輸入到機器處理模型中,得到第二文本。 優選地,可以藉由根據本發明上述第一方面的機器處理方法來準備機器處理模型。 優選地,該文本糾錯方法還可以包括:判斷第一文本是否需要進行糾錯,其中,在判定需要進行糾錯的情況下,將第一文本輸入到機器處理模型中,而在判定不需要進行糾錯的情況下,不將第一文本輸入到機器處理模型中。 優選地,判斷第一文本是否需要進行糾錯的步驟可以包括:使用語言模型判斷第一文本是否需要進行糾錯;以及/或者基於常用詞庫判斷第一文本是否需要進行糾錯。 優選地,可以在語言模型針對第一文本給出的困惑度高於第一預定困惑度閾值的情況下,判定需要進行糾錯。 優選地,可以在第一文本中包含非常用詞的情況下,判定需要進行糾錯。 優選地,該文本糾錯方法還可以包括:從日誌中挖掘適於訓練語言模型的訓練語料;以及使用訓練語料來訓練語言模型。 優選地,該文本糾錯方法還可以包括:將從日誌中挖掘得到的訓練語料與普通語料混合,得到混合訓練語料,其中,使用混合訓練語料來訓練語言模型。 優選地,該文本糾錯方法還可以包括:對日誌中的文本進行分詞;統計各個分詞在日誌中的出現次數;以及將出現次數不小於第三預定次數閾值的詞作為常用詞,記錄在常用詞庫中。 優選地,該文本糾錯方法還可以包括:判斷第二文本是否合格。 優選地,可以基於以下條件中的至少一項來判斷第二文本是否合格:機器處理模型針對第二文本給出的置信度不低於預定置信度閾值;語言模型針對第二文本給出的困惑度分值小於第一文本,並且/或者困惑度分值小於第二預定困惑度閾值;第一文本與第二文本之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。 優選地,第一文本可以是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。 根據本發明的第三方面,提供了一種機器處理裝置,包括:糾錯改寫對準備裝置,用於準備糾錯改寫對,糾錯改寫對包括錯誤識別結果和對應的正確識別結果;以及第一訓練裝置,用於以糾錯改寫對作為訓練語料,對機器處理模型進行訓練。 優選地,糾錯改寫對準備裝置可以從日誌中挖掘糾錯改寫對。 優選地,可以從日誌中尋找滿足下述至少一項條件的在先文本和在後文本,作為糾錯改寫對:日誌中記錄的在先文本和在後文本之間的時間間隔不大於預定時間間隔;在先文本和在後文本之間的編輯距離除以兩個文本的最大長度得到的比值不大於第一預定比值閾值;在後文本的出現次數不小於第一預定次數閾值;在先文本和在後文本作為糾錯改寫對的出現次數不小於第二預定次數閾值。 優選地,機器處理模型可以是機器翻譯模型。 優選地,機器翻譯模型可以是序列到序列模型。 優選地,機器翻譯模型可以是基於注意力機制的序列到序列模型。 優選地,錯誤文本和正確文本都可以是外部輸入文本。 優選地,外部輸入文本可以是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。 根據本發明的第四方面,提供了一種文本糾錯裝置,包括:離線模組,離線模組包括機器處理模型準備裝置,用於準備適用於文本糾錯的機器處理模型;以及在線模組,在線模組包括糾錯改寫裝置,用於將第一文本輸入到機器處理模型中,得到第二文本。 優選地,機器處理模型準備裝置可以是根據本發明上述第三方面的機器處理裝置。 優選地,在線模組還可以包括:糾錯判定裝置,用於判斷第一文本是否需要進行糾錯,其中,在糾錯判定裝置判定需要進行糾錯的情況下,將第一文本輸入到機器處理模型中,而在糾錯判定裝置判定不需要進行糾錯的情況下,不將第一文本輸入到機器處理模型中。 優選地,糾錯判定裝置可以包括:第一判斷裝置,使用語言模型判斷第一文本是否需要進行糾錯;以及/或者第二判斷裝置,基於常用詞庫判斷第一文本是否需要進行糾錯。 優選地,第一判斷裝置可以在語言模型針對第一文本給出的困惑度高於第一預定困惑度閾值的情況下,判定需要進行糾錯。 優選地,第二判斷裝置可以在第一文本中包含非常用詞的情況下,判定需要進行糾錯。 優選地,離線模組可以包括:語料挖掘裝置,用於從日誌中挖掘適於訓練語言模型的訓練語料;以及第二訓練裝置,用於使用訓練語料來訓練語言模型。 優選地,離線模組還可以包括:語料混合裝置,用於將從日誌中挖掘得到的訓練語料與普通語料混合,得到混合訓練語料,其中,第二訓練裝置使用混合訓練語料來訓練語言模型。 優選地,離線模組還可以包括:分詞裝置,用於對日誌中的文本進行分詞;統計裝置,用於統計各個分詞在日誌中的出現次數;以及整理裝置,用於將出現次數不小於第三預定次數閾值的詞作為常用詞,記錄在常用詞庫中。 優選地,在線模組可以包括:結果判定裝置,用於判斷第二文本是否合格。 優選地,結果判定裝置可以基於以下條件中的至少一項來判斷第二文本是否合格:機器處理模型針對第二文本給出的置信度不低於預定置信度閾值;語言模型針對第二文本給出的困惑度分值小於第一文本,並且/或者困惑度分值小於第二預定困惑度閾值;第一文本與第二文本之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。 優選地,第一文本可以是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。 根據本發明的第五方面,提供了一種計算設備,包括:處理器;以及記憶體,其上儲存有可執行碼,當可執行碼被處理器執行時,使處理器執行根據本發明第一方面或第二方面的方法。 根據本發明的第六方面,提供了一種非暫時性機器可讀儲存媒體,其上儲存有可執行碼,當可執行碼被電子設備的處理器執行時,使處理器執行根據本發明第一方面或第二方面的方法。 藉由本發明的機器處理方案,使得能夠方便的實現文本糾錯。
下面將參照圖式更詳細地描述本發明的優選實施方式。雖然圖式中顯示了本發明的優選實施方式,然而應該理解,可以以各種形式實現本發明而不應被這裡闡述的實施方式所限制。相反,提供這些實施方式是為了使本發明更加透徹和完整,並且能夠將本發明的範圍完整地傳達給本領域的技術人員。 下面,參考圖1至圖3描述本發明的機器處理方案和文本糾錯方案。 圖1是以語音識別結果糾錯為例描述本發明的機器處理和文本糾錯方案的示意性方塊圖。如圖1所示,本發明的語音識別結果糾錯方案包括離線部分(圖1中虛線左側,可以由離線模組處理)和在線部分(圖1中虛線右側,可以由在線模組處理)。離線部分用於做預先做準備,而在線部分則實時進行糾錯。 [概述] 本發明的發明人藉由分析涉及語音識別的應用的日誌,注意到其中一些規律,例如,某一些發音會較頻繁地被識別成另外一個發音。即,在大量日誌中,語音識別的錯誤也存在一定的規律。因此,發明人意識到,可以藉由演算法來挖掘這樣的規律,特別是這樣的映射關係,從而用於實現對語音識別結果的糾錯。 鑒於此,本發明提出一種基於機器處理模型的語音識別結果糾錯方案,借助於預先訓練好的機器處理模型來進行對語音識別結果的糾錯。 本發明的機器處理模型可以是任何適用於文本處理的機器處理模型。一些實施例中,機器處理模型可以是適用於文本轉換處理的機器處理模型,例如可以稱為“文本轉換模型”。目前,一種得到廣泛應用的文本轉換模型是機器翻譯模型。下文中,以機器翻譯模型為例進行描述。應當明白,這裡公開的技術方案也可以採用其它機器處理模型來實現。 另一方面,本發明中以語音識別結果糾錯為例進行描述。應當明白,這裡公開的技術方案完全可以適用於各種文本糾錯的場景。藉由使用預先準備好的錯誤文本和對應的正確文本構成的糾錯對,來訓練機器處理模型,可以得到適用於文本糾錯的機器處理模型。使用該機器處理模型可以用來對各種文本進行糾錯。作為糾錯對象的文本可以是系統中原有的文本,也可以是輸入的文本。文本的輸入方式也可以是多種多樣的,例如,手寫輸入、打字輸入、語音輸入(語音識別)、圖像識別輸入等等。這些文本也都很可能出現錯誤,例如手寫識別錯誤、打字錯誤、語音識別錯誤、圖像識別錯誤等等。而這些錯誤也存在一定的規律,同樣可以藉由演算法來挖掘這樣的規律,特別是這樣的映射關係,從而用於實現文本糾錯。 簡而言之,本發明優選實施例的語音識別結果糾錯系統主要包括兩大模組,離線日誌挖掘模組(也可簡稱為“離線模組”)和在線糾錯模組(也可簡稱為“在線模組”)。前者用於產生訓練語料110以訓練機器翻譯模型120,而後者則在對實時語音輸入210進行語音識別得到語音識別結果文本(一般地,可以稱為“第一文本”)220之後,利用訓練好的機器翻譯模型120對語音識別結果文本220進行糾錯,並最終輸出經過糾錯改寫後的語音識別結果文本(一般地,可以稱為“第二文本”。本發明中的“第一”、“第二”只用來對不同文本進行區分描述,並不意味著對文本任何進一步的限定)240。 離線日誌挖掘模組藉由從日誌100中挖掘資料來為在線糾錯模組做準備。而在線糾錯模組的糾錯結果如果反饋給離線日誌挖掘模組,則能夠進一步改進離線日誌挖掘結果。 離線日誌挖掘模組為在線糾錯模組服務,因此可以基於在線糾錯模組所需來設計。 具體說來,在線糾錯模組使用機器翻譯模型120來進行語音識別結果糾錯。相應地,離線日誌挖掘模組可以挖掘糾錯改寫對110作為訓練樣本,來訓練機器翻譯模型120。 更進一步地,在線糾錯模組如果能夠在判定(230)需要糾錯的情況下才調用機器翻譯模型120來進行糾錯,則可以極大地提高效率。相應地,離線日誌挖掘模組可以為判斷是否需要糾錯而進行準備。然而,這個判斷(230)不應當被視為為實現本發明的技術方案所必需的,即便不進行這樣的判斷,也能夠實現語音識別結果糾錯的目的。因此,圖1中用虛框框出與糾錯判定230有關的部分,表示這部分特徵可以省略。 下面,對本發明的技術方案所涉及的各個方面分別進行描述。 [機器翻譯模型] 首先,對機器翻譯模型120進行簡要描述。 翻譯是將一種語言形式(例如英語)的語句轉換為另一種語言形式(例如漢語)的語句,兩種語言形式的語句基本上表達相同的含義。 關於機器翻譯(亦稱為“自動翻譯”),人們進行了長期的研究和探索,並提出了基於規則(Rule-Based)的機器翻譯方案和基於語料庫(Corpus-Based)的機器翻譯方案。基於語料庫的機器翻譯方案又可分為基於統計(Statistics-based)的機器翻譯方案和基於實例(Example-based)的方法的機器翻譯方案。 2013年來,隨著深度學習的研究取得較大進展,基於人工神經網路的機器翻譯(Neural Machine Translation)逐漸興起。其技術核心是一個擁有海量結點(神經元)的深度神經網路,可以自動的從語料庫中學習翻譯知識。CNN(卷積神經網路)和RNN(循環神經網路)被廣泛使用。一種語言的句子被向量化之後,在網路中層層傳遞,轉化為電腦可以“理解”的表示形式,再經過多層複雜的傳導運算,產生另一種語言的譯文。實現了“理解語言,產生譯文”的翻譯方式。這種翻譯方法最大的優勢在於譯文流暢,更加符合語法規範,容易理解。相比之前的翻譯技術,品質有“躍進式”的提升。 2016年9月,谷歌(Google)公司發佈了谷歌神經機器翻譯系統,其使用序列到序列(seq2seq)學習模型,在不需要深度學習研究人員深入瞭解語言翻譯知識的情況下,翻譯效果勝過了世界上最好的語言專家建造的語言翻譯系統。基於注意力的序列到序列模型在機器翻譯領域受到越來越大的重視。 2017年6月,谷歌公司在Arxiv系統上進一步發表論文,“Attention Is All You Need”(https://arxiv.org/pdf/1706.03762.pdf),提出了一種僅基於注意力(attention)而不使用CNN和RNN的機器翻譯機制。 在研究人員長期深入而又持續的研究探索下,機器翻譯方案越來越成熟,翻譯效果越來越好。 而本發明的技術方案的發明人注意到,文本糾錯(例如語音識別結果糾錯)與語言翻譯之間存在著相似之處,它們具有類似的邏輯。語言翻譯進行轉換的兩種語言表達具有同一個實際含義,兩者之間存在映射關係。而文本糾錯(例如語音識別結果糾錯)的錯誤文本(錯誤識別結果)和正確文本(正確識別結果)則都對應於使用者期望輸入的相同內容(例如先後發出的相同的語音),兩者之間也很可能存在一定程度的映射關係。兩種語言表達之間的翻譯轉換具有一定的規則和規律,錯誤文本與正確文本之間的糾錯轉換也具有一定的規律。 因此,發明人提出,可以借用機器翻譯模型120執行文本糾錯(例如語音識別結果糾錯)操作。以語音識別結果糾錯為例,使用預先獲取或整理的錯誤識別結果(一般地,可以稱為“錯誤文本”)-正確識別結果(一般地,可以稱為“正確文本”)對,作為機器翻譯模型120的輸入-輸出對(一般地,可以稱為“糾錯改寫對”)訓練語料,對機器翻譯模型120進行訓練,使得機器翻譯模型120掌握(學習到)錯誤識別結果和正確識別結果之間的映射關係和/或轉換規律,從而可以得到適用於語音識別結果糾錯的機器翻譯模型120。 優選地,本發明的技術方案可以使用序列到序列模型,優選是基於注意力的序列到序列模型。該模型可以使用CNN和/或RNN,也可以不使用CNN和/或RNN。關於序列到序列模型和注意力機制,在機器翻譯領域均已有廣泛討論,在此不再贅述。 [離線模組] 本發明的離線模組主要用於日誌挖掘,因此也可以稱為“離線日誌挖掘模組”。 離線日誌挖掘模組可以進行三方面工作:糾錯改寫對(訓練語料)挖掘、語言模型訓練語料挖掘、常用詞收集。糾錯改寫對110用於對機器翻譯模型120進行訓練。而語言模型160以及常用詞庫140則用於判斷系統對使用者輸入的語音的識別結果是否需要糾錯。 [糾錯改寫對] 可以人工整理上述用於訓練機器翻譯模型120的錯誤識別結果-正確識別結果對。即,人工整理常見的一些錯誤識別結果,並給出對應的正確識別結果,構成訓練語料,放入訓練語料庫,以便對機器翻譯模型120進行訓練。 然而,人工整理效率較為低下,而且所整理的訓練語料難免有所疏漏,很可能不夠全面,訓練效果可能不夠令人滿意。 發明人提出,可以從語音識別應用(更一般地,涉及文本輸入的應用)的相關日誌100中挖掘這樣的錯誤識別結果-正確識別結果對(糾錯改寫對110),作為機器翻譯模型120的訓練語料。 日誌100中會記錄系統的語音識別結果,使用者發起請求的時間和/或語音識別結果產生的時間,以及一些其它相關資訊。 使用者在藉由語音輸入來使用智慧軟體或硬體的時候,如果由於語音識別出錯,得不到正確的語音識別結果或相應正確的服務,往往會重新發起一次請求。因此,日誌100中會存在大量的使用者自發的語音識別結果糾錯改寫對110,即錯誤的識別結果(在先文本)和重新發起請求後得到的正確的識別結果(在後文本)構成的錯誤識別結果-正確識別結果對。其它人機互動方式下,也會在相應日誌中記錄類似的錯誤文本-正確文本對。 離線模組從日誌100中識別挖掘這樣的糾錯改寫對110,可以構建用於訓練機器翻譯模型120的錯誤識別結果-正確識別結果對。離線模組可以藉由一系列強規則來從日誌100中挖掘這樣的糾錯改寫對110,構建機器翻譯模型120的訓練語料庫。 下面,分析糾錯改寫對110的挖掘邏輯,或者說,挖掘規則。 一方面,當語音識別出錯時,使用者會很快重新發起請求,因此,錯誤識別結果和重新發起請求後得到的正確識別結果對應的時間(識別時間或請求發起時間)相距不會太久。 另一方面,正確識別結果與錯誤識別結果之間的區別往往也不會太大,兩者之間具有一定的相似性。這裡可以引入“編輯距離”的概念。編輯距離是指兩個字串(在本發明中為兩句話)之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元。一般來說,編輯距離越小,兩個串的相似度越大。 再一方面,有些語句可能由於發音、詞法、句法等因素,多次被識別錯誤,甚至有可能多次被識別為同樣的錯誤結果,使用這樣的語句或者這樣的糾錯改寫對110來訓練用於糾錯的機器翻譯模型120將是有利的。這樣的糾錯改寫對110比較有代表性。而且,當對大量日誌100進行挖掘時,也能夠濾除一些不太具有代表性的糾錯改寫對110,提高訓練的效率。 另外,這樣的錯誤識別結果(錯誤文本)和重新請求得到的正確識別結果(文本)之間,可能還會有其它一些規律或關聯關係,可以作為挖掘邏輯。 這樣,從日誌100中挖掘糾錯改寫對110的挖掘邏輯可以包括如下至少一項: a) 兩句話(兩個識別結果,一般地,可以稱為“在先文本”和“在後文本”)之間的時間(請求時間或識別時間)間隔不大於預定時間間隔; b) 兩句話之間的編輯距離除以兩句話的最大長度得到的比值不大於第一預定比值閾值; c) 改寫糾正的那句話(在後識別得到的結果(在後文本))的出現次數不小於第一預定次數閾值,例如5次; d) 這兩句話作為糾錯改寫對110的出現次數不小於第二預定次數閾值,例如5次。 如上所述,考慮到其它一些規律或關聯關係,還可以具有其它挖掘邏輯。 滿足上述至少一項條件的兩句話(在先語音識別結果(在先文本)和在後語音識別結果(在後文本))可以作為糾錯改寫對。 應當明白,雖然可以對多個使用者的日誌進行挖掘,但是這裡挖掘出來作為糾錯改寫對的兩句話應當是同一個使用者的日誌中的兩句話。 於是,離線模組可以對日誌100中的識別結果(一句句話)兩句兩句地進行分析,看是否符合上述挖掘邏輯。如果符合,則表明,日誌100中識別得到的這兩句話很可能對應於使用者先後兩次語音輸入的同一句話,前一句很可能是錯誤識別結果,而後一句很可能是正確識別結果。 這裡每次分析的兩句話,一般是相鄰兩句話。然而,一些情況下,使用者也可能在兩次請求之間輸入一些沒有實際意義的語音。這樣,可以略去這些無實際意義的識別結果,而對它們之前和之後的話進行分析,判斷是否符合上述挖掘邏輯。 例如,使用者希望輸入“軍武次位面”,首次輸入後,卻識別得到“精武刺蝟面”。使用者發現識別錯誤後,重新輸入,得到了正確的識別結果“軍武次位面”。這樣,在日誌中先後記錄了“精武刺蝟面”(在先文本)和“軍武次位面”(在後文本)兩個文本,可以藉由對日誌挖掘得到一個糾錯改寫對(“精武刺蝟面”,“軍武次位面”)。 又例如,使用者希望輸入“巨神戰擊隊”,首次輸入後,卻識別得到“之神單機對”。使用者發現識別錯誤後,重新輸入,得到了正確的識別結果“巨神戰擊隊”。這樣,在日誌中先後記錄了“之神單機對”(在先文本)和“巨神戰擊隊”(在後文本)兩個文本,可以藉由對日誌挖掘得到一個糾錯改寫對“之神單機對”-“巨神戰擊隊”。 由此,可以得到若干符合規定的挖掘邏輯的糾錯改寫對110。這些糾錯改寫對110可以視為上述錯誤識別結果-正確識別結果對,作為訓練語料,用於對機器翻譯模型120進行訓練。 這裡,以從語音識別應用的日誌挖掘糾錯改寫對訓練預料為例進行了描述。應當理解,也可以以相同的原理,從其它涉及文本輸入的應用的日誌中挖掘相應的糾錯改寫對訓練預料。 可以將所挖掘的糾錯改寫對110中的每一個文本分別切分成字粒度(即,以字為細分單元)以進行訓練。訓練機器翻譯模型120時,採用字粒度而不採用詞粒度(即,以詞為細分單元),主要是考慮到語音識別出來的文本非書寫文本,相對較亂,很可能影響分詞效果。如果採用詞粒度,錯誤的分詞有可能影響語句的理解,從而對模型的訓練產生不利的影響。 在機器翻譯模型120採用基於注意力的序列到序列模型(seq2seq+attention)的情況下,可以採用seq2seq+attention模式對機器翻譯模型120進行訓練。 [語言模型] 語言模型160是根據語言客觀事實而進行的語言抽象數學建模。簡而言之,語言模型160是用來計算一個句子(或者詞序列)的概率的模型。利用語言模型160,可以確定哪個詞序列的可能性更大,或者給定若干個詞,可以預測下一個最可能出現的詞語。使用訓練語料對語言模型160進行訓練後,可以用於相應的語言處理應用。 使用各種文本輸入方式(例如語音輸入)的智慧軟體或硬體的日誌100中記錄的話語(識別結果)總體上反映了使用者在應用智慧軟體或硬體這個特殊場景下的說話方式。可以使用日誌100中記錄的話語作為訓練語料150對語言模型160進行訓練,以便於在線文本糾錯(例如語音識別糾錯)時,由語言模型160判斷(例如由語音識別系統)對使用者新輸入的語句的識別結果(第一文本)是否出錯。 離線模組則可以從日誌100中挖掘出適合作為語言模型訓練語料150的話語,例如判定識別正確的話語。例如,在使用者發出請求,系統識別得到該識別結果後,作出了相應的響應,並且/或者使用者沒有重新發起請求,則可以判定這個識別結果是正確的,日誌100中的這個語句可以用作訓練語料。 當該智慧軟體或硬體用於特定的領域,例如機票預訂、智慧家居控制等時,日誌100記錄的話語會具有特定的規律、關鍵詞和內容。使用日誌100中的話語作為訓練語料150來訓練語言模型160,可以體現出智慧軟體或硬體所涉及的特定領域的特殊性。 而當該智慧軟體或硬體用於普遍的領域時,日誌100記錄的話語的規律、關鍵詞、內容將比較廣泛。 還可以將從日誌100中挖掘出的訓練語料150與普通的訓練語料混合形成訓練語料庫,增大訓練語料庫的容量和涵蓋內容廣度。 例如,在該智慧軟體或硬體用於特定的領域的情況下,將從日誌100挖掘的語言模型訓練語料150與普通的訓練語料混合在一起,訓練語言模型160,可以兼顧一般性與特殊性。 訓練好的語言模型160可以用於在線糾錯判定,判定一句話是否通順流暢。 [常用詞] 另外,還可以對日誌100中的話語,特別是可以判定識別正確的話語(文本),進行分詞,並對分詞在日誌100中的出現次數進行統計。將出現次數不小於第三預定次數閾值(例如5次)的詞記錄下來作為常用詞130。這些常用詞130可以保存在常用詞庫或常用詞列表140中,以便在線模組查詢。 特別是在智慧軟體或硬體用於特定的領域的情況下,一般使用者輸入的話語中會出現的字詞是有限的,往往會多次出現。而當語音識別得到的文本(第一文本)中包含很少出現的詞(非常用詞)時,這個語音識別結果(第一文本)很可能存在錯誤,需要進行糾錯改寫。例如,在機票預訂應用的場景下,常用詞包括例如地名、時間、航空公司名等等,如果突然冒出一個毫不相關的詞,例如“藍鯨”(南京)、“白鯨”(北京),那麼就很可能是出現錯誤了。 在線模組進行糾錯判定,可以根據所識別的一句話(第一文本)是否存在非常用詞來判斷該話語識別結果是否存在錯誤,是否需要進行糾錯。 [在線模組] 本發明的在線模組主要執行在線糾錯功能,也可以稱為“在線糾錯模組”。 在線糾錯模組可以包含兩方面功能。核心功能是使用如上所述訓練好的機器翻譯模型120對可能存在錯誤的識別結果文本(第一文本)進行糾錯改寫。作為輔助,還可以進行糾錯判定,判定識別得到的結果文本(第一文本)是否存在錯誤,是否需要對其進行糾錯。在線糾錯模組可以僅在判定需要糾錯的情況下才調用機器翻譯模型120來進行糾錯,這樣可以極大地提高效率。 [糾錯判定] 這裡以語音識別為例進行描述。應當理解,這裡描述的糾錯判定方案同樣適用於其它方式輸入的文本。 在優選實施例中,當語音識別模組輸出語音識別的文本(語音識別結果,更一般地為第一文本)之後,在線糾錯模組可以先藉由糾錯判定邏輯來進行分析判斷,以確定語音識別結果是否存在錯誤,是否需要糾錯改寫。在判定需要糾錯改寫的情況下,再採用訓練好的機器翻譯模型120進行糾錯改寫。在判定不需要糾錯改寫的情況下,則無需輸入到機器翻譯模型120中進行糾錯改寫,而直接將語音識別得到的語音識別結果文本220作為最終輸出的語音識別結果文本220輸出。 可以基於例如上面描述的語言模型160和/或常用詞庫140來判斷語音識別結果文本220是否存在錯誤,是否需要糾錯改寫。 語音識別結果文本220在滿足下列條件時認為需要進行改寫,否則直接輸出語音識別的文本: a) 語言模型160針對該語音識別結果文本220給出的困惑度(perplexity)分值高於第一預定困惑度閾值;並且/或者 b) 出現了非常用詞。非常用詞即常用詞庫140中沒有的詞。 本發明的技術方案中,可以採用其中任一種條件來進行判斷,也可以結合這兩種條件來進行判斷。應當明白,還可以採用其它判斷條件(邏輯)來判斷語音識別結果是否存在錯誤。 一方面,將語音識別結果文本220輸入到如上所述經過訓練的語言模型160中,語言模型160藉由分析該文本會給出一個困惑度(perplexity)分值,如果該分值高於第一預定困惑度閾值,則表明語音識別結果文本220很可能存在錯誤,需要對其進行糾錯改寫。 另一方面,可以將語音識別結果文本220的分詞,得到多個詞語。分別在如上所述挖掘出的常用詞庫或常用詞列表140中查找這些詞語。如果在常用詞庫或常用詞列表140中沒有查找到某個詞語,則該詞語為非常用詞。這種情況下,表明語音識別結果也很可能存在錯誤,需要對其進行糾錯改寫。 應當理解,還可以採用其它糾錯判定方法來進行上述判斷。 [糾錯改寫] 如上所述,在線糾錯模組的核心功能是實時文本(語音識別結果)糾錯改寫。 本發明提出使用經過糾錯改寫對110訓練的機器翻譯模型120來對語音識別結果進行糾錯改寫。需要糾錯改寫的語音識別結果文本(第一文本)輸入到機器翻譯模型120中,模型輸出糾錯改正後的語音識別文本(第二文本)240。關於機器翻譯模型120,上文中已經詳細進行了描述。 這樣,例如當使用者輸入“讓我們蕩起雙槳”,卻被識別為“量夠猛當前雙槳”(第一文本)時,機器翻譯模型120可以將其轉換為使用者實際期望輸入的“讓我們蕩起雙槳”(第二文本),而無需使用者重新輸入以供識別。 對於糾錯改正後的語音識別文本(第二文本),還可以根據一些預定的過濾條件(或判斷條件),綜合判斷糾錯改寫的結果是否有效,即判斷糾錯改寫後的語音識別文本(第二文本)是否合格。 這樣的過濾條件可以包括以下至少一項: 1) 機器翻譯模型120給出的置信度不低於預定置信度閾值; 2) 糾錯改寫後的文本(第二文本)的語言模型160的困惑度分值小於糾錯改寫前的文本,並且/或者困惑度分值小於第二預定困惑度閾值; 3) 糾錯改寫前後的兩個文本(第一文本和第二文本)之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。 關於上述第1)項,機器翻譯模型120在對所輸入的語音識別結果文本(第一文本)進行處理轉換後,輸出糾錯改寫的語音識別結果文本(第二文本)的同時,還可以同時輸出此次轉換的置信度。當置信度較高(不低於預定置信度閾值)時,表明糾錯改寫得到的文本(第二文本)比較可信。當置信度低於預定置信度閾值時,表明糾錯改寫的效果不夠理想。 關於上述第2)項,上述經訓練的語言模型160不但可以用於判斷語音識別結果(糾錯改寫前的文本,第一文本)是否存在錯誤,還可以用於判斷糾錯改寫後的文本(第二文本)是否存在錯誤。一方面,語言模型160針對糾錯改寫後的文本(第二文本)給出的困惑度分值一般應當小於針對糾錯改寫前的文本(第一文本)給出的困惑度分值。另一方面,這個困惑度分值應當小於第二預定困惑度閾值。這個第二預定困惑度閾值可以與上文中判斷語音識別結果(第一文本)是否存在錯誤時採用的上一個第一預定困惑度閾值相等,也可以大於上一個第一預定困惑度閾值(即採用更高的標準來進行判斷)。 關於上述第3)項,如果相對於糾錯改寫前後的兩個文本(第一文本和第二文本)的最大長度而言,兩個文本之間的編輯距離過大,則有可能偏離了使用者的語音輸入本義。 在判定糾錯改寫的結果無效的情況下,可以返回機器翻譯模型120重新進行糾錯改正。 在判定糾錯改寫的結果有效的情況下,輸出糾錯改寫得到的結果文本(第二文本)。 機器翻譯模型120是從整體出發去糾錯改寫的,會考慮全域的語義資訊,這個語義資訊會對局部糾錯進行約束。特別是,在採用基於注意力的序列到序列模型的情況下,在編碼(encoder)階段可以把整句話編碼成一個語義向量,而在解碼(decoder)階段,可以藉由注意力機制實現局部對齊,這樣的機器翻譯模型120既考慮整體又兼顧局部。 另外,機器翻譯模型120不需要顯式地提煉改寫規則,模型本身也具備泛化能力,採用大量訓練樣本(訓練語料)的情況下,也能允許少量髒樣本的存在。 還應當注意到,本發明的技術方案中,在進行文本糾錯(例如語音識別結果糾錯)的過程中,系統與使用者之間不需要針對糾錯操作進行進一步的互動。 [文本糾錯裝置] 上文中已經參考圖1以語音識別結果糾錯為例,詳細描述了本發明的機器處理方法和文本糾錯方法。下面參考圖2以語音識別結果糾錯為例,描述本發明的機器處理裝置和文本糾錯裝置。 圖2以語音識別結果糾錯裝置為例示出了本發明的文本糾錯裝置的示意性方塊圖。其中,有關一些內容的細節與上文中參考圖1的描述相同,在此不再贅述。 如上所述,這裡以語音識別結果糾錯為例進行描述。應當明白,同樣原理的裝置也可以適用於對其它方式輸入的文本的糾錯。 如圖2所示,本發明的語音識別結果糾錯裝置(更一般地,文本糾錯裝置)300可以包括離線模組310和在線模組320。 離線模組310可以包括機器翻譯模型(機器處理模型)準備裝置311,用於準備適用於語音識別結果糾錯的機器翻譯模型。 該機器翻譯模型可以是序列到序列模型。優選地,該機器翻譯模型可以是基於注意力機制的序列到序列模型。 機器翻譯模型準備裝置311可以包括糾錯改寫對準備裝置311-1和第一訓練裝置311-2。 糾錯改寫對準備裝置311-1可以用於準備糾錯改寫對,糾錯改寫對包括錯誤識別結果和對應的正確識別結果。 糾錯改寫對準備裝置311-1也可以從日誌中挖掘糾錯改寫對。 例如,糾錯改寫對準備裝置311-1可以從日誌中尋找滿足下述至少一項條件的在先語音識別結果(在先文本)和在後語音識別結果(在後文本),作為糾錯改寫對: a) 日誌中記錄的在先語音識別結果和在後語音識別結果之間的時間間隔不大於預定時間間隔;並且/或者 b) 在先語音識別結果和在後語音識別結果之間的編輯距離除以兩個語音識別結果的最大長度得到的比值不大於第一預定比值閾值;並且/或者 c) 在後語音識別結果的出現次數不小於第一預定次數閾值;並且/或者 d) 在先語音識別結果和在後語音識別結果作為糾錯改寫對的出現次數不小於第二預定次數閾值。 第一訓練裝置311-2可以用於以糾錯改寫對作為訓練語料,對機器翻譯模型進行訓練。 在線模組320可以包括糾錯改寫裝置321,用於將語音識別結果文本(即第一文本)輸入到機器翻譯模型中,得到語音識別糾錯結果文本(即第二文本)。 在線模組320還可以包括糾錯判定裝置322,用於判斷語音識別結果文本是否需要進行糾錯。其中,在糾錯判定裝置322判定需要進行糾錯的情況下,可以將語音識別結果文本輸入到機器翻譯模型中,而在糾錯判定裝置322判定不需要進行糾錯的情況下,可以不將語音識別結果文本輸入到機器翻譯模型中。 糾錯判定裝置322可以包括第一判斷裝置322-1和第二判斷裝置322-2。 第一判斷裝置322-1可以使用語言模型判斷語音識別結果文本是否需要進行糾錯。例如,可以在語言模型針對語音識別結果文本給出的困惑度高於第一預定困惑度閾值的情況下,判定需要進行糾錯。 第二判斷裝置322-2,基於常用詞庫判斷語音識別結果文本是否需要進行糾錯。例如,可以在語音識別結果文本中包含非常用詞的情況下,判定需要進行糾錯。 優選地,離線模組310還可以包括語料挖掘裝置312和第二訓練裝置313。 語料挖掘裝置312可以用於從日誌中挖掘適於訓練語言模型的訓練語料。第二訓練裝置313可以用於使用訓練語料來訓練語言模型。 優選地,離線模組310還可以包括語料混合裝置314,用於將從日誌中挖掘得到的訓練語料與普通語料混合,得到混合訓練語料.其中,第二訓練裝置313使用混合訓練語料來訓練語言模型。 優選地,離線模組310還可以包括分詞裝置315、統計裝置316和整理裝置317。 分詞裝置315可以用於對日誌中的語音識別結果文本進行分詞。統計裝置316可以用於統計各個分詞在日誌中的出現次數。整理裝置317可以用於將出現次數不小於第三預定次數閾值的詞作為常用詞,記錄在常用詞庫中。 另外,在線模組320還可以包括結果判定裝置323,用於判斷語音識別糾錯結果文本是否合格。 例如,結果判定裝置323可以基於以下條件中的至少一項來判斷語音識別糾錯結果文本是否合格: 1) 機器翻譯模型針對語音識別糾錯結果文本給出的置信度不低於預定置信度閾值; 2) 語言模型針對語音識別糾錯結果文本給出的困惑度分值小於語音識別結果文本,並且/或者困惑度分值小於第二預定困惑度閾值; 3) 語音識別結果文本與語音識別糾錯結果文本之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。 [計算設備] 根據本發明還提供了一種可以用於執行本發明的機器處理方法和文本糾錯方法的計算設備。該計算設備可以是用於語音識別糾錯的伺服器。 圖3是可以用於執行本發明的機器處理方法和文本糾錯方法的計算設備的示意性方塊圖。 如圖3所示,該計算設備400可以包括處理器420和記憶體430。記憶體430上儲存有可執行碼。當處理器420執行該可執行碼時,使得處理器420執行上面描述的機器處理方法和文本糾錯方法。 上文中已經參考圖式詳細描述了根據本發明的機器處理方法和文本糾錯改寫方法、裝置和系統。 此外,根據本發明的方法還可以實現為一種電腦程式或電腦程式產品,該電腦程式或電腦程式產品包括用於執行本發明的上述方法中限定的上述各步驟的電腦程式碼指令。 或者,本發明還可以實施為一種非暫時性機器可讀儲存媒體(或電腦可讀儲存媒體、或機器可讀儲存媒體),其上儲存有可執行碼(或電腦程式、或電腦指令碼),當所述可執行碼(或電腦程式、或電腦指令碼)被電子設備(或計算設備、伺服器等)的處理器執行時,使所述處理器執行根據本發明的上述方法的各個步驟。 本領域技術人員還將明白的是,結合這裡的公開所描述的各種示例性邏輯塊、模組、電路和演算法步驟可以被實現為電子硬體、電腦軟體或兩者的組合。 圖式中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統和方法的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每個方塊可以代表一個模組、程式段或碼的一部分,所述模組、程式段或碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方塊中所標記的功能也可以以不同於圖式中所標記的順序發生。例如,兩個連續的方塊實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每個方塊、以及方塊圖和/或流程圖中的方塊的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與電腦指令的組合來實現。 以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情況下,對於本技術領域的具有通常知識者來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中的技術的改進,或者使本技術領域的其它具有通常知識者能理解本文披露的各實施例。
100‧‧‧日誌
110‧‧‧糾錯改寫對
120‧‧‧機器翻譯模型
130‧‧‧常用詞
140‧‧‧常用詞庫
150‧‧‧訓練語料
160‧‧‧語言模型
210‧‧‧實時語音輸入
220‧‧‧語音識別結果文本
230‧‧‧判定
240‧‧‧語音識別文本
400‧‧‧計算設備
420‧‧‧處理器
430‧‧‧記憶體
300‧‧‧語音識別結果糾錯裝置
310‧‧‧離線模組
320‧‧‧在線模組
312‧‧‧語料挖掘裝置
313‧‧‧第二訓練裝置
314‧‧‧語料混合裝置
315‧‧‧分詞裝置
316‧‧‧統計裝置
317‧‧‧整理裝置
311‧‧‧機器翻譯模型準備裝置
311-1‧‧‧糾錯改寫對準備裝置
311-2‧‧‧第一訓練裝置
322‧‧‧糾錯判定裝置
322-1‧‧‧第一判斷裝置
322-2‧‧‧第二判斷裝置
321‧‧‧糾錯改寫裝置
323‧‧‧結果判定裝置
藉由結合圖式對本發明示例性實施方式進行更詳細的描述,本發明的上述以及其它目的、特徵和優勢將變得更加明顯,其中,在本發明示例性實施方式中,相同的參考標號通常代表相同部件。 圖1是本發明的語音識別結果糾錯方案的示意性方塊圖; 圖2是本發明的語音識別結果糾錯裝置的示意性方塊圖; 圖3是可以用於執行本發明的語音識別結果糾錯方法的計算設備的示意性方塊圖。
Claims (40)
- 一種機器處理方法,包括: 準備糾錯改寫對,該糾錯改寫對包括錯誤文本和對應的正確文本;以及 以該糾錯改寫對作為訓練語料,對機器處理模型進行訓練。
- 根據申請專利範圍第1項所述的機器處理方法,其中,該準備糾錯改寫對的步驟包括: 從日誌中挖掘該糾錯改寫對。
- 根據申請專利範圍第2項所述的機器處理方法,其中,從日誌中尋找滿足下述至少一項條件的在先文本和在後文本,作為該糾錯改寫對: 日誌中記錄的在先文本和在後文本之間的時間間隔不大於預定時間間隔; 在先文本和在後文本之間的編輯距離除以兩個文本的最大長度得到的比值不大於第一預定比值閾值; 在後文本的出現次數不小於第一預定次數閾值; 在先文本和在後文本作為糾錯改寫對的出現次數不小於第二預定次數閾值。
- 根據申請專利範圍第1至3項中任何一項所述的機器處理方法,其中, 該機器處理模型是機器翻譯模型。
- 根據申請專利範圍第4項所述的機器處理方法,其中, 該機器翻譯模型是序列到序列模型。
- 根據申請專利範圍第5項所述的機器處理方法,其中, 該機器翻譯模型是基於注意力機制的序列到序列模型。
- 根據申請專利範圍第1至3項中任何一項所述的機器處理方法,其中, 該錯誤文本和該正確文本都是外部輸入文本。
- 根據申請專利範圍第7項所述的機器處理方法,其中, 該外部輸入文本是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。
- 一種文本糾錯方法,包括: 準備適用於文本糾錯的機器處理模型;以及 將第一文本輸入到該機器處理模型中,得到第二文本。
- 根據申請專利範圍第9項所述的文本糾錯方法,其中, 藉由根據申請專利範圍第1至8項中任何一項所述的機器處理方法來準備該機器處理模型。
- 根據申請專利範圍第9項所述的文本糾錯方法,還包括: 判斷該第一文本是否需要進行糾錯, 其中,在判定需要進行糾錯的情況下,將該第一文本輸入到該機器處理模型中,而在判定不需要進行糾錯的情況下,不將該第一文本輸入到該機器處理模型中。
- 根據申請專利範圍第11項所述的文本糾錯方法,其中,判斷該第一文本是否需要進行糾錯的步驟包括: 使用語言模型判斷該第一文本是否需要進行糾錯;以及/或者 基於常用詞庫判斷該第一文本是否需要進行糾錯。
- 根據申請專利範圍第12項所述的文本糾錯方法,其中, 在該語言模型針對該第一文本給出的困惑度高於第一預定困惑度閾值的情況下,判定需要進行糾錯;並且/或者 在該第一文本中包含非常用詞的情況下,判定需要進行糾錯。
- 根據申請專利範圍第12項所述的文本糾錯方法,還包括: 從該日誌中挖掘適於訓練該語言模型的訓練語料;以及 使用該訓練語料來訓練該語言模型。
- 根據申請專利範圍第14項所述的文本糾錯方法,還包括: 將從日誌中挖掘得到的訓練語料與普通語料混合,得到混合訓練語料, 其中,使用該混合訓練語料來訓練該語言模型。
- 根據申請專利範圍第14項所述的文本糾錯方法,還包括: 對該日誌中的文本進行分詞; 統計各個分詞在該日誌中的出現次數;以及 將出現次數不小於第三預定次數閾值的詞作為常用詞,記錄在該常用詞庫中。
- 根據申請專利範圍第9項所述的文本糾錯方法,還包括: 判斷該第二文本是否合格。
- 根據申請專利範圍第17項所述的文本糾錯方法,其中,基於以下條件中的至少一項來判斷該第二文本是否合格: 該機器處理模型針對該第二文本給出的置信度不低於預定置信度閾值; 語言模型針對該第二文本給出的困惑度分值小於該第一文本,並且/或者該困惑度分值小於第二預定困惑度閾值; 該第一文本與該第二文本之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。
- 根據申請專利範圍第9項所述的文本糾錯方法,其中, 該第一文本是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。
- 一種機器處理裝置,包括: 糾錯改寫對準備裝置,用於準備糾錯改寫對,該糾錯改寫對包括錯誤識別結果和對應的正確識別結果;以及 第一訓練裝置,用於以該糾錯改寫對作為訓練語料,對該機器處理模型進行訓練。
- 根據申請專利範圍第20項所述的機器處理裝置,其中,該糾錯改寫對準備裝置從日誌中挖掘該糾錯改寫對。
- 根據申請專利範圍第21項所述的機器處理裝置,其中,從日誌中尋找滿足下述至少一項條件的在先文本和在後文本,作為該糾錯改寫對: 日誌中記錄的在先文本和在後文本之間的時間間隔不大於預定時間間隔; 在先文本和在後文本之間的編輯距離除以兩個文本的最大長度得到的比值不大於第一預定比值閾值; 在後文本的出現次數不小於第一預定次數閾值; 在先文本和在後文本作為糾錯改寫對的出現次數不小於第二預定次數閾值。
- 根據申請專利範圍第20至22項中任何一項所述的機器處理裝置,其中, 該機器處理模型是機器翻譯模型。
- 根據申請專利範圍第23項所述的機器處理裝置,其中, 該機器翻譯模型是序列到序列模型。
- 根據申請專利範圍第24項所述的機器處理裝置,其中, 該機器翻譯模型是基於注意力機制的序列到序列模型。
- 根據申請專利範圍第20至22項中任何一項所述的機器處理裝置,其中, 該錯誤文本和該正確文本都是外部輸入文本。
- 根據申請專利範圍第26項所述的機器處理裝置,其中, 該外部輸入文本是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。
- 一種文本糾錯裝置,包括: 離線模組,該離線模組包括機器處理模型準備裝置,用於準備適用於文本糾錯的機器處理模型;以及 在線模組,該在線模組包括糾錯改寫裝置,用於將第一文本輸入到該機器處理模型中,得到第二文本。
- 根據申請專利範圍第29項所述的文本糾錯裝置,其中, 該機器處理模型準備裝置是根據申請專利範圍第20至27項中任何一項所述的機器處理裝置。
- 根據申請專利範圍第28項所述的文本糾錯裝置,其中,該在線模組還包括: 糾錯判定裝置,用於判斷該第一文本是否需要進行糾錯, 其中,在該糾錯判定裝置判定需要進行糾錯的情況下,將該第一文本輸入到該機器處理模型中,而在該糾錯判定裝置判定不需要進行糾錯的情況下,不將該第一文本輸入到該機器處理模型中。
- 根據申請專利範圍第30項所述的文本糾錯裝置,其中,該糾錯判定裝置包括: 第一判斷裝置,使用語言模型判斷該第一文本是否需要進行糾錯;以及/或者 第二判斷裝置,基於常用詞庫判斷該第一文本是否需要進行糾錯。
- 根據申請專利範圍第31項所述的文本糾錯裝置,其中, 該第一判斷裝置在該語言模型針對該第一文本給出的困惑度高於第一預定困惑度閾值的情況下,判定需要進行糾錯;並且/或者 該第二判斷裝置在該第一文本中包含非常用詞的情況下,判定需要進行糾錯。
- 根據申請專利範圍第31項所述的文本糾錯裝置,其中,該離線模組還包括: 語料挖掘裝置,用於從該日誌中挖掘適於訓練該語言模型的訓練語料;以及 第二訓練裝置,用於使用該訓練語料來訓練該語言模型。
- 根據申請專利範圍第33項所述的文本糾錯裝置,其中,該離線模組還包括: 語料混合裝置,用於將從日誌中挖掘得到的訓練語料與普通語料混合,得到混合訓練語料, 其中,該第二訓練裝置使用該混合訓練語料來訓練該語言模型。
- 根據申請專利範圍第33項所述的文本糾錯裝置,其中,該離線模組還包括: 分詞裝置,用於對該日誌中的文本進行分詞; 統計裝置,用於統計各個分詞在該日誌中的出現次數;以及 整理裝置,用於將出現次數不小於第三預定次數閾值的詞作為常用詞,記錄在該常用詞庫中。
- 根據申請專利範圍第28項所述的文本糾錯裝置,其中,該在線模組還包括: 結果判定裝置,用於判斷該第二文本是否合格。
- 根據申請專利範圍第36項所述的文本糾錯裝置,其中,該結果判定裝置基於以下條件中的至少一項來判斷該第二文本是否合格: 該機器處理模型針對該第二文本給出的置信度不低於預定置信度閾值; 語言模型針對該第二文本給出的困惑度分值小於該第一文本,並且/或者該困惑度分值小於第二預定困惑度閾值; 該第一文本與該第二文本之間的編輯距離除以兩者的最大長度得到的比值不大於第二預定比值閾值。
- 根據申請專利範圍第28項所述的文本糾錯裝置,其中, 該第一文本是打字輸入文本、手寫輸入文本、語音識別結果文本、圖像識別結果文本中的一種。
- 一種計算設備,包括: 處理器;以及 記憶體,其上儲存有可執行碼,當該可執行碼被該處理器執行時,使該處理器執行如申請專利範圍第1至19項中任何一項所述的方法。
- 一種非暫時性機器可讀儲存媒體,其上儲存有可執行碼,當該可執行碼被電子設備的處理器執行時,使該處理器執行如申請專利範圍第1至19項中任一項所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711060088.6A CN109753636A (zh) | 2017-11-01 | 2017-11-01 | 机器处理及文本纠错方法和装置、计算设备以及存储介质 |
??201711060088.6 | 2017-11-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201918913A true TW201918913A (zh) | 2019-05-16 |
Family
ID=66331335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107130128A TW201918913A (zh) | 2017-11-01 | 2018-08-29 | 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN109753636A (zh) |
TW (1) | TW201918913A (zh) |
WO (1) | WO2019085779A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI750622B (zh) * | 2020-03-31 | 2021-12-21 | 群光電子股份有限公司 | 深度學習模型訓練系統、深度學習模型訓練方法及非暫態電腦可讀取儲存媒體 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549694B (zh) * | 2018-04-16 | 2021-11-23 | 南京云问网络技术有限公司 | 一种文本中时间信息的处理方法 |
CN110232129B (zh) * | 2019-06-11 | 2020-09-29 | 北京百度网讯科技有限公司 | 场景纠错方法、装置、设备和存储介质 |
CN110148418B (zh) * | 2019-06-14 | 2024-05-03 | 安徽咪鼠科技有限公司 | 一种场景记录分析系统、方法及其装置 |
CN110543812A (zh) * | 2019-07-19 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 信息提取方法及装置、电子设备及存储介质 |
US11462208B2 (en) * | 2019-09-11 | 2022-10-04 | Oracle International Corporation | Implementing a correction model to reduce propagation of automatic speech recognition errors |
KR20210037307A (ko) * | 2019-09-27 | 2021-04-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN110750959B (zh) * | 2019-10-28 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111125302A (zh) * | 2019-11-29 | 2020-05-08 | 海信视像科技股份有限公司 | 用户输入语句检错方法、装置及电子设备 |
CN111104480A (zh) * | 2019-11-30 | 2020-05-05 | 广东新瑞世纪科技有限公司 | 一种创新型ai智能文本处理系统 |
CN111126072B (zh) * | 2019-12-13 | 2023-06-20 | 北京声智科技有限公司 | 一种Seq2Seq模型训练方法、装置、介质和设备 |
CN111209740B (zh) * | 2019-12-31 | 2023-08-15 | 中移(杭州)信息技术有限公司 | 文本模型训练方法、文本纠错方法、电子设备及存储介质 |
CN111191441A (zh) * | 2020-01-06 | 2020-05-22 | 广东博智林机器人有限公司 | 文本纠错方法、装置及存储介质 |
CN110827801B (zh) * | 2020-01-09 | 2020-04-17 | 成都无糖信息技术有限公司 | 一种基于人工智能的自动语音识别方法及系统 |
CN111310473A (zh) * | 2020-02-04 | 2020-06-19 | 四川无声信息技术有限公司 | 文本纠错方法及其模型训练的方法、装置 |
CN113449511B (zh) * | 2020-03-24 | 2023-06-09 | 百度在线网络技术(北京)有限公司 | 文本处理的方法、装置、设备和存储介质 |
CN111539199B (zh) * | 2020-04-17 | 2023-08-18 | 中移(杭州)信息技术有限公司 | 文本的纠错方法、装置、终端、及存储介质 |
CN112749553B (zh) * | 2020-06-05 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 视频文件的文本信息处理方法、装置和服务器 |
CN113947092A (zh) * | 2020-07-16 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 一种翻译方法及装置 |
CN111897535A (zh) * | 2020-07-30 | 2020-11-06 | 平安科技(深圳)有限公司 | 语法纠错方法、装置、计算机系统及可读存储介质 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN111985241B (zh) * | 2020-09-03 | 2023-08-08 | 深圳平安智慧医健科技有限公司 | 医学信息查询方法、装置、电子设备及介质 |
CN112329476A (zh) * | 2020-11-11 | 2021-02-05 | 北京京东尚科信息技术有限公司 | 一种文本纠错方法及装置、设备、存储介质 |
CN112435671B (zh) * | 2020-11-11 | 2021-06-29 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及系统 |
CN112464650A (zh) * | 2020-11-12 | 2021-03-09 | 创新工场(北京)企业管理股份有限公司 | 一种文本纠错方法和装置 |
CN112784581B (zh) * | 2020-11-20 | 2024-02-13 | 网易(杭州)网络有限公司 | 文本纠错方法、装置、介质及电子设备 |
CN112183073A (zh) * | 2020-11-27 | 2021-01-05 | 北京擎盾信息科技有限公司 | 一种适用于法律热线语音识别的文本纠错和补全方法 |
CN112733552B (zh) * | 2020-12-30 | 2024-04-12 | 中国科学技术大学 | 机器翻译模型构建方法、装置以及设备 |
CN112767924A (zh) * | 2021-02-26 | 2021-05-07 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113129865A (zh) * | 2021-03-05 | 2021-07-16 | 联通(广东)产业互联网有限公司 | 通信语音转写AI connector中间元件的处理方法和装置 |
CN113051894A (zh) * | 2021-03-16 | 2021-06-29 | 京东数字科技控股股份有限公司 | 一种文本纠错的方法和装置 |
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN113177419B (zh) * | 2021-04-27 | 2024-04-30 | 北京小米移动软件有限公司 | 文本改写方法、装置、存储介质及电子设备 |
CN113192497B (zh) * | 2021-04-28 | 2024-03-01 | 平安科技(深圳)有限公司 | 基于自然语言处理的语音识别方法、装置、设备及介质 |
CN113705202A (zh) * | 2021-08-31 | 2021-11-26 | 北京金堤科技有限公司 | 搜索输入信息纠错方法、装置以及电子设备、存储介质 |
CN113948066B (zh) * | 2021-09-06 | 2022-07-12 | 北京数美时代科技有限公司 | 一种实时转译文本的纠错方法、系统、存储介质和装置 |
CN113569545B (zh) * | 2021-09-26 | 2021-12-07 | 中国电子科技集团公司第二十八研究所 | 一种基于语音识别纠错模型的管制信息提取方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102413693B1 (ko) * | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
US20170154258A1 (en) * | 2015-11-30 | 2017-06-01 | National Institute Of Information And Communications Technology | Joint estimation method and method of training sequence-to-sequence model therefor |
CN106844368B (zh) * | 2015-12-03 | 2020-06-16 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN107229348B (zh) * | 2016-03-23 | 2021-11-02 | 北京搜狗科技发展有限公司 | 一种输入纠错方法、装置和用于输入纠错的装置 |
US20170308526A1 (en) * | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
CN106598939B (zh) * | 2016-10-21 | 2019-09-17 | 北京三快在线科技有限公司 | 一种文本纠错方法及装置、服务器、存储介质 |
CN106527756A (zh) * | 2016-10-26 | 2017-03-22 | 长沙军鸽软件有限公司 | 一种对输入信息进行智能纠错的方法及装置 |
CN107122346B (zh) * | 2016-12-28 | 2018-02-27 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN106919646B (zh) * | 2017-01-18 | 2020-06-09 | 南京云思创智信息科技有限公司 | 中文文本摘要生成系统及方法 |
CN107092664B (zh) * | 2017-03-30 | 2020-04-28 | 华为技术有限公司 | 一种内容解释方法及装置 |
CN107170453B (zh) * | 2017-05-18 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
-
2017
- 2017-11-01 CN CN201711060088.6A patent/CN109753636A/zh active Pending
-
2018
- 2018-08-29 TW TW107130128A patent/TW201918913A/zh unknown
- 2018-10-22 WO PCT/CN2018/111173 patent/WO2019085779A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI750622B (zh) * | 2020-03-31 | 2021-12-21 | 群光電子股份有限公司 | 深度學習模型訓練系統、深度學習模型訓練方法及非暫態電腦可讀取儲存媒體 |
Also Published As
Publication number | Publication date |
---|---|
WO2019085779A1 (zh) | 2019-05-09 |
CN109753636A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201918913A (zh) | 機器處理及文本糾錯方法和裝置、計算設備以及儲存媒體 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN108052499B (zh) | 基于人工智能的文本纠错方法、装置及计算机可读介质 | |
US20120323560A1 (en) | Method for symbolic correction in human-machine interfaces | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
WO2022241950A1 (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
JP2008504605A (ja) | 非ローマ文字および単語のスペル修正のためのシステムおよび方法 | |
CN111144410B (zh) | 一种跨模态的图像语义提取方法、系统、设备及介质 | |
CN112417134B (zh) | 基于语音文本深度融合特征的摘要自动生成系统及方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN112329482A (zh) | 机器翻译方法、装置、电子设备和可读存储介质 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
Zhu et al. | Robust spoken language understanding with unsupervised asr-error adaptation | |
CN110991175A (zh) | 多模态下的文本生成方法、系统、设备及存储介质 | |
KR20230061001A (ko) | 문서 교정 장치 및 방법 | |
CN114580428A (zh) | 融合多任务和多标签学习的司法领域深度事件抽取方法 | |
CN114298031A (zh) | 文本处理方法、计算机设备及存储介质 | |
WO2021129411A1 (zh) | 文本处理方法及装置 | |
CN111274826B (zh) | 一种基于语义信息融合的低频词翻译方法 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
CN115048940B (zh) | 基于实体词属性特征和回译的中文金融文本数据增强方法 |