TWI837596B - 中文相似音別字校正方法及系統 - Google Patents
中文相似音別字校正方法及系統 Download PDFInfo
- Publication number
- TWI837596B TWI837596B TW111106708A TW111106708A TWI837596B TW I837596 B TWI837596 B TW I837596B TW 111106708 A TW111106708 A TW 111106708A TW 111106708 A TW111106708 A TW 111106708A TW I837596 B TWI837596 B TW I837596B
- Authority
- TW
- Taiwan
- Prior art keywords
- character
- similar
- characters
- phonetic
- candidate
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 27
- 238000010801 machine learning Methods 0.000 claims description 20
- 238000013135 deep learning Methods 0.000 description 3
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 2
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 2
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000219357 Cactaceae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一種中文相似音別字校正方法及系統。此方法包括下列步驟:擷取待校正的中文字串,此中文字串包括多個文字;針對中文字串中的每一個文字,搜尋符合該文字的前後文語義的至少一個候選字;以及從候選字中篩選出與該文字的發音相似的注音相似字並用以校正該文字。
Description
本揭露是有關於一種文字輸入方法及系統,且特別是有關於一種中文相似音別字校正方法及系統。
過去在使用注音輸入法的過程中,常會不經意地出現一些拼音上的錯誤,例如:想打「申(ㄕㄣ)請」,卻不小心打成「生(ㄕㄥ)請」。同時,在許多文字轉語音的系統中,也時常會看到相似音文字判斷錯誤的問題。例如:語者說「大不相同」,但系統輸出文字為「大步相同」。
現有的中文文字校正方法大多需要蒐集大量的詞組組成常用詞組庫,並用此詞組庫來校正錯字,但這樣的方法不僅需耗費大量時間,同時校正能力相當有限。例如:某人說「這是先人長大的地方」,文字轉語音的系統輸出「這是先人掌大的地方」,而一般使用詞組庫的校正系統可能會將其校正為「這是仙人掌大的地方」。在這樣的情況下,不但沒有成功校正文字,反而造成更多的錯誤。
本揭露一實施例提供一種中文相似音別字校正方法,適用於具處理器的電子裝置。此方法包括下列步驟:擷取待校正的中文字串,此中文字串包括多個文字;針對中文字串中的每一個文字,搜尋符合該文字的前後文語義的至少一個候選字;以及從候選字中篩選出與該文字的發音相似的注音相似字並用以校正該文字。
在一些實施例中,所述擷取待校正的中文字串的步驟包括擷取由標點符號斷開的多個輸入文字或是由語音斷點斷開的多個語音文字作為待校正的中文字串。
在一些實施例中,所述針對中文字串中的每一個文字,搜尋符合該文字的前後文的語義的至少一個候選字的步驟包括輸入該文字的前後文於經訓練的機器學習模型,以輸出符合前後文語義的候選字,其中所述機器學習模型經使用多個中文文本及對應的多個字詞訓練。
在一些實施例中,所述前後文包括該文字所在的中文字串以及位在此中文字串之前或之後的多個字串。
在一些實施例中,從候選字中篩選出與文字的發音相似的注音相似字的步驟包括從候選字中篩選出與該文字的注音相同,且聲調相同或不同的候選字作為注音相似字。
在一些實施例中,從候選字中篩選出與文字的發音相似的注音相似字的步驟包括從候選字中篩選出與該文字的聲調相同且與該文字彼此為對應的捲舌音或非捲舌音的候選字作為注音相似字。
在一些實施例中,從候選字中篩選出與文字的發音相似的注音相似字的步驟包括從候選字中篩選出與該文字的聲調相同且與該文字同為鼻音的候選字作為所述注音相似字。
在一些實施例中,從候選字中篩選出與文字的發音相似的注音相似字的步驟包括依據各個候選字的語義按照機率對候選字進行排序,而篩選排序在前的候選字作為注音相似字。
在一些實施例中,使用注音相似字以校正文字的步驟包括若篩選出注音相似字,使用注音相似字校正文字,以及若未篩選出注音相似字,保留原始的文字。
本揭露一實施例提供一種中文相似音別字校正系統,其包括語義辨識裝置及處理裝置。語義辨識裝置用以搜尋符合輸入文字的前後文的語義的候選字。處理裝置連接語義辨識裝置,經配置以擷取待校正的中文字串,此中文字串包括多個文字,利用語義辨識裝置針對中文字串中的每一個文字,搜尋符合該文字的前後文語義的至少一個候選字,以及從候選字中篩選出與該文字的發音相似的注音相似字並用以校正該文字。
為讓本揭露能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
本發明實施例提出一種中文相似音別字校正方法及系統,透過深度學習演算法,根據前後文的語義找出句子中出現機率較高的候選字,同時運用中文注音符號的特性,從候選字中再篩選出發音較相似的字做替換,以解決現有中文文字校正系統能力有限的問題。
圖1是根據本發明一實施例所繪示的中文相似音別字校正方法的流程示意圖。請參照圖1,本發明實施例的主要處理邏輯是針對所擷取中文字串中的待校正文字12,先利用深度學習演算法14根據該待校正文字12的前後文的語義找出機率較高的候選字,再運用中文注音符號的特性16,從這些候選字中篩選出發音較相似的字作為校正後文字18,並用以替換待校正文字12。整個處理過程需要對所擷取中文字串中的每一個文字分別進行,最終完成該中文字串的相似音別字校正。
圖2是根據本發明一實施例所繪示的中文相似音別字校正系統的方塊圖。請參考圖2,本發明實施例的中文相似音別字校正系統20包括語義辨識裝置22及處理裝置24。
語義辨識裝置22例如是具有運算能力的筆記型電腦、桌上型電腦、伺服器、工作站等計算機裝置,其中例如儲存有經訓練的機器學習模型,而可用以搜尋符合輸入文字的前後文的語義的候選字。所述的機器學習模型例如是採用卷積神經網絡(Convolutional Neural Network,CNN)、深度神經網路(Deep Neural Networks,DNN)等機器學習演算法所建立的模型,透過大量中文文本及對應字詞的訓練,該機器學習模型可學習中文的文法和語義,而能夠執行類似克漏字的功能,即,對於輸入中文字串中的任意挖空文字,該機器學習模型能夠依據該文字前後文的語義,預測適合放置於該位置的候選字。
處理裝置24例如是具有運算能力的筆記型電腦、桌上型電腦、伺服器、工作站等計算機裝置,或是手機、平板電腦等行動裝置,其中包括中央處理單元(Central Processing Unit,CPU)、微處理器(Microprocessor)、微控制器(Microcontroller)、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)或可程式化邏輯裝置(Programmable Logic Device,PLD)等處理器,而可執行本發明實施例的中文相似音別字校正方法。
在一些實施例中,語義辨識裝置22例如是位於遠端的伺服器或工作站,而處理裝置24例如包括支援乙太網路(Ethernet)或是支援電機和電子工程師協會(Institute of Electrical and Electronics Engineers,IEEE)802.11n/b/g等無線通訊標準的網路卡,而能夠透過有線或無線方式連結網路並與語義辨識裝置22連線,從而利用語義辨識裝置22對所擷取的中文字串進行語義辨識,並預測適合放置於中文字串中各位置的候選字。
在一些實施例中,語義辨識裝置22亦可整合於處理裝置24中,使得處理裝置24能夠在本地端直接對所擷取的中文字串進行語義辨識,並預測適合放置於中文字串中各位置的候選字,從而實現本發明實施例的中文相似音別字校正方法。
詳細而言,圖3是依照本發明一實施例所繪示的中文相似音別字校正方法的流程圖。請同時參照圖2及圖3,本實施例的方法適用於上述的中文相似音別字校正系統20。以下即搭配中文相似音別字校正系統20的各項元件說明本實施例的中文相似音別字校正方法的詳細步驟。
在步驟S302中,由處理裝置24擷取待校正的中文字串。此中文字串包括多個文字。其中,處理裝置24例如是擷取由標點符號斷開的多個輸入文字或是由語音斷點斷開的多個語音文字作為待校正的中文字串,但本實施例不限於此。
詳細而言,基於中文標點符號之間的文字通常可表達出具體的語意,處理裝置24例如是針對使用者使用注音輸入法或其他方式輸入的一串文字,利用文字中的標點符號將這些輸入文字斷開,並將其中某一段的文字設置為待校正的中文字串,而用以進行語義辨識和別字校正。
另一方面,基於人類說話時的斷點通常代表語意的轉折,處理裝置24例如是利用語音轉文字系統將人類的語音轉換為文字,並將使用語音斷點斷開的多個語音文字作為待校正的中文字串,而能夠針對該中文字串中的文字進行語義辨識和別字校正。
在步驟S304中,由處理裝置24針對中文字串中的每一個文字,搜尋符合該文字的前後文的語義的至少一個候選字。詳細而言,處理裝置24例如是利用語義辨識裝置22針對中文字串中的每一個文字,將該文字的前後文輸入經訓練的機器學習模型,以輸出符合前後文語義的候選字。其中,所述的前後文例如是該文字所在的字串,或是除了該字串之外還包括位在該字串之前或之後的多個字串,但本實施例不限於此。
詳細而言,當輸入機器學習模型的前後文包括待校正文字所在的字串時,輸入機器學習模型將輸出符合該字串語意的候選字;而當輸入機器學習模型的前後文除了待校正文字所在的字串外還額外包括該字串之前或之後的多個字串時,輸入機器學習模型則可輸出符合整篇文本或整段談話的語意的候選字。
在步驟S306中,由處理裝置24從候選字中篩選出與所要校正文字的發音相似的注音相似字並用以校正該文字。其中,處理裝置24例如是依據各個候選字的語義按照機率對候選字進行排序,而篩選排序在前的候選字作為注音相似字。若從候選字中篩選出注音相似字,處理裝置24將使用該注音相似字來校正文字,而若從候選字中未篩選出注音相似字,處理裝置24將保留原始的文字。
在一些實施例中,處理裝置24是從候選字中篩選出與所要校正文字的注音相同,且聲調相同或不同的候選字作為注音相似字,並用以校正該文字。例如,安與暗的注音同樣為ㄢ,但安的聲調為一聲,暗的聲調為四聲,故這兩個字彼此可作為校正用的候選字。
在一些實施例中,處理裝置24是從候選字中篩選出與所要校正文字的聲調相同且與該文字彼此為對應的捲舌音或非捲舌音的候選字作為注音相似字,並用以校正該文字。例如,中與宗的聲調同樣為一聲,但中為捲舌音,宗則為對應的非捲舌音,故這兩個字彼此可作為校正用的候選字。
在一些實施例中,處理裝置24是從候選字中篩選出與所要校正文字的聲調相同且與該文字同為鼻音的候選字作為注音相似字,並用以校正該文字。例如,生與申的聲調同樣為一聲,且同樣為鼻音,故這兩個字彼此可作為校正用的候選字。
通過上述方法,處理裝置24在處理完待校正中文字串中的每個文字後,即可輸出校正後字串。此方法不僅可節省建立詞組庫所花費的時間及人力,且針對特有的中文發音方式(例如,捲舌音不清楚、鼻音不明顯等),亦能夠做有效校正。
舉例來說,圖4是依照本發明一實施例所繪示的中文相似音別字校正方法的範例。請參照圖4,本實施例的是針對所擷取的待校正中文字串(即,「在黑按中進行」)40進行相似音別字校正。其中,本實施例是針對字串40中的每個字依序進行處理,每次僅專注於一個位置的文字做校正,例如在針對待校正文字(即,「按」)42進行校正時,即將位於該位置44的字挖空,並將該字的前後文輸入預先訓練的機器學習模型,以輸出最有可能的候選字。其中,機器學習模型依據前後文,可預測該位置44適合的候選字46包括「暗」、「夜」、「洞」等。在本實施例中,預設輸出5個候選字46,而在其他實施例中,則可視需要決定輸出的字數,本實施例不限制輸出的字數。
針對機器學習模型輸出的候選字46,本實施例進一步判斷其中是否具有待校正文字(即,「按」)42的注音相似字。其中,候選字46中的「暗」的注音46a與「按」相同,且聲調也相同,因此可判定為是待校正文字42的注音相似字;候選字46中的「夜」和「洞」的注音46a與「按」不同,也不屬於與「按」對應的捲舌音/非捲舌音、鼻音,因此可判定為不是待校正文字42的注音相似字。本實施例可從候選字46中篩選出「暗」作為「按」的注音相似字並用以替代「按」。最終,待完成待校正中文字串40中每個字的校正後,即可獲得校正後字串(即,「在黑暗中進行」)48。
綜上所述,本發明實施例的中文相似音別字校正方法及系統通過預先訓練好的機器學習模型,針對輸入字串中的任意文字,可依據前後文推斷出適合放置於該位置的候選字,再結合相似音的判斷,因此可準確地校正字串中的相似音別字。此方法不僅可節省建置詞組庫所需花費的人力,且可解決語音轉文字系統容易受到特有發音方式影響而造成誤判的問題,從而提高校正中文相似音別字的效率及準確率。
雖然本揭露已以實施例揭露如上,然其並非用以限定本揭露,任何所屬技術領域中具有通常知識者,在不脫離本揭露的精神和範圍內,當可作些許的更動與潤飾,故本揭露的保護範圍當視後附的申請專利範圍及其均等範圍所界定者為準。
12:待校正文字
14:深度學習演算法
16:中文注音符號的特性
18:校正後文字
20:中文相似音別字校正系統
22:語義辨識裝置
24:處理裝置
40:待校正中文字串
42:待校正文字
44:位置
46:候選字
46a:候選字注音
48:校正後字串
S302~S306:步驟
圖1是根據本發明一實施例所繪示的中文相似音別字校正方法的流程示意圖。
圖2是根據本發明一實施例所繪示的中文相似音別字校正系統的方塊圖。
圖3是依照本發明一實施例所繪示的中文相似音別字校正方法的流程圖。
圖4是依照本發明一實施例所繪示的中文相似音別字校正方法的範例。
S302~S306:步驟
Claims (8)
- 一種中文相似音別字校正方法,適用於具處理器的電子裝置,所述方法包括下列步驟:擷取待校正的中文字串,所述中文字串包括多個文字;針對所述中文字串中的每一所述文字,將該文字挖空並輸入所述文字的前後文於經訓練的機器學習模型,搜尋並輸出符合所述文字的所述前後文的語義的至少一候選字,其中所述機器學習模型經使用多個中文文本及對應的多個字詞訓練;以及從所述候選字中篩選出與所述文字的發音相似的注音相似字並用以校正所述文字,其中從所述候選字中篩選出與所述文字的發音相似的注音相似字的步驟包括:依據各所述候選字的語義按照機率對所述候選字進行排序,而篩選排序在前的所述候選字作為所述注音相似字。
- 如請求項1所述的方法,其中擷取待校正的中文字串的步驟包括:擷取由標點符號斷開的多個輸入文字或是由語音斷點斷開的多個語音文字作為待校正的所述中文字串。
- 如請求項1所述的方法,其中所述前後文包括所述文字所在的所述中文字串以及位在所述中文字串之前或之後的多個字串。
- 如請求項1所述的方法,其中從所述候選字中篩選出與所述文字的發音相似的注音相似字的步驟包括:從所述候選字中篩選出與所述文字的注音相同,且聲調相同或不同的候選字作為所述注音相似字。
- 如請求項1所述的方法,其中從所述候選字中篩選出與所述文字的發音相似的注音相似字的步驟包括:從所述候選字中篩選出與所述文字的聲調相同且與所述文字彼此為對應的捲舌音或非捲舌音的候選字作為所述注音相似字。
- 如請求項1所述的方法,其中從所述候選字中篩選出與所述文字的發音相似的注音相似字的步驟包括:從所述候選字中篩選出與所述文字的聲調相同且與所述文字同為鼻音的候選字作為所述注音相似字。
- 如請求項1所述的方法,其中使用所述注音相似字以校正所述文字的步驟包括:若篩選出所述注音相似字,使用所述注音相似字校正所述文字;以及若未篩選出所述注音相似字,保留原始的所述文字。
- 一種中文相似音別字校正系統,包括:語義辨識裝置,搜尋符合輸入文字的前後文的語義的候選字;以及處理裝置,連接所述語義辨識裝置,經配置以:擷取待校正的中文字串,所述中文字串包括多個文字; 利用語義辨識裝置針對所述中文字串中的每一所述文字,將該文字挖空並輸入所述文字的前後文於經訓練的機器學習模型,搜尋並輸出符合所述文字的所述前後文的語義的至少一候選字,其中所述機器學習模型經使用多個中文文本及對應的多個字詞訓練;以及從所述候選字中篩選出與所述文字的發音相似的注音相似字並用以校正所述文字,其中從所述候選字中篩選出與所述文字的發音相似的注音相似字的步驟包括:依據各所述候選字的語義按照機率對所述候選字進行排序,而篩選排序在前的所述候選字作為所述注音相似字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111106708A TWI837596B (zh) | 2022-02-24 | 2022-02-24 | 中文相似音別字校正方法及系統 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111106708A TWI837596B (zh) | 2022-02-24 | 2022-02-24 | 中文相似音別字校正方法及系統 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202334857A TW202334857A (zh) | 2023-09-01 |
TWI837596B true TWI837596B (zh) | 2024-04-01 |
Family
ID=88927498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111106708A TWI837596B (zh) | 2022-02-24 | 2022-02-24 | 中文相似音別字校正方法及系統 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI837596B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201316187A (zh) * | 2011-10-05 | 2013-04-16 | Daniel M Wang | 偵測及校正中文錯字的系統及方法 |
TW201909165A (zh) * | 2017-07-20 | 2019-03-01 | 中華電信股份有限公司 | 藉由標點符號所啟發之語言特徵並運用於國語韻律生成之方法及系統 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN114065738A (zh) * | 2022-01-11 | 2022-02-18 | 湖南达德曼宁信息技术有限公司 | 基于多任务学习的中文拼写纠错方法 |
-
2022
- 2022-02-24 TW TW111106708A patent/TWI837596B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201316187A (zh) * | 2011-10-05 | 2013-04-16 | Daniel M Wang | 偵測及校正中文錯字的系統及方法 |
TW201909165A (zh) * | 2017-07-20 | 2019-03-01 | 中華電信股份有限公司 | 藉由標點符號所啟發之語言特徵並運用於國語韻律生成之方法及系統 |
CN109522558A (zh) * | 2018-11-21 | 2019-03-26 | 金现代信息产业股份有限公司 | 一种基于深度学习的中文错字校正方法 |
CN114065738A (zh) * | 2022-01-11 | 2022-02-18 | 湖南达德曼宁信息技术有限公司 | 基于多任务学习的中文拼写纠错方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202334857A (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
CN107301865B (zh) | 一种用于语音输入中确定交互文本的方法和装置 | |
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
CN101067780B (zh) | 智能设备的文字输入系统及方法 | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
WO2016010245A1 (en) | Method and system for robust tagging of named entities in the presence of source or translation errors | |
CN105609107A (zh) | 一种基于语音识别的文本处理方法和装置 | |
WO2017127296A1 (en) | Analyzing textual data | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN101133411A (zh) | 非罗马字符的容错罗马化输入方法 | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
JPWO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN111192570B (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
EP3509062B1 (en) | Audio recognition device, audio recognition method, and program | |
CN110335608B (zh) | 声纹验证方法、装置、设备及存储介质 | |
CN111401012B (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
JP6605105B1 (ja) | 文章記号挿入装置及びその方法 | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
CN110826301B (zh) | 标点符号添加方法、系统、移动终端及存储介质 | |
TWI352970B (en) | Voice input system and voice input method | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN101577115A (zh) | 语音输入系统及其方法 | |
TWI837596B (zh) | 中文相似音別字校正方法及系統 | |
CN111429886B (zh) | 一种语音识别方法及系统 |