TWI614618B - 字詞校正方法 - Google Patents

字詞校正方法 Download PDF

Info

Publication number
TWI614618B
TWI614618B TW105119157A TW105119157A TWI614618B TW I614618 B TWI614618 B TW I614618B TW 105119157 A TW105119157 A TW 105119157A TW 105119157 A TW105119157 A TW 105119157A TW I614618 B TWI614618 B TW I614618B
Authority
TW
Taiwan
Prior art keywords
code
text
word
pronunciation
input
Prior art date
Application number
TW105119157A
Other languages
English (en)
Other versions
TW201800964A (zh
Inventor
Jia Ching Wang
王家慶
Ming Hao Li
李明皓
Original Assignee
National Central University
國立中央大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Central University, 國立中央大學 filed Critical National Central University
Priority to TW105119157A priority Critical patent/TWI614618B/zh
Publication of TW201800964A publication Critical patent/TW201800964A/zh
Application granted granted Critical
Publication of TWI614618B publication Critical patent/TWI614618B/zh

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一種字詞校正方法,包含以下步驟:根據輸入字詞之文字讀音以取得代碼;根據代碼列出文字讀音所對應的代碼組合;以及根據代碼組合由資料庫中取得對應文字,以作為輸入文字。

Description

字詞校正方法
本發明係有關於一種字詞校正方法,且特別是有關於相似音為基礎之字詞校正方法。
近年來科技蓬勃發展,數位裝置逐漸普及。使用者之年齡層隨著數位裝置(如:手機、平板、電腦...等)的普及化而逐步下降,隨之而來的改變,是以語音作為基礎的輸入方式漸漸取代了以往採用打字輸入(如:注音輸入、倉頡輸入...等)、手寫輸入...等輸入方式。
上述改變的原因,是基於語音輸入的便利性,使用者無須使用雙手來進行打字輸入或手寫輸入,亦不再需要背誦不同打字輸入方式的繁瑣輸入規則,僅要開口說出想要輸入的文字,即可以語音的方式進行文字輸入。
然而,因許多字詞之發音方式相近或相同,容易造成語音輸入錯誤,如「撞到」與「撞倒」、「在」與「再」...等,因此,語音輸入的便利性存在相當程度的輸入錯誤之風險。在語音輸入的文字校正方式中,常見之校正方式為採用注音語料庫基礎的校正系統,此系統是以注音語料庫中的字詞作為校正基礎,使用相似音搜尋方式,達到錯別字修正之 目的。可惜的是,直接以相似音搜尋之方式,基於注音的基礎語言結構,其搜尋之結果可能多達上百種,因此,以此種方式進行校正不僅耗時甚鉅且十分缺乏效率。
由此可見,上述現有的方式,顯然仍存在不便與缺陷,而有待改進。為了解決上述問題,相關領域莫不費盡心思來謀求解決之道,但長久以來仍未發展出適當的解決方案。
發明內容旨在提供本揭示內容的簡化摘要,以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述,且其用意並非在指出本發明實施例的重要/關鍵元件或界定本發明的範圍。
本發明內容之一目的是在提供一種字詞校正方法,藉以改善先前技術的問題。
為達上述目的,本發明內容之一技術態樣係關於一種字詞校正方法,包含以下步驟:根據輸入字詞之文字讀音以取得代碼;根據代碼列出文字讀音所對應的代碼組合;以及根據代碼組合由資料庫中取得對應文字,以作為輸入文字。
因此,根據本發明之技術內容,本發明實施例提出一種字詞校正方法,藉以改善採用傳統注音語料庫為基礎來進行語音輸入之校正方式,不僅耗時甚鉅且十分缺乏效率的問題。
在參閱下文實施方式後,本發明所屬技術領域中具有通常知識者當可輕易瞭解本發明之基本精神及其他發明 目的,以及本發明所採用之技術手段與實施態樣。
100‧‧‧方法
110~130‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖係繪示依照本發明一實施例的一種字詞校正方法之流程圖。
第2圖係繪示依照本發明一實施例的一種韻母、介母與代碼對照圖。
第3圖係繪示依照本發明一實施例的一種聲母與代碼對照圖。
根據慣常的作業方式,圖中各種特徵與元件並未依比例繪製,其繪製方式是為了以最佳的方式呈現與本發明相關的具體特徵與元件。此外,在不同圖式間,以相同或相似的元件符號來指稱相似的元件/部件。
為了使本揭示內容的敘述更加詳盡與完備,下文針對了本發明的實施態樣與具體實施例提出了說明性的描述;但這並非實施或運用本發明具體實施例的唯一形式。實施方式中涵蓋了多個具體實施例的特徵以及用以建構與操作這些具體實施例的方法步驟與其順序。然而,亦可利用其他具體實施例來達成相同或均等的功能與步驟順序。
除非本說明書另有定義,此處所用的科學與技術詞彙之含義與本發明所屬技術領域中具有通常知識者所理解 與慣用的意義相同。此外,在不和上下文衝突的情形下,本說明書所用的單數名詞涵蓋該名詞的複數型;而所用的複數名詞時亦涵蓋該名詞的單數型。
第1圖係繪示依照本發明一實施例的一種字詞校正方法100之流程圖。如圖所示,字詞校正方法100包含以下步驟:步驟110:根據輸入字詞之文字讀音以取得代碼;步驟120:根據代碼列出文字讀音所對應的代碼組合;以及步驟130:根據代碼組合由資料庫中取得對應文字,以作為輸入文字。
於步驟110中,當使用者採用字詞讀音為基礎之輸入之方式時,根據輸入字詞之文字讀音以取得代碼。舉例而言,使用者採用字詞讀音為基礎之輸入之方式而說出字詞,此時,可透過數位裝置來分析輸入字詞之文字讀音,如使用者採用語音輸入之方式而說出「皮包」,透過數位裝置分析「皮」與「包」之文字讀音。在一實施例中,透過數位裝置可更進一步分析輸入字詞之文字讀音而將文字讀音拆解為「ㄆㄧ」與「ㄅㄠ」。上述「ㄅ、ㄆ」為注音架構中的「聲母」,「ㄧ」為注音架構中的「介母」,「ㄠ」為注音架構中的「韻母」。
為使本發明實施例之字詞校正方法100易於理解,請一併參閱第1圖、第2圖及第3圖,第2圖係繪示依照本發明一實施例的一種韻母、介母與代碼對照圖,第3圖係繪示 依照本發明一實施例的一種聲母與代碼對照圖。請參閱步驟110,可透過數位裝置以根據「皮」之文字讀音「ㄆ」、「ㄧ」中的聲母、介母或韻母,相應地於第2圖及第3圖之對照表取得代碼「2」、「J」,並依照此方式取得「包」之文字讀音「ㄅ」、「ㄠ」中的聲母、介母或韻母,相應地於第2圖及第3圖之對照表取得代碼「2」、「F」。
請一併參閱第2圖及第3圖,字詞校正方法100係基於但不限制於注音輸入法,只要是以字詞讀音為基礎的輸入方法,如上述注音輸入法、拼音輸入法或語音輸入…等方法,輸入後之字詞皆可運用本發明之字詞校正方法100。以注音輸入法為例,注音輸入法包含複數個注音符號(如36個注音符號),這些注音符號包含複數個聲母、複數個介母及複數個韻母,為使字詞校正方法100執行的速度更快以提高效率,將這些注音符號之聲母、介母及韻母分成複數個群組,如第2圖所示,將介母及韻母分為14個群組,此外,如第3圖所示,將聲母分為9個群組,並對這些群組的每一者標記對應的代碼,如第2圖所示,對介母及韻母的群組「ㄚ、ㄢ、ㄤ」標記代碼A、對介母及韻母的群組「ㄛ、ㄡ、ㄨㄛ、ㄨㄥ」標記代碼B…等,此外,如第3圖所示,對聲母的群組「ㄇ、ㄈ、ㄏ」標記代碼1、對聲母的群組「ㄅ、ㄆ」標記代碼2…等。然本發明不以第2圖及3圖所示為限,其僅用以例示性地繪示本發明的實現方式之一。
接著,於步驟120中,根據代碼列出輸入字詞之文字讀音所對應的代碼組合,如「皮」之文字讀音「ㄆ」、 「ㄧ」中的聲母「ㄆ」,相應地於第3圖之對照表取得代碼「2」,此外,「皮」之文字讀音「ㄆ」、「ㄧ」中的介母「ㄧ」,相應地於第2圖之對照表取得代碼「J」。此外,如「包」之文字讀音「ㄅ」、「ㄠ」中的聲母「ㄅ」,相應地於第3圖之對照表取得代碼「2」,此外,「包」之文字讀音「ㄅ」、「ㄠ」中的韻母「ㄠ」,相應地於第2圖之對照表取得代碼「F」。然後,根據上述代碼列出輸入字詞之文字讀音「皮」、「包」所對應的代碼組合為「2J」、「2F」。
請參閱步驟130,其中所述之資料庫包含眾多文字,可藉由電腦根據第2圖與第3圖所示之聲母、介母及韻母之多個群組對應的代碼,將資料庫之眾多文字的每一個文字轉換為複數個代碼,轉換之方式類似上述實施例之「皮」與「包」分別轉換為「2」「J」與「2」「F」的轉換方法,於此不作贅述。此外,「皮」與「包」之代碼組成的代碼組合「2J」與「2F」將儲存於資料庫中。如此一來,即可根據輸入字詞「皮」之代碼組合「2J」由資料庫中取得對應文字,以作為數位裝置之輸入文字。
在一實施例中,上述資料庫除包含眾多文字外,亦包含這些文字之多個字詞組合,例如文字「皮」與文字「包」之字詞組合為「皮包」,因此,將這些字詞轉換為複數個代碼組合,如將字詞組合「皮包」轉換為「2J2F」,並存於資料庫中。舉例而言,以教育部「重編版國語字典修訂本」為例,其包含約16萬筆字詞,本發明可採用上述字詞資料,將上述字詞資料轉換為複數個代碼組合,並存於資料庫中,以供本發明 應用。如此一來,即可將輸入字詞對應的代碼組合與資料庫中的代碼組合進行比對,如將輸入字詞「皮包」對應的代碼組合「2J2F」與資料庫中的代碼組合進行比對,由於資料庫亦存有各個字詞之代碼組合,因此,輸入字詞對應的代碼組合「2J2F」可於資料庫中比對到相應的代碼組合「2J2F」,而資料庫代碼組合「2J2F」的字詞即為使用者所欲輸入字詞,因此,可藉由上述方式由資料庫中取得對應字詞,以作為數位裝置之輸入字詞。
由上述實施例可知,本發明提出之字詞校正方法可於語音輸入前對資料庫進行預先處理,利用相似注音符號組合之特性,將注音符號替換為相似音之代碼,並標記於資料庫之字詞且存於資料庫中。如此一來,數位裝置透過本發明之字詞校正法進行校正時,可採用資料庫之字詞對應的相似音之代碼進行搜尋,相較於習知技術,可大幅節省窮舉相似注音符號後,逐字搜尋所耗費之時間及記憶體,以有效提升效率。
Figure TWI614618BD00001
由表一可知,在最差情況下,習知技術之搜尋時間(50543.770(s))遠高於本發明提出之字詞校正方法100的搜尋時間(1.518(s))。此外,就平均而論,習知技術之搜尋時間 (330.969(s))明顯高於本發明字詞校正方法100之搜尋時間(0.195(s)),由此可知,本發明提出之字詞校正方法100確實可節省時間並提高搜尋之效率。
所屬技術領域中具有通常知識者當可明白,本發明之字詞校正方法中的各步驟依其執行之功能予以命名,僅係為了讓本案之技術更加明顯易懂,並非用以限定該等步驟。將各步驟予以整合成同一步驟或分拆成多個步驟,或者將任一步驟更換到另一步驟中執行,皆仍屬於本揭示內容之實施方式。
總結而論,應用本發明具有下列優點。本發明實施例提出一種字詞校正方法,藉以改善採用傳統注音語料庫為基礎來進行語音輸入之校正方式,不僅耗時甚鉅且十分缺乏效率的問題。
雖然上文實施方式中揭露了本發明的具體實施例,然其並非用以限定本發明,本發明所屬技術領域中具有通常知識者,在不悖離本發明之原理與精神的情形下,當可對其進行各種更動與修飾,因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。
100‧‧‧方法
110~130‧‧‧步驟

Claims (7)

  1. 一種字詞校正方法,包含:對一資料庫進行預處理,其中該資料庫包含複數個字詞,該些字詞是由複數個文字所組成,該些文字的讀音是由複數個注音符號所組成,該些注音符號包含複數個聲母、複數個介母及複數個韻母,該預處理更包含:將該些注音符號之該些聲母、該些介母及該些韻母分成複數個群組;對該些群組的每一者標記對應的一代碼;根據該資料庫之每一個文字讀音的注音符號取得對應的一代碼組合;以及根據組成該些字詞的該些文字將該些字詞轉換為複數個代碼組合,並存於該資料庫中;以及根據輸入字詞之文字讀音以取得每一該文字讀音的代碼;根據該代碼列出該文字讀音所對應的代碼組合;以及根據所對應的該代碼組合由該資料庫中取得對應文字,以作為輸入文字。
  2. 如請求項1所述之字詞校正方法,其中根據該輸入字詞之該文字讀音以取得每一該文字讀音的代碼包含:分析該輸入字詞,以取得該輸入字詞的每一該文字讀音之聲母、介母或韻母。
  3. 如請求項2所述之字詞校正方法,其中根據該輸入字詞之該文字讀音以取得每一該文字讀音的代碼包含:將該輸入字詞之每一該文字讀音的該聲母、該介母或該韻母轉換為該代碼。
  4. 如請求項3所述之字詞校正方法,其中根據該代碼列出該文字讀音所對應的代碼組合包含:將該文字讀音之該聲母轉換為一第一代碼;將該文字讀音之該介母轉換為一第二代碼;將該文字讀音之該韻母轉換為一第三代碼;以及將該第一代碼、該第二代碼及該第三代碼組成該代碼組合。
  5. 如請求項3所述之字詞校正方法,其中根據該代碼列出該文字讀音所對應的代碼組合包含:將該文字讀音之該聲母轉換為一第一代碼;將該文字讀音之該韻母轉換為一第二代碼;以及將該第一代碼及該第二代碼組成該代碼組合。
  6. 如請求項3所述之字詞校正方法,其中該輸入字詞包含複數個文字,其中根據該輸入字詞之該代碼列出該文字讀音所對應的代碼組合包含: 將該些文字之該些聲母、該些介母或該些韻母轉換為複數個代碼;以及將該些代碼組成該代碼組合。
  7. 如請求項1所述之字詞校正方法,其中根據所對應的該代碼組合由該資料庫中取得對應文字包含:將該輸入字詞對應的該代碼組合與該資料庫中的該代碼組合進行比對;以及根據比對結果,由該資料庫中取得對應字詞,以作為輸入字詞。
TW105119157A 2016-06-17 2016-06-17 字詞校正方法 TWI614618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW105119157A TWI614618B (zh) 2016-06-17 2016-06-17 字詞校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW105119157A TWI614618B (zh) 2016-06-17 2016-06-17 字詞校正方法

Publications (2)

Publication Number Publication Date
TW201800964A TW201800964A (zh) 2018-01-01
TWI614618B true TWI614618B (zh) 2018-02-11

Family

ID=61725457

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105119157A TWI614618B (zh) 2016-06-17 2016-06-17 字詞校正方法

Country Status (1)

Country Link
TW (1) TWI614618B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101624A (en) * 1998-01-21 2000-08-08 International Business Machines Corporation Method and apparatus for detecting and correcting anomalies in field-programmable gate arrays using CRCs for anomaly detection and parity for anomaly correction
US20030229497A1 (en) * 2000-04-21 2003-12-11 Lessac Technology Inc. Speech recognition method
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101624A (en) * 1998-01-21 2000-08-08 International Business Machines Corporation Method and apparatus for detecting and correcting anomalies in field-programmable gate arrays using CRCs for anomaly detection and parity for anomaly correction
US20030229497A1 (en) * 2000-04-21 2003-12-11 Lessac Technology Inc. Speech recognition method
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US20050289463A1 (en) * 2004-06-23 2005-12-29 Google Inc., A Delaware Corporation Systems and methods for spell correction of non-roman characters and words

Also Published As

Publication number Publication date
TW201800964A (zh) 2018-01-01

Similar Documents

Publication Publication Date Title
Diwan et al. Multilingual and code-switching ASR challenges for low resource Indian languages
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
De Vries et al. A smartphone-based ASR data collection tool for under-resourced languages
US20110184723A1 (en) Phonetic suggestion engine
Gales et al. Unicode-based graphemic systems for limited resource languages
RU2009139274A (ru) Архитектура распознавания для генерации азиатских иероглифов
CN111192568A (zh) 一种语音合成方法及语音合成装置
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
Goldberg et al. Joint Hebrew segmentation and parsing using a PCFGLA lattice parser
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
Coto‐Solano Computational sociophonetics using automatic speech recognition
Hou et al. Code-switching automatic speech recognition for nursing record documentation: system development and evaluation
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
KR101559576B1 (ko) 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법
TWI614618B (zh) 字詞校正方法
JP5722375B2 (ja) 文末表現変換装置、方法、及びプログラム
KR20200057824A (ko) 단어 교정 시스템
Al-Haj et al. Pronunciation modeling for dialectal Arabic speech recognition
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN111090720A (zh) 一种热词的添加方法和装置
KR101543024B1 (ko) 발음 기반의 번역 방법 및 그 장치
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
Isaac et al. Improving automatic speech recognition for mobile learning of mathematics through incremental parsing