JPS6356757A - Western language preparing device with correcting function - Google Patents

Western language preparing device with correcting function

Info

Publication number
JPS6356757A
JPS6356757A JP61202872A JP20287286A JPS6356757A JP S6356757 A JPS6356757 A JP S6356757A JP 61202872 A JP61202872 A JP 61202872A JP 20287286 A JP20287286 A JP 20287286A JP S6356757 A JPS6356757 A JP S6356757A
Authority
JP
Japan
Prior art keywords
character
character string
word
pronunciation
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61202872A
Other languages
Japanese (ja)
Inventor
Yoshizo Saito
齋藤 佳三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61202872A priority Critical patent/JPS6356757A/en
Priority to EP87112445A priority patent/EP0257641A3/en
Publication of JPS6356757A publication Critical patent/JPS6356757A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve the accuracy of a word supplied from a dictionary by replacing an erroneous character string to the character string in which pronunciation resembles and spelling is different and supplying a correct answer candidate word. CONSTITUTION:In a Western language preparing device, a main dictionary and a user dictionary are provided and it is investigated whether or not the spelling of the inputted word is present in them. When the spelling is not in the dictionaries, the word preparation is executed by one-character replacement, one-character deletion, one-character deletion, one-character addition and adjoining character inversion and it is confirmed whether the word is present in the main dictionary or the user dictionary. When the word is absent, a pronunciation approximate information table is referred to, replaced to the character string in which the pronunciation resembles and the spelling is different, a correct answer candidate word is supplied and it is confirmed whether the word is in the main dictionary or the user dictionary.

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明はコレクト機能付欧文作成装置に関する。[Detailed description of the invention] <Industrial application field> The present invention relates to a European language creation device with a correct function.

〈従来の技術〉 従来より、英単語情報を取り扱う計算機システム、ワー
ドプロセッサー装置、タイプライタ−装置等の欧文作成
装置においては、入力した英m語の綴りに誤りはないか
どうかのヂエソクをするために、通常は辞書を備えてい
る。そして、さらに、今日では単に綴り間違いの単語を
指摘する他に、正解候補の単語をシステム側が供給する
機能がつけられろようになった。現在よく[山川されて
いる方法は、下記の4つの処理を組合せた方法であるが
、これでも統計的には正解単語は80%台の精度でしか
得られない。
<Prior art> Conventionally, in computer systems that handle English word information, word processing devices, typewriter devices, and other Roman writing devices, there has been a process for checking whether there are any errors in the spelling of input English m-words. , usually equipped with a dictionary. Furthermore, in addition to simply pointing out misspelled words, systems can now also provide suggestions for correct words. The currently popular method is a combination of the following four processes, but statistically speaking, correct words can only be obtained with an accuracy of around 80%.

1)  1文字置換 例 5tataon −+ 5t
ation(aをiに置換える) 2)  1文字削除 例 5tatioon −5ta
tion(0を1文字削除) 3)1文字追加 例 5taton→5tation(
iをtと0の間に追加) 4)隣接文字反転例 5tatre −+ 5tate
r(reをerに反転させる) ところで、過去においては、英単語の入力は原稿をみな
がらキーボードから入力していくのが大半であったが、
今日では、テープを聞きながらキーボードから入力する
というように、データ入力の仕方ら変わりつつある。そ
のため、発生するスペルエラーの内訳も、単なるキー入
力の間違いより乙、発音は同じであるが綴りが違うとい
うエラーか総エラーの中で占める割合が大きくなってき
ている。そのため、従来の1文字置換、1文字削除、1
文字追加、隣接文字反転という処理では極めて低い精度
でしか正解候補単語が得られない。
1) Single character replacement example 5tataon −+ 5t
ation (replace a with i) 2) Delete one character Example 5tation -5ta
tion (delete 1 character 0) 3) Add 1 character Example 5taton→5tation(
Add i between t and 0) 4) Example of reversing adjacent characters 5tatre −+ 5tate
r (reverse re to er) By the way, in the past, most English words were input using the keyboard while looking at the manuscript.
Today, data entry methods are changing, such as typing on a keyboard while listening to a tape. As a result, the breakdown of spelling errors that occur is increasing, with errors such as errors in the same pronunciation but different spellings accounting for a larger proportion of total errors than simple key input errors. Therefore, conventional one character replacement, one character deletion, one
The process of adding characters and reversing adjacent characters can only yield correct candidate words with extremely low accuracy.

〈発明の目的〉 そこで、この発明は、誤った文字または文字列の入力デ
ータを、発音は近似しているが綴りが異なる文字または
文字列に入れ替えることによって、より精度の高い正解
候補単語を供給できるようにすることにある。
<Purpose of the Invention> Therefore, the present invention provides a more accurate correct candidate word by replacing input data of incorrect characters or character strings with characters or character strings that have similar pronunciations but different spellings. The goal is to make it possible.

〈発明の構成〉 上記目的を達成するため、この発明のコレクト機能付欧
文作成装置は、入力装置から入力された文字情報を記憶
する記憶装置と、少なくともメイン辞書領域と単語を構
成する文字または文字列にその文字または文字列と発音
の近似する文字または文字列である近似発音データを対
応づけて記憶している発音近似情報テーブルとを有する
辞書装置と、上記記憶装置に記憶された文字列がメイン
辞書に有るか否かを判別し、上記文字列がメイン辞書に
有る場合には、その文字列を出力装置に出力する一方、
上記文字列かメイン辞書にない場合には、1文字置換、
1文字削除、■文字追加、隣接文字反転の4処理のいず
れかまたはその組み合計を行なって、その処理後の文字
列がメイン辞書にあるか否かを判別し、上記処理後の文
字列がメイン辞書に有る場合には、処理後の文字列を出
力装置に出力する一方、上記処理後の文字列がメイン辞
書にない場合には、上記文字列を分解し、分解後の文字
または文字列が発音近似情報テーブルにおける文字また
は文字列と一致する場合には、上記文字または文字列を
近似発音データに入れ替える制御装置を備えたことを特
徴としている。
<Structure of the Invention> In order to achieve the above object, the European language creation device with a collect function of the present invention includes a storage device for storing character information input from an input device, and at least a main dictionary area and characters or characters constituting a word. a dictionary device having a pronunciation approximation information table storing approximate pronunciation data that is a character or character string whose pronunciation is similar to that character or character string in association with the character string; Determine whether or not the character string is in the main dictionary, and if the character string is in the main dictionary, output the character string to the output device,
If the above string is not in the main dictionary, replace one character,
Perform one of the four processes of deleting one character, adding a character, and reversing adjacent characters, or add up the combination thereof, determine whether the character string after that process is in the main dictionary, and check whether the character string after the above process is in the main dictionary. If the character string exists in the main dictionary, the processed character string is output to the output device, while if the character string after the above processing is not in the main dictionary, the character string is decomposed and the character string after decomposition is output. The present invention is characterized in that it includes a control device that replaces the character or character string with approximate pronunciation data when the character or character string matches the character or character string in the pronunciation approximation information table.

〈実施例〉 以下、この発明を図示の実施例により詳細に説明する。<Example> Hereinafter, the present invention will be explained in detail with reference to illustrated embodiments.

第1図において、lはキーボード、タブレット装置、0
CR(光学文字読取装置)、磁気テープ等の英文字の単
語情報データを入力する入力装置、2は入力装置lから
入力された文字情報を記憶する例えばコアメモリ、IC
メモリ、磁気ディスク等の記憶装置、3は記憶装置2に
保存されている編集後の文字単語データを出力する例え
ばプリンター、ディスプレイ装置、磁気テープ、磁気デ
ィスク等の出力装置、4はメイン辞書領域、ユーザ辞書
領域および発音近似情報テーブルを有して、記憶装置に
格納している文字、単語データの綴り情報の間合計に対
して、適時有効な情報を供給する辞書装置、5は上記入
力装置11記憶装置2、出力装置3および辞書装置4間
の信号のやりとりを制御すると共に、後記する入力単語
の文字列のコレクト処理を行なう例えばコンピュータか
らなる制御装置である。
In Figure 1, l is a keyboard, a tablet device, 0
CR (optical character reader), an input device for inputting English character word information data such as a magnetic tape, 2 is a core memory, IC, etc. that stores character information input from the input device l.
3 is a storage device such as a memory or a magnetic disk; 3 is an output device such as a printer, display device, magnetic tape, or magnetic disk; 4 is a main dictionary area; A dictionary device having a user dictionary area and a pronunciation approximation information table and supplying valid information in a timely manner with respect to the total spelling information of character and word data stored in a storage device; 5 is the input device 11; It is a control device made of, for example, a computer, which controls the exchange of signals between the storage device 2, the output device 3, and the dictionary device 4, and also performs a process of collecting character strings of input words, which will be described later.

上記発音近似情報テーブルは第3.4.5図に示すよう
に、単語を構成する文字または文字列にその文字または
文字列と発音の近似する文字または文字列すなわち近似
発音データを対応づけて記憶している。すなわち、この
発音近似干青報テーブルは単語各々に発音情報を付加し
ているのではなく、単語を構成している文字列の並びか
ら同じ発音になりやすい文字列をグループ化している。
As shown in Figure 3.4.5, the pronunciation approximation information table stores the characters or character strings constituting a word in association with the characters or character strings whose pronunciation is similar, that is, approximate pronunciation data. are doing. That is, this pronunciation approximation report table does not add pronunciation information to each word, but groups character strings that are likely to have the same pronunciation based on the arrangement of character strings that make up the word.

入力単語がエラー(ミススペル)の場合、入力単語を措
成している文字列を分解し、このテーブルに登録されて
いる文字列と同じ場合に同様の発音になりやすい候補文
字列と入れ替えて新しい候補単語を提供するのである。
If the input word is an error (mispelling), the character string that makes up the input word is broken down, and if it is the same as the character string registered in this table, it is replaced with a candidate character string that is likely to have a similar pronunciation and a new one is created. It provides candidate words.

第2図はこのコレクト機能付欧文作成装置のコレクト処
理のフローヂャートである。まず、ステップS5.St
で、入力単語の文字列がメイン辞書とユーザー辞書にあ
るかチェックする。この場合の辞書構造は、ハツシュ(
ITash)法を使用した方法や連枝式を使用した方法
やマイクロプロ(MicraPro)社の旧ワードスタ
(Word 5tar)の辞書構成方法(Δ〜Z順に頭
文字データを横配列にその単語を構成オろ文字数を縦順
にした2次元のインデックスをらとにした方法)等、ど
の方法でもかまわない。文字列かメイン辞書やユーザ辞
書にある場合は、その文字列は正しいものとして、記憶
装置2に記憶し、さらに出力装置3から出力する。この
ようなメイン辞書やユーザ辞書に文字列が登録されてい
ないときには、ステップS3.S4.S、。
FIG. 2 is a flowchart of the collection process of this Latin language creation device with a collection function. First, step S5. St
checks whether the input word string exists in the main dictionary and user dictionary. The dictionary structure in this case is hash (
ITash) method, the method using the chain formula, and the dictionary construction method of the old Word Star (Word 5tar) by MicraPro (constructing the word by arranging the initial letter data horizontally in the order of Δ~Z) Any method may be used, such as a method using a two-dimensional index in which the number of characters is arranged vertically. If the character string is found in the main dictionary or user dictionary, the character string is assumed to be correct and is stored in the storage device 2 and further outputted from the output device 3. If the character string is not registered in such a main dictionary or user dictionary, step S3. S4. S.

S、に進み、前述の・1つの処理を行なう。すなわち、
単語の長さQの構成要素C=C,・・・Ci・・CQか
らの正しい綴り候補は、 1)  1文字置換 位置1.1≦i≦σにある文字C
iをそれ以外のC*と置換える。
Proceed to step S, and perform one of the above-mentioned processes. That is,
The correct spelling candidates from the components C=C,...Ci...CQ of the word length Q are: 1) One character replacement Character C at position 1.1≦i≦σ
Replace i with other C*.

2)1文字削除 位置i、1≦1≦Qにある文字C4を
除去する。
2) Delete one character Character C4 at position i, 1≦1≦Q is removed.

3)1文字追加 位置1とi+1.0≦i≦ρの間に仮
想した文字C*を挿入する。
3) Adding one character Insert a virtual character C* between position 1 and i+1.0≦i≦ρ.

4)隣接文字反転位置iとi+l、I≦i≦e−1とに
あるci、ci+−1を反転する。
4) Invert ci and ci+-1 at adjacent character inversion positions i and i+l, I≦i≦e-1.

の処理によって新たに導きだせる新単語がメイン辞書ま
たはユーザ辞書にあるかチェックし、あるときは一致す
る単語を記憶装置2に格納ずろ。
Check whether a new word that can be newly derived by this process exists in the main dictionary or user dictionary, and if so, store the matching word in the storage device 2.

ここまての処理で誤った啜りの訂正は、80%台の訂正
率が得られるという統計的数字がでている。しかし、ま
だlO数%台の誤り率は発生している。そのため、ステ
ップS7に進んで上記・1つの処理に加えて、第3.4
.5図の発音近似情報テーブルを参照することによって
、より精度の高い正解候補の単語が供給できる。この発
音近似情報テーブルは単語を構成している文字列を分解
しており、この発音近似情報テーブルに登録されている
文字列と入力データが同じ文字列の場合に、その後にあ
る近似発音データすなわち候補文字列と入れ替えて新し
い正解単語候補を提供する。例えば[1本語の発音てニ
ーとした場合、eau(beautiful)。
Statistical figures have shown that the correction rate of erroneous slurping can be achieved in the 80% range through the processing so far. However, an error rate of several 10% still occurs. Therefore, proceeding to step S7, in addition to the above-mentioned one process, 3.4.
.. By referring to the pronunciation approximation information table shown in FIG. 5, more accurate correct candidate words can be provided. This pronunciation approximation information table breaks down the character strings that make up a word, and when the character string registered in this pronunciation approximation information table and the input data are the same character string, the approximate pronunciation data that follows, Provides a new correct word candidate by replacing the candidate string. For example, if the pronunciation of one word is ``nee'', it is eau (beautiful).

eしくrcad)、  eしc(queue)、  c
w(pew)、  1cu(adieu)。
eshiku rcad), eshic(queue), c
w (pew), 1 cu (adieu).

iew(view)、ue(cue)、 ui(sui
t)、 you(you)。
iew (view), ue (cue), ui (sui)
t), you(you).

yu(yule)と、これだけ啜りか違って同じ発音ま
たはほとんど同じ発音に近い文字列があり、これらはj
liに上記l)〜4)の処理ではカバーしきれない。
There are character strings that have the same pronunciation or almost the same pronunciation as yu (yule), and these are j
li cannot be fully covered by the above processes 1) to 4).

よって発音近似情報テーブルにより前述の処理を行うの
である。このようにして求めた正解単語候補がメイン辞
書あるいはユーザ辞書にある単語と同一かどうかチェッ
クし、一致していれば正しい単語候補として記憶59 
i、ツ2に供給する。このようにして、精度の高い正解
単語を供給できる。
Therefore, the above-mentioned processing is performed using the pronunciation approximation information table. Check whether the correct word candidate obtained in this way is the same as a word in the main dictionary or user dictionary, and if it matches, store it as a correct word candidate 59
i, supply to tsu2. In this way, highly accurate correct words can be supplied.

なお、第3..1.5図に示す発音8似情報テーブルは
、従来の4つの処理と重複するパターンは省いている。
In addition, 3rd. .. The pronunciation 8 similar information table shown in Figure 1.5 omits patterns that overlap with the four conventional processes.

〈発明の効果〉 以上より明らかなように、この発明のコレクト機能付欧
文作成装置は、従来の1文字置換、1文字削除、1文字
追加、隣接文字反転の・1つの処理に加えて、入力単語
にミススペルかある場合、発音近似情報テーブルを参照
して、誤った文字列を発音が似ているが啜りが異なる文
字列に入れ替えて、正解候補単語を捜し出して供給する
ので、辞書から供給される単語の精度を大幅に向上でき
ろ。
<Effects of the Invention> As is clear from the above, the European language creation device with a correct function of the present invention, in addition to the conventional processing of one character replacement, one character deletion, one character addition, and adjacent character inversion, If a word is misspelled, it refers to the pronunciation approximation information table and replaces the incorrect character string with a character string that has a similar pronunciation but a different slurp, and searches for and supplies the correct candidate word. You can greatly improve the accuracy of the words you use.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例のコレクト機能付欧文作成
装置のブロック図、第2図はコレクト処理のフローヂャ
ート、第3.4.5図は発音近似情報テーブルの説明図
である。 l・・・入力装置、2・・記憶装置、3・・出力装置、
4・・・辞書装置、訃・・制御装置。 特 許 出 願 人  シャープ株式会社代 理 人 
弁理士  聞出 葆 AI−2fIEI  図 1f2図
FIG. 1 is a block diagram of a European language creation device with a correct function according to an embodiment of the present invention, FIG. 2 is a flowchart of the correct processing, and FIG. 3.4.5 is an explanatory diagram of a pronunciation approximation information table. l...input device, 2...storage device, 3...output device,
4...Dictionary device, death...control device. Patent applicant: Sharp Corporation Agent
Patent Attorney Tokide Ao AI-2fIEI Figure 1f2

Claims (1)

【特許請求の範囲】[Claims] (1)入力装置から入力された文字情報を記憶する記憶
装置と、 少なくともメイン辞書領域と単語を構成する文字または
文字列にその文字または文字列と発音の近似する文字ま
たは文字列である近似発音データを対応づけて記憶して
いる発音近似情報テーブルとを有する辞書装置と、 上記記憶装置に記憶された文字列がメイン辞書に有るか
否かを判別し、上記文字列がメイン辞書に有る場合には
、その文字列を出力装置に出力する一方、上記文字列が
メイン辞書にない場合には、1文字置換、1文字削除、
1文字追加、隣接文字反転の4処理のいずれかまたはそ
の組み合せを行なって、その処理後の文字列がメイン辞
書にあるか否かを判別し、上記処理後の文字列がメイン
辞書に有る場合には、処理後の文字列を出力装置に出力
する一方、上記処理後の文字列がメイン辞書にない場合
には、上記文字列を分解し、分解後の文字または文字列
が発音近似情報テーブルにおける文字または文字列と一
致する場合には、上記文字または文字列を近似発音デー
タに入れ替える制御装置を備えたことを特徴とするコレ
クト機能付欧文作成装置。
(1) A storage device that stores character information input from an input device, and an approximate pronunciation that is a character or character string that has a pronunciation similar to that of at least the main dictionary area and the characters or character strings that make up the word. A dictionary device having a pronunciation approximation information table that stores data in association with each other, and determining whether or not the character string stored in the storage device is in the main dictionary, and if the character string is in the main dictionary. outputs the string to the output device, while if the string is not in the main dictionary, it replaces one character, deletes one character,
Perform any of the four processes of adding one character and reversing adjacent characters, or a combination thereof, and determine whether the character string after that process is in the main dictionary, and if the character string after the above process is in the main dictionary. In this case, the processed character string is output to the output device, while if the processed character string is not in the main dictionary, the character string is decomposed and the decomposed characters or character strings are stored in the pronunciation approximation information table. 1. A European language creation device with a correct function, comprising: a control device that replaces the character or character string with approximate pronunciation data when the character or character string matches the character or character string.
JP61202872A 1986-08-28 1986-08-28 Western language preparing device with correcting function Pending JPS6356757A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61202872A JPS6356757A (en) 1986-08-28 1986-08-28 Western language preparing device with correcting function
EP87112445A EP0257641A3 (en) 1986-08-28 1987-08-27 Documentation machine with spelling correction feature

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61202872A JPS6356757A (en) 1986-08-28 1986-08-28 Western language preparing device with correcting function

Publications (1)

Publication Number Publication Date
JPS6356757A true JPS6356757A (en) 1988-03-11

Family

ID=16464592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61202872A Pending JPS6356757A (en) 1986-08-28 1986-08-28 Western language preparing device with correcting function

Country Status (1)

Country Link
JP (1) JPS6356757A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778165A (en) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> Method and computer system for detection of error string in text

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778165A (en) * 1993-07-12 1995-03-20 Internatl Business Mach Corp <Ibm> Method and computer system for detection of error string in text

Similar Documents

Publication Publication Date Title
EP0277356B1 (en) Spelling error correcting system
US5572423A (en) Method for correcting spelling using error frequencies
JPS62121569A (en) Phrase replacement in original
US6360197B1 (en) Method and apparatus for identifying erroneous characters in text
JPH01214964A (en) European word processor with correcting function
US7398210B2 (en) System and method for performing analysis on word variants
CN104239289A (en) Syllabication method and syllabication device
JPS6038752B2 (en) How to change text stream
EP0093249A2 (en) System for detecting and correcting contextual errors in a text processing system
JPS6356757A (en) Western language preparing device with correcting function
JP2621999B2 (en) Document processing device
JPS6356756A (en) Western language preparing device with correcting function
GB1596411A (en) Translation system
JPS6371767A (en) Document producing device
JP3351397B2 (en) Chinese input device and Chinese input method
JP3809238B2 (en) Document processing method and apparatus
Dembitz et al. Architecture of Hascheck–An Intelligent Spellchecker for Croatian Language
JP2688651B2 (en) String converter
JPS62271175A (en) Dictionary correction system
JPS62209663A (en) Correcting device for japanese sentence
King Human factors and linguistic considerations: keys to high-speed Chinese character input
JPS6210762A (en) Kana to kanji conversion system
JPH0728806A (en) Character processor and method therefor
JPH02136959A (en) Extracting device for correction candidate of japanese sentence
JP2000207394A (en) Device and method for deriving the reading of unknown word, and recording medium