JPS63157292A - Hand-written kanji ocr device - Google Patents
Hand-written kanji ocr deviceInfo
- Publication number
- JPS63157292A JPS63157292A JP61305843A JP30584386A JPS63157292A JP S63157292 A JPS63157292 A JP S63157292A JP 61305843 A JP61305843 A JP 61305843A JP 30584386 A JP30584386 A JP 30584386A JP S63157292 A JPS63157292 A JP S63157292A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- character
- memory
- text
- kanji
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 abstract description 6
- 238000012790 confirmation Methods 0.000 abstract 1
- 238000012015 optical character recognition Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Abstract
Description
【発明の詳細な説明】
[産業上の利用分野]
本発明は1手書き漢字OCR(OCRは光学式文字読取
り機の略)装置に関し、特に文字判別の機能の改善に関
する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention relates to a handwritten kanji OCR (OCR is an abbreviation for optical character reader) device, and particularly relates to an improvement in the character discrimination function.
[従来の技術]
従来より手書き漢字をOCRにより読取る装置はよく知
られている。ところで、漢字には、点の有無、微小な線
素の差異、あるいは類似した線素の位置の違いで、異な
った字種を表す例が多数ある。[Prior Art] Devices for reading handwritten kanji using OCR are well known. By the way, there are many examples of kanji in which different types of characters are expressed by the presence or absence of dots, minute differences in line elements, or differences in the positions of similar line elements.
点の有無の例としては「王」と「玉」、微小な線素の差
異の例としては「徴」と「微」、類似した線素の位置の
違いによる例としては「大」と「丈」などである。Examples of the presence or absence of points are ``king'' and ``tama,'' examples of minute differences in line elements are ``sign'' and ``micro,'' and examples of differences in position of similar line elements are ``large'' and ``. "Length" etc.
[発明が解決しようとする問題点コ
OCR用の漢字字形としては、このような微妙な差異も
明瞭に区別できるような字形とする必要があり、判別可
能な漢字字形に対する制約が強く。[Problems to be Solved by the Invention] The Kanji character shapes for OCR must be such that even such subtle differences can be clearly distinguished, and there are strong restrictions on the distinguishable Kanji character shapes.
使いにくいという問題があった。The problem was that it was difficult to use.
本発明は、このような点に鑑みてなされたもので、上記
のような類似した漢字(ここで漢字という場合は、かな
文字や記号等も含む)の判別を正確に行うこと、および
漢字字形に対する制約を緩和することのできる手書き漢
字OCR装置を提供することにある。The present invention has been made in view of the above points, and it is an object of the present invention to accurately distinguish similar kanji as described above (herein, kanji includes kana characters, symbols, etc.) An object of the present invention is to provide a handwritten kanji OCR device that can relax the restrictions on handwritten kanji characters.
[問題点を解決するための手段] このような目的を達成するために、本発明、では。[Means for solving problems] In order to achieve such an objective, the present invention.
原稿上の漢字を光学的に読み取る手書き漢字OCR部と
、
漢字および漢字2文字以上の組合せでなる語句が格納さ
れた辞書メモリと。A handwritten kanji OCR unit that optically reads kanji on a manuscript, and a dictionary memory that stores kanji and words that are combinations of two or more kanji characters.
判別不可文字に対して候補文字とその判別不可文字の前
後にある文字との組合せを求め、辞書メモリでその語句
を確認し、許されている組合せの語句である場合はその
語句の文字を採用し、辞書に無い語句である場合には当
該判別不可文字に特定コードを付して、その結果をテキ
ストメモリに格納する処理を行うプロセッサと、
文字や記号を画面に表示するためのCRT表示装置と、
テキストメモリの内容をCRT表示装置に表示させるた
めのCRTインターフェイスと。For an unidentifiable character, find a combination of a candidate character and the characters before and after the unidentifiable character, check the word in the dictionary memory, and if it is a combination of words that is allowed, adopt the character of that word. However, if the word is not in the dictionary, a processor that attaches a specific code to the unidentifiable character and stores the result in a text memory, and a CRT display device that displays the characters and symbols on the screen. and a CRT interface for displaying the contents of the text memory on a CRT display device.
文字や記号および制御情報を前記プロセッサに入力する
ためのキーボードと
を具備したことを特徴とする。The present invention is characterized by comprising a keyboard for inputting characters, symbols, and control information to the processor.
[作用]
本発明では、OCRにより漢字原稿を読み込み、プロセ
ッサにおいて、原稿から読み込んだ文字を解析して対応
する文字コードをテキストに格納し、判別不可の文字に
対しては候補文字とその前後の文字との組合せの語句を
辞書メモリで確認し、許されている組合せの語句の場合
には採用した候補文字を判別不可文字に置き換えてテキ
ストメモリに格納し。[Operation] In the present invention, a kanji manuscript is read by OCR, and the processor analyzes the characters read from the manuscript and stores the corresponding character code in the text. For characters that cannot be distinguished, candidate characters and their surroundings are The word/phrase in combination with characters is checked in the dictionary memory, and if the word/phrase is in an allowed combination, the adopted candidate character is replaced with an indistinguishable character and stored in the text memory.
テキスト全体の判別不可文字の処理が終了した後、更に
オペレータによりCRT画面と会話形式で確認作業に入
りキーボードからの情報入力により適切な文字に変換す
る。After the processing of indistinguishable characters in the entire text is completed, the operator further confirms the text on the CRT screen and in a conversational manner and converts the text into appropriate characters by inputting information from the keyboard.
[実施例コ 以下図面を参照して本発明の実施例を詳細に説明する。[Example code] Embodiments of the present invention will be described in detail below with reference to the drawings.
第1図は本発明に係る手書き漢字OCR装置の一実施例
を示す構成図である0図において、1は漢字を含む手書
きの原稿、2は原稿1の漢字。FIG. 1 is a block diagram showing an embodiment of a handwritten kanji OCR device according to the present invention. In FIG.
記号などを光学的に読取る手書き漢字OCR部、3は漢
字辞書が格納された辞書メモリ、4はプロセッサ、5は
漢字や記号(以下総称して漢字という)の標準字形パタ
ーンが格納された標準パターンメモリ、6は読み取った
原稿の漢字の文字コードが格納されるテキストメモリ、
7はCRTインターフェイス、8は漢字を表示するCR
T表示装置、9は情報を入力するキーボードである。3 is a dictionary memory that stores a kanji dictionary; 4 is a processor; 5 is a standard pattern that stores standard character shape patterns of kanji and symbols (hereinafter collectively referred to as kanji); memory, 6 is a text memory in which the character code of the kanji of the read manuscript is stored;
7 is a CRT interface, 8 is a CR that displays kanji
T display device, 9 is a keyboard for inputting information.
このような構成における動作を第2図のフローチャート
を参照して次に説明する。原稿1を手書き漢字OCR部
2にかけ、漢字を光学的に読み取る。プロセッサ4では
、標準パターンメモリ5を参照してパターン整合法によ
り手書き漢字OCR部2からの出力文字を識別する。な
お、パターン整合法は公知の手法により行われる。The operation in such a configuration will be explained next with reference to the flowchart of FIG. A manuscript 1 is subjected to a handwritten kanji OCR section 2 to optically read kanji. The processor 4 refers to the standard pattern memory 5 and uses a pattern matching method to identify the characters output from the handwritten kanji OCR section 2. Note that the pattern matching method is performed using a known method.
判別された文字はテキストメモリ6に文字コードで格納
し、判別できない文字は判別不可コードをテキストメモ
リ6に格納する。Discriminated characters are stored in the text memory 6 as character codes, and characters that cannot be discriminated are stored as undiscernible codes in the text memory 6.
このようにしてテキストメモリ6に読み込んだ後、判別
不可コードについてはプロセッサ4により次の処理を行
う6判別不可文字に対する候補文字を複数個挙げる。列
挙された各候補文字とテキストメモリ上での当該判別不
可文字の前後にある文字(この文字は判別可能な文字で
ある)を含めた組合せの語句を求め、その組合せ語句が
辞書メモリ3上に登録されているかどうかをチェックし
、辞書メモリ上に存在する組合せの語句である場合には
その候補文字を採用しテキストメモリ6上の判別不可コ
ードの部分に置き換える。After reading into the text memory 6 in this manner, the processor 4 selects a plurality of candidate characters for the 6 unidentifiable characters, which are subjected to the following processing for the unidentifiable code. A word combination including each of the listed candidate characters and the characters before and after the unidentifiable character in the text memory (these characters are distinguishable characters) is found, and the combination word is stored in the dictionary memory 3. It is checked to see if it is registered, and if the combination of words exists on the dictionary memory, the candidate character is adopted and replaced with the unidentifiable code part on the text memory 6.
辞書メモリ上に無い語句である場合は、求められた他の
組合せ語句についての総べてについてチェックするが、
依然として辞書メモリ上に無い場合は判別不可コードを
そのままテキストメモリに残す、そして、オペレータに
確認してもらうために、テキストメモリ6上の文字コー
ドに対してハイライト表示のI!I′s情報を付加して
おく。If the word is not in the dictionary memory, all other combinations of words are checked.
If it is still not in the dictionary memory, the unidentifiable code is left in the text memory as is, and the I! code in the text memory 6 is highlighted for the operator to confirm. I's information is added.
判別不可文字に対する処理の具体例を示せば次の通りで
ある。例えば、第3図に示すように、文字31が判別不
可文字である場合、その候補文字としてパターン認識手
法により判別して、「丈」。A specific example of processing for unidentifiable characters is as follows. For example, as shown in FIG. 3, if the character 31 is an unrecognizable character, it is identified as a candidate character using a pattern recognition technique, and is identified as "length".
r文」、r大」を挙げる。そして1判別不可文字の後の
文字1字」との組合せの語句として、「大字」、「文字
」、「大字」があるとする、プロセッサはこれらの各語
句についてそれぞれチェックする。まずr大字」は辞書
に無い語句で、間違いであると判定する1次のr文字」
は辞書に在り、正解の語句と判定する。「大字」は辞書
に在り正解の語句と判定するが、この場合出現頻度は「
文字」の方が高いので、r文字」をj11a補とし、「
大字」は12候補とする。テキストメモリには第1候補
で採用した語句の文字1文」を判別不可文字に置き換え
る。List ``r sentence'' and ``r large''. Then, it is assumed that there are "oaza", "character", and "oaza" as words and phrases in combination with "1 character after 1 unidentifiable character", and the processor checks each of these words and phrases. First of all, ``r large letter'' is a word that is not found in the dictionary, and is the primary r character that is determined to be incorrect.''
is in the dictionary and is determined to be the correct word. "Oaza" is in the dictionary and is determined to be the correct word, but in this case, the frequency of occurrence is "
Since ``letter'' is higher, we use ``r letter'' as j11a complement, and ``
``Oaza'' has 12 candidates. In the text memory, one character sentence of the word adopted as the first candidate is replaced with an unidentifiable character.
なお、r文字」のr文」にするか、「大字」のr大」に
するかの最終的な決定は、オペレータの選択に任せる。The final decision as to whether to use "r character" for "r sentence" or "large character" for "r large" is left to the operator's choice.
CRTインターフェイス7は、テキストメモリ6内の文
字コードに対応する文字をCRT表示装置i!8上に表
示する。判別不可文字でハイライト表示の制御情報を持
つ文字は、CR7表示装置8のCR7画面上の輝度を高
くして、あるいは反転やブリンキング等の特殊表示形式
で表示する。The CRT interface 7 displays the characters corresponding to the character codes in the text memory 6 on the CRT display device i! Display on 8. Characters that are indistinguishable and have control information for highlighted display are displayed with high brightness on the CR7 screen of the CR7 display device 8, or in a special display format such as inversion or blinking.
以上のようにしてテキスト全体についての検索が終了し
た後は、オペレータはCR7画面上にて会話モードでこ
れらの文字の部分をチェックし。After completing the search for the entire text as described above, the operator checks these characters on the CR7 screen in conversation mode.
妥当ならばキーボード9から”YES (またはY)″
を、間違っていれば”No (またはN)”を入力し次
候補の選択あるいは直接入力(文字あるいは文字コード
の入力)によりテキストを完成させる。If appropriate, press “YES (or Y)” from keyboard 9.
If the text is incorrect, enter "No (or N)" and complete the text by selecting the next candidate or by directly inputting (inputting characters or character codes).
なお、次候補の選択あるいは直接入力の方式は公知の手
法を用いることができる。Note that a known method can be used to select the next candidate or directly input it.
[発明の効果コ
以上詳細に説明したように、本発明によれば、判別不可
文字に対して、候補文字と判別不可文字の前後にある文
字との組合せの語句についてそれが妥当かどうかを確認
して採用決定しているため、正確な読取りが期待できる
。このように、従来のOCRでは判別不可となってしま
ったものでも、判別可、あるいはオペレータにより確認
することができるため、手書き文字に対する制約も緩く
することができる。[Effects of the Invention] As explained in detail above, according to the present invention, for an unidentifiable character, it is checked whether the combination of a candidate character and the characters before and after the unidentifiable character is valid. Since the adoption was decided based on the above, accurate readings can be expected. In this way, even characters that cannot be identified by conventional OCR can be identified or confirmed by an operator, so restrictions on handwritten characters can be relaxed.
第1図は本発明に係る手書き漢字0CR1置の一実施例
を示す構成図、第2図は動作を説明するためのフローチ
ャート、第3図は判別不可文字に対して候補文字tt採
用決定する一具体例を示す図である。
1・・・手書きの原稿、2・・・手書き漢字OCR部。
3・・・辞書メモリ、4・・・プロセッサ、5・・・標
準パターンメモリ、6・・・テキストメモリ、7・・・
CRTインターフェイス、8・・・CRT表示装置、9
・・・キーボード。FIG. 1 is a configuration diagram showing an embodiment of handwritten kanji 0CR1 according to the present invention, FIG. 2 is a flowchart for explaining the operation, and FIG. It is a figure showing a concrete example. 1...Handwritten manuscript, 2...Handwritten kanji OCR department. 3...Dictionary memory, 4...Processor, 5...Standard pattern memory, 6...Text memory, 7...
CRT interface, 8... CRT display device, 9
···keyboard.
Claims (1)
、 漢字および漢字2文字以上の組合せでなる語句が格納さ
れた辞書メモリと、 判別不可文字に対して候補文字とその判別不可文学の前
後にある文字との組合せを求め、辞書メモリでその語句
を確認し、許されている組合せの語句である場合はその
語句の文字を採用し、辞書に無い語句である場合には当
該判別不可文字に特定コードを付して、その結果をテキ
ストメモリに格納する処理を行うプロセッサと、 文字や記号を画面に表示するためのCRT表示装置と、 テキストメモリの内容をCRT表示装置に表示させるた
めのCRTインターフェイスと、 文字や記号および制御情報を前記プロセッサに入力する
ためのキーボードと を具備し、前記プロセッサにおいて、原稿から読み込ん
だ文字を解析して対応する文字コードをテキストに格納
し、判別不可の文字に対しては候補文字とその前後の文
字との組合せの語句を辞書メモリで確認し、許されてい
る組合せの語句の場合には採用した候補文字を判別不可
文字に置き換えてテキストメモリに格納し、 テキスト全体の判別不可文字の処理が終了した後、更に
オペレータによりCRT画面と会話形式で確認作業に入
りキーボードからの情報入力により適切な文字に変換し
得るようにしたことを特徴とする手書き漢字OCR装置
。[Scope of Claims] A handwritten kanji OCR unit that optically reads kanji on a manuscript; a dictionary memory that stores kanji and words consisting of combinations of two or more kanji characters; Find the combination with the characters before and after the unidentifiable literature, check the word in the dictionary memory, and if it is a combination of words that is allowed, use the characters of that word, and if the word is not in the dictionary, A processor that attaches a specific code to the unidentifiable characters and stores the result in a text memory, a CRT display device that displays the characters and symbols on the screen, and a CRT display device that displays the contents of the text memory. a CRT interface for displaying on the screen, and a keyboard for inputting characters, symbols, and control information into the processor, and the processor analyzes the characters read from the original and stores the corresponding character code in the text. However, for unrecognizable characters, the word combination of the candidate character and the characters before and after it is checked in the dictionary memory, and in the case of a combination of words that is allowed, the adopted candidate character is replaced with the unrecognizable character. After the entire text has been processed for unintelligible characters, the operator can confirm the text on the CRT screen and in a conversational manner, and input information from the keyboard to convert the text into appropriate characters. A handwritten kanji OCR device featuring the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61305843A JPS63157292A (en) | 1986-12-22 | 1986-12-22 | Hand-written kanji ocr device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61305843A JPS63157292A (en) | 1986-12-22 | 1986-12-22 | Hand-written kanji ocr device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS63157292A true JPS63157292A (en) | 1988-06-30 |
Family
ID=17950035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61305843A Pending JPS63157292A (en) | 1986-12-22 | 1986-12-22 | Hand-written kanji ocr device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS63157292A (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59116882A (en) * | 1982-12-23 | 1984-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Correcting device for japanese document |
JPS6097477A (en) * | 1983-10-31 | 1985-05-31 | Fujitsu Ltd | Correcting system of misread character |
-
1986
- 1986-12-22 JP JP61305843A patent/JPS63157292A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59116882A (en) * | 1982-12-23 | 1984-07-05 | Nippon Telegr & Teleph Corp <Ntt> | Correcting device for japanese document |
JPS6097477A (en) * | 1983-10-31 | 1985-05-31 | Fujitsu Ltd | Correcting system of misread character |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5119437A (en) | Tabular document reader service | |
KR20100099154A (en) | Method for image analysis, especially for mobile stations | |
JPS6126192A (en) | Method for recognizing hungul character from hungul letter string | |
JPS63157292A (en) | Hand-written kanji ocr device | |
KR20010100199A (en) | Method for inputing Hangul in a mobile station | |
JPH10177623A (en) | Document recognizing device and language processor | |
JPS592191A (en) | Recognizing and processing system of handwritten japanese sentence | |
JPS63146187A (en) | Character recognizing device | |
JPH06223221A (en) | Character recognizing device | |
JPH06333083A (en) | Optical character reader | |
JPS58125183A (en) | Method for displaying unrecognizable character in optical character reader | |
JPH03172982A (en) | Character recognizing device | |
JP2939945B2 (en) | Roman character address recognition device | |
JPS61226883A (en) | Character recognizing device | |
JP2002245470A (en) | Language specifying device, translating device, and language specifying method | |
KR100356503B1 (en) | Device for recognizing learning character | |
KR930012140B1 (en) | Recogntion method of on-line writing down character using stroke automata | |
JPH0458381A (en) | Optical character reader | |
JP2639314B2 (en) | Character recognition method | |
JPS6293776A (en) | Information recognizing device | |
JPS5851390A (en) | Font character recognizing device | |
JPS62271089A (en) | Character information input device | |
JPS62103784A (en) | Character reader | |
JPH0444313B2 (en) | ||
JPH04274580A (en) | Optical character reader |