JPS62295193A - Type recognizing method - Google Patents

Type recognizing method

Info

Publication number
JPS62295193A
JPS62295193A JP61138164A JP13816486A JPS62295193A JP S62295193 A JPS62295193 A JP S62295193A JP 61138164 A JP61138164 A JP 61138164A JP 13816486 A JP13816486 A JP 13816486A JP S62295193 A JPS62295193 A JP S62295193A
Authority
JP
Japan
Prior art keywords
character
pattern
size
matching
segmenting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61138164A
Other languages
Japanese (ja)
Inventor
Koichi Ejiri
公一 江尻
Hajime Sato
元 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP61138164A priority Critical patent/JPS62295193A/en
Publication of JPS62295193A publication Critical patent/JPS62295193A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To recognize the European language character of a type with high accuracy by checking a size after an unknown pattern is recognized by utilizing a code to designate the size of the horizontal direction classified by a character and the starting position of a pattern to be connected. CONSTITUTION:On the dictionary (template) of a character pattern, a code designating a size in the horizontal direction classified by a character and the starting position of the pattern to be connected is provided, and after an unknown pattern is recognized by utilizing this, the size is checked. At the time of segmenting it with a segmenting candidate and the character size is not coincident, rejection is obtained. Consequently, the pointer for segmenting is shifted to the next candidate segmenting position and characteristic extraction and matching are executed again. In such case, as well as the preceding case, not only the matching between characteristic vectors, but also the matching of the character size can be executed.

Description

【発明の詳細な説明】 3、発明の詳細な説明 ■技術分野 本発明は、文字認識装置(OCR)特に、雑誌等の印刷
物の組版による文字の認識、タイプ印字のうち、プロポ
ーショナルピッチの認識に関するものである。
Detailed Description of the Invention 3. Detailed Description of the Invention ■Technical Field The present invention relates to a character recognition device (OCR), particularly character recognition in typesetting of printed materials such as magazines, and proportional pitch recognition in type printing. It is something.

■従来技術 OCRの前提条件としては、文字を個々に切出すことが
前提となる。
■Prior art A prerequisite for OCR is to cut out characters individually.

この切出しは、文字同士が接触する時は、切出しに失敗
することがある。
This cutting may fail when characters touch each other.

これを防ぐため、従来は垂直方向に投影したヒストグラ
ムの極小値から、複数の切出し候補を用意し、各切出し
位置で認識を試み、最も類似距離の小さいものを採用し
ていた。
To prevent this, in the past, multiple cropping candidates were prepared from the minimum value of the histogram projected in the vertical direction, recognition was attempted at each cropping position, and the one with the smallest similarity distance was selected.

例えば、第1図のようなパターンの場合、P□を端点と
してP、、P、、P4の各候補点を用意し、各間隔OL
 l g、 1g、の内、P1〜P2で最大のマンテン
グを示す候補110”を結果として出力していた。
For example, in the case of the pattern shown in Figure 1, each candidate point P, , P, , P4 is prepared with P□ as the end point, and each interval OL is
Among 1g and 1g, candidate 110'', which exhibits the maximum mantength in P1 and P2, was output as a result.

ところが、第2図(1)のようにパターンにかすれ等の
不良があるとき新たな切出し候補P、が生じる。この場
合、P5で切出されたパターンは11 C#1と認識さ
れ、その後の認識に悪影響を及ぼすことになる。
However, as shown in FIG. 2(1), when there is a defect such as blurring in the pattern, a new cutting candidate P is generated. In this case, the pattern cut out at P5 will be recognized as 11 C#1, which will have an adverse effect on subsequent recognition.

更に、第2図(2)のように隣り合った文字が重なり合
う場合には、切出しそのものが極めて困難であった。
Furthermore, when adjacent characters overlap as shown in FIG. 2 (2), it is extremely difficult to cut out the characters.

上記のような場合、認識不能(リジェクト)と判断し、
再び切出し処理をやり直すことが既に出願されているが
、ここでは説明を省略する。
In the above cases, it is judged as unrecognizable (rejected),
Although an application has already been filed for starting the cutting process again, the explanation will be omitted here.

通常の印刷物、組版出力については、各文字毎に文字サ
イズや次の文字の左端位置が決まっており、第2図(1
)のP、が切出し候補であっても、通常“CTtの文字
サイズはP工〜P5間隔と異なるから0識結果が“C7
1になることはない。
For normal printed matter and typesetting output, the font size and left edge position of the next character are determined for each character, as shown in Figure 2 (1).
) is a candidate for cutting out, the font size of “CTt is usually different from the P-P5 interval, so the 0 recognition result is “C7”.
It will never be 1.

■ 目的 本発明は、活字の欧文文字を高い精度で認識することを
特徴とする 特に、組版で印刷された文字は互いに接触していること
が多く、これを高精度で認識することが要求されている
■ Purpose The present invention is characterized by recognizing printed European characters with high precision. In particular, characters printed by typesetting often touch each other, and it is required to recognize these with high precision. ing.

■構成 第3図は本発明の全体の処理フローであり、第2図(1
)のP5で切出した時には、文字サイズが合致せず、そ
の結果リジェクトとなる。
■Configuration Figure 3 shows the overall processing flow of the present invention, and Figure 2 (1)
), the character sizes do not match, resulting in a rejection.

従って、次の候補切出し位置P2へ切出し用のポインタ
をシフトし、再度特徴抽出/マツチングを行う。
Therefore, the pointer for clipping is shifted to the next candidate clipping position P2, and feature extraction/matching is performed again.

この時は、前回同様、特徴ベクトル間のマツチングだけ
でなく、文字サイズのマツチングも実施することは言う
までもない。
Needless to say, at this time, like last time, not only matching between feature vectors but also character size matching is performed.

第4図は文字認識用の特徴ベクトルの辞書を表現した例
を示す。
FIG. 4 shows an example of a dictionary of feature vectors for character recognition.

図中、1は登録コード、2は出力コード、3はサイズ、
4はスタートシフト、5は特徴ベクトルである。
In the figure, 1 is the registration code, 2 is the output code, 3 is the size,
4 is a start shift, and 5 is a feature vector.

すなわち。Namely.

登録コード(英文ならASCI I、邦文ならJISコ
ードが一般的)1゜ 出力コード(これは1組版で使用される組合せ活字に対
応しており、第2図(2)の“fi”などは1つの活字
で印字されるが、出力結果はtsf”と“i”に分離さ
れ出力される)2、 サイズ(文字の水平方向の大きさを示す数値であり、単
位は任意)3、 スタートシフト(第2図(2)のように、左側のパター
ンの内部に右側のパターンが入り込んでいる場合、その
大きさを示す値)4、 および、通常の特徴ベクトル5から成る。
Registration code (ASCI I for English text, JIS code for Japanese text is common) 1° Output code (This corresponds to the combination typeface used in one typesetting, such as "fi" in Figure 2 (2) is 1. (Although the output result is separated into "tsf" and "i" and output) 2. Size (a numerical value indicating the horizontal size of the character, the unit is arbitrary) 3. Start shift ( As shown in FIG. 2 (2), when the pattern on the right is included inside the pattern on the left, it consists of a value 4 indicating its size and a normal feature vector 5.

第5図では、Aがサイズ3であり、Bがスタートシフト
4である。
In FIG. 5, A is size 3 and B is start shift 4.

文字パターンのオーバーラツプ(第2図(2))に対応
するためには、上述の2字組の辞書を用意するだけでな
く、切出しエラーを防ぐために別個の認識法も利用する
In order to deal with character pattern overlap (FIG. 2 (2)), not only the above-mentioned two-character dictionary is prepared, but also a separate recognition method is used to prevent segmentation errors.

第5図のAの幅のパターンにW、 Dされたコード毎に
マツチングするとき、スタートシフトの値が0より大き
いコードに付いては、この値だけパターンの右端を削除
した上でマツチング処理を実行する。
When matching each chord W and D to the pattern of width A in Figure 5, for chords whose start shift value is greater than 0, the right end of the pattern is deleted by this value before matching. Execute.

第6図は第3図の「パターン切出し」、「特徴抽出&マ
ツチング」の部分の詳細説明である。
FIG. 6 is a detailed explanation of the "pattern extraction" and "feature extraction &matching" portions of FIG. 3.

以上の説明において、文字サイズは予め与えておく必要
がある。ところが、この値はフォントの種類毎に異なる
In the above explanation, the character size needs to be given in advance. However, this value differs depending on the type of font.

このため、個別のメモリを有し、この中に表に示すよう
なデータを保持しておく。
For this reason, it has a separate memory in which data as shown in the table is held.

従って、認識の開始時には、使用頻度の高いフォントの
データを辞書に登録し、もし、リジェクトが多数発生す
れば、このデータを入九換えることによって最適なもの
を探すようにすれば、多様なフォントに対応することが
できる。
Therefore, at the beginning of recognition, data for frequently used fonts is registered in the dictionary, and if a large number of rejections occur, this data can be changed to find the most suitable one. can correspond to

ところで、重なりパターンを認識する際1重なりパター
ン全体でマツチングを行い、特定の登録コードを候補と
する。
By the way, when recognizing an overlapping pattern, matching is performed on the entire overlapping pattern, and a specific registered code is used as a candidate.

次に、Ssをもとにパターンの一部の削除(右。Next, delete part of the pattern based on Ss (right).

左)を行い、それぞれの部分について登録コードに対応
する文字の特徴ベクトルとマツチングを行う。
(left) and performs matching for each part with the feature vector of the character corresponding to the registered code.

入カバターンがfiの時は、fiが候補となり、次にf
とiで認識する。
When the input cover turn is fi, fi becomes a candidate, then f
Recognize with and i.

こうして認識精度を高める。This increases recognition accuracy.

■効果 以上説明したように、本発明は、高い認識精度で活字文
字を認識できるという効果がある。
(2) Effects As explained above, the present invention has the effect of being able to recognize printed characters with high recognition accuracy.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は従来のパターンの一例を示す図、第2図は従来
の文字における文字認識の問題点を説明するための図、 第3図は本発明の全体の処理フローを示す図、第4図は
文字認識用の特徴ベクトルの辞書を表現した例を示す図
、 第5図は文字パターンのオーバーラツプの例を示す図、 第6図は第3図の「パターン切出し」、「特徴抽出&マ
ツチング」の部分の詳細説明である。 1 ・・・登録コード、2 ・・・ 出力コード、3 
・・・サイズ、   4 ・・・スタートシフト、5 
・・・特徴ベクトル。 特許出願人  株式会社 リコー 第1図 第2図 (+ )    (2) 弓P5P2P3 第3図 第4図 第5図 第6図
Fig. 1 is a diagram showing an example of a conventional pattern, Fig. 2 is a diagram for explaining problems in character recognition in conventional characters, Fig. 3 is a diagram showing the overall processing flow of the present invention, and Fig. 4 is a diagram showing an example of a conventional pattern. The figure shows an example of a dictionary of feature vectors for character recognition, Figure 5 shows an example of character pattern overlap, and Figure 6 shows the "pattern extraction" and "feature extraction &matching" methods in Figure 3. ” This is a detailed explanation of the part. 1...Registration code, 2...Output code, 3
...Size, 4 ...Start shift, 5
...feature vector. Patent applicant Ricoh Co., Ltd. Figure 1 Figure 2 (+) (2) Bow P5P2P3 Figure 3 Figure 4 Figure 5 Figure 6

Claims (4)

【特許請求の範囲】[Claims] (1)活字文字を光学的に認識する装置において、文字
パターンの辞書(テンプレート)上に、文字別の水平方
向の大きさ、次に、接続するパターンの開始位置を指定
するコードを有し、これを利用して未知パターンを認識
した後、サイズチェックを行うことを特徴とする活字認
識方法。
(1) A device that optically recognizes printed characters has a code on a dictionary (template) of character patterns that specifies the horizontal size of each character and then the start position of the connected pattern; A type recognition method that uses this to recognize an unknown pattern and then performs a size check.
(2)パターンを垂直方向に投影したとき、部分的に重
なり合うような文字パターンには、そのパターンの一部
を削除した後、特徴ベクトル同士をマッチングすること
を特徴とする特許請求の範囲第(1)項記載の活字認識
方法。
(2) For character patterns that partially overlap when the patterns are projected in the vertical direction, part of the pattern is deleted and then the feature vectors are matched. The printed character recognition method described in section 1).
(3)文字サイズ、および、次に続く文字の開始位置を
指定する数値等を、別個のテーブルに記憶することを特
徴とする特許請求の範囲第(1)項記載の活字認識方法
(3) The printed character recognition method according to claim (1), characterized in that the character size and numerical values specifying the starting position of the next character are stored in separate tables.
(4)マッチングを行う際、重なりパターンを構成する
特定の文字のみで認識することを特徴とする特許請求の
範囲第(2)項記載の活字認識方法。
(4) The printed character recognition method according to claim (2), characterized in that when performing matching, only specific characters constituting an overlapping pattern are recognized.
JP61138164A 1986-06-16 1986-06-16 Type recognizing method Pending JPS62295193A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61138164A JPS62295193A (en) 1986-06-16 1986-06-16 Type recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61138164A JPS62295193A (en) 1986-06-16 1986-06-16 Type recognizing method

Publications (1)

Publication Number Publication Date
JPS62295193A true JPS62295193A (en) 1987-12-22

Family

ID=15215521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61138164A Pending JPS62295193A (en) 1986-06-16 1986-06-16 Type recognizing method

Country Status (1)

Country Link
JP (1) JPS62295193A (en)

Similar Documents

Publication Publication Date Title
EP0844583B1 (en) Method and apparatus for character recognition
JP2726568B2 (en) Character recognition method and device
Clausner et al. ICDAR2019 competition on recognition of early Indian printed documents–REID2019
JP2000315247A (en) Character recognizing device
JPH0682403B2 (en) Optical character reader
JPS62295193A (en) Type recognizing method
Ahmed et al. Ligature analysis-based Urdu OCR framework
JPH0991371A (en) Character display device
JPH10124615A (en) Character recognizing device
JP3151866B2 (en) English character recognition method
JPH028348B2 (en)
JP2746345B2 (en) Post-processing method for character recognition
JP2891368B2 (en) Post-processing method of character recognition result
JPS6318483A (en) Character recognizing method for optical information input device
JPH02230484A (en) Character recognizing device
JP2851102B2 (en) Character extraction method
JP2995825B2 (en) Japanese character recognition device
JP2939945B2 (en) Roman character address recognition device
JPS6318484A (en) Method for recognizing printed character
JPH0652367A (en) Post-processing method for character recognition result
CN116311264A (en) Character recognition method based on character outline
JPH04211884A (en) Method for segmenting character
JPS6327990A (en) Character recognizing method
JPH04335487A (en) Character segmenting method for character recognizing device
JPS6129976A (en) Character recognition