JPS6394386A - 印字文字ピツチ検出装置 - Google Patents

印字文字ピツチ検出装置

Info

Publication number
JPS6394386A
JPS6394386A JP61240119A JP24011986A JPS6394386A JP S6394386 A JPS6394386 A JP S6394386A JP 61240119 A JP61240119 A JP 61240119A JP 24011986 A JP24011986 A JP 24011986A JP S6394386 A JPS6394386 A JP S6394386A
Authority
JP
Japan
Prior art keywords
character
bit pattern
axis
data
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61240119A
Other languages
English (en)
Inventor
Koji Ito
伊藤 公嗣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Keiki Inc
Original Assignee
Tokyo Keiki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Keiki Co Ltd filed Critical Tokyo Keiki Co Ltd
Priority to JP61240119A priority Critical patent/JPS6394386A/ja
Publication of JPS6394386A publication Critical patent/JPS6394386A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、光学式文字読取装置の印字文字切出しに用い
られる印字文字ピッチ検出装置に関する。
(従来技術) 従来、光学式文字読取装置(OCR)による活字文字の
読取りにあっては、紙面に印字された活字文字が一般的
に予め定めた固定ピッチで印字されていることから、ま
ず読取ヘッドの紙面走査による光電変換で得られた読取
信号を2値化して2次元ビットパターンに変換する。
続いて2次元ビットパターンの中から文字行を検出し、
更に検出した文字行から1文字1文字を順次切出し、こ
の切出し文字を認識部に送って文字認識を行なわせるよ
うにしている。
このような文字認識を行なう処理過程で文字行データよ
り1文字づつ切出す処理を行なう際に印字文字ピッチが
重要な情報となる。
即ち、印字文字ピッチが分っていれば、文字の間の区切
り部分く文字間スペース)を検出する場合に予め区切り
部分の存在範囲が予測でき、その範囲内での検索で区切
り部分が検出できるからである。
そこで従来装置にあっては、一般的に使用される印字文
字ピッチが10文字/インチ及び12文字/インチの2
種類であることから、入力される印字データはその2種
類のみ文字ピッチであるとして文字切出しを行なうよう
にしている。
ところで、2種類の文字ピッチのみを対象とした文字切
出しにあっては、2種類の文字ピッチを対象にすること
から文字間の区切り部分を検出する予測範囲を、両方に
適用できるように単一のピッチの場合より広い領域に設
定するため、例えば12文字/インチに対しては適切値
より大きい範囲まで検索し、また10文字/インチの場
合は、適切値より小さい範囲まで検索するため、切出し
ミスを生じ易いという問題があった。
また、近年においては読取対象となる印字文字ピッチは
、従来の10文字/インチ、12文字/インチに加えて
15文字/インチや更には文字ピッチが一定しないプロ
ポーショナルスペースのものも見られ、10又は12文
字/インチによる固定的な文字ピッチの設定では文字切
出しが正確にできないという問題があった。
そこで本願発明者等にあっては、実際に読取った文字デ
ータから印字ピッチを検出するため、印字用紙の読取り
で得られた2値化された2次元ビットパターンの中から
1行分のビットパターンを抽出してX1lllへの投影
ビットパターンを求め、このX軸投影ビットパターンか
ら所定の文字間スペース情報列を求め、その相関計算か
ら文字ピッチを決定するようにした装置を提案している
(発明が解決しようとする問題点) しかしながら、印字文字の中には第4図に示すように飾
りの付いた活字を読取対象とする場合があり、このよう
な飾り付き文字にあっては、文字ピッチが小さくなると
2次元ビットパターンからX軸投影ビットパターンを求
めても、図示のように飾り部分により文字間スペースの
部分が黒ドツトとなり、連続した文字部分、例えば1つ
の単語については、X軸投影ビットパターンからは文字
スペースを区別するための情報を得ることができないと
いう問題があった。
(問題点を解決するための手段) 本発明は、このような従来の問題点に鑑みてなされたも
ので、飾り付きの印字文字についても印字文字の読取デ
ータから正確な文字ピッチを検出できるようにした印字
文字ピッチ検出装置を提供することを目的とする。
この目的を達成するため本発明にあっては、紙面に印字
された文字群を読取って認識する文字読取装置の印字文
字ピッチ検出装置として、読取へラドの紙面走査で得ら
れた2値化された2次元ビットパターンの中から1行分
のビットパターンを抽出し、X軸投影ビットパターンへ
の変換に先立って1行ビットパターンをY軸方向におけ
る文字範囲の中央部分で切出す切出し処理を行ない、こ
の切出し処理を受けた1行ビットパターンをX軸への投
影ビットパターンに変換し、X軸投影ビットパターンに
おける所定数以内、例えば20ドツト以内の非文字ビッ
ト(白ビット)が連続する部分を文字間スペースとして
検出し、この文字間スペースの中央部に例えば3ビツト
の文字ビット(黒ドツト)を設定してスペース情報列F
(Xn)に変換し、このスペース情報列F(Xn)の相
関値Rnを読取対象となる複数種類の文字ピッチに基づ
く係数α毎に R=f(F (X)nF (X+α))d Xとして演
算し、複数の相関値Rの中から最大値を与える相関値を
選択し、この最大相関値と2番目に大きい相関値との偏
差ΔRが所定値以上であったならば、この最大相関値の
算出に用いた係数αを与える文字ピッチと判定し、一方
、偏差ΔRが所定値より小さいときには、プロポーショ
ナルスペースと判定するようにしたものである。
(作用) このような本゛発明の構成によれば、飾り付きの印字文
字であっても、X軸投影ビットパターンへの変換に先立
ってY軸方向で文字の中央部分を切出して文字の上下に
付された飾り部分を切り捨てる切出し処理を行なうこと
から、X軸投影ビットパターンは1文字毎に文字ピッチ
に依存した空スペース(白ドツト)を含んだ情報として
得られ、読取対象となる文字ピッチの種類に応じて相関
値Rの計算に用いる計数αを設定しておくだけで、実際
に読取られたデータに基づいて印字文字ピッチを正確に
検出することができ、文字切出しの際の文字間の区切り
部分を正確に予測できることから、飾り付き文字であっ
ても文字ピッチのいかんに係わらず正確な文字切出しを
行なって認識率を向上させることができる。
(実施例) 第1図は本発明の一実施例を示したブロック図である。
まず構成を説明すると、1は印字用紙であり、1文字当
り10文字ピッチ、12文字ピッチ、15文字ピッチ、
若しくはプロポーショナルスペースをもって活字が印刷
されている。印字用紙1の印字文字は読取ヘッド2によ
る紙面走査で光学的に読取られ、アナログイメージ信号
(読取信号)として出力される。読取ヘッド2からのア
ナログ読取信号はA/D変換器3で所定ビット数のデジ
タルビットデータに変換され、メモリ4に2次元ビット
パターンの形で書込み記憶される。
5は1行データ抽出部であり、メモリ4に記憶された2
次元ビットパターンの中から文字ピッチ検出のため1行
分のビットパターンデータを抽出する。この1行データ
抽出部5で抽出される1行分のビットパターンは、例え
ば第2図(a)に示すような飾り付き印字文字の2次元
ビットパターンとなる。
6はY軸切出部でおり、1行データ抽出部5から得られ
た1行分の2次元ビットパターンにつき、Y軸方向の文
字中央部分のみのビットパターンデータを切出す。この
Y軸切出部6におけるY軸方向の切出を決めるため、切
出設定部7よりY軸方向の上下の切出し線を示す設定デ
ータyl、V2が設定されている。
即ち、Y軸切出部6は、第2図(a>に示すように、1
行データ抽出部5により抽出した1行分のビットパター
ンに対し、切出設定部7による切出しラインy1.y2
に基づき、y1〜y2の間に存在するビットパターンデ
ータのみを切出し、y1〜y2の範囲を外れる飾りが付
けられた文字パターンのデータを切捨てるようになる。
その結果、Y軸切出部6による切出しで第2図(b)に
示す飾り部分が除去された切出データを得ることができ
る。
Y軸切出部6より出力される上下の飾り部分が除去され
た切出ビットパターンはX軸投影データ変換部8に与え
られる。X軸投影データ変換部8は、読取ヘッド2の一
方の走査方向となるX軸への投影ビットパターンへの変
換を行なう。
即ち、第2図(C)に示すように、Y軸切出部6から得
られた切出ビットパターンのX軸への投影ビットパター
ンに変換する。具体的には文字部分が黒ビット、文字以
外の部分が白ビットで成ることから、黒ビットを「1」
、白ビットをrOJとすると、Y方向でのビットデータ
の論理和を取出すことで第2図(C)に斜線部で示すX
軸への投影ビットパターンを得ることができる。
X軸投影データ変換部8で得られたX軸投影ビットパタ
ーンはF (X)データ変換部9に与えられ、文字間ス
ペースを表すスペース情報列F (X)に変換される。
このF (X>データ変換部9における文字間スペース
情報列F (X)への変換は次のようにして行なわれる
まずX軸投影データ変換部8で得られた第2図(C)に
示すX軸投影ビットパターンについて、非文字ビット(
白ビット)の連続が所定ビット以内、例えば20ビット
以内(分解能を10ドツト/mmとすると2mm以内)
のスペースS1.S2゜33、S4.  ・・・を検出
し、この20ビット以内となる非文字ビットが連続する
スペースS1゜S2,33,34.  ・・・の中央に
、例えば3ビツトの文字ビット(黒ビット)を設定し、
文字スペースS1.S2.S3.S4.  ・・・の中
央に設定した文字ビット(黒ビット)を文字間スペース
情報列F (Xl )、 F (X2 )、 F (X
3 >。
F(Xl、  ・・・とするデータ変換を行なう。
F (X)データ変換部9で変換された文字間スペース
情報列F(Xn)は相関値演算部10に与えられる。
相関値演算部10はF (X)データ変換部9より得ら
れたn個の文字間スペース情報列F (Xn )に基づ
いて次の演算により相関値Rを演算する。
R−、/”(F (X>nF (X+α)) dX−(
1)この相関値Rの演算において、係数αは読取対象と
なる文字ピッチに基づいて定められ、例えば次のように
定められる。
α=25・・・・10文字/インチ α=21・・・・12文字/インチ α=17・・・・15文字/インチ この係数αを具体的に説明すると、例えば10文字/イ
ンチを例にとると、 α= (1インチのmm換算値)X(文字数)×(分解能〉=
25.4mmX (1/10) xl 0dot /m
m→25 として求められ、係数αは設定部11により相関値演算
部10に与えられる。
従って、相関値演算部10は設定部11より設定された
係数αのそれぞれを用いて相関値Rを演算することとな
り、この実施例にあっては、3種類の係数αが設定され
ていることから、α=25゜21.17のそれぞれを用
いて相関値R1,R2゜R3を演算するようになる。
更に、前記第(1)式で与えられる相関値Rの演算内容
を説明すると、まず積分第1項F (X)は第2図(b
)における文字間スペース情報F(Xl)であり、積分
第2項F(X十α)はF(×1)から係数αだけ離れた
位置に存在する適宜の文字間スペース情報となる。ここ
で、もし文字ピッチに基づいて設定した係数αと実際に
読取った文字ピッチとの間に対応関係があったときには
、F(X+α)=F(X2>となり、前記第(1)式で
はF(Xi)=’lとF(X2)=1との論理積をとっ
ていることから、このときの論理積は「1」となる。
次に、F (X) −F (X2 )として同じく係数
αだけ離れた位置のスペース情報を見ると、白ビットと
なっていることから、この時にはrl、OJとなり、そ
の結果、論理積は「○」となる。
以下同様に、残りの文字スペース情報F (X3 )、
F(Xi>、  ・・・について同様な論理積の演算を
行ない、その総和として相関値Rを求めることになる。
相関値演算部10で演算された複数種類の文字ピッチに
基づく係数α毎の相関値R1この実施例にあっては3つ
の相関値R1,R2,R3は、文字ピッチ判定部12に
与えられ、最終的な文字ピッチ判別が行なわれる。
即ち、文字ピッチ判定部12は相関値演算部10から得
られた相関値R1〜R3の中から最大値となる相関値を
選択し、最大相関値と2番目に大きい相関値とのB差Δ
Rが所定値以上であったならば、最大値を与える相関値
に対応する文字ピッチと判定して判定結果を文字切出部
13に与える。
一方、最大相関値と2番目に大きい相関値との偏差ΔR
が所定値より小さい時には、文字ピッチが一定しないプ
ロポーショナルスペースと判定し、同様に判定結果を文
字切出部13に出力する。
文字切出部13は文字ピッチ判定部12からの判定結果
に基づいてメモリ4から例えば1行分のビットパターン
を読出し、検出された文字ピッチに基づいて文字間の区
切り部分が存在する範囲を予測し、その範囲内でのデー
タ検索をもって区切り部分を検出して1字づつ順次切出
し、切出した文字データを文字認識部14に与えて文字
認識を行なうようになる。
次に、第3図のフローチャートを参照して第1図の実施
例による文字ピッチの検出処理を説明する。
まずブロック30で印字用紙1の飾り付き印字文字を読
取ヘッド2の走査で読取り、ブロック32においてA/
D変換器3で2値化した後に2次元ビットパターンとし
てメモリ4に記憶する。
続いて、ブロック34で2次元ビットパターンの中から
1行分のデータを抽出し、ブロック36で予め設定した
Y軸文字範囲の中央部分のビットパターンを切出してビ
ットパターンに含まれる飾り部分を除去する。
続いて、ブロック38でY軸範囲の切出しが済んだ1行
分のビットパターンをX軸への投影ビットパターンに変
換し、更にブロック40で文字間スペース情報列F (
Xn )データに変換する。
更に、ブロック42で前記第(1)式により文字ピッチ
に基づいて設定された係数α1〜α3のそれぞれを用い
て、相関値R1,R2,R3を計算し、次のブロック4
4で最大値を与える相関値を判別し、判別後にブロック
46で最大相関値と2番目に大きい相関値との偏差ΔR
が所定値に以上であれば、ブロック48に進んで最大相
関値を与える係数αに対応した文字ピッチであると判定
し、一方、最大相関値と2番目に大きい相関値との偏差
ΔRが所定値により小さいときには、ブロック50に進
んでプロポーショナルスペースと判定する。
この第3図のフローチャートに示した一連の文字ピッチ
検出処理が終了すると、検出結果が文字切出部13に与
えられ、検出された文字ピッチに基づく文字切出しで得
られた文字データを文字認識部14に与えて1文字毎の
認識処理を行なうようになる。
尚、第1図の実施例は第3図のフローチャートに示すよ
うにマイクロコンピュータによるプログラム処理で実現
できることは勿論である。
また、上記の実施例は3種類の文字ピッチを例にとるも
のであったが、本発明はこれに限定されず適宜の種類の
文字ピッチにつきそのまま適用することができる。
更に、上記の実施例では20ドツト以内の非文字ドツト
(白ドツト)の部分を文字間スペースとして検出し、そ
の中央に3ビットの文字ビット(黒ビット)を設定して
文字間スペース情報列F(X>への変換を行なっている
が、これらの値についても印字文字のピッチ、文字の大
きざ、文字フォント等に基づいて適宜の値を設定するこ
とになる。
(発明の効果) 以上説明してきたように本発明によれば、読取ヘッドか
ら得られた2次元文字ビットパターンのX軸への投影で
は文字間スペースを表す情報が得られない飾り付き文字
であっても、X軸投影データへの変換に先立って゛Y軸
方向の中央部分のみのビットパターンを切出すY軸切出
処理を行なうようにしたため、飾り部分によってX軸へ
の投影ビットパターンで文字間スペースに関する情報(
白ビット)が得られなくなることを確実に防ぎ、飾り付
き文字についても実際に読取られた1行分の文字データ
に基づいて正確に文字ピッチを検出することができ、そ
の結果、文字データの破壊を招くことなく正確な文字切
出しが可能となって認識率をより一層向上させることが
できる。
【図面の簡単な説明】
第1図は本発明の一実施例を示したブロック図、第2図
はX軸投影データ及び文字間スペース情報列F (X>
への変換を示した説明図、第3図は第1図の実施例によ
る文字ピッチ検出処理を示したフローチャート、第4図
は飾り付き文字の問題を示した説明図である。 1:印字用紙 2:読取ヘッド 3:A/D変換器 4:メモリ 5:1行データ抽出部 6:Y軸切出部 7:切出設定部 8:X軸投影データ変換部(第1のデータ変換部)9 
: F (X)データ変換部(第2のデータ変換部)1
0:相関値演算部 11:設定部 12:文字ピッチ判定部 13:文字切出部 14:文字認識部

Claims (1)

  1. 【特許請求の範囲】 紙面に印字された文字群を読取って認識する文字読取装
    置の印字文字ピッチ検出装置に於いて、読取ヘッドの紙
    面走査による読取信号を2値化して2次元ビットパター
    ンとして記憶する記憶手段と、 該記憶手段の2次元ビットパターンの中から1行分のビ
    ットパターンを抽出するデータ抽出手段と、 該データ抽出手段で抽出された1行ビットパターンをY
    軸方向の文字中央部分で切出す切出手段と、 該切出手段で切出された1行ビットパターンをX軸への
    投影ビットパターンに変換する第1のデータ変換手段と
    、 該第1のデータ変換手段で得られたX軸投影ビットパタ
    ーンにおける所定数以内の非文字ビットが連続する文字
    スペースの部分を検出し、該文字スペース部分の中央に
    前記所定数より充分に少ない数の文字ビットを設定して
    スペース情報列F(Xn)に変換する第2のデータ変換
    手段と、該第2のデータ変換手段で得られたスペース情
    報列F(Xn)の相関値Rnを予め定めた複数種類の文
    字ピッチに基づく係数α毎に R=∫^n_1{F(X)∩F(X+α)}dXとして
    演算する相関値演算手段と、 該相関値演算手段で得られた複数の相関値Rnの中から
    最大のものを選択し、該最大相関値と2番目に大きい相
    関値との偏差が所定値以上のとき最大相関値を与える前
    記係数αに対応する文字ピッチと判定し、前記偏差が前
    記所定値より小さいときにはプロポーショナルスペース
    と判定する文字ピッチ判定手段とを備えたことを特徴と
    する文字ピッチ検出装置。
JP61240119A 1986-10-08 1986-10-08 印字文字ピツチ検出装置 Pending JPS6394386A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61240119A JPS6394386A (ja) 1986-10-08 1986-10-08 印字文字ピツチ検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61240119A JPS6394386A (ja) 1986-10-08 1986-10-08 印字文字ピツチ検出装置

Publications (1)

Publication Number Publication Date
JPS6394386A true JPS6394386A (ja) 1988-04-25

Family

ID=17054771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61240119A Pending JPS6394386A (ja) 1986-10-08 1986-10-08 印字文字ピツチ検出装置

Country Status (1)

Country Link
JP (1) JPS6394386A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327385B1 (en) 1997-11-10 2001-12-04 Nec Corporation Character segmentation device and character segmentation system
JP2016119072A (ja) * 2014-12-19 2016-06-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6327385B1 (en) 1997-11-10 2001-12-04 Nec Corporation Character segmentation device and character segmentation system
JP2016119072A (ja) * 2014-12-19 2016-06-30 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法

Similar Documents

Publication Publication Date Title
US5617481A (en) Address reading apparatus and address printing apparatus using mail address position mark
CA1160347A (en) Method for recognizing a machine encoded character
US8306325B2 (en) Text character identification system and method thereof
US4918740A (en) Processing means for use in an optical character recognition system
JPS63158678A (ja) 単語間スペ−ス検出方法
US4860376A (en) Character recognition system for optical character reader
JPS63182793A (ja) 文字切り出し方式
EP0524797B1 (en) Image processing method and apparatus
JPS62254282A (ja) 重畳するパタ−ンを分離する方法及び装置
JPS6394386A (ja) 印字文字ピツチ検出装置
JPH0516632B2 (ja)
US5825923A (en) Method for performing character recognition on a pixel matrix
JPS6394385A (ja) 印字文字ピツチ検出装置
JPH0277891A (ja) 文字認識装置
JP2697790B2 (ja) 文字タイプ決定方法
JP3351062B2 (ja) 文書システム
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JP3160458B2 (ja) 文字読取装置及び文字読取方法
JPH10171924A (ja) 文字認識装置
JP3116622B2 (ja) 印字済み行検出方法
JP2578767B2 (ja) 画像処理方法
JPH01234985A (ja) 文字読取装置の文字切出し装置
JP2851865B2 (ja) 文字認識装置
JPS62169285A (ja) 文書処理装置
JPH0259504B2 (ja)