JPS63226791A - 文字の特徴抽出装置 - Google Patents

文字の特徴抽出装置

Info

Publication number
JPS63226791A
JPS63226791A JP62060184A JP6018487A JPS63226791A JP S63226791 A JPS63226791 A JP S63226791A JP 62060184 A JP62060184 A JP 62060184A JP 6018487 A JP6018487 A JP 6018487A JP S63226791 A JPS63226791 A JP S63226791A
Authority
JP
Japan
Prior art keywords
character
length
run
extracting
raster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62060184A
Other languages
English (en)
Inventor
Keiji Nagamine
永峰 啓二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP62060184A priority Critical patent/JPS63226791A/ja
Publication of JPS63226791A publication Critical patent/JPS63226791A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、文字認識装置、特に文字の大局的な特徴を
抽出する装置に関するものである。
[従来の技術] 大局的な文字の特徴を抽出する方法としては、例えば特
開昭58−182791号公報に示された方法がある。
この従来の方法では、白黒2値の文字パターンを縦方向
及び横方向にそれぞれラスタ走査し、文字部分のランの
数が直前の走査ラインに対して変化する走査ラインを検
出し、この変化を検出する度にその走査ライン上んのラ
ンの数を順次記憶することにより、文字の特徴を抽出し
ている。
[発明の解決しようとする問題点コ ニの従来の方法では、ランの数の変化パターンだけを文
字の特徴として利用しているため、例えば第2図と第5
図に示すアルファベットのLとTの2文字の特徴をこの
方法で抽出すると、縦方向ラスタ走査によるランの数は
2文字とも全走査に渡って1となり、同様に横方向ラス
タ走査においても全走査に渡ってランの数は1となる。
従って、アルファベットのLとTの場合にはランの数の
変化は全くなく、抽出された両者をこの特徴のみで区別
することは出来ない。
この発明は、上記のような問題点を解消するためになさ
れたもので、上記のような場合でも容易にその文字の特
徴を抽出することを可能にした文字の特徴抽出装置を提
供することを目的とする。
[問題点を解決するための手段] この発明に係る文字の特徴抽出装置は、前処理により既
に1文字ごとに分離されている文字パターンを縦方向、
横方向或いはその両方向にラスタ走査し、ラスタ走査ご
とに文字部分のランの長さを計数する手段と、計数され
たランの長さを、例えば長・中・短の3段階に量子化し
前記ラスタ走査ごとに記憶する手段と、このようにして
得られるラスタ走査ごとのランの量子化長さに基づいて
入力された文字を構成する線の種類を抽出する手段とを
有し、文字を構成する線の種類とその出現する順番をそ
の文字の特徴として抽出するようにしたものである。
[作用] この発明における文字の特徴抽出装置は、文字パターン
を縦方向、横方向或いはその両方向にラスタ走査し、人
力された文字を構成する線の組合せを抽出するようにし
ているので、大きさや形状の異なる複数のフォントの文
字が近在して入力されても、これらの文字を正規化して
表現することができる。
[実施例] 以下、この発明の一実施例を図について説明する。第1
図のハードウェア構成例において、(1)は白黒2値の
文字パターンを記憶している文字パターンメモリ、(2
)はラスタ走査に従って文字パターンメモリ(1)から
文字パターンを読み出す読み出し制御を含むハードウェ
ア全体を制御する制御回路、(3)は文字パターンの白
黒変化点を検出しランの長さを計算する変化点検出回路
、(4)はランの長さを量子化する量子化回路、(5〉
は全走査分のランの量子化長さを記憶する量子化長さメ
モリ、(6)は量子化長さメモリ(5)のデータを基に
文字を構成する線を抽出する線抽出回路、(7)は線抽
出回路(6)により抽出された線の種類を抽出された順
番に記憶する特徴メモリである。
次に、その動作を縦方向ラスタ走査により文字パターン
の特徴を抽出する場合を例にとって第2図のアルファベ
ットLの文字パターンを用いて説明する。ここでは文字
パターンメモリ(1)内の文字パターンは前処理により
すでに1文字ごとに分離されており、更に文字の高さが
H1幅がLと文字分離処理の段階で既に求められている
ものとする。文字パターンメモリ(1)内のLの文字パ
ターンは、制御回路(2)の指示にしたがい左上の画素
から右下の画素まで縦方向ラスタ走査に従って読み出さ
れ、変化点検回路(3)に順次入力される。
変化点検出回路(3)は人力される画像データが黒から
白に変化するランのスタート位置と画像データが白から
黒に変化するランの終了位置を検出し、一対のスタート
位置と終了位置を検出するとその間隔を計算しランの長
さを求め、その長さデータを量子化回路(4)に送る。
−子化回路(4)は受は取ったランの長さデータと既知
の文字りの高さHとを比較し、 ランの長さ〉2/3・H の時は 量子化長さ−1゜ 2/3・H≧シラン長さ〉1/3・H の時は 量子化長さ−m。
ランの長さ≦1/3・H の時は 量子化長さ−S となるように3段階に量子化して順次量子化長さメモリ
(5)に書き込む。この量子化長さメモリ(5)はラス
タ走査線の番号を列としランの番号を行とするマトリク
ス構成になっており、そのデータは制御回路(2)によ
りラスタ走査のスタート時点にデータが何もない状態に
クリアーされ、その後ラスタ走査において検出されたラ
ンの量子化長さを全て記憶するようになっている。線抽
出回路(6)はラスタ走査終了後に制御回路(2)から
線抽出開始指令を受取ると、量子化長さメモリ(5)の
データを順番に調べ2例えば次のルールの従って線を抽
出し、その線の種類を検出した順番に特徴メモリ(7)
に書き込む。
ルール1:同一行で1ないし複数列に渡るデータのビ 
は縦の長い線とする。
ルール2;同一行で3列以上に渡るデータのs′は横の
線とする。
同一行で3列未満に渡るデータの s′ はノイズとみなす。
ルール3:同一行で4列以上に渡るデータのm + は
斜めの線とする。
ルール4;同一行で4列未満に渡るデータのm′は縦の
短い線とする。
以上の操作を第2図を用いて具体的に説明する。
第3図に上記の処理で得られる文字パターンLの縦方向
ラスタ走査時の走査ごとのランの長さを示す。左側から
1本目の走査ラインのランの長さ9.2本目の走査ライ
ンのランの長さ9と続き、3本目以下9本目までの走査
ラインはランの長さ2が続いている。同じく第4図に文
字パターンLを処理した時の量子化長さメモリ(5)の
データを示す。
ここでは文字の高さHが9であるから。
9≧ランの長さ≧7 の時 量子化長さ一16≧ランの
長さ≧4 の時 量子化長さ−m3≧ランの長さ≧1 
の時 量子化長さ−Sと3段階に量子化している。従っ
て、ランの量子化長さメモリ(5)のデータは1行だけ
で、縦方向ラスタ走査のごとに左から 1、l、s、s、s、s、s、s、s が得られ、l“が2列有り、その後にS′が7列続いて
いる。従って、特徴メモリ(7)には、縦の長い線(ル
ール1)、横の線(ルール2)、の順に検出された線の
種類が検出された順番に従って書き込まれる。
同様にして第5図の文字パターンTに対して、縦方向に
ラスタ走査した時の走査ごとのランの長さは第6図のよ
うになり、文字パターンTも高さHはっであるから文字
パターンLと同一のしきい値を用いると、量子化長さメ
モリ(5)のデータは第7図のようになる。この例でも
、ランは走査ごとに1本のみであるから第1行だけのデ
ータであり、s゛が4列、l′が2列、S′が4列と続
いているので、特徴メモリ(7)には、横の線(ルール
2)、縦の長い線(ルール1)、横の線(ルール2)、
の順に検出された線の種類が検出された順番に従って書
き込まれる。
このように本実施例で抽出される第2図と第5図の文字
パターンLとTの特徴は明らかに異なり、従来の方法で
は縦方向の横方向の2方向にラスタ走査して特徴を抽出
しても区別できなかった文字りとTが、縦方向のラスタ
走査による特徴の抽出だけで区別できるようになってい
る。
これまではランの数が1走査に1つの文字で説明したが
、1走査にランが複数含まれる文字に対しても同様にし
てその特徴の抽出を行うことができる。
例えば、第8図に示す文字パターンDの場合、前と同様
に縦方向に左から右にラスタ走査すると、第9図に示す
ように左側から1本目の走査ラインのランは1つでその
長さは9.2本目の走査ラインのランも1つでその長さ
は9.3本目以下8本目の走査ラインまではランが2つ
ありその長さは共に2である。9本目から111本目走
査ラインのランはまた1つになりその長さは各々7,5
゜3、である。文字パターンDの高さHは9と既知であ
るから、前と同様のしきい値を用いると量子化長さメモ
リ(5)のデータは第10図に示すように走査線ごとに 1、l、ss、ss、ss、ss、ss、ss。
1、m、s となる。この例でもデータを走査線の順番に調べて行く
と、まず第1行にl°が2列続き、次に第1行と第2行
の2行にS゛が4列続くところが現れ、その後に第1行
にl’、  ’m’、  ’s’が1列ずつ続く。
従って、特徴メモリ(7)には縦の長い線、横の線2本
、縦の長い線、縦の短い線の順に、線の種類が検出され
た順番に書き込まれる。
以上の実施例では縦方向に文字パターンをラスタ走査し
た場合について述べたが、制御回路の動作を変更して文
字パターンを横方向にラスタ走査させた場合にも、同様
の処理により文字を構成する線の種類を特徴として抽出
することができる。
即ち第8図に示すDの文字パターンを横方向にラスタ走
査すると、各走査ラインのランの長さは第11図に示す
ようになり、その量子化長さは第12図に示すようにな
る。その結果特徴メモリ(7〉には、横方向の短い線、
横方向の長い線、縦の線2本、横方向の長い線、横方向
の短い線の順に、線の種類が検出された順番に書き込ま
れる。
なお、この実施例のように横方向にラスタ走査するとき
には、上記のルール1〜4の縦と横とを読み替えるもの
とする。
更に1つの文字パターンに対して、縦方向ラスタ走査に
より抽出される特徴及び横方向ラスタ走査により抽出さ
れる特徴の2種類の特徴を抽出することにより、より高
い文字の識別能力を有する特徴を抽出することが出来る
なお、上記実施例では文字パターンの部分を白、その背
景を黒とした場合について述べたが、文字パターンの部
分が黒で背景が白の場合には、変化点検出回路(3)を
画像が白から黒に変化する所をランの終了位置として検
出し、画像が黒から白に変化する所をランの終了位置と
して検出し、一対のスタート位置と終了位置を検出する
とその間隔を計算しランの長さ長さを求めるようにすれ
ばよい。また、上記実施例ではランの長さを3段階に量
子化して説明したが、この量子化のレベル数は対象とす
る文字群に応じて変更してもかまわない。
更に、上記実施例では線を抽出するためのルールは4つ
しかないが、実用上はもっとたくさんのルールが必要な
ことは言うまでもない。
また、上記実施例では全てハードウェア処理で文字パタ
ーンの特徴の抽出を行ったが、第13図に示すように、
第1図の制御回路(2)、変化点検出回路(3) 、Q
子化回路(4)及び線抽出回路(5)を、マイクロプロ
セッサ(8)及び制御プログラメモリ(9)によって置
換え、一連の処理をソフトウェアで行うことも可能であ
る。この場合マイクロプロセッサ(8)は、制御プログ
ラム(9)に格納されているプログラムに従って、制御
回路(2)、変化点検出回路(3) 、m子化回路(4
)及び線抽出回路(5)についての上述の動作と同様な
演算処理をする。
[発明の効果] 以上のように、この発明によれば文字の特徴として、ラ
スタ走査により得られるランの長さデータから文字を構
成する線の種類とその出現する順番を抽出しているので
、文字を識別する能力の高い特徴を抽出できるという効
果がある。
【図面の簡単な説明】
第1図はこの発明の一実施例による文字の特徴抽出方法
を実現するためのハードウェア構成図。 第2図はは文字パターンLの説明図、第3図は文字パタ
ーンLを縦方向ラスタ走査したときのランの長さの説明
図、第4図は前記ランの量子化長さの説明図、第5図は
文字パターンTの説明図、第6図は文字パターンTを縦
方向ラスタ走査したときのランの長さの説明図、第7図
は前記ランの量子化長さの説明図、第8図は文字パター
ンDの説明図、第9図は文字パターンDを縦方向ラスタ
走査したときのランの長さの説明図、第10図は前記ラ
ンの量子化長さの説明図、第11図は文字パターンDを
横方向ラスタ走査したときのランの長さの説明図、第1
2図は前記ランの量子化長さの説明図、第13図はこの
発明の他の実施例のハードウェア構成図である。 図において、(1)は文字パターンメモリ、(2)は制
御回路、(3)は変化点検出回路、(4)は量子化回路
、(5)は量子化長さメモリ、(B)は線抽出回路、(
7)は特徴メモリ、(8)はマイクロブロツセサ、(9
)は制御プログラムメモリである。 なお、図中同一符号は同−又は相当部を示す。 代理人 弁理士 佐々木 宗 治 第1図 第2図 ;; 2; 2; 樅方向うスタ走食 +23456789−列 5:量子イし長ざメモリ 第5図 =2 := z 第6図 第7図

Claims (3)

    【特許請求の範囲】
  1. (1)1文字ごとに分離された白黒2値の文字パターン
    を縦方向にラスタ走査し、前記ラスタ走査ごとに1ない
    し複数本現れる文字部分のランの長さをランごとに計数
    する手段と、前記ランの長さを少なくとも長・中・短の
    3つ以上に量子化し前記ラスタ走査ごとに記憶する手段
    と、前記記憶手段のデータを用いて文字を構成する線の
    種類を抽出する手段とを有し、文字を構成する線の種類
    と前記線の出現する順番を抽出することを特徴とする文
    字の特徴抽出装置。
  2. (2)1文字ごとに分離された白黒2値の文字パターン
    を横方向にラスタ走査し、前記ラスタ走査ごとに1ない
    し複数本現れる文字部分のランの長さをランごとに計数
    する手段と、前記ランの長さを少なくとも長・中・短の
    3つ以上に量子化し前記ラスタ走査ごとに記憶する手段
    と、前記記憶手段のデータを用いて文字を構成する線の
    種類を抽出する手段とを有し、文字を構成する線の種類
    と前記線の出現する順番を抽出することを特徴とする文
    字の特徴抽出装置。
  3. (3)1文字ごとに分離された白黒2値の文字パターン
    を縦方向にラスタ走査し、前記ラスタ走査ごとに1ない
    し複数本現れる文字部分のランの長さをランごとに計数
    する手段と、前記ランの長さを少なくとも長・中・短の
    3つ以上に量子化し前記ラスタ走査ごとに記憶する手段
    と、前記記憶手段のデータを用いて文字を構成する線の
    種類を抽出する手段とを有し、更に 前記文字パターンを横方向にラスタ走査し、前記ラスタ
    走査ごとに1ないし複数本現れる文字部分のランの長さ
    をランごとに計数する手段と、前記ランの長さを少なく
    とも長・中・短の3つ以上に量子化し前記ラスタ走査ご
    とに記憶する手段と、前記記憶手段のデータを用いて文
    字を構成する線の種類を抽出する手段とを有し、 前記縦方向のラスタ走査に係る前記文字を構成する線の
    種類及び前記線の出現する順番と、前記横方向のラスタ
    走査に係る前記文字を構成する線の種類及び前記線の出
    現する順番との2組の変化パターンを文字パターンの特
    徴として抽出することを特徴とする文字の特徴抽出装置
JP62060184A 1987-03-17 1987-03-17 文字の特徴抽出装置 Pending JPS63226791A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62060184A JPS63226791A (ja) 1987-03-17 1987-03-17 文字の特徴抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62060184A JPS63226791A (ja) 1987-03-17 1987-03-17 文字の特徴抽出装置

Publications (1)

Publication Number Publication Date
JPS63226791A true JPS63226791A (ja) 1988-09-21

Family

ID=13134821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62060184A Pending JPS63226791A (ja) 1987-03-17 1987-03-17 文字の特徴抽出装置

Country Status (1)

Country Link
JP (1) JPS63226791A (ja)

Similar Documents

Publication Publication Date Title
EP0063454B1 (en) Method for recognizing machine encoded characters
JP2940936B2 (ja) 表領域識別方法
JPH0315793B2 (ja)
US5502777A (en) Method and apparatus for recognizing table and figure having many lateral and longitudinal lines
JPH04315272A (ja) 図形認識装置
US4628533A (en) Pattern recognition apparatus
JPS63226791A (ja) 文字の特徴抽出装置
US5490224A (en) Feature extracting apparatus
JPH05300372A (ja) メディアンフィルタの高速ソーティング方法
JP3104355B2 (ja) 特徴抽出装置
JPH02166583A (ja) 文字認識装置
JP2789622B2 (ja) 文字/図形領域判定装置
JPH0877355A (ja) 重み付きパターンマッチング方法
JP2507949B2 (ja) 文字/図形領域判定装置
JP2784059B2 (ja) 2値画像のノイズ除去方法および装置
JPH0581430A (ja) エツジ検出方法
JPS63226790A (ja) 文字の特徴抽出装置
KR100332753B1 (ko) 화상처리장치의이미지처리방법
JP2853140B2 (ja) 画像領域識別装置
JPS63282889A (ja) 画像処理方法
JPS60101676A (ja) 画像処理方法
JPS6011967A (ja) 閉領域の分離方式
JPH0264781A (ja) 表領域抽出方式
JPH06301818A (ja) 文字特徴抽出装置
JPH02254574A (ja) ノイズ除去方式