JPS61193276A - 文字列抽出方式 - Google Patents
文字列抽出方式Info
- Publication number
- JPS61193276A JPS61193276A JP60031914A JP3191485A JPS61193276A JP S61193276 A JPS61193276 A JP S61193276A JP 60031914 A JP60031914 A JP 60031914A JP 3191485 A JP3191485 A JP 3191485A JP S61193276 A JPS61193276 A JP S61193276A
- Authority
- JP
- Japan
- Prior art keywords
- character
- area
- character string
- character area
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔目次〕
以下の順序で本発明を説明する。
〔従来の技術〕
〔発明が解決しようとする問題点〕
〔問題点を解決するための手段〕
〔作用〕
〔実施例〕
(1) 実施例の構成(第2図、第3図)(2)第1
の実施例の動作説明(第4図、第5図)(3)第2の実
施例の動作説明 (第6図、第7図、第8図) 〔発明の効果〕 〔産業上の利用分野〕 本発明は、設計図面等の書面の内容を自動入力システム
に用いられる書面に含まれる文字列を抽出する文字列抽
出方式に関し、特に水平及び垂直方向の2方向に書かれ
ている文字列の方向を読取った書面の内容から自動的に
決定することのできる文字列抽出方式に関する。
の実施例の動作説明(第4図、第5図)(3)第2の実
施例の動作説明 (第6図、第7図、第8図) 〔発明の効果〕 〔産業上の利用分野〕 本発明は、設計図面等の書面の内容を自動入力システム
に用いられる書面に含まれる文字列を抽出する文字列抽
出方式に関し、特に水平及び垂直方向の2方向に書かれ
ている文字列の方向を読取った書面の内容から自動的に
決定することのできる文字列抽出方式に関する。
手書き又は機械によって書かれた書面をコンピュータに
自動入力することが行なわれている。このような自動入
力システムは第9図の如く入力すべき書面をレンズLS
を介しCOD (Charged C。
自動入力することが行なわれている。このような自動入
力システムは第9図の如く入力すべき書面をレンズLS
を介しCOD (Charged C。
upled Device)等の読取スキャナ2で書面
の内容を読取り書面の内容をイメージ(画像)データと
してコンピュータ1へ入力するものである。このような
イメージデータは書面1枚分でも大量のものとなるため
、そのままコンピュータ1の画像ファイルへ収容してお
くとファイル容量を多く必要とするから、コンピュータ
l内でイメージデータを解析し、その内容であるライン
、シンボル、文字等を認識して収容するようにしている
。例えば、第1O図に示すプラント関係の設計図面にお
いては、ライン、シンボル、文字が書かれており、コン
ピュータ1はこの設計図面を読取ってえたイメージデー
タからライン、シンボル、文字を分離して認識を行う。
の内容を読取り書面の内容をイメージ(画像)データと
してコンピュータ1へ入力するものである。このような
イメージデータは書面1枚分でも大量のものとなるため
、そのままコンピュータ1の画像ファイルへ収容してお
くとファイル容量を多く必要とするから、コンピュータ
l内でイメージデータを解析し、その内容であるライン
、シンボル、文字等を認識して収容するようにしている
。例えば、第1O図に示すプラント関係の設計図面にお
いては、ライン、シンボル、文字が書かれており、コン
ピュータ1はこの設計図面を読取ってえたイメージデー
タからライン、シンボル、文字を分離して認識を行う。
ラインと、シンボル、文字との分離は、一般にラインは
連続長が長いため、ドツトの連続長によってライン、シ
ンボル、文字を分離できる。更に文字が含まれている領
域を得るには、第11図(B)に示す如く連続するドツ
トの領域の最大、最小を求めて予じめ定められた文字領
域C8のサイズに対応するものを取出す方式や画像を第
11図(C)の如くベクトル化し、連続するベクトル全
体を囲む矩形の大きさから文字領域C8のサイズに対応
するものを取出す方式等が用いられる。
連続長が長いため、ドツトの連続長によってライン、シ
ンボル、文字を分離できる。更に文字が含まれている領
域を得るには、第11図(B)に示す如く連続するドツ
トの領域の最大、最小を求めて予じめ定められた文字領
域C8のサイズに対応するものを取出す方式や画像を第
11図(C)の如くベクトル化し、連続するベクトル全
体を囲む矩形の大きさから文字領域C8のサイズに対応
するものを取出す方式等が用いられる。
このようにして文字領域が第11図(A)のC81〜C
36の如く抽出されると、次にこの文字領域の文字の認
識が行なわれる。
36の如く抽出されると、次にこの文字領域の文字の認
識が行なわれる。
一方、図面においては、文字は一方向に書かれていると
は限らず、第10図で示した如く水平及び垂直の2方向
に書かれている場合が多い、このため、文字について個
々の文字の認識を行なうに当り文字列の抽出が必要とな
り、従来、第12図に示す個々の文字CSを縦横の81
、S2の2方向で認識し、その結果によって文字列も抽
出するという方法が用いられていた。
は限らず、第10図で示した如く水平及び垂直の2方向
に書かれている場合が多い、このため、文字について個
々の文字の認識を行なうに当り文字列の抽出が必要とな
り、従来、第12図に示す個々の文字CSを縦横の81
、S2の2方向で認識し、その結果によって文字列も抽
出するという方法が用いられていた。
係る従来の方法では、個々あ文字領域の文字を2方向で
認識するため、認識のための処理時間が2倍となり、認
識に要する時間が長くなるという問題がある他に、「−
」、「+」、rNrXJなど1文字で向きの決めにくい
文字もあり、文字列の抽出が困難であるという問題も生
じていた。
認識するため、認識のための処理時間が2倍となり、認
識に要する時間が長くなるという問題がある他に、「−
」、「+」、rNrXJなど1文字で向きの決めにくい
文字もあり、文字列の抽出が困難であるという問題も生
じていた。
本発明は、個々の文字領域の文字を認識する前に文字領
域の情報から文字列を組立てて文字列の向きを決定し、
文字認識を1方向で行なえるようにした文字列抽出方式
を提供することを目的とす、 る。
域の情報から文字列を組立てて文字列の向きを決定し、
文字認識を1方向で行なえるようにした文字列抽出方式
を提供することを目的とす、 る。
第1図は本発明の原理説明図である。
一般に図面入力においては、図面規約を定め処理できる
文字、図形を規定している。このような規約は種々ある
が、−mには、1つの文字列内において各文字はほぼ同
サイズで書かれ、整列しており、文字列と文字列との間
は離れていることである。
文字、図形を規定している。このような規約は種々ある
が、−mには、1つの文字列内において各文字はほぼ同
サイズで書かれ、整列しており、文字列と文字列との間
は離れていることである。
例えば、第1図(A)の水平方向の4文字「ABCDJ
の文字列と垂直方向の5文字rEFGH■」の文字列の
如きである。
の文字列と垂直方向の5文字rEFGH■」の文字列の
如きである。
本発明ではこのような各文字領域に対し上下左右に1つ
の文字列内のものと見なしうる他の文字領域が存在する
かを文字領域から調べ第1図(B)の如くのテーブルを
作成する。これはコンピュータのプロセッサが各文字領
域を求めた後、各文字領域間の距離によって上下左右に
隣接文字領域があるかを調べ、有ればその文字領域の番
号をテーブルに登録しておく。そして、プロセッサはテ
ーブルから右方向にのみ他の文字領域のある文字領域(
図では文字領域番号1のもの)を水平方向の文字列の先
頭文字と決定し、右方向に順次テープルの次文字領域を
たどっていき、水平方向の文字列(図では文字領域番号
1.2.3.4)を抽出し、又、テーブルから上又は下
方向にのみ他の文字領域のある文字領域(図では文字領
域番号のもの)を垂直方向の文字列の先頭文字と決定し
、上又は下方向に順次テーブルの次文字領域をたどって
いき、垂直方向の文字列(図では文字領域番号5.6.
7.8.9)を抽出するようにしている。
の文字列内のものと見なしうる他の文字領域が存在する
かを文字領域から調べ第1図(B)の如くのテーブルを
作成する。これはコンピュータのプロセッサが各文字領
域を求めた後、各文字領域間の距離によって上下左右に
隣接文字領域があるかを調べ、有ればその文字領域の番
号をテーブルに登録しておく。そして、プロセッサはテ
ーブルから右方向にのみ他の文字領域のある文字領域(
図では文字領域番号1のもの)を水平方向の文字列の先
頭文字と決定し、右方向に順次テープルの次文字領域を
たどっていき、水平方向の文字列(図では文字領域番号
1.2.3.4)を抽出し、又、テーブルから上又は下
方向にのみ他の文字領域のある文字領域(図では文字領
域番号のもの)を垂直方向の文字列の先頭文字と決定し
、上又は下方向に順次テーブルの次文字領域をたどって
いき、垂直方向の文字列(図では文字領域番号5.6.
7.8.9)を抽出するようにしている。
本発明では、各文字領域に対し上下左右の隣接文字領域
を示すテーブルをプロセッサが求めた文字領域から作成
し、このテーブルによって文字列を抽出するようにして
、文字認識前に各文字領域から文字列を抽出できるから
、以降の各文字領域の文字認識が一方向で済み、全体と
しての文字認識処理に要する時間を短縮できる。
を示すテーブルをプロセッサが求めた文字領域から作成
し、このテーブルによって文字列を抽出するようにして
、文字認識前に各文字領域から文字列を抽出できるから
、以降の各文字領域の文字認識が一方向で済み、全体と
しての文字認識処理に要する時間を短縮できる。
以下、本発明を実施例により詳細に説明する。
(1) 実施例の構成
第2図は本発明の実施例ブロック図であり、図中、第9
図で示したものと同一のものは同一の記号で示してあり
、10は処理プロセッサ(以下プロセッサと称す)であ
り、読取りスキャナ2が読取った書面のイメージデータ
から文字領域の決定、文字列の抽出及び文字の認識をプ
ログラムの実行によって行うもの、11は画像ファイル
であり、読取りスキャナ2で読取られたイメージデータ
をページ単位に一時格納し、プロセッサ10の認識処理
後、認識結果に置き代えて格納しておくもの、12は画
像メモリであり、画像ファイル11より読出されたプロ
セッサ10が処理すべき1ペ一ジ分のイメージデータを
格納しておくもの、13はテーブル用メモリであり、プ
ロセッサ10が文字認識処理のための各種のテーブルを
格納しておくものであり、第3図にて後述するものであ
る。
図で示したものと同一のものは同一の記号で示してあり
、10は処理プロセッサ(以下プロセッサと称す)であ
り、読取りスキャナ2が読取った書面のイメージデータ
から文字領域の決定、文字列の抽出及び文字の認識をプ
ログラムの実行によって行うもの、11は画像ファイル
であり、読取りスキャナ2で読取られたイメージデータ
をページ単位に一時格納し、プロセッサ10の認識処理
後、認識結果に置き代えて格納しておくもの、12は画
像メモリであり、画像ファイル11より読出されたプロ
セッサ10が処理すべき1ペ一ジ分のイメージデータを
格納しておくもの、13はテーブル用メモリであり、プ
ロセッサ10が文字認識処理のための各種のテーブルを
格納しておくものであり、第3図にて後述するものであ
る。
第3図は第2図構成のテーブルメモリ13の構成図であ
る。
る。
図中、13aは文字領域テーブルであり、文字領域番号
の付られた各文字領域の左下座標a、右上座標b、上、
下、左、右方向の隣接文字領域を番号で表示するための
上、下、左、右方向ポインタ及び処理フラグで構成され
るもの、13bは文字列テーブルであり、決定された文
字列の方向と、その文字数、その文字列の左下座標a、
右上座標す及び後述する認識テーブルを示すポインタで
構成されるもの、13Cは認識テーブルであり、各文字
列の文字領域番号に対する文字認識結果である認識文字
コードを格納しておくものである。
の付られた各文字領域の左下座標a、右上座標b、上、
下、左、右方向の隣接文字領域を番号で表示するための
上、下、左、右方向ポインタ及び処理フラグで構成され
るもの、13bは文字列テーブルであり、決定された文
字列の方向と、その文字数、その文字列の左下座標a、
右上座標す及び後述する認識テーブルを示すポインタで
構成されるもの、13Cは認識テーブルであり、各文字
列の文字領域番号に対する文字認識結果である認識文字
コードを格納しておくものである。
(2)第1の実施例の動作説明
次に、第2図・及び第3図構成による第1の実施例の動
作について第4図の処理フロー図及び第5図の処理動作
説明図を用いて説明する。
作について第4図の処理フロー図及び第5図の処理動作
説明図を用いて説明する。
前述の如く、文字規約としてはこの実施例では、文字列
間の間隔dl、d2は第5図(A)の如く文字間隔d3
より大きく書かれていること、例えばQ<d3<5鶴、
d+、dz〉5鰭とする。
間の間隔dl、d2は第5図(A)の如く文字間隔d3
より大きく書かれていること、例えばQ<d3<5鶴、
d+、dz〉5鰭とする。
又、文字列内の各文字は整列し、各文字はほぼ同一のサ
イズで書かれること及び文字領域に重なりがなく、例え
ば1文字領域内に「%」という書き方は許されないこと
、更に1文字のみのときは水平と判定し、水平方向を優
先とする。
イズで書かれること及び文字領域に重なりがなく、例え
ば1文字領域内に「%」という書き方は許されないこと
、更に1文字のみのときは水平と判定し、水平方向を優
先とする。
上述の文字規約の元に、第5図(A)の水平方向2列、
垂直方向1列の文字列の抽出処理を例に説明する。
垂直方向1列の文字列の抽出処理を例に説明する。
■ プロセッサ10は画像ファイル11から認識すべき
1ペ一ジ分のイメージデータを取り出し、画像メモリ1
2に格納する。これは読取り用スキャナ2から読取った
書面のイメージデータを直接画像メモリ12゛に格納し
てもよい。
1ペ一ジ分のイメージデータを取り出し、画像メモリ1
2に格納する。これは読取り用スキャナ2から読取った
書面のイメージデータを直接画像メモリ12゛に格納し
てもよい。
プロセッサ10は画像メモリ12の1ペ一ジ分のイメー
ジデータから文字領域の抽出を行なう。
ジデータから文字領域の抽出を行なう。
この文字領域の抽出方法は従来技術で述べた如く種々あ
るが、例えば、ドツトの連続性によって画像をベクトル
化し、連続するベクトル全体を囲む矩形の大きさを求め
、これの大きさが予じめ定めた文字領域のサイズ範囲内
のものを選択して抽出する。
るが、例えば、ドツトの連続性によって画像をベクトル
化し、連続するベクトル全体を囲む矩形の大きさを求め
、これの大きさが予じめ定めた文字領域のサイズ範囲内
のものを選択して抽出する。
又、「−」、「1」などの様に文字領域の縦横比が著し
く異なるものは、上下左右の文字領域と重ならない範囲
で縦又は横の大きい方のサイズに他方を変更する文字サ
イズ規格化処理を行なう。
く異なるものは、上下左右の文字領域と重ならない範囲
で縦又は横の大きい方のサイズに他方を変更する文字サ
イズ規格化処理を行なう。
更に「0」、「=」、「%」、r:Jl、r;Jなど1
文字が2つ以上の部分に分離して書かれているものがあ
るが、これらは、例えば組合せて予め定めた文字領域の
サイズになるか等の判定を行ない、−文字に統合する分
離文字の統合を行なう。
文字が2つ以上の部分に分離して書かれているものがあ
るが、これらは、例えば組合せて予め定めた文字領域の
サイズになるか等の判定を行ない、−文字に統合する分
離文字の統合を行なう。
このような文字領域の抽出方法は周知であるので、これ
以上の説明は省く。
以上の説明は省く。
■ このようにして文字領域が抽出されると、各文字領
域に通し番号(文字領域番号1.2−12)が振られ、
対応する文字領域の左下座標a゛と右上座標すが、第5
図(B)の如く、各文字領域番号1−12に対し、al
〜a12、b1〜b12のように文字領域テーブル13
aに格納される。
域に通し番号(文字領域番号1.2−12)が振られ、
対応する文字領域の左下座標a゛と右上座標すが、第5
図(B)の如く、各文字領域番号1−12に対し、al
〜a12、b1〜b12のように文字領域テーブル13
aに格納される。
■ 次に、プロセッサ10は、各文字領域の位置と全て
の他の文字領域との位置との距離を算出し、各文字領域
に対し上下左右に隣接する他の文字領域があるかを調べ
る。算出した距離が予しめ定めた文字列の文字間隔d3
内である時は、隣接文字領域有りと判定し、隣接方向に
対応して文字領域テーブル13aの上、下、右、左方向
のポインタにその隣接文字領域の番号を格納する。ない
ときは“0”をセットする。例えば、第5図(A)の文
字領域番号1に対しては、上、左方向には他の文字領域
がなくそのポインタには“0″がセットされ、下、右方
向に他の文字領域10.2があるが、文字領域10との
距離diはdl>d3のため隣接文字領域とは見なされ
ず、右方向の文字領域2のみが隣接文字領域と判定され
、その文字領域番号2が右方向ポインタに格納される。
の他の文字領域との位置との距離を算出し、各文字領域
に対し上下左右に隣接する他の文字領域があるかを調べ
る。算出した距離が予しめ定めた文字列の文字間隔d3
内である時は、隣接文字領域有りと判定し、隣接方向に
対応して文字領域テーブル13aの上、下、右、左方向
のポインタにその隣接文字領域の番号を格納する。ない
ときは“0”をセットする。例えば、第5図(A)の文
字領域番号1に対しては、上、左方向には他の文字領域
がなくそのポインタには“0″がセットされ、下、右方
向に他の文字領域10.2があるが、文字領域10との
距離diはdl>d3のため隣接文字領域とは見なされ
ず、右方向の文字領域2のみが隣接文字領域と判定され
、その文字領域番号2が右方向ポインタに格納される。
このようにして文字領域番号2以降12まで同様の隣接
文字領域の判定、ポインタのセットが行なわれ、第5図
(b)の文字領域テーブル13aが完成する。
文字領域の判定、ポインタのセットが行なわれ、第5図
(b)の文字領域テーブル13aが完成する。
■ 次に、予じめ水平方向は第5図(A)の如く左から
右へ、垂直方向は下から上へ文字が書かれるものと図面
規約しておくと、水平方向の先頭文字領域は上、下、左
に隣接文字がないものであるから、プロセッサ10は文
字領域テーブル13aの各文字領域の上、下、左、右4
方向のポインタを調べ、上、下、左方向のポインタが“
0”の文字領域を探し、これを水平方向の先頭文字と判
定する。第5図(A)、(B)の例では、文字領域1、
lOが水平方向の先頭文字として抽出される。
右へ、垂直方向は下から上へ文字が書かれるものと図面
規約しておくと、水平方向の先頭文字領域は上、下、左
に隣接文字がないものであるから、プロセッサ10は文
字領域テーブル13aの各文字領域の上、下、左、右4
方向のポインタを調べ、上、下、左方向のポインタが“
0”の文字領域を探し、これを水平方向の先頭文字と判
定する。第5図(A)、(B)の例では、文字領域1、
lOが水平方向の先頭文字として抽出される。
更に、プロセッサ10は、先頭文字と判定された右方向
のポインタをたどっていき、右方向の染インタが“0”
(右方向に文字領域なし)となるところまでを1つの
文字列とする。例えば先頭文字lに対しては次文字は右
方向ポインタが“2”であるから次文字は文字領域2で
あり、更に次文字2に対しては右方向のポインタカぴ3
″であるから次文字は、文字領域3であり、次次文字3
に対しては右方向のポインタが“4”であるから文字領
域4であり、文字領域4では右方向ポインタが“0”で
あるから、文字列の最終文字であるとする。このように
して、・文字列に組込まれた文字領域の処理フラグには
“1”がセットされ、文字列テーブル13bに文字列の
方向、文字列の数、文字列左下座標、文字列右上座標及
びポインタがセントされ、文字認識チー、プル13cの
ポインタで示された位置にその文字列の領域番号がセッ
トされる0例えば、文字列が文字領域番号1.2.3.
4の4文字と判定されると、文字列テーブル13bには
、文字列方向、として「水平1」文字数「4」、文字列
左下座標として先頭文字領域1の左下座標「al」、文
字列右上座標として最終文字領域4の右上座標「b、4
」、ポインタ「cl」がセットされ、文字認識テーブル
13cのポインタC1の示すエリアに文字列を構成する
文字領域番号1〜4がセットされる。先頭文字領域が「
10」の場合も同様に右方向のポインタがたどられ、文
字領域番号10,11.12が1つの文字列を構成する
と判定され、同様の文字列テーブル13b及び文字認識
テーブル13Cのセントが行なわれる。
のポインタをたどっていき、右方向の染インタが“0”
(右方向に文字領域なし)となるところまでを1つの
文字列とする。例えば先頭文字lに対しては次文字は右
方向ポインタが“2”であるから次文字は文字領域2で
あり、更に次文字2に対しては右方向のポインタカぴ3
″であるから次文字は、文字領域3であり、次次文字3
に対しては右方向のポインタが“4”であるから文字領
域4であり、文字領域4では右方向ポインタが“0”で
あるから、文字列の最終文字であるとする。このように
して、・文字列に組込まれた文字領域の処理フラグには
“1”がセットされ、文字列テーブル13bに文字列の
方向、文字列の数、文字列左下座標、文字列右上座標及
びポインタがセントされ、文字認識チー、プル13cの
ポインタで示された位置にその文字列の領域番号がセッ
トされる0例えば、文字列が文字領域番号1.2.3.
4の4文字と判定されると、文字列テーブル13bには
、文字列方向、として「水平1」文字数「4」、文字列
左下座標として先頭文字領域1の左下座標「al」、文
字列右上座標として最終文字領域4の右上座標「b、4
」、ポインタ「cl」がセットされ、文字認識テーブル
13cのポインタC1の示すエリアに文字列を構成する
文字領域番号1〜4がセットされる。先頭文字領域が「
10」の場合も同様に右方向のポインタがたどられ、文
字領域番号10,11.12が1つの文字列を構成する
と判定され、同様の文字列テーブル13b及び文字認識
テーブル13Cのセントが行なわれる。
■ 次に、プロセッサ10は、垂直方向の文字列の抽出
を行なう。
を行なう。
前述のステップ■の図面規約に従えば、垂直方向の先頭
文字領域は、下、左、右に隣接文字がないものであるか
ら、プロセッサ10は、文字領域テーブル13aの各文
字領域の上、下、左、右4方向のポインタを調べ、下、
左、右方向のポインタが“0”の文字領域を探し、これ
を垂直方向の先頭文字と判定する。第5図(A)、(B
)の例では、文字領域5が垂直方向の先頭文字として抽
出される。
文字領域は、下、左、右に隣接文字がないものであるか
ら、プロセッサ10は、文字領域テーブル13aの各文
字領域の上、下、左、右4方向のポインタを調べ、下、
左、右方向のポインタが“0”の文字領域を探し、これ
を垂直方向の先頭文字と判定する。第5図(A)、(B
)の例では、文字領域5が垂直方向の先頭文字として抽
出される。
更に、プロセッサ10は、先頭文字と判定された上方向
のポインタをたどっていき、上方向のポインタが“0”
(上方向に文字領域なし)となるところまでを1つの
文字列とする。例えば先頭文字5に対しては次文字は上
方向ポインタが“6″であるから次文字は文字領域6で
あり、更に次文字6に対しては上方向のポインタが“7
″であるから次文字は、文字領域7であり、次次文字7
に対しては上方向のポインタが“8”であるから文字領
域8であり、文字領域8では上方向ポインタが“9”で
あるから、文字領域9であり、文字領域9の上方向のポ
インタが“O”である、文字領域9が文字列の最終文字
であるとする。
のポインタをたどっていき、上方向のポインタが“0”
(上方向に文字領域なし)となるところまでを1つの
文字列とする。例えば先頭文字5に対しては次文字は上
方向ポインタが“6″であるから次文字は文字領域6で
あり、更に次文字6に対しては上方向のポインタが“7
″であるから次文字は、文字領域7であり、次次文字7
に対しては上方向のポインタが“8”であるから文字領
域8であり、文字領域8では上方向ポインタが“9”で
あるから、文字領域9であり、文字領域9の上方向のポ
インタが“O”である、文字領域9が文字列の最終文字
であるとする。
このようにして、文字列に組込まれた文字領域の処理フ
ラグには“1”がセットされ、文字列テーブル13bに
水平方向の場合と同様に文字列の方向、文字列の数、文
字列左下座標、文字列右上座標及びポインタがセットさ
れ、文字認識テーブル13cのポインタで示された位置
にその文字列の領域番号がセットされる。例えば、垂直
文字列が文字領域番号5.6.7.8.9の5文字と判
定されると、文字列テーブル13bには、文字列方向と
して「垂直1」、文字数「5」、文字列左下座標として
先頭文字領域5の左下座標「a5」、文字列右上座標と
して最終文字領域9の右上座標rb 9J 、ポインタ
「C3」がセットされ、文字認識テーブル13Cのポイ
ンタC3の示すエリアに文字列を構成する文字領域番号
5〜9がセットされる。
ラグには“1”がセットされ、文字列テーブル13bに
水平方向の場合と同様に文字列の方向、文字列の数、文
字列左下座標、文字列右上座標及びポインタがセットさ
れ、文字認識テーブル13cのポインタで示された位置
にその文字列の領域番号がセットされる。例えば、垂直
文字列が文字領域番号5.6.7.8.9の5文字と判
定されると、文字列テーブル13bには、文字列方向と
して「垂直1」、文字数「5」、文字列左下座標として
先頭文字領域5の左下座標「a5」、文字列右上座標と
して最終文字領域9の右上座標rb 9J 、ポインタ
「C3」がセットされ、文字認識テーブル13Cのポイ
ンタC3の示すエリアに文字列を構成する文字領域番号
5〜9がセットされる。
このようにして、第5図(B)、(C)、(D)のテー
ブル13a、13b、13cが完成し、文字列の抽出は
終了する。
ブル13a、13b、13cが完成し、文字列の抽出は
終了する。
そして、プロセッサ10は文字列テーブル13bより文
字列の方向を知り、文字認識テーブル13Cの各文字列
の文字領域に対し文字列方向の一方向で文字認識を行い
、その結果を文字認識テーブル13cの認識文字コード
エリアに格納する。
字列の方向を知り、文字認識テーブル13Cの各文字列
の文字領域に対し文字列方向の一方向で文字認識を行い
、その結果を文字認識テーブル13cの認識文字コード
エリアに格納する。
文字認識の方法は、周知の特徴抽出法やパターンマツチ
ング法等のいずれであってもよい。
ング法等のいずれであってもよい。
上述の如く、図面規約に従って書かれた文字列の抽出は
行なわれる。
行なわれる。
(3)第2の実施例の動作説明
一方、図面規約が守られなく、各文字列の間隔d1が文
字列内の文字間隔d3に近づき、d+くd3となった時
についても文字列の抽出が可能である。これを以下第2
の実施例として説明する。
字列内の文字間隔d3に近づき、d+くd3となった時
についても文字列の抽出が可能である。これを以下第2
の実施例として説明する。
第6図は第2の実施例の処理フロー図、第7図及び第8
図はその動作説明図である。
図はその動作説明図である。
以下、第7図(A)の水平方向の3列、2列の計5列の
文字列で且つ各文字列の間隔がdiである場合の例につ
いて説明する。
文字列で且つ各文字列の間隔がdiである場合の例につ
いて説明する。
■ 第1の実施例のステップ■と同様にして文字領域の
抽出を行なう。
抽出を行なう。
■ 第1の実施例のステップ■と同様にして、抽出され
た文字領域に通し番号を振り、その左下座標、右上座標
を文字領域テーブル13aに格納する。
た文字領域に通し番号を振り、その左下座標、右上座標
を文字領域テーブル13aに格納する。
■ 第1の実施例のステップ■と同様にして各文字領域
に対し隣接文字領域の判定、上、下、左、右ポインタの
セットが行なわれ、第7図(B)の文字領域テーブル1
3aが完成する。
に対し隣接文字領域の判定、上、下、左、右ポインタの
セットが行なわれ、第7図(B)の文字領域テーブル1
3aが完成する。
ここで前述の如く図面規約が守られていないので、文字
領域「5」、「12」、「15」が先頭文字であっても
、右方向ポインタ以外の上、下方向ポインタも“0”で
なく他の文字列の文字領域が隣接文字領域とみなされて
、その文字領域番号がセットされる。
領域「5」、「12」、「15」が先頭文字であっても
、右方向ポインタ以外の上、下方向ポインタも“0”で
なく他の文字列の文字領域が隣接文字領域とみなされて
、その文字領域番号がセットされる。
■ 第1の実施例のステップ■と同様にして、上、下、
左方向のポインタが“0“の文字領域を探し、これを水
平文字列の先頭文字と判定し、同様にして右方向ポイン
タをたどって、右方向ポインタが“0”となるところま
でを1つの文字列として、文字列テーブル13b、文字
認識テーブル13cに同様にしてセットする。ここで、
前述の如く、先頭文字である文字領域「5」、「12」
、「15」は先頭文字として抽出されず、先頭文字とし
て抽出されるのは、文字領域番号「1」及び「8」であ
り、抽出される文字列は、水平1の文字列である文字領
域番号「1」、「2」、「3」、「4」と、水平2の文
字列である文字領域番号「8」、「9」、「10」、「
11」である。そしてこれらの文字列に組込まれた文字
領域には処理フラグ1′″が第8図(A)の如くセット
される。
左方向のポインタが“0“の文字領域を探し、これを水
平文字列の先頭文字と判定し、同様にして右方向ポイン
タをたどって、右方向ポインタが“0”となるところま
でを1つの文字列として、文字列テーブル13b、文字
認識テーブル13cに同様にしてセットする。ここで、
前述の如く、先頭文字である文字領域「5」、「12」
、「15」は先頭文字として抽出されず、先頭文字とし
て抽出されるのは、文字領域番号「1」及び「8」であ
り、抽出される文字列は、水平1の文字列である文字領
域番号「1」、「2」、「3」、「4」と、水平2の文
字列である文字領域番号「8」、「9」、「10」、「
11」である。そしてこれらの文字列に組込まれた文字
領域には処理フラグ1′″が第8図(A)の如くセット
される。
■ 次に、第1の実施例のステップ■と同様にして、垂
直文字列の抽出が行なわれる。第7図(A)の例では垂
直文字列が示されていないが、あればこれと同様にして
行なわれる。
直文字列の抽出が行なわれる。第7図(A)の例では垂
直文字列が示されていないが、あればこれと同様にして
行なわれる。
■ 次に、プロセッサ10は、文字領域テーブル13a
において文字列に組込まれた文字領域(番号)の4方向
全てのポインタを第8図(A)の如く“0”にクリアし
、更に、組込まれて、いない文字領域において存在する
ポインタにおいて、指示された組込まれた文字領域番号
も“0”にクリアする。第7図(A)の例では、第8図
(A)に示す如く、文字列に組込まれた文字領域「1」
、「2」、「3」、「4」、「8」、r9JrlO」、
「11」の全ポインタが“0”クリアされる他に、この
文字領域以外の文字領域「5」〜「7」、「12」〜「
17」において組込まれた文字領域が示されているポイ
ンタ、例えば文字領域「5」の上、下方向ポインタの「
2」、「9」も“0′″クリアされる。
において文字列に組込まれた文字領域(番号)の4方向
全てのポインタを第8図(A)の如く“0”にクリアし
、更に、組込まれて、いない文字領域において存在する
ポインタにおいて、指示された組込まれた文字領域番号
も“0”にクリアする。第7図(A)の例では、第8図
(A)に示す如く、文字列に組込まれた文字領域「1」
、「2」、「3」、「4」、「8」、r9JrlO」、
「11」の全ポインタが“0”クリアされる他に、この
文字領域以外の文字領域「5」〜「7」、「12」〜「
17」において組込まれた文字領域が示されているポイ
ンタ、例えば文字領域「5」の上、下方向ポインタの「
2」、「9」も“0′″クリアされる。
そして、前述の第2の実施例の水平文字列抽出のステッ
プ■に戻り、処理フラグが61”にセントされていない
文字領域に対し水平文字列抽出が行なわれる。第7図(
A)の例では、第8図(A)に示す如く、上、下、左ポ
インタが“0″のものとして文字領域「5」が先頭文字
として抽出され、右方向ポインタをたどって文字列「5
」、「6」、「7」が水平3の文字列として抽出され、
同様にして文字列テーブル13b、文字認識テーブル1
3cにセットされる。
プ■に戻り、処理フラグが61”にセントされていない
文字領域に対し水平文字列抽出が行なわれる。第7図(
A)の例では、第8図(A)に示す如く、上、下、左ポ
インタが“0″のものとして文字領域「5」が先頭文字
として抽出され、右方向ポインタをたどって文字列「5
」、「6」、「7」が水平3の文字列として抽出され、
同様にして文字列テーブル13b、文字認識テーブル1
3cにセットされる。
次にステップ■と同様にして垂直文字列の抽出が行なわ
れ、更にステップ■と同様にしてプロセッサlOは、文
字領域テーブル13aにおいて文字列に組込まれた文字
領域(番号)の4方向全てのポインタを第8図(B)の
如く“0”にクリアし、更に、組込まれない文字領域に
おいて存在するポインタにおいて、指示された組込まれ
た文字領域番号も“0″にクリアする。
れ、更にステップ■と同様にしてプロセッサlOは、文
字領域テーブル13aにおいて文字列に組込まれた文字
領域(番号)の4方向全てのポインタを第8図(B)の
如く“0”にクリアし、更に、組込まれない文字領域に
おいて存在するポインタにおいて、指示された組込まれ
た文字領域番号も“0″にクリアする。
そしてステップ■に再び戻り、ステップ■、■で水平、
垂直の先頭文字が検出されなくなるまで繰返す。
垂直の先頭文字が検出されなくなるまで繰返す。
■ このようにして、先頭文字領域が「1」、「5」、
「8」の文字列が抽出されるが、第7図(B)の右側の
先頭文字領域「12」、「15」の2つの文字列は抽出
されず残り、文字領域テーブル13aは第8図(B)の
如く処理されない文字領域「12」〜「17」が残る。
「8」の文字列が抽出されるが、第7図(B)の右側の
先頭文字領域「12」、「15」の2つの文字列は抽出
されず残り、文字領域テーブル13aは第8図(B)の
如く処理されない文字領域「12」〜「17」が残る。
このような文字列を抽出するため、プロセッサ10は第
8図(B)の文字領域テーブル13aの処理フラグが“
1”となっていない未処理の文字領域「12」〜「17
」に対し、左、下のポインタが“0”となっているもの
を探し、図形規約の水平方向、垂直方向である右方向と
上方向にポインタをたどって、それぞれの文字数を数え
る。例えば、第7図(A)及び第8図(B)では、左、
下のポインタが“じのものは文字領域r15J
5であるから、これから右方向へたどると文字領
域「16」へ次に文字領域「17」と文字数は“3この
文字数の多い方の向きに文字列を決定する。
8図(B)の文字領域テーブル13aの処理フラグが“
1”となっていない未処理の文字領域「12」〜「17
」に対し、左、下のポインタが“0”となっているもの
を探し、図形規約の水平方向、垂直方向である右方向と
上方向にポインタをたどって、それぞれの文字数を数え
る。例えば、第7図(A)及び第8図(B)では、左、
下のポインタが“じのものは文字領域r15J
5であるから、これから右方向へたどると文字領
域「16」へ次に文字領域「17」と文字数は“3この
文字数の多い方の向きに文字列を決定する。
”となり、上方向へたどると文字領域「12」となり、
文字数は“2”となる。
文字数は“2”となる。
即ち、第7図(A)及び第8図(B)では、文字数が“
3′″の文字領域「15」、「16」、「17」の水平
方向として決定し、処理フラグ11”を立て、これを水
平4として同様に文字列テーブル13b、文字認識テー
ブル13cにセットする。
3′″の文字領域「15」、「16」、「17」の水平
方向として決定し、処理フラグ11”を立て、これを水
平4として同様に文字列テーブル13b、文字認識テー
ブル13cにセットする。
尚、文字数が同一の時には、水平方向を優先とし、水平
方向と決定する。
方向と決定する。
■ 次に、プロセッサ10は、決定された文字列(水平
4)に対し、ステップ■と同様に、組込まれた文字領域
(番号)の4方向の全てのポインタを0”にクリアし、
組込まれていない未処理文字領域において存在するポイ
ンタにおいて指示された組込まれた文字領域番号も“O
”にクリアする。即ち、第8図(B)の矢印で示す如く
の“0”クリアが行なわれ、未処理の文字領域は「12
」〜「14」となる。
4)に対し、ステップ■と同様に、組込まれた文字領域
(番号)の4方向の全てのポインタを0”にクリアし、
組込まれていない未処理文字領域において存在するポイ
ンタにおいて指示された組込まれた文字領域番号も“O
”にクリアする。即ち、第8図(B)の矢印で示す如く
の“0”クリアが行なわれ、未処理の文字領域は「12
」〜「14」となる。
そして、ステップ■へ戻ると、先頭文字領域が文字領域
「12」と抽出され、水平文字列「12」、「13」、
「14」が水平5として抽出され、文字列テーブル13
b及び文字認識テーブル13Cにセットされる。
「12」と抽出され、水平文字列「12」、「13」、
「14」が水平5として抽出され、文字列テーブル13
b及び文字認識テーブル13Cにセットされる。
そして全ての文字領域の処理が終了すると、文字列の抽
出は完了し、第7図(C)、(D)の文字列テーブル1
3b及び文字認識テーブル13Cかえられる。
出は完了し、第7図(C)、(D)の文字列テーブル1
3b及び文字認識テーブル13Cかえられる。
以降は第1の実施例と同様各文字列の文字領域が抽出さ
れた方向で文字認識され、認識文字コードは文字認識テ
ーブル13cに格納される。
れた方向で文字認識され、認識文字コードは文字認識テ
ーブル13cに格納される。
このようにして、図面規約が守られずに、文字列間隔が
小となっても文字列の抽出が可能となる。
小となっても文字列の抽出が可能となる。
前述の例では垂直方向の文字列が下から上へ向く例で示
したが、上から下へ向く場合には、ステップ■の垂直文
字列の先頭文字領域の条件は、上、左、右に文字領域が
ない、即ち上、左、右のポインタが“0″の場合となる
。
したが、上から下へ向く場合には、ステップ■の垂直文
字列の先頭文字領域の条件は、上、左、右に文字領域が
ない、即ち上、左、右のポインタが“0″の場合となる
。
又、第2の実施例において水平方向の文字列のみの場合
で説明したが同様にして垂直方向の文字列が第7図(A
)の様な場合である時も抽出ができる。更に、第2の実
施例において、垂直文字列が上から下へ向く時には、ス
テップ■の先頭文字領域抽出の条件を左、上のポインタ
が“O”となっているものと、右方向と下方向にポイン
タをたどるようにすればよい。
で説明したが同様にして垂直方向の文字列が第7図(A
)の様な場合である時も抽出ができる。更に、第2の実
施例において、垂直文字列が上から下へ向く時には、ス
テップ■の先頭文字領域抽出の条件を左、上のポインタ
が“O”となっているものと、右方向と下方向にポイン
タをたどるようにすればよい。
以上本発明を実施例により説明したが、本発明は本発明
の主旨に従い種々の変形が可能であり、本発明からこれ
らを排除するものではない。
の主旨に従い種々の変形が可能であり、本発明からこれ
らを排除するものではない。
以上説明した様に、本発明によれば、文字認識を行なう
前に文字領域を用いて文字列を抽出できるので、以降の
文字認識が一方向で済み、処理時間が大幅に短縮しうる
という優れた効果を奏する。
前に文字領域を用いて文字列を抽出できるので、以降の
文字認識が一方向で済み、処理時間が大幅に短縮しうる
という優れた効果を奏する。
又、文字領域から文字列を抽出しているので、特別に余
分の情報を新たに必要とせずに実現でき、容易に実現で
きるという効果を奏する他に図面の文字認識システムに
容易に導入できるという効果も奏し、係る図面自動入力
に要する処理時間を容易に短縮でき、係る図面自動入力
システムの性能向上に寄与するところが大きい。
分の情報を新たに必要とせずに実現でき、容易に実現で
きるという効果を奏する他に図面の文字認識システムに
容易に導入できるという効果も奏し、係る図面自動入力
に要する処理時間を容易に短縮でき、係る図面自動入力
システムの性能向上に寄与するところが大きい。
第1図は本発明の原理説明図、
第2図は本発明の一実施例構成図、
第3図は第2図構成におけるテーブルメモリの構成図、
第4図は第2図構成における第1の実施例処理フロー図
、 第5図は第4図処理の動作説明図、 第6図は第2図構成における第2の実施例処理フロー図
、 第7図及び第8図は第6図処理の動作説明図、第9図は
図面自動入力システムの説明図、第10図は入力される
図面の説明図、 第11図は文字領域抽出処理の説明図、第12図は従来
の図面文字認識の説明図である。 図中、 DS−−・・書面(図面)、 1・−コンピュータ、 2・−読取りスキャナ(読取り手段)、io−・処理プ
ロセッサ、 13−・テーブル用メモリ、 13a−・文字領域テーブル、 13b・−文字列テーブル。
、 第5図は第4図処理の動作説明図、 第6図は第2図構成における第2の実施例処理フロー図
、 第7図及び第8図は第6図処理の動作説明図、第9図は
図面自動入力システムの説明図、第10図は入力される
図面の説明図、 第11図は文字領域抽出処理の説明図、第12図は従来
の図面文字認識の説明図である。 図中、 DS−−・・書面(図面)、 1・−コンピュータ、 2・−読取りスキャナ(読取り手段)、io−・処理プ
ロセッサ、 13−・テーブル用メモリ、 13a−・文字領域テーブル、 13b・−文字列テーブル。
Claims (1)
- 【特許請求の範囲】 水平あるいは垂直の2方向に書かれた文字列を有する書
面を読取る読取り手段と、 該読取った書面の内容から該文字列を構成する個々の文
字の領域を求めた後、各文字領域に対し該文字領域の上
下左右一定距離内に他の文字領域が存在するかを調べて
テーブルを作成する処理手段とを含み、 該処理手段は、該作成したテーブルを参照して、少なく
とも右方向にのみ他の文字領域が存在する文字領域を水
平方向の文字列の先頭文字とし、少なくとも上又は下方
向にのみ他の文字領域が存在する文字領域を垂直方向の
文字列の先頭文字として決定して文字列を抽出すること
を特徴とする文字列抽出方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60031914A JPH0697470B2 (ja) | 1985-02-20 | 1985-02-20 | 文字列抽出装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60031914A JPH0697470B2 (ja) | 1985-02-20 | 1985-02-20 | 文字列抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61193276A true JPS61193276A (ja) | 1986-08-27 |
JPH0697470B2 JPH0697470B2 (ja) | 1994-11-30 |
Family
ID=12344245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60031914A Expired - Lifetime JPH0697470B2 (ja) | 1985-02-20 | 1985-02-20 | 文字列抽出装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0697470B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
JPH01175084A (ja) * | 1987-12-29 | 1989-07-11 | Fujitsu Ltd | 孤立領域間隔抽出方式 |
JPH0573718A (ja) * | 1991-09-13 | 1993-03-26 | Matsushita Electric Ind Co Ltd | 領域属性識別方式 |
JPH06251193A (ja) * | 1993-02-25 | 1994-09-09 | Nec Corp | 文字列抽出装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55127678A (en) * | 1979-03-22 | 1980-10-02 | Nec Corp | Character array direction detector |
-
1985
- 1985-02-20 JP JP60031914A patent/JPH0697470B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55127678A (en) * | 1979-03-22 | 1980-10-02 | Nec Corp | Character array direction detector |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
JPH01175084A (ja) * | 1987-12-29 | 1989-07-11 | Fujitsu Ltd | 孤立領域間隔抽出方式 |
JPH0573718A (ja) * | 1991-09-13 | 1993-03-26 | Matsushita Electric Ind Co Ltd | 領域属性識別方式 |
JPH06251193A (ja) * | 1993-02-25 | 1994-09-09 | Nec Corp | 文字列抽出装置 |
JP2576350B2 (ja) * | 1993-02-25 | 1997-01-29 | 日本電気株式会社 | 文字列抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
JPH0697470B2 (ja) | 1994-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3535689A1 (en) | Method and system for transforming handwritten text to digital ink | |
US4907285A (en) | Image understanding system | |
CN112861736B (zh) | 基于图像处理的文献表格内容识别与信息提取方法 | |
JPH03161891A (ja) | 表形式文書読取装置 | |
CN114004204B (zh) | 基于计算机视觉的表格结构重建与文字提取方法和系统 | |
CN110688825A (zh) | 一种版式文档中的含线表格信息提取方法 | |
RU2625533C1 (ru) | Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы | |
JPH0821057B2 (ja) | 文書画像解析方式 | |
JPS61193276A (ja) | 文字列抽出方式 | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム | |
JP4418726B2 (ja) | 文字列探索装置、探索方法およびこの方法のプログラム | |
JPH06131497A (ja) | 表認識方式 | |
CN110889401A (zh) | 一种基于opencv库的文本版面识别方法 | |
Wei et al. | A text extraction framework of financial report in traditional format with OpenCV | |
CN111103987B (zh) | 公式录入方法及计算机存储介质 | |
JPS6154569A (ja) | 文書画像処理方式 | |
JPH07107711B2 (ja) | 文書画像の処理装置 | |
CN116909552A (zh) | 界面与字段对照关系图生成方法、装置及设备 | |
JPH01130293A (ja) | 文書画像解析方式 | |
JPS63116279A (ja) | 図面読取装置における建屋図形抽出方法 | |
JPH083828B2 (ja) | 文書画像理解装置 | |
JPH0247786B2 (ja) | ||
Wnek et al. | Automated conversion of structured documents into SGML | |
JPH01201789A (ja) | 文字読取装置 | |
JPS6368984A (ja) | 図形読取装置 |