JPS6257069A - 文字列抽出方式 - Google Patents

文字列抽出方式

Info

Publication number
JPS6257069A
JPS6257069A JP60197322A JP19732285A JPS6257069A JP S6257069 A JPS6257069 A JP S6257069A JP 60197322 A JP60197322 A JP 60197322A JP 19732285 A JP19732285 A JP 19732285A JP S6257069 A JPS6257069 A JP S6257069A
Authority
JP
Japan
Prior art keywords
character
area
character string
string
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60197322A
Other languages
English (en)
Other versions
JPH0253821B2 (ja
Inventor
Michiko Iwasaki
岩崎 美知子
Yasukazu Ito
伊藤 能一
Masashige Yamamoto
山本 正成
Hiroaki Harada
裕明 原田
Nobuyuki Sato
信幸 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60197322A priority Critical patent/JPS6257069A/ja
Publication of JPS6257069A publication Critical patent/JPS6257069A/ja
Publication of JPH0253821B2 publication Critical patent/JPH0253821B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 図面内の文字列を抽出する際、まず図面内から切出され
た各文字領域について当該文字領域に近接する文字領域
を文字列候補としてグループ化し、しかる後グループ内
での文字領域間ICX方向、Y方向の重なり貫を定義し
、それを基に文字列を決定する構成が示されている。
〔産業上の利用分野〕
本発明は、図面自動入力袋[K係り、特に文字の書かれ
た図面を含む図面の縦・横文字列を抽出することを可能
にした文字列抽出方式に関する。
〔従来の技術と発明が解決しようとする問題点〕CAD
システムへ手lき図面を簡単に入力する方法を得るため
に、図面入力の研究開発が活発になってきている。通常
、図面には名前、属性などを示す文字(文字列)が書か
れているので、図面入力システムでは文字認識処理が不
可欠である。その場合まず、文字認識の前段階として、
文字(文字列)のみを抽出することが必要になってくる
従来の文字列抽出方式としては、周辺分布を利用するも
のや、OCRのようice<位置が決っている方式があ
るが、ともIc縦文字列か横文字列がいずれか既知の一
方向のものであり、どちらか一方の抽出しか行なわない
という欠点がある。
そのため、従来方式では、図面中に縦m2方向の文字列
が存在する場合、そのような図面についての自動入力処
理を行なうことができなかった。
〔問題点を解決するための手段〕
本発明においては、図面から個々の文字領域を切出し近
接する領域について文字列を形成する候補領域としてグ
ループ化を行ない、次にグループ内で隣接文字領域間の
重なり度をX方向とY方向との両方向について調べ、重
なり度の大きさにもとづいて縦・横のいずれかの文字列
を決定し抽出する構成を採用している。
〔作用〕
図面内の文字列を切り出すためには文字列はある規則の
下で書かれていなければならない。処理はこの規則を知
識として利用して行うが文字列が満たすべき条件として
以下の項目がある。
a)文字列はy軸・y軸の正方向VC書かれる。
b)文字のゆらぎは前後の文字幅以下である。
C)文字間隔は一定値り下である。
d〕 文字列間隔は一定値以上である0文字領域のグル
ープ化処理は、基本的に文字領域間で近接しているもの
を1つの文字列の候補としてグループ化する処理と、そ
れが真の文字列であるかを検証する処理から成る。
中 グループ化 1つの文字領域に対し、その上下左右に隣接する文字領
域の距離を基にグループ化を行う。
その例を第6図に示す。m6図(alのように重なりの
ある文字領域は1つのグループにすることはもちろん、
第6図(blのように隣接方向の最短距離を求め、それ
が閾値以下のものを1つのグループvcまとめる。第7
図rcは実際のデータでグループ化された例を示す。こ
の中で、真ニゲループになるか否かを検証する。
叩 グループの検証 @7図の例のように、グループ内を他のライン・シンボ
ル(図示の例では円]が横切る場合はグループの分割を
行う。
以上の処理によって、生成されるグループに。
は2つ以上の文字列が含まれる場合もあるが、1つの文
字列が2つ以上のグループに含まれることはない。
次に、文字列決定処理では、グループ内に存在する文字
列の確定とその方向法めを行う。ここではグループ内の
各文字領域に対し重なり度を定義し、それを基に文字列
の確定を行う。その後、その文字列VC対する添字、肩
文字や上下分離文字の統合を行う。
+++r+  重なり度 各文字領域に対して次式で定義される横(X)方向、縦
(Y)方向の重なり度p x e P yを計算する(
第8図参照)0 ここでX・、7oは自身の文字領域(Ao)の外接四辺
形の幅である。x j、yIは第8図のように、Aoの
X方向、Y方向の帯領域内に入っている他の文字領域の
幅である。Hx* LX+ H)’、LYは第8図に示
す値である。重なり度PX、 Py rcこれらの係数
を乗じているのは、1つの文字列を形成する文字群の中
で中央付近の文字の重なり度を高くして、文字列抽出を
安定化するためである。重なり°度(PK、 P7 )
のうち、大きい方の方向が各文字領域の向ぎを示す。こ
れらの情報をもとに文字列を抽出する。
(1v)文字列の確定 グループ内の各文字領域に対して、重なり度P x +
 P yを計算し最大の重なり度を与える方向に文字幅
をもつ帝領域を設定し、その中に入る文字領域をすべて
含む外接四辺形が1つの文字列となる。この文字列には
上下に分離した文字の一部や添字・肩文字などが含まれ
ていない可能性がある。
+y+  添字−肩文字、上下分離文字の統合上記で求
めた文字列を文字列方向にある閾値だけ延長し、その中
VC添字・肩文字に相当する文字領域が含まれる場合に
、添字−肩文字を文字列に統合する。また、文字列の垂
直の正方向にある閾値だけ延長した領域を設定し、その
中に含まれる上下分離文字の一部を文字列内に統合する
以上の処理を未処理の文字領域がなくなるまで繰り返し
、グループ内の各文字領域に対して文字列が決定される
〔実施例〕
第1図は、本発明による1実施例の図面自動入力装置の
本発明に関係する部分の夢部ブロック図である。第1図
において、lは文字領域切出し処理部、2はグループ化
処聾部、3は文字列抽出処理部、4は上下分離文字列統
合処理部、5は添字・肩文字統合処即部、6は文字列決
定部である。
第2図はグループ化処理部の動作フロー、第3図は文字
列抽出処理部の動作フロー、@4図は上下分離文字列統
合処理部の動作フロー、第5図は添字・肩文字統合処興
部の動作フローである。
文字領域切出し処理部11Cおいては、ベクトル知 情報を基にした公告の図形要素分離処理によって文字領
域の切出しを行なう。次に、グループ化処理部2では以
下の動作を行なう。
(a)、グループ化されていない未処理文字1文字を選
ぶ。
(bl、その文字領域に対し、その上下左右ニ隣接する
文字領域の閾値以下の距離のものを集め同一グループと
し処理済文字とする。
(C)、同一のグループとなった文字領域に対し閾値以
下の文字領域がなくなるまで1つのグループ化処叩を行
ない、処理済文字とする。
(d)、同一のグループとなった文字領域に対し矩形領
域の重複する外形矩形のものがあれば、同一グループと
し処理済文字とする。
(el、  1つのグループが決定したならば、そのグ
ループ内を他のライン・シフポルが横切る場合はグルー
プ分割を行なう。
(f)、全ての文字がグループ化されたならば処理を終
了し、未処理文字があれば上記動作を繰返す口 次に、文字列抽出処理部3では、以下の動作を行なう。
(g)、ある1つのグループ内のある未確定文字列(未
処理文字列]の文字であって、かつ重なり計測を行なっ
ていない文字を1つ選ぶ。
(bl 、その文字について、上記P x + P )
’にて定義された重なり度計測を行なう〇 (庄未処理文字列の文字の中で未重なり度計測・ のも
のがあればその文字について重なり度計側を行ない、す
べての文字について重なり度計測が終了すれば、次に、
未処理文字列の中で重なり度の最大の文字を選ぶ。
(j)、その文字が与える方向に文″7−幅をもつ帯領
域を設定する。
(ω、その中に入る文字領域をすべて含む外接四辺形を
1つの文字列と決める(文字列の確定)Tl)、 1つ
のグループ内の残りの未確定文字列について再び重なり
度計測および重なり度の最大の文字の選択を行ない、順
次、文字列を確定してゆく。
−11つのグループ内のすべての文字領埴ニついて文字
列が確定したならば、残りのグループの処理に移ってゆ
く。
次に、上下分離文字列統合処理部4では以下の動作を行
なう。
(n)8文字列抽出された文字列(atに対して、正方
向に上下の閾値内に他の文字列tblがあるかどうかを
調べる。
(oJ 、他の文字列(b)があれば、その文字列1b
)は文字列(a)に水平で[#I条住田に適合する文字
領域のみかどうかを調べる。
ここで直線条件(1)は文字列(b)の横方向の幅を。
Yv%縦方向の幅をXwとすると1例として、■、Xw
>Yy*2   ($け乗算)■、Yv<TH(THは
一例として、 TH”1mm) ■、アーク1個 (分岐点なし) ■、ループなし の条件である。
(p)、直線条件(I)に適合すれば、2つの文字列を
統合する。
次に、添字・肩文字統合処叩部5では以下の動作を行な
う。
(q)0文字列抽出された文字列に対して文字列方向に
文字幅をもつ帯領域に延長する〇 (r)、閾値内に文字領域が含まれれば、文字領域を統
合する。
(S)0文字列内に小さな文字領域が含まれていた場合
、その文字領域を同一文字列とする0ただし、ある範囲
の大きさはゴミとみなす0(以下、同様] (t)0文字列の左右方向(縦は上下方向)に文字幅を
もつ帯fDHjilK延長するD lug、閾値内に小さな文字領域が含まれれば文字領域
と結合する。
次に、文字列決定部6rcおいては、文字列処理部3、
上下分離文字列統合処理部4、添字・肩文字統合処理部
5の処理結果にもとづいて最終的に文字列の決定を行な
う。
第9図は文字列抽出結果の1例を示す図であるO (発明の効果〕 本発明によれば、図面内において、縦・横2方向[書か
れた文字列を抽出することが可能となり。
これにより、自動入力可能な図面の種類を大幅に増加で
きるというすぐれた効果をもたらすことかできる口
【図面の簡単な説明】
Ir1図は本発明による1実施例のブロック図、第2図
はグループ化処即部の動作フロー、第3図は文字列抽出
処理部の動作フロー、第4図は上下分離文字列統合処理
部の動作フロ第5図は添字・肩文字統合処坤部の動作フ
ロー、第6図はグループ化を示す図、 第7図はグループの分割を示す図、 @8図は重、なり度を示す図、 第1図におい゛て−42はグループ化処即部、3は′ン
°′ 文字列抽出処理部、4は上下分離文字列統合処理部、5
は添字・肩文字統合処理部である。 2′′ノし一ブ化叉色ψYa6重カイ下フローを2哨 3 N 土丁功櫂■交了グコ干た会友じ甲老予め転住フロー亭 
4 図 オシ径・肩交−多やし会夫生N−Q/)勤1下フロー牛
 5図 ((1’)     (紗 り゛ルー77ごと刀【1囮 亭乙困 −・−7)L、−ブ4して、#、!Q≧、ff−−−−
7−4−7’nJ5七句E(el’J)処317ノL−
7’17)弁J& ガ\11Σζ1′#  7 臣1 (α)原画   (b)粧瓜粒本 文子タ′封白ム爬氷ど小ず図 午9図

Claims (3)

    【特許請求の範囲】
  1. (1)図面内の個々の文字領域を切出す文字領域切出し
    処理部と、 上記文字領域切出し処理部にて切出された各文字領域に
    対し、その上下左右に隣接する文字領域との最短距離を
    求め、当該最短距離が所定の閾値以下のものを1つのグ
    ループにまとめる文字領域グループ化処理部と、 同一グループ内の各文字領域に対して、それぞれ横(X
    )方向の重なり度P_Xおよび縦(Y)方向の重なり度
    P_Yを計算し、いずれかの方向について最大の重なり
    度を有する文字領域を選択し当該文字領域が与える最大
    重なり度方向に存在する文字領域を1つの文字列として
    決定し、以後上記決定した文字列を除外した残りの文字
    領域について再び重なり度の計算、最大の重なり度を有
    する文字領域の選択、文字列決定を繰返し実行する文字
    列抽出処理部とをそなえ、 図面内より文字列を順次抽出するよう構成したことを特
    徴とする文字列抽出方式。
  2. (2)文字領域の外接四辺形のX方向、Y方向の幅をそ
    れぞれX_0、Y_0とし、 当該文字領域を含むX方向の帯領域内に入っている他の
    文字領域のY方向の幅をy_1とし、当該文字領域を含
    むY方向の帯領域内に入っている他の文字領域のX方向
    の幅をx_jとし、当該文字領域を含むX方向の帯領域
    内において、当該文字領域の右辺から当該X方向の帯領
    域の最右辺までの距離をH_X、当該文字領域の左辺か
    ら当該X方向の帯領域の最左辺までの距離をL_Xとし
    、当該文字領域を含むY方向の帯領域内において、当該
    文字領域の上辺から当該Y方向の帯領域の最上辺までの
    距離をH_Y、当該文字領域の下辺から当該Y方向の帯
    領域の最下辺までの距離をL_Yとするとき、上記重な
    り度P_X、P_Yは、▲数式、化学式、表等がありま
    す▼ ▲数式、化学式、表等があります▼ として定義されることを特徴とする特許請求の範囲第(
    1)項に記載の文字列抽出方式。
  3. (3)上記決定された文字列について文字列とは垂直の
    正方向にある閾値だけ延長した領域を設定し、その中に
    含まれる上下分離文字の一部を文字列内に統合する上下
    分離文字列統合処理部と、 上記決定された文字列について文字列方向にある閾値だ
    け延長した領域を設定し、その中に添字・肩文字に相当
    する文字領域が含まれる場合に、当該添字・肩文字を文
    字列内に統合する添字・肩文字統合処理部とを設けたこ
    とを特徴とする特許請求の範囲第(1)項または第(2
    )項に記載の文字列抽出方式。
JP60197322A 1985-09-06 1985-09-06 文字列抽出方式 Granted JPS6257069A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60197322A JPS6257069A (ja) 1985-09-06 1985-09-06 文字列抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60197322A JPS6257069A (ja) 1985-09-06 1985-09-06 文字列抽出方式

Publications (2)

Publication Number Publication Date
JPS6257069A true JPS6257069A (ja) 1987-03-12
JPH0253821B2 JPH0253821B2 (ja) 1990-11-19

Family

ID=16372529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60197322A Granted JPS6257069A (ja) 1985-09-06 1985-09-06 文字列抽出方式

Country Status (1)

Country Link
JP (1) JPS6257069A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02277183A (ja) * 1989-04-18 1990-11-13 Sharp Corp 行抽出方法
JPH0395685A (ja) * 1989-09-07 1991-04-22 Fujitsu Ltd 検索システム
JPH0573718A (ja) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd 領域属性識別方式
JP2015505113A (ja) * 2012-01-23 2015-02-16 マイクロソフト コーポレーション 式検出エンジン
US10127221B2 (en) 2013-03-11 2018-11-13 Microsoft Technology Licensing, Llc Detection and reconstruction of East Asian layout features in a fixed format document

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02277183A (ja) * 1989-04-18 1990-11-13 Sharp Corp 行抽出方法
JPH0395685A (ja) * 1989-09-07 1991-04-22 Fujitsu Ltd 検索システム
JPH0573718A (ja) * 1991-09-13 1993-03-26 Matsushita Electric Ind Co Ltd 領域属性識別方式
JP2015505113A (ja) * 2012-01-23 2015-02-16 マイクロソフト コーポレーション 式検出エンジン
US9928225B2 (en) 2012-01-23 2018-03-27 Microsoft Technology Licensing, Llc Formula detection engine
US10127221B2 (en) 2013-03-11 2018-11-13 Microsoft Technology Licensing, Llc Detection and reconstruction of East Asian layout features in a fixed format document

Also Published As

Publication number Publication date
JPH0253821B2 (ja) 1990-11-19

Similar Documents

Publication Publication Date Title
Nagao et al. Region extraction and shape analysis in aerial photographs
CN106960195A (zh) 一种基于深度学习的人群计数方法及装置
CN110598017B (zh) 一种基于自学习的商品详情页的生成方法
JPH06139404A (ja) 表認識装置
CN105261021A (zh) 去除前景检测结果阴影的方法及装置
CN109886159A (zh) 一种非限定条件下的人脸检测方法
CN109583442A (zh) 基于线段检测的虚假车牌检测方法及装置
CN113221750A (zh) 车辆追踪方法、装置、设备及存储介质
CN115841649A (zh) 一种用于城市复杂场景的多尺度人数统计方法
CN109993089A (zh) 一种基于深度学习的视频目标去除及背景恢复方法
CN111144300B (zh) 一种基于图像识别的pdf表格结构识别方法
CN112669343A (zh) 一种基于深度学习的壮族少数民族服饰分割方法
JPS6257069A (ja) 文字列抽出方式
CN110378929A (zh) 一种商业场所跨摄像头行人轨迹跟踪方法
JP4450888B2 (ja) 帳票認識方法
JP2926066B2 (ja) 表認識装置
CN110390283B (zh) 一种商业场景下跨摄像头行人重检索方法
Babayan et al. Detection of curved lines and estimation of their parameters on images
CN113935485B (zh) 一种基于相邻层权重的卷积神经网络裁剪方法
JPS6334682A (ja) 文字認識装置
Treboux et al. Improved and generalized vine line detection on aerial images using asymmetrical neural networks and ml subclassifiers
CN110427929B (zh) 一种基于多级元素融合的app界面模式识别方法
CN107169509A (zh) 一种面向复杂模式分类的特征选择方法
Fan et al. KRUS: A knowledge-based road scene understanding system
CN106651878B (zh) 一种用于从局部不变特征点中提取直线的方法