JPS61160180A - 文字列方向判別装置 - Google Patents

文字列方向判別装置

Info

Publication number
JPS61160180A
JPS61160180A JP60001199A JP119985A JPS61160180A JP S61160180 A JPS61160180 A JP S61160180A JP 60001199 A JP60001199 A JP 60001199A JP 119985 A JP119985 A JP 119985A JP S61160180 A JPS61160180 A JP S61160180A
Authority
JP
Japan
Prior art keywords
character string
document
horizontal
vertical
peripheral distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60001199A
Other languages
English (en)
Inventor
Teruo Akiyama
秋山 照雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP60001199A priority Critical patent/JPS61160180A/ja
Publication of JPS61160180A publication Critical patent/JPS61160180A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)発明の属する分野の説明 本発明は1文字列方向判別装置、特にたとえば任意の文
書などを扱うことの出来る光学的文字読取装置(OCR
)の前処理部において、入力された例えば文書が大きく
傾いていても当該文書が縦書きか横書きかを判別するこ
との出来る文字列方向判別装置に関するものである。
(2)従来の技術の説明 従来のOCRは書式が既知の紙面上の文字を読取を対象
としているため文書が縦書きであるか横書きであるかを
判別する必要はなかった。しかし日本語文書など、縦書
き、横書き両方の可能性がある古式や未知の任意の文書
を連続的に処理するOCRの実現にあたっては、まず、
入力された文書の方向を判別する必要があるが、従来特
に文書が傾いて入力された場合など、その文書の方向を
決定する従来技術がなかった。
(3)発明の目的 本発明は、この問題を解決するために、投影して得られ
る周辺分布は投影の方向と文字列の方向が一致した時に
その値の変化が最大になることを利用して2例えば文書
の1つ以上の領域の各々について複数方向から投影して
得られる周辺分布の値の変化を比較することにより、た
とえ上記文書が傾いて入力されてもそれが縦書きか横書
きかを判別出来るようにしており、以下図面に従って詳
細に説明する。
(4)発明の構成および作用の説明 第4図は文字列方向判別を行うための原理図である。第
4図(A)は時計方向に傾いて入力された文書を示して
おり2図中、aは見出し、bは文字列の一つ、またCは
罫線等の直線を示している。
第4図(B)、  (C)は第4図(A)を1aないし
9aの小領域に分割し2各々の領域を水平及び垂直方向
に走査し、濃度を累積することによって得られる周辺分
布PH及びPVを示している。第1図(A)の領域1a
における水平方向の周辺分布を1b、垂直方向の周辺分
布を10に示す。他の領域2aないし9aについても同
様である。人力画像が2値でも多値でも同様の処理が出
来ることは明らかである。なお文書が2値の場合は周辺
分布の値は走査線上の黒画素数と一致する。第4図(A
)に示す様な縦書き文書の場合には、  laないし9
aの各領域における周辺分布の変化は水平方向の投影に
よるもの(第4図(b)、Ibないし9b)によるもの
よりも垂直方向の投影によるもの(第4図(c)、lc
ないし9c)の方が大きい。また2人力文書が横書きの
場合には逆の現象が生じるので文書文字列方向の判別に
この性質を用いることが出来る。濃度累積値の変化の大
きさを評価するための具体的な方法としては1例えば周
辺分布の値の分散を用いればよい。入力画像Gの各画素
の濃度をG(i、j)とした時、領域k (k=1a、
2a、−,9a)における水平方向と垂直方向との周辺
分布PHk、PVkは式%式% で求められる。さらに文書が縦書きか横書きかを判断す
るための具体的方法として例えばPHkとPVk(7)
分散V(PH*)とv(pvt、)を比較し3 V  (P Hw )  >v  (P V* )とな
り横書きの属性をもつ領域の数NhとV (PHm )
 <V (PVh )となり縦書きの属性をもつ領域の
数Nvとを計数、比較し。
N)、>Nv の時には文書は横書き、また NhくNv の時には文書は縦書きと判断すればよい。画像データを
小領域に分割する際の小領域の大きさ。
形状は入力文書がとりうる傾きの範囲1文字列の間隔を
もとに決定すればよい。原理的には周辺分布上に文字列
の存在が投影できる範囲で各領域の大きさを設定すれば
よい。領域の大きさが大きくなると文書の方向を判別出
来る傾きの大きさの許容範囲が狭くなるため1文字列が
2ないし3行含まれる程度の大きさに領域を設定すると
効果的である。また2画像を複数の領域に分割する際、
各領域がもとの文書の全域をカバーする必要はない。
さらに、投影を行う方向については水平方向と垂直方向
によるものが一番効果的であり、また各小領域は同じ大
きさとし、各小領域が重ならない様に設定すると効率が
良い。
第3図は本発明の一実施例のブロック図を示したもので
ある。光電変換部10ではファクシミリ。
ドラムスキャナ等2既存の入力装置を用いて光電変換を
行った上でA/D変換によって画像の2値又はそれ以上
の量子化を行い信号線11を用いて量子化画像データを
出力する。画像データ記憶部12は該光電変換部から送
られてくる量子化画像データを記憶する。周辺分布作成
部13は信号線14を用いて該画像データ記憶部12に
蓄積された一つ又は複数個の領域の量子化画像データを
読み込み水平方向と垂直方向の周辺分布PH,P■を求
め信号′a15を用いて結果を出力する。第2図は周辺
分布作成部の動作について説明したものである。周辺分
布作成部13は領域指定部16に信号線17を用いて入
力された。或いは予めプリセットされた領域指定情報に
従い、信号vA18を用いて画像データ記憶部12から
画像データを読み込み画像データ用バッファメモリ19
に信号線18′を用いて読み込む。バッファメモリ19
内に示した矩形c、d、eは画像データの各画素を示し
ており、量子化された濃度値が格納されている。さらに
バッファメモリ19に格納された画素濃度の水平方向2
0の濃度累積値と垂直方向21の濃度累積値とを各行、
各列ごとに求め、結果を水平方向周辺分布格納用PHレ
ジタス22と垂直方向周辺分布格納用PVレジタス23
とに格納し9両レジスタの内容を信号vA24.25を
用いて文字列方向判別部に出力する。領域指定部16に
領域が複数個指定されている場合には文字列方向判別部
28から信号線26を用いて一つの領域に対する分散を
計算する処理の終了信号を受けとり1次の領域の周辺分
布を求める処理を開始する。
また領域指定部16に格納された各領域について全ての
処理が終了した時点で信号線27を用い終了信号を文字
列方向判別部に出力する。
なお周辺分布作成部13の構成としてバッファメモリ1
9を持たずに領域指定部16に格納された領域指定情報
に基づき画像データ記憶部12に格納された画像データ
の画素ごとのアクセスを行い、同様の結果を得ることが
できることは明らかである。第3図の文字列方向判別部
28では該周辺分布作成部13から信号線15を用いて
入力された1つ又は複数個の各々の領域の水平方向周辺
分布PHと垂直方向周辺分布pvの分散V(PH)、V
(PV)を求めその大小関係により該周辺分布作成部で
周辺分布を求めた各々の領域が横書きの属性を持つか縦
書きの属性を持つかを判定し。
横書きの属性を持つ領域の数が縦書きの属性を持つ領域
の数より多ければ1文書は横書き、その逆であれば文書
は縦書きとし、結果を信号線29を用いて判定結果を出
力する。第1図は文字列方向判別部の動作について説明
したものである。文字列方向判別部28では信号線30
を用いて水平方向周辺分布PHを、また信号線31を用
いて垂直方向周辺分布pvを読み込み、各々の周辺分布
の分散を分散計算回路32.33を用いて求める。
信号線34を用いて出力される水平方向周辺分布PHの
分散V (PH)と、信号線35を用いて出力される垂
直方向周辺分布PVの分散V (PV)を比較回路36
を用いて比較し、信号線34を用いて入力されたV (
PH)の値が信号vA35を用いて入力されたV (P
V)の値よりも大きい場合には周辺分布を求めた領域が
横方向の属性を持つものとし、信号線37を用いてカウ
ンタ38の値を1増加させる。また逆に信号線35を用
いて入力されたV (PV)の値が信号線34を用いて
入力されたV (PH)の値よりも大きい場合は周辺分
布を求めた領域は縦方向の属性を持つものとし。
信号線39を用いてカウンタ40の値を1増加させる。
V (PH)、V (PV)両者の値が等しい時にはど
ちらのカウンタの値も増加させない。縦方向か横方向か
の属性判定を行った後、信号線41を用いて周辺分布作
成部に別の領域の周辺分布を求めるための起動信号を送
る。両カウンタ38゜40は処理の一番最初の段階で初
期化をしておく。
比較回路42が周辺分布作成部から信号線43を経由し
て全領域に対する処理終了信号を受は取った場合には比
較回路42は信号線44.45を用いて両カウンタ38
.40の内容を読み込み値を比較する。カウンタ38の
内容がカウンタ40の内容よりも大きければ文書は「横
書き」、逆の場合は「縦書き」、内容が等しい場合には
「不明」と判断した上で結果を信号vA46を用いて出
力する。
なお周辺分布を求めて横書きの属性を持つか縦書きの属
性を持つかを判定する領域は文書画像の全体にわたる必
要はなく通常本文が多く含まれる文書の中央部分のみを
処理の対象とすることによって計算量を少なくすること
が出来ることは明らかである。また本装置の周辺分布作
成部13における処理は各領域ごと同一のためマルチブ
ロセノサによる処理の高速化が容易である。
本装置によって文書が横書きか縦書きかを判別した後2
例えば特願昭55−143238号や56−17104
2号に示した装置により傾きを補正し、さらに例えば特
願昭55−126845号で示した二次元文字領域抽出
装置により文字列を抽出し、特願昭58−124173
号で示した個別文字切出し装置によって個々の文字を切
出すことにより、これまで扱うことの出来なかった書式
未知の文書を、しかも連続してOCRで扱うことが可能
となる。
(5)効果の説明 以上説明した様に2本発明によれば1画像中の領域を投
影して得られる周辺分布が投影方向と文字列方向が一致
した時にその値の変化が最大になることを利用し2画像
の1つ以上の領域を投影して得られる周辺分布をもとに
例えば文書が縦書きか横書きかを判定することにより、
たとえ文書が傾いて入力されてもその文書の文字列方向
を判別することが出来る。
また本発明は印刷物だけでなく手書き文書に対しても全
く同様に適用出来ることは明らかである。
また9本発明は2値の文書でけでなく多値の濃度値を持
つ文書に対してもそのまま適用できることは言うまでも
ない。
【図面の簡単な説明】
第1図は本発明の要部構成である文字列方向判別部の一
実施例ブロック図、第2図は同じく周辺分布作成部の一
実施例ブロック図、第3図は本発明の一実施例全体図、
第4図は本発明の詳細な説明する説明図を示す。 図中、aは見出し、bは本文文字列の一つ、Cは罫線等
の直線図形、laないし9aは文字方向を判別するため
に分割された小領域、10は光電変換部、12は画像デ
ータ記憶部、13は周辺分布作成部、28は文字列方向
判別部、29は文書が縦書きであるか横書きであるかの
結果を出力する信号線、16は周辺分布を求める領域を
指定するための情報を格納する領域指定部、19はバッ
ファメモリ、22.23はバッファメモリ内を水平方向
20及び垂直方向21に走査して画素濃度を累積して得
られる周辺分布を格納するPHレジタスとPVレジタス
、32.33は分散を求める分散計算回路、36は比較
回路、38.40はカウンタ、42は比較回路を表す。

Claims (1)

    【特許請求の範囲】
  1. 光電変換装置によって蓄積された画像データの文字列の
    方向を判別する文字列方向判別装置に於いて、文字を光
    電変換した上でアナログ/ディジタル変換を行い量子化
    信号を出力する光電変換部と、該光電変換部から出力さ
    れた量子化信号を画像データとして蓄積する画像データ
    記憶部と、該画像データ記憶部に蓄積された画像内の一
    つ以上の領域について複数方向からの投影を行い、濃度
    を累積して得られる周辺分布を求めて記憶する周辺分布
    作成部と、該周辺分布作成部において作成され記憶され
    ている周辺分布の値の変化は投影方向と文字列方向が一
    致した時に最大になることを利用して縦書きか横書きか
    を判定する文字方向判定部とを有することを特徴とする
    文字列方向判別装置。
JP60001199A 1985-01-08 1985-01-08 文字列方向判別装置 Pending JPS61160180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60001199A JPS61160180A (ja) 1985-01-08 1985-01-08 文字列方向判別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60001199A JPS61160180A (ja) 1985-01-08 1985-01-08 文字列方向判別装置

Publications (1)

Publication Number Publication Date
JPS61160180A true JPS61160180A (ja) 1986-07-19

Family

ID=11494789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60001199A Pending JPS61160180A (ja) 1985-01-08 1985-01-08 文字列方向判別装置

Country Status (1)

Country Link
JP (1) JPS61160180A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6436383A (en) * 1987-07-31 1989-02-07 Toshiba Corp Character reader
US5982952A (en) * 1995-09-28 1999-11-09 Nec Corporation Optical character reader with tangent detection for detecting tilt of image data
EP1033864A2 (en) * 1999-03-01 2000-09-06 Riso Kagaku Corporation Document-inclination detector

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55135972A (en) * 1979-04-10 1980-10-23 Toshiba Corp Character line direction discrimination circuit

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55135972A (en) * 1979-04-10 1980-10-23 Toshiba Corp Character line direction discrimination circuit

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6436383A (en) * 1987-07-31 1989-02-07 Toshiba Corp Character reader
US5982952A (en) * 1995-09-28 1999-11-09 Nec Corporation Optical character reader with tangent detection for detecting tilt of image data
EP1033864A2 (en) * 1999-03-01 2000-09-06 Riso Kagaku Corporation Document-inclination detector
EP1033864A3 (en) * 1999-03-01 2001-07-25 Riso Kagaku Corporation Document-inclination detector
US6683983B1 (en) * 1999-03-01 2004-01-27 Riso Kagaku Corporation Document-inclination detector

Similar Documents

Publication Publication Date Title
US5471549A (en) Method of detecting and correcting a direction of image data and document image filing system employing the same
US7170647B2 (en) Document processing apparatus and method
US20050271275A1 (en) Text character identification system and method thereof
JPS63158678A (ja) 単語間スペ−ス検出方法
JPH04296163A (ja) 画像情報の絵/文字自動分離装置及びその方式
US7151859B2 (en) Method and system for correcting direction or orientation of document image
JPS61160180A (ja) 文字列方向判別装置
JPS61225974A (ja) 画像処理方式
JPS6325391B2 (ja)
JPS62121589A (ja) 文字切出し方法
JPS62119690A (ja) 文書画像領域分割装置
JP2590099B2 (ja) 文字読取方式
JP2877548B2 (ja) 文書画像の属性判別方法
JPS63101983A (ja) 文字列抽出方式
JPS61196381A (ja) 文字切出し方式
JP3142950B2 (ja) 線分認識方式
JPS59226978A (ja) スキユ−補正方式
JPH04276888A (ja) 文字読取装置
JP2843638B2 (ja) 文字画像整列方法
JP2002262074A (ja) 画像処理装置、画像処理方法、該方法を実行するプログラムおよび該プログラムを記録した記録媒体
JPH02199959A (ja) 画像情報読み取り装置
TW384602B (en) Automatic correction method and apparatus for slant scanning light tracking in an optical scanner
JPH0485686A (ja) 特徴抽出方式
JP2005208979A (ja) 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置
JPS5831028B2 (ja) 文字認識装置