JPS61269778A - 文字行抽出装置 - Google Patents

文字行抽出装置

Info

Publication number
JPS61269778A
JPS61269778A JP60110286A JP11028685A JPS61269778A JP S61269778 A JPS61269778 A JP S61269778A JP 60110286 A JP60110286 A JP 60110286A JP 11028685 A JP11028685 A JP 11028685A JP S61269778 A JPS61269778 A JP S61269778A
Authority
JP
Japan
Prior art keywords
character line
ruby
line
partial
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP60110286A
Other languages
English (en)
Other versions
JPH0433075B2 (ja
Inventor
Yoshifumi Tsuji
辻 善丈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP60110286A priority Critical patent/JPS61269778A/ja
Publication of JPS61269778A publication Critical patent/JPS61269778A/ja
Publication of JPH0433075B2 publication Critical patent/JPH0433075B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、文字行抽出装置に係わり、特にルビ付き文字
を含む文字行から所望の文字行を抽出する装置に関する
ものである。
(従来技術とその問題点) 文庫本等の書籍などに印字された一般的な日本語文章に
は、ところどころの文字にふりがなや傍点(以下、ルビ
と呼ぶ)が付されていることがある。
このようにルビが付された文字を文字認識技術を用いて
読み取る場合、このルビは誤読又はリジェクトの原因と
なる。このため、文字又は文字行とルビとを分離する必
要が生じる。このようなルビと文字を分離する装置とし
て、例えば、特公昭58−8024号公報(特願昭53
−127855号)に開示されているように、1行分の
文章のうち、ルビが示されていない側の端部から所定幅
の範囲の射影情報の空白部を基にして分離する方法があ
るが、所定幅を印字された文字の大きさによって予め定
めて置く必要が生じる。しかし、例えば、書籍等の比較
的大きな文字である章題と前記章題に比べ小さな本文文
字行のように、大きさの異なる文字が混在する場合のル
ビについては予め文字の大きさを固定的に定めることが
できない。さらには、画像入力装置の分解能などが原因
して、文字行とルビとが互いに接触する場合などには、
ルビを分離することが困難となる。
(発明の目的) 本発明は、上記従来の欠点を解決するために為されたも
のであり、文字行内の文字の並び方向に射影し、黒画素
数の分布を算出した場合、その分布の平均位置は、ルビ
の存在に影響されにくいのに対して、文字行の幅は、ル
ビによって変化するという性質に着目することによって
、上記従来の欠点を解決したルビ分離装置を有する文字
行抽出装置を提供することにある。
(発明の構成) 本発明によれば、光学的に走査量子化された文章画像か
ら抽出された文字行において、文字行を重畳領域を有す
る複数個の部分領域に分け、文字並び方向に走査して射
影分布を検出する手段と、複数個の部分領域の両端位置
及び平均位置を射影分布に促って、検出する手段と、射
影分布上の黒画素数が一定値以下となる複数個の候補区
間を検出する手段と、該平均値及び両端位置を基にして
、複数個の候補区間から部分文字行とルビ領域との境界
区間を算出する手段と、複数個の境界区間から文字行と
ルビ行との境界領域を算出し、境界領域内で、文字行の
並び方向に得られる射影分布上の黒画素数が最小となる
位置として検出する手段と、ルビ分離位置に従って、所
望の文字行を抽出することを特徴とする文字行抽出装置
を提供することにある。
(実施例) 以下、本発明について図面を参照しながら説明する。第
1図(d)〜(g)は、−例として本発明におけるルビ
付き文字を含む文字行から所望の文字行を抽出する方法
を説明するための図である。同図、(a)。
(b)、 (c)、 (fC,(g)はルビを含む文字
行の一部を示したものであり、同図(d)、 (e)は
ルビを含まない文字行の一部である。また、同図(a)
は、ルビの一部と所望の文字とに接触が生じている状態
を表わしている。
尚、同図(a)及び同図(d)に示したような文字行の
抽出は、従来の公知の技術を用いて行うことができる。
また、同図(b)、 (e)、 (f)、 (g)文字
行内の文字の並び方向に走査することによって得られる
黒画素数の分布、即ち射影分布を示している。同図(a
)及び図(d)における記号R1,R2は、例えば文字
行の幅情報を基にして設定した所定の大きさを用いて、
文字行を重畳領域を持つ複数個に分割した際に得られる
部分領域を示している。そこで、同図(a)に示す部分
領域R1に対して同図(b)、R2に対して同図(C)
、同図(d)に示すR1に対して同図(e)に示すよう
な射影分布を抽出することができる。同図(b)、 (
c)、 Ce)、 (f)の射影分布に記された記号B
x(1)、 B2(Q)、 BiC幻は、それぞれの射
影分布に対して得られる左端位置を示し、同様に記号B
1(U)、 B2(切、Bi(U)は、右端位置を示し
ている。更に、記号¥IL l12. 垣は、それぞれ
の射影分布における平均位置を示している。そこで、同
図(a)及び同図(d)に示した部分領域R1において
、左端及び右端位置11h(1)、 Bt(U)平均値
P1との距離痔及びDuを式珈=μm−Bx(1)、D
tr=B1(U)−ptを用いて算出した場合、ルビを
含まない同図(d)の場合には、距離DtとDUはほぼ
等しいと見なせる一方、ルビを含む同図(a)の場合に
は、距離Duは距KID、よりも大きくなる。これは、
同図(a)における平均値111が、ルビを含むか否か
に影響を受けにくいためである。そこで、ルビ付と所望
の文字行との境界付近を例えば、同図(b)で示した位
置S1=¥11+Dρより求めることができる。尚、同
図(d)において、同図(a)で示したようなルビ付と
所望の文字行との境界付近を同図(d)で示す平均値p
1と上述した距離DJlを用いて算出すると、上述した
境界は、文字行の右端を含むことになり、ルビが存在し
ないことが容易に判明する。
次に同図(Oに示した第7番目(i=1.2,3.・・
・)の部分領域に対し、検出された射影分布を用いて、
ルビ行と所望の文字行との境界領域を検出する方法につ
いて説明する。最初に、図中点線に示すように、射影分
布上の黒画素数が所定のスライスレベルTs以下となる
区間a、 b、 cを検出する。次に、上述した平均値
μm及び距離DLを用いて上述した位置81(=μt+
DfL)を算出し、位置S1から所定許容幅を有する境
界候補区間を設定した場合、前述した区間a。
b、cと境界候補区間との論理積で示される領域を第i
番領域Riにおける境界区間として求めることができる
。例えば、同図(0の場合には、区間すより得られ、図
中LiとUiで示す区間が境界区間として求まる。尚図
中、Liは境界区間の左端位置を表わし、Uiは境界区
間の右端位置を表わしている。また、上述した平均値声
を基にして射影分布を算出する吉凶は、上述した所定の
スライスレベルTsを用いる方法に限定されるものでは
ない。
このようにして求められた複数個の部分領域にxfして
検出された境界区間の左端位置Li及び右端位tiUi
(i=1.2.・・・)から、同図(g)で示したよう
な文字行全体に対する境界区間の左端位置り及びUを容
易に算出することができる。最後に文字行全体に対する
射影分布に対して、境界区間の左端位置りから右端位置
Uまでのうち同図(g)の点線矢印で示すように、射影
分布上の黒画素数が最も少ない位置をルビ行と文字行と
の分離位置として求めることができる。尚、前述した分
離位置の算出時に用いる射影分布を文字行全体に対して
再度、検出しても良いし、処理速度の向上を目的として
、部分領域の射影分布を累積することによって代用して
も良い。第2図は、本発明の具体的実施例を示した論理
ブロック図である。図において、1は画像メモリであり
、画像メモリ1には、書籍や帳票などの文書画像が、光
学的に走査量子化され画像情報として記憶される。2は
、文字行検出部であり、画像メモリ1に記憶された画像
情報から文字行を順次検出し、行情報記憶部3へ、該文
字行の位置や大きさなどの領域情報を格納する。尚、上
述した文書画像を入力し、画像メモリ1に記憶する画像
入力装置や画像メモリ1に記憶された画像情報から文字
行を順次抽出する文字行検出部2は、公知の技術を用い
ることにより実現できる。部分領域算出部4は、行情報
記憶部3に格納された文字行を、第1図(a)で示した
ように、n個(n≧1)の部分領域Ri(i=1−、2
.=・n)に分け、順次文字の並び方向(例えば、第1
図(a)では垂直方向)及び部分領域Riの位置、大き
さの各情報を射影分布抽出部5に転送した後、射影分布
抽出部5によって得られる部分領域Riに対する射影分
布を順次部分射影記憶部6に格納する。射影分布抽出部
5は、設定された領域に対する設定された方向の射影分
布を画像メモリ1を走査読出しすることによって抽出す
る。平均位置算出部7は、部分射影記憶部6より順次転
送される射影分布から第1図に説明した平均位置声を算
出する。候補区間検出部8は、部分射影記憶部6より順
次転送される射影分布を第1図に説明したように、射影
分布上の黒画素数が所定のスライスレベルTs以下とな
る複数個の区間を求める。境界区間算出部9は、部分領
域におけるルビ行と所望の文字行との境界区間Li、 
Uiを、第1図で説明したように、平均位置算出部7の
出力である平均位置pi及び候補区間検出部8の出力で
ある複数個の区間a、 b、 c及び該部分領域の左端
位置B1C1)と右端位置Bi(U)を基にして算出す
る。尚、前述した部分領域の左端位置と右端位置は、部
分領域算出部4へ該射影分布を射影分布抽出部5がち転
送された際に、部分領域算出部4において検出され、境
界区間算出#9へ転送されるとする。次に、境界区間算
出部9から順次出力される部分領域Ri(i=1.2.
・・・n)の境界区間(第1図(0で示したように、境
界区間の左端位置をLi、右端位置をUiで示す)がそ
れぞれ、最小値算出部10及び最大値算出部12へ転送
される。即ち、境界区間の左端位置Liが、最小値算出
部1oへ、境界区間の右端位置Ui値が最大算出部12
へ転送される。11は、左端記憶部であり、ルビと所望
の文字行との境界区間の左端位置りを記憶する。尚、左
端記憶部11は、初期値として、非常に大きな値がセッ
トされる。13は、右端記憶部であり、ルビと所望の文
字行との境界区間の右端位置Uを記憶する。尚、右端記
憶部13は、初期値として0がセットされる。最小値算
出部10において、境界区間算出部9より順次出力され
る部分領域Ri(i=1.2.・・・n)の境界区間の
左端位置Liと左端記憶部11に格納された内容とを比
較し、境界区間算出部9の出力値である左端位置Liが
左端記憶部11の内容より小さければ、該左端位置Li
を左端記憶部11へ転送し、左端記憶部11の内容が更
新される。最大値算出部12において、境界区間算出部
9より順次出力される部分領域Ri(i=1.2.・・
・n)の境界区間の右端位置Uiと右端記憶部13に格
納された内容とを比較し、境界区間算出部9の出力値で
ある右端位置Uiが右端記憶部13の内容より大きけれ
ば、該右端位置Uiを右端記憶部13へ転送し、右端記
憶部13の内容が更新される。上記動作をn個の部分領
域R7(i=1.2.・・−n)について行うことによ
って、ルビと所望の文字行との境−゛び右端記憶部13
の内容である左端位置り及び右端位置Uと、該左端位置
し及び右端位置Uの算出対象となる文字行の領域情報を
行情報記憶部3から取り込み、該領域情報と文字行の文
字並び方向とを射影分布抽出部5へ転送し、射影分布抽
出部5より得られる該文字行の文字の並び方向の射影分
布とを用いて、ルビと所望の文字行とを分離する位置(
以下、ルビ分離位置)を算出する。即ち、左端位置りか
ら右端位置Uで示される境界区間において、文字行全体
における射影分布上の黒画素が最小となる位置をルビ分
離位置として算出される。尚、前述した説明では、文字
行全体における射影分布を抽出に、部分射影記憶部6に
記憶される部分領域Ri(i=1゜2、・・−n)の射
影分布を累積した射影分布を算出し、前述した文字行全
体の射影分布の代用として用いることもできる。ルビ分
離位置判定部14により得られたルビ分離位置及び行情
報記憶部3に格納された文字行の領域情報に基づいて、
画像メモリ1から該文字行に適用される。尚、行情報記
憶部3に記憶された文字行のうち、ルビを含まない文字
行の場合には、前述した文字行に対する複数個の部分領
域に対して、すべてルビと所望の文字行との境界区間が
検出されないか、または、検出された境界区間の右端位
置Uに、文字行全体の右端位置が含まれるようになるた
め、ルビを含まない文字行に対して適用しても安定に所
望の文字行を抽出することができる。
(発明の効果) 以上、説明したように、本発明のルビ付き文字を含む文
字行抽出装置によれば、予め文字の大きさを固定的に定
めることが困難な場合や所望の文字行とルビとが互いに
接触する場合にも安定にルビ付と文字行とを分離するこ
とが可能となる。
【図面の簡単な説明】
第1図(a)〜(g)は、−例として本発明のルビ付き
文字を含む文字行から所望の文字行を抽出する方法を説
明する図である。第2図は本発明の具体的実施例を示す
論理ブロック図である。図において、1は部、11は左
端記憶部、12は最大算出部、13は右端記憶部、14
はルビ分離位置判定部である。 特許出願人工業技’I’ニー″′1i1’;(二長等々
力達 半  1  図 (a)

Claims (1)

    【特許請求の範囲】
  1. ルビが付加された文字行からルビを分離し、所望の文字
    行を抽出する装置において、光学的に走査量子化された
    文章画像情報から文字行を抽出する手段と、前記文字行
    を重畳領域を有する複数個の部分領域に分割し、前記部
    分領域の射影分布を前記文字行内の文字の並び方向に抽
    出する手段と、複数個の前記部分領域の両端位置及び平
    均位置を、前記射影分布に従って検出する手段と、前記
    射影分布上の黒画素数が一定値以下となる複数個の候補
    区間を検出する手段と、前記両端位置及び平均位置を基
    にして、前記複数個の候補区間から部分文字行とルビ領
    域との境界区間を算出する手段と、複数個の前記部分領
    域の境界区間から文字行とルビ行との境界領域を算出し
    、前記境界領域内で、前記文字行内の文字の並び方向に
    得られる射影分布上の黒画素数が最小となるルビ分離位
    置を検出する手段と、前記ルビ分離位置に従って、所望
    の文字行を抽出することを特徴とする文字行抽出装置。
JP60110286A 1985-05-24 1985-05-24 文字行抽出装置 Granted JPS61269778A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60110286A JPS61269778A (ja) 1985-05-24 1985-05-24 文字行抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60110286A JPS61269778A (ja) 1985-05-24 1985-05-24 文字行抽出装置

Publications (2)

Publication Number Publication Date
JPS61269778A true JPS61269778A (ja) 1986-11-29
JPH0433075B2 JPH0433075B2 (ja) 1992-06-02

Family

ID=14531843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60110286A Granted JPS61269778A (ja) 1985-05-24 1985-05-24 文字行抽出装置

Country Status (1)

Country Link
JP (1) JPS61269778A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01196685A (ja) * 1988-02-01 1989-08-08 Fuji Electric Co Ltd 文字検出方法
JPH0231286A (ja) * 1988-07-21 1990-02-01 Fuji Electric Co Ltd 特殊文字行の判別方法
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01196685A (ja) * 1988-02-01 1989-08-08 Fuji Electric Co Ltd 文字検出方法
JPH0231286A (ja) * 1988-07-21 1990-02-01 Fuji Electric Co Ltd 特殊文字行の判別方法
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法

Also Published As

Publication number Publication date
JPH0433075B2 (ja) 1992-06-02

Similar Documents

Publication Publication Date Title
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
EP0621553A2 (en) Methods and apparatus for inferring orientation of lines of text
US20180330181A1 (en) Method for line and word segmentation for handwritten text images
EP3885962A1 (en) Method and system for extraction of key-terms and synonyms for the key-terms
WO2011112573A2 (en) Paragraph recognition in an optical character recognition (ocr) process
US20190005325A1 (en) Identification of emphasized text in electronic documents
JPH04195692A (ja) 文書読取装置
JPS61269778A (ja) 文字行抽出装置
Kumar et al. Line based robust script identification for indianlanguages
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
Gupta et al. C2vnet: A deep learning framework towards comic strip to audio-visual scene synthesis
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
Gayashan et al. Old Sinhala newspaper article segmentation for content recognition using image processing
KR100277831B1 (ko) 문서 영상에서의 표 분석방법
Panichkriangkrai et al. Character segmentation for Japanese woodblock printed historical books
CN114222193B (zh) 一种视频字幕时间对齐模型训练方法及系统
CN118262359A (en) Method for improving OCR recognition speed
JP3187182B2 (ja) 光学的手書き文字列認識方法および装置
JPS61190679A (ja) 文字デ−タ処理装置
JPH04130979A (ja) 文字画像切出し方法
KR930014166A (ko) 문서인식장치의 개별문자 절출방법
JP3060237B2 (ja) 日本語文字認識装置
JP3124854B2 (ja) 文字列方向検出装置
LengIeng Khmer Optical Character Recognition (OCR)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term