JPS6154569A - 文書画像処理方式 - Google Patents

文書画像処理方式

Info

Publication number
JPS6154569A
JPS6154569A JP59174924A JP17492484A JPS6154569A JP S6154569 A JPS6154569 A JP S6154569A JP 59174924 A JP59174924 A JP 59174924A JP 17492484 A JP17492484 A JP 17492484A JP S6154569 A JPS6154569 A JP S6154569A
Authority
JP
Japan
Prior art keywords
document
image processing
grammar
line
japanese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59174924A
Other languages
English (en)
Other versions
JP2559356B2 (ja
Inventor
Yasuaki Nakano
中野 康明
Hiromichi Fujisawa
藤沢 浩道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59174924A priority Critical patent/JP2559356B2/ja
Priority to EP85110533A priority patent/EP0175928A3/en
Publication of JPS6154569A publication Critical patent/JPS6154569A/ja
Priority to US07/253,445 priority patent/US4907285A/en
Application granted granted Critical
Publication of JP2559356B2 publication Critical patent/JP2559356B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • G06V30/1983Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06V30/1985Syntactic analysis, e.g. using a grammatical approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は文書画(i(ξの処理方式に係り、特に電子的
文書ファイル装置の入力部として好適な文書画像処理方
式に関する。
〔発明の背景〕
従来の電子的文書ファイル装置は単に文書の各ページを
画像として格納するのみであり、検索のための二次情報
は別に符号入力手段(たとえばキ−ボード)から外部か
ら与えてやる必要があった。
しかし、ファイル入力作業の省力化のためには文書中に
記載されている表題や著者などを自動的に読み取って二
次情報を生成することが望ましい。
さらに検索を高度化するためには図表のキャプションや
章・節表題の自動入力あるいは本文自体のL’l Rに
よる自動キーワード抽出などが必要となる。
また対象文書の画像を表題・著者・要約・本文・図・写
真などの部分に分割すること、さらに文字の部分は認識
して符号化することは、記憶スペースの削減や検索単位
の多様化のためにも要請されていた。
従来からこのような問題点に対処するため文書の内容を
理解し、その理解結果に基づいて文書の処理を行う方式
が研究されており、たとえば野口要治、豊田順−両氏に
よる[新聞記事の切り抜きを行うシステムに関する基礎
的研究」 (情報処理学会第23@全国大会詔演論文4
1S 6 C−1、昭和56年)に記載しである。しか
し、この文書理解技術は新聞を対象としたものであるた
め任意の書式の文書にたいして適用できるかどうかは明
らかでない。また文字の部分は切り出すのみであって認
識と結合する方法は示されていない。
〔発明の目的〕
本発明の目的は、一般の文書を対象とし、その構造に従
って分割を行うとともに、必要な場合には文字部の認識
を行うことを可能とする文書画(eA処理方式を提供す
ることにある。
〔発明の概要〕
かかる目的を達成するために、本発明においては文書の
窮迫を表現する文法を用い、この文法によって表現され
た記述(文書の構造)をt+W文解析することにより、
未知入力文書の構造を把握する。
上記の文法では、文書を部分構造とその間の相対関係と
して表現し、相対関係は演算子として記述される。栂文
丘析において演算子が出現すると、入力画像の中でその
演算子に対応した関係が成立するか否かを検証し、成立
する場合にはさらに部分構造の内部を分解して渭析を進
め、成立しない場合には他の可能性を探索する。その際
、相異なる演算子に対してそれぞれ固有の画像処理を対
応させた画像処理部を上記検証手段として用いる。
〔発明の実施例〕
本発明の詳細な説明する前に本発明の詳細な説明する6
以下の説明では対象として技術論文を例にとるが、他の
文WFであっても文法の形式が若干異なるのみであり文
法の一部を変更すれば本発明で適用でき、本発明は上記
技術論文の一例に限定されるものではない。
第1図に一定の書式を有する技術論文の一部の例を示す
。以下に文書のtIv造を表現する文法(以下文書文法
と略する)の−例を示す。
(行) 1〈文書)    ::=l(技術論文〉1<文庫本小
説〉1〜1く特許公報)12く技術論文>  ::=(
表題頁〉 3〈技術論文>  ::=(技術論文〉〔+〈継続頁〉
:〕4〈表題頁>   ::=+<UDC:)ηく表題
事項)η〈著者要約〉ηく本文〉η〈表題頁仕切り) 5〈継続頁)   ::=l(柱)η〈本文〉η〈頁仕
切り)6(UDC)   ::=<(UDC))ξ(付
点数)〔ξ((CL)>ξく付点数〉〕 7(柱>     ::=(和文表題)ξく商号〉ξく
数〉8くイ會号)       ::=(<VOL>)
ξ く数〉ξ ((No>)ξ 〈数〉9〈表題事項)
  ::=(和文表題)ηく英文表題)10〈和文表題
>  ::=(和文行集合〉11<英文表題)  ::
=(芙文行集合)12〈著者要約)  ::=(要約〉
ξ〈著者集合〉13<要約)    ::=(芙文行4
(8合〉14(著青県合〉 8二=(著者) 15<著者猿合>  ::=(著者(1(合〉〔η〈著
者〉〕16〈著者>    ::=(和文行)ξ〈英文
行)ξ17(頁番号>   ::=(数〉 18(本文>    ::=(半本文〉ξ〈半本文〉1
9〈半木文>   ::=(節〉(η〈半本文)〕20
り節>     ::=(な表題〉ηく節表題〉ηく節
本文〉21<節>’    ::=(節表題〉ηく節本
文〉22〈節)     :::(節本文〉23<節)
      ::=((参考文献〉〉η〈文献リスト〉
24<章表題)   ::=((数字〉〉ξ〈和文行〉
25<節表11)   ::=(付点数字〉ξ〈和文行
)26〈節本文)   ::=(段落〉〔η〈節本文〉
〕27<段落>    ::=<和文行集合)28く段
落〉8二=(図表〉 29り和文行集合)::=(和文行〉η〔く和文行年合
〉〕30<和文行)   ::=((日木字〉〉ξ〔(
和文行〉〕31<和文行)   ::=<(EJ本字〉
〉α〔〈和文行〉〕32〈和文行)   ::=((日
本字〉〉β〔く和文行〉〕33〈英文行集合)::=(
英文行〉η〔く英文行445合〉〕34<英文行>  
 ::=(単語)ξ〈(DLM〉)〔英文行美合〉〕3
5(jli語>    ::=((英字〉〉〔ξ(単語
)〕36〈単語)    ::=<(英字〉)〔αく単
語)〕37〈単語>    ::=((英字〉〉〔β〈
単語〉〕38〈I!、藷)    ::=l(英文人名
)l(英文法人名)1(英文地名)11(一般英単語)
1 39く数)      ::=(<英字〉)〔ξく数〉
〕40り付点数)   ::=(政〉 41<付点数>   ::=(付点数〉ξ〈数〉42(
付点数>   ::=(付点数〉ξ(<P R)>43
〈〈数字>)   ::=lO111〜19144<(
英字))   :::!alblcldl−IAIRI
−10111〜145<<日本字))::=lあ1い1
〜1ア1イ1−IFII立1−1albl〜lAlB1
〜10111〜1 46((DLM))   ::=l  1,1.1〜1
46<<CL>>     ::=l:147(<PR
>)     ::=1.1.1)148〈図表〉::
:ト図Aηく和文説明〉η〈英文説明〉49<図表> 
   ::=(和文説明〉ηく英文説明〉ηく表〉50
<図表>    ::=(囲み) 51り囲み〉::=H枠−1◎〈節〉 52〈和文説明>  ::=((語−図〉〉ξ〈数〉ξ
(和文行〉53(和文説明>  ::=((語−表〉〉
ξ〈数〉ξ〈和文行〉54<和文説明)  ::=(和
文説明〉η〈和文行集合〉55〈英文説明)  ::=
((F T G)>ξく数〉ξく英文行)56〈英文説
明)::=<<TA[l>)ξく数〉ξ〈英文行〉57
〈英文説明>  ::=(英文説明〉η(英文行集合〉
58((FIG)>  ::=lFig、159(<T
AB)>   ::=lT a  b  1  e 1
60<<語−図))   ::=1図161<〈語−表
)>  ::=1表1 63<<VOL>>  ::=lVOL+64<<No
>)   ::=lNo、173<(UD(:、)> 
  ::=l’[J、  D、  Cl66<表>  
   ::=(囲み〉γ〈表〉〔δ〈表〉〕Cl7表)
     ::=(囲み〉δ〈表〉〔γ〈表〉〕68〈
表)     ::=(囲み〉 69〈〈参考文献> ::=l参考文文献70<文献リ
スト):::=(和文文献〉〔り〈文献リスト〉〕71
<文献リスト)::=(英文文献)〔ηく文献リスト〉
〕72<和文文献)  ::=(数〉ξ(<PR>)ξ
〈和文行〉73り和文文献>  ::=(和文文献〉〔
ηく和文行集合〉〕74〈英文文献)::=(H数〉ξ
(<PR>>ξく英文行〉75<和文文献>  ::=
(英文文献)〔η〈英文行集合〉〕上記の文書文法は一
般の文書の構造を表現するものであるが、特にその中で
技術論文に関連した部分を抜き出している。第1図の例
を参照しながら上記の文法について説明する。まず使用
する記号について説明する。
く 〉   非終端記号(抽象概念) <〈〉〉    終端記号(文字列) ()   終端記号(辞書中の文字系列)トH#端記号
(画像中の部分栂造) ::=    書き換え規則 1    選言(または) 〔〕   省略可能を示す +、ξ、η、α、β、◎、γ、δ 部分構造間の演算子 上記の文法の第1行は、文書にはいろいろな種類があり
技術論文はその一種であることを示す。
第2行は表題頁(第1図1)のみからなる技術論文があ
ることを示し第3行はある論文の後に任意頁数(0でも
よい)を付加してよいことを表す。
第4行では表題頁はUDC記号すなわち国際十進分類(
第1図2)の下に表題事項(第1図3)があり、その下
にr著者要約」 (第1図4)があり、さらにその下に
本文(第1図7)が続き、最下段には「頁番号」 (第
1図9)がくることを示す。
ここで、「著者要約」とは第12行にあるように、要約
(第1図5)の右側に著者集合(第1図6)があること
を示す。さらに第13行に示すように要約は英文行集合
である。第14行に示すように著者集合は一人の著者か
ら構成されてもよく、第15行に示すように著者集合の
下に別の著者を(任意の人数だけ)付加して複数の著者
から構成されてもよい。著者は第16行に示すように和
文行(人名)と英文行(人名)が横に連なったものであ
る。本文(第1図7)はこの例の場合は頁を樅に8分し
ているので、第18行のように半本文(第1図8)とい
う概念を導入し、半本文が横に連なったとして表現する
。第19行のように半本文は節の連続である。第26行
のように節本文は段落からなり、第27.28行のよう
に段落は和文行隼合または図表である。和文行とは第3
0−33行に示すように、日本字が横にξ、α、βの関
係で連なったものであり、ここでξは単縄な横の並び、
αは横の接触、βは横のオーバーラツプであって、その
いずれかが生じ得ることを示す。
日本文字は第45行に示すように平仮名1芹仮名。
漢字、芙字、数字などを含む。
文書のI!I!IWにおいては、入力文書が技術論文で
あると仮定し、文7)゛文法に記述された構造が存在す
るか否かをKt次調べて行く。そのとき、各演算子に対
して異なる画像処理手続きが適用される。
たとえば、演算子ηは部分第1π造が縦に重なっている
ことを示すので、この演算子ηに対してはm j;3分
trl’B造の重なりを検出する処理が対応する。この
ような処理の一例として横の白画):4の連続があるこ
とを検出する処理がある。同様にξに対しては縦の自画
索の連続があることを検出して文字を切り出す処理が、
βに対しては斜めに自画景の連り、′εがあることを検
出して文字を切り出す処理が対応する。
以上の説明から分るように本発明で提案した文書文法で
は、複雑な文書の構造を階層的かつ再帰的に表現してい
るので、行政が不定の場合や出口、が不確定な部分構造
など従来困難であった対象も記述できる。そして部分構
造間の幾何学的関係を演算子で表しており、演算子の表
す関係の存在を画像処理により検証することにより、多
種多様な文書の理解が可能となる。
以下、本発明の実施例について図面を用いて詳細に説明
する。
第2図は本発明の一実施例による文書処理方式を採用し
た% 置の構成を示すブロック図である。
装置の各部はバス101に接続され、全体の動作は制御
部102により11;す御される6文書loa上の情報
(文i1F画像)は光電変換装置104により走査され
、さらにディジタル化され、バス101を介してメモリ
1051に格納される。メモリ1051は後述する10
52.1053.1054とともニメ−t=す105の
一部をなす。ディジタル化の際、公知の高効率符号化処
理を行ってもに<、これに上り文書画像を記憶するメモ
リの記憶容量を節約できる。また、以下の説明で゛は】
画素1ビツトに二値化するものとするが、1一画素をイ
I値で表現してtIよく、カラースキャナにより光電変
換して色情報を付与してもよい。文書画像に対し制御部
102により公知の位置補正処理、傾き補正処理などを
行ってtSられる正規化画像がメモリ1052に格納さ
れる。この正規化画像に対し、制御部102のプログラ
ム制御により以下に述べるようにして文書の理解を行い
、理M結果を出力装置106に出力する。
第3図は、文書°理mの処理の流れをPAD形式で表し
た流れ図である。まず、301でファイル装置(図示せ
ず)より文書文法データをメモリ105に読み込む63
02は全体の初期化である。
303は終了まで以下の処理を繰り返すループである。
304で文書の1頁の画像を入力する。
305はこの頁を文書文法に従って解釈する制御ループ
である。306で文法の1行を取り出し、307以下で
晴文解析を行うことによってこの1行が成立するか否か
の判定を行う。307では以下の構文解析処理で用いる
スタックの初期化を行う。スタックはメモリ1054の
中に置かれる。308は309から313までの処理の
流れを制御する。
309は演算子存在の検出を行うものであり、    
  。
3091〜3093の各11HI n子に対応する処理
への分岐の集合である。3091はξ、3092はη、
3093はα、等等の演算子に対する画像処理手続きで
ある。この画像処理手続きの詳細については後述する。
310では演算子が存在したか否かを検出し、存在しな
いときは313で308以降のループを脱出し、次の行
の処J!1(307)に移る。存在したときはこの演算
子を311でスタックにfrfみ、312で部分碍造の
存在を検出する6部分購造の検出は3121の終端記号
の識別を行う部分と3122の非終端記号の識別を行う
部分とからなる。
3122の処理は307以降の処理を部分行について再
帰的に行うことでなされる。終端記号の識別はたとえば
数字の識別では文字認識を行って認識結果が数字の集合
に屈するか否かを判定する処理である0以上説明したよ
うにして、部分補遺と演算子の解釈がすべて終了すると
、文書中のこの頁の理解が完了する。文書理解の結果は
スタック(メモリ1054)の中の部分購造と、その内
容(文字列など)及び部分%1造間の演算子であり、こ
れらの結果は314で所定の符号に変換された後、ファ
イル装置106に出力される6文法中のどの行でも解析
ができなかったとき、この文書は理解不能である。理解
不能は全ての行について313でループを抜は出した場
合であり、これを316で判定し、理解不能のときは3
17でリジェクト処理を行う。たとえば文岩:理解の最
終結果あるいは中間結果をディスプレイ107に表示し
、コンソール108を用いてマンマシン的に修正する。
第4図に、第3191の3092で述べた演算子ηに対
する画像処理手続き、即ち横の白画素の連続があること
を検出する処理の流れをPAD形式で表した流れ図を示
す。第4図で401は本処理への入り口であり、メモリ
1052に格納されている正規化画像Qが与えられる。
402では403〜409の処理を走査線番号、jにつ
いて繰り返すことにより、黒長連積分値A (j)を得
る。403は初期化である。404は走査線の中の画素
Q(i、j)が1かOかを判定し、1の場合には406
で黒の連長Bをカウントする一Q(ITJ)が1の場合
にま、407の判定によりその前の画素までの連長Bが
閾値εより大きいとき、408で積分処理を行い、40
9で連長Bをリセットする。ループ終了後410で積分
値A (j)にBを加えているのは404以下のループ
では最終点(i=r−1)における積分がなされていな
いからである。407の判定を加えたことにより、比較
的長い黒の連続があるときのみA(j)に積分が行われ
るので雑音の影響を受けにくい。411〜420はA(
j)の中で閾値δ1より小さい領域が、閾値δ2より大
きい領域で挟まれていることを検出する処理である。4
11はフラグFl、F2の初期化である。
412は413〜419の処理を走査線番号jについて
繰り返す、413ではA (j)が初めて閾値δ2を越
えたことを検出し、414でフラグF1をセットする。
415はF1=1の状態でA (j)が初めて閾値δ1
を割ったことを検出し、416でフラグF2をセットす
るとともにその時のjを51として記憶する。417は
F2=1の状態でA (j)が閾値δ2を越える点を検
出し、418でその一つ前のjを52として記憶すると
ともに412以降のループを脱出する。420は出口で
あり、白連続の場所j1+J2とフラグF2を外部に与
える。F2=1は検出成功を示し、F2=0は412の
ループ内で白連続の条件が発見できなかった場合であり
検出失敗を示す。
次に本発明の第二の実施例について説明する。
本実施例は第一の実施例と同一のブロック図で実現され
るが、使用する文書文法が前記の文法とは若干差異があ
る。すなわち部分購造間の関係を示す演#子 ξ、η、α、βt Otγ、δ などに幾何学的な量を示すパラメータを付随させ、たと
えば ξ(1,5)、η(3,10)、・・・などと表す、こ
こで、η(3,10)とは縦方向に:3+m以上・10
mn+以下の間隙があることを示す。
演算子ηを検出する第一の実施例の流れ図(第4図)は
第5図のように変更される。第5図で501〜5194
:l:m4図(7)401〜419 ト同様テアル。
520では、512〜519で検出した白連続領域の幅
が3以上10以下であることを判定する。
521は420と同じである。第二の実施例は第一の実
施例に比べ使用する文書文法の記述が若干複雑であるが
1文書のmsにおいて誤った判定を行う危険が避けやす
い利点があり、書式の変動が比較的に少ない文書の処理
に適する6 次に本発明の第三の実施例について説明する6本実施例
は第一の実施例と同一のブロック図で実現されるが、制
御の流れが第一の実施例(第3図)とは異なり、第6図
のようになっているう第6図は、第三の実施例における
文書理mの処理の流れをPAD形式で表した流れ回であ
る。まず、601でファイル装置(図示せず)より文書
文法データをメモリ53に読みこみ、GO2で全体を初
期化する。603は終了まで以下の処理を縁り返すルー
プである。604で文2)の1頁の画像を入力し、C1
05で画像処理ルーチンを起動する。そのとき、画像中
のどの部分について処理するかを指定する。画像処理ル
ーチンはマルチプログラミングあるいはマルチプロセッ
サを用いて下記の文法解釈処理と並列に動作し7、図・
表・文字その他の終端記号を処理対象画体1から直接抽
出し。
メモリ内の特定アドレスに抽出したことを示すデータを
書き込む。なおマルチプロセッサをmいるの修正は容易
であるのでここでは省略している。
606はこの頁を文アト文法に従って解釈する制御ルー
プである。607で画像処理結果を調べ抽出された結果
に従って、608でその部分構造を記述している行を探
索する。画像処理と並列に動作するので1画(FQ処理
の完了を待つ必要がある。
609では以下の処理で用いるスタックの初期化を行う
。610はその行に対する処理を行うもので611から
615までの処理の流れを制御する。
610は第3図の309と同様である。612では演算
子の存在を検出し、存在しないときは615で609以
降のループを脱出する。存在したときはこの演算子を6
12でスタックに積み、613で部分構造の存在を検出
する6部分構造の検出は画像処理ルーチンで検出した部
分を除いた残りの画像について再帰的に処理するもので
あるが、箔本的には第3図と同様であるので省略する。
616(文書理解結果の出力)、617は第3図と同様
である。第三の実施例は第一の実施例に比べ制御の流れ
が複雑ではあるが、画(q+処理結果から文法処理を起
動するので、入力文書と関係のない部分の文法を構文な
析することが少なく高速の文書の処理が可能となる。
〔発明の効果〕
以上説明したごとく1本発明によれば格納すべき対象文
書のm析を自動的に行うことが可能であり、キーボード
から二次情報を入力することが不要となるかあるいは大
幅に削減されるので、入力′がきわめて簡崇化される。
また、文書を部分(1η造に分類しているので、4市造
ごとの格納を行うことによりファイルスペースの削減や
検索の高度化が可能となるなどの利点がある6
【図面の簡単な説明】
第1図は文書の一例を示す図、第2図は本発明の実施例
を示す図、第3.4,5.6図は第2図の制御部におけ
る処理を説明するための流れ図である。 101・・・バス、102・・・制御部、103・・・
文書。 105・・・メモリ、107・・・キーボード、108
・・・ディスプレイ。

Claims (1)

  1. 【特許請求の範囲】 1、部分構造とその間の相対関係を示す演算子とを用い
    て文書画像を記述する文法に従つて書かれた表現を解析
    する構文解析部と、 入力文書の画像を光電変換してディジタル画像に変換す
    る手段と、 上記構文解析部により指定された特定部分構造または部
    分構造間の関係が上記ディジタル画像中に存在するか否
    かを検出する画像処理部とを有し、 上記の文法に含まれる相異なる演算子は上記画像処理部
    における相異なる画像処理手段に対応することを特徴と
    する文書画像処理方式。 2、特許請求範囲第1項記載の文書画像処理方式におい
    て、 部分構造が水平あるいは垂直の白画素の連続によつて隔
    てられることを示す演算子に対応する構文解析部及び画
    像処理部とを含むことを特徴とする文書画像処理方式。 3、特許請求範囲第1項記載の文書画像処理方式におい
    て、 演算子に幾何学的パラメータが付随することを特徴とす
    る文書画像処理方式。 4、特許請求範囲第1項記載の文書画像処理方式におい
    て、 構文解析部による指定を行わずに画像処理部における画
    像処理手段を起動させ、その処理結果を構文解析部に供
    給するように制御することを特徴とする文書画像処理方
    式。
JP59174924A 1984-08-24 1984-08-24 文書画像処理方法 Expired - Lifetime JP2559356B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP59174924A JP2559356B2 (ja) 1984-08-24 1984-08-24 文書画像処理方法
EP85110533A EP0175928A3 (en) 1984-08-24 1985-08-22 Image understanding system
US07/253,445 US4907285A (en) 1984-08-24 1988-10-05 Image understanding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59174924A JP2559356B2 (ja) 1984-08-24 1984-08-24 文書画像処理方法

Publications (2)

Publication Number Publication Date
JPS6154569A true JPS6154569A (ja) 1986-03-18
JP2559356B2 JP2559356B2 (ja) 1996-12-04

Family

ID=15987093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59174924A Expired - Lifetime JP2559356B2 (ja) 1984-08-24 1984-08-24 文書画像処理方法

Country Status (2)

Country Link
EP (1) EP0175928A3 (ja)
JP (1) JP2559356B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0378892A (ja) * 1989-08-23 1991-04-04 Fuji Electric Co Ltd 表形式文書の認識装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0262462A3 (de) * 1986-09-30 1991-02-27 Siemens Aktiengesellschaft Verfahren zum Interpretieren formularhafter Dokumente
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5630121A (en) * 1993-02-02 1997-05-13 International Business Machines Corporation Archiving and retrieving multimedia objects using structured indexes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947641A (ja) * 1982-09-10 1984-03-17 Nippon Telegr & Teleph Corp <Ntt> 名刺デ−タベ−ス作成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947641A (ja) * 1982-09-10 1984-03-17 Nippon Telegr & Teleph Corp <Ntt> 名刺デ−タベ−ス作成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0378892A (ja) * 1989-08-23 1991-04-04 Fuji Electric Co Ltd 表形式文書の認識装置

Also Published As

Publication number Publication date
JP2559356B2 (ja) 1996-12-04
EP0175928A2 (en) 1986-04-02
EP0175928A3 (en) 1988-08-31

Similar Documents

Publication Publication Date Title
US4907285A (en) Image understanding system
Barman et al. Combining visual and textual features for semantic segmentation of historical newspapers
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JP3425408B2 (ja) 文書読取装置
US20070136660A1 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
JPS6244878A (ja) 文書フアイリングシステム
US9436882B2 (en) Automated redaction
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
JPH11161681A (ja) 検索結果を表示するための装置および方法、並びに、検索結果を出力するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
US7046847B2 (en) Document processing method, system and medium
JPH11120293A (ja) 文字認識/修正方式
US20200364452A1 (en) A heuristic method for analyzing content of an electronic document
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Cheng et al. M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis
JP5446877B2 (ja) 目次構造特定装置
JPS6154569A (ja) 文書画像処理方式
JPH08320914A (ja) 表認識方法および装置
JPH08180068A (ja) 電子ファイリング装置
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
Yamashita et al. A document recognition system and its applications
JP2560656B2 (ja) 文書ファイリングシステム
JPH07107711B2 (ja) 文書画像の処理装置
JPH03127169A (ja) マルチメディア文書構造化方式
JP3072126B2 (ja) 書体を識別する方法及び装置