WO2020071558A1 - 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 - Google Patents
帳票レイアウト解析装置、その解析プログラムおよびその解析方法Info
- Publication number
- WO2020071558A1 WO2020071558A1 PCT/JP2019/039412 JP2019039412W WO2020071558A1 WO 2020071558 A1 WO2020071558 A1 WO 2020071558A1 JP 2019039412 W JP2019039412 W JP 2019039412W WO 2020071558 A1 WO2020071558 A1 WO 2020071558A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- item
- layout
- area
- attribute
- image
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
Abstract
【課題】システムに登録されていない未知の帳票のレイアウト解析を可能にする。 【解決手段】項目抽出部2は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。手書き領域抽出部3は、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する。レイアウト解析部5は、手書き文字領域のそれぞれに対して、項目抽出部2によって分類された属性のいずれかを割り当てることによって、帳票画像のレイアウトを解析する。
Description
本発明は、帳票のレイアウトを解析する帳票レイアウト解析装置、その解析プログラムおよびその解析方法に関する。
従来、帳票を画像データとして取り込んで、画像処理によって帳票のレイアウトを解析する手法が知られている。例えば、特許文献1には、文書のレイアウトを規定するテンプレートを用いて、文書画像中の文書構造を解析する文書編集出力装置が開示されている。また、特許文献2には、フィールドのデータ型を学習機能により半自動的に設定可能とすることで、より詳細なOCR制約条件を容易に課すことができ、これによって、文字認識の精度を向上させる情報処理装置が開示されている。具体的には、入力された帳票画像に対応するフォーマット情報および制約条件がフォーマットモデル記憶部から読み出され、このフォーマット情報によって特定されたフィールドにおける帳票画像の記入値がフィールドの制約条件の範囲内で文字認識される。
しかしながら、上述した特許文献1および特許文献2の解析手法は、帳票のテンプレートやフォーマットがシステムに予め登録されていることを前提とするため、システムに登録されていない未知の帳票には対応できない。
そこで、本発明は、システムに登録されていない未知の帳票のレイアウト解析を可能にすることを目的とする。
かかる課題を解決すべく、第1の発明は、項目抽出部と、レイアウト解析部とを有し、帳票のレイアウトを解析する帳票レイアウト解析装置を提供する。項目抽出部は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。レイアウト解析部は、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。
ここで、第1の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する手書き領域抽出部をさらに設けてもよい。この場合、レイアウト解析部は、手書き領域抽出部によって抽出された手書き文字領域のそれぞれに対して、項目抽出部によって分類された属性のいずれかを割り当てることが好ましい。また、レイアウト解析部は、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。
第1の発明において、項目抽出部は、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、項目抽出部は、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。
第1の発明において、項目抽出部は、属性の分類確度を出力してもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去するフィルタ処理部をさらに設けることが好ましい。
第1の発明において、レイアウト解析部は、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示してもよい。
第2の発明は、以下のステップを有する処理をコンピュータに実行させ、帳票のレイアウトを解析する帳票レイアウト解析プログラムを提供する。第1のステップでは、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。第2のステップでは、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。
ここで、第2の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに設けてもよい。この場合、第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、第1のステップで分類された属性のいずれかを割り当てることが好ましい。また、第2のステップは、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。
第2の発明において、第1のステップは、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、第1のステップは、活字で表された項目名を含む項目画像と、この項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。
第2の発明において、第1のステップは、属性の分類確度を出力するステップを含んでいてもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去する第4のステップをさらに設けることが好ましい。
第2の発明において、第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、複数の解析結果をレイアウトの候補としてユーザに提示するステップを含んでいてもよい。
第3の発明は、以下のステップを有し、帳票のレイアウトを解析する帳票レイアウト解析方法を提供する。第1のステップでは、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。第2のステップでは、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する。
ここで、第3の発明において、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに設けてもよい。この場合、第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、第1のステップで分類された属性のいずれかを割り当てることが好ましい。また、第2のステップは、予め設定された対応規則にしたがって、項目領域と、その近傍に位置する手書き文字領域とを対応付けた上で、手書き文字領域に対して、これに対応付けられた項目領域の属性を割り当ててもよい。
第3の発明において、第1のステップは、物体検出アルゴリズムとして、帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、項目領域の抽出と、その属性の分類とをまとめて行うことが好ましい。この場合、第1のステップは、活字で表された項目名を含む項目画像と、この項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、項目領域の抽出と、その属性の分類とを行ってもよい。
第3の発明において、第1のステップは、属性の分類確度を出力するステップを含んでいてもよい。この場合、分類確度が所定のしきい値よりも小さい属性をノイズとして除去する第4のステップをさらに設けることが好ましい。
第3の発明において、第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、複数の解析結果をレイアウトの候補としてユーザに提示するステップを含んでいてもよい。
本発明によれば、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の帳票であっても、レイアウト解析を行うことが可能になる。
図1は、本実施形態に係る帳票レイアウト解析装置のブロック図である。この帳票レイアウト解析装置1は、申請書や契約書などのような手書き文字列が記入された帳票について、そのレイアウトを解析し、帳票のどこに何が記載されているのかを特定する。解析対象となる帳票は未知なもの、すなわち、システムにレイアウトが登録されていない帳票であって、例えば、手書き帳票の光学的文字認識(OCR)に先立つ前処理として行われる。帳票レイアウト解析装置1は、項目抽出部2と、手書き領域抽出部3と、フィルタ処理部4と、レイアウト解析部5と、学習処理部6と、学習モデル7と、対応規則テーブル8とを主体に構成されている。
項目抽出部2は、帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する。例えば、帳票画像中に「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われ、このアルゴリズムに基づき構築された学習モデル7を参照して、項目領域の抽出と、その属性の分類とが行われる。また、分類された属性については、その分類確度も算出・出力される。
図2は、物体検出アルゴリズムの説明図である。同図(a)に示すように、顔検出などで用いられる従来の検出手法では、入力に対する処理として、領域探索、特徴量抽出、機械学習という3つの段階に別れている。すなわち、領域探索が行われ、検出する物体に合わせて特徴抽出が行われ、適切な機械学習手法が選択される。この検出手法では、物体検出を3つのアルゴリズムに別けて実現される。特徴量についても、基本的に、検出対象に応じた専用設計になるため特定の対象しか検出できない。そこで、かかる制約を解消すべく、同図(b)および(c)に示すような深層学習による物体検出アルゴリズムが提案された。同図(b)に示すように、R-CNN(Regions with Convolutional Neural Network)などでは、深層学習を用いることで特徴量抽出が自動で実現される。これによって、ネットワークの設計だけで、色々な物体に対する柔軟な分類が可能になる。しかしながら、領域探索については別処理として依然として残ることから、領域探索についても深層学習に含めたものが、YOLO(You Only Look Once)やSSD(Single Shot MultiBox Detector)に代表される同図(c)の手法である。本手法では、入力(帳票画像)を一つのニューラルネットワークに入力することで、項目領域の抽出と、その属性の分類とがまとめて行われる。本手法の特徴として、第1に、回帰問題的なアプローチであることが挙げられる。回帰(Regression)とは、データの傾向から数値を直接予測するアプローチをいい、領域を決めてからそれが何かを分類するのではなく、物体の座標と大きさが直接予測される。第2に、一つのネットワークで処理が完結することである。データ入力した後は深層学習だけで最後(出力結果)までいってしまうという意味で、「End-to-End」の処理であるともいえる。本実施形態は、帳票上の項目抽出を深層学習による物体検出アルゴリズムを用いて行うことに特徴があり、特に、YOLOやSSDに代表される同図(c)の手法を採用するものである。
例えば、YOLOの処理は、概ね以下のようになる。まず、入力画像がS*Sの領域に分割される。つぎに、それぞれの領域内における物体のクラス確率が導出される。そして、B個(ハイパーパラメータ)のバウンディングボックスのパラメータ(x,y,height,width)と信頼度(confidence)とが算出される。バウンディングボックスとは、物体領域の外接四角形であり、信頼度とは、予測と正解のバウンディングボックスの一致度である。物体検出には、物体のクラス確率と、各バウンディングボックスの信頼度との積が用いられる。図3は、YOLOのネットワーク構成図である。YOLOにおいて、帳票画像はCNN(Convolutional Neural Network)層に入力されると共に、複数段の全結合層を経て結果が出力される。出力は、S*S個に分割した画像領域と、信頼度(分類確度)を含むバウンディングボックス(BB)の5パラメータと、クラス数(項目の属性)とを含む。
手書き領域抽出部3は、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する。手書き文字と活字との判別法としては、様々なものが提案されており、任意の手法を用いることができる。例えば、文字画像を実空間で解析する手法を用いてもよい。具体的には、文字の水平方向および垂直方向のヒストグラムを取ることで文字列を抽出し、その基線の直線度を評価することによって手書き文字列を抽出する手法や、文字を構成する線分の直線性と文字の対称性とを評価することによって手書き文字列を抽出する手法といった如くである。その際、文字列を構成する個々の手書き文字の大きさのバラツキや、手書き文字間の近接の度合いなどを考慮してもよい。実空間上の解析に代えて、文字画像を周波数空間で解析する手法を用いてもよい。また、手書き領域抽出部3においては、画素単位で「活字・印字」、「手書き」、「罫線」、「判子」、「背景」を識別するモデルを用いてもよい。その際、分類器として、Semantic Segmentationのような手法を用いてもよい。
フィルタ処理部4は、項目抽出部2によって抽出された複数の属性のうち、信頼度(分類確度)が所定のしきい値よりも小さい属性については、ノイズとみなして除去する。フィルタ処理部4によってフィルタリングされた項目領域に関する情報は、レイアウト解析部5に出力される。
レイアウト解析部5は、帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、手書き領域抽出部3によって抽出された手書き文字領域のそれぞれに対して、項目抽出部2によって分類された属性のいずれかが割り当てられる。基本的に、帳票画像上において、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われ、この手書き文字領域に対して、この項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍に手書き文字領域が存在する場合、この手書き文字領域に対して「name」という属性を割り当てるといった如くである。また、項目領域と手書き文字領域との具体的な対応規則については、対応規則テーブル8において予め設定・定義されている。この対応規則は、項目領域の右近傍に手書き文字領域が存在する場合に両者を対応付ける、あるいは、項目領域の下近傍に手書き文字領域が存在する場合に両者を対応付けるといった基本的なもの以外に、表中に存在する手書き文字領域の取り扱いなどについても定義している。
学習処理部6は、活字で表された項目名を含む項目画像(部分画像)と、この項目画像の属性との対である教師データを用いた教師あり学習によって学習モデル7を構築する。項目抽出部2によって参照される学習モデル7は、教師データの増大等に伴い、事後的に再構築することができる。
以下、以下、図5から図8を参照しつつ、帳票のレイアウト解析の流れについて詳述する。図4は、帳票レイアウト解析装置1によって実行されるレイアウト解析のフローチャートである。なお、この帳票レイアウト解析装置1は、コンピュータをブロック2~6として機能・動作させるコンピュータプログラム(帳票レイアウト解析プログラム)をコンピュータにインストールすることによって等価的に実現することも可能である。
まず、ステップ1において、解析対象とする帳票画像が入力される。図5は、帳票画像の一例として「振込依頼書」を示す図である。この帳票は、「氏名」、「所属」、「金額」、「銀行名」等の項目名が帳票上に活字で印刷されている。また、それぞれの項目名の近傍に位置する空欄には、項目名に対応する事項が手書きで記入されている。
つぎに、ステップ2において、項目抽出部2によって、帳票画像中に存在する項目領域が属性付きで個別に抽出される。図6に示すように、印字列「フリガナ」については、これを含む矩形領域が項目領域a1として抽出され、その属性「phonetic」と分類確率とが付与される。印字列「所属」については、これを含む矩形領域が項目領域a2として抽出され、その属性「department」と分類確率とが付与される。印字列「氏名」について、これを含む矩形領域が項目領域a3として抽出され、その属性「name」と分類確率とが付与される。印字列「金額」については、これを含む矩形領域が項目領域a4として抽出され、その属性「amount」と分類確率とが付与される。印字列「銀行目」については、これを含む矩形領域が項目領域a5として抽出され、その属性「bank」と分類確率とが付与される。印字列「支店名」について、これを含む矩形領域が項目領域a6として抽出され、その属性「branch」と分類確率とが付与される。印字列「預金種別」については、これを含む矩形領域が項目領域a7として抽出され、その属性「account type」と分類確率とが付与される。印字列「口座番号」については、これを含む矩形領域が項目領域a8として抽出され、その属性「account number」と分類確率とが付与される。
つぎに、ステップ3において、手書き領域抽出部4によって、帳票画像中に存在する手書き文字領域が個別に抽出される。図7に示すように、手書き文字列「トッキョ イチロウ」については、これを含む矩形領域が手書き文字領域b1として抽出される。手書き文字列「知的財産部」については、これを含む矩形領域が手書き文字領域b2として抽出される。手書き文字列「特許 一郎」については、これを含む矩形領域が手書き文字領域b3として抽出される。手書き文字列「6,500」については、これを含む矩形領域が手書き文字領域b4として抽出される。手書き文字列「三井住友」については、これを含む矩形領域が手書き文字領域b5として抽出される。手書き文字列「銀座」については、これを含む矩形領域が手書き文字領域b6として抽出される。手書き文字列「普通」については、これを含む矩形領域が手書き文字領域b7として抽出される。手書き文字列「19620123」については、これを含む矩形領域が手書き文字領域b8として抽出される。
つぎに、ステップ4において、フィルタ処理部4によって、項目抽出部2にて抽出された属性のフィルタリングが行われ、ノイズとみなされた属性が除去される。
つぎに、ステップ5において、レイアウト解析部5によって、帳票画像のレイアウトが解析される。図8に示すように、手書き文字領域b1については、項目領域a1の右近傍に位置しているため、項目領域a1の属性「phonetic」が割り当てられる。手書き文字領域b2については、項目領域a2の右近傍に位置しているため、項目領域a2の属性「department」が割り当てられる。手書き文字領域b3については、項目領域a3の右近傍に位置しているため、項目領域a3の属性「name」が割り当てられる。手書き文字領域b4については、項目領域a4の右近傍に位置しているため、項目領域a4の属性「amount」が割り当てられる。手書き文字領域b5については、項目領域a5の下近傍に位置しているため、項目領域a5の属性「bank」が割り当てられる。手書き文字領域b6については、項目領域a6の下近傍に位置しているため、項目領域a6の属性「branch」が割り当てられる。手書き文字領域b7については、項目領域a7の下近傍に位置しているため、項目領域a7の属性「account type」が割り当てられる。手書き文字領域b8については、項目領域a8の下近傍に位置しているため、項目領域a8の属性「account number」が割り当てられる。
最後に、ステップ6において、図8に示したような帳票画像のレイアウトの解析結果が出力され、これによって、一連の処理が終了する。なお、以上の処理において、ステップ2およびステップ3は、互いに独立しているので、その実行順序は逆であってもよく、また、同時並行的に実行してもよい。
なお、ステップ5におけるレイアウトの解析によって複数の解析結果が得られた場合、その適格性をユーザの判断に委ねるために、これらの解析結果をレイアウトの候補としてユーザに提示してもよい。このようなケースとしては、以下の2つが考えられる。第1は、図9に示すように、帳票画像上の1つの項目領域aに対して複数の属性1,2が割り当てられているケースである。この場合、この項目領域aの近傍に位置する手書き領域bの属性として、属性1および属性2の双方が考えられるため、手書き文字領域bの属性の候補として、属性1および属性2の双方がユーザに提示される。第2は、図10に示すように、ある手書き文字領域bに対して複数の項目領域a1,a2が近接しているケースである。この場合、手書き領域bの属性として、項目領域a1の属性3および項目領域a2の属性4の双方が考えられるため、手書き文字領域bの属性の候補として、属性3および属性4の双方がユーザに提示される。
このように、本実施形態によれば、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、システムに登録されていない未知の帳票であっても、レイアウト解析を行うことが可能になる。特に、深層学習による物体検出アルゴリズムとして、YOLOやSSDなどのような、帳票画像中の項目領域の抽出と、その属性の分類とを一つのニューラルネットワークでまとめて行う手法を用いることで、様々な対象を高速で検出することが可能となる。
また、本実施形態によれば、帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出し、手書き文字領域のそれぞれに対して、項目抽出部2によって分類された属性のいずれかを割り当てる。これにより、手書き文字列が記入された帳票についても、レイアウト解析を行うことが可能になる。
1 帳票レイアウト解析装置
2 項目抽出部
3 手書き領域抽出部
4 フィルタ処理部
5 レイアウト解析部
6 学習処理部
7 学習モデル
8 対応規則テーブル
2 項目抽出部
3 手書き領域抽出部
4 フィルタ処理部
5 レイアウト解析部
6 学習処理部
7 学習モデル
8 対応規則テーブル
Claims (21)
- 帳票のレイアウトを解析する帳票レイアウト解析装置において、
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する項目抽出部と、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析するレイアウト解析部と、
を有することを特徴とする帳票レイアウト解析装置。 - 帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する手書き領域抽出部をさらに有し、
前記レイアウト解析部は、前記手書き領域抽出部によって抽出された手書き文字領域のそれぞれに対して、前記項目抽出部によって分類された属性のいずれかを割り当てることを特徴とする請求項1に記載された帳票レイアウト解析装置。 - 前記レイアウト解析部は、予め設定された対応規則にしたがって、前記項目領域と、その近傍に位置する前記手書き文字領域とを対応付けた上で、前記手書き文字領域に対して、これに対応付けられた前記項目領域の属性を割り当てることを特徴とする請求項2に記載された帳票レイアウト解析装置。
- 前記項目抽出部は、前記物体検出アルゴリズムとして、前記帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、前記項目領域の抽出と、その属性の分類とをまとめて行うことを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。
- 前記項目抽出部は、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行うことを特徴とする請求項4に記載された帳票レイアウト解析装置。
- 前記項目抽出部は、前記属性の分類確度を出力し、
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去するフィルタ処理部をさらに有することを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。 - 前記レイアウト解析部は、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示することを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。
- 帳票のレイアウトを解析する帳票レイアウト解析プログラムにおいて、
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
を有する処理をコンピュータに実行させることを特徴とする帳票レイアウト解析プログラム。 - 帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに有し、
前記第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、前記第1のステップで分類された属性のいずれかを割り当てることを特徴とする請求項8に記載された帳票レイアウト解析プログラム。 - 前記第2のステップは、予め設定された対応規則にしたがって、前記項目領域と、その近傍に位置する前記手書き文字領域とを対応付けた上で、前記手書き文字領域に対して、これに対応付けられた前記項目領域の属性を割り当てることを特徴とする請求項9に記載された帳票レイアウト解析プログラム。
- 前記第1のステップは、前記物体検出アルゴリズムとして、前記帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、前記項目領域の抽出と、その属性の分類とをまとめて行うことを特徴とする請求項8から10のいずれかに記載された帳票レイアウト解析プログラム。
- 前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行うことを特徴とする請求項11に記載された帳票レイアウト解析プログラム。
- 前記第1のステップは、前記属性の分類確度を出力するステップを含み、
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去する第4のステップをさらに有することを特徴とする請求項8から10のいずれかに記載された帳票レイアウト解析プログラム。 - 前記第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示するステップを含むことを特徴とする請求項8から10のいずれかに記載された帳票レイアウト解析プログラム。
- 帳票のレイアウトを解析する帳票レイアウト解析方法において、
帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、深層学習による物体検出アルゴリズムを用いて、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
を有することを特徴とする帳票レイアウト解析方法。 - 帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する第3のステップをさらに有し、
前記第2のステップは、第3のステップで抽出された手書き文字領域のそれぞれに対して、前記第1のステップで分類された属性のいずれかを割り当てることを特徴とする請求項15に記載された帳票レイアウト解析方法。 - 前記第2のステップは、予め設定された対応規則にしたがって、前記項目領域と、その近傍に位置する前記手書き文字領域とを対応付けた上で、前記手書き文字領域に対して、これに対応付けられた前記項目領域の属性を割り当てることを特徴とする請求項16に記載された帳票レイアウト解析方法。
- 前記第1のステップは、前記物体検出アルゴリズムとして、前記帳票画像を一つのニューラルネットワークに入力することで、回帰問題的なアプローチによって、前記項目領域の抽出と、その属性の分類とをまとめて行うことを特徴とする請求項15から17のいずれかに記載された帳票レイアウト解析方法。
- 前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行うことを特徴とする請求項18に記載された帳票レイアウト解析方法。
- 前記第1のステップは、前記属性の分類確度を出力するステップを含み、
前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去する第4のステップをさらに有することを特徴とする請求項15から17のいずれかに記載された帳票レイアウト解析方法。 - 前記第2のステップは、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示するステップを含むことを特徴とする請求項15から17のいずれかに記載された帳票レイアウト解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020551133A JP7396568B2 (ja) | 2018-10-05 | 2019-10-04 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-190112 | 2018-10-05 | ||
JP2018190112 | 2018-10-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020071558A1 true WO2020071558A1 (ja) | 2020-04-09 |
Family
ID=70055833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/039412 WO2020071558A1 (ja) | 2018-10-05 | 2019-10-04 | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7396568B2 (ja) |
WO (1) | WO2020071558A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021170221A (ja) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | 学習済みモデル、サイト判定プログラム及びサイト判定システム |
JP2021197154A (ja) * | 2020-06-09 | 2021-12-27 | ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. | 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
JP7452809B1 (ja) | 2023-08-09 | 2024-03-19 | ファーストアカウンティング株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7478345B2 (ja) | 2020-05-12 | 2024-05-07 | 京セラドキュメントソリューションズ株式会社 | 帳票データ取得システムおよび帳票データ取得プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231291A (ja) * | 1996-02-27 | 1997-09-05 | Mitsubishi Electric Corp | 帳票読取方法及びその装置 |
JP2009230498A (ja) * | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017010069A (ja) | 2015-06-16 | 2017-01-12 | シャープ株式会社 | 情報処理装置 |
-
2019
- 2019-10-04 JP JP2020551133A patent/JP7396568B2/ja active Active
- 2019-10-04 WO PCT/JP2019/039412 patent/WO2020071558A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09231291A (ja) * | 1996-02-27 | 1997-09-05 | Mitsubishi Electric Corp | 帳票読取方法及びその装置 |
JP2009230498A (ja) * | 2008-03-24 | 2009-10-08 | Oki Electric Ind Co Ltd | 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム |
Non-Patent Citations (1)
Title |
---|
CHIN, HOKA ET AL.: "Research on real- time detection of road guide signs and content recognition based on automatically generated learning data", THE 23RD SYMPOSIUM ON SENSING VIA IMAGE INFORMATION SSII2017, 9 June 2017 (2017-06-09) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021170221A (ja) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | 学習済みモデル、サイト判定プログラム及びサイト判定システム |
JP7478345B2 (ja) | 2020-05-12 | 2024-05-07 | 京セラドキュメントソリューションズ株式会社 | 帳票データ取得システムおよび帳票データ取得プログラム |
JP2021197154A (ja) * | 2020-06-09 | 2021-12-27 | ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. | 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
JP7230081B2 (ja) | 2020-06-09 | 2023-02-28 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 帳票画像認識方法および装置、電子機器、記憶媒体並びにコンピュータプログラム |
US11854246B2 (en) | 2020-06-09 | 2023-12-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and storage medium for recognizing bill image |
JP7452809B1 (ja) | 2023-08-09 | 2024-03-19 | ファーストアカウンティング株式会社 | 情報処理装置、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7396568B2 (ja) | 2023-12-12 |
JPWO2020071558A1 (ja) | 2021-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943105B2 (en) | Document field detection and parsing | |
WO2020071558A1 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
CN106503703B (zh) | 使用终端设备来识别信用卡号码和到期日期的系统和方法 | |
CN109685052A (zh) | 文本图像处理方法、装置、电子设备及计算机可读介质 | |
JP2008159056A (ja) | 画像中に生じる特徴の生成モデルによる分類 | |
US11600088B2 (en) | Utilizing machine learning and image filtering techniques to detect and analyze handwritten text | |
Slavin | Using special text points in the recognition of documents | |
CN115497124A (zh) | 身份识别方法和装置及存储介质 | |
CN114971294A (zh) | 数据采集方法、装置、设备及存储介质 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
Mörzinger et al. | Visual Structure Analysis of Flow Charts in Patent Images. | |
JP6896260B1 (ja) | レイアウト解析装置、その解析プログラムおよびその解析方法 | |
Das et al. | Hand-written and machine-printed text classification in architecture, engineering & construction documents | |
CN114359912B (zh) | 基于图神经网络的软件页面关键信息提取方法及系统 | |
Li et al. | Comic image understanding based on polygon detection | |
CN110147516A (zh) | 页面设计中前端代码的智能识别方法及相关设备 | |
Baek et al. | TRACE: Table Reconstruction Aligned to Corner and Edges | |
US20220044048A1 (en) | System and method to recognise characters from an image | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Duth et al. | Recognition of hand written and printed text of cursive writing utilizing optical character recognition | |
Tonge et al. | Automatic Number Plate Recognition | |
Akhter et al. | Semantic segmentation of printed text from marathi document images using deep learning methods | |
Yadav et al. | Rfpssih: reducing false positive text detection sequels in scenery images using hybrid technique | |
Kashevnik et al. | An Approach to Engineering Drawing Organization: Title Block Detection and Processing | |
Shao et al. | An online handwritten numerals segmentation algorithm based on spectral clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19870018 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020551133 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19870018 Country of ref document: EP Kind code of ref document: A1 |