JPWO2020071558A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020071558A5
JPWO2020071558A5 JP2020551133A JP2020551133A JPWO2020071558A5 JP WO2020071558 A5 JPWO2020071558 A5 JP WO2020071558A5 JP 2020551133 A JP2020551133 A JP 2020551133A JP 2020551133 A JP2020551133 A JP 2020551133A JP WO2020071558 A5 JPWO2020071558 A5 JP WO2020071558A5
Authority
JP
Japan
Prior art keywords
item
layout
image
attributes
layout analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020551133A
Other languages
English (en)
Other versions
JP7396568B2 (ja
JPWO2020071558A1 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/JP2019/039412 external-priority patent/WO2020071558A1/ja
Publication of JPWO2020071558A1 publication Critical patent/JPWO2020071558A1/ja
Publication of JPWO2020071558A5 publication Critical patent/JPWO2020071558A5/ja
Application granted granted Critical
Publication of JP7396568B2 publication Critical patent/JP7396568B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (8)

  1. 帳票のレイアウトを解析する帳票レイアウト解析装置において、
    帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する項目抽出部と、
    前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析するレイアウト解析部と、
    を有し、
    前記項目抽出部は、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
    ことを特徴とする帳票レイアウト解析装置。
  2. 帳票上に手書き文字で記入された文字列を含む手書き文字領域を帳票画像中から個別に抽出する手書き領域抽出部をさらに有し、
    前記レイアウト解析部は、前記手書き領域抽出部によって抽出された手書き文字領域のそれぞれに対して、前記項目抽出部によって分類された属性のいずれかを割り当てる
    ことを特徴とする請求項1に記載された帳票レイアウト解析装置。
  3. 前記レイアウト解析部は、予め設定された対応規則にしたがって、前記項目領域と、その近傍に位置する前記手書き文字領域とを対応付けた上で、前記手書き文字領域に対して、これに対応付けられた前記項目領域の属性を割り当てる
    ことを特徴とする請求項2に記載された帳票レイアウト解析装置。
  4. 前記項目抽出部は、前記帳票画像を一つのニューラルネットワークに入力することで、前記項目領域の抽出と、その属性の分類とをまとめて行う
    ことを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。
  5. 前記項目抽出部は、前記属性の分類確度を出力し、
    前記分類確度が所定のしきい値よりも小さい前記属性をノイズとして除去するフィルタ処理部をさらに有する
    ことを特徴とする請求項1からのいずれかに記載された帳票レイアウト解析装置。
  6. 前記レイアウト解析部は、帳票画像のレイアウトについて複数の解析結果が得られた場合、当該複数の解析結果をレイアウトの候補としてユーザに提示する
    ことを特徴とする請求項1から3のいずれかに記載された帳票レイアウト解析装置。
  7. 帳票のレイアウトを解析する帳票レイアウト解析プログラムにおいて、
    帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
    前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
    を有し、
    前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
    処理をコンピュータに実行させることを特徴とする帳票レイアウト解析プログラム。
  8. 帳票のレイアウトを解析する帳票レイアウト解析方法において、
    帳票上に活字で印刷された項目名を含む項目領域を抽出対象として、帳票画像中に含まれる項目領域を属性の分類付きで個別に抽出する第1のステップと、
    前記帳票画像上における項目領域の位置およびその属性に基づいて、帳票画像のレイアウトを解析する第2のステップと、
    を有し、
    前記第1のステップは、活字で表された項目名を含む項目画像と、当該項目画像の属性との対である教師データを用いた教師あり学習によって構築された学習モデルを参照して、前記項目領域の抽出と、その属性の分類とを行う
    ことを特徴とする帳票レイアウト解析方法。
JP2020551133A 2018-10-05 2019-10-04 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 Active JP7396568B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018190112 2018-10-05
JP2018190112 2018-10-05
PCT/JP2019/039412 WO2020071558A1 (ja) 2018-10-05 2019-10-04 帳票レイアウト解析装置、その解析プログラムおよびその解析方法

Publications (3)

Publication Number Publication Date
JPWO2020071558A1 JPWO2020071558A1 (ja) 2021-10-07
JPWO2020071558A5 true JPWO2020071558A5 (ja) 2022-10-07
JP7396568B2 JP7396568B2 (ja) 2023-12-12

Family

ID=70055833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020551133A Active JP7396568B2 (ja) 2018-10-05 2019-10-04 帳票レイアウト解析装置、その解析プログラムおよびその解析方法

Country Status (2)

Country Link
JP (1) JP7396568B2 (ja)
WO (1) WO2020071558A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021170221A (ja) * 2020-04-15 2021-10-28 ネットスター株式会社 学習済みモデル、サイト判定プログラム及びサイト判定システム
JP7478345B2 (ja) 2020-05-12 2024-05-07 京セラドキュメントソリューションズ株式会社 帳票データ取得システムおよび帳票データ取得プログラム
CN111709339B (zh) 2020-06-09 2023-09-19 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质
JP7452809B1 (ja) 2023-08-09 2024-03-19 ファーストアカウンティング株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231291A (ja) * 1996-02-27 1997-09-05 Mitsubishi Electric Corp 帳票読取方法及びその装置
JP4867941B2 (ja) 2008-03-24 2012-02-01 沖電気工業株式会社 帳票処理方法、帳票処理プログラム、帳票処理装置、および、帳票処理システム
JP2017010069A (ja) 2015-06-16 2017-01-12 シャープ株式会社 情報処理装置

Similar Documents

Publication Publication Date Title
JPWO2020071558A5 (ja)
EP3437019B1 (en) Optical character recognition in structured documents
Zamberletti et al. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions
JP7396568B2 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
US20180181805A1 (en) Generating variations of a known shred
Tian et al. Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering
CN105760891A (zh) 一种中文字符验证码的识别方法
Kumar et al. Multi-script robust reading competition in ICDAR 2013
Li et al. Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
Mörzinger et al. Visual Structure Analysis of Flow Charts in Patent Images.
Fallah et al. Detecting features of human personality based on handwriting using learning algorithms
Hirata et al. Matching based ground-truth annotation for online handwritten mathematical expressions
Ghosh et al. Textual content retrieval from filled-in form images
Wilkinson et al. A novel word segmentation method based on object detection and deep learning
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
Xu et al. Scene text detection based on robust stroke width transform and deep belief network
KR20220132536A (ko) 필기에서의 수학 검출
JP6896260B1 (ja) レイアウト解析装置、その解析プログラムおよびその解析方法
Li et al. A text-line segmentation method for historical Tibetan documents based on baseline detection
Dong et al. Recognition of offline handwritten mathematical symbols using convolutional neural networks
Singh et al. Performance analysis of thinning algorithms for offline-handwritten Devanagari words
Garz et al. A user-centered segmentation method for complex historical manuscripts based on document graphs
Bharathi et al. Segregated handwritten character recognition using GLCM features