JPWO2021053510A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2021053510A5
JPWO2021053510A5 JP2022515803A JP2022515803A JPWO2021053510A5 JP WO2021053510 A5 JPWO2021053510 A5 JP WO2021053510A5 JP 2022515803 A JP2022515803 A JP 2022515803A JP 2022515803 A JP2022515803 A JP 2022515803A JP WO2021053510 A5 JPWO2021053510 A5 JP WO2021053510A5
Authority
JP
Japan
Prior art keywords
image
row
frequency
bitmap
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022515803A
Other languages
English (en)
Other versions
JP2022547962A (ja
JP7486574B2 (ja
Publication date
Priority claimed from US16/571,301 external-priority patent/US11188748B2/en
Application filed filed Critical
Publication of JP2022547962A publication Critical patent/JP2022547962A/ja
Publication of JPWO2021053510A5 publication Critical patent/JPWO2021053510A5/ja
Application granted granted Critical
Publication of JP7486574B2 publication Critical patent/JP7486574B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (17)

  1. 文書を処理する方法であって、
    前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
    前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することと、
    局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
    前記周波数表現のセットで識別される少なくとも1つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
    前記画像部分のセットをテキスト認識システムに送信することと、
    を含む、方法。
  2. 前記行総和値のセットを行総和信号にまとめることと、
    前記列総和値のセットを列総和信号にまとめることと、
    前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
    をさらに含む、請求項1に記載の方法。
  3. 前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
    前記ゼロ周波数領域内で前記分離位置を選択することと、
    をさらに含む、請求項1または2に記載の方法。
  4. 前記分解することの前に、前記方法は、
    前記ビットマップ画像の第1のビットマップ境界領域のセットに対応する前記列周波数表現における第1のゼロ周波数領域のセットを識別することと、
    前記ビットマップ画像の第2のビットマップ境界領域のセットに対応する前記行周波数表現における第2のゼロ周波数領域のセットを識別することと、
    前記ビットマップ画像から前記第1のビットマップ境界領域のセットおよび前記第2のビットマップ境界領域のセットを除去することと、
    をさらに含む、請求項1、2、または3に記載の方法。
  5. 前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記方法は、
    前記第1の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
    前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
    前記周波数表現のサブセットで識別される少なくとも1つの異なる分離位置に基づいて、前記第1の画像部分を第3の画像部分および第4の画像部分に再帰的に分解することと、
    をさらに含む、請求項1~4のいずれか一項に記載の方法。
  6. 前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記方法は、
    前記第1の画像部分に対応する前記行周波数表現の部分を評価することと、
    前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
    前記最小の線形結合が前記第1の画像部分の高さに近いか否かを判定することと、
    前記最小の線形結合が前記第1の画像部分の高さに近いと判定したことに応答して、前記第1の画像部分の分解を終了することと、
    をさらに含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の1つに対応する、生成すること
    をさらに含む、請求項1~6のいずれか一項に記載の方法。
  8. 前記文書を変換することは、
    画素強度のセットを含む黒/白の画像に前記文書を変換することと、
    前記画素強度のセットを正規化して前記ビットマップ画像の前記画素値のセットを生成することと、
    を含む、請求項1~7のいずれか一項に記載の方法。
  9. 1つまたは複数のプロセッサと、
    前記プロセッサのうちの少なくとも1つに結合されたメモリと、
    前記メモリに記憶され、アクションを実行することによって文書を処理するために前記プロセッサのうちの少なくとも1つによって実行されるコンピュータ・プログラム命令のセットと、
    を含む情報ハンドリング・システムであって、前記アクションは、
    前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
    前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することであって、前記ビットマップ画像は文書の画素化された表現である、集約することと、
    局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
    前記周波数表現のセットで識別される少なくとも1つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
    前記画像部分のセットをテキスト認識システムに送信することと、
    を含む、情報ハンドリング・システム。
  10. 前記プロセッサは、
    前記行総和値のセットを行総和信号にまとめることと、
    前記列総和値のセットを列総和信号にまとめることと、
    前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
    を含む追加のアクションを実行する、請求項9に記載の情報ハンドリング・システム。
  11. 前記プロセッサは、
    前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
    前記ゼロ周波数領域内で前記分離位置を選択することと、
    を含む追加のアクションを実行する、請求項9または10に記載の情報ハンドリング・システム。
  12. 前記分解することの前に、前記プロセッサは、
    前記ビットマップ画像の第1のビットマップ境界領域のセットに対応する前記列周波数表現における第1のゼロ周波数領域のセットを識別することと、
    前記ビットマップ画像の第2のビットマップ境界領域のセットに対応する前記行周波数表現における第2のゼロ周波数領域のセットを識別することと、
    前記ビットマップ画像から前記第1のビットマップ境界領域のセットおよび前記第2のビットマップ境界領域のセットを除去することと、
    を含む追加のアクションを実行する、請求項9、10、または11に記載の情報ハンドリング・システム。
  13. 前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記プロセッサは、
    前記第1の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
    前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
    前記周波数表現のサブセットで識別される少なくとも1つの異なる分離位置に基づいて、前記第1の画像部分を第3の画像部分および第4の画像部分に再帰的に分解することと、
    を含む追加のアクションを実行する、請求項9~12のいずれか一項に記載の情報ハンドリング・システム。
  14. 前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記プロセッサは、
    前記第1の画像部分に対応する前記行周波数表現の部分を評価することと、
    前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
    前記最小の線形結合が前記第1の画像部分の高さに近いか否かを判定することと、
    前記最小の線形結合が前記第1の画像部分の高さに近いと判定したことに応答して、前記第1の画像部分の分解を終了することと、
    を含む追加のアクションを実行する、請求項9~13のいずれか一項に記載の情報ハンドリング・システム。
  15. 前記プロセッサは、
    前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の1つに対応する、生成すること
    を含む追加のアクションを実行する、請求項9~14のいずれか一項に記載の情報ハンドリング・システム。
  16. 請求項1~8のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ・プログラムを記憶したコンピュータ可読記憶媒体。
  17. 命令を含むコンピュータ・プログラムであって、前記命令は、前記プログラムがコンピュータによって実行された場合に、請求項1~8のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータ・プログラム。
JP2022515803A 2019-09-16 2020-09-15 コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習 Active JP7486574B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/571,301 US11188748B2 (en) 2019-09-16 2019-09-16 Scalable structure learning via context-free recursive document decomposition
US16/571,301 2019-09-16
PCT/IB2020/058572 WO2021053510A1 (en) 2019-09-16 2020-09-15 Scalable structure learning via context-free recursive document decomposition

Publications (3)

Publication Number Publication Date
JP2022547962A JP2022547962A (ja) 2022-11-16
JPWO2021053510A5 true JPWO2021053510A5 (ja) 2022-12-16
JP7486574B2 JP7486574B2 (ja) 2024-05-17

Family

ID=74869686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022515803A Active JP7486574B2 (ja) 2019-09-16 2020-09-15 コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習

Country Status (6)

Country Link
US (1) US11188748B2 (ja)
JP (1) JP7486574B2 (ja)
CN (1) CN114365202B (ja)
DE (1) DE112020003002T5 (ja)
GB (1) GB2602229B (ja)
WO (1) WO2021053510A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232454B2 (en) 2019-11-14 2022-01-25 Bank Of America Corporation Authentication framework for real-time document processing

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0358815B1 (en) 1988-09-12 1993-05-26 Océ-Nederland B.V. System and method for automatic segmentation
US5335290A (en) 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US6307962B1 (en) 1995-09-01 2001-10-23 The University Of Rochester Document data compression system which automatically segments documents and generates compressed smart documents therefrom
US7751596B2 (en) * 1996-11-12 2010-07-06 Digimarc Corporation Methods and arrangements employing digital content items
JP3852218B2 (ja) 1998-09-10 2006-11-29 富士ゼロックス株式会社 画像処理方法および画像処理装置
US6853854B1 (en) * 1998-09-18 2005-02-08 Q Step Technologies, Llc Noninvasive measurement system
US6363381B1 (en) 1998-11-03 2002-03-26 Ricoh Co., Ltd. Compressed document matching
JP2000298702A (ja) 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US7046848B1 (en) * 2001-08-22 2006-05-16 Olcott Peter L Method and system for recognizing machine generated character glyphs and icons in graphic images
US7400768B1 (en) 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US7889885B2 (en) * 2005-11-23 2011-02-15 Pitney Bowes Inc. Method for detecting perforations on the edge of an image of a form
US7961959B2 (en) * 2006-08-24 2011-06-14 Dell Products L.P. Methods and apparatus for reducing storage size
US8739022B2 (en) 2007-09-27 2014-05-27 The Research Foundation For The State University Of New York Parallel approach to XML parsing
US8311331B2 (en) 2010-03-09 2012-11-13 Microsoft Corporation Resolution adjustment of an image that includes text undergoing an OCR process
JP6129759B2 (ja) * 2014-02-03 2017-05-17 満男 江口 Simd型超並列演算処理装置向け超解像処理方法、装置、プログラム及び記憶媒体
JP6235368B2 (ja) 2014-02-17 2017-11-22 株式会社東芝 パターン認識装置、パターン認識方法およびプログラム
US10140548B2 (en) * 2014-08-15 2018-11-27 Lenovo (Singapore) Pte. Ltd. Statistical noise analysis for motion detection
US10158840B2 (en) 2015-06-19 2018-12-18 Amazon Technologies, Inc. Steganographic depth images
US10070009B2 (en) 2016-09-22 2018-09-04 Kyocera Document Solutions Inc. Selection of halftoning technique based on microstructure detection
US10515606B2 (en) * 2016-09-28 2019-12-24 Samsung Electronics Co., Ltd. Parallelizing display update
US10489502B2 (en) 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
US10922540B2 (en) * 2018-07-03 2021-02-16 Neural Vision Technologies LLC Clustering, classifying, and searching documents using spectral computer vision and neural networks

Similar Documents

Publication Publication Date Title
KR102275413B1 (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
US10964026B2 (en) Refined segmentation system, method and device of image shadow area
US9495343B2 (en) Horizontal and vertical line detection and removal for document images
US8391602B2 (en) Character recognition
US9104940B2 (en) Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines
Mehri et al. Texture feature benchmarking and evaluation for historical document image analysis
US9524559B2 (en) Image processing device and method
WO2016033710A1 (en) Scene text detection system and method
US11599784B2 (en) Signal processing device, signal processing method, and computer program product
JP7244223B2 (ja) 電子文書における強調テキストの識別
US11769341B2 (en) System and method to extract information from unstructured image documents
WO2021190155A1 (zh) 文本行中的空格识别方法、装置、电子设备及存储介质
CN107967694A (zh) 一种基于反馈丰度约束的高光谱目标检测方法、系统、存储介质以及处理器
WO2023284609A1 (zh) 图形码识别方法、装置、计算机设备和存储介质
CN114462603A (zh) 数据湖的知识图谱生成方法及装置
Shehzadi et al. Towards end-to-end semi-supervised table detection with deformable transformer
CN114863431A (zh) 一种文本检测方法、装置及设备
WO2024179388A1 (zh) 一种复式神经网络架构的浮游生物目标检测与分类方法
KR20150099116A (ko) Ocr를 이용한 컬러 문자 인식 방법 및 그 장치
De Nardin et al. Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding
US10657369B1 (en) Unsupervised removal of text from images using linear programming for optimal filter design
US9104450B2 (en) Graphical user interface component classification
JPWO2021053510A5 (ja)
GB2602229A (en) Scalable structure learning via context-free recursive document decomposition
CN115373658A (zh) 一种基于Web图片的前端代码自动生成方法和装置