JPWO2021053510A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2021053510A5 JPWO2021053510A5 JP2022515803A JP2022515803A JPWO2021053510A5 JP WO2021053510 A5 JPWO2021053510 A5 JP WO2021053510A5 JP 2022515803 A JP2022515803 A JP 2022515803A JP 2022515803 A JP2022515803 A JP 2022515803A JP WO2021053510 A5 JPWO2021053510 A5 JP WO2021053510A5
- Authority
- JP
- Japan
- Prior art keywords
- image
- row
- frequency
- bitmap
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims 15
- 230000002730 additional effect Effects 0.000 claims 6
- 238000000926 separation method Methods 0.000 claims 6
- 238000004590 computer program Methods 0.000 claims 3
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000000354 decomposition reaction Methods 0.000 claims 2
- 238000012015 optical character recognition Methods 0.000 claims 2
- 230000004044 response Effects 0.000 claims 2
Claims (17)
- 文書を処理する方法であって、
前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することと、
局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
前記周波数表現のセットで識別される少なくとも1つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
前記画像部分のセットをテキスト認識システムに送信することと、
を含む、方法。 - 前記行総和値のセットを行総和信号にまとめることと、
前記列総和値のセットを列総和信号にまとめることと、
前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
をさらに含む、請求項1に記載の方法。 - 前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
前記ゼロ周波数領域内で前記分離位置を選択することと、
をさらに含む、請求項1または2に記載の方法。 - 前記分解することの前に、前記方法は、
前記ビットマップ画像の第1のビットマップ境界領域のセットに対応する前記列周波数表現における第1のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像の第2のビットマップ境界領域のセットに対応する前記行周波数表現における第2のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像から前記第1のビットマップ境界領域のセットおよび前記第2のビットマップ境界領域のセットを除去することと、
をさらに含む、請求項1、2、または3に記載の方法。 - 前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記方法は、
前記第1の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
前記周波数表現のサブセットで識別される少なくとも1つの異なる分離位置に基づいて、前記第1の画像部分を第3の画像部分および第4の画像部分に再帰的に分解することと、
をさらに含む、請求項1~4のいずれか一項に記載の方法。 - 前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記方法は、
前記第1の画像部分に対応する前記行周波数表現の部分を評価することと、
前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
前記最小の線形結合が前記第1の画像部分の高さに近いか否かを判定することと、
前記最小の線形結合が前記第1の画像部分の高さに近いと判定したことに応答して、前記第1の画像部分の分解を終了することと、
をさらに含む、請求項1~5のいずれか一項に記載の方法。 - 前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の1つに対応する、生成すること
をさらに含む、請求項1~6のいずれか一項に記載の方法。 - 前記文書を変換することは、
画素強度のセットを含む黒/白の画像に前記文書を変換することと、
前記画素強度のセットを正規化して前記ビットマップ画像の前記画素値のセットを生成することと、
を含む、請求項1~7のいずれか一項に記載の方法。 - 1つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも1つに結合されたメモリと、
前記メモリに記憶され、アクションを実行することによって文書を処理するために前記プロセッサのうちの少なくとも1つによって実行されるコンピュータ・プログラム命令のセットと、
を含む情報ハンドリング・システムであって、前記アクションは、
前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することであって、前記ビットマップ画像は文書の画素化された表現である、集約することと、
局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
前記周波数表現のセットで識別される少なくとも1つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
前記画像部分のセットをテキスト認識システムに送信することと、
を含む、情報ハンドリング・システム。 - 前記プロセッサは、
前記行総和値のセットを行総和信号にまとめることと、
前記列総和値のセットを列総和信号にまとめることと、
前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
を含む追加のアクションを実行する、請求項9に記載の情報ハンドリング・システム。 - 前記プロセッサは、
前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
前記ゼロ周波数領域内で前記分離位置を選択することと、
を含む追加のアクションを実行する、請求項9または10に記載の情報ハンドリング・システム。 - 前記分解することの前に、前記プロセッサは、
前記ビットマップ画像の第1のビットマップ境界領域のセットに対応する前記列周波数表現における第1のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像の第2のビットマップ境界領域のセットに対応する前記行周波数表現における第2のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像から前記第1のビットマップ境界領域のセットおよび前記第2のビットマップ境界領域のセットを除去することと、
を含む追加のアクションを実行する、請求項9、10、または11に記載の情報ハンドリング・システム。 - 前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記プロセッサは、
前記第1の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
前記周波数表現のサブセットで識別される少なくとも1つの異なる分離位置に基づいて、前記第1の画像部分を第3の画像部分および第4の画像部分に再帰的に分解することと、
を含む追加のアクションを実行する、請求項9~12のいずれか一項に記載の情報ハンドリング・システム。 - 前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第1の画像部分および第2の画像部分を含み、前記プロセッサは、
前記第1の画像部分に対応する前記行周波数表現の部分を評価することと、
前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
前記最小の線形結合が前記第1の画像部分の高さに近いか否かを判定することと、
前記最小の線形結合が前記第1の画像部分の高さに近いと判定したことに応答して、前記第1の画像部分の分解を終了することと、
を含む追加のアクションを実行する、請求項9~13のいずれか一項に記載の情報ハンドリング・システム。 - 前記プロセッサは、
前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の1つに対応する、生成すること
を含む追加のアクションを実行する、請求項9~14のいずれか一項に記載の情報ハンドリング・システム。 - 請求項1~8のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ・プログラムを記憶したコンピュータ可読記憶媒体。
- 命令を含むコンピュータ・プログラムであって、前記命令は、前記プログラムがコンピュータによって実行された場合に、請求項1~8のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/571,301 US11188748B2 (en) | 2019-09-16 | 2019-09-16 | Scalable structure learning via context-free recursive document decomposition |
US16/571,301 | 2019-09-16 | ||
PCT/IB2020/058572 WO2021053510A1 (en) | 2019-09-16 | 2020-09-15 | Scalable structure learning via context-free recursive document decomposition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022547962A JP2022547962A (ja) | 2022-11-16 |
JPWO2021053510A5 true JPWO2021053510A5 (ja) | 2022-12-16 |
JP7486574B2 JP7486574B2 (ja) | 2024-05-17 |
Family
ID=74869686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022515803A Active JP7486574B2 (ja) | 2019-09-16 | 2020-09-15 | コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11188748B2 (ja) |
JP (1) | JP7486574B2 (ja) |
CN (1) | CN114365202B (ja) |
DE (1) | DE112020003002T5 (ja) |
GB (1) | GB2602229B (ja) |
WO (1) | WO2021053510A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232454B2 (en) | 2019-11-14 | 2022-01-25 | Bank Of America Corporation | Authentication framework for real-time document processing |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0358815B1 (en) | 1988-09-12 | 1993-05-26 | Océ-Nederland B.V. | System and method for automatic segmentation |
US5335290A (en) | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US6307962B1 (en) | 1995-09-01 | 2001-10-23 | The University Of Rochester | Document data compression system which automatically segments documents and generates compressed smart documents therefrom |
US7751596B2 (en) * | 1996-11-12 | 2010-07-06 | Digimarc Corporation | Methods and arrangements employing digital content items |
JP3852218B2 (ja) | 1998-09-10 | 2006-11-29 | 富士ゼロックス株式会社 | 画像処理方法および画像処理装置 |
US6853854B1 (en) * | 1998-09-18 | 2005-02-08 | Q Step Technologies, Llc | Noninvasive measurement system |
US6363381B1 (en) | 1998-11-03 | 2002-03-26 | Ricoh Co., Ltd. | Compressed document matching |
JP2000298702A (ja) | 1999-04-15 | 2000-10-24 | Canon Inc | 画像処理装置及びその方法、コンピュータ可読メモリ |
US7046848B1 (en) * | 2001-08-22 | 2006-05-16 | Olcott Peter L | Method and system for recognizing machine generated character glyphs and icons in graphic images |
US7400768B1 (en) | 2001-08-24 | 2008-07-15 | Cardiff Software, Inc. | Enhanced optical recognition of digitized images through selective bit insertion |
US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
US7889885B2 (en) * | 2005-11-23 | 2011-02-15 | Pitney Bowes Inc. | Method for detecting perforations on the edge of an image of a form |
US7961959B2 (en) * | 2006-08-24 | 2011-06-14 | Dell Products L.P. | Methods and apparatus for reducing storage size |
US8739022B2 (en) | 2007-09-27 | 2014-05-27 | The Research Foundation For The State University Of New York | Parallel approach to XML parsing |
US8311331B2 (en) | 2010-03-09 | 2012-11-13 | Microsoft Corporation | Resolution adjustment of an image that includes text undergoing an OCR process |
JP6129759B2 (ja) * | 2014-02-03 | 2017-05-17 | 満男 江口 | Simd型超並列演算処理装置向け超解像処理方法、装置、プログラム及び記憶媒体 |
JP6235368B2 (ja) | 2014-02-17 | 2017-11-22 | 株式会社東芝 | パターン認識装置、パターン認識方法およびプログラム |
US10140548B2 (en) * | 2014-08-15 | 2018-11-27 | Lenovo (Singapore) Pte. Ltd. | Statistical noise analysis for motion detection |
US10158840B2 (en) | 2015-06-19 | 2018-12-18 | Amazon Technologies, Inc. | Steganographic depth images |
US10070009B2 (en) | 2016-09-22 | 2018-09-04 | Kyocera Document Solutions Inc. | Selection of halftoning technique based on microstructure detection |
US10515606B2 (en) * | 2016-09-28 | 2019-12-24 | Samsung Electronics Co., Ltd. | Parallelizing display update |
US10489502B2 (en) | 2017-06-30 | 2019-11-26 | Accenture Global Solutions Limited | Document processing |
CN108460385A (zh) * | 2018-03-02 | 2018-08-28 | 山东超越数控电子股份有限公司 | 一种文本图像分割方法与装置 |
US10922540B2 (en) * | 2018-07-03 | 2021-02-16 | Neural Vision Technologies LLC | Clustering, classifying, and searching documents using spectral computer vision and neural networks |
-
2019
- 2019-09-16 US US16/571,301 patent/US11188748B2/en active Active
-
2020
- 2020-09-15 JP JP2022515803A patent/JP7486574B2/ja active Active
- 2020-09-15 WO PCT/IB2020/058572 patent/WO2021053510A1/en active Application Filing
- 2020-09-15 CN CN202080063240.XA patent/CN114365202B/zh active Active
- 2020-09-15 GB GB2203443.3A patent/GB2602229B/en active Active
- 2020-09-15 DE DE112020003002.4T patent/DE112020003002T5/de active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102275413B1 (ko) | 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법 | |
US10964026B2 (en) | Refined segmentation system, method and device of image shadow area | |
US9495343B2 (en) | Horizontal and vertical line detection and removal for document images | |
US8391602B2 (en) | Character recognition | |
US9104940B2 (en) | Line segmentation method applicable to document images containing handwriting and printed text characters or skewed text lines | |
Mehri et al. | Texture feature benchmarking and evaluation for historical document image analysis | |
US9524559B2 (en) | Image processing device and method | |
WO2016033710A1 (en) | Scene text detection system and method | |
US11599784B2 (en) | Signal processing device, signal processing method, and computer program product | |
JP7244223B2 (ja) | 電子文書における強調テキストの識別 | |
US11769341B2 (en) | System and method to extract information from unstructured image documents | |
WO2021190155A1 (zh) | 文本行中的空格识别方法、装置、电子设备及存储介质 | |
CN107967694A (zh) | 一种基于反馈丰度约束的高光谱目标检测方法、系统、存储介质以及处理器 | |
WO2023284609A1 (zh) | 图形码识别方法、装置、计算机设备和存储介质 | |
CN114462603A (zh) | 数据湖的知识图谱生成方法及装置 | |
Shehzadi et al. | Towards end-to-end semi-supervised table detection with deformable transformer | |
CN114863431A (zh) | 一种文本检测方法、装置及设备 | |
WO2024179388A1 (zh) | 一种复式神经网络架构的浮游生物目标检测与分类方法 | |
KR20150099116A (ko) | Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 | |
De Nardin et al. | Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding | |
US10657369B1 (en) | Unsupervised removal of text from images using linear programming for optimal filter design | |
US9104450B2 (en) | Graphical user interface component classification | |
JPWO2021053510A5 (ja) | ||
GB2602229A (en) | Scalable structure learning via context-free recursive document decomposition | |
CN115373658A (zh) | 一种基于Web图片的前端代码自动生成方法和装置 |