JPWO2021084702A1 - 文書画像解析装置、文書画像解析方法およびプログラム - Google Patents
文書画像解析装置、文書画像解析方法およびプログラム Download PDFInfo
- Publication number
- JPWO2021084702A1 JPWO2021084702A1 JP2020564013A JP2020564013A JPWO2021084702A1 JP WO2021084702 A1 JPWO2021084702 A1 JP WO2021084702A1 JP 2020564013 A JP2020564013 A JP 2020564013A JP 2020564013 A JP2020564013 A JP 2020564013A JP WO2021084702 A1 JPWO2021084702 A1 JP WO2021084702A1
- Authority
- JP
- Japan
- Prior art keywords
- document image
- regions
- area
- unit
- reading order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/274—Converting codes to words; Guess-ahead of partial word inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Abstract
Description
これら記事のPDFファイルをウェブプラットフォーム上に記憶し、アクセス可能にすることで、新聞や雑誌等の記事をウェブコンテンツとして再利用することができる。
一方、ウェブコンテンツを閲覧するためのデバイスは、PC(Personal Computer)、タブレット、モバイルフォン等を含み、デバイスのタイプによってディスプレイサイズやアスペクト比は多様である。
この場合、特許文献1(特開2008−225964号公報)に記載の技術では、図表領域や写真領域を含めた複数種類の領域間で読み順を付与することができない。
また、単純に文書画像の左上から右下の順に読み順を付与したのでは、例えば縦組みと横組みが混在する記事等、記事のレイアウトが複雑になる程、記事が実際に想定する読み順と齟齬するおそれが高まる。例えば、文書画像の左上から右下のシーケンス上、写真やイラストの前後に同一の記事のカラムが配置される場合には、意味的に連続するカラムが分断されてしまう。
前記クラスタ化部は、所定のカテゴリが付与された領域の大きさに基づいて、前記複数の領域をクラスタ化してよい。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
本実施形態に係る文書画像解析装置は、文書および画像を含むあらゆるコンテンツを、TIFF(Tagged Image File Format)、JPEG(Joint Photographic Expert Group)等の任意の画像フォーマット、またはAI(Adobe Illustrator)、EPS(Encapsulated PostScript)、PSD(Photoshop Documnent)等の任意のDTP(Desk Top Publishing)フォーマットまたは文書フォーマットで入力することができ、また生成された構造化文書を、例えばSGML(Standard Generalized Markup Language)、HTML(Hyper Text Markup Language)等、あらゆる記述言語で記述することができる。
図1は、本実施形態に係る文書画像解析装置の機能構成の一例を示すブロック図である。
図1に示す文書画像解析装置1は、文書画像取得部11、領域検出部12、領域クラスタ化部13、読み順付与部14、および構造化文書出力部15を備える。
領域検出部12は、文書画像取得部11により取得された文書画像中から、複数の領域をセグメントとして検出するとともに、検出された領域のそれぞれをタイトル、カラム(記事本文)、写真やイラストレーション等のカテゴリに分類して、領域クラスタ化部13に供給する。
読み順付与部14は、クラスタ化された記事内の複数の領域に読み順を付与し、読み順が付与された記事のデータを構造化文書出力部15に供給する。
構造化文書出力部15は、読み順が付与された記事のデータから、例えば、XML等の記述言語で記述された、構造化された文書を生成し、生成された構造化文書を構造化文書格納部3に出力する。
図2は、本実施形態に係る文書画像解析装置が実行する文書画像解析処理の概略処理手順の一例を示すフローチャートである。
なお、図2の各ステップは、文書画像解析装置1の記憶部に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、図2に示すフローチャートの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウェアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
なお、文書画像取得部11により取得される文書画像は、当初からPDFファイルとして作成されたテキストおよび画像を含む記事であってもよく、新聞や雑誌等の紙媒体の記事を事後的にスキャンしてPDFファイル化された記事であってもよい。
図3は、S2で領域検出部12が出力する出力例であり、領域が検出されカテゴリがラベリングされた文書画像の一例を示す。
図4は、S4で領域クラスタ化部13が出力する出力例であり、複数の領域が記事にクラスタ化された文書画像の一例を示す。
図4を参照して、図3で検出された文書画像の領域301〜310は記事41に、領域311〜312は記事42に、それぞれクラスタ化されている。それぞれの記事41、42は、文書画像内のクラスタである。この領域クラスタ化処理の詳細は、図15〜図18を参照して後述する。
なお、S1で取得される文書画像が複数ページに亘る場合、S4で、各ページでクラスタ化された記事を、さらに複数ページに亘って1つの記事に統合する処理が実行されるが、その処理の詳細は、図21を参照して後述する。
図5は、S5で読み順付与部14が出力する出力例であり、記事内の複数の領域に読み順が付与された文書画像の一例を示す。
ここで、記事内の領域に付与される読み順は、読者が記事を一瞥できる場合の自然な読み順に従ったものであるが、この読み順付与処理の詳細は、図19および図20を参照して後述する。
図6は、文書画像解析装置1の領域検出部12のテキストベース解析エンジン121が実行するテキストベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。
S201で、テキストベース解析エンジン121は、図2のS1で取得された文書画像のPDFファイルを解析してテキストを抽出する。
S202で、テキストベース解析エンジン121は、S201の解析結果に基づいて、文書画像のテキスト部分について、各テキスト行の特徴を抽出する。
図7は、S202でテキストベース解析エンジン121が文書画像のテキスト部分からテキスト行が1行ごとに検出されている例を示す。図7を参照して、一点鎖線で示す矩形ボックスが、文書画像中のテキストから検出されたそれぞれのテキスト行を示す。
図8は、テキストベース解析エンジンが実行するテキスト行からパラグラフへのクラスタ化処理を説明する模式図である。
図8左の文書画像81では、記事のタイトルとカラムのテキストが1つのテキスト行ごと検出されており、各テキスト行は、その位置を特定する少なくとも始点と終点の座標値をそれぞれ有する。
図8右の文書画像83では、距離が所定の閾値内にあるテキスト行同士が、パラグラフ(領域)にクラスタ化されており、各パラグラフは、当該パラグラフの位置を特定する少なくとも始点と終点の座標値をそれぞれ有する。なお、図8に示すテキスト行のクラスタ化処理は、比較的負荷が軽く高速で実行可能であるため、複数回実行してクラスタ化の精度を高めてもよい。
また、本実施形態では、S205で、各テキスト行が、プレタイトル、タイトル、サブタイトル、カラム等のカテゴリに分類された後、さらに、テキストベース解析エンジン121は、各テキスト行に付与されたカテゴリに基づいて、同一のカテゴリを有する隣接するテキスト行をグルーピングする。これにより、S203でのパラグラフへのクラスタ化が最適化される。
図9は、文書画像解析装置1の領域検出部12の画像ベース解析エンジン122が実行するテキストベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。図9に示す処理は、図6に示すテキストベース解析エンジン121が実行するテキストベースの領域検出処理と並行して実行され、すなわち、テキストベースの領域検出処理と同時に、または連続して実行されてよい。
S211で、画像ベース解析エンジン122は、図2のS1で取得された文書画像のPDFファイルを、ページごとに、画像として読み取る。
図10は、読み取られる文書画像の一例を示す。図10を参照して、画像およびテキストを含む1ページの文書画像10が、1つの画像ファイルとして読み取られる。
入力された1ページ分の文書画像全体から、学習済みCNNにより、文書画像の特徴マップを抽出する。
次に、RPN(Region Proposal Network)により、CNNで抽出された文書画像の特徴マップに対して、候補領域のバウンディングボックス(Bounding Box:BB)と、当該候補領域のオブジェクトらしさを表す信頼度スコアとを出力する。具体的には、RPNは小さなニューラルネットワークであり、特徴マップ上をn×nサイズのスライディングウインドウで走査し、各々のn×nサイズの注目領域をネットワークの入力とし、それぞれのスライディングウインドウ位置に対してk個の候補領域を推定する。
画像ベース解析エンジン122は、Faster R−CNN等を使用して、候補領域をあらゆるカテゴリに分類することができる。例えば、図11に示す画像は、記事のタイトルとして文書画像中でレイアウトされているオブジェクト画像であるが、PDFファイル中にテキスト情報を持たないものとする。この場合、テキストベース解析エンジン121ではテキスト行を検出することができず、したがって領域として抽出することができない。これに対して、画像ベース解析エンジンは、図11に示す画像を、オブジェクトを含む候補領域として抽出し、画像内のオブジェクトを認識することにより、タイトル領域として抽出することが可能である。
テキストベースの領域検出および領域分類は、より少ない訓練データで実現可能であり、CPUの処理負荷が低く高速で処理でき、かつ明白にテキストに属する領域の抽出に失敗する蓋然性が低い。一方、テキストベースの領域検出および領域分類は、画像ベースの処理と比較すると精度が低く、例えば図11に示すような画像から領域を抽出することができない。
このように、異なる特性を有する複数の領域検出および領域分類手法を補完的に使用することで、本実施形態では、CPU処理負荷を抑制しつつ、文書画像からの記事を構成する領域の検出と検出された領域へのカテゴリのラベリングの精度を向上させている。
図12は、本実施形態に係る文書画像解析装置1の領域検出部12が実行する、図2の領域検出および領域分類処理結果のマージ処理(S3)の詳細処理手順の一例を示すフローチャートである。
図12に示すマージ処理では、一般的により精度が高く、かつ画像からあらゆるオブジェクトを検出することのできる画像ベースの領域検出および領域分類の結果を、大きなサイズのテキスト領域やタイトル領域をより正確に検出することのできるテキストベースの領域検出および領域分類の結果で補完するよう、双方の処理結果がマージされる。
S302で、領域検出部12は、テキストベースで予測された候補領域と画像ベースで予測された予測領域とがオーバーラップするか否かを判定する。
テキストベースの予測領域と画像ベースの予測領域とが文書画像中でオーバーラップすると判定されない場合(S302:N)、S305に進む。一方、テキストベースの予測領域と画像ベースの予測領域とが文書画像中でオーバーラップすると判定された場合(S302:Y)、S303に進む。
S304で、領域検出部12は、オーバーラップする領域について、テキストベースの領域のバウンディングボックスをキープして、S310に進む。すなわち、画像ベースの領域のバウンディングボックスを実際のテキスト行のパラグラフを収容する領域の外枠で補正する。
画像ベースの予測領域のみが検出され、対応するテキストベースの予測領域が検出されない場合(S305:Y)、S306に進み、領域検出部12は、画像ベースの領域にラベリングされたカテゴリおよび当該領域のバウンディングボックスをキープして、S310に進む。一方、画像ベースの予測領域が検出されない場合(S305:N)、S307に進み、領域検出部12は、テキストベースの予測領域が検出されたか否かを判定する。
S307に戻り、画像ベースの候補領域もテキストベースの画像領域も検出されない場合(S307:N)、S312に進み、領域検出部12は、領域を出力することなく、処理を終了する。
Non−Maximum Suppressionは、同一のオブジェクト(クラス)に対して重複して検出された複数の領域(バウンディングボックス)を抑制して、最大の値の領域(バウンディングボックス)のみを抽出するアルゴリズムとして、領域検出部12により利用される。
図13左を参照して、同一のオブジェクト(猫)に対して、2つのバウンディングボックス131および132が重複して検出されている。バウンディングボックス131について算出された信頼度スコアは46%であり、バウンディングボックス132について算出された信頼度スコアは75%であるものとする。
図12に戻り、S312で、領域検出部12は、S310でNon−Maximum Suppressionを適用した結果、キープされた予測領域を、図2のS4で記事にクラスタ化されるべき領域として、出力する。
図14左を参照して、画像ベースの候補領域のバウンディングボックス141と、テキストベースのバウンディングボックス142とが、1つのオブジェクトに対して、オーバーラップ(重複)して検出されている(図12S302:Y)。画像ベースの予測領域は、タイトルのカテゴリでラベリングされ、テキストベースの予測領域は、カラムのカテゴリでラベリングされているものとする。
この場合、図14右に示すように、テキストベースの予測領域のバウンディングボックス142がキープされ(S304)、画像ベースの予測領域にラベリングされたタイトルのカテゴリがキープされて(S305)、1つの新たな領域(バウンディングボックス143)にマージされる。
図15は、文書画像解析装置1の領域クラスタ化部13が実行する図2の領域クラスタ化処理(S4)の詳細処理手順の一例を示すフローチャートである。
S41で、領域クラスタ化部13は、図2のS3から出力される領域をクラスタ化するためのグラフを生成する。具体的には、領域クラスタ化部13は、それぞれの領域につき、当該領域のノードと隣接する領域のノードとをリンクにより接続して、グラフを生成する。幾何学的制約として、ある領域と隣接せず離隔する領域のノードに対しては、リンクを生成しなくてよい。
図16は、S42で出力されるグラフモデルの一例を示す図である。図16を参照して、グラフモデルは、それぞれの領域(パラグラフ)を代表するノードと、ノード間を接続するリンクを有し、それぞれのリンクには、当該リンクが接続するノード間の距離が示されている。
S44で、領域クラスタ化部13は、S43で決定されたノードの隣接ノードへの最短距離を、クラスタ化のための閾値に設定する。
S46で、領域クラスタ化部13は、S45から出力されるグラフのそれぞれが1つの記事(クラスタ)を構成するものと見做して、1つのグラフに属する複数の領域を1つの記事にクラスタ化する。
図17を参照して、関心領域のノード171は、いずれの隣接ノードに対しての距離も0.2であるため、S43で、隣接ノードへの最短距離が最大となるノードとして決定される。このノード171が少なくとも1つの隣接ノードを有するためは、クラスタ化のための距離の閾値は、少なくとも0.2でなければならない。こうして、図17のグラフでは、閾値が0.2に設定される。
例えば、領域クラスタ化部13は、タイトルのカテゴリが付与された領域の大きさや幅に基づいて、クラスタに含めるべき範囲を決定してもよい。
図19は、文書画像解析装置1の読み順付与部14が実行する図2の読み順付与処理(S5)の詳細処理手順の一例を示すフローチャートである。
S51で、読み順付与部14は、1つの記事(クラスタ)内に属する領域(パラグラフ)を、領域にラベリングされたカテゴリに従い、3つのスーパークラスに分類する。ただし、本実施形態において、文書画像中の記事はクラスタの一例であり、クラスタは、文書画像中の任意の複数の領域をクラスタ化して構成されてよく、記事に限定されない。
記事は、例えば、タイトル、カラム、イラストレーションの3つのスーパークラスを有する。
タイトルのスーパークラスには、プレタイトル、タイトル、およびサブタイトルの領域が分類される。カラムのスーパークラスには、カラム、および署名の領域が分類される。イラストレーションのスーパークラスには、イラストレーション(写真を含む)、およびキャプションの領域が分類される。すなわち、スーパークラスは、複数のカテゴリを一般化した上位概念である。
S53で、読み順付与部14は、スーパークラス間で、タイトル、カラム、およびイラストレーションの順にスーパークラスをソートする。ただし、必要に応じてイラストレーションがカラムに先行してもよい。
S54で、読み順付与部14は、1つのクラスタに属する複数の領域に対して、S52およびS53でソートされた順に、読み順を付与する。
図20を参照して、記事181〜185には、それぞれ、クラスタ内で読み順が付与されている。例えば、記事181内では、タイトル(1−0)、カラム(1−1〜1−4)、イラストレーション(写真)(1−5)、およびキャプション(1−6)の順に読み順が付与されており、スーパークラス内では左上から右下に、スーパークラス間では、タイトル、カラム、およびイラストレーションの順に、読み順が付与されていることが分かる。記事182〜185に対しても、同様に読み順が付与されている。
図20に示すように、本実施形態の読み順付与部14は、例えば、現在のクラスタの読み順を付与した後、次のクラスタの読み順を引き続き付与することにより、複数のクラスタに亘って読み順が連続するよう、それぞれのクラスタに属する複数の領域に読み順を付与する。
上記では、1ページごとに入力される文書画像から構造化文書を生成する処理を説明したが、本実施形態では、さらに、複数ページに亘る記事をトラッキングして統合することができる。
具体的には、複数ページに亘る、複数の文書画像を入力とし、1つの記事が2つのタイトルを持てないこと、1つの記事が少なくとも1つのカラムを持つことを制約条件として、以下のようなルールを使用してトポロジー解析を実行する。
・2つのタイトルを有する記事を分離する。
・2ページに亘る画像(イラストレーションや写真)を持つ記事は統合する。
・カラムを持たない記事は最も近い記事にマージする。
さらに、意味論的解析として、他のルールに抵触しない限り、同一のキーワードを共有する記事同士はマージされてよい。
図21は、本実施形態の文書画像解析装置1が出力する、複数ページに亘り記事をトラッキングした文書画像の一例を示す模式図である。図21を参照して、複数ページ21a、21b、および21cに亘って、記事が1つに統合され、統合された記事内の複数の領域に読み順が付与されている。
図22を参照して、構造化文書は、<article>から</article>までで記述される1つの記事を含む。この記事は、タイトル(“title”)、サブタイトル(“subtitle”)、イラストレーション(“illustration”)、キャプション(“caption”)、5つのカラム(“column”)、および署名(“signature”)を含み、それぞれ<part type>に領域のカテゴリが記述されている。
なお、図22の構造化文書では、読み順が明示的には記述されていないが、それぞれの領域(part)に対して付与された読み順を記述してもよく、XML記述上で読み順どおりに領域をソートしてもよく、あるいは、構造化文書のXML記述に対応付けられた別個の記述を参照して動的に読み順を取得してもよい。
また、構造化文書のXML記述には、読み順以外に、本実施形態に係る文書画像解析装置1により抽出された領域のあらゆる属性、例えば、フォントタイプ、フォントサイズ、フォント色等、が適宜領域の記述に付加されてもよい。
図23は、本実施形態に係る文書画像解析装置1のハードウェア構成の一例を示す。
本実施形態に係る文書画像解析装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上に実装することができる。
図23を参照して、本実施形態に係る文書画像解析装置1は、複数のコンピュータ23a、23bを含むコンピュータシステムに実装されている例が示されている。
複数のコンピュータ23a、23bは、有線または無線のネットワーク23cにより相互通信可能に接続されている。
なお、図23には2つのコンピュータ23a、23bが図示されているが、本実施形態を実装可能なコンピュータの数は、これに限定されず、単一であっても、3つ以上であってもよい。また、コンピュータ23a、23bの全部または一部は、上記で説明した各種処理結果を出力するディスプレイ等の出力デバイスや、各種指令を入力する入力デバイスを備えてよい。
メモリ232は、ROM、RAM、およびハードディスクドライブ等のメモリデバイスを含む。ROMは、不揮発性のリードオンリーメモリであり、CPU231を動作させる制御命令すなわちプログラムを格納する。RAMは、揮発性のランダムアクセスメモリであり、プログラムを実行する際のワークメモリやデータの一時保存などに利用される。
通信I/F234は、コンピュータ23a、23bを、サーバ等の他のコンピュータと通信させるインタフェースであり、例えばネットワークインタフェースカード(NIC)により構成されてよい。通信I/F234は、CPU231の制御に基づき、他のコンピュータから受信した情報をCPU231またはメモリ232に入力し、また、他のコンピュータへ情報を送信する。
このため、本実施形態に係る文書画像解析装置によれば、文書画像の各領域について、各種属性、例えば、カテゴリ、読み順、フォントタイプ、フォントサイズ、フォント色等、が高精度に付加された構造化文書を生成することができる。
また、本実施形態によれば、文書画像からの領域の検出および領域の分類を、テキスト行ベースの処理と画像ベースの処理とを併用することにより実行するため、より少ない訓練データの入力(アノテーション)、より少ないCPU負荷で、より高速、高精度に構造化文書を生成することが可能となる。
したがって、多様なデバイスやユースケースにおける文書画像の閲覧性を向上させることが可能になり、文書画像の可用性が向上する。
Claims (20)
- 文書画像を取得する文書画像取得部と、
前記文書画像取得部により取得された前記文書画像から複数の領域を検出する領域検出部と、
前記領域検出部により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化部と、
前記クラスタ化部により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与部と
を備えることを特徴とする文書画像解析装置。 - 前記領域検出部は、検出された複数の領域を分類して、前記複数の領域のそれぞれにカテゴリを付与する
ことを特徴とする請求項1に記載の文書画像解析装置。 - 前記領域検出部は、前記文書画像のテキストを解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第1の解析エンジンと、
前記文書画像の画像を解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第2の解析エンジンとを有し、
前記第1の解析エンジンと前記第2の解析エンジンとの双方を実行させる
ことを特徴とする請求項2に記載の文書画像解析装置。 - 前記第1の解析エンジンが出力する前記複数の領域の検出および分類結果と、前記第2の解析エンジンが出力する前記複数の領域の検出および分類結果とを補完的にマージして、前記クラスタ化部へ供給するマージ部をさらに備える、
ことを特徴とする請求項3に記載の文書画像解析装置。 - 前記マージ部は、前記第1の解析エンジンと前記第2の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第2の解析エンジンにより付与されたカテゴリを保持する
ことを特徴とする請求項4に記載の文書画像解析装置。 - 前記マージ部は、前記第1の解析エンジンと前記第2の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第2の解析エンジンが検出したバウンディングボックスを、前記第1の解析エンジンが検出した領域の情報で補正する
ことを特徴とする請求項5に記載の文書画像解析装置。 - 前記マージ部は、前記第1の解析エンジンにより検出され、前記第2の解析エンジンによって検出されなかった領域の大きさを所定の閾値と比較し、前記所定の閾値以下の大きさである場合、当該領域を前記クラスタ化部へ出力しない
ことを特徴とする請求項4から6のいずれか1項に記載の文書画像解析装置。 - 前記クラスタ化部は、前記複数の領域のそれぞれについて、隣接する領域への距離を算出し、算出された距離に基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項1から7のいずれか1項に記載の文書画像解析装置。 - 前記クラスタ化部は、前記複数の領域のそれぞれについて算出される隣接する領域への距離の閾値を動的に決定し、決定された前記距離の閾値内にある領域をクラスタ化する
ことを特徴とする請求項8に記載の文書画像解析装置。 - 前記クラスタ化部は、前記複数の領域のうち、隣接する領域への最短距離の値が最大となる領域を決定し、決定された前記領域の隣接する領域への最短距離の値を、前記距離の閾値に設定する
ことを特徴とする請求項9に記載の文書画像解析装置。 - 前記クラスタ化部は、前記文書画像の縦方向に隣接する領域については、隣接する領域への距離に基づいてクラスタ化し、前記文書画像の横方向に隣接する領域については、それぞれの領域に付与された前記カテゴリに基づいてクラスタ化する
ことを特徴とする請求項9または10に記載の文書画像解析装置。 - 前記クラスタ化部は、前記複数の領域のそれぞれに付与されたカテゴリに基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項2から7のいずれか1項に記載の文書画像解析装置。 - 前記クラスタ化部は、所定のカテゴリが付与された領域の大きさに基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項12に記載の文書画像解析装置。 - 前記読み順付与部は、前記クラスタに属する複数の領域を、前記カテゴリを一般化した複数のスーパークラスに分類し、それぞれのスーパークラス内で、当該スーパークラスに分類された領域をソートし、ソートされた領域に読み順を付与する
ことを特徴とする請求項2から13のいずれか1項に記載の文書画像解析装置。 - 前記読み順付与部は、さらに前記複数のスーパークラスをソートすることにより、前記クラスタに属する複数の領域に読み順を付与する
ことを特徴とする請求項14に記載の文書画像解析装置。 - 前記読み順付与部は、複数のクラスタ間で読み順が連続するよう、それぞれのクラスタに属する複数の領域に読み順を付与する
ことを特徴とする請求項14または15に記載の文書画像解析装置。 - 前記クラスタ化部は、前記複数の領域に付与された前記カテゴリに基づいて、複数の文書画像に亘り、前記クラスタを統合する
ことを特徴とする請求項2から16のいずれか1項に記載の文書画像解析装置。 - 前記読み順付与部により前記読み順が付与された前記領域を含む前記クラスタから、少なくとも、前記クラスタに含まれる前記領域の読み順、テキスト、およびカテゴリを記述する構造化文書を生成する構造化文書生成部をさらに備える
ことを特徴とする請求項2から17のいずれか1項に記載の文書画像解析装置。 - 文書画像解析装置が実行する文書画像解析方法であって、
文書画像を取得するステップと、
取得された前記文書画像から複数の領域を検出するステップと、
検出された前記複数の領域をクラスタ化して、クラスタに統合するステップと、
統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与するステップと
を含むことを特徴とする文書画像解析方法。 - 文書画像解析処理をコンピュータに実行させるための文書画像解析プログラムであって、該プログラムは、前記コンピュータに、
文書画像を取得する文書画像取得処理と、
前記文書画像取得処理により取得された前記文書画像から複数の領域を検出する領域検出処理と、
前記領域検出処理により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化処理と、
前記クラスタ化処理により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与処理と、を含む処理を実行させるためのものである、
ことを特徴とする文書画像解析プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/042868 WO2021084702A1 (ja) | 2019-10-31 | 2019-10-31 | 文書画像解析装置、文書画像解析方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6838209B1 JP6838209B1 (ja) | 2021-03-03 |
JPWO2021084702A1 true JPWO2021084702A1 (ja) | 2021-11-18 |
Family
ID=74673666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020564013A Active JP6838209B1 (ja) | 2019-10-31 | 2019-10-31 | 文書画像解析装置、文書画像解析方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11900644B2 (ja) |
JP (1) | JP6838209B1 (ja) |
WO (1) | WO2021084702A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11790254B2 (en) * | 2020-12-04 | 2023-10-17 | Shutterstock, Inc. | Method and system for detecting model file content |
US11798210B2 (en) | 2020-12-09 | 2023-10-24 | Salesforce, Inc. | Neural network based detection of image space suitable for overlaying media content |
US11657511B2 (en) * | 2021-01-29 | 2023-05-23 | Salesforce, Inc. | Heuristics-based detection of image space suitable for overlaying media content |
WO2022221079A2 (en) * | 2021-04-15 | 2022-10-20 | Microsoft Technology Licensing, Llc | Inferring structure information from table images |
JP7043667B1 (ja) | 2021-09-02 | 2022-03-29 | 株式会社両備システムズ | 情報処理装置、プログラム、及び情報処理方法 |
CN114445818B (zh) * | 2022-01-29 | 2023-08-01 | 北京百度网讯科技有限公司 | 物品识别方法、装置、电子设备及计算机可读存储介质 |
JP7254314B1 (ja) | 2022-03-11 | 2023-04-10 | 株式会社スカイコム | 文書データ分類システム、文書データ分類方法及びプログラム |
US11830270B1 (en) * | 2023-04-20 | 2023-11-28 | FPT USA Corp. | Machine learning systems for auto-splitting and classifying documents |
JP7385075B1 (ja) | 2023-06-28 | 2023-11-21 | 株式会社朝日新聞社 | 情報処理装置、情報処理方法、及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4756650B2 (ja) | 2007-03-14 | 2011-08-24 | 株式会社リコー | 画像処理装置、読み順設定方法及びプログラム |
US8086040B2 (en) * | 2007-12-05 | 2011-12-27 | Xerox Corporation | Text representation method and apparatus |
JP2009193283A (ja) * | 2008-02-14 | 2009-08-27 | Fuji Xerox Co Ltd | 文書画像処理装置、及び文書画像処理プログラム |
JP2009251872A (ja) * | 2008-04-04 | 2009-10-29 | Fuji Xerox Co Ltd | 情報処理装置及び情報処理プログラム |
JP5950700B2 (ja) * | 2012-06-06 | 2016-07-13 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
WO2014005609A1 (en) * | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US9658990B2 (en) * | 2014-09-18 | 2017-05-23 | International Business Machines Corporation | Reordering text from unstructured sources to intended reading flow |
JP2017187923A (ja) * | 2016-04-05 | 2017-10-12 | キヤノン株式会社 | 文書処理装置、文書処理方法、端末および方法 |
JP6892625B2 (ja) * | 2016-07-29 | 2021-06-23 | ブラザー工業株式会社 | データ処理装置、および、コンピュータプログラム |
US10796145B2 (en) * | 2017-06-29 | 2020-10-06 | Samsung Electronics Co., Ltd. | Method and apparatus for separating text and figures in document images |
JP7102170B2 (ja) * | 2018-02-28 | 2022-07-19 | キヤノン株式会社 | 画像処理装置、および画像処理装置の制御方法とプログラム |
JP7206729B2 (ja) * | 2018-09-18 | 2023-01-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
-
2019
- 2019-10-31 WO PCT/JP2019/042868 patent/WO2021084702A1/ja active Application Filing
- 2019-10-31 US US17/056,202 patent/US11900644B2/en active Active
- 2019-10-31 JP JP2020564013A patent/JP6838209B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US11900644B2 (en) | 2024-02-13 |
US20210383106A1 (en) | 2021-12-09 |
WO2021084702A1 (ja) | 2021-05-06 |
JP6838209B1 (ja) | 2021-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6838209B1 (ja) | 文書画像解析装置、文書画像解析方法およびプログラム | |
US11314969B2 (en) | Semantic page segmentation of vector graphics documents | |
US10832048B2 (en) | Systems and methods for generating and using semantic images in deep learning for classification and data extraction | |
US20110043869A1 (en) | Information processing system, its method and program | |
US20220156300A1 (en) | Deep document processing with self-supervised learning | |
CN111492370B (zh) | 用于识别结构化布局的文本图像的装置和方法 | |
Lovegrove et al. | Document analysis of PDF files: methods, results and implications | |
US11615635B2 (en) | Heuristic method for analyzing content of an electronic document | |
US9418310B1 (en) | Assessing legibility of images | |
US7046847B2 (en) | Document processing method, system and medium | |
US10095677B1 (en) | Detection of layouts in electronic documents | |
JP5412903B2 (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
Dieu et al. | Parsing digitized Vietnamese paper documents | |
JPH11184894A (ja) | 論理要素抽出方法および記録媒体 | |
JP5480008B2 (ja) | マンガコンテンツの要約を生成する要約マンガ画像生成装置、プログラム及び方法 | |
US10949604B1 (en) | Identifying artifacts in digital documents | |
CN116822634A (zh) | 一种基于布局感知提示的文档视觉语言推理方法 | |
JP2010231637A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
Kamola et al. | Image-based logical document structure recognition | |
Jain et al. | TSR-DSAW: table structure recognition via deep spatial association of words | |
US20220292313A1 (en) | Information processing apparatus and model generation method | |
US11928877B2 (en) | Systems and methods for automatic context-based annotation | |
Gupta et al. | Table detection and metadata extraction in document images | |
JPH11328306A (ja) | 文書画像の論理要素抽出方法、装置および記録媒体 | |
Kikkuri et al. | An Optical Character Recognition Technique for Devanagari Script Using Convolutional Neural Network and Unicode Encoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201112 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20201112 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6838209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |