JPWO2021084702A1

JPWO2021084702A1 - 文書画像解析装置、文書画像解析方法およびプログラム

Info

Publication number: JPWO2021084702A1
Application number: JP2020564013A
Authority: JP
Inventors: シモーナマッジオ; アロイスデラコンブル; ケンプレピン
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-11-18
Anticipated expiration: 2039-10-31
Also published as: US11900644B2; US20210383106A1; WO2021084702A1; JP6838209B1

Abstract

文書画像に対してより高精度に読み順等の属性を付与する。文書画像解析装置（１）は、文書画像を取得する文書画像取得部（１１）と、文書画像取得部により取得された文書画像から複数の領域を検出する領域検出部（１２）と、領域検出部により検出された複数の領域をクラスタ化して、クラスタに統合するクラスタ化部（１３）と、クラスタ化部により統合されたクラスタ内で、クラスタに属する領域に読み順を付与する読み順付与部（１４）と、を備える。

Description

本発明は、文書画像解析装置、文書画像解析方法およびプログラムに関し、特に、文書画像から文書構造を検出し、検出された文書構造に基づき構造化文書を自動生成する技術に関する。

新聞や雑誌等の紙媒体に掲載される記事は、典型的には、ＰＤＦファイルとして作成され、印刷に供されて発刊される。発刊された後の記事のＰＤＦファイルは、発刊者においてアーカイブされている。
これら記事のＰＤＦファイルをウェブプラットフォーム上に記憶し、アクセス可能にすることで、新聞や雑誌等の記事をウェブコンテンツとして再利用することができる。

しかしながら、これらのウェブコンテンツとしての記事を、紙媒体のレイアウトのまま例えばモバイルフォン上で閲覧しようとすると、ユーザは、記事全体を閲覧するため過度なスクロールやズーム操作を余儀なくされる。このような操作の複雑性は、記事のウェブコンテンツとしての活用を阻害しかねない。
一方、ウェブコンテンツを閲覧するためのデバイスは、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット、モバイルフォン等を含み、デバイスのタイプによってディスプレイサイズやアスペクト比は多様である。

これら多様なデバイスのそれぞれにおいて、ＰＤＦファイル化された記事の閲覧性を高めるためには、それぞれのデバイスのディスプレイサイズやアスペクト比に合わせて、記事のレイアウト構造を最適化させることが要請される。また、アーカイブされた記事を、インタラクティブ機能を有する電子的提案書や広告、電子出版物に再利用する等、多様なユースケースが想定できる。

このように、デバイスやユースケースに応じて記事のレイアウト構造を変更しようとする際には、記事が読み順どおりにレイアウトされていること、すなわち、変更後のレイアウト構造が、記事の読み順に追従していることが必要となる。レイアウト変更に伴って記事の読み順が破綻してしまうと、記事の閲覧性が損なわれるからである。

特許文献１（特開２００８−２２５９６４号公報）は、文書画像を複数の画像領域に分割し、各画像領域に読み順を付与する画像処理装置を開示する。具体的には、特許文献１の画像処理装置は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）の前処理として、スキャナ等により入力された文書画像を、文字領域、図表領域、写真領域等に領域分けし、抽出された複数の文字領域に、各文字領域の始点座標および終点座標に基づいて、左上から右下の順に読み順を付与する。

特開２００８−２２５９６４号公報

しかしながら、記事は通常、タイトル、カラム（記事本文）、写真やイラスト、キャプション等の多様な要素を含み、これらが複雑にレイアウトされている。
この場合、特許文献１（特開２００８−２２５９６４号公報）に記載の技術では、図表領域や写真領域を含めた複数種類の領域間で読み順を付与することができない。
また、単純に文書画像の左上から右下の順に読み順を付与したのでは、例えば縦組みと横組みが混在する記事等、記事のレイアウトが複雑になる程、記事が実際に想定する読み順と齟齬するおそれが高まる。例えば、文書画像の左上から右下のシーケンス上、写真やイラストの前後に同一の記事のカラムが配置される場合には、意味的に連続するカラムが分断されてしまう。

本発明は上記課題を解決するためになされたものであり、その目的は、文書画像に対してより高精度に読み順等の属性を付与することが可能な文書画像解析装置、文書画像解析方法およびプログラムを提供することにある。

上記課題を解決するために、本発明に係る文書画像解析装置の一態様は、文書画像を取得する文書画像取得部と、前記文書画像取得部により取得された前記文書画像から複数の領域を検出する領域検出部と、前記領域検出部により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化部と、前記クラスタ化部により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与部と、を備える。

前記領域検出部は、検出された複数の領域を分類して、前記複数の領域のそれぞれにカテゴリを付与してよい。

前記領域検出部は、前記文書画像のテキストを解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第１の解析エンジンと、前記文書画像の画像を解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第２の解析エンジンとを有し、前記第１の解析エンジンと前記第２の解析エンジンとの双方を実行させてよい。

前記第１の解析エンジンが出力する前記複数の領域の検出および分類結果と、前記第２の解析エンジンが出力する前記複数の領域の検出および分類結果とを補完的にマージして、前記クラスタ化部へ供給するマージ部をさらに備えてよい。

前記マージ部は、前記第１の解析エンジンと前記第２の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第２の解析エンジンにより付与されたカテゴリを保持してよい。

前記マージ部は、前記第１の解析エンジンと前記第２の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第２の解析エンジンが検出したバウンディングボックスを、前記第１の解析エンジンが検出した領域の情報で補正してよい。

前記マージ部は、前記第１の解析エンジンにより検出され、前記第２の解析エンジンによって検出されなかった領域の大きさを所定の閾値と比較し、前記所定の閾値以下の大きさである場合、当該領域を前記クラスタ化部へ出力しなくてよい。

前記クラスタ化部は、前記複数の領域のそれぞれについて、隣接する領域への距離を算出し、算出された距離に基づいて、前記複数の領域をクラスタ化してよい。

前記クラスタ化部は、前記複数の領域のそれぞれについて算出される隣接する領域への距離の閾値を動的に決定し、決定された前記距離の閾値内にある領域をクラスタ化してよい。

前記クラスタ化部は、前記複数の領域のうち、隣接する領域への最短距離の値が最大となる領域を決定し、決定された前記領域の隣接する領域への最短距離の値を、前記距離の閾値に設定してよい。

前記クラスタ化部は、前記文書画像の縦方向に隣接する領域については、隣接する領域への距離に基づいてクラスタ化し、前記文書画像の横方向に隣接する領域については、それぞれの領域に付与された前記カテゴリに基づいてクラスタ化してよい。

前記クラスタ化部は、前記複数の領域のそれぞれに付与されたカテゴリに基づいて、前記複数の領域をクラスタ化してよい。
前記クラスタ化部は、所定のカテゴリが付与された領域の大きさに基づいて、前記複数の領域をクラスタ化してよい。

前記読み順付与部は、前記クラスタに属する複数の領域を、前記カテゴリを一般化した複数のスーパークラスに分類し、それぞれのスーパークラス内で、当該スーパークラスに分類された領域をソートし、ソートされた領域に読み順を付与してよい。

前記読み順付与部は、さらに前記複数のスーパークラスをソートすることにより、前記クラスタに属する複数の領域に読み順を付与してよい。

前記読み順付与部は、複数のクラスタ間で読み順が連続するよう、それぞれのクラスタに属する複数の領域に読み順を付与してよい。

前記クラスタ化部は、前記複数の領域に付与された前記カテゴリに基づいて、複数の文書画像に亘り、前記クラスタを統合してよい。

前記クラスタ化部により統合される前記クラスタは記事であり、前記領域検出部が前記複数の領域のそれぞれに付与するカテゴリは、少なくともタイトル、カラム、イラストレーションを含んでよい。

前記読み順付与部により前記読み順が付与された前記領域を含む前記クラスタから、少なくとも、前記クラスタに含まれる前記領域の読み順、テキスト、およびカテゴリを記述する構造化文書を生成する構造化文書生成部をさらに備えてよい。

本発明に係る文書画像解析方法の一態様は、文書画像解析装置が実行する文書画像解析方法であって、文書画像を取得するステップと、取得された前記文書画像から複数の領域を検出するステップと、検出された前記複数の領域をクラスタ化して、クラスタに統合するステップと、統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与するステップとを含む。

本発明に係る文書画像解析プログラムの一態様は、文書画像解析処理をコンピュータに実行させるための文書画像解析プログラムであって、該プログラムは、前記コンピュータに、文書画像を取得する文書画像取得処理と、前記文書画像取得処理により取得された前記文書画像から複数の領域を検出する領域検出処理と、前記領域検出処理により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化処理と、前記クラスタ化処理により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与処理と、を含む処理を実行させるためのものである。

本発明によれば、文書画像に対してより高精度に読み順等の属性を付与し、多様なデバイスやユースケースにおける文書画像の閲覧性を向上させることができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。

図１は、本発明の実施形態に係る文書画像解析装置の機能構成の一例を示すブロック図である。図２は、本発明の実施形態に係る文書画像解析装置が実行する文書画像解析処理の概略処理手順の一例を示すフローチャートである。図３は、図２の領域検出処理（Ｓ２）で出力される、領域が検出されカテゴリがラベリングされた文書画像の一例を示す模式図である。図４は、図２の領域クラスタ化処理（Ｓ４）で出力される、複数の領域が記事にクラスタ化された文書画像の一例を示す模式図である。図５は、図２の読み順付与処理（Ｓ５）で出力される、記事内の領域に読み順が付与された文書画像の一例を示す模式図である。図６は、図２の領域検出処理（Ｓ２）で実行されるテキストベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。図７は、図６のテキストベースの領域検出処理でテキスト行が抽出された文書画像の一例を示す模式図である。図８は、図６のテキストベースの領域検出処理で実行されるテキスト行からパラグラフへのクラスタ化処理を説明する模式図である。図９は、図２の領域検出処理（Ｓ２）で実行される画像ベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。図１０は、図９の画像ベースの領域検出処理で読み取られる文書画像の一例を示す模式図である。図１１は、画像として読み取られる記事のタイトルの一例を示す図である。図１２は、図２のマージ処理（Ｓ３）の詳細処理手順の一例を示すフローチャートである。図１３は、図１２のマージ処理で実行されるＮｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ処理を説明する模式図である。図１４は、図１２のマージ処理でオーバーラップする領域がある場合の処理を説明する模式図である。図１５は、図２の領域クラスタ化処理（Ｓ４）の詳細処理手順の一例を示すフローチャートである。図１６は、図１５の領域クラスタ化処理で出力されるグラフモデルの一例を示す模式図である。図１７は、図１５の領域クラスタ化処理で出力されるグラフモデルの他の一例を示す模式図である。図１８は、図１７のグラフモデルに基づき領域が記事にクラスタ化された文書画像の一例を示す模式図である。図１９は、図２の読み順付与処理（Ｓ５）の詳細処理手順の一例を示すフローチャートである。図２０は、図１９の読み順付与処理で出力される読み順が付与された文書画像の一例を示す模式図である。図２１は、本発明の実施形態に係る文書画像解析装置が出力する、複数ページに亘り記事をトラッキングした文書画像の一例を示す模式図である。図２２は、図２の構造化文書出力処理（Ｓ６）で出力される構造化文書のＸＭＬ記述の一例を示す図である。図２３は、本発明の実施形態に係る文書画像解析装置のハードウェアおよびネットワーク構成の一例を示す図である。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

以下、本実施形態に係る文書画像解析装置が、新聞や雑誌等の記事をコンテンツとして含むＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）ファイルを解析して、構造化されたＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）を出力する非限定的一例を説明するが、本実施形態はこれに限定されない。
本実施形態に係る文書画像解析装置は、文書および画像を含むあらゆるコンテンツを、ＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔＧｒｏｕｐ）等の任意の画像フォーマット、またはＡＩ（ＡｄｏｂｅＩｌｌｕｓｔｒａｔｏｒ）、ＥＰＳ（ＥｎｃａｐｓｕｌａｔｅｄＰｏｓｔＳｃｒｉｐｔ）、ＰＳＤ（ＰｈｏｔｏｓｈｏｐＤｏｃｕｍｎｅｎｔ）等の任意のＤＴＰ（ＤｅｓｋＴｏｐＰｕｂｌｉｓｈｉｎｇ）フォーマットまたは文書フォーマットで入力することができ、また生成された構造化文書を、例えばＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）等、あらゆる記述言語で記述することができる。

＜文書画像解析装置の機能構成＞
図１は、本実施形態に係る文書画像解析装置の機能構成の一例を示すブロック図である。
図１に示す文書画像解析装置１は、文書画像取得部１１、領域検出部１２、領域クラスタ化部１３、読み順付与部１４、および構造化文書出力部１５を備える。

文書画像取得部１１は、ＰＤＦファイルのフォーマットで文書画像格納部２に格納された記事の文書画像を取得して、領域検出部１２に供給する。
領域検出部１２は、文書画像取得部１１により取得された文書画像中から、複数の領域をセグメントとして検出するとともに、検出された領域のそれぞれをタイトル、カラム（記事本文）、写真やイラストレーション等のカテゴリに分類して、領域クラスタ化部１３に供給する。

本実施形態において、領域検出部１２は、テキストベースで領域を検出して、検出された領域をカテゴリに分類するテキストベースの解析エンジン１２１と、画像ベースで領域を検出して、検出された領域をカテゴリに分類する画像ベースの解析エンジン１２２とを備える。これらテキストベースの解析エンジンおよび画像ベースの解析エンジンの双方は、領域検出部１２により並行して駆動される。

領域クラスタ化部１３は、それぞれのカテゴリに分類された複数の領域を記事にクラスタ化して、読み順付与部１４に供給する。
読み順付与部１４は、クラスタ化された記事内の複数の領域に読み順を付与し、読み順が付与された記事のデータを構造化文書出力部１５に供給する。
構造化文書出力部１５は、読み順が付与された記事のデータから、例えば、ＸＭＬ等の記述言語で記述された、構造化された文書を生成し、生成された構造化文書を構造化文書格納部３に出力する。

最終的に、構造化文書格納部３に出力される構造化文書は、オリジナルのＰＤＦファイルには記述されていない情報を含む。具体的には、構造化文書格納部３に出力される構造化文書には、少なくとも、多様なデバイスやユースケースに応じて文書画像のレイアウトを動的に再構成することを可能にする、記事の間の区切り、記事内の領域の読み順、分類されたカテゴリ種別、文字のフォントのタイプ、サイズ、および色等の属性が付加されている。これにより、本実施形態の構造化文書では、オリジナルのＰＤＦファイルより構造化のための情報が拡充されている。

なお、図１に示す構成は、文書画像解析装置の機能的な構成を例示的に示すものであり、本実施形態に係る文書画像解析装置が単一の装置に実装されることを意味するものではない。図１に示す機能構成は、例えば、ネットワークで相互接続される複数のサーバ等の装置に実装されてもよく、図１に示す文書画像解析装置１の各部、文書画像格納部２、および構造化文書格納部３が、互いに異なる装置に実装されてもよい。

＜文書画像解析処理の概略処理手順＞
図２は、本実施形態に係る文書画像解析装置が実行する文書画像解析処理の概略処理手順の一例を示すフローチャートである。
なお、図２の各ステップは、文書画像解析装置１の記憶部に記憶されたプログラムをＣＰＵが読み出し、実行することで実現される。また、図２に示すフローチャートの少なくとも一部をハードウェアにより実現してもよい。ハードウェアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）上に自動的に専用回路を生成すればよい。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウェアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

Ｓ１で、文書画像解析装置１の文書画像取得部１１は、例えばＰＤＦファイルフォーマットである文書画像を取得する。この文書画像は、記憶装置で構成される文書画像格納部２から取得されてもよく、文書画像解析装置１に直接、またはネットワークを介して外部から、入力されてもよい。

以下、この文書画像が、新聞や雑誌等の記事であって、タイトル、カラム（記事本文）、および写真やイラストレーションを含む記事である例を説明する。
なお、文書画像取得部１１により取得される文書画像は、当初からＰＤＦファイルとして作成されたテキストおよび画像を含む記事であってもよく、新聞や雑誌等の紙媒体の記事を事後的にスキャンしてＰＤＦファイル化された記事であってもよい。

Ｓ２で、文書画像解析装置１の領域検出部１２は、Ｓ１で取得された文書画像から、複数の領域を検出し、検出された領域のそれぞれをカテゴリに分類する。ここで検出される領域は、文書画像内のセグメントであり、記事を構成する構成要素であるブロックないしパラグラフである。
図３は、Ｓ２で領域検出部１２が出力する出力例であり、領域が検出されカテゴリがラベリングされた文書画像の一例を示す。

図３を参照して、１ページの文書画像から、領域３０１〜３１２が検出されている。領域３０１〜３１２はカテゴリに分類され、分類されたカテゴリがラベリングされている。具体的には、領域３０１はプレタイトル、領域３０２および領域３１１はタイトル、領域３０３はサブタイトルに分類されている。領域３０４〜３０７、および領域３１２は、カラム（記事本文）に分類されている。領域３０８は、カラム領域３０７末尾で検出され、当該記事執筆者の署名に分類されている。領域３０９は写真（以下、写真とイラストレーションとを単に「イラストレーション」として参照する）に、領域３１０は写真を説明するキャプションに、それぞれ分類されている。

本実施形態において、上述したように、Ｓ２では、テキストベースの解析エンジンによる、テキストベースでの領域検出、および検出された領域のカテゴリ分類の処理と、画像ベースの解析エンジンによる、画像ベースでの領域検出、および検出された領域のカテゴリ分類の処理との双方を並行して実行するが、これらの処理の詳細は、図６〜図１０を参照して後述する。なお、「並行して実行する」とは、時系列的に並行する意味に限定されず、両者は、同時に実行されてもよく、あるいは順に連続して実行されてもよい。

Ｓ３で、文書画像解析装置１の領域検出部１２は、テキストベースの解析エンジンによる領域検出および検出された領域のカテゴリ分類の結果と、画像ベースの解析エンジンによる領域検出および検出された領域のカテゴリ分類の結果とを、領域ごとに１つの処理結果にマージする。このマージ処理により、領域ごと最適化された、分類されたカテゴリがラベリングされた領域検出結果が得られるが、その処理の詳細は、図１２〜図１４を参照して後述する。

Ｓ４で、文書画像解析装置１の領域クラスタ化部１３は、Ｓ３から出力された、分類されたカテゴリがラベリングされた領域を記事にクラスタ化する。
図４は、Ｓ４で領域クラスタ化部１３が出力する出力例であり、複数の領域が記事にクラスタ化された文書画像の一例を示す。
図４を参照して、図３で検出された文書画像の領域３０１〜３１０は記事４１に、領域３１１〜３１２は記事４２に、それぞれクラスタ化されている。それぞれの記事４１、４２は、文書画像内のクラスタである。この領域クラスタ化処理の詳細は、図１５〜図１８を参照して後述する。
なお、Ｓ１で取得される文書画像が複数ページに亘る場合、Ｓ４で、各ページでクラスタ化された記事を、さらに複数ページに亘って１つの記事に統合する処理が実行されるが、その処理の詳細は、図２１を参照して後述する。

Ｓ５で、文書画像解析装置の読み順付与部１４は、Ｓ４から出力された記事ごとに、記事に含まれる複数の領域に読み順を付与する。
図５は、Ｓ５で読み順付与部１４が出力する出力例であり、記事内の複数の領域に読み順が付与された文書画像の一例を示す。

図５を参照して、図４で記事４１にクラスタ化された文書画像の領域３０１〜３１０には、プレタイトル領域３０１、タイトル領域３０２、サブタイトル領域３０３、カラム領域３０４〜３０７、イラストレーション領域３０９、キャプション領域３１０の順に、読み順が付与されている。
ここで、記事内の領域に付与される読み順は、読者が記事を一瞥できる場合の自然な読み順に従ったものであるが、この読み順付与処理の詳細は、図１９および図２０を参照して後述する。

Ｓ６で、文書画像解析装置１の構造化文書出力部１５は、Ｓ５から出力された、それぞれの領域にカテゴリがラベリングされ、記事内の複数の領域に読み順が付与された文書画像を、構造化された文書として、記述言語で記述して、構造化文書格納部３に出力する。

＜テキストベースの領域検出および領域分類処理詳細＞
図６は、文書画像解析装置１の領域検出部１２のテキストベース解析エンジン１２１が実行するテキストベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。
Ｓ２０１で、テキストベース解析エンジン１２１は、図２のＳ１で取得された文書画像のＰＤＦファイルを解析してテキストを抽出する。
Ｓ２０２で、テキストベース解析エンジン１２１は、Ｓ２０１の解析結果に基づいて、文書画像のテキスト部分について、各テキスト行の特徴を抽出する。

Ｓ２０２で抽出される各テキスト行の特徴は、少なくとも、フォントタイプ、フォントサイズ、フォント色（ＲＧＢ）、座標値、大文字／小文字、タイトルか否か、を含んでよい。なお、当該テキスト行のカテゴリがタイトルか否かは、タイトル以外に抽出された他の特徴、すなわちフォントタイプ、フォントサイズ、フォント色、座標値、大文字／小文字に基づき推定してもよく、テキストを意味解析してもよい。
図７は、Ｓ２０２でテキストベース解析エンジン１２１が文書画像のテキスト部分からテキスト行が１行ごとに検出されている例を示す。図７を参照して、一点鎖線で示す矩形ボックスが、文書画像中のテキストから検出されたそれぞれのテキスト行を示す。

Ｓ２０３で、テキストベース解析エンジン１２１は、Ｓ２０２で抽出されたテキスト行を、パラグラフ（領域）へクラスタ化する。
図８は、テキストベース解析エンジンが実行するテキスト行からパラグラフへのクラスタ化処理を説明する模式図である。
図８左の文書画像８１では、記事のタイトルとカラムのテキストが１つのテキスト行ごと検出されており、各テキスト行は、その位置を特定する少なくとも始点と終点の座標値をそれぞれ有する。

テキストベース解析エンジンは、文書画像８１内のテキスト行間の距離に基づいて、テキスト行をパラグラフへクラスタ化する。図８中のマトリクス８２は、文書画像８１で抽出されたそれぞれのテキスト行の、他のテキスト行に対する距離をマトリクス状に示し、２つのテキスト行間の距離が所定の閾値を超えるか否かを距離マトリクスのそれぞれのセルが示す。
図８右の文書画像８３では、距離が所定の閾値内にあるテキスト行同士が、パラグラフ（領域）にクラスタ化されており、各パラグラフは、当該パラグラフの位置を特定する少なくとも始点と終点の座標値をそれぞれ有する。なお、図８に示すテキスト行のクラスタ化処理は、比較的負荷が軽く高速で実行可能であるため、複数回実行してクラスタ化の精度を高めてもよい。

図６に戻り、Ｓ２０４で、テキストベース解析エンジン１２１は、Ｓ２０２で抽出された各テキスト行の特徴に基づいて、Ｓ２０３でクラスタ化されたパラグラフの特徴を抽出する。Ｓ２０４で抽出される各パラグラフの特徴は、少なくとも、パラグラフの幅と高さ、アスペクト比、座標値、クラスタ化されたテキスト行の行数、他のパラグラフに対する相対的なフォントサイズ、パラグラフの先頭文字の大きさや配置を制御するレトリン（ｌｅｔｔｒｉｎｅ）の有無を含んでよい。

Ｓ２０５で、テキストベース解析エンジン１２１は、Ｓ２０２で抽出されたテキスト行を、機械学習アルゴリズムを使用して、カテゴリに分類し、分類されたカテゴリを各テキスト行にラベリングする。文書画像のテキスト行を分類するための機械学習アルゴリズムとして、例えば、ランダムフォレスト分類器（ＲａｎｄｏｍＦｏｒｅｓｔＣｌａｓｓｉｆｉｅｒ）を使用することができる。ランダムフォレスト分類器は、多数の決定木がそれぞれ出力する値の代表値（例えば、平均値）を予測値として出力する。ランダムフォレストを構成する各決定木は、元の訓練データからそれぞれ異なるサブセットとして抽出されたサブ訓練データに基づき作成され、また、異なる説明変数を決定木の分割の候補として使用することで決定木のランダム性を確保している。

本実施形態では、文書画像のテキスト行を分類するのに、各テキスト行から抽出されたテキスト行単位の特徴のみならず、Ｓ２０４で抽出された、よりグローバルなパラグラフ単位の特徴をも説明変数等に付加して実行することで、機械学習における分類の精度を向上させている。
また、本実施形態では、Ｓ２０５で、各テキスト行が、プレタイトル、タイトル、サブタイトル、カラム等のカテゴリに分類された後、さらに、テキストベース解析エンジン１２１は、各テキスト行に付与されたカテゴリに基づいて、同一のカテゴリを有する隣接するテキスト行をグルーピングする。これにより、Ｓ２０３でのパラグラフへのクラスタ化が最適化される。

Ｓ２０６で、テキストベース解析エンジン１２１は、カテゴリがラベリングされたテキスト行を最終的にパラグラフ（領域）にクラスタ化し、クラスタ化された領域にカテゴリをラベリングし、当該領域を文書画像内で予測される領域として出力する。

＜画像ベースの領域検出および領域分類処理＞
図９は、文書画像解析装置１の領域検出部１２の画像ベース解析エンジン１２２が実行するテキストベースの領域検出処理の詳細処理手順の一例を示すフローチャートである。図９に示す処理は、図６に示すテキストベース解析エンジン１２１が実行するテキストベースの領域検出処理と並行して実行され、すなわち、テキストベースの領域検出処理と同時に、または連続して実行されてよい。
Ｓ２１１で、画像ベース解析エンジン１２２は、図２のＳ１で取得された文書画像のＰＤＦファイルを、ページごとに、画像として読み取る。
図１０は、読み取られる文書画像の一例を示す。図１０を参照して、画像およびテキストを含む１ページの文書画像１０が、１つの画像ファイルとして読み取られる。

Ｓ２１２で、画像ベース解析エンジン１２２は、Ｓ２１１で取得された画像に対して機械学習アルゴリズムを適用して、オブジェクトを検出し、検出されたオブジェクトをカテゴリに分類し、分類されたカテゴリをオブジェクトにラベリングする。文書画像からオブジェクトを検出してカテゴリに分類するための機械学習アルゴリズムとして、例えば、ＦａｓｔｅｒＲ−ＣＮＮ（Ｒｅｇｉｏｎ−ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用することができる。なお、画像ベース解析エンジンが使用可能な機械学習アルゴリズムは、ＦａｓｔｅｒＲ−ＣＮＮに限定されず、例えば、Ｒ−ＣＮＮ、ＦａｓｔＲ−ＣＮＮ、ＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）等を使用してもよい。

ＦａｓｔｅｒＲ−ＣＮＮでは、予め訓練用に、十分なサンプル数、例えば５００ページ分、の正解付きの記事のオブジェクト画像をＣＮＮに入力して、ＣＮＮを学習させておく。
入力された１ページ分の文書画像全体から、学習済みＣＮＮにより、文書画像の特徴マップを抽出する。
次に、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）により、ＣＮＮで抽出された文書画像の特徴マップに対して、候補領域のバウンディングボックス（ＢｏｕｎｄｉｎｇＢｏｘ：ＢＢ）と、当該候補領域のオブジェクトらしさを表す信頼度スコアとを出力する。具体的には、ＲＰＮは小さなニューラルネットワークであり、特徴マップ上をｎ×ｎサイズのスライディングウインドウで走査し、各々のｎ×nサイズの注目領域をネットワークの入力とし、それぞれのスライディングウインドウ位置に対してｋ個の候補領域を推定する。

ＦａｓｔｅｒＲ−ＣＮＮは、推定された候補領域のバウンディングボックスを、当該候補領域から抽出された特徴ベクトルに基づき、複数のカテゴリのいずれかに分類する。
画像ベース解析エンジン１２２は、ＦａｓｔｅｒＲ−ＣＮＮ等を使用して、候補領域をあらゆるカテゴリに分類することができる。例えば、図１１に示す画像は、記事のタイトルとして文書画像中でレイアウトされているオブジェクト画像であるが、ＰＤＦファイル中にテキスト情報を持たないものとする。この場合、テキストベース解析エンジン１２１ではテキスト行を検出することができず、したがって領域として抽出することができない。これに対して、画像ベース解析エンジンは、図１１に示す画像を、オブジェクトを含む候補領域として抽出し、画像内のオブジェクトを認識することにより、タイトル領域として抽出することが可能である。

本実施形態では、上記のように、１つの文書画像に対して、テキストベースの領域検出および領域分類処理と、画像ベースの領域検出および領域分類処理とを並行して補完的に使用する。テキストベースの処理と画像ベースの処理を対比すると、それぞれが利点および課題を有するからである。
テキストベースの領域検出および領域分類は、より少ない訓練データで実現可能であり、ＣＰＵの処理負荷が低く高速で処理でき、かつ明白にテキストに属する領域の抽出に失敗する蓋然性が低い。一方、テキストベースの領域検出および領域分類は、画像ベースの処理と比較すると精度が低く、例えば図１１に示すような画像から領域を抽出することができない。

これに対して、画像ベースの領域検出および領域分類は、より堅牢であり、テキストベースの処理を比較すると精度が高いと想定できるが、ＣＰＵの処理負荷が高く処理が低速となる。さらに、領域のバウンディングボックス検出のための信頼度スコアの閾値が高く設定されていると、大きなサイズのテキスト領域を見逃しかねないため、信頼度スコアの閾値を低く調整しなければならない。

また、信頼度スコアを低めたことで、より多くの重複する候補領域のバウンディングボックスが検出される。このため、Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｏｒｅｓｓｉｏｎ等のアルゴリズム（図１３を参照して後述する）を適用することにより、過度に多くの候補領域が検出されないよう、候補領域の数を抑制する必要がある。さらに、記事のタイトルが大文字ではなく小文字で記述されている場合、画像ベースの領域検出では、カラムと区別がつきにくく、タイトル領域として分類することが比較的困難となり得る。
このように、異なる特性を有する複数の領域検出および領域分類手法を補完的に使用することで、本実施形態では、ＣＰＵ処理負荷を抑制しつつ、文書画像からの記事を構成する領域の検出と検出された領域へのカテゴリのラベリングの精度を向上させている。

＜領域検出および領域分類処理結果のマージ処理＞
図１２は、本実施形態に係る文書画像解析装置１の領域検出部１２が実行する、図２の領域検出および領域分類処理結果のマージ処理（Ｓ３）の詳細処理手順の一例を示すフローチャートである。
図１２に示すマージ処理では、一般的により精度が高く、かつ画像からあらゆるオブジェクトを検出することのできる画像ベースの領域検出および領域分類の結果を、大きなサイズのテキスト領域やタイトル領域をより正確に検出することのできるテキストベースの領域検出および領域分類の結果で補完するよう、双方の処理結果がマージされる。

Ｓ３０１で、文書画像解析装置１の領域検出部１２は、テキストベースで予測された予測領域と画像ベースで予測された予測領域とを入力する。Ｓ３０１で入力される候補領域は、分類されたカテゴリがラベリングされている。
Ｓ３０２で、領域検出部１２は、テキストベースで予測された候補領域と画像ベースで予測された予測領域とがオーバーラップするか否かを判定する。
テキストベースの予測領域と画像ベースの予測領域とが文書画像中でオーバーラップすると判定されない場合（Ｓ３０２：Ｎ）、Ｓ３０５に進む。一方、テキストベースの予測領域と画像ベースの予測領域とが文書画像中でオーバーラップすると判定された場合（Ｓ３０２：Ｙ）、Ｓ３０３に進む。

Ｓ３０３で、領域検出部１２は、文書画像中でオーバーラップする領域について、画像ベースの領域にラベリングされたカテゴリをキープする。
Ｓ３０４で、領域検出部１２は、オーバーラップする領域について、テキストベースの領域のバウンディングボックスをキープして、Ｓ３１０に進む。すなわち、画像ベースの領域のバウンディングボックスを実際のテキスト行のパラグラフを収容する領域の外枠で補正する。

Ｓ３０２に戻り、テキストベースで予測された予測領域と画像ベースで予測された予測領域とがオーバーラップしないと判定された場合（Ｓ３０２：Ｎ）、Ｓ３０５で、領域検出部１２は、画像ベースの予測領域のみが検出されたか否かを判定する。
画像ベースの予測領域のみが検出され、対応するテキストベースの予測領域が検出されない場合（Ｓ３０５：Ｙ）、Ｓ３０６に進み、領域検出部１２は、画像ベースの領域にラベリングされたカテゴリおよび当該領域のバウンディングボックスをキープして、Ｓ３１０に進む。一方、画像ベースの予測領域が検出されない場合（Ｓ３０５：Ｎ）、Ｓ３０７に進み、領域検出部１２は、テキストベースの予測領域が検出されたか否かを判定する。

テキストベースの予測領域のみが検出され、対応する画像ベースの予測領域が検出されない場合（Ｓ３０７：Ｙ）、Ｓ３０８に進み、領域検出部１２は、さらに、Ｓ３０７で検出されたテキストベースの予測領域が、タイトルのカテゴリでラベリングされているか否か、または当該予測領域のサイズ（または面積）が所定の閾値より大きいか否かを判定する。

Ｓ３０７で検出されたテキストベースの予測領域が、タイトルのカテゴリでラベリングされている、または当該予測領域のサイズが所定の閾値より大きい場合（Ｓ３０８：Ｙ）、テキストベースの領域にラベリングされたカテゴリおよび当該領域のバウンディングボックスをキープして、Ｓ３１０に進む。一方、Ｓ３０７で検出されたテキストベースの予測領域が、タイトル以外のカテゴリ（例えば、カラム）でラベリングされており、かつ当該領域のサイズが所定の閾値内である場合（Ｓ３０８：Ｎ）、Ｓ３１２に進み、領域検出部１２は、Ｓ３０７で検出された予測領域を削除して処理を終了する。

本実施形態では、画像ベースの予測領域の検出結果を優先しつつ、テキストベースの予測領域のみが検出された場合（Ｓ３０７：Ｙ）、当該予測領域にラベリングされたカテゴリがタイトルである場合、または当該予測領域のサイズ（面積）が所定の閾値より大きい場合に、テキストベースの予測領域の検出結果を補完的に使用する。これにより、画像ベースでの領域検出および領域分類では比較的困難である、タイトル領域の抽出（特に、タイトルが、カラム同様、小文字で記述されている場合）、および、大きいサイズのテキスト領域の抽出がより確実になる。
Ｓ３０７に戻り、画像ベースの候補領域もテキストベースの画像領域も検出されない場合（Ｓ３０７：Ｎ）、Ｓ３１２に進み、領域検出部１２は、領域を出力することなく、処理を終了する。

Ｓ３１０で、領域検出部１２は、Ｓ３０４、Ｓ３０６、およびＳ３０９でそれぞれキープされている候補領域にラベリングされたカテゴリと当該候補領域のバウンディングボックスに対して、Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎを適用して、Ｓ３１１に進む。
Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎは、同一のオブジェクト（クラス）に対して重複して検出された複数の領域（バウンディングボックス）を抑制して、最大の値の領域（バウンディングボックス）のみを抽出するアルゴリズムとして、領域検出部１２により利用される。

図１３は、Ｓ３１０で実行されるＮｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎを説明する模式図である。
図１３左を参照して、同一のオブジェクト（猫）に対して、２つのバウンディングボックス１３１および１３２が重複して検出されている。バウンディングボックス１３１について算出された信頼度スコアは４６％であり、バウンディングボックス１３２について算出された信頼度スコアは７５％であるものとする。

Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎでは、２つのバウンディングボックス１３１、１３２のオーバーラップの度合いを示すＩｎｔｅｒｓｅｃｔｉｏｎ−ｏｖｅｒ−Ｕｎｉｏｎ（ＩｏＵ）の値が、所定の閾値（例えば、５０％）より大きい場合、２つの領域が１つのオブジェクトに対して重複するものと推定して、最大値を持つ１つの領域以外の領域を抑制（削除）し、一方、ＩｏＵの値が、所定の閾値内である場合、２つの領域は重複しないものと推定して、領域を抑制（削除）しない。ＩｏＵは、２つのバウンディングボックス間で重複する部分の面積（ＡｒｅａｏｆＯｖｅｒｌａｐ）を、２つのバウンディングボックスの和集合（ＡｒｅａｏｆＵｎｉｏｎ）で除算することにより、算出される。

図１３左を参照して、バウンディングボックス１３１、１３２のＩｏＵは、５０％の閾値より大きいため、図１３右に示すように、最大の信頼度スコア（７５％）を有するバウンディングボックス１３２が選択され、より低い信頼度スコア（４６％）を有する他方のバウンディングボックス１３１は抑制される。
図１２に戻り、Ｓ３１２で、領域検出部１２は、Ｓ３１０でＮｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎを適用した結果、キープされた予測領域を、図２のＳ４で記事にクラスタ化されるべき領域として、出力する。

図１４は、図１２のＳ３０２で、テキストベースの予測領域と画像ベースの予測領域がオーバーラップすると判定された場合の処理を説明する模式図である。
図１４左を参照して、画像ベースの候補領域のバウンディングボックス１４１と、テキストベースのバウンディングボックス１４２とが、１つのオブジェクトに対して、オーバーラップ（重複）して検出されている（図１２Ｓ３０２：Ｙ）。画像ベースの予測領域は、タイトルのカテゴリでラベリングされ、テキストベースの予測領域は、カラムのカテゴリでラベリングされているものとする。
この場合、図１４右に示すように、テキストベースの予測領域のバウンディングボックス１４２がキープされ（Ｓ３０４）、画像ベースの予測領域にラベリングされたタイトルのカテゴリがキープされて（Ｓ３０５）、１つの新たな領域（バウンディングボックス１４３）にマージされる。

＜領域クラスタ化処理＞
図１５は、文書画像解析装置１の領域クラスタ化部１３が実行する図２の領域クラスタ化処理（Ｓ４）の詳細処理手順の一例を示すフローチャートである。
S４１で、領域クラスタ化部１３は、図２のS３から出力される領域をクラスタ化するためのグラフを生成する。具体的には、領域クラスタ化部１３は、それぞれの領域につき、当該領域のノードと隣接する領域のノードとをリンクにより接続して、グラフを生成する。幾何学的制約として、ある領域と隣接せず離隔する領域のノードに対しては、リンクを生成しなくてよい。

なお、新聞や雑誌の種類に応じて、文書画像の横（水平）方向には同じ記事が連続しないと見做せる場合や、記事間を区切る署名領域や次の記事のタイトル領域が検出された場合等には、縦（垂直）方向に隣接する領域のノードに対してのみリンクにより接続してもよい。この場合、横方向に隣接する領域のノード同士は、領域に付与されたカテゴリに基づいて選択的にリンクで接続してもよい。さらに、意味的制約として、タイトル領域は、記事の先頭に位置するものと見做して、タイトル領域の左上の領域のノードに対するリンクは生成しなくてもよい。

S４２で、領域クラスタ化部１３は、S４１で生成したグラフ中で、ノード間の距離を算出する。ノード間の距離は、２つの領域（パラグラフ）の最短のエッジ（辺）間の距離として算出されてよい。
図１６は、S４２で出力されるグラフモデルの一例を示す図である。図１６を参照して、グラフモデルは、それぞれの領域（パラグラフ）を代表するノードと、ノード間を接続するリンクを有し、それぞれのリンクには、当該リンクが接続するノード間の距離が示されている。

S４３で、領域クラスタ化部１３は、生成されたグラフ中のノードのそれぞれについて、当該ノードの１つまたは複数の隣接ノードへの最短距離を取得し、隣接ノードへの最短距離が最大となるノードを決定する。
S４４で、領域クラスタ化部１３は、Ｓ４３で決定されたノードの隣接ノードへの最短距離を、クラスタ化のための閾値に設定する。

カテゴリがラベリングされたある領域は、必ずいずれかの記事に属し、ある記事は、少なくとも２つの領域（例えば、タイトルとカラム）を含む。このため、それぞれの領域（パラグラフ）は少なくとも１つの隣接領域を持つことを、領域をクラスタ化する際の幾何学的制約条件とすることができる。本実施形態は、この制約条件に基づき、クラスタ化のための閾値を動的に設定する。すなわち、Ｓ４４で決定される閾値は、グラフ中のすべてのノードがいずれかの隣接ノードを持つことを保証するための最大距離である。ここで決定される閾値に基づいて、図８中に示す距離マトリクスのグラフを、ノード間で生成してもよい。

Ｓ４５で、領域クラスタ化部１３は、Ｓ４４で決定された閾値を超える距離を持つリンクを、グラフから削除する。
Ｓ４６で、領域クラスタ化部１３は、Ｓ４５から出力されるグラフのそれぞれが１つの記事（クラスタ）を構成するものと見做して、１つのグラフに属する複数の領域を１つの記事にクラスタ化する。

図１７は、図１５のＳ４２で出力されるグラフモデルの他の一例を示す模式図であり、垂直方向に隣接するノード間がリンクで接続されている。
図１７を参照して、関心領域のノード１７１は、いずれの隣接ノードに対しての距離も０．２であるため、Ｓ４３で、隣接ノードへの最短距離が最大となるノードとして決定される。このノード１７１が少なくとも１つの隣接ノードを有するためは、クラスタ化のための距離の閾値は、少なくとも０．２でなければならない。こうして、図１７のグラフでは、閾値が０．２に設定される。

図１８は、図１７のグラフモデルに基づき領域が記事にクラスタ化された文書画像の一例を示す模式図である。図１７のグラフモデルから、閾値０．２を超える距離を有するリンクが削除されたことで、３つの相互に独立するグラフが生成されている。１つのグラフが１つの記事のクラスタに相当する。したがって、図１８では、文書画像の領域（パラグラフ）が、３つのグラフにそれぞれ相当する３つの記事（１８１，１８２、および１８３）にクラスタ化されたことが示されている。

なお、図１７を参照して説明した上記の領域クラスタ化処理に替えて、またはこれに加えて、領域クラスタ化部１３は、複数の領域のそれぞれに付与されたカテゴリに基づいて、複数の領域をクラスタ化してよい。
例えば、領域クラスタ化部１３は、タイトルのカテゴリが付与された領域の大きさや幅に基づいて、クラスタに含めるべき範囲を決定してもよい。

＜読み順付与処理＞
図１９は、文書画像解析装置１の読み順付与部１４が実行する図２の読み順付与処理（Ｓ５）の詳細処理手順の一例を示すフローチャートである。
Ｓ５１で、読み順付与部１４は、１つの記事（クラスタ）内に属する領域（パラグラフ）を、領域にラベリングされたカテゴリに従い、３つのスーパークラスに分類する。ただし、本実施形態において、文書画像中の記事はクラスタの一例であり、クラスタは、文書画像中の任意の複数の領域をクラスタ化して構成されてよく、記事に限定されない。
記事は、例えば、タイトル、カラム、イラストレーションの３つのスーパークラスを有する。
タイトルのスーパークラスには、プレタイトル、タイトル、およびサブタイトルの領域が分類される。カラムのスーパークラスには、カラム、および署名の領域が分類される。イラストレーションのスーパークラスには、イラストレーション（写真を含む）、およびキャプションの領域が分類される。すなわち、スーパークラスは、複数のカテゴリを一般化した上位概念である。

Ｓ５２で、読み順付与部１４は、それぞれのスーパークラス内で、当該スーパークラスに属する複数の領域を、左上に位置する領域から右下に位置する領域の順にソートする。あるスーパークラスの中で、左上から右下への最短パスが、当該スーパークラス内での複数の領域の読み順を決定する。
Ｓ５３で、読み順付与部１４は、スーパークラス間で、タイトル、カラム、およびイラストレーションの順にスーパークラスをソートする。ただし、必要に応じてイラストレーションがカラムに先行してもよい。
Ｓ５４で、読み順付与部１４は、１つのクラスタに属する複数の領域に対して、Ｓ５２およびＳ５３でソートされた順に、読み順を付与する。

図２０は、図１９のＳ５４で出力される読み順が付与された文書画像の一例を示す模式図である。
図２０を参照して、記事１８１〜１８５には、それぞれ、クラスタ内で読み順が付与されている。例えば、記事１８１内では、タイトル（１−０）、カラム（１−１〜１−４）、イラストレーション（写真）（１−５）、およびキャプション（１−６）の順に読み順が付与されており、スーパークラス内では左上から右下に、スーパークラス間では、タイトル、カラム、およびイラストレーションの順に、読み順が付与されていることが分かる。記事１８２〜１８５に対しても、同様に読み順が付与されている。
図２０に示すように、本実施形態の読み順付与部１４は、例えば、現在のクラスタの読み順を付与した後、次のクラスタの読み順を引き続き付与することにより、複数のクラスタに亘って読み順が連続するよう、それぞれのクラスタに属する複数の領域に読み順を付与する。

このように、本実施形態では、クラスタ内のみで領域に読み順が付与されるので、記事を跨って読み順が付与されることがない。また、クラスタ内では複数のスーパークラスが順にソートされ、ソートされたスーパークラスに属する領域に読み順が付与されるので、例えば、カラム内に配置されるイラストレーションが、読み順において、意味的に連続する複数のカラムの間に挟まれることもない。

＜複数ページに亘る記事の統合処理＞
上記では、１ページごとに入力される文書画像から構造化文書を生成する処理を説明したが、本実施形態では、さらに、複数ページに亘る記事をトラッキングして統合することができる。
具体的には、複数ページに亘る、複数の文書画像を入力とし、１つの記事が２つのタイトルを持てないこと、１つの記事が少なくとも１つのカラムを持つことを制約条件として、以下のようなルールを使用してトポロジー解析を実行する。
・２つのタイトルを有する記事を分離する。
・２ページに亘る画像（イラストレーションや写真）を持つ記事は統合する。
・カラムを持たない記事は最も近い記事にマージする。
さらに、意味論的解析として、他のルールに抵触しない限り、同一のキーワードを共有する記事同士はマージされてよい。

以上の処理を繰り返すことにより、複数ページに亘る記事を統合することができる。
図２１は、本実施形態の文書画像解析装置１が出力する、複数ページに亘り記事をトラッキングした文書画像の一例を示す模式図である。図２１を参照して、複数ページ２１ａ、２１ｂ、および２１ｃに亘って、記事が１つに統合され、統合された記事内の複数の領域に読み順が付与されている。

図２２は、図２の構造化文書出力処理（Ｓ６）で出力される構造化文書のＸＭＬ記述の一例を示す図である。
図２２を参照して、構造化文書は、＜ａｒｔｉｃｌｅ＞から＜／ａｒｔｉｃｌｅ＞までで記述される１つの記事を含む。この記事は、タイトル（“ｔｉｔｌｅ”）、サブタイトル（“ｓｕｂｔｉｔｌｅ”）、イラストレーション（“ｉｌｌｕｓｔｒａｔｉｏｎ”）、キャプション（“ｃａｐｔｉｏｎ”）、５つのカラム（“ｃｏｌｕｍｎ”）、および署名（“ｓｉｇｎａｔｕｒｅ”）を含み、それぞれ＜ｐａｒｔｔｙｐｅ＞に領域のカテゴリが記述されている。
なお、図２２の構造化文書では、読み順が明示的には記述されていないが、それぞれの領域（ｐａｒｔ）に対して付与された読み順を記述してもよく、ＸＭＬ記述上で読み順どおりに領域をソートしてもよく、あるいは、構造化文書のＸＭＬ記述に対応付けられた別個の記述を参照して動的に読み順を取得してもよい。
また、構造化文書のＸＭＬ記述には、読み順以外に、本実施形態に係る文書画像解析装置１により抽出された領域のあらゆる属性、例えば、フォントタイプ、フォントサイズ、フォント色等、が適宜領域の記述に付加されてもよい。

＜本実施形態のハードウェア構成＞
図２３は、本実施形態に係る文書画像解析装置１のハードウェア構成の一例を示す。
本実施形態に係る文書画像解析装置１は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上に実装することができる。
図２３を参照して、本実施形態に係る文書画像解析装置１は、複数のコンピュータ２３ａ、２３ｂを含むコンピュータシステムに実装されている例が示されている。
複数のコンピュータ２３ａ、２３ｂは、有線または無線のネットワーク２３ｃにより相互通信可能に接続されている。

コンピュータ２３ａ、２３ｂは、それぞれ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２３１、メモリ２３２、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２３３、および通信Ｉ／Ｆ２３４を備える。ＣＰＵ２３１、メモリ２３２、ＧＰＵ２３３、および通信Ｉ／Ｆ２３４は、バスで相互接続されている。
なお、図２３には２つのコンピュータ２３ａ、２３ｂが図示されているが、本実施形態を実装可能なコンピュータの数は、これに限定されず、単一であっても、３つ以上であってもよい。また、コンピュータ２３ａ、２３ｂの全部または一部は、上記で説明した各種処理結果を出力するディスプレイ等の出力デバイスや、各種指令を入力する入力デバイスを備えてよい。

ＣＰＵ２３１は、１つまたは複数のプロセッサから構成され、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）からプログラムを読み出してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）し、ＲＡＭを作業領域として使用して、展開されたプログラムを実行する。これにより、ＣＰＵ２３１は、コンピュータ２３ａ、２３ｂの各部を統括的に制御する。ＣＰＵ２３１が読み出すプログラムは、例えば、インターネット等のネットワーク２３ｃを介して提供されてもよく、あるいはＤＶＤ−ＲＯＭまたはＵＳＢメモリ等のコンピュータ読み取り可能な外部記憶媒体に記憶されてから供給されてもよい。
メモリ２３２は、ＲＯＭ、ＲＡＭ、およびハードディスクドライブ等のメモリデバイスを含む。ＲＯＭは、不揮発性のリードオンリーメモリであり、ＣＰＵ２３１を動作させる制御命令すなわちプログラムを格納する。ＲＡＭは、揮発性のランダムアクセスメモリであり、プログラムを実行する際のワークメモリやデータの一時保存などに利用される。

ＧＰＵ２３３は、ＣＰＵ２３１より高い計算機能を有し、複数または多数のＧＰＵ２３３を並列して動作させることにより、特に、本実施形態のような機械学習を使用する画像処理アプリケーションに、より高い処理パフォーマンスを提供する。ＧＰＵ２３３は、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
通信Ｉ／Ｆ２３４は、コンピュータ２３ａ、２３ｂを、サーバ等の他のコンピュータと通信させるインタフェースであり、例えばネットワークインタフェースカード（ＮＩＣ）により構成されてよい。通信Ｉ／Ｆ２３４は、ＣＰＵ２３１の制御に基づき、他のコンピュータから受信した情報をＣＰＵ２３１またはメモリ２３２に入力し、また、他のコンピュータへ情報を送信する。

以上説明したように、本実施形態によれば、文書画像解析装置は、文書画像から領域を検出するとともに、検出された領域を分類して、カテゴリをラベリングする。文書画像解析装置はさらに、カテゴリがラベリングされた領域をクラスタにクラスタ化し、クラスタ化された記事内の領域に読み順を付与する。
このため、本実施形態に係る文書画像解析装置によれば、文書画像の各領域について、各種属性、例えば、カテゴリ、読み順、フォントタイプ、フォントサイズ、フォント色等、が高精度に付加された構造化文書を生成することができる。
また、本実施形態によれば、文書画像からの領域の検出および領域の分類を、テキスト行ベースの処理と画像ベースの処理とを併用することにより実行するため、より少ない訓練データの入力（アノテーション）、より少ないＣＰＵ負荷で、より高速、高精度に構造化文書を生成することが可能となる。
したがって、多様なデバイスやユースケースにおける文書画像の閲覧性を向上させることが可能になり、文書画像の可用性が向上する。

なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。

１…文書画像解析装置、１１…文書画像取得部、１２…領域検出部、１３…領域クラスタ化部、１４…読み順付与部、１５…構造化文書出力部

Claims

文書画像を取得する文書画像取得部と、
前記文書画像取得部により取得された前記文書画像から複数の領域を検出する領域検出部と、
前記領域検出部により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化部と、
前記クラスタ化部により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与部と
を備えることを特徴とする文書画像解析装置。
前記領域検出部は、検出された複数の領域を分類して、前記複数の領域のそれぞれにカテゴリを付与する
ことを特徴とする請求項１に記載の文書画像解析装置。
前記領域検出部は、前記文書画像のテキストを解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第１の解析エンジンと、
前記文書画像の画像を解析して、前記複数の領域を検出するとともに検出された複数の領域を分類する第２の解析エンジンとを有し、
前記第１の解析エンジンと前記第２の解析エンジンとの双方を実行させる
ことを特徴とする請求項２に記載の文書画像解析装置。
前記第１の解析エンジンが出力する前記複数の領域の検出および分類結果と、前記第２の解析エンジンが出力する前記複数の領域の検出および分類結果とを補完的にマージして、前記クラスタ化部へ供給するマージ部をさらに備える、
ことを特徴とする請求項３に記載の文書画像解析装置。
前記マージ部は、前記第１の解析エンジンと前記第２の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第２の解析エンジンにより付与されたカテゴリを保持する
ことを特徴とする請求項４に記載の文書画像解析装置。
前記マージ部は、前記第１の解析エンジンと前記第２の解析エンジンとの間で、検出された領域がオーバーラップする場合、当該領域に対して前記第２の解析エンジンが検出したバウンディングボックスを、前記第１の解析エンジンが検出した領域の情報で補正する
ことを特徴とする請求項５に記載の文書画像解析装置。
前記マージ部は、前記第１の解析エンジンにより検出され、前記第２の解析エンジンによって検出されなかった領域の大きさを所定の閾値と比較し、前記所定の閾値以下の大きさである場合、当該領域を前記クラスタ化部へ出力しない
ことを特徴とする請求項４から６のいずれか１項に記載の文書画像解析装置。
前記クラスタ化部は、前記複数の領域のそれぞれについて、隣接する領域への距離を算出し、算出された距離に基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項１から７のいずれか１項に記載の文書画像解析装置。
前記クラスタ化部は、前記複数の領域のそれぞれについて算出される隣接する領域への距離の閾値を動的に決定し、決定された前記距離の閾値内にある領域をクラスタ化する
ことを特徴とする請求項８に記載の文書画像解析装置。
前記クラスタ化部は、前記複数の領域のうち、隣接する領域への最短距離の値が最大となる領域を決定し、決定された前記領域の隣接する領域への最短距離の値を、前記距離の閾値に設定する
ことを特徴とする請求項９に記載の文書画像解析装置。
前記クラスタ化部は、前記文書画像の縦方向に隣接する領域については、隣接する領域への距離に基づいてクラスタ化し、前記文書画像の横方向に隣接する領域については、それぞれの領域に付与された前記カテゴリに基づいてクラスタ化する
ことを特徴とする請求項９または１０に記載の文書画像解析装置。
前記クラスタ化部は、前記複数の領域のそれぞれに付与されたカテゴリに基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項２から７のいずれか１項に記載の文書画像解析装置。
前記クラスタ化部は、所定のカテゴリが付与された領域の大きさに基づいて、前記複数の領域をクラスタ化する
ことを特徴とする請求項１２に記載の文書画像解析装置。
前記読み順付与部は、前記クラスタに属する複数の領域を、前記カテゴリを一般化した複数のスーパークラスに分類し、それぞれのスーパークラス内で、当該スーパークラスに分類された領域をソートし、ソートされた領域に読み順を付与する
ことを特徴とする請求項２から１３のいずれか１項に記載の文書画像解析装置。
前記読み順付与部は、さらに前記複数のスーパークラスをソートすることにより、前記クラスタに属する複数の領域に読み順を付与する
ことを特徴とする請求項１４に記載の文書画像解析装置。
前記読み順付与部は、複数のクラスタ間で読み順が連続するよう、それぞれのクラスタに属する複数の領域に読み順を付与する
ことを特徴とする請求項１４または１５に記載の文書画像解析装置。
前記クラスタ化部は、前記複数の領域に付与された前記カテゴリに基づいて、複数の文書画像に亘り、前記クラスタを統合する
ことを特徴とする請求項２から１６のいずれか１項に記載の文書画像解析装置。
前記読み順付与部により前記読み順が付与された前記領域を含む前記クラスタから、少なくとも、前記クラスタに含まれる前記領域の読み順、テキスト、およびカテゴリを記述する構造化文書を生成する構造化文書生成部をさらに備える
ことを特徴とする請求項２から１７のいずれか１項に記載の文書画像解析装置。
文書画像解析装置が実行する文書画像解析方法であって、
文書画像を取得するステップと、
取得された前記文書画像から複数の領域を検出するステップと、
検出された前記複数の領域をクラスタ化して、クラスタに統合するステップと、
統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与するステップと
を含むことを特徴とする文書画像解析方法。
文書画像解析処理をコンピュータに実行させるための文書画像解析プログラムであって、該プログラムは、前記コンピュータに、
文書画像を取得する文書画像取得処理と、
前記文書画像取得処理により取得された前記文書画像から複数の領域を検出する領域検出処理と、
前記領域検出処理により検出された前記複数の領域をクラスタ化して、クラスタに統合するクラスタ化処理と、
前記クラスタ化処理により統合された前記クラスタ内で、前記クラスタに属する領域に読み順を付与する読み順付与処理と、を含む処理を実行させるためのものである、
ことを特徴とする文書画像解析プログラム。