WO2023062799A1

WO2023062799A1 - 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Info

Publication number: WO2023062799A1
Application number: PCT/JP2021/038148
Authority: WO
Inventors: 祥太横川
Original assignee: 株式会社Pfu
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-04-20

Abstract

情報処理システムに、識別対象画像の文字認識結果を取得する認識結果取得部と、所定の原稿種の頻出単語列を記憶する頻出語記憶部と、頻出単語列の識別対象原稿内での位置に関する情報を取得する検出部と、頻出単語列と他の単語列との識別対象原稿内での位置関係に関する特徴量を含む識別対象原稿に係る特徴量を、位置に関する情報を用いて生成する特徴生成部と、頻出単語列と他の単語列との原稿内での位置関係に関する特徴量を含む特徴量が入力されることで、当該原稿が所定の原稿種の原稿である妥当性を示す情報が出力されるよう生成された学習済みモデルを記憶するモデル記憶部と、識別対象原稿に係る特徴量を学習済みモデルに入力することで識別対象原稿が所定の原稿種の原稿か否かを識別する識別部とを備えた。

Description

情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

　本開示は、原稿の種類を識別するための技術に関する。

　従来、原稿画像を読み取るスキャナと、読み取った原稿のＲＧＢ信号などの色情報を、予め分割された色空間毎に分類して画像の特徴量を抽出し、抽出した特徴量と予め記憶されている特徴量とを比較することにより読み取った原稿の種類を判定する原稿種登録・原稿種判定回路とを備え、原稿種登録・原稿種判定回路の判定結果に基づいて画像処理内容を切り替える装置が提案されている（特許文献１を参照）。

　また、原稿に形成された画像の画像情報を取得し、画像の特徴量から分類を行うための第１の認識処理を実行し、画像の文字情報から分類を行うための第２の認識処理を実行し、何れか一方の認識処理の処理結果により、何れか一方の認識処理または両者の認識処理を用いて画像を分類する画像読取装置が提案されている（特許文献２を参照）。

　また、文書を分類するためのモデルであって、入力された文書に基づいて、分類の結果を識別する識別情報を出力する文書分類モデルを機械学習により生成する装置であって、文書と該文書に関連付けられた識別情報とを含む学習データを取得し、文書に含まれる単語と、単語を構成する文字のうちの一の文字または単語において連続する複数の文字からなる文字列であって、前記単語から１または複数抽出可能な情報である文字情報と、を特徴量として抽出し、文書から抽出された特徴量及び当該文書に関連付けられた識別情報に基づいて機械学習を行い、文書分類モデルを生成する文書分類装置が提案されている（特許文献３を参照）。

　更に、文書の画像を表す画像データを取得し、画像データで表される画像を解析することによって文書の各ページを構成する構成要素のレイアウトを表すレイアウト情報を取得し、ページ内で文章が空間的に連続している文章領域を抽出し、文章領域に含まれる文字列を認識し、認識された文字列から視覚的に強調された文字列を抽出し、抽出された文字列をキーワードとし、文章領域のレイアウト上の階層構造を表す構造データをページ毎に生成し、構造データとキーワードとを用いて、文書の論理構造を抽出し、抽出された論理構造を用いて文書を分類して記憶する文書分類装置が提案されている（特許文献４を参照）。

特開平１１－１４６２２０号公報特開２０１７－９０９７４号公報国際公開第２０２０／０２１８４５号特開２００５－１２２５５０号公報

　従来、原稿の種類を識別する技術として、罫線情報を使用する方法や、特定の原稿種にのみ記載される特定単語の有無とその位置によって特定の原稿種を識別する方法等、種々の技術が提案されている。

　しかし、準定型帳票等の、同一種の文書であっても様々なレイアウト（フォーマット）が存在する文書の場合、原稿によって、記載されている単語や、罫線や単語の位置等が異なる。そのため、上述した従来の方法では、このようなレイアウトが定まっていない文書の原稿について、原稿の種類を識別することが困難である。

　本開示は、上記した問題に鑑み、レイアウトが定まっていない文書の原稿であっても、原稿の種類を適切に識別することを課題とする。

　本開示の一例は、識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段を備える情報処理システムである。

　本開示は、情報処理装置、システム、コンピュータによって実行される方法またはコンピュータに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。

　本開示によれば、レイアウトが定まっていない文書の原稿であっても、原稿の種類を適切に識別することが可能となる。

実施形態に係る情報処理システムの構成を示す概略図である。実施形態に係る学習装置の機能構成の概略を示す図である。第一の実施形態に係る高頻度単語リストの一例を示す図である。実施形態に係るＩＮＶＯＩＣＥ原稿の一例を示す図である。実施形態に係る位置特徴量を説明するための図である。実施形態に係る座標情報配列の一例を示す図である。実施形態に係る距離特徴量を説明するための図である。実施形態に係る単語列間距離情報配列の一例を示す図である。実施形態に係る大きさ特徴量を説明するための図である。実施形態に係る大きさ情報配列の一例を示す図である。実施形態に係る行特徴量を説明するための図である。実施形態に係る行情報配列の一例を示す図である。実施形態に係る特徴配列の一例を示す図である。実施形態に係る情報処理装置の機能構成の概略を示す図である。実施形態に係る学習処理の流れの概要を示すフローチャートである。実施形態に係る頻出単語列抽出処理の流れの概要を示すフローチャートである。実施形態に係る頻出単語列検出処理の流れの概要を示すフローチャートである。実施形態に係る特徴量生成処理の流れの概要を示すフローチャートである。第一の実施形態に係る識別処理の流れの概要を示すフローチャートである。第二の実施形態に係る高頻度単語リストの一例を示す図である。第二の実施形態に係る識別処理の流れの概要を示すフローチャートである。

　以下、本開示に係る情報処理システム、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理システム、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。

　本実施形態では、本開示に係る情報処理システム、方法及びプログラムを、ＩＮＶＯＩＣＥ（ＩＮＶＯＩＣＥ原稿）を識別するシステムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理システム、方法及びプログラムは、任意の原稿種類（原稿種）を識別するための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。

　［第一の実施形態］
　＜システムの構成＞
　図１は、本実施形態に係る情報処理システム９の構成を示す概略図である。本実施形態に係る情報処理システム９は、ネットワークに接続されることで互いに通信可能な、１又は複数の情報処理装置１、学習装置２及び文書読取装置３（３Ａ、３Ｂ）を備える。学習装置２では、所定の原稿種類（以下、原稿種類を「原稿種」と称する）を識別するための学習処理が行われ、所定の原稿種を識別するための学習済みモデルが生成される。情報処理装置１では、学習装置２において生成された学習済みモデルを用いて、識別対象の原稿の原稿種（識別対象の原稿が所定の原稿種の原稿であるか否か）が識別される。

　本実施形態では、所定の原稿種として「ＩＮＶＯＩＣＥ」を例示し、ＩＮＶＯＩＣＥ（ＩＮＶＯＩＣＥ原稿）を識別するための学習処理及び識別処理を例示する。但し、識別する原稿種（所定の原稿種）は、ＩＮＶＯＩＣＥ以外の任意の原稿種であってよく、例えば、請求書や、非定型領収書、お知らせ、保証書等であってよい。また、本実施形態において、原稿とは、紙媒体の原稿のみならず、電子原稿（画像）をも含む。

　情報処理装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　ａｎｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の記憶装置１４、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信ユニット１５、キーボードやタッチパネル等の入力デバイス１６及びディスプレイ等の出力デバイス１７、等を備えるコンピュータである。但し、情報処理装置１の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置１は、単一の筐体からなる装置に限定されない。情報処理装置１は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

　情報処理装置１は、学習装置２により生成された学習済みモデル及び高頻度単語リストを学習装置２から取得し、記憶する。また、情報処理装置１は、文書読み取り装置３Ａから、識別対象の原稿の画像である文書画像（識別対象画像）を取得する。そして、情報処理装置１は、学習済みモデル及び高頻度単語リストを用いることで、識別対象の原稿（識別対象画像に示された原稿）の原稿種を識別する。

　なお、文書画像は、ＴＩＦＦ（Ｔａｇｇｅｄ　Ｉｍａｇｅ　Ｆｉｌｅ　Ｆｏｒｍａｔ）、ＪＰＥＧ（Ｊｏｉｎｔ　Ｐｈｏｔｏｇｒａｐｈｉｃ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）、ＰＮＧ（Ｐｏｒｔａｂｌｅ　Ｎｅｔｗｏｒｋ　Ｇｒａｐｈｉｃｓ）等の電子データ（画像データ）に限らず、ＰＤＦ（Ｐｏｒｔａｂｌｅ　Ｄｏｃｕｍｅｎｔ　Ｆｏｒｍａｔ）による電子データであってもよい。そのため、文書画像は、原稿をスキャンしてＰＤＦ化することにより得られる電子データ（ＰＤＦファイル）や、当初からＰＤＦファイルとして作成された電子データ（電子原稿）であってもよい。

　なお、識別対象画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ、ＳＤメモリーカード（Ｓｅｃｕｒｅ　Ｄｉｇｉｔａｌ　ｍｅｍｏｒｙ　ｃａｒｄ）及び光ディスク等の外部記録媒体や記憶装置１４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、識別対象画像を文書読取装置３Ａから取得しない場合は、情報処理システム９に文書読取装置３Ａを備えなくてもよい。また、同様に、学習済みモデル及び高頻度単語リストを取得する方法は、上述した例に限定されず、任意の方法が用いられてよい。

　学習装置２は、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、記憶装置２４及び通信ユニット２５等を備えるコンピュータである。但し、学習装置２の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、学習装置２は、単一の筐体からなる装置に限定されない。学習装置２は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。

　学習装置２は、文書読み取り装置３Ｂから文書画像（学習用画像）を取得する。そして、学習装置２は、学習用画像を用いて学習処理を行うことにより、所定の原稿種（所定の原稿種の原稿）を識別するための学習済みモデル及び高頻度単語リストを生成する。

　なお、学習用画像を取得する方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、学習用画像を、文書読取装置３Ｂから取得しない場合は、情報処理システム９に文書読取装置３Ｂを備えなくてもよい。また、本実施形態では、別装置（別筐体）である情報処理装置１と学習装置２を例示するが、この例に限定されず、情報処理装置９は、学習処理及び原稿種識別処理の両者を行う一の装置（筐体）を備えるようにしてよい。

　文書読取装置３（３Ａ、３Ｂ）は、ユーザからのスキャン指示等を受け、紙媒体の文書（原稿）を光学的に読み取ることで、文書画像（原稿画像）を取得する装置であり、スキャナや複合機等に例示される。文書読取装置３Ａは、ユーザが原稿種を識別したい原稿を読み取ることで、識別対象画像を取得する。文書読取装置３Ｂは、所定の原稿種（例えば、ＩＮＶＯＩＣＥ）を含む複数の原稿種の原稿を読み取ることで、複数の学習用画像を取得する。なお、文書読取装置３Ａと文書読取装置３Ｂは、同一の装置（筐体）であってもよい。また、文書読取装置３は、他の装置に画像を送信する機能を備えるものに限定されず、デジタルカメラやスマートフォン等の撮像装置であってもよい。また、文書読取装置３は、文字認識（ＯＣＲ）機能を備えなくてもよい。

　＜機能構成＞
　図２は、本実施形態に係る学習装置の機能構成の概略を示す図である。学習装置２は、記憶装置２４に記録されているプログラムが、ＲＡＭ２３に読み出され、ＣＰＵ２１によって実行されて、学習装置２に備えられた各ハードウェアが制御されることで、画像取得部５１、認識結果取得部５２、正解定義取得部５３、頻出語取得部５４、検出部５５、特徴生成部５６、モデル生成部５７及び記憶部５８を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、学習装置２の備える各機能は、汎用プロセッサであるＣＰＵ２１によって実行されるが、これらの機能の一部又は全部は、１又は複数の専用プロセッサによって実行されてもよい。また、学習装置２が備える各機能部は、単一の筐体からなる装置（１の装置）に実装されるものに限定されず、遠隔に及び／又は分散して（例えば、クラウド上に）実装されてもよい。

　画像取得部５１は、学習処理において使用される複数の文書画像（学習用画像）を取得する。本実施形態では、画像取得部５１は、所定の原稿種（ＩＮＶＯＩＣＥ）を含む複数の原稿種の原稿についてのスキャン画像を学習用画像として取得する。なお、画像取得部５１は、所定の原稿種（ＩＮＶＯＩＣＥ）の原稿の画像（以下、「所定原稿種画像」と称する）として、互いにレイアウトが異なる所定の原稿種の原稿（複数の原稿）の画像を取得する。画像取得部５１は、例えば、ユーザのスキャン指示により所定の原稿種を含む複数の原稿種の原稿が文書読取装置３Ｂにおいて読み取られると、その読み取り結果であるスキャン画像を学習用画像として取得する。

　なお、原稿の画像には、原稿中の情報が画像として含まれている。また、学習用画像及び後述する識別対象画像は、対象の原稿（画像に示された原稿）に合致するように前処理（原稿の大きさに合わせるためのトリミング処理等）が行われた画像である。これより、原稿内での位置は、画像内での位置と等価なものとして扱うことが可能である。なお、本実施形態では、所定の原稿種以外の原稿種の原稿画像を、学習時の不正解学習データとして用いるが、所定の原稿種及びその他の原稿種夫々の学習用画像の枚数は任意である。

　認識結果取得部５２は、各学習用画像についての文字認識結果（文字列データ）を取得する。認識結果取得部５２は、学習用画像全体（全領域）を、ＯＣＲを用いて読み取ることにより、学習用画像についての文字認識結果（全文ＯＣＲ結果）を取得する。なお、文字認識結果は、学習用画像内の各文字列（文字列画像）に対する文字認識結果を含むものあれば、データ構造は任意である。なお、文字認識結果を取得する方法は、上述した例に限定されず、ＯＣＲ処理を行う文字認識装置等の他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。なお、本実施形態において、文字列とは、１以上の文字からなる列（文字の連なり）であり、文字には、平仮名、片仮名、漢字、アルファベット、数字、記号等を含む。

　正解定義取得部５３は、学習用画像（学習用画像の識別情報）と、当該学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報とが学習用画像毎に対応付けられた正解定義（正解定義テーブル）を取得する。例えば、正解定義には、所定の原稿種（ＩＮＶＯＩＣＥ）の画像である学習用画像については、所定の原稿種であることを示す情報として、原稿種名（ＩＮＶＯＩＣＥ）やラベル「１」等が格納される。また不正解データとして用いられる学習用画像については、所定の原稿種でないことを示す情報として、その学習用画像の原稿種名やラベル「０」等が格納される。なお、学習用画像の識別情報は、ファイル名や番号、記号など、学習用画像を示す情報であれば任意である。本実施形態では、正解定義取得部５３は、学習装置２に、ユーザにより生成（定義）された正解定義が入力されることで、正解定義を取得する。

　なお、所定の原稿種の原稿であるか否かを示す情報を格納するためのデータ構造はＣＳＶ（ｃｏｍｍａ－ｓｅｐａｒａｔｅｄ　ｖａｌｕｅｓ）形式等のテーブル形式に限定されず、任意の形式であってよい。また、正解定義の取得方法は、上述した例に限定されず、他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。

　頻出語取得部５４は、所定の原稿種の原稿（画像）において頻出する単語列である頻出単語列（所定の原稿種の頻出単語列）を１以上取得（抽出）する。本実施形態では、所定の原稿種の画像である複数の学習用画像において、共通してより多く出現している単語列が頻出単語列として抽出される。これより、所定の原稿種の特徴となる単語列を入手することができる。なお、単語列は、１以上の単語からなる列（単語の並び）を意味し、複数単語からなる単語列と単語単体を含むものである。以下、所定の原稿種の原稿の画像（学習用画像）を、「所定原稿種画像」と称する。以下、より具体的な頻出単語列の抽出方法を説明する。

　頻出語取得部５４は、複数の所定原稿種画像に対して頻度解析を行うことで、所定の原稿種の原稿（画像）において頻出する単語列（頻出単語列）を抽出する。本実施形態では、各所定原稿種画像の文字認識結果に含まれる、連続する２単語からなる単語列及び単語の夫々について頻度解析が行われ、頻度が高い順に所定数（Ｎ個（Ｎ≧１））の単語列が頻出単語列として抽出される。頻出語取得部５４は、抽出した頻出単語列を格納した高頻度単語リストを生成する。

　図３は、本実施形態に係る高頻度単語リストの一例を示す図である。図３に示す通り、所定の原稿種についての高頻度単語リストには、所定の原稿種の頻出単語列（単語列１～単語列Ｍ（Ｍ個の頻出単語列））及び当該所定の原稿種を識別するための学習済みモデルの識別情報が格納される。学習済みモデルの識別情報は、学習済みモデルを示す情報であれば、モデル名（Ｍоｄｅｌ１等）や、番号、記号等任意である。このように、高頻度単語リストに、識別対象原稿の頻出単語列と、対応する学習済みモデルの識別情報を格納することで、頻出単語列と学習済みモデルを対応付けるようにしてよい。なお、本実施形態では、所定の原稿種が一つの場合を例示するため、学習済みモデルの識別情報は格納されていなくてもよい。

　このようにして生成された高頻度単語リストは、記憶部５８により記憶される。なお、頻度解析では、各所定原稿種画像に含まれる単語列夫々についての出現度合い（出現回数等）が取得されてもよいし、複数の所定原稿種画像において出現頻度の高い単語列が取得されてもよい。また、頻出単語列の抽出方法は、上述した例に限定されず、頻度（出現回数）に対する所定の閾値が設定され、頻度が閾値を超えた単語列が頻出単語列として抽出されてもよい。また、頻出単語列（高頻度単語リスト）を取得する方法は、上述した例以外に、他の装置を介して取得する方法や、外部記録媒体や記憶装置２４から読み出すことで取得する方法等、任意の方法が用いられてよい。

　検出部５５は、各学習用画像において、頻出語取得部５４により抽出された頻出単語列（高頻度単語リストに格納されている頻出単語列）の検出処理を行う。検出処理において、検出部５５は、頻出単語列の原稿（学習用画像）内での位置に関する情報（頻出単語列に係る位置情報）を、学習用画像毎に取得する。例えば、検出部５５は、高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出する。そして、検出部５５は、検出された頻出単語列の当該学習用画像（原稿）内での位置に関する情報（頻出単語列に係る位置情報）を、例えば、当該学習用画像の文字認識結果から取得する。検出部５５は、これらの処理を学習用画像毎に実行することで、頻出単語列の各原稿（学習用画像）内での位置に関する情報を取得する。

　頻出単語列に係る位置情報は、頻出単語列の位置情報及び／又は頻出単語列を含む行の位置情報であり、本実施形態では、両者の位置情報を用いることとする。また、本実施形態では、位置情報として位置座標を用いる。よって、本実施形態では、頻出単語列に係る位置情報として、頻出単語列の位置座標及び頻出単語列を含む行の位置座標（行座標）を用いる。

　頻出単語列の位置座標は、例えば、原稿（学習用画像）中の頻出単語列の外接矩形の位置を示す座標（外接矩形の各頂点の座標等）である。また、例えば、行座標は、頻出単語列を含む行の外接矩形（行に含まれる全ての文字を囲む外接矩形）の位置を示す座標（外接矩形の各頂点の座標等）である。なお、頻出単語列に係る位置情報は、上述した例に限定されず、後述する特徴量を生成（算出）可能なものであれば、任意の位置情報であってよい。例えば、位置情報は、位置座標に限定されず、例えば、外接矩形の一点の座標と外接矩形の大きさを示す情報との組み合わせ等であってもよい。また、位置座標は、外接矩形の各頂点の座標に限定されず、外接矩形の対角線上に位置する２点の頂点の座標等であってもよい。

　特徴生成部５６は、各学習用画像に示された原稿に係る特徴量を生成する。特徴生成部５６は、検出部５５により取得された、頻出単語列に係る位置情報を用いて、当該学習用画像に示された原稿に係る特徴量を生成する。そして、特徴生成部５６は、各学習用画像に示された原稿に係る特徴量が配列の形で集約された特徴配列を生成する。後述する学習処理では、各学習用画像に示された原稿に係る特徴量（特徴配列）を、原稿種を識別するための特徴量（学習済みモデルの入力）とする。

　本実施形態では、特徴生成部５６は、学習用画像に示された原稿に係る特徴量を、頻出単語列に関する情報に基づき算出する。つまり、学習用画像に示された原稿に係る特徴量として、頻出単語列に関する特徴量が算出される。本実施形態では、頻出単語列に関する情報として、４つの情報（頻出単語列の位置、頻出単語列間の距離、頻出単語列の大きさ、頻出単語列を含む行の大きさ）が用いられることで、学習用画像に示された原稿に係る特徴量が生成される。より具体的には、頻出単語列の位置を示す特徴量（以下、「位置特徴量」と称する）、頻出単語列間の距離を示す特徴量（以下、「距離特徴量」と称する）、頻出単語列の大きさを示す特徴量（以下、「大きさ特徴量」と称する）及び頻出単語列を含む行の大きさを示す特徴量（以下、「行特徴量」と称する）を含む特徴量として、学習用画像に示された原稿に係る特徴量が生成される。

　なお、位置特徴量及び大きさ特徴量は、夫々、頻出単語列（自体）の属性を示す特徴量の一例である。また、距離特徴量及び行特徴量は、夫々、原稿（学習用画像）内での頻出単語列と他の単語列との位置関係に関する特徴量（以下、「位置関係特徴量」と称する）の一例である。頻出単語列を含む行の大きさを示す特徴量（行特徴量）は、換言すると、頻出単語列と同一の行に他の単語列が含まれる可能性を示す特徴量であるため、頻出単語列と他の単語列との位置関係に関する特徴量に相当する。

　なお、本実施形態では、原稿の特徴量が、上述した四つの特徴量を含む特徴量である場合を例示するが、上述の例に限定されず、四つの特徴量のうち一つの特徴量のみを含むものであっても、二つ又は三つの特徴量の組み合わせを含むものであってもよい。以下、上述した四つの情報について説明する。

　＜頻出単語列の位置＞
　同一の原稿種の原稿において頻出する単語列（頻出単語列）は、当該原稿種の原稿間で厳密に同じ位置に記載されていなくとも、同様の位置に記載されていることが多い。

　図４は、本実施形態に係るＩＮＶＯＩＣＥ原稿の一例を示す図である。図４に示す通り、ＩＮＶＯＩＣＥ原稿の場合、例えば、原稿種を表す「Ｉｎｖｏｉｃｅ」は原稿上部に記載されやすく、金額を表す「Ａｍｏｕｎｔ」は原稿右部に記載されやすいという傾向がある。つまり、原稿種は夫々、その原稿種の頻出単語列が記載される位置に傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列の位置を示す特徴量（位置特徴量）を用いる。

　＜頻出単語列間の距離＞
　同一の原稿種の原稿において頻出する単語列（頻出単語列）の記載位置は、当該原稿種の原稿間で異なる場合があるが、頻出単語列同士の距離は原稿間で概ね同じであることが多い。例えば、ＩＮＶＯＩＣＥ原稿の場合、税金を表す「ＶＡＴ．」と合計金額を表す「Ｔｏｔａｌ」の夫々の記載位置は原稿によって異なる場合があるが、図４に示す通り、両者は上下に並べて記載されやすいという傾向がある。つまり、原稿種は夫々、その原稿種の頻出単語列同士の距離に傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列間の距離を示す特徴量（距離特徴量）を用いる。このように、頻出単語列の記載位置が原稿によって異なる場合や、所定の原稿種の頻出単語列が所定の原稿種以外の原稿種の原稿にも用いられる単語列である場合であっても、距離特徴量を用いることで、原稿種を識別することが可能となる。なお、距離特徴量を学習用画像に示された原稿に係る特徴量として用いる場合、所定の原稿種の頻出単語列は複数必要である。

　＜頻出単語列の大きさ＞
　各原稿種の原稿に記載される単語列には、タイトル部分のように大きな文字で書かれやすい単語列と、注釈のように小さい文字で書かれやすい単語列がある。例えば、ＩＮＶＯＩＣＥ原稿の場合は、図４に示す通り、原稿種を表す単語「Ｉｎｖｏｉｃｅ」は大きく書かれやすく、「ｅ－ｍａｉｌ」や「Ｔｅｌ」等の単語は小さく書かれやすいという傾向がある。つまり、各原稿種において、その原稿種の頻出単語列の大きさに傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列の大きさを示す特徴量（大きさ特徴量）を用いる。

　＜頻出単語列を含む行の大きさ＞
　各原稿種の原稿に記載される単語列には、短文中に存在しやすい単語列がある。例えば、ＩＮＶＯＩＣＥ原稿の場合は、図４に示す通り、「Ｉｎｖｏｉｃｅ」という単語は、「Ｉｎｖｏｉｃｅ」や、「Ｉｎｖｏｉｃｅ　Ｄａｔｅ」、「Ｉｎｖｏｉｃｅ　ＮＯ」等の短文中に存在することが多い一方、長文中に存在することは少ないという傾向がある。その一方で、ＩＮＶＯＩＣＥ以外の原稿種の原稿では、「Ｉｎｖｏｉｃｅ」という単語が長文中に含まれることが少なからずある。このように、対象の原稿種とそれ以外の原稿種で、単語列の使用方法に違いがある。つまり、原稿種は夫々、その原稿種の頻出単語列が短文中に含まれるか否かに傾向があるといえる。よって、本実施形態では、原稿種を識別するための特徴量として、頻出単語列が短文（長文）に含まれる可能性に関する特徴量である、頻出単語列を含む行の大きさを示す特徴量（行特徴量）を用いる。

　特徴生成部５６は、各学習用画像について上述した４つの特徴量を生成し、全ての学習用画像についての４つの特徴量を集約（格納）した特徴配列を生成する。なお、本実施形態では、位置特徴量、距離特徴量、大きさ特徴量及び行特徴量が夫々格納される配列を「情報配列」と称する。本実施形態では、４つの情報配列が集約された形で特徴配列が成型される。以下、特徴配列に格納される各情報配列及び各特徴量について説明する。

　＜配列Ａ：座標情報配列（位置特徴量）＞
　図５は、本実施形態に係る位置特徴量を説明するための図である。図６は、本実施形態に係る座標情報配列の一例を示す図である。図６では、図５に示された原稿（学習用画像）内での頻出単語列の位置を示す特徴量（位置特徴量）を格納した情報配列（座標情報配列）について例示する。なお、位置特徴量は、検出部５５により取得された頻出単語列の位置座標（頻出単語列の左下座標）を用いて算出（生成）される。

　図６に示す通り、座標情報配列（配列Ａ）には、全ての頻出単語列（「ｉｎｖｏｉｃｅ」、「ｔｏｔａｌ」、「ａｍｏｕｎｔ」、「ｐａｙｍｅｎｔ」等）についての位置特徴量が格納される。本実施形態では、原稿上の頻出単語列の座標（ｘ座標、ｙ座標）を原稿の大きさで割ることにより得られる、０から１の値に正規化された頻出単語列の座標を、位置特徴量として算出する。例えば、頻出単語列のｘ座標を原稿のｘ軸方向の長さで割ることにより得られる正規化された座標を、ｘ軸方向の位置特徴量として取得する。なお、本実施形態では、頻出単語列の座標として、頻出単語列の左下座標（頻出単語列の外接矩形（図５中の点線矩形）の左下頂点の座標（図５中の丸印の座標））を使用するが、この例に限定されず、頻出単語列の上下左右の何れかの座標や重心座標等が使用されてよい。

　なお、図６の座標情報配列中の頻出単語列「ａｍｏｕｎｔ」は、図５に示されたＩＮＶＯＩＣＥ原稿（学習用画像）に含まれない単語列であり、例えば、他のＩＮＶＯＩＣＥ原稿（学習用画像）で多く出現したことにより頻出単語列として決定された単語列である。このように、対象の原稿（学習用画像）に含まれていない頻出単語列の位置特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値（例えば、０）とする（図６参照）。

　なお、位置特徴量は、上述の正規化された座標に限定されず、原稿上の頻出単語列の座標自体であってもよい。また、図６の例では、頻出単語列の座標を、原稿の左上の頂点を原点として取得するが、この例に限定されず、原稿の右上頂点、右下頂点、左下頂点等の任意の位置を原点として取得してよい。

　＜配列Ｂ：単語列間距離情報配列（距離特徴量）＞
　図７は、本実施形態に係る距離特徴量を説明するための図である。図８は、本実施形態に係る単語列間距離情報配列の一例を示す図である。図８では、図７に示された原稿（学習用画像）内での頻出単語列間の距離を示す特徴量（距離特徴量）を格納した情報配列（単語列間距離情報配列）について例示する。なお、距離特徴量は、検出部５５により取得された頻出単語列の位置座標（頻出単語列の左下座標）を用いて算出（生成）される。

　図８に示す通り、単語列間距離情報配列（配列Ｂ）には、頻出単語列（「ｉｎｖｏｉｃｅ」、「ｔｏｔａｌ」、「ａｍｏｕｎｔ」、「ｐａｙｍｅｎｔ」等）の全ての組み合わせ（二つの単語列の組み合わせ）についての距離特徴量が格納される。本実施形態では、原稿上の頻出単語列間の距離（ｘ軸方向、ｙ軸方向）を原稿の大きさで割ることにより得られる、０から１の値に正規化された頻出単語列間の距離を、距離特徴量として算出する。例えば、頻出単語列間の距離（頻出単語列の座標間の距離（図７中の両矢印の長さ））のｘ軸方向の成分（距離）を原稿のｘ軸方向の長さで割ることにより得られる正規化された距離を、ｘ軸方向の頻出単語列間距離として取得する。

　なお、図７に示されたＩＮＶＯＩＣＥ原稿（学習用画像）には頻出単語列「ａｍｏｕｎｔ」が含まれていない。このように、原稿（学習用画像）に含まれていない頻出単語列との距離を示す特徴量（距離特徴量）は、頻出単語列が原稿内に存在しない場合の値として予め設定された値（例えば、１）とする（図８参照）。また、距離特徴量は、上述の正規化された距離に限定されず、原稿上の頻出単語列間の距離自体であってもよい。

　＜配列Ｃ：大きさ情報配列（大きさ特徴量）＞
　図９は、本実施形態に係る大きさ特徴量を説明するための図である。図１０は、本実施形態に係る大きさ情報配列の一例を示す図である。図１０では、図９に示された原稿（学習用画像）内での頻出単語列の大きさを示す特徴量（大きさ特徴量）を格納した情報配列（大きさ情報配列）について例示する。なお、大きさ特徴量は、検出部５５により取得された頻出単語列の位置座標（頻出単語列の上下左右の座標等）を用いて算出（生成）される。

　図１０に示す通り、大きさ情報配列（配列Ｃ）には、全ての頻出単語列（「ｉｎｖｏｉｃｅ」、「ｔｏｔａｌ」、「ａｍｏｕｎｔ」、「ｐａｙｍｅｎｔ」等）についての大きさ特徴量が格納される。本実施形態では、原稿上の頻出単語列の外接矩形の面積（図９中の網掛け箇所の面積）を、大きさ特徴量として算出する。なお、本実施形態では、外接矩形の面積を平方ミリメートルで表すが、外接矩形の面積の単位はこの例に限定されない。

　また、図１０の大きさ情報配列中の頻出単語列「ａｍｏｕｎｔ」は、図９に示されたＩＮＶＯＩＣＥ原稿（学習用画像）に含まれない単語列である。このように、原稿（学習用画像）に含まれていない頻出単語列の大きさ特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値（例えば、０）とする（図１０参照）。

　なお、大きさ特徴量は、上述の原稿上の頻出単語列の外接矩形の面積に限定されず、原稿上の頻出単語列の大きさ（外接矩形の面積）を原稿の大きさで割ることにより得られる、０から１の値に正規化された頻出単語列の大きさ等であってもよい。

　＜配列Ｄ：行情報配列（行特徴量）＞
　図１１は、本実施形態に係る行特徴量を説明するための図である。図１２は、本実施形態に係る行情報配列の一例を示す図である。図１２では、図１１に示された原稿（学習用画像）内での頻出単語列を含む行の大きさを示す特徴量（行特徴量）を格納した情報配列（行情報配列）について例示する。なお、行特徴量は、検出部５５により取得された頻出単語列を含む行の位置座標（行座標）を用いて算出（生成）される。

　図１２に示す通り、行情報配列（配列Ｄ）には、全ての頻出単語列（「ｉｎｖｏｉｃｅ」、「ｔｏｔａｌ」、「ａｍｏｕｎｔ」、「ｐａｙｍｅｎｔ」等）についての行特徴量が格納される。本実施形態では、原稿上の頻出単語列を含む行の長さ（図１１中の両矢印の長さ）を、行の長さ方向と同一方向の原稿の長さで割ることにより得られる、０から１の値に正規化された行の長さを、行特徴量として算出する。

　また、図１２の行情報配列中の頻出単語列「ａｍｏｕｎｔ」は、図１１に示されたＩＮＶＯＩＣＥ原稿（学習用画像）に含まれない単語列である。このように、原稿（学習用画像）に含まれていない頻出単語列についての行特徴量は、頻出単語列が原稿内に存在しない場合の値として予め設定された値（例えば、０）とする（図１２参照）。また、行特徴量は、上述の正規化された行の長さに限定されず、原稿上の頻出単語列を含む行の長さ自体や、原稿上の頻出単語列を含む行の長さを頻出単語列の長さで割ることにより得られる値（頻出単語列に対する長さの倍率）、原稿上の頻出単語列を含む行の面積（行の外接矩形の面積）、行の面積を原稿の面積で割った値（原稿の大きさに対する倍率）等であってもよい。

　＜特徴配列＞
　図１３は、本実施形態に係る特徴配列の一例を示す図である。図１３に示す通り、特徴配列は、上述した各情報配列（配列Ａ、配列Ｂ、配列Ｃ、配列Ｄ）が集約された形で成型される。特徴配列には、各原稿（各学習用画像）について生成された各情報配列（配列Ａ、配列Ｂ、配列Ｃ、配列Ｄ）が格納される。

　なお、一枚の原稿（画像）内に同一の単語列が複数個出現している場合には、複数個の同一単語列のうちどの単語列を特徴量に使用するか選択されるようにしてもよい。どの単語列を使用するかを決定する方法には任意の方法が用いられてよい。配列Ａの場合は、例えば、複数個の同一単語列のうち、ｙ座標が最大である単語列と最小である単語列のどちらか一方のみが使用されてもよいし、両者共が使用されてもよい。配列Ｂの場合は、例えば、頻出単語列間の距離が最も小さくなる単語列が使用されてよい。配列Ｃの場合、例えば、頻出単語列の大きさが最大である単語列と最小である単語列のどちらか一方のみが使用されてもよいし、両者共が使用されてもよい。配列Ｄの場合は、例えば、配列Ａで使用される単語列を使用してもよし、行の大きさが最大となる単語列と最小となる単語列のどちらか一方のみが使用されてもよい。

　モデル生成部５７は、機械学習（教師あり学習）を行うことで、所定の原稿種を識別するための学習済みモデルを生成する。機械学習には、学習用画像に示された原稿に係る特徴量（特徴配列）と、当該学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報（正解ラベル）とが、学習用画像毎に対応付けられた学習データ（特徴量と所定の原稿種か否かの情報のデータセット（教師データ））が用いられる。正解ラベルである、学習用画像に示された原稿が所定の原稿種の原稿であるか否かを示す情報は、正解定義取得部５３により取得された正解定義に基づく情報である。この学習データを用いて機械学習を行うことにより、所定の原稿種の特徴量を学習することが可能となる。

　これより、対象となる原稿に係る特徴量（頻出単語列と他の単語列との原稿内での位置関係を示す位置関係特徴量を少なくとも含む）を入力することで、対象となる原稿が所定の原稿種の原稿であるか否かを判定可能な識別器を生成することが可能である。より具体的には、原稿に係る特徴量を入力することで、当該原稿が所定の原稿種の原稿である妥当性を示す情報を出力可能な識別器（学習済みモデル）を生成可能である。なお、原稿が所定の原稿種の原稿である妥当性を示す情報は、当該原稿が所定の原稿種の原稿であるか否かを示す情報（ラベル等）及び／又は当該原稿が所定の原稿種の原稿である確からしさを示す情報（信頼度や確率等）である。生成された学習済みモデルは、記憶部５８により記憶される。

　なお、機械学習の方法は任意であり、決定木や、ランダムフォレスト、勾配ブースティング、線形回帰、サポートベクターマシン（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ、ＳＶＭ）、ニューラルネットワーク等のうち任意の方法が用いられてよい。

　記憶部５８は、頻出語取得部５４により抽出された、所定の原稿種についての頻出単語列（高頻度単語リスト）と、モデル生成部５７により生成された、所定の原稿種についての学習済みモデルを記憶する。記憶部５８は、高頻度単語リスト（頻出単語列）と学習済みモデルを対応付けて記憶してよい。

　図１４は、本実施形態に係る情報処理装置の機能構成の概略を示す図である。情報処理装置１は、記憶装置１４に記録されているプログラムが、ＲＡＭ１３に読み出され、ＣＰＵ１１によって実行されて、情報処理装置１に備えられた各ハードウェアが制御されることで、画像取得部４１、認識結果取得部４２、頻出語記憶部４３、モデル記憶部４４、検出部４５、特徴生成部４６及び識別部４７を備える装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置１の備える各機能は、汎用プロセッサであるＣＰＵ１１によって実行されるが、これらの機能の一部又は全部は、１又は複数の専用プロセッサによって実行されてもよい。また、情報処理装置１が備える各機能部は、単一の筐体からなる装置（１の装置）に実装されるものに限定されず、遠隔に及び／又は分散して（例えば、クラウド上に）実装されてもよい。

　画像取得部４１は、原稿種の識別処理において識別対象となる文書画像（識別対象原稿の画像（以下、「識別対象画像」と称する））を取得する。本実施形態では、画像取得部４１は、例えば、ユーザのスキャン指示により識別対象の原稿（文書）が文書読取装置３Ａにおいて読み取られると、その読み取り結果であるスキャン画像を識別対象画像として取得する。

　認識結果取得部４２は、識別対象画像についての文字認識結果（全文ＯＣＲ結果）を取得する。なお、認識結果取得部４２における処理は、認識結果取得部５２における処理の説明と概略同様であるため、詳細の説明を省略する。

　頻出語記憶部４３は、学習装置２において生成された、所定の原稿種を識別するための高頻度単語リストを記憶する。なお、高頻度単語リストの詳細については、学習装置２の機能構成（頻出語検抽出部５４）の説明において記述したため、説明を省略する。

　モデル記憶部４４は、学習装置２において生成された、所定の原稿種を識別するための学習済みモデルを記憶する。なお、学習済みモデルの詳細については、学習装置２の機能構成（モデル生成部５７）の説明において記述したため、説明を省略する。

　検出部４５は、識別対象画像において、頻出単語列（頻出語記憶部４３により記憶された高頻度単語リストに格納されている頻出単語列）の検出処理を行う。検出処理において、検出部４５は、頻出単語列の識別対象画像に示された原稿（識別対象の原稿）内での位置に関する情報（頻出単語列に係る位置情報）を取得する。なお、検出部４５における処理は、検出部５５における処理の説明と概略同様であるため、詳細の説明を省略する。

　特徴生成部４６は、識別対象画像に示された原稿（識別対象の原稿）に係る特徴量を生成する。特徴生成部４６は、検出部４５により取得された、頻出単語列に係る位置情報を用いて、識別対象の原稿に係る特徴量を生成する。そして、特徴生成部４６は、識別対象の原稿に係る特徴量を配列の形に成型した特徴配列を生成する。後述する識別処理では、識別対象の原稿に係る特徴量（特徴配列）を、原稿種を識別するための特徴量（学習済みモデルの入力）とする。上述した学習用画像に示された原稿に係る特徴量と同様に、識別対象の原稿に係る特徴量は、位置特徴量、距離特徴量、大きさ特徴量及び行特徴量を含む特徴量として生成される。

　なお、識別対象の原稿に係る特徴量（特徴配列）及びその生成方法は、上述した、学習用画像に示された原稿に係る特徴量（特徴配列）及びその生成方法と概略同様であるため、詳細の説明を省略する。なお、識別対象画像に係る特徴配列における各特徴量の並び（配列内の各特徴量の位置）は、学習用画像に係る特徴配列における各特徴量の並びと同一の並びとする。

　識別部４７は、識別対象の原稿に係る特徴量（特徴配列）を学習済みモデルに入力することで、当該識別対象の原稿が所定の原稿種の原稿であるか否かを識別する。具体的には、識別部４７は、モデル記憶部４４により記憶されている、所定の原稿種を識別するための学習済みモデルを受け取り、特徴生成部４６により生成された、識別対象の原稿に係る特徴量（特徴配列）を学習済みモデルに入力することで、原稿が所定の原稿種の原稿であるか否かを識別する。識別部４７は、識別した結果を出力する。

　上述の通り、原稿に係る特徴量が学習済みモデルに入力されると、当該原稿が所定の原稿種の原稿である妥当性を示す情報（ラベル及び／又は確率）が学習済みモデルから出力される。本実施形態では、識別部４７は、識別対象の原稿に係る特徴量を学習済みモデルに入力することで、識別対象の原稿像が所定の原稿種の原稿であるか否かを示す情報（ラベル（例えば、所定の原稿種の場合はラベル「１」、そうでない場合はラベル「０」））及び識別対象の原稿が所定の原稿種の原稿である確からしさを示す情報（信頼度や確率等）を取得する。

　なお、例えば、所定の原稿種の原稿である確率が、所定の原稿種の原稿でない確率を上回る場合や所定の閾値を超える場合等に、所定の原稿種の原稿であると判定可能である。そのため、識別部４７は、学習済みモデルから、所定の原稿種の原稿である確率のみを取得し、取得した確率に基づき、所定の原稿種の原稿であるか否かを判定するようにしてもよい。

　＜処理の流れ＞
　次に、本実施形態に係る学習装置２によって実行される学習処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の態様に応じて適宜選択されてよい。

　図１５は、本実施形態に係る学習処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、学習装置２において、原稿のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置２４に記憶された原稿画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでは、識別する原稿種（所定の原稿種）が「ＩＮＶＯＩＣＥ」である場合の処理について例示する。

　ステップＳ１０１では、複数の文書画像（学習用画像）が取得される。画像取得部５１は、互いにレイアウトが異なる所定の原稿種（ＩＮＶＯＩＣＥ）の原稿の画像である複数の所定原稿種画像を含む学習用画像（スキャン画像）を取得する。その後、処理はステップＳ１０２へ進む。

　ステップＳ１０２では、正解定義が取得される。正解定義取得部５３は、学習用画像（学習用画像の識別情報）と、当該学習用画像に示された原稿が所定の原稿種（ＩＮＶＯＩＣＥ）の原稿であるか否かを示す情報とが学習用画像毎に対応付けられた正解定義を取得する。その後、処理はステップＳ１０３へ進む。

　ステップＳ１０３では、文字認識結果（全文ＯＣＲ結果）が取得される。認識結果取得部５２は、ステップＳ１０１で取得された各学習用画像に対して文字認識を行うことで、各学習用画像についての文字認識結果を取得する。なお、ステップＳ１０２とステップＳ１０３は順不同である。また、ステップＳ１０１とステップＳ１０２は順不同である。その後、処理はステップＳ１０４へ進む。

　ステップＳ１０４では、頻出単語列の抽出処理が行われる。頻出単語列抽出処理では、所定の原稿種（ＩＮＶＯＩＣＥ）の画像である複数の学習用画像（所定原稿種画像）の文字認識結果を用いて、所定の原稿種の頻出単語列が抽出される。頻出単語列抽出処理の詳細については、図１６を用いて後述する。その後、処理はステップＳ１０５へ進む。

　ステップＳ１０５では、頻出単語列の検出処理が行われる。頻出単語列検出処理では、ステップＳ１０１で取得された学習用画像において、ステップＳ１０４で抽出された頻出単語列の検出処理が行われる。頻出単語列検出処理では、頻出単語列に係る位置情報（頻出単語列の原稿（学習用画像）内での位置情報と頻出単語列を含む行の原稿（学習用画像）内での位置情報）が取得される。頻出単語列検出処理の詳細については、図１７を用いて後述する。その後、処理はステップＳ１０６へ進む。

　ステップＳ１０６では、特徴量生成処理が行われる。特徴量生成処理では、ステップＳ１０５で取得された位置情報に基づき、ステップＳ１０１で取得された学習用画像に示された原稿に係る特徴量（特徴配列）が生成される。特徴量生成処理の詳細については、図１８を用いて後述する。その後、処理はステップＳ１０７へ進む。

　ステップＳ１０７では、全ての学習用画像について特徴量が生成されたか否か（ステップＳ１０５及びステップＳ１０６の処理を実行済みか）が判定される。ＣＰＵ２１は、全ての学習用画像各々について、学習用画像に示された原稿に係る特徴量が生成されたか否かを判定する。全ての学習用画像について処理済みでない場合（ステップＳ１０７のＮＯ）、処理はステップＳ１０５に戻り、処理済みでない学習用画像についての処理が実行される。一方、全ての学習用画像について処理済みである場合（ステップＳ１０７のＹＥＳ）、処理はステップＳ１０８へ進む。

　ステップＳ１０８では、所定の原稿種を識別するための学習済みモデルが生成される。モデル生成部５７は、ステップＳ１０７で生成された各学習用画像に示された原稿に係る特徴量（特徴配列）と、各学習用画像に示された原稿が所定の原稿種（ＩＮＶＯＩＣＥ）の原稿であるか否かを示す情報（ステップＳ１０２で取得された正解定義に基づく情報）とが対応付けられた学習データを用いて機械学習を行うことで、所定の原稿種（ＩＮＶＯＩＣＥ）を識別するための学習済みモデルを生成する。その後、本フローチャートに示された処理は終了する。

　図１６は、本実施形態に係る頻出単語列抽出処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図１５においてステップＳ１０３の処理が終了したことを契機として実行される。なお、本フローチャートでも、所定の原稿種が「ＩＮＶＯＩＣＥ」である場合の処理について例示する。

　ステップＳ１０４１では、複数の所定原稿種画像における単語（単体）の頻度解析が行われる。例えば、頻出語取得部５４は、ステップＳ１０３で取得された複数の所定原稿種画像の文字認識結果を用いて、複数の所定原稿種画像における、各所定原稿種画像に含まれる各単語の出現回数を取得（集計）する。その後、処理はステップＳ１０４２へ進む。

　ステップＳ１０４２では、複数の所定原稿種画像における、連続する二単語からなる単語列の頻度解析が行われる。頻出語取得部５４は、ステップＳ１０３で取得された複数の所定原稿種画像の文字認識結果を用いて、複数の所定原稿種画像における、各所定原稿種画像に含まれる各単語列（連続する二単語からなる単語列）の出現回数を取得（集計）する。その後、処理はステップＳ１０４３へ進む。

　ステップＳ１０４３では、頻度（出現回数）が高い順に所定の個数（Ｎ個）の単語列が頻出単語列として抽出される。頻出語取得部５４は、ステップＳ１０４１及びステップＳ１０４２における頻度解析の結果に基づき、各所定原稿種画像に含まれる単語列（単語を含む）のうち、出現回数が高い順に所定数（Ｎ個）の単語列を、所定の原稿種（ＩＮＶＯＩＣＥ）の頻出単語列として抽出する。その後、処理はステップＳ１０４４へ進む。

　ステップＳ１０４４では、高頻度単語リストが生成される。頻出語取得部５４は、ステップＳ１０４３で抽出した頻出単語列を格納した高頻度単語リストを生成する。そして、記憶部５８は、生成された高頻度単語リストを記憶する。その後、本フローチャートに示された処理は終了する。

　図１７は、本実施形態に係る頻出単語列検出処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図１５においてステップＳ１０４の処理が終了したことを契機として実行される。

　ステップＳ１０５１では、高頻度単語リストが取得される。検出部５５は、ステップＳ１０４４で記憶された高頻度単語リストを取得する。その後、処理はステップＳ１０５２へ進む。

　ステップＳ１０５２では、頻出単語列の位置情報が取得される。検出部５５は、ステップＳ１０５１で取得された高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出し、検出された各頻出単語列について、頻出単語列の当該学習用画像に示された原稿内での位置の情報（座標情報）を取得する。その後、処理はステップＳ１０５３へ進む。

　ステップＳ１０５３では、頻出単語列を含む行の位置情報が取得される。検出部５５は、ステップＳ１０５１で取得された高頻度単語リストに格納された頻出単語列のうち、学習用画像の文字認識結果中に含まれている頻出単語列を検出し、検出された各頻出単語列について、頻出単語列を含む行の当該学習用画像に示された原稿内での位置の情報（座標情報）を取得する。その後、本フローチャートに示された処理は終了する。なお、ステップＳ１０５２とステップＳ１０５３は順不同である。

　図１８は、本実施形態に係る特徴量生成処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、図１５においてステップＳ１０５の処理が終了したことを契機として実行される。

　ステップＳ１０６１では、頻出単語列の位置を示す特徴量が生成される。特徴生成部５６は、ステップＳ１０５２で取得された位置情報を用いて、頻出単語列の位置を示す特徴量（図６の配列Ａに格納された特徴量）を生成する。その後、処理はステップＳ１０６２へ進む。

　ステップＳ１０６２では、頻出単語列間の距離を示す特徴量が生成される。特徴生成部５６は、ステップＳ１０５２で取得された位置情報を用いて、頻出単語列間の距離を示す特徴量（図８の配列Ｂに格納された特徴量）を生成する。その後、処理はステップＳ１０６３へ進む。

　ステップＳ１０６３では、頻出単語列の大きさを示す特徴量が生成される。特徴生成部５６は、ステップＳ１０５２で取得された位置情報を用いて、頻出単語列の大きさを示す特徴量（図１０の配列Ｃに格納された特徴量）を生成する。その後、処理はステップＳ１０６４へ進む。

　ステップＳ１０６４では、頻出単語列を含む行の大きさを示す特徴量が生成される。特徴生成部５６は、ステップＳ１０５３で取得された位置情報を用いて、頻出単語列を含む行の大きさを示す特徴量（図１２の配列Ｄに格納された特徴量）を生成する。なお、ステップＳ１０６１～ステップＳ１０６４は、順不同である。その後、処理はステップＳ１０６５へ進む。

　ステップＳ１０６５では、特徴量が配列に成型される。特徴生成部５６は、ステップＳ１０６１～ステップＳ１０６４において生成された各特徴量を集約した特徴配列（図１３の各行）を生成する。その後、本フローチャートに示された処理は終了する。なお、ステップＳ１０６の処理が各学習用画像について実行されることにより、各学習用画像に係る特徴量（学習用画像に示された原稿の特徴量）が特徴配列に格納され、図１３に示すような特徴配列が生成される。

　図１９は、本実施形態に係る識別処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置１において、原稿のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置１４に記憶された原稿画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでも、識別する原稿種が「ＩＮＶＯＩＣＥ」である場合の処理について例示する。

　ステップＳ２０１では、文書画像（識別対象画像）が取得される。画像取得部４１は、識別対象の原稿についてのスキャン画像を取得する。その後、処理はステップＳ２０２へ進む。

　ステップＳ２０２では、文字認識結果（全文ＯＣＲ結果）が取得される。認識結果取得部４２は、ステップＳ２０１で取得された識別対象画像に対して文字認識を行うことで、識別対象画像についての文字認識結果を取得する。その後、処理はステップＳ２０３へ進む。

　ステップＳ２０３では、頻出単語列の検出処理が行われる。頻出単語列検出処理では、ステップＳ２０１で取得された識別対象画像において、頻出語記憶部４３により記憶された頻出単語列の検出処理が行われる。頻出単語列検出処理では、頻出単語列に係る位置情報（頻出単語列の識別対象の原稿内での位置の情報と頻出単語列を含む行の識別対象の原稿内での位置の情報）が取得される。頻出単語列検出処理は、図１７で示された処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ２０４へ進む。

　ステップＳ２０４では、特徴量生成処理が行われる。特徴量生成処理では、ステップＳ２０３で取得された位置情報に基づき、ステップＳ２０１で取得された識別対象画像に示された原稿（識別対象の原稿）に係る特徴量（特徴配列）が生成される。特徴量生成処理の詳細については、図１８で示された処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ２０５へ進む。

　ステップＳ２０５では、識別対象の原稿の原稿種が識別される。識別部４７は、モデル記憶部４４により記憶されている所定の原稿種（ＩＮＶＯＩＣＥ）を識別するための学習済みモデルを受け取る、そして、識別部４７は、ステップＳ２０４で生成された識別対象の原稿に係る特徴量（特徴配列）を、受け取った学習済みモデルに入力することで、識別対象の原稿が所定の原稿種（ＩＮＶＯＩＣＥ）の原稿であるか否かを識別する。識別部４７は、識別した結果を出力する。その後、本フローチャートに示された処理は終了する。

　上記説明したように、本実施形態によれば、学習装置２は、原稿に係る特徴量（所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量を含む）から、当該原稿が当該所定の原稿種の原稿であるか否かを識別可能な学習済みモデルを生成することができるため、レイアウトが定まっていない（レイアウトが多様な）文書（準定型帳票等）の原稿であっても原稿の種類を適切に識別することが可能なモデル（識別器）を生成することが可能となる。また、本実施形態によれば、情報処理装置１は、原稿に係る特徴量から当該原稿が所定の原稿種の原稿であるか否かを識別可能な学習済みモデルを用いて、識別対象の原稿が所定の原稿種の原稿であるかを識別することが出来るため、レイアウトが定まっていない文書の原稿であっても原稿の種類を適切に識別することが可能となる。つまり、レイアウトが異なる原稿であっても、これらを同一の原稿種の原稿であると識別することが可能となる。

　また、レイアウトが定まっていない文書の場合、原稿によって頻出単語列の位置が異なるが、本実施形態によれば、原稿に係る特徴量として、所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量（距離特徴量や行特徴量）を用いるため、頻出単語列の位置を示す特徴量のみを用いる場合と比較し、識別精度の向上を図ることが可能となる。

　従来、ＩＮＶＯＩＣＥ原稿を識別する要望があるものの、ＩＮＶＯＩＣＥ原稿には様々なレイアウトが存在し、ＩＮＶＯＩＣＥ原稿にのみ必ず記載される特定単語もなく、頻出となる単語の記載位置も定まっていない（原稿により異なる）ため、単純なルールではＩＮＶＯＩＣＥ原稿を識別することは困難であるという問題がある。従来、原稿のサイズによってレシートや名刺等の原稿種の識別が行われているが、ＩＮＶＯＩＣＥ原稿に関しては基本的にＡ４サイズのものが多く、原稿サイズに特徴を持っていないため、この方法ではＩＮＶＯＩＣＥ原稿を識別することは困難である。

　また、従来、特定の原稿種にのみ記載される特定単語の有無とその位置によって特定の原稿種を識別する方法も存在する。しかし、ＩＮＶＯＩＣＥ原稿にのみ必ず記載されている単語はなく、ＩＮＶＯＩＣＥ原稿に頻出する単語は他の原稿種においても存在（出現）しており、同じ項目（情報）であっても異なる単語で記載される場合もあるため、特定単語の有無によりルール化するのは困難である。

　また、罫線情報を使用して帳票の識別を行う手法が存在するが、ＩＮＶＯＩＣＥ原稿に関しては様々なレイアウトが存在しているため、罫線に関しても原稿によって異なるため、この手法を用いてＩＮＶＯＩＣＥ原稿を識別するのは困難である。

　しかし、本実施形態によれば、原稿に係る特徴量として、所定の原稿種の頻出単語列と他の単語列との当該原稿内での位置関係に関する位置関係特徴量（距離特徴量や行特徴量）を用いることで、レイアウトが定まっていないＩＮＶＯＩＣＥ原稿を識別することが可能となる。

　また、本実施形態によれば、学習装置２において、機械学習により学習が行われるため、自動で識別器（学習済みモデル）を生成することが可能となる。また、機械学習により学習が行われることで、より複雑で精度の高い識別が可能となる。

　［第二の実施形態］
　上記説明した第一の実施形態では、所定の原稿種（識別する原稿種）が一つの場合（一つの原稿種のみを識別する場合）の実施態様を説明したが、本実施形態では、所定の原稿種が複数ある場合（複数の原稿種を識別する場合）の実施態様について説明する。なお、本実施形態では、一つの原稿種のみを識別するための学習済みモデルを複数用いることで複数の原稿種を識別する実施態様を説明する。

　本実施形態に係るシステムの構成は、図１を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態に係る学習装置の機能構成は、図２を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、第一の実施形態と異なり、学習装置２では、複数の所定の原稿種夫々について、上述した学習処理（図１５参照）が行われ、複数の所定の原稿種の夫々について高頻度単語リスト及び学習済みモデルが生成される。なお、高頻度単語リストは、原稿種毎に生成されてもよいし、各原稿種の頻出単語列が格納されたリストであってもよい。

　図２０は、本実施形態に係る高頻度単語リストの一例を示す図である。図２０に示す通り、高頻度単語リストには、所定の原稿種の識別情報と、当該所定の原稿種の頻出単語列（単語列１～単語列Ｍ（Ｍ個の頻出単語列））と、当該所定の原稿種を識別するための学習済みモデルの識別情報（モデル名等）が対応付けられて格納される。なお、原稿種の識別情報は、原稿種を示す情報であれば、原稿種名（原稿種１、原稿種２等）や、番号、記号等任意である。このように、高頻度単語リストは、複数の所定の原稿種夫々の頻出単語列が格納されたリストであってよい。なお、頻出単語列の数は、全ての原稿種に共通（同一数）でなくてよい。

　また、本実施形態に係る情報処理装置の機能構成は、図１４を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、本実施形態では、第一の実施形態と異なり、情報処理装置１では、複数の所定の原稿種夫々について、識別対象画像が、所定の原稿種の画像であるか否かが識別される。そのため、画像取得部４１以外の各機能部は、複数の所定の原稿種の夫々に対して処理を行う。なお、識別部４７は、識別対象の原稿（識別対象画像が対象とする原稿）が複数の所定の原稿種の各々に該当するか否かを識別した結果に基づき、識別対象の原稿の原稿種を識別する。具体的には、複数の識別結果から、一つの結果を採用することにより、識別対象の原稿の原稿種を識別する。

　識別対象の原稿が複数の所定の原稿種の各々に該当するか否かを判定した結果、該当すると判定された原稿種が一つのみである場合、識別部４７は、その原稿種を、識別対象の原稿の原稿種であると識別（決定）する。一方、該当すると判定された原稿種が複数ある場合、識別部４７は、下記の方法等により、これら複数の原稿種から一つの原稿種を選出し、選出された原稿種を、識別対象の原稿の原稿種であると識別（決定）する。

　（学習済みモデルの出力（確率等）による選出）
　学習済みモデルにより出力される、識別対象の原稿が所定の原稿種の原稿である確からしさ（確率や信頼度等）に基づき、一つの原稿種が選出されてよい。例えば、この確からしさが最も高い原稿種が、識別対象の原稿の原稿種として決定（推定）される。

　（過去の識別度合いによる選出）
　過去の識別対象画像についての識別結果（識別度合い）に基づき選出されてよい。例えば、過去の識別対象の原稿が、所定の原稿種の原稿に該当するとして識別された頻度（回数）に基づき、一つの原稿種が選出されてよい。具体的には、過去の識別対象の原稿において所定の原稿種に該当すると識別（判定）された回数が最も多い原稿種が、識別対象の原稿の原稿種と決定（推定）される。なお、この方法を用いて原稿種を決定する場合、情報処理装置１は、履歴情報記憶部（図示しない）を備えることで、過去の識別結果を記憶しておくこととする。

　（過去の識別時期による選出）
　過去の識別対象画像についての識別時期（識別された時期）に基づき選出されてよい。例えば、過去の識別対象の原稿が、所定の原稿種の原稿に該当するとして識別された時期に基づき、一つの原稿種が選出されてよい。具体的には、過去の識別対象の原稿において所定の原稿種に該当すると識別（判定）された時期が最も近い（直近の）原稿種が、識別対象の原稿の原稿種と決定（推定）される。なお、この方法を用いて原稿種を決定する場合、情報処理装置１は、履歴情報記憶部（図示しない）を備えることで、過去の識別時期を記憶しておくこととする。

　（ユーザの選択による選出）
　該当すると判定された複数の原稿種が表示され、表示された複数の原稿種の中から一つの原稿種がユーザにより選択されることで、一つの原稿種が選出されてよい。なお、この方法を用いて原稿種を決定する場合、情報処理装置１は、表示部（図示省略）を備えることで、該当すると判定された原稿種を表示させ、指示受付部（図示省略）を備えることで、ユーザからの選択指示を受け付けることとする。

　図２１は、本実施形態に係る識別処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、情報処理装置１において、原稿（文書）のスキャン指示が受け付けられたこと等を契機として実行される。なお、本フローチャートは、ユーザによる、記憶装置１４に記憶された帳票画像を取得する指示が受け付けられたこと等を契機として実行されてもよい。なお、本フローチャートでは、識別する原稿種（所定の原稿種）が二種類（原稿種１と原稿種２）の場合を例示するが、識別する原稿種が三種類以上の場合も、本フローチャートと同様の処理が行われることで、原稿種の識別が可能である。

　ステップＳ３０１では、文書画像（識別対象画像）が取得される。画像取得部４１は、識別対象の原稿についてのスキャン画像を取得する。その後、処理はステップＳ３０２及びステップＳ３０６へ進む。以降、ステップＳ３０２～ステップＳ３０５の処理（識別対象の原稿が原稿種１に該当するか否かの識別処理）と、ステップＳ３０６～ステップＳ３０９の処理（識別対象の原稿が原稿種２に該当するか否かの識別処理）が並列に実行される。

　ステップＳ３０２では、文字認識結果（全文ＯＣＲ結果）が取得される。ステップＳ３０２の処理は、図１９のステップＳ２０２の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ３０３へ進む。

　ステップＳ３０３では、頻出単語列の検出処理が行われる。検出部４５は、頻出語記憶部４３に記憶されている原稿種１についての高頻度単語リストを受け取り、当該高頻度単語リストに格納された原稿種１の頻出単語列についての検出処理を行う。なお、ステップＳ３０３の処理は、図１９のステップＳ２０３の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ３０４へ進む。

　ステップＳ３０４では、特徴量生成処理が行われる。特徴生成部４６は、ステップＳ３０３で取得された位置情報に基づき、ステップＳ３０１で取得された識別対象画像に示された原稿に係る特徴量（特徴配列）を生成する。ステップＳ３０４の処理は、図１９のステップＳ２０４の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ３０５へ進む。

　ステップＳ３０５では、識別対象の原稿が、所定の原稿種（原稿種１）の原稿であるかが識別される。識別部４７は、モデル記憶部４４に記憶されている原稿種１についての学習済みモデルを受け取り、当該学習済みモデルに、ステップＳ３０４で生成された特徴量を入力することで、識別対象の原稿が原稿種１の原稿であるか否かを識別する。ステップＳ３０５の処理は、図１９のステップＳ２０５の処理と概略同様であるため、詳細の説明を省略する。その後、処理はステップＳ３１０へ進む。

　なお、原稿種２についての識別処理（ステップＳ３０６～ステップＳ３０９）は、上述した原稿種１についての識別処理（ステップＳ３０２～ステップＳ３０５）と、対象原稿種が異なるのみで概略同様であるため、説明を省略する。

　ステップＳ３１０では、識別結果を集計することで、識別対象の原稿の原稿種を識別し、識別された結果が出力される。識別部４７は、識別対象の原稿が原稿種１に該当するか否かの識別結果と、当該識別対象の原稿が原稿種２に該当するか否かの識別結果に基づき、当該識別対象の原稿の原稿種を識別する。例えば、ステップＳ３０５の識別結果が「原稿種１に該当する」であり、ステップＳ３０９の識別結果が「原稿種２に該当しない」であった場合、識別対象の原稿は、原稿種１に該当する（原稿種１の原稿である）と識別（判定）され、その結果が出力される。その後、本フローチャートに示された処理は終了する。

　なお、上述した例では、原稿種１と原稿種２の識別処理が並行して実行されることとしたが、この例に限定されず、原稿種１の識別処理が終了した後に、原稿種２の識別処理が実行されるようにしてもよい。また、文字認識結果を取得する処理は、図２１に示した例のように原稿種毎に行うのではなく、識別対象画像について一回のみ文字認識結果が取得され、その取得された結果を全ての原稿種において使用するようにしてもよい。

　［第三の実施形態］
　上記説明した第二の実施形態では、一つの原稿種のみを識別するための学習済みモデルを複数用いることで複数の原稿種を識別する実施態様を説明したが、本実施形態では、複数の原稿種を識別可能な一つの学習済みモデルを用いることで複数の原稿種を識別する実施態様を説明する。

　本実施形態に係るシステムの構成は、図１を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態に係る学習装置の機能構成は、図２を参照して第一の実施形態で説明したものと概略同様であるため、詳細の説明を省略する。また、本実施形態における学習処理の流れは、図１５を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。但し、第一の実施形態と異なり、学習装置２では、複数の所定の原稿種を識別可能な一つの学習済みモデルが学習処理により生成される。そのため、正解定義取得部５３により取得される正解定義や、頻出部取得部５４により生成される高頻度単語リスト、特徴生成部５６により生成される特徴量（特徴配列）等が第一の実施形態とは異なる。

　具体的には、正解定義取得部５３は、学習用画像（学習用画像の識別情報）と、当該学習用画像に示された原稿が複数の所定の原稿種のうちのどの原稿種の原稿であるか否かを示す情報（ラベル等）とが学習用画像毎に対応付けられた正解定義を取得する。例えば、識別する原稿種（所定の原稿種）が原稿種１（ＩＮＶＯＩＣＥ）と原稿種２（請求書）である場合、正解定義において、原稿種１である場合にラベル「１」が、原稿種２である場合にラベル「２」が、どちらの原稿種にも該当しない場合にラベル「０」が、各学習用画像に対して対応付けられる。なお、いずれの原稿種にも該当しない原稿の画像を学習処理に用いるか否かは任意である。

　頻出語取得部５４は、複数の所定の原稿種夫々の頻出単語列を取得（抽出）し、取得された複数の所定の原稿種夫々の頻出単語列を格納した高頻度単語リストを生成する。具体的には、頻出語取得部５４は、原稿種（所定の原稿種）毎に学習用画像をグルーピングし、グループ（原稿種）毎に頻出単語列を抽出する。例えば、原稿種１（ＩＮＶＯＩＣＥ）に該当する複数の学習用画像（ＩＮＶＯＩＣＥの画像）において、ステップＳ１０４１～ステップＳ１０４４に示された処理が実行されることで、原稿種１の頻出単語列が抽出され、当該頻出単語列が格納された原稿種１についての高頻度単語リストが生成される。他の原稿種についても同様の処理が行われることで、各原稿種についての頻出単語列が抽出（高頻度単語リストが生成）される。なお、高頻度単語リストは、上述の通り、原稿種毎に生成されるのではなく、各原稿種の頻出単語列を含む一つのリストであってもよい。また、本実施形態では、原稿種毎に学習済みモデルが生成されないため、図２０に示された高頻度単語リストのように、学習済みモデルの識別情報（モデル名）は格納されなくてよい。

　検出部５５は、学習用画像（原稿）毎に、複数の所定の原稿種夫々の頻出単語列に係る位置情報を取得する。検出部５５は、高頻度単語リスト（原稿種毎にリストが生成される場合は全ての高頻度単語リスト）に格納された各頻出単語列の原稿内での位置を取得する。つまり、学習用画像（原稿）毎に、各原稿種の各頻出単語列（識別する原稿種（所定の原稿種）が原稿種１と原稿種２である場合、原稿種１の各頻出単語列及び原稿種２の各頻出単語列）に係る位置情報が取得される。

　特徴生成部５６は、検出部５５により取得された位置情報に基づき、学習用画像に示された原稿に係る特徴量（特徴配列）を生成する。なお、本実施形態では、特徴配列に、複数の所定の原稿種（識別する全ての原稿種）夫々の頻出単語列に関する特徴量（位置特徴量、距離特徴量、大きさ特徴量、行特徴量）が格納される。例えば、識別する原稿種（所定の原稿種）が原稿種１と原稿種２である場合、原稿種１の各頻出単語列及び原稿種２の頻出単語列に関する特徴量が格納される。但し、距離特徴量については、同一の原稿種の頻出単語列間においてのみ算出されたものが格納される。

　モデル生成部５７は、特徴生成部５６により生成された学習用画像に示された原稿に係る特徴量（特徴配列）と、当該学習用画像に示された原稿が複数の所定の原稿種のうちどの原稿種の原稿であるか否かを示す情報（正解定義に基づく情報）とが学習用画像毎に対応付けられた学習データを用いて機械学習を行うことで、複数の所定の原稿種を識別するための学習済みモデルを生成する。つまり、複数の所定の原稿種夫々の頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む当該原稿に係る特徴量が入力されることで、当該原稿が当該複数の所定の原稿種の夫々の原稿である妥当性を示す情報が出力される識別器（学習済みモデル）が生成される。

　なお、本実施形態では、複数の所定の原稿種を識別可能とすべく、複数の所定の原稿種夫々の頻出単語列に関する特徴量が生成される（一つの特徴配列に格納される）ため、生成される特徴量（特徴配列に格納される特徴量）が膨大になると考えられる。そこで、特徴量（特徴配列に格納される特徴量（各頻出単語列の位置特徴量、距離特徴量、大きさ特徴量、行特徴量））を減らす工夫として、以下に示す方法を用いることが可能である。

　（原稿種間で重複する頻出単語列の除去）
　複数の（二以上の）原稿種で重複している頻出単語列がある場合、その重複している頻出単語列を、特徴量を生成する際に用いられる頻出単語列から除外するようにしてもよい。

　（単語列間の距離平均が閾値以下の頻出単語列ペアのみ使用）
　所定の原稿種（例えば、ＩＮＶＯＩＣＥ）の２つの頻出単語列からなる組み合わせ（ペア）のうち、所定の条件を満たす組み合わせのみの頻出単語列間の距離が特徴量の算出に用いられるようにしてよい。所定の条件を満たす組み合わせとは、所定の原稿種（ＩＮＶＯＩＣＥ）の画像である複数の学習用画像における頻出単語列間の距離の代表値（平均値）が所定の値以下である組み合わせである。例えば、原稿種１（ＩＮＶＯＩＣＥ）の画像である複数の学習用画像（例えば、１００枚の画像）において頻出単語列が抽出されると、全ての頻出単語列の組み合わせ（ペア）についての単語列間距離が、学習用画像毎に（１００枚の画像の夫々において）算出される。そして、１００枚の学習用画像における頻出単語列間の距離の平均値が所定の閾値以下となる頻出単語列のペアのみを、距離特徴量に用いられる単語列ペアとして決定してよい。

　（使用頻度の高い特徴量のみを使用）
　生成された学習済みモデルを用いて原稿種の識別処理が行われた結果、どの特徴量が識別に用いられた特徴量であるかを、学習済みモデルにより取得可能である。そのため、実際の識別処理に頻繁に用いられている特徴量（使用頻度の高い特徴量）のみを使用するよう、特徴配列を変更するようにしてもよい。

　（相関の高い特徴量の除去）
　特徴量間で相関の高い特徴量がある場合、その相関の高い特徴量のうち一の特徴量のみを学習用画像に示された原稿に係る特徴量として用い、他の特徴量は学習用画像に示された原稿に係る特徴量からは除外するようにしてもよい。

　（主成分分析による次元削減）
　主成分分析（ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ、ＰＣＡ）を用いることで、特徴量の次元を削減するようにしてよい。

　本実施形態に係る情報処理装置の機能構成は、図１４を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。また、本実施形態における識別処理の流れは、図１９を参照して第一の実施形態で説明したものと概略同様であるため、説明を省略する。

　但し、本実施形態では、頻出語記憶部４３は、上述した、複数の所定の原稿種夫々の頻出単語列（頻出語取得部５４により生成された、複数の所定の原稿種夫々の頻出単語列を格納した高頻度単語リスト）を記憶する。また、モデル記憶部４４は、上述した、モデル生成部５７により生成された、複数の所定の原稿種を識別するための学習済みモデルを記憶する。また、検出部４５は、複数の所定の原稿種夫々の頻出単語列の識別対象の原稿内での位置に関する情報を取得する。特徴生成部４６は、検出部４５により取得された情報を用いて、識別対象の原稿に係る特徴量（複数の所定の原稿種夫々の頻出単語列に関する特徴量）を生成する。なお、頻出単語列に関する特徴量の詳細は、第一の実施形態と同様である。

　識別部４７は、識別対象の原稿に係る特徴量を複数の所定の原稿種を識別するための学習済みモデルに入力することで、識別対象の原稿が複数の所定の原稿種夫々の原稿である妥当性を示す情報（例えば、識別する原稿種（所定の原稿種）が原稿種１と原稿種２である場合、原稿種１である妥当性を示す情報と原稿種２である妥当性を示す情報）を取得する。これより、識別部４７は、この取得した妥当性を示す情報に基づき、識別対象の原稿が、複数の所定の原稿種のうちどの原稿種の原稿であるか否かを識別する。例えば、学習済みモデルから出力された各原稿種の原稿である確率（信頼度等）から、最も確率の高い原稿種を、識別対象の原稿の原稿種として決定（識別）可能である。

　　　１　情報処理装置
　　　２　学習装置
　　　３　文書読取装置
　　　９　情報処理システム

Claims

　識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、
　所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、
　前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、
　前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、
　前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、
　前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段と、
　を備える情報処理システム。
　前記学習済みモデルは、互いにレイアウトが異なる前記所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像夫々について、前記頻出単語列と他の単語列との学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが対応付けられた学習データを用いた機械学習により生成されたモデルである、
　請求項１に記載の情報処理システム。
　前記頻出単語列は、複数の頻出単語列の一つであり、
　前記位置関係特徴量は、前記頻出単語列と他の頻出単語列との対象の原稿内での距離を示す特徴量を含む、
　請求項１又は２に記載の情報処理システム。
　前記位置関係特徴量は、前記頻出単語列を含む行の大きさを示す特徴量を含む、
　請求項１～３の何れか一項に記載の情報処理システム。
　前記識別対象の原稿に係る特徴量は、前記位置関係特徴量に加え、前記頻出単語列の属性を示す特徴量を含む、
　請求項１～４の何れか一項に記載の情報処理システム。
　前記頻出単語列の属性を示す特徴量は、前記頻出単語列の位置を示す特徴量及び該頻出単語列の大きさを示す特徴量の少なくとも一方を含む、
　請求項５に記載の情報処理システム。
　前記モデル記憶手段は、各学習用画像に示された原稿に係る前記特徴量が配列の形で集約された特徴配列と、各学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが対応付けられた学習データにより生成された前記学習済みモデルを記憶し、
　前記特徴生成手段は、前記識別対象の原稿に係る特徴量を、前記特徴配列と同一の並び順の配列に成型し、
　前記識別手段は、前記配列に成型された前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、前記識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する、
　請求項２に記載の情報処理システム。
　前記所定の原稿種は、複数の所定の原稿種の一つであり、
　前記モデル記憶手段は、前記複数の所定の原稿種の夫々について、所定の原稿種を識別するための学習済みモデルを記憶し、
　前記識別手段は、前記複数の所定の原稿種の夫々について、所定の原稿種を識別するための学習済みモデルを用いて、前記識別対象画像が該所定の原稿種に該当するか否かを識別し、前記複数の所定の原稿種の夫々について識別した結果に基づき、前記識別対象の原稿が前記複数の所定の原稿種のうち何れの原稿種の原稿であるかを識別する、
　請求項１～７の何れか一項に記載の情報処理システム。
　前記識別手段は、前記複数の所定の原稿種の夫々について識別した結果、二以上の所定の原稿種において、前記識別対象の原稿が所定の原稿種の原稿であると識別された場合、該二以上の所定の原稿種から一の原稿種を選出し、選出された該原稿種を、前記識別対象の原稿の原稿種として決定する、
　請求項８に記載の情報処理システム。
　前記識別手段は、前記識別対象の原稿が前記所定の原稿種の原稿である確からしさに基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
　請求項９に記載の情報処理システム。
　前記識別手段は、前記二以上の所定の原稿種夫々が、過去に、前記学習済みモデルによって識別対象の原稿の原稿種であると識別された回数に基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
　請求項９に記載の情報処理システム。
前記識別手段は、前記二以上の所定の原稿種夫々が、過去に、前記学習済みモデルによって識別対象の原稿の原稿種であると識別された時期に基づき、前記二以上の所定の原稿種から一の原稿種を選出する、
　請求項９に記載の情報処理システム。
　前記所定の原稿種は、複数の所定の原稿種の一つであり、
　前記頻出語記憶手段は、前記複数の所定の原稿種夫々の頻出単語列を記憶し、
　前記検出手段は、前記複数の所定の原稿種夫々の頻出単語列の前記識別対象の原稿内での位置に関する情報を取得し、
　前記特徴生成手段は、前記複数の所定の原稿種夫々の頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成し、
　前記モデル記憶手段は、前記複数の所定の原稿種夫々の頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記複数の所定の原稿種の夫々の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該複数の所定の原稿種を識別するための学習済みモデルを記憶し、
　前記識別手段は、前記識別対象の原稿に係る特徴量を前記複数の所定の原稿種を識別するための前記学習済みモデルに入力することで、前記識別対象の原稿が前記複数の所定の原稿種のうち何れの原稿種の原稿であるか否かを識別する、
　請求項１～７の何れか一項に記載の情報処理システム。
　前記複数の所定の原稿種間で重複する頻出単語列がある場合、前記位置関係特徴量は、重複した前記頻出単語列に該当しない前記複数の所定の原稿種夫々の頻出単語列と他の単語列との位置関係に関する位置関係特徴量である、
　請求項１３に記載の情報処理システム。
　前記位置関係特徴量は、前記所定の原稿種の二つの頻出単語列からなる組み合わせのうち、所定の条件を満たす組み合わせに係る頻出単語列間の距離を示す特徴量を含み、
　前記所定の条件を満たす組み合わせとは、前記所定の原稿種の画像である複数の学習用画像における前記頻出単語列間の距離の代表値が所定の値以下である組み合わせである、
　請求項１３に記載の情報処理システム。
　互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得手段と、
　前記所定の原稿種の頻出単語列を取得する頻出語取得手段と、
　各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出手段と、
　各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成手段と、
　学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成手段と、
　を備える情報処理システム。
　前記頻出語取得手段は、前記複数の所定原稿種画像の文字認識結果に基づき、該複数の所定原稿種画像に示された原稿において頻出する単語列を抽出し、抽出された該単語列を前記所定の原稿種の頻出単語列として取得する、
　請求項１６に記載の情報処理システム。
　前記学習用画像の識別情報と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた正解定義を取得する正解定義取得手段を更に備え、
　前記モデル生成手段は、前記正解定義に基づき、前記学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報を取得する、
　請求項１６又は１７に記載の情報処理システム。
　コンピュータが、
　識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得ステップと、
　所定の原稿種の頻出単語列を記憶する頻出語記憶ステップと、
　前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出ステップと、
　前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成ステップと、
　前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶ステップと、
　前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別ステップと、
　を実行する、原稿種識別方法。
　コンピュータを、
　識別対象の原稿の画像である識別対象画像についての文字認識結果を取得する認識結果取得手段と、
　所定の原稿種の頻出単語列を記憶する頻出語記憶手段と、
　前記識別対象画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の前記識別対象の原稿内での位置に関する情報を取得する検出手段と、
　前記頻出単語列と他の単語列との前記識別対象の原稿内での位置関係に関する位置関係特徴量を含む該識別対象の原稿に係る特徴量を、前記位置に関する情報を用いて生成する特徴生成手段と、
　前記頻出単語列と他の単語列との原稿内での位置関係に関する位置関係特徴量を含む該原稿に係る特徴量が入力されることで、該原稿が前記所定の原稿種の原稿である妥当性を示す情報が出力されるよう機械学習により生成された、該所定の原稿種を識別するための学習済みモデルを記憶するモデル記憶手段と、
　前記識別対象の原稿に係る特徴量を前記学習済みモデルに入力することで、該識別対象の原稿が前記所定の原稿種の原稿であるか否かを識別する識別手段と、
　として機能させるためのプログラム。
　コンピュータが、
　互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得ステップと、
　前記所定の原稿種の頻出単語列を取得する頻出語取得ステップと、
　各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出ステップと、
　各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成ステップと、
　学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成ステップと、
　を実行する、モデル生成方法。
　コンピュータを、
　互いにレイアウトが異なる所定の原稿種の原稿の画像である複数の所定原稿種画像を含む複数の学習用画像の夫々についての文字認識結果を取得する認識結果取得手段と、
　前記所定の原稿種の頻出単語列を取得する頻出語取得手段と、
　各学習用画像について、学習用画像の前記文字認識結果から前記頻出単語列を検出することで、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を取得する検出手段と、
　各学習用画像について、前記頻出単語列と他の単語列との前記学習用画像に示された原稿内での位置関係に関する位置関係特徴量を含む該学習用画像に示された原稿に係る特徴量を、該頻出単語列の該学習用画像に示された原稿内での位置に関する情報を用いて生成する特徴生成手段と、
　学習用画像に示された原稿に係る前記特徴量と、該学習用画像に示された原稿が前記所定の原稿種の原稿であるか否かを示す情報とが、学習用画像毎に対応付けられた学習データを用いて機械学習を行うことにより、前記所定の原稿種を識別するための学習済みモデルを生成するモデル生成手段と、
　として機能させるためのプログラム。