WO2022024835A1

WO2022024835A1 - 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル

Info

Publication number: WO2022024835A1
Application number: PCT/JP2021/026945
Authority: WO
Inventors: 郁雄北岸; エドワードウィリアムダニエルウィッタッカー; 雅士田中
Original assignee: 株式会社マネーフォワード
Priority date: 2020-07-30
Filing date: 2021-07-19
Publication date: 2022-02-03
Also published as: JP2022027394A; JP6815712B1; JP2022025843A

Abstract

撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供する。画像処理システムは、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する。

Description

画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル

　本発明は、画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。特に、本発明は、動画中の所定のオブジェクトを適切に抽出可能な画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。

　従来、画像から線分を抽出する線分抽出装置であって、画像からエッジを検出するエッジ検出部と、画像内で第１方向に所定間隔で延伸する複数の第１平行線と、エッジと、の交点を求める第１交点特定部と、隣接する２本の第１平行線の各ペアについて、互いの第１平行線上の交点同士を直線の結合線で結ぶ第１交点結合部と、交点で繋がる複数の結合線からなり、延伸方向の角度差が所定範囲以内である結合線の集合を、線分として抽出する第１線分特定部とを備える線分抽出装置が知られている（例えば、特許文献１参照。）。特許文献１に記載の線分抽出装置によれば、画像に含まれる線分を高速で抽出することができる。

特開２０１８－１８１２４４号公報

　しかしながら、特許文献１に記載の線分抽出装置においてはオブジェクトのエッジを検出することが前提になっており、オブジェクトが矩形状の場合、オブジェクトの少なくとも３つの辺を抽出することが要求される。また、特許文献１に記載の線分抽出装置は、矩形領域であれば当該オブジェクトの種類によらず、全ての矩形領域を抽出してしまう。更に、特許文献１に記載の線分抽出装置においては、オブジェクトと当該オブジェクトが置かれている背景との組み合わせによってはオブジェクトのエッジの認識が困難であり（例えば、オブジェクトの色と背景色とが略同一である場合、エッジを認識することが困難である場合がある）、その場合、オブジェクトの存在を認識することが困難になる場合がある。

　したがって、本発明の目的は、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供することにある。

　本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理システムが提供される。

　また、本発明は、上記目的を達成するため、画像処理システム用の画像処理方法であって、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得工程と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出工程と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する工程と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する工程とを備える画像処理方法が提供される。

　また、本発明は、上記目的を達成するため、画像処理システム用の画像処理プログラムであって、コンピュータに、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得機能と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出機能と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する機能と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する機能とを実現させる画像処理プログラムが提供される。

　また、本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理サーバが提供される。

　更に、本発明は、上記目的を達成するため、撮像画像が入力されると、撮像画像に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの１以上の隅を中心とする１以上の矩形領域を出力するよう、プロセッサを機能させる学習モデルであって、学習モデルは、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と背景画像との組み合わせを教師データとして学習され、学習では、所定のオブジェクトの隅を中心とする１以上の矩形領域であって、中心から所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が当該画像の外縁に接するサイズの矩形領域を形成し、形成された矩形領域及び当該矩形領域の中心の座標を用いて当該画像中の所定のオブジェクトを識別するための学習モデルが提供される。

　本発明に係る画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルによれば、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供できる。

本実施の形態に係る画像処理システムの概要図である。本実施の形態に係る画像処理システムの機能構成ブロック図である。本実施形態に係る学習モデル生成部が生成する学習モデルにおける所定のオブジェクトのラベリング方法の概要図である。本実施形態に係る画像処理システムの処理の第１の工程の概要図である。マージン領域を設ける理由の概要図である。本実施形態に係る画像処理システムの処理の第２の工程の概要図である。本実施形態に係る画像処理システムの処理のフロー図である。

［実施の形態］
　図１は、本発明の実施の形態に係る画像処理システムの概要を示す。

［画像処理システム１の概要］

　本実施形態に係る画像処理システム１は、所定のオブジェクトを含む領域の動画を撮像し、撮像した動画から当該所定のオブジェクト及び／又は当該所定のオブジェクトに記載されている情報を自動的、かつ、適切に抽出するシステムである。例えば、画像処理システム１は、撮像領域に複数の領収書（複数の領収書は、互いに形状・サイズ、表面の記載様式が異なっていてよい）、名刺、その他の紙片、及び四角形状の物体や領域（例えば、スマートフォンやパソコンのキーボードのボタン等）が存在している状態を動画撮像した場合に、これらの中から特定のオブジェクト、一例として、当該複数の領収書及び／又は当該複数の領収書に記載の情報を自動的、リアルタイムに抽出し、コンピュータにおいて利用可能なデジタル情報に変換することができる。

　例えば、図１（ａ）に示すように、画像処理システム１が、所定の撮像領域の動画を撮像するカメラを有する情報端末２と、所定の情報処理を実行するサーバ３とを備え、情報端末２とサーバ３とが通信網４によって双方向通信可能に接続されている例を挙げて説明する。ここでは、本実施形態に係る画像処理システム１が抽出する所定のオブジェクトが、一例として、様々な形状・サイズを有し、様々な様式・書式で作成される領収書（レシート）である場合を説明する。

　例えば、複数のオブジェクト（例えば、オブジェクト８０、及びオブジェクト８２）が机９０の上に配置されているとする。なお、複数のオブジェクトは、例えばユーザが所定の場所に配置してよい。そして、画像処理システム１は、これらを含む領域の動画を情報端末２のカメラで撮像する。図１（ａ）の例では、机９０の上にオブジェクト８０（例えば、名刺）、及びオブジェクト８２（例えば、領収書）が配置されている。なお、オブジェクト８２の一部は折れ曲がっていてもよい。そして、画像処理システム１は、複数のオブジェクトが撮像された動画から、動画を構成する１以上の動画構成画像を抽出する。続いて画像処理システム１は、抽出した１以上の動画構成画像のそれぞれにリサイズ処理を施して、１以上のリサイズ画像を生成する。

　続いて、画像処理システム１は、抽出対象であるオブジェクトの所定箇所の座標をリサイズ画像から取得する。この座標は、リサイズ画像における当該所定箇所の座標である。この場合において画像処理システム１は、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルを予め準備する。この学習モデルは、例えば、抽出対象のオブジェクトが領収書である場合において、画像に領収書と領収書とは異なる物体とが含まれていた場合、領収書については領収書として認識し、領収書とは異なる物体については領収書ではないと認識するために用いることができる学習モデルである。

　ここで、本実施形態においては、抽出対象であるオブジェクトの１以上の所定箇所を中心とする１以上の矩形領域（つまり、バウンディングボックス）と、当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを予め準備する。つまり、従来の学習モデルのように、抽出対象であるオブジェクトの全体を囲む矩形領域と当該オブジェクトのカテゴリーとを関連付けるのではなく、抽出対象である一のオブジェクトの複数の部分をそれぞれ囲む複数の矩形領域と当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを本実施形態では構築して用いる。例えば、学習モデルは、領収書の４隅を中心とする４つの正方形領域を１セットとし、当該１セットとオブジェクトのカテゴリーである領収書とを関連付け、動画構成画像が入力されると、動画構成画像の領収書が占める領域の画像及び／又は４隅の座標を出力するための学習モデルである。

　この学習モデルは、一例として、予め取得した大量の所定のオブジェクトの画像や、所定のオブジェクトのコーナー、及び特徴点等の特徴量、並びにオブジェクトが配され得る背景画像等についての情報に基づいて生成された学習モデルであって、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルである。なお、画像処理システム１は、所定のオブジェクトを識別する識別子に対応付けて当該オブジェクトの特徴量に関する情報を格納するテーブルを用い、動画構成画像に含まれている１以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断してもよい。ただし、本実施形態においては、様々な形状・サイズの所定のオブジェクトに柔軟・高速・的確に対応する観点から、学習モデルを用いて所定のオブジェクトであるか否かを判断することが好ましい。

　そして、画像処理システム１は、学習モデルを用い、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標、例えば、オブジェクトが矩形状である場合、４つの隅の座標を取得する。この場合において画像処理システム１は、学習モデルを用い、４つの隅のそれぞれを中心とする正方形領域に基づいて、当該オブジェクトが領収書であるか否かを判断し、及び／又は領収書の４隅の座標を取得する。また、画像処理システム１においては動画を撮像しているので、例えば、情報端末２を移動させつつ動画を撮像した場合、動画構成画像の中には抽出対象のオブジェクトの全体が含まれていない動画構成画像も含まれ得ることから、リサイズ画像についても当該オブジェクトの全体が含まれていないリサイズ画像が生成され得る。そこで、画像処理システム１は、学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標の全ての箇所が含まれるリサイズ画像を選択し、選択したリサイズ画像から当該オブジェクトの所定箇所の座標を取得する。

　以下の説明においては、説明の簡略化のため主として、画像処理システム１がオブジェクトの４つの隅の座標を取得して処理を実行する場合を説明するが、画像処理システム１は、オブジェクトの一部の隅の座標を取得し、残りの隅の座標を推定して用いることができる。すなわち、画像処理システム１は、オブジェクト８２の４つの隅の全ての座標を取得しなくても、一部の座標を取得することもできる。この場合、画像処理システム１は、オブジェクト８２の一部の隅の座標を取得し、座標を取得していない隅については、取得した隅の座標から推定することができる（例えば、３つの隅の座標を取得した場合、残り１つの隅の座標を推定することや、対角位置にある２つの隅の座標を取得し、残り２つの隅の座標を推定すること等ができる。）。

　具体的に、図１（ｂ）の例で画像処理システム１は、リサイズ画像１００に含まれるオブジェクト８２（つまり、領収書）の４つの隅（つまり、隅１５０、隅１５２、隅１５４、及び隅１５６）の少なくとも一部の座標を取得する。一方、画像処理システム１は、抽出対象ではないオブジェクト８０（つまり、名刺）の４つの隅の座標は、学習モデルを用い、取得しない。なお、画像処理システム１は、リサイズ画像中に領収書の一部が含まれていない場合、つまり、領収書の４隅の一部がリサイズ画像中に含まれていない場合は、当該リサイズ画像を用いずに領収書の４隅の全てが含まれるリサイズ画像を用いて座標を取得してもよい。また、画像処理システム１は、オブジェクト８２の一部が折れ曲がっている場合であっても（つまり、オブジェクト８２の一部が机９０から浮き上がっている場合であっても）、オブジェクト８２の隅がリサイズ画像１００に含まれているか、オブジェクト８２の一部の隅が含まれている限り、リサイズ画像１００からオブジェクト８２の４隅の座標を取得するか、一部の隅の座標と一部の隅の座標から推定される残りの隅の座標を取得する。

　なお、画像処理システム１が用いる学習モデルにおいては、様々な背景画像に対して抽出対象のオブジェクトの画像を重畳させた学習も実行して学習モデルを構築できる。これにより、画像処理システム１においては、オブジェクト８２の外縁が背景である机９０の色との関係で認識し難い場合であっても、オブジェクト８２の所定箇所の座標を適切に取得できる。

　続いて、画像処理システム１は、リサイズ画像１００から取得した座標を、当該リサイズ画像の生成元である元の動画構成画像（つまり、この動画構成画像から当該リサイズ画像が生成されている）に射影して得られる座標（例えば、図１（ｃ）に示す、座標１５０ａ、座標１５２ａ、座標１５４ａ、及び座標１５６ａ）を用い、当該元の動画構成画像から抽出対象であるオブジェクト８２が含まれる画像領域を抽出する。この場合に画像処理システム１は、オブジェクト８２の周囲に所定のマージン領域を含む画像領域を抽出してよい。

　そして、画像処理システム１は、抽出した画像領域に再びリサイズ処理を施し、リサイズ画像領域を生成する。次に、画像処理システム１は、上記学習モデルを再び用い、リサイズ画像領域から抽出対象であるオブジェクトの所定箇所の座標を再度、取得する。この座標は、リサイズ画像領域における所定箇所の座標である。続いて、画像処理システム１は、リサイズ画像領域から取得した座標を、当該リサイズ画像領域の生成元である元の画像領域が抽出された元の動画構成画像に射影して得られる座標を用い、当該元の動画構成画像から抽出対象であるオブジェクト８２のオブジェクト画像領域を抽出する。これにより、画像処理システム１は、動画に撮像された抽出対象であるオブジェクト８２の画像を適切にリアルタイムに抽出できる。ここで、画像処理システム１は、所定の画像処理を施した上でオブジェクト画像領域を抽出してもよい。例えば、オブジェクトである領収書の一部が折れ曲がり、領収書が置かれた平面から当該一部が浮き上がっている場合、オブジェクト画像領域においては、浮き上がっている部分に表示されているテキストや図形に歪み等が生じている場合がある。そこで、画像処理システム１は、当該歪み等を除去する画像処理をオブジェクト画像領域に施す。そして、画像処理システム１は、例えば、光学文字認識（ＯＣＲ）により読み取り可能なデータとしてオブジェクト画像領域を格納する。

　更に、画像処理システム１は、当該データに基づいて、動画に含まれる所定のオブジェクトの表面に記載された情報を読み取り、読み取った内容を情報端末２等の表示部等に出力できる。例えば、所定のオブジェクトが領収書である場合、画像処理システム１は、撮像領域に領収書を含む動画を撮像して生成したＯＣＲ読み取り可能なデータを実際に読み取り、読取の結果を情報端末２の表示部等に出力させてもよい。この場合、画像処理システム１は、例えば、所定のオブジェクトが領収書の場合、各領収書の具体的な内容として、領収書記載の日付や発行会社、及び金額や売買対象項目を含む内容等を出力させることができる。更に、画像処理システム１は、読み取った情報を格納し、格納した情報を画像処理システム１外の会計システムや家計簿システム等に引き渡すこともできる（なお、画像処理システム１は、読み取った情報を直接、画像処理システム１外の会計システム等に引き渡してもよい。）。

　これにより、画像処理システム１によれば、複数のオブジェクトを１枚１枚撮像することやスキャナでスキャンすることを要さず、複数のオブジェクトを机の上等に配置した状態を動画撮像するだけで、複数のオブジェクトそれぞれを識別すると共に各オブジェクト表面の情報を適切に抽出できる。したがって、オブジェクトが例えば様々な形状や様式で作成される領収書等である場合、膨大な枚数の領収書の処理を要する会計事務所や多くの枚数の領収書の処理を要する個人事業主等、又は家計簿等を作成する様々な人々の会計や経理等の処理の手間を低減させユーザビリティを向上させることができる。

　特に本実施形態に係る画像処理システム１は、撮像した動画から動画構成画像（元画像）を抽出し、抽出した動画構成画像をリサイズしてリサイズ画像を生成し、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像（元画像）に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第１の工程と、この画像領域を再びリサイズしてリサイズ画像領域を生成し、リサイズ画像領域から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像（元画像）に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第２の工程とを経て抽出対象のオブジェクトの画像（つまり、オブジェクト画像領域）を抽出する。第１の工程と第２の工程とを経ることで、オブジェクトのエッジ検出が困難であっても、高精度でオブジェクトの画像を抽出できる。

　ここで、本実施形態においては、抽出対象であるオブジェクトの全体ではなく、複数の部分のバウンディングボックスを利用した学習モデルを構築している。これは、本発明者の鋭意研究の結果、オブジェクトの全体を含むバウンディングボックスを用いるよりも、オブジェクトの特徴的な部分を中心とした複数のバウンディングボックスを用いた学習モデルを構築して用いることで、極めて精度良く抽出対象であるオブジェクトを抽出することができ、また、システムの処理速度を向上できることを見出した結果である。

　すなわち、画像処理システム１は、第１の工程で動画構成画像から所定のオブジェクトを含む画像領域を、所定のオブジェクトの複数の特徴部分（例えば、隅）を中心とする複数のバウンディングボックスを用いて、いわば粗く抽出し、第２の工程では、粗く抽出した画像領域に基づいて所定のオブジェクトを含むオブジェクト画像領域を、再度、オブジェクトの複数の特徴部分を中心とする複数のバウンディングボックスを用いて精密に抽出する。すなわち、オジブジェクトに対するバウンディングボックスのエリア推定自体に誤差が含まれている。そのため本実施形態では、バウンディングボックスを用いた処理を繰り返す（つまり、第１の工程と第２の工程との少なくとも２つの工程を実行する）ことで係る誤差を低減し、高精度でオブジェクトを検出することができる。なお、バウンディングボックスによるオブジェクトの検出は、一例として、画像中のオブジェクトを単一のディープニューラルネットワークで検出するＳｉｎｇｌｅ　Ｓｈｏｔ　ＭｕｌｔｉＢｏｘ　Ｄｅｔｅｃｔｏｒ（ＳＳＤ）を利用できる。これにより、画像処理システム１によれば、オブジェクトには様々な矩形状のオブジェクト（例えば、名刺、領収書、キーボードのボタン、スマートフォン等）があるところ、抽出対象であるオブジェクト（上記の例では領収書）についての学習モデルを予め構築することで、抽出対象であるオブジェクトを動画から適切に抽出でき、意図しない矩形領域の検出・抽出を防止できる。

　なお、本実施形態においてオブジェクトは、同一形状、若しくは互いに異なる形状を有し、平面的な形状を有するオブジェクトである。オブジェクトの形状に特に限定はないが、例えば、四辺形状であってよく、四隅や四辺の少なくとも一部が欠損していてもよい。また、オブジェクトの形状は隅（つまり、角）を有する形状であれば限定はなく、三角形、五角形、六角形等の多角形であってもよいし、一部に円弧形状が含まれていてもよい。更に、オブジェクトのサイズにも特に限定はない。そして、オブジェクトの表面には、様々な様式で、各種の情報（テキスト情報、図形情報、手書きの文字や数字、図形等）が印字、印刷、及び／又は記載等されていてよい。オブジェクトとしては、一例として、見積書、請求書、領収書、及び／又は名刺等が挙げられるがこれらに限られない。オブジェクトが領収書等である場合、オブジェクト表面に記載されている情報としては、発行年月日、発行時刻、宛名、金額、摘要、発行者名、及び／又は発行者の電話番号等の情報が挙げられる。したがって、本実施形態に係る画像処理システム１が撮像する動画には、様々な形状、様々なサイズの複数のオブジェクトであって、表面に様々な情報が記載されている複数のオブジェクトの画像が含まれていてよい。すなわち、画像処理システム１が撮像する複数のオブジェクトそれぞれの形状、サイズ、及び／又は表面に記載の情報は、それぞれ異なっていてよい。画像処理システム１は、複数のオブジェクトから、所定カテゴリーのオブジェクトのみを抽出できる。

　また、情報端末２は、携帯通信端末やスマートフォン、ノートパソコン、及び／又はタブレット型ＰＣ等であってよく、動画撮像可能な撮像装置に接続可能なＰＣ等の情報端末や時計等であってもよい。更に、通信網４は、携帯電話網、及び／又はインターネット等の通信網である。通信網４は、有線ＬＡＮ及び無線ＬＡＮ等の通信ネットワークを含むこともできる。そして、以下において本実施形態に係る画像処理システム１の詳細を説明するが、上記説明及び下記説明における名称や数値、数量等はあくまで例示であり、これらの名称や数値、数量等に限定されることはないことを付言する。

［画像処理システム１の構成の詳細］
　図２は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。なお、以下の説明においては主として、抽出対象のオブジェクトが領収書である例を挙げて説明する。

＜画像処理システム１の構成の概要＞
　画像処理システム１は、動画を撮像する動画撮像部１０と、動画から動画構成画像を抽出する構成画像抽出部１２と、画像をリサイズするリサイズ処理部１４と、画像から所定のオブジェクトの所定箇所の座標を取得する座標取得部１６と、画像領域を抽出する画像領域抽出部１８と、画像に所定の処理を施す画像処理部２０と、画像のオブジェクトの方向を調整する方向調整部２２と、所定の情報を格納する情報格納部２４と、学習モデルを生成する学習モデル生成部２６と、所定の情報の入力を受け付ける入力部２８と、所定の情報を出力する出力部３０と、オブジェクト表面のテキストデータ等を読み取る読取部３２とを備える。

　なお、画像処理システム１は、上記複数の構成要素を物理的に同一の場所に有するだけでなく、上記複数の構成要素の一部を物理的に離れた位置に設置してもよい。例えば、画像処理システム１は、情報端末２のみで構成してもよく（つまり、ローカルのみで構成してもよく）、また、情報端末２と当該情報端末２に通信網４等で接続されるサーバ３とを備えて構成してもよい。画像処理システム１が情報端末２とサーバ３とを備えて構成される場合、情報端末２が上記複数の構成要素の一部を備え、サーバ３が残りの構成要素を備える構成を採用してもよい。この場合、例えば、情報端末２において動画を撮像し、当該動画をサーバ３に供給することで所定の処理を実行することもできる。なお、サーバは、複数のサーバの集合体であってもよく、この場合、各サーバが動画撮像部１０を除く他の構成要素の一部若しくは全てを担う。例えば、画像処理システム１の複数の処理の一部を情報端末２において実行し（例えば、動画の撮像からリサイズ画像の生成まで情報端末２において実行する）、その他の処理を他の１以上のサーバにおいて実行してもよい（例えば、リサイズ画像の生成より後の処理をサーバにおいて実行する。）。また、画像処理システム１は、動画撮像部１０を有する撮像装置と、動画撮像部１０を除く他の構成要素を有する１以上の画像処理装置とから構成してもよい。「１以上の画像処理装置」を複数の処理装置で構成する場合、動画撮像部１０を除く他の構成要素を、情報処理能力や果たすべき機能に応じ、各処理装置に適宜割り振ることができる。

＜画像処理システム１の構成の詳細＞
（動画撮像部１０、構成画像抽出部１２）
　動画撮像部１０は、撮像領域の動画を撮像する。動画撮像部１０は、撮像領域に含まれる１以上のオブジェクトを動画で撮像する。動画撮像部１０は、撮像対象を直上（つまり、俯角９０度）から撮像することも、俯角９０度未満から撮像することもできる。なお、動画撮像部１０は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部１０は、撮像した動画を構成画像抽出部１２に供給する。構成画像抽出部１２は、動画撮像部１０から受け取った動画から動画構成画像を抽出する。構成画像抽出部１２は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部１２は、抽出した動画構成画像をリサイズ処理部１４、画像領域抽出部１８に供給する。

（リサイズ処理部１４）
　リサイズ処理部１４は、画像にリサイズ処理を施してリサイズされた画像を生成する。具体的に、リサイズ処理部１４は、構成画像抽出部１２が抽出した動画構成画像をリサイズしてリサイズ画像を生成する。例えば、リサイズ処理部１４は、動画構成画像のサイズを縮小したリサイズ画像を生成する。この場合にリサイズ処理部１４は、矩形状の動画構成画像を正方形のリサイズ画像に変形してよい。リサイズ処理部１４は、例えば、縦横画素数が３０００ｐｘ×２０００ｐｘのサイズを有する動画構成画像を、縦横画素数が３００ｐｘ×３００ｐｘのサイズにリサイズしたリサイズ画像を生成する。リサイズ処理部１４がリサイズ処理をすることで、処理速度を向上させることができる。リサイズ処理部１４は、リサイズ画像を座標取得部１６に供給する。

（座標取得部１６）
　座標取得部１６は、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する。座標取得部１６は、後述する予め準備した学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標を画像から取得する。所定箇所の座標は、オブジェクトの隅を中心とする１以上の矩形領域であって、当該中心から動画構成画像の外縁若しくは動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、動画構成画像の外縁若しくは生成画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。具体的に、座標取得部１６は、リサイズ処理部１４から受け取った生成画像としてのリサイズ画像からオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は４隅の座標若しくは少なくとも一部の隅の座標である。つまり、所定箇所の座標は、オブジェクトの隅を中心とする１以上の矩形領域（例えば、正方形）であって、当該中心からリサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。座標取得部１６は、リサイズ画像からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部１６は、オブジェクトが矩形である場合、当該オブジェクトの３つの隅の座標を取得し、残り１つの隅の座標を当該３つの隅の座標を用いて推定する。ここで、動画は複数の動画構成画像から構成されるので、リサイズ処理部１４が生成するリサイズ画像も複数、存在する。座標取得部１６は、リサイズ処理部１４から複数のリサイズ画像を取得した場合、抽出対象であるオブジェクトの所定箇所の座標の全てを取得できるリサイズ画像を選択し、選択したリサイズ画像から座標を取得してもよい。座標取得部１６は、取得した座標に関する情報を画像領域抽出部１８に供給する。

（画像領域抽出部１８）
　画像領域抽出部１８は、座標取得部１６が取得した座標に基づいて、抽出対象であるオブジェクトが含まれる画像領域を動画構成画像から抽出する。具体的に、画像領域抽出部１８は、リサイズ画像から取得された所定箇所の座標を動画構成画像に射影して画像領域を抽出する。すなわち、画像領域抽出部１８は、動画構成画像から生成されたリサイズ画像から取得されたオブジェクトの所定箇所の座標をリサイズされる前の動画構成画像に射影し、当該動画構成画像に含まれる抽出対象であるオブジェクトが含まれる画像領域を抽出する。この場合において画像領域抽出部１８は、所定のマージン領域を付加して画像領域を動画構成画像から抽出することができる。つまり、画像領域抽出部１８は、座標の射影により特定される領域の外側に所定のマージン領域を含めた領域を画像領域として抽出できる。画像領域抽出部１８は、抽出した画像領域をリサイズ処理部１４に供給する。

　そして、リサイズ処理部１４は、画像領域抽出部１８から受け取った画像領域を再びリサイズし、リサイズ画像領域を生成する。つまり、一の動画構成画像から一のリサイズ画像が生成され、この一のリサイズ画像から取得される座標を用い、当該一の動画構成画像から一の画像領域が抽出される。そして、この一の画像領域にリサイズ処理を施してリサイズ画像領域が生成されるので、当該一の動画構成画像から抽出された所定の領域（一の画像領域）が再びリサイズ処理されることになる。リサイズ処理部１４は、リサイズ画像領域を座標取得部１６に供給する。

　続いて座標取得部１６は、リサイズ画像領域に基づいて、抽出対象であるオブジェクトの所定箇所の座標を取得する。すなわち、座標取得部１６は、生成画像としてのリサイズ画像領域から、抽出対象であるオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は４隅の座標若しくは少なくとも一部の隅の座標である。具体的に、所定箇所の座標は、オブジェクトの隅を中心とする１以上の矩形領域であって、当該中心からリサイズ画像領域の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。この場合においても、座標取得部１６は、後述する学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標をリサイズ画像領域から取得する。また、座標取得部１６は、リサイズ画像領域からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部１６は、オブジェクトが矩形である場合、当該オブジェクトの３つの隅の座標を取得し、残り１つの隅の座標を当該３つの隅の座標を用いて推定する。座標取得部１６は、取得した座標に関する情報を画像領域抽出部１８に供給する。そして、画像領域抽出部１８は、リサイズ画像領域から取得された所定箇所の座標を動画構成画像に射影して、抽出対象であるオブジェクトのオブジェクト画像領域を抽出する。画像領域抽出部１８は、抽出したオブジェクト画像領域を、画像処理部２０、情報格納部２４に供給する。

（画像処理部２０）
　画像処理部２０は、画像領域抽出部１８が抽出した画像領域に所定の画像処理（例えば、ブレ、歪み、回転等の補正処理）を施して、オブジェクト画像領域を生成する。なお、画像領域抽出部１８は、抽出した画像領域に画像処理部２０による画像処理を施さずにオブジェクト画像領域としてもよい。画像処理部２０は、後述する読取部３２における情報の読み取りや入力を適切に実行可能にすることを目的として、オブジェクト画像領域に画像処理を施す。例えば、画像処理部２０は、オブジェクト画像領域が所定のオブジェクトの本来の形状から変形した形状の当該オブジェクトを含む画像である場合（例えば、オブジェクトが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。）、アフィン変換等の処理により長方形のオブジェクトに変形する処理を実行する。これにより、画像処理部２０は、斜めの角度から撮像したオブジェクトが台形状のオブジェクトとしてオブジェクト画像領域に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部２０は、より明確な画像を読取部３２に読み取らせることを目的として、オブジェクト画像領域に二値化処理やシャープネス処理等の画像処理を施すこともできる。画像処理部２０は、画像処理後の画像を方向調整部２２に供給する。

（方向調整部２２）
　方向調整部２２は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部２０において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部２２は、後述する読取部３２における情報の取り込み／入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部２０におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、０°、９０°、１８０°、２７０°等の４つの状況をとることが考えられる。方向調整部２２は、画像処理部２０におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト（例えば、領収書等の長方形状を有するオブジェクト）の向きを、一例として、正面視にて縦長の方向（つまり、情報端末２等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向）になるように画像を回転する処理を実行する。これにより、方向調整部２２は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部２２は、方向を調整した後のオブジェクト画像領域を情報格納部２４、読取部３２に供給する。

　なお、方向調整部２２は、複数の所定のオブジェクトのデータ（例えば、長方形状のオブジェクトの画像データであって、正面視にて長方形の短辺が水平方向に沿った方向であるデータ）を予め定められた規則により所定種類のクラスにランダムに分類して学習することで学習モデルを生成することもできる。この学習モデルは、所定のオブジェクトの上方向を上であるとして認識するように推論できるモデルである。上方向の認識ができれば、所定のオブジェクトの領域を長方形に容易に変形できる。また、当該学習モデルとＴｅｓｓｅｒａｃｔによる認識手法とを組み合わせてもよく、係る組み合わせにより、より高い精度が得られる。

（情報格納部２４）
　情報格納部２４は、方向が調整されたオブジェクト画像領域、すなわち、読取部３２における読取処理に適したオブジェクト画像領域を格納する。情報格納部２４は、例えば、ユーザを識別するユーザＩＤに対応付けて、当該オブジェクト画像領域、当該オブジェクト画像領域を含む動画の撮像年月日、撮像時刻等の情報を格納することができる。なお、情報格納部２４に格納される各種の情報は、情報端末２や、外部のサーバ（例えば、画像処理システム１の外部のサーバであって、会計処理や経理処理等に用いるサーバ等）に供給することができる。また、情報端末２は情報格納部２４を有していなくてもよく、この場合、情報格納部２４は、通信網４を介して双方向通信可能に情報端末２に接続される外部サーバが有していてよい。

（学習モデル生成部２６）
　座標取得部１６は、学習モデルに基づいて、リサイズ処理部１４から受け取ったリサイズ画像に所定のオブジェクトが含まれているか否かを判断し、当該所定のオブジェクトの少なくとも一部の所定箇所の座標を取得する。また、座標取得部１６は、リサイズ処理部１４から受け取ったリサイズ画像領域に含まれる所定のオブジェクトの少なくとも一部の所定箇所の座標を学習モデルに基づいて取得する。座標取得部１６は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。

　すなわち、座標取得部１６は、所定のオブジェクトの特徴について予め学習して準備した学習モデルを用いて動画構成画像、リサイズ画像、及び／又はリサイズ画像領域に所定のオブジェクトが含まれているか否か判断する。座標取得部１６は、所定のオブジェクトの特徴を有さないオブジェクトについては、所定のオブジェクトとは認識しない。座標取得部１６は、ニューラルネットワークを用いて大量の所定のオブジェクト等の画像について学習させることにより構築された学習モデルを用いた推論処理により、所定のオブジェクトが動画構成画像、リサイズ画像、及び／又はリサイズ画像領域に含まれているか否かを判断することができる。例えば、座標取得部１６は、動画構成画像、リサイズ画像、及び／又はリサイズ画像領域から抽出されるオブジェクトの画像中での特徴と当該学習モデルとを用い、動画構成画像、リサイズ画像、及び／又はリサイズ画像領域に所定のオブジェクトが存在しているか否か、並びに動画構成画像、リサイズ画像、及び／又はリサイズ画像領域に含まれる各オブジェクトが所定のオブジェクトであるか否かを判断する。

　具体的に、学習モデル生成部２６は、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と所定のオブジェクトが配され得る背景画像との組み合わせを教師データとし、一例として勾配法で学習することで、撮像画像である動画が入力されると、動画を構成する動画構成画像やリサイズ画像、及び／又はリサイズ画像領域に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの１以上の隅を中心とする１以上の矩形領域、各中心の座標、及び／又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する。なお、学習モデル生成部２６は、動画撮像部１０が撮像した動画、及び／又は画像処理システム１外や当該画像処理システム１とは別の画像処理システム１において取得された動画を教師データとして用い、学習モデルを生成してもよい。

　より具体的に、学習モデル生成部２６は、所定のオブジェクトが含まれる画像や背景画像等を用い、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを、所定のオブジェクトの１以上の所定箇所を中心とする矩形領域（つまり、バウンディングボックス）を抽出対象にした学習モデルを生成する。学習モデル生成部２６は、従来のように抽出対象である所定のオブジェクトの全体を含むバウンディングボックスを抽出対象にするのではなく、所定のオブジェクトの１以上の所定の個所を中心とするバウンディングボックスの組を抽出対象にした学習モデルを生成する。すなわち、学習モデル生成部２６は、所定のオブジェクトの全体を含む１枚の画像を基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルではなく、所定のオブジェクトの複数の所定箇所のそれぞれを中心とする複数のバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する。例えば、学習モデル生成部２６は、領収書を含む１以上のオブジェクトが含まれる画像が入力された場合、当該領収書の４隅を中心とする４つのバウンディングボックス、４つのバウンディングボックスにより認識される当該領収書の画像、及び／又は４隅の座標を抽出対象にした学習モデルを生成する。学習モデル生成部２６は、領収書を含む１以上のオブジェクトが含まれる画像が入力された場合、当該領収書の一部の隅を中心とする１以上のバウンディングボックス、１以上のバウンディングボックスにより認識される当該領収書の画像、及び／又は１以上の隅の座標を抽出対象にした学習モデルを生成してもよい。

　学習モデル生成部２６は、所定のオブジェクトが含まれる画像をデータ拡張し、人工的に学習データを増加させて学習することで学習モデルを生成してよい。例えば、学習モデル生成部２６は、所定のオブジェクトが含まれる画像として、所定のオブジェクトが含まれるオブジェクト画像だけではなく、当該オブジェクト画像を変形させた変形画像（変形画像は、例えば、所定のオブジェクトの一部を欠けさせた画像、オブジェクト画像を所定角度回転させた画像、オブジェクト画像に歪みを加えた画像等である）、当該オブジェクト画像に所定のノイズを加えたノイズ画像、複数の所定のオブジェクトを含むオブジェクト画像等を用いることができる。また、学習モデル生成部２６は、一の所定のオブジェクトを正面から撮像した状態の画像を用いるだけでなく、当該一の所定のオブジェクトを様々な角度から撮像した状態の画像を用いることや、正面から撮像した状態の画像を、様々な角度から撮像した状態の画像に変形して用いることもできる。なお、複数の所定のオブジェクトを含むオブジェクト画像としては、一の所定のオブジェクトに他の所定のオブジェクトが重なった画像や、一部の所定のオブジェクトが撮像領域外にはみ出すことで撮像領域内には当該所定のオブジェクトの一部分のみが含まれる画像等を用いることができる。ここで、複数の所定のオブジェクトがオブジェクト画像に含まれる場合、いずれか一つの所定のオブジェクトを認識すべき所定のオブジェクトとして学習させることもできる（例えば、オブジェクト画像に複数の所定のオブジェクトが含まれている場合、最も左若しくは右に位置する所定のオブジェクトを当該オブジェクト画像に含まれる所定のオブジェクトとして認識するよう学習させることができる。）。

　また、学習モデル生成部２６は、様々な背景画像を所定のオブジェクトの画像に重畳させ、学習モデルを生成することもできる。背景画像としては、様々な色、明度、輝度、コントラスト、及び／又は光の反射の有無等が異なる多種多様な背景画像を用いることができる。すなわち、領収書が置かれる環境は様々な状況が想定される。例えば、机に領収書が置かれる場合、机の色が白色である場合や茶色である場合、また、室内環境によっては蛍光灯の光を机が反射する場合、様々な色や表面形状のカーペットに置かれる場合等、様々な状況が想定される。そこで、学習モデル生成部２６は、様々な背景画像を所定のオブジェクトの画像に重畳させて学習モデルを生成する。

　そして、学習モデル生成部２６は、所定のオブジェクトの所定箇所を中心とするバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する場合において、１以上の所定箇所を中心とするバウンディングボックスそれぞれをラベリングする。

　図３は、本実施形態に係る学習モデル生成部が生成する学習モデルにおける所定のオブジェクトのラベリング方法の概要を示す。

　本実施形態に係る学習モデル生成部２６は、画像に含まれるオブジェクトの所定箇所の座標を取得し、取得した座標を中心座標とする矩形領域（つまり、バウンディングボックスであり、形状は例えば、正方形）を形成し、形成した１以上の矩形領域を、当該オブジェクトを識別する学習データとして用いる。この学習モデルを用いることで座標取得部１６は、所定のオブジェクトが占める領域の正しい隅（コーナー）の座標を取得する場合に、各矩形領域（バウンディングボックス）の中心を計算するだけでよいので、隅の位置計算を容易にすることができる。

　すなわち、学習モデル生成部２６は、画像１３０に所定のオブジェクト（例えば、領収書のオブジェクト８４）が含まれている場合、所定のオブジェクト８４の隅の座標を中心とする１以上の矩形領域であって、当該中心から所定のオブジェクト８４が含まれる画像１３０の外縁までの長さが最短距離になる直線を垂線とする辺が画像１３０の外縁に接するサイズの矩形領域を形成する。例えば、学習モデル生成部２６は、図３に示すように、画像１３０に所定のオブジェクト８４が含まれている場合、オブジェクト８４の４つの隅それぞれの座標（つまり、座標１６０、座標１６２、座標１６４、及び座標１６６）を中心とする矩形領域（つまり、矩形領域１７０、矩形領域１７２、矩形領域１７４、及び矩形領域１７６）を形成する。この場合において、各矩形領域のサイズは、各矩形領域の中心の座標から画像１３０の外縁までの距離によって規定される。例えば、矩形領域１７０は、オブジェクト８４の隅の座標１６０を中心とし、当該中心から画像１３０の外縁までの距離が最短距離になる直線を垂線とする辺１７０ａが画像１３０の外縁に接するサイズの正方形である。他の矩形領域も同様にして形成される。そして、学習モデル生成部２６は、抽出対象である所定のオブジェクトの大量の画像や、抽出対象である所定のオブジェクトの画像を背景画像に重畳した大量の画像を教師データとして用い、上記のように形成された矩形領域及び矩形領域の中心の座標に基づいて、画像中の所定のオブジェクトを識別し、所定のオブジェクトの１以上の隅を中心とする１以上の矩形領域、各矩形領域の中心座標、及び／又は当該所定のオブジェクトの画像を出力するための学習モデルを生成する。

　なお、学習モデル生成部２６が、各矩形領域の幅を画像１３０の外縁に接する距離に規定した理由は、本発明者が様々検討したところ、オブジェクト８４の隅の座標を中心とする１以上の矩形領域であって、当該中心からオブジェクト８４が含まれる画像１３０の外縁までの長さが最短距離になる直線を垂線とする辺が画像１３０の外縁に接するサイズの矩形領域を形成すること（つまり、各矩形領域のサイズを、矩形の形状を正方形に保ちながら画像１３０の範囲内で最大化すること）で、画像に含まれる１以上のオブジェクトが所定のオブジェクトであるか否かを判断する精度が高くなる知見を得た結果である。

　つまり、所定のオブジェクトの全体を含む矩形領域を用いて所定のオブジェクトを識別する従来技術とは異なり、本実施形態に係る学習モデルは、所定のオブジェクトを識別し、当該オブジェクトの画像を出力するために、複数（例えば、４つ）のバウンディングボックスの組と所定のオブジェクトのカテゴリー（例えば、領収書）とを対応付けることができる。そして、画像処理システム１においては、画像（例えば、動画構成画像、リサイズ画像、及び／又はリサイズ画像領域）が入力された場合に当該学習モデルを用いて４つのバウンディングボックスに基づいた推論処理を実行し、当該画像に含まれるオブジェクトが所定のオブジェクトであるか否かを識別することや、当該オブジェクトの所定箇所の座標や当該オブジェクトの画像領域を出力することができる。

　なお、バウンディングボックスの検出・形成方法に限定はない。例えば、ＹＯＬＯ、Ｆａｓｔ　Ｒ－ＣＮＮ、Ｓｉｎｇｌｅ　Ｓｈｏｔ　Ｍｕｌｔｉ　Ｄｅｔｅｃｔｉｏｎ（ＳＳＤ）等を利用できる。

　そして、座標取得部１６は、学習モデル生成部２６が生成した学習モデルに基づいてリサイズ画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判断し、所定のオブジェクトである場合、当該所定のオブジェクトの所定箇所の座標を取得する。また、座標取得部１６は、当該学習モデルに基づいてリサイズ画像領域に含まれる所定のオブジェクトの所定箇所の座標を取得する。そして、座標取得部１６は、取得した座標に関する情報を画像領域抽出部１８に供給する。

（読取部３２）
　読取部３２は、方向調整部２２から受け取った方向が調整されたオブジェクト画像領域に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部３２は、例えば、Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒ（ＯＣＲ）等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部３２が読み取る情報は、日付、金額、電話番号等の情報である。読取部３２は、読み取った情報を情報格納部２４に格納させることができる。情報格納部２４は、例えば、ユーザＩＤに対応付けて、情報の読み取りに用いたオブジェクト画像領域の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。

（入力部２８）
　入力部２８は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部２８は、例えば、情報端末２のタッチパネル、キーボード、マウス、マイク、ジェスチャーセンサ等である。入力部２８は、画像処理システム１の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。

（出力部３０）
　出力部３０は、画像処理システム１において実行された各種の処理結果を出力する。出力部３０は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部３０は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び／又は振動や光等の物理現象等として出力する。例えば、出力部３０は、情報端末２の表示部、スピーカー等である。

［画像処理システム１の処理の流れ］
　図４は本実施形態に係る画像処理システムの処理の第１の工程の概要を示し、図５はマージン領域を設ける理由の概要を示し、図６は本実施形態に係る画像処理システムの処理の第２の工程の概要を示す。また、図７は、本実施形態に係る画像処理システムの処理全体の流れの概要を示す。

　まず、図７に示すように、学習モデル生成部２６は、所定のオブジェクト（例えば、領収書）の特徴量（例えば、オブジェクトの隅の座標に基づく４つのバウンディングボックスの組、若しくはオブジェクトの一部の隅の座標に基づく１以上（好ましくは２つ以上）のバウンディングボックスの組）と所定のオブジェクトのカテゴリー（例えば、領収書）との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した教師データに基づき、リサイズ画像又はリサイズ画像領域を入力、リサイズ画像又はリサイズ画像領域に含まれる所定のオブジェクトの１以上の隅を中心とする１以上の矩形領域及び／又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する（ステップ１０。以下、ステップを「Ｓ」と表す。）。

　そして、例えば、情報端末２の動画撮像部１０としてのカメラが、複数のオブジェクト（所定のオブジェクト、及び／又は所定のオブジェクトとは異なる他のオブジェクト）の動画１１０を撮像する（Ｓ１２）。一例として、図４（ａ）に示すように、動画撮像部１０は、オブジェクト８６（例えば、領収書）の動画１１０を撮像する。図４（ａ）の例では、動画１１０が複数の動画構成画像（例えば、動画構成画像１２０ａ、動画構成画像１２０ｂ、及び動画構成画像１２０ｃ等）から構成されていることを示している。なお、この場合において動画撮像部１０が撮像する動画は、複数のオブジェクトが平面上に配列された状態の動画であっても、複数のオブジェクトが１枚１枚めくられる状態の動画であってもよい。また複数のオブジェクトが平面上に配列された状態において、各オブジェクトの方向は揃っていなくてもよく、一のオブジェクトの一部に他のオブジェクトが重なっていてもよい。更に、動画撮像部１０は、撮像領域を横方向や縦方向に移動してもよい。また、動画構成画像のサイズに限定はない。

　次に、構成画像抽出部１２は、動画撮像部１０が撮像した動画を変換し、複数の動画構成画像を抽出する（Ｓ１４）。そして、リサイズ処理部１４は、抽出された複数の動画構成画像にリサイズ処理を施し、リサイズ画像を生成する（Ｓ１６）。例えば、図４（ｂ）に示すように、リサイズ処理部１４は、動画構成画像１２０ａをリサイズしたリサイズ画像１４０ａ、動画構成画像１２０ｂをリサイズしたリサイズ画像１４０ｂ、及び動画構成画像１２０ｃをリサイズしたリサイズ画像１４０ｃを生成する。

　続いて、座標取得部１６は、学習モデル生成部２６が予め生成した学習モデル２６０を用い、リサイズ画像に所定のオブジェクト（例えば、領収書）が含まれているか否か判断し、所定のオブジェクトが含まれている場合には、リサイズ画像における当該所定のオブジェクトの１以上の隅（典型的には、４隅）の座標を取得する（Ｓ１８）。ここで、座標取得部１６は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する（Ｓ２０）。例えば、所定のオブジェクトが矩形状の領収書である場合、座標取得部１６は、一の所定のオブジェクトの４つの隅の座標（つまり、４つの座標）若しくは一部の隅（典型的には２つ以上の隅）の座標を取得できるか否かを判断する。座標取得部１６が所定数の座標を取得できないと判断した場合（Ｓ２０のＮｏ）、構成画像抽出部１２は、動画１１０から他の動画構成画像を抽出する（Ｓ１４）。一方、座標取得部１６が所定数の座標を取得できると判断した場合（Ｓ２０のＹｅｓ）、座標取得部１６は、所定数の座標を取得する。ここで、座標取得部１６は、リサイズ画像における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。

　例えば、図４（ｃ）に示すように、リサイズ画像１４０ａ及びリサイズ画像１４０ｂには所定のオブジェクトの一部分のみが含まれており、当該オブジェクトの４隅の一部がリサイズ画像１４０ａ及びリサイズ画像１４０ｂには含まれていない。したがって、座標取得部１６は、リサイズ画像１４０ａ及びリサイズ画像１４０ｂから所定のオブジェクトの所定箇所の座標を取得できないと判断する。一方、リサイズ画像１４０ｃには所定のオブジェクト８６の全体が含まれている。したがって、座標取得部１６は、リサイズ画像１４０ｃからオブジェクト８６の所定箇所（つまり、４隅）の座標（つまり、座標１６０ａ、座標１６２ａ、座標１６４ａ、及び座標１６６ａ）を取得できると判断し、これらの座標を取得する。

　そして、図４（ｄ）に示すように、画像領域抽出部１８は、座標取得部１６が取得した座標を動画構成画像１２０ｃ（つまり、リサイズ画像１４０ｃがリサイズされる前の動画構成画像）に射影し（Ｓ２２）、動画構成画像１２０ｃのオブジェクト８６の領域を特定する。更に、画像領域抽出部１８は、図４（ｅ）に示すように、オブジェクト８６を含む画像領域１４４を取得する（Ｓ２４）。ここで、画像領域抽出部１８は、オブジェクト８６の周囲に所定のマージン領域１８０を含めた領域を画像領域１４４として取得する。図５を参照しながらこの理由を説明する。

　まず、図５（ａ）に示すように、動画構成画像１２０にオブジェクト８８が含まれているとする。この動画構成画像１２０をリサイズ処理部１４がリサイズすることで、図５（ｂ）に示すように、リサイズ画像１４２が生成される。そして、座標取得部１６は、学習モデルを用い、リサイズ画像１４２からオブジェクト８８の４隅の座標（つまり、座標１６０ｂ、座標１６２ｂ、座標１６４ｂ、及び座標１６６ｂ）を取得する。続いて、画像領域抽出部１８は、座標取得部１６が取得した座標を動画構成画像１２０に射影して画像領域を取得する。

　この場合において、リサイズ画像１４２から取得した座標をリサイズ前の画像サイズが大きな動画構成画像１２０に射影するので、各座標の位置が実際の位置からずれる可能性がある。一例として、動画構成画像１２０の縦横画素数が３８４０ｐｘ×２１６０ｐｘであり、これをリサイズしたリサイズ画像１４２の縦横画素数が３００ｐｘ×３００ｐｘであるとする。この場合、リサイズ画像１４２のサイズと動画構成画像１２０のサイズとには、リサイズ画像１４２を基準とすると横方向で７．２倍、及び縦方向で１２．８倍の違いがある。そのため、リサイズ画像１４２から取得した座標を動画構成画像１２０に射影すると、座標の位置は実際の座標の位置からずれる可能性がある。例えば、リサイズ画像１４２の座標１６０ｂを動画構成画像１２０に射影した場合の座標１６０ｃは、図５（ｃ）に黒丸で示したように、所定のピクセル単位でずれが生じ得る。他の座標（座標１６２ｃ、座標１６４ｃ、及び座標１６６ｃ）についても同様である。その結果、座標取得部１６が取得した座標を画像領域抽出部１８が動画構成画像１２０に射影して規定する矩形の画像領域が、図５（ｃ）に示すように画像領域１４４ａ（図５（ｃ）の点線で規定した領域）として規定されることや、画像領域１４４ｂ（図５（ｃ）の一点鎖線で規定した領域）として規定され、実際のオブジェクト８８の画像領域からずれる場合が生じ得る。したがって、画像領域抽出部１８は、座標取得部１６が取得した座標を動画構成画像に射影し、動画構成画像のオブジェクトの領域を特定する場合に、当該オブジェクトの周囲に所定のマージン領域を含めた領域を画像領域として取得する（つまり、粗く、画像領域を抽出する。）。なお、マージン領域のサイズは、例えば、リサイズ処理部１４によるリサイズの縮小倍率や、動画構成画像のサイズとリサイズ画像のサイズとの比等に応じて決定してよい。

　続いて、画像領域抽出部１８が所定回数（例えば、２回）、画像領域を取得していない場合（Ｓ２６のＮｏ）、リサイズ処理部１４は、画像領域抽出部１８が抽出した画像領域１４４をリサイズしてリサイズ画像領域を生成する（Ｓ１６）。つまり、第１の工程で得られた画像領域１４４を用い、リサイズ画像領域が生成される。例えば、図６（ａ）に示すオブジェクト８６の周囲にマージン領域１８０を含む画像領域１４４をリサイズ処理部１４はリサイズし、図６（ｂ）に示すリサイズ画像領域１４６を生成する。リサイズ画像領域のサイズに限定はないが、例えば、縦横画素数が３００ｐｘ×３００ｐｘのサイズであってよい。

　続いて、座標取得部１６は、学習モデル２６０を用い、リサイズ画像領域に含まれる所定のオブジェクトの１以上の隅（典型的には、４隅）の座標を取得する（Ｓ１８）。ここで、座標取得部１６は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する（Ｓ２０）。ただし、既に一度Ｓ２０を経ているので、座標取得部１６は、所定数の座標を取得できるか否かの判断を省略し、所定数の座標を取得してよい。

　例えば、図６（ｃ）に示すように、座標取得部１６は、学習モデル２６０を用い、オブジェクト８６の４隅を中心とする４つの矩形領域であって、各中心からリサイズ画像領域１４６の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域１４６の外縁に接するサイズの４つ矩形領域を形成した場合における４つの中心の座標（つまり、座標１６０ｄ、座標１６２ｄ、座標１６４ｄ、及び座標１６６ｄ）を取得する。なお、座標取得部１６は、リサイズ画像領域１４６における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。

　そして、図６（ｄ）に示すように、画像領域抽出部１８は、座標取得部１６が取得した座標を動画構成画像１２０ｃ（つまり、リサイズ画像領域１４６のリサイズ元の画像領域１４４を含む動画構成画像１２０ｃ）に射影し（Ｓ２２）、動画構成画像１２０ｃのオブジェクト８６の画像領域を取得する（Ｓ２４）。なお、既に第１の工程で粗く抽出した画像領域を用いて座標取得部１６がオブジェクト８６の４隅の座標を再び取得しているので、元の動画構成画像１２０ｃに座標を射影しても、元の動画構成画像１２０ｃに含まれるオブジェクト８６の実際の４隅の座標からのずれを少なくすることができる。

　そして、画像領域抽出部１８が所定回数（例えば、２回）、画像領域を取得したので（Ｓ２６のＹｅｓ）、画像処理部２０は取得された画像領域に所定の画像処理を施す（Ｓ２８）。これにより、画像領域抽出部１８は、オブジェクト画像領域１４８を抽出する（Ｓ３０）。画像領域抽出部１８は、抽出したオブジェクト画像領域１４８を、例えば、情報格納部２４に格納する。

［画像処理プログラム］
　図１～図７に示した本実施形態に係る画像処理システム１が備える各構成要素は、中央演算処理装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）等の演算処理装置にプログラム（すなわち、画像処理プログラム）を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ：ＩＣ）等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。

　本実施形態に係る画像処理プログラムは、例えば、ＩＣやＲＯＭ等に予め組み込むことができる。また、画像処理プログラムは、インストール可能な形式、又は実行可能な形式のファイルで、磁気記録媒体、光学記録媒体、半導体記録媒体等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータプログラムとして提供することもできる。プログラムを格納している記録媒体は、ＣＤ－ＲＯＭやＤＶＤ等の非一過性の記録媒体であってよい。更に、画像処理プログラムを、インターネット等の通信ネットワークに接続されたコンピュータに予め格納させ、通信ネットワークを介してダウンロードによる提供ができるようにすることもできる。

　本実施形態に係る画像処理プログラムは、ＣＰＵ等に働きかけて、画像処理プログラムを、図１～図７にかけて説明した動画撮像部１０、構成画像抽出部１２、リサイズ処理部１４、座標取得部１６、画像領域抽出部１８、画像処理部２０、方向調整部２２、情報格納部２４、学習モデル生成部２６、入力部２８、出力部３０、及び読取部３２として機能させる。

（実施の形態の効果）
　本実施の形態に係る画像処理システム１は、抽出対象である所定のオブジェクトの所定箇所の座標を中心とする１以上の矩形領域を当該所定のオブジェクトにラベル付けしたデータセットを用いて学習して構築された学習モデルを用いる。そして、画像処理システム１は、動画から動画構成画像を抽出し、抽出した動画構成画像からリサイズ画像を生成し、学習モデルを用いてリサイズ画像から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第１の工程と、この画像領域をリサイズしてリサイズ画像領域を生成し、学習モデルを用いてリサイズ画像領域から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第２の工程とにより抽出対象であるオブジェクト画像領域を抽出する。これにより、画像処理システム１によれば、例えば、机の上等に整頓されずに配置された複数のオブジェクトの動画を撮像するだけで、高精度、高速、かつ、適切に抽出対象であるオブジェクト（例えば、領収書）の画像を抽出し、オブジェクトに記載されている各種の情報の取得用データや画像処理用のデータとして情報格納部２４に格納することができる。

　また、例えば、抽出対象であるオブジェクトが領収書である場合を例に挙げる。この場合、従来技術で抽出対象にしている名刺と領収書とは、例えば、皺が領収書の方が発生しやすく、折れ曲がりも多い特徴があり、また、領収書の方が名刺より薄く、机の上等に置いた場合にエッジを認識し難い。例えば、背景と領収書との色の関係で領収書のエッジが検出し難い場合（一例として、領収書の色が白色で、背景である机の色が白色の場合）、従来技術ではエッジを適切に検出できず、動画からオブジェクトの領域を抽出できない。更に、領収書は名刺とは異なり、縦横比のバリエーションが様々存在する。この場合において、従来技術のようにエッジ検出を前提とした技術では、領収書が波打ったり、折れ曲がっている場合（例えば、図１（ｂ）に示すオブジェクト８２）、本来１枚の領収書であるところ、折れ目を境に複数の個別の領域として検出してしまう。また、例えば、名刺は縦横比が略一定であることからバウンディングボックスを用いて動画構成画像中の名刺の領域を推定することが容易であるものの、領収書は縦横比に様々なバリエーションがあることから、エッジ検出を前提とする従来技術において、バウンディングボックスを用いた領収書の領域推定は困難である。

　一方、本実施形態に係る画像処理システム１は、エッジ検出を要さず、オブジェクトの所定箇所の座標及び当該座標を中心とするバウンディングボックスに基づいてオブジェクトが領収書であるか否かを認識できるので、波打ったり、折れ曲がった状態の領収書や縦横比が一定でない複数の領収書を動画で撮像した場合であっても、１枚１枚の領収書として適切に認識し、検出できる。

　また、本実施形態に係る学習モデル２６０は、様々な縦横比の領収書の画像を学習させていることから、画像処理システム１によれば、縦横比が一定ではない複数の領収書のそれぞれを領収書として適切に認識できる。更に、学習モデル２６０は、様々な様式の領収書の４隅の座標及び４隅を含むバウンディングボックスを学習させていることから、画像処理システム１によれば、例えば、１枚の領収書に情報が表示されている複数の領域が印字され、かつ、一の領域と他の領域との間に大きな空白がある場合であっても１枚の領収書として適切に認識できる。そして、学習モデル２６０は、領収書の画像だけでなく様々な背景画像に領収書の画像を重畳させて学習させていることから、画像処理システム１によれば、背景と領収書とのコントラスト差が小さい場合であっても、領収書の画像を適切に抽出できる。

　具体的に、本実施形態に係る画像処理システム１において、抽出対象である所定のオブジェクトを領収書にした学習モデル２６０を準備した上で、動画撮像部１０に領収書、名刺、及びスマートフォンを含む領域を撮像させてテストした。その結果、本実施形態に係る画像処理システム１は、領収書のオブジェクト画像領域を動画構成画像から適切にリアルタイムで抽出した。一方、画像処理システム１は、名刺、及びスマートフォンについては、領収書とは認識しなかった。

　以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよく、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。

　なお、本実施形態に係る画像処理システムは、特許請求の範囲と混同されるべきでない以下の付記項でも言及できる。
（付記項１）
　オブジェクトを動画で撮像する動画撮像部と、
　前記動画の動画構成画像を抽出する構成画像抽出部と、
　前記動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
　前記リサイズ画像から、前記オブジェクトの所定箇所の座標を取得する座標取得部と、
　前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
　前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
　前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記所定箇所の座標を再取得し、
　前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する画像処理システム。
（付記項２）
　オブジェクトを撮像した動画の動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
　前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得部と、
　前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
　前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
　前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得し、
　前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
　前記隅の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。

　１　画像処理システム
　２　情報端末
　３　サーバ
　４　通信網
　１０　動画撮像部
　１２　構成画像抽出部
　１４　リサイズ処理部
　１６　座標取得部
　１８　画像領域抽出部
　２０　画像処理部
　２２　方向調整部
　２４　情報格納部
　２６　学習モデル生成部
　２８　入力部
　３０　出力部
　３２　読取部
　８０、８２、８４、８６、８８　オブジェクト
　９０　机
　１００　リサイズ画像
　１１０　動画
　１２０、１２０ａ、１２０ｂ、１２０ｃ　動画構成画像
　１３０　画像
　１４０ａ、１４０ｂ、１４０ｃ　リサイズ画像
　１４２　リサイズ画像
　１４４、１４４ａ、１４４ｂ　画像領域
　１４６　リサイズ画像領域
　１４８　オブジェクト画像領域
　１５０、１５２、１５４、１５６　隅
　１５０ａ、１５２ａ、１５４ａ、１５６ａ　座標
　１６０、１６２、１６４、１６６　座標
　１６０ａ、１６２ａ、１６４ａ、１６６ａ　座標
　１６０ｂ、１６２ｂ、１６４ｂ、１６６ｂ　座標
　１６０ｃ、１６２ｃ、１６４ｃ、１６６ｃ　座標
　１６０ｄ、１６２ｄ、１６４ｄ、１６６ｄ　座標
　１７０、１７２、１７４、１７６　矩形領域
　１７０ａ　辺
　１８０　マージン領域
　２６０　学習モデル

Claims

　オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得部と、
　前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
　前記座標取得部が、前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得し、
　前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
　前記隅の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。
　前記画像領域抽出部が、所定のマージン領域を付加した前記画像領域を前記動画構成画像から抽出する請求項１に記載の画像処理システム。
　前記座標取得部が、前記所定のオブジェクトの前記隅の座標を、予め準備した学習モデルを用いて取得する請求項１又は２に記載の画像処理システム。
　前記オブジェクト画像領域に所定の画像処理を施す画像処理部
を更に備える請求項１～３のいずれか１項に記載の画像処理システム。
　オブジェクトを撮像した動画の動画構成画像に基づいて取得される前記オブジェクトの所定箇所の座標に基づいて、前記オブジェクトが含まれる画像領域を前記動画構成画像から抽出する画像領域抽出部を備え、
　前記画像領域抽出部が、前記画像領域に基づいて取得される前記オブジェクトの前記所定箇所の座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
　前記所定箇所の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記動画構成画像の外縁若しくは前記動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、前記動画構成画像の外縁若しくは前記生成画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。
　画像処理システム用の画像処理方法であって、
　オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得工程と、
　前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出工程と、
　前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得する工程と、
　前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する工程と
を備え、
　前記隅の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理方法。
　画像処理システム用の画像処理プログラムであって、
　コンピュータに、
　オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得機能と、
　前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出機能と、
　前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得する機能と、
　前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する機能と
を実現させ、
　前記隅の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理プログラム。
　オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得部と、
　前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
　前記座標取得部が、前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得し、
　前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
　前記隅の座標が、前記オブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理サーバ。
　撮像画像が入力されると、前記撮像画像に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、前記所定のオブジェクトの１以上の隅を中心とする１以上の矩形領域を出力するよう、プロセッサを機能させる学習モデルであって、
　前記学習モデルは、前記所定のオブジェクトが含まれる画像、前記所定のオブジェクトが配され得る背景画像、及び前記所定のオブジェクトが含まれる画像と前記背景画像との組み合わせを教師データとして学習され、
　前記学習では、前記所定のオブジェクトの隅を中心とする１以上の矩形領域であって、前記中心から前記所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記画像の外縁に接するサイズの前記矩形領域を形成し、形成された前記矩形領域及び当該矩形領域の前記中心の座標を用いて前記画像中の前記所定のオブジェクトを識別するための学習モデル。