WO2022024835A1 - 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル - Google Patents
画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル Download PDFInfo
- Publication number
- WO2022024835A1 WO2022024835A1 PCT/JP2021/026945 JP2021026945W WO2022024835A1 WO 2022024835 A1 WO2022024835 A1 WO 2022024835A1 JP 2021026945 W JP2021026945 W JP 2021026945W WO 2022024835 A1 WO2022024835 A1 WO 2022024835A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- coordinates
- area
- resized
- predetermined
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供する。画像処理システムは、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する。
Description
本発明は、画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。特に、本発明は、動画中の所定のオブジェクトを適切に抽出可能な画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルに関する。
従来、画像から線分を抽出する線分抽出装置であって、画像からエッジを検出するエッジ検出部と、画像内で第1方向に所定間隔で延伸する複数の第1平行線と、エッジと、の交点を求める第1交点特定部と、隣接する2本の第1平行線の各ペアについて、互いの第1平行線上の交点同士を直線の結合線で結ぶ第1交点結合部と、交点で繋がる複数の結合線からなり、延伸方向の角度差が所定範囲以内である結合線の集合を、線分として抽出する第1線分特定部とを備える線分抽出装置が知られている(例えば、特許文献1参照。)。特許文献1に記載の線分抽出装置によれば、画像に含まれる線分を高速で抽出することができる。
しかしながら、特許文献1に記載の線分抽出装置においてはオブジェクトのエッジを検出することが前提になっており、オブジェクトが矩形状の場合、オブジェクトの少なくとも3つの辺を抽出することが要求される。また、特許文献1に記載の線分抽出装置は、矩形領域であれば当該オブジェクトの種類によらず、全ての矩形領域を抽出してしまう。更に、特許文献1に記載の線分抽出装置においては、オブジェクトと当該オブジェクトが置かれている背景との組み合わせによってはオブジェクトのエッジの認識が困難であり(例えば、オブジェクトの色と背景色とが略同一である場合、エッジを認識することが困難である場合がある)、その場合、オブジェクトの存在を認識することが困難になる場合がある。
したがって、本発明の目的は、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供することにある。
本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理システムが提供される。
また、本発明は、上記目的を達成するため、画像処理システム用の画像処理方法であって、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得工程と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出工程と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する工程と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する工程とを備える画像処理方法が提供される。
また、本発明は、上記目的を達成するため、画像処理システム用の画像処理プログラムであって、コンピュータに、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得機能と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出機能と、画像領域に基づいてオブジェクトの所定箇所の座標を取得する機能と、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する機能とを実現させる画像処理プログラムが提供される。
また、本発明は、上記目的を達成するため、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する座標取得部と、座標に基づいて、オブジェクトが含まれる画像領域を動画構成画像から抽出する画像領域抽出部とを備え、座標取得部が、画像領域に基づいてオブジェクトの所定箇所の座標を取得し、画像領域抽出部が、取得された座標を動画構成画像に射影して、オブジェクトのオブジェクト画像領域を抽出する画像処理サーバが提供される。
更に、本発明は、上記目的を達成するため、撮像画像が入力されると、撮像画像に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域を出力するよう、プロセッサを機能させる学習モデルであって、学習モデルは、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と背景画像との組み合わせを教師データとして学習され、学習では、所定のオブジェクトの隅を中心とする1以上の矩形領域であって、中心から所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が当該画像の外縁に接するサイズの矩形領域を形成し、形成された矩形領域及び当該矩形領域の中心の座標を用いて当該画像中の所定のオブジェクトを識別するための学習モデルが提供される。
本発明に係る画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルによれば、撮像されたオブジェクトのエッジを検出しなくても、動画から所定のオブジェクトの画像を抽出できると共に、オブジェクトが配される背景の相違によらず、オブジェクトの画像を適切に抽出できる画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデルを提供できる。
[実施の形態]
図1は、本発明の実施の形態に係る画像処理システムの概要を示す。
図1は、本発明の実施の形態に係る画像処理システムの概要を示す。
[画像処理システム1の概要]
本実施形態に係る画像処理システム1は、所定のオブジェクトを含む領域の動画を撮像し、撮像した動画から当該所定のオブジェクト及び/又は当該所定のオブジェクトに記載されている情報を自動的、かつ、適切に抽出するシステムである。例えば、画像処理システム1は、撮像領域に複数の領収書(複数の領収書は、互いに形状・サイズ、表面の記載様式が異なっていてよい)、名刺、その他の紙片、及び四角形状の物体や領域(例えば、スマートフォンやパソコンのキーボードのボタン等)が存在している状態を動画撮像した場合に、これらの中から特定のオブジェクト、一例として、当該複数の領収書及び/又は当該複数の領収書に記載の情報を自動的、リアルタイムに抽出し、コンピュータにおいて利用可能なデジタル情報に変換することができる。
例えば、図1(a)に示すように、画像処理システム1が、所定の撮像領域の動画を撮像するカメラを有する情報端末2と、所定の情報処理を実行するサーバ3とを備え、情報端末2とサーバ3とが通信網4によって双方向通信可能に接続されている例を挙げて説明する。ここでは、本実施形態に係る画像処理システム1が抽出する所定のオブジェクトが、一例として、様々な形状・サイズを有し、様々な様式・書式で作成される領収書(レシート)である場合を説明する。
例えば、複数のオブジェクト(例えば、オブジェクト80、及びオブジェクト82)が机90の上に配置されているとする。なお、複数のオブジェクトは、例えばユーザが所定の場所に配置してよい。そして、画像処理システム1は、これらを含む領域の動画を情報端末2のカメラで撮像する。図1(a)の例では、机90の上にオブジェクト80(例えば、名刺)、及びオブジェクト82(例えば、領収書)が配置されている。なお、オブジェクト82の一部は折れ曲がっていてもよい。そして、画像処理システム1は、複数のオブジェクトが撮像された動画から、動画を構成する1以上の動画構成画像を抽出する。続いて画像処理システム1は、抽出した1以上の動画構成画像のそれぞれにリサイズ処理を施して、1以上のリサイズ画像を生成する。
続いて、画像処理システム1は、抽出対象であるオブジェクトの所定箇所の座標をリサイズ画像から取得する。この座標は、リサイズ画像における当該所定箇所の座標である。この場合において画像処理システム1は、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルを予め準備する。この学習モデルは、例えば、抽出対象のオブジェクトが領収書である場合において、画像に領収書と領収書とは異なる物体とが含まれていた場合、領収書については領収書として認識し、領収書とは異なる物体については領収書ではないと認識するために用いることができる学習モデルである。
ここで、本実施形態においては、抽出対象であるオブジェクトの1以上の所定箇所を中心とする1以上の矩形領域(つまり、バウンディングボックス)と、当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを予め準備する。つまり、従来の学習モデルのように、抽出対象であるオブジェクトの全体を囲む矩形領域と当該オブジェクトのカテゴリーとを関連付けるのではなく、抽出対象である一のオブジェクトの複数の部分をそれぞれ囲む複数の矩形領域と当該オブジェクトのカテゴリーとの関連付けを含む学習モデルを本実施形態では構築して用いる。例えば、学習モデルは、領収書の4隅を中心とする4つの正方形領域を1セットとし、当該1セットとオブジェクトのカテゴリーである領収書とを関連付け、動画構成画像が入力されると、動画構成画像の領収書が占める領域の画像及び/又は4隅の座標を出力するための学習モデルである。
この学習モデルは、一例として、予め取得した大量の所定のオブジェクトの画像や、所定のオブジェクトのコーナー、及び特徴点等の特徴量、並びにオブジェクトが配され得る背景画像等についての情報に基づいて生成された学習モデルであって、動画構成画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判定するための学習モデルである。なお、画像処理システム1は、所定のオブジェクトを識別する識別子に対応付けて当該オブジェクトの特徴量に関する情報を格納するテーブルを用い、動画構成画像に含まれている1以上のオブジェクトのそれぞれが所定のオブジェクトであるか否かを判断してもよい。ただし、本実施形態においては、様々な形状・サイズの所定のオブジェクトに柔軟・高速・的確に対応する観点から、学習モデルを用いて所定のオブジェクトであるか否かを判断することが好ましい。
そして、画像処理システム1は、学習モデルを用い、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標、例えば、オブジェクトが矩形状である場合、4つの隅の座標を取得する。この場合において画像処理システム1は、学習モデルを用い、4つの隅のそれぞれを中心とする正方形領域に基づいて、当該オブジェクトが領収書であるか否かを判断し、及び/又は領収書の4隅の座標を取得する。また、画像処理システム1においては動画を撮像しているので、例えば、情報端末2を移動させつつ動画を撮像した場合、動画構成画像の中には抽出対象のオブジェクトの全体が含まれていない動画構成画像も含まれ得ることから、リサイズ画像についても当該オブジェクトの全体が含まれていないリサイズ画像が生成され得る。そこで、画像処理システム1は、学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標の全ての箇所が含まれるリサイズ画像を選択し、選択したリサイズ画像から当該オブジェクトの所定箇所の座標を取得する。
以下の説明においては、説明の簡略化のため主として、画像処理システム1がオブジェクトの4つの隅の座標を取得して処理を実行する場合を説明するが、画像処理システム1は、オブジェクトの一部の隅の座標を取得し、残りの隅の座標を推定して用いることができる。すなわち、画像処理システム1は、オブジェクト82の4つの隅の全ての座標を取得しなくても、一部の座標を取得することもできる。この場合、画像処理システム1は、オブジェクト82の一部の隅の座標を取得し、座標を取得していない隅については、取得した隅の座標から推定することができる(例えば、3つの隅の座標を取得した場合、残り1つの隅の座標を推定することや、対角位置にある2つの隅の座標を取得し、残り2つの隅の座標を推定すること等ができる。)。
具体的に、図1(b)の例で画像処理システム1は、リサイズ画像100に含まれるオブジェクト82(つまり、領収書)の4つの隅(つまり、隅150、隅152、隅154、及び隅156)の少なくとも一部の座標を取得する。一方、画像処理システム1は、抽出対象ではないオブジェクト80(つまり、名刺)の4つの隅の座標は、学習モデルを用い、取得しない。なお、画像処理システム1は、リサイズ画像中に領収書の一部が含まれていない場合、つまり、領収書の4隅の一部がリサイズ画像中に含まれていない場合は、当該リサイズ画像を用いずに領収書の4隅の全てが含まれるリサイズ画像を用いて座標を取得してもよい。また、画像処理システム1は、オブジェクト82の一部が折れ曲がっている場合であっても(つまり、オブジェクト82の一部が机90から浮き上がっている場合であっても)、オブジェクト82の隅がリサイズ画像100に含まれているか、オブジェクト82の一部の隅が含まれている限り、リサイズ画像100からオブジェクト82の4隅の座標を取得するか、一部の隅の座標と一部の隅の座標から推定される残りの隅の座標を取得する。
なお、画像処理システム1が用いる学習モデルにおいては、様々な背景画像に対して抽出対象のオブジェクトの画像を重畳させた学習も実行して学習モデルを構築できる。これにより、画像処理システム1においては、オブジェクト82の外縁が背景である机90の色との関係で認識し難い場合であっても、オブジェクト82の所定箇所の座標を適切に取得できる。
続いて、画像処理システム1は、リサイズ画像100から取得した座標を、当該リサイズ画像の生成元である元の動画構成画像(つまり、この動画構成画像から当該リサイズ画像が生成されている)に射影して得られる座標(例えば、図1(c)に示す、座標150a、座標152a、座標154a、及び座標156a)を用い、当該元の動画構成画像から抽出対象であるオブジェクト82が含まれる画像領域を抽出する。この場合に画像処理システム1は、オブジェクト82の周囲に所定のマージン領域を含む画像領域を抽出してよい。
そして、画像処理システム1は、抽出した画像領域に再びリサイズ処理を施し、リサイズ画像領域を生成する。次に、画像処理システム1は、上記学習モデルを再び用い、リサイズ画像領域から抽出対象であるオブジェクトの所定箇所の座標を再度、取得する。この座標は、リサイズ画像領域における所定箇所の座標である。続いて、画像処理システム1は、リサイズ画像領域から取得した座標を、当該リサイズ画像領域の生成元である元の画像領域が抽出された元の動画構成画像に射影して得られる座標を用い、当該元の動画構成画像から抽出対象であるオブジェクト82のオブジェクト画像領域を抽出する。これにより、画像処理システム1は、動画に撮像された抽出対象であるオブジェクト82の画像を適切にリアルタイムに抽出できる。ここで、画像処理システム1は、所定の画像処理を施した上でオブジェクト画像領域を抽出してもよい。例えば、オブジェクトである領収書の一部が折れ曲がり、領収書が置かれた平面から当該一部が浮き上がっている場合、オブジェクト画像領域においては、浮き上がっている部分に表示されているテキストや図形に歪み等が生じている場合がある。そこで、画像処理システム1は、当該歪み等を除去する画像処理をオブジェクト画像領域に施す。そして、画像処理システム1は、例えば、光学文字認識(OCR)により読み取り可能なデータとしてオブジェクト画像領域を格納する。
更に、画像処理システム1は、当該データに基づいて、動画に含まれる所定のオブジェクトの表面に記載された情報を読み取り、読み取った内容を情報端末2等の表示部等に出力できる。例えば、所定のオブジェクトが領収書である場合、画像処理システム1は、撮像領域に領収書を含む動画を撮像して生成したOCR読み取り可能なデータを実際に読み取り、読取の結果を情報端末2の表示部等に出力させてもよい。この場合、画像処理システム1は、例えば、所定のオブジェクトが領収書の場合、各領収書の具体的な内容として、領収書記載の日付や発行会社、及び金額や売買対象項目を含む内容等を出力させることができる。更に、画像処理システム1は、読み取った情報を格納し、格納した情報を画像処理システム1外の会計システムや家計簿システム等に引き渡すこともできる(なお、画像処理システム1は、読み取った情報を直接、画像処理システム1外の会計システム等に引き渡してもよい。)。
これにより、画像処理システム1によれば、複数のオブジェクトを1枚1枚撮像することやスキャナでスキャンすることを要さず、複数のオブジェクトを机の上等に配置した状態を動画撮像するだけで、複数のオブジェクトそれぞれを識別すると共に各オブジェクト表面の情報を適切に抽出できる。したがって、オブジェクトが例えば様々な形状や様式で作成される領収書等である場合、膨大な枚数の領収書の処理を要する会計事務所や多くの枚数の領収書の処理を要する個人事業主等、又は家計簿等を作成する様々な人々の会計や経理等の処理の手間を低減させユーザビリティを向上させることができる。
特に本実施形態に係る画像処理システム1は、撮像した動画から動画構成画像(元画像)を抽出し、抽出した動画構成画像をリサイズしてリサイズ画像を生成し、リサイズ画像から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像(元画像)に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第1の工程と、この画像領域を再びリサイズしてリサイズ画像領域を生成し、リサイズ画像領域から抽出対象のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像(元画像)に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第2の工程とを経て抽出対象のオブジェクトの画像(つまり、オブジェクト画像領域)を抽出する。第1の工程と第2の工程とを経ることで、オブジェクトのエッジ検出が困難であっても、高精度でオブジェクトの画像を抽出できる。
ここで、本実施形態においては、抽出対象であるオブジェクトの全体ではなく、複数の部分のバウンディングボックスを利用した学習モデルを構築している。これは、本発明者の鋭意研究の結果、オブジェクトの全体を含むバウンディングボックスを用いるよりも、オブジェクトの特徴的な部分を中心とした複数のバウンディングボックスを用いた学習モデルを構築して用いることで、極めて精度良く抽出対象であるオブジェクトを抽出することができ、また、システムの処理速度を向上できることを見出した結果である。
すなわち、画像処理システム1は、第1の工程で動画構成画像から所定のオブジェクトを含む画像領域を、所定のオブジェクトの複数の特徴部分(例えば、隅)を中心とする複数のバウンディングボックスを用いて、いわば粗く抽出し、第2の工程では、粗く抽出した画像領域に基づいて所定のオブジェクトを含むオブジェクト画像領域を、再度、オブジェクトの複数の特徴部分を中心とする複数のバウンディングボックスを用いて精密に抽出する。すなわち、オジブジェクトに対するバウンディングボックスのエリア推定自体に誤差が含まれている。そのため本実施形態では、バウンディングボックスを用いた処理を繰り返す(つまり、第1の工程と第2の工程との少なくとも2つの工程を実行する)ことで係る誤差を低減し、高精度でオブジェクトを検出することができる。なお、バウンディングボックスによるオブジェクトの検出は、一例として、画像中のオブジェクトを単一のディープニューラルネットワークで検出するSingle Shot MultiBox Detector(SSD)を利用できる。これにより、画像処理システム1によれば、オブジェクトには様々な矩形状のオブジェクト(例えば、名刺、領収書、キーボードのボタン、スマートフォン等)があるところ、抽出対象であるオブジェクト(上記の例では領収書)についての学習モデルを予め構築することで、抽出対象であるオブジェクトを動画から適切に抽出でき、意図しない矩形領域の検出・抽出を防止できる。
なお、本実施形態においてオブジェクトは、同一形状、若しくは互いに異なる形状を有し、平面的な形状を有するオブジェクトである。オブジェクトの形状に特に限定はないが、例えば、四辺形状であってよく、四隅や四辺の少なくとも一部が欠損していてもよい。また、オブジェクトの形状は隅(つまり、角)を有する形状であれば限定はなく、三角形、五角形、六角形等の多角形であってもよいし、一部に円弧形状が含まれていてもよい。更に、オブジェクトのサイズにも特に限定はない。そして、オブジェクトの表面には、様々な様式で、各種の情報(テキスト情報、図形情報、手書きの文字や数字、図形等)が印字、印刷、及び/又は記載等されていてよい。オブジェクトとしては、一例として、見積書、請求書、領収書、及び/又は名刺等が挙げられるがこれらに限られない。オブジェクトが領収書等である場合、オブジェクト表面に記載されている情報としては、発行年月日、発行時刻、宛名、金額、摘要、発行者名、及び/又は発行者の電話番号等の情報が挙げられる。したがって、本実施形態に係る画像処理システム1が撮像する動画には、様々な形状、様々なサイズの複数のオブジェクトであって、表面に様々な情報が記載されている複数のオブジェクトの画像が含まれていてよい。すなわち、画像処理システム1が撮像する複数のオブジェクトそれぞれの形状、サイズ、及び/又は表面に記載の情報は、それぞれ異なっていてよい。画像処理システム1は、複数のオブジェクトから、所定カテゴリーのオブジェクトのみを抽出できる。
また、情報端末2は、携帯通信端末やスマートフォン、ノートパソコン、及び/又はタブレット型PC等であってよく、動画撮像可能な撮像装置に接続可能なPC等の情報端末や時計等であってもよい。更に、通信網4は、携帯電話網、及び/又はインターネット等の通信網である。通信網4は、有線LAN及び無線LAN等の通信ネットワークを含むこともできる。そして、以下において本実施形態に係る画像処理システム1の詳細を説明するが、上記説明及び下記説明における名称や数値、数量等はあくまで例示であり、これらの名称や数値、数量等に限定されることはないことを付言する。
[画像処理システム1の構成の詳細]
図2は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。なお、以下の説明においては主として、抽出対象のオブジェクトが領収書である例を挙げて説明する。
図2は、本発明の実施の形態に係る画像処理システムの機能構成の一例を示す。なお、以下の説明においては主として、抽出対象のオブジェクトが領収書である例を挙げて説明する。
<画像処理システム1の構成の概要>
画像処理システム1は、動画を撮像する動画撮像部10と、動画から動画構成画像を抽出する構成画像抽出部12と、画像をリサイズするリサイズ処理部14と、画像から所定のオブジェクトの所定箇所の座標を取得する座標取得部16と、画像領域を抽出する画像領域抽出部18と、画像に所定の処理を施す画像処理部20と、画像のオブジェクトの方向を調整する方向調整部22と、所定の情報を格納する情報格納部24と、学習モデルを生成する学習モデル生成部26と、所定の情報の入力を受け付ける入力部28と、所定の情報を出力する出力部30と、オブジェクト表面のテキストデータ等を読み取る読取部32とを備える。
画像処理システム1は、動画を撮像する動画撮像部10と、動画から動画構成画像を抽出する構成画像抽出部12と、画像をリサイズするリサイズ処理部14と、画像から所定のオブジェクトの所定箇所の座標を取得する座標取得部16と、画像領域を抽出する画像領域抽出部18と、画像に所定の処理を施す画像処理部20と、画像のオブジェクトの方向を調整する方向調整部22と、所定の情報を格納する情報格納部24と、学習モデルを生成する学習モデル生成部26と、所定の情報の入力を受け付ける入力部28と、所定の情報を出力する出力部30と、オブジェクト表面のテキストデータ等を読み取る読取部32とを備える。
なお、画像処理システム1は、上記複数の構成要素を物理的に同一の場所に有するだけでなく、上記複数の構成要素の一部を物理的に離れた位置に設置してもよい。例えば、画像処理システム1は、情報端末2のみで構成してもよく(つまり、ローカルのみで構成してもよく)、また、情報端末2と当該情報端末2に通信網4等で接続されるサーバ3とを備えて構成してもよい。画像処理システム1が情報端末2とサーバ3とを備えて構成される場合、情報端末2が上記複数の構成要素の一部を備え、サーバ3が残りの構成要素を備える構成を採用してもよい。この場合、例えば、情報端末2において動画を撮像し、当該動画をサーバ3に供給することで所定の処理を実行することもできる。なお、サーバは、複数のサーバの集合体であってもよく、この場合、各サーバが動画撮像部10を除く他の構成要素の一部若しくは全てを担う。例えば、画像処理システム1の複数の処理の一部を情報端末2において実行し(例えば、動画の撮像からリサイズ画像の生成まで情報端末2において実行する)、その他の処理を他の1以上のサーバにおいて実行してもよい(例えば、リサイズ画像の生成より後の処理をサーバにおいて実行する。)。また、画像処理システム1は、動画撮像部10を有する撮像装置と、動画撮像部10を除く他の構成要素を有する1以上の画像処理装置とから構成してもよい。「1以上の画像処理装置」を複数の処理装置で構成する場合、動画撮像部10を除く他の構成要素を、情報処理能力や果たすべき機能に応じ、各処理装置に適宜割り振ることができる。
<画像処理システム1の構成の詳細>
(動画撮像部10、構成画像抽出部12)
動画撮像部10は、撮像領域の動画を撮像する。動画撮像部10は、撮像領域に含まれる1以上のオブジェクトを動画で撮像する。動画撮像部10は、撮像対象を直上(つまり、俯角90度)から撮像することも、俯角90度未満から撮像することもできる。なお、動画撮像部10は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部10は、撮像した動画を構成画像抽出部12に供給する。構成画像抽出部12は、動画撮像部10から受け取った動画から動画構成画像を抽出する。構成画像抽出部12は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部12は、抽出した動画構成画像をリサイズ処理部14、画像領域抽出部18に供給する。
(動画撮像部10、構成画像抽出部12)
動画撮像部10は、撮像領域の動画を撮像する。動画撮像部10は、撮像領域に含まれる1以上のオブジェクトを動画で撮像する。動画撮像部10は、撮像対象を直上(つまり、俯角90度)から撮像することも、俯角90度未満から撮像することもできる。なお、動画撮像部10は、フレームレートを適宜調整して動画を撮像してもよい。動画撮像部10は、撮像した動画を構成画像抽出部12に供給する。構成画像抽出部12は、動画撮像部10から受け取った動画から動画構成画像を抽出する。構成画像抽出部12は、動画から複数の動画構成画像を抽出する。ここで、動画構成画像とは、フレーム画像、フィールド画像、及びその他の動画を構成する様々な形式の画像である。構成画像抽出部12は、抽出した動画構成画像をリサイズ処理部14、画像領域抽出部18に供給する。
(リサイズ処理部14)
リサイズ処理部14は、画像にリサイズ処理を施してリサイズされた画像を生成する。具体的に、リサイズ処理部14は、構成画像抽出部12が抽出した動画構成画像をリサイズしてリサイズ画像を生成する。例えば、リサイズ処理部14は、動画構成画像のサイズを縮小したリサイズ画像を生成する。この場合にリサイズ処理部14は、矩形状の動画構成画像を正方形のリサイズ画像に変形してよい。リサイズ処理部14は、例えば、縦横画素数が3000px×2000pxのサイズを有する動画構成画像を、縦横画素数が300px×300pxのサイズにリサイズしたリサイズ画像を生成する。リサイズ処理部14がリサイズ処理をすることで、処理速度を向上させることができる。リサイズ処理部14は、リサイズ画像を座標取得部16に供給する。
リサイズ処理部14は、画像にリサイズ処理を施してリサイズされた画像を生成する。具体的に、リサイズ処理部14は、構成画像抽出部12が抽出した動画構成画像をリサイズしてリサイズ画像を生成する。例えば、リサイズ処理部14は、動画構成画像のサイズを縮小したリサイズ画像を生成する。この場合にリサイズ処理部14は、矩形状の動画構成画像を正方形のリサイズ画像に変形してよい。リサイズ処理部14は、例えば、縦横画素数が3000px×2000pxのサイズを有する動画構成画像を、縦横画素数が300px×300pxのサイズにリサイズしたリサイズ画像を生成する。リサイズ処理部14がリサイズ処理をすることで、処理速度を向上させることができる。リサイズ処理部14は、リサイズ画像を座標取得部16に供給する。
(座標取得部16)
座標取得部16は、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する。座標取得部16は、後述する予め準備した学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標を画像から取得する。所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域であって、当該中心から動画構成画像の外縁若しくは動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、動画構成画像の外縁若しくは生成画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。具体的に、座標取得部16は、リサイズ処理部14から受け取った生成画像としてのリサイズ画像からオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は4隅の座標若しくは少なくとも一部の隅の座標である。つまり、所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域(例えば、正方形)であって、当該中心からリサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。座標取得部16は、リサイズ画像からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部16は、オブジェクトが矩形である場合、当該オブジェクトの3つの隅の座標を取得し、残り1つの隅の座標を当該3つの隅の座標を用いて推定する。ここで、動画は複数の動画構成画像から構成されるので、リサイズ処理部14が生成するリサイズ画像も複数、存在する。座標取得部16は、リサイズ処理部14から複数のリサイズ画像を取得した場合、抽出対象であるオブジェクトの所定箇所の座標の全てを取得できるリサイズ画像を選択し、選択したリサイズ画像から座標を取得してもよい。座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。
座標取得部16は、オブジェクトを撮像した動画の動画構成画像に基づいてオブジェクトの所定箇所の座標を取得する。座標取得部16は、後述する予め準備した学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標を画像から取得する。所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域であって、当該中心から動画構成画像の外縁若しくは動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、動画構成画像の外縁若しくは生成画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。具体的に、座標取得部16は、リサイズ処理部14から受け取った生成画像としてのリサイズ画像からオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は4隅の座標若しくは少なくとも一部の隅の座標である。つまり、所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域(例えば、正方形)であって、当該中心からリサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。座標取得部16は、リサイズ画像からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部16は、オブジェクトが矩形である場合、当該オブジェクトの3つの隅の座標を取得し、残り1つの隅の座標を当該3つの隅の座標を用いて推定する。ここで、動画は複数の動画構成画像から構成されるので、リサイズ処理部14が生成するリサイズ画像も複数、存在する。座標取得部16は、リサイズ処理部14から複数のリサイズ画像を取得した場合、抽出対象であるオブジェクトの所定箇所の座標の全てを取得できるリサイズ画像を選択し、選択したリサイズ画像から座標を取得してもよい。座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。
(画像領域抽出部18)
画像領域抽出部18は、座標取得部16が取得した座標に基づいて、抽出対象であるオブジェクトが含まれる画像領域を動画構成画像から抽出する。具体的に、画像領域抽出部18は、リサイズ画像から取得された所定箇所の座標を動画構成画像に射影して画像領域を抽出する。すなわち、画像領域抽出部18は、動画構成画像から生成されたリサイズ画像から取得されたオブジェクトの所定箇所の座標をリサイズされる前の動画構成画像に射影し、当該動画構成画像に含まれる抽出対象であるオブジェクトが含まれる画像領域を抽出する。この場合において画像領域抽出部18は、所定のマージン領域を付加して画像領域を動画構成画像から抽出することができる。つまり、画像領域抽出部18は、座標の射影により特定される領域の外側に所定のマージン領域を含めた領域を画像領域として抽出できる。画像領域抽出部18は、抽出した画像領域をリサイズ処理部14に供給する。
画像領域抽出部18は、座標取得部16が取得した座標に基づいて、抽出対象であるオブジェクトが含まれる画像領域を動画構成画像から抽出する。具体的に、画像領域抽出部18は、リサイズ画像から取得された所定箇所の座標を動画構成画像に射影して画像領域を抽出する。すなわち、画像領域抽出部18は、動画構成画像から生成されたリサイズ画像から取得されたオブジェクトの所定箇所の座標をリサイズされる前の動画構成画像に射影し、当該動画構成画像に含まれる抽出対象であるオブジェクトが含まれる画像領域を抽出する。この場合において画像領域抽出部18は、所定のマージン領域を付加して画像領域を動画構成画像から抽出することができる。つまり、画像領域抽出部18は、座標の射影により特定される領域の外側に所定のマージン領域を含めた領域を画像領域として抽出できる。画像領域抽出部18は、抽出した画像領域をリサイズ処理部14に供給する。
そして、リサイズ処理部14は、画像領域抽出部18から受け取った画像領域を再びリサイズし、リサイズ画像領域を生成する。つまり、一の動画構成画像から一のリサイズ画像が生成され、この一のリサイズ画像から取得される座標を用い、当該一の動画構成画像から一の画像領域が抽出される。そして、この一の画像領域にリサイズ処理を施してリサイズ画像領域が生成されるので、当該一の動画構成画像から抽出された所定の領域(一の画像領域)が再びリサイズ処理されることになる。リサイズ処理部14は、リサイズ画像領域を座標取得部16に供給する。
続いて座標取得部16は、リサイズ画像領域に基づいて、抽出対象であるオブジェクトの所定箇所の座標を取得する。すなわち、座標取得部16は、生成画像としてのリサイズ画像領域から、抽出対象であるオブジェクトの所定箇所の座標を取得する。所定箇所の座標は、オブジェクトの特徴的な部分の座標であり、例えば、オブジェクトが矩形状の場合は4隅の座標若しくは少なくとも一部の隅の座標である。具体的に、所定箇所の座標は、オブジェクトの隅を中心とする1以上の矩形領域であって、当該中心からリサイズ画像領域の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域の外縁に接するサイズの矩形領域を形成した場合における中心の座標である。この場合においても、座標取得部16は、後述する学習モデルを用い、抽出対象のオブジェクトの所定箇所の座標をリサイズ画像領域から取得する。また、座標取得部16は、リサイズ画像領域からオブジェクトの所定箇所の一部の座標を取得した場合、残りの所定箇所の座標を学習モデルに基づいて推定する。一例として、座標取得部16は、オブジェクトが矩形である場合、当該オブジェクトの3つの隅の座標を取得し、残り1つの隅の座標を当該3つの隅の座標を用いて推定する。座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。そして、画像領域抽出部18は、リサイズ画像領域から取得された所定箇所の座標を動画構成画像に射影して、抽出対象であるオブジェクトのオブジェクト画像領域を抽出する。画像領域抽出部18は、抽出したオブジェクト画像領域を、画像処理部20、情報格納部24に供給する。
(画像処理部20)
画像処理部20は、画像領域抽出部18が抽出した画像領域に所定の画像処理(例えば、ブレ、歪み、回転等の補正処理)を施して、オブジェクト画像領域を生成する。なお、画像領域抽出部18は、抽出した画像領域に画像処理部20による画像処理を施さずにオブジェクト画像領域としてもよい。画像処理部20は、後述する読取部32における情報の読み取りや入力を適切に実行可能にすることを目的として、オブジェクト画像領域に画像処理を施す。例えば、画像処理部20は、オブジェクト画像領域が所定のオブジェクトの本来の形状から変形した形状の当該オブジェクトを含む画像である場合(例えば、オブジェクトが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。)、アフィン変換等の処理により長方形のオブジェクトに変形する処理を実行する。これにより、画像処理部20は、斜めの角度から撮像したオブジェクトが台形状のオブジェクトとしてオブジェクト画像領域に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部20は、より明確な画像を読取部32に読み取らせることを目的として、オブジェクト画像領域に二値化処理やシャープネス処理等の画像処理を施すこともできる。画像処理部20は、画像処理後の画像を方向調整部22に供給する。
画像処理部20は、画像領域抽出部18が抽出した画像領域に所定の画像処理(例えば、ブレ、歪み、回転等の補正処理)を施して、オブジェクト画像領域を生成する。なお、画像領域抽出部18は、抽出した画像領域に画像処理部20による画像処理を施さずにオブジェクト画像領域としてもよい。画像処理部20は、後述する読取部32における情報の読み取りや入力を適切に実行可能にすることを目的として、オブジェクト画像領域に画像処理を施す。例えば、画像処理部20は、オブジェクト画像領域が所定のオブジェクトの本来の形状から変形した形状の当該オブジェクトを含む画像である場合(例えば、オブジェクトが領収書である場合において、領収書を斜めの角度から撮像した場合、動画には四辺形ではあるが長方形ではない領収書の画像が含まれる。)、アフィン変換等の処理により長方形のオブジェクトに変形する処理を実行する。これにより、画像処理部20は、斜めの角度から撮像したオブジェクトが台形状のオブジェクトとしてオブジェクト画像領域に含まれる現象であるキーストーニングの除去を実行する。また、画像処理部20は、より明確な画像を読取部32に読み取らせることを目的として、オブジェクト画像領域に二値化処理やシャープネス処理等の画像処理を施すこともできる。画像処理部20は、画像処理後の画像を方向調整部22に供給する。
(方向調整部22)
方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部20において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部22は、後述する読取部32における情報の取り込み/入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部20におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、0°、90°、180°、270°等の4つの状況をとることが考えられる。方向調整部22は、画像処理部20におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト(例えば、領収書等の長方形状を有するオブジェクト)の向きを、一例として、正面視にて縦長の方向(つまり、情報端末2等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向)になるように画像を回転する処理を実行する。これにより、方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部22は、方向を調整した後のオブジェクト画像領域を情報格納部24、読取部32に供給する。
方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を調整する。すなわち、画像処理部20において画像処理が施された画像に含まれる所定のオブジェクトの向きは、所定の方向に揃っているとは限らない。したがって、方向調整部22は、後述する読取部32における情報の取り込み/入力を適切に実行することを目的として、画像に含まれる所定のオブジェクトの向きを所定の方向に揃える処理を実行する。例えば、画像処理部20におけるアフィン変換を経て長方形に変更された画像の向きは、当該長方形の長辺を規準にした場合、一例として、当該基準に対して長辺が、0°、90°、180°、270°等の4つの状況をとることが考えられる。方向調整部22は、画像処理部20におけるアフィン変換等の画像処理後に得られる画像に含まれる所定のオブジェクト(例えば、領収書等の長方形状を有するオブジェクト)の向きを、一例として、正面視にて縦長の方向(つまり、情報端末2等の表示部を正面から観察した場合に、水平方向に短辺が位置し、垂直方向に長辺が位置する方向)になるように画像を回転する処理を実行する。これにより、方向調整部22は、オブジェクト画像領域に含まれる所定のオブジェクトの方向を所定の方向に揃えることができる。方向調整部22は、方向を調整した後のオブジェクト画像領域を情報格納部24、読取部32に供給する。
なお、方向調整部22は、複数の所定のオブジェクトのデータ(例えば、長方形状のオブジェクトの画像データであって、正面視にて長方形の短辺が水平方向に沿った方向であるデータ)を予め定められた規則により所定種類のクラスにランダムに分類して学習することで学習モデルを生成することもできる。この学習モデルは、所定のオブジェクトの上方向を上であるとして認識するように推論できるモデルである。上方向の認識ができれば、所定のオブジェクトの領域を長方形に容易に変形できる。また、当該学習モデルとTesseractによる認識手法とを組み合わせてもよく、係る組み合わせにより、より高い精度が得られる。
(情報格納部24)
情報格納部24は、方向が調整されたオブジェクト画像領域、すなわち、読取部32における読取処理に適したオブジェクト画像領域を格納する。情報格納部24は、例えば、ユーザを識別するユーザIDに対応付けて、当該オブジェクト画像領域、当該オブジェクト画像領域を含む動画の撮像年月日、撮像時刻等の情報を格納することができる。なお、情報格納部24に格納される各種の情報は、情報端末2や、外部のサーバ(例えば、画像処理システム1の外部のサーバであって、会計処理や経理処理等に用いるサーバ等)に供給することができる。また、情報端末2は情報格納部24を有していなくてもよく、この場合、情報格納部24は、通信網4を介して双方向通信可能に情報端末2に接続される外部サーバが有していてよい。
情報格納部24は、方向が調整されたオブジェクト画像領域、すなわち、読取部32における読取処理に適したオブジェクト画像領域を格納する。情報格納部24は、例えば、ユーザを識別するユーザIDに対応付けて、当該オブジェクト画像領域、当該オブジェクト画像領域を含む動画の撮像年月日、撮像時刻等の情報を格納することができる。なお、情報格納部24に格納される各種の情報は、情報端末2や、外部のサーバ(例えば、画像処理システム1の外部のサーバであって、会計処理や経理処理等に用いるサーバ等)に供給することができる。また、情報端末2は情報格納部24を有していなくてもよく、この場合、情報格納部24は、通信網4を介して双方向通信可能に情報端末2に接続される外部サーバが有していてよい。
(学習モデル生成部26)
座標取得部16は、学習モデルに基づいて、リサイズ処理部14から受け取ったリサイズ画像に所定のオブジェクトが含まれているか否かを判断し、当該所定のオブジェクトの少なくとも一部の所定箇所の座標を取得する。また、座標取得部16は、リサイズ処理部14から受け取ったリサイズ画像領域に含まれる所定のオブジェクトの少なくとも一部の所定箇所の座標を学習モデルに基づいて取得する。座標取得部16は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。
座標取得部16は、学習モデルに基づいて、リサイズ処理部14から受け取ったリサイズ画像に所定のオブジェクトが含まれているか否かを判断し、当該所定のオブジェクトの少なくとも一部の所定箇所の座標を取得する。また、座標取得部16は、リサイズ処理部14から受け取ったリサイズ画像領域に含まれる所定のオブジェクトの少なくとも一部の所定箇所の座標を学習モデルに基づいて取得する。座標取得部16は、既知の画像認識技術や機械学習を用いて当該判断を実行できる。
すなわち、座標取得部16は、所定のオブジェクトの特徴について予め学習して準備した学習モデルを用いて動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に所定のオブジェクトが含まれているか否か判断する。座標取得部16は、所定のオブジェクトの特徴を有さないオブジェクトについては、所定のオブジェクトとは認識しない。座標取得部16は、ニューラルネットワークを用いて大量の所定のオブジェクト等の画像について学習させることにより構築された学習モデルを用いた推論処理により、所定のオブジェクトが動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に含まれているか否かを判断することができる。例えば、座標取得部16は、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域から抽出されるオブジェクトの画像中での特徴と当該学習モデルとを用い、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に所定のオブジェクトが存在しているか否か、並びに動画構成画像、リサイズ画像、及び/又はリサイズ画像領域に含まれる各オブジェクトが所定のオブジェクトであるか否かを判断する。
具体的に、学習モデル生成部26は、所定のオブジェクトが含まれる画像、所定のオブジェクトが配され得る背景画像、及び所定のオブジェクトが含まれる画像と所定のオブジェクトが配され得る背景画像との組み合わせを教師データとし、一例として勾配法で学習することで、撮像画像である動画が入力されると、動画を構成する動画構成画像やリサイズ画像、及び/又はリサイズ画像領域に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域、各中心の座標、及び/又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する。なお、学習モデル生成部26は、動画撮像部10が撮像した動画、及び/又は画像処理システム1外や当該画像処理システム1とは別の画像処理システム1において取得された動画を教師データとして用い、学習モデルを生成してもよい。
より具体的に、学習モデル生成部26は、所定のオブジェクトが含まれる画像や背景画像等を用い、画像に含まれるオブジェクトが所定のオブジェクトであるか否かを、所定のオブジェクトの1以上の所定箇所を中心とする矩形領域(つまり、バウンディングボックス)を抽出対象にした学習モデルを生成する。学習モデル生成部26は、従来のように抽出対象である所定のオブジェクトの全体を含むバウンディングボックスを抽出対象にするのではなく、所定のオブジェクトの1以上の所定の個所を中心とするバウンディングボックスの組を抽出対象にした学習モデルを生成する。すなわち、学習モデル生成部26は、所定のオブジェクトの全体を含む1枚の画像を基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルではなく、所定のオブジェクトの複数の所定箇所のそれぞれを中心とする複数のバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する。例えば、学習モデル生成部26は、領収書を含む1以上のオブジェクトが含まれる画像が入力された場合、当該領収書の4隅を中心とする4つのバウンディングボックス、4つのバウンディングボックスにより認識される当該領収書の画像、及び/又は4隅の座標を抽出対象にした学習モデルを生成する。学習モデル生成部26は、領収書を含む1以上のオブジェクトが含まれる画像が入力された場合、当該領収書の一部の隅を中心とする1以上のバウンディングボックス、1以上のバウンディングボックスにより認識される当該領収書の画像、及び/又は1以上の隅の座標を抽出対象にした学習モデルを生成してもよい。
学習モデル生成部26は、所定のオブジェクトが含まれる画像をデータ拡張し、人工的に学習データを増加させて学習することで学習モデルを生成してよい。例えば、学習モデル生成部26は、所定のオブジェクトが含まれる画像として、所定のオブジェクトが含まれるオブジェクト画像だけではなく、当該オブジェクト画像を変形させた変形画像(変形画像は、例えば、所定のオブジェクトの一部を欠けさせた画像、オブジェクト画像を所定角度回転させた画像、オブジェクト画像に歪みを加えた画像等である)、当該オブジェクト画像に所定のノイズを加えたノイズ画像、複数の所定のオブジェクトを含むオブジェクト画像等を用いることができる。また、学習モデル生成部26は、一の所定のオブジェクトを正面から撮像した状態の画像を用いるだけでなく、当該一の所定のオブジェクトを様々な角度から撮像した状態の画像を用いることや、正面から撮像した状態の画像を、様々な角度から撮像した状態の画像に変形して用いることもできる。なお、複数の所定のオブジェクトを含むオブジェクト画像としては、一の所定のオブジェクトに他の所定のオブジェクトが重なった画像や、一部の所定のオブジェクトが撮像領域外にはみ出すことで撮像領域内には当該所定のオブジェクトの一部分のみが含まれる画像等を用いることができる。ここで、複数の所定のオブジェクトがオブジェクト画像に含まれる場合、いずれか一つの所定のオブジェクトを認識すべき所定のオブジェクトとして学習させることもできる(例えば、オブジェクト画像に複数の所定のオブジェクトが含まれている場合、最も左若しくは右に位置する所定のオブジェクトを当該オブジェクト画像に含まれる所定のオブジェクトとして認識するよう学習させることができる。)。
また、学習モデル生成部26は、様々な背景画像を所定のオブジェクトの画像に重畳させ、学習モデルを生成することもできる。背景画像としては、様々な色、明度、輝度、コントラスト、及び/又は光の反射の有無等が異なる多種多様な背景画像を用いることができる。すなわち、領収書が置かれる環境は様々な状況が想定される。例えば、机に領収書が置かれる場合、机の色が白色である場合や茶色である場合、また、室内環境によっては蛍光灯の光を机が反射する場合、様々な色や表面形状のカーペットに置かれる場合等、様々な状況が想定される。そこで、学習モデル生成部26は、様々な背景画像を所定のオブジェクトの画像に重畳させて学習モデルを生成する。
そして、学習モデル生成部26は、所定のオブジェクトの所定箇所を中心とするバウンディングボックスを基に当該所定のオブジェクトの当該画像に占める領域を出力させる学習モデルを生成する場合において、1以上の所定箇所を中心とするバウンディングボックスそれぞれをラベリングする。
図3は、本実施形態に係る学習モデル生成部が生成する学習モデルにおける所定のオブジェクトのラベリング方法の概要を示す。
本実施形態に係る学習モデル生成部26は、画像に含まれるオブジェクトの所定箇所の座標を取得し、取得した座標を中心座標とする矩形領域(つまり、バウンディングボックスであり、形状は例えば、正方形)を形成し、形成した1以上の矩形領域を、当該オブジェクトを識別する学習データとして用いる。この学習モデルを用いることで座標取得部16は、所定のオブジェクトが占める領域の正しい隅(コーナー)の座標を取得する場合に、各矩形領域(バウンディングボックス)の中心を計算するだけでよいので、隅の位置計算を容易にすることができる。
すなわち、学習モデル生成部26は、画像130に所定のオブジェクト(例えば、領収書のオブジェクト84)が含まれている場合、所定のオブジェクト84の隅の座標を中心とする1以上の矩形領域であって、当該中心から所定のオブジェクト84が含まれる画像130の外縁までの長さが最短距離になる直線を垂線とする辺が画像130の外縁に接するサイズの矩形領域を形成する。例えば、学習モデル生成部26は、図3に示すように、画像130に所定のオブジェクト84が含まれている場合、オブジェクト84の4つの隅それぞれの座標(つまり、座標160、座標162、座標164、及び座標166)を中心とする矩形領域(つまり、矩形領域170、矩形領域172、矩形領域174、及び矩形領域176)を形成する。この場合において、各矩形領域のサイズは、各矩形領域の中心の座標から画像130の外縁までの距離によって規定される。例えば、矩形領域170は、オブジェクト84の隅の座標160を中心とし、当該中心から画像130の外縁までの距離が最短距離になる直線を垂線とする辺170aが画像130の外縁に接するサイズの正方形である。他の矩形領域も同様にして形成される。そして、学習モデル生成部26は、抽出対象である所定のオブジェクトの大量の画像や、抽出対象である所定のオブジェクトの画像を背景画像に重畳した大量の画像を教師データとして用い、上記のように形成された矩形領域及び矩形領域の中心の座標に基づいて、画像中の所定のオブジェクトを識別し、所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域、各矩形領域の中心座標、及び/又は当該所定のオブジェクトの画像を出力するための学習モデルを生成する。
なお、学習モデル生成部26が、各矩形領域の幅を画像130の外縁に接する距離に規定した理由は、本発明者が様々検討したところ、オブジェクト84の隅の座標を中心とする1以上の矩形領域であって、当該中心からオブジェクト84が含まれる画像130の外縁までの長さが最短距離になる直線を垂線とする辺が画像130の外縁に接するサイズの矩形領域を形成すること(つまり、各矩形領域のサイズを、矩形の形状を正方形に保ちながら画像130の範囲内で最大化すること)で、画像に含まれる1以上のオブジェクトが所定のオブジェクトであるか否かを判断する精度が高くなる知見を得た結果である。
つまり、所定のオブジェクトの全体を含む矩形領域を用いて所定のオブジェクトを識別する従来技術とは異なり、本実施形態に係る学習モデルは、所定のオブジェクトを識別し、当該オブジェクトの画像を出力するために、複数(例えば、4つ)のバウンディングボックスの組と所定のオブジェクトのカテゴリー(例えば、領収書)とを対応付けることができる。そして、画像処理システム1においては、画像(例えば、動画構成画像、リサイズ画像、及び/又はリサイズ画像領域)が入力された場合に当該学習モデルを用いて4つのバウンディングボックスに基づいた推論処理を実行し、当該画像に含まれるオブジェクトが所定のオブジェクトであるか否かを識別することや、当該オブジェクトの所定箇所の座標や当該オブジェクトの画像領域を出力することができる。
なお、バウンディングボックスの検出・形成方法に限定はない。例えば、YOLO、Fast R-CNN、Single Shot Multi Detection(SSD)等を利用できる。
そして、座標取得部16は、学習モデル生成部26が生成した学習モデルに基づいてリサイズ画像に含まれるオブジェクトが所定のオブジェクトであるか否かを判断し、所定のオブジェクトである場合、当該所定のオブジェクトの所定箇所の座標を取得する。また、座標取得部16は、当該学習モデルに基づいてリサイズ画像領域に含まれる所定のオブジェクトの所定箇所の座標を取得する。そして、座標取得部16は、取得した座標に関する情報を画像領域抽出部18に供給する。
(読取部32)
読取部32は、方向調整部22から受け取った方向が調整されたオブジェクト画像領域に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部32は、例えば、Optical Character Recognition/Reader(OCR)等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部32が読み取る情報は、日付、金額、電話番号等の情報である。読取部32は、読み取った情報を情報格納部24に格納させることができる。情報格納部24は、例えば、ユーザIDに対応付けて、情報の読み取りに用いたオブジェクト画像領域の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。
読取部32は、方向調整部22から受け取った方向が調整されたオブジェクト画像領域に含まれるオブジェクト表面に記載された各種の情報を読み取る。読取部32は、例えば、Optical Character Recognition/Reader(OCR)等を利用し、オブジェクト表面に記載された各種の情報を読み取る。一例として、オブジェクトが領収書である場合、読取部32が読み取る情報は、日付、金額、電話番号等の情報である。読取部32は、読み取った情報を情報格納部24に格納させることができる。情報格納部24は、例えば、ユーザIDに対応付けて、情報の読み取りに用いたオブジェクト画像領域の撮像年月日、撮像時刻に関する情報と共に、読み取った情報を格納する。
(入力部28)
入力部28は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部28は、例えば、情報端末2のタッチパネル、キーボード、マウス、マイク、ジェスチャーセンサ等である。入力部28は、画像処理システム1の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。
入力部28は、ユーザからの各種情報や所定の指示の入力を受け付ける。入力部28は、例えば、情報端末2のタッチパネル、キーボード、マウス、マイク、ジェスチャーセンサ等である。入力部28は、画像処理システム1の所定の構成要素に当該所定の指示を供給する。当該所定の指示を受け付けた各構成要素はそれぞれ所定の機能を発揮する。
(出力部30)
出力部30は、画像処理システム1において実行された各種の処理結果を出力する。出力部30は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部30は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び/又は振動や光等の物理現象等として出力する。例えば、出力部30は、情報端末2の表示部、スピーカー等である。
出力部30は、画像処理システム1において実行された各種の処理結果を出力する。出力部30は、各種の処理結果や格納している情報をユーザが知覚可能に出力する。具体的に出力部30は、各種処理結果や格納している情報を、静止画像、動画像、音声、テキスト、及び/又は振動や光等の物理現象等として出力する。例えば、出力部30は、情報端末2の表示部、スピーカー等である。
[画像処理システム1の処理の流れ]
図4は本実施形態に係る画像処理システムの処理の第1の工程の概要を示し、図5はマージン領域を設ける理由の概要を示し、図6は本実施形態に係る画像処理システムの処理の第2の工程の概要を示す。また、図7は、本実施形態に係る画像処理システムの処理全体の流れの概要を示す。
図4は本実施形態に係る画像処理システムの処理の第1の工程の概要を示し、図5はマージン領域を設ける理由の概要を示し、図6は本実施形態に係る画像処理システムの処理の第2の工程の概要を示す。また、図7は、本実施形態に係る画像処理システムの処理全体の流れの概要を示す。
まず、図7に示すように、学習モデル生成部26は、所定のオブジェクト(例えば、領収書)の特徴量(例えば、オブジェクトの隅の座標に基づく4つのバウンディングボックスの組、若しくはオブジェクトの一部の隅の座標に基づく1以上(好ましくは2つ以上)のバウンディングボックスの組)と所定のオブジェクトのカテゴリー(例えば、領収書)との組み合わせを含む教師データを取得若しくは生成し、取得若しくは生成した教師データに基づき、リサイズ画像又はリサイズ画像領域を入力、リサイズ画像又はリサイズ画像領域に含まれる所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域及び/又は当該所定のオブジェクトの画像を出力とする学習モデルを生成する(ステップ10。以下、ステップを「S」と表す。)。
そして、例えば、情報端末2の動画撮像部10としてのカメラが、複数のオブジェクト(所定のオブジェクト、及び/又は所定のオブジェクトとは異なる他のオブジェクト)の動画110を撮像する(S12)。一例として、図4(a)に示すように、動画撮像部10は、オブジェクト86(例えば、領収書)の動画110を撮像する。図4(a)の例では、動画110が複数の動画構成画像(例えば、動画構成画像120a、動画構成画像120b、及び動画構成画像120c等)から構成されていることを示している。なお、この場合において動画撮像部10が撮像する動画は、複数のオブジェクトが平面上に配列された状態の動画であっても、複数のオブジェクトが1枚1枚めくられる状態の動画であってもよい。また複数のオブジェクトが平面上に配列された状態において、各オブジェクトの方向は揃っていなくてもよく、一のオブジェクトの一部に他のオブジェクトが重なっていてもよい。更に、動画撮像部10は、撮像領域を横方向や縦方向に移動してもよい。また、動画構成画像のサイズに限定はない。
次に、構成画像抽出部12は、動画撮像部10が撮像した動画を変換し、複数の動画構成画像を抽出する(S14)。そして、リサイズ処理部14は、抽出された複数の動画構成画像にリサイズ処理を施し、リサイズ画像を生成する(S16)。例えば、図4(b)に示すように、リサイズ処理部14は、動画構成画像120aをリサイズしたリサイズ画像140a、動画構成画像120bをリサイズしたリサイズ画像140b、及び動画構成画像120cをリサイズしたリサイズ画像140cを生成する。
続いて、座標取得部16は、学習モデル生成部26が予め生成した学習モデル260を用い、リサイズ画像に所定のオブジェクト(例えば、領収書)が含まれているか否か判断し、所定のオブジェクトが含まれている場合には、リサイズ画像における当該所定のオブジェクトの1以上の隅(典型的には、4隅)の座標を取得する(S18)。ここで、座標取得部16は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する(S20)。例えば、所定のオブジェクトが矩形状の領収書である場合、座標取得部16は、一の所定のオブジェクトの4つの隅の座標(つまり、4つの座標)若しくは一部の隅(典型的には2つ以上の隅)の座標を取得できるか否かを判断する。座標取得部16が所定数の座標を取得できないと判断した場合(S20のNo)、構成画像抽出部12は、動画110から他の動画構成画像を抽出する(S14)。一方、座標取得部16が所定数の座標を取得できると判断した場合(S20のYes)、座標取得部16は、所定数の座標を取得する。ここで、座標取得部16は、リサイズ画像における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。
例えば、図4(c)に示すように、リサイズ画像140a及びリサイズ画像140bには所定のオブジェクトの一部分のみが含まれており、当該オブジェクトの4隅の一部がリサイズ画像140a及びリサイズ画像140bには含まれていない。したがって、座標取得部16は、リサイズ画像140a及びリサイズ画像140bから所定のオブジェクトの所定箇所の座標を取得できないと判断する。一方、リサイズ画像140cには所定のオブジェクト86の全体が含まれている。したがって、座標取得部16は、リサイズ画像140cからオブジェクト86の所定箇所(つまり、4隅)の座標(つまり、座標160a、座標162a、座標164a、及び座標166a)を取得できると判断し、これらの座標を取得する。
そして、図4(d)に示すように、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120c(つまり、リサイズ画像140cがリサイズされる前の動画構成画像)に射影し(S22)、動画構成画像120cのオブジェクト86の領域を特定する。更に、画像領域抽出部18は、図4(e)に示すように、オブジェクト86を含む画像領域144を取得する(S24)。ここで、画像領域抽出部18は、オブジェクト86の周囲に所定のマージン領域180を含めた領域を画像領域144として取得する。図5を参照しながらこの理由を説明する。
まず、図5(a)に示すように、動画構成画像120にオブジェクト88が含まれているとする。この動画構成画像120をリサイズ処理部14がリサイズすることで、図5(b)に示すように、リサイズ画像142が生成される。そして、座標取得部16は、学習モデルを用い、リサイズ画像142からオブジェクト88の4隅の座標(つまり、座標160b、座標162b、座標164b、及び座標166b)を取得する。続いて、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120に射影して画像領域を取得する。
この場合において、リサイズ画像142から取得した座標をリサイズ前の画像サイズが大きな動画構成画像120に射影するので、各座標の位置が実際の位置からずれる可能性がある。一例として、動画構成画像120の縦横画素数が3840px×2160pxであり、これをリサイズしたリサイズ画像142の縦横画素数が300px×300pxであるとする。この場合、リサイズ画像142のサイズと動画構成画像120のサイズとには、リサイズ画像142を基準とすると横方向で7.2倍、及び縦方向で12.8倍の違いがある。そのため、リサイズ画像142から取得した座標を動画構成画像120に射影すると、座標の位置は実際の座標の位置からずれる可能性がある。例えば、リサイズ画像142の座標160bを動画構成画像120に射影した場合の座標160cは、図5(c)に黒丸で示したように、所定のピクセル単位でずれが生じ得る。他の座標(座標162c、座標164c、及び座標166c)についても同様である。その結果、座標取得部16が取得した座標を画像領域抽出部18が動画構成画像120に射影して規定する矩形の画像領域が、図5(c)に示すように画像領域144a(図5(c)の点線で規定した領域)として規定されることや、画像領域144b(図5(c)の一点鎖線で規定した領域)として規定され、実際のオブジェクト88の画像領域からずれる場合が生じ得る。したがって、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像に射影し、動画構成画像のオブジェクトの領域を特定する場合に、当該オブジェクトの周囲に所定のマージン領域を含めた領域を画像領域として取得する(つまり、粗く、画像領域を抽出する。)。なお、マージン領域のサイズは、例えば、リサイズ処理部14によるリサイズの縮小倍率や、動画構成画像のサイズとリサイズ画像のサイズとの比等に応じて決定してよい。
続いて、画像領域抽出部18が所定回数(例えば、2回)、画像領域を取得していない場合(S26のNo)、リサイズ処理部14は、画像領域抽出部18が抽出した画像領域144をリサイズしてリサイズ画像領域を生成する(S16)。つまり、第1の工程で得られた画像領域144を用い、リサイズ画像領域が生成される。例えば、図6(a)に示すオブジェクト86の周囲にマージン領域180を含む画像領域144をリサイズ処理部14はリサイズし、図6(b)に示すリサイズ画像領域146を生成する。リサイズ画像領域のサイズに限定はないが、例えば、縦横画素数が300px×300pxのサイズであってよい。
続いて、座標取得部16は、学習モデル260を用い、リサイズ画像領域に含まれる所定のオブジェクトの1以上の隅(典型的には、4隅)の座標を取得する(S18)。ここで、座標取得部16は、所定のオブジェクトの座標を取得する場合に、所定数の座標を取得できるか否かを判断する(S20)。ただし、既に一度S20を経ているので、座標取得部16は、所定数の座標を取得できるか否かの判断を省略し、所定数の座標を取得してよい。
例えば、図6(c)に示すように、座標取得部16は、学習モデル260を用い、オブジェクト86の4隅を中心とする4つの矩形領域であって、各中心からリサイズ画像領域146の外縁までの長さが最短距離になる直線を垂線とする辺がリサイズ画像領域146の外縁に接するサイズの4つ矩形領域を形成した場合における4つの中心の座標(つまり、座標160d、座標162d、座標164d、及び座標166d)を取得する。なお、座標取得部16は、リサイズ画像領域146における当該所定のオブジェクトの一部の隅の座標を取得した場合、学習モデルを用いて残りの隅の座標を推定して取得する。
そして、図6(d)に示すように、画像領域抽出部18は、座標取得部16が取得した座標を動画構成画像120c(つまり、リサイズ画像領域146のリサイズ元の画像領域144を含む動画構成画像120c)に射影し(S22)、動画構成画像120cのオブジェクト86の画像領域を取得する(S24)。なお、既に第1の工程で粗く抽出した画像領域を用いて座標取得部16がオブジェクト86の4隅の座標を再び取得しているので、元の動画構成画像120cに座標を射影しても、元の動画構成画像120cに含まれるオブジェクト86の実際の4隅の座標からのずれを少なくすることができる。
そして、画像領域抽出部18が所定回数(例えば、2回)、画像領域を取得したので(S26のYes)、画像処理部20は取得された画像領域に所定の画像処理を施す(S28)。これにより、画像領域抽出部18は、オブジェクト画像領域148を抽出する(S30)。画像領域抽出部18は、抽出したオブジェクト画像領域148を、例えば、情報格納部24に格納する。
[画像処理プログラム]
図1~図7に示した本実施形態に係る画像処理システム1が備える各構成要素は、中央演算処理装置(Central Processing Unit:CPU)等の演算処理装置にプログラム(すなわち、画像処理プログラム)を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路(Integrated Circuit:IC)等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。
図1~図7に示した本実施形態に係る画像処理システム1が備える各構成要素は、中央演算処理装置(Central Processing Unit:CPU)等の演算処理装置にプログラム(すなわち、画像処理プログラム)を実行させること、つまり、ソフトウェアによる処理により実現できる。また、集積回路(Integrated Circuit:IC)等の電子部品としてのハードウェアにプログラムを予め書き込むことで実現することもできる。なお、ソフトウェアとハードウェアとを併用することもできる。
本実施形態に係る画像処理プログラムは、例えば、ICやROM等に予め組み込むことができる。また、画像処理プログラムは、インストール可能な形式、又は実行可能な形式のファイルで、磁気記録媒体、光学記録媒体、半導体記録媒体等のコンピュータで読み取り可能な記録媒体に記録し、コンピュータプログラムとして提供することもできる。プログラムを格納している記録媒体は、CD-ROMやDVD等の非一過性の記録媒体であってよい。更に、画像処理プログラムを、インターネット等の通信ネットワークに接続されたコンピュータに予め格納させ、通信ネットワークを介してダウンロードによる提供ができるようにすることもできる。
本実施形態に係る画像処理プログラムは、CPU等に働きかけて、画像処理プログラムを、図1~図7にかけて説明した動画撮像部10、構成画像抽出部12、リサイズ処理部14、座標取得部16、画像領域抽出部18、画像処理部20、方向調整部22、情報格納部24、学習モデル生成部26、入力部28、出力部30、及び読取部32として機能させる。
(実施の形態の効果)
本実施の形態に係る画像処理システム1は、抽出対象である所定のオブジェクトの所定箇所の座標を中心とする1以上の矩形領域を当該所定のオブジェクトにラベル付けしたデータセットを用いて学習して構築された学習モデルを用いる。そして、画像処理システム1は、動画から動画構成画像を抽出し、抽出した動画構成画像からリサイズ画像を生成し、学習モデルを用いてリサイズ画像から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第1の工程と、この画像領域をリサイズしてリサイズ画像領域を生成し、学習モデルを用いてリサイズ画像領域から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第2の工程とにより抽出対象であるオブジェクト画像領域を抽出する。これにより、画像処理システム1によれば、例えば、机の上等に整頓されずに配置された複数のオブジェクトの動画を撮像するだけで、高精度、高速、かつ、適切に抽出対象であるオブジェクト(例えば、領収書)の画像を抽出し、オブジェクトに記載されている各種の情報の取得用データや画像処理用のデータとして情報格納部24に格納することができる。
本実施の形態に係る画像処理システム1は、抽出対象である所定のオブジェクトの所定箇所の座標を中心とする1以上の矩形領域を当該所定のオブジェクトにラベル付けしたデータセットを用いて学習して構築された学習モデルを用いる。そして、画像処理システム1は、動画から動画構成画像を抽出し、抽出した動画構成画像からリサイズ画像を生成し、学習モデルを用いてリサイズ画像から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトが含まれる画像領域を抽出する第1の工程と、この画像領域をリサイズしてリサイズ画像領域を生成し、学習モデルを用いてリサイズ画像領域から抽出対象の所定のオブジェクトの所定箇所の座標を取得し、取得した座標を当該動画構成画像に射影して抽出対象のオブジェクトのオブジェクト画像領域を抽出する第2の工程とにより抽出対象であるオブジェクト画像領域を抽出する。これにより、画像処理システム1によれば、例えば、机の上等に整頓されずに配置された複数のオブジェクトの動画を撮像するだけで、高精度、高速、かつ、適切に抽出対象であるオブジェクト(例えば、領収書)の画像を抽出し、オブジェクトに記載されている各種の情報の取得用データや画像処理用のデータとして情報格納部24に格納することができる。
また、例えば、抽出対象であるオブジェクトが領収書である場合を例に挙げる。この場合、従来技術で抽出対象にしている名刺と領収書とは、例えば、皺が領収書の方が発生しやすく、折れ曲がりも多い特徴があり、また、領収書の方が名刺より薄く、机の上等に置いた場合にエッジを認識し難い。例えば、背景と領収書との色の関係で領収書のエッジが検出し難い場合(一例として、領収書の色が白色で、背景である机の色が白色の場合)、従来技術ではエッジを適切に検出できず、動画からオブジェクトの領域を抽出できない。更に、領収書は名刺とは異なり、縦横比のバリエーションが様々存在する。この場合において、従来技術のようにエッジ検出を前提とした技術では、領収書が波打ったり、折れ曲がっている場合(例えば、図1(b)に示すオブジェクト82)、本来1枚の領収書であるところ、折れ目を境に複数の個別の領域として検出してしまう。また、例えば、名刺は縦横比が略一定であることからバウンディングボックスを用いて動画構成画像中の名刺の領域を推定することが容易であるものの、領収書は縦横比に様々なバリエーションがあることから、エッジ検出を前提とする従来技術において、バウンディングボックスを用いた領収書の領域推定は困難である。
一方、本実施形態に係る画像処理システム1は、エッジ検出を要さず、オブジェクトの所定箇所の座標及び当該座標を中心とするバウンディングボックスに基づいてオブジェクトが領収書であるか否かを認識できるので、波打ったり、折れ曲がった状態の領収書や縦横比が一定でない複数の領収書を動画で撮像した場合であっても、1枚1枚の領収書として適切に認識し、検出できる。
また、本実施形態に係る学習モデル260は、様々な縦横比の領収書の画像を学習させていることから、画像処理システム1によれば、縦横比が一定ではない複数の領収書のそれぞれを領収書として適切に認識できる。更に、学習モデル260は、様々な様式の領収書の4隅の座標及び4隅を含むバウンディングボックスを学習させていることから、画像処理システム1によれば、例えば、1枚の領収書に情報が表示されている複数の領域が印字され、かつ、一の領域と他の領域との間に大きな空白がある場合であっても1枚の領収書として適切に認識できる。そして、学習モデル260は、領収書の画像だけでなく様々な背景画像に領収書の画像を重畳させて学習させていることから、画像処理システム1によれば、背景と領収書とのコントラスト差が小さい場合であっても、領収書の画像を適切に抽出できる。
具体的に、本実施形態に係る画像処理システム1において、抽出対象である所定のオブジェクトを領収書にした学習モデル260を準備した上で、動画撮像部10に領収書、名刺、及びスマートフォンを含む領域を撮像させてテストした。その結果、本実施形態に係る画像処理システム1は、領収書のオブジェクト画像領域を動画構成画像から適切にリアルタイムで抽出した。一方、画像処理システム1は、名刺、及びスマートフォンについては、領収書とは認識しなかった。
以上、本発明の実施の形態を説明したが、上記に記載した実施の形態は特許請求の範囲に係る発明を限定するものではない。また、実施の形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。更に、上記した実施形態の技術的要素は、単独で適用されてもよく、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されるようにすることもできる。
なお、本実施形態に係る画像処理システムは、特許請求の範囲と混同されるべきでない以下の付記項でも言及できる。
(付記項1)
オブジェクトを動画で撮像する動画撮像部と、
前記動画の動画構成画像を抽出する構成画像抽出部と、
前記動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
前記リサイズ画像から、前記オブジェクトの所定箇所の座標を取得する座標取得部と、
前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記所定箇所の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する画像処理システム。
(付記項2)
オブジェクトを撮像した動画の動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。
(付記項1)
オブジェクトを動画で撮像する動画撮像部と、
前記動画の動画構成画像を抽出する構成画像抽出部と、
前記動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
前記リサイズ画像から、前記オブジェクトの所定箇所の座標を取得する座標取得部と、
前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記所定箇所の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する画像処理システム。
(付記項2)
オブジェクトを撮像した動画の動画構成画像をリサイズしてリサイズ画像を生成するリサイズ処理部と、
前記リサイズ画像から、前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記リサイズ処理部が、前記画像領域をリサイズしてリサイズ画像領域を生成し、
前記座標取得部が、前記リサイズ画像領域から、前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。
1 画像処理システム
2 情報端末
3 サーバ
4 通信網
10 動画撮像部
12 構成画像抽出部
14 リサイズ処理部
16 座標取得部
18 画像領域抽出部
20 画像処理部
22 方向調整部
24 情報格納部
26 学習モデル生成部
28 入力部
30 出力部
32 読取部
80、82、84、86、88 オブジェクト
90 机
100 リサイズ画像
110 動画
120、120a、120b、120c 動画構成画像
130 画像
140a、140b、140c リサイズ画像
142 リサイズ画像
144、144a、144b 画像領域
146 リサイズ画像領域
148 オブジェクト画像領域
150、152、154、156 隅
150a、152a、154a、156a 座標
160、162、164、166 座標
160a、162a、164a、166a 座標
160b、162b、164b、166b 座標
160c、162c、164c、166c 座標
160d、162d、164d、166d 座標
170、172、174、176 矩形領域
170a 辺
180 マージン領域
260 学習モデル
2 情報端末
3 サーバ
4 通信網
10 動画撮像部
12 構成画像抽出部
14 リサイズ処理部
16 座標取得部
18 画像領域抽出部
20 画像処理部
22 方向調整部
24 情報格納部
26 学習モデル生成部
28 入力部
30 出力部
32 読取部
80、82、84、86、88 オブジェクト
90 机
100 リサイズ画像
110 動画
120、120a、120b、120c 動画構成画像
130 画像
140a、140b、140c リサイズ画像
142 リサイズ画像
144、144a、144b 画像領域
146 リサイズ画像領域
148 オブジェクト画像領域
150、152、154、156 隅
150a、152a、154a、156a 座標
160、162、164、166 座標
160a、162a、164a、166a 座標
160b、162b、164b、166b 座標
160c、162c、164c、166c 座標
160d、162d、164d、166d 座標
170、172、174、176 矩形領域
170a 辺
180 マージン領域
260 学習モデル
Claims (9)
- オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記座標取得部が、前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。 - 前記画像領域抽出部が、所定のマージン領域を付加した前記画像領域を前記動画構成画像から抽出する請求項1に記載の画像処理システム。
- 前記座標取得部が、前記所定のオブジェクトの前記隅の座標を、予め準備した学習モデルを用いて取得する請求項1又は2に記載の画像処理システム。
- 前記オブジェクト画像領域に所定の画像処理を施す画像処理部
を更に備える請求項1~3のいずれか1項に記載の画像処理システム。 - オブジェクトを撮像した動画の動画構成画像に基づいて取得される前記オブジェクトの所定箇所の座標に基づいて、前記オブジェクトが含まれる画像領域を前記動画構成画像から抽出する画像領域抽出部を備え、
前記画像領域抽出部が、前記画像領域に基づいて取得される前記オブジェクトの前記所定箇所の座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記所定箇所の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記動画構成画像の外縁若しくは前記動画構成画像に基づいて生成される生成画像の外縁までの長さが最短距離になる直線を垂線とする辺が、前記動画構成画像の外縁若しくは前記生成画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理システム。 - 画像処理システム用の画像処理方法であって、
オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得工程と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出工程と、
前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得する工程と、
前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する工程と
を備え、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理方法。 - 画像処理システム用の画像処理プログラムであって、
コンピュータに、
オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得機能と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出機能と、
前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得する機能と、
前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出する機能と
を実現させ、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理プログラム。 - オブジェクトを撮像した動画の動画構成画像をリサイズして生成されるリサイズ画像から前記オブジェクトの隅の座標を取得する座標取得部と、
前記リサイズ画像から取得された前記座標を前記動画構成画像に射影して、前記動画構成画像から前記オブジェクトが含まれる画像領域を抽出する画像領域抽出部と
を備え、
前記座標取得部が、前記画像領域をリサイズして生成されるリサイズ画像領域から前記オブジェクトの前記隅の座標を再取得し、
前記画像領域抽出部が、前記再取得された前記座標を前記動画構成画像に射影して、前記オブジェクトのオブジェクト画像領域を抽出し、
前記隅の座標が、前記オブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記リサイズ画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記リサイズ画像の外縁に接するサイズの前記矩形領域を形成した場合における前記中心の座標である画像処理サーバ。 - 撮像画像が入力されると、前記撮像画像に含まれるオブジェクトが所定のオブジェクトであるか否か識別するために、前記所定のオブジェクトの1以上の隅を中心とする1以上の矩形領域を出力するよう、プロセッサを機能させる学習モデルであって、
前記学習モデルは、前記所定のオブジェクトが含まれる画像、前記所定のオブジェクトが配され得る背景画像、及び前記所定のオブジェクトが含まれる画像と前記背景画像との組み合わせを教師データとして学習され、
前記学習では、前記所定のオブジェクトの隅を中心とする1以上の矩形領域であって、前記中心から前記所定のオブジェクトが含まれる画像の外縁までの長さが最短距離になる直線を垂線とする辺が前記画像の外縁に接するサイズの前記矩形領域を形成し、形成された前記矩形領域及び当該矩形領域の前記中心の座標を用いて前記画像中の前記所定のオブジェクトを識別するための学習モデル。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020128966A JP6815712B1 (ja) | 2020-07-30 | 2020-07-30 | 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル |
JP2020-128966 | 2020-07-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022024835A1 true WO2022024835A1 (ja) | 2022-02-03 |
Family
ID=74164545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/026945 WO2022024835A1 (ja) | 2020-07-30 | 2021-07-19 | 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP6815712B1 (ja) |
WO (1) | WO2022024835A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744714A (ja) * | 1993-08-04 | 1995-02-14 | Mitsubishi Electric Corp | 直方体の認識方法 |
JP2001014427A (ja) * | 1999-04-26 | 2001-01-19 | Oki Electric Ind Co Ltd | 基準マーク検出方法、基準マーク検出装置及び光学式文字読取装置 |
JP2007040968A (ja) * | 2005-07-05 | 2007-02-15 | Juki Corp | 部品位置検出方法及び装置 |
WO2016199605A1 (ja) * | 2015-06-12 | 2016-12-15 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
-
2020
- 2020-07-30 JP JP2020128966A patent/JP6815712B1/ja active Active
- 2020-11-30 JP JP2020197889A patent/JP2022027394A/ja active Pending
-
2021
- 2021-07-19 WO PCT/JP2021/026945 patent/WO2022024835A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0744714A (ja) * | 1993-08-04 | 1995-02-14 | Mitsubishi Electric Corp | 直方体の認識方法 |
JP2001014427A (ja) * | 1999-04-26 | 2001-01-19 | Oki Electric Ind Co Ltd | 基準マーク検出方法、基準マーク検出装置及び光学式文字読取装置 |
JP2007040968A (ja) * | 2005-07-05 | 2007-02-15 | Juki Corp | 部品位置検出方法及び装置 |
WO2016199605A1 (ja) * | 2015-06-12 | 2016-12-15 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2022027394A (ja) | 2022-02-10 |
JP6815712B1 (ja) | 2021-01-20 |
JP2022025843A (ja) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101292925B1 (ko) | 촬상 대상물, 화상 처리 프로그램을 저장한 컴퓨터로 읽을 수 있는 기록 매체 및 화상 처리 방법 | |
JP6089722B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
JP4904426B1 (ja) | 画像処理システムとそれに用いる撮像対象物 | |
RU2631765C1 (ru) | Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот | |
US10452943B2 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
JP6778314B1 (ja) | 画像処理システム、画像処理方法、及び画像処理プログラム | |
US8767099B2 (en) | Image processing system and imaging object used for same | |
WO2022024835A1 (ja) | 画像処理システム、画像処理方法、画像処理プログラム、画像処理サーバ、及び学習モデル | |
JP4145014B2 (ja) | 画像処理装置 | |
JP5651221B2 (ja) | シンボル片、画像処理プログラム、及び画像処理方法 | |
JP2003058877A (ja) | 歪み補正方法、歪み補正装置および歪み補正プログラム | |
JP2014219822A (ja) | コンテンツ表示装置、コンテンツ表示方法、プログラム、及び、コンテンツ表示システム | |
JP2017199288A (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2006319820A (ja) | 画像歪み補正装置 | |
JP5140773B2 (ja) | 画像処理プログラム、携帯端末、及び画像処理方法 | |
JP5101740B2 (ja) | 撮像対象物 | |
JP5140777B2 (ja) | 撮像対象物、画像処理プログラム、及び画像処理方法 | |
JP5602927B2 (ja) | 撮像対象物、画像処理プログラム、及び画像処理方法 | |
JP5140772B2 (ja) | 画像処理プログラム、携帯端末、及び画像処理方法 | |
JP5140767B2 (ja) | 撮像対象物 | |
JP5602926B2 (ja) | 撮像対象物、画像処理プログラム、及び画像処理方法 | |
JP5140774B2 (ja) | 透明シート | |
JP2011028611A (ja) | 文字情報読取装置および文字情報読取方法 | |
JP2012069082A (ja) | 画像処理システムとそれに用いる撮像対象物 | |
JP2012130080A (ja) | 画像処理プログラム、携帯端末、及び画像処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21851119 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21851119 Country of ref document: EP Kind code of ref document: A1 |