WO2019016870A1

WO2019016870A1 - 画像認識装置、画像認識方法及びプログラム

Info

Publication number: WO2019016870A1
Application number: PCT/JP2017/025974
Authority: WO
Inventors: 勉堀川; 大地小野
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2019-01-24
Also published as: US11164318B2; CN110914830A; US20200111215A1; JPWO2019016870A1; CN110914830B; JP6874136B2

Abstract

高い精度で多くの種類の物体を認識できる画像認識装置、画像認識方法及びプログラムを提供する。全体認識部（５８）は、少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する。部分画像抽出部（６０）は、認識される位置に対応付けられる画像の一部である部分画像を画像から抽出する。部分認識部（６４）は、部分画像が表す、位置が認識される所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する。

Description

画像認識装置、画像認識方法及びプログラム

　本発明は、画像認識装置、画像認識方法及びプログラムに関する。

　学習済モデルに認識対象の画像を入力した際の出力に基づいて、当該画像が表す物体や、当該物体が表されている画像内の位置を認識する画像認識技術が知られている。例えばセマンティックセグメンテーションと呼ばれる技術では、入力された画像に含まれる画素単位で、その画素が表す物体などといった、その画素の意味が特定される。

　画像認識によって多くの種類の物体を認識し分けようとすると、物体に対応付けられる特徴量同士の差が小さくなるため誤認識の可能性が高くなる。

　本発明は上記課題に鑑みてなされたものであって、その目的の１つは、高い精度で多くの種類の物体を認識できる画像認識装置、画像認識方法及びプログラムを提供することにある。

　上記課題を解決するために、本発明に係る画像認識装置は、少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する第１認識部と、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する部分画像抽出部と、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する第２認識部と、を含む。

　本発明の一態様では、複数の学習済モデルのうちから、位置が認識される前記所与の物体に対応する学習済モデルを選択するモデル選択部、をさらに含み、前記第２認識部は、選択される前記学習済モデルを用いて前記部分画像が表す物体が何であるかを認識する処理を実行する。

　また、本発明の一態様では、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた規則に基づいて移動又は変形した領域を占める前記部分画像を抽出する。

　この態様では、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた方向に移動させた領域を占める前記部分画像を抽出してもよい。

　あるいは、前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた大きさに拡大又は縮小した領域を占める前記部分画像を抽出してもよい。

　また、本発明に係る画像認識方法は、少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行するステップと、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出するステップと、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行するステップと、を含む。

　また、本発明に係るプログラムは、少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する手順、認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する手順、前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する手順、をコンピュータに実行させる。

本発明の一実施形態に係る画像認識装置の構成図である。撮影画像の一例を示す図である。デプス画像の一例を示す図である。全体認識結果画像の一例を示す図である。部分認識管理データの一例を示す図である。部分撮影画像の一例を示す図である。部分デプス画像の一例を示す図である。部分認識結果画像の一例を示す図である。本発明の一実施形態に係る画像認識装置で実装される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る画像認識装置で行われる処理の流れの一例を示すフロー図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。

　図１は、本発明の一実施形態に係る画像認識装置１０の構成図である。本実施形態に係る画像認識装置１０は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図１に示すように、本実施形態に係る画像認識装置１０は、例えば、プロセッサ１２、記憶部１４、操作部１６、表示部１８を含んでいる。

　プロセッサ１２は、例えば画像認識装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。

　記憶部１４は、ＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部１４には、プロセッサ１２によって実行されるプログラムなどが記憶される。

　操作部１６は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ１２に出力する。

　表示部１８は、液晶ディスプレイ等の表示デバイスであって、プロセッサ１２の指示に従って各種の画像を表示する。

　なお、画像認識装置１０は、ネットワークボードなどの通信インタフェース、ＤＶＤ－ＲＯＭやＢｌｕ－ｒａｙ（登録商標）ディスクなどの光ディスクを読み取る光ディスクドライブ、ＵＳＢ（Universal Serial Bus）ポートなどを含んでいてもよい。

　図２は、画像認識装置１０での画像認識の対象となる撮影画像２０の一例を示す図である。撮影画像２０は、例えばデジタルカメラなどのカメラで実空間内の被写体を撮影した画像である。

　図３は、図２に例示する撮影画像２０に対応付けられるデプス画像２２の一例を示す図である。デプス画像２２は、撮影画像２０に含まれる画素のそれぞれに対応付けられる、カメラから被写体までの距離の分布を表している。

　図２に示す撮影画像２０は、ステレオカメラや赤外線測距センサ付きのカメラなどといった、深さ情報に関連付けられた撮影画像の撮影が可能なカメラが実空間内の被写体を撮影した画像であっても構わない。そしてこの場合における深さ情報に相当する画像が、図３に示すデプス画像２２であっても構わない。

　また例えば、複数の方向から被写体を撮影した撮影画像に基づいて、撮影画像２０を撮影した際のカメラの位置、向き、及び、画角に対応付けられる深さ情報が生成されるようにしてもよい。そしてこの深さ情報に基づいて、図３に示すデプス画像２２が生成されてもよい。

　そして本実施形態では、撮影画像２０及びデプス画像２２に対して、第１の画像認識及び第２の画像認識が実行される。本実施形態では、第１の画像認識は、撮影画像２０の全体及びデプス画像２２の全体に対して実行される。そして第２の画像認識は、撮影画像２０の一部及びデプス画像２２の一部に対して実行される。以下、本実施形態における第１の画像認識を全体認識と呼び、第２の画像認識を部分認識と呼ぶこととする。

　本実施形態では、まず、撮影画像２０及びデプス画像２２が全体認識に用いられる学習済モデルに入力される。この学習済モデルは例えば、画像に表れている、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体を認識できるモデルである。ここで全体認識において撮影画像２０及びデプス画像２２が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク（二次元ＣＮＮ）であってもよい。そしてこの入力に応じて当該学習済モデルから、撮影画像２０及びデプス画像２２に対する画像認識の実行結果が出力される。図４には、当該実行結果の一例である、全体認識結果画像２４の一例が示されている。

　以下の説明では、撮影画像２０、デプス画像２２、及び、全体認識結果画像２４のそれぞれにおいて、右方向がＸ軸正方向で下方向がＹ軸正方向であることとする。また、撮影画像２０、デプス画像２２、及び、全体認識結果画像２４は同じ形状で同じ大きさの画像であることとする。

　図４に示すように、全体認識結果画像２４は、それぞれが認識結果である物体に応じたカテゴリに対応付けられる複数の領域に画素単位で分割されている。全体認識結果画像２４には、例えば、テーブルに対応付けられるテーブル領域２６、ソファーに対応付けられるソファー領域２８、カーテンに対応付けられるカーテン領域３０、及び、椅子に対応付けられる椅子領域３２が示されている。ここで椅子領域３２のように、互いに分離された複数の領域が同じカテゴリの領域として認識されてもよい。そして全体認識結果画像２４内の画素の位置は、撮影画像２０内の画素の位置、及び、デプス画像２２内の画素の位置に対応付けられる。

　そして本実施形態では、特定の物体が表されている全体認識結果画像２４内の、予め定められている特定のカテゴリの物体に対応付けられる領域が、基準領域３４として特定される。以下、当該特定のカテゴリの物体を部分認識ターゲットと呼ぶこととする。

　ここで部分認識ターゲットが、図５に例示する部分認識管理データにおいて設定されていてもよい。図５に示すように、部分認識管理データには、例えば、部分認識ターゲットデータ、移動変形規則データ、及び、部分認識モデルＩＤが含まれる。

　部分認識ターゲットデータは、例えば、部分認識ターゲットの名称等を示すデータである。移動変形規則データは、例えば、基準領域３４に基づいて後述する部分認識領域３６を決定する規則を示すデータである。部分認識モデルＩＤは、例えば、部分認識領域３６を占める部分画像に対する部分認識に用いられる学習済モデルの識別情報である。

　図５には、部分認識ターゲットデータの値がテーブルである部分認識管理データと、部分認識ターゲットデータの値が本棚である部分認識管理データと、が示されている。そのためこの場合は、部分認識ターゲットはテーブル及び本棚であることとなる。そしてこの場合に、図４に示すように、全体認識結果画像２４内における、テーブル領域２６に対応付けられる領域が基準領域３４として特定されるようにしてもよい。

　ここで例えば図４に示すように、テーブル領域２６に外接する矩形領域が基準領域３４として特定されてもよい。またテーブル領域２６に外接する矩形領域に余裕領域を加えた領域が基準領域３４として特定されてもよい。例えばテーブル領域２６に外接する矩形領域と中心が同じであり、当該矩形領域よりも縦横の長さが所定の長さだけ長い領域が基準領域３４として特定されてもよい。また例えば、テーブル領域２６に外接する矩形領域と中心が同じであり、当該矩形領域に対して１倍より大きな所定倍の大きさである領域が基準領域３４として特定されてもよい。

　そして本実施形態では、基準領域３４に基づいて、部分認識の対象となる部分認識領域３６が決定される。ここで例えば、図５に示す移動変形規則データが示す規則のような、部分認識ターゲットに応じた所与の規則に従って基準領域３４を移動又は変形した領域が部分認識領域３６として決定されてもよい。また、部分認識ターゲットに応じた方向に基準領域３４を移動させた領域が部分認識領域３６として決定されてもよい。また、部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域３６として決定されてもよい。

　例えば図５の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データには、移動変形規則データの値として「上に４０％移動　高さ６０％」が設定されている。この場合に例えば図４に示すように、基準領域３４をその高さの４０％だけ上（Ｙ軸負方向）に移動させた上で、中心の位置を変えずに高さを６０％に縮小した領域が部分認識領域３６として決定されてもよい。

　図４に示すように、基準領域３４が、頂点の座標値が（ｘ１，ｙ１）、（ｘ１，ｙ２）、（ｘ２，ｙ１）、及び、（ｘ２，ｙ２）である矩形領域であるとする。そして基準領域３４に基づいて、頂点の座標値が（ｐ１，ｑ１）、（ｐ１，ｑ２）、（ｐ２，ｑ１）、及び、（ｐ２，ｑ２）である矩形領域が部分認識領域３６として決定されることとする。この場合、上述の例では、ｐ１＝ｘ１，ｐ２＝ｘ２，ｑ１＝１．２ｙ１－０．２ｙ２，ｑ２＝０．６ｙ１＋０．４ｙ２との関係にある。

　そして本実施形態では、全体認識結果画像２４内における部分認識領域３６の位置及び大きさに基づいて、撮影画像２０内における部分認識領域３８の位置及び大きさ、及び、デプス画像２２内における部分認識領域４０の位置及び大きさが決定される。

　ここで全体認識結果画像２４内における部分認識領域３６に相当する撮影画像２０内の領域が部分認識領域３８として特定されてもよい。例えば、撮影画像２０内における、頂点の座標値が（ｐ１，ｑ１）、（ｐ１，ｑ２）、（ｐ２，ｑ１）、及び、（ｐ２，ｑ２）である矩形領域が、部分認識領域３８として特定されてもよい。また全体認識結果画像２４内における部分認識領域３６に相当するデプス画像２２内の領域が部分認識領域４０として特定されてもよい。例えば、デプス画像２２内における、頂点の座標値が（ｐ１，ｑ１）、（ｐ１，ｑ２）、（ｐ２，ｑ１）、及び、（ｐ２，ｑ２）である矩形領域が、部分認識領域４０として特定されてもよい。

　そして本実施形態では、部分認識領域３８を占める撮影画像２０の一部である図６に例示する部分撮影画像４２が撮影画像２０から抽出される。また部分認識領域３８を占めるデプス画像２２の一部である図７に例示する部分デプス画像４４がデプス画像２２から抽出される。

　そして本実施形態では、部分撮影画像４２及び部分デプス画像４４に対する部分認識が実行される。本実施形態では、部分認識の実行に用いられる学習済モデルが予め複数用意されている。そして本実施形態では例えば、全体認識において認識された部分認識ターゲットに基づいて、これら複数の学習済モデルのうちから部分撮影画像４２及び部分デプス画像４４に対する部分認識が実行される学習済モデルが選択される。

　ここで例えば図５に示す部分認識管理データに基づいて、部分撮影画像４２及び部分デプス画像４４に対する部分認識が実行される学習済モデルが選択されてもよい。図５の例では、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルＩＤとして１が設定されている。この場合は、識別情報の値が１であるモデルが部分撮影画像４２及び部分デプス画像４４に対する部分認識が実行される学習済モデルが選択される。ここで例えば識別情報の値が１であるモデルは、当該モデルに対応する部分認識ターゲットに関連する物体を認識可能なモデルであってもよい。例えば、識別情報の値が１であるモデルが、画像に表れている、ペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識できるモデルであってもよい。

　ここで部分認識において撮影画像２０及びデプス画像２２が入力される学習済モデルの種類は特に限定されない。当該学習済モデルは、例えばセマンティックセグメンテーションを行うための学習が実行済である二次元畳み込みニューラルネットワーク（二次元ＣＮＮ）であってもよい。そしてこの入力に応じて当該学習済モデルから、部分撮影画像４２及び部分デプス画像４４に対する画像認識の実行結果が出力される。図８には、当該実行結果の一例である、部分認識結果画像４６の一例が示されている。

　部分認識結果画像４６には、テーブルに対応付けられるテーブル領域２６、及び、テーブルに置かれたペットボトルに対応付けられるペットボトル領域４８が示されている。この例では、全体認識では認識できなかったペットボトルが部分認識において認識できている。

　以上の例では、テーブルの上に相当する部分画像が部分撮影画像４２及び部分デプス画像４４として抽出される。そのため、部分認識においてテーブルの上に配置されている物体を的確に認識できることとなる。

　なお以上、全体認識結果画像２４にテーブル領域２６が示されている場合について説明したが、全体認識結果画像２４に本棚に対応付けられる本棚領域が示されていることがある。この場合は例えば、図５に示す部分認識ターゲットデータの値が本棚である部分認識管理データに基づいて、本棚領域に相当する基準領域３４を中心の位置を変えずに高さ及び幅を８５％に縮小した領域が部分認識領域３６として決定されてもよい。そしてこの部分認識領域３６に相当する撮影画像２０内の部分認識領域３８を占める部分撮影画像４２、及び、部分認識領域３６に相当するデプス画像２２内の部分認識領域４０を占める部分デプス画像４４が抽出されてもよい。そして識別情報の値が２であるモデルを用いた部分撮影画像４２及び部分デプス画像４４に対する部分認識が実行されてもよい。ここで識別情報の値が２であるモデルは例えば、画像に表れている、個々の書籍や雑誌、書籍や雑誌の題号などを認識できる学習済モデルであってもよい。

　この場合は、本棚の中に相当する部分画像が部分撮影画像４２及び部分デプス画像４４として抽出される。そのため、部分認識において本棚の中に配置されている物体を的確に認識できることとなる。

　例えばテーブル、ソファー、カーテン、椅子、本棚、ペットボトル、カップ、皿、などといった多くの種類の物体を認識できる学習済モデルを用いて撮影画像２０やデプス画像２２の画像認識を行うことが考えられる。しかしこのように画像認識によって多くの種類の物体を認識し分けようとすると、物体に対応付けられる特徴量同士の差が小さくなるため誤認識の可能性が高くなる。

　そこで本実施形態では、限られた種類の数の物体を認識する全体認識がまずは実行されるようにした。上述の例では、撮影画像２０及びデプス画像２２に対して、テーブル、ソファー、カーテン、椅子、本棚などの物体を認識する全体認識が実行されるようにした。そして全体認識の結果に基づき抽出される部分画像に対して、全体認識の結果に応じた好適なモデルを用いて、全体認識では認識されない物体を含む、全体認識の結果に応じた限られた種類の数の物体を認識する部分認識が実行されるようにした。上述の例では、部分撮影画像４２及び部分デプス画像４４に対して、ペットボトル、カップ、皿、テーブルなどといった、テーブルに関連する限られた種類の数の物体が認識されるようにした。

　以上のようにして本実施形態に係る画像認識装置１０によれば、高い精度で多くの種類の物体を認識できることとなる。

　以下、本実施形態に係る画像認識装置１０の機能、及び、画像認識装置１０で実行される処理についてさらに説明する。

　図９は、本実施形態に係る画像認識装置１０で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像認識装置１０で、図９に示す機能のすべてが実装される必要はなく、また、図９に示す機能以外の機能が実装されていても構わない。

　図９に示すように、画像認識装置１０は、機能的には例えば、部分認識管理データ記憶部５０、全体認識モデル５２、複数の部分認識モデル５４（第１部分認識モデル５４（１）、第２部分認識モデル５４（２）、・・・、第ｎ部分認識モデル５４（ｎ））、画像取得部５６、全体認識部５８、部分画像抽出部６０、モデル選択部６２、部分認識部６４、を含んでいる。以上の要素はプロセッサ１２、及び、記憶部１４を主として実装される。

　以上の機能は、コンピュータである画像認識装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ１２で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像認識装置１０に供給されてもよい。

　部分認識管理データ記憶部５０は、本実施形態では、例えば、図５に例示する部分認識管理データを記憶する。

　全体認識モデル５２は、本実施形態では例えば、全体認識に用いられる学習済モデルである。全体認識モデル５２は、例えば、テーブル、ソファー、カーテン、椅子、本棚、などといった、部屋の中に配置されているような物体が表された画像を入力データとして含み全体認識結果画像２４のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元ＣＮＮであってもよい。

　部分認識モデル５４は、本実施形態では例えば、部分認識に用いられる学習済モデルである。本実施形態に係る部分認識モデル５４は、部分認識管理データに対応付けられる。例えば第１部分認識モデル５４（１）は、部分認識モデルＩＤが１である部分認識管理データに対応付けられ、第２部分認識モデル５４（２）は、部分認識モデルＩＤが２である部分認識管理データに対応付けられる。そして本実施形態では部分認識管理データを介して、部分認識モデル５４と物体とが関連付けられる。例えば第１部分認識モデル５４（１）は、テーブルに関連付けられ、第２部分認識モデル５４（２）は、本棚に関連付けられる。

　そして部分認識モデル５４は、部分認識管理データを介して当該部分認識モデル５４と関連付けられる物体が認識可能な学習済モデルであってもよい。また例えば、部分認識モデル５４のそれぞれは、互いに異なる物体が認識可能な学習済モデルであってもよい。

　例えば第１部分認識モデル５４（１）は、例えばペットボトル、カップ、皿、テーブルなどといった、テーブル及びテーブルの上に配置される物体を認識可能な学習済モデルである。ここで第１部分認識モデル５４（１）は、例えば、テーブルにペットボトル、カップ、皿、テーブルなどの物体が配置されている様子を表す画像を入力データとして含み部分認識結果画像４６のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元ＣＮＮであってもよい。

　また例えば第２部分認識モデル５４（２）は、例えば個々の書籍や雑誌、及びこれらの題号を認識可能な学習済モデルである。ここで第２部分認識モデル５４（２）は、例えば、書籍や雑誌が収納された本棚が表された画像を入力データとして含み部分認識結果画像４６のようなカテゴリによって領域が分割された画像を教師データとして含む学習データによる教師あり学習が実行済の二次元ＣＮＮであってもよい。

　画像取得部５６は、本実施形態では例えば、全体認識の対象となる画像を取得する。例えば画像取得部５６は、撮影画像２０及びデプス画像２２を取得する。

　全体認識部５８は、本実施形態では例えば、少なくとも１の所与の物体について、画像取得部５６が取得する画像内における当該所与の物体の位置を認識する処理を実行する。上記の所与の物体とは、例えば、図５に例示する部分認識管理データにおいて部分認識ターゲットとして設定されている、テーブルや本棚などの物体を指す。ここで全体認識部５８は、全体認識モデル５２を用いて画像取得部５６が取得する画像に対する全体認識の処理を実行してもよい。例えば全体認識部５８は、撮影画像２０及びデプス画像２２を全体認識モデル５２に入力した際の出力である全体認識結果画像２４を、全体認識の結果として生成する。

　部分画像抽出部６０は、本実施形態では例えば、画像取得部５６が取得する画像内における上記の所与の物体の位置に対応付けられる、当該画像の一部である部分画像を当該画像から抽出する。

　ここで例えば、部分画像抽出部６０は、図５に例示する部分認識管理データの部分認識ターゲットデータの値として示されている物体に対応する領域を、全体認識結果画像２４内の基準領域３４として特定してもよい。そして例えば、当該部分認識ターゲットデータに関連付けられている移動変形規則データが示す規則に従って基準領域３４を移動又は変形した領域が部分認識領域３６として決定されてもよい。ここで部分認識ターゲットに応じた方向に基準領域３４を移動させた領域が部分認識領域３６として決定されてもよい。また部分認識ターゲットに応じた大きさに拡大又は縮小した領域が部分認識領域３６として決定されてもよい。

　そして部分画像抽出部６０は、決定される部分認識領域３６に対応する、撮影画像２０内の部分認識領域３８、及び、デプス画像２２内の部分認識領域４０を決定してもよい。

　そして部分画像抽出部６０は、撮影画像２０内の部分認識領域３８が占める部分画像を部分撮影画像４２として撮影画像２０から抽出してもよい。また部分画像抽出部６０は、デプス画像２２内の部分認識領域４０が占める部分画像を部分デプス画像４４としてデプス画像２２から抽出してもよい。

　モデル選択部６２は、本実施形態では例えば、複数の部分認識モデル５４のうちから全体認識により認識された物体に対応付けられるものを選択する。ここで例えば部分認識ターゲットに対応付けられる部分認識モデル５４が選択されてもよい。例えば部分認識ターゲットに関連する物体の画像を学習済である、部分認識ターゲットに関連する物体を認識可能な部分認識モデル５４が選択されてもよい。例えば部分画像抽出部６０が、テーブル領域２６に基づき部分撮影画像４２及び部分デプス画像４４を抽出したとする。この場合にモデル選択部６２が、部分認識ターゲットデータの値がテーブルである部分認識管理データの部分認識モデルＩＤである１に対応付けられる、第１部分認識モデル５４（１）を選択してもよい。

　部分認識部６４は、本実施形態では例えば、部分画像抽出部６０が抽出する部分画像が表す、位置が認識される所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する。部分認識部６４は、例えば選択される部分認識モデル５４を用いて部分画像抽出部６０が抽出した部分画像が表す物体が何であるかを認識する処理を実行してもよい。例えば部分認識部６４は、部分撮影画像４２及び部分デプス画像４４を第１部分認識モデル５４（１）に入力した際の出力である部分認識結果画像４６を、部分認識の結果として生成する。

　ここで、本実施形態に係る画像認識装置１０で行われる処理の流れの一例を、図１０に例示するフロー図を参照しながら説明する。

　まず、画像取得部５６が撮影画像２０及びデプス画像２２を取得する（Ｓ１０１）。

　そして全体認識部５８が、全体認識モデル５２を用いて撮影画像２０及びデプス画像２２に対する全体認識の処理を実行する（Ｓ１０２）。ここで例えば図４に示す全体認識結果画像２４が生成されてもよい。

　そして部分画像抽出部６０が、図５に示すいずれかの部分認識管理データにおける部分認識ターゲットデータの値として設定されている物体に対応付けられる、全体認識結果画像２４内の領域を基準領域３４として特定する（Ｓ１０３）。ここで例えばテーブル領域２６に対応する基準領域３４が特定されてもよい。

　そして部分画像抽出部６０が、全体認識結果画像２４内の部分認識領域３６を決定する（Ｓ１０４）。ここで例えば図５に示す部分認識管理データにおいて部分認識ターゲットデータの値に関連付けられている移動変形規則データの値が示す規則に従って、基準領域３４を移動又は変形した領域が部分認識領域３６として決定されてもよい。

　そして部分画像抽出部６０が、Ｓ１０４に示す処理で決定された部分認識領域３６に対応付けられる、撮影画像２０内の部分認識領域３８及びデプス画像２２内の部分認識領域４０を特定する（Ｓ１０５）。

　そして部分画像抽出部６０が、部分画像を抽出する（Ｓ１０６）。ここで例えば、撮影画像２０内の部分認識領域３８を占める部分画像が部分撮影画像４２として抽出され、デプス画像２２内の部分認識領域４０を占める部分画像が部分デプス画像４４として抽出されてもよい。

　そしてモデル選択部６２が、部分認識に用いられる部分認識モデル５４を選択する（Ｓ１０７）。ここで例えば、部分認識管理データにおいて、Ｓ１０３に示す処理で特定された基準領域３４に表される部分認識ターゲットに対応する部分認識モデルＩＤにより識別される部分認識モデル５４（例えば第１部分認識モデル５４（１））が選択されてもよい。

　そして部分認識部６４が、Ｓ１０７に示す処理で選択された部分認識モデル５４を用いて、Ｓ１０６に示す処理で抽出された部分画像に対する部分認識の処理を実行して（Ｓ１０８）、本処理例に示す処理を終了する。Ｓ１０８に示す処理では例えば図８に示す部分認識結果画像４６が生成されてもよい。

　なお以上の例では、撮影画像２０及びデプス画像２２に対して全体認識が実行されたが、撮影画像２０のみに対して全体認識が実行されてもよい。また以上の例では、部分撮影画像４２及び部分デプス画像４４に対して部分認識が実行されたが、部分撮影画像４２のみに対して部分認識が実行されてもよい。

　また例えば、全体認識の対象となる画像から、それぞれ異なる部分認識ターゲットに対応付けられる複数の部分画像が抽出されてもよい。例えばテーブルに対応付けられる部分画像と本棚に対応付けられる部分画像とが抽出されてもよい。そしてこの場合に、それぞれの部分画像に対して、異なる部分認識モデル５４を用いた部分認識が実行されてもよい。例えば、テーブルに対応付けられる部分画像に対して第１部分認識モデル５４（１）を用いた部分認識が実行され、本棚に対応付けられる部分画像に対して第２部分認識モデル５４（２）を用いた部分認識が実行されてもよい。

　また例えば、部分認識モデル５４が、全体認識モデル５２により認識される物体のサブカテゴリの物体を認識可能な学習済モデルであってもよい。

　例えば全体認識部５８が、全体認識の対象となる画像内における、四本足の動物が表されている位置を認識したとする。そして部分画像抽出部６０が、動物に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に、部分認識部６４が、当該部分画像を、例えば、犬、猫、虎などといった四本足の動物のサブカテゴリの物体の画像を学習済である部分認識モデル５４に入力してもよい。そして部分認識部６４が当該部分画像を当該部分認識モデル５４に入力した際の出力に基づいて、当該部分画像に表されている四本足の動物の種類を推定してもよい。

　同様に例えば、部分画像抽出部６０が、木に対応付けられる部分認識領域を占める部分画像を全体認識の対象となる画像から抽出したとする。この場合に例えば、部分認識部６４が、当該部分画像を、例えば、桜、梅、松などといった木の種類を認識可能な部分認識モデル５４に入力した際の出力に基づいて、当該部分画像に表されている木の種類を推定してもよい。

　また例えば全体認識部５８が、ビジュアルアテンションの技術を用いて、全体認識の対象となる画像の中から注視すべき領域を特定する処理を実行してもよい。そして部分画像抽出部６０が、注視すべき領域を占める部分画像を全体認識の対象となる画像から抽出してもよい。また部分画像抽出部６０が、注視すべき領域を基準領域３４とした場合における部分認識領域３６を占める部分画像を全体認識の対象となる画像から抽出してもよい。

　なお、本発明は上述の実施形態に限定されるものではない。

　また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。

Claims

　少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する第１認識部と、
　認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する部分画像抽出部と、
　前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する第２認識部と、
　を含むことを特徴とする画像認識装置。
　複数の学習済モデルのうちから、位置が認識される前記所与の物体に対応する学習済モデルを選択するモデル選択部、をさらに含み、
　前記第２認識部は、選択される前記学習済モデルを用いて前記部分画像が表す物体が何であるかを認識する処理を実行する、
　ことを特徴とする請求項１に記載の画像認識装置。
　前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた規則に基づいて移動又は変形した領域を占める前記部分画像を抽出する、
　ことを特徴とする請求項１又は２に記載の画像認識装置。
　前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた方向に移動させた領域を占める前記部分画像を抽出する、
　ことを特徴とする請求項３に記載の画像認識装置。
　前記部分画像抽出部は、位置が認識される前記所与の物体が表されている前記画像内の領域を当該物体に応じた大きさに拡大又は縮小した領域を占める前記部分画像を抽出する、
　ことを特徴とする請求項３又は４に記載の画像認識装置。
　少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行するステップと、
　認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出するステップと、
　前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行するステップと、
　を含むことを特徴とする画像認識方法。
　少なくとも１の所与の物体について、画像内における当該所与の物体の位置を認識する処理を実行する手順、
　認識される前記位置に対応付けられる前記画像の一部である部分画像を前記画像から抽出する手順、
　前記部分画像が表す、位置が認識される前記所与の物体以外の物体を含む少なくとも１の物体が何であるかを認識する処理を実行する手順、
　をコンピュータに実行させることを特徴とするプログラム。