WO2020036124A1

WO2020036124A1 - 物体認識装置、物体認識学習装置、方法、及びプログラム

Info

Publication number: WO2020036124A1
Application number: PCT/JP2019/031469
Authority: WO
Inventors: 之人渡邉; 島村　潤; 淳嵯峨田
Original assignee: 日本電信電話株式会社
Priority date: 2018-08-14
Filing date: 2019-08-08
Publication date: 2020-02-20
Also published as: JP7131195B2; US20210303903A1; JP2020027504A; US11928790B2

Abstract

低解像度画像に含まれる物体を精度よく認識することができる。　取得部が、クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、クエリ画像を高解像度化した高解像度化画像を取得する。特徴抽出部が、高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、高解像度化画像の特徴量ベクトルを抽出する。認識部が、高解像度化画像の特徴量ベクトルに基づき高解像度化画像において撮影された物体を認識し、認識された物体をクエリ画像において撮影された物体として出力する。

Description

物体認識装置、物体認識学習装置、方法、及びプログラム

　本発明は、物体認識装置、物体認識学習装置、方法、及びプログラムに係り、特に、画像に含まれる物体を認識するための物体認識装置、物体認識学習装置、方法、及びプログラムに関する。

　スマートフォン等の小型撮像デバイスの普及に伴い、様々な場所や環境で任意の対象を撮影したような画像中に写る物体を認識する技術への要望が高まってきている。

　従来、画像中の物体を認識する種々の技術が発明、開示されているが、画像の検索に基づく典型的な手続きを、非特許文献１に記載の技術に従って説明する。まず、畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いて画像から特徴量ベクトルを抽出する。次に、互いに異なる二つの画像について特徴量ベクトル同士の内積を計算する。計算した値が大きいほど、同一の物体が写っているとみなす。予め、認識したい物体を含む画像（参照画像）により参照画像データベースを構築し、新たに入力された画像（クエリ画像）と同一の物体が写っているものを検索することにより、クエリ画像中に存在する物体を特定することができる。

G. Tolias, R. Sicre, and H. Jegou, Particular Object Retrieval with Integral Max-Pooling of CNN Activations, In ICLR, 2016.

　しかしながら、クエリ画像と参照画像との解像度に乖離がある場合、たとえ同じ物体同士であっても異なる特徴量ベクトルが得られてしまうような場合が多い。結果として、異なる物体が検索されてしまい、認識精度が低下するという課題がある。例えば、解像度が高い参照画像に対して、解像度が低い画像をクエリ画像として検索するようなケースでは、クエリ画像中から高周波成分が失われていることが多く、前述の問題が発生しやすい典型例である。このような例において、単純に高解像度に写る画像の解像度を落とすことで解像度を揃えた場合、多くの詳細な情報が失われてしまうため、十分に認識精度は改善されない。

　本発明は、上記事情を鑑みて成されたものであり、低解像度画像に含まれる物体を精度よく認識することができる物体認識装置、方法、及びプログラムを提供することを目的とする。
　また、低解像度画像に含まれる物体を精度よく認識するためのニューラルネットワークを学習することができる物体認識学習装置、方法、及びプログラムを提供することを目的とする。

　上記目的を達成するために、第１の発明に係る物体認識装置は、認識対象のクエリ画像において撮影された物体を認識する物体認識装置であって、前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得する取得部と、前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出する特徴抽出部と、前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力する認識部と、を含む物体認識装置であって、前記取得部の前記取得処理は、少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものであることを特徴とする。

　第２の発明に係る物体認識学習装置は、画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するパラメータ最適化部、を含んで構成されている。

　第３の発明に係る物体認識方法は、認識対象のクエリ画像において撮影された物体を認識する物体認識装置における物体認識方法であって、取得部が、前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得するステップと、特徴抽出部が、前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出するステップと、認識部が、前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力するステップと、を含む物体認識装置であって、前記取得部の前記取得処理は、少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものであることを特徴とする。

　第４の発明に係る物体認識学習方法は、パラメータ最適化部が、画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するステップ、を含んで実行することを特徴とする。

　第５の発明に係るプログラムは、コンピュータを、第１の発明に記載の物体認識装置の各部として機能させるためのプログラムである。

　第６の発明に係るプログラムは、コンピュータを、第２の発明に記載の物体認識学習装置の各部として機能させるためのプログラムである。

　本発明の物体認識装置、方法、及びプログラムによれば、クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、クエリ画像を高解像度化した高解像度化画像を取得し、高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、高解像度化画像の特徴量ベクトルを抽出し、高解像度化画像の特徴量ベクトルに基づき高解像度化画像において撮影された物体を認識し、認識された物体をクエリ画像において撮影された物体として出力することにより、低解像度画像に含まれる物体を精度よく認識することができる、という効果が得られる。
　本発明の物体認識学習装置、方法、及びプログラムによれば、ニューラルネットワークの高解像度化層のパラメータと特徴抽出層のパラメータとを同時に最適化することにより、低解像度画像に含まれる物体を精度よく認識するためのニューラルネットワークを学習することができる、という効果が得られる。

本発明の実施の形態に係る物体認識学習装置の構成を示すブロック図である。本発明の実施の形態に係る物体認識装置の構成を示すブロック図である。本発明の実施の形態に係る物体認識学習装置における物体認識学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る物体認識装置における物体認識処理ルーチンを示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を詳細に説明する。

　上述した通り従来技術ではクエリ画像と参照画像との間で解像度に乖離が有る場合、参照画像を低解像度化して解像度を合わせても、クエリ画像を従来の技術で高解像度化して解像度を合わせても十分に精度は改善されない。これは低解像度な画像では高周波成分が失われていること、高周波成分には物体認識において重要となる詳細な模様などが含まれることが多いこと、に起因する。

　従来技術では低解像度の画像を高解像度化する際に主観画質を向上させることが多いが、物体認識を目的とする場合、物体認識を行いやすいように高解像度化すればよい。また、物体認識は同種の物体の特徴量ベクトル間の距離が他種の物体の特徴量ベクトル間の距離と比べ小さくなるような特徴量ベクトルを抽出できればよい。本発明の実施の形態は、そのような事情を考慮し、前述したような特徴量抽出手段と、当該特徴量抽出手段に適した高解像度化手段を得るために、特徴量抽出手段と高解像度化手段を同時に最適化する。ここで、適した、とは主観画質を向上させることではなく、物体認識を行うために、最適化された特徴量抽出手段が高解像度化する前と比較して認識対象の物体の特徴をより反映した値になるということを意図している。

＜本発明の実施の形態に係る物体認識学習装置の構成＞

　次に、本発明の実施の形態に係る物体認識学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る物体認識学習装置１０は、ＣＰＵと、ＲＡＭと、後述する物体認識学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。

　物体認識学習装置１０は、データベース２と通信手段を介して接続されて相互に情報通信する。データベース２は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。本実施の形態では、一例としてデータベース２には、画像集合４の画像、及び画像に関する各種データが予め格納されているものとする。本実施の形態では、画像集合４の各画像それぞれを一意に識別可能な、通し番号によるＩＤ（Identification）やユニークな画像ファイル名等の識別子が与えられているものとしている。また、データベース２は、各々の画像について、当該画像の識別子と、当該画像の画像データとを関連づけて記憶しているものとする。あるいは、データベース２は、同様に、ＲＤＢＭＳ（Relational Database Management System）等で実装、構成されていても構わない。データベース２が記憶する情報は、その他、メタデータとして、例えば画像の内容を表現する情報（画像のタイトル、概要文、またはキーワード等）、画像のフォーマットに関する情報（画像のデータ量、サムネイル等のサイズ）等を含んでいても構わないが、これらの情報の記憶は本開示の実施においては必須ではない。

　データベース２は、物体認識学習装置１０の内部及び外部の何れに設けられていても構わず、通信手段は任意の公知ものを用いることができる。なお、本実施の形態では、データベース２は、物体認識学習装置１０の外部に設けられているものとし、インターネット、及びＴＣＰ／ＩＰ（Transmission Control Protocol／Internet Protocol）等のネットワークを通信手段として物体認識学習装置１０と通信可能に接続されているものとする。

　画像集合４は、画像に含まれる特定対象物を表すラベルが付与された画像群である。ラベルは、例えば、整数とし、画像に含まれる特定対象物が同一であるものは同じ整数を割り当てればよい。また、データベース２には、前述した画像集合４の画像、及び画像に関する各種データに加え、画像集合４の各画像を低解像度化した低解像度画像が格納されているものとする。低解像度化処理は公知の方法と用いれば良いが、本実施の形態ではＢｉｃｕｂｉｃ法を利用した縮小処理によって行われているものとする。説明のため、低解像度化処理が行われた画像を低解像度画像、処理が行われる前の元画像を高解像度画像と記載する。また、低解像度画像には、対応する高解像度画像と同一のラベルが付与されているものとする。

　物体認識学習装置１０は、図１に示すように取得部１１と、特徴抽出部１２と、パラメータ最適化部１３と、ＣＮＮ記憶部１４とを含んで構成されている。

　本実施の形態の物体認識学習装置１０は、取得部１１で、ＣＮＮの高解像度化層を用いて低解像度画像を高解像度化した中間高解像度画像を得て、特徴抽出部１２で、ＣＮＮの特徴抽出層を用いて各種画像から特徴量ベクトルを抽出し、パラメータ最適化部１３で、画像間の誤差及び特徴量ベクトル間の距離を含む損失関数を用いて、高解像度化層のパラメータと特徴抽出層のパラメータとを同時に最適化する。以下、各部の具体的な処理を詳述する。

　ＣＮＮ記憶部１４には、畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）のパラメータを格納しておくものとする。本実施の形態のＣＮＮは、高解像度化層と、特徴抽出層とを含むＣＮＮとする。具体的には、画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、高解像度化層から出力された中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを順に結合した畳み込みニューラルネットワーク（ＣＮＮ）を用いる。すなわち、高解像度化層の最終出力が、特徴抽出層の入力となる。各層の構成は、任意の公知の物を用いてよい。ここでは、高解像度化層として非特許文献２に記載のＣＮＮ、特徴抽出層として非特許文献１に記載のＶＧＧ１６（Ｖｅｒｙ　Ｄｅｅｐ　Ｎｅｔｗｏｒｋ）から全結合層を取り除いた構成を用いるものとする。

［非特許文献２］M. Haris, G. Shakhnarovich, and N. Ukita, Deep backprojection networks for super-resolution, CVPR, 2018.

　取得部１１は、データベース２に含まれる、任意の高解像度画像Ｉに対する低解像度画像Ｉ^ＬをＣＮＮの高解像度化層の入力とし、高解像度化した中間高解像度画像Ｉ^Ｓを特徴抽出部１２、及びパラメータ最適化部１３に出力する。高解像度化層のパラメータはＣＮＮ記憶部１４に記憶してあるものを用いる。なお、本実施の形態における画像の高解像度化は、非特許文献２に記載の構成のＣＮＮを用いた高解像度化層によって畳み込むことで高解像度化を実施するが、ニューラルネットワークを用いて畳み込む方法であれば限定されるものではない。また、任意の高解像度画像Ｉは、高解像度化される前の低解像度画像Ｉ^Ｌの元画像となる高解像度な画像であり、

　特徴抽出部１２は、中間高解像度画像Ｉ^Ｓ、任意の高解像度画像Ｉと同一ラベルが付与された高解像度画像Ｉ^＋、及び異なるラベルが付与された高解像度画像Ｉ^－のそれぞれを、ＣＮＮの特徴抽出層への入力とし、特徴量ベクトルを抽出し、パラメータ最適化部１３に出力する。

　本実施の形態における特徴抽出部１２の特徴量ベクトルの抽出は、非特許文献１に記載の構成のＣＮＮの特徴抽出層によって畳み込みを行い、最終畳み込み層出力をグリッドに分割し、グリッド毎にｓｐａｔｉａｌ　ｍａｘ　ｐｏｏｌｉｎｇした値をｓｕｍ　ｐｏｏｌｉｎｇすることで固定の次元を持つ特徴量ベクトルを獲得できる。なお、ニューラルネットワークを用いて固定の次元を持つベクトルとして表現できるものであればこれに限定されるものではない。

　特徴抽出部１２で用いるＣＮＮの特徴抽出層において、非特許文献１に記載の特徴量ベクトルを抽出する処理について詳細に説明する。本実施の形態に好適な例として、非特許文献１に記載のＭＡＣ（Ｍａｘｉｍｕｍ　Ａｃｔｉｖａｔｉｏｎｓ　ｏｆ　Ｃｏｎｖｏｌｕｔｉｏｎｓ）、あるいは、ＲＭＡＣ（Ｒｅｇｉｏｎａｌ　Ｍａｘｉｍｕｍ　Ａｃｔｉｖａｔｉｏｎ　ｏｆ　Ｃｏｎｖｏｌｕｔｉｏｎｓ）、あるいはその両者を用いる。

　ＣＮＮの特徴抽出層の最終畳み込み層出力をＣ×Ｗ×Ｈの特徴マップとする。Ｃがチャネル数、Ｗが幅、Ｈが高さを表す。特徴マップを、Ｘ＝｛Ｘ_ｃ｝、ｃ＝１，．．．，Ｃと表現すると、ＭＡＣを用いた特徴ベクトルｆは下記（１）式で算出できる。

・・・（１）

　ＲＭＡＣを用いた特徴ベクトルについては、予め規定した様々な大きさの矩形によって特徴マップＸを分割し、様々な大きさの矩形によって分割された各々の特徴マップからＭＡＣの特徴量ベクトルｆを各々抽出し、正規化した後に足し合わせることで算出できる。正規化は、Ｌ２正規化を用いればよい。また、ＭＡＣ、ＲＭＡＣともに、算出後の特徴量ベクトルを正規化して用いてもよい。また、ＭＡＣ、ＲＭＡＣ両者を用いる場合は、両者の特徴ベクトルを正規化後、足し合わせ、再度正規化を実施したベクトルを最終的な特徴量ベクトルとすればよい。また、用いる中間層としては最終畳み込み層に限らず、学習処理及び認識処理において一貫しているのであれば、他の中間層を対象としてもよい。特徴量ベクトルの抽出方法は、ＭＡＣ、ＲＭＡＣに限定されず、ＣＮＮの中間層から固定の次元を持つベクトルとして表現できる任意の公知の方法を用いてもよい。

　なお、特徴抽出部１２は、中間高解像度画像Ｉ^Ｓ、任意の高解像度画像Ｉと同一ラベルが付与された高解像度画像Ｉ^＋、及び異なるラベルが付与された高解像度画像Ｉ^－のそれぞれから抽出した特徴量ベクトルをデータベース２に記憶する。

　パラメータ最適化部１３は、任意の高解像度画像Ｉと、低解像度画像Ｉ^Ｌを高解像度化した中間高解像度画像Ｉ^Ｓと、特徴抽出部１２で抽出した、中間高解像度画像Ｉ^Ｓの特徴量ベクトルｄ^Ｓと、同一ラベルが付与された高解像度画像Ｉ^＋の特徴量ベクトルｄ^＋と、異なるラベルが付与された高解像度画像Ｉ^－の特徴量ベクトルｄ^－とに基づいて、画像間の誤差及び特徴量ベクトル間の距離を含む損失関数を用いて、高解像度化層のパラメータと、特徴抽出層のパラメータとを同時に最適化し、ＣＮＮ記憶部１４のＣＮＮのパラメータを更新する。

　高解像度化層のパラメータについては、任意の高解像度画像Ｉと中間高解像度画像Ｉ^Ｓとを関連付け、任意の高解像度画像Ｉと、中間高解像度画像Ｉ^Ｓと間の誤差が小さくなるように最適化される。また、特徴抽出層のパラメータについては、任意の高解像度画像Ｉと同一ラベルが付与された高解像度画像Ｉ^＋の特徴量ベクトルｄ^＋と間の距離が小さく、任意の高解像度画像Ｉとは異なるラベルが付与された高解像度画像Ｉ^－の特徴量ベクトルｄ^－との間の距離が大きくなるように最適化される。

　具体的には、パラメータ最適化部１３は、以下（２）式の損失関数を最小化するようにＣＮＮのパラメータを最適化する。

・・・（２）

　Ｉ_ｉ ^ｓは、任意の高解像度画像Ｉ_ｉに対応する低解像度画像Ｉ_ｉ ^Ｌを入力として高解像度化層の出力として得られる中間高解像度画像である。ｄ^Ｓは、中間高解像度画像Ｉ_ｉ ^Ｓを入力して特徴抽出層の出力として得られる特徴量ベクトルである。ｄ^＋は、任意の高解像度画像Ｉ_ｉと同一のラベルが付与された高解像度画像Ｉ^＋を入力して特徴抽出層の出力として得られる特徴量ベクトルである。ｄ^－は、任意の高解像度画像Ｉ_ｉとは異なるラベルが付与された高解像度画像Ｉ^－を入力して特徴抽出層の出力として得られる特徴量ベクトルである。なお、中間高解像度画像は、Ｉ_ｉ ^ｓ単独であってもＩ_ｉ ^ｓの集合であってもよい。すなわち、１画素からなる画像(Ｎ＝１の場合)であってもよいし、複数の画素から成る画像（Ｎ＞１）であってもよい。

　このように損失関数は、任意の高解像度画像Ｉ_ｉと、中間高解像度画像Ｉ_ｉ ^Ｓとの差、特徴量ベクトルｄ^Ｓと、特徴量ベクトルｄ^＋との差、及び特徴量ベクトルｄ^Ｓと、特徴量ベクトルｄ^－との差を用いて表される。

　上記の損失関数について誤差逆伝播法を用いて、ＣＮＮの全パラメータを更新すればよい。ＮはＩの画素数である。また、ｍはマージンを表す固定のパラメータ、λ_１、λ_２は重みの固定パラメータであり、任意の実数を用いればよく、例えばｍは０．１、λ_１とλ_２は０．５などとすればよい。損失関数により、低解像度画像を高精度に高解像度化しながら、高精度な検索が可能な特徴量ベクトルを抽出可能なＣＮＮのパラメータを得ることができる。

＜本発明の実施の形態に係る物体認識装置の構成＞

　次に、本発明の実施の形態に係る物体認識装置の構成について説明する。物体認識装置は、認識対象のクエリ画像において撮影された物体を認識する。

　図２に示すように、本発明の実施の形態に係る物体認識装置２１０は、ＣＰＵと、ＲＡＭと、後述する物体認識処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。

　物体認識装置２１０は、データベース２２２と通信手段を介して接続されて相互に情報通信する。

　データベース２２２は、上記データベース２と同様の構成であり、ラベルが付与された参照画像群を記憶している。また、参照画像ごとに、上記ＣＮＮの特徴抽出層を用いて予め特徴抽出処理をし、参照画像の特徴量ベクトルを関連付けて記憶しているものとする。参照画像群は画像集合４としてもよい。また、参照画像として画像集合４の画像を用いる必要は必ずしもなく、別途参照画像とする画像を格納してもよい。

　物体認識装置２１０は、図２に示すように取得部２１１と、特徴抽出部２１２と、認識部２１３と、ＣＮＮ記憶部２１４とを含んで構成されている。

　ＣＮＮ記憶部２１４には、上記物体認識学習装置１０で学習された、ＣＮＮにおける高解像度化層のパラメータと、特徴抽出層のパラメータとが記憶されている。

　本実施の形態の物体認識装置２１０で用いるＣＮＮは、上述した物体認識学習装置１０について説明した高解像度化層と、特徴抽出層とを含むＣＮＮである。ＣＮＮはパラメータの学習によって、取得部２１１の取得処理として、任意の高解像度画像と、低解像度画像を高解像度化した画像（中間高解像度画像）とを関連付けて学習されたものであり、抽出処理と同時に最適化されたものである。また、ＣＮＮはパラメータの学習によって、中間層（高解像度化層）の出力値として任意の高解像度画像が出力されるように学習された学習済みニューラルネットワークである。

　取得部２１１は、認識対象のクエリ画像から、クエリ画像３をＣＮＮの高解像度化層への入力として、ＣＮＮ記憶部２１４に記憶されたパラメータを用いて取得処理を行い、クエリ画像を高解像度化した高解像度化画像を取得する。具体的な処理手法は、上述した物体認識学習装置１０について説明した取得部１１と同様、非特許文献２に記載の手法を用いる。

　特徴抽出部２１２は、高解像度化画像をＣＮＮの特徴抽出層への入力として、ＣＮＮ記憶部２１４に記憶されたパラメータを用いて抽出処理を行い、特徴量ベクトルを抽出する。具体的な処理手法は、上述した物体認識学習装置１０について説明した特徴抽出部１２と同様、非特許文献１に記載の手法を用いる。

　認識部２１３は、高解像度化画像の特徴量ベクトルに基づき高解像度化画像において撮影された物体を認識し、認識された物体をクエリ画像３において撮影された物体として認識結果５を出力する。

　具体的には、認識部２１３において、クエリ画像３から抽出された特徴量ベクトルと、データベース２２２の参照画像の各々の特徴量ベクトルとを比較することで検索処理を実施する。例えば、両者の距離を測ることで、比較することができる。距離は、例えばＬ２距離を用いればよい。あるいは、クエリ画像３の特徴量ベクトルと、参照画像の各々の特徴量ベクトルとの内積を求めても構わず、この場合は両者の類似度を得ることができる。

　全ての参照画像に対して上記比較を行ったのち、距離が小さい参照画像、あるいは、類似度が大きい順にリスト化する。そして、リスト化した参照画像の各々のラベルを、同一物体を含む、ないし同一物体に近い物体であるものとし、認識結果５として出力する。

＜本発明の実施の形態に係る物体認識学習装置の作用＞

　次に、本発明の実施の形態に係る物体認識学習装置１０の作用について説明する。物体認識学習装置１０は、図３に示す物体認識学習処理ルーチンを実行する。

　ステップＳ１００では、取得部１１は、データベース２に含まれる、任意の高解像度画像Ｉに対する低解像度画像Ｉ^ＬをＣＮＮの高解像度化層の入力とし、高解像度化した中間高解像度画像Ｉ^Ｓを特徴抽出部１２、及びパラメータ最適化部１３に出力する。

　ステップＳ１０２では、特徴抽出部１２は、中間高解像度画像Ｉ^Ｓ、任意の高解像度画像Ｉと同一ラベルが付与された高解像度画像Ｉ^＋、及び異なるラベルが付与された高解像度画像Ｉ^－のそれぞれについて、ＣＮＮの特徴抽出層への入力とし、特徴量ベクトルを抽出し、パラメータ最適化部１３に出力する。

　ステップＳ１０４では、パラメータ最適化部１３は、任意の高解像度画像Ｉと、低解像度画像Ｉ^Ｌを高解像度化した中間高解像度画像Ｉ^Ｓと、特徴抽出部１２で抽出した、中間高解像度画像Ｉ^Ｓの特徴量ベクトルｄ^Ｓと、同一ラベルが付与された高解像度画像Ｉ^＋の特徴量ベクトルｄ^＋と、異なるラベルが付与された高解像度画像Ｉ^－の特徴量ベクトルｄ^－とに基づいて、上記（２）式の損失関数を用いて、高解像度化層のパラメータと、特徴抽出層のパラメータとを同時に最適化し、ＣＮＮ記憶部１４のＣＮＮのパラメータを更新する。これにより、高解像度化層のパラメータについては、任意の高解像度画像Ｉと中間高解像度画像Ｉ^Ｓとを関連付け、任意の高解像度画像Ｉと、中間高解像度画像Ｉ^Ｓと間の誤差が小さくなるようにパラメータが最適化される。また、特徴抽出層のパラメータについては、任意の高解像度画像Ｉと同一ラベルが付与された高解像度画像Ｉ^＋の特徴量ベクトルｄ^＋と間の距離が小さく、任意の高解像度画像Ｉとは異なるラベルが付与された高解像度画像Ｉ^－の特徴量ベクトルｄ^－との間の距離が大きくなるようにパラメータが最適化される。

　以上説明したように、本発明の実施の形態に係る物体認識学習装置によれば、低解像度画像に含まれる物体を精度よく認識するためのニューラルネットワークを学習することができる。

＜本発明の実施の形態に係る物体認識装置の作用＞

　次に、本発明の実施の形態に係る物体認識装置２１０の作用について説明する。物体認識装置２１０は、図４に示す物体認識処理ルーチンを実行する。

　ステップＳ２００では、取得部２１１は、認識対象のクエリ画像３から、クエリ画像３をＣＮＮの高解像度化層への入力として、ＣＮＮ記憶部２１４に記憶されたパラメータを用いて取得処理を行い、クエリ画像を高解像度化した高解像度化画像を取得する。

　ステップＳ２０２では、特徴抽出部２１２は、高解像度化画像をＣＮＮの特徴抽出層への入力として、ＣＮＮ記憶部２１４に記憶されたパラメータを用いて抽出処理を行い、特徴量ベクトルを抽出する。

　ステップＳ２０４では、認識部２１３は、高解像度化画像の特徴量ベクトルに基づき高解像度化画像において撮影された物体を認識し、認識された物体をクエリ画像３において撮影された物体として認識結果５を出力する。

　以上説明したように、本発明の実施の形態に係る物体認識装置によれば、低解像度画像に含まれる物体を精度よく認識することができる。

　なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、上述した実施の形態では、物体認識学習装置は、取得部、及び特徴抽出部を含む構成を例として説明したが、これに限定されるものではない。例えば、物体認識学習装置は、取得部、及び特徴抽出部を含まずに、パラメータ最適化部のみによって構成するようにしてもよい。この場合には、予め低解像度画像Ｉ^Ｌを高解像度化層への入力として高解像度化した中間高解像度画像Ｉ^Ｓ、及び中間高解像度画像Ｉ^Ｓの特徴量ベクトルｄ^Ｓ、画像Ｉ^＋の特徴量ベクトルｄ^＋、画像Ｉ^－の特徴量ベクトルｄ^－を取得しておき、パラメータ最適化部の処理のみを行うようにすればよい。

２、２２２    データベース
３     クエリ画像
４     画像集合
５     認識結果
１０   物体認識学習装置
１１、２１１  取得部
１２、２１２  特徴抽出部
１３   パラメータ最適化部
１４、２１４  ＣＮＮ記憶部
２１０物体認識装置
２１３認識部

Claims

　認識対象のクエリ画像において撮影された物体を認識する物体認識装置であって、
　前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得する取得部と、
　前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出する特徴抽出部と、
　前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力する認識部と、
を含む物体認識装置であって、
　前記取得部の前記取得処理は、
　少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、
　さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものである
　物体認識装置。
　前記取得処理は、少なくとも、前記任意の画像と前記任意の画像に対応する低解像度画像とを学習データとし、かつ、前記低解像度画像を入力としたニューラルネットワークの所定の中間層の出力値として前記任意の画像が出力されるように学習された学習済みニューラルネットワークを用いる
請求項１記載の物体認識装置。
　画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、
　任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、
　前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、
　及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するパラメータ最適化部、
を含む物体認識学習装置。
　前記パラメータ最適化部は、以下（１）式の前記損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化する請求項３に記載の物体認識学習装置。

・・・（１）
　ただし、Ｉ_ｉは前記任意の画像、Ｉ_ｉ ^ｓは、前記任意の画像Ｉ_ｉに対応する低解像度画像Ｉ_ｉ ^Ｌを入力として前記高解像度化層の出力として得られる中間高解像度画像、ｄ^ｓは前記中間高解像度画像Ｉ_ｉ ^ｓを入力として前記特徴抽出層の出力として得られる特徴量ベクトル、ｄ^＋は前記任意の画像と同一のラベルの画像を入力として前記特徴抽出層の出力として得られる特徴量ベクトル、ｄ^－は前記任意の画像とは異なるラベルの画像を入力として前記特徴抽出層の出力として得られる特徴量ベクトルである。
　認識対象のクエリ画像において撮影された物体を認識する物体認識装置における物体認識方法であって、
　取得部が、前記クエリ画像から、予め学習された、画像を高解像度化する取得処理によって、前記クエリ画像を高解像度化した高解像度化画像を取得するステップと、
　特徴抽出部が、前記高解像度化画像を入力とし、予め学習された、画像の特徴量ベクトルを抽出する抽出処理によって、前記高解像度化画像の特徴量ベクトルを抽出するステップと、
　認識部が、前記高解像度化画像の特徴量ベクトルに基づき前記高解像度化画像において撮影された物体を認識し、認識された物体を前記クエリ画像において撮影された物体として出力するステップと、
を含む物体認識装置であって、
　前記取得部の前記取得処理は、
　少なくとも、前記物体が撮影された任意の画像と、前記任意の画像に対応する低解像度画像を高解像度化した画像と、を関連付けることで学習された取得処理であり、
　さらに、前記取得処理は、学習において前記抽出処理と同時に最適化されたものである
　物体認識方法。
　パラメータ最適化部が、画像を入力として高解像度化した中間高解像度画像を出力する中間層である高解像度化層と、前記高解像度化層から出力された前記中間高解像度画像を入力として特徴量ベクトルを出力する特徴抽出層とを含むニューラルネットワークについて、
　任意の画像と、前記任意の画像に対応する低解像度画像を入力として得られる前記中間高解像度画像との差、
　前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像と同一のラベルが付された画像を入力して得られる前記特徴量ベクトルとの差、
　及び前記中間高解像度画像を入力して得られる特徴量ベクトルと、前記任意の画像とは異なるラベルが付された画像を入力して得られる前記特徴量ベクトルとの差を用いて表される損失関数を用いて、前記ニューラルネットワークの前記高解像度化層のパラメータと前記特徴抽出層のパラメータとを同時に最適化するステップ、
を含む物体認識学習方法。
　コンピュータを、請求項１又は請求項２に記載の物体認識装置の各部として機能させるためのプログラム。
　コンピュータを、請求項３又は請求項４に記載の物体認識学習装置の各部として機能させるためのプログラム。