WO2021079451A1

WO2021079451A1 - 学習装置、学習方法、推論装置、推論方法、及び、記録媒体

Info

Publication number: WO2021079451A1
Application number: PCT/JP2019/041632
Authority: WO
Inventors: あずさ澤田; 壮馬白石; 剛志柴田
Original assignee: 日本電気株式会社
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-29
Also published as: JPWO2021079451A1; US20240112447A1; JP7351344B2

Abstract

学習装置は、計量空間学習部と、事例記憶部とを備える。計量空間学習部は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。

Description

学習装置、学習方法、推論装置、推論方法、及び、記録媒体

　本発明は、画像に含まれる物体を認識する技術に関する。

　カメラ等の撮像装置で取得された画像中の対象物体を認識する物体認識技術が知られている。例えば、特許文献１及び非特許文献１には、ニューラルネットワークを用いて学習及び識別を行う物体認識技術が記載されている。

　上記の物体認識技術における学習では、識別対象として予め登録されたカテゴリ（登録カテゴリ）のいずれかに属する物体の画像が所定の識別モデルに入力され、属するカテゴリについての識別スコアが高くなるように、識別モデルの学習が行われる。識別モデルの学習後、カテゴリが未知である物体の画像が学習済みの識別モデルに入力された場合には、登録カテゴリそれぞれについての識別スコアが上記の識別モデルから出力される。また、非特許文献１には、識別スコアに対して所定の閾値を設け、識別スコアが上記閾値を下回る場合には、登録カテゴリの物体を検出できなかったとして識別結果をリジェクトする点についても記載されている。

国際公開　ＷＯ２００８／１２６７９０号公報

Ｋａｒｅｎ　Ｓｉｍｏｍｙａｎ，ａｎｄ　Ａｎｄｒｅｗ　Ｚｉｓｓｅｒｍａｎ、"Ｖｅｒｙ　Ｄｅｅｐ　Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｔｗｏｒｋｓ　ｆｏｒ　Ｌａｒｇｅ－Ｓｃａｌｅ　Ｉｍａｇｅ　Ｒｅｃｏｇｎｉｔｉｏｎ"　ＩＣＬＲ，２０１５．

　しかし、上記の手法は、未登録カテゴリの識別対象をリジェクトするだけであり、識別することはできない。また、従来の識別手法は識別のみを行うため、識別結果の妥当性を直感的に解釈することが難しい。

　本発明の１つの目的は、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても、認識結果の妥当性判断しやすい形態で認識結果を出力できるようにすることにある。

　本発明の一つの観点では、学習装置は、
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、を備える。

　本発明の他の観点では、学習方法は、
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。

　本発明のさらに他の観点では、記録媒体は、
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録する。

　本発明のさらに他の観点では、推論装置は、
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
　前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、を備える。

　本発明のさらに他の観点では、推論方法は、
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する。

　本発明のさらに他の観点では、記録媒体は、
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録する。

　本発明によれば、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力することが可能となる。

認識対象について事例辞書を作成する方法を説明する図である。最適な計量空間を選択する方法を説明する図である。第１実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。学習のための物体認識装置の機能構成を示すブロック図である。学習のための物体認識装置による学習処理のフローチャートである。推論のための物体認識装置の機能構成を示すブロック図である。推論のための物体認識装置による推論処理のフローチャートである。物体認識結果の表示例を示す。第２実施形態に係る学習装置及び推論装置の構成を示すブロック図である。

　以下、図面を参照して、本発明の好適な実施形態について説明する。
　［基本原理］
　まず、実施形態の物体認識方法の基本原理を説明する。本実施形態では、それまで認識対象としていたクラス（以下、「既存クラス」と呼ぶ。）に加えて、新たなクラス（以下、「新クラス」と呼ぶ。）を認識する必要が生じた場合に、新クラスに対応する事例を登録した事例データ（以下、「事例辞書」とも呼ぶ。）を作成し、事例辞書を参照して新クラスの対象を認識する。また、既存クラスの認識対象についても、新たな環境での認識精度の低下を防止するため、複数の計量空間を用意し、最適な計量空間を用いて認識を行う。

　（１）事例辞書の作成
　図１は、新クラスを含む認識対象について事例辞書を作成する方法を示す。いま、既存クラスとして「警察官」及び「歩行者」があり、新クラスとして「消防士」の認識を行いたいと仮定する。まず、属性情報などが付与された画像データを用いて、計量空間を学習する。具体的には、様々な人物の公開画像データセットなどを利用して、属性情報が付与された人物の画像データを取得する。なお、「属性情報」とは、画像データに写っている人物属性であり、例えば、その人物の年齢、性別、身長、付帯物（持ち物や身に着けている物など）が挙げられる。図１の例では、認識対象となる「警察官」、「歩行者」及び「消防士」について、様々な属性の画像データを取得する。

　そして、取得した画像データを用いて計量空間（距離空間）を学習する。図１は、ある人物属性に基づいて学習された計量空間１０を示す。計量空間１０は、画像データから抽出された特徴ベクトル（計量）により規定される空間であり、類似する画像データ同士は近い距離に位置し、類似しない画像データ同士は遠い距離に位置する性質を有するように学習される。具体的には、ある人物属性（例えば、帽子をかぶっている）を有する人物の公開画像データセットを取得し、それらについて特徴ベクトルを算出し、得られた特徴ベクトルに基づいて計量空間が学習される。なお、「計量空間を学習する」とは、実際には、ニューラルネットワークなどを用いた識別モデルを用意し、各画像データの入力に対して当該モデルが生成する特徴ベクトルが上記の性質を有するように、当該モデルを学習することを指す。また、学習により得られた計量空間は、学習済の識別モデルのパラメータにより規定されることになる。

　計量空間の学習が終了すると、次に、既存クラスの画像データから特徴ベクトルを生成し、計量空間１０に事例として埋め込む。計量空間１０では、類似する画像データ同士は近い距離に位置するので、図示のように、既存クラス「警察官」の画像データ同士はマーク１１で示すように計量空間１０上で近くに位置し、既存クラス「歩行者」の画像データ同士はマーク１２で示すように計量空間１０上で近くに位置する。一方、マーク１１で示す「警察官」と、マーク１２で示す「歩行者」は計量空間１０上で離れて位置する。こうして、既存クラスの画像データを計量空間１０に事例として埋め込む。なお、「事例として埋め込む」とは、実際には、その画像から抽出された特徴ベクトルを、その計量空間１０と関連付けて記憶することを指す。

　次に、新クラスについても、同様に計量空間１０上に事例を埋め込む。具体的には、新クラス「消防士」の画像データから特徴ベクトルを抽出し、計量空間１０上に事例として埋め込む。これにより、新クラス「消防士」の画像データは、マーク１３で示すように、計量空間１０上で相互に近い位置に配置され、かつ、他のクラス「警察官」や「歩行者」から離れて配置される。こうして、計量空間１０上では、同一クラスの事例同士は近くに位置し、異なるクラスの事例同士は離れて位置するようになる。

　こうして計量空間１０上に事例が埋め込まれると、これらの事例を参照して、画像データのクラスを識別することができるようになる。例えば、図１に示すように、ある人物の画像データ１５が入力された場合に、その画像データ１５の特徴ベクトルを抽出して計量空間１０上の位置を算出する。図１の例では、画像データ１５の特徴ベクトルはクラス「消防士」の事例が集まっている領域に属するので、その画像データのクラスは「消防士」であると認識することができる。このように、認識対象として新クラスが追加された場合でも、既存クラス及び新クラスの事例を計量空間上に埋め込んで事例辞書を作成することにより、新クラスの認識が可能となる。

　なお、図１には、ある人物属性について学習された１つの計量空間を例示しているが、実際には、異なる人物属性の複数の組み合わせについて、それぞれ計量空間１０を学習し、学習された計量空間１０に事例を埋め込んで事例辞書を作成する。事例辞書には、複数の計量空間についての事例が登録される。

　（２）事例辞書を用いた推論
　さて、作成された事例辞書を利用して物体認識を行う際には、そのときの環境（ドメイン）に最も適した計量空間を選択し、その計量空間を用いて物体認識を行う。図２は、最適な計量空間を選択する方法を説明する図である。前述のように、事例辞書は、異なる人物属性の組み合わせに対応する複数の計量空間についての事例を含む。いま、事例辞書には、図２に示すように、属性「付帯物」及び「年齢」についての計量空間１０ａと、属性「付帯物」及び「性別」についての計量空間１０ｂと、属性「付帯物」及び「身長」についての計量空間１０ｃと、属性「身長」、「年齢」、「性別」についての計量空間１０ｄのそれぞれについて事例が記憶されているものとする。

　ここで、最適な計量空間を選択するために、既存クラスの複数の事例を用いて、これらの計量空間１０ａ～１０ｄを評価する。図２の例では、評価用データとして、既存クラス「警察官」についての既存ドメイン（ソースドメイン）の評価用データ及びターゲットドメインの少数データと、既存クラス「歩行者」についての既存ドメインの評価用データ及びターゲットドメインの少数データを用意する。これらの評価用データには、クラス情報などの教師ラベルが用意されているものとする。上記の評価用データについて、各計量空間１０ａ～１０ｄの事例を参照して認識処理を行い、その結果を、予め用意されている教師ラベルと比較して一致度を算出する。そして、最も一致度の高い計量空間を、最適な計量空間１０ｘとして選択する。このように、複数の計量空間から最適な計量空間を選択することにより、ターゲットドメインにおける認識精度を向上させることができる。なお、実際の処理としては、選択された計量空間を規定する識別モデルを用いて、ターゲットドメインの画像データの認識を行うことになる。

　［第１実施形態］
　次に、本発明の第１実施形態について説明する。
　（ハードウェア構成）
　図３は、第１実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置１００は、インタフェース１０２と、プロセッサ１０３と、メモリ１０４と、記録媒体１０５と、データベース（ＤＢ）１０６と、表示部１０７と、を備える。

　インタフェース１０２は、外部装置との間でデータの入出力を行う。具体的に、物体認識装置１００の学習や推論に用いられる画像データがインタフェース１０２を通じて入力され、物体認識装置１００による認識結果がインタフェース１０２を通じて外部装置へ出力される。

　プロセッサ１０３は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、又はＣＰＵとＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置１００の全体を制御する。具体的に、プロセッサ１０３は、後述する学習処理及び推論処理を実行する。

　メモリ１０４は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１０４は、物体認識装置１００が使用する物体認識のためのモデルを記憶する。メモリ１０４は、プロセッサ１０３により実行される各種のプログラムを記憶する。また、メモリ１０４は、プロセッサ１０３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１０５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置１００に対して着脱可能に構成される。記録媒体１０５は、プロセッサ１０３が実行する各種のプログラムを記録している。物体認識装置１００が各種の処理を実行する際には、記録媒体１０５に記録されているプログラムがメモリ１０４にロードされ、プロセッサ１０３により実行される。

　データベース１０６は、外部から入力される画像データを記憶する。具体的には、物体認識装置１００の学習に使用される画像データなどが記憶される。また、データベース１０６は、学習処理により作成された事例辞書を格納する。表示部１０７は、例えば液晶表示装置などであり、物体認識装置１００による認識結果や、それに関連する付加情報などを表示する。なお、上記に加えて、物体認識装置１００は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器を備えていても良い。

　（学習のための機能構成）
　次に、物体認識装置１００の学習のための機能構成について説明する。図４は、学習のための物体認識装置１００Ａの機能構成を示すブロック図である。図示のように、物体認識装置１００Ａは、ラベル選択部１１１と、計量空間学習部１１２と、画像摂動部１１３と、計量算出部１１４と、特徴摂動部１１５と、事例埋め込み部１１６とを備える。

　物体認識装置１００Ａには、計量学習用のデータとして、付加情報１２１と、教師ラベル１２２と、画像データ１２３とが入力される。なお、「計量学習用のデータ」とは、計量空間を学習するためのデータである。画像データ１２３は、計量空間を学習するために必要な学習用の画像データであり、例えば前述の公開画像データセットなどを使用することができる。教師ラベル１２２は、画像データ１２３に紐づく教師ラベルであり、例えば、人物の属性情報やクラス情報などである。ここで、属性情報としては、年齢、性別、身長、付帯物、服装などが挙げられ、クラス情報としては、個人ＩＤ、職業（警察官、消防士）などが挙げられる。付加情報１２１は、画像データ１２３と教師ラベル１２２を登録する際に、その情報の理解を助けるために追加情報として付加される情報である。付加情報１２１の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報（気温、緯度・経度、屋内／屋外）などが挙げられる。なお、後述するように、計量学習用の画像データ１２３及び教師ラベル１２２は、必要に応じて事例登録用にも使用される。

　また、物体認識装置１００Ａには、事例登録用のデータとして、教師ラベル１２４と、画像データ１２５と、付加情報１２６とが入力される。「事例登録用のデータ」とは、事例辞書を作成するためのデータである。画像データ１２５は、事例を登録するために必要な学習用の画像データであり、識別したいクラス毎に画像データが用意される。教師ラベル１２４は、画像データ１２５に紐づく教師ラベルであり、例えばクラス情報などである。付加情報１２６は、画像データ１２５と教師ラベル１２４を登録する際に、それらの情報の理解を助けるために追加の情報として付加される情報である。付加情報１２６の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報（気温、緯度・経度、屋内／屋外）などが挙げられる。

　ラベル選択部１１１は、計量空間を学習する際に、教師ラベル１２２から、属性などを示す教師ラベルを選択する。ラベル選択部１１１は、選択方法としては、ランダムに複数の教師ラベルを選択してもよいし、情報エントロピーなどを用いて選んだ教師ラベルが相補的な情報となるように複数の教師ラベルを選択してもよい。ラベル選択部１１１は、選んだ教師ラベルの組み合わせの集合を計量空間学習部１１２に出力する。

　計量空間学習部１１２は、計量学習用の画像データ１２３と、ラベル選択部１１１で選択された教師ラベルとに基づいて計量空間を学習する。具体的には、計量空間学習部１１２は、ラベル選択部１１１で選択された教師ラベルの各クラスが最も良く識別できるような距離空間を学習する。即ち、計量空間学習部１１２は、図１に示したように、同一クラス同士が近くに集まり、異なるクラスが離れて位置するように計量空間を学習する。実際には、画像データから畳み込みにより特徴を抽出して識別を行う識別モデルにおいて、最終的な識別を行う直前の段階で得られる特徴ベクトルを計量として用いればよい。例えば、ＶＧＧなどのＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）のモデルにおける全結合層で得られる特徴ベクトルを用いればよい。こうして学習された計量空間は、計量算出部１１４と事例埋め込み部１１６に出力される。なお、実際には、計量空間として、学習された識別モデルのパラメータが出力される。

　画像摂動部１１３には、計量学習用の画像データ１２３及び付加情報１２１、並びに、事例登録用の画像データ１２５及び付加情報１２６が入力される。なお、ここでは、画像摂動部１１３に入力された計量学習用の画像データ１２３は、事例登録用として使用されている。画像摂動部１１３は、計量学習用の画像データ１２３や事例登録用の画像データ１２５を摂動させる。具体的には、画像摂動部１１３は、元の画像に対して、幾何変形、画像圧縮、ボケやノイズの付与、明度や彩度などの変更などにより、敵対的摂動を与える。なお、付加情報により、摂動のパラメータが推定できる場合には、画像摂動部１１３はそのパラメータの範囲内でのみ画像を摂動させればよい。例えば、付加情報に含まれるカメラの俯角から幾何変形のパラメータが推定できる場合には、画像摂動部１１３は、そのパラメータの範囲内で幾何変形を行えばよい。画像摂動により、学習に使用する画像データ数を実質的に増加させることができる。摂動された画像データは、計量算出部１１４に出力される。

　計量算出部１１４には、計量空間学習部１１２から学習済みの計量空間が与えられ、画像摂動部１１３から摂動後の画像データが入力される。計量算出部１１４は、摂動後の画像データから、計量に相当する特徴ベクトルを算出する。即ち、計量算出部１１４は、画像摂動された各画像データを事例とし、計量空間学習部１１２が学習した計量空間上における各事例の位置を算出する。これにより、事例登録用の画像データ１２５が、図１に示すように計量空間上に配置される。実際には、計量空間学習部１１２は、計量空間学習部１１２が学習した計量空間を示す識別モデルを用いて、摂動後の各画像データから特徴ベクトルを抽出する。摂動後の各画像データから抽出された特徴ベクトルは特徴摂動部１１５に出力される。

　特徴摂動部１１５は、計量算出部１１４で得られた各画像データの特徴ベクトルを摂動させる。即ち、特徴摂動部１１５は、計量算出部１１４で得られた各画像データの特徴ベクトルから、画像上での変化が一定の範囲内において、計量空間上で最も遠い距離に存在する特徴ベクトルを新たな事例として生成する。これにより、計量算出部１１４が計量空間上に配置した事例の周辺に複数の事例を追加し、計量空間における各クラスの領域を広げることができる。特徴摂動部１１５は、摂動により生成した特徴ベクトルと、摂動を施す前の特徴ベクトル、即ち、計量算出部１１４から入力された特徴ベクトルとを事例埋め込み部１１６に出力する。

　事例埋め込み部１１６は、特徴摂動部１１５から入力された特徴ベクトル、即ち、特徴摂動の前後の特徴ベクトルを事例として計量空間に埋め込む。具体的には、事例埋め込み部１１６は、特徴摂動部１１５から入力された特徴ベクトルを事例として計量空間に関連付け、事例辞書１２７に登録する。その際、事例埋め込み部１１６は、各事例に紐づけて、教師ラベル１２２、１２４と、付加情報１２１、１２６も登録する。さらに、事例埋め込み部１１６は、計量空間に埋め込まれる事例に対応する画像データとして、代表的な画像データを登録してもよい。こうして、複数のラベル（属性）の組み合わせ毎に、対応する計量空間についての事例を登録した事例辞書１２７が作成される。具体的には、事例辞書１２７には、複数の計量空間を規定する情報と、各計量空間に埋め込まれた事例とが記憶される。ここで、「計量空間を規定する情報」とは、実際には学習された識別モデルのパラメータであり、「各計量空間に埋め込まれた事例」とは、その計量空間における特徴ベクトルである。なお、事例辞書１２７は本発明の事例記憶部の一例である。

　（学習処理）
　次に、上記の学習処理の流れを説明する。図５は、学習のための物体認識装置１００Ａによる学習処理のフローチャートである。この処理は、図３に示すプロセッサ１０３が、予め用意されたプログラムを実行することにより実施される。

　まず、ラベル選択部１１１は、属性やクラスを含む教師ラベルを選択する（ステップＳ１１）。計量空間学習部１１２は、計量学習用の画像データ１２３及び教師ラベル１２２を用いて、ステップＳ１１で選択されたラベルの組み合わせについて計量空間を学習する（ステップＳ１２）。

　次に、画像摂動部１１３は、事例登録用の画像データ１２５を摂動し、摂動後の画像データを計量算出部１１４に出力する。計量算出部１１４は、摂動後の画像データの特徴ベクトルを算出し（ステップＳ１４）、特徴摂動部１１５は、算出された特徴ベクトルを摂動する（ステップＳ１５）。こうして、画像の摂動及び特徴の摂動により、登録用画像データから複数の特徴ベクトルが得られる。事例埋め込み部１１６は、得られた特徴ベクトルを事例として計量空間に関連付けて記憶することにより、事例辞書１２７を作成する（ステップＳ１６）。こうして、学習処理は終了する。これにより、属性の１つの組み合わせに対する計量空間について、事例が事例辞書１２７に登録される。

　物体認識装置１００Ａは、ラベル選択部１１１が選択するラベルを変えることにより、別の属性の組み合わせについても同様に計量空間を学習し、事例を埋め込んで事例辞書１２７に登録する。こうして、図２に例示するように、事例辞書１２７には、複数の属性の組み合わせに対応する計量空間上に配置した事例が登録される。

　（推論のための機能構成）
　次に、物体認識装置１００の推論のための機能構成について説明する。図６は、推論のための物体認識装置１００Ｂの機能構成を示すブロック図である。図示のように、物体認識装置１００Ｂは、画像摂動部１３１と、計量算出部１３２と、特徴摂動部１３３と、計量空間選択部１３４と、画像摂動部１３５と、計量算出部１３６と、特徴摂動部１３７と、識別部１３８と、結果出力部１３９とを備える。

　物体認識装置１００Ｂは、辞書選択用の画像データ１４１と、辞書選択用の教師ラベル１４２と、辞書選択用の付加情報１４３と、推論用の画像データ１４５と、事例辞書１２７とを使用する。事例辞書１２７は、上述の学習処理により作成されたものである。

　辞書選択用の画像データ１４１は、予め用意された複数の計量空間についての事例辞書１２７から、最適な計量空間に対応する事例辞書１２７を選択するために使用される画像データであり、基本的な性質は前述した計量空間学習用の画像データ１２３と同様である。辞書選択用の教師ラベル１４２は、辞書選択用の画像データ１４１に紐づく教師ラベルであり、基本的な性質は計量空間学習用の教師ラベル１２２と同様である。辞書選択用の付加情報１４３は、辞書選択用の画像データ１４１に紐づく付加情報であり、基本的な性質は計量空間学習用の付加情報１２１と同様である。推論用の画像データは、物体認識装置１００Ｂによる認識の対象となる画像データである。

　また、画像摂動部１３１及び１３５は、図４に示す学習のための機能構成における画像摂動部１１３と同様であり、計量算出部１３２及び１３６は学習のための機能構成における計量算出部１１４と同様であり、特徴摂動部１３３及び１３７は学習のための機能構成における特徴摂動部１１５と同様である。

　図６において、画像摂動部１３１、計量算出部１３２、特徴摂動部１３３及び計量空間選択部１３４は、辞書選択用の画像データ１４１、教師ラベル１４２及び付加情報１４３を用いて、事例辞書１２７に蓄えられている複数の計量空間から最適な計量空間を選択する処理を行う。具体的に、画像摂動部１３１は、辞書選択用の画像データ１４１を摂動する。計量算出部１３２は、まず、事例辞書１２７に蓄えられている複数の計量空間から、１つの計量空間を取得し、その計量空間における摂動後の画像データの特徴ベクトルを算出する。次に、特徴摂動部１３３は、計量算出部１３２により算出された特徴ベクトルを摂動し、摂動後の特徴ベクトルを生成する。こうして、辞書選択用の画像データ１４１から、複数の特徴ベクトルが算出される。この処理により、最適な計量空間を選択するために使用する画像データ数を増加させている。

　画像摂動部１３１、計量算出部１３２及び特徴摂動部１３３は、他の計量空間についても同様の処理を行い、それらの計量空間における特徴ベクトルを算出する。こうして、事例辞書１２７に記憶されている複数の計量空間について、辞書選択用の画像データ１４１に基づいて複数の特徴ベクトルが算出される。

　計量空間選択部１３４は、辞書選択用の画像データ１４１から算出された特徴ベクトルと、それに対応する教師ラベル１４２及び付加情報１４３とから最適な計量空間を選択する。具体的には、計量空間選択部１３４は、教師ラベルと、辞書選択用の画像データ１４１の計量空間上の特徴ベクトルと、事例辞書１２７に記憶されている計量空間に埋め込まれた事例における特徴ベクトルとの間で、最近傍認識などの手法を用いて、計量空間ごとに性能評価を行う。即ち、計量空間選択部１３４は、図２に示したように、既存クラスの画像データを用いて複数の計量空間の性能を評価し、最も性能が高い計量空間を選択する。

　さらに、辞書選択用の付加情報１４３から選択すべき計量空間を限定できる場合には、計量空間選択部１３４は、付加情報１４３を用いて選択すべき計量空間を予め絞った後で、上述の性能評価により最適な計量空間を選択すればよい。もしくは、上述の性能評価と、付加情報を用いた選択を同時に行ってもよい。こうして選択された計量空間は、辞書選択用の画像データ１４１の属性に対して最も高精度な認識を可能とする計量空間となる。計量空間選択部１３４は、選択した計量空間を計量算出部１３６及び識別部１３８に出力する。

　最適な計量空間が選択されると、その計量空間を用いて推論用の画像データ１４５の推論が行われる。画像摂動部１３５は、推論用の画像データ１４５を摂動し、摂動後の画像データを計量算出部１３６に出力する。計量算出部１３６は、計量空間選択部１３４が選択した計量空間における、摂動後の画像データの特徴ベクトルを算出する。さらに、特徴摂動部１３７は、計量算出部１３６が算出した特徴ベクトルを摂動し、得られた複数の特徴ベクトルを識別部１３８に出力する。

　識別部１３８は、教師ラベルと、推論用の画像データ１４５から得られた複数の特徴ベクトルと、計量空間選択部１３４により選択された計量空間について事例辞書１２７に記憶されている多数の事例との間で最近傍認識などを行い、推論用の画像データ１４５のクラスを識別する。識別結果は結果出力部１３９に供給される。

　結果出力部１３９は、識別部１３８によるクラスの識別結果に加えて、識別部１３８により選択された近傍の事例に対応する画像と、その事例に紐づく教師ラベル及び付加情報とを出力する。具体的には、結果出力部１３９は、これらの情報を図３に示す表示部１０７などに表示する。これにより、推論用の画像データ１４５に含まれる認識対象が新クラスであったとしても、ユーザは識別結果のクラスのみならず、その認識対象と近い事例に紐づく画像、教師ラベル、付加情報などを見ることができるので、認識結果の妥当性などを直感的に判断することが可能となる。

　（推論処理）
　次に、推論のための物体認識装置１００Ｂによる推論処理について説明する。図７は、推論のための物体認識装置による推論処理のフローチャートである。この処理は、図３に示すプロセッサ１０３が予め用意されたプログラムを実行することにより実施される。

　まず、画像摂動部１３１が辞書選択用の画像データ１４１を摂動し（ステップＳ２１）、計量算出部１３２は複数の計量空間について摂動後の画像データの特徴ベクトルを算出する（ステップＳ２２）。次に、特徴摂動部１３３が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成する（ステップＳ２３）。そして、計量空間選択部１３４は、複数の特徴ベクトルと、事例辞書１２７において各計量空間上に埋め込まれている事例とを用いて性能評価を行い、最適な計量空間を選択する（ステップＳ２４）。

　こうして最適な計量空間が選択されると、次に、推論用の画像データ１４５に対する識別が行われる。画像摂動部１３５は推論用の画像データ１４５を摂動し（ステップＳ２５）、計量算出部１３６は、ステップＳ２４で選択された計量空間について摂動後の画像データの特徴ベクトルを算出する（ステップＳ２６）。次に、特徴摂動部１３７が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成し（ステップＳ２７）、識別部１３８は選択された計量空間における事例との間で最近傍認識などの手法によりクラスを識別する（ステップＳ２８）。そして、結果出力部１３９は、クラスの識別結果を、その識別に使用した事例の画像データ、教師ラベル、付加情報などとともに出力する（ステップＳ２９）。こうして、推論処理は終了する。

　（識別結果の表示例）
　図８は、上記の推論処理による認識結果の表示例を示す。図８（Ａ）は、新クラスとしてポリタンクを追加する前の認識結果の表示例を示す。入力画像において３つの物体７１～７３が認識されている。物体７１は実際にはポリタンクを所持する人物であるが、認識対象クラスとしてポリタンクが登録されていないため、認識結果は「旅行バック」となっている。物体７２は歩行者、物体７３は建設作業員であり、これらは既存クラスに該当するため、正しい認識結果が出力されている。

　図８（Ｂ）は、上記の実施形態の方法により、新クラスとしてポリタンクを追加した後の認識結果の表示例を示す。新クラスとしてポリタンクが追加されているため、物体７１は「ポリタンク」と正しく認識されている。また、事例辞書に新クラス「ポリタンク」の代表的な画像データが登録されているため、その画像データ７５が一緒に表示されている。このように、認識結果に対して、代表的な画像などの補助的情報が出力されるため、ユーザは認識結果の妥当性などを直感的に判断することが可能となる。

　（変形例）
（１）上記の推論処理では、計量空間選択部１３４は、既存クラスの画像データを評価用データとして用いて複数の計量空間を評価し、最適な計量空間を選択している。これに加えて、計量空間選択部１３４は、新クラスの画像データを評価用データとして使用してもよい。この場合、新クラスの画像データについては正解ラベル（正解クラス）が用意されていないことが考えられるが、その場合でも、新クラスの複数の事例が、計量空間上で他の既存クラスの事例と離れた位置でまとまりを形成しているような場合には、その計量空間が適切な性能を有していると評価することができる。よって、対象となる新クラスの事例の集合が計量空間上でより狭い領域に集まっており、さらに新クラス以外の集合との距離が遠いものを、最良の特徴を持つ事例辞書として選択すればよい。より具体的には、例えば、新クラスの各事例毎に、当該事例と新クラスの他の事例との距離の平均値Ａと、当該事例と既存クラスの事例との距離の平均値Ｂの比を求め、この比が小さいものを選択すればよい。

（２）上記の実施形態では、人物属性データ（付帯物、年齢など）と、人物クラスデータ（警察官、消防士など）を用いて計量空間を学習している。その代わりに、人物属性データのみを用いて計量空間を学習し、得られた各計量空間を初期値として、人物クラスデータを用いて再学習（ファインンチューニング）した後、性能評価して最適な計量空間を選択するようにしてもよい。

　（３）上記の実施形態では、人物属性データと人物クラスデータに基づいて計量空間を学習している。その際に、ニューラルネットワークにおける重みを、人物属性識別タスクと人物クラス識別タスクの両方で共有してもよい。具体的に、最適化（計量空間の学習）を行う際に、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について重みを設定して学習を行うようにしてもよい。例えば、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について、最適化の前半ではどちらか一方の損失関数の寄与（係数）を大きくし、最適化の後半ではその損失関数における寄与（係数）を小さくする。これにより、人物属性の識別が可能で、人物クラスの識別も可能なモデルを獲得できるため、より高性能な識別が期待できる。

　さらに、人物属性データも流用できるため、人物クラスのデータが少ない場合に有効である。一般的に、公開画像データセットなどは、多数の人物属性データを含んでいるが、人物クラスデータは少ない場合が多い。そこで、最初は人物属性識別タスクの損失関数に対する重みを大きくして学習を開始し、その後に人物クラス識別タスクの損失関数に対する重みを大きくして各人物クラスに特化する学習を行う。これにより、人物属性データが多数あり、人物クラスデータが少ないという状況でも、人物クラスデータを有効活用して計量空間の学習が可能となる。

　（４）上記の実施形態では、画像摂動部により画像データを摂動させているが、画像摂動の方法としては以下の方法を使用してもよい。第１の方法としては、複数の人物の画像をそれぞれ身体のパーツ（頭、胴体、手、足など）などの部分的な領域に分解し、これらを貼り合わせて人物の画像を生成する。なお、身体のパーツの境界部にはαブレンディングなどの画像処理を施す。第２の方法としては、まず、キーポイント検出により、画像データに含まれる人物の身体の関節位置を検出する。次に、アフィン変換、ヘルマート変換、ホモグラフィ変換、Ｂ－スプライン補間などの幾何変換を用いて、キーポイントの位置を正規化し、関節の位置を揃えた画像を生成する。そして、ノイズの付与などにより、キーポイントの位置を微小にずらして、摂動を与える。

　また、特徴摂動部は、敵対的事例生成を用いて微小摂動事例を生成してもよい。具体的には、入力画像に対して微小のノイズを加える際に、対象となる事例が属するクラスと同じクラスの事例群との距離が最も離れている事例を採用する。即ち、入力画像に対して微小ノイズを付与することにより得られる事例が、計量空間上で既存の事例と遠ければ採用し、既存の事例に近ければ不採用とする。

　（５）上記の実施形態では、計量空間の学習及び計量空間の選択において、画像及び特徴ベクトルを摂動させているが、十分な量の画像データが用意できる場合には、画像及び特徴ベクトルの摂動を行わなくてもよい。

　［第２実施形態］
　次に、本発明の第２実施形態について説明する。図８（Ａ）は、第２実施形態に係る学習装置５０の構成を示す。学習装置５０は、計量空間学習部５１と、事例記憶部５２とを備える。計量空間学習部５１は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部５２は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する。こうして、異なる属性の組み合わせ毎に計量空間が学習され、それに関連付けて事例と追加情報が記憶される。

　図８（Ｂ）は、第２実施形態に係る推論装置の構成を示す。推論装置６０は、事例記憶部６１と、計量空間選択部６２と、識別部６３と、結果出力部６４とを備える。事例記憶部６１は、異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶している。計量空間選択部６２は、事例記憶部６１から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて複数の計量空間を評価して、一の計量空間を選択する。識別部６３は、推論用画像データから抽出された特徴ベクトルと、一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する。結果出力部６４は、識別部６３による識別結果を、識別に用いた事例に関連する追加情報とともに出力する。こうして、事例記憶部６１に記憶されている事例を用いて、推論用画像データを識別し、識別に用いた事例に関連する追加情報とともに出力することができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、
　を備える学習装置。

　（付記２）
　前記追加情報は、前記事例に対応する代表的な画像データを含む付記１に記載の学習装置。

　（付記３）
　前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む付記２に記載の学習装置。

　（付記４）
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する学習方法。

　（付記５）
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　（付記６）
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
　前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、
　を備える推論装置。

　（付記７）
　前記事例記憶部から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部を備え、
　前記識別部は、推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する付記６に記載の推論装置。

　（付記８）
　前記追加情報は、前記事例に対応する代表的な画像データを含み、
　前記結果出力部は、前記識別結果と、前記代表的な画像データとを表示装置に表示する付記６又は７に記載の推論装置。

　（付記９）
　前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む付記６乃至８のいずれか一項に記載の推論装置。

　（付記１０）
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する推論方法。

　（付記１１）
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０　計量空間
　１００　物体認識装置
　１０３　プロセッサ
　１１１　ラベル選択部
　１１２　計量空間学習部
　１１３、１３１、１３５　画像摂動部
　１１４、１３２、１３６　計量算出部
　１１５、１３３、１３７　特徴摂動部
　１１６　事例埋め込み部
　１２７　事例辞書
　１７０　端末装置
　１３８　識別部
　１２９　結果出力部

Claims

　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する事例記憶部と、
　を備える学習装置。
　前記追加情報は、前記事例に対応する代表的な画像データを含む請求項１に記載の学習装置。
　前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む請求項２に記載の学習装置。
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する学習方法。
　属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
　事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶するとともに、当該事例に関連する追加情報を記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部と、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
　前記識別部による識別結果を、識別に用いた事例に関連する追加情報とともに出力する結果出力部と、
　を備える推論装置。
　前記事例記憶部から複数の計量空間を取得し、選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部を備え、
　前記識別部は、推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する請求項６に記載の推論装置。
　前記追加情報は、前記事例に対応する代表的な画像データを含み、
　前記結果出力部は、前記識別結果と、前記代表的な画像データとを表示装置に表示する請求項６又は７に記載の推論装置。
　前記追加情報は、前記事例用画像データの教師ラベル、撮影条件、環境情報のいずれかを含む請求項６乃至８のいずれか一項に記載の推論装置。
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する推論方法。
　異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶するとともに、当該事例に関連する追加情報を記憶した事例記憶部から計量空間を取得し、
　推論用画像データから抽出された特徴ベクトルと、前記計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、
　識別結果を、識別に用いた事例に関連する追加情報とともに出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。