WO2020179378A1

WO2020179378A1 - 情報処理システム、情報処理方法および記録媒体

Info

Publication number: WO2020179378A1
Application number: PCT/JP2020/005178
Authority: WO
Inventors: 貴裕戸泉
Original assignee: 日本電気株式会社
Priority date: 2019-03-04
Filing date: 2020-02-10
Publication date: 2020-09-10
Also published as: JPWO2020179378A1; JP7259935B2; US20220139069A1

Abstract

本発明による情報処理システムは、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択部と、選択された２枚以上の画像の特徴空間上の位置に基づいて、第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択部と、第１のデータセットに含まれる学習データと、第２選択部によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習部とを備える。

Description

情報処理システム、情報処理方法および記録媒体

　本発明は、情報処理システム、情報処理方法および記録媒体に関する。

　ゼロショット認識は、学習データに画像例のない物体を認識する認識手法である。ゼロショット認識におけるテストデータは、学習データに画像例のない物体の画像である未知の画像を含む。ゼロショット認識は、認識対象の物体についての補助的な情報である補助情報を活用することで、テストデータに含まれる未知の画像の内容を示すラベルを推定する。

　ゼロショット認識は、例えば非特許文献１に記載されている。非特許文献１は、補助情報として単語の分散表現が用いられている。

Ａ．　Ｆｒｏｍｅ，　Ｇ．　Ｓ．　Ｃｏｒｒａｄｏ，　Ｊ．　Ｓｈｌｅｎｓ，　Ｓ．　Ｂｅｎｇｉｏ，　Ｊ．　Ｄｅａｎ，Ｍ．　Ａ．　Ｒａｎｚａｔｏ，　ａｎｄ　Ｔ．　Ｍｉｋｏｌｏｖ，　"ＤｅＶｉＳＥ：　Ａ　Ｄｅｅｐ　Ｖｉｓｕａｌ－Ｓｅｍａｎｔｉｃ　Ｅｍｂｅｄｄｉｎｇ　Ｍｏｄｅｌ，"　Ｉｎ　ＮＩＰＳ，　２０１３．

　ゼロショット認識は、未知の画像の認識の精度が十分に得られないという問題がある。その理由は、学習データ内に、未知の画像データと類似する画像データが少ないためである。上記の問題を解決できる、画像のラベルを高精度に推定するモデルを生成する情報処理システムが、求められている。

　本発明は、上述した課題を解決する情報処理システム、情報処理方法および情報処理プログラムを提供することを目的とする。

　本発明による情報処理システムは、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択手段と、前記第１選択手段によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択手段と、前記第１のデータセットに含まれる学習データと、前記第２選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段とを備える。

　本発明による情報処理方法は、画像、前記画像に関連付けられたラベルおよび補助情報含む学習データを含む第１のデータセットから２枚以上の画像を選択し、前記第１のデータセットから選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択し、前記第１のデータセットに含まれる学習データと、前記第２のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する。

　本発明による記録媒体は、画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択処理と、前記第１選択処理によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択処理と、前記第１のデータセットに含まれる学習データと、前記第２選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理とをコンピュータに実行させるプログラムを記録する。

　また、本発明の目的は、上記のプログラムが格納されたコンピュータ読み取り可能な記録媒体によっても達成される。

　本発明によれば、画像のラベルを高精度に推定するモデルを生成することができる。

第１実施形態に係る情報処理システムを例示するブロック図である。第１実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。第１実施形態の第１のデータセットの画像の特徴量の分布の一例を表す図である。第１実施形態の学習に用いられるデータセットの一例を表す図である。本発明が適用されていない場合の学習データとテストデータの一例を表す図である。本発明が適用された場合の学習データとテストデータの一例を表す図である。第２実施形態に係る情報処理システムを例示するブロック図である。第２実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。第２実施形態の第１のデータセットから算出した代表値の分布の一例を表す図である。第２実施形態の第２のデータセットから選択された学習に用いられる学習データの一例を表す図である。第３実施形態に係る情報処理システムを例示するブロック図である。第３実施形態の情報処理システムによって実行される処理の流れを例示するフローチャートである。本発明による情報処理システムのハードウェア構成例を示す説明図である。

　以下、本発明の実施の形態についての説明は、図面を用いた説明である。尚、すべての図面において、同様な構成要素は、同様の符号を付し、適宜説明が省略されている。また、特に説明がされている場合を除き、各ブロック図において、各ブロックは、ハードウェア単位の構成ではなく機能単位の構成を表している。

＜第１実施形態＞
［構成の説明］
　図１は、本実施形態における情報処理システム１０００の機能ブロックの一例を示す図である。本実施形態における情報処理システム１０００は、第１選択部１１００と、第２選択部１２００と、学習部１３００とを備えている。

　第１選択部１１００は、学習データを含む第１のデータセットを取得する。第１のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。

　ラベルは、ラベルが含まれる学習データの正解を示す情報である。ラベルは、関連付けられた画像に表される対象の正解を示す単語や文章などである。同一のラベルが関連付けられている画像は、同一のクラスに属する。クラスは、対象を分類する区分である。クラスは、下位のクラスと上位のクラスからなる階層構造であってもよい。例えば、ダルメシアンの画像は、ラベルが示す単語である「ダルメシアン」のクラスと、ダルメシアンの上位クラスである「犬」のクラスとに分類されてもよい。

　補助情報は、認識対象の物体のラベルを推定する際に補助的に用いられる情報である。例えば、補助情報は、単語の分散表現（単語埋め込み）、属性、辞書定義文、画像説明文、視線情報等である。単語の分散表現は、ラベルが示す単語から生成することができる情報である。具体的には、単語の分散表現は、同じ文脈で現れる単語は似た意味を持つ傾向にあるという分布仮説に基づき、大量のテキストコーパスを用いて生成される。属性は、画像が示す物体の特性を表す情報である。例えば、属性は、「ふわふわとした」、「黄色い」、「四本足の」などの情報である。辞書定義文は、ラベルが示す単語が意味する概念を別の単語を用いて説明した文を含む情報である。画像説明文は、画像が示す情景について自然言語で書き下した文を含む情報である。視線情報は、画像を見る人の視線の動きの情報である。

　第１選択部１１００は、取得した第１のデータセットから画像を選択する。例えば、第１選択部１１００は、第１のデータセットから２枚以上の画像をランダムに選択してもよい。または、第１選択部１１００は、異なるクラスのラベルが関連付けられた２枚以上の画像を選択してもよい。例えば、第1選択部１１００は、学習データの各クラスから任意にひとつずつの画像を選択してもよい。

　第１選択部１１００は、選択した画像を出力する。

　第２選択部１２００は、第１選択部１１００が選択した画像と、第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットとを取得する。

　第２のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。

　第２選択部１２００は、第１選択部１１００によって選択された画像に基づいて、第２のデータセットから画像を選択する。具体的には、第２選択部１２００は、第１選択部１１００によって選択された２枚以上の画像の特徴空間上の位置の中間に対応する画像を、第２のデータセットから選択する。第２選択部１２００は、第１選択部１１００によって選択された２枚以上の画像と第２のデータセットに含まれる画像とから特徴量を抽出する。例えば、第２選択部１１００は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。

　第２選択部１２００は、第１選択部１１００によって選択された２枚以上の画像から抽出した特徴量の重み付き平均ｘ_ｎｅｗを、式（１）を用いて算出する。

　ここで、式（１）におけるｗ_ｉは、重みである。ｘ_ｉは、画像の特徴量である。ｎは、２枚以上の整数である。なお、ｘ_ｉは画像の特徴量に限られず、画像の画素値等であってもよい。

　第１選択部１１００によって画像が２つ選択された場合、重み付き平均ｘ_ｎｅｗは、以下の式（２）を用いて算出される。

　なお、式（２）におけるｗ_ｉ、ｗ_ｊは、重みであり、ｘ_ｉ、ｘ_jは、画像の特徴量である。

　重み付き平均の算出に用いる重みは、定数であってもよい。例えば、重みは、（ｗ_ｉ，ｗ_ｊ）＝（０．４，０．６）という定数であってもよい。または重みは、乱数を用いて生成された値であってもよい。例えば、乱数を用いた重みの生成は、α＝βという条件を持つベータ分布を乱数生成の分布として用いることで、２つのデータで対称な分布を用いて重み付けを行う。乱数を用いた重みの生成は、αの値をハイパーパラメータとして動かすことで、一様分布からどちらか一方のみを選ぶ分布までを表現することができる。

　第２選択部１２００は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量との類似を判定する。そして、第２選択部１２００は、類似度が閾値以上である特徴量の画像を第２のデータセットから選択する。

　例えば、第２選択部１２００は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量との類似判定にはコサイン類似度を用いる。以下の説明は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量が、ベクトルである場合の説明である。第２選択部１２００は、２つのベクトルの長さが１となるように正規化し、正規化したベクトル間の内積を求める。第２選択部１２００は、求めた内積が所定の値以上となる重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量とが類似であると判定する。類似判定は、コサイン類似度に限らず、ユークリッド距離、マハラノビス距離、ＫＬダイバージェンス、Ｅａｒｔｈ　ｍｏｖｅｒ’ｓ　ｄｉｓｔａｎｃｅ等を用いてもよい。

　第２選択部１２００は、第２のデータセットから選択した画像に対応する学習データを出力する。

　学習部１３００は、第１のデータセットの学習データと、第２選択部１２００が選択した画像に対応する第２のデータセットの学習データを取得する。

　学習部１３００は、取得した学習データを用いて、モデルを学習する。具体的には、学習部１３００は、取得した画像から特徴量を抽出する。そして学習部１３００は、抽出した特徴量を補助情報に変換する写像関数を学習する。なお、写像関数は画像特徴から補助情報への変換だけでなく、補助情報から画像特徴への変換であってもよい。

　例えば、取得した学習データに含まれる補助情報が分散表現（単語埋め込み）である場合、学習部１３００は、画像の特徴量を分散表現に変換する写像関数を学習する。また、学習部１３００は、取得したデータセットのラベルを、学習済みのｗｏｒｄ２ｖｅｃ等を用いて分散表現に変換し、補助情報として学習に用いてもよい。

　例えば、取得した学習データに含まれる補助情報が属性である場合、学習部１３００は、画像の特徴量を属性に変換する写像関数を学習する。

　また、学習部１３００は、例えば、非特許文献１に記載されている学習方法を用いてもよい。

　学習部１３００は、モデルの学習済みパラメータを出力する。

　上記説明は、学習データが、画像と、ラベルと、補助情報とを含む例の説明である。しかし学習データは、これに限定されるものではない。学習データは、画像の特徴量を含んでいてもよい。あるいは、学習データは、画像の代わりに画像の特徴量を含んでいてもよい。学習データが画像の特徴量を含む場合には、第２選択部１２００や学習部１３００には、特徴量の抽出を省略することができる。また、学習データは、各補助情報が観測される確率から計算される重み等の追加情報を含んでいてもよい。

　学習データのラベルは、１つの画像に対して複数関連付けられていてもよい。また、ラベルは、補助情報に関連付けられていてもよい。また、ラベルは、補助情報を用いて生成されたものであってもよい。例えば、ラベルは、第１選択部１１００、第２選択部１２００に取得される前に生成されていてもよい。ラベルは、第１選択部１１００、第２選択部１２００、学習部１３００のいずれで生成されてもよい。

　学習データの補助情報は、１つの画像に対して複数関連付けられていてもよい。また、補助情報はラベルに関連付けられていてもよい。また、補助情報は、画像とラベルのいずれか一方、又は両方を用いて生成されたものであってもよい。例えば、補助情報は、第１選択部１１００、第２選択部１２００に取得される前に生成されていてもよい。補助情報は、第１選択部１１００、第２選択部１２００、学習部１３００のいずれで生成されてもよい。

［動作の説明］
　図２は、第１実施形態の情報処理システム１０００によって実行される処理の流れを例示するフローチャートである。

　図３は、第１のデータセットの画像の特徴量の分布の一例を表す図である。図中の図形は、第１のデータセットの各学習データを表しており、形が同一の図形であれば同一のクラスに属していることを表している。同一のクラスに属する学習データの画像は、画像の特徴量が類似する。従って、同一のクラスに属する学習データは、固まって分布する。図３の分布は、３種類のクラスに分類される学習データの画像の特徴量の分布を表す。

　図４は、学習に用いられるデータセットの一例を表す図である。図中の星形の図形は、第２選択部１２００に選択された第２のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図３と同様の第１のデータセットの学習データを表している。図４の分布は、第１のデータセットの学習データの分布の間に、選択された第２のデータセットの画像の特徴量が追加された、学習に用いられるデータセットの分布を表す。

　ステップＳ１０１では、第１選択部１１００は、第１のデータセットを取得する。

　ステップＳ１０２では、第２選択部１２００は、第２のデータセットを取得する。

　ステップＳ１０３では、第１選択部１１００は、第１のデータセットから２枚以上の画像を選択する。第１選択部１１００は、選択した２枚以上の画像を出力する。なお、ステップＳ１０２とステップＳ１０３は、順序を逆にしてもよい。

　ステップＳ１０４では、第２選択部１２００は、ステップＳ１０３で選択された２枚以上の画像を取得する。第２選択部１２００は取得した２枚以上の画像に基づいて、第２のデータセットから画像を選択する。第２選択部１２００は、選択した画像に対応する学習データを出力する。

　例えば、ステップＳ１０３では、第１選択部１１００は、図３のような分布となる第１のデータセットから画像を２つ選択する。ステップＳ１０４では、第２選択部１２００は、選択された２つの画像の中間に位置する画像を選択する。

　ステップＳ１０３とステップＳ１０４は、所定の回数繰り返して実行されてもよい。ステップＳ１０３とステップＳ１０４の繰り返し処理は、第２のデータセットから閾値以上の個数の画像が選択された場合に、終了してもよい。また、ステップＳ１０３とステップＳ１０４の繰り返し処理は、ステップＳ１０３とステップＳ１０４をあらかじめ設定していた回数繰り返した場合に、終了してもよい。図４は、第２選択部１２００によって第２のデータセットから画像が複数回選択された後であり、第１のデータセットの学習データの分布の間に、選択された第２のデータセットの画像の特徴量が複数回追加された、学習に用いられるデータセットを表している。

　ステップＳ１０５では、学習部１３００は、第１のデータセットと第２選択部１２００が選択した画像に対応する第２のデータセットの学習データを取得し、取得した学習データを用いてモデルを学習する。

　ステップＳ１０６では、学習部１３００は、ステップＳ１０５で学習したモデルの学習済みパラメータを出力する。学習済みパラメータを出力した後、情報処理システム１０００は、処理を終了する。

［効果の説明］
　本実施形態の情報処理システム１０００は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム１０００は、未知の画像データに類似する特徴量を持つ可能性の高い画像を追加した学習データで学習するので、ゼロショット認識の推定精度の高いモデルを提供することができる。

　図５は本発明が適用されていない場合の学習データとテストデータの一例を表す図であり、図６は本発明が適用された場合の学習データとテストデータの一例を表す図である。図５の図中の逆三角形の図形は、第１のデータセットのテストデータを表している。図中のその他の図形は、第１のデータセットの各学習データを表しており、形が同一であれば同一のクラスに属していることを表している。図５の分布は、３種類のクラスに分類される学習データとテストデータの画像の特徴量の分布を表している。図６の図中の星形の図形は、第２選択部１２００に選択された第２のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図５と同様の第１のデータセットの学習データとテストデータを表している。図６の分布は、第１のデータセットの学習データの分布の間に、選択された第２のデータセットの画像の特徴量が追加された、本発明が適用された場合の学習データとテストデータの分布を表している。第２選択部１２００は、第１選択部１１００が選択した２枚以上の画像の特徴量の中間に位置する画像の特徴量を選択し、追加するので、学習部１３００は、図６のような学習データで学習が可能となる。図６は、第２選択部１２００が、テストデータの近傍に分布する画像の特徴量を持つ画像を、第２のデータセットから選択して追加したことを表している。学習部１３００は、テストデータに類似する特徴量を持つ画像を追加した学習データで学習できる。つまり、本実施形態の情報処理システム１０００は、テストデータの画像の特徴量に類似した特徴量を持つ画像を学習したモデルで認識ができるので、テストデータに対するゼロショット認識の精度が高いモデルを提供することができる。

　第１選択部１１００において、異なるクラスのラベルが関連付けられた２枚以上の画像を選択する場合、第１選択部１１００は、同一のクラスから２枚以上の画像の選択を避けることができる。第１選択部１１００が異なるクラスのラベルが関連付けられた２枚以上の画像の特徴量の選択することで、第２選択部１２００は、異なるクラスのラベルが関連付けられた２枚以上の画像の中間に位置する画像の特徴量を選択する。従って、第２選択部１２００は、第１のデータセットの学習データの画像の特徴量に類似し過ぎた画像の特徴量を選択することを避けることができる。第２選択部１２００は、第１のデータセットの学習データの画像の特徴量に類似し過ぎず、異なるクラスのラベルが関連付けられた２枚以上の画像の中間に位置する画像の特徴量を選択する。従って、本実施形態の情報処理システム１０００は、テストデータに類似する画像の特徴量を選択して学習データに追加する可能性を高めることができる。

＜第２実施形態＞
［構成の説明］
　図７は、本実施形態における情報処理システム１００１の機能ブロックの一例を示す図である。本実施形態における情報処理システム１００１は、算出部１４００と、第１選択部１１０１と、第２選択部１２０１と、学習部１３００とを備えている。

　算出部１４００は、学習データを含む第１のデータセットを取得する。例えば、第１のデータセットに含まれる学習データは、画像と、ラベルと、補助情報とを含む。ラベルと補助情報は、画像に関連付けられている。

　算出部１４００は、取得した画像の特徴量を抽出する。例えば、算出部１４００は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。

　算出部１４００は、取得した第１のデータセットの画像とラベルから、ラベルのクラス毎の画像の代表値を算出する。例えば、算出部１４００は、取得した画像の特徴量の平均値を、その画像のラベルが属するクラスの代表値として算出する。代表値の算出に用いる方法は、平均値の算出に限られず、様々な統計量を用いてよい。例えば、代表値の算出に用いる方法は、中央値、最頻値、標準偏差、分散等の統計値を用いてもよい。

　代表値の算出に用いる画像は、クラス毎のすべての画像でもよく、任意に選ばれた画像でもよい。例えば、代表値の算出に用いる画像は、第１のデータセットからラベル毎に所定の個数ずつランダムに選択された画像でもよい。

　算出部１４００は、算出した代表値を出力する。

　第１選択部１１０１は、算出部１４００が算出した代表値を取得する。

　第１選択部１１０１は、取得した代表値から２枚以上の代表値を任意に選択する。例えば、第１選択部１１０１は、取得した代表値から２枚以上の代表値をランダムに選択してもよい。

　第１選択部１１０１は、選択した代表値を出力する。

　第２選択部１２０１は、第１選択部１１０１が選択した代表値と、第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットとを取得する。

　第２選択部１２０１は、第１選択部１１０１によって選択された代表値に基づいて、第２のデータセットから画像を選択する。具体的には、第２選択部１２０１は、第１選択部１１０１によって選択された２枚以上の代表値の特徴空間上の位置の中間に対応する画像を、第２のデータセットから選択する。第２選択部１２０１は、第２のデータセットに含まれる画像から特徴量を抽出する。例えば、第２選択部１２０１は、学習済みのニューラルネットワークを用いて画像を特徴量に変換することができる。

　第２選択部１２０１は、第１選択部１１０１によって選択された２枚以上の代表値の重み付き平均ｘ_ｎｅｗを、式（１）を用いて算出する。ここで、式（１）におけるｗ_ｉは、重みである。ｘ_ｉは、代表値である。ｎは、２枚以上の整数である。

　第１選択部１１０１によって代表値が２つ選択された場合、重み付き平均ｘ_ｎｅｗは、式（２）を用いて算出される。なお、式（２）におけるｗ_ｉ、ｗ_ｊは、重みであり、ｘ_ｉ、ｘ_jは、代表値である。

　重み付き平均の算出に用いる重みは、定数であってもよい。例えば、重みは、（ｗ_ｉ，ｗ_ｊ）＝（０．４，０．６）という定数であってもよい。または重みは、乱数を用いて生成された値であってもよい。例えば、乱数を用いた重みの生成は、α＝βという条件を持つベータ分布を乱数生成の分布として用いることで、２つのデータで対象な分布を用いて重み付けを行う。乱数を用いた重みの生成は、αの値をハイパーパラメータとして動かすことで、一様分布からどちらか一方のみを選ぶ分布までを表現することができる。

　第２選択部１２０１は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量との類似を判定する。そして、第２選択部１２０１は、類似度が閾値以上である特徴量の画像を第２のデータセットから選択する。

　例えば、第２選択部１２０１は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量との類似判定にはコサイン類似度を用いる。以下の説明は、重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量が、ベクトルである場合の説明である。第２選択部１２０１は、２つのベクトルの長さが１となるように正規化し、正規化したベクトル間の内積を求める。第２選択部１２０１は、求めた内積が所定の値以上となる重み付き平均ｘ_ｎｅｗと第２のデータセットの画像の特徴量とが類似であると判定する。類似判定は、コサイン類似度に限らず、ユークリッド距離、マハラノビス距離、ＫＬダイバージェンス、Ｅａｒｔｈ　ｍｏｖｅｒ’ｓ　ｄｉｓｔａｎｃｅ等を用いてもよい。

　第２選択部１２０１は、第２のデータセットから選択した画像に対応する学習データを出力する。

　本実施形態の学習部１３００が有する機能は、第１の実施形態の学習部１３００と同様である。

　上記説明は、学習データが、画像と、ラベルと、補助情報とを含む例の説明である。しかし、学習データは、これに限定されるものではない。学習データは、画像の特徴量を含んでいてもよい。あるいは、学習データは、画像の代わりに画像の特徴量を含んでいてもよい。学習データが画像の特徴量を含む場合には、算出部１４００、第２選択部１２０１、学習部１３００における特徴量の抽出は、省略することができる。また、学習データは、各補助情報が観測される確率から計算される重み等の追加情報を含んでいてもよい。

　学習データのラベルは、１つの画像に対して複数関連付けられていてもよい。また、ラベルは補助情報に関連付けられていてもよい。また、ラベルは、補助情報を用いて生成されたものであってもよい。例えば、ラベルは、算出部１４００、第２選択部１２０１に取得される前に生成されていてもよい。ラベルは、算出部１４００、第１選択部１１０１、第２選択部１２０１、学習部１３００のいずれで生成されてもよい。

　学習データの補助情報は、１つの画像に対して複数関連付けられていてもよい。また、補助情報はラベルに関連付けられていてもよい。また、補助情報は、画像とラベルのいずれか一方、又は両方を用いて生成されたものであってもよい。例えば、補助情報は、算出部１４００、第２選択部１２０１に取得される前に生成されていてもよい。補助情報は、算出部１４００、第１選択部１１０１、第２選択部１２０１、学習部１３００のいずれで生成されてもよい。

［動作の説明］
　図８は、第２実施形態の情報処理システム１００１によって実行される処理の流れを例示するフローチャートである。

　図９は、第１のデータセットから算出した代表値の分布の一例を表す図である。図中の図形は、第１のデータセットの各クラスの代表値を表しており、図形の形ごとにクラスが異なることを表している。図９の分布は、３種類のクラスに分類される学習データの代表値の分布を表す。

　図１０は、第２のデータセットから選択された学習に用いられる学習データの一例を表す図である。図中の星形の図形は、第２選択部１２０１に選択された第２のデータセットの学習データの画像の特徴量を表している。図中のその他の図形は、図９と同様の第１のデータセットの各クラスの代表値を表している。図１０の分布は、第１のデータセットの各クラスの代表値の分布の間に、選択された第２のデータセットの画像の特徴量が追加された、学習に用いられるデータセットの分布を表す。

　ステップＳ２０１では、算出部１４００は、第１のデータセットを取得する。

　ステップＳ２０２では、第２選択部１２０１は、第２のデータセットを取得する。

　ステップＳ２０３では、算出部１４００は、取得した第１のデータセットから代表値を算出する。算出部１４００は、算出した代表値を出力する。なお、ステップＳ２０２とステップＳ２０３は順序を逆にしてもよい。

　ステップＳ２０４では、第１選択部１１０１は、算出部１４００から代表値を取得し、取得した代表値から２枚以上の代表値を選択する。第１選択部１１０１は、選択した２枚以上の代表値を出力する。なお、ステップＳ２０２は、ステップＳ２０４とステップＳ２０５の間に行われてもよい。

　ステップＳ２０５では、第２選択部１２０１は、ステップＳ２０４で選択された２枚以上の代表値を取得する。第２選択部１２０１は、取得した２枚以上の代表値に基づいて、第２のデータセットから画像を選択する。第２選択部１２０１は、選択した画像に対応する学習データを出力する。

　例えば、ステップＳ２０４では、第１選択部１１０１は、図９のような分布となる第１のデータセットの代表値から、代表値を２つ選択する。ステップＳ２０５では、第２選択部１２０１は、選択された２つの代表値の中間に位置する画像を選択する。

　ステップＳ２０４とステップＳ２０５は、所定の回数繰り返して実行されてもよい。ステップＳ２０４とステップＳ２０５の繰り返し処理は、第２のデータセットから閾値以上の個数の画像が選択された場合に、終了してもよい。また、ステップＳ２０４とステップＳ２０５の繰り返し処理は、ステップＳ２０４とステップＳ２０５をあらかじめ設定していた回数繰り返した場合に、終了してもよい。図１０は、第２選択部１２０１によって第２のデータセットから画像が複数回選択された後であり、第１のデータセットの代表値の分布の間に、選択された第２のデータセットの画像の特徴量が複数回追加されたデータセットを表している。複数回の選択によって選択された第２のデータセットの画像に対応する学習データと第１のデータセットとが、学習に用いられる。

　ステップＳ２０６では、学習部１３００は、第１のデータセットと第２選択部１２０１が選択した画像に対応する第２のデータセットの学習データを取得し、取得した学習データを用いてモデルを学習する。

　ステップＳ２０７では、学習部１３００は、ステップＳ２０６で学習したモデルの学習済みパラメータを出力する。学習済みパラメータを出力した後、情報処理システム１００１は、処理を終了する。

［効果の説明］
　本実施形態の情報処理システム１００１は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム１００１は、未知の画像データに類似する特徴量を持つ可能性の高い画像を追加した学習データで学習するので、ゼロショット認識の推定精度の高いモデルを提供することができる。

　本実施形態の情報処理システム１００１は、第１のデータセットの画像が大量にある場合でも、大量の画像がラベル毎の代表値に変換されているため、効率的に繰り返し処理が可能となる。従って、情報処理システム１００１は、計算時間を削減することができる。また、情報処理システム１００１は、ラベル毎の代表値の中間に位置する画像を選択するので、学習データに類似しすぎた画像を追加せずに、効率的にテストデータと類似する特徴量を持つ画像を追加することができる。従って、情報処理システム１００１は、テストデータに類似する画像の特徴量を選択して学習データに追加する可能性を高めることができる。

＜第３実施形態＞
［構成の説明］
　図１１は、本実施形態における情報処理システム１００１の機能ブロックの一例を示す図である。本実施形態における情報処理システム１００２は、取得部１５００と、推定部１６００とを備えている。

　取得部１５００は、推定対象の画像を取得する。

　取得部１５００は、取得した画像を出力する。

　推定部１６００は、第１のデータセットと、第１のデータセットの２枚以上の画像の特徴空間上の位置に基づいて第２のデータセットから選択された画像に対応する第２のデータセットの学習データと、を用いて学習されたモデルを用いて、取得部１５００によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する。例えば、推定部１６００が用いる学習されたモデルは、第１実施形態、第２実施形態で学習されたモデルである。また、推定部１６００は、推定対象となる物体の正解ラベルを保持または取得していてもよい。

　例えば、補助情報に分散表現（単語埋め込み）を用いて学習されたモデルを用いる場合、推定部１６００は、取得部１５００によって取得された画像を、学習されたモデルを用いて分散表現に変換する。推定部１６００は、保持または取得している正解ラベルから、変換された分散表現に最も類似する分散表現を持つ正解ラベルを判定し、推定結果とする。推定部１６００は、正解ラベルを学習済みのｗｏｒｄ２ｖｅｃ等を用いて分散表現に変換し、最も類似する分散表現を持つ正解ラベルの判定に用いてもよい。また、推定部１６００は、変換された分散表現を推定結果として出力してもよい。

　例えば、推定部１６００は、補助情報に属性を用いる場合、取得部１５００によって取得された画像を、学習されたモデルを用いて属性に変換する。推定部１６００は、保持または取得している正解ラベルから、変換された属性に最も類似する属性が関連付けられている正解ラベルを判定し、推定結果とする。また、推定部１６００は、変換された属性を推定結果として出力してもよい。

　推定部１６００は、最も類似する補助情報を判定する際には、例えば、コサイン類似度、ユークリッド距離、マハラノビス距離、ＫＬダイバージェンス、Ｅａｒｔｈ　ｍｏｖｅｒ’ｓ　ｄｉｓｔａｎｃｅ等を用いてもよい。

　推定部１６００は、推定結果を出力する。

　［動作の説明］
　図１２は、第３実施形態の情報処理システム１００２によって実行される処理の流れを例示するフローチャートである。

　ステップＳ３０１では、取得部１５００は、推定対象の画像を取得する。取得部１５００は取得した画像を出力する。

　ステップＳ３０２では、推定部１６００は、取得部１５００から画像を取得し、学習済みモデルを用いて推定する。

　ステップ３０３では、推定部１６００は、推定結果を出力する。推定結果を出力した後、情報処理システム１００２は、処理を終了する。

［効果の説明］
　本実施形態の情報処理システム１００２は、学習データ内に未知の画像データと類似する画像データが少ないために、ゼロショット認識の精度が十分に得られないという問題を解決することができる。つまり、情報処理システム１００２は、テストデータに類似する特徴量を持つ画像を追加した学習データで学習したモデルを用いて推定するので、推定精度の高いゼロショット認識をすることができる。

＜ハードウェア構成＞
　以下の説明は、各実施形態の情報処理システム１０００、情報処理システム１００１、および情報処理システム１００２のハードウェア構成の具体例である。図１３は、本発明による情報処理システムのハードウェア構成例を示す説明図である。

　図１３に示す情報処理システムは、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１０１と、主記憶部１０２と、通信部１０３と、補助記憶部１０４とを備える。また、図１３に示す情報処理システムは、ユーザが操作するための入力部１０５や、ユーザに処理結果または処理内容の経過を提示するための出力部１０６を備えてもよい。

　主記憶部１０２は、データの作業領域やデータの一時退避領域として用いられる。主記憶部１０２は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。

　通信部１０３は、有線のネットワークまたは無線のネットワーク（情報通信ネットワーク）を介して、周辺機器との間でデータを入力および出力する機能を有する。

　補助記憶部１０４は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体は、例えば磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）　、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、半導体メモリが挙げられる。

　入力部１０５は、データや処理命令を入力する機能を有する。入力部１０５は、例えばキーボードやマウス等の入力デバイスである。

　出力部１０６は、データを出力する機能を有する。出力部１０６は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。

　また、図１３に示すように、各構成要素は、システムバス１０７に接続されている。

　補助記憶部１０４は、例えば、第１選択部１１００、第１選択部１１０１、第２選択部１２００、第２選択部１２０１、学習部１３００、算出部１４００、取得部１５００、および推定部１６００を実現するためのプログラムを記憶している。

　また、第１選択部１１００、第１選択部１１０１、第２選択部１２００、第２選択部１２０１、取得部１５００は、通信部１０３を介してデータセット、画像等を受信してもよい。また、推定部１６００は、通信部１０３を介して推定結果を送信してもよい。

　なお、情報処理システム１０００、情報処理システム１００１、および情報処理システム１００２は、ハードウェアにより実現されてもよい。例えば、情報処理システム１０００は、内部に図１に示すような機能を実現するプログラムが組み込まれたＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等のハードウェア部品が含まれる回路が実装されてもよい。

　また、情報処理システム１０００、情報処理システム１００１、および情報処理システム１００２は、図１３に示すＣＰＵ１０１が図１、図７、または図１１に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。

　ソフトウェアにより実現される場合、ＣＰＵ１０１が補助記憶部１０４に格納されているプログラムを、主記憶部１０２にロードして実行し、情報処理システム１０００、情報処理システム１００１、または情報処理システム１００２の動作を制御することによって、各機能が、ソフトウェアにより実現される。

　また、各構成要素の一部または全部は、汎用の回路（ｃｉｒｃｕｉｔｒｙ）または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

　各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　上述した各実施の形態および具体例は、適宜組み合わせて実施されることが可能である。

　各ブロック図に示したブロック分けは、説明の便宜上から表された構成である。各実施形態を例に説明された本発明は、その実装に際して、各ブロック図に示した構成には限定されない。

　また、上述した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではない。

　以上の説明は、本発明を実施するための形態についての説明であったが、上記実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく変更、改良され得ると共に、本発明にはその等価物も含まれる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。　

　（付記１）
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択手段と、
　前記第１選択手段によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択手段と、
　前記第１のデータセットに含まれる学習データと、前記第２選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
　を備える情報処理システム。

　（付記２）
　前記補助情報は、画像に関連付けられたラベルが示す単語の分散表現であり、
　前記学習手段は、分散表現に基づいてラベルを推定するモデルを学習する請求項１に記載の情報処理システム。

　（付記３）
　前記補助情報は、画像が示す物体の特性を表す属性であり、
　前記学習手段は、属性に基づいてラベルを推定するモデルを学習する請求項１に記載の情報処理システム。

　（付記４）
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴空間上の位置の中間に対応する画像を前記第２のデータセットから選択する請求項１から３のいずれか１項に記載の情報処理システム。

　（付記５）
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴量の重み付き平均と類似する特徴量に対応する画像を前記第２のデータセットから選択する請求項４に記載の情報処理システム。

　（付記６）
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴量の重み付き平均との類似度が閾値を超える特徴量に対応する画像を前記第２のデータセットから選択する請求項５に記載の情報処理システム。

　（付記７）
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットの画像と、前記画像に関連付けられたラベルとから、前記ラベル毎に前記画像の代表値を算出する算出手段と、
　前記代表値から２枚以上の代表値を選択する第１選択手段と、
　前記２枚以上の代表値の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択手段と、
　前記第１のデータセットに含まれる学習データと、前記第２選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
　を備える情報処理システム。

　（付記８）
　画像を取得する取得手段と、
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットと、前記第１のデータセットの２枚以上の画像の特徴空間上の位置に基づいて前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから選択された画像に対応する前記第２のデータセットの学習データと、を用いて学習されたモデルを用いて、前記取得手段によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する推定手段と、
　を備える情報処理システム。

　（付記９）
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択し、
　前記第１のデータセットから選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択し、
　前記第１のデータセットに含まれる学習データと、前記第２のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する情報処理方法。

　（付記１０）
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択処理と、
　前記第１選択処理によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択処理と、
　前記第１のデータセットに含まれる学習データと、前記第２選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理と、
　を実行させるためのプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　本発明は一部のラベルが学習データを持たない場合の機械学習に応用することができる。例えば、本発明は、工場の生産ラインでの対象製品の不良品検知において、対象製品の不良品の画像例がない場合であっても、対象製品の不良品に類似した画像を追加した学習データを用意し学習することで、対象製品の不良品検知において高精度なゼロショット認識を可能とする。

　また、本発明は、転移学習のひとつであり、本発明を用いることでゼロショット学習だけでなく、学習用の画像とラベルのデータが少ないもしくは偏っている場合に、大規模データで補完することで精度を改善するといった用途に適用できる。また、本発明は、類似画像の検索において、複数の画像の組み合わせに最も近い画像を検索する、といった用途にも適用することができる。

１０１　ＣＰＵ
１０２　主記憶部
１０３　通信部
１０４　補助記憶部
１０５　入力部
１０６　出力部
１０７　システムバス
１０００、１００１、１００２　情報処理システム
１１００、１１０１　第１選択部
１２００、１２０１　第２選択部
１３００　学習部
１４００　算出部
１５００　取得部
１６００　推定部

Claims

　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択手段と、
　前記第１選択手段によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択手段と、
　前記第１のデータセットに含まれる学習データと、前記第２選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
　を備える情報処理システム。
　前記補助情報は、画像に関連付けられたラベルが示す単語の分散表現であり、
　前記学習手段は、分散表現に基づいてラベルを推定するモデルを学習する請求項１に記載の情報処理システム。
　前記補助情報は、画像が示す物体の特性を表す属性であり、
　前記学習手段は、属性に基づいてラベルを推定するモデルを学習する請求項１に記載の情報処理システム。
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴空間上の位置の中間に対応する画像を前記第２のデータセットから選択する請求項１から３のいずれか１項に記載の情報処理システム。
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴量の重み付き平均と類似する特徴量に対応する画像を前記第２のデータセットから選択する請求項４に記載の情報処理システム。
　前記第２選択手段は、前記第１選択手段によって選択された２枚以上の画像の特徴量の重み付き平均との類似度が閾値を超える特徴量に対応する画像を前記第２のデータセットから選択する請求項５に記載の情報処理システム。
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットの画像と、前記画像に関連付けられたラベルとから、前記ラベル毎に前記画像の代表値を算出する算出手段と、
　前記代表値から２枚以上の代表値を選択する第１選択手段と、
　前記２枚以上の代表値の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択手段と、
　前記第１のデータセットに含まれる学習データと、前記第２選択手段によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習手段と、
　を備える情報処理システム。
　画像を取得する取得手段と、
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットと、前記第１のデータセットの２枚以上の画像の特徴空間上の位置に基づいて前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから選択された画像に対応する前記第２のデータセットの学習データと、を用いて学習されたモデルを用いて、前記取得手段によって取得された画像から変換した補助情報に最も類似する補助情報と対応するラベルを推定する推定手段と、
　を備える情報処理システム。
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択し、
　前記第１のデータセットから選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択し、
　前記第１のデータセットに含まれる学習データと、前記第２のデータセットから選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する情報処理方法。
　画像、前記画像に関連付けられたラベルおよび補助情報を含む学習データを含む第１のデータセットから２枚以上の画像を選択する第１選択処理と、
　前記第１選択処理によって選択された２枚以上の画像の特徴空間上の位置に基づいて、前記第１のデータセットに含まれる学習データとは異なる学習データを含む第２のデータセットから画像を選択する第２選択処理と、
　前記第１のデータセットに含まれる学習データと、前記第２選択処理によって選択された画像に対応する学習データとを用いて、補助情報に基づいてラベルを推定するモデルを学習する学習処理と、
　をコンピュータに実行させるためのプログラムを記録した記録媒体。