WO2022123619A1

WO2022123619A1 - 学習システム、学習方法、及びプログラム

Info

Publication number: WO2022123619A1
Application number: PCT/JP2020/045416
Authority: WO
Inventors: 永男蔡; 美廷金; プリーサムプラキャッシャー
Original assignee: 楽天グループ株式会社
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-06-16
Also published as: CN114916238A; TWI804090B; EP4040346A4; US20220398504A1; TW202232388A; JPWO2022123619A1; JP6995262B1; EP4040346A1

Abstract

学習システム（Ｓ）の第１計算手段（３０２）は、マルチラベルのクエリデータが学習モデルに入力された場合に、学習モデルの出力と、目標となる出力と、に基づいて、第１損失を計算する。特徴量取得手段（３０３）は、学習モデルのパラメータに基づいて計算された、クエリデータの特徴量と、前記クエリデータに対応するサポートデータの特徴量と、を取得する。第２計算手段（３０４）は、クエリデータの特徴量と、サポートデータの特徴量と、に基づいて、第２損失を計算する。調整手段（３０５）は、第１損失と、第２損失と、に基づいて、パラメータを調整する。

Description

学習システム、学習方法、及びプログラム

　本開示は、学習システム、学習方法、及びプログラムに関する。

　従来、画像解析や自然言語処理などの種々の分野において、機械学習が利用されている。教師有り機械学習では、訓練データを用意するのに手間がかかるので、より少ない訓練データで学習モデルの精度を高めることが求められている。例えば、非特許文献１には、非常に少ない訓練データに基づいて、未知のラベルのデータを認識可能な学習モデルを作成するFew-Shot Object Detectionと呼ばれる手法が記載されている。

Leonid Karlinsky, Joseph Shtok, Sivan Harary, Eli Schwartz, Amit Aides, Rogerio Feris, Raja Giryes, and Alex M Bronstein. RepMet: Representative-based metric learning for classification and few-shot object detection. In CVPR, 2019.

　マルチラベルのデータは、ラベルの組み合わせが多数存在するので、訓練データを用意するのに特に手間がかかる。しかしながら、非特許文献１の手法は、シングルラベルのデータを対象としているので、マルチラベルのデータに適用することはできない。このため、従来の手法では、より多くの訓練データを用意しなければ、マルチラベルのデータを認識可能な学習モデルの精度を高めることができなかった。

　本開示の目的の１つは、少ない訓練データで、マルチラベルのデータを認識可能な学習モデルの精度を高めることである。

　本開示の一態様に係る学習システムは、マルチラベルのクエリデータが学習モデルに入力された場合に、前記学習モデルの出力と、目標となる出力と、に基づいて、第１損失を計算する第１計算手段と、前記学習モデルのパラメータに基づいて計算された、前記クエリデータの特徴量と、前記クエリデータに対応するサポートデータの特徴量と、を取得する特徴量取得手段と、前記クエリデータの特徴量と、前記サポートデータの特徴量と、に基づいて、第２損失を計算する第２計算手段と、前記第１損失と、前記第２損失と、に基づいて、前記パラメータを調整する調整手段と、を含む。

　本開示によれば、少ない訓練データで、マルチラベルのデータを認識可能な学習モデルの精度を高めることができる。

学習システムの全体構成の一例を示す図である。ウェブサイトに掲載される画像の一例を示す図である。学習システムの機能の一例を示す機能ブロック図である。学習端末の機能の全体像の一例を示す図である。データセットの一例を示す図である。個々のラベルの分布の一例を示す図である。個々のクラスの分布の一例を示す図である。個々のエピソードに含まれるクエリ画像とサポート画像の一例を示す図である。学習システムで実行される処理の一例を示すフロー図である。

［１．学習システムの全体構成］
　以下、本開示に係る学習システムの実施形態の一例を説明する。図１は、学習システムの全体構成の一例を示す図である。図１に示すように、学習システムＳは、サーバ１０、作成者端末２０、及び学習端末３０を含み、これらは、インターネット又はＬＡＮなどのネットワークＮに接続される。なお、図１では、サーバ１０、作成者端末２０、及び学習端末３０の各々を１台ずつ示しているが、これらは複数台あってもよい。

　サーバ１０は、サーバコンピュータである。サーバ１０は、制御部１１、記憶部１２、及び通信部１３を含む。制御部１１は、少なくとも１つのプロセッサを含む。記憶部１２は、ＲＡＭなどの揮発性メモリと、ハードディスクなどの不揮発性メモリと、を含む。通信部１３は、有線通信用の通信インタフェースと、無線通信用の通信インタフェースと、の少なくとも一方を含む。

　作成者端末２０は、作成者が操作するコンピュータである。作成者は、学習モデルに入力されるデータを作成する者である。本実施形態では、このデータの一例として画像を説明する。このため、本実施形態で画像と記載した箇所は、データと読み替えることができる。学習モデルに入力されるデータは、画像に限られない。他のデータの例は、後述の変形例で説明する。

　例えば、作成者端末２０は、パーソナルコンピュータ、スマートフォン、又はタブレット端末である。作成者端末２０は、制御部２１、記憶部２２、通信部２３、操作部２４、及び表示部２５を含む。制御部２１、記憶部２２、及び通信部２３の物理的構成は、それぞれ制御部１１、記憶部１２、及び通信部１３と同様であってよい。操作部２４は、マウス又はタッチパネルなどの入力デバイスである。表示部２５は、液晶ディスプレイ又は有機ＥＬディスプレイである。

　学習端末３０は、学習モデルの学習を実行するコンピュータである。例えば、学習端末３０は、パーソナルコンピュータ、スマートフォン、又はタブレット端末である。学習端末３０は、制御部３１、記憶部３２、通信部３３、操作部３４、及び表示部３５を含む。制御部３１、記憶部３２、通信部３３、操作部３４、及び表示部３５の物理的構成は、それぞれ制御部１１、記憶部１２、通信部１３、操作部２４、及び表示部２５と同様であってよい。

　なお、記憶部１２，２２，３２に記憶されるものとして説明するプログラム及びデータは、ネットワークＮを介して供給されるようにしてもよい。また、サーバ１０、作成者端末２０、及び学習端末３０の各々のハードウェア構成は、上記の例に限られず、種々のハードウェアを適用可能である。例えば、コンピュータ読み取り可能な情報記憶媒体を読み取る読取部（例えば、光ディスクドライブ又はメモリカードスロット）と、外部機器とデータの入出力をするための入出力部（例えば、ＵＳＢポート）と、の少なくとも一方が含まれてもよい。例えば、情報記憶媒体に記憶されたプログラム及びデータの少なくとも一方が読取部及び入出力部の少なくとも一方を介して供給されてもよい。

［２．学習システムの概要］
　本実施形態では、ウェブサイトを介して販売される商品の画像が学習モデルに入力される場合を例に挙げて、学習システムＳの処理を説明する。例えば、作成者は、商品を販売する店舗の店員である。作成者は、作成者端末２０にインストールされた画像編集ソフトで商品の写真を編集し、ウェブサイトに掲載する画像を作成する。

　画像編集ソフトでは、商品の写真に対し、人工的なオブジェクトが合成される。オブジェクトは、画像の構成要素である。被写体である商品もオブジェクトの１つである。画像編集ソフトで合成されるオブジェクトは、電子的な画像である。例えば、作成者は、商品の販促を目的として、商品の写真に対し、デジタルテキスト、デジタルフレーム、及びカラーバーの少なくとも１つを合成する。

　デジタルテキストは、画像編集ソフトで合成されたテキストである。デジタルテキストは、ナチュラルテキストとは異なる。ナチュラルテキストは、商品自体に含まれるテキストである。別の言い方をすれば、ナチュラルテキストは、編集前の写真に含まれるテキストである。例えば、ナチュラルテキストは、商品に印刷された商品名又はブランド名である。

　デジタルフレームは、画像編集ソフトで合成されたフレームである。本実施形態では、１ピクセルのデジタルフレームと、２ピクセル以上のデジタルフレームと、が存在する場合を説明するが、デジタルフレームは、任意の太さであってよい。デジタルフレームは、ナチュラルフレームとは異なる。ナチュラルフレームは、商品自体に含まれるフレームである。別の言い方をすれば、ナチュラルフレームは、編集前の写真に含まれるフレームである。例えば、ナチュラルフレームは、商品の箱の縁である。

　カラーバーは、商品のカラーバリエーションを示す画像である。カラーバーは、複数の色の各々のバーを含む。例えば、１０色のカラーバリエーションがある洋服の場合、カラーバーは、１０色のバーを含む。作成者は、商品の写真を編集した画像を作成すると、サーバ１０に対し、編集済みの画像をアップロードする。アップロードされた画像は、サーバ１０の画像データベースに格納され、ウェブサイトに掲載される。

　図２は、ウェブサイトに掲載される画像の一例を示す図である。図２では、画像の一例として、正方形のサムネイルを説明する。図２に示すように、画像Ｉ１は、靴の写真に対し、デジタルテキストＤＴ１０と、２ピクセル以上のデジタルフレームＤＦ１１と、が合成されている。画像Ｉ２は、コーヒーの箱の縁であるナチュラルフレームＮＦ２０と、パッケージに印刷された商品名のナチュラルテキストＮＴ２１と、が写っている。画像Ｉ２は、デジタルテキストなどは合成されていない。

　画像Ｉ３は、鞄の画像に対し、1ピクセルのデジタルフレームＤＦ３０と、デジタルテキストＤＴ３１と、が合成されている。画像Ｉ４は、手袋の画像に対し、デジタルテキストＤＴ４０が合成されている。画像Ｉ５は、洋服の画像に対し、デジタルテキストＤＴ５０と、９色のバーからなるカラーバーＣＢ５１と、が合成されている。

　本実施形態のように、作成者が自由に画像を編集できる場合、デザインが悪く、顧客の購買意欲を向上させることができない画像がアップロードされることがある。逆に、デザインが良く、顧客の購買意欲を向上させる画像がアップロードされることもある。このため、画像に施された編集内容（人工的にデコレーションされた部分）を特定することは重要である。

　そこで、学習端末３０は、画像に施された編集内容のラベリングを実行する学習モデルを作成する。学習モデルは、機械学習を利用したモデルである。機械学習自体は、種々の手法を利用可能であり、例えば、畳み込みニューラルネットワーク、又は、再帰型ニューラルネットワークを利用可能である。本実施形態の学習モデルは、教師有りモデル又は半教師有りモデルとするが、教師無しモデルが利用されてもよい。

　本実施形態のように、ラベリングをする学習モデルは、分類学習器と呼ばれることもある。ラベリングは、入力された画像にラベルを付与することである。ラベルは、画像の分類である。本実施形態では、ラベルは、画像に施された編集内容を意味する。ラベルの一例として、下記のラベル０～ラベル６を説明するが、ラベルは、本実施形態の例に限られず、任意のラベルを設定可能である。

　（ラベル０）画像が何の編集内容も含まない、（ラベル１）画像がデジタルテキストを含む、（ラベル２）画像がナチュラルテキストを含む、（ラベル３）画像が２ピクセル以上のデジタルフレームを含む、（ラベル４）画像が１ピクセルのデジタルフレームを含む、（ラベル５）画像がナチュラルフレームを含む、（ラベル６）画像がカラーバーを含む。なお、ラベル０は、ラベル１～ラベル６の何れにも該当しないことを意味する。

　本実施形態では、学習モデルの出力は、画像がラベル０～６の各々に属するか否かを示す７つのバイナリの値を含む。学習モデルの出力がベクトル形式で表現される場合を例に挙げるが、学習モデルの出力は、任意の形式であってよい。例えば、学習モデルの出力は、配列形式、行列形式、又は単一の数値であってもよい。他にも例えば、学習モデルの出力は、上記７つの値ではなく、画像が属するラベルを示す０～６の数値であってもよい。この場合、ラベル２とラベル５に属する画像であれば、学習モデルの出力は、２と５の数値の組み合わせになる。

　例えば、あるラベルの値が０であることは、そのラベルに属さないことを意味する。あるラベルの値が１であることは、そのラベルに属することを意味する。例えば、学習モデルの出力が［０，１，０，０，１，０，０］であれば、画像がラベル１とラベル４に属することを意味する。なお、学習モデルの出力は、０又は１のバイナリでなくてもよく、中間値が存在してもよい。中間値は、ラベルに属する確率（蓋然性）を示す。例えば、あるラベルの値が０．９であれば、そのラベルに属する確率が９０％であることを意味する。

　画像データベースＤＢには、シングルラベルの画像と、マルチラベルの画像と、が混在する。シングルラベルとは、画像が１つのラベルだけに属することである。図２の例であれば、画像Ｉ４は、シングルラベルの画像である。マルチラベルとは、画像が複数のラベルに属することである。図２の例であれば、画像Ｉ１，Ｉ２，Ｉ４，Ｉ５は、マルチラベルの画像である。本実施形態では、画像がラベル０とラベル１～６との両方に属することはないが、画像がラベル１～６の任意の組み合わせに属することがある。このため、画像によっては、ラベル１～６のうちの３つ以上に属することがある。

　従来技術で説明したように、マルチラベルに対応可能な学習モデルを作成しようとすると、ラベルの組み合わせが多数存在するので、訓練データを用意するのに非常に手間がかかる。このため、マルチラベルに対応可能な学習モデルを作成するのは困難である。更に、本実施形態のような画像は、次の２つの理由により、ラベリングが困難である。

　第１の理由として、画像データベースＤＢに格納された画像は、人気のある商品ばかりではなく、あまり人気のない商品が大多数を占めていることが挙げられる。このような分布は、ロングテール分布と呼ばれる。ロングテール分布を有する母集団は、多種多様な画像が存在する。このため、多数の訓練データを用意したとしても、その訓練データには商品の形状として多種多様なパターンが存在するので、学習モデルが画像の特徴を認識しにくい。

　第２の理由として、画像データベースＤＢに格納された画像は、商品の外観が大部分を占めており、デジタルテキストなどの部分は、微粒子のように目立たない。このため、学習モデルは、デジタルテキストなどの特徴を認識しにくい。マルチラベルの画像は、微粒子のように目立たない特徴をいくつも認識する必要があるので、なおさら困難である。このような問題は、fine-grained multi-label classification問題ということもできる。更に、本実施形態のような画像は、デジタルテキストとナチュラルテキストの区別がつきにくいこと、及び、デジタルフレームとナチュラルフレームの区別がつきにくいことも問題として挙げられる。

　そこで、本実施形態の学習システムＳは、contrastive learningのアプローチをベースにしたFew-Shot learningを適用することによって、マルチラベルに対応可能な学習モデルを作成する。これにより、ロングテール分布の画像を対象とし、かつ、微粒子のように目立たない特徴を対象にしたとしても（上記第１の理由と第２の理由があったとしても）、より少ない訓練データで、学習モデルの精度を高めるようにしている。以降、学習システムＳの詳細を説明する。

［３．学習システムの機能］
　図３は、学習システムＳの機能の一例を示す機能ブロック図である。図３では、サーバ１０及び学習端末３０の機能を説明し、作成者端末２０の機能は省略する。作成者端末２０は、作成者の操作に基づいて画像を編集する機能と、編集済みの画像をアップロードする機能と、を含めばよい。

［３－１．サーバの機能］
　サーバ１０では、データ記憶部１００が実現される。データ記憶部１００は、記憶部１２を主として実現される。データ記憶部１００は、学習モデルの学習に必要なデータを記憶する。例えば、データ記憶部１００は、画像データベースＤＢを記憶する。図２を参照して説明したように、画像データベースＤＢには、複数の作成者の各々によりアップロードされた画像が格納される。画像データベースＤＢには、所定のサイズにトリミングだけされて、人工的なデコレーションがなされない画像（ラベル０に属する画像）も格納される。

　本実施形態では、画像データベースＤＢに格納される画像は、形式（例えば、サイズ、解像度、色のビット数、拡張子）が定められているものとするが、画像データベースＤＢには、任意の形式の画像が格納されていてよい。また、画像データベースＤＢに格納された画像は、学習端末３０にダウンロードされた後に、学習端末３０のユーザによってラベルが付与されるものとするが、ラベルが付与された画像が画像データベースＤＢに格納されてもよい。

［３－２．学習端末の機能］
　図４は、学習端末３０の機能の全体像の一例を示す図である。以降、図４を参照しつつ、図３に示す学習端末３０の機能を説明する。学習端末３０では、データ記憶部３００、データ取得部３０１、第１計算部３０２、特徴量取得部３０３、第２計算部３０４、及び調整部３０５が実現される。データ記憶部３００は、記憶部３２を主として実現され、データ取得部３０１、第１計算部３０２、特徴量取得部３０３、第２計算部３０４、及び調整部３０５の各々は、制御部３１を主として実現される。

［データ記憶部］
　データ記憶部３００は、学習モデルＭ１，Ｍ２の学習に必要なデータを記憶する。以降の説明で学習モデルＭ１と学習モデルＭ２を区別しないときは、単に学習モデルＭと記載する。例えば、データ記憶部３００は、学習用のデータセットＤＳを記憶する。データセットＤＳには、正解となるラベルが付与された複数の画像の各々が格納される。

　図５は、データセットＤＳの一例を示す図である。図５に示すように、データセットＤＳには、画像と、正解となるラベルと、のペアが多数格納される。このペアは、学習モデルＭのパラメータの調整に利用される。このペアは、訓練データ、教師データ、又は正解データと呼ばれることがある。正解となるラベルは、ラベル０～ラベル６の各々に属するか否かを示す値を含む。即ち、正解となるラベルは、目標となる出力（学習モデルＭが出力すべき内容）である。

　本実施形態では、画像データベースＤＢの一部の画像がデータセットＤＳに格納される場合を説明するが、画像データベースＤＢの全ての画像がデータセットＤＳに格納されてもよい。例えば、学習端末３０のユーザは、サーバ１０にアクセスし、画像データベースＤＢの一部の画像をダウンロードする。ユーザは、ダウンロードした画像を表示部３５に表示させて正解となるラベルを付与し、データセットＤＳを作成する。

　例えば、画像データベースＤＢに、２億枚程度の画像が格納されており、ユーザが、この中から４～５万枚程度の画像をランダムサンプリングしてラベルを付与したとする。本実施形態の画像は、原則として自由に編集可能なので、作成者がやりがちな編集もあれば、あまりやらない編集もある。このため、ランダムサンプリングされた画像のラベルは、ロングテール分布を有することがある。

　図６は、個々のラベルの分布の一例を示す図である。図６の縦軸は、ラベル０～ラベル６の各々を示し、横軸は、ラベルごとの画像の総数（サンプル数）を示す。例えば、ラベル１とラベル４のマルチラベルの画像がランダムサンプリングされると、この１枚の画像により、ラベル１とラベル４の各々の画像の総数が１ずつ増加する。図６の例では、ラベル１の画像が極端に多く、ラベル５の画像が極端に少ない。図６の分布は、画像の総数が均等ではなくアンバランスなので、ロングテール分布である。

　図７は、個々のクラスの分布の一例を示す図である。クラスは、何らかの分類という意味ではラベルと似た概念であるが、クラス分類問題と、ラベル分類問題と、は異なる。本実施形態では、クラス分類問題は、部分集合の間に重複がなく、母集団が何れか１つの部分集合に必ず属するものとする。ラベル分類問題は、部分集合の間に重複があったり、何れの部分集合にも属さないことが存在したりするものとする。

　本実施形態のように、シングルラベルの画像と、マルチラベルの画像と、が混在する場合には、少なくとも１つのラベルがクラスに相当する。画像は、何れかのクラスに属し、他のクラスには属さない。例えば、マルチラベルの画像は、あるラベルと他のラベルに属するが、あるクラスと他のクラスには属さない。ランダムサンプリングされた画像の母集団におけるラベルの組み合わせが４１通り存在したとすると、この母集団には、４１個のクラスが存在する。

　図７の例では、画像の総数が閾値（例えば、１００個）以上のクラスの分布のみを示している。このため、実際には、画像の総数が閾値未満のクラスも存在する。図７の縦軸は、画像の総数が閾値以上である１５個のクラスの各々を示し、横軸は、クラスごとの画像の総数を示す。図７の例では、ラベル１のみを示すクラスの画像が極端に多く、ラベル２とラベル３の組み合わせを示すクラスの画像が極端に少ない。このため、図７の分布は、図６の分布と同様、画像の総数が均等ではなくアンバランスなので、ロングテール分布である。

　なお、図６及び図７では、ロングテール分布を説明する都合上、４万～５万枚程度の画像に対し、ラベルが付与されている場合を例に挙げたが、ユーザがラベルを付与する画像の数は、これよりも少なくてよい。例えば、ユーザは、数枚～数千枚程度の画像をランダムサンプリングして、正解のラベルを付与してもよい。

　また、正解となるラベルを画像に付与する方法は、上記の例に限られず、任意の方法を利用可能である。例えば、ユーザは、公知のクラスタリング手法を利用して、画像に対し、正解のラベルを付与してもよい。また例えば、ユーザは、シングルラベルの画像を学習させた学習モデルＭを利用して、画像に対し、正解のラベルを付与してもよい。

　データ記憶部３００は、データセットＤＳだけでなく、学習モデルＭ（学習モデルＭの実データ）を記憶する。学習モデルＭは、プログラムと、パラメータと、を含む。学習モデルＭのプログラムとパラメータとの形式自体は、機械学習で利用される種々の形式を利用可能である。例えば、学習モデルＭのプログラムは、複数のレイヤの各々における処理（畳み込み、埋め込みベクトルの計算、プーリングなど）を定義したコードを含む。また例えば、学習モデルＭのパラメータは、重み係数とバイアスとを含む。学習モデルＭのパラメータは、学習モデルＭのプログラムによって参照される。

　図３及び図４に示すように、本実施形態では、データ記憶部３００は、クエリ画像ｘ_Ｑ用の学習モデルＭ１と、サポート画像ｘ_Ｓ用の学習モデルＭ２と、を記憶する。学習モデルＭ１は、第１の学習モデルの一例である。学習モデルＭ２は、第２の学習モデルの一例である。クエリ画像ｘ_Ｑは、学習モデルＭ１に入力される。サポート画像ｘ_Ｓは、第２の学習モデルＭ２に入力される。クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓの詳細は後述する。

　学習モデルＭ１のパラメータと、学習モデルＭ２のパラメータと、は共有されている。即ち、学習モデルＭ１のパラメータと、学習モデルＭ２のパラメータと、は同じである。学習モデルＭ１のプログラムと、学習モデルＭ２のプログラムと、も同じであり、レイヤなどの内部構造も同じである。即ち、学習モデルＭ１と学習モデルＭ２の何れか一方は、他方のコピーである。

　なお、データ記憶部３００が記憶するデータは、上記の例に限られない。データ記憶部３００は、学習モデルＭの学習に必要なデータを記憶すればよい。例えば、データ記憶部３００は、データセットＤＳを、訓練用データセット、検証用データセット、及びテスト用データセットの３つに分割して記憶してもよい。また例えば、データ記憶部３００は、画像データベースＤＢと同じデータベースを記憶してもよい。

［データ取得部］
　データ取得部３０１は、学習モデルＭの学習で利用される画像を取得する。本実施形態では、データ取得部３０１は、マルチラベルにおけるロングテール分布を有する画像群の中から、クエリ画像ｘ_Ｑと、サポート画像ｘ_Ｓと、を取得する。なお、データ取得部３０１は、ロングテール分布を有していない画像群の中から、クエリ画像ｘ_Ｑと、サポート画像ｘ_Ｓと、を取得してもよい。

　画像群は、複数の画像の集まりである。本実施形態では、この画像群は、ロングテール分布を有する画像データベースＤＢに格納されている。データセットＤＳのサンプル数が一定程度存在するのであれば、データセットＤＳもロングテール分布を有することがあるので、データセットＤＳに格納された複数の画像の集まりが上記画像群に相当してもよい。

　ロングテール分布は、図６及び図７を参照したような分布である。ロングテール分布の定義自体は、一般的な定義に従えばよい。例えば、最も多いラベル又はクラスの画像の総数と、最も少ないラベル又はクラスの画像の総数と、の差が閾値以上の場合には、ロングテール分布である。また例えば、上位ａ（ａは２以上の整数）個のラベル又はクラスの画像の総数の合計値と、下位ｂ個（ｂは２以上の整数）のラベル又はクラスの画像の総数の合計値と、の差が閾値以上の場合には、ロングテール分布である。

　本実施形態の学習モデルＭは、画像に含まれるオブジェクトを認識するモデルなので、クエリデータの一例として、マルチラベルのクエリ画像ｘ_Ｑを説明する。また、サポートデータの一例として、クエリ画像ｘ_Ｑに対応するサポート画像ｘ_Ｓである。クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの各々は、Few-shot learningにおいて利用される画像である。

　クエリ画像ｘ_Ｑは、学習モデルＭに学習させていない新しいクラスの画像である。クエリ画像ｘ_Ｑは、テスト画像と呼ばれることもある。サポート画像ｘ_Ｓは、クエリ画像ｘ_Ｑと同じクラス、又は、クエリ画像ｘ_Ｑとは異なるクラスの画像である。例えば、一般的な物体認識の訓練データセットを利用して一般的なクラスが学習モデルＭに学習されていたとすると、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとを利用して学習させようとしているクラスは、原則として、学習モデルＭには学習されていない。

　本実施形態では、データ取得部３０１は、画像データベースＤＢに格納された画像群をランダムサンプリングして取得し、個々の画像と、正解となるラベルと、を含むペアをデータセットＤＳに格納する。図４に示すように、データ取得部３０１は、データセットＤＳに格納された画像群をランダムサンプリングして、クエリ画像ｘ_Ｑと、サポート画像ｘ_Ｓと、を取得する。

　データ取得部３０１は、エピソードごとに、データセットＤＳの中からクエリ画像ｘ_Ｑとサポート画像ｘ_Ｓをランダムに取得する。エピソードは、Few-shot learningにおける一連の処理の過程である。Few-shot learningでは、いくつものエピソードが繰り返される。例えば、エピソードごとに、少なくとも１枚のクエリ画像ｘ_Ｑと、少なくとも１枚のサポート画像ｘ_Ｓと、の画像セットが存在する。

　本実施形態のFew-shot learningは、N-Way K-shotと呼ばれる設定に従う。Ｎは、１つのエピソードあたりのクラスの数を意味する。Ｋは、１つのエピソードあたりの画像数を意味する。ＮとＫは、自然数である。一般的には、Ｎが小さいほど学習モデルＭの精度が高くなり、Ｋが高いほど学習モデルＭの精度が高くなる。本実施形態では、Ｎが１であり、Ｋが５である場合（即ち、1-Way 5-shotの場合）を説明するが、ＮとＫは、任意の値であってよい。

　本実施形態では、マルチラベルにおいて考え得るラベルの組み合わせのうち、一部の組み合わせに対応するエピソードが存在する場合を説明するが、全通りのエピソードが存在してもよい。以降、図７に示す１５個のクラスにそれぞれ対応する１５個のエピソードが存在する場合を例に挙げて説明する。エピソードの数は、１５個に限られず、任意の数であってよい。本実施形態では、エピソード間でクラスが重複しない場合を説明するが、エピソード間でクラスの重複があってもよい。

　図８は、個々のエピソードに含まれるクエリ画像ｘ_Ｑとサポート画像ｘ_Ｓの一例を示す図である。図８に示すように、エピソード１～１５の各々に対し、１枚のクエリ画像ｘ_Ｑと、５枚のサポート画像ｘ_Ｓと、の画像セットが存在する。なお、クエリ画像ｘ_Ｑは、２枚以上であってもよい。また、クエリ画像ｘ_Ｑの数と、サポート画像ｘ_Ｓの数と、同じであってもよい。即ち、１つのエピソードにつき、クエリ画像ｘ_Ｑも５枚存在してもよい。

　例えば、エピソード１は、図７の分布において画像の総数が最も多いクラス（ラベル１だけのクラス）の画像を学習させるためのエピソードである。データ取得部３０１は、データセットＤＳの中から、このクラスの画像（ラベルが［０，１，０，０，０，０，０］の画像）を６枚ランダムサンプリングする。データ取得部３０１は、６枚のうちの１枚をクエリ画像ｘ_Ｑとし、残りの５枚をサポート画像ｘ_Ｓとする。

　また例えば、エピソード２は、画像の総数が２番目に多いクラス（ラベル１とラベル２のクラス）の画像を学習させるためのエピソードである。データ取得部３０１は、データセットＤＳの中から、このクラスの画像（ラベルが［０，１，１，０，０，０，０］の画像）を６枚ランダムサンプリングする。データ取得部３０１は、６枚のうちの１枚をクエリ画像ｘ_Ｑとし、残りの５枚をサポート画像ｘ_Ｓとする。

　他のエピソード３～１５についても同様に、データ取得部３０１は、エピソードごとに、そのエピソードに対応するクラスの画像を６枚ランダムサンプリングして、クエリ画像ｘ_Ｑ及びサンプル画像として取得する。即ち、データ取得部３０１は、あるエピソードのクエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの画像セットとして、そのエピソードに対応するクラスの画像を６枚取得する。

　なお、Ｎの値が２以上の場合には、１つのエピソードに、複数のクラスの各々のサポート画像ｘ_Ｓが含まれる。この場合、１つのエピソードには、複数のクラスのうちの何れかのクラスのクエリ画像ｘ_Ｑだけが含まれてもよいし、複数のクラスにそれぞれ対応する複数のクエリ画像ｘ_Ｑが含まれてもよい。Ｎの値が２以上であった場合も、クエリ画像ｘ_Ｑは、１枚に限られない。

　また、エピソードの数は、ユーザにより指定されてもよいし、画像データベースＤＢ又はデータセットＤＳにおける統計値から自動的に決定されてもよい。例えば、ユーザが学習モデルＭに学習させるクラスを指定し、その数に応じたエピソードが設定されてもよい。また例えば、画像データベースＤＢ又はデータセットＤＳにおいて画像の総数が閾値以上のクラスが自動的に特定され、その数に応じたエピソードが設定されてもよい。データ取得部３０１は、エピソードに応じた数の画像を取得すればよい。

［第１計算部］
　第１計算部３０２は、マルチラベルのクエリ画像ｘ_Ｑが学習モデルＭ１に入力された場合に、学習モデルＭ１の出力と、目標となる出力と、に基づいて、第１損失Ｌ_ＢＣＥを計算する。即ち、第１計算部３０２は、学習モデルＭ１のパラメータに基づいて、第１損失Ｌ_ＢＣＥを計算する。

　学習モデルＭ１の出力とは、学習モデルＭ１から得られた実際の出力である。目標となる出力は、学習モデルＭ１が出力すべき内容である。本実施形態では、データセットＤＳに格納された正解となるラベルが目標となる出力に相当する。

　第１損失Ｌ_ＢＣＥは、学習モデルＭ１の出力と、目標となる出力と、の誤差（違い）を示す。第１損失Ｌ_ＢＣＥは、学習モデルＭ１の精度を計測可能な指標である。第１損失Ｌ_ＢＣＥが高いことは、誤差が大きく精度が低いことを意味する。第１損失Ｌ_ＢＣＥが低いことは、誤差が小さく精度が高いことを意味する。本実施形態では、第１損失Ｌ_ＢＣＥがマルチラベルクロスエントロピー損失である場合を説明するが、第１損失Ｌ_ＢＣＥは、任意の手法を利用して計算可能である。第１損失Ｌ_ＢＣＥは、所定の損失関数に基づいて計算可能なものであればよい。

　以降、あるエピソードに含まれる個々のクエリ画像ｘ_Ｑのセットを大文字のＸ_Ｑと記載する。本実施形態では、あるエピソードのクエリ画像ｘ_ＱのセットＸ_Ｑは、１枚のクエリ画像ｘ_Ｑから構成される。本実施形態では、N-Way K-shotにおけるＮが１である場合を説明するが、Ｎが２以上の場合も想定されるので、この場合には、クエリ画像をｘ_Ｑ ^ｉと記載することがある。ｉはＮ以下の自然数である。ｉ∈｛１，・・・，Ｎ｝であり、ｘ_Ｑ ^ｉ∈Ｘ_Ｑである。

　図４に示すように、例えば、第１計算部３０２は、あるエピソードのクエリ画像ｘ_Ｑを学習モデルＭ１に入力する。この学習モデルＭ１は、後述する調整部３０５によるパラメータ調整が行われる前のモデルであり、例えば、ＲｅｓＮｅｔ５０と呼ばれる学習済みのモデルであってもよい。即ち、この学習モデルＭ１は、本実施形態で認識しようとしているデジタルテキストなどのオブジェクトではなく、一般的なオブジェクトの特徴が学習されたモデルであってもよい。

　例えば、学習モデルＭ１にクエリ画像ｘ_Ｑが入力されると、埋め込み関数ｆ（ｘ）により、そのクエリ画像ｘ_Ｑの埋め込みベクトルであるｆ（ｘ_Ｑ）が計算される。なお、ｆ（ｘ）のｘは、任意の画像を意味する。埋め込み関数ｆ（ｘ）は、学習モデルＭ１のプログラムの一部であってもよいし、学習モデルＭ１により呼び出される外部のプログラムであってもよい。埋め込みベクトルは、後述する特徴量取得部３０３により取得される。

　第１計算部３０２は、埋め込みベクトルであるｆ（ｘ_Ｑ）に基づいて、各クラスのバイナリの出力を取得するために、シグモイド関数σ（ｚ）＝１／（１＋ｅ^－ｚ）を利用する。例えば、第１計算部３０２は、下記の数式１及び数式２に基づいて、第１損失Ｌ_ＢＣＥを計算する。なお、下記の数式１及び数式２は、損失関数の一例であり、損失関数自体は、任意の関数を利用可能である。マルチラベルクロスエントロピー損失以外の損失を利用するのであれば、その損失に応じた損失関数を利用すればよい。

　数式２のｙ_Ｑ ^ｎは、クエリ画像ｘ_Ｑの各バイナリラベルであり、ｙ_Ｑ ^ｎ∈ｙ_Ｑである。ｙ_Ｑは、各入力に対応するラベルの組み合わせである。クエリ画像ｘ_Ｑに対応する実際の出力と、当該クエリ画像ｘ_Ｑの目標となる出力と、の誤差が小さいほど第１損失Ｌ_ＢＣＥは小さくなり、この誤差が大きいほど第１損失Ｌ_ＢＣＥは大きくなる。

　本実施形態の学習モデルＭは、３以上のラベルを認識可能であり、ラベルの組み合わせごとに（即ち、エピソードごとに）、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとを含む画像セットが存在する。３以上のラベルが存在するので、ラベルの組み合わせとしては、２通り以上存在する。

　第１計算部３０２は、ラベルの組み合わせごとに（即ち、エピソードごとに）、当該組み合わせに対応するクエリ画像ｘ_Ｑに基づいて、第１損失Ｌ_ＢＣＥを計算する。個々のエピソードの第１損失Ｌ_ＢＣＥの計算方法は、上記説明した通りである。本実施形態では、１５個のエピソードが存在するので、第１計算部３０２は、１５個のエピソードにそれぞれ対応する第１損失Ｌ_ＢＣＥを計算する。

　本実施形態の学習モデルＭは、認識対象の複数のラベル以外の他のラベルが学習されたモデルの最後のレイヤが、前記複数のラベルに応じたレイヤに代えられている。最後のレイヤは、出力層である。例えば、ＲｅｓＮｅｔ５０を利用して一般的な物体の形状が学習された学習モデルＭの最後のレイヤが、マルチラベルに対応したレイヤ（本実施形態であれば、ラベル０～ラベル６の７個の値を出力するレイヤ）に置き換えられる。これにより、学習モデルＭの認識対象となるラベルの組み合わせが出力されるようになる。第１計算部３０２は、複数のラベルに応じたレイヤに代えられた学習モデルＭの出力と、目標となる出力と、に基づいて、第１損失Ｌ_ＢＣＥを計算する。

［特徴量取得部］
　特徴量取得部３０３は、学習モデルＭのパラメータに基づいて計算された、クエリ画像ｘ_Ｑの特徴量と、クエリ画像ｘ_Ｑに対応するサポート画像ｘ_Ｓの特徴量と、を取得する。このパラメータは、学習モデルＭの現状のパラメータである。即ち、このパラメータは、後述する調整部３０５による調整前のパラメータである。ＲｅｓＮｅｔ５０等を利用して事前学習を行うのであれば、事前学習後のパラメータに基づいて、特徴量が取得される。

　特徴量とは、画像の特徴を示す情報である。本実施形態では、埋め込みベクトルが特徴量に相当する場合を説明する。このため、本実施形態で埋め込みベクトルと記載した箇所は、特徴量と読み替えることができる。特徴量は、任意の形式で表現可能であり、ベクトル形式に限られない。特徴量は、配列形式、行列形式、又は単一の数値等の他の形式で表現されてもよい。

　図４に示すように、本実施形態では、学習モデルＭ１，Ｍ２が用意されている。特徴量取得部３０３は、学習モデルＭ１のパラメータに基づいて計算されたクエリ画像ｘ_Ｑの埋め込みベクトルと、学習モデルＭ２のパラメータに基づいて計算されたサポート画像ｘ_Ｓの埋め込みベクトルと、を取得する。特徴量取得部３０３は、クエリ画像ｘ_Ｑが学習モデルＭ１に入力された場合に、学習モデルＭ１により計算されたクエリ画像ｘ_Ｑの埋め込みベクトルを取得する。特徴量取得部３０３は、サポート画像ｘ_Ｓが学習モデルＭ２に入力された場合に、学習モデルＭ２により計算されたサポート画像ｘ_Ｓの埋め込みベクトルを取得する。

　本実施形態では、１つのエピソードにつき複数のサポート画像ｘ_Ｓが存在するので、特徴量取得部３０３は、複数のサポート画像ｘ_Ｓの各々の埋め込みベクトルを取得する。Ｋの値が５であり、１つのエピソードにつき５枚のサポート画像ｘ_Ｓが存在するので、特徴量取得部３０３は、５枚のサポート画像ｘ_Ｓの各々を学習モデルＭ２に入力し、５つの埋め込みベクトルを取得する。Ｎの値が２以上であれば、特徴量取得部３０３は、Ｎの数に応じたサポート画像ｘ_Ｓの埋め込みベクトルを取得すればよい。

　特徴量取得部３０３は、ラベルの組み合わせごとに（即ち、エピソードごとに）、当該組み合わせに対応するクエリ画像ｘ_Ｑの埋め込みベクトルと、当該組み合わせに対応するサポート画像ｘ_Ｓの埋め込みベクトルと、を取得する。本実施形態では、１５個のエピソードが存在するので、特徴量取得部３０３は、１５個のエピソードにそれぞれ対応する、１枚のクエリ画像ｘ_Ｑの埋め込みベクトルと、５枚のサポート画像ｘ_Ｓの各々の埋め込みベクトルと、を取得する。

［第２計算部］
　第２計算部３０４は、クエリ画像ｘ_Ｑの埋め込みベクトルと、サポート画像ｘ_Ｓの埋め込みベクトルと、に基づいて、第２損失Ｌ_ＣＬを計算する。

　第２損失Ｌ_ＣＬは、クエリ画像ｘ_Ｑの埋め込みベクトルと、サポート画像ｘ_Ｓの埋め込みベクトルと、の誤差（違い）を示す。第２損失Ｌ_ＣＬは、学習モデルＭ１，Ｍ２の精度を計測可能な指標である。第２損失Ｌ_ＣＬが高いことは、誤差が大きく精度が低いことを意味する。第２損失Ｌ_ＣＬが低いことは、誤差が小さく精度が高いことを意味する。本実施形態では、第２損失Ｌ_ＣＬがコントラスティブ損失である場合を説明するが、第２損失Ｌ_ＣＬは、任意の手法を利用して計算可能である。第２損失Ｌ_ＣＬは、所定の損失関数に基づいて計算可能なものであればよい。

　コントラスティブ損失は、contrastive learningで利用される損失である。contrastive learningは、画像のペアが似ているか似ていないかを学習するために利用される。例えば、ある画像のペア｛Ｘ_１，Ｘ_２｝の埋め込みベクトルのペアのユークリッド距離が、距離メトリックＤ_Ｗとして利用される。

　例えば、画像のペアの類似性を示す類似性ラベルをＹ∈｛０，１｝とすると、コントラスティブ損失は、下記の数式３に基づいて計算される。Ｙが０であることは、画像Ｘ_１と画像Ｘ_２とが似ている（同じラベルである）ことを意味する。Ｙが１であることは、画像Ｘ_１と画像Ｘ_２とが似ていない（違うラベルである）ことを意味する。なお、下記の数式３は、損失関数の一例であり、損失関数自体は、任意の関数を利用可能である。下記数式３におけるＭは、Ｙが１の場合の損失を調整するため定数である。

　上記のようなコントラスティブ学習を、本実施形態の手法に適用するためには、２つの画像の類似性を比較することに代えて、サポート画像ｘ_Ｓとクエリ画像ｘ_Ｑとの各々から計算された２つの埋め込みベクトルが入力される。本実施形態では、これらが同じラベルを有するので、類似性ラベルＹは０になる。例えば、第２計算部３０４は、下記の数式４に基づいて、第２損失Ｌ_ＣＬを計算する。数式４におけるｆ（ｘ_Ｓ）の上側にラインが引かれたものは、サポート画像ｘ_Ｓの埋め込みベクトルの平均値である。なお、下記の数式４は、損失関数の一例であり、損失関数自体は、任意の関数を利用可能である。

　本実施形態では、クエリ画像ｘ_Ｑと、サポート画像ｘ_Ｓと、は少なくとも１つのラベルが同じである。これらの全てのラベルが同じ場合を説明するが、これらのラベルは、完全一致ではなく、部分一致であってもよい。第２計算部３０４は、クエリ画像ｘ_Ｑの埋め込みベクトルとサポート画像ｘ_Ｓの埋め込みベクトルとの違いが大きいほど、第２損失Ｌ_ＣＬが大きくなるように、第２損失Ｌ_ＣＬを計算する。埋め込みベクトルの違いは、距離以外の指標で表現されてもよい。この違いと第２損失Ｌ_ＣＬとの関係は、損失関数に定義されている。

　本実施形態では、Ｎが２以上であり、１つのエピソードにつき複数のサポート画像ｘ_Ｓが存在するので、第２計算部３０４は、複数のサポート画像ｘ_Ｓの各々の埋め込みベクトルに基づいて、平均特徴量（数式４であれば、ｆ（ｘ_Ｓ）の上側にラインが引かれたもの）を計算し、クエリ画像ｘ_Ｑの埋め込みベクトルと、平均埋め込みベクトルと、に基づいて、第２損失Ｌ_ＣＬを取得する。平均埋め込みベクトルは、５枚のサポート画像ｘ_Ｓの単純平均ではなく、何らかの重み付けがなされてもよい。Ｎの値が２以上であれば、クラス間にまたがって平均特徴量が計算されてもよい。

　第２計算部３０４は、ラベルの組み合わせごとに（即ち、エピソードごとに）、当該組み合わせに対応するクエリ画像ｘ_Ｑの埋め込みベクトルと、当該組み合わせに対応するサポート画像ｘ_Ｓの埋め込みベクトルと、に基づいて、第２損失Ｌ_ＣＬを計算する。本実施形態では、１５個のエピソードが存在するので、第２計算部３０４は、１５個のエピソードにそれぞれ対応する、１枚のクエリ画像ｘ_Ｑの埋め込みベクトルと、５枚のサポート画像ｘ_Ｓの各々の埋め込みベクトルと、に基づいて、第２損失Ｌ_ＣＬを計算する。

［調整部］
　調整部３０５は、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、学習モデルＭのパラメータを調整する。パラメータを調整するとは、学習モデルＭの学習を実行することと同じ意味である。損失に基づいてパラメータを調整する方法自体は、種々の手法を利用可能であり、例えば、逆誤差伝播法又は勾配降下法を利用してもよい。調整部３０５は、第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬの各々が小さくなるように、学習モデルＭのパラメータを調整する。

　第１損失Ｌ_ＢＣＥが小さくなるように、学習モデルＭのパラメータが調整されると、学習モデルＭの出力と、正解となるラベルと、の誤差が小さくなる。即ち、学習モデルＭが正解を出力する確率が高くなる。別の言い方をすれば、学習モデルＭの出力が、正解となるラベルに近づくようになる。

　第２損失Ｌ_ＣＬが小さくなるように、学習モデルＭのパラメータが調整されると、クエリ画像ｘ_Ｑの埋め込みベクトルと、クエリ画像ｘ_Ｑと類似するサポート画像ｘ_Ｓの埋め込みベクトルと、の違いが小さくなるように、学習モデルＭが埋め込みベクトルを計算するようになる。

　本実施形態とは逆に、クエリ画像ｘ_Ｑとは類似しないサポート画像ｘ_Ｓを利用するのであれば、第２損失Ｌ_ＣＬが小さくなるように学習モデルＭのパラメータが調整されると、クエリ画像ｘ_Ｑの埋め込みベクトルと、クエリ画像ｘ_Ｑと類似しないサポート画像ｘ_Ｓの埋め込みベクトルと、の違いが大きくなるように、学習モデルＭが埋め込みベクトルを計算するようになる。

　本実施形態では、調整部３０５は、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算し、全体損失Ｌ_{ｔｏｔａｌ}に基づいて、学習モデルＭのパラメータを調整する。全体損失Ｌ_{ｔｏｔａｌ}は、下記の数式５に基づいて計算される。なお、下記の数式５は、損失関数の一例であり、損失関数自体は、任意の関数を利用可能である。例えば、下記の数式５のような単純平均ではなく、重み係数を利用した加重平均により、全体損失Ｌ_{ｔｏｔａｌ}が計算されてもよい。

　本実施形態では、学習モデルＭ１と学習モデルＭ２とが存在し、これらの間でパラメータが共有されている。このため、調整部３０５は、学習モデルＭ１のパラメータと、学習モデルＭ２のパラメータと、の各々を調整する。本実施形態では、調整部３０５は、全体損失Ｌ_{ｔｏｔａｌ}を利用して学習モデルＭ１のパラメータを調整し、調整済みの学習モデルＭ１のパラメータを、学習モデルＭ２にコピーする。

　なお、上記とは逆に、調整部３０５は、全体損失Ｌ_{ｔｏｔａｌ}を利用して学習モデルＭ２のパラメータを調整し、調整済みの学習モデルＭ２のパラメータを、学習モデルＭ１にコピーしてもよい。また、調整部３０５は、パラメータのコピーをするのではなく、全体損失Ｌ_{ｔｏｔａｌ}を利用して学習モデルＭ１のパラメータを調整し、同じ全体損失Ｌ_{ｔｏｔａｌ}を利用して学習モデルＭ２のパラメータを調整してもよい。このようにしても、結果的にパラメータが共有される。

　本実施形態では、調整部３０５は、ラベルの組み合わせごとに（即ち、エピソードごとに）計算された第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとに基づいて、学習モデルＭのパラメータを調整する。本実施形態では、１５個のエピソードが存在するので、調整部３０５は、１５個のエピソードにそれぞれ対応する１５個の損失のペア（第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬのペア）に基づいて、学習モデルＭのパラメータを調整する。

　例えば、調整部３０５は、１５個のエピソードにそれぞれ対応する１５個の全体損失Ｌ_{ｔｏｔａｌ}を計算する。調整部３０５は、１５個の全体損失Ｌ_{ｔｏｔａｌ}の各々について、逆誤差伝播法などを利用して、学習モデルＭのパラメータを調整する。調整部３０５は、１５個の全体損失Ｌ_{ｔｏｔａｌ}のうちの全部又は一部を１つの損失にまとめたうえで、学習モデルＭのパラメータを調整してもよい。

　なお、調整部３０５は、全体損失Ｌ_{ｔｏｔａｌ}を計算せずに、学習モデルＭのパラメータを調整してもよい。例えば、調整部３０５は、第１損失Ｌ_ＢＣＥが小さくなるように、学習モデルＭのパラメータを調整した後に、第２損失Ｌ_ＣＬが小さくなるように、そのパラメータを調整してもよい。また例えば、調整部３０５は、第２損失Ｌ_ＣＬが小さくなるように、学習モデルＭのパラメータを調整した後に、第１損失Ｌ_ＢＣＥが小さくなるように、そのパラメータを調整してもよい。

　また、調整部３０５は、あるエピソードにおける第１損失Ｌ_ＢＣＥと、他のエピソードにおける第１損失Ｌ_ＢＣＥと、を１つの損失にまとめたうえで、学習モデルＭのパラメータを調整してもよい。調整部３０５は、あるエピソードにおける第２損失Ｌ_ＣＬと、他のエピソードにおける第２損失Ｌ_ＣＬと、を１つの損失にまとめたうえで、学習モデルＭのパラメータを調整してもよい。

［４．学習システムで実行される処理］
　図９は、学習システムＳで実行される処理の一例を示すフロー図である。本実施形態では、学習端末３０が学習モデルＭの学習を実行するので、図９は、学習端末３０で実行される処理の一例を示す。この処理は、制御部３１が記憶部３２に記憶されたプログラムに従って動作することによって実行される。この処理は、図３に示す機能ブロックにより実行される処理の一例である。

　なお、データセットＤＳは、予め記憶部３２に記憶されているものとする。また、処理対象のエピソードの順番と、個々のエピソードに対応するクラスと、は予め指定されているものとする。例えば、図７に示すロングテール分布における１５個のクラスの各々に対応するエピソードが、画像の総数が多い順に（図７の例であれば、ラベル１だけのクラスからラベル２とラベル３のクラスまで順番に）処理対象のエピソードとして指定されているものとする。

　図９に示すように、学習端末３０は、データセットＤＳから、処理対象のエピソードの１枚のクエリ画像ｘ_Ｑと５枚のサポート画像ｘ_Ｓとを、ランダムサンプリングする（Ｓ１）。学習端末３０は、学習モデルＭ１に対し、処理対象のエピソードのクエリ画像ｘ_Ｑを入力する（Ｓ２）。学習端末３０は、データセットＤＳに基づいて、学習モデルＭ１の実際の出力と、クエリ画像ｘ_Ｑの正解となるラベルと、に基づいて、クエリ画像ｘ_Ｑの第１損失Ｌ_ＢＣＥを計算する（Ｓ３）。

　学習端末３０は、学習モデルＭ２に対し、処理対象のエピソードの５枚のサポート画像ｘ_Ｓの各々を入力する（Ｓ４）。学習端末３０は、学習モデルＭ１により計算されたクエリ画像ｘ_Ｑの埋め込みベクトルと、学習モデルＭ２により計算された５枚のサポート画像ｘ_Ｓの各々の埋め込みベクトルと、を取得する（Ｓ５）。学習端末３０は、５枚のサポート画像ｘ_Ｓの埋め込みベクトルの平均値を計算する（Ｓ６）。

　学習端末３０は、クエリ画像ｘ_Ｑの埋め込みベクトルと、Ｓ６で計算した平均値と、に基づいて、第２損失Ｌ_ＣＬを計算する（Ｓ７）。学習端末３０は、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算する（Ｓ８）。学習端末３０は、全体損失Ｌ_{ｔｏｔａｌ}に基づいて、学習モデルＭ１と学習モデルＭ２の各々のパラメータを調整する（Ｓ９）。

　学習端末３０は、全てのエピソードの処理を実行したか否かを判定する（Ｓ１０）。まだ処理を実行していないエピソードが存在する場合（Ｓ１０；Ｎ）、Ｓ１の処理に戻り、次のエピソードが処理対象になる。全てのエピソードについて処理を実行したと判定された場合（Ｓ１０；Ｙ）、学習端末３０は、所定の回数だけ学習を繰り返したか否かを判定する（Ｓ１１）。この回数は、エポックと呼ばれる回数である。

　所定の回数だけ学習を繰り返したと判定されない場合（Ｓ１１；Ｎ）、学習端末３０は、学習モデルＭ１と学習モデルＭ２の各々のパラメータの調整を繰り返す（Ｓ１２）。Ｓ１２においては、１５個のエピソードの各々について、Ｓ１～Ｓ９までの処理を繰り返す。一方、所定の回数だけ学習を繰り返したと判定された場合（Ｓ１１；Ｙ）、本処理は終了する。

　実施形態の学習システムＳによれば、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、学習モデルＭのパラメータを調整することによって、少ない訓練データで、マルチラベルのデータを認識可能な学習モデルＭの精度を高めることができる。例えば、マルチラベルクロスエントロピー損失である第１損失Ｌ_ＢＣＥだけを利用して学習モデルＭのパラメータを調整しようとすると、膨大な訓練データを用意する必要がある。また例えば、few-shot learningベースのコントラスティブ損失である第２損失Ｌ_ＣＬだけを利用して学習モデルＭのパラメータを調整しようとすると、訓練データの数を減らすことはできるが、先述した第１の問題及び第２の問題等により、マルチラベルに対応可能な学習モデルＭの精度を十分に高めることができないことがある。第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとを併用することによって、訓練データの減少と、学習モデルＭの精度向上と、を両立できる。発明者達の独自の研究によれば、ロングテール分布における画像の総数が比較的少ないラベル（図６におけるラベル０，４，５，６）のラベリング精度が特に向上することが確認された。また、訓練データの減少を実現することで、学習モデルＭの作成時のユーザの手間を省くことができる。

　また、学習システムＳは、クエリ画像ｘ_Ｑの埋め込みベクトルと、少なくとも１つのラベルが同じであるサポート画像ｘ_Ｓの埋め込みベクトルと、の違いが大きいほど、第２損失Ｌ_ＣＬが大きくなるように、第２損失Ｌ_ＣＬを計算することによって、似た画像同士の特徴を学習モデルＭに学習させることができる。例えば、クエリ画像ｘ_Ｑの埋め込みベクトルと、サポート画像ｘ_Ｓの埋め込みベクトルと、が近づくように、学習モデルＭのパラメータを調整することによって、学習モデルＭの精度を高めることができる。

　また、学習システムＳは、クエリ画像ｘ_Ｑの埋め込みベクトルと、複数のサポート画像ｘ_Ｓの各々の埋め込みベクトルの平均値と、に基づいて、第２損失Ｌ_ＣＬを取得することによって、サポート画像ｘ_Ｓの数を増やし、学習モデルＭの精度を効果的に高めることができる。即ち、サポート画像ｘ_Ｓの枚数を増やした場合にも第２損失Ｌ_ＣＬを正確に計算できる。また、複数のサポート画像ｘ_Ｓの埋め込みベクトルを１つの平均値にまとめることにより、１つの第２損失Ｌ_ＣＬを計算すればよく、多数の第２損失Ｌ_ＣＬを計算する必要がなくなるので、学習端末３０の処理負荷を軽減し、学習を高速化できる。

　また、学習システムＳは、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算してパラメータを調整することによって、第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとを総合的に考慮した１つの指標を利用して、学習モデルＭの精度を効果的に高めることができる。また、第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとを１つの全体損失Ｌ_{ｔｏｔａｌ}にまとめることによって、学習時に必要な処理を簡易化できる。即ち、２つの損失を１つにまとめることで、学習の処理も１つにまとめることができる。その結果、学習端末３０の処理負荷を軽減し、学習を高速化できる。

　また、学習システムＳは、ラベルの組み合わせごとに（即ち、エピソードごとに）、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとを含む画像セットが存在し、ラベルの組み合わせごとに計算された第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとに基づいて、学習モデルＭのパラメータを調整することによって、種々のラベルの組み合わせの特徴を学習モデルＭに学習させ、学習モデルＭの精度を高めることができる。また、マルチラベルにおけるラベルの組み合わせが多い場合にも、その組み合わせを認識可能な学習モデルＭを作成できる。

　また、学習システムＳは、学習モデルＭ１にクエリ画像ｘ_Ｑを入力し、学習モデルＭ２にサポート画像ｘ_Ｓを入力することによって、埋め込みベクトルの計算を並行して実行することができ、学習処理を高速化できる。

　また、学習システムＳは、学習システムＳは、マルチラベルにおけるロングテール分布を有するデータ群の中から、クエリ画像ｘ_Ｑと、サポート画像ｘ_Ｓと、を取得することによって、学習モデルＭの処理対象となる母集団がロングテール分布を有していたとしても、訓練データを減らし、学習モデルＭの精度を最大限に高めることができる。例えば、画像の総数が多いクラスと、画像の総数が少ないクラスと、で学習に利用する画像の数（１エピソードに含まれる画像の数）を同じにすることで、全てのクラスの特徴を学習モデルＭに万遍なく学習させることができる。

　また、学習システムＳは、学習モデルＭは、認識対象の複数のラベル以外の他のラベルが学習されたモデルの最後のレイヤが、複数のラベルに応じたレイヤに代えられることによって、学習の開始時にある程度の精度を有する学習モデルＭを用意し、最終的に得られる学習モデルＭの精度も高めることができる。例えば、一般的なＲｅｓＮｅｔ５０を利用して事前学習を実行した場合、事前学習で得られた学習モデルＭは、一般的なオブジェクトの特徴をある程度認識できる。即ち、この学習モデルＭは、画像内のどこに着目すれば、オブジェクトを分類可能であるかをある程度認識できる。そのような学習モデルＭを利用して、本実施形態のような学習を行うことにより、より高精度の学習モデルＭを得ることができる。また、ある程度の精度を有する学習モデルＭを得るまでに必要な学習の実行回数を減らし、学習端末３０の処理負荷を軽減し、学習を高速化できる。

　また、学習システムＳは、学習モデルＭの処理対象のデータを画像とすることで、少ない訓練データで、マルチラベルの画像を認識可能な学習モデルＭの精度を高めることができる。

［５．変形例］
　なお、本開示は、以上に説明した実施の形態に限定されるものではない。本開示の趣旨を逸脱しない範囲で、適宜変更可能である。

　（１）例えば、調整部３０５は、第１損失Ｌ_ＢＣＥ、第２損失Ｌ_ＣＬ、及びユーザにより指定された重み係数に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算してもよい。ユーザは、第１損失Ｌ_ＢＣＥと第２損失Ｌ_ＣＬとの少なくとも一方の重み係数を指定可能である。ユーザは、これらの両方の重み係数を指定してもよいし、何れか一方のみの重み係数を指定してもよい。ユーザにより指定された重み係数は、データ記憶部３００に記憶される。調整部３０５は、第１損失Ｌ_ＢＣＥ第２損失Ｌ_ＣＬの各々に重み係数を乗じたうえで加算した値を、全体損失Ｌ_{ｔｏｔａｌ}として取得する。全体損失Ｌ_{ｔｏｔａｌ}が取得された後の調整部３０５の処理は、実施形態と同様である。

　変形例（１）によれば、第１損失Ｌ_ＢＣＥ、第２損失Ｌ_ＣＬ、及び作成者により指定された重み係数に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算することによって、学習モデルＭの精度を効果的に高めることができる。例えば、ロングテール分布におけるメジャーなクラスを優先して学習させたい場合には、第１損失Ｌ_ＢＣＥの重み係数を高くして、ロングテール分布におけるマイナーなクラスを優先して学習させたい場合には、第２損失Ｌ_ＣＬの重み係数を高くする、といったように、ユーザの目的に応じて重み係数を使い分けることができる。

　（２）また例えば、第２計算部３０４は、クエリ画像ｘ_Ｑの埋め込みベクトル、サポート画像ｘ_Ｓの埋め込みベクトル、及びクエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの間のラベルの類似性に応じた係数に基づいて、第２損失Ｌ_ＣＬを取得してもよい。ラベルの類似性とは、同じラベルの数又は割合である。同じラベルの数又は割合が多い又は高いほど、ラベルの類似性が高いことを意味する。

　実施形態では、クエリ画像ｘ_Ｑのラベルと、サポート画像ｘ_Ｓのラベルと、が完全一致する場合（クエリ画像ｘ_Ｑのクラスとサポート画像ｘ_Ｓのクラスとが同じ場合）を説明したが、本変形例では、クエリ画像ｘ_Ｑのラベルと、サポート画像ｘ_Ｓのラベルと、が完全一致せずに部分一致する場合（クエリ画像ｘ_Ｑのクラスとサポート画像ｘ_Ｓのクラスとが類似する場合）を説明する。

　例えば、クエリ画像ｘ_Ｑがラベル１、ラベル２、及びラベル４の３つのラベルに属するマルチラベルの画像だったとする。サポート画像ｘ_Ｓがラベル１、ラベル３、及びラベル４の３つのラベルに属するマルチラベルの画像だったとする。この場合、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの間で、３つのラベルのうちの２つが一致しているので、類似性に応じた係数は、０．６７とする。第２計算部３０４は、この係数を数式４に乗じることによって、第２損失Ｌ_ＣＬを計算する。

　クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの間で同じラベルの数又は割合が多い又は高いほど、係数は大きくなる。ラベルの数又は割合と係数との関係は、予め数式又はテーブル等のデータに定めておけばよい。第２計算部３０４は、あるエピソードにおける第２損失Ｌ_ＣＬを計算する場合に、そのエピソードのクエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの間で同じラベルの数又は割合を特定し、その数又は割合に応じた係数を取得する。第２計算部３０４は、その係数に基づいて、第２損失Ｌ_ＣＬを計算する。

　変形例（２）によれば、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの間のラベルの類似性に応じた係数に基づいて、第２損失Ｌ_ＣＬを取得することによって、より少ない訓練データで、学習モデルＭの精度を効果的に高めることができる。例えば、ある画像と全く同じラベルの他の画像を探すのは難しいことがあり、類似するラベルの画像であれば容易に入手できることがある。この場合、ラベルの類似性に応じた係数に基づいて、第２損失Ｌ_ＣＬを取得することによって、全く同じラベルの他の画像を入手できなくても済むようになり、ユーザの手間を省くことができる。

　（３）また例えば、上記変形例を組み合わせてもよい。

　また例えば、複数のサポート画像ｘ_Ｓの各々の埋め込みベクトルの平均値を取ることなく、パラメータの調整が実行されてもよい。この場合、調整部３０５は、サポート画像ｘ_Ｓごとに、クエリ画像ｘ_Ｑの第１損失Ｌ_ＢＣＥと、そのサポート画像ｘ_Ｓの第２損失Ｌ_ＣＬと、に基づいて、全体損失Ｌ_{ｔｏｔａｌ}を計算し、パラメータの調整を実行してもよい。

　また例えば、図４では、２つの学習モデルＭ１，Ｍ２について説明したが、学習モデルＭは、１つだけであってもよい。この場合、１つの学習モデルＭに対し、クエリ画像ｘ_Ｑとサポート画像ｘ_Ｓとの各々が入力される。他にも例えば、学習モデルＭは、３つ以上であってもよい。この場合、Ｎ枚のサポート画像ｘ_Ｓごとに学習モデルＭが用意されていてもよい。なお、学習モデルＭが３つ以上の場合にも、パラメータが共有されるものとする。

　また例えば、第１損失Ｌ_ＢＣＥと、第２損失Ｌ_ＣＬと、に基づいて、学習モデルＭのパラメータが調整される場合を説明したが、学習システムＳは、第１損失Ｌ_ＢＣＥを計算せずに、第２損失Ｌ_ＣＬだけに基づいて、学習モデルＭのパラメータを調整してもよい。これとは逆に、学習システムＳは、第２損失Ｌ_ＣＬを計算せずに、第１損失Ｌ_ＢＣＥだけに基づいて、学習モデルＭのパラメータを調整してもよい。このようにすることでも、ある程度の精度の学習モデルＭを作成できることがあるからである。

　また例えば、学習モデルＭの認識対象は、画像に含まれる任意のオブジェクトであってよく、デジタルテキスト等に限られない。例えば、学習モデルＭは、犬や猫などの複数のオブジェクトが写されたマルチラベルの画像を認識してもよい。即ち、学習モデルＭによりラベリングされるラベルは、デジタルテキスト等に限られず、画像内の被写体であってもよい。ラベルは、画像内のオブジェクトの何らかの分類であればよい。

　また例えば、学習モデルＭに入力されるデータは、画像に限られない。即ち、学習システムＳは、画像認識以外の認識を行う学習モデルＭにも適用可能である。例えば、学習システムＳは、音声認識を行う学習モデルＭであってもよい。この場合、学習モデルＭに入力されるデータは、音声データである。また例えば、学習システムＳは、自然言語処理における学習モデルＭにも適用可能である。この場合、学習モデルＭに入力されるデータは、文書データである。他にも例えば、人間の行動又は自然界の現象といった種々の認識を行う学習モデルＭにも学習システムＳを適用可能である。学習モデルＭに入力されるデータは、学習モデルＭの用途に応じたデータであればよい。

　また例えば、学習端末３０に含まれる機能の全部又は一部は、他のコンピュータで実現されてもよい。例えば、データ取得部３０１、第１計算部３０２、特徴量取得部３０３、第２計算部３０４、及び調整部３０５の各々がサーバ１０に含まれてもよい。この場合、これらの各機能は、制御部１１を主として実現される。他にも例えば、これらの各機能が複数のコンピュータで分担されてもよい。学習システムＳには、１台のコンピュータだけが含まれてもよい。また例えば、データ記憶部１００，３００に記憶されるものとして説明したデータは、サーバ１０又は学習端末３０とは異なる他のコンピュータ又は情報記憶媒体に記憶されていてもよい。

Claims

　マルチラベルのクエリデータが学習モデルに入力された場合に、前記学習モデルの出力と、目標となる出力と、に基づいて、第１損失を計算する第１計算手段と、
　前記学習モデルのパラメータに基づいて計算された、前記クエリデータの特徴量と、前記クエリデータに対応するサポートデータの特徴量と、を取得する特徴量取得手段と、
　前記クエリデータの特徴量と、前記サポートデータの特徴量と、に基づいて、第２損失を計算する第２計算手段と、
　前記第１損失と、前記第２損失と、に基づいて、前記パラメータを調整する調整手段と、
　を含む学習システム。
　前記クエリデータと、前記サポートデータと、は少なくとも１つのラベルが同じであり、
　前記第２計算手段は、前記クエリデータの特徴量と前記サポートデータの特徴量との違いが大きいほど、前記第２損失が大きくなるように、前記第２損失を計算する、
　請求項１に記載の学習システム。
　前記特徴量取得手段は、複数の前記サポートデータの各々の特徴量を取得し、
　前記第２計算手段は、前記複数の前記サポートデータの各々の特徴量に基づいて、平均特徴量を計算し、前記クエリデータの特徴量と、前記平均特徴量と、に基づいて、前記第２損失を取得する、
　請求項１又は２に記載の学習システム。
　前記調整手段は、前記第１損失と、前記第２損失と、に基づいて、全体損失を計算し、前記全体損失に基づいて、前記パラメータを調整する、
　請求項１～３の何れかに記載の学習システム。
　前記調整手段は、前記第１損失、前記第２損失、及び作成者により指定された重み係数に基づいて、前記全体損失を計算する、
　請求項４に記載の学習システム。
　前記学習モデルは、３以上のラベルを認識可能であり、
　前記ラベルの組み合わせごとに、前記クエリデータと前記サポートデータとを含むデータセットが存在し、
　前記第１計算手段は、前記ラベルの組み合わせごとに、当該組み合わせに対応する前記クエリデータに基づいて、前記第１損失を計算し、
　前記特徴量取得手段は、前記ラベルの組み合わせごとに、当該組み合わせに対応する前記クエリデータの特徴量と、当該組み合わせに対応する前記サポートデータの特徴量と、を取得し、
　前記第２計算手段は、前記ラベルの組み合わせごとに、当該組み合わせに対応する前記クエリデータの特徴量と、当該組み合わせに対応する前記サポートデータの特徴量と、に基づいて、前記第２損失を計算し、
　前記調整手段は、前記ラベルの組み合わせごとに計算された前記第１損失と前記第２損失とに基づいて、前記パラメータを調整する、
　請求項１～５の何れかに記載の学習システム。
　前記クエリデータは、第１の学習モデルに入力され、
　前記サポートデータは、第２の学習モデルに入力され、
　前記第１の学習モデルの前記パラメータと、前記第２の学習モデルの前記パラメータと、は共有されており、
　前記第１計算手段は、前記第１の学習モデルの前記パラメータに基づいて、前記第１損失を計算し、
　前記特徴量取得手段は、前記第１の学習モデルの前記パラメータに基づいて計算された前記クエリデータの特徴量と、前記第２の学習モデルの前記パラメータに基づいて計算された前記サポートデータの特徴量と、を取得し、
　前記調整手段は、前記第１の学習モデルの前記パラメータと、前記第２の学習モデルの前記パラメータと、の各々を調整する、
　請求項１～６の何れかに記載の学習システム。
　前記クエリデータと、前記サポートデータと、は少なくとも１つのラベルが同じであり、
　前記第２計算手段は、前記クエリデータの特徴量、前記サポートデータの特徴量、及び前記クエリデータと前記サポートデータとの間のラベルの類似性に応じた係数に基づいて、前記第２損失を取得する、
　請求項１～７の何れかに記載の学習システム。
　前記学習システムは、マルチラベルにおけるロングテール分布を有するデータ群の中から、前記クエリデータと、前記サポートデータと、を取得するデータ取得手段を更に含む、
　請求項１～８の何れかに記載の学習システム。
　前記学習モデルは、認識対象の複数のラベル以外の他のラベルが学習されたモデルの最後のレイヤが、前記複数のラベルに応じたレイヤに代えられており、
　前記第１計算手段は、前記複数のラベルに応じたレイヤに代えられた前記学習モデルの出力と、前記目標となる出力と、に基づいて、前記第１損失を計算する、
　請求項１～９の何れかに記載の学習システム。
　前記学習モデルは、画像に含まれるオブジェクトを認識するモデルであり、
　前記クエリデータは、マルチラベルのクエリ画像であり、
　前記サポートデータは、前記クエリ画像に対応するサポート画像である、
　請求項１～１０の何れかに記載の学習システム。
　マルチラベルのクエリデータが学習モデルに入力された場合に、前記学習モデルの出力と、目標となる出力と、に基づいて、第１損失を計算する第１計算ステップと、
　前記学習モデルのパラメータに基づいて計算された、前記クエリデータの特徴量と、前記クエリデータに対応するサポートデータの特徴量と、を取得する特徴量取得ステップと、
　前記クエリデータの特徴量と、前記サポートデータの特徴量と、に基づいて、第２損失を計算する第２計算ステップと、
　前記第１損失と、前記第２損失と、に基づいて、前記パラメータを調整する調整ステップと、
　を含む学習方法。
　マルチラベルのクエリデータが学習モデルに入力された場合に、前記学習モデルの出力と、目標となる出力と、に基づいて、第１損失を計算する第１計算手段、
　前記学習モデルのパラメータに基づいて計算された、前記クエリデータの特徴量と、前記クエリデータに対応するサポートデータの特徴量と、を取得する特徴量取得手段、
　前記クエリデータの特徴量と、前記サポートデータの特徴量と、に基づいて、第２損失を計算する第２計算手段、
　前記第１損失と、前記第２損失と、に基づいて、前記パラメータを調整する調整手段、
　としてコンピュータを機能させるためのプログラム。