WO2022195691A1

WO2022195691A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2022195691A1
Application number: PCT/JP2021/010452
Authority: WO
Inventors: 裕也大日方; 琢麿山本
Original assignee: 富士通株式会社
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2022-09-22
Also published as: EP4310734A1; JPWO2022195691A1; EP4310734A4; US20230409911A1

Abstract

記憶部（１１）は、正解を表すラベルと対象データとが対応付けられた複数のラベルありデータ、正解との対応付けがない対象データである複数のラベルなしデータ、及び、深層学習モデル（１１０）を記憶する。疑似ラベル生成部（１２）は、ラベルなしデータ及び前記深層学習モデルを基に疑似ラベルを生成する。損失算出部（１４）は、疑似ラベル及び前記ラベルありデータに含まれる前記ラベルを基に、深層学習モデル（１１０）を用いてラベルなしデータの識別を行った場合及びラベルありデータの識別を行った場合の損失を算出する。更新部（１５）は、損失算出部（１４）により算出された損失を基に、深層学習モデル（１１０）を更新する。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　近年、深層学習分野の進展に伴い、認識性能の高い深層学習モデルが登場している。深層学習モデルの学習では、人手で正解が付けられたデータであるラベルありデータを大量に用いることで効率的に学習が進められる。例えば、画像認識の分野では物体を認識する場合、１つの物体について最低でも数百のラベルありデータが用いられる。

　一方、学習データを実際に取得する環境において提供される学習データの大半は正解の付けられていないラベルなしデータであり、ラベルありデータは少数である。例えば、学習データが全体で数百個ある場合、そのうちラベルありデータは数十程度しかないことが多い。ラベルありデータが少ない場合、深層学習モデルは学習するデータに過剰に適合し、学習していないデータに対する性能が低下する。このような事象は過学習と呼ばれる。そのため、ラベルなしデータも用いて認識性能の高い深層学習モデルを学習する手法が求められている。

　従来、深層学習において以下のような技術が提供されている。１つは、ラベルなしデータから認識に用いる画像特徴を抽出する能力である特徴抽出能力を獲得する技術である。具体的には、ラベル無しデータから深層学習モデルを用いて特徴量を抽出し、抽出した特徴量に基づいてデータ同士をまとめて複数のクラスタに分割し、クラスタ毎に疑似的な正解である疑似ラベルを割り当てて学習を行うことで特徴量抽出能力を獲得する。

　他の１つは、事前に獲得した特徴抽出能力を深層学習モデルに与えてから、抽出された特徴を基にデータを識別する能力に限定してラベルありデータで学習を行う技術である。この技術は、Transfer　Learningと呼ばれる。

　そして、上述した２つの技術を組み合わせて、ラベルなしデータから獲得した特徴抽出能力を基に、抽出された特徴を基にデータを識別する能力に限定してラベルありデータで学習を行う方法が考えられる。これにより、少量のラベルありデータでも認識性能の高い深層学習モデルが獲得できる。

Self-labelling　via　simultaneous　clustering　and　representation　learning,　Yuki　M.　Asano,　Christian　Rupprecht,　Andrea　Vedaldi,　ICLR2020,　20　August　2020.

　しかしながら、ラベルなしデータからの特徴抽出能力の獲得を行った後に、抽出した特徴に基づきデータを識別する能力に限定して学習を行った場合、深層学習モデルの特徴抽出能力と識別能力とがそれぞれ個別に学習され最適化される。すなわち、ラベルなしデータからの特徴抽出能力の獲得により特徴量抽出能力が最適化され、抽出した特徴に基づきデータを識別する能力に限定した学習により識別能力が最適化される。このため、各処理を順番に実施した場合、識別能力に合わせた特徴量抽出能力のチューニングが困難となり、局所最適解に陥る。そのため、深層学習モデルの認識全体での性能が低くなる。

　開示の技術は、上記に鑑みてなされたものであって、深層学習モデルの認識性能を向上させる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

　本願の開示する情報処理装置、情報処理方法及び情報処理プログラムは、一つの態様において、記憶部は、正解を表すラベルと対象データとが対応付けられた複数のラベルありデータ、正解との対応付けがない対象データである複数のラベルなしデータ、及び、深層学習モデルを記憶する。疑似ラベル生成部は、前記ラベルなしデータ及び前記深層学習モデルを基に疑似ラベルを生成する。損失算出部は、前記疑似ラベル及び前記ラベルありデータに含まれる前記ラベルを基に、前記深層学習モデルを用いて前記ラベルなしデータの識別を行った場合及び前記ラベルありデータの識別を行った場合の損失を算出する。更新部は、前記損失算出部により算出された前記損失を基に、前記深層学習モデルを更新する。

　本願の開示する情報処理装置、情報処理方法及び情報処理プログラムの一つの態様によれば、深層学習モデルの認識性能を向上させることができる。

図１は、実施例１に係る学習装置のブロック図である。図２は、実施例１に係る学習方法を説明するための図である。図３は、実施例１に係る学習処理の全体のフローチャートである。図４は、ラベルありデータとラベルなしデータとを用いた同時学習のフローチャートである。図５は、実施例２に係る学習装置のブロック図である。図６は、実施例２に係る学習方法を説明するための図である。図７は、実施例３で用いられる学習データの一例を示す図である。図８は、学習装置のハードウェア構成の一例を示す図である。

　以下に、本願の開示する情報処理装置、情報処理方法及び情報処理プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。

　図１は、実施例１に係る学習装置のブロック図である。本実施例に係る情報処理装置である学習装置１は、画像データの認識を行う深層学習モデル１１０の学習を行う。ここで、画像データとは、具体的には、画面上に表示される各画素におけるＲＧＢ（Red　Green　Blue）値の集合として表されるデータである。学習装置１は、図１に示すように、記憶部１１、疑似ラベル生成部１２、モデル出力部１３、損失算出部１４及び更新部１５を有する。

　記憶部１１は、深層学習モデル１１０、ラベルなしＤＢ（Data　Base）１１１及びラベルありＤＢ１１２を格納する。

　深層学習モデル１１０は、本実施例では、画像認識を行う学習モデルである。深層学習モデル１１０は、画像データの特徴を抽出する特徴量抽出層と、画像データの特徴量からその画像データに写っている対象を識別する識別層とを有する。

　ラベルなしＤＢ１１１は、画像データであるラベルなしデータ２０１を格納するデータベースである。ラベルなしＤＢ１１１は、外部の端末装置などを用いて利用者から入力されたラベルなしデータ２０１を記憶する。ラベルなしデータ２０１は、その画像データに写っている対象が何かを示す正解のラベルが付与されていない学習データである。

　ラベルありＤＢ１１２は、画像データであるラベルありデータ２０２を格納するデータベースである。ラベルありＤＢ１１２は、外部の端末装置などを用いて利用者から入力されたラベルありデータ２０２を記憶する。ラベルありデータ２０２は、正解ラベルが付与された学習データである。

　疑似ラベル生成部１２は、記憶部１１が記憶する深層学習モデル１１０を取得する。また、疑似ラベル生成部１２は、複数のラベルなしデータ２０１をラベルなしＤＢ１１１から読み込む。この際、疑似ラベル生成部１２は、全てのラベルなしデータ２０１を読み込むことが好ましい。次に、疑似ラベル生成部１２は、読み込んだ画像群に含まれる各ラベルなしデータ２０１を深層学習モデル１１０に入力してラベルなしデータ２０１のそれぞれに対応する出力を取得する。

　次に、疑似ラベル生成部１２は、読み込んだ画像群に含まれる各ラベルなしデータ２０１を深層学習モデル１１０からの出力値に応じてまとめて、予め決められた所定個数のクラスタに分割する。例えば、疑似ラベル生成部１２は、ｋ－ｍｅａｎｓクラスタリングを用いてクラスタ分けを行う。

　そして、疑似ラベル生成部１２は、クラスタ毎に疑似的な正解である疑似ラベルを割り当てる。例えば、クラスがｋ個ある場合であれば、疑似ラベル生成部１２は、クラス＃１，クラス＃２，クラス＃３，・・・，クラス＃ｋといった疑似ラベルを割り当てる。その後、疑似ラベル生成部１２は、各クラスタに含まれるラベルなしデータ２０１の情報とともにクラスタ毎に割り当てた疑似ラベルを損失算出部１４へ出力する。

　モデル出力部１３は、ラベルなしデータ２０１及びラベルありデータ２０２のそれぞれの深層学習モデル１１０からの出力を取得する。モデル出力部１３は、第１モデル出力部１３１及び第２モデル出力部１３２を有する。

　また、損失算出部１４は、深層学習モデル１１０からの出力値と疑似ラベル又はラベルありデータ２０２に付与されたラベルを比較して、それぞれの損失を算出する。損失算出部１４は、第１損失算出部１４１及び第２損失算出部１４２を有する。以下に、モデル出力部１３及び損失算出部１４の動作の詳細について説明する。

　第１モデル出力部１３１は、記憶部１１が記憶する深層学習モデル１１０を取得する。また、第１モデル出力部１３１は、深層学習モデル１１０の学習に用いる複数のラベルなしデータ２０１をラベルなしＤＢ１１１から読み込む。

　次に、第１モデル出力部１３１は、読み込んだ画像群に含まれる各ラベルなしデータ２０１を深層学習モデル１１０の特徴量抽出層に入力して、各ラベルなしデータ２０１に対応する深層学習モデル１１０からの出力を得る。例えば、読み込んだ画像群をＤ_ｕとし、Ｄ_ｕに含まれるラベルなしデータ２０１をｘ_ｕとした場合、第１モデル出力部１３１は、次の数式（１）を用いて深層学習モデル１１０の出力であるｙ_ｕを取得する。

　ここで、ｆは、深層学習モデル１１０の特徴量抽出層を表す。すなわち、ｆ（ｘ_ｕ）は、特徴量抽出層からの出力を表す。また、ｈ_{ｕｎｓｕｐ}は、深層学習モデル１１０のラベルなしデータ用の識別層を表す。すなわち、ｈ_{ｕｎｓｕｐ}（ｆ（ｘ_ｕ））は、特徴量抽出層からの出力を識別層に入力して得られる出力である。

　その後、第１モデル出力部１３１は、各ラベルなしデータ２０１に対する深層学習モデル１１０の出力値を損失算出部１４の第１損失算出部１４１へ出力する。例えば、第１モデル出力部１３１は、深層学習モデル１１０の出力であるｙ_ｕを第１損失算出部１４１へ出力する。

　第１損失算出部１４１は、ラベルなしデータ２０１を用いた場合の損失を計算する。以下では、損失をＬｏｓｓと呼ぶ場合がある。

　第１損失算出部１４１は、ラベルなしデータ２０１に対する深層学習モデル１１０からの出力値の入力を第１モデル出力部１３１から受ける。さらに、第１損失算出部１４１は、ラベルなしデータ２０１をクラスタリングして作成されたクラスタ毎の疑似ラベルの入力を各クラスタに含まれるラベルなしデータ２０１の情報とともに疑似ラベル生成部１２から受ける。

　次に、第１損失算出部１４１は、取得した出力値と疑似ラベルとを比較して、深層学習モデル１１０を用いた推定結果とここでの正解である疑似ラベルとの誤差であるラベルなしデータ２０１を用いた場合のＬｏｓｓを計算する。例えば、第１損失算出部１４１は、取得した出力値を表すｙ_ｕに対して次の数式（２）を用いてラベルなしデータ２０１を用いた場合のＬｏｓｓであるＬｏｓｓＬ_{ｕｎｓｕｐ}を算出する。

　ここで、ｔ_ｕは、疑似ラベルである。また、ＣＥは、一般的なクロスエントロピーロスを表す。

　その後、第１損失算出部１４１は、算出したラベルなしデータ２０１を用いた場合の損失を更新部１５へ出力する。例えば、第１損失算出部１４１は、算出したＬ_{ｕｎｓｕｐ}を更新部１５へ出力する。

　第２モデル出力部１３２は、記憶部１１が記憶する深層学習モデル１１０を取得する。また、第２モデル出力部１３２は、深層学習モデル１１０の学習に用いるラベルありデータ２０２をラベルありＤＢ１１２から読み込む。

　次に、第２モデル出力部１３２は、読み込んだ画像群に含まれる各ラベルありデータ２０２を深層学習モデル１１０の特徴量抽出層に入力して、各ラベルありデータ２０２に対応する深層学習モデル１１０からの出力を得る。例えば、読み込んだ画像群をＤ_ｉとし、Ｄ_ｉに含まれるラベルなしデータ２０２をｘ_ｉとした場合、第２モデル出力部１３２は、次の数式（３）を用いて深層学習モデル１１０の出力であるｙ_ｉを取得する。

　ここで、ｆは、深層学習モデル１１０の特徴量抽出層を表す。すなわち、ｆ（ｘ_ｉ）は、特徴量抽出層からの出力を表す。また、ｈ_ｓｕｐは、深層学習モデル１１０のラベルありデータ用の識別層を表す。すなわち、ｈ_ｓｕｐ（ｆ（ｘ_ｉ））は、特徴量抽出層からの出力を識別層に入力して得られる出力である。以上のように、本実施例に係る学習装置１では、ラベルなしデータ２０１用の識別層と、ラベルなしデータ２０２用の識別層はそれぞれ個別に学習が行われる。

　その後、第２モデル出力部１３２は、各ラベルありデータ２０２に対する深層学習モデル１１０の出力値を第２損失算出部１４２へ出力する。例えば、第２モデル出力部１３２は、深層学習モデル１１０の出力であるｙ_ｉを第２損失算出部１４２へ出力する。

　第２損失算出部１４２は、ラベルありデータ２０２に対する深層学習モデル１１０からの出力値の入力を第２モデル出力部１３２から受ける。さらに、第２損失算出部１４２は、モデル出力部１３により読み込まれた各ラベルありデータ２０２に付与されたラベルをラベルありＤＢ１１２から取得する。

　次に、第２損失算出部１４２は、取得した出力値と各ラベルありデータ２０２に付与されたラベルとを比較して、深層学習モデル１１０を用いた推定結果と正解であるラベルとの誤差であるラベルありデータ２０２を用いた場合のＬｏｓｓを計算する。例えば、第２損失算出部１４２は、取得した出力値を表すｙ_ｉに対して次の数式（４）を用いてラベルありデータ２０２を用いた場合のＬｏｓｓであるＬ_ｓｕｐを算出する。

　ここで、ｔ_ｉは、正解である。また、ＣＥは、一般的なクロスエントロピーロスを表す。

　その後、第２損失算出部１４２は、算出したラベルありデータ２０２を用いた場合の損失を更新部１５へ出力する。例えば、第２損失算出部１４２は、算出したＬ_ｓｕｐを更新部１５へ出力する。

　更新部１５は、ラベルなしデータ２０１を用いた場合の損失の入力を第１損失算出部１４１から受ける。また、更新部１５は、ラベルありデータ２０２を用いた場合の損失の入力を第２損失算出部１４２から受ける。そして、更新部１５は、ラベルなしデータ２０１を用いた場合の推定結果とラベルありデータ２０２を用いた場合の推定結果とに予め決められた重みづけをして、最終的な損失を算出する。例えば、更新部１５は、ラベルなしデータ２０１を用いた場合のＬｏｓｓであるＬ_{ｕｎｓｕｐ}と、ラベルありデータ２０２を用いた場合のＬｏｓｓであるＬ_ｓｕｐとから、次の数式（５）を用いて最終的なＬｏｓｓであるＬ_{ｔｏｔａｌ}を算出する。

　ここで、αは、Ｌ_ｓｕｐとＬ_{ｕｎｓｕｐ}とのバランス調整用のパラメータであり、それぞれに重みづけをする定数である。αは、０より大きく１より小さい値をとる。αが大きいほど、ラベルありデータ２０２を用いた場合の推定結果による学習に対する影響が大きくなる。

　その後、更新部１５は、算出した最終的な損失が最小となるように、深層学習モデル１１０の特徴量抽出層のパラメータ、ラベルなしデータ２０１用の識別層のパラメータ及びラベルありデータ２０２用の識別層のパラメータを求める。そして、更新部１５は、求めた深層学習モデル１１０の特徴量抽出層のパラメータ及びラベルなしデータ２０１用の識別層のパラメータでモデル出力部１３が保持する深層学習モデル１１０を更新する。また、更新部１５は、求めた深層学習モデル１１０の特徴量抽出層のパラメータ及びラベルありデータ２０２用の識別層のパラメータでモデル出力部１３が保持する深層学習モデル１１０を更新する。例えば、更新部１５は、Ｌ_{ｔｏｔａｌ}を最小化するｆ、Ｌ_ｓｕｐ及びＬ_{ｕｎｓｕｐ}により、モデル出力部１３及びモデル出力部１３のそれぞれが保持する深層学習モデル１１０を更新する。

　このように、本実施例に係る学習装置１では、ラベルなしデータ２０１用の深層学習モデル１１０とラベルありデータ２０２用の深層学習モデル１１０とがそれぞれ別個に、且つ、同時並行で学習が行われる。ただし、ラベルなしデータ２０１用の深層学習モデル１１０とラベルありデータ２０２用の深層学習モデル１１０とにおいて、特徴量抽出層は同じであり、識別層が異なる。そして、学習後の認識フェースでは、モデル出力部１３が保持する学習済みのラベルありデータ２０２用の深層学習モデル１１０を用いて、未知の画像データに対する認識が行われる。

　図２は、実施例１に係る学習方法を説明するための図である。次に、図２を参照して、本実施例での学習の全体の流れを説明する。

　まず、複数のラベルなしデータ２０１及び複数のラベルありデータ２０２が用意され、それぞれラベルなしＤＢ１１１及びラベルありＤＢ１１２に格納される。図２に示すように、ラベルなしデータには正解が付与されていないが、ラベルありデータ２０２には、花、車、魚といったラベルが付与されている。

　次に、ラベルありデータ２０１及びラベルありデータ２０２のそれぞれについて、第１モデル出力部１３１及び第２モデル出力部１３２により、深層学習モデル１１０の特徴量抽出層を用いて特徴量抽出が行われる（ステップＳ１）。

　次に、ラベルなしデータ２０１を用いた学習は、図２における特徴量抽出層から識別層へ向かう紙面に向かって上側の矢印の方向に進む。そして、疑似ラベル生成部１２によりクラスタリングによるクラス分け及び疑似ラベルの付加が行われる。その後、第１損失算出部１４１及び第２損失算出部１４２、並びに、更新部１５により、疑似ラベルを用いたラベルなしデータ２０１による学習及びラベルを用いたラベルありデータ２０２による学習が同時に行われる（ステップＳ２及びＳ３）。この学習により、深層学習モデル１１０の特徴量抽出層、ラベルなしデータ２０１用の識別層及びラベルありデータ２０２用の識別層が同時に学習される。

　図３は、実施例１に係る学習処理の全体のフローチャートである。次に、図３を参照して、実施例１に係る学習処理の全体の流れを説明する。

　学習装置１は、ラベルなしデータ２０１を取得して、ラベルなしＤＢ１１１に格納する。また、学習装置１は、ラベルありデータ２０２を取得して、ラベルありＤＢ１１２に格納する（ステップＳ１１）。

　更新部１５は、外部の端末装置などから入力された回数閾値を取得する（ステップＳ１２）。

　次に、更新部１５は、学習回数を初期化して０に設定する（ステップＳ１３）。

　疑似ラベル生成部１２は、ラベルなしＤＢ１１１から複数のラベルなしデータ２０１を読み出してクラス分けを行い、クラス毎に疑似ラベルを生成して各クラスに疑似ラベルを付与する（ステップＳ１４）。

　第１モデル出力部１３１及び第２モデル出力部１３２、第１損失算出部１４１及び第２損失算出部１４２、並びに、更新部１５は、ラベルありデータ２０２及びラベルなしデータ２０１を用いた同時学習を実行する（ステップＳ１５）。

　その後、更新部１５は、学習回数が回数閾値を上回ったか否かを判定する（ステップＳ１６）。学習回数が回数閾値以下の場合（ステップＳ１６：否定）、更新部１５は、学習回数に１を加算して学習回数をインクリメントする（ステップＳ１７）。その後、学習処理は、ステップＳ１４へ戻る。

　これに対して、学習回数が回数閾値を上回った場合（ステップＳ１６：肯定）、更新部１５は、学習装置１における学習処理を終了させる。

　図４は、ラベルありデータとラベルなしデータとを用いた同時学習のフローチャートである。次に、図４を参照して、ラベルありデータとラベルなしデータとを用いた同時学習の流れを説明する。図４に示した各処理は、図３におけるステップＳ１５において実行される処理の一例にあたる。

　第２モデル出力部１３２は、複数のラベルありデータ２０２をラベルありＤＢ１１２から読み出す。そして、第２モデル出力部１３２は、読み出した各ラベルありデータ２０２を深層学習モデル１１０の特徴量抽出層へ入力する。その後、第２モデル出力部１３２は、深層学習モデル１１０からの出力を取得する（ステップＳ１０１）。

　第２損失算出部１４２は、第２モデル出力部１３２により読み込まれたラベルありデータ２０２に付与されたラベルをラベルありＤＢ１１２から取得する。そして、第２損失算出部１４２は、第２モデル出力部１３２から取得した各ラベルありデータ２０２に対応する出力値とラベルありデータ２０２に付与されたラベルとを比較して、ラベルありデータ２０２を用いた場合のＬｏｓｓを計算する（ステップＳ１０２）。

　第１モデル出力部１３１は、複数のラベルなしデータ２０１をラベルありＤＢ１１１から読み出す。そして、第１モデル出力部１３１は、読み出した各ラベルなしデータ２０１を深層学習モデル１１０の特徴量抽出層へ入力する。その後、第１モデル出力部１３１は、深層学習モデル１１０からの出力を取得する（ステップＳ１０３）。

　第１損失算出部１４１は、第１モデル出力部１３１から取得した各ラベルなしデータ２０１に対応する出力値と疑似ラベル生成部１２から取得した疑似ラベルとを比較して、ラベルなしデータ２０１を用いた場合のＬｏｓｓを計算する（ステップＳ１０４）。

　更新部１５は、ラベルありデータ２０２を用いた場合のＬｏｓｓを第２損失算出部１４２から取得する。また、更新部１５は、ラベルなしデータ２０１を用いた場合のＬｏｓｓを第１損失算出部１４１から取得する。そして、更新部１５は、ラベルありデータ２０２を用いた場合のＬｏｓｓ及びラベルなしデータ２０１を用いた場合のＬｏｓｓにそれぞれの重みを用いて全体のＬｏｓｓを計算する（ステップＳ１０５）。

　その後、更新部１５は、全体のＬｏｓｓを最小化するように第１モデル出力部１３１及び第２モデル出力部１３２のそれぞれが有する深層学習モデル１１０を更新する（ステップＳ１０６）。

　以上に説明したように、本実施例に係る学習装置は、ラベルなしデータを複数のクラスタに分けて、それぞれに疑似ラベルを割り当て、ラベルありデータ、ラベルなしデータ及び疑似ラベルを用いて、深層学習モデルの学習を実行する。これにより、学習装置は、ラベルありデータ及びラベルなしデータの双方を用いて、深層学習モデルの特徴量抽出層及び識別層を同時に学習することができる。したがって、多数のラベルなしデータと少数のラベルありデータとを用いて学習を行った場合にも、最適な認識性能を獲得でき、深層学習モデルの認識性能を向上させることが可能となる。

　図５は、実施例２に係る学習装置のブロック図である。本実施例に係る学習装置１は、１つの識別層を用いたシングルタスクでの学習を行うことが実施例１と異なる。以下の説明では、実施例１と同様の各部の機能については説明を省略する。

　本実施例に係る学習装置１では、ラベルありデータ２０２で表されるラベル数と、ラベルなしデータをクラスタリングした場合のクラスタ数とが等しい。すなわち、本実施例に係る学習装置１では、ラベルありデータ２０２で表されるラベル数がｔ_ｕ個あり、ラベルなしデータ２０１をｔ_ｉ個のクラスタに分類する場合、ｔ_ｕ＝ｔ_ｉである。

　疑似ラベル生成部１２は、ラベルなしデータ２０１を用いて実施例１と同様にクラスタリングを行って、ラベルなしデータ２０１を複数のクラスタに分ける。この時、疑似ラベル生成部１２は、ラベルありデータ２０２で表されるラベルの個数と同数のクラスタにラベルなしデータ２０１を分類する。そして、疑似ラベル生成部１２は、各クラスタに疑似ラベルを割り当てる。その後、疑似ラベル生成部１２は、生成した疑似ラベルを損失算出部１４へ出力する。

　モデル出力部１３は、複数のラベルなしデータ２０１をラベルなしＤＢ１１１から読み込む。また、モデル出力部１３は、複数のラベルありデータ２０２をラベルありＤＢ１１２から読み込む。そして、モデル出力部１３は、読み込んだラベルなしデータ２０１とラベルありデータ２０２とを統合して統合データとする。そして、モデル出力部１３は、統合データを深層学習モデル１１０に入力して出力を取得する。

　例えば、統合データをｘとした場合、モデル出力部１３は、次の数式（６）で表される深層学習モデル１１０からの出力であるｙを取得する。

　ここで、ｆは、深層学習モデル１１０の特徴量抽出層を表す。すなわち、ｆ（ｘ）は、特徴量抽出層からの出力である。ｈは、深層学習モデル１１０の識別層を表す。すなわち、ｈ（ｆ（ｘ））は、特徴量抽出層からの出力値を識別層に入力した得られる出力である。

　その後、モデル出力部１３は、各統合データに対する出力値を損失算出部１４へ出力する。

　損失算出部１４は、各統合データに対する深層学習モデル１０１からの出力値の入力をモデル出力部１３から受ける。また、損失算出部１４は、ラベルありＤＢ１１２に格納された各ラベルありデータ２０１を表すラベルをラベルありＤＢ１１２から取得する。また、損失算出部１４は、クラス毎の疑似ラベルの入力を疑似ラベル生成部１２から受ける。

　次に、損失算出部１４は、ラベルありＤＢ１１２から取得したラベルと、疑似ラベルとを統合して統合ラベルを生成する。例えば、ラベルありＤＢ１１２から取得したラベルと疑似ラベルとは同数であるので、損失算出部１４は、疑似ラベルのそれぞれを同じものを指すと判定されるラベルに置き換えることで統合ラベルを生成する。

　その後、損失算出部１４は、各統合データに対する深層学習モデル１０１の特徴量抽出層からの出力値と各統合データに対応する統合ラベルとを比較して、統合データを用いた場合の損失を算出する。

　例えば、統合データであるｘを全て含む集合をＤとして、統合ラベルをｔとした場合、損失算出部１４は、次の数式（７）を用いて、統合データを用いた場合のＬｏｓｓであるＬを算出する。ここで、ＣＥは、一般的なクロスエントロピーロスである。

　その後、損失算出部１４は、算出した損失を更新部１５へ出力する。例えば、損失算出部１４は、数式（７）を用いて算出した、統合データを用いた場合のＬｏｓｓであるＬを更新部１５へ出力する。

　更新部１５は、損失の入力を損失算出部１４から受ける。そして、更新部１５は、損失を最小化する深層学習モデル１１０のパラメータを決定する。その後、更新部１５は、決定したパラメータを用いてモデル出力部１３が有する深層学習モデル１１０を更新する。

　例えば、更新部１５は、統合データを用いた場合のＬｏｓｓであるＬを損失算出部１４から取得した場合、Ｌを最小化するように特徴量抽出層であるｆ及び識別層であるｈを更新する。すなわち、本実施例では、ラベルなしデータ２０１及びラベルありデータ２０２のいずれについても、同様の特徴量抽出層及び識別層を有する１つの深層学習モデル１１０を用いて学習を行う。

　図６は、実施例２に係る学習方法を説明するための図である。図６を参照して、本実施例に係る学習装置１の詳細について説明する。

　モデル出力部１３は、ラベルなしデータ２０１及びラベルありデータ２０２を読み出して統合データを生成する。次に、モデル出力部１３は、深層学習モデル１０１に統合データを入力して、各統合データに対応する深層学習モデル１０１からの出力を取得する（ステップＳ２０１）。

　疑似ラベル生成部１２は、ラベルなしデータ２０１を用いて実施例１と同様にクラスタリングを行って、ラベルなしデータ２０１をラベルありＤＢ１１２に格納されたラベルありデータ２０２を表すラベルと同数のクラスタに分ける。そして、疑似ラベル生成部１２は、各クラスタに疑似ラベルを割り当てる（ステップＳ２０２）。

　損失算出部１４は、疑似ラベルとラベルありＤＢ１１２に格納されたラベルありデータ２０２を表すラベルとを統合して統合ラベルを生成する。そして、損失算出部１４は、各統合データに対応する出力値と統合ラベルとを比較して、損失を算出する。更新部１５は、損失算出部１４により算出された損失を最小化するように、モデル出力部１３が有する深層学習モデル１１０の特徴量抽出層及び識別層を更新して学習を行う（ステップＳ２０３）。

　以上に説明したように、本実施例に係る学習装置は、ラベルありデータを表すラベルの数と同数のクラスタにラベルなしデータを分類する。そして、学習装置は、ラベルありデータ及びラベルラベルなしデータを統合した統合データを生成し、ラベルありデータのラベルと疑似ラベルとを統合して統合ラベルを生成し、統合データ及び統合ラベルを用いて学習を行う。これにより、単一の識別層を用いたシングルタスクの学習により深層学習モデルの学習を行うことが可能となる。この方法でも、多数のラベルなしデータと少数のラベルありデータとを用いて学習を行った場合であっても、最適な認識性能を獲得でき、深層学習モデルの認識性能を向上させることが可能となる。

　次に、実施例３について説明する。実施例１及び２では、学習データとして画像データを用いる場合を例に説明したが、これ以外のデータであっても同様に、ラベルなしデータとラベルありデータとを用いて学習を行うことが可能である。

　例えば、学習装置１は、学習データとして動画像を用いて深層学習モデル１１０の学習を行うことも可能である。動画像とは、画面上の各画素における時間経過に応じたＲＧＢ値の集合である。その場合、学習済みの深層学習モデル１１０を用いることで、未知の動画像の種類を識別することが可能となる。

　他にも、学習装置１は、学習データとして関節データを用いて深層学習モデル１１０の学習を行うことも可能である。図７は、実施例３で用いられる学習データの一例を示す図である。関節データとは、図７の画像３００の各点で表されるような手首、肘など人体の関節の空間的な位置を表すデータである。例えば、３次元空間であればｘｙｚ座標で表されるデータであり、２次元平面であればｘｙ座標で表されるデータである。さらに、人の動きが加わった関節データの場合、人が動作したときの各点の加速度の情報やジャイロセンサの情報といったセンサデータが加えられる。その場合、学習済みの深層学習モデル１１０を用いることで、人の動作がどの様な動作であるかを識別することが可能となる。

　以上に説明したように、各実施例に係る学習装置は、画像データ以外にも、動画像のデータや関節データなどの他のデータを用いて深層学習モデルの学習を行うことが可能である。そして、画像データ以外の他のデータを用いた場合にも、多数のラベルなしデータと少数のラベルありデータとを用いて学習を行うことで、最適な認識性能を獲得でき、深層学習モデルの認識性能を向上させることが可能となる。

（ハードウェア構成）
　図８は、学習装置のハードウェア構成の一例を示す図である。図１及び５に示した学習装置１は、図８のコンピュータ９０により実現される。例えば、コンピュータ９０は、サーバである。

　コンピュータ９０は、プロセッサ９０１、主記憶装置９０２、補助記憶装置２０３、入力装置９０４、出力装置９０５、媒体駆動装置９０６、入出力インタフェース９０７及び通信制御装置９０８を有する。コンピュータ９０の各構成要素は、バス９０９によって互いに接続される。

　プロセッサ９０１、例えば、ＣＰＵ（Central　Processing　Unit）である。コンピュータ９０は、複数のプロセッサ９０１を有していてもよい。さらに、コンピュータ９０は、プロセッサ９０１としてＧＰＵ（Graphics　Processing　Unit）などを有していてもよい。プロセッサ９０１は、プログラムを主記憶装置９０２にロードしてプログラムを実行する。

　主記憶装置９０２は、例えば、ＲＡＭ（Random　Access　Memory）である。補助記憶装置９０３は、例えばＨＤＤ（Hard　Disk　Drive）やＳＳＤ（Solid-State　Drive）などの不揮発性の記憶装置である。例えば、補助記憶装置９０３は、図１及び５の記憶部１１の機能を実現する。

　入力装置９０４は、例えば、キーボード、ポインティングデバイス、またはその組み合わせである。ポインティングデバイスは、例えば、マウスでもよいしタッチパッドでもよいしタッチスクリーンでもよい。出力装置９０５は、ディスプレイ、スピーカ、またはその組み合わせである。ディスプレイはタッチスクリーンであってもよい。

　入出力インタフェース９０７は、ＰＣＩｅ（Peripheral　Component　Interconnect　express）デバイスなどが接続され、接続されたデバイスとの間でデータの送受信を行う。

　通信制御装置９０８は、例えば、有線ＬＡＮ（Local　Area　Network）インタフェース、無線ＬＡＮインタフェース、またはその組み合わせである。コンピュータ９０は、通信制御装置９０８を介して無線ＬＡＮや有線ＬＡＮといったネットワークに接続される。通信制御装置９０８は、具体的には、外付けのＮＩＣ（Network　Interface　Card）でもよいし、オンボード型のネットワークインタフェイスコントローラでもよい。

　記憶媒体９１は、ＣＤ（Compact　Disc）やＤＶＤ（Digital　Versatile　Disk）などの光ディスクや、光磁気ディスク、磁気ディスク、フラッシュメモリなどの半導体メモリカードなどである。媒体駆動装置９０６は、挿入された記憶媒体９１に対するデータの書き込み及び読み出しを行う装置である。

　プロセッサ９０１が実行するプログラムは、予め補助記憶装置９０３にインストールされていてもよい。あるいは、プログラムは、記憶媒体９１に格納されて提供され、記憶媒体９１から媒体駆動装置９０６により読み取られて補助記憶装置９０３にコピーされ、その後、主記憶装置９０２にロードされてもよい。または、ネットワーク上のプログラム提供者から、ネットワークと通信制御装置９０８を介して、プログラムがコンピュータ９０にダウンロードされ、インストールされてもよい。

　例えば、プロセッサ９０１は、プログラムを実行することで、図１及び５に例示した疑似ラベル生成部１２、モデル出力部１３、損失算出部１４及び更新部１５の機能を実現する。

　１　学習装置
　１１　記憶部
　１２　疑似ラベル生成部
　１３　モデル出力部
　１４　損失算出部
　１５　更新部
　１３１　第１モデル出力部
　１３２　第２モデル出力部
　１４１　第１損失算出部
　１４２　第２損失算出部

Claims

　正解を表すラベルと対象データとが対応付けられた複数のラベルありデータ、正解との対応付けがない対象データである複数のラベルなしデータ、及び、深層学習モデルを記憶する記憶部と、
　前記ラベルなしデータ及び前記深層学習モデルを基に疑似ラベルを生成する疑似ラベル生成部と、
　前記疑似ラベル及び前記ラベルありデータに含まれる前記ラベルを基に、前記深層学習モデルを用いて前記ラベルなしデータの識別を行った場合及び前記ラベルありデータの識別を行った場合の損失を算出する損失算出部と、
　前記損失算出部により算出された前記損失を基に、前記深層学習モデルを更新する更新部と
　を備えたことを特徴とする情報処理装置。
　前記深層学習モデルは、特徴量抽出層及び識別層を有し、
　前記深層学習モデルを取得して第１深層学習モデルとして保持し、前記ラベルなしデータを前記第１深層学習モデルに入力して第１出力値を得る第１モデル出力部と、
　前記深層学習モデルを取得して第２深層学習モデルとして保持し、前記ラベルありデータを前記第２深層学習モデルに入力して第２出力値を得る第２モデル出力部と
　をさらに備え、
　前記損失算出部は、
　前記第１モデル出力部により得られた第１出力値と前記疑似ラベルとを用いて、第１損失を算出する第１損失算出部と、
　前記第２モデル出力部により得られた第２出力値と前記ラベルとを用いて、第２損失を算出する第２損失算出部とを有し、
　前記更新部は、前記第１損失及び前記第２損失の双方を基に、前記第１深層学習モデルに対する第１更新及び前記第２深層学習モデルに対する第２更新を行う
　ことを特徴とする請求項１に記載の情報処理装置。
　前記更新部は、前記第１更新及び前記第２更新として、前記第１深層学習モデル及び前記第２深層学習モデルに含まれるそれぞれの前記特徴量抽出層については同様の更新を行い、前記第１深層学習モデルに含まれる第１識別層と前記第２深層学習モデルに含まれる第２識別層とは、それぞれ異なる更新を行うことを特徴とする請求項２に記載の情報処理装置。
　前記疑似ラベル生成部は、複数の前記ラベルなしデータを前記深層学習モデルへ入力して得られる出力値を基に所定数のクラスタに分類し、前記クラスタ毎に前記疑似ラベルを割り当てることを特徴とする請求項１に記載の情報処理装置。
　前記ラベルなしデータ及び前記ラベルありデータを統合して統合データを作成し、前記統合データを前記深層学習モデルに入力して出力値を得るモデル出力部をさらに備え、
　前記損失算出部は、前記ラベルありデータに含まれる前記ラベルと前記疑似ラベルとを統合して統合ラベルを生成し、前記モデル出力部により得られた前記出力値と前記統合ラベルとを基に前記損失を算出する
　ことを特徴とする請求項１に記載の情報処理装置。
　正解を表すラベルと対象データとが対応付けられた複数のラベルありデータ、正解との対応付けがない対象データである複数のラベルなしデータ、及び、深層学習モデルを用いて学習を行う情報処理方法であって、
　前記ラベルなしデータ及び前記深層学習モデルを基に疑似ラベルを生成し、
　前記疑似ラベル及び前記ラベルありデータに含まれる前記ラベルを基に、前記深層学習モデルを用いて前記ラベルなしデータの識別を行った場合及び前記ラベルありデータの識別を行った場合の損失を算出し、
　算出した前記損失を基に、前記深層学習モデルを更新する
　ことを特徴とする情報処理方法。
　正解を表すラベルと対象データとが対応付けられた複数のラベルありデータ、正解との対応付けがない対象データである複数のラベルなしデータ、及び、深層学習モデルを用いた学習をコンピュータに実行させる情報処理プログラムであって、
　前記ラベルなしデータ及び前記深層学習モデルを基に疑似ラベルを生成し、
　前記疑似ラベル及び前記ラベルありデータに含まれる前記ラベルを基に、前記深層学習モデルを用いて前記ラベルなしデータの識別を行った場合及び前記ラベルありデータの識別を行った場合の損失を算出し、
　算出した前記損失を基に、前記深層学習モデルを更新する
　処理を前記コンピュータに実行させることを特徴とする情報処理プログラム。