WO2023238258A1

WO2023238258A1 - 情報提供装置、情報提供方法及び情報提供プログラム

Info

Publication number: WO2023238258A1
Application number: PCT/JP2022/023020
Authority: WO
Inventors: 真弥山口
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-12-14

Abstract

実施形態の特徴抽出部（１３１）は、データセットから、データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する。類似度計算部（１３２）は、特徴抽出部（１３１）によって抽出された複数の特徴量間の類似度を計算する。モデルは、転移学習における転移元データセットを用いた、自己教師学習と、データセット分類学習とのマルチタスク学習によって学習済みのモデルである。

Description

情報提供装置、情報提供方法及び情報提供プログラム

　本発明は、情報提供装置、情報提供方法及び情報提供プログラムに関する。

　深層ニューラルネットワーク（ＤＮＮ：Deep　Neural　Netework）は、画像処理や自然言語処理において高い精度で予測が可能である。一方で、ＤＮＮの学習には多くのコストがかかる。

　例えば、ＤＮＮの学習におけるコストには、正解ラベルの付与（アノテーション）を含むデータセットの収集コスト、精度を向上させるための計算コスト、複数のハイパーパラメータを事例ごとに探索するためのチューニングコスト等が含まれる。

　ＤＮＮの事業導入時にこのようなコストを抑えるための方法として、転移学習が提案されている。

　転移学習は、目的データセットとは異なるデータセット（転移元データセット）や学習済みモデルを流用し、少ないデータ又は計算時間で学習を行う技術である。

　また、転移学習には、ファインチューニング及びドメイン適応といった手法が含まれる。

　ファインチューニングは、転移元データセットでモデルを事前学習し、学習済みのパラメータを初期値として目的データセットの学習に使用する方法である。

　ドメイン適応は、転移元データセットと目的データセットを同じモデルで同時に学習し、転移元データセットの知識を用いながら目的データセットのタスクを解く方法である。

Kornblith,　Simon,　Jonathon　Shlens,　and　Quoc　V.　Le.　"Do　Better　ImageNet　Models　Transfer　Better?."　Proceedings　of　the　IEEE/CVF　Conference　on　Computer　Vision　and　Pattern　Recognition.　2019.

　しかしながら、従来の技術には、効率良く転移学習を実施できない場合があるという問題がある。従来の転移学習は、開発者の勘や経験に依存している部分が多く、転移元データセットの選別やパラメータのチューニング等に人手による作業が必要になる。

　転移学習に有効なデータセットは自明ではなく、目的データセットと転移元データセットとの関係（類似度）によって転移学習の結果は大きく変わる。例えば、ImageNet（大規模、大量）で事前学習したモデルは、目的データセットによっては事前学習していないモデルに劣る場合がある（例えば、非特許文献１を参照）。

　一方で、データセット間の類似度は一般的には不明であり、デファクトスタンダードとなるような指標は未だ登場していない。

　また、転移学習においては、目的データセット及び転移元データセットに合ったハイパーパラメータを選択する必要がある。一方で、深層学習モデルはハイパーパラメータが多く、転移学習時にもチューニングが必須となる。

　上述した課題を解決し、目的を達成するために、情報提供装置は、データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出部と、前記特徴抽出部によって抽出された複数の特徴量間の類似度を計算する類似度計算部と、を有し、前記モデルは、転移学習における転移元データセットを用いた、自己教師学習と、データセット分類学習とのマルチタスク学習によって学習済みのモデルであることを特徴とする。

　本発明によれば、効率良く転移学習を実施することができる。

図１は、第１の実施形態に係る情報提供装置の構成例を示す図である。図２は、類似度の測定方法を説明する図である。図３は、モデルの学習方法を説明する図である。図４は、情報提供処理について説明する図である。図５は、学習処理の流れを示すフローチャートである。図６は、類似度測定処理の流れを示すフローチャートである。図７は、情報提供処理の流れを示すフローチャートである。図８－１は、実験の結果を示す図である。図８－２は、実験の結果を示す図である。図９－１は、実験の結果を示す図である。図９－２は、実験の結果を示す図である。図１０－１は、評価結果を示す図である。図１０－２は、評価結果を示す図である。図１１は、情報提供プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る情報提供装置、情報提供方法及び情報提供プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態の構成］
　図１は、第１の実施形態に係る情報提供装置の構成例を示す図である。情報提供装置１０は、データセット間の類似度を計算し、計算した類似度を基に情報を提供する。例えば、情報提供装置１０は、転移学習における目的データセットに類似する転移元データセットを特定するための情報を提供する。

　また、情報提供装置１０は、類似度を計算するためのモデルの学習処理を行う。情報提供装置１０は、学習済みのモデルを使って類似度の計算を行ってもよいし、学習済みのモデルを他の装置等に提供してもよい。

　図１に示すように、情報提供装置１０は、入出力部１１、記憶部１２及び制御部１３を有する。

　入出力部１１は、データの入出力を行うためのインタフェースである。例えば、入出力部１１は、ネットワークを介して他の装置との間でデータ通信を行うためのＮＩＣ（Network　Interface　Card）等の通信インタフェースであってもよい。また、入出力部１１は、マウス、キーボード等の入力装置、及びディスプレイ等の出力装置を接続するためのインタフェースであってもよい。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、情報提供装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。また、記憶部１２は、モデル情報１２１を記憶する。

　モデル情報１２１は、モデルを構築するためのパラメータ等の情報であり、学習処理において適宜更新される。また、更新済みのモデル情報１２１は、入出力部１１を介して他の装置等に出力されてもよい。

　制御部１３は、情報提供装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、特徴抽出部１３１、類似度計算部１３２、損失関数計算部１３３、更新部１３４、候補抽出部１３５及び提供部１３６を有する。

　特徴抽出部１３１は、データセットから、データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する。

　類似度計算部１３２は、特徴抽出部１３１によって抽出された複数の特徴量間の類似度を計算する。

　図２を用いて、特徴抽出部１３１及び類似度計算部１３２による類似度の測定方法を説明する。図２は、類似度の測定方法を説明する図である。

　図２に示すように、特徴抽出部１３１は、モデルＦを用いて、データセットＡ及びデータセットＢから特徴量を抽出する。モデルＦは、特徴抽出用の深層ニューラルネットワークである。

　データセットは、複数のデータサンプルを含む。また、特徴抽出部１３１は、データサンプルごとの特徴量を抽出する。

　図２の例では、データセットＡはＩ個のデータサンプルｘ_Ａ ^ｉ（ただし、ｉは０からＩまでの整数）を含む。そして、特徴抽出部１３１は、データセットＡから、Ｉ個のデータサンプルに対応する特徴量ｆ_Ａ ^ｉを抽出する。

　ここで、ＤＮＮで使用するデータセットは高次元であるため、データセット同士の類似度を直接測定することは困難である。そこで、特徴抽出部１３１は、図２のようにデータセットを低次元化した特徴量を抽出する。例えば、ｆ_Ａ ^ｉは、ｘ_Ａ ^ｉよりも低次元である。

　さらに、特徴抽出部１３１は、抽出した特徴量を集約する。図２の例では、特徴抽出部１３１は、Ｉ個のデータサンプルに対応する特徴量ｆ_Ａ ^ｉを１つの特徴量ｆ´_Ａに集約している。

　このように、特徴抽出部１３１は、モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、１つのデータサンプルの特徴量に集約することができる。例えば、特徴抽出部１３１は、複数のデータサンプルの各要素の平均及び分散等の統計量を集約後の特徴量とすることができる。

　そして、類似度計算部１３２は、特徴抽出部１３１によって集約された特徴量間の類似度を計算する。例えば、集約された特徴量ｆ´_Ａとｆ´_Ｂとがベクトルであれば、類似度計算部１３２は、ベクトルｆ´_Ａとベクトルｆ´_Ｂとの距離ｄ_ＡＢを類似度として計算する。類似度計算部１３２は、2-Wasserstein距離をベクトル間の距離として計算してもよい。

　また、特徴抽出部１３１は、転移学習における転移元データセットを用いて自己教師学習によって学習済みのモデルにより特徴量を抽出する。そして、類似度計算部１３２は、転移元データセットの特徴量と、転移学習における目的データセットの特徴量との類似度を計算する。

　損失関数計算部１３３は、モデルの学習のための損失関数を計算する。

　図３を用いて、モデルＦの学習方法を説明する。図３は、モデルの学習方法を説明する図である。図３に示すｘは、入力データである。Ｄは、データセット集合である。ｄは、データセットである。モデルＦは、特徴抽出器（ＤＮＮ）である。

　モデルＦは、転移学習において目的データに類似する転移元データを特定する際に、目的データと複数の転移元データとの類似度を測定するために用いられる。

　その際、情報提供装置１０は、転移元データセット群を用いて分類等の任意のタスクで事前にモデルＦの学習を行っておくものとする。実施形態では、情報提供装置１０は、事前学習タスク（例えば、自己教師学習）に、データセット分類タスク（データセット分類学習）を追加して、モデルＦに対するマルチタスク学習を行う。モデルＦは、転移学習における転移元データセットを用いた、自己教師学習と、データセット分類学習とのマルチタスク学習によって、学習済みのモデルである。

　また、情報提供装置１０は、自己教師学習の手法として対照学習手法の１つであるＭｏＣｏ（参考文献：He,　Kaiming,　et　al.　"Momentum　contrast　for　unsupervised　visual　representation　learning."　Proceedings　of　the　IEEE/CVF　Conference　on　Computer　Vision　and　Pattern　Recognition.　2020.）を利用する。自己教師学習はアノテーションが不要であるため、複数のデータセットをまとめて扱いやすい。

　データセット分類タスクは、データセットごとにラベルを付与し、分類するタスクである。データセット分類タスクは、データセットのみで自動ラベリングが可能であるため、アノテーションが不要である。データセット分類タスクを追加することで、モデルＦは、データセットごとの特徴を明示的に学習することができる。

　図３に示すように、損失関数計算部１３３は、複数のデータセットｄの入力データｘをモデルＦに入力して得られた特徴量を基に、式（１）に示す事前学習タスクの損失関数（Self-supervised　Loss）Ｌ_ＳＳＬと、式（２）に示すデータセット分類タスクの損失関数（Dataset　Classification　Loss）Ｌ_ＤＣと、を計算する。

　式（１）の右辺のｑは、クエリ画像から得られるモデルＦの出力である。ｋ_＋は、クエリと同じ画像を拡張変換した正解キーから得られるモデルＦの出力である。Ｋは、正解キーを含むキー画像の総数である。また、τは温度係数である。式（２）のＣＥは、クロスエントロピーである。ここで，ｃ_ｄは入力ｘの特徴量Ｆ（ｘ）を入力とするデータセット分類器（全結合ニューラルネットワーク）とする。ｙ_ｄは、入力されたデータｘのデータセットｄに付与されたラベルを示す。

　ここで、Self-supervised　Lossは、入力画像から２つの異なる画像変換によってクエリと正解キー画像を生成し、他の画像から得られたキーの集合の中からＤＮＮを介して正しくクエリと正解キーの組み合わせを見つけるタスクの損失である。

　また、Dataset　Classification　Lossは、入力データｘをモデルＦに入力して得られた特徴量Ｆ（ｘ）と、入力されたデータｘのデータセットｄに付与されたラベルｙ_ｄとの関係とを学習するために用いられる。

　損失関数計算部１３３は、式（３）を用いて、事前学習タスクの損失とデータセット分類タスクの損失との和である、Ｌ_ＡＬＬを計算する。

　式（３）のαは、ハイパーパラメータである。

　更新部１３４は、損失関数Ｌ_ＡＬＬが最適化されるようにモデルＦのパラメータを更新する。

　なお、モデルＦのパラメータは、モデル情報１２１として記憶部１２に格納される。更新部１３４は、モデル情報１２１を更新する。

　候補抽出部１３５及び提供部１３６は、目的データに類似する転移元データを特定する情報を提供することで、実際の転移学習を支援する。図４を用いて、情報提供処理について説明する。図４は、情報提供処理について説明する図である。

　図４のデータセットＤ_Ｔは、目的データセットである。また、データセットＤ_０からＤ_Ｎは、複数の転移元データセットである。

　類似度計算器（Similarity　Calculator）は、学習済みのモデルＦを使用する特徴抽出ｂう１３１及び類似度計算部１３２に相当する。

　このとき、類似度計算部１３２は、１つの目的データセット（Ｄ_Ｔ）と複数の転移元データセット（Ｄ_０からＤ_Ｔ）のぞれぞれとについて、特徴量間の類似度を計算する。

　そして、候補抽出部１３５は、計算された類似度を基に、目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを候補として抽出する。

　さらに、提供部１３６は、転移元データセットのうち、候補として抽出された転移元データセットを特定するための情報をユーザに提供する。

　図４の例では、候補抽出部１３５は、計算された類似度ｄ_０Ｔ、ｄ_１Ｔ、…、ｄ_ＮＴを類似度が大きい順に並べたランキングを作成する。そして、例えば上位３つの類似度ｄ_ＮＴ、ｄ_１Ｔ、ｄ_０Ｔに相当する転移元データセットＤ_Ｎ、Ｄ_１、Ｄ_０を抽出する。

　提供部１３６は、抽出された転移元データセットＤ_Ｎ、Ｄ_１、Ｄ_０を、対応するハイパーパラメータＨ_Ｎ、Ｈ_１、Ｈ_０とともにユーザに提供する。なお、各転移元データセットに対する最適なハイパーパラメータは、過去のモデル構築の過程においてグリッドサーチ等の手法により決定済みであるものとする。

　このように、複数まとめて提供される転移元データとハイパーパラメータの組み合わせは、転移学習においてまとめて利用されてもよい。

［第１の実施形態の処理］
　図５、図６及び図７に示すフローチャートを用いて、情報提供装置１０による処理の流れを説明する。

　図５は、学習処理の流れを示すフローチャートである。図５に示すように、まず、情報提供装置１０は、転移元データセット群から学習データを読み込む（ステップＳ１０１）。

　次に、情報提供装置１０は、ＤＮＮモデルＦによって学習データから特徴を抽出する（ステップＳ１０２）。

　ここで、情報提供装置１０は、特徴空間上で事前学習タスクの損失関数Ｌ_ＳＳＬを計算する（ステップＳ１０３）。情報提供装置１０は、特徴空間上でデータセット分類タスクの損失関数Ｌ_ＤＣを計算する（ステップＳ１０４）。

　情報提供装置１０は、事前学習タスクの損失とデータセット分類タスクの損失との和Ｌ_ＡＬＬを計算する（ステップＳ１０５）。

　そして、情報提供装置１０は、損失関数の逆誤差伝搬法によりモデルＦのパラメータを更新する（ステップＳ１０６）。

　このとき、最大学習ステップ数＞学習ステップ数である場合（ステップＳ１０７、Ｔｒｕｅ）、情報提供装置１０はステップＳ１０１に戻り処理を繰り返す。一方、最大学習ステップ数＞学習ステップ数でない場合（ステップＳ１０７、Ｆａｌｓｅ）、情報提供装置１０は処理を終了する。

　図６は、類似度測定処理の流れを示すフローチャートである。図６に示すように、まず。情報提供装置１０は、転移元データセットからデータサンプルを読み込む（ステップＳ２０１）。

　次に、情報提供装置１０は、ＤＮＮモデルＦによって転移元データサンプルから特徴を抽出する（ステップＳ２０２）。さらに、情報提供装置１０は、転移元データサンプルごとの特徴ベクトルを単一の特徴ベクトル（例えば、平均又は分散）に集約する（ステップＳ２０３）。

　情報提供装置１０は、目的データセットからデータサンプルを読み込む（ステップＳ２０４）。

　そして、情報提供装置１０は、ＤＮＮモデルＦによって目的データサンプルの特徴を抽出する（ステップＳ２０５）。さらに、情報提供装置１０は、転移元データセットと同様に、目的データサンプルごとの特徴ベクトルを単一の特徴ベクトルに集約する（ステップＳ２０６）。

　情報提供装置１０は、集約した目的データセット及び転移元データセットの特徴ベクトル間の類似度を、例えば2-Wasserstein距離により計算する（ステップＳ２０７）。

　図７は、情報提供処理の流れを示すフローチャートである。まず、情報提供装置１０は、目的データセット及びＮ個の転移元データセットの類似度を計算する（ステップＳ３０１）。

　次に、情報提供装置１０は、データセット類似度｛ｄ_ｉＴ｝_ｉ ^Ｎで転移元データセットをソート（距離：昇順／スコア：降順）する（ステップＳ３０２）。そして、情報提供装置１０は、ソートで得られたランキングのうちＴｏｐ－Ｋの転移元データセットｉｄを抽出（Ｋ≦Ｎ：任意の整数）（ステップＳ３０３）。

　ここで、情報提供装置１０は、Ｋ個の転移元データセットｉｄに紐づくデータセットとハイパーパラメータを読み込む（ステップＳ３０４）。そして、情報提供装置１０は、ユーザがダウンロード可能なＵＲＩ（Uniform　Resource　Identifier）を発行し、データセットとハイパーパラメータを出力する（ステップＳ３０５）。

［第１の実施形態の効果］
　これまで説明してきたように、特徴抽出部１３１は、データセットから、データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する。類似度計算部１３２は、特徴抽出部１３１によって抽出された複数の特徴量間の類似度を計算する。

　このように、情報提供装置１０は、データセット間の類似度を自動的に計算することができる。その結果、本実施形態によれば、類似するデータセットを特定することができるため、効率良く転移学習を実施することができる。

　特徴抽出部１３１は、モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、１つのデータサンプルの特徴量に集約する。類似度計算部１３２は、特徴抽出部１３１によって集約された特徴量間の類似度を計算する。

　この結果、本実施形態によれば、特徴量間の距離を容易に計算できるようになる。

　特徴抽出部１３１は、転移学習における転移元データセットを用いて、学習済みのモデルにより特徴量を抽出する。モデルは、事前学習タスク（例えば、自己教師学習）に、データセット分類タスクを追加したマルチタスク学習によって学習が実行されたモデルである。類似度計算部１３２は、転移元データセットの特徴量と、転移学習における目的データセットの特徴量との類似度を計算する。

　このように、本実施形態ではアノテーションが不要な事前学習タスク（例えば、自己教師学習）に、データセット分類タスクを追加したマルチタスク学習により、類似度を測定するモデルの学習を効率良く行うことができる。本実施形態では、データセット分類ラベルはデータセット自体から得られるため、人間によるラベリングが不要である。また、本実施形態では、事前学習タスクに、データセット分類タスクを追加したマルチタスク学習を行うことで、データセットごとの特徴を明示的に学習することが可能になる。

　類似度計算部１３２は、１つの目的データセットと複数の転移元データセットのぞれぞれとについて、特徴量間の類似度を計算する。提供部１３６は、転移元データセットのうち、目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを特定するための情報をユーザに提供する。

　これにより、情報提供装置１０は、目的データセットに類似する転移元データセットをユーザに推薦することができる。そのため、本実施形態によれば、効率良く転移学習を実施することができる。

［評価実験］
　上記の実施形態を実際に実施して行った評価実験について説明する。評価実験では、上記の実施形態を用いて、データセットの類似度による転移元データセット及びハイパーパラメータ（アーキテクチャ）の選択を行った。

　実験の設定は以下の通りである。
・データセット
　目的データセット：Oxford　Pets（犬猫画像）,　Stanford　Cars（車両画像）
　転移元データセット：FGVC-Aircraft（航空機画像）,　OxfordFlowers（草花画像）,　StanfordDogs（犬画像）,　Indoor67（内装画像）,　CUB-200-2011（鳥画像）
　ニューラルネットワークアーキテクチャ：ResNet-50
　自己教師学習タスク：ＭｏＣｏ（参考文献参照）

　評価項目は、転移元－目的データセット類似度と転移元データセットで事前学習した重みを選んだ際の目的タスクでの分類精度の相関関係である。

（実験１）
　図８－１及び図８－２に、データセット類似度による転移元データセットした実験１の結果を示す。図８－１及び図８－２は、実験の結果を示す図である。

　図８－１及び図８－２の例では、転移元データセットの全データを用いて特徴抽出器（モデルＦ）の学習を行った。そして、特徴抽出器を用いて目的－転移元データセットのデータセット類似度（2-Wasserstein距離（2WD,　lower　is　better）を測定した。

　さらに、転移元データセットの学習済みモデルを用いて、Oxford　Petsでファインチューニングしテスト精度を測定した。

　図８－１及び図８－２はデータセット類似度とテスト精度の相関を可視化した図である。図８－２は、事前学習タスクに、データセット分類タスクを追加して、マルチタスク学習を行ったモデル（MoCo　v2　with　Dataset　Cls.）Ｆ_Ｄにおける実験結果である。比較のため、図８－１に、事前学習タスクのみで学習したモデル（自己教師学習モデル：MoCo　v2）Ｄ_Ｍにおける実験結果を示す。

　モデルＦ_Ｍを用いた場合、相関係数Ｒが-0.333であるのに対し（図８－１参照）、モデルＦ_Ｄを用いた場合、相関係数Ｒが-0.797となり（図８－２参照）、モデルＦ_Ｍよりも改善が確認できた。このため、モデルＦ_Ｄを用いることで、モデルＦ_Ｍを用いた場合よりも、より良いデータセットを選びやすくなっている。

（実験２）
　図９－１及び図９－２に、データセット類似度による転移元データセットした実験２の結果を示す。図９－１及び図９－２は、実験の結果を示す図である。

　図９－１及び図９－２の例では、転移元データセットの全データを用いて特徴抽出器（モデルＦ）の学習を行った。そして、特徴抽出器を用いて目的－転移元データセットのデータセット類似度（2-Wasserstein距離（2WD）,　lower　is　better）を測定した。

　さらに、転移元データセットの学習済みモデルを用いて、StanfordCarsでファインチューニングしテスト精度を測定した。

　図９－１及び図９－２の例はデータセット類似度とテスト精度の相関を可視化した図である。図９－２は、モデルＦ_Ｄにおける実験結果である。比較のため、図９－１に、モデルＤ_Ｍにおける実験結果を示す。

　モデルＦ_Ｍを用いた場合、相関係数Ｒが+0.688であるのに対し（図９－１参照）、モデルＦ_Ｄを用いた場合には、相関係数Ｒが-0.745となる（図９－２参照）。したがって、モデルＦ_Ｄを用いることで、モデルＦ_Ｍを用いた場合よりも、逆相関を改善し，正確に良いデータセットを選択可能となっている。

（評価１）
　モデルＦによる５つのデータセットの特徴抽出後のベクトルを次元圧縮して可視化した結果を示す。図１０－１及び図１０－２は、評価結果を示す図である。

　図１０－１は、モデルＦ_Ｍによる特徴抽出後のベクトルの可視化結果である。図１０－２は、モデルＦ_Ｄ（Dataset　Cls.　Enabled）による特徴抽出後のベクトルの可視化結果である。

　図１０－１に示すように、モデルＦ_Ｍでは、本来クラスタが５つ形成されるところ、クラスタＣ１，Ｃ２－１，Ｃ２－２，Ｃ３，Ｃ４，Ｃ５，Ｃ６の６つのクラスタが形成されてしまっている。このため、モデルＦ_Ｍでは、データセットの特徴を捉えきれておらず、データセットごとの特徴抽出を十分に実行することができない場合があると考えられる。

　これに対し、図１０－２に示すように、モデルＦ_Ｄでは、クラスタＣ１，Ｃ２，Ｃ３，Ｃ４，Ｃ５，Ｃ６のクラスタが形成される。モデルＦ_Ｄでは、形成されるクラスタの数が、データセットの数と一致している。このため、モデルＦ_Ｄを用いた場合には、データセットごとの特徴を明確に抽出できていることを確認できた。したがって、モデルＦ_Ｄを用いることによって、データセット類似度を大幅に改善することができる。

　したがって、モデルＦの学習として、事前学習タスクに、データセット分類タスクを追加したマルチタスク学習を行うことで、よりデータセットごとの特徴を明確に抽出できていることを確認できた。

　したがって、実施形態に係る情報提供装置１０によれば、性能の良いモデルを予測するために必要なデータセット間の関係を正確に推定することができる。その結果、本実施形態によれば、類似するデータセットを適切に特定することができるため、効率良く転移学習を実施することができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、情報提供装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の処理を実行する情報提供プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の情報提供プログラムを情報処理装置に実行させることにより、情報処理装置を情報提供装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、情報提供装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、目的データセット及び複数の転移元データセットを入力とし、目的データセットと各転移元データセットとの類似度を出力とする類似度測定サービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１１は、情報提供プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、情報提供装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、情報提供装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　情報提供装置
　１１　入出力部
　１２　記憶部
　１２１　モデル情報
　１３　制御部
　１３１　特徴抽出部
　１３２　類似度計算部
　１３３　損失関数計算部
　１３４　更新部
　１３５　候補抽出部
　１３６　提供部

Claims

　データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出部と、
　前記特徴抽出部によって抽出された複数の特徴量間の類似度を計算する類似度計算部と、
　を有し、
　前記モデルは、転移学習における転移元データセットを用いた、自己教師学習と、データセット分類学習とのマルチタスク学習によって学習済みのモデルであることを特徴とする情報提供装置。
　前記特徴抽出部は、前記モデルによって出力された特徴量であって、データセットに含まれるデータサンプルごとの特徴量を、１つのデータサンプルの特徴量に集約し、
　前記類似度計算部は、前記特徴抽出部によって集約された特徴量間の類似度を計算することを特徴とする請求項１に記載の情報提供装置。
　前記類似度計算部は、前記転移元データセットの特徴量と、前記転移学習における目的データセットの特徴量との類似度を計算することを特徴とする請求項１に記載の情報提供装置。
　ユーザに情報を提供する提供部をさらに有し、
　前記類似度計算部は、１つの目的データセットと複数の転移元データセットのぞれぞれとについて、特徴量間の類似度を計算し、
　前記提供部は、前記転移元データセットのうち、前記目的データセットとの特徴量の類似度が所定の順位以上である転移元データセットを特定するための情報をユーザに提供することを特徴とする請求項１に記載の情報提供装置。
　情報提供装置によって実行される情報提供方法であって、
　データセットから、前記データセットよりも低次元の特徴量を出力するモデルに、複数のデータセットを入力することにより複数の特徴量を抽出する特徴抽出工程と、
　前記特徴抽出工程によって抽出された複数の特徴量間の類似度を計算する類似度計算工程と、
　を含み、
　前記モデルは、転移学習における転移元データセットを用いた、自己教師学習と、データセット分類学習とのマルチタスク学習によって学習済みのモデルであることを特徴とする情報提供方法。
　コンピュータを、請求項１から４のいずれか１項に記載の情報提供装置として機能させるための情報提供プログラム。