WO2021140884A1

WO2021140884A1 - モデルを再利用する方法及びコンピュータシステム

Info

Publication number: WO2021140884A1
Application number: PCT/JP2020/047538
Authority: WO
Inventors: 玲周; 田中　剛; 敬大濱本
Original assignee: 株式会社日立製作所
Priority date: 2020-01-06
Filing date: 2020-12-18
Publication date: 2021-07-15
Also published as: JP2021110974A

Abstract

コンピュータシステムは、複数のソーストレーニングデータセットの各ソーストレーニングデータセットとターゲットトレーニングデータセットとの間で、特徴量それぞれの分布間距離を計算する。コンピュータシステムは、分布間距離に基づいて、複数のソーストレーニングデータセットの各ソーストレーニングデータセットとターゲットトレーニングデータセットとの間の、データセット距離を決定する。コンピュータシステムは、データセット距離に基づいて、複数のソースモデルから、再利用するソースモデルを選択する。

Description

モデルを再利用する方法及びコンピュータシステム

参照による取り込み

　本出願は、２０２０年１月６日に出願された日本出願である特願２０２０－０００３０３の優先権を主張し、その内容を参照することにより、本出願に取り込む。

　本発明は、人工知能モデルの再利用に関する。

　近年、人工知能（ＡＩ）はさまざまなサービスの提供に利用されている。イベントを予測するために、機械学習アルゴリズムを利用して、トレーニングデータセットからＡＩモデルが生成される。以下、「モデル」は「ＡＩモデル」を表すために使用される。

　ビジネスの拡大に伴い、顧客ごとにモデルが生成されるようになる。これにより、２つの問題が発生する。（１）ビジネスが拡大するにつれて、モデルの数は徐々に増加する。モデルの運用と保守のコストが高くなる。（２）トレーニングデータが十分でない場合、顧客に適したモデルを生成することが困難である。

　問題の解決策の１つは、モデルの再利用である。つまり、新規顧客に対して新規モデルを生成するのではなく、既存顧客の既存モデルを再利用する。以下、既存モデルをソースモデルと呼ぶ。既存顧客の予測をソースタスクと呼ぶ。既存顧客の複数のデータレコードを含むデータセットをソースデータセットと呼ぶ。新規顧客の予測を、ターゲットタスクと呼ぶ。新規顧客の複数のデータレコードを含むデータセットを、ターゲットデータセットと呼ぶ。

　ここでは、ソースタスクとターゲットタスクの予測目標は同一である。ソースデータセットとターゲットデータセットの変数（特徴量）は、同一である。例えば、ソースタスクはバンクＳのクレジットカードクライアントのデフォルトリスクを予測することであり、ターゲットタスクは、バンクＴのクレジットカードクライアントのデフォルトリスクを予測することである。ソースデータセットには年齢、性別、給与の特徴量が含まれ、ターゲットデータセットにも年齢、性別、給与の特徴量が含まれる。

　特許文献１は、モデル再利用の技術を開示している。特許文献１には、（１つの診断装置に対して生成された）１つのソースモデルを更新して、新しい診断装置に適合させる方法が記載されている。ここでは、一つの診断装置が１人の顧客に対応する。また、特許文献２及び３は、データセットの適応については、モデルをトレーニングして、あるデータセットを他のデータセットにより類似するように適応させる技術を開示している。さらに、非特許文献１は、データセットの類似性を推定する技術を開示する。

特開２０１９－７９０８９号公報国際公開第２０１９／１０２９６２号特開２０１９－１０１７８９号公報

Yin Cui,Yang Song, Chen Sun, Andrew Howard, Serge Belongie、「Large Scale Fine-Grained Categorization and Domain-Specific Transfer Learning」、arXiv preprint arXiv:1806.06193 (2018)

　特許文献１に記載されている技術は、１つのデフォルトソースモデルの再利用に焦点を当てている。複数のソースモデルが存在する状況は考慮されていない。したがって、再利用に適したソースモデルを選択する方法が課題となる。さらに、新しい診断装置の新しいモデルが生成される。これは、モデルの数を増加させるため、モデルの運用と保守のコストが高くなる。したがって、ソースモデルを変更せずに新しい診断装置でソースモデルの精度を保証することが課題となる。

　ソースモデルは、ソースデータセットによりトレーニングされるため、ソースデータセットの特性をよく学習する。ターゲットデータセットがソースデータセットと類似している場合、ソースモデルはターゲットデータセットで良好な性能を示す。そのため、再利用するソースモデルは、ソースデータセットとターゲットデータセット間のデータセットの類似性に基づいて選択できる。

　データセットの類似性の推定については、非特許文献１に画像データに関する方法が記載されている。２つのデータセットの画像間の距離を利用して、データセットの類似性を推定する。しかし、例えば、画像データと表データでは構造が異なるため、上記方法は、表データに対して利用できない。

　本発明の一態様は、コンピュータシステムによって実行される、モデルを再利用する方法である。前記コンピュータシステムは、データベースを含む。前記データベースは、それぞれ複数のソーストレーニングデータレコードからなる、複数のソーストレーニングデータセットと、前記複数のソーストレーニングデータセットそれぞれから生成された、複数のソースモデルと、複数のターゲットトレーニングデータレコードからなる、ターゲットトレーニングデータセットと、複数のターゲットテストデータレコードからなる、ターゲットテストデータセットと、を格納する。前記コンピュータシステムが、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間で、特徴量それぞれの分布間距離を計算する。前記コンピュータシステムが、前記分布間距離に基づいて、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間の、データセット距離を決定する。前記コンピュータシステムが、前記データセット距離に基づいて、前記複数のソースモデルから、再利用するソースモデルを選択する。前記コンピュータシステムが、前記再利用するソースモデルを使用して、前記ターゲットテストデータセットの予測を実行する。

　本発明の一態様によれば、再利用に適したソースモデルを複数のソースモデルから選択することができる。上記以外の課題、構成及び効果は、以下の実施形態の説明から明らかになるであろう。

例示的な実施形態におけるコンピュータシステムの構成例を示す図である。例示的な実施形態における重み情報のデータ構造の一例を示す図である。例示的な実施形態における特徴量分布間距離情報のデータ構造の一例を示す図である。例示的な実施形態におけるデータセット距離情報のデータ構造の一例を示す図である。例示的な実施形態において、コンピュータによって提供されるＧＵＩの一例を示す図である。例示的な実施形態においてコンピュータによって実行される処理の概要を示すフローチャートである。例示的な実施形態においてコンピュータによって提供されるＧＵＩの一例を示す図である。例示的な実施形態においてコンピュータによって提供されるＧＵＩの一例を示す図である。例示的な実施形態においてコンピュータによって実行されるデータセット類似性推定処理の一例を示すフローチャートである。例示的な実施形態においてコンピュータによって実行されるモデル選択処理の一例を示すフローチャートである。例示的な実施形態においてコンピュータによって実行されるターゲットテストデータセット予測処理の一例を示すフローチャートである。例示的な実施形態においてコンピュータによって実行されるデータセット適応処理の一例を示すフローチャートである。

　以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

　以下に説明する構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明は、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

　以下の説明において、人工知能モデル（機械学習モデルまたは単にモデルとも呼ぶ）の訓練（学習または生成）に使用するデータをトレーニングデータ、モデルによる予測を行うべき対象のデータをテストデータと呼ぶ。また、再利用の候補である既存モデルをソースモデルと呼び、さらに、ソースモデルに関連するデータ名称にソースを含む。ソースモデルを再利用して予測するデータをターゲットテストデータと呼び、それに関連するトレーニングデータをターゲットトレーニングデータと呼ぶ。

　以下に説明する手法は、複数のソーストレーニングデータセットそれぞれとターゲットトレーニングデータセットと間の類似性を推定し、その推定結果に基づいて再利用するソースモデルを選択する。選択されたソースモデルは、新たな訓練を行うことなく、ターゲットテストデータセットについての予測のために使用することができる。さらに、以下においては、ターゲットテストデータセットに対する選択されたソースモデルの精度を向上させるために、ターゲットテストデータセットを適応させる方法を説明する。

　以下に説明する手法により、再利用に適したソースモデルを複数のソースモデルから選択することができる。また、ターゲットテストデータセットが選択したソーストレーニングデータセットにより類似するように、ターゲットテストデータセットを調整することにより、ターゲットテストデータセットに対する選択したモデルの精度を、モデルを変更せずにさらに改善できる。

　図１は、例示的な実施形態におけるコンピュータシステムの構成例を示す図である。コンピュータシステムは、一つのコンピュータ１００で構成されている。コンピュータ１００は、既存のソースモデルから再利用に適したモデルを選択し、ターゲットデータセットを適応させることにより、選択したモデルのターゲットデータセットの精度を向上させる。以下の説明では、適応されたターゲットデータセットを適応ターゲットデータセットと呼ぶ。

　コンピュータ１００は、プロセッサ１０１、ネットワークインターフェース１０２、主記憶装置１０３、及び二次記憶装置１０４を含む。各ハードウェアコンポーネントは、内部バスを介して互いに接続されている。さらに、入力装置１０５（キーボード、マウス、及びタッチパネルなど）及び出力装置１０６（ディスプレイ及びプリンタなど）が、コンピュータ１００に接続されている。

　プロセッサ１０１は、主記憶装置１０３に格納されたプログラムを実行する。プロセッサ１０１がプログラムに従って処理を実行すると、特定の機能を実現する機能部として動作する。以下の説明において、プログラムを主体として処理を説明する場合、プロセッサ１０１が当該プログラムを実行していることを示す。

　ネットワークインターフェース１０２は、ネットワークを介して他のコンピュータと通信するためのインターフェースである。

　主記憶装置１０３は、メモリなどの記憶装置である。プロセッサ１０１によって実行されるプログラムと、プログラムによって使用される情報を格納する。さらに、主記憶装置１０３は、プログラムによって一時的に使用される作業領域を含む。二次記憶装置１０４は、ＨＤＤ（ハードディスクドライブ）やＳＳＤ（ソリッドステートドライブ）などの記憶装置である。データを永続的に保存する。主記憶装置１０３、二次記憶装置１０４及びこれらの組み合わせは、記憶装置の例である。

　ここで、主記憶装置１０３に格納されているプログラムと二次記憶装置１０４に格納されている情報について説明する。二次記憶装置１０４が格納する情報は以下の通りである。複数のソーストレーニングデータセット１１１、複数のソースモデル１１２、ターゲットトレーニングデータセット１３１、ターゲット検証データセット１３２、ターゲットテストデータセット１３３、重み情報１３４、特徴量分布間距離情報１３５、データセット距離情報１３６、選択モデル情報１３７、適応データセット１３８及び評価情報１３９である。

　複数のソーストレーニングデータセット１１１は、異なる既存の顧客からのトレーニングデータセットを含む。各トレーニングデータセット１１１は、複数のソーストレーニングデータレコードで構成されている。各ソーストレーニングデータレコードは、複数の特徴量（入力データ）と一つのラベルで構成されている。

　複数のソースモデル１１２は、モデル構造とパラメータの情報で示されるソースモデルを含み、それらは、対応するソーストレーニングデータセット１１１から生成されている（ソーストレーニングデータセット１１１により訓練されている）。例えば、３つのソーストレーニングデータセット１１１（ソース１、ソース２、及びソース３）があるとする。その場合、３つのソースモデル１１２（モデル１、モデル２、及びモデル３）がある。モデル１はソース１から生成され、モデル２はソース２から生成され、モデル３はソース３から生成される。

　ターゲットトレーニングデータセット１３１は、新しい顧客からのトレーニングデータセットであり、データセットの類似性推定のための特徴量の分布間距離及び重みを計算するために使用される。ターゲットトレーニングデータセット１３１は、複数のターゲットトレーニングデータレコードで構成されている。各ターゲットトレーニングデータレコードは、複数の特徴量と一つのラベルで構成されている。特徴量とラベルの名前（種類）はソーストレーニングデータセットのものと同じであるが、それらの値はソーストレーニングデータセット１１１のものとは異なり得る。

　ターゲット検証データセット１３２は、新しい顧客用の検証データセットである。データセットの類似性推定のための重みを計算し、データセット適応のパラメータを決定するために使用される。ターゲット検証データセット１３２の構成形式は、ターゲットトレーニングデータセット１３１の構成形式と同じである。ターゲット検証データセット１３２は、ターゲットトレーニングデータセット１３１に含まれていてもよい。

　ターゲットテストデータセット１３３は、新しい顧客のテストデータセットである。ターゲットテストデータセット１３３は、複数のターゲットテストデータレコードから構成されている。ターゲットテストデータセット１３３の構成形式は、ラベル情報がないことを除いて、ターゲットトレーニングデータセット１３１及びターゲット検証データセット１３２の構成形式と同じである。本実施形態の目標は、ソースモデル１１２を再利用することにより、ターゲットテストデータセット１３３のラベル情報を予測することである。

　例示的な実施形態では、コンピュータ１００は、ソーストレーニングデータセット１１１、ソースモデル１１２、ターゲットトレーニングデータセット１３１、ターゲット検証データセット１３２、及びターゲットテストデータセット１３３を保持する。また、これらは、コンピュータ１００からアクセス可能なストレージシステムなどに保存することもできる。

　重み情報１３４は、データセットの距離に対する各特徴量の分布間距離の影響度を管理するための情報である。重み情報１３４のデータ構造の詳細については、図２を用いて説明する。

　特徴量分布間距離情報１３５は、各ソーストレーニングデータセット１１１とターゲットトレーニングデータセット１３１間の各特徴量の分布間距離を管理するための情報である。特徴量分布間距離情報１３５のデータ構造の詳細については、図３を用いて説明する。

　データセット距離情報１３６は、各ソーストレーニングデータセット１１１とターゲットトレーニングデータセット１３１間のデータセット距離を管理するための情報である。後述するように、データセット距離は、特徴量の分布間距離と重みから計算される。データセット距離は、ソーストレーニングデータセット１１１とターゲットトレーニングデータセット１３１の類似性を表す。データセット距離が小さいほど、ターゲットトレーニングデータセット１３１はソーストレーニングデータセット１１１により類似している。データセット距離は、再利用のために適切なソースモデル１１２を選択するために使用される。データセット距離情報１３６のデータ構造の詳細については、図４を用いて説明する。

　選択モデル情報１３７は、再利用のためのモデルを管理するための情報であり、モデルは、データセット距離に基づいて選択される。選択したモデルは、ターゲットテストデータセット１３３の予測に使用される。

　適応データセット１３８には、適応ターゲット検証データセットと適応ターゲットテストデータセットが含まれる。ユーザがデータセットの適応に同意すると、選択したモデルは、選択したモデルの精度を向上させるために、適応データセットを予測する。評価情報１３９は、ターゲット検証データセット１３２とターゲットテストデータセット１３３に対する選択デルの予測結果を管理するための情報である。

　主記憶装置１０３は、データ受信モジュール１２１、データセット類似性推定モジュール１２２、モデル選択モジュール１２３、データセット適応モジュール１２４、評価モジュール１２５及び出力モジュール１２６を格納する。これらモジュールはプログラムである。

　データ受信モジュール１２１は、様々な操作を受信するためのＵＩ（ユーザインターフェース）を提供し、ＵＩを介して入力を受信する。データ受信モジュール１２１は、ターゲットトレーニングデータセット１３１、ターゲット検証データセット１３２、及びターゲットテストデータセット１３３を受信すると、各データセットを二次記憶装置１０４に保存する。出力モジュール１２６は、再利用のために選択されたモデル、適応されたデータセットなどに関連する情報などの様々な情報を出力する。

　データセット類似性推定モジュール１２２は、特徴量分布間距離及び重みを計算し、計算結果を利用して、各ソーストレーニングデータセット１１１とターゲットトレーニングデータセット１３１間のデータセット類似性を推定する。計算結果及び推定結果に基づいて、データセット類似性推定モジュール１２２は、重み情報１３４、特徴量分布間距離情報１３５、及びデータセット距離情報１３６を生成する。

　モデル選択モジュール１２３は、データセット距離に基づいてソースモデル１１２から再利用に適したモデルを選択し、選択モデル情報１３７を生成する。データセット適応モジュール１２４は、ターゲット検証データセット１３２による選択されたモデルの評価結果を利用することにより、データセット適応方法のパラメータを決定し、ターゲットテストデータセット１３３を適応させる。データセット適応モジュール１２４は、適応データセット１３８を生成する。

　評価モジュール１２５は、選択されたソースモデル１１２を使用して、オリジナルのターゲット検証データセット及び適応されたターゲット検証データセット、並びに、オリジナルのターゲットテストデータセット及び適応されたターゲットテストデータセットの予測を行い、予測結果に基づいて評価情報１３９を生成する。

　なお、複数のプログラムを１つのプログラムに結合できる。また、１つのプログラムを複数のプログラムに分割できる。また、複数のコンピュータで構成されるコンピュータシステムを使用することにより、同じ機能を実現できる。この場合、各コンピュータには少なくとも１つのプログラムが実装される。このように、コンピュータシステムは、１以上のプロセッサ及び１以上の記憶装置を含み、本明細書で説明する処理を実行する。

　図２は、例示的な実施形態における重み情報１３４のデータ構造の一例を示す図である。重み情報１３４は、特徴量２０１と重み２０２とで構成される複数のエントリを含む。１つの特徴量に対して１つのエントリがある。特徴量２０１は、特徴量の識別情報を格納するフィールドである。重み２０２は、データセットの距離に対する特徴量の分布間距離の影響度を格納するフィールドである。

　図３は、例示的な実施形態における特徴量分布間距離情報１３５のデータ構造の一例を示す図である。特徴量分布間距離情報１３５は、マトリックス形式のデータであり、行はソーストレーニングデータセット１１１に対応し、列は特徴量２０１に対応する。

　ソースｎは、ｎ番目のソーストレーニングデータセット１１１の識別情報を表す。Ｆｍは、ｍ番目の特徴量２０１の識別情報を表す。１つのソーストレーニングデータセット１１１とターゲットトレーニングデータセット１３１との間の特徴量分布間距離が、セルに格納される。例えば、ｎ番目のソーストレーニングデータセット１１１（ソースｎ）とターゲットトレーニングデータセット１３１と間のｍ番目の特徴量２０１（Ｆｍ）の特徴量分布間距離は、行ｎと列ｍのセルに格納される。

　図４は、例示的な実施形態におけるデータセット距離情報１３６のデータ構造の一例を示す図である。データセット距離情報１３６は、マトリックス形式のデータである。行は特徴量タイプに対応し、列はソーストレーニングデータセット１１１に対応する。ここで、特徴量タイプは数値特徴量またはカテゴリ特徴量を指す。

　ソースｎは、ｎ番目のソーストレーニングデータセット１１１の識別情報を表す。１つのソーストレーニングデータセットとターゲットトレーニングデータセット間の、数値特徴量またはカテゴリ特徴量について要約されたデータセット距離は、セルに格納される。

　図５は、例示的な実施形態において、コンピュータ１００によって提供されるＧＵＩの一例を示す図である。

　ＧＵＩ５００は、コンピュータ１００が処理の実行を要求されるときに提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ５００は、ターゲットデータ設定フィールド５１０、出力設定フィールド５２０及び実行ボタン５３０を含む。

　ターゲットデータ設定フィールド５１０は、ターゲットトレーニングデータセット、ターゲット検証データセット、及びターゲットテストデータセットに関連する設定を実行するためのフィールドである。ターゲットデータ設定フィールド５１０は、ターゲットトレーニングデータセットフィールド５１１、ターゲット検証データセットフィールド５１２、及びターゲットテストデータセットフィールド５１３を含む。

　ターゲットトレーニングデータセットフィールド５１１は、ターゲットトレーニングデータセットを指定するためのフィールドである。ターゲットトレーニングデータセットフィールド５１１には、ターゲットトレーニングデータセットの保存場所を示すパス、またはターゲットトレーニングデータセットを保存するファイルの名前などが設定される。

　ターゲット検証データセットフィールド５１２は、ターゲット検証データセットを指定するためのフィールドである。ターゲット検証データセットフィールド５１２には、ターゲット検証データセットの格納場所を示すパス、またはターゲット検証データセットを格納するファイルの名前などが設定される。

　ターゲットテストデータセットフィールド５１３は、ターゲットテストデータセットを指定するためのフィールドである。ターゲットテストデータセットフィールド５１３には、ターゲットテストデータセットの格納場所を示すパス、またはターゲットテストデータセットを格納するファイルの名前などが設定される。

　出力設定フィールド５２０は、出力する情報とその情報の保存場所に関する設定を行うためのフィールドである。出力設定フィールド５２０は、選択モデル情報格納フィールド５２１及び評価情報格納フィールド５２２を含む。

　選択モデル情報格納フィールド５２１は、選択モデル情報の格納場所を指定するためのフィールドである。評価情報格納フィールド５２２は、ターゲット検証データセット及びターゲットテストデータセットについての選択されたモデルの予測結果の保存場所を指定するためのフィールドである。

　実行ボタン５３０は、処理の実行を指示するための操作ボタンである。ユーザが実行ボタン５３０を操作すると、ターゲットデータ設定フィールド５１０及び出力設定フィールド５２０に設定された情報を含む実行要求が、データ受信モジュール１２１に送信される。

　図６は、例示的な実施形態においてコンピュータ１００によって実行される処理の概要を示すフローチャートである。図７は、例示的な実施形態においてコンピュータ１００によって提供されるＧＵＩの一例を示す図である。図８は、例示的な実施形態においてコンピュータ１００によって提供されるＧＵＩの一例を示す図である。

　コンピュータ１００は、実行要求を受信すると、以下に説明する処理を実行する。データ受信モジュール１２１は、初期化処理を実行する（ステップＳ１０１）。具体的には、以下の処理を行う。

　（Ｓ１０１－１）データ受信モジュール１２１は、指定されたパスからターゲットトレーニングデータセット、ターゲット検証データセット、ターゲットテストデータセットを取得し、二次記憶装置１０４に格納する。

　（Ｓ１０１－２）データ受信モジュール１２１は、重み情報１３４、特徴量分布間距離情報１３５、データセット距離情報１３６、選択モデル情報１３７、及び評価情報１３９を初期化する。特徴量分布間距離情報１３５の初期化において、データ受信モジュール１２１は、行の数がソーストレーニングデータセットの数と一致し、列の数が特徴量項目の数と一致するマトリックスを生成する。マトリックスのすべてのセルは空白である。データセット距離情報１３６の初期化において、データ受信モジュール１２１は、行の数が特徴量タイプの数と一致し、列の数がソーストレーニングデータセットの数と一致するマトリックスを生成する。マトリックスのすべてのセルは空白である。

　次に、データセット類似性推定モジュール１２２は、ソーストレーニングデータセット、ターゲットトレーニングデータセット、及びターゲット検証データセットを使用することにより、データセット類似性推定の処理を実行する（ステップＳ１０２）。重み情報１３４、特徴量分布間距離情報１３５、及びデータセット距離情報１３６は、データセット類似性推定の処理を実行することにより生成される。データセット類似度推定の処理の詳細は、図９を参照して説明する。

　次に、モデル選択モジュール１２３は、データセット距離情報１３６を用いて、再利用のためのモデル選択処理を実行する（ステップＳ１０３）。モデル選択モジュール１２３は、モデル選択処理を実行することにより、選択モデル情報１３７を生成し、選択モデル情報１３７を選択モデル情報格納フィールド５２１で指定されたパスに格納する。再利用のためのモデル選択処理の詳細については、図１０を参照して説明する。

　次に、評価モジュール１２５は、選択されたソースモデルを使用してターゲットテストデータセットの予測処理を実行する（ステップＳ１０４）。ユーザが予測のためにデータセットの適応を実行する必要があるかどうかを判断できるように、評価モジュール１２５は、ターゲットテストデータセットの予測を行う前に、ターゲット検証データセット１３２で選択したモデルのパフォーマンスを評価し、図６に示すようなＧＵＩ６００を表示するための出力情報を生成する。

　ユーザがターゲットテストデータセットを適応させることに決めた場合、データセット適応モジュール１２４はターゲットテストデータセット適応の処理を実行し、適応ターゲットテストデータセットを生成して格納する。評価モジュール１２５は、選択されたソースモデルを使用して適応ターゲットテストデータセットの予測処理を実行し、評価情報１３９を生成し、評価情報格納フィールド５２２で指定されたパスに格納する。

　ユーザがターゲットテストデータセットを適応させないことに決めた場合、評価モジュール１２５は、選択されたソースモデルを使用してターゲットテストデータセットの予測処理を実行し、評価情報１３９を生成し、評価情報格納フィールド５２２で指定されたパスに格納する。ターゲットテストデータセットの予測処理の詳細は図１１を参照して説明する。ここで、ＧＵＩ７００について説明する。

　ＧＵＩ７００は、フィードバック情報を表示するときに提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ７００は、選択モデル精度フィールド７１０、ラジオボタン７２１、７２２、適応データセット格納フィールド７２３及び次へボタン７３０を含む。

　選択モデル精度フィールド７１０は、ターゲット検証データセット１３２に対する選択モデルの精度を表示するためのフィールドである。ラジオボタン７２１は、選択モデル精度フィールド７１０に表示される、選択されたモデルのパフォーマンスにユーザが満足しておらず、予測のためにターゲットテストデータセット１３３を適応させる場合に選択される。ユーザが、選択モデル精度フィールド７１０に表示されている選択モデルのパフォーマンスに満足しており、予測のためにターゲットテストデータセットを適応させたくない場合、ラジオボタン７２２が選択される。

　適応データセット格納フィールド７２３は、適応データセットの格納場所を指定するためのフィールドである。次へボタン７３０は、処理の実行を指示するための操作ボタンである。ユーザが次へボタン７３０を操作すると、ラジオボタン７２１、７２２と適応データセット格納フィールド７２３に設定された情報を含む実行要求が、評価モジュール１２５に送信される。

　次に、出力モジュール１２６は、出力情報を生成及び表示する（ステップＳ１０５）。その後、コンピュータ１００は処理を終了する。例えば、出力モジュール１２６は、図８に示されるようなＧＵＩ８００を表示するための出力情報を生成する。ここで、ＧＵＩ８００について説明する。

　ＧＵＩ８００は、出力情報を表示するときに提供されるＵＩであり、出力装置１０６に表示される。ＧＵＩ８００は、選択モデル情報フィールド８０１、評価情報フィールド８０２、データ分布フィールド８０３及び精度フィールド８０４を含む。選択モデル情報フィールド８０１は、選択モデル情報１３７の格納場所を表示するフィールドである。評価情報フィールド８０２は、評価情報１３９の格納場所を表示するフィールドである。

　データ分布フィールド８０３は、適応に起因するターゲット検証データセット１３２のデータ分布の変化を表示するフィールドである（ユーザに要求された場合）。具体的には、データ分布フィールド８０３は、選択したソーストレーニングデータセット１１１の入力データのデータ分布、適応前のオリジナルのターゲット検証データセット１３２の入力データのデータ分布、及び適応後のターゲット検証データセット１３２の入力データのデータ分布を表示する。

　精度フィールド８０４は、データセットの適応によって引き起こされた、ターゲット検証データセット１３２に対する選択されたモデルの精度の変化を表示するためのフィールドである（ユーザに要求された場合）。

　図９は、例示的な実施形態においてコンピュータ１００によって実行されるデータセット類似性推定処理の一例を示すフローチャートである。データセット類似性推定モジュール１２２は、ターゲットトレーニングデータセット１３１及びターゲット検証データセット１３２を読み取る（ステップＳ２０１）。

　次に、データセット類似性推定モジュール１２２は、データセット距離に対する各特徴量分布間距離の影響度を重みとして推定する。一例は、ターゲットトレーニングデータセット１３１及びターゲット検証データセット１３２を使用することにより、ターゲットタスクの予測に対する各特徴量の影響度（特徴量重要度）を推定する（ステップＳ２０２）。

　例えば、ターゲットトレーニングデータセット１３１を使用して、ターゲット検証データセット１３２で最高のパフォーマンスを発揮するＬｉｇｈｔＧＢＭモデルをトレーニングする。モデルの関数ｆｅａｔｕｒｅ＿ｉｍｐｏｒｔａｎｃｅ（）を使用して、特徴量重要度情報を取得する。なお、重み推定の方法は特に限定されない。ｅＸｐｌａｉｎａｂｌｅ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ（ＸＡＩ）などの他の技術も、重みを推定するために利用できる。さらに、ユーザはＧＵＩを使用して事前に重みを指定することもできる。最も単純なケースでは、すべての重みをデフォルトの１にすることができる。

　次に、データセット類似性推定モジュール１２２は、重み情報１３４を更新する（ステップＳ２０３）。具体的には、各特徴量について、データセット類似性推定モジュール１２２は、重み情報１３４にエントリを追加し、追加されたエントリの特徴量２０１に特徴量の識別情報を設定し、追加されたエントリの重み２０２に影響度を設定する。

　次に、データセット類似性推定モジュール１２２は、変数ｉを初期化する（ステップＳ２０４）。変数ｉは、ソーストレーニングデータセット１１１の識別番号を表すために使用される変数である。具体的には、データセット類似性推定モジュール１２２は、変数ｉに１を設定する。一方、データセット類似性推定モジュール１２２は、ソーストレーニングデータセット１１１の数をＮに設定する。

　次に、データセット類似性推定モジュール１２２は、変数ｉに対応するソーストレーニングデータセット（ソーストレーニングデータセット［ｉ］）を、ソーストレーニングデータセット１１１から取得する（ステップＳ２０５）。

　次に、データセット類似性推定モジュール１２２は、変数ｊを初期化する（ステップＳ２０６）。変数ｊは、特徴量の識別番号を表すために使用される変数である。具体的には、データセット類似性推定モジュール１２２は、変数ｊに１を設定する。一方、データセット類似性推定モジュール１２２は、特徴量の数をＭに設定する。

　次に、データセット類似性推定モジュール１２２は、ソーストレーニングデータセット［ｉ］及びターゲットトレーニングデータセット１３１の、変数ｊ（特徴量［ｊ］）に対応する特徴量の分布間距離を計算する（ステップＳ２０７）。具体的には、データセット類似性推定モジュール１２２は、ソーストレーニングデータセット［ｉ］から特徴量［ｊ］のすべての値を取得し、ターゲットトレーニングデータセット１３１から特徴量［ｊ］のすべての値を取得し、これら２つの値セットの分布間距離を計算する。

　分布間距離の計算の一例は次の通りである。特徴量［ｊ］が数値の場合、２つの値セットを正規化し（例えば、最小－最大正規化または他の正規化による）、Ｅａｒｔｈ　Ｍｏｖｅｒ’ｓ　Ｄｉｓｔａｎｃｅを計算し、特徴量［ｊ］の分布間距離として使用する。

　特徴量［ｊ］がカテゴリ特徴量の場合、可能な値の出現率によって各値セットの表現を生成する。例えば、値セットＡには６０人の男性と４０人の女性がいるとする。値セットＢには１００人の男性と１００人の女性がいるとする。したがって、値セットＡは（０．６、０．４）で表され、値セットＢは（０．５、０．５）で表される。次に、これら２つの表現の間のユークリッド距離などの距離を計算し、特徴量［ｊ］の分布間距離として使用する。

　上記方法により、数値特徴量の分布間距離及びカテゴリ特徴量の分布間距離をそれぞれより適切に計算することができる。なお、特徴量分布間距離の計算方法は限定されない。２つの値セットの確率密度分布を推定し、確率密度分布の距離を計算するなど、他の方法も適用できる。

　次に、データセット類似性推定モジュール１２２は、特徴量分布間距離情報１３５を更新する（ステップＳ２０８）。具体的には、データセット類似性推定モジュール１２２は、計算された特徴量分布間距離を、特徴量分布間距離情報１３５の行ｉ及び列ｊに対応するセルに設定する。

　次に、データセット類似性推定モジュール１２２は、変数ｊの値がＭに一致するか否かを判定する（ステップＳ２０９）。つまり、ソーストレーニングデータセット［ｉ］のすべての特徴量項目について処理が完了したかどうかが判定される。

　変数ｊの値がＭと一致しないと判定された場合、データセット類似性推定モジュール１２２は、変数ｊに１を加えた値を変数ｊに設定する（ステップＳ２１０）。その後、処理はステップＳ２０７に戻る。

　変数ｊの値がＭに一致すると判定された場合、データセット類似性推定モジュール１２２は、重み情報１３４と、特徴量分布間距離情報１３５の行ｉとを使用して、ソーストレーニングデータセット［ｉ］とターゲットトレーニングデータセット１３１と間のデータセット距離を計算し（ステップＳ２１１）、データセット距離情報１３６を更新する（ステップＳ２１２）。

　データセット距離は、例えば、下記式に従って計算できる。
　　ＤｉｓｔａｎｃｅS,T＝ｗ1ｄ1S,T＋ｗ2ｄ2S,T＋・・・＋ｗMｄMS,T
　ここで、Ｓはソーストレーニングデータセット［ｉ］を表し、Ｔはターゲットトレーニングデータセット１３１を表す。ＤｉｓｔａｎｃｅS,Tは、ＳとＴとの間のデータセット距離を表す。ｄmS,T（ｍ＝１、２、・・Ｍ）は、ＳとＴとの間の特徴量［ｍ］の分布間距離を表す。ｗm（ｍ＝１、２、・・Ｍ）は、特徴量［ｍ］の分布間距離の影響度を表す。

　特徴量分布間距離の計算方法は数値特徴量とカテゴリ特徴量で異なるため、データセット距離は、数値特徴量の分布間距離またはカテゴリ特徴量の分布間距離を使用して、個別に計算する。これにより、特徴量のタイプに応じて適切なデータセット距離を計算できる。１つの例は、数値特徴量の分布間距離を使用して数値データセット距離を計算し、計算された数値データセット距離をデータセット距離情報１３６の行１及び列ｉに対応するセルに設定する。さらに、カテゴリ特徴量の分布間距離を使用してカテゴリデータセットの距離を計算し、計算されたカテゴリデータセットの距離を、データセット距離情報１３６の行２及び列ｉに対応するセルに設定する。データセット距離の計算方法は限定されず、上記の方法以外の方法も適用できる。

　次に、データセット類似性推定モジュール１２２は、変数ｉの値がＮに一致するか否かを判定する（ステップＳ２１３）。つまり、すべてのソーストレーニングデータセット１１１の処理が完了したかどうかが判定される。

　変数ｉの値がＮと一致しないと判定された場合、データセット類似性推定モジュール１２２は、変数ｉに１を加えた値を変数ｉに設定する（ステップＳ２１４）。その後、処理はステップＳ２０５に戻る。変数ｉの値がＮに一致すると判定された場合、データセット類似性推定モジュール１２２は、データセット類似性推定の処理を終了する。

　図１０は、例示的な実施形態においてコンピュータ１００によって実行されるモデル選択処理の一例を示すフローチャートである。モデル選択モジュール１２３は、変数であるｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘを初期化する（ステップＳ３０１）。変数ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘは、再利用のための候補モデルの識別番号を保存するために使用される変数である。具体的には、モデル選択モジュール１２３は、空のリストを変数ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘに設定する。

　次に、モデル選択モジュール１２３は、変数Ｒを初期化する（ステップＳ３０２）。変数Ｒは、データセット距離情報１３６の行の識別番号を表すために使用される変数である。具体的には、モデル選択モジュール１２３は、変数Ｒに１を設定する。一方、モデル選択モジュール１２３は、データセット距離情報１３６の行数を２に設定する。

　次に、モデル選択モジュール１２３は、データセット距離情報１３６の行Ｒの値を取得する（ステップＳ３０３）。値は、ソーストレーニングデータセット１１１それぞれとターゲットトレーニングデータセットとの間の、数値特徴量またはカテゴリ特徴量の分布間距離に基づく、データセット距離である。Ｒが１の場合、（第１）データセット距離は、数値特徴量分布間距離とそれに対応する重みを使用して計算される。Ｒが２の場合、（第２）データセット距離は、カテゴリ特徴量分布間距離とそれに対応する重みを使用して計算される。

　次に、モデル選択モジュール１２３は、ステップＳ３０３で取得したデータセット距離値に基づいてソーストレーニングデータセット１１１をランク付けする（ステップＳ３０４）。

　次に、モデル選択モジュール１２３は、トップ１のソーストレーニングデータセット１１１の識別番号を取得し、それを変数ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘに追加する（ステップＳ３０５）。トップランクのソーストレーニングデータセット１１１は、ターゲットトレーニングデータセット１３１に最も類似したソーストレーニングデータセット１１１である。複数のトップランクのソーストレーニングデータセット１１１が存在し得る。

　次に、モデル選択モジュール１２３は、変数Ｒの値が２に一致するか否かを判定する（ステップＳ３０６）。すなわち、データセット距離情報１３６のすべての行について処理が完了したかどうかが判定される。変数Ｒの値が２に一致しないと判定された場合、モデル選択モジュール１２３は、変数Ｒに１を加えた値を変数Ｒに設定する（ステップＳ３０７）。その後、処理はステップＳ３０３に戻る。

　変数Ｒの値が２に一致すると判定された場合、モデル選択モジュール１２３は、変数ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘにおける一意の値を、変数ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘに保存する（ステップＳ３０８）。つまり、繰り返される値は、ｃａｎｄｉｄａｔｅ＿ｍｏｄｅｌ＿ｉｎｄｅｘから削除される。数値特徴量分布間距離に基づくデータセット距離によるトップランクのソーストレーニングデータセット１１１と、カテゴリ特徴量分布間距離に基づくデータセット距離によるトップランクのソーストレーニングデータセット１１１と同一である場合、そのソーストレーニングデータセット１１１の識別番号の一方は削除される。

　次に、モデル選択モジュール１２３は、複数のモデルが候補であるか否かを判定する（ステップＳ３０９）。候補モデルの数が１より大きいと判定された場合、モデル選択モジュール１２３は、候補モデルから再利用するモデルを選択する（ステップＳ３１０）。例えば、候補モデルそれぞれによってターゲット検証データセット１３２の予測を行い、ターゲット検証データセット１３２に対して最高のパフォーマンスを示す候補モデルを選択できる。または、すべての候補モデルを選択し、すべての候補モデルによりターゲットテストデータセット１３３での予測を行い、その予測結果の要約（例：平均値）を、最終的な予測結果として使用してもよい。使用するモデルの選択方法は限定されず、他の方法も適用できる。その後、処理はステップＳ３１１へ進む。

　候補モデルが１つであると判定された場合、モデル選択モジュール１２３は、ステップＳ３１１に進む。ステップＳ３１１では、モデル選択モジュール１２３は、選択モデル情報１３７を更新する。具体的には、モデル選択モジュール１２３は、選択されたモデルの識別番号を選択モデル情報１３７として保存する。モデル選択モジュール１２３は、モデル選択の処理を終了する。

　図１１は、例示的な実施形態においてコンピュータ１００によって実行されるターゲットテストデータセット予測処理の一例を示すフローチャートである。評価モジュール１２５は、選択モデル情報１３７及びターゲットテストデータセット１３３を取得する（ステップＳ４０１）。

　次に、評価モジュール１２５は、選択モデル情報１３７に示される選択モデルの識別番号に従って、ソースモデル１１２から選択ソースモデルを取得する（ステップＳ４０２）。

　次に、評価モジュール１２５は、ターゲット検証データセット１３２において選択ソースモデルを評価し（ステップＳ４０３）、評価情報１３９を更新し、評価結果をＧＵＩ７００によりユーザにフィードバックする（ステップＳ４０４）。

　次に、評価モジュール１２５は、データセット適応の処理を、ユーザが必要としているか判定する。つまり、ユーザからの指示が判定される。ユーザがデータセット適応の処理を必要としないと判定された場合、評価モジュール１２５は、選択されたソースモデルを使用してターゲットテストデータセット１３３を予測し（ステップＳ４０８）、評価情報１３９を更新する（ステップＳ４０９）。その後、評価モジュール１２５は、ターゲットテストデータセット予測の処理を終了する。

　ユーザがデータセット適応の処理を必要とすると判定された場合、評価モジュール１２５はターゲットテストデータセット１３３を適応させ（ステップＳ４０６）、選択されたソースモデルを使用して適応ターゲットテストデータセットを予測し（ステップＳ４０７）、評価情報１３９を更新する（ステップＳ４０９）。その後、評価モジュール１２５は、ターゲットテストデータセット予測の処理を終了する。データセット適応の処理の詳細は、図１２を参照して説明される。

　図１２は、例示的な実施形態においてコンピュータ１００によって実行されるデータセット適応処理の一例を示すフローチャートである。データセット適応モジュール１２４は、重み情報１３４からすべての特徴量の重みを取得し、特徴量分布間距離情報１３５から、選択されたソーストレーニングデータセット１１１と、ターゲットトレーニングデータセット１３１との間の、すべての特徴量の特徴量分布間距離を取得する（ステップＳ５０１）。

　ここで、再利用のために複数のソースモデルが選択されている場合、選択されたソーストレーニングデータセットは、選択されたソースモデルに対応するソーストレーニングデータセットのマージになる。選択されたソーストレーニングデータセットとターゲットトレーニングデータセットのすべての特徴量の特徴量分布間距離は、選択されたソースモデルに対応するソーストレーニングデータセット１１１それぞれとターゲットトレーニングデータセット１３１との間の特徴量分布間距離の要約（平均値など）である。

　次に、データセット適応モジュール１２４は、適応する特徴量（異なる重要な特徴量）を決定する（ステップＳ５０２）。一部の特徴量（候補特徴量）が適応するために選択され、例えば、ターゲット検証データセット１３２を利用することができる。取得した重みと特徴量分布間距離に基づいて特徴量項目をランク付けし、ターゲット検証データセット１３２の上位Ｘ（Ｘ＝１、２、…Ｍ）の特徴量の異なる組み合わせを繰り返し適応させ、評価モジュール１２５を使用して、適応ターゲット検証データセットに対する選択したモデルの精度を評価する。例えば、特徴量項目のランクは、特徴量分布間距離が大きい程、また、重みが大きい程、上位となる。このランク付けに基づき候補特徴量を選択することで、より適切なターゲットテストデータの適応が可能となる。

　データセット適応モジュール１２４は、適応ターゲット検証データセットに対する選択モデルの精度が最も高いケースを選択する。したがって、選択されたケースで適応されている特徴量は、ターゲットテストデータセット１３３において適応される特徴量として決定される。適応される特徴量を決定する方法は限定されず、取得した重みと特徴量分布間距離のしきい値を事前に設定するなど、他の方法も適用できる。

　次に、データセット適応モジュール１２４は、変数ＴＴを初期化する（ステップＳ５０３）。変数ＴＴは、ターゲットテストデータセット１３３におけるターゲットテストデータレコードの識別番号を表すために使用される変数である。具体的には、データセット適応モジュール１２４は、変数ＴＴに１を設定する。一方、データセット適応モジュール１２４は、ターゲットテストデータセット１３３内のターゲットテストデータレコードの数をＴＴＭａｘに設定する。

　次に、データセット適応モジュール１２４は、ターゲットテストデータセット１３３から変数ＴＴに対応するターゲットテストデータレコード（ターゲットテストデータレコード［ＴＴ］）を取得する（ステップＳ５０４）。

　次に、データセット適応モジュール１２４は、適応させると決定された特徴量を適応させる。決定された特徴量を適応させる方法は限定されない。一例において、ターゲットテストデータレコード［ＴＴ］に対して、データセット適応モジュール１２４は、適応させると決定された特徴量以外の残りの特徴量に基づいて、選択されたソーストレーニングデータセット１１１におけるｋ最近傍のソーストレーニングデータレコードを検出する（ステップＳ５０５）。ここで、ｋは、ソーストレーニングデータセットから検出する必要がある最近傍のソーストレーニングデータレコードの数を決定するために使用されるパラメータである。

　パラメータｋは、例えば、ターゲット検証データセット１３２を使用して決定できる。パラメータｋの値を繰り返し変更して、ターゲット検証データセット１３２を適応させ、評価モジュール１２５を使用して、適応ターゲット検証データセットに対する選択モデルの精度を評価する。適応されたターゲット検証データセットに対して選択モデルの精度が最も高いケースを選択する。したがって、選択されたケースのパラメータｋの値は、使用するパラメータｋの値として決定される。パラメータｋの値を決定する方法は限定されず、他の方法も適用できる。

　次に、データセット適応モジュール１２４は、検出されたｋ最近傍のソーストレーニングデータレコードに基づいて、ターゲットテストデータ［ＴＴ］内の決定された特徴量を適応させる（ステップＳ５０６）。

　例えば、数値特徴量の場合、データセット適応モジュール１２４は、検出されたｋ最近傍のソーストレーニングデータレコードの数値特徴量の値の平均値を計算し、それをターゲットテストデータレコード［ＴＴ］の数値特徴量に設定する。カテゴリ特徴については、データセット適応モジュール１２４は、検出されたｋ最近傍のソーストレーニングデータレコードのカテゴリ特徴量の値で最も多く発生する値を選択し、それをターゲットテストデータレコード［ＴＴ］のカテゴリ特徴量に設定する。上記方法により、ターゲットテストデータにおける適切な適応後の特徴量の値を決定できる。なお、データセットの適応方法は限定されず、上記の方法以外の方法も適用できる。

　次に、データセット適応モジュール１２４は、適応されたターゲットデータレコードを、適応データセット１３８内に保存する（ステップＳ５０７）。

　次に、データセット適応モジュール１２４は、変数ＴＴの値がＴＴＭａｘと一致するか否かを判定する（ステップＳ５０８）。すなわち、ターゲットテストデータセット１３３内のすべてのターゲットテストデータレコードについて処理が完了したか否かが判定される。

　変数ＴＴの値がＴＴＭａｘと一致しないと判定された場合、データセット適応モジュール１２４は、変数ＴＴに１を加えた値を変数ＴＴに設定する（ステップＳ５０９）。その後、処理はステップＳ５０４に戻る。変数ＴＴの値がＴＴＭａｘと一致すると判定された場合、データセット適応モジュール１２４は、データ適応の処理を終了する。

　上記例示的な実施形態によれば、コンピュータ１００は、特徴量分布間距離に基づき、ソーストレーニングデータセットとターゲットトレーニングデータセットとの間のデータセット類似性（データセット間距離）を推定する。そのため、複数のソースモデルから適切なソースモデルを選択して再利用できる。さらに、特徴量（分布間距離）に重みを設定することで、複数のソースモデルからより適切なソースモデルを選択して再利用できる。

　上記例示的な実施形態は、数値特徴量の分布間距離とカテゴリ特徴量の分布間距離とを個別に計算し、それらに対応するデータセット距離を算出する。これにより、異なるタイプの特徴量にそれぞれ適した方法で分布間距離及びデータセット距離を算出できる。

　さらに、コンピュータ１００は、特徴量の一部（異なる重要な特徴量）のみを適応させることにより、ターゲットテストデータセットを適応させる。これにより、全ての特徴量を適用させることと比較して、ターゲットテストデータセットの元の特性の損失を減らすことができ、ターゲットテストデータセット対する選択モデルの精度をさらに向上させることができる。

　なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施形態は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施形態の構成の一部について、他の構成に追加、削除、置換することが可能である。

　また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

　また、本実施形態に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ等の広範囲のプログラム又はスクリプト言語で実装できる。

　さらに、実施形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施形態において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

Claims

　コンピュータシステムによって実行される、モデルを再利用する方法であって、
　前記コンピュータシステムは、データベースを含み、
　前記データベースは、
　それぞれ複数のソーストレーニングデータレコードからなる、複数のソーストレーニングデータセットと、
　前記複数のソーストレーニングデータセットそれぞれから生成された、複数のソースモデルと、
　複数のターゲットトレーニングデータレコードからなる、ターゲットトレーニングデータセットと、
　複数のターゲットテストデータレコードからなる、ターゲットテストデータセットと、を格納し、
　前記方法は、
　前記コンピュータシステムが、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間で、特徴量それぞれの分布間距離を計算し、
　前記コンピュータシステムが、前記分布間距離に基づいて、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間の、データセット距離を決定し、
　前記コンピュータシステムが、前記データセット距離に基づいて、前記複数のソースモデルから、再利用するソースモデルを選択し、
　前記コンピュータシステムが、前記再利用するソースモデルを使用して、前記ターゲットテストデータセットの予測を実行する、方法。
　請求項１に記載の方法であって、
　前記コンピュータシステムが、前記特徴量それぞれに付与されている重みと前記分布間距離とに基づいて、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間の前記データセット距離を計算する、方法。
　請求項１に記載の方法であって、
　前記コンピュータシステムが、前記ターゲットテストデータセットにおいて、前記分布間距離に基づき選択した前記特徴量の一部を適応させ、
　前記コンピュータシステムが、前記再利用するソースモデルを使用して、適応させた前記ターゲットテストデータセットの予測を実行する、方法。
　請求項３に記載の方法であって、
　前記コンピュータシステムが、前記分布間距離及び前記特徴量それぞれに付与されている重みに基づき、前記適応させる特徴量を選択する、方法。
　請求項３に記載の方法であって、
　前記データベースは、ターゲット検証データセットを格納し、
　前記コンピュータシステムが、前記分布間距離に基づいて、複数の候補特徴量を選択し、
　前記複数の候補特徴量における異なる候補特徴量の組み合わせそれぞれを前記ターゲット検証データセットにおいて適応させ、異なる適応ターゲット検証データセットを生成し、
　前記異なる適応ターゲット検証データセットそれぞれに対する、前記再利用されるモデルの精度に基づき、前記ターゲットテストデータセットにおいて適応させる特徴量の組み合わせを、前記異なる候補特徴量の組み合わせから選択する、方法。
　請求項３に記載の方法であって、
　前記選択されたソーストレーニングデータセットにおいて、前記適応させる特徴量以外の特徴量に基づき、前記ターゲットテストデータセットにけるｋ最近傍のソーストレーニングデータレコードを決定し、
　前記ｋ最近傍のソーストレーニングデータレコードの前記適応させる特徴量に基づき、前記ターゲットテストデータセットにおける前記適応される特徴量の値を決定する、方法。
　請求項１に記載の方法であって、
　前記コンピュータシステムが、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間で、数値特徴量の分布間距離に基づく第１データセット距離と、カテゴリ特徴量の分布間距離に基づく第２データセット距離と、を決定し、
　前記コンピュータシステムが、前記第１データセット距離及び前記第２データセット距離に基づいて、前記複数のソースモデルから再利用するソースモデルを選択する、方法。
　請求項７に記載の方法であって、
　前記コンピュータシステムが、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間において、前記数値特徴量の正規化した値によって、前記数値特徴量の分布間距離を計算し、
　前記コンピュータシステムが、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとにおいて、前記カテゴリ特徴量それぞれの可能な値の出現率による表現を生成し、前記表現間の距離により前記カテゴリ特徴量の分布間距離を計算する、方法。
　請求項１に記載の方法であって、
　前記コンピュータシステムが、最小のデータセット距離のソーストレーニングデータセットに対応するソースモデルを、前記再利用するモデルと決定する、方法。
　コンピュータシステムであって、
　１以上のプロセッサと、
　１以上の記憶装置と、を含み、
　前記１以上の記憶装置は、
　それぞれ複数のソーストレーニングデータレコードからなる、複数のソーストレーニングデータセットと、
　前記複数のソーストレーニングデータセットそれぞれから生成された、複数のソースモデルと、
　複数のターゲットトレーニングデータレコードからなる、ターゲットトレーニングデータセットと、
　複数のターゲットテストデータレコードからなる、ターゲットテストデータセットと、を格納し、
　前記１以上のプロセッサは、
　前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間で、特徴量それぞれの分布間距離を計算し、
　前記分布間距離に基づいて、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間の、データセット距離を決定し、
　前記データセット距離に基づいて、前記複数のソースモデルから、再利用するソースモデルを選択し、
　前記再利用するソースモデルを使用して、前記ターゲットテストデータセットの予測を実行する、コンピュータシステム。
　請求項１０に記載のコンピュータシステムであって、
　前記１以上のプロセッサは、前記特徴量それぞれに付与されている重みと前記分布間距離とに基づいて、前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間の前記データセット距離を計算する、コンピュータシステム。
　請求項１０に記載のコンピュータシステムであって、
　前記１以上のプロセッサは、
　前記ターゲットテストデータセットにおいて、前記分布間距離に基づき選択した前記特徴量の一部を適応させ、
　前記再利用するソースモデルを使用して、適応させた前記ターゲットテストデータセットの予測を実行する、コンピュータシステム。
　請求項１０に記載のコンピュータシステムであって、
　前記１以上のプロセッサは、
　前記複数のソーストレーニングデータセットの各ソーストレーニングデータセットと前記ターゲットトレーニングデータセットとの間で、数値特徴量の分布間距離に基づく第１データセット距離と、カテゴリ特徴量の分布間距離に基づく第２データセット距離と、を決定し、
　前記第１データセット距離及び前記第２データセット距離に基づいて、前記複数のソースモデルから再利用するソースモデルを選択する、コンピュータシステム。
　請求項１０に記載のコンピュータシステムであって、
　前記１以上のプロセッサは、最小のデータセット距離のソーストレーニングデータセットに対応するソースモデルを、前記再利用するモデルと決定する、コンピュータシステム。