WO2019215904A1

WO2019215904A1 - 予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体

Info

Publication number: WO2019215904A1
Application number: PCT/JP2018/018244
Authority: WO
Inventors: 雅人石井; 高志竹之内; 将杉山
Original assignee: 日本電気株式会社
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2019-11-14
Also published as: JP6955233B2; JPWO2019215904A1; US20210019636A1

Abstract

予測モデル作成装置は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する算出手段と；ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれているサンプル及びラベルとの関連性を算出することによって作成する作成手段と；を備える。

Description

予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体

本発明は予測モデル作成装置、予測モデル作成方法、および予測モデル作成プログラム記録媒体に関し、特に、ターゲットドメインのデータが全く得られない場合でも適切かつ効率的なデータ変換を実現するデータ変換装置を含む予測モデル作成装置に関する。

パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。

パターン認識を実現するために機械学習が広く利用されている。代表的な機械学習である教師あり学習では、認識結果を示すラベルが付与されたパターン（学習データ）を事前に収集し、パターンとラベルの関係を予測モデルに基づいて学習する。なお、学習データは訓練データとも呼ばれる。学習した予測モデルを、ラベルの付いていない認識すべきパターン（テストデータ）に適用することで、パターン認識の結果を示すラベルを得る。

多くの機械学習手法では、学習データの確率分布とテストデータの確率分布とが一致していることを仮定している。以下では、確率分布を単に分布とも呼ぶ。したがって、学習データとテストデータとで分布が異なっていると、異なりの度合に応じてパターン認識の性能が低下してしまう。なお、このような学習データとテストデータとが異なる分布に従う状況は共変量シフト（Covariate Shift）と呼ばれている。共変量シフトの状況では、テストデータのラベルをより高い精度で予測するのは難しい。学習データとテストデータとの間で分布が異なる原因は、ラベル情報以外の属性情報がデータの分布に影響を与えているためである。なお、属性情報は、ドメインに関して得られた情報（データ、サンプル）に影響を与える要因を表す情報である。

例えば、画像から顔検出を行う例を考える。この例の場合、向かって右から強い照明を受けたシーンの画像と、左から強い照明を受けたシーンの画像とでは、顔画像や非顔画像の見た目が大きく異なる。これにより、顔画像・非顔画像のデータの分布は、顔／非顔というラベル情報以外の「照明条件」という属性情報によって変化してしまう。この他にも、「撮影角度」、「撮影したカメラの特性」、「人物の年齢・性別・人種」など、ラベル情報以外にデータの分布に影響を与える属性情報は多く存在する。そのため、全ての属性情報について学習データとテストデータとで分布を合わせることは難しく、結果として学習データとテストデータとで分布が異なる要因となる。

ターゲットドメインにおける属性情報の分布が得られているとする。ターゲットドメインは、予測をする対象であるドメインを表す。なお、ソースドメインは、あるドメインを表す。以下では、ターゲットドメインのデータを「ターゲットデータ」とも呼び、ソースドメインのデータを「ソースデータ」とも呼ぶ。ソースデータは学習データ（訓練データ）に対応し、ターゲットデータはテストデータに対応する。この場合、機械学習手法としては、属性情報の分布に基づいてソースデータの重要度を算出し、重要度に応じてターゲットデータに重みづけする方法が一般的に良く用いられる。例えば顔画像の例では、「ソースドメインでは20-30才の人の割合が低いが、ターゲットドメインでは20-30才の人の割合が高い」という情報が得られているとする。この場合、ソースドメインの20-30才のデータは重要度が高いと考えられるため、ソースデータに対して大きな重みで重みづけを行う。

上で述べた属性情報の分布に基づくデータの変換は、属性ごとに重要度が決まるため、同じ属性を持つデータは同じ重みとなる。一方で、ターゲットデータが十分に得られている場合には、データごとに異なる重みをかけることで分布のずれを正確に補正する技術としてドメイン適応を用いることができる（例えば、特許文献１、非特許文献１参照）。ドメイン適応は、分布がずれている複数のデータに対し、それらのデータの分布が十分に近くなるように変換を行う技術である。なお、特許文献１では、訓練データ（学習データ；ソースデータ）とテストデータ（ターゲットデータ）との生成確率の比のことを重要度と呼んでいる。

図１は、２つのドメインデータを用いてドメイン適応を行う例を示す図である。図１は、「ドメイン１のデータ」と「ドメイン２のデータ」とに対して、ドメイン適応を行って、「変換後のドメイン１のデータ」と「変換後のドメイン２のデータ」とを得る例を示している。学習データ（ソースデータ）とテストデータ（ターゲットデータ）とを用いて事前にドメイン適応を行うことで、機械学習を行う前に両者のデータの分布を合わせ、分布のずれに起因する機械学習の性能劣化を軽減できることが知られている。

特開2010-92266号公報

B. Gong, Y. Shi, F. Sha, and K. Grauman, "Geodesic Flow Kernel for Unsupervised Domain Adaptation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012 H. Shimodaira,"Improving predictive inference under covariate shift by weighting the log-likelihood function," Journal of statistical planning and inference, 90(2), 2000

属性情報の分布に基づいてソースデータを重みづけする方法では、属性情報のみでソースデータの重要度を算出しており、同じ属性内でのソースデータの分布の違いを考慮していない。そのため、データを効率的に適応させることができないという問題がある。

例えば顔画像の例で属性情報として人物の年齢を仮定する。この場合、ターゲットドメインに多く含まれる年齢から少しでも異なる年齢のソースデータの重要度は低くなる。ここで、ソースデータとして、実際の年齢が異なるが見た目の年齢はターゲットドメインに近いデータがあったとする。このようなソースデータは画像として見た場合にはターゲットドメインに近いデータであるため、重要度は高くなるべきである。しかし、実際には年齢が異なるために重要度が低く算出されてしまい、適応させるデータの数が減るため、効率的ではない。

なお、特許文献１では、データそのものの分布のみを考慮に入れており、データの属性情報の分布については何ら考慮していない。

　［発明の目的］
本発明の主たる目的は、ターゲットデータが得られていない場合であっても、ターゲットドメインについての予測モデルを作成する装置等を提供することである。

本発明の１つの形態として、予測モデル作成装置は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する算出手段と；前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手段と；を備える。

本発明の他の形態として、予測モデル作成方法は、情報処理装置によって、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出し；前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する。

本発明の他の形態として、予測モデル作成プログラム記録媒体は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する算出手順と；前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手順と；をコンピュータに実行させる予測モデル作成プログラムを記録する。

本発明によれば、ターゲットデータが得られていない場合であっても、ターゲットドメインについての予測モデルを作成することができる。

２つのドメインデータを用いてドメイン適応を行う例を示す図である。本発明の第１の実施形態に係る予測モデル作成装置１００のハードウェア構成を示すブロック図である。本発明の第２の実施形態に係るデータ変換装置２００の構成を示すブロック図である。図３に示した変換パラメータ算出部の動作のフローを示すフローチャートである。

本発明の理解を容易にするために、本発明における仮定と効果についての概略を説明する。

本発明の各実施形態では、ターゲットドメインについて、ターゲットデータは得られていないが、属性情報（例えば撮影角度や照明条件など）について情報（例えば確率分布）が得られていると仮定する。各実施形態における属性情報とは、ドメインの違いによって生じるデータの差異の要因に関連している情報（たとえば、値）である。例えば、該属性情報としては、データの取得状況に関する情報（例えば撮影角度や照明条件など）や、認識対象自身の属性（例えば顔画像の例であれば、性別、人種、年齢など）などが考えられる。つまり、各実施形態では、ドメイン間のデータの分布の違いが、ドメイン間の属性情報の分布の違いに関連していると仮定する。例えば撮影角度を属性情報とする例では、ソースドメインにおける撮影角度とターゲットドメインにおける撮影角度が異なり、この違いがドメイン間のデータの分布の違いの一因となっている、という情報が得られていると仮定している。
　以降の説明においては、説明の便宜上、分布という言葉を用いて、予測モデル作成装置等における処理について説明する。しかし、分布は、必ずしも、数学的な確率分布でなくともよく、ドメインにおける属性を表す情報と、属性が当該情報である場合における当該ドメインのデータとが関連付けされていればよい。また、分布は、当該関連付けされたデータに基づき求められる関連性を表すデータであってもよい。たとえば、属性が、照明条件である場合に、分布は、照明が明るくなるにつれデータ（たとえば、画像）における明度が増すという関連性を表していてもよい。分布は、たとえば、図４に例示されているように、当該関連性が、条件付き確率を用いて表されていてもよい。

ターゲットデータが得られない場合、ターゲットデータの分布が推定できないため、ソースデータおよびターゲットデータの分布をドメイン間で直接合わせることはできない。すなわち、上記特許文献１の手法を採用することができない。しかしながら、各実施形態では、属性情報を新たに導入し、この属性情報を介することでターゲットデータの分布を推定する。すなわち、本発明では、各データにおける属性の分布の推定と、各属性におけるドメインの分布の推定との２段階の推定を行い、それぞれの推定結果を統合する。これにより、間接的に各データにおけるドメインの分布、すなわち、あるデータに対して発生確率がドメイン間でどれだけずれているかを推定し、このずれを補正するような変換パラメータを算出することができる。また、本発明はソースデータの分布を考慮しており、一般に同じ属性を持つソースデータに対しても異なる重みづけが行われるため、属性情報のみを用いてソースデータの重みづけを行う方法よりもデータを効率的に適応できる。

以下、本発明の実施の形態について図面を参照して説明する。

図２は、本発明の第１の実施形態に係る予測モデル作成装置１００のハードウェア構成を示すブロック図である。図示の予測モデル作成装置１００は、プログラム制御により動作するデータ処理装置１０と、プログラム２１や後述するデータを記憶する記憶装置２０とを備える。

予測モデル作成装置１００には、データを入力する入力装置３０と、データを出力する出力装置４０とが接続される。

図示の予測モデル作成装置１００は、ソースドメインのデータ（ソースデータ）と、ソースドメインの属性情報の第１の分布と、ターゲットドメインの属性情報の第２の分布とから、後述のようにターゲットドメインに関する予測モデルを作成する装置である。

入力装置３０は、例えば、キーボードやマウス等からなる。出力装置４０は、ＬＣＤ（Liquid Crystal Display）やＰＤＰ（Plasma Display Panel）などの表示装置やプリンタからなる。出力装置４０は、データ処理装置１０からの指示に応じて、操作メニューなどの各種情報を表示したり、最終結果を印字出力する機能を有する。

記憶装置２０は、ハードディスクやリードオンリメモリ（ＲＯＭ）およびランダムアクセスメモリ（ＲＡＭ）などのメモリからなる。記憶装置２０は、データ処理装置１０における各種処理に必要な処理情報(後述する)やプログラム２１を記憶する機能を有する。

データ処理装置１０は、ＭＰＵ（micro processing unit）などのマイクロプロセッサや中央処理装置（ＣＰＵ）からなる。データ処理装置１０は、記憶装置２０からプログラム２１を読み込んで、プログラム２１に従ってデータを処理する各種処理部を実現する機能を有する。

データ処理装置１０で実現される主な処理部は、重要度算出部１１と、モデル作成部１２とを有する。

重要度算出部１１は、後述するように、重要度を算出する。モデル作成部１２は、後述するように、ターゲットドメインに関する予測モデルを作成する。

記憶装置２０は、上記プログラム２１に加えて、データ記憶部２２と、モデル記憶部２３とを備える。データ記憶部２２は、入力装置３０から入力された、上記ソースデータ、上記第１の分布、および上記第２の分布と、重要度算出部１１が算出した重要度とを記憶する。モデル記憶部２３は、モデル作成部１２が作成した予測モデルを記憶する。

重要度算出部１１は、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象（属性情報）がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する。なお、可能性は、たとえば、分布（確率分布）を意味し、重要度はドメイン間のデータ分布のずれを意味する。可能性は、必ずしも、数学的な確率分布である必要はなく、確率分布に類する分布であればよい。モデル作成部１２は、ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれているサンプル及びラベルとの関連性を算出することによって作成する。

予測モデルは、ソースデータを変換して得られたデータ（変換したデータ）を学習データとして用いることによって作成される、ターゲットドメインに関するモデルである。上述したように、重要度はドメイン間のデータ分布のずれを示す変換パラメータに対応する。従って、予測モデル作成装置１００の重要度算出部１１は、後述する変換パラメータ算出部に対応する。よって、予測モデル作成装置１００の変換パラメータ算出部において算出された変換パラメータを使用することにより、ターゲットデータが得られなくとも、ソースデータを効率的にターゲットデータの分布に近いデータに変換することが可能となる。

尚、予測モデル作成装置１００の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭ（random access memory）に予測モデル作成プログラムが展開され、該予測モデル作成プログラムに基づいて制御部（ＣＰＵ（central processing unit））等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該予測モデル作成プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録された予測モデル作成プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記第１の実施形態を別の表現で説明すれば、予測モデル作成装置１００として動作させるコンピュータを、ＲＡＭに展開された予測モデル作成プログラムに基づき、重要度算出部１１およびモデル作成部１２として動作させることで実現することが可能である。

次に、予測モデル作成装置１００の重要度算出部１１を変換パラメータ算出部２１０として用いた、本発明の第２の実施形態に係るデータ変換装置２００について説明する。

[構成の説明]
図３は、本発明の第２の実施形態に係るデータ変換装置２００の構成を示すブロック図である。

データ変換装置２００には、入力装置３０と出力装置４０とが接続されている。入力装置３０は、ソースドメインデータ入力部３２と、ソースドメイン属性入力部３４と、ターゲットドメイン属性入力部３６とを備える。

ソースドメインデータ入力部３２は、図３に示すように、ソースドメインのデータ（ソースデータ）を受け付ける。ソースドメインは、あるドメインを表す。たとえば、画像から顔を検出する例において、ソースドメインは、たとえば、ある撮像装置によって撮像された動画像データを表す。ソースドメインは、複数のドメインであってもよい。

ソースドメイン属性入力部３４は、ソースドメインの属性情報（たとえば、当該属性情報に関する第１の分布）を受け付ける。属性情報は、ドメインに関して得られた情報（データ、サンプル）に影響を与える要因を表す情報である。属性情報は、たとえば、ドメインの性質（特質、特徴）等を表す情報、または、当該ドメインに関する情報の性質（特質、特徴）を表す情報等である。たとえば、画像から顔を検出する例において、属性情報は、たとえば、当該撮像装置が設置されている高さ、当該撮像装置が撮像している角度、当該撮像装置の特性等の情報である。属性情報は、たとえば、当該撮像装置によって撮像された対象（人物）の年齢、性別、人種等を表す情報であってもよい。

ターゲットドメイン属性入力部３６は、ターゲットドメインの属性情報（たとえば、当該属性情報に関する第２の分布）を受け付ける。ターゲットドメインは、予測をする対象であるドメインを表す。ターゲットドメインは、たとえば、当該ある撮像装置とは異なる撮像装置によって撮像された動画像データを表す。

データ変換装置２００は、上記変換パラメータ算出部２１０と、データ変換部２２０とから成る。

変換パラメータ算出部２１０は、ソースデータとソースドメインの属性情報の第１の分布およびターゲットドメインの属性情報の第２の分布を用いて、後述するようにデータの変換パラメータを推定する。データ変換部２２０は、算出した変換パラメータを用いて、ソースデータをターゲットデータの分布に近い（または、一致している）データに変換して出力する。

詳述すると、変換パラメータ算出部２１０は、ソースドメインに関する属性情報の第１の分布と、ターゲットドメインに関する属性情報の第２の分布との間の関連性を求め、当該関連性に基づき、当該ソースデータを、当該ターゲットデータの分布に近いデータに変換する際の規則を表す変換パラメータを算出する。

データ変換部２２０は、変換パラメータ算出部２１０によって算出された変換パラメータによって表される規則を、当該ソースデータに適用することによって、当該ターゲットデータの分布に近い（または、一致している）データを作成する。

また、変換パラメータ算出部２１０は、データ内属性分布推定部２１２と、属性内ドメイン分布推定部２１４と、ドメイン適応部２１６とを備える。

データ内属性分布推定部２１２は、ソースデータとソースドメインの属性情報の第１の分布とに基づいて、各ソースデータにおける属性の分布を推定する。属性内ドメイン分布推定部２１４は、ソースドメインの属性情報（たとえば、第１の分布）とターゲットドメインの属性情報（たとえば、第２の分布）とに基づいて、各属性におけるドメインの分布を推定する。ドメイン適応部２１６は、推定された各ソースデータにおける属性の分布と各属性におけるドメインの分布とに基づいて、各ターゲットデータにおけるドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるようにデータを変換するための変換パラメータを算出する。

次に、図２に図示した予測モデル作成装置１００と図３に図示したデータ変換装置２００との間の関係について説明する。前述したように、予測モデル作成装置１００の重要度算出部１１は、変換パラメータ算出部２１０に対応する。予測モデル作成装置１００のモデル作成部１２は、データ変換部２２０と図示しない機械学習部との組み合わせに対応する。機械学習部には、データ変換部２２０によって変換されたデータが、学習データとして供給される。機械学習部は、学習データを用いて、所定の学習手法に従って、予測モデルの学習を行う。所定の学習手法は、たとえば、ニューラルネット、サポートベクターマシン等の手法である。

このような構成のデータ変換装置２００によれば、ソースデータの分布がターゲットデータの分布に近くなるようにデータを変換する場合に、ターゲットデータが全く得られない場合でも適切かつ効率的なデータ変換を実現することができる。

尚、データ変換装置２００の各部は、ハードウェアとソフトウェアとの組み合わせを用いて実現すればよい。ハードウェアとソフトウェアとを組み合わせた形態では、ＲＡＭ（random access memory）にデータ変換プログラムが展開され、該データ変換プログラムに基づいて制御部（ＣＰＵ（central processing unit））等のハードウェアを動作させることによって、各部を各種手段として実現する。また、該データ変換プログラムは、記録媒体に記録されて頒布されても良い。当該記録媒体に記録されたデータ変換プログラムは、有線、無線、又は記録媒体そのものを介して、メモリに読込まれ、制御部等を動作させる。尚、記録媒体を例示すれば、オプティカルディスクや磁気ディスク、半導体メモリ装置、ハードディスクなどが挙げられる。

上記第２の実施形態を別の表現で説明すれば、データ変換装置２００として動作させるコンピュータを、ＲＡＭに展開されたデータ変換プログラムに基づき、変換パラメータ算出部２１０およびデータ変換部２２０として動作させることで実現することが可能である。

具体的な実施例を用いて本発明を実施するための形態の動作を説明する。以下では、データをx、属性情報をz、ドメイン情報をdと表記する。また、ドメイン情報は、ソースドメイン、または、ターゲットドメインのいずれかを表し、それぞれ「d=S」、「d=T」と表す。データが持つ属性はC個のカテゴリのいずれかであるとし、どのカテゴリに属するかを1～Cの整数で表記する。

ソースドメインデータ入力部３２とソースドメイン属性入力部３４では、それぞれソースドメインのデータと属性情報（たとえば、第１の分布）が入力される。すなわち、ソースドメインデータ入力部３２とソースドメイン属性入力部３４は、ソースドメインに関する情報（データ）と、当該情報（データ）に影響を与えた第１の可能性がある要因を表す属性情報（たとえば、第１の分布）とを入力する。本実施例では、ソースドメインに関して、(x,z)というデータの組がN個入力されたとする。

ターゲットドメイン属性入力部３６では、ターゲットドメインの属性情報（たとえば、第２の分布）が入力される。本実施例では、ターゲットドメインに関して、第２の分布として属性情報の確率分布が入力されたとする。すなわち、ターゲットドメイン属性入力部３６は、ターゲットドメインにて、ある要因が生じる第２の可能性を表す情報を入力する。すなわち、ドメインがターゲットである条件下でのzの条件付き確率分布p(z|d=T)が与えられたとする。

変換パラメータ算出部２１０では、データの変換パラメータを算出する。

図４は、変換パラメータ算出部２１０の動作のフローを示すフローチャートである。本実施例では、ドメイン適応の代表的な手法として知られる共分散シフト下におけるサンプル重みづけを用いる（非特許文献２参照）。この手法では、ソースデータに対してサンプルごとに重みづけを行うことでターゲットドメインに関する予測モデルを作成する際の基である学習データを作成するため、変換パラメータ算出部２１０ではサンプルごとの重みを算出する。したがって、作成されたデータは、ターゲットドメインに関する予測モデルの基である学習データである。変換パラメータ算出部２１０は、図３に示されるように、データ内属性分布推定部２１２と属性内ドメイン分布推定部２１４とドメイン適応部２１６とから成り、以降でそれぞれの動作を説明する。

データ内属性分布推定部２１２では、ソースドメインの(x,z)の組から各ソースデータにおける属性の第１の分布、すなわち、あるソースデータxが与えられた場合の属性の事後確率p(z|x)を推定する。すなわち、データ内属性分布推定部２１２は、ソースドメインに関して得られた情報（データ）に関して、ある要因が当該情報（データ）に影響を与えた第１の可能性を表す情報を作成する。当該ある要因は、属性情報にふくまれている各要因であってもよい。この場合に、データ内属性分布推定部２１２は、当該情報（データ）に関して、当該要因が影響を与えた第１の可能性を、各要因について算出する。例えばk近傍法を用いると、以下の数１で示すように、xの近傍にあるk個のデータkNN(x)に対応するzを参照し、k個の内の比率からp(z|x)を推定する。

ここではk近傍法を用いたが、一般に事後確率を推定する方法であればどのような方法を用いてもよい。

属性内ドメイン分布推定部２１４では、ソースドメインの属性情報の第１の分布とターゲットドメインの属性情報の第２の分布とに基づいて、各ドメインにおける属性の分布、すなわち、属性情報zが与えられた場合のドメインの事後確率p(d|z)を推定する。すなわち、属性内ドメイン分布推定部２１４は、ある属性情報に対して、当該ある属性情報が、いずれのドメインに関する属性情報であるかの可能性を表す情報を推定する。ここで、ドメインの事前分布として一様分布（すなわち、p(d=S)＝p(d=T)）を仮定し、以下の数２で示すようにベイズの定理を用いると、p(d|z)を推定するためにはp(z|d)を推定すれば良い。

尚、上記では、p(d=S)＝p(d=T)を仮定したが、一般にp(d=S)とp(d=T)とが異なっていても問題はない。

ソースドメインに関しては、データと属性の組が得られているため、各属性に対応するデータの個数を数え、その全体に対する割合でp(z|d=S)を推定できる。一方、ターゲットドメインに関しては、ターゲットドメイン属性入力部３６から得られたp(z|d=T)をそのまま用いる。すなわち、属性内ドメイン分布推定部２１４は、ドメインにてある要因が生じる可能性を表す情報を用いて、上述した処理を行うことによって、ある情報が、いずれのドメインに生じた要因であるかについての可能性を表す情報を推定する。

ドメイン適応部２１６では、データ内属性分布推定部２１２で推定されたp(z|x)と属性内ドメイン分布推定部２１４で推定されたp(d|z)とに基づいてドメイン適応を行い、データの変換パラメータを得る。本実施例で用いる共変量シフト下におけるサンプル重みづけでは、ソースデータに以下の数３で示すようなw(x)でサンプルごとに重みづけを行うことで、データ変換部２２０が、ソースデータをターゲットデータの分布に近いデータに変換することが可能となる。

したがって、変換パラメータはサンプルごとの重みw(x)であり、ドメイン適応部２１６では重みw(x)を推定する。この重みw(x)は、上記重要度に相当する。

すなわち、ドメイン適応部２１６は、ソースドメインに関してサンプル（データ、情報）xが得られる第１の可能性の、ターゲットドメインに関してサンプル（データ、情報）xが得られる第２の可能性に対する比を、当該サンプルxの重みとして算出する。すなわち、ドメイン適応部２１６は、サンプル（データ、情報）xがターゲットドメインにて得られた情報である第２の可能性が高いほど大きな値を持つ重みを算出し、当該第２の可能性が低いほど小さな値を持つ重みを算出する。換言すれば、ソースドメインでは低いけどターゲットドメインでは高いと、重みは大きな値となり、ソースドメインでは高いけどターゲットドメインでは低いと、重みは小さな値となる。

したがって、ドメイン適応部２１６は、サンプルxがターゲットドメインに関して得られた情報（データ）である第２の可能性が高いデータほど、当該ターゲットドメインに関する予測モデルを作成する際に重要なデータであると判定する。その一方で、ドメイン適応部２１６は、サンプルxがターゲットドメインに関して得られた情報（データ）である第２の可能性が低いデータほど、当該ターゲットドメインに関する予測モデルを作成する際に重要なデータでないと判定する。

ここで、ドメインの事前分布として一様分布（すなわち、p(d=S)=p(d=T)）を仮定し、ベイズの定理を用いると、上式の重みは以下の数４の様にも得られる。

　ただし、分布は、一様分布でなくもよい。

ターゲットデータが得られないため、本来はp(d=T|x)を推定できないが、本発明の実施例では第１および第２の属性情報を介してこれを推定するため、以下の数５の様にp(d|x)を近似する。

データ変換部２２０では、ドメイン適応部２１６で算出された変換パラメータを用いて、ソースデータをターゲットデータの分布に近いデータに変換して出力する。本実施例では、ソースデータに対してサンプルごとの重みw(x)で重みづけを行い、重みづけされたデータを出力する。

モデル作成部１２（図２）の機械学習部は、重み付けされたデータ（変換後のデータ）を入力し、入力したデータにおいて、説明変数と、ラベルとの関連性を表す予測モデルを作成する。すなわち、機械学習部において、上述したように処理に基づき算出されたデータ（変換後のデータ）は、ターゲットドメインに関する学習データとして用いられる。

上述した例においては、重みとして比を用いる例を参照しながら説明したが、比でなく差等であってもよい。したがって、重みは、サンプルxがターゲットドメインに関する情報(データ)である第２の可能性が高いほど重く、サンプルxがターゲットドメインに関する情報（データ）である第２の可能性が低いほど軽いことを示す情報であればよい。すなわち、重みは、上述した例に限定されない。

本発明は、画像処理や音声処理に用いられるパターン認識器の学習において、特定の環境で収集した学習用データセットを別の環境で効果的に流用できるようにデータを変換する用途に利用可能である。

１０　　データ処理装置
１１　　重要度算出部
１２　　モデル作成部
２０　　記憶装置
２１　　プログラム
２２　　データ記憶部
２３　　モデル記憶部
３０　　入力装置
３２　　ソースドメインデータ入力部
３４　　ソースドメイン属性入力部
３６　　ターゲットドメイン属性入力部
４０　　出力装置
１００　　予測モデル作成装置
２００　　データ変換装置
２１０　　変換パラメータ算出部
２１２　　データ内属性分布推定部
２１４　　属性内ドメイン分布推定部
２１６　　ドメイン適応部
２２０　　データ変換部

Claims

サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する算出手段と、
前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手段と、
を備える予測モデル作成装置。
前記算出手段は、
前記ソースドメインのソースデータと前記ソースドメインの属性情報の第１の分布とに基づいて、各ソースデータにおける属性の分布を推定するデータ内属性分布推定部と、
前記ソースドメインの属性情報の前記第１の分布と前記ターゲットドメインの属性情報の第２の分布とに基づいて、各属性におけるドメインの分布を推定する属性内ドメイン分布推定部と、
前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出するドメイン適応部とを備える、
請求項１に記載の予測モデル作成装置。
前記ドメイン適応部は、データの変換方法としてサンプル重みづけを行う、請求項２に記載の予測モデル作成装置。
情報処理装置によって、サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出し、
前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する、
予測モデル作成方法。
前記算出することは、
前記ソースドメインのソースデータと前記ソースドメインの属性情報の第１の分布とに基づいて、各ソースデータにおける属性の分布を推定し、
前記ソースドメインの属性情報の前記第１の分布と前記ターゲットドメインの属性情報の第２の分布とに基づいて、各属性におけるドメインの分布を推定し、
前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出する、
ことを含む請求項４に記載の予測モデル作成方法。
前記変換パラメータを算出することは、データの変換方法としてサンプル重みづけを行う、請求項５に記載の予測モデル作成方法。
サンプルとラベルとが関連付けされたデータにおいて、当該サンプルに影響を及ぼす事象がソースドメインにて生じる第１の可能性と、当該事象がターゲットドメインにて生じる第２の可能性との差異に応じた重要度を算出する算出手順と、
前記ターゲットドメインに関する予測モデルを、当該重要度を加味したデータに含まれている前記サンプル及び前記ラベルとの関連性を算出することによって作成する作成手順と、
をコンピュータに実行させる予測モデル作成プログラムを記録した記録媒体。
前記算出手順は、前記コンピュータに、
前記ソースドメインのソースデータと前記ソースドメインの属性情報の第１の分布とに基づいて、各ソースデータにおける属性の分布を推定するデータ内属性分布推定手順と、
前記ソースドメインの属性情報の前記第１の分布と前記ターゲットドメインの属性情報の第２の分布とに基づいて、各属性におけるドメインの分布を推定する属性内ドメイン分布推定手順と、
前記推定された各ソースデータにおける属性の分布と、前記各属性におけるドメインの分布とに基づいて、各ターゲットデータにおける前記ターゲットドメインの分布を推定し、ドメイン間でデータ分布の類似性が高くなるように、前記重要度として前記ソースデータを変換するための変換パラメータを算出するドメイン適応手順と、
を実行させる、請求項７に記載の記録媒体。
前記ドメイン適応手順は、データの変換方法としてサンプル重みづけを行う、請求項８に記載の記録媒体。