WO2023189737A1

WO2023189737A1 - 情報処理方法、情報処理装置及びプログラム

Info

Publication number: WO2023189737A1
Application number: PCT/JP2023/010627
Authority: WO
Inventors: 政寛佐藤; 友紀谷口; 智子大熊
Original assignee: 富士フイルム株式会社
Priority date: 2022-03-28
Filing date: 2023-03-17
Publication date: 2023-10-05

Abstract

異なるドメインのユーザー行動履歴のデータセットの生成が実現される、情報処理方法、情報処理装置及びプログラムを提供する。情報処理方法は、１つのドメインにおける、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、分割データセットを生成する。

Description

情報処理方法、情報処理装置及びプログラム

　本発明は情報処理方法、情報処理装置及びプログラムに関する。

　多くのアイテムの中からユーザーが自分に合ったベストなものを選ぶことは、時間的にも認知能力的にも難しい。例えば、ＥＣサイトのユーザーであれば、アイテムはＥＣサイトで扱っている商品であり、文書情報管理システムのユーザーであればアイテムは格納されている文書情報である。

　非特許文献１及び非特許文献２には、ユーザの選択の補助を目的として、アイテムの中から選択候補を提示する技術である情報推薦技術に関する研究について記載されている。なお、ＥＣサイトのＥＣはElectronic Commerceの省略語である。

　一般に、情報推薦システムは導入先の施設で収集したデータを基に学習する。しかし、学習データと異なる施設に情報推薦システムを導入すると、モデルの予測精度が低下してしまう問題がある。未知の他施設では機械学習モデルがうまく機能しない問題はドメインシフトと呼ばれ、非特許文献３及び非特許文献４に記載されるように、ドメインシフトに対するロバスト性向上の研究であるdomain generalizationが、近年、画像認識を中心に研究が活発化している。

Domain generalizationの学習及び評価において、複数ドメインのデータセットは必須であり、ドメイン数は多い方がよい。多くのドメインのデータを集めるのは困難であるか又は高コストであることが多いため、異なるドメインのデータを生成する技術が求められる。

非特許文献５は、深層学習を用いたデータ生成手法の１つである、ＣＧＡＮと称されるConditional Generative Adversarial Networkを用いて、情報推薦技術に必要なユーザ行動履歴を疑似的に生成する技術が記載される。

非特許文献６は、異なるドメインのデータを生成する技術が記載される。具体的には、同文献では、ソースドメインのデータを異なる疑似ドメインのデータに変換する生成器を提案している。同文献に記載の生成器は、ソースドメインとのデータの確率分布の距離が遠くなる疑似ドメインを生成している。

　特許文献１は、ユーザを複数のグループに分割し、各グループの連合学習を適用して、サービスに適用する予測モデルを多重モデルとして生成する多重モデル提供方法が記載される。

　特許文献２は、ユーザ属性及びディリクレ過程を用いてユーザをグループ分けし、グループ毎に予測モデルを生成する情報処理装置が記載される。同文献に記載の装置は、生成された予測モデルから、ユーザに適合する予測モデルを選択している。

　特許文献３は、医療施設向けＡＩの学習データを、属性情報などを基に選別する医療診断装置が記載される。同文献に記載の装置は、属性の偏りが少くなる選別、学習済みＡＩを使用する施設のテストデータと属性分布が近くなる選別を実施する。なお、ＡＩはArtificial Intelligenceの省略語である。

特開２０２１－１９７１８１号公報特開２０１６－０６２５０９号公報特開２０２１－０８６５５８号公報

Dietmar Jannach、Markus Zanker、Alexander Felfernig、Gerhard Friedrich著、田中克己、角谷和俊訳「情報推薦システム入門－理論と実践‐」共立出版、2012年 Deepak K. Agarwal, Bee-Chung Chen著「推薦システム：統計的機械学習の理論と実践」共立出版、２０１８年 Jindong Wang1、Cuiling Lan1、Chang Liu1、Yidong Ouyang2、Tao Qin著"Generalizing to Unseen Domains: A Survey on Domain Generalization"Microsoft Research, Beijing, China、2021年 Kaiyang Zhou、Ziwei Liu、Yu Qiao、Tao Xiang、Chen Change Loy著"Domain Generalization in Vision: A Survey"Central University of Finance and Economics, Beijing, China、2021年 Wang, Qinyong、Yin, Hongzhi、Wang, Hao、Nguyen, Quoc Viet Hung、Huang, Zi、Cui, Lizhen著"Enhancing Collaborative Filtering with Generative Augmentation"Griffith University"、2019年 Kaiyang Zhou、Yongxin Yang、Timothy Hospedales、Tao Xiang著"Learning to Generate Novel Domains for Domain Generalization"、2020年

　しかしながら、従来技術の多くはモデルの学習及び評価に使える複数ドメインのそれぞれについてデータがあることを前提としており、単一のドメインのデータしか存在ない場合は学習及び評価の実施が困難である。複数ドメインのそれぞれについてデータがある場合であっても、ドメインの数が学習及び評価に十分な数でない場合は、学習モデルの性能が低下してしまう。

　非特許文献５に記載のように、ユーザの行動履歴の生成の研究があるが、同一のドメインのデータを生成するものであり、単一のドメインのデータから複数のドメインのデータを生成するものではない。

　非特許文献６に記載のように、学習及び評価に十分な数のドメインがない場合に、単一のドメインのデータから異なるドメインのデータを生成する試みが始まっているが、十分な成果は得られていない。

　特許文献１に記載の方法は、段落［００６４］の記載及び段落［００６６］の記載から、類似した特性のユーザごとにグループに分類することを想定するものであると解釈される。単一のドメインのデータを複数のドメインのデータとして分割する場合、グループ間の相違性が重要であり、同文献に記載の方法では、適切なドメイン分割は困難である。

　特許文献２に記載の装置は、予測モデルに必要な説明変数を少なくし、予測値の計算時間を短くすることを目的としてグループ分けを実施しており、特許文献１に記載の方法と同様に、類似した特性のユーザごとのグループに分類している。一方、ドメイン分割は、グループ内のデータの類似性ではなく、グループ間の相違性が重要であり、同文献に記載の装置では、適切なドメイン分割は困難である。

　特許文献３に記載の装置は、同文献の段落［０００２］の記載及び段落［０００４］の記載からドメインの汎化ではなく、ドメイン特化型のＡＩの開発を目的としていると考えられる。同文献に記載の装置は、単一のドメインに適したモデルの構築を目指したデータの選択を行っており、選択されたデータのみではドメイン汎化のモデルの構築は困難である。また、同文献に記載の装置は、単一のデータセットを生成するものであり、複数のデータセットの生成は困難である。

　本発明はこのような事情に鑑みてなされたもので、異なるドメインのユーザー行動履歴のデータセットの生成が実現される、情報処理方法、情報処理装置及びプログラムの提供を目的とする。

　本開示に係る情報処理方法は、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理方法であって、１つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する情報処理方法である。

　本開示に係る情報処理方法によれば、１つのドメインにおけるデータセットから、疑似的な異なるドメインのデータセットを生成し得る。

　他の態様に係る情報処理方法において、説明変数ごとのデータの存在確率の分布の少なくとも一部が重なるデータセット候補を生成してもよい。

　かかる態様によれば、説明変数の重なりが存在する複数のデータセットが生成される。

　他の態様に係る情報処理方法において、ドメイン候補変数として時間を適用して、データセット候補を生成してもよい。

　かかる態様によれば、時系列の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。

　他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のユーザー属性を適用して、データセット候補を生成してもよい。

　かかる態様によれば、ユーザー属性の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。

　他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のアイテム属性を適用して、データセット候補を生成してもよい。

　かかる態様によれば、アイテム属性の違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。

　他の態様に係る情報処理方法において、ドメイン候補変数として説明変数に非適用のコンテキストを適用して、データセット候補を生成してもよい。

　かかる態様によれば、コンテキストの違いがドメインの違いとされた、疑似的な異なるドメインのデータセットを生成し得る。

　他の態様に係る情報処理方法において、説明変数と目的変数との１つ以上の確率分布の違いに基づき、異なるドメインにおけるデータセットであるか否かを判定してもよい。

　他の態様に係る情報処理方法において、複数のデータセット候補のいずれかを用いて学習をして生成される学習済みモデルを生成し、複数のデータセット候補のうち、第１データセット候補の範囲において学習済みモデルの性能を評価し、第１データセット候補と異なる第２データセット候補の範囲において学習済みモデルの性能を評価し、第１データセット候補に対応する学習済みモデルの性能と、第２データセット候補に対応する学習済みモデルの性能との性能差に基づいて、異なるドメインにおけるデータセットであるか否かを判定してもよい。

　かかる態様によれば、ドメイン候補変数のそれぞれに対応する学習モデルの性能差に基づき、異なるドメインにおけるデータセットであるか否かを判定し得る。

　他の態様に係る情報処理方法において、分割データセットに対して、分割データセットのいずれか１つのみに各ユーザー又は各アイテムを存在させる処理を実施してもよい。

　かかる態様によれば、システムレベルの相対的に大きなドメインシフトに対する学習及び学習済みモデルの評価を実施し得る。

　本開示に係る情報処理装置は、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理装置であって、１つ以上のプロセッサと、１つ以上のプロセッサに実行させるプログラムが記憶される１つ以上のメモリと、を備え、１つ以上のプロセッサは、プログラムの命令を実行して、１つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得し、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成し、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する情報処理装置である。

　本開示に係る情報処理装置によれば、本開示に係る情報処理方法と同様の作用効果を得ることが可能である。他の態様に係る情報処理方法の構成要件は、他の態様に係る情報処理装置の構成要件へ適用し得る。

　本開示に係るプログラムは、複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成するプログラムであって、コンピュータに、１つのドメインにおけるデータセットであり、目的変数、説明変数及び目的変数と説明変数とを除外した複数の変数が適用されるデータセットを取得する機能、目的変数と説明変数とを除外した複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択する機能、ドメイン候補変数を用いてデータセットを分割するデータセット候補を生成する機能、データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定する機能、及びデータセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、ドメイン候補変数をドメインとして、データセットをドメインごとに分割して、分割データセットを生成する機能を実現させるプログラムである。

　本開示に係るプログラムによれば、本開示に係る情報処理方法と同様の作用効果を得ることが可能である。他の態様に係る情報処理方法の構成要件は、他の態様に係るプログラムの構成要件へ適用し得る。

　本発明によれば、１つのドメインにおけるデータセットから、疑似的な異なるドメインのデータセットを生成し得る。

図１は典型的な推薦システムの概念図である。図２は推薦システムの構築に広く用いられている教師あり機械学習の例を示す概念図である。図３は推薦システムの典型的な導入フローを示す説明図である。図４は導入先の施設のデータが得られない場合における推薦システムの導入プロセスの説明図である。図５はドメイン適用によるモデルの学習を行う場合の説明図である。図６は学習済み学習モデルの性能を評価するステップを含む推薦システム導入フローの説明図である。図７は機械学習に用いる学習用データと評価用データの例を示す説明図である。図８はデータセットの違いに起因するモデルの性能の違いを模式的に示すグラフである。図９はドメイン汎化のモデル開発に必要なデータの説明図である。図１０は実施形態に係る情報処理装置のハードウェア構成の例を概略的に示すブロック図である。図１１は図１０に示す情報処理装置の機能的構成を示す機能ブロック図である。図１２は実施形態に係る情報処理方法の手順を示すフローチャートである。図１３はドメイン候補変数が用いられるデータセットの生成の模式図である。図１４は図１３に示すデータセットの生成に適用されるドメイン分割候補案生成の一例を示す模式図である。図１５は図１３に示すデータセットの生成に適用されるドメイン分割候補案生成の他の例を示す模式図である。図１６は複数のドメイン候補変数が選択される場合のデータセットの生成の模式図である。図１７はドメイン分割候補案の生成の一例を示す模式図である。図１８はドメイン分割候補案の生成の他の例を示す模式図である。図１９は図１７に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図２０は図１８に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図２１はドメイン候補変数として時間が適用されるドメイン分割候補案の生成の模式図である。図２２はドメイン候補変数としてユーザー属性が適用されるドメイン分割候補案の生成の模式図である。図２３は図２２に示すデータセットの例を示す表である。図２４は異ドメイン判定の具体例を示す模式図である。

　以下、添付図面に従って本発明の好ましい実施形態について詳説する。本明細書では、同一の構成要素には同一の参照符号を付して、重複する説明は適宜省略する。

　［情報推薦技術の概説］
　本実施形態では、推薦システムに用いるモデルの学習及び評価に用いるユーザーの行動履歴のデータに関して、異なるドメインのデータを生成する方法について説明する。はじめに、情報推薦技術の概要と複数ドメインのデータの必要性について具体例を示して概説する。情報推薦技術は、ユーザーに対してアイテムを推薦（サジェスト）するための技術である。

　図１は典型的な推薦システムの概念図である。推薦システム１０は、ユーザーの情報と、コンテキストの情報とを入力として受け付け、コンテキストに応じて当該ユーザーに推薦するアイテムの情報を出力する。コンテキストは、様々な状況を意味し、例えば、曜日、時間帯、または天気などがあり得る。アイテムは、例えば、本、動画及び飲食店など、様々な対象があり得る。

　推薦システム１０は、複数のアイテムを同時に推薦するのが一般的である。図１では、推薦システム１０が３つのアイテムＩＴ１、アイテムＩＴ２及びアイテムＩＴ３を推薦する例が示されている。推薦したアイテムＩＴ１、アイテムＩＴ２及びアイテムＩＴ３に対してユーザーがポジティブな反応をすると、一般に推薦は成功したとみなされる。ポジティブな反応とは、例えば、購入、視聴及び訪問などである。このような推薦技術は、例えば、ＥＣサイトや飲食店を紹介するグルメサイトなどにおいて広く活用されている。

　図２は推薦システムの構築に広く用いられている教師あり機械学習の例を示す概念図である。推薦システム１０は、機械学習の技術を用いて構築される。一般に、過去のユーザーの行動履歴を基に正例および負例を用意して、ユーザーとコンテキストとの組み合わせを予測モデル１２に入力し、予測誤差が小さくなるように予測モデル１２を訓練する。例えば、ユーザーが閲覧した閲覧アイテムを正例、閲覧しなかった非閲覧アイテムを負例とする。予測誤差が収束するまで機械学習が行われ、目標とする予測性能が獲得される。

　こうして訓練された学習済みの予測モデル１２を用いて、ユーザーとコンテキストの組合せに対して予測される閲覧確率が高いアイテムを推薦する。学習済みの予測モデル１２は、訓練済みの予測モデル１２と同義である。

　例えば、学習済みの予測モデル１２に対し、あるユーザーＡとコンテキストβとの組合せを入力すると、予測モデル１２は、ユーザーＡがコンテキストβの条件の下で、図１に示すアイテムＩＴ３等の文書を閲覧する確率が高いと推論し、ユーザーＡに対してアイテムＩＴ３に近いアイテムを推薦する。なお、推薦システム１０の構成によっては、コンテキストを考慮せずにユーザーに対してアイテムを推薦することも多い。

　〔推薦システムの開発に用いるデータの例〕
　ユーザーの行動履歴は、機械学習における正解データと等しいものである。厳密には、過去の行動履歴から次の行動を推論するというタスク設定と理解されるが、過去の行動履歴を基に潜在的な特徴量を学習するのが一般的である。

　ユーザーの行動履歴としては、例えば、本の購入履歴、動画の視聴履歴、または飲食店の訪問履歴などがあり得る。

　また、主要な特徴量としては、ユーザー属性と、アイテム属性とがある。ユーザー属性は、例えば、性別、年代、職業、家族構成及び居住エリアなど、様々な要素があり得る。アイテム属性は、例えば、本のジャンル、値段、動画のジャンル、長さ、飲食店のジャンル及び場所など、様々な要素があり得る。

　［モデルの構築と運用］
　図３は推薦システムの典型的な導入フローを示す説明図である。ここでは、ある施設に推薦システムを導入する際の典型的なフローを示す。推薦システムの導入は、ステップ１として、目的の推薦タスクを行うモデル１４を構築し、ステップ２として、構築したモデル１４を導入して運用する。

　モデル１４を構築するとは、機械学習モデルの場合、学習用のデータを用いてモデル１４の学習を行い、実用レベルの推薦性能を満たす予測モデルである推薦モデルを作成することを含む。モデル１４を運用するとは、例えば、ユーザーとコンテキストとの組合せの入力に対して、学習済みのモデル１４から推薦アイテムリストの出力を得ることである。

　モデル１４の構築には、学習用のデータが必要である。図３に示すように、一般に推薦システムのモデル１４は、導入先の施設で収集したデータを基に学習が行われる。導入先の施設から収集されたデータを用いて学習を行うことによりモデル１４は、導入先の施設のユーザーの振る舞いを学習し、導入先の施設のユーザーに対して精度のよい推薦アイテムの予測が可能である。

　しかし、様々な事情に起因して、導入先の施設のデータが得られない場合がある。例えば、企業の社内システムにおける文書情報推薦システム及び病院の院内システムにおける文書情報推薦システムなどの場合、推薦モデルを開発する企業が導入先の施設のデータにアクセスできないことがあり得る。導入先の施設のデータが得られない場合、代わりに、異なる施設で収集されたデータをもとに学習する必要がある。

　図４は導入先の施設のデータが得られない場合における推薦システムの導入プロセスの説明図である。導入先の施設とは異なる施設で収集されたデータを用いて学習したモデル１４を挿入先の施設で運用すると、施設間のユーザーの振る舞いの違いなどにより、モデル１４の予測精度が低下してしまう問題がある。

　学習した施設と異なる未知の他施設では機械学習モデルがうまく機能しない問題は、広義にはモデル１４を学習したソースドメインと、モデル１４を適用するターゲットドメインが異なるドメインシフトの問題に対するロバスト性を向上させるという技術課題として把握される。ドメイン汎化に関連する問題設定として、ドメイン適用がある。これはソースドメインとターゲットドメインの両方のデータを用いて学習する方法である。ターゲットドメインのデータが存在するにもかかわらず異なるドメインのデータを使う目的は、ターゲットドメインのデータ量が少なく学習に不十分であるのを補うためである。

　なお、ドメイン汎化は、英語表記を用いてDomain generalizationと称され得る。ドメイン適用は、英語表記を用いてDomain adaptationと称され得る。

　図５はドメイン適用によるモデルの学習を行う場合の説明図である。ターゲットドメインである導入先の施設で収集されたデータのデータ量は、異なる施設で収集されたデータよりもデータ量に比べて相対的に少ないものの、両方のデータを用いて学習を行うことにより、モデル１４は、導入先の施設のユーザーの振る舞いについてもある程度の精度で予測することが可能になる。

　［ドメインの説明］
　上記の施設の違いはドメインの違いの一種である。情報推薦におけるdomain adaptationの研究に関する文献であるIvan Cantador et al, Chapter 27:“Cross-domain Recommender System”では、ドメインの違いが以下の４つに分類されている。

　〔アイテム属性レベル〕
　例えば、コメディ映画とホラー映画は別ドメイン。なお、アイテム属性レベルは、英語表記を用いてItem attribute levelと称され得る。

　〔アイテムタイプレベル〕
　例えば、映画と連続テレビドラマは別ドメイン。なお、アイテムタイプレベルは、英語表記を用いてItem type levelと称され得る。

　〔アイテムレベル〕
　例えば、映画と本は別ドメイン。なお、アイテムレベルは、英語表記を用いてItem levelと称され得る。

　〔システムレベル〕
　例えば、映画館の映画とテレビ放映の映画は別ドメイン。なお、システムレベルは、英語表記を用いてSystem levelと称され得る。

　図５等に示す施設の違いは、上記の４つの分類のうちのシステムレベルのドメインに該当する。

　フォーマルにドメインを定義すると、ドメインは目的変数Ｙと説明変数Ｘの同時確率分布Ｐ（Ｘ，Ｙ）で規定され、Ｐｄ１（Ｘ，Ｙ）≠Ｐｄ２（Ｘ，Ｙ）の場合に、ｄ１とｄ２とは異なるドメインである。

　同時確率分布Ｐ（Ｘ，Ｙ）は、説明変数の分布Ｐ（Ｘ）と条件付き確率分布Ｐ（Ｙ｜Ｘ）との積、又は目的変数の分布Ｐ（Ｙ）と条件付き確率分布Ｐ（Ｙ｜Ｘ）との積で表すことができる。

　Ｐ（Ｘ，Ｙ）＝Ｐ（Ｙ｜Ｘ）Ｐ（Ｘ）＝Ｐ（Ｘ｜Ｙ）Ｐ（Ｙ）

　したがって、Ｐ（Ｘ）、Ｐ（Ｙ）、Ｐ（Ｙ｜Ｘ）及びＰ（Ｘ｜Ｙ）のうち１つ以上が変わると異なるドメインとなる。

　［ドメインシフトの典型パターン］
　〔共変量シフト〕
　説明変数の分布Ｐ（Ｘ）が異なる場合、共変量シフトと呼ばれる。例えば、データセット間でユーザー属性の分布が異なる場合、より具体的には男女比率が異なる場合などが共変量シフトに該当する。なお、共変量シフトは、英語表記を用いてCovariate shiftと称され得る。

　〔事前確率シフト〕
　目的変数の分布Ｐ（Ｙ）が異なる場合、事前確率シフトと呼ばれる。例えば、データセット間で平均閲覧率や平均購入率が異なる場合などが事前確率シフトに該当する。なお、事前確率シフトは、英語表記を用いてPrior probability shiftと称され得る。

　〔コンセプトシフト〕
　条件付き確率分布Ｐ（Ｙ｜Ｘ）及びＰ（Ｘ｜Ｙ）が異なる場合、コンセプトシフトと呼ばれる。例えば、ある企業の研究開発部門がデータ分析資料を読む確率がＰ（Ｙ｜Ｘ）にあたるが、これがデータセット間で異なる場合などがコンセプトシフトに該当する。なお、コンセプトシフトは、英語表記を用いてConcept shiftと称され得る。

　ドメイン適応あるいはドメイン汎化性の研究は、上記いずれかのパターンを主要因として想定しているものと、特にどのパターンが主要因であるかを考慮せずにＰ（Ｘ，Ｙ）が変化していることへの対処を考えるものと、がある。なお、前者の場合、特に、共変量シフトを想定しているものが多い。

　［ドメインシフトが影響する理由］
　予測又は分類のタスクを行う予測分類モデルは、説明変数Ｘと目的変数Ｙの関係性に基づいて推論を行うため、Ｐ（Ｙ｜Ｘ）が変化すれば当然、予測性能及び分類性能の少なくともいずれかは低下する。また、予測分類モデルを機械学習する際には学習データ内において予測誤差及び分類誤差の少なくともいずれかの最小化を行うが、例えば、説明変数がＸ＝Ｘ_１になる頻度が、Ｘ＝Ｘ_２になる頻度より大きい場合、つまりＰ（Ｘ＝Ｘ_１）＞Ｐ（Ｘ＝Ｘ_２）である場合、Ｘ＝Ｘ_１のデータの方がＸ＝Ｘ_２のデータより多いので、Ｘ＝Ｘ_１の誤差低減はＸ＝Ｘ_２の誤差低減より優先して学習される。そのためＰ（Ｘ）が施設間で変化する場合も、予測誤差及び分類誤差の少なくともいずれかは低下する。

　ドメインシフトは、情報推薦に限らず、いろいろなタスクのモデルについて問題になり得る。例えば、社員の退職リスクを予測するモデルについて、ある企業のデータを用いて学習した予測モデルを別の企業で運用する場合にドメインシフトが問題になり得る。また、細胞の抗体生産量を予測するモデルについて、ある抗体のデータを用いて学習したモデルを、別の抗体で運用する場合にドメインシフトが問題になり得る。また、顧客の声を分類するモデル、例えば、ＶＯＣを商品機能、サポート対応及びその他に分類するモデルについて、ある商品に関するデータを用いて学習した分類モデルを別の商品で運用する場合にドメインシフトが問題になり得る。なお、ＶＯＣは、顧客の声の英語表記であるVoice of Customerの省略語である。

　［モデルの導入前評価について］
　学習したモデル１４を実際の施設等に導入する前に、モデル１４の性能評価を行うことが多い。性能評価は導入の可否判断や、モデルあるいは学習手法などの研究開発のために必要である。

　図６は学習済み学習モデルの性能を評価するステップを含む推薦システム導入フローの説明図である。図６では、図５で説明したモデル１４を学習するステップ１と、モデル１４を運用するステップ２との間に、ステップ１．５として、モデル１４の性能を評価するステップが追加されている。その他の構成は図５と同様である。

　図６に示すように、一般的な推薦システム導入のフローでは、導入先の施設で収集されたデータを学習用データと評価用データとに分割することが多い。評価用データを用いてモデル１４の予測性能を確認してから、モデル１４の運用が開始される。

　しかし、ドメイン汎化のモデル１４を構築する場合は、学習用データと評価用データは異なるドメインである必要がある。さらに、ドメイン汎化においては、学習用データについても複数ドメインのデータを用いることが好ましく、学習に使えるドメインが多い方がより好ましい。

　［汎化性について］
　図７は機械学習に用いる学習用データと評価用データの例を示す説明図である。あるドメインｄ１の同時確率分布Ｐｄ１（Ｘ，Ｙ）から得られるデータセットは、学習用データと、評価用データとに分けられる。学習用データと同一ドメインの評価用データを第１の評価用データといい、図７において評価用データ１と表記する。また、ドメインｄ１と異なるドメインｄ２の同時確率分布Ｐｄ２（Ｘ，Ｙ）から得られるデータセットを用意し、これを評価用データとして用いる。学習用データと異なるドメインの評価用データを第２の評価用データといい、図７において評価用データ２と表記する。

　ドメインｄ１の学習用データを用いてモデル１４の学習が行われ、ドメインｄ１の第１の評価用データと、ドメインｄ２の第２の評価用データとのそれぞれを用いて学習済みのモデル１４の性能が評価される。

　図８はデータセットの違いに起因するモデルの性能の違いを模式的に示すグラフである。学習用データ内でのモデル１４の性能を性能Ａとし、第１の評価用データでのモデル１４の性能を性能Ｂとし、第２の評価用データでのモデル１４の性能を性能Ｃとする場合、通常は、図８に示すように、性能Ａ＞性能Ｂ＞性能Ｃという関係になる。

　モデル１４の汎化性能の高さは、一般には、性能Ｂが高いこと又は性能ＡとＢの差が小さいことを指す。つまり、モデル１４の汎化性能の高さは、学習用データに過剰適合せずに、学習していないデータに対しても予測の性能が高いことを目指している。

　本明細書におけるドメイン汎化性の文脈では、性能Ｃが高いこと又は性能Ｂと性能Ｃの差が小さいことを指す。つまり、学習に用いたドメインと異なるドメインでも、変わらずに高い性能が出ることを目指している。

　図９は、ドメイン汎化のモデル開発に必要なデータの説明図である。ドメイン汎化のモデル１４を開発するには、図９に示すように、複数の異なる施設で収集されたデータを用意し、学習用データとして複数のドメインのデータセットを用い、評価用データとして、さらに異なるドメインのデータセットを用いる態様が好ましい。

　［課題］
　上記のように、多施設でロバストな性能のモデルを開発するには、基本的には複数施設のデータが必要である。しかし、現実においては、複数の異なる施設のデータを用意することが困難な場合が多い。モデルの学習又は評価に活用できるドメイン数が少ない場合でも、特に１つのドメインのデータしかないときでも、ドメイン汎化性のあるモデルを実現することが望まれる。本実施形態では、１つのドメインのみのデータしかない場合でも、擬似的に他のドメインのデータを生成する方法を提供する。

　［実施形態に係る情報処理装置の構成例］
　図１０は実施形態に係る情報処理装置のハードウェア構成の例を概略的に示すブロック図である。情報処理装置１００は、複数ユーザーの複数アイテムに対する行動履歴からなるデータセットに対して、目的変数と説明変数とを除外した複数の変数をドメインとして分割する処理を実施して、ドメインごとのデータセットを生成する。

　情報処理装置１００は、コンピュータのハードウェアとソフトウェアとを用いて実現される。情報処理装置１００の物理的形態は特に限定されず、サーバコンピュータであってもよいし、ワークステーションであってもよく、パーソナルコンピュータ又はタブレット端末などであってもよい。ここでは、１台のコンピュータを用いて情報処理装置１００の処理機能を実現する例を述べるが、情報処理装置１００の処理機能は、複数台のコンピュータを用いて構成されるコンピュータシステムによって実現してもよい。

　情報処理装置１００は、プロセッサ１０２、非一時的な有体物であるコンピュータ可読媒体１０４、通信インターフェース１０６、入出力インターフェース１０８及びバス１１０を備える。

　プロセッサ１０２は、ＣＰＵ（Central Processing Unit）を含む。プロセッサ１０２はＧＰＵ（Graphics Processing Unit）を含んでもよい。プロセッサ１０２は、バス１１０を介してコンピュータ可読媒体１０４、通信インターフェース１０６及び入出力インターフェース１０８と接続される。

　プロセッサ１０２は、コンピュータ可読媒体１０４に記憶された各種のプログラム及びデータ等を読み出し、各種の処理を実行する。プログラムという用語は、プログラムモジュールの概念を含み、プログラムに準じる命令を含む。

　コンピュータ可読媒体１０４は、例えば、主記憶装置であるメモリ１１２及び補助記憶装置であるストレージ１１４を備える記憶装置である。ストレージ１１４は、例えば、ハードディスク装置、ソリッドステートドライブ装置、光ディスク、光磁気ディスク及び半導体メモリなどを用いて構成される。ストレージ１１４は、上記したデバイスの適宜の組み合わせを用いて構成されてもよい。ストレージ１１４には、各種プログラム及びデータ等が記憶される。

　なお、ハードディスク装置は、英語表記Hard Disk Driveの省略語を用いてＨＤＤと称され得る。ソリッドステートドライブ装置は、英語表記Solid State Driveを用いてＳＳＤ）と称され得る。

　メモリ１１２は、プロセッサ１０２の作業領域として使用される領域及びストレージ１１４から読み出されたプログラム及び各種のデータを一時的に記憶する領域が含まれる。ストレージ１１４に記憶されているプログラムがメモリ１１２にロードされ、プログラムの命令をプロセッサ１０２が実行して、プロセッサ１０２は、プログラムで規定される各種の処理を行う手段として機能する。

　メモリ１１２には、プロセッサ１０２を用いて実行されるドメイン候補変数選択プログラム１３０、データセット候補生成プログラム１３２、データセット判定プログラム１３４、データセット生成プログラム１３６、学習プログラム１３８及び学習済みモデル評価プログラム１３９などの各種のプログラムおよび各種のデータ等が記憶される。

　メモリ１１２は、オリジナルデータセット記憶部１４０、ドメイン候補変数記憶部１４２、生成データ記憶部１４４及び学習済みモデル記憶部１４５が含まれる。オリジナルデータセット記憶部１４０は、異なるドメインのデータセットの生成を行う際の元になるデータセットが、オリジナルデータセットとして記憶される記憶領域である。

　ドメイン候補変数記憶部１４２は、目的変数と説明変数とを除外した複数の変数をドメインとして記憶される記憶領域である。生成データ記憶部１４４は、データセット生成プログラム１３６を用いて生成された擬似的な行動履歴のデータが記憶される記憶領域である。

　学習済みモデル記憶部１４５は、異なるドメインのデータセットとして生成されたデータセットを用いて学習が実施され、生成された学習済みモデルが記憶される記憶領域である。

　通信インターフェース１０６は、有線又は無線を適用して外部装置との通信処理を行い、外部装置との間で情報のやり取りを行う。情報処理装置１００は、通信インターフェース１０６を介して通信回線に接続される。

　通信回線は、ローカルエリアネットワークであってもよいし、ワイドエリアネットワークであってもよく、これらの組み合わせであってもよい。なお、通信回線の図示を省略する。通信インターフェース１０６は、オリジナルデータセットなど様々なデータの入力を受け付けるデータ取得部の役割を担うことができる。

　情報処理装置１００は、入力装置１２２及び表示装置を備える。入力装置１２２及び表示装置１２４は、入出力インターフェース１０８を介してバス１１０に接続される。入力装置１２２は、例えば、キーボード、マウス、マルチタッチパネル、その他のポインティングデバイス及び音声入力装置等が適用され得る。入力装置１２２は、上記したキーボード等の適宜の組み合わせであってよい。

　表示装置１２４は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ及びプロジェクタ等が適用される。表示装置１２４は、上記した液晶ディスプレイ等の適宜の組み合わせであってよい。なお、タッチパネルのように入力装置１２２と表示装置１２４とが一体的に構成されてもよく、タッチパネル式のタブレット端末のように、情報処理装置１００と入力装置１２２と表示装置１２４とが一体的に構成されてもよい。有機ＥＬディスプレイは、organic electro-luminescenceの省略語であるＯＥＬと称され得る。なお、有機ＥＬディスプレイのＥＬは、Electro-Luminescenceの省略語である。

　図１１は図１０に示す情報処理装置の機能的構成を示す機能ブロック図である。情報処理装置１００は、データセット取得部１５０、ドメイン候補変数選択部１５２，ドメイン分割候補案生成部１５４、異ドメイン判定部１５６、データセット生成部１５８、学習部１５９及び学習済みモデル評価部１６０を備える。

　データセット取得部１５０は、オリジナルのデータセットである１つのドメインにおける複数のユーザーの各アイテムに対し得る行動履歴のデータセットを取得する。データセット取得部１５０を用いて取得されオリジナルのデータセットは、オリジナルデータセット記憶部１４０へ記憶される。

　ドメイン候補変数選択部１５２は、データセットに含まれる変数のうち、目的変数及び説明変数を除外した複数の変数のうち、ドメイン候補となるドメイン候補変数として２つ以上の変数を選択する。ドメイン候補変数選択部１５２を用いて選択されたドメイン候補変数は、ドメイン候補変数記憶部１４２へ記憶される。

　ドメイン分割候補案生成部１５４は、ドメイン候補変数選択部１５２を用いて選択されたドメイン候補変数を用いて、データセットを分割するデータセットの候補案である、ドメイン分割候補案を生成する。

　異ドメイン判定部１５６は、ドメイン分割候補案生成部１５４を用いて生成されたドメイン分割候補案が、異なるドメインのデータセットとなっているか否かを判定する。

　データセット生成部１５８は、異ドメイン判定部１５６を用いドメイン分割候補案が、異なるドメインのデータセットとなっていると判定されたドメイン分割候補案において選択された変数を用いてデータセットを分割して、疑似的な複数ドメインのデータセットを生成する。なお、実施形態に記載の疑似的な複数ドメインのデータセットは、分割データセットの一例である。

　データセット生成部１５８は、各ユーザーが疑似的な複数ドメインのデータセットのいずれか１つのみ存在するように、データセットを補正する処理を実施してもよい。データセット生成部１５８は、各アイテムが疑似的な複数ドメインのデータセットのいずれか１つのみ存在するように、データセットを補正する処理を実施してもよい。これにより、システムレベルの大きなドメインシフトに対する学習及び評価が可能となる。

　学習部１５９は、データセット生成部１５８を用いて生成された疑似的な複数ドメインのデータセットに対して学習を実施して、ユーザーの行動履歴の予測モデルである学習済みモデルを生成する。学習済みモデルは、学習済みモデル記憶部１４５へ記憶される。

　学習済みモデル評価部１６０は、学習部１５９を用いて生成された学習済みモデルを評価する。学習済みモデル記憶部１４５、学習部１５９及び学習済みモデル評価部１６０は、情報処理装置１００と分離させてもよい。

　すなわち。情報処理装置１００は、疑似的な複数ドメインのデータセットを生成する装置として機能してもよい。また、学習済みモデル記憶部１４５及び学習部１５９を備える装置は学習済みモデルを生成する装置として機能してもよい。更に、学習済みモデル評価部１６０を備える装置は、学習済みモデルを評価する装置として機能してもよい。

　行動履歴のデータとして、図９に示す病院内の検査結果閲覧システムにおける行動履歴を適用し得る。同図には、行動履歴データのテーブルの一部を図示する。同図に示す行動履歴データにおけるアイテムは、検査結果である。

　図９に示すテーブルは、ユーザーＩＤ、アイテムＩＤ、ユーザー属性１、ユーザー属性２、アイテム属性１、アイテム属性２、コンテキスト１、コンテキスト２及び閲覧有無のカラムを有する。なお、ＩＤはidentificationの省略語である。

　図９に示すテーブルにおける時間のカラムは、アイテムを閲覧した日時を示す。ユーザーＩＤは、ユーザーを特定する際に用いられるユーザーの識別情報である。図９には、ユーザーＩＤとして、ユーザーごとの固有の番号が適用される例を示す。

　アイテムＩＤは、アイテムを特定する際に用いられるアイテムの識別情報である。図９には、アイテムＩＤとして、アイテムごとの固有の番号が適用される例を示す。ユーザー属性１は、例えば、ユーザーが所属する所属診療科が適用される。ユーザー属性２は、例えば、職種が適用される。

　アイテム属性１は、例えば、検査種類が適用される。アイテム属性２は、例えば、患者の性別が適用される。コンテキスト１は、例えば、入院の有無が適用される。コンテキスト２は、例えば、アイテム作成からの経過時間が適用される。

　閲覧有無は、アイテムが閲覧された場合に１となる。なお、閲覧していないアイテムは膨大であり、一般に、閲覧有無が１とされるアイテムが閲覧された場合のみレコードへ記録される。

　図９における閲覧有無は、目的変数の一例であり、アイテム属性１、アイテム属性２、コンテキスト１及びコンテキスト２のそれぞれは、説明変数の一例である。また、時間、ユーザーＩＤ、アイテムＩＤ、ユーザー属性１及びユーザー属性２は、目的変数及び説明変数が除外された複数の変数の一例である。

　説明変数の種類及び説明変数の組み合わせは、図９に示す例に限定されない。説明変数として、ユーザー属性３及びコンテキスト３等が含まれてもよい。また、コンテキスト１及びコンテキスト２が説明変数に含まれない態様を適用してもよい。

　［情報処理方法の手順］
　図１２は実施形態に係る情報処理方法の手順を示すフローチャートである。データセット取得工程Ｓ１０では、図１１に示すデータセット取得部１５０はデータセットを取得する。データセット取得工程Ｓ１０の後にドメイン候補変数選択工程Ｓ１２へ進む。

　ドメイン候補変数選択工程Ｓ１２では、ドメイン候補変数選択部１５２は、データセット取得工程Ｓ１０において取得されたデータセットに適用される変数の中から、ドメイン候補変数を選択する。ドメイン候補変数選択工程Ｓ１２の後にドメイン分割候補案生成工程Ｓ１４へ進む。

　ドメイン分割候補案生成工程Ｓ１４は、ドメイン分割候補案生成部１５４は、ドメイン候補変数選択工程Ｓ１２において選択されたドメイン候補変数を用いて、データセット取得部１５０において取得したデータセットを分割するドメイン分割候補案を生成する。

　ドメイン分割候補案生成工程Ｓ１４では、複数のドメイン候補変数の組を用いて、複数のドメイン分割候補案を生成してもよい。ドメイン分割候補案生成工程Ｓ１４の後に異ドメイン判定工程Ｓ１６へ進む。

　異ドメイン判定工程Ｓ１６では、異ドメイン判定部１５６は、ドメイン分割候補案生成工程Ｓ１４において生成されたドメイン候補変数ごとのデータセットが、異なるドメインごとのデータセットであるか否かが判定される。

　ドメイン分割候補案生成工程Ｓ１４において、複数のドメイン分割候補案が生成される場合、異ドメイン判定工程Ｓ１６では、複数のドメイン分割候補案のそれぞれについて、異なるドメインごとのデータセットであるか否かが判定される。異ドメイン判定工程Ｓ１６の後にドメイン分割候補案評価判定Ｓ１８へ進む。

　ドメイン分割候補案評価判定Ｓ１８では、異ドメイン判定部１５６は、全てのドメイン分割候補案についての判定結果が得られていないと判定される場合はＮｏ判定となる。Ｎｏ判定の場合は異ドメイン判定工程Ｓ１６へ戻り、ドメイン分割候補案評価判定Ｓ１８においてＹｅｓ判定となるまで、異ドメイン判定工程Ｓ１６及びドメイン分割候補案評価判定Ｓ１８が繰り返し実行される。

　一方、ドメイン分割候補案評価判定Ｓ１８において、異ドメイン判定部１５６が全てのドメイン分割候補案についての判定結果が得られていると判定する場合はＹｅｓ判定となる。Ｙｅｓ判定の場合は、データセット生成工程Ｓ２０へ進む。

　データセット生成工程Ｓ２０では、ドメイン分割候補案評価判定Ｓ１８において、異なるドメインごとのデータセットであると判定されたドメイン分割候補案に適用されるドメイン候補変数を用いてデータセットを分割し、疑似的に複数のドメインのそれぞれにおけるデータセットとみなし得る複数のデータセットを生成する。データセット生成工程Ｓ２０の後にデータセット記憶工程Ｓ２２へ進む。

　データセット記憶工程Ｓ２２では、データセット生成部１５８は、生成データ記憶部１４４へ生成された複数のデータセットを記憶する。データセット記憶工程Ｓ２２の後に、学習済みモデル生成工程Ｓ２４へ進む。

　学習済みモデル生成工程Ｓ２４では、学習部１５９は、データセット生成部１５８において生成されたデータセットを用いて学習を実施し、学習済み学習モデルを生成する。学習済みモデル生成工程Ｓ２４において生成された学習済みモデルは、学習済みモデル記憶部１４５へ記憶される。学習済みモデル生成工程Ｓ２４の後に、学習済みモデル評価工程Ｓ２６へ進む。

　学習済みモデル評価工程Ｓ２６では、学習済みモデル評価部１６０は、学習済みモデル生成工程Ｓ２４において生成された学習済みモデルの性能評価を実施する。学習済みモデル評価工程Ｓ２６において規定の性能を満たすと評価された学習済みモデルは、オリジナルのデータセットが取得されたドメインとは異なるドメインへ導入される。学習済みモデル評価工程Ｓ２６の後に、情報処理装置１００は情報処理方法の手順を終了させる。

　学習済みモデル生成工程Ｓ２４は、情報処理装置１００とは別の学習済みモデル生成装置において、学習済みモデル製造方法として実行されてもよい。同様に、学習済みモデル評価工程Ｓ２６は、情報処理装置１００及び学習済みモデル生成装置とは別の学習済みモデル評価装において、学習済みモデル評価方法として実行されてもよい。

　［情報処理方法の具体例］
　図１２に示す情報処理方法の具体例について説明する。例えば、オリジナルのデータセットが、図９に示す病院内の検査結果閲覧システムにおける行動履歴の場合について考える。

　データセットを用いて学習を実施して生成される推薦モデルは、アイテム属性１、アイテム特性２、コンテキスト１及びコンテキスト２が説明変数として用いられる。また、推薦モデルは、アイテムの閲覧有無を目的変数として、ユーザーの行動であるアイテムの閲覧有無を予測する。推薦システムとして運用する際に、学習済みの推薦モデルを用いて候補の全アイテムに対する閲覧率を予測し、閲覧率が上位のアイテムを５つ選択し、推薦する。

　図９に示す検査結果閲覧システムにおける行動履歴には、目的変数及び説明変数が除外された複数の変数として、時間、ユーザーＩＤ、ユーザー属性１及びユーザー属性２が存在する。データセットの分割において、上記した目的変数及び説明変数が除外された複数の変数のいずれかがドメイン候補変数として活用される。

　以下に、ドメイン候補変数として、所属診療科が適用されるユーザー属性１及び職種が適用されるユーザー属性２がドメイン候補変数とされる例について説明する。まず、ユーザー属性１をドメイン候補変数に適用して、オリジナルのデータセットを分割する。

　例えば、呼吸器科のデータセットをデータセット１Ａとし、胃腸科のデータセットをデータセット１Ｂとする。データセット１Ａを用いて学習を実施して、データセット１Ａの範囲で閲覧予測を行い、５件の推薦をして１件の推薦が当たる確率を表すｈｉｔ＠５の指標が３４パーセントであったとする。また、データセット１Ｂの範囲で閲覧予測を行い、ｈｉｔ＠５の指標が３２パーセントであったとする。かかる場合の予測性能の低下率は２パーセントである。

　一方、データセット１Ｂを用いて学習をして生成される学習済みモデルについて、データセット１Ａの範囲で実施された予測のｈｉｔ＠５の指標と、データセット１Ｂの範囲で実施された予測のｈｉｔ＠５の指標との差である予測性能の低下率が１パーセントであったとする。データセット１Ａを用いて学習をして生成される学習済みモデルの予測性能の低下率と、データセット１Ｂを用いて学習をして生成される学習済みモデルの予測性能の低下率との平均は、１．５パーセントである。

　次に、職種が適用されるユーザー属性２をドメイン候補変数に適用して、オリジナルのデータセットを分割する。医師のデータセットをデーセット２Ａとし、看護師のデータセットをデーセット２Ｂとする。

　デーセット２Ａを用いて生成された学習済みモデルをデータセット２Ａの範囲で評価すると、ｈｉｔ＠５の指標は３２パーセントとなる。デーセット２Ａを用いて生成された学習済みモデルをデータセット２Ｂの範囲で評価すると、ｈｉｔ＠５の指標は２１パーセントとなる。予測性能の低下率は１１パーセントである。

　デーセット２Ｂを用いて生成された学習済みモデルについて、データセット２Ａの範囲で評価した場合のｈｉｔ＠５の指標と、データセット２Ｂの範囲で評価した場合のｈｉｔ＠５の指標との差は９パーセントであるとする。予測性能の低下率の平均は１０パーセントである。

　ユーザー属性１をドメイン候補変数としてデータセットを分割した場合に対して、ユーザー属性２をドメイン候補変数としてデータセットを分割した場合は、上記した予測性能の低下率が顕著に大きい。したがって、ユーザー属性２をドメイン候補変数としてデータセットを分割した場合は、異なるドメインの分割として適していると判定される。かかる判定結果に基づき、ユーザー属性２を用いて、データセット２が分割され、疑似的な複数ドメインのデータセットが生成される。

　次に、生成されたデータセットを用いて学習が実施され、学習済みモデルが生成される。また、学習済みモデルの評価が実施される。複数のモデルの候補が存在する場合には、推薦システムの運用前に各モデルの候補を評価し、最適なモデルを選択する態様が好ましい。

　モデルの候補として、ロジスティック回帰、factorization machines及びgradient boosting decision treesの３つを考える。更に、それぞれのモデルには学習の際のハイパーパラメータが存在する。ロジスティック回帰におけるハイパーパラメータとして、正則化係数などが挙げられる。

　factorization machinesにおけるハイパーパラメータとして、正則化係数及び潜在次元数などが挙げられる。gradient boosting decision treeにおけるハイパーパラメータとして、木の深さ及び木の数などが挙げられる。ここでは、モデルごとにハイパーパラメータの組合せをランダムに２０個ずつ選択し、最適なハイパーパラメータを探索するランダムグリッドサーチを実施することとする。

　次に、ユーザー属性２が医師であるデータセット２Ａを用いて、上記した３つのモデルごと、２０個のハイパーバラメータごとの６０モデルの学習が実施される。更に、ユーザー属性２が看護師であるデータセット２Ｂを用いて、学習済みモデルの性能評価が実施される。

　データセット２Ｂが適用される学習済みモデルの性能評価において、最も性能評価が高い学習済みモデルが、学習データと異なるドメインのデータとしての性能が高く、最もドメイン汎化性が高い学習済みモデルと考えられる。

　ここでは、factorization machinesにおいて、正則化係数が０．００１であり、潜在次元数が５０である場合が、最もデータセット２Ｂを用いる性能評価の結果が高かったとすると、モデルとしてfactorization machinesが採用され、ハイパーパラメータとして正則化係数及び潜在次元数が採用される。

　このようにして、他の病院等の他の施設おいて、医師等のユーザーに対して、次に見るべき検査結果を推薦する検査結果閲覧推薦システムが導入される際に、上記した学習済みモデルが推薦される。

　［データセットの生成の具体例］
　図１３はドメイン候補変数が用いられるデータセットの生成の模式図である。図１３には、図１２に示すドメイン分割候補案生成工程Ｓ１４の処理及び異ドメイン判定工程Ｓ１６の処理を模式的に図示する。

　図１３には、ドメイン候補変数３０２を用いて、オリジナルのデータセット３００が２分割され、データセット３０４及びデータセット３０６が生成されるドメイン分割候補案が生成される処理を模式的に図示する。

　ここで、ドメインとは、ある確率分布Ｐ（Ｘ，Ｙ）から生成される説明変数Ｘと目的変数Ｙとからなるデータ集合である。互いに異なるドメインをそれぞれｄ１及びｄ２とし、ドメインｄ１における確率分布Ｐｄ１（Ｘ，Ｙ）と、ドメインｄ２における確率分布Ｐｄ２（Ｘ，Ｙ）との関係が、Ｐｄ１（Ｘ，Ｙ）≠Ｐｄ２（Ｘ，Ｙ）の場合は、ドメインｄ１とドメインｄ２とは異なるドメインである。

　有限データ集合から確率分布Ｐ（Ｘ，Ｙ）を厳密に推定することは困難である。また、ドメインｄ１とドメイン２ｄとの割り当て方法は、組み合わせの数の分の計算が必要となる。したがって、Ｐｄ１（Ｘ，Ｙ）とＰｄ２（Ｘ，Ｙ）との違いの判定には、何らかの工夫が必要である。

　図１４は図１３に示すデータセットの生成に適用されるドメイン分割候補案生成の一例を示す模式図である。図１４には、図９に示す行動履歴のデータをデータセット３００とする場合に、時系列を表すドメイン候補変数３０２Ａを用いて、データセット３００を分割する例を示す。図１４には、時刻ｔ１の以前のデータセット３０４Ａと、時刻ｔ１を超えるデータセット３０６Ａとに、データセットが２分割される場合の例を示す。

　図１５は図１３に示すデータセットの生成に適用されるドメイン分割候補案生成の他の例を示す模式図である。図９に示す行動履歴のデータをデータセット３００とする場合に、ユーザー属性をドメイン候補変数３０２Ｂとしてデータセット３００を分割する例を示す。

　例えば、図９に示す所属診療科が適用されるユーザー属性１又は職種が適用されるユーザー属性２のいずれかでデータセットを分割する例を示す。ユーザー属性として、所属診療科が適用される場合、図１５のユーザー属性Ａの行動履歴は、職種が呼吸器科のユーザーが検査結果閲覧システムを閲覧したデータセット３０４Ｂであり、ユーザー属性Ｂの行動履歴は、職種が胃腸科のユーザーが検査結果閲覧システムを閲覧したデータセット３０６Ｂである。

　図１６は複数のドメイン候補変数が選択される場合のデータセットの生成の模式図である。図１６には、ドメイン候補変数３１２Ａ、ドメイン候補変数３１２Ｂ及びドメイン候補変数３１２Ｃが選択され、ドメイン分割候補案１、ドメイン分割候補案２及びドメイン分割候補案３が生成される場合の例を示す。

　図１６に示すドメイン分割候補案１は、ドメイン候補変数３１２Ａを用いて、データセット３００がデータセット３１４Ａとデータセット３１６Ａとに分割されるドメイン分割候補案である。

　ドメイン分割候補案２は、ドメイン候補変数３１２Ｂを用いて、データセット３００がデータセット３１４Ｂとデータセット３１６Ｂとに分割されるドメイン分割候補案である。ドメイン分割候補案３は、ドメイン候補変数３１２Ｃを用いて、データセット３００がデータセット３１４Ｃとデータセット３１６Ｃとに分割されるドメイン分割候補案である。

　図１６に示す例では、ドメイン分割候補案２は、異なるドメインごとのデータセットであると判定される。一方、ドメイン分割候補案１及びドメイン分割候補案３はいずれも、異なるドメインごとのデータセットでないと判定される。ドメイン分割候補案２が採用され、データセット３００からデータセット３１４Ｂ及びデータセット３１６Ｂが生成される。

　［ドメイン分割候補案の生成の具体例］
　図１７はドメイン分割候補案の生成の一例を示す模式図である。図１７には、図１６に示すドメイン分割候補案２が採用される場合における、ドメイン分割候補案の生成の例を図示する。図１７に示すグラフ３２０及びグラフ３２２は、予測モデルにおける説明変数とされるアイテム作成からの経過日数を横軸とし、データの存在確率Ｐ（Ｘ，Ｙ）を縦軸とするグラフである。図１７に示すグラフ３２０は、図１６に示すデータセット３１４Ｂに対応する。また、グラフ３２２はデータセット３１６Ｂに対応する。

　グラフ３２０及びグラフ３２２の横軸とされるドメイン候補変数としたアイテム作成日からの経過日数は、ドメインに普遍的な特徴量である。アイテム作成日からの経過日数が予測モデルの説明変数に適している。

　アイテム作成日からの経過日数が閲覧に与える影響を適切に学習するには、データセット３００から生成されたデータセット３１４Ｂ及びデータセット３１６Ｂのいずれにも、説明変数ごとのデータが存在することが好ましい。

　すなわち、データセット３１４Ｂにおける説明変数ごとのデータの存在確率を表すグラフ３２０と、データセット３１６Ｂにおける説明変数ごとのデータの存在確率を表す対応するグラフ３２２との間には、一定の重なりが存在している。

　図１８はドメイン分割候補案の生成の他の例を示す模式図である。図１８に示すグラフ３２４及びグラフ３２６は、図１７に示すグラフ３２０等と同様に、アイテム作成からの経過日数ごとを横軸とし、データの存在確率Ｐ（Ｘ，Ｙ）を縦軸とするグラフである。例えば、図１８に示すグラフ３２４は、図１６に示す分割候補案１において生成されるデータセット３１４Ａに対応し、グラフ３２６はデータセット３１６Ｂに対応する。

　データセット３１４Ａにおける説明変数ごとのデータの存在確率を表すグラフ３２４と、データセット３１６Ａにおける説明変数ごとのデータの存在確率を表す対応するグラフ３２６との間には、一定の重なりが存在しない。そうすると、データセット３１４Ａ及びデータセット３１６Ａを生成する際のドメイン候補変数は、ドメイン分割案の生成には不適である。

　図１９は図１７に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図１９に示すグラフ３４０及びグラフ３４２は、説明変数としてユーザーの性別が適用される場合における説明変数に対するデータの存在確率の分布を表すグラフである。

　ユーザーの性別は、ドメインに普遍的な特徴量であり、予測モデルにおいて説明変数として用いられる。データセット３１４Ｂに対応するグラフ３４０及びデータセット３１６Ｂに対応するグラフ３４２のいずれにも、男性のデータ及び女性のデータが存在し、両者の間には一定の重なりが存在する。

　図２０は図１８に示す説明変数と異なる説明変数の場合におけるドメイン分割候補案の生成を示す模式図である。図２０には図１９と同様に、予測モデルにおいて説明変数とされるユーザーの性別が適用され、縦軸はユーザーの性別ごとのデータの存在確率Ｐ（Ｘ，Ｙ）が適用されるグラフ３４４及びグラフ３４６を図示する。

　グラフ３４４は、女性のデータのみが存在し、男性のデータは存在しない。一方、グラフ３４６は、女性のデータが存在せず、男性のデータのみが存在する。グラフ３４４とグラフ３４６とは重なりが存在せず、それぞれのデータセットにおいて、ユーザーの性別が閲覧などのユーザーの行動に対してどのように影響するかの学習が困難である。

　図２１はドメイン候補変数として時間が適用されるドメイン分割候補案の生成の模式図である。図２１には、図１４に示す例の更なる具体例を示す。ドメイン分割候補案１として、日付が適用されるドメイン候補変数３５２Ａを用いて、Ａ月Ｂ日以前のデータセット３５４Ａと、Ａ月Ｂ日を超えるデータセット３５６Ａが生成される例を示す。

　また、図２１には、ドメイン分割候補案２として、日付が適用されるドメイン候補変数３５２Ｂを用いて、Ｃ月Ｄ日以前のデータセット３５４Ｂと、Ｃ月Ｄ日を超えるデータセット３５６Ｂが生成される例を示す。

　更に、図２１には、ドメイン分割候補案３として、日付が適用されるドメイン候補変数３５２Ｃを用いて、Ｅ月Ｆ日以前のデータセット３５４Ｃと、Ｅ月Ｆ日を超えるデータセット３５６Ｂが生成される例を示す。なお、Ａ月Ｂ日、Ｃ月Ｄ日及びＥ月Ｆ日は、互いに異なる任意の日付を示す。

　図２１に示す例では、ドメイン分割候補案２が採用され、データセット３００からＣ月Ｄ日以前のデータセット３５４Ｂと、Ｃ月Ｄ日を超えるデータセット３５６Ｂが生成される。

　図２２はドメイン候補変数としてユーザー属性が適用されるドメイン分割候補案の生成の模式図である。図２３は図２２に示すデータセットの例を示す表である。図２３には、ある企業の文書情報管理システムから得られた文書の閲覧に関する行動履歴のデータのテーブルの一部が示されている。図２２には、図１５に示す例の更なる具体例を示す。

　ドメイン分割候補案１として、所属部門が適用されるドメイン候補変数４０２を用いて、データセット４００からデータセット４０４、データセット４０６及びデータセット４０８が生成される例を示す。

　また、図２２には、ドメイン分割候補案２として、年代が適用されるドメイン候補変数４１２を用いて、データセット４００からデータセット４１４、データセット４１６及びデータセット４１８が生成される例を示す。

　図２１に示す例では、ドメイン分割候補案１が採用され、データセット４００から所属部門Ａのデータセット４０４、所属部門Ｂのデータセット４０６及び所属部門Ｃのデータセット４０８が生成される。

　図９には、説明変数Ｘとして、アイテム属性１、アイテム属性２、コンテキスト１及びコンテキスト２を例示したが、これらの変数が予測モデルの説明変数に使用されない場合は、ドメイン候補変数としてもよい。

　すなわち、予測モデルの説明変数に使用されないアイテム属性１及びアイテム属性２を用いて、オリジナルのデータセットを分割して、複数のデータセットを生成してもよい。例えば、図９に示す検査結果閲覧システムにおける行動履歴のデータセットにおいて、検査種類をドメイン候補変数として、ＣＴに対応するデータセット、Ｘ線に対応するデータセット、超音波に対応するデータセット及びＰＣＲに対応するデータセットを生成してもよい。なお、ＣＴはComputed Tomographyの省略語である。ＰＣＲはpolymerase chain reactionの省略語である。

　また、図９に示す患者性別が適用されるアイテム属性２をドメイン候補変数として、男性の患者に対応するデータセットと、女性の患者に対応するデータセットとを生成してもよい。

　図９に示す入院の有無が適用されるコンテキスト１をドメイン候補変数として、外来患者に対応するデータセットと、入院患者に対応するデータセットとを生成してもよい。また、アイテム作成日からの経過時間が適用されるコンテキスト２をドメイン候補変数として、ある経過時間以前データセットと、ある経過時間を超えるデータセットとを生成してもよい。なお、実施形態に記載の説明変数に使用されない変数は、説明変数に非適用の変数の一例である。

　［異ドメイン判定の具体例］
　〔予測性能の低下率を用いる判定〕
　図２４は異ドメイン判定の具体例を示す模式図である。図２４には、各ドメイン分割候補案において、２つのデータセットが生成され、一方のデータセットを用いて学習済みモデルを生成し、一方のデータセットの範囲内の予測性能に対する、他方データセットの範囲内の予測性能の低下率に基づき、２つのデータセットが異なるドメインのデータセットであるか否かを判定する例を示す。

　ドメイン分割候補案１として、データセット５００からデータセット５０２と、データセット５０４とが生成される。データセット５０２を用いて学習が実施されて、学習済みモデル５１０が生成される。なお、データセット５０４を用いて学習が実施され、学習済みモデルが生成されてもよい。

　学習済みモデル５１０を用いて、データセット５０２の範囲において予測性能が評価され、予測性能Ｐ１Ａが導出される。学習済みモデル５１０を用いて、データセット５０４の範囲において予測性能が評価され、予測性能Ｐ１Ｂが導出される。具体的には、予測性能の低下分として、予測性能Ｐ１Ａから予測性能Ｐ１Ｂが減算されたＰ１Ａ－Ｐ１Ｂが算出される。

　ドメイン分割候補案２として、データセット５００からデータセット５２２と、データセット５２４とが生成され、データセット５２２又はデータセット５２４を用いて、学習済みモデル５２０が生成される。データセット５２２の範囲における予測性能Ｐ２Ａ及びデータセット５２４の範囲における予測性能Ｐ２Ｂが導出され、予測性能の低下分としてＰ２Ａ－Ｐ２Ｂが算出される。

　ドメイン分割候補案３として、データセット５００からデータセット５３２と、データセット５３４とが生成され、データセット５３２又はデータセット５３４を用いて、学習済みモデル５３０が生成される。データセット５３２の範囲における予測性能Ｐ３Ａ及びデータセット５３４の範囲における予測性能Ｐ３Ｂが導出され、予測性能の低下分としてＰ３Ａ－Ｐ３Ｂが算出される。

　ドメイン分割候補案１における予測性能の低下分の大きさ｜Ｐ１Ａ－Ｐ１Ｂ｜、ドメイン分割候補案２における予測性能の低下分の大きさ｜Ｐ２Ａ－Ｐ２Ｂ｜及びドメイン分割候補案３における予測性能の低下分の大きさ｜Ｐ３Ａ－Ｐ３Ｂ｜に基づき、採用されるドメイン分割候補案が決められる。

　図２４に示す例では、ドメイン分割候補案２が採用され、データセット５００からデータセット５２２と、データセット５２４とが生成される。学習済みモデルの予測性能は、学習に適用される学習データの量に依存する。学習済みモデルを生成する際に、学習データの量を合わせるか、又は学習データ量依存性を補正する。

　なお、実施形態に記載の予測性能の低下率及び予測性能の低下分は、予測モデルの性能差の一例である。また、各ドメイン分割候補案における一方のデータセットは第１データセット候補の一例であり、他方のデータセットは第２データセット候補の一例である。

　〔確率分布の違いを用いる判定〕
　異ドメイン判定には、ドメイン候補変数ごとの確率分布の違いを用いて判定してもよい。例えば、異ドメイン判定には、ドメイン候補変数ごとの確率分布におけるカルバック－ライブラー情報量が用いられてもよい。なお、カルバック－ライブラー情報量は、英語表記を用いて、Kullback-Leibler divergenceと称され得る。

　ドメインｄ１の確率分布をＰｄ１（Ｘ）とし、ドメインｄ２の確率分布をＰｄ２（Ｘ）とし、ｋをＸが取り得る離散変数とする場合に、カルバック－ライブラー情報量は、以下の式１として表される。

　ここでいうドメインｄ１は、ドメイン候補変数の１つであり、ドメインｄ２は、ドメインｄ１とされたドメイン候補変数とは異なるドメイン候補変数の１つである。

　また、異ドメイン判定に適用される確率分布の違いを表す指標として、Optimal transport distanceを適用してもよい。Optimal transport distanceは、以下の式２として表される。

但し、式２におけるＸ_iはドメインｄ１のデータであり、Ｘ_jはドメインｄ２のデータである。

　［実施形態の作用効果］
　実施形態に係る情報処理装置及び情報処理方法は、以下の作用効果を得ることが可能である。

　〔１〕
　予測モデルにおける目的変数及び説明変数が除外された複数の変数の中からドメイン候補変数を選択し、ドメイン候補変数を用いてオリジナルのデータセットを分割するドメイン分割候補案を生成し、各ドメイン分割候補案について、異なるドメインのデータセットとして適切であるか否かが判定され、異なるドメインのデータセットとして適切であると判定されたドメイン候補変数を用いて、オリジナルのデータセットが分割され、疑似的な複数ドメインのデータセットが生成される。

　これにより、学習データにおけるドメイン数を増やすことができ、学習及び学習済みモデルの評価に用いられるドメイン数を増やすことができる。

　〔２〕
　ドメイン候補変数を用いてオリジナルのデータセットを分割する際に、学習済みモデルに適用される説明変数の確率分布が、分割されたデータセットにおいて一定に重なりが存在する。これにより、分割されたデータセット間に共通する説明変数のデータが存在し得る。

　〔３〕
　ドメイン候補変数は、時間、説明変数に用いられないユーザー属性、説明変数に用いられないアイテム属性又は説明変数に用いられないコンテキストのいずれかが適用される。これにより、疑似的な複数ドメインのデータセットの生成として好適な、オリジナルのデータセットの分割を実施し得る。

　〔４〕
　異ドメイン判定では、ドメイン候補変数ごとのデータセットにおける確率分布の違いを表す指標が導出され、指標が判定に適用される。確率分布の差異が存在するデータセットは、異なるドメインのデータセットとして好適である。

　〔５〕
　異ドメイン判定では、ドメイン分割候補ごとの複数のデータセットのいずれかを用いて学習済みモデルが生成され、複数のデータセットのそれぞれの範囲において学習済みモデルの性能評価が実施され、性能の低下分が導出され、性能の低下分が判定に用いられる。

　性能の低下分が存在するデータセットは、異なるドメインのデータセットとして好適である。

　〔６〕
　オリジナルのデータセットを分割して生成された複数のデータセットには、各ユーザーのいずれかを１つのデータセットのみに存在させる補正がされる。これにより、他の施設などのシステムレベルの大きなドメインシフトに対する学習及び性能評価が可能となる。

　〔７〕
　オリジナルのデータセットを分割して生成された複数のデータセットには、各アイテムのいずれかを１つのデータセットのみに存在させる補正がされる。これにより、他の施設などのシステムレベルの大きなドメインシフトに対する学習及び性能評価が可能となる。

　本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態の間で適宜組み合わせることができる。

１０　推薦システム
１２　予測モデル
１４　モデル
１００　情報処理装置
１０２　プロセッサ
１０４　コンピュータ可読媒体
１０６　通信インターフェース
１０８　入出力インターフェース
１１０　バス
１１２　メモリ
１１４　ストレージ
１２２　入力装置
１２４　表示装置
１３０　ドメイン候補変数選択プログラム
１３２　データセット候補生成プログラム
１３４　データセット判定プログラム
１３６　データセット生成プログラム
１３８　学習プログラム
１３９　学習済みモデル評価プログラム
１４０　オリジナルデータセット記憶部
１４２　ドメイン候補変数記憶部
１４４　生成データ記憶部
１４５　学習済みモデル記憶部
１５０　データセット取得部
１５２　ドメイン候補変数選択部
１５４　ドメイン分割候補案生成部
１５６　異ドメイン判定部
１５８　データセット生成部
１５９　学習部
１６０　学習済みモデル評価部
３００　データセット
３０２　ドメイン候補変数
３０２Ａ　ドメイン候補変数
３０２Ｂ　ドメイン候補変数
３０４　データセット
３０４Ａ　データセット
３０４Ｂ　データセット
３０６　データセット
３０６Ａ　データセット
３０６Ｂ　データセット
３１２Ａ　ドメイン候補変数
３１２Ｂ　ドメイン候補変数
３１２Ｃ　ドメイン候補変数
３１４Ａ　データセット
３１４Ｂ　データセット
３１４Ｃ　データセット
３１６Ａ　データセット
３１６Ｂ　データセット
３１６Ｃ　データセット
３２０　グラフ
３２２　グラフ
３２４　グラフ
３２６　グラフ
３４０　グラフ
３４２　グラフ
３４４　グラフ
３４６　グラフ
３５２Ａ　ドメイン候補変数
３５２Ｂ　ドメイン候補変数
３５２Ｃ　ドメイン候補変数
３５４Ａ　データセット
３５４Ｂ　データセット
３５４Ｃ　データセット
３５６Ａ　データセット
３５６Ｂ　データセット
４００　データセット
４０２　ドメイン候補変数
４０４　データセット
４０６　データセット
４０８　データセット
４１２　ドメイン候補変数
４１４　データセット
４１６　データセット
４１８　データセット
５００　データセット
５１０　学習済みモデル
５２０　学習済みモデル
５２２　データセット
５２４　データセット
５３０　学習済みモデル
５３２　データセット
５３４　データセット
ＩＴ１　アイテム
ＩＴ２　アイテム
ＩＴ３　アイテム
Ｓ１０からＳ２６　情報処理方法の各工程

Claims

　複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理方法であって、
　１つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得し、
　前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、
　前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成し、
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する情報処理方法。
　前記説明変数ごとのデータの存在確率の分布の少なくとも一部が重なる前記データセット候補を生成する請求項１に記載の情報処理方法。
　前記ドメイン候補変数として時間を適用して、前記データセット候補を生成する請求項１又は２に記載の情報処理方法。
　前記ドメイン候補変数として前記説明変数に非適用のユーザー属性を適用して、前記データセット候補を生成する請求項１から３のいずれか一項に記載の情報処理方法。
　前記ドメイン候補変数として前記説明変数に非適用のアイテム属性を適用して、前記データセット候補を生成する請求項１から４のいずれか一項に記載の情報処理方法。
　前記ドメイン候補変数として前記説明変数に非適用のコンテキストを適用して、前記データセット候補を生成する請求項１から４のいずれか一項に記載の情報処理方法。
　前記説明変数と前記目的変数との１つ以上の確率分布の違いに基づき、異なるドメインにおけるデータセットであるか否かを判定する請求項１から６のいずれか一項に記載の情報処理方法。
　複数の前記データセット候補のいずれかを用いて学習をして生成される学習済みモデルを生成し、
　複数の前記データセット候補のうち、第１データセット候補の範囲において前記学習済みモデルの性能を評価し、
　前記第１データセット候補と異なる第２データセット候補の範囲において前記学習済みモデルの性能を評価し、
　前記第１データセット候補に対応する前記学習済みモデルの性能と、前記第２データセット候補に対応する前記学習済みモデルの性能との性能差に基づいて、異なるドメインにおけるデータセットであるか否かを判定する請求項１から７のいずれか一項に記載の情報処理方法。
　前記分割データセットに対して、前記分割データセットのいずれか１つのみに各ユーザー又は各アイテムを存在させる処理を実施する請求項１から８のいずれか一項に記載の情報処理方法。
　複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成する情報処理装置であって、
　１つ以上のプロセッサと、
　前記１つ以上のプロセッサに実行させるプログラムが記憶される１つ以上のメモリと、
　を備え、
　前記１つ以上のプロセッサは、前記プログラムの命令を実行して、
　１つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得し、
　前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択し、
　前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成し、
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定し、
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する情報処理装置。
　複数のユーザーの複数のアイテムに対する行動履歴からなるデータセットに対して、ユーザーの行動を目的変数として、前記目的変数及び１つ以上の説明変数を用いる予測モデルの構築に適用されるデータセットを生成するプログラムであって、
　コンピュータに、
　１つのドメインにおけるデータセットであり、前記目的変数、前記説明変数及び前記目的変数と前記説明変数とを除外した複数の変数が適用されるデータセットを取得する機能、
　前記目的変数と前記説明変数とを除外した前記複数の変数から、ドメイン候補となる複数のドメイン候補変数を選択する機能、
　前記ドメイン候補変数を用いて前記データセットを分割するデータセット候補を生成する機能、
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットであるか否かを判定する機能、及び
　前記データセット候補のそれぞれが、異なるドメインにおけるデータセットである場合に、前記ドメイン候補変数をドメインとして、前記データセットを前記ドメインごとに分割して、分割データセットを生成する機能を実現させるプログラム。
　非一時的かつコンピュータ読取可能な記録媒体であって、請求項１１に記載のプログラムが記録された記録媒体。