WO2023152897A1

WO2023152897A1 - 情報処理プログラム、情報処理装置及び情報処理方法

Info

Publication number: WO2023152897A1
Application number: PCT/JP2022/005439
Authority: WO
Inventors: 藤重雄大; 浅井達哉; 上村健人; 鈴木浩史; 小▲柳▼佑介; 丸橋弘治
Original assignee: 富士通株式会社
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-08-17

Abstract

複数の特徴量の組み合わせからなるデータを複数記憶した記憶部を参照して、複数の条件ごとに、組み合わせが各条件を満たすデータ群を抽出し、複数の条件ごとに、各条件に対応するデータ群に含まれる複数の特徴量の間における関係性を特定し、複数の条件ごとの関係性を複数の第１クラスタに分類し、複数の条件ごとのデータ群を複数の第２クラスタに分類し、各データ群に対応する関係性が分類された第１クラスタが同一であって、かつ、各データ群が分類された第２クラスタが同一である複数のデータ群が同一のクラスタに分類されるように、複数の条件ごとのデータ群を複数の第３クラスタに分類し、複数の第３クラスタごとに、各クラスタに分類されたデータ群と他のクラスタに分類されたデータ群とを分類可能な第１条件を特定する。

Description

情報処理プログラム、情報処理装置及び情報処理方法

　本発明は、情報処理プログラム、情報処理装置及び情報処理方法に関する。

　近年、マーケティングや医療等の各分野では、例えば、各種の問題を解決するための施策の立案がＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）によって行われている。具体的に、このような施策の立案は、例えば、原因と結果との間の相関関係だけでなく、原因と結果との関係性を表現した因果関係（Ｃａｕｓａｌ　Ｒｅｌａｔｉｏｎｓｈｉｐｓ）を考慮することによって行われる。そのため、近年では、例えば、データ全体に対する因果関係を推定する技術が研究されている（例えば、非特許文献１参照）。

小柳佑介、上村健人、浅井達哉、金児純司、大堀耕太郎著「個々の特徴的な因果関係を発見する技術の開発とマーケティングデータへの適用」、［online］経営課題にＡＩを！ビジネスインフォマティクス研究会（第１８回）、［令和３年１２月１６日検索］、インターネット（URL：http://sig-bi.jp/doc/18th_SIG-BI_2021/18th_SIG-BI_2021_paper_13.pdf）

　ここで、例えば、マーケティングにおけるプロモーションの場合において、商品を購入した各顧客は、商品の購入に繋がる特性をそれぞれ有している。そのため、各顧客に対する適切な施策を立案するためには、例えば、顧客全員に共通する因果関係だけでなく、複数の条件に該当する顧客ごとの因果関係を特定する必要がある。

　したがって、各種の問題を解決する施策の立案が行われる場合、例えば、エマージングパターン列挙に基づいてデータの条件を求め、さらに、データ全体に対する因果関係に加え、各条件に該当するデータごとに因果関係を特定する手法が用いられる。

　しかしながら、例えば、各条件に対応する因果関係が大量に特定された場合、問題の解決に繋がる因果関係（以下、重要な因果関係とも呼ぶ）を特定することができない場合がある。

　そこで、一つの側面では、本発明は、問題の解決に繋がる重要な因果関係を特定することを可能とする情報処理プログラム、情報処理装置及び情報処理方法を提供することを目的とする。

　実施の形態の一態様では、複数の特徴量の組み合わせからなるデータを複数記憶した記憶部を参照して、複数の条件ごとに、前記組み合わせが各条件を満たすデータ群を抽出し、前記複数の条件ごとに、各条件に対応する前記データ群に含まれる前記複数の特徴量の間における関係性を特定し、前記複数の条件ごとの前記関係性の間における第１類似度に基づいて、前記複数の条件ごとの前記関係性を複数の第１クラスタに分類し、前記複数の条件ごとの前記データ群の間における第２類似度に基づいて、前記複数の条件ごとの前記データ群を複数の第２クラスタに分類し、各データ群に対応する前記関係性が分類された前記第１クラスタが同一であって、かつ、各データ群が分類された前記第２クラスタが同一である複数の前記データ群が同一のクラスタに分類されるように、前記複数の条件ごとの前記データ群を複数の第３クラスタに分類し、前記複数の第３クラスタごとに、各クラスタに分類された前記データ群と他のクラスタに分類された前記データ群とを分類可能な第１条件を特定し、特定した前記第１条件を前記複数の第３クラスタの分類結果とともに出力する、処理をコンピュータに実行させる。

　一つの側面によれば、問題の解決に繋がる重要な因果関係を特定することを可能とする。

図１は、情報処理システム１０の構成を示す図である。図２は、比較例における原因特定処理を説明するフローチャート図である。図３は、Ｓ２の具体例について説明する図である。図４は、Ｓ２の具体例について説明する図である。図５は、因果グラフ１３２の具体例を説明する図である。図６は、情報処理装置１のハードウエア構成を説明する図である。図７は、情報処理装置１の機能のブロック図である。図８は、第１の実施の形態における原因特定処理の概略を説明するフローチャート図である。図９は、第１の実施の形態における原因特定処理の詳細を説明するフローチャート図である。図１０は、第１の実施の形態における原因特定処理の詳細を説明するフローチャート図である。図１１は、第１の実施の形態における原因特定処理の詳細を説明するフローチャート図である。図１２は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１３は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１４は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１５は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１６は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１７は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１８は、第１の実施の形態における原因特定処理の詳細を説明する図である。図１９は、Ｓ４３の処理の具体例について説明する図である。

　［情報処理システムの構成］
　初めに、情報処理システム１０の構成について説明を行う。図１は、情報処理システム１０の構成について説明する図である。

　情報処理システム１０は、図１に示すように、例えば、情報処理装置１と、操作端末５とを有する。

　情報処理装置１は、例えば、物理マシンまたは仮想マシンであり、処理対象のデータ群１３１（以下、対象データ群１３１とも呼ぶ）から目的変数の原因となる因果関係を特定する処理（以下、原因特定処理）を行う。対象データ群１３１は、例えば、複数の特徴量の組合せからなる複数のデータからなるデータ群である。

　操作端末５は、例えば、１台以上のＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）であり、作業者が必要な情報の入力等を行う端末である。具体的に、操作端末５は、例えば、作業者が入力した対象データ群１３１を情報処理装置１に送信する。以下、比較例における原因特定処理について説明を行う。

　［比較例における原因特定処理］
　図２は、比較例における原因特定処理を説明するフローチャート図である。図３から図５は、比較例における原因特定処理を説明する図である。

　情報処理装置１は、例えば、原因特定タイミングになるまで待機する（Ｓ１のＮＯ）。原因特定タイミングは、例えば、作業者が原因特定処理を開始する旨を情報処理装置１に入力したタイミングである。

　そして、原因特定タイミングになった場合（Ｓ１のＹＥＳ）、情報処理装置１は、例えば、対象データ群１３１を記憶した記憶部を参照して、作業者によって予め指定された複数の条件（以下、単に複数の条件とも呼ぶ）ごとに、複数の特徴量の組合せが各条件を満たすデータ群１３１（以下、部分データ群１３１とも呼ぶ）を抽出する（Ｓ２）。複数の条件は、例えば、エマージングパターン列挙に基づいて決定された特徴量の組合せについての条件である。以下、Ｓ２の処理の具体例について説明を行う。

　［Ｓ２の処理の具体例］
　図３及び図４は、Ｓ２の具体例について説明する図である。具体的に、図３及び図４は、対象データ群１３１の具体例について説明する図である。なお、以下、対象データ群１３１が複数の学生に関するデータ群であり、目的変数が各学生の成績であるものとして説明を行う。また、以下、対象データ群１３１には、「名前」、「年齢」、「性別」、「平日勉強時間」、「平日自由時間」、「欠席数」及び「通学時間」等が特徴量として含まれるものとして説明を行う。

　図３に示す対象データ群１３１において、１行目のデータには、例えば、「名前」として「Ａ」が設定され、「年齢」として「２０」が設定され、「性別」として「男」が設定され、「平日勉強時間」として「６０（分）」が設定され、「平日自由時間」として「１２０（分）」が設定され、「欠席数」として「０（日）」が設定され、「通学時間」として「３０（分）」が設定されている。

　また、図３に示す対象データ群１３１において、２行目のデータには、例えば、「名前」として「Ｂ」が設定され、「年齢」として「１８」が設定され、「性別」として「女」が設定され、「平日勉強時間」として「１２０（分）」が設定され、「平日自由時間」として「６０（分）」が設定され、「欠席数」として「０（日）」が設定され、「通学時間」として「２０（分）」が設定されている。図３に含まれる他の情報についての説明は省略する。

　そして、例えば、予め定められた複数の条件に含まれる１つの条件（以下、特定の条件とも呼ぶ）が「平日自由時間＞６０∧通学時間＜３０」である場合、情報処理装置１は、図４の下線部分に示すように、特定の条件に対応する部分データ群１３１として、１行目、２行目及び５行目のデータを含む部分データ群１３１を特定する。

　図２に戻り、情報処理装置１は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２を生成する（Ｓ３）。以下、因果グラフの具体例について説明を行う。

　［因果グラフの具体例］
　図５は、因果グラフ１３２の具体例を説明する図である。具体的に、図５は、図４で説明した部分データ群１３１（特定の条件に対応する部分データ群１３１）に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２の具体例を説明する図である。なお、図４に示す因果グラフ１３２における各ノードは、図４で説明した特徴量のそれぞれに対応している。また、各ノード間の矢印及び数値は、図４で説明した複数の特徴量の間の因果関係の有無及び因果関係の強さを示している。

　具体的に、例えば、図５に示す因果グラフ１３２のうち、「父が教職」に対応するノードから「１学期の成績」に対応するノードに向かう矢印は、学生の父が教職である場合、１学期の成績が１．３４（点）下がることを示している。また、「１学期の成績」に対応するノードから「２学期の成績」に対応するノードに向かう矢印は、１学期の成績が１（点）上がる場合、２学期の成績が０．８８（点）上がることを示している。図５に含まれる他の情報についての説明は省略する。

　図２に戻り、情報処理装置１は、例えば、複数の条件ごとに生成した因果グラフ１３２から、目的変数の原因となる因果関係を特定する（Ｓ４）。

　具体的に、情報処理装置１は、例えば、Ｓ３の処理で生成した複数の因果グラフ１３２ごとに、各因果グラフ１３２に含まれる因果関係のうち、他の因果グラフ１３２に含まれていない因果関係（すなわち、特異な因果関係）を特定する。そして、情報処理装置１は、例えば、特定した因果関係を、目的関数の原因となる因果関係が現れる条件として特定する。

　これにより、情報処理装置１は、例えば、対象データ群１３１の全体に対応する因果グラフ１３２に現れてない特異な因果関係を特定することが可能になる。

　しかしながら、例えば、Ｓ３の処理において大量の因果グラフ１３２が生成された場合、情報処理装置１は、生成された大量の因果グラフ１３２から重要な因果関係（目的解決に繋がる重要な因果関係）を容易に特定することができない。

　そこで、本実施の形態における情報処理装置１は、例えば、複数の特徴量の組み合わせからなる対象データ群１３１を記憶した記憶部を参照して、複数の条件ごとに、複数の特徴量の組み合わせが各条件を満たす部分データ群１３１を抽出する。そして、情報処理装置１は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２を生成する。

　続いて、情報処理装置１は、例えば、複数の条件ごと因果グラフ１３２の間における類似度（以下、第１類似度とも呼ぶ）に基づいて、複数の条件ごとの因果グラフ１３２を複数のクラスタ（以下、複数の第１クラスタとも呼ぶ）に分類する。また、情報処理装置１は、例えば、複数の条件ごとの部分データ群１３１の間における類似度（以下、第２類似度とも呼ぶ）に基づいて、複数の条件ごとの部分データ群１３１を複数のクラスタ（以下、複数の第２クラスタ）に分類する。

　その後、情報処理装置１は、例えば、各部分データ群１３１に対応する因果グラフ１３２が分類された第１クラスタが同一であって、かつ、各部分データ群１３１が分類された第２クラスタが同一である複数の部分データ群１３１が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１を複数のクラスタ（以下、複数の第３クラスタとも呼ぶ）に分類する。

　そして、情報処理装置１は、複数の第３クラスタごとに、各クラスタに分類された部分データ群１３１と他のクラスタに分類された部分データ群１３１とを分類可能な条件（以下、第１条件とも呼ぶ）を特定し、特定した第１条件を複数の第３クラスタの分類結果（以下、単に分類結果とも呼ぶ）とともに出力する。

　具体的に、情報処理装置１は、例えば、複数の第３クラスタごとに、各クラスタに分類された複数の因果グラフ１３２に含まれる因果関係のうち、対象データ群１３１の全体に対応する因果グラフ１３２に含まれていない因果関係を示す情報を、分類結果として出力する。

　すなわち、本実施の形態における情報処理装置１は、例えば、本質的に近いであると判断できる部分データ群１３１のうち、対応する因果グラフ１３２についても本質的に近いと判断できる部分データ群１３１が同一のクラスタに含まれるように、複数の条件ごとに抽出した部分データ群１３１を複数の第３クラスタに分類する。そして、情報処理装置１は、例えば、目的解決に繋がる重要な因果関係が現れる条件である第１条件の特定を、複数の第３クラスタごとに行う。

　これにより、本実施の形態における情報処理装置１は、例えば、部分データ群１３１と因果グラフ１３２との組合せが大量に存在する場合であっても、本質的に近いであると判断できる組合せを集約することが可能になり、問題解決に繋がる重要な因果関係を容易に特定することが可能になる。

　また、本実施の形態における情報処理装置１は、例えば、各クラスタに対応する分類結果と第１条件とを併せて出力することで、原因特定処理によって特定された重要な因果関係と、その重要な因果関係が現れる第１条件との対応付ける形で出力することが可能になる。そのため、作業者は、例えば、情報処理装置１が出力した各情報を閲覧することにより、原因特定処理によって特定された重要な因果関係と、その重要な因果関係が現れる第１条件との対応関係を容易に把握することが可能になる。

　［情報処理システムのハードウエア構成］
　次に、情報処理システム１０のハードウエア構成について説明する。図６は、情報処理装置１のハードウエア構成を説明する図である。

　情報処理装置１は、図６に示すように、プロセッサであるＣＰＵ１０１と、メモリ１０２と、Ｉ／Ｏインタフェース１０３と、記憶媒体１０４とを有する。各部は、バス１０５を介して互いに接続される。

　記憶媒体１０４は、例えば、原因特定処理を行うためのプログラム１１０（以下、情報処理プログラム１１０とも呼ぶ）を記憶するプログラム格納領域（図示せず）を有する。また、記憶媒体１０４は、例えば、原因特定処理を行う際に用いられる情報を記憶する情報格納領域１３０を有する。なお、記憶媒体１０４は、例えば、ＨＤＤやＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）であってよい。

　ＣＰＵ１０１は、記憶媒体１０４からメモリ１０２にロードされたプログラム１１０を実行して原因特定処理を行う。

　Ｉ／Ｏインタフェース１０３は、例えば、ネットワークインターフェースカード等のインタフェース機器であり、操作端末５とアクセスが可能である。

　［情報処理システムの機能］
　次に、情報処理システム１０の機能について説明を行う。図７は、情報処理装置１の機能のブロック図である。

　情報処理装置１は、図７に示すように、例えば、ＣＰＵ１０１やメモリ１０２等のハードウエアとプログラム１１０とが有機的に協働することにより、データ受信部１１１と、データ抽出部１１２と、グラフ生成部１１３（以下、関係性特定部１１３とも呼ぶ）と、第１類似度算出部１１４と、第２類似度算出部１１５と、クラスタリング部１１６と、条件特定部１１７と、条件出力部１１８とを含む各種機能を実現する。

　また、情報処理装置１は、例えば、対象データ群１３１と、因果グラフ１３２と、第１類似度情報１３３と、第２類似度情報１３４と、重要度情報１３５とを情報格納領域１３０に記憶する。

　データ受信部１１１は、例えば、作業者が操作端末５を介して入力した対象データ群１３１を受信する。そして、データ受信部１１１は、例えば、受信した対象データ群１３１を情報格納領域１３０に記憶する。

　データ抽出部１１２は、例えば、情報格納領域１３０に記憶した対象データ群１３１を参照し、作業者が予め指定した複数の条件ごとに、複数の特徴量の組み合わせが各条件を満たす部分データ群１３１を抽出する。

　グラフ生成部１１３は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２を生成する。

　第１類似度算出部１１４は、例えば、複数の条件ごとの因果グラフ１３２の間における第１類似度情報１３３を算出する。そして、第１類似度算出部１１４は、例えば、算出した第１類似度情報１３３を情報格納領域１３０に記憶する。

　第２類似度算出部１１５は、例えば、複数の条件ごとの部分データ群１３１の間における第２類似度情報１３４を算出する。そして、第２類似度算出部１１５は、例えば、算出した第２類似度情報１３４を情報格納領域１３０に記憶する。

　クラスタリング部１１６は、例えば、第１類似度算出部１１４が算出した第１類似度に基づいて、複数の条件ごとの因果グラフ１３２を複数の第１クラスタに分類する。

　また、クラスタリング部１１６は、例えば、第２類似度算出部１１５が算出した第２類似度に基づいて、複数の条件ごとの部分データ群１３１を複数の第２クラスタに分類する。

　さらに、クラスタリング部１１６は、例えば、各部分データ群１３１に対応する因果グラフ１３２が分類された第１クラスタが同一であって、かつ、各部分データ群１３１が分類された第２クラスタが同一である複数の部分データ群１３１が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１を複数の第３クラスタに分類する。

　条件特定部１１７は、例えば、複数の第３クラスタごとに、各クラスタに分類された部分データ群１３１と他のクラスタに分類された部分データ群１３１とを分類可能な第１条件を特定する。

　条件出力部１１８は、例えば、条件特定部１１７が特定した第１条件を、クラスタリング部１１６による複数の第３クラスタの分類結果とともに操作端末５に出力する。

　［第１の実施の形態の概略］
　次に、第１の実施の形態の概略について説明する。図８は、第１の実施の形態における原因特定処理の概略を説明するフローチャート図である。

　情報処理装置１は、例えば、原因特定タイミングになるまで待機する（Ｓ１１のＮＯ）。

　そして、原因特定タイミングになった場合（Ｓ１１のＹＥＳ）、情報処理装置１は、例えば、情報格納領域１３０に記憶した対象データ群１３１を参照し、複数の条件ごとに、複数の特徴量の組み合わせが各条件を満たす部分データ群１３１を抽出する（Ｓ１２）。

　続いて、情報処理装置１は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２を生成する（Ｓ１３）。

　次に、情報処理装置１は、例えば、複数の条件ごとの因果グラフ１３２の間における第１類似度に基づいて、複数の条件ごとの因果グラフ１３２を複数の第１クラスタに分類する（Ｓ１４）。

　また、情報処理装置１は、例えば、複数の条件ごとの部分データ群１３１の間における第２類似度に基づいて、複数の条件ごとの部分データ群１３１を複数の第２クラスタに分類する（Ｓ１５）。

　さらに、情報処理装置１は、例えば、各部分データ群１３１に対応する因果グラフ１３２が分類された第１クラスタが同一であって、かつ、各部分データ群１３１が分類された第２クラスタが同一である複数の部分データ群１３１が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１を複数の第３クラスタに分類する（Ｓ１６）。

　その後、情報処理装置１は、例えば、複数の第３クラスタごとに、各クラスタに分類された部分データ群１３１と他のクラスタに分類された部分データ群１３１とを分類可能な第１条件を特定して出力する（Ｓ１７）。

　さらに、本実施の形態における情報処理装置１は、例えば、互いに類似すると判断できる複数のデータ群１３１のうち、互いに類似すると判断できる因果グラフ１３２に対応する複数のデータ群１３１を同一のクラスタに分類することで、互いに類似する複数の因果グラフ１３２が本質的に近いか否かを示す情報や、互いに類似するデータ群１３１が本質的に近いか否かを示す情報を出力することが可能になる。そのため、作業者は、例えば、情報処理装置１が出力した各情報を閲覧することにより、互いに類似する複数の因果グラフ１３２が本質的に近いか否かについての判断や、互いに類似するデータ群１３１が本質的に近いか否かについての判断を容易に行うことが可能になる。

　［第１の実施の形態の詳細］
　次に、第１の実施の形態の詳細について説明を行う。図９から図１１は、第１の実施の形態における原因特定処理の詳細を説明するフローチャート図である。また、図１２から図１９は、第１の実施の形態における原因特定処理の詳細を説明する図である。

　データ受信部１１１は、図９に示すように、例えば、操作端末５から送信された対象データ群１３１を受信するまで待機する（Ｓ２１のＮＯ）。

　そして、対象データ群１３１を受信した場合（Ｓ２１のＹＥＳ）、データ受信部１１１は、受信した対象データ群１３１を情報格納領域１３０に記憶する（Ｓ２２）。具体的に、データ受信部１１１は、例えば、図３で説明した対象データ群１３１を情報格納領域１３０に記憶する。

　その後、データ抽出部１１２は、図１０に示すように、例えば、原因特定タイミングになるまで待機する（Ｓ３１のＮＯ）。

　そして、原因特定タイミングになった場合（Ｓ３１のＹＥＳ）、データ抽出部１１２は、例えば、情報格納領域１３０に記憶した対象データ群１３１を参照し、複数の条件ごとに、複数の特徴量の組み合わせが各条件を満たす部分データ群１３１を抽出する（Ｓ３２）。

　具体的に、データ抽出部１１２は、図１２に示すように、例えば、複数の学生Ｓについての対象データ群１３１から、予め指定された条件Ａに対応する学生Ｓに対応する部分データ群１３１ａと、予め指定された条件Ｂに対応する学生Ｓに対応する部分データ群１３１ｂと、予め指定された条件Ｃに対応する学生Ｓに対応する部分データ群１３１ｃとをそれぞれ抽出する。

　続いて、グラフ生成部１１３は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における関係性を示す因果グラフ１３２を生成する（Ｓ３３）。

　具体的に、グラフ生成部１１３は、図１３に示すように、例えば、部分データ群１３１ａに含まれる複数の特徴量の間における関係性を示す因果グラフ１３２ａと、部分データ群１３１ｂに含まれる複数の特徴量の間における関係性を示す因果グラフ１３２ｂと、部分データ群１３１ｃに含まれる複数の特徴量の間における関係性を示す因果グラフ１３２ｃとをそれぞれ生成する。

　なお、情報処理装置１は、例えば、評価理由を説明可能な学習モデル（ホワイトボックス型の学習モデル）を生成する機械学習技術であるＷｉｄｅ　Ｌｅａｎｉｎｇ（登録商標）を用いることによって、Ｓ１２及びＳ１３の処理を行うものであってよい。

　次に、第１類似度算出部１１４は、例えば、複数の条件ごとの因果グラフ１３２の間における第１類似度情報１３３を算出する（Ｓ３４）。

　具体的に、第１類似度算出部１１４は、例えば、Ｓ３２の処理で生成した因果グラフ１３２についての隣接行列の距離や、Ｓ３２の処理で生成した因果グラフ１３２についての目的変数に対する因果効果の距離等を第１類似度情報１３３として算出するものであってよい。

　また、第２類似度算出部１１５は、例えば、複数の条件ごとの部分データ群１３１の間における第２類似度情報１３４を算出する（Ｓ３５）。

　具体的に、第２類似度算出部１１５は、例えば、Ｓ３１の処理で抽出した部分データ群１３１についてのＪａｃｃａｒｄ係数やＤｉｃｅ係数やＳｉｍｐｓｏｎ係数等を第２類似度情報１３４として算出するものであってよい。

　そして、クラスタリング部１１６は、例えば、第１類似度情報１３３に従って、複数の条件ごとの因果グラフ１３２を複数の第１クラスタに分類する（Ｓ３６）。

　具体的に、クラスタリング部１１６は、図１４に示すように、例えば、Ｓ３４の処理で算出した第１類似度情報１３３が高い因果グラフ１３２が同一の第１クラスタに分類されるように、Ｓ３３の処理で生成した因果グラフ１３２を、クラスタＣＬ１１、クラスタＣＬ１２及びクラスタＣＬ１３を含む複数の第１クラスタに分類する。

　また、クラスタリング部１１６は、例えば、第２類似度情報１３４に従って、複数の条件ごとの部分データ群１３１を複数の第２クラスタに分類する（Ｓ３７）。

　具体的に、クラスタリング部１１６は、図１５に示すように、例えば、Ｓ３５の処理で算出した第２類似度情報１３４が高い部分データ群１３１が同一の第２クラスタに分類されるように、Ｓ３２の処理で抽出した部分データ群１３１を、クラスタＣＬ２１、クラスタＣＬ２２及びクラスタＣＬ２３を含む複数の第２クラスタに分類する。

　その後、クラスタリング部１１６は、例えば、各因果グラフ１３２が分類された第１クラスタが同一であって、かつ、各因果グラフ１３２に対応する部分データ群１３１が分類された第２クラスタが同一である複数の因果グラフ１３２が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１と因果グラフ１３２との組合せを複数の第３クラスタに分類する（Ｓ３８）。

　換言すれば、クラスタリング部１１６は、Ｓ３８の処理において、例えば、各部分データ群１３１に対応する因果グラフ１３２が分類された第１クラスタが同一であって、かつ、各部分データ群１３１が分類された第２クラスタが同一である複数の部分データ群１３１が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１と因果グラフ１３２との組合せを複数の第３クラスタに分類する。

　具体的に、クラスタリング部１１６は、図１６に示すように、例えば、Ｓ３６の処理でクラスタＣＬ１１に分類された因果グラフ１３２のうち、Ｓ３７の処理でクラスタＣＬ２１に分類された部分データ群１３１に対応する因果グラフ１３２をクラスタＣＬ３１に分類する。

　また、クラスタリング部１１６は、図１６に示すように、例えば、Ｓ３６の処理でクラスタＣＬ１３に分類された因果グラフ１３２のうち、Ｓ３７の処理でクラスタＣＬ２１に分類された部分データ群１３１に対応する因果グラフ１３２をクラスタＣＬ３３に分類する。

　さらに、クラスタリング部１１６は、図１６に示すように、例えば、Ｓ３６の処理でクラスタＣＬ１２に分類された因果グラフ１３２のうち、Ｓ３７の処理でクラスタＣＬ２２に分類された部分データ群１３１に対応する因果グラフ１３２をクラスタＣＬ３５に分類する。図１６に含まれる他の情報についての説明は省略する。

　すなわち、クラスタリング部１１６は、部分データ群１３１と因果グラフ１３２との組合せについてのクラスタリングを、各部分データ群１３１の間の類似度と各因果グラフ１３２の間の類似度とに従って行うことで、本質的に近い組合せが同一のクラスタに含まれるように分類を行う。

　これにより、情報処理装置１は、本質的に近い因果関係にある複数の部分データ群１３１及び複数の因果グラフ１３２を集約することが可能になる。

　そして、クラスタリング部１１６は、例えば、複数の第３クラスタから、各クラスタに含まれる部分データ群１３１の数が所定数以下であるクラスタを除外する（Ｓ３９）。所定数は、例えば、１であってよい。

　すなわち、Ｓ３８の処理において部分データ群１３１と因果グラフ１３２との組合せが多く含まれるクラスタに分類されなかった組合せは、外れ値として判断することが可能である。そのため、クラスタリング部１１６は、例えば、外れ値と判断可能な組合せ（外れ値と判断可能な組合せのみを含むクラスタ）を除外する。

　続いて、条件特定部１１７は、図１１に示すように、例えば、複数の第３クラスタごとに、各クラスタに含まれる部分データ群１３１において共通する共通部分データ群１３１ｄを特定する（Ｓ４１）。

　具体的に、条件特定部１１７は、図１７に示すように、例えば、クラスタＣＬ３３に含まれる複数の部分データ群１３１を構成するデータのうち、所定割合以上（例えば、８０（％）以上）の部分データ群１３１に含まれるデータを共通部分データ群１３１ｄとして特定する。

　また、条件特定部１１７は、例えば、複数の第３クラスタごとに、各クラスタに含まれる因果グラフ１３２において共通する共通因果グラフ１３２ｄを生成する（Ｓ４１）。

　具体的に、条件特定部１１７は、図１８に示すように、例えば、クラスタＣＬ３３に含まれる複数の部分データ群１３１に対応する因果グラフ１３２を構成する辺のうち、所定割合以上（例えば、８０（％）以上）の辺を含む新たな因果グラフ１３２を共通因果グラフ１３２ｄとして生成する。

　その後、条件特定部１１７は、例えば、複数の第３クラスタごとに、各クラスタに分類された共通部分データ群１３１ｄを正例とし、他のクラスタに分類された共通部分データ群１３１ｄを負例とする機械学習を行うことによって学習モデルを生成する（Ｓ４２）。

　すなわち、条件特定部１１７は、例えば、複数の第３クラスタごとに、各クラスタに分類されたデータ群と他のクラスタに分類されたデータ群とを分類可能な学習する。

　具体的に、条件特定部１１７は、例えば、Ｗｉｄｅ　Ｌｅａｎｉｎｇ（登録商標）を用いることによって、対象（データ）がｐｏｓｉｔｉｖｅまたはｎｅｇａｔｉｖｅで評価することが可能であり、評価理由を説明可能であり、全ての変数の組合せで構成される条件を網羅的に列挙することが可能であり、さらに、ロジスティック回帰等の手法を用いることによって列挙された条件に重要度（以下、単に重要度とも呼ぶ）を付与することが可能な学習モデルを生成する。

　そして、条件特定部１１７は、例えば、複数の第３クラスタごとに、各クラスタに対応する学習モデルが示す条件を第１条件として特定する（Ｓ４３）。以下、Ｓ４３の処理の具体例について説明を行う。

　［Ｓ４３の処理の具体例］
　図１９は、Ｓ４３の処理の具体例について説明する図である。具体的に、図１９は、Ｓ４２の処理で生成した学習モデルから出力された各条件の重要度を示す重要度情報１３５の具体例を説明する図である。

　図１９に示す重要度情報１３５は、例えば、「年齢＜２０∧留年なし」という条件の「重要度」が「０．９」であり、「平日勉強時間＞３０分」という条件の「重要度」が「０．６」であることを示している。図１９に含まれる他の情報についての説明は省略する。

　そして、例えば、図１９に示す重要度情報１３５における「０．９」が「重要度」の最高値である場合、条件特定部１１７は、例えば、第１条件として「年齢＜２０∧留年なし」を特定する。

　図１１に戻り、条件出力部１１８は、例えば、複数の第３クラスタごとに特定した第１条件を、共通因果グラフ１３２ｄを対応付けて操作端末５に出力する（Ｓ４４）。

　具体的に、条件出力部１１８は、この場合、例えば、共通因果グラフ１３２ｄに含まれる辺のうち、対象データ群１３１の全体に対応する因果グラフ１３２（例えば、グラフ生成部１１３によって予め生成された因果グラフ１３２）に含まれていない辺を強調した状態で出力するものであってもよい。

　これにより、情報処理装置１は、例えば、原因特定処理によって特定した重要な因果関係を強調した形で出力することが可能になる。そのため、情報処理装置１は、例えば、複数の第３クラスタごとに、原因特定処理によって特定した重要な因果関係と、その因果関係が出現する部分データ群１３１の条件（第１条件）とを対応付けた形で出力することが可能になる。

　このように、本実施の形態における情報処理装置１は、例えば、複数の特徴量の組み合わせからなる対象データ群１３１を記憶した情報格納領域１３０を参照して、複数の条件ごとに、複数の特徴量の組み合わせが各条件を満たす部分データ群１３１を抽出する。そして、情報処理装置１は、例えば、複数の条件ごとに、各条件に対応する部分データ群１３１に含まれる複数の特徴量の間における因果グラフ１３２を特定する。

　続いて、情報処理装置１は、例えば、複数の条件ごとの因果グラフ１３２の間における第１類似度に基づいて、複数の条件ごとの因果グラフ１３２を複数の第１クラスタに分類する。また、情報処理装置１は、例えば、複数の条件ごとの部分データ群１３１の間における第２類似度に基づいて、複数の条件ごとの部分データ群１３１を複数の第２クラスタに分類する。

　その後、情報処理装置１は、例えば、各部分データ群１３１に対応する関係性が分類された第１クラスタが同一であって、かつ、各部分データ群１３１が分類された第２クラスタが同一である複数の部分データ群１３１が同一のクラスタに分類されるように、複数の条件ごとの部分データ群１３１を複数の第３クラスタに分類する。

　そして、情報処理装置１は、複数の第３クラスタごとに、各クラスタに分類された部分データ群１３１と他のクラスタに分類された部分データ群１３１とを分類可能な第１条件を特定し、特定した第１条件を複数の第３クラスタの分類結果とともに出力する。

１：情報処理装置　　　　　　　　　５：操作端末
１０：情報処理システム　　　　　　ＮＷ：ネットワーク

Claims

　複数の特徴量の組み合わせからなるデータを複数記憶した記憶部を参照して、複数の条件ごとに、前記組み合わせが各条件を満たすデータ群を抽出し、
　前記複数の条件ごとに、各条件に対応する前記データ群に含まれる前記複数の特徴量の間における関係性を特定し、
　前記複数の条件ごとの前記関係性の間における第１類似度に基づいて、前記複数の条件ごとの前記関係性を複数の第１クラスタに分類し、
　前記複数の条件ごとの前記データ群の間における第２類似度に基づいて、前記複数の条件ごとの前記データ群を複数の第２クラスタに分類し、
　各データ群に対応する前記関係性が分類された前記第１クラスタが同一であって、かつ、各データ群が分類された前記第２クラスタが同一である複数の前記データ群が同一のクラスタに分類されるように、前記複数の条件ごとの前記データ群を複数の第３クラスタに分類し、
　前記複数の第３クラスタごとに、各クラスタに分類された前記データ群と他のクラスタに分類された前記データ群とを分類可能な第１条件を特定し、
　特定した前記第１条件を前記複数の第３クラスタの分類結果とともに出力する、
　処理をコンピュータに実行させることを特徴とする情報処理プログラム。
　請求項１において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタのうち、各クラスタに分類された前記データ群の数が所定以上であるクラスタごとに、前記第１条件を特定して出力する、
　ことを特徴とする情報処理プログラム。
　請求項１において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタごとに、各クラスタに分類された１以上の前記データ群において共通する共通データ群を特定し、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群と他のクラスタに分類された前記共通データ群とを分類可能な条件を前記第１条件として特定する、
　ことを特徴とする情報処理プログラム。
　請求項３において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群を正例とし、他のクラスタに分類された前記共通データ群を負例とする機械学習を行うことによって学習モデルを生成し、
　前記複数の第３クラスタごとに、各クラスタに対応する前記学習モデルが示す条件を前記第１条件として特定する、
　ことを特徴とする情報処理プログラム。
　請求項１において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタごとに、各クラスタに分類された１以上の前記データ群に対応する１以上の前記関係性において共通する共通関係性を特定し、
　前記出力する処理では、前記共通関係性を示す情報を前記複数の第３クラスタの分類結果として出力する、
　ことを特徴とする情報処理プログラム。
　請求項５において、
　前記出力する処理では、前記共通関係性のうち、前記記憶部に記憶したデータのそれぞれに含まれる前記複数の特徴量の間における関係性に含まれていない関係性を示す情報を出力する、
　ことを特徴とする情報処理プログラム。
　複数の特徴量の組み合わせからなるデータを複数記憶した記憶部を参照して、複数の条件ごとに、前記組み合わせが各条件を満たすデータ群を抽出するデータ抽出部と、
　前記複数の条件ごとに、各条件に対応する前記データ群に含まれる前記複数の特徴量の間における関係性を特定する関係性特定部と、
　前記複数の条件ごとの前記関係性の間における第１類似度に基づいて、前記複数の条件ごとの前記関係性を複数の第１クラスタに分類し、前記複数の条件ごとの前記データ群の間における第２類似度に基づいて、前記複数の条件ごとの前記データ群を複数の第２クラスタに分類し、各データ群に対応する前記関係性が分類された前記第１クラスタが同一であって、かつ、各データ群が分類された前記第２クラスタが同一である複数の前記データ群が同一のクラスタに分類されるように、前記複数の条件ごとの前記データ群を複数の第３クラスタに分類するクラスタリング部と、
　前記複数の第３クラスタごとに、各クラスタに分類された前記データ群と他のクラスタに分類された前記データ群とを分類可能な第１条件を特定する条件特定部と、
　特定した前記第１条件を前記複数の第３クラスタの分類結果とともに出力する条件出力部と、を有する、
　ことを特徴とする情報処理装置。
　請求項７において、
　前記条件特定部は、
　前記複数の第３クラスタごとに、各クラスタに分類された１以上の前記データ群において共通する共通データ群を特定し、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群と他のクラスタに分類された前記共通データ群とを分類可能な条件を前記第１条件として特定する、
　ことを特徴とする情報処理装置。
　請求項８において、
　前記条件特定部は、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群を正例とし、他のクラスタに分類された前記共通データ群を負例とする機械学習を行うことによって学習モデルを生成し、
　前記複数の第３クラスタごとに、各クラスタに対応する前記学習モデルが示す条件を前記第１条件として特定する、
　ことを特徴とする情報処理装置。
　複数の特徴量の組み合わせからなるデータを複数記憶した記憶部を参照して、複数の条件ごとに、前記組み合わせが各条件を満たすデータ群を抽出し、
　前記複数の条件ごとに、各条件に対応する前記データ群に含まれる前記複数の特徴量の間における関係性を特定し、
　前記複数の条件ごとの前記関係性の間における第１類似度に基づいて、前記複数の条件ごとの前記関係性を複数の第１クラスタに分類し、
　前記複数の条件ごとの前記データ群の間における第２類似度に基づいて、前記複数の条件ごとの前記データ群を複数の第２クラスタに分類し、
　各データ群に対応する前記関係性が分類された前記第１クラスタが同一であって、かつ、各データ群が分類された前記第２クラスタが同一である複数の前記データ群が同一のクラスタに分類されるように、前記複数の条件ごとの前記データ群を複数の第３クラスタに分類し、
　前記複数の第３クラスタごとに、各クラスタに分類された前記データ群と他のクラスタに分類された前記データ群とを分類可能な第１条件を特定し、
　特定した前記第１条件を前記複数の第３クラスタの分類結果とともに出力する、
　処理をコンピュータが実行することを特徴とする情報処理方法。
　請求項１０において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタごとに、各クラスタに分類された１以上の前記データ群において共通する共通データ群を特定し、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群と他のクラスタに分類された前記共通データ群とを分類可能な条件を前記第１条件として特定する、
　ことを特徴とする情報処理方法。
　請求項１１において、
　前記第１条件を特定する処理では、
　前記複数の第３クラスタごとに、各クラスタに分類された前記共通データ群を正例とし、他のクラスタに分類された前記共通データ群を負例とする機械学習を行うことによって学習モデルを生成し、
　前記複数の第３クラスタごとに、各クラスタに対応する前記学習モデルが示す条件を前記第１条件として特定する、
　ことを特徴とする情報処理方法。