JPWO2018042606A1 - 分析装置、分析システムおよび分析方法 - Google Patents
分析装置、分析システムおよび分析方法 Download PDFInfo
- Publication number
- JPWO2018042606A1 JPWO2018042606A1 JP2018536626A JP2018536626A JPWO2018042606A1 JP WO2018042606 A1 JPWO2018042606 A1 JP WO2018042606A1 JP 2018536626 A JP2018536626 A JP 2018536626A JP 2018536626 A JP2018536626 A JP 2018536626A JP WO2018042606 A1 JPWO2018042606 A1 JP WO2018042606A1
- Authority
- JP
- Japan
- Prior art keywords
- factors
- occurrence
- factor
- prediction
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 99
- 238000005259 measurement Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 108
- 238000009826 distribution Methods 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 74
- 239000003814 drug Substances 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 39
- 229940079593 drug Drugs 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 4
- 201000010099 disease Diseases 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 230000006870 function Effects 0.000 description 11
- 238000000342 Monte Carlo simulation Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 230000035876 healing Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
分析装置は、記憶デバイスに、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、複数の因子の予測値を含む学習データ由来の予測データを複数有する予測データ集合と、目的変数の実測値と複数の因子の実測値との関係を示す学習モデルと、を記憶しておき、複数の因子の値どうしが類似するように予測データ集合をクラスタリングして、複数の因子クラスタを生成し、予測データ集合を用いて、複数の因子の相関により複数の因子が共起する共起量を算出し、共起量に基づいて複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成し、複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における2以上の因子の予測値のうち、複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、学習モデルに与えることにより、特定の因子クラスタにおける目的変数の予測値を算出する。
Description
本発明は、データを分析する分析装置、分析システムおよび分析方法に関する。
特許文献1は、患者属性と1つ以上の有害事象(Adverse Events;AE)との間の相関に関する情報を識別および提供する臨床意思決定支援システムとともに使用するコンピュータ実装方法、システム、およびコンピュータ可読記憶媒体を開示する。特許文献1のプロセスは、AEと患者属性との間の相関に対してAEおよび1つ以上の患者属性を含むデータベース情報を処理することと、1つ以上のAEと1つ以上の患者属性との間の少なくとも1つの相関を識別することとを含む。相関は、1つ以上の相関ルールを決定するための相関ルール発見プロセスを介して発見されてもよい。各相関ルールは、確信度、支持度、および/または他の閾値を満たす。当該プロセスは、識別または発見された相関に基づいて、ユーザに情報または警告をさらに提供する。
特許文献2は、診療に対する適切な支援を行う診療支援プログラムを開示する。特許文献2の診療支援プログラムでは、診断された病気に対する患者の治療期間と前記診断された病気に対する基準治癒期間とを比較し、前記患者の治療期間が前記基準治癒期間を越えている場合に、類似する症状を発症させるそれぞれの病気を関連付けて記憶する記憶手段から前記診断された病気の症状に類似する症状を発症させる他の病気を検索し、検索した前記他の病気の病名情報を出力する、処理をコンピュータに実行させる。
しかしながら、上述した従来技術では、学習データから学習モデルを生成しても、どの因子が他のどの因子と関連するかがわからないという問題がある。たとえば、目的変数を疾病確率、因子を複数の薬の投与量とした場合、たとえば、薬Aと薬Bとを組み合わせて患者に投与することが効果的なのか、副作用が生じるのかがわからないという問題がある。
本発明は、因子の組み合わせの有効性を分析することを目的とする。
本願において開示される発明の一側面となる分析装置、分析システムおよび分析方法は、記憶デバイスに、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しておき、前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、を実行することを特徴とする。
本発明の代表的な実施の形態によれば、因子の組み合わせの有効性を分析することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
<データ分析例>
図1は、実施例1にかかるデータ分析例を示す説明図である。(1)〜(6)は、分析装置による分析方法の手順を示す。(1)分析装置は、学習データ集合10から学習モデルを生成する。学習データ集合10は、例として、目的変数を薬効、具体的には疾病確率とし、因子を複数の薬の患者への投与量とする。疾病確率は、0%〜100%で表現できるが、ここでは、疾病を1(=100%)、健康を0(=0%)とする。また、因子は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、数万から数億の薬である。また、各エントリは、患者を示す。患者は便宜的にA〜Fの6人であるが、実際には、たとえば、数万から数億の患者である。
図1は、実施例1にかかるデータ分析例を示す説明図である。(1)〜(6)は、分析装置による分析方法の手順を示す。(1)分析装置は、学習データ集合10から学習モデルを生成する。学習データ集合10は、例として、目的変数を薬効、具体的には疾病確率とし、因子を複数の薬の患者への投与量とする。疾病確率は、0%〜100%で表現できるが、ここでは、疾病を1(=100%)、健康を0(=0%)とする。また、因子は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、数万から数億の薬である。また、各エントリは、患者を示す。患者は便宜的にA〜Fの6人であるが、実際には、たとえば、数万から数億の患者である。
(1)学習モデルの生成において、生成される学習モデルには、線形モデルと非線形モデルがある。線形モデルには、たとえば、線形分類(Linear Classification)とロジスティック回帰(Logistic Regression)とがある。非線形モデルには、たとえば、ニューラルネットワーク(Neural Network)、サポートベクターマシン(Support Vector Machine)、アダブースト(Adaboost)、ランダムフォレスト(Random Forests)がある。ユーザは、学習モデルの生成の際に、いずれかのモデルを選択することができる。たとえば、ユーザは、因子の組み合わせの有効性を高速に分析したい場合には、線形モデルを選択すればよく、高精度に分析したい場合には、非線形モデルを選択すればよい。
(2)分析装置は、(1)で生成された学習モデルから各因子の確率分布20を生成する。具体的には、たとえば、分析装置は、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布20を2組(それぞれd1、d2と称す)生成する。これにより、仮想的な因子データを大量に収集することができる。
(3)分析装置は、(2)で生成された因子の確率分布d1,d2が同一の確率分布に収束するか否かを判定する。収束判定には、具体的には、たとえば、Gelman−Rubin法が用いられる。収束するまで、分析装置は、(2)の因子の確率分布20を生成する。
(4)分析装置は、(3)で収束すると判定された因子の確率分布d1、d2を統合し、統合した因子の確率分布(統合確率分布D)について、因子クラスタリングを実行する。因子クラスタリングには、具体的には、たとえば、k−meansクラスタリングが用いられる。クラスタ数は、あらかじめ設定される。ここでは、クラスタ数は例として「3」とする。これにより、因子クラスタリング結果40において、統合確率分布Dのエントリは、3種類の患者タイプα、β、γに分類される。
(5)また、分析装置は、統合確率分布Dについて、共起クラスタリングを実行する。具体的には、たとえば、分析装置は、統合確率分布Dの因子同士の相関係数を共起量として算出する。そして、分析装置は、共起量に階層クラスタリング法を適用し、共起クラスタを生成する。ここでは、共起クラスタ1(薬1,薬2)と共起クラスタ2(薬3,薬4)が得られたものとする。なお、ここでは、共起クラスタは、2つの因子の組み合わせであるが、3以上の因子の組み合わせでもよい。
(6)分析装置は、患者タイプα、β、γごとに、共起クラスタに属する因子を学習モデルに与えることにより、患者タイプα、β、γごとの疾病確率の予測値を算出する。このように、分析装置は、因子の組み合わせの有効性を分析することができる。
<分析装置のハードウェア構成例>
図2は、分析装置のハードウェア構成例を示すブロック図である。分析装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バスにより接続される。プロセッサ201は、分析装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。
図2は、分析装置のハードウェア構成例を示すブロック図である。分析装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バスにより接続される。プロセッサ201は、分析装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワークと接続し、データを送受信する。
<学習データ例>
図3は、図1に示した学習データ集合10の詳細な内容を示す説明図である。学習データ集合10は、例として、テーブル形式のデータとする。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、患者IDフィールド301の値を、患者ID301と表記する。
図3は、図1に示した学習データ集合10の詳細な内容を示す説明図である。学習データ集合10は、例として、テーブル形式のデータとする。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、患者IDフィールド301の値を、患者ID301と表記する。
学習データ集合10は、患者IDフィールド301と、目的変数フィールド302と、因子フィールド303と、を有する。同一行における各フィールド301〜303の値が患者情報となるエントリを構成する。図3では、エントリ数は「6」であるが、実際には、たとえば、数万から数億の患者のエントリがある。
患者IDフィールド301は、患者IDを格納する記憶領域である。患者ID301は、患者を一意に特定する識別情報である。
目的変数フィールド302は、患者ID301ごとの目的変数を格納する記憶領域である。目的変数302は、疾病確率を示す。疾病確率は、0%〜100%で表現できるが、学習データ集合10は実測値であるため、疾病を1(=100%)、健康を0(=0%)とする。
因子フィールド303は、複数の因子を格納する記憶領域である。因子303は、薬の投与量を示す説明変数である。本例では、因子303は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、数万から数億の薬である。なお、因子303である薬の投与量の単位は、薬ごとに定められる。
図3において、患者ID301が「患者A」のエントリは、患者Aに薬1を「20」、薬2を「13.0」、薬4を「22.0」を投与された結果、患者Aは疾病であることを示す。また、患者ID301が「患者B」のエントリは、患者Bに薬1を「10」、薬2を「23.0」、薬3を「1」、薬4を「31.0」を投与された結果、患者Bは疾病であることを示す。
<初期設定画面例>
図4は、初期設定画面例を示す説明図である。初期設定画面400は、出力デバイス204の一例であるディスプレイに表示され、入力デバイス203により設定される。機械学習選択領域401は、機械学習方法を選択するプルダウン式のインタフェースである。因子クラスタリング設定領域402は、クラスタリング方法と、クラスタ数と、を設定する領域である。因子クラスタリング選択領域403は、因子クラスタリングの手法を選択するプルダウン式のインタフェースである。因子クラスタ数設定領域404は、因子クラスタリングで得たいクラスタの数を設定する入力欄である。
図4は、初期設定画面例を示す説明図である。初期設定画面400は、出力デバイス204の一例であるディスプレイに表示され、入力デバイス203により設定される。機械学習選択領域401は、機械学習方法を選択するプルダウン式のインタフェースである。因子クラスタリング設定領域402は、クラスタリング方法と、クラスタ数と、を設定する領域である。因子クラスタリング選択領域403は、因子クラスタリングの手法を選択するプルダウン式のインタフェースである。因子クラスタ数設定領域404は、因子クラスタリングで得たいクラスタの数を設定する入力欄である。
σ値設定領域405は、σ値を設定する入力欄である。σ値は、図1の(2)各因子の確率分布20の生成において、マルコフ連鎖モンテカルロ法の採択率αで用いられる固定のパラメータである。σ値は、0よりも大きく1以下の範囲の値である。
共起クラスタリング設定領域406は、共起方法と、クラスタリング方法と、クラスタ数と、しきい値とを設定する領域である。共起量選択領域407は、共起量の計算方法を選択するプルダウン式のインタフェースである。共起クラスタリング選択領域408は、共起クラスタリングの手法を選択するプルダウン式のインタフェースである。共起クラスタ数設定領域409は、因子クラスタリングで得たい共起クラスタの数を設定する入力欄である。しきい値設定領域410は、因子クラスタの関連度を示す相関値の予測値についてのしきい値を設定する入力欄である。決定ボタン411は、各項目401〜410の値を入力するボタンである。
<分析処理手順例>
図5は、分析装置200による分析処理手順例を示すフローチャートである。分析装置200は、記憶デバイス202に記憶された分析プログラムをプロセッサ201に実行させることにより、図5のフローチャートに示す処理を実行する。まず、分析装置200は、初期設定を実行する(ステップS501)。初期設定(ステップS501)では、図4に示した初期設定画面がディスプレイに表示される。ユーザは、初期設定画面の各項目401〜409について選択または入力をする。分析装置200は、入力ボタン410の押下を検出することで、各項目401〜409の値を読み込む。
図5は、分析装置200による分析処理手順例を示すフローチャートである。分析装置200は、記憶デバイス202に記憶された分析プログラムをプロセッサ201に実行させることにより、図5のフローチャートに示す処理を実行する。まず、分析装置200は、初期設定を実行する(ステップS501)。初期設定(ステップS501)では、図4に示した初期設定画面がディスプレイに表示される。ユーザは、初期設定画面の各項目401〜409について選択または入力をする。分析装置200は、入力ボタン410の押下を検出することで、各項目401〜409の値を読み込む。
つぎに、分析装置200は、図1の(1)に示したように、学習データ集合10から学習モデルを生成する(ステップS502)。ロジスティック回帰の場合、学習モデルは下記式(1)で表現される。
y=f(x)=σ(wtx+b)・・・(1)
yは目的変数を示すスカラである。xはm次元の特徴量ベクトルである。mは因子の個数に相当する。図3の学習データ集合10では、因子303の数は4個(薬1〜薬4)であるため、m=4である。σ()はシグモイド関数である。ベクトルwとスカラbは、それぞれ、重みとバイアスのパラメータであり、学習パラメータと呼ばれる。非線形モデルの場合、シグモイド関数σ()内のwtxが、ベクトルwと因子xとに基づくwtxよりも複雑な関数に置き換わる。
分析装置200は、図4の機械学習選択領域401で選択された機械学習方法に応じた学習モデルを選択して、学習モデルを表現する学習パラメータを求める。
つぎに、分析装置200は、図1の(2)に示したように、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d1,d2を生成する(ステップS503)。
図6は、因子の確率分布d1,d2を示す説明図である。因子の確率分布d1,d2は、仮想患者IDフィールド601と、目的変数フィールド602と、因子フィールド603と、を有する。同一行における各フィールド601〜603の値が仮想患者情報となるエントリを構成する。なお、エントリ数は、学習データ集合10のエントリ数と同数とする。
仮想患者IDフィールド601は、仮想患者IDを格納する記憶領域である。仮想患者ID601は、仮想患者を一意に特定する識別情報である。
目的変数フィールド602は、仮想患者ID601ごとの目的変数を格納する記憶領域である。目的変数602は、疾病確率を示す。疾病確率は、0%〜100%で表現される。
因子フィールド603は、複数の因子を格納する記憶領域である。因子603は、薬の投与量を示す説明変数である。本例では、因子603の数は、学習データ集合10の因子303の数と同数となる。
因子の確率分布d1,d2のエントリである仮想患者情報の生成例について説明する。分析装置200は、学習データ集合10のエントリ群からいずれかのエントリの因子ベクトルを選択する。たとえば、患者ID301が「患者A」の因子ベクトルx=(20,13.0,0,22.0)が選択されたとする。分析装置200は、選択した因子ベクトルの各要素に乱数値rを加算して、仮想因子ベクトルx’=(20+r,13.0+r,0+r,22.0+r)とする。
分析装置200は、選択された因子ベクトルxと仮想因子ベクトルx’とをマルコフ連鎖モンテカルロ法の採択率αの式(2)に代入する。
関数qはガウス分布関数である。関数q(x’|x)は、因子ベクトルxが与えられた場合に仮想因子ベクトルx’を生成する確率を示すガウス分布関数である。関数q(x|x’)は、仮想因子ベクトルx’が与えられた場合に因子ベクトルxを生成する確率を示すガウス分布関数である。関数fは、たとえば、式(1)に示したような、ステップS502で生成された学習モデルである。σには、σ値設定領域405に入力されたσ値が代入される。σ値により、採択率αは、(1−σ)以上の疾病確率の患者情報を含むガウス分布となる。すなわち、(1−σ)以上の疾病確率となる仮想患者情報の仮想因子ベクトルx’を採択率αで採択することができる。
次に、0〜1の区間で一様な乱数βを発生させ、採択率αがしきい値β(たとえば、1)以上である場合、分析装置200は、仮想因子ベクトルx’を採択する。採択率αがしきい値以上でない場合、分析装置200は、因子ベクトルxを採択する。採択された因子ベクトルを採択因子ベクトル<x>と表記する。
採択率αがしきい値β(たとえば、1)以上である場合、分析装置200は、採択因子ベクトル<x>と乱数ベクトルRとを比較する。具体的には、たとえば、分析装置200は、採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上であるか否かを判断する。採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上である場合、分析装置200は、採択因子ベクトル<x>を新規の仮想患者の仮想因子ベクトルに決定する。
採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上でない場合、分析装置200は、因子ベクトルxを新規の仮想患者の仮想因子ベクトルに決定する。なお、採択因子ベクトル<x>のすべての要素が、乱数ベクトルRの対応する要素以上であることを判断の条件としたが、採択因子ベクトル<x>の一部の要素が、乱数ベクトルRの対応する要素以上であるとしてもよい。
このあと、分析装置200は、各仮想患者情報のエントリにおいて、学習モデルに新規の仮想患者の仮想因子ベクトルである因子603を与えることで、目的変数602である疾病確率を算出する。このようにして、ステップS503において、仮想患者情報のエントリが設定され、因子の確率分布d1,d2が生成される。
図5に戻り、分析装置200は、図1の(3)に示したように、因子の確率分布d1,d2が同一の確率分布に収束しているかを判定する(ステップS504)。具体的には、たとえば、分析装置200は、因子の確率分布d1,d2が同一の確率分布に収束しているかを検証するための収束値を、Gelman−Rubin法により計算する。より具体的には、分析装置200は、因子の確率分布d1の列データと、当該列データに対応する因子の確率分布d2の列データとを、Gelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。
たとえば、分析装置200は、因子の確率分布d1の目的変数602の列データと、因子の確率分布d2の目的変数602の列データとをGelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。また、分析装置200は、因子の確率分布d1の因子603における薬1の列データと、因子の確率分布d2の因子603における薬1の列データとをGelman−Rubinの収束判定式に与えて、収束値Rhatを算出する。薬2以降の列データに付いても同様に、分析装置200は、収束値Rhatを算出する。
収束値Rhatが1.1以下であれば、因子の確率分布d1,d2の列データは、同一の確率分布に収束すると判定する。分析装置200は、収束しないと判定された列データを削除する。残存列データの数がしきい値(たとえば、50%以上)以上であれば、因子の確率分布d1,d2が同一の確率分布に収束していることとなり(ステップS504:Yes)、ステップS505に移行する。残存列データの数がしきい値以上でなければ(ステップS504:No)、ステップS503に戻り、分析装置200は、学習データ集合10由来の因子の確率分布d1,d2を再生成する。また、因子の確率分布d1,d2の因子603の列データが1つでも削除された場合、分析装置200は、残存する因子603を学習モデルに与えて、目的変数602を再計算する。
収束しない列データを削除することにより、因子の確率分布d1,d2の信頼性の向上を図ることができ、分析精度が向上する。また、残存列データの数がしきい値以上であれば、分析装置200は、収束しないと判定された列データを削除せずに、ステップS504に移行してもよい。これにより、因子603を網羅した分析をおこなうことができる。また、ステップS504を実行しないこととしてもよい。これにより、分析速度の向上を図ることができる。
つぎに、分析装置200は、ステップS504において収束判定された因子の確率分布d1,d2を統合する(ステップS505)。統合した因子の確率分布を統合確率分布Dとする。
図7は、統合確率分布Dの一例を示す説明図である。図7では、説明の便宜上、図6に示した因子の確率分布d1,d2を連結した内容としたが、ステップS504において因子603におけるいずれかの列データが削除されている場合は、統合確率分布Dにおいても削除された状態となる。
つぎに、分析装置200は、図1の(4)に示したように、統合確率分布Dを用いて、因子クラスタリングにより因子クラスタを生成する(ステップS506)。分析装置200は、初期設定(ステップS501)において、因子クラスタリング選択領域403で選択された因子クラスタリングを実行し、因子クラスタ数設定領域404で設定されたクラスタ数分の因子クラスタを生成する。
図8は、因子クラスタリング結果40を示す説明図である。因子クラスタリング結果40は、患者タイプIDフィールド801と、目的変数フィールド802と、因子フィールド803と、を有する。同一行における各フィールド801〜803の値が患者タイプ情報となるエントリを構成する。
患者タイプIDフィールド801は、患者タイプIDを格納する記憶領域である。患者タイプID801は、因子クラスタリングで分類された患者タイプを一意に特定する識別情報である。
目的変数フィールド802は、患者タイプID801ごとの目的変数を格納する記憶領域である。目的変数802は、疾病確率を示す。疾病確率は、0%〜100%で表現される。
因子フィールド803は、複数の因子を格納する記憶領域である。因子803は、患者タイプへの薬の投与量を示す説明変数である。本例では、因子803は、便宜的に薬1〜薬4の4つの説明変数であるが、実際には、たとえば、収束判定(ステップS504)後に残存する薬である。
図8では、因子クラスタリングとしてk−meansクラスタリングが用いられ、クラスタ数は例として「3」とする。これにより、統合確率分布Dのエントリは、3種類の患者タイプα、β、γの因子クラスタに分類される。
図5に戻り、分析装置200は、各因子クラスタから各因子の統計値を算出する(ステップS507)。具体的には、たとえば、分析装置200は、因子フィールド803に、当該エントリの患者タイプに所属する統合確率分布D内の仮想患者情報における統計値を設定する。当該統計値は、たとえば、中央値である。中央値のほか、平均値、最大値、最小値、ランダムに選択された値でもよい。また、分析装置200は、因子803である統計値を学習モデルに与えることにより、目的変数802である疾病確率を算出する。このように、患者タイプの因子803および説明変数802は、統計値および統計値由来の疾病確率に集約される。
また、分析装置200は、統合確率分布Dの因子同士の共起量を算出する(ステップS508)。共起量とは、2つの因子間の相関値である。具体的には、たとえば、分析装置200は、統合確率分布D内の全因子を総当たりで組み合わせ、因子間の相関値を算出する。相関値は、初期設定(ステップS501)において、共起量選択領域407で選択された計算方法により算出される。
つぎに、分析装置200は、図1の(5)に示したように、共起クラスタリングにより共起クラスタを生成する(ステップS509)。具体的には、たとえば、分析装置200は、共起量に階層クラスタリング法を適用し、共起クラスタを生成する。階層クラスタリングとは、個々のデータを1つの共起クラスタとして設定しておき、共起クラスタ間の類似度を計算し、最も類似する共起クラスタを併合し、すべての共起クラスタが1つのクラスタになるまで処理を繰り返し、デンドログラムを生成するすクラスタリングである。ここで、共起クラスタ間の類似度とは、たとえば、共起クラスタ間の距離の短さである。具体的には、たとえば、最近隣法、最遠隣法、または重心法により、共起クラスタ間の距離が定義される。
図9は、共起クラスタリング(S508、S509)の処理例を示す説明図である。(A)は、ステップS508の処理を示す。共起量テーブル900は、因子間の相関値を保持するテーブルである。(B)は、ステップS509の処理を示す。(B)において、分析装置200は、同一因子の相関値を削除する。また、分析装置200は、階層クラスタリングのために相関値を1から相関値を減じた相関値に変換する。(B)では、相関値が小さいほどその因子同士は類似することを意味する。したがって、分析装置200は、相関値が最小となる因子の組み合わせを共起クラスタとして選択する。(B)の場合は、薬1と薬2の組み合わせ(共起クラスタ1)と、薬3と薬4の組み合わせ(共起クラスタ2)とが選択される。なお、ここでは、共起クラスタは、2つの因子の組み合わせであるが、3以上の因子の組み合わせでもよい。
なお、(B)の処理は、共起クラスタの数が共起クラスタ数設定領域409で設定された共起クラスタ数になるまで、または、これ以上クラスタを併合できない状態になるまで、実行される。
図5に戻り、分析装置200は、図1の(6)に示したように、共起クラスタの予測値を算出する(ステップS510)。具体的には、たとえば、分析装置200は、患者タイプα、β、γごとに、共起クラスタに属する因子を学習モデルに与えることにより、患者タイプα、β、γごとの疾病確率の予測値を算出する。
図10は、ステップS510による予測結果1000を示す説明図である。このように、分析装置200は、因子の組み合わせの有効性を分析することができる。
図5に戻り、分析装置200は、予測結果1000のしきい値処理を実行する(ステップS511)。具体的には、たとえば、分析装置200は、予測値がしきい値以上の患者タイプと因子クラスタの組み合わせを選択する。たとえば、しきい値設定領域410に設定されたしきい値が「0.8」である場合、分析装置200は、患者タイプαの因子クラスタ1、患者タイプβの因子クラスタ1、患者タイプγの因子クラスタ1を計算マーカとして選択する。
分析装置200は、ステップS510またはS511の処理結果を出力する(ステップS512)。具体的には、たとえば、分析装置200は、出力デバイス204の一例であるディスプレイの表示画面を制御して処理結果を表示画面に表示したり、通信IF205を介して外部装置に処理結果を送信したり、記憶デバイス202に処理結果を書き込んだりする。また、ステップS504の収束判定結果も出力してもよい。
<表示画面例>
図11は、表示画面例を示す説明図である。表示画面1100は、出力デバイス204の一例であるディスプレイに表示される。表示画面1100は、スコア表示領域1101と、予測結果表示領域1102と、デンドログラム表示領域1103と、を有する。スコア表示領域1101には、収束判定(ステップS504)での収束値Rhatが表示される。予測結果表示領域1102には、図10に示した予測結果1000が表示される。図11に示すように、棒グラフで表示してもよい。デンドログラム表示領域1103には、階層クラスタリングにおけるデンドログラムが表示される。このように、図5に示した処理の途中結果や最終結果が表示画面1100に表示される。
図11は、表示画面例を示す説明図である。表示画面1100は、出力デバイス204の一例であるディスプレイに表示される。表示画面1100は、スコア表示領域1101と、予測結果表示領域1102と、デンドログラム表示領域1103と、を有する。スコア表示領域1101には、収束判定(ステップS504)での収束値Rhatが表示される。予測結果表示領域1102には、図10に示した予測結果1000が表示される。図11に示すように、棒グラフで表示してもよい。デンドログラム表示領域1103には、階層クラスタリングにおけるデンドログラムが表示される。このように、図5に示した処理の途中結果や最終結果が表示画面1100に表示される。
このように、実施例1によれば、分析装置200は、複数の因子の値どうしが類似するように予測データ集合(たとえば、統合確率分布D)をクラスタリングして、複数の因子クラスタを生成する第1生成処理を実行する(ステップS506)。分析装置200は、予測データ集合(たとえば、統合確率分布D)を用いて、複数の因子の相関により複数の因子が共起する共起量を算出する第1算出処理を実行する(ステップS508)。分析装置200は、第1算出処理によって算出された共起量に基づいて複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理を実行する(ステップS509)。分析装置200は、第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における2以上の因子の予測値のうち、第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、学習モデルに与える。そして、分析装置200は、特定の因子クラスタにおける目的変数の予測値を算出する第2算出処理を実行する(ステップS510)。
これにより、分析装置200は、複数の因子が共起した特定の因子クラスタにおける目的変数の予測値により、因子の組み合わせの有効性を分析することができる。
また、分析装置200は、特定の予測データ群における2以上の因子の予測値に基づいて、特定の因子クラスタにおける2以上の因子の予測値を代表する統計値を算出する第3算出処理を実行する(ステップS510)。これにより、分析装置200は、複数の因子が共起した特定の因子クラスタにおける目的変数の予測値の算出に際し、計算量の低減化を図ることができる。したがって、分析速度の向上を図ることができる。
また、分析装置200は、学習モデルの種類を設定する設定処理を実行する(ステップS501)。また、分析装置200は、目的変数の実測値と複数の因子の実測値とを用いて、設定処理によって設定された種類の学習モデルを生成して、記憶デバイスに格納する第3生成処理を実行する(ステップS502)。これにより、ユーザは、目的に応じて学習モデルの種類を選択することができる。
また、分析装置200は、設定処理では、種類として、線形モデルまたは非線形モデルを設定する。これにより、分析装置200は、線形モデルが設定された場合、分析速度の向上を図ることができ、非線形モデルが設定された場合、分析精度の向上を図ることができる。換言すれば、ユーザは、分析結果がより早く得たい場合は、線形モデルを選択し、分析精度を上げたい場合は、非線形モデルを選択することができる。
また、予測データ集合(たとえば、統合確率分布D)は、学習モデルを用いた確率サンプリング法によって学習データ集合10から生成されたデータ集合としてもよい。これにより、予測データ集合(たとえば、統合確率分布D)は、学習モデルに依存したデータ集合となる。したがって、たとえば、非線形モデルが設定された場合、予測データ集合(たとえば、統合確率分布D)は、線形モデルが設定された場合に比べて、精度のよいデータ集合となる。
また、分析装置200は、学習モデルを用いた確率サンプリング法(たとえば、マルコフ連鎖モンテカルロ法)によって予測データまたは予測データに類似するデータのいずれか一方を採択することにより、2つの予測データ群(たとえば、因子の確率分布d1,d2)を生成する第4生成処理を実行する(ステップS503)。予測データに類似するデータとは、上述したように、予測データである因子の各値にランダム値が加算されたデータである。分析装置200は、第4生成処理によって生成された2つの予測データ群(たとえば、因子の確率分布d1,d2)が同一の確率分布に収束するか否かを判定する判定処理を実行する(ステップS504)。分析装置200は、判定処理による判定結果に基づいて2つの予測データ群(たとえば、因子の確率分布d1,d2)を統合することにより、予測データ集合(たとえば、統合確率分布D)を生成する統合処理を実行する(ステップS505)。
判定処理により、2つの予測データ群(たとえば、因子の確率分布d1,d2)が同一の確率分布、たとえば、学習データ集合10の確率分布に収束するか否かが判定される。これにより、収束していれば、2つの予測データ群(たとえば、因子の確率分布d1,d2)が学習データ集合10に類似すると判明するため、2つの予測データ群(たとえば、因子の確率分布d1,d2)から予測データ集合(たとえば、統合確率分布D)が生成される。これにより、予測データ集合(たとえば、統合確率分布D)の予測値としての確からしさ、すなわち、生成精度の向上を図ることができる。
また、分析装置200は、学習モデルを用いた確率サンプリング法(たとえば、マルコフ連鎖モンテカルロ法)によって予測データまたは予測データに類似するデータのいずれか一方を採択する採択率αを制御するパラメータの値(たとえば、σ値)を設定する設定処理を実行する(ステップS501)。これにより、(1−σ)以上の目的変数となる因子を採択率αで採択することができる。
また、分析装置200は、因子クラスタの生成数を設定する設定処理を実行する(ステップS501)。これにより、分析装置200は、ユーザが指定した数分の因子クラスタを生成することができる。具体的には、たとえば、因子クラスタの生成数が増加するほど、予測データ集合(たとえば、統合確率分布D)が細分化される。これにより、ユーザは、分析結果がより早く得たい場合は、因子クラスタの生成数を低めに設定し、分析精度を上げたい場合は、因子クラスタの生成数を高めに設定することができる。
また、分析装置200は、共起クラスタの生成数を設定する設定処理を実行する(ステップS501)。これにより、これにより、分析装置200は、ユーザが指定した数分の共起クラスタを生成することができる。具体的には、たとえば、共起クラスタの生成数が増加するほど、共起しあう因子の数や、共起しあう因子の組み合わせの数が増加する。したがって、ユーザは、分析結果がより早く得たい場合は、共起クラスタの生成数を低めに設定し、分析精度を上げたい場合は、共起クラスタの生成数を高めに設定することができる。
また、実施例1では、複数の因子303,603を複数の薬の患者への投与量とし、目的変数302,602を患者に複数の薬を投与量投与した場合の薬効を示す値(たとえば、疾病確率)とした。これにより、複数の薬の各々をどのタイプ(因子クラスタ)の患者にどの程度投与したら、どの程度の薬効があるかを予測することができる。
なお、上述した実施例1では、薬効分析を例に挙げて説明したが、商品レコメンデーションにも適用可能である。この場合、図3に示した学習データ集合10において、患者ID301は、たとえば、患者ではなく顧客に替わる。因子303は、たとえば、商品またはサービス(商品またはサービスのジャンルでもよい)の購入数(商品の場合)や利用回数(サービスの場合)を示す。目的変数302は、たとえば、商品またはサービス(商品またはサービスのジャンルでもよい)の購入金額(商品の場合)や利用金額(サービスの場合)を示す。因子の確率分布d1,d2、統合確率分布Dも同様である。
また、ニュース記事の分析の場合、図3に示した学習データ集合10において、患者ID301は、たとえば、患者ではなく新聞や雑誌、webページに掲載されたニュース記事に替わる。因子303は、たとえば、単語の出現回数を示す。目的変数302は、たとえば、政治、社会、スポーツ、天気といったニュース記事のジャンルを示す。因子の確率分布d1,d2、統合確率分布Dも同様である。
実施例2について説明する。実施例1では、1台の計算機により図5に示した分析処理を実行したが、実施例2では、複数台の計算機により図5に示した分析処理を分散処理する。これにより、計算機の負荷低減と分析速度の高速化を図る。各計算機は、具体的には、たとえば、図2に示したハードウェア構成を有する。
図12は、分析システムのシステム構成例を示す説明図である。分析システム1200は、複数台の計算機(以下、単に、ノード)N0〜Nn(nは1以上の整数)と、1台以上のクライアント端末Cとを含む。複数台のノードN0〜Nn(nは2以上の整数)と、1台以上のクライアント端末Cとは、ネットワーク1201を介して通信可能に接続される。ノードN0は、マスターノードN0であり、ノードN1〜NnはワーカーノードN1〜Nnである。マスターノードN0は、ワーカーノードN1〜Nnを管理する。ワーカーノードN1〜Nnは、マスターノードN0の指示にしたがって処理を実行する。なお、マスターノードN0の機能をワーカーノードN1〜Nnのいずれかが担当してもよい。
<分散処理手順例>
図13〜図15は、分析システム1200による分散処理手順例を示すフローチャートである。なお、ここでは、一例として、n=2、すなわち、分析システム1200は、マスターノードN0、ワーカーノードN1、N2、クライアント端末Cとする。
図13〜図15は、分析システム1200による分散処理手順例を示すフローチャートである。なお、ここでは、一例として、n=2、すなわち、分析システム1200は、マスターノードN0、ワーカーノードN1、N2、クライアント端末Cとする。
まず、クライアント端末Cが初期設定(ステップS501)を実行する(ステップS1301)。そして、クライアント端末Cは、初期設定(ステップS501)の設定内容である解析リクエストを、マスターノードN0に送信する(ステップS1302)。
マスターノードN0は、学習モデル生成リクエストをワーカーノードN1に送信する(ステップS1303)。ワーカーノードN1は、学習モデル生成リクエストを受信した場合、ステップS502と同様、学習モデルを生成する(ステップS1304)。ワーカーノードN1は、学習モデルを生成すると、マスターノードN0に学習モデルを送信する(ステップS1305)。マスターノードN0は、ワーカーノードN1から学習モデルを受信すると、他のワーカーノードN2に学習モデルを送信する(ステップS1306)。
つぎに、マスターノードN0は、因子の確率分布d1の生成リクエストをワーカーノードN1に送信し(ステップS1307)、因子の確率分布d2の生成リクエストをワーカーノードN2に送信する(ステップS1308)。これにより、因子の確率分布d1,d2を並列処理で生成することができる。
つぎに、ワーカーノードN1は、ステップS503と同様、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d1を生成する(ステップS1309)。ワーカーノードN2も、ステップS503と同様、マルコフ連鎖モンテカルロ法に代表される確率サンプリング法を用いて、学習データ集合10由来の因子の確率分布d2を生成する(ステップS1310)。ワーカーノードN1は、生成した因子の確率分布d1をマスターノードN0に送信する(ステップS1311)。ワーカーノードN2も、生成した因子の確率分布d2をマスターノードN0に送信する(ステップS1312)。
マスターノードN0は、ステップS504と同様、因子の確率分布d1,d2が同一の確率分布に収束しているかを判定する(ステップS1313)。マスターノードN0は、その判定結果をクライアント端末Cに送信する(ステップS1314)。クライアント端末Cは、図11に示したように、判定結果(たとえば、Gelman−Rubinスコア)を受信して表示する(ステップS1315)。
図14において、マスターノードN0は、ステップS505と同様、因子の確率分布d1,d2を統合して統合確率分布Dを生成する(ステップS1401)。そして、マスターノードN0は、因子クラスタリングリクエストをワーカーノードN1に送信する(ステップS1402)。ワーカーノードN1は、因子クラスタリングリクエストを受信した場合、ステップS506と同様、統合確率分布Dを用いて、因子クラスタリングにより因子クラスタを生成する(ステップS1403)。また、ワーカーノードN1は、ステップS507と同様、各因子クラスタから各因子の統計値を算出する(ステップS1404)。ワーカーノードN1は、算出した統計値をマスターノードN0に送信する(ステップS1405)。マスターノードN0は、他のワーカーノードN2に、受信した統計値を送信する(ステップS1406)。
マスターノードN0は、共起量計算リクエストをワーカーノードN2に送信する(ステップS1407)。ワーカーノードN2は、ステップS508と同様、統合確率分布Dの因子同士の共起量を算出する(ステップS1408)。そして、ワーカーノードN2は、算出した共起量(図9の(A)を参照)をマスターノードN0に送信する(ステップS1409)。
図15において、マスターノードN0は、ステップS509と同様、共起クラスタリングにより共起クラスタを生成し、共起クラスタのIDリストA,Bを生成する(ステップS1501)。共起クラスタのIDリストAとは、統合確率分布Dのエントリを分割した一方のエントリ群を一意に特定するIDリストである。共起クラスタのIDリストBとは、統合確率分布Dのエントリを分割した他方のエントリ群を一意に特定するIDリストである。
マスターノードN0は、共起クラスタのIDリストAをワーカーノードN1に送信し(ステップS1502)、共起クラスタのIDリストBをワーカーノードN2に送信する(ステップS1503)。ワーカーノードN1は、ステップS509と同様、IDリストAについて、共起クラスタリングにより共起クラスタを生成する(ステップS1504)。ワーカーノードN2も、ステップS509と同様、IDリストBについて、共起クラスタリングにより共起クラスタを生成する(ステップS1505)。
ワーカーノードN1は、ステップS510と同様、ステップS1504で得られた共起クラスタの予測値を算出する(ステップS1506)。ワーカーノードN2も、ステップS510と同様、ステップS1505で得られた共起クラスタの予測値を算出する(ステップS1507)。ワーカーノードN1は、ステップS1506で得られた予測値を記憶デバイス202に保存する(ステップS1508)。ワーカーノードN2も、ステップS1507で得られた予測値を記憶デバイス202に保存する(ステップS1509)。ワーカーノードN1は、ステップS1506で得られた予測値をマスターノードN0に送信する(ステップS1510)。ワーカーノードN2も、ステップS1507で得られた予測値をマスターノードN0に送信する(ステップS1511)。
マスターノードN0は、ステップS511と同様、予測値のしきい値処理を実行する(ステップS1512)。そして、マスターノードN0は、その実行結果である計算マーカをクライアント端末Cに送信する(ステップS1513)。クライアント端末Cは、計算マーカを表示画面に表示する(ステップS1514)。
図16は、図15に示した分析システム1200による分散処理手順例を示すフローチャート3の変形例を示すフローチャートである。図15では、IDリストA,BごとにワーカーノードN1、N2が並列で共起クラスタリングを実行することで、処理の高速化を実現した。一方、図16では、IDリストA,Bの共起クラスタ計算は、ワーカーノードN1,N2ではなく、マスターノードN0が実行する。なお、図15と同一処理については同一ステップ番号を付し、その説明を省略する。
図16において、マスターノードN0は、ステップS509と同様、IDリストAについて、共起クラスタリングにより共起クラスタを生成する(ステップS1602)。マスターノードN0は、IDリストAの共起クラスタをワーカーノードN1に送信する(ステップS1603)。
ワーカーノードN1は、ステップS510と同様、ステップS1602で得られた共起クラスタの予測値を算出する(ステップS1604)。ワーカーノードN1は、ステップS1604で得られた予測値を記憶デバイス202に保存する(ステップS1604)。ワーカーノードN1は、ステップS1604で得られた予測値をマスターノードN0に送信する(ステップS1606)。
マスターノードN0は、ステップS509と同様、IDリストBについて、共起クラスタリングにより共起クラスタを生成する(ステップS1607)。マスターノードN0は、IDリストBの共起クラスタをワーカーノードN2に送信する(ステップS1608)。
ワーカーノードN2は、ステップS510と同様、ステップS1607で得られた共起クラスタの予測値を算出する(ステップS1609)。ワーカーノードN1は、ステップS1609で得られた予測値を記憶デバイス202に保存する(ステップS1610)。ワーカーノードN2は、ステップS1609で得られた予測値をマスターノードN0に送信する(ステップS1611)。
このように、実施例2によれば、実施例1と同様の効果を奏する。また、実施例2によれば、複数台の計算機により図5に示した分析処理を分散処理する。これにより、計算機の負荷低減と分析速度の高速化を図ることができる。なお、図13〜図16に示した分散処理は一例である。したがって、このほかにも、たとえば、図13〜図16に示したステップのうち少なくとも2以上のステップを異なる計算機で実行してもよい。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
Claims (12)
- プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置であって、
前記記憶デバイスは、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記プロセッサは、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、
前記特定の予測データ群における前記2以上の因子の予測値に基づいて、前記特定の因子クラスタにおける前記2以上の因子の予測値を代表する統計値を算出する第3算出処理を実行し、
前記第2算出処理では、前記プロセッサは、前記第3算出処理によって算出された前記2以上の因子の予測値を代表する統計値のうち、前記特定の共起クラスタが示す2以上の特定の因子の統計値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、
前記学習モデルの種類を設定する設定処理と、
前記目的変数の実測値と前記複数の因子の実測値とを用いて、前記設定処理によって設定された種類の学習モデルを生成して、前記記憶デバイスに格納する第3生成処理と、
を実行することを特徴とする分析装置。 - 請求項3に記載の分析装置であって、
前記設定処理では、前記プロセッサは、前記種類として、線形モデルまたは非線形モデルを設定することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記予測データ集合は、前記学習モデルを用いた確率サンプリング法によって前記学習データ集合から生成されたデータ集合であることを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、
前記学習モデルを用いた確率サンプリング法によって前記予測データまたは前記予測データに類似するデータのいずれか一方を採択することにより、2つの予測データ群を生成する第4生成処理と、
前記第4生成処理によって生成された2つの予測データ群が同一の確率分布に収束するか否かを判定する判定処理と、
前記判定処理による判定結果に基づいて前記2つの予測データ群を統合することにより、前記予測データ集合を生成する統合処理と、を実行し、
前記第1生成処理では、前記プロセッサは、前記複数の因子の値どうしが類似するように、前記統合処理によって得られた前記予測データ集合をクラスタリングして、前記複数の因子クラスタを生成し、
前記第1算出処理では、前記プロセッサは、前記統合処理によって得られた前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出することを特徴とする分析装置。 - 請求項6に記載の分析装置であって、
前記プロセッサは、
前記学習モデルを用いた確率サンプリング法によって前記予測データまたは前記予測データに類似するデータのいずれか一方を採択する採択率を制御するパラメータの値を設定する設定処理を実行し、
前記第4生成処理では、前記プロセッサは、前記採択率に基づいて前記予測データまたは前記予測データに類似するデータのいずれか一方を採択することにより、前記2つの予測データ群を生成することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、
前記因子クラスタの生成数を設定する設定処理を実行し、
前記第1生成処理では、前記プロセッサは、前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、前記設定処理によって設定された生成数の因子クラスタを生成することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記プロセッサは、
前記共起クラスタの生成数を設定する設定処理を実行し、
前記第2生成処理では、前記プロセッサは、前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する共起クラスタを、前記設定処理によって設定された生成数生成することを特徴とする分析装置。 - 請求項1に記載の分析装置であって、
前記複数の因子は複数の薬の患者への投与量であり、前記目的変数は前記患者に前記複数の薬を前記投与量投与した場合の薬効を示す値であることを特徴とする分析装置。 - 複数の計算機が通信可能に接続された分析システムであって、
前記複数の計算機のいずれかが、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記複数の計算機のいずれかが、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析システム。 - プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する分析装置による分析方法であって、
前記記憶デバイスは、目的変数の実測値と複数の因子の実測値とを含む学習データを複数有する学習データ集合と、前記複数の因子の予測値を含む前記学習データ由来の予測データを複数有する予測データ集合と、前記目的変数の実測値と前記複数の因子の実測値との関係を示す学習モデルと、を記憶しており、
前記プロセッサは、
前記複数の因子の値どうしが類似するように前記予測データ集合をクラスタリングして、複数の因子クラスタを生成する第1生成処理と、
前記予測データ集合を用いて、前記複数の因子の相関により前記複数の因子が共起する共起量を算出する第1算出処理と、
前記第1算出処理によって算出された共起量に基づいて前記複数の因子をクラスタリングして、2以上の因子を含む共起クラスタを1以上有する複数の共起クラスタを生成する第2生成処理と、
前記第1生成処理によって生成された複数の因子クラスタの中の2以上の因子を含む特定の因子クラスタに含まれる特定の予測データ群における前記2以上の因子の予測値のうち、前記第2生成処理によって生成された複数の共起クラスタの中の特定の共起クラスタが示す2以上の特定の因子の予測値を、前記学習モデルに与えることにより、前記特定の因子クラスタにおける前記目的変数の予測値を算出する第2算出処理と、
を実行することを特徴とする分析方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/075726 WO2018042606A1 (ja) | 2016-09-01 | 2016-09-01 | 分析装置、分析システムおよび分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018042606A1 true JPWO2018042606A1 (ja) | 2019-06-24 |
JP6695431B2 JP6695431B2 (ja) | 2020-05-20 |
Family
ID=61301188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018536626A Expired - Fee Related JP6695431B2 (ja) | 2016-09-01 | 2016-09-01 | 分析装置、分析システムおよび分析方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6695431B2 (ja) |
WO (1) | WO2018042606A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7251642B2 (ja) * | 2019-09-18 | 2023-04-04 | 日本電信電話株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
KR102151272B1 (ko) * | 2020-01-07 | 2020-09-02 | 한국토지주택공사 | 예측모델 학습을 통한 데이터 분석 방법, 장치 및 컴퓨터프로그램 |
KR102198322B1 (ko) * | 2020-08-20 | 2021-01-04 | 플레인브레드 주식회사 | 기계 학습을 이용한 지능형 데이터 시각화 시스템 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227838A (ja) * | 2010-04-23 | 2011-11-10 | Kyoto Univ | 予測装置及びその学習装置並びにそれらのコンピュータプログラム |
JP2014225176A (ja) * | 2013-05-17 | 2014-12-04 | 株式会社日立製作所 | 分析システム及び保健事業支援方法 |
JP2016018321A (ja) * | 2014-07-07 | 2016-02-01 | 株式会社日立製作所 | 薬効分析システム及び薬効分析方法 |
JP2016517556A (ja) * | 2013-03-15 | 2016-06-16 | ノースロップ グラマン システムズ コーポレイションNorthrop Grumman Systems Corporation | 健康学習システム及び方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3226097B2 (ja) * | 1999-07-21 | 2001-11-05 | 尚哉 宮野 | 処置データ推定方法及び処置データ推定システム |
JP2006202235A (ja) * | 2005-01-24 | 2006-08-03 | Nara Institute Of Science & Technology | 経時的現象発生解析装置及び経時的現象発生解析方法 |
JP5090013B2 (ja) * | 2007-02-23 | 2012-12-05 | 株式会社日立製作所 | 情報管理システム及びサーバ |
KR20120049180A (ko) * | 2009-04-22 | 2012-05-16 | 리드 홀스 테크놀로지스 인코포레이티드 | 인공지능 보조 메디컬 레퍼런스 시스템 및 방법 |
EP2528034B1 (en) * | 2010-01-22 | 2019-03-06 | Panasonic Intellectual Property Corporation of America | Image management device, image management method, program, recording medium, and integrated circuit |
-
2016
- 2016-09-01 WO PCT/JP2016/075726 patent/WO2018042606A1/ja active Application Filing
- 2016-09-01 JP JP2018536626A patent/JP6695431B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227838A (ja) * | 2010-04-23 | 2011-11-10 | Kyoto Univ | 予測装置及びその学習装置並びにそれらのコンピュータプログラム |
JP2016517556A (ja) * | 2013-03-15 | 2016-06-16 | ノースロップ グラマン システムズ コーポレイションNorthrop Grumman Systems Corporation | 健康学習システム及び方法 |
JP2014225176A (ja) * | 2013-05-17 | 2014-12-04 | 株式会社日立製作所 | 分析システム及び保健事業支援方法 |
JP2016018321A (ja) * | 2014-07-07 | 2016-02-01 | 株式会社日立製作所 | 薬効分析システム及び薬効分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6695431B2 (ja) | 2020-05-20 |
WO2018042606A1 (ja) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Capitaine et al. | Random forests for high-dimensional longitudinal data | |
Taneja | Heart disease prediction system using data mining techniques | |
Ang et al. | Filter bank common spatial pattern algorithm on BCI competition IV datasets 2a and 2b | |
Li et al. | A study of the “heartbeat spectra” for “sleeping beauties” | |
US20140343966A1 (en) | Analysis system and health business support method | |
US7930156B2 (en) | Method and apparatus for supporting analysis of gene interaction network, and computer product | |
JP2014225175A5 (ja) | ||
JP6695431B2 (ja) | 分析装置、分析システムおよび分析方法 | |
JP6334431B2 (ja) | データ分析装置、データ分析方法、およびデータ分析プログラム | |
Luo et al. | Preference-based SF-6D scores derived from the SF-36 and SF-12 have different discriminative power in a population health survey | |
JP6316844B2 (ja) | 予測モデル生成のためのユーザーインタフェース | |
Fogliatto et al. | Decision support for breast cancer detection: classification improvement through feature selection | |
JP6696568B2 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
JP6038727B2 (ja) | 分析システム及び分析方法 | |
Hassan et al. | Flow cytometry-based classification in cancer research: a view on feature selection | |
Cruz et al. | Predicting tuberculosis treatment relapse: a decision tree analysis of J48 for data mining | |
JP7481181B2 (ja) | 計算機システムおよび貢献度計算方法 | |
Zhang et al. | Identifying ‘associated-sleeping-beauties’ in ‘swan-groups’ based on small qualified datasets of physics and economics | |
Chen et al. | Projection subspace clustering | |
KR20220157330A (ko) | 머신 러닝 기반 잠복기별 치매 예측 방법, 그리고 이를 구현하기 위한 장치 | |
JP2020102021A (ja) | 文書検索プログラム、文書検索方法および文書検索システム | |
JP2021135930A (ja) | 分析装置、分析方法、および分析プログラム | |
Preedalikit et al. | Joint modeling of survival and longitudinal ordered data using a semiparametric approach | |
Eckelt et al. | Kokiri: Random-forest-based comparison and characterization of cohorts | |
US20230229937A1 (en) | Ai training data creation support system, ai training data creation support method, and ai training data creation support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200414 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695431 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |