WO2015173917A1

WO2015173917A1 - 分析システム

Info

Publication number: WO2015173917A1
Application number: PCT/JP2014/062874
Authority: WO
Inventors: 泰隆長谷川; 信二垂水; 利昇三好; 伴　秀行
Original assignee: 株式会社日立製作所
Priority date: 2014-05-14
Filing date: 2014-05-14
Publication date: 2015-11-19

Abstract

　分析システムは、保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルと、前記データ項目毎の現状分布情報とを格納するデータベースを備える。前記分析システムは、対象となるデータ項目の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に推定分布情報を算出する。前記分析システムは、前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する。前記分析システムは、前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出し、少なくとも前記要因情報を表示する。

Description

分析システム

　本発明は、保健事業を支援する分析システムに関する。

　保険者（健康保険事業の運営主体）は、高騰する医療費の抑制を目的に、生活習慣病予防及び重症化予防のための保健指導などの保健事業を実施している。しかし、保健指導のために確保できる保健師、及び保健指導のための費用等の保険者のリソースは限られているため、効果的・効率的な保健事業の運営を支援するシステムが望まれている。

　保健事業の運営を支援するシステムとして、次のような方法が知られている。特許文献１には、医療情報、健診情報、及び保健指導情報に基づいて、保健指導対象者を選択する保健事業支援システムであって、被保険者の重症度及び検査値ごとの予測医療費を示す医療費モデルを作成する医療費モデル作成部と、重症度及び検査値ごとの改善量を示す検査値改善モデルを作成する検査値改善モデル作成部と、保健指導による予測医療費削減量を重症度及び検査値ごとに算出する予測医療費削減効果算出部と、予測医療費削減量が高い重症度及び検査値に属する被保険者を保健指導対象者として選択する対象者選択部と、を備える保健事業支援システムが記載されている。

特開２０１２－１２８６７０号公報

　保険者の限られたリソースの中で、効果的な保健事業を推進するためには、保険加入者の将来増加すると思われる疾病を特定し、その疾病の増加を抑制する要因を抽出することが重要である。しかし、従来技術では、課題となる疾病の増加を抑制する要因を分析する方法について考慮されていなかった。

　本発明の目的は、保険者のヘルスケアデータから、将来の課題となる疾病の増加を抑制する要因を分析することが可能な疾病発症要因分析システムを提供することにある。

　上記課題を解決する為に、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルであって、第１の時点の前記データ項目の確率変数に対応する第１のノード群と、前記第１の時点よりも将来の第２の時点の前記データ項目の確率変数に対応する第２のノード群と、前記第１のノード群と前記第２のノード群から成る集合に含まれる任意の２つのノード間の確率的依存性を表す有向又は無向のエッジとにより定義されるグラフィカルモデルと、前記データ項目毎の前記第１の時点の確率分布を表す現状分布情報と、を格納するデータベースと、対象となるデータ項目の前記第２の時点の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に前記第１の時点の推定分布情報を算出する推定分布算出部と、前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する指標値算出部と、前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出する要因抽出部と、少なくとも前記要因情報を表示する出力部と、を備える分析システムが提供される。

　本発明によれば、保険者のヘルスケアデータから、将来の課題となる疾病の増加を抑制する要因を分析することができる。
　本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、上記した以外の、課題、構成および効果は、以下の実施例の説明により明らかにされる。

第１実施例における疾病発症要因分析システムの構成を示すブロック図である。保険加入者の基本情報の一例を説明する図である。ヘルスケアデータにおける疾病情報の一例を説明する図である。ヘルスケアデータにおける医薬品情報の一例を説明する図である。ヘルスケアデータにおける診療行為情報の一例を説明する図である。ヘルスケアデータにおける健診情報の一例を説明する図である。ヘルスケアデータの整形情報の一例を説明する図である。課題疾病抽出処理の一例を説明するフローチャートである。将来分布予測処理および課題疾病抽出処理の一例を説明する図である。現状分布情報の一例を説明する図である。将来分布情報の一例を説明する図である。課題疾病データの一例を説明する図である。第２実施例における疾病発症要因分析システムの構成を示すブロック図である。将来分布変更画面の一例を説明する図である。推定分布算出処理方法の一例を説明する図である。推定分布算出処理方法の一例を説明する図である。推定分布算出処理方法の一例を説明する図である。推定分布情報の一例を説明する図である。要因データの一例を説明する図である。課題疾病及び要因の抽出結果を示す画面の一例を説明する図である。課題疾病及び要因の抽出結果を示す画面の一例を説明する図である。要因抽出処理の一例を説明する図である。第３実施例における疾病発症要因分析システムの構成を示すブロック図である。改善分布算出処理方法の一例を説明する図である。対象者範囲決定方法の一例を説明する図である。対策決定方法の一例を説明する図である。対象者範囲データの一例を説明する図である。対策データの一例を説明する図である。対象者範囲及び対策の決定結果を示す画面の一例を説明する図である。対象者範囲及び対策の決定結果を示す画面の一例を説明する図である。対象者範囲決定処理及び対策決定処理の一例を説明するフローチャートである。２変数のグラフィカルモデルの一例を説明する図である。確率分布を示す表の一例を説明する図である。４変数のグラフィカルモデルの一例を説明する図である。グラフィカルモデルの構成例を説明する図である。

　以下、添付図面を参照して本発明の実施例について説明する。なお、添付図面は本発明の原理に則った具体的な実施例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

［第１実施例］
　第１実施例では、ヘルスケアデータから、保険者（健康保険事業の運営主体）毎に疾病発症確率を予測し、将来増加が予測される疾病を課題疾病として抽出する疾病発症要因分析システムの例を説明する。

　本実施例では、ヘルスケアデータから作成された疾病、検査値、生活習慣等のデータ項目間の関係を示すグラフィカルモデルと、ヘルスケアデータに基づき、保険者毎に課題となる疾病を抽出する。

　ここで、ヘルスケアデータとは、保険加入者（被保険者）の医療記録や検査値など、個人毎の医療／健康に関する情報を含むデータのことである。ヘルスケアデータに含まれる情報の具体的な例としては、例えば、保険加入者の疾病名、保険加入者に行われた医療行為、医療行為の費用（医療費）等の医療情報、保険加入者に実施された健康診断の情報（健診情報）である検査値、生活習慣などが挙げられる。

　以後、本実施例では、医療情報及び健診情報の２つの情報がヘルスケアデータ内に存在している場合を説明するが、必ずしもこれらを全て含む必要はない。以下、医療情報及び健診情報の２つの情報の概要を説明する。

　医療情報は、保険加入者が医療機関を受診した際の疾病名、処方された医薬品、実施された診療行為、及び医療費などが記録された情報であり、その一例は図２～図５を用いて後述する。なお、処方された医薬品、及び実施された診療行為を医療行為と総称する。

　健診情報は、保険加入者が健康診断を受診した場合の検査値と、生活習慣や家族の病歴などの問診の結果が記憶された情報であり、その一例は図７を用いて後述する。

　図１は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。疾病発症要因分析システムは、疾病発症要因分析端末１０１と、データベース１２０とを有する。

　疾病発症要因分析端末１０１は、入力部１０２、出力部１０３、ＣＰＵ１０４、メモリ１０５及び記憶媒体１０６を有する。入力部１０２は、マウス、キーボードなどのヒューマンインタフェースであり、疾病発症要因分析端末１０１への入力を受け付ける。出力部１０３は、疾病発症要因分析端末１０１による演算結果を出力するディスプレイやプリンタである。

　記憶媒体１０６は、疾病発症要因分析端末１０１による疾病発症要因分析処理を実現する各種プログラム、及び疾病発症要因分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリ等）である。

　メモリ１０５には、記憶媒体１０６に格納されているプログラムが展開される。ＣＰＵ１０４は、メモリ１０５にロードされたプログラムを実行する演算装置であり、例えば、ＣＰＵ、ＧＰＵなどのプロセッサである。以下に説明する処理及び演算は、ＣＰＵ１０４が実行する。

　本実施例の疾病発症要因分析システムは、一つの計算機上で、又は、論理的あるいは物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

　ＣＰＵ１０４によって実行されるプログラムは、リムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各サーバに提供され、非一時的記憶媒体（non-transitory computer readable media）である不揮発性記憶装置に格納される。このため、計算機システムは、リムーバブルメディアを読み込むインタフェースを備えてもよい。

　記憶媒体１０６は、各種プログラムとして、データ整形部１０７と、グラフィカルモデル作成部１０８と、現状分布算出部１０９と、将来分布予測部１１０と、課題疾病抽出部１１１とを備える。

　データ整形部１０７は、入力部１０２によって入力された健診情報と医療情報を突合わせ、分析に適した形にデータを整形する。以下、データ整形部１０７によって整形されたデータを整形情報と称する。

　グラフィカルモデル作成部１０８は、データ整形部１０７で整形された整形情報から、疾病、検査値、生活習慣等の項目を確率変数として、Ｔ年とＴ＋１年の各項目間の確率的依存関係を表現するグラフィカルモデルを作成する。

　現状分布算出部１０９は、データ整形部１０７で整形された整形情報から、分析対象とする保険者のデータを抽出し、疾病、検査値、生活習慣等の各項目について、現状の項目値の確率分布を算出し、項目別の現状分布を作成する。

　将来分布予測部１１０は、グラフィカルモデル作成部１０８で作成されたグラフィカルモデルのＴ年の項目に、現状分布算出部１０９で算出された該当項目の現状分布を入力する。これにより、将来分布予測部１１０は、各疾病項目のＴ＋１年の確率分布を予測し、将来分布を作成する。

　課題疾病抽出部１１１は、将来分布予測部１１０で予測した各疾病項目のＴ＋１年の確率分布の期待値を算出し、算出された期待値を比較する。そして、課題疾病抽出部１１１は、確率分布の期待値が高い疾病を、分析対象の保険者の課題疾病として抽出する。

　データベース１２０は、医療情報記憶部１２１と、整形情報記憶部１２２と、グラフィカルモデル記憶部１２３と、分布記憶部１２４と、課題疾病記憶部１２５とから構成される。以下では、上記の課題疾病抽出処理において用いられる各種データ及びデータ処理について説明する。

　まず、本実施例で扱うヘルスケアデータについて説明する。医療情報記憶部１２１は、入力部１０２から入力されたヘルスケアデータを格納する。以下、医療情報及び健診情報の２つを、代表的なヘルスケアデータの例として取り上げ、それぞれについて説明する。

　まず、医療情報について説明する。医療情報は、複数の保険加入者の基本情報、各保険加入者の複数年度にわたる疾病情報、医薬品情報、及び診療行為情報などを含む。

　図２は、本発明の実施形態の医療情報記憶部１２１が記憶する基本情報２００の説明図である。基本情報２００は、保険加入者の性別、生年月日等の基本情報を保持するものである。基本情報２００は、保険加入者ＩＤ２０１、性別２０２、生年月日２０３、及び保険者名２０４を含む。保険加入者ＩＤ２０１には、保険加入者を特定するための識別子が登録される。性別２０２には、保険加入者の性別を示す情報が登録される。生年月日２０３には、保険加入者の生年月日を示す情報が登録される。保険者名２０４には、保険加入者が加入している保険者名を示す情報が登録される。

　図３は、本発明の実施形態の医療情報記憶部１２１が記憶する疾病情報３００の説明図である。疾病情報３００は、検索番号３０１、保険加入者ＩＤ２０１、診療年月３０３、疾病名３０４及び医療費３０５を含む。検索番号３０１には、一件の医療情報を特定するための識別子が登録される。保険加入者ＩＤ２０１は、図２に示す保険加入者ＩＤ２０１と同じである。診療年月３０３には、保険加入者が医療機関を受診した年及び月を示す情報が登録される。疾病名３０４には、一件の医療情報に記載された疾病名を示す情報が登録される。医療費３０５には、一件の医療情報の医療費を示す情報が登録される。

　なお、一件の医療情報には、複数の疾病名が記載可能である。例えば、図３に示す疾病情報３００では、検索番号３０１に「１１」が登録されたエントリの疾病名３０４には「糖尿病」及び「高血圧」が登録されている。したがって、検索番号が「１１」の医療情報には、糖尿病及び高血圧の疾病名が登録されている。

　なお、医療費３０５には、上述した図３の検索番号３０１「１１」のように、一つの検索番号３０１に対して複数の疾病名が登録されている場合には、疾病名別に医療費が登録される。

　図４は、本発明の実施形態の医療情報記憶部１２１が記憶する医薬品情報４００の説明図である。医薬品情報４００は、処方された医薬品を各医療情報に対応して記憶するものである。医薬品情報４００は、検索番号３０１、医薬品コード４０２、医薬品名４０３、及び医薬品医療費４０４を含む。

　検索番号３０１は、図３に示す検索番号３０１と同じである。医薬品コード４０２には、医薬品を特定するための識別子が登録される。医薬品名４０３、及び医薬品医療費４０４には、それぞれ、対応する医薬品の名称、対応する医薬品の医療費が登録される。図４では、例えば、検索番号３０１に「１１」が登録された医療情報には、医薬品名４０３として、糖尿病経口薬Ａ、及び高血圧経口薬Ａが登録されている。

　図５は、本発明の実施形態の医療情報記憶部１２１が記憶する診療行為情報５００の説明図である。診療行為情報５００は、検索番号３０１、診療行為コード５０２、診療行為名５０３、診療行為医療費５０４を含む。

　検索番号３０１は、図３に示す検索番号３０１と同じであるので、説明を省略する。診療行為コード５０２には、医療情報に記載された診療行為を識別するための診療行為コードを示す情報が登録される。診療行為名５０３には、医療情報に記載された診療行為の名称を示す情報が登録される。診療行為医療費５０４には、診療行為にかかる医療費が登録される。

　なお、図４に示す医薬品情報４００及び図５に示す診療行為情報５００を総称して、医療行為情報という。

　図６は、本発明の実施形態の医療情報記憶部１２１が記憶する健診情報６００の説明図である。健診情報６００は、複数の保険加入者の複数年分の健診情報を管理する。健診情報６００は、保険加入者ＩＤ２０１、健診受診日６０２、ＢＭＩ６０３、腹囲６０４、血糖６０５、収縮期血圧６０６、中性脂肪６０７、喫煙６１３、早食い６１４、運動不足６１５などを含む。

　保険加入者ＩＤ２０１には、健康診断を受診した保険加入者の識別子が登録される。健診受診日６０２には、健康診断を受診した年月日を示す情報が登録される。ＢＭＩ６０３～中性脂肪６０７は、健康診断で検査される項目である。ＢＭＩ６０３にはＢＭＩ値が登録される。腹囲６０４には腹囲の値が登録される。血糖６０５には血糖の値が登録される。収縮期血圧６０６には収縮期血圧の値が登録される。中性脂肪６０７には中性脂肪の値が登録される。

　喫煙６１３～運動不足６１５は、健康診断で問診される生活習慣に関する項目である。例えば、喫煙６１３は、喫煙有無に回答した値が登録される。早食い６１４は、早食いかどうかの問診に有無で回答した値が登録される。運動不足６１５は、運動不足かどうかの問診に有無で回答した値が登録される。なお、問診は、家族の病歴、自覚症状などを含んでもよい。

　次に、データ整形部１０７の処理について説明する。データ整形部１０７は、医療情報記憶部１２１に記憶されているヘルスケアデータを、保険加入者毎かつ所定の期間毎にまとめた整形情報を作成する。データ整形部１０７は、医療情報記憶部１２１に記憶されているヘルスケアデータから、保険加入者毎かつ所定の期間毎に情報を集計及び統合し、表形式のデータに整形する。以下では、一つの期間は１年であるとして説明するが、半年、２年、３年など、別の期間でもよい。また、医療情報及び健診情報を用いて整形する例を説明するが、これら以外のデータを追加して行っても良い。

　図７は、整形情報７００の一例を説明する図である。図７を用いて、データ整形部１０７の処理を説明する。整形情報７００は、医療情報及び健診情報を整形した情報を含む。整形情報７００の各行は、一つの保険加入者ＩＤに対応する一つの年のデータを集計したものである。

　保険加入者ＩＤ２０１、性別２０２、保険者名２０４は、それぞれ、図２に示す基本情報２００の保険加入者ＩＤ２０１、性別２０２、保険者名２０４と同じである。データ年７０２は、保険加入者の医療情報及び健診情報の各々が記録された年である。年齢７０３は、データ年７０２の時点での保険加入者の年齢であり、データ年７０２と生年月日２０３から計算する。

　糖尿病７０５には、保険加入者ＩＤ２０１の糖尿病の有無について、有を「１」、無を「０」としてその値が格納される。高血圧７０７及び腎症７０９も同様に、保険加入者ＩＤ２０１の高血圧の有無および腎症の有無がそれぞれ格納される。また、糖尿病医療費７０６には、保険加入者ＩＤ２０１の糖尿病の年間医療費が格納される。高血圧医療費７０８及び腎症医療費７１０も同様に、高血圧の年間医療費及び腎症の年間医療費がそれぞれ格納される。

　糖尿病経口薬Ａ７１１には、データ年７０２での糖尿病経口薬Ａの処方有無について、有を「１」、無を「０」としてその値が格納される。高血圧経口薬Ａ７１２及び糖尿病経口薬Ｂ７１３も同様に、データ年７０２での高血圧経口薬Ａ及び糖尿病経口薬Ｂの処方有無が格納される。

　診療行為Ａ７２１には、データ年７０２での診療行為Ａの実施有無について、有を「１」、無を「０」としてその値が格納される。診療行為Ｂ７２２及び診療行為Ｃ７２３も同様に、データ年７０２での診療行為Ｂ７２２及び診療行為Ｃ７２３の実施有無が格納される。

　データ整形部１０７の処理について、２００４年のデータを整形する場合を具体的に説明する。まず、一つの保険加入者ＩＤ２０１を選択する。次に、図３の疾病情報３００から診療年月３０３が「２００４年」である保険加入者ＩＤ２０１の検索番号３０１を取得する。次に、取得した検索番号３０１の疾病情報３００を参照して、各疾病名３０４の有無を判定し、該当疾病が有の場合は「１」、無の場合は「０」とする。これによって、各疾病の有無が得られる。例えば、図６に示す健診情報６００の１行目には、保険加入者ＩＤ「Ｋ０００１」の「２００４年」の健診データが記録されている。保険加入者ＩＤ「Ｋ０００１」で疾病情報３００を参照することにより、検索番号「１１」「１２」「１３」が取得できる。疾病情報３００を参照すると、この３回の診療のうち、疾病名が「糖尿病」である診療が有るため、整形情報７００の１行目の糖尿病７０５の欄には、「１」が登録される。

　同様に、取得した検索番号３０１の医薬品情報４００を参照して、各医薬品名の有無を判定し、該当医薬品が有の場合は「１」、無の場合は「０」とする。さらに、取得した検索番号３０１の診療行為情報５００を参照して、各診療行為名の有無を判定し、該当診療行為が有の場合は「１」、無の場合は「０」とする。これにより、選択された保険加入者ＩＤ２０１の２００４年のデータ行が生成される。この処理を、分析対象となる全ての保険加入者ＩＤ及び年の組み合わせに対して行う。

　図７に示す整形情報７００は、健診情報を整形した情報も含む。各行は、一つの保険加入者ＩＤ２０１に対応するデータを集計したものである。各項目の値は、保険加入者ＩＤ２０１及びデータ年７０２に示される保険加入者及び年度における健診データの値である。この健診データは健診情報６００から取得できる。健診情報６００が同一の保険加入者ＩＤの同一年の健診データを複数含む場合、いずれか一つの健診受診日のデータを使っても、当該年の複数回の健診結果の平均を使ってもよい。一つの健診受診日のデータを使う場合、毎年ほぼ同じ時期に実施される一斉健診日のデータを使うとよい。また、欠損が少ないデータを選択してもよい。欠損データは、予め定められた欠損であることを示す数値を用いる。例えば、欠損データとして「－１」を登録する。なお、健診情報がない保険加入者の値は、全て欠損データとする。

　以上の処理によって、医療情報及び健診情報から整形情報７００を作成することができる。すなわち、保険者が持つヘルスケアデータを元に、現状分布やグラフィカルモデルを作成するための整形された情報を自動的に作成することができる。なお、図７には２００４年のデータのみを示したが、別の年の整形情報も作成する。作成した整形情報は、整形情報記憶部１２２に格納される。

　次に、グラフィカルモデル作成部１０８について説明する。グラフィカルモデル作成部１０８は、整形情報記憶部１２２に記憶される整形情報７００の各項目を確率変数とし、確率変数をノード、確率変数間の条件付き依存関係をエッジとして表現したグラフ及び条件付き確率テーブルよりなるモデルを作成する。ただし、エッジは有向及び無向の２種類がある。ノードの集合をＶ、エッジの集合をＥ、グラフをＧ＝（Ｖ、Ｅ）とおくことにする。グラフィカルモデル作成部１０８では、モデルとして、ベイジアンネットワークやマルコフネットワークなどのグラフィカルモデルを作成する。

　以下ではグラフィカルモデルについて、例を挙げて説明する。図２８Ａは、２つのノードから成る単純なモデルである。Ｔ年の糖尿病有無は、Ｔ年の糖尿病の有無（有が１、無が０）を表す確率変数とし、Ｔ＋１年の腎症有無は、Ｔ＋１年の腎症の有無（有が１、無が０）を表す確率変数とする。それぞれの確率変数を表すノードを、ｖ１、ｖ２とおくと、図２８Ａのグラフは、ｖ１、ｖ２、およびｖ１からｖ２への有向エッジｅ１より成る。Ｖ＝（ｖ１、ｖ２）、Ｅ＝（ｅ１）とおくと、図２８ＡのグラフはＧ＝（Ｖ、Ｅ）となる。

　次に、条件付確率テーブルについて説明する。ノードｖ１、ｖ２が表す確率変数を、それぞれｘ１、ｘ２とおくと、図２８Ａで示されるグラフＧは、ｘ１とｘ２の同時分布ｐ（ｘ１、ｘ２）がｐ（ｘ１、ｘ２）＝ｐ（ｘ２｜ｘ１）ｐ（ｘ１）により与えられることを示している。つまり、ｘ２の確率分布は、ｘ１の値に依存し、ｘ１に関する条件付き確率ｐ（ｘ２｜ｘ１）により与えられる。確率変数ｘ１には親ノードがないため、ｘ１の確率分布はｐ（ｘ１）となる。条件付確率テーブルは、ｐ（ｘ１）とｐ（ｘ２｜ｘ１）の値である。ｐ（ｘ１）の確率テーブルは、ｘ１の各値に対する確率値である。

　図２８Ｂは、ｐ（ｘ１）とｐ（ｘ２｜ｘ１）の条件付き確率テーブルを表３００１と表３００２をそれぞれ示す。表３００１は、確率変数ｘ１の確率分布ｐ（ｘ１）である。例えば、ｐ（ｘ１＝０）＝ａ１はｘ１＝０となる確率がａ１であることを示す。これは、整形情報７００から、Ｔ年に糖尿病７０５が０であった人の割合を計算することにより得ることができる。ａ２も同様にして計算できる。ｐ（ｘ１）は確率分布であるので、Σｐ（ｘ１）＝１となる。ここで、和はｘ１の全ての値に対してとる。

　表３００２は、ｘ１に関する条件付き確率ｐ（ｘ２｜ｘ１）の確率分布である。例えば、ｐ（ｘ２＝０｜ｘ１＝０）＝ｂ１１は、ｘ２＝０かつｘ１＝０となる確率がｂ１１であることを示す。ｐ（ｘ２｜ｘ１）の確率テーブルは、ｘ１、ｘ２の各値に対して、ｐ（ｘ２｜ｘ１）を求めることで得られる。例えば、ｐ（ｘ２＝ｓ２｜ｘ１＝ｓ１）は、整形情報７００から、ｘ１＝ｓ１となるデータのうち、ｘ２＝ｓ２となっているデータの割合を計算することで得られる。この計算により、確率テーブルが得られる。

　図２８Ａ及び図２８Ｂの単純な例の場合には、図２８Ａに示すグラフＧと図２８Ｂに示す確率テーブルがグラフィカルモデルとなる。このモデルを用いることにより、例えば、ある保険加入者のある年の糖尿病有無が分かっている場合に、その保険加入者が１年後の腎症有無の確率分布を求めることができる。例えば、今年、糖尿病有「１」の場合に、１年後、腎症有「１」の確率は、Ｐ（ｘ２＝１｜ｘ１＝１）により与えられる。

　次に、図２８Ａ及び図２８Ｂより確率変数の数を増やした例を図２９を用いて説明する。Ｔ＋１年の腎症有無を予測したいとき、図２８Ａでは、Ｔ年の糖尿病有無を用いた。しかし、Ｔ＋１年の腎症有の確率は、血糖値が高い人のほうが大きいと予想できる。さらに、血圧にも依存すると予想できる。そこで、例えば、図２９では、Ｔ年の糖尿病有無、Ｔ年の血糖、及びＴ年の血圧を用いてＴ＋１年の腎症有無を予測するモデルが示されている。このようなモデルの方が、より正確な予測ができると想定される。

　Ｔ年の糖尿病有無、Ｔ年の血糖、Ｔ年の血圧、Ｔ＋１年の腎症有無を表す確率変数を、それぞれ、ｘ１、ｘ２、ｘ３、ｘ４、これらを表すノードをｖ１、ｖ２、ｖ３、ｖ４とおく。このグラフのノード集合は、Ｖ＝（ｖ１、ｖ２、ｖ３、ｖ４）である。また、３つの有向エッジが定義されており、ｘ１からｘ４、ｘ２からｘ４、ｘ３からｘ４への有向エッジを、それぞれｅ１、ｅ２、ｅ３とおくと、エッジ集合は、Ｅ＝（ｅ１、ｅ２、ｅ３）となる。グラフはＧ＝（Ｖ、Ｅ）とあらわされる。このグラフにより、ｘ１、…、ｘ４の同時分布はｐ（ｘ１、ｘ２、ｘ３、ｘ４）＝ｐ（ｘ４｜ｘ１、ｘ２、ｘ３）ｐ（ｘ１）ｐ（ｘ２）ｐ（ｘ３）となる。条件付き確率テーブルは、ｐ（ｘ１）、ｐ（ｘ２）、ｐ（ｘ３）、ｐ（ｘ４｜ｘ１、ｘ２、ｘ３）をｘ１、…、ｘ４の各値に対して計算することにより得られる。このモデルにより、Ｔ年の糖尿病有無だけでなく、Ｔ年の血糖が分かっている場合には、より正確にＴ＋１年の腎症有無が予測できる。

　上記で説明した図２８Ａ、図２８Ｂ、及び図２９のような小規模なモデルの場合には、Ｔ＋１年の腎症有無の確率分布が何に依存しているか、経験や知識に基づいて定義することも可能であるが、規模が大きくなると困難となる。例えば、Ｔ＋１年の腎症有無は、他の検査値、生活習慣、年齢、性別などに依存する可能性がある。また、糖尿病の有無や血糖自体も、他の項目に依存する。そのため、整形情報７００の項目のように確率変数が大規模になる場合には、その確率的依存関係（エッジ）をデータに基づいて自動的に作成してもよい。また、作成の際に、経験や知識に基づく依存関係によりエッジの有無や有向、無向を制限してもよい。既存技術として、ベイジアンネットワークの構造学習技術などを用いることができる。

　上記ではＴ年のノードとＴ＋１年のノードを含むグラフィカルモデルを説明したが、これに限定されない。グラフィカルモデルは、第１の時点の確率変数に対応する第１のノード群と、前記第１の時点よりも将来の第２の時点の確率変数に対応する第２のノード群と、前記第１のノード群と前記第２のノード群から成る集合に含まれる任意の２つのノード間の確率的依存性を表す有向又は無向のエッジと、により定義されればよい。

　グラフィカルモデルを、例えば、ｎ年後の確率分布の予測に利用する場合には、Ｔ年とＴ＋ｎ年の整形情報７００の項目を確率変数としたグラフィカルモデルを作成すればよい。これらは過去のデータから作成され、例えば、３年後の場合は、２００８年と２０１１年、２００９年と２０１２年のデータを用いればよい。このとき、同一の保険加入者のデータであっても、２００８年と２０１１年のデータと、２００９年と２０１２年のデータは、別の事例として、学習に利用できる。

　ここで、グラフィカルモデルの構成例を、図３０を用いて説明する。図３０のグラフィカルモデル９１０は、Ｔ年の項目とＴ＋１年の項目より構成される。グラフィカルモデル９１０は、Ｔ年ノード９１１と、Ｔ＋１年ノード９１３と、２つの項目の確率的依存関係を表現するエッジ９１２とからなる。この例では、疾病項目９０１として、腎症、糖尿病、高血圧の３項目、検査値項目９０２として、血糖、ＢＭＩの２項目、生活習慣項目９０３として、運動不足、早食いの２項目、計７項目を確率変数として、各項目間の確率的依存関係を表現するグラフィカルモデルの構成例を示している。この構成は、図７の整形情報７００から糖尿病７０５、高血圧７０７、腎症７０９、ＢＭＩ６０３、血糖６０５、早食い６１４、運動不足６１５の項目のデータを取得し、ベイジアンネットワークやマルコフネットワークの構造学習技術などを用いることで構築できる。以上の処理により、データ項目の将来の確率を推定するグラフィカルモデルを、ヘルスケアデータを整形した整形情報から自動的に作成することができる。作成したグラフと確率テーブルは、グラフィカルモデル記憶部１２３に格納される。

　次に、図８のフローチャートと図９～図１２を用いて、整形情報記憶部１２２に記憶された整形情報７００と、グラフィカルモデル記憶部１２３に記憶されたグラフィカルモデルから、保険者毎に、疾病確率の将来分布を予測し、今後増加が予測される疾病を課題疾病として抽出する処理を説明する。

　図８のフローチャートを開始すると、まず、対象集団抽出ステップ８０１を行う。対象集団抽出ステップ８０１では、まず、現状分布算出部１０９が、整形情報記憶部１２２に記憶された整形情報７００を取得する。次に、現状分布算出部１０９が、整形情報７００の保険者名とデータ年を参照し、分析対象とする保険者についてデータ年が最新年の対象集団データを抽出する。例えば、分析対象とする保険者が保険者Ａで、最新年が２０１３年の場合、保険者名が「Ａ」でデータ年が「２０１３」のデータを対象集団データとして抽出する。

　現状分布算出ステップ８０２では、まず、現状分布算出部１０９が、対象集団抽出ステップ８０１で抽出された対象集団データから、データ項目毎に現状の確率分布（現状分布）を算出する。具体的には、現状分布算出部１０９は、データ項目毎に、項目値別のデータ数を集計し、全データ数で割ることで、現状の確率分布（現状分布）を算出する。算出されたデータ項目別の現状分布は、図１０に示す現状分布情報１０００の形で、分布記憶部１２４に格納される。

　図１０の現状分布情報１０００は、項目分類１００１、項目１００２、項目の値１００３、及び現状分布１００４を含む。項目分類１００１は、データ項目の分類を示しており、そのデータ項目が疾病項目、検査値項目、生活習慣項目等のどの分類に属しているかを示している。項目１００２は、データ項目名を示し、項目値１００３は、該当データ項目の値を示している。現状分布１００４は、データ項目１００２の項目値１００３別の確率分布を示している。

　例えば、項目１００２が「糖尿病」の場合は、項目値は１か０なので、項目値１００３に「１」と「０」が登録され、現状分布１００４に項目値別の確率が登録される。図１０の例では、糖尿病の現状分布が項目値「０」で７０％、「１」で３０％であることを示している。これは、「１」のデータ数と「０」のデータ数を対象集団データから集計し、全データ数で各々を割ることで算出する。疾病項目の場合は、項目値１の確率が疾病の有病率を示している。また、項目分類１００１の検査値項目は、項目値別に現状分布を算出しても、項目値を離散化した後に算出してもよい。例えば、図１０の血糖項目のように、項目値を７０－７９、８０－８９等に１０刻みに離散化した後に、現状分布を算出してもよい。この例では、血糖の現状分布が、７０－７９が５％、８０－８９が１０％・・・であることを示している。

　現状分布入力ステップ８０３では、将来分布予測部１１０が、現状分布算出部１０９で算出された現状分布情報と、グラフィカルモデル記憶部１２３で記憶されているグラフィカルモデルを取得する。そして、将来分布予測部１１０が、取得した現状分布情報をグラフィカルモデルのＴ年のデータ項目に入力する。

　将来分布予測ステップ８０４では、将来分布予測部１１０が、現状分布入力ステップ８０３で入力された各データ項目の現状分布を既知の確率分布として、グラフィカルモデルにより、Ｔ＋１年の各データ項目の確率分布（将来分布）を予測する。上述したように、グラフィカルモデルでは、Ｔ年の確率変数の確率分布を既知として、残りのＴ＋１年の確率変数の確率分布を求めることができる。これにより、Ｔ＋１年の疾病項目等のデータ項目の確率分布（将来分布）を予測できる。このようなグラフィカルモデルにおける確率計算方法として、Ｊｕｎｃｔｉｏｎ　Ｔｒｅｅ　Ａｌｇｏｒｉｔｈｍや、Ｌｏｏｐｙ　Ｂｅｌｉｅｆ　Ｐｒｏｐａｇａｔｉｏｎなどを用いることができる。

　図９と図１１を用いて、将来分布予測の例について説明する。図９は、将来分布予測処理および課題疾病抽出処理の一例を説明する図である。各データ項目の現状分布９２０をグラフィカルモデル９１０のＴ年ノード９１１に入力して既知とし、Ｔ＋１年ノード９１３の確率分布を算出することで、各データ項目の将来分布９３０を予測する。図９では、腎症、糖尿病、高血圧、血糖、ＢＭＩ、運動不足の現状分布９２０を入力することで、これら項目の将来分布９３０を予測する例を示している。現状分布９２０は、図１０で示した現状分布情報に対応する。

　例えば、図９の例では、腎症項目の現状分布は、「０」の確率９２１が９０％、「１」の確率９２２が１０％であるが、将来分布は、「０」の確率９３１が８０％、「１」の確率９３２が２０％と変化する。予測されたデータ項目別の将来分布は、図１１に示す将来分布情報１１００の形で、分布記憶部１２４に格納される。図１１の将来分布情報１１００は、図１０の現状分布情報１０００に対して、各データ項目の項目値別の将来分布１１０５が追加された形式である。

　課題疾病抽出ステップ８０５では、課題疾病抽出部１１１が、将来分布予測部１１０が予測した図１１の将来分布情報から、項目分類１００１が「疾病」である現状分布１００４と将来分布１１０５を取得する。次に、課題疾病抽出部１１１が、将来分布情報１１００を元に、疾病項目別に、現状分布の期待値と将来分布の期待値を算出し、将来分布の期待値と現状分布の期待値との差（将来－現状）を算出する。そして、疾病項目別の将来分布の現状分布との差を比較し、その差が大きい疾病を課題疾病として抽出する。

　図９と図１２を用いて、課題疾病抽出の例について説明する。腎症の場合、現状分布の期待値が１０％であり、将来分布の期待値が２０％であるため、図９の疾病項目の将来分布と現状分布との差９４０は、＋１０％となる。他の疾病項目の将来分布と現状分布との差９４０も同様に計算でき、糖尿病は＋５％、高血圧は＋３％である。そして、算出した疾病項目の将来分布と現状分布との差を比較すると、腎症の＋１０％が最も大きく、この疾病項目が保険者Ａの課題疾病９４１として抽出される。抽出された課題疾病は、図１２に示す課題疾病データの形で、課題疾病記憶部１２５に格納される。図１２の課題疾病データ１２００は、疾病１２０１、現状分布の期待値１２０２、将来分布の期待値１２０３、及び将来分布と現状分布との差１２０４を含み、これらの項目は、将来分布と現状分布との差１２０４の大きい順に格納される。

　以上で、図８のフローチャートの処理を終了する。これにより、保険者Ａの課題疾病を抽出できる。異なる保険者の課題疾病を抽出したい場合は、対象集団抽出ステップ８０１で、対象保険者の集団データを抽出し、同じ処理を実行することで、異なる保険者の課題疾病を抽出することができる。

　以上示したように、本実施例の疾病発症要因分析システムは、保険者が有する健診情報及び医療情報に基づいて、保険者毎に疾病の発症確率を予測し、将来増加が予測される疾病を課題疾病として抽出できる効果がある。これにより、重点的に予防する疾病を特定でき、効果的な保健事業を行うことができる効果がある。

　本例では、ヘルスケアデータが医療情報及び健診情報の２つの情報を含んでいるため、疾病や診療行為などの医療情報だけでなく、健康診断の検査値や生活習慣などのデータ項目も含むグラフィカルモデルを作成でき、したがって、幅広いデータ項目に基づいて将来増加が予測される疾病を課題疾病として抽出できる。

　また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病を算出する処理を説明したが、保険者別だけでなく、任意の集団（あるいは個人）に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を前述した対象集団抽出ステップ８０１で選定することで、本実施例の処理を行うことができる。これにより、任意の集団（あるいは個人）のデータ（健康状態）に応じた課題疾病を算出できる効果がある。

　また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病を抽出する処理を説明したが、抽出する項目はこれに限定されない。ヘルスケアデータの他の任意の項目（例えば、将来課題となる医療費や医療行為（医薬品、診療行為）など）を課題の項目として抽出してもよい。

［第２実施例］
　第２実施例では、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出する疾病発症要因分析システムの例を説明する。

　本実施例では、前述したグラフィカルモデル、データ項目の現状分布と将来分布、及び課題疾病データに基づき、保険者毎に課題疾病が増加する要因となるデータ項目を抽出する。

　図１３は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。本実施例の疾病発症要因分析システムは、疾病発症要因分析端末１０１及びデータベース１２０を有する。疾病発症要因分析端末１０１は、入力部１０２、出力部１０３、ＣＰＵ１０４、メモリ１０５及び記憶媒体１０６を有する。入力部１０２、出力部１０３、ＣＰＵ１０４、及び、メモリ１０５は、第１実施例と同じであるため、説明を省略する。

　記憶媒体１０６は、各種プログラムとして、将来分布変更部１１２、推定分布算出部１１３、分布比較指標値算出部１１４、及び、要因抽出部１１５を備える。

　将来分布変更部１１２は、課題疾病記憶部１２５が記憶する課題疾病データから、課題疾病の現状分布と将来分布をユーザに出力部１０３を介して表示し、課題疾病の将来分布を変更させる。これにより、課題疾病の現状分布と将来分布を画面上で比較しながら課題疾病の将来分布の改善値を入力することが可能となる。

　推定分布算出部１１３は、ユーザに変更させた課題疾病の将来分布と分布記憶部１２４に記憶された現状分布とを、グラフィカルモデル記憶部１２３が記憶するグラフィカルモデルに入力することで、各データ項目の推定分布を算出する。

　分布比較指標値算出部１１４は、推定分布算出部１１３で算出された推定分布と、分布記憶部１２４に記憶された現状分布とをデータ項目毎に比較し、その分布変化の大きさを表す分布比較指標値を算出する。

　要因抽出部１１５は、分布比較指標値算出部１１４で算出された分布比較指標値を、データ項目毎に比較し、指標値が大きいデータ項目を要因として抽出する。

　データベース１２０は、医療情報記憶部１２１、整形情報記憶部１２２、グラフィカルモデル記憶部１２３、分布記憶部１２４、課題疾病記憶部１２５、及び要因記憶部１３１から構成される。

　次に図１９の要因抽出処理のフローチャートと図１４～図１８を用いて、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出する処理を説明する。以下では、第１実施例に説明したデータを利用した例で説明する。

　図１９のフローチャートを開始すると、まず、将来分布変更ステップ２００１を行う。将来分布変更ステップ２００１では、将来分布変更部１１２が、課題疾病記憶部１２５の課題疾病データを取得する。次に、図１４の将来分布変更画面１４０１に示すように、将来分布変更部１１２が、課題疾病データから課題疾病の現状分布と将来分布を出力部１０３に表示し、ユーザに課題疾病の将来分布を変更させる。将来分布変更画面１４０１には、課題疾病１４１０、課題疾病の現状分布の期待値の表示欄１４１１、将来分布の期待値の表示欄１４１２、将来分布の変更値入力欄１４１３、及び入力完了ボタン１４２１が表示されている。

　ユーザには、将来分布の変更値入力欄１４１３に、課題疾病の将来分布の改善値（改善将来分布）を入力させる。改善値を入力した後、ユーザが入力完了ボタン１４２１を押下し、入力を確定させる。図１４では、腎症の将来分布２０％に対して、改善将来分布１５％を入力した例を示している。

　データ項目選定ステップ２００２では、推定分布算出部１１３が、推定分布を算出する対象データ項目を選定する。この時、将来分布変更部１１２で将来分布を変更した課題疾病項目以外のデータ項目を対象データ項目として選定する。

　推定分布算出ステップ２００３では、まず、推定分布算出部１１３が、分布記憶部１２４に記億されている現状分布情報と、グラフィカルモデル記憶部１２３に記憶されているグラフィカルモデルを取得する。次に、将来分布変更部１１２で変更した課題疾病の改善将来分布をグラフィカルモデルのＴ＋１年ノードに入力し、データ項目選定ステップ２００２で選定された対象データ項目以外のデータ項目全ての現状分布をグラフィカルモデルのＴ年ノードに入力することで、対象データ項目のＴ年の推定分布を算出する。推定分布の算出には、前述した確率計算方法であるＪｕｎｃｔｉｏｎ　Ｔｒｅｅ　Ａｌｇｏｒｉｔｈｍや、Ｌｏｏｐｙ　Ｂｅｌｉｅｆ　Ｐｒｏｐａｇａｔｉｏｎを用いることができる。

　不算出項目有無判定ステップ２００４では、推定分布算出部１１３が、課題疾病項目以外のデータ項目で、推定分布を算出していないデータ項目があるか判定する。ある場合は、データ項目選定ステップ２００２に戻り、不算出項目が無くなるまで推定分布算出ステップ２００３を繰り返す。不算出項目がない場合は、期待値算出ステップ２００５に進む。

　図１５Ａ～１５Ｃに示す推定分布算出処理の例を用いて説明する。図１５Ａ～１５Ｃでは、課題疾病項目を腎症とし、将来分布変更部１１２で将来分布９３０（期待値２０％）を改善将来分布１５３０（期待値１５％）に変更した場合について説明する。また、データ項目選定ステップ２００２において糖尿病項目、高血圧項目、血糖項目の順で選定された場合をそれぞれ説明する。

　図１５Ａは、糖尿病項目の推定分布１５２０を算出する処理を示している。図１５Ａでは、グラフィカルモデル９１０のＴ＋１年ノードに、腎症の改善将来分布１５３０を入力し、さらに、グラフィカルモデル９１０のＴ年ノードに、糖尿病以外のデータ項目（腎症、高血圧、血糖、ＢＭＩ、運動不足・・・）全ての現状分布９２０を入力して既知とすることで、糖尿病項目のＴ年の推定分布１５２０を算出する。図１５Ａの例では、糖尿病項目のＴ年の推定分布は、「０」の確率１５２１が７５％、「１」の確率１５２２が２５％であることを示している。

　図１５Ｂは、高血圧項目の推定分布１５２０を算出する処理を示している。図１５Ｂでは、グラフィカルモデル９１０のＴ＋１年ノードに、腎症の改善将来分布１５３０を入力し、さらに、グラフィカルモデル９１０のＴ年ノードに、高血圧以外のデータ項目（腎症、糖尿病、血糖、ＢＭＩ、運動不足・・・）全ての現状分布９２０を入力し既知とすることで、高血圧項目のＴ年の推定分布１５２０を算出する。図１５Ｂの例では、高血圧項目のＴ年の推定分布は、「０」の確率１５２３が８３％、「１」の確率１５２４が１７％であることを示している。

　図１５Ｃは、血糖項目の推定分布１５２０を算出する処理を示している。図１５Ｃでは、グラフィカルモデル９１０のＴ＋１年ノードに、腎症の改善将来分布１５３０を入力し、さらに、グラフィカルモデル９１０のＴ年ノードに、血糖以外のデータ項目（腎症、糖尿病、高血圧、ＢＭＩ、運動不足・・・）全ての現状分布９２０を入力し既知とすることで、血糖項目のＴ年の推定分布１５２０を算出する。図１５Ｃの例では、血糖項目のＴ年の推定分布は、分布１５２５のような形になることを示している。

　以上の処理を不算出項目が無くなるまで繰り返し、各データ項目の推定分布を算出する。算出された推定分布は、図１６に示す推定分布情報１６００の形で、分布記憶部１２４に格納される。図１６の推定分布情報１６００は、図１１の将来分布情報１１００に対して、各データ項目の項目値別の推定分布１６０６が追加された形式である。推定分布算出ステップ２００３で算出された推定分布情報は、推定分布１６０６に格納される。例えば、血糖項目の推定分布１６０６は、７０－７９が５％、８０－８９が１３％・・・であることを示している。

　以上示したように、推定分布算出部１１３が、算出対象データ項目（推定対象のデータ項目）以外のデータ項目の現状分布を入力して既知として、算出対象データ項目の推定分布を算出する。このため、算出対象データ項目以外のデータ項目（共変量）の影響を排除することができ、算出対象データ項目の単独の影響を表す推定分布を算出できる効果がある。つまり、他のデータ項目（共変量）の影響により生じる見かけの相関（疑似相関）を排除して、課題疾病の増加抑制へのデータ項目の寄与を正確に算出できる。

　図１９のフローチャートの説明に戻る。期待値算出ステップ２００５では、分布比較指標値算出部１１４が、各データ項目の現状分布の期待値と、推定分布算出部１１３で算出された推定分布の期待値をそれぞれ算出する。期待値Ｅは、データ項目値をｘｉ、データ項目値の確率をｐｉとすると、Ｅ＝Σｐｉ×ｘｉで算出する。

　分散算出ステップ２００６では、分布比較指標値算出部１１４が、各データ項目の現状分布の分散と、推定分布算出部１１３で算出された推定分布の分散をそれぞれ算出する。分散Ｖは、データ項目値をｘｉ、データ項目値の確率をｐｉとすると、Ｖ＝Σｐｉ（ｘｉ－Ｅ）^２で算出する。

　分布比較指標値算出ステップ２００７では、分布比較指標値算出部１１４が、各データ項目について、期待値算出ステップ２００５で算出した推定分布と現状分布の期待値と、分散算出ステップ２００６で算出した推定分布と現状分布の分散から、推定分布と現状分布の変化を示す分布比較指標値を算出する。

　分布比較指標値Ｈは、推定分布の期待値と分散をＥｓ、Ｖｓとし、現状分布の期待値と分散をＥｇ、Ｖｇとすると、Ｈ＝（Ｅｇ－Ｅｓ）／（Ｖｇ＋Ｖｓ）^０．５で算出する。この指標Ｈは、現状分布と推定分布の分散を用いて期待値の差を正規化した指標となる。このため、疾病項目と検査値項目のように、分布の形状が異なるデータ項目間でも分布の変化を比較することができ、課題疾病の増加を抑制する要因を抽出できる。なお、指標値の計算はこの例に限定されず、推定分布と現状分布との間の変化を示す値であれば、他の計算方法で算出されてもよい。

　要因抽出ステップ２００８では、要因抽出部１１５が、分布比較指標値算出部１１４で算出された各データ項目の分布比較指標値を比較し、分布比較指標値が大きいデータ項目を要因として抽出する。抽出された要因は、図１７に示す要因データ１８００の形で、要因記憶部１３１に格納される。

　図１７の要因データ１８００は、項目分類１００１、要因データ項目１８０１、要因データ項目の現状分布の期待値Ｅｇ１８０２、要因データ項目の推定分布の期待値Ｅｓ１８０３、現状分布の期待値Ｅｇと推定分布の期待値Ｅｓの差１８０４、及び、分散で正規化した期待値の差１８０４である分布比較指標値Ｈ１８０５を含む。これらの要因データ項目は、分布比較指標値Ｈ１８０５の大きい順に格納される。

　以上で、図１９のフローチャートの処理を終了する。この処理を保険者別に行うことで、保険者毎に、課題疾病の増加を抑制する要因を抽出できる。

　図１８Ａ及び図１８Ｂは、以上の処理で算出した要因抽出結果を出力部１０３に表示した画面例である。図１８Ａは、保険者Ａの要因抽出結果１９０１を示し、図１８Ｂは、保険者Ｂの要因抽出結果１９１１を示している。画面は、保険者名選択欄１９０２、課題疾病表示欄１９０４、原因疾病表示欄１９０３、及び要因リスト表示欄１９０５を備える。

　課題疾病表示欄１９０４には、課題疾病データ１２００に基づいて課題疾病が表示される。ここでは、将来分布と現状分布との差１２０４が最も大きい「腎症」が表示されている。原因疾病表示欄１９０３には、要因データ１８００の項目１８０１に基づいて、疾病の項目が表示される。要因リスト表示欄１９０５には、要因データの項目１８０１から疾病項目以外の項目を分布比較指標値Ｈ１８０５の大きい順に表示する。図１８Ａ及び図１８Ｂの例では、課題疾病表示欄１９０４に表示する課題疾病は保険者Ａ、保険者Ｂで同じ腎症であるが、要因抽出結果が異なる例を示している。

　図１８Ａの保険者Ａの要因抽出結果１９０１では、原因疾病が糖尿病であり、要因データ検査値および生活習慣項目として血糖、ＢＭＩ、運動不足、早食いの順に寄与が大きいことが示されている。また、図１８Ｂの保険者Ｂの要因抽出結果１９１１では、原因疾病が高血圧であり、要因データ検査値および生活習慣項目として収縮期血圧、ＢＭＩ、早食い、夜食の順に寄与が大きいことが示されている。このように保険者が持つヘルスケアデータの現状分布（健康状態）に基づき、課題疾病の増加を抑制する要因データ項目を抽出及び表示できる。

　以上示したように、本実施例の疾病発症要因分析システムが、将来の課題疾病の増加を抑制した場合の各データ項目の推定分布を算出し、現状分布との差が大きいデータ項目を抽出するので、課題疾病の増加を抑制する要因を抽出できる効果がある。

　また、本実施例の疾病発症要因分析システムが、あるデータ項目の推定分布を算出する際に、他のデータ項目の現状分布を入力して算出するので、他のデータ項目（共変量）の影響を排除した正確な要因を抽出できる効果がある。

　本例では、医療情報及び健診情報の２つの情報から作成されたグラフィカルモデルを用いるため、疾病や診療行為などの医療情報だけでなく、健康診断の検査値や生活習慣などについても課題疾病の要因として抽出することができる。

　また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病、要因を算出する処理を説明したが、保険者別だけでなく、任意の集団（あるいは個人）に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を選定することで、本実施例の処理を行うことができる。これにより、任意の集団（あるいは個人）のデータ（健康状態）に応じた課題疾病、要因を算出できる効果がある。

　また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病の要因を抽出する処理を説明したが、これに限定されない。ヘルスケアデータの他の任意の項目（例えば、将来課題となる医療費や医療行為（医薬品、診療行為）など）を課題の項目として設定し、その課題の項目の要因を抽出してもよい。

［第３実施例］
　第３実施例では、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出し、その要因データから指導対象者と対策を決定する疾病発症要因分析システムの例を説明する。

　本実施例では、前述したグラフィカルモデル、データ項目の現状分布と将来分布及び課題疾病データに基づき、保険者毎に課題疾病が増加する要因となるデータ項目を抽出し、要因データから指導対象者と対策を決定する。

　図２０は、本実施例の疾病発症要因分析システムの構成を示すブロック図である。本実施例の疾病発症要因分析システムは、疾病発症要因分析端末１０１及びデータベース１２０を有する。疾病発症要因分析端末１０１は、入力部１０２、出力部１０３、ＣＰＵ１０４、メモリ１０５及び記憶媒体１０６を有する。入力部１０２、出力部１０３、ＣＰＵ１０４、メモリ１０５は、第１実施例及び第２実施例と同じであるため、説明を省略する。

　記憶媒体１０６は、将来分布変更部１１２、推定分布算出部１１３、分布比較指標値算出部１１４、要因抽出部１１５、改善分布算出部１１６、対象者範囲決定部１１７、及び対策決定部１１８を備える。将来分布変更部１１２、推定分布算出部１１３、分布比較指標値算出部１１４、及び要因抽出部１１５は、第２実施例と同じ処理を行うため、説明を省略する。

　改善分布算出部１１６は、将来分布変更部１１２で変更された課題疾病の改善将来分布と、分布記憶部１２４が記憶する現状分布を元に、グラフィカルモデル記憶部１２３が記憶するグラフィカルモデルを用いて、要因抽出部１１５で要因として抽出された検査値及び生活習慣項目の改善分布を算出する。

　対象者範囲決定部１１７は、改善分布算出部１１６で算出された検査値項目の改善分布と現状分布を比較し、検査値項目の値別の確率が現状分布から改善分布で減少した値の範囲を決定し、指導対象者範囲を決定する。

　対策決定部１１８は、改善分布算出部１１６で算出された検査値項目及び生活習慣項目の改善分布と現状分布の期待値の差を算出し、対策として検査値項目と生活習慣項目の改善量を決定する。

　データベース１２０は、医療情報記憶部１２１、整形情報記憶部１２２、グラフィカルモデル記憶部１２３、分布記憶部１２４、課題疾病記憶部１２５、要因記憶部１３１、対象者記憶部１４１、及び対策記憶部１４２から構成される。

　次に、図２７の対象者範囲決定処理及び対策決定処理のフローチャートと図２１～図２６を用いて、データ項目の現状分布と将来分布から、課題疾病の増加を抑制する要因となるデータ項目を抽出し、要因データから指導対象者と対策を決定する処理を説明する。

　図２７のフローチャートを開始すると、まず、要因抽出ステップ２０００を行う。要因抽出ステップ２０００では、前述した図１９の要因抽出処理のフローチャートと同じ処理を行うため、説明を省略する。

　改善分布算出ステップ２９０１では、改善分布算出部１１６が、要因抽出部１１５が抽出した要因データと、分布記憶部１２４が記憶する現状分布と、グラフィカルモデル記憶部１２３が記憶するグラフィカルモデルとを取得する。次に、将来分布変更部１１２が変更した課題疾病の改善将来分布をＴ＋１年ノードに、疾病項目の現状分布をＴ年ノードに入力し、グラフィカルモデルを用いて、要因データの検査値項目と生活習慣項目の改善分布を算出する。改善分布の算出には、前述した確率計算方法であるＪｕｎｃｔｉｏｎ　Ｔｒｅｅ　Ａｌｇｏｒｉｔｈｍや、Ｌｏｏｐｙ　Ｂｅｌｉｅｆ　Ｐｒｏｐａｇａｔｉｏｎを用いることができる。

　図２１に示す改善分布算出処理の例を説明する。図２１の例では、課題疾病項目を腎症とし、将来分布変更部１１２で将来分布９３０（期待値２０％）を改善将来分布１５３０（期待値１５％）に変更した場合について説明する。また、要因抽出部１１５で抽出された要因データ項目において、検査値項目が血糖、ＢＭＩであり、生活習慣項目が運動不足、早食いである場合について説明する。

　図２１では、グラフィカルモデル９１０に、腎症の改善将来分布１５３０、疾病項目（腎症、糖尿病、高血圧）の現状分布９２０を入力し既知とすることで、要因データ項目のＴ年の改善分布２３２０を算出する。ここで、腎症の改善将来分布１５３０はＴ＋１年ノードに、疾病項目の現状分布９２０はＴ年ノードに入力し、要因データ項目のＴ年における改善分布２３２０を算出する。図２１では、算出された血糖の改善分布２３１２、ＢＭＩの改善分布２３１３、運動不足の改善分布２３１４、早食いの改善分布２３１５を示している。

　対象者範囲決定ステップ２９０２では、対象者範囲決定部１１７が、改善分布算出部１１６で算出された検査値項目の改善分布と現状分布を比較し、検査値項目９０２の値別の確率が現状分布から改善分布で減少した値の範囲を決定し、指導対象者範囲を決定する。

　図２２を用いて対象者範囲決定処理の例を説明する。図２２では、血糖とＢＭＩについて改善分布２３２０と現状分布９２０から対象者範囲２４００を決定する処理の例を示している。改善分布２３２０と現状分布９２０の項目値別の確率を比較することで、現状分布９２０に比べて改善分布２３２０の確率が減少する値の範囲を算出し、対象者範囲２４００を決定する。

　血糖の場合は、改善分布２３１２と現状分布９２３を比較する。この２つの分布を比較すると分かるように、血糖が１１０～１１９の範囲では、現状分布９２３の確率に比べて改善分布２３１２の確率が減少している。したがって、血糖の場合の対象者範囲２４０１は１１０～１１９となる。

　同様に、ＢＭＩの場合は、改善分布２３１３と現状分布９２４を比較する。この２つの分布を比較すると分かるように、ＢＭＩが２５～２８の範囲では、現状分布９２４の確率に比べて改善分布２３１３の確率が減少している。したがって、ＢＭＩの場合の対象者範囲２４０２は２５～２８となる。なお、対象者範囲の決定は、上記の方法に限定されず、改善分布と現状分布を比較して確率分布の変化が大きい値の範囲を算出すれば、他の方法でもよい。

　算出された検査値項目別の対象者範囲は、図２４の対象者範囲データ２６００の形で、対象者記憶部１４１に記憶される。図２４の対象者範囲データ２６００は、保険者名２０４、要因データ項目１８０１、要因データ項目別の対象者範囲２６０２を格納している。例えば、保険者名Ａの指導対象者範囲は、血糖が１１０～１１９でＢＭＩが２５～２８の範囲であることを示している。以上より、対象者範囲決定部１１７が、要因データ項目の改善分布と現状分布を比較し、確率分布の変化が大きい値の範囲を算出するので、課題疾病の増加を抑制するために指導が必要な対象者を具体的に決定できる。

　対策決定ステップ２９０３では、対策決定部１１８が、改善分布算出部１１６で算出された検査値項目９０２及び生活習慣項目９０３の改善分布と現状分布の期待値の差を算出し、対策として検査値項目と生活習慣項目の改善量を決定する。

　図２３を用いて対策決定処理の例を説明する。図２３は、検査値項目９０２が血糖とＢＭＩであり、生活習慣項目９０３が運動不足、早食いであり、各要因データ項目について改善分布２３２０と現状分布９２０から対策２５００を決定する処理の例を示している。具体的には、改善分布２３２０の期待値と現状分布９２０の期待値を算出し、期待値の差（現状－改善）を算出することにより、対策２５００として、改善量を各要因データ項目別に決定する。

　この例では、対策２５００として、血糖を４減、ＢＭＩを１減、運動不足を３％減、早食いを２％減が決定される。決定された対策は、図２５の対策データ２７００の形で、対策記憶部１４２に記憶される。図２５の対策データ２７００は、保険者名２０４、要因データ項目２７０１、要因データ項目別の改善量２７０２を格納している。例えば、保険者名Ａの血糖項目の改善量は４減、運動不足項目の改善量は３％減であることを示している。以上により、対策決定部１１８が、要因データ項目の改善分布２３２０と現状分布９２０の期待値の差を算出するので、具体的な対策として、要因データ項目の改善量を決定できる。

　以上で、図２７のフローチャートの処理を終了する。この処理を保険者別に行うことで、保険者毎に、課題疾病の増加を抑制するために必要な指導対象者範囲と改善量を要因データ項目から決定でき、保険者は具体的な対策を決定できる。

　図２６Ａ及び図２６Ｂは、以上の処理で決定した対象者範囲及び対策決定結果を出力部１０３に表示した画面例である。図２６Ａは、保険者Ａの結果２８０１を示し、図２６Ｂは、保険者Ｂの結果２８１１を示している。

　図２６Ａ及び図２６Ｂにおいて、画面の左側には、保険者名選択欄１９０２、課題疾病表示欄１９０４、原因疾病表示欄１９０３、要因リスト表示欄１９０５が表示されている。これは図１８Ａ及び図１８Ｂと同じであるため、説明を省略する。画面右側には、課題疾病の改善目標表示欄２８０５、対象者範囲表示欄２８０６、及び、対策表示欄２８０７が表示されている。

　課題疾病の改善目標表示欄２８０５には、将来分布変更部１１２で変更した課題疾病の将来分布９３０の期待値及び改善将来分布１５３０の期待値と、それらの差が表示される。この例では、保険者Ａと保険者Ｂ共に、課題疾病項目を腎症とし、将来分布９３０の期待値２０％から改善将来分布１５３０の期待値１５％に５％減少した場合を表示している。

　対象者範囲表示欄２８０６には、対象者範囲決定部１１７が、要因データに基づき決定した検査値項目の対象者範囲が表示され、さらに、その範囲に該当する人数を表示する。検査値項目の対象者範囲は、対象者記憶部１４１が記憶する図２４の対象者範囲データ２６００を参照することにより表示される。対象者範囲の人数は、整形情報記憶部１２２が記憶する整形情報７００から、その対象者範囲の人数をカウントすることにより表示される。保険者Ａの結果２８０１の対象者範囲表示欄２８０６では、対象者範囲が、血糖１１０～１１９、ＢＭＩ２５～２８であり、その範囲の対象人数が３００人であることが示されている。保険者Ｂの結果２８１１の対象者範囲表示欄２８０６では、対象者範囲が、収縮期血圧１３０～１４０、ＢＭＩ２５～２９であり、その範囲の対象人数が１０００人であることが示されている。

　対策表示欄２８０７には、対策決定部１１８が要因データに基づき決定した検査値項目と生活習慣改善項目の改善量が表示される。検査値項目と生活習慣改善項目の改善量は、対策記憶部１４２が記憶する図２５の対策データを参照することにより表示される。保険者Ａの結果２８０１では、各要因データ項目の改善量として、血糖を４減、ＢＭＩを１減、運動不足を３％減、早食いを２％減である対策が示されている。保険者Ｂの結果２８１１では、各要因データ項目の改善量として、収縮期血圧を３減、ＢＭＩを１減、早食いを３％減、夜食を２％減である対策が示されている。このように保険者が持つヘルスケアデータの現状分布（健康状態）に基づき、課題疾病の増加を抑制する要因データから、具体的な指導対象者範囲と対策を決定及び表示できる。

　以上示したように、本実施例の疾病発症要因分析システムでは、対象者範囲決定部１１７が、要因データ項目の改善分布と現状分布を比較し、確率分布の変化が大きい値の範囲を算出するので、課題疾病の増加を抑制するために指導が必要な対象者を具体的に決定できる効果がある。

　また、本実施例の疾病発症要因分析システムでは、対策決定部１１８が、要因データ項目の改善分布の期待値と現状分布の期待値との差を算出するので、具体的な対策として、要因データ項目の改善量を決定できる効果がある。

　以上により、保険者の健診・医療情報に基づいて、課題疾病の増加を抑制するために必要な指導対象者範囲と改善量を要因データ項目から決定でき、具体的な対策を決定できる効果がある。

　本例では、医療情報及び健診情報の２つの情報から作成されたグラフィカルモデルを用いるため、ある特定の疾病に対して、健康診断の検査値や生活習慣などに関する具体的な対象者範囲と対策を決定できる。

　また、本実施例の疾病発症要因分析システムでは、保険者別の課題疾病、要因、対象者範囲、対策を算出する処理を説明したが、保険者別だけでなく、任意の集団（あるいは個人）に対して本実施例の処理を行うことができる。例えば、男女別、年齢別、事業所別など、任意の集団を選定することで、本実施例の処理を行うことができる。これにより、任意の集団（あるいは個人）のデータ（健康状態）に応じた課題疾病、要因、対象者範囲、対策を算出できる効果がある。

　また、本実施例の疾病発症要因分析システムでは、将来課題となる疾病の要因から対象者範囲及び対策を決定する処理を説明したが、これに限定されない。ヘルスケアデータの他の任意の項目（例えば、将来課題となる医療費や医療行為（医薬品、診療行為）など）を課題の項目として設定し、その課題の項目の要因を抽出し、その要因に対して対象者範囲及び対策を決定してもよい。

　本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。上記実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることもできる。また、ある実施例の構成に他の実施例の構成を加えることもできる。また、各実施例の構成の一部について、他の構成を追加・削除・置換することもできる。

　上記の疾病発症要因分析装置の機能、処理手段などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）などの記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤなどの記憶媒体に置くことができる。また、上記で説明した疾病発症要因分析装置の機能、処理手段などは、それらの一部あるいは全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。

１０１　疾病発症要因分析端末
１０２　入力部
１０３　出力部
１０４　ＣＰＵ
１０５　メモリ
１０６　記憶媒体
１０７　データ整形部
１０８　グラフィカルモデル作成部
１０９　現状分布算出部
１１０　将来分布予測部
１１１　課題疾病抽出部
１１２　将来分布変更部
１１３　推定分布算出部
１１４　分布比較指標値算出部
１１５　要因抽出部
１１６　改善分布算出部
１１７　対象者範囲決定部
１１８　対策決定部
１２０　データベース
１２１　医療情報記録部
１２２　整形情報記憶部
１２３　グラフィカルモデル記憶部
１２４　分布記憶部
１２５　課題疾病記憶部
１３１　要因記憶部
１４１　対象者記憶部
１４２　対策記録部

Claims

　保険加入者のヘルスケア情報に含まれるデータ項目から構成されるグラフィカルモデルであって、第１の時点の前記データ項目の確率変数に対応する第１のノード群と、前記第１の時点よりも将来の第２の時点の前記データ項目の確率変数に対応する第２のノード群と、前記第１のノード群と前記第２のノード群から成る集合に含まれる任意の２つのノード間の確率的依存性を表す有向又は無向のエッジとにより定義されるグラフィカルモデルと、前記データ項目毎の前記第１の時点の確率分布を表す現状分布情報と、を格納するデータベースと、
　対象となるデータ項目の前記第２の時点の将来分布の改善値と、前記現状分布情報とを前記グラフィカルモデルに入力することにより、各データ項目毎に前記第１の時点の推定分布情報を算出する推定分布算出部と、
　前記推定分布情報と前記現状分布情報とを前記データ項目間で比較し、前記推定分布情報と前記現状分布情報との間の変化を示す指標値を算出する指標値算出部と、
　前記指標値を前記データ項目毎に比較することにより、前記対象となるデータ項目の要因を要因情報として抽出する要因抽出部と、
　少なくとも前記要因情報を表示する出力部と、
を備えることを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記改善値と前記現状分布情報とを前記グラフィカルモデルに入力することにより、前記要因情報として抽出された前記データ項目の改善分布情報を算出する改善分布算出部と、
　前記改善分布情報と前記現状分布情報とを比較することにより、指導対象者範囲を決定する対象者範囲決定部と、をさらに備え、
　前記出力部が、前記指導対象者範囲をさらに表示することを特徴とする分析システム。
　請求項２に記載の分析システムにおいて、
　前記改善分布情報と前記現状分布情報とを比較することにより、前記要因情報として抽出された前記データ項目毎に改善量を対策情報として決定する対策決定部をさらに備え、
　前記出力部が、前記対策情報をさらに表示することを特徴とする分析システム。
　請求項３に記載の分析システムにおいて、
　前記対策決定部は、前記改善分布情報の期待値と前記現状分布情報の期待値との差を用いて前記改善量を決定することを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記指標値算出部は、前記現状分布情報の期待値及び前記推定分布情報の期待値の差を用いて前記指標値を算出することを特徴とする分析システム。
　請求項５に記載の分析システムにおいて、
　前記指標値算出部は、前記現状分布情報の期待値及び前記推定分布情報の期待値の前記差を、前記現状分布情報の分散及び前記推定分布情報の分散を用いて正規化することにより、前記指標値を算出することを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記対象となるデータ項目が疾病であることを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記ヘルスケア情報が、前記保険加入者の医療情報及び健康診断情報を含むことを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記改善値の入力を受付けるためのインタフェースを前記出力部に表示させる将来分布変更部をさらに備えることを特徴とする分析システム。
　請求項１に記載の分析システムにおいて、
　前記現状分布情報を前記グラフィカルモデルに入力することにより、前記データ項目の前記第２の時点の将来分布情報を予測する将来分布予測部と、
　前記現状分布情報と前記将来分布情報に基づいて、前記データ項目の中から、将来課題となる課題データ項目を抽出する課題抽出部と、
をさらに備え、
　前記出力部が、前記課題データ項目をさらに表示することを特徴とする分析システム。
　請求項１０に記載の分析システムにおいて、
　前記課題抽出部は、前記現状分布情報の期待値と前記将来分布情報の期待値との差を用いて前記課題データ項目を抽出することを特徴とする分析システム。
　請求項１０に記載の分析システムにおいて、
　前記データベースは、前記ヘルスケア情報の前記データ項目を保険加入者毎かつ所定期間毎にまとめた整形情報を更に格納しており、
　前記整形情報から前記現状分布情報を算出する現状分布算出部をさらに備えることを特徴とする分析システム。
　請求項１２に記載の分析システムにおいて、
　前記ヘルスケア情報から前記整形情報を作成するデータ整形部をさらに備えることを特徴とする分析システム。
　請求項１２に記載の分析システムにおいて、
　前記整形情報から前記グラフィカルモデルを作成するグラフィカルモデル作成部をさらに備えることを特徴とする分析システム。
　請求項１０に記載の分析システムにおいて、
　前記課題データ項目が疾病であることを特徴とする分析システム。