WO2020045245A1

WO2020045245A1 - 状態遷移予測装置、予測モデル学習装置、方法およびプログラム

Info

Publication number: WO2020045245A1
Application number: PCT/JP2019/032900
Authority: WO
Inventors: 籔内　勉; 正造東; 直樹麻野間; 昭宏千葉; 佳那江口; 山田　智広; 央倉沢; 吉田　和広
Original assignee: 日本電信電話株式会社
Priority date: 2018-08-31
Filing date: 2019-08-22
Publication date: 2020-03-05
Also published as: US20210257067A1; JP7107375B2; JPWO2020045245A1

Abstract

この発明の一実施形態は、医療記録データから着目する各疾病の発症順序が共通でかつ各疾病が発症するまでの時間が異なる医療記録データの組を選択し、この医療記録データの組ごとに当該組を構成する各医療記録データからユーザの健康状態を表す特徴量を抽出してこれを訓練データとし、検査初年時の検査データと上記各疾病が発症するまでの時間とから当該各疾病が併発又は合併症として発症するリスクスコアを算出してこれを正解データとする。このとき発症リスクスコアは、発症までの経過時間が長いユーザより短いユーザの方が大きな値となるように計算される。そして、上記訓練データを学習器に入力してその出力が上記正解データとなるように学習器に学習を行わせ、予測モデルを生成する。

Description

状態遷移予測装置、予測モデル学習装置、方法およびプログラム

　この発明は、例えば、医療健康分野においてユーザの現在の健康状態をもとに将来の疾病の発症リスクを予測するために使用される、状態遷移予測装置、予測モデル学習装置、方法およびプログラムに関する。

　個人の健康状態を表す情報をもとに将来の疾病の発症リスクスコアを算出する手法の一つとして、単一の疾病を対象としたスコア関数を構築し、適用する手法が提案されている。例えば、代謝系分野においては、糖尿病や高血圧症を区別し、それぞれの疾患について発症リスクスコアを算出するようにしている（例えば非特許文献１を参照）。

　発症リスクスコアを算出するための関数設計において、将来の状態遷移方向が単一である場合は、遷移するまでの期間を一軸の早い・遅いという観点で比較可能であり、その一軸での評価が正しくなるように関数のモデル選択とパラメータを設定できればよい。すなわち、個別の疾患に対する発症・進行リスク関数は、当該疾患の遷移が発生するまでの期間に沿って構築される。

Nanri A, et al. "Development of Risk Score for Predicting 3-Year Incidence of Type 2 Diabetes: Japan Epidemiology Collaboration on Occupational Health Study.", PLoS One. 2015 Nov 11;10(11):e0142779. doi: 10.1371/journal.pone.0142779. eCollection 2015.

　ところで、生活習慣病は、食生活や運動習慣、睡眠、飲酒などの生活習慣が発症や進行に大きく関与する疾患群であり、糖尿病や高血圧症、新生物などがこれに含まれる。生活習慣病の疾患は併発することが知られている。例えば、糖尿病の患者が高血圧症を発症する確率が高いことが知られている。また、生活習慣病の一つである糖尿病の合併症は、腎症や網膜症、神経障害など多岐にわたることも知られている。

　しかし、非特許文献１に記載されるように、疾患ごとにスコア関数を構築して疾患の発症リスクのスコアを算出する技術では、発症・進行リスク関数が一つの疾患の遷移が生じるまでの期間に沿って構築されているため、併発や合併する疾患に関して統一的なリスクスコアを算出することができない。例えば、糖尿病患者に発症する合併症は腎症や網膜症、神経障害など多岐にわたるが、腎症の患者と網膜症の患者とで糖尿病の進行度合いを比較できるようなリスクスコアを算出することが困難である。

　この発明は上記事情に着目してなされたもので、将来の状態遷移のパターンが複数存在する場合でも、状態遷移が発生する傾向の大きさを表すスコアを状態遷移のパターンに依らず統一的な値として算出することが可能な技術を提供しようとするものである。

　上記課題を解決するためにこの発明に係る状態遷移予測装置および方法の第１の態様は、ユーザの健康状態が、第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、第２の状態から第２の症状が発症して第３の状態に遷移する場合に、前記第１の状態に係る特徴量と、前記第１の状態から第２の状態になるまでの経過時間、および前記第１の状態から第３の状態になるまでの経過時間とを含む特徴データを取得する特徴データ取得部と、取得された前記特徴データの中から、第１の特徴データの第１の症状と第２の特徴データの第１の症状が同じであり、第１の特徴データの第２の症状と第２の特徴データの第２の症状が同じで、かつ状態遷移の経過時間が異なる第１および第２の特徴データを選択する選択部と、前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量を訓練データとすると共に、当該各特徴量をもとにそれぞれ算出されかつ前記第１および第２の特徴データにそれぞれ含まれる前記経過時間が反映されたスコアを正解データとして、前記学習器を学習させることで、予測モデルを生成する予測モデル生成部とを具備するものである。

　この発明の第１の態様によれば、ユーザの健康状態が、第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、第２の状態から第２の症状が発症して第３の状態に遷移する場合に、その状態遷移のパターンと状態遷移が発生するまでの経過時間が考慮されて予測モデルが作成される。従って、将来の状態遷移のパターンが複数存在する場合でも、状態遷移が発生する傾向の大きさを状態遷移パターンに依らず統一的に表すスコアとして算出することが可能な予測モデルを作成することができる。

図１は、この発明の一実施形態に係る状態遷移予測装置の機能構成を示すブロック図である。図２は、図１に示した状態遷移予測装置による学習フェーズの処理手順と処理内容を示すフローチャートである。図３は、図１に示した状態遷移予測装置による予測フェーズの処理手順と処理内容を示すフローチャートである。図４は、医療記録データの一例を示す図である。図５は、ユーザ別の発症に至るまでの期間と正解データの一例を示す図である。図６は、図２に示した学習フェーズにおける予測モデル学習処理の一例を示す図である。図７は、図３に示した予測フェーズにおける状態遷移予測処理の一例を示す図である。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［一実施形態］
　この発明の一実施形態では、医療健康分野において、ユーザの現在の健康状態を表す検査データをもとに、将来における複数の疾病の併発又は合併症の発症リスクを予測する場合を例にとって説明する。

　（構成例）
　図１は、この発明の一実施形態に係る状態遷移予測装置の機能構成を示すブロック図である。　
　状態遷移予測装置１は、例えばサーバコンピュータ又はパーソナルコンピュータからなり、ネットワーク３を介して、電子医療記録（Electronic Medical Records：ＥＭＲ）サーバ２およびアクセス端末４との間で通信が可能となっている。

　ＥＭＲサーバ２は、例えば病院や医院、診療所等の医療機関ごとに設けられ、患者ごとにその診療データや検査データ、問診データ等を含む医療記録データを蓄積管理する。なお、ＥＭＲサーバ２の代わりに、地域内の複数の医療機関で共有されるように設けられる電子健康記録（Electronic Health Records：ＥＨＲ）サーバや、個人健康記録（Personal Health Records：ＰＨＲ）データを記憶するユーザ端末であってもよい。

　アクセス端末４は、例えば、医師や看護師、保健師等の医療保健関係者が使用する端末、保険会社等のユーザの許可を受けた第三者が使用する端末、或いはユーザ自身が使用する端末であり、例えばパーソナルコンピュータ、タブレット型端末またはスマートフォンからなる。

　ネットワーク３は、例えば、インターネット等の公衆網と、この公衆網にアクセスするためのアクセス網を含む。アクセス網としては、例えば院内のＬＡＮ（Local Area Network）または無線ＬＡＮが用いられるが、他に有線電話網、ＣＡＴＶ（Cable Television）網、携帯電話網または公衆無線ＬＡＮ等を使用することも可能である。

　状態遷移予測装置１は、例えば、医療機関に設けられるもので、例えばサーバコンピュータにより構成される。なお、状態遷移予測装置１は、それ単独で設置されてもよいが、医師端末や、ＥＭＲサーバ、ＥＨＲサーバ、さらにはクラウドサーバに、その拡張機能の１つとして設けられるものであってもよい。

　状態遷移予測装置１は、ハードウェアとソフトウェアとにより実現される。ハードウェアは、制御ユニット１０に対し、図示しないバスを介して記憶ユニット２０およびインタフェースユニット３０を接続したものとなっている。

　インタフェースユニット３０は、ネットワーク３を介して、ＥＭＲサーバ２およびアクセス端末４との間でデータ伝送を行う。またインタフェースユニット３０は、ＬＡＮや信号ケーブルを介して接続される管理端末との間でデータ伝送を行う機能を有していてもよい。

　記憶ユニット２０は、記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリとを組み合わせて構成される。その記憶領域には、プログラム記憶領域と、データ記憶領域とが設けられる。プログラム記憶領域には、この発明の一実施形態に係る各種制御処理を実行するために必要なプログラムが格納されている。

　データ記憶領域には、医療記録データ記憶部２１と、学習対象データ記憶部２２と、予測モデル記憶部２３とが設けられている。医療記録データ記憶部２１は、上記ＥＭＲサーバ２等から取得された複数のユーザの医療記録データを記憶するために用いられる。学習対象データ記憶部２２は、上記医療記録データ記憶部２１に記憶された複数のユーザの医療記録データの中から選択された、学習対象のデータを記憶するために使用される。予測モデル記憶部２３は、学習済の予測モデルを記憶するために使用される。

　制御ユニット１０は、例えば、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサを備え、この発明の一実施形態を実現するための制御機能部として、医療記録データ取得部１１と、学習対象データ選択部１２と、訓練データ抽出・正解データ算出部１３と、予測モデル学習部１４と、評価データ取得部１５と、発症リスクスコア予測処理部１６と、予測データ出力部１７とを有している。これらの制御機能部は、いずれも上記プログラム記憶領域に格納されたプログラムを上記ハードウェアプロセッサに実行させることにより実現される。

　医療記録データ取得部１１は、学習フェーズにおいて、上記ＥＭＲサーバ２から複数のユーザの医療記録データを、ネットワーク３およびインタフェースユニット３０を介して取得し、この医療記録データを上記ユーザの個人識別情報（ユーザＩＤ）と関連付けて医療記録データ記憶部２１に記憶させる処理を行う。

　学習対象データ選択部１２は、併発または合併症として発症する可能性がある複数の疾病、例えば糖尿病と高血圧症に着目して学習対象データを選択する処理を行う。なお、上記着目する複数の疾病の種類は、糖尿病と高血圧症に限定されるものではなく、腎症や網膜症などのその他の疾病であってもよい。上記学習対象とする疾病の種類は、例えば状態遷移予測装置１の運用管理者により事前に指定される。

　学習対象データ選択部１２は、上記医療記録データ記憶部２１に記憶された複数のユーザの医療記録データの中から、先ず上記着目する複数の疾病の発症履歴があるか又は当該各疾病の発症を追跡観察中の医療記録データを選択する。そして、上記着目する各疾病の発症順序が共通で、かつ当該各疾病が発症するまでの経過時間が異なる医療記録データの組を複数選択し、選択した上記医療記録データの各組を学習対象データとして学習対象データ記憶部２２に記憶させる。

　訓練データ抽出・正解データ算出部１３は、上記学習対象データ記憶部２２に記憶された医療記録データの組ごとに、当該組を構成する各医療記録データから、ユーザの健康状態を表す特徴量として、それぞれ検査初年時の検査データに含まれる所定の検査項目のバイタルデータを抽出し、この検査データを訓練データとする。例えば、検査初年時の、血糖値を示すＨｂＡ１ｃと、収縮期血圧ＢＰと、ボディマス指数（Body Mass Index：ＢＭＩ）を抽出する。

　また訓練データ抽出・正解データ算出部１３は、上記組を構成する各医療記録データの各々について、上記ユーザの健康状態を表す特徴量、つまり検査初年時の検査データに含まれる所定の検査項目のバイタルデータと、上記着目する複数の疾病が発症するまでの経過時間とをもとに、当該複数の疾病が併発または合併症として発症するリスクスコアを算出する。このとき発症リスクスコアは、発症までの経過時間が長いユーザより、短いユーザの方が大きな値となるように計算される。なお、疾病がまだ発症しておらず追跡観察中の医療記録データについては、追跡観察不能になるまでの期間の長さを上記経過時間として発症リスクスコアを算出する。そして、訓練データ抽出・正解データ算出部１３は、上記算出された発症リスクスコアを正解データとする。

　予測モデル学習部１４は、例えば多層ニューラルネットワークから構成される学習器を用い、この学習器に上記訓練データ抽出・正解データ算出部１３により抽出された訓練データを入力し、このとき学習器から出力されるスコアと上記訓練データ抽出・正解データ算出部１３により算出された正解データとの誤差が最小化するように、学習器の学習パラメータを調整する。そして、最終的に得られた学習パラメータが反映された予測モデルを学習済の予測モデルとして予測モデル記憶部２３に記憶させる。なお、予測モデル学習部１４における学習処理の具体例は後述する。

　評価データ取得部１５は、予測フェーズにおいて、例えばアクセス端末４からの要求に応じ、上記ＥＭＲサーバ２またはアクセス端末４から、予測対象となるユーザの検査データ、例えばＨｂＡ１ｃ、収縮期血圧およびＢＭＩを、評価データとして取得する処理を行う。なお、この場合、ユーザの医療記録データを取得して、この医療記録データから必要な検査データを評価データとして抽出するようにしてもよい。

　発症リスクスコア予測処理部１６は、予測モデル記憶部２３に記憶された学習済の予測モデルに対し、上記評価データ取得部１５により取得された評価データを入力し、上記予測モデルから出力される発症リスクスコアを予測データ出力部１７に渡す処理を行う。なお、発症リスクスコア予測処理部１６は、学習済の予測モデルから出力された発症リスクスコアを、ユーザＩＤと関連付けて記憶ユニット２０内の予測データ記憶部（図示省略）に保存するようにしてもよい。

　予測データ出力部１７は、上記発症リスクスコア予測処理部１６から渡された発症リスクスコアを含む予測結果通知データを生成し、インタフェースユニット３０から要求元のアクセス端末４に向け送信する処理を行う。

　（動作例）
　次に、以上のように構成された状態遷移予測装置１の動作例を説明する。
　（１）学習フェーズ
　学習フェーズが設定されると、状態遷移予測装置１は以下のように予測モデルの学習処理を実行する。
　図２は、状態遷移予測装置１の制御ユニット１０による学習フェーズの処理手順と処理内容の一例を示すフローチャートである。

　（１－１）医療記録データの取得
　制御ユニット１０は、先ずステップＳ１０において、医療記録データ取得部１１の制御の下、インタフェースユニット３０を介してＥＭＲサーバ２に対しアクセスし、ＥＭＲサーバ２から複数のユーザに係る医療記録データをそれぞれダウンロードする。そして、この医療記録データをユーザＩＤと関連付けて医療記録データ記憶部２１に記憶させる。なお、ＥＭＲサーバ以外にＥＨＲサーバからさらに多くの医療記録データを取得するようにしてもよい。

　また、上記医療記録情報の取得に際し、医療記録データ取得部１１はＥＭＲサーバ２等で管理されているすべてのユーザの医療記録データを取得してもよいが、例えば学習対象として事前に指定された複数の疾病、例えば糖尿病と高血圧症の発症履歴のあるユーザの医療記録データのみを検索し、取得するようにしてもよい。このようにすると、医療記録データ記憶部２１の記憶容量の削減と、後述する学習対象データ選択処理に係る処理負荷を軽減することが可能となる。その他、例えば学習対象としてユーザの性別や年齢層、居住地域、職種等のユーザ属性が指定された場合には、これらのユーザ属性に該当するユーザの医療記録データのみを取得するようにしてもよい。

　（１－２）学習対象データの選択
　ユーザの医療記録データの取得が終了すると、制御ユニット１０は次にステップＳ１１において、学習対象データ選択部１２の制御の下で、以下のように学習対象となる医療記録データを選択する処理を実行する。

　すなわち、学習対象データ選択部１２は、先ず医療記録データ記憶部２１から、学習対象として事前に指定された複数の疾病の発症履歴があるか又は当該複数の疾病の発症を追跡観察中のユーザに係る医療記録データを選択する。例えば、学習対象として糖尿病と高血圧症との併発または合併症が指定されている場合には、糖尿病および高血圧症の発症履歴があるか、または糖尿病および高血圧症について追跡観察中のユーザに係る医療記録データを選択する。

　図４は、以上の処理により選択された、糖尿病および高血圧症の発症履歴があるか、又は当該各疾病について追跡観察中のユーザＡ～Ｅに係る医療記録データの一例を示す。この例では、ユーザ名に対し、検査期間と、糖尿病発症までの経過時間と、高血圧症発症までの経過時間と、検査初年のＨｂＡ１ｃと、検査初年の収縮期血圧（ＢＰ）と、検査初年のＢＭＩを関連付けたものを示している。

　学習対象データ選択部１２は、続いて、上記選択された医療記録データの中から、学習対象となる複数の疾病、例えば糖尿病と高血圧症の発症パターン（例えば発症順序）が共通で、かつこれらの疾病が発症するまでの経過時間が異なる医療記録データの組をすべて選択する。

　ただし、疾病がまだ発症していないユーザについては、追跡観察不能になった時点、つまり検査期間経過後の任意の時点で発症したと仮定するとともに、発症までの経過時間を同様の時点までと仮定する。ここで任意の時点は、例えば、検査実施の翌日や検査期間以降の次の検査が予定されていた日（翌年の検査予定日や最後の検査日の１年後）、検査期間以降で最後に病院を受診した日の翌日に設定される。

　例えば、図４に示した医療記録データを例にとると、ユーザＡは糖尿病の発症後に高血圧症を発症しており、この発症パターンと同じ発症パターンを有するユーザとしてＤおよびＥが選択される。ただし、ユーザＤは６年目の健康診断受診後の７年目に高血圧が発症、ユーザＥは３年目の健康診断受診後の４年目に高血圧が発症したとみなして選択する。つまり、ユーザＡとユーザＤの組と、ユーザＡとユーザＥの組が学習対象として選択される。

　また、ユーザＣは高血圧症の発症後に糖尿病を発症しており、この発症パターンと同じ発症パターンを有するユーザとしてＢが選択される。ただしユーザＢは、６年目の健康診断受診後の７年目に糖尿病が発症したとみなして選択する。つまり、ユーザＢとユーザＣの組が学習対象として選択される。そして学習対象データ選択部１２は、上記選択された医療記録データの各組を学習対象データ記憶部２２に記憶させる。

　このように２つの症状のうち、後半の症状について、発症の場合と未発症の場合の両方を選択の対象としているが、全ての症状を発症しているユーザ、未発症の症状を含むユーザのどちらかに限定して選択してもよい。また選択する医療記録データの組は医療記録データの中から、学習対象となる複数の疾病、例えば糖尿病と高血圧症の発症パターン（例えば発症順序）が共通で、かつこれらの疾病が発症するまでの経過時間が異なり、さらにあるユーザの高血圧（または糖尿病）発症までの経過時間と糖尿病（または高血圧）発症までの経過時間が、他方のユーザの高血圧（または糖尿病）発症までの経過時間と糖尿病（または高血圧）発症までの経過時間より両方とも小さい医療記録データの組をすべて選択してもよく、未発症の症状を含むユーザについては追跡観察が不能になった以降の任意の時点で発症したと仮定するとともに、発症までの経過時間を同様の時点までとして、同様の条件を適用して選択してよい。

　（１－３）訓練データの抽出と正解データの算出
　上記学習対象データの選択が終了すると、制御ユニット１０は訓練データ抽出・正解データ算出部１３の制御の下、先ずステップＳ１２において、学習対象データ記憶部２２から各学習対象データを読み出し、これらの学習対象データからそれぞれユーザの健康状態を表す特徴量として、検査初年度の検査データである、ＨｂＡ１ｃ、収縮期血圧およびＢＭＩを抽出する。なお、ユーザの健康状態を表す特徴量としては、検体検査や生理検査など、スコア算出に寄与しうる項目で量的に表せる値であれば他のものでも良い。

　この結果、例えばユーザＢの医療記録データからは、ＨｂＡ１ｃ“５．２”、収縮期血圧“１３０”およびＢＭＩ“２８”が抽出され、またユーザＣの医療記録データからは、ＨｂＡ１ｃ“５．６”、収縮期血圧“１３７”およびＢＭＩ“３１”が抽出される。そして、この抽出されたユーザの検査データが訓練データとして使用される。

　また訓練データ抽出・正解データ算出部１３は、続いてステップＳ１３において、上記学習対象データ記憶部２２に学習対象データとして記憶されている医療記録データの各組について、組を構成する医療記録データごとに、検査初年時の検査データである、ＨｂＡ１ｃ、収縮期血圧およびＢＭＩと、糖尿病が発症するまでの経過時間および高血圧症が発症するまでの経過時間とに基づいて、合併症の発症リスクスコアを算出する。

　但し、このとき発症リスクスコアは、発症までの経過時間が長いユーザのスコアより、発症までの経過時間が短いユーザのスコアの方が大きな値となるように計算される。なお、疾病がまだ発症しておらず追跡観察中のユーザについては、追跡観察不能になるまでの時間の長さを上記経過時間としてスコアを算出する。そして、訓練データ抽出・正解データ算出部１３は、上記算出された発症リスクスコアを正解データとする。

　図５は、図４に示した各ユーザＡ～Ｅの糖尿病および高血圧症の発症までの期間を棒グラフで図示し、さらに併発又は合併症を考慮した発症リスクスコアの正解データの一例を示したものである。この例では、上記学習対象データ選択部１２において、ユーザＢとユーザＣの組と、ユーザＡとユーザＤの組と、ユーザＡとユーザＥの組が学習対象として選択されているので、これらの組についてそれぞれの医療記録データからスコアが算出される。

　例えば、ユーザＢとユーザＣの組では、発症までの経過時間がユーザＢよりユーザＣの方が短いので、ユーザＢのスコアＺ_B よりユーザＣのスコアＺ_C の方が大きな値となるように、つまりＺ_B ＜Ｚ_C となるように計算される。また、ユーザＡとユーザＤの組では、発症までの経過時間がユーザＤよりユーザＡの方が短いので、ユーザＤのスコアＺ_D よりユーザＡのスコアＺ_Aの方が大きな値となるように、つまりＺ_A ＞Ｚ_D となるように計算される。同様に、ユーザＡとユーザＥの組では、ユーザＥは糖尿病を３年目に発症し、高血圧症が３年の健診期間において未発症なので、ユーザＥのスコアＺ_E よりユーザＡのスコアＺ_Aの方が大きな値となるように、つまりＺ_A ＞Ｚ_E となるように計算される。

　（１－４）予測モデルの学習
　制御ユニット１０は、次に予測モデル学習部１４の制御の下、ステップＳ１４において予測モデルの学習処理を実行する。　
　図６は予測モデルの学習に使用する学習器の構成の一例を示したもので、学習器としては例えば多層ニューラルネットワークが用いられる。多層ニューラルネットワークは、例えば、入力層ＩＬ１，ＩＬ２、中間層ＭＬ１，ＭＬ２および出力層ＯＬ１，ＯＬ２の３層から構成される。このうち入力層ＩＬ１，ＩＬ２および中間層ＭＬ１，ＭＬ２は、全結合層とBatch Normalizationと活性化関数ReLUとから構成され、出力層ＯＬ１，ＯＬ２は全結合層により構成される。

　予測モデル学習部１４は、上記訓練データ抽出・正解データ算出部１３により、組を構成するユーザの各医療記録データからそれぞれ抽出された検査初年度の検査データを、訓練データとして上記入力層ＩＬ１，ＩＬ２に入力する。例えば、いまユーザＢとユーザＣの組を例にとると、ユーザＢの検査初年度の検査データであるＨｂＡ１ｃ“５．２”、収縮期血圧“１３０”およびＢＭＩ“２８”と、ユーザＣの検査初年度の検査データであるＨｂＡ１ｃ“５．６”、収縮期血圧“１３７”およびＢＭＩ“３１”を、学習器の２系統の入力層ＩＬ１，ＩＬ２に入力する。

　予測モデル学習部１４は、学習器の出力層ＯＬ１，ＯＬ２から出力された、ユーザＢの検査初年度の検査データに対応するスコアと、ユーザＣの検査初年度の検査データに対応するスコアとの差分をSigmoid関数の計算部ＳＬに入力する。そして、その出力値と、上記訓練データ抽出・正解データ算出部１３により算出されたユーザＢとユーザＣの正解データＺ_B ＜Ｚ_C の関係から得られる正解値“１”との交差エントロピーを算出して誤差とする。そして、最適化法のAdamにより誤差を最小化する。

　すなわち、学習器の入力層ＩＬ１，ＩＬ２には検査データの３次元ベクトルが入力され、出力層ＯＬ１，ＯＬ２からは１次元ベクトルからなるスコアが出力される。つまり、学習器の入力層のユニットサイズは“３”、出力層のユニットサイズは“１”となる。また、中間層のユニットサイズは“６４”とする。なお、パラメータはこれに限るものではなく、ユニットサイズはスコアの算出に用いる項目数や項目間の関係性に応じて適宜変更可能である。

　予測モデル学習部１４は、上記学習対象データ記憶部２２に記憶されたすべての学習対象データの組について、上記したユーザＢとユーザＣの場合と同様に学習器に検査初年度の検査データを訓練データとして入力し、かつ学習器の出力の差分のSigmoid関数値と、正解データの関係から得られる正解値との交差エントロピーの誤差を算出して、この誤差を最小化するための最適化処理を行う。そして、すべての学習対象データによる学習処理が終了したことをステップＳ１５で検出すると、その時点の学習パラメータが反映された予測モデルを学習済の予測モデルとして予測モデル記憶部２３に記憶させ、予測モデルの学習処理を終了する。

　なお、図５では参考のため、糖尿病および高血圧症について個々に正解データを算出した場合も示している。すなわち、各ユーザの初年度の検診データから算出される糖尿病のリスクスコアをＸ、高血圧症のリスクスコアをＹとしたとき、糖尿病はＸ_A＞Ｘ_B、Ｘ_A＞Ｘ_C、Ｘ_A＞Ｘ_D、Ｘ_A＞Ｘ_E、Ｘ_B＜Ｘ_C、Ｘ_B＜Ｘ_D、Ｘ_C＞Ｘ_D、高血圧症はＹ_A＞Ｙ_B、Ｙ_A＞Ｙ_D、Ｙ_A＞Ｙ_E、Ｙ_B＞Ｙ_D、Ｙ_C＞Ｙ_D、Ｙ_C＞Ｙ_Eという大小関係を満たす正解データを設定する。そして、これらの正解データを用いて学習器に学習を行わせると、それぞれ糖尿病用の予測モデルと高血圧症用の予測モデルを生成することができ、これらの予測モデルを使用することでそれぞれ糖尿病単独および高血圧症単独の発症リスクを予測することも可能となる。

　（２）予測フェーズ
　予測フェーズが設定されると、状態遷移予測装置１はユーザの将来における複数の疾病の併発または合併症の発症リスクを予測する処理を以下のように実行する。　
　図３は、状態遷移予測装置１の制御ユニット１０による予測処理の手順と処理内容の一例を示すフローチャートである。

　（２－１）評価データの取得
　状態遷移予測装置１に対し予測対象ユーザの検査データが入力されると、制御ユニット１０は評価データ取得部１５の制御の下、ステップＳ２０において上記検査データをインタフェースユニット３０を介して評価データとして取り込む。上記検査データとしては、例えば予測対象ユーザの現在の健康状態の特徴量を表すバイタルデータである、ＨｂＡ１ｃ、収縮期血圧およびＢＭＩが入力される。なお、上記予測対象ユーザの検査データの入力処理は、例えば医師等の医療従事者の端末、ユーザ端末或いは保険会社の端末から行われる。

　（２－２）発症リスクスコアの予測
　状態遷移予測装置１の制御ユニット１０は、上記評価データの取り込みが終了すると、発症リスクスコア予測処理部１６の制御の下、以下のように発症リスクスコアの予測処理を実行する。図７はその処理内容を示す図である。

　すなわち、発症リスクスコア予測処理部１６は、予測モデル記憶部２３に記憶されている学習済の予測モデルを読み出す。そして、ステップＳ２１において、上記取得された評価データ、例えばＨｂＡ１ｃ、収縮期血圧およびＢＭＩを、上記学習済の予測モデルの入力層ＩＬに入力する。そうすると、学習済の予測モデルでは、上記ＨｂＡ１ｃ、収縮期血圧およびＢＭＩからなる３次元ベクトルを入力として、入力層ＩＬおよび中間層ＭＬにより予測スコアの演算が行われ、出力層ＯＬから１次元ベクトルにより表される発症リスクスコアが出力される。

　（２－３）予測データの出力
　制御ユニット１０は、予測データ出力部１７の制御の下、ステップＳ２２において、上記学習済の予測モデルから出力された発症リスクスコアを含む予測結果通知データを生成する。予測結果通知データには、発症リスクスコアをそのまま含めてもよいが、発症リスクスコアをしきい値により判定した発症リスクの度合いを含めるようにしてもよく、また発症リスクの度合いに応じたアドバイスメッセージ等を含めるようにしてもよい。

　予測データ出力部１７は、上記予測結果通知データをインタフェースユニット３０から要求元の医療従事者端末、ユーザ端末或いは保険会社の端末へ送信する。なお、送信方法は、端末のブラウザにより閲覧可能な形態で送信するものであってもよく、また電子メールに添付する形態で送信するものであってもよい。

　（効果）
　以上述べたように、この発明の一実施形態では、学習フェーズにおいて、併発または合併症として発症する可能性がある複数の疾病の発症履歴があるかまたは当該各疾病の発症を追跡観察中の医療記録データから、着目する各疾病の発症順序が共通で、かつ当該各疾病が発症するまでの経過時間が異なる医療記録データの組を選択する。そして、この医療記録データの組ごとに、当該組を構成する各医療記録データから、ユーザの健康状態を表す特徴量として検査初年時の検査データを抽出しこれを訓練データとする。また、上記検査初年時の検査データと上記複数の疾病が発症するまでの経過時間とから、当該複数の疾病が併発または合併症として発症するリスクスコアを算出して、これを正解データとする。このとき発症リスクスコアは、発症までの経過時間が長いユーザより短いユーザの方が大きな値となるように計算される。そして、上記訓練データを学習器に入力してその出力が上記正解データとなるように学習器に学習を行わせ、学習済の予測モデルを生成するようにしている。

　従って、複数の疾病を併発または合併症として発症する可能性がある場合に、上記複数の疾病の発症パターン、つまり発症順序と、発症するまでの経過時間が考慮された予測モデルを生成することができる。

　またこの発明の一実施形態では、予測フェーズにおいて、予測対象ユーザの検査データを上記学習済の予測モデルに入力し、予測モデルから出力される発症リスクスコアを含む予測結果データを出力するようにしている。このため、ユーザの現在の検査データをもとに、当該ユーザの将来における複数の疾病の併発または合併症の発症リスクを予測することが可能となる。

　［他の実施形態］
　前記一実施形態を以下のとおり変更してもよい。すなわち、例えば取得した利用データのうち、着目している1つの疾病を発症しており、かつ発症までの経過時間が異なるユーザの組、または発症していないユーザであり、追跡が不能となる時間以降まで延長した経過時間が異なるユーザの組、または発症しているユーザと発症していないユーザであり、かつ発症しているユーザの発症までの経過時間と、発症していないユーザの追跡が不能となる時間以降まで延長した経過時間とが異なるユーザの組、のいずれか1つ以上の組を学習対象データとして選択する。次に訓練データの抽出と正解データの算出において、着目している1つの疾病を発症するまでの経過時間が短い方が大きくなるように定義された発症リスクスコアについて、未発症の状態の特徴量をもとに予測モデルが出力するスコアと、ユーザが発症するまでの経過時間または追跡が不能となるまでの時間以降まで延長した経過時間をもとに算出したリスクスコアの誤差を最小とするようにモデルを学習させてもよい。　
　このように未発症のユーザを追跡観察が不能となる時間以降に発症したと仮定して学習の対象とすることで、対象数増大による精度向上効果がある。

　また、前記一実施形態では、予測モデルの学習機能部と、学習された予測モデルを使用して発症リスクスコアを予測する発症リスクスコアの予測機能部との両方の機能を備えた状態遷移予測装置を例にとって説明した。しかし、この発明は、予測モデルの学習機能部のみを備えた学習装置と、発症リスクスコアの予測機能部のみを備えた予測装置とを別々の装置として構成するようにしてもよい。

　さらに、前記一実施形態では、医療健康分野において、ユーザの現在の健康状態を表す検査データをもとに、将来における複数の疾病の併発又は合併症の発症リスクを予測する場合を例にとって説明した。しかし、この発明はそれに限定されるものではなく、状態遷移の観測が可能なものであれば他の分野にも適用可能である。例えば、車両や航空機、船舶などの運輸機器、製造機器、動力機器、オフィス機器、医療機器、電力機器等において、故障する可能性がある箇所が複数あるものを対象に、故障の順序が多岐にわたるものであっても、一時点における機器の状態から故障の発生のし易さを故障順序に無関係な一律のスコアで表したい場合にも、この発明は適用可能である。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　１…状態遷移予測装置
　２…ＥＭＲサーバ
　３…ネットワーク
　４…アクセス端末
　１０…制御ユニット
　１１…医療記録データ取得部
　１２…学習対象データ選択部
　１３…訓練データ抽出・正解データ算出部
　１４…予測モデル学習部
　１５…評価データ取得部
　１６…発症リスクスコア予測処理部
　１７…予測データ出力部
　２０…記憶ユニット
　２１…医療記録データ記憶部
　２２…学習対象データ記憶部
　２３…予測モデル記憶部
　３０…インタフェースユニット

Claims

　ユーザの健康状態が、第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、第２の状態から第２の症状が発症して第３の状態に遷移する場合に、前記第１の状態に係る特徴量と、前記第１の状態から第２の状態になるまでの経過時間、および前記第１の状態から第３の状態になるまでの経過時間とを含む特徴データを取得する特徴データ取得部と、
　取得された前記特徴データの中から、第１の特徴データの第１の症状と第２の特徴データの第１の症状が同じであり、第１の特徴データの第２の症状と第２の特徴データの第２の症状が同じで、かつ状態遷移の経過時間が異なる第１および第２の特徴データを選択する選択部と、
　前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量を訓練データとすると共に、当該各特徴量をもとにそれぞれ算出されかつ前記第１および第２の特徴データにそれぞれ含まれる前記経過時間が反映された予測スコアを正解データとして学習器を学習させ、予測モデルを生成する予測モデル生成部と
　を具備する状態遷移予測装置。
　予測対象となるユーザの健康状態を表す第１の状態に係る特徴量を取得して、当該特徴量を評価データとして前記予測モデルに入力し、この入力に応じて前記予測モデルから出力される予測スコアを、前記予測対象となる前記ユーザの健康状態の将来の状態遷移の予測結果を表す情報として出力する予測部を、さらに具備する請求項１に記載の状態遷移予測装置。
　前記特徴データは、前記第１の状態が第２又は第３の状態に遷移していない場合には、当該状態遷移の追跡が不能となる時間の長さを前記経過時間として含む、請求項１に記載の状態遷移予測装置。
　コンピュータを備える状態遷移予測装置が実行する状態予測方法であって、
　ユーザの健康状態が、第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、第２の状態から第２の症状が発症して第３の状態に遷移する場合に、前記第１の状態に係る特徴量と、前記第１の状態から第２の状態になるまでの経過時間、および前記第１の状態から第３の状態になるまでの経過時間とを含む特徴データを取得する過程と、
　取得された前記特徴データの中から、第１の特徴データの第１の症状と第２の特徴データの第１の症状が同じであり、第１の特徴データの第２の症状と第２の特徴データの第２の症状が同じで、かつ状態遷移の経過時間が異なる第１および第２の特徴データを選択する過程と、
　前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量を訓練データとすると共に、当該各特徴量をもとにそれぞれ算出されかつ前記第１および第２の特徴データにそれぞれ含まれる前記経過時間が反映された予測スコアを正解データとして学習器を学習させ、予測モデルを生成する過程と
　を具備する状態遷移予測方法。
　予測対象となるユーザの健康状態を表す第１の状態に係る特徴量を取得して、当該特徴量を評価データとして前記予測モデルに入力し、この入力に応じて前記予測モデルから出力されるスコアを、前記予測対象となる前記ユーザの健康状態の将来の状態遷移の予測結果を表す情報として出力する過程を、さらに具備する請求項４に記載の状態遷移予測方法。
　複数のユーザの健康状態に関する特徴データをそれぞれ取得する特徴データ取得部と、
　取得された前記特徴データの中から、前記健康状態の遷移パターンが所定の関連性を有する第１および第２の特徴データを選択する選択部と、
　選択された前記第１および第２の特徴データを入力とし症状の発症リスクを表すスコアを出力とする予測モデルの学習を行う学習部と
　を具備し、
　前記特徴データ取得部は、
　　前記健康状態が第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、当該第２の状態から第２の症状が発症して第３の状態に遷移した場合に、前記第１の状態に係る特徴量、前記第１の状態から前記第２の状態に遷移するまでの第１経過時間、および前記第１の状態から前記第３の状態に遷移するまでの第２経過時間を含む第１のタイプの特徴データ、
　および前記健康状態が前記第２の状態から前記第３の状態に遷移しない場合に、前記第２の症状が状態遷移の追跡が不能となる時間以降に発症し前記第３の状態に遷移するものと仮定し、前記第１の状態に係る特徴量と、前記第２経過時間を前記追跡が不能となる時間以降まで延長した第３経過時間を含む第２のタイプの特徴データ、
　の少なくとも一方を取得し、
　前記選択部は、
　　複数の前記第１のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士が何れも同一であり、かつ前記第１経過時間および第２経過時間の少なくとも一方が異なり、かつ片方の前記第１経過時間と前記第２経過時間が他方の前記第１経過時間と前記第２経過時間より共に小さい特徴データの組、
　　複数の前記第２のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士が何れも同一であり、かつ前記第１経過時間と前記第３経過時間の少なくとも一方が異なり、かつ片方の前記第１経過時間と前記第３経過時間が他方の前記第１経過時間と前記第３経過時間より共に小さい特徴データの組、
　　および前記第１のタイプの特徴データと前記第２のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士がいずれも同一で、かつ前記第１経過時間または前記第２経過時間と前記第３経過時間の少なくとも一方が異なり、かつ前記第１のタイプの特徴データの前記第１経過時間と前記第２経過時間が前記第２のタイプの特徴データの前記第１経過時間と前記第３経過時間に対して共に小さいかまたは大きい特徴データの組、
　の少なくとも１つ以上の組を、前記第１および第２の特徴データとして選択し、
　前記学習部は、
　　選択された前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量の組の入力に対し前記予測モデルが出力する第１および第２のスコアと、前記第１および第２の特徴データの各特徴量と前記第１および第２の特徴データにそれぞれ含まれる前記第１経過時間、第２経過時間または第３経過時間とをもとに算出される第１および第２のリスクスコアとの間の誤差を最小とするように、前記予測モデルを学習させる、
　予測モデル学習装置。
　複数のユーザの健康状態に関する特徴データをそれぞれ取得する特徴データ取得部と、取得された前記特徴データの中から、前記健康状態の遷移パターンが所定の関連性を有する第１および第２の特徴データを選択する選択部と、選択された前記第１および第２の特徴データを入力とし症状の発症リスクを表すスコアを出力とする予測モデルの学習を行う学習部とを具備する学習装置が実行する予測モデル学習方法であって、
　前記特徴データ取得部が、
　　前記健康状態が第１の状態から第１の症状が発症して第２の状態に遷移し、さらに、当該第２の状態から第２の症状が発症して第３の状態に遷移した場合に、前記第１の状態に係る特徴量、前記第１の状態から前記第２の状態に遷移するまでの第１経過時間、および前記第１の状態から前記第３の状態に遷移するまでの第２経過時間を含む第１のタイプの特徴データ、
　　および前記健康状態が前記第２の状態から前記第３の状態に遷移しない場合に、前記第２の症状が状態遷移の追跡が不能となる時間以降に発症し前記第３の状態に遷移するものと仮定し、前記第１の状態に係る特徴量と、前記第２経過時間を前記追跡が不能となる時間以降まで延長した第３経過時間を含む第２のタイプの特徴データ、
　の少なくとも一方を取得し、
　前記選択部が、
　　複数の前記第１のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士が何れも同一であり、かつ前記第１経過時間および第２経過時間の少なくとも一方が異なり、かつ片方の前記第１経過時間と前記第２経過時間が他方の前記第１経過時間と前記第２経過時間より共に小さい特徴データの組、
　　複数の前記第２のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士が何れも同一であり、かつ前記第１経過時間と前記第３経過時間の少なくとも一方が異なり、かつ片方の前記第１経過時間と前記第３経過時間が他方の前記第１経過時間と前記第３経過時間より共に小さい特徴データの組、
　　および前記第１のタイプの特徴データと前記第２のタイプの特徴データの中の、前記第１の症状同士および前記第２の症状同士がいずれも同一で、かつ前記第１経過時間または前記第２経過時間と前記第３経過時間の少なくとも一方が異なり、かつ前記第１のタイプの特徴データの前記第１経過時間と前記第２経過時間が前記第２のタイプの特徴データの前記第１経過時間と前記第３経過時間に対して共に小さいかまたは大きい特徴データの組、
　の少なくとも１つ以上の組を、前記第１および第２の特徴データとして選択し、
　前記学習部が、
　　選択された前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量の組の入力に対し前記予測モデルが出力する第１および第２のスコアと、前記第１および第２の特徴データの各特徴量と前記第１および第２の特徴データにそれぞれ含まれる前記第１経過時間、第２経過時間または第３経過時間とをもとに算出される第１および第２のリスクスコアとの間の誤差を最小とするように、前記予測モデルを学習させる、
　予測モデル学習方法。
　請求項１乃至３のいずれかに記載の状態遷移予測装置が具備する前記各部の処理を、前記状態遷移予測装置が備えるプロセッサに実行させるプログラム。
　請求項６に記載の予測モデル学習装置が備える前記各部の処理を、前記予測モデル学習装置が備えるプロセッサに実行させるプログラム。
　複数のユーザの健康状態に関する特徴データをそれぞれ取得する特徴データ取得部と、
　取得された前記特徴データの中から、前記健康状態の遷移パターンが所定の関連性を有する第１および第２の特徴データを選択する選択部と、
　選択された前記第１および第２の特徴データを入力とし症状の発症リスクを表すスコアを出力とする予測モデルの学習を行う学習部と
　を具備し、
　前記特徴データ取得部は、
　　前記健康状態が第１の状態から第１の症状が発症して第２の状態に遷移した場合に、前記第１の状態に係る特徴量、前記第１の状態から前記第２の状態に遷移するまでの第１経過時間を含む第１のタイプの特徴データ、
　　および前記健康状態が前記第１の状態から前記第２の状態に遷移しない場合に、前記第１症状が状態遷移の追跡が不能となる時刻以降に発症し第２の状態に遷移するものと仮定し、前記第１の状態に係る特徴量と、前記第１経過時間を前記追跡が不能となる時間以降まで延長した第４経過時間を含む第２のタイプの特徴データ、
　の少なくとも一方を取得し、
　前記選択部は、
　　複数の前記第２のタイプの特徴データの中の、前記第１の症状同士が同一であり、かつ前記第４経過時間が異なる特徴データの組、
　　および前記第１のタイプの特徴データと前記第２のタイプの特徴データの中の、前記第１の症状が同一であり、かつ前記第１経過時間と前記第４経過時間が異なる特徴データの組、
　の少なくとも１つ以上の組を、前記第１および第２の特徴データとして選択し、
　前記学習部は、
　　選択された前記第１および第２の特徴データにそれぞれ含まれる前記第１の状態に係る特徴量の組の入力に対し前記予測モデルが出力する第１のスコアと、前記第１および第２の特徴データの各特徴量と前記第１および第２の特徴データにそれぞれ含まれる前記第１または第４経過時間をもとに算出される第１のリスクスコアとの間の誤差を最小とするように、前記予測モデルを学習させる、
　予測モデル学習装置。