WO2022202360A1

WO2022202360A1 - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: WO2022202360A1
Application number: PCT/JP2022/010584
Authority: WO
Inventors: 佳士町田; 賢池上; 信行谷垣; 朋子上村
Original assignee: テルモ株式会社
Priority date: 2021-03-23
Filing date: 2022-03-10
Publication date: 2022-09-29
Also published as: US20240013923A1; JPWO2022202360A1

Abstract

情報処理装置は、機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置であって、複数の患者に対応する複数の時系列データの入力を受ける入力部であって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含む入力部と、前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出し、該算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定する処理部とを備える。

Description

情報処理装置、情報処理方法およびプログラム

　本開示は、情報処理装置、情報処理方法およびプログラムに関する。

　近年、患者の予後を予測するため機械学習を用いたシステムを活用することが提案されている（例えば、特許文献１参照）。機械学習を用いた患者の予後予測モデルは、各種パラメータを組み合わせたデータを用いて訓練される。例えば、集中治療室（ＩＣＵ：Intensive Care Unit）への入室患者の死亡予測の場合、年齢、性別等の基本情報、疾患情報、バイタル値、薬剤の投与情報等が、訓練データとして用いられる。

特開２０２０－１４４４７１号公報

　機械学習用に取得されたものではない、患者の臨床時のデータを用いて、予後予測モデルを訓練する場合、患者の状態および疾患によって実際に取得されるパラメータの頻度および組み合わせが異なる。そのため、特定のパラメータを機械学習用のパラメータとして選定しても、多くのパラメータが取得されていない場合がある。訓練データに使用するパラメータに欠落が多いためデータの品質が低いと、機械学習による予測の精度が低下することが懸念される。そのため、訓練データに使用するパラメータの充足度が高い患者のデータのみを使用しようとすると、訓練データとして使用できるデータ数が減ってしまい、十分な訓練ができない場合がある。さらに、機械学習に適したパラメータセットが取得できないと、訓練した予測モデルが適用できない場合がある。

　したがって、これらの点に着目してなされた本開示の目的は、患者の臨床時における時系列データから、機械学習を行うために品質が高い必要な数の訓練データを生成することができる情報処理装置、情報処理方法およびプログラムを提供することにある。

　本開示の一態様としての情報処理装置は、機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置であって、複数の患者に対応する複数の時系列データの入力を受ける入力部であって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含む入力部と、前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出し、該算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定する処理部とを備える。

　一実施形態として、前記取得率は、前記複数の時系列データに前記第１パラメータが含まれる割合を示す。

　一実施形態として、前記取得頻度は、前記時系列データの所定期間内のデータに前記第１パラメータが含まれる頻度を示す。

　一実施形態として、前記処理部は、前記第１パラメータの前記取得率および前記取得頻度の前記少なくとも何れかが所定の閾値を超える場合、該第１パラメータを前記訓練データに使用する前記第２パラメータとして選定する。

　一実施形態として、前記取得頻度の閾値は、前記複数の前記第１パラメータの間で異なる。

　一実施形態として、前記取得頻度の閾値は、該閾値を超える前記第１パラメータを含む前記時系列データの数に基づいて決定される。

　一実施形態として、前記複数の時系列データは、第１の時系列データ群と、第２の時系列データ群とを含み、前記処理部は、前記第１の時系列データ群と前記第２の時系列データ群とを纏めて前記第２パラメータを選定する処理と、前記第１の時系列データ群と前記第２の時系列データ群とから個別に前記第２パラメータを選定する処理とを実行する。

　一実施形態として、前記入力部は、前記複数の患者の患者ごとに初期症状、個人属性、および、疾患の少なくとも何れかを含む付加情報の入力をさらに受け、前記処理部は、前記付加情報に基づいて前記時系列データを複数のグループにグループ分けし、前記複数のグループのグループごとに前記第２パラメータを選定する処理を実行する。

　一実施形態として、前記処理部は、前記取得頻度を算出する前記所定の期間を、時間経過とともに長くする。

　一実施形態として、前記処理部は、前記選定された前記第２パラメータを用いて訓練データを生成する。

　一実施形態として、前記処理部は、前記訓練データを前記選定された前記第２パラメータの前記取得頻度に基づいたデータ形式で生成する。

　一実施形態として、前記処理部は、前記訓練データを用いて患者の予後を予測する学習済みモデルを生成する。

　一実施形態として、前記処理部は、複数の仮の閾値のそれぞれについて、前記第１パラメータの前記取得率および前記取得頻度の前記少なくとも何れかが前記仮の閾値を超える場合、該第１パラメータを前記訓練データに使用する仮のパラメータとして選定し、前記仮のパラメータを用いて前記訓練データとテストデータとを生成し、前記訓練データを用いて患者の予後を予測する学習済みモデルを生成し、前記テストデータを用いて前記学習済みモデルの精度を判定する処理を行い、判定された前記精度が最も高い前記仮のパラメータを、前記第２パラメータとして選定する。

　一実施形態として、前記時系列データは、薬剤の投与情報、バイタル値、検査情報、所見情報、水分摂取情報、水分喪失情報、および、処置情報の少なくとも何れかの情報を含む。

　一実施形態として、前記薬剤の投与情報は、投与薬剤の種類、投与経路、投与量、および、投与速度の少なくとも何れかの情報を含む。

　一実施形態として、前記バイタル値は、体温、血圧、心拍数、呼吸数、脈拍数、酸素飽和度、体重値、中心静脈圧、および、吸入中酸素濃度の少なくとも何れかの情報を含む。

　一実施形態として、前記検査情報は、血液検査データ、血液ガスデータ、尿検査、心電図、および、画像診断結果の少なくとも何れかの情報を含む。

　一実施形態として、前記所見情報は、うっ血、チアノーゼ、および、意識レベルの少なくとも何れかの情報を含む。

　一実施形態として、前記水分摂取情報は、飲水量、および、輸液量の少なくとも何れかの情報を含む。

　一実施形態として、前記水分喪失情報は、尿量、および、出血量の少なくとも何れかの情報を含む。

　一実施形態として、前記処置情報は、透析装置の導入、透析装置の離脱、および、透析装置の設定、ならびに、人工呼吸器の導入、人工呼吸器の離脱、および、人工呼吸器の設定の少なくとも何れかの情報を含む。

　本開示の一態様としての情報処理方法は、機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置が実行する情報処理方法であって、複数の患者に対応する複数の時系列データを取得するステップであって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含むステップと、前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出するステップと、前記算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定するステップとを含む。

　本開示の一態様としてのプログラムは、機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置が実行する情報処理を前記情報処理装置に実行させるプロブラムであって、前記情報処理は、複数の患者に対応する複数の時系列データを取得するステップであって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含むステップと、前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出するステップと、前記算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定するステップとを含む。

　本開示によれば、時系列データに含まれる第１パラメータの取得率および取得頻度を用いて訓練データに使用する第２パラメータを選定するようにしたので、患者の臨床時における時系列データから、機械学習を行うために品質が高い必要な数の訓練データを生成することができる。

図１は、一実施形態に係る情報処理装置の概略構成を示すブロック図である。図２は、図１の処理部の概略構成の一例を示す機能ブロック図である。図３は、一患者に係る時系列データの一例を示す図である。図４は、複数の時系列データから算出される取得率および取得頻度の一例を示す図である。図５は、一患者の時系列データから生成される訓練データの一例を示す図である。図６は、一実施形態に係る情報処理方法を説明するフローチャートである。図７は、他の一実施形態に係る情報処理方法を説明するフローチャートである。

（情報処理装置の構成）
　以下、本開示の実施形態について、図面を参照して説明する。一実施形態に係る情報処理装置１０は、機械学習により患者の予後を予測するシステムにおいて、訓練データに使用されるパラメータの選定のために使用される。情報処理装置１０は、ＰＣ（Personal Computer）およびワークステーション等のコンピュータを使用することができる。情報処理装置１０は、病院等の医療機関、または、複数の医療機関からの情報を集約する情報処理施設等に配置されてよい。図１に示すように、情報処理装置１０は、入力部１１、処理部１２、出力部１３および記憶部１４を含む。

　入力部１１は、情報処理装置１０が時系列データの入力を受ける部分である。情報処理装置１０が、時系列データを、通信回線を介して他の装置から受信する場合、入力部１１は他の装置との通信インタフェースを含む。情報処理装置１０が、磁気記憶媒体、光磁気記憶媒体、または、光学記憶媒体等の記憶媒体に記憶された時系列データを取得する場合、入力部１１は、記憶媒体の読み取り装置を含んでよい。

　時系列データは臨床時に取得されたそれぞれの患者の状態および治療の少なくとも何れかに関する複数のパラメータについての時系列の情報を含む。時系列データに含まれるパラメータを第１パラメータとする。一つの時系列データは、患者一人に対する治療前から治療終了までの情報を含んでよい。入力部１１は、機械学習に使用するための複数の時系列データの入力を受ける。複数の患者に係る複数の時系列データを、以下において時系列データ群とよぶことがある。時系列データ群は、例えば、数百、数千または数万のオーダーの時系列データを含んでよい。

　時系列データは、一人の患者に対する、薬剤の投与情報、バイタル値、検査情報、所見情報、水分摂取情報（水分ＩＮ情報）、水分喪失情報（水分ＯＵＴ情報）、および、処置情報の少なくとも何れかの情報を含んでよい。

　一実施形態において、薬剤の投与情報は、投与薬剤の種類、投与経路、投与量、および、投与速度の少なくとも何れかの情報を含んでよい。

　一実施形態において、バイタル値は、体温、血圧、心拍数、呼吸数、脈拍数、酸素飽和度、体重値、中心静脈圧、および、吸入中酸素濃度の少なくとも何れかの情報を含んでよい。

　一実施形態において、検査情報は、血液検査データ、血液ガスデータ、尿検査、心電図、および、画像診断結果の少なくとも何れかの情報を含んでよい。

　一実施形態において、所見情報は、うっ血、チアノーゼ、および、意識レベルの少なくとも何れかの情報を含んでよい。

　一実施形態において、水分摂取情報は、飲水量、および、輸液量の少なくとも何れかの情報を含んでよい。

　一実施形態において、水分喪失情報は、尿量、および、出血量の少なくとも何れかの情報を含んでよい。

　一実施形態において、処置情報は、透析装置の導入、透析装置の離脱、および、透析装置の設定、ならびに、人工呼吸器の導入、人工呼吸器の離脱、および、人工呼吸器の設定の少なくとも何れかの情報を含んでよい。

　時系列データの各パラメータは、機械学習の説明変数として採用されうる。時系列データの一部は、機械学習の目的変数となりうる。例えば、処置情報に含まれる透析装置の導入、および、人工呼吸器の導入は、予測の対象である予後（アウトカム）となりうるので、目的変数となりうる。

　処理部１２は、種々の演算処理を実行する。処理部１２は、一つ以上のプロセッサおよびメモリを含んで構成される。「プロセッサ」は、汎用のプロセッサ、および、特定の処理に特化した専用のプロセッサなどであるが、これらに限られない。汎用のプロセッサは、メモリに記憶したプログラムを読み出して、プログラムに従う処理を実行することができる。処理部１２が実行する処理は、以下において説明される。

　出力部１３は、処理部１２による処理の結果を情報処理装置１０の外部に出力する。出力部１３は、他のシステムに対する通信インタフェースを含んでよい。出力部１３は、磁気記憶媒体、光磁気記憶媒体、または、光学記憶媒体等の記憶媒体に情報を記憶するための書き込み装置を含んでよい。情報処理装置１０は、内部に記憶装置を含んでよい。

　記憶部１４は、処理部１２が行う処理に必要な情報、処理部１２が生成した情報、および処理部１２により実行されるプログラム等を記憶することができる。記憶部１４は、例えば半導体メモリ、磁気メモリ、および光メモリ等の何れか一つ以上を用いて構成されてよい。半導体メモリは、揮発性メモリおよび不揮発性メモリを含んでよい。磁気メモリは、例えばハードディスクおよび磁気テープ等を含んでよい。

（処理部の構成）
　図２に示すように、処理部１２は、時系列データ取得部２１、パラメータ取得率算出部２２、パラメータ取得頻度算出部２３、および、パラメータ選定部２４を含む。処理部１２は、さらに、訓練データ生成部２５、モデル生成部２６、および、モデル評価部２７を含んでよい。処理部１２の各部は、ハードウェアモジュールであってよく、ソフトウェアモジュールであってよい。処理部１２の各構成部の機能は、処理部１２により実行される。

　時系列データ取得部２１は、入力部１１を介して時系列データを取得するように構成される。時系列データは、病院等の医療機関において収集される臨床時の患者の検査および治療等の情報を含む。一患者の時系列データの簡略化された一例が、図３に示される。「日付／時刻」は、時系列データに含まれる各パラメータのデータが取得された日付および時刻を示す情報である。「パラメータ名」は、各パラメータの名称または各パラメータを識別する情報が含まれる。「値」は、パラメータ名で特定されたパラメータの値を示す情報である。一例として、「日時／時刻」、「パラメータ名」および「値」には、それぞれ、「２０２１年３月１日１０時１０分」、「血圧」、および、「１３０」などの情報が含まれる。図３に示すような時系列データの形式は、一例に過ぎない。時系列データは、パラメータごとに時系列で纏められたデータとすることもできる。

　パラメータ取得率算出部２２は、複数の時系列データに含まれるそれぞれのパラメータの取得率を算出するように構成される。取得率は、複数の時系列データにそれぞれのパラメータが含まれる割合を示す。例えば、時系列データの数が１０００であり、特定のパラメータを含む時系列データがそのうちの９００である場合、当該パラメータの取得率は９０％となる。取得率は、時系列データ全体に、対象となるパラメータが含まれる割合とすることができる。取得率は、所定の期間内に時系列データ中に対象となるパラメータが含まれる割合としてもよい。

　パラメータ取得頻度算出部２３は、複数の時系列データに含まれるそれぞれのパラメータの取得頻度を算出するように構成される。取得頻度は、対象のパラメータを含む時系列データの所定期間内のデータに対象のパラメータが含まれる頻度を示す。例えば、所定期間を１日間とし、その期間に時系列データ中に対象のパラメータが含まれている回数が４のとき、取得頻度は４となる。パラメータ取得頻度算出部２３は、各時系列データについてそれぞれのパラメータの取得頻度を算出してよい。パラメータ取得頻度算出部２３は、全ての時系列データについて、それぞれのパラメータの取得頻度の平均値である平均取得頻度を算出してよい。さらに、パラメータ取得頻度算出部２３は、取得頻度の標準偏差である取得頻度標準偏差を算出してよい。

　パラメータ選定部２４は、パラメータ取得率算出部２２およびパラメータ取得頻度算出部２３により算出された取得率および取得頻度の少なくとも何れか一方を用いて、訓練データに使用する複数のパラメータを選定するように構成される。訓練データに使用する複数のパラメータは、第２パラメータである。パラメータ選定部２４は、パラメータの取得率および平均取得頻度の少なくとも何れかが所定の閾値を超える場合、当該パラメータを訓練データに使用するパラメータとして選定する。パラメータ選定部２４で選定されたパラメータは、機械学習における説明変数に相当する。

　例えば、パラメータごとの取得率および平均取得頻度が、図４に示される場合を想定する。パラメータ選定部２４は、例えば、取得率の閾値を８０％、平均取得頻度の閾値を２とし、双方の閾値を上回ったパラメータを選定するとする。この場合、図４中のパラメータ１、３および４はこれらの閾値を上回るので、第２パラメータとして選定される。パラメータ２および５は、第２パラメータとして採用されない。

　パラメータの選定には、取得頻度標準偏差を考慮してよい。同じ平均取得頻度であっても標準偏差が大きい場合、パラメータの取得頻度は、標準偏差が小さい場合に比べてより大きなバラつきを有する。そのため、同じ閾値を設定しても標準偏差が大きい方が、閾値を超えるデータ数が少なくなることがある。したがって、取得頻度標準偏差がより小さいパラメータが、取得頻度標準偏差のより大きいパラメータに優先して選定されてよい。

　パラメータごとの特性に応じて、平均取得頻度の閾値は、複数のパラメータのパラメータごとに異なってよい。例えば、血液検査データの採取は１日につき１回、血圧の測定は１日につき３回など、実際の臨床で行われ得る頻度に合わせて設定することができる。

　また、機械学習用の訓練データには、選定されたパラメータの取得頻度が取得頻度の閾値を超える時系列データのみが使用される。取得頻度の閾値は、当該閾値を超える取得頻度の時系列データの数を考慮して決定されてよい。閾値は、低く設定するとパラメータのデータに欠落が多くなり品質のよい訓練データが得られない可能性がある。しかし、閾値を高く設定しすぎると、十分な数の時系列データが含まれないために、機械学習を行うために必要な訓練データの数を確保できない可能性がある。例えば、閾値は、閾値を超える時系列データの数が所定数（例えば、１００００）以上となるように設定されてよい。また、例えば閾値は、全時系列データの所定割合（例えば、９０％）以上が閾値を超えるように設定されてよい。

　パラメータ選定部２４は、パラメータの取得率および平均取得頻度の少なくとも何れかが所定の閾値を超える複数のパラメータの中から、一部または全部のパラメータを訓練データに使用するパラメータとして選定してよい。選定するパラメータは予測の対象となる予後（アウトカム）に応じて決定されてよい。予測対象の対象となる予後に応じて選定の対象となりうる複数のパラメータが、記憶部１４に記憶されてよい。

　一実施形態において、処理部１２は、パラメータ選定部２４で選定した複数のパラメータを、出力部１３を介して他の装置に出力してよい。以下に説明する訓練データ生成部２５、モデル生成部２６およびモデル評価部２７の処理は、他の装置で実行されてもよい。

　訓練データ生成部２５は、時系列データ中のパラメータ選定部２４により選定されたパラメータを用いて、機械学習用の複数の訓練データを生成する。例えば、図４に示したように、パラメータ１からパラメータ５のうちパラメータ２およびパラメータ５が採用されなかった場合、訓練データにはパラメータ２および５は含まれない。この場合、訓練データは図５に簡略化して例示すように、パラメータ１、パラメータ３およびパラメータ４の時系列の値を示すデータを含む。一つの訓練データは、選定されたパラメータについて、一人の患者の治療開始前から治療終了までのデータを含んでよい。図５の訓練データは一例である。訓練データは種々の形式を有することができる。

　訓練データ生成部２５は、選定されたそれぞれのパラメータの取得頻度に基づいたデータ形式で訓練データを生成してよい。例えば、１時間おきに取得されるパラメータについて、訓練データは１時間ごとに、１日当たり合計２４個の値が格納される形式としうる。一方、平均取得頻度が１日当たり３回のパラメータの場合、訓練データ生成部２５は、訓練データを一日につき３つのデータが格納される形式とすることができる。このようにすることによって、訓練データ内にデータの欠損を少なくすることができるので、機械学習を補正処理の必要のない、または、少ないアルゴリズムで行うことができる。

　訓練データ生成部２５は、訓練データに加え機械学習によって生成される学習済みモデルの精度を検証するためのテストデータを生成してよい。例えば、訓練データ生成部２５は、パラメータ選定部２４により選定されたパラメータの時系列データから生成したデータのうち、所定割合を訓練データとし、残りをテストデータとすることができる。所定割合は、例えば８０％等としうる。

　訓練データ生成部２５は、生成した訓練データおよびテストデータを、学習済みモデルを生成するため、それぞれモデル生成部２６およびモデル評価部２７に引き渡してよい。

　一実施形態において、処理部１２は、他の装置で学習済みモデルを生成するため、訓練データ生成部２５で生成した訓練データおよびテストデータを、出力部１３を介して他の装置に出力してよい。以下に説明するモデル生成部２６およびモデル評価部２７の処理は、他の装置で実行されてもよい。

　モデル生成部２６は、訓練データ生成部２５により生成された訓練データを用いて、患者の予後を予測する学習済みモデルを生成する。患者の予後はアウトカムと言い換えることができる。アウトカムには、患者の治療後の生死、人工透析の導入に至ったか否か、人工呼吸器の導入に行ったか否か、患者がＩＣＵに入った場合のＩＣＵの滞在日数、患者の治療後の重症度スコア、合併症の有無、患者の治療後の血圧・心拍数等の情報が含まれる。アウトカムは、機械学習における目的変数に相当する。

　モデル評価部２７は、モデル生成部２６で生成した学習済みモデルの予測精度を、訓練データ生成部２５で生成したテストデータを用いて評価するように構成される。このため、まず、モデル評価部２７は、学習済みモデルとテストデータとを用いてアウトカムを予測する。次に、モデル評価部２７は、予測したアウトカムと、実際のアウトカムの一致度から予測精度を算出する。

　一実施形態において、モデル評価部２７による予測精度は、パラメータ選定部２４における閾値の設定にフィードバックされてよい。処理部１２は、機械学習により最もよい予測精度が得られる閾値を、パラメータ選定部２４における閾値として決定してよい。

　例えば、処理部１２において予め複数の仮の閾値が用意される。パラメータ選定部２４は、複数の仮の閾値のそれぞれについて、それぞれのパラメータの取得率および取得頻度の少なくとも何れかが仮の閾値を超える場合、当該パラメータを訓練データに使用する仮のパラメータとして選定する。訓練データ生成部２５は、選定された仮のパラメータを用いて訓練データとテストデータとを生成する。モデル生成部２６は、訓練データを用いて患者の予後を予測する学習済みモデルを生成する。モデル評価部２７は、テストデータを用いて学習済みモデルの精度を判定する処理を行う。

　全ての仮の閾値に対して上記処理を行った後、処理部１２は、判定された精度が最も高い仮のパラメータを、機械学習を行うパラメータとして選定する。また、処理部１２は、選定されたパラメータに対応する学習済みモデルを、患者の予後の予測を行う学習済みモデルとして採用する。

（複数の時系列データ群の処理）
　情報処理装置１０は、病院等の複数の医療機関から、それぞれ複数の時系列データを含む時系列データ群を取得することがある。処理部１２は、複数の時系列データ群を纏めて一つの時系列データ群として取得率およびパラメータを選定する処理と、それぞれの時系列データ群を個別の時系列データ群としてパラメータを選定する処理との双方を実行してよい。例えば、処理部１２が、時系列データとして、第１の医療機関から第１の時系列データ群を取得し、第２の医療機関から第２の時系列データ群を取得したとする。処理部１２は、第１の時系列データ群と第２の時系列データ群とを纏めてパラメータを選定する処理と、第１の時系列データ群と第２の時系列データ群とから個別にパラメータを選定する処理とを実行してよい。

　処理部１２は、全体の時系列データに対して選定されたパラメータを用いて、全体の共通部分の学習済みモデルを生成してよい。処理部１２は、個別の時系列データに対して選定されたパラメータを用いて、個別の医療機関の学習済みモデルを生成してよい。処理部１２は、共通部分の学習済みモデルと個別の医療機関の学習済みモデルとを組み合わせて、それぞれの医療機関におけるアウトカムの予測精度を向上させることができる。学習済みモデルを組み合わせることには、例えば、複数の学習済みモデルの多数決をとること、および、重みづけした平均をとることが含まれる。

（時系列データのグループ分け）
　一実施形態において、情報処理装置１０は、入力部１１により複数の患者に含まれる患者ごとに疾患、初期症状、および、個人属性の少なくとも何れかを含む付加情報の入力をさらに受けるように構成されてよい。疾患は、例えば、脳梗塞および心不全等の疾患の名称を含んでよい。初期症状は、例えば、患者が、救急外来に来院したとき、および、ＩＣＵに入室したとき等のバイタル値のデータを含んでよい。初期症状は、例えば、重症度スコアの情報を含んでよい。重症度スコアには、例えば、ＳＡＰＳ（2nd simplified acute physiology score ）ＩＩおよびＡＰＡＣＨＥ（Acute Physiology and Chronic Health Evaluation）ＩＩ等の重症度評価の指標が含まれる。個人属性は、例えば、性別および年齢、人種、救急車からの搬送有無、入院経路を含んでよい。

　処理部１２は、付加情報に基づいて時系列データを複数のグループにグループ分けし、複数のグループのグループごとにパラメータを選定する処理を実行してよい。疾患の内容、初期症状、および、重症度等が異なると、取得すべきパラメータおよび治療の内容が異なる。例えば、心不全の患者に対しては、心不全の治療のモデルが適用される。また、心不全の患者に対する治療戦略は、初期症状の血圧値により変化する。したがって、処理部１２は、時系列データを付加情報によりグループ分けすることにより、共通する疾患および類似の症状等を有する患者の時系列データを集めることができる。

　処理部１２は、グループ分けした時系列データに対して、パラメータの取得率および取得頻度の算出、パラメータの選択、訓練データの生成等の処理を実行することができる。共通する疾患および類似の症状等を有する患者の時系列データをグループ化することにより、当該疾患および症状等に特有な薬剤の投与情報およびバイタル値等の情報を収集できる比率が高くなる。これによって、アウトカム（予後）と相関の高いパラメータの組合せを選択できるとともに、訓練データに使用されるパラメータのデータの欠落が少なくなることが期待できる。また、グループ化される時系列データを、特定の疾患または症状に応じた時系列データに限定することにより、訓練データを用いて生成される学習済みモデルによる予測精度が高くなることが期待できる。

（取得頻度を算出する期間）
　一実施形態において、処理部１２は、パラメータの取得率および取得頻度を算出する期間を、時間経過とともに長くすることができる。例えば、ＩＣＵに入出した患者のバイタル値は、入室直後には数値が安定しないため頻繁に測定されることがある。時間経過とともに、数値が安定すると、バイタル値の測定間隔は長くなる。そのため、パラメータの取得率および取得頻度を算出する期間は、例えば、ＩＣＵに入室直後、入室後１時間、３時間、１日および３日のように、時間経過とともに長くすることができる。

　ＩＣＵに入室してしばらくの間は、臨床で取得されるパラメータの種類が多く、取得頻度も高いので、短期間であっても精度の高い学習済みモデルを生成できることが期待できる。一方、ＩＣＵ入室後の期間が長くなると、臨床で取得されるパラメータの種類および数が減少するので、ＩＣＵ入室直後とは異なるパラメータの組合せが選定されてよい。

（情報処理方法の例１）
　図６を参照して、一実施形態に係る情報処理装置１０が実行する情報処理方法の一例を説明する。図６は、情報処理装置１０の処理部１２が実行する情報処理の流れを示す。この処理は、情報処理装置１０に含まれるプロセッサがプログラムに従って実行することができる。そのようなプログラムは、非一時的なコンピュータ可読媒体において記憶されることが可能である。非一時的なコンピュータ可読媒体は、例えば、磁気記憶媒体、光磁気記憶媒体および半導体メモリ等を含むが、これらに限定されない。

　図６のフローチャートは、情報処理装置１０の処理部１２が、時系列データ取得部２１、パラメータ取得率算出部２２、パラメータ取得頻度算出部２３、パラメータ選定部２４、および、訓練データ生成部２５を有していることを前提とする。処理部１２は、モデル生成部２６およびモデル評価部２７を有していなくてよい。

　まず、処理部１２は、入力部１１を介して、複数の患者に関する臨床時の時系列データを取得する（ステップＳ１０１）。

　処理部１２は、ステップＳ１０１で取得した複数の時系列データに含まれる各パラメータ（第１パラメータ）について、パラメータごとの取得率を算出する（ステップＳ１０２）。

　処理部１２は、ステップＳ１０１で取得した複数の時系列データに含まれる各パラメータ（第１パラメータ）について、パラメータごとの取得頻度を算出する（ステップＳ１０３）。

　ステップＳ１０２およびステップＳ１０３の処理は、略同時並行で実行されてよい。また、ステップＳ１０３がステップＳ１０２よりも先に実行されてもよい。

　処理部１２は、パラメータごとの取得率および取得頻度に基づいて、時系列データに含まれるパラメータの中から訓練データに採用するパラメータ（第２パラメータ）を選定する（ステップＳ１０４）。

　処理部１２は、複数の時系列データ中の選定したパラメータのデータを用いて、機械学習用の訓練データとテストデータを生成する（ステップＳ１０５）。

　処理部１２は、生成した訓練データおよびテストデータを機械学習で使用するため、出力部１３を介して他の装置または記憶媒体に出力する（ステップＳ１０６）。

　処理部１２は、ステップＳ１０５を実行せず、ステップＳ１０４で選定したパラメータの情報のみを次のステップＳ１０６により外部に出力してもよい。その場合、他の装置が機械学習用の訓練データとテストデータとを生成する。

（情報処理方法の例２）
　図７を参照して、他の一実施形態に係る情報処理装置１０が実行する情報処理方法の一例を説明する。図７のフローチャート中のステップＳ２０１からステップＳ２０５の処理は、図６のステップＳ１０１からＳ１０５の処理と同一または類似するので、ステップＳ１０１からＳ１０５の説明と共通する内容については、説明を省略する。図７のフローチャートは、処理部１２が、モデル生成部２６およびモデル評価部２７を含むことを前提とする。

　処理部１２は、ステップＳ２０１からＳ２０５において、ステップＳ１０１からステップＳ１０５と同様に、入力部１１から取得した臨床時の時系列データに基づいて、機械学習用の訓練データおよびテストデータを生成する処理を実行する。ただし、ステップＳ２０４においては、複数の閾値が用意され、そのうちの一つの閾値についてパラメータの選定が行われる。複数の閾値は、仮の閾値と言い換えられる。

　ステップＳ２０５で訓練データとテストデータを生成した後、処理部１２は生成した訓練データを用いて、機械学習による学習済みモデルである患者の予後予測モデルを構築する（ステップＳ２０６）。

　処理部１２は、ステップＳ２０５で生成したテストデータを用いて、ステップＳ２０６で構築した予後予測モデルによる予測精度を推定する（ステップＳ２０７）。処理部１２は、予測精度を仮の閾値と関連付けて記憶部１４に記憶する。

　処理部１２は、複数の仮の閾値全ての閾値についてのステップＳ２０４からステップＳ２０７の演算が完了していない場合（ステップＳ２０８：Ｎｏ）、未だ演算を行っていいない仮の閾値に閾値を変更する（ステップＳ２０９）。

　ステップＳ２０９の後、処理部１２は、ステップＳ２０４に戻ってステップＳ２０４からステップＳ２０７の処理を繰り返す。

　処理部１２は、複数の仮の閾値全ての閾値についてステップＳ２０４からステップＳ２０７の演算を完了した場合（ステップＳ２０８：Ｙｅｓ）、記憶部１４に記憶された予測精度が最も高かった予後予測モデルを採用し（ステップＳ２１０）、処理を終了する。

　このようにすることによって、処理部１２は、パラメータの選定のために、高い予測精度が得られる取得率および取得頻度の閾値を選択することが可能になる。

　以上説明したように情報処理装置１０は、複数の時系列データに含まれるそれぞれのパラメータの取得率と、取得頻度とを算出し、該算出した取得率および取得頻度の少なくとも何れか一方を用いて、訓練データに使用するパラメータを選定する。これによって、患者の臨床時における時系列データから、機械学習を行うために品質が高い必要な数の訓練データを容易に生成することができる。また、これによって、臨床時におけるデータから機械学習用の訓練データを生成することが容易になる。

　また、上記実施形態では、取得率および平均取得頻度の少なくとも何れか一方が閾値を超えるパラメータを選択し、選択されたパラメータが閾値を超えるデータを有する時系列データを用いて、訓練データを生成するようにした。これによって、データの欠落の少ない訓練データを生成することができ、機械学習の精度の向上が期待できる。また、訓練データの欠落を補正するために、データの欠落部分を推定する処理を必要としないか、または、軽減することができるので、処理負荷を低減することができる。

　上述の実施形態は代表的な例として説明したが、本開示の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本開示は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、各構成部または各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部またはステップなどを１つに組み合わせたり、或いは分割したりすることが可能である。

　１０　　情報処理装置
　１１　　入力部
　１２　　処理部
　１３　　出力部
　１４　　記憶部
　２１　　時系列データ取得部
　２２　　パラメータ取得率算出部
　２３　　パラメータ取得頻度算出部
　２４　　パラメータ選定部
　２５　　訓練データ生成部
　２６　　モデル生成部
　２７　　モデル評価部

Claims

　機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置であって、
　複数の患者に対応する複数の時系列データの入力を受ける入力部であって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含む入力部と、
　前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出し、該算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定する処理部と
を備える情報処理装置。
　前記取得率は、前記複数の時系列データに前記第１パラメータが含まれる割合を示す、請求項１に記載の情報処理装置。
　前記取得頻度は、前記時系列データの所定期間内のデータに前記第１パラメータが含まれる頻度を示す、請求項１または２に記載の情報処理装置。
　前記処理部は、前記第１パラメータの前記取得率および前記取得頻度の前記少なくとも何れかが所定の閾値を超える場合、該第１パラメータを前記訓練データに使用する前記第２パラメータとして選定する、請求項１から３の何れか一項に記載の情報処理装置。
　前記取得頻度の閾値は、前記複数の前記第１パラメータの間で異なる、請求項４に記載の情報処理装置。
　前記取得頻度の閾値は、該閾値を超える前記第１パラメータを含む前記時系列データの数に基づいて決定される、請求項４または５に記載の情報処理装置。
　前記複数の時系列データは、第１の時系列データ群と、第２の時系列データ群とを含み、前記処理部は、前記第１の時系列データ群と前記第２の時系列データ群とを纏めて前記第２パラメータを選定する処理と、前記第１の時系列データ群と前記第２の時系列データ群とから個別に前記第２パラメータを選定する処理とを実行する、請求項１から６の何れか一項に記載の情報処理装置。
　前記入力部は、前記複数の患者の患者ごとに初期症状、個人属性、および、疾患の少なくとも何れかを含む付加情報の入力をさらに受け、前記処理部は、前記付加情報に基づいて前記時系列データを複数のグループにグループ分けし、前記複数のグループのグループごとに前記第２パラメータを選定する処理を実行する、請求項１から７の何れか一項に記載の情報処理装置。
　前記処理部は、前記取得頻度を算出する前記所定の期間を、時間経過とともに長くする、請求項３に記載の情報処理装置。
　前記処理部は、前記選定された前記第２パラメータを用いて訓練データを生成する、請求項１から９の何れか一項に記載の情報処理装置。
　前記処理部は、前記訓練データを前記選定された前記第２パラメータの前記取得頻度に基づいたデータ形式で生成する、請求項１０に記載の情報処理装置。
　前記処理部は、前記訓練データを用いて患者の予後を予測する学習済みモデルを生成する、請求項１０または１１に記載の情報処理装置。
　前記処理部は、複数の仮の閾値のそれぞれについて、前記第１パラメータの前記取得率および前記取得頻度の前記少なくとも何れかが前記仮の閾値を超える場合、該第１パラメータを前記訓練データに使用する仮のパラメータとして選定し、前記仮のパラメータを用いて前記訓練データとテストデータとを生成し、前記訓練データを用いて患者の予後を予測する学習済みモデルを生成し、前記テストデータを用いて前記学習済みモデルの精度を判定する処理を行い、判定された前記精度が最も高い前記仮のパラメータを、前記第２パラメータとして選定する、請求項１に記載の情報処理装置。
　前記時系列データは、薬剤の投与情報、バイタル値、検査情報、所見情報、水分摂取情報、水分喪失情報、および、処置情報の少なくとも何れかの情報を含む、請求項１から１３の何れか一項に記載の情報処理装置。
　前記薬剤の投与情報は、投与薬剤の種類、投与経路、投与量、および、投与速度の少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　前記バイタル値は、体温、血圧、心拍数、呼吸数、脈拍数、酸素飽和度、体重値、中心静脈圧、および、吸入中酸素濃度の少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　前記検査情報は、血液検査データ、血液ガスデータ、尿検査、心電図、および、画像診断結果の少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　前記所見情報は、うっ血、チアノーゼ、および、意識レベルの少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　前記水分摂取情報は、飲水量、および、輸液量の少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　前記水分喪失情報は、尿量、および、出血量の少なくとも何れかの情報を含む、前記請求項１４に記載の情報処理装置。
　前記処置情報は、透析装置の導入、透析装置の離脱、および、透析装置の設定、ならびに、人工呼吸器の導入、人工呼吸器の離脱、および、人工呼吸器の設定の少なくとも何れかの情報を含む、請求項１４に記載の情報処理装置。
　機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置が実行する情報処理方法であって、
　複数の患者に対応する複数の時系列データを取得するステップであって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含むステップと、
　前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出するステップと、
　前記算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の第１パラメータから訓練データに使用する第２パラメータを選定するステップと
を含む情報処理方法。
　機械学習により患者の予後を予測するシステムにおいて使用される情報処理装置が実行する情報処理を前記情報処理装置に実行させるプロブラムであって、
　前記情報処理は、
　　複数の患者に対応する複数の時系列データを取得するステップであって、前記時系列データはそれぞれの患者の状態および治療の少なくとも何れかに関する複数の第１パラメータを含むステップと、
　　前記複数の時系列データに含まれるそれぞれの前記第１パラメータの取得率と、取得頻度とを算出するステップと、
　　前記算出した前記取得率および前記取得頻度の少なくとも何れか一方を用いて、前記複数の前記第１パラメータから訓練データに使用する第２パラメータを選定するステップと
を含む、プログラム。