WO2021245850A1

WO2021245850A1 - 診断支援プログラム、装置、及び方法

Info

Publication number: WO2021245850A1
Application number: PCT/JP2020/021994
Authority: WO
Inventors: 隆史 ▲柳▼▲瀬▼
Original assignee: 富士通株式会社
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2021-12-09
Also published as: EP4163385A4; JPWO2021245850A1; US20230057455A1; EP4163385A1; JP7444252B2; CN115668393A

Abstract

診断支援装置は、サンプルデータの遺伝子発現量を二値化した訓練データセットを生成し、全ての特徴の組合せで構成される仮説を網羅的に列挙し、それらの仮説に重要度を付与できるＡＩを適用して訓練データを機械学習し、複数の遺伝子の網羅的な組合せの各々で表されるルールであって、それぞれに疾患ありとの仮説に導くルール重みが対応付けられたルール集合を取得し、所定個の遺伝子の種類を含むパターン毎に、ルール重みに基づいてパターン重みを決定し、パターン重みが所定値以上のパターンを、診断基準の候補として出力することにより、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援する。

Description

診断支援プログラム、装置、及び方法

　開示の技術は、診断支援プログラム、診断支援装置、及び診断支援方法に関する。

　医療現場等において、患者から採取されたサンプルが示す特徴と、予め定めた診断基準とに基づいて、疾患の有無を診断することが行われている。診断基準の決定方法として、例えば、診断対象の疾患の有無を予測するモデルを作成することにより決定する方法がある。モデルは、診断対象の疾患がある患者及び疾患がない患者の各々から採取されたサンプルが示す特徴と、疾患の有無を示す分類ラベルとを対応付けた訓練データを用いて、ＳＶＭ（Support Vector Machine）や決定木等の機械学習により作成される。

　例えば、被検体を、被検体の体に生じるイベントに応じて層別化する方法が提案されている。この方法では、被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが被検体の体に生じるイベントと関連して変動するか否かが統計学的手法により判定される。そして、変動すると判定されたバイオマーカー群が第１の亜集団として抽出される。また、第１の亜集団に属する各バイオマーカーを検証し、体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群が第２の亜集団として抽出される。そして、第２の亜集団に属する各バイオマーカーの重みが深層学習法により算出され、判別器が生成される。判別器は、第２の亜集団に属する各バイオマーカーの測定値から得られるスコアと、算出された各バイオマーカーの重みとを用いて、第２の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。

特開２０２０－２８２７８号公報

　機械学習の説明変数として用いる特徴の種類数が膨大な場合には、従来の機械学習によりモデルを作成することが困難である。例えば、特徴が遺伝子の発現量である場合、遺伝子の種類数は１万以上となることもある。従来技術のように、疾患の予測に有効そうな遺伝子のみに絞り込むなど、説明変数として用いる特徴を選択してから機械学習を行うことが考えられる。しかし、この場合、多くの種類の特徴が説明変数から除外されることになり、除外される特徴の中には、本来診断に有効な特徴が含まれている可能性がある。例えば、特徴単体では、疾患の予測に対する有効性が低い場合でも、他の特徴との組合せにより有効性が高くなる場合もあるが、このような特徴が説明変数から除外される可能性がある。その結果、有効な診断を行うための診断基準を決定することができなくなってしまう。

　一つの側面として、開示の技術は、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することを目的とする。

　一つの態様として、開示の技術は、診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールの集合を取得する。ルールのそれぞれには、前記診断対象に対する第１の重みが対応付けられている。また、開示の技術は、所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第１の重みに基づく第２の重みを決定し、決定された前記第２の重みが所定値以上の前記パターンを出力する。

　一つの側面として、診断基準の決定に機械学習を利用する場合において、効果的な診断基準の決定を支援することができる、という効果を有する。

診断支援装置の機能ブロック図である。サンプルデータ集合の一例を示す図である。機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を説明するための図である。訓練データセットの生成を説明するため図である。ルール集合の一例を示す図である。パターンの生成を説明するための図である。パターン重みの補正の一例を説明するための図である。診断基準候補の出力画面の一例を示す図である。診断支援装置として機能するコンピュータの概略構成を示すブロック図である。診断支援処理の一例を示すフローチャートである。訓練データ生成処理の一例を示すフローチャートである。ルール取得処理の一例を示すフローチャートである。パターン生成処理の一例を示すフローチャートである。重み補正処理の一例を示すフローチャートである。診断支援処理を説明するための概略図である。

　以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、遺伝子診断に用いる診断基準の決定を支援する場合について説明する。遺伝子診断とは、患者から採取した組織サンプルから、特定の遺伝子が発現するかどうかを検査することで、疾患の有無を診断する方法である。したがって、診断基準としては、疾患ありの場合に高発現する遺伝子の種類が決定される。

　図１に示すように、診断支援装置１０には、サンプルデータ集合２２が入力される。診断支援装置１０は、サンプルデータ集合２２から生成した訓練データセットを機械学習することにより、上記のような診断基準の候補を抽出し、出力する。

　サンプルデータ集合２２は、診断対象の疾患のある患者、及び疾患のない患者の各々から採取された組織サンプルから抽出された、複数種類の遺伝子の各々についての発現量のデータであるサンプルデータの集合である。図２に、サンプルデータ集合２２の一例を示す。図２の例では、各行（各レコード）が、１つのサンプルデータに相当する。図２の例では、各サンプルデータには、サンプルデータの識別情報である「サンプルＩＤ」が付与されている。また、各サンプルデータには、そのサンプルデータに対応する患者が、診断対象の疾患のある患者か、又は疾患のない患者かを示す「疾患（分類ラベル）」が対応付けられている。また、各サンプルデータは、遺伝子の種類毎に、サンプルデータから抽出された、その遺伝子の発現量（図２中の「遺伝子発現量」）の情報を含む。

　ここで、図３に示すように、機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を考える。図３の例では、サンプルデータに含まれる１万以上ある遺伝子の種類を１００程度に絞り込んで、訓練データとする場合を示している。遺伝子の種類の絞り込みは、例えば、遺伝子間の発現量の相関等に基づいて判断される。図３の例では、サンプルデータから、遺伝子ＨＡＳ１、ＣＡＬＢ２、ＷＴ１等が除外された訓練データセットを機械学習することにより作成されるモデルにより、診断基準が決定される。この場合、除外された遺伝子ＨＡＳ１、ＣＡＬＢ２、ＷＴ１等が診断に有効であっても、これらの除外された遺伝子は、診断基準には含まれない。

　そこで、本実施形態では、機械学習において、「評価理由を説明可能であり」、「全ての変数（特徴）の組合せで構成される仮説を網羅的に列挙し」、「それらの仮説に重要度を付与できる」という特性を有するＡＩ（Artificial Intelligence）を適用する。

　診断支援装置１０は、機能的には、図１に示すように、生成部１２と、取得部１４と、決定部１６と、出力部１８とを含む。

　生成部１２は、診断支援装置１０に入力されたサンプルデータ集合２２から、診断基準候補を抽出するための機械学習に用いる訓練データセットを生成する。具体的には、生成部１２は、サンプルデータ集合２２に含まれるサンプルデータの遺伝子発現量を、高発現か低発現かを示す二値に変換する。

　例えば、生成部１２は、既存の二値化手法により、遺伝子の種類毎に閾値を決定する。既存の二値化手法としては、画像の二値化等で使用される動的閾値法、遺伝子分野で使用されるステップマイナー法等がある。そして、生成部１２は、図４に示すように、遺伝子発現量が閾値より大きい場合には、遺伝子発現量を、高発現を示す値（例えば「１」）に変換する。一方、生成部１２は、遺伝子発現量が閾値以下の場合には、遺伝子発現量を、低発現を示す値（例えば「０」）に変換する。

　生成部１２は、上記のように、サンプルデータの遺伝子発現量を二値化することにより、訓練データを生成する。すなわち、訓練データセットは、遺伝子発現量の各々を二値化した値と、分類ラベルとを対応付けた訓練データの集合である。以下では、二値化された遺伝子発現量を「遺伝子発現情報」という。図４の下段の図は、訓練データセットを表し、各行（各レコード）が１つの訓練データに相当する。生成部１２は、生成した訓練データセットを取得部１４へ受け渡す。

　取得部１４は、生成部１２から受け渡された訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールであって、それぞれに診断対象に対する重みが対応付けられたルールの集合を取得する。

　具体的には、取得部１４は、上述した特性を有するＡＩを適用して、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として訓練データを機械学習する。これにより、取得部１４は、診断対象の疾患ありとの診断へ導く仮説を、ルールとして取得する。より具体的には、本実施形態において適用するＡＩは、複数の遺伝子の種類の組合せを網羅的に列挙する。そして、ＡＩは、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度（重要度）を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習する。すなわち、なぜ診断対象の疾患ありと診断するのかが、高発現の遺伝子の組合せにより説明される。また、遺伝子発現量を二値化した訓練データを用いることにより、遺伝子の種類の網羅的な組合せの各々について、効率的な機械学習を行うことができる。

　取得部１４は、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、図５に示すようなルール集合２４として、所定の記憶領域に記憶する。ルール重みは、開示の技術の「第１の重み」の一例である。なお、取得部１４は、ルール重みが所定値以上のルールのみをルール集合２４に含めるようにしてもよい。

　決定部１６は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定する。所定個を複数とした場合、すなわち、パターンに含まれる遺伝子が複数種類の場合、複数の遺伝子が共発現した場合に、診断対象の疾患に関係するような遺伝子の組合せを、診断基準の候補として抽出することができる。

　具体的には、決定部１６は、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、図６に示すように、指定された種類数（図６の例では、３種類）の遺伝子の組合せをパターンとして生成する。決定部１６は、生成したパターン毎に、そのパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合２４から検索する。そして、決定部１６は、検索されたルールに対応付けられたルール重みの合計値を、パターン重みとして算出する。これにより、診断対象の疾患ありとの診断へ導く仮説への適合度が高いほど大きなルール重みを算出することができる。なお、ルール重みの算出方法は上記の例に限定されず、検索されたルールに対応付けられたルール重みの積、重み付き和、平均等であってもよい。

　また、決定部１６は、パターンに、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれる場合、算出したパターン重みを補正する。具体的には、決定部１６は、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これは、機能が未知の遺伝子を含む新しい診断基準の発見を支援することを意図したものである。また、機能が未知の遺伝子が、機能が既知で診断対象の疾患との関係がある遺伝子と共にパターンに含まれる場合に、パターン重みを大きく補正するのは、機能が未知の遺伝子だけでは、疾患と関係付ける根拠がないためである。

　図７に、パターン重みの補正の一例を示す。決定部１６は、例えば、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれるパターンについて、パターンに含まれる機能が未知の遺伝子１つにつき１回、算出済みのパターン重みを１．５倍している。なお、パターン重みの補正方法はこれに限定されず、機能が未知の遺伝子の数又は比率に応じた値を加算する等、他の方法で補正してもよい。

　決定部１６は、補正後のパターン重みを最終的なパターン重みとして決定し、パターン及びパターン重みを出力部１８へ受け渡す。なお、パターン重みは、開示の技術の「第２の重み」の一例である。

　出力部１８は、決定部１６により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。出力された情報は、例えば、医師等が利用する情報処理端末のディスプレイに、図８に示すような出力画面で表示される。図７及び図８の例では、パターン重みが２．５以上のパターンが、診断基準の候補となる遺伝子群として出力される例を示している。なお、診断基準の候補となる遺伝子群の情報は、ディスプレイに表示される場合に限定されず、用紙にプリント出力される等、他の方法で出力されてもよい。

　診断支援装置１０は、例えば図９に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力部、表示部等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ（Interface）４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

　記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、診断支援装置１０として機能させるための診断支援プログラム５０が記憶される。診断支援プログラム５０は、生成プロセス５２と、取得プロセス５４と、決定プロセス５６と、出力プロセス５８とを有する。

　ＣＰＵ４１は、診断支援プログラム５０を記憶部４３から読み出してメモリ４２に展開し、診断支援プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、生成プロセス５２を実行することで、図１に示す生成部１２として動作する。また、ＣＰＵ４１は、取得プロセス５４を実行することで、図１に示す取得部１４として動作する。また、ＣＰＵ４１は、決定プロセス５６を実行することで、図１に示す決定部１６として動作する。また、ＣＰＵ４１は、出力プロセス５８を実行することで、図１に示す出力部１８として動作する。また、ＣＰＵ４１は、取得プロセス５４の実行時に、ルール集合２４をメモリ４２に展開する。これにより、診断支援プログラム５０を実行したコンピュータ４０が、診断支援装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

　なお、診断支援プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

　次に、本実施形態に係る診断支援装置１０の作用について説明する。診断支援装置１０にサンプルデータ集合２２が入力されると、診断支援装置１０において、図１０に示す診断支援処理が実行される。なお、診断支援処理は、開示の技術の診断支援方法の一例である。以下、図１５に示す診断支援処理の概略図もあわせて参照して、図１０の診断支援処理の一例を示すフローチャートについて説明する。

　ステップＳ１０で、生成部１２が、訓練データ生成処理を実行する。ここで、図１１を参照して、訓練データ生成処理について説明する。

　ステップＳ１１で、生成部１２が、診断支援装置１０に入力されたサンプルデータ集合２２を取得する。次に、ステップＳ１２で、生成部１２が、サンプルデータ集合２２に含まれる遺伝子の種類から、以下の処理が未処理の遺伝子の種類を１つ選択する。次に、ステップＳ１４で、生成部１２が、既存の二値化手法により、選択した遺伝子の種類についての二値化の閾値を決定する。

　次に、ステップＳ１６で、生成部１２が、サンプルデータ集合２２から、以下の処理が未処理のサンプルデータを１つ選択する。次に、ステップＳ１８で、生成部１２が、選択したサンプルデータにおいて、選択した遺伝子の種類の遺伝子発現量が、決定した閾値より大きいか否かを判定する。遺伝子発現量＞閾値の場合には、処理はステップＳ１９へ移行し、遺伝子発現量≦閾値の場合には、処理はステップＳ２０へ移行する。

　ステップＳ１９では、生成部１２が、遺伝子発現量を、高発現を示す値（例えば「１」）に変換する。一方、ステップＳ２０では、生成部１２が、遺伝子発現量を、低発現を示す値（例えば「０」）に変換する。

　次に、ステップＳ２１で、生成部１２が、サンプルデータ集合２２に含まれる全てのサンプルデータについて、上記ステップＳ１８～Ｓ２０の処理を完了したか否かを判定する。未完のサンプルデータが存在する場合には、処理はステップＳ１６に戻り、全てのサンプルデータについて処理が完了している場合には、処理はステップＳ２２へ移行する。

　ステップＳ２２で、生成部１２が、全ての遺伝子の種類について、上記ステップＳ１４～Ｓ２１の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップＳ１２に戻り、全ての遺伝子の種類について処理が完了している場合には、訓練データ生成処理は終了し、処理は診断支援処理（図１０）に戻る。これにより、図１５の（Ａ）に示すように、サンプルデータの遺伝子発現量が二値化された訓練データセットが生成される。

　次に、ステップＳ３０で、取得部１４が、ルール取得処理を実行する。ここで、図１２を参照して、ルール取得処理について説明する。

　ステップＳ３１で、取得部１４が、生成部１２により生成された訓練データセットを取得する。訓練データセットに含まれる訓練データの各々は、遺伝子発現情報と疾患の有無を示す分類ラベルとを含む。

　次に、ステップＳ３２で、取得部１４が、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として、上述した特性を有するＡＩを適用して訓練データを機械学習する。具体的には、取得部１４は、ＡＩに、複数の遺伝子の種類の組合せを網羅的に列挙させる。そして、取得部１４は、ＡＩに、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度（重要度）を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習させる。

　次に、ステップＳ３３で、取得部１４が、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、ルール集合２４として所定の記憶領域に記憶する。そして、ルール取得処理は終了し、処理は診断支援処理（図１０）に戻る。これにより、図１５の（Ｂ）に示すように、取得部１４は、診断対象の疾患（図１５の例では「肺がん」）ありとの診断へ導く仮説を示すルール及びルール重みを、ルール集合として取得する。

　次に、ステップＳ４０で、決定部１６が、パターン生成処理を実行する。ここで、図１３を参照して、パターン生成処理について説明する。

　ステップＳ４１で、決定部１６が、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、指定された種類数の遺伝子の組合せをパターンとして生成する。次に、ステップＳ４２で、決定部１６が、生成したパターンから、以下の処理が未処理のパターンを１つ選択する。

　次に、ステップＳ４３で、決定部１６が、選択したパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合２４から検索する。次に、ステップＳ４４で、決定部１６が、上記ステップＳ４３で、１つ以上のルールが検索されたか否かを判定する。１つ以上のルールが検索されている場合には、処理はステップＳ４５へ移行し、ルールが検索されなかった場合には、処理はステップＳ４６へ移行する。

　ステップＳ４５では、決定部１６が、検索されたルールに対応付けられたルール重みの合計値を、選択したパターンのパターン重みとして算出する。次に、ステップＳ４６で、決定部１６が、生成した全てのパターンについて、上記ステップＳ４３～Ｓ４５の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップＳ４２に戻り、全てのパターンについて処理が完了している場合には、パターン生成処理は終了し、処理は診断支援処理（図１０）に戻る。

　次に、ステップＳ５０で、決定部１６が、重み補正処理を実行する。ここで、図１４を参照して、重み補正処理について説明する。

　ステップＳ５１で、決定部１６が、パターン生成処理により生成されたパターンを１つ選択する。次に、ステップＳ５２で、決定部１６が、パターンに含まれる機能が未知の遺伝子の種類数をカウントするため変数α、及び機能が既知で診断対象の疾患との関係がある遺伝子の種類数をカウントするための変数βの各々を０に設定する。

　次に、ステップＳ５３で、決定部１６が、選択したパターンに含まれる遺伝子の種類のうち、以下の処理が未処理の遺伝子の種類を１つ選択する。次に、ステップＳ５４で、決定部１６が、選択した種類の遺伝子が、機能が既知の遺伝子か否かを判定する。機能が既知の遺伝子の場合には、処理はステップＳ５６へ移行する。一方、機能が未知の遺伝子の場合には、処理はステップＳ５５へ移行し、決定部１６が、αを１インクリメントして、処理はステップＳ５８へ移行する。

　ステップＳ５６では、決定部１６が、選択した種類の遺伝子が、診断対象の疾患との関係がある遺伝子か否かを判定する。疾患との関係がある遺伝子の場合には、処理はステップＳ５７へ移行し、疾患との関係がない遺伝子の場合には、処理はステップＳ５８へ移行する。ステップＳ５７では、決定部１６が、βを１インクリメントして、処理はステップＳ５８へ移行する。

　ステップＳ５８では、決定部１６が、選択したパターンに含まれる遺伝子の全ての種類について、上記ステップＳ５３～Ｓ５７の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップＳ５３に戻り、全ての遺伝子の種類について処理が完了している場合には、処理はステップＳ５９へ移行する。

　ステップＳ５９では、決定部１６が、α及びβに基づいて、選択したパターンのパターン重みを補正する。具体的には、決定部１６は、α＞０かつβ＞０の場合に、αの数又は比率が多いほど、パターン重みを大きくするように補正する。例えば、決定部１６は、「補正前のパターン重み×γ^α（γは定数、例えば、１．５）」のように、パターン重みを補正する。

　次に、ステップＳ６０で、全てのパターンについて、上記ステップＳ５２～Ｓ５９の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップＳ５１に戻り、全てのパターンについて処理が完了している場合には、処理はステップＳ６１へ移行する。ステップＳ６１では、決定部１６が、補正後のパターン重みを最終的なパターン重みとして決定し、各パターンをパターン重みが大きい順にソートする。そして、重み補正処理は終了し、処理は診断支援処理（図１０）に戻る。

　パターン生成処理及び重み補正処理により、図１５の（Ｃ）に示すように、所定個（図１５の例では、ｋ＝３個）の遺伝子の種類を含むパターン毎に、ルール重みに基づいてパターン重みが決定される。

　次に、ステップＳ７０で、出力部１８が、決定部１６により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。所定値は、予め定めた値であってもよいし、上位Ｎ番目のパターン重みの値としてもよい。後者の場合、パターン重みが上位Ｎ位までのパターンが、診断基準候補として出力される。

　これにより、図１５の（Ｄ）に示すように、医師等が、出力された診断基準の候補となる遺伝子群を参照し、医学的知見を踏まえて、検査対象遺伝子である診断基準を決定する。そして、遺伝子診断の場面では、図１５の（Ｅ）に示すように、例えば、患者から採血して、診断基準が示す検査対象遺伝子の発現量を測定し、測定結果に基づいて、疾患の有無が診断される。

　以上説明したように、本実施形態に係る診断支援装置は、機械学習によって生成された、１以上の遺伝子の種類の組合せで表されるルールであって、それぞれに診断対象の疾患に対するルール重みが対応付けられたルールの集合を取得する。ルールは、遺伝子の網羅的な組合せ毎に、その組合せに含まれる遺伝子が高発現である場合における、診断結果への寄与度に応じた重要度を付与するＡＩを適用して、疾患あり及び疾患なしの遺伝子発現情報を機械学習することにより作成される。診断支援装置は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定し、決定されたパターン重みが所定値以上のパターンを、診断基準候補として出力する。これにより、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することができる。

　また、診断支援装置は、パターンに含まれる所定個の特徴に、機能が未知の遺伝子と機能が既知で疾患に関係する遺伝子とが含まれる場合、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これにより、これまで特徴として現れ難かった未知の遺伝子への対応も可能とする診断基準候補を抽出することができる。

　なお、上記実施形態では、遺伝子診断の例について説明したが、開示の技術の適用は、これに限定されない。複数の特徴の組合せと診断基準とに基づいて、診断結果を予測する場合であれば、開示の技術を適用することができる。例えば、遺伝子以外の医療診断や、画像データ等のセンシングデータに基づき、異常の有無等を診断する場合にも適用可能である。

　また、上記実施形態では、ルール重みに基づいて算出したパターン重みを、パターンに含まれる機能が未知の遺伝子の数又は比率に基づいて補正する場合について説明したが、パターン重みを補正することは、必須ではない。ただし、機能が未知の遺伝子を診断基準に加えたい場合には、上記実施形態のようにパターン重みを補正することが有効である。

　また、上記実施形態では、診断支援プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

１０   診断支援装置
１２   生成部
１４   取得部
１６   決定部
１８   出力部
２２   サンプルデータ集合
２４   ルール集合
４０   コンピュータ
４１   ＣＰＵ
４２   メモリ
４３   記憶部
４９   記憶媒体
５０   診断支援プログラム

Claims

　診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第１の重みが対応付けられたルールの集合を取得し、
　所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第１の重みに基づく第２の重みを決定し、
　決定された前記第２の重みが所定値以上の前記パターンを出力する
　ことを含む処理をコンピュータに実行させるための診断支援プログラム。
　前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項１に記載の診断支援プログラム。
　前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項１又は請求項２に記載の診断支援プログラム。
　前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第１の重みの合計値を、前記第２の重みとして決定する請求項１～請求項３のいずれか１項に記載の診断支援プログラム。
　前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第２の重みを大きくするように前記第２の重みを補正する請求項１～請求項４のいずれか１項に記載の診断支援プログラム。
　診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第１の重みが対応付けられたルールの集合を取得する取得部と、
　所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第１の重みに基づく第２の重みを決定する決定部と、
　決定された前記第２の重みが所定値以上の前記パターンを出力する出力部と、
　を含む診断支援装置。
　前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項６に記載の診断支援装置。
　前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項６又は請求項７に記載の診断支援装置。
　前記決定部は、前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第１の重みの合計値を、前記第２の重みとして決定する請求項６～請求項８のいずれか１項に記載の診断支援装置。
　前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、
　前記決定部は、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第２の重みを大きくするように前記第２の重みを補正する
　請求項６～請求項９のいずれか１項に記載の診断支援装置。
　診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第１の重みが対応付けられたルールの集合を取得し、
　所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第１の重みに基づく第２の重みを決定し、
　決定された前記第２の重みが所定値以上の前記パターンを出力する
　ことを含む処理をコンピュータが実行する診断支援方法。
　前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項１１に記載の診断支援方法。
　前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項１１又は請求項１２に記載の診断支援方法。
　前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第１の重みの合計値を、前記第２の重みとして決定する請求項１１～請求項１３のいずれか１項に記載の診断支援方法。
　前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第２の重みを大きくするように前記第２の重みを補正する請求項１１～請求項１４のいずれか１項に記載の診断支援方法。
　診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、１以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第１の重みが対応付けられたルールの集合を取得し、
　所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第１の重みに基づく第２の重みを決定し、
　決定された前記第２の重みが所定値以上の前記パターンを出力する
　ことを含む処理をコンピュータに実行させるための診断支援プログラムを記憶した記憶媒体。