WO2024085096A1

WO2024085096A1 - 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

Info

Publication number: WO2024085096A1
Application number: PCT/JP2023/037271
Authority: WO
Inventors: 勝久堀本
Original assignee: ソシウム株式会社
Priority date: 2022-10-18
Filing date: 2023-10-13
Publication date: 2024-04-25
Also published as: JP2024059395A

Abstract

変動パスウェイデータベース生成装置（１）は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部（１０）と、データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患による遺伝子変動を算出する遺伝子変動算出部（２１）と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部（２２）と、予め定められた複数のパスウェイについて、亢進遺伝子または抑制遺伝子を含有する有意確率を求めるパスウェイ解析部（２３）と、複数のパスウェイのそれぞれが亢進遺伝子または抑制遺伝子を含有する有意確率のデータをデータファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部（３０）とを備える。

Description

変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

関連出願への相互参照

　本出願は、２０２２年１０月１８日に出願された特許出願２０２２－１６７０５３号に基づくものであって、その優先権の利益を主張するものであり、その特許出願のすべての内容が、参照により本明細書に組み入れられる。

　本発明は、遺伝子の変動データと疾患または化合物との関連を示す知識情報を有効活用する技術に関する。

　標的分子／化合物ペアの探索を基礎にする創薬アプローチと異なる、変動遺伝子群を基礎にするアプローチは、Broad InstituteとPfizerとの共同研究による「Connectivity Map」（非特許文献１）に始まる。この論文で、疾患の遺伝子発現とその疾患に薬効を示す化合物の関係性が発見・例証された。すなわち、疾患特異的遺伝子群で亢進する遺伝子群は、薬効を示す化合物の投与前後では抑制され、逆に疾患において抑制される遺伝子群は、化合物投与において亢進する、という「逆パターン」を示す。この関係を利用し、例えば、ある疾患の特異的変動遺伝子群の推定によって、化合物変動遺伝子データセットを準備すれば、当該疾患に薬効を示す化合物が推定できる。また、ある化合物の特異的変動遺伝子群の推定によって、疾患変動遺伝子データセットを準備すれば、その化合物が適応可能な疾患を推定できる。

　「Connectivity Map」では、多数の化合物投与前後の遺伝子変動データセットに対して、疾患遺伝子発現をqueryにして「逆パターン」を示す化合物を探索するために、全遺伝子の発現量に対して特異的遺伝子群の発現量分布の偏りを指標にして探索するアルゴリズムも搭載されいる（非特許文献１）。

Justin Lamb他「The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease」SCIENCE 29 Sep 2006 Vol 313, Issue 5795 pp. 1929-1935

　近年、生物機能を連動して発揮する分子群が「パスウェイ」と名付けられ、多数のパスウェイデータベースが構築されている。

　本開示では、従来の変動遺伝子群の代わりに、これら集積された知識であるパスウェイ情報を利活用する。機能が多様な遺伝子の集団である変動遺伝子群に比べ、明確な生物機能が定義されているパスウェイの変動を利用することで、疾患要因や化合物ＭｏＡ（mechanism of action　作用機序）を直接的且つ簡潔に推定することが可能になる。例えば、ある化合物に関して推定された責任遺伝子名を入力し、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、疾患データに基づいて予め作成された疾患変動パスウェイデータセットを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。

　ここで、これまでに集積されたパスウェイ情報を利用するに際しての一つの課題は、現在までに蓄積された分子生物学の大量な知識と疾患及び薬剤変動計測データは、データの仕様が異なることである。

　本開示は、上記背景に鑑み、これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置を提供することを目的とする。

　本開示にかかる変動パスウェイデータベース生成装置は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部とを備える。

　この構成により、仕様の異なるデータベースから収集したデータを疾患ごとあるいは化合物ごとに丸めてしまうのではなく、収集したデータファイルに対応付けた変動パスウェイデータを有する変動パスウェイデータベースを生成するので、当該変動パスウェイデータベースを利用して適切に疾患または化合物を探索することが可能となる。

　本開示にかかる変動パスウェイデータベース生成装置において、前記データファイルは、前記変動データを取得した条件のデータを含んでおり、前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付けてもよい。

　本開示にかかる変動パスウェイデータベース生成装置において、前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出してもよい。

　本開示にかかる探索装置は、上記した変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、遺伝子を特定するデータを入力する入力部と、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部とを備える。この構成により、入力部より入力された遺伝子を含有する複数のパスウェイの有意確率の結合確率に基づいて、当該遺伝子に関連する疾患または化合物を求めることができる。

　本開示にかかる探索装置は、前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、前記出力部は、前記有意結合確率および前記有意結合確率に対応する疾患名または化合物名を出力してもよい。

　本開示にかかる変動パスウェイデータベース生成方法は、変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを備える。

　本開示にかかる探索方法は、探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、前記探索装置が、遺伝子を特定するデータを入力するステップと、前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、前記探索装置が、上記した変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを備える。

　本開示にかかるプログラムは、疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを実行させる。

　本開示にかかるプログラムは、遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、遺伝子を特定するデータを入力するステップと、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、上記したプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを実行させる。

図１は、実施の形態の変動パスウェイデータベース生成装置の構成を示す図である。図２は、実施の形態の変動パスウェイデータベース生成装置のデータ収集部にて整備されたデータを示す図である。図３は、疾患による遺伝子変動の算出例を示す図である。図４は、実施の形態の変動パスウェイデータベース生成装置の記憶部に記憶されたデータの例を示す図である。図５は、実施の形態の変動パスウェイデータベース生成装置の動作を示すにフローチャートである。図６は、実施の形態の探索装置の構成を示す図である。図７は、責任遺伝子を含有するパスウェイが３パスウェイであった場合の結合確率の算出例を示す図である。図８は、責任遺伝子を含有するパスウェイに対応する疾患リストである。図９は、有意結合確率推定部の処理について説明するための図である。図１０は、実施の形態の探索装置の動作を示すフローチャートである。

　以下、本開示の実施の形態に係る変動パスウェイデータベース生成装置および探索装置について、図面を参照しながら説明する。以下の説明では、変動パスウェイデータベース生成装置は、疾患に基づく変動パスウェイデータベースを生成する装置を例とする。また、探索装置は、入力された遺伝子のデータに基づき、関連する疾患の候補を探索する装置を例とする。

（変動パスウェイデータベース生成装置）
　図１は、本実施の形態の変動パスウェイデータベース生成装置１の構成を示す図である。変動パスウェイデータベース生成装置１は、データ収集部１０と、演算部２０と、記憶部３０と、出力部４０とを備える。演算部２０は、遺伝子変動算出部２１と、変動遺伝子抽出部２２と、パスウェイ解析部２３とを有する。

　データ収集部１０は、既存の仕様の異なる複数のデータベースから、疾患に関連付けられた遺伝子の発現量の変動データを収めたデータファイルを収集する。データ収集部１０は、例えば、スクレイピングなどにより半自動的にデータを収集する。データ収集部１０は、収集したデータのキュレーションを行い、サンプル名毎の分別を行う。

　図２は、データ収集部１０で収集されたデータの例を示す図である。図２に示す例では、疾患Ｄ１についてデータファイルＳ１とＳ２が得られ、疾患Ｄ２についてデータＳ１が得られ、疾患Ｄ３についてデータＳ１が得られている。また、疾患Ｄ１のデータファイルＳ１については、対照データと条件１と条件２のデータが得られ、データファイルＳ２については対照データと条件１～３のデータが得られている。ここで、対照データは、疾患のないコントロール群から得られた遺伝子の変動データである。条件は、遺伝子の変動データを取得した条件を示している。ここで、条件とは、例えば、疾患データの場合であれば、患者重症度や試料採取部位などであり、後述する薬剤データの場合は、投与薬剤の濃度や投与時点などである。

　演算部２０の遺伝子変動算出部２１は、該データファイルごとに、疾患に関連付けられた遺伝子の変動データを対照データと比較して、疾患による遺伝子変動を算出する。

　図３は、疾患による遺伝子変動の算出例を示す図である。遺伝子変動算出部２１は、各疾患のデータファイル毎に、対照データと条件データとを比較し、各遺伝子の発現量の変動を算出する。図３では、疾患Ｄ１のデータファイルＳ１における条件１データについて変動データを算出した例を示している。gene_1～gene_15694の各遺伝子について、コントロール群に対する変動割合r_1～r_15694を算出している。

　変動遺伝子抽出部２２は、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する。本実施の形態では、所定割合として１％、５％、１０％の３パターンを用いる。

　変動遺伝子抽出部２２は、遺伝子変動算出部２１で求めた変動割合を大きい順に並べ、上位から１％、５％、１０％の遺伝子を亢進遺伝子とし、下位から１％、５％、１０％の遺伝子を抑制遺伝子として抽出する。１％、５％、１０％の３パターンにおいて亢進遺伝子、抑制遺伝子を求めているのは、上位または下位の何％を採用するかによって、次に説明するパスウェイ解析の結果が異なることがあり、変動パスウェイデータベースを利用するユーザがいくつかのパターンで探索を行えると便利だからである。

　パスウェイ解析部２３は、パスウェイに亢進遺伝子または抑制遺伝子を含む有意確率を求める。パスウェイの有意確率は、亢進遺伝子または抑制遺伝子の各パスウェイでの含有割合を超幾何分布に基づいて算出した確率である。パスウェイのデータは、例えば、ＫＥＧＧ　Ｐａｔｈｗａｙ　Ｄａｔａｂａｓｅなどのような既存のデータベースが存在しており、パスウェイが含有する遺伝子のデータは既知である。パスウェイ解析部２３は、こうした既存のデータベースを利用して亢進遺伝子または抑制遺伝子が含まれる有意確率を求める。パスウェイ解析部２３は、解析した結果を記憶部３０に記憶する。記憶部３０に記憶されたデータが、変動パスウェイデータベース生成装置１によって生成される変動パスウェイデータベース（以下、「変動パスウェイＤＢ」という。）である。

　図４は、記憶部３０に記憶されたパスウェイ解析結果のデータの例を示す図である。図４に示すように、パスウェイ解析結果は、疾患のデータファイルごとに、条件、亢進／抑制、割合、遺伝子名セット、パスウェイ、有意確率の項目を有している。すでに説明したところと重複するが、条件は、データファイルの遺伝子変動データを取得した条件を示すデータであり、亢進／抑制と割合は、亢進遺伝子、抑制遺伝子として、遺伝子変動の順位が上位または下位の何％を用いたかを示すデータである。遺伝子名セットは、亢進遺伝子のセット、抑制遺伝子のセットを示し、パスウェイと含有確率は、各パスウェイに亢進遺伝子または抑制遺伝子を含有する有意確率を示す。

　上述したとおり、記憶部３０には、データファイルごとにデータが記憶される。したがって、収納されるファイル数は、（疾患数）×（データファイル数）×（対照データおよび条件データのペア数）×（所定の割合の段階数）×２（亢進・抑制）となる。本実施の形態では、疾患および条件が同じ場合であってもデータファイルごとにパスウェイ解析を行って、その結果を記憶する。疾患および条件が同じであっても、亢進遺伝子または抑制遺伝子の遺伝子名セットが異なり、各パスウェイの有意確率が異なる。このように変動パスウェイデータベースには、収集したデータファイルごとの仕様の違いが残されており、後述する探索装置によって疾患を探索する際に適切にメタ解析を行える。

　図５は、変動パスウェイデータベース生成装置１の動作を示すフローチャートである。
　変動パスウェイデータベース生成装置１のデータ収集部１０は、オープンデータから、疾患の変動データを収集し、対照データと所定の条件で取得した変動データを収納したデータファイル（図２参照）を記憶する（Ｓ１）。

　変動パスウェイデータベース生成装置１の遺伝子変動算出部２１は、収集したデータの対照データと条件データの比を算出し、遺伝子変動の算出を行う（Ｓ２）。変動パスウェイデータベース生成装置１の変動遺伝子抽出部２２は、遺伝子変動データに基づいて、亢進遺伝子と抑制遺伝子を抽出する（Ｓ３）。具体的には、遺伝子変動データの大きさに基づいて遺伝子を並び替え、その上位の所定割合の遺伝子を亢進遺伝子、下位の所定割合の遺伝子を抑制遺伝子として求める。本実施の形態では、所定割合については、１％、５％、１０％の３段階とし、各割合に対して亢進遺伝子および抑制遺伝子を求めた。

　変動パスウェイデータベース生成装置１のパスウェイ解析部２３は、亢進遺伝子および抑制遺伝子の各遺伝子名セットについて、パスウェイ解析を実行し、全パスウェイについて、当該亢進遺伝子および抑制遺伝子が含まれる有意確率を算出し（Ｓ４）、算出した有意確率を記憶部３０に記憶する。

（探索装置）
　図６は、実施の形態の探索装置１００の構成を示す図である。探索装置１００は、責任遺伝子の入力を受け付けると、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、変動パスウェイデータベース生成装置１により予め作成された変動パスウェイデータベースを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。

　探索装置１００は、入力部１１０と、演算部１２０と、変動パスウェイＤＢ１３０と、出力部１４０と、参照データベース（以下、「参照ＤＢ」という。）１５０とを備える。演算部１２０は、パスウェイ抽出部１２１と結合確率算出部１２２と有意結合確率推定部１２３とを備えている。

　探索装置１００の入力部１１０は、対象疾患を求めたい責任遺伝子のデータの入力を受け付ける。変動パスウェイＤＢ１３０は、上記で述べた変動パスウェイデータベース生成装置１によって生成された変動パスウェイＤＢを記憶している。参照ＤＢ１５０は、パスウェイとその構成遺伝子とを対応付けて記憶したテーブルである。パスウェイ抽出部１２１は、参照ＤＢ１５０を参照して、入力部１１０にて入力された遺伝子を含有する複数のパスウェイを抽出する。

　結合確率算出部１２２は、変動パスウェイＤＢ１３０を探索し、疾患ごとに複数のパスウェイのそれぞれの有意確率を求め、当該有意確率を結合して疾患に対する結合確率を求める。具体的には、結合確率算出部１２２は、パスウェイ解析に用いるデータの条件（例えば、条件１、条件２等）と、亢進遺伝子または抑制遺伝子として用いる割合（例えば、上位１％等）の設定を受け付ける。結合確率算出部１２２は、設定された条件および割合のデータの中から、入力された責任遺伝子を含有するパスウェイを探索し、そのパスウェイの有意確率を読み出す。続いて、結合確率算出部１２２は、各パスウェイの有意確率を結合して、結合確率を算出する。

　図７は、責任遺伝子を含有するパスウェイが３パスウェイであった場合の結合確率の算出例を示す図である。疾患Ｄ１について見ると、パスウェイ１の有意確率がｐ１１，パスウェイ２の有意確率がｐ１２，パスウェイ３の有意確率がｐ１３であり、これらの結合確率がｑ１である。すなわち、疾患Ｄ１の結合確率は、ｑ１である。同様に疾患Ｄ２の結合確率はｑ２である。ここでは疾患Ｄ１，Ｄ２についてのみ記載しているが、結合確率算出部１２２は、全疾患について結合確率ｑを求める。

　有意結合確率推定部１２３は、全疾患についての結合確率のうち、統計的に有意な結合確率を推定する。統計的に有意な結合確率を有する疾患が本実施の形態の探索装置１００によって探索すべき疾患である。

　図８は、責任遺伝子を含有するパスウェイに対応する疾患リストであり、各疾患について結合確率が求められている。どの疾患を責任遺伝子と関連のある疾患であるとして探索するかは課題の一つである。疾患を絞り込みすぎると重要な適応疾患が漏れる可能性があり、逆に疾患が多すぎると探索された疾患についての検証に労力がかかる。本実施の形態の探索装置１００は、結合確率ｑの絶対値を用いるのではなく、結合確率ｑの差分値について外れ値を検定することで、有意結合確率を推定する。

　図９は、有意結合確率推定部１２３の処理を説明するための図である。有意結合確率推定部１２３は、結合確率算出部１２２にて求めた複数の疾患の結合確率について、小さい方から所定数の疾患の結合確率のlog値（log₁₀(q)）を算出し、log値を小さい順に並べる。log値を用いることにより、極めて小さな値であるｑ値を適切に扱うことができる。

　図９に示す例では、log値が小さい方から疾患Ｄ１，Ｄ２，Ｄ３，・・・となっている。例えば、結合確率算出部１２２は、小さい方から５１番目までの結合確率について有意結合確率を推定する。この所定数は、ユーザが任意に設定することができる。

　次に、有意結合確率推定部１２３は、隣接する順位の結合確率の差分値を求める。疾患Ｄ１の結合確率と疾患Ｄ２の結合確率の差分値Δ、疾患Ｄ２の結合確率と疾患Ｄ３の結合確率の差分値Δ，・・・といった要領である。続いて、有意結合確率推定部１２３は差分値Δについて外れ値検定を行う。外れ値検定の有意確率はユーザが任意に設定することができる。本実施の形態では、有意確率を０．０１とする。

　有意結合確率推定部１２３は、外れ値のうち最も大きな外れ値を示した順位を探索し、その（順位－１）までを有意結合確率とする。例えば、順位１位と２位の差分値、順位２位と３位の差分値、順位５位と６位の差分値が、外れ値検定により外れ値であると求められた場合には、順位６位－１＝順位５位までを有意結合確率とする。結合確率の絶対値は組み合わせる確率の数に依存するが、本実施の形態では、差分値の外れ値検定を採用するにより、適切な評価を行うことができる。

　図１０は、探索装置１００の動作を示すフローチャートである。探索装置１００の入力部１１０は、責任遺伝子の入力を受け付ける（Ｓ１１）。探索装置１００は、参照ＤＢ１５０に格納されている既存のパスウェイ／構成遺伝子名のテーブルを参照して、入力された責任遺伝子を含有するパスウェイを抽出する（Ｓ１２）。ここで、本実施の形態においてテーブルは参照ＤＢ１５０として格納されているが、インターネットを通じて外部の既存のデータベース（例えば、上述したＫＥＧＧ　Ｐａｔｈｗａｙ　Ｄａｔａｂａｓｅ等）を参照してもよい。

　次に、探索装置１００は、遺伝子変動データの条件、および、上位何％の変動データを亢進遺伝子／抑制遺伝子とするかの検索条件の設定を受け付ける（Ｓ１３）。探索装置１００は、検索条件にマッチするデータの中から、責任遺伝子を遺伝子セットに一致するパスウェイデータファイルを読み出し、読み出したパスウェイの有意確率を結合して、疾患の結合確率を算出する（Ｓ１４）。続いて、探索装置１００は、抽出された複数の疾患のうち、結合確率が統計的に有意な結合有意確率を推定し（Ｓ１５）、出力する疾患名を求める。探索装置１００は、求めた疾患名を出力する（Ｓ１６）。ここで、出力部１４０は、疾患名および結合確率のデータを数値が入力された表として出力してもよいし、対数グラフとして出力してもよい。

　以上、本実施の形態の変動パスウェイデータベース生成装置１および探索装置１００について説明した。本実施の形態の変動データベース生成装置１は、仕様の異なる複数のデータベースから収集したデータを用いて、変動データベースを生成する。この際、データファイルごとに遺伝子名セットおよびパスウェイの有意確率のデータを記憶しておく。すなわち、仕様の異なる複数のデータを無理に統合することなく、複数のデータファイルとして持っておく。そして、探索装置１００は、変動パスウェイデータベース生成装置が生成した変動パスウェイＤＢ１３０を用いて責任遺伝子を含有する複数のパスウェイの結合有意確率を求めることにより、適切なメタ解析により関連疾患を求めることができる。

　本実施の形態の探索装置１００によれば、複数の疾患についての結合確率を考慮して責任遺伝子に対応する関連疾患を適切に求めることができる。

　なお、上記した実施の形態では、疾患に基づいて変動する遺伝子変動データを用いて変動パスウェイＤＢを生成し、変動パスウェイＤＢを用いて責任遺伝子に対応する関連疾患を求める例を挙げたが、本開示は、責任遺伝子に作用する薬剤を求めるためにも適用することが可能である。この場合には、変動パスウェイデータベース生成装置は、化合物に基づいて変動する遺伝子変動データを用いて変動パスウェイＤＢを生成し、変動パスウェイＤＢを用いて責任遺伝子に対応する化合物（すなわち薬剤）を求める。

　この構成により、疾患に有効な薬剤の候補を推定でき、例えば、既存薬剤について別の適応疾患を探索するのにも役立つ。特に、希少疾患においては、有効な薬剤の探索は進んでいないが、本開示によれば、多くの労力をかけることなく希少疾患に有効な薬剤を推定できる。

　以下、本実施の形態の探索装置の実施例について説明する。探索に使用する変動パスウェイＤＢは、予め上述した方法を用いて作成した。実施例では、変動パスウェイＤＢを用いて、ＨＥＲ２Ｂ阻害薬の適応疾患を推定する。責任遺伝子としてＨＥＲ２Ｂを入力した。疾患の検索条件としては、５％亢進を設定した。

　探索装置は、ＨＥＲ２Ｂを含有する次の５つのパスウェイを抽出し、探索を開始した。

　探索装置は、抽出した５つのパスウェイに対して、次のように疾患名およびその結合確率を推定した。なお、ここでは実際の疾患名は伏せている。

　探索装置は、５０位までの差分値群について外れ値検定を実行した。

　外れ値検定の結果、３つの外れ値が検出された。外れ値が検出された順位のうち、最も大きい順位は１０位であった。したがって、遺伝子名ＨＥＲ２Ｂを含有するパスウェイが有意に亢進している疾患は、（１０位－１）の９疾患であると推定した。探索装置は、ＨＥＲ２Ｂ阻害剤は、これらの９つの疾患群に対し薬効を示す可能性が高いと推定できた。

Claims

　仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、
　前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、
　遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、
　予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、
　前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部と、
　を備える変動パスウェイデータベース生成装置。
　前記データファイルは、前記変動データを取得した条件のデータを含んでおり、
　前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付ける請求項１に記載の変動パスウェイデータベース生成装置。
　前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出する請求項１に記載の変動パスウェイデータベース生成装置。
　請求項１に記載の変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、
　遺伝子を特定するデータを入力する入力部と、
　予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、
　前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、
　前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部と、
　を備える探索装置。
　前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、
　前記出力部は、前記有意結合確率に基づいて選択した疾患または化合物のデータを出力する請求項４に記載の探索装置。
　変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、
　前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
　前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
　前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
　前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
　前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
　を備える変動パスウェイデータベース生成方法。
　探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、
　前記探索装置が、遺伝子を特定するデータを入力するステップと、
　前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
　前記探索装置が、請求項６に記載の変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
　前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
　を備える探索方法。
　疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、
　仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
　前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
　遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
　予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
　前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
　を実行させるプログラム。
　遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、
　遺伝子を特定するデータを入力するステップと、
　予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
　請求項８に記載のプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
　前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
　を実行させるプログラム。