WO2024085096A1 - 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム - Google Patents

変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム Download PDF

Info

Publication number
WO2024085096A1
WO2024085096A1 PCT/JP2023/037271 JP2023037271W WO2024085096A1 WO 2024085096 A1 WO2024085096 A1 WO 2024085096A1 JP 2023037271 W JP2023037271 W JP 2023037271W WO 2024085096 A1 WO2024085096 A1 WO 2024085096A1
Authority
WO
WIPO (PCT)
Prior art keywords
variation
gene
data
pathway
disease
Prior art date
Application number
PCT/JP2023/037271
Other languages
English (en)
French (fr)
Inventor
勝久 堀本
Original Assignee
ソシウム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソシウム株式会社 filed Critical ソシウム株式会社
Publication of WO2024085096A1 publication Critical patent/WO2024085096A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Definitions

  • the present invention relates to a technology that effectively utilizes knowledge information that shows the association between genetic variation data and diseases or chemical compounds.
  • Non-Patent Document 1 a joint research project between the Broad Institute and Pfizer. This paper discovered and demonstrated the relationship between the gene expression of a disease and a compound that is effective against that disease.
  • a gene group that is enhanced in a disease-specific gene group is suppressed before and after administration of a compound that is effective, and conversely, a gene group that is suppressed in a disease is enhanced after administration of the compound, showing an "inverse pattern.”
  • a compound that is effective against that disease can be estimated by preparing a compound variable gene dataset.
  • a disease to which the compound can be applied can be estimated by preparing a disease variable gene dataset.
  • the “Connectivity Map” also includes an algorithm that queries disease gene expression against a dataset of gene fluctuations before and after the administration of a large number of compounds to search for compounds that show "reverse patterns,” using the bias in the distribution of expression levels of specific gene groups relative to the expression levels of all genes as an index (Non-Patent Document 1).
  • pathway information which is this accumulated knowledge, is utilized instead of conventional variable gene groups.
  • variable gene groups which are a group of genes with diverse functions
  • pathway fluctuations which have clearly defined biological functions
  • the name of the gene estimated to be responsible for a certain compound is input, and the pathway containing that gene is automatically selected.
  • a disease fluctuation pathway dataset created in advance based on disease data is referenced, and the name of the disease in which the pathway is enhanced or suppressed is output.
  • the present disclosure aims to provide a variation pathway database generation device that makes it possible to utilize data that has been accumulated thus far.
  • the variation pathway database generating device includes a data collection unit that collects data files containing variation data of genes associated with a disease or a compound from a plurality of databases with different specifications; a gene variation calculation unit that compares the gene variation data associated with the disease or compound with a control group for each of the data files to calculate gene variation due to the disease or compound; a variation gene extraction unit that extracts a predetermined percentage of genes with greater gene variation as enhanced genes and a predetermined percentage of genes with smaller gene variation as suppressed genes; a pathway analysis unit that determines the significance probability of containing the enhanced gene or the suppressed gene for a plurality of predetermined pathways; and a storage unit that stores a variation pathway database in which the significance probability data of each of the plurality of pathways containing the enhanced gene or the suppressed gene is associated with each of the data files.
  • variation pathway database that contains variation pathway data associated with the collected data files, making it possible to appropriately search for diseases or compounds using the variation pathway database.
  • the data file includes data on the conditions under which the variation data was acquired, and the gene variation calculation unit, the variation gene extraction unit, and the pathway analysis unit perform processing using the gene variation data for each of the conditions, and the storage unit may associate the variation pathway and its significance probability data for each of the conditions and for each of the files.
  • the variation gene extraction unit may set multiple predetermined ratios and extract the enhanced genes and the suppressed genes at the multiple predetermined ratios.
  • the search device comprises a variation pathway database generated by the variation pathway database generation device described above, an input unit for inputting data identifying a gene, a pathway extraction unit for extracting a pathway containing the gene from a predetermined number of pathways, a connection probability calculation unit for searching the variation pathway database, determining the significance probability of each of the extracted pathways and a disease or compound, and determining the connection probability between the extracted pathway and a disease or compound, and an output unit for outputting data on a disease or compound selected based on the connection probability.
  • a disease or compound related to a gene can be found based on the connection probability of the significance probability of a number of pathways containing the gene input from the input unit.
  • the search device may include a significant binding probability estimation unit that ranks the binding probabilities of a predetermined number of diseases or compounds in ascending order of the binding probability, determines the difference between the binding probabilities of adjacent rankings, and performs an outlier test on the difference value to estimate the significant binding probability, and the output unit may output the significant binding probability and the disease name or compound name corresponding to the significant binding probability.
  • the variation pathway database generating method is a method for generating a variation pathway database for a disease or a compound by a variation pathway database generating device, and includes the steps of: the variation pathway database generating device collecting data files containing variation data of genes associated with a disease or a compound from a plurality of databases having different specifications; the variation pathway database generating device comparing the variation data of genes associated with a disease or a compound with a control group for each of the data files to calculate gene variation due to the disease or the compound; the variation pathway database generating device extracting a predetermined percentage of genes with larger gene variation as enhanced genes and a predetermined percentage of genes with smaller gene variation as suppressed genes; the variation pathway database generating device determining the significance probability of containing the enhanced gene or the suppressed gene for a plurality of predetermined pathways; and the variation pathway database generating device storing in a storage unit a variation pathway database in which the significance probability data of each of the plurality of pathways containing the enhanced gene or the suppressed gene is associated with each of
  • the search method disclosed herein is a method of searching for a disease or compound corresponding to a gene by a search device, and includes the steps of: inputting data identifying the gene by the search device; extracting a pathway containing the gene from a plurality of predetermined pathways by the search device; searching a variation pathway database generated by the variation pathway database generation method described above, determining the significance probability of each of the extracted pathways and the disease or compound, and determining the binding probability between the extracted pathways and the disease or compound; and outputting data on the disease or compound selected by the search device based on the binding probability.
  • the program disclosed herein is a program for generating a variation pathway database for a disease or compound, and causes a computer to execute the steps of: collecting data files containing variation data of genes associated with a disease or compound from multiple databases with different specifications; comparing the variation data of genes associated with a disease or compound with a control group for each of the data files to calculate gene variation due to the disease or compound; extracting a predetermined percentage of genes with larger gene variation as enhanced genes and a predetermined percentage of genes with smaller gene variation as suppressed genes; determining the significance probability of containing the enhanced gene or suppressed gene for a number of predetermined pathways; and storing in a storage unit a variation pathway database in which the significance probability data of each of the multiple pathways containing the enhanced gene or suppressed gene is associated with each of the data files.
  • the program disclosed herein is a program for searching for diseases or compounds corresponding to genes, and causes a computer to execute the steps of inputting data identifying the gene, extracting pathways containing the gene from a predetermined number of pathways, searching a variation pathway database generated by executing the above program on a computer, determining the significance probability of each of the extracted pathways and the disease or compound, determining the binding probability between the extracted pathways and the disease or compound, and outputting data on the disease or compound selected based on the binding probability.
  • FIG. 1 is a diagram showing the configuration of a variation pathway database generating device according to an embodiment.
  • FIG. 2 is a diagram showing data organized by the data collection unit of the variation pathway database generating device according to the embodiment.
  • FIG. 3 is a diagram showing an example of calculation of genetic variation due to disease.
  • FIG. 4 is a diagram illustrating an example of data stored in the storage unit of the variation pathway database generating device according to the embodiment.
  • FIG. 5 is a flowchart showing the operation of the variation pathway database generating device according to the embodiment.
  • FIG. 6 is a diagram illustrating a configuration of a searching device according to an embodiment.
  • FIG. 7 shows an example of calculation of connection probability when the number of pathways containing responsible genes is three.
  • FIG. 8 is a list of diseases corresponding to pathways containing responsible genes.
  • FIG. 9 is a diagram for explaining the process of the significant connection probability estimation unit.
  • FIG. 10 is a flowchart showing the operation of the searching device according to the embodiment.
  • variation pathway database generating device is exemplified as a device that generates a variation pathway database based on a disease.
  • search device is exemplified as a device that searches for related disease candidates based on inputted gene data.
  • the variation pathway database generator 1 is a diagram showing the configuration of a variation pathway database generating device 1 according to this embodiment.
  • the variation pathway database generating device 1 includes a data collecting unit 10, a calculation unit 20, a storage unit 30, and an output unit 40.
  • the calculation unit 20 includes a genetic variation calculating unit 21, a variable gene extracting unit 22, and a pathway analyzing unit 23.
  • the data collection unit 10 collects data files that contain data on variations in the expression levels of genes associated with diseases from multiple existing databases with different specifications.
  • the data collection unit 10 collects data semi-automatically, for example, by scraping.
  • the data collection unit 10 curates the collected data and separates it by sample name.
  • FIG. 2 is a diagram showing an example of data collected by the data collection unit 10.
  • data files S1 and S2 are obtained for disease D1
  • data S1 is obtained for disease D2
  • data S1 is obtained for disease D3.
  • control data and data under conditions 1 and 2 are obtained
  • control data and data under conditions 1 to 3 are obtained.
  • the control data is genetic variation data obtained from a disease-free control group.
  • the conditions indicate the conditions under which the genetic variation data was obtained.
  • the conditions are, for example, the patient's severity and the site of sample collection in the case of disease data, and the concentration of the administered drug and the time of administration in the case of drug data described below.
  • the genetic variation calculation unit 21 of the calculation unit 20 compares the genetic variation data associated with the disease with the control data for each data file, and calculates the genetic variation due to the disease.
  • Figure 3 shows an example of calculating gene variation due to disease.
  • the gene variation calculation unit 21 compares the control data and condition data for each data file of each disease, and calculates the variation in the expression level of each gene.
  • Figure 3 shows an example of calculating variation data for condition 1 data in data file S1 of disease D1. For each of genes gene_1 to gene_15694, the variation ratios r_1 to r_15694 relative to the control group are calculated.
  • the fluctuating gene extraction unit 22 extracts a predetermined percentage of genes with large gene fluctuations as enhanced genes, and a predetermined percentage of genes with small gene fluctuations as suppressed genes. In this embodiment, three patterns of 1%, 5%, and 10% are used as the predetermined percentage.
  • the fluctuating gene extraction unit 22 sorts the fluctuating rates calculated by the gene fluctuation calculation unit 21 in descending order, and extracts 1%, 5%, and 10% of genes from the top as enhanced genes, and 1%, 5%, and 10% of genes from the bottom as suppressed genes.
  • the reason for searching for enhanced and suppressed genes in three patterns of 1%, 5%, and 10% is that the results of the pathway analysis described below may differ depending on which percentage of the top or bottom is used, and it is convenient for users of the fluctuating pathway database to be able to search in several patterns.
  • the pathway analysis unit 23 determines the significance probability that a pathway contains an enhanced gene or an inhibited gene.
  • the significance probability of a pathway is the probability calculated based on the hypergeometric distribution of the proportion of enhanced genes or inhibited genes contained in each pathway.
  • Pathway data is available in existing databases such as the KEGG Pathway Database, and data on genes contained in pathways is known.
  • the pathway analysis unit 23 uses such existing databases to determine the significance probability that an enhanced gene or an inhibited gene is contained.
  • the pathway analysis unit 23 stores the analysis results in the memory unit 30.
  • the data stored in the memory unit 30 is the variation pathway database (hereinafter referred to as the "variation pathway DB") generated by the variation pathway database generation device 1.
  • FIG. 4 is a diagram showing an example of pathway analysis result data stored in the memory unit 30.
  • the pathway analysis result has the following items for each disease data file: condition, enhancement/inhibition, ratio, gene name set, pathway, and significant probability.
  • condition is data indicating the conditions under which the gene variation data of the data file was obtained
  • enhancement/inhibition and ratio are data indicating what percentage of the top or bottom ranked gene variations were used as enhanced genes and inhibited genes.
  • the gene name set indicates a set of enhanced genes and a set of inhibited genes, and the pathway and inclusion probability indicate the significant probability that each pathway contains an enhanced gene or inhibited gene.
  • the number of files stored is (number of diseases) x (number of data files) x (number of pairs of control data and condition data) x (number of stages of a specified ratio) x 2 (enhancement/inhibition).
  • pathway analysis is performed for each data file and the results are stored.
  • the gene name sets of enhanced or inhibited genes are different, and the significance probability of each pathway is different.
  • the variation pathway database retains the differences in specifications for each collected data file, allowing appropriate meta-analysis to be performed when searching for diseases using the search device described below.
  • FIG. 5 is a flowchart showing the operation of the variation pathway database generating device 1.
  • the data collection unit 10 of the variation pathway database generation device 1 collects disease variation data from open data, and stores a data file (see Figure 2) that contains control data and variation data obtained under specified conditions (S1).
  • the genetic variation calculation unit 21 of the variation pathway database generation device 1 calculates the ratio between the control data and the condition data of the collected data, and calculates genetic variation (S2).
  • the variable gene extraction unit 22 of the variation pathway database generation device 1 extracts enhanced genes and suppressed genes based on the genetic variation data (S3). Specifically, the genes are sorted based on the size of the genetic variation data, and a predetermined percentage of the top genes are determined as enhanced genes, and a predetermined percentage of the bottom genes are determined as suppressed genes. In this embodiment, the predetermined percentages are set to three levels: 1%, 5%, and 10%, and enhanced genes and suppressed genes are determined for each percentage.
  • the pathway analysis unit 23 of the variation pathway database generation device 1 performs pathway analysis for each set of gene names of enhanced genes and suppressed genes, calculates the significance probability that the enhanced genes and suppressed genes are included for all pathways (S4), and stores the calculated significance probability in the memory unit 30.
  • (Searching device) 6 is a diagram showing the configuration of a search device 100 according to an embodiment.
  • the search device 100 receives an input of a responsible gene, it automatically selects a pathway containing the gene, and uses the pathway to refer to a variation pathway database created in advance by the variation pathway database generation device 1, and outputs the name of a disease in which the pathway is enhanced or suppressed.
  • the search device 100 includes an input unit 110, a calculation unit 120, a variation pathway DB 130, an output unit 140, and a reference database (hereinafter referred to as "reference DB") 150.
  • the calculation unit 120 includes a pathway extraction unit 121, a connection probability calculation unit 122, and a significant connection probability estimation unit 123.
  • the input unit 110 of the search device 100 accepts input of data on responsible genes for which a target disease is to be found.
  • the variation pathway DB 130 stores the variation pathway DB generated by the variation pathway database generation device 1 described above.
  • the reference DB 150 is a table that stores pathways in association with their constituent genes.
  • the pathway extraction unit 121 refers to the reference DB 150 and extracts multiple pathways that contain the genes input by the input unit 110.
  • the connection probability calculation unit 122 searches the variation pathway DB 130, finds the significance probability of each of multiple pathways for each disease, and combines the significance probabilities to find the connection probability for the disease. Specifically, the connection probability calculation unit 122 accepts settings for the conditions of the data used in the pathway analysis (e.g., condition 1, condition 2, etc.) and the proportions to be used as enhanced or suppressed genes (e.g., top 1%). The connection probability calculation unit 122 searches for pathways containing the input responsible gene from the data for the set conditions and proportions, and reads out the significance probability of that pathway. The connection probability calculation unit 122 then combines the significance probabilities of each pathway to calculate the connection probability.
  • the connection probability calculation unit 122 searches for pathways containing the input responsible gene from the data for the set conditions and proportions, and reads out the significance probability of that pathway.
  • Figure 7 shows an example of calculating the connection probability when there are three pathways containing responsible genes. Looking at disease D1, the significance probability of pathway 1 is p11, the significance probability of pathway 2 is p12, and the significance probability of pathway 3 is p13, and the connection probability of these is q1. In other words, the connection probability of disease D1 is q1. Similarly, the connection probability of disease D2 is q2. Although only diseases D1 and D2 are described here, the connection probability calculation unit 122 calculates the connection probability q for all diseases.
  • the significant connection probability estimation unit 123 estimates the statistically significant connection probability from the connection probabilities for all diseases. Diseases that have statistically significant connection probabilities are the diseases to be searched for by the search device 100 of this embodiment.
  • Figure 8 shows a list of diseases corresponding to pathways containing responsible genes, and the connection probability is calculated for each disease.
  • One of the challenges is determining which diseases to search for as being related to the responsible gene. Narrowing down the diseases too much can result in important adaptive diseases being missed, and conversely, if there are too many diseases, verifying the discovered diseases will be a lot of work.
  • the search device 100 of this embodiment estimates the significant connection probability by testing for outliers for the difference value of the connection probability q, rather than using the absolute value of the connection probability q.
  • the significant connection probability estimation unit 123 calculates the log value (log 10 (q)) of the connection probabilities of a predetermined number of diseases from the smallest to the largest for the connection probabilities of a plurality of diseases calculated by the connection probability calculation unit 122, and sorts the log values in ascending order.
  • the log value which is an extremely small value, can be appropriately handled.
  • the diseases are D1, D2, D3, ... from the smallest log value.
  • the connection probability calculation unit 122 estimates the significant connection probability for the 51st connection probability from the smallest. This predetermined number can be set arbitrarily by the user.
  • the significant connection probability estimation unit 123 finds the difference value of the connection probability of adjacent ranks.
  • the significant connection probability estimation unit 123 performs an outlier test on the difference value ⁇ .
  • the significance probability of the outlier test can be set arbitrarily by the user. In this embodiment, the significance probability is set to 0.01.
  • the absolute value of the connection probability depends on the number of probabilities to be combined, but in this embodiment, an appropriate evaluation can be performed by adopting outlier testing of difference values.
  • Figure 10 is a flowchart showing the operation of the search device 100.
  • the input unit 110 of the search device 100 accepts input of a responsible gene (S11).
  • the search device 100 refers to a table of existing pathway/constituent gene names stored in the reference DB 150, and extracts pathways that contain the input responsible gene (S12).
  • the table is stored as the reference DB 150, but it is also possible to refer to an existing external database (such as the KEGG Pathway Database mentioned above) via the Internet.
  • the search device 100 accepts settings for gene variation data conditions and search conditions for determining what percentage of variation data is to be enhanced/suppressed (S13).
  • the search device 100 reads out pathway data files that match the responsible genes with gene sets from the data that matches the search conditions, and combines the significance probabilities of the read pathways to calculate the disease association probability (S14).
  • the search device 100 estimates the association significance probability of the multiple diseases extracted that has a statistically significant association probability (S15), and determines the disease name to be output.
  • the search device 100 outputs the determined disease name (S16).
  • the output unit 140 may output the disease name and association probability data as a table with numerical values input, or as a logarithmic graph.
  • the variation pathway database generating device 1 and the search device 100 of this embodiment have been described above.
  • the variation database generating device 1 of this embodiment generates a variation database using data collected from multiple databases with different specifications. At this time, data on gene name sets and pathway significance probability is stored for each data file. In other words, multiple data with different specifications are stored as multiple data files without being forcibly integrated.
  • the search device 100 can then use the variation pathway DB 130 generated by the variation pathway database generating device to determine the joint significance probability of multiple pathways containing responsible genes, thereby identifying associated diseases through appropriate meta-analysis.
  • the search device 100 of this embodiment can appropriately find associated diseases that correspond to responsible genes by taking into account the probability of association between multiple diseases.
  • variation pathway database generating device generates a variation pathway DB using gene variation data that varies based on a compound, and uses the variation pathway DB to find compounds (i.e. drugs) that correspond to responsible genes.
  • This configuration makes it possible to predict candidates for drugs that are effective against a disease, and is also useful, for example, for searching for other diseases for which existing drugs can be used.
  • the search for effective drugs for rare diseases has not progressed, but according to the present disclosure, it is possible to predict drugs that are effective against rare diseases without much effort.
  • the variation pathway DB used for the search was created in advance using the method described above.
  • the variation pathway DB is used to predict diseases suitable for HER2B inhibitors.
  • HER2B was input as the responsible gene.
  • 5% enhancement was set as the disease search condition.
  • the searcher extracted the following five pathways containing HER2B and began the search:
  • the search device estimated the disease names and their connection probabilities for the five extracted pathways as follows. Note that the actual disease names are not disclosed here.
  • the search device performed outlier testing on the group of difference values up to the 50th position.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

変動パスウェイデータベース生成装置(1)は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部(10)と、データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患による遺伝子変動を算出する遺伝子変動算出部(21)と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部(22)と、予め定められた複数のパスウェイについて、亢進遺伝子または抑制遺伝子を含有する有意確率を求めるパスウェイ解析部(23)と、複数のパスウェイのそれぞれが亢進遺伝子または抑制遺伝子を含有する有意確率のデータをデータファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部(30)とを備える。

Description

変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム 関連出願への相互参照
 本出願は、2022年10月18日に出願された特許出願2022-167053号に基づくものであって、その優先権の利益を主張するものであり、その特許出願のすべての内容が、参照により本明細書に組み入れられる。
 本発明は、遺伝子の変動データと疾患または化合物との関連を示す知識情報を有効活用する技術に関する。
 標的分子/化合物ペアの探索を基礎にする創薬アプローチと異なる、変動遺伝子群を基礎にするアプローチは、Broad InstituteとPfizerとの共同研究による「Connectivity Map」(非特許文献1)に始まる。この論文で、疾患の遺伝子発現とその疾患に薬効を示す化合物の関係性が発見・例証された。すなわち、疾患特異的遺伝子群で亢進する遺伝子群は、薬効を示す化合物の投与前後では抑制され、逆に疾患において抑制される遺伝子群は、化合物投与において亢進する、という「逆パターン」を示す。この関係を利用し、例えば、ある疾患の特異的変動遺伝子群の推定によって、化合物変動遺伝子データセットを準備すれば、当該疾患に薬効を示す化合物が推定できる。また、ある化合物の特異的変動遺伝子群の推定によって、疾患変動遺伝子データセットを準備すれば、その化合物が適応可能な疾患を推定できる。
 「Connectivity Map」では、多数の化合物投与前後の遺伝子変動データセットに対して、疾患遺伝子発現をqueryにして「逆パターン」を示す化合物を探索するために、全遺伝子の発現量に対して特異的遺伝子群の発現量分布の偏りを指標にして探索するアルゴリズムも搭載されいる(非特許文献1)。
Justin Lamb他「The Connectivity Map: Using Gene-Expression Signatures to Connect Small Molecules, Genes, and Disease」SCIENCE 29 Sep 2006 Vol 313, Issue 5795 pp. 1929-1935
 近年、生物機能を連動して発揮する分子群が「パスウェイ」と名付けられ、多数のパスウェイデータベースが構築されている。
 本開示では、従来の変動遺伝子群の代わりに、これら集積された知識であるパスウェイ情報を利活用する。機能が多様な遺伝子の集団である変動遺伝子群に比べ、明確な生物機能が定義されているパスウェイの変動を利用することで、疾患要因や化合物MoA(mechanism of action 作用機序)を直接的且つ簡潔に推定することが可能になる。例えば、ある化合物に関して推定された責任遺伝子名を入力し、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、疾患データに基づいて予め作成された疾患変動パスウェイデータセットを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
 ここで、これまでに集積されたパスウェイ情報を利用するに際しての一つの課題は、現在までに蓄積された分子生物学の大量な知識と疾患及び薬剤変動計測データは、データの仕様が異なることである。
 本開示は、上記背景に鑑み、これまでに蓄積されたデータの活用を可能にした変動パスウェイデータベース生成装置を提供することを目的とする。
 本開示にかかる変動パスウェイデータベース生成装置は、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部とを備える。
 この構成により、仕様の異なるデータベースから収集したデータを疾患ごとあるいは化合物ごとに丸めてしまうのではなく、収集したデータファイルに対応付けた変動パスウェイデータを有する変動パスウェイデータベースを生成するので、当該変動パスウェイデータベースを利用して適切に疾患または化合物を探索することが可能となる。
 本開示にかかる変動パスウェイデータベース生成装置において、前記データファイルは、前記変動データを取得した条件のデータを含んでおり、前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付けてもよい。
 本開示にかかる変動パスウェイデータベース生成装置において、前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出してもよい。
 本開示にかかる探索装置は、上記した変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、遺伝子を特定するデータを入力する入力部と、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部とを備える。この構成により、入力部より入力された遺伝子を含有する複数のパスウェイの有意確率の結合確率に基づいて、当該遺伝子に関連する疾患または化合物を求めることができる。
 本開示にかかる探索装置は、前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、前記出力部は、前記有意結合確率および前記有意結合確率に対応する疾患名または化合物名を出力してもよい。
 本開示にかかる変動パスウェイデータベース生成方法は、変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを備える。
 本開示にかかる探索方法は、探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、前記探索装置が、遺伝子を特定するデータを入力するステップと、前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、前記探索装置が、上記した変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを備える。
 本開示にかかるプログラムは、疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップとを実行させる。
 本開示にかかるプログラムは、遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、遺伝子を特定するデータを入力するステップと、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、上記したプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップとを実行させる。
図1は、実施の形態の変動パスウェイデータベース生成装置の構成を示す図である。 図2は、実施の形態の変動パスウェイデータベース生成装置のデータ収集部にて整備されたデータを示す図である。 図3は、疾患による遺伝子変動の算出例を示す図である。 図4は、実施の形態の変動パスウェイデータベース生成装置の記憶部に記憶されたデータの例を示す図である。 図5は、実施の形態の変動パスウェイデータベース生成装置の動作を示すにフローチャートである。 図6は、実施の形態の探索装置の構成を示す図である。 図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。 図8は、責任遺伝子を含有するパスウェイに対応する疾患リストである。 図9は、有意結合確率推定部の処理について説明するための図である。 図10は、実施の形態の探索装置の動作を示すフローチャートである。
 以下、本開示の実施の形態に係る変動パスウェイデータベース生成装置および探索装置について、図面を参照しながら説明する。以下の説明では、変動パスウェイデータベース生成装置は、疾患に基づく変動パスウェイデータベースを生成する装置を例とする。また、探索装置は、入力された遺伝子のデータに基づき、関連する疾患の候補を探索する装置を例とする。
(変動パスウェイデータベース生成装置)
 図1は、本実施の形態の変動パスウェイデータベース生成装置1の構成を示す図である。変動パスウェイデータベース生成装置1は、データ収集部10と、演算部20と、記憶部30と、出力部40とを備える。演算部20は、遺伝子変動算出部21と、変動遺伝子抽出部22と、パスウェイ解析部23とを有する。
 データ収集部10は、既存の仕様の異なる複数のデータベースから、疾患に関連付けられた遺伝子の発現量の変動データを収めたデータファイルを収集する。データ収集部10は、例えば、スクレイピングなどにより半自動的にデータを収集する。データ収集部10は、収集したデータのキュレーションを行い、サンプル名毎の分別を行う。
 図2は、データ収集部10で収集されたデータの例を示す図である。図2に示す例では、疾患D1についてデータファイルS1とS2が得られ、疾患D2についてデータS1が得られ、疾患D3についてデータS1が得られている。また、疾患D1のデータファイルS1については、対照データと条件1と条件2のデータが得られ、データファイルS2については対照データと条件1~3のデータが得られている。ここで、対照データは、疾患のないコントロール群から得られた遺伝子の変動データである。条件は、遺伝子の変動データを取得した条件を示している。ここで、条件とは、例えば、疾患データの場合であれば、患者重症度や試料採取部位などであり、後述する薬剤データの場合は、投与薬剤の濃度や投与時点などである。
 演算部20の遺伝子変動算出部21は、該データファイルごとに、疾患に関連付けられた遺伝子の変動データを対照データと比較して、疾患による遺伝子変動を算出する。
 図3は、疾患による遺伝子変動の算出例を示す図である。遺伝子変動算出部21は、各疾患のデータファイル毎に、対照データと条件データとを比較し、各遺伝子の発現量の変動を算出する。図3では、疾患D1のデータファイルS1における条件1データについて変動データを算出した例を示している。gene_1~gene_15694の各遺伝子について、コントロール群に対する変動割合r_1~r_15694を算出している。
 変動遺伝子抽出部22は、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する。本実施の形態では、所定割合として1%、5%、10%の3パターンを用いる。
 変動遺伝子抽出部22は、遺伝子変動算出部21で求めた変動割合を大きい順に並べ、上位から1%、5%、10%の遺伝子を亢進遺伝子とし、下位から1%、5%、10%の遺伝子を抑制遺伝子として抽出する。1%、5%、10%の3パターンにおいて亢進遺伝子、抑制遺伝子を求めているのは、上位または下位の何%を採用するかによって、次に説明するパスウェイ解析の結果が異なることがあり、変動パスウェイデータベースを利用するユーザがいくつかのパターンで探索を行えると便利だからである。
 パスウェイ解析部23は、パスウェイに亢進遺伝子または抑制遺伝子を含む有意確率を求める。パスウェイの有意確率は、亢進遺伝子または抑制遺伝子の各パスウェイでの含有割合を超幾何分布に基づいて算出した確率である。パスウェイのデータは、例えば、KEGG Pathway Databaseなどのような既存のデータベースが存在しており、パスウェイが含有する遺伝子のデータは既知である。パスウェイ解析部23は、こうした既存のデータベースを利用して亢進遺伝子または抑制遺伝子が含まれる有意確率を求める。パスウェイ解析部23は、解析した結果を記憶部30に記憶する。記憶部30に記憶されたデータが、変動パスウェイデータベース生成装置1によって生成される変動パスウェイデータベース(以下、「変動パスウェイDB」という。)である。
 図4は、記憶部30に記憶されたパスウェイ解析結果のデータの例を示す図である。図4に示すように、パスウェイ解析結果は、疾患のデータファイルごとに、条件、亢進/抑制、割合、遺伝子名セット、パスウェイ、有意確率の項目を有している。すでに説明したところと重複するが、条件は、データファイルの遺伝子変動データを取得した条件を示すデータであり、亢進/抑制と割合は、亢進遺伝子、抑制遺伝子として、遺伝子変動の順位が上位または下位の何%を用いたかを示すデータである。遺伝子名セットは、亢進遺伝子のセット、抑制遺伝子のセットを示し、パスウェイと含有確率は、各パスウェイに亢進遺伝子または抑制遺伝子を含有する有意確率を示す。
 上述したとおり、記憶部30には、データファイルごとにデータが記憶される。したがって、収納されるファイル数は、(疾患数)×(データファイル数)×(対照データおよび条件データのペア数)×(所定の割合の段階数)×2(亢進・抑制)となる。本実施の形態では、疾患および条件が同じ場合であってもデータファイルごとにパスウェイ解析を行って、その結果を記憶する。疾患および条件が同じであっても、亢進遺伝子または抑制遺伝子の遺伝子名セットが異なり、各パスウェイの有意確率が異なる。このように変動パスウェイデータベースには、収集したデータファイルごとの仕様の違いが残されており、後述する探索装置によって疾患を探索する際に適切にメタ解析を行える。
 図5は、変動パスウェイデータベース生成装置1の動作を示すフローチャートである。
 変動パスウェイデータベース生成装置1のデータ収集部10は、オープンデータから、疾患の変動データを収集し、対照データと所定の条件で取得した変動データを収納したデータファイル(図2参照)を記憶する(S1)。
 変動パスウェイデータベース生成装置1の遺伝子変動算出部21は、収集したデータの対照データと条件データの比を算出し、遺伝子変動の算出を行う(S2)。変動パスウェイデータベース生成装置1の変動遺伝子抽出部22は、遺伝子変動データに基づいて、亢進遺伝子と抑制遺伝子を抽出する(S3)。具体的には、遺伝子変動データの大きさに基づいて遺伝子を並び替え、その上位の所定割合の遺伝子を亢進遺伝子、下位の所定割合の遺伝子を抑制遺伝子として求める。本実施の形態では、所定割合については、1%、5%、10%の3段階とし、各割合に対して亢進遺伝子および抑制遺伝子を求めた。
 変動パスウェイデータベース生成装置1のパスウェイ解析部23は、亢進遺伝子および抑制遺伝子の各遺伝子名セットについて、パスウェイ解析を実行し、全パスウェイについて、当該亢進遺伝子および抑制遺伝子が含まれる有意確率を算出し(S4)、算出した有意確率を記憶部30に記憶する。
(探索装置)
 図6は、実施の形態の探索装置100の構成を示す図である。探索装置100は、責任遺伝子の入力を受け付けると、その遺伝子を含有するパスウェイを自動的に選別し、そのパスウェイを利用して、変動パスウェイデータベース生成装置1により予め作成された変動パスウェイデータベースを参照し、当該パスウェイが亢進または抑制されている疾患名を出力する。
 探索装置100は、入力部110と、演算部120と、変動パスウェイDB130と、出力部140と、参照データベース(以下、「参照DB」という。)150とを備える。演算部120は、パスウェイ抽出部121と結合確率算出部122と有意結合確率推定部123とを備えている。
 探索装置100の入力部110は、対象疾患を求めたい責任遺伝子のデータの入力を受け付ける。変動パスウェイDB130は、上記で述べた変動パスウェイデータベース生成装置1によって生成された変動パスウェイDBを記憶している。参照DB150は、パスウェイとその構成遺伝子とを対応付けて記憶したテーブルである。パスウェイ抽出部121は、参照DB150を参照して、入力部110にて入力された遺伝子を含有する複数のパスウェイを抽出する。
 結合確率算出部122は、変動パスウェイDB130を探索し、疾患ごとに複数のパスウェイのそれぞれの有意確率を求め、当該有意確率を結合して疾患に対する結合確率を求める。具体的には、結合確率算出部122は、パスウェイ解析に用いるデータの条件(例えば、条件1、条件2等)と、亢進遺伝子または抑制遺伝子として用いる割合(例えば、上位1%等)の設定を受け付ける。結合確率算出部122は、設定された条件および割合のデータの中から、入力された責任遺伝子を含有するパスウェイを探索し、そのパスウェイの有意確率を読み出す。続いて、結合確率算出部122は、各パスウェイの有意確率を結合して、結合確率を算出する。
 図7は、責任遺伝子を含有するパスウェイが3パスウェイであった場合の結合確率の算出例を示す図である。疾患D1について見ると、パスウェイ1の有意確率がp11,パスウェイ2の有意確率がp12,パスウェイ3の有意確率がp13であり、これらの結合確率がq1である。すなわち、疾患D1の結合確率は、q1である。同様に疾患D2の結合確率はq2である。ここでは疾患D1,D2についてのみ記載しているが、結合確率算出部122は、全疾患について結合確率qを求める。
 有意結合確率推定部123は、全疾患についての結合確率のうち、統計的に有意な結合確率を推定する。統計的に有意な結合確率を有する疾患が本実施の形態の探索装置100によって探索すべき疾患である。
 図8は、責任遺伝子を含有するパスウェイに対応する疾患リストであり、各疾患について結合確率が求められている。どの疾患を責任遺伝子と関連のある疾患であるとして探索するかは課題の一つである。疾患を絞り込みすぎると重要な適応疾患が漏れる可能性があり、逆に疾患が多すぎると探索された疾患についての検証に労力がかかる。本実施の形態の探索装置100は、結合確率qの絶対値を用いるのではなく、結合確率qの差分値について外れ値を検定することで、有意結合確率を推定する。
 図9は、有意結合確率推定部123の処理を説明するための図である。有意結合確率推定部123は、結合確率算出部122にて求めた複数の疾患の結合確率について、小さい方から所定数の疾患の結合確率のlog値(log10(q))を算出し、log値を小さい順に並べる。log値を用いることにより、極めて小さな値であるq値を適切に扱うことができる。
 図9に示す例では、log値が小さい方から疾患D1,D2,D3,・・・となっている。例えば、結合確率算出部122は、小さい方から51番目までの結合確率について有意結合確率を推定する。この所定数は、ユーザが任意に設定することができる。
 次に、有意結合確率推定部123は、隣接する順位の結合確率の差分値を求める。疾患D1の結合確率と疾患D2の結合確率の差分値Δ、疾患D2の結合確率と疾患D3の結合確率の差分値Δ,・・・といった要領である。続いて、有意結合確率推定部123は差分値Δについて外れ値検定を行う。外れ値検定の有意確率はユーザが任意に設定することができる。本実施の形態では、有意確率を0.01とする。
 有意結合確率推定部123は、外れ値のうち最も大きな外れ値を示した順位を探索し、その(順位-1)までを有意結合確率とする。例えば、順位1位と2位の差分値、順位2位と3位の差分値、順位5位と6位の差分値が、外れ値検定により外れ値であると求められた場合には、順位6位-1=順位5位までを有意結合確率とする。結合確率の絶対値は組み合わせる確率の数に依存するが、本実施の形態では、差分値の外れ値検定を採用するにより、適切な評価を行うことができる。
 図10は、探索装置100の動作を示すフローチャートである。探索装置100の入力部110は、責任遺伝子の入力を受け付ける(S11)。探索装置100は、参照DB150に格納されている既存のパスウェイ/構成遺伝子名のテーブルを参照して、入力された責任遺伝子を含有するパスウェイを抽出する(S12)。ここで、本実施の形態においてテーブルは参照DB150として格納されているが、インターネットを通じて外部の既存のデータベース(例えば、上述したKEGG Pathway Database等)を参照してもよい。
 次に、探索装置100は、遺伝子変動データの条件、および、上位何%の変動データを亢進遺伝子/抑制遺伝子とするかの検索条件の設定を受け付ける(S13)。探索装置100は、検索条件にマッチするデータの中から、責任遺伝子を遺伝子セットに一致するパスウェイデータファイルを読み出し、読み出したパスウェイの有意確率を結合して、疾患の結合確率を算出する(S14)。続いて、探索装置100は、抽出された複数の疾患のうち、結合確率が統計的に有意な結合有意確率を推定し(S15)、出力する疾患名を求める。探索装置100は、求めた疾患名を出力する(S16)。ここで、出力部140は、疾患名および結合確率のデータを数値が入力された表として出力してもよいし、対数グラフとして出力してもよい。
 以上、本実施の形態の変動パスウェイデータベース生成装置1および探索装置100について説明した。本実施の形態の変動データベース生成装置1は、仕様の異なる複数のデータベースから収集したデータを用いて、変動データベースを生成する。この際、データファイルごとに遺伝子名セットおよびパスウェイの有意確率のデータを記憶しておく。すなわち、仕様の異なる複数のデータを無理に統合することなく、複数のデータファイルとして持っておく。そして、探索装置100は、変動パスウェイデータベース生成装置が生成した変動パスウェイDB130を用いて責任遺伝子を含有する複数のパスウェイの結合有意確率を求めることにより、適切なメタ解析により関連疾患を求めることができる。
 本実施の形態の探索装置100によれば、複数の疾患についての結合確率を考慮して責任遺伝子に対応する関連疾患を適切に求めることができる。
 なお、上記した実施の形態では、疾患に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する関連疾患を求める例を挙げたが、本開示は、責任遺伝子に作用する薬剤を求めるためにも適用することが可能である。この場合には、変動パスウェイデータベース生成装置は、化合物に基づいて変動する遺伝子変動データを用いて変動パスウェイDBを生成し、変動パスウェイDBを用いて責任遺伝子に対応する化合物(すなわち薬剤)を求める。
 この構成により、疾患に有効な薬剤の候補を推定でき、例えば、既存薬剤について別の適応疾患を探索するのにも役立つ。特に、希少疾患においては、有効な薬剤の探索は進んでいないが、本開示によれば、多くの労力をかけることなく希少疾患に有効な薬剤を推定できる。
 以下、本実施の形態の探索装置の実施例について説明する。探索に使用する変動パスウェイDBは、予め上述した方法を用いて作成した。実施例では、変動パスウェイDBを用いて、HER2B阻害薬の適応疾患を推定する。責任遺伝子としてHER2Bを入力した。疾患の検索条件としては、5%亢進を設定した。
 探索装置は、HER2Bを含有する次の5つのパスウェイを抽出し、探索を開始した。
Figure JPOXMLDOC01-appb-T000001
 探索装置は、抽出した5つのパスウェイに対して、次のように疾患名およびその結合確率を推定した。なお、ここでは実際の疾患名は伏せている。
Figure JPOXMLDOC01-appb-T000002
 探索装置は、50位までの差分値群について外れ値検定を実行した。
Figure JPOXMLDOC01-appb-T000003
 外れ値検定の結果、3つの外れ値が検出された。外れ値が検出された順位のうち、最も大きい順位は10位であった。したがって、遺伝子名HER2Bを含有するパスウェイが有意に亢進している疾患は、(10位-1)の9疾患であると推定した。探索装置は、HER2B阻害剤は、これらの9つの疾患群に対し薬効を示す可能性が高いと推定できた。

 

Claims (9)

  1.  仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するデータ収集部と、
     前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出する遺伝子変動算出部と、
     遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出する変動遺伝子抽出部と、
     予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるパスウェイ解析部と、
     前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶する記憶部と、
     を備える変動パスウェイデータベース生成装置。
  2.  前記データファイルは、前記変動データを取得した条件のデータを含んでおり、
     前記遺伝子変動算出部、前記変動遺伝子抽出部、前記パスウェイ解析部は、前記条件ごとに遺伝子の変動データを用いて処理を行い、前記記憶部は、前記条件ごと及び前記ファイルごとに前記変動パスウェイおよびその有意確率のデータを対応付ける請求項1に記載の変動パスウェイデータベース生成装置。
  3.  前記変動遺伝子抽出部は、所定割合を複数設定し、複数の所定割合で前記亢進遺伝子および前記抑制遺伝子を抽出する請求項1に記載の変動パスウェイデータベース生成装置。
  4.  請求項1に記載の変動パスウェイデータベース生成装置にて生成された変動パスウェイデータベースと、
     遺伝子を特定するデータを入力する入力部と、
     予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するパスウェイ抽出部と、
     前記変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求める結合確率算出部と、
     前記結合確率に基づいて選択した疾患または化合物のデータを出力する出力部と、
     を備える探索装置。
  5.  前記結合確率の小さい方から順に所定数の疾患または化合物について結合確率を順位付けして隣接する順位の結合確率の差分値を求め、前記差分値の外れ値検定を行って有意結合確率を推定する有意結合確率推定部を備え、
     前記出力部は、前記有意結合確率に基づいて選択した疾患または化合物のデータを出力する請求項4に記載の探索装置。
  6.  変動パスウェイデータベース生成装置によって、疾患または化合物の変動パスウェイデータベースを生成する方法であって、
     前記変動パスウェイデータベース生成装置が、仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
     前記変動パスウェイデータベース生成装置が、前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
     前記変動パスウェイデータベース生成装置が、遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
     前記変動パスウェイデータベース生成装置が、予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
     前記変動パスウェイデータベース生成装置が、前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
     を備える変動パスウェイデータベース生成方法。
  7.  探索装置によって遺伝子に対応する疾患または化合物を探索する方法であって、
     前記探索装置が、遺伝子を特定するデータを入力するステップと、
     前記探索装置が、予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
     前記探索装置が、請求項6に記載の変動パスウェイデータベース生成方法にて生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
     前記探索装置が、前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
     を備える探索方法。
  8.  疾患または化合物の変動パスウェイデータベースを生成するためのプログラムであって、コンピュータに、
     仕様の異なる複数のデータベースから、疾患または化合物に関連づけられた遺伝子の変動データを収めたデータファイルを収集するステップと、
     前記データファイルごとに、疾患または化合物に関連づけられた遺伝子の変動データをコントロール群と比較して、疾患または化合物による遺伝子変動を算出するステップと、
     遺伝子変動の大きい方から所定割合の遺伝子を亢進遺伝子、小さい方から所定割合の遺伝子を抑制遺伝子として抽出するステップと、
     予め定められた複数のパスウェイについて、前記亢進遺伝子または前記抑制遺伝子を含有する有意確率を求めるステップと、
     前記複数のパスウェイのそれぞれが前記亢進遺伝子または前記抑制遺伝子を含有する有意確率のデータを前記データファイルごとに対応付けた変動パスウェイデータベースを記憶部に記憶させるステップと、
     を実行させるプログラム。
  9.  遺伝子に対応する疾患または化合物を探索するためのプログラムであって、コンピュータに、
     遺伝子を特定するデータを入力するステップと、
     予め定められた複数のパスウェイから前記遺伝子を含有するパスウェイを抽出するステップと、
     請求項8に記載のプログラムをコンピュータにより実行して生成された変動パスウェイデータベースを探索し、前記抽出されたパスウェイのそれぞれと疾患または化合物の有意確率を求め、前記抽出されたパスウェイと疾患または化合物との結合確率を求めるステップと、
     前記結合確率に基づいて選択した疾患または化合物のデータを出力するステップと、
     を実行させるプログラム。
     

     
PCT/JP2023/037271 2022-10-18 2023-10-13 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム WO2024085096A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022167053A JP2024059395A (ja) 2022-10-18 2022-10-18 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム
JP2022-167053 2022-10-18

Publications (1)

Publication Number Publication Date
WO2024085096A1 true WO2024085096A1 (ja) 2024-04-25

Family

ID=90737736

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/037271 WO2024085096A1 (ja) 2022-10-18 2023-10-13 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP2024059395A (ja)
WO (1) WO2024085096A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101701168B1 (ko) * 2016-05-11 2017-02-01 가천대학교 산학협력단 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
JP2017126212A (ja) * 2016-01-14 2017-07-20 富士通株式会社 パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
WO2019093263A1 (ja) * 2017-11-07 2019-05-16 国立研究開発法人産業技術総合研究所 解析装置、解析方法プログラムおよび不揮発性記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017126212A (ja) * 2016-01-14 2017-07-20 富士通株式会社 パスウェイ解析プログラム、パスウェイ解析方法、及び、情報処理装置
KR101701168B1 (ko) * 2016-05-11 2017-02-01 가천대학교 산학협력단 유전자 패스웨이 활성지수의 세부적 정량화를 위한 유전자 프로파일 방법
WO2019093263A1 (ja) * 2017-11-07 2019-05-16 国立研究開発法人産業技術総合研究所 解析装置、解析方法プログラムおよび不揮発性記憶媒体

Also Published As

Publication number Publication date
JP2024059395A (ja) 2024-05-01

Similar Documents

Publication Publication Date Title
US6401087B2 (en) Information retrieval system, apparatus and method for selecting databases using retrieval terms
Warr Representation of chemical structures
US6772170B2 (en) System and method for interpreting document contents
US7640256B2 (en) Data collection cataloguing and searching method and system
US8803882B2 (en) Identifying on a graphical depiction candidate points and top-moving queries
KR20090007626A (ko) 문서 데이터베이스에서 문서들의 도메인 식별방법
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
AU2011239618A1 (en) Ascribing actionable attributes to data that describes a personal identity
WO2024085096A1 (ja) 変動パスウェイデータベース生成装置、探索装置、変動パスウェイデータベース生成方法、探索方法、およびプログラム
JP2012038066A (ja) データ処理装置及びデータ処理方法及びプログラム
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
US20100205214A1 (en) Method for Creating Virtual Compound Libraries Within Markush Structure Patent Claims
US20170075989A1 (en) Search method
JP4461240B2 (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
JP5345918B2 (ja) 文書検索方法、文書検索装置、文書検索プログラム
Azizi et al. Protein structure prediction by means of sequential pattern mining
Danek et al. Finding Approximate Tandem Repeats with the Burrows-Wheeler Transform
Theiß et al. Term indexing for the LEO-II prover
Sakthi et al. Evaluation and Customized Support of Dynamic Query form through web search
CN112269946B (zh) 一种协同过滤并权衡数据信息的api推荐方法与装置
Valeska et al. Comparison of similar RNA 3D structures and substructures search tools
US8745069B2 (en) Creation of a category tree with respect to the contents of a data stock
Martinez et al. Mining association rule bases from integrated genomic data and annotations
Hübner et al. Memoization on Shared Subtrees Accelerates Computations on Genealogical Forests
US20120254187A1 (en) Method of categorizing an invention within an invention landscape