WO2018207925A1 - バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム - Google Patents

バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム Download PDF

Info

Publication number
WO2018207925A1
WO2018207925A1 PCT/JP2018/018393 JP2018018393W WO2018207925A1 WO 2018207925 A1 WO2018207925 A1 WO 2018207925A1 JP 2018018393 W JP2018018393 W JP 2018018393W WO 2018207925 A1 WO2018207925 A1 WO 2018207925A1
Authority
WO
WIPO (PCT)
Prior art keywords
correlation coefficient
biomarker
data set
index
factor
Prior art date
Application number
PCT/JP2018/018393
Other languages
English (en)
French (fr)
Inventor
洛南 陳
合原 一幸
小平 劉
Original Assignee
国立研究開発法人科学技術振興機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立研究開発法人科学技術振興機構 filed Critical 国立研究開発法人科学技術振興機構
Priority to US16/612,276 priority Critical patent/US11848075B2/en
Priority to CN201880028570.8A priority patent/CN110603592B/zh
Priority to JP2019517725A priority patent/JP7124265B2/ja
Publication of WO2018207925A1 publication Critical patent/WO2018207925A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7246Details of waveform analysis using correlation, e.g. template matching or determination of similarity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57484Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/60Complex ways of combining multiple protein biomarkers for diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection

Definitions

  • the present invention relates to a biomarker detection method, a disease determination method, a biomarker detection device, and a biomarker detection program for detecting a biomarker indicating a state of a living body based on data of factor items obtained by measurement on the living body.
  • the state of a living body is good or normal (hereinafter simply referred to as “good”) when a certain transition point (branch point) is exceeded, as in a complex system such as a climate system, an ecological system, or an economic system. )
  • good a certain transition point
  • a complex system such as a climate system, an ecological system, or an economic system.
  • a disease state To a disease state (Patent Document 1 and Non-Patent Documents 1 to 5).
  • a complex system it is known that fluctuations increase at a transition point and there are variables that are strongly correlated with the fluctuations.
  • the resilience to maintain the system stably is reduced, making it vulnerable to disturbances.
  • FIG. 1 is a schematic diagram showing a disease progression process.
  • the vertical axis conceptually represents the health state, and indicates that the health state becomes worse as it goes in the opposite direction (downward direction) to the arrow.
  • the horizontal axis represents time.
  • Point a in the figure indicates that a person is in good health. In this case, the person has no subjective symptoms, and no particular abnormality is found in the results of the conventional health examination. As shown in FIG. 1, even if the health condition deteriorates with the passage of time, since the change is very gradual, there is still no change in physical condition.
  • the transitional state (point b) here is a state in which the person has no particular subjective symptom, but is likely to immediately shift to an early disease state.
  • the present invention is capable of detecting a transient state (a state between health and disease) before transitioning to a disease state, a biomarker detection method, a disease determination method, and a biomarker detection device And a biomarker detection program.
  • 1st aspect of this invention provides the biomarker detection method which detects the biomarker used as the parameter
  • This biomarker detection method prepares a reference data set based on data obtained from one or more reference living organisms, and adds the target biological data obtained from the target organism to the reference data set to generate a target data set.
  • a biomarker detection device that detects a biomarker serving as an index of a state of a target living body to be examined based on data of a plurality of factor items obtained by measurement related to the living body To do.
  • the biomarker detection device is obtained from a target living body and a first storage unit that stores a reference data set based on data of a plurality of factor items in reference biological data obtained from one or more reference biological bodies.
  • a plurality of factor item data in the target biometric data is added to the reference data set to generate and store the target data set; and a reference data set stored in the first storage unit Obtaining a first correlation coefficient among a plurality of factor items in the first, obtaining a second correlation coefficient between the plurality of factor items in the target data set stored in the second storage unit, A differential correlation coefficient that is a difference between the first correlation coefficient and the second correlation coefficient is obtained, an index based on the differential correlation coefficient is obtained for each of a plurality of factor items, and a biomarker is selected based on the index And a control unit.
  • the third aspect of the present invention provides a biomarker detection program including instructions for causing the biomarker detection apparatus to execute the biomarker detection method described above.
  • an index new biomarker indicating a transitional state before transition to a disease state
  • (2) early diagnosis can be performed using the index.
  • FIG. 4 is a schematic diagram for explaining the biomarker detection method of the first embodiment, following FIG. 3. It is a graph which shows the result of the experiment conducted in order to verify the detection method of the biomarker of 1st Embodiment. It is a block diagram which shows the structure of the detection apparatus of the biomarker by the 2nd Embodiment of this invention.
  • FIG. 2 is a flowchart illustrating a biomarker detection method according to the first embodiment
  • FIGS. 3 and 4 are schematic diagrams illustrating the biomarker detection method according to the first embodiment. As shown in FIG.
  • the biomarker detection method includes a step of preparing a reference data set (ST1), a step of generating a test target data set (ST2), and a first correlation coefficient.
  • a step of calculating (ST3), a step of calculating a second correlation coefficient (ST4), a step of calculating a differential correlation coefficient (ST5), a step of obtaining an index (ST6), and a step of selecting a biomarker (ST7) Is included.
  • a reference data set Dr (FIG. 3) is prepared.
  • the reference data set Dr is a collection of data used as reference data for biomarker detection.
  • the reference data set Dr is prepared by measuring a living body for each of the plurality of living body data providers S1, S2,.
  • the biological data providers S1, S2,..., Sn usually do not include the test subject Se (hereinafter referred to as the subject Se) of the biomarker detection method according to the first embodiment. It may be included.
  • the biological data providers S1, S2,..., Sn are in a good health state, and biological samples (for example, blood) are collected from these people.
  • the biometric data provider in a good health state may be a person who has no subjective symptoms and does not need to be determined to be healthy by a medical examination or the like.
  • a person who is known to have a high possibility of having a specific disease cannot be a biometric data provider.
  • the number of biometric data providers S1, S2,..., Sn is not particularly limited, but is preferably at least 8, for example, and more preferably, 10 or more.
  • Measurement and / or predetermined processing is performed on each biological sample, and in the first embodiment, data D (expression level) relating to genes g1, g2,..., Gm as factor items is acquired.
  • the biological sample is preferably processed by a high throughput technique such as a DNA chip. According to the high-throughput technology, it is possible to measure the expression level of 20,000 or more genes from one biological sample.
  • the acquired gene expression level data is collected in a matrix as shown in FIG. 3 for convenience of explanation.
  • Each square ( ⁇ ) in the matrix-like reference data set Dr schematically represents the expression level data of the gene g1, the expression level data of the gene g2, ..., the expression level data of the gene gm of the biological data provider S1. It shows.
  • Step of generating inspection target data set ST2>
  • a biological sample is similarly collected from the subject Se, and a subject data set De regarding the genes g1, g2, g3,..., Gm is acquired (FIG. 3).
  • the previously prepared reference data set Dr is duplicated, and the subject data set De is added to the duplicated reference data set Dr, thereby creating the examination target data set Dc.
  • ⁇ Step of calculating first correlation coefficient (ST3)> a correlation coefficient between the data in the reference data set Dr is calculated.
  • n data exist for the gene g2.
  • a correlation coefficient is calculated between the set CL1r of the gene g1 and the set CL2r of the gene g2.
  • the Pearson product moment correlation coefficient (PCC) is calculated between the two sets.
  • PCCs are also obtained between the set of genes g1 and each set of genes g3, g4,..., Gm.
  • PCCr the correlation coefficient PCC obtained for the reference data set Dr is referred to as PCCr.
  • a correlation coefficient between data in the inspection target data set Dc is calculated.
  • the number of data belonging to each gene set is n + 1, but the same method as the calculation method for the reference data set Dr is used, and the PCC for the test target data set Dc is used. Is calculated.
  • the correlation coefficient PCC in the inspection target data set Dc is referred to as PCCc.
  • ⁇ Step of calculating differential correlation coefficient (ST5)> a differential correlation coefficient between the above-described correlation coefficients PCCr and PCCc is calculated. That is, the correlation coefficient PCCr between the set of genes g1 and g2 in the reference data set Dr, and the correlation coefficient PCCc between the set of genes g1 and g2 in the test data set Dc
  • the differential correlation coefficient ⁇ PCC absolute value of (PCCr ⁇ PCCc)
  • a differential correlation coefficient ⁇ PCC is calculated between the reference data set Dr and the test target data set Dc.
  • a differential correlation coefficient ⁇ PCC (FIG. 3) is generated between the reference data set Dr and the inspection target data set Dc. Calculated.
  • a differential correlation coefficient ⁇ PCC is calculated between the data sets Dr and Dc. In this way, the differential correlation coefficient ⁇ PCC is calculated between the reference data set Dr and the test target data set Dc for the corresponding combinations of the two sets of genes.
  • ⁇ PCC that exceeds a threshold value (which may be a fixed value or a variable value) is extracted from ⁇ PCC calculated in this way.
  • a threshold value which may be a fixed value or a variable value
  • the differential correlation coefficient network Nrc shown in FIG. 4 is constructed based on the selected ⁇ PCC. For example, if the differential correlation coefficient ⁇ PCC between the correlation coefficient PCC of the gene g1 and the correlation coefficient PCC of the gene g2 is extracted, a node G1 corresponding to the gene g1 and a node G2 corresponding to the gene g2 are obtained. The nodes G1 and G2 are connected by the branch B (linked). A similar operation is performed for all the extracted differential correlation coefficients ⁇ PCC, and a differential correlation coefficient network Nrc is constructed (FIG. 4).
  • ⁇ Step for obtaining index (ST6)> an average value of correlation coefficients with other nodes is calculated for each node (node).
  • the primary node is a node linked to the node of interest.
  • the nodes G2, G3, and G4 are linked to the node G1. Therefore, these nodes G2, G3, and G4 are primary nodes of the node G1.
  • the correlation coefficient between the nodes G1 and G2, the correlation coefficient between the nodes G1 and G3, and the correlation coefficient between the nodes G1 and G4 are averaged to obtain an average value sPCCin.
  • the correlation coefficient between the nodes G1 and G2 corresponds to the previously calculated differential correlation coefficient ( ⁇ PCC) between the genes g1 and g2. That is, the average value sPCCin in this example is an average value of ⁇ PCC between the genes g1 and g2, ⁇ PCC between the genes g1 and g3, and ⁇ PCC between the genes g1 and g4.
  • ⁇ PCC differential correlation coefficient
  • an average value sPCCout of correlation coefficients between the primary node and the secondary node related to the node of interest is calculated.
  • the secondary node is a node that is linked to the primary node of the target node and is not linked to the target node.
  • nodes G5, G6 and G7 linked to primary node G2 node G8 linked to primary node G3, node G9 linked directly to primary node G4 and G10 corresponds to a secondary node.
  • the primary node G2 and each of the secondary nodes G5, G6, and G7 between the primary node G3 and the secondary node G8, the primary node G4 and the secondary node G9, and A total of six correlation coefficients with each of G10 are averaged to obtain an average value sPCCout.
  • the correlation coefficient between nodes G2 and G5 corresponds to the differential correlation coefficient ⁇ PCC between genes g2 and g5 corresponding to these nodes, respectively.
  • the horizontal axis indicates the gene expression level
  • the vertical axis indicates the probability.
  • the expression level-probability curve Cr for the gene g1 in the reference data set Dr (that is, a plurality of biological data providers S1, S2,..., Sn) is indicated by a broken line.
  • the probability of the expression level of the gene g1 of the plurality of biological data providers S1, S2,..., Sn is distributed almost normally as shown in the graph GR, and the average value ⁇ r of the expression level is obtained from this distribution chart. It is done.
  • the data (expression level) of the gene Se of the subject Se is also shown by a solid line. If the expression level is ⁇ e , the average value ⁇ r can be expressed by
  • an index (score) Is for the node G1 (that is, the gene g1) is obtained from the average value sPCCin, the average value sPCCout, and the difference sED.
  • Is sED ⁇ sPCCin / sPCCout (1)
  • the index Is is then calculated in the same way for all nodes G2, G3,.
  • Step 7 ⁇ Step of selecting a biomarker (ST7)>
  • the plurality of indices Is calculated for all the nodes are sorted in descending order.
  • a predetermined number of indices Is are selected in descending order from the sorted indices Is.
  • the threshold value Vth may be defined and the index Is exceeding the threshold value Vth may be selected.
  • a node having a predetermined sED value for example, sED greater than a certain value
  • ⁇ PCC is calculated for the selected node, and an index may be calculated. .
  • the biomarker detection method of the first embodiment first, the phase between the factor items of the reference data set Dr obtained from the biometric data providers S1, S2,.
  • the relation number PCCr is calculated, and the correlation coefficient PCCc between each factor item of the test object data set Dc obtained by adding the subject data set De of the subject Se to the reference data set Dr is calculated.
  • the differential correlation coefficient ⁇ PCC is obtained, and the differential correlation coefficient ⁇ PCC exceeding the threshold value is extracted from the differential correlation coefficient ⁇ PCC, thereby constructing the differential correlation coefficient network Nrc.
  • SPCCin and sPCCout are calculated for each of all nodes of the differential correlation coefficient network Nrc.
  • a difference sED between the average value of the reference data set Dr for each factor item and the inspection target data set Dc is obtained.
  • the index Is is calculated by the equation (1) including sED, sPCCin, and sPCCout, and a gene corresponding to the index Is exceeding the threshold Vth is detected as a biomarker.
  • the biomarker is detected in that the subject Se is in a health state (although not apparent from the appearance), unlike the biometric data providers S1, S2,..., Sn (average). Because. This means that if the subject Se is in a good health state (point a) like the biometric data provider, the differential correlation coefficient ⁇ PCC between the data sets Dr and Dc becomes almost zero, and thus It is clear from the fact that the marker is not detected.
  • the transient state described above is a state in which the subject himself has no particular subjective symptom, but may immediately shift to an early disease state. . In such a state, it is generally known that fluctuations increase and there are variables that are strongly correlated with the fluctuations.
  • the factor item showing a large difference between the reference data set Dr and the inspection target data set Dc is considered to correspond to a biological factor in which the fluctuation of the value becomes large and its movement is strongly correlated in a transient state. It is done. Therefore, when the biomarker is detected, it can be determined that the health state of the subject Se is in a transitional state.
  • FIG. 5 is a table showing the results of the experiment. “N” in the table indicates that no biomarker was detected by the biomarker detection method according to the first embodiment, and “C” indicates a biomarker by the biomarker detection method according to the first embodiment. "S” indicates that the subject actually suffered from influenza. From this table, subjects Se2, Se3, etc. in which no biomarker was detected did not become diseased, and all subjects Se1, Se5, etc. in which biomarkers were detected subsequently became diseased. I understand that From this result, the beneficial effect of the biomarker detection method according to the first embodiment is clear.
  • the biomarker was detected after the nasal inoculation of the influenza virus to the subject, and the subject who detected the biomarker developed influenza. It can be said that it was found by detection. However, in general, it can be seen from the detection of the biomarker that the health condition is transient, or there is a sign that some kind of illness will develop, and a specific illness cannot be identified. If the corresponding factor item and the disease are associated with each other as in the above-described influenza experiment, it is possible to specify a disease that may develop later when the biomarker is detected. That is, the biomarker according to the first embodiment has an advantage that it can be a sign of developing a specific disease.
  • FIG. 6 is a block diagram illustrating a configuration example of the detection device according to the second embodiment.
  • the biomarker detection apparatus 1 illustrated in FIG. 6 includes a control unit 10, a storage unit 11, a storage unit 12, an input unit 13, an output unit 14, and an interface unit 15.
  • the control unit 10 is configured using a circuit such as a CPU (Central Processing Unit) and controls the entire detection apparatus 1.
  • the storage unit 11 includes a magnetic recording device such as an HDD (Hard Disk Disk Drive) and a non-volatile auxiliary recording device such as an SSD (Solid State Disk).
  • the storage unit 11 stores various programs including the detection program 11a according to the embodiment of the present invention.
  • the detection program 11a includes an instruction (code) that causes the detection apparatus 1 to perform the biomarker detection method according to the first embodiment.
  • the detection program 11a can be stored in the computer-readable storage medium 13a, and the detection program 11a can be installed in the storage unit 11 from the computer-readable storage medium 13a through the input unit 13, for example.
  • the computer-readable storage medium 13a includes a hard disk drive (HDD), a solid-state drive (SSD), a random access memory (RAM), a read-only memory (ROM), an erasable programmable ROM (EPROM or flash memory device), and a compact. It may be a non-transitory or tangible computer-readable storage medium including an optical disk storage medium such as a disk ROM (CD-ROM) and a digital versatile disk ROM (DVD-ROM), a magnetic storage medium, and the like.
  • CD-ROM disk ROM
  • DVD-ROM digital versatile disk ROM
  • the storage unit 11 can record the reference data set Dr described in the first embodiment.
  • the reference data set Dr may be input and recorded in the storage unit 11 through the input unit 13 or may be input and recorded from an external database or the like through the interface unit 15.
  • the storage unit 12 includes a volatile storage device such as SDRAM (Synchronous Dynamic Random Access Memory) and SRAM (Static Random Access Memory).
  • the storage unit 12 can store the subject data set De (FIG. 3) described in the first embodiment.
  • the subject data set De may be preferably stored in the storage unit 12 through the input unit 13.
  • the reference data set Dr recorded in the storage unit 11 is read to the control unit 10 and stored in the storage unit 12.
  • the subject data set De being read can be read out to the control unit 10, and the control unit 10 can add the subject data set De to the reference data set Dr.
  • the generated inspection object data set Dc may be stored in the storage unit 12.
  • the input unit 13 includes hardware such as a keyboard, mouse, input / output (I / O) device, and software such as a driver.
  • the I / O device can access the computer-readable storage medium 13a.
  • the output unit 14 includes hardware such as a display and a printer, and software such as a driver.
  • the interface unit 15 acquires various data from the outside. Specifically, since the interface unit 15 captures data via a communication network, a dedicated line such as a port to which a LAN (Local Area Network) cable is connected or a parallel cable connectable to a measuring device is connected. Hardware such as ports and software such as drivers.
  • a dedicated line such as a port to which a LAN (Local Area Network) cable is connected or a parallel cable connectable to a measuring device is connected.
  • Hardware such as ports and software such as drivers.
  • the detection program 11 a recorded in the storage unit 11 is stored in the storage unit 12 and executed based on the control of the control unit 10, thereby functioning as the detection device 1 according to the second embodiment.
  • the storage unit 11 and the storage unit 12 are individually configured.
  • the storage unit 11 and the storage unit 12 may be configured by one piece of hardware. That is, different areas in one piece of hardware may be used as the storage unit 11 and the storage unit 12.
  • the control unit 10, the storage unit 11, the storage unit 12, the input unit 13, the output unit 14, and the interface unit 15 configuring the detection device 1 may be installed in a single casing or in the same place. Each or a part of these components may be installed in one or a plurality of cases at different locations and connected via a wired or wireless network. Various processes executed by the detection apparatus 1 may be executed using cloud computing via a network such as the Internet.
  • a plurality of detection devices 1 may be installed, and various processes including the above-described biomarker detection method may be executed in parallel.
  • each component of the detection device 1 may be configured by a plurality of units (for example, two control units 10 and two storage units 11), and various processes may be executed in parallel.
  • Such parallel processing can increase the speed, and if data is stored in parallel, the capacity can be increased and the speed can be increased.
  • parallel processing is executed while sharing data between a hospital and an inspection organization other than the hospital, it is possible to improve the efficiency of inspection and diagnosis for more patients.
  • the biomarker detection method according to the first embodiment preferably uses a high-throughput technique, and it is better to use an apparatus that can handle the high-throughput technique.
  • FIG. 7 is a flowchart showing a biomarker detection method according to the third embodiment.
  • the biomarker detection method includes a step of acquiring high-throughput data (ST11), a step of selecting differential factors (ST12), and a step of clustering ( ST13) and a step of selecting a biomarker (ST14).
  • high throughput data is obtained at different time points from the subject Se.
  • a biological sample is collected from the subject Se a plurality of times in time series.
  • count which collects a biological sample 5 times or more are desirable, for example.
  • the interval between each time may be set to several days, weeks, months, or years, for example, minutes or hours depending on the condition of the disease. From each of the plurality of biological samples obtained in this way, gene expression levels as factor items are obtained as high-throughput data by a high-throughput technique.
  • a differential factor is selected from the acquired high throughput data. That is, differential genes are selected from 20,000 or more gene data acquired from one biological sample by a high-throughput technique.
  • the differential gene is a gene that shows a significant change in the expression level.
  • the selection is performed as follows. First, a biological sample collected for the first time among a plurality of biological samples is used as a control sample. For convenience of explanation, the data acquired from this control sample is referred to as Ddmc, and the gene data of the biological sample collected the second time is referred to as Ddm.
  • gene Ddm1 a gene showing a marked change in the expression level as compared with the data Ddmc of the control sample is selected.
  • this gene is referred to as gene Ddm1.
  • Student's t-test is used to select the gene Ddm1, but in other embodiments, other test methods such as Mann-Whitney U-test can be applied. is there. Such a test by the nonparametric method is particularly effective when the Ddm as a population does not follow a normal distribution. Also, in the case of Student's t-test, the value of the significance level ⁇ can be appropriately set to a value such as 0.05 or 0.01.
  • the differential factors (differential genes) selected in the step of selecting differential factors (ST12) are classified into a plurality of clusters.
  • this step (ST12) first, a gene Ddm1 that showed a significant change in the expression level compared to the data Ddmc of the control sample is subjected to multiple comparisons (Multiple Multiplex) using an false expression rate FDR (False Discovery Rate).
  • Gene Ddm2 (not shown) is obtained by performing Comparisons) or by correcting the Student's t-test.
  • a gene whose standard deviation SD changes relatively remarkably is selected as a differential gene Dsm (FIG. 8) from the gene Ddm2 (ST12). .
  • the differential gene Dsm selected here not only shows a significant difference compared to the data Ddmc of the control sample, but also deviates greatly from its own average value.
  • the correlation coefficient between the differential genes Dsm is calculated.
  • genes gn1, gn2, gn3,..., Gnp have been selected as differential genes Dsm.
  • the data (expression amount) of the gene gn1 is gn11, gn12, gn13,..., Gn1p in order at the time points t1, t2, t3,.
  • a set CL1m having a number of elements: ⁇ gn11, gn12, gn13,..., Gn1p ⁇ is obtained.
  • correlation coefficients are calculated between every pair of sets of all gene sets CL1m, CL2m, CL3m,..., CLpm.
  • This correlation coefficient may be a Pearson correlation coefficient (PCC).
  • PCC Pearson correlation coefficient
  • those exceeding the threshold are selected, and a network is constructed based on the selected PCC, for example.
  • a node Gn1 corresponding to the gene gn1 and a node Gn2 corresponding to the gene gn2 are set, and these nodes Gn1 and Gn2 are set to branch B. It is linked with.
  • a similar operation is performed on all PCCs exceeding the threshold value, and the network Nm shown in FIG. 8 is constructed.
  • clustering is a process of classifying a plurality of biomolecules into groups highly correlated with each other, and each group into which biomolecules are classified is referred to as a cluster. That is, the above-mentioned differential gene Dsm is classified into n clusters so that biomolecules highly correlated with each other are made into one cluster.
  • the number of clusters and the number of nodes included in the cluster are not limited to the example of FIG.
  • the number of clusters may be three or more in total, and one cluster may include five or more nodes.
  • an increase in correlation between factor items inside the cluster The cluster with the most significant increase in the standard deviation of the factor items and the reduction in the correlation between the factor items inside and outside the cluster is selected as the biomarker.
  • an average value PCCin of correlation coefficients between nodes inside the cluster (hereinafter referred to as an internal PCC average value) is calculated, and between the nodes inside and outside the cluster is calculated.
  • An average value PCCout of correlation coefficients (hereinafter referred to as an inside / outside PCC average value) is calculated, and a standard deviation SDin of an inner node is calculated.
  • a cluster C including nodes Gn1, Gn2, and Gn3 is formed. Focusing on the cluster C, the correlation coefficient between the nodes Gn1 and Gn2 inside the cluster C (that is, the correlation coefficient PCC between the genes gn1 and gn2) and the correlation coefficient between the nodes Gn2 and Gn3 ( Correlation coefficient PCC between genes gn2 and gn3) and correlation coefficient between nodes Gn3 and Gn1 (correlation coefficient PCC between genes gn3 and gn1) are averaged to obtain an internal PCC average value PCCin. It is done.
  • a correlation coefficient (correlation coefficient PCC between the genes gn1 and gn4) between the node Gn1 and a node Gn4 that is directly connected to the node Cn but outside the cluster C, the node Gn2, and the node Gn2 directly
  • a correlation coefficient between the node Gn5 outside the cluster C but connected to the node (correlation coefficient PCC between the genes gn2 and gn5), and outside the cluster C of the node Gn3 and those directly connected thereto
  • a total of four correlation coefficients are averaged, such as the correlation coefficient between each node Gn6 and Gn7 (correlation coefficient PCC between genes gn3 and gn6, correlation coefficient PCC between genes gn3 and gn7)
  • the inside / outside PCC average value PCCout is obtained.
  • the index Im of the cluster C is calculated according to the following equation (2).
  • Im SDin ⁇ PCCin / PCCout (2)
  • the same calculation is performed for all clusters, and the cluster that provides the largest index Im (or a gene group corresponding to a node belonging to the cluster) is selected as a biomarker. Note that, for the same node (group), the number of clusters and the number of nodes included in the cluster may be changed, and the same calculation may be repeated a plurality of times to find a cluster that provides a larger index Im.
  • index Im of each cluster may be a biomarker. It is also conceivable to calculate an index for each gene without performing clustering, and the index is calculated using the standard deviation SD calculated when selecting the differential gene Dsm in step ST12 described above. can do.
  • a plurality of indices It calculated for all nodes (differential genes Dsm) are sorted in descending order, and a predetermined number of indices It is selected in descending order from the sorted indices It. Thereby, a gene corresponding to the selected predetermined number of indices It is detected as a biomarker.
  • gene data (expression level) is obtained from a plurality of biological samples collected in time series from the subject Se, and the difference among the data is obtained.
  • the next gene Dsm is selected.
  • a correlation coefficient PCC is obtained for the differential gene Dsm, and a network Nm is constructed based on the correlation coefficient PCC.
  • the nodes constituting the network Nm are grouped into clusters, the index Im is calculated for each cluster, and the gene corresponding to the node included in the cluster having the maximum value is selected as a biomarker.
  • the index is calculated by the above formula (3) using the standard deviation SD calculated when selecting the differential gene Dsm (step ST12). It can be calculated. Since the standard deviation SD is a variable that can express that the expression level of the gene of interest has increased or has increased rapidly, it can be substituted for sED in equation (1).
  • a differential factor (gene Dsm showing a significant change in expression level) is selected, a correlation coefficient between them is calculated, clustered, and the index Im is maximum for the cluster.
  • the index It is used using the standard deviation SD calculated when selecting a differential factor. (Equation (3)) is calculated, and a predetermined number of indices It or two or more is selected in descending order, so that a plurality of nodes strongly correlated with each other can be obtained.
  • a transient state it is generally known that fluctuations increase and there is a variable in which the fluctuations are strongly correlated. Therefore, it can be seen that the subject Se is in a transitional state when the biomarker is detected by the biomarker detection method according to the third embodiment.
  • the biomarker detection method according to the fourth embodiment is different from the biomarker detection method according to the first embodiment in that the biological sample of the subject Se is collected. Specifically, in the biomarker detection method of the first embodiment, the number of biological samples collected from the subject Se was one, but in the biomarker detection method of the fourth embodiment, Collected multiple times over time.
  • the biomarker detection method of the fourth embodiment will be described focusing on the differences.
  • a subject data set Dem acquired from biological samples collected from the subject Se at different time points t1, t2, and t3 is obtained.
  • the number of times of collecting the biological sample is 3 times, but it is preferably 5 times or more, for example. Further, the interval between each time may be set to several days, weeks, months, or years, for example, minutes or hours depending on the condition of the disease.
  • the subject data set Dem is added to the reference data set Dr prepared in advance as in the first embodiment, and the examination target data set Dcm is created.
  • the number of data belonging to each gene set in the test target data set Dcm is n + 3.
  • the correlation coefficient PCCr between the data in the reference data set Dr. And a correlation coefficient PCCc between the data in the inspection object data set Dcm, and a differential correlation coefficient ⁇ PCC between them is calculated.
  • ⁇ PCC exceeding the threshold is extracted from ⁇ PCC, and the differential correlation coefficient network Nrc shown in FIG. 4 is constructed.
  • the average value sPCCin of the correlation coefficient between the focused node and the primary node, and the focused node, as in the step of obtaining the index (ST6) in the first embodiment The average value sPCCout of the correlation coefficient between the primary node and the secondary node is obtained.
  • the graph GRm shows an expression level-probability curve for the gene g1 with a broken line.
  • an expression level-probability curve Cr for the gene g1 in the reference data set Dr and an expression level-probability curve Ce for the gene g1 in the subject data set Dem are shown.
  • the average value ⁇ r represents the average value of the expression level-probability curve Cr
  • the average value ⁇ e represents the average value of the expression level-probability curve Ce. From this graph, the difference sED (
  • the index Is for the node G1 (that is, the gene g1) is obtained from the average value sPCCin, the average value sPCCout, and the difference sED.
  • the index Is is similarly calculated for all the nodes G2, G3,..., G10 (that is, the corresponding genes g2, g3,..., G10).
  • a plurality of indices Is calculated for all nodes are sorted in descending order.
  • a predetermined number of indices Is are selected in descending order from the sorted indices Is.
  • a gene corresponding to the selected predetermined number of indices Is is detected as a biomarker.
  • the number of indices Is selected may be determined by setting a threshold value, and an index Is exceeding the threshold value may be selected.
  • the differential correlation coefficient ⁇ PCC between the correlation coefficient PCCr between the factor items of the reference data set Dr and the correlation coefficient PCCc between the factor items of the test target data set Dcm Since the biomarker can be detected from the index based on this, the same effect as the biomarker detection method according to the first embodiment is exhibited.
  • determination on a certain disease determination of whether the state is just before becoming sick or just before reversing from the disease) )It can be performed.
  • a test is performed on a person to be determined, a biomarker is calculated from the collected biological sample, and the obtained biomarker is compared with a biomarker that has already been searched.
  • a biomarker gene group that has already been searched and corresponds to a predetermined disease a higher-level gene group or a gene group that has been specified in advance, and the gene group may include one gene
  • It is determined whether or not it is included in the obtained biomarker. This determination may be made automatically by, for example, the biomarker detection apparatus according to the second embodiment, or may be made by a doctor.
  • you may show the information which concerns on the said disease. Thereby, it can be determined whether the person is in a state immediately before the predetermined illness or in a state immediately before recovery from the predetermined illness.
  • the reference data set Dr is prepared before collecting the biological sample of the subject Se.
  • the reference sample of the biological sample of the subject Se is used. It may be prepared after collection or after a subject data set De relating to genes g1, g2, g3,..., Gm is acquired from this biological sample.
  • the reference data set Dr may be created in advance and registered in the database. In this way, the reference data set Dr can be prepared by downloading from the database to the storage unit 11 through the interface unit 15 as necessary.
  • the index Is is calculated according to the equation (1).
  • the denominator (sPCCout) of this equation is set to 1 (that is, the index Is is calculated based only on the numerator).
  • biomarkers can be selected.
  • the subject Se is in a transitional health state is examined on the assumption that the health is apparently good.
  • the subject Se has a specific disease.
  • a patient suffering from the same disease as the subject Se can become the biometric data providers S1, S2,.
  • the biomarker is detected from the subject Se
  • the health of the subject Se is good from the disease state (point d or c in FIG. 1) (point a in the drawing). It is estimated that the subject Se is heading for recovery.
  • the specific disease is not limited to a certain disease, and may be any disease.
  • the patient who is receiving the same treatment receives the biometric data providers S1, S2,. Can also be.
  • the biomarker is detected from the subject Se, the treatment is effective for the subject Se, and the disease state (point d or c in FIG. 1) is improved from the disease state (point d or c in FIG. 1). It is in a transitional state toward point a) in the figure, and it is estimated that the subject Se is heading for recovery.
  • the health of the subject Se is from a good state (point a in the figure). It can be seen that there is a transitional state (point b in FIG. 1) toward the disease state (point d or c in FIG. 1). On the contrary, if the biomarker is detected when the subject Se is in a disease state, the health of the subject Se is in a transitional state, and the subject Se is heading for recovery. Is guessed.
  • the biomarker detection method it is also possible to confirm whether or not a drug is effective. Therefore, it is possible to correctly determine whether or not treatment can be continued.
  • the biomarker detection method according to the fourth embodiment may be implemented in the biomarker detection apparatus 1 according to the second embodiment.
  • a biomarker detection program that causes the detection apparatus 1 to execute the biomarker detection method according to the fourth embodiment may be recorded in the storage unit 11.
  • This detection program may be recorded on a non-transitory or tangible computer-readable storage medium.
  • a subject data set Dem is created from a plurality of data acquired in a time series from a biological sample of the subject Se, and this is added to the reference data set Dr for examination.
  • the target data set Dcm has been created, in other embodiments, data at different points in time can be used alone. That is, the biomarker detection method according to the first embodiment may be performed every time a biological sample is collected at different time points. More specifically, when the biological sample is collected from the subject Se at the time point t1, the biomarker detection method according to the first embodiment is performed, and this is repeated at each of the time points t2, t3,. You may do it.
  • Such a detection method can also be implemented by the above-described detection apparatus 1 by a detection program, and this detection program may be recorded on a non-transitory or tangible computer-readable storage medium.
  • the example in which the differential correlation coefficient network Nrc or the network Nm is constructed has been described, but the correlation coefficient between the nodes is calculated without constructing the network. Therefore, the network does not necessarily have to be constructed.
  • the example in which the index Is is calculated for the differential correlation coefficient network Nrc using the formula (1) has been described.
  • the nodes of the differential correlation network Nrc are clustered and the formula (2 ) To calculate the index Im and select a biomarker. That is, in the biomarker detection methods according to the first and fourth embodiments, when the index Is is calculated using the equation (1) for the differential correlation coefficient network Nrc, the nodes of the differential correlation coefficient network Nrc are clustered.
  • the differential factor is selected from the high-throughput data acquired by the high-throughput technique in the third embodiment, the differential factor may be selected also in the first and fourth embodiments. Further, using the above-described sED, for example, a factor having an sED greater than a predetermined value may be selected as a differential factor.
  • a gene expression level
  • a predetermined test item in blood test (measurement item such as protein, cholesterol, blood glucose level, etc.) regardless of the gene.
  • the measurement items for metabolites, etc.) can be used.
  • the biological sample is not limited to blood, but may be saliva, sweat, or excretions such as urine and stool. It may be a tissue (eg, liver tissue in the case of liver damage).
  • the biomarker detection method according to the present invention can be carried out in general hospitals or university hospitals, etc., but by a laboratory outside the hospital, a private company that provides blood diagnostic services or genetic diagnosis services for individuals, etc. May also be implemented.
  • the biomarker detection apparatus and detection program according to the present invention can be used in such inspection institutions and companies.
  • the biomarker detection method, detection apparatus, and detection program according to the present invention can be applied not only to human beings but also to living organisms such as animals in general.
  • the biomarker detection method according to the present invention can detect a sign of transition from a good state to the disease state (transient state). That is, the method for detecting a biomarker according to the present invention has an advantage that it is possible to avoid getting a disease at an early stage.
  • biomarkers are chemical substances contained in body fluids and tissues such as serum and urine collected from a living body, and can be specified by molecular formulas or characteristics.
  • the biomarker according to the present invention differs depending on the subject and the disease, and since its presence is revealed only after it is detected, it is almost impossible to directly specify the structure (molecular formula, etc.) and characteristics, It differs from conventional biomarkers in that it is not practical.
  • the biomarker according to another embodiment of the present invention is a biomarker detection method that detects a biomarker that is an indicator of a state of a living body based on data obtained by measurement related to the living body, and includes a plurality of biomarker detection methods.
  • Prepare a reference data set based on the data obtained from each of the reference living bodies add the target living body data obtained from the target living body to the reference data set, and generate a target data set.
  • a first correlation coefficient is obtained between the factor items
  • a second correlation coefficient is obtained among a plurality of factor items in the target data set
  • the first correlation coefficient and the second correlation coefficient are obtained.
  • the biomarker detection method and the biomarker detection program according to the above-described embodiment specifically find an index indicating that the subject is in a transitional state (indicating a sign of a disease state).
  • a transitional state indicating a sign of a disease state
  • conventional biological data processing that has been conventionally known is not simply performed by a computer.
  • the biomarker described above is sometimes called a dynamic network biomarker (DNB).
  • DNB dynamic network biomarker
  • D data Dc, Dcm Examination target data set De Dem Subject data set Dr Reference data set g1, g2, ..., gm gene G1, G2, G3, G4, ..., G10 node Nrc, Nm Differential phase Relationship number network Se Subject S1, S2,..., Sn Biometric data provider 1 Detection device 10 Control unit 11 Storage unit 11a Detection program 12 Storage unit 13 Input unit 13a Computer-readable storage medium 14 Output unit 15 Interface unit

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Cell Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)

Abstract

バイオマーカー検出方法は、複数の参照生体のそれぞれから得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを用意し(ST1)、対象生体から得られた対象生体データの中の複数の因子項目のデータを参照データセットに追加して対象データセットを生成し(ST2)、参照データセットの中の複数の因子項目の間で第1の相関係数を求め(ST3)、対象データセットの中の複数の因子項目の間で第2の相関係数を求め(ST4)、第1の相関係数と第2の相関係数との差分である差分相関係数を求め(ST5)、複数の因子項目のそれぞれについて、差分相関係数に基づく指標を求め(ST6)、指標に基づいてバイオマーカーを選択する(ST7)といった工程を含む。

Description

バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム
  本発明は、生体に対する測定により得られた因子項目のデータに基づいて、生体の状態を示すバイオマーカーを検出するバイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラムに関する。
 生体の状態(例えば健康状態等)は、気候システム、生態システム、経済システム等の複雑システムと同様に、ある過渡点(分岐点)を超えると、良好又は正常(以下、単に「良好」と呼ぶ)な状態から疾病状態に急激に変化することが知られている(特許文献1及び非特許文献1~5)。また、複雑システムでは、過渡点において、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。その一因として、システムを安定に維持するための回復力が低下し、外乱に対し脆弱となっていることが挙げられる。
 以下、図1を参照しながら、人が病気になる場合を例に説明する。図1は、疾病の進行プロセスを示す概略図である。図1において、縦軸は健康状態を概念的に表し、矢印と反対の方向(下向きの方向)に向かうほど健康状態が悪くなることを示している。また、横軸は時間を表している。図中の点aは、ある人の健康状態が良好であることを示している。この場合、本人には自覚症状がなく、従来の健康診査での検査結果にも特段の異常は見られない。図1に示すように、時間の経過とともに健康状態が悪化しても、その変化は極めて緩やかなため、依然として、体調の変化を感じることはない。しかし、緩やかな悪化が続き、図中の点bで示す過渡的な状態(健康と病気の間の状態)に達すると、健康状態は急激(あるは緩慢な場合もある)に悪化し、早期疾病状態に至たる(点c)。この状態に至ると、本人も体の不調を感じることができるようになり、やがて疾病状態(点d)に陥る。ここにいう過渡的な状態(点b)は、本人には特段の自覚症状がないが、直ちにでも早期疾病状態に移行してしまう可能性が高い状態である。
国際公開第2014/050160号
Jose G. Venegas, Tilo Winkler, Guido Musch, Marcos F. Vidal Melo, Dominick Layfield, Nora Tgavalekos, Alan J. Fischman, Ronald J. Callahan, Giacomo Bellani, and R. Scott Harris,"Self-organized patchiness in asthma as a prelude to catastrophic shifts,"Nature 434,Nature Publishing Group,pp. 777-782 (2005) Patrick E. McSharry, Leonard A. Smith, and Lionel Tarassenko,"Prediction of epileptic seizures: are nonlinear methods relevant?,"Nature Medicine 9,Nature Publishing Group,pp. 241-242 (2003) Roberto Pastor‐Barriuso, Eliseo Guallar, and Josef Coresh,"Transition models for change-point estimation in logistic regression,"Statistics in Medicine 22(7),Wiley-Blackwell,pp. 1141-1162 (2003) Paek SH et al. "Hearing preservation after gamma knife stereotactic radiosurgery of vestibular schwannoma,"Cancer 104,Wiley-Blackwell,pp. 580-590 (2005) Liu, J.K., Rovit, R.L., and Couldwell, W.T.,"Pituitary Apoplexy," Seminars in Neurosurgery 12,Thieme, pp. 315-320 (2001)
 ところで、人が病院へ行くのは、多くの場合、体調不良を自覚してから、すなわち、過渡的な状態(点b)を過ぎて早期疾病状態(点c)や疾病状態(点d)に至ってからである。病院では、検査や画像診断などが行なわれる。このような診断では、殆どの場合、検査や画像診断で異常が見つかったときには、診察を受けた人が既に病気に罹ってしまっている。 
 一方、上述の過渡的な状態(点b)を把握(早期発見)することができれば、この時点で治療することにより(早期治療)、早期疾病状態(点c)に達するのを防ぐことができ(つまり、病気にならなくて済み)、良好な健康状態(点a)を維持できることが推測される。
 本発明は、上記の事情に鑑み、疾病状態へ遷移する前の過渡的な状態(健康と病気の間の状態)を検出することができる、バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラムを提供する。
 本発明の第1の態様は、生体に関する測定により得られたデータに基づいて、生体の状態の指標となるバイオマーカーを検出するバイオマーカー検出方法を提供する。このバイオマーカー検出方法は、1又は2以上の参照生体から得られたデータに基づく参照データセットを用意し、対象生体から得られた対象生体データを参照データセットに追加して対象データセットを生成し、参照データセットの中の複数の因子項目の間で第1の相関係数を求め、対象データセットの中の複数の因子項目の間で第2の相関係数を求め、第1の相関係数と第2の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する工程を含んでいる。
 本発明の第2の態様は、生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置を提供する。このバイオマーカー検出装置は、1又は2以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第1の記憶部と、対象生体から得られた対象生体データの中の複数の因子項目のデータを参照データセットに追加して対象データセットを生成し、記憶する第2の記憶部と、第1の記憶部に記憶される参照データセットの中の複数の因子項目の間で第1の相関係数を求め、第2の記憶部に記憶される対象データセットの中の複数の因子項目の間で第2の相関係数を求め、第1の相関係数と第2の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する制御部とを含んでいる。
 本発明の第3の態様は、上述のバイオマーカー検出方法を上述のバイオマーカー検出装置に実行させる命令を含むバイオマーカー検出プログラムを提供する。
 本発明の実施形態によれば、次の効果を得ることが出来る。(1)疾病状態へ遷移する前の過渡的な状態を示す指標(新しいバイオマーカー)を特定できる、また、(2)その指標を使って早期診断ができる。
良好な健康状態から疾病状態への移行プロセスを説明する模式図である。 本発明の第1の実施形態によるバイオマーカーの検出方法を説明するフローチャートである。 第1の実施形態のバイオマーカーの検出方法を説明する模式図である。 図3に引き続き、第1の実施形態のバイオマーカーの検出方法を説明する模式図である。 第1の実施形態のバイオマーカーの検出方法を検証するために行った実験の結果を示すグラフである。 本発明の第2の実施形態によるバイオマーカーの検出装置の構成を示すブロック図である。 本発明の第3の実施形態によるバイオマーカーの検出方法を説明するフローチャートである。 本発明の第3の実施形態によるバイオマーカーの検出方法を説明する模式図である。 本発明の第4の実施形態によるバイオマーカーの検出方法を説明する模式図である。
  以下、添付の図面を参照しながら、本発明の限定的でない例示の実施形態について説明する。添付の全図面中、同一または対応する部材または部品については、同一または対応する参照符号を付し、重複する説明を省略する。 
 (第1の実施形態)
 以下、図2から図5までを参照しながら、本発明の第1の実施形態によるバイオマーカーの検出方法を説明する。図2は、第1の実施形態によるバイオマーカーの検出方法を説明するフローチャートであり、図3及び図4は、第1の実施形態によるバイオマーカーの検出方法を示す模式図である。 
 第1の実施形態によるバイオマーカーの検出方法は、図2に示すように、参照データセットを用意するステップ(ST1)、検査対象データセットを生成するステップ(ST2)、第1の相関係数を計算するステップ(ST3)、第2の相関係数を計算するステップ(ST4)、差分相関係数を計算するステップ(ST5)、指標を求めるステップ(ST6)、バイオマーカーを選択するステップ(ST7)を含んでいる。
 <参照データセットを用意するステップ(ST1)>
 初めに参照データセットDr(図3)が用意される。参照データセットDrは、バイオマーカーの検出のための参照用のデータとして用いられるデータの集合である。参照データセットDrは、複数の生体データ提供者S1、S2、・・・、Snの各々に対し生体に関する測定、すなわち生体に対して測定を行うことにより用意される。生体データ提供者S1、S2、・・・、Snには、通常は第1の実施形態によるバイオマーカーの検出方法の検査対象者Se(以下、被検者Seと呼ぶ)は含まれないが、含まれる場合も考えられる。 
 また、第1の実施形態においては、生体データ提供者S1、S2、・・・、Snは良好な健康状態にあり、これらの人々から生体サンプル(例えば血液)が採取される。ここで、良好な健康状態にある生体データ提供者とは自覚症状がない人であって良く、健康診断などにより健康と判断されることは要しない。ただし、特定の病気に罹っている可能性が高いことが判明している人は、生体データ提供者にはなれない。また、生体データ提供者S1、S2、・・・、Snの人数は、特に限定されることはないが、例えば少なくとも8人であると好ましく、例えば10人以上であると更に好ましい。
 各生体サンプルに対して測定かつ/又は所定の処理が行われ、第1の実施形態においては、因子項目としての遺伝子g1、g2、・・・、gmに関するデータD(発現量)が取得される。この場合、生体サンプルは、DNAチップなどのハイスループット技術により処理されることが好ましい。ハイスループット技術によれば、1つの生体サンプルから2万個以上の遺伝子の発現量を測定することが可能である。取得された遺伝子発現量のデータは、説明の便宜上、図3に示すようにマトリックス状にまとめられるものとする。このマトリックス状の参照データセットDr内の各四角(□)が、生体データ提供者S1の遺伝子g1の発現量データ、遺伝子g2の発現量データ、・・・、遺伝子gmの発現量データを模式的に示している。
 <検査対象データセットを生成するステップ(ST2)>
 次に、被検者Seからも同様に生体サンプルが採取され、遺伝子g1、g2、g3、・・・、gmに関する被検者データセットDeが取得される(図3)。その後、先に用意された参照データセットDrが複製され、複製された参照データセットDrに被検者データセットDeを追加することにより、検査対象データセットDcが作成される。
 <第1の相関係数を計算するステップ(ST3)>
 次いで、参照データセットDr内のデータ間の相関係数が計算される。図3から分かるように、参照データセットDrにおいては、遺伝子g1について、生体データ提供者S1、S2、・・・、Snのn人に対応したn個のデータが存在している。同様に、遺伝子g2についてもn個のデータが存在している。まず、遺伝子g1の集合CL1rと、遺伝子g2の集合CL2rとの間で相関係数が計算される。第1の実施形態では、2つの集合の間でピアソンの積率相関係数(PCC)が計算される。続けて、遺伝子g1の集合と、遺伝子g3、g4、・・・、gmの各集合との間でも、それぞれPCCが得られる。 
 さらに続けて、遺伝子g2の集合と、遺伝子g3、g4、・・・、gmの各集合との間でもPCCが得られ、遺伝子g3の集合と、遺伝子g4、g5、・・・、gmの各集合との間でもPCCが得られる。このようにして、遺伝子g1、g2、g3、・・・、gmの集合のうちのあらゆる一対の集合の間でPCCが得られる。なお、説明の便宜上、参照データセットDrについて得られた相関係数PCCをPCCrと呼ぶ。
 <第2の相関係数を計算するステップ(ST4)>
 次に、検査対象データセットDc内のデータ間の相関係数が計算される。図3に示すように、検査対象データセットDcでは各遺伝子の集合に属するデータの数はn+1となるが、参照データセットDrについての計算方法と同じ方法が用いられ、検査対象データセットDcについてPCCが計算される。説明の便宜上、検査対象データセットDcにおける相関係数PCCをPCCcと呼ぶ。
 <差分相関係数を計算するステップ(ST5)>
 この後、上述の相関係数PCCr及びPCCcの差分相関係数が計算される。すなわち、参照データセットDrにおける遺伝子g1の集合と遺伝子g2の集合との間の相関係数PCCrと、検査対象データセットDcにおける遺伝子g1の集合と遺伝子g2の集合との間の相関係数PCCcとの差分相関係数ΔPCC((PCCr-PCCc)の絶対値)が計算される。次いで、遺伝子g1(の集合)と遺伝子g3(の集合)との相関係数に関して、参照データセットDrと検査対象データセットDcとの間で差分相関係数ΔPCCが計算される。続けて、遺伝子g1と、遺伝子g4、g5、・・・、gmのそれぞれとの相関係数に関し、参照データセットDrと検査対象データセットDcとの間で差分相関係数ΔPCC(図3)が計算される。同様に、遺伝子g2と、遺伝子g3、g4、・・・、gmのそれぞれとの相関係数に関しても、データセットDr、Dcの間で差分相関係数ΔPCCが計算される。このようにして、参照データセットDrと検査対象データセットDcの間で、2組の遺伝子の集合ごとの対応する組み合わせについて、差分相関係数ΔPCCが計算される。
 次に、このようにして計算されたΔPCCのうち、閾値(固定値であっても変数値であっても良い)を超えたΔPCCが抽出される。ここで、説明の便宜上、選択されたΔPCCに基づいて図4に示す差分相関係数ネットワークNrcが構築されるものとする。例えば、遺伝子g1の相関係数PCCと遺伝子g2の相関係数PCCとの間の差分相関係数ΔPCCが抽出されたとすると、遺伝子g1に対応するノードG1と、遺伝子g2に対応するノードG2とが設定され、これらのノードG1、G2が枝Bで接続されている(リンクされる)。同様の操作が、抽出されたすべての差分相関係数ΔPCCについて行われ、差分相関係数ネットワークNrcが構築される(図4)。
 <指標を求めるステップ(ST6)>
 次に、ノード(結節点)のそれぞれについて、他のノードとの相関係数の平均値が計算される。まず、着目するノードと、そのノードについての1次のノードとの間の相関係数の平均値sPCCinが計算される。ここで1次のノードとは、着目するノードにリンクするノードである。例えば、図4のノードG1に着目すると、ノードG2、G3、及びG4がノードG1にリンクしている。よって、これらのノードG2、G3、及びG4がノードG1の1次のノードである。ノードG1及びG2の間の相関係数と、ノードG1及びG3の間の相関係数と、ノードG1及びG4の間の相関係数とが平均化され、平均値sPCCinが得られる。
 なお、例えばノードG1及びG2の間の相関係数は、先に計算された遺伝子g1及びg2の間の差分相関係数(ΔPCC)に相当する。すなわち、この例における平均値sPCCinは、遺伝子g1及びg2の間のΔPCCと、遺伝子g1及びg3の間のΔPCCと、遺伝子g1及びg4の間のΔPCCとの平均値である。 
 また、図4のノードG5に着目した場合、ノードG5は1つのノードG2のみがリンクしている。この場合は平均ではなく、ノードG5及びG2の間の相関係数をsPCCinとして用いても良い。
 次いで、着目するノードに関する1次のノードと2次のノードとの間の相関係数の平均値sPCCoutが計算される。ここで2次のノードとは、着目するノードの1次のノードにリンクするノードであって、着目するノードにリンクしていないノードである。図4のノードG1に関しては、1次のノードG2にリンクするノードG5、G6、及びG7と、1次のノードG3にリンクするノードG8と、1次のノードG4に直接にリンクするノードG9及びG10とが2次のノードに相当する。よって、1次のノードG2と2次のノードG5、G6、及びG7のそれぞれとの間、1次のノードG3と2次のノードG8の間、1次のノードG4と2次のノードG9及びG10のそれぞれとの間の合計6つの相関係数が平均化され、平均値sPCCoutが得られる。 
 ここでも、例えばノードG2及びG5の間の相関係数は、これらのノードにそれぞれ対応する遺伝子g2及びg5の間の差分相関係数ΔPCCに相当する。
 ここで再び図3を参照する。グラフGRにおいて、横軸が遺伝子の発現量を示し、縦軸が確率を示している。グラフGRには、参照データセットDr中の(すなわち、複数の生体データ提供者S1、S2、・・・、Snの)遺伝子g1についての発現量-確率曲線Crが破線で示されている。複数の生体データ提供者S1、S2、・・・、Snの遺伝子g1の発現量の確率はグラフGRに示すように、ほぼ正規に分布し、この分布図から発現量の平均値χが求められる。また、グラフGRには被検者Seの遺伝子g1のデータ(発現量)も実線で示されており、その発現量をχとすると、|χ-χ|により平均値χとの差sEDが得られる。
 次に、以下の式(1)に従って、上記の平均値sPCCinと、平均値sPCCoutと、差sEDとから、ノードG1(すなわち、遺伝子g1)についての指標(スコア)Isが求められる。 
   Is=sED×sPCCin/sPCCout ・・・ 式(1)
 次いで、指標Isは、すべてのノードG2、G3、・・・、G10について同様に計算される。
 <バイオマーカーを選択するステップ(ST7)>
 次に、図4に模式的に示すように、すべてのノードについて計算された複数の指標Isが大きい順にソートされる。ソートされた指標Isから大きい順に所定の数の指標Isが選択される。これにより、選択された所定の数の指標Isに対応する遺伝子がバイオマーカーとして検出されたこととなる。なお、図4に示すように閾値Vthを定め、閾値Vthを超える指標Isが選択されるようにしても良い。また、すべてのノードについて計算するのではなく、あらかじめ所定のsED値(例えばある値以上のsED)を持つノードを選択し、その選択されたノードについてΔPCCを計算し、指標を計算しても良い。
 以上のように、第1の実施形態のバイオマーカーの検出方法によれば、まず、生体データ提供者S1、S2、・・・、Snから得られた参照データセットDrの因子項目の間の相関係数PCCrが計算され、参照データセットDrに被検者Seの被検者データセットDeを加えることにより得られた検査対象データセットDcの各因子項目の間の相関係数PCCcが計算される。次に、これらの差分相関係数ΔPCCが求められ、その中から閾値を超える差分相関係数ΔPCCが抽出され、これにより差分相関係数ネットワークNrcが構築される。差分相関係数ネットワークNrcのすべてのノードのそれぞれについて、sPCCinとsPCCoutが計算される。一方、各因子項目についての参照データセットDrの平均値と検査対象データセットDcとの差sEDが求められる。sEDとsPCCinとsPCCoutを含む式(1)により指標Isが計算され、閾値Vthを超える指標Isに対応する遺伝子がバイオマーカーとして検出される。
 バイオマーカーが検出されるのは、被検者Seが、(見かけからは分からないものの)健康状態の点で、生体データ提供者S1、S2、・・・、Sn(の平均)と相違しているからである。このことは、仮に、被検者Seが、生体データ提供者同様に良好な健康状態(点a)にあれば、データセットDr、Dc間の差分相関係数ΔPCCはほぼゼロになり、よってバイオマーカーは検出されないことから明らかである。 
 一方、先に説明した過渡的な状態(図1の点b)は、被検者自身には特段の自覚症状がないが、直ちにでも早期疾病状態に移行してしまう可能性のある状態である。このような状態においては、一般に、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。参照データセットDrと検査対象データセットDcとの間で大きな差異を示す因子項目は、過渡的な状態において、値の振れ幅が大きくなり、その動きが強く相関する生体的な因子に相当すると考えられる。したがって、バイオマーカーが検出されたことをもって、被検者Seの健康状態が過渡的な状態にあると判断することができる。
 次に、第1の実施形態によるバイオマーカーの検出方法の効果を検証するために行った実験について説明する。この実験では、健康な被検者Se1~Se17の17名に対し、インフルエンザウィルスを鼻腔内接種した後、第1の実施形態によるバイオマーカーの検出方法を時間の経過とともに15回行った。図5は、その実験の結果を示す表である。表中の「N」は、第1の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されなかったことを示し、「C」は、第1の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されたことを示し、「S」は、被検者が実際にインフルエンザに罹ったことを示している。 
 この表から、バイオマーカーが検出されなかった被検者Se2、Se3などは、疾病状態にはならず、バイオマーカーが検出されたすべての被検者Se1、Se5などが、その後に疾病状態になっていることが分かる。この結果から、第1の実施形態によるバイオマーカーの検出方法の有益な効果は明らかである。
 なお、この実験では、インフルエンザウィルスを被検者に鼻腔内接種した後に、バイオマーカーの検出を行ない、バイオマーカーが検出された被検者がインフルエンザを発病したことから、インフルエンザ発症の予兆がバイオマーカーの検出により見出されたということができる。しかし、一般には、バイオマーカーが検出されたことから分かるのは、健康状態が過渡的であること、または何らかの病気を発病する予兆があることであり、具体的な病気を特定することはできない。前述したインフルエンザの実験のように、対応する因子項目と病気との対応付けがなされれば、バイオマーカーが検出された時点で、後に発症する可能性がある病気まで特定することが可能となる。すなわち、第1の実施形態にかかるバイオマーカーは、特定の病気を発症する予兆となり得るという利点を有している。
 (第2の実施形態)
  次に、本発明の第2の実施形態によるバイオマーカーの検出装置について説明する。図6は、第2の実施形態による検出装置の構成例を示すブロック図である。図6に示すバイオマーカーの検出装置1は、制御部10、記憶部11、記憶部12、入力部13、出力部14、及びインタフェイス部15を備えている。
 制御部10は、CPU(Central Processing Unit)などの回路を用いて構成され、検出装置1全体を制御する。記憶部11は、HDD(Hard Disk Drive)などの磁気記録装置、SSD(Solid State Disk)などの不揮発性の補助記録装置を含む。記憶部11には、本発明の実施形態による検出プログラム11aを始めとする各種プログラムが記録されている。検出プログラム11aは、第1の実施形態によるバイオマーカーの検出方法を検出装置1に実施させる命令(コード)を含んでいる。
 なお、検出プログラム11aは、コンピュータ可読記憶媒体13aに格納することができ、検出プログラム11aを例えば入力部13を通してコンピュータ可読記憶媒体13aから記憶部11にインストールすることができる。ここで、コンピュータ可読記憶媒体13aは、ハードディスクドライブ(HDD)、固体ドライブ(SSD)、ランダムアクセスメモリ(RAM)、読出専用メモリ(ROM)、消去可能プログラム可能ROM(EPROM又はフラッシュメモリ素子)、コンパクトディスクROM(CD-ROM)やデジタル多用途ディスクROM(DVD-ROM)などの光ディスク記憶メディア、磁気記憶メディアなどを含む非一時的又は有形のコンピュータ可読記憶媒体であっても良い。
 また、記憶部11は、第1の実施形態にて説明した参照データセットDrを記録することができる。参照データセットDrは、入力部13を通して記憶部11に入力され、記録されても良いし、インタフェイス部15を通して、例えば外部のデータベース等から入力され、記録されても良い。
 記憶部12は、SDRAM(Synchronous Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などの揮発性の記憶装置を含む。記憶部12は、第1の実施形態にて説明した被検者データセットDe(図3)を記憶することができる。被検者データセットDeは、好ましくは入力部13を通して記憶部12に記憶されても良い。なお、第1の実施形態にて説明した検査対象データセットDc(図3)は、例えば、記憶部11に記録されている参照データセットDrが制御部10へ読み出され、記憶部12に記憶されている被検者データセットDeが制御部10へ読み出され、制御部10にて被検者データセットDeを参照データセットDrに追加することにより生成され得る。生成された検査対象データセットDcを記憶部12に記憶しても良い。
 入力部13は、キーボードやマウス、入出力(I/O)装置などのハードウェア、及びドライバなどのソフトウェアを備える。I/O装置はコンピュータ可読記憶媒体13aにアクセスすることができる。出力部14は、ディスプレイやプリンタなどのハードウェア、及びドライバなどのソフトウェアを備える。
  インタフェイス部15は、外部から各種データを取得する。具体的には、インタフェイス部15は、通信網を介してデータを取り込むため、LAN(Local Area Network)ケーブルが接続されるポートや、測定機器に接続可能なパラレルケーブルなどの専用線が接続されるポートなどのハードウェア、及びドライバなどのソフトウェアを備える。
 記憶部11に記録されている検出プログラム11aを、記憶部12に記憶し、制御部10の制御に基づいて実行することにより、第2の実施形態による検出装置1として機能する。
 なお、第2の実施形態では記憶部11と記憶部12は個別に構成されているが、他の実施形態においては、一つのハードウェアで構成されていても良い。すなわち、一つのハードウェアのなかの異なる領域を記憶部11及び記憶部12として用いても構わない。
 なお、検出装置1を構成する制御部10、記憶部11、記憶部12、入力部13、出力部14、及びインタフェイス部15は、単一の筐体内又は同一箇所に設置されてもよいし、これらの構成要素の各々又は一部を別の箇所の一又は複数の筐体内に設置し、有線又は無線のネットワークを介して接続するようにしてもよい。また、検出装置1によって実行される各種処理は、インターネット等のネットワークを介してクラウドコンピューティングを用いて実行されるようにしてもよい。
 また、複数台の検出装置1を設置し、上述のバイオマーカーの検出方法を含む各種処理を並行して実行するようにしてもよい。あるいは、検出装置1の構成要素の各々を複数のユニットにより構成するようにし(例えば、2つの制御部10、2つの記憶部11など)、各種処理を並行して実行するようにしてもよい。このような並列処理により、高速化を図ることができ、また、データを並列に記憶するようにしておけば、大容量化及び高速化を図ることができる。さらに、病院と病院以外の検査機関等とでデータを共有しつつ並列処理を実行すれば、より多くの患者に対する検査及び診断の効率化を図ることができる。
 上述のように、第1の実施形態によるバイオマーカーの検出方法はハイスループット技術を用いることが好ましく、ハイスループット技術に対応可能な装置を用いた方がよい。人間の遺伝子は2万個以上あるが、例えば、複数の因子項目として2万個の遺伝子(m=20,000)に関する発現量を用いる場合、複数の因子項目間の第1の相関係数の計算(ST3)、複数の因子項目間の第2の相関係数の計算(ST4)、及び第1の相関係数と第2の相関係数との差分相関係数の計算(ST5)の各ステップにおいて、200002(= 199,990,000)通りの計算を実行しなければならない。言うまでもなく、これだけの膨大な計算を人間が合理的な時間内で正確に行うことは不可能であり、膨大な計算を正確に実行可能な装置を用いる必要がある。仮に上記の計算を複数の人間が行ったとしても、とてつもない時間を要し(何年にもわたる可能性がある。)、人間が計算している間に患者の病状が悪化するおそれがある。これでは、疾病状態へ遷移する前の過渡的な状態(健康と病気の間の状態)を検出するという目的を達成することができない。したがって、上述のバイオマーカーの検出方法を実現するためには、膨大な計算を高速且つ正確に実行可能な検出装置1を用いる必要がある。以下に述べる第3の実施形態によるバイオマーカーの検出方法を実行する装置及び第4の実施形態によるバイオマーカーの検出方法を実行する装置についても同じことが言える。
(第3の実施形態)
 次に、図7を参照しながら、本発明の第3の実施形態によるバイオマーカーの検出方法を説明する。図7は、第3の実施形態におけるバイオマーカーの検出方法を示すフローチャートである。
 第3の実施形態によるバイオマーカーの検出方法は、図7に示すように、ハイスループットデータを取得するステップ(ST11)と、差次的因子の選出するステップ(ST12)と、クラスター化するステップ(ST13)と、バイオマーカーを選出するステップ(ST14)とを含んでいる。 
 初めに、ハイスループットデータを取得するステップ(ST11)において、被検者Seから異なる時点でハイスループットデータが得られる。具体的には、まず、被検者Seから生体サンプルが時系列的に複数回採取される。生体サンプルを採取する回数は、例えば5回以上が望ましい。また、各回の間隔は、疾病の状況によって、数日、数週間、数カ月、又は数年に設定して良く、例えば数分又は数時間としても良い。
 このようにして得られた複数の生体サンプルのそれぞれから、因子項目としての遺伝子の発現量が、ハイスループットデータとしてハイスループット技術により取得される。
 次に、差次的因子を選出するステップ(ST12)において、取得されたハイスループットデータから差次的因子が選出される。すなわち、ハイスループット技術により1つの生体サンプルから取得された2万個以上の遺伝子データの中から、差次的な遺伝子が選出される。ここで差次的な遺伝子は発現量に著しい変化を示した遺伝子である。その選出は、具体的には以下のように行われる。まず、複数の生体サンプルの中の初回に採取された生体サンプルをコントロールサンプルとする。説明の便宜上、このコントロールサンプルから取得されたデータをDdmcとし、2回目に採取された生体サンプルの遺伝子のデータをDdmと呼ぶこととする。次に、この遺伝子のデータDdmに対してスチューデントのt検定を行って、コントロールサンプルのデータDdmcに比べて発現量に著しい変化を示した遺伝子を選出する。説明の便宜上、この遺伝子を遺伝子Ddm1と呼ぶ。
 なお、第3の実施形態では、遺伝子Ddm1の選出にスチューデントのt検定を用いたが、他の実施形態では、例えば、マン・ホイットニーのU検定等の他の検定方法を適用することも可能である。このようなノンパラメトリック手法による検定は、母集団となるDdmが正規分布に従わない場合に、特に有効である。また、スチューデントのt検定をする場合においても、有意水準αの値は、0.05、0.01等の値を適宜設定することができる。
 次いで、クラスター化するステップ(ST13)において、差次的因子を選出するステップ(ST12)において選出された差次的因子(差次的な遺伝子)が複数のクラスターに分類される。 
 このステップ(ST12)においては、初めに、コントロールサンプルのデータDdmcに比べて発現量に著しい変化を示した遺伝子Ddm1に対し、誤発現率FDR(False Discovery Rate)を用いて、複数の比較(Multiple Comparisons)を行うことにより、又は複数のスチューデントのt検定を補正することにより、遺伝子Ddm2(図示なし)が得られる。次に、2倍変更方法(Two-fold Change Method)を用いて、遺伝子Ddm2から、標準偏差SDが比較的著しく変化する遺伝子が差次的な遺伝子Dsm(図8)として選出される(ST12)。ここで選出された差次的な遺伝子Dsmは、コントロールサンプルのデータDdmcに比べて著しい差異を示すだけではなく、自分の平均値からも大きく逸脱している。
 次に、差次的な遺伝子Dsmの間の相関係数が計算される。ここで、説明の便宜上、遺伝子gn1、gn2、gn3、・・・、gnpが差次的な遺伝子Dsmとして選出されたと仮定する。また、遺伝子gn1のデータ(発現量)は、生体サンプルの採取の時点t1、t2、t3、・・・、tpにおいて、順にgn11、gn12、gn13、・・・、gn1pであったと仮定すると、p個の要素を有する集合CL1m:{gn11、gn12、gn13、・・・、gn1p}が得られる。同様に、遺伝子gn2の発現量が、生体サンプルの採取の時点t1、t2、t3、・・・、tpにおいて、順にgn21、gn22、gn23、・・・、gn2pであったと仮定すると、p個の要素を有する集合CL2m:{gn21、gn22、gn23、・・・、gn2p}が得られる。他の遺伝子gn3、・・・、gnpについても同様な集合CL3m、・・・、CLpmが得られる。
 次いで、すべての遺伝子の集合CL1m、CL2m、CL3m、・・・、CLpmのうちのあらゆる一対の集合の間で相関係数が計算される。この相関係数はピアソン相関係数(PCC)であっても良い。計算された相関係数PCCのうち、閾値を超えるものが選出され、選出されたPCCに基づき、例えばネットワークが構築される。例えば、集合CL1m及びCL2mの間の相関係数PCCが閾値を超えた場合、遺伝子gn1に対応するノードGn1と、遺伝子gn2に対応するノードGn2とが設定され、これらのノードGn1及びGn2が枝Bでリンクされる。同様な操作が、閾値を超えたすべてのPCCに対して行われ、図8に示すネットワークNmが構築される。
 この後、ネットワークNmにおいてノードがクラスター化される。すなわち、複数のノードがグループ(クラスター)に分類される。ここでいうクラスター化とは、複数の生体分子を、互いに相関の高いグループにそれぞれ分類する処理であり、生体分子が分類されたそれぞれのグループをクラスターと称する。すなわち、互いに相関の高い生体分子を1つのクラスターにするように、上述の差次的な遺伝子Dsmを、n個のクラスターに分類する。図8を参照すると、点線で画定された5つのクラスターと、各クラスターに含まれる2つ又は3つのノードとが示されている。ただし、クラスターの数や、クラスターに含まれるノードの数は、図8の例に限定されることなく、適宜決定しても良い。例えばクラスターの数は全部で3個以上であって良く、一つのクラスターには5個以上のノードが含まれても良い。
 次いで、バイオマーカーの候補を選出するステップ(ST14)において、クラスター化するステップ(ST13)で得られた複数のクラスターの中から、クラスターの内側の因子項目の間の相関の増大、クラスターの内側の因子項目の標準偏差の増大、及びクラスターの内側の因子項目と外側の因子項目との間の相関の低減が最も著しいクラスターがバイオマーカーとして選出される。 
 具体的には、各クラスターについて、クラスターの内側のノード間の相関係数の平均値PCCin(以下、内部PCC平均値と呼ぶ)が計算され、クラスターの内側のノードと外側のノードとの間の相関係数の平均値PCCout(以下、内外PCC平均値と呼ぶ)が計算され、内側のノードの標準偏差SDinが計算される。図8を参照すると、ノードGn1、Gn2、及びGn3を含むクラスターCが形成されている。このクラスターCに着目すると、クラスターCの内側のノードGn1及びGn2の間の相関係数(すなわち、遺伝子gn1及びgn2の間の相関係数PCC)と、ノードGn2及びGn3の間の相関係数(遺伝子gn2及びgn3の間の相関係数PCC)と、ノードGn3及びGn1の間の相関係数(遺伝子gn3及びgn1の間の相関係数PCC)とが平均化され、内部PCC平均値PCCinが得られる。
 続けて、ノードGn1と、これに直接に接続するもののクラスターCの外側にあるノードGn4との間の相関係数(遺伝子gn1及びgn4の間の相関係数PCC)、ノードGn2と、これに直接に接続するもののクラスターCの外側にあるノードGn5との間の相関係数(遺伝子gn2及びgn5の間の相関係数PCC)と、ノードGn3と、これに直接に接続するもののクラスターCの外側にあるノードGn6及びGn7のそれぞれとの間の相関係数(遺伝子gn3及びgn6の間の相関係数PCC、遺伝子gn3及びgn7の間の相関係数PCC)といった、合計4つの相関係数が平均化され、内外PCC平均値PCCoutが得られる。 
 さらに、クラスターCの内部のノードGn1、Gn2、及びGn3のそれぞれに対応する遺伝子gn1、gn2、及びgn3のデータ(発現量)の標準偏差SDinが計算される。
 以上のようにして求めた内部PCC平均値PCCin、内外PCC平均値PCCout、及び標準偏差SDinから、以下の式(2)に従って、クラスターCの指標Imが計算される。 
   Im=SDin×PCCin/PCCout ・・・ 式(2)
 続けて、同様の計算がすべてのクラスターに対して行われ、最も大きな指標Imを提供したクラスター(又は、そのクラスターに属するノードに対応する遺伝子群)がバイオマーカーとして選択される。 
 なお、同一のノード(群)に対し、クラスターの数や、クラスターに含まれるノードの数を変えて、同様の計算を複数回繰り返し、更に大きな指標Imを提供するクラスターを見出しても良い。 
 また、各クラスターの指標Imに対して有意性分析を行なってクラスターがバイオマーカーであるか否かを判定しても良い。 
 なお、クラスター化を行わないで、それぞれの遺伝子について指標を計算することも考えられ、上述のステップST12において差次的な遺伝子Dsmを選出する際に計算した標準偏差SDを用いて、指標を計算することができる。具体的には、上記の式(1)の分子のsEDを、この標準偏差SDに置き換えることにより得られる下記の式(3)に従って、指標Itを求めても良い。 
   It=SD×sPCCin/sPCCout ・・・ 式(3)
 すべてのノード(差次的な遺伝子Dsm)について計算された複数の指標Itが大きい順にソートされ、ソートされた指標Itから大きい順に所定の数の指標Itが選択される。これにより、選択された所定の数の指標Itに対応する遺伝子がバイオマーカーとして検出されたこととなる。
 以上のように第3の実施形態によるバイオマーカーの検出方法においては、被検者Seから時系列的に採取された複数の生体サンプルから遺伝子のデータ(発現量)が取得され、その中から差次的な遺伝子Dsmが選出される。差次的な遺伝子Dsmについて、相関係数PCCが得られ、相関係数PCCに基づいてネットワークNmが構築される。ネットワークNmを構成するノードがクラスターへとグループ分けされ、各クラスターについて指標Imが計算され、その値が最大となるクラスターに含まれるノードに対応する遺伝子がバイオマーカーとして選択される。 
 また、クラスター化を行わないで、それぞれの遺伝子について指標を計算する場合は、差次的な遺伝子Dsmを選出する際(ステップST12)に計算した標準偏差SDを用いる上記の式(3)により指標Itを計算できる。この標準偏差SDは、注目している遺伝子の発現量が多くなった、あるいは急激に多くなったことを表現できる変数であるため、式(1)のsEDの代わりとなることができる。
 第3の実施形態によれば、差次的な因子(発現量に著しい変化を示した遺伝子Dsm)を選出し、これらの間の相関係数を計算し、クラスター化し、クラスターについて指標Imが最大となるクラスターがバイオマーカーとして選択される、又はクラスター化を行わないで、それぞれの遺伝子について指標を計算する場合は、差次的な因子を選出する際に計算した標準偏差SDを用いて指標It(式(3))を計算し、その値が大きい順に1又は2以上の所定の数の指標Itが選択されるため、互いに強く相関する複数のノードを求めることができる。過渡的な状態においては、一般に、揺らぎが増大するとともに、その揺らぎが強く相関する変数が存在することが知られている。したがって、第3の実施形態によるバイオマーカーの検出方法によりバイオマーカーが検出されたことをもって、被検者Seが過渡的な状態にあることが分かる。
(第4の実施形態)
 次に、図9を参照しながら、本発明の第4の実施形態によるバイオマーカーの検出方法を説明する。第4の実施形態のバイオマーカーの検出方法は、被検者Seの生体サンプルを採取する回数の点で、第1の実施形態によるバイオマーカーの検出方法と異なる。具体的には、第1の実施形態のバイオマーカーの検出方法においては、被検者Seの生体サンプルの採取回数は1回であったが、第4の実施形態のバイオマーカーの検出方法では、時系列的に複数回採取される。以下、相違点を中心に第4の実施形態のバイオマーカーの検出方法を説明する。
 図9を参照すると、異なる時点t1、t2、t3で被検者Seから採取された生体サンプルから取得された被検者データセットDemが得られている。生体サンプルを採取する回数は、説明の便宜上、3回としたが、例えば5回以上が望ましい。また、各回の間隔は、疾病の状況によって、数日、数週間、数カ月、又は数年に設定して良く、例えば数分又は数時間としても良い。 
 被検者データセットDemは、第1の実施形態と同様に予め用意された参照データセットDrに追加され、検査対象データセットDcmが作成される。本例では、検査対象データセットDcmにおいて各遺伝子の集合に属するデータの数はn+3である。
 次いで、第1の実施形態における相関係数を計算するステップ(ST3)及び第2の相関係数を計算するステップ(ST4)と同様にして、参照データセットDr内のデータ間の相関係数PCCrと、検査対象データセットDcm内のデータ間の相関係数PCCcとが計算され、これらの間で差分相関係数ΔPCCが計算される。次いで、第1の実施形態における差分相関係数を計算するステップ(ST5)と同様にして、ΔPCCのうち、閾値を超えたΔPCCが抽出され、図4に示す差分相関係数ネットワークNrcが構築される。
 差分相関係数ネットワークNrcに関して、第1の実施形態における、指標を求めるステップ(ST6)と同様に、着目するノードと1次のノードとの間の相関係数の平均値sPCCinと、着目するノードに関する1次のノードと2次のノードとの間の相関係数の平均値sPCCoutが求められる。 
 図9を参照すると、グラフGRmには、遺伝子g1についての発現量-確率曲線が破線で示されている。このグラフにおいては、参照データセットDr中の遺伝子g1についての発現量-確率曲線Crと、被検者データセットDem中の遺伝子g1についての発現量-確率曲線Ceとが示されている。ここで、平均値χrは、発現量-確率曲線Crの平均値を表し、平均値χeは、発現量-確率曲線Ceの平均値を表している。このグラフから、平均値χrとχeの差sED(|χ-χ|)が求められる。
 次に、上述の式(1)に従って、上記の平均値sPCCinと、平均値sPCCoutと、差sEDとから、ノードG1(すなわち、遺伝子g1)についての指標Isが求められる。 
 次いで、すべてのノードG2、G3、・・・、G10(すなわち、対応する遺伝子g2、g3、・・・、g10)について、同様に指標Isが計算される。
 次に、図4に模式的に示すように、すべてのノードについて計算された複数の指標Isが大きい順にソートされる。ソートされた指標Isから大きい順に所定の数の指標Isが選択される。選択された所定の数の指標Isに対応する遺伝子がバイオマーカーとして検出されたこととなる。選択される指標Isの数は、閾値を定めることにより決定し、閾値を超える指標Isが選択されるようにしても良い。
 第4の実施形態によるバイオマーカーの検出方法によっても、参照データセットDrの因子項目間の相関係数PCCrと、検査対象データセットDcmの因子項目間の相関係数PCCcとの差分相関係数ΔPCCが求められ、これに基づいた指標からバイオマーカーが検出され得るため、第1の実施形態によるバイオマーカーの検出方法と同様の効果が発揮される。
 また、上記の実施形態によるバイオマーカーの検出方法又は検出装置により探索されたバイオマーカーを使えば、ある疾病についての判定(病気になる直前の状態か、あるいは病気から快復する直前の状態かの判定)を行うことができる。判定の対象となる人に対して検査を行い、採取した生体サンプルからバイオマーカーを計算で求め、求めたバイオマーカーとすでに探索されたバイオマーカーとを比較する。例えば、すでに探索され、所定の疾病に対応したバイオマーカーの遺伝子群(上位の遺伝子群、あるいはあらかじめ特定しておいた遺伝子群であって、遺伝子群に含まれる遺伝子は1つでも良い)に、求めたバイオマーカーに含まれているか否かを判定する。 
 この判定は、たとえば第2の実施形態によるバイオマーカー検出装置等により自動で判定しても良いし、医者が判定しても良い。 
 また、判定結果により疾病に対応するバイオマーカーあるいは遺伝子であると判定した場合、当該疾病に係る情報を提示しても良い。 
 これにより、その人が、所定の病気の直前の状態にあるのか、あるいは所定の病気から快復する直前の状態にあるのか判定できる。
 以上、本発明によるバイオマーカーの検出方法、バイオマーカーの検出装置、及びバイオマーカーの検出プログラムの幾つかの実施形態を説明したが、本発明は上述の幾つかの実施形態に限定されることなく、特許請求の範囲内で種々に変形又は変更が可能である。 
 たとえば、第1及び第4の実施形態では、参照データセットDrは、被検者Seの生体サンプルを採取する前に用意されたが、他の実施形態においては、被検者Seの生体サンプルの採取後、又は、この生体サンプルから遺伝子g1、g2、g3、・・・、gmに関する被検者データセットDeが取得された後に用意されてもかまわない。また、参照データセットDrを予め作成し、データベースに登録しておいても良い。このようにすれば、必要に応じてデータベースから例えばインタフェイス部15を通して記憶部11にダウンロードすることによって、参照データセットDrを用意できる。
 また、第1及び第4の実施形態において、指標Isは式(1)に従って計算されたが、この式の分母(sPCCout)を1としても(すなわち、分子のみに基づいて指標Isを計算しても)、バイオマーカーを選択できることが発明者らの検討により明らかとなっている。
 さらに、第1及び第4の実施形態においては、見掛け上は健康が良好であることを前提に、被検者Seが過渡的な健康状態にあるかどうかが調べられる。他の実施形態では、それとは逆に、被検者Seが特定の病気に罹っていることを前提としても良い。この場合には、被検者Seと同じ病気に罹っている患者が生体データ提供者S1、S2、・・・、Snになることができる。このような場合において、被検者Seからバイオマーカーが検出されたときは、被検者Seの健康は、疾病状態(図1の点d又はc)から良好な状態(同図の点a)に向かう過渡的な状態にあり、被検者Seは快復に向かっていることが推測される。なお、特定の病気とは、ある病気に限定されることはなく、どんな病気であっても良い。
 また、被検者Seが特定の病気に罹り、その病気に対して特定の治療を受けている場合には、同じ治療を受けている患者が生体データ提供者S1、S2、・・・、Snになることもできる。この場合において、被検者Seからバイオマーカーが検出されたときは、その治療が被検者Seに対し効果を発揮しており、疾病状態(図1の点d又はc)から良好な状態(同図の点a)に向かう過渡的な状態にあり、被検者Seは快復に向かっていることが推測される。
 また、第3の実施形態においても、健康状態が良好な被検者Seについてバイオマーカーを検出できた場合には、その被検者Seの健康は、良好な状態(同図の点a)から疾病状態(図1の点d又はc)へ向かう過渡的な状態(図1の点b)にあることが分かる。これとは逆に、被検者Seが疾病状態のときにバイオマーカーが検出されれば、その被検者Seの健康は過渡的な状態にあり、被検者Seは快復に向かっていることが推測される。
 このように被検者Seが疾病状態にある場合において、患者自身が病状の改善を感じることができないとき、または従来の検査によっては病状の改善が認められないときであっても、本発明の実施形態によるバイオマーカーの検出方法によれば、薬が効いているかどうかを確認することも可能である。そのため、治療の継続の可否について正しく判断することが可能となる。
 また、従来の検査によっては病状の改善が認められるまでに長い期間を要する場合がある。この場合において、長い期間が経過した後に薬効がなかったことが判明したときには、その期間に病状が悪化してしまうことにもなる。本発明の実施形態によるバイオマーカーの検出方法を用いれば、状態遷移の予兆を早期に把握できるため、薬の使用開始後の短い期間で薬効の有無を判断できる。そのため、薬効がない場合に、無駄な治療をせずに済むし、早期に他の治療方法に変更することができ、病気の進行の遅延や病状の改善につなげることも可能となる。また、高額な医薬品を長期に亘って無益に使用するのを回避することが可能となり、医療費を抑制し得る。
 また、第4の実施形態によるバイオマーカーの検出方法は、第2の実施形態によるバイオマーカーの検出装置1において実施しても良い。この場合、第4の実施形態によるバイオマーカーの検出方法を検出装置1に実行させる、バイオマーカーの検出プログラムが記憶部11に記録されていても良い。また、この検出プログラムは、非一時的又は有形のコンピュータ可読記憶媒体に記録されても良い。
 また、第4の実施形態においては、被検者Seの生体サンプルから時系列的に取得された複数のデータから被検者データセットDemを作成し、これを参照データセットDrに追加して検査対象データセットDcmを作成したが、他の実施形態においては、異なる時点でのデータを単独で使用することもできる。すなわち、生体サンプルを異なる時点で採取するごとに、第1の実施形態によるバイオマーカーの検出方法を実施しても良い。より具体的には、時点t1において被検者Seから生体サンプルを採取した際に第1の実施形態によるバイオマーカーの検出方法を実施し、これを時点t2、t3、・・・のそれぞれにおいて繰り返すようにしても良い。このような検出方法もまた、検出プログラムにより上述の検出装置1で実施することができ、この検出プログラムは、非一時的又は有形のコンピュータ可読記憶媒体に記録されても良い。
 また、第1、第3、及び第4の実施形態において、差分相関係数ネットワークNrc又はネットワークNmが構築される例を説明したが、ネットワークを構築しなくてもノード間の相関係数を計算することは可能であり、したがって、ネットワークは必ずしも構築しなくても良い。 
 また、第1及び第4の実施形態において、差分相関係数ネットワークNrcについて式(1)を用いて指標Isを計算する例を説明したが、差分相関ネットワークNrcのノードをクラスター化し、式(2)に従って、指標Imを計算し、バイオマーカーを選択することも可能である。 
 すなわち、第1及び第4の実施形態によるバイオマーカー検出方法において、差分相関係数ネットワークNrcについて式(1)を用いて指標Isを計算する場合と、差分相関係数ネットワークNrcのノードをクラスター化し、式(2)に従って、指標Imを計算する場合と、第3の実施形態によるバイオマーカー検出方法において、差次的な遺伝子Dsmについての相関係数PCCに基づいて構築されたネットワークNmに対し、式(1)を用いて指標Isを計算する場合と、このネットワークNmのノードをクラスター化し、式(2)に従って、指標Imを計算する場合との合計4通りのバイオマーカー検出方法がある。 
 さらに、第3の実施形態においてハイスループット技術により取得されたハイスループットデータから差次的因子を選択したが、第1及び第4の実施形態においても、差次的因子を選択しても良い。また、上述のsEDを用い、たとえば所定の値以上のsEDを有する因子を差次的因子として選択しても良い。
 また、上記の実施形態においては、説明の便宜上、因子項目として遺伝子(の発現量)を例示したが、遺伝子に関わらず、血液検査における所定の検査項目(タンパク質やコレステロール、血糖値などの測定項目、代謝物に関する測定項目など)の数値を用いることができる。また、生体サンプルを採取し、生体サンプルから因子項目を抽出する場合には、生体サンプルとしては、血液に限らず、唾液や汗、又は尿や便などの排泄物などであっても良く、生体組織(例えば肝臓障害の場合、肝臓の組織)であっても良い。さらに、心電図や脳波、コンピュータ断層撮影(CT)や(核)磁気共鳴映像(MRI)、PET(Positron Emission Tomography)画像などの信号を数値化することにより得られた数値などを用いることができる。さらにまた、声や心音のような体内から発せられる音を測定し、測定値を数値化することにより得られた数値などを用いることも可能である。なお、上の説明で因子項目という語を用いたが、これは、上述のネットワークのノードとなり得る項目をいう。
 本発明によるバイオマーカーの検出方法は、総合病院や大学病院などで実施することができるが、病院外の検査機関、個人向けの血液診断サービスや遺伝子診断サービスを提供している民間の企業等によっても実施されても良い。このような検査機関及び企業等において、本発明によるバイオマーカーの検出装置や検出プログラムを使用できることはもちろんである。 
 また、本発明によるバイオマーカーの検出方法、検出装置、及び検出プログラムは、人間だけでなく、動物など生物一般に対しても適用することができる。
 なお、従来から疾病状態を診断するために用いられる指標としてバイオマーカーがある。バイオマーカーは良好状態(基準値内)と病気状態(基準値外)を判別したり、病気状態の変化(改善又は悪化)を調べたりするのに用いられる。これに対し、本発明によるバイオマーカーの検出方法では、良好な状態から前記疾病状態への遷移の予兆(過渡的な状態)を検知することができる。すなわち、本発明によるバイオマーカーの検出方法には、病気に罹るのを早期に回避することが可能となるという利点がある。
 また、従来のバイオマーカーは、生体から採取された血清や尿などの体液や組織に含まれる化学物質であり、分子式又は特性で特定することも可能である。一方、本発明に係るバイオマーカーは、被検者や疾病によって異なり、検出されて初めてその存在が明らかになるため、構成(分子式等)や特性により直接に特定することはほぼ不可能であり、およそ現実的でない点で、従来のバイオマーカーと異なる。
 言い換えると、本発明の他の実施形態によるバイオマーカーは、生体に関する測定により得られたデータに基づいて、生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出方法であって、複数の参照生体のそれぞれから得られたデータに基づく参照データセットを用意し、対象生体から得られた対象生体データを参照データセットに追加して対象データセットを生成し、参照データセットの中の複数の因子項目の間で第1の相関係数を求め、対象データセットの中の複数の因子項目の間で第2の相関係数を求め、第1の相関係数と第2の相関係数との差分である差分相関係数を求め、複数の因子項目のそれぞれについて差分相関係数に基づく指標を求め、指標に基づいてバイオマーカーを選択する工程を含む、バイオマーカー検出方法により検出されるバイオマーカーである。
 なお、上記の実施形態によるバイオマーカーの検出方法及びバイオマーカーの検出プログラムは、被検者が過渡的な状態にあることを示す(疾病状態の予兆を示す)指標を具体的に見出すものであり、従来から知られていた日常的な生体データ処理をコンピュータで単に履行するものではない。 
 また、上述してきたバイオマーカーは動的ネットワークバイオマーカー(Dynamic Network Biomarker:DNB)と呼ぶことがある。
 D   データ
 Dc、Dcm  検査対象データセット
 De、Dem  被検者データセット
 Dr  参照データセット
 g1、g2、・・・、gm  遺伝子
 G1、G2、G3、G4、・・・、G10 ノード
 Nrc、Nm  差分相関係数ネットワーク
 Se  被検者
 S1、S2、・・・、Sn  生体データ提供者
 1   検出装置
 10  制御部
 11  記憶部
 11a 検出プログラム
 12  記憶部
 13  入力部
 13a コンピュータ可読記憶媒体
 14  出力部
 15  インタフェイス部
 

 

Claims (13)

  1.  生体に関する測定により得られたデータに基づいて、生体の状態を示すバイオマーカーを検出する、バイオマーカー検出方法であって、
     1又は2以上の参照生体から得られたデータに基づく参照データセットを用意し、
     対象生体から得られた対象生体データを前記参照データセットに追加して対象データセットを生成し、
     前記参照データセットの中の複数の因子項目の間で第1の相関係数を求め、
     前記対象データセットの中の複数の因子項目の間で第2の相関係数を求め、
     前記第1の相関係数と前記第2の相関係数との差分である差分相関係数を求め、
     前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、
     前記指標に基づいてバイオマーカーを選択する
     工程を含む、バイオマーカー検出方法。
  2.  前記指標を求める工程が、
     前記複数の因子項目のうちの一つの因子項目と、当該一つの因子項目に対して所定の相関係数を持つ1又は2以上の別の因子項目との間の前記差分相関係数の第1平均値を求める工程を更に含み、
     前記指標が、前記第1平均値に基づいて求められる、請求項1に記載のバイオマーカー検出方法。
  3.  前記指標を求める工程が、
     前記参照データセットの中の前記複数の因子項目のうちの一つの因子項目に関する複数のデータの平均値を求める工程と、
     前記対象生体データの中の前記一つの因子項目のデータと前記平均値との差を求める工程と、を更に含み、
     前記指標が、前記第1平均値及び前記差に基づいて求められる、請求項2に記載のバイオマーカー検出方法。
  4.  前記指標を求める工程が、前記別の因子項目と、当該別の因子項目に対して所定の相関係数を持つ1又は2以上の更に別の因子項目との間の前記差分相関係数の第2平均値を求める工程を更に含み、
     前記指標が、(前記差×前記第1平均値)/(前記第2平均値)で表される式により求められる、請求項3に記載のバイオマーカー検出方法。
  5. 前記指標を求める工程が、前記複数のデータの前記平均値を求める工程と、前記差を求める工程と、前記第1平均値を求める工程と、を前記複数の因子項目のすべてに対して行う工程を更に含み、
     前記複数の因子項目のすべてに対して、前記指標が、前記第1平均値及び前記差に基づいて求められる、請求項3に記載のバイオマーカー検出方法。
  6.  前記指標を求める工程が、
     前記複数のデータの前記平均値を求める工程と、
     前記差を求める工程と、前記第1平均値を求める工程と、を前記複数の因子項目のすべてに対して行う工程と、
     前記別の因子項目と、当該別の因子項目に対して所定の相関係数を持つ前記1又は2以上の更に別の因子項目との間の前記差分相関係数の前記第2平均値を求める工程と、
     を前記複数の因子項目のすべてに対して行う工程を更に含み、
     前記複数の因子項目のすべてに対して、前記指標が、(前記差×前記第1平均値)/(前記第2平均値)に基づいて求められる、
     請求項4に記載のバイオマーカー検出方法。
  7.  前記バイオマーカーを選択する工程が、
     前記複数の因子項目のすべてに対して求められた前記指標を大きい順に並べたときに、大きい順に1又は2以上の所定の数の指標を前記バイオマーカーとして選択する、請求項5又は6に記載のバイオマーカー検出方法。
  8.  前記1又は2以上の参照生体から得られたデータは、良好な健康状態にある生体から取得したデータである、請求項1から7のいずれか一項に記載のバイオマーカー検出方法。
  9.  前記1又は2以上の参照生体から得られたデータは、特定の病気に罹っている生体から取得したデータである、請求項1から7のいずれか一項に記載のバイオマーカー検出方法。
  10.  前記対象データセットを生成する工程が、前記対象生体から複数回得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して前記対象データセットを生成する、請求項1から9のいずれか一項に記載のバイオマーカー検出方法。
  11.  請求項1から10のいずれか一項に記載のバイオマーカー検出方法を用いて前記バイオマーカーを検出し、検出された前記バイオマーカーが所定の疾病に対応したバイオマーカーであるか否かを判断する、疾病判断方法。
  12.  生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置であって、
     1又は2以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第1の記憶部と、
     前記対象生体から得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して対象データセットを生成し、記憶する第2の記憶部と、
     前記第1の記憶部に記憶される前記参照データセットの中の前記複数の因子項目の間で第1の相関係数を求め、前記第2の記憶部に記憶される前記対象データセットの中の前記複数の因子項目の間で第2の相関係数を求め、前記第1の相関係数と前記第2の相関係数との差分である差分相関係数を求め、前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、前記指標に基づいてバイオマーカーを選択する制御部と、
     を備える、バイオマーカー検出装置。
  13.  請求項1から10のいずれか一項に記載のバイオマーカー検出方法を、生体に関する測定により得られた複数の因子項目のデータに基づいて、検査対象である対象生体の状態の指標となるバイオマーカーを検出する、バイオマーカー検出装置であって、前記1又は2以上の参照生体から得られた参照生体データの中の複数の因子項目のデータに基づく参照データセットを記憶する第1の記憶部と、前記対象生体から得られた対象生体データの中の前記複数の因子項目のデータを前記参照データセットに追加して対象データセットを生成し、記憶する第2の記憶部と、前記第1の記憶部に記憶される前記参照データセットの中の前記複数の因子項目の間で第1の相関係数を求め、前記第2の記憶部に記憶される前記対象データセットの中の前記複数の因子項目の間で第2の相関係数を求め、前記第1の相関係数と前記第2の相関係数との差分である差分相関係数を求め、前記複数の因子項目のそれぞれについて前記差分相関係数に基づく指標を求め、前記指標に基づいてバイオマーカーを選択する制御部と、を備えるバイオマーカー検出装置に実行させる命令を含むバイオマーカー検出プログラム。
     

     
PCT/JP2018/018393 2017-05-12 2018-05-11 バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム WO2018207925A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/612,276 US11848075B2 (en) 2017-05-12 2018-05-11 Biomarker detection method, disease assessment method, biomarker detection device, and computer readable medium
CN201880028570.8A CN110603592B (zh) 2017-05-12 2018-05-11 生物标志物检测方法、疾病判断方法、生物标志物检测装置和生物标志物检测程序
JP2019517725A JP7124265B2 (ja) 2017-05-12 2018-05-11 バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-096060 2017-05-12
JP2017096060 2017-05-12

Publications (1)

Publication Number Publication Date
WO2018207925A1 true WO2018207925A1 (ja) 2018-11-15

Family

ID=64105531

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/018393 WO2018207925A1 (ja) 2017-05-12 2018-05-11 バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム

Country Status (4)

Country Link
US (1) US11848075B2 (ja)
JP (1) JP7124265B2 (ja)
CN (1) CN110603592B (ja)
WO (1) WO2018207925A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120245A (zh) * 2019-05-14 2019-08-13 河南省新乡市农业科学院(新乡农业科技创新中心) 一种同时定位多个基因的方法
WO2023210304A1 (ja) * 2022-04-28 2023-11-02 国立研究開発法人科学技術振興機構 システム状態急変予兆検出装置、システム状態急変予兆検出方法、システム状態急変予兆検出プログラム、渋滞予兆検出装置、渋滞予兆検出方法、渋滞予兆検出プログラム、未病状態検出装置、未病状態の検出方法、未病状態の検出プログラムおよび記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990266B (zh) * 2021-02-07 2023-08-15 西安电子科技大学 多模态脑影像数据处理的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050142573A1 (en) * 2002-09-10 2005-06-30 Sidney Kimmel Cancer Center, A California Non- Profit Corporation Gene segregation and biological sample classification methods
JP2005323573A (ja) * 2004-05-17 2005-11-24 Sumitomo Pharmaceut Co Ltd 遺伝子発現データ解析方法および、疾患マーカー遺伝子の選抜法とその利用
JP2014064515A (ja) * 2012-09-26 2014-04-17 Japan Science & Technology Agency 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2272044A4 (en) * 2008-03-12 2011-07-06 Ridge Diagnostics Inc INFLAMMATION BIOMARKERS FOR MONITORING DEPRESSION DISORDERS
CN101659991A (zh) * 2008-08-29 2010-03-03 首都医科大学宣武医院 帕金森病早期诊断标志物
WO2011047358A1 (en) * 2009-10-15 2011-04-21 Crescendo Bioscience Biomarkers and methods for measuring and monitoring inflammatory disease activity
US20110224101A1 (en) * 2009-11-10 2011-09-15 Xuefeng Ling Tumor associated proteome and peptidome analyses for multiclass cancer discrimination
CA2791905A1 (en) * 2010-03-01 2011-09-09 Caris Life Sciences Luxembourg Holdings, S.A.R.L. Biomarkers for theranostics
US20140236621A1 (en) * 2011-09-26 2014-08-21 Universite Pierre Et Marie Curie (Paris 6) Method for determining a predictive function for discriminating patients according to their disease activity status
JP6164678B2 (ja) 2012-10-23 2017-07-19 国立研究開発法人科学技術振興機構 ネットワークエントロピーに基づく生体の状態遷移の予兆の検出を支援する検出装置、検出方法及び検出プログラム
CN103336914B (zh) * 2013-05-31 2016-05-25 中国人民解放军国防科学技术大学 一种提取荟萃生物标志物的方法及装置
CN103336915A (zh) * 2013-05-31 2013-10-02 中国人民解放军国防科学技术大学 基于质谱数据获取生物标志物的方法及装置
WO2015171736A2 (en) * 2014-05-07 2015-11-12 University Of Utah Research Foundation Biomarkers and methods for diagnosis of early stage pancreatic ductal adenocarcinoma
US10453558B2 (en) * 2015-07-04 2019-10-22 Magqu Co. Ltd. Method for constructing quadrants with multiple independent biomarkers for diagnosing neurodegenerative diseases
CN105861728A (zh) * 2016-06-12 2016-08-17 上海市第十人民医院 循环miRNA作为年龄相关黄斑变性诊断标志物中的应用
JP6198161B2 (ja) * 2016-07-07 2017-09-20 国立研究開発法人科学技術振興機構 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050142573A1 (en) * 2002-09-10 2005-06-30 Sidney Kimmel Cancer Center, A California Non- Profit Corporation Gene segregation and biological sample classification methods
JP2005323573A (ja) * 2004-05-17 2005-11-24 Sumitomo Pharmaceut Co Ltd 遺伝子発現データ解析方法および、疾患マーカー遺伝子の選抜法とその利用
JP2014064515A (ja) * 2012-09-26 2014-04-17 Japan Science & Technology Agency 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120245A (zh) * 2019-05-14 2019-08-13 河南省新乡市农业科学院(新乡农业科技创新中心) 一种同时定位多个基因的方法
WO2023210304A1 (ja) * 2022-04-28 2023-11-02 国立研究開発法人科学技術振興機構 システム状態急変予兆検出装置、システム状態急変予兆検出方法、システム状態急変予兆検出プログラム、渋滞予兆検出装置、渋滞予兆検出方法、渋滞予兆検出プログラム、未病状態検出装置、未病状態の検出方法、未病状態の検出プログラムおよび記録媒体

Also Published As

Publication number Publication date
CN110603592A (zh) 2019-12-20
JPWO2018207925A1 (ja) 2020-03-19
US20210158899A1 (en) 2021-05-27
US11848075B2 (en) 2023-12-19
CN110603592B (zh) 2024-04-19
JP7124265B2 (ja) 2022-08-24

Similar Documents

Publication Publication Date Title
AU2017331813B2 (en) A method and apparatus for automatic disease state diagnosis
Lane et al. Associations between vascular risk across adulthood and brain pathology in late life: evidence from a British birth cohort
Wettergren et al. The use, feasibility and psychometric properties of an individualised quality-of-life instrument: a systematic review of the SEIQoL-DW
Stuijfzand et al. Stress myocardial perfusion imaging vs coronary computed tomographic angiography for diagnosis of invasive vessel-specific coronary physiology: predictive modeling results from the computed tomographic evaluation of atherosclerotic determinants of myocardial ischemia (CREDENCE) trial
US11037070B2 (en) Diagnostic test planning using machine learning techniques
Khan et al. Sex differences in acute coronary syndrome symptom presentation in young patients
Hebert et al. Alzheimer disease in the US population: prevalence estimates using the 2000 census
US20200315518A1 (en) Apparatus for processing data for predicting dementia through machine learning, method thereof, and recording medium storing the same
Austin et al. Logistic regression had superior performance compared with regression trees for predicting in-hospital mortality in patients hospitalized with heart failure
EP3312748A1 (en) Method for aiding a diagnosis, program and apparatus
Qiao et al. Racial differences in prevalence and risk for intracranial atherosclerosis in a US community-based population
RU2007124523A (ru) Способы, системы и компьютерные программные продукты для разработки и использования прогнозных моделей для прогнозирования большинства медицинских случаев, оценки стратегий вмешательства и для одновременной оценки нерегулярности биологических маркеров
WO2018207925A1 (ja) バイオマーカー検出方法、疾病判断方法、バイオマーカー検出装置、及びバイオマーカー検出プログラム
Kamal et al. Adherence to measuring what matters measures using point-of-care data collection across diverse clinical settings
Lambert et al. Diagnostic accuracy of FEV1/forced vital capacity ratio z scores in asthmatic patients
CA2885634C (en) Device for detecting a dynamical network biomarker, method for detecting same, and program for detecting same
JP2014083194A (ja) ネットワークエントロピーに基づく生体の状態遷移の予兆の検出を支援する検出装置、検出方法及び検出プログラム
Tanguay-Sabourin et al. A data-driven biopsychosocial framework determining the spreading of chronic pain
JP5547639B2 (ja) 診断マーカーの推定
JP6198161B2 (ja) 動的ネットワークバイオマーカーの検出装置、検出方法及び検出プログラム
GB2555381A (en) Method for aiding a diagnosis, program and apparatus
JP6948722B2 (ja) 検出装置及び検出プログラム
RU2742429C1 (ru) Способ экспресс-оценки изменений легочной ткани при COVID-19 без применения компьютерной томографии органов грудной клетки
Zhang et al. Deep Learning Model to Classify and Monitor Idiopathic Scoliosis in Adolescents Using a Single Smartphone Photograph
Warner et al. Predicting Osteoarthritis of the Temporomandibular Joint Using Random Forest with Privileged Information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18799345

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517725

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18799345

Country of ref document: EP

Kind code of ref document: A1