WO2021132547A1 - 検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム - Google Patents

検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム Download PDF

Info

Publication number
WO2021132547A1
WO2021132547A1 PCT/JP2020/048653 JP2020048653W WO2021132547A1 WO 2021132547 A1 WO2021132547 A1 WO 2021132547A1 JP 2020048653 W JP2020048653 W JP 2020048653W WO 2021132547 A1 WO2021132547 A1 WO 2021132547A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
body fluid
disease
fluid sample
marker
Prior art date
Application number
PCT/JP2020/048653
Other languages
English (en)
French (fr)
Inventor
淳 渥美
真紀子 吉本
敦子 宮野
Original Assignee
東レ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 東レ株式会社 filed Critical 東レ株式会社
Priority to JP2021500980A priority Critical patent/JPWO2021132547A1/ja
Publication of WO2021132547A1 publication Critical patent/WO2021132547A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers

Definitions

  • the present invention relates to a test method and a test device for testing a disease using a disease marker, a learning method and a learning device for generating a learned model used for the test, and a test program and a learning program.
  • Patent Document 1 discloses that after storing a sample in a serum state at 4 ° C. for 72 hours or 168 hours, the abundance of a part of miRNA in the sample fluctuates significantly. Therefore, it is common practice to unify the protocol, such as by aligning the test conditions including the collection of samples.
  • the present invention has been made in view of the above problems, and an object of the present invention is to allow a wide range of feasible sample collection conditions without imposing an excessive burden on the medical field, and to have high accuracy.
  • the purpose is to provide a method for testing a disease.
  • the test method according to the present invention is a test method for testing a disease using a disease marker in order to solve the above problems, and is a marker showing the result of measuring a disease marker in a body fluid sample collected from a subject.
  • a sample data acquisition step for acquiring data and preparation data indicating the preparation conditions of the body fluid sample, a set of marker data showing the results of measuring disease markers in the body fluid sample, and a set of preparation data for the body fluid sample, and the body fluid sample.
  • one aspect of the test method according to the present invention is in marker data showing the result of measuring a disease marker in a body fluid sample, preparation data showing the preparation conditions of the body fluid sample, and a subject from which the body fluid sample is collected.
  • Machine learning is performed on the correlation between the training data acquisition step for acquiring clinical data indicating the presence or absence of disease, the set of the marker data and the preparation data acquired in the learning data acquisition step, and the clinical data.
  • the configuration further includes a model generation step of generating the trained model.
  • the learning method according to the present invention is a learning method for generating a learned model used for a disease test using a disease marker in order to solve the above problem, and measures the disease marker in a body fluid sample.
  • a model generation step of generating a learned model capable of discriminating the morbidity of the disease from the marker data and the prepared data by machine learning the correlation between the set of the prepared data and the clinical data. The composition.
  • the learning device is a learning device that generates a learned model used for a disease test using a disease marker in order to solve the above problems, and measures the disease marker in a body fluid sample.
  • a model generation unit that generates a trained model capable of discriminating the morbidity of the disease from the marker data and the prepared data by machine learning the correlation between the set of the prepared data and the clinical data. It is a equipped configuration.
  • the testing device is a testing device that tests for a disease using a disease marker in order to solve the above-mentioned problems, and is a sample that acquires the above-mentioned marker data and the above-mentioned preparation data in a body fluid sample derived from a subject.
  • a discrimination unit that discriminates the morbidity of the disease from the marker data and the preparation data acquired by the sample data acquisition unit. It is a equipped configuration.
  • the medical field is not overloaded. It is possible to carry out highly accurate disease inspections.
  • the testing device in the present embodiment is a device that tests a disease using a disease marker, inputs marker data showing the result of measuring the disease marker in the body fluid sample, and preparation data of the body fluid sample, and inputs the disease. It is an inspection device that determines the presence or absence of disease by using a trained model in which the presence or absence of disease is machine-learned as an output.
  • body fluid sample refers to a body fluid collected from a subject used for an examination.
  • the body fluid is not particularly limited as long as it can be used for a test for measuring a disease marker, and examples thereof include blood, serum, plasma, cerebrospinal fluid, urine, saliva, tears, tissue fluid, and lymph fluid. Among these, blood, serum and plasma are preferably used.
  • disease marker refers to a biomolecule whose presence or abundance is related to a specific disease.
  • Disease markers include, for example, DNA, RNA and proteins.
  • RNA is preferably used, and non-coding RNA (ncRNA) is more preferably used.
  • NcRNAs are roughly classified into small molecule ncRNAs having a length of about 20 to 200 bases and long-chain ncRNAs having a total length of several hundred bases to several hundred thousand bases. Examples of ncRNA include translocated RNA, ribosome RNA, nuclear small RNA, nuclear body small RNA, signal recognition complex RNA, miRNA, piRNA, long non-coding RNA, circular RNA, and untranslated region of mRNA.
  • MiRNA is particularly preferably used.
  • the disease is not particularly limited as long as the presence of a disease marker is known, and examples thereof include cancer, dementia, hypertension, heart disease, brain disease, hepatitis, infectious disease, and allergy.
  • cancer include pancreatic cancer, biliary tract cancer, breast cancer, lung cancer, colon cancer, esophageal cancer, gastric cancer, liver cancer, prostate cancer, bladder cancer, brain cancer, hematological cancer, ovarian cancer, uterine cancer and the like. It can be pancreatic cancer and biliary tract cancer.
  • the "marker data” is data indicating the presence or absence or abundance of one or more disease markers obtained by measuring the disease markers in the body fluid sample.
  • the "abundance amount” can be rephrased as the "expression level”.
  • “measuring” can be paraphrased as "detecting.”
  • the marker data in the present embodiment is not limited to the result obtained by measuring one specific disease marker, but a plurality of measurement results or numerical values corresponding to each disease marker obtained by measuring a plurality of disease markers. It may include data.
  • the measurement results of the plurality of disease markers may be the results of simultaneous measurement of each disease marker or the results of independent measurement.
  • the number is not limited and may be, for example, 2 or more, 3 or more, 4 or more, 5 or more, 10 or more, 15 or more, 20 or more, 30 or more or 40 or more.
  • the measuring means for obtaining the marker data can be appropriately selected depending on the biomolecule to be measured and the necessary data. Examples of the measuring means include microarrays, various PCRs including qRT-PCR, various sequencings including next-generation sequencing, ELISA and the like. Among them, it is preferable to use a microarray from the viewpoint that a plurality of disease markers can be measured at the same time and a highly accurate test can be performed by using the plurality of disease markers.
  • the conversion method is not particularly limited as long as there is a correlation between the measurement result and the numerical data.
  • the term "subject” refers to primates including humans and chimpanzees, pet animals such as dogs and cats, domestic animals such as cows, horses, sheep and goats, rodents such as mice and rats, and zoos. Means mammals such as animals bred in. A preferred subject is human.
  • a "healthy person” is an individual of the same species as the target subject and is not affected by the target disease.
  • the "preparation data” is data indicating the preparation conditions of the body fluid sample, and includes one or more information regarding the body fluid sample other than the measurement result of the disease marker obtained by the measurement. Specifically, as an example of the information contained in the preparation data, the information on the subject from which the body fluid sample was collected, the information indicating the collection conditions of the body fluid sample, and the information applied to the body fluid sample before the measurement of the disease marker in the body fluid sample are applied. Information on the processing conditions can be mentioned. The profile of the disease marker in the body fluid sample may fluctuate not a little when the subject or the state of the subject is different, or when the collection condition or the processing condition of the body fluid sample is different.
  • Information on the subject is information about the body fluid sample and the information about the subject itself, which is not directly related to the collection of the body fluid sample, or information about the physical condition of the subject at the time of collecting the body fluid sample.
  • information includes, for example, the race of the subject, the dietary content and feeding time on the day or the day before the sample collection, the time from the final eating and drinking of the subject to the collection of body fluid, and the subject taking the drug.
  • Information on the type of drug to be taken or the physical condition such as the time from taking the drug to the collection of the drug can be mentioned.
  • Information indicating the conditions for collecting body fluid samples is information on the conditions for collecting body fluids and the equipment used. Such information includes the type of blood collection needle used when a needle was used to collect body fluid, and the blood collection tube used to collect blood when the body fluid was blood or a component derived from blood. Examples include the type, the type of coagulation promoter or coagulation inhibitor added to the blood collection tube, and the type of blood vessel (capillary blood or venous blood) at the time of blood collection.
  • the “conditions for the treatment applied to the body fluid sample” are the conditions for various treatments and operations applied to the body fluid sample before the measurement of the disease marker, and include the conditions for the storage of the body fluid sample.
  • Preservation conditions include, for example, the time and temperature until freezing or transfer to a freezer, and the temperature at the time of cryopreservation, when the body fluid is collected and then cryopreserved without immediately analyzing the disease marker.
  • Time to cryopreserve time to inactivate degrading enzymes in body fluid specimens, such as RNase, DNase or Protease, material of specimen storage container during cryopreservation, and temperature at the start of cryopreservation. Whether or not packing materials are used to soften the impact of changes can be mentioned.
  • the conditions for various treatments and operations that can be applied to the body fluid sample include, when the body fluid is centrifuged, or when the collected blood is centrifuged to obtain serum which is an actual body fluid sample.
  • the time from collecting the body fluid from the subject to performing the centrifugation operation, the centrifugal acceleration, and the like can be mentioned.
  • an actual body fluid sample can be obtained by performing a centrifugation operation on the collected body fluid
  • the time until the body fluid sample is frozen or transferred to the freezer after the centrifugation operation is also the time of the treatment applied to the body fluid sample. It is given as an example of the condition.
  • the time from the frozen state to the thawing of the body fluid sample, the temperature for thawing, and the like can be mentioned.
  • the preparation data may include at least one of the above information, and may include 2 or more, 3 or more, or 4 or more.
  • Chronic data is data indicating the presence or absence of disease in the subject from which the body fluid sample was collected. In the learning data described later, the presence or absence of disease may be diagnosed by histopathological examination.
  • FIG. 1 is a functional block diagram showing a schematic configuration of an inspection device and a terminal device according to the present embodiment.
  • the inspection device 100 is configured to communicate with a terminal device 200 including a display unit, an input device, and the like.
  • the inspection device 100 is not limited to the configuration of the present embodiment, and for example, the inspection device 100 may include a display unit, an input device, and the like by itself without communicating with the terminal device 200.
  • the inspection device 100 includes a control unit 110, a storage unit 120, and a communication unit 130.
  • the control unit 110 includes an acquisition unit (learning data acquisition unit, sample data acquisition unit) 140, a model generation unit 150, and a discrimination unit 160.
  • the acquisition unit 140 includes a marker data acquisition unit 141, a preparation data acquisition unit 142, and a clinical data acquisition unit 143.
  • the control unit 110 comprehensively controls the inspection device 100.
  • the storage unit 120 is a storage device that stores data necessary for processing of the inspection device 100. Further, the storage unit 120 stores the learned model 121.
  • the storage unit 120 may be an external device of the inspection device 100.
  • the storage unit 120 may be a storage device such as a server that is communicably connected to the inspection device 100.
  • the marker data acquisition unit 141 acquires marker data indicating the result of measuring the disease marker in the body fluid sample.
  • the preparation data acquisition unit 142 acquires preparation data indicating the preparation conditions of the body fluid sample.
  • the clinical data acquisition unit 143 acquires clinical data indicating the presence or absence of disease in the subject from which the body fluid sample has been collected.
  • the acquisition unit 140 stores marker data, preparation data, and clinical data for the same body fluid sample in the storage unit 120 in association with each other.
  • the model generation unit 150 performs machine learning using the marker data, the preparation data corresponding to the marker data, and the clinical data corresponding to the marker data, and sets the marker data and the preparation data corresponding to the marker data. And a trained model 121 trained to correlate with clinical data is generated. Various parameters defining the trained model 121 are stored in the storage unit 120. Specific algorithms for generating the trained model 121 are not particularly limited, including neural networks, decision trees, random forests, gradient boosting, bagging, support vector machines (SVMs), mappings, clustering, and self-organizing maps (SOMs).
  • SVMs support vector machines
  • SOMs self-organizing maps
  • the discriminant unit 160 uses the learned model 121 stored in the storage unit 120 to determine whether or not the subject on which the input marker data and the corresponding preparation data are based suffers from the disease of interest. To determine. Specifically, the discrimination unit 160 inputs the marker data and the corresponding preparation data into the trained model 121 stored in the storage unit 120, and acquires the discrimination result output from the trained model 121. The acquired determination result is transmitted to the terminal device 200 via the communication unit 130.
  • the discrimination result output from the trained model 121 may be output as a numerical value within a certain numerical range. In this case, if the numerical value as the discrimination result exceeds the threshold value specified in advance, the discrimination unit 160 determines that the sample to be tested is positive (affected).
  • the discriminating unit 160 may transmit the result to the terminal device 200.
  • the numerical value output from the trained model 121 may be transmitted to the terminal device 200 as it is, and the user may determine whether the sample is positive or negative based on a predetermined criterion.
  • a plurality of predetermined threshold values may be provided step by step. In this case, the discriminating unit 160 discriminates the degree of morbidity risk of the sample to be tested in a plurality of stages, for example, depending on which of the plurality of thresholds the numerical value as the discriminant result exceeds.
  • a first threshold value and a second threshold value lower than the first threshold value are set as threshold values, and when the first threshold value is exceeded, the discriminating unit 160 determines that the risk is high, and the value is equal to or lower than the first threshold value. If there is and the second threshold value is exceeded, the discriminating unit 160 may determine that the risk is in progress, and if it is equal to or less than the second threshold value, the discriminating unit 160 may determine that the risk is low.
  • the inspection device 100 having the model generation unit 150 in the control unit 110 and the clinical data acquisition unit 143 in the acquisition unit 140 is described.
  • the inspection device 100 does not have to be provided with the model generation unit 150 and the clinical data acquisition unit 143.
  • the learning device including at least the marker data acquisition unit 141, the preparation data acquisition unit 142, the acquisition unit 140 including the clinical data acquisition unit 143, and the model generation unit 150, which exists independently of the inspection device 100, described above.
  • the trained model 121 of the above may be constructed.
  • the inspection device 100 can use the learned model 121 by reading the learned model 121 stored in the storage medium.
  • the inspection device 100 receives the trained model 121 from another device via a wired or wireless network, so that the trained model 121 can be used in the inspection device 100.
  • the terminal device 200 includes a communication unit 210, a control unit 220, an input device 230, and a display unit 240.
  • the communication unit 210 is a communication interface for transmitting / receiving data to / from the inspection device 100 by wire or wirelessly.
  • the control unit 220 controls the terminal device 200 in an integrated manner.
  • the display unit 240 is a display capable of displaying images, characters, and the like.
  • the input device 230 accepts user input, and is realized by, for example, a touch panel, a mouse, a keyboard, or the like. When the input device 230 is a touch panel, the touch panel is provided on the display unit 240. The user can use the function of the inspection device 100 via the terminal device 200.
  • the inspection device 100 executes a learning phase (corresponding to the learning method) for generating a trained model and an inspection phase (corresponding to the inspection method) for performing an inspection using the trained model generated in the learning phase.
  • FIG. 2 is a flowchart showing the processing flow of the control unit 110 in the learning phase. Note that some steps may be performed in parallel or in a different order.
  • the control unit 110 acquires marker data obtained by measuring a disease marker in a body fluid sample, which is used as learning data (S10; learning data acquisition step).
  • the control unit 110 acquires preparation data, which is information related to the preparation of the body fluid sample, which is used as learning data (S11; learning data acquisition step).
  • the control unit 110 acquires clinical data indicating the presence or absence of disease in the subject from which the body fluid sample has been collected, which is used as learning data (S12; learning data acquisition step).
  • These learning data may be, for example, those stored in advance in the storage unit 120 by the user, or those uploaded to the inspection device 100 by the user operating the terminal device 200. May be good.
  • the control unit 110 stores each data acquired by the acquisition unit 140 in the storage unit 120.
  • the model generation unit 150 uses the marker data, the preparation data corresponding to the marker data, and the clinical data corresponding to the marker data to machine-learn the correlation between the marker data and the set of preparation data and the clinical data.
  • the trained model 121 is generated and stored in the storage unit 120 (S13; model generation step). This completes the learning phase.
  • FIG. 3 is a flowchart showing the processing flow of the control unit 110 in the inspection phase. Note that some steps may be performed in parallel or in a different order.
  • the process shown in FIG. 3 is started, for example, triggered by the user performing an operation instructing the execution of the inspection process.
  • the control unit 110 acquires marker data as test data (S20; sample data acquisition step).
  • the control unit 110 acquires preparation data corresponding to the acquired marker data as test data (S21; sample data acquisition step).
  • the inspection data may be, for example, one stored in advance in the storage unit 120 by the user, or may be uploaded to the inspection device 100 by the user operating the terminal device 200.
  • the control unit 110 stores each data acquired by the acquisition unit 140 in the storage unit 120.
  • the discrimination unit 160 inputs the acquired marker data and preparation data into the trained model 121 (S22; discrimination step), and acquires the discrimination result output from the trained model 121 (S23; discrimination step).
  • the discrimination unit 160 transmits the output data indicating the acquired discrimination result to the terminal device 200 via the communication unit 130 (S24). This completes the inspection phase.
  • the output data received via the communication unit 210 is displayed on the display unit 240.
  • the user Before executing the above-mentioned process, the user needs to acquire "marker data”, "preparation data” and “clinical data”.
  • "Preparation data” and “clinical data” are usually data obtained at the medical institution where the sample was collected.
  • the "marker data” is usually acquired at the medical institution where the sample was collected or a laboratory different from the medical institution. Therefore, when the user belongs to a laboratory, the user is provided with “preparation data” and "clinical data” from the medical institution in advance.
  • the processing of the learning phase and the processing of the inspection phase in the inspection device 100 do not necessarily have to be performed continuously. That is, it is possible to execute only the processing of the learning phase in advance and wait until the processing of the inspection phase is required. Further, the processing of the learning phase may be executed in the above-mentioned learning device, and the inspection device 100 may execute only the processing of the inspection phase. In this case, the inspection device 100 may acquire the trained model generated in the learning device in advance from the learning device.
  • the inspection device 100 in the present embodiment determines the presence or absence of morbidity of the disease by using the marker data and the prepared data, but additionally, another data (hereinafter, additional data) is used.
  • additional data another data
  • a disease marker or test value conventionally used as an index of morbidity of a disease that is different from the disease to be tested but is not directly related to the disease to be tested is used in combination with the above-mentioned prepared data. You may.
  • test values such as protein disease marker amounts such as PSA and CYFRA, and HDL cholesterol amount and LDL cholesterol amount may be used as additional data in combination with the prepared data.
  • the control unit 110 acquires the additional data in the same manner as the preparation data.
  • the model generation unit 150 may generate a trained model in which the correlation with the clinical data is machine-learned after adding additional data to the set of the marker data and the preparation data corresponding to the marker data.
  • the control unit 110 acquires additional data as inspection data.
  • the discrimination unit 160 may also use the additional data for input to the trained model and acquire the discrimination result.
  • the index (preparation) unrelated to the presence or absence of the disease is used.
  • Data) is also used as input information to create a trained model.
  • the change in the disease markers that may occur due to the difference in the parameters corresponding to the prepared data may differ for each disease marker. Therefore, when the test accuracy is improved by using a plurality of disease markers, it is necessary to reduce the fluctuation of the disease markers, and stricter adherence to the protocol is required.
  • it since it is only necessary to record the information, it can be more preferably applied to the examination using a plurality of disease markers.
  • control block control unit 110, particularly acquisition unit 140, model generation unit 150, and discrimination unit 160 of the inspection device 100 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like. However, it may be realized by software.
  • the inspection device 100 includes a computer that executes a program instruction, which is software that realizes each function.
  • This computer includes, for example, at least one processor (control device) and at least one computer-readable recording medium that stores the program. Then, in the computer, the processor reads the program from the recording medium and executes it, thereby achieving the object of the present invention.
  • the processor for example, a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit) can be used.
  • the recording medium in addition to a “non-temporary tangible medium” such as a ROM (Read Only Memory), a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • a RAM RandomAccessMemory
  • the program may be supplied to the computer via an arbitrary transmission medium (communication network, broadcast wave, etc.) capable of transmitting the program.
  • a transmission medium communication network, broadcast wave, etc.
  • one aspect of the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the above program is embodied by electronic transmission.
  • the test method according to the present invention is a test method for testing a disease using a disease marker, and marker data showing the result of measuring a disease marker in a body fluid sample collected from a subject, and preparation of the body fluid sample.
  • a sample data acquisition process for acquiring preparation data indicating conditions, a set of marker data indicating the results of measuring disease markers in a body fluid sample, a set of preparation data for the body fluid sample, and a disease in the subject from which the body fluid sample was collected.
  • the prepared data is the information of the subject, the information indicating the collection conditions of the body fluid sample, and the treatment applied to the body fluid sample before the measurement of the disease marker. Contains at least one piece of information selected from the conditional information of.
  • the treatment conditions applied to the body fluid sample are the time until the body fluid sample is cryopreserved, the temperature at the time of cryopreservation, the time during which the body fluid sample is cryopreserved, and. It is at least one condition selected from the time until the body fluid sample is centrifuged.
  • the above information indicating the collection conditions of the body fluid sample is the thickness of the needle used for collecting the body fluid sample, and the blood collection tube used for collecting the body fluid sample. And at least one piece of information selected from the time from the final eating and drinking in the subject to the collection of the body fluid sample.
  • the above information of the subject is information regarding the race of the subject.
  • the body fluid sample is blood, serum, plasma, cerebrospinal fluid, urine, saliva, tears, interstitial fluid or lymph.
  • the body fluid sample is blood, serum or plasma.
  • the disease marker is miRNA.
  • the marker data is data obtained from microarray, PCR or sequencing.
  • one aspect of the test method according to the present invention is in marker data showing the result of measuring a disease marker in a body fluid sample, preparation data showing the preparation conditions of the body fluid sample, and a subject from which the body fluid sample is collected.
  • Machine learning is performed on the correlation between the training data acquisition step for acquiring clinical data indicating the presence or absence of disease, the set of the marker data and the preparation data acquired in the learning data acquisition step, and the clinical data.
  • the configuration further includes a model generation step of generating the trained model.
  • the learning method is a learning method for generating a learned model used for a disease test using a disease marker, and is marker data showing the result of measuring a disease marker in a body fluid sample, and the body fluid sample.
  • a learning data acquisition step for acquiring preparation data indicating preparation conditions and clinical data indicating the presence or absence of disease in the subject from which the body fluid sample was collected, and a set of the acquired marker data and the preparation data.
  • the configuration includes a model generation step of generating a learned model capable of discriminating the morbidity of the disease from the marker data and the prepared data by machine learning the correlation with the clinical data.
  • the learning device is a learning device that generates a learned model used for a disease test using a disease marker, and is marker data showing the result of measuring a disease marker in a body fluid sample, and the body fluid sample.
  • a learning data acquisition unit that acquires preparation data indicating preparation conditions and clinical data indicating the presence or absence of disease in the subject from which the body fluid sample was collected, and a set of the acquired marker data and the preparation data.
  • the configuration includes a model generation unit that generates a learned model capable of discriminating the morbidity of the disease from the marker data and the prepared data by machine learning the correlation with the clinical data.
  • the testing device is a testing device that tests for a disease using a disease marker, and is a sample data acquisition unit that acquires the marker data and the prepared data in a body fluid sample derived from a subject, and the above-mentioned learning.
  • the configuration includes a discriminating unit for discriminating the morbidity of the disease from the marker data and the prepared data acquired by the sample data acquisition unit.
  • the inspection device and the learning device according to each aspect of the present invention may be realized by a computer.
  • the inspection is performed by operating the computer as the inspection device or each part (software element) included in the learning device.
  • An inspection program or learning program that realizes the device or the learning device on a computer, and a computer-readable recording medium on which the device or the learning device is recorded are also included in the scope of the present invention.
  • sample group 1 As a sample, 300 ⁇ L of each serum obtained from each of the above 96 persons was used. Total RNA was obtained from each serum using a reagent for RNA extraction in 3D-Gene (registered trademark) RNA extraction reagent from liquid sample kit (Toray Industries, Inc. (Japan)) according to the protocol specified by the company.
  • 3D-Gene registered trademark
  • RNA extraction reagent from liquid sample kit (Toray Industries, Inc. (Japan)
  • RNA obtained from each of the above 96 sera was fluorescently labeled with 3D-Gene (registered trademark) miRNA Labeling kit (Toray Industries, Inc.) based on the protocol defined by the company. ..
  • 3D-Gene registered trademark
  • Human miRNA Oligo chip equipped with a probe having a sequence complementary to miRNA registered in miRBase release 21 is used, and is based on a protocol defined by the company. Hybridization and washing after hybridization were performed under stringent conditions.
  • the DNA chip was scanned using a 3D-Gene (registered trademark) scanner (Toray Industries, Inc.), images were acquired, and the fluorescence intensity was quantified by 3D-Gene (registered trademark) Extension (Toray Industries, Inc.).
  • the expression level of the gene detected as follows was calculated using the quantified fluorescence intensity. First, excluding 5% each of the maximum and minimum signal intensities of multiple negative control spots, the [mean value + 2 x standard deviation] was calculated, and genes showing signal intensities greater than this value were considered to have been detected. It was. In addition, the average value of the signal intensity of the negative control spot excluding 5% each of the maximum rank and the minimum rank is subtracted from the signal intensity of the detected gene, and the value after the subtraction is converted to a logarithmic value having a base of 2. The gene expression level was used.
  • sample group 2 As a sample, 300 ⁇ L of each serum obtained from each of the above 24 persons was used, and total RNA was obtained in the same manner as in Reference Example 1. Hereinafter, the sample group in Reference Example 2 will be referred to as sample group 2.
  • Example 1 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 1: 45 types of miRNA are used>
  • a gradient boosting decision tree was used as an example of machine learning.
  • Clinical data showing whether the patient has cancer or is healthy, the signal value of the gene expression level of each miRNA, the time required from blood collection to centrifugation, and the time required from centrifugation to storage at -80 ° C.
  • Machine learning was performed using the above, and a discrimination model (learned model) for classifying whether the patient had cancer or was healthy was created and verified.
  • 45 types of miRNAs that have been shown to be associated with pancreatic cancer or biliary tract cancer in advance were arbitrarily selected as the miRNAs to be used.
  • the following step-by-step procedure was taken to distinguish between pancreatic cancer and biliary tract cancer. That is, the data of the sample group 1 was divided into 6: 4, and a learning sample group and a verification sample group were created. A discrimination model was obtained from the gradient boosting decision tree in the learning sample group, and this was verified in the verification sample group. As a result of the verification, the sensitivity for determining pancreatic cancer and biliary tract cancer as positive was 94.4%, the specificity for determining healthy subjects as negative was 95.2%, and the accuracy was 94.9%.
  • sensitivity is the ratio of positives correctly classified as positives. Higher sensitivity allows early detection of the disease.
  • the "specificity” is the ratio of negatives correctly classified as negatives.
  • the accuracy indicates the ratio of the discrimination results to all the samples being correct, and is the first index for evaluating the test performance.
  • Example 2 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 2: Using 78 types of miRNA> A discriminant model was created and verified in the same manner as in Example 1 except that 78 types of miRNAs that were shown to be associated with pancreatic cancer or biliary tract cancer were arbitrarily selected as miRNAs to be used. It was. As a result of the verification, the sensitivity for determining pancreatic cancer and biliary tract cancer as positive was 88.9%, the specificity for determining healthy subjects as negative was 95.2%, and the accuracy was 92.3%.
  • Example 3 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 3: Using 45 types of miRNA>
  • the discrimination model created in Example 1 was verified by using the data of the sample group 2 instead of the data of the sample group 1.
  • the specificity for making healthy subjects negative was 87.5%.
  • Example 4 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 4: Using 78 types of miRNA>
  • the discrimination model created in Example 2 was verified by using the data of the sample group 2 instead of the data of the sample group 1.
  • the specificity for making healthy subjects negative was 100.0%.
  • a gradient boosting decision tree was used as an example of machine learning.
  • Machine learning is performed using clinical data showing whether the patient has cancer or is healthy, and the signal value of the gene expression level of each miRNA, and a discriminant model for classifying whether the patient has cancer or is healthy is created. And verified.
  • the miRNA used was 45 types, the same as in Example 1.
  • the following step-by-step procedure was taken to distinguish between pancreatic cancer and biliary tract cancer. That is, the data of the sample group 1 was divided into 6: 4, and a learning sample group and a verification sample group were created. A discrimination model was obtained from the gradient boosting decision tree in the learning sample group, and this was verified in the verification sample group. As a result of the verification, the sensitivity for determining pancreatic cancer and biliary tract cancer as positive was 88.9%, the specificity for determining healthy subjects as negative was 95.2%, and the accuracy was 92.3%. That is, it was shown that the sensitivity and accuracy were inferior to those of Example 1.
  • Comparative Example 3 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 7: 45 types of miRNA are used>
  • the discrimination model created in Comparative Example 1 was verified by using the data of the sample group 2 instead of the data of the sample group 1.
  • the specificity for making healthy subjects negative was 33.3%. That is, it was shown that the specificity was inferior to that of Example 3.
  • Comparative Example 4 ⁇ Verification of pancreatic cancer and biliary tract cancer discrimination performance by machine learning 8: Using 78 types of miRNA>
  • the discrimination model created in Comparative Example 2 was verified by using the data of the sample group 2 instead of the data of the sample group 1.
  • the specificity for making healthy subjects negative was 79.2%. That is, it was shown that the specificity was inferior to that of Example 3.
  • the present invention can be used for a disease test using a disease marker.

Abstract

医療現場に過度の負担をかけることなく、精度の高い疾患の検査方法を提供する。検査装置(100)は、検体中の疾患マーカーを測定した結果を示すマーカーデータ、および該検体の調製条件を示す調製データを取得するステップ(S20、S21)と、検体中の疾患マーカーを測定した結果を示すマーカーデータおよび該検体の調製データの組と疾患の罹患の有無との相関関係を機械学習させた学習済モデル(121)に、マーカーデータおよび調製データを入力し(S22)、疾患の罹患の有無を判別するステップ(S23)とを実行する。

Description

検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム
 本発明は、疾患マーカーを用いて疾患の検査を行う検査方法および検査装置、当該検査に用いられる学習済モデルを生成する学習方法および学習装置、ならびに検査プログラムおよび学習プログラムに関する。
 疾患等の検査を目的とした、血液中に含まれるタンパク質、DNAおよびRNAの解析が、1960年代から行われている。特に2007年頃からは、miRNAを対象とした解析も盛んに行われるようになっている。近年、血清中miRNAの発現プロファイルからがん等の罹患有無を判定する取り組みが、世界中で実施されている。
 疾患の罹患に関係する、疾患の罹患の指標となるこれらの生体分子(疾患マーカー)を用いた検査では、検体の採取に伴う疾患マーカーの存在量の変動を抑える必要がある。例えば、特許文献1には、血清状態の検体を4℃で72時間または168時間保存した後、検体中の一部のmiRNAの存在量が大きく変動することが開示されている。そのため、検体の採取も含めた検査条件を揃えて実施する等、プロトコールを統一するといった工夫が一般的になされている。
国際公開WO2017/146033
 被検者検体のサンプリングは各医療機関で実施されるため、その条件は各機関により異なり得る。そのため、疾患マーカーの変動をもたらさないように、医療機関に対して条件統一の協力を仰ぐなどの対応を余儀なくされている。
 さらに、本発明者らが検討を進めていく中で、特許文献1に示された比較的長い時間の保存(72時間または168時間)を行った場合のみならず、血清を調整するまでの短い時間(例えば6時間以内)でも、miRNAの発現プロファイルに思いがけず大きな変動が存在し得ることが判明した。そのため、精度高く検査を行うには、変動しやすいmiRNAを解析対象から除外するか、または、変動を少しでも抑えるために、医療機関に対し、統一プロトコールの順守、またはより細かな条件でのサンプリングを依頼する必要性が生じている。しかしながら、一部のmiRNAを解析対象から除外することによるデータの破棄は、精度の高い検査を行ううえで大きな損失である。また厳格なプロトコールの順守、およびより細かな条件でのサンプリングは、医療現場へさらなる負担を強いることになり、検査の実施または普及の妨げとなりかねない。
 そこで、本発明は上記の問題点に鑑みてなされたものであり、その目的は、医療現場に過度の負担をかけることなく、実施可能な検体採取条件の幅を許容したうえで、精度の高い疾患の検査方法を提供することにある。
 本発明に係る検査方法は、上記課題を解決するために、疾患マーカーを用いて疾患の検査を行う検査方法であって、被検体から採取した体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、および該体液検体の調製条件を示す調製データを取得する検体データ取得工程と、体液検体中の疾患マーカーを測定した結果を示すマーカーデータおよび該体液検体の調製データの組と、該体液検体が採取された被検体における疾患の罹患の有無との相関関係を機械学習させた学習済モデルに、上記検体データ取得工程で取得した上記マーカーデータおよび上記調製データを入力することによって、上記被検体における疾患の罹患の有無を判別する工程とを含む、構成である。
 また、本発明に係る検査方法の一態様は、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、上記学習用データ取得工程で取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記学習済モデルを生成するモデル生成工程とをさらに含む構成である。
 本発明に係る学習方法は、上記課題を解決するために、疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習方法であって、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成工程とを含む、構成である。
 本発明に係る学習装置は、上記課題を解決するために、疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習装置であって、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得部と、取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成部と、を備えている構成である。
 本発明に係る検査装置は、上記課題を解決するために、疾患マーカーを用いて疾患の検査を行う検査装置であって、被検体由来の体液検体における上記マーカーデータおよび上記調製データを取得する検体データ取得部と、上述の学習装置により生成された上記学習済モデルを用いて、上記検体データ取得部が取得した上記マーカーデータおよび上記調製データから、上記疾患の罹患を判別する判別部と、を備えている構成である。
 本発明の一態様によれば、検体中の疾患マーカーを測定した結果を示すマーカーデータに加えて、検体の調製条件を示す調製データも用いることで、医療現場に過度の負担をかけることなく、精度の高い疾患の検査を行うことができる。
本発明の一実施形態に係る検査装置および端末装置の概略構成を示す機能ブロック図である。 本発明の一実施形態に係る検査装置の制御部の学習フェーズにおける処理の流れを示すフローチャートである。 本発明の一実施形態に係る検査装置の制御部の検査フェーズにおける処理の流れを示すフローチャートである。
 本発明の一実施形態について説明する。本実施形態における検査装置は、疾患マーカーを用いた疾患の検査を行う装置であって、体液検体中の疾患マーカーを測定した結果を示すマーカーデータおよび該体液検体の調製データを入力、かつ疾患の罹患の有無を出力として機械学習させた学習済モデルを用いて、疾患の罹患の有無を判別する検査装置である。
 〔用語〕
 まず、用語について説明する。本明細書において、「体液検体」とは、検査に用いられる、被検体から採取された体液のことをいう。体液としては、疾患マーカーの測定を目的とした検査に使用可能であれば特に制限はないが、一例として、血液、血清、血漿、髄液、尿、唾液、涙、組織液またはリンパ液が挙げられる。これらの中でも、血液、血清および血漿が好適に用いられる。
 本明細書において、「疾患マーカー」とは、その存在または存在量が特定の疾患との間で関係性のある生体分子のことをいう。疾患マーカーとしては、例えば、DNA、RNAおよびタンパク質等が挙げられる。これらの中でもRNAが好適に用いられ、ノンコーディングRNA(ncRNA)がより好適に用いられる。ncRNAは、20塩基長から200塩基長程度の小分子ncRNAと全長が数百塩基長から数十万塩基長の長鎖ncRNAとに大別される。ncRNAとしては、転移RNA、リボソームRNA、核内低分子RNA、核小体低分子RNA、シグナル認識複合体RNA、miRNA、piRNA、長鎖ノンコーディングRNA、環状RNA、およびmRNAの非翻訳領域等が挙げられ、miRNAが特に好適に用いられる。また、疾患は、疾患マーカーの存在が知られている疾患であれば特に制限されず、癌、認知症、高血圧、心臓疾患、脳疾患、肝炎、感染症、およびアレルギー等が挙げられる。癌としては、膵臓癌、胆道癌、乳癌、肺癌、大腸癌、食道癌、胃癌、肝臓癌、前立腺癌、膀胱癌、脳腫瘍、血液癌、卵巣癌、および子宮癌等が挙げられ、一例として、膵臓癌および胆道癌であり得る。
 本明細書において、「マーカーデータ」とは、体液検体中の疾患マーカーを測定することにより得られた、1以上の疾患マーカーの存否または存在量をそれぞれ示すデータである。なお、実際の検出対象がDNA、RNAまたはタンパク質である場合には、「存在量」は、「発現量」と言い換えることができる。また、疾患マーカーについて用いられる場合、「測定する」は、「検出する」と言い換えることができる。本実施形態におけるマーカーデータは、特定の一つの疾患マーカーを測定して得られた結果に限らず、複数の疾患マーカーを測定して得られた、各疾患マーカーに対応した複数の測定結果または数値データを含むものでもよい。複数の疾患マーカーの測定結果は、各疾患マーカーを同時に測定した結果であってもよいし、独立に測定を行った結果であってもよい。複数の疾患マーカーを用いる場合、その数は限定されず、例えば、2以上、3以上、4以上、5以上、10以上、15以上、20以上、30以上または40以上であり得る。マーカーデータを得るための測定手段としては、測定の対象となる生体分子および必要なデータに応じて適宜選択することができる。測定手段の一例としては、マイクロアレイ、qRT-PCRを含む各種PCR、次世代シーケンシングを含む各種シーケンシング、およびELISA等が挙げられる。なかでも、複数の疾患マーカーを同時に測定でき、複数の疾患マーカーを用いることで精度の高い検査を行える観点から、マイクロアレイを用いることが好ましい。測定結果を数値データへ変換する場合、変換方法は、測定結果と数値データとの間に相関関係がみられるものであれば、特に制限されない。
 本明細書において、「被検体」は、ヒトおよびチンパンジーを含む霊長類、イヌおよびネコ等の愛玩動物、ウシ、ウマ、ヒツジおよびヤギ等の家畜動物、マウスおよびラット等の齧歯類、ならびに動物園で飼育される動物等の哺乳動物を意味する。好ましい被検体は、ヒトである。また、「健常者」は、対象としている被検体と同一種の個体であって、対象としている疾患に罹患していない個体である。
 「調製データ」とは、体液検体の調製条件を示すデータであり、測定により得られる疾患マーカーの測定結果以外の、体液検体に関する1以上の情報を含む。詳細には、調製データに含まれる情報の一例としては、体液検体が採取された被検体における情報、体液検体の採取条件を示す情報、および体液検体における疾患マーカーの測定前に体液検体に施された処理の条件の情報が挙げられる。被検体または被検体の状態が相違したり、体液検体の採取条件または処理条件が相違すると、体液検体中の疾患マーカーのプロファイルは少なからず変動し得る。
 「被検体における情報」とは、体液検体および体液検体の採取とは直接関係のない、被検体自身についての情報、または体液検体採取時の被検体の身体の状態に関する情報である。このような情報としては、例えば、被検体の人種、検体採取の当日もしくは前日の食餌内容および摂食時間、被検体における最終飲食から体液を採取するまでの時間、ならびに被検体が薬物を服用していた場合の、服用薬物種または薬物を服用してから採取までの時間等の身体または身体の状態に関する情報が挙げられる。
 「体液検体の採取条件を示す情報」とは、体液採取時の条件および使用器具に関する情報である。このような情報としては、体液の採取に針を用いた場合の、用いられた採血針の種類、体液が血液または血液由来の成分であった場合の、血液の採取に用いられた採血管の種類、採血管に添加されている凝固促進剤または凝固抑制剤の種類、および採血時の血管の種類(毛細管血か静脈血か)等が挙げられる。
 「体液検体に施された処理の条件」は、疾患マーカーの測定前に、体液検体に施された各種処理および操作における条件であり、体液検体の保存に関する条件も含むものである。保存に関する条件とは、例えば、体液を採取した後、疾患マーカーの解析をすぐに行わずに凍結保存しておく場合に、凍結させるまでもしくはフリーザーに移すまでの時間および温度、凍結保存時の温度、凍結保存している時間、RNase、DNaseまたはProteaseに代表される、体液検体中の分解酵素を不活化処理するまでの時間、凍結保存中の検体保存容器の材質、および凍結保存の開始時に温度変化の衝撃を和らげるための梱包材の使用有無等が挙げられる。また、体液検体に施され得る各種処理および操作における条件とは、体液に遠心分離操作を施す場合、または採取した血液に遠心分離操作を施し、実際の体液検体となる血清を得る場合等における、被検体から体液を採取してから遠心分離操作を施すまでの時間、および遠心加速度等が挙げられる。なお、採取した体液に遠心分離操作を施すことで実際の体液検体が得られる場合、遠心分離操作後に、体液検体を凍結させるまでもしくはフリーザーに移すまでの時間も、体液検体に施された処理の条件の一例として挙げられる。さらに、保存された体液検体から疾患マーカーを測定するために、体液検体を凍結状態から溶解するまでの時間および溶解させるための温度等が挙げられる。
 調製データは、上述の情報のうちの少なくとも1つが含まれていればよく、2以上、3以上または4以上が含まれていてもよい。
 「臨床データ」とは、体液検体が採取された被検体における疾患の罹患の有無を示すデータである。後述する学習用データにおいては、疾患の罹患の有無は、組織病理検査により診断されたものであり得る。
 〔検査装置の構成〕
 次に、図1~図3に基づいて、本実施形態に係る検査装置について説明する。図1は、本実施形態に係る検査装置および端末装置の概略構成を示す機能ブロック図である。図1に示されるように、検査装置100は、表示部および入力デバイス等を備えた端末装置200と通信する構成である。ただし、検査装置100は本実施形態の構成に限定されず、例えば、検査装置100は、端末装置200と通信せずに、自ら表示部および入力デバイス等を備えていてもよい。
 検査装置100は、制御部110、記憶部120および通信部130を備えている。制御部110は、取得部(学習用データ取得部、検体データ取得部)140、モデル生成部150および判別部160を備えている。また、取得部140は、マーカーデータ取得部141、調製データ取得部142および臨床データ取得部143を備えている。
 制御部110は、検査装置100を統括的に制御するものである。
 記憶部120は、検査装置100の処理に必要なデータを記憶する記憶装置である。また、記憶部120は、学習済モデル121を記憶する。なお、記憶部120は、検査装置100の外部装置であってもよい。例えば、記憶部120は、検査装置100と通信可能に接続されたサーバ等の記憶装置であってもよい。
 マーカーデータ取得部141は、体液検体中の疾患マーカーを測定した結果を示すマーカーデータを取得する。調製データ取得部142は、体液検体の調製条件を示す調製データを取得する。そして、臨床データ取得部143は、体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する。取得部140は、同一の体液検体についてのマーカーデータ、調製データおよび臨床データを互いに対応づけて記憶部120に記憶させる。
 モデル生成部150は、マーカーデータと、該マーカーデータに対応する調製データと、該マーカーデータに対応する臨床データとを用いて機械学習を行い、マーカーデータおよび該マーカーデータに対応する調製データの組と、臨床データとの相関関係を学習させた学習済モデル121を生成する。学習済モデル121を規定する各種のパラメーターは記憶部120に記憶される。学習済モデル121を生成するための具体的アルゴリズムは特に限定されず、ニューラルネットワーク、決定木、ランダムフォレスト、勾配ブースティング、バギング、サポートベクターマシン(SVM)、マッピング、クラスタリング、自己組織化マップ(SOM)、局所探索法、期待値最大化法、多変量適応型回帰スプライン法、ベイジアン・ネットワーク、カーネル密度推定、主成分分析、ガウス混合モデル、逐次的カバーリングルールの構築、勾配ブースティング決定木、および畳み込みニューラルネットワークを含むディープラーニング(深層学習)等を用いることができる。
 判別部160は、記憶部120に記憶された学習済モデル121を用いて、入力されるマーカーデータおよびそれに対応する調製データの基となる被検体が、対象とする疾患に罹患しているか否かを判別する。具体的には、判別部160は、マーカーデータおよびそれに対応する調製データを、記憶部120に記憶された学習済モデル121に入力し、学習済モデル121から出力される判別結果を取得する。取得した判別結果は、通信部130を介して端末装置200に送信される。なお、学習済モデル121から出力される判別結果が、ある数値範囲内の数値として出力されるものであってもよい。この場合、判別結果としての数値が、予め指定された閾値を超えていれば、判別部160は検査対象となった検体が陽性である(罹患している)と判別する。一方、閾値以下であれば当該検体は陰性である(罹患していない)と判別する。そして、判別部160はその結果を端末装置200に送信してもよい。あるいは、学習済モデル121から出力された数値をそのまま端末装置200に送信し、ユーザが、所定の基準に基づき検体の陽性/陰性を判別するものであってもよい。また、予め指定された閾値は段階的に複数設けられてもよい。この場合、判別部160は、例えば、判別結果としての数値が当該複数の閾値のうちのどの閾値を超えているかにより、検査対象となった検体の罹患リスクの度合いを複数段階で判別する。例えば、閾値として第1の閾値および第1の閾値よりも低い第2の閾値を設定し、第1の閾値を超えている場合に判別部160はリスク高と判別し、第1の閾値以下であり、かつ第2の閾値を超えている場合に判別部160はリスク中と判別し、第2の閾値以下の場合に判別部160はリスク低と判別するものであってもよい。
 なお、本実施形態では、制御部110にモデル生成部150を備え、取得部140に臨床データ取得部143を備えている検査装置100について説明している。しかしながら、検査装置100にモデル生成部150および臨床データ取得部143を設ける構成でなくてもよい。すなわち、検査装置100とは独立に存在する、マーカーデータ取得部141、調製データ取得部142および臨床データ取得部143を備えた取得部140と、モデル生成部150とを少なくとも含む学習装置により、上述の学習済モデル121を構築するものであってもよい。学習装置が検査装置100とは独立に存在する場合には、検査装置100は、記憶媒体に記憶された学習済モデル121を読み込むことで、学習済モデル121が利用可能となる。または、検査装置100は、有線または無線のネットワークを介して他の装置から学習済モデル121を受信することで、検査装置100において学習済モデル121が利用可能となる。
 端末装置200は、通信部210、制御部220、入力デバイス230および表示部240を備えている。通信部210は、検査装置100との間で、有線または無線でデータの送受信を行う通信インターフェースである。制御部220は、端末装置200を統括的に制御する。表示部240は、画像、文字等を表示可能なディスプレイである。入力デバイス230は、ユーザの入力を受け付けるものであり、例えばタッチパネル、マウスおよびキーボード等によって実現される。入力デバイス230がタッチパネルの場合、表示部240に当該タッチパネルが設けられる。ユーザは、端末装置200を介して、検査装置100の機能を利用することがでる。
 〔検査装置の動作〕
 検査装置100は、学習済モデルを生成する学習フェーズ(学習方法に対応)と、学習フェーズにおいて生成した学習済モデルを用いて検査を行う検査フェーズ(検査方法に対応)とを実行する。
 図2は、学習フェーズにおける制御部110の処理の流れを示すフローチャートである。なお、一部のステップは並行して、または順序を替えて実行されてもよい。制御部110は、学習用データとして用いられる、体液検体中の疾患マーカーを測定することにより得られたマーカーデータを取得する(S10;学習用データ取得工程)。また、制御部110は、学習用データとして用いられる、体液検体の調製に関する情報である調製データを取得する(S11;学習用データ取得工程)。また、制御部110は、学習用データとして用いられる、体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する(S12;学習用データ取得工程)。これらの学習用のデータは、例えば、ユーザが記憶部120に予め記憶させておいたものであってもよいし、ユーザが端末装置200を操作して、検査装置100にアップロードしたものであってもよい。制御部110は、学習用データが記憶部120に記憶されていない場合は、取得部140が取得した各データを記憶部120に記憶させる。モデル生成部150は、マーカーデータおよび該マーカーデータに対応する調製データと、該マーカーデータに対応する臨床データとを用いて、マーカーデータおよび調製データの組と臨床データとの相関関係を機械学習させた学習済モデル121を生成し、記憶部120に記憶させる(S13;モデル生成工程)。以上により、学習フェーズを完了する。
 図3は、検査フェーズにおける制御部110の処理の流れを示すフローチャートである。なお、一部のステップは並行して、または順序を替えて実行されてもよい。図3に示される処理は例えば、検査処理の実行を指示する操作がユーザにより行われることをトリガとして開始される。制御部110は、検査用データとして、マーカーデータを取得する(S20;検体データ取得工程)。また、制御部110は、検査用データとして、取得したマーカーデータに対応する調製データを取得する(S21;検体データ取得工程)。検査用データは、例えば、ユーザが記憶部120に予め記憶させておいたものであってもよいし、ユーザが端末装置200を操作して、検査装置100にアップロードしたものであってもよい。制御部110は、検査用データが記憶部120に記憶されていない場合は、取得部140が取得した各データを記憶部120に記憶させる。判別部160は、取得したマーカーデータおよび調製データを学習済モデル121に入力し(S22;判別工程)、学習済モデル121から出力される判別結果を取得する(S23;判別工程)。判別部160は、取得した判別結果を示す出力データを、通信部130を介して端末装置200に送信する(S24)。以上により、検査フェーズを完了する。端末装置200では、通信部210を介して受信した出力データを、表示部240に表示させる。
 なお、上述の処理を実行する前に、ユーザは、「マーカーデータ」、「調製データ」および「臨床データ」を取得しておく必要がある。「調製データ」および「臨床データ」は、通常、検体採取を行った医療機関で得られるデータである。一方、「マーカーデータ」は、通常、検体採取を行った医療機関または当該医療機関とは異なる検査機関で取得される。よって、ユーザが検査機関に属する場合には、ユーザは、予め医療機関から「調製データ」および「臨床データ」の提供を受けておく。
 検査装置100における学習フェーズの処理と、検査フェーズの処理とは、必ずしも連続的に行われる必要はない。すなわち、予め学習フェーズの処理のみを実行しておき、検査フェーズの処理が必要となるまで、待機していてもよい。また、学習フェーズの処理を上述の学習装置において実行し、検査装置100は検査フェーズの処理のみを実行するものであってもよい。この場合、検査装置100は、当該学習装置において生成された学習済モデルを当該学習装置から予め取得しておけばよい。
 上述の通り、本実施形態における検査装置100は、マーカーデータおよび調製データを用いて疾患の罹患の有無を判別するものであるが、追加的にさらに別のデータ(以下、追加データ)を用いることも可能である。例えば、検査対象の疾患とは異なる疾患であって、検査対象の疾患とは直接関係のない疾患の罹患の指標として従来用いられている疾患マーカーまたは検査値を、上述の調製データと組合せて用いてもよい。より詳細な例としては、膵臓癌または胆道癌の罹患の有無を判別するために検査装置100を用いる場合において、被検体の血液中に含まれる血球量(赤血球量、白血球量または血小板量)、PSAおよびCYFRA等のタンパク疾患マーカー量、ならびにHDLコレステロール量およびLDLコレステロール量等の検査値を、追加データとして、調製データと組合せて用いてもよい。このような追加データを用いる場合、調製データと同様にして、制御部110が追加データを取得する。そして、モデル生成部150は、マーカーデータおよび該マーカーデータに対応する調製データの組に追加データも加えたうえで、臨床データとの相関関係を機械学習させた学習済モデルを生成すればよい。検査フェーズにおいても、制御部110が検査用データとして追加データを取得する。そして、判別部160は、追加データも学習済モデルへの入力に用い、判別結果を取得すればよい。
 〔本実施形態の効果〕
 以上のように、本実施形態では、マーカーデータを入力とし、疾患の罹患の有無を出力とする学習済モデルを用いた疾患の検査方法において、疾患の罹患の有無とは関係のない指標(調製データ)も入力の一情報として用いて学習済モデルを作成している。そして、驚くべきことに、疾患の罹患の有無とは関係のない指標を用いることで、疾患の罹患の有無を示す判別結果の精度を向上させることができる。
 調製データの取得は、細かなプロトコールの厳守等のさらなる負担を、実際に検体のサンプリングを行う医療現場に強いるものではない。すなわち、実施可能な検体採取条件の幅を許容したうえで、単に、どのようなプロトコールまたは条件でサンプリングを行っていたかを記録し、その情報を実際に検査を行うユーザに提供するだけでよい。また、これらの情報は、マーカーデータを取得し終わった後であっても、容易に取得または確認できるものである。よって、本実施形態に係る検査方法の実施においては、医療現場における負担が極めて小さい。また、比較的短い作業時間の間に変動し得る疾患マーカーが解析対象に含まれる場合であっても、それらを除外することなく精度の高い判別結果を得ることができる。
 とりわけ、複数の疾患マーカーを用いて検査を行う場合、調製データに対応するパラメーターの相違により起こり得る疾患マーカーの変動の様子は、疾患マーカー毎に異なり得る。よって、複数の疾患マーカーを用いて検査精度を高める場合、疾患マーカーの変動をより小さくする必要があり、プロトコールのより厳格な遵守が求められる。しかしながら本実施形態によれば、情報を記録しておくだけでよいので、複数の疾患マーカーを用いての検査により好適に適用できる。
 〔ソフトウェアによる実現例〕
 検査装置100の制御ブロック(制御部110、特に取得部140、モデル生成部150および判別部160)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、検査装置100は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)またはGPU(Graphics Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 〔まとめ〕
 本発明に係る検査方法は、疾患マーカーを用いて疾患の検査を行う検査方法であって、被検体から採取した体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、および該体液検体の調製条件を示す調製データを取得する検体データ取得工程と、体液検体中の疾患マーカーを測定した結果を示すマーカーデータおよび該体液検体の調製データの組と、該体液検体が採取された被検体における疾患の罹患の有無との相関関係を機械学習させた学習済モデルに、上記検体データ取得工程で取得した上記マーカーデータおよび上記調製データを入力することによって、上記被検体における疾患の罹患の有無を判別する工程とを含む、構成である。
 また、本発明に係る検査方法の一態様では、上記調製データが、上記被検体の情報、上記体液検体の採取条件を示す情報、および上記疾患マーカーの測定前に上記体液検体に施された処理の条件情報から選択される少なくとも1つの情報を含む。
 また、本発明に係る検査方法の一態様では、上記体液検体に施された処理の条件が、上記体液検体を凍結保存するまでの時間、凍結保存時の温度、凍結保存している時間、および上記体液検体を遠心分離するまでの時間から選択される少なくとも1つの条件である。
 また、本発明に係る検査方法の一態様では、上記体液検体の採取条件を示す上記情報が、上記体液検体の採取に用いられた針の太さ、上記体液検体の採取に用いられた採血管の種類、および上記被検体における最終飲食から上記体液検体を採取するまでの時間から選択される少なくとも1つの情報である。
 また、本発明に係る検査方法の一態様では、上記被検体の上記情報が、上記被検体の人種に関する情報である。
 また、本発明に係る検査方法の一態様では、上記体液検体が、血液、血清、血漿、髄液、尿、唾液、涙、組織液またはリンパ液である。
 また、本発明に係る検査方法のさらなる態様では、上記体液検体が、血液、血清または血漿である。
 また、本発明に係る検査方法の一態様では、上記疾患マーカーが、miRNAである。
 また、本発明に係る検査方法の一態様では、上記マーカーデータが、マイクロアレイ、PCRまたはシーケンシングから得られたデータである。
 また、本発明に係る検査方法の一態様は、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、上記学習用データ取得工程で取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記学習済モデルを生成するモデル生成工程とをさらに含む構成である。
 本発明に係る学習方法は、疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習方法であって、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成工程とを含む、構成である。
 本発明に係る学習装置は、疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習装置であって、体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得部と、取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成部と、を備えている構成である。
 本発明に係る検査装置は、疾患マーカーを用いて疾患の検査を行う検査装置であって、被検体由来の体液検体における上記マーカーデータおよび上記調製データを取得する検体データ取得部と、上述の学習装置により生成された上記学習済モデルを用いて、上記検体データ取得部が取得した上記マーカーデータおよび上記調製データから、上記疾患の罹患を判別する判別部と、を備えている構成である。
 本発明の各態様に係る検査装置および学習装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記検査装置または上記学習装置が備える各部(ソフトウェア要素)として動作させることにより上記検査装置または上記学習装置をコンピュータにて実現させる検査プログラムまたは学習プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
 以下に実施例を示し、本発明の実施の形態についてさらに詳しく説明する。もちろん、本発明は以下の実施例に限定されるものではなく、細部については様々な態様が可能であることはいうまでもない。さらに、本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、それぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
 [参考例1]
 <検体の採取>
 組織病理検査により診断された膵臓癌または胆道癌患者48人、および健常者48人からインフォームドコンセントを得て、それぞれの血液を採取し、遠心分離により血清を取得した。取得した血清は、採血から2時間以内に-80℃のフリーザーに移し、使用するまで-80℃で保存した。なお、採血から遠心分離までに要した時間、および遠心分離から-80℃での保存までに要した時間には、検体間で一定のばらつきがあった。
 <total RNAの抽出>
 検体として、上記の96人それぞれから得られた各血清300μLを用いた。3D-Gene(登録商標)RNA extraction reagent from liquid sample kit(東レ株式会社(日本))中のRNA抽出用試薬を用いて、同社の定めるプロトコールに従って、各血清からtotal RNAを得た。以下、参考例1における検体群を検体群1という。
 <遺伝子発現量の測定>
 上記の96人の各血清から得たtotal RNAに対して3D-Gene(登録商標)miRNA Labeling kit(東レ株式会社)を用いて、同社が定めるプロトコールに基づいてtotal RNA中のmiRNAを蛍光標識した。オリゴDNAチップとして、miRBase release 21に登録されているmiRNAと相補的な配列を有するプローブを搭載した3D-Gene(登録商標)Human miRNA Oligo chip(東レ株式会社)を用い、同社が定めるプロトコールに基づいてストリンジェントな条件でハイブリダイゼーションおよびハイブリダイゼーション後の洗浄を行った。DNAチップを3D-Gene(登録商標)スキャナー(東レ株式会社)を用いてスキャンし、画像を取得して3D-Gene(登録商標)Extraction(東レ株式会社)にて蛍光強度を数値化した。
 数値化された蛍光強度を用いて以下のように検出された遺伝子の発現量を計算した。まず、複数あるネガティブコントロールスポットのシグナル強度の最大順位および最小順位各々5%を除き、その[平均値+2×標準偏差]を計算し、この値より大きいシグナル強度を示した遺伝子は検出されたとみなした。また、検出された遺伝子のシグナル強度から、最大順位および最小順位各々5%を除いたネガティブコントロールスポットのシグナル強度の平均値を減算し、減算後の値を底が2の対数値に変換して遺伝子発現量とした。データの正規化は、内因性コントロールとして報告がある3種類のmiRNA:miR-149-3p、miR-2861、miR-4463(非特許文献:下村ら、Cancer Science、2016年、第107巻、ページ326-34)の平均値を用いて異なる検体のデータを正規化した。上記において検出されなかった遺伝子については、底が2の対数値0.1に置換した。このようにして、上記の96人の血清に対する、miRNAの遺伝子発現量のシグナル値を得た。
 数値化されたmiRNAの遺伝子発現量を用いた計算および統計解析は、R言語3.5.3(R Foundation for Statistical Computing、https://www.R-project.org)、caretパッケージ6.0-84、およびxgboostパッケージ0.82.1を用いて実施した。
 [参考例2]
 <検体の採取>
 健常者24人からインフォームドコンセントを得て、それぞれの血液を採取し、遠心分離により血清を取得した。取得した血清は、採血から6時間以内に-80℃のフリーザーに移し、使用するまで-80℃で保存した。なお、採血から遠心分離までに要した時間、および遠心分離から-80℃での保存までに要した時間には、検体間で一定のばらつきがあった。
 <total RNAの抽出>
 検体として、上記の24人それぞれから得られた各血清300μLを用い、参考例1と同様にしてtotal RNAを得た。以下、参考例2における検体群を検体群2という。
 <遺伝子発現量の測定>
 上記の24人の各血清から得たtotal RNAを用いて、参考例1と同様にしてmiRNAの遺伝子発現量のシグナル値を得た。
 [実施例1]
 <機械学習による膵臓癌および胆道癌判別性能の検証1:45種のmiRNAを使用>
 本実施例では、機械学習の一例として勾配ブースティング決定木を用いた。癌に罹患しているか健常であるかを示す臨床データ、各miRNAの遺伝子発現量のシグナル値、採血から遠心分離までに要した時間、および遠心分離から-80℃での保存までに要した時間を用いて機械学習を行い、癌に罹患しているか健常であるかに分類する判別モデル(学習済モデル)を作成し、検証を行った。本実施例では、使用するmiRNAとして、事前の検討で膵臓癌または胆道癌との関連が示されたmiRNAを任意に45種類選んだ。
 膵臓癌および胆道癌を判別するために以下のような段階的手順を踏んだ。すなわち、検体群1のデータを6:4に分けて、学習検体群および検証検体群を作成した。学習検体群で勾配ブースティング決定木により判別モデルを取得し、検証検体群でこれを検証した。検証の結果、膵臓癌および胆道癌を陽性と判定する感度は94.4%、健常者を陰性とする特異度は95.2%、精度は94.9%であった。ここで「感度」とは、陽性を正しく陽性と分類した割合である。感度が高ければ、疾患の早期発見が可能になる。また、「特異度」とは、陰性を正しく陰性と分類した割合である。特異度が高ければ、健常者に対して疾患に罹患していると誤判別することによる無駄な追加検査、患者移送、および治療の実施を防ぎ、患者の負担の軽減および医療費の削減等につながる。精度は全検体に対しての判別結果が正しかった割合を示しており、検査性能を評価する第一の指標となる。
 [実施例2]
 <機械学習による膵臓癌および胆道癌判別性能の検証2:78種のmiRNAを使用>
 使用するmiRNAとして、事前の検討で膵臓癌または胆道癌との関連が示されたmiRNAを任意に78種類選んだ点を除いて、実施例1と同様にして判別モデルを作成し、検証を行った。検証の結果、膵臓癌および胆道癌を陽性と判定する感度は88.9%、健常者を陰性とする特異度は95.2%、精度は92.3%であった。
 [実施例3]
 <機械学習による膵臓癌および胆道癌判別性能の検証3:45種のmiRNAを使用>
 本実施例では、実施例1で作成した判別モデルに対し、検体群1のデータの代わりに検体群2のデータを用いて検証を行った。検証の結果、健常者を陰性とする特異度は87.5%であった。
 [実施例4]
 <機械学習による膵臓癌および胆道癌判別性能の検証4:78種のmiRNAを使用>
 本実施例では、実施例2で作成した判別モデルに対し、検体群1のデータの代わりに検体群2のデータを用いて検証を行った。検証の結果、健常者を陰性とする特異度は100.0%であった。
 [比較例1]
 <機械学習による膵臓癌および胆道癌判別性能の検証5:45種のmiRNAを使用>
 本比較例では、機械学習の一例として勾配ブースティング決定木を用いた。癌に罹患しているか健常であるかを示す臨床データ、および各miRNAの遺伝子発現量のシグナル値を用いて機械学習を行い、癌に罹患しているか健常であるかに分類する判別モデルを作成し、検証を行った。使用するmiRNAは、実施例1と同じ45種類とした。
 膵臓癌および胆道癌を判別するために以下のような段階的手順を踏んだ。すなわち、検体群1のデータを6:4に分けて、学習検体群および検証検体群を作成した。学習検体群で勾配ブースティング決定木により判別モデルを取得し、検証検体群でこれを検証した。検証の結果、膵臓癌および胆道癌を陽性と判定する感度は88.9%、健常者を陰性とする特異度は95.2%、精度は92.3%であった。すなわち、実施例1より感度および精度が劣っていることが示された。
 [比較例2]
 <機械学習による膵臓癌および胆道癌判別性能の検証6:78種のmiRNAを使用>
 使用するmiRNAを実施例2と同じ78種類に変更した点を除いて、比較例1と同様にして判別モデルを作成し、検証を行った。検証の結果、膵臓癌および胆道癌を陽性と判定する感度は77.8%、健常者を陰性とする特異度は90.5%、精度は86.4%であった。すなわち、実施例2より感度、特異度および精度いずれもが劣っていることが示された。
 [比較例3]
 <機械学習による膵臓癌および胆道癌判別性能の検証7:45種のmiRNAを使用>
 本比較例では、比較例1で作成した判別モデルに対し、検体群1のデータの代わりに検体群2のデータを用いて検証を行った。検証の結果、健常者を陰性とする特異度は33.3%であった。すなわち、実施例3より特異度が劣っていることが示された。
 [比較例4]
 <機械学習による膵臓癌および胆道癌判別性能の検証8:78種のmiRNAを使用>
 本比較例では、比較例2で作成した判別モデルに対し、検体群1のデータの代わりに検体群2のデータを用いて検証を行った。検証の結果、健常者を陰性とする特異度は79.2%であった。すなわち、実施例3より特異度が劣っていることが示された。
 以上の結果を、表1および表2に示す。
Figure JPOXMLDOC01-appb-T000001
Figure JPOXMLDOC01-appb-T000002
 本発明は、疾患マーカーを利用した疾患の検査に利用することができる。
100 検査装置
110 制御部
120 記憶部
121 学習済モデル
130 通信部
140 取得部
141 マーカーデータ取得部
142 調製データ取得部
143 臨床データ取得部
150 モデル生成部
160 判別部

Claims (15)

  1.  疾患マーカーを用いて疾患の検査を行う検査方法であって、
     被検体から採取した体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、および該体液検体の調製条件を示す調製データを取得する検体データ取得工程と、
     体液検体中の疾患マーカーを測定した結果を示すマーカーデータおよび該体液検体の調製条件を示す調製データの組と、該体液検体が採取された被検体における疾患の罹患の有無との相関関係を機械学習させた学習済モデルに、上記検体データ取得工程で取得した上記マーカーデータおよび上記調製データを入力することによって、上記被検体における疾患の罹患の有無を判別する判別工程とを含む、検査方法。
  2.  上記調製データが、上記被検体の情報、上記体液検体の採取条件を示す情報、および上記疾患マーカーの測定前に上記体液検体に施された処理の条件情報から選択される少なくとも1つの情報を含む、請求項1に記載の検査方法。
  3.  上記体液検体に施された処理の条件が、上記体液検体を凍結保存するまでの時間、凍結保存時の温度、凍結保存している時間、および上記体液検体を遠心分離するまでの時間から選択される少なくとも1つの条件である、請求項2に記載の検査方法。
  4.  上記体液検体の採取条件を示す上記情報が、上記体液検体の採取に用いられた針の太さ、上記体液検体の採取に用いられた採血管の種類、および上記被検体における最終飲食から上記体液検体を採取するまでの時間から選択される少なくとも1つの情報である、請求項2に記載の検査方法。
  5.  上記被検体の上記情報が、上記被検体の人種に関する情報である、請求項2に記載の検査方法。
  6.  上記体液検体が、血液、血清、血漿、髄液、尿、唾液、涙、組織液またはリンパ液である、請求項1~5の何れか1項に記載の検査方法。
  7.  上記体液検体が、血液、血清または血漿である、請求項1~6の何れか1項に記載の検査方法。
  8.  上記疾患マーカーが、miRNAである、請求項1~7の何れか1項に記載の検査方法。
  9.  上記マーカーデータが、マイクロアレイ、PCRまたはシーケンシングから得られたデータである、請求項8に記載の検査方法。
  10.  体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、
     上記学習用データ取得工程で取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記学習済モデルを生成するモデル生成工程とをさらに含む、請求項1~9の何れか1項に記載の検査方法。
  11.  疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習方法であって、
     体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得工程と、
     取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成工程とを含む、学習方法。
  12.  疾患マーカーを用いた疾患の検査に用いられる学習済モデルを生成する学習装置であって、
     体液検体中の疾患マーカーを測定した結果を示すマーカーデータ、該体液検体の調製条件を示す調製データ、および該体液検体が採取された被検体における疾患の罹患の有無を示す臨床データを取得する学習用データ取得部と、
     取得した上記マーカーデータおよび上記調製データの組と、上記臨床データとの相関関係を機械学習させることにより、上記マーカーデータおよび上記調製データから上記疾患の罹患を判別可能な学習済モデルを生成するモデル生成部と、を備えている学習装置。
  13.  疾患マーカーを用いて疾患の検査を行う検査装置であって、
     被検体由来の体液検体における上記マーカーデータおよび上記調製データを取得する検体データ取得部と、
     請求項12に記載の学習装置により生成された上記学習済モデルを用いて、上記検体データ取得部が取得した上記マーカーデータおよび上記調製データから、上記疾患の罹患を判別する判別部と、を備えている検査装置。
  14.  請求項12に記載の学習装置としてコンピュータを機能させるための学習プログラムであって、上記学習用データ取得部、および上記モデル生成部としてコンピュータを機能させるための学習プログラム。
  15.  請求項13に記載の検査装置としてコンピュータを機能させるための検査プログラムであって、上記検体データ取得部、および上記判別部としてコンピュータを機能させるための検査プログラム。
PCT/JP2020/048653 2019-12-25 2020-12-25 検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム WO2021132547A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021500980A JPWO2021132547A1 (ja) 2019-12-25 2020-12-25

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-234815 2019-12-25
JP2019234815 2019-12-25

Publications (1)

Publication Number Publication Date
WO2021132547A1 true WO2021132547A1 (ja) 2021-07-01

Family

ID=76575532

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/048653 WO2021132547A1 (ja) 2019-12-25 2020-12-25 検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2021132547A1 (ja)
WO (1) WO2021132547A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017146033A1 (ja) * 2016-02-22 2017-08-31 東レ株式会社 体液由来miRNAの品質を評価する方法
WO2018124293A1 (ja) * 2016-12-28 2018-07-05 国立研究開発法人医薬基盤・健康・栄養研究所 トランスクリプトームによる医薬成分の特徴分析法および分類
WO2018199275A1 (ja) * 2017-04-28 2018-11-01 東レ株式会社 卵巣腫瘍の検出のためのキット、デバイス及び方法
WO2019004436A1 (ja) * 2017-06-29 2019-01-03 東レ株式会社 肺がんの検出のためのキット、デバイス及び方法
JP2019020838A (ja) * 2017-07-12 2019-02-07 シスメックス株式会社 データベースを構築する方法
JP2019105451A (ja) * 2017-12-08 2019-06-27 株式会社日立製作所 尿検体採取時間を登録する尿によるがん検査

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017146033A1 (ja) * 2016-02-22 2017-08-31 東レ株式会社 体液由来miRNAの品質を評価する方法
WO2018124293A1 (ja) * 2016-12-28 2018-07-05 国立研究開発法人医薬基盤・健康・栄養研究所 トランスクリプトームによる医薬成分の特徴分析法および分類
WO2018199275A1 (ja) * 2017-04-28 2018-11-01 東レ株式会社 卵巣腫瘍の検出のためのキット、デバイス及び方法
WO2019004436A1 (ja) * 2017-06-29 2019-01-03 東レ株式会社 肺がんの検出のためのキット、デバイス及び方法
JP2019020838A (ja) * 2017-07-12 2019-02-07 シスメックス株式会社 データベースを構築する方法
JP2019105451A (ja) * 2017-12-08 2019-06-27 株式会社日立製作所 尿検体採取時間を登録する尿によるがん検査

Also Published As

Publication number Publication date
JPWO2021132547A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
JP6143743B2 (ja) 細胞におけるバイオマーカーの発現のクラスターによる解析
EP3534281A1 (en) Disease development determination device, disease development determination method, and disease development determination program
JP6651446B2 (ja) ヒトまたは動物の信頼できる、規格化されかつ完全なスコアを算出するための非侵襲的システム
Reust et al. Dried blood spot RNA transcriptomes correlate with transcriptomes derived from whole blood RNA
CN110189824B (zh) 原发性肝癌根治切除术的预后情况分组方法、装置和系统
Eiras et al. Bovine viral diarrhea virus: correlation between herd seroprevalence and bulk tank milk antibody levels using 4 commercial immunoassays
WO2021132547A1 (ja) 検査方法、検査装置、学習方法、学習装置、検査プログラムおよび学習プログラム
WO2021153753A1 (ja) 検査方法、検査装置および検査プログラム
US11217329B1 (en) Methods and systems for determining biological sample integrity
CN116386886A (zh) 预测癌症患者复发模型及设备
Menard et al. Use of serum biomarkers in staging of canine hepatic fibrosis
EP4297038A1 (en) Method and apparatus for analyzing biomarkers
US8969022B2 (en) Method and system for detecting lymphosarcoma in cats using biomarkers
Albitar et al. A multi-center prospective study to validate an algorithm using urine and plasma biomarkers for predicting Gleason≥ 3+ 4 prostate cancer on biopsy
Yamamoto et al. Clinical impact of a novel model predictive of oncotype DX recurrence score in breast cancer
US20230332235A1 (en) Biomarkers for diagnosing a disease such as heart or cardiovascular disease
Henry The pathway to clinical use of a cancer biomarker
Pfaffl Guest editor's introduction for BDQ special issue:‘Advanced Molecular Diagnostics for Biomarker Discovery’
JP7264375B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Suzuki et al. C-reactive protein and lactate dehydrogenase are useful biomarkers for predicting the requirement for oxygen therapy in outpatients with coronavirus disease 2019
Chalasani et al. Inflammation, Immunity, Fibrosis, and Infection: Noninvasive stratification of nonalcoholic fatty liver disease by whole transcriptome cell-free mRNA characterization
CN117766025A (zh) 骨肉瘤无肺转移生存预后的预测方法及装置、设备
JP6803020B2 (ja) 乳癌の予後の診断補助方法、ならびに乳癌の予後の診断補助のためのキットおよび装置
Schlomm The Era of Prostate-specific Antigen-based Personalized Prostate Cancer Screening Has Only Just Begun
KR20230172386A (ko) 바이오마커를 분석하는 방법 및 장치

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021500980

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20904321

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20904321

Country of ref document: EP

Kind code of ref document: A1