WO2023063049A1 - がん検出のためのバイオマーカーセットの作製方法 - Google Patents

がん検出のためのバイオマーカーセットの作製方法 Download PDF

Info

Publication number
WO2023063049A1
WO2023063049A1 PCT/JP2022/035459 JP2022035459W WO2023063049A1 WO 2023063049 A1 WO2023063049 A1 WO 2023063049A1 JP 2022035459 W JP2022035459 W JP 2022035459W WO 2023063049 A1 WO2023063049 A1 WO 2023063049A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
groups
methylation
dna
group
Prior art date
Application number
PCT/JP2022/035459
Other languages
English (en)
French (fr)
Inventor
奈央子 山口
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to CN202280062918.1A priority Critical patent/CN117957331A/zh
Publication of WO2023063049A1 publication Critical patent/WO2023063049A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6834Enzymatic or biochemical coupling of nucleic acids to a solid phase
    • C12Q1/6837Enzymatic or biochemical coupling of nucleic acids to a solid phase using probe arrays or probe chips
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer

Definitions

  • the present invention relates to a method for producing a biomarker set used in cancer screening.
  • a method for producing a biomarker set used in cancer screening In particular, from biological samples such as blood and excrement, it is possible to diagnose whether or not there is suspicion of cancer (presence or absence of cancerous tissue) in multiple types of organ cancer at once, by distinguishing between cancer types. It relates to a method of generating a biomarker set for.
  • a stepwise examination is required for a definitive diagnosis of the presence or absence of cancer.
  • Early detection and early treatment of cancer can increase the possibility of complete cure and increase the survival rate, so cancer screening for diagnosing the necessity of detailed examination is regarded as very important.
  • cancer screening has various problems depending on the cancer to be detected. For example, in the case where cancer detection targets are pancreatic cancer, liver cancer, etc., there is still no screening test with established evidence (scientific basis), so there is a problem that there is no recommended examination.
  • Liquid biopsy is attracting attention as a technology that can solve such problems.
  • Liquid biopsy is a technique for detecting substances (DNA) derived from cancer cells using minimally invasive liquid samples (blood, excrement, etc.) that place less strain on the subject's body when collected.
  • This technology uses what are called biomarkers. It is a characteristic value that is objectively measured and evaluated for substances derived from cancer cells, and is used as an index for understanding the presence or absence of a disease, progress, etc.
  • biomarkers have been proposed and research and development are underway for their practical use. One of them is a method that uses the methylation state (frequency) of a specific DNA. .
  • DNA methylation is greatly involved in gene expression control, and it is known that methylation or demethylation of a specific methylation site occurs in association with the development of cancer. Therefore, if the methylation site specific to the development of the cancer to be tested and the methylation state at the methylation site are known, cell-free DNA (cfDNA) extracted from the liquid sample derived from the subject cancer cell-derived substances (DNA) can be detected.
  • cfDNA cell-free DNA
  • DNA methylation and/or demethylation occurs depending on characteristics such as the type of cancer, tissue type, sex, age, race, and presence or absence of diseases other than cancer.
  • the methylation pattern Since the position of the methylation site (CG sequence) and the methylation state of those sites, that is, the methylation pattern is different, if the correlation between the type and characteristics of each cancer and the methylation pattern is known For example, based on such information, biomarkers specific to each cancer type and characteristics can be generated.
  • Patent Document 1 discloses a method for producing a biomarker based on known data in which a specific cancer type and the methyl state of its DNA are linked in advance.
  • biomarker production method described in Patent Document 1 cannot be used if there is no known data linking cancer types and DNA methylation status.
  • researchers select one to several thousand methyl sites from a wide range of genomic regions as biomarker index sites, and consider methods and thresholds for measuring methylation status. , to determine the methylation state of DNA.
  • biomarker index sites that change in common among all subjects must be selected and determined from a wide range of genomic regions and a wide variety of DNA methylation patterns. In other words, there is a problem that it takes a lot of time and effort and costs to obtain biomarkers.
  • biomarker specific to cancer in each organ is selected, and the selected biomarkers are combined and used as a biomarker set, the presence or absence of cancer in multiple organs (suspected cancer or not) can be examined in a single test, but the actual situation is that accuracy and sensitivity are not sufficient due to the presence of multiple patient groups with different DNA methylation patterns even if they are cancers of the same organ. . In other words, usually, several cancer-specific DNA methylation patterns of a given organ are selected to prepare a biomarker.
  • a problem is that the accuracy and sensitivity of biomarkers (and biomarker sets) can be compromised by subject (or group of subjects) if individuals with different patterns are included.
  • the present invention provides a single cancer screening, even if there are biological samples derived from a plurality of patient groups with different DNA methylation patterns.
  • a biomarker set capable of diagnosing the presence or absence of cancer (that is, whether or not cancer is suspected) with higher accuracy (and sensitivity) than conventional methods.
  • an extraction step of extracting the information of the DNA position and the methylation status of both groups at that position A selection step of selecting, from the information of both groups in which a significant difference is observed, those that satisfy a predetermined condition as biomarkers of cancer types to which the predetermined group belongs; Repeating the extraction and selection steps for all classified groups until the biomarkers are selected, creating a biomarker set composed of all selected biomarkers; A method for selecting a biomarker set in which the tissue type information is included in the DNA methylation data of at least one type of cancer.
  • the classification step when the plurality of DNA methylation degree data have information on two or more tissue types, the plurality of DNA methylation degree data are classified into two or more groups, and the tissue type information is classified into two or more groups. or does not have the tissue type information, classify as one group.
  • the determination of the significant difference is performed based on (1) the p-value in a statistical test, or (2) the difference in median or mean value of the methylation degree distribution [1 ] or the method according to [2].
  • the diagnosis target includes ovarian cancer, lung cancer, and liver cancer
  • the tissue type information collected in the collecting step is serous carcinoma, clear cell carcinoma, endometrioid carcinoma and mucinous carcinoma, which are the histological types of ovarian cancer, and the histological types of lung cancer.
  • Adenocarcinoma, squamous cell carcinoma, large cell carcinoma, small cell carcinoma, hepatocellular carcinoma and intrahepatic cholangiocarcinoma that are the histological types of liver cancer [1] to [3] The method described in .
  • a method for producing a biomarker set for use in cancer screening comprising: A plurality of known DNA methylation degree data obtained from a biological sample derived from a patient afflicted with the cancer to be diagnosed, comprising: (1) one or more methylations in the whole genome region for each cancer type; A collection step of collecting a plurality of DNA methylation degree data, including the position of the site, (2) the methylation degree of the methylation site, and (3) information on the presence or absence of one or more diseases other than cancer.
  • an extraction step of extracting the information of the DNA position and the methylation status of both groups at that position A selection step of selecting, from the information of both groups in which a significant difference is observed, those that satisfy a predetermined condition as biomarkers of cancer types to which the predetermined group belongs; Repeating the extraction and selection steps for all classified groups until the biomarkers are selected, creating a biomarker set composed of all selected biomarkers; A method for selecting a biomarker set in which the information on the presence or absence of one or more types of diseases other than cancer is included in the DNA methylation data of at least one or more types of cancer.
  • the classification step when the plurality of DNA methylation degree data have information on the presence or absence of one or more types of diseases other than cancer, the plurality of DNA methylation degree data are grouped into two or more groups. The method according to [5], wherein if there is no information about the presence or absence of diseases other than cancer, the method is classified as one group.
  • the determination of the significant difference is performed based on (1) the p-value in a statistical test, or (2) the difference in median or mean value of the methylation degree distribution [5 ] or the method according to [6].
  • the information on the presence or absence of one or more diseases other than cancer collected in the collecting step includes the presence or absence of cirrhosis, which is highly correlated with liver cancer, and the presence or absence of chronic hepatitis.
  • the present invention even if biological samples derived from a plurality of patient groups with different DNA methylation patterns are present, the presence or absence of cancer in multiple types of organs in a single cancer screening (i.e., the suspicion of cancer is confirmed). It is possible to easily prepare a biomarker set capable of diagnosing each organ with high accuracy (and sensitivity). In addition, since the presence or absence of multiple types of cancer tissue DNA can be detected with high accuracy in a single test, it is possible to reduce time constraints, economic burdens, and physical and mental burdens on examinees. can.
  • FIG. 2 is a flow chart diagram showing an example of a method for producing a biomarker set according to Embodiment 1 of the present invention.
  • 1 is a diagram for explaining an example of a method for comparing two groups in the biomarker selection step of Embodiment 1.
  • FIG. 1 is a diagram for explaining an example of a method for comparing two groups in the biomarker selection step of Embodiment 1.
  • FIG. 4 is a flow chart diagram showing an example of a method for producing a biomarker set according to Embodiment 2 of the present invention.
  • 1 is a diagram showing performance evaluation results (percentage of correct answers) of biomarker sets selected in Example 1 and Comparative Example 1.
  • FIG. 2 is a diagram showing the performance evaluation results (percentage of correct answers) of biomarker sets selected in Example 2 and Comparative Example 1.
  • FIG. 10 is a diagram showing performance evaluation results (percentage of correct answers) of biomarker sets selected in Example 3 and Comparative Example 2.
  • FIG. It is a figure used for explaining the term "methylation degree" used in the present invention.
  • biomarker refers to the analysis of data on cell-free DNA (cfDNA) contained in a biological sample collected from a subject. It is used for screening tests to quantify the cancer tissue-derived DNA of the type of organ (and organ) and evaluate the presence or absence of cancer in the subject, and methyl that is correlated with a specific cancer It refers to the site of methylation and the degree of methylation of DNA at that site.
  • One or more biomarkers are used to determine the presence or absence of a particular cancer.
  • a “biomarker set” used in the present invention refers to a combination of one or more biomarkers for detecting each cancer type in order to determine the presence or absence of multiple types of cancer.
  • the “screening test for evaluating the presence or absence of cancer morbidity” using the “biomarker” used herein refers to the cell-free DNA contained in the biological sample collected from the subject, for example, When using a next-generation sequencer, multiple sequencing where each sequencing read contains methylation sequence data (multiple methylation sites and the methylation status at those sites) obtained from continuous nucleic acid sequences of 50 or more nucleic acids.
  • a methylation pattern based on one sequencing read in a plurality of sequencing reads, wherein the methylation pattern corresponds to said contiguous nucleic acid sequence and one or more motifs within the genomic region ( biologically meaningful base sequence patterns of approximately 5-20 base pairs), Comparing the methylation pattern to each of one or more biomarkers (i.e., multiple methylation sites and their methylation status) to calculate one or more likelihood scores, wherein the one each of the above biomarkers correlates with a specific cancer tissue DNA, each biomarker comprises at least one predetermined methylation site and the methylation status of those sites; and evaluating the sequencing read as containing cancerous tissue if at least one of the one or more likelihood scores is above a threshold; Refers to a method comprising quantitatively evaluating a specific cancer tissue in the biological sample based on the number of sequencing reads containing "cancer tissue" in the plurality of sequencing reads.
  • the "screening test for evaluating the presence or absence of cancer" using the "biomarker” used herein is not limited to the test using the next-generation sequencer, and for example, a biological sample collected from the subject.
  • the degree of methylation at a plurality of methylation sites is directly obtained using a method such as a microarray, and the degree of methylation at each of predetermined one or more methylation sites is determined in advance. It refers to a method of evaluating the biological sample as containing the predetermined cancer tissue DNA (DNA in a predetermined methylation state) when it exceeds/below a threshold value correlated with the predetermined cancer tissue.
  • biomarker set consisting of different biomarkers for each cancer type, it is possible to investigate the presence or absence of cancer (that is, whether or not there is a suspicion of cancer) for cancers in multiple types of organs at once. It is an inspection that can be done.
  • methylation site refers to a cytosine residue (CpG site) adjacent to a guanine residue that can be methylated.
  • methylation pattern refers to the methylation pattern of DNA characteristic of a given physiological composition and refers to a combination of at least one or more methylation sites and the degree of methylation at those sites. .
  • methylation degree used in the present invention means that all DNA is methylated at the position of a methylation site (CpG site) common to multiple DNAs (from multiple or same cells). It refers to the proportion of DNA. As shown in FIG. 7, when there are 3 copies of DNA, the degree of methylation of CpG sites [1] to [4] is 100% for CpG site [1], 0% for CpG site [2], and 0% for CpG site [2]. Sites [3] and [4] are 66.7%.
  • methylation state used in the present invention refers to information on whether a certain group has a high degree of methylation distribution (methylation) or low (non-methylation) at a given methylation site. .
  • cancer to be detected refers to an initial examination recommended for the purpose of early detection, early treatment, and appropriate treatment (inspection to determine the need for a detailed examination).
  • cancer of the target organ diagnostic target
  • examples include cancerous cells such as tongue, esophagus, lung, gastrointestinal, pancreas, kidney, liver, breast, prostate, uterus, bladder, ovary, blood, and brain, or cancerous cells derived therefrom.
  • a cancer may include a tumor composed of tumor cells.
  • the number of cancers in the target organ detected by the biomarker set of the present invention is not particularly limited as long as there are at least two types, but preferably five or more, and more preferably ten or more.
  • the term “accuracy” refers to the degree of accuracy in correctly testing patients with cancer as positive and those without cancer as negative.
  • sensitivity refers to the percentage of people with cancer detectable at the time of screening that are detected by screening.
  • biological sample refers to a sample taken from the body of a subject, specifically, taken from the subject and associated with one or more organs (organs) Blood, skin, hair, saliva, oral mucus, vaginal mucus, sweat, tears, epithelial tissue, urine, semen, seminal plasma, prostatic fluid, feces, biopsy, ascites, cerebrospinal fluid, lymph, and tissues It refers to an extract sample or a biopsy sample.
  • FIG. 1 conceptually shows a flow chart of an example of a method for producing a biomarker set according to Embodiment 1 of the present invention.
  • DNA methylation degree data collection step As shown in FIG. 1, first, using a publicly available database, samples of patients (and healthy subjects) suffering from various cancers are obtained, and from the samples, cancer tissue to be detected ( and normal tissue) are collected (step S10).
  • the DNA methylation degree data includes at least three types of information: (1) the position of one or more methylation sites in the entire genome region, (2) the degree of methylation at the methylation site, and (3) tissue type. Contains information.
  • the number of patient (or healthy subject) samples is not particularly limited as long as it is at least 5 for each cancer tissue (or normal tissue), preferably 100 or more, and more preferably 200 or more. preferable.
  • Porition of one or more methylation sites in the whole genome region refers to genome-wide measurement such as microarray and whole genome sequencing, that is, tens of thousands to millions obtained by comprehensive measurement of all regions of the genome. Refers to the position of the cytosine base of, for example, Illumina Microarray Infinium Human Methylation 450, WGBS (Whole Genome Bisulfite Sequencing), RRBS (Reduced Representation of Bisulfite Sequencing), etc. Refers to the position of all cytosine residues measured.
  • tissue type is obtained from information accompanying the sample. Samples are typically accompanied by information on the patient's gender, age, cancer stage and histology.
  • a tissue type is a classification of cancer based on the shape of cancer cells and the state of tissues in which cancer cells are gathered. This tissue type information is not particularly limited as long as it can be obtained for at least one type of cancer among a plurality of detection target (organ) cancers, but preferably, the tissue type of all types of detection target cancer information is preferably collected.
  • tissue types include hepatocellular carcinoma (HCC), intrahepatic cholangiocarcinoma (ICC), and HCC-ICC mixed cancer.
  • tissue types include squamous cell carcinoma, lung adenocarcinoma, lung large cell carcinoma, and non-small cell carcinoma.
  • tissue types include serous carcinoma, clear cell carcinoma, endometrioid carcinoma, and mucinous carcinoma.
  • Public databases are not particularly limited as long as they include WGBS (Whole Genome Bisulfite Sequencing), RRBS (Reduced Representation of Bisulfite Sequencing), and array-based DNA methylation degree data.
  • GEO Microarray data registered in Gene Expression Omnibus
  • the degree of methylation is indicated by values from 0 (unmethylated) to 1 (fully methylated).
  • the collection of DNA methylation degree data is not limited to collection from public databases, but is based on an original database constructed by independently obtaining biological samples from cancer patients and performing microarray analysis. good too.
  • step S12 the plurality of DNA methylation degree data collected for each cancer type are classified into one or more groups. More specifically, a plurality of data on the degree of DNA methylation of cancer types having information of "tissue type” are subdivided by tissue type and classified into one or more groups, and have information of "tissue type”. A plurality of pieces of DNA methylation degree data of cancer types and a plurality of pieces of DNA methylation degree data of normal cells are treated as one group without being classified.
  • the presence or absence of cancer in multiple types of organs can be detected in a single cancer screening. It is possible to easily prepare a biomarker set capable of diagnosing whether cancer is suspected or not) with higher accuracy than before. More specifically, in a single cancer screening to examine the presence or absence of cancer in multiple types of organs, the tissue DNA of cancer types that have "tissue type” information in the DNA methylation degree data is highly accurately analyzed. Not only can detectable biomarkers be obtained, but also tissue DNA of cancer types that do not have "tissue type” information in DNA methylation data can be detected with the same or higher accuracy than before. Markers can be obtained easily.
  • Biomarker selection step Next, arbitrarily select one group from one or more groups classified in the classification step (step S14), and compare the selected group with the remaining groups (other groups) between two groups , at DNA positions common to both groups (step S16).
  • the group selected from the one or more groups classified in the classification step is The cancer type (organ) to which it belongs is selected as a biomarker for detection (step S18).
  • the numerical range of the biomarkers to be selected is determined such that the lower limit is redundant considering biological noise and measurement noise, and the upper limit is determined considering the number of samples in the selected group.
  • the number of biomarkers in the selected group is chosen so as not to exceed the number of samples in the selected group.
  • the number of biomarkers selected here is not limited as long as it is 1 or more, but is preferably 5 to 100, more preferably 10 to 30.
  • step S16 the method of comparison between two groups in step S16 will be described.
  • (1) Method using statistical hypothesis test For example, significant difference between DNA methylation degree data of group A (for example, 200 people) and DNA methylation degree data of group B (for example, 100 people)
  • the distribution of the degree of methylation in group A and the distribution of the degree of methylation in group B are compared at DNA positions common to both groups.
  • the divergence of both distributions can be determined using a statistical test.
  • FIG. 2A the distribution is visualized in advance, and suitable test methods [1] to [3] are selected according to the shape of the distribution.
  • the position of DNA at which a statistically significant difference was observed, and the methylation state of both groups at that DNA position (i.e., methylation/non-methylation) degree of methylation) are arranged in ascending order of p-value.
  • At least one DNA position and the methylation state of the selected group at the DNA position are determined in order of decreasing p-value from among the one or more groups classified in the classification step.
  • the cancer type (organ) to which it belongs is selected as a biomarker for detection (step S18).
  • all the collected methylation degree data are classified into groups A to D, and when group A is arbitrarily selected from the groups A to D, a combination of A ⁇ (B + C + D) (In FIG. 2A, B + C + D corresponds to "B group” in the figure), DNA positions with p values ⁇ 0.05, which are considered to be able to distinguish and discriminate both groups , and the methylation status of both groups at that DNA position.
  • one or more DNA positions and information on the methylation state of the selected A group at the DNA positions are selected in order of decreasing p-value, and these information are converted into A It is selected as a biomarker for detecting the tissue DNA of the cancer type (organ) to which the group belongs.
  • the above two-group comparison may be performed in combination of A ⁇ B, A ⁇ C, and A ⁇ D.
  • the position of the DNA with a p-value ⁇ 0.05 considered to be able to distinguish between both groups and the Information on the methylation status is obtained for each.
  • the positions of one or more DNAs and their DNAs in ascending order of the maximum p-value (maximum values of A ⁇ B, A ⁇ C, and A ⁇ D) Information on the methylation status of the selected A group at the location is selected, and this information is selected as a biomarker for detecting tissue DNA of the cancer type (organ) to which the A group belongs.
  • the divergence between the distributions of Group A and Group B can be determined using a method using the representative value of the distribution of the degree of methylation.
  • the representative value (median or mean value) of the methylation degree distribution of both groups is calculated, and if there is a deviation of at least 30% or more between the calculated values of both groups, the methylation degree distributions of both groups diverge. That is, it is determined that a significant difference is recognized, and it is considered that the A group and the B group can be distinguished and distinguished.
  • the median value of the methylation degree distribution of group A for example, 200 people
  • the median value of the methylation distribution of group B for example, 100 people
  • step S14 when the selection of biomarkers based on one group is completed, in step S14, whether or not all groups have been selected from a plurality of groups, that is, the selection of biomarkers for all groups Determine whether the work is completed (step S20), if so proceed to the next step (step S22), otherwise select biomarkers until completed Repeat the steps (steps S14 to S20).
  • a biomarker set using all the selected biomarkers is created in each group (step S22).
  • the number of biomarkers constituting the biomarker set is not particularly limited as long as it is 2 or more, but is preferably 10 to 1000, more preferably 30 to 300.
  • the number of biomarkers may be the same or different between cancer types, but it is preferred that the number of biomarkers be similar between groups.
  • the difference in the number of biomarkers between groups is not particularly limited, but is preferably ⁇ 0% to ⁇ 300%, more preferably ⁇ 0% to ⁇ 50% of the number of selected biomarkers.
  • the biomarker set produced by the method of Embodiment 1 is used to determine whether or not cancer tissue DNA is present in cell-free DNA contained in a biological sample collected from a subject for each organ. It can be detected with the same degree of accuracy as conventional or with higher accuracy than conventional. Furthermore, if an examination is performed to see if the methylation pattern of cell-free DNA contained in the biological sample matches the methylation pattern of the biomarker selected by the method of the first embodiment, any tissue It is also possible to determine whether it is cancer of an organ belonging to the type. In addition, since the presence or absence of multiple types of cancer tissue DNA can be detected in a single test, it is possible to reduce time constraints, economic burdens, and physical and mental burdens on subjects.
  • Embodiment 2 In Embodiment 1, the DNA methylation degree data collected for each cancer to be detected was classified based on the information of the "tissue type", but the present invention is not limited to this, and the "occurrence of diseases other than cancer It can also be classified on the basis of "presence or absence”.
  • the biomarker set production method of Embodiment 2 shown in FIG. 3 has the same steps as the biomarker set production method of Embodiment 1 shown in FIG. 1 except for the data classification step (step S12A). Therefore, the same steps are denoted by the same reference numerals, and the description thereof is omitted.
  • step S10 instead of the information on the "tissue type", information on "presence or absence of disease other than cancer” is acquired.
  • Information on the presence or absence of diseases other than cancer is obtained from information attached to the sample. It is not particularly limited as long as information on the presence or absence of a disease other than cancer associated with a sample of at least one type of cancer to be detected among multiple cancers to be detected (organs) can be obtained, but is preferably a target to be detected. It is preferable to collect information on the presence or absence of non-cancer disease associated with all types of cancer samples.
  • the detection target is cancer of organs A to D
  • the number of diseases other than cancer associated with a cancer patient-derived sample of organ A is not particularly limited, but is preferably 2 or more.
  • Disease other than cancer is not particularly limited as long as it is a disease provided as information attached to the sample, but it is preferable to have a correlation with various cancers. Examples of correlated diseases include:
  • cancer to be detected When the cancer to be detected is “liver cancer”, diseases other than cancer include liver cirrhosis, chronic hepatitis, alcoholic liver injury, and drug-induced liver injury.
  • diseases other than cancer include ulcerative colitis, Crohn's disease, ischemic colitis, and drug-induced colitis.
  • pancreatic cancer diseases other than cancer include ulcerative colitis, Crohn's disease, ischemic colitis, and drug-induced colitis.
  • non-cancer diseases When the detection target is “pancreatic cancer”, non-cancer diseases include chronic pancreatitis.
  • lung cancer non-cancer diseases include chronic obstructive pulmonary disease.
  • adnexitis is exemplified as a disease other than cancer.
  • step S12A classification is performed by "presence or absence of disease other than cancer” instead of "histological type”.
  • the plurality of DNA methylation degree data are classified into two or more groups, and the affliction with a disease other than cancer is classified can be classified as one group if there is no information on the presence or absence of
  • the presence or absence of cancer in multiple types of organs can be detected in a single cancer screening. It is possible to easily prepare a biomarker set capable of diagnosing whether cancer is suspected or not) with higher accuracy than before. More specifically, in a single cancer screening to examine the presence or absence of cancer in multiple types of organs, the DNA methylation degree data contains information on "presence or absence of one or more diseases other than cancer". In addition to obtaining biomarkers that can accurately detect the tissue DNA of cancer types that have It is possible to easily obtain biomarkers that can detect tissue DNA of non-existent cancer types with a level of accuracy higher than that in the past.
  • the biomarker set created by the method of the second embodiment is used to determine whether or not cancer tissue DNA is present in cell-free DNA contained in a biological sample collected from a subject for each organ. It can be detected with the same degree or higher accuracy than conventional ones. In addition, since the presence or absence of multiple types of cancer tissue DNA can be detected with high accuracy in a single test, it is possible to reduce time constraints, economic burdens, and physical and mental burdens on examinees. can.
  • Example 1 (Step of collecting methylation degree data) As shown in Table 1, (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, (5) ovarian cancer tissue, and (6) non- DNA methylation data (samples) from each cancer tissue (normal leukocytes) were collected from TCGA and/or NCBI GEO.
  • the DNA methylation degree data consists of information on "the position of one or more methylation sites in the whole genome region", "methylation degree of the methylation site", and ovarian cancer tissue type.
  • Cancer tissue DNA (1) to (5) of each developing organ is a sample derived from each cancer patient
  • non-cancer tissue DNA (6) is a sample derived from a healthy subject.
  • All collected data were measured using a microarray Infinium Human Methylation 450 from Illumina.
  • This microarray can measure the degree of methylation of cytosines at approximately 450,000 sites.
  • the "position of one or more methylation sites in the whole genome region" and the "methylation degree of the methylation site" of the DNA methylation degree data are all cytosine bases measured by Infinium Human Methylation 450. , and the degree of methylation of those cytosine bases.
  • the "DNA position and methylation degree of group A" selected in group A are selected as biomarkers for detecting the presence or absence of tissue DNA in colon cancer
  • the "DNA position and degree of methylation in group B" selected in group B “Methylation degree of group B” is selected as a biomarker for detecting the presence or absence of tissue DNA in pancreatic cancer
  • “DNA position and methylation degree of group C” selected in group C is selected as a biomarker for detecting the presence or absence of lung cancer tissue DNA
  • the "DNA position and group D methylation degree” selected in group D are biomarkers for detecting the presence or absence of lung cancer tissue DNA.
  • the machine learning model SVM was trained on the sample group used for biomarker selection (i.e., the methylation degree data group used for the selection of 126 biomarkers), and then used for biomarker selection.
  • Each methylation degree data of the sample group that is not used is (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, and (5) ovarian cancer tissue Among them, it was estimated from which organ the cancer tissue DNA was derived (for learning and estimation, the R language and the svm function in the library e1071 of the R language were used). Performance evaluation was indicated by the correct answer rate for each estimated cancer type.
  • the correct answer rate of the biomarker set selected in Example 1 was 88% for colon cancer, 81% for pancreatic cancer, 85% for liver cancer, 84% for lung cancer, and 86% for ovarian cancer (see FIG. 4). .
  • Example 2 (Step of collecting methylation degree data)
  • (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, (5) ovarian cancer tissue, and (6) non- DNA methylation data (samples) from each cancer tissue (normal leukocytes) were collected from TCGA and/or NCBI GEO (see Table 2).
  • the DNA methylation degree data includes the position of one or more methylation sites in the whole genome region, the methylation degree of the methylation site, and (3) liver cancer, (4) lung cancer, and (5) ovarian cancer. Consists of tissue type information.
  • all cytosine bases measured with Infinium Human Methylation 450 and the degree of methylation of these cytosine bases were used for the genomic region of the DNA methylation degree data and the methylation state of the genomic region. .
  • liver cancer tissue DNA samples were further added to the hepatocytes.
  • lung cancer tissue DNA samples further into adenocarcinoma and squamous cell carcinoma;
  • ovarian cancer tissue DNA samples into serous carcinoma and clear cell carcinoma. It was subdivided into endometrioid carcinoma and mucinous carcinoma.
  • other cancers with no histological information were not classified.
  • the groups of cancer tissue DNA (1) to (6) of the originating organ were subdivided into a total of 11 groups of AK. The number of samples in each group is as shown in Table 2.
  • DNA methylation data (samples) in each group are randomly divided into two equal parts, and one sample group is used for biomarker selection, generation of the set, and performance evaluation of the generated biomarker set. It was used as training data for the model, and the other sample group was used to evaluate the performance of the generated biomarkers.
  • Biomarker selection step and biomarker set preparation step As in Example 1, 12 biomarkers were selected for one group from the collected DNA methylation data.
  • the "DNA position and methylation degree of group A" selected in group A are selected as biomarkers for detecting the presence or absence of tissue DNA in colon cancer
  • the "DNA position and degree of methylation in group B" selected in group B The degree of methylation in group B was selected as a biomarker for detecting the presence or absence of tissue DNA in pancreatic cancer
  • the position of DNA selected in groups C and D and the degree of methylation in groups C and D ' is selected as a biomarker for detecting the presence or absence of liver cancer tissue DNA
  • the 'DNA position and methylation degree of E and F groups' selected in groups E and F are lung cancer tissues Selected as a biomarker for detecting the presence or absence of DNA
  • "DNA position and degree of methylation in groups G to J" selected in groups G to J detects the presence or absence of ovarian cancer tissue DNA.
  • biomarkers for detecting the presence or absence of normal leukocyte DNA are selected as biomarkers for detecting the presence or absence of normal leukocyte DNA.
  • 12 biomarkers/group ⁇ 11 groups 132 biomarkers were prepared as a biomarker set for examining the presence or absence of cancer in multiple types of organs at once.
  • Example 2 Performance evaluation of biomarker set
  • the machine learning model SVM was trained on the sample group used for biomarker selection (i.e., the methylation degree data group used for the selection of 132 biomarkers), and then biomarkers
  • Each methylation degree data of the sample group not used for selection is (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, and (5 )
  • the performance evaluation was indicated by the percentage of correct answers for each estimated cancer type.
  • the correct answer rate of the biomarker set selected in Example 2 was 89% for colon cancer, 83% for pancreatic cancer, 88% for liver cancer, 87% for lung cancer, and 89% for ovarian cancer (see FIG. 5). .
  • Example 1 Performance evaluation of biomarker set
  • the machine learning model SVM was trained on the sample group used for biomarker selection (i.e., the methylation degree data group used for the selection of 132 biomarkers), and then biomarkers
  • Each methylation degree data of the sample group not used for selection is (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, and (5 ) In the ovarian cancer tissue, it was estimated from which organ the cancer tissue DNA was derived.
  • the performance evaluation was indicated by the percentage of correct answers for each estimated cancer type.
  • the correct answer rate of the biomarker set selected in Comparative Example 1 was 88% for colon cancer, 81% for pancreatic cancer, 83% for liver cancer, 76% for lung cancer, and 72% for ovarian cancer ( Figures 4 and 5 reference).
  • FIG. 4 compares the performance evaluation results (percentage of correct answers) of the biomarker sets selected in Example 1 and Comparative Example 1.
  • biomarker set consisting of biomarkers selected after classifying sample data (methylation degree data group) of cancer types of at least one organ based on tissue type information It can be seen that cancers in various organs can be detected with higher accuracy than a biomarker set consisting of biomarkers selected without performing classification based on.
  • FIG. 5 compares the performance evaluation results (percentage of correct answers) of the biomarker sets selected in Example 2 and Comparative Example 1.
  • a biomarker set consisting of biomarkers selected after classifying sample data (methylation degree data group) of cancer types of at least one organ based on tissue type information It can be seen that cancers in various organs can be detected with higher accuracy than a biomarker set consisting of biomarkers selected without classification based on. Moreover, it can be seen that cancer tissue DNA can be detected with high precision even for cancers in organs that do not have tissue type information, and the presence or absence of cancer can be diagnosed.
  • Example 3 (Step of collecting methylation degree data) As shown in Table 4, (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, (5) ovarian cancer tissue, and (6) non- DNA methylation data (samples) from each cancer tissue (normal leukocytes) were collected from TCGA and/or NCBI GEO.
  • the DNA methylation degree data includes the position of one or more methylation sites in the entire genome region, the degree of methylation of the methylation sites, and (3) information on the presence or absence of cirrhosis and chronic hepatitis that are correlated with liver cancer.
  • Cancer tissue DNA (1) to (5) of each developing organ is a sample derived from each cancer patient
  • non-cancer tissue DNA (6) is a sample derived from a healthy subject.
  • the degree of methylation was measured using Microarray Infinium Human Methylation 450 manufactured by Illumina. This microarray can measure the degree of methylation of cytosines at approximately 450,000 sites.
  • the "position of one or more methylation sites in the whole genome region" and "methylation degree of the methylation site” of the DNA methylation degree data are all measured by Infinium Human Methylation 450 of cytosine bases and the degree of methylation of those cytosine bases were used.
  • DNA methylation data (samples) in each group are randomly divided into two equal parts, and one sample group is used for biomarker selection, generation of the set, and performance evaluation of the generated biomarker set. It was used as training data for the model, and the other sample group was used to evaluate the performance of the generated biomarkers.
  • Biomarker selection step and biomarker set preparation step As in Example 1, 12 biomarkers were selected for one group from the collected DNA methylation data.
  • the "DNA position and methylation degree of group A" selected in group A are selected as biomarkers for detecting the presence or absence of tissue DNA in colon cancer, and the "DNA position and degree of methylation in group B" selected in group B
  • the degree of methylation in group B was selected as a biomarker for detecting the presence or absence of tissue DNA in pancreatic cancer
  • the position of DNA and the degree of methylation in groups C and E selected from groups C to E ” is selected as a biomarker for detecting the presence or absence of liver cancer tissue DNA
  • the “DNA position and methylation degree of group F” selected in Group F indicates the presence or absence of lung cancer tissue DNA.
  • biomarker for detecting the "DNA position and methylation degree of group G" selected in group G is selected as a biomarker for detecting the presence or absence of tissue DNA of ovarian cancer
  • group H The "location of DNA and degree of methylation of group H" selected in 1. are selected as biomarkers for detecting the presence or absence of DNA in normal leukocytes.
  • 12 biomarkers/group ⁇ 8 groups 96 biomarkers were prepared as a biomarker set for examining the presence or absence of cancer in multiple types of organs at once.
  • Example 2 Performance evaluation of biomarker set
  • the machine learning model SVM was trained on the sample group used for biomarker selection (i.e., the methylation degree data group used for the selection of 96 biomarkers), and then biomarkers
  • Each methylation degree data of the sample group not used for selection is (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, and (5 ) In the ovarian cancer tissue, it was estimated from which organ the cancer tissue DNA was derived.
  • the performance evaluation was indicated by the percentage of correct answers for each estimated cancer type.
  • the correct answer rate of the biomarker set selected in Example 3 was 88% for colon cancer, 83% for pancreatic cancer, 90% for liver cancer, 85% for lung cancer, and 84% for ovarian cancer (see FIG. 6). .
  • Methods of cancer tissue DNA (1) to (6) of the originating organ were classified into a total of 6 groups A to F without being subdivided. The number of samples in each group A to F is shown in Table 5.
  • Example 2 Performance evaluation of biomarker set
  • the machine learning model SVM was trained on the sample group used for biomarker selection (i.e., the methylation degree data group used for the selection of 96 biomarkers), and then biomarkers
  • Each methylation degree data of the sample group not used for selection is (1) colon cancer tissue, (2) pancreatic cancer tissue, (3) liver cancer tissue, (4) lung cancer tissue, and (5 ) In the ovarian cancer tissue, it was estimated from which organ the cancer tissue DNA was derived.
  • the performance evaluation was indicated by the percentage of correct answers for each estimated cancer type.
  • the correct answer rate of the biomarker set selected in Comparative Example 2 was 83% for colon cancer, 81% for pancreatic cancer, 82% for liver cancer, 86% for lung cancer, and 84% for ovarian cancer (see FIG. 6). .
  • FIG. 6 compares the performance evaluation results (percentage of correct answers) of the biomarker sets selected in Example 3 and Comparative Example 2.
  • sample data of cancer types in at least one organ were selected after being classified based on information on the presence or absence of cirrhosis and chronic hepatitis that are correlated with liver cancer. It was found that a biomarker set consisting of biomarkers selected without classification based on information such as liver cirrhosis can detect cancer in various organs with high accuracy. . In addition, cancer tissue DNA can be detected with high accuracy even for cancers of organs that do not have information on the presence or absence of diseases other than cancer, such as colon cancer and pancreatic cancer. It was found that it is possible to diagnose the presence or absence of
  • the biomarker set designed by the present invention can be used for cancer screening.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Hematology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Urology & Nephrology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Genetics & Genomics (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Cell Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本発明は、一度のがん検診で、複数の臓器のがんの有無を、従来よりも精度高く、診断することができるバイオマーカーセットの作製方法の提供を目的とし、組織型の情報に基づいて、がんの種類別に収集された複数のDNAメチル化度データを1以上のグループに分類する分類工程と、分類された全てのグループから任意に1つの所定のグループを選択し、所定のグループと他のグループとの間で二群間比較を行い、両グループとの間に有意差があると認められるグループのDNA位置、及びその位置における両グループのメチル化状態の情報を抽出する抽出工程と、有意差が認められた両グループの情報の中から、所定の条件を満たすものを、所定のグループが属するがん種のバイオマーカーとして選択する選択工程と、を有するバイオマーカーセットの選択方法を提供する。

Description

がん検出のためのバイオマーカーセットの作製方法
 本発明は、がん検診で使用するバイオマーカーセットを作製する方法に関する。特に、血液や排泄物等の生体試料から、一度に複数種の臓器のがんについて、がんの疑いが有るか否か(がん組織の有無)を、がん種を区別して、診断するためのバイオマーカーセットを作製する方法に関する。
 一般的に、がんの有無の確定診断には、段階的な検査が必要とされる。まず、がん検診によりがんの疑いがあるか否かを診断し、がんの疑いがあると診断された場合に精密検査が実施され、がんの有無の確定診断が行われる。がんは、早期発見、早期治療を開始すれば、完治する可能性や生存率を高めることができるため、精密検査の要否を診断するがん検診は、非常に重要視されている。しかし、がん検診には、検出対象のがんによって異なる様々な問題がある。
 例えば、がんの検出対象が、膵がんや肝がん等の場合は、エビデンス(科学的根拠)が確立されているスクリーニング検査が未だ存在しないため、推奨検診が存在しないという問題がある。また、厚生労働省が指針で検診を勧める5つのがん、即ち、胃がん、大腸がん、肺がん、乳がん及び子宮頸がん(対策型検診)の場合は、内視鏡検査、胸部X線検査(マンモグラフィーを含む)が推奨されているが、これらの検査は、時間的制約、経済的負担、身体的・精神的な負担が大きいため、受診が敬遠される傾向にある。
 このような問題を解決することができる技術として、リキッドバイオプシー(liquid biopsy)が注目されている。リキッドバイオプシーとは、採取時に被検者の身体への負担が少ない低侵襲性の液体試料(血液や排泄物等)を用いて、がん細胞由来の物質(DNA)を検出する技術である。この技術では、バイオマーカーと呼ばれるものが使用される。がん細胞由来の物質が客観的に測定され、評価される特性値であり、疾患の有無や、進行状況等を把握するための指標として使用される。現在、バイオマーカーとして、様々なものが提案され、実用化に向けて研究開発が進められているが、その中の一つに、特定のDNAのメチル化状態(頻度)を利用する方法がある。
 DNAのメチル化は遺伝子発現制御に大きく関与し、がんの発生に関連して、特定のメチル化部位のメチル化又は脱メチル化が生じることが知られている。そのため、検査対象のがんの発生に特異的なメチル化部位や、そのメチル化部位におけるメチル化状態が明らかであれば、被検者由来の液体試料から抽出されたセルフリーDNA(cfDNA)中のがん細胞由来の物質(DNA)を検出することができる。
 また、がんの種類や、組織型、被検者の性別、年齢、人種及びがん以外に罹患している疾患の有無等の特徴により、DNAのメチル化及び/又は脱メチル化が生じるメチル化部位(CG配列)の位置、及びそれら部位のメチル化状態、即ち、メチル化パターンが異なるため、各がんの種類や特徴と、メチル化パターンとの間にある相関関係が既知であれば、それら情報に基づいて、各がんの種類や特徴に特異的なバイオマーカーを作成することができる。
 例えば、特許文献1では、特定のがん種と、そのDNAのメチル状態とが予め紐づけられている既知のデータに基づき、バイオマーカーを作製する方法が開示されている。
特表2019-521673号公報
 しかし、特許文献1に記載のバイオマーカーの作製方法は、がん種とDNAメチル化状態を紐づける既知のデータがない場合、使用することができない。このような場合、研究者らは、バイオマーカー指標部位として、広範囲のゲノム領域の中から、1~数千か所のメチル部位を選定したり、メチル化状態の計測方法や閾値を検討して、DNAのメチル化状態を決定する必要がある。また、広範囲なゲノム領域、及びバラエティに富んだDNAメチル化パターンの中から、被検者全員に共通して変化するバイオマーカー指標部位を選択し、決定しなければならない。つまり、バイオマーカーを獲得するために、非常に煩雑な手間やコストがかかるという問題がある。
 また、各臓器のがんに特異的なバイオマーカーを選択し、選択された複数のバイオマーカーを組み合わせてバイオマーカーセットとして使用すれば、複数の臓器のがんの有無(がんの疑いが有るか否か)を一度の検査で調べることができるが、同一臓器のがんであっても内部にDNAメチル化パターンが異なる複数の患者群が存在することにより、精度及び感度が十分でない実状がある。つまり、通常、所定の臓器のがんに特異的なDNAメチル化パターンをいくつか選択して、バイオマーカーを作製するが、被験者(患者)群の中に、その選択されたDNAメチル化パターンと異なるパターンを有する者が含まれていた場合、バイオマーカー(及びバイオマーカーセット)の精度及び感度が被験者(又は被験者群)によって悪くなる可能性があるという問題がある。
 そこで、本発明は、このような課題を解決するために、DNAメチル化パターンが異なる複数の患者群由来の生体試料が存在していても、一度のがん検診で、複数種の臓器のがんの有無(即ち、がんの疑いが有るかないか)を、従来よりも精度(及び感度)高く、診断することができるバイオマーカーセットを容易に作製することができる方法を提供することを目的とする。
[1] 診断対象として複数種類の臓器のがんを含む、がん検診に使用するためのバイオマーカーセットを作製する方法であって、
 前記診断対象のがんに罹患した患者由来の生体試料から取得された既知の複数のDNAメチル化度データであって、前記がんの種類別に、(1)全ゲノム領域における1以上のメチル化部位の位置、(2)前記メチル化部位のメチル化度、及び(3)組織型の情報を含む、複数のDNAメチル化度データを収集する収集工程と、
 前記組織型の情報に基づいて、前記がんの種類別に収集された前記複数のDNAメチル化度データを1以上のグループに分類する分類工程と、
 分類された全てのグループから任意に1つの所定のグループを選択し、前記所定のグループと
他のグループとの間で二群間比較を行い、両グループとの間に有意差があると認められたDNA位置、及びその位置における両グループのメチル化状態の情報を抽出する抽出工程と、
 有意差が認められた両グループの前記情報の中から、所定の条件を満たすものを、所定のグループが属するがん種のバイオマーカーとして選択する選択工程と、
 分類された全てのグループについて、前記バイオマーカーが選択されるまで、前記抽出工程及び選択工程を繰り返し、選択された全てのバイオマーカーから構成されるバイオマーカーセットを作製する工程と
を有し、
 前記組織型情報は、少なくとも1種類以上の前記がんの前記DNAメチル化度データに含まれるバイオマーカーセットの選択方法。
[2]前記分類工程において、前記複数のDNAメチル化度データが2以上の組織型の情報を有する場合は、前記複数のDNAメチル化度データを2以上のグループに分類し、前記組織型情報を1つだけ有する、又は前記組織型情報を有さない場合は、1つのグループとして分類する[1]に記載の方法。
[3]前記抽出工程において、前記有意差の判定は、(1)統計的検定におけるp値、又は(2)前記メチル化度分布の中央値若しくは平均値の差に基づいて実施される[1]又は[2]に記載の方法。
[4]前記診断対象に卵巣がん、肺がん、及び肝がんを含み、
 前記収集工程で収集された前記組織型の情報が、前記卵巣がんの組織型である漿液性がん、明細胞がん、類内膜がん及び粘液性がん、前記肺がんの組織型である腺がん、扁平上皮がん、大細胞がん、小細胞がん、前記肝がんの組織型である肝細胞がん及び肝内胆管がんである[1]~[3]のいずれかに記載の方法。
[5]診断対象として複数種類の臓器のがんを含む、がん検診に使用するためのバイオマーカーセットを作製するバイオマーカーセットの作製方法であって、
 前記診断対象のがんに罹患した患者由来の生体試料から取得された既知の複数のDNAメチル化度データであって、前記がんの種類別に、(1)全ゲノム領域における1以上のメチル化部位の位置、(2)前記メチル化部位のメチル化度、及び(3)がん以外の1種類以上の疾患の罹患の有無の情報を含む、複数のDNAメチル化度データを収集する収集工程と、
 前記がん以外の1種類以上の疾患の罹患の有無の情報に基づいて、前記がんの種類別に収集された前記複数のDNAメチル化度データを1以上のグループに分類する分類工程と、
 分類された全てのグループから任意に1つの所定のグループを選択し、前記所定のグループと
他のグループとの間で二群間比較を行い、両グループとの間に有意差があると認められたDNA位置、及びその位置における両グループのメチル化状態の情報を抽出する抽出工程と、
 有意差が認められた両グループの前記情報の中から、所定の条件を満たすものを、所定のグループが属するがん種のバイオマーカーとして選択する選択工程と、
 分類された全てのグループについて、前記バイオマーカーが選択されるまで、前記抽出工程及び選択工程を繰り返し、選択された全てのバイオマーカーから構成されるバイオマーカーセットを作製する工程と
を有し、
 前記がん以外の1種類以上の疾患の罹患の有無の情報は、少なくとも1種類以上の前記がんの前記DNAメチル化度データに含まれるバイオマーカーセットの選択方法。
[6]前記分類工程において、前記複数のDNAメチル化度データががん以外の1種類以上の疾患の罹患の有無の情報を有する場合は、前記複数のDNAメチル化度データを2以上のグループに分類し、前記がん以外の疾患の罹患の有無の情報を有さない場合は、1つのグループとして分類する[5]に記載の方法。
[7]前記抽出工程において、前記有意差の判定は、(1)統計的検定におけるp値、又は(2)前記メチル化度分布の中央値若しくは平均値の差に基づいて実施される[5]又は[6]に記載の方法。
[8]前記収集工程で収集された前記がん以外の1種類以上の疾患の罹患の有無の情報は、前記肝がんと相関性が高い肝硬変の罹患の有無、及び慢性肝炎の罹患の有無である[5]~[7]のいずれかに記載の方法。
 本発明によれば、DNAメチル化パターンが異なる複数の患者群由来の生体試料が存在していても、一度のがん検診で複数種の臓器のがんの有無(即ち、がんの疑いが有るかないか)を臓器別に精度(及び感度)高く診断することができるバイオマーカーセットを容易に作製することができる。
 また、1度の検査で複数種のがん組織DNAの有無を精度高く検出することができるため、被検者の時間的制約、経済的負担、身体的・精神的な負担を小さくさせることができる。
本発明の実施形態1に係るバイオマーカーセットの作製方法の一例を示すフローチャート図である。 実施形態1のバイオマーカー選択工程において、二群間を比較する方法の一例を説明するための図である。 実施形態1のバイオマーカー選択工程において、二群間を比較する方法の一例を説明するための図である。 本発明の実施形態2に係るバイオマーカーセットの作製方法の一例を示すフローチャート図である。 実施例1及び比較例1で選択したバイオマーカーセットの性能評価の結果(正答率)を示す図である。 実施例2及び比較例1で選択したバイオマーカーセットの性能評価の結果(正答率)を示す図である。 実施例3及び比較例2で選択したバイオマーカーセットの性能評価の結果(正答率)を示す図である。 本発明で用いられる用語「メチル化度」を説明するために使用する図である。
 以下に、添付の図面に示す公的な実施形態に基づいて、本発明のバイオマーカーの選択方法を詳細に説明する。
(用語の説明)
 本明細書において、「バイオマーカー」とは、被検者から採取した生体試料中に含まれるセルフリーDNA(cfDNA)のデータを分析することにより、そのセルフリーDNA(cfDNA)内に含まれる複数の種類の臓器(及び器官)のがん組織由来DNAを定量化し、被検者のがん罹患の有無を評価するスクリーニング検査に使用されるものであって、特定のがんに相関のあるメチル化部位及びその部位におけるDNAのメチル化度を指す。特定のがんの存在の有無を決定するために、1以上のバイオマーカーが使用される。
 本発明に用いられる「バイオマーカーセット」とは、複数種類のがんの存在の有無を決定するために、各がん種を検出する1以上のバイオマーカーを組み合わせたものをいう。
 ここで、本明細書で用いられる「バイオマーカー」を使用する「がん罹患の有無を評価するスクリーニング検査」とは、被検者から採取した生体試料中に含まれるセルフリーDNAについて、例えば、次世代シーケンサーを用いる場合には、各シーケンシングリードが50個以上の核酸の連続核酸配列から得られるメチル化シーケンスデータ(複数のメチル化部位及びそれら部位におけるメチル化状態)を含む、複数のシーケンシングリードを取得し、
 複数のシーケンシングリードにおける1つのシーケンシングリードに基づいてメチル化パターンを計算することであって、そのメチル化パターンが前記連続核酸配列に対応するゲノム領域およびゲノム領域内の1つ以上のモチーフ(即ち、大体5~20塩基対の生物学的に意味のある塩基配列パターン)のメチル化状態を含み、
 前記メチル化パターンを、1以上のバイオマーカー(即ち、複数のメチル化部位とそれらのメチル化状態)のそれぞれと比較して1つ以上の尤度スコアを計算することであって、前記1つ以上のバイオマーカーのそれぞれが特定のがん組織DNAと相関し、それぞれのバイオマーカーが少なくとも1つの所定のメチル化部位とそれら部位のメチル化状態を含み、且つ、
 前記1つ以上の尤度スコアのうちの少なくとも1つが閾値を上回る場合に、前記シーケンシングリードを、がん組織を含むとして評価することを含み、
 前記複数のシーケンシングリードにおける「がん組織」を含むシーケンシングリードの数に基づいて、前記生体試料中の特定のがん組織を定量評価することを含む方法を指す。
 また、本明細書で用いられる「バイオマーカー」を使用する「がん罹患の有無を評価するスクリーニング検査」は、上記次世代シーケンサーによる検査に限定されず、例えば、被検者から採取した生体試料中に含まれるセルフリーDNAについて、マイクロアレイ等の方法を用いて複数のメチル化部位のメチル化度を直接的に獲得し、所定の1以上の各メチル化部位においてメチル化度が、予め定められた所定のがん組織に相関性のある閾値を上回る/下回る場合には、生体試料中に上記所定のがん組織DNA(所定のメチル化状態にあるDNA)を含むとして評価する方法を指す。
 また、がん種別に異なるバイオマーカーからなるバイオマーカーセットを使用することにより、一度に複数種の臓器のがんについて、がんの有無(即ち、がんの疑いが有るかないか)を調べることができる検査をいう。
 本明細書で用いられる用語「メチル化部位」とは、グアニン残基に隣接するシトシン残基(CpG部位)であって、メチル化され得るものを指す。
 本明細書で用いられる用語「メチル化パターン」とは、所定の生理学的組成に特有のDNAのメチル化パターンを指し、少なくとも1以上のメチル化部位の組み合わせ及びそれらの部位のメチル化度を指す。
 本発明で用いられる用語「メチル化度」とは、(複数又は同一の細胞由来の)複数のDNAに共通のメチル化部位(CpG部位)の位置において、全DNAのうち、メチル化されているDNAの割合をいう。図7に示すように、DNAが3コピーある場合、CpG部位[1]~[4]のメチル化度は、それぞれ、CpG部位[1]は100%、CpG部位[2]は0%、CpG部位[3]及び[4]は66.7%となる。
 本発明で用いられる用語「メチル化状態」とは、所定のメチル化部位において、ある群のメチル化度分布が高いか(メチル化)、ないしは低いか(非メチル化)の情報のことをいう。
 本明細書で用いられる「検出対象のがん」は、早期発見、早期治療し、適切な治療を行うことを目的として推奨される初期検査(精密検査の必要性の有無を判定する検査)において対象となる臓器のがん(診断対象)を指す。例えば、舌、食道、肺、胃腸、膵臓、腎臓、肝臓、乳房、前立腺、子宮、膀胱、卵巣、血液、及び脳等のがん性細胞もしくは、それらに由来するがん性細胞が挙げられる。がんには、腫瘍細胞から構成される腫瘍が含まれていてもよい。
 本発明のバイオマーカーセットが検出する対象の臓器のがんは、少なくとも2種以上であれば、特に限定されないが、5個以上が好ましく、10個以上がより好ましい。
 本明細書で用いられる用語「精度」とは、がんが存在する受診者を正しく陽性と判定し、がんでない者を正しく陰性と判定する正確さの程度をいう。
 本明細書で用いられる用語「感度」とは、検診受診時に発見可能ながんが存在する者の中で検診により発見された者の割合をいう。
 本明細書で用いられる用語「生体試料」とは、被検者の身体から採取した試料のことであって、具体的には、被検者から採取され、1以上の臓器(器官)との接触を有する血液、皮膚、毛髪、唾液、口腔粘液、腟粘液、汗、涙、上皮組織、尿、精液、精漿、前立腺液、排泄物、生検、腹水、脳脊髄液、リンパ液、及び組織抽出物試料または生検試料を指す。
[実施形態1]
 図1は本発明の実施形態1に係るバイオマーカーセットの作製方法の一例のフローチャートを概念的に示したものである。
(DNAメチル化度データ収集工程)
 図1に示すように、まず、公的に入手可能なデータベースを利用して、各種がんに罹患した患者(及び健常者)のサンプルを取得し、そのサンプルから、検出対象のがん組織(及び正常な組織)のDNAメチル化度データを収集する(ステップS10)。DNAメチル化度データは、少なくとも3種類の情報、即ち、(1)全ゲノム領域における1以上のメチル化部位の位置、(2)前記メチル化部位のメチル化度、及び(3)組織型の情報を含む。
 患者(又は健常者)のサンプル数は、各がん組織(又は正常な組織)について、それぞれ、少なくとも5あれば、特に限定されず、100以上であれば、好ましく、200以上であれば、より好ましい。
 「全ゲノム領域における1以上のメチル化部位の位置」とは、マイクロアレイや全ゲノムシーケンス等のゲノムワイドな計測、即ち、ゲノムの全ての領域の網羅的な計測で得られる数万~数百万のシトシン塩基の位置を指し、例えば、イルミナ社のマイクロアレイ Infinium Human Methylation 450、WGBS(Whole Genome Bisulfite Sequencing)、RRBS(Reduced Representation of Bisulfite Sequencing)等で計測される全てのシトシン残基の位置を指す。
 組織型についての情報は、サンプルに付随する情報から取得する。一般的に、サンプルには、患者の性別や年齢、がんのステージや組織型の情報が添えられている。組織型とは、がん細胞の形状やがん細胞が集まった組織の状態からがんを分類したものである。この組織型の情報は、複数の検出対象(臓器)のがんのうち、少なくとも1種類のがんについて取得できれば、特に限定されないが、好ましくは、検出対象の全ての種類のがんの組織型の情報を収集することが好ましい。
 例えば、検査対象が、肝がんであれば、組織型として、肝細胞がん(HCC)、肝内胆管がん(ICC)、及びHCCとICCの混合型のがんが挙げられる。また、検査対象が、肺がんであれば、組織型として、扁平上皮がん、肺腺がん、肺大細胞がん、及び非小細胞がんが挙げられる。また、検査対象が、卵巣がんであれば、組織型として、漿液性がん、明細胞がん、類内膜がん、及び粘液性がんが挙げられる。
 公的なデータベースとしては、WGBS(Whole Genome Bisulfite Sequencing)、RRBS(Reduced Representation of Bisulfite Sequencing)、及びアレイに基づくDNAメチル化度データを含むものであれば特に限定されず、例えば、2006年から米国で開始された大型がんゲノムプロジェクトTCGA(The Cancer Genome Atlas)で解析されたデータや、NCBI(National Center for Biotechnology Information)で公開されている、DNAのメチル化に関連する論文の付属としてGEO(Gene Expression Omnibus)に登録されたマイクロアレイデータ等を利用することができる。メチル化度は、0(非メチル化)~1(完全メチル化)の値で示される。
 なお、DNAメチル化度データの収集は、公的なデータベースからの収集に限定されず、独自にがん患者から生体試料を取得し、マイクロアレイ解析を行うことにより構築した独自のデータベースを利用してもよい。
(データ分類工程)
 次いで、先の工程で取得したDNAメチル化度データの「組織型」の情報に基づいて、がん種別に収集された複数のDNAメチル化度データを1以上のグループに分類する(ステップS12)。
 より具体的に言えば、「組織型」の情報を有するがん種の複数のDNAメチル化度データは、組織型別に細分化して1以上のグループに分類され、「組織型」の情報を有するがん種の複数のDNAメチル化度データ、及び正常な細胞の複数のDNAメチル化度データは、分類分けを行わず、1グループとして扱う。
 このような分類をすることで、DNAメチル化パターンが異なる複数の患者群由来の生体試料が存在していても、一度のがん検診で、複数種の臓器のがんの有無(即ち、がんの疑いが有るかないか)を、従来よりも精度高く、診断することができるバイオマーカーセットを容易に作製することができる。より具体的に言えば、複数種の臓器のがんの有無の検査を調べる一度のがん検診において、DNAメチル化度データに「組織型」の情報を有するがん種の組織DNAを精度高く検出できるバイオマーカーを獲得することができるだけでなく、DNAメチル化度データに「組織型」の情報を有さないがん種の組織DNAについても、従来よりも同程度以上に精度高く検出できるバイオマーカーを容易に獲得することができる。
(バイオマーカー選択工程)
 次いで、分類工程で分類された1以上のグループの中から任意に1つのグループを選択し、(ステップS14)、選択されたグループと、残りのグループ(他のグループ)との二群間比較を、両グループ共通のDNAの位置で行う(ステップS16)。
 この比較により、統計的に有意差が認められるDNAの位置、及びそのDNA位置における両グループのメチル化状態(即ち、メチル化/非メチル化を示すメチル化度)を抽出する。ここで有意差が認められたDNAの位置、及びそのDNA位置における両グループのメチル化状態であれば、両グループを区別して判別することができると見なされる。
 次いで、有意差が大きい順に、少なくとも1個のDNAの位置、及びそのDNA位置における、選択されたグループのメチル化状態を、分類工程で分類された1以上のグループの中から選択されたグループが属するがん種(臓器)を検出するバイオマーカーとして選択する(ステップS18)。
 選択するバイオマーカーの数値範囲は、下限は、生体ノイズや計測ノイズを考慮して冗長性があるように決定し、上限は、選択されたグループのサンプル数を考慮して決定することが好ましく、一般的に、選択されたグループのバイオマーカー数は、選択されたグループのサンプル数を超えないように選択する。
 ここで選択されるバイオマーカーの数は、1個以上であれば限定されないが、5個~100個であれば好ましく、10個~30個であれば、より好ましい。
 ここで、ステップS16における二群間比較の方法を説明する。
(1)統計的仮説検定を利用した方法
 例えば、A群(例えば、200人分)のDNAメチル化度データと、B群(例えば、100人分)のDNAメチル化度データの間に有意差があるか否かを検定する場合に、両群に共通するDNAの位置において、A群のメチル化度の分布と、B群のメチル化度の分布を比較する。両分布の乖離は、統計検定を用いて判定することができる。まず、図2Aに示すように、予め、分布を可視化し、分布の形状に合わせて適した検定方法[1]~[3]を選択する。
[1]分布が正規分布と見做せる場合であって、2つの分布の分散が等しい時は、スチューデントのt検定を選択する。
[2]分布が正規分布と見做せる場合であって、2つの分布の分散が等しくない時は、ウェルチのt検定を選択する。
[3]分布が正規分布と見做せない場合は、マン・ホイットニーのU検定を選択する。
 これら検定により、p値が0.05以下である場合、2つのメチル化度分布は乖離している、即ち、有意差が認められると判定され、A群とB群は、区別して判別することができるとみなされる。
 本実施形態においては、このような比較を行った結果、統計的に有意差が認められたDNAの位置、及びそのDNA位置における両グループのメチル化状態(即ち、メチル化/非メチル化を示すメチル化度)をp値が小さい順に並べる。
 次いで、p値が小さい順に、少なくとも1個のDNAの位置、及びそのDNA位置における、選択されたグループのメチル化状態を、分類工程で分類された1以上のグループの中から選択されたグループが属するがん種(臓器)を検出するバイオマーカーとして選択する(ステップS18)。
 例えば、分類工程において、収集した全てのメチル化度データがA~Dのグループに分類され、A~Dのグループの中から、任意にAグループが選択された場合、A×(B+C+D)の組み合わせで二群間比較を実施すると(図2Aでは、B+C+Dが、図中の「B群」に該当)、両グループを区別して判別することができると見なされるp値≦0.05のDNAの位置、及びそのDNA位置における両グループのメチル化状態の情報が得られる。
 次いで、取得された情報の中から、p値が小さい順に、1個以上のDNAの位置、及びそのDNA位置における、選択されたAグループのメチル化状態の情報を選択し、これら情報を、Aグループが属するがん種(臓器)の組織DNAを検出するバイオマーカーとして選択される。
 なお、上記二群間比較は、A×B、A×C、及びA×Dの組み合わせで実施されてもよい。この場合、両グループを区別して判別することができると見なされるp値≦0.05のDNAの位置、及びそのDNA位置における両グループ(即ち、A及びB、A及びC、A及びD)のメチル化状態の情報がそれぞれ得られる。
 次いで、取得されたメチル化状態の情報の中から、p値の最大値(A×B、A×C、A×Dの最大値)が小さい順に、1個以上のDNAの位置、及びそのDNA位置における、選択されたAグループのメチル化状態の情報を選択し、これら情報を、Aグループが属するがん種(臓器)の組織DNAを検出するバイオマーカーとして選択される。ただし、Aグループが属するがん種に属するグループ、即ち、がん種が同じグループについては、必ずしも二群間比較を実施する必要はない。
(2)代表値を利用した方法
 また、A群及びB群の両分布の乖離を、メチル化度の分布の代表値を用いる方法を用いて判定することができる。まず、両群のメチル化度分布の代表値(中央値または平均値)を算出し、両群の算出値に、少なくとも30%以上の乖離がある場合、両群のメチル化度分布は乖離している、即ち、有意差が認められると判定され、A群とB群は、区別して判別することができるとみなされる。
 例えば、まず初めに、図2Bに示すように、A群とB群のDNAメチル化度データの間に有意差があるか否かを検定する場合に、両群に共通するDNAの位置において、A群のメチル化度分布(例えば、200人分)の中央値と、B群のメチル化分布(例えば、100人分)の中央値を算出する。両群の中央値を比較し、少なくとも30%以上の乖離がある場合、両群のメチル化度分布は乖離していると判定され、A群とB群は、区別して判別することができると見なされる。
。同様に、A群及びB群のメチル化度分布の平均値を算出、比較し、少なくとも30%以上の乖離がある場合、2つのメチル化度分布は乖離していると判定することができる。
 図2Bにおいて、例えば、分類工程において、収集した全てのメチル化度データがA~Dのグループに分類され、A~Dのグループの中から、任意にAグループが選択された場合は、B+C+Dが、図中の「B群」に該当する。
 上述したように、1つのグループに基づくバイオマーカーの選択を完了すると、ステップS14において、複数のグループから、全てのグループの選択が完了しているか否か、即ち、全てのグループのバイオマーカーの選択作業が完了しているか否かを判定し(ステップS20)、完了している場合は、次の工程(ステップS22)に進み、完了されていない場合は、完了されるまで、バイオマーカーを選択する工程(ステップS14~S20)を繰り返す。
(バイオマーカーセットの作製)
 全てのグループのバイオマーカーの選択作業が完了すれば、各グループにおいて、選択されたバイオマーカーを全て使用するバイオマーカーセットを作製する(ステップS22)。
 バイオマーカーセットを構成するバイオマーカー数は、2個以上であれば特に限定されないが、10個~1000個であれば好ましく、30個~300個であればより好ましい。
 がん種間でバイオマーカーの数は、同じであっても異なっていてもよいが、グループ間でバイオマーカーの数が同程度であることが好ましい。
 グループ間におけるバイオマーカー数の差は、特に限定されないが、選択したバイオマーカーの個数の±0%~±300%であれば好ましく、±0%~±50%であればより好ましい。
 上述したように、本実施形態1の方法で作製されたバイオマーカーセットは、被検者から採取した生体試料中に含まれるセルフリーDNAに、がん組織DNAが存在するか否かを臓器別に従来と同程度または従来よりも高精度に検出することができる。
 また、さらに、生体試料中に含まれるセルフリーDNAのメチル化パターンが、本実施形態1の方法で選択されたバイオマーカーのメチル化パターンと一致するか否かの検査を行えば、いずれの組織型に属する臓器のがんであるのかを判定することも可能である。
 また、1度の検査で複数種のがん組織DNAの有無を検出することができるため、被検者の時間的制約、経済的負担、身体的・精神的な負担を小さくさせることができる。
[実施形態2]
 実施形態1においては、「組織型」の情報に基づいて、各検出対象のがんについて収集されたDNAメチル化度データを分類したがこれに限定されず、「がん以外の疾患の罹患の有無」に基づいて分類することもできる。
 図3に示す実施形態2のバイオマーカーセットの作製方法は、図1に示す実施形態1のバイオマーカーセットの作製方法と、データ分類工程(ステップS12A)以外は、同様の工程を有するものであるので、同一の工程には、同一の参照符号を付し、その説明は省略する。
 DNAメチル化度データ収集工程(ステップS10)において、「組織型」の情報の代わりに、「がん以外の疾患の罹患の有無」の情報を取得する。
 がん以外の疾患の罹患の有無の情報は、サンプルに付随する情報から取得する。複数の検出対象(臓器)のがんのうち、検出対象の少なくとも1種類のがんのサンプルに付随するがん以外の疾患の有無の情報について取得できれば、特に限定されないが、好ましくは、検出対象の全ての種類のがんのサンプルに付随するがん以外の疾患の有無の情報を収集することが好ましい。例えば、検出対象が臓器A~Dのがんである場合、少なくとも臓器Aの患者由来のサンプルに付随するがん以外の疾患の有無の情報を取得できれば、特に限定されない。
 また、検出対象のがんに相関性のある「がん以外の疾患の罹患の有無」の情報を2以上収集することが好ましい。例えば、臓器Aのがん患者由来のサンプルに付随するがん以外の疾患数は、特に限定されないが、2以上であることが好ましい。
 「がん以外の疾患」としては、サンプルに付属する情報として提供されている疾患であれば、特に限定されないが、各種がんに相関性があるものが好ましい。相関性がある疾患の例としては、以下のようなものが挙げられる。
 検出対象のがんが、「肝がん」である場合は、がんを除く疾患として、肝硬変、慢性肝炎、アルコール性肝障害、薬剤性肝障害が挙げられる。
 検出対象が、「大腸がん」である場合は、がん以外の疾患として、潰瘍性大腸炎、クローン病、虚血性大腸炎、薬剤性大腸炎が挙げられる。
 検出対象が、「膵がん」である場合は、がん以外の疾患として、慢性膵炎が挙げられる。
 検出対象が、「肺がん」である場合は、がん以外の疾患として、慢性閉塞性肺疾患が挙げられる。
 検出対象が、「卵巣がん」である場合は、がん以外の疾患として、付属器炎が挙げられる。
 次いで、分類工程(ステップS12A)において、「組織型」の代わりに、「がん以外の疾患の罹患の有無」で分類を行う。
 複数のDNAメチル化度データががん以外の1種類以上の疾患の罹患の有無の情報を有する場合、複数のDNAメチル化度データを2以上のグループに分類し、がん以外の疾患の罹患の有無の情報を有さない場合は、1つのグループとして分類することができる。
 このような分類をすることで、DNAメチル化パターンが異なる複数の患者群由来の生体試料が存在していても、一度のがん検診で、複数種の臓器のがんの有無(即ち、がんの疑いが有るかないか)を、従来よりも精度高く、診断することができるバイオマーカーセットを容易に作製することができる。より具体的に言えば、複数種の臓器のがんの有無の検査を調べる一度のがん検診において、DNAメチル化度データに「がん以外の1種類以上の疾患の罹患の有無」の情報を有するがん種の組織DNAを精度高く検出できるバイオマーカーを獲得することができるだけでなく、DNAメチル化度データに「がん以外の1種類以上の疾患の罹患の有無」の情報を有さないがん種の組織DNAについても、従来よりも同程度以上に精度高く検出できるバイオマーカーを容易に獲得することができる。
 上述したように、本実施形態2の方法で作成されたバイオマーカーセットは、被検者から採取した生体試料中に含まれるセルフリーDNAに、がん組織DNAが存在するか否かを臓器別に従来よりも同程度または高精度に検出することができる。
 また、1度の検査で複数種のがん組織DNAの有無を精度高く検出することができるため、被検者の時間的制約、経済的負担、身体的・精神的な負担を小さくさせることができる。
 以上、本発明について詳細に説明したが、本発明は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。
[実施例1]
(メチル化度データの収集工程)
 表1に示すように、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、(5)卵巣がん組織、及び(6)非がん組織(正常白血球)それぞれに由来するDNAメチル化度データ(サンプル)を、TCGA及び/またはNCBIのGEOから収集した。DNAメチル化度データは、「全ゲノム領域における1以上のメチル化部位の位置」、「メチル化部位のメチル化度」、及び卵巣がんの組織型の情報からなる。各発生臓器のがん組織DNA(1)~(5)は、各がん患者、非がん組織DNA(6)は、健常者に由来するサンプルである。
 なお、収取されたデータは何れも、イルミナ社のマイクロアレイ Infinium Human Methylation 450を用いて測定されたものである。本マイクロアレイは、約45万ヵ所のシトシンのメチル化度を測定することができるものである。本実施例において、DNAメチル化度データの「全ゲノム領域における1以上のメチル化部位の位置」、「そのメチル化部位のメチル化度」は、Infinium Human Methylation 450で計測された全てのシトシン塩基、及びそれらシトシン塩基のメチル化度を使用した。
(データ分類工程)
 次いで、(5)卵巣がんのサンプルデータについては、組織型の情報に基づいて、(5)卵巣がん組織DNAのサンプルを、漿液性がんと明細胞がんと類内膜がんと粘液性がんにさらに細分化して分類し、その他のがんについては、分類はしなかった。その結果、発生臓器のがん組織DNA等(1)~(6)の群を、合計9つのA~Iの群(グループ)に細分化した。各群のサンプル数は表1に示すとおりである。
 各群のDNAメチル化データ(サンプル)はランダムに二等分し、一方のサンプル群は、バイオマーカーの選択及びそのセットの作製と、作製したバイオマーカーセットの性能評価のために使用する機械学習モデルの教師データとして使用し、他方のサンプル群は、作製したバイオマーカーの性能評価に使用した。
Figure JPOXMLDOC01-appb-T000001
(バイオマーカーの選択工程、及びバイオマーカーセットの作製工程)
 次いで、A群とそれ以外の群(B~I群)とを区別して判別することができる「DNAの位置及びメチル化度」を抽出するために、各群共通のDNA位置におけるメチル化度分布を作成した。即ち、収集されたDNAの所定の位置におけるA群のメチル化度分布、B群のメチル化度分布・・・I群のメチル化度を収集されたDNAの全ての位置において作成した。いずれのメチル化度分布も正規分布とみなすことができ、全ての分布の分散が等しいと判断することができたため、バイオマーカーの選択には、スチューデントのt検定を用いた。
 続いて、大腸がん群のサンプル(A)を、他臓器のがん群及び正常白血球群のサンプル(B~I)と区別可能なバイオマーカーを選択するため、A群と、区別すべき他の各サンプルとの間で(即ち、A群と、B群+C群+・・・I群との間で)、「二群の平均値に差はない」という帰無仮説に対するp値をDNAの全ての位置において算出した。
 算出されたp値、p値≦0.05を満たす「DNAの位置及びメチル化度」中からp値の小さい順に14個の「DNAの位置及びその位置におけるメチル化度(A群のメチル化度)」を選択し、それらをA群が属する大腸がん組織DNAの存在の有無を検出するバイオマーカーとして選択した。
 なお、p値の算出にはR言語と呼ばれる統計解析向けのプログラミング言語、およびR言語のt.test関数を用いた。
 A群と同様に、他の群(B~I)においても、p値をDNAの全ての位置において算出し、p値≦0.05を満たす「DNAの位置及びメチル化度」中からp値の小さい順に14個の「DNAの位置及びその位置におけるメチル化度」を選択し、それらを各群が属するがん組織DNAの存在の有無を検出するバイオマーカーとして選択した。A群で選択された「DNAの位置及びA群のメチル化度」は、大腸がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、B群で選択された「DNAの位置及びB群のメチル化度」は、膵がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、C群で選択された「DNAの位置及びC群のメチル化度」は、肝がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、D群で選択された「DNAの位置及びD群のメチル化度」は、肺がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、E~H群で選択された「DNAの位置及びE~H群のメチル化度」は、卵巣がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、I群で選択された「DNAの位置及びI群のメチル化度」は、正常白血球のDNAの存在の有無を検出するバイオマーカーとして選択される。
 このように選択された14個/群×9群=126個のバイオマーカーを、複数種類の臓器のがんの有無を1度に検査するバイオマーカーセットとして作製した。
(バイオマーカーセットの性能評価)
 まず、機械学習モデルSVMに、バイオマーカーの選択に使用したサンプル群(即ち、126個のバイオマーカーの選択に使用されたメチル化度データ群)を学習させた後、バイオマーカーの選択に使用していないサンプル群の各メチル化度データが、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、及び(5)卵巣がん組織のうち、どの臓器のがん組織DNAに由来するものか推定した(学習と推定にはR言語、およびR言語のライブラリe1071中のsvm関数を用いた)。性能評価は、推定された各がん種の正答率で示した。
 実施例1で選択したバイオマーカーセットの正答率は、大腸がんで88%、膵がんで81%、肝がんで85%、肺がんで84%、卵巣がんで86%であった(図4参照)。
[実施例2]
(メチル化度データの収集工程)
 実施例1と同様に、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、(5)卵巣がん組織、及び(6)非がん組織(正常白血球)それぞれに由来するDNAメチル化度データ(サンプル)を、TCGA及び/またはNCBIのGEOから収集した(表2参照)。DNAメチル化度データは、全ゲノム領域における1以上のメチル化部位の位置、そのメチル化部位のメチル化度、及び(3)肝がん、(4)肺がん、及び(5)卵巣がんの組織型の情報からなる。実施例1と同様に、DNAメチル化度データのゲノム領域、及びそのゲノム領域のメチル化状態は、Infinium Human Methylation 450で計測された全てのシトシン塩基、及びそれらシトシン塩基のメチル化度を使用した。
(データ分類工程)
 次いで、(3)肝がん、(4)肺がん、及び(5)卵巣がんのサンプルデータについては、組織型の情報に基づいて、(3)肝がん組織DNAのサンプルをさらに肝細胞がんと肝内胆管がんに、(4)肺がん組織DNAのサンプルをさらに腺がんと扁平上皮がんに、(5)卵巣がん組織DNAのサンプルを漿液性がんと明細胞がんと類内膜がんと粘液性がんに細分化して分類した。一方、組織型の情報を有さないその他のがんについては、分類しなかった。その結果、発生臓器のがん組織DNA(1)~(6)の群を、合計11のA~Kの群に細分化した。各群のサンプル数は表2に示すとおりである。
 各群のDNAメチル化データ(サンプル)はランダムに二等分し、一方のサンプル群は、バイオマーカーの選択及びそのセットの作製と、作製したバイオマーカーセットの性能評価のために使用する機械学習モデルの教師データとして使用し、他方のサンプル群は、作製したバイオマーカーの性能評価に使用した。
Figure JPOXMLDOC01-appb-T000002
(バイオマーカーの選択工程、及びバイオマーカーセットの作製工程)
 実施例1と同様に、収集したDNAメチル化データから、1群に対し、12個のバイオマーカーを選択した。A群で選択された「DNAの位置及びA群のメチル化度」は、大腸がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、B群で選択された「DNAの位置及びB群のメチル化度」は、膵がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、C群及びD群で選択された「DNAの位置及びC及びD群のメチル化度」は、肝がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、E群及びF群で選択された「DNAの位置及びE及びF群のメチル化度」は、肺がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、G~J群で選択された「DNAの位置及びG~J群のメチル化度」は、卵巣がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、K群で選択された「DNAの位置及びK群のメチル化度」は、正常白血球DNAの存在の有無を検出するバイオマーカーとして選択される。
 また、12個/群×11群=132個のバイオマーカーを、多種類の臓器のがんの有無を1度に検査するバイオマーカーセットとして作製した。
(バイオマーカーセットの性能評価)
 実施例1と同様に、機械学習モデルSVMに、バイオマーカーの選択に使用したサンプル群(即ち、132個のバイオマーカーの選択に使用されたメチル化度データ群)を学習させた後、バイオマーカーの選択に使用していないサンプル群の各メチル化度データが、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、及び(5)卵巣がん組織のうち、どの臓器のがん組織DNAに由来するものか推定した。性能評価は、実施例1と同様に、推定された各がん種の正答率で示した。
 実施例2で選択したバイオマーカーセットの正答率は、大腸がんで89%、膵がんで83%、肝がんで88%、肺がんで87%、卵巣がんで89%であった(図5参照)。
[比較例1]
(メチル化度データの収集工程/データ分類工程)
 メチル化度データの収集において、いずれのがん種においても組織型の情報を取得しなかったこと以外、全て実施例1及び2と同様にメチル化度データの収集工程及びデータ分類工程を実施した。その結果、発生臓器のがん組織DNA(1)~(6)の群は、細分化されることなく、合計6つのA~Fの群に分類された。各群A~Fのサンプル数は表3に示すとおりである。
Figure JPOXMLDOC01-appb-T000003
(バイオマーカーの選択工程、及びバイオマーカーセットの作製工程)
 実施例1と同様に、収集したDNAメチル化データから、1群に対し、22個のバイオマーカーを選択した。また、22個/群×6群=132個のバイオマーカーを、多種類の臓器のがんの有無を1度に検査するバイオマーカーセットとして作製した。
(バイオマーカーセットの性能評価)
 実施例1と同様に、機械学習モデルSVMに、バイオマーカーの選択に使用したサンプル群(即ち、132個のバイオマーカーの選択に使用されたメチル化度データ群)を学習させた後、バイオマーカーの選択に使用していないサンプル群の各メチル化度データが、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、及び(5)卵巣がん組織のうち、どの臓器のがん組織DNAに由来するものか推定した。性能評価は、実施例1及び2と同様に、推定された各がん種の正答率で示した。
 比較例1で選択したバイオマーカーセットの正答率は、大腸がんで88%、膵がんで81%、肝がんで83%、肺がんで76%、卵巣がんで72%であった(図4及び5参照)。
(実施例1と比較例1の対比)
 図4は、実施例1と比較例1で選択したバイオマーカーセットの性能評価の結果(正答率)を比較したものである。実施例1のバイオマーカーセットは、14個/群×9群=126個のバイオマーカーからなり、比較例1のバイオマーカーセットは、22個/群×6群=132個のバイオマーカーからなる。
 図4から、実施例1で選択したバイオマーカーセットは、比較例1よりもバイオマーカー数が少ないにもかかわらず、各がん種において、比較例1と同程度以上の正答率が得られていることがわかる。
 従って、少なくとも1つの臓器のがん種のサンプルデータ(メチル化度データ群)を、組織型の情報に基づいて分類を行った後に選択されたバイオマーカーからなるバイオマーカーセットは、組織型の情報に基づいて分類を行うことなく選択されたバイオマーカーからなるバイオマーカーセットよりも高精度に各種臓器のがんを検出することができることがわかる。
(実施例2と比較例1の対比)
 図5は、実施例2と比較例1で選択したバイオマーカーセットの性能評価の結果(正答率)を比較したものである。実施例2のバイオマーカーセットは、12個/群×11群=132個のバイオマーカーからなり、比較例1のバイオマーカーセットは、22個/群×6群=132個のバイオマーカーからなるため、いずれも同数のバイオマーカーからなる。
 図5から、実施例2で選択したバイオマーカーセットは、比較例1を選択したバイオマーカーセットよりも、全てのがん種において、高い正答率が得られていることがわかる。
 従って、少なくとも1つの臓器のがん種のサンプルデータ(メチル化度データ群)を、組織型の情報に基づいて分類を行った後に選択されたバイオマーカーからなるバイオマーカーセットは、組織型の情報に基づいて分類を行わずに選択されたバイオマーカーからなるバイオマーカーセットよりも高精度に各種臓器のがんを検出することができることがわかる。
 また、組織型の情報を有さない臓器のがんについても、精度高く、がん組織DNAを検出することができ、がんの有無を診断することができることがわかる。
[実施例3]
(メチル化度データの収集工程)
 表4に示すように、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、(5)卵巣がん組織、及び(6)非がん組織(正常白血球)それぞれに由来するDNAメチル化度データ(サンプル)を、TCGA及び/またはNCBIのGEOから収集した。DNAメチル化度データは、全ゲノム領域における1以上のメチル化部位の位置、そのメチル化部位のメチル化度、(3)肝がんに相関性のある肝硬変及び慢性肝炎の罹患の有無の情報からなる。各発生臓器のがん組織DNA(1)~(5)は、各がん患者に由来するサンプル、非がん組織DNA(6)は、健常者に由来するサンプルである。
 なお、何れのデータも、メチル化度の測定はイルミナ社のマイクロアレイInfinium Human Methylation 450を用いて行われている。本マイクロアレイは、約45万ヵ所のシトシンのメチル化度を測定することができる。実施例1と同様に、DNAメチル化度データの「全ゲノム領域における1以上のメチル化部位の位置」及び「そのメチル化部位のメチル化度」、は、Infinium Human Methylation 450で計測された全てのシトシン塩基、及びそれらシトシン塩基のメチル化度を使用した。
(データ分類工程)
 次いで、肝硬変及び慢性肝炎の罹患の有無の情報に基づいて、(3)肝がん組織DNAのサンプルを、さらに、肝硬変罹患、慢性肝炎罹患、いずれに罹患なしに細分化して分類した。一方、肝硬変等の罹患の有無についての情報を有さないその他のがんについては、分類しなかった。その結果、発生臓器のがん組織DNA(1)~(6)の群を、合計8つの群A~Hに細分化した。各群のサンプル数は表4に示すとおりである。
 各群のDNAメチル化データ(サンプル)はランダムに二等分し、一方のサンプル群は、バイオマーカーの選択及びそのセットの作製と、作製したバイオマーカーセットの性能評価のために使用する機械学習モデルの教師データとして使用し、他方のサンプル群は、作製したバイオマーカーの性能評価に使用した。
Figure JPOXMLDOC01-appb-T000004
(バイオマーカーの選択工程、及びバイオマーカーセットの作製工程)
 実施例1と同様に、収集したDNAメチル化データから、1群に対し、12個のバイオマーカーを選択した。A群で選択された「DNAの位置及びA群のメチル化度」は、大腸がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、B群で選択された「DNAの位置及びB群のメチル化度」は、膵がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、C群からE群で選択された「DNAの位置及びC及びE群のメチル化度」は、肝がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、F群で選択された「DNAの位置及びF群のメチル化度」は、肺がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、G群で選択された「DNAの位置及びG群のメチル化度」は、卵巣がんの組織DNAの存在の有無を検出するバイオマーカーとして選択され、H群で選択された「DNAの位置及びH群のメチル化度」は、正常白血球のDNAの存在の有無を検出するバイオマーカーとして選択される。
 また、12個/群×8群=96個のバイオマーカーを、多種類の臓器のがんの有無を1度に検査するバイオマーカーセットとして作製した。
(バイオマーカーセットの性能評価)
 実施例1と同様に、機械学習モデルSVMに、バイオマーカーの選択に使用したサンプル群(即ち、96個のバイオマーカーの選択に使用されたメチル化度データ群)を学習させた後、バイオマーカーの選択に使用していないサンプル群の各メチル化度データが、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、及び(5)卵巣がん組織のうち、どの臓器のがん組織DNAに由来するものか推定した。性能評価は、実施例1と同様に、推定された各がん種の正答率で示した。
 実施例3で選択したバイオマーカーセットの正答率は、大腸がんで88%、膵がんで83%、肝がんで90%、肺がんで85%、卵巣がんで84%であった(図6参照)。
[比較例2]
(メチル化度データの収集工程/データ分類工程)
 メチル化度データの収集において、いずれのがん種においても肝がんに相関性のある肝硬変及び慢性肝炎の罹患の有無の情報を取得しなかったこと以外、全て実施例3と同様にメチル化度データの収集工程及びデータ分類工程を実施した。その結果、発生臓器のがん組織DNA(1)~(6)の群は、細分化されることなく、合計6つのA~Fの群に分類された。各群A~Fのサンプル数は表5に示すとおりである。
Figure JPOXMLDOC01-appb-T000005
 (バイオマーカーの選択工程、及びバイオマーカーセットの作製工程)
実施例3(即ち、実施例1)と同様に、収集したDNAメチル化データから、1群に対し、22個のバイオマーカーを選択した。また、16個/群×6群=96個のバイオマーカーを、多種類の臓器のがんの有無を1度に検査するバイオマーカーセットとして作製した。
(バイオマーカーセットの性能評価)
 実施例1と同様に、機械学習モデルSVMに、バイオマーカーの選択に使用したサンプル群(即ち、96個のバイオマーカーの選択に使用されたメチル化度データ群)を学習させた後、バイオマーカーの選択に使用していないサンプル群の各メチル化度データが、(1)大腸がん組織、(2)膵がん組織、(3)肝がん組織、(4)肺がん組織、及び(5)卵巣がん組織のうち、どの臓器のがん組織DNAに由来するものか推定した。性能評価は、実施例1及び2と同様に、推定された各がん種の正答率で示した。
 比較例2で選択したバイオマーカーセットの正答率は、大腸がんで83%、膵がんで81%、肝がんで82%、肺がんで86%、卵巣がんで84%であった(図6参照)。
(実施例3と比較例2の対比)
 図6は、実施例3と比較例2で選択したバイオマーカーセットの性能評価の結果(正答率)を比較したものである。実施例3のバイオマーカーセットは、12個/群×8群=96個のバイオマーカーからなり、比較例2のバイオマーカーセットは、16個/群×6群=96個のバイオマーカーからなるため、いずれも同数のバイオマーカーからなる。
 図6から、実施例3で選択したバイオマーカーセットは、各がん種において、比較例2で選択したバイオマーカーセットと同等以上の正答率が得られていることがわかる。
 従って、少なくとも1つの臓器のがん種のサンプルデータ(メチル化度データ群)を、肝がんに相関性のある肝硬変及び慢性肝炎の罹患の有無の情報に基づいて分類を行った後に選択されたバイオマーカーからなるバイオマーカーセットは、肝硬変等の情報に基づいて分類を行わずに選択されたバイオマーカーからなるバイオマーカーセットと高精度に各種臓器のがんを検出することができることがわかった。
 また、大腸がんや、膵がんのように、がん以外の疾患の有無の情報を有さない臓器のがんについても、精度高く、がん組織DNAを検出することができ、がんの有無を診断することができることがわかった。
 本発明で設計されたバイオマーカーセットは、がん検診に使用することが可能である。

Claims (8)

  1.  診断対象として複数種類の臓器のがんを含む、がん検診に使用するためのバイオマーカーセットを作製する方法であって、
     前記診断対象のがんに罹患した患者由来の生体試料から取得された既知の複数のDNAメチル化度データであって、前記がんの種類別に、(1)全ゲノム領域における1以上のメチル化部位の位置、(2)前記メチル化部位のメチル化度、及び(3)組織型の情報を含む、複数のDNAメチル化度データを収集する収集工程と、
     前記組織型の情報に基づいて、前記がんの種類別に収集された前記複数のDNAメチル化度データを1以上のグループに分類する分類工程と、
     分類された全てのグループから任意に1つの所定のグループを選択し、前記所定のグループと
    他のグループとの間で二群間比較を行い、両グループとの間に有意差があると認められたDNA位置、及びその位置における両グループのメチル化状態の情報を抽出する抽出工程と、
     有意差が認められた両グループの前記情報の中から、所定の条件を満たすものを、所定のグループが属するがん種のバイオマーカーとして選択する選択工程と、
     分類された全てのグループについて、前記バイオマーカーが選択されるまで、前記抽出工程及び選択工程を繰り返し、選択された全てのバイオマーカーから構成されるバイオマーカーセットを作製する工程と
    を有し、
     前記組織型情報は、少なくとも1種類以上の前記がんの前記DNAメチル化度データに含まれるバイオマーカーセットの選択方法。
  2.  前記分類工程において、前記複数のDNAメチル化度データが2以上の組織型の情報を有する場合は、前記複数のDNAメチル化度データを2以上のグループに分類し、前記組織型情報を1つだけ有する、又は前記組織型情報を有さない場合は、1つのグループとして分類する請求項1に記載の方法。
  3.  前記抽出工程において、前記有意差の判定は、(1)統計的検定におけるp値、又は(2)前記メチル化度分布の中央値若しくは平均値の差に基づいて実施される請求項1に記載の方法。
  4.  前記診断対象に卵巣がん、肺がん、及び肝がんを含み、
     前記収集工程で収集された前記組織型の情報が、前記卵巣がんの組織型である漿液性がん、明細胞がん、類内膜がん及び粘液性がん、前記肺がんの組織型である腺がん、扁平上皮がん、大細胞がん、小細胞がん、前記肝がんの組織型である肝細胞がん及び肝内胆管がんである請求項1~3のいずれか1項に記載の方法。
  5.  診断対象として複数種類の臓器のがんを含む、がん検診に使用するためのバイオマーカーセットを作製するバイオマーカーセットの作製方法であって、
     前記診断対象のがんに罹患した患者由来の生体試料から取得された既知の複数のDNAメチル化度データであって、前記がんの種類別に、(1)全ゲノム領域における1以上のメチル化部位の位置、(2)前記メチル化部位のメチル化度、及び(3)がん以外の1種類以上の疾患の罹患の有無の情報を含む、複数のDNAメチル化度データを収集する収集工程と、
     前記がん以外の1種類以上の疾患の罹患の有無の情報に基づいて、前記がんの種類別に収集された前記複数のDNAメチル化度データを1以上のグループに分類する分類工程と、
     分類された全てのグループから任意に1つの所定のグループを選択し、前記所定のグループと
    他のグループとの間で二群間比較を行い、両グループとの間に有意差があると認められたDNA位置、及びその位置における両グループのメチル化状態の情報を抽出する抽出工程と、
     有意差が認められた両グループの前記情報の中から、所定の条件を満たすものを、所定のグループが属するがん種のバイオマーカーとして選択する選択工程と、
     分類された全てのグループについて、前記バイオマーカーが選択されるまで、前記抽出工程及び選択工程を繰り返し、選択された全てのバイオマーカーから構成されるバイオマーカーセットを作製する工程と
    を有し、
     前記がん以外の1種類以上の疾患の罹患の有無の情報は、少なくとも1種類以上の前記がんの前記DNAメチル化度データに含まれるバイオマーカーセットの選択方法。
  6.  前記分類工程において、前記複数のDNAメチル化度データががん以外の1種類以上の疾患の罹患の有無の情報を有する場合は、前記複数のDNAメチル化度データを2以上のグループに分類し、前記がん以外の疾患の罹患の有無の情報を有さない場合は、1つのグループとして分類する請求項5に記載の方法。
  7.  前記抽出工程において、前記有意差の判定は、(1)統計的検定におけるp値、又は(2)前記メチル化度分布の中央値若しくは平均値の差に基づいて実施される請求項5に記載の方法。
  8.  前記診断対象に肝がんを含み、
     前記収集工程で収集された前記がん以外の1種類以上の疾患の罹患の有無の情報は、前記肝がんと相関性が高い肝硬変の罹患の有無、及び慢性肝炎の罹患の有無である請求項5~7のいずれか1項に記載の方法。
PCT/JP2022/035459 2021-10-15 2022-09-22 がん検出のためのバイオマーカーセットの作製方法 WO2023063049A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280062918.1A CN117957331A (zh) 2021-10-15 2022-09-22 用于癌检测的生物标志物组的制作方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021169440 2021-10-15
JP2021-169440 2021-10-15

Publications (1)

Publication Number Publication Date
WO2023063049A1 true WO2023063049A1 (ja) 2023-04-20

Family

ID=85987681

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/035459 WO2023063049A1 (ja) 2021-10-15 2022-09-22 がん検出のためのバイオマーカーセットの作製方法

Country Status (2)

Country Link
CN (1) CN117957331A (ja)
WO (1) WO2023063049A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080311570A1 (en) * 2007-06-15 2008-12-18 National Defense Medical Center Cancer screening method
US20100221723A1 (en) * 2007-08-14 2010-09-02 The Trustees Of Columbia University In The City Of New York Early detection of cancer by methylated dna in blood
JP2018508228A (ja) * 2015-01-18 2018-03-29 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 癌の状態を判定する方法とシステム
JP2019521673A (ja) 2016-06-07 2019-08-08 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 疾患および状態の分析のためのセルフリーdnaメチル化パターン
KR20210105155A (ko) * 2020-02-18 2021-08-26 연세대학교 산학협력단 암 진단용 바이오마커 및 이의 용도

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080311570A1 (en) * 2007-06-15 2008-12-18 National Defense Medical Center Cancer screening method
US20100221723A1 (en) * 2007-08-14 2010-09-02 The Trustees Of Columbia University In The City Of New York Early detection of cancer by methylated dna in blood
JP2018508228A (ja) * 2015-01-18 2018-03-29 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 癌の状態を判定する方法とシステム
JP2019521673A (ja) 2016-06-07 2019-08-08 ザ リージェンツ オブ ザ ユニヴァーシティー オブ カリフォルニア 疾患および状態の分析のためのセルフリーdnaメチル化パターン
KR20210105155A (ko) * 2020-02-18 2021-08-26 연세대학교 산학협력단 암 진단용 바이오마커 및 이의 용도

Also Published As

Publication number Publication date
CN117957331A (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN109943636B (zh) 一种结直肠癌微生物标志物及其应用
CN105087568B (zh) 一组用于肿瘤分子分型的基因及其应用
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及系统
CN111910004A (zh) cfDNA在早期乳腺癌无创诊断中的应用
JP2022517456A (ja) 臓器健康および疾患をモニタリングするための方法およびシステム
CN107435062B (zh) 甄别肺部微小结节良恶性的外周血基因标志物及其用途
CN108531597A (zh) 一种用于口腔鳞癌早期诊断的检测试剂盒
CN115851951A (zh) 含多组学标志物组合物的早期肝癌检测模型构建及试剂盒
CN104818322B (zh) miRNA和Cyfra21‑1联合在检测非小细胞肺癌中的应用
WO2023063049A1 (ja) がん検出のためのバイオマーカーセットの作製方法
Hasenleithner et al. How to detect cancer early using cell-free DNA
CN114480636B (zh) 胆汁细菌作为肝门部胆管癌诊断及预后标志物的用途
CN112501295B (zh) miRNA组合、含其的试剂盒及在肺癌诊断中的应用
TWI758670B (zh) 健康風險評估方法
CN108460247B (zh) 基于kras和ndrg4基因确定结直肠肿瘤细胞的方法和系统
CN114480630A (zh) 用于辅助诊断癌症的一种甲基化标志物
WO2024062867A1 (ja) 対象のがん罹患の可能性を分析する方法
US11807908B2 (en) Genetic markers used for identifying benign and malignant pulmonary micro-nodules and the application thereof
WO2021192397A1 (ja) がん検査方法
CN115747333B (zh) 一种肿瘤标记物检测试剂盒和检测分析系统及其应用
CN115678999B (zh) 标志物在肺癌复发预测中的应用和预测模型构建方法
CN116287252B (zh) 长链非编码rna apcdd1l-dt在制备检测胰腺癌的产品中的应用
CN111833963B (zh) 一种cfDNA分类方法、装置和用途
CN113122630B (zh) 一种用于辅助诊断癌症的钙结合蛋白甲基化标志物
CN113215251B (zh) 一种辅助诊断癌症的甲基化标志物

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22880745

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280062918.1

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2023555069

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2022880745

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022880745

Country of ref document: EP

Effective date: 20240515