WO2023106768A1 - 혈중 무세포 dna 기반 유방암 치료 예후예측 방법 - Google Patents

혈중 무세포 dna 기반 유방암 치료 예후예측 방법 Download PDF

Info

Publication number
WO2023106768A1
WO2023106768A1 PCT/KR2022/019625 KR2022019625W WO2023106768A1 WO 2023106768 A1 WO2023106768 A1 WO 2023106768A1 KR 2022019625 W KR2022019625 W KR 2022019625W WO 2023106768 A1 WO2023106768 A1 WO 2023106768A1
Authority
WO
WIPO (PCT)
Prior art keywords
score
breast cancer
prognosis
reads
calculating
Prior art date
Application number
PCT/KR2022/019625
Other languages
English (en)
French (fr)
Inventor
조은해
안진모
이준남
이태림
손주혁
김건민
김민환
Original Assignee
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지씨지놈 filed Critical 주식회사 지씨지놈
Publication of WO2023106768A1 publication Critical patent/WO2023106768A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/4833Physical analysis of biological material of solid biological material, e.g. tissue samples, cell cultures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30068Mammography; Breast

Definitions

  • the present invention relates to a method for predicting the prognosis of breast cancer treatment based on cell-free DNA in blood, and more specifically, by extracting cell-free DNA (cfDNA) from a biological sample before anti-cancer treatment, obtaining sequence information, and then chromosome
  • cfDNA cell-free DNA
  • a cell-free DNA-based breast cancer treatment prognosis method comprising obtaining an I score using region normalization correction and regression analysis, and analyzing the I score and image information of a breast after chemotherapy together.
  • Breast cancer is a mass made up of cancer cells in the breast. It is the second most common type of cancer worldwide after lung cancer, and is known to have the fifth highest mortality rate after lung cancer, stomach cancer, liver cancer, and colon cancer. It is the most common cancer and has the second highest mortality rate.
  • Risk factors for developing breast cancer include race, age, and mutations in the cancer suppressor genes BRCA-1 and BRCA-2 and p53. Alcohol intake, high-fat diet, lack of exercise, exogenous postmenopausal hormones and ionizing radiation also increase the risk of breast cancer.
  • Breast cancer is divided into four subtypes: luminal A type, luminal B type, HER2 type, and triple negative breast cancer (TNBC) according to the expression status of hormone receptors (estrogen receptor or progesterone receptor) and HER2 (human epidermal growth factor receptor 2). are separated by Each breast cancer subtype has distinct molecular characteristics.
  • the Oncotype DX, MammaPrint, PAM50, and Endopredict kits mainly target ER+ type breast cancer. As seen in these commercial kits, they can predict prognosis only for hormone receptor-positive breast cancer subtypes, and commercial kits for hormone receptor-negative breast cancer subtypes do not yet exist.
  • cell-free DNA present in plasma due to necrosis, apoptosis, and secretion of cells is used to examine chromosomes.
  • cfDNA cell-free DNA
  • blood cell-free DNA derived from tumor cells contains tumor-specific chromosomal aberrations and mutations that do not appear in normal cells, and has a short half-life of about 2 hours, so it has the advantage of reflecting the current state of tumors.
  • cell-free DNA in blood is in the spotlight as a tumor-specific biomarker in various cancer-related fields such as cancer diagnosis, monitoring, and prognosis.
  • the present inventors have made diligent efforts to develop a method for predicting prognosis of breast cancer based on cell-free DNA in blood. , It was confirmed that the prognosis of breast cancer patients can be predicted with high sensitivity when the results are integrated with video image reading information after cancer treatment, and the present invention was completed.
  • An object of the present invention is to provide a method for predicting prognosis of breast cancer based on cell free DNA (cfDNA).
  • Another object of the present invention is to provide a device for predicting breast cancer prognosis.
  • Another object of the present invention is to provide a computer readable medium containing instructions configured to be executed by a processor for predicting a breast cancer prognosis by the above method.
  • Another object of the present invention is to provide a method for providing information for determining the prognosis of breast cancer, including the above method.
  • Another object of the present invention is to provide a method for determining the prognosis of breast cancer comprising the above method.
  • the present invention provides a method comprising: a) obtaining sequence information of cell-free DNA isolated from a biological sample before anticancer treatment; b) aligning the sequence reads to a reference genome database of a reference population; c) checking the quality of the aligned sequence information (reads) and selecting only sequence information having a cut-off value or higher; d) dividing the reference chromosome into predetermined bins, and confirming and normalizing the amount of each bin with respect to the selected sequence information (reads); e) calculating the average and standard deviation of leads matched to each normalized bin of the reference group, and then calculating a Z score between the normalized values in step d); f) classifying chromosomes using the Z score and calculating an I score; g) obtaining breast tissue image reading information after chemotherapy; and h) determining that the prognosis of breast cancer is poor when the calculated I-score is greater than or equal to a cut-off value and the breast tissue image reading information is positive
  • the present invention also includes a decoding unit for decoding sequence information of cell-free DNA isolated from a biological sample before anticancer treatment; an alignment unit that aligns the translated sequence with a standard chromosome sequence database of a reference population; A quality control unit that selects only sequence information of samples having a cut-off value or higher for aligned sequence reads; For the selected sequence information (reads), I score calculation unit for calculating a Z score (Z score) by comparing with a reference group sample, and then calculating an I score (I-score) based on this; an image reading information receiving unit for obtaining breast tissue image reading information after chemotherapy; and a determination unit for determining that the breast cancer prognosis is poor when the I score is equal to or greater than a cut-off value and the image reading information is positive.
  • a decoding unit for decoding sequence information of cell-free DNA isolated from a biological sample before anticancer treatment
  • an alignment unit that aligns the translated sequence with a standard chromosome sequence database of a reference population
  • the present invention also includes instructions configured to be executed by a processor that predicts breast cancer prognosis as a computer readable medium, a) obtaining sequence information of cell-free DNA isolated from a biological sample before anticancer treatment; b) aligning the sequence reads to a reference genome database of a reference population; c) checking the quality of the aligned sequence information (reads) and selecting only sequence information having a cut-off value or higher; d) dividing the reference chromosome into predetermined bins, and confirming and normalizing the amount of each bin with respect to the selected sequence information (reads); e) calculating the average and standard deviation of leads matched to each normalized bin of the reference group, and then calculating a Z score between the normalized values in step d); f) classifying chromosomes using the Z score and calculating an I score; g) obtaining breast tissue image reading information after chemotherapy; and h) determining that the prognosis of breast cancer is poor when the calculated I-score is equal to or greater than
  • It provides a computer readable medium containing instructions configured to be executed by a processor comprising a.
  • the present invention also provides a method for providing information for determining the prognosis of breast cancer, including the above method.
  • the present invention also provides a method for determining the prognosis of breast cancer comprising the above method.
  • 1 is an overall flowchart for prognosis of breast cancer based on cfDNA of the present invention.
  • FIG. 2 is a schematic diagram of the correction results of the number of sequencing reads before and after GC correction by the LOESS algorithm during the QC (quality control) process of read data.
  • Figure 3 shows the results of Kaplan Meier analysis for predicting progression and survival of breast cancer according to the method of the present invention
  • (A) is the result of the search group
  • (B) is the result of the verification group.
  • FIG. 4 is a result of risk analysis for progression and survival of breast cancer according to the method of the present invention, (A) is a search group, (B) is a result of a verification group.
  • Figure 5 is a result of confirming the relationship between the I score of the present invention and pathological complete response (pathological complete response, pCR) by Kaplan Meier analysis, (A) is the result of the exploration group, and (B) is the result of the validation group.
  • FIG. 7 is a risk assessment result for predicting prognosis for survival of breast cancer patients by group subdivided by the I score and pCR of the present invention.
  • first, second, A, B, etc. may be used to describe various elements, but the elements are not limited by the above terms, and are merely used to distinguish one element from another. used only as For example, without departing from the scope of the technology described below, a first element may be referred to as a second element, and similarly, the second element may be referred to as a first element.
  • the terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
  • each component to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each component to be described below may additionally perform some or all of the functions of other components in addition to its main function, and some of the main functions of each component may be performed by other components. Of course, it may be dedicated and performed by .
  • each process constituting the method may occur in a different order from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • sequencing data obtained from breast cancer patient samples is normalized, organized based on reference values, divided into certain bins, and the amount of reads in each bin is normalized, and then Calculate the Z score, divide the chromosomes again based on the derived Z score (segmentation), calculate the I-score based on this, and calculate the I-score ) was confirmed to indicate a poor prognosis if it was greater than or equal to the criterion value, and a good prognosis if it was less than the criterion value.
  • a risk group for death or progression from breast cancer may be classified and identified according to the reference value of the I score and the presence or absence of pathological complete response (pCR).
  • the I score is above the reference value and the image reading information is negative, it is classified as a moderate risk group, if the I score is below the reference value and the image reading information is positive, it is classified as a high risk group, and if the I score is above the reference value , and it was confirmed that if the image reading information is positive, it can be classified as an ultra-high risk group.
  • the quality is managed using the LOESS algorithm, and the chromosomes are divided into certain bins and each The amount of leads matching each section is normalized by the GC ratio, then the average and standard deviation of leads matched to each bin are obtained from normal samples, and then the Z score with the normalized value is calculated, Based on this, after segmentation of the chromosomal region in which the Z score changes rapidly, the I-score is calculated using this, and the pCR information of breast cancer patients after chemotherapy is analyzed together to obtain the I-score. If the (I-score) is 7.81 or more and the pCR is not, a method for determining that the prognosis of breast cancer patients is poor was developed (FIG. 1)
  • sequence information refers to a single nucleic acid fragment whose sequence information is analyzed using various methods known in the art. Therefore, the terms “sequence information” and “lead” in this specification have the same meaning in that they are the result of obtaining sequence information through a sequencing process.
  • prognosis is used in the same meaning as “prognosis”, and means an act of predicting the progress and outcome of a disease in advance. More specifically, prognosis is interpreted as meaning that the course of a disease after treatment may vary depending on the patient's physiological or environmental state, and that it refers to all activities that predict the course of a disease after treatment by comprehensively considering the patient's condition. It can be.
  • the prediction of prognosis may be interpreted as an act of predicting the course of a disease in advance after treatment of breast cancer and predicting the risk of cancer progression, cancer recurrence, and/or cancer metastasis.
  • the term "good prognosis” means that the risk of cancer progression, cancer recurrence and / or cancer metastasis of a patient after breast cancer treatment is lower than 1, so that a breast cancer patient is likely to survive, In another sense, it is also expressed as "positive prognosis".
  • poor prognosis means that the risk of cancer progression, cancer recurrence, and/or cancer metastasis of a patient after breast cancer treatment is higher than 1, so that the breast cancer patient is more likely to die, and in another sense, " Also expressed as "negative prognosis”.
  • the term "risk” means an odds ratio, a hazard ratio, etc. for the probability that a patient will develop cancer progression, recurrence, and/or cancer metastasis after treatment of breast cancer.
  • step d calculating the average and standard deviation of leads matched to each normalized bin of the reference group, and then calculating a Z score between the normalized values in step d);
  • anticancer treatment can be used without limitation as long as it is any method capable of treating cancer, preferably neoadjuvant therapy, neoadjuvant chemotherapy, adjuvant chemotherapy and surgical treatment, or radiation therapy. It may be selected from the configured group, but is not limited thereto.
  • (a-iv) it may be characterized in that it is carried out by a method comprising the step of obtaining sequence information (reads) of nucleic acids from the next-generation genetic sequencing device.
  • step (a-i) the nucleic acid purified in step (a-i) is subjected to random fragmentation by enzymatic digestion, pulverization, or a hydroshear method. ) to produce a single-end sequencing or pair-end sequencing library.
  • the step of obtaining the sequence information of step a) may be characterized in that the isolated cell-free DNA is obtained through whole genome sequencing at a depth of 0.01 to 100 reads.
  • next-generation sequencer is not limited thereto, but is not limited to, Illumina Company's Hiseq system, Illumina Company's Miseq system, Illumina Company's genome It may be an analyzer (GA) system, Roche Company's 454 FLX, Applied Biosystems Company's SOLiD system, Life Technology Company's IonTorrent system.
  • G analyzer
  • Roche Company's 454 FLX Roche Company's 454 FLX
  • Applied Biosystems Company's SOLiD system Life Technology Company's IonTorrent system.
  • the biological sample refers to any material, biological fluid, tissue or cell obtained from or derived from an individual, for example, whole blood, leukocytes, peripheral blood mononuclear peripheral blood mononuclear cells, leukocyte buffy coat, blood (including plasma and serum), sputum, tears, mucus, nasal washes, nasal aspirates, breath, urine, semen, saliva, peritoneal washings, pelvic fluids, cyst fluids ( cystic fluid, meningeal fluid, amniotic fluid, glandular fluid, pancreatic fluid, lymph fluid, pleural fluid, nipple aspirate, bronchi Bronchial aspirate, synovial fluid, joint aspirate, organ secretions, cells, cell extract, semen, hair, saliva, urine, oral cells , placental cells, cerebrospinal fluid, and mixtures thereof, but are not limited thereto.
  • cyst fluids cystic fluid, meningeal fluid, amniotic fluid, glandular fluid, pancreatic fluid, lymph fluid,
  • the term "reference group” refers to a group of people who do not currently have a specific disease or condition as a reference group that can be compared like a standard sequencing database.
  • the standard nucleotide sequence in the standard chromosome sequence database of the reference group may be a reference chromosome registered with a public health institution such as NCBI.
  • the alignment step may be performed using the BWA algorithm and the Hg19 sequence, but is not limited thereto.
  • the BWA algorithm may include BWA-ALN, BWA-SW or Bowtie2, but is not limited thereto.
  • checking the quality of the aligned sequence information in step c) means checking how much the actual sequencing read matches the reference chromosome sequence using a mapping quality score index. do.
  • the region of the nucleic acid sequence in step (c-i) is not limited thereto, but may be 20 kb to 1 MB.
  • the reference value may vary depending on the desired criterion, but specifically 15 to 70, more specifically 30 to 65, Most specifically, it may be 60.
  • the GC ratio may vary depending on a desired criterion, but may be specifically 20 to 70%, more specifically 30 to 60%.
  • the step c) may be characterized in that it is performed excluding centrosome or distal data of the chromosome.
  • centrosome may be characterized as being around 1 Mb from the starting point of each chromosome q arm, but is not limited thereto.
  • end group may be characterized as being within 1 Mb from the start point of each chromosome short arm (p arm) or within 1 Mb from the end point of the long arm (q arm), but is not limited thereto.
  • the bin in (d-i) may be, specifically, 100 kb to 2000 kb.
  • the bin in the step of specifying the region of the nucleic acid sequence in step (d-i), is not limited thereto, but is 100 kb to 2 MB, specifically 500 kb to 1500 kb, and more specifically 600 kb to 2 MB. 1600 kb, more specifically between 800 kb and 1200 kb, and most specifically between 900 kb and 1100 kb.
  • any regression analysis method capable of calculating a regression coefficient can be used for the regression analysis in step (iii), but specifically, it can be characterized as a LOESS analysis, but is not limited thereto.
  • the step of calculating the Z score of step e) may be characterized in that the sequencing read values for each specific region (bin) are standardized. that can be characterized.
  • step (f) is
  • n ⁇ 1,... ,N ⁇ , where N number of total bins
  • the CBS algorithm refers to a method of detecting a point where a change in the Z score calculated in the above step occurs.
  • i is an arbitrary point where the change in the Z score of the chromosome starts
  • j is an arbitrary point where it ends
  • N is the total region length
  • r is the bin value of each nucleic acid sequence (specific bin interval)
  • ( i c , j c ) means the position where the Z score change actually occurred, max means the maximum value, and arg means the declination angle.
  • the reference value of the I score can be used without limitation as long as it is a value capable of predicting prognosis, preferably 5 to 10, and most preferably 7.81. However, it is not limited thereto.
  • the breast tissue image can be used without limitation as long as it is an image capable of confirming the presence or absence of cancer cells after anticancer treatment.
  • the breast tissue image is a magnetic resonance imaging (MRI) image, It may be a breast tissue sample histochemical staining image, an ultrasound image, an X-ray image or a breast tissue sample histofluorescence staining image, more preferably selected from the group consisting of a breast tissue sample histochemical staining image and a breast tissue sample histofluorescence staining image. It may be characterized as being, but is not limited thereto.
  • positive breast tissue image reading information means that cancer cells are identified in the image, and negative means that cancer cells are not identified in the image.
  • the breast tissue image reading information can be used as an index for determining pathological complete remission.
  • Pathologic complete remission is defined as the absence of invasive breast cancer when breast cancer patients receive prior therapy and undergo surgery.
  • the method classifies into a moderate risk group when the I score is greater than or equal to a reference value and the image reading information is negative, and classifies into a high risk group when the I score is less than the reference value and the image reading information is positive, and I If the score is greater than or equal to the reference value and the image reading information is positive, classifying the method as an ultra-high risk group may be further included.
  • the present invention includes a decoding unit for decoding sequence information of cell-free DNA isolated from a biological sample before anticancer treatment;
  • an alignment unit that aligns the translated sequence with a standard chromosome sequence database of a reference group
  • a quality control unit that selects only sequence information of samples having a cut-off value or higher for aligned sequence reads
  • I score calculation unit for calculating a Z score (Z score) by comparing with a reference group sample, and then calculating an I score (I-score) based on this;
  • an image reading information receiving unit for obtaining breast tissue image reading information after chemotherapy
  • the present invention relates to a cfDNA-based breast cancer prognosis prediction device including a determination unit for determining that a breast cancer prognosis is poor when an I score is equal to or greater than a cut-off value and image reading information is positive.
  • the decoding unit nucleic acid injection unit for injecting the extracted nucleic acid in an independent device; And it may include a sequence information analyzer for analyzing the sequence information of the injected nucleic acid, preferably an NGS analysis device, but is not limited thereto.
  • the decryption unit may be characterized in that it receives and decodes sequence information data generated in an independent device.
  • the image reading information receiving unit may be characterized in that it receives image reading information generated by an independent device.
  • the present invention includes instructions configured to be executed by a processor that predicts a breast cancer prognosis
  • It relates to a computer readable medium containing instructions configured to be executed by a processor comprising a.
  • the present invention relates to a method for providing information for determining the prognosis of breast cancer, including the above method.
  • the breast cancer is not limited as long as it is any type of cancer occurring in the breast, and more specifically, ductal carcinoma in situ, small in situ carcinoma, invasive ductal carcinoma, and invasive lobular carcinoma. non-invasive ductal carcinoma and non-invasive lobular carcinoma.
  • the term “prognosis” of the present invention means prediction of the possibility of cancer progression, cancer recurrence and/or cancer metastasis.
  • the predictive method of the present invention can be used clinically to make treatment decisions by selecting the most appropriate treatment modality for any particular patient.
  • the predictive method of the present invention is a valuable tool for diagnosing and/or assisting diagnosis for determining whether a patient's cancer progression, cancer recurrence, and/or cancer metastasis is highly likely to occur.
  • a method according to the present disclosure may be implemented using a computer.
  • a computer includes one or more processors coupled to a chip set.
  • a memory, a storage device, a keyboard, a graphics adapter, a pointing device, and a network adapter are connected to the chipset.
  • the performance of the chipset is enabled by a memory controller hub and an I/O controller hub.
  • the memory may be used directly coupled to the processor instead of a chip set.
  • a storage device is any device capable of holding data, including a hard drive, compact disk read-only memory (CD-ROM), DVD, or other memory device. Memory is concerned with data and instructions used by the processor.
  • the pointing device may be a mouse, track ball or other type of pointing device, and is used in combination with a keyboard to transmit input data to a computer system.
  • the graphics adapter presents images and other information on a display.
  • the network adapter is connected to the computer system through a local area network or a long distance communication network.
  • the computer used herein is not limited to the above configurations, may not have some configurations, may include additional configurations, and may also be part of a storage area network (SAN), and the computer of the present application May be configured to be suitable for the execution of modules in the program for the execution of the method according to the present invention.
  • SAN storage area network
  • a module herein may mean a functional and structural combination of hardware for implementing the technical idea according to the present application and software for driving the hardware.
  • the module may mean a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and does not necessarily mean a physically connected code or one type of hardware. is apparent to those skilled in the art.
  • I-score was calculated using the method described in Korean Patent No. 10-2019-0019315.
  • cell-free DNA was extracted from plasma samples before chemotherapy of 456 breast cancer patients who participated in the PEARLY clinical trial (NCT02441933), received neoadjuvant therapy, and underwent surgery, and from plasma samples from 20 normal people. Libraries were prepared for full-length chromosomes. Extraction of cell-free DNA was performed in the following order.
  • the completed library was subjected to sequencing on DNBSEQ-G400 sequencing equipment (MGI), and sequence information data of an average of 17 million reads per sample was produced.
  • MMI sequencing equipment
  • Bcl files (including nucleotide sequence information) were converted to fastq format in a next-generation sequencing (NGS) device, and then library sequences were aligned based on the reference chromosome Hg19 sequence using the BWA-mem algorithm. It was confirmed that the mapping quality score satisfies 60.
  • NGS next-generation sequencing
  • the process of segmenting the chromosomes with the CBS algorithm was preceded by using the calculated Z scores for each bin as data.
  • LOESS Local regression analysis
  • Equation 2 The n_score related to noise was calculated by Equation 2:
  • Example 1 The breast cancer patients of Example 1 were divided into an exploratory group of 232 and a validation group of 233, and then the association between the I score and disease-free survival (DFS) in the exploratory group was univariate Cox As a result of analysis by regression and maximal log-rank test, it was confirmed that DFS significantly decreased in the group with an I score of 7.81 or higher, and that the hazard ratio (HR) for the asymptomatic period of the disease increased ( 3A, 4A). In addition, the same results were confirmed in the verification group (FIG. 3B, FIG. 4B).
  • DFS disease-free survival
  • the breast cancer prognosis prediction method according to the present invention not only increases the accuracy of prognosis prediction of breast cancer patients by using Next Generation Sequencing (NGS), but also the accuracy of prognosis prediction based on very low concentration of cell-free DNA, which was difficult to detect. can increase commercial utilization. Therefore, the method of the present invention is useful for determining the prognosis of breast cancer patients.
  • NGS Next Generation Sequencing

Abstract

본 발명은 혈중 무세포 DNA 기반의 유방암 치료 예후예측 방법에 관한 것으로, 보다 구체적으로는 항암 치료 전 생체시료에서 무세포 DNA(cell free DNA, cfDNA)를 추출하여, 서열정보를 획득한 다음, 염색체 영역의 정규화 교정 및 회귀분석을 이용하여 I 점수를 수득하고, 상기 I 점수와 항암 치료 후 유방의 이미지 정보를 함께 분석하는 단계를 포함하는 무세포 DNA 기반의 유방암 치료 예후예측 방법에 관한 것이다. 본 발명에 따른 유방암 예후예측 방법은 차세대 염기서열 분석기법(Next Generation Sequencing, NGS)을 이용하여 유방암 환자의 예후예측 정확도를 높일 뿐만 아니라 검출하기 어려웠던 매우 낮은 농도의 무세포 DNA에 기반의 예후예측 정확도를 높여서 상업적 활용도를 높일 수 있다. 따라서 본 발명의 방법은 유방암 환자의 예후 판단에 유용하다.

Description

혈중 무세포 DNA 기반 유방암 치료 예후예측 방법
본 발명은 혈중 무세포 DNA 기반의 유방암 치료 예후예측 방법에 관한 것으로, 보다 구체적으로는 항암 치료 전 생체시료에서 무세포 DNA(cell free DNA, cfDNA)를 추출하여, 서열정보를 획득한 다음, 염색체 영역의 정규화 교정 및 회귀분석을 이용하여 I 점수를 수득하고, 상기 I 점수와 항암 치료 후 유방의 이미지 정보를 함께 분석하는 단계를 포함하는 무세포 DNA 기반의 유방암 치료 예후예측 방법에 관한 것이다.
유방암은 유방에 생긴 암 세포로 이루어진 종괴로서, 전세계적으로 폐암에 이어 두 번째로 가장 흔한 유형의 암이고 폐암, 위암, 간암, 결장암에 이어 5번째로 사망률이 높은 암으로 알려져 있고, 여성에 있어 가장 흔한 암이며, 두 번째로 사망률이 높은 암이다.
유방암 발병에 대한 위험 인자는 인종, 나이 및 암 억제 유전자 BRCA-1 및 BRCA-2 및 p53에서의 돌연변이 등을 포함한다. 알코올 섭취, 고지방 식이, 운동 부족, 외인성 폐경 후 호르몬 및 이온화 방사선 또한 유방암의 발병 위험을 증가시킨다. 유방암은 호르몬 수용체(에스트로겐 수용체 또는 프로게스테론 수용체)와 HER2(human epidermal growth factor receptor 2)의 발현 상태에 따라 루미날 A형, 루미날 B형, HER2형 및 삼중음성 유방암(TNBC)의 네 종류의 아형으로 구분이 되고 있다. 각각의 유방암 아형들은 구분되는 분자적 특징을 지니고 있다.
현재의 유방암에 대한 치료 방법으로서, 종양 제거 수술 이후, 항암 화학치료, 항호르몬 치료, 표적 치료 혹은 방사선 치료 등 향후 재발을 줄이기 위한 추가 보조적인 치료가 필요한 경우들이 있다. 초기 유방암 환자 중 70 ~ 80%는 타장기 전이위험이 매우 적어 항암화학요법이 불필요함에도 불구하고, 기존 유방암 치료 가이드라인으로는 정확한 판별이 어려워 대다수의 환자가 수술 후에 행해지는 항암화학요법과 방사선 치료를 처방 받고 있는 실정이다. 그러나, 화학치료의 효과가 크지 않을 환자에게 지속적으로 항암제를 투여하는 것은 부작용만을 증가시켜 환자에게 원치 않는 고통을 줄 수 있다. 따라서, 초기 유방암 환자에서 향후 암의 예후를 명확하게 예측하여, 현 시점에서 가장 적절한 치료방법을 현명하게 선택하고, 전이성 재발 등 나쁜 예후에 대비하는 것이 필요하다.
유방암 치료가 시작되면 주기적으로 암의 진행을 관찰해야 하지만 진단 방법에 따라 비용과 시간이 요구되며, 환자 종괴의 크기가 작거나 암세포 수가 적을 경우 암을 발견하고 진단하는 것은 매우 어렵다. 예후를 예측할 수 있는 일부 제품이 존재하기는 하지만 아직까지 고가이며 치료과정 중의 상태는 알 수 없고 검사를 하는 단일 시점에서만 단순 예후를 예측할 수 있다.
한편, 기존에는 유방암의 예후적 지표로서 증식 및 세포주기 신호들에 주로 중점을 두어 왔고, 이에 증식/세포 주기 조절 유전자들을 마커로 하여 예후 예측을 위한 유전자 발현 기반 분석법에 적용되어왔다. 대표적으로 Oncotype DX, MammaPrint, PAM50, Endopredict와 같은 제품들이, 동결된 또는 포르말린 고정된 파라핀 포매(FFPE)샘플에서 증식 유전자 대상 복합 유전자 발현 프로파일링 기법에 기반을 둔 상업적인 분석방법들이다. 그러나 이러한 상용의 키트들은 각각이 타겟하는 유방암 아형이 제한되어 있어, 유방암 분자 아형들에 두루 사용되기는 어려운 한계점이 있다. 상기 Oncotype DX, MammaPrint, PAM50, Endopredict 키트들은 ER+ 유형의 유방암을 주요 타겟으로 한다. 이들 상업적 키트들에서 보는 바와 같이, 이들은 오직 호르몬 수용체 양성인 유방암 아형에 대해서만 예후 예측이 가능하며, 호르몬 수용체 음성인 유방암 아형에 대한 상업적 키트는 아직 존재하지 않는 실정이다.
현재 상황을 감안할 때, 환자의 생존 결과 및 보조 화학 요법에 대한 반응을 보다 정확하게 예측하기 위해서는 유방암 예후 예측에 사용되는 기존의 분석법을 개선이 요구되고 있으며, 다양한 유방암 유형들에 두루 적용가능한 예후 분석 방법이 필요한 실정이다.
최근에는 액체생검(Liquid biopsy) 기술을 이용하여 세포의 괴사(necrosis), 세포자살(apoptosis), 분비(secretion)에 의해 혈장 내에 존재하는 무세포 DNA(cfDNA; cell-free DNA)를 이용하여 염색체이상을 검출하려는 연구들이 진행되고 있다. 특히 종양세포에서 유래된 혈중 무세포 DNA는 정상세포에서 나타나지 않는 종양 특이적인 염색체이상 및 돌연변이를 포함하고 있으며, 반감기가 2시간 정도로 짧아서 종양의 현재상태를 반영한다는 장점이 있다. 또한 비침습적이고 반복적으로 채취가 가능하기 때문에 혈중 무세포 DNA는 암의 진단, 모니터링 및 예후 관측 등 암과 관련된 다양한 분야에서 종양 특이적인 생체 표지자로써 각광받고 있다.
분자진단기술이 발전하면서 Digital Karyotyping, PARE 분석, NGS 등을 통해 암 환자의 혈중 무세포 DNA에서 종양 특이적인 염색체이상을 검출이 가능하다는 연구와 함께 이를 임상적으로 확인한 연구결과들이 발표된 바 있다(Leary RJ et al., Sci Transl Med. Vol. 4, Issue 162. 2012). Daniel G. Stover는 전이성 TNBC(Triple-Negative Breast Cancer)환자 164명을 대상으로 cfDNA를 통해 조직특이적 CNA를 분석한 바 있다(Stover DG. et al., J Clin Oncol. Vol. 36(6):543-553). 그 결과, NOTCH2, AKT2, AKT3와 같은 특정 유전자의 copy number gain이 전이성 TNBC에서 원발성 TNBC에 비해 높게 나타났으며, 18q11과 19p13 염색체의 중복을 가진 전이성 TNBC 환자의 생존율이 통계적으로 유의하게 낮은 것을 확인한 바 있다.
이러한 기술배경하에, 본 발명자들은 혈중 무세포 DNA 기반의 유방암 예후예측 방법을 개발하기 위해 예의 노력한 결과, 항암 치료 전 수득한 혈액 샘플의 혈중 무세포 DNA에서 염색체 영역의 정규화 교정 및 회귀분석을 수행하고, 그 결과를 암 치료 후, 영상 이미지 판독 정보와 통합하여 분석할 경우, 높은 민감도로 유방암 환자의 예후를 예측할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 무세포 DNA(Cell Free DNA, cfDNA) 기반의 유방암 예후예측 방법을 제공하는 것이다.
본 발명의 다른 목적은 유방암 예후를 예측하는 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 유방암 예후를 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법을 포함하는 유방암의 예후 판단을 위한 정보의 제공 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법을 포함하는 유방암의 예후 판단 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계; b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계; e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계; f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계; g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및 h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 단계를 포함하는, 무세포 DNA(cell free DNA, cfDNA) 기반의 유방암 예후예측 방법을 제공한다.
본 발명은 또한, 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 해독하는 해독부; 해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열정보(reads)에 대하여 기준값(cut-off value) 이상인 샘플의 서열정보만 선별하는 품질관리부; 선별된 서열정보(reads)에 대하여, 참조집단 샘플과 비교하여 Z 점수(Z score)를 계산한 다음, 이를 바탕으로 I 점수(I-score)를 계산하는 I 점수 계산부; 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 이미지 판독 정보 수신부; 및 I 점수가 기준값(cut-off value) 이상이고, 이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 결정부를 포함하는 cfDNA 기반의 유방암 예후예측 장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 매체로서, 유방암 예후를 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계; b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계; e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계; f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계; g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및 h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성일 경우, 유방암 예후가 나쁜 것으로 판정하는 단계;
를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체를 제공한다.
본 발명은 또한 상기 방법을 포함하는 유방암의 예후 판단을 위한 정보의 제공 방법을 제공한다.
본 발명은 또한 상기 방법을 포함하는 유방암의 예후 판단 방법을 제공한다.
도 1은 본 발명의 cfDNA 기반 유방암 예후예측을 위한 전체 흐름도이다.
도 2는 read data의 QC(퀄리티 관리, quality control) 과정 중, LOESS 알고리즘에 의한 GC 교정 전과 후의 시퀀싱 리드 수의 보정 결과를 도식화 한 것이다.
도 3은 본 발명의 방법에 따른 유방암의 진행 및 생존 여부 예측에 대한 Kaplan Meier 분석 결과로서, (A)는 탐색군, (B)는 검증군에서의 결과이다.
도 4는 본 발명의 방법에 따른 유방암의 진행 및 생존 여부에 대한 위험도 분석 결과로서, (A)는 탐색군, (B)는 검증군에서의 결과이다.
도 5는 본 발명의 I 점수와 병리학적 완전 관해(pathological complete response, pCR)의 관계를 Kaplan Meier 분석으로 확인한 결과로서, (A)는 탐색군, (B)는 검증군에서의 결과이다.
도 6은 본 발명의 I 점수와 pCR을 세분화한 그룹별 유방암 환자의 생존 여부에 대한 예후 예측 결과이다.
도 7은 본 발명의 I 점수와 pCR을 세분화한 그룹별 유방암 환자의 생존 여부에 대한 예후 예측에 대한 위험도 평가 결과이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 유방암 환자 샘플에서 획득한 서열 분석 데이터를 정규화하고, 기준값을 바탕으로 정리한 뒤, 일정 구간(bin)으로 나누어 각 구간(bin) 별 리드 양을 정규화 한 다음, 참조집단 샘플과의 Z 점수(Z score)를 계산하고, 도출된 Z 점수(Z score)를 기반으로 염색체를 다시 나눈 뒤(segmentation), 이를 바탕으로 I 점수(I-score)를 계산하고, I 점수(I-score)가 기준값 이상이면, 나쁜 예후를 나타내고 기준값 미만이면 좋은 예후를 나타내는 것으로 판단할 수 있다는 것을 확인하였다. 구체적으로, I 점수의 기준값과 병리학적 완전 관해(pathological complete response, pCR)의 유무에 따라 유방암에 의한 사망 또는 진행에 대한 위험군을 분류하여 확인할 수 있다. 보다 구체적으로, I 점수가 기준값 이상이고, 이미지 판독 정보가 음성인 경우, 중등도 위험군으로 분류하고, I 점수가 기준값 미만이고, 이미지 판독 정보가 양성인 경우, 고도 위험군으로 분류하고, I 점수가 기준값 이상이고, 이미지 판독 정보가 양성인 경우, 초고도 위험군으로 분류할 수 있다는 것을 확인하였다.
즉, 본 발명의 일 실시예에서는, 정상인 20명과 항암 치료 전 유방암 환자 456명의 혈액에서 추출한 DNA를 시퀀싱 한 뒤, LOESS 알고리즘을 이용하여 품질을 관리하고, 염색체를 일정 구간(bin)으로 구분하여 각 구간 별 매칭되는 리드 양을 GC 비율로 정규화한 다음, 정상인 샘플에서 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 정규화한 값과의 Z 점수(Z score)를 계산하고 이를 기반으로 Z 점수(Z score)가 급변하는 염색체 영역을 다시 나눈 뒤(segmentation), 이를 이용하여 I 점수(I-score)를 계산하고, 항암 치료 후 유방암 환자의 pCR 정보를 함께 분석하여 I 점수(I-score)가 7.81 이상이고, pCR이 아닐 경우, 유방암 환자의 예후가 나쁘다고 판정하는 방법을 개발하였다(도 1)
본 발명에서 용어 "리드(reads)"는, 당업계에 알려진 다양한 방법을 이용하여 서열정보를 분석한 하나의 핵산 단편을 의미한다. 따라서, 본 명세서에서 용어 “서열정보” 및 “리드”는 시퀀싱 과정을 통해 서열정보를 수득한 결과물이라는 점에서 동일한 의미를 가진다.
본 발명에서 용어 "예후예측"이란, "예후"와 동일한 의미로 사용되는데, 질환의 경과 및 결과를 미리 예측하는 행위를 의미한다. 보다 구체적으로, 예후예측이란 질환의 치료 후 경과는 환자의 생리적 또는 환경적 상태에 따라 달라질 수 있으며, 이러한 환자의 상태를 종합적으로 고려하여 치료 후 병의 경과를 예측하는 모든 행위를 의미하는 것으로 해석될 수 있다.
본 발명의 목적상 상기 예후예측은 유방암의 치료 후, 질환의 경과를 미리 예상하여 암의 진행, 암의 재발 및/또는 암의 전이의 위험도를 예측하는 행위로 해석될 수 있다. 예를 들어, 용어 "좋은 예후"는 유방암 치료 후 환자의 암의 진행, 암의 재발 및/또는 암의 전이의 위험도가 1보다 낮은 값을 나타내어, 유방암 환자가 생존할 가능성이 높다는 것을 의미하고, 다른 의미로 "긍정적 예후"로도 표현된다. 용어 "나쁜 예후"는 유방암 치료 후 환자의 암의 진행, 암의 재발 및/또는 암의 전이의 위험도가 1보다 높은 값을 나타내어, 유방암 환자가 사망할 가능성이 높다는 것을 의미하고, 다른 의미로 "부정적 예후"로도 표현된다.
본 발명에서 용어 "위험도"란, 유방암의 치료 후, 환자가 암의 진행, 재발 및/또는 암의 전이 등이 나타날 확률에 대한 오즈비, 위험비 등을 의미한다.
.
따라서, 본 발명은 일 관점에서,
a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계;
b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계;
d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계;
e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계;
f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계;
g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및
h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 단계를 포함하는 무세포 DNA(cell free DNA, cfDNA) 기반의 유방암 예후예측 방법에 관한 것이다.
본 발명에서, 항암 치료는 암을 치료할 수 있는 모든 방법이면 제한없이 이용할 수 있으며, 바람직하게는 선행 요법(neoadjuvant therapy), 선행 화학요법(neoadjuvant chemotherapy), 보조 항암 화학요법 및 수술 치료, 방사선 치료로 구성된 군에서 선택될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서,
상기 a) 단계는
(a-i) 채취된 무세포 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-iv) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a-i) 및 상기 (a-ii) 단계 사이에, 상기 (a-i) 단계에서 정제된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계를 추가로 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 0.01 내지 100 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 차세대 유전자서열 검사기(next-generation sequencer)는 이에 제한되지는 않으나, 일루미나 컴파니의 하이섹(Hiseq) 시스템, 일루미나 컴파니의 마이섹(Miseq) 시스템, 일루미나 컴파니의 게놈 분석기(GA) 시스템, 로슈 컴파니(Roche Company)의 454 FLX, 어플라이드 바이오시스템즈 컴파니의 SOLiD 시스템, 라이프 테크놀러지 컴파니의 이온토렌트 시스템일 수 있다.
본 발명에 있어서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 용어”참조집단”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단으로, 현재 특정 질환 또는 병증이 없는 사람의 집단을 의미한다. 본 발명에 있어서, 상기 참조집단의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 NCBI 등의 공공보건기관에 등록되어 있는 참조 염색체일 수 있다.
본 발명에 있어서, 상기 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 BWA 알고리즘은 BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 c) 단계에서 상기 정렬된 서열정보에 대하여 퀄리티를 확인하는 것은, 정렬 일치도 점수(Mapping Quality Score) 지표를 이용하여 실제 시퀀싱 리드가 참조 염색체 서열과 얼마나 일치하는지를 확인하는 것을 의미한다.
본 발명에 있어서, 상기 c) 단계는
(c-i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
(c-ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계; 를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (c-i) 단계의 핵산서열의 영역을 특정하는 단계에서, 핵산서열의 영역은 이에 제한되는 않으나, 20kb~1MB일 수 있다.
본 발명에 있어서, 상기 (c-ii) 단계에서, 상기 기준값은 상기 정렬 일치도 점수(mapping quality score)는 원하는 기준에 따라 달라질 수 있으나, 구체적으로는 15 내지 70, 보다 구체적으로는 30 내지 65, 가장 구체적으로는 60일 수 있다. 상기 (c-ii) 단계에서, 상기 GC 비율이 원하는 기준에 따라 비율이 달라질 수 있으나, 구체적으로는 20 내지 70%, 보다 구체적으로는 30 내지 60% 인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 c) 단계는 염색체의 중심체 또는 말단체의 데이터를 제외하고 수행되는 것을 특징으로 할 수 있다.
본 발명에서 용어 “중심체”는 각 염색체 장완(q arm)의 시작점으로부터 1Mb 내외인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 용어 “말단체”는 각 염색체 단완(p arm)의 시작점으로부터 1 Mb 내외 이내 또는 장완(q arm)의 종료점으로부터 1 Mb 이내인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 d) 단계는
(d-i) 표준 염색체를 일정구간(bin)으로 나누는 단계;
(d-ii) 상기 구간별 정렬된 리드 개수 및 리드들의 GC양을 산출하는 단계;
(d-iii) 상기 리드 개수 및 GC양을 바탕으로 회귀분석을 실시하여 회귀계수를 산출하는 단계; 및
(d-iv) 상기 회귀계수를 이용하여 리드 개수를 정규화하는 단계를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, (d-i)에서의 일정구간(bin)은, 구체적으로는 100 kb 내지 2000 kb 일 수 있다.
본 발명에 있어서, 상기 (d-i) 단계의 핵산서열의 영역을 특정하는 단계에서, 일정구간(bin)은 이에 제한되는 않으나, 100 kb 내지 2MB, 구체적으로 500kb 내지 1500 kb, 보다 구체적으로는 600kb 내지 1600 kb, 보다 더 구체적으로 800kb 내지 1200 kb, 가장 구체적으로 900 kb 내지 1100 kb 일 수 있다.
본 발명에 있어서, 상기 (iii) 단계의 회귀분석은 회귀계수를 산출할 수 있는 회귀분석 방법이면 모두 이용가능하나, 구체적으로는 LOESS 분석인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 e) 단계의 Z 점수(Z score)를 계산하는 단계는 특정 영역(bin)별 시퀀싱 리드 값을 표준화하는 것을 특징으로 할 수 있으며, 구체적으로는 하기의 수식 1로 계산하는 것을 특징으로 할 수 있다.
Figure PCTKR2022019625-appb-img-000001
본 발명에 있어서, 상기 (f) 단계는
(f-i) 각 구간별 Z 점수(Z score)를 기반으로 CBS 방법(Circular Binary segmentation method)으로 염색체 영역을 구분하는 단계;
(f-ii) 구분된 각 염색체 영역(segment)별 Z score(Segment Z score)를 영역에 포함된 구간(bin) 별로 계산된 Z score의 평균으로 계산하는 단계;
(f-iii) 각 구간(bin)에 대하여 국소회귀분석(LOESS)을 수행하여 평활화된(smoothed) Z score(Zn)을 계산하는 단계,
이 때, n∈{1,…,N} 이고, N=전체 bin의 개수임;
(f-iv) 수식 2로 노이즈와 관련된 n_score를 계산하는 단계:
Figure PCTKR2022019625-appb-img-000002
를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에서 CBS 알고리즘은 상기 단계에서 계산된 Z 점수의 변화가 발생하는 지점을 검출하는 방법을 의미한다.
즉, 염색체의 Z 점수의 변화가 시작되는 임의의 지점을 i, 끝나는 임의의 지점을 j, 전체 영역 길이를 N, r을 각 핵산 서열(특정 bin 구간)의 bin 값, s를 bin 값들의 표준 편차라고 가정하면 1<=i<j<=N의 조건 하에서, 아래의 식을 만족한다.
Figure PCTKR2022019625-appb-img-000003
여기서 (i c, j c)는 Z 점수 변화가 실제 일어난 위치를 의미하며, max는 최대값, arg는 편각을 의미한다.
본 발명에 있어서 상기 I 점수의 기준값은 예후예측을 수행할 수 있는 값이면 제한없이 사용가능하며, 바람직하게는 5 내지 10인 것을 특징으로 할 수 있고, 가장 바람직하게는 7.81인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 유방 조직이미지는 항암 치료 후, 암 세포의 존재 유무를 확인할 수 있는 이미지이면 제한없이 이용가능하고, 바람직하게는 유방 조직이미지는 자기공명영상(magnetic resonance imaging, MRI) 이미지, 유방 조직 샘플 조직화학염색 이미지, 초음파 이미지, X선 이미지 또는 유방 조직 샘플 조직형광염색 이미지일 수 있으며, 더욱 바람직하게는 유방 조직 샘플 조직화학염색 이미지 및 유방 조직 샘플 조직형광염색 이미지로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 유방 조직이미지 판독 정보가 양성인 것은 이미지에서 암 세포가 확인되는 것을 의미하고, 음성인 것은 이미지에서 암 세포가 확인되지 않는 것을 의미한다.
본 발명에서, 상기 유방 조직이미지 판독 정보는 병리학적 완전 관해를 판단하는 지표로서 사용될 수 있다. 병리학적 완전 관해는 유방암 환자에서 선행 요법을 받고 수술했을 때, 유방 침윤성 암이 없는 상태로 정의된다.
본 발명에 있어서, 상기 방법은 I 점수가 기준값 이상이고, 이미지 판독 정보가 음성인 경우, 중등도 위험군으로 분류하고, I 점수가 기준값 미만이고, 이미지 판독 정보가 양성인 경우, 고도 위험군으로 분류하고, I 점수가 기준값 이상이고, 이미지 판독 정보가 양성인 경우, 초고도 위험군으로 분류하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명은 다른 관점에서, 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 해독하는 해독부;
해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
정렬된 서열정보(reads)에 대하여 기준값(cut-off value) 이상인 샘플의 서열정보만 선별하는 품질관리부;
선별된 서열정보(reads)에 대하여, 참조집단 샘플과 비교하여 Z 점수(Z score)를 계산한 다음, 이를 바탕으로 I 점수(I-score)를 계산하는 I 점수 계산부;
항암 치료 후 유방 조직이미지 판독 정보를 수득하는 이미지 판독 정보 수신부; 및
I 점수가 기준값(cut-off value) 이상이고, 이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 결정부를 포함하는 cfDNA 기반의 유방암 예후예측 장치에 관한 것이다.
본 발명에서, 상기 해독부는 독립된 장치에서 추출된 핵산을 주입하는 핵산 주입부; 및 주입된 핵산의 서열정보를 분석하는 서열정보 분석부를 포함할 수 있으며, 바람직하게는 NGS 분석 장치일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 해독부는 독립된 장치에서 생성된 서열정보 데이터를 수신하여 해독하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 이미지 판독 정보 수신부는 독립된 장치에서 생성된 이미지 판독 정보를 수신하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 유방암 예후를 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계; b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계; e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계; f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계; g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및 h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성일 경우, 유방암 예후가 나쁜 것으로 판정하는 단계;
를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체 에 관한 것이다.
본 발명은 또 다른 관점에서 상기 방법을 포함하는 유방암의 예후 판단을 위한 정보의 제공 방법에 관한 것이다.
본 발명에 있어서, 상기 유방암은 유방에서 발생하는 모든 종류의 암이면 제한없으며, 보다 구체적으로는 유관상피내암, 소염상피내암, 침습적 유관암, 침습적 소엽암. 비침습적 유관암 및 비침습적 소엽암을 포함하나, 이에 한정되는 것은 아니다.
본 발명의 용어 “예후(prognosis)”는 암의 진행, 암의 재발 및/또는 암의 전이 가능성의 예측을 의미한다. 본 발명의 상기 예측 방법은 임의의 특정환자에 대한 가장 적절한 치료 양식을 선택하는 것으로 임상적으로 치료 결정을 내리기 위해 사용될 수 있다. 본 발명의 상기 예측 방법은 환자의 암의 진행, 암의 재발 및/또는 암의 전이가 발생할 가능성이 높은지를 판단하는 것에 대한 진단 및/또는 진단을 보조하는 가치있는 도구이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함 할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 유방암 환자 및 정상인에서 I-score 계산
I-score는 대한민국 특허 제 10-2019-0019315호에 기재된 방법을 이용하여 계산하였다.
보다 구체적으로는, PEARLY 임상시험(NCT02441933)에 참여하여 항암 치료(neoadjuvant therapy)를 받고, 수술을 진행한 456명 유방암 환자의 항암 치료 전 혈장 검체와 20명의 정상인 혈장검체에서 무세포 DNA를 추출하고 전장 염색체에 대한 라이브러리를 제조하였다. 무세포 DNA의 추출은 다음과 같은 순서로 진행하였다. 1) EDTA Tube 채혈 후 4시간 이내에 1600g에서 10분, 3000g에서 10분 순차적으로 원심분리하여 상층액(혈장)을 분리; 2) 분리한 혈장 중 0.6ml을 사용하여 plasma circulating DNA kit(Tiangen, China)로 무세포 DNA 추출; 3) 최종 추출된 무세포DNA를 Qubit 2.0 Fluorometer에 반응시키고 농도(ng/ul) 측정; 라이브러리의 제조는 MGIEasey Cell-free DNA library Prep Kit(MGI, China)을 기반으로 진행하였으며 총 2-6ng의 무세포 DNA를 반응에 사용하였다.
완성된 라이브러리는 DNBSEQ-G400 sequencing 장비(MGI)에서 염기서열 분석을 수행하였으며, 샘플당 평균 17 million read의 서열정보 데이터를 생산하였다.
차세대염기서열분석(NGS) 장비에서 Bcl 파일(염기서열정보 포함)을 fastq 형식으로 변환한 다음, fastq 파일을 BWA-mem 알고리즘을 사용하여 참조염색체 Hg19서열 기준으로 라이브러리 서열을 정렬하였다. 정렬 일치도 점수(Mapping quality score)가 60을 만족하는 것을 확인하였다.
GC양에 따라 각 염색체 좌위 구간(bin)의 시퀀싱 리드 수의 분포가 편향되는 것을 확인했고(도 2), 회귀분석을 사용하여 염색체별 GC 비율에 따라 정렬된 라이브러리 서열의 숫자를 교정하였다.
이후 하기 수식 1로 Z 점수(Z score)를 계산하였다:
Figure PCTKR2022019625-appb-img-000004
I-score를 계산하기 위해, 계산된 bin별 Z score를 데이터로 사용해, CBS 알고즘으로, 염색체를 분할(Segmentation)하는 과정이 선행되었다.
이후, 하기의 단계를 통해 I-score를 계산하였다.
i) 분할된 각 염색체 영역(segment)별 Z score를 영역에 포함된 구간(bin) 별로 계산된 Z score의 평균으로 계산하였다.
ii) 각 구간(bin)에 대하여 국소회귀분석(LOESS)을 수행하여 평활화된(smoothed) Z score(Zn)을 계산하였다. 이 때, n∈{1,…,N} 이고, N=전체 bin의 개수이다.
iii) 수식 2로 노이즈와 관련된 n_score를 계산하였다:
Figure PCTKR2022019625-appb-img-000005
실시예 2. I-score가 유방암의 진행 및 생존에 미치는 영향 확인
실시예 1의 유방암 환자를 232명의 탐색군(exploratory group) 과 233명의 검증군(validation group)으로 나눈 다음, 탐색군에서 I 점수와 무질병생존율(DFS, disease-free survival)의 연관성을 univariate Cox regression 및 maximal log-rank test로 분석한 결과, I 점수가 7.81 이상인 그룹에서의 DFS가 현저히 감소하는 것을 확인하였으며, 질병의 무증악기간에 대한 위험비(Hazard Ratio, HR)가 증가하는 것을 확인하였다(도 3A, 도 4A). 아울러, 동일한 결과를 검증군에서도 확인할 수 있었다(도 3B, 도 4B).
Figure PCTKR2022019625-appb-img-000006
Figure PCTKR2022019625-appb-img-000007
실시예 3. I-score와 pCR의 관계 확인
유방암 예후 예측의 강력한 인자인 병리학적 완전 관해(pathological complete response) 여부와 I score의 관계를 multivariate Cox analysis로 확인한 결과, 도 5에 기재된 바와 같이 탐색군에서 pCR의 여부와 관계없이 I 점수가 기준값 이상이면 DFS가 감소하는 것을 확인하였다.
또한, pCR과 I score가 각각 독립적인 예후 예측 인자로 작동하므로, 이 둘을 조합하여 4개의 그룹으로 분리할 경우, 더욱 세분화된 예후 예측이 가능하다는 것을 확인하였다(도 6, 도 7).
4개의 그룹은
(1) I 점수가 기준값 이상이고, pCR이 아닌 그룹
(2) I 점수가 기준값 이상이고, pCR이 있는 그룹
(3) I 점수가 기준값 미만이고, pCR이 아닌 그룹 및
(4) I 점수가 기준값 미만이고, pCR이 있는 그룹
이고, 도 6 및 도 7에 기재된 바와 같이 1번 그룹의 예후가 가장 나쁘고, 4번 그룹의 예후가 가장 좋은 것을 확인하였다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 유방암 예후예측 방법은 차세대 염기서열 분석기법(Next Generation Sequencing, NGS)을 이용하여 유방암 환자의 예후예측 정확도를 높일 뿐만 아니라 검출하기 어려웠던 매우 낮은 농도의 무세포 DNA에 기반의 예후예측 정확도를 높여서 상업적 활용도를 높일 수 있다. 따라서 본 발명의 방법은 유방암 환자의 예후 판단에 유용하다.

Claims (19)

  1. 다음의 단계를 포함하는 무세포 DNA(cell free DNA, cfDNA) 기반의 유방암 예후예측 방법:
    a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계;
    b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계;
    d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계;
    e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계;
    f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계;
    g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및
    h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 단계.
  2. 제1항에 있어서, 상기 a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법:
    (a-i) 채취된 무세포 DNA에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (a-ii) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (a-iii) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (a-iv) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  3. 제2항에 있어서,
    상기 (a-i) 및 상기 (a-ii) 단계 사이에, 상기 (a-i) 단계에서 정제된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계를 추가로 포함하는 방법으로 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  4. 제1항에 있어서, 상기 a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 0.01 내지 100 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  5. 제1항에 있어서, 상기 c) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법:
    (c-i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
    (c-ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계.
  6. 제5항에 있어서, 상기 기준값은, 상기 정렬 일치도 점수(mapping quality score)가 15 내지 70이고, GC 비율은 30 내지 60%인 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  7. 제5항에 있어서, c) 단계는, 염색체의 중심체 또는 말단체의 데이터를 제외하고 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  8. 제1항에 있어서, 상기 d) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법:
    (d-i) 표준 염색체를 일정구간(bin)으로 나누는 단계;
    (d-ii) 상기 구간별 정렬된 리드 개수 및 리드들의 GC양을 산출하는 단계;
    (d-iii) 상기 리드 개수 및 GC양을 바탕으로 회귀분석을 실시하여 회귀계수를 산출하는 단계; 및
    (d-iv) 상기 회귀계수를 이용하여 리드 개수를 정규화하는 단계.
  9. 제8항에 있어서, (d-i)에서의 일정구간(bin)은 100 kb 내지 2 Mb인 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  10. 제1항에 있어서, 상기 e) 단계는, 하기의 수식 1로 계산하는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법:
    Figure PCTKR2022019625-appb-img-000008
  11. 제1항에 있어서, 상기 (f) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법:
    (f-i) 각 구간별 Z 점수를 기반으로 CBS(Circular Binary Segmentation) 방법으로 염색체 영역을 구분하는 단계;
    (f-ii) 구분된 각 염색체 영역(segment)별 Z score(Segment Z score)를 영역에 포함된 구간(bin) 별로 계산된 Z score의 평균으로 계산하는 단계;
    (f-iii) 각 구간(bin)에 대하여 국소회귀분석(LOESS)을 수행하여 평활화된(smoothed) Z score(Zn)을 계산하는 단계,
    이 때, n∈{1,…,N} 이고, N=전체 bin의 개수임;
    (f-iv) 수식 2로 노이즈와 관련된 n_score를 계산하는 단계:
    Figure PCTKR2022019625-appb-img-000009
    (f-v) 하기 수식 3으로 I-score를 계산하는 단계:
    Figure PCTKR2022019625-appb-img-000010
  12. 제1항에 있어서, 상기 유방 조직이미지는 유방 조직 샘플 조직화학염색 이미지 및 유방 조직 샘플 조직형광염색 이미지로 구성된 군에서 선택되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  13. 제1항에 있어서,
    상기 유방 조직이미지 판독 정보가 양성인 것은 이미지에서 암 세포가 확인되는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  14. 제1항에 있어서,
    상기 I 점수의 기준값은 5 내지 10인 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  15. 제1항에 있어서,
    상기 I 점수가 기준값 이상이고, 이미지 판독 정보가 음성인 경우, 중등도 위험군으로 분류하고, I 점수가 기준값 미만이고, 이미지 판독 정보가 양성인 경우, 고도 위험군으로 분류하고, I 점수가 기준값 이상이고, 이미지 판독 정보가 양성인 경우, 초고도 위험군으로 분류하는 단계를 추가로 포함하는 것을 특징으로 하는 cfDNA 기반의 유방암 예후예측 방법.
  16. 제1항 내지 제15항 중 어느 한 항의 방법으로 유방암 예후를 예측하는 단계를 포함하는 유방암의 예후 판단을 위한 정보의 제공 방법.
  17. 제1항 내지 제15항 중 어느 한 항의 방법으로 유방암 예후를 예측하는 단계를 포함하는 유방암의 예후 판단 방법.
  18. 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 해독하는 해독부;
    해독된 서열을 참조집단의 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
    정렬된 서열정보(reads)에 대하여 기준값(cut-off value) 이상인 샘플의 서열정보만 선별하는 품질관리부;
    선별된 서열정보(reads)에 대하여, 참조집단 샘플과 비교하여 Z 점수(Z score)를 계산한 다음, 이를 바탕으로 I 점수(I-score)를 계산하는 I 점수 계산부;
    항암 치료 후 유방 조직이미지 판독 정보를 수득하는 이미지 판독 정보 수신부; 및
    I 점수가 기준값(cut-off value) 이상이고, 이미지 판독 정보가 양성인 경우, 유방암 예후가 나쁜 것으로 판정하는 결정부를 포함하는 cfDNA 기반의 유방암 예후예측 장치.
  19. 컴퓨터 판독 가능한 매체로서, 유방암 예후를 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    a) 항암 치료 전 생체시료에서 분리된 무세포 DNA의 서열정보를 획득하는 단계;
    b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    c) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계;
    d) 상기 표준 염색체를 일정 구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 양을 확인하고 정규화하는 단계;
    e) 참조집단의 정규화된 각 구간(bin)에 매치되는 리드의 평균과 표준편차를 구한 다음, 상기 d) 단계에서 정규화한 값 사이의 Z 점수를 계산하는 단계;
    f) 상기 Z 점수(Z score)를 이용하여 염색체를 구분하여, I 점수를 계산하는 단계;
    g) 항암 치료 후 유방 조직이미지 판독 정보를 수득하는 단계; 및
    h) 상기 계산된 I 점수(I-score)가 기준값(cut-off value) 이상이고, 유방 조직이미지 판독 정보가 양성일 경우, 유방암 예후가 나쁜 것으로 판정하는 단계;
    를 포함하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 매체.
PCT/KR2022/019625 2021-12-06 2022-12-05 혈중 무세포 dna 기반 유방암 치료 예후예측 방법 WO2023106768A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210172562A KR20230085239A (ko) 2021-12-06 2021-12-06 혈중 무세포 dna 기반 유방암 치료 예후예측 방법
KR10-2021-0172562 2021-12-06

Publications (1)

Publication Number Publication Date
WO2023106768A1 true WO2023106768A1 (ko) 2023-06-15

Family

ID=86730917

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/019625 WO2023106768A1 (ko) 2021-12-06 2022-12-05 혈중 무세포 dna 기반 유방암 치료 예후예측 방법

Country Status (2)

Country Link
KR (1) KR20230085239A (ko)
WO (1) WO2023106768A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085667A (ko) * 2018-01-11 2019-07-19 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
US20190264291A1 (en) * 2012-06-21 2019-08-29 The Chinese University Of Hong Kong Sequence variant analysis of cell-free dna for cancer screening
KR20210034363A (ko) * 2019-09-20 2021-03-30 고려대학교 산학협력단 유방암 초음파 영상과 유전자 정보를 이용한 유방암 치료법 선택을 위한 정보를 제공하는 방법
KR20210073526A (ko) * 2018-10-08 2021-06-18 프리놈 홀딩스, 인크. 전사 인자 프로파일링

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190264291A1 (en) * 2012-06-21 2019-08-29 The Chinese University Of Hong Kong Sequence variant analysis of cell-free dna for cancer screening
KR20190085667A (ko) * 2018-01-11 2019-07-19 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
KR20210073526A (ko) * 2018-10-08 2021-06-18 프리놈 홀딩스, 인크. 전사 인자 프로파일링
KR20210034363A (ko) * 2019-09-20 2021-03-30 고려대학교 산학협력단 유방암 초음파 영상과 유전자 정보를 이용한 유방암 치료법 선택을 위한 정보를 제공하는 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PANAGOPOULOU MARIA, ESTELLER MANEL, CHATZAKI EKATERINI: "Circulating Cell-Free DNA in Breast Cancer: Searching for Hidden Information towards Precision Medicine", CANCERS, vol. 13, no. 4, pages 728, XP093069742, DOI: 10.3390/cancers13040728 *

Also Published As

Publication number Publication date
KR20230085239A (ko) 2023-06-14

Similar Documents

Publication Publication Date Title
Song et al. Single-cell analysis of human primary prostate cancer reveals the heterogeneity of tumor-associated epithelial cell states
Nair et al. Genomic analysis of uterine lavage fluid detects early endometrial cancers and reveals a prevalent landscape of driver mutations in women without histopathologic evidence of cancer: a prospective cross-sectional study
WO2020171573A1 (ko) 혈중 무세포 dna 기반 간암 치료 예후예측 방법
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN114736968B (zh) 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置
CN107727865A (zh) 肿瘤标志物的系统性检测方法及其应用
WO2021101339A1 (ko) 직장암의 선행화학방사선 표준 치료 반응 예측 및 치료 후 예후 예측을 위한 조성물 및 표준 치료 후 예후가 매우 나쁜 환자를 예측하는 방법 및 조성물
WO2021054752A2 (ko) 유방암 초음파 영상과 유전자 정보를 이용한 유방암 치료법 선택을 위한 정보를 제공하는 방법
CN109679957B (zh) IncRNALNC_004208及其检测试剂在制备脑胶质瘤预后试剂中的应用
Jain Applications of proteomics in oncology
Wang et al. The value of circulation tumor DNA in predicting postoperative recurrence of colorectal cancer: a meta-analysis
Tan et al. Single nucleotide polymorphisms of CBX4 and CBX7 decrease the risk of hepatocellular carcinoma
Wang et al. Identification and validation of hub genes associated with hepatocellular carcinoma via integrated bioinformatics analysis
Lee et al. Differential protein analysis of spasomolytic polypeptide expressing metaplasia using laser capture microdissection and two-dimensional difference gel electrophoresis
CN114596918A (zh) 一种检测突变的方法及装置
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2023106768A1 (ko) 혈중 무세포 dna 기반 유방암 치료 예후예측 방법
CN112951325A (zh) 一种用于癌症检测的探针组合的设计方法及其应用
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes
CN115976209A (zh) 一种肺癌预测模型的训练方法以及预测装置和应用
CN113005197B (zh) 检测直肠癌放化疗敏感性相关18基因突变位点的试剂盒及其应用
CN112980950B (zh) 一种检测直肠癌放化疗敏感性相关15基因突变位点的试剂盒及其应用
WO2022250512A1 (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
WO2022108407A1 (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
Kohn et al. Promising directions for the diagnosis and management of gynecological cancers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22904598

Country of ref document: EP

Kind code of ref document: A1