KR102491322B1 - 암 진단을 위한 다중 분석 예측 모델의 제조 방법 - Google Patents
암 진단을 위한 다중 분석 예측 모델의 제조 방법 Download PDFInfo
- Publication number
- KR102491322B1 KR102491322B1 KR1020220038857A KR20220038857A KR102491322B1 KR 102491322 B1 KR102491322 B1 KR 102491322B1 KR 1020220038857 A KR1020220038857 A KR 1020220038857A KR 20220038857 A KR20220038857 A KR 20220038857A KR 102491322 B1 KR102491322 B1 KR 102491322B1
- Authority
- KR
- South Korea
- Prior art keywords
- cancer
- methylation
- ratio
- cancer diagnosis
- cfdna
- Prior art date
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 106
- 201000011510 cancer Diseases 0.000 title claims abstract description 102
- 238000003745 diagnosis Methods 0.000 title claims abstract description 47
- 238000002360 preparation method Methods 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000011987 methylation Effects 0.000 claims description 42
- 238000007069 methylation reaction Methods 0.000 claims description 42
- 239000012634 fragment Substances 0.000 claims description 26
- 238000012164 methylation sequencing Methods 0.000 claims description 21
- 108091029430 CpG site Proteins 0.000 claims description 19
- 210000001519 tissue Anatomy 0.000 claims description 14
- 210000004369 blood Anatomy 0.000 claims description 11
- 239000008280 blood Substances 0.000 claims description 11
- 238000011528 liquid biopsy Methods 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 210000003765 sex chromosome Anatomy 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 108020004414 DNA Proteins 0.000 description 17
- 239000000523 sample Substances 0.000 description 17
- 238000012549 training Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000007481 next generation sequencing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 206010009944 Colon cancer Diseases 0.000 description 7
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 7
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 206010006187 Breast cancer Diseases 0.000 description 4
- 208000026310 Breast neoplasm Diseases 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 4
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 229940104302 cytosine Drugs 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 108020004707 nucleic acids Proteins 0.000 description 3
- 102000039446 nucleic acids Human genes 0.000 description 3
- 150000007523 nucleic acids Chemical class 0.000 description 3
- 239000013610 patient sample Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000007067 DNA methylation Effects 0.000 description 2
- 101100247669 Quaranfil virus (isolate QrfV/Tick/Afghanistan/EG_T_377/1968) PB1 gene Proteins 0.000 description 2
- 101150025928 Segment-1 gene Proteins 0.000 description 2
- 101100242902 Thogoto virus (isolate SiAr 126) Segment 1 gene Proteins 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008995 epigenetic change Effects 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 210000004962 mammalian cell Anatomy 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 2
- 210000002381 plasma Anatomy 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 201000009030 Carcinoma Diseases 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 208000007660 Residual Neoplasm Diseases 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004611 cancer cell death Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000009615 deamination Effects 0.000 description 1
- 238000006481 deamination reaction Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- XEBWQGVWTUSTLN-UHFFFAOYSA-M phenylmercury acetate Chemical compound CC(=O)O[Hg]C1=CC=CC=C1 XEBWQGVWTUSTLN-UHFFFAOYSA-M 0.000 description 1
- 210000004180 plasmocyte Anatomy 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/10—Ploidy or copy number detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Biochemistry (AREA)
- Software Systems (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Microbiology (AREA)
Abstract
본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다. 본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.
Description
본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다.
최근 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.
한편, 전장 유전체 DNA 메틸화 맵핑은 ctDNA를 정상 순환 세포 유리 DNA와 구분하기 위해 사용될 수 있는 다수의 후성적 변화를 이용한다. 예를 들어, 일부 종양 유형, 예를 들어, 뇌질피복 세포증은 임의의 상당한 재발성 체세포 돌연변이 없이 광범위한 DNA 메틸화 비정상을 가질 수 있다.
최근 cfDNA를 이용하여 CancerSEEK, PanSeer, GRAIL MCED test와 같은 다양한 암 진단 기술들이 개발되고 있는데, 이들은 주로 타겟 시퀀싱을 이용하여 특정 영역에서의 메틸화 패턴만을 이용하여 진단하기 때문에, 한정된 숫자의 마커만을 사용하게 되는 한계점이 있어 민감도와 정확도가 높은 암 진단을 위한 예측 모델이 필요한 실정이다.
이에, 본 발명에서는 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터 단독 또는 앙상블하여 기계학습을 통해 제조한 암 진단 분석 예측 모델을 제시하고자 한다.
본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 선별된 영역에 대하여 메틸화 패턴 비율(methylation pattern fraction) 특성(feature)을 적용하고, 복제수 비율(copy number ratio) 및 절편 크기 비율(fragment size ratio)로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 추출된 하나 이상의 특성 데이터를 기계학습(machine learning)을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공하는 것을 목적으로 한다.
본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; b) 암 진단을 위한 다중 분석 예측 모델에 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 상기 c) 단계에서 추출된 하나 이상의 특성 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공한다.
암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 cfDNA를 이용한 암 진단 기술을 연구하는 과정에서, 기존의 타겟 시퀀싱을 이용한 특정 영역의 메틸화 패턴을 이용하여 진단하는 방법의 한계를 극복하기 위해 예의 노력한 결과, 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터를 기계학습을 통해 민감도와 정확도가 높은 암 진단 분석 예측 모델을 제조하고 이를 통해 효과적으로 암 진단이 가능함을 검증하여 본 발명을 완성하였다.
이하, 본 발명에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 상세히 설명한다.
먼저, 본 발명의 방법은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계를 수행한다.
포유동물 세포의 게놈 DNA에는 A, C, G 및 T 이외에, 사이토신 링의 다섯번째 탄소에 메틸 그룹이 부착된 5-메틸사이토신(5-methylcytosine, 5-mC)이라는 5번째 염기가 존재한다. 5-메틸사이토신의 메틸화는 CpG 부위라고 불리는 CG 디뉴클레오티드(5'-CG-3')의 C에서만 일어나며, 상기 CpG 부위에서 5-mC는 자연적으로 탈아미노화하여 티민(T)이 되기 쉽기 때문에, CpG 부위는 포유동물 세포에서 대부분의 후생유전학적 변화가 자주 일어난다. 상기 CpG 부위는 게놈에 포함되어 있는 유전자의 프로모터 영역, 인트론, 엑손 영역 등에 존재할 수 있다.
본 발명의 일 구체예에 따르면, 상기 암 진단 예측에 필요한 영역으로 선별하기 위해서는 다음과 같은 조건을 만족하는 것이 바람직하다.
1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
3) 1 kb를 초과하는 영역은 분할할 것
4) 성 염색체 영역을 제거할 것; 및
5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것.
도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정을 나타낸 예시이다. 본 예시에서, CpG 정보는 UCSC 게놈 브라우저로부터 다운로드한 GRCh37 버전의 인간 참조 게놈 서열로부터 얻었다. 도 1을 참고하여 암 진단 예측에 필요한 영역을 선별하는 과정을 보면, 인간 게놈에서 전체 CpG 부위의 갯수는 28,245,162개이며, 정상인 데이터에서 관측된 시퀀싱 뎁스의 중앙값이 3 이상인 CpG 부위는 약 66%인 18,654,033개이다. 그 중 CpG 부위 사이의 거리가 100 bp 미만이고, 적어도 3개의 CpG 부위를 포함하는 영역은 2,639,386개이고, 이 중 1kb를 초과하는 영역을 분할하여 2,651,019개의 영역을 선별한다. 이후, 성 염색체 영역을 제거하면 2,527,529개의 영역이 선별되며, 최종적으로 정상인에서 하위 10%의 시퀀싱 뎁스가 3을 초과하는 영역을 선별하면 2,407,105개의 영역이 선별된다.
이후, 본 발명의 방법은 b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계를 수행하게 된다.
본 발명의 일 구체예에 따르면, 상기 액체 생검 시료는 정상인 또는 암 환자 유래의 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 소변과 같은 액체로 이루어진 시료를 포함할 수 있으나, 상기 액체 생검 시료는 혈액인 것이 가장 바람직하다.
본 발명에서, '세포 유리 핵산(cell-free DNA)' 또는 'cfDNA'는 세포의 외부(예를 들어, 체액)에서 발견되는 핵산의 단편을 의미하는 것으로, 상기 체액은 혈액, 뇌척수액, 타액 또는 소변을 포함하지만, 이에 한정하지는 않는다. 상기 cfDNA는 대상으로부터(예를 들어, 대상의 세포로부터) 유래될 수 있거나, 대상 이외의 공급원으로부터(예를 들어, 바이러스 감염으로부터) 유래될 수 있다.
cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 추출된 cfDNA는 예를 들어, 당업계에 공지된 메틸화 방법을 통해 DNA 라이브러리를 제작한 다음, 차세대 시퀀싱(Next Generation Sequencing, NGS)을 통하여 전장 유전체 메틸화 시퀀싱 정보를 획득하여 메틸화 여부를 확인할 수 있다. 차세대 염기서열 분석기법의 구체적인 방법은 Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재되어 있으며, 상기 문헌은 본 명세서에 참조로서 삽입된다.
본 발명에서, '메틸화(methylation)'는 DNA를 구성하는 염기에 메틸기가 부착되는 것을 의미하며, 바람직하게는, 본 발명에서의 메틸화는 인간 게놈의 CpG 부위의 사이토신에서 일어나는 메틸화 여부를 의미한다. 일반적으로, 메틸화가 일어난 경우 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 억제되며, 반대로, 비메틸화 또는 저메틸화가 일어나는 경우 특정 유전자의 발현이 증가하게 된다.
다음으로, 본 발명은 c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계를 수행하게 된다.
본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것일 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '평균 메틸화 비율(Average Methylation Fraction, AMF)'로 정의한다.
도 2는 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 예를 들어, 전체 리드의 CpG 부위가 24개로 가정하면, 이 중 메틸화된 C의 개수에 따라 비율을 산출할 수 있다. 이때, 도 2에서 보는 바와 같이, 메틸화된 C의 개수는 영역 내에 포함되는 시토신에 대해서만 계산을 하게 되며, 하기 수학식 I에 따라 평균 메틸화 비율 값을 추출할 수 있다. 이러한 방법에 의해 추출된 평균 메틸화 비율 값은 0 내지 1 사이의 값을 갖게 된다.
[수학식 I]
본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출할 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '비정상 메틸화 패턴 비율(Abnormal Methylation Pattern Fraction, AMPF)'로 정의한다.
도 3은 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 도 3의 (a) 내지 (c)에서 보는 바와 같이, 먼저, 각각의 전장 유전체 메틸화 시퀀싱 (Whole Genome Methylation Sequencing, WGMS) 리드 레벨에서 메틸화의 패턴을 구성하고, 시료 레벨에서 빈도를 추출한 다음, 각 영역마다 정상인의 메틸화 패턴을 정의한다. 이후, 정상인과 반대되는 메틸화 패턴(methyl pattern) 수준을 정량화하여, 비정상적인 메틸화 패턴의 비율을 계산하여 값을 추출하게 된다. 예를 들어, Segment1의 정상인 주 패턴(major pattern)이 메틸화이고, 암 환자 Sample1의 메틸화 수준이 0.11이면 Sample1에서 Segment1의 비정상 메틸화 패턴 비율은 0.89이다(도 3 (c)의 박스 표시).
본 발명의 일 구체예에 따르면, 상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출할 수 있다.
도 4는 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. cfDNA에서, 복제수 변이를 정량하는 것은 매우 어려우나, 전장 유전체 데이터로부터 각 시료 마다 복제수 변이에 대한 정보를 수집할 수 있다. 먼저, 전체 게놈을 구간화(예를 들어, 10 kb 단위)한 다음, 각 구간별로 뎁스(depth)를 계산한다. 이후, 정상인 시료에서 구간별 뎁스의 중앙값을 계산하여 이를 레퍼런스 값으로 한다. 복제수 비율의 계산은 구하고자 하는 시료의 구간별 뎁스값을 정상인 시료에서 계산된 레퍼런스 뎁스값으로 나눈 후 로그를 취하여 복제수 비율을 계산할 수 있다. 도 4의 예시와 같이, 정상인 시료의 구간별 뎁스의 중앙값이 2 카피이고, 대상 시료의 구간별 뎁스값이 2 카피라면, 복제수 비율 값은 0이 된다.
본 발명의 일 구체예에 따르면, 상기 절편 크기 비율은 a) 단계에서 선별된 영역에 대하여 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출할 수 있다.
혈액을 순환하고 있는 cfDNA는 DNA의 절편 크기와 관련한 분자적 특징을 가지고 있다. 특히, cfDNA는 NGS 과정에서 DNA의 절편화 단계가 필요하지 않으므로, cfDNA의 시퀀싱 결과만 이용해도 DNA 절편 크기 분포를 확인할 수 있다. 또한, 절편 크기는 환자의 질환(예를 들어, 암) 또는 상태를 반영하여 그 길이가 짧아지는 현상이 보고되어 있어, 암 진단 예측 모델에 사용될 수 있다. 도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포를 나타낸다. 도 5에서 보는 바와 같이, 대장암 환자의 cfDNA 절편의 크기는 정상인에 비하여 그 길이가 짧은 절편의 분포가 높음을 확인할 수 있다.
절편 크기 비율에 대한 데이터의 추출은 다음과 같이 할 수 있다. 예를 들어, 선별된 영역에 대하여 전체 절편이 30개이고, 각 영역에 매핑되는 절편 중 제1 절편의 개수가 10개, 제2 절편의 개수가 20개인 경우라면, 절편 크기 비율에 대한 데이터 값은 하기와 같은 계산으로 -1이 될 수 있다.
한편, 상기 복제수 비율 및 절편 크기 비율에 대한 데이터 추출은 인간 게놈의 전체 영역을 분할(binning)하여 추출할 수 있다.
마지막으로, 본 발명의 방법은 d) 상기 c) 단계에서 추출된 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 수행하게 된다.
도 6은 상기 방법에 의해 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 것이다. 정상인과 암 환자 시료를 훈련(training) 세트와 검증(validation) 세트로 분할하고, 최종 모델의 평가를 미리 검증하기 전에 예측하기 위해, 훈련 세트를 4배수 교차 검증(4-fold Cross-Validation)을 이용하여 기계학습 모델을 생성하였다. 각 특성(메틸화 패턴 비율(AMF, AMPF), 복제수 비율(CNR) 및 절편 크기 비율(Fragmentomics))에 대한 모델은 support vector machine, random forest, glmnet 과 같은 분류 모델(classification model)을 단독으로 사용하거나, 여러 모델을 앙상블(ensemble)하여 구축할 수 있다. 또한, 하나 이상의 특성을 사용하여 2가지 앙상블 모델을 제조할 수 있는데, 본 발명의 일 구체예에 따르면, 상기 암 진단 예측 모델은 암의 유무(IsCancer) 및/또는 암 유래 조직(Tissue-of-Origin)을 검출할 수 있다. 이때, IsCancer 앙상블 모델은 정상인 및 암 환자 시료 모두를 이용하여 제조할 수 있으며, Tissue-of-Origin 모델은 정상인을 제외한 암 환자 시료를 이용하여 제조할 수 있다. 또한, 검증 평가 시에는 IsCancer 모델에서 암으로 판정된 환자에 대해서만 Tissue-of-Origin 모델을 적용할 수 있으며, 훈련 세트와 독립적인 검증 세트를 이용하여 성능 평가를 할 수 있다.
본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; 및 b) 상기 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공한다.
본 발명에 따른 암 진단을 위한 정보를 제공하는 방법은 전술한 암 진단을 위한 다중 분석 예측 모델에 대상 환자 유래 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 판단하는 것으로, 분석 기준 및 검증 방법에 대해 전술하였는 바, 명세서의 과도한 복잡성을 방지하기 위해 설명을 생략한다.
본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.
도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정의 예시를 나타낸 도면이다.
도 2는 본 발명의 일 구체예에 따른 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 3은 본 발명의 일 구체예에 따른 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 4는 본 발명의 일 구체예에 따른 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포의 차이를 보여주는 그래프이다.
도 6은 본 발명의 일 구체예에 따라 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 개략도이다.
도 7은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 각 특성별로 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 8은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 4종의 특성을 앙상블하여 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 9는 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 각 특성별로 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
도 10은 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 4종의 특성을 앙상블하여 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
도 2는 본 발명의 일 구체예에 따른 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 3은 본 발명의 일 구체예에 따른 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 4는 본 발명의 일 구체예에 따른 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포의 차이를 보여주는 그래프이다.
도 6은 본 발명의 일 구체예에 따라 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 개략도이다.
도 7은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 각 특성별로 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 8은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 4종의 특성을 앙상블하여 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 9는 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 각 특성별로 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
도 10은 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 4종의 특성을 앙상블하여 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1. 전장 유전체 메틸화 시퀀싱(whole genome methylation sequencing) 방법
대상 환자의 혈액으로부터 플라즈마(plasma)와 PBMC(Peripheral Blood Mononuclear Cell) 분리하고, cfDNA extraction kit(Promega 사, 미국)을 이용하여, 플라즈마로부터 cfDNA를 추출하였다. 추출된 cfDNA는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 1 ng 내지 20 ng의 퀄리티를 확인한 cfDNA를 대상으로, 전장 유전체 메틸화 시퀀싱을 위한 NGS DNA 라이브러리 준비 과정을 진행하였다. 상기 DNA 라이브러리는 End repair, Adaptor ligation, Methyl 영역의 oxidation, DNA denaturation, Cytosine의 Deamination, PCR amplification의 과정을 거쳐 준비하며, 위 라이브러리 제작 과정은 Enzymatic Methyl-seq Kit(New England Biolabs 사, 미국)를 사용하였다. 상기 준비된 DNA 라이브러리는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 이후, 생산된 DNA 라이브러리에 대하여 원하는 NGS 데이터 생산량에 따라 각각의 시료를 혼합(예를 들어, A 시료 100G, B 시료 100G, C 시료 50G의 데이터를 생산하기 위해서는 A:B:C = 2:2:1의 비율로 혼합)하고, NGS 데이터의 퀄리티를 위하여 적정량의 PhiX 대조군 라이브러리(Illumina 사, 미국)를 혼합하여 Illumina 사의 Novaseq 장치를 이용하여 NGS를 수행하였다.
실시예 2. 암 진단 예측 모델(IsCancer)을 이용한 암의 유무 예측 결과
3개의 암종 및 정상인의 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 IsCancer 모델을 이용하여 각 특성별로 암의 유무를 예측하였다. 하기 표 1은 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.
cfDNA | 정상인 | 대장암(CRC) | 간암(HCC) | 유방암(BC) |
훈련 세트 | 47 | 81 | 46 | 60 |
검증 세트(독립) | 42 | 53 | 24 | 28 |
메틸화 패턴 비율(AMF, AMPF)(도 7의 (a) 및 (b)), 복제수 비율(CNR)(도 7의 (c)) 및 절편 크기 비율(FragRatio)(도 7의 (d))의 특성(feature)에 따라 3종의 암을 예측한 결과, 정상인의 시료와 비교할 때, 암과 비암이 명확하게 구별되었으며, 특이도는 AMF 97.1%, AMPF 95.2%, CNR 97.1%, FragRatio 98.1%이었으며, 민감도는 AMF 92.9%, AMPF 95.2%, CNR 90.5%, FragRatio 92.9%로 확인되어, 높은 특이도와 민감도로 암의 유무를 판별할 수 있음을 확인할 수 있었다.
또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암의 유무를 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 점수의 변동성이 안정화된 것을 확인하였으며, 민감도는 99.0%, 특이도는 97.6%로 향상됨을 확인할 수 있었다(도 8).
실시예 3. 암 진단 예측 모델(Tissue-of-Origin)을 암 유래 조직의 예측 결과
3종의 암 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 Tissue-of-Origin 모델을 이용하여 각 특성별로 암 유래 조직을 예측하였다. 하기 표 2는 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.
cfDNA | 대장암(CRC) | 간암(HCC) | 유방암(BC) |
훈련 세트 | 81 | 46 | 60 |
검증 세트(독립) | 53 | 24 | 28 |
메틸화 패턴 비율(AMF, AMPF)(도 9의 (a) 및 (b)), 복제수 비율(CNR)(도 9의 (c)) 및 절편 크기 비율(FragRatio)(도 9의 (d))의 특성(feature)에 따라 3종의 암유래 조직을 예측한 결과, 높은 정확도로 암 유래 조직 예측이 가능함을 확인할 수 있었다.
또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암 유래 조직을 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 암종별 정확도는 98.1%까지 향상되었으며, 전체 암을 대상으로 한 정확도도 95.2%까지 향상됨을 확인할 수 있었다(도 10).
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
Claims (9)
- a) 인간 레퍼런스 게놈의 전체 CpG 부위 (loci) 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계;
b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 특성 및 절편 크기 비율 특성을 반영한 데이터를 추출하는 단계; 및
d) 상기 c) 단계에서 추출된 특성을 반영한 데이터에 기초하는 암 진단 예측 모델을 생성하는 단계를 포함하고,
상기 a) 단계는 하기 조건을 만족하는 경우 암 진단 예측에 필요한 영역으로 선별하는 것이며:
1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
3) 1 kb를 초과하는 영역은 분할할 것
4) 성 염색체 영역을 제거할 것; 및
5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것,
상기 절편 크기 비율은 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고, 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출하는 것인 암 진단을 위한 다중 분석 예측 모델의 제조 방법.
- 삭제
- 청구항 1에 있어서,
상기 2 이상의 액체 생검 시료는 정상인 유래의 혈액 및 암 환자 유래의 혈액 중 적어도 암 환자 유래의 혈액을 포함하는 것인 방법.
- 청구항 1에 있어서,
상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것인 방법.
- 청구항 1에 있어서,
상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출하는 것인 방법.
- 청구항 1에 있어서,
상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출하는 것인 방법.
- 삭제
- 청구항 1에 있어서,
상기 암 진단 예측 모델은 암의 유무 및/또는 암 유래 조직을 검출하는 것인 방법.
- a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
b) 청구항 1의 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220038857A KR102491322B1 (ko) | 2022-03-29 | 2022-03-29 | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
EP22862405.2A EP4282984A1 (en) | 2022-03-29 | 2022-08-17 | Method for construction of multi-feature prediction model for cancer diagnosis |
CN202280006342.7A CN117413071A (zh) | 2022-03-29 | 2022-08-17 | 制备用于癌症诊断的多分析预测模型的方法 |
PCT/KR2022/012252 WO2023191197A1 (ko) | 2022-03-29 | 2022-08-17 | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220038857A KR102491322B1 (ko) | 2022-03-29 | 2022-03-29 | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102491322B1 true KR102491322B1 (ko) | 2023-01-27 |
Family
ID=85101466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220038857A KR102491322B1 (ko) | 2022-03-29 | 2022-03-29 | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4282984A1 (ko) |
KR (1) | KR102491322B1 (ko) |
CN (1) | CN117413071A (ko) |
WO (1) | WO2023191197A1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200143462A (ko) * | 2018-04-13 | 2020-12-23 | 프리놈 홀딩스, 인크. | 생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현 |
WO2021016441A1 (en) * | 2019-07-23 | 2021-01-28 | Grail, Inc. | Systems and methods for determining tumor fraction |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016127944A1 (en) * | 2015-02-10 | 2016-08-18 | The Chinese University Of Hong Kong | Detecting mutations for cancer screening and fetal analysis |
BR112020000681A2 (pt) * | 2017-07-12 | 2020-07-14 | University Health Network | detecção e classificação de cancro utilizando análise de metilome |
AU2019253112A1 (en) * | 2018-04-13 | 2020-10-29 | Grail, Llc | Multi-assay prediction model for cancer detection |
-
2022
- 2022-03-29 KR KR1020220038857A patent/KR102491322B1/ko active IP Right Grant
- 2022-08-17 WO PCT/KR2022/012252 patent/WO2023191197A1/ko active Application Filing
- 2022-08-17 CN CN202280006342.7A patent/CN117413071A/zh active Pending
- 2022-08-17 EP EP22862405.2A patent/EP4282984A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200143462A (ko) * | 2018-04-13 | 2020-12-23 | 프리놈 홀딩스, 인크. | 생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현 |
WO2021016441A1 (en) * | 2019-07-23 | 2021-01-28 | Grail, Inc. | Systems and methods for determining tumor fraction |
Also Published As
Publication number | Publication date |
---|---|
EP4282984A1 (en) | 2023-11-29 |
WO2023191197A1 (ko) | 2023-10-05 |
CN117413071A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108138233B (zh) | Dna混合物中组织的单倍型的甲基化模式分析 | |
CN106795562B (zh) | Dna混合物中的组织甲基化模式分析 | |
EP4322168A2 (en) | Methods for fragmentome profiling of cell-free nucleic acids | |
US20170314081A1 (en) | Methods of detecting cancer | |
US11581062B2 (en) | Systems and methods for classifying patients with respect to multiple cancer classes | |
JP6606554B2 (ja) | Y染色体のメチル化部位を前立腺ガンの診断用マーカとする使用 | |
CN111863250B (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
CN109830264B (zh) | 肿瘤患者基于甲基化位点进行分类的方法 | |
CN115443341A (zh) | 分析无细胞核酸的方法及其应用 | |
CN111833963B (zh) | 一种cfDNA分类方法、装置和用途 | |
JP2023527868A (ja) | 遺伝子マーカー組成物及びその使用 | |
CN115820860A (zh) | 基于增强子甲基化差异的非小细胞肺癌标志物筛选方法及其标志物和应用 | |
Kwon et al. | Advances in methylation analysis of liquid biopsy in early cancer detection of colorectal and lung cancer | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 | |
KR102491322B1 (ko) | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 | |
JP2018139537A (ja) | 食道がんのリンパ節転移可能性のデータ取得方法 | |
KR102550162B1 (ko) | 메틸화 시그널을 이용한 잔존 암 예측 정보를 제공하기 위한 방법 | |
JP2020014415A (ja) | がんの診断用バイオマーカー | |
CN110890128A (zh) | 一种用于检测皮肤肿瘤良恶性程度的分级模型及其应用 | |
US20220033882A1 (en) | Methods of diagnosing and treating patients with pigmented skin lesions | |
US20220243276A1 (en) | Methods of detecting cancer | |
WO2024040006A2 (en) | Ai and ml-based system to predict cancer from epigenetic data | |
Zhao et al. | Up-regulated tumor intrinsic growth potential and decreased immune function orchestrate the evolution of lung adenocarcinoma | |
TW202242147A (zh) | 監測非小細胞肺癌的方法及套組 | |
KR20240063745A (ko) | Cell-free DNA 를 이용한 건강 및 질병관리 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |