KR20230172174A - 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 - Google Patents
무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 Download PDFInfo
- Publication number
- KR20230172174A KR20230172174A KR1020220072680A KR20220072680A KR20230172174A KR 20230172174 A KR20230172174 A KR 20230172174A KR 1020220072680 A KR1020220072680 A KR 1020220072680A KR 20220072680 A KR20220072680 A KR 20220072680A KR 20230172174 A KR20230172174 A KR 20230172174A
- Authority
- KR
- South Korea
- Prior art keywords
- cancer
- mutation
- single nucleotide
- mutations
- chr2
- Prior art date
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 234
- 201000011510 cancer Diseases 0.000 title claims abstract description 228
- 239000002773 nucleotide Substances 0.000 title claims abstract description 123
- 125000003729 nucleotide group Chemical group 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 109
- 230000035772 mutation Effects 0.000 claims abstract description 275
- 238000009826 distribution Methods 0.000 claims abstract description 56
- 238000003745 diagnosis Methods 0.000 claims abstract description 55
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 49
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 48
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 48
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 36
- 238000001914 filtration Methods 0.000 claims abstract description 29
- 239000012472 biological sample Substances 0.000 claims abstract description 16
- 230000002068 genetic effect Effects 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 25
- 238000012163 sequencing technique Methods 0.000 claims description 25
- 210000000349 chromosome Anatomy 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 14
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 12
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 12
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical group CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000036438 mutation frequency Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 201000009030 Carcinoma Diseases 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 6
- 229930024421 Adenine Natural products 0.000 claims description 6
- 229960000643 adenine Drugs 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 229940104302 cytosine Drugs 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 210000004602 germ cell Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 229940113082 thymine Drugs 0.000 claims description 6
- 238000012300 Sequence Analysis Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013467 fragmentation Methods 0.000 claims description 3
- 238000006062 fragmentation reaction Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 239000011324 bead Substances 0.000 claims description 2
- 238000003776 cleavage reaction Methods 0.000 claims description 2
- 238000004440 column chromatography Methods 0.000 claims description 2
- 230000002255 enzymatic effect Effects 0.000 claims description 2
- 239000003925 fat Substances 0.000 claims description 2
- 238000000227 grinding Methods 0.000 claims description 2
- 102000004169 proteins and genes Human genes 0.000 claims description 2
- 238000005185 salting out Methods 0.000 claims description 2
- 230000007017 scission Effects 0.000 claims description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 9
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 196
- 238000012070 whole genome sequencing analysis Methods 0.000 description 19
- 210000001519 tissue Anatomy 0.000 description 18
- 206010064571 Gene mutation Diseases 0.000 description 13
- 238000007481 next generation sequencing Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 8
- 239000012634 fragment Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 239000012530 fluid Substances 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- 206010033128 Ovarian cancer Diseases 0.000 description 5
- 206010061535 Ovarian neoplasm Diseases 0.000 description 5
- 201000007270 liver cancer Diseases 0.000 description 5
- 208000014018 liver neoplasm Diseases 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 108700028369 Alleles Proteins 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000037435 normal mutation Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 208000024893 Acute lymphoblastic leukemia Diseases 0.000 description 2
- 208000014697 Acute lymphocytic leukaemia Diseases 0.000 description 2
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 2
- 208000006664 Precursor Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 208000031261 Acute myeloid leukaemia Diseases 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 208000022072 Gallbladder Neoplasms Diseases 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010027406 Mesothelioma Diseases 0.000 description 1
- 208000034578 Multiple myelomas Diseases 0.000 description 1
- 208000033776 Myeloid Acute Leukemia Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 206010035226 Plasma cell myeloma Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 201000009036 biliary tract cancer Diseases 0.000 description 1
- 208000020790 biliary tract neoplasm Diseases 0.000 description 1
- 239000013060 biological fluid Substances 0.000 description 1
- 210000001754 blood buffy coat Anatomy 0.000 description 1
- 210000000621 bronchi Anatomy 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 210000002726 cyst fluid Anatomy 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 201000010175 gallbladder cancer Diseases 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 208000005017 glioblastoma Diseases 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 201000010536 head and neck cancer Diseases 0.000 description 1
- 208000014829 head and neck neoplasm Diseases 0.000 description 1
- 230000002489 hematologic effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000004880 lymph fluid Anatomy 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 210000002445 nipple Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000001672 ovary Anatomy 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 206010038038 rectal cancer Diseases 0.000 description 1
- 201000001275 rectum cancer Diseases 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 201000002314 small intestine cancer Diseases 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 210000001179 synovial fluid Anatomy 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 201000002510 thyroid cancer Diseases 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/165—Mathematical modelling, e.g. logarithm, ratio
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Genetics & Genomics (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pathology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Oncology (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Hospice & Palliative Care (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
본 발명은 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 추출한 후, 단일염기변이의 분포 및 단일염기변이의 종류별 빈도를 계산하여 학습된 인공지능 모델에 입력하여 출력된 값을 분석하는 방법을 포함하는 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법에 관한 것이다. 본 발명에 따른 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법은, 무세포 핵산의 유전 정보를 이용한 암 진단 및 암 종을 예측하는 다른 방법에 비해 민감도와 정확도가 높을 뿐만 아니라, 암 조직 세포 기반의 방법과 동일한 수준의 민감도와 정확도를 확보할 수 있으며, 무세포 핵산의 단일염기변이를 이용한 다른 분석에서도 활용할 수 있어 유용하다.
Description
본 발명은 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 추출한 후, 단일염기변이의 분포 및 단일염기변이의 종류별 빈도를 계산하여 학습된 인공지능 모델에 입력하여 출력된 값을 분석하는 방법을 포함하는 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행 하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
무세포 DNA의 단일유전자변이(single nucleotide variant) 분석을 통해 암을 진단하는 연구는 활발히 진행되고 있으며, 암에서 자주 발견되는 변이(recurrent mutation)를 sequencing depth를 높여서 targeted sequencing하는 방법이 많이 사용되었다(Chabon J. J. et al., nature, Vol. 580, pp. 245-251, 2020). 그러나 최근에는 targeted sequencing을 하는 것보다 sequencing depth가 낮더라도 무세포 DNA의 whole-genome sequencing (WGS) 데이터를 이용하여 더 많은 종류의 변이를 살펴보는 것이 민감도가 높다는것이 밝혀졌다(Zviran A et al., Nat Med, Vol. 26, pp. 1114-1124, 2020).
그러나, 현재까지의 기술로는 무세포 DNA WGS에서 변이 발굴의 정확도 문제가 있어서 암의 진단에는 무세포 DNA WGS를 사용하지 못하고, 암의 조직(tumor tissue) WGS을 통해 해당 환자의 변이 정보를 갖고 있을 경우, 해당 변이만 필터링하여 추적관찰하는 암의 재발 모니터링에만 무세포 DNA의 WGS가 사용되었다(Zviran A et al., Nat Med, Vol. 26, pp. 1114-1124, 2020). 즉, 암의 진단에 무세포 DNA WGS를 사용하는 것이 효과적이지만 효과적인 필터링 방법의 부재로 인하여 무세포 DNA WGS를 암 진단에는 사용하지 못하였다.
한편, 암에서의 돌연변이 발생 빈도 (mutation rate)는 유전체 상의 지역별로 차이가 존재하며, 더 나아가 암 종별로도 변이가 발생되는 기작과 변이가 축적되는 양상이 다르다. 이러한 특성을 이용해서 암 조직에서의 돌연변이의 분포(regional mutation density) 및 변이의 종류(mutation signature)를 이용하여 암종이 구별 가능하다는 것이 보고된 바 있다(Jia Wei et al., Nat. Communications, Vol. 11, no. 728, 2020). 그러나 이 경우는 이미 수술을 통하여 암의 진단과 암종 구별이 완료된 상태에서 이론적인 가능성을 탐색한 것으로서, 무세포 DNA WGS를 통한 암 진단 기술에 적용된 것은 아니다.
한편, 인공신경망을 이용하여 바이오 분야에 활용하는 다양한 특허(KR 10-2017-0185041, KR 10-2017-0144237, KR 10-2018-0124550)가 존재하고 있으나, 혈액 내 무세포 DNA(무세포 DNA, cfDNA) WGS의 서열분석 정보를 기반으로 변이를 분석하여 암 종을 예측하는 방법에 대해서는 암 특이적 변이 발굴의 부정확성 문제로 부족한 실정이다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의 무세포 핵산의 단일염기변이를 암 진단 및 암 종 예측방법을 개발하기 위해 예의 노력한 결과, 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 추출하고, 단일염기변이의 분포 및 단일염기변이의 종류별 빈도를 계산하여 이를 학습된 인공지능 모델에 입력하여 출력된 값을 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종을 예측할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법을 제공하는 것이다.
본 발명의 다른 목적은 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계; (d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계; (e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계; 및 (f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하는 단계; 를 포함하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부; 해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부; 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부; 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부; 계산된 단열염기변이 분포 값과 변이 빈도를 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및 암으로 판정된 샘플의 단열염기변이 분포 값과 변이 빈도를 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하여 출력된 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계; (d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계; (e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계; (f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하고 출력값을 기준값과 비교하여 암 유무를 판정하는 단계; 및 (g) 상기 (f) 단계에서 암으로 판정된 샘플의 단일염기변이 분포 및 단일염기변이 종류별 빈도값을 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하고 출력값을 비교하여 암 종을 예측하는 단계;를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체 를 제공한다.
본 발명에 따른 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법은, 무세포 핵산의 유전 정보를 이용한 암 진단 및 암 종을 예측하는 다른 방법에 비해 민감도와 정확도가 높을 뿐만 아니라, 암 조직 세포 기반의 방법과 동일한 수준의 민감도와 정확도를 확보할 수 있으며, 무세포 핵산의 단일염기변이를 이용한 다른 분석에서도 활용할 수 있어 유용하다.
도 1은 본 발명의 무세포 핵산의 단일염기변이를 이용한 염색체 이상을 판정하기 위한 전체 흐름도이다.
도 2는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 다른 모델과 비교하여 확인한 결과로서, (A)는 암 진단 성능의 정확도, (B)는 암 종 판별 성능이다.
도 3의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 4의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 종 판별 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 5의 (A)는 본 발명의 일 실시예에 따라, 변이 발굴 기준을 달리하여 구축한 암 진단 모델의 성능을 확인한 결과이며, (B)는 암 종 판별 성능을 확인한 결과이다.
도 6의 (A)는 본 발명의 일 실시예에 따라, 정상인 cfDNA의 WGS 데이터베이스를 필터링에서 활용한 방법과 cfDNA의 기술적인 특징들을 이용해서 필터링한 방법의 암 진단 모델 성능을 확인한 결과이며, (B)는 암 종 판별 성능을 확인한 결과이다.
도 7은 본 발명의 일 실시예에 따라 구축한 방법으로 계산한 cfDNA의 암 종 특이적 RMD 값이 조직샘플에서의 암 종 특이적 RMD 값을 잘 반영하는 지를 확인한 결과이다.
도 2는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 다른 모델과 비교하여 확인한 결과로서, (A)는 암 진단 성능의 정확도, (B)는 암 종 판별 성능이다.
도 3의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 진단 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 4의 (A)는 본 발명의 일 실시예에서 구축한 DNN 모델의 암 종 판별 성능을 암 종별로 기존 방법과 비교한 결과이며, (B)는 암 진행 단계별로 비교한 결과이다.
도 5의 (A)는 본 발명의 일 실시예에 따라, 변이 발굴 기준을 달리하여 구축한 암 진단 모델의 성능을 확인한 결과이며, (B)는 암 종 판별 성능을 확인한 결과이다.
도 6의 (A)는 본 발명의 일 실시예에 따라, 정상인 cfDNA의 WGS 데이터베이스를 필터링에서 활용한 방법과 cfDNA의 기술적인 특징들을 이용해서 필터링한 방법의 암 진단 모델 성능을 확인한 결과이며, (B)는 암 종 판별 성능을 확인한 결과이다.
도 7은 본 발명의 일 실시예에 따라 구축한 방법으로 계산한 cfDNA의 암 종 특이적 RMD 값이 조직샘플에서의 암 종 특이적 RMD 값을 잘 반영하는 지를 확인한 결과이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 샘플에서 획득한 서열 분석 데이터를 참조 유전체에 정렬한 다음, 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 필터링을 통해 암 특이적 단일염기변이를 추출하고, 단일염기변이의 분포 및 단일염기변이의 종류별 빈도를 계산하여 이를 학습된 인공지능 모델에 입력하여 계산된 값을 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종류를 예측할 수 있다는 것을 확인하고자 하였다.
즉, 본 발명의 일 실시예에서는, 혈액에서 추출한 DNA를 시퀀싱 한 뒤, 참조 염색체에 정렬한 다음, 정렬된 리드에서 필터링을 통해 암 특이적 단일염기변이를 추출하고, 참조 염색체를 일정 구간으로 나누어 각 구간별 단일염기변이의 분포를 계산하고, 각각의 단일염기변이의 종류별 빈도를 계산하여 단일염기변이 분포와 단일염기변이 종류별 빈도를 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력된 값을 기준값과 비교하여 암 진단을 수행한 다음, 암으로 판정된 샘플의 단일염기변이 분포와 단일염기변이 종류별 빈도를 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하여 출력된 값 중, 가장 높은 값을 나타낸 암 종을 샘플의 암 종으로 결정하는 방법을 개발하였다(도 1).
따라서, 본 발명은 일관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
(d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계;
(e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계; 및
(f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하는 단계;
를 포함하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법에 관한 것이다.
본 발명에서 상기 암은 고형암 또는 혈액암일 수 있고, 바람직하게는 비호지킨 림프종 (non-Hodgkin lymphoma), 호지킨 림프종 (non-Hodgkin lymphoma), 급성 골수성 백혈병 (acute-myeloid leukemia), 급성 림프구성 백혈병 (acute-lymphoid leukemia), 다발성 골수종 (multiple myeloma), 경부암 (head and neck cancer), 폐암, 교모세포종 (glioblastoma), 대장/직장암, 췌장암, 유방암, 난소암, 흑색종 (melanoma), 전립선암, 갑상선암, 간암, 위암, 담낭암, 담도암, 방광암, 소장암, 자궁경부암, 원발부위불명암, 신장암 및 중피종 (mesothelioma)으로 구성된 군에서 선택될 수 있으며, 가장 바람직하게는 간암 또는 난소암 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서,
상기 (a) 단계는
(a-i) 생체시료에서 핵산을 수득하는 단계;
(a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계;
를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 1백만 내지 1억 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 용어, ”참조집단”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단으로, 현재 특정 질환 또는 병증이 없는 사람의 집단을 의미한다. 본 발명에 있어서, 상기 참조집단의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 NCBI 등의 공공보건기관에 등록되어 있는 참조 염색체일 수 있다.
본 발명에 있어서, 상기 (a) 단계의 핵산은 무세포 DNA 일 수 있으며, 보다 바람직하게는 순환종양세포 DNA(circulating tumor DNA) 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 (b) 단계의 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 BWA 알고리즘은 BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (b) 단계의 서열정보(reads)의 길이는, 5 내지 5000 bp이고, 사용하는 서열정보의 수는 5천 내지 500만개가 될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계의 필터링은 정상인에서 발생한 단일염기변이와 암 특이적으로 발생한 단일염기변이를 구별할 수 있는 방법이면 제한없이 이용할 수 있으며, 바람직하게는 발굴된 단일염기변이가 있는 변이 지역의 리드 깊이(read depth)가 3 이상이고, 평균 시퀀싱 퀄리티(sequencing quality)가 30 이상인 단일염기변이를 추출하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 변이 지역은 단일염기변이가 있는 정확한 위치를 의미하며, 변이 지역의 리드 깊이가 3 이상이라는 의미는 해당 위치에 정렬되는 리드의 개수가 3개 이상이라는 것을 의미한다.
본 발명에 있어서, 상기 (c) 단계의 필터링은 서열분석 과정 중 발생한 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정을 추가로 수행하는 것을 특징으로 할 수 있으며, 상기 과정은
i) 리드 쌍(read pair) 중 어느 하나에서만 검출되는 변이;
ii) 한 위치에서 두 종류 이상 검출되는 변이;
iii) 각 위치에서 정상 염기가 검출되지 않는 변이; 및
iv) 정상인 데이터베이스에서 검출되는 변이;
로 구성된 군에서 선택되는 어느 하나 이상의 변이를 제거하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 정상인 데이터베이스는 정상인의 염기서열 변이 정보를 포함하는 데이터베이스이면 제한없이 이용가능하고, 바람직하게는 정상인의 cfDNA WGS 데이터, 조직 샘플의 WGS 데이터 등을 포함하는 데이터베이스 일 수 있으며, 더욱 바람직하게는 dbSNP, 1000 Genome, Hapmap, ExAC, Gnomad 등의 공개된 데이터베이스 일 수 있으나 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d) 단계의 구간은 단일염기변이 분포를 계산할 수 있는 구간이면 얼마든지 임의로 설정할 수 있고, 바람직하게는 100kb 내지 10Mb일 수 있고, 더욱 바람직하게는 500kb 내지 5Mb 일 수 있으며, 가장 바람직하게는 1Mb일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d) 단계의 추출된 단일염기변이의 분포(regional mutation density, RMD)를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(d-i) 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간별로 추출된 단일염기변이의 개수를 계산하는 단계; 및
(d-ii) 계산된 개수를 각 구간별 변이의 총 개수로 나누어 정규화(normalization)하는 단계.
본 발명에 있어서, 상기 기준값은 추출된 단일염기변이를 유의미하게 구분할 수 있는 값이면 제한없이 이용할 수 있고, 바람직하게는 40 내지 60%일 수 있으며, 더욱 바람직하게는 45 내지 55% 일 수 있고, 가장 바람직하게는 50%일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간은 기준값이 50%일 경우, 전체 샘플 중 50% 이상의 샘플에서 추출된 단일염기변이가 존재하지 않는 구간을 제외한다는 것을 의미한다.
본 발명에 있어서, 상기 구간은 표 1로 기재된 구간에서 선택되는 하나 이상인 것을 특징으로 할 수 있다.
본 발명에서, 단일유전자변이의 분포(regional mutation density, RMD)는 배경 변이율(background mutation rate)과 유사한 의미로 사용되며, 전장 유전체를 일정 구간으로 나누어 mutation frequency를 계산한 것을 의미한다.
본 발명에서, 암 종별 단일유전자변이의 분포는 해당 암에서 변이가 많은 지역인지, 적은 지역인지에 대한 정량값이다. 암 단일유전자변이는 인간 게놈에 균일하게 분포하지 않는다. 전장 유전체 지역에 따라 축적되는 단일유전자변이의 양이 다르며, 암 종별로 축적되는 양상 또한 굉장히 다르다. 또한, 후성유전체적 특징(Histone modification, 복제 시간)이 암 종별 단일유전자변이 분포의 주요 원인으로, 단일유전자변이의 분포는 해당 암 종의 후성유전체적 특징을 내포한다.
단일유전자변이의 분포는 전장 유전체 지역별로 다르고, 암 종별로 다르기 때문에 암 진단 및 암 종 판별의 유용한 지표가 될 수 있다. 발굴된 변이가 해당 암에서 발생 확률이 높은 지역에 위치한 변이인지 단일유전자변이의 분포를 이용해 알 수 있다.
본 발명에 있어서, 상기 (e) 단계의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(e-i) 다음의 변이 종류별 변이 개수를 계산하는 단계; 및
(1)사이토신(cytosine, C)이 티민(thymine, T), 아데닌(adenine, A) 또는 구아닌(guanine, G)으로 치환된 변이;
(2)) 티민이 시토신, 아데닌 또는 구아닌으로 치환된 변이;
(3) (1) 또는 (2)의 변이에서 5' 방향 염기가 하나 더 포함된 변이;
(4) (1) 또는 (2)의 변이에서 3' 방향 염기가 하나 더 포함된 변이; 및
(5) 아데닌, 구아닌, 사이토신 및 티민이 서로 다른 염기로 치환된 변이의 5' 방향 염기 하나 및 3' 방향 염기를 각각 하나씩 더 포함하는 변이;
(e-ii) 계산된 변이 개수의 합을 총합으로 나누어 정규화(normalization)하는 단계.
본 발명에 있어서, 상기 변이의 종류는 표 2에 기재된 변이에서 선택되는 하나 이상인 것을 특징으로 할 수 있다.
본 발명에서, 단일염기변이 종류(mutation signature)는 정상 염기가 다른 염기로 변이되어 유전자의 기능적 이상이 발생하는 변이이면 제한없이 이용가능하며, 바람직하게는 C->A, C->G, C->T, T->A, T->C 및 T->G로 구성된 군에서 선택되는 하나 이상인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 C->A는 검출된 변이가 정상 염기 C가 변이 염기 A로 변이 된 것인지를 확인하는 것을 의미하고, C->G는 검출된 변이가 정상 염기 C가 변이 염기 G로 변이된 것인지를 확인하는 것을 의미하며, 나머지도 같은 의미이다.
본 발명에 있어서, 상기 (f) 단계의 기준값은 암을 진단 할 수 있는 값이면 제한없이 이용가능하고, 바람직하게는 0.5일 수 있으나, 이에 한정되는 것은 아니며, 만약 기준값이 0.5일 경우, 0.5 이상일 경우에 암인 것으로 판정하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져갈 수 있다.
본 발명에 있어서,
(g) 암으로 판정된 샘플의 단일염기변이 분포 및 단일염기변이 종류별 빈도값을 암 종을 구별하도록 학습된 제2 인공지능 모델에 입력하고 출력값을 비교하여 암 종을 예측하는 단계;
를 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (g) 단계의 출력값의 비교는 출력값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델은 암 진단 또는 암 종을 판별할 수 있는 모델이면 제한없이 이용가능하며, 바람직하게는 인공신경망 모델일 수 있으며, 더욱 바람직하게는 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN) 및 오토 인코더(autoencoder)로 구성된 군에서 선택될 수 있고, 가장 바람직하게는 심층 신경망일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 인공지능 모델이 DNN이고, binary classification 을 학습할 경우, 손실함수는 하기 수식 1로 표시되는 binary crossentropy인 것을 특징으로 할 수 있다:
수식 1:
여기서, N은 전체 샘플 수이고, i 는 모델이 i번째 입력값이 class 1에 가깝다고 예측한 확률 값이며, yi 는 i번째 입력값의 실제 class이다.
본 발명에 있어서, 상기 제2 인공지능 모델이 DNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 categorical crossentropy 인것을 특징으로 할 수 있다:
수식 2:
여기서, N은 전체 샘플 수이며, J는 전체 class의 개수이고, yj는 해당 샘플의 실제 class를 나타내는 값으로 실제 class가 j이면 1, 실제 class가 j가 아니면 0으로 표시하며, j 는 해당 샘플이 j class라고 예측한 확률값으로 1에 가까울수록 해당 class일 확률이 높다고 예측한 확률값이다.
본 발명에서, 상기 인공지능 모델이 DNN일 경우, 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 데이터를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 DNN 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 DNN 모델을 구축하는 단계;
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 DNN 모델을 이루는 여러 parameter(layer 수, filter 수 등) 값을 최적화 하는 과정으로 Hyper-parameter tuning 과정으로는 Hyperband optimization, Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 DNN 모델의 내부 parameter(weights)들을 최적화 시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명은 다른 관점에서, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부;
표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부;
추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부;
계산된 단열염기변이 분포 값과 변이 빈도를 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
암으로 판정된 샘플의 단열염기변이 분포 값과 변이 빈도를 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하여 출력된 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치에 관한 것이다.
본 발명에서, 상기 해독부는 독립된 장치에서 추출된 핵산을 주입하는 핵산 주입부; 및 주입된 핵산의 서열정보를 분석하는 서열정보 분석부를 포함할 수 있으며, 바람직하게는 NGS 분석 장치일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 해독부는 독립된 장치에서 생성된 서열정보 데이터를 수신하여 해독하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
(d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계;
(e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계;
(f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하고 출력값을 기준값과 비교하여 암 유무를 판정하는 단계; 및
(g) 상기 (f) 단계에서 암으로 판정된 샘플의 단일염기변이 분포 및 단일염기변이 종류별 빈도값을 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하고 출력값을 비교하여 암 종을 예측하는 단계;
를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함 할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 혈액에서 DNA를 추출하여, 차세대 염기서열 분석 수행
정상인 471명, 난소암 환자 151명 및 간암 환자 131명의 혈액을 10mL씩 채취하여 EDTA Tube에 보관하였으며, 채취 후 2시간 이내에 1200g, 4℃15분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심분리된 혈장을 16000g, 4℃10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 Tiangenmicro DNA kit (Tiangen)을 사용하여 무세포 DNA를 추출하고, MGIEasy 무세포 DNA library prep set kit 를 사용하여 library preparation 과정을 수행 한 다음, DNBseq G400 장비 (MGI) 를 100 base Paired end 모드로 sequencing 하였다. 그 결과, 샘플 당 약 170 million 개의 reads가 생산되는 것을 확인 하였다.
실시예 2. 단일염기변이 추출, 단일염기변이 분포 및 종류별 빈도 feature 추출
2-1. 암 특이적 변이 추출을 위한 필터링
실시예 1에서 수득한 NGS 데이터를 참조 염색체(hg 19)에 정렬하여 수득한 bam 파일을 GATK 파이프라인을 이용해서 프로세싱을 진행하였다. 샘플별 변이 profile을 확보하기 위해서 varscan(mutation caller)를 이용해서 변이를 발굴하였다.
Varscan 변이 발굴 기준은 굉장히 관대하게 적용하였다. Variant read가 하나 이상, 변이 지역의 전체 depth는 3 이상, 평균 염기 quality 30 이상, 최소한의 variant allele frequency 기준은 제거, strand filter 제거, varscan variant P value 기준 제거를 통해 관대한 기준으로 variant calling을 진행하였다(variant allele frequency는 변이 위치의 전체 read 중 변이가 발굴된 read 수의 비율로 변이의 비율을 의미한다).
관대한 기준으로 암 유래 변이 일 수 있는 모든 변이를 발굴한 후, 다양한 기준을 이용해서 artifacts와 germline mutation을 제거하였다. 부정확한 위치의 변이를 제거하기 위해서 4가지 방법을 사용하였다.
첫번째로 fragment의 forward read와 reverse read 양쪽에 변이가 존재하는 위치가 시퀀싱 되었을 때, read의 한쪽에만 변이가 발견되었으면 제거하였다. 두번째로 한 위치에 변이가 두개 이상 있으면 제거하였다. 세번째로, variant allele frequency가 1이면 혈액에 존재하는 DNA 모두 변이가 존재한다는 의미이기 때문에 종양 유래 변이일 확률이 없다고 가정하고 제거하였다.
네번째로 다양한 정상인 변이 데이터베이스 및 blacklist region의 변이들을 제거하였다. Blacklist region은 align할 때 잘못 align될 확률이 높은 지역들로 repeat, centromere와 같은 지역들이 해당된다. Blacklist region은 Haley M amemiya et al., Scientific report Vol. 9, no. 9354, 2019에서 정리한 지역을 사용하였다. 또한, 정상인 변이일 확률이 높은 변이를 제거하기 위해서, 정상인 변이를 모아 놓은 공공 데이터베이스들을 사용하였다. dbSNP(https://data.amerigeoss.org/ko_KR/dataset/dbsnp), 1000 Genome(https://www.internationalgenome.org/), Hapmap(https://ftp.ncbi.nlm.nih.gov/hapmap/), ExAC(https://gnomad.broadinstitute.org/downloads#exac-variants) 및 Gnomad(https://gnomad.broadinstitute.org/) 데이터베이스를 사용하였다.
또한, 녹십자에서 생산한 20,000명 정상인 cfDNA WGS 데이터베이스의 변이는 종양 유래 변이일 가능성이 낮으므로 필터링하였다. 그리고 암 종을 구분하는 알고리즘의 입력값의 경우, 실시예 1에서 정상인 412명의 세포 유리 DNA WGS에서 발견된 변이도 제거하였다.
2-2. 단일염기변이 분포 계산
전체 유전체를 1Mb로 구간화하고 각 구간별 단일염기변이 분포(regional mutation density, RMD)를 계산하였다. 실시예 2-1에서 추출한 변이가 전체 샘플의 50%이상에서 변이가 존재하지 않았던 구간을 제외하여, 총 2726개의 구간의 단일염기변이 분포를 알고리즘의 입력값으로 사용하였다. 각 구간에서의 변이의 개수를 계산하고, normalization을 위해서 2726개 구간에서의 변이의 개수 총합으로 나누었다. 최종적으로 2726개의 단일유전자변이 분포 features를 생성하였으며, feature list는 하기 표 1과 같다.
chr1:0-1Mb | chr12:52Mb-53Mb | chr18:36Mb-37Mb | chr3:69Mb-70Mb | chr6:52Mb-53Mb |
chr1:1Mb-2Mb | chr12:53Mb-54Mb | chr18:37Mb-38Mb | chr3:70Mb-71Mb | chr6:53Mb-54Mb |
chr1:2Mb-3Mb | chr12:54Mb-55Mb | chr18:38Mb-39Mb | chr3:71Mb-72Mb | chr6:54Mb-55Mb |
chr1:3Mb-4Mb | chr12:55Mb-56Mb | chr18:39Mb-40Mb | chr3:72Mb-73Mb | chr6:55Mb-56Mb |
chr1:4Mb-5Mb | chr12:56Mb-57Mb | chr18:40Mb-41Mb | chr3:73Mb-74Mb | chr6:56Mb-57Mb |
chr1:5Mb-6Mb | chr12:57Mb-58Mb | chr18:41Mb-42Mb | chr3:74Mb-75Mb | chr6:57Mb-58Mb |
chr1:6Mb-7Mb | chr12:58Mb-59Mb | chr18:42Mb-43Mb | chr3:75Mb-76Mb | chr6:58Mb-59Mb |
chr1:7Mb-8Mb | chr12:59Mb-60Mb | chr18:43Mb-44Mb | chr3:76Mb-77Mb | chr6:61Mb-62Mb |
chr1:8Mb-9Mb | chr12:60Mb-61Mb | chr18:44Mb-45Mb | chr3:77Mb-78Mb | chr6:62Mb-63Mb |
chr1:9Mb-10Mb | chr12:61Mb-62Mb | chr18:45Mb-46Mb | chr3:78Mb-79Mb | chr6:63Mb-64Mb |
chr1:10Mb-11Mb | chr12:62Mb-63Mb | chr18:46Mb-47Mb | chr3:79Mb-8Mb0 | chr6:64Mb-65Mb |
chr1:11Mb-12Mb | chr12:63Mb-64Mb | chr18:47Mb-48Mb | chr3:8Mb0-81Mb | chr6:65Mb-66Mb |
chr1:12Mb-13Mb | chr12:64Mb-65Mb | chr18:48Mb-49Mb | chr3:81Mb-82Mb | chr6:66Mb-67Mb |
chr1:13Mb-14Mb | chr12:65Mb-66Mb | chr18:49Mb-50Mb | chr3:82Mb-83Mb | chr6:67Mb-68Mb |
chr1:14Mb-15Mb | chr12:66Mb-67Mb | chr18:50Mb-51Mb | chr3:83Mb-84Mb | chr6:68Mb-69Mb |
chr1:15Mb-16Mb | chr12:67Mb-68Mb | chr18:51Mb-52Mb | chr3:84Mb-85Mb | chr6:69Mb-70Mb |
chr1:16Mb-17Mb | chr12:68Mb-69Mb | chr18:52Mb-53Mb | chr3:85Mb-86Mb | chr6:70Mb-71Mb |
chr1:17Mb-18Mb | chr12:69Mb-70Mb | chr18:53Mb-54Mb | chr3:86Mb-87Mb | chr6:71Mb-72Mb |
chr1:18Mb-19Mb | chr12:70Mb-71Mb | chr18:54Mb-55Mb | chr3:87Mb-88Mb | chr6:72Mb-73Mb |
chr1:19Mb-20Mb | chr12:71Mb-72Mb | chr18:55Mb-56Mb | chr3:88Mb-89Mb | chr6:73Mb-74Mb |
chr1:20Mb-21Mb | chr12:72Mb-73Mb | chr18:56Mb-57Mb | chr3:89Mb-90Mb | chr6:74Mb-75Mb |
chr1:21Mb-22Mb | chr12:73Mb-74Mb | chr18:57Mb-58Mb | chr3:90Mb-91Mb | chr6:75Mb-76Mb |
chr1:22Mb-23Mb | chr12:74Mb-75Mb | chr18:58Mb-59Mb | chr3:93Mb-94Mb | chr6:76Mb-77Mb |
chr1:23Mb-24Mb | chr12:75Mb-76Mb | chr18:59Mb-60Mb | chr3:94Mb-95Mb | chr6:77Mb-78Mb |
chr1:24Mb-25Mb | chr12:76Mb-77Mb | chr18:60Mb-61Mb | chr3:95Mb-96Mb | chr6:78Mb-79Mb |
chr1:25Mb-26Mb | chr12:77Mb-78Mb | chr18:61Mb-62Mb | chr3:96Mb-97Mb | chr6:79Mb-8Mb0 |
chr1:26Mb-27Mb | chr12:78Mb-79Mb | chr18:62Mb-63Mb | chr3:97Mb-98Mb | chr6:8Mb0-81Mb |
chr1:27Mb-28Mb | chr12:79Mb-8Mb0 | chr18:63Mb-64Mb | chr3:98Mb-99Mb | chr6:81Mb-82Mb |
chr1:28Mb-29Mb | chr12:8Mb0-81Mb | chr18:64Mb-65Mb | chr3:99Mb-100Mb | chr6:82Mb-83Mb |
chr1:29Mb-30Mb | chr12:81Mb-82Mb | chr18:65Mb-66Mb | chr3:100Mb-101Mb | chr6:83Mb-84Mb |
chr1:30Mb-31Mb | chr12:82Mb-83Mb | chr18:66Mb-67Mb | chr3:101Mb-102Mb | chr6:84Mb-85Mb |
chr1:31Mb-32Mb | chr12:83Mb-84Mb | chr18:67Mb-68Mb | chr3:102Mb-103Mb | chr6:85Mb-86Mb |
chr1:32Mb-33Mb | chr12:84Mb-85Mb | chr18:68Mb-69Mb | chr3:103Mb-104Mb | chr6:86Mb-87Mb |
chr1:33Mb-34Mb | chr12:85Mb-86Mb | chr18:69Mb-70Mb | chr3:104Mb-105Mb | chr6:87Mb-88Mb |
chr1:34Mb-35Mb | chr12:86Mb-87Mb | chr18:70Mb-71Mb | chr3:105Mb-106Mb | chr6:88Mb-89Mb |
chr1:35Mb-36Mb | chr12:87Mb-88Mb | chr18:71Mb-72Mb | chr3:106Mb-107Mb | chr6:89Mb-90Mb |
chr1:36Mb-37Mb | chr12:88Mb-89Mb | chr18:72Mb-73Mb | chr3:107Mb-108Mb | chr6:90Mb-91Mb |
chr1:37Mb-38Mb | chr12:89Mb-90Mb | chr18:73Mb-74Mb | chr3:108Mb-109Mb | chr6:91Mb-92Mb |
chr1:38Mb-39Mb | chr12:90Mb-91Mb | chr18:74Mb-75Mb | chr3:109Mb-110Mb | chr6:92Mb-93Mb |
chr1:39Mb-40Mb | chr12:91Mb-92Mb | chr18:75Mb-76Mb | chr3:110Mb-111Mb | chr6:93Mb-94Mb |
chr1:40Mb-41Mb | chr12:92Mb-93Mb | chr18:76Mb-77Mb | chr3:111Mb-112Mb | chr6:94Mb-95Mb |
chr1:41Mb-42Mb | chr12:93Mb-94Mb | chr18:77Mb-78Mb | chr3:112Mb-113Mb | chr6:95Mb-96Mb |
chr1:42Mb-43Mb | chr12:94Mb-95Mb | chr18:78Mb-78077248 | chr3:113Mb-114Mb | chr6:96Mb-97Mb |
chr1:43Mb-44Mb | chr12:95Mb-96Mb | chr19:0-1Mb | chr3:114Mb-115Mb | chr6:97Mb-98Mb |
chr1:44Mb-45Mb | chr12:96Mb-97Mb | chr19:1Mb-2Mb | chr3:115Mb-116Mb | chr6:98Mb-99Mb |
chr1:45Mb-46Mb | chr12:97Mb-98Mb | chr19:2Mb-3Mb | chr3:116Mb-117Mb | chr6:99Mb-100Mb |
chr1:46Mb-47Mb | chr12:98Mb-99Mb | chr19:3Mb-4Mb | chr3:117Mb-118Mb | chr6:100Mb-101Mb |
chr1:47Mb-48Mb | chr12:99Mb-100Mb | chr19:4Mb-5Mb | chr3:118Mb-119Mb | chr6:101Mb-102Mb |
chr1:48Mb-49Mb | chr12:100Mb-101Mb | chr19:5Mb-6Mb | chr3:119Mb-120Mb | chr6:102Mb-103Mb |
chr1:49Mb-50Mb | chr12:101Mb-102Mb | chr19:6Mb-7Mb | chr3:120Mb-121Mb | chr6:103Mb-104Mb |
chr1:50Mb-51Mb | chr12:102Mb-103Mb | chr19:7Mb-8Mb | chr3:121Mb-122Mb | chr6:104Mb-105Mb |
chr1:51Mb-52Mb | chr12:103Mb-104Mb | chr19:8Mb-9Mb | chr3:122Mb-123Mb | chr6:105Mb-106Mb |
chr1:52Mb-53Mb | chr12:104Mb-105Mb | chr19:9Mb-10Mb | chr3:123Mb-124Mb | chr6:106Mb-107Mb |
chr1:53Mb-54Mb | chr12:105Mb-106Mb | chr19:10Mb-11Mb | chr3:124Mb-125Mb | chr6:107Mb-108Mb |
chr1:54Mb-55Mb | chr12:106Mb-107Mb | chr19:11Mb-12Mb | chr3:125Mb-126Mb | chr6:108Mb-109Mb |
chr1:55Mb-56Mb | chr12:107Mb-108Mb | chr19:12Mb-13Mb | chr3:126Mb-127Mb | chr6:109Mb-110Mb |
chr1:56Mb-57Mb | chr12:108Mb-109Mb | chr19:13Mb-14Mb | chr3:127Mb-128Mb | chr6:110Mb-111Mb |
chr1:57Mb-58Mb | chr12:109Mb-110Mb | chr19:14Mb-15Mb | chr3:128Mb-129Mb | chr6:111Mb-112Mb |
chr1:58Mb-59Mb | chr12:110Mb-111Mb | chr19:15Mb-16Mb | chr3:129Mb-130Mb | chr6:112Mb-113Mb |
chr1:59Mb-60Mb | chr12:111Mb-112Mb | chr19:16Mb-17Mb | chr3:130Mb-131Mb | chr6:113Mb-114Mb |
chr1:60Mb-61Mb | chr12:112Mb-113Mb | chr19:17Mb-18Mb | chr3:131Mb-132Mb | chr6:114Mb-115Mb |
chr1:61Mb-62Mb | chr12:113Mb-114Mb | chr19:18Mb-19Mb | chr3:132Mb-133Mb | chr6:115Mb-116Mb |
chr1:62Mb-63Mb | chr12:114Mb-115Mb | chr19:19Mb-20Mb | chr3:133Mb-134Mb | chr6:116Mb-117Mb |
chr1:63Mb-64Mb | chr12:115Mb-116Mb | chr19:20Mb-21Mb | chr3:134Mb-135Mb | chr6:117Mb-118Mb |
chr1:64Mb-65Mb | chr12:116Mb-117Mb | chr19:21Mb-22Mb | chr3:135Mb-136Mb | chr6:118Mb-119Mb |
chr1:65Mb-66Mb | chr12:117Mb-118Mb | chr19:22Mb-23Mb | chr3:136Mb-137Mb | chr6:119Mb-120Mb |
chr1:66Mb-67Mb | chr12:118Mb-119Mb | chr19:23Mb-24Mb | chr3:137Mb-138Mb | chr6:120Mb-121Mb |
chr1:67Mb-68Mb | chr12:119Mb-120Mb | chr19:24Mb-25Mb | chr3:138Mb-139Mb | chr6:121Mb-122Mb |
chr1:68Mb-69Mb | chr12:120Mb-121Mb | chr19:28Mb-29Mb | chr3:139Mb-140Mb | chr6:122Mb-123Mb |
chr1:69Mb-70Mb | chr12:121Mb-122Mb | chr19:29Mb-30Mb | chr3:140Mb-141Mb | chr6:123Mb-124Mb |
chr1:70Mb-71Mb | chr12:122Mb-123Mb | chr19:30Mb-31Mb | chr3:141Mb-142Mb | chr6:124Mb-125Mb |
chr1:71Mb-72Mb | chr12:123Mb-124Mb | chr19:31Mb-32Mb | chr3:142Mb-143Mb | chr6:125Mb-126Mb |
chr1:72Mb-73Mb | chr12:124Mb-125Mb | chr19:32Mb-33Mb | chr3:143Mb-144Mb | chr6:126Mb-127Mb |
chr1:73Mb-74Mb | chr12:125Mb-126Mb | chr19:33Mb-34Mb | chr3:144Mb-145Mb | chr6:127Mb-128Mb |
chr1:74Mb-75Mb | chr12:126Mb-127Mb | chr19:34Mb-35Mb | chr3:145Mb-146Mb | chr6:128Mb-129Mb |
chr1:75Mb-76Mb | chr12:127Mb-128Mb | chr19:35Mb-36Mb | chr3:146Mb-147Mb | chr6:129Mb-130Mb |
chr1:76Mb-77Mb | chr12:128Mb-129Mb | chr19:36Mb-37Mb | chr3:147Mb-148Mb | chr6:130Mb-131Mb |
chr1:77Mb-78Mb | chr12:129Mb-130Mb | chr19:37Mb-38Mb | chr3:148Mb-149Mb | chr6:131Mb-132Mb |
chr1:78Mb-79Mb | chr12:130Mb-131Mb | chr19:38Mb-39Mb | chr3:149Mb-150Mb | chr6:132Mb-133Mb |
chr1:79Mb-8Mb0 | chr12:131Mb-132Mb | chr19:39Mb-40Mb | chr3:150Mb-151Mb | chr6:133Mb-134Mb |
chr1:8Mb0-81Mb | chr12:132Mb-133Mb | chr19:40Mb-41Mb | chr3:151Mb-152Mb | chr6:134Mb-135Mb |
chr1:81Mb-82Mb | chr12:133Mb-133851895 | chr19:41Mb-42Mb | chr3:152Mb-153Mb | chr6:135Mb-136Mb |
chr1:82Mb-83Mb | chr13:19Mb-20Mb | chr19:42Mb-43Mb | chr3:153Mb-154Mb | chr6:136Mb-137Mb |
chr1:83Mb-84Mb | chr13:20Mb-21Mb | chr19:43Mb-44Mb | chr3:154Mb-155Mb | chr6:137Mb-138Mb |
chr1:84Mb-85Mb | chr13:21Mb-22Mb | chr19:44Mb-45Mb | chr3:155Mb-156Mb | chr6:138Mb-139Mb |
chr1:85Mb-86Mb | chr13:22Mb-23Mb | chr19:45Mb-46Mb | chr3:156Mb-157Mb | chr6:139Mb-140Mb |
chr1:86Mb-87Mb | chr13:23Mb-24Mb | chr19:46Mb-47Mb | chr3:157Mb-158Mb | chr6:140Mb-141Mb |
chr1:87Mb-88Mb | chr13:24Mb-25Mb | chr19:47Mb-48Mb | chr3:158Mb-159Mb | chr6:141Mb-142Mb |
chr1:88Mb-89Mb | chr13:25Mb-26Mb | chr19:48Mb-49Mb | chr3:159Mb-160Mb | chr6:142Mb-143Mb |
chr1:89Mb-90Mb | chr13:26Mb-27Mb | chr19:49Mb-50Mb | chr3:160Mb-161Mb | chr6:143Mb-144Mb |
chr1:90Mb-91Mb | chr13:27Mb-28Mb | chr19:50Mb-51Mb | chr3:161Mb-162Mb | chr6:144Mb-145Mb |
chr1:91Mb-92Mb | chr13:28Mb-29Mb | chr19:51Mb-52Mb | chr3:162Mb-163Mb | chr6:145Mb-146Mb |
chr1:92Mb-93Mb | chr13:29Mb-30Mb | chr19:52Mb-53Mb | chr3:163Mb-164Mb | chr6:146Mb-147Mb |
chr1:93Mb-94Mb | chr13:30Mb-31Mb | chr19:53Mb-54Mb | chr3:164Mb-165Mb | chr6:147Mb-148Mb |
chr1:94Mb-95Mb | chr13:31Mb-32Mb | chr19:54Mb-55Mb | chr3:165Mb-166Mb | chr6:148Mb-149Mb |
chr1:95Mb-96Mb | chr13:32Mb-33Mb | chr19:55Mb-56Mb | chr3:166Mb-167Mb | chr6:149Mb-150Mb |
chr1:96Mb-97Mb | chr13:33Mb-34Mb | chr19:56Mb-57Mb | chr3:167Mb-168Mb | chr6:150Mb-151Mb |
chr1:97Mb-98Mb | chr13:34Mb-35Mb | chr19:57Mb-58Mb | chr3:168Mb-169Mb | chr6:151Mb-152Mb |
chr1:98Mb-99Mb | chr13:35Mb-36Mb | chr19:58Mb-59Mb | chr3:169Mb-170Mb | chr6:152Mb-153Mb |
chr1:99Mb-100Mb | chr13:36Mb-37Mb | chr19:59Mb-59128983 | chr3:170Mb-171Mb | chr6:153Mb-154Mb |
chr1:100Mb-101Mb | chr13:37Mb-38Mb | chr2:0-1Mb | chr3:171Mb-172Mb | chr6:154Mb-155Mb |
chr1:101Mb-102Mb | chr13:38Mb-39Mb | chr2:1Mb-2Mb | chr3:172Mb-173Mb | chr6:155Mb-156Mb |
chr1:102Mb-103Mb | chr13:39Mb-40Mb | chr2:2Mb-3Mb | chr3:173Mb-174Mb | chr6:156Mb-157Mb |
chr1:103Mb-104Mb | chr13:40Mb-41Mb | chr2:3Mb-4Mb | chr3:174Mb-175Mb | chr6:157Mb-158Mb |
chr1:104Mb-105Mb | chr13:41Mb-42Mb | chr2:4Mb-5Mb | chr3:175Mb-176Mb | chr6:158Mb-159Mb |
chr1:105Mb-106Mb | chr13:42Mb-43Mb | chr2:5Mb-6Mb | chr3:176Mb-177Mb | chr6:159Mb-160Mb |
chr1:106Mb-107Mb | chr13:43Mb-44Mb | chr2:6Mb-7Mb | chr3:177Mb-178Mb | chr6:160Mb-161Mb |
chr1:107Mb-108Mb | chr13:44Mb-45Mb | chr2:7Mb-8Mb | chr3:178Mb-179Mb | chr6:161Mb-162Mb |
chr1:108Mb-109Mb | chr13:45Mb-46Mb | chr2:8Mb-9Mb | chr3:179Mb-18Mb0 | chr6:162Mb-163Mb |
chr1:109Mb-110Mb | chr13:46Mb-47Mb | chr2:9Mb-10Mb | chr3:18Mb0-181Mb | chr6:163Mb-164Mb |
chr1:110Mb-111Mb | chr13:47Mb-48Mb | chr2:10Mb-11Mb | chr3:181Mb-182Mb | chr6:164Mb-165Mb |
chr1:111Mb-112Mb | chr13:48Mb-49Mb | chr2:11Mb-12Mb | chr3:182Mb-183Mb | chr6:165Mb-166Mb |
chr1:112Mb-113Mb | chr13:49Mb-50Mb | chr2:12Mb-13Mb | chr3:183Mb-184Mb | chr6:166Mb-167Mb |
chr1:113Mb-114Mb | chr13:50Mb-51Mb | chr2:13Mb-14Mb | chr3:184Mb-185Mb | chr6:167Mb-168Mb |
chr1:114Mb-115Mb | chr13:51Mb-52Mb | chr2:14Mb-15Mb | chr3:185Mb-186Mb | chr6:168Mb-169Mb |
chr1:115Mb-116Mb | chr13:52Mb-53Mb | chr2:15Mb-16Mb | chr3:186Mb-187Mb | chr6:169Mb-170Mb |
chr1:116Mb-117Mb | chr13:53Mb-54Mb | chr2:16Mb-17Mb | chr3:187Mb-188Mb | chr6:170Mb-171Mb |
chr1:117Mb-118Mb | chr13:54Mb-55Mb | chr2:17Mb-18Mb | chr3:188Mb-189Mb | chr7:0-1Mb |
chr1:118Mb-119Mb | chr13:55Mb-56Mb | chr2:18Mb-19Mb | chr3:189Mb-190Mb | chr7:1Mb-2Mb |
chr1:119Mb-120Mb | chr13:56Mb-57Mb | chr2:19Mb-20Mb | chr3:190Mb-191Mb | chr7:2Mb-3Mb |
chr1:120Mb-121Mb | chr13:57Mb-58Mb | chr2:20Mb-21Mb | chr3:191Mb-192Mb | chr7:3Mb-4Mb |
chr1:121Mb-122Mb | chr13:58Mb-59Mb | chr2:21Mb-22Mb | chr3:192Mb-193Mb | chr7:4Mb-5Mb |
chr1:142Mb-143Mb | chr13:59Mb-60Mb | chr2:22Mb-23Mb | chr3:193Mb-194Mb | chr7:5Mb-6Mb |
chr1:143Mb-144Mb | chr13:60Mb-61Mb | chr2:23Mb-24Mb | chr3:194Mb-195Mb | chr7:6Mb-7Mb |
chr1:144Mb-145Mb | chr13:61Mb-62Mb | chr2:24Mb-25Mb | chr3:195Mb-196Mb | chr7:7Mb-8Mb |
chr1:145Mb-146Mb | chr13:62Mb-63Mb | chr2:25Mb-26Mb | chr3:196Mb-197Mb | chr7:8Mb-9Mb |
chr1:146Mb-147Mb | chr13:63Mb-64Mb | chr2:26Mb-27Mb | chr3:197Mb-198Mb | chr7:9Mb-10Mb |
chr1:147Mb-148Mb | chr13:64Mb-65Mb | chr2:27Mb-28Mb | chr4:0-1Mb | chr7:10Mb-11Mb |
chr1:148Mb-149Mb | chr13:65Mb-66Mb | chr2:28Mb-29Mb | chr4:1Mb-2Mb | chr7:11Mb-12Mb |
chr1:149Mb-150Mb | chr13:66Mb-67Mb | chr2:29Mb-30Mb | chr4:2Mb-3Mb | chr7:12Mb-13Mb |
chr1:150Mb-151Mb | chr13:67Mb-68Mb | chr2:30Mb-31Mb | chr4:3Mb-4Mb | chr7:13Mb-14Mb |
chr1:151Mb-152Mb | chr13:68Mb-69Mb | chr2:31Mb-32Mb | chr4:4Mb-5Mb | chr7:14Mb-15Mb |
chr1:152Mb-153Mb | chr13:69Mb-70Mb | chr2:32Mb-33Mb | chr4:5Mb-6Mb | chr7:15Mb-16Mb |
chr1:153Mb-154Mb | chr13:70Mb-71Mb | chr2:33Mb-34Mb | chr4:6Mb-7Mb | chr7:16Mb-17Mb |
chr1:154Mb-155Mb | chr13:71Mb-72Mb | chr2:34Mb-35Mb | chr4:7Mb-8Mb | chr7:17Mb-18Mb |
chr1:155Mb-156Mb | chr13:72Mb-73Mb | chr2:35Mb-36Mb | chr4:8Mb-9Mb | chr7:18Mb-19Mb |
chr1:156Mb-157Mb | chr13:73Mb-74Mb | chr2:36Mb-37Mb | chr4:9Mb-10Mb | chr7:19Mb-20Mb |
chr1:157Mb-158Mb | chr13:74Mb-75Mb | chr2:37Mb-38Mb | chr4:10Mb-11Mb | chr7:20Mb-21Mb |
chr1:158Mb-159Mb | chr13:75Mb-76Mb | chr2:38Mb-39Mb | chr4:11Mb-12Mb | chr7:21Mb-22Mb |
chr1:159Mb-160Mb | chr13:76Mb-77Mb | chr2:39Mb-40Mb | chr4:12Mb-13Mb | chr7:22Mb-23Mb |
chr1:160Mb-161Mb | chr13:77Mb-78Mb | chr2:40Mb-41Mb | chr4:13Mb-14Mb | chr7:23Mb-24Mb |
chr1:161Mb-162Mb | chr13:78Mb-79Mb | chr2:41Mb-42Mb | chr4:14Mb-15Mb | chr7:24Mb-25Mb |
chr1:162Mb-163Mb | chr13:79Mb-8Mb0 | chr2:42Mb-43Mb | chr4:15Mb-16Mb | chr7:25Mb-26Mb |
chr1:163Mb-164Mb | chr13:8Mb0-81Mb | chr2:43Mb-44Mb | chr4:16Mb-17Mb | chr7:26Mb-27Mb |
chr1:164Mb-165Mb | chr13:81Mb-82Mb | chr2:44Mb-45Mb | chr4:17Mb-18Mb | chr7:27Mb-28Mb |
chr1:165Mb-166Mb | chr13:82Mb-83Mb | chr2:45Mb-46Mb | chr4:18Mb-19Mb | chr7:28Mb-29Mb |
chr1:166Mb-167Mb | chr13:83Mb-84Mb | chr2:46Mb-47Mb | chr4:19Mb-20Mb | chr7:29Mb-30Mb |
chr1:167Mb-168Mb | chr13:84Mb-85Mb | chr2:47Mb-48Mb | chr4:20Mb-21Mb | chr7:30Mb-31Mb |
chr1:168Mb-169Mb | chr13:85Mb-86Mb | chr2:48Mb-49Mb | chr4:21Mb-22Mb | chr7:31Mb-32Mb |
chr1:169Mb-170Mb | chr13:86Mb-87Mb | chr2:49Mb-50Mb | chr4:22Mb-23Mb | chr7:32Mb-33Mb |
chr1:170Mb-171Mb | chr13:87Mb-88Mb | chr2:50Mb-51Mb | chr4:23Mb-24Mb | chr7:33Mb-34Mb |
chr1:171Mb-172Mb | chr13:88Mb-89Mb | chr2:51Mb-52Mb | chr4:24Mb-25Mb | chr7:34Mb-35Mb |
chr1:172Mb-173Mb | chr13:89Mb-90Mb | chr2:52Mb-53Mb | chr4:25Mb-26Mb | chr7:35Mb-36Mb |
chr1:173Mb-174Mb | chr13:90Mb-91Mb | chr2:53Mb-54Mb | chr4:26Mb-27Mb | chr7:36Mb-37Mb |
chr1:174Mb-175Mb | chr13:91Mb-92Mb | chr2:54Mb-55Mb | chr4:27Mb-28Mb | chr7:37Mb-38Mb |
chr1:175Mb-176Mb | chr13:92Mb-93Mb | chr2:55Mb-56Mb | chr4:28Mb-29Mb | chr7:38Mb-39Mb |
chr1:176Mb-177Mb | chr13:93Mb-94Mb | chr2:56Mb-57Mb | chr4:29Mb-30Mb | chr7:39Mb-40Mb |
chr1:177Mb-178Mb | chr13:94Mb-95Mb | chr2:57Mb-58Mb | chr4:30Mb-31Mb | chr7:40Mb-41Mb |
chr1:178Mb-179Mb | chr13:95Mb-96Mb | chr2:58Mb-59Mb | chr4:31Mb-32Mb | chr7:41Mb-42Mb |
chr1:179Mb-18Mb0 | chr13:96Mb-97Mb | chr2:59Mb-60Mb | chr4:32Mb-33Mb | chr7:42Mb-43Mb |
chr1:18Mb0-181Mb | chr13:97Mb-98Mb | chr2:60Mb-61Mb | chr4:33Mb-34Mb | chr7:43Mb-44Mb |
chr1:181Mb-182Mb | chr13:98Mb-99Mb | chr2:61Mb-62Mb | chr4:34Mb-35Mb | chr7:44Mb-45Mb |
chr1:182Mb-183Mb | chr13:99Mb-100Mb | chr2:62Mb-63Mb | chr4:35Mb-36Mb | chr7:45Mb-46Mb |
chr1:183Mb-184Mb | chr13:100Mb-101Mb | chr2:63Mb-64Mb | chr4:36Mb-37Mb | chr7:46Mb-47Mb |
chr1:184Mb-185Mb | chr13:101Mb-102Mb | chr2:64Mb-65Mb | chr4:37Mb-38Mb | chr7:47Mb-48Mb |
chr1:185Mb-186Mb | chr13:102Mb-103Mb | chr2:65Mb-66Mb | chr4:38Mb-39Mb | chr7:48Mb-49Mb |
chr1:186Mb-187Mb | chr13:103Mb-104Mb | chr2:66Mb-67Mb | chr4:39Mb-40Mb | chr7:49Mb-50Mb |
chr1:187Mb-188Mb | chr13:104Mb-105Mb | chr2:67Mb-68Mb | chr4:40Mb-41Mb | chr7:50Mb-51Mb |
chr1:188Mb-189Mb | chr13:105Mb-106Mb | chr2:68Mb-69Mb | chr4:41Mb-42Mb | chr7:51Mb-52Mb |
chr1:189Mb-190Mb | chr13:106Mb-107Mb | chr2:69Mb-70Mb | chr4:42Mb-43Mb | chr7:52Mb-53Mb |
chr1:190Mb-191Mb | chr13:107Mb-108Mb | chr2:70Mb-71Mb | chr4:43Mb-44Mb | chr7:53Mb-54Mb |
chr1:191Mb-192Mb | chr13:108Mb-109Mb | chr2:71Mb-72Mb | chr4:44Mb-45Mb | chr7:54Mb-55Mb |
chr1:192Mb-193Mb | chr13:109Mb-110Mb | chr2:72Mb-73Mb | chr4:45Mb-46Mb | chr7:55Mb-56Mb |
chr1:193Mb-194Mb | chr13:110Mb-111Mb | chr2:73Mb-74Mb | chr4:46Mb-47Mb | chr7:56Mb-57Mb |
chr1:194Mb-195Mb | chr13:111Mb-112Mb | chr2:74Mb-75Mb | chr4:47Mb-48Mb | chr7:57Mb-58Mb |
chr1:195Mb-196Mb | chr13:112Mb-113Mb | chr2:75Mb-76Mb | chr4:48Mb-49Mb | chr7:62Mb-63Mb |
chr1:196Mb-197Mb | chr13:113Mb-114Mb | chr2:76Mb-77Mb | chr4:49Mb-50Mb | chr7:63Mb-64Mb |
chr1:197Mb-198Mb | chr13:114Mb-115Mb | chr2:77Mb-78Mb | chr4:52Mb-53Mb | chr7:64Mb-65Mb |
chr1:198Mb-199Mb | chr13:115Mb-115169878 | chr2:78Mb-79Mb | chr4:53Mb-54Mb | chr7:65Mb-66Mb |
chr1:199Mb-20Mb0 | chr14:19Mb-20Mb | chr2:79Mb-8Mb0 | chr4:54Mb-55Mb | chr7:66Mb-67Mb |
chr1:20Mb0-201Mb | chr14:20Mb-21Mb | chr2:8Mb0-81Mb | chr4:55Mb-56Mb | chr7:67Mb-68Mb |
chr1:201Mb-202Mb | chr14:21Mb-22Mb | chr2:81Mb-82Mb | chr4:56Mb-57Mb | chr7:68Mb-69Mb |
chr1:202Mb-203Mb | chr14:22Mb-23Mb | chr2:82Mb-83Mb | chr4:57Mb-58Mb | chr7:69Mb-70Mb |
chr1:203Mb-204Mb | chr14:23Mb-24Mb | chr2:83Mb-84Mb | chr4:58Mb-59Mb | chr7:70Mb-71Mb |
chr1:204Mb-205Mb | chr14:24Mb-25Mb | chr2:84Mb-85Mb | chr4:59Mb-60Mb | chr7:71Mb-72Mb |
chr1:205Mb-206Mb | chr14:25Mb-26Mb | chr2:85Mb-86Mb | chr4:60Mb-61Mb | chr7:72Mb-73Mb |
chr1:206Mb-207Mb | chr14:26Mb-27Mb | chr2:86Mb-87Mb | chr4:61Mb-62Mb | chr7:73Mb-74Mb |
chr1:207Mb-208Mb | chr14:27Mb-28Mb | chr2:87Mb-88Mb | chr4:62Mb-63Mb | chr7:74Mb-75Mb |
chr1:208Mb-209Mb | chr14:28Mb-29Mb | chr2:88Mb-89Mb | chr4:63Mb-64Mb | chr7:75Mb-76Mb |
chr1:209Mb-210Mb | chr14:29Mb-30Mb | chr2:89Mb-90Mb | chr4:64Mb-65Mb | chr7:76Mb-77Mb |
chr1:210Mb-211Mb | chr14:30Mb-31Mb | chr2:90Mb-91Mb | chr4:65Mb-66Mb | chr7:77Mb-78Mb |
chr1:211Mb-212Mb | chr14:31Mb-32Mb | chr2:91Mb-92Mb | chr4:66Mb-67Mb | chr7:78Mb-79Mb |
chr1:212Mb-213Mb | chr14:32Mb-33Mb | chr2:92Mb-93Mb | chr4:67Mb-68Mb | chr7:79Mb-8Mb0 |
chr1:213Mb-214Mb | chr14:33Mb-34Mb | chr2:95Mb-96Mb | chr4:68Mb-69Mb | chr7:8Mb0-81Mb |
chr1:214Mb-215Mb | chr14:34Mb-35Mb | chr2:96Mb-97Mb | chr4:69Mb-70Mb | chr7:81Mb-82Mb |
chr1:215Mb-216Mb | chr14:35Mb-36Mb | chr2:97Mb-98Mb | chr4:70Mb-71Mb | chr7:82Mb-83Mb |
chr1:216Mb-217Mb | chr14:36Mb-37Mb | chr2:98Mb-99Mb | chr4:71Mb-72Mb | chr7:83Mb-84Mb |
chr1:217Mb-218Mb | chr14:37Mb-38Mb | chr2:99Mb-100Mb | chr4:72Mb-73Mb | chr7:84Mb-85Mb |
chr1:218Mb-219Mb | chr14:38Mb-39Mb | chr2:100Mb-101Mb | chr4:73Mb-74Mb | chr7:85Mb-86Mb |
chr1:219Mb-220Mb | chr14:39Mb-40Mb | chr2:101Mb-102Mb | chr4:74Mb-75Mb | chr7:86Mb-87Mb |
chr1:220Mb-221Mb | chr14:40Mb-41Mb | chr2:102Mb-103Mb | chr4:75Mb-76Mb | chr7:87Mb-88Mb |
chr1:221Mb-222Mb | chr14:41Mb-42Mb | chr2:103Mb-104Mb | chr4:76Mb-77Mb | chr7:88Mb-89Mb |
chr1:222Mb-223Mb | chr14:42Mb-43Mb | chr2:104Mb-105Mb | chr4:77Mb-78Mb | chr7:89Mb-90Mb |
chr1:223Mb-224Mb | chr14:43Mb-44Mb | chr2:105Mb-106Mb | chr4:78Mb-79Mb | chr7:90Mb-91Mb |
chr1:224Mb-225Mb | chr14:44Mb-45Mb | chr2:106Mb-107Mb | chr4:79Mb-8Mb0 | chr7:91Mb-92Mb |
chr1:225Mb-226Mb | chr14:45Mb-46Mb | chr2:107Mb-108Mb | chr4:8Mb0-81Mb | chr7:92Mb-93Mb |
chr1:226Mb-227Mb | chr14:46Mb-47Mb | chr2:108Mb-109Mb | chr4:81Mb-82Mb | chr7:93Mb-94Mb |
chr1:227Mb-228Mb | chr14:47Mb-48Mb | chr2:109Mb-110Mb | chr4:82Mb-83Mb | chr7:94Mb-95Mb |
chr1:228Mb-229Mb | chr14:48Mb-49Mb | chr2:110Mb-111Mb | chr4:83Mb-84Mb | chr7:95Mb-96Mb |
chr1:229Mb-230Mb | chr14:49Mb-50Mb | chr2:111Mb-112Mb | chr4:84Mb-85Mb | chr7:96Mb-97Mb |
chr1:230Mb-231Mb | chr14:50Mb-51Mb | chr2:112Mb-113Mb | chr4:85Mb-86Mb | chr7:97Mb-98Mb |
chr1:231Mb-232Mb | chr14:51Mb-52Mb | chr2:113Mb-114Mb | chr4:86Mb-87Mb | chr7:98Mb-99Mb |
chr1:232Mb-233Mb | chr14:52Mb-53Mb | chr2:114Mb-115Mb | chr4:87Mb-88Mb | chr7:99Mb-100Mb |
chr1:233Mb-234Mb | chr14:53Mb-54Mb | chr2:115Mb-116Mb | chr4:88Mb-89Mb | chr7:100Mb-101Mb |
chr1:234Mb-235Mb | chr14:54Mb-55Mb | chr2:116Mb-117Mb | chr4:89Mb-90Mb | chr7:101Mb-102Mb |
chr1:235Mb-236Mb | chr14:55Mb-56Mb | chr2:117Mb-118Mb | chr4:90Mb-91Mb | chr7:102Mb-103Mb |
chr1:236Mb-237Mb | chr14:56Mb-57Mb | chr2:118Mb-119Mb | chr4:91Mb-92Mb | chr7:103Mb-104Mb |
chr1:237Mb-238Mb | chr14:57Mb-58Mb | chr2:119Mb-120Mb | chr4:92Mb-93Mb | chr7:104Mb-105Mb |
chr1:238Mb-239Mb | chr14:58Mb-59Mb | chr2:120Mb-121Mb | chr4:93Mb-94Mb | chr7:105Mb-106Mb |
chr1:239Mb-240Mb | chr14:59Mb-60Mb | chr2:121Mb-122Mb | chr4:94Mb-95Mb | chr7:106Mb-107Mb |
chr1:240Mb-241Mb | chr14:60Mb-61Mb | chr2:122Mb-123Mb | chr4:95Mb-96Mb | chr7:107Mb-108Mb |
chr1:241Mb-242Mb | chr14:61Mb-62Mb | chr2:123Mb-124Mb | chr4:96Mb-97Mb | chr7:108Mb-109Mb |
chr1:242Mb-243Mb | chr14:62Mb-63Mb | chr2:124Mb-125Mb | chr4:97Mb-98Mb | chr7:109Mb-110Mb |
chr1:243Mb-244Mb | chr14:63Mb-64Mb | chr2:125Mb-126Mb | chr4:98Mb-99Mb | chr7:110Mb-111Mb |
chr1:244Mb-245Mb | chr14:64Mb-65Mb | chr2:126Mb-127Mb | chr4:99Mb-100Mb | chr7:111Mb-112Mb |
chr1:245Mb-246Mb | chr14:65Mb-66Mb | chr2:127Mb-128Mb | chr4:100Mb-101Mb | chr7:112Mb-113Mb |
chr1:246Mb-247Mb | chr14:66Mb-67Mb | chr2:128Mb-129Mb | chr4:101Mb-102Mb | chr7:113Mb-114Mb |
chr1:247Mb-248Mb | chr14:67Mb-68Mb | chr2:129Mb-130Mb | chr4:102Mb-103Mb | chr7:114Mb-115Mb |
chr1:248Mb-249Mb | chr14:68Mb-69Mb | chr2:130Mb-131Mb | chr4:103Mb-104Mb | chr7:115Mb-116Mb |
chr1:249Mb-249250621 | chr14:69Mb-70Mb | chr2:131Mb-132Mb | chr4:104Mb-105Mb | chr7:116Mb-117Mb |
chr10:0-1Mb | chr14:70Mb-71Mb | chr2:132Mb-133Mb | chr4:105Mb-106Mb | chr7:117Mb-118Mb |
chr10:1Mb-2Mb | chr14:71Mb-72Mb | chr2:133Mb-134Mb | chr4:106Mb-107Mb | chr7:118Mb-119Mb |
chr10:2Mb-3Mb | chr14:72Mb-73Mb | chr2:134Mb-135Mb | chr4:107Mb-108Mb | chr7:119Mb-120Mb |
chr10:3Mb-4Mb | chr14:73Mb-74Mb | chr2:135Mb-136Mb | chr4:108Mb-109Mb | chr7:120Mb-121Mb |
chr10:4Mb-5Mb | chr14:74Mb-75Mb | chr2:136Mb-137Mb | chr4:109Mb-110Mb | chr7:121Mb-122Mb |
chr10:5Mb-6Mb | chr14:75Mb-76Mb | chr2:137Mb-138Mb | chr4:110Mb-111Mb | chr7:122Mb-123Mb |
chr10:6Mb-7Mb | chr14:76Mb-77Mb | chr2:138Mb-139Mb | chr4:111Mb-112Mb | chr7:123Mb-124Mb |
chr10:7Mb-8Mb | chr14:77Mb-78Mb | chr2:139Mb-140Mb | chr4:112Mb-113Mb | chr7:124Mb-125Mb |
chr10:8Mb-9Mb | chr14:78Mb-79Mb | chr2:140Mb-141Mb | chr4:113Mb-114Mb | chr7:125Mb-126Mb |
chr10:9Mb-10Mb | chr14:79Mb-8Mb0 | chr2:141Mb-142Mb | chr4:114Mb-115Mb | chr7:126Mb-127Mb |
chr10:10Mb-11Mb | chr14:8Mb0-81Mb | chr2:142Mb-143Mb | chr4:115Mb-116Mb | chr7:127Mb-128Mb |
chr10:11Mb-12Mb | chr14:81Mb-82Mb | chr2:143Mb-144Mb | chr4:116Mb-117Mb | chr7:128Mb-129Mb |
chr10:12Mb-13Mb | chr14:82Mb-83Mb | chr2:144Mb-145Mb | chr4:117Mb-118Mb | chr7:129Mb-130Mb |
chr10:13Mb-14Mb | chr14:83Mb-84Mb | chr2:145Mb-146Mb | chr4:118Mb-119Mb | chr7:130Mb-131Mb |
chr10:14Mb-15Mb | chr14:84Mb-85Mb | chr2:146Mb-147Mb | chr4:119Mb-120Mb | chr7:131Mb-132Mb |
chr10:15Mb-16Mb | chr14:85Mb-86Mb | chr2:147Mb-148Mb | chr4:120Mb-121Mb | chr7:132Mb-133Mb |
chr10:16Mb-17Mb | chr14:86Mb-87Mb | chr2:148Mb-149Mb | chr4:121Mb-122Mb | chr7:133Mb-134Mb |
chr10:17Mb-18Mb | chr14:87Mb-88Mb | chr2:149Mb-150Mb | chr4:122Mb-123Mb | chr7:134Mb-135Mb |
chr10:18Mb-19Mb | chr14:88Mb-89Mb | chr2:150Mb-151Mb | chr4:123Mb-124Mb | chr7:135Mb-136Mb |
chr10:19Mb-20Mb | chr14:89Mb-90Mb | chr2:151Mb-152Mb | chr4:124Mb-125Mb | chr7:136Mb-137Mb |
chr10:20Mb-21Mb | chr14:90Mb-91Mb | chr2:152Mb-153Mb | chr4:125Mb-126Mb | chr7:137Mb-138Mb |
chr10:21Mb-22Mb | chr14:91Mb-92Mb | chr2:153Mb-154Mb | chr4:126Mb-127Mb | chr7:138Mb-139Mb |
chr10:22Mb-23Mb | chr14:92Mb-93Mb | chr2:154Mb-155Mb | chr4:127Mb-128Mb | chr7:139Mb-140Mb |
chr10:23Mb-24Mb | chr14:93Mb-94Mb | chr2:155Mb-156Mb | chr4:128Mb-129Mb | chr7:140Mb-141Mb |
chr10:24Mb-25Mb | chr14:94Mb-95Mb | chr2:156Mb-157Mb | chr4:129Mb-130Mb | chr7:141Mb-142Mb |
chr10:25Mb-26Mb | chr14:95Mb-96Mb | chr2:157Mb-158Mb | chr4:130Mb-131Mb | chr7:142Mb-143Mb |
chr10:26Mb-27Mb | chr14:96Mb-97Mb | chr2:158Mb-159Mb | chr4:131Mb-132Mb | chr7:143Mb-144Mb |
chr10:27Mb-28Mb | chr14:97Mb-98Mb | chr2:159Mb-160Mb | chr4:132Mb-133Mb | chr7:144Mb-145Mb |
chr10:28Mb-29Mb | chr14:98Mb-99Mb | chr2:160Mb-161Mb | chr4:133Mb-134Mb | chr7:145Mb-146Mb |
chr10:29Mb-30Mb | chr14:99Mb-100Mb | chr2:161Mb-162Mb | chr4:134Mb-135Mb | chr7:146Mb-147Mb |
chr10:30Mb-31Mb | chr14:100Mb-101Mb | chr2:162Mb-163Mb | chr4:135Mb-136Mb | chr7:147Mb-148Mb |
chr10:31Mb-32Mb | chr14:101Mb-102Mb | chr2:163Mb-164Mb | chr4:136Mb-137Mb | chr7:148Mb-149Mb |
chr10:32Mb-33Mb | chr14:102Mb-103Mb | chr2:164Mb-165Mb | chr4:137Mb-138Mb | chr7:149Mb-150Mb |
chr10:33Mb-34Mb | chr14:103Mb-104Mb | chr2:165Mb-166Mb | chr4:138Mb-139Mb | chr7:150Mb-151Mb |
chr10:34Mb-35Mb | chr14:104Mb-105Mb | chr2:166Mb-167Mb | chr4:139Mb-140Mb | chr7:151Mb-152Mb |
chr10:35Mb-36Mb | chr14:105Mb-106Mb | chr2:167Mb-168Mb | chr4:140Mb-141Mb | chr7:152Mb-153Mb |
chr10:36Mb-37Mb | chr14:106Mb-107Mb | chr2:168Mb-169Mb | chr4:141Mb-142Mb | chr7:153Mb-154Mb |
chr10:37Mb-38Mb | chr14:107Mb-107349540 | chr2:169Mb-170Mb | chr4:142Mb-143Mb | chr7:154Mb-155Mb |
chr10:38Mb-39Mb | chr15:20Mb-21Mb | chr2:170Mb-171Mb | chr4:143Mb-144Mb | chr7:155Mb-156Mb |
chr10:39Mb-40Mb | chr15:21Mb-22Mb | chr2:171Mb-172Mb | chr4:144Mb-145Mb | chr7:156Mb-157Mb |
chr10:42Mb-43Mb | chr15:22Mb-23Mb | chr2:172Mb-173Mb | chr4:145Mb-146Mb | chr7:157Mb-158Mb |
chr10:43Mb-44Mb | chr15:23Mb-24Mb | chr2:173Mb-174Mb | chr4:146Mb-147Mb | chr7:158Mb-159Mb |
chr10:44Mb-45Mb | chr15:24Mb-25Mb | chr2:174Mb-175Mb | chr4:147Mb-148Mb | chr7:159Mb-159138663 |
chr10:45Mb-46Mb | chr15:25Mb-26Mb | chr2:175Mb-176Mb | chr4:148Mb-149Mb | chr8:0-1Mb |
chr10:46Mb-47Mb | chr15:26Mb-27Mb | chr2:176Mb-177Mb | chr4:149Mb-150Mb | chr8:1Mb-2Mb |
chr10:47Mb-48Mb | chr15:27Mb-28Mb | chr2:177Mb-178Mb | chr4:150Mb-151Mb | chr8:2Mb-3Mb |
chr10:48Mb-49Mb | chr15:28Mb-29Mb | chr2:178Mb-179Mb | chr4:151Mb-152Mb | chr8:3Mb-4Mb |
chr10:49Mb-50Mb | chr15:29Mb-30Mb | chr2:179Mb-18Mb0 | chr4:152Mb-153Mb | chr8:4Mb-5Mb |
chr10:50Mb-51Mb | chr15:30Mb-31Mb | chr2:18Mb0-181Mb | chr4:153Mb-154Mb | chr8:5Mb-6Mb |
chr10:51Mb-52Mb | chr15:31Mb-32Mb | chr2:181Mb-182Mb | chr4:154Mb-155Mb | chr8:6Mb-7Mb |
chr10:52Mb-53Mb | chr15:32Mb-33Mb | chr2:182Mb-183Mb | chr4:155Mb-156Mb | chr8:7Mb-8Mb |
chr10:53Mb-54Mb | chr15:33Mb-34Mb | chr2:183Mb-184Mb | chr4:156Mb-157Mb | chr8:8Mb-9Mb |
chr10:54Mb-55Mb | chr15:34Mb-35Mb | chr2:184Mb-185Mb | chr4:157Mb-158Mb | chr8:9Mb-10Mb |
chr10:55Mb-56Mb | chr15:35Mb-36Mb | chr2:185Mb-186Mb | chr4:158Mb-159Mb | chr8:10Mb-11Mb |
chr10:56Mb-57Mb | chr15:36Mb-37Mb | chr2:186Mb-187Mb | chr4:159Mb-160Mb | chr8:11Mb-12Mb |
chr10:57Mb-58Mb | chr15:37Mb-38Mb | chr2:187Mb-188Mb | chr4:160Mb-161Mb | chr8:12Mb-13Mb |
chr10:58Mb-59Mb | chr15:38Mb-39Mb | chr2:188Mb-189Mb | chr4:161Mb-162Mb | chr8:13Mb-14Mb |
chr10:59Mb-60Mb | chr15:39Mb-40Mb | chr2:189Mb-190Mb | chr4:162Mb-163Mb | chr8:14Mb-15Mb |
chr10:60Mb-61Mb | chr15:40Mb-41Mb | chr2:190Mb-191Mb | chr4:163Mb-164Mb | chr8:15Mb-16Mb |
chr10:61Mb-62Mb | chr15:41Mb-42Mb | chr2:191Mb-192Mb | chr4:164Mb-165Mb | chr8:16Mb-17Mb |
chr10:62Mb-63Mb | chr15:42Mb-43Mb | chr2:192Mb-193Mb | chr4:165Mb-166Mb | chr8:17Mb-18Mb |
chr10:63Mb-64Mb | chr15:43Mb-44Mb | chr2:193Mb-194Mb | chr4:166Mb-167Mb | chr8:18Mb-19Mb |
chr10:64Mb-65Mb | chr15:44Mb-45Mb | chr2:194Mb-195Mb | chr4:167Mb-168Mb | chr8:19Mb-20Mb |
chr10:65Mb-66Mb | chr15:45Mb-46Mb | chr2:195Mb-196Mb | chr4:168Mb-169Mb | chr8:20Mb-21Mb |
chr10:66Mb-67Mb | chr15:46Mb-47Mb | chr2:196Mb-197Mb | chr4:169Mb-170Mb | chr8:21Mb-22Mb |
chr10:67Mb-68Mb | chr15:47Mb-48Mb | chr2:197Mb-198Mb | chr4:170Mb-171Mb | chr8:22Mb-23Mb |
chr10:68Mb-69Mb | chr15:48Mb-49Mb | chr2:198Mb-199Mb | chr4:171Mb-172Mb | chr8:23Mb-24Mb |
chr10:69Mb-70Mb | chr15:49Mb-50Mb | chr2:199Mb-20Mb0 | chr4:172Mb-173Mb | chr8:24Mb-25Mb |
chr10:70Mb-71Mb | chr15:50Mb-51Mb | chr2:20Mb0-201Mb | chr4:173Mb-174Mb | chr8:25Mb-26Mb |
chr10:71Mb-72Mb | chr15:51Mb-52Mb | chr2:201Mb-202Mb | chr4:174Mb-175Mb | chr8:26Mb-27Mb |
chr10:72Mb-73Mb | chr15:52Mb-53Mb | chr2:202Mb-203Mb | chr4:175Mb-176Mb | chr8:27Mb-28Mb |
chr10:73Mb-74Mb | chr15:53Mb-54Mb | chr2:203Mb-204Mb | chr4:176Mb-177Mb | chr8:28Mb-29Mb |
chr10:74Mb-75Mb | chr15:54Mb-55Mb | chr2:204Mb-205Mb | chr4:177Mb-178Mb | chr8:29Mb-30Mb |
chr10:75Mb-76Mb | chr15:55Mb-56Mb | chr2:205Mb-206Mb | chr4:178Mb-179Mb | chr8:30Mb-31Mb |
chr10:76Mb-77Mb | chr15:56Mb-57Mb | chr2:206Mb-207Mb | chr4:179Mb-18Mb0 | chr8:31Mb-32Mb |
chr10:77Mb-78Mb | chr15:57Mb-58Mb | chr2:207Mb-208Mb | chr4:18Mb0-181Mb | chr8:32Mb-33Mb |
chr10:78Mb-79Mb | chr15:58Mb-59Mb | chr2:208Mb-209Mb | chr4:181Mb-182Mb | chr8:33Mb-34Mb |
chr10:79Mb-8Mb0 | chr15:59Mb-60Mb | chr2:209Mb-210Mb | chr4:182Mb-183Mb | chr8:34Mb-35Mb |
chr10:8Mb0-81Mb | chr15:60Mb-61Mb | chr2:210Mb-211Mb | chr4:183Mb-184Mb | chr8:35Mb-36Mb |
chr10:81Mb-82Mb | chr15:61Mb-62Mb | chr2:211Mb-212Mb | chr4:184Mb-185Mb | chr8:36Mb-37Mb |
chr10:82Mb-83Mb | chr15:62Mb-63Mb | chr2:212Mb-213Mb | chr4:185Mb-186Mb | chr8:37Mb-38Mb |
chr10:83Mb-84Mb | chr15:63Mb-64Mb | chr2:213Mb-214Mb | chr4:186Mb-187Mb | chr8:38Mb-39Mb |
chr10:84Mb-85Mb | chr15:64Mb-65Mb | chr2:214Mb-215Mb | chr4:187Mb-188Mb | chr8:39Mb-40Mb |
chr10:85Mb-86Mb | chr15:65Mb-66Mb | chr2:215Mb-216Mb | chr4:188Mb-189Mb | chr8:40Mb-41Mb |
chr10:86Mb-87Mb | chr15:66Mb-67Mb | chr2:216Mb-217Mb | chr4:189Mb-190Mb | chr8:41Mb-42Mb |
chr10:87Mb-88Mb | chr15:67Mb-68Mb | chr2:217Mb-218Mb | chr4:190Mb-191Mb | chr8:42Mb-43Mb |
chr10:88Mb-89Mb | chr15:68Mb-69Mb | chr2:218Mb-219Mb | chr4:191Mb-191154276 | chr8:43Mb-44Mb |
chr10:89Mb-90Mb | chr15:69Mb-70Mb | chr2:219Mb-220Mb | chr5:0-1Mb | chr8:47Mb-48Mb |
chr10:90Mb-91Mb | chr15:70Mb-71Mb | chr2:220Mb-221Mb | chr5:1Mb-2Mb | chr8:48Mb-49Mb |
chr10:91Mb-92Mb | chr15:71Mb-72Mb | chr2:221Mb-222Mb | chr5:2Mb-3Mb | chr8:49Mb-50Mb |
chr10:92Mb-93Mb | chr15:72Mb-73Mb | chr2:222Mb-223Mb | chr5:3Mb-4Mb | chr8:50Mb-51Mb |
chr10:93Mb-94Mb | chr15:73Mb-74Mb | chr2:223Mb-224Mb | chr5:4Mb-5Mb | chr8:51Mb-52Mb |
chr10:94Mb-95Mb | chr15:74Mb-75Mb | chr2:224Mb-225Mb | chr5:5Mb-6Mb | chr8:52Mb-53Mb |
chr10:95Mb-96Mb | chr15:75Mb-76Mb | chr2:225Mb-226Mb | chr5:6Mb-7Mb | chr8:53Mb-54Mb |
chr10:96Mb-97Mb | chr15:76Mb-77Mb | chr2:226Mb-227Mb | chr5:7Mb-8Mb | chr8:54Mb-55Mb |
chr10:97Mb-98Mb | chr15:77Mb-78Mb | chr2:227Mb-228Mb | chr5:8Mb-9Mb | chr8:55Mb-56Mb |
chr10:98Mb-99Mb | chr15:78Mb-79Mb | chr2:228Mb-229Mb | chr5:9Mb-10Mb | chr8:56Mb-57Mb |
chr10:99Mb-100Mb | chr15:79Mb-8Mb0 | chr2:229Mb-230Mb | chr5:10Mb-11Mb | chr8:57Mb-58Mb |
chr10:100Mb-101Mb | chr15:8Mb0-81Mb | chr2:230Mb-231Mb | chr5:11Mb-12Mb | chr8:58Mb-59Mb |
chr10:101Mb-102Mb | chr15:81Mb-82Mb | chr2:231Mb-232Mb | chr5:12Mb-13Mb | chr8:59Mb-60Mb |
chr10:102Mb-103Mb | chr15:82Mb-83Mb | chr2:232Mb-233Mb | chr5:13Mb-14Mb | chr8:60Mb-61Mb |
chr10:103Mb-104Mb | chr15:83Mb-84Mb | chr2:233Mb-234Mb | chr5:14Mb-15Mb | chr8:61Mb-62Mb |
chr10:104Mb-105Mb | chr15:84Mb-85Mb | chr2:234Mb-235Mb | chr5:15Mb-16Mb | chr8:62Mb-63Mb |
chr10:105Mb-106Mb | chr15:85Mb-86Mb | chr2:235Mb-236Mb | chr5:16Mb-17Mb | chr8:63Mb-64Mb |
chr10:106Mb-107Mb | chr15:86Mb-87Mb | chr2:236Mb-237Mb | chr5:17Mb-18Mb | chr8:64Mb-65Mb |
chr10:107Mb-108Mb | chr15:87Mb-88Mb | chr2:237Mb-238Mb | chr5:18Mb-19Mb | chr8:65Mb-66Mb |
chr10:108Mb-109Mb | chr15:88Mb-89Mb | chr2:238Mb-239Mb | chr5:19Mb-20Mb | chr8:66Mb-67Mb |
chr10:109Mb-110Mb | chr15:89Mb-90Mb | chr2:239Mb-240Mb | chr5:20Mb-21Mb | chr8:67Mb-68Mb |
chr10:110Mb-111Mb | chr15:90Mb-91Mb | chr2:240Mb-241Mb | chr5:21Mb-22Mb | chr8:68Mb-69Mb |
chr10:111Mb-112Mb | chr15:91Mb-92Mb | chr2:241Mb-242Mb | chr5:22Mb-23Mb | chr8:69Mb-70Mb |
chr10:112Mb-113Mb | chr15:92Mb-93Mb | chr2:242Mb-243Mb | chr5:23Mb-24Mb | chr8:70Mb-71Mb |
chr10:113Mb-114Mb | chr15:93Mb-94Mb | chr2:243Mb-243199373 | chr5:24Mb-25Mb | chr8:71Mb-72Mb |
chr10:114Mb-115Mb | chr15:94Mb-95Mb | chr20:0-1Mb | chr5:25Mb-26Mb | chr8:72Mb-73Mb |
chr10:115Mb-116Mb | chr15:95Mb-96Mb | chr20:1Mb-2Mb | chr5:26Mb-27Mb | chr8:73Mb-74Mb |
chr10:116Mb-117Mb | chr15:96Mb-97Mb | chr20:2Mb-3Mb | chr5:27Mb-28Mb | chr8:74Mb-75Mb |
chr10:117Mb-118Mb | chr15:97Mb-98Mb | chr20:3Mb-4Mb | chr5:28Mb-29Mb | chr8:75Mb-76Mb |
chr10:118Mb-119Mb | chr15:98Mb-99Mb | chr20:4Mb-5Mb | chr5:29Mb-30Mb | chr8:76Mb-77Mb |
chr10:119Mb-120Mb | chr15:99Mb-100Mb | chr20:5Mb-6Mb | chr5:30Mb-31Mb | chr8:77Mb-78Mb |
chr10:120Mb-121Mb | chr15:100Mb-101Mb | chr20:6Mb-7Mb | chr5:31Mb-32Mb | chr8:78Mb-79Mb |
chr10:121Mb-122Mb | chr15:101Mb-102Mb | chr20:7Mb-8Mb | chr5:32Mb-33Mb | chr8:79Mb-8Mb0 |
chr10:122Mb-123Mb | chr15:102Mb-102531392 | chr20:8Mb-9Mb | chr5:33Mb-34Mb | chr8:8Mb0-81Mb |
chr10:123Mb-124Mb | chr16:0-1Mb | chr20:9Mb-10Mb | chr5:34Mb-35Mb | chr8:81Mb-82Mb |
chr10:124Mb-125Mb | chr16:1Mb-2Mb | chr20:10Mb-11Mb | chr5:35Mb-36Mb | chr8:82Mb-83Mb |
chr10:125Mb-126Mb | chr16:2Mb-3Mb | chr20:11Mb-12Mb | chr5:36Mb-37Mb | chr8:83Mb-84Mb |
chr10:126Mb-127Mb | chr16:3Mb-4Mb | chr20:12Mb-13Mb | chr5:37Mb-38Mb | chr8:84Mb-85Mb |
chr10:127Mb-128Mb | chr16:4Mb-5Mb | chr20:13Mb-14Mb | chr5:38Mb-39Mb | chr8:85Mb-86Mb |
chr10:128Mb-129Mb | chr16:5Mb-6Mb | chr20:14Mb-15Mb | chr5:39Mb-40Mb | chr8:86Mb-87Mb |
chr10:129Mb-130Mb | chr16:6Mb-7Mb | chr20:15Mb-16Mb | chr5:40Mb-41Mb | chr8:87Mb-88Mb |
chr10:130Mb-131Mb | chr16:7Mb-8Mb | chr20:16Mb-17Mb | chr5:41Mb-42Mb | chr8:88Mb-89Mb |
chr10:131Mb-132Mb | chr16:8Mb-9Mb | chr20:17Mb-18Mb | chr5:42Mb-43Mb | chr8:89Mb-90Mb |
chr10:132Mb-133Mb | chr16:9Mb-10Mb | chr20:18Mb-19Mb | chr5:43Mb-44Mb | chr8:90Mb-91Mb |
chr10:133Mb-134Mb | chr16:10Mb-11Mb | chr20:19Mb-20Mb | chr5:44Mb-45Mb | chr8:91Mb-92Mb |
chr10:134Mb-135Mb | chr16:11Mb-12Mb | chr20:20Mb-21Mb | chr5:45Mb-46Mb | chr8:92Mb-93Mb |
chr10:135Mb-135534747 | chr16:12Mb-13Mb | chr20:21Mb-22Mb | chr5:49Mb-50Mb | chr8:93Mb-94Mb |
chr11:0-1Mb | chr16:13Mb-14Mb | chr20:22Mb-23Mb | chr5:50Mb-51Mb | chr8:94Mb-95Mb |
chr11:1Mb-2Mb | chr16:14Mb-15Mb | chr20:23Mb-24Mb | chr5:51Mb-52Mb | chr8:95Mb-96Mb |
chr11:2Mb-3Mb | chr16:15Mb-16Mb | chr20:24Mb-25Mb | chr5:52Mb-53Mb | chr8:96Mb-97Mb |
chr11:3Mb-4Mb | chr16:16Mb-17Mb | chr20:25Mb-26Mb | chr5:53Mb-54Mb | chr8:97Mb-98Mb |
chr11:4Mb-5Mb | chr16:17Mb-18Mb | chr20:26Mb-27Mb | chr5:54Mb-55Mb | chr8:98Mb-99Mb |
chr11:5Mb-6Mb | chr16:18Mb-19Mb | chr20:29Mb-30Mb | chr5:55Mb-56Mb | chr8:99Mb-100Mb |
chr11:6Mb-7Mb | chr16:19Mb-20Mb | chr20:30Mb-31Mb | chr5:56Mb-57Mb | chr8:100Mb-101Mb |
chr11:7Mb-8Mb | chr16:20Mb-21Mb | chr20:31Mb-32Mb | chr5:57Mb-58Mb | chr8:101Mb-102Mb |
chr11:8Mb-9Mb | chr16:21Mb-22Mb | chr20:32Mb-33Mb | chr5:58Mb-59Mb | chr8:102Mb-103Mb |
chr11:9Mb-10Mb | chr16:22Mb-23Mb | chr20:33Mb-34Mb | chr5:59Mb-60Mb | chr8:103Mb-104Mb |
chr11:10Mb-11Mb | chr16:23Mb-24Mb | chr20:34Mb-35Mb | chr5:60Mb-61Mb | chr8:104Mb-105Mb |
chr11:11Mb-12Mb | chr16:24Mb-25Mb | chr20:35Mb-36Mb | chr5:61Mb-62Mb | chr8:105Mb-106Mb |
chr11:12Mb-13Mb | chr16:25Mb-26Mb | chr20:36Mb-37Mb | chr5:62Mb-63Mb | chr8:106Mb-107Mb |
chr11:13Mb-14Mb | chr16:26Mb-27Mb | chr20:37Mb-38Mb | chr5:63Mb-64Mb | chr8:107Mb-108Mb |
chr11:14Mb-15Mb | chr16:27Mb-28Mb | chr20:38Mb-39Mb | chr5:64Mb-65Mb | chr8:108Mb-109Mb |
chr11:15Mb-16Mb | chr16:28Mb-29Mb | chr20:39Mb-40Mb | chr5:65Mb-66Mb | chr8:109Mb-110Mb |
chr11:16Mb-17Mb | chr16:29Mb-30Mb | chr20:40Mb-41Mb | chr5:66Mb-67Mb | chr8:110Mb-111Mb |
chr11:17Mb-18Mb | chr16:30Mb-31Mb | chr20:41Mb-42Mb | chr5:67Mb-68Mb | chr8:111Mb-112Mb |
chr11:18Mb-19Mb | chr16:31Mb-32Mb | chr20:42Mb-43Mb | chr5:68Mb-69Mb | chr8:112Mb-113Mb |
chr11:19Mb-20Mb | chr16:32Mb-33Mb | chr20:43Mb-44Mb | chr5:69Mb-70Mb | chr8:113Mb-114Mb |
chr11:20Mb-21Mb | chr16:33Mb-34Mb | chr20:44Mb-45Mb | chr5:70Mb-71Mb | chr8:114Mb-115Mb |
chr11:21Mb-22Mb | chr16:34Mb-35Mb | chr20:45Mb-46Mb | chr5:71Mb-72Mb | chr8:115Mb-116Mb |
chr11:22Mb-23Mb | chr16:35Mb-36Mb | chr20:46Mb-47Mb | chr5:72Mb-73Mb | chr8:116Mb-117Mb |
chr11:23Mb-24Mb | chr16:46Mb-47Mb | chr20:47Mb-48Mb | chr5:73Mb-74Mb | chr8:117Mb-118Mb |
chr11:24Mb-25Mb | chr16:47Mb-48Mb | chr20:48Mb-49Mb | chr5:74Mb-75Mb | chr8:118Mb-119Mb |
chr11:25Mb-26Mb | chr16:48Mb-49Mb | chr20:49Mb-50Mb | chr5:75Mb-76Mb | chr8:119Mb-120Mb |
chr11:26Mb-27Mb | chr16:49Mb-50Mb | chr20:50Mb-51Mb | chr5:76Mb-77Mb | chr8:120Mb-121Mb |
chr11:27Mb-28Mb | chr16:50Mb-51Mb | chr20:51Mb-52Mb | chr5:77Mb-78Mb | chr8:121Mb-122Mb |
chr11:28Mb-29Mb | chr16:51Mb-52Mb | chr20:52Mb-53Mb | chr5:78Mb-79Mb | chr8:122Mb-123Mb |
chr11:29Mb-30Mb | chr16:52Mb-53Mb | chr20:53Mb-54Mb | chr5:79Mb-8Mb0 | chr8:123Mb-124Mb |
chr11:30Mb-31Mb | chr16:53Mb-54Mb | chr20:54Mb-55Mb | chr5:8Mb0-81Mb | chr8:124Mb-125Mb |
chr11:31Mb-32Mb | chr16:54Mb-55Mb | chr20:55Mb-56Mb | chr5:81Mb-82Mb | chr8:125Mb-126Mb |
chr11:32Mb-33Mb | chr16:55Mb-56Mb | chr20:56Mb-57Mb | chr5:82Mb-83Mb | chr8:126Mb-127Mb |
chr11:33Mb-34Mb | chr16:56Mb-57Mb | chr20:57Mb-58Mb | chr5:83Mb-84Mb | chr8:127Mb-128Mb |
chr11:34Mb-35Mb | chr16:57Mb-58Mb | chr20:58Mb-59Mb | chr5:84Mb-85Mb | chr8:128Mb-129Mb |
chr11:35Mb-36Mb | chr16:58Mb-59Mb | chr20:59Mb-60Mb | chr5:85Mb-86Mb | chr8:129Mb-130Mb |
chr11:36Mb-37Mb | chr16:59Mb-60Mb | chr20:60Mb-61Mb | chr5:86Mb-87Mb | chr8:130Mb-131Mb |
chr11:37Mb-38Mb | chr16:60Mb-61Mb | chr20:61Mb-62Mb | chr5:87Mb-88Mb | chr8:131Mb-132Mb |
chr11:38Mb-39Mb | chr16:61Mb-62Mb | chr20:62Mb-63Mb | chr5:88Mb-89Mb | chr8:132Mb-133Mb |
chr11:39Mb-40Mb | chr16:62Mb-63Mb | chr21:9Mb-10Mb | chr5:89Mb-90Mb | chr8:133Mb-134Mb |
chr11:40Mb-41Mb | chr16:63Mb-64Mb | chr21:10Mb-11Mb | chr5:90Mb-91Mb | chr8:134Mb-135Mb |
chr11:41Mb-42Mb | chr16:64Mb-65Mb | chr21:11Mb-12Mb | chr5:91Mb-92Mb | chr8:135Mb-136Mb |
chr11:42Mb-43Mb | chr16:65Mb-66Mb | chr21:14Mb-15Mb | chr5:92Mb-93Mb | chr8:136Mb-137Mb |
chr11:43Mb-44Mb | chr16:66Mb-67Mb | chr21:15Mb-16Mb | chr5:93Mb-94Mb | chr8:137Mb-138Mb |
chr11:44Mb-45Mb | chr16:67Mb-68Mb | chr21:16Mb-17Mb | chr5:94Mb-95Mb | chr8:138Mb-139Mb |
chr11:45Mb-46Mb | chr16:68Mb-69Mb | chr21:17Mb-18Mb | chr5:95Mb-96Mb | chr8:139Mb-140Mb |
chr11:46Mb-47Mb | chr16:69Mb-70Mb | chr21:18Mb-19Mb | chr5:96Mb-97Mb | chr8:140Mb-141Mb |
chr11:47Mb-48Mb | chr16:70Mb-71Mb | chr21:19Mb-20Mb | chr5:97Mb-98Mb | chr8:141Mb-142Mb |
chr11:48Mb-49Mb | chr16:71Mb-72Mb | chr21:20Mb-21Mb | chr5:98Mb-99Mb | chr8:142Mb-143Mb |
chr11:49Mb-50Mb | chr16:72Mb-73Mb | chr21:21Mb-22Mb | chr5:99Mb-100Mb | chr8:143Mb-144Mb |
chr11:50Mb-51Mb | chr16:73Mb-74Mb | chr21:22Mb-23Mb | chr5:100Mb-101Mb | chr8:144Mb-145Mb |
chr11:51Mb-52Mb | chr16:74Mb-75Mb | chr21:23Mb-24Mb | chr5:101Mb-102Mb | chr8:145Mb-146Mb |
chr11:55Mb-56Mb | chr16:75Mb-76Mb | chr21:24Mb-25Mb | chr5:102Mb-103Mb | chr8:146Mb-146364022 |
chr11:56Mb-57Mb | chr16:76Mb-77Mb | chr21:25Mb-26Mb | chr5:103Mb-104Mb | chr9:0-1Mb |
chr11:57Mb-58Mb | chr16:77Mb-78Mb | chr21:26Mb-27Mb | chr5:104Mb-105Mb | chr9:1Mb-2Mb |
chr11:58Mb-59Mb | chr16:78Mb-79Mb | chr21:27Mb-28Mb | chr5:105Mb-106Mb | chr9:2Mb-3Mb |
chr11:59Mb-60Mb | chr16:79Mb-8Mb0 | chr21:28Mb-29Mb | chr5:106Mb-107Mb | chr9:3Mb-4Mb |
chr11:60Mb-61Mb | chr16:8Mb0-81Mb | chr21:29Mb-30Mb | chr5:107Mb-108Mb | chr9:4Mb-5Mb |
chr11:61Mb-62Mb | chr16:81Mb-82Mb | chr21:30Mb-31Mb | chr5:108Mb-109Mb | chr9:5Mb-6Mb |
chr11:62Mb-63Mb | chr16:82Mb-83Mb | chr21:31Mb-32Mb | chr5:109Mb-110Mb | chr9:6Mb-7Mb |
chr11:63Mb-64Mb | chr16:83Mb-84Mb | chr21:32Mb-33Mb | chr5:110Mb-111Mb | chr9:7Mb-8Mb |
chr11:64Mb-65Mb | chr16:84Mb-85Mb | chr21:33Mb-34Mb | chr5:111Mb-112Mb | chr9:8Mb-9Mb |
chr11:65Mb-66Mb | chr16:85Mb-86Mb | chr21:34Mb-35Mb | chr5:112Mb-113Mb | chr9:9Mb-10Mb |
chr11:66Mb-67Mb | chr16:86Mb-87Mb | chr21:35Mb-36Mb | chr5:113Mb-114Mb | chr9:10Mb-11Mb |
chr11:67Mb-68Mb | chr16:87Mb-88Mb | chr21:36Mb-37Mb | chr5:114Mb-115Mb | chr9:11Mb-12Mb |
chr11:68Mb-69Mb | chr16:88Mb-89Mb | chr21:37Mb-38Mb | chr5:115Mb-116Mb | chr9:12Mb-13Mb |
chr11:69Mb-70Mb | chr16:89Mb-90Mb | chr21:38Mb-39Mb | chr5:116Mb-117Mb | chr9:13Mb-14Mb |
chr11:70Mb-71Mb | chr16:90Mb-90354753 | chr21:39Mb-40Mb | chr5:117Mb-118Mb | chr9:14Mb-15Mb |
chr11:71Mb-72Mb | chr17:0-1Mb | chr21:40Mb-41Mb | chr5:118Mb-119Mb | chr9:15Mb-16Mb |
chr11:72Mb-73Mb | chr17:1Mb-2Mb | chr21:41Mb-42Mb | chr5:119Mb-120Mb | chr9:16Mb-17Mb |
chr11:73Mb-74Mb | chr17:2Mb-3Mb | chr21:42Mb-43Mb | chr5:120Mb-121Mb | chr9:17Mb-18Mb |
chr11:74Mb-75Mb | chr17:3Mb-4Mb | chr21:43Mb-44Mb | chr5:121Mb-122Mb | chr9:18Mb-19Mb |
chr11:75Mb-76Mb | chr17:4Mb-5Mb | chr21:44Mb-45Mb | chr5:122Mb-123Mb | chr9:19Mb-20Mb |
chr11:76Mb-77Mb | chr17:5Mb-6Mb | chr21:45Mb-46Mb | chr5:123Mb-124Mb | chr9:20Mb-21Mb |
chr11:77Mb-78Mb | chr17:6Mb-7Mb | chr21:46Mb-47Mb | chr5:124Mb-125Mb | chr9:21Mb-22Mb |
chr11:78Mb-79Mb | chr17:7Mb-8Mb | chr21:47Mb-48Mb | chr5:125Mb-126Mb | chr9:22Mb-23Mb |
chr11:79Mb-8Mb0 | chr17:8Mb-9Mb | chr21:48Mb-48129895 | chr5:126Mb-127Mb | chr9:23Mb-24Mb |
chr11:8Mb0-81Mb | chr17:9Mb-10Mb | chr22:16Mb-17Mb | chr5:127Mb-128Mb | chr9:24Mb-25Mb |
chr11:81Mb-82Mb | chr17:10Mb-11Mb | chr22:17Mb-18Mb | chr5:128Mb-129Mb | chr9:25Mb-26Mb |
chr11:82Mb-83Mb | chr17:11Mb-12Mb | chr22:18Mb-19Mb | chr5:129Mb-130Mb | chr9:26Mb-27Mb |
chr11:83Mb-84Mb | chr17:12Mb-13Mb | chr22:19Mb-20Mb | chr5:130Mb-131Mb | chr9:27Mb-28Mb |
chr11:84Mb-85Mb | chr17:13Mb-14Mb | chr22:20Mb-21Mb | chr5:131Mb-132Mb | chr9:28Mb-29Mb |
chr11:85Mb-86Mb | chr17:14Mb-15Mb | chr22:21Mb-22Mb | chr5:132Mb-133Mb | chr9:29Mb-30Mb |
chr11:86Mb-87Mb | chr17:15Mb-16Mb | chr22:22Mb-23Mb | chr5:133Mb-134Mb | chr9:30Mb-31Mb |
chr11:87Mb-88Mb | chr17:16Mb-17Mb | chr22:23Mb-24Mb | chr5:134Mb-135Mb | chr9:31Mb-32Mb |
chr11:88Mb-89Mb | chr17:17Mb-18Mb | chr22:24Mb-25Mb | chr5:135Mb-136Mb | chr9:32Mb-33Mb |
chr11:89Mb-90Mb | chr17:18Mb-19Mb | chr22:25Mb-26Mb | chr5:136Mb-137Mb | chr9:33Mb-34Mb |
chr11:90Mb-91Mb | chr17:19Mb-20Mb | chr22:26Mb-27Mb | chr5:137Mb-138Mb | chr9:34Mb-35Mb |
chr11:91Mb-92Mb | chr17:20Mb-21Mb | chr22:27Mb-28Mb | chr5:138Mb-139Mb | chr9:35Mb-36Mb |
chr11:92Mb-93Mb | chr17:21Mb-22Mb | chr22:28Mb-29Mb | chr5:139Mb-140Mb | chr9:36Mb-37Mb |
chr11:93Mb-94Mb | chr17:22Mb-23Mb | chr22:29Mb-30Mb | chr5:140Mb-141Mb | chr9:37Mb-38Mb |
chr11:94Mb-95Mb | chr17:25Mb-26Mb | chr22:30Mb-31Mb | chr5:141Mb-142Mb | chr9:38Mb-39Mb |
chr11:95Mb-96Mb | chr17:26Mb-27Mb | chr22:31Mb-32Mb | chr5:142Mb-143Mb | chr9:39Mb-40Mb |
chr11:96Mb-97Mb | chr17:27Mb-28Mb | chr22:32Mb-33Mb | chr5:143Mb-144Mb | chr9:40Mb-41Mb |
chr11:97Mb-98Mb | chr17:28Mb-29Mb | chr22:33Mb-34Mb | chr5:144Mb-145Mb | chr9:41Mb-42Mb |
chr11:98Mb-99Mb | chr17:29Mb-30Mb | chr22:34Mb-35Mb | chr5:145Mb-146Mb | chr9:42Mb-43Mb |
chr11:99Mb-100Mb | chr17:30Mb-31Mb | chr22:35Mb-36Mb | chr5:146Mb-147Mb | chr9:43Mb-44Mb |
chr11:100Mb-101Mb | chr17:31Mb-32Mb | chr22:36Mb-37Mb | chr5:147Mb-148Mb | chr9:44Mb-45Mb |
chr11:101Mb-102Mb | chr17:32Mb-33Mb | chr22:37Mb-38Mb | chr5:148Mb-149Mb | chr9:45Mb-46Mb |
chr11:102Mb-103Mb | chr17:33Mb-34Mb | chr22:38Mb-39Mb | chr5:149Mb-150Mb | chr9:46Mb-47Mb |
chr11:103Mb-104Mb | chr17:34Mb-35Mb | chr22:39Mb-40Mb | chr5:150Mb-151Mb | chr9:47Mb-48Mb |
chr11:104Mb-105Mb | chr17:35Mb-36Mb | chr22:40Mb-41Mb | chr5:151Mb-152Mb | chr9:65Mb-66Mb |
chr11:105Mb-106Mb | chr17:36Mb-37Mb | chr22:41Mb-42Mb | chr5:152Mb-153Mb | chr9:66Mb-67Mb |
chr11:106Mb-107Mb | chr17:37Mb-38Mb | chr22:42Mb-43Mb | chr5:153Mb-154Mb | chr9:67Mb-68Mb |
chr11:107Mb-108Mb | chr17:38Mb-39Mb | chr22:43Mb-44Mb | chr5:154Mb-155Mb | chr9:68Mb-69Mb |
chr11:108Mb-109Mb | chr17:39Mb-40Mb | chr22:44Mb-45Mb | chr5:155Mb-156Mb | chr9:69Mb-70Mb |
chr11:109Mb-110Mb | chr17:40Mb-41Mb | chr22:45Mb-46Mb | chr5:156Mb-157Mb | chr9:70Mb-71Mb |
chr11:110Mb-111Mb | chr17:41Mb-42Mb | chr22:46Mb-47Mb | chr5:157Mb-158Mb | chr9:71Mb-72Mb |
chr11:111Mb-112Mb | chr17:42Mb-43Mb | chr22:47Mb-48Mb | chr5:158Mb-159Mb | chr9:72Mb-73Mb |
chr11:112Mb-113Mb | chr17:43Mb-44Mb | chr22:48Mb-49Mb | chr5:159Mb-160Mb | chr9:73Mb-74Mb |
chr11:113Mb-114Mb | chr17:44Mb-45Mb | chr22:49Mb-50Mb | chr5:160Mb-161Mb | chr9:74Mb-75Mb |
chr11:114Mb-115Mb | chr17:45Mb-46Mb | chr22:50Mb-51Mb | chr5:161Mb-162Mb | chr9:75Mb-76Mb |
chr11:115Mb-116Mb | chr17:46Mb-47Mb | chr22:51Mb-51304566 | chr5:162Mb-163Mb | chr9:76Mb-77Mb |
chr11:116Mb-117Mb | chr17:47Mb-48Mb | chr3:0-1Mb | chr5:163Mb-164Mb | chr9:77Mb-78Mb |
chr11:117Mb-118Mb | chr17:48Mb-49Mb | chr3:1Mb-2Mb | chr5:164Mb-165Mb | chr9:78Mb-79Mb |
chr11:118Mb-119Mb | chr17:49Mb-50Mb | chr3:2Mb-3Mb | chr5:165Mb-166Mb | chr9:79Mb-8Mb0 |
chr11:119Mb-120Mb | chr17:50Mb-51Mb | chr3:3Mb-4Mb | chr5:166Mb-167Mb | chr9:8Mb0-81Mb |
chr11:120Mb-121Mb | chr17:51Mb-52Mb | chr3:4Mb-5Mb | chr5:167Mb-168Mb | chr9:81Mb-82Mb |
chr11:121Mb-122Mb | chr17:52Mb-53Mb | chr3:5Mb-6Mb | chr5:168Mb-169Mb | chr9:82Mb-83Mb |
chr11:122Mb-123Mb | chr17:53Mb-54Mb | chr3:6Mb-7Mb | chr5:169Mb-170Mb | chr9:83Mb-84Mb |
chr11:123Mb-124Mb | chr17:54Mb-55Mb | chr3:7Mb-8Mb | chr5:170Mb-171Mb | chr9:84Mb-85Mb |
chr11:124Mb-125Mb | chr17:55Mb-56Mb | chr3:8Mb-9Mb | chr5:171Mb-172Mb | chr9:85Mb-86Mb |
chr11:125Mb-126Mb | chr17:56Mb-57Mb | chr3:9Mb-10Mb | chr5:172Mb-173Mb | chr9:86Mb-87Mb |
chr11:126Mb-127Mb | chr17:57Mb-58Mb | chr3:10Mb-11Mb | chr5:173Mb-174Mb | chr9:87Mb-88Mb |
chr11:127Mb-128Mb | chr17:58Mb-59Mb | chr3:11Mb-12Mb | chr5:174Mb-175Mb | chr9:88Mb-89Mb |
chr11:128Mb-129Mb | chr17:59Mb-60Mb | chr3:12Mb-13Mb | chr5:175Mb-176Mb | chr9:89Mb-90Mb |
chr11:129Mb-130Mb | chr17:60Mb-61Mb | chr3:13Mb-14Mb | chr5:176Mb-177Mb | chr9:90Mb-91Mb |
chr11:130Mb-131Mb | chr17:61Mb-62Mb | chr3:14Mb-15Mb | chr5:177Mb-178Mb | chr9:91Mb-92Mb |
chr11:131Mb-132Mb | chr17:62Mb-63Mb | chr3:15Mb-16Mb | chr5:178Mb-179Mb | chr9:92Mb-93Mb |
chr11:132Mb-133Mb | chr17:63Mb-64Mb | chr3:16Mb-17Mb | chr5:179Mb-18Mb0 | chr9:93Mb-94Mb |
chr11:133Mb-134Mb | chr17:64Mb-65Mb | chr3:17Mb-18Mb | chr5:18Mb0-180915260 | chr9:94Mb-95Mb |
chr11:134Mb-135Mb | chr17:65Mb-66Mb | chr3:18Mb-19Mb | chr6:0-1Mb | chr9:95Mb-96Mb |
chr12:0-1Mb | chr17:66Mb-67Mb | chr3:19Mb-20Mb | chr6:1Mb-2Mb | chr9:96Mb-97Mb |
chr12:1Mb-2Mb | chr17:67Mb-68Mb | chr3:20Mb-21Mb | chr6:2Mb-3Mb | chr9:97Mb-98Mb |
chr12:2Mb-3Mb | chr17:68Mb-69Mb | chr3:21Mb-22Mb | chr6:3Mb-4Mb | chr9:98Mb-99Mb |
chr12:3Mb-4Mb | chr17:69Mb-70Mb | chr3:22Mb-23Mb | chr6:4Mb-5Mb | chr9:99Mb-100Mb |
chr12:4Mb-5Mb | chr17:70Mb-71Mb | chr3:23Mb-24Mb | chr6:5Mb-6Mb | chr9:100Mb-101Mb |
chr12:5Mb-6Mb | chr17:71Mb-72Mb | chr3:24Mb-25Mb | chr6:6Mb-7Mb | chr9:101Mb-102Mb |
chr12:6Mb-7Mb | chr17:72Mb-73Mb | chr3:25Mb-26Mb | chr6:7Mb-8Mb | chr9:102Mb-103Mb |
chr12:7Mb-8Mb | chr17:73Mb-74Mb | chr3:26Mb-27Mb | chr6:8Mb-9Mb | chr9:103Mb-104Mb |
chr12:8Mb-9Mb | chr17:74Mb-75Mb | chr3:27Mb-28Mb | chr6:9Mb-10Mb | chr9:104Mb-105Mb |
chr12:9Mb-10Mb | chr17:75Mb-76Mb | chr3:28Mb-29Mb | chr6:10Mb-11Mb | chr9:105Mb-106Mb |
chr12:10Mb-11Mb | chr17:76Mb-77Mb | chr3:29Mb-30Mb | chr6:11Mb-12Mb | chr9:106Mb-107Mb |
chr12:11Mb-12Mb | chr17:77Mb-78Mb | chr3:30Mb-31Mb | chr6:12Mb-13Mb | chr9:107Mb-108Mb |
chr12:12Mb-13Mb | chr17:78Mb-79Mb | chr3:31Mb-32Mb | chr6:13Mb-14Mb | chr9:108Mb-109Mb |
chr12:13Mb-14Mb | chr17:79Mb-8Mb0 | chr3:32Mb-33Mb | chr6:14Mb-15Mb | chr9:109Mb-110Mb |
chr12:14Mb-15Mb | chr17:8Mb0-81Mb | chr3:33Mb-34Mb | chr6:15Mb-16Mb | chr9:110Mb-111Mb |
chr12:15Mb-16Mb | chr17:81Mb-81195210 | chr3:34Mb-35Mb | chr6:16Mb-17Mb | chr9:111Mb-112Mb |
chr12:16Mb-17Mb | chr18:0-1Mb | chr3:35Mb-36Mb | chr6:17Mb-18Mb | chr9:112Mb-113Mb |
chr12:17Mb-18Mb | chr18:1Mb-2Mb | chr3:36Mb-37Mb | chr6:18Mb-19Mb | chr9:113Mb-114Mb |
chr12:18Mb-19Mb | chr18:2Mb-3Mb | chr3:37Mb-38Mb | chr6:19Mb-20Mb | chr9:114Mb-115Mb |
chr12:19Mb-20Mb | chr18:3Mb-4Mb | chr3:38Mb-39Mb | chr6:20Mb-21Mb | chr9:115Mb-116Mb |
chr12:20Mb-21Mb | chr18:4Mb-5Mb | chr3:39Mb-40Mb | chr6:21Mb-22Mb | chr9:116Mb-117Mb |
chr12:21Mb-22Mb | chr18:5Mb-6Mb | chr3:40Mb-41Mb | chr6:22Mb-23Mb | chr9:117Mb-118Mb |
chr12:22Mb-23Mb | chr18:6Mb-7Mb | chr3:41Mb-42Mb | chr6:23Mb-24Mb | chr9:118Mb-119Mb |
chr12:23Mb-24Mb | chr18:7Mb-8Mb | chr3:42Mb-43Mb | chr6:24Mb-25Mb | chr9:119Mb-120Mb |
chr12:24Mb-25Mb | chr18:8Mb-9Mb | chr3:43Mb-44Mb | chr6:25Mb-26Mb | chr9:120Mb-121Mb |
chr12:25Mb-26Mb | chr18:9Mb-10Mb | chr3:44Mb-45Mb | chr6:26Mb-27Mb | chr9:121Mb-122Mb |
chr12:26Mb-27Mb | chr18:10Mb-11Mb | chr3:45Mb-46Mb | chr6:27Mb-28Mb | chr9:122Mb-123Mb |
chr12:27Mb-28Mb | chr18:11Mb-12Mb | chr3:46Mb-47Mb | chr6:28Mb-29Mb | chr9:123Mb-124Mb |
chr12:28Mb-29Mb | chr18:12Mb-13Mb | chr3:47Mb-48Mb | chr6:29Mb-30Mb | chr9:124Mb-125Mb |
chr12:29Mb-30Mb | chr18:13Mb-14Mb | chr3:48Mb-49Mb | chr6:31Mb-32Mb | chr9:125Mb-126Mb |
chr12:30Mb-31Mb | chr18:14Mb-15Mb | chr3:49Mb-50Mb | chr6:32Mb-33Mb | chr9:126Mb-127Mb |
chr12:31Mb-32Mb | chr18:15Mb-16Mb | chr3:50Mb-51Mb | chr6:33Mb-34Mb | chr9:127Mb-128Mb |
chr12:32Mb-33Mb | chr18:18Mb-19Mb | chr3:51Mb-52Mb | chr6:34Mb-35Mb | chr9:128Mb-129Mb |
chr12:33Mb-34Mb | chr18:19Mb-20Mb | chr3:52Mb-53Mb | chr6:35Mb-36Mb | chr9:129Mb-130Mb |
chr12:34Mb-35Mb | chr18:20Mb-21Mb | chr3:53Mb-54Mb | chr6:36Mb-37Mb | chr9:130Mb-131Mb |
chr12:37Mb-38Mb | chr18:21Mb-22Mb | chr3:54Mb-55Mb | chr6:37Mb-38Mb | chr9:131Mb-132Mb |
chr12:38Mb-39Mb | chr18:22Mb-23Mb | chr3:55Mb-56Mb | chr6:38Mb-39Mb | chr9:132Mb-133Mb |
chr12:39Mb-40Mb | chr18:23Mb-24Mb | chr3:56Mb-57Mb | chr6:39Mb-40Mb | chr9:133Mb-134Mb |
chr12:40Mb-41Mb | chr18:24Mb-25Mb | chr3:57Mb-58Mb | chr6:40Mb-41Mb | chr9:134Mb-135Mb |
chr12:41Mb-42Mb | chr18:25Mb-26Mb | chr3:58Mb-59Mb | chr6:41Mb-42Mb | chr9:135Mb-136Mb |
chr12:42Mb-43Mb | chr18:26Mb-27Mb | chr3:59Mb-60Mb | chr6:42Mb-43Mb | chr9:136Mb-137Mb |
chr12:43Mb-44Mb | chr18:27Mb-28Mb | chr3:60Mb-61Mb | chr6:43Mb-44Mb | chr9:137Mb-138Mb |
chr12:44Mb-45Mb | chr18:28Mb-29Mb | chr3:61Mb-62Mb | chr6:44Mb-45Mb | chr9:138Mb-139Mb |
chr12:45Mb-46Mb | chr18:29Mb-30Mb | chr3:62Mb-63Mb | chr6:45Mb-46Mb | chr9:139Mb-140Mb |
chr12:46Mb-47Mb | chr18:30Mb-31Mb | chr3:63Mb-64Mb | chr6:46Mb-47Mb | chr9:140Mb-141Mb |
chr12:47Mb-48Mb | chr18:31Mb-32Mb | chr3:64Mb-65Mb | chr6:47Mb-48Mb | chr9:141Mb-141213431 |
chr12:48Mb-49Mb | chr18:32Mb-33Mb | chr3:65Mb-66Mb | ||
chr12:49Mb-50Mb | chr18:33Mb-34Mb | chr3:66Mb-67Mb | ||
chr12:50Mb-51Mb | chr18:34Mb-35Mb | chr3:67Mb-68Mb | ||
chr12:51Mb-52Mb | chr18:35Mb-36Mb | chr3:68Mb-69Mb |
2-3. 단일염기변이 종류별 빈도 계산
전체 유전체에서 단일유전자변이 종류별(mutation signature) 빈도를 계산하였다. 변이의 종류를 나누는 기준은 4가지로 정의하였다.
첫번째로, reference 염기와 바뀐 염기의 종류를 이용해서 변이의 종류를 나누면 총 6가지 기본 변이 종류를 정의하였다(C>A, C>G, C>T, T>A, T>C, T>G). 두번째로, 기본 변이 종류에서 5' 방향의 염기 하나를 더 고려하면 24가지(4x6) 변이의 종류를 정의하였다. 세번째로, 기본 변이 종류에서 3' 방향의 염기 하나를 더 고려하면 24가지(6x4) 변이의 종류를 정의하였다. 마지막으로, 기본 변이 종류에 5' 염기 하나와 3' 염기 하나를 더 고려하면 일반적으로 mutation signature 분석에서 많이 쓰이는 96개(4x6x4) 변이 종류를 결정하였다.
이렇게 나눈 총 150개의 변이의 종류별로 발생 빈도를 계산하였다. 그리고 4가지 변이 분류 방법별로 변이 개수의 합을 계산해서, 전체 염기에서 발생한 모든 변이의 총합으로 나누어 normalization을 진행하였다.
정의한 변이의 종류는 하기 표 2와 같다.
sig-one | C>A | sig-rev | 3CA:C>A | sig-tri | TCG:C>A | sig-tri | TCA:C>T | sig-tri | ATG:T>C |
sig-one | C>G | sig-rev | 3CT:C>A | sig-tri | TCC:C>A | sig-tri | TCT:C>T | sig-tri | ATC:T>C |
sig-one | C>T | sig-rev | 3CG:C>A | sig-tri | GCA:C>A | sig-tri | TCG:C>T | sig-tri | TTA:T>C |
sig-one | T>A | sig-rev | 3CC:C>A | sig-tri | GCT:C>A | sig-tri | TCC:C>T | sig-tri | TTT:T>C |
sig-one | T>C | sig-rev | 3CA:C>G | sig-tri | GCG:C>A | sig-tri | GCA:C>T | sig-tri | TTG:T>C |
sig-one | T>G | sig-rev | 3CT:C>G | sig-tri | GCC:C>A | sig-tri | GCT:C>T | sig-tri | TTC:T>C |
sig-for | 5AC:C>A | sig-rev | 3CG:C>G | sig-tri | CCA:C>A | sig-tri | GCG:C>T | sig-tri | GTA:T>C |
sig-for | 5TC:C>A | sig-rev | 3CC:C>G | sig-tri | CCT:C>A | sig-tri | GCC:C>T | sig-tri | GTT:T>C |
sig-for | 5GC:C>A | sig-rev | 3CA:C>T | sig-tri | CCG:C>A | sig-tri | CCA:C>T | sig-tri | GTG:T>C |
sig-for | 5CC:C>A | sig-rev | 3CT:C>T | sig-tri | CCC:C>A | sig-tri | CCT:C>T | sig-tri | GTC:T>C |
sig-for | 5AC:C>G | sig-rev | 3CG:C>T | sig-tri | ACA:C>G | sig-tri | CCG:C>T | sig-tri | CTA:T>C |
sig-for | 5TC:C>G | sig-rev | 3CC:C>T | sig-tri | ACT:C>G | sig-tri | CCC:C>T | sig-tri | CTT:T>C |
sig-for | 5GC:C>G | sig-rev | 3TA:T>A | sig-tri | ACG:C>G | sig-tri | ATA:T>A | sig-tri | CTG:T>C |
sig-for | 5CC:C>G | sig-rev | 3TT:T>A | sig-tri | ACC:C>G | sig-tri | ATT:T>A | sig-tri | CTC:T>C |
sig-for | 5AC:C>T | sig-rev | 3TG:T>A | sig-tri | TCA:C>G | sig-tri | ATG:T>A | sig-tri | ATA:T>G |
sig-for | 5TC:C>T | sig-rev | 3TC:T>A | sig-tri | TCT:C>G | sig-tri | ATC:T>A | sig-tri | ATT:T>G |
sig-for | 5GC:C>T | sig-rev | 3TA:T>C | sig-tri | TCG:C>G | sig-tri | TTA:T>A | sig-tri | ATG:T>G |
sig-for | 5CC:C>T | sig-rev | 3TT:T>C | sig-tri | TCC:C>G | sig-tri | TTT:T>A | sig-tri | ATC:T>G |
sig-for | 5AT:T>A | sig-rev | 3TG:T>C | sig-tri | GCA:C>G | sig-tri | TTG:T>A | sig-tri | TTA:T>G |
sig-for | 5TT:T>A | sig-rev | 3TC:T>C | sig-tri | GCT:C>G | sig-tri | TTC:T>A | sig-tri | TTT:T>G |
sig-for | 5GT:T>A | sig-rev | 3TA:T>G | sig-tri | GCG:C>G | sig-tri | GTA:T>A | sig-tri | TTG:T>G |
sig-for | 5CT:T>A | sig-rev | 3TT:T>G | sig-tri | GCC:C>G | sig-tri | GTT:T>A | sig-tri | TTC:T>G |
sig-for | 5AT:T>C | sig-rev | 3TG:T>G | sig-tri | CCA:C>G | sig-tri | GTG:T>A | sig-tri | GTA:T>G |
sig-for | 5TT:T>C | sig-rev | 3TC:T>G | sig-tri | CCT:C>G | sig-tri | GTC:T>A | sig-tri | GTT:T>G |
sig-for | 5GT:T>C | sig-tri | ACA:C>A | sig-tri | CCG:C>G | sig-tri | CTA:T>A | sig-tri | GTG:T>G |
sig-for | 5CT:T>C | sig-tri | ACT:C>A | sig-tri | CCC:C>G | sig-tri | CTT:T>A | sig-tri | GTC:T>G |
sig-for | 5AT:T>G | sig-tri | ACG:C>A | sig-tri | ACA:C>T | sig-tri | CTG:T>A | sig-tri | CTA:T>G |
sig-for | 5TT:T>G | sig-tri | ACC:C>A | sig-tri | ACT:C>T | sig-tri | CTC:T>A | sig-tri | CTT:T>G |
sig-for | 5GT:T>G | sig-tri | TCA:C>A | sig-tri | ACG:C>T | sig-tri | ATA:T>C | sig-tri | CTG:T>G |
sig-for | 5CT:T>G | sig-tri | TCT:C>A | sig-tri | ACC:C>T | sig-tri | ATT:T>C | sig-tri | CTC:T>G |
최종적으로 단일유전자변이 분포 features 2726개와 단일유전자변이 종류 features 150개를 합쳐서 2876개 features를 알고리즘의 입력값으로 사용하였다.
실시예 3. DNN 모델 구축 및 학습 과정
cfDNA에서 암 진단 및 암의 종류를 구분하는 알고리즘 개발을 위해, 앞서 분석을 통해 확보한 단일유전자변이 분포 및 종류에 대한 features 총 2876개를 사용하였다. 총 2개의 인공지능 알고리즘을 개발하였다.
첫번째로, 정상인인지 암 환자인지를 진단하는 binary classification 모델을 구축하였다. 두번째로 암의 종류를 구분하는 multiple classification 모델을 구축하였다. 알고리즘 학습에 손실함수로는 binary classification 모델은 binary crossentropy, multiple classification 모델은 categorical crossentropy를 사용하였다. 알고리즘 학습에는 Deep Neural Network 인공지능 모델을 사용하였다.
전체 데이터셋을 train, valid, test dataset으로 나누어서 Bayesian optimization이라는 방법을 이용해 hyper-parameter tuning을 이용해서 모델을 학습하였다. 전체 dataset을 5개의 train, valid, test set으로 나누어서 학습을 5번 해서 5개의 알고리즘 모델을 만들었다. 그리고, 5개의 알고리즘 모델을 각각의 5개 test dataset에서의 prediction을 진행해서, 전체 dataset이 전부 test dataset으로 한번씩 사용할 수 있게 하였다. 그렇게 하여, 전체 샘플이 test dataset일때의 prediction probability를 이용해서 모델의 성능을 평가하였다.
실시예 4. 암 진단 및 암 종 구분 딥러닝 모델 구축 및 성능 확인
실시예 1에서 수득한 리드를 이용하여 구축한 딥러닝 모델의 성능을 테스트 하기 위하여 기존에 공지된 암 진단 및 암 종 판별에 사용된 인공지능 모델(Cristiano, S. et al., Nature, Vol. 570(7761), pp. 385-389. 2019)의 방법을 응용하여 cfDNA에 적용될 수 있도록 실시예 1의 데이터 세트를 기반으로 fragmentation pattern 및 copy number variation(CNV) 기반 암 진단 및 암 종 판별 비교 모델을 구축하였다.
보다 구체적으로, Fragment pattern 방법은 전체 유전체를 GC 보정 후 5Mb 구간으로 나누어서 각 구간별 짧은 fragment 개수와 전체 fragment 개수의 비율을 z-score normalization을 진행해서 입력값으로 사용하였다. 여기서 짧은 fragment는 fragment의 길이가 100bp에서 150bp 사이의 fragment를 의미한다. CNV 방법은 전체 유전체를 겹쳐지지 않는 50KB 구역으로 나누어서 GC 보정 후 구역 별로 depth를 계산 후 log2 값으로 변환하여 입력값으로 사용하였다. . Fragment pattern과 CNV 모델의 학습에는 xgboost를 사용하였다.
암 진단 모델의 성능 비교에는 특이도 95%, 98%, 99% 일 때의 predict probability threshold에서의 민감도를 확인해보았다.
그 결과, 도 2에 기재된 바와 같이 본 발명에서 구축한 암 진단 모델의 성능이 기존 방법에 비해 뛰어난 것을 확인하였으며, 또한 도 3에 기재된 바와 같이 모든 정확도에서 본 발명에서 구축한 암 진단 모델이 암 진단에 있어서 그 성능이 뛰어날 뿐만 아니라, 도 3의 (B)에 기재된 바와 같이 기존의 방법은 암 조기 진단(stage I)에 있어서, 그 성능이 저해되는 반면, 본 발명에서 구축한 암 진단 모델은 암 조기 진단에서도 뛰어난 성능을 나타내는 것을 확인하였다.
아울러, 암 종 판별 모델의 성능을 비교한 결과, 도 4에 기재된 바와 같이 본 발명에서 구축한 암 종 판별 모델이 기존의 방법과 비교하여 암 종 판별 성능이 모든 stage에서 뛰어난 것을 확인하였다.
실시예 5. 필터링 조건의 효과 확인
5-1. 필터링 기준 효과 확인
본 발명자들은 관대한 기준으로 암 유래 변이 일 수 있는 모든 변이를 발굴한 후, 다양한 기준을 이용해서 artifacts와 germline mutation을 제거하였다. 본 발명자들은 엄격한 (strict) 방법, 덜 엄격한 (less strict) 방법, 관대한 (lenient) 방법으로 변이를 발굴했을 때의 성능 비교를 진행하였다. 엄격한 방법은 variant read가 forward와 reverse read에 모두 존재하는 경우에 변이로 발굴하였으며, 덜 엄격한 방법은 variant read의 변이가 2개 이상인 경우에도 변이로 발굴하였다. 관대한 방법은 실시예 2-1에 기재된 방법과 동일하다. 변이 발굴 후, 동일한 필터링 및 학습 과정을 이용해서 모델 학습 후, 성능을 비교하였다.
그 결과, 도 5에 기재된 바와 같이 관대한 기준으로 암 유래 변이일 수 있는 모든 변이를 발굴한 후, 필터링 하였을 때 성능이 가장 우수함을 확인하였다.
5-2. 필터링 데이터 베이스의 효과 확인
본 발명에서는 관대한 돌연변이 발굴과 함께 정상인의 cfDNA 및 조직에서 나타나는 변이를 필터링하는 방법을 사용하였다. 대규모 정상인 cfDNA / tissue WGS에서 발굴된 변이를 변이 필터링에 사용함으로써, cfDNA 에서 발생할 수 있는 artifact 및 germline mutation 검출을 효과적으로 제거 가능할 것으로 기대하였다.
Public 데이터베이스 중에는 대규모 정상인 cfDNA 변이 데이터베이스가 존재하지 않았으므로 녹십자에서 생산한 20,000명의 정상인 cfDNA WGS을 사용하였다.
그 결과, 도 6에 기재된 바와 같이 정상인 cfDNA 및 tissue 변이를 이용했을 때가 그렇지 않았을 때보다 성능이 향상됨을 확인하였다. 따라서 본 발명의 예측모델에는 정상인 cfDNA 변이와 정상인 조직의 변이에 대한 public 데이터베이스를 모두 사용하였다.
실시예 6. 암종별 특이적 변이 지역에서의 cfDNA 변이의 RMD 분포
본 발명에서 개발한 cfDNA 변이 발굴 방법으로 cfDNA 변이를 발굴하고, RMD 값을 계산하였을 때, 실제 해당 암의 특징 및 분포를 잘 반영함을 확인하고자 하였다.
암유전체 대규모 코호트인 PCAWG에서 난소암과 간암의 암 조직 WGS을 이용해서 샘플별로 종양 변이를 발굴하고, 1Mbp bin 단위로 RMD값을 계산 후, edgeR을 이용해 각 암종별로 해당 암종 특이적으로 돌연변이가 많은 지역, 해당 암종 특이적으로 돌연변이가 적은 지역을 찾았다. 그리고, 실제로 해당 암종 조직 특이적으로 변이가 많은 지역이 cfDNA에서도 RMD 값이 높고, 해당 암종 조직 특이적으로 변이가 적었던 지역이 cfDNA RMD 값도 낮은지 확인하였다.
그 결과, 도 7에 기재된 바와 같이 난소암과 간암 모두 cfDNA에서 해당 암의 RMD 지역 특징을 조직 샘플에서와 동일하게 반영하는 것을 확인하였다. 그림의 X축의 liver와 ovary는 실제 cfDNA 샘플의 암종을 의미한다. 또한, region type은 PCAWG 데이터를 이용해 정의한 해당 암종 특이적으로 돌연변이가 많은/적은 지역을 의미한다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
Claims (19)
- (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
(d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density, RMD)를 계산하는 단계;
(e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계; 및
(f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하는 단계;
를 포함하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법
- 제1항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법:
(a-i) 생체시료에서 핵산을 수득하는 단계;
(a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
- 제1항에 있어서, 상기 (c) 단계의 필터링은 발굴된 단일염기변이가 있는 변이 지역의 리드 깊이(read depth)가 3 이상이고, 평균 시퀀싱 퀄리티(sequencing quality)가 30 이상인 단일염기변이를 추출하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제3항에 있어서, 상기 (c) 단계의 필터링은 서열분석 과정 중 발생한 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정을 추가로 수행하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제4항에 있어서, 상기 아티팩트(artifact)와 생식세포 변이(germline mutation)를 제거하는 과정은
i) 리드 쌍(read pair) 중 어느 하나에서만 검출되는 변이;
ii) 한 위치에서 두 종류 이상 검출되는 변이;
iii) 각 위치에서 정상 염기가 검출되지 않는 변이; 및
iv) 정상인 데이터베이스에서 검출되는 변이;
로 구성된 군에서 선택되는 어느 하나 이상의 변이를 제거하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서, 상기 (d) 단계의 구간은 100kb 내지 10Mb인 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서, 상기 (d) 단계의 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법:
(d-i) 전체 샘플의 기준값 이상에서 변이가 검출되지 않는 구간을 제외한 구간별로 추출된 단일염기변이의 개수를 계산하는 단계; 및
(d-ii) 계산된 개수를 각 구간별 변이의 총 개수로 나누어 정규화(normalization)하는 단계.
- 제7항에 있어서, 상기 기준값은 40 내지 60%인 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제7항에 있어서, 상기 구간은 하기 표 1로 기재된 구간에서 선택되는 하나 이상인 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서, 상기 (e) 단계의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법:
(e-i) 다음의 변이 종류별 변이 개수를 계산하는 단계; 및
(1)사이토신(cytosine, C)이 티민(thymine, T), 아데닌(adenine, A) 또는 구아닌(guanine, G)으로 치환된 변이;
(2)) 티민이 시토신, 아데닌 또는 구아닌으로 치환된 변이;
(3) (1) 또는 (2)의 변이에서 5' 방향 염기가 하나 더 포함된 변이;
(4) (1) 또는 (2)의 변이에서 3' 방향 염기가 하나 더 포함된 변이; 및
(5) 아데닌, 구아닌, 사이토신 및 티민이 서로 다른 염기로 치환된 변이의 5' 방향 염기 하나 및 3' 방향 염기를 각각 하나씩 더 포함하는 변이;
(e-ii) 계산된 변이 개수의 합을 전체 염기에서 발생한 모든 변이의 총합으로 나누어 정규화(normalization)하는 단계.
- 제10항에 있어서, 상기 변이의 종류는 하기 표 2에 기재된 변이에서 선택되는 하나 이상인 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서, 상기 (f) 단계의 기준값은 0.5이며, 0.5 이상일 경우 암으로 판정하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서,
(g) 암으로 판정된 샘플의 단일염기변이 분포 및 단일염기변이 종류별 빈도값을 암 종을 구별하도록 학습된 제2 인공지능 모델에 입력하고 출력값을 비교하여 암 종을 예측하는 단계;
를 추가로 포함하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제13항에 있어서, 상기 (g) 단계의 출력값의 비교는 출력값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제1항에 있어서, 상기 (f) 단계의 인공지능 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN) 및 오토 인코더(autoencoder)로 구성된 군에서 선택되는 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법.
- 제15항에 있어서, 상기 인공지능 모델이 DNN이고, binary classification 을 학습할 경우, 손실함수는 하기 수식 1로 표시되는 binary crossentropy인 것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법:
수식 1:
여기서, binary cross entropy로 N은 전체 샘플 수이고, i 는 모델이 i번째 입력값이 class 1에 가깝다고 예측한 확률 값이며, yi 는 i번째 입력값의 실제 class임.
- 제13항에 있어서, 상기 제2 인공지능 모델이 DNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 categorical crossentropy 인것을 특징으로 하는 단일염기변이를 이용한 암 진단 및 암 종 예측을 위한 정보의 제공방법:
수식 2:
여기서, categorical cross entropy로 N은 전체 샘플 수이고, J는 전체 class의 개수이며, yj는 해당 샘플의 실제 class를 나타내는 값으로 실제 class가 j이면 1, 실제 class가 j가 아니면 0으로 표시하고, j 는 해당 샘플이 j class라고 예측한 확률값으로 1에 가까울수록 해당 class일 확률이 높다고 예측한 확률값임.
- 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
정렬된 서열에서 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 변이 발굴부;
표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단일염기변이 분포 계산부;
추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 변이 빈도 계산부;
계산된 단열염기변이 분포 값과 변이 빈도를 암 진단을 수행하도록 학습된 인공지능 모델에 입력하여 출력값을 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
암으로 판정된 샘플의 단열염기변이 분포 값과 변이 빈도를 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하여 출력된 결과값을 비교하여 암 종을 예측하는 암 종 예측부를 포함하는 인공지능 기반 암 진단 및 암 종 예측 장치.
- 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여, 단일염기변이(single nucleotide variant)를 발굴하고, 필터링을 수행하여 암 특이적 단일염기변이를 추출하는 단계;
(d) 상기 표준 염색체를 일정 구간으로 나누고, 각 구간별로 추출된 단일염기변이의 분포(regional mutation density)를 계산하는 단계;
(e) 상기 추출된 변이의 단일염기변이 종류별(mutation signature) 빈도를 계산하는 단계;
(f) 상기 (d) 단계에서 계산한 단일염기변이 분포 및 (e) 단계에서 계산한 단일염기변이 종류별 빈도값을 암 진단을 수행하도록 학습된 인공지능 모델에 입력하고 출력값을 기준값과 비교하여 암 유무를 판정하는 단계; 및
(g) 상기 (f) 단계에서 암으로 판정된 샘플의 단일염기변이 분포 및 단일염기변이 종류별 빈도값을 암 종을 구분하도록 학습된 제2 인공지능 모델에 입력하고 출력값을 비교하여 암 종을 예측하는 단계;
를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220072680A KR20230172174A (ko) | 2022-06-15 | 2022-06-15 | 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 |
US18/169,750 US20230407405A1 (en) | 2022-06-15 | 2023-02-15 | Method for diagnosing cancer and predicting type of cancer based on single nucleotide variant in cell-free dna |
PCT/KR2023/008310 WO2023244046A1 (en) | 2022-06-15 | 2023-06-15 | Method for diagnosing cancer and predicting type of cancer based on single nucleotide variant in cell-free dna |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220072680A KR20230172174A (ko) | 2022-06-15 | 2022-06-15 | 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230172174A true KR20230172174A (ko) | 2023-12-22 |
Family
ID=89170317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220072680A KR20230172174A (ko) | 2022-06-15 | 2022-06-15 | 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230407405A1 (ko) |
KR (1) | KR20230172174A (ko) |
WO (1) | WO2023244046A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169042A1 (en) * | 2018-02-27 | 2019-09-06 | Cornell University | Ultra-sensitive detection of circulating tumor dna through genome-wide integration |
WO2021022225A1 (en) * | 2019-08-01 | 2021-02-04 | Tempus Labs, Inc. | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay |
CN113383085A (zh) * | 2019-11-06 | 2021-09-10 | 斯坦福大学托管董事会 | 用于分析核酸分子的方法和系统 |
EP4069864A4 (en) * | 2020-02-05 | 2023-01-25 | The Chinese University Of Hong Kong | MOLECULAR ANALYZES USING LONG CELL-FREE FRAGMENTS IN PREGNANCY |
US20220136062A1 (en) * | 2020-10-30 | 2022-05-05 | Seekin, Inc. | Method for predicting cancer risk value based on multi-omics and multidimensional plasma features and artificial intelligence |
-
2022
- 2022-06-15 KR KR1020220072680A patent/KR20230172174A/ko unknown
-
2023
- 2023-02-15 US US18/169,750 patent/US20230407405A1/en active Pending
- 2023-06-15 WO PCT/KR2023/008310 patent/WO2023244046A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
US20230407405A1 (en) | 2023-12-21 |
WO2023244046A1 (en) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019229273B2 (en) | Ultra-sensitive detection of circulating tumor DNA through genome-wide integration | |
CN111128299B (zh) | 一种结直肠癌预后显著相关ceRNA调控网络的构建方法 | |
EP4073805B1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
CA3092352A1 (en) | Systems and methods for detection of residual disease | |
JP2023156402A (ja) | ターゲットシーケンシングのためのモデル | |
CN111564177B (zh) | 基于dna甲基化的早期非小细胞肺癌复发模型构建方法 | |
CN112218957A (zh) | 用于确定在无细胞核酸中的肿瘤分数的系统及方法 | |
EP4127232A1 (en) | Cancer classification with synthetic spiked-in training samples | |
KR20230172174A (ko) | 무세포 핵산의 단일염기변이를 이용한 암 진단 및 암 종 예측방법 | |
KR20240073026A (ko) | 노이즈 영역 필터링을 사용한 메틸화 단편 확률론적 노이즈 모델 | |
WO2019071219A1 (en) | SPECIFIC SITE NOISE MODEL FOR TARGETED SEQUENCING | |
WO2018209704A1 (zh) | 基于dna测序数据的样本来源检测方法、装置和存储介质 | |
JP2024512540A (ja) | 人工知能基盤の無細胞DNAの腫瘍由来変異の検出方法及びこれを用いたがんの早期診断方法{Method for detecting tumor derived mutation from cell-free DNA based on artificial intelligence and Method for early diagnosis of cancer using the same} | |
EP4305191A1 (en) | Systems and methods for identifying microbial biosynthetic genetic clusters | |
KR20240087562A (ko) | 인공지능 기반 세포유리 핵산의 특징을 이용한 암 진단 및 암 종 예측 방법 | |
KR20220071122A (ko) | 핵산 길이 비를 이용한 암 진단 및 예후예측 방법 | |
KR20230064172A (ko) | 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법 | |
EP4425499A1 (en) | Method for diagnosis of cancer and prediction of cancer type, using methylated acellular nucleic acid | |
KR102701682B1 (ko) | 간암 진단용 dna 메틸화 마커 및 이의 용도 | |
US20240055073A1 (en) | Sample contamination detection of contaminated fragments with cpg-snp contamination markers | |
CN118335199A (zh) | 一种血浆游离dna片段多特征融合提高肿瘤信号识别能力的方法 | |
WO2023239866A1 (en) | Methods for identifying cns cancer in a subject | |
Dimartino | A machine learning based method to detect genomic imbalances exploiting X chromosome exome reads | |
WO2024020036A1 (en) | Dynamically selecting sequencing subregions for cancer classification | |
CN118448038A (zh) | 一种基于多组学动态ctDNA监测食管鳞状细胞癌疗效的方法 |