KR101707536B1 - 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법 - Google Patents

컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법 Download PDF

Info

Publication number
KR101707536B1
KR101707536B1 KR1020140162533A KR20140162533A KR101707536B1 KR 101707536 B1 KR101707536 B1 KR 101707536B1 KR 1020140162533 A KR1020140162533 A KR 1020140162533A KR 20140162533 A KR20140162533 A KR 20140162533A KR 101707536 B1 KR101707536 B1 KR 101707536B1
Authority
KR
South Korea
Prior art keywords
defect
somatic
defects
candidate
genetic
Prior art date
Application number
KR1020140162533A
Other languages
English (en)
Other versions
KR20160060361A (ko
Inventor
이도헌
김준호
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020140162533A priority Critical patent/KR101707536B1/ko
Publication of KR20160060361A publication Critical patent/KR20160060361A/ko
Application granted granted Critical
Publication of KR101707536B1 publication Critical patent/KR101707536B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 뇌질환 조직에서 컨트롤 샘플 없이 낮은 빈도로 존재하는 체성 결손을 검출하는 방법에 관한 것으로,
본 발명에 따른 체성 결손 검출 방법은, 정상 세포 및 뇌질환을 포함하는 질병 세포의 혼합 조직을 시퀀싱한 시퀀싱 데이터 입력 단계; 상기 입력된 시퀀싱 데이터에 대해 변칙 맵 판독기법(anomaly mapped read) 기법을 적용하여 결손 후보들을 검출하는 단계; 상기 검출된 결손 후보들 각각에 대해 반복 서열에 의해 발생한 것인지를 판단하여 거짓 양성 검출을 제거하는 단계; 및, 거짓 양성 검출을 제거하고 남은 결손 후보들에 대해, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 정의한 p={pg, ps}와 전체 결손 대비 유전 결손과 체성 결손의 비를 정의한 λ={λg, λs}를 이용한 확률 모델을 기반으로 추정 매개 변수값을 산출하고, 상기 추정 매개 변수값을 이용하여 체성 결손의 존재 여부를 판단하는 단계 (여기서 상기 pg는 유전 결손에 대한 매개 변수이고, 상기 ps는 체성 결손에 대한 매개 변수이며, 상기 λg는 전체 결손 대비 유전 결손의 비이고, 상기 λs는 전체 결손 대비 체성 결손의 비임)를 포함하는 것을 특징으로 한다.

Description

컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법{Detecting method for low-frequent somatic deletions with unmatched samples}
본 발명은 체성 결손 검출 방법에 관한 것으로, 보다 상세하게는 뇌질환 조직에서 컨트롤 샘플 없이 낮은 빈도로 존재하는 체성 결손을 검출하는 방법에 관한 것이다.
염기 서열 분석 데이터를 통해 유전 결손을 검출하는 방법에는 크게 두 가지 접근법이 있는데, 리드-뎁스(read-depth) 기반의 검출법과 변칙 맵 판독기법(anomaly mapped read) 기반의 검출법이 있다.
도 1을 참조하여 설명하면, 리드-뎁스 기반의 검출법의 경우, 샘플의 DNA를 조각내어 만들어진 시퀀스 리드(reads)를 염기서열이 알려진 레퍼런스 게놈(reference genome)에 맵핑(mapping)하여 맵핑된 리드 수를 바탕으로 게놈 결손 여부를 판단하는 방법이다.
주어진 샘플에 결손이 발생했을 경우, 레퍼런스 게놈에는 해당 염기 서열이 존재하지만 샘플에서는 결손이 생성된 영역에 대한 염기 서열이 존재하지 않기 때문에 리드 맵핑 시 해당 영역에 리드가 맵핑되지 않고 비어있는 형태로 나타나게 된다. 이는 도 1에서 주황색 선으로 도시되어 있다. 주위에 비해 절반 정도가 비게 될 경우 이형접합성 손실(heterozygous deletion), 전체 영역이 비게 될 경우 동형접합성 손실(homozygous deletion)로 판단한다.
변칙 맵 리드(Anomaly mapped read) 기반의 검출법의 경우, 차세대 염기 서열 분석법 중에서도 페어드-엔드 시퀀싱(paired-end sequencing)이라는 특별한 방법의 시퀀싱 데이터에 대해 적용 가능한 방법이다. 페어드-엔드 시퀀싱(Paired-end sequencing)은 주어진 샘플의 DNA를 조각내어 각 조각의 염기서열을 다 읽어내는 것이 아니라 앞과 뒤의 일부 영역만을 읽어낸다. 이에 따라 매 페어드-엔드 리드(paired-end read)에 대해 앞과 뒤의 일부 염기 서열과, 두 염기서열 사이의 거리 정보를 알 수 있게 된다.
주어진 샘플의 DNA에 결손이 존재할 경우, 결손이 발생한 영역 주위에서 생성된 페어드-엔드 리드(paired-end read)는 알려진 거리 정보보다 실제 결손 크기만큼 늘어난 형태로 레퍼런스 게놈에 맵핑된다. 원래 길이보다 늘어난 형태로 변형된 페어드-엔드 리드(paired-end read)들을 변칙 맵 리드(anomaly mapped read)라고 하며, 이러한 변칙 맵 리드(anomaly mapped read)의 발생 여부로 결손의 존재를 판단할 수 있다. 이는 도 1에서 붉은색 선으로 도시되어 있다.
기존에 개발되어 있는 암 연구용 체성 결손 검출 기법의 경우에는 암세포와 정상 조직을 각각 시퀀싱하여, 양 영역에서 리드 수의 비교를 통해 암세포에서만 리드-뎁스의 하강이 있는 영역을 검출하여 체성 결손으로 판단한다.
즉, 이 기법들의 기본적인 검출 원리는 암세포를 시퀀싱한 데이터와 컨트롤 조직(matched control)에 해당하는 동일 샘플의 정상적인 조직(주로 혈액)을 시퀀싱한 데이터를 비교하여 암세포에서만 리드-뎁스가 하강하는 영역을 선별하는 것이다. (도 2 참조)
각 기법의 세부적인 차이는 결손 영역의 경계를 어떤 방식으로 추론해 낼 것인지 또는 두 조직의 영역을 어떤 방식으로 비교할 것인지에 기인한다. 이러한 체성 결손의 검출은 세부적으로 두 가지 과정이 합쳐진 것으로 볼 수 있는데, 첫 번째는 결손이 생긴 영역들을 찾아내는 결손 후보 검출 과정이고, 둘째는 이를 컨트롤 조직과 비교하여 유전 결손으로부터 체성 결손을 구분해 내는 체성 결손 분류 과정이다.
암 연구를 위해 개발되었던 기존의 체성 결손 검출 기법들은 뇌질환에서의 체성 결손 후보들을 검출하는 데에는 제대로 적용되고 있지 못하다. 이는 뇌질환과 암이라는 질병의 성질이 매우 달라서 서로 생성되는 체성 결손의 형태가 다르기 때문이다. 암은 그 질병의 특성상 암세포가 끊임없이 증식하는 특징을 가지고 있기 때문에 암을 발생시키는 체성 결손이 존재할 경우 해당 세포가 증식하여 대다수의 암세포가 해당 결손을 가지게 된다. 이에 따라 컨트롤 조직과 시퀀싱 결과를 비교해 보았을 때 상대적으로 명확한 패턴의 리드-뎁스 하강을 관찰할 수 있다.
한편, 종래의 체성 결손 검출 기법을 뇌질환에 적용할 때에는 문제점이 발생한다. 상당히 작은 비율의 뇌세포만이 체성 결손으로 손상되어도 질환을 발병시킬 수 있는 뇌 질환의 경우에는 한번 생성된 이후에는 증식하지 않으므로, 암세포와는 반대로 많은 경우에 체성 결손을 포함하고 있는 손상된 뇌 세포가 전체 뇌세포 대비 매우 작은 빈도로 존재하게 되고, 시퀀싱 결과를 관찰했을 때 실제 체성 결손이 존재하는 영역은 낮은 빈도 때문에 리드-뎁스의 하강을 관찰하기 어렵다. (도 3 참조) 따라서, 리드-뎁스의 하강을 기준으로 결손 후보를 검출하는 기존 기법들로는 뇌질환에서의 체성 결손 후보를 검출하는 데 어려운 점이 있다.
기존 기법의 또 다른 문제점은, 개발된 기법들이 반드시 컨트롤 조직의 데이터를 요구하는 반면에 뇌질환 샘플의 경우 컨트롤 조직을 함께 보유한 샘플이 매우 부족하다는 점이다. 하기의 <표 1>은 전 세계의 시퀀싱 데이터를 관리하는 SRA에서 현재 등재되어 있는 인간 뇌 영역 시퀀싱 데이터를 암(뇌종양)과 뇌질환 샘플로 나누어 데이터 통계를 정리한 것이다. 암 샘플의 경우 약 70퍼센트 이상이 컨트롤 조직의 데이터를 함께 보유하고 있는 데 반해, 뇌질환 샘플의 경우 약 20퍼센트 가량의 샘플만이 컨트롤 조직을 보유하고 있는 것을 확인할 수 있다. 또한 뇌질환 샘플은 사후 데이터이기 때문에 샘플 채취 당시에 컨트롤 조직을 함께 채취하지 못했다면 컨트롤 조직 데이터를 추후에 얻는 것이 사실상 불가능하다. 따라서 뇌질환 샘플의 경우에는 체성 결손 후보 검출이 어려울 뿐만 아니라, 체성 결손임을 판단할 수 있는 비교 대상조차 없는 경우가 많다는 어려움이 있다.
[표 1]
Figure 112014112019047-pat00001

본 발명이 이루고자 하는 기술적 과제는, 컨트롤 조직이 부족한 샘플 내에서 낮은 빈도의 체성 결손 검출 방법을 제공하는데 있다.
상기 목적을 달성하기 위한, 본 발명에 따른 체성 결손 검출 방법은,
정상 세포 및 뇌질환을 포함하는 질병 세포의 혼합 조직을 시퀀싱한 시퀀싱 데이터 입력 단계; 상기 입력된 시퀀싱 데이터에 대해 변칙 맵 판독기법(anomaly mapped read) 기법을 적용하여 결손 후보들을 검출하는 단계; 상기 검출된 결손 후보들 각각에 대해 반복 서열에 의해 발생한 것인지를 판단하여 거짓 양성 검출을 제거하는 단계; 및, 거짓 양성 검출을 제거하고 남은 결손 후보들에 대해, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 정의한 p={pg, ps}와 전체 결손 대비 유전 결손과 체성 결손의 비를 정의한 λ={λg, λs}를 이용한 확률 모델을 기반으로 추정 매개 변수값을 산출하고, 상기 추정 매개 변수값을 이용하여 체성 결손의 존재 여부를 판단하는 단계 (여기서 상기 pg는 유전 결손에 대한 매개 변수이고, 상기 ps는 체성 결손에 대한 매개 변수이며, 상기 λg는 전체 결손 대비 유전 결손의 비이고, 상기 λs는 전체 결손 대비 체성 결손의 비임)를 포함하는 것을 특징으로 한다.
상기 시퀀싱 데이터 입력 단계는, 뇌질환을 포함하는 정상 세포와 질병 세포의 혼합 조직을 페어드-엔드 시퀀싱(paired-end sequencing) 기법으로 시퀀싱하는 것을 특징으로 한다.
상기 거짓 양성 검출을 제거하는 단계는, 각각의 결손 후보들에 대해, 예측 결손 지점에서의 염기 서열과 결손이 발생하지 않았을 경우에 해당하는 지점의 염기 서열을 비교하여, 예측된 지점에서 서로 유사한 반복 서열이 발견될 경우, 서로 일치하는 염기 서열의 길이를 측정하여 측정값이 리드(read) 길이의 90%를 넘으면 해당 결손 후보는 반복 서열에 의한 거짓 양성 검출로 판단하여 제거하는 것을 특징으로 한다.
상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 pg는, homozygous deletion일 경우에 1로 산출하고, heterozygous deletion일 경우에 0.5로 산출하는 것을 특징으로 한다.
상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 ps는, 0≤ps≤0.5의 값을 가지는 것을 특징으로 한다.
상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 λg와 λs는, 유전 결손의 수(Ng)와 체성 결손의 수(Ns)를 나타내는 Ng와 Ns를 둘의 합인 Ng+Ns로 나누어서 산출되는 것을 특징으로 한다.
상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 매개 변수(pg, ps, λg, λs)의 추정은,
각각의 결손 후보(di)에 대해, 결손 주위 영역의 리드 수(ni)와 결손 영역의 감소된 리드 수(xi)를 바탕으로 p의 점추정값
Figure 112014112019047-pat00002
(=xi/ni)를 구한 후, 하기의 수학식 (1)을 이용하여 최대 우도(maximum likelihood)를 갖는 추정 매개 변수값(L(θ)mixed)을 산출하는 것을 특징으로 한다.
수학식 (1) :
Figure 112014112019047-pat00003

상기 산출된 추정 매개 변수(L(θ)mixed)와, 하기의 수학식 (2)를 이용하여 산출된 체성 결손이 존재하지 않는 유전 결손 모델에서의 우도값((L(θ)g))을 비교하는 단계를 더 포함하는 것을 특징으로 한다.
수학식 (2) :
Figure 112014112019047-pat00004

상기 비교 결과, 상기 우도값((L(θ)g))이 상기 추정 매개 변수값(L(θ)mixed)보다 더 큰 경우, 상기 거짓 양성 검출 제거한 후, 남은 결손 후보들에는 체성 결손이 존재하지 않는다고 판단하는 것을 특징으로 한다.
상기 비교 결과, 상기 추정 매개 변수값(L(θ)mixed)이 더 큰 경우, 각각의 결손 후보에 대해, 하기의 수학식 (3)을 이용하여 체성 결손 후보 점수(Si)를 산출하고, 산출된 체성 결손 후보 점수(Si)가 0보다 크면, 해당 결손 후보를 최종 체성 결손 후보로 검출하는 것을 특징으로 한다.
수학식 (3) :
Figure 112014112019047-pat00005

본 발명의 실시 형태에 따른 체성 결손 검출 방법에 의하면, 컨트롤 조직이 부족한 샘플 내에서 낮은 빈도의 체성 결손을 검출할 수 있는 효과가 있다.
도 1은 종래 기술의 염기 서열 분석 데이터 기반의 두 가지 결손 검출 기법이 도시된 도,
도 2는 종래 기술의 암 연구에서 사용되는 체성 결손 검출 기술의 기본 원리가 도시된 도,
도 3은 종래 기술에 따른 뇌질환에서의 체성 결손 검출의 문제점을 보여주는 도,
도 4는 본 발명의 일 실시예에 따른 체성 결손 검출 방법이 도시된 도,
도 5는 변칙 맵 판독기법(anomaly mapped read) 기반의 결손 후보 검출 과정이 도시된 도,
도 6은 반복 서열에 의한 거짓 양성 후보의 검출 과정이 도시된 도,
도 7은 체성 결손 발생 과정의 확률 모델이 도시된 도,
도 8은 모델 매개 변수 추정 및 체성 결손 후보 선정 과정이 도시된 도,
도 9는 모델의 매개 변수 추정 결과가 도시된 도,
도 10a 내지 도 10c는 본 발명에 따른 방법과 종래 방법들의 정확률, 재현률, 및 F-score를 비교 도시한 그래프들,
도 11은 다수의 하위 군집을 가진 혼합 조직에 대한 체성 검출 성능을 비교 도시한 도,
도 12는 본 발명의 일 실시예에 따른 체성 결손 검출 방법이 도시된 순서도이다.
본 명세서 또는 출원에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서 또는 출원에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니 된다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명자들은 컨트롤 조직이 부족한 샘플 내에서 낮은 빈도의 체성 결손 검출하기 위한 방법을 얻기 위해 노력한 결과, 체성 결손의 생성에 관한 확률적 모델을 정의하고 해당 모델의 매개변수 추정을 통해 체성 결손의 판단 기준을 만들고 시뮬레이션 데이터 및 실제 데이터를 통해 제시된 일부의 체성 결손을 검증하여 뇌질환 예측 및 진단에 유용하게 사용될 수 있음을 확인함으로써, 본 발명을 완성하였다. 이하, 도면을 참조하여 본 발명에 따른 체성 결손 검출 방법에 대해 설명하겠다.
도 4는 본 발명의 일 실시예에 따른 체성 결손 검출 방법이 도시된 도, 도 5는 변칙 맵 판독기법(anomaly mapped read) 기반의 결손 후보 검출 과정이 도시된 도, 도 6은 반복 서열에 의한 거짓 양성 후보를 검출 과정이 도시된 도, 도 7은 체성 결손 발생 과정의 확률 모델이 도시된 도, 도 8은 모델 매개 변수 추정 및 체성 결손 후보 선정 과정이 도시된 도, 도 9는 모델의 매개 변수 추정 결과가 도시된 도, 도 10a 내지 도 10c는 본 발명에 따른 방법과 종래 방법들의 정확률, 재현률, 및 F-score를 비교 도시한 그래프들, 도 11은 다수의 하위 군집을 가진 혼합 조직에 대한 체성 검출 성능을 비교 도시한 도, 도 12는 본 발명의 일 실시예에 따른 체성 결손 검출 방법이 도시된 순서도이다.
도 12에 도시된 바와 같이, 본 발명의 일 실시예에 따른 체성 결손 검출 방법은, 정상 세포 및 뇌질환을 포함하는 질병 세포의 혼합 조직을 시퀀싱한 시퀀싱 데이터 입력 단계(S100)와, 상기 입력된 시퀀싱 데이터에 대해 변칙 맵 판독기법(anomaly mapped read) 기법을 적용하여 결손 후보들을 검출하는 단계(S200)와, 상기 검출된 결손 후보들 각각에 대해 반복 서열에 의해 발생한 것인지를 판단하여 거짓 양성 검출을 제거하는 단계(S300)와, 거짓 양성 검출을 제거하고 남은 결손 후보들에 대해, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 정의한 p={pg, ps}와 전체 결손 대비 유전 결손과 체성 결손의 비를 정의한 λ={λg, λs}를 이용한 확률 모델을 기반으로 추정 매개 변수값을 산출하고, 상기 추정 매개 변수값을 이용하여 체성 결손의 존재 여부를 판단하는 단계(S400)를 포함한다.
여기서 상기 pg는 유전 결손에 대한 매개 변수이고, 상기 ps는 체성 결손에 대한 매개 변수이며, 상기 λg는 전체 결손 대비 유전 결손의 비이고, 상기 λs는 전체 결손 대비 체성 결손의 비이다.
이하, 각 단계들(S100 ~ S400)에 대해 상술하도록 하겠다.
S100 : 시퀀싱 데이터 입력 단계
상기 시퀀싱 데이터는, 본 발명의 일 실시예에 따른 체성 결손 검출 방법의 입력 데이터 값으로, 보다 상세하게는, 상기 시퀀싱 데이터는 정상 세포와 병변(특히, 뇌질환)을 포함하는 질병 세포의 혼합 조직을 시퀀싱한 데이터이다.
상기 시퀀싱 데이터는, 뇌질환을 포함하는 정상 세포와 질병 세포의 혼합 조직을, 예를 들어 페어드-엔드 시퀀싱(paired-end sequencing) 기법으로 시퀀싱할 수 있다.
상기 시퀀싱 데이터는 기존의 암세포에서의 체성 결손 검출 기법에서 사용되는 것과 유사하지만, 컨트롤 조직의 시퀀싱 데이터를 필요로 하지 않는다는 점에서, 기존의 암세포에서의 체성 결손 검출 기법과는 상이하다.
S200 : 결손 후보들을 검출하는 단계
전술한 바와 같이, 유전 결손의 검출에는 리드-뎁스(read-depth) 기반의 검출법과 변칙 맵 판독기법(anomaly mapped read) 기반의 검출법이 일반적으로 사용되고 있다. 모든 세포에 동일하게 존재하는 유전 결손과는 달리, 뇌 질환에서의 체성 결손은 극히 일부의 세포에만 존재하기 때문에 이를 read-depth 기반으로 검출하고자 할 경우 검출 성능이 현저히 감소된다. 특히, 매 영역마다 read-depth의 편차가 크기 때문에, 특정 영역의 read-depth 소폭 감소가 체성 결손에서 기인한 것인지 아니면 read-depth의 편차에 의한 것인지 그 구분이 매우 어렵다.
반면, anomaly mapped read 기반의 검출법의 경우, 도 5에 도시된 바와 같이, 체성 결손을 포함하고 있던 세포가 충분한 양으로 시퀀싱되었다면 소수의 anomaly mapped read가 반드시 생성된다. 즉, 시퀀싱 데이터의 본질적 한계인 영역 간의 read-depth 편차 때문에 낮은 빈도의 체성 결손을 read-depth의 하강으로 검출하는 것은 매우 어렵지만, 체성 결손을 보유한 세포가 시퀀싱될 경우 적은 수의 anomaly mapped read가 생성되어 체성 결손의 표지자가 되어 줄 수 있다. 하지만, anomaly mapped read 기반의 검출법에서는 이러한 표지가 체성 결손 뿐만 아니라, 유전 결손과 거짓 양성 검출에서도 생성될 수 있다.
따라서, 이들 유전 결손과 거짓 양성 검출을 분류하는 과정이 필요하다. 본 발명에서는 anomaly mapped read 기반으로 결손 후보들을 전부 검출한 다음 거짓 양성 검출과 유전 결손을 차례로 분류해 나가는 방식으로 체성 결손 후보를 추론한다.
S300 : 거짓 양성 검출을 제거하는 단계
전술한 바와 같이, anomaly mapped read 기반의 검출법에서는 체성 결손 뿐만 아니라, 유전 결손과 거짓 양성 검출에서도 생성될 수 있으므로, 체성 결손 검출을 위해 유전 결손과 거짓 양성 검출을 제거/분류하는 과정이 필요하다.
본 단계에서는 거짓 양성 검출을 제거하는 과정에 대해 설명한다.
도 6의 위 그림을 참조하면, 유전자 상에는 수많은 반복 서열(repetitive sequence)들이 있으며, 한쪽 반복 서열에서 나온 리드가 다른 쪽의 반복 서열에 매핑되면서 거짓 양성의 anomaly mapped read들을 생성한다는 사실이 기존 연구들에서 많이 알려져 왔다. 이렇게 발생된 거짓 양성을 제거하기 위해, 본 발명에서는 모든 결손 후보들에 대해 해당 후보가 반복 서열에 의해 발생한 것인지를 판단하는 단계를 도입하였다.
도 6의 아래 그림과 같이, 본 발명자들은 매 결손 후보들 마다 해당 후보의 예측된 결손 지점에서의 염기 서열과 결손이 발생하지 않았을 경우에 해당하는 지점의 염기 서열을 서로 비교하였다.
예측된 지점에서 서로 유사한 반복 서열이 발견될 경우, 서로 정확하게 일치하는 염기 서열의 길이를 측정하여 측정값이 리드(read) 길이의 90%를 넘으면 해당 결손 후보는 반복 서열에 의한 거짓 양성 검출로 판단하여 제거하였다. 이 과정을 통해 걸러지고 남은 결손 후보들은 유전 결손과 체성 결손 중 하나로 간주하였으며, 이 중 체성 결손을 분류해내는 과정을 다음 단계에서 확률 모델에 기반하여 수행하였다.
S400 : 체성 결손의 존재 여부를 판단하는 단계
본 단계에서는, 상기 단계에서 거짓 양성 검출을 제거하고 남은 결손 후보들에 대해, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 정의한 p={pg, ps}와 전체 결손 대비 유전 결손과 체성 결손의 비를 정의한 λ={λg, λs}를 이용한 확률 모델을 기반으로 추정 매개 변수값을 산출하고, 상기 추정 매개 변수값을 이용하여 체성 결손의 존재 여부를 판단한다.
이를 위해, 우선적으로 다음과 같이 체성 결손 발생에 대한 확률 모델을 확립하여야 한다.
S410 : 체성 결손 발생에 대한 확률 모델의 정의
이전 단계에서 걸러진 결손 후보들 중 체성 결손을 분류해내기 전에, 먼저 체성 결손의 발생에 대해 도 7과 같은 확률 모델을 정의하였다.
도 7을 참조하면, 정상적인 조직의 발생 과정에서는 전구 세포(precursor cell)와 동일한 구성의 유전 결손들을 딸세포들이 물려받는다.(지놈 내의 푸른색 선) 이렇게 모든 세포가 동일하게 유전적으로 보유하고 있는 유전 결손을 Dg로 표기하였다. 그러나 발생 과정 중 돌연변이가 발생할 경우 체성 결손이 생기며 (지놈 내의 붉은색 선), 해당 세포가 복제되어 만들어진 하위 세포들은 유전 결손과 체성 결손을 함께 가지게 된다. 이러한 체성 결손을 Ds로 표기하였다.
체성 결손을 일으키는 돌연 변이는 두 가지 측면에서 체성 결손의 생성에 영향을 미친다.
첫 번째 측면은 돌연변이가 발생한 시점의 영향이다. 돌연변이가 발생 과정 중 어느 시점에서 발생하느냐에 따라 전체 조직 세포 중 체성 결손을 포함하고 있는 세포의 비율이 결정된다. 즉, 발생 과정 중 돌연 변이가 일어난 시점은 체성 결손을 보유하게 된 세포의 숫자를 결정하게 된다.(붉은 배경으로 나타난 세포의 수, A)
또 다른 측면은 발생한 돌연변이의 규모이다. 발생한 돌연변이의 규모가 클수록 생성되는 체성 결손의 수가 늘어난다. 즉, 돌연 변이의 규모는 생성되는 체성 결손의 숫자를 결정하게 된다.(지놈 내에 나타난 붉은 색 선의 수)
한편, 매 세포는 한 쌍의 지놈을 가지고 있으며, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 각각 p={pg,ps}로 정의하였다. 또한, 전체 결손 대비 유전 결손과 체성 결손의 비를 각각 λ={λgs}로 정의하였다.
모든 세포는 동일한 구성의 유전 결손을 가지고 있으므로, 유전 결손에 대한 매개변수 값 pg는 동형접합 결손(homozygous deletion)일 경우에 1, 이형접합 결손(heterozygous deletion)일 경우에 0.5가 된다.
체성 결손에 대해서는 한 쌍의 지놈에서 동일한 위치에 서로 다른 체성 결손이 우연히 생성될 확률은 0이라고 가정하여 0≤ps≤0.5의 값을 가진다고 간주하였다.
전체 결손 대비 유전 결손 및 체성 결손의 비를 나타내는 λg와 λs는 유전 결손의 수와 체성 결손의 수를 나타내는 Ng와 Ns를 둘의 합인 Ng+Ns로 나눔으로써 계산하도록 하였다. 이를 통하여, 주어진 샘플이 가지고 있는 유전 및 체성 결손의 상태를 p와 λ라는 두 매개 변수로 표현할 수 있도록 모델을 정의하였다.
S420 : 관찰된 결손 후보에 대한 확률적 추론
S300 단계에서 거짓 양성 검출을 제거하고 남은 결손 후보들에서 매 결손 후보 di에 대해 결손 주위 영역의 리드 수(ni)와 결손 영역의 감소된 리드 수(xi)를 구할 수 있다.(도 8의 (a)참조) 체성 결손을 선별해내기 위해서는 매 결손 후보에 대해 해당 후보가 유전 결손(germline heterozygous deletion)인지 체성 결손인지를 분류할 수 있어야 한다.
주어진 후보에 대한 관측값 ni와 xi를 바탕으로, 매 결손 후보의 관측값에 대한 확률을 ni 회 시도하여 xi 회 성공한 이항 분포로 근사할 수 있다. 이 경우 확률 값은 하기 식 (1)과 같은 이항 분포의 확률 질량 함수(probability mass function)로 계산할 수 있다.
식 (1) :
Figure 112014112019047-pat00006

이 때 이항 분포의 성공 확률 p는 해당 결손 후보 di가 유전 결손일 경우 pg, 체성 결손일 경우 ps를 따른다. 결손 후보 di가 유전 결손에서 나왔을 확률 혹은 체성 결손에서 나왔을 확률은 전체 결손 수 대비 해당 결손 수인 λg와 λs에 의해 결정된다. 따라서, 주어진 관측값 ni와 xi에 대한 결손 후보 di의 확률값은 하기 식 (2)와 같이 구할 수 있다.
식 (2) :
Figure 112014112019047-pat00007

주어진 매개 변수 θ={p,λ}에 대해, 우도 함수(likelihood function)는, 하기 식 (3)과 같이 각 결손 후보들에 대한 확률 값들의 곱으로 얻어진다.
식 (3) :
Figure 112014112019047-pat00008

따라서 주어진 관측 값들에 대해 최대 우도(maximum likelihood (ML))를 하기 식 (4)와 같은 제약 조건 하에 갖게 하는 매개변수 θ를 찾는 것이 풀고자 하는 문제가 된다.
식 (4) :
Figure 112014112019047-pat00009
,
Figure 112014112019047-pat00010

S430 : 모델의 매개 변수 추정과 체성 결손 후보 선정
모델의 매개 변수 p와 λ를 추정하기 위해, 가우시안 혼합 모델 (Gaussian mixture model)의 추정을 위한 EM 알고리즘 (Expectation-Maximization (EM))의 적용을 응용하였다. (도 8의 (b)참조)
먼저 도 8의 (a)와 같이, 매 결손 후보 di 마다 p의 점추정값 (point estimate)
Figure 112014112019047-pat00011
를 구하고 germline homozygous deletion으로 간주할 수 있는
Figure 112014112019047-pat00012
값이 1에 가까운 후보들은 제거한다. 여기서,
Figure 112014112019047-pat00013
이다.
결손 후보 내 각각의 매핑된 리드들은 성공확률 p(유전 결손일 경우 pg, 체성 결손일 경우 ps)를 갖는 베르누이 분포(Bernoulli distribution)를 따른다고 간주할 수 있으며, 이 때 점추정값
Figure 112014112019047-pat00014
는 베르누이 시행의 표본 평균이 된다. 따라서 점추정값
Figure 112014112019047-pat00015
의 분포는 중심 극한 정리에 따라 가우시안 분포를 따르며, 유전 결손일 경우 pg, 체성 결손일 경우 ps를 중심으로 하는 두 개의 가우시안 혼합 모델로 근사할 수 있게 된다. 이 때 분포의 상대적인 크기는, 하기의 식 (5)와 같이, 서로 다른 분포에 속할 확률 λg와 λs에 의해 결정된다.
식 (5) :
Figure 112014112019047-pat00016

가우시안 혼합 모델의 매개 변수 값들을 추정하기 위해, k=2로 EM 알고리즘을 적용할 수 있다. 추정된 매개 변수 p와 λ는 정의된 체성 결손 발생 모델에서의 p와 λ에 정확히 같은 의미로 대응된다. 추정된 매개변수를 바탕으로, 가우시안 혼합 모델의 우도와 체성 결손이 존재하지 않는다는 전제 하의 유전 결손 모델의 우도를 하기 식 (6)과 같이 계산하여 비교할 수 있다.
식 (6) :
Figure 112014112019047-pat00017

만약 유전 결손 모델의 우도 값이 혼합 모델의 우도 값보다 더 크다면, 주어진 관측값에 대해서는 체성 결손이 존재하지 않으며 모든 결손 후보는 유전 결손이라는 결론을 내린다.
만약 혼합 모델의 우도 값이 더 크다면 주어진 관측값에 대해 혼합 모델을 채택하며 매 후보의 체성 결손 후보 점수 Si를 매긴다. 체성 결손 후보 점수 Si는 하기 식 (7)에 의해 산출된다.
식 (7) :
Figure 112014112019047-pat00018

이 중 Si > 0 인 후보, 즉 혼합 모델 내에서 체성 분포에 속할 확률이 유전 분포에 속할 확률보다 높은 후보들이 최종 체성 결손 후보로 선정된다.
상기 S430단계의 내용을 도 8을 참조하여 설명하면 다음과 같다.
(a) 매 결손 후보 di에 대해, 결손 주위 영역의 리드 수(ni)와 결손 영역의 감소된 리드 수(xi)를 바탕으로 p의 점추정값
Figure 112014112019047-pat00019
(푸른색 점)를 구한다.
(b) 점추정값
Figure 112014112019047-pat00020
는 유전 분포와 체성 분포 두 개의 그룹으로 이루어진 가우시안 혼합 분포에서 유래되었다고 가정하여 최대 우도를 갖는 매개 변수를 EM 알고리즘을 통해 추정한다 (왼쪽 그림).
추정된 매개 변수를 바탕으로, 혼합 결손 모델에서의 우도(왼쪽)와 체성 결손이 없는 유전 결손 모델에서의 우도(오른쪽)를 비교한다. 만약 혼합 모델에서의 우도가 더 크다면, 매 결손 후보에 대해 체성 결손 후보 점수(Si)를 계산한다.
(c) Si > 0 인 후보, 즉 혼합 모델 내에서 체성 분포에 속할 확률이 유전 분포에 속할 확률보다 높은 후보들이 최종 체성 결손 후보로 선정된다.
실험 결과
<검증용 시뮬레이션 데이터 생성>
본 발명의 성능을 확인하기 위해, 먼저 다양한 종류의 시뮬레이션 데이터를 생성하였다. 모델의 매개변수 값인 p와 λ에 해당하는, 전체 세포 중 체성 결손을 포함하고 있는 세포의 비율과 생성된 체성 결손의 숫자를 다양하게 변화 시켜 여러 종류의 데이터를 준비하였다.
전체 세포 중 체성 결손을 포함하고 있는 세포의 비율은 0%에서 100%까지 10% 단위로 변화시켰으며, 생성된 체성 결손의 숫자는 100개부터 1000개까지 100개 단위로 변화시켰다. 이 두 변수의 조합으로 총 110 종류의 시뮬레이션 데이터를 생성하였으며, 모든 데이터 셋에서 유전 결손에 해당하는 germline heterozygous deletion과 germline homozygous deletion의 개수는 각 1000개로 고정하였다.
각 시뮬레이션 데이터 셋에 대해 자세히 살펴보면, 매 데이터 셋 마다 두 쌍의 지놈을 생성하였다. 한 쌍은 유전 결손만을 포함한 정상 세포의 지놈이며 다른 한 쌍은 체성 결손을 유전 결손과 함께 포함한 지놈으로, 이 두 지놈을 일정 비율로 섞음으로써 체성 결손을 포함하고 있는 세포의 비율을 나타내었다. 모든 지놈은 인간 레퍼런스 지놈(human reference genome)의 1번 염색체 염기 서열에 500~10kb 크기로 임의의 결손을 데이터 셋에 정해진 숫자만큼 생성해 넣음으로써 만들어졌다.
생성된 지놈을 paired-end read 형태로 만들기 위해 GemSim 프로그램을 사용하였으며, 평균 70x의 read-depth를 맞추기 위해 매 셋 마다 86,000,000 개의 paired-read들을 생성하였다. 각 데이터 셋에 정해진 체성 결손을 포함한 세포 비율을 나타내도록 해당 개수의 paired-read를 각 비율에 맞게 나누어 정상 지놈과 체성 결손 포함 지놈에서 각각 알맞은 숫자의 paired-read가 생성되도록 조절하였다. 생성된 paired-read들은 BAM 파일 형태로 준비되어 기존의 암 연구에서 사용되던 체성 결손 검출 기법들과 본 연구에서 발명된 기법에 각각 적용되어 정확률(precision), 재현률(recall), 그리고 F-score를 서로 비교하였다.
<모델의 매개변수 추정 결과>
먼저 발명된 기법의 확률 모델을 기반으로 한 매개 변수 추정의 성능을 확인하기 위해, 모든 시뮬레이션 데이터에 대해 추정된 매개 변수 값을 실제 정답과 비교하여 확인하였다. 매개 변수의 추정 결과를 일괄적으로 살펴보기 위해 열지도(heat map)를 작성하여 도시하였다.(도 9의 (a)참조)
열지도의 한 칸은 특정 데이터 셋 한 종류를 의미하며, 가로축과 세로축이 데이터 셋의 ps와 Ns 값을 나타낸다. 각 데이터 셋에 대해 매개 변수의 값이 정확하게 추정되었는지 여부뿐만 아니라 혼합 모델의 채택과 기각이 잘 이루어지는지 또한 확인하기 위하여, 혼합 모델을 기각해야 하는 경우인 체성 결손이 없는 경우 (0%, ps=0)와 모든 세포가 체성 결손을 포함하고 있어 컨트롤 조직 없이는 체성 결손을 확인할 수 없는 경우 (100%, ps=0.5)에 대한 데이터 셋도 생성하여 혼합 모델의 기각 여부를 확인하였다.
이상적인 경우에는 발명된 기법이 ps=0과 ps=0.5 인 경우를 제외한 모든 데이터 셋에 대하여 혼합 모델을 채택하여야 한다. 실험 결과에서는 발명된 기법이 ps=0과 ps=0.5 인 데이터 셋의 경우, 성공적으로 혼합 모델을 기각하는 것을 확인할 수 있었으나, ps=0.4와 ps=0.45인 데이터 셋의 일부 또한 혼합 모델이 기각된 것을 확인할 수 있었다. 혼합 모델의 잘못된 기각 현상이 나타난 이유를 분석하기 위하여, 잘못된 기각 현상을 보인 데이터 셋들에 대해 각각의 체성 분포와 유전 분포를 도시하여 보았다.(도 9의 (b)참조)
이들 중 적은 수(Ns)의 체성 결손이 생성된 데이터 셋들의 경우, 체성 결손 분포가 유전 결손 분포에 포함되어 두 분포의 구분이 사실상 불가능 한 경우가 많았다. ps=0.4와 ps=0.45인 경우라도 충분히 많은 수(Ns)의 체성 결손이 생성된 데이터 셋들의 경우에는 두 분포가 명확하게 구분되어 혼합 모델을 채택한 것을 확인할 수 있었다.
또한, ps<0.35인 데이터 셋들은 생성된 체성 결손의 수와 관계없이 모든 영역에서 혼합 모델이 완벽하게 채택된 것을 볼 때, 본 발명의 주요 목표인 낮은 빈도의 체성 결손이 생성된 경우에 대해 정확하게 동작하는 것을 확인하였다.
각 칸에서 색상의 농도는 해당 데이터 셋의 ps 값을 얼마나 정확하게 추론하였는지를 나타낸다. 각 데이터 셋 간의 최소 ps 값 편차가 0.05이므로, 추정된 값이 정답과 0.05 이상의 오차를 보일 경우 잘못된 추정으로 판단하여 백색으로 나타나도록 색상의 농도를 표준화하였다. 추정값과 정답간의 절대 편차의 평균이 0.005 미만으로, 본 발명의 매개 변수 추정의 정확성을 확인할 수 있다. (표 2 참조)
[표 2]모든 시뮬레이션 데이터 셋에 대한 매개 변수 추정값과 실제값
Figure 112014112019047-pat00021

<체성 결손 검출의 성능 확인>
본 발명의 체성 결손의 검출 성능을 확인하기 위해, 모든 시뮬레이션 데이터에 대해 발명된 기법을 적용하여 각각의 체성 결손 후보를 검출하고 이를 정답과 비교하였다. 추론된 결손 후보가 해당하는 정답 결손과 서로 50% 이상 중첩될 경우, 올바른 추론으로 간주하였다. 추론된 결과를 바탕으로 발명된 기법의 정확률 (precision), 재현률 (recall), F-score를 측정하였다.
기존의 암 연구에서 사용되던 다양한 체성 결손 검출 기법들 중 최근의 리뷰 논문에서 상대적으로 좋은 성능을 평가받은 Control-FreeC, BIC-seq, VarScan2, COPS가 성능의 비교 대상으로 선정되었다. 발명된 기법은 컨트롤 조직의 데이터를 필요로 하지 않는데 반해 기존 기법들은 모두 컨트롤 데이터를 반드시 필요로 함에 따라, 모든 시뮬레이션 데이터 셋에서 컨트롤 조직의 데이터를 추가로 생성하여 기존 기법들에 적용하였다. 이 중 Varscan2와 COPS는 실제 정답에 해당하는 체성 결손을 전혀 찾지 못함에 따라, Control-FreeC와 BIC-seq의 성능만이 발명된 기법과 비교되었다. (도 10 참조)
발명된 기법에서 높은 빈도의 체성 결손 (ps>0.4) 데이터 중 일부에 대해 혼합 모델을 잘못 기각한 경우에 대해서는 성능 측정이 불가능하므로, 해당 측정값들은 0으로 처리하였다.
정확률 (precision)의 경우, BIC-seq의 경우에는 모든 면에 있어 발명된 기법과 Control-FreeC에 비해 낮은 성능을 보였다. Control-FreeC는 대부분의 데이터 셋에 대해 발명된 기법과 유사한 수준의 정확률을 보였으나, 본 발명의 주요 목표인 낮은 빈도의 체성 결손이 생성된 데이터 셋들에 대해서는 매우 낮은 성능을 보였다. 특히 기존 기법들의 경우에는 30% 미만의 체성 결손을 포함한 세포 빈도 데이터 셋에 대해 정답 결손을 하나도 검출하지 못한 것을 확인하였다.
발명된 기법의 경우 혼합 모델의 오기각을 포함한 높은 빈도의 체성 결손 데이터 셋을 제외한 경우에는 모든 데이터 셋에서 기존 기법들을 상회하는 성능을 보였다. 재현률 (recall)과 F-score의 경우에는 혼합 모델의 오기각 데이터를 제외한 모든 데이터 셋에서 발명된 기법이 기존 기법들에 비해 훨씬 뛰어난 성능을 보였다. 이와 같이 대부분의 데이터 셋에 대해 발명된 기법이 컨트롤 조직이 없는 열악한 조건임에도 우수한 성능을 보이는 것을 확인할 수 있다.
<다수의 하위 군집을 가진 혼합 조직에 대한 성능 검증>
발명된 기법에서는 주어진 혼합 조직 내의 결손이 두 개의 군집(돌연변이에 영향을 받은 세포 군집(도 7(a)의 우측), 돌연변이 영향이 없는 세포 군집(도 7(a)의 좌측))에서 유래되었다고 가정한다. 그러나 암을 포함한 여러 질병에서는 혼합 조직이 두 개의 군집이 아니라 그 이상의 군집에 의해 형성되는 관찰도 보고되고 있다. 이러한 상황에서도 발명된 기법이 잘 동작하는지를 확인하기 위하여, 다수의 하위 군집을 가진 혼합 조직을 시뮬레이션 데이터로 모사하고 이를 발명된 기법에 적용하여 성능을 확인하였다.
실제에 가까운 다수의 하위 군집을 가진 혼합 조직을 시뮬레이션 데이터로 모사하기 위해, 논문(Ding et al. Clonal evolution in relapsed acute myeloid leukaemia revealed by whole-genome sequencing, Nature, 2012)에서 발표된 암 조직 케이스를 바탕으로 군집을 재현하였다. 발표된 케이스의 경우 4개의 하위 군집으로 혼합 조직이 구성되었으며, 각각의 비율이 체성 단일염기변이의 빈도를 토대로 측정되었다.
시뮬레이션 데이터는 체성 단일염기변이 대신 체성 결손을 삽입하여 4개의 하위 군집을 기존과 동일한 빈도로 생성하였으며, 생성된 체성 결손의 숫자는 논문(Ding et al. Clonal evolution in relapsed acute myeloid leukaemia revealed by whole-genome sequencing, Nature, 2012)에서 검증에 사용된 체성 단일염기 변이의 개수 비에 맞춰서 결정하였다. (도 11 및 표 3 참조).
[표 3] 생성된 시뮬레이션 데이터의 하위 군집 구성에 대한 정보
Figure 112014112019047-pat00022

생성된 시뮬레이션 데이터는 앞서와 같이 발명된 기법과 기존 기법에 적용하여 각각의 정확률과 재현률, F-score를 측정하여, 비교하였다.
BIC-seq의 경우 해당 혼합 조직 데이터에 대하여 아무런 정답 체성 결손을 추론해내지 못하여 최종 결과에서 제외하였다. 주어진 데이터가 가정과 다르게 다수의 하위 군집으로 구성되어 있음에도 불구하고, 발명된 기법을 통해 정답 체성 결손의 추론이 상당한 수준의 성능으로 이루어짐을 확인하였다.
기존 기법인 Control-FreeC와 비교하였을 때 모든 면에서 더 뛰어난 성능을 보였으며, Control-FreeC의 경우 정확률에서는 비슷한 성능을 보여 주었지만 예상대로 군집 P3, P4에서 유래한 낮은 빈도의 체성 결손을 잡아내지 못함에 따라 낮은 수준의 재현률과 F-score를 보였다. 본 결과를 통해 체성 결손의 검출에 적절한 확률 모델의 도입의 필요성을 확인할 수 있다.
<실제 뇌질환 데이터에서의 체성 결손 검출>
낮은 빈도의 체성 결손을 실제 데이터에서 검출하는 것은 쉽지 않은 일이며, 아직까지 이러한 체성 결손을 검출할 수 있는 알고리즘의 개발과 검증에 대해 보고된 바가 없다. 기존의 암 연구용 체성 결손 검출 기법들은 주로 SNP 칩을 통해 생성된 체성 결손의 존재 여부를 검증 하였으나, 이러한 칩 기반의 검증은 본 발명에서 초점을 맞추고 있는 낮은 빈도의 결손들은 잡아낼 수 없다는 한계가 있다. 최근 연구 중 알고리즘에 기반하지 않고 연구자의 경험적 판단을 바탕으로 소수의 낮은 빈도의 체성 결손을 성공적으로 검증한 사례가 있음에 따라, 해당 데이터를 발명된 기법을 통해 분석하고 이전 연구에서 검증된 체성 결손을 얼마나 포함하고 있는지를 확인하였다.
해당 연구의 데이터는 2명의 정신분열증 환자와 2명의 정상인의 전두엽 시퀀싱 데이터로 구성되어있으며, 해당 연구에서 정신분열증 환자로부터 각각 15개와 18개의 체성 결손 후보를 경험적으로 추론하고 이 중 각 1개씩을 실험적으로 검증하였다. 정상인의 경우에는 각각 29개와 18개의 체성 결손 후보가 추론되었으며, 이 중 각 2개씩을 실험적으로 검증하였다. 이에 따라 해당 연구에서는 생성된 체성 결손의 숫자와 질병 유무의 관련성은 찾을 수 없다고 보고하였다. 그러나 발명된 기법을 토대로 해당 데이터를 분석할 경우 정신분열증 환자에서 각각 382개와 346개의 체성 결손 후보가 추론되었으며, 정상인의 경우에는 각각 287개와 238개의 체성 결손 후보가 추론됨으로써 정신분열증 환자의 경우 약 1.5배 많은 후보들이 추론되어 질병과의 연관성에 대한 가능성을 제시하였다.
다음으로 발명된 기법의 성능을 간접적으로 확인하기 위해, 실험적으로 검증된 6개의 후보가 발명된 기법에서 체성 결손으로 추론되었는지를 확인하였다. (표 4 참조)
[표 4]기존 연구에서 실제로 검증되었던 체성 결손 후보 리스트
Figure 112014112019047-pat00023

모든 후보가 결손 후보로서 빠짐없이 검출 되었으며, 6개 중 5개가 발명된 기법에서도 체성 결손으로 추론되었다. 유전 결손으로 잘못 추론된 1개 결손 후보의 경우에는 해당 영역에서의 시퀀싱 데이터 리드 수의 편차가 너무 커 그에 대한 페널티로 체성 결손 후보에서 탈락하였으며, 실제로 그 이상의 빈도를 보인 후보에 대해 체성 결손으로 분류함으로써 체성 결손의 빈도 추론(
Figure 112014112019047-pat00024
) 또한 이상이 없음을 확인하였다. 실험적으로 검증된 후보들이 다양한 빈도에서 유래된 체성 결손들임을 감안할 때, 발명된 기법의 편중되지 않은 성능을 실제 데이터를 통해 간접적으로 확인하였다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (10)

  1. 정상 세포 및 뇌질환을 포함하는 질병 세포의 혼합 조직을 컨트롤 조직 없이 시퀀싱한 시퀀싱 데이터 입력 단계;
    상기 입력된 시퀀싱 데이터에 대해 변칙 맵 판독기법(anomaly mapped read) 기법을 적용하여 결손 후보들을 검출하는 단계;
    상기 검출된 결손 후보들 각각에 대해 반복 서열에 의해 발생한 것인지를 판단하여 거짓 양성 검출을 제거하는 단계; 및,
    거짓 양성 검출을 제거하고 남은 결손 후보들에 대해, 조직의 전체 지놈 중 유전 결손과 체성 결손을 포함하고 있는 지놈의 비를 정의한 p={pg, ps}와 전체 결손 대비 유전 결손과 체성 결손의 비를 정의한 λ={λg, λs}를 이용한 확률 모델을 기반으로 추정 매개 변수값을 산출하고, 상기 추정 매개 변수값을 이용하여 체성 결손의 존재 여부를 판단하는 단계 (여기서 상기 pg는 유전 결손에 대한 매개 변수이고, 상기 ps는 체성 결손에 대한 매개 변수이며, 상기 λg는 전체 결손 대비 유전 결손의 비이고, 상기 λs는 전체 결손 대비 체성 결손의 비임);
    를 포함하고,
    상기 ps는,
    0≤ps≤0.5의 값을 가지는 것을 특징으로 하는 체성 결손 검출 방법.
  2. 청구항 1에서,
    상기 시퀀싱 데이터 입력 단계는,
    뇌질환을 포함하는 정상 세포와 질병 세포의 혼합 조직을 페어드-엔드 시퀀싱(paired-end sequencing) 기법으로 시퀀싱하는 것을 특징으로 하는 체성 결손 검출 방법.
  3. 청구항 1에서,
    상기 거짓 양성 검출을 제거하는 단계는,
    각각의 결손 후보들에 대해, 예측 결손 지점에서의 염기 서열과 결손이 발생하지 않았을 경우에 해당하는 지점의 염기 서열을 비교하여, 예측된 지점에서 서로 유사한 반복 서열이 발견될 경우, 서로 일치하는 염기 서열의 길이를 측정하여 측정값이 리드(read) 길이의 90%를 넘으면 해당 결손 후보는 반복 서열에 의한 거짓 양성 검출로 판단하여 제거하는 것을 특징으로 하는 체성 결손 검출 방법.
  4. 청구항 1에서,
    상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 pg는,
    homozygous deletion일 경우에 1로 산출하고, heterozygous deletion일 경우에 0.5로 산출하는 것을 특징으로 하는 체성 결손 검출 방법.
  5. 삭제
  6. 청구항 1에서,
    상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 λg와 λs는,
    유전 결손의 수(Ng)와 체성 결손의 수(Ns)를 나타내는 Ng와 Ns를 둘의 합인 Ng+Ns로 나누어서 산출되는 것을 특징으로 하는 체성 결손 검출 방법.
  7. 청구항 1에서,
    상기 체성 결손의 존재 여부를 판단하는 단계에서, 상기 매개 변수(pg, ps, λg, λs)의 추정은,
    각각의 결손 후보(di)에 대해, 결손 주위 영역의 리드 수(ni)와 결손 영역의 감소된 리드 수(xi)를 바탕으로 p의 점추정값
    Figure 112014112019047-pat00025
    (=xi/ni)를 구한 후, 하기의 수학식 (1)을 이용하여 최대 우도(maximum likelihood)를 갖는 추정 매개 변수값(L(θ)mixed)을 산출하는 것을 특징으로 하는 체성 결손 검출 방법:
    수학식 (1) :
    Figure 112014112019047-pat00026

  8. 청구항 7에서,
    상기 산출된 추정 매개 변수(L(θ)mixed)와, 하기의 수학식 (2)를 이용하여 산출된 체성 결손이 존재하지 않는 유전 결손 모델에서의 우도값((L(θ)g))을 비교하는 단계를 더 포함하는 것을 특징으로 하는 체성 결손 검출 방법:

    수학식 (2) :
    Figure 112014112019047-pat00027

  9. 청구항 8에서,
    상기 비교 결과, 상기 우도값((L(θ)g))이 상기 추정 매개 변수값(L(θ)mixed)보다 더 큰 경우, 상기 거짓 양성 검출 제거한 후, 남은 결손 후보들에는 체성 결손이 존재하지 않는다고 판단하는 것을 특징으로 하는 체성 결손 검출 방법.
  10. 청구항 8에서,
    상기 비교 결과, 상기 추정 매개 변수값(L(θ)mixed)이 더 큰 경우, 각각의 결손 후보에 대해, 하기의 수학식 (3)을 이용하여 체성 결손 후보 점수(Si)를 산출하고, 산출된 체성 결손 후보 점수(Si)가 0보다 크면, 해당 결손 후보를 최종 체성 결손 후보로 검출하는 것을 특징으로 하는 체성 결손 검출 방법:

    수학식 (3) :
    Figure 112014112019047-pat00028


KR1020140162533A 2014-11-20 2014-11-20 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법 KR101707536B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140162533A KR101707536B1 (ko) 2014-11-20 2014-11-20 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140162533A KR101707536B1 (ko) 2014-11-20 2014-11-20 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법

Publications (2)

Publication Number Publication Date
KR20160060361A KR20160060361A (ko) 2016-05-30
KR101707536B1 true KR101707536B1 (ko) 2017-02-16

Family

ID=57124549

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140162533A KR101707536B1 (ko) 2014-11-20 2014-11-20 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법

Country Status (1)

Country Link
KR (1) KR101707536B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006508632A (ja) * 2002-03-01 2006-03-16 ラブジェン, インコーポレイテッド 遺伝子疾患の検出法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006508632A (ja) * 2002-03-01 2006-03-16 ラブジェン, インコーポレイテッド 遺伝子疾患の検出法

Also Published As

Publication number Publication date
KR20160060361A (ko) 2016-05-30

Similar Documents

Publication Publication Date Title
CN112888459B (zh) 卷积神经网络系统及数据分类方法
CN109767810B (zh) 高通量测序数据分析方法及装置
CN106909806A (zh) 定点检测变异的方法和装置
CN105392894B (zh) 确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
CN110444255A (zh) 基于二代测序的生物信息质控方法、装置和存储介质
Baladandayuthapani et al. Bayesian random segmentation models to identify shared copy number aberrations for array CGH data
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CN105404793B (zh) 基于概率框架和重测序技术快速发现表型相关基因的方法
KR102035615B1 (ko) 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Lynch et al. Quantifying chromosomal instability from intratumoral karyotype diversity using agent-based modeling and Bayesian inference
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
KR101936933B1 (ko) 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
CN111304308A (zh) 一种审核高通量测序基因变异检测结果的方法
CN115620812B (zh) 基于重采样的特征选择方法、装置、电子设备和存储介质
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN114566211A (zh) 基于生物网络与机器学习的合成致死基因组合预测系统
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
Huang et al. Cause of gene tree discord? Distinguishing incomplete lineage sorting and lateral gene transfer in phylogenetics
CN108875307A (zh) 一种基于孕妇外周血中胎儿游离dna的亲子鉴定方法
KR101707536B1 (ko) 컨트롤 조직 부재 샘플 내 낮은 빈도의 체성 결손 검출 방법
CN116364179A (zh) 结直肠癌预后标志物筛选系统及方法、结直肠癌预后风险评估系统
US20180247019A1 (en) Method for determining whether cells or cell groups are derived from same person, or unrelated persons, or parent and child, or persons in blood relationship
CN106570350A (zh) 单核苷酸多态位点分型算法
CN114067908A (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200129

Year of fee payment: 4

R401 Registration of restoration