KR101795124B1 - 복제 수 변이를 검측하기 위한 방법 및 시스템 - Google Patents

복제 수 변이를 검측하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR101795124B1
KR101795124B1 KR1020147031062A KR20147031062A KR101795124B1 KR 101795124 B1 KR101795124 B1 KR 101795124B1 KR 1020147031062 A KR1020147031062 A KR 1020147031062A KR 20147031062 A KR20147031062 A KR 20147031062A KR 101795124 B1 KR101795124 B1 KR 101795124B1
Authority
KR
South Korea
Prior art keywords
unique sequence
cnv
indices
sample
breakpoint
Prior art date
Application number
KR1020147031062A
Other languages
English (en)
Other versions
KR20140140122A (ko
Inventor
수차오 리
셩페이 천
팡 천
웨이웨이 씨에
지엔 왕
준 왕
환밍 양
슈칭 장
Original Assignee
비지아이 다이어그노시스 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비지아이 다이어그노시스 씨오., 엘티디. filed Critical 비지아이 다이어그노시스 씨오., 엘티디.
Publication of KR20140140122A publication Critical patent/KR20140140122A/ko
Application granted granted Critical
Publication of KR101795124B1 publication Critical patent/KR101795124B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

본 발명은 게놈 복제 수 변이(copy number variation, CNV)를 검측하기 위한 방법 및 시스템에 관한 것이며, 생물정보학 분야에 관련된 것이다. 상기 방법은 시퀀싱 데이터를 획득하는 단계; 상기 시퀀싱 데이터에 따라 시퀀스 라벨을 측정하는 단계; 각 윈도우에 놓이는 시퀀스 라벨의 수를 계산하는 단계; 각 윈도우의 시퀀스 라벨 수에 GC 교정을 수행하고 대조 샘플 세트로 교정된 기대 시퀀스 라벨 수에 따라 교정을 수행하여 교정된 시퀀스 라벨 수를 획득하는 단계; 작은 현저한 차이값을 가지는 경계 지점을 선별하여 CNV 중지점의 후보로 하는 단계; 매 차례 가장 작은 현저한 차이성을 가지는 후보 CNV 중지점을 제거하고, 제거된 후보 CNV 중지점의 왼쪽과 오른쪽의 두 개의 후보 CNV 중지점의 서로 다른 현저한 차이값을 업데이트하고, 모든 후보 CNV 중지점이 종결 역치값보다 작아질 때까지 순환 반복을 수행하여 CNV 중지점을 확정하는 단계를 포함한다. 본 발명의 방법 및 시스템은 임상 실행가능성을 가지며, 약 50M의 데이터를 사용하는 상황 하에서 0.5M의 미세-결실/미세-중복 영역을 정확하게 검측할 수 있다.

Description

복제 수 변이를 검측하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR DETECTING COPY NUMBER VARIATION}
본 발명의 구현은 일반적으로 생물정보학 분야, 더욱 상세하게는 복제 수 변이(copy number variation, CNV)를 검측하는 방법 및 그것의 시스템에 관한 것이다.
복제 수 변이(CNV)는 염색체 내에서의 DNA 단편의 복제 수 변화의 존재와 같은 좁은 정의를 가지는 게놈 구조 변이들(genome structure variations) 중 하나이다. 게놈 구조 변이의 형태 및 이유는: 1. 결실(Deletion)(말단 결실(terminal deletion), 중간 결실(interstitial deletion)); 2. 전좌(Translocation)(상호 전좌(reciprocal translocation), 로버소니안 전좌(Robertsonian translocation)); 3. 역위(Inversion); 4. 환상 염색체(Ring chromosome); 5. 2동원체 염색체(Dicentric chromosome); 6. 삽입(Insert) 등을 포함할 수 있다. CNV의 일반적인 정의는 또한 예를 들어, 염색체 이수성(chromosome aneuploidy) 및 부분적 이수성(partial aneuploidy)과 같은 구조적 변이를 포함한다.
복제 수 변이를 검측하는 최근의 방법은 주로 고해상도 염색체 핵형 분석(high resolution chromosome karyotype analysis), 형광 동소 혼성화(fluorescence in situ hybridization, FISH), 배열 비교 게놈 혼성화(array comparative genomic hybridization, Array CGH), 다중 결찰-의존성 프로브 증폭법(Multiplex Ligation-Dependent Probe Amplification, MLPA) 및 중합효소 연쇄반응법(Polymerase Chain Reaction, PCR) 등을 포함하며, 여기에서 FISH 검측법은 알려진 염색체의 결실 또는 반복의 대부분을 확정하는데 효과적으로 사용될 수 있는, 유전자 진단법에 있어서의 최적 표준(gold standard)으로 간주된다. 그러나, 이러한 방법은 일반적으로, 특히 전체 게놈 레벨에서의 완벽한 선별(scanning)의 경우에 있어서, 더 많은 자원을 소비하거나 미지의 CNV를 검측할 수 없는 낮은 성능의 단점을 가진다.
따라서, 알려진 부위를 확인하고 미지의 부위를 찾아내기 위하여 복제 수 변이를 검측하는 새로운 방법의 개발이 매우 시급하다.
요약
본 발명에 의해 해결될 한 기술적 문제는 미세 결실(micro-deletion) 및 미세 복제(micro-duplication)를 포함하는 복제 수 변이를 정확하게 검측할 수 있는, 복제 수 변이를 검측하는 방법 및 그것의 시스템을 제공하는 것이다.
본 발명의 첫 번째 전반적 양상의 구현들은 복제 수 변이를 검측하는 방법을 제공한다. 본 발명의 구현에 따르면, 상기 방법은 하기 단계들:
샘플의 핵산 분자(nucleic acid molecule)의 적어도 일부분으로부터 시퀀싱 데이터(reads)를 획득하는 단계,
상기 획득된 시퀀싱 데이터에 기초하여 (게놈) 참조 시퀀스(reference sequence)에 비교 대조된 유일한(uniquely-mapped) 시퀀싱 데이터를 확정하는 단계,
게놈 참조 시퀀스를 복수의 윈도우(window)로 나누고 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하는 단계,
복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정(GC correction)하고, 대조 세트(control set)에 의해 교정된 유일한 시퀀스 인덱스의 기대 수(expected number)에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수(corrected number)를 획득하는 단계,
복수의 윈도우 매개의 시작 지점(starting point) 또는 종결 지점으로 선택될 경계 지점(demarcation point)을 이용하여 경계 지점의 양측에서 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단의 현저한 차이성(significance)을 계산하여 더 작은 현저한 차이값을 가지는 종결 지점(terminal point)을 선택하여 CNV 중지점(breakpoint)의 후보로 하는 단계,
각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여, 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성을 계산하는 단계, 및
매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성을 재계산하고, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값(final cut-off)보다 작아질 때까지 순환(cycling) 및 반복(iterating)하여 CNV 중지점을 확정하는 단계를 포함할 수 있다.
선택적으로, 상기 방법은 샘플의 핵산 분자의 적어도 일 부분을 시퀀싱(sequencing)하여 시퀀싱 데이터를 획득하는 단계를 더 포함할 수 있다.
선택적으로, 복수의 윈도우 매개는 동일한 수의 참조 유일 시퀀스 인덱스(reference unique reads)를 포함할 수 있거나, 복수의 윈도우 매개는 동일한 길이(length)를 가질 수 있다.
선택적으로, 상기 최종 절사 값은 정상 샘플로 이루어진 대조 세트에 기초하여 획득될 수 있다.
선택적으로, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정(GC correction)하고, 대조 세트(control set)에 의해 교정된 유일한 시퀀스 인덱스의 기대 수(expected number)에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수(corrected number)를 획득하는 단계는, GC 함량(GC content)에 기초하여 복수의 윈도우를 분류하고, 한 그룹 내에서의 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우에 대한 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수(correction coefficient)를 획득한 후, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하여 유일한 시퀀스 인덱스의 GC-교정된 수를 획득하는 것을 더 포함할 수 있다.
선택적으로, 상기 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수는 하기의 단계들:
유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트 내의 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 GC-교정된 수의 비율을 계산하는 단계;
상기 대조 세트에 대응하는 모든 윈도우들에 대한 비율의 평균값을 획득하는 단계; 및
상기 획득된 비율의 평균값과 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하는 단계에 의해 획득될 수 있다.
선택적으로, CNV 중지점이 확정된 후, 상기 방법은 두 개의 CNV 중지점 사이에 있는 시퀀스를 신뢰도 선별(confidence selection)하는 것을 더 포함할 수 있으며, 여기에서, 상기 신뢰도 선별은,
교정된 유일한 시퀀스 인덱스의 수의 분포(distribution)에 기초하여, 대조 세트를 이용하여 정상적으로 교정된 유일한 시퀀스 인덱스의 수의 신뢰구간(confidence interval)을 확정하는 단계; 및
만약 시퀀스 안에서 교정된 유일한 시퀀스 인덱스의 수의 평균값이 신뢰구간의 바깥에 있다면, 두 개의 CNV 중지점 사이에 있는 시퀀스에 존재하는 이상(abnormality)을 확정하는 단계를 포함한다.
선택적으로, 상기 교정된 유일한 시퀀스 인덱스의 수는 정규 분포(normal distribution)에 부합할 수 있고, 상기 신뢰구간은 95%일 수 있다.
선택적으로, 단일 염색체 또는 전체 게놈을 이용한 환화(cyclization)는 CNV 중지점의 후보를 선별할 때 수행될 수 있다.
선택적으로, 상기 방법은, 인간으로부터 양수검사(amniocentesis)에 의해 획득된 양수(amniotic fluid), 융모막 융모 채취(chorionic villi sampling)에 의해 획득된 융모(villus), 경피하 제대혈 채취(percutaneous umbilical blood sampling)에 의해 획득된 제대혈(umbilical cord blood), 자연적으로 유산된 태아 조직(spontaneous miscarrying fetus tissue) 또는 인간의 말초 혈액(human peripheral blood)을 포함하는 샘플을 획득하고/획득하거나, 염석법(salting-out method), 컬럼 크로마토그래피법(column chromatography method), 비드법(beads method) 또는 SDS법과 같은 DNA 추출법에 의해 샘플의 게놈 DNA를 획득하고/획득하거나, 샘플의 게놈 DNA를 효소적 절단, 분쇄(pulverization), 초음파(ultrasound) 또는 하이드로쉐어법(HydroShear method)으로 무작위로 단편화하여 DNA 단편을 획득하고/하거나; DNA 단편을 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing)하여 DNA 단편 시퀀싱 데이터를 획득하는 단계를 더 포함할 수 있다.
선택적으로, 상기 방법은 각 샘플의 DNA 단편에 서로 다른 인덱스(index)를 첨가하여 서로 다른 샘플을 구별하는 것을 더 포함할 수 있다.
본 발명의 두 번째 전반적 양상의 구현들은 복제 수 변이를 검측하기 위한 시스템을 제공한다. 본 발명의 구현에 따르면, 상기 시스템은
샘플의 핵산 분자의 적어도 일 부분으로부터 시퀀싱 데이터를 획득하기 위한, 시퀀싱 데이터를 획득하는 유닛;
획득된 시퀀싱 데이터에 기초하여 게놈 참조 시퀀스에 비교 대조된 유일한 시퀀스 인덱스를 확정하기 위한, 유일한 시퀀스 인덱스를 확정하는 유닛;
게놈 참조 시퀀스를 복수의 윈도우로 나누고 상기 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하기 위한, 유일한 시퀀스 인덱스의 수를 계산하는 유닛;
복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고, 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위한, 유일한 시퀀스 인덱스의 수를 교정하는 유닛;
복수의 윈도우 매개의 시작 지점 또는 종결 지점으로 선택될 경계 지점을 이용하여 경계 지점의 양측에서 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단의 현저한 차이성을 계산하여, 더 작은 현저한 차이값을 가지는 경계 지점을 선택하여 CNV 중지점의 후보로 하기 위한, 중지점의 후보를 선택하는 유닛;
각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성을 계산하고, 매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성을 재계산하고, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값보다 작아질 때까지 순환 및 반복하여 CNV 중지점을 확정하기 위한, 중지점을 확정하는 유닛을 포함할 수 있다.
선택적으로, 복수의 윈도우 매개는 동일한 수의 참조 유일 시퀀스 인덱스를 포함할 수 있거나, 복수의 윈도우 매개는 동일한 길이를 가질 수 있다.
선택적으로, 상기 최종 절사 값은 정상 샘플로 이루어진 대조 세트에 기초하여 획득될 수 있다.
선택적으로, 유일한 시퀀스 인덱스의 수를 교정하는 유닛은,
GC 함량에 기초하여 복수의 윈도우 매개를 분류하고, 한 그룹 내에서의 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수를 획득한 후, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하여 유일한 시퀀스 인덱스의 GC-교정된 수를 획득하기 위한, GC 교정 모듈(GC correction module);
유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트 내의 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 GC-교정된 수의 비율을 계산하고, 상기 대조 세트에 대응하는 모든 윈도우들에 대한 비율의 평균값을 획득하고, 상기 획득된 비율의 평균값과 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하기 위한, 윈도우 교정 모듈(window correction module)을 포함한다.
선택적으로, CNV 중지점이 중지점을 확정하는 유닛에 의해 확정된 후, 상기 시스템은, 교정된 유일한 시퀀스 인덱스의 수의 분포에 기초하여, 대조 세트를 이용하여 정상적으로 교정된 유일한 시퀀스 인덱스의 수의 신뢰구간을 확정하고, 만약 시퀀스 안에서 교정된 유일한 시퀀스 인덱스의 수의 평균값이 신뢰구간의 바깥에 있다면, 두 개의 CNV 중지점 사이에 있는 시퀀스에 존재하는 이상(abnormality)을 확정하기 위한, 중지점 필터링 유닛(breakpoint filtering unit)을 더 포함할 수 있다.
선택적으로, 상기 교정된 유일한 시퀀스 인덱스의 수는 정규 분포에 부합할 수 있고, 신뢰구간은 95%일 수 있다.
선택적으로, 중지점의 후보를 선별하는 유닛에서, 단일 염색체 또는 전체 게놈을 이용한 환화(cyclization)는 CNV 중지점의 후보를 선별할 때 수행된다.
선택적으로, 상기 시스템은,
인간으로부터 양수검사에 의해 획득된 양수, 융모막 융모 채취에 의해 획득된 융모, 경피하 제대혈 채취에 의해 획득된 제대혈, 자연적으로 유산된 태아 조직 또는 인간의 말초 혈액을 포함하는 샘플을 획득하기 위한 수단(means); 및/또는
염석법, 컬럼 크로마토그래피법, 비드법 또는 SDS법과 같은 DNA 추출법에 의해 샘플의 게놈 DNA를 획득하기 위한 수단; 및/또는
샘플의 게놈 DNA를 효소적 절단, 분쇄, 초음파 또는 하이드로쉐어법으로 무작위로 단편화하여 DNA 단편을 획득하는 수단; 및/또는
DNA 단편을 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱하여 DNA 단편 시퀀싱 데이터를 획득하기 위한 수단을 더 포함할 수 있다.
선택적으로, 각 샘플의 DNA 단편에 서로 다른 인덱스를 첨가하여 서로 다른 샘플들을 구별할 수 있다.
본 발명의 구현에 따른 복제 수 변이를 검측하는 방법 및 그것의 시스템의 이점들 중 하나는 임상 실행가능성(clinical feasibility)을 가지는 것에 있으며, 미세 결실(micro-deletion) 및 미세 복제(micro-duplication)를 포함하는 복제 수 변이를 정확하게 검측할 수 있다.
본 발명의 구현의 이들 양상 및 이점들은 첨부되는 도면에 의거한 하기의 설명으로부터 명확해질 것이며 더욱 쉽게 이해될 것이다.
도 1은 본 발명의 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다.
도 2는 본 발명의 다른 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다.
도 3은 본 발명의 또 다른 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다.
도 4는 본 발명의 구현에 따른 염색체 CNV 분석 방법을 나타내는 간략 흐름도이다.
도 5는 본 발명의 구현에 따른 복제 수 변이를 검측하는 시스템을 나타내는 개략도이다.
도 6은 본 발명의 다른 구현에 따른 복제 수 변이를 검측하는 시스템을 나타내는 개략도이다.
도 7a-7h는 본 발명의 실시예에서의 8개 샘플 각 검측 결과를 나타낸 것이다.
본원에서 사용된 용어들은 하기와 같이 설명된다:
복제 수 변이(Copy number variation, CNV)는 정상 샘플의 핵산 시퀀스와 테스트 될 샘플의 핵산 시퀀스를 비교하여 획득된 1kb 이상의 핵산 분자 길이를 가지는 복제 수의 변화를 말한다. 복제 수 변이의 사례 및 이유는 미세 결실(micro-deletion)과 같은 결실(deletion); 미세 삽입(micro-insert)과 같은 삽입(insert), 미세 복제(micro-duplication), 복제(duplication), 역위(inversion), 전위(transposition) 및 복잡한 다부위 변이(multi-site variation)를 포함할 수 있다.
이수성(Aneuploidy)은 정상적인 샘플과 비교하여 보았을 때 유전 물질(genetic material)에 존재하는 염색체 수의 추가 또는 감소를 말할 수 있고, 전체 또는 부분적인 염색체의 추가 또는 감소를 더 포함할 수 있다. 본 발명와 관련된 복제 수 변이 또한 이수성의 경우를 포함할 수 있다.
시퀀싱(sequencing)은 샘플의 핵산 시퀀스의 정보를 획득하는 과정이다. 상기 시퀀싱은 차세대 시퀀싱(Next-Generation sequencing) 기술 또는 단일 분자 시퀀싱(single molecule sequencing) 기술을 포함하지만 이에 한정되지 않으며, 디데옥시 연쇄 종결반응(dideoxy chain termination); 바람직하게는 고효율 시퀀싱 방법을 포함하나 이로 한정되지 않는 다양한 방법들에 의해 수행될 수 있다.
차세대 시퀀싱 플랫폼(Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan; 11(1):31-46)은 일루미나 솔렉사(Illumina-Solexa)(GATM, HiSeq2000TM, etc), ABI-솔(ABI-Solid) 및 로셰-454(피로시퀀싱(pyrosequencing)) 시퀀싱 플랫폼을 포함하나 이로 한정되는 것은 아니며; 단일 분자 시퀀싱 플랫폼(기술)은 헬리코스 컴퍼니(Helicos Company)의 트루 단일 분자 DNA 시퀀싱, 퍼시픽 바이오사이언스 컴퍼니(Pacific Biosciences Company)의 단일 분자 실시간(single molecule real-time, SMRTTM) 시퀀싱, 및 옥스포드 나노포어 테크놀로지스 컴퍼니(Oxford Nanopore Technologies Company)의 나노포어 시퀀싱 기술(Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 2446 (4)) 등을 포함하나 이로 한정되는 것은 아니다.
시퀀싱의 형태는 싱글-엔드(single-end) 시퀀싱 및 페어-엔드(pair-end) 시퀀싱일 수 있으며, 시퀀싱의 길이는 50 bp, 90 bp 또는 100 bp일 수 있다. 본 발명의 구현에서, 시퀀싱 플랫폼은 일루미나/솔렉사이고, 시퀀싱의 형태는 양방향 위치(bidirectional position)의 관계를 이용하여 100 bp의 길이를 가지는 DNA 시퀀스 분자를 획득하기 위한 페어-엔드 시퀀싱이다.
본 발명의 구현에서, 시퀀싱 배수(sequencing depth)는 테스트 될 샘플의 염색체에 있는 변이 단편(variation fragment)의 길이에 기초하여 결정될 수 있다. 더 높은 시퀀싱 배수는 더 높은 민감도의 검측을 가능하게 하며, 즉 더 작은 길이의 결실 단편(deletion fragment) 및 중복 단편(duplication fragment)이 검측될 수 있다. 시퀀싱 배수는 0.1 - 3.0×일 수 있고, 총량은 인간 게놈의 길이와 비교하여 0.1 - 30배이고, 예를 들어, 본 발명의 구현에서, 시퀀싱 배수는 0.1 ×(2.5×108 bp)이다.
시퀀싱 데이터(Read)는 특정 길이(일반적으로, 20 bp 이상)를 가지는 핵산 시퀀스 시퀀싱, 예를 들어 시퀀서(sequencer)에 의해 만들어지는 시퀀싱 시퀀스의 결과로, 시퀀스 비교 대조 방법(sequence alignment method)에 의해 참조 시퀀스의 특정 영역(region) 또는 위치(location)에 비교 대조될 수 있다.
시퀀스 비교 대조(Sequence alignment)(얼라이닝(aligning))는 하나 또는 그 이상의 핵산 시퀀스를 참조 시퀀스 아래에 놓이게 하는 과정을 말한다. 구체적으로, (시퀀스 인덱스와 같은) 상대적으로 짧은 길이를 가지는 핵산 시퀀스는 참조 게놈에 있는 상대적으로 짧은 길이를 가지는 핵산 시퀀스의 위치를 결정하기 위하여, 참조 게놈 시퀀스에 비교 대조된다. 시퀀스 비교 대조를 수행하기 위하여 컴퓨터를 사용할 때, 상기 시퀀스 비교 대조는 뉴클레오티드 데이터의 효율적인 지역 비교 대조(efficient local alignment of nucleotide data, ELAND), 짧은 올리고뉴클레오티드 분석 패키지(Short Oligonucleotide Analysis Package, SOAP) 및 버로우스-휠러 얼라이너(Burrows-Wheeler Aligner, BWA) 등과 같은 시퀀스 비교 대조 절차 중 어느 하나에 의해 수행될 수 있다. 성공적인 비교 대조를 알아보기 위한 기준(standard)은 비결함 허용(non-fault-tolerant) 비교 대조(100%의 매칭)와 부분적 결합 허용(partial-fault-tolerant) 비교 대조(100%보다 적은 매칭)로 분류된다.
유일한 시퀀스 인덱스(Uniquely-mapped reads)는 참조 시퀀스(예를 들어, 참조 게놈 시퀀스)의 고유한 위치에 비교 대조될 수 있는 시퀀싱 데이터를 말한다.
참조 유일 시퀀스 인덱스(Reference unique reads)는 고정된 길이와 참조 시퀀스(일반적으로, 참조 게놈)에 비교 대조된 유일한 위치를 가지는 시퀀스를 말한다. 참조 유일 시퀀스 인덱스를 획득하는 과정은 예를 들어, 참조 게놈을 고정된 길이를 가지는 복수의 시퀀스로 나누고, 참조 게놈에 상기 복수의 시퀀스를 비교 대조시키고, 참조의 유일한 시퀀스로서 참조 게놈에 유일하게 비교 대조된 시퀀스를 선별하는 것을 포함한다. 고정된 길이는 시퀀서에 의해 획득된 시퀀싱 결과의 시퀀스 길이에 기초하여 측정되며, 이것은 특별히 평균 길이(mean length)를 말할 수 있다. 서로 다른 시퀀서는 서로 다른 시퀀스 길이의 시퀀싱 결과를 획득할 수 있다. 시퀀싱의 각 시간에 특이적으로, 시퀀싱 결과의 시퀀스 길이 또한 달라질 수 있으며, 그것들의 선별에 있어서 어떤 주관적이고 경험적인 요인들이 존재할 수 있다.
인덱스(Index)는 특정 길이를 가지며 마커(marker)로서 기능하는 핵산 시퀀스이다. 테스트 될 DNA 분자들이 테스트 될 복수의 샘플들로부터 유래될 때, 복수의 샘플들은 상기 복수의 샘플들을 동시에 시퀀싱할 수 있도록 하기 위하여, 시퀀싱 동안 복수의 샘플들을 구별하기 위한 서로 다른 인덱스들과 함께 첨가될 수 있다(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3). 상기 인덱스는 인덱스와 함께 첨가된 DNA 분자의 다른 기능에 영향을 주는 일 없이 서로 다른 시퀀스들을 구별하기 위한 것이다.
GC 교정(GC correction)은 배치들(batches) 중 또는 하나의 배치 내에는 어떤 GC 편향(GC bias)이 존재하기 때문에, 이는 게놈의 높은 GC 함량 또는 낮은 GC 함량을 가지는 영역에 존재하는 복제 수 편향(copy number bias)을 야기할 수 있다. GC 교정은 각 윈도우에서 교정된 시퀀싱 데이터의 상대 수(relative number)를 획득하기 위하여 대조 세트에 기초한 시퀀싱 데이터를 사용하여 수행되며, 이것에 의하여 이러한 편향은 제거될 수 있고, 복제 수 변이 검측의 정확도는 향상될 수 있다.
평균값(Mean value)은 본원에서 사용된 평균값은 일반적으로 산술 평균값(arithmetic mean value) 또는 중앙값(median)을 말한다.
유일한 시퀀스 인덱스의 수(The number of uniquely-mapped reads)는 유일한 시퀀스 인덱스의 수는 초기의 수(initial number)에 기초하여 계산하여 획득된 통계학적 수(statistic number)일 수 있거나, 유일한 시퀀스 인덱스의 수를 보정계수로 교정하여 획득된 교정된 값, 예를 들어 어떤 경우에 있어서 "복제율(copy rate)"로 바꾸어 쓸 수 있는 비율(ratio)일 수 있다.
테스트 될 샘플(Sample to be tested)은 또한 어떤 경우에 있어서 시료(test sample)로 칭해질 수 있으며, 변이를 가지는 것으로 의심되는 핵산 분자를 포함하는 샘플을 말한다. 핵산의 형태는 특별히 제약을 받지 않으며, 데옥시리보핵산(desoxyribonucleic acid, DNA)일 수 있거나, 리보핵산(ribonucleic acid, RNA)일 수 있고, 바람직하게는 DNA이다. RNA는 후속 검측 및 분석을 위한 종래의 수단에 의하여 대응하는 시퀀스를 가지는 DNA로 전환될 수 있다.
대조 샘플(Control sample)은 테스트 될 샘플에 상대적인 것으로, 정상 샘플로서 간주된다. 일반적으로, 정상은 정상적인 표현형(normal phenotype)을 가지는 것을 의미한다.
대조 샘플 세트(Control sample set)(대조 세트)는 본 발명의 구현에서 대조 샘플로 이루어지는 세트를 말하며, 상기 대조 세트에서 대조 샘플의 수는 30 이상이 요구된다.
참조는 본 발명의 구현들을 보다 상세하게 만들어 줄 것이다. 도면을 참고로 하여 본원에 기술되어 있는 구현들은 설명적이고 예시적이며, 본 발명을 일반적으로 이해할 수 있도록 사용된다.
고효율 시퀀싱 기술의 지속적인 개발과 시퀀싱 비용의 점진적인 감소와 함께, 시퀀싱 기술은 염색체 변이의 검측에 있어서 점점 더 널리 사용되어 왔다.
이득(gaining)의 측면에서 염색체 이상(chromosomal aberration)을 확정하기 위한 시퀀싱 기술이 더욱 널리 사용된다.
임상에서의 복제 수 변이를 검측하는 기술을 개선하기 위하여, 본 발명은 고효율 시퀀싱 기술에 기초하여 전체 게놈 레벨로 복제 수 변이를 선별하기 위한 기술적 해결책을 설계하며, 이는 비교 대조의 고효율, 고특이적 및 고정확도의 이점을 가진다. 검측 결과는 피험자로부터 샘플을 획득하고; DNA를 추출하고; 분석을 위해 획득된 데이터를 고효율로 시퀀싱하여 획득될 수 있다.
도 1은 본 발명의 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다.
도 1에 나타낸 바와 같이, 단계 102에서, 시퀀싱 데이터가 샘플의 핵산 분자의 적어도 일 부분으로부터 획득된다. 시료에서의 핵산 분자 또는 전체 핵산 분자의 적어도 일 부분은 시퀀싱 데이터를 획득하기 위하여 시퀀싱될 수 있다. 시료의 핵산 분자의 일 부분의 시퀀싱 데이터가 획득될 수 있거나, 전체 핵산 분자의 시퀀싱 데이터가 획득될 수 있다. 예를 들면, 시료로부터 획득한 게놈 DNA 분자는 DNA 단편을 획득하기 위하여 무작위로 단편화되며, 그 후 특정 길이를 가지는 시퀀싱 데이터를 획득하기 위하여 시퀀싱된다. 획득된 시퀀싱 데이터의 길이는 특정 범위 내에 있을 수 있고, 고정된 길이를 가지는 시퀀싱 데이터는 절단(truncating)에 의해 획득될 수 있다. 상기 DNA 단편은 50 bp ~ 150 bp, 150 bp ~ 350 bp, 350 bp ~ 500 bp, 500 bp ~ 700 bp, 700 bp ~ 1000 bp 또는 1000 bp ~ 1500 bp와 같은 50 bp ~ 1500 bp의 길이를 가질 수 있다. 예를 들면, 상기 DNA 단편은 50 bp, 90 bp, 100 bp, 150 bp, 300 bp, 350 bp, 500 bp, 700 bp, 1000 bp, 1500 bp의 길이를 가질 수 있다. 예를 들면, 300 bp ~ 700 bp가 바람직하다. 350 bp ~ 500 bp가 더욱 바람직하다. 상기 시퀀싱 데이터의 길이는 서로 다른 시퀀서로 인하여 큰 차이를 가질 수 있으며, 예를 들어, 일루미나-솔렉사 및 라이프 테크롤로지스-솔리드와 같은 기구의 일반적인 시퀀스 길이는 300bp의 범위 내에 있는 반면, 로셰-454, 종래의 생거 시퀀싱(Sanger sequencing), 첨단 단일 분자 시퀀싱 시스템(ultramodern single molecule sequencing system)에 의해 획득된 시퀀스 길이는 대략 1000 bp 이거나 1000 bp를 초과할 수 있다. 고유의 비교 대조(unique alignment)를 위한 요건을 충족시키기 위하여, 유일한 시퀀스 인덱스를 선별할 때, 20 bp 또는 그 이상의 길이를 가지는 시퀀스가 일반적으로 선택되며, 바람직하게는 26 bp 또는 그 이상의 길이를 가지는 시퀀스가 선택된다.
단계 104, 게놈 참조 시퀀스에 비교 대조된 유일한 시퀀스 인덱스는 획득된 시퀀스 인덱스에 기초하여 결정된다. 예를 들면, 상기 시퀀싱 데이터의 전체 또는 부분 시퀀스는 게놈에서 상기 시퀀싱 데이터의 위치 정보(site information)를 획득하고, 또한 특정 염색체상에서의 상기 시퀀싱 데이터의 위치 정보를 획득하기 위하여 게놈 참조 시퀀스에 비교 대조된다. 인간 피험자로부터 획득되는 샘플에 대하여, 인간 게놈 참조 시퀀스는 NCBI 데이터베이스에 있는 인간 게놈 참조 시퀀스일 수 있다. 본 발명의 실시예에서, 상기 인간 게놈 참조 시퀀스는 NCBI 데이터베이스에 있는 Build 36의 인간 게놈 참조 시퀀스(hg18, NCBI Build 36)이고, 사용된 비교 대조 소프트웨어는 SOAPaligner/soap2이다. 상기 게놈 참조 시퀀스에 유일한 DNA 단편 시퀀싱 인덱스들이 선별, 즉 단 한 번 게놈 참조 시퀀스에 유일한 시퀀스 인덱스들, 즉 유일한 시퀀스 인덱스는 (게놈) 참조 시퀀스에 비교 대조된다.
단계 106, 게놈 참조 시퀀스는 복수의 윈도우 매개로 나뉘고, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수가 계산된다. 복수의 윈도우 매개를 검측하기 위한 방법은 테스트 될 샘플의 시퀀스 길이와 동일한 시퀀스 길이를 가지는 단편으로 참조 게놈을 단편화하고, 염색체상의 유일한 위치를 배제(screen out)하기 위하여 동일한 모수(parameter)를 가지는 동일한 비교 대조 소프트웨어로 처리하는 것; 특정 길이의 유일한 위치를 가지는 모든 간격(every interval)에 의해 복수의 윈도우 매개 중 하나를 검측하는 것을 포함할 수 있다. 복수의 윈도우 매개들 사이의 교차 슬라이딩(cross-sliding)은 선별에 따라 존재할 수도 존재하지 않을 수도 있다. 복수의 윈도우 매개에 포함될 수 있는 유일한 부위의 수는 테스트 될 샘플의 시퀀싱 데이터의 볼륨과 관련이 있다. 일반적으로, 포아송 분포(poisson distribution)에 적합한 복수의 윈도우 매개에 놓이는 시퀀싱 데이터 수를 보장하기 위하여, 복수의 윈도우 매개로 나뉜 테스트 될 샘플의 기대 시퀀싱 데이터 수(expected reads number)는 300 또는 그 이상이다. 예를 들면, 게놈의 유일한 부위의 수가 N이라고 가정하면, 테스트 될 샘플의 효과적인 시퀀싱 데이터 수는 n이고, 시퀀싱 데이터의 기대 수는 E에서 복수의 윈도우 매개로 나뉘고, 그 후 참조 게놈의 복수의 윈도우 매개는 유일한 부위의
Figure 112014106294753-pct00001
를 포함할 수 있다.
단계 108, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수는 GC 교정되고, 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위하여 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수에 기초하여 교정된다. 예를 들면, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고, 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위하여 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수에 기초하여 교정하는 단계는:
GC 함량에 기초하여 복수의 윈도우 매개를 분류하고, 한 그룹 내에서의 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수를 획득한 후, 유일한 시퀀스 인덱스의 GC-교정된 수를 획득하기 위하여 복수의 윈도우 매개에 놓이는 유일한 인덱스의 수를 교정하는 것을 더 포함하며,
상기 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수는 하기의 단계들:
유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트 내의 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 GC-교정된 수의 비율을 계산하는 단계;
상기 대조 세트에 대응하는 모든 윈도우들에 대한 비율의 평균값을 획득하는 단계; 및
상기 획득된 비율의 평균값과 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하는 단계에 의해 획득된다.
단계 110, 경계 지점의 양측에서 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단의 현저한 차이성은 CNV 중지점의 후보로서 더 작은 현저한 차이값을 가지는 경계 지점을 선택하기 위하여, 복수의 윈도우 매개의 시작 지점 또는 종결 지점으로 선택될 경계 지점을 이용하여 계산된다. 예를 들면, 미리 결정된 윈도우의 수는 각 CNV 중지점의 후보의 현저한 차이값, 즉 p 값을 획득하기 위하여, 복수의 윈도우 매개의 양측에서 복제 수 변이의 현저한 차이수준을 나타내는 p 값에 기초하여 전체 게놈 범위 내에서 CNV 중단 부위의 후보로서 선택된다.
단계 112, 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성은 각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여 계산되고,
가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보는 매번 제거되고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성이 재계산되며, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값보다 작아질 때까지 순환 및 반복된다. 상기 최종 절사 값은 일반적으로 미리 정해진다. 예를 들면, 상기 최종 절사 값은 정상 샘플로 이루어진 대조 세트를 분석 및 처리하여 획득된다.
상기 예에서, CNV 중지점의 선별은 게놈 참조 시퀀스에 획득된 시퀀싱 데이터를 비교 대조하고, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하고, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고 대조 세트에 기초하여 교정하고, CNV 검측을 달성하기 위하여 현저한 차이(significant difference)를 순환 및 반복하여 미세-결실/미세-중복을 포함하는 상대적으로 작은 복제 수 변이를 정확하게 검측할 수 있다.
인간으로부터 획득되는 샘플에 대하여, 대상 샘플(subject sample)은 양수검사에 의해 획득된 양수, 융모막 융모 채취에 의해 획득된 융모, 경피하 제대혈 채취에 의해 획득된 제대혈, 자연적으로 유산된 태아 조직 또는 인간의 말초 혈액으로부터 획득된 게놈 DNA일 수 있다. 상기 게놈 DNA는 염석법, 컬럼 크로마토그래피법, 비드법 또는 SDS법과 같은 기존의 추출법에 의해 추출될 수 있다. 실시예에서, 상기 컬럼 크로마토그래피법이 바람직하며, 이와 같은 컬럼 크로마토그래피법은 혈액, 조직 및 세포를 세포 용해 버퍼(cell lysis buffer) 및 프로테이나아제 K(proteinase K)로 처리하여 노출된 DNA 분자를 획득하고, 고염분 조건하에서 실리콘 막에 DNA 분자를 결합시킨 후, 낮은 염분 및 높은 pH 값의 조건하에서 상기 실리콘 막으로부터 DNA 분자를 용출하는 것을 포함할 수 있다. 특정 이론 및 방법은 Tiangen TIANamp Micro DNA Kit(DP36)의 설명서를 참조할 수 있다.
검측될 DNA 단편이 복수의 대상 샘플로부터 유래된다면, 각 대상 샘플의 DNA 단편은 시퀀싱 동안 서로 다른 샘플을 구별하기 위한 4 bp 내지 12 bp 길이를 가지는 서로 다른 인덱스와 함께 첨가될 수 있다(Micah Hamady, Jeffrey J Walker, J Kirk Harris et al. Error-correcting barcoded primers forpyrosequencing hundreds of samples in multiplex. Nature Methods, 2008, March, Vol.5 No.3). 그와 같은 것에 의하여, 복수의 대상 샘플은 동시 검측될 수 있으며, 효율성은 향상되고 검측 비용은 감소할 수 있다.
도 2는 본 발명의 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다.
단계 202에서, 대상 샘플의 게놈 DNA 분자를 무작위로 단편화하여 DNA 단편을 획득하며, 그것은 효소 분해, 분쇄, 초음파 또는 하이드로쉐어법에 의해 수행될 수 있다. 바람직하게는 DNA 분자를 특정의 응집된 크기(concentrated size)를 가지는 단편으로 단편화시키기 위하여 사용되는 코바리스 컴퍼니사(Covaris Company)의 S-시리즈(S-series)(AFA 기술에 기초하여, 음 에너지(sound energy)/기계적 에너지(mechanical energy)가 DNA 샘플을 통과하는 센서(sensor)로부터 방출될 때, 가스는 용해되어 버블을 형성한다. 에너지가 제거된 후, 상기 버블은 DNA 단편을 단편화시키기 위한 능력을 생성하기 위하여 파열된다. 특정 에너지 세기 및 시간 간격과 같은 조건을 셋팅하여, DNA 분자는 특정 크기를 가지는 단편으로 단편화될 수 있다. 특정의 이론 및 방법은 코바리스 컴퍼니의 S-시리즈에 대한 설명서를 참조할 수 있다)와 같은 초음파법이 사용된다.
단계 204에서, DNA 단편을 시퀀싱하여 DNA 단편 시퀀싱 시퀀스, 즉 시퀀싱 데이터를 획득한다. 시퀀싱으로부터 획득된 시퀀싱 데이터는 범위 내에서 특정 길이를 가질 수 있다. 고정된 길이를 가지는 시퀀싱 데이터는 DNA 단편 시퀀싱 데이터를 절단(truncation)하여 획득될 수 있다. 이후의 본 발명의 실시예에서 사용된 DNA 단편 시퀀싱 데이터는 고정된 길이를 가지는 시퀀싱 데이터를 말한다. 시퀀싱을 위해 사용된 방법은 Illumina/Hiseq2000, ABI/SOLiD, Roche/454와 같은 고효율 시퀀싱 방법일 수 있다. 시퀀싱 형태는 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱일 수 있고, 시퀀싱 길이는 50 bp 내지 1500 bp일 수 있다. 본 발명의 실시예에서, 사용된 시퀀싱 플랫폼은 Illumina/Hiseq2000이며, 시퀀싱 형태는 페어-엔드 시퀀싱이고, 획득된 100 bp 길이의 DNA 시퀀스 분자는 양방향 위치의 관계를 가진다. 시퀀스 배수는 염색체에 있는 변이 단편의 길이에 기초하여 결정될 수 있다. 더 높은 시퀀싱 배수는 더 높은 민감도의 검측을 가능하게 하며, 즉 더 작은 길이의 결실 단편 및 중복 단편이 검측될 수 있다. 본 발명의 실시예에서, 인간 피험자 샘플의 시퀀싱의 양은 2 ~ 900×108 시퀀싱 데이터의 범위이다.
단계 206에서, 시퀀싱 데이터를 게놈 참조 시퀀스에 비교 대조하여 게놈에 있는 시퀀싱 데이터의 위치 정보를 획득한다.
단계 208에서, 게놈 참조 시퀀스에 비교 대조된 유일한 시퀀스 인덱스를 선별한다.
단계 210에서, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수가 측정된다. 각 대상 샘플에 대하여, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수가 계산된다(n i ,j 로 기재함, 아래 첨자 i와 j는 간결하게 하기 위해 생략된 특징에 대하여 각복수의 윈도우 매개의 수 및 대상 샘플의 수를 나타낸다).
단계 212에서, 게놈에 있는 복수의 윈도우 매개에 대한 평균 GC 함량은 복수의 윈도우 매개에 대한 보정계수를 결정하기 위하여 측정되며; 복수의 윈도우 매개에 대한 교정된 유일한 시퀀스 인덱스의 수가 상기 보정계수에 기초하여 획득된다. 이러한 단계는 주로 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 복수의 윈도우 매개에 대한 GC 함량에 기초하여 교정하기 위한 것이며, 이는 배치 교정(batches correction) 또는 GC 교정(GC correction)이라 칭할 수 있다.
복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 평균 GC 함량(GC i ,j 로 기재함)이 계산된다. 평균 GC 함량(GC i ,j 로 기재함)의 계산은 복수의 윈도우 매개에 놓이는 모든 유일한 시퀀스 인덱스의 평균 GC 함량을 계산하는 것이다. 계산하는 동안, 모든 유일한 시퀀스 인덱스의 염기 G 및 C의 총 수는 N gc 로 기록되며, 모든 유일한 시퀀스 인덱스의 총 길이는 L로 기록되어,
Figure 112014106294753-pct00002
가 된다.
대상 샘플의 데이터 볼륨의 차이를 교정하기 위하여, 복수의 윈도우 매개는 GC i ,j 에 기초하여 분류, 즉 동일한 GC i ,j 를 가지는 윈도우는 하나의 그룹으로 분류되고, 각 그룹에서 유일한 시퀀스 인덱스의 수에 대한 중앙값 또는 산술 평균값 m g ,j 가 측정되고, 이것은 보정계수
Figure 112014106294753-pct00003
를 획득하기 위하여 전체 게놈 레벨에서 유일한 시퀀스 인덱스의 수에 대한 중앙값 또는 산술 평균값 m j 로 나누며, 여기에서 아래 첨자 g는 서로 다른 그룹의 GC 함량을 나타낸다. 복수의 윈도우 매개 n i ,j 로 나뉘는 유일한 시퀀스 인덱스의 원래의 수는 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수의 교정된 값(n i ,j 로 기재함)을 획득하기 위하여 보정계수 c g ,j 를 곱한다.
단계 214에서, 복수의 윈도우 매개에 놓이는 교정된 유일한 시퀀스 인덱스의 수는 복수의 윈도우 매개에 대한 교정된 유일한 시퀀스 인덱스의 수, 즉 복제율을 획득하기 위하여, 대응하는 복수의 윈도우 매개에 대한 기대 수로 나누어진다. 상기 대응하는 복수의 윈도우 매개에 대한 기대 수는 정상 샘플로 이루어진 대조 세트에 의해 획득된다. 이러한 단계는 주로 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 수를 정상 샘플의 데이터에 기초하여 교정하기 위한 것이며, 이는 윈도우 교정(window correction)이라 칭할 수 있다.
대조군 세트의 샘플에서, 유일한 시퀀스 인덱스의 상대 수의 백분율(P i ,j )은 전체 게놈에 대한 유일한 시퀀스 인덱스의 전체 수(N j )에 대한 윈도우 내의 유일한 시퀀스 인덱스의 수(n i ,j )의 비율, 즉
Figure 112014106294753-pct00004
로서 정의되고, 그 후 대조 세트에서의 복수의 윈도우 매개의 평균 백분율
Figure 112014106294753-pct00005
, 즉
Figure 112014106294753-pct00006
가 계산된다. 대상 샘플에서, 복수의 윈도우 매개의 복제율 r i ,j 는 교정된 유일한 시퀀스 인덱스의 수 n i ,j 를 윈도우 내의 기대 수(복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수의 백분율과 함께 전체 게놈에 대한 유일한 시퀀스 인덱스의 총 수를 곱한 것)로 나눔으로써, 즉
Figure 112014106294753-pct00007
에 의해 획득된다.
대조 세트를 선별하기 위하여, 라이브러리 구성 방법, 시퀀싱 시약 및 시퀀싱 형태는 대조 샘플에 의해 테스트 될 샘플을 교정하는 효과를 향상시키기 위하여 가능한 테스트 될 샘플과 일치하여야 한다. 대조 세트 내의 샘플은 30 또는 그 이상의 샘플 볼륨을 가지는 정상 샘플이어야 한다.
단계 216에서, 미리 결정된 윈도우의 수는 각 CNV 중지점의 후보물질의 현저한 차이값, 즉 p 값을 획득하기 위하여, 복수의 윈도우 매개의 양측에서의 복제 수 변이의 현저한 차이수준을 나타내는 p 값에 기초하여 전체 게놈 범위 내에서 CNV 중지점의 후보로서 선택된다.
1) CNV 중지점의 후보의 선별은 전체 게놈의 모든 윈도우에 대하여, 복수의 윈도우 매개의 양측에서 윈도우의 특정 수에 대한 복제 수 변화의 차이를 계산하는 것(윈도우의 수는 현저한 차이를 가지는 검측 모델(detection model)을 만들기 위하여, 정상적으로 30 이상이거나, 검측 모델에 대한 가장 낮은 샘플 양의 제한을 충족한다); 그리고 전체 게놈 범위 내(p 값의 작은 값에서 큰 값에 이르기까지)의 현저한 차이의 수준에 기초하여, CNV 중지점의 후보로서의 (복수의 윈도우 매개에 대응하는) 위치(즉, 각 CNV 단편의 경계 지점)의 특정 수(예를 들어, 전체 윈도우 수의 1%)를 선별하는 것을 포함할 수 있다.
2) 초기값 설정(initialization)은 모든 랭킹된 중지점의 세트가 B c = {b 1 , b 2 , ... b k .., b s }로 기록되며, 두 개의 인접한 중지점 k+1 및 k-1이 각 중지점인 k의 양측에 존재하는 것을 포함할 수 있다. k-1에서 k까지의 복제 수의 세트와 k에서 k+1까지의 복제수의 세트 사이의 현저한 차이를 계산하여, 각 중지점의 양측에서 현저한 차이를 나타내는 p 값이 획득된다. 예를 들면, 실시예에서는, 비모수 검측(non-parameter detection)에서 런 검정(Run test)이 선택되었고, 이는 두 개 집단의 혼합 요소(mixed elements)를 사용하여 분포의 균일한 상태에 의해 두 개의 집단의 현저한 차이를 평가하는 것이며, 두 개의 샘플이 동일한 집단으로부터 유래된 것인지의 여부를 테스트하는데 Wald, A. & Wolfowitz, J.를 참조하였다(The Annals of Mathematical Statistics 11, 147-162 (1940)).
단계 218, 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보는 매번 제거되고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성이 재계산되며, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 p 값(즉, 최종 절사 값)보다 작아질 때까지 순환 및 반복하고, 상기 최종 절사 값은 대조 세트에 기초하여 획득된다.
반복 합병(Iteration merge)은 지속적인 순환 및 반복에 의하여, 가장 작은 현저한 차이성을 가지는 중지점의 후보가 매번 제거되고, 두 개의 인접한 중지점의 p 값은 모든 p 값이 최종 p 값보다 작아질 때까지 재계산되는 것을 포함할 수 있다.
상기 최종 p 값은 예를 들면, 대조 샘플을 반복 합병의 상기 연산(operation)에 적용하고; 각 반복 합병에 대한 가장 큰 p 값을 기록하고; 하나의 단편에 합병할 때까지 반복 합병의 상기 연산을 수행하여 획득된다. 그때까지는, 가장 큰 p 값의 변화 동향(change trend)에 따라, 가장 극적인 p 값의 변화를 가지는 하나의 위치에 대응하는 한 번의 반복 합병에 대한 가장 큰 p 값(즉, p 값 변화 곡선에서 가장 확실한 기울기(slope)의 변화를 가지는 하나의 위치(가장 큰 만곡(curvature)을 가지는 위치)를 선택) 또는 이전 시간의 반복 합병의 값을 최종 절사 값으로 취한다.
상기 단계 216 및 218은 또한 단편화(fragmentation)로도 칭할 수 있다. 주: 단계 214의 1) 및 2)에서 윈도우와 중지점을 선택할 때, 단일 염색체 또는 전체 게놈을 이용하여 순환(cyclization)이 수행되는 것으로 고려될 수 있다. 단일 염색체를 이용한 환화는 염색체의 시작 위치에 가까운 복수의 윈도우 매개를 계산할 때, 왼쪽에 있는 유효한(effective) 윈도우 수가 통계적 검측에 불충분하다면, 계산에 충분한 윈도우의 유효 수(effective number)는 이러한 염색체의 종료 지점(end point)으로부터 거꾸로 획득되고; 유사한 방식으로, 이들 위치에 대하여 종료 지점의 오른쪽에 가까운 충분한 윈도우의 유효 수가 획득될 수 없는 위치는 염색체의 앞 지점(front point)으로부터 획득된다. 이러한 연산은 앞 지점 및 종료 지점에 위치된 이들 윈도우가 여전히 계산될 수 있도록 만들어 준다. 전체 게놈을 이용한 환화는 윈도우의 유효 수가 각 염색체의 앞 지점에 위치되는 경우에는 전자의 염색체의 종료 지점을 인덱싱(indexing)하는 반면, 염색체 1이 염색체 Y에 연결되는 동안 종료 지점에 위치된 윈도우의 유효 수가 불충분한 경우에는 후자의 염색체의 앞 지점을 인덱싱한다.
단계 218 후, 상기 방법은 두 개의 CNV 중지점 사이에 있는 시퀀스를 신뢰 선별(confidence selection)하는 것을 더 포함하며, 상기 신뢰 선별은 복제율의 분포에 기초하여, 대조 세트를 이용하여 정상적인 복제율의 신뢰 구간(condifence interval)을 알아내는 단계; 및 만약 상기 시퀀스 내의 복제율의 평균값이 신뢰 구간을 벗어난다면, 두 개의 CNV 중지점 사이에 있는 시퀀스에 존재하는 이상(abnormality)을 확정하는 단계를 포함한다. 예를 들면, 복제율은 정상 분포에 부합하며, 신뢰 구간은 95%이다. 단편화 결과는 믿을 수 있는 결과를 획득하기 위하여 이러한 단계에 의해 필터링된다. 만약 r i ,j 의 평균값이 낮은 절사 값보다 더 작거나 높은 절사 값보다 더 크다면, 그에 대응하는 결과는 양성 결과(positive result)로서의 결과(output)이다.
절사 값의 선별은 중심극한정리(central limit theorem)에 기초하여 각 대조 샘플에 있는 윈도우에 대한 복제율의 분포를 계산하는 것을 포함할 수 있고, 여기에서 상기 윈도우에 있는 시퀀싱 데이터는 랜덤이며, 그 후 복제율 r은 정상 분포에 부합하고, 0.05로서 유의 수준을 사용하는 왼쪽 및 오른쪽의 사분위수(quantile)가 선택된다. 그것의 평균값은 대조군 세트에서 계산되며, 복제 수 변이를 선별하기 위한 상하(upper and lower) 절사 값으로 간주된다.
상기 예에서, 검측 결과의 정확도는 배치 교정 및 윈도우 교정에 의해 향상된다. 대조 세트를 도입하는 것에 의하여, 정확도는 또한 대조 세트를 확대하여 향상되고, 초기 DNA 양에 대한 요건을 감소시킬 수 있다.
도 3은 본 발명의 다른 구현에 따른 복제 수 변이를 검측하는 방법을 나타내는 흐름도이다. 도 3은 정상 샘플(3A)로 이루어지는 대조 세트를 핸들링하는 방법을 나타내는 흐름도와 대상 샘플(3B)을 핸들링하는 방법을 나타내는 흐름도를 포함한다. 대조 세트는 주로 대상 샘플을 교정하기 위한 데이터를 획득하는데 사용되고, 대상 샘플을 반복하는 것의 종결 조건으로서의 최종 절사 값을 획득하는데 사용된다.
도 3에 나타낸 바와 같이, 흐름도 3A는:
단계 301A, 대조 샘플로부터 DNA 분자를 추출하는 것;
단계 311A, 대조 샘플의 DNA 분자를 DNA 단편으로 무작위로 단편화시킨 후, 대조 샘플의 DNA 분자의 시퀀싱 시퀀스 데이터, 즉 시퀀싱 데이터를 획득하기 위하여 시퀀싱하는 것;
단계 312A, 참조 게놈 시퀀스에 대조 샘플의 시퀀싱 데이터를 비교 대조하는 것;
단계 313A, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수, 즉 유일한 시퀀스 인덱스의 수를 계산하는 것;
단계 314A, 대조 샘플을 배치 교정하는 것;
단계 315A, 대조 샘플을 윈도우 교정하기 위해, 대조 샘플에 의해 복수의 윈도우 매개의 기대 수를 획득하는 것;
단계 316A, 중지점을 선별하고 단편화하는 것, CNV 중지점의 후보를 선별하는 단계는 매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보의 p 값을 재계산하고, 나머지 단편들의 수가 미리 결정된(24와 같은) 값과 같아질 때까지 순환 및 반복하는 것을 포함한다;
단계 317A, 최종 절사 값을 측정하는 것, 현재 최종 p 값의 평균값을 계산하여 대상 샘플을 이용하는 반복을 종결하기 위한 조건의 최종 절사 값으로서 최종 p 값을 효과적으로 획득할 수 있다,
를 포함한다.
단계 3B는
단계 310B, 대상 샘플의 DNA 분자를 추출하는 것;
단계 311B, 대조 샘플의 DNA 분자를 DNA 단편으로 무작위로 단편화시킨 후, 대조 샘플의 DNA 분자의 시퀀싱 데이터를 획득하기 위하여 시퀀싱하는 것;
단계 312B, 대조 샘플의 DNA 분자의 시퀀싱 데이터를 참조 게놈 시퀀스에 비교 대조하는 것;
단계 313B, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수, 즉 유일한 시퀀스 인덱스의 수를 계산하는 것;
단계 314B, 대상 샘플을 배치 교정하는 것;
단계 315B, 대조 샘플에 대하여 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 기대 수에 기초하여 대상 샘플을 윈도우 교정하는 것;
단계 316B, 중지점을 선별하고 단편화하는 것;
단계 317B, 획득된 결과를 필터링하는 것;
를 포함한다.
대조 세트를 선별하기 위하여, 라이브러리 구성 방법, 시퀀싱 시약 및 시퀀싱 형태는 대조 샘플에 의해 테스트 될 샘플을 교정하는 효과를 향상시키기 위하여 가능한 테스트 될 샘플과 일치하여야 한다. 대조 세트 내의 샘플은 30 또는 그 이상의 샘플 볼륨을 가지는 정상 샘플이어야 한다.
도 4는 본 발명의 구현에 따른 염색체 CNV 분석 방법을 나타내는 흐름도이다.
도 4에 나타낸 바와 같이, 단계 401은 DNA 추출 및 시퀀싱이며: 게놈 DNA가 Tiangen DP327-02 키트의 설명서에 따라 추출된 후, 라이브러리는 Illumina/Hiseq2000 표준에 기초하여 라이브러리 구성 절차에 따라 구성된다. 이러한 절차 동안, 500 bp로 농축되어 있는 DNA 분자는 시퀀싱을 위해 그것들의 양 말단에서 아답터(adaptor)를 이용하여 결합되고, 각 샘플 또한 각각 서로 다른 인덱스와 함께 첨가되며, 그것에 의해 복수의 샘플로부터 획득된 데이터는 한 번의 시퀀싱 결과로 구별될 수 있다.
단계 402, 시퀀스 비교 대조: Illumina/Hiseq2000의 시퀀싱 방법은 시퀀싱을 위해 사용되며(ABI/SOLiD와 같은 다른 시퀀싱 방법 또한 동일하거나 동일한 효과를 달성할 수 있다), 각 샘플은 특정 길이를 가지는 DNA 단편 시퀀싱 데이터를 획득될 수 있고, 이는 게놈에서 시퀀싱 데이터가 위치하고 있는 대응하는 위치의 정보를 획득하기 위하여, SOAP2를 사용하여 NCBI 데이터베이스에서의 표준 인간 게놈 참조 시퀀스에 비교 대조된다. CNV 분석에 대한 반복적인 시퀀스의 간섭을 피하기 위하여, 단지 인간 게놈 참조 시퀀스에 유일한 시퀀스 인덱스만이 선별되며, 즉 이들 시퀀싱 데이터는 단 한 번만 인간 게놈 참조 시퀀스에 맵핑될 수 있고, 또한 차후의 CNV 분석을 위한 효과적인 데이터로서 유일한 시퀀스 인덱스의 수로서 칭해질 수 있다.
단계 403, PSCC 분석. 본 발명의 발명자에 의해 독립적으로 개발된 전체 게놈 복제에서 복제 수 변이를 검측하는 일련의 생물정보학적 방법이 사용되며, 이는 대상 샘플을 배치 교정하는 것, 대조 세트, 정규화(normalization) 및 단편화(세분화(segmentation))에 기초하여 대상 샘플을 윈도우 교정하는 것을 포함한다.
단계 404, 단계 403에서 측정된 복제 수를 가지는 단편은 CNV 분석되고, 복제율 ≤ 0.7 및 복제율 ≥ 1.3인 대상 샘플은 단편의 결실 및 중복을 검측하기 위한 절사 값으로 간주되며, 그것에 의해 전체 게놈 레벨에서 복제 수 변이를 가지는 단편이 분석에 의하여 획득되고, 그 후 획득된 결과는 시각화(visualization)된다.
상기 예에서, 사용된 소프트웨어 알고리즘은 센젠 BGI(Shenzhen BGI)에 의해 개발된 전체 게놈에 대한 복제 수 변이를 검측하는 시리즈 방법이며, 이는 PSCC라 불린다. 그것은 대상 샘플의 복제 수 변이의 정도 및 크기를 추정하기 위하여, 대상 샘플을 배치 교정하고, 대조 세트, 정규화 및 세분화를 사용하여 데이터 교정을 수행하는 차세대 시퀀싱 기술에 의해 데이터를 생성할 수 있다. 낮은 시퀀싱 배수(50 M의 시퀀싱 짧은 시퀀스)의 조건 하에서, 약 0.5 Mb의 단일 복제 수 변이(CNV)를 가지는 단편이 검측될 수 있다.
도 5는 본 발명의 구현에 따른 복제 수 변이를 검측하는 시스템을 나타내는 개략도이다. 도 5에 나타낸 바와 같이, 상기 시스템은 샘플의 핵산 분자의 적어도 일 부분으로부터 시퀀싱 데이터를 획득하기 위한, 시퀀싱 데이터를 획득하는 유닛 51, 획득된 시퀀싱 데이터에 기초하여 게놈 참조 시퀀스에 비교 대조된 유일한 시퀀스 인덱스를 확정하기 위한, 유일한 시퀀스 인덱스를 확정하는 유닛 52, 게놈 참조 시퀀스를 복수의 윈도우로 나누고, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하게 위한, 유일한 시퀀스 인덱스의 수를 계산하는 유닛 53, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고, 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위한 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수에 기초하여 교정하기 위한, 유일한 시퀀스 인덱스의 수를 교정하는 유닛 54; CNV 중지점의 후보로서 더 작은 현저한 차이값을 가지는 경계 지점을 선택하기 위하여, 복수의 윈도우 매개의 시작 지점 또는 종결 지점으로 선택될 경계 지점을 이용하여 경계 지점의 양측에 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단의 현저한 차이성을 계산하기 위한, 중지점의 후보를 선택하는 유닛 55; CNV 중지점을 확정하기 위하여, 각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여, 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성을 계산하고, 매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성을 재계산하고, CNV 중지점을 알아내기 위하여 CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값보다 작아질 때까지 순환 및 반복하기 위한, 중지점을 확정하는 유닛 56을 포함할 수 있으며, 상기 절사 값은 정상 샘플로 이루어진 대조 세트에 기초하여 획득된다. 유일한 시퀀스 인덱스의 수를 계산하는 유닛 53이 복수의 윈도우 매개로 나뉠 때, 복수의 윈도우 매개는 동일한 수의 참조 유일 시퀀스 인덱스를 포함할 수 있고, 또는 복수의 윈도우 매개는 동일한 길이를 가질 수 있다. 실시예에서, 중지점의 후보를 선택하는 유닛 55에서 단일 염색체 또는 전체 게놈을 사용하는 순환은 CNV 중지점의 후보를 선택할 때 수행된다.
상기 예에서, 유일한 시퀀스 인덱스를 측정하는 유닛은 획득된 시퀀싱 데이터에 기초하여 (게놈) 참조 시퀀스에 고유하게 비교 대조될 수 있는 유일한 시퀀스 인덱스를 측정하고, 유일한 시퀀스 인덱스의 수를 교정하는 유닛은 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하며, 중지점의 후보를 선택하는 유닛 및 중지점을 측정하는 유닛은 CNV 중지점을 선택하기 위하여 유전자의 현저한 차이의 순환 및 반복을 수행하고, 그것에 의하여 CNV 검측이 완료되어, 더 작은 미세-결실/미세-중복을 포함하는 복제 수 변이를 포함하는 영역을 정확하게 검측할 수 있다.
도 6은 본 발명의 다른 구현에 따른 복제 수 변이를 검측하는 시스템을 나타내는 개략도이다. 도 6에 나타낸 바와 같이, 상기 시스템은 시퀀싱 데이터를 획득하는 유닛 51, 유일한 시퀀스 인덱스를 측정하는 유닛 52, 유일한 시퀀스 인덱스의 수를 계산하는 유닛 53, 유일한 시퀀스 인덱스의 수를 교정하는 유닛 64, 중지점의 후보를 선택하는 유닛 55 및 중지점을 측정하는 유닛 56을 포함한다. 상기 시퀀싱 데이터를 획득하는 유닛 51, 유일한 시퀀스 인덱스를 측정하는 유닛 52, 유일한 시퀀스 인덱스의 수를 계산하는 유닛 53, 중지점의 후보를 선택하는 유닛 55 및 중지점을 측정하는 유닛 56은 도 5에 있는 자세한 설명을 참고할 수 있으며, 이는 간결하게 하기 위해 생략되었다. 유일한 시퀀스 인덱스의 수를 교정하는 유닛 64는 GC 교정 모듈(GC correction module) 641 및 윈도우 교정 모듈(window correction module) 642를 더 포함한다. 여기에서, GC 교정 모듈은 GC 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위하여, GC 함량에 기초하여 복수의 윈도우 매개를 분류하고, 한 그룹 내에 있는 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우 매개에 대하여 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수를 획득한 후, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하는데 사용되고; 윈도우 교정 모듈 642는 유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트에서의 복수의 윈도우 매개에 놓이는 GC 교정된 유일한 시퀀스 인덱스의 수의 비율을 계산하고; 상기 대조 세트에 대응하는 모든 윈도우에 대한 비율의 평균값을 획득하고; 획득된 비율의 평균값과 복제율로도 불리는 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하는 데 사용된다.
본 발명의 실시예에서, 상기 시스템은 교정된 유일한 시퀀스 인덱스의 수의 분포에 기초하여, 대조 세트를 이용하여 정상적으로 교정된 유일한 시퀀스 인덱스의 수의 신뢰구간을 확정하고; 만약 시퀀스 내에 있는 교정된 유일한 시퀀스 인덱스의 수의 평균값이 신뢰구간을 벗어나는 경우, 두 개의 CNV 중지점 사이의 시퀀스에 존재하는 이상을 확정하기 위한, 중지점 필터링 유닛 67을 더 포함한다. 실시예에서, 교정된 유일한 시퀀스 인덱스의 수는 정상 분포에 부합하고, 신뢰구간은 95%이다.
실시예에서, 상기 시스템은 양수검사에 의해 획득된 양수, 융모막 융모 채취에 의해 획득된 융모, 경피하 제대혈 채취에 의해 획득된 제대혈, 자연적으로 유산된 태아 조직 또는 인간의 말초 혈액을 포함하는 샘플을 포함하여 인간으로부터 샘플을 획득하기 위한 수단(means); 및/또는 염석법, 컬럼 크로마토그래피법, 비드법 또는 SDS법과 같은 DNA 추출법에 의해 샘플의 게놈 DNA를 획득하기 위한 수단; 및/또는 샘플의 게놈 DNA를 효소적 절단, 분쇄, 초음파 또는 하이드로쉐어법으로 무작위로 단편화하여 DNA 단편을 획득하는 수단; 및/또는 DNA 단편 시퀀싱 데이터를 획득하기 위하여, DNA 단편을 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱하기 위한 수단을 더 포함할 수 있다. 실시예에서, 서로 다른 샘플들은 각 샘플의 DNA 단편에 서로 다른 인덱스를 첨가하여 구별된다.
도 5 및 도 6에서의 각 유닛의 기능은 본 발명의 실시예에 있는 방법에 따라 상기 대응하는 부분의 설명을 참고할 수 있으며, 이는 간결하게 하기 위해 생략되었다.
당업자들은 가능한 한 각 특정 적용의 기능을 달성하기 위한, 이들 경우에 있어서 대체 가능한 하드웨어(hardware), 펌웨어(firmware) 및 소프트웨어 구성(software configuration)을 알 것이다.
참조들은 본 발명의 실시예들을 보다 상세하게 만들어 줄 것이다. 하기의 실시예들은 예시적인 것으로, 본 발명의 범위를 제한하는 것으로 해석되지 않아야 함은 당업자들이라면 알 수 있을 것이다. 만약 특정 기술 또는 조건이 실시예에 명시되어 있지 않다면, 단계는 당업계의 문헌에 기술되어 있는 기술 또는 조건에 따르거나 제품 설명서에 따라 수행될 것이다. 만약 시약 또는 기구의 제조자가 명시되어 있지 않다면, 시약 또는 기구는 상용으로 입수할 수 있을 것이다. 하기의 괄호에 있는 설명은 각각 다양한 시약 또는 키트들에 대한 다른 제조자들의 카탈로그 No.를 예시한다. 시퀀싱에 사용되는 아답터 및 표지는 일루미나 컴퍼니(Illumina Company)의 멀티플렉싱 샘플 제조 올리고뉴티드 키트(Multiplexing Sample Preparation Oligonutide Kit)로부터 획득한다.
[실시예]
실시예 1: 염색체 수 변이를 가지는 2개의 샘플과 미세-결실을 가지는 6개의 샘플을 사용한 검측
1. DNA 추출
8개의 샘플(이하 샘플 1, 샘플 2, 샘플 3... 샘플 8로 칭함)을 Tiangen의 TIANamp Micro DNA Kit(DP316)의 설명서에 따라 DNA 추출하였다. Illumina/Hiseq2000의 수정된 설명서에 따라 추출된 DNA의 라이브러리를 제작하였다. 500 bp의 길이로 농축되어 있는 DNA 분자들은 시퀀싱을 위해 그것들의 양 말단에 아답터를 이용하여 결합하였다. 100 bp의 길이를 가지는 DNA 단편의 시퀀스를 획득하기 위하여, 각 샘플을 각각 서로 다른 표지와 함께 첨가한 후, 플로우셀(Flowcell) 표면에서 상보적 아답터(complementary adaptor)를 사용하여 혼성화(hybridization)시켜 핵산 분자 클러스터링(clustering)이 특정 조건 하에서 증가되도록 한 후, Illumina Hiseq2000에서 페어-엔드 시퀀싱하였다.
상세하게는, Illumina/Hiseq2000의 수정된 설명서에 따라 양수 샘플로부터 획득된 약 100 ng의 DNA(Quant-IT dsDNA HS Assay Kit)의 라이브러리를 제조하였으며, 그 상세한 절차는 선행기술을 참고할 수 있다(http://www.illumina.com/에 제공되어 있는 Illumina/Solexa의 표준 라이브러리 제작 설명서). 상기 획득된 DNA 라이브러리와 인서트 단편(insert fragment)들은 2100Bioanalyzer(Agilent)를 사용하여 500 bp의 길이를 가지는 것으로 측정되었으며, QPCR에 의한 정확한 정량화 후 컴퓨터상에서 시퀀싱되었다.
2. 시퀀싱
본 실시예에서는, 각 샘플에 대하여 약 5G의 데이터 볼륨을 획득하기 위하여, 상기 8개의 샘플로부터 획득된 DNA를 Illumina/Solexa에 의해 공식적으로 공개된 ClusterStation 및 Hiseq2000(PEsequencing)의 설명서에 따라 컴퓨터상에서 시퀀싱하고, 결합된 표지로 구별하였다. 게놈에서 시퀀싱 데이터가 위치하고 있는 대응하는 위치의 정보를 획득하기 위하여, 비교 대조 소프트웨어 SOAP2를 사용하여 시퀀싱에 의해 획득된 DNA 시퀀스를 NCBI 데이터베이스에 있는 인간 게놈 참조 시퀀스 Build 36(hg18; NCBIBuild36)에 비교 대조하였다.
3. 데이터 분석
a) 기본 통계(basic statistics): 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수(즉, n i ,j 로 기재되는 유일한 시퀀스 인덱스의 수, 아래 첨자 i 및 j는 각복수의 윈도우 매개의 수 및 대상 샘플의 수를 나타내며, 구별을 위해 간결하게 하기 위하여 생략되었다) 및 평균 GC 함량(GC i ,j 로 기재됨)을 계산한다.
b) 배치 교정: 샘플 데이터 볼륨의 차이를 교정하기 위하여, 복수의 윈도우 매개를 그것으로 나뉜 시퀀싱 데이터의 평균 GC 함량에 기초하여 분류하였다. 보정계수 C g 를 획득하기 위하여, 각 그룹에 대한 중앙값 또는 산술평균을 전체 게놈에 대한 중앙값 또는 산술평균으로 나누었고, 여기에서 아래 첨자 g는 서로 다른 그룹의 GC 함량을 나타낸다. (n i ,j 로 기재되는) 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수의 교정된 값을 획득하기 위하여, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 원래의 수 n i ,j 에 보정계수 C g 를 곱하였다.
c) 데이터 교정: YH 집단에서 90개의 샘플로부터 획득된 시퀀싱 데이터를 대조 세트로 선별하였다. 대조 세트의 샘플에서, 유일한 시퀀스 인덱스의 상대 수의 백분율(P i ,j )을 전체 게놈에 대한 유일한 시퀀스 인덱스의 전체 수(N j )에 대한 윈도우 내의 유일한 시퀀스 인덱스의 수(n i ,j )의 비율, 즉
Figure 112014106294753-pct00008
로 정의한 후, 대조 세트에서의 복수의 윈도우 매개의 평균 백분율
Figure 112014106294753-pct00009
, 즉
Figure 112014106294753-pct00010
를 계산하였다. 대상 샘플에서, 교정된 유일한 시퀀스 인덱스의 수 n i ,j 를 (복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수의 백분율과 전체 게놈에 대한 유일한 시퀀스 인덱스의 전체 수를 곱한) 윈도우 내의 기대 수로 나누어 줌으로써 복수의 윈도우 매개의 복제율 r i ,j , 즉
Figure 112014106294753-pct00011
를 획득했다.
d) 단편화(세분화)
① 중지점의 후보의 선별: 전체 게놈에서의 모든 r i ,j 에 대하여, 그것들의 양측에서의 100개의 윈도우에 대한 복제 수 변화의 차이를 계산하고; (p 값의 작은 값으로부터 큰 값까지의) 전체 게놈 범위에서 현저한 차이의 수준에 기초하여 CNV 중단 지접의 후보로서 10000개의 지점을 선별한다.
② 초기값 설정: 모든 랭킹된 중지점의 세트가 B c = {b 1 , b 2 , ... b k .., b s }로 기록되고, 그 후 두 개의 인접한 중지점 k+1 및 k-1이 각 중지점인 k의 양측에 존재한다. k-1에서 k까지의 복제 수의 세트와 k에서 k+1까지의 복제수의 세트 사이의 현저한 차이를 계산하여, 각 중지점의 양측에서의 현저한 차이를 나타내는 p 값이 획득된다(본 실시예에서는 비모수 검측의 런 검정이 사용되었다).
③ 반복 합병: 지속적인 순환 및 반복에 의하여, 가장 작은 현저한 차이성을 가지는 중지점의 후보가 매번 제거되고, 두 개의 인접한 중지점의 p 값이 모든 p 값이 IE-50보다 작아질 때까지 재계산되는 것을 포함한다.
주의: 단계 ① 및 ②에서 윈도우와 중지점을 선별할 때, 앞 지점 및 종료 지점에 위치된 이들 윈도우가 여전히 계산될 수 있도록 하기 위하여, 전체 게놈을 이용하는 반복이 수행된다.
e) 절사 값 및 필터링: 단편화 후 획득된 결과를 필터링하였다. 만약 r i ,j 의 평균값이 0.7보다 작거나 1.3보다 클 경우, 그에 대응하는 결과는 양성 결과로서의 결과이다.
f) 양성 결과의 시각화.
4. 통계적 계산
8개의 샘플에 대한 검측 결과 및 검증(varification) 결과를 하기 표에 상세히 나타내었다.
여기에서, 검증 결과는 CGH 칩(비교 유전체학 혼성화 칩(comparative genomic hybridization chip))에 의해 획득되었다. 이 실시예에서는 인간 게놈 CGH 마이크로어레이 키트(Human Genome CGH Microarray Kit, (Agilent Technologies Inc.))를 사용하였고, 제조자에 의해 제공된 설명서에 따랐다.
8개의 샘플의 CNV 결과
샘플
No.
검측 결과 길이 검증 결과 측정
샘플 1 T7 159.14M T7 일치
샘플 2 XYY 59.37M XYY 일치
샘플 3 chr5:1.. 36877903
결실
chr18:39024931.. 76038278
부가
36.88M
37.01M
5p15.3~p13.2
(183931~36816731)×1;
18p12.3~q23
(39086755~76067279)×3
일치
샘플 4 chr5:1..17710089
결실
17.71M 5p15.33~p15.1×1 일치
샘플 5 chr15:21236149..26219186
결실
4.98M 15q11.2~q13.1×1 일치
샘플 6 chr1:1..5065299
부가
5.07M 1p36.33~p36.32×3 일치
샘플 7 chr5:105562861..106156933
결실
0.59M 5q21.3×1 일치
샘플 8 chr9:6851755..7248416
결실
0.40M 9p24.1×1 일치
여기에서, chr은 염색체를 나타내고, T7은 염색체 7의 3염색체성(trisomy)을 나타내고, XYY는 성(sex) 염색체의 3염색체성 변이를 나타낸다.
도 7a-7h는 본 발명의 실시예에서의 8개 샘플 각 검측 결과를 나타낸 것이다.
작게는 0.4 M의 미세-결실을 가지는 단편과 크게는 전체 염색체 수 변이가 본 발명의 방법에 의해 정확하게 검측되고 위치될 수 있으며, 그것들의 효율성과 정확도 모두 우수하다는 것이 증명되었음을 상기 표 1 및 도 7a-7h로부터 알 수 있다.
지금까지 보고된 복제 수 변이를 검측하는 분석 방법들과 비교하여, 본 발명의 이점은:
1) 해상도(resolution): 약 50 M의 데이터를 사용하는 것에 의하여, 0.5 M의 미세-결실을 가지는 영역이 정확하게 검측될 수 있다.
2) 확장성(expandability): 시퀀싱 볼륨을 증가시키는 것을 제외하고는, 정확도 또한 대조 세트를 확장시키는 것에 의하여 향상될 수 있고, 초기 DNA 양에 대한 요건을 감소시킬 수 있다.
3) 더욱 안정적(stable)이고 더욱 포괄적(comprehensive)임: 보고된 논문에는 상세한 설명이 거의 없는 반면, 본 발명은 데이터를 이용하는 배치 교정 및 집단 교정과 같은 다양한 양상뿐만 아니라, 단편화를 위한 조건을 이용하는 최적화도 포함한다.
본 발명의 방법은 전체 게놈 복제 수 변이 검측을 위하여 이들 표적 환자(target patients)들을 대상으로 사용될 수 있고, 이는 유전 상담(genetic counseling) 및 임상 판단(clinical decision)을 위한 기준을 제공하는데 유익하며, 그것에 의하여 미세-결실 증후군(micro-deletion syndrome)으로 고통받고 있는 환자들에 대한 정확한 병리학적 판정을 가능하게 할 수 있다. 본 발명의 이들 표적 환자들은 미세-결실 또는 잠재적 보인자(potential carrier)로 고통받고 있는 환자들일 수 있다. 표적 환자들은 본 발명을 설명하기 위하여 사용되었으나, 본 발명의 범위를 제한하지는 않는다.
비록 설명을 위한 구현들이 나타나 있고 기재되어 있다 할지라도, 상기 구현들은 본 발명을 제한하는 것으로 이해될 수 없으며, 본 발명의 정신, 원리 및 범위를 벗어나지 않는 구현 내에서 변화, 대체 및 변경이 이루어질 수 있음을 당업자들은 잘 알 것이다.

Claims (19)

  1. 복제 수 변이(copy number variation)를 검측하는 방법으로서, 샘플의 핵산 분자(nucleic acid molecule)의 적어도 일부분으로부터 시퀀싱 데이터(reads)를 획득하는 단계;
    상기 획득된 시퀀싱 데이터에 기초하여 게놈 참조 시퀀스(reference sequence)에 비교 대조된 유일한 시퀀스 인덱스를 확정하는 단계;
    상기 게놈 참조 시퀀스를 복수의 윈도우로 나누고, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하는 단계;
    상기 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정(GC correction)하고, 대조 세트(control set)에 의해 교정된 유일한 시퀀스 인덱스의 기대 수(expected number)에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수를 획득하는 단계;
    복수의 윈도우 매개의 시작 지점(starting point) 또는 종결 지점(terminal point)으로 선택될 경계 지점을 이용하여 경계 지점의 양측에서 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단(population)의 현저한 차이성(significance)을 계산하여 더 작은 현저한 차이값을 가지는 경계 지점을 선택하여 CNV 중지점의 후보로 하는 단계;
    각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 상기 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여, 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성을 계산하는 단계; 및
    매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성을 재계산하고, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값(final cut-off)보다 작아질 때까지 순환(cycling) 및 반복(iterating)하여 CNV 중지점을 확정하는 단계를 포함하는, 복제 수 변이를 검측하는 방법.
  2. 제1항에 있어서,
    상기 샘플의 핵산 분자의 적어도 일부분을 시퀀싱(sequencing)하여 시퀀싱 데이터를 획득하는 단계를 더 포함하는, 복제 수 변이를 검측하는 방법.
  3. 제1항에 있어서,
    복수의 윈도우 매개는 동일한 수의 참조 유일 시퀀스 인덱스(reference unique reads)를 포함하거나, 복수의 윈도우 매개는 동일한 길이를 갖는, 복제 수 변이를 검측하는 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 최종 절사 값은 정상 샘플로 이루어진 대조 세트에 기초하여 획득되는, 복제 수 변이를 검측하는 방법.
  5. 제1항에 있어서,
    상기 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고, 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대 수에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수를 획득하는 단계는:
    GC 함량에 기초하여 복수의 윈도우 매개를 분류하고, 한 그룹 내에서의 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우에 대한 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수(correction coefficient)를 획득한 후, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하여 유일한 시퀀스 인덱스의 GC-교정된 수를 획득하는, 분류 및 교정하는 단계를 더 포함하고/하거나,
    상기 대조 세트로 교정된 유일한 시퀀스 인덱스의 기대 수는,
    유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트 내의 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 GC-교정된 수의 비율을 계산하는 단계;
    상기 대조 세트에 대응하는 모든 윈도우들에 대한 비율의 평균값을 획득하는 단계; 및
    상기 획득된 비율의 평균값과 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하는 단계에 의해 획득되는, 복제 수 변이를 검측하는 방법.
  6. 제5항에 있어서,
    단일 염색체(single chromosome) 또는 전체 게놈(whole genome)을 이용한 환화는 CNV 중지점의 후보를 선별할 때 수행되는, 복제 수 변이를 검측하는 방법.
  7. 제1항 또는 제2항에 있어서,
    CNV 중지점이 확정된 후, 상기 방법은
    두 개의 CNV 중지점 사이에 있는 시퀀스를 신뢰도 선별(confidence selection)하는 단계를 더 포함하고, 상기 신뢰도 선별하는 단계는,
    교정된 유일한 시퀀스 인덱스의 수의 분포(distribution)에 기초하여, 대조 세트를 이용하여 정상적으로 교정된 유일한 시퀀스 인덱스의 수의 신뢰구간(confidence interval)을 확정하는 단계; 및
    만약 시퀀스 안에서 교정된 유일한 시퀀스 인덱스의 수의 평균값이 신뢰구간의 바깥에 있다면, 두 개의 CNV 중지점 사이에 있는 시퀀스에 존재하는 이상(abnormality)을 확정하는 단계를 포함하는, 복제 수 변이를 검측하는 방법.
  8. 제7항에 있어서,
    상기 교정된 유일한 시퀀스 인덱스의 수는 정규 분포(normal distribution)에 부합하고, 상기 신뢰 구간은 95%인, 복제 수 변이를 검측하는 방법.
  9. 제1항에 있어서,
    상기 방법은,
    인간으로부터 양수검사(amniocentesis)에 의해 획득된 양수(amniotic fluid), 융모막 융모 채취(chorionic villi sampling)에 의해 획득된 융모(villus), 경피하 제대혈 채취(percutaneous umbilical blood sampling)에 의해 획득된 제대혈(umbilical cord blood), 자연적으로 유산된 태아 조직(spontaneous miscarrying fetus tissue) 또는 인간의 말초 혈액(human peripheral blood)을 포함하는 샘플을 획득하는 샘플 획득단계; 및/또는
    염석법(salting-out method), 컬럼 크로마토그래피법(column chromatography method), 비드법(beads method) 또는 SDS법과 같은 DNA 추출법에 의해 샘플의 게놈 DNA를 획득하는 단계; 및/또는
    샘플의 게놈 DNA를 효소적 절단, 분쇄(pulverization), 초음파(ultrasound) 또는 하이드로쉐어법(HydroShear method)으로 무작위로 단편화(random fragmenting)하여, DNA 단편을 획득하는 단계; 및/또는
    DNA 단편을 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing)하여 DNA 단편 시퀀싱 데이터를 획득하는 단계를 더 포함하는, 복제 수 변이를 검측하는 방법.
  10. 제1항에 있어서,
    상기 방법은, 각 샘플의 DNA 단편에 서로 다른 인덱스(index)를 첨가하여 서로 다른 샘플을 구별하는 단계를 더 포함하는, 복제 수 변이를 검측하는 방법.
  11. 복제 수 변이를 검측하는 시스템으로서, 샘플의 핵산 분자의 적어도 일부분으로부터 시퀀싱 데이터를 획득하기 위한, 시퀀싱 데이터를 획득하는 유닛;
    획득된 시퀀싱 데이터에 기초하여 게놈 참조 시퀀스에 비교 대조된 유일한 시퀀스 인덱스를 확정하기 위한, 유일한 시퀀스 인덱스를 확정하는 유닛;
    상기 게놈 참조 시퀀스를 복수의 윈도우로 나누고 상기 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 계산하기 위한, 유일한 시퀀스 인덱스의 수를 계산하는 유닛;
    복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 GC 교정하고, 대조 세트에 의해 교정된 유일한 시퀀스 인덱스의 기대수에 기초하여 교정하여, 교정된 유일한 시퀀스 인덱스의 수를 획득하기 위한, 유일한 시퀀스 인덱스의 수를 교정하는 유닛;
    복수의 윈도우 매개의 시작 지점 또는 종결 지점으로 선택될 경계 지점을 이용하여 경계 지점의 양측에서 교정된 유일한 시퀀스 인덱스의 수로 이루어진 값의 집단의 현저한 차이성을 계산하여, 더 작은 현저한 차이값을 가지는 경계 지점(demarcation point)을 선택하여 CNV 중지점의 후보로 하기 위한, 중지점의 후보를 선택하는 유닛;
    각 CNV 중지점으로부터 인접한 이전의 CNV 중지점까지의 하나의 시퀀스와 상기 각 CNV 중지점으로부터 인접한 다음의 CNV 중지점까지의 다른 시퀀스를 이용하여, 두 개의 시퀀스에 각각 포함되어 있는 교정된 유일한 시퀀스 인덱스의 수로 이루어진 두 개의 값의 집단의 현저한 차이성을 계산하고, 매번 가장 작은 현저한 차이성을 가지는 CNV 중지점의 후보를 제거하고, 제거된 CNV 중지점의 후보에 인접한 두 개의 CNV 중지점의 후보들의 현저한 차이성을 재계산하고, CNV 중지점의 모든 후보들의 현저한 차이성이 최종 절사 값보다 작아질 때까지 순환 및 반복하여 CNV 중지점을 확정하기 위한, 중지점을 확정하는 유닛을 포함하는, 복제 수 변이를 검측하는 시스템.
  12. 제11항에 있어서,
    상기 복수의 윈도우 매개는 동일한 수의 참조 유일 시퀀스 인덱스(reference unique reads)를 포함하거나, 복수의 윈도우 매개는 동일한 길이를 갖는, 복제 수 변이를 검측하는 시스템.
  13. 제11항에 있어서,
    상기 최종 절사 값은 정상 샘플로 이루어진 대조 세트에 기초하여 획득되는, 복제 수 변이를 검측하는 시스템.
  14. 제11항에 있어서,
    상기 유일한 시퀀스 인덱스의 수를 교정하는 유닛은,
    GC 함량에 기초하여 복수의 윈도우 매개를 분류하고, 한 그룹 내에서의 유일한 시퀀스 인덱스의 수의 평균값과 모든 복수의 윈도우에 대한 유일한 시퀀스 인덱스의 수의 평균값에 기초하여 보정계수를 획득한 후, 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 수를 교정하여 유일한 시퀀스 인덱스의 GC-교정된 수를 획득하기 위한, GC 교정 모듈(GC correction module);
    유일한 시퀀스 인덱스의 전체 수에 대한 대조 세트 내의 복수의 윈도우 매개에 놓이는 유일한 시퀀스 인덱스의 GC-교정된 수의 비율을 계산하고, 상기 대조 세트에 대응하는 모든 윈도우들에 대한 비율의 평균값을 획득하고, 상기 획득된 비율의 평균값과 샘플에서의 유일한 시퀀스 인덱스의 전체 수에 기초하여 샘플에서의 복수의 윈도우 매개에 대한 유일한 시퀀스 인덱스의 기대 수를 계산하기 위한, 윈도우 교정 모듈(window correction module)을 포함하는, 복제 수 변이를 검측하는 시스템.
  15. 제11항에 있어서,
    상기 CNV 중지점이 중지점을 확정하는 유닛에 의해 확정된 후, 상기 시스템은,
    교정된 유일한 시퀀스 인덱스의 수의 분포에 기초하여, 대조 세트를 이용하여 정상적으로 교정된 유일한 시퀀스 인덱스의 수의 신뢰구간을 확정하고, 만약 시퀀스 안에서 교정된 유일한 시퀀스 인덱스의 수의 평균값이 신뢰구간의 바깥에 있다면, 두 개의 CNV 중지점 사이에 있는 시퀀스에 존재하는 이상(abnormality)을 확정하기 위한, 중지점 필터링 유닛(breakpoint filtering unit)을 더 포함하는, 복제 수 변이를 검측하는 시스템.
  16. 제15항에 있어서,
    상기 교정된 유일한 시퀀스 인덱스의 수는 정규 분포(normal distribution)에 부합하고, 상기 신뢰구간은 95%인, 복제 수 변이를 검측하는 시스템.
  17. 제11항 내지 제16항 중 어느 한 항에 있어서,
    상기 시스템은,
    인간으로부터 양수검사에 의해 획득된 양수, 융모막 융모 채취에 의해 획득된 융모, 경피하 제대혈 채취에 의해 획득된 제대혈, 자연적으로 유산된 태아 조직 또는 인간의 말초 혈액을 포함하는 샘플을 획득하기 위한 수단; 및/또는
    염석법, 컬럼 크로마토그래피법, 비드법 또는 SDS법과 같은 DNA 추출법에 의해 샘플의 게놈 DNA를 획득하기 위한 수단; 및/또는
    샘플의 게놈 DNA를 효소적 절단, 분쇄, 초음파 또는 하이드로쉐어법으로 무작위로 단편화하여 DNA 단편을 획득하는 수단; 및/또는
    DNA 단편을 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱하여 DNA 단편 시퀀싱 데이터를 획득하기 위한 수단을 더 포함하는, 복제 수 변이를 검측하는 시스템.
  18. 제11항에 있어서,
    각 샘플의 DNA 단편에 서로 다른 인덱스를 첨가하여 서로 다른 샘플을 구별하는, 복제 수 변이를 검측하는 시스템.
  19. 제11항에 있어서,
    상기 중지점의 후보를 선택하는 유닛에서, 단일 염색체 또는 전체 게놈을 이용한 환화는 CNV 중지점의 후보를 선별할 때 수행되는, 복제 수 변이를 검측하는 시스템.








KR1020147031062A 2012-04-05 2012-04-05 복제 수 변이를 검측하기 위한 방법 및 시스템 KR101795124B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/073545 WO2013149385A1 (zh) 2012-04-05 2012-04-05 一种拷贝数变异检测方法和系统

Publications (2)

Publication Number Publication Date
KR20140140122A KR20140140122A (ko) 2014-12-08
KR101795124B1 true KR101795124B1 (ko) 2017-12-01

Family

ID=49299922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147031062A KR101795124B1 (ko) 2012-04-05 2012-04-05 복제 수 변이를 검측하기 위한 방법 및 시스템

Country Status (10)

Country Link
US (2) US20150056619A1 (ko)
EP (1) EP2835752B8 (ko)
JP (1) JP5972448B2 (ko)
KR (1) KR101795124B1 (ko)
CN (1) CN104221022B (ko)
AU (1) AU2012376134B2 (ko)
IL (1) IL234875B (ko)
RU (1) RU2014144349A (ko)
SG (1) SG11201406250SA (ko)
WO (1) WO2013149385A1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224543A (zh) * 2014-05-30 2016-01-06 国际商业机器公司 用于处理时间序列的方法和装置
AU2015314114B2 (en) * 2014-09-12 2021-01-21 Illumina Cambridge Limited Detecting repeat expansions with short read sequencing data
CN106795551B (zh) * 2014-09-26 2020-11-20 深圳华大基因股份有限公司 单细胞染色体的cnv分析方法和检测装置
US11242559B2 (en) * 2015-01-13 2022-02-08 The Chinese University Of Hong Kong Method of nuclear DNA and mitochondrial DNA analysis
CN104560697A (zh) * 2015-01-26 2015-04-29 上海美吉生物医药科技有限公司 一种基因组拷贝数不稳定性的检测装置
CN104694384B (zh) * 2015-03-20 2017-02-08 上海美吉生物医药科技有限公司 线粒体dna拷贝数变异性的检测装置
CN104745718B (zh) * 2015-04-23 2018-02-16 北京中仪康卫医疗器械有限公司 一种检测人类胚胎染色体微缺失和微重复的方法
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN105243299B (zh) * 2015-09-30 2018-03-06 深圳华大基因科技服务有限公司 一种检测cnv的精确断点及断点周围特征的方法及装置
KR101848438B1 (ko) 2015-10-29 2018-04-13 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
AU2016355983B2 (en) * 2015-11-18 2021-12-23 Sophia Genetics S.A. Methods for detecting copy-number variations in next-generation sequencing
CN105760712B (zh) * 2016-03-01 2019-03-26 西安电子科技大学 一种基于新一代测序的拷贝数变异检测方法
AU2017299162A1 (en) 2016-07-20 2019-02-07 BioNTech SE Selecting neoepitopes as disease-specific targets for therapy with enhanced efficacy
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
TWI607332B (zh) * 2016-12-21 2017-12-01 國立臺灣師範大學 Correlation between persistent organic pollutants and microRNAs station
US11993811B2 (en) * 2017-01-31 2024-05-28 Myriad Women's Health, Inc. Systems and methods for identifying and quantifying gene copy number variations
CN110268044B (zh) * 2017-03-07 2022-08-02 深圳华大生命科学研究院 一种染色体变异的检测方法及装置
CN109097457A (zh) * 2017-06-20 2018-12-28 深圳华大智造科技有限公司 确定核酸样本中预定位点突变类型的方法
CA3085739A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences
CN109979529B (zh) * 2017-12-28 2021-01-08 北京安诺优达医学检验实验室有限公司 Cnv检测装置
CN109979535B (zh) * 2017-12-28 2021-03-02 浙江安诺优达生物科技有限公司 一种胚胎植入前遗传学筛查装置
CN108256289B (zh) * 2018-01-17 2020-10-16 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
KR102036609B1 (ko) * 2018-02-12 2019-10-28 바이오코아 주식회사 디지털 pcr을 이용한 산전진단 방법
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN108415886B (zh) * 2018-03-07 2019-04-05 清华大学 一种基于生产工序的数据标签纠错方法及装置
CN108664766B (zh) * 2018-05-18 2020-01-31 广州金域医学检验中心有限公司 拷贝数变异的分析方法、分析装置、设备及存储介质
CN114502744B (zh) * 2019-12-11 2023-06-23 深圳华大基因股份有限公司 一种基于血液循环肿瘤dna的拷贝数变异检测方法和装置
CN111261225B (zh) * 2020-02-06 2022-08-16 西安交通大学 一种基于二代测序数据的反转相关复杂变异检测方法
CN113496761B (zh) * 2020-04-03 2023-09-19 深圳华大生命科学研究院 确定核酸样本中cnv的方法、装置及应用
DE102020116178A1 (de) * 2020-06-18 2021-12-23 Analytik Jena Gmbh Verfahren zum Erkennen einer Amplifikationsphase in einer Amplifikation
CN111968701B (zh) * 2020-08-27 2022-10-04 北京吉因加科技有限公司 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN114220481B (zh) * 2021-11-25 2023-09-08 深圳思勤医疗科技有限公司 基于全基因组测序完成待测样本的核型分析的方法、系统和计算机可读介质
CN114999573B (zh) * 2022-04-14 2023-07-07 哈尔滨因极科技有限公司 一种基因组变异检测方法及检测系统
CN114758720B (zh) * 2022-06-14 2022-09-02 北京贝瑞和康生物技术有限公司 用于检测拷贝数变异的方法、设备和介质
CN114864000B (zh) * 2022-07-05 2022-09-09 北京大学第三医院(北京大学第三临床医学院) 一种动态鉴定人类单细胞染色体拷贝数的方法
CN115132271B (zh) * 2022-09-01 2023-07-04 北京中仪康卫医疗器械有限公司 一种基于批次内校正的cnv检测方法
CN117334249A (zh) * 2023-05-30 2024-01-02 上海品峰医疗科技有限公司 基于扩增子测序数据检测拷贝数变异的方法、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424368B2 (en) * 2002-11-11 2008-09-09 Affymetix, Inc. Methods for identifying DNA copy number changes
US7702468B2 (en) * 2006-05-03 2010-04-20 Population Diagnostics, Inc. Evaluating genetic disorders
US7979215B2 (en) * 2007-07-30 2011-07-12 Agilent Technologies, Inc. Methods and systems for evaluating CGH candidate probe nucleic acid sequences
US20120178635A1 (en) * 2009-08-06 2012-07-12 University Of Virginia Patent Foundation Compositions and methods for identifying and detecting sites of translocation and dna fusion junctions
JP2011078409A (ja) * 2009-09-10 2011-04-21 Fujifilm Corp アレイ比較ゲノムハイブリダイゼーション法による核酸変異解析法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bioinformatics, 2012, Vol. 28, no. 4, p. 470-478

Also Published As

Publication number Publication date
SG11201406250SA (en) 2014-11-27
EP2835752A1 (en) 2015-02-11
AU2012376134B2 (en) 2016-03-03
US11371074B2 (en) 2022-06-28
WO2013149385A1 (zh) 2013-10-10
EP2835752B8 (en) 2018-12-26
CN104221022A (zh) 2014-12-17
KR20140140122A (ko) 2014-12-08
CN104221022B (zh) 2017-11-21
AU2012376134A1 (en) 2014-11-06
JP5972448B2 (ja) 2016-08-17
US20150056619A1 (en) 2015-02-26
IL234875B (en) 2019-03-31
JP2015512264A (ja) 2015-04-27
EP2835752B1 (en) 2018-09-19
EP2835752A4 (en) 2015-11-18
RU2014144349A (ru) 2016-05-27
US20180148765A1 (en) 2018-05-31

Similar Documents

Publication Publication Date Title
KR101795124B1 (ko) 복제 수 변이를 검측하기 위한 방법 및 시스템
US11031100B2 (en) Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
EP3191993B1 (en) Detecting repeat expansions with short read sequencing data
KR102112438B1 (ko) 대규모 병렬 게놈 서열분석을 이용한 태아 염색체 이수성의 진단 방법
CN107849607B (zh) 血浆dna的单分子测序
CN106715711B (zh) 确定探针序列的方法和基因组结构变异的检测方法
KR20200093438A (ko) 체성 돌연변이 클론형성능을 결정하기 위한 방법 및 시스템
CN114724626A (zh) 母体血浆的无创性产前分子染色体核型分析
CN105555970B (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
US20200286586A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
US20220254442A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
US20180142300A1 (en) Universal haplotype-based noninvasive prenatal testing for single gene diseases
CN112823391A (zh) 基于检测限的质量控制度量

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant