KR101817180B1 - 염색체 이상 판단 방법 - Google Patents

염색체 이상 판단 방법 Download PDF

Info

Publication number
KR101817180B1
KR101817180B1 KR1020160007181A KR20160007181A KR101817180B1 KR 101817180 B1 KR101817180 B1 KR 101817180B1 KR 1020160007181 A KR1020160007181 A KR 1020160007181A KR 20160007181 A KR20160007181 A KR 20160007181A KR 101817180 B1 KR101817180 B1 KR 101817180B1
Authority
KR
South Korea
Prior art keywords
chromosome
chromosomal
data
determining
sequence data
Prior art date
Application number
KR1020160007181A
Other languages
English (en)
Other versions
KR20170087327A (ko
Inventor
권창혁
윤선영
이민섭
Original Assignee
이원다이애그노믹스(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이원다이애그노믹스(주) filed Critical 이원다이애그노믹스(주)
Priority to KR1020160007181A priority Critical patent/KR101817180B1/ko
Priority to US16/071,537 priority patent/US20190032125A1/en
Priority to SG11201806164VA priority patent/SG11201806164VA/en
Priority to PCT/KR2017/000741 priority patent/WO2017126943A1/ko
Priority to CN201780007722.1A priority patent/CN108604258B/zh
Publication of KR20170087327A publication Critical patent/KR20170087327A/ko
Application granted granted Critical
Publication of KR101817180B1 publication Critical patent/KR101817180B1/ko

Links

Images

Classifications

    • G06F19/22
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/12Simultaneous equations, e.g. systems of linear equations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

본 발명은 염색체 이상 판단 방법에 관한 것으로서, 더욱 상세하게는 차세대 서열분석 플랫폼에 상관없이 NGS 서열 데이터를 시퀀싱하고, 시퀀싱된 서열 데이터로부터 유일 리드를 추출하여 남녀를 판단하고, 기존 데이터에 대한 선형 판별 분석 기법(LDA, Linear Discriminant Analysis)으로 초기 학습을 통해 경계선을 설정함으로써, 상염색체와 성염색체 모두에 적용 가능하고, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가할 수 있는 새로운 염색체 이상 판단 방법에 관한 것이다.

Description

염색체 이상 판단 방법{METHOD OF DETECTING CHROMOSOMAL ABNORMALITIES}
본 발명은 염색체 이상 판단 방법에 관한 것으로서, 더욱 상세하게는 차세대 서열분석 플랫폼에 상관없이 시퀀싱된 서열 데이터로부터 유일 리드를 추출하여 남녀를 판단하고, 선형 판별 분석 기법(LDA, Linear Discriminant Analysis) 으로 기존 데이터에 대한 학습을 통해 경계선을 설정함으로써, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가하고, 상염색체와 성염색체 모두에 적용 가능한 새로운 염색체 이상 판단 방법에 관한 것이다.
'산전 진단'이란 태아가 태어나기 전 태아의 질병 유무를 판단 및 진단하는 과정을 말한다. 최근의 한 통계자료에 따르면, 선천성 기형아가 전체 신생아의 약 3%에 이르며, 선천성 기형아 중 약 20%는 염색체 이상에 의한 것으로 보고되었다. 특히 널리 알려져 있는 다운증후군에 해당하는 기형아는 선천성 기형아의 약 26%에 이른다.
이러한 기형아 출산율의 증가와 여러 산전 진단 장비들의 개발로 인하여 산전 진단에 대한 관심은 날로 증가하고 있다. 특히, 만 35세 이상의 고령의 임산부, 염색체 이상이 있는 아이의 분만 경력이 있는 임산부, 부모 중 한 명에게서 염색체의 구조적 이상이 있는 경우, 유전질환의 가족력이 있는 경우, 신경관결손의 위험이 있는 경우, 모체혈청 선별검사와 초음파검사에서 태아기형이 의심되는 경우 등에는 산전 진단을 받을 필요가 있다.
산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 나누어 볼 수 있다. 침습적 진단 방법의 예로는, 임신 10 ~ 12주 사이에 시행하는 융모막검사(chorionic villi sampling, CVS), 임신 15 ~ 20주 사이에 면역분석법을 이용하여 양수 내 AFP의 농도를 측정함으로써 태아의 염색체를 분석하는 양수천자(amniocentesis), 임신 18 ~ 20주 사이에 초음파 유도하에 탯줄로부터 직접 태아 혈액을 추출하는 방법으로 시행하는 탯줄천자(cordocentesis) 방법 등이 있다.
그러나, 위와 같은 침습적 진단 방법들은 검사 과정에서 태아에게 충격을 가하여 유산이나, 질병 또는 기형 등을 유발할 수 있다. 양수천자 또는 융모막 융모 샘플 채취에 의한 태아 물질 확보를 기초로 한 방법은 침습적이고, 심지어 숙련된 임상의에 의한 경우에도 임신에 대해 무시할 수 없는 위험을 야기할 수 있다. 현재 실무에서, 이러한 침습적 진단 방법은 대체로 모체 연령 때문에 또는 생화학적 시험 또는 초음파 검사를 통한 사전 스크리닝을 통해 다운 증후군 태아 임신 가능성이 증가한 표지가 있을 경우에 사용된다.
이러한 침습적 진단 방법들의 문제점들을 극복하기 위하여 비침습적 진단 방법들이 개발되고 있다. 예를 들어, 배아 착상 전 유전진단 방법은 체외수정에서 사용되는 분자유전학적 또는 세포유전학적 기술을 이용하여 자궁 내 착상 전 유전적 결함이 없는 배아를 선택하는 기술이다. 또한, 염색체 이수성(aneuploidy)을 신속히 진단하기 위한 QF-PCR (quantitative-fluorescent PCR) 형광 정량법은 염색체마다 특이적으로 존재하는 DNA의 짧은 염기서열 반복 표지자(short tandem repeats, STR)에 형광을 붙여 멀티플렉스(multiplex) PCR 법으로 증폭한 후 DNA 자동염기서열 분석기로 형광이 붙은 증폭된 DNA의 양을 측정하여 분석하는 신속 선별 검사방법이다. 또한, 복제수 변이(copy number change)를 찾아내기 위하여 유리 슬라이드 위에 맵핑한 DNA 서열(mapped DNA sequence)을 집적하여 검사하는 염색체 마이크로어레이 (chromosomal microarray, CMA) 방법 등이 알려져 있다.
한편, 시퀀싱 기술의 발달로 대규모의 유전체 정보를 해독하는 것이 가능해짐에 따라, 이러한 차세대 시퀀싱(Next-Generation Sequencing, NGS) 기술을 기반으로 한 유전체 분석 방법들이 산전 진단 영역에도 활용되고 있다. 특히, 임신 여성의 혈장 내의 세포 유리 DNA가 태아 기원의 성분을 포함한다는 사실이 알려져 있으며(Lo et al., 1997, Lancet 350, 485-487), 세포 유리 혈장 DNA (이하에서 '혈장 DNA'로 언급함)는 대개 5%-20%가 태아 기원의 것이고 나머지는 모체의 것인 짧은 DNA 분자 (80-200 bp)로 주로 이루어진다 (Birch et al., 2005, ClinChem 51, 312-320; Fan et al., 2010, ClinChem 56, 1279-1286).
이와 같은 사실을 이용하여 태아의 세포를 모체의 혈액에서 분리하여 그 염색체를 분석하려는 산전 진단 방법들이 알려져 있다. 일반적으로, 과잉 염색체에 의해 또는 염색체의 결핍 때문에 초래되는 태아 이수성이 존재하는 병태는 검출가능한 모체의 세포 유리 혈장 DNA 내의 태아 DNA 분자 집단의 불균형을 생성하므로 이를 이용하여 염색체 이상을 분석하는 방법이 개발되고 있다.
원칙적으로, 혈장 내의 세포 유리 태아 DNA가 모체 성분에 의해 희석되지 않으면, T21의 특징을 일으키는 과잉 염색체는 정상 임신에 비해 그 염색체로부터 유래된 50% 초과의 DNA 분자를 생성할 것으로 예상된다. 그러나, 태아 기원의 세포 유리 혈장 DNA의 성분에 대한 10%의 전형적인 값을 고려할 때, 발생하는 불균형은 단지 5%, 또는 정상 임신에 대한 1.00에 비해 1.05의 값으로의 21번 염색체-유래 단편의 수의 상대적인 증가인 것으로 예상된다. 혈장 DNA의 태아 성분이 10% 값보다 더 작거나 더 큰 상황에서, 모체 혈장 내의 분자들의 집단 내의 21번 염색체-유래 분자의 수의 불균형은 그에 상응하여 더 작거나 더 클 것이다.
따라서, 이러한 비침습적 진단 시험의 기초는 모체 혈장으로부터 DNA 분자에 대한 뉴클레오티드 서열 데이터를 얻는 것이다('DNA 서열분석'). 일단 부분적 또는 완전한 뉴클레오티드 서열 정보를 개별 DNA 분자로부터 얻은 후, 가장 간단하게는 참조 인간 게놈(들)과 비교함으로써 개별 분자들을 그들이 기원하는 염색체에 배정하기 위해 생물 정보공학 기술을 적용해야 한다.
충분히 많은 수의 혈장 DNA에 대해서 일부 뉴클레오티드 서열 데이터를 얻을 수 있고, 충분히 많은 수를 그의 염색체 기원에 배정하기 위해 생물 정보공학 방법을 신뢰가능하게 적용할 수 있음을 고려할 때, 통계적 신뢰성을 보유하면서 혈장 DNA 분자의 집단 내의 염색체 불균형의 존재 또는 부재를 결정하기 위해 통계적 방법을 적용할 수 있다.
지금까지 이러한 진단 방법에서는 그의 염색체 기원에 배정하기에 충분한 길이의 서열을 얻기 위해, 비교적 오류가 없는 고품질 서열 데이터를 생성하는 대규모 병렬형 DNA 서열분석 기술(차세대 서열분석 또는 제2 세대 서열분석으로도 알려짐)을 이용하였다.
이러한 특정 자동화 서열분석 장치는 대개 통상적인 게놈 서열분석을 위해 요구되는 것보다 실질적으로 양호하지 못한 서열 데이터를 생성한다. 이렇게 생성된 서열 데이터는 빈번한 오류를 특징으로 한다. 이들 오류는 종류가 다양하지만, 가장 흔하게는 '삽입-결실(indel)'이고, 이것은 정확하지 않은 과잉 염기 (삽입) 또는 결실된 염기를 전달하는 서열분석 장치에 의해 야기되는 오류이다. 또한, 짧은 단독중합체런(run) (즉, 몇 개의 동일한 염기의 런)을 효과적으로 서열분석하기가 어렵다. 또한, 서열분석 오류는 또한 염기가 부정확하게 배정되는 '미스매치'를 포함할 수 있어서 여러가지 오류를 나타내고 있는 실정이다.
또한, 이러한 대규모 병렬형 서열분석은, 수행되는 서열분석이 시간이 많이 소요되고 비싼 생물 정보공학을 필요로 하는 아주 큰 데이터를 생성하는 풀-서비스 게놈 서열분석기 - 주로 일루미나(Illumina) HiSeq -에서 고품질로 이루어진다는 단점을 포함한다. 또한, 풀-서비스 게놈 서열분석기의 종류에 따라 구체적인 분석을 수행하는 방법이 다를 뿐만 아니라, 실행 시간 및 분석 과정은 전체적으로 수 주가 소요될 수 있다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 종래 특정 자동화 서열분석 장치에 의한 서열시퀀싱 방법 및 이에 따른 정규화 방법에 제한되지 않고 생성된 서열 정보를 이용할 수 있으며, 상염색체와 성염색체 모두에 적용 가능한 새로운 염색체 이수성을 판단하는 새로운 방법을 제공하는 것을 목적으로 한다.
본 발명은 상기와 같은 과제를 해결하기 위하여
표적 염색체의 시퀀싱된 서열 데이터로부터 유일 리드를 추출하는 제 1 단계;
정상과 이수성에 대해 기검증된 염색체 데이터의 정상과 이수성을 구분 레이블하여 선형 판별 분석 기법(LDA)으로 염색체 이수성 판단을 위한 경계선을 설정하는 제 2 단계;
상기 제 2 단계에서 설정된 경계선에 의하여 상기 제 1 단계에서 추출된 유일 리드표적 염색체 유전자의 이수성 유무를 판단하는 제 3 단계; 를 포함하는 염색체 이상 판단 방법을 제공한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 이수성 판단을 위한 경계선을 설정하는 제 2 단계에서는 정상과 이수성에 대해 기검증된 염색체 데이터의 정상과 이수성을 구분하여 레이블하여 선형 판별 분석 기법(LDA)으로 초기 학습시키고, 기검증된 염색체 데이터 중 이수성 염색체 데이터의 최소값을 경계값으로 설정하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 선형 판별 분석 기법은 Linear Discriminant Analysis 방법을 가리키며, 기검증된 염색체 데이터를 분석하여 초기 경계값을 설정하고 누적되는 샘플을 추가 분석하여 이수성 염색체 데이터의 최소값을 경계선으로 설정하는 방법을 가리킨다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 선형 판별 분석 기법(LDA)에 의하여 설정된 기준에 의하여 새로운 표적 염색체 유전자의 이수성 유무를 판단하는 단계에서는 기검증된 염색체 데이터로부터 정상 샘플의 범위를 설정하고 이수성 데이터의 최소값을 경계선으로 하여 염색체 이상 유무를 판단하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 표적 염색체로부터 유일 리드를 추출하는 단계에서는 90kb bin 영역으로 나누고 GC 함량은 0.35에서 0.55이하의 리드를 추출하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법은 상기 제 1 단계 후 상기 추출한 유일 리드로부터 아래 식으로 나타내어지는 UR(x)%(염색체 X에 유일하게 매칭되는 리드의 퍼센트) 및 UR(y)%(염색체 Y에 유일하게 매칭되는 리드의 퍼센트)를 계산하는 제 1-1 단계;
UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 제 1-2 단계; 및
상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 Y-specific 영역에 매핑되는 영역의 리드 개수로부터 성별을 구분하는 제 1-3 단계; 를 포함하는 R(x)% 및 UR(y)%로부터 성별을 판단하는 단계를 더 포함하는 염색체 이상 판단 방법을 제공한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 chrX와 chrY를 비교하여 Pseudoautosomal region을 선정하여 chrX의 영역을 제거한 순수한 chrY영역만을 선정한 Y-specific 영역에 매핑되는 영역(표 1)의 리드 개수로부터 성별을 구분하는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 염색체가 13번 염색체, 18번 염색체, 21번 염색체, 3번 염색체, 7번 염색체, 12번 염색체로 이루어진 그룹에서 선택되는 1개 이상, 또는 X 염색체 또는 Y 염색체인 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법은 상염색체를 대상으로 하는 경우 상염색체 전체로 확장 가능하며, 본 발명에 의한 염색체 이상 판단 방법에 있어서, 검출할 수 있는 염색체 이상의 예는 다음을 포함한다:
다운 증후군(21번 삼염색체증), 에드워드(Edward) 증후군(18번 삼염색체증), 파타우(Patau) 증후군(13번 삼염색체증), 9번 삼염색체증, 워카니(Warkany) 증후군(8번 삼염색체증), 묘안(Cat Eye) 증후군 (22번 염색체의 4 카피), 22번 삼염색체증, 및 16번 삼염색체증.
추가로 또는 대안적으로, 유전자, 염색체, 또는 염색체의 일부의 이상, 카피수의 검출은 다음을 포함하는 군으로부터 선택된 병태의 검출 및/또는 진단을 포함할 수 있다: 울프-허쉬호른(Wolf-Hirschhorn) 증후군 (4p-), 묘성(Cri du chat) 증후군 (5p-), 윌리암스-보이렌(Williams-Beuren) 증후군 (7-), 야콥센(Jacobsen) 증후군 (11-), 밀러-디커(Miller-Dieker) 증후군 (17-), 스미쓰-마게니스(Smith-Magenis) 증후군 (17-), 22ql l.2 결실 증후군 (구개심장안면(Velocardiofacial) 증후군, 디조지(DiGeorge) 증후군, 뿔줄기 기형 얼굴(conotruncal anomaly face) 증후군, 선천적 흉선 무형성증, 및 스트롱(Strong) 증후군으로도 알려짐), 안젤만(Angelman) 증후군 (15-), 및 프라더-윌리(Prader-Willi) 증후군 (15-).
추가로 또는 대안적으로, 염색체 카피수 이상의 검출은 터너(Turner) 증후군 (울리히-터너(Ullrich-Turner) 증후군 또는 일염색체 X), 클라인펠터(Klinefelter) 증후군, 47,XXY 또는 XXY 증후군, 48,XXYY 증후군, 49,XXXXY 증후군, 삼중 X 증후군, XXXX 증후군 (사염색체 X, 사중 X, 또는 48,XXXX로도 불림), XXXXX 증후군 (오염색체 X 또는 49,XXXXX로도 불림) 및 XYY 증후군을 포함하는 군으로부터 선택된 병태의 검출 및/또는 진단을 포함할 수 있다.
본 발명에 의한 염색체 이상 판단 방법은 기존 시퀀싱된 데이터로부터 선형 판별 분석 기법(LDA)에 의해 염색체 이수성 판단을 위한 경계선을 설정하기 때문에 사용되는 시퀀싱 데이터의 양이 많아질수록 판단의 정확도와 민감도가 높아지게 되며, 이에 따라 데이터를 계속 누적하면서 복수회 시행시 판단의 민감도와 정확도를 계속하여 개선할 수 있게 된다.
즉, 본 발명에 의한 염색체 이상 판단 방법은 시퀀싱된 데이터 서열을 계속적으로 추가하면서 염색체 이상 판단을 위한 상기 제 1 단계 내지 제 3 단계를 N회 반복 수행하는 것이 가능하고, 상기 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1, 상기 제 N 회 판단시 사용된 염색체 데이터를 Dn 이라고 할 때, 상기 제 N 회 판단시 사용된 염색체 데이터 Dn 에 대한 이수성 판단은 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1 로부터 도출된 경계값인 것을 특징으로 한다.
경계값은 특정 알고리즘에 영향을 받지만 이수성에 가까운 값이 하나의 값으로 설정하거나 경계값을 두 개로 두어서 판단을 유연성 있게 개선할 수도 있다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 차세대 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다. 본 발명에 의한 서열 데이터를 얻기 위한 방법이 임의의 특정 기술로 제한되지 않음은 통상의 기술자에 의해 이해될 것이다.
상기 서열분석 플랫폼은 문헌 [Loman et al. (2012) Nature Biotechnology 30(5), 434-439]; [Quail et al. (2012) BMC Genomics 13, 341]; [Liu et al. (2012) Journal of Biomedicine and Biotechnology 2012, 1-11]; 및 [Meldrum et al. (2011) ClinBiochem Rev. 32(4): 177-195]에서 논의 및 검토되었고; 상기 문헌에서 검토된 서열분석 플랫폼은 본원에 참조로 포함된다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 차세대 서열분석 플랫폼이 로슈(Roche) 454 (즉, 로슈 454 GS FLX), 어플라이드 바이오시스템즈(Applied Biosystems)의 SOLiD 시스템 (즉, SOLiDv4), 일루미나(Illumina)의GAIIx, HiSeq 2500 및 MiSeq 서열분석기, 라이프 테크놀로지스(Life Technologies)의 아이온토렌트(Ion Torrent) 반도체 서열분석 플랫폼인 Proton 및 S5 서열분석기, 퍼시픽바이오사이언시스(Pacific Biosciences)의 PacBio RS 및 생어(Sanger)의 3730xl로부터 선택되는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 폴리머라제 연쇄 반응의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 합성에 의한 서열분석의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 이온, 예컨대 수소 이온 방출의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 반도체-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것을 특징으로 한다. 반도체-기반 서열분석 방법의 장점은 기기, 칩 및 시약의 제조 비용이 낮고, 서열분석 과정이 신속하고 (emPCR에 의한 오프-셋에도 불구하고), 시스템을 확대할 수 있다는 것이지만, 이것은 emPCR에 사용되는 비드 크기에 의해 다소 제한될 수 있다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 나노포어-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것을 특징으로 한다. 나노포어-기반 방법은 예컨대 옥스포드나노포어테크놀로지스(Oxford Nanopore Technologies)에 의해 사용된 기술에서처럼 살아있는 세포의 세포막 및 단백질 채널의 상황을 모방하는 유기-타입 나노포어의 이용을 포함한다 (예를 들어, 문헌 [Branton D, Bayley H, et al. (2008). Nature Biotechnology 26 (10), 1146-1153]).
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼 또는 일루미나의 MiSeq에 의해 얻어지는 것을 특징으로 한다. 일루미나의 합성에 의한 서열분석 (SBS) 기술은 현재 성공적이고, 세계적으로 널리 채택된 차세대 서열분석 플랫폼이다. TruSeq 기술은 단일 염기가 성장하는 DNA 가닥 내로 포함될 때 그의 검출을 가능하게 하는 독점적 가역적 종료자-기반 방법을 사용하는 대규모 병렬형 서열분석을 지지한다. 형광 표지된 종료자는 각각의 dNTP가 첨가되면서 영상화된 후, 다음 염기의 도입을 허용하기 위해 절단된다. 4개의 모든 가역적 종료자-결합 dNTP는 각각의 서열분석 사이클 동안 존재하기 때문에, 천연 경쟁이 도입 편향을 최소화한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine) (아이온토렌트 PGM)에 의해 얻어지는 것을 특징으로 한다.
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼, 예컨대 PI 또는 PII 칩을 갖는 아이온프로톤(Ion Proton)과 S5, 및 그의 추가의 파생 장치 및 부품을 기초로 한 다중 반복(multiplex capable iteration)에 의해 얻어지는 것을 특징으로 한다.
추가의 실시예에서, 차세대 서열분석 플랫폼은 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine)인 퍼스널 게놈 머신 (PGM)이다. 아이온토렌트 장치는 합성에 의한 서열분석 (SBS)과 유사한 전략을 사용하지만, 뉴클레오티드 도입 동안 DNA 폴리머라제의 활성에 따른 수소 이온의 방출에 의한 신호를 검출한다. 본질적으로, 아이온토렌트 칩은 매우 민감한 pH 미터이다. 각각의 이온 칩은 다수의 서열분석 반응의 동시 검출을 허용하는, 수백만 개의 이온-감수성 전계 효과 트랜지스터 (ISFET) 센서를 포함한다. ISFET 장치의 사용은 관련 기술 분야의 통상의 기술자에게 잘 알려져 있고, 본 발명의 방법에 의해 요구되는 서열 데이터를 얻기 위해 사용될 수 있는 기술의 범위 내에서 수행될 수 있다 (Prodromakis et al. (2010) IEEE Electron Device Letters 31(9), 1053-1055; Purushothaman et al. (2006) Sensors and Actuators B 114, 964-968; Toumazou and Cass (2007) Phil. Trans. R. Soc. B, 362, 1321-1328; WO 2008/107014 (DNA 일렉트로닉스 엘티디(DNA Electronics Ltd)); WO 2003/073088 (토우마조우(Toumazou)); US 2010/0159461 (DNA 일렉트로닉스 엘티디); 각각의 서열분석 방법은 본원에 참조로 포함됨).
본 발명에 의한 염색체 이상 판단 방법에 있어서, 상기 시퀀싱된 서열 데이터가 정규화되거나 또는 정규화되지 않은 것을 특징으로 한다. 즉, 본 발명에 의한 염색체 이상 판단 방법은 시퀀싱 방법에 제한되지 않을 뿐만 아니라, 시퀀싱된 서열 데이터의 표준화, 정규화를 수행하거나, 수행하지 않은 경우에도 염색체 이상을 판단할 수 있다.
본 발명에 의한 염색체 이상 판단 방법은 종래 특정 자동화 서열분석 장치에 의한 서열시퀀싱 방법 및 이에 따른 정규화 방법에 제한되지 않고, 생성된 서열 정보를 이용할 수 있으며, 상염색체와 성염색체 모두에 적용 가능하고, 진단 횟수가 늘어날수록 정확도 및 민감도가 증가하게 되어 비침습적인 방법의 상업적인 기반이 되면서 태아의 상염색체와 성염색체 수 이상으로 인한 기형 여부를 조기에 판단할 수 있는 산전 진단에 유용하게 활용될 수 있다.
본 발명에 의한 방법은 많은 시퀀싱 데이터 및 이에 대한 이상 판단 데이터가 축적되면 선형 판별 분석 기법(LDA)에 의해 정교한 경계선을 설정할 수 있으며 이에 따라 기존보다는 월등히 높은 민감도를 얻을 수 있다.
도 1은 본 발명의 진단 방법을 이용하여 100개의 샘플에 대하여 Proton 으로 Y-specific 영역으로 성별을 판단하는 예를 보여주는 그래프이다.
도 2는 본 발명의 진단 방법을 이용하여 30개의 샘플에 대하여 일루미나(Illumina)사의 HiSeq 플랫폼으로 성별을 판단하는 예를 보여주는 그래프이다.
도3은 본 발명의 진단 방법을 이용하여 QDNAseq으로 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 4는 본 발명의 진단 방법을 이용하여 HMMcopy로 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 5은 정규화를 하지 않고 X와 Y의 퍼센트만을 이용하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 6은 본 발명의 진단 방법을 이용하여 GCBias를 이용하는 Deeptools을 이용하여 정규화를 수행하여 학습을 시킨 이후에 새로운 샘플을 예측한 결과를 나타낸 그래프이다.
도 7은 본 발명의 진단 방법을 이용하여 21번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 T는 이수성 샘플이고 빨간색 T는 경계선에 있는 샘플이다.
도 8은 본 발명의 진단 방법을 이용하여 18번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 R은 이수성 샘플이고 빨간색 R은 경계선에 있는 샘플이다.
도 9는 본 발명의 진단 방법을 이용하여 13번 염색체의 정상과 이수성 샘플을 구분한 결과 그래프이다. N은 정상 샘플이고 M은 이수성 샘플이고 빨간색 M은 경계선에 있는 샘플이다.
도 10은 본 발명의 진단 방법을 이용하여 21번과 18번 염색체의 판단을 동시에 그린 그래프이다. 가로축은 chr21, 세로축은 chr18이고 N은 정상, 흰색은 18번 이수성, 분홍색은 21번 이수성을 나타낸다.
도 11은 본 발명의 진단 방법을 이용하여 3번 염색체의 이수성 여부를 판단한 결과를 그래프로 나타내었다. QDNAseq에서 정상 샘플의 평균은 7.551이고 이수성 샘플의 평균은 7.615이다.
도 12는 본 발명의 진단 방법을 이용하여 7번 염색체의 이수성 샘플을 그래프로 나타내었다.
도 13은 본 발명의 진단 방법을 이용하여 12번 염색체의 이수성 샘플을 그래프로 나타내었다.
도 14 내지 도 16은 본 발명의 진단 방법을 이용하여 성염색체 이수성을 판단하기 위해서 정상 샘플과 XXY, XYY, XXX, XO 샘플을 그린 그래프이다.
도 15는 XXY와 XYY를 구분하는 그래프이다.
도 16은 XXX와 XO를 구분하는 그래프이다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
<실시예 1> 유일 리드를 추출하여 남녀를 구분하는 단계
산모로부터 채취된 혈액에서 혈장을 추출하여 30ng이상의 cfDNA를 추출하여 라이브러리를 제작하고 Life Tech과 일루미나(Illumina)모두 Adapter를 결합하였다. 이후 Life Tech 장비를 사용하여 E-gel size selection로 pooling을 하고, 일루미나(Illumina)를 사용하여 bead size selection을 수행하고 pooling을 하여 시퀀싱을 수행하였다.
시퀀싱된 fastq 파일을 서열 정리하고, PCR duplication을 제거하여 유일 리드를 추출하였다. 완벽히 정렬(perfect match) 된 리드만을 정리하고, 정리된 서열에서 모든 영역을 90kb bin 영역으로 나누고 GC 함량이 0.35에서 0.55 이하의 리드를 추출하였다.
아래 식으로 나타낸 염색체 X에 유일하게 매칭되는 유리 리드의 퍼센트(UR(x)%) 와 염색체 Y에 유일하게 매칭되는 유일 리드의 퍼센트(UR(y)%) 값을 구하였다.
-UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
-UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
하기 표 1에서와 같이 Y-specific 영역을 설정하고, Y-specific 영역을 기준으로 리드 개수를 계산하여 2 미만이면 여자로, 2 이상이면 남자로 결정하였다.
하기 표 1에서 Y-specific 영역은 chrX와 chrY를 비교하여 Pseudoautosomal region을 제거한 이후에 chrX의 영역을 제거한 순수한 chrY 영역으로 정의하고 아래와 같이 선정하였다. 본 발명은 Y-specific 영역에 매핑되는 영역의 리드 수를 세는 방법을 이용하여 쉽게 남녀를 구분할 수 있는 것을 특징으로 한다.
Y-specific 영역 X와 동일한 영역
- chrY:1-10000
chrY : 10001-2649520

- chrY:2649521-59034049
chrY : 59034050-59373566
- chrX:60,001-2,699,520 = chrY:10,001-2,649,520
- chrX:154,931,044 = chrY:59,034,050-59,363,566
Proton 을 사용하여 100개의 샘플에 대해 본 발명에 의하여 LDA 방법을 이용하여 초기 학습시켜서 성별을 측정한 경우를 나타내는 도 1과, 일루미나(Illumina)를 사용하여 30개의 샘플에 대해 성별을 측정한 경우를 나타내는 도 2 에서, 각각의 경우 LDA 에 의해 결정되는 경계값은 다르지만, 상호 유사한 값으로 남녀를 구분할 수 있음을 확인할 수 있다.
<실시예 2> 기존 시퀀싱 데이터를 이용한 LDA 학습
본 발명은 표준 방법에 의해서 확인된 데이터를 선형 판별 분석 기법(LDA)을 이용하여 초기 학습시켜서, 이수성 데이터의 최소값을 경계값으로 추출하고, 이로부터 표적 염색체의 정상, 이수성, 경계를 예측 판단할 수 있는 것을 특징으로 한다.
종래 Z-score와 일루미나(Illumina)의 NCV등의 방법이 대표적으로 사용되고 있지만 Low-depth 데이터를 이용하여 전체 데이터를 정규화하는 다양한 정규화 알고리즘(QDNAseq, HMMcopy, Deeptools 등)이 소개되고 있다.
loess를 이용한 QDNAseq 프로그램으로 시퀀싱 데이터를 정규화하고 Z-score를 구한 결과인 도 3을 보면 5개의 붉은 색 T(Trisomy)샘플을 확인할 수 있고 1.268에서 정상과 이수성 샘플이 구분되므로, LDA 법에 의해 1.268을 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
HMMcopy로 정규화하고 Z-score를 구한 결과를 나타내는 도 4에서도 5개의 붉은 색 T(Trisomy)를 확인할 수 있고, 2개의 N(Normal)이 있지만 1.44를 기준으로 정상과 이수성 샘플이 명확하게 구분되므로, LDA 법에 의해 1.44를 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
오직 GCBias만을 정규화한 결과를 나타내는 도 6 에서도 5를 기준으로 정상과 이수성 샘플이 명확하게 구분되므로, LDA 법에 의해 5를 경계선을 자동으로 설정가능하다는 것을 알 수 있다.
또한, 본 발명에 의한 염색체 이상 판단 방법의 경우 구체적인 플랫폼에 무관하게 시퀀싱된 데이터에 대하여 별도의 정규화 과정을 수행하지 않고도 염색체 이상을 판단하는 것이 가능하다.
도5 에서 기본적인 서열정리를 수행한 이후에 정규화를 수행하지 않고 UR.X와 UR.Y의 퍼센트만으로 데이터를 학습시키고, 이후 새로운 샘플의 값(붉은 색의 V)을 삽입하여도 검정색의 정상 샘플인 N과 검정색의 이수성 샘플인 T 가 1.4를 기준으로 명확하게 구분됨을 확인 할 수 있다.
도5 에서 경계선에 포함된 붉은 색 T가 2개밖에 없기 때문에, 본 발명에 의한 선형 판별 분석 기법(LDA)에 의하여 염색체 이상 판단 방법의 경우 단순 서열정리만을 수행하고도 충분히 정상 샘플과 이수성 샘플을 명확하게 구분할 수 있음을 알 수 있다.
이로부터 본 발명에 의한 LDA방법을 활용한 염색체 이상 판단 방법의 경우 기존의 알려진 정규화 알고리즘이나 Z-score를 이용하지 않고서도 동일한 결과를 얻을수 있음을 알수 있다.
<실시예 3> 상염색체 이수성 판단
<실시예 3-1> 21, 18, 13번 염색체 이수성 판단
상기 실시예 2 의 기존 표준 방법에 의해서 확인된 데이터에서 chr21, chr18, chr13 의 경우를 구분하고, 상기 chr21, chr18, chr13 데이터 각각에 대해 LDA 방법을 이용하여 이수성 데이터의 최소값을 경계값으로 추출하고, 이로부터 정상, 이수성, 경계를 예측 판단하였다.
본 발명에 의한 염색체 이상 판단 방법, 즉, 기존 데이터를 활용하여서 열정리를 수행하고 정규화를 수행한 이후에 LDA 방법으로 선정된 이수성 데이터의 최소값을 경계값으로 설정하고, 상기 경계값을 기준으로 chr21, chr18, chr13번 염색체 이수성 판단 결과를 도 7, 도 8 및 도 9에 각각 나타내었다.
도 7에서 chr21의 경우 경계값인 4를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 T(이수성)샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
도 8에서 chr18의 경우 경계값인 2.5를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 R(이수성)샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
도 9 에서 chr13의 경우 경계값인 1.5를 기준으로 명확한 이수성을 판단할 수 있고, 빨간색 M(이수성)샘플을 기준으로 경계선과 정상(N)과 이수성(T) 샘플을 명확하게 구분할 수 있음을 확인할 수 있다.
또한, 도 10 에서 보는 바와 같이 본 발명의 염색체 이상 판단 방법에서는 chr21과 chr18이 동시에 이수성을 나타내는 샘플을 쉽게 구분 할 수 있음을 확인할 수 있다.
<실시예 3-2> 상염색체 범위 확장 가능성
본 발명의 염색체 이상 판단 방법을 종래 가장 잘 알려진 chr13, chr18, chr21 뿐만 아니라 다른 상염색체 이상의 검출에도 적용가능함을 확인하였다.
먼저, chr3, chr7, chr12 3개의 염색체 시퀀싱 데이터로부터 종래 사용되는 방법에 의해 정규화를 수행하고 리드수를 이용하여 z-score를 계산하고, 그 결과를 도 11 내지 도 13에 나타내었다.
도 11 내지 도 13 에서 chr13, chr18, chr21의 이수성 샘플과 정상 샘플을 분석하여 최소 리드수를 정의하면 동일한 비율임을 확인할 수 있고, 이 최소 리드수를 적용하여 랜덤으로 선정한 chr3, chr7, chr12 염색체에 본 발명에 의한 LDA 에 의해 염색체 이상을 판단하면, chr3(도 11), chr7(도 12), chr12(도 13)에서 보는 바와 같이 정상과 이수성이 명확하게 구분됨을 확인할 수 있었다
도 11 에서 QDNAseq에서 제공하는 loess 알고리즘을 적용하여 chr3의 정상 샘플들의 평균값을 확인했을 때 7.55이고 최대값은 7.58로 이수성 샘플의 최소값인 7.62와는 명확한 경계를 구분함을 확인 할 수 있다.
도 12 에서 HMMcopy를 적용하여 chr7의 정상 샘플들의 평균값은 7.29이고, 이수성 샘플의 평균값은 7.36임을 확인할 수 있다. 최소값을 적용했을 경우에도 5개의 모든 샘플이 정상과는 명확하게 구분됨을 확인할 수 있기 때문에, 본 발명에 의한 염색체 이상 판단 방법의 대상 염색체를 모든 염색체로 확장할 수 있음을 알 수 있다.
도 13 에서 chr12의 경우에도 QDNAseq을 사용했을 경우 정상 샘플의 평균은 4.97이고 이수성 샘플은 4.995로 명확하게 구분되고 정상 샘플의 최대값과도 확실한 거리를 두어서 구분됨을 확인할 수 있다. HMM copy의 경우에도 정상 샘플의 평균값이 4.82이고 이수성 샘플의 평균값은 4.868로 차이가 나고 명확한 경계선이 있음을 확인 할 수 있다.
22개의 상염색체 중에서 3개의 염색체(chr13, chr18, chr21)와 chr3, chr7, chr12의 총 6개의 예에서 명확하게 정상과 이수성 샘플을 구분 할 수 있음을 확인할 수 있으며, 이로부터 본 발명에 의한 염색체 이상의 판단 방법을 모든 염색체로 확장할 수 있음을 알 수 있다.
<실시예 4> 성염색체 이상 판단
246개 샘플에 대해 아래 식에서 표시된 UR.X와 UR.Y를 얻고, 그 결과를 도 14 내지 도 16에 나타내었다.
UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
도 14에서 하늘색과 분홍색 부분을 경계선으로 설정하여 정상과 이수성 샘플을 구분하며, 남자 샘플의 경우에 도 15에서 보는 바와 같이 UR.X의 값이 5.5 이상일 때 XXY, 5.5 미만일 때는 XYY로 판단하며, 여자 샘플의 경우 도 16에서 보는 바와 같이 흰색 부분은 XO를 나타내고 5.75 이상의 데이터(붉은색 A)는 XXX로 판단한다.
남자 샘플의 경우에 도 15에서 보는 바와 같이 XO의 경우 UR.X가 5.35 이하이면서 UR.Y가 0.06이하인 값은 XO로 설정하고, XO의 기준은 하늘색선을 따라서 경계선을 설정하였다.
많은 데이터가 축적되면 학습을 시키기 때문에 보다 정교한 경계선을 잡을 수 있으며 데이터 형태에 맞게 경계선을 잡을 수 있기에 기존보다는 월등히 높은 정확도를 얻을 수 있다.
본 발명의 염색체 이상 판단 방법에 의해 상염색체 및 성염색체 이상 여부를 판단한 결과를 아래 표 2에 나타내었다. 기존 알려진 표준 실험 방법에 의해서 검증된 결과와 본 발명의 본 발명의 염색체 이상 판단 방법에 의해 판단된 결과가 동일한 것을 알 수 있다.
Figure 112016006652156-pat00001

Claims (20)

  1. 표적 염색체의 시퀀싱된 서열 데이터로부터 유일 리드를 추출하는 제 1 단계;
    정상과 이수성에 대해 기검증된 염색체 데이터의 정상과 이수성을 구분 레이블하여 선형 판별 분석 기법(LDA)으로 염색체 이수성 판단을 위한 경계선을 설정하는 제 2 단계; 및
    상기 제 2 단계에서 설정된 경계선에 의하여 상기 제 1 단계에서 추출된 유일 리드표적 염색체 유전자의 이수성 유무를 판단하는 제 3 단계; 를 포함하고,
    상기 제 1 단계 후 상기 추출한 유일 리드로부터 아래 식으로 나타내어지는 UR(x)%(염색체 X에 유일하게 매칭되는 리드의 퍼센트) 및 UR(y)%(염색체 Y에 유일하게 매칭되는 리드의 퍼센트)를 계산하는 제 1-1 단계;
    UR(x)% = 염색체 X(chrX) 리드 개수/(상염색체) 리드 총 개수 X 100
    UR(y)% = 염색체 Y(chrY) 리드 개수/(상염색체) 리드 총 개수 X 100
    상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 제 1-2 단계; 및
    상기 UR(x)% 및 UR(y)%로부터 성별을 구분하는 단계에서는 Y-specific 영역에 매핑되는 영역의 리드 개수로부터 성별을 구분하는 제 1-3 단계; 를 포함하는 유전자 성별을 판단하는 단계;를 더 포함하는 것인
    염색체 이상 판단 방법
  2. 제 1 항에 있어서,
    기검증된 염색체 데이터의 정상과 이수성을 구분 레이블하여 선형 판별 분석 기법(LDA)으로 초기 학습시키고, 염색체 이수성 판단을 위한 경계선을 설정하는 제 2 단계에서는
    기검증된 염색체 데이터 중 이수성 염색체 데이터의 최소값을 경계선으로 설정하는 것인
    염색체 이상 판단 방법
  3. 제 1 항에 있어서,
    상기 유일 리드를 추출하는 단계에서는 90kb bin 영역으로 나누고 GC 함량은 0.35에서 0.55이하의 리드를 추출하는 것인
    염색체 이상 판단 방법
  4. 제1항에 있어서,
    상기 염색체가 13번 염색체, 18번 염색체, 21번 염색체, 3번 염색체, 7번 염색체, 및 12번 염색체로 이루어진 그룹에서 선택되는 1개 이상, 또는 X 염색체 또는 Y 염색체인 것인
    염색체 이상 판단 방법.
  5. 삭제
  6. 제 4 항에 있어서,
    상기 염색체가 X 염색체인 경우 상기 염색체 이상은 XXX 또는 XO 를 판단하는 것인
    염색체 이상 판단 방법.
  7. 제 4 항에 있어서,
    상기 염색체가 Y 염색체인 경우 상기 염색체 이상은 XXY 또는 XYY 를 판단하는 것인
    염색체 이상 판단 방법.
  8. 제 1 항에 있어서,
    상기 제 1 단계 내지 제 3 단계를 N회 반복 수행하는 것인
    염색체 이상 판단 방법.
  9. 제 8 항에 있어서,
    상기 제 N 회 판단시 사용된 염색체 데이터 Dn 에 대한 이수성 판단은 제 N-1 회 판단시 사용된 염색체 데이터 Dn-1 로부터 도출된 경계값인 것인
    염색체 이상 판단 방법.
  10. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 차세대 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  11. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 폴리머라제 연쇄 반응의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  12. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 합성에 의한 서열분석의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  13. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 수소 이온 방출의 이용을 포함하는 서열분석 플랫폼에 의해 얻어지는 것인 염색체 이상 판단 방법.
  14. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 반도체-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것인 염색체 이상 판단 방법.
  15. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 나노포어-기반 서열분석 방법의 이용을 포함하는 서열분석 플랫폼으로부터 얻어지는 것인 염색체 이상 판단 방법.
  16. 제 10 항에 있어서,
    상기 차세대 서열분석 플랫폼이 로슈(Roche) 454 (즉, 로슈 454 GS FLX), 어플라이드바이오시스템즈(Applied Biosystems)의 SOLiD 시스템 (즉, SOLiDv4), 일루미나(Illumina)의 GAIIx, HiSeq 2500 및 MiSeq 서열분석기, 라이프 테크놀로지스(Life Technologies)의 아이온토렌트(Ion Torrent) 반도체 서열분석 플랫폼, 퍼시픽바이오사이언시스(Pacific Biosciences)의 PacBio RS 및 생어(Sanger)의 3730xl로부터 선택되는 것인 염색체 이상 판단 방법.
  17. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼 또는 일루미나의 MiSeq에 의해 얻어지는 것인 염색체 이상 판단 방법.
  18. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 퍼스널 게놈 머신(Personal Genome Machine) (아이온토렌트 PGM)에 의해 얻어지는 것인 염색체 이상 판단 방법.
  19. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 라이프 테크놀로지스의 아이온토렌트 플랫폼, PI 또는 PII 칩을 갖는 아이온 프로톤(Ion Proton), S5 및 그의 추가의 파생 장치 및 부품을 기초로 한 다중 반복(multiplex capable iteration)에 의해 얻어지는 것인
    염색체 이상 판단 방법.
  20. 제1항 내지 제4항, 제6항 내지 제9항 중 어느 한 항에 있어서, 상기 시퀀싱된 서열 데이터가 정규화되거나 또는 정규화되지 않은 것인 염색체 이상 판단 방법.

KR1020160007181A 2016-01-20 2016-01-20 염색체 이상 판단 방법 KR101817180B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020160007181A KR101817180B1 (ko) 2016-01-20 2016-01-20 염색체 이상 판단 방법
US16/071,537 US20190032125A1 (en) 2016-01-20 2017-01-20 Method of detecting chromosomal abnormalities
SG11201806164VA SG11201806164VA (en) 2016-01-20 2017-01-20 Method for determining chromosome abnormalities
PCT/KR2017/000741 WO2017126943A1 (ko) 2016-01-20 2017-01-20 염색체 이상 판단 방법
CN201780007722.1A CN108604258B (zh) 2016-01-20 2017-01-20 染色体异常判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160007181A KR101817180B1 (ko) 2016-01-20 2016-01-20 염색체 이상 판단 방법

Publications (2)

Publication Number Publication Date
KR20170087327A KR20170087327A (ko) 2017-07-28
KR101817180B1 true KR101817180B1 (ko) 2018-01-10

Family

ID=59361895

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160007181A KR101817180B1 (ko) 2016-01-20 2016-01-20 염색체 이상 판단 방법

Country Status (5)

Country Link
US (1) US20190032125A1 (ko)
KR (1) KR101817180B1 (ko)
CN (1) CN108604258B (ko)
SG (1) SG11201806164VA (ko)
WO (1) WO2017126943A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190102810A (ko) * 2018-02-27 2019-09-04 이원다이애그노믹스(주) 비침습적 산전진단을 통한 태아의 성별 판별방법
EP4184514A1 (en) 2021-11-23 2023-05-24 Eone Reference Laboratory Apparatus and method for diagnosing cancer using liquid biopsy data

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107502668B (zh) * 2017-09-23 2021-04-23 上海五色石医学科技有限公司 一种人Y染色体标签位点sY1291的检测方法及其应用
KR102142909B1 (ko) * 2018-03-29 2020-08-10 이원다이애그노믹스(주) 비침습적 산전 검사에 의한 태아 염색체의 미세결실 또는 미세증폭의 확인 방법
CN110033828B (zh) * 2019-04-03 2021-06-18 北京各色科技有限公司 基于芯片检测dna数据的性别判断方法
KR20240078820A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 안정형 염색체의 계수 방법 및 이를 위한 계수 장치
KR20240078819A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 염색체의 계수 방법 및 이를 위한 계수 장치
KR20240078821A (ko) 2022-11-28 2024-06-04 한국수력원자력 주식회사 영상 증강을 이용한 불안정형 염색체의 계수 방법 및 이를 위한 계수 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258907A (en) 1989-01-17 1993-11-02 Macri James N Method and apparatus for detecting down syndrome by non-invasive maternal blood screening
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101437959A (zh) * 2004-09-20 2009-05-20 普罗特奥格尼克斯公司 诊断胎儿非整倍体
PL2557520T3 (pl) * 2007-07-23 2021-10-11 The Chinese University Of Hong Kong Określanie zaburzenia równowagi sekwencji kwasu nukleinowego
US20100112590A1 (en) * 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009094665A1 (en) * 2008-01-25 2009-07-30 Perkinelmer Health Sciences, Inc. Methods for determining the risk of prenatal complications
ES2623156T3 (es) * 2010-01-26 2017-07-10 Nipd Genetics Ltd Métodos y composiciones para el diagnóstico prenatal no invasivo de aneuploidías fetales
MY172864A (en) * 2011-06-29 2019-12-13 Bgi Shenzhen Co Ltd Noninvasive detection of fetal genetic abnormality
GB201215449D0 (en) * 2012-08-30 2012-10-17 Zoragen Biotechnologies Llp Method of detecting chromosonal abnormalities
CN104156631B (zh) * 2014-07-14 2017-07-18 天津华大基因科技有限公司 染色体三倍体检验方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258907A (en) 1989-01-17 1993-11-02 Macri James N Method and apparatus for detecting down syndrome by non-invasive maternal blood screening
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190102810A (ko) * 2018-02-27 2019-09-04 이원다이애그노믹스(주) 비침습적 산전진단을 통한 태아의 성별 판별방법
KR102142904B1 (ko) * 2018-02-27 2020-08-10 이원다이애그노믹스(주) 비침습적 산전진단을 통한 태아의 성별 판별방법
EP4184514A1 (en) 2021-11-23 2023-05-24 Eone Reference Laboratory Apparatus and method for diagnosing cancer using liquid biopsy data

Also Published As

Publication number Publication date
CN108604258A (zh) 2018-09-28
KR20170087327A (ko) 2017-07-28
WO2017126943A1 (ko) 2017-07-27
CN108604258B (zh) 2022-05-13
SG11201806164VA (en) 2018-08-30
US20190032125A1 (en) 2019-01-31

Similar Documents

Publication Publication Date Title
KR101817180B1 (ko) 염색체 이상 판단 방법
US10767228B2 (en) Fetal chromosomal aneuploidy diagnosis
US20170363628A1 (en) Means and methods for non-invasive diagnosis of chromosomal aneuploidy
US20150267255A1 (en) Method of detecting chromosomal abnormalities
US20150275290A1 (en) Non-invasive method for detecting a fetal chromosomal aneuploidy
EA017966B1 (ru) Диагностика фетальной хромосомной анэуплоидии с использованием геномного секвенирования
JP2018524993A (ja) 染色体異常を検出するための核酸及び方法
US20210130900A1 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
EP3662479A1 (en) A method for non-invasive prenatal detection of fetal sex chromosomal abnormalities and fetal sex determination for singleton and twin pregnancies
US20200109452A1 (en) Method of detecting a fetal chromosomal abnormality
CA3068110A1 (en) Target-enriched multiplexed parallel analysis for assessment of fetal dna samples
CN114171116A (zh) 孕妇游离及本身dna评估胎儿dna浓度的方法及应用
CN111321210B (zh) 一种无创产前检测胎儿是否患有遗传疾病的方法
KR102519739B1 (ko) 2단계 Z-score에 기반한 비침습적 산전 검사 방법 및 장치
RU2777072C1 (ru) Способ определения анеуплоидии плода в образце крови беременной женщины
EP3149202A1 (en) Method of prenatal diagnosis
WO2019092438A1 (en) Method of detecting a fetal chromosomal abnormality
WO2024025831A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant