KR20230110615A - 태아 염색체 이상을 검출하는 방법 및 시스템 - Google Patents

태아 염색체 이상을 검출하는 방법 및 시스템 Download PDF

Info

Publication number
KR20230110615A
KR20230110615A KR1020237021684A KR20237021684A KR20230110615A KR 20230110615 A KR20230110615 A KR 20230110615A KR 1020237021684 A KR1020237021684 A KR 1020237021684A KR 20237021684 A KR20237021684 A KR 20237021684A KR 20230110615 A KR20230110615 A KR 20230110615A
Authority
KR
South Korea
Prior art keywords
sequence
feature vector
module
chromosome
layer
Prior art date
Application number
KR1020237021684A
Other languages
English (en)
Inventor
융 바이
수자 황
야 가오
신 진
Original Assignee
비지아이 션전
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비지아이 션전 filed Critical 비지아이 션전
Publication of KR20230110615A publication Critical patent/KR20230110615A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

본 발명은 생명 공학 분야에 관한 것이다. 태아 염색체 이상을 검출하는 방법 및 시스템이 개시된다. 상기 방법은 (1) 검출하고자 하는 임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하는 단계로서, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것인, 단계; (2) 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계; (3) 상기 서열 특징 행렬을 훈련된 기계 학습 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출하는 단계; (4) 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 상기 조합 특징 벡터를 분류 검출 모델에 입력하여 상기 검출하고자 하는 임산부의 태아 염색체 이상 상태를 수득하는 단계를 포함한다.

Description

태아 염색체 이상을 검출하는 방법 및 시스템
본 발명은 생명 공학 분야에 관한 것으로, 보다 상세하게는 태아 염색체 이상을 검출하는 방법 및 시스템에 관한 것이다.
염색체 이수성 질환은 태아 내의 개별 염색체 수가 증가 또는 감소하여 정상 유전자 발현에 영향을 미치는 심각한 유전 질환을 지칭한다. 이는 주로 21번 삼염색체성 증후군, 18번 삼염색체성 증후군, 13번 삼염색체성 증후군, 5p 증후군 등을 포함한다. 염색체 이수성 질환은 보다 높은 사망 및 장애 위험을 가지며, 효과적인 치료는 없다. 현재, 주로 출산전 스크리닝 및 출산전 진단은 주로 염색체 이수성 아동의 출생률을 감소시키는데 사용된다.
전통적인 염색체 이수성 검출은 주로 초음파 진단 검사 또는 혈청학적 스크리닝 기반의 비침습성 출산전 스크리닝 및 침습성 샘플링 기반의 출산전 진단을 포함한다. 초음파 진단 검사 기반의 출산전 스크리닝 방법은 10~14주의 임신 주수에 태아의 목덜미 투명대 (nuchal translucency: NT)의 두께를 확인하여 태아 염색체의 이상 여부를 판정하는데 사용될 수 있다. 일반적으로, 태아 염색체 이수성의 위험은 NT가 3 mm 초과일 때 높은 것으로 여겨진다. 혈청학 기반의 출산전 스크리닝은 산모 혈청 중 알파 태아 단백질 (alpha fetoprotein: AFP)과 사람 융모성 고나도트로핀 (human chorionic gonadotrophin: HCG)의 농도를 검출하여 임산부의 분만 예정일 및 연령과 혈액 샘플링의 임신 주수와 조합하여 태아 염색체 이상의 위험 인자를 계산함으로써 13~16주의 임신 주수에 수행된다. 침습성 샘플링 기반의 출산전 진단 방법은 일반적으로 16~24주의 임신 주수에 양수 천자, 제대 천자 또는 직접 융모막 샘플링에 의해 태아 샘플을 수득하여 태아의 염색체 이상 여부를 검출한다. 초음파 진단 검사 및 혈청학 기반의 조합 스크리닝 방식은 태아 염색체를 직접 검출하지 않고 태아의 질환 위험을 50%~95%의 검출 정확도 및 3%~7%의 위양성률로 추정하는 것이다[1,2]. 침습성 샘플링 기반의 방법은 태아 염색체 이상의 검출 및 진단을 위한 "금 표준 (gold standard)"인 태아 이수성을 직접 정확하게 진단할 수 있다. 그러나, 이러한 방법은 일정 정도의 유산율 (0.5%~2%)을 초래할 것이며, B형 간염과 같은 감염성 질환을 앓고 있는 임산부는 태아의 감염 위험으로 인해 침습성 샘플링 (예를 들어, 양수 천자)에 적합하지 않다. 또한, 양수 천자는 B-스캔 초음파 검사의 안내 하에 시행되어야 하므로, 오랜 시간이 걸리고 시술자에 대한 높은 기술적 요건을 필요로 한다.
산모 말초 혈액 중 세포 유리 DNA (cell-free DNA: cfDNA)의 발견 및 차세대 고유량 서열 분석 (next generation sequencing: NGS) 기술의 성숙, 서열 분석 단가의 유의한 감소 및 정보 분석 기술의 발전에 따라, NGS 기술 기반의 비침습성 출산전 테스트 (noninvasive prenatal testing: NIPT)는 가장 널리 사용되는 태아 염색체 이수성 질환에 대한 출산전 스크리닝 방법이 되고 있다. NIPT 기술에서, 산모 말초 혈액을 이용하고, NGS 기술에 의해 산모 말초 혈액 중의 세포 유리 DNA (세포 유리 태아 DNA 포함)를 서열 분석하고, 생물 정보학적 분석과 조합하여 태아 유전 정보를 수득함으로써, 태아가 21번 삼염색체성 증후군 (다운 증후군), 18번 삼염색체성 증후군 (에드워드 증후군) 및 13번 삼염색체성 증후군 (파타우 증후군)과 같은 염색체 이상 질환을 앓고 있는지 여부를 검출할 수 있다.
NIPT 기술은 높은 민감도와 특이성 (T21, T18 및 T13 각각의 민감도는 99% 이상임) 및 낮은 위양성률 (<0.1%)을 가지며, 현재 임상 실무에 광범위하게 사용되고 있다[3-5]. NIPT 기술은 혈청학적 스크리닝의 위양성률을 감소시키고 침습성 출산전 진단 조작 (예를 들어, 양막 천자, 융모막 융모 샘플링 등)에 기인하는 태아의 자궁내 감염 및 유산을 방지할 수 있다. 이는 초기 및 중기 임신에서 높은 안전성을 갖는 비침습성 출산전 스크리닝 기술이다.
통상적인 NGS 기술 기반의 NIPT는 서열 분석의 판독 수를 계산하고, 기준선 Z 검정 (Baseline Z-Test)을 이용하여 태아 염색체 이상을 검출한다[6]. 그 원리는 다음과 같다: 먼저 12~22주의 임신 주수에 산모 말초 혈액 샘플을 채취하고, NGS 기술을 이용하여 말초 혈액 샘플에서 세포 유리 DNA를 서열 분석하고, 수득된 서열 분석 판독 세그먼트를 사람 참조 게놈 서열에 정렬하고 (동시에 GC 함량을 판독 세그먼트에 대해 보정함); 그 다음, 각 염색체의 고유한 맵핑 판독의 수를 계수하고 상기 샘플 중 염색체의 전체의 고유한 맵핑 판독 수에 대한 이의 비율을 계산하고; 추가로, 측정하고자 하는 샘플 중 염색체의 고유한 맵핑 판독의 비율로부터 대조군 샘플 (즉, 정상 샘플) 중 상응하는 염색체의 고유한 맵핑 판독 수의 비율의 평균 값을 공제한 다음, 대조군 샘플 중 상응하는 염색체의 맵핑 판독 수의 비율의 표준 편차로 나누어 검출하고자 하는 샘플 중 염색체의 Z 스코어를 수득하고; 최종적으로, 상기 Z 스코어를 주어진 임계값과 비교하고, 상기 Z 스코어가 임계값보다 더 큰 경우, 삼염색체성 증후군의 고위험으로 판정하며; 그렇지 않으면, 저위험으로 판정한다. 여기서, 대조군의 정상 샘플 중 각 염색체의 고유한 맵핑 판독 수의 평균값은 기준 값 (Baseline Value)이다. 따라서, 보다 많은 정상 샘플이 대조군에 존재할 수록, 고유한 맵핑 판독의 비율의 평균 값과 표준 편차는 보다 더 정확해지므로, Z 스코어는 보다 더 정확하게 수득된다. 여기서, Z 스코어의 주어진 임계값은 일반적으로 3이고, 이는 통계적으로 정의되며, 즉, 정상적인 기대값으로부터 99.9% 편차이다.
다른 통계적 가설 검정이 다른 기준 값에 따라 선택될 수 있다. 예를 들어, 상관 관계 분석 및 T 검정이 문헌[7]에서 채택되며, 샘플 중 고정된 크기의 윈도우 내의 각 염색체의 판독 수의 중앙 값을 기준 값으로 사용하여 해당 염색체의 판독 수를 나타내고, 샘플 중 전체 염색체의 판독 수의 중앙 값을 사용하여 샘플의 판독 수를 나타내고; 그 다음, 각 염색체의 판독 수를 샘플의 판독 수로 나누어 상응하는 염색체의 정규화된 판독 수를 수득하고; 최종적으로, 대조군 중 모든 샘플의 각 염색체의 정규화된 판독 수를 사용하여 신뢰 구간을 계산하고, 검출하고자 하는 샘플의 스코어가 신뢰 구간 내에 속하지 않을 때, 샘플은 이상이 있는 것으로 간주된다. 또 다른 예를 들어, 관심 대상 염색체 (예를 들어, 21번 염색체)와 유사한 GC 함량을 갖는 참조 염색체를 알려진 핵형의 샘플에서 선택하고, 참조 염색체의 판독 수를 Z 검정을 위한 기준 값으로 사용하여, 알려진 핵형의 샘플 중 관심 대상 염색체의 이상의 검출 정확도가 최대에 도달하도록 하는 것이 문헌[8]에서 제안되었다. 기준 값으로서의 역할을 하는 참조 염색체는 소위 내부 염색체 (Internal Chromosome)이다. 또 다른 예를 들어, 비침습성 태아 삼염색체 (Noninvasive Fetal Trisomy: NIFTY) 검출 방법이 문헌[9]에서 제안되었다. 염색체의 판독 수를 정상 대조군 샘플과 비교하는 것에 추가하여, 이러한 방법은 또한 세포 유리 태아 DNA의 비율을 고려한다. 이러한 방법에서, 이진 가설 검정, 로그 우도비 및 FCAPS 이진 분할 알고리즘을 사용하여 검출 결과를 판정한다. NIFTY는 전체 게놈을 기반으로 하는 접근법이다. 이러한 방법은 높은 정확도로 큰 집단에 의해 검증되었지만, 과정이 비교적으로 복잡하다. 판독 수를 기반으로 하는 상술한 통계적 가설 검정 (Z 검정 또는 T 검정) 방법은 현재 NIPT 분석의 핵심이다.
판독 수를 기반으로 하는 상술한 통계적 가설 검정 (예를 들어, Z 검정)은 현재 주류 NIPT 분석 방법이지만, 이들 분석 방법은 다음과 같은 명백한 한계점을 가지고 있다: (1) 현재 NIPT 분석 방법은 개체 샘플의 서열 분석 판독 세그먼트 분포의 편차를 초래하여 상이한 상태에서 Z 스코어 계산의 변동을 초래할 것이므로, 최종 결과 판정 및 관련 성능 지표에 영향을 미칠 수 있고; (2) 현재 NIPT 분석 방법은 산모 말초 혈액 중 세포 유리 태아 DNA의 비율에 높게 의존하고, 세포 유리 태아 DNA의 과도하게 낮은 비율 (<4%)은 임산부들 사이의 높은 개체 차이로 인해 위음성 검출의 위험을 증가시키고; (3) 현재 NIPT 분석 방법은 21번 삼염색체성 증후군의 검출에서 잘 수행되지만, 18번 삼염색체성 증후군과 13번 삼염색체성 증후군의 검출 정확도는 임산부의 개체 차이 및 상이한 염색체에서의 GC 함량의 편차로 인해 나쁘고; (4) 현재 NIPT 분석 방법은 주로 다운 증후군으로 대표되는 일반적인 삼염색체성 증후군을 검출하고, 높은 종합 발병률을 또한 갖는 염색체 미세 결실 및 미세 중복 증후군, 예를 들어, 디죠지 증후군 (DiGeorge Syndrome), 프래더-윌리 증후군 (Prader-Willi Syndrome) 등의 검출에 대해 제한적인 임상 효과를 갖는다[14].
또한, 기계 학습 모델을 기반으로 하고 NIPT 서열 분석 결과를 이용하여 염색체 이상을 검출하는 새로운 기술이 제안되었다. 예를 들어, 서포트 벡터 머신 (Support Vector Machine: SVM)을 사용하여 NIPT 결정을 보조하는 방법이 문헌[10]에서 제안되었다. 이러한 방법에서, 상이한 기준 값을 계산하여 6개의 상이한 Z 스코어 결과를 수득하며, 샘플의 임상 징후를 SVM 모델의 훈련에도 또한 추가하여 염색체 이상을 판정한다. 또 다른 예를 들어, 염색체 이상을 판정하기 위한 베이즈 (Bayes) 방법이 문헌[11]에서 설계되었다. 이러한 방법은 세포 유리 태아 DNA 비율의 사전 정보를 이용하고, 은닉 마르코프 모델 (Hidden Markov Model: HMM))을 사용하여 집단 수준과 산모 CNV의 간섭을 제거하고, GC 함량 보정을 수행한 다음, Z 검정의 우도 값과 성염색체 함량으로부터 추론된 세포 유리 태아 DNA 비율의 사전 값을 조합하여 베이즈 요인을 계산한다. 동시에, 임산부의 연령과 같은 복수의 위험 요인을 사전 확률에 포함시켜 베이즈 요인을 보정하고, Z 스코어와 베이즈 요인을 통합하여 염색체의 이상 여부를 평가한다. 또 다른 예를 들어, NIPT 서열 분석 결과를 이용하여 간단한 컨볼루션 신경망 모델을 훈련하여 염색체 카피 수 변이 및 염색체 이수성 이상을 검출하는 것이 공개 특허[12]에서 제안되었다. 또 다른 예를 들어, 말초 혈액 샘플로부터 세포 유리 태아 DNA와 세포 유리 산모 DNA를 먼저 단리할 수 있고, 단리된 유리 DNA로부터 다양한 단일 뉴클레오타이드 변이 (single nucleotide variation: SNV) 유전자좌를 증폭시키고, 증폭된 산물을 서열 분석하여 복수의 SNV 유전자좌의 유전자 서열 분석 데이터 또는 유전자 어레이 데이터를 결정한 다음, 이들 유전자 서열 분석 데이터 또는 유전자 어레이 데이터를 기반으로 하여, 인공 신경망 모델을 훈련하여 개별 염색체의 배수성 상태, 조직 암 상태 또는 장기 이식 거부 상태를 검출하는 것이 공개 특허[13]에서 제안되었다.
NIPT 서열 분석 결과를 이용하여 염색체 이상을 검출하는 전술한 기계 학습 모델 기반의 방법은 또한 다음 한계점을 갖는다: 이들 방법 중 대부분은 서열 분석 데이터의 판독 수를 기반으로 하는 모델 훈련에 바람직한 특징을 계산하고; 이들 방법 중 대부분은 Z 스코어의 계산에 의존하고; 그 계산이 너무 복잡하거나 (예를 들어, 문헌[11]), 모델 설계가 너무 간단하거나 (예를 들어, 특허 공개[12]), SNV 유전자좌 기반의 유전자 서열 분석 데이터 또는 유전자 어레이 데이터가 요구되고 (예를 들어, 특허 공개[13]), 이는 임상 적용 전망, 모델 확장성 및 검출 정확도를 제한하고; 검출 정확도는 개선될 필요가 있다.
종래 기술에서 염색체 이상, 특히, 이수성의 검출에 존재하는 문제점을 고려하여, 염색체 이상을 보다 효과적으로 검출하기 위해, 본 발명은 적어도 심층 하이브리드 모델을 기반으로 하여 염색체 이상의 검출 정확도를 추가로 개선시키는 것을 목적으로 한다.
그러므로, 제1 양태에서, 본 발명은 하기 단계를 포함하는, 태아 염색체 이상을 검출하는 방법을 제공한다:
(1) 검출하고자 하는 임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하는 단계로서, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 검출하고자 하는 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것인, 단계;
(2) 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계;
(3) 상기 서열 특징 행렬을 훈련된 기계 학습 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출하는 단계;
(4) 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 상기 조합 특징 벡터를 분류 검출 모델에 입력하여 상기 검출하고자 하는 임산부의 태아 염색체 이상 상태를 수득하는 단계.
하나의 실시 형태에 있어서, (1)에서, 상기 세포 유리 핵산 단편은 상기 임산부의 말초 혈액, 간 및/또는 태반으로부터 유래한다.
하나의 실시 형태에 있어서, (1)에서, 상기 세포 유리 핵산 단편은 유리 DNA이다.
하나의 실시 형태에 있어서, (1)에서, 상기 서열 분석 데이터는 초저심도 서열 분석으로부터 유도되고; 바람직하게는 상기 초저심도 서열 분석의 서열 분석 심도는 1×, 0.1× 또는 0.01×이다.
하나의 실시 형태에 있어서, (1)에서, 상기 판독 세그먼트를 상기 참조 게놈에 정렬하여 고유한 맵핑 판독 (바람직하게는 GC 함량 보정을 수행함)을 수득하고; 바람직하게는, 후속 단계를 상기 고유한 맵핑 판독 (바람직하게는 상기 판독 세그먼트를 GC 함량에 의해 보정함)으로 수행한다.
하나의 실시 형태에서, 상기 GC 함량 보정을 하기와 같이 수행한다:
a. 먼저, 사람 참조 게놈의 염색체로부터 길이 개의 단편을 무작위로 선택하는 단계;
b. 의 GC 함량을 갖는 단편의 수 (N i )를 하기에 의해 계산하는 단계:
여기서, 이고, 는 단편 의 GC 함량이고, 는 GC 함량을 나타냄 ();
c. 의 GC 함량을 갖는 서열 분석 판독 세그먼트의 수 (F i )를 하기에 의해 계산하는 단계:
여기서, 는 단편 의 GC 함량을 나타내고, 의 GC 함량 및 상기 단편과 동일한 개시 부위를 갖는 서열 분석 판독 세그먼트의 수를 나타냄;
d. GC 함량의 관찰-기대 비 ()를 하기에 의해 계산하는 단계:
여기서, 은 다음과 같이 정의되는 전체 세기 계수 (global scaling factor)임:
e. 서열 분석 판독 세그먼트의 수를 하기에 의해 보정하는 단계:
여기서, 의 보정된 GC 함량을 갖는 서열 분석 판독 세그먼트의 예상 수를 나타냄.
하나의 실시 형태에 있어서, (1)에서, 상기 임산부의 표현형 특징 데이터는 연령, 임신 주수, 키, 체중, BMI, 출산전 검사의 생화학적 테스트 결과, 초음파 진단 결과 및 혈장 중의 세포 유리 태아 DNA 농도 중 하나 이상의 조합으로부터 선택된다.
하나의 실시 형태에 있어서, (1)에서, 상기 임산부의 표현형 특징 데이터는 이상 값 처리, 결측 값 처리 및/또는 널 (null) 값 처리를 거친다.
하나의 실시 형태에서, 상기 임산부 샘플의 표현형 데이터는, 기록이
a. 또는 ;
b. 또는 ;
c. 또는 ;
d. 또는
로 나타나는 경우, 이상 값으로서 판정될 것이고;
이들 이상 값은 널 값으로 설정된다.
하나의 실시 형태에서, 상기 결측 값과 널 값은 missForest 알고리즘에 의해 패딩된다 (padded).
하나의 실시 형태에 있어서, (2)에서, 상기 염색체는 21번 염색체, 18번 염색체, 13번 염색체 및/또는 성 염색체이다.
하나의 실시 형태에서, (2)는 (2.1) 길이 b의 윈도우를 사용하여 t의 스텝 사이즈로 참조 게놈의 길이 L의 염색체 서열을 중첩시키고 슬라이딩시켜 슬라이딩 윈도우를 수득하는 단계로서, 여기서, b는 양의 정수이고, b=[10000,10000000]이고, t는 임의의 양의 정수이고, L은 양의 정수이고, L≥b인, 단계; (2.2) 각각의 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계를 포함한다.
하나의 실시 형태에 있어서, (2)에서, 상기 서열 특징 행렬은 상기 슬라이딩 윈도우 내의 판독 세그먼트의 수, 염기 품질 및 맵핑 품질을 포함한다.
하나의 실시 형태에서, 상기 염기 품질은 염기 품질의 평균, 표준 편차, 왜도 (skewnes) 및/또는 첨도 (kurtosis)를 포함한다.
하나의 실시 형태에서, 상기 맵핑 품질은 맵핑 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함한다.
하나의 실시 형태에 있어서, (2)에서, 상기 서열 특징 행렬은 하기이다:
여기서, 는 슬라이딩 윈도우의 수를 나타내고, 는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 는 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
하나의 실시 형태에 있어서, (3)에서, 상기 서열 특징 행렬은 정규화된다.
하나의 실시 형태에 있어서, (3)에서, 상기 서열 특징 행렬은 하기 수학식 I을 사용하여 정규화된다:
[수학식 I]
여기서, 는 샘플 의 정규화된 서열 특징 행렬이고, 는 샘플 의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타내고, 는 각각 모든 샘플의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값의 평균과 표준 편차를 나타낸다.
하나의 실시 형태에 있어서, (3)에서, 상기 훈련된 기계 학습 모델은 신경망 모델 또는 오토인코더 (AutoEncoder) 모델이고; 바람직하게는 상기 신경망 모델은 심층 신경망 모델이고, 보다 바람직하게는 상기 신경망 모델은 1 차원 컨볼루션 기반의 심층 신경망 모델이다.
하나의 실시 형태에서, 상기 심층 신경망 모델의 구조는 하기를 포함한다:
상기 서열 특징 행렬을 수신하기 위한 입력 레이어 (input layer);
상기 입력 레이어로부터의 서열 특징 행렬의 첫 번째 컨볼루션 및 활성화 조작을 수행하여 특징 맵을 수득하기 위한 상기 입력 레이어에 연결된 전면 모듈;
상기 전면 모듈로부터 특징 맵의 추가적인 추상화 및 특징 추출을 수행하고, 신경망 모델의 심도를 효과적으로 증가시켜 신경망의 표현 능력을 강화시키기 위한 상기 전면 모듈에 연결된 코어 모듈;
상기 코어 모듈로부터의 특징 맵의 특징 추상화 표현을 수행하기 위한 상기 코어 모듈에 연결된 후면 모듈;
상기 특징 추상화 표현의 특징 맵을 벡터화하고 상기 염색체 서열의 서열 특징 벡터를 출력하기 위한 상기 후면 모듈에 연결된 첫 번째 전역 평균 풀링 레이어 (global average pooling layer).
하나의 실시 형태에서, 상기 전면 모듈은 하기를 포함한다:
(I) 1 차원 컨볼루션 레이어;
(II) (I)에 기재된 1 차원 컨볼루션 레이어에 연결된 배치 정규화 레이어;
(III) (II)에 기재된 배치 정규화 레이어에 연결된 ReLU 활성화 레이어.
하나의 실시 형태에서, 상기 코어 모듈은 동일한 구조를 갖는 하나 이상의 잔여 서브 모듈로 이루어지고, 여기서, 각 잔여 모듈의 출력은 다음 잔여 모듈의 입력이다.
하나의 실시 형태에서, 상기 잔여 서브 모듈은 하기를 포함한다:
(A) 1 차원 컨볼루션 레이어, 상기 1 차원 컨볼루션 레이어에 연결된 드롭아웃 레이어, 상기 드롭아웃 레이어에 연결된 배치 정규화 레이어 및 상기 배치 정규화 레이어에 연결된 ReLU 활성화 레이어를 각각 포함하는 상기 코어 모듈의 전면 서브 모듈;
(B) (A)에 기재된 코어 모듈의 전면 서브 모듈에 연결된 첫 번째 1 차원 평균 풀링 레이어;
(C) (B)에 기재된 첫 번째 1 차원 평균 풀링 레이어에 연결된 스퀴즈-익사이트 모듈 (Squeeze-Excite module: SE 모듈) 및/또는 스페이셜 스퀴즈-익사이트 모듈 (Spatial Squeeze-Excite module: sSE 모듈);
(D) (C)에 기재된 스퀴즈-익사이트 모듈 및/또는 스페이셜 스퀴즈-익사이트 모듈에 연결된 첫 번째 부가 레이어 (Addition layer: Add 레이어);
(E) 상기 전면 모듈의 ReLU 활성화 레이어에 연결된 두 번째 1 차원 평균 풀링 레이어;
(F) (D)에 기재된 첫 번째 부가 레이어 및 (E)에 기재된 두 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 부가 레이어 (Add 레이어).
하나의 실시 형태에서, 상기 SE 모듈은 하기를 포함한다:
(a) 상기 잔여 서브 모듈의 (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 전역 평균 풀링 레이어;
(b) (a)에 기재된 두 번째 전역 평균 풀링 레이어에 연결된 리쉐이프 레이어 (Reshape layer)로서, 상기 리쉐이프 레이어의 출력 특징 맵의 크기는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 리쉐이프 레이어;
(c) (b)에 기재된 리쉐이프 레이어에 연결된 첫 번째 완전 연결 레이어로서, 상기 첫 번째 완전 연결 레이어의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수이고, 은 스퀴즈-익사이트 모듈의 하강 속도인, 첫 번째 완전 연결 레이어;
(d) (c)에 기재된 첫 번째 완전 연결 레이어에 연결된 두 번째 완전 연결 레이어로서, 상기 두 번째 완전 연결 레이어의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 두 번째 완전 연결 레이어;
(e) (d)에 기재된 두 번째 완전 연결 레이어 및 상기 잔여 서브 모듈의 (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결된 멀티플라이 레이어 (Multiply layer).
하나의 실시 형태에서, 상기 sSE 모듈은 하기를 포함한다:
a. (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결되고 시그모이드 함수를 활성화 함수로서 사용하는 1 차원 컨볼루션 레이어;
b. (B)에서의 첫 번째 1 차원 평균 풀링 레이어 및 a에서의 1 차원 컨볼루션 레이어에 연결된 멀티플라이 레이어.
하나의 실시 형태에 있어서, (4)에서, 상기 조합 특징 벡터는 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 수득된다.
하나의 실시 형태에 있어서, (4)에서, 상기 조합 특징 벡터 x는 하기에 의해 정규화된다:
여기서, 는 정규화된 조합 특징 벡터 의 i 번째 서열 고유값이고, 는 조합 특징 벡터 의 i 번째 서열 고유값이고, 는 조합 특징 벡터 의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
하나의 실시 형태에 있어서, (4)에서, 상기 분류 검출 모델은 앙상블 학습 모델이다.
하나의 실시 형태에서, 상기 앙상블 학습 모델은 스태킹 (Stacking) 또는 다수결 투표 (Majority Voting) 기반의 앙상블 학습 모델이고; 바람직하게는, 상기 앙상블 학습 모델은 서포트 벡터 머신 모델, 나이브 베이즈 분류기 (naive Bayes classifier), 랜덤 포레스트 분류기 (random forest classifier), XGBoost 및 로지스틱 회귀 중의 하나 이상이다.
하나의 실시 형태에서, 상기 염색체 이상은 21번 삼염색체성 증후군, 18번 삼염색체성 증후군, 13번 삼염색체성 증후군, 5p 증후군, 염색체 미세 결실 및 염색체 미세 중복 중 적어도 하나 이상을 포함한다.
제2 양태에서, 본 발명은 하기 단계를 포함하는, 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 방법을 제공한다:
(1) 복수의 임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하는 단계로서, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부 각각의 태아 염색체 상태는 알려져 있고, 상기 임산부 각각의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것인, 단계;
(2) 상기 임산부 각각에 대해, 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계;
(3) 상기 임산부 각각에 대해, 상기 서열 특징 행렬 및 태아 염색체 상태를 이용하여 훈련 데이터 세트를 구축하고, 기계 학습 모델을 훈련하여 상기 염색체 서열의 서열 특징 벡터를 추출하는 단계;
(4) 상기 서열 특징 벡터와 상기 임산부 각각의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 분류 모델을 상기 조합 특징 벡터 및 상기 임산부의 태아 염색체 상태로 훈련하여 훈련된 분류 검출 모델을 수득하는 단계.
하나의 실시 형태에서, 상기 임산부 각각의 태아 염색체 상태는 정상 이배체, 염색체 이수성, 부분 단염색체성 증후군, 염색체 미세 결실 및 염색체 미세 중복 중 하나 이상이다.
하나의 실시 형태에서, 상기 염색체 이수성은 21번 삼염색체성 증후군, 18번 삼염색체성 증후군 및 13번 삼염색체성 증후군 중 적어도 하나 이상을 포함한다.
하나의 실시 형태에서, 상기 부분 단염색체성 증후군은 5p 증후군을 포함한다.
하나의 실시 형태에서, 상기 임산부의 수는 10 초과이고, 염색체 이수성 태아의 수에 대한 정상 이배체 태아의 수의 비율은 ½ 내지 2이다.
하나의 실시 형태에 있어서, (3)에서, 상기 훈련 데이터 세트는 히기로서 표시된다:
여기서, 은 훈련 샘플의 수를 나타내며, N은 ≥1의 정수이고; 는 훈련 샘플 의 정규화된 서열 특징 행렬이며, k∈[1,N]이고, 여기서, i는 ≥1의 정수이고, j는 ≥1의 정수이다.
상기 훈련된 기계 학습 모델을 제외하고, 본 발명의 제1 양태와 동일한 기술적 특징에 대해, 본 발명의 제1 양태의 실시 형태에서의 정의가 또한 적용된다. 이러한 양태에서, 상기 훈련된 기계 학습 모델은 출력 레이어를 포함한다. 예를 들어, 심층 신경망 모델의 구조는 첫 번째 전역 평균 풀링 레이어 후에 출력 레이어를 포함하고, 상기 출력 레이어는 첫 번째 전역 평균 풀링 레이어에 연결되며 1의 출력 뉴런의 수를 갖는 완전 연결 레이어이고, 염색체 이상 상태를 출력하는데 사용된다.
제3 양태에서, 본 발명은 하기를 포함하는, 태아 염색체 이상을 검출하는 시스템을 제공한다:
검출하고자 하는 임산부 샘플로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하기 위한 데이터 획득 모듈로서, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 검출하고자 하는 임산부 샘플의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것인, 데이터 획득 모듈;
참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하기 위한 서열 특징 행렬 생성 모듈;
상기 서열 특징 행렬을 훈련된 기계 학습 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출하기 위한 서열 특징 벡터 추출 모듈;
상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 상기 조합 특징 벡터를 분류 검출 모델에 입력하여 상기 검출하고자 하는 임산부의 태아 염색체 이상 상태를 수득하기 위한 분류 검출 모듈.
하나의 실시 형태에서, 상기 시스템은 상기 서열 분석 데이터의 판독을 참조 게놈에 정렬하여 고유한 맵핑 판독을 수득하기 위한 정렬 모듈을 추가로 포함한다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 세포 유리 핵산 단편은 상기 임산부의 말초 혈액, 간 및/또는 태반으로부터 유래한다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 세포 유리 핵산 단편은 유리 DNA이다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 서열 분석 데이터는 초저심도 서열 분석으로부터 유도되고; 바람직하게는 상기 초저심도 서열 분석의 서열 분석 심도는 1×, 0.1× 또는 0.01×이다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 판독 세그먼트를 상기 참조 게놈에 정렬하여 고유한 맵핑 판독 (바람직하게는 GC 함량 보정을 수행함)을 수득하고; 바람직하게는, 후속 단계를 상기 고유한 맵핑 판독 (바람직하게는 상기 판독 세그먼트를 GC 함량에 의해 보정함)으로 수행한다.
하나의 실시 형태에서, 상기 GC 함량 보정을 하기와 같이 수행한다:
a. 먼저, 사람 참조 게놈의 염색체로부터 길이 개의 단편을 무작위로 선택하는 단계;
b. 의 GC 함량을 갖는 단편의 수 (N i )를 하기에 의해 계산하는 단계:
여기서, 이고, 는 단편 의 GC 함량이고, 는 GC 함량을 나타냄 ();
c. 의 GC 함량을 갖는 서열 분석 판독 세그먼트의 수 ()를 하기에 의해 계산하는 단계:
여기서, 는 단편 의 GC 함량을 나타내고, 의 GC 함량 및 상기 단편과 동일한 개시 부위를 갖는 서열 분석 판독 세그먼트의 수를 나타냄;
d. GC 함량의 관찰-기대 비 ()를 하기에 의해 계산하는 단계:
여기서, 은 다음과 같이 정의되는 전체 세기 계수임:
e. 서열 분석 판독 세그먼트의 수를 하기에 의해 보정하는 단계:
여기서, 의 보정된 GC 함량을 갖는 서열 분석 판독 세그먼트의 예상 수를 나타냄.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 임산부의 표현형 특징 데이터는 연령, 임신 주수, 키, 체중, BMI, 출산전 검사의 생화학적 테스트 결과, 초음파 진단 결과 및 혈장 중의 세포 유리 태아 DNA 농도 중 하나 이상의 조합으로부터 선택된다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 임산부의 표현형 특징 데이터는 이상 값 처리, 결측 값 처리 및/또는 널 값 처리를 거친다.
하나의 실시 형태에 있어서, 상기 데이터 획득 모듈에서, 상기 임산부 샘플의 표현형 데이터는, 기록이
a. 또는 ;
b. 또는 ;
c. 또는 ;
d. 또는
로 나타나는 경우, 이상 값으로서 판정될 것이고;
이들 이상 값은 널 값으로 설정된다.
하나의 실시 형태에서, 상기 결측 값과 널 값은 missForest 알고리즘에 의해 패딩된다.
하나의 실시 형태에 있어서, 상기 서열 특징 행렬 생성 모듈에서, 상기 염색체는 21번 염색체, 18번 염색체, 13번 염색체 및/또는 성 염색체이다.
하나의 실시 형태에서, 다음 단계는 상기 서열 특징 행렬 생성 모듈에서 수행된다: (2.1) 길이 b의 윈도우를 사용하여 의 스텝 사이즈로 참조 게놈의 길이 L의 염색체 서열을 중첩시키고 슬라이딩시켜 슬라이딩 윈도우를 수득하는 단계로서, 여기서, b는 양의 정수이고, b=[10000,10000000]이고, t는 임의의 양의 정수이고, L은 양의 정수이고, L≥b인, 단계; (2.2) 각각의 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계.
하나의 실시 형태에 있어서, 상기 서열 특징 행렬 생성 모듈에서, 상기 서열 특징 행렬은 상기 슬라이딩 윈도우 내의 판독 세그먼트의 수, 염기 품질 및 맵핑 품질을 포함한다.
하나의 실시 형태에 있어서, 상기 염기 품질은 염기 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함한다.
하나의 실시 형태에 있어서, 상기 맵핑 품질은 맵핑 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함한다.
하나의 실시 형태에 있어서, 상기 서열 특징 행렬 생성 모듈에서, 상기 서열 특징 행렬은 하기이다:
여기서, 는 슬라이딩 윈도우의 수를 나타내고, 는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 는 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
하나의 실시 형태에 있어서, 상기 서열 특징 벡터 추출 모듈에서, 상기 서열 특징 행렬은 정규화된다.
하나의 실시 형태에 있어서, 상기 서열 특징 벡터 추출 모듈에서, 상기 서열 특징 행렬은 수학식 I에 의해 정규화된다:
[수학식 I]
여기서, 는 샘플 의 정규화된 서열 특징 행렬이고, 는 샘플 의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타내고, 는 각각 모든 샘플의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값의 평균과 표준 편차를 나타낸다.
하나의 실시 형태에 있어서, 상기 서열 특징 벡터 추출 모듈에서, 상기 훈련된 기계 학습 모델은 신경망 모델 또는 오토인코더 모델이고; 바람직하게는 상기 신경망 모델은 심층 신경망 모델이고, 보다 바람직하게는 상기 신경망 모델은 1 차원 컨볼루션 기반의 심층 신경망 모델이다.
심층 신경망 모델에 대해, 본 발명의 제1 양태의 실시 형태에서의 정의가 또한 적용된다.
하나의 실시 형태에 있어서, 상기 분류 검출 모듈에서, 상기 조합 특징 벡터는 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 수득된다.
하나의 실시 형태에 있어서, 상기 분류 검출 모듈에서, 상기 조합 특징 벡터 는 하기에 의해 정규화된다:
여기서, 는 정규화된 조합 특징 벡터 의 i 번째 서열 고유값이고, 는 조합 특징 벡터 의 i 번째 서열 고유값이고, 는 조합 특징 벡터 의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
하나의 실시 형태에 있어서, 상기 분류 검출 모듈에서, 상기 분류 검출 모델은 앙상블 학습 모델이다.
하나의 실시 형태에서, 상기 앙상블 학습 모델은 스태킹 또는 다수결 투표 기반의 앙상블 학습 모델이고; 바람직하게는, 상기 앙상블 학습 모델은 서포트 벡터 머신 모델, 나이브 베이즈 분류기, 랜덤 포레스트 분류기, XGBoost 및 로지스틱 회귀 중의 하나 이상이다.
제4 양태에서, 본 발명은 하기를 포함하는, 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 시스템을 제공한다:
임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하기 위한 데이터 획득 모듈로서, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부의 태아 염색체 상태는 알려져 있고, 상기 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것인, 데이터 획득 모듈;
참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하기 위한 서열 특징 행렬 생성 모듈;
상기 서열 특징 행렬 및 태아 염색체 상태를 이용하여 훈련 데이터 세트를 구축하고, 기계 학습 모델을 훈련하여 상기 염색체 서열의 서열 특징 벡터를 추출하기 위한 서열 특징 벡터 추출 모듈;
상기 서열 특징 벡터와 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 분류 모델을 상기 조합 특징 벡터 및 복수의 임산부의 태아 염색체 상태로 훈련하여 훈련된 분류 검출 모델을 수득하기 위한 분류 검출 모듈.
하나의 실시 형태에서, 상기 시스템은 상기 서열 분석 데이터의 판독 세그먼트를 참조 게놈에 정렬하여 고유한 맵핑 판독을 수득하기 위한 정렬 모듈을 추가로 포함한다.
상기 훈련된 기계 학습 모델을 제외하고, 본 발명의 제3 양태와 동일한 기술적 특징에 대해, 본 발명의 제3 양태의 실시 형태에서의 정의가 또한 적용된다. 이러한 양태에서, 상기 훈련된 기계 학습 모델은 출력 레이어를 포함한다. 예를 들어, 심층 신경망 모델의 구조는 첫 번째 전역 평균 풀링 레이어 후에 출력 레이어를 포함하고, 상기 출력 레이어는 첫 번째 전역 평균 풀링 레이어에 연결되며 1의 출력 뉴런의 수를 갖는 완전 연결 레이어이고, 염색체 이상 상태를 출력하는데 사용된다. 본 발명의 방법 및 모델은 Z 검정 대신에 서열 분석 데이터의 혁신적인 알코리즘을 기반으로 하며, 결과 스코어가 "회색 영역"에 속할 때 임계값에 따라 판정하기 어려운 임상 문제를 극복한다. 또한, 샘플 (예를 들어, 샘플의 서열 분석 데이터 및 상응하는 임산부의 표현형 데이터)의 수가 증가함에 따라, 본 발명에 의해 제안된 하이브리드 모델은 자동으로 업그레이드되고 최적화되어 검출 정확도를 개선시킬 수 있다.
도 1은 본 발명의 한 실시 형태에 따른 심층 신경망 하이브리드 모델을 기반으로 태아 염색체 이상을 검출하는 방법의 흐름도를 예시한 것이다.
도 2는 본 발명의 한 실시 형태에 따른 서열 분석 데이터의 특징 행렬의 계산을 예시한 것이다.
도 3은 본 발명의 한 실시 형태에 따른 심층 신경망의 구조를 예시한 것이다.
도 4는 본 발명의 한 실시 형태에 따른 스퀴즈-익사이트 모듈 (SE 모듈)을 예시한 것이다.
도 5는 본 발명의 한 실시 형태에 따른 스페이셜 스퀴즈-익사이트 모듈 (sSE 모듈)을 예시한 것이다.
도 6은 본 발명의 한 실시 형태에 따른 표현형 데이터 세트의 결측 값 패딩을 예시한 것이다.
도 7은 본 발명의 한 실시 형태에 따른 스태킹 기반의 앙상블 학습 모델의 구조를 예시한 것이다.
도 8은 본 발명의 한 실시 형태에 따른 스태킹 기반의 앙상블 학습 모델의 5배 교차 검증 훈련 결과의 ROC 곡선을 예시한 것이다.
도 9는 본 발명의 한 실시 형태에 따른 테스트 세트 기반의 모델에 의해 평가된 ROC 곡선을 예시한 것이다.
도 10는 본 발명의 한 실시 형태에 따른 테스트 세트 기반의 모델에 의해 평가된 정밀도-재현율 곡선을 예시한 것이다.
도 11은 결정 임계값이 본 발명의 한 실시 형태에 따라 디폴트 값 (즉, 0.5)일 때의 혼동 행렬 다이어그램을 예시한 것이다.
도 12는 본 발명의 한 실시 형태에 따른 임계값으로서의 정밀도와 재현율의 함수를 예시한 것이다.
도 13은 최소 재현율이 본 발명의 한 실시 형태에 따라 0.95 (즉, 유형 II 오류를 제한함)일 때의 혼동 행렬 다이어그램을 예시한 것이다.
본 발명에서, 태아 염색체 이상을 검출하는 방법은 태아 염색체 이상을 검출하는 시스템에 의해 실시될 수 있으며; 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 방법은 태아 염색체 이상을 검출하기 위한 검출 모델의 시스템에 의해 실시될 수 있다.
본 발명에서, 상기 데이터 획득 모듈은 임산부의 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하는데 사용되며, 여기서, 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부의 태아 염색체 상태는 알려져 있거나 (훈련 샘플) 알려져 있지 않고 (검출하고자 하는 샘플), 상기 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성한다. 상기 데이터 획득 모듈은 상기 데이터를 수신하기 위한 데이터 수신 모듈을 포함할 수 있다. 상기 데이터 획득 모듈은 임산부의 세포 유리 핵산을 입력하여 서열 분석함으로써 서열 분석 데이터를 수득할 수 있는 서열 분석기를 추가로 포함할 수 있다. 서열 분석은 고처리량 서열 분석일 수 있고 초저심도 서열 분석일 수 있으며, 상기 초저심도 서열 분석의 서열 분석 심도는 1×, 0.1× 또는 0.01×이다. 상기 세포 유리 핵산은 임산부의 말초 혈액, 간 및/또는 태반으로부터 유래할 수 있다. 상기 임산부의 임상적 표현형 특징과 상기 임산부의 태아 염색체 상태 (훈련 샘플)는 데이터베이스에서 이용 가능할 수 있으며, 여기서, 상기 임산부의 태아 염색체 상태는 염색체 이수성, 미세 결실 및/또는 미세 중복일 수 있다.
본 발명에서, 상기 정렬 모듈은 판독 세그먼트를 참조 게놈에 정렬하여 고유한 맵핑 판독을 수득하는데 사용된다. 상기 서열을 참조 게놈에 정렬하는 애플리케이션 소프트웨어는 오픈소스 개발자로부터, 예를 들어, 일부 온라인 웹사이트로부터 이용 가능할 수 있거나, 자체적으로 개발될 수 있다.
본 발명에서, 상기 서열 특징 행렬 생성 모듈은 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는데 사용된다. 이는 고정된 길이의 윈도우를 사용하여 염색체 서열 상에서 슬라이딩함으로써 실시될 수 있으며, 고정 길이의 윈도우는 10k, 100k, 1M, 10M 등일 수 있다. 스텝 사이즈는 임의의 길이일 수 있으며, 일반적으로 간편한 계산을 위해 슬라이딩 윈도우 길이의 절반으로 설정된다. 염색체 서열의 길이는 슬라이딩 윈도우 길이보다 커야만 하며, 10k, 100k, 1M, 10M, 100M ...... 전체 염색체의 길이까지일 수 있다. 염색체는 표적 염색체일 수 있으며, 예를 들어, 21번 염색체는 21번 삼염색체성 증후군의 검출에 상응하고, 18번 염색체는 18번 삼염색체성 증후군의 검출에 상응하고, 13번 염색체는 13번 삼염색체성 증후군의 검출에 상응하고, XY 염색체는 성 염색체 이상의 검출에 상응하고, 모든 상염색체는 염색체 미세 결실/미세 중복의 검출에 상응한다. 각 윈도우에 대해, 판독의 수, 염기 품질 (서열 분석 정확도의 척도) 및 맵핑 품질 (판독 세그먼트를 상기 참조 게놈에 정렬하는 정확도의 척도, 맵핑 품질이 보다 높을 수록 상기 참조 게놈에 대한 판독 세그먼트의 정렬 위치는 보다 고유하게 됨) 등을 비롯한 파라미터를 계수하고, 컴퓨터 소프트웨어를 사용하여 수행할 수 있다.
본 발명에서, 상기 서열 특징 추출 모듈은 염색체 서열의 서열 특징을 추출하는데 사용된다. 훈련 데이터 세트에서, 상기 서열 특징 벡터 생성 모듈은 상기 서열 특징 행렬 및 임산부의 태아 염색체 상태를 이용하여 훈련 데이터 세트를 구축하고, 기계 학습 모델을 훈련하여 상기 염색체 서열의 서열 특징 벡터를 추출한다. 테스트 데이터의 경우, 상기 서열 특징 벡터 생성 모듈은 상기 서열 특징 행렬을 이용하여 테스트 데이터 세트를 구축하고, 훈련된 기계 학습 모델, 예를 들어, 심층 신경망 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출한다.
본 발명에 있어서, 훈련 데이터 세트의 경우, 상기 분류 검출 모듈, 예를 들어, 앙상블 학습 모델의 훈련 모듈은 서열 특징 벡터 및 임산부의 표현형 특징 벡터에 의해 형성된 조합 특징 벡터 및 태아 염색체 상태에 의해 분류 검출 모델을 훈련하여 훈련된 분류 검출 모델을 수득하는데 사용된다.
테스트 데이터 세트의 경우, 상기 분류 검출 모듈은 서열 특징 벡터를 임산부의 표현형 특징 벡터와 조합하여 조합 특징 벡터를 입력으로서 형성하고, 상기 훈련된 분류 검출 모델을 이용하여 염색체 이상 상태를 검출하는데 사용된다.
본 발명은 염색체 이상, 예를 들어, 이수성, 미세 결실 또는 미세 중복을 검출하는 완전한 혁신적인 방법을 제안한다. 전통적인 방법과 달리, 본 발명은 직접 판독 세그먼트의 수 및 Z 스코어를 기반으로 이수성을 검출하지 않으며, 지루한 데이터 전처리 및 특징 추출 선택 작업을 필요로 하지 않는다. 대신, 본 발명은 기계 학습 모델을 설계하여 서열 분석 데이터로부터 생성된 서열 특징 행렬로부터 서열 특징 벡터를 자동으로 추출하고, 서열 특징 벡터를 임산부의 임상적 표현형 특징을 조합하고, 분류 검출 모델을 이용하여 검출하므로, 최종적으로 태아 염색체에 유전 이상이 있는지 여부의 예측 결과를 수득한다.
본 발명에서, 기계 학습 모델을 이용하여 서열 분석 데이터로부터 서열 특징 벡터를 자동으로 추출하여, NIPT 전체 게놈 서열 특징의 전통적인 수동 추출의 단점을 극복한다. 본 발명의 방법은 서열 분석 데이터 정보를 충분히 발굴할 뿐만 아니라, 임산부의 임상적 표현형 정보 (모델에 추가될 수 있는 표현형 데이터 정보는 임산부 연령, 임신 주수, 키, 체중, BMI (체질량 지수), 출산전 검사의 생화학적 테스트 결과 및 초음파 진단 결과, 예를 들어, NT 값 등을 포함함)를 충분히 이용하고, 추출된 서열 특징 벡터를 임산부의 표현형 특징 벡터와 조합하여 NIPT 서열 분석 데이터 및 임산부의 임상적 표현형 결과에 포함된 풍부한 특징 데이터 정보를 충분히 발굴하고, 검출 결과의 높은 신뢰성과 유효성을 보장한다. 본 발명의 방법은 흔한 삼염색체성 증후군을 검출하는데 사용될 수 있을 뿐만 아니라, 염색체 카피 수 변이, 염색체 미세 결실, 염색체 미세 중복 등과 같은 기타 염색체 결함을 검출하는데 사용될 수 있다.
본 발명에서, 서열 특징 벡터의 추출은 또한 오토인코더 망 또는 변이형 오토인코더 망 등을 기반으로 하는 심층 신경망 모델을 사용여 수행될 수 있다.
본 발명에서, 스태킹 또는 다수결 투표 기반의 앙상블 학습 모델을 훈련하여 염색체 이상을 검출하고, 상이한 분류기에 의한 이수성의 결과를 충분히 활용하여 이수성을 발견하는 정확도를 크게 개선시킨다.
본 발명에서, 상기 참조 게놈은, 예를 들어, hg38, hg19 등과 같은 사람 게놈 프로젝트에 의해 생성된 정상 이배체 염색체를 갖는 사람 게놈의 맵을 지칭한다. 상기 참조 게놈은 하나의 염색체 또는 그 이상의 염색체일 수 있거나, 염색체의 일부일 수 있다.
본 발명을 구체적인 실시예에 의해 하기에 추가로 기재한다. 그러나, 본 발명은 실시예에 의해 한정되지 않는다.
실시예 1. 검출 모델 구축의 실시예
한 예시적인 실시 형태에서, 검출 모델을 구축하는 예시적인 모델 실시 형태의 과정과 단계를 하기에 기재한다.
1. NIPT 서열 분석 데이터 및 정렬 결과를 수득한다.
고처리량 서열 분석 플랫폼 BGIseq500을 이용하여 훈련 샘플, 즉, 임산부의 세포 유리 핵산 단편을 서열 분석한다 (SE35를 채택하고, 서열 분석 심도는 0.1×임). 상기 임산부의 태아 염색체의 상태는 알려져 있다. 서열 분석 데이터를 참조 게놈에 정렬하고, 반복된 정렬 서열을 필터링하여 고유한 맵핑 판독을 수득한다.
2. 상기 단계 1에서 수득된 고유한 맵핑 판독을 전처리하고, GC 함량과 서열 분석 심도 사이의 관계를 통해 게놈 각각의 커버리지 영역의 서열 커버리지 심도를 재보정한다. 구체적인 과정은 하기와 같다 (세부 사항에 대해 문헌[15]을 참조함):
a. 먼저, 사람 참조 게놈의 염색체 (예를 들어, 21번 염색체)로부터 길이 개의 단편을 무작위로 선택하는 단계.
b. 의 GC 함량을 갖는 단편의 수 (N i )를 하기에 의해 계산하는 단계:
여기서, 이고, 는 단편 의 GC 함량이고, 는 GC 함량을 나타냄 ();
c. 의 GC 함량을 갖는 고유한 맵핑 판독의 수 (F i )를 하기에 의해 계산하는 단계:
여기서, 는 단편 의 GC 함량을 나타내고, 의 GC 함량 및 상기 단편과 동일한 개시 부위를 갖는 고유한 맵핑 판독의 수를 나타냄;
d. GC 함량의 관찰-기대 비 (λ i )를 하기에 의해 계산하는 단계:
여기서, 은 다음과 같이 정의되는 전체 세기 계수임:
e. 고유한 맵핑 판독의 수를 하기에 의해 보정하는 단계:
여기서, 보정 후 의 GC 함량을 갖는 고유한 맵핑 판독의 예상 수를 나타냄.
3. 서열 특징 행렬을 생성한다.
상기 단계 2의 결과를 사용하여 특징 행렬을 계산하며, 계산 과정은 하기와 같다 (도 2에 도시된 바와 같음):
길이 의 윈도우를 사용하여 길이 의 표적 염색체를 개시 부위로부터 말단 부위까지 의 스텝 사이즈로 슬라이딩시킨다. 각 슬라이딩 윈도우에 의해 커버된 길이 의 영역에 대해,
a. 영역 내의 GC 보정된 판독의 수;
b. 해당 영역 내의 염기 품질의 평균;
c. 해당 영역 내의 염기 품질의 표준 편차 (std);
d. 해당 영역 내의 염기 품질의 왜도;
e. 해당 영역 내의 염기 품질의 첨도;
f. 해당 영역 내의 맵핑 품질의 평균;
g. 해당 영역 내의 맵핑 품질의 표준 편차 (std);
h. 해당 영역 내의 맵핑 품질의 왜도;
i. 해당 영역 내의 맵핑 품질의 첨도
와 같은 특징들을 계산하고;
이로써, 하기와 같은 서열 특징 행렬이 수득된다:
여기서, 는 슬라이딩 윈도우의 수를 나타내고, 예를 들어, 이고;
는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 예를 들어, (즉, 길이 b의 각 슬라이딩 윈도우에 대해 9개의 상이한 특징을 계산함)이고;
i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
염기 품질은 서열 분석 결과의 정확도를 정량적으로 설명하기 위한 것이며; 염기 품질의 평균, 표준 편차, 왜도 및 첨도는 각각 서열 분석 판독 내의 모든 염기 품질의 평균, 표준 편차, 왜도 및 첨도를 지칭한다. 맵 품질은 주어진 서열 분석 판독 세그먼트의 기준 게놈 서열에 대한 정렬의 신뢰도를 지칭하며; 맵 품질의 평균, 표준 편차, 왜도 및 첨도는 각각 주어진 서열 분석 판독 세그먼트의 맵 품질의 평균, 표준 편차, 왜도 및 첨도를 지칭한다.
4. 심층 신경망 모델을 구축한다.
4.1. 데이터 세트를 구축한다.
단계 3의 결과를 사용하여 훈련 세트 를 구축하며, 여기서, 은 샘플의 수를 나타내고, N은 ≥1의 정수이고; 는 샘플 의 정규화된 서열 특징 행렬 (이하, 정규화된 서열 특징 행렬로 지칭됨)이고, k∈[1,N]는 하기와 같이 정의된다:
, 여기서, 는 훈련 세트 중 샘플 의 i 번째 슬라이딩 윈도우에서 j 번째 서열 특징 벡터를 나타내고, 는 훈련 세트 중 i 번째 슬라이딩 윈도우에서 j 번째 서열 특징 벡터의 평균이고, 는 훈련 세트 중 i 번째 슬라이딩 윈도우에서 j 번째 서열 특징 벡터의 표준 편차이고, i는 ≥1의 정수이고, j는 ≥1의 정수이다.
4.2. 심층 신경망 모델을 구축한다.
심층 신경망 모델을 구축하고, 그 구조는 도 3에 도시된 바와 같다. 심층 신경망 모델에 관련된 모든 컨볼루션 레이어는 1 차원 컨볼루션 조작을 거친다. 달리 명시되지 않는다면, 1 차원 컨볼루션 커널 (즉, 1 차원 필터)의 파라미터는 동일하며, 즉, 1 차원 컨볼루션 커널의 수는 이고; 1 차원 컨볼루션 커널의 크기는 이고; 1 차원 컨볼루션 조작의 스텝 사이즈는 이고; 1 차원 컨볼루션 커널은 L2 정규화를 사용하고, 정규화 계수는 이고; 1 차원 컨볼루션 커널의 초기화 함수는 g이고; 1 차원 컨볼루션 조작의 출력 특징 맵의 크기는 입력 특징 맵의 크기와 동일하게 유지되도록 설정되고; 풀링 커널의 크기는 이고, 풀링 스텝 사이즈는 이다.
심층 신경망 모델에 관련된 드롭아웃 레이어의 사용된 드롭아웃 비는 동일하며, 로 설정된다.
심층 신경망 모델 구조는 하기를 포함한다:
4.2.1. 입력 레이어
입력 레이어를 사용하여 의 크기를 갖는 정규화된 서열 특징 행렬 ()을 수신한다.
4.2.2. 전면 모듈
전면 모듈을 입력 레이어에 연결하고, 입력 서열 특징 행렬의 첫 번째 컨볼루션 및 활성화 조작을 수행하는데 사용하고, 추상적 표현 특징 맵을 수득한다. 상기 모듈은 다음을 포함한다: 1 차원 컨볼루션 레이어, 상기 1 차원 컨볼루션 레이어에 연결된 배치 정규화 레이어 및 상기 배치 정규화 레이어에 연결된 ReLU 활성화 레이어.
4.2.3. 코어 모듈
코어 모듈은 전면 모듈에 연결되며, 특징 맵의 추가적인 추상화 및 특징 추출을 수행하고 신경망 모델의 심도를 효과적으로 증가시켜 신경망의 표현 능력을 강화시키는데 사용된다. 상기 코어 모듈은 동일한 구조를 갖는 잔여 모듈의 3개의 반복 조작으로 이루어지고, 여기서, 각 잔여 모듈의 출력은 다음 잔여 모듈의 입력이다. 상기 각 잔여 모듈은,
(A) 1 차원 컨볼루션 레이어, 상기 1 차원 컨볼루션 레이어에 연결된 드롭아웃 레이어, 상기 드롭아웃 레이어에 연결된 배치 정규화 레이어 및 상기 배치 정규화 레이어에 연결된 ReLU 활성화 레이어를 포함하는 동일한 구조를 각각 갖는 2회 반복된 코어 모듈의 전면 서브 모듈;
(B) (A)에 기재된 코어 모듈의 두 번째 전면 서브 모듈에 연결된 첫 번째 1 차원 평균 풀링 레이어;
(C) (B)에 기재된 첫 번째 1 차원 평균 풀링 레이어에 연결된 스퀴즈-익사이트 모듈 (SE 모듈) 또는 스페이셜 스퀴즈-익사이트 모듈 (sSE 모듈);
먼저, SE 모듈의 감속비 (Reduction Ratio)를 로 설정하고, 도 4에서 도시된 바와 같이, SE 모듈의 구조는,
(a) (B)에서 기재된 첫 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 전역 평균 풀링 레이어;
(b) (a)에 기재된 두 번째 전역 평균 풀링 레이어에 연결된 리쉐이프 레이어로서, 출력 특징 맵의 크기는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 리쉐이프 레이어;
(c) (b)에 기재된 리쉐이프 레이어에 연결된 첫 번째 완전 연결 레이어로서, 이의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수이고, 은 SE 모듈의 하강 속도인, 첫 번째 완전 연결 레이어;
(d) (c)에 기재된 첫 번째 완전 연결 레이어에 연결된 두 번째 완전 연결 레이어로서, 이의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 두 번째 완전 연결 레이어;
(e) (B)에 기재된 첫 번째 1 차원 평균 풀링 레이어 및 (d)에 기재된 두 번째 완전 연결 레이어에 연결된 멀티플라이 레이어
를 포함하고 (세부 사항에 대해 문헌[16]을 참조함);
도 5에 도시된 바와 같이, sSE 모듈의 구조는,
a. (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결되고 시그모이드 함수를 활성화 함수로서 사용하는 1 차원 컨볼루션 레이어;
b. (B)에 기재된 첫 번째 1 차원 평균 풀링 레이어 및 a에서의 1 차원 컨볼루션 레이어에 연결된 멀티플라이 레이어
를 포함함 (세부 사항에 대해 문헌[17]을 참조함);
(D) (C)에 기재된 SE 모듈 및 sSE 모듈에 연결된 첫 번째 부가 레이어 (Add 레이어);
(E) 4.2.2에 기재된 전면 모듈의 ReLU 활성화 레이어에 연결된 두 번째 1 차원 평균 풀링 레이어;
(F) (D)에 기재된 첫 번째 부가 레이어 및 (E)에 기재된 두 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 부가 레이어 (Add 레이어)
를 포함하고;
상기 (A)~(D)는 잔여 모듈의 좌측 분기이고, (E)는 잔여 모듈의 우측 분기이다.
4.2.4. 후면 모듈
후면 모듈은 전면 모듈과 동일한 구조를 가지고, 유일한 차이는 후면 모듈 중 1 차원 컨볼루션 커널의 수가 으로 설정되어 출력 전에 코어 모듈로부터의 특징 맵의 특징 추상화 표현에 사용된다는 것이다.
4.2.첫 번째 전역 평균 풀링 레이어
첫 번째 전역 평균 풀링 레이어는 후면 모듈에 연결되며, 특징 추상화 표현의 특징 맵을 벡터화하는데 사용된다.
4.2.6. 출력 레이어
출력 레이어는 첫 번째 전역 평균 풀링 레이어에 연결되며, 1의 출력 뉴런의 수를 갖는 완전 연결 레이어이고, 활성화 함수는 염색체 이상을 출력하는데 사용되는 시그모이드 함수이다.
서열 특징 벡터를 계산한다.
훈련 세트를 이용하여 단계 4에서의 심층 신경망 모델을 훈련하고, 훈련된 심층 신경망 모델을 이용하여 샘플의 서열 특징 벡터를 계산한다. 그 과정은 하기와 같다:
(1) 상기 4.1에 따라 상기 각 샘플의 정규화된 서열 특징 벡터를 계산하는 단계;
(2) (1)에서 수득된 정규화된 서열 특징 행렬을 심층 신경망 모델에 입력하여 계산하는 단계;
(3) 4.2.5에 기재된 심층 신경망 모델의 첫 번째 전역 평균 풀링 레이어의 출력을, 하기와 같이 정의되는 입력 샘플에 상응하는 생성된 서열 특징 벡터 로서 저장하는 단계:
여기서, 은 4.2.4에 기재된 후면 모듈에서 정의된 1 차원 컨볼루션 커널의 수이다.
6. 임산부 샘플에 상응하는 표현형 결과를 수득한다.
임산부 샘플에 상응하는 표현형 결과를 수득하고, 하기와 같이 정의되는, 5개의 특징을 포함하는 초기 표현형 특징 벡터 를 구축한다:
여기서, 는 샘플링 시에 임산부의 연령 (세)을 나타내고, 는 샘플링 시에 임산부의 임신 주수를 나타내고, 는 임산부의 키 (cm)를 나타내고, 는 임산부의 체중 (kg)을 나타내고, 는 임산부의 혈장 중 세포 유리 태아 DNA의 농도를 나타낸다.
7. 표현형 데이터를 전처리한다.
임산부의 표현형 데이터 세트를 이상 값 처리와 결측 값 또는 널 값 처리를 포함하여 전처리한다.
(1) 이상 값 처리
임산부 샘플의 표현형 데이터는, 기록이
a. 또는 ;
b. 또는 ;
c. 또는 ;
d. 또는
로 나타나는 경우, 이상 값으로 판정되고;
이들 이상 값은 널 값으로 설정된다.
(2) 결측 값 또는 널 값 처리
하기로서 정의되는 표현형 데이터 행렬 를 구축한다:
여기서, 는 훈련 세트에서 i 번째 샘플의 표현형 특징 벡터를 나타내고 (예를 들어, 단계 6에서 정의된 바와 같음), N은 훈련 세트에서 샘플의 수를 나타낸다. 여기에서 훈련 세트 중의 샘플은 4.1에 기재된 훈련 세트 중의 샘플과 일치하므로, 표현형 데이터 행렬 의 크기를 갖는 행렬이고, 여기서, 은 표현형 특징의 수이고, 여기서, 이다.
랜덤 포레스트 기반의 비모수적 결측 값 패딩 알고리즘인 MissForest 알고리즘을 결측 값 패딩에 사용한다 (세부 사항에 대해 문헌[18]을 참조함). 이의 알고리즘은 하기와 같다:
(3) BMI를 계산한다.
결측 값 패딩 후의 표현형 결과를 이용하여 BMI를 계산하며, 이는 다음과 같이 정의된다:
(4) (3)의 결과를 결측 값 패딩 후의 표현형 특징 벡터에 추가하여 하기 최종 표현형 특징 벡터를 수득한다:
8. 조합 특징 벡터를 생성한다.
단계 5에 기재된 서열 특징 벡터와 단계 7에 기재된 최종 특징 벡터를 조합하여 하기 조합 특징 벡터를 수득한다:
9. 조합 특징 벡터를 정규화한다.
8에 기재된 조합 특징 벡터를 하기에 의해 정규화한다:
여기서, 는 정규화된 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
10. 스태킹 기반의 앙상블 학습 모델을 구축한다.
단계 9에 기재된 결과를 이용하여 훈련 세트를 구축하고, ,
여기서, 은 훈련 샘플의 수를 나타내며, N은 ≥1의 정수이고; 는 훈련 샘플 의 정규화된 서열 특징 행렬이며, k∈[1,N]이고, 여기서, i는 ≥1의 정수이고, j는 ≥1의 정수이고; y=0은 정상 태아 염색체를 나타내고, y=1은 이상 태아 염색체를 나타낸다.
스태킹 기반의 앙상블 학습 알고리즘을 이용하여 이수성을 예측한다. 알고리즘은 다음과 같다 (세부 사항에 대해 문헌[19]을 참조함):
실시예 2: 염색체 이상 검출의 실시예
한 예시적인 실시 형태에서, 본 발명은 비침습성 출산전 테스트 (NIPT)의 핵산 서열 분석 결과와 임산부의 표현형 데이터를 함께 이용하여 유전적 이상이 태아 염색체에 존재하는지 여부를 예측하는, 태아 염색체 이상을 검출하는 방법을 제안한다. 구체적인 실시 형태에서, 태아 염색체 이상을 검출하는 방법의 과정과 단계는 도 1에 도시된 바와 같으며, 구체적인 과정을 하기에 설명한다.
1. NIPT 서열 분석 데이터 및 정렬 결과를 수득한다.
고처리량 서열 분석 플랫폼 BGIseq500을 이용하여 검출하고자 하는 샘플을 서열 분석한다 (SE35를 채택하고, 서열 분석 심도는 0.1×임). 서열 분석 데이터를 참조 게놈에 정렬하고, 반복된 정렬 서열을 필터링하여 고유한 맵핑 판독을 수득한다.
2. 상기 단계 1에서 수득된 고유한 맵핑 판독을 전처리하고, GC 함량과 서열 분석 심도 사이의 관계를 통해 게놈 각각의 커버리지 영역의 서열 커버리지 심도를 재보정한다. 구체적인 과정에 대해 실시예 1을 참조한다.
3. 서열 특징 행렬을 생성한다.
상기 단계 2의 결과를 사용하여 특징 행렬을 계산하며, 계산 과정은 하기와 같다 (도 2에 도시된 바와 같음):
길이 의 윈도우를 사용하여 길이 의 표적 염색체를 개시 부위로부터 말단 부위까지 의 스텝 사이즈로 슬라이딩시킨다. 각 슬라이딩 윈도우에 의해 커버된 길이 의 영역에 대해,
a. 영역 내의 GC 보정된 판독의 수;
b. 해당 영역 내의 염기 품질의 평균;
c. 해당 영역 내의 염기 품질의 표준 편차 (std);
d. 해당 영역 내의 염기 품질의 왜도;
e. 해당 영역 내의 염기 품질의 첨도;
f. 해당 영역 내의 맵핑 품질의 평균;
g. 해당 영역 내의 맵핑 품질의 표준 편차 (std);
h. 해당 영역 내의 맵핑 품질의 왜도;
i. 해당 영역 내의 맵핑 품질의 첨도
와 같은 특징들을 계산하고;
이로써, 하기와 같은 서열 특징 행렬이 수득된다:
여기서, 는 슬라이딩 윈도우의 수를 나타내고, 예를 들어, 이고;
는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 예를 들어, (즉, 길이 b의 각 슬라이딩 윈도우에 대해 9개의 상이한 특징을 계산함)이고;
i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
염기 품질은 서열 분석 결과의 정확도를 정량적으로 설명하기 위한 것이며; 염기 품질의 평균, 표준 편차, 왜도 및 첨도는 각각 서열 분석 판독 세그먼트 내의 모든 염기 품질의 평균, 표준 편차, 왜도 및 첨도를 지칭한다. 맵 품질은 주어진 서열 세그먼트의 기준 게놈 서열에 대한 정렬의 신뢰도를 지칭하며; 맵 품질의 평균, 표준 편차, 왜도 및 첨도는 각각 주어진 서열 분석 판독 세그먼트의 맵 품질의 평균, 표준 편차, 왜도 및 첨도를 지칭한다.
4. 실시예 1의 훈련된 심층 신경망 모델을 이용하여 샘플의 서열 특징 벡터를 계산하고, 그 과정은 하기와 같다:
(1) 실시예 1 중의 4.1에 기재된 바와 같은 샘플의 정규화된 서열 특징 행렬을 계산하는 단계;
(2) (1)에서 수득된 정규화된 서열 특징 행렬을 심층 신경망 모델에 입력하여 계산하는 단계;
(3) 실시예 1 중의 4.2.5에 기재된 심층 신경망 모델의 첫 번째 전역 평균 풀링 레이어의 출력을, 하기와 같이 정의되는 샘플에 상응하는 생성된 서열 특징 벡터 로서 저장하는 단계:
여기서, 은 4.2.4에 기재된 후면 모듈에서 정의된 1 차원 컨볼루션 커널의 수이다.
5. 측정하고자 하는 임산부 샘플에 상응하는 표현형 결과를 수득한다.
측정하고자 하는 임산부 샘플에 상응하는 표현형 결과를 수득하고, 하기와 같이 정의되는, 5개의 특징을 포함하는 초기 표현형 특징 벡터 를 구축한다:
여기서, 는 샘플링 시에 임산부의 연령 (세)을 나타내고, 는 샘플링 시에 임산부의 임신 주수를 나타내고, 는 임산부의 키 (cm)를 나타내고, 는 임산부의 체중 (kg)을 나타내고, 는 임산부의 혈장 중 세포 유리 태아 DNA의 농도를 나타낸다.
6. 표현형 데이터에 대한 이상 값 처리
측정하고자 하는 임산부 샘플의 표현형 데이터는, 기록이
a. 또는 ;
b. 또는 ;
c. 또는 ;
d. 또는
로 나타나는 경우, 이상 값으로 판정되고;
이들 이상 값은 널 값으로 설정된다.
7. 단계 4에 기재된 서열 특징 벡터와 단계 6에 기재된 최종 특징 벡터를 조합하여 하기 조합 특징 벡터를 수득한다:
8. 조합 특징 벡터를 정규화한다.
7에 기재된 조합 특징 벡터를 하기에 의해 정규화한다:
여기서, 는 정규화된 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
9. 조합 특징 벡터를 실시예 1 중의 스태킹 기반의 앙상블 학습 모델에 입력하여 측정하고자 하는 임산부의 태아 염색체 상태를 수득한다.
실시예 3. 검증 실시예
1. 샘플의 수
본 실시예는 "21번 삼염색체 (T21)"를 갖는 1205개의 샘플을 양성 샘플로서, "정상 염색체 (이배체)"를 갖는 1600개의 샘플을 음성 샘플로서 사용한다.
표 1은 훈편 샘플과 테스트 샘플의 수를 기재한다.
2. 실시예 1 중의 2에 기재된 단계에 따라 모든 양성 및 음성 샘플의 서열 분석 데이터를 전처리하고, 여기서, 무작위 샘플링 단편의 수 이고, 단편 이다.
3. 실시예 1 중의 단계 3에 기재된 단계에 따라 모든 양성 및 음성 샘플에 대해 서열 특징 행렬을 생성한다. 파라미터를 하기와 같이 설정한다:
21번 염색체의 길이: ;
슬라이딩 윈도우의 길이: ;
슬라이딩 스텝 크기: .
따라서, 각 샘플에 상응하는 서열 특징 행렬을 의 크기로 수득하는데, 즉, 이다. 21번의 염색체의 개시 부분은 참조 게놈 중에 맵핑 서열을 갖지 않으므로, 본 실시예에서는 서열 특징 행렬의 처음 8개의 열을 필터링하는데, 즉, 사용된 서열 특징 행렬의 크기는 실제로 이다.
4. 단계 3의 결과를 기반으로, 훈련 세트에 상응하는 서열 분석 데이터의 특징 행렬을 사용하여 심층 신경망 모델을 훈련한다.
(1) 실시예 1 중의 4.1에 따라 훈련 세트의 서열 분석 데이터의 특징 행렬을 정규화하고 정규화 모델을 저장한다.
(2) (1)에 기재된 것에 따라 심층 신경망 모델을 훈련하기 위해 의 크기의 입력 텐서를 수득한다.
(3) 실시예 1 중의 4.2에 기재된 것에 따라 심층 신경망 모델을 훈련하고, 심층 신경망 모델의 파라미터를 하기와 설정한다:
1 차원 컨볼루션 커널의 수: ,
1 차원 컨볼루션 커널의 크기: ,
1 차원 컨볼루션 조작의 스텝 사이즈: ,
1 차원 컨볼루션 커널의 l2 정규화 계수: ,
1 차원 컨볼루션 커널의 초기화 함수 g는 문헌[20]에서 기재된 "He 정규화" 초기화 함수를 사용하고,
1 차원 컨볼루션 조작의 출력 특징 맵의 크기는 입력 특징 맵의 크기와 동일하고,
풀링 커널의 크기: ,
풀링의 스텝 사이즈: ,
드롭아웃 레이어의 드롭아웃 비: ,
SE 모듈의 하강 속도: ,
후면 모듈 중의 1 차원 컨볼루션 커널의 수 .
본 실시예는 Tensorflow (버전=1.12.2) 및 Keras (버전=2.2.4)의 GPU 버전을 기반으로 실시된다. 표 2는 기재된 파라미터 기반의 심층 신경망 모델에서 각 레이어의 조작, 출력 특징 맵의 크기 및 망 연결을 열거한다.
(4) 훈련 세트의 샘플 중 80%를 심층 신경망의 훈련에 사용하고, 20%를 검증에 사용하여 정확도를 계산한다.
(5) 심층 신경망에 대한 훈련을 다음과 같이 설정한다: 반복 epochs = 100 및 샘플 배치 크기 mini_batch = 64. 경사 하강의 최적화 알고리즘으로서 Adam 알고리즘 (파라미터 = 0.9, = 0.999)을 사용하고, 초기 학습률을 0.01로 설정한다. 훈련 과정에서, 정확률이 연속 2회 반복 후에 개선되지 않는 경우, 학습률은 2배 감소할 것이며 (즉, 0.5를 곱함); 정확률이 연속 10회 반복 후에 개선되지 않는 경우, 훈련을 중단한다.
(6) 심층 신경망 모델의 훈련 과정에 클래스 가중치 인자를 도입한다 (기계 학습 라이브러리 scikit-learn (버전=0.22)의 compute_class_weight() 함수를 사용하여 클래스 가중치를 계산하고, 상응하는 클래스의 샘플에 클래스 가중치를 할당함).
(7) 훈련된 심층 신경망 모델을 저장한다.
5. 상기 실시예 1 중의 단계 5에 따라 서열 특징 벡터를 계산한다:
(1) 상기 실시예 1 중의 단계 3에 따라 전체 데이터 세트 (훈련 세트 및 테스트 세트 포함) 중의 모든 샘플에 대해 서열 특징 행렬을 계산하고;
(2) 4.1에 기재된 것에 따라 수득된 서열 정규화 모델을 사용하여 상기 (1)에서 수득된 서열 특징 행렬을 정규화하고;
(3) 상기 (2)의 결과를 4에서 수득된 심층 신경망 모델에 입력하고, 모델의 출력 레이어를 전역 평균 풀링 레이어 (즉, 표 2 중의 65 번째 레이어)로 수정하고;
(4) (3)의 과정에 따라 전체 데이터 세트 (훈련 세트 및 테스트 세트 포함) 중의 모든 샘플의 서열 특징 벡터를 수득한다.
6. 상기 실시예 1 중의 단계 7에 따라, 전체 데이터 세트 (훈련 세트 및 테스트 세트 포함) 중의 모든 샘플의 표현형 특징을 수득하고, 표현형 특징의 이상 값를 처리한다.
7. 상기 실시예 1 중의 단계 7에 따라, 훈련 세트 중의 표현형 특징을 결측 값 패딩에 적용하여, 결측 값의 패딩 모델을 저장한다.
8. 상기 실시예 1 중의 단계 7에 따라, 도 6에 도시된 바와 같이, BMI를 결측 값 처리 후에 훈련 세트 중의 표현형 특징에 대해 계산한다.
9. 상기 실시예 1 중의 단계 8에 따라, 훈련 세트 중의 서열 특징 벡터를 상응하는 샘플의 표현형 특징 벡터와 조합하여 조합 특징 벡터를 수득한다.
10. 상기 실시예 1 중의 단계 9에 따라, 훈련 세트 중의 각 샘플의 조합 특징 벡터를 정규화하여 정규화된 특징 벡터를 수득하고, 조합 특징 벡터의 정규화 모델을 저장한다.
11. 상기 단계 7~10의 과정에 따라, 저장된 결측 값의 패딩 모델을 이용하여 테스트 세트 중의 각 샘플의 표현형 특징의 결측 값 패딩을 수행한 다음, 테스트 세트의 서열 특징 벡터를 상응하는 샘플의 표현형 특징 벡터와 조합하여 테스트 세트의 조합 특징 벡터를 수득하고, 이어서, 저장된 조합 특징 벡터의 정규화 모델을 이용하여 테스트 세트 중의 조합 특징 벡터를 정규화한다.
12. 도 7에 도시된 바와 같이, 상기 단계 10에서 수득된 훈련 세트의 정규화된 특징 벡터를 이용하여 스태킹 기반의 앙상블 학습 모델을 훈련한다. 본 실시예는 scikit-learn (버전=0.22.2) 기계 학습 라이브러리를 기반으로 실시되며, 여기서, 클래스 가중치 인자를 각각의 기본 분류기 모델 및 최종 메타 분류기 모델에 도입하고, 달리 명시되지 않는다면, 파라미터를 디폴트 값으로 설정한다.
(1) 상기 실시예 1 중의 단계 10에 따라, 본 실시예에서 사용된 기본 분류기는 하기를 포함한다:
Figure pct00275
SVC, 파라미터는 C=0.5, kernel="rbf"임
Figure pct00276
ν-SVC, 파라미터는 ν=0.25, kernel="rbf"임
Figure pct00277
GaussianNB (가우시안 나이브 베이즈 모델)
Figure pct00278
RandomForestClassifier (랜덤 포레스트 분류기), 파라미터는 n_estimators=100, criterion="gini", max_depth=5, min_samples_leaf=1 및 min_samples_split=2임
Figure pct00279
XGBClassifier (XGBoosting 분류기), 파라미터는 n_estimators=100, min_child_weight=1, gamma=0.1, colsample_bytree=0.8, subsample=0.7, reg_alpha=0.01, max_depth=5 및 learning_rate = 0.05임,
Figure pct00280
LogisticRegression, 파라미터는 C=0.5임
(2) 실시예 1 중의 단계 10에 따라, 최종 메타-분류기는 ExtraTreesClassifier (익스트림 랜덤 트리 분류기)이다. 이러한 분류기에 관련된 파라미터를 각각 n_estimators=110, max_depth=6, min_samples_split=3 및 min_samples_leaf=1로 설정한다.
(3) 5배 교차 검증 훈련을 스태킹 기반의 앙상블 학습 모델에 대해 수행하고, 그 결과는 도 8에 도시된 바와 같다. 5배 교차 검증을 사용하여 모델을 훈련하여 수득된 평균 AUC는 0.96인 것으로 나타난다.
13. 단계 12에서 기재된 훈련된 스태킹 기반의 앙상블 학습 모델을 테스트 세트를 이용하여 검증한다.
(1) 테스트 결과의 ROC 곡선은 도 9에 도시된 바와 같으며, 여기서, AUC=0.96이다.
(2) 테스트 결과의 정밀도-재현율 곡선은 도 10에 도시된 바와 같으며, 여기서, AP=0.95이다.
(3) 디폴트 결정 임계값 (즉, 0.5)의 경우, 혼동 행렬은 도 11에 도시된 바와 같으며; 재현율과 정밀도는 각각 0.83 및 0.89이다.
(4) 임계값으로서의 정밀도와 재현율의 함수는 도 12에 도시된 바와 같다.
(5) 최소 재현율을 0.95 (즉, 유형 II 오류를 제한함)로 설정한다. 수득된 결과는 도 12에 도시된 바와 같으며; 재현율과 정밀도는 각각 0.96 및 0.70이다.
본 발명은 기계 학습 모델 (예를 들어, 심층 신경망)을 사용하여 NIPT 서열 분석 데이터의 서열 특징 벡터를 추출한 다음, 서열 특징 벡터 (판독 수, 염기 품질 및 맵핑 품질을 포함하지만 이들에 한정되지 않는 특징)를 임산부의 표현형 특징 벡터 (임산부의 연령, 임신 주수, 키, 체중, BMI, 출산전 검사의 생화학적 테스트 결과 및 초음파 진단 결과, 예를 들어, NT 값 등을 포함하지만 이들에 한정되지 않는 임산부의 표현형 특징)와 조합하여 벡터 조합을 형성하고, 이어서, 분류 모델, 예를 들어, 스태킹 기반의 앙상블 학습 모델을 사용하여 최종 예측 이수성을 수득하는 것을 제안한다. 본 발명에서, 서열 특징 벡터의 추출은 본 출원에서 사용된 방법에 한정되지 않고, 오토인코더 망 또는 변이형 오토인코더 망을 포함하여 사용될 수 있지만 이들에 한정되지 않는다. 본 발명에 의해 제안되는 모델 구조는 하이브리드 모델이며, 즉, 이러한 모델은 두 단계를 포함한다. 첫 번째 단계에서, 기계 학습 모델 (예를 들어, 심층 신경망)을 사용하여 서열 특징 벡터를 계산한다. 두 번째 단계에서, 분류 모델 (예를 들어, 스태킹 기반의 앙상블 학습 모델)을 사용하고 서열 특징 벡터와 표현형 특징 벡터의 조합을 사용하여 이수성을 예측한다. 다수결 투표 기반의 모델과 같은 기타 앙상블 학습 모델도 또한 사용할 수 있다.
본 발명의 실시예에 사용된 검증된 고급 심층 신경망 모델은, 다른 컨볼루션 신경망과 비교하여, 다음과 같은 망 설계 및 구조 특징을 갖는다: 본 발명의 실시예에 사용된 심층 신경망 모델은 1 차원 컨볼루션 모델을 기반으로 하는 심층 신경망 모델이고; 본 발명의 실시예에 사용된 심층 신경망 모델은 잔여 망을 기반으로 하는 망 모델이고; 스퀴즈-익사이트 망의 SE 모듈이 본 발명의 실시예에 사용된 심층 신경망 모델에 도입되어 있다. 이러한 설계를 기반으로, 본 발명의 실시예에서 사용된 신경망 모델은 보다 많은 레이어를 갖고 (실시예 3 참조), 모델 훈련 과정에서 기울기 소실 및 과적합 위험을 효과적으로 감소시키고, 안정성을 개선시키므로, 모델 예측 결과의 정확도를 효과적으로 개선시킨다.
본 발명은, 컴퓨터 프로그램이 저장되고 컴퓨터 프로그램이 프로세서에 의해 실행될 때 본 발명의 방법을 실시하는 단계들이 실행되는 컴퓨터 판독 가능 저장 매체로서 실시될 수 있다. 하나의 예에서, 컴퓨터 프로그램은 망에 의해 결합된 수개의 컴퓨터 디바이스 또는 프로세서에 걸쳐 분산되므로, 컴퓨터 프로그램은 하나 이상의 컴퓨터 디바이스 또는 프로세서에 의해 분산 방식으로 저장, 접근 및 실행된다. 단일 단계/조작 또는 둘 이상의 단계/조작은 단일 컴퓨터 디바이스 또는 프로세서에 의해 또는 둘 이상의 컴퓨터 디바이스 또는 프로세서에 의해 실행될 수 있다. 하나 이상의 단계/조작은 하나 이상의 컴퓨터 디바이스 또는 프로세서에 의해 실행될 수 있으며, 하나 이상의 다른 단계/조작은 하나 이상의 다른 컴퓨터 디바이스 또는 프로세서에 의해 실행될 수 있다. 하나 이상의 컴퓨터 디바이스 또는 프로세서는 단일 단계/조작 또는 둘 이상의 단계/조작을 실행할 수 있다.
당해 분야의 통상의 기술자들은 본 발명의 태아 염색체 이상을 검출하는 방법에서의 단계의 분할 및 순서가 예시를 위한 것일 뿐 한정적이지 않다는 것을 인식할 것이며, 당해 분야의 통상의 기술자들은 첨부된 청구범위 및 이의 등가적 기술 해결책에 제시된 바와 같은 본 발명의 사상 또는 범위를 벗어나지 않고 삭제, 추가, 치환, 변형 및 변경을 수행할 수 있다. 본 발명의 실시 형태의 기술적 특징은 임의로 조합될 수 있으며, 상기 실시 형태에서의 기술적 특징의 가능한 모든 조합은 간결한 설명을 위해 기재되지 않는다. 그러나, 이는 이들 기술적 특징의 조합 사이에 충돌이 없다면 본 명세서의 범위 내에 속하는 것으로 간주되어야 한다.
본 발명은 예시적인 실시 형태를 참조하여 기재되었지만, 본 발명은 상기 실시 형태의 구성 및 방법에 한정되지 않는다는 것을 이해해야 한다. 대신, 본 발명은 다양한 변형 및 등가적 배열 형태를 포함하도록 의도된다. 또한, 본 발명에 개시된 다양한 요소 및 방법 단계가 다양한 예시적인 조합 및 구성으로 도시되어 있지만, 보다 많거나 보다 적은 요소 또는 방법 단계를 포함하는 다른 조합도 또한 본 발명의 범위 내에 속한다.
참고문헌:

Claims (59)

  1. 태아 염색체 이상(fetal chromosomal abnormality)을 검출하는 방법으로서,
    (1) 검출하고자 하는 임산부로부터 세포 유리 핵산 단편(cell-free nucleic acid fragments)의 서열 분석 데이터(sequencing data) 및 임상적 표현형 특징 데이터(clinical phenotypic feature data)를 수득하는 단계 ― 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 검출하고자 하는 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터(phenotypic feature vector)를 형성하는 것임 ―;
    (2) 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬(sequence feature matrix)을 생성하는 단계;
    (3) 상기 서열 특징 행렬을 훈련된 기계 학습 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출하는 단계;
    (4) 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 상기 조합 특징 벡터를 분류 검출 모델에 입력하여 상기 검출하고자 하는 임산부의 태아 염색체 이상 상태를 수득하는 단계
    를 포함하는, 태아 염색체 이상을 검출하는 방법.
  2. 제1항에 있어서,
    (1)에서, 상기 세포 유리 핵산 단편은 상기 임산부의 말초 혈액, 간 및/또는 태반으로부터 유래하는 것인, 방법.
  3. 제1항 또는 제2항에 있어서,
    (1)에서, 상기 세포 유리 핵산 단편은 세포 유리 DNA인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    (1)에서, 상기 서열 분석 데이터는 초저심도 서열 분석(ultra-low-depth sequencing)으로부터 유도되고; 바람직하게는 상기 초저심도 서열 분석의 서열 분석 심도는 1×, 0.1× 또는 0.01×인, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    (1)에서, 상기 판독 세그먼트를 상기 참조 게놈에 정렬하여 고유한 맵핑 판독 (바람직하게는 GC 함량 보정을 수행함)을 수득하고; 바람직하게는, 후속 단계를 상기 고유한 맵핑 판독 (바람직하게는 상기 판독 세그먼트를 GC 함량에 의해 보정함)으로 수행하는 것인, 방법.
  6. 제5항에 있어서,
    상기 GC 함량 보정(GC content correction)을 하기와 같이 수행하는 것인, 방법:
    a. 먼저, 사람 참조 게놈의 염색체로부터 길이 개의 단편을 무작위로 선택하는 단계;
    b. 의 GC 함량을 갖는 단편의 수 (N i )를 하기에 의해 계산하는 단계:

    여기서, 이고, 는 단편 의 GC 함량이고, 는 GC 함량을 나타냄 ();
    c. 의 GC 함량을 갖는 서열 분석 판독 세그먼트의 수 (F i )를 하기에 의해 계산하는 단계:

    여기서, 는 단편 의 GC 함량을 나타내고,의 GC 함량 및 상기 단편과 동일한 개시 부위를 갖는 서열 분석 판독 세그먼트의 수를 나타냄;
    d. GC 함량의 관찰-기대 비 ()를 하기에 의해 계산하는 단계:

    여기서, 은 다음과 같이 정의되는 전체 세기 계수 (global scaling factor)임:

    e. 서열 분석 판독 세그먼트의 수를 하기에 의해 보정하는 단계:

    여기서, 의 보정된 GC 함량을 갖는 서열 분석 판독 세그먼트의 예상 수를 나타냄.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    (1)에서, 상기 임산부의 표현형 특징 데이터는 연령, 임신 주수, 키, 체중, BMI, 출산전 검사의 생화학적 테스트 결과, 초음파 진단 결과 및 혈장 중의 세포 유리 태아 DNA 농도 중 하나 이상의 조합으로부터 선택되는 것인, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    (1)에서, 상기 임산부의 표현형 특징 데이터는 이상 값 처리, 결측 값 처리 및/또는 널 (null) 값 처리를 거치는 것인, 방법.
  9. 제8항에 있어서,
    (1)에서, 상기 임산부 샘플의 표현형 데이터는, 기록이
    a. 또는 ;
    b. 또는 ;
    c. 또는 ;
    d. 또는
    로 나타나는 경우, 이상 값(outliers)으로서 판정될 것이고;
    이들 이상 값은 널(null) 값으로 설정되는 것인, 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 결측 값과 널 값은 missForest 알고리즘에 의해 패딩되는 (padded) 것인, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    (2)에서, 상기 염색체는 21번 염색체, 18번 염색체, 13번 염색체 및/또는 성 염색체인, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    (2.1) 길이 b의 윈도우를 사용하여 의 스텝 사이즈로 참조 게놈의 길이 L의 염색체 서열을 중첩시키고 슬라이딩시켜 슬라이딩 윈도우를 수득하는 단계로서, 여기서, b는 양의 정수이고, b=[10000,10000000]이고, t는 임의의 양의 정수이고, L은 양의 정수이고, L≥b인, 단계; (2.2) 각각의 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계를 포함하는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서,
    (2)에서, 상기 서열 특징 행렬은 상기 슬라이딩 윈도우 내의 판독 세그먼트의 수, 염기 품질 및 맵핑 품질을 포함하는 것인, 방법.
  14. 제13항에 있어서,
    상기 염기 품질은 염기 품질의 평균, 표준 편차, 왜도 (skewnes) 및/또는 첨도 (kurtosis)를 포함하는 것인, 방법.
  15. 제13항에 있어서,
    상기 맵핑 품질은 맵핑 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함하는 것인, 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서,
    (2)에서, 상기 서열 특징 행렬은 하기인, 방법:

    여기서, 는 슬라이딩 윈도우의 수를 나타내고, 는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 는 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    (3)에서, 상기 서열 특징 행렬은 정규화되는 것인, 방법.
  18. 제17항에 있어서,
    (3)에서, 상기 서열 특징 행렬은 하기 수학식 I을 사용하여 정규화되는 것인, 방법:
    [수학식 I]

    여기서, 는 샘플 의 정규화된 서열 특징 행렬이고, 는 샘플 의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타내고, 는 각각 모든 샘플의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값의 평균과 표준 편차를 나타낸다.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서,
    (3)에서, 상기 훈련된 기계 학습 모델은 신경망 모델 또는 오토인코더 (AutoEncoder) 모델이고; 바람직하게는 상기 신경망 모델은 심층 신경망 모델이고, 보다 바람직하게는 상기 신경망 모델은 1 차원 컨볼루션 기반의 심층 신경망 모델(deep neural network model)인 것인, 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 심층 신경망 모델의 구조는 하기를 포함하는, 방법:
    상기 서열 특징 행렬을 수신하기 위한 입력 레이어 (input layer);
    상기 입력 레이어로부터의 서열 특징 행렬의 첫 번째 컨볼루션 및 활성화 조작을 수행하여 특징 맵을 수득하기 위한 상기 입력 레이어에 연결된 전면 모듈;
    상기 전면 모듈로부터 특징 맵의 추가적인 추상화 및 특징 추출을 수행하고, 신경망 모델의 심도를 효과적으로 증가시켜 신경망의 표현 능력을 강화시키기 위한 상기 전면 모듈에 연결된 코어 모듈;
    상기 코어 모듈로부터의 특징 맵의 특징 추상화 표현(feature abstraction representation)을 수행하기 위한 상기 코어 모듈에 연결된 후면 모듈;
    상기 특징 추상화 표현의 특징 맵을 벡터화하고 상기 염색체 서열의 서열 특징 벡터를 출력하기 위한 상기 후면 모듈에 연결된 첫 번째 전역 평균 풀링 레이어 (global average pooling layer).
  21. 제20항에 있어서,
    상기 전면 모듈은 하기를 포함하는, 방법:
    (I) 1 차원 컨볼루션 레이어;
    (II) (I)에 기재된 1 차원 컨볼루션 레이어에 연결된 배치 정규화 레이어;
    (III) (II)에 기재된 배치 정규화 레이어에 연결된 ReLU 활성화 레이어.
  22. 제20항 또는 제21항에 있어서,
    상기 코어 모듈은 동일한 구조를 갖는 하나 이상의 잔여 서브 모듈로 이루어지고, 여기서, 각 잔여 모듈의 출력은 다음 잔여 모듈의 입력인, 방법.
  23. 제20항 내지 제22항 중 어느 한 항에 있어서,
    상기 잔여 서브 모듈은 하기를 포함하는, 방법:
    (A) 1 차원 컨볼루션 레이어, 상기 1 차원 컨볼루션 레이어에 연결된 드롭아웃 레이어(Dropout layer), 상기 드롭아웃 레이어에 연결된 배치 정규화 레이어 및 상기 배치 정규화 레이어에 연결된 ReLU 활성화 레이어를 각각 포함하는 상기 코어 모듈의 전면 서브 모듈;
    (B) (A)에 기재된 코어 모듈의 전면 서브 모듈에 연결된 첫 번째 1 차원 평균 풀링 레이어;
    (C) (B)에 기재된 첫 번째 1 차원 평균 풀링 레이어에 연결된 스퀴즈-익사이트 모듈 (Squeeze-Excite module) 및/또는 스페이셜 스퀴즈-익사이트 모듈 (Spatial Squeeze-Excite module);
    (D) (C)에 기재된 스퀴즈-익사이트 모듈 및/또는 스페이셜 스퀴즈-익사이트 모듈에 연결된 첫 번째 부가 레이어 (Addition layer);
    (E) 상기 전면 모듈의 ReLU 활성화 레이어에 연결된 두 번째 1 차원 평균 풀링 레이어;
    (F) (D)에 기재된 첫 번째 부가 레이어 및 (E)에 기재된 두 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 부가 레이어.
  24. 제23항에 있어서,
    상기 스퀴즈-익사이트 모듈은 하기를 포함하는, 방법:
    (a) 상기 잔여 서브 모듈의 (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결된 두 번째 전역 평균 풀링 레이어;
    (b) (a)에 기재된 두 번째 전역 평균 풀링 레이어에 연결된 리쉐이프 레이어 (Reshape layer)로서, 상기 리쉐이프 레이어의 출력 특징 맵의 크기는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 리쉐이프 레이어;
    (c) (b)에 기재된 리쉐이프 레이어에 연결된 첫 번째 완전 연결 레이어로서, 상기 첫 번째 완전 연결 레이어의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수이고, 은 스퀴즈-익사이트 모듈의 하강 속도인, 첫 번째 완전 연결 레이어;
    (d) (c)에 기재된 첫 번째 완전 연결 레이어에 연결된 두 번째 완전 연결 레이어로서, 상기 두 번째 완전 연결 레이어의 출력 뉴런의 수는 이고, 여기서, 는 1 차원 컨볼루션 커널의 수인, 두 번째 완전 연결 레이어;
    (e) (d)에 기재된 두 번째 완전 연결 레이어 및 상기 잔여 서브 모듈의 (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결된 멀티플라이 레이어 (Multiply layer).
  25. 제23항 또는 제24항에 있어서,
    상기 스페이셜 스퀴즈-익사이트 모듈은 하기를 포함하는, 방법:
    a. (B)에서의 첫 번째 1 차원 평균 풀링 레이어에 연결되고 시그모이드 함수를 활성화 함수로서 사용하는 1 차원 컨볼루션 레이어;
    b. (B)에서의 첫 번째 1 차원 평균 풀링 레이어 및 a에서의 1 차원 컨볼루션 레이어에 연결된 멀티플라이 레이어.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서,
    (4)에서, 상기 조합 특징 벡터는 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 수득되는 것인, 방법.
  27. 제1항 내지 제26항 중 어느 한 항에 있어서,
    (4)에서, 상기 조합 특징 벡터 는 하기에 의해 정규화되는 것인, 방법:

    여기서, 는 정규화된 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터의 i 번째 서열 고유값이고, 는 조합 특징 벡터 x의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
  28. 제1항 내지 제27항 중 어느 한 항에 있어서,
    (4)에서, 상기 분류 검출 모델은 앙상블 학습 모델(ensemble learning model)인, 방법.
  29. 제28항에 있어서,
    상기 앙상블 학습 모델은 스태킹 (Stacking) 또는 다수결 투표 (Majority Voting) 기반의 앙상블 학습 모델이고; 바람직하게는, 상기 앙상블 학습 모델은 서포트 벡터 머신 모델 (support vector machine model), 나이브 베이즈 분류기 (naive Bayes classifier), 랜덤 포레스트 분류기 (random forest classifier), XGBoost 및 로지스틱 회귀 중의 하나 이상인, 방법.
  30. 제1항에 있어서,
    상기 염색체 이상은 21번 삼염색체성 증후군, 18번 삼염색체성 증후군, 13번 삼염색체성 증후군, 5p 증후군, 염색체 미세 결실 및 염색체 미세 중복 중 적어도 하나 이상을 포함하는 것인, 방법.
  31. 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 방법으로서,
    (1) 복수의 임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하는 단계 ― 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부 각각의 태아 염색체 상태는 알려져 있고, 상기 임산부 각각의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것임 ―;
    (2) 상기 임산부 각각에 대해, 참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계;
    (3) 상기 임산부 각각에 대해, 상기 서열 특징 행렬 및 태아 염색체 상태를 이용하여 훈련 데이터 세트를 구축하고, 기계 학습 모델을 훈련하여 상기 염색체 서열의 서열 특징 벡터를 추출하는 단계;
    (4) 상기 서열 특징 벡터와 상기 임산부 각각의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 분류 모델을 상기 조합 특징 벡터 및 상기 임산부의 태아 염색체 상태로 훈련하여 훈련된 분류 검출 모델을 수득하는 단계
    를 포함하는, 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 방법.
  32. 제31항에 있어서,
    상기 임산부 각각의 태아 염색체 상태는 정상 이배체, 염색체 이수성, 부분 단염색체성 증후군, 염색체 미세 결실 및 염색체 미세 중복 중 하나 이상이고; 바람직하게는, 상기 염색체 이수성은 21번 삼염색체성 증후군, 18번 삼염색체성 증후군 및 13번 삼염색체성 증후군 중 적어도 하나 이상을 포함하고; 바람직하게는, 상기 부분 단염색체성 증후군은 5p 증후군을 포함하는 것인, 방법.
  33. 제32항 또는 제33항에 있어서,
    상기 임산부의 수는 10 초과이고, 염색체 이수성 태아의 수에 대한 정상 이배체 태아의 수의 비율은 ½ 내지 2인, 방법.
  34. 제31항 내지 제33항 중 어느 한 항에 있어서,
    (3)에서, 상기 훈련 데이터 세트는,


    로서 표시되고, 여기서, 은 훈련 샘플의 수를 나타내며, N은 ≥1의 정수이고; 는 훈련 샘플 의 정규화된 서열 특징 행렬이며, k∈[1,N]이고, 여기서, i는 ≥1의 정수이고, j는 ≥1의 정수이고;
    상기 염색체 이상은 21번 삼염색체성 증후군, 18번 삼염색체성 증후군, 13번 삼염색체성 증후군, 5p 증후군, 염색체 미세 결실 및 염색체 미세 중복 중 적어도 하나 이상을 포함하는 것인, 방법.
  35. 태아 염색체 이상을 검출하는 시스템으로서,
    검출하고자 하는 임산부 샘플로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하기 위한 데이터 획득 모듈 ― 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 검출하고자 하는 임산부 샘플의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것임 ―;
    참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하기 위한 서열 특징 행렬 생성 모듈;
    상기 서열 특징 행렬을 훈련된 기계 학습 모델에 입력하여 상기 염색체 서열의 서열 특징 벡터를 추출하기 위한 서열 특징 벡터 추출 모듈;
    상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 상기 조합 특징 벡터를 분류 검출 모델에 입력하여 상기 검출하고자 하는 임산부의 태아 염색체 이상 상태를 수득하기 위한 분류 검출 모듈
    을 포함하는, 태아 염색체 이상을 검출하는 시스템.
  36. 제35항에 있어서,
    상기 시스템은 상기 서열 분석 데이터의 판독을 참조 게놈에 정렬하여 고유한 맵핑 판독을 수득하기 위한 정렬 모듈을 추가로 포함하는, 시스템.
  37. 제35항 또는 제36항에 있어서,
    상기 데이터 획득 모듈에서, 상기 세포 유리 핵산 단편은 상기 임산부의 말초 혈액, 간 및/또는 태반으로부터 유래하는 것인, 시스템.
  38. 제35항 내지 제37항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 세포 유리 핵산 단편은 세포 유리 DNA인, 시스템.
  39. 제35항 내지 제38항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 서열 분석 데이터는 초저심도 서열 분석으로부터 유도되고; 바람직하게는 상기 초저심도 서열 분석의 서열 분석 심도는 1×, 0.1× 또는 0.01×인, 시스템.
  40. 제35항 내지 제39항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 판독 세그먼트를 상기 참조 게놈에 정렬하여 고유한 맵핑 판독 (바람직하게는 GC 함량 보정을 수행함)을 수득하고; 바람직하게는, 후속 단계를 상기 고유한 맵핑 판독 (바람직하게는 상기 판독 세그먼트를 GC 함량에 의해 보정함)으로 수행하는 것인, 시스템.
  41. 제35항 내지 제40항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 임산부의 표현형 특징 데이터는 연령, 임신 주수, 키, 체중, BMI, 출산전 검사의 생화학적 테스트 결과, 초음파 진단 결과 및 혈장 중의 세포 유리 태아 DNA 농도 중 하나 이상의 조합으로부터 선택되는 것인, 시스템.
  42. 제35항 내지 제40항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 임산부의 표현형 특징 데이터는 이상 값 처리, 결측 값 처리 및/또는 널 값 처리를 거치는 것인, 시스템.
  43. 제35항 내지 제42항 중 어느 한 항에 있어서,
    상기 데이터 획득 모듈에서, 상기 임산부 샘플의 표현형 데이터는, 기록이
    a. 또는 ;
    b. 또는 ;
    c. 또는 ;
    d. 또는
    로 나타나는 경우, 이상 값으로서 판정될 것이고;
    이들 이상 값은 널 값으로 설정되는 것인, 시스템.
  44. 제42항 또는 제43항에 있어서,
    상기 결측 값과 널 값은 missForest 알고리즘에 의해 패딩되는 것인, 시스템.
  45. 제35항 내지 제44항 중 어느 한 항에 있어서,
    상기 서열 특징 행렬 생성 모듈에서, 상기 염색체는 21번 염색체, 18번 염색체, 13번 염색체 및/또는 성 염색체인, 시스템.
  46. 제35항 내지 제45항 중 어느 한 항에 있어서,
    다음 단계는 상기 서열 특징 행렬 생성 모듈에서 수행되는 것인, 시스템: (2.1) 길이 b의 윈도우를 사용하여 의 스텝 사이즈로 참조 게놈의 길이 L의 염색체 서열을 중첩시키고 슬라이딩시켜 슬라이딩 윈도우를 수득하는 단계로서, 여기서, b는 양의 정수이고, b=[10000,10000000]이고, t는 임의의 양의 정수이고, L은 양의 정수이고, L≥b인, 단계; (2.2) 각각의 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하는 단계.
  47. 제35항 내지 제46항 중 어느 한 항에 있어서,
    상기 서열 특징 행렬 생성 모듈에서, 상기 서열 특징 행렬은 상기 슬라이딩 윈도우 내의 판독 세그먼트의 수, 염기 품질 및 맵핑 품질을 포함하는 것인, 시스템.
  48. 제47항에 있어서,
    상기 염기 품질은 염기 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함하는 것인, 시스템.
  49. 제47항에 있어서,
    상기 맵핑 품질은 맵핑 품질의 평균, 표준 편차, 왜도 및/또는 첨도를 포함하는 것인, 시스템.
  50. 제35항 내지 제49항 중 어느 한 항에 있어서,
    상기 서열 특징 행렬 생성 모듈에서, 상기 서열 특징 행렬은 하기인, 시스템:

    여기서, 는 슬라이딩 윈도우의 수를 나타내고, 는 단일 슬라이딩 윈도우 내의 서열 특징의 수를 나타내고, 는 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타낸다.
  51. 제35항 내지 제50항 중 어느 한 항에 있어서,
    상기 서열 특징 벡터 추출 모듈에서, 상기 서열 특징 행렬은 정규화되는 것인, 시스템.
  52. 제35항 내지 제51항 중 어느 한 항에 있어서,
    상기 서열 특징 벡터 추출 모듈에서, 상기 서열 특징 행렬은 하기 수학식 I을 사용하여 정규화되는 것인, 시스템:
    [수학식 I]

    여기서, 는 샘플 의 정규화된 서열 특징 행렬이고, 는 샘플 의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값을 나타내고, 는 각각 모든 샘플의 i 번째 슬라이딩 윈도우에서 j 번째 서열 고유값의 평균과 표준 편차를 나타낸다.
  53. 제35항 내지 제52항 중 어느 한 항에 있어서,
    상기 서열 특징 벡터 추출 모듈에서, 상기 훈련된 기계 학습 모델은 신경망 모델 또는 오토인코더 모델이고; 바람직하게는 상기 신경망 모델은 심층 신경망 모델이고, 보다 바람직하게는 상기 신경망 모델은 1 차원 컨볼루션 기반의 심층 신경망 모델인 것인, 시스템.
  54. 제35항 내지 제53항 중 어느 한 항에 있어서,
    상기 분류 검출 모듈에서, 상기 조합 특징 벡터는 상기 서열 특징 벡터와 상기 임산부의 표현형 특징 벡터를 조합하여 수득되는 것인, 시스템.
  55. 제35항 내지 제54항 중 어느 한 항에 있어서,
    상기 분류 검출 모듈에서, 상기 조합 특징 벡터 는 하기에 의해 정규화되는 것인, 시스템:

    여기서, 는 정규화된 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터 x의 i 번째 서열 고유값이고, 는 조합 특징 벡터 x의 i 번째 서열 고유값의 평균이고, 는 조합 특징 벡터의 i 번째 서열 고유값의 표준 편차이다.
  56. 제35항 내지 제55항 중 어느 한 항에 있어서,
    상기 분류 검출 모듈에서, 상기 분류 검출 모델은 앙상블 학습 모델인, 시스템.
  57. 제56항에 있어서,
    상기 앙상블 학습 모델은 스태킹 또는 다수결 투표 기반의 앙상블 학습 모델이고; 바람직하게는, 상기 앙상블 학습 모델은 서포트 벡터 머신 모델, 나이브 베이즈 분류기, 랜덤 포레스트 분류기, XGBoost 및 로지스틱 회귀 중의 하나 이상인, 시스템.
  58. 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 시스템으로서,
    임산부로부터 세포 유리 핵산 단편의 서열 분석 데이터 및 임상적 표현형 특징 데이터를 수득하기 위한 데이터 획득 모듈 ― 상기 서열 분석 데이터는 복수의 판독 세그먼트를 포함하고, 상기 임산부의 태아 염색체 상태는 알려져 있고, 상기 임산부의 임상적 표현형 특징 데이터는 상기 임산부의 표현형 특징 벡터를 형성하는 것임 ―;
    참조 게놈의 염색체 서열의 적어도 일부에 대해 윈도우 분할을 수행하여 슬라이딩 윈도우를 수득하고, 상기 슬라이딩 윈도우 내에 속하는 판독 세그먼트를 계수하고, 상기 염색체 서열의 서열 특징 행렬을 생성하기 위한 서열 특징 행렬 생성 모듈;
    상기 서열 특징 행렬 및 태아 염색체 상태를 이용하여 훈련 데이터 세트를 구축하고, 기계 학습 모델을 훈련하여 상기 염색체 서열의 서열 특징 벡터를 추출하기 위한 서열 특징 벡터 추출 모듈;
    상기 서열 특징 벡터와 임산부의 표현형 특징 벡터를 조합하여 조합 특징 벡터를 형성하고, 분류 모델을 상기 조합 특징 벡터 및 복수의 임산부의 태아 염색체 상태로 훈련하여 훈련된 분류 검출 모델을 수득하기 위한 분류 검출 모듈
    을 포함하는 태아 염색체 이상을 검출하기 위한 분류 검출 모델을 구축하는 시스템.
  59. 제58항에 있어서,
    상기 시스템은 상기 서열 분석 데이터의 판독 세그먼트를 참조 게놈에 정렬하여 고유한 맵핑 판독을 수득하기 위한 정렬 모듈을 추가로 포함하는, 시스템.
KR1020237021684A 2020-11-27 2020-11-27 태아 염색체 이상을 검출하는 방법 및 시스템 KR20230110615A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/132331 WO2022110039A1 (zh) 2020-11-27 2020-11-27 一种胎儿染色体异常的检测方法与系统

Publications (1)

Publication Number Publication Date
KR20230110615A true KR20230110615A (ko) 2023-07-24

Family

ID=81753821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237021684A KR20230110615A (ko) 2020-11-27 2020-11-27 태아 염색체 이상을 검출하는 방법 및 시스템

Country Status (8)

Country Link
US (1) US20240013859A1 (ko)
EP (1) EP4254418A4 (ko)
JP (1) JP2024505780A (ko)
KR (1) KR20230110615A (ko)
CN (1) CN116648752A (ko)
AU (1) AU2020479407A1 (ko)
CA (1) CA3200221A1 (ko)
WO (1) WO2022110039A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792548B (zh) * 2022-06-14 2022-09-09 北京贝瑞和康生物技术有限公司 校正测序数据、检测拷贝数变异的方法、设备和介质
CN114841294B (zh) * 2022-07-04 2022-10-28 杭州德适生物科技有限公司 一种检测染色体结构异常的分类器模型训练方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1600265A (zh) * 2004-09-27 2005-03-30 郑末晶 唐氏综合征和神经管缺陷产前筛查方法
US11854666B2 (en) * 2016-09-29 2023-12-26 Myriad Women's Health, Inc. Noninvasive prenatal screening using dynamic iterative depth optimization
US20210125683A1 (en) * 2017-09-15 2021-04-29 The Regents Of The University Of California Detecting somatic single nucleotide variants from cell-free nucleic acid with application to minimal residual disease monitoring
US11168356B2 (en) * 2017-11-02 2021-11-09 The Chinese University Of Hong Kong Using nucleic acid size range for noninvasive cancer detection
WO2019191319A1 (en) 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
EP3824470A1 (en) 2018-07-17 2021-05-26 Natera, Inc. Methods and systems for calling ploidy states using a neural network
US20200365234A1 (en) * 2019-05-13 2020-11-19 Nvidia Corporation Sequence variation detection using deep learning
CN111286529A (zh) * 2019-07-22 2020-06-16 常州市妇幼保健院 一种利用外周血胎儿游离dna产前筛查假阳性的试剂盒
EP4086356A4 (en) * 2019-12-31 2023-09-27 BGI Clinical Laboratories (Shenzhen) Co., Ltd. METHOD FOR DETERMINING CHROMOSOME ANEUPLOIDY AND CONSTRUCTION CLASSIFICATION MODEL AND APPARATUS
CN111292802B (zh) * 2020-02-03 2021-03-16 至本医疗科技(上海)有限公司 用于检测突变的方法、电子设备和计算机存储介质

Also Published As

Publication number Publication date
EP4254418A4 (en) 2024-03-27
WO2022110039A1 (zh) 2022-06-02
CN116648752A (zh) 2023-08-25
JP2024505780A (ja) 2024-02-08
US20240013859A1 (en) 2024-01-11
AU2020479407A1 (en) 2023-06-29
CA3200221A1 (en) 2022-06-02
EP4254418A1 (en) 2023-10-04

Similar Documents

Publication Publication Date Title
JP6253644B2 (ja) 統合バイアス補正およびクラス予測を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
JP6313757B2 (ja) 統合デュアルアンサンブルおよび一般化シミュレーテッドアニーリング技法を用いてバイオマーカシグネチャを生成するためのシステムおよび方法
Schmidt et al. A machine-learning–based algorithm improves prediction of preeclampsia-associated adverse outcomes
CN109072479A (zh) 使用循环微粒对自发性早产风险进行分层
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
JP2018068752A (ja) 機械学習装置、機械学習方法及びプログラム
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
Alkaragole et al. Comparison of data mining techniques for predicting diabetes or prediabetes by risk factors
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
Sharifi-Heris et al. Machine learning approach for preterm birth prediction using health records: systematic review
Yang et al. Chromosome classification via deep learning and its application to patients with structural abnormalities of chromosomes
Li et al. Down syndrome prediction using a cascaded machine learning framework designed for imbalanced and feature-correlated data
Guo et al. Integrated learning: screening optimal biomarkers for identifying preeclampsia in placental mRNA samples
Khoirunnisa et al. Implementation of CRNN method for lung cancer detection based on microarray data
US9734122B2 (en) System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management
CN108229099A (zh) 数据处理方法、装置、存储介质及处理器
CN114822682B (zh) 与早发型重度子痫前期发生相关的基因组合及其应用
Aljameel et al. An Automated System for Early Prediction of Miscarriage in the First Trimester Using Machine Learning
CN115295145B (zh) 遗传性代谢病的预测装置
WO2023102786A1 (zh) 基因标志物在预测孕妇早产风险中的应用
Chemisto et al. Artificial Intelligence for Improved Maternal Healthcare: A Systematic Literature Review
CN114694748A (zh) 一种基于预后信息与强化学习的蛋白质组学分子分型方法
Bikdeli et al. Studying Pregnancy Outcome Risk in Patients with Systemic Lupus Erythematosus Based on Cluster Analysis
Bikdeli et al. Research Article Studying Pregnancy Outcome Risk in Patients with Systemic Lupus Erythematosus Based on Cluster Analysis

Legal Events

Date Code Title Description
A201 Request for examination