KR20220122596A - 염색체 이수성 판별 및 분류 모델 구성 방법 및 장치 - Google Patents

염색체 이수성 판별 및 분류 모델 구성 방법 및 장치 Download PDF

Info

Publication number
KR20220122596A
KR20220122596A KR1020227003512A KR20227003512A KR20220122596A KR 20220122596 A KR20220122596 A KR 20220122596A KR 1020227003512 A KR1020227003512 A KR 1020227003512A KR 20227003512 A KR20227003512 A KR 20227003512A KR 20220122596 A KR20220122596 A KR 20220122596A
Authority
KR
South Korea
Prior art keywords
chromosome
sample
tested
ratio
characteristic
Prior art date
Application number
KR1020227003512A
Other languages
English (en)
Inventor
훙윈 장
위잉 위안
샹화 차이
리쥔 저우
멍졔 왕
치앙 류
예 인
Original Assignee
비지아이 클리니컬 래보러토리즈 (셴젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비지아이 클리니컬 래보러토리즈 (셴젠) 컴퍼니 리미티드 filed Critical 비지아이 클리니컬 래보러토리즈 (셴젠) 컴퍼니 리미티드
Publication of KR20220122596A publication Critical patent/KR20220122596A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • G06N3/0427
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

(1) 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계; (2) 상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계; (3) 상기 시험하고자 하는 염색체에 의한 추정 비율 및 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계; 및 (4) 대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여 태아가 염색체 이수성을 가지는지 여부를 결정하는 단계 - 상기 대조 샘플은 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음 - 를 포함하는, 태아의 염색체 이수성 판별 방법이 제공된다.

Description

염색체 이수성 판별 및 분류 모델 구성 방법 및 장치
본 발명은 바이오테크놀로지, 특히 비침습성(non-invasive) 산전 유전자 검사 분야에 관한 것으로, 구체적으로 염색체 이수성(chromosomal aneuploidy)을 판별하기 위한 방법 및 장치, 및 기계 학습 분류 모델을 구성하기 위한 상응하는 방법 및 장치에 관한 것이다.
산전 스크리닝법은 대개 두 가지 범주, 즉 침습성 방법(산전 진단으로도 불리움) 및 비침습성 방법으로 구분된다. 전자는 주로 양수천자, 융모 채취, 제대혈 채취 등을 포함하고; 후자는 초음파 검사, 산모 말초 혈청 마커 판별, 태아 세포 검출 등을 포함한다. 융모막 융모 채취(chorionic villus sampling(CVS)) 또는 양수천자(amniocentesis)와 같은 침습성 방법은 태아로부터 분리된 세포를 얻는데 사용되며, 이는 통상적인 산전 진단을 위하여 사용될 수 있다. 이러한 방법들은 태아 이수성 진단에 있어서 매우 정확하나, 이러한 전형적인 방법들은 침습성이고 임신 여성 및 태아 모두에 있어서 일부 위험을 가진다.
산전 혈청학적 스크리닝과 같은 전형적인 비-침습성 스크리닝법은 대개 덜 정확하다.
Dennis Lo, et al.은 산모 혈장 및 혈청 내에 세포-유리(cell-free) 태아 DNA가 있어, 비침습성 산전 검사(NIPT)를 위한 새로운 아이디어를 제공함을 발견하였다. 비침습성 산전 검사는 주로 하이 스루풋 시퀀싱 기술을 사용하여 임신 여성의 말초 혈액 내 세포-유리 태아 DNAs를 분석하여, 태아 내 통상적인 염색체 이수성 위험을 평가한다. 현재, 통상적인 스크리닝 범위는 염색체 21 이수성(T21), 염색체 18 이수성(T18), 염색체 13 이수성(T13) 및 성염색체이다.
하이 스루풋 시퀀싱 기술에 근거한, 임신 여성의 말초 혈액 내 세포-유리 태아 DNAs를 사용하는 태아 염색체 이수성 검출을 위한 기존의 통상적 기술은 다음과 같다:
1. 리드 수에 대한 정량에 근거한 방법에 의하여 수행되는 NIPT : 이 방법의 주된 원리는, 비교 소프트웨어를 사용함으로써 판독("시퀀싱 리드"라고도 함)을 소정의 창(window) 내에 배치한 다음, 적절한 방법을 사용하여 시험하고자 하는 염색체의 이수성 검출을 수행하는 것이다.
2. 단일 염기 다형성(single nucleotide polymorphism(SNP))에 근거한 방법에 의하여 수행되는 NIPT: 이 방법의 주된 원리는, 두 부모의 게놈 DNAs 및 세포-유리 태아 DNAs의 수집 및 시퀀싱을 각각 소정의 SNP 부위 영역을 근거로 수행한 다음, 부모 및 태아의 유전자형 정보를 이용하여 Bayesian 모델에 의하여 시험하고자 하는 염색체의 이수성 검출을 수행하는 것이다.
3. DNA 단편 크기에 근거한 방법에 의하여 수행되는 NIPT: 이 방법의 주된 아이디어는, 세포-유리 태아 DNA 단편 및 산모 DNA 단편 간의 분포 차이에 근거하여 페어드-엔드(paired-end(PE)) 시퀀싱 기술을 사용하여 세포-유리 태아 DNA 단편을 추출하고, 최종적으로, 기준 샘플에 근거하여 Z-테스트를 사용하여 시험하고자 하는 염색체의 이수성 검출을 수행하는 것이다.
그러나, 이러한 기존의 비침습성 산전 진단법은 각각 단점을 가진다. 이해를 쉽게 하기 위하여, 이를 다음 표에 요약한다:
Figure pct00001
따라서, 비침습성 방법을 통하여 염색체 이수성을 판별하기 위한 현재 방법들은 여전히 개선될 필요가 있다.
본 발명은 종래 기술에 존재하는 기술적 문제점들 중 적어도 하나를 해결함을 목적으로 한다. 따라서, 본 발명의 목적은 염색체 이수성을 효과적으로 판별할 수 있는 방법을 제공하는 것이다.
본 발명의 일 측면에 따르면, 본 발명은 태아가 염색체 이수성을 가지는지 여부를 판별하는 방법을 제공한다. 본 발명의 구현예에 따르면, 상기 방법은: (1) 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 세포-유리 태아 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성됨; (2) 상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 상기 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; (3) 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계; 및 (4) 대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여 태아가 염색체 이수성을 가지는지 여부를 판별하는 단계 - 상기 대조 샘플은 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음 - 를 포함한다.
상기 방법은 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 상기 방법을 실행하는 과정에서, 종래 기술에서의 시퀀싱 리드 수에 근거하여 역치를 설정하는 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되어, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 현저히 감소되는 것으로 발견된다.
본 발명의 구현예에 따르면, 상기 방법은 또한 다음과 같은 추가적인 기술적 특징을 가질 수 있다:
본 발명의 구현예에 따르면, 상기 임신 여성 샘플은 임신 여성의 말초 혈액을 포함한다.
본 발명의 구현예에 따르면, 상기 핵산 시퀀싱 데이터는 페어드-엔드 시퀀싱(paired-end sequencing), 싱글-엔드 시퀀싱(single-end sequencing) 또는 단일-분자 시퀀싱(single-molecule sequencing)에 의하여 수득된다.
본 발명의 구현예에 따르면, 상기 태아 비율은 다음 단계에 의하여 결정된다: (a) 상기 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열(reference sequence)과 비교하여, 소정의 창(window) 내에 들어오는 시퀀싱 리드의 수를 결정하는 단계; 및 (b) 상기 소정의 창 내에 들어오는 시퀀싱 리드의 수에 근거하여 상기 임신 여성 샘플의 태아 비율을 결정하는 단계.
본 발명의 구현예에 따르면, 단계 (2)에서, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 다수의 상염색체의 시퀀싱 리드의 평균 수이고, 상기 다수의 상염색체는 이수성을 가지지 않는 것으로 알려진 적어도 하나의 상염색체를 포함한다.
본 발명의 구현예에 따르면, 단계 (2)에서, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 15 상염색체의 시퀀싱 리드의 평균 수이고; 임의로, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 20 상염색체의 시퀀싱 리드의 평균 수이고; 임의로, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 모든 상염색체의 시퀀싱 리드의 평균 수이다.
본 발명의 구현예에 따르면, 상기 추정 비율은 다음 식에 따라 결정된다:
Figure pct00002
(상기 식에서,
j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
Fj는 염색체 j에 의한 추정 비율을 나타내고,
Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
Rj는 염색체 j의 시퀀싱 리드의 수를 나타냄).
본 발명의 구현예에 따르면, 단계 (3)에서, 상기 제1 특징은 시험하고자 하는 염색체에 의한 추정 비율 및 제2 비교 염색체에 의한 추정 비율의 평균값 사이의 차이에 근거하여 결정된다.
본 발명의 구현예에 따르면, 상기 제2 비교 염색체는 적어도 10 상염색체를 포함한다.
본 발명의 구현예에 따르면, 상기 제2 비교 염색체는 15 상염색체를 포함한다.
본 발명의 구현예에 따르면, 상기 방법은: 다수의 상염색체에 의한 추정 비율을 결정하는 단계; 및 표적 상염색체를 제2 비교 염색체로서 작은 것에서부터 큰 것의 우선 순서로 선택하는 단계를 더 포함한다.
본 발명의 구현예에 따르면, 상기 제1 특징은 다음 식에 의하여 결정된다:
Figure pct00003
(상기 식에서,
X 1 은 제1 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타냄).
본 발명의 구현예에 따르면, 상기 제2 특징은 다음 식에 의하여 결정된다:
Figure pct00004
(상기 식에서,
X 2 는 제2 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fa은 태아 비율을 나타냄).
본 발명의 구현예에 따르면, 단계 (4)를 수행하기 전에, 상기 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이가 되도록, 상기 제1 특징 및 제2 특징을 표준화한다.
본 발명의 구현예에 따르면, 단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:4 이상의 비를 가진다.
본 발명의 구현예에 따르면, 단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 4:1 이하의 비를 가진다.
본 발명의 구현예에 따르면, 단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:0.1-5의 비를 가진다.
본 발명의 구현예에 따르면, 단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:0.25~4의 비를 가진다.
본 발명의 구현예에 따르면, 양성 샘플도 음성 샘플도 시험하고자 하는 염색체 이외의 염색체에 대한 이수성을 가지지 않는다.
본 발명의 구현예에 따르면, 단계 (4)에서, 상기 제1 특징 및 제2 특징을 이용하여 상기 임신 여성 및 대조 샘플들의 2-차원 특징 벡터를 근거하여 결정하고, 샘플들 간의 거리를 상기 2-차원 특징 벡터에 의하여 결정하고, 상기 임신 여성 샘플을 양성 샘플 또는 음성 샘플로 분류하여, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별한다.
본 발명의 구현예에 따르면, 상기 거리는 Euclidean 거리, Manhattan 거리 또는 Chebyshev 거리이다.
본 발명의 구현예에 따르면, 단계 (4)는: (4-1) 상기 임신 여성 샘플과 대조 샘플들 사이의 각각의 거리들을 계산하는 단계; (4-2) 얻어진 거리들을 작은 것에서부터 큰 것의 순서로 분류하는 단계; (4-3) 상기 분류에 근거하여 소정의 수의 대조 샘플들을 작은 것에서부터 큰 것의 순서로 선택하는 단계; (4-4) 상기 소정의 수의 대조 샘플들 내에 양성 샘플의 수 및 음성 샘플의 수 각각을 결정하는 단계; (4-5) 다수결에 근거하여 상기 임신 여성 샘플의 분류 결과를 판별하는 단계를 더 포함한다.
본 발명의 구현예에 따르면, 상기 소정의 수는 20을 초과하지 않는다.
본 발명의 구현예에 따르면, 상기 소정의 수는 3 내지 10이다.
본 발명의 구현예에 따르면, 단계 (4-2)에서, 상기 분류 수행 전에 시험하고자 하는 샘플과 소정의 대조 샘플들 사이의 거리들이 미리 가중된다(weighted).
본 발명의 제2 측면에서, 본 발명은 태아의 염색체 이수성을 판별하기 위한 장치를 제공하며, 상기 장치는: 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하도록 구성되는, 데이터 수집 모듈 - 여기서, 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성됨; 상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하도록 구성되는, 태아 비율-추정 비율 결정 모듈 - 여기서, 상기 소정의 염색체에 의한 추정 비율은 상기 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 태아 비율 간의 차이에 근거하여 제2 특징을 결정하도록 구성되는, 특징 결정 모듈; 및 대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여, 상기 임신 여성의 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별하도록 구성되는, 이수성 결정 모듈 - 여기서, 상기 대조 샘플을 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음;을 포함한다. 본 발명의 구현예에 따른 태아의 염색체 이수성 판별 장치를 사용함으로써, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행될 수 있으며, 따라서, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 일 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되고, 따라서, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 상당히 감소되는 것으로 발견된다.
본 발명의 구현예에 따르면, 상기 장치는 또한 다음과 같은 추가적인 기술적 특징을 가질 수 있다:
본 발명의 구현예에 따르면, 상기 태아 비율 - 추정 비율 결정 모듈은: 상기 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열과 정렬하여, 소정의 창 내에 들어오는 시퀀싱 리드의 수를 결정하도록 구성되는, 정렬 유닛; 및 상기 소정의 창 내에 들어오는 시퀀싱 리드의 수에 근거하여 상기 임신 여성 샘플로부터의 태아 비율을 결정하도록 구성되는, 태아 비율 계산 유닛을 포함한다.
본 발명의 구현예에 따르면, 상기 태아 비율 - 추정 비율 결정 모듈은: 다음 식에 따라 상기 추정 비율을 결정하도록 구성되는, 추정 비율 계산 유닛을 포함한다:
Figure pct00005
(상기 식에서,
j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
Fj는 염색체 j에 의한 추정 비율을 나타내고,
Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
Rj는 염색체 j의 시퀀싱 리드의 수를 나타냄).
본 발명의 구현예에 따르면, 상기 태아 비율 - 추정 비율 결정 모듈은: 다수의 상염색체에 의한 추정 비율을 작은 것에서부터 큰 것의 우선 순서로 분류하고, 분류된 상염색체로부터의 표적 상염색체를 제2 비교 염색체로 선택하도록 구성되는, 제2 비교 염색체 결정 유닛을 포함한다.
본 발명의 구현예에 따르면, 상기 특징 결정 모듈은: 다음 식에 의하여 제1 특징을 결정하도록 구성되는 제1 특징 결정 유닛을 포함한다:
Figure pct00006
(상기 식에서,
X 1 은 제1 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타냄).
본 발명의 구현예에 따르면, 상기 특징 결정 모듈은: 다음 식에 의하여 제2 특징을 결정하도록 구성되는, 제2 특징 결정 유닛을 포함한다:
Figure pct00007
(상기 식에서,
X 2 는 제2 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fa은 태아 비율을 나타냄).
본 발명의 구현예에 따르면, 상기 특징 결정 모듈은: 상기 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이에 있도록, 상기 제1 특징 및 제2 특징에 대하여 표준화 처리를 수행하도록 구성되는, 표준화 처리 유닛을 포함한다.
본 발명의 구현예에 따르면, 상기 이수성 결정 모듈은 상기 임신 여성 샘플 및 상기 대조 샘플들의 2-차원 특징 벡터를 결정하고, 상기 2-차원 특징 벡터에 근거하여 샘플들 간의 거리를 결정하고, 상기 임신 여성 샘플을 양성 샘플 또는 음성 샘플로 분류하여, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별하도록 구성된다.
본 발명의 구현예에 따르면, 상기 거리는 Euclidean 거리, Manhattan 거리 또는 Chebyshev 거리이다.
본 발명의 구현예에 따르면, 상기 이수성 결정 모듈은 k-최근접 이웃 모델(k-nearest neighbor model)을 사용함으로써 상기 임신한 여성 샘플의 분류 결과를 판별하도록 구성된다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델은 20 이하의 k 값을 채택한다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델은 3 내지 10의 k 값을 채택한다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델에서, 샘플들 간 거리가 가중된다(weighted).
본 발명의 제3 측면에서, 본 발명은 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 전술한 태아의 염색체 이수성 판별 방법의 단계들이 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체를 제공한다. 따라서, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행되어, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되고, 따라서, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 상당히 감소하는 것으로 발견된다.
본 발명의 제4 측면에서, 본 발명은: 전술한 따른 컴퓨터 판독 가능 저작 매체; 및 상기 컴퓨터 판독 가능 저장 매체 상에서 프로그램을 실행하도록 구성되는, 하나 이상의 프로세서를 포함하는, 전자 장치를 제공한다. 따라서, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행되어, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되고, 따라서, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 상당히 감소되는 것으로 발견된다.
본 발명의 제5 측면에서, 본 발명은: 기계 학습 분류 모델(machine learning classification model)을 구성하는 방법을 제공한다. 본 발명의 구현예에 따르면, 상기 방법은: (a) 다수의 임신 여성 샘플들 각각에 대하여 다음 단계들을 수행하는 단계: 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음; 상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 및 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계; (b) 다수의 임신 여성 샘플들을 샘플들로 취하고 상기 제1 특징 및 제2 특징을 사용하여 기계 학습 훈련을 수행하여, 태아가 이수성을 가지는지 여부를 판별하기 위한 기계 학습 분류 모델을 구성하는 단계;를 포함한다. 상기 방법을 사용함으로써, 본 발명의 구현예에 따라, 기계적 학습 분류 모델이 효과적으로 구성되어, 특정 염색체에 대한 염색체 이수성을 판별하기 위하여 알려지지 않은 샘플들을 확인 및 분류하는데 상기 분류 모델이 추가로 사용될 수 있다.
본 발명의 구현예에 따르면, 상기 기계 학습 분류 모델은 k-최근접 이웃(KNN) 모델이다.
본 발명의 구현예에 따르면, 상기 KNN 모델은 Euclidean 거리를 채택한다.
본 발명의 제6 측면에 따르면, 본 발명은 기계 학습 분류 모델을 구성하기 위한 장치를 제공하며, 상기 장치는: 다수의 임신 여성 샘플 각각에 대하여 다음 단계들을 수행하도록 구성되는 특징 수집 모듈: 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음; 상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계; 태아가 이수성을 가지는지 여부를 판별하기 위한 기계 학습 분류 모델을 구성하기 위하여, 다수의 임신 여성 샘플을 샘플들로 취하여 기계 학습 훈련을 수행하도록 구성되는, 훈련 모델을 포함한다. 상기 장치를 사용함으로써, 전술한 기계 학습 분류 모델 구성 방법이 효과적으로 실행되어 기계 학습 분류 모델을 효과적으로 구성하여, 특정 염색체에 대한 염색체 이수성 여부를 판별하기 위하여 알려지지 않은 샘플들을 확인 및 분류하는데 분류 모델이 추가로 사용될 수 있다.
본 발명의 구현예에 따르면, 상기 기계 학습 분류 모델은 KNN 모델이다.
본 발명의 제7 측면에 따르면, 본 발명은: 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 전술한 기계 학습 분류 방법 구성을 위한 단계들 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체를 제공한다.
본 발명의 추가적인 측면들 및 이점들이 이하 부분적으로 제공될 것이고, 부분적으로는 다음의 상세한 설명으로부터 명백하여지거나, 또는 본 발명의 실행을 통하여 이해될 것이다.
본 발명의 전술한 및/또는 추가적인 측면들 및 이점들이 첨부 도면과 함께 구현예들의 상세한 설명으로부터 명백해지고 쉽게 이해될 것이다.
도 1은 본 발명의 구현예에 따른 태아의 염색체 이수성 판별 방법의 개략적인 흐름도를 도시한다.
도 2는 본 발명의 구현예에 따른 태아 비율 결정 방법의 개략적 흐름도를 도시한다.
도 3은 본 발명의 구현예에 따른 임신 여성 샘플 분류 방법의 개략적인 흐름도를 도시한다.
도 4는 본 발명의 구현예에 따른 태아의 염색체 이수성 판별 장치의 블록 선도를 도시한다.
도 5는 본 발명의 구현예에 따른 태아 비율-추정 비율 결정 모듈의 블록 선도를 도시한다.
도 6은 본 발명의 구현예에 따른 특징 결정 모듈의 블록 선도를 도시한다.
도 7은 본 발명의 구현예에 따른 기계 학습 분류 모델을 구성하는 블록 선도를 도시한다.
도 8 및 9는 본 발명의 구현예에 따라 T21 검출을 위하여 KNN 모델 사용시 파라미터 k에 대응하는 ROC 곡선을 도시한다.
도 10 및 11은 본 발명의 구현예에 따라 T18 검출을 위하여 KNN 모델 사용시 파라미터 k에 대응하는 ROC 곡선을 도시한다.
도 12 및 13은 본 발명의 구현예에 따라 T13 검출을 위하여 KNN 모델 사용시 파라미터 k에 대응하는 ROC 곡선을 도시한다.
본 발명의 구현예들을 이하 상세히 설명한다. 후술하는 구현예들은 예시적인 것으로, 본 발명을 설명하기 위해서만 사용되며, 본 발명을 제한하는 것으로 이해되지 않아야 한다. 본원은 많은 일반적인 또는 특수 컴퓨팅 장치 환경 또는 구성에서 사용될 수 있음을 주목하여야 한다. 예를 들어: 개인용 컴퓨터, 서버 컴퓨터, 소형(handheld) 또는 휴대용 기기, 태블릿 기기, 멀티 프로세서 기기, 상기 기구 또는 기기들 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등. 본원은 프로그램 모듈과 같은, 컴퓨터에 의하여 실행되는 컴퓨터-실행 가능 명령어들의 일반적 문맥으로 기재될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 테이터형을 실행하는, 루틴(routines), 프로그램(programs), 개체(objects), 컴포넌트(components), 데이터 구조(data structures) 등을 포함한다. 이러한 분산 컴퓨팅 환경에서, 통신망을 통한 원격 처리 장치에 의하여 태스크가 수행된다. 이러한 분산 컴퓨터 환경에서, 프로그램 모듈은 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 내에 저장될 수 있다.
본 발명의 일 측면에 따르면, 본 발명은 태아의 염색체 이수성 판별 방법을 제공한다. 본 발명의 구현예에 따른 태아의 염색체 이수성 판별 방법은 도 1 내지 3을 참조로 하여 상세히 기재된다.
도 1을 참조로 하면, 본 발명의 구현예에 따르면, 태아의 염색체 이수성 판별 방법은 다음 단계들을 포함한다:
S100: 임신 여성 샘플로부터 핵산 시퀀싱 데이터 수집
본 발명의 구현예에 따르면, 이 단계에서, 핵산 시퀀싱 데이터가 태아 유리 핵산을 함유하는 임신 여성 샘플로부터 먼저 수집된다. 예를 들어, 본 발명의 구현예에 따르면, 사용 가능한 임신 여성 샘플은 이에 제한되지 않으나, 임신 여성의 말초 혈액을 포함한다. 앞서 언급한 바와 같이, Dennis Lo et al.은 산모 혈장 및 혈청 내 비-세포 유리 태아 DNA가 있어, 비침습성 산전 검사(NIPT)를 위한 새로운 아이디어를 제공함을 발견하였다. 임신 여성의 말초 혈액을 사용함으로써, 임신 여성에 트라우마를 야기하지 않을 것이며 샘플링으로 인한 유산 위험을 피할 것이다. 본 발명의 구현예에 따르면, 임신 여성의 말초 혈액과 같은 임신 여성 샘플을 수집할 때, 그러한 샘플에 대하여 핵산 시퀀싱을 수행하여 임신 여성 샘플의 핵산 시퀀싱 데이터를 얻을 수 있다. 일반적으로, 핵산 시퀀싱 데이터는 다수의 또는 많은 시퀀싱 리드(sequencing reads)로 구성된다. 본 발명의 구현예에 따르면, 임신 여성 샘플의 핵산 분자를 시퀀싱하는 방법은 특별히 제한되지 않는다. 구체적으로, 당업자에게 알려진 임의의 시퀀싱 방법, 예를 들어, 이에 제한되지 않으나, 페어드-엔드 시퀀싱, 싱글-엔드 시퀀싱, 엔드-시퀀싱 또는 단일 분자 시퀀싱을 사용하여 임신 여성 샘플의 핵산 분자를 시퀀싱할 수 있다.
당업자는 핵산 시퀀싱 데이터를 수집한 후, 다수의 시퀀싱 리드로 구성되는 수집 시퀀싱 데이터를 품질 조절 표준에 따라 필터링하고 스크리닝하여, 시퀀싱 품질 문제가 있는 시퀀싱 리드를 제거하여, 그 후의 데이터 분석의 정확도를 개선할 수 있음을 이해할 것이다.
S200: 추정 비율(estimated fraction) 및 태아 비율(fetal fraction)의 결정(determination)
임신 여성 샘플로부터의 핵산 시퀀싱 데이터 수집 후, 상기 핵산 시퀀싱 데이터의 시퀀싱 리드의 수를 분석함으로써, 상기 임신 여성 샘플의 태아 비율 및 특정 염색체에 의한 추정 비율을 결정할 수 있다.
본 발명의 구현예에 따르면, 태아 비율은 말초 혈액과 같은 임신 여성 샘플의 유리 핵산 내 총 유리 핵산의 수에 대한 태아로부터의 유리 핵산의 수의 비를 말한다. 대개, 태아 비율의 값은 임신 주 수가 증가할수록 증가할 것이다. 예를 들어, 대략 12 임신 주째에, 총 유리 핵산에 대한 태아 유리 핵산(때때로, "태아 유리 DNA"로 직접적으로 언급함)의 비(즉 "태아 비율")는 10~14%에 달할 수 있으며, 임신 20주째 후, 상기 비는 20% 초과에 도달할 것이다. 태아가 염색체 이수성과 같은 이상 상태를 가질 때, 태아 비율은 비정상일 것이다. 따라서, 태아 비율은 임신 여성 샘플을 특성화하기 위한 중요한 지표로서 사용될 수 있다.
당업자는 다양한 공지의 방법에 의하여 임신 여성 샘플의 태아 비율 데이터를 얻을 수 있다. 예를 들어, 본 발명의 구현예에 따르면, 이에 제한되지 않으나 Y 염색체 추정법, SNP-기반 태아-특이적 SNP 부위법, 및 뉴클레오솜-기반 임프린팅법을 포함하는 방법들을 사용할 수 있다. 그러나, 본 발명의 발명자들은 이러한 방법들이 한계를 가짐을 발견하였다. 예를 들어, Y 염색체 추정법은 여성 태아에 적합하지 않고, SNP-기반 태아-특이적 SNP 부위법은 아버지의 DNA 샘플을 얻을 필요가 있고(때때로 이러한 샘플은 얻기 어려울 수 있다), 뉴클레오솜-기반 임프린팅법은 정확도가 좋지 않고 모델 구성시 딥 시퀀싱을 수행할 필요가 있다.
도 2를 참조로 하면, 본 발명의 구현예에 따르면, 핵산 샘플의 태아 비율은 다음 단계들을 통하여 결정될 수 있다:
S210: 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열과 비교하여 소정의 창(window) 내에 들어오는 시퀀싱 리드들의 수를 결정하는 단계; 및
S220: 상기 소정의 창 내에 들어오는 시퀀싱 리드들의 수에 근거하여 임신 여성 샘플의 태아 비율을 결정하는 단계.
상기 태아 비율 결정 방법은 태아 비율과 양의 상관 관계가 있는, 특정 창 내 시퀀싱 리드들(즉, 특정 길이의 핵산 서열)의 수에 근거한다. 따라서, 적어도 하나의 소정의 창 내 시퀀싱 리드들의 수를 결정함으로써, 임신 여성 샘플의 태아 비율을 역으로, 예를 들어 가중 평균 방식으로 얻을 수 있다. 상기 소정의 창은 통계 또는 기계 학습에 의하여 결정할 수 있다. 본 발명의 구현예에 따르면, 상기 소정의 창은 기준 게놈 서열의 특정 염색체의 연속 구분에 의하여 얻어지며, 각각의 소정의 창의 가중치(weight)는 태아 비율을 결정하는데 더 사용된다. 본 발명의 몇몇 특정 구체적인 실시예에 따르면, 훈련(training) 샘플을 사용함으로써 각각의 소정의 창의 가중치가 미리 결정된다. 따라서, 결과는 정확하고, 신뢰할 수 있고, 반복 가능하다.
본 발명의 구현예에 따르면, 상기 가중치는 능선 회귀 분석 통계 모델(ridge regression statistical model) 및 신경망 모델(neural network model) 중 적어도 하나를 사용하여 결정된다. 본 발명의 일부 구현예에 따르면, 상기 신경망 모델은 TensorFlow 학습 시스템을 채택한다. 본 발명의 일부 구체적인 실시예에 따르면, 상기 TensorFlow 학습 시스템의 파라미터들은 다음을 포함한다: 인풋 층으로서 각각의 창 내 상염색체의 시퀀싱 데이터 수를 채택; 아웃풋 층으로서 태아 비율을 채택, 뉴런 타입으로서 ReLU를 채택; Adam, SGD 및 FTRL로부터 선택되는 적어도 하나의 최적화 알고리즘, 바람직하게 FTRL을 채택. 바람직하게, 상기 TensorFlow 학습 시스템의 파라미터들은 다음을 더 포함한다: 학습률은 0.002로 설정되고; 히든 레이어의 수는 1이고; 히든 레이어 내 뉴런의 수는 200이다. 이에 따라, 결과는 정확하고 신뢰할 수 있다. 문맥상 용어 "가중치"는 지표에 대한 상대적 개념임에 주목하여야 한다. 지표의 가중치는 전체 평가에서 그 지표의 상대적 중요성을 나타낸다. 예를 들어, 특정 "소정의 창 가중치"는 모든 소정의 창들 중 특정 소정의 창의 상대적 중요성을 말한다. 특정 "연결 가중치(connection weight)"는 두 개의 상이한 레이어 사이의 모든 연결 중 두 개의 상이한 레이어들 사이의 그 연결의 상대적 중요성을 말한다.
태아 비율 결정 방법에 대하여, PCT/CN2018/07204 (발명의 명칭: 생물학적 표본 내 소정의 기원의 유리 핵산의 비율을 결정하기 위한 방법 및 장치)에서 상세히 설명하고 있으므로, 본원에서 반복하지 않을 것이며, 상기 특허 출원의 전문이 본원에 참조로 포함된다. 상기 방법은 태아 비율 데이터를 간단하고 신속하고 정확히 수집하는데 사용될 수 있다. 동시에, 수집한 태아 비율 데이터는 본 발명의 방법에 더 효과적으로 적용되어 태아의 염색체 이수성을 판별할 수 있다.
또한, 임신 여성 샘플로부터 핵산 시퀀싱 데이터 수집 후, 태아 비율뿐 아니라 소정의 염색체에 의한 추정 비율 또한 추가로 결정될 수 있다.
본원에서 문맥상 용어 "추정 비율"은 특정 염색체의 DNA 함량 및 정상적인 염색체의 DNA 함량 간의 차이를 특징짓는 수단을 의미한다. 구체적으로, 이는 특정 염색체의 시퀀싱 리드의 수 및 정상적인 염색체의 시퀀싱 리드의 수 간의 차이로 나타낼 수 있다. 예를 들어, 이상적인 상태에서, 삼염색체성(trisomy)을 가지는 염색체에 대한 추정 비율은 하나의 추가 염색체의 DNA 함량을 나타내는 양인 반면, 정상 염색체의 추정 비율은 추가 염색체가 없으므로 0이다.
본원은 염색체 이수성의 분석에 주력하므로, 문맥상 용어 "정상 염색체"는 염색체 이수성이 없는 염색체를 말하며, 염색체가 다른 이상을 가지지 않음을 의미하지 않는다.
또한, "정상 염색체의 시퀀싱 리드의 수", "특정 염색체의 시퀀싱 리드의 수", "소정의 페어 내에 들어오는 시퀀싱 리드의 수" 등과 같은, 본원에서 언급되는 표현 "~의 시퀀싱 리드의 수"는 그 영역과 매칭될 수 있는 시퀀싱 리드들의 수를 말한다. 예를 들어, SOAP와 같은 통상적인 소프트웨어를 사용하여 핵산 시퀀싱 결과를 hg19와 같은 표준 서열과 정렬할 때, 특정 영역으로 매핑될 수 있는 시퀀싱 리드는 그 영역의 시퀀싱 리드로 간주된다. 또한, 본 발명의 구현예에 따르면, "고유하게 매핑된 시퀀싱 리드(uniquely mapped sequencing read)"만을 특정 영역 내에 들어오는 시퀀싱 리드, 즉 표준 서열의 한 위치에만 매핑될 수 있는 시퀀싱 리드로서 선택할 수 있다. 나아가, 시퀀싱 중 시퀀싱 장치 상에 GC 함량과 같은 특정 인자의 영향에 의하여 야기되는 극단적인 바이어스(tendentious bias)를 고려할 때, 수집된 시퀀싱 리드의 수는 보정, 예를 들어 GC 함량에 의하여 보정될 수 있다. 구체적으로, 예를 들어, 본 발명의 구현예에 따르면, 보정된 시퀀싱 리드의 수를 결정하는 단계는:
인간 게놈(GRCh37)과 같은 표준 서열을 다수의 창들로 구분하고, bwa (0.7.7-r441)를 사용하여 하이 스루풋 시퀀싱 리드를 인간 표준 게놈(GRCh37)과 정렬하고, 시퀀싱 리드가 각각의 염색체의 각각의 창에 매핑되는 정보, 즉 각각의 창 내 시퀀싱의 수를 카운트를 하고, i-번째 창 내 시퀀싱 리드의 수를
Figure pct00008
로 기록하고, i-번째 창 내 기준 게놈의 GC 함량을
Figure pct00009
로 기록하고; 각각의 창에 대한 시퀀싱 리드의 수 및 GC 함량을 피팅하고, 피팅 계수에 근거하여 본래 창 내 시퀀싱 리드의 수를 보정하고, i-번째 창 내 GC 보정 후 효과적인 시퀀스 수를
Figure pct00010
로 기록하는 단계를 포함한다.
이에 따라, 고유하게 매핑된 시퀀싱 리드를 선택하고 GC 함량 보정 처리를 수행함으로써, 하이 스루풋 시퀀싱 데이터의 정확도 및 정밀도를 효과적으로 개선할 수 있다.
앞서 언급한 바와 같이, "추정 비율"은 특정 염색체의 DNA 함량과 정상 염색체의 DNA 함량 간의 차이를 특징짓는 수단이다. 따라서, 추정 비율은 임신 여성 샘플을 특성화하기 위한 중요한 지표로서 사용될 수 있다. 본 발명의 구현예에 따르면, 상기 추정 비율은 소정의 염색체의 시퀀싱 리드의 수와 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정된다.
본원에 사용되는 용어 "소정의 염색체(predetermined chromosome)"는 시험하고자 하는 염색체, 즉 그에 대한 이수성이 확인될 필요가 있는 염색체를 포함한다. 또한, 상기 소정의 염색체는 제2 비교 염색체를 포함한다. 본 발명의 구현예에 따르면, 상기 제2 비교 염색체는 적어도 하나의 상염색체를 포함한다. 시험하고자 하는 염색체 및 제2 비교 염색체 각각에 대하여 염색체에 상응하는 추정 비율이 각각 얻어질 수 있도록, 상기 추정 비율은 각각의 소정의 염색체에 대하여 따로따로 계산됨을 주목하여야 한다. 또한, 시험하고자 하는 염색체뿐 아니라 상기 제1 비교 염색체 및 제2 비교 염색체 또한 다른 분석용 샘플로부터의 데이터를 이용하지 않고 동일한 샘플로부터 유래됨을 주목하여야 한다.
본 발명의 구현예에 따르면, 상기 제2 비교 염색체는 적어도 10 상염색체를 포함한다. 본 발명의 구현예에 따르면, 상기 제2 비교 염색체는 15 상염색체를 포함한다. 또한, 앞서 언급한 바와 같이, 상기 추정 비율은 염색체 이상을 특징짓는 지표로서 사용될 수 있다. 따라서, 상기 제2 비교 염색체는 상기 추정 비율을 사용하여 선택될 수 있다. 본 발명의 구현예에 따르면, 다수의 상염색체에 의한 추정 비율을 결정하고, 분류된 상염색체로부터의 표적 상염색체를 작은 것에서부터 큰 것의 우선 순서에 따라 제2 비교 염색체로 선택하는 단계를 더 포함한다. 상기한 바에 따르면, 추정 비율이 작을수록, 염색체가 정상 염색체일 가능성이 더 높다. 예를 들어, 모든 상염색체 각각에 의한 추정 비율(절대 추정 비율의 절대값을 이용할 수 있다)을 작은 것에서부터 큰 것으로 분류함으로써, 더 작은 추정 비율을 가지는 탑 15 상염색체들을 제2 비교 염색체로서 선택할 수 있다. 따라서, 불특정 염색체 이수성 상태의 전제 하에, 적합한 상염색체를 제2 비교 염색체로서 선택할 수 있다. 분명히, 당업자는 염색체 수 이상 여부를 경험을 통하여 결정할 수 있음을 이해할 것이다. 예를 들어, 일부 염색체는 거의 이수성을 가지지 않음을 통계 분석을 통하여 발견할 수 있으므로, 이들 염색체는 제2 비교 염색체로서 간주될 수 있다.
또한, 제1 비교 염색체에 대하여, 상기한 바와 같이, 추정 비율은 특징적 염색체와 정상 염색체 간의 차이를 특징짓기 위한 것이다. 따라서, 본 발명의 구현예에 따르면, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함한다. 본원에 언급되는 제1 비교 염색체 및 제2 비교 염색체는 중복될 수 있음을 주목하여야 한다. 구체적으로, 추정 비율 계산시, 특정 염색체는 소정의 염색체들로부터 선택될 것이며, 따라서, 나머지 염색체들이 "제2 비교 염색체"의 의미에 포함되더라도, 이들은 여전히 "소정의 염색체와 다른 상염색체"의 개념에 속한다. 예를 들어, 염색체 23이 시험하고자 하는 염색체로서 선택되고 염색체 2 내지 5가 제2 비교 염색체로서 사용되는 경우, 염색체 2 내지 5는 여전히 제1 비교 염색체로서 사용될 수 있다. 또한, 본 발명의 구현예에 따르면, 상기 제1 비교 염색체는 다수의 상염색체를 포함할 수 있고, 상기 추정 비율 계산을 위하여 그의 시퀀싱 리드의 평균 수가 선택될 수 있다. 이러한 방식으로, 시퀀싱 데이터 분석의 효율성 및 정확성을 더 개선할 수 있다. 본 발명의 구현예에 따르면, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 다수의 상염색체의 시퀀싱 리드들의 평균 수이고, 상기 다수의 상염색체는 이수성을 가지지 않는 것으로 알려진 적어도 하나의 상염색체를 포함한다. 본 발명의 구현예에 따르면, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 15 상염색체의 시퀀싱 리드의 평균 수이다. 임의로, 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 20 상염색체의 시퀀싱 리드의 평균 수이다. 임의로, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 모든 상염색체의 시퀀싱 리드의 평균 수이다. 이러한 방식으로, 다수의 염색체에 대한 시퀀싱 리드의 평균 수를 선택함으로써, 염색체들 간의 차이를 제거할 수 있다.
본 발명의 구현예에 따르면, 상기 추정 비율은 다음 식에 따라 결정될 수 있다:
Figure pct00011
상기 식에서,
j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
Fj는 염색체 j에 의한 추정 비율을 나타내고,
Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
Rj는 염색체 j의 시퀀싱 리드의 수를 나타낸다.
본 발명자들은 상기 식에 의하여 계산되는 추정 비율이 그 후의 기계 학습 분류 모델에 효과적으로 적용될 수 있음을 발견하였다.
상기한 바와 같이, 상기 단계에서 결정되는 태아 비율 및 추정 비율은 모두 상이한 정도로 염색체 이수성에 의하여 영향을 받는다. 따라서, 이들 두 파라미터를 그 후의 이수성 검출에 사용할 수 있다.
S300: 제1 특징 및 제2 특징 결정
상기 태아 비율 및 추정 비율을 결정한 후, 이들 파라미터를 샘플의 특징 값으로서 더 사용하여, 분석을 기계 학습을 이용하여 수행할 수 있다.
구체적으로 본 발명의 구현예에 따르면, 상기 제1 특징은 시험하고자 하는 염색체에 의한 추정 비율과 제2 비교 염색체에 의한 추정 비율 간의 차이에 의하여 결정되고, 상기 제2 특징은 앞서 결정된 시험하고자 하는 염색체에 의한 추정 비율과 태아 비율 간의 차이에 의하여 결정된다. 이에 따라, 얻어진 제1 특징 및 제2 특징은 이수성에 의하여 영향을 받을 수 있는 특징들로 간주될 수 있으므로, 그 후의 분석에 효과적으로 적용될 수 있다. 본 발명의 구현예에 따르면, 당업자는 예를 들어 값 차이(value difference), 값 비율(value ratio) 등을 계산함으로써, 상기 차이점을 특징 짓기 위하여 다양한 알고리즘을 사용할 수 있다.
상기한 바와 같이, 제2 비교 염색체에 의한 추정 비율은 바람직하게 다수의 상염색체에 의한 평균 추정 비율이다. 그 결과, 분석의 효율성 및 정확성을 더 개선할 수 있다.
또한, 본 발명의 구현예에 따르면, 상기 제1 특징은 다음 식에 의하여 결정된다:
Figure pct00012
상기 식에서,
X 1 은 제1 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타낸다.
또한, 본 발명의 구현예에 따르면, 상기 제2 특징은 다음 식에 의하여 결정된다:
Figure pct00013
상기 식에서,
X 2 는 제2 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fa은 태아 비율을 나타낸다.
본 발명의 구현예에 따르면, 이와 같이 하여 얻어진 제1 특징 및 제2 특징은 각각 채택되는 차이를 반영할 수 있으며, 나아가 얻어지는 값들은 모두 동일 자릿수(order of magnitude)이므로, 단일 파라미터가 분석 결과에 과도하게 영향을 미치는 상황을 피한다. 특징 선택이 부적절한 경우, 그 후의 분석 결과에서 편향(biases)이 나타날 수 있다. 예를 들어, K 모델에서, 샘플들 간의 거리는 샘플의 특징에 따라 계산되어야 한다 (예를 들어, 샘플
Figure pct00014
의 특징이
Figure pct00015
인 경우, 샘플
Figure pct00016
의 특징은
Figure pct00017
이고, 그렇다면 샘플
Figure pct00018
Figure pct00019
간의 거리는
Figure pct00020
이고; 두 샘플들 간의 특징 값이 극히 다른 경우, 예를 들어, 상기 거리가
Figure pct00021
인 경우, 2-차원 특징들이 동등하게 중요하나 두번째 차원 특징이 거리에 대하여 더 큰 영향을 미칠 것임이 분명하다.
이러한 영향을 제거하기 위하여, 본 발명의 구현예에 따르면, 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이가 되도록, 이와 같이 하여 얻어진 제1 특징 및 제2 특징을 그 후의 단계들 전에 표준화한다. 본 발명의 구현예에 따르면, 제1 특징 및 제2 특징을 표준화하는 방법은 특히 제한되지 않는다. 구체적으로 다음 방법을 사용하여, 다음 식에 따라 동일 차원(dimension)의 데이터 배치(이들 모두 제1 특징 또는 제2 특징임)를 처리할 수 있다:
Figure pct00022
상기 식에서, min 및 max는 데이터 배치의 최소 및 최대값이고, oldvalue는 처리 전 값을 나타내고, newvalue는 표준화 처리 후 값을 나타낸다.
그 결과, 최종 분석 결과에 대한 특정 특징의 과도한 영향을 제거하고 분석 결과의 정확성을 개선할 수 있다.
S400: 제1 특징 및 제2 특징에 근거한 이수성 판별
상기한 바와 같이, 제1 특징 및 제2 특징 값들 모두 이수성에 의하여 영향을 받는다. 따라서, 제1 특징 및 제2 특징을 얻은 후, 상응하는 대조 샘플의 데이터를 사용하여 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별한다. 구체적으로, 대조 샘플은 양성 샘플 및 음성 샘플을 포함한다. 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않는다.
제1 특징 및 제2 특징을 분류 특징으로 사용하고, 시험하고자 하는 샘플을 시험하고자 하는 염색체에 대한 양성 샘플 또는 음성 샘플로 분류함으로써, 시험하고자 하는 염색체가 이수성을 가지는지 여부의 판별을 달성할 수 있다. 본 발명의 구현예에 따르면, 발명자들은 연구 과정에서, 양성 샘플의 수 및 음성 샘플의 수가 특정 비일 때 분석의 정확도가 더 개선될 것임을 발견하였다. 예를 들어, 본 발명의 구현예에 따르면, 양성 샘플의 수 대 음성 샘플의 수의 비는 1:4 이상이다. 본 발명의 구현예에 따르면, 양성 샘플의 수 대 음성 샘플의 수의 비는 4:1 이하이다. 본 발명의 구현예에 따르면, 양성 샘플의 수 대 음성 샘플의 수의 비는 1:0.1-5이다. 본 발명의 구현예에 따르면, 양성 샘플의 수 대 음성 샘플의 수의 비는 1:0.25~4이다. 본 발명자들은 상기 비율을 사용함으로써, 모델 결과의 편향(bias)이 피하여질 수 있음을 발견하였다. 본 발명자들은 지나치게 많은 양성 샘플이 있을 경우, 결과는 양성으로 편향될 것, 즉 위양성률이 증가할 것이고, 지나치게 많은 음성 샘플이 있을 경우, 결과는 음성으로 편향될 것, 즉 위음성률이 증가할 것임을 발견하였다.
본 발명의 구현예에 따르면, 양성 샘플도 음성 샘플도 시험하고자 하는 염색체 이외의 염색체에 대한 이수성을 가지지 않는다. 그 결과, 대조 샘플의 분류 기준 능력이 더 개선될 수 있다.
본 발명의 구현예에 따르면, 제1 특징 및 제2 특징을 분류를 위하여 사용하는 방법은 특히 제한되지 않으며, 신경망, SVM 법 등과 같은 다양한 기계 학습법을 사용할 수 있다. 심층 연구 동안, 본 발명자들은 신경망에 의하여 요구되는 훈련 세트들의 수가 비교적 크고, SVM은 분류 정확성 개선을 위하여 분류를 위한 추가적인 파라미터들을 요할 것임을 발견하였다. 본 발명의 구현예에 따르면, 제1 특징 및 제2 특징을 사용하여 임신 여성 샘플 및 대조 샘플의 2-차원 특징 벡터를 결정할 수 있고, 상기 샘플들 간의 거리는 2-차원 특징 벡터에 의하여 결정되고, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별하도록 상기 임신 여성 샘플이 양성 샘플 또는 음성 샘플로 분류된다. 본 발명의 구현예에 따르면, 사용되는 거리는 이에 제한되지 않으나, Euclidean 거리, Manhattan 거리, 또는 Chebyshev 거리를 포함한다.
구체적으로, 본 발명의 구현예에 따르면, k-최근접 이웃(KNN) 모델을 분류 분석에 사용할 수 있다. 이해를 돕기 위하여, KNN 모델 프로세스를 도 3을 참조로 하여 이하 간략히 기재한다:
본 발명의 구현예에 따르면, 분류 처리는 다음 단계를 포함한다:
S410: 임신 여성 샘플 및 대조 샘플들 각각 사이의 거리를 각각 계산;
S420: 얻어진 거리들을 분류 - 상기 분류는 작은 것으로부터 큰 것의 순서에 근거함;
S430: 얻어진 분류에 근거하여, 소정의 수의 대조 샘플들을 작은 것으로부터 큰 것으로 선택 (이러한 소정의 수는 KNN 모델 내 k 값임);
S440: 얻어진 소정의 수의 대조 샘플들 내 양성 샘플의 수 및 음성 샘플의 수를 각각 결정;
S450: 다수결 방법에 근거하여 임신 여성 샘플의 분류 결과를 판별.
본 발명의 구현예에 따르면, 상기 소정의 수는 20 이하이다. 본 발명의 구현예에 따르면, 상기 소정의 수는 3 내지 10이다. 처리를 용이하게 하기 위하여, 결정이 이루어질 수 없는 상황을 피하도록 상기 k 값은 홀수일 수 있다. 물론, 당업자는 상이한 시험하고자 하는 염색체에 대하여 최종적으로 선택되는 k 값이 다를 수 있음을 이해할 것이다. 예를 들어, 본 발명의 구현예에 따르면, T13 및 T18 검출을 위하여 최종 선택되는 k 값은 7이고, T21 검출을 위하여 최종 선택되는 k 값은 9이다.
또한, 본 발명의 구현예에 따르면, 시험하고자 하는 샘플과 소정의 대조 샘플들 간의 거리는 분류 전 미리 가중될 수 있다. 따라서, 검출의 정확도가 더 개선될 수 있다.
당업자는 이러한 가중 처리의 가중 계수 또는 KNN 모델의 k 값이 훈련을 위한 훈련 세트로서 공지의 샘플을 이용하여 기계 학습을 통하여 얻어질 수 있음을 이해할 것이다.
구체적으로, 본 발명의 구현예에 따르면, 이는 다음 단계들을 통하여 수행될 수 있다:
A. 샘플 세트의 선택
재방문(return visit) 결과를 가지는 샘플들을 샘플 세트로 선택하고, 훈련 세트, 시험 세트 및 검증 세트로 6:2:2로 구분한다.
B. 모델 훈련
모델 인풋: k 값; 훈련 데이터 세트
Figure pct00023
, 여기서
Figure pct00024
는 샘플의 n-차원 특징 벡터이고;
Figure pct00025
는 샘플의 음성 또는 양성 표지이고(-1은 음성, +1은 양성을 나타냄), N은 샘플 세트의 크기이다.
모델 아웃풋: 샘플 x가 속하는 카테고리 y
C. 모델 검증
초기화(Initialization) k = 1, k 값은 모델의 예측 능력이 우수한 정확도를 보일 때까지 검증 세트(교차 검증 또는 격자 탐색과 같은 방법을 사용할 수 있음)에 근거하여 연속 조정된다.
D. 모델 예측
훈련된 모델을 사용하여 시험 세트에 대한 예측을 행하여 모델의 예측 성능을 평가한다.
이에 따라, 상기 방법은 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 상기 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되어, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 현저히 감소된다.
본 발명의 제2 측면에서, 전술한 방법에 상응하여, 본 발명의 구현예는 전술한 방법을 실행하기 위한 장치를 또한 제공한다. 구체적으로, 본 발명은 태아의 염색체 이수성을 판별하기 위한 장치를 제공한다. 도 4를 참조로 하여, 태아의 염색체 이수성 판별 장치는:
임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하도록 구성되는, 데이터 수집 모듈(100) - 여기서, 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성됨;
상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하도록 구성되는, 태아 비율-추정 비율 결정 모듈(200) - 여기서, 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함;
상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 태아 비율 간의 차이에 근거하여 제2 특징을 결정하도록 구성되는, 특징 결정 모듈(300); 및
대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여, 상기 임신한 여성의 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별하도록 구성되는, 이수성 결정 모듈(400) - 여기서, 상기 대조 샘플을 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음,
을 포함한다.
본 발명의 구현예에 따른 태아의 염색체 이수성 판별 장치를 사용함으로써, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행될 수 있으며, 이에 따라 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드의 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되어, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 현저히 감소되는 것으로 발견된다.
도 5를 참조로 하면, 본 발명의 구현예에 따르면, 태아 비율-추정 비율 결정 모듈(200)은:
상기 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열과 비교하여, 소정의 창 내에 들어오는 시퀀싱 리드의 수를 결정하도록 구성되는, 비교 유닛(210); 및
상기 소정의 창 내에 들어오는 시퀀싱 리드의 수에 근거하여 상기 임신 여성 샘플로부터의 태아 비율을 결정하도록 구성되는, 태아 비율 계산 유닛(220)
을 포함한다.
본 발명의 구현예에 따르면, 태아 비율-추정 비율 결정 모듈(200)은:
다음 식에 따라 상기 추정 비율을 결정하도록 구성되는, 추정 비율 계산 유닛(230):
Figure pct00026
(상기 식에서,
j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
Fj는 염색체 j에 의한 추정 비율을 나타내고,
Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
Rj는 염색체 j의 시퀀싱 리드의 수를 나타냄)
을 더 포함한다.
본 발명의 구현예에 따르면, 태아 비율-추정 비율 결정 모듈(200)은:
다수의 상염색체에 의한 추정 비율을 작은 것에서부터 큰 것의 우선 순서로 분류하고, 분류된 상염색체로부터의 표적 상염색체를 제2 비교 염색체로 선택하도록 구성되는, 제2 비교 염색체 결정 유닛(240)을 포함한다.
본 발명의 구현예에 따르면, 상기 특정 결정 모듈(300)은:
다음 식에 의하여 제1 특징을 결정하도록 구성되는 제1 특징 결정 유닛(310):
Figure pct00027
(상기 식에서,
X 1 은 제1 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타냄)
을 포함한다.
본 발명의 구현예에 따르면, 상기 특정 결정 모듈(300)은:
다음 식에 의하여 제2 특징을 결정하도록 구성되는, 제2 특징 결정 유닛(320):
Figure pct00028
(상기 식에서,
X 2 는 제2 특징을 나타내고,
i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
Fa은 태아 비율을 나타냄)
을 더 포함한다.
본 발명의 구현예에 따르면, 상기 특정 결정 모듈(300)은: 상기 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이에 있도록, 상기 제1 특징 및 제2 특징에 대하여 표준화 처리를 수행하도록 구성되는, 표준화 처리 유닛(330)을 포함한다.
본 발명의 구현예에 따르면, 상기 이수성 결정 모듈(400)은 상기 임신 여성 샘플 및 상기 대조 샘플의 2-차원 특징 벡터를 결정하여, 상기 2-차원 특징 벡터에 근거하여 샘플들 간의 거리를 결정하고, 상기 임신 여성 샘플을 양성 샘플 또는 음성 샘플로 분류하여, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 판별하도록 구성된다.
본 발명의 구현예에 따르면, 상기 거리는 Euclidean 거리, Manhattan 거리 또는 Chebyshev 거리이다.
본 발명의 구현예에 따르면, 상기 이수성 결정 모듈은 k-최근접 이웃 모델을 사용함으로써 상기 임신 여성 샘플의 분류 결과를 결정하도록 구성된다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델은 20 이하의 k 값을 채택한다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델은 3 내지 10의 k 값을 채택한다.
본 발명의 구현예에 따르면, 상기 k-최근접 이웃 모델에서, 샘플들 간 거리가 가중된다.
태아의 염색체 이수성 판별 방법에 대하여 앞서 기재한 특징 및 이점들 모두 태아의 염색체 이수성 판별 장치에 적용 가능하며, 따라서 반복되지 않을 것임을 주목하여야 한다.
본 발명의 제3 측면에서, 본 발명은 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 전술한 태아의 염색체 이수성 판별 방법의 단계들이 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체를 제공한다. 따라서, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행되어, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되어, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 현저히 감소되는 것으로 발견된다.
당업자는 태아의 염색체 이수성 판별 방법에 대하여 기재한 특징 및 이점들이 상기 컴퓨터-판독 가능 저장 매체에 적용 가능하며, 따라서 반복되지 않을 것임을 이해할 것이다.
본 발명의 제4 측면에서, 본 발명은 전술한 컴퓨터 판독 가능 저작 매체; 및 상기 컴퓨터 판독 가능 저장 매체 상에서 프로그램을 실행하도록 구성되는, 하나 이상의 프로세서를 포함하는, 전자 장치를 제공한다. 따라서, 전술한 태아의 염색체 이수성 판별 방법이 효과적으로 실행되어, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 효과적으로 판별할 수 있다. 또한, 본 발명의 구현예에 따르면, 본 발명의 방법을 실행하는 과정에서, 종래 기술의 시퀀싱 리드 수에 근거한 역치 설정 전략이 대체되고, 검출 모호 영역이 피하여지고, 샘플 검출 사이클 또한 단축되어, 고객 경험이 개선되고, 시퀀싱 및 검사 비용이 현저히 감소하는 것으로 발견된다. 당업자는 태아의 염색체 이수성 판별 방법에 대하여 기재한 특징 및 이점들이 상기 전자 장치에 적용 가능하며, 따라서 반복되지 않을 것임을 이해할 것이다.
본 발명의 제5 측면에 따르면, 본 발명은 기계 학습 분류 모델을 구성하는 방법을 제공한다. 본 발명의 구현예에 따르면, 상기 방법은:
(a) 다수의 임신 여성 샘플 각각에 대하여 다음 단계들을 수행하는 단계:
임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음;
상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하고 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계;
(b) 다수의 임신 여성 샘플을 샘플로 취하고 상기 제1 특징 및 제2 특징을 사용하여 기계 학습 훈련을 수행하여, 태아가 이수성을 가지는지 여부를 판별하기 위한 기계 학습 분류 모델을 구성하는 단계
를 포함한다.
이러한 방법을 사용함으로써, 본 발명에 따르면, 기계 학습 분류 모델이 효과적으로 구성되어, 특정 염색체에 대한 염색체 이수성 여부를 판별하기 위하여 알려지지 않은 샘플을 확인 및 분류하는데 상기 분류 모델을 추가로 이용할 수 있다. 본 발명의 구현예에 따르면, 상기 기계 학습 분류 모델은 KNN 모델이다. 본 발명의 구현예에 따르면, 상기 KNN 모델은 Euclidean 거리를 채택한다.
당업자는 태아의 염색체 이수성 판별 방법에 대하여 기재한 특징 및 이점들이 상기 모델 구성 방법에 적용 가능하며, 따라서 반복되지 않을 것임을 이해할 것이다.
본 발명의 제6 측면에서, 본 발명은 기계 학습 분류 모델을 구성하기 위한 장치를 제공한다.
도 7을 참조로 하면, 상기 장치는:
다수의 임신 여성 샘플 각각에 대하여 다음 단계들을 수행하도록 구성되는 특징 수집 모듈(800): 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음; 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 및 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계;
태아의 이수성 판별을 위한 기계 학습 분류 모델을 구성하기 위하여, 다수의 임신 여성 샘플을 샘플로 취함으로써 기계 학습 훈련을 수행하도록 구성되는, 훈련 모델(900)을 포함한다. 상기 장치를 사용함으로써, 전술한 기계 학습 분류 모델 구성 방법을 효과적으로 실행하여 기계 학습 분류 모델을 효과적으로 구성하여, 특정 염색체에 대한 염색체 이수성을 판별하기 위하여 알려지지 않은 샘플을 확인 및 분류하는데 상기 분류 모델을 추가로 사용할 수 있다.
본 발명의 구현예에 따르면, 상기 기계 학습 분류 모델은 KNN 모델이다.
상기 장치를 사용함으로써, 본 발명의 구현예에 따르면, 기계 학습 분류 모델을 효과적으로 구성하여, 특정 염색체에 대한 염색체 이수성을 판별하기 위하여 알려지지 않은 샘플을 확인 및 분류하는데 사익 분류 모델을 추가로 사용할 수 있다. 본 발명의 구현예에 따르면, 상기 기계 학습 분류 모델은 KNN 모델이다. 본 발명의 구현예에 따르면, 상기 KNN 모델은 Euclidean 거리를 채택한다.
당업자는 태아의 염색체 이수성 판별 방법에 대하여 기재한 특징 및 이점들이 상기 모델 구성 장치에 적용 가능하며, 따라서 반복하지 않을 것임을 이해할 것이다.
본 발명의 제7 측면에서, 본 발명은 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 전술한 기계 학습 분류 모델 구성 방법의 단계들이 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체를 제공한다. 그 결과, 전술한 기계 학습 분류 모델 구성 방법이 효과적으로 실행되어 기계 학습 분류 모델을 효과적으로 구성하여, 특정 염색체에 대한 염색체 이수성을 판별하기 위하여 알려지지 않은 샘플을 확인 및 분류하는데 상기 분류 모델을 추가로 사용할 수 있다. 당업자는 태아의 염색체 이수성 판별 방법에 대하여 기재한 특징 및 이점들이 상기 모델 구성을 위한 컴퓨터-판독 가능 저장 매체에 적용 가능하며, 따라서 반복되지 않을 것임을 이해할 것이다.
본 발명의 기술적 해결책들을 이하 실시예를 참조로 하여 설명할 것이다. 당업자는 이하 실시예들은 본 발명을 예시하기 위한 것이며 본 발명의 범위를 제한하는 것으로 간주되지 않을 것임을 이해할 것이다. 구체적인 기법 또는 조건을 실시예에 나타내는 경우, 그 절차는 종래 기술 문헌에 기재된 기법 또는 조건에 따라 또는 제품 사양에 따라 수행될 것이다. 구체적인 조건을 실시예에 나타내지 않은 경우, 이는 전형적인 조건 또는 제조업자에 의하여 권고되는 조건에 따라 수행될 것이다. 제조업자가 주어지지 않은 사용 시약 또는 설비들은 모두 시중에서 얻을 수 있는 통상적인 제품들이다.
실시예 1
이 실시예에서, 모델 훈련 및 모델 예측을 BGISEQ-500 플랫폼을 기반으로 2017에서 2018까지 재방문 결과가 있는 3.075 개의 샘플(남성 태아: 1716건, 여성 태아: 1359건, 음성 샘플: 2215건, 염색체 21 삼염색체증 (T21): 637건, 삼염색체 18 (T18): 165건, 삼염색체 13 (T13): 58건)에 근거하여 수행하였다.
먼저, 표준 게놈(reference genom)(GRCh37)을 고정 길이(60K를 이 방법에서 사용)에 따라 인접 창들로 분류하고, N 영역 내 창들을 필터링 아웃하고, 창들 내 GC 함량을 계산함으로써, 표준 창 파일 hg19.gc을 얻었다.
다음, CG 플랫폼에 근거한 SE 시퀀싱 후 서열(35bp)을 표준 게놈(GRCh37)과 정렬하였다(BWA V0.7.7-r441);
필터링 및 예비 통계 분석: 비교 결과에 따라, 고유하게 완전히 매핑된 서열(uniquely completely mapped sequences)을 선별하고, 반복 서열 및 염기 미스매치를 가지는 서열을 제거하여 효과적 서열을 얻은 다음, 각각의 창 내 효과적 서열의 수 및 GC 함량을 hg19.gc 파일 내 창에 따라 카운트하였다.
GC 보정의 단계는 다음과 같았다:
특정 샘플에 대하여, i-번째 창 내 효과 서열들의 수를
Figure pct00029
로 기록하고, 이 창 내 표준 게놈의 GC 함량은
Figure pct00030
로 기록하고 (hg19.gc 파일 내 기록), 상염색체(염색체 1-22)에 대한 모든 창들 내 효과 서열들의 수의 평균을
Figure pct00031
로 기록하였다;
상염색체에 대한 모든 창들 내 효과 서열의 수 및 GC 함량을 사용하여 피팅을 수행함으로써 (이 실시예에서 입방 스플라인 피팅(cubic spline fitting)을 사용하였다), 그들의 관계를 얻었다:
Figure pct00032
;
모든 염색체들의 창들에 대한 보정:
Figure pct00033
; GC 보정 후 i-번째 창 내 효과 서열의 수를
Figure pct00034
로 기록하였다.
각각의 염색체에 의한 추정 비율을 다음 식에 따라 계산하였다:
추정 비율 계산식은 다음과 같았다:
Figure pct00035
j는 염색체의 일련 번호를 나타내고,
Figure pct00036
는 염색체 j의 표준 서열과 매칭된 GC-보정된 시퀀싱 리드의 수를 나타내고,
Figure pct00037
는 모든 상염색체 표준 서열과 매칭된 GC-보정된 시퀀싱 리드들의 평균 수를 나타냈다.
태아 비율을 전형적인 방법에 따라 또는 PCT/CN2018/072045에 개시된 방법에 따라 결정하였다.
KNN 모델 훈련 및 샘플 예측을 샘플 세트에 근거하여 수행하였으며, 구체적인 단계들은 다음과 같았다:
(a) 샘플 세트 구분 및 데이터 사전 처리: 샘플 세트를 훈련 세트, 검증 세트 및 테스트 세트로 6:2:2의 비율로 무작위로 구분하고, 훈련 세트, 검증 세트 및 테스트 세트 샘플에 대하여 각각 데이터 사전 처리를 수행하여, 각각의 샘플이 2-차원 특징 벡터 및 상응하는 표지(-1은 음성, +1은 양성을 나타냄)를 가지도록 하였다.
(b) 하이퍼파라미터 k의 선택: 본 발명자들에 의하여, 더 작은 k 값이 선택된다면, 이는 예측을 위한 더 작은 이웃 내 훈련 샘플 세트를 사용하는 것과 같았으며, 예측 결과는 인접하는 샘플 포인트에 대하여 매우 민감할 것이고, 전체적인 모델은 복잡해지고 오버피팅되기 쉬울 것이며; 더 큰 k 값이 선택된다면, 이는 예측을 위한 더 큰 이웃 내 훈련 샘플 세트를 사용하는 것과 같았으며, 여기서 새로운 인풋 샘플로부터 떨어진 (유사하지 않은) 훈련 샘플 세트 또한 예측 결과에 영향을 미칠 것이고 예측을 잘못되게 할 것이며; 특정 값의 k를 이용하는 제한된 경우, 새로운 인풋 샘플이 어떠한 범주에 속할지라도, 훈련 샘플 세트 내 대부분과 함께 클래스에 속하는 것으로 단순히 예측될 것임이 발견되었다. 따라서, 본 발명의 실행에 있어서, 비교적 작은 값이 일반적으로 k에 대하여 채택되었다.
(c) 모델 훈련: 두 부분을 포함: KNN 모델 훈련 및 k 값 선택. 여기서, Euclidean 거리 및 다수결 원칙이 선택되었다.
KNN 모델 훈련: 분류 결정 함수:
Figure pct00038
여기서,
Figure pct00039
는 n-차원 특징 공간이고, -1 및 +1은 각각 샘플 표지(-1은 음성, +1은 양성을 나타냄)였다. 그렇다면, 오분류 확률은 다음과 같았다:
Figure pct00040
주어진 샘플
Figure pct00041
에 대하여, 최근접 k 이웃 훈련 샘플 포인트들로 구성되는 세트는
Figure pct00042
였다.
Figure pct00043
커버 영역을
Figure pct00044
,로 분류한다면, 오분류 확률은 다음과 같았다:
Figure pct00045
오분류 확률을 최소화하기 위하여,
Figure pct00046
를 최대화하여야 한다. 따라서, k 값 선택 후, 모델 훈련 프로세스는
Figure pct00047
를 최대화하는 프로세스였다.
k 값 선택: 초기화
Figure pct00048
를 수행하고, k 값을 선형 탐색법을 이용하여 검증 세트에 근거하여 결정하였다. 결과를 도 8~13에 도시하며, 여기서 도 8~13은 상응하는 분류자의 영향을 반영하는, 파라미터 k에 대하여 상이한 값들이 선택되었을 때 상응하는 ROC 곡선을 각각 나타내는, ROC 곡선도이며, 평가 표준은 ROC 곡선 하 면적을 나타내는 AUC이고, AUC가 클수록 분류 성능이 더 우수하다. 도 8 및 9는 KNN 모델을 사용하여 6, 7, 8 및 9의 파라미터로 T21을 검출할 때 ROC 곡선을 도시한다. 도 10 및 11은 KNN 모델을 사용하여 6, 7, 8 및 9의 파라미터 k로 T18을 검출할 때 ROC 곡선을 도시한다. 도 12 및 13은 KNN 모델을 사용하여 6, 7, 8 및 9의 파라미터 k로 T13을 검출할 때 ROC 곡선을 도시한다. 도 8 내지 13의 결과에 따르면, T13 및 T18에 대하여 최종 선택된 k는 7이었고, T21에 대하여 최종 선택된 k는 9였다.
(d) 모델 예측: 상기 단계들에서 훈련된 모델에 근거하여, 테스트 세트에 대한 예측을 수행하고, 예측 결과를 다음 표에 나타냈다.
T21 핵형 결과
양성 샘플 크기 음성 샘플 크기
KNN 모델 결과 양성 샘플 크기 122 3
음성 샘플 크기 0 483
T18 핵형 결과
양성 샘플 크기 음성 샘플 크기
KNN 모델 결과 양성 샘플 크기 33 5
음성 샘플 크기 0 570
T13 핵형 결과
양성 샘플 크기 음성 샘플 크기
KNN 모델 결과 양성 샘플 크기 10 6
음성 샘플 크기 0 592
검출의 민감도, 특이도, PPV 및 ACC를 계산하고, 결과를 다음 표에 나타냈다.
민감도 특이도 PPV ACC
T21 100% 99.38% 97.60% 99.51%
T18 100% 99.13% 86.84% 99.18%
T13 100% 99.00% 62.50% 99.01%
2.5 SVM 모델과 비교
동일 훈련 세트, 검증 세트 및 테스트 세트에 근거하여, SVM (서포트 벡터 머신(Support Vector Machine))법을 이용하여 음성 및 양성 샘플을 분류하였다. 결과는 다음과 같았다:
T21 핵형 결과
양성 샘플 크기 음성 샘플 크기
SVM 모델 결과 양성 샘플 크기 122 14
음성 샘플 크기 0 472
T18 핵형 결과
양성 샘플 크기 음성 샘플 크기
SVM 모델 결과 양성 샘플 크기 33 8
음성 샘플 크기 0 567
T13 핵형 결과
양성 샘플 크기 음성 샘플 크기
SVM 모델 결과 양성 샘플 크기 10 8
음성 샘플 크기 0 590
검출 민감도, 특이도, PPV 및 ACC를 계산하고, 결과를 다음 표에 나타냈다.
민감도 특이도 PPV ACC
T21 100% 97.13% 89.71% 97.71%
T18 100% 98.61% 80.49% 98.69%
T13 100% 98.67% 55.56% 98.69%
상기 데이터로부터, KNN 모델도 SVM 모델도 테스트 세트에 대한 T13, T18 및 T21의 검출에서 미검출 오류를 나타내지 않았으며, 100% 민감도를 가졌음을 알 수 있었다. 그러나, T21 검출에서, SVM 모델은 14개의 위양성 샘플을 가진 반면, KNN 모델은 단지 3개의 위양성 샘플만을 가졌고; T18 검출에서, SVM 모델은 8개의 위양성 샘플을 가진 반면, KNN 모델은 단지 5개의 위양성 샘플을 가졌고; T13 테스트에서, SVM 모델은 8개의 위양성 샘플을 가진 반면, KNN 모델은 6개의 위양성 샘플을 가졌다. T21, T18 또는 T13과 상관없이, KNN 모델은 항상 SVM 모델보다 낮은 위양성률을 나타냈다.
본 발명자들의 분석에 따르면, SVM 모델보다 KNN 모델의 더 낮은 위양성률의 주된 이유는: 모델 자체 때문이다, 즉, KNN은 주로 클러스터링(clustering)에 근거하고 많은 리파인드 클러스터(refined clusters)를 가지는 반면, SVM은 단지 두 개의 단순 카테고리만을 가져 상세 수준에서 KNN보다 열등하다.
명세서에서, 용어 "구현예", "일부 구현예", "실시예", "구체적인 실시예" 또는 "일부 실시예" 등에 대한 기재는 그 구현예 또는 실시예와 함께 기재되는 구체적인 특징, 구조, 물질 또는 특성들이 본 발명의 적어도 하나의 구현예 또는 실시예에 포함됨을 의미한다. 명세서에서, 상기 용어들에 대한 개략적인 표현은 반드시 동일 구현예 또는 실시예에 대한 것은 아니다. 나아가, 기재되는 구체적인 특징, 구조, 재료 또는 특성들은 하나 이상의 구현예 또는 실시예들로 적합한 방식으로 조합될 수 있다.
이상에서 본 발명의 실시예를 기재하였으나, 당업자들은 본 발명의 원리 및 목적으로부터 이탈됨이 없이 이들 실시예들에 대한 다양한 변화, 변경, 치환이 행하여질 수 있음을 이해할 수 있을 것이다. 본 발명의 범위는 청구항 및 그 균등물에 의하여 정의된다.

Claims (46)

  1. 태아의 염색체 이수성(chromosomal aneuploidy) 판별 방법으로서, 상기 방법은
    (1) 임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신
    여성 샘플은 태아 유리(fetal free) 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성됨;
    (2) 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함;
    (3) 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계; 및
    (4) 대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 결정하는 단계 - 상기 대조 샘플은 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음,
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 임신 여성 샘플은 임신 여성의 말초 혈액을 포함하는, 방법.
  3. 제1항에 있어서,
    상기 핵산 시퀀싱 데이터는 페어드-엔드 시퀀싱(paired-end sequencing), 싱글-엔드 시퀀싱(single-end sequencing) 또는 단일-분자 시퀀싱(single-molecule sequencing)에 의하여 수득되는, 방법.
  4. 제1항에 있어서,
    상기 태아 비율은 다음 단계에 의하여 결정되는, 방법:
    (a) 상기 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열(reference sequence)과 비교하여, 소정의 창(window) 내에 들어오는 시퀀싱 리드의 수를 결정하는 단계; 및
    (b) 상기 소정의 창 내 들어오는 시퀀싱 리드의 수에 근거하여 상기 임신 여성 샘플의 태아 비율을 결정하는 단계.
  5. 제1항에 있어서,
    단계 (2)에서, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 다수의 상염색체의 시퀀싱 리드의 평균 수이고, 상기 다수의 상염색체는 이수성을 가지지 않는 것으로 알려진 적어도 하나의 상염색체를 포함하는, 방법.
  6. 제5항에 있어서,
    단계 (2)에서, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 15 상염색체의 시퀀싱 리드의 평균 수이고,
    임의로, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 적어도 20 상염색체의 시퀀싱 리드의 평균 수이고,
    임의로, 상기 제1 비교 염색체의 시퀀싱 리드의 수는 모든 상염색체의 시퀀싱 리드의 평균 수인, 방법.
  7. 제5항에 있어서,
    상기 추정 비율은 다음 식에 따라 결정되는, 방법:
    Figure pct00049

    (상기 식에서,
    j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
    Fj는 염색체 j에 의한 추정 비율을 나타내고,
    Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
    Rj는 염색체 j의 시퀀싱 리드의 수를 나타냄).
  8. 제1항에 있어서,
    단계 (2)에서, 상기 제2 비교 염색체는 이수성을 가지지 않는 다수의 상염색체를 포함하고, 단계 (3)에서, 상기 제1 특징은 시험하고자 하는 염색체에 의한 추정 비율 및 제2 비교 염색체에 의한 추정 비율의 평균값 사이의 차이에 근거하여 결정되는, 방법.
  9. 제8항에 있어서,
    상기 제2 비교 염색체는 적어도 10 상염색체를 포함하는, 방법.
  10. 제8항에 있어서,
    상기 제2 비교 염색체는 15 상염색체를 포함하는, 방법.
  11. 제8항에 있어서,
    다수의 상염색체에 의한 추정 비율을 결정하는 단계; 및
    분류된 상염색체로부터의 표적 상염색체를 제2 비교 염색체로서 작은 것에서부터 큰 것의 우선 순위로 선택하는 단계
    를 더 포함하는, 방법.
  12. 제1항에 있어서,
    상기 제1 특징은 다음 식에 의하여 결정되는, 방법:
    Figure pct00050

    (상기 식에서,
    X 1 은 제1 특징을 나타내고,
    i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
    Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
    Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타냄).
  13. 제12항에 있어서,
    상기 제2 특징은 다음 식에 의하여 결정되는, 방법:
    Figure pct00051

    (상기 식에서,
    X 2 는 제2 특징을 나타내고,
    i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
    Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
    Fa은 태아 비율을 나타냄).
  14. 제1항 내지 제13항 중 어느 한 항에 있어서,
    단계 (4)를 수행하기 전에, 상기 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이가 되도록, 상기 제1 특징 및 제2 특징을 표준화하는, 방법.
  15. 제1항에 있어서,
    단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:4 이상의 비를 가지는, 방법.
  16. 제1항에 있어서,
    단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 4:1 이하의 비를 가지는, 방법.
  17. 제1항에 있어서,
    단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:0.1-5의 비를 가지는, 방법.
  18. 제1항에 있어서,
    단계 (4)에서, 상기 양성 샘플 및 음성 샘플의 수는 1:0.25~4의 비를 가지는, 방법.
  19. 제1항에 있어서,
    양성 샘플도 음성 샘플도 시험하고자 하는 염색체 이외의 염색체에 대하여 이수성을 가지지 않는, 방법.
  20. 제1항에 있어서,
    단계 (4)에서, 상기 임신 여성 및 대조 샘플들의 2-차원 특징 벡터를 제1 특징 및 제2 특징에 근거하여 결정하고, 샘플들 간의 거리를 상기 2-차원 특징 벡터에 의하여 결정하고, 상기 임신 여성 샘플을 양성 샘플 또는 음성 샘플로 분류하여, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 결정하는, 방법.
  21. 제20항에 있어서,
    상기 거리는 Euclidean 거리, Manhattan 거리 또는 Chebyshev 거리인, 방법.
  22. 제20항에 있어서,
    단계 (4)는:
    (4-1) 상기 임신 여성 샘플과 대조 샘플들 사이의 거리들을 각각 계산하는 단계;
    (4-2) 얻어진 거리들을 작은 것에서부터 큰 것의 순서로 분류하는 단계;
    (4-3) 상기 분류에 근거하여 소정의 수의 대조 샘플들을 작은 것에서부터 큰 것의 순서로 선택하는 단계;
    (4-4) 상기 소정의 수의 대조 샘플들 내에 양성 샘플의 수 및 음성 샘플의 수 각각을 결정하는 단계;
    (4-5) 다수결에 근거하여 상기 임신 여성 샘플의 분류 결과를 결정하는 단계
    를 더 포함하는, 방법.
  23. 제22항에 있어서,
    상기 소정의 수는 20을 초과하지 않는, 방법.
  24. 제22항에 있어서,
    상기 소정의 수는 3 내지 10인, 방법.
  25. 제22항에 있어서,
    단계 (4-2)에서, 상기 분류 수행 전에 시험하고자 하는 샘플과 소정의 대조 샘플들 사이의 거리들이 미리 가중되는(weighted), 방법.
  26. 태아의 염색체 이수성 여부를 판별하기 위한 장치로서, 상기 장치는:
    임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하도록 구성되는, 데이터 수집 모듈 - 여기서, 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성됨;
    상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하도록 구성되는, 태아 비율-추정 비율 결정 모듈 - 여기서, 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함;
    상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 태아 비율 간의 차이에 근거하여 제2 특징을 결정하도록 구성되는, 특징 결정 모듈; 및
    대조 샘플의 상응하는 데이터를 이용하여, 상기 제1 특징 및 제2 특징에 근거하여, 상기 임신 여성의 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 결정하도록 구성되는, 이수성 결정 모듈 - 여기서, 상기 대조 샘플은 양성 샘플 및 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음,
    을 포함하는, 장치.
  27. 제26항에 있어서,
    상기 태아 비율 - 추정 비율 결정 모듈은:
    상기 임신 여성 샘플로부터의 핵산 시퀀싱 데이터를 표준 서열과 정렬하여, 소정의 창 내에 들어오는 시퀀싱 리드의 수를 결정하도록 구성되는, 정렬 유닛; 및
    상기 소정의 창 내에 들어오는 시퀀싱 리드의 수에 근거하여 상기 임신 여성 샘플로부터의 태아 비율을 결정하도록 구성되는, 태아 비율 계산 유닛
    을 포함하는 장치.
  28. 제26항에 있어서,
    상기 태아 비율 - 추정 비율 결정 모듈은:
    다음 식에 따라 상기 추정 비율을 결정하도록 구성되는, 추정 비율 계산 유닛:
    Figure pct00052

    (상기 식에서,
    j는 그 추정 비율이 결정될 필요가 있는 염색체의 일련 번호를 나타내고,
    Fj는 염색체 j에 의한 추정 비율을 나타내고,
    Rr은 다수의 상염색체의 시퀀싱 리드의 평균 수를 나타내고, 및
    Rj는 염색체 j의 시퀀싱 리드의 수를 나타냄)
    을 포함하는, 장치.
  29. 제26항에 있어서,
    상기 태아 비율 - 추정 비율 결정 모듈은:
    다수의 상염색체에 의한 추정 비율을 작은 것에서부터 큰 것의 우선 순서로 분류하고, 분류된 상염색체로부터의 표적 상염색체를 제2 비교 염색체로 선택하도록 구성되는, 제2 비교 염색체 결정 유닛
    을 포함하는, 장치.
  30. 제26항에 있어서,
    상기 특징 결정 모듈은:
    다음 식에 의하여 제1 특징을 결정하도록 구성되는 제1 특징 결정 유닛:
    Figure pct00053

    (상기 식에서,
    X 1 은 제1 특징을 나타내고,
    i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
    Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
    Fr은 제2 비교 염색체에 의한 추정 비율의 평균값을 나타냄)
    을 포함하는, 장치.
  31. 제26항에 있어서,
    상기 특징 결정 모듈은:
    다음 식에 의하여 제2 특징을 결정하도록 구성되는, 제2 특징 결정 유닛:
    Figure pct00054

    (상기 식에서,
    X 2 는 제2 특징을 나타내고,
    i는 시험하고자 하는 염색체의 일련 번호를 나타내고,
    Fi는 시험하고자 하는 염색체에 의한 추정 비율을 나타내고,
    Fa은 태아 비율을 나타냄)
    을 포함하는, 장치.
  32. 제26항에 있어서,
    상기 특징 결정 모듈은: 상기 제1 특징 및 제2 특징의 절대값이 독립적으로 0 내지 1 사이에 있도록, 상기 제1 특징 및 제2 특징에 대하여 표준화 처리를 수행하도록 구성되는, 표준화 처리 유닛을 포함하는, 장치.
  33. 제26항에 있어서,
    상기 이수성 결정 모듈은 상기 임신 여성 샘플 및 상기 대조 샘플들의 2-차원 특징 벡터를 결정하여, 상기 2-차원 특징 벡터에 근거하여 샘플들 간의 거리를 결정하고, 상기 임신 여성 샘플을 양성 샘플 또는 음성 샘플로 분류하여, 태아가 시험하고자 하는 염색체에 대하여 이수성을 가지는지 여부를 결정하도록 구성되는, 장치.
  34. 제33항에 있어서,
    상기 거리는 Euclidean 거리, Manhattan 거리 또는 Chebyshev 거리인, 장치.
  35. 제26항에 있어서,
    상기 이수성 결정 모듈은 k-최근접 이웃 모델(k-nearest neighbor model)을 사용함으로써 상기 임신 여성 샘플의 분류 결과를 결정하도록 구성되는, 장치.
  36. 제35항에 있어서,
    상기 k-최근접 이웃 모델은 20 이하의 k 값을 채택하는, 장치.
  37. 제35항에 있어서,
    상기 k-최근접 이웃 모델은 3 내지 10의 k 값을 채택하는, 장치.
  38. 제35항에 있어서,
    상기 k-최근접 이웃 모델에서, 샘플들 간 거리가 가중되는(weighted), 장치.
  39. 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 제1항 내지 제25항 중 어느 한 항에 따른 방법의 단계들이 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체.
  40. 제39항에 따른 컴퓨터 판독 가능 저작 매체; 및
    상기 컴퓨터 판독 가능 저장 매체 상에서 프로그램을 실행하도록 구성되는, 하나 이상의 프로세서
    를 포함하는, 전자 장치.
  41. 기계 학습 분류 모델(machine learning classification model)을 구성하는 방법으로서, 상기 방법은:
    (a) 다수의 임신 여성 샘플 각각에 대하여 다음 단계들을 수행하는 단계:
    임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음;
    상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 및
    상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계;
    (b) 다수의 임신 여성 샘플을 샘플로 취하고 상기 제1 특징 및 제2 특징을 사용하여 기계 학습 훈련을 수행하여, 태아가 이수성을 가지는지 여부를 판별하기 위한 기계 학습 분류 모델을 구성하는, 방법.
  42. 제41항에 있어서,
    상기 기계 학습 분류 모델은 KNN 모델인, 방법.
  43. 제42항에 있어서,
    상기 KNN 모델은 Euclidean 거리를 채택하는, 방법.
  44. 기계 학습 분류 모델을 구성하기 위한 장치로서, 상기 장치는:
    다수의 임신 여성 샘플 각각에 대하여 다음 단계들을 수행하도록 구성되는, 특징 수집 모듈:
    임신 여성 샘플로부터 핵산 시퀀싱 데이터를 수집하는 단계 - 상기 임신 여성 샘플은 태아 유리 핵산을 포함하고, 상기 핵산 시퀀싱 데이터는 다수의 시퀀싱 리드로 구성되고, 상기 임신 여성 샘플은 적어도 하나의 양성 샘플 및 적어도 하나의 음성 샘플을 포함하고, 상기 양성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지고, 상기 음성 샘플은 시험하고자 하는 염색체에 대하여 이수성을 가지지 않음;
    상기 핵산 시퀀싱 데이터에 근거하여 상기 임신 여성 샘플의 태아 비율 및 소정의 염색체에 의한 추정 비율을 결정하는 단계 - 상기 소정의 염색체에 의한 추정 비율은 소정의 염색체의 시퀀싱 리드의 수 및 제1 비교 염색체의 시퀀싱 리드의 수 간의 차이에 근거하여 결정되고, 상기 소정의 염색체는 시험하고자 하는 염색체 및 제2 비교 염색체를 포함하고, 상기 제1 비교 염색체는 상기 소정의 염색체와 다른 적어도 하나의 상염색체를 포함함; 및
    상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 제2 비교 염색체에 의한 추정 비율 간의 차이에 근거하여 제1 특징을 결정하고, 상기 시험하고자 하는 염색체에 의한 추정 비율 및 상기 태아 비율 간의 차이에 근거하여 제2 특징을 결정하는 단계;
    태아가 이수성을 가지는지 여부를 판별하기 위한 기계 학습 분류 모델을 구성하도록, 다수의 임신 여성 샘플을 샘플로 취하여 기계 학습 훈련을 수행하도록 구성되는, 훈련 모델
    을 포함하는, 장치.
  45. 제44항에 있어서,
    상기 기계 학습 분류 모델은 KNN 모델인, 장치.
  46. 컴퓨터 프로그램이 저장된 컴퓨터-판독 가능 저장 매체로서, 상기 프로그램이 프로세서에 의하여 실행될 때, 제41항 내지 제43항 중 어느 한 항에 따른 방법의 단계들이 실행되는 것을 특징으로 하는, 컴퓨터-판독 가능 저장 매체.
KR1020227003512A 2019-12-31 2019-12-31 염색체 이수성 판별 및 분류 모델 구성 방법 및 장치 KR20220122596A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/130625 WO2021134513A1 (zh) 2019-12-31 2019-12-31 确定染色体非整倍性、构建分类模型的方法和装置

Publications (1)

Publication Number Publication Date
KR20220122596A true KR20220122596A (ko) 2022-09-02

Family

ID=70827394

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227003512A KR20220122596A (ko) 2019-12-31 2019-12-31 염색체 이수성 판별 및 분류 모델 구성 방법 및 장치

Country Status (9)

Country Link
US (1) US20220336047A1 (ko)
EP (1) EP4086356A4 (ko)
JP (1) JP7467504B2 (ko)
KR (1) KR20220122596A (ko)
CN (1) CN111226281B (ko)
AU (1) AU2019480813A1 (ko)
CA (1) CA3141362A1 (ko)
IL (1) IL277746A (ko)
WO (1) WO2021134513A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112037846A (zh) * 2020-07-14 2020-12-04 广州市达瑞生物技术股份有限公司 一种cffDNA非整倍体检测方法、系统、储存介质以及检测设备
CN116648752A (zh) * 2020-11-27 2023-08-25 深圳华大生命科学研究院 一种胎儿染色体异常的检测方法与系统
CN116312813B (zh) * 2023-05-22 2023-08-22 上海科技大学 鉴定干细胞群代次的方法及标志物

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102753703B (zh) * 2010-04-23 2014-12-24 深圳华大基因健康科技有限公司 胎儿染色体非整倍性的检测方法
WO2013040773A1 (zh) * 2011-09-21 2013-03-28 深圳华大基因科技有限公司 确定单细胞染色体非整倍性的方法和系统
JP6159336B2 (ja) * 2011-10-18 2017-07-05 マルチプリコム・ナムローゼ・フエンノートシャップMultiplicom Nv 胎児の染色体異数性の診断
ES2623089T3 (es) * 2012-04-06 2017-07-10 The Chinese University Of Hong Kong Diagnóstico prenatal no invasivo de trisomía fetal mediante el análisis de la relación alélica usando secuenciación masivamente paralela dirigida
WO2014153755A1 (zh) * 2013-03-28 2014-10-02 深圳华大基因研究院 确定胎儿染色体非整倍性的方法、系统和计算机可读介质
US20160154931A1 (en) * 2013-07-17 2016-06-02 Bgi Genomics Co., Limited Method and device for detecting chromosomal aneuploidy
WO2015089726A1 (zh) * 2013-12-17 2015-06-25 深圳华大基因科技有限公司 一种染色体非整倍性检测方法及装置
US20160026759A1 (en) * 2014-07-22 2016-01-28 Yourgene Bioscience Detecting Chromosomal Aneuploidy
CN104232777B (zh) * 2014-09-19 2016-08-24 天津华大基因科技有限公司 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
CN104789466B (zh) * 2015-05-06 2018-03-13 安诺优达基因科技(北京)有限公司 检测染色体非整倍性的试剂盒和装置
CN104789686B (zh) * 2015-05-06 2018-09-07 浙江安诺优达生物科技有限公司 检测染色体非整倍性的试剂盒和装置
WO2017087206A1 (en) * 2015-11-16 2017-05-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2017093561A1 (en) 2015-12-04 2017-06-08 Genesupport Sa Method for non-invasive prenatal testing
CN105844116B (zh) * 2016-03-18 2018-02-27 广州市锐博生物科技有限公司 测序数据的处理方法和处理装置
CN106520940A (zh) * 2016-11-04 2017-03-22 深圳华大基因研究院 一种染色体非整倍体和拷贝数变异检测方法及其应用
US20200255896A1 (en) 2017-01-11 2020-08-13 Quest Diagnostics Investments Llc Method for non-invasive prenatal screening for aneuploidy
EP3658689B1 (en) 2017-07-26 2021-03-24 Trisomytest, s.r.o. A method for non-invasive prenatal detection of fetal chromosome aneuploidy from maternal blood based on bayesian network
SK862017A3 (sk) * 2017-08-24 2020-05-04 Grendar Marian Doc Mgr Phd Spôsob použitia fetálnej frakcie a chromozómovej reprezentácie pri určovaní aneuploidného stavu v neinvazívnom prenatálnom testovaní
CN108363903B (zh) * 2018-01-23 2022-03-04 和卓生物科技(上海)有限公司 一种适用于单细胞的染色体非整倍性检测系统及应用
CN108611408A (zh) * 2018-02-23 2018-10-02 深圳市瀚海基因生物科技有限公司 检测胎儿染色体非整倍性的方法和装置

Also Published As

Publication number Publication date
JP7467504B2 (ja) 2024-04-15
IL277746A (en) 2021-12-01
AU2019480813A1 (en) 2021-12-16
JP2023517155A (ja) 2023-04-24
EP4086356A1 (en) 2022-11-09
AU2019480813A8 (en) 2022-05-12
CA3141362A1 (en) 2021-07-08
WO2021134513A1 (zh) 2021-07-08
EP4086356A4 (en) 2023-09-27
CN111226281A (zh) 2020-06-02
US20220336047A1 (en) 2022-10-20
CN111226281B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
Sun et al. Cervical cancer diagnosis based on random forest
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
WO2021062904A1 (zh) 基于病理图像的tmb分类方法、系统及tmb分析装置
US20060057618A1 (en) Determining data quality and/or segmental aneusomy using a computer system
US20230222311A1 (en) Generating machine learning models using genetic data
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
WO2012177792A2 (en) Methods and processes for non-invasive assessment of a genetic variation
US20040126782A1 (en) System and method for SNP genotype clustering
CN114049914B (zh) 一体化检测cnv、单亲二体、三倍体和roh的方法及装置
WO2021258026A1 (en) Molecular response and progression detection from circulating cell free dna
US20220367003A1 (en) Method for determining fetal nucleic acid concentration and fetal genotyping method
CN111724911A (zh) 目标药物敏感度预测方法、装置、终端设备及存储介质
Kim et al. Application of logitboost classifier for traceability using snp chip data
CN117409962A (zh) 一种基于基因调控网络的微生物标记物的筛选方法
CN110191964B (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
CN115223654A (zh) 检测胎儿染色体非整倍体异常的方法、装置及存储介质
US20200080158A1 (en) Method for analysing cell-free nucleic acids
US20230005569A1 (en) Chromosomal and Sub-Chromosomal Copy Number Variation Detection
WO2024107868A1 (en) Systems and methods for identifying clonal expansion of abnormal lymphocytes
CN116705158A (zh) 空间转录组数据的聚类方法、装置、设备及存储介质
CN114512232A (zh) 基于级联机器学习模型的爱德华氏综合征筛查系统
CN114171118A (zh) 用于无创基因检测的数据处理方法和装置
CN114703263A (zh) 一种群组染色体拷贝数变异检测方法及装置
Yu et al. Detecting breakpoints using multi-scale wavelet products