KR102162831B1 - 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 - Google Patents

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 Download PDF

Info

Publication number
KR102162831B1
KR102162831B1 KR1020190175205A KR20190175205A KR102162831B1 KR 102162831 B1 KR102162831 B1 KR 102162831B1 KR 1020190175205 A KR1020190175205 A KR 1020190175205A KR 20190175205 A KR20190175205 A KR 20190175205A KR 102162831 B1 KR102162831 B1 KR 102162831B1
Authority
KR
South Korea
Prior art keywords
twins
type
determining
bonding
analysis device
Prior art date
Application number
KR1020190175205A
Other languages
English (en)
Inventor
이길원
국준호
이병철
박정훈
서정선
Original Assignee
주식회사 마크로젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 마크로젠 filed Critical 주식회사 마크로젠
Priority to KR1020190175205A priority Critical patent/KR102162831B1/ko
Application granted granted Critical
Publication of KR102162831B1 publication Critical patent/KR102162831B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법은 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계, 상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계 및 상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함한다.

Description

혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치{DETERMINATION METHOD FOR ZYGOSITY OF TWIN FETUS BASED ON MIXTURE MODEL AND ANALYSIS APPARATUS}
이하 설명하는 기술은 비침습적 산전 검사로 쌍태아에 대한 접합성을 결정하는 기법이다.
산전 진단 방법은 크게 침습적 진단 방법과 비침습적 진단 방법으로 구분된다. 침습적 진단 방법은 검사 과정에서 산모 및 태아에 충격을 유발하여 문제가 될 수 있다. 따라서, 비침습적 진단 방법이 각광받고 있다.
비침습적 진단 방법은 주로 산모 혈장 내의 cfDNA(cell-free DNA)를 이용한다. 차세대 서열분석(Next Generation Sequencing: NGS)과 같은 대규모 병렬형 서열분석(massively parallel sequencing) 기술의 도입되면서 비침습적 진단 방법이 본격적으로 시장에 등장하였다.
비침습적 산전 검사(noninvasive prenatal testing, NIPT)는 검사 가능한 항목이 늘어나고, 비용도 낮아지면서 점차 보편화되고 있다.
미국공개특허 US2013-0059733호
비침습적 산전 검사는 주로 단태아를 대상으로 한다. 쌍태아(다태아)를 대상으로 하는 경우, 서로 다른 태아의 유전체 정보가 혼합되기에 검사하기 어려운 항목도 있고, 검사 가능한 항목도 그 정확도가 떨어지게 된다.
이하 설명하는 기술은 비침습적으로 쌍태아의 접합성(zygosity)을 판별하는 기법을 제공하고자 한다.
혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법은 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계, 상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계 및 상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함한다. 상기 혼합 모델은 리드(read) 깊이 및 대립유전자 자리에서의 유전자형 비율을 변수로 갖는다.
쌍태아의 접합성 타입을 결정하는 분석장치는 산모 혈장 샘플에 대한 유전체 정보를 입력받는 입력장치, 상기 유전체 정보를 이용하여 쌍태아의 접합성(zygosity) 타입을 결정하는 프로그램을 저장하는 저장장치 및 상기 유전체 정보에서 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하고, 상기 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산하고, 상기 유전체 정보 생성에 사용된 리드(read) 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하고, 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정하는 연산장치를 포함한다.
이하 설명하는 기술은 비침습적으로 쌍태아가 이란성인지 또는 일란성인지 여부에 대하여 매우 정확한 진단 정보를 제공한다.
도 1은 쌍태아 접합성 타입을 분석하는 시스템의 예이다.
도 2는 쌍태아 접합성을 결정하는 과정에 대한 순서도의 예이다.
도 3은 쌍태아 접합성 타입을 결정하는 분석장치의 구조에 대한 예이다.
도 4는 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 예이다.
도 5는 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 다른 예이다.
도 6은 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 또 다른 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설명된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 비침습적 산전 검사 기법에 해당한다. 이하 설명에서 사용하는 용어나 기법에 대하여 먼저 간략하게 설명한다.
샘플은 산모의 DNA와 태아의 DNA를 함께 얻을 수 있는 시료를 의미한다. 예컨대, 샘플은 산모의 혈장일 수 있다.
산모 혈장 내의 cfDNA는 산모의 DNA와 태아의 DNA가 모두 존재한다. 일반적으로 임신 주수에 비례하여 태아 DNA의 양이 증가한다고 알려졌다.
태아 분획(fetal fraction)은 샘플에서 태아 DNA가 차지하는 비율을 의미한다. 일반적으로 정확한 산전검사를 위해서는 분획이 일정한 값 이상이어야 의미가 있다고 알려졌다.
쌍태아의 접합성는 이란성(dizygotic twin) 또는 일란성(monozygotic twin)으로 구분된다.
샘플에서 유전체를 분석하는 방법은 다양하다. 유전체를 분석한 정보를 유전체 정보라고 명명한다. 유전체 정보는 염기서열, 유전자 발현 데이터, 표준 유전체 데이터와의 유전 변이, DNA 메틸화(methylation) 등을 포함할 수 있다.
이하 설명하는 기술은 산모 샘플로부터 획득 가능한 산모 유래 cfDNA와 태아 유래 cfDNA에 대한 유전체 정보를 이용할 수 있다. cfDNA의 분석을 위한 범위는 단일 변이부터 전체 유전체 분석까지 다양하다.
몇 가지 예를 설명한다. 대표적인 단일 변이 시험은 특이 중합효소 연쇄 반응법(allele-specific PCR)과 디지털 PCR (digital PCR, dPCR)이 있다. 표적 서열 분석(targeted sequencing)은 많은 수의 유전자들을 한꺼번에 분석할 수 있다. NGS에 기반한 WGS(whole-genome sequencing)는 전체 유전체의 정보를 제공한다. 이하 설명에서 산모 샘플에 대한 WGS를 수행한 분석 결과(WGS 데이터)를 이용한다고 가정한다.
WGS 결과는 디지털 데이터로 제공된다. 데이터 처리 및 연산 가능한 컴퓨터 장치가 WGS 데이터를 분석하여 쌍태아 접합성을 확인한다. 이하, WGS 데이터를 분석하는 장치를 분석장치라고 명명한다. 분석장치는 PC, 서버, 스마트기기 등 다양한 형태로 구현될 수 있다.
이하 설명하는 기술은 산모 샘플에서 복수의 SNP(Single Nucleotide Polymorphism)에 대한 유전자형(genotype)을 이용하여 쌍태아의 접합성을 확인한다. 분석장치는 유전자형 검출(genotype calling) 알고리즘을 이용하여 WGS 데이터를 기준으로 SNP에 대한 유전자형을 결정할 수 있다. 유전자형을 검출하는 알고리즘은 공개된 다양한 기법 내지 프로그램을 사용할 수 있다.
또한, 분석장치는 산모 샘플에 대한 WGS 데이터를 이용하여 샘플에서의 분획을 결정할 수 있다. 분석장치 다양한 알고리즘을 이용하여 분획을 결정할 수 있다. 예컨대, 분석 장치는 SeqFF(Kim SK, Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts,Prenat Diagn. 2015 Aug;35(8):810-5. doi: 10.1002/pd.4615. Epub 2015 Jun 3.)를 이용하여 샘플의 분획을 추정할 수 있다.
도 1은 쌍태아 접합성 타입을 분석하는 시스템의 예이다.
도 1은 서비스 사용자(A), 유전체 정보 제공자(B) 및 서비스 제공자(C)를 도시한다.
서비스 사용자(A)는 분석장치가 분석한 쌍태아 접합성 정보를 제공받는 주체이다. 서비스 사용자(A)는 개인 또는 의료 기관일 수 있다. 서비스 사용자(A)는 분석을 위한 샘플을 제공할 수 있다.
유전체 정보 제공자(B)는 시료를 분석하여 개인 유전체 정보를 제공하는 주체이다. 예컨대, 유전체 정보 제공자(B)는 WGS 등을 이용하여 샘플에 대한 유전체 정보를 생성할 수 있다.
서비스 제공자(C)는 샘플의 유전체 정보를 이용하여 쌍태아의 접합성 정보를 제공하는 주체이다. 서비스 제공자(C)는 유전체 데이터를 분석하는 전문 기관일 수 있다. 한편, 서비스 제공자(C)는 유전체 정보를 생성하는 유전체 정보 제공자(B)와 동일한 주체일 수 있다. 이 경우, 서비스 제공자(C)는 서비스 사용자(A)로부터 샘플을 전달받아, 유전체 정보를 생성하고, 유전체 정보에 기반하여 쌍태아의 접합성 정보를 제공한다.
도 1은 2가지 유형의 시스템을 도시한다. 분석 장치(150, 250)는 샘플의 유전체 정보를 분석하여 쌍태아 접합성 타입을 결정한다. 도 1에서 분석장치는 네트워크 서버(150) 및 컴퓨터 단말(250)의 형태로 도시하였다.
도 1(A)는 서버 형태의 분석장치(150)를 포함하는 시스템(100)에 대한 예이다. 유전체 정보 생성장치(110)는 산모 샘플에 대한 유전체 정보를 생성한다. 유전체 정보 생성장치(110)는 생성한 유전체 정보를 유전체 DB(120)에 저장할 수도 있다.
분석장치(150)는 유전체 정보 생성장치(110) 또는 유전체 DB(120)로부터 특정 샘플의 유전체 정보를 수신한다. 특정 샘플을 구별하기 위하여 유전체 정보는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(150)는 샘플의 유전체 정보를 기준으로 해당 샘플의 쌍태아 접합성 타입을 결정한다. 분석장치(150)는 샘플에 대한 분석 결과를 서비스 사용자(A)에게 제공할 수 있다. 예컨대, 분석장치(150)는 개인 단말(50)에 분석 결과를 전송할 수도 있다.
도 1(B)는 컴퓨터 단말 형태의 분석장치(250)를 포함하는 시스템(200)에 대한 예이다. 유전체 정보 생성장치(210)는 산모 샘플에 대한 유전체 정보를 생성한다. 유전체 정보 생성장치(210)는 생성한 유전체 정보를 유전체 DB(220)에 저장할 수도 있다.
분석장치(250)는 유선 또는 무선 네트워크로 유전체 정보 생성장치(210) 또는 유전체 DB(220)로부터 특정 샘플의 유전체 정보를 수신할 수 있다. 또는 분석장치(250)는 유전체 정보를 저장 매체(SD카드, USB 등)를 통해 입력받을 수도 있다. 특정 샘플을 구별하기 위하여 유전체 정보는 개체에 대한 식별정보를 포함할 수 있다.
분석장치(250)는 샘플의 유전체 정보를 기준으로 해당 샘플의 쌍태아 접합성 타입을 결정한다. 분석장치(250)는 샘플에 대한 분석 결과를 출력할 수 있다.
도 2는 쌍태아 접합성을 결정하는 과정(300)에 대한 순서도의 예이다.
분석장치는 샘플의 유전체 정보를 획득한다(310). 전술한 바와 같이 분석장치가 샘플을 전달받아 WGS 기법을 이용하여 유전체 정보를 생성할 수도 있다.
분석장치는 유전체 정보를 이용하여 샘플의 분획을 결정할 수 있다(320). 또는 분석장치가 별도의 장치로부터 분획 정보만을 수신할 수도 있다.
분석장치는 복수의 SNP에 대한 유전형을 결정한다. 이때, 분석 대상이 되는 대립유전자 자리들은 사전에 결정된 복수의 자리를 이용할 수 있다. SNP 개수는 다양할 수 있다. 분석장치는 샘플의 SNP 중 수백 개, 수천 개, 수만 개 등의 SNP를 타깃으로 대립유전자 유전형을 결정할 수 있다. NGS 데이터를 이용하여 SNP의 유전형을 결정하는 다양한 알고리즘이 있다. 분석장치는 특정한 유전형 검출 알고리즘을 사용하여 SNP에서의 유전형을 결정할 수 있다.
분석장치는 복수의 SNP 중 개별 SNP에 대하여 각각 유전형을 결정한다. 분석 대상의 SNP 개수를 total이라는 개수라고 가정한다. SNPi에서 i는 SNP의 식별자이고 개수를 나타낸다. i = 1 ~ total 범위라고 가정한다. 분석장치는 SNPi의 유전형을 결정한다(330). 분석장치는 혼합모델을 이용하여 SNPi에 대한 접합성을 결정한다(340). 혼합모델을 이용한 접합성 결정 과정은 후술한다.
분석장치는 i ≥ total 인지 확인하고(350), 아닌 경우 i를 하나 증가시켜(-360) 다음 SNP에 대하여 동일한 과정을 반복한다. i = total인 경우(즉, 모든 SNP에 대하여 접합성을 결정한 상태), 분석장치는 전체 SNP에 대한 접합성을 카운트하여, 최대 개수를 갖는 접합성 타입을 쌍태아의 접합성으로 결정할 수 있다(370).
이하 혼합모델을 이용한 쌍태아 접합성 결정 과정에 대하여 설명한다.
쌍태아를 임신한 산모의 혈장에서 지노타이핑(genotyping)을 한경우 가능한 변이 조합은 아래 표 1과 같다. 유전자형은 A와 B로 표시한다.
산모 생부 자녀
AA AA AA
AB AA, AB
BB AB
AB AA AA, AB
AB AA, AB, BB
BB AB, BB
BB AA AB
AB AB, BB
BB BB
산모가 동형 대립유전자(homozygous allele)인 경우 자녀는 AA, AB 또는 BB, AB만 가능하다. 산모가 이형 대립유전자(heterozygous allele)인 경우 자녀는 AA, AB 및 BB가 모두 가능하다. 표 1을 기준으로 표 2와 같은 가능한 쌍태아의 SNP 조합을 생각할 수 있다.
산모 태아1 태아2 유전형 쌍태아 종류
AA AA AA AAAAAA 일란성, 이란성
AB AAAAAB 이란성
AB AA AAAAAB 이란성
AB AAAABB 일란성, 이란성
AB AA AA AAAAAB 일란성, 이란성
AB AAAABB 이란성
BB AAABBB 이란성
AB AA AAAABB 이란성
AB AAABBB 일란성, 이란성
BB AABBBB 이란성
BB AA AAAABB 이란성
AB AAABBB 이란성
BB AABBBB 일란성, 이란성
BB AB AB AABBBB 일란성, 이란성
BB ABBBBB 이란성
BB AB ABBBBB 이란성
BB BBBBBB 일란성, 이란성
유전형이 리드 깊이에 따라 검출(calling) 된다고 하면, 일정한 통계 모형을 고려할 수 있다. 각 대립유전자 i별 리드의 깊이를 Ni 라고 하면, 해당 리드에 서 검출되는 대립유전자 ai는 상기 표 2 에서 정의한 유전형에 따른 A 또는 B의 비율로부터의 N개의 복원추출로 생각할 수 있다.
이때, 쌍태아의 총 태아 분획은 α이고 쌍태아 각각의 분획은 α/2라고 가정한다. 이 가정에 따라 태아 분획 α를 도입하여 유전형을 다시 계산하면 아래 표 3과 같다.
Figure 112019134160931-pat00001
여기서 태아 분획 α는 SeqFF 등과 같은 기법으로 추정을 할 수 있다. 일란성 태아 경우, 가능한 유전형들은 아래 표 4와 같은 분포만이 가능하다. 반면에 이란성 태아 경우, 가능한 유전형들은 아래 표 5와 같이 표3의 모든 경우가 가능하다.
Figure 112019134160931-pat00002
Figure 112019134160931-pat00003
상기 표 4와 5에서 BAF(B-Allele Frequency)에 분획 추정치를 입력하면, 각 조건별 BAF가 계산된다. BAF는 대립유전자 B (B-Allele)가 각 allele의 depth에 기여한 비율(B/(A+B))을 나타낸 값이다. AAF(A-Allele Frequency)는 1- BAF로 구할 수 있다. 특정 ai에서 검출된 깊이 Ni의 변이는 복원 추출(이진분포)로 모델링이 가능하다. 이에 따른 혼합모델은 아래 수학식 1과 같이 표현될 수 있다.
Figure 112019134160931-pat00004
여기서, b는 B 대립 유전자의 개수, pB는 BAF이고, pA는 AAF이다.
예컨대, 태아 분획이 10%이고, Ni = 10이고, 대립 유전자 A가 4개, 대립 유전자 B가 6개가 나온 경우를 가정하면, 상기 표 4 및 표 5로부터 일란성일 때와 이란성일 때에 대한 우도(likelihood)를 아래 표 6과 같이 구할 수 있다.
Figure 112019134160931-pat00005
상기 표 6에서 가장 높은 확률 값을 보이는 모델을 선택하면 i번째 위치에서의 가장 확률 높은 접합성 타입을 결정할 수 있다. 이와 같이 전체 SNP에 대하여 접합성 타입에 대한 우도값을 구하면, 최종적으로 쌍태아의 접합성 타입을 추정할 수 있다. 이를 수식으로 표현하면 아래 수학식 2와 같다.
Figure 112019134160931-pat00006
최종 판별 점수 D는 아래 수학식 3과 같이 표현할 수 있다. 물론 접합성 판별을 위한 점수나 기준을 다른 형태로 표현할 수도 있다.
Figure 112019134160931-pat00007
이 경우, D > 1.0이면 일란성으로 판단하고, D < 1.0이면 이란성으로 판단한다.
상기 수학식 2 및 수학식 3에 log값을 취하면, 각각 아래 수학식 4 및 수학식 5와 같다.
Figure 112019134160931-pat00008
Figure 112019134160931-pat00009
이 경우, log(D) > 0이면 일란성으로 판단하고, log(D) < 0이면 이란성으로 판단할 수 있다.
분석장치는 수학식 1에서 설명한 혼합모델로 대립유전자 자리별로 접합성을 판별할 수 있다. 분석장치는 전체 대립유전자 자리에 대하여 결정된 접합성을 기준으로, 최종적으로 샘플에 대한 쌍태아 접합성을 결정한다. 분석장치는 수학식 3 또는 수학식 5와 같은 값을 기준으로 쌍태아 접합성을 판단할 수 있다. 다만, 상기 수식은 쌍태아 접합성 판정을 위한 값을 산출하는 하나의 예에 불과하다. 쌍태아 접합성 판정을 위한 값은 수학식 1의 혼합모델로부터 결정되는 값을 이용하여 다양한 형태로 생성할 수 있다.
도 3은 쌍태아 접합성 타입을 결정하는 분석장치(400)의 구조에 대한 예이다. 분석장치(400)는 도 1의 분석 장치(150 또는 250)에 해당하는 장치이다. 분석장치(400)는 전술한 혼합모델을 이용하여 샘플로부터 쌍태아의 접합성을 결정한다.
분석장치(400)는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 분석장치(400)는 PC와 같은 컴퓨터 장치, 스마트기기, 네트워크의 서버, 데이터 처리 전용 칩셋 등의 형태를 가질 수 있다.
분석장치(400)는 저장장치(410), 메모리(420), 연산장치(430), 인터페이스 장치(440), 통신장치(450) 및 출력장치(460)를 포함한다.
저장장치(410)는 유전체 분석 정보를 이용하여 쌍태아의 접합성 타입을 결정하는 프로그램을 저장한다. 저장장치(410)는 유전체 정보를 이용하여 태아 분획을 결정하는 프로그램을 저장할 수 있다. 또한, 저장장치(410)는 대립유전자 자리의 유전형 검출을 위한 프로그램을 저장할 수 있다. 나아가 저장장치(410)는 데이터 처리에 필요한 다른 프로그램 내지 소스 코드 등을 저장할 수 있다. 저장장치(410)는 입력되는 유전체 정보 및 분석 결과를 저장할 수 있다.
메모리(420)는 분석장치(400)가 수신한 데이터를 분석하는 과정에서 생성되는 데이터를 저장할 수 있다.
인터페이스 장치(440)는 외부로부터 일정한 명령 및 데이터를 입력받는 장치이다. 인터페이스 장치(440)는 물리적으로 연결된 입력 장치 또는 외부 저장장치로부터 유전체 정보를 입력받을 수 있다. 인터페이스 장치(440)는 데이터 분석을 위한 프로그램 내지 소스코드를 입력받을 수 있다.
통신장치(450)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신장치(450)는 외부 객체로부터 유전체 정보를 수신할 수 있다. 통신장치(450)는 분석 결과를 외부 객체로 송신할 수 있다.
통신장치(450) 내지 인터페이스 장치(440)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신장치(450) 내지 인터페이스 장치(440)를 입력장치라고 명명할 수 있다.
입력 장치는 분석 대상인 샘플의 유전체 정보를 입력받을 수 있다. 예컨대, 입력 장치는 유전체 정보 생성장치, 외부 서버 또는 DB로부터 유전체 정보를 입력받고나 수신할 수 있다.
출력장치(460)는 일정한 정보를 출력하는 장치이다. 출력장치(460)는 데이터 처리 과정에 필요한 인터페이스, 분석 결과 등을 출력할 수 있다.
연산장치(430)는 저장장치(410)에 저장된 프로그램을 이용하여 유전체 분석 정보를 기준으로 유전체 태아 분획을 결정할 수 있다.
연산장치(430)는 유전체 정보에서 복수의 SNP 각각의 유전자형 정보를 획득할 수 있다. 연산장치(430)는 유전형 검출을 위한 프로그램을 이용하여 SNP의 유전자형을 결정할 수 있다.
연산장치(430)는 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산할 수 있다. 연산장치(430)는 유전체 분석 정보 생성에 사용된 리드 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산할 수 있다. 연산장치(430)는 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정할 수 있다.
연산장치(430)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.
도 4 내지 도 6은 쌍태아 접합성 예측에 대한 시뮬레이션 결과의 예이다. 시뮬레이션을 위하여 산모와 쌍태아의 유전자 정보 데이터와 사전에 알려진 접합성 정보를 기준으로 전술한 쌍태아 접합성 예측 기법의 효과를 검증하였다.
도 4는 1,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 도 5는 5,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 도 6은 10,000 개의 SNP를 기준으로 시뮬레이션한 결과이다. 복수의 SNP는 특정한 기준 없이 임의의 자리를 선택할 수 있다.
depth는 리드 깊이를 나타내고, FF는 태아 분획을 나타낸다. FF가 0.06, 0.1, 0.2, 0.3, 0.4 및 0.5인 경우에, 각각 depth가 2x, 5x, 10x, 40x, 100x 및 1000x인 경우를 고려하여 샘플을 20개씩 마련하였다. %는 예측 정확도를 의미한다.
SNP의 개수에 따라 시뮬레이션 결과가 차이가 조금 있었지만, SNP 1,000개 정도이면 충분히 정확한 정보를 제공하였다. 일란성에 대해서는 대체적으로 높은 정확도를 보였지만, 이란성 경우 정확도가 다소 떨어지는 경향이 관찰되었다.
리드 깊이 및/또는 태아 분획에 따라 예측 정확도가 달라진다. 리드 깊이와 태아 분획의 조합에 따라 예측 정확도가 달라진다. 전체적으로 리드 깊이는 1,000 이상이고, 태아분획이 0.1 이상인 경우 안정적인 정확도를 보여준다.
이와 같은 시뮬레이션 결과를 이용하여, 분석장치가 현재 주어진 데이터에 대한 예상 정확도를 산출할 수도 있다. 예컨대, 분석장치는 SNP 개수, 리드 깊이 및 태아 분획을 변수로 하여 접합성 예측의 정확도를 예측하고 정확도를 출력할 수도 있다. 도 4 내지 도 6은 하나의 실험 결과이므로, 정확도 예측을 위하여 보다 대량의 샘플을 기준으로 예측 정확도에 대한 맵을 사전에 준비할 수도 있다.
또한, 상술한 바와 같은 쌍태아의 접합성 타입 결정 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 일시적 또는 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM (read-only memory), PROM (programmable read only memory), EPROM(Erasable PROM, EPROM) 또는 EEPROM(Electrically EPROM) 또는 플래시 메모리 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
일시적 판독 가능 매체는 스태틱 램(Static RAM,SRAM), 다이내믹 램(Dynamic RAM,DRAM), 싱크로너스 디램 (Synchronous DRAM,SDRAM), 2배속 SDRAM(Double Data Rate SDRAM,DDR SDRAM),증강형 SDRAM(Enhanced SDRAM,ESDRAM), 동기화 DRAM(Synclink DRAM,SLDRAM) 및 직접 램버스 램(Direct Rambus RAM,DRRAM) 과 같은 다양한 RAM을 의미한다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims (14)

  1. 분석장치가 산모 혈장 샘플에 대한 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하는 단계;
    상기 분석장치가 쌍태아의 접합성(zygosity)에 대한 혼합 모델을 이용하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하는 단계; 및
    상기 분석장치가 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 쌍태아 접합성의 타입을 결정하는 단계를 포함하되,
    상기 혼합 모델은 리드(read) 깊이 및 대립유전자 자리에서의 유전자형 비율을 변수로 갖고,
    상기 분석장치가 상기 샘플에 대한 태아 분획을 획득하는 단계를 더 포함하고, 상기 분석장치는 상기 태아 분획을 이용하여 상기 유전자형 비율을 연산하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 혼합모델은 아래 수식으로 표현되는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
    Figure 112019134160931-pat00010

    (대립유전자의 유전자형은 각각 A 및 B로 표시하고, Ni는 리드의 깊이, b는 B 대립 유전자의 개수, pB는 BAF(B-Allele Frequency)이고, pA는 AAF(A-Allele Frequency)임)
  4. 제1항에 있어서,
    상기 분석장치는 상기 복수의 SNP 자리마다 상기 혼합 모델로 가장 확률이 높은 쌍태아의 접합성 타입을 결정하고, 상기 복수의 SNP 전체를 기준으로 이란성 또는 일란성 중 상기 결정된 접합성 타입의 개수가 많은 타입을 상기 쌍태아 접합성의 타입으로 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  5. 제1항에 있어서,
    상기 분석장치는
    상기 리드의 깊이가 1000 이상이고, 태아 분획이 0.1 이상인 경우, 상기 쌍태아의 접합성 타입을 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  6. 제1항에 있어서,
    상기 분석장치는
    상기 리드의 깊이가 제1 임계값 이상인지 여부 및 태아 분획이 제2 임계값 이상인지 여부 중 적어도 하나에 따라서 상기 결정된 쌍태아 접합성 타입에 대한 정확도를 결정하는 단계를 더 포함하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  7. 제1항에 있어서,
    상기 분석장치는 상기 복수의 SNP 각각에서
    상기 산모 및 쌍태아에 대한 유전자형을 조합하여 나올 수 있는 유전자형 세트에 대하여 각각 태아 분획과 SNP 자리에서의 유전자형 비율을 기준으로 상기 혼합모델의 확률값을 결정하고, 가장 높은 확률값을 가지는 모델을 해당 SNP 자리에서의 접합성 타입으로 결정하는 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법.
  8. 산모 혈장 샘플에 대한 유전체 정보를 입력받는 입력장치;
    상기 유전체 정보를 이용하여 쌍태아의 접합성(zygosity) 타입을 결정하는 프로그램을 저장하는 저장장치; 및
    상기 유전체 정보에서 복수의 SNP(Single Nucleotide Polymorphism) 각각의 유전자형 정보를 획득하고, 상기 유전자형 정보를 기준으로 대립유전자 자리에서의 유전자형 비율을 연산하고, 상기 유전체 정보 생성에 사용된 리드(read) 깊이와 상기 유전자형 비율을 혼합모델에 입력하여 상기 복수의 SNP별로 쌍태아의 이란성 또는 일란성 확률을 연산하고, 상기 복수의 SNP 전체를 기준으로 최대 우도를 갖는 접합성 타입을 결정하는 연산장치를 포함하되,
    상기 연산장치는 상기 복수의 SNP 자리마다 상기 혼합 모델로 가장 확률이 높은 쌍태아의 접합성 타입을 결정하고, 상기 복수의 SNP 전체를 기준으로 이란성 또는 일란성 중 상기 결정된 접합성 타입의 개수가 많은 타입을 상기 쌍태아의 타입으로 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  9. 제8항에 있어서,
    상기 입력장치는 상기 유전체 정보를 이용하여 태아 분획을 결정하는 프로그램을 더 저장하고,
    상기 연산장치는 태아 분획을 결정하는 프로그램을 이용하여 상기 유전체 정보로부터 상기 샘플에 대한 태아 분획을 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  10. 제8항에 있어서,
    상기 혼합모델은 아래 수식으로 표현되는 쌍태아의 접합성 타입을 결정하는 분석장치.
    Figure 112019134160931-pat00011

    (대립유전자의 유전자형은 각각 A 및 B로 표시하고, Ni는 리드의 깊이, b는 B 대립 유전자의 개수, pB는 BAF(B-Allele Frequency)이고, pA는 AAF(A-Allele Frequency)임)
  11. 삭제
  12. 제8항에 있어서,
    상기 연산장치는 상기 리드의 깊이가 1000 이상이고, 태아 분획이 0.1 이상인 경우, 상기 쌍태아의 접합성 타입을 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  13. 제8항에 있어서,
    상기 연산장치는 상기 복수의 SNP 각각에서
    상기 산모 및 쌍태아에 대한 유전자형을 조합하여 나올 수 있는 유전자형 세트에 대하여 각각 태아 분획과 SNP 자리에서의 유전자형 비율을 기준으로 상기 혼합모델의 확률값을 결정하고, 가장 높은 확률값을 가지는 모델을 해당 SNP 자리에서의 접합성 타입으로 결정하는 쌍태아의 접합성 타입을 결정하는 분석장치.
  14. 컴퓨터에서 제1항 및 제3항 내지 제7항 중 어느 하나의 항에 기재된 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020190175205A 2019-12-26 2019-12-26 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치 KR102162831B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190175205A KR102162831B1 (ko) 2019-12-26 2019-12-26 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190175205A KR102162831B1 (ko) 2019-12-26 2019-12-26 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Publications (1)

Publication Number Publication Date
KR102162831B1 true KR102162831B1 (ko) 2020-10-08

Family

ID=72897373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190175205A KR102162831B1 (ko) 2019-12-26 2019-12-26 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Country Status (1)

Country Link
KR (1) KR102162831B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023120783A1 (ko) * 2021-12-24 2023-06-29 주식회사 마크로젠 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130059733A1 (en) 2011-02-24 2013-03-07 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130059733A1 (en) 2011-02-24 2013-03-07 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
B. Zimmermann 외, "Non-invasive prenatal aneuploidy testing at chromosomes 13, 18, 21, X and Y(후략)", Prenat Diagn 32(13), 2012.12.* *
J. Zheng 외, "Effective Noninvasive Zygosity Determination by Maternal Plasma Target Region Sequencing", PLOS ONE, 8권, 6호, 2013.06.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023120783A1 (ko) * 2021-12-24 2023-06-29 주식회사 마크로젠 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치

Similar Documents

Publication Publication Date Title
EP3143537B1 (en) Rare variant calls in ultra-deep sequencing
US20190139623A1 (en) Display of estimated parental contribution to ancestry
KR102210852B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
Olshen et al. Parent-specific copy number in paired tumor–normal studies using circular binary segmentation
US11961589B2 (en) Models for targeted sequencing
US12006533B2 (en) Detecting cross-contamination in sequencing data using regression techniques
KR20200032127A (ko) 메틸롬 분석을 이용한 암 검출 및 분류
Onecha et al. A novel deep targeted sequencing method for minimal residual disease monitoring in acute myeloid leukemia
US11581062B2 (en) Systems and methods for classifying patients with respect to multiple cancer classes
EP3518974A1 (en) Noninvasive prenatal screening using dynamic iterative depth optimization
WO2023115662A1 (zh) 一种变体核酸的检测方法
KR102273257B1 (ko) 리드 깊이 기반한 유전자 복제수 변이 검출 기법 및 분석장치
KR102162831B1 (ko) 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
CN109461473B (zh) 胎儿游离dna浓度获取方法和装置
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
CN114531916A (zh) 确定精子提供者、卵母细胞提供者和对应受孕体之间的遗传关系的系统和方法
US9672271B2 (en) Method for identifying and employing high risk genomic markers for the prediction of specific diseases
WO2016112539A1 (zh) 确定胎儿核酸含量的方法和装置
Shah Computational methods for identification of recurrent copy number alteration patterns by array CGH
Quigley Equalizer reduces SNP bias in Affymetrix microarrays
US20160171151A1 (en) Method for determining read error in nucleotide sequence
WO2023120783A1 (ko) 혼합 모델을 이용한 쌍태아의 접합성 타입 결정 방법 및 분석 장치
EP4138003A1 (en) Neural network for variant calling
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant