KR101287400B1 - Dna 검색 방법 - Google Patents

Dna 검색 방법 Download PDF

Info

Publication number
KR101287400B1
KR101287400B1 KR1020110119404A KR20110119404A KR101287400B1 KR 101287400 B1 KR101287400 B1 KR 101287400B1 KR 1020110119404 A KR1020110119404 A KR 1020110119404A KR 20110119404 A KR20110119404 A KR 20110119404A KR 101287400 B1 KR101287400 B1 KR 101287400B1
Authority
KR
South Korea
Prior art keywords
search
str
data
query
selecting
Prior art date
Application number
KR1020110119404A
Other languages
English (en)
Other versions
KR20130053775A (ko
Inventor
김형용
강병철
박준형
이성찬
Original Assignee
(주)인실리코젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)인실리코젠 filed Critical (주)인실리코젠
Priority to KR1020110119404A priority Critical patent/KR101287400B1/ko
Priority to PCT/KR2012/004924 priority patent/WO2013073755A1/ko
Publication of KR20130053775A publication Critical patent/KR20130053775A/ko
Application granted granted Critical
Publication of KR101287400B1 publication Critical patent/KR101287400B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

본 발명은 시료 정보로부터 검색 대상의 시료를 선택하는 단계; 상기 검색 대상의 데이터 종류 중에서 mtDNA(미토콘트리아 DNA), A-STR(상염색체 STR), Y-STR(Y 염색체 STR) 중 어느 하나 또는 다수의 데이터를 선택하는 단계; 상기 선택된 데이터에 대한 허용 불일치수, 오차범위, 부분검색여부를 지정하는 단계; 및 상기 지정 단계에서 지정된 바에 따라, 상기 선택된 데이터에 대한 근사 검색을 실시하는 단계를 포함하는 DNA 검색 방법이 제공된다.
본 발명에 따르면, 실무적 목적의 검색을 위해 좌위별 불일치수를 지정하여 지정한 개수만큼의 좌위 불일치를 특정 오차범위 이내로 허용하는 검색 확장과 새로운 좌위에 대한 실험 결과를 검색에 포함하는 부분 검색 확장 방법을 제안하도록 하고, 돌연변이 혹은 실험오차, 신규 좌위의 추가와 같은 상황에 대해 중요한 결과를 놓치지 않고 검색해낼 수 있으며, 그만큼 느슨해진 식별력은 다른 검색조건과 조합하여 보강할 수 있으며, 특정 오차 범위 내 불일치수를 지정하고, 부분검색을 허용하는 데이터베이스 질의를 만들어 고속검색을 가능하게 하고, 기존의 방식에 비해 검색 속도를 향상시킬 수 있다.

Description

DNA 검색 방법{DNA SEARCHING METHOD}
본 발명은 DNA 검색 방법에 관한 것으로서, 보다 상세하게는 법의학 뿐 아니라 종 다양성을 연구하거나 육종학 등의 분야에서도 중요하게 사용되고, 특정 오차 범위 내 불일치수를 지정하고, 부분검색을 허용하는 데이터베이스 질의를 만들어 고속검색을 가능하게 하고, 기존의 방식에 비해 검색 속도를 향상시킬 수 있는 DNA 검색 방법에 관한 것이다.
유전적 변이의 누적과 유성생식으로 인해 일란성쌍둥이를 제외하고는 개체간 유전적 구성이 대부분 같지 않다. 이러한 유전적 구성의 차이는 생물종을 구분하거나 혹은 육종학 등의 분야에서 품종을 구분하는데 이용할 수 있으며, 더 나아가 개체간의 차이를 식별하여 특정 개체가 그 개체가 맞는지 확인하는데 이용할 수 있다. 실제로 인간의 유전체는 개체간에 약 0.1%정도 다르다고 알려져 있으며 이것은 각 개체간의 차이를 만드는 기본 요소가 된다.
이러한 유전적 다양성을 이용하여 개체 간 차이를 식별하는 것을 DNA 프로파일링(DNA profiling)이라고 한다. DNA 타이핑(DNA typing), DNA 테스팅(DNA testing), DNA 핑거프린팅(DNA fingerprinting)이라는 용어로도 사용되고 있다.
DNA 프로파일(DNA profile)이란 유전체내에 개체마다 다른 구성을 갖고 있는 부분들의 일련의 집합을 말하며 전장 유전체 서열 결정(Full genome sequencing)과는 다르다. 1984년 영국 Leicester 대학의 Alec Jeffreys가 처음 보고한 이후, 최근 분자생물학 기술의 발달과 함께 법정에서 중요한 증거확인 자료로 활용되고 있다.
최초 DNA 프로파일링에 사용한 방법은 RFLP(Restriction Fragment Length Polymorphism)이였다. 유전체를 제한효소로 절단 후 Southern blot 분석을 통해 유전체내 짧은 반복서열(Short Tendom Repeat, 이하 'STR'이라 함)의 개체간 차이를 확인하였다. 이는 PCR(Polymerase Chain Reaction)을 통해 직접 STR 반복 횟수를 알아내는 방식으로 발전하였고, 최근에는 직접 단일염기변이(Single Nucleotide Polymorphism, 이하, 'SNP'라 함)을 확인해 볼 수 있는 기술까지 발전하였다. 현재는 주로 상염색체, 성염색체의 STR, SNP 차이를 보는 방법과 미토콘드리아 SNP 차이를 보는 방법을 조합하여 식별력을 높이고 있다.
상염색체 STRs는 가장 널리 사용되며, 식별력에 대한 통계적 근거가 잘 알려진 방법으로서, 상염색체의 STR 차이를 확인하는 것이다. 하나의 STR 좌위 10여개의 많지 않은 대립유전자들이 존재하기 때문에 그것만으로 식별하기는 어렵지만, 여러 개의 STR 좌위를 동시에 분석하고 이 확률을 서로 곱하게 되면 기하급수적으로 높은 식별력을 확보할 수 있다. 하지만, 다수의 좌위를 독립적으로 PCR 후 각각을 일일이 분석하는 것은 많은 노동력과 시간을 필요로 한다. 최근에는 Multiplex STR 분석을 통해 10여개 이상의 STR 좌위를 하나의 튜브에서 분석할 수 있게 되었으며 이 방법으로 인해 DNA 프로파일링 기술이 널리 사용될 수 있었다. 상염색체의 STR이기 때문에 부모에게서 각각 전달받은 한 쌍의 대립유전자를 포함하게 된다. 미국 FBI에서 이용하는 CODIS 의 13개 좌위가 세계적으로 널리 알려져 있으며, 계속하여 좌위가 추가되고 있다. 아래의 표 1은 특정 개인(홍길동)의 DNA 프로파일 상염색체 STR 결과이다.
검사대상자 STR 좌위 대립유전자1 대립유전자2 발생빈도
홍길동 CSF1PO 13 12 0.056
D5S818 13 13 0.051
D7S820 12 8 0.052
D12S317 12 8 0.089
TH01 7 7 0.061
TPOX 12 8 0.025
vWA 18 18 0.033
D3S1358 18 17 0.033
D8S1179 15 11 0.024
D16S3253 9 9 0.004
D18S51 16 13 0.032
D21S11 32.2 30 0.057
FGA 23 21 0.063
PentaD 12 11 0.050
PentaE 12 10 0.006
D12S391 20 17 0.043
D14S608 12 11 0.066
결합 발생빈도 2.19 x 10-15
Y염색체 STRs는 Y염색체가 상염색체와 다르게 남자에게만 전달되며, 따라서 재조합(Recombination)도 일어나지 않는데, 남자 여자가 섞인 시료에서 남자의 DNA만을 추출하거나, 수 세대에 걸친 부계혈통의 확인, 가족확인시 상염색체 STR의 식별만으로 부족할 때 식별력 보강을 위해 추가로 확인하고자 할 때 사용한다. 전세계의 주요 집단별 Y-STR만 데이터베이스화 한 YHRD 데이터베이스가 널리 알려져 있다. 아래의 표 2는 잘 열려진 Y-STR 좌위에 대한 설명이다.
STR 좌위 DNA 서열 반복 모티브 대립유전자 돌연변이율
DYS385 GAAA 7 - 28 0.00226
DYS389 TCT(GA) 10 - 16 0.00022
DYS393 AGAT 9 - 17 0.00076
DYS394 TAGA 10 - 19 0.00151
DYS439 AGAT 9 - 14 0.00477
DYS454 AAAT 10 - 12 0.00016
DYS459 TAAA 8 - 12 0.00016
DYS464 CCTT 9 - 20 0.00566
또한, mtDNA SNPs는 미토콘드리아가 일반 세포내에 존재하는 세포내 소기관이며 별도의 유전체를 갖고 있고, 인간 미토콘드리아 유전체는 약 16K 크기이며, 유전자를 코딩하지 않는 별도의 잦은 변이영역(HV1, HV2, HV3)이 존재하며, 이 변이영역내 SNP를 비교하여 동일인인지 가족인지 확인할 수 있도록 한다. 미토콘드리아는 모계유전을 하기 때문에, 모자(녀)관계의 가족확인에 추가 데이터로 이용할 수 있다. 고고학에도 많이 활용된다.
상염색체 SNPs는 식별력을 높힐 목적, 혹은 특정 유전형질과의 연관여부를 확인하기 위해 확장되고 있다. 심각하게 시료가 훼손되어 있는 경우, STR데이터를 획득하기 어려울 수 있으며, 이 경우 사용될 수 있다.
또한, DNA 프로파일링 결과가 법정에서 효력을 인정받기 위해서는 엄밀한 통계확률계산 기반이 필요하다. STR의 경우 주요 집단별로 대립유전자 빈도를 계산하여 이를 통해 특정 개체가 그 개체인지 확인하는 통계적 근거로 사용한다.
한편, 범죄자 데이터베이스를 별도로 만들거나, 실종아동 데이터베이스를 만들어 개체별 데이터를 보관할 수 있다.
개체별 DNA 프로파일은 데이터베이스에 저장되어 특정 두 프로파일이 같은 개체인지 부모자식관계에 있는 개체인지 검사할 수 있으며, 또한 특정 한 프로파일로부터 저장된 데이터베이스내에 동일한 프로파일이 있는지 혹은 부모자식관계에 있는 프로파일이 존재하는지 확인할 수 있다.
동일성 검사와 검색은 특정 두 프로파일의 동일성 여부를 검사하는 것을 말한다. 각각의 유전좌위별로 대립유전자가 모두 일치하여야 한다. 확률이론에 의해 두 개체가 동일하기 위해서는 모든 좌위의 대립유전자가 일치해야 한다. 하나라도 다른 경우 두 개체가 같은 개체라고 할 수 없으며, 모두 같더라도 다른 개체임에도 우연히 같은 프로파일을 가질 확률이 존재한다. 동일성 검색은 특정 프로파일과 동일한 프로파일을 데이터베이스에서 검색하는 것을 말한다.
부모자식관계 검사와 검색은 특정 두 프로파일의 부모자식관계 여부를 검사하는 것을 말한다. 성염색체 STR의 경우 모든 대립유전자가 그대로 유전되기 때문에 동일성 검사와 마찬가지로 각각 좌위별 대립유전자가 일치해야 하지만, 상염색체 STR의 경우 50%만을 전달하기 때문에 각각 좌위별로 대립유전자 공유여부를 확인해야 한다. 우연히 두 개체가 모든 좌위에 대립유전자를 공유할 확률이 동일성 검사에 비해 높다. 부모자식관계 검색은 특정 프로파일과 부모자식관계에 있는 프로파일을 데이터베이스에서 검색하는 것을 말한다.
동일한 프로파일이나 좌위별 대립유전자를 공유하는 프로파일을 검색하는 경우, 검색의 목적에 따라 다양한 검색 옵션이 필요하다. 모든 실험결과가 정확하고 또 돌연변이가 없다면 단순히 좌위별 대립유전자의 정확한 일치 혹은 공유만을 검색하면 되겠지만 현실은 그렇지 않다. 부모자식관계의 경우, 돌연변이에 의해 특정 좌위의 대립유전자 반복수가 바뀌어 자식에게 전달되기도 한다는 사실이 보고된 바 있으며, DNA 프로파일 실험이 정밀하게 진행된다 하더라도 영상처리를 통해 얻어지는 STR 반복수 수치값에는 오차가 존재한다. 따라서 검색조건을 조금 더 느슨하게 하여 검색결과를 늘린 후 또 다른 검색조건과 결합하면 중요한 검색결과를 놓치지 않을 수 있다.
한편, DNA 프로파일을 구성하는 전체 좌위의 개수 가운데 원하는 개수 만큼은 일치하지 않아도 되도록 허용하는 것은 불일치수를 의미한다. STR 실험오차로 정확하게 일치하지 않을 가능성과 부모자식관계검색시 돌연변이에 의해 달라진 좌위를 검색에 허용하는 것이다. 이때 불일치하더라도 특정 오차범위내에서만 다르도록 제한하는 것은 필요하다. 정수형 STR 반복수(일부 좌위는 부분 반복도 포함하여 실수형이어야 한다) 데이터가 돌연변이 혹은 실험오차로 인해 크게 차이나지 않을 것이므로 원하는 오차범위이내로만 불일치를 허용하도록 해야한다.
CODIS 등 예전의 A-STR 좌위는 8개 정도만이 사용되었고, 당시의 데이터가 데이터베이스에 존재한다. 최근에는 식별력을 보강하기 위해 몇 개의 좌위가 추가되었고, 계속적으로 추가될 예정이다. 하지만 새로운 좌위에 대한 실험결과가 존재하지 않는 이전 데이터에 대해서도 검색해내기 위해서는 부분검색의 방법이 필요하다. 즉, 존재하지 않는 좌위에 대해서는 일치여부를 검사하지 않고 불일치한 좌위에 대해서만 해당 프로파일을 제외하는 방식으로 검색을 수행해야 한다.
그러나, 특정 오차 범위내의 불일치수를 지정하는 검색방법과 부분검색의 허용은 일반적인 데이터베이스 질의를 만들어내기 어렵다. 따라서 이러한 목적의 검색을 위해 데이터베이스 질의를 사용하기 대신 일일이 모든 레코드와 비교하는 방법을 사용하게 되며 이 경우 검색에 많은 시간이 소요된다.
한국공개특허 제10-2010-0067492호(2010.6.21.공개)
상기한 바와 같은 종래의 문제점을 해결하기 위하여, 본 발명은 실무적 목적의 검색을 위해 좌위별 불일치수를 지정하여 지정한 개수만큼의 좌위 불일치를 특정 오차범위 이내로 허용하는 검색 확장과 새로운 좌위에 대한 실험 결과를 검색에 포함하는 부분 검색 확장 방법을 제안한다.
또한, 본 발명을 통해, 돌연변이 혹은 실험오차, 신규 좌위의 추가와 같은 상황에 대해 중요한 결과를 놓치지 않고 검색해낼 수 있으며, 그만큼 느슨해진 식별력은 다른 검색조건과 조합하여 보강할 수 있다.
또한, 본 발명은 특정 오차 범위 내 불일치수를 지정하고, 부분검색을 허용하는 데이터베이스 질의를 만들어 고속검색을 가능하게 하고, 기존의 방식에 비해 검색 속도를 향상시키도록 한다.
본 발명의 다른 목적들은 이하의 실시예에 대한 설명을 통해 쉽게 이해될 수 있을 것이다.
상기한 바와 같은 목적을 달성하기 위해, 본 발명의 일 측면에 따르면, DNA 검색 방법에 있어서, 시료정보 저장부(11)에 저장된 시료 정보로부터 웹 입출력 인터페이스 장치에 의해 검색 대상의 시료를 선택하기 위한 입력을 수신받는 단계; 상기 검색 대상의 데이터 종류 중에서 mtDNA(미토콘트리아 DNA), A-STR(상염색체 STR), Y-STR(Y 염색체 STR) 중 어느 하나 또는 다수의 데이터를 상기 웹 입출력 인터페이스 장치에 의해 선택하기 위한 입력을 수신받는 단계; 상기 선택된 데이터에 대한 허용 불일치수, 오차범위, 부분검색여부의 지정에 따라 DNA 검색 시스템(10)에 의해 상기 선택된 데이터에 대한 근사 검색을 실시하는 단계를 포함하고, 상기 데이터를 선택하는 단계에서 mtDNA, A-STR, Y-STR 중에서 다수를 선택한 경우, 상기 선택된 데이터에 대한 근사 검색을 각각 실시하여 획득된 검색 결과로부터 교집합을 산출하는 단계를 더 포함하고, 상기 데이터를 선택하는 단계에서 mtDNA 데이터를 선택한 경우, 상기 근사 검색에서 mtDNA의 근사 검색을 실시하는 단계를 포함하고, 상기 mtDNA의 근사 검색을 실시하는 단계는, mtDNA 데이터베이스로부터 쿼리용 mtDNA 데이터를 추출하는 단계; 및 상기 mtDNA 데이터와 쿼리의 대립유전자(P)의 정확한 일치개수가 쿼리의 대립유전자(P)의 좌위수와 불일치수(dismach count; d)의 차이보다 큰 집합(D)을 산출하는 단계를 포함하고, 상기 집합(D)을 산출하는 단계에서 부분 검색시 쿼리의 대립유전자(P)에는 있으나, mtDNA의 데이터베이스에는 없는 좌위를 제외하는 단계를 더 포함하며, 상기 데이터를 선택하는 단계에서 A-STR 데이터를 선택한 경우, 상기 근사 검색에서 A-STR의 근사 검색을 실시하는 단계를 포함하고, 상기 A-STR의 근사 검색을 실시하는 단계는, A-STR 데이터베이스로부터 쿼리용 A-STR 데이터를 추출하는 단계; 상기 A-STR 데이터와 쿼리의 대립유전자(P)와 정확한 일치 또는 공유 개수가 쿼리의 대립유전자(P)의 좌위수와 불일치(d)의 차이보다 큰 집합(D)을 산출하는 단계; 상기 쿼리의 대립유전자(P)의 허용오차(permit range; r) 범위 내로 일치 또는 공유하는 개수가 쿼리의 대립유전자(P)의 좌위수와 같은 집합(R)을 산출하는 단계; 및 상기 집합들(D,R)에 대한 교집합을 산출하는 단계를 포함하고, 상기 집합(D,R)을 각각 산출하는 단계에서, 부분 검색시 쿼리의 대립유전자(P)에는 있으나, A-STR의 데이터베이스에는 없는 좌위를 제외하는 단계를 더 포함하는 DNA 검색 방법이 제공된다.
상기 시료를 선택하는 단계 이후 상기 시료에 대한 검색 방법을 선택하는 단계를 더 포함하고, 상기 시료의 검색 방법을 선택하는 단계는, 동일성 검색과 부모자식관계 검색 중 어느 하나일 수 있다.
삭제
삭제
삭제
삭제
상기 A-STR의 근사 검색을 실시하는 단계는, 산출되는 결과를 첫째 정렬조건으로 일치율로 정렬하고, 둘째 정렬조건으로 친부지수 또는 동일성 지수로 정렬하여 출력할 수 있다.
삭제
본 발명에 따른 DNA 검색 방법에 의하면, 실무적 목적의 검색을 위해 좌위별 불일치수를 지정하여 지정한 개수만큼의 좌위 불일치를 특정 오차범위 이내로 허용하는 검색 확장과 새로운 좌위에 대한 실험 결과를 검색에 포함하는 부분 검색 확장 방법을 제안하도록 하고, 돌연변이 혹은 실험오차, 신규 좌위의 추가와 같은 상황에 대해 중요한 결과를 놓치지 않고 검색해낼 수 있으며, 그만큼 느슨해진 식별력은 다른 검색조건과 조합하여 보강할 수 있으며, 특정 오차 범위 내 불일치수를 지정하고, 부분검색을 허용하는 데이터베이스 질의를 만들어 고속검색을 가능하게 하고, 기존의 방식에 비해 검색 속도를 향상시킬 수 있다.
도 1은 본 발명에 따른 DNA 검색 방법을 도시한 흐름도이고,
도 2는 본 발명에 따른 DNA 검색 방법을 위한 시스템을 도시한 구성도이고,
도 3은 본 발명에 따른 DNA 검색 방법의 mtDNA 근사방법을 도시한 흐름도이고,
도 4는 본 발명에 따른 DNA 검색 방법의 A-STR 근사 방법을 도시한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고, 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니고, 본 발명의 기술 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 식으로 이해 되어야 하고, 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 하기 실시예에 한정되는 것은 아니다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시예를 상세히 설명하며, 도면 부호에 관계없이 동일하거나 대응하는 구성요소에 대해서는 동일한 참조 번호를 부여하고, 이에 대해 중복되는 설명을 생략하기로 한다.
도 1은 본 발명에 따른 DNA 검색 방법을 도시한 흐름도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 DNA 검색 방법은 시료 정보로부터 검색 대상의 시료를 선택하는 단계(S10)와, 검색 대상의 데이터 종류 중에서 mtDNA(미토콘트리아 DNA), A-STR(상염색체 STR), Y-STR(Y 염색체 STR) 중 어느 하나 또는 다수의 데이터를 선택하는 단계(S30)와, 선택된 데이터에 대한 허용 불일치수, 오차범위, 부분검색여부를 지정하는 단계(S40,S50,S60)와, 지정 단계(S40,S50,S60)에서 지정된 바에 따라, 선택된 데이터에 대한 근사 검색을 실시하는 단계(S70,S80,S90)를 포함할 수 있다.
한편, 도 2에 도시된 바와 같이, 본 발명에 따른 DNA 검색 방법의 실시를 위한 시스템(10)은 시료정보가 저장된 시료정보 저장부(11)와, 시료에 대한 STR 마커(12)와, mtDNA(미토콘리아 DNA) 데이터베이스(13)와, A-STR(상염색체 STR) 데이터베이스(14)와, Y-STR(Y염색체 STR) 데이터베이스(15)를 포함할 수 있다. 여기서, 웹 입출력 인터페이스 장치(20)를 통해서 사용자가 직접 데이터를 입력할 수 있으며, DNA 실험장비(30)에서 획득한 원본 크로마토그램파일(40)을 일괄 입력하거나, 데이터CSV 일괄 입출력장치(50)에 의해 파일 형태로 일괄 출력할 수 있다.
DNA 프로파일 검사는 1:1로 동일성 또는 부모자식관계 여부를 확인할 수 있으며, 검사 결과는 보고서로 출력된다. 또한, DNA 프로파일 고속 근사 검색은 특정 프로파일과 근사한 프로파일을 고속으로 검색한다. 한편, 실험 스태프에 의해 DNA가 오염되었을 경우를 가정하여 이를 체크하는 과정이 추가될 수 있다. 또한, DNA 프로파일 일괄 검색은 검사할 대상을 일괄로 선택하여 다:다 검색을 수행한다. 전체데이터대 전체데이터 등 대량 검색을 한번에 수행해야하므로 시간이 더 소요될 수 있으며, 이 프로세스를 별도로 관리하기 위한 프로세스 큐 관리를 수행한다. 검색진행상황 표시 및 검색중단명령 일괄검색결과는 별도의 보고서로 출력될 수 있다.
한편, 시료를 선택하는 단계(S10) 이후 시료에 대한 검색 방법을 선택하는 단계(S20)를 더 포함할 수 있고, 이러한 시료의 검색 방법을 선택하는 단계(S20)는 동일성 검색과 부모자식관계 검색 중 어느 하나일 수 있다.
데이터를 선택하는 단계(S30)에서 mtDNA, A-STR, Y-STR 중에서 검색을 원하는 다수의 데이터를 중복하여 선택할 수 있는데, 이 경우 선택된 데이터 각각에 대한 허용 불일치수, 오차범위, 부분검색여부를 지정할 수 있다(S40,S50,S60). 이러한 지정 단계(S40,S50,S60)는 불일치하는 대립유전자의 허용 개수와 불일치하더라도 일정 범위 이내로만 불일치하도록 하는 검색조건 지정검색대상이 보유하지 않은 좌위에 부분검색을 지정할 수 있다. 또한, 데이터를 선택하는 단계(S30)에서 mtDNA, A-STR, Y-STR 중에서 검색을 원하는 다수의 데이터를 선택하는 경우, 선택된 데이터에 대한 근사 검색을 각각 실시하여(S70,S80,S90) 획득된 검색 결과로부터 교집합을 산출하는 단계(S100)를 더 포함하고, 이의 결과를 출력장치, 예컨대 디스플레이장치나 프린터를 통하여 출력할 수 있다.
또한, 데이터를 선택하는 단계(S30)에서 mtDNA 데이터를 선택한 경우, 근사 검색(S70,S80,S90)에서 mtDNA의 근사 검색을 실시하는 단계(S70)를 포함할 수 있다.
mtDNA의 근사 검색을 실시하는 단계(S70)는 도 3에 도시된 바와 같이, mtDNA 데이터베이스(13)에서 쿼리용 mtDNA 데이터를 추출하는 단계(S71)와, mtDNA 데이터와 쿼리의 대립유전자(P)의 정확한 일치개수가 쿼리의 대립유전자(P)의 좌위수와 불일치수(dismach count; d)의 차이보다 큰 집합(D)을 산출하는 단계(S72)를 더 포함할 있고, 나아가서, 집합(D)을 산출하는 단계(S72)에서 부분 검색시 쿼리의 대립유전자(P)에는 있으나, mtDNA의 데이터베이스에는 없는 좌위를 제외하는 단계(S73)를 더 포함할 수 있으며, 유전좌위(마커) 대신에 유전체상의 위치가 사용되며, 대립유전자가 실수값이 아닌 문자열일 수 있다.
mtDNA의 근사 검색을 실시하는 단계(S70)에 의한 검색 결과는 일치율, 즉, 일치좌위수/검색대상 좌위수로 정렬될 수 있다.
또한, 데이터를 선택하는 단계(S30)에서 A-STR 데이터를 선택한 경우, 근사 검색(S70,S80,S90)에서 A-STR의 근사 검색을 실시하는 단계(S80)를 포함할 수 있다.
A-STR의 근사 검색을 실시하는 단계(S80)는 도 4에 도시된 바와 같이, A-STR 데이터베이스로부터 쿼리용 A-STR 데이터를 추출하는 단계(S81)와, A-STR 데이터와 쿼리의 대립유전자(P)와 정확한 일치 또는 공유 개수가 쿼리의 대립유전자(P)의 좌위수와 불일치(d)의 차이보다 큰 집합(D)을 산출하는 단계(S82)와, 쿼리의 대립유전자(P)의 허용오차(permit range; r) 범위 내로 일치 또는 공유하는 개수가 쿼리의 대립유전자(P)의 좌위수와 같은 집합(R)을 산출하는 단계(S83)와, 집합들(D,R)에 대한 교집합을 산출하는 단계(S84)를 포함할 수 있고, 나아가서, 집합(D,R)을 각각 산출하는 단계(S82,S83)에서, 부분 검색시 쿼리의 대립유전자(P)에는 있으나, A-STR의 데이터베이스에는 없는 좌위를 제외하는 단계(S85)를 더 포함할 수 있다.
A-STR의 근사 검색을 실시하는 단계(S80)에서, 동일성 검사시에는 일치여부이며, 부모자식관계 검색시에는 공유여부이고, 산출되는 결과를 첫째 정렬조건으로 일치율로 정렬하고, 둘째 정렬조건으로 친부지수 또는 동일성 지수로 정렬하여 출력할 수 있다. 따라서, 산출 결과를 유익한 결과로 제공하게 된다. 즉, 검색결과의 첫번째 정렬 조건으로는 일치율을 이용하고, 허용불일치가 0인 경우 일치율은 100%이다. 또한, 산출되는 결과를 두번째 정렬조건으로 친부지수(부계지수) 또는 동일성 지수를 사용할 수 있다. 친부지수 및 동일성 지수는 인구집단별 대립유전자빈도 데이터를 이용하여 계산한다.
A-STR의 근사 검색을 실시하는 단계(S80)에 의한 검색 결과는 일치율, 즉, 일치좌위수/검색대상 좌위수로 정렬될 수 있다.
또한, 데이터를 선택하는 단계(S30)에서 Y-STR 데이터를 선택한 경우, 근사 검색(S70,S80,S90)에서 Y-STR의 근사 검색을 실시하는 단계(S90)를 포함할 수 있는데, Y-STR의 근사 검색을 실시하는 단계(S90)는 A-STR의 근사 검색을 실시하는 단계(S80)와 동일하되, 친자검색시 공유여부가 아닌 일치여부를 사용해야 하는 점이 A-STR의 근사 검색을 실시하는 단계(S80)와 다르다.
본 발명에 따른 DNA 검색 방법의 구체적인 방법을 설명하면 다음과 같다.
검색속도 향상을 위해서는 도 5에 도시된 바와 같이, 효과적인 데이터모델링이 필수적인 요소이다. 중복없이 효율적으로 데이터를 관리할 수 있어야 하며, 대량의 데이터가 누적되어도 검색 효율이 높아야 한다. 본 발명의 설명을 용이하게 하기위해 검색속도향상과 관련된 부분만을 간략화하여 모델링하도록 한다. 좌위가 동적으로 추가 가능하도록 별도의 테이블로 구성하는 것이 본 모델의 가장 큰 특징이다. 위 모델에 의하면 특정 개체의 시료(Sample)는 여러 개의 STR 결과값들을 가지게 되며, 각각의 STR 값들은 특정 좌위(Locus)에서 유래한다. 각각의 좌위는 type 속성을 통해 A-STR인지, Y-STR, X-STR 인지 정보를 저장한다.
본 데이터모델에 사용될 예제 데이터를 아래에서와 같이 표시한다. 아래의 표 3은 샘플 테이블이고, 표 4는 STR 테이블이고, 표 5는 Locus 테이블이고, 표 6은 Allele Frequency 테이블이다.
id description
sid01 실종아동 김모군
sid02 실종아동 최모군
sid03 실종아동 부모 김씨
sid04 실종아동 부모 최씨
sampleid locusname allele1 allele2
sid01 CSF1PO 13 12
sid01 D5S818 13 13
sid01 D7S820 12 8
sid02 CSF1PO 12 11
sid02 D5S818 9 10
sid02 D21S11 32.2 30
locusname type
CSF1PO A
D5S818 A
D7S820 A
DYS456 Y
DYS389I Y
HPRTB X
locusname allele frequency
CSF1PO 12 0.12
CSF1PO 13 0.15
CSF1PO 11 0.18
D7S820 12 0.12
D7S820 8 0.21
D7S820 9 0.23
위 예제데이터를 통해 본 발명에 이용할 데이터모델을 자세히 이해할 수 있다. 본 발명의 핵심은 특정 시료와 동일하거나 부모자식관계에 있는 시료를 Str 테이블, Locus 테이블을 이용하여 빠르게 찾는 것이다.
한편, 관계대수(Relational algebra)는 테이블에서 튜플(Tuple)을 검색하기 위해 필요한 연산자를 모아 테이블간의 관계를 대수(Algebra)로 표현한 것인데, 관계대수를 사용하면, 데이터의 관계로부터 원하는 검색 질의의 과정을 명확하게 표시할 수 있다. 일반적인 DBMS(Database Management System)의 SQL(Structured Query Language)은 선언적(declarative) 표현이므로 무엇(what)을 질의하는지에 대해 알려주지만 어떻게(how) 계산되는지에 대해서는 알려주지 않는다. 본 발명은 DNA 프로파일 고속검색의 질의방법을 관계대수로 설명한다.
관계대수는 기본적으로 8개의 연산자로 구성된다. 즉, 집합연산자로서, 합집합, 교집합, 차집합, 카테시안 곱, 그리고, 관계연산자로서, Selection, Projection, Join, Division이다.
본 데이터베이스에 특정 시료가 갖고 있는 모든 STR 결과값 S를 질의하는 것을 관계대수로 표기하면 Str 테이블과 Sample 테이블의 조인(Join)연산이므로 아래의 수학식 1처럼 표기할 수 있다.
Figure 112011090461972-pat00001
A라는 시료(Sample)가 갖고 있는 모든 좌위의 집합 LA는 아래의 수학식 2처럼 표기할 수 있다.
Figure 112011090461972-pat00002
유사한 방법으로 A시료의 DNA 프로파일은 A시료가 갖고 있는 모든 좌위별 STR 결과값 집합 PA라고 할 수 있으며 아래의 수학식 3처럼 표시할 수 있다. (allele1 필드의 값을 x, allele2 필드의 값을 y라고 하면)
Figure 112011090461972-pat00003
여기에서 (x 1 A , y 1 A )는 아래의 수학식 4를 의미한다.
Figure 112011090461972-pat00004
이를 토대로 A시료와 동일한 DNA프로파일을 갖는 시료의 목록을 검색하는 질의는 아래의 수학식 5처럼 만들 수 있다.
Figure 112011090461972-pat00005
같은 원리로 A시료와 친자관계에 있는 DNA프로파일을 검색하는 질의는 아래의 수학식 6처럼 만들 수 있다.
Figure 112011090461972-pat00006
부모자식관계 검색의 경우, 대립유전자 모두가 일치하는 것이 아닌 하나만 공유하면 되는 관계이므로, 두 대립유전자 가운데 하나만 공유하면 되도록 논리합 연산을 이용하여 검색질의를 한다.
위 검색질의는 정확하게 일치하는 검색결과만을 질의하게 된다. 사용자가 몇 개까지 불일치한 정도를 선택할 수 있도록 하는 검색질의는 아래의 수학식 7처럼 확장이 가능하다. 불일치수를 d라고 하고, 특정 불일치수 만큼 불일치를 허용하는 검색결과를 D라고 하면,
Figure 112011090461972-pat00007
위 수식에서 d를 0으로 하면 전체 좌위갯수만큼 일치하는 검색결과를 얻게되며 d를 늘리면서 원하는 좌위갯수만큼 불일치한 정도를 허용할 수 있다. 반면 오차범위를 r이라고 하여 특정 오차범위 이내로 전체 좌위가 일치하는 검색결과 R은 아래의 수학식 8과 같다.
Figure 112011090461972-pat00008
본 발명에서 고안한 동일성 검색결과 I(특정 불일치수만큼 불일치를 허용하면서, 불일치하더라도 특정 오차범위이내로만 불일치한 동일 프로파일 집합)는 아래의 수학식 9에서와 같이 D와 R의 교집합이다.
Figure 112011090461972-pat00009
부모자식관계검색의 경우 동일성검색과 유사하다. 두 대립유전자가 모두 일치하는 것이 아닌 하나만 일치하면 부모자식관계라고 할 수 있다. 불일치수를 d라고 하고, 특정 불일치수 만큼 불일치를 허용하는 검색결과를 D라고 하면, 수학식 10과 같다.
Figure 112011090461972-pat00010
반면 오차범위를 r이라고 하여 특정 오차범위 이내로 전체 좌위가 일치하는 검색결과 R은 수학식 11과 같다.
Figure 112011090461972-pat00011
본 발명에서 부모자식관계 검색결과 C(특정 불일치수만큼 불일치를 허용하면서, 불일치하더라도 특정 오차범위이내로만 불일치한 부모자식관계 집합)는 수학식 12에서와 같이, D와 R의 교집합이다.
Figure 112011090461972-pat00012
지금까지의 검색식은 모두 검색대상의 모든 STR 좌위에 대해 일치 혹은 공유여부를 고려하였다. 하지만 이 검색방법은 만일 검색대상이 17개의 좌위에 대한 실험결과가 있으며, 실제 데이터베이스에는 15개 좌위에 대한 실험결과만이 존재한다면 아무것도 검색해낼 수 없다. 즉, 존재하지 않는 좌위에 대해서는 일치(공유)여부를 검사하지 않고 불일치한 좌위에 대해서만 해당 프로파일을 제외하는 방식으로 검색을 수행해야 할 경우가 있다.
따라서, 부분검색 옵션을 사용할 경우 위 검색식은 존재하지 않는 좌위에 대한 고려를 적용해야 한다. 동일성 검색의 D 집합과 R 집합은 다음의 수학식 13 및 수학식 14처럼 변경되어야 한다.
Figure 112011090461972-pat00013
Figure 112011090461972-pat00014
부모자식관계 검색의 D 집합과 R 집합도 다음처럼 변경된다.
Figure 112011090461972-pat00015
Figure 112011090461972-pat00016
본 발명의 검색질의를 쓰지 않을 경우, 데이터베이스의 전체 항목들에 대해 불일치수와 오차범위에 대해 직접 비교하는 방식을 사용해야 한다. 본 발명에서는 다음과 같은 방법으로 두 가지 검색방법을 구현하고 이를 속도 비교해 보았다.
관계형 데이터베이스는 PostgreSQL을 사용하였으며 프로그래밍 언어 Python을 이용하여 본 검색질의를 사용하지 않은 경우와, 사용한 경우의 속도를 비교해 보면 도 6과 같다. 또한, 불일치수 1, 허용오차 1일 경우 부모자식관계 검색 시 데이터베이스내 저장된 레코드수를 늘려가며 검색시간 측정하였으며, 도 7과 같다. 이때, CPU 800MHz, 2G RAM, 10회 계산 평균이 반영되었다.
이와 같이 첨부된 도면을 참조하여 본 발명을 설명하였으나, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 수정 및 변형이 이루어질 수 있음은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안되며, 후술하는 특허청구범위뿐만 아니라 이러한 특허청구범위와 균등한 것들에 의해 정해져야 한다.
10 : DNA 검색 시스템 11 : 시료 정보 저장부
12 :STR 마커 13 : mtDNA 데이터베이스
14 :A-STR 데이터베이스 15 :Y-STR 데이터베이스

Claims (8)

  1. DNA 검색 방법에 있어서,
    시료정보 저장부(11)에 저장된 시료 정보로부터 웹 입출력 인터페이스 장치에 의해 검색 대상의 시료를 선택하기 위한 입력을 수신받는 단계;
    상기 검색 대상의 데이터 종류 중에서 mtDNA(미토콘트리아 DNA), A-STR(상염색체 STR), Y-STR(Y 염색체 STR) 중 어느 하나 또는 다수의 데이터를 상기 웹 입출력 인터페이스 장치에 의해 선택하기 위한 입력을 수신받는 단계;
    상기 선택된 데이터에 대한 허용 불일치수, 오차범위, 부분검색여부의 지정에 따라 DNA 검색 시스템(10)에 의해 상기 선택된 데이터에 대한 근사 검색을 실시하는 단계를 포함하고,
    상기 데이터를 선택하는 단계에서 mtDNA, A-STR, Y-STR 중에서 다수를 선택한 경우, 상기 선택된 데이터에 대한 근사 검색을 각각 실시하여 획득된 검색 결과로부터 교집합을 산출하는 단계를 더 포함하고,
    상기 데이터를 선택하는 단계에서 mtDNA 데이터를 선택한 경우, 상기 근사 검색에서 mtDNA의 근사 검색을 실시하는 단계를 포함하고,
    상기 mtDNA의 근사 검색을 실시하는 단계는,
    mtDNA 데이터베이스로부터 쿼리용 mtDNA 데이터를 추출하는 단계; 및 상기 mtDNA 데이터와 쿼리의 대립유전자(P)의 정확한 일치개수가 쿼리의 대립유전자(P)의 좌위수와 불일치수(dismach count; d)의 차이보다 큰 집합(D)을 산출하는 단계를 포함하고, 상기 집합(D)을 산출하는 단계에서 부분 검색시 쿼리의 대립유전자(P)에는 있으나, mtDNA의 데이터베이스에는 없는 좌위를 제외하는 단계를 더 포함하며,
    상기 데이터를 선택하는 단계에서 A-STR 데이터를 선택한 경우, 상기 근사 검색에서 A-STR의 근사 검색을 실시하는 단계를 포함하고,
    상기 A-STR의 근사 검색을 실시하는 단계는,
    A-STR 데이터베이스로부터 쿼리용 A-STR 데이터를 추출하는 단계; 상기 A-STR 데이터와 쿼리의 대립유전자(P)와 정확한 일치 또는 공유 개수가 쿼리의 대립유전자(P)의 좌위수와 불일치(d)의 차이보다 큰 집합(D)을 산출하는 단계; 상기 쿼리의 대립유전자(P)의 허용오차(permit range; r) 범위 내로 일치 또는 공유하는 개수가 쿼리의 대립유전자(P)의 좌위수와 같은 집합(R)을 산출하는 단계; 및 상기 집합들(D,R)에 대한 교집합을 산출하는 단계를 포함하고, 상기 집합(D,R)을 각각 산출하는 단계에서, 부분 검색시 쿼리의 대립유전자(P)에는 있으나, A-STR의 데이터베이스에는 없는 좌위를 제외하는 단계를 더 포함하는 것을 특징으로 하는 DNA 검색 방법.
  2. 제 1 항에 있어서, 상기 시료를 선택하는 단계 이후 상기 시료에 대한 검색 방법을 선택하는 단계를 더 포함하고,
    상기 시료의 검색 방법을 선택하는 단계는,
    동일성 검색과 부모자식관계 검색 중 어느 하나인 것을 특징으로 하는 DNA 검색 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제 1 항에 있어서, 상기 A-STR의 근사 검색을 실시하는 단계는,
    산출되는 결과를 첫째 정렬조건으로 일치율로 정렬하고, 둘째 정렬조건으로 친부지수 또는 동일성 지수로 정렬하여 출력하는 것을 특징으로 하는 DNA 검색 방법.
  8. 삭제
KR1020110119404A 2011-11-16 2011-11-16 Dna 검색 방법 KR101287400B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110119404A KR101287400B1 (ko) 2011-11-16 2011-11-16 Dna 검색 방법
PCT/KR2012/004924 WO2013073755A1 (ko) 2011-11-16 2012-06-21 디엔에이 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110119404A KR101287400B1 (ko) 2011-11-16 2011-11-16 Dna 검색 방법

Publications (2)

Publication Number Publication Date
KR20130053775A KR20130053775A (ko) 2013-05-24
KR101287400B1 true KR101287400B1 (ko) 2013-07-18

Family

ID=48429794

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110119404A KR101287400B1 (ko) 2011-11-16 2011-11-16 Dna 검색 방법

Country Status (2)

Country Link
KR (1) KR101287400B1 (ko)
WO (1) WO2013073755A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898579B2 (en) 2015-06-16 2018-02-20 Microsoft Technology Licensing, Llc Relational DNA operations
CN110349634B (zh) * 2019-07-11 2022-09-16 顾永才 一种利用基因技术寻找离散亲人的系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100067492A (ko) * 2008-12-11 2010-06-21 한국생명공학연구원 유전 정보 비교를 이용한 혈연관계 판별시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610275B2 (en) * 2005-12-22 2009-10-27 Sap Ag Working with two different object types within the generic search tool
KR100790870B1 (ko) * 2006-03-17 2008-01-03 삼성전자주식회사 유전자 서열 검색 방법 및 장치
WO2007119779A1 (ja) * 2006-04-14 2007-10-25 Nec Corporation 個体識別方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100067492A (ko) * 2008-12-11 2010-06-21 한국생명공학연구원 유전 정보 비교를 이용한 혈연관계 판별시스템

Also Published As

Publication number Publication date
KR20130053775A (ko) 2013-05-24
WO2013073755A1 (ko) 2013-05-23

Similar Documents

Publication Publication Date Title
Rhie et al. The complete sequence of a human Y chromosome
Kim et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype
Aquaculture Genomics, Genetics and Breeding Workshop et al. Aquaculture genomics, genetics and breeding in the United States: current status, challenges, and priorities for future research
Weller et al. A new approach to the problem of multiple comparisons in the genetic dissection of complex traits
CA2964902C (en) Ancestral human genomes
Adie et al. Speeding disease gene discovery by sequence based candidate prioritization
Druet et al. Fine mapping of quantitative trait loci affecting female fertility in dairy cattle on BTA03 using a dense single-nucleotide polymorphism map
Wang Sibship reconstruction from genetic data with typing errors
CN108351917B (zh) 用于高精度识别变体的系统和方法
Band et al. Imputation-based meta-analysis of severe malaria in three African populations
Morgan et al. Informatics resources for the Collaborative Cross and related mouse populations
Olsen et al. Genome‐wide association mapping in Norwegian Red cattle identifies quantitative trait loci for fertility and milk production on BTA12
Calus et al. Identification of Mendelian inconsistencies between SNP and pedigree information of sibs
Duntsch et al. Polygenic basis for adaptive morphological variation in a threatened Aotearoa| New Zealand bird, the hihi (Notiomystis cincta)
CN109273046B (zh) 一种基于概率统计模型的生物学全同胞鉴定方法
Whittle et al. Evidence of the accumulation of allele-specific non-synonymous substitutions in the young region of recombination suppression within the mating-type chromosomes of Neurospora tetrasperma
CN110176274B (zh) 一种基于全基因组snp信息划分种猪血统的方法
Talouarn et al. Genome wide association analysis on semen volume and milk yield using different strategies of imputation to whole genome sequence in French dairy goats
CN111139291A (zh) 一种单基因遗传性疾病高通量测序分析方法
CN101601039A (zh) 通过与基因分型受血者的交叉匹配来选择基因分型输血者
Abdalla et al. Discovering lethal alleles across the turkey genome using a transmission ratio distortion approach
KR101287400B1 (ko) Dna 검색 방법
Hu et al. Phylogeny of Membracoidea (Hemiptera: Auchenorrhyncha) based on transcriptome data
Gondro et al. Genome wide association studies
WO2019047181A1 (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160712

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170712

Year of fee payment: 5