KR102628543B1 - 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법 - Google Patents

변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102628543B1
KR102628543B1 KR1020210013047A KR20210013047A KR102628543B1 KR 102628543 B1 KR102628543 B1 KR 102628543B1 KR 1020210013047 A KR1020210013047 A KR 1020210013047A KR 20210013047 A KR20210013047 A KR 20210013047A KR 102628543 B1 KR102628543 B1 KR 102628543B1
Authority
KR
South Korea
Prior art keywords
information
reference gene
mutation
format
sequence
Prior art date
Application number
KR1020210013047A
Other languages
English (en)
Other versions
KR20220109709A (ko
Inventor
진강남
김경현
유수연
이경명
Original Assignee
대한민국
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국 filed Critical 대한민국
Priority to KR1020210013047A priority Critical patent/KR102628543B1/ko
Publication of KR20220109709A publication Critical patent/KR20220109709A/ko
Application granted granted Critical
Publication of KR102628543B1 publication Critical patent/KR102628543B1/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명의 실시 예에 따른 유전자 정보 처리 장치는, 미토콘드리아 DNA(mtDNA)에 대응하는 염기 위치의 변이 정보를 포함하는 변이 정보 데이터를 입력받는 데이터 입력부; 상기 변이 정보 데이터를 사전 설정된 포맷의 서열 정보로 변환하는 서열 정보 변환부; 상기 변이 정보 데이터의 획득에 사용된 참조 유전자 정보를 식별하는 참조 유전자 정보 식별부; 및 상기 식별된 참조 유전자 정보가 변환 대상인 제1 포맷의 참조 유전자인 경우, 상기 변환된 서열 정보를 제2 포맷의 참조 유전자에 기초된 서열로 변환하기 위한 변이 정보 변환 보정부를 포함하고, 상기 변이 정보 변환 보정부는, 상기 서열 정보에 대응하여 상기 제1 포맷의 참조 유전자의 각 염기 위치에 대응되는 상기 제2 포맷의 참조 유전자 위치로의 위치 변환을 수행하되, 상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 누락된 변이 정보를 추가하는 보정을 처리한다.

Description

변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법{A METHOD AND AN APPARATUS FOR PROCESSING mtDNA VARIANTS INFORMATION BY TRANSFORMING OF A REFERENCE GENE}
본 발명은 유전자 정보 처리 장치 및 그 동작 방법에 관한 것이다. 보다 구체적으로, 본 발명은 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법에 관한 것이다.
모계 혈통의 추적을 위한 계통연구에 널리 활용되는 미토콘드리아 DNA(mtDNA)는 어머니로부터 자손에게 유전되는 특성을 가지고 있다. 이러한 미토콘드리아 DNA는 16569개의 염기를 가지며, 이 중 개체 내에서 높은 변이비율을 보이는 약 1.1 kb정도의 조절 영역(control region)에 대한 중점적인 분석을 통하여 계통 연구에 활용된다. 특히 조절영역의 초가변(hypervariable; HV) 영역 1과 2는 개인별 또는 인종별로 구분할 수 있는 매우 의미 있는 영역으로서 다양한 논문 등에서 보고되어 왔다.
이러한 미토콘드리아 DNA(mtDNA)는, 법과학 영역에서 매우 중요한 신원확인 마커로 활용되고 있으며, 전 세계적으로도 법과학 영역에서 매우 중요한 과학적 근거자료로 활용되고 있다.
현재 이러한 mtDNA를 분석하기 위해, 알려진 골드 스탠다드인 생어 시퀀싱(sanger sequencing)을 이용하여 분석을 진행하는 방식이 있으며, 더욱 향상된 방식으로서 샘플에 대한 전체 유전자를 짧은 DNA 절편으로 잘라 분석하고, 참조유전자(reference gene)에 매핑 비교하여, 그 차이에 따른 염기 변이(varinant) 정보를 VCF라는 파일 형태로 저장하는 차세대 시퀀싱(NGS, next generatrion sequencing) 방식이 사용되고 있다.
특히, 차세대 시퀀싱 방식을 수행하기 위하여는, 별도의 분석장비가 요구되며, 해당 장비에서 생성된 데이터는 VCF 파일 형식으로 출력되는 바, VCF 파일에는 메타데이터 정보 라인과, 헤더 라인과, 데이터 라인으로 구성되며, 데이터 라인에는 염색체 정보(CHROM), 염기 위치 정보(POS), 변이 식별 정보(ID), 참조유전자의 대립유전자 정보(REF, reference bases), 대체 대립유전자 정보(ALT, alternate bases), 퀄리티 스코어 정보(QUAL), 필터 정보(FILTER) 및 부가 정보(INFO)가 텍스트 형태로 포함될 수 있다.
이러한 차세대 시퀀싱(NGS) 장비는 각 DNA 절편의 시퀀스를 기준이 되는 참조유전자(reference gene)와 비교하여, 차이가 발생된 변이 정보(variant)를 각 데이터 라인에 기재함으로써, 상기 VCF파일을 생성할 수 있다.
이에 따라, NGS 장비에서 출력된 VCF 파일을 이용하여 mtDNA를 분석할 수 있으나, VCF 파일 자체의 복잡성과 데이터의 다양성으로 인해 VCF 파일 전체로부터 mtDNA 참조 유전자에 대응하는 변이들을 추출하여 나열하고, 이를 그룹핑하여 비교 분석하는 데에는 많은 시간과 노력이 요구되고 있는 실정이다.
이를 간소화하기 위하여, 다양한 자동화 프로세스들이 제안되고 있으며, mtDNA의 참조 유전자 정보를 기반으로 획득된 변이 정보(variants)가 입력되면, 하플로그룹(단일 핵산염기 다형현상(SNP, Single Nucleotide Polymorphism) 변이로 공통의 선조를 공유하는 유사한 하플로타입(haplotype)의 집단) 정보 등의 비교 분석 기반의 mtDNA 분석 결과를 출력하는 다수의 어플리케이션들이 제안되었다.
대표적으로, 하플로그렙(haplogrep2), 하플로트래커(haplotracker), mtDNA매니저(mtDNAmanager)와 같은 분석 어플리케이션들이 웹 api 기반으로 구동되고 있으며, 이들은 통상 HGVS(Human Genome Variation Society)에서 표준화를 제안 권고한 변이 정보 나열 방식에 따른 서열 정보가 입력되면, 이로부터 mtDNA의 참조유전자에 대응되는 샘플 데이터 분석을 수행하고, 분석된 결과 정보를 출력한다. 여기서, HGVS 권고 표준은 "HGVS Recommendations for the Description of Sequence Variants: 2016 Update, Human Mutation Volume37, Issue6, June 2016, Pages 564-569 " 논문에서 제안된 염기 서열의 나열방식을 의미한다.
그러나, 각 현재 알려진 분석 어플리케이션들마다 입력 데이터의 포맷이나 스타일이 상이하며, 분석 알고리즘도 상이할 뿐만 아니라, 변이 정보를 참조하기 위한 mtDNA 참조유전자가 각 어플리케이션 종류나 버전별로 조금씩 상이한 문제점이 있다.
예를 들어, 파편화된 어플리케이션들의 mtDNA 참조유전자(mtDNA 참조 유전자 정보 테이블) 차이로 인해, 참조 유전자 데이터 자체가 혼합되어 분석 오류를 야기하는 문제점이 있다. 예를 들어, 인간 게놈 hg19의 참조 유전자에는 두가지 버전(기존 Yoruba Individual, YRI 버전 NC_001807.4, 최신 Revised Cambridge Reference Sequence, rCRS 버전 NC_012920.1)의 mtDNA 참조유전자가 존재하나, 각 어플리케이션에서는 어떠한 버전을 사용하였는지 명확히 언급하지 않는 문제점들이 있으며, 이로 인해 여러 어플리케이션을 사용하여 분석하는 경우 두 버전이 혼합되어 오류를 발생시킬 위험이 매우 높은 문제점이 있다.
또한, 정확성으로 인해 기존 버전인 YRI 버전 mtDNA 참조유전자보다는 개선된 rCRS 버전 mtDNA 참조유전자를 이용하는 것이 권장되고는 있으나, 유전자 변이 간의 일치 여부를 평가하는 데에는 서로간의 비교 결과도 유용하게 이용될 수 있고, 각각의 비교 분석이 필요할 수 있기 때문에, 두 버전간 변환을 처리해주는 mtDNA 버전 자동 변환 어플리케이션(mvTool)이 개발되어 제공되고 있다. (논문 Ann L Coker, MSeqDR mvTool: a Mitochondrial DNA Web and API Resource for Comprehensive Variant Annotation, Universal Nomenclature Collation, and Reference Genome Conversion Lishuang, Physiol. Behav. 176 (2017) 139-148. https://doi.org/10.1002/humu.23422.MSeqDR, 참조)
그러나, Ann L Coker가 제안한 mvTool 기반의 자동 변환 어플리케이션은 mtDNA 참조유전자의 버전 변환에 따라, 입력된 염기 위치 정보를 새로운 참조유전자에 맞게 변환시켜주는 툴로써, 오직 입력된 mtDNA 변이 정보만을 가능한 범위 내에서만 단순 전환시킬 뿐, 두 참조유전자 간의 근본적인 염기 변이 차이를 반영하지 않아, 실질적인 YRI 버전과 rCRS 버전 사이의 정확한 변환을 처리한다고 보기는 여려운 한계점이 있다.
특히, YRI 버전과 rCRS 참조유전자 정보 테이블 사이에는 베이스 위치가 상이하고, 염기 시퀀스가 상이하며, 특히 염기 42개에 대한 차이점이 존재하여, 현재 mvTool 방식으로는 YRI 버전에서 rCRS 버전으로 변환 시 입력된 변이 위치 또는 위치와 염기 정보에 따라 처리 가능한 범위 내에서만 제한적으로 변환처리 되며, 전체 염기 서열을 고려한 상기 차이점에 대응되는 별도의 변환 처리나 보정은 이루어지지 않는 문제점이 있다. 이에 따라, 기존의 참조유전자 변환기술은 근본적인 YRI 와 rCRS 서열의 42개의 변이 차이점까지 세부적으로 반영하지는 못하는 문제점이 있다.
이러한 변환의 차이 및 삭제처리는 일부 몇 개 위치에 대하여는 적합할 수도 있으나, 42개 전체를 일괄 처리하는 것은 실제 분석결과의 부정확함을 야기하고 있는 실정이다. 또한, 이러한 문제점들로 인해, 앞서 설명한 mtDNA 분석 어플리케이션들을 자유롭게 활용하기도 어려운 문제점이 있다. 특히, 최근의 어플리케이션들은 주로 최신 버전인 rCRS를 참조 유전자 정보로서 활용하고 있으나, YRI 버전의 참조 유전자를 기반으로 하는 변이 정보 데이터의 분석도 필요하기 때문에 이러한 변환 결과의 정확성을 높일 수 있는 수단이 요구되고 있다.
본 발명은 상기한 바와 같은 문제점들을 해결하고자 안출된 것으로, 미토콘드리아 DNA(mtDNA) 분석을 위한 HGVS 기반의 염기변이 정보를 사용한 mtDNA 참조유전자 변환 시, 참조유전자 간 차이에 의해 누락된 변이 정보를 추가 보정함으로써, mtDNA 분석의 정확도를 향상시킬 수 있는 미토콘드리아 DNA 분석 장치 및 그 동작 방법을 제공하는 데 그 목적이 있다.
또한, 본 발명은 NGS장비의 VCF 데이터가 입력되면, 자동화된 서열 변환 및 전술한 부가 보정된 참조 유전자 정보를 이용한 비교 분석을 처리함으로써, 보다 신뢰성있는 결과를 출력할 수 있는 미토콘드리아 DNA 분석 장치 및 그 동작 방법을 제공하는 데 그 목적이 있다.
상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 장치는, 유전자 정보 처리 장치에 있어서, 미토콘드리아 DNA(mtDNA)에 대응하는 염기 위치의 변이 정보를 포함하는 변이 정보 데이터를 입력받는 데이터 입력부; 상기 변이 정보 데이터를 사전 설정된 포맷의 서열 정보로 변환하는 서열 정보 변환부; 상기 변이 정보 데이터의 획득에 사용된 참조 유전자 정보를 식별하는 참조 유전자 정보 식별부; 및 상기 식별된 참조 유전자 정보가 변환 대상인 제1 포맷의 참조 유전자인 경우, 상기 변환된 서열 정보를 제2 포맷의 참조 유전자에 기초된 서열로 변환하기 위한 변이 정보 변환 보정부를 포함하고, 상기 변이 정보 변환 보정부는, 상기 서열 정보에 대응하여 상기 제1 포맷의 참조 유전자의 각 염기 위치에 대응되는 상기 제2 포맷의 참조 유전자 위치로의 위치 변환을 수행하되, 상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 누락된 변이 정보를 추가하는 보정을 처리한다.
또한, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 유전자 정보 처리 장치의 동작 방법에 있어서, 미토콘드리아 DNA(mtDNA)에 대응하는 염기 위치의 변이 정보를 포함하는 변이 정보 데이터를 입력받는 단계; 상기 변이 정보 데이터를 사전 설정된 포맷의 서열 정보로 변환하는 단계; 상기 변이 정보 데이터의 획득에 사용된 참조 유전자 정보를 식별하는 단계; 상기 식별된 참조 유전자 정보가 변환 대상인 제1 포맷의 참조 유전자인 경우, 상기 변환된 서열 정보를 제2 포맷의 참조 유전자에 기초된 서열로 변환하는 단계를 포함하고, 상기 변환하는 단계는, 상기 서열 정보에 대응하여 상기 제1 포맷의 참조 유전자의 각 염기 위치에 대응되는 상기 제2 포맷의 참조 유전자 위치로의 위치 변환을 수행하되, 상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 누락된 변이 정보를 추가하는 보정을 처리하는 단계를 포함한다.
한편, 상기한 바와 같은 과제를 해결하기 위한 본 발명의 실시 예에 따른 방법은, 상기 방법을 컴퓨터에서 실행시키기 위해 컴퓨터 판독 가능한 매체에 저장되는 컴퓨터 프로그램 및 상기 프로그램이 기록된 기록 매체로 구현될 수 있다.
본 발명은 상기한 바와 같은 문제점들을 해결하고자 안출된 것으로, 미토콘드리아 DNA(mtDNA) 분석을 위한 HGVS 기반의 염기변이 정보를 사용한 mtDNA 참조유전자 변환 시, 누락된 변이 정보를 추가보정함으로써, mtDNA 분석의 정확도를 향상시킬 수 있는 미토콘드리아 DNA 분석용 유전자 정보 처리 장치 및 그 동작 방법을 제공하는 데 그 목적이 있다.
또한, 본 발명은 NGS장비의 VCF 데이터가 입력되면, 자동화된 서열 변환 및 전술한 부가 보정된 참조 유전자 정보를 이용한 비교 분석을 처리함으로써, 보다 신뢰성있는 결과를 출력할 수 있는 미토콘드리아 DNA 분석을 위한 유전자 정보 처리 장치 및 그 동작 방법을 제공하는 데 그 목적이 있다.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 블록도이다.
도 2는 본 발명의 실시 예에 따른 미토콘드리아 DNA 분석 장치의 구성을 보다 구체적으로 설명하기 위한 블록도이다.
도 3은 본 발명의 실시 예에 따른 장치의 미토콘드리아 DNA 분석 장치의 동작을 설명하기 위한 흐름도이다.
도 4 내지 도 6은 본 발명의 실시 예에 따른 mtDNA 참조 유전자 정보 변환 및 보정 프로세스를 보다 구체적으로 설명하기 위한 도면들이다.
도 7 내지 도 11은 본 발명의 실시 예에 따른 mtDNA 분석 실험 결과를 비교한 실험 결과를 나타낸다.
이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다.
또한, 본 발명의 원리, 관점 및 실시예들 뿐만 아니라 특정 실시예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.
따라서, 예를 들어, 본 명세서의 블록도는 본 발명의 원리를 구체화하는 예시적인 회로의 개념적인 관점을 나타내는 것으로 이해되어야 한다. 이와 유사하게, 모든 흐름도, 상태 변환도, 의사 코드 등은 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지 여부를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.
또한 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 명확한 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지관용의 다른 하드웨어도 포함될 수 있다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 실시 예에 따른 전체 시스템을 개략적으로 도시한 개념도이며, 도 2는 본 발명의 실시 예에 따른 미토콘드리아 DNA 분석 장치의 구성을 설명하기 위한 블록도이다.
도 1 및 도 2를 참조하면, 본 발명의 실시 예에 따른 전체 시스템은, 유무선 인터넷망을 포함하는 통신 네트워크를 통해 각각 상호 연결될 수 있다. 이를 위해, mtDNA 분석 장치(100) 및 사용자 단말 장치(200) 간에는 각 통신을 보안 연결하는 네트워크가 구성될 수 있다. 그리고, 각 분석 장치(100), 사용자 단말 장치(200)는 상기 통신 네트워크에 접속하여 데이터를 송수신하기 위한 통신 모듈을 각각 구비할 수 있다.
사용자 단말 장치(200)는, 사용자 정보 및 데이터를 입력받고, mtDNA 분석 장치(100)와 데이터를 송수신하며, 상기 사용자 정보 입력 및 데이터에 기초한 mtDNA 분석 장치(100)와의 통신에 기초하여 mtDNA 분석 서비스를 제공하는 사용자의 단말일 수 있다. 예를 들어, 사용자 단말(200)은 어플리케이션을 통해 본 발명의 실시 예에 따른 서비스 기능이 설치 가능한 전자 장치로서, 예컨대, 퍼스널 컴퓨터, 스마트폰, 노트북, 태블릿 PC 등이 예시될 수 있다.
통신 네트워크는 예를 들어, 개방형 인터넷, 폐쇄형 인트라넷을 포함한 유선 인터넷망, 이동 통신망과 연동된 무선 인터넷 통신망, TCP(Transmission Control Protocol)/IP(Internet Protocol), UDP(User Datagram Protocol)과 같은 프로토콜 기반의 데이터 통신을 포함하여 각종 데이터 통신이 가능한 컴퓨터 네트워크 등이 예시될 수 있다.
그리고, mtDNA(미토콘드리아 DNA) 분석 장치(100)는, 사용자 단말 장치(200)의 데이터 입력에 따라, 본 발명의 실시 예에 따른 mtDNA 분석 서비스를 제공하기 위한 하나 이상의 프로세스를 처리할 수 있으며, 처리된 분석 결과 정보를 상기 사용자 단말 장치(200)로 제공할 수 있다.
여기서, mtDNA 분석 장치(100)는, 사용자 단말 장치(200)의 데이터 입력에 따라, 본 발명의 실시 예에 따라 보정 변환된 mtDNA 참조 유전자 정보를 이용한 변이 정보의 변환 및 분석 서비스를 제공할 수 있다.
특히, 본 발명의 실시 예에 따른 mtDNA 분석 장치(100)는, YRI 포맷의 참조 유전자 정보에 기초한 변이 정보 데이터가 입력되었으나, 비교 분석 어플리케이션 사용을 위해 rCRS 포맷으로의 변환이 필요한 경우, 상기 변이 정보 데이터 입력에 대응하는 rCRS 포맷으로의 변환 처리를 수행하되, 전술한 위치 매핑 기반 mvTool 방식의 변환 프로세스에 부가하여, mvTool 프로세스에서 삭제 변환된 염기 정보 중 적어도 일부를 다시 추가하는 보정 처리를 수행할 수 있다.
이와 같은 추가 보정 처리에 따라, 본 발명의 실시 예에 따른 보정 변환 데이터에는 변이 정보 입력 데이터가 YRI 포맷으로부터 rCRS 포맷으로 변환되되, 참조 유전자 차이 정보에 기초한 추가 보정 처리가 수행된 보정 변이 정보 데이터가 포함되도록 처리될 수 있으며, 이는 후술하는 정확도 향상 효과를 가져올 수 있는 바, 데이터 혼용 및 변환시의 오류발생 가능성을 줄일 수 있으며, mtDNA 분석 서비스 자체의 성능 및 신뢰도를 향상시킬 수 있다.
이를 위해, 보다 구체적으로 도 2를 참조하면, 본 발명의 실시 예에 따른 mtDNA 분석 장치(100)는, 데이터 입력부(105), 서열 정보 변환부(110), 참조 유전자 정보 식별부(120), 변이 정보 변환 보정부(130), 분석 처리부(140) 및 출력부(150)를 포함한다.
데이터 입력부(105)는, 사용자 단말 장치(200)로부터 변이 정보를 포함하는 파일 데이터를 입력받아, 서열 정보 변환부(110)로 전달한다.
여기서, 변이 정보를 포함하는 파일 데이터는, NGS 장비로부터 출력되는 VCF 파일 정보를 포함할 수 있으며, 이는 DNA 절편 시퀀스들의 서열을 참조 유전자 정보(referecne gene)에 매핑하고, 그 변이 여부에 따라 획득되는 염기 변이 정보(variant)를 포함할 수 있다.
염기 변이 정보에는 전술한 바와 같이, 메타정보 라인, 헤더 라인, 데이터 라인을 포함할 수 있다. 여기서, 상기 참조 유전자 정보는 앞서 설명한 바와 같이, mtDNA에 대한 참조 유전자 정보일 수 있으며 해당 참조 유전자 정보는 전술한 YRI, rCRS 및 기타 향후 변경 개선될 수 있는 다양한 표준화된 참조 유전자 정보를 포함할 수 있다. 다만 본 발명의 실시 예에서는 편의를 위해 YRI 및 rCRS 포맷 기반의 참조 유전자 정보를 기준으로 획득된 변이 정보를 예시로서 설명하고자 하나, 변환 시의 차이점이 존재하여 오류가 발생될 수 있는 표준화된 참조 유전자 정보 간의 본 발명의 실시 예예 따른 보정 프로세스의 해결 원리는 다른 변환 과정에 의해 발생되는 오류등을 수정하는 데에도 동일하게 적용될 수 있으므로, 본 발명이 그 명칭이나 표준 규격 자체로 제한되는 것은 아니다.
서열 정보 변환부(110)는, 데이터 입력부(105)로부터 상기 변이 정보를 포함하는 입력 데이터를 전달받아, 상기 변이 정보에 대응하는 서열 정보로의 변환 처리를 수행한다. 여기서 서열 정보는 전술한 HGVS에서 권고된 표준화된 변이 정보 나열 방식에 의해 변환될 수 있으며, 예를 들어 [150, 195, 410, 491, 2354] 와 같이 변이가 나타난 염기 위치만 기재되는 제1 방식, [150C, 195T, 410T, 491C, 2354T]와 같이 변이가 나타난 염기 위치 및 바뀐 염기 정보를 기재하는 제2 방식 및 [150, 195T, 410T, 491C, 2354]와 같이 제1 방식과 제2 방식을 혼용한 제3 방식 등이 예시될 수 있다.
또한, 서열 정보 변환부(110)는, 분석 처리부(140)에서 사용되는 웹 기반 분석 어플리케이션을 이용하여 변이 정보 입력 데이터를 서열 정보로 변환 처리할 수도 있다. 예를 들어, 알려진 하플로그렙2(Haplogre2) 어플리케이션의 경우 VCF 파일 데이터를 업로드하면, 서열 정보로의 변환된 텍스트 데이터를 내려받을 수 있다. 이에 따라, 서열 정보 변환부(110)는 이와 같은 외부 어플리케이션 기반의 정보 변환 프로세스를 이용할 수 있으며, 분석 처리부(140)는 이를 위한 데이터 중계 처리를 수행할 수 있다.
그리고, 참조 유전자 정보 식별부(120)는, 변환된 서열 정보에 대응하여, 참조된 참조 유전자 정보를 식별한다. 여기서, 참조 유전자 정보는 사용자 단말 장치(200)로부터 별도 입력되거나, 데이터 입력부(105)에서 입력된 변이 정보 데이터로부터 식별될 수 있다. 예를 들어, YRI의 경우 참조 유전자 정보 데이터에는 NC_001807.4 의 식별 정보를 포함할 수 있으며, rCRS의 경우 NC_012920.1 의 식별 정보를 포함할 수 있으므로, 참조 유전자 정보 식별부(120)는 이러한 식별 정보를 기초로 참조 유전자 정보의 포맷을 식별할 수 있다.
그리고, 변이 정보 변환 보정부(130)는, 데이터 입력부(105)를 통해 변이 정보 변환 보정 요청이 입력된 경우, 참조 유전자 정보 식별부(120)에서 식별된 참조 유전자 정보에 대응하는 변이 정보 변환 보정 처리를 수행한다.
여기서, 참조 유전자 정보가 YRI인 경우 변이 정보 변환 보정부(130)는, YRI참조 유전자를 기반으로 서열 변환된 변이 정보를 rCRS 참조 유전자를 기반으로 보정 변환하여, 보정 변환된 서열 정보를 분석 처리부(140)로 출력한다.
앞서 설명한 바와 같이, 변이 정보 변환 보정부(130)는 1차적으로는 mvTool에서 제안된 위치 기반 매핑 변환 프로세스를 이용할 수 있다.
그러나, YRI 방식의 참조 유전자로부터 rCRS 방식의 참조 유전자로 변경함에 따른 mvTool 변환 방식의 문제점으로써, 42개의 차이 위치에 대한 변이 정보는, 이에 대응되는 입력 값이 존재하는 경우 classic이라는 비처리 항목으로 삭제만 가능하게 출력되며, 42개의 차이 위치에 대응하는 비 입력 값에 대한 별도의 위치 정보 추가 삽입은 처리되지 않기 때문에, 분석 어플리케이션의 분석 정확도는 낮아지는 것으로 예상되고 있다.
이에 따라, 본 발명의 실시 예에 따른 변이 정보 변환 보정부(130)는, 위치 기반 mtDNA 참조유전자 변환 프로세스에 있어서, rCRS 포맷과는 상이하여 삭제 처리된 YRI 염기 위치별 변이 정보를 상기 1차 변환된 변이 정보에 추가하는 보정 처리를 수행할 수 있다. 여기서 추가되는 염기 위치별 변이 정보는 1차 변환된 변이 정보의 전단부 또는 후단부 중 어느 한 측에 기재될 수 있다.
이에 따라, 42개의 염기 위치별 변이 정보의 일부가 다시 추가됨에 따라 획득된 보정 변환 서열 정보는, 분석 처리부(140)로 전달될 수 있다.
분석 처리부(140)는, 사전 설치된 하나 이상의 mtDNA 어플리케이션을 구동시키거나, 하나 이상의 웹 기반 mtDNA 분석 어플리케이션 api에 접속하여 상기 보정 변환 서열 정보를 입력하고, 해당 어플리케이션별 분석 결과를 획득하여 출력부(150)로 전달한다.
보다 구체적으로, 예를 들어 분석 처리부(140)는, 보정 변환 서열 정보를 알려진 하플로그렙(haplogrep2) 어플리케이션에 입력하여 결과 정보를 획득할 수 있다. 이는 논문 HaploGrep 2: mitochondrial haplogroup classification in the era of high-throughput sequencing(W58-W63 Nucleic Acids Research, 2016, Vol. 44, Web Server issue Published online 15 April 2016)에 개시된 mtDNA 분석 방식에 기초한 것으로, VCF 파일 포맷의 서열 정보 변환 기능을 지원하며, 잘 알려진 phylotree 알고리즘과, 거리 인덱스 기반 유사도 분석(Kulczynski distance, the Jaccard index, the Hamming distance and the Kimura 2-parameter distance) 방식 등을 사용하여 하플로그룹핑(haplogroupping)을 수행하는 바, 효과적이고 편리하게 하플로 그룹 분석 기능을 처리할 수 있다.
또한, 분석 처리부(140)는 보정 변환된 서열 정보를 알려진 하플로트래커(haplotracker) 어플리케이션에 입력하여 결과 정보를 획득할 수 있다. 이는 논문 Haplotracker: a web application for simple and accurate 2 mitochondrial haplogrouping using short DNA fragments (https://www.biorxiv.org/content/10.1101/2020.04.23.057646v1.full.pdf)에 개시된 mtDNA 분석 방식에 기초한 것으로, phylotree 알고리즘 및 빈도율에 기초한 그룹 랭킹 스코어 기반의 하플로타입 분석 방식으로, 하플로그렙보다 높은 정확도의 결과를 도출하는 장점이 있다.
그리고, 분석 처리부(140)는 보정 변환된 서열 정보를 알려진 mtDNA매니저 어플리케이션에 입력하여 결과 정보를 획득할 수 있다. 이는 논문 mtDNAmanager: a Web-based tool for the management and quality analysis of mitochondrial DNA control-region sequences (https://pubmed.ncbi.nlm.nih.gov/19014619)에 개시된 mtDNA 분석 방식에 기초한 것으로, 하플로그룹 예측 진단 및 검증에 대한 수학적 알고리즘을 기반으로 하플로그룹 및 서브하플로그룹 분석을 수행하는 바, 특히 한국인 데이터베이스를 구축하고 있는 점에서 효용성이 높은 장점이 있다.
이와 같은 분석 처리부(140)의 처리에 있어서 앞서 설명한 바와 같이 YRI를 참조 유전자 정보로 하는 데이터를 분석하는 경우, 하플로그렙과 하플로트래커 어플리케이션은 phylotree 알고리즘을 이용하면서 mtDNA 전체 영역의 변이 정보 값을 사용하여, 유사한 분석 패턴을 보이며, mtDNA 매니저 어플리케이션의 경우에는 사전 선택된 mtDNA의 일부 영역에서 나타난 변이 정보 값만 사용하는 점에서 다른 분석 패턴을 보일 수 있는 차이점이 있다.
이러한 어플리케이션별 구동 차이점 등으로 인해, 동일한 시료에서도 참조 유전자를 변경함에 따라 mtDNA의 하플로그룹이 다르게 분류될 수 있으며, 그 그룹 연구 분석 결과의 정확도가 낮아질 수 있는 문제점이 있는 바, 바람직하게는 입력 데이터의 참조 유전자를 통일적으로 변환 구성하여야 하며, 어플리케이션에서 권장하는 mtDNA 참조유전자로, 본 발명의 실시 예에 따라 보정 변환된 변이 정보를 서열 정보로서 입력하는 것이 가장 높은 정확도의 분석 결과를 도출할 수 있음이 파악되었다. 이러한 결론을 도출할 수 있었던 데이터 분석 결과 비교 데이터는 후술할 도 7 내지 도 11을 통하여 보다 구체적으로 설명하도록 한다.
한편, 출력부(150)는, 분석 처리부(140)에서의 분석 결과 정보를 시각화 처리하여 사용자 단말 장치(200)로 출력할 수 있으며, 사용자 단말 장치(200)에서는 시각화된 분석 결과 정보를 사용자에게 출력하기 위한 하나 이상의 출력 모듈을 포함할 수 있다. 출력 모듈은, 예를 들어 디스플레이부를 포함할 수 있다.
도 3은 본 발명의 실시 예에 따른 장치의 미토콘드리아 DNA 분석 장치의 동작을 설명하기 위한 흐름도이다.
도 3을 참조하면, 본 발명의 실시 예에 다른 mtDNA 분석 장치(100)는, 먼저 데이터 입력부(105)를 통해 VCF 파일을 입력받아(S101), 서열 정보 변환부(110)를 통해 서열 정보로 변환 처리한다(S103).
그리고, mtDNA 분석 장치(100)는, 참조 유전자 정보 식별부(120)를 통해 mtDNA 참조 유전자 정보를 식별하고(S105), 변환이 필요한 경우 변이 정보 변환 보정부(130)를 통해 참조 유전자 정보 변환에 따른 변이 정보의 변환 보정 처리를 수행한다(S107).
여기서, 참조 유전자 정보의 변환은 YRI 참조 유전자 정보로부터 rCRS 참조 유전자 정보로의 변환이 바람직할 수 있다.
그리고, mtDNA 분석 장치(100)는 분석 처리부(140)를 통해 보정 변환된 변이 정보를 이용하여, 하플로그룹 기반의 mtDNA 분석을 수행한다(S109).
그리고, mtDNA 분석 장치(100)는, 출력부(150)를 통해 분석 결과를 출력한다(S111).
도 4 내지 도 6은 본 발명의 실시 예에 따른 mtDNA 참조 유전자 정보 변환 및 보정 프로세스를 보다 구체적으로 설명하기 위한 도면들이다.
먼저, 도 4를 참조하면, 도 4는 종래기술로서의 YRI 기반 변이 정보로부터 rCRS로의 변이 정보로 변환하는 mvTool 기반 변환 프로세스를 설명하기 위한 도면이다.
도 4에 도시된 바와 같이, YRI를 참조 유전자 정보로서 생성된 VCF 파일에서 서열 변환된 mtDNA 샘플 A는, 알려진 mvTool 방식 기반의 위치 정보 매핑 변환에 기초하여 일부 염기 위치 차이점에 대응하는 변이 정보가 classic 항목으로 삭제 처리 및 대체된 형태로 변환 처리될 수 있다.
이 경우, 기존의 mvTool 방식의 어플리케이션에 따르면 입력된 서열 정보상에 42개의 차이 위치에 대응되는 변이 정보 입력 값이 있는 경우 삭제 처리만 가능하며, 비 입력 값에 대하여는 별도의 위치 정보 추가 삽입이나 보정 처리 등의 부가적인 수정 처리가 이루어지지 않는 바, 이는 부정확한 분석 결과를 야기할 수 있다.
도 5는 이를 해결하기 위한 본 발명의 실시 예에 따른 보정 변환 프로세스를 도시한 것으로, 변이 정보 변환 보정부(130)는, 샘플 A의 mvTool 기반 1차 변환 데이터에, YRI 및 rCRS간 차이 위치에 대응되는 변이정보가 존재하는 경우 해당 위치의 염기에 대응하는 변이 정보를 부가하는 처리를 수행할 수 있다.
여기서, 42개의 염기를 추가하는 방식도 가능하나, 4개의 특정 위치(310, 317, 3107 및 16195번)의 경우에는 위치 정보 보정 시 정보 추가 삽입이 불필요하므로, 상기 특정 위치(310, 317, 3107 및 16195번)을 제외한 나머지 38개의 변이 정보만 확인하여 추가하는 것도 가능하다.
예를 들어, YRI 참조 유전자 정보의 310번, 317번, 16195번의 경우 rCRS에서는 대응되는 염기가 없으므로, 삭제 및 classic으로 변경하는 기존 방식이 유효할 수 있으며, 3107번의 경우에는 rCRS의 염기 정보가 'N'으로서, A,T,G,C 중 어느 염기가 들어가도 됨을 나타내므로, mvTool 변환시 염기 위치 정보에 대한 보정처리가 필요하지 않을 수 있다.
도 5에 도시된 바와 같이, 본 발명의 실시 예에 따른 보정 변환 변이 정보 데이터는, classic으로 삭제 변환된 변이 정보가 포함되어 있으며, mvTool 기반으로 변환된 1차 변환 데이터에, 상기 42개의 차이 염기 위치에 대응되는 보정 변이 정보들이 추가 나열된 2차 변환 데이터를 포함할 수 있다.
그리고, 도 6에서는 변이 정보 변환 보정부(130)의 예외 처리 프로세스를 도시한 것으로, 16191번 염기 위치의 경우 mvTool에서는 해당 위치에서 T가 식별된 경우에는 예외 처리를 통해 classic으로 변환하는 프로세스를 제공한다. 이는 16180-16193번에서 C 염기가 반복되어 나타나는 것이 확인된 C-stretch현상을 반영한 것으로서(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2759877), 본 발명의 실시 예에 따른 변이 정보 변환 보정부(130) 또한, 16191번 염기 위치에서 T 변이 정보가 존재하는 경우에는 별도의 차이 보정 값을 추가하지 않도록 예외 처리할 수 있다.
한편, 도 7 내지 도 11은 본 발명의 실시 예에 따른 DNA 분석 실험 결과를 비교한 실험 결과를 나타낸다.
1. 샘플 수집 및 데이터 선택
먼저 실험을 위해, 20개의 가족들을 구성하는 40명의 한국인 구성원들에 대한 구강 샘플 추출이 이루어졌으며, KAPA Express Extract kit (KAPA Biosystems Inc, USA)를 기반으로 샘플을 추출하고, NovaseqTM 6000 및 TruSeq Nano DNA Library Prep Kit by MACROGEN(서울, 대한민국)를 사용하여 ILLUMINA Next Generation Sequencing (NGS) 플랫폼을 통해 전체 게놈 시퀀싱 (WGS)을 수행하였다. 이 연구는 임상시험심사위원회(IRB)의 승인을 받은 것이다.
1000 게놈 프로젝트 3 단계 데이터의 VCF 파일은 ftp 사이트 (http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/)에서 사용되었으며, rCRS 참조 유전자 정보 및 개별 mtDNA 시퀀스의 및 FASTA 파일에 기반하여 VCF 파일이 생성되었다. 모집단 데이터는 26 개 인구 분류 정보로 구성되며(ACB; n = 96, ASW; n = 61, BEB; n = 86, CDX; n = 93, CEU; n = 99, CHB; n = 103, CHS; n = 105, CLM; n = 94, ESN; n = 99, FIN; n = 99, GBR; n = 91, GIH; n = 103, GWD; n = 113, IBS; n = 107, ITU; n = 102, JPT; n = 104, KHV; n = 99, LWK; n = 99, MSL; n = 85, MXL; n = 64, PEL; n = 85, PJL; n = 96, PUR; n = 1024 STU; n = 102, TSI ; n = 107, YRI; n = 108), 총 2504 명의 개인 데이터를 포함한다.
2. 참조 유전자 매핑
mtDNA 참조 유전자 서열의 경우 NCBI (National Center for Biotechnology Information)의 rCRS (NC_012920.1) 및 YRI (NC_001807.4)의 FASTA 파일을 사용하였다. 각 FASTA 파일은 Illumina BaseSpace®의 DRAGEN Reference Builder (버전 3.6.3)를 사용하여 분석에 적합한 참조 유전자로 구성될 수 있으며, Illumina BaseSpace® 웹 사이트에 업로드되었고, 데이터 처리는 DRAGEN Germline (버전 3.6.3)을 사용하여 수행되었다.
3. mtDNA 하플로그룹 ( haplogroup ) 분류
mtDNA haplogroup은 전술한 세 가지 웹 기반 분석 어플리케이션(HaploGrep 2, Haplotracker, mtDNAmanager)를 사용하여 분석되었다. 세 가지 분석 방법 모두 기본적으로는 rCRS 참조 유전자를 기반으로 하플로 그룹 분류 프로세스를 수행할 수 있다.
입력 데이터는 VCF 파일의 HaploGrep 2 (v 2.2)의 BaseSpace®를 통해 표준화된 서열 정보로 변환된 데이터를 이용하였으며, 이를 Halotracker 및 mtDNA매니저에 입력하였다. mtDNA 하플로그룹(haplogroup)의 빈도는 mtDNA 하플로그룹(haplogroup)에 나타난 사람들의 수를 총 개인 데이터의 수로 나눈 값일 수 있다.
4 참조 유전자 변환 및 보정
YRI (NC_001807.4)를 분석한 결과 인 VCF 파일은 Haplogrep2를 사용하여 일반 형식으로 변환 된 후 1차 분석 데이터 구성을 위해 mvTool (v 2) 어플리케이션에 입력되었으며, mvTool 어플리케이션은 rCRS (NC012920.1)를 기반으로 mtDNA 변수 위치를 변환한 데이터를 출력한다.
그리고, 본 발명의 실시 예에 다른 보정 변환된 mtDNA 변이체 데이터 총 42 개 뉴클레오티드 부위에 대해 추가로 반영되었다. 앞서 설명한 바와 같이, 42 개의 변이 정보 보정 위치는 YRI 및 rCRS 서열 간의 차이 위치로서, 도 4 내지 도 6을 통해 설명한 바와 같다.
실험 결과, 도 7에 도시된 바와 같이, 40명의 한국인에 대한 데이터 분석 결과, 참조 유전자 rCRS에 기초하여 상기 세가지 어플리케이션을 통해 분류된 mtDNA 하플로그룹은 대부분 D 그룹으로 분류되었으며, 나머지는 A, B, F, G, Z, M 그룹으로 분류되었다. 반면, 참조 유전자 YRI에 기초하여 분류된 분석 데이터는 H 그룹이 75%로서 가장 높은 빈도가 나타나는 것을 확인하였다. 이에 따라, 동일한 시료에서도 참조 유전자가 YRI인지 rCRS인지에 따라 mtDNA 하플로그룹이 다르게 분류되는 것을 확인할 수 있으며, 이는 분석 정확도를 낮추고, 오류발생을 야기한다는 것을 확인할 수 있다.
나아가, 도 8에 도시된 바와 같이, 본 출원인은 mtDNA 참조 유전자에 따른 mtDNA haplogroup을 통한 모집단 연구의 정확성을 확인하기 위해, 1000 게놈 프로젝트의 27 개 모집단 데이터와 참조 유전자가 다른 40 개 한국 샘플의 haplogroup 패턴을 비교하였다. rCRS를 참조 유전자로 분석한 1000 게놈 프로젝트 데이터로 구성된 동아시아 그룹과 rCRS로 분석한 한국 그룹은 유사한 패턴이 발견되었으나, 반면 YRI를 참조 유전자로 분석한 한국 그룹은 유럽 그룹과 동일한 패턴을 보였다.
따라서 mtDNA 참조 유전자의 차이로 인해 그룹 연구 분석 결과가 매우 다른 것을 확인할 수 있으며, 결론적으로 mtDNA 참조 유전자에 따라 분석 결과가 다르기 때문에 mtDNA 참조 유전자를 하나로 통합하고, 이를 보정할 필요성이 확인되었다.
도 9 내지 도 11은 본 발명의 실시 예에 따른 보정 변환된 데이터와, 종래기술(mvTool 기반)에 대한 분석 정확도를 비교 설명하기 위한 테이블이다.
보다 구체적으로, 본 출원인은 YRI 기반의 mtDNA 변이 정보를 rCRS 기반의 변이 정보로 변환하기 위해, 1차적으로는 mvTool을 사용하여 base position의 수를 변경하였다. 재분석된 mtDNA 변이 정보는 서열 정보 변환부(110)를 통해 서열 정보로서 처리되었고, 전술한 하플로트래커 및 mtDNA매니저를 통해 하플로그룹 분석을 수행하였다.
도 9를 참조하면, 1차적인 mvTool을 통해 변환된 변이 정보의 mtDNA 하플로그룹 분석 결과는 변환 이전의 하플로그룹 분석 결과와 크게 변경되지 않았음을 확인할 수 있다. mvTool은 입력된 mtDNA 변이 정보만 위치 변환하므로 참조 유전자 자체의 변이는 분석되지 않기 때문이다.
그러나, 본 발명의 실시 예에 따른 변이 정보 변환 보정부(130)는, NCBI에 등록된 rCRS (NC_012920.1) 및 YRI (NC_001807.4)의 mtDNA 서열을 정렬하여 42 개 뉴클레오티드의 차이에 대응하는 42 개의 뉴클레오티드 위치 번호를 mvTool 기반 1차 변환 데이터에 추가하는 보정을 처리할 수 있었으며, 이를 통해 분석된 하플로그룹 정보는 rCRS를 기준으로 분석하였던 하플로그룹과 매우 유사함을 확인할 수 있다.
이러한 보정이 올바르게 수행되었는지 비교하기 위해 도 10 및 도 11에서는 rCRS로 분석한 mtDNA의 하플로그룹과, 1차 변환 및 본 발명의 실시 예에 따라 보정된 mtDNA의 하플로그룹간의 일치율을 나타내고 있다. 도 10에 도시된 바와 같이, 일치율은 종래기술(mvTool)에서 20 %에서 45 % 범위였지만 추가로 42 개의 기본 위치가 추가 보완 수정된 본 발명의 실시 예에 따른 경우, 최대 일치율은 100 %에 도달함을 확인할 수 있었다.
이에 따라, 차이점이 존재하는 42 개 염기의 위치 정보를 추가 입력하면, 보다 정확한 mtDNA 하플로그룹 분류가 가능함을 확인할 수 있다. 특히, 보정 변환된 변이 정보에 대한 하플로그룹의 분포 패턴이 rCRS를 참조 유전자로 하여 분석된 패턴과 유사함을 확인하였으며, 이는 하플로트래커 어플리케이션을 사용할 때 더욱 잘 나타나고 있다.
특히, 1000 게놈 프로젝트 데이터와 비교한 결과, 기존과 달리 보정 변환된 데이터는 한국인 데이터가 동아시아 인구와 유사한 패턴을 가지게 됨을 확인할 수 있었다. 따라서, 본 발명의 실시 예에 따른 변이 정보 변환 보정부(130)의 처리에 따라, 42 개의 뉴클레오티드 위치를 추가로 분석할 수 있게 되며, 이는 높은 정확도로 mtDNA 하플로그룹을 분류할 수 있음을 의미한다.
상술한 본 발명에 따른 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.
컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 미토콘드리아 DNA(mtDNA)에 대응하는 염기 위치의 변이 정보를 포함하는 변이 정보 데이터를 입력받는 데이터 입력부;
    상기 변이 정보 데이터를 사전 설정된 포맷의 서열 정보로 변환하는 서열 정보 변환부;
    상기 변이 정보 데이터의 획득에 사용된 참조 유전자 정보를 식별하는 참조 유전자 정보 식별부; 및
    상기 식별된 참조 유전자 정보가 변환 대상인 제1 포맷의 참조 유전자인 경우, 상기 변환된 서열 정보를 제2 포맷의 참조 유전자에 기초된 서열로 변환하기 위한 변이 정보 변환 보정부를 포함하고,
    상기 변이 정보 변환 보정부는, 상기 서열 정보에 대응하여 상기 제1 포맷의 참조 유전자의 각 염기 위치에 대응되는 상기 제2 포맷의 참조 유전자 위치로의 위치 변환을 수행하되, 상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 삭제 또는 누락된 변이 정보를 추가하는 보정을 처리하는 유전자 정보 처리 장치에 있어서
    상기 제1 포맷의 참조 유전자는 YRI(Yoruba Individual) 포맷의 참조 유전자이며, 상기 제2 포맷의 참조 유전자는 rCRS(Revised Cambridge Reference Sequence) 포맷의 참조 유전자이며,
    상기 변이 정보 변환 보정부는, 위치 매핑 기반 mtDNA 변이 정보 변환 툴(mvTool)을 이용하여, 상기 위치 변환 처리를 1차적으로 수행하고, 삭제 또는 누락된 변이 정보의 추가는 제1차 변환된 변이 정보에 추가되데, 42개의 염기 위치별 변이 정보가 추가되고,
    상기 변이 정보 변환 보정부는, 상기 서열 정보에 상기 YRI 포맷의 참조 유전자 시퀀스 중 16191번 염기 위치에 대응하는 T 변이 정보가 존재하는 경우, 예외 처리를 통해 상기 추가하는 보정을 수행하지 않는 것을 특징으로 하는
    유전자 정보 처리 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 삭제 또는 누락된 변이 정보는 상기 YRI 포맷의 참조 유전자 시퀀스와, 상기 rCRS 시퀀스가 서로 상이한 하나 이상의 염기 위치에 대응되는 변이 정보를 포함하는
    유전자 정보 처리 장치.
  4. 제3항에 있어서,
    상기 변이 정보 변환 보정부는, 상기 서로 상이한 하나 이상의 염기 위치에 대응되는 변이 정보를 추출하여, 상기 위치 변환된 서열 정보 데이터의 전단부 또는 후단부 중 어느 한측에 부가하는
    유전자 정보 처리 장치.
  5. 삭제
  6. 삭제
  7. 제1항에 있어서,
    상기 변이 정보 변환 보정부에서 변환 보정된 서열 정보를 하나 이상의 분석 어플리케이션에 적용하여 하플로그룹(haplogroup) 기반으로 분석 처리하는 분석 처리부; 및
    상기 분석 처리 결과를 출력하는 출력부를 더 포함하는
    유전자 정보 처리 장치.
  8. 미토콘드리아 DNA(mtDNA)에 대응하는 염기 위치의 변이 정보를 포함하는 변이 정보 데이터를 입력받는 단계;
    상기 변이 정보 데이터를 사전 설정된 포맷의 서열 정보로 변환하는 단계;
    상기 변이 정보 데이터의 획득에 사용된 참조 유전자 정보를 식별하는 단계;
    상기 식별된 참조 유전자 정보가 변환 대상인 제1 포맷의 참조 유전자인 경우, 상기 변환된 서열 정보를 제2 포맷의 참조 유전자에 기초된 서열로 변환하는 단계를 포함하고,
    상기 변환하는 단계는,
    상기 서열 정보에 대응하여 상기 제1 포맷의 참조 유전자의 각 염기 위치에 대응되는 상기 제2 포맷의 참조 유전자 위치로의 위치 변환을 수행하되, 상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 삭제 또는 누락된 변이 정보를 추가하는 보정을 처리하는 단계를 포함하는 유전자 정보 처리 장치의 동작 방법에 있어서,
    상기 제1 포맷의 참조 유전자는 YRI(Yoruba Individual) 포맷의 참조 유전자이며, 상기 제2 포맷의 참조 유전자는 rCRS(Revised Cambridge Reference Sequence) 포맷의 참조 유전자이며,
    상기 변이 정보 변환 보정부는, 위치 매핑 기반 mtDNA 변이 정보 변환 툴(mvTool)을 이용하여, 상기 위치 변환 처리를 1차적으로 수행하여, 삭제 또는 누락된 변이 정보의 추가는 제1차 변환된 변이 정보에 추가되어, 42개의 염기 위치별 변이 정보가 추가되고,
    상기 변이 정보 변환 보정부는, 상기 서열 정보에 상기 YRI 포맷의 참조 유전자 시퀀스 중 16191번 염기 위치에 대응하는 T 변이 정보가 존재하는 경우, 예외 처리를 통해 상기 추가하는 보정을 수행하지 않는 것을 특징으로 하는
    유전자 정보 처리 장치의 동작 방법.
  9. 삭제
  10. 제8항에 있어서,
    상기 제1 참조 유전자와 상기 제2 참조 유전자 간 차이에 의해 위치 변환시 누락된 변이 정보는 상기 YRI 포맷의 참조 유전자 시퀀스와, 상기 rCRS 시퀀스가 서로 상이한 염기 위치에 대응되는 변이 정보를 포함하는
    유전자 정보 처리 장치의 동작 방법.
  11. 제10항에 있어서,
    상기 변이 정보 변환 보정부는, 상기 서로 상이한 염기 위치에 대응되는 변이 정보를 추출하여, 상기 위치 변환된 서열 정보 데이터의 전단부 또는 후단부 중 어느 한측에 부가하는
    유전자 정보 처리 장치의 동작 방법.
  12. 삭제
  13. 삭제
  14. 제8항에 있어서,
    상기 변이 정보 변환 보정부에서 변환 보정된 서열 정보를 하나 이상의 분석 어플리케이션에 적용하여 하플로그룹(haplogroup) 기반으로 분석 처리하는 단계 및
    상기 분석 처리 결과를 출력하는 단계를 더 포함하는
    유전자 정보 처리 장치의 동작 방법.
  15. 제8항, 제10항, 제11항 및 제14항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위해 컴퓨터 판독 가능한 비 휘발성 기록 매체에 저장되는 컴퓨터 프로그램.
KR1020210013047A 2021-01-29 2021-01-29 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법 KR102628543B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210013047A KR102628543B1 (ko) 2021-01-29 2021-01-29 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210013047A KR102628543B1 (ko) 2021-01-29 2021-01-29 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20220109709A KR20220109709A (ko) 2022-08-05
KR102628543B1 true KR102628543B1 (ko) 2024-01-23

Family

ID=82826672

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210013047A KR102628543B1 (ko) 2021-01-29 2021-01-29 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102628543B1 (ko)

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A. Shumate 외, "Liftoff: an accurate gene annotation mapping tool", bioRxiv, 2020.06.24.169680v1. (2020.06.26.)
B. Gao 외, "segment_liftover : a Python tool to convert segments between genome assemblies", F1000Res, 7:319. (2018.06.08.)*
B. Pan 외, "Similarites and differences between variants called with human reference genome HG19 or HG38", BMC Bioinformatics, 20:101. (2019.03.14.)
H. Weissensteiner 외, "HaploGrep2: mitochondrial haplogroup classification in the era of high-throughput sequencing", Nucleic Acids Research, 44:W58-W63. (2016.04.15.)*
H. Zhao 외, "CrossMap: a versatile tool for coordinate conversion between genome assemblies", Bioinformatics, 30(7):1006-1007. (2013.12.18.)
I. Zhidkov 외, "MitoBamAnnotator: A web-based tool for detecting and annotating heteroplasmy in human mitochondrial DNA sequences", Mitochondrion, 11(6):924-928. (2011.08.22.)
L. Shen 외, "MSeqDR mvTool: A mitochondrial DNA Web and API resource (후략)", Hum. Mutat., 39(6):806-810. (2018.04.06.)*
R. Clima 외, "HmtDB 2016: data update, a better performing query system and human mitochondrial DNA haplogroup predictor", Nucleic Acids Research, 45(D1):D698-D706. (2016.11.29.)

Also Published As

Publication number Publication date
KR20220109709A (ko) 2022-08-05

Similar Documents

Publication Publication Date Title
Kelleher et al. Efficient coalescent simulation and genealogical analysis for large sample sizes
US10262102B2 (en) Systems and methods for genotyping with graph reference
Noskova et al. GADMA: Genetic algorithm for inferring demographic history of multiple populations from allele frequency spectrum data
McCoy et al. Illumina TruSeq synthetic long-reads empower de novo assembly and resolve complex, highly-repetitive transposable elements
Ralph et al. Per-sample immunoglobulin germline inference from B cell receptor deep sequencing data
US20170199959A1 (en) Genetic analysis systems and methods
DeWitt III et al. Using genotype abundance to improve phylogenetic inference
Wan et al. VirAmp: a galaxy-based viral genome assembly pipeline
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
Xue et al. multi‐dice: r package for comparative population genomic inference under hierarchical co‐demographic models of independent single‐population size changes
Ishiya et al. MitoSuite: a graphical tool for human mitochondrial genome profiling in massive parallel sequencing
Vis et al. An efficient algorithm for the extraction of HGVS variant descriptions from sequences
Bresler et al. Telescoper: de novo assembly of highly repetitive regions
Howison et al. Toward a statistically explicit understanding of de novo sequence assembly
Li et al. Foster thy young: enhanced prediction of orphan genes in assembled genomes
Ma et al. Omics informatics: from scattered individual software tools to integrated workflow management systems
EP3724882B1 (en) Methods for detecting variants in next-generation sequencing genomic data
Teal et al. Identifying and removing artificial replicates from 454 pyrosequencing data
Biswas et al. ISQuest: finding insertion sequences in prokaryotic sequence fragment data
KR102628543B1 (ko) 변이 정보의 mtDNA 참조 유전자 변환을 처리하는 유전자 정보 처리 장치 및 그 동작 방법
Yuan et al. COSINE: A web server for clonal and subclonal structure inference and evolution in cancer genomics
US20180060480A1 (en) Systems and methods for detecting recombination
US20200388353A1 (en) Automatic annotation of significant intervals of genome
US20180004893A1 (en) Synthetic wgs bioinformatics validation
Mořkovský et al. Scrimer: designing primers from transcriptome data

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right