KR20160039386A - Itd 검출 장치 및 방법 - Google Patents

Itd 검출 장치 및 방법 Download PDF

Info

Publication number
KR20160039386A
KR20160039386A KR1020140132374A KR20140132374A KR20160039386A KR 20160039386 A KR20160039386 A KR 20160039386A KR 1020140132374 A KR1020140132374 A KR 1020140132374A KR 20140132374 A KR20140132374 A KR 20140132374A KR 20160039386 A KR20160039386 A KR 20160039386A
Authority
KR
South Korea
Prior art keywords
sequence
itd
leads
mapping
lead
Prior art date
Application number
KR1020140132374A
Other languages
English (en)
Inventor
박인호
선충현
윤홍석
이승묵
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020140132374A priority Critical patent/KR20160039386A/ko
Priority to US14/872,369 priority patent/US20160098517A1/en
Publication of KR20160039386A publication Critical patent/KR20160039386A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

예시적인 실시예에 따르면, 각각 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 두 절단점을 식별하는 절단점 식별부; 및 상기 참조 유전체 서열에서 상기 두 절단점 간에 걸친 염기 서열 부분 및 상기 염기 서열 부분의 순차적 반복을 포함하는 ITD(Internal Tandem Duplication) 참조 서열을 생성하는 ITD 검출부를 포함하는, ITD 검출 장치가 제공된다.

Description

ITD 검출 장치 및 방법{APPARATUS AND METHOD FOR DETECTION OF INTERNAL TANDEM DUPLICATION}
개시되는 실시예들은 ITD(Internal Tandem Duplication)의 검출을 위한 기법과 관련된다.
ITD는 순차적으로 반복되는 패턴의 단편을 갖는 유전자의 변이를 말한다. 특히, FLT3(FMS-related tyrosine kinase 3) 유전자에서 발생하는 ITD는 급성 골수성 백혈병(Acute Myeloid Leukemia: AML) 환자의 20% 이상에서 발견되며, 항암 방법의 선택을 위해 고려해야 할 중요한 사항이다.
FLT3의 ITD만을 검출하기 위한 다양한 방법들이 개발되었다. 이러한 방법들과는 달리, 암 발생과 연관된 여러 종류의 변이들을 동시에 검출하기 위해 차세대 시퀀싱 기술(Next Generation Sequencing: NGS)이 최근 널리 사용되고 있다. NGS가 발전하면서, 염기 서열(base sequence)의 효과적인 분석이 가능하게 되었다. NGS 방식은 DNA(deoxyribonucleic acid) 샘플을 여러 개의 DNA 단편들로 무작위로 구분한 후, 그 DNA 단편들을 한꺼번에 시퀀싱한다. 통상적으로, NGC 시퀀서는 어떤 개체의 DNA 샘플로부터 수천만 개 내지 수억 개의 짧은 DNA 단편들 각각의 염기 서열을 출력할 수 있다. 그 개체의 유전정보를 나타내는 전체 염기 서열(즉, 유전체 서열(genome sequence))은 단편적인 염기 서열들로부터 생성할 수 있다.
이러한 유전체 서열을 얻기 위한 방식들 중 하나는 그 개체에 대하여 신뢰할 만한 표준적인 유전체 서열이 만들어져 있는 경우(가령, 그 개체가 인간인 경우)에 적합하다. 이 방식은 염기 서열 단편들을 표준적인 유전체 서열에 맵핑하여 정렬하면서 그 개체의 유전체 서열을 재구성한다. 그 개체의 유전체 서열은 표준적인 유전체 서열과 상이한 부분(즉, 유전 변이(genomic variation))을 가질 수 있는데, 그러한 부분은 유전체 서열 재구성 과정에서 검출될 수 있다. 다만, 짧은 염기 서열 단편들을 이용하여 길이가 길거나 패턴이 복잡한 유전 변이를 검출하기 위해서는 추가적인 분석이 필요할 수 있다. 특히, FLT3 유전자의 ITD 변이는 10 내지 300 bp(base pair)의 길이를 가지는데, 짧은 염기 서열 단편들을 이용하여 긴 ITD 변이를 검출하는 데에는 어려움이 있다. 또한, NGS를 기반으로 AML 환자의 FLT3 유전자에서 ITD를 검출하려는 종래의 임상적 시도들 역시 다른 형태의 변이를 검출하는 방법을 적용한 것에 불과하고, ITD 변이만을 빠르고 정확하게 검출하기에는 미흡하다.
국제특허공개 WO 2014/071272 A1
개시되는 실시예들은 DNA 샘플과 같은 유전체 샘플(genome sample)의 ITD를 검출하는 데에 적합한 새로운 기법을 제공한다.
예시적인 실시예에 따르면, 각각 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 두 절단점을 식별하는 절단점 식별부; 및 상기 참조 유전체 서열에서 상기 두 절단점 간에 걸친 염기 서열 부분 및 상기 염기 서열 부분의 순차적 반복을 포함하는 ITD(Internal Tandem Duplication) 참조 서열을 생성하는 ITD 검출부를 포함하는, ITD 검출 장치가 제공된다.
상기 ITD 검출 장치는, 상기 복수의 리드를 상기 참조 유전체 서열과 맵핑하여 상기 복수의 리드 각각의 매칭 부분 및 비매칭 부분을 식별하는 리드 맵핑부를 더 포함할 수 있고, 상기 매칭 부분은 상기 참조 유전체 서열과 매칭되고 상기 비매칭 부분은 상기 참조 유전체 서열과 매칭되지 않을 수 있다.
상기 복수의 리드 각각은 두 종단이 각각 상기 매칭 부분 및 상기 비매칭 부분에 있을 수 있다.
상기 리드 맵핑부는 또한 상기 복수의 리드 중 복수의 연관된 리드를 상기 ITD 참조 서열과 맵핑하여 맵핑 결과를 생성할 수 있고, 상기 복수의 연관된 리드 각각의 매칭 부분의 일측 종단은 상기 두 절단점 중 하나에 맵핑될 수 있다.
상기 리드 맵핑부는 상기 맵핑 결과를 상기 복수의 연관된 리드 각각의 길이 및 상기 복수의 연관된 리드 각각의 일부분의 길이에 기반하여 생성할 수 있고, 상기 일부분은 상기 ITD 참조 서열과 매칭되지 않을 수 있다.
상기 절단점 식별부는 또한 유전체 샘플로부터 시퀀싱되는 상기 복수의 리드를 획득할 수 있고, 상기 ITD 검출부는 또한 상기 맵핑 결과에 기반하여 상기 유전체 샘플의 ITD 변이를 검출할 수 있다.
상기 ITD 검출부는 또한 상기 염기 서열 부분의 적어도 하나의 다른 순차적 반복을 상기 ITD 참조 서열에 포함시켜 상기 ITD 참조 서열을 변경할 수 있고, 상기 리드 맵핑부는 또한 상기 변경된 ITD 참조 서열에 대해 상기 복수의 연관된 리드의 맵핑을 반복할 수 있다.
상기 절단점 식별부는 또한 상기 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 복수의 위치를 식별하여 상기 참조 유전체 서열 내의 복수의 후보 절단점을 결정할 수 있고, 상기 복수의 리드 각각의 매칭 부분은 상기 복수의 위치 중 하나에 맵핑된 종단을 가질 수 있다.
상기 절단점 식별부는, 상기 복수의 리드 중 연관된 리드의 총 개수; 상기 연관된 리드 중 가장 긴 연관된 리드의 길이; 각각이 상기 연관된 리드 중 하나의 비매칭 부분 내에 위치한 제1 염기 및 상기 연관된 리드 중 다른 하나의 비매칭 부분 내에 위치한 제2 염기를 가지는 모든 가능한 페어(pair)의 총 개수; 및 상기 모든 가능한 페어 중 동일한 염기의 페어의 총 개수에 기반하여 상기 복수의 후보 절단점 각각을 상기 복수의 위치 중 대응하는 위치로 결정할 수 있고, 상기 연관된 리드 각각은 상기 대응하는 위치에 맵핑된 종단을 가질 수 있고, 상기 제1 염기 및 상기 제2 염기는 상기 참조 유전체 서열 내의 동일한 위치에 맵핑될 수 있다.
상기 절단점 식별부는 상기 두 절단점 간의 위치 차이에 기반하여 상기 두 절단점을 상기 복수의 후보 절단점 중에서 식별할 수 있다.
예시적인 실시예에 따르면, 각각 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 두 절단점을 식별하는 단계; 및 상기 참조 유전체 서열에서 상기 두 절단점 간에 걸친 염기 서열 부분 및 상기 염기 서열 부분의 순차적 반복을 포함하는 ITD(Internal Tandem Duplication) 참조 서열을 생성하는 단계를 포함하는, ITD 검출 방법이 제공된다.
상기 ITD 검출 방법은, 상기 복수의 리드를 상기 참조 유전체 서열과 맵핑하여 상기 복수의 리드 각각의 매칭 부분 및 비매칭 부분을 식별하는 단계를 더 포함할 수 있고, 상기 매칭 부분은 상기 참조 유전체 서열과 매칭되고 상기 비매칭 부분은 상기 참조 유전체 서열과 매칭되지 않을 수 있다.
상기 복수의 리드 각각은 두 종단이 각각 상기 매칭 부분 및 상기 비매칭 부분에 있을 수 있다.
상기 ITD 검출 방법은, 상기 복수의 리드 중 복수의 연관된 리드를 상기 ITD 참조 서열과 맵핑하여 맵핑 결과를 생성하는 단계를 더 포함할 수 있고, 상기 복수의 연관된 리드 각각의 매칭 부분의 일측 종단은 상기 두 절단점 중 하나에 맵핑될 수 있다.
상기 복수의 연관된 리드를 맵핑하는 단계는, 상기 맵핑 결과를 상기 복수의 연관된 리드 각각의 길이 및 상기 복수의 연관된 리드 각각의 일부분의 길이에 기반하여 생성하는 단계를 포함할 수 있고, 상기 일부분은 상기 ITD 참조 서열과 매칭되지 않을 수 있다.
상기 ITD 검출 방법은, 유전체 샘플로부터 시퀀싱되는 상기 복수의 리드를 획득하는 단계; 및 상기 맵핑 결과에 기반하여 상기 유전체 샘플의 ITD 변이를 검출하는 단계를 더 포함할 수 있다.
상기 ITD 검출 방법은, 상기 염기 서열 부분의 적어도 하나의 다른 순차적 반복을 상기 ITD 참조 서열에 포함시켜 상기 ITD 참조 서열을 변경하는 단계; 및 상기 변경된 ITD 참조 서열에 대해 상기 복수의 연관된 리드의 맵핑을 반복하는 단계를 더 포함할 수 있다.
상기 두 절단점을 식별하는 단계는, 상기 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 복수의 위치를 식별하여 상기 참조 유전체 서열 내의 복수의 후보 절단점을 결정하는 단계를 포함할 수 있고, 상기 복수의 리드 각각의 매칭 부분은 상기 복수의 위치 중 하나에 맵핑된 종단을 가질 수 있다.
상기 두 절단점을 식별하는 단계는, 상기 복수의 리드 중 연관된 리드의 총 개수; 상기 연관된 리드 중 가장 긴 연관된 리드의 길이; 각각이 상기 연관된 리드 중 하나의 비매칭 부분 내에 위치한 제1 염기 및 상기 연관된 리드 중 다른 하나의 비매칭 부분 내에 위치한 제2 염기를 가지는 모든 가능한 페어(pair)의 총 개수; 및 상기 모든 가능한 페어 중 동일한 염기의 페어의 총 개수에 기반하여 상기 복수의 후보 절단점 각각을 상기 복수의 위치 중 대응하는 위치로 결정하는 단계를 더 포함할 수 있고, 상기 연관된 리드 각각은 상기 대응하는 위치에 맵핑된 종단을 가질 수 있고, 상기 제1 염기 및 상기 제2 염기는 상기 참조 유전체 서열 내의 동일한 위치에 맵핑될 수 있다.
상기 두 절단점을 식별하는 단계는, 상기 두 절단점 간의 위치 차이에 기반하여 상기 두 절단점을 상기 복수의 후보 절단점 중에서 식별하는 단계를 더 포함할 수 있다.
예시적인 실시예에 따르면, 하드웨어와 결합되어, 전술한 ITD 검출 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램이 제공된다.
소정의 실시예들은 NGS 시퀀서에 의해 유전체 샘플(가령, DNA 샘플)로부터 시퀀싱되는 염기 서열 단편들을 정렬하는 과정에서 유전체 샘플에 포함된 ITD를 더욱 신속하고 더욱 정확하게 검출하는 기법을 제공한다.
소정의 실시예들에 따르면, ITD 변이의 길이가 더 높은 정확도로 측정될 수 있다.
소정의 실시예들에 따르면, NGS 방식을 통해 시퀀싱될 샘플 중에서 ITD를 갖는 세포의 비율이 효과적으로 추정될 수 있다.
소정의 실시예들에 따른 ITD 검출 기법은 FLT3 유전자뿐만 아니라 다른 유전자에도 적용될 수 있다.
도 1은 ITD가 포함된 DNA 샘플로부터 리드 서열들을 추출하고 추출된 리드 서열들을 참조 서열에 맵핑하는 것을 예시하기 위한 도면,
도 2는 예시적인 실시예에 따른 ITD 검출 과정을 도시한 도면,
도 3은 예시적인 실시예에 따라 서열 절단점을 식별하는 것을 설명하기 위한 도면,
도 4는 예시적인 실시예에 따라 생성된 ITD 참조 서열을 설명하기 위한 도면,
도 5는 예시적인 실시예에 따른 ITD 검출 장치를 도시한다 도면.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
본 명세서에서 예시적인 실시예들을 기술하는 데 사용되는 다음의 용어들에 대하여 설명한다.
우선, "염기 서열"은 염기들의 서열 내지 순서화된 목록으로서 염기들의 순서를 나타내는 정보 또는 데이터이다. 따라서, 이와 같이 목록화된 염기들은 그 염기들의 순서대로 그 염기 서열 내에 위치한다고 할 수 있다. 통상적으로, 염기 서열 내의 가능한 상이한 염기들의 총 개수는 유한하다. 예를 들어, DNA 염기 서열 내의 각 염기는 4개의 알파벳 문자들 A, C, G 및 T 중 하나로 표시될 수 있다. 추가적으로, DNA 염기 서열 내에서 특정 위치를 갖는 염기가 다양한 이유(가령, 시퀀싱 오류 및/또는 DNA 샘플의 오류)로 인해 A, C, G 또는 T 중 어느 것으로 표시하여야 할지 불분명할 수 있는데, 그 염기는 다른 문자(가령, N)로 표시될 수 있다. 염기 서열의 길이는 그 염기 서열 내의 염기들의 총 개수를 의미한다. 또한, 염기 서열 부분은 어떤 염기 서열의 일부분 내지 서브-서열(sub-sequence)로서 그 염기 서열보다 짧은 단편적인 염기 서열인바, 염기 서열 부분의 길이는 그 부분 내의 염기들의 총 개수이다.
또한, "리드 서열"(read sequence)(줄여서 "리드"(read)라고도 지칭될 수 있음)는 유전체 시퀀서(genome sequencer)에서 출력되는 단편적인 염기 서열이다. 리드의 길이는 유전체 시퀀서의 종류에 따라 다양할 수 있는데, 가령 대략 35 내지 500 bp일 수 있다.
나아가, "참조 유전체 서열"(reference genome sequence)(줄여서 "참조 서열"(reference sequence)이라고도 지칭될 수 있음)은 리드들로부터 전체 염기 서열을 생성하기 위해 참조되는 표준적인 염기 서열을 의미한다. 예시적인 염기 서열 정렬 알고리즘은 유전체 샘플로부터 시퀀싱된 리드들을 참조 서열에 맵핑함으로써 그 유전체 샘플의 유전체 서열을 완성할 수 있다.
도 1은 ITD가 포함된 DNA 샘플로부터 리드 서열들을 추출하고 추출된 리드 서열들을 참조 서열에 맵핑하는 것을 예시하기 위한 도면이다.
도 1에 도시된 바와 같이, ITD가 발생한 DNA 샘플의 유전 정보는 염기들의 서열인 샘플 서열(110)로 표현될 수 있다. 샘플 서열(110)은 4개의 염기 서열 부분들(112, 114, 116, 118)을 포함할 수 있다. 샘플 서열(110)에서, 좌측 부분(112) 및 우측 부분(118) 사이에는 ITD 부분(114) 및 ITD 부분(116)이 존재하는데, ITD 부분(116)은 ITD(114)과 동일한 염기 서열 부분이다. 샘플 서열(110)은 설명을 위해 개념적으로 미리 제시된 것으로서, 실제적으로는 이하에서 설명하는 바와 같이 DNA 샘플로부터 리드 서열들의 시퀀싱 및 시퀀싱된 리드 서열들의 맵핑 등의 특정 동작들을 거쳐 추정됨에 유의하여야 한다.
유전체 시퀀서는 ITD 변이가 포함된 DNA 샘플을 입력으로 취하여 복수의 리드 서열을 추출할 수 있다. 예를 들어, 유전체 시퀀서(가령, HiSeq® 플랫폼의 시퀀서)는 DNA 단편을 101 bp 단위로 읽어 리드 서열을 생성할 수 있고, 나아가 페어드 엔드(paired-end) 기법을 이용하여 리드 서열을 추출할 수도 있다.
이어서, 추출된 리드 서열들은 참조 서열(120)에 맵핑될 수 있다. 도 1에 도시된 바와 같이, 참조 서열(120)은 3개의 염기 서열 부분들(122, 124, 128)을 포함할 수 있다. 특히, 몇몇 리드 서열은 참조 서열(120)과 완벽하게 정렬되지 않을 수 있다. 이에 따라, 위 맵핑은 이 리드 서열들 각각에서 참조 서열(120)과 매칭되지 않는 염기 서열 부분(이하, "비매칭 부분"이라고도 지칭됨)을 참조 서열(120)과 매칭되는 염기 서열 부분(이하, "매칭 부분"이라고도 지칭됨)과 구분하는 것을 수반할 수 있다. 몇몇 실시예들에 따르면, 매칭 부분의 최소 길이(즉, 매칭 부분 내의 염기들의 최소 개수)는 미리 설정될 수 있다. 이러한 맵핑을 위해, 소프트 클리핑(soft clipping) 기능을 구비한 BWA 또는 BWA-MEM과 같이 널리 알려진 정렬 알고리즘이 사용될 수 있다.
설명의 편의상, 도 1에 도시된 바와 같이, 리드 서열들(151, 152)이 유전체 시퀀스로부터 출력되었다고 가정하자. 리드 서열들(151, 152)은 ITD 부분들(114, 116)로부터 유래하는바, 설령 참조 서열(120)의 좌측 부분(122), ITD 관련 부분(124) 및 우측 부분(128)이 각각 샘플 서열(110)의 좌측 부분(112), ITD 부분(114) 및 우측 부분(118)과 동일하더라도, 리드 서열들(151, 152) 각각은 참조 서열(120)과 부분적으로 매칭될 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 정렬 알고리즘은 리드 서열(151)의 우측 부분(음영으로 표시된 부분)을 ITD 관련 부분(124)과 매칭시키면서, 리드 서열(151)의 좌측 부분(사선으로 표시된 부분)을 참조 서열(120)과 매칭시키지 못할 수 있다. 마찬가지로, 정렬 알고리즘은 리드 서열(152)의 좌측 부분(음영으로 표시된 부분)을 ITD 관련 부분(124)과 매칭시키면서, 리드 서열(152)의 우측 부분(사선으로 표시된 부분)을 참조 서열(120)과 매칭시키지 못할 수 있다.
이하에서는 각각 참조 서열(120)과 부분적으로 매칭되는 리드 서열들로부터 유전체 샘플의 ITD를 검출하는 기법을 예로서 설명한다. 이 기법은 ITD 검출을 위해 새로운 참조 서열(이하, "ITD 참조 서열"이라고도 지칭됨)을 생성할 수 있다.
도 2는 예시적인 실시예에 따른 ITD 검출 과정을 도시한 도면이다. 예를 들어, 과정(200)은 도 5의 ITD 검출 장치(500)에 의해 수행될 수 있다.
시작 동작 후, 예시적인 과정(200)은 동작(S210)으로 진행된다. 동작(S210)에서, 유전체 시퀀스들에 의해 유전체 샘플로부터 추출된 리드 서열들이 획득된 후 그 리드 서열들이 참조 서열(120)에 맵핑된다. 이러한 맵핑을 위해 전술한 정렬 알고리즘들 중 적절한 알고리즘이 채택될 수 있다.
동작(S220)에서, 참조 서열(120) 내의 후보 서열 절단점(breakpoint)들이 결정된다. 이러한 결정은 유전체 시퀀서로부터 출력된 리드 서열들 중에서 참조 서열(120)과 부분적으로 매칭되는 리드 서열들에 기반할 수 있다.
일 예로서, 도 3에 도시된 바와 같이, 리드 서열(301)은 일측 종단(end)이 매칭 부분에 있고 타측 종단이 비매칭 부분에 있다. 도 3에 도시된 다른 8개의 리드 서열들(302 내지 309)도 마찬가지이다.
도 3을 참조하면, 참조 서열(120)과의 맵핑을 통해, 리드 서열(301)의 매칭 부분의 일측 종단은 참조 서열(120)에서 28608263이라는 값의 위치(351)에 맵핑되고 리드 서열(301)의 비매칭 부분의 일측 종단과 접한다는 것을 알 수 있다. 유전체 시퀀서가 리드 서열(301)을 출력하면서 매칭 부분과 비매칭 부분을 표시하는 경우, 이 위치(351)는 그러한 표시에 기반하여 식별될 수 있다. 참조 서열(120)에 맵핑된 다른 8개의 리드 서열들(302 내지 309) 각각에 대해서도, 매칭 부분의 두 종단 중에서 비매칭 부분과 접하는 종단이 마찬가지 방식으로 식별될 수 있다. 이에 따라, 2개의 리드 서열들(302, 303)은 각자 위치(351)에 맵핑된 종단을 가진다는 것이 확인될 수 있다. 또한, 나머지 6개의 리드 서열들(304 내지 309)에 기반하여 다른 위치(352, 353)들이 추가적으로 식별될 수 있다. 결국, 리드 서열들(301 내지 309) 각각의 매칭 부분은 식별된 위치들(351, 352, 353) 중 하나에 맵핑된 종단을 가질 것이다. 나아가, 식별된 각 위치를 기준으로 리드 서열들(301 내지 309) 각각의 매칭 부분이 순방향(선행 위치에서 후행 위치로의 방향, 가령 도 3에서 우측 방향)에 존재하는지 또는 역방향(후행 위치에서 선행 위치로의 방향, 가령 도 3에서 좌측 방향)에 존재하는지 식별될 수 있다.
요약하면, 리드 서열들(301 내지 309)이 "리드 1"부터 "리드 9"까지의 레코드 번호들을 각각 가지는 경우, 식별된 위치들(351, 352, 353)과 관련된 정보는 다음의 표에 제시된 바와 같다. 이러한 정보는 (가령, 테이블 형태의) 데이터구조로 유지될 수 있다. 비록 도 3에는 9개의 리드 서열들(301 내지 309)이 도시되었으나, 다른 리드 서열들이 유전체 시퀀스로부터 획득될 수 있고, 이들을 기반으로 추가적인 후보 서열 절단점들이 결정될 수 있다.
Figure pat00001
이어서, 위와 같이 식별된 위치들 각각이 유효한지 확인된 후, 유효한 위치들이 후보 서열 절단점들로 결정될 수 있다. 예를 들어, 식별된 각 위치가 다음의 조건들을 모두 만족하는 경우 그 위치는 유효하다고 볼 수 있다.
- 매칭 부분의 종단이 식별된 위치에 맵핑된 리드 서열들(이하에서는 편의상 그 위치와 "연관된" 리드 서열들이라고 지칭될 수 있음)의 개수가 미리 설정된 최소 개수(가령, 3) 이상인 경우
- 그 위치와 연관된 리드 서열들 중 가장 긴 리드 서열의 길이(즉, 그 리드 서열 내의 염기들의 총 개수)가 미리 설정된 최소 길이(가령, 5) 이상인 경우
- 그 위치와 연관된 리드 서열들의 비매칭 부분들이 상호 간에 어느 정도로 정렬되는지를 나타내는 "비매칭 부분 유사도"가 미리 설정된 임계 값(가령, 0.9 또는 90%) 이상인 경우
몇몇 실시예들에서, 위 비매칭 부분 유사도는 Y에 대한 X의 비율일 수 있는데, 여기서 Y는 비매칭 부분들 내에 위치하고 참조 서열(120) 내 동일한 위치에 맵핑된 염기들의 모든 가능한 페어(pair)들의 총 개수를 나타내고, X는 그 페어들 중에서 동일한 염기들을 가지는 페어들의 총 개수를 나타낸다. 일 예로서, 위치(351)와 연관된 리드 서열들(301 내지 303)의 유사도는 16/16=100%이다. 다른 예로서, 위치(352)와 연관된 리드 서열들(304 내지 306)의 유사도는 15/16=93.75%이다. 이는 참조 서열(120) 내의 28608320라는 값의 위치(365)에서 리드 서열(305)의 비매칭 부분의 염기가 리드 서열(304)의 비매칭 부분의 염기와 상이하기 때문이다. 또 다른 예로서, 위치(353)와 연관된 리드 서열들(307 내지 309)의 유사도는 8/16=50%이다. 따라서, 위치들(351, 352)이 후보 서열 절단점들로서 결정될 수 있다.
식별된 위치들(가령, 위치들(351, 352, 353)) 각각과 연관된 리드 서열들은 획득된 리드 서열들(가령, 리드 서열들(301 내지 309)) 중에서 식별될 수 있는데, 이러한 식별은 표 1에 제시된 형태와 같은 데이터 구조로 유지되는 정보를 이용할 수 있다.
동작(S230)에서, 후보 서열 절단점들로부터 두 서열 절단점이 식별된다. 이러한 식별은 두 서열 절단점 간의 위치 차이에 기반할 수 있다. 예를 들어, 후보 서열 절단점들 중에서 미리 설정된 최대 위치 차이 이하만큼 이격된 두 서열 절단점이 식별될 수 있다. 두 서열 절단점 중 선행하는 서열 절단점과 연관된 리드 순열들의 매칭 부분들은 순방향에 위치할 수 있고, 후행하는 서열 절단점과 연관된 리드 순열들의 매칭 부분들은 역방향에 위치할 수 있다. 설명의 편의를 위해, 다음과 같은 표기들을 가정한다.
- 식별된 두 서열 절단점은 각각 bi 및 bj라고 표시함
- 참조 서열(120) 내에서 서열 절단점 bi이 가지는 위치는 pos{bi}라고 표시하고, 마찬가지로 참조 서열(120) 내에서 서열 절단점 bj이 가지는 위치는 pos{bj}라고 표시함
- 미리 설정된 최대 위치 차이는 MaxITDLength라고 표시함(즉, pos{bi}가 pos{bj}보다 작은 경우, pos{bj} - pos{bi} ≤ MaxITDLength)
- 참조 서열(120)은 S라고 표시함
- 참조 서열(120) 내에 위치하고 참조 서열(120) 내의 제1 위치부터 참조 서열(120) 내의 제2 위치까지 걸쳐 있는 염기 서열 부분은 S[제1 위치, 제2 위치]라고 표시함
- 참조 서열(120) 내에 위치하고 두 서열 절단점 중 하나로부터 나머지 하나까지 걸쳐 있는 염기 서열 부분, 즉 S[pos{bi}, pos{bj}]를 ITD 참조 서열(120) 내에 몇 번 포함시킬 것인지를 나타내는 변수를 k라고 표시함(단, pos{bi}는 pos{bj}보다 작음)
- 각각이 동일한 염기 서열 부분 S[pos{bi}, pos{bj}]인 k개의 염기 서열 부분들의 연접(concatenation)을 k*S[pos{bi}, pos{bj}]라고 표시함
동작(S240)에서, 식별된 두 서열 절단점에 기반하여 ITD 참조 서열이 생성된다. 예를 들어, ITD 참조 서열은 다음의 3개의 염기 서열 부분들의 연접을 포함하도록 생성될 수 있다. 이 연접에서 염기 서열 부분들은 아래에 제시된 순서에 따라 나타날 수 있다. 아래에 나타난 두 변수들 LeftFlankingLength 및 RightFlankingLength은 ITD 참조 서열의 생성을 위해 적절하게 설정될 수 있다.
- S[pos{bi}-LeftFlankingLength, pos{bj}-1]
- k*S[pos{bi}, pos{bj}]
- S[pos{bj}+1, pos{bj}+RightFlankingLength]
일 예로서, 서열 절단점 bi 및 bj가 각각 위치(351) 및 위치(352)이고 k의 초기값이 2로 설정된 경우, 생성된 ITD 참조 서열은 도 4의 ITD 참조 서열(410)일 수 있다. 도 4에 도시된 바와 같이, ITD 참조 서열(410)은 좌측 부분(412) 및 우측 부분(428) 사이에 ITD 부분(424)으로서 참조 서열(120)의 ITD 관련 부분(124)을 포함할 수 있고 ITD 부분(426)으로서 ITD 관련 부분(126)의 순차적 반복을 포함할 수 있다. 또한, ITD 참조 서열(410)은 좌측 부분(412)으로서 참조 서열(120)의 좌측 부분(122)을 포함할 수 있고 우측 부분(428)으로서 참조 서열(120)의 우측 부분(128)을 포함할 수 있다.
동작(S250)에서, 식별된 서열 절단점들과 연관된 리드 서열들이 ITD 참조 서열에 맵핑된다. 이러한 맵핑을 통해, 맵핑 결과가 생성될 수 있다. 맵핑 결과의 생성은 연관된 리드 서열들이 ITD 참조 서열에 어느 정도로 매칭되는지를 나타내는 맵핑 유사도를 산출하는 것을 포함할 수 있다. 몇몇 실시예들에 따르면, 이러한 맵핑 유사도는 (i) 그 리드 서열들 각각의 길이 및 (ii) 그 리드 서열에서 ITD 참조 서열에 매칭되는 부분 또는 매칭되지 않는 부분의 길이에 기반하여 산출될 수 있다. 가령, 각 리드 서열에 대해 미스매치 비율(mismatch ratio)이 산출될 수 있는데, 이 비율은 그 리드 서열에 위치하고 ITD 참조 서열에 매칭되지 않는 부분의 길이를 그 리드 서열의 길이로 나눈 값일 수 있다.
동작(S260)에서, 유전체 샘플에 ITD가 존재하는지 판정된다. 이러한 판정은 연관된 리드 서열들과 ITD 참조 서열의 맵핑의 결과에 기반할 수 있다. 예를 들어, 미스매치 비율이 특정 값 이하인 리드 서열의 총 개수가 미리 설정된 임계 값을 초과하는 경우, 유전체 샘플에 ITD가 존재한다고 판정된다. 이에 따라, 유전체 샘플에 포함된 ITD 변이(가령, 샘플 서열(110) 내에서 ITD 부분들(112, 114)로 표현된 유전 변이)가 검출될 수 있다. 일 예로서, 도 3의 위치들(351, 352)이 두 서열 절단점 bi 및 bj로 식별되고, 서열 절단점들(351, 352)과 연관된 리드 서열들(301 내지 306) 각각의 미스매치 비율이 모두 특정 임계 값보다 작은 경우, 참조 서열(120) 내에서 두 서열 절단점(351, 352) 간에 걸친 염기 서열 부분(즉, ITD 관련 부분(124))이 ITD 변이를 나타내는 유전 정보라고 볼 수 있다.
만일 k의 초기값 2로는 유전체 샘플에 ITD가 존재하지 않는다고 동작(S260)에서 판정되는 경우, 과정(200)은 k를 (가령, 1만큼) 증가시킨 후 다음과 같은 동작들을 반복하는 것을 수반할 수 있다.
- ITD 참조 서열을 다시 생성하는 동작(S240)
- 식별된 서열 절단점들과 연관된 리드 서열들을 새로운 ITD 참조 서열에 맵핑하는 동작(S250)
- 유전체 샘플의 ITD를 검출하기 위한 동작(S260)
위 동작들은 ITD가 검출될 때까지 반복될 수 있다. 다만, 몇몇 실시예들에 따르면, k가 특정한 최대 가능 수를 초과하는 경우(가령, S[pos{bi}, pos{bj}]의 길이와 k의 곱이 ITD 참조 서열에 맵핑되는 리드 서열의 길이의 2배보다 큰 경우), 위 동작들의 반복은 종료될 수 있다.
몇몇 실시예들에 따르면, ITD가 검출된 경우, 전체 세포 중에서 ITD를 갖는 세포의 비율 R을 추정하는 과정은 다음과 같다. 각 서열 절단점들에 대하여, ITD 참조 서열과 완전히 매칭되는 리드의 개수를 N1를 구한다. 그 서열 절단점과 연관된 리드의 개수를 N2를 구한다. 그러면, R은 N2/(N1+N2)로 산출할 수 있다.
도 5는 예시적인 실시예에 따른 ITD 검출 장치를 도시한다.
도 5에 도시된 바와 같이, 예시적인 ITD 검출 장치(500)는 리드 맵핑부(510), 절단점 식별부(520) 및 ITD 검출부(530)를 포함한다. 예를 들어, ITD 검출 장치(500)는 컴퓨팅 장치 내에 구현되거나 포함될 수 있다. 몇몇 실시예들에 따르면, ITD 검출 장치(500)의 각 컴포넌트는 컴퓨팅 장치의 하드웨어(예컨대, 프로세서, 메모리, 입출력 인터페이스 등)로 구현될 수 있다. 컴퓨팅 장치는 하나 이상의 프로세서 및 그 프로세서에 의해 액세스 가능한 메모리와 같은 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 컴퓨터 판독 가능 저장 매체는 프로세서의 내부 또는 외부에 배치될 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 컴퓨터 판독 가능 저장 매체에는 컴퓨터 실행 가능 명령어가 저장되어 있을 수 있다. 프로세서는 컴퓨터 판독 가능 저장 매체에 저장된 명령어를 실행할 수 있다. 그러한 명령어는 프로세서에 의해 실행되는 경우 프로세서로 하여금 예시적인 실시예에 따른 동작을 수행하게 할 수 있다.
리드 맵핑부(510)는 유전체 샘플로부터 시퀀싱된 리드들을 수신한 후, 수신된 리드들을 참조 유전체 서열과 맵핑할 수 있다. 이러한 맵핑을 위해 앞서 언급된 정렬 알고리즘이 사용될 수 있다.
이러한 리드들 중에는 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드가 존재할 수 있다. 특히, 리드 맵핑부(510)는 참조 유전체 서열과의 맵핑을 통해 위와 같은 부분적 매칭 리드들 각각의 매칭 부분 및 비매칭 부분을 식별할 수 있다. 이러한 리드는 두 종단이 각각 매칭 부분 및 비매칭 부분에 위치할 수 있다.
절단점 식별부(520)는 위와 같이 매칭 부분과 비매칭 부분이 식별된 복수의 리드(즉, 각 리드는 참조 유전체 서열과 부분적으로 매칭됨)를 획득할 수 있다. 절단점 식별부(520)는 획득된 복수의 리드에 기반하여 참조 유전체 서열 내의 두 서열 절단점(줄여서 "절단점"이라고도 지칭될 수 있음)을 식별할 수 있다.
예를 들어, 절단점 식별부(520)는 획득된 복수의 리드에 기반하여 참조 유전체 서열 내의 복수의 위치를 식별하여 후보 절단점들을 결정할 수 있는데, 각 리드의 매칭 부분의 일측 종단은 식별된 위치 중 하나에 맵핑된다. 몇몇 실시예들에 따르면, 절단점 식별부(520)는 각각의 후보 절단점을 식별된 위치들 중 대응하는 위치로 결정할 수 있는데, 이러한 결정은 복수의 리드 중 그 위치와 연관된 리드(즉, 그 위치에 맵핑된 종단을 가지는 리드)의 총 개수, 연관된 리드 중 가장 긴 연관된 리드의 길이 및 비매칭 부분 유사도에 기반할 수 있다. 비매칭 부분 유사도는 (i) 연관된 리드 중 하나의 비매칭 부분 내에 위치한 제1 염기 및 연관된 리드 중 다른 하나의 비매칭 부분 내에 위치한 제2 염기(단, 제1 염기 및 제2 염기는 참조 유전체 서열 내의 동일한 위치에 맵핑됨)를 가지는 모든 가능한 페어(pair)의 총 개수에 대한 (ii) 그러한 모든 가능한 페어 중 동일한 염기의 페어의 총 개수의 비율로 산출될 수 있다. 이어서, 절단점 식별부(520)는 후보 절단점들 중 위치 차이가 미리 설정된 값보다 작은 두 절단점을 식별할 수 있다.
ITD 검출부(530)는 참조 유전체 서열에서 위 두 절단점 간에 걸친 염기 서열 부분 및 그 염기 서열 부분의 순차적 반복을 포함하는 ITD 참조 서열을 생성할 수 있다. 이어서, 리드 맵핑부(510)는 식별된 절단점과 연관된 리드들(즉, 각 리드의 매칭부분은 두 절단점 중 하나에 맵핑된 종단을 가짐)을 ITD 참조 서열과 맵핑하여 맵핑 결과(예컨대, 앞서 언급된 맵핑 유사도)를 생성할 수 있다. ITD 검출부(530)는 맵핑 결과에 기반하여 유전체 샘플의 ITD 변이를 검출할 수 있다. 만일 생성된 ITD 참조 서열으로 ITD를 검출하지 못한 경우, ITD 검출부(530)는 두 절단점 간의 염기 서열 부분의 적어도 하나의 다른 순차적 반복을 ITD 참조 서열에 포함시킬 수 있고, 절단점과 연관된 리드들을 이와 같이 변경된 ITD 참조 서열과 맵핑하는 것을 반복할 수 있다.
한편, 소정의 실시예는 본 명세서에서 기술한 과정을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 이러한 컴퓨터 판독 가능 저장 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 그 컴퓨터 판독 가능 저장 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들일 수 있다. 컴퓨터 판독 가능 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 샘플 서열
120: 참조 서열
151, 152: 리드 서열
410: ITD 참조 서열
500: ITD 검출 장치
510: 리드 맵핑부
520: 절단점 식별부
530: ITD 검출부

Claims (21)

  1. 각각 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 두 절단점을 식별하는 절단점 식별부; 및
    상기 참조 유전체 서열에서 상기 두 절단점 간에 걸친 염기 서열 부분 및 상기 염기 서열 부분의 순차적 반복을 포함하는 ITD(Internal Tandem Duplication) 참조 서열을 생성하는 ITD 검출부를 포함하는,
    ITD 검출 장치.
  2. 청구항 1에 있어서,
    상기 복수의 리드를 상기 참조 유전체 서열과 맵핑하여 상기 복수의 리드 각각의 매칭 부분 및 비매칭 부분을 식별하는 리드 맵핑부를 더 포함하고, 상기 매칭 부분은 상기 참조 유전체 서열과 매칭되고 상기 비매칭 부분은 상기 참조 유전체 서열과 매칭되지 않는, ITD 검출 장치.
  3. 청구항 2에 있어서,
    상기 복수의 리드 각각은 두 종단이 각각 상기 매칭 부분 및 상기 비매칭 부분에 있는, ITD 검출 장치.
  4. 청구항 2에 있어서,
    상기 리드 맵핑부는 또한 상기 복수의 리드 중 복수의 연관된 리드를 상기 ITD 참조 서열과 맵핑하여 맵핑 결과를 생성하고, 상기 복수의 연관된 리드 각각의 매칭 부분의 일측 종단은 상기 두 절단점 중 하나에 맵핑된, ITD 검출 장치.
  5. 청구항 4에 있어서,
    상기 리드 맵핑부는 상기 맵핑 결과를 상기 복수의 연관된 리드 각각의 길이 및 상기 복수의 연관된 리드 각각의 일부분의 길이에 기반하여 생성하고, 상기 일부분은 상기 ITD 참조 서열과 매칭되지 않는, ITD 검출 장치.
  6. 청구항 4에 있어서,
    상기 절단점 식별부는 또한 유전체 샘플로부터 시퀀싱되는 상기 복수의 리드를 획득하고, 상기 ITD 검출부는 또한 상기 맵핑 결과에 기반하여 상기 유전체 샘플의 ITD 변이를 검출하는, ITD 검출 장치.
  7. 청구항 4에 있어서,
    상기 ITD 검출부는 또한 상기 염기 서열 부분의 적어도 하나의 다른 순차적 반복을 상기 ITD 참조 서열에 포함시켜 상기 ITD 참조 서열을 변경하고, 상기 리드 맵핑부는 또한 상기 변경된 ITD 참조 서열에 대해 상기 복수의 연관된 리드의 맵핑을 반복하는, ITD 검출 장치.
  8. 청구항 2에 있어서,
    상기 절단점 식별부는 또한 상기 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 복수의 위치를 식별하여 상기 참조 유전체 서열 내의 복수의 후보 절단점을 결정하고, 상기 복수의 리드 각각의 매칭 부분은 상기 복수의 위치 중 하나에 맵핑된 종단을 가지는, ITD 검출 장치.
  9. 청구항 8에 있어서,
    상기 절단점 식별부는
    상기 복수의 리드 중 연관된 리드의 총 개수;
    상기 연관된 리드 중 가장 긴 연관된 리드의 길이;
    각각이 상기 연관된 리드 중 하나의 비매칭 부분 내에 위치한 제1 염기 및 상기 연관된 리드 중 다른 하나의 비매칭 부분 내에 위치한 제2 염기를 가지는 모든 가능한 페어(pair)의 총 개수; 및
    상기 모든 가능한 페어 중 동일한 염기의 페어의 총 개수에 기반하여
    상기 복수의 후보 절단점 각각을 상기 복수의 위치 중 대응하는 위치로 결정하되,
    상기 연관된 리드 각각은 상기 대응하는 위치에 맵핑된 종단을 가지고, 상기 제1 염기 및 상기 제2 염기는 상기 참조 유전체 서열 내의 동일한 위치에 맵핑되는, ITD 검출 장치.
  10. 청구항 8에 있어서,
    상기 절단점 식별부는 상기 두 절단점 간의 위치 차이에 기반하여 상기 두 절단점을 상기 복수의 후보 절단점 중에서 식별하는, ITD 검출 장치.
  11. 각각 참조 유전체 서열과 부분적으로 매칭되는 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 두 절단점을 식별하는 단계; 및
    상기 참조 유전체 서열에서 상기 두 절단점 간에 걸친 염기 서열 부분 및 상기 염기 서열 부분의 순차적 반복을 포함하는 ITD(Internal Tandem Duplication) 참조 서열을 생성하는 단계를 포함하는,
    ITD 검출 방법.
  12. 청구항 11에 있어서,
    상기 복수의 리드를 상기 참조 유전체 서열과 맵핑하여 상기 복수의 리드 각각의 매칭 부분 및 비매칭 부분을 식별하는 단계를 더 포함하고, 상기 매칭 부분은 상기 참조 유전체 서열과 매칭되고 상기 비매칭 부분은 상기 참조 유전체 서열과 매칭되지 않는, ITD 검출 방법.
  13. 청구항 12에 있어서,
    상기 복수의 리드 각각은 두 종단이 각각 상기 매칭 부분 및 상기 비매칭 부분에 있는, ITD 검출 방법.
  14. 청구항 12에 있어서,
    상기 복수의 리드 중 복수의 연관된 리드를 상기 ITD 참조 서열과 맵핑하여 맵핑 결과를 생성하는 단계를 더 포함하고, 상기 복수의 연관된 리드 각각의 매칭 부분의 일측 종단은 상기 두 절단점 중 하나에 맵핑된, ITD 검출 방법.
  15. 청구항 14에 있어서,
    상기 복수의 연관된 리드를 맵핑하는 단계는, 상기 맵핑 결과를 상기 복수의 연관된 리드 각각의 길이 및 상기 복수의 연관된 리드 각각의 일부분의 길이에 기반하여 생성하는 단계를 포함하고, 상기 일부분은 상기 ITD 참조 서열과 매칭되지 않는, ITD 검출 방법.
  16. 청구항 14에 있어서,
    유전체 샘플로부터 시퀀싱되는 상기 복수의 리드를 획득하는 단계; 및
    상기 맵핑 결과에 기반하여 상기 유전체 샘플의 ITD 변이를 검출하는 단계를 더 포함하는, ITD 검출 방법.
  17. 청구항 14에 있어서,
    상기 염기 서열 부분의 적어도 하나의 다른 순차적 반복을 상기 ITD 참조 서열에 포함시켜 상기 ITD 참조 서열을 변경하는 단계; 및
    상기 변경된 ITD 참조 서열에 대해 상기 복수의 연관된 리드의 맵핑을 반복하는 단계를 더 포함하는, ITD 검출 방법.
  18. 청구항 12에 있어서,
    상기 두 절단점을 식별하는 단계는, 상기 복수의 리드에 기반하여 상기 참조 유전체 서열 내의 복수의 위치를 식별하여 상기 참조 유전체 서열 내의 복수의 후보 절단점을 결정하는 단계를 포함하고, 상기 복수의 리드 각각의 매칭 부분은 상기 복수의 위치 중 하나에 맵핑된 종단을 가지는, ITD 검출 방법.
  19. 청구항 18에 있어서,
    상기 두 절단점을 식별하는 단계는,
    상기 복수의 리드 중 연관된 리드의 총 개수;
    상기 연관된 리드 중 가장 긴 연관된 리드의 길이;
    각각이 상기 연관된 리드 중 하나의 비매칭 부분 내에 위치한 제1 염기 및 상기 연관된 리드 중 다른 하나의 비매칭 부분 내에 위치한 제2 염기를 가지는 모든 가능한 페어(pair)의 총 개수; 및
    상기 모든 가능한 페어 중 동일한 염기의 페어의 총 개수에 기반하여
    상기 복수의 후보 절단점 각각을 상기 복수의 위치 중 대응하는 위치로 결정하는 단계를 더 포함하되,
    상기 연관된 리드 각각은 상기 대응하는 위치에 맵핑된 종단을 가지고, 상기 제1 염기 및 상기 제2 염기는 상기 참조 유전체 서열 내의 동일한 위치에 맵핑되는, ITD 검출 방법.
  20. 청구항 18에 있어서,
    상기 두 절단점을 식별하는 단계는, 상기 두 절단점 간의 위치 차이에 기반하여 상기 두 절단점을 상기 복수의 후보 절단점 중에서 식별하는 단계를 더 포함하는, ITD 검출 방법.
  21. 하드웨어와 결합되어, 청구항 11 내지 청구항 20 중 하나에 기재된 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
KR1020140132374A 2014-10-01 2014-10-01 Itd 검출 장치 및 방법 KR20160039386A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140132374A KR20160039386A (ko) 2014-10-01 2014-10-01 Itd 검출 장치 및 방법
US14/872,369 US20160098517A1 (en) 2014-10-01 2015-10-01 Apparatus and method for detecting internal tandem duplication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140132374A KR20160039386A (ko) 2014-10-01 2014-10-01 Itd 검출 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20160039386A true KR20160039386A (ko) 2016-04-11

Family

ID=55632981

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140132374A KR20160039386A (ko) 2014-10-01 2014-10-01 Itd 검출 장치 및 방법

Country Status (2)

Country Link
US (1) US20160098517A1 (ko)
KR (1) KR20160039386A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
WO2023214754A1 (ko) * 2022-05-02 2023-11-09 가톨릭대학교 산학협력단 Ngs 분석에서의 itd 분석을 위한 씨드 서열의 생성 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019108942A1 (en) * 2017-12-01 2019-06-06 Life Technologies Corporation Methods, systems, and computer-readable media for detection of tandem duplication
CN108268752B (zh) * 2018-01-18 2019-02-01 东莞博奥木华基因科技有限公司 一种染色体异常检测装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置
WO2023214754A1 (ko) * 2022-05-02 2023-11-09 가톨릭대학교 산학협력단 Ngs 분석에서의 itd 분석을 위한 씨드 서열의 생성 방법 및 장치

Also Published As

Publication number Publication date
US20160098517A1 (en) 2016-04-07

Similar Documents

Publication Publication Date Title
CN110010193B (zh) 一种基于混合策略的复杂结构变异检测方法
Lin et al. AGORA: assembly guided by optical restriction alignment
Koboldt et al. Massively parallel sequencing approaches for characterization of structural variation
García-López et al. Fragmentation and coverage variation in viral metagenome assemblies, and their effect in diversity calculations
KR20140119723A (ko) Dna 서열의 데이터 분석
CN103258145B (zh) 一种基于De Bruijn图的并行基因拼接方法
KR101313087B1 (ko) Ngs를 위한 서열 재조합 방법 및 장치
CN108660200B (zh) 一种检测短串联重复序列扩张的方法
KR20160039386A (ko) Itd 검출 장치 및 방법
KR20200107774A (ko) 표적화 핵산 서열 분석 데이터를 정렬하는 방법
CN111933214B (zh) 用于检测rna水平体细胞基因变异的方法、计算设备
WO2010056131A1 (en) A method and system for analysing data sequences
KR101372947B1 (ko) 염기 서열 분석을 위한 참조 서열 처리 시스템 및 방법
CN110782946A (zh) 识别重复序列的方法及装置、存储介质、电子设备
US20150142328A1 (en) Calculation method for interchromosomal translocation position
CN109920480B (zh) 一种校正高通量测序数据的方法和装置
Marić Long read RNA-seq mapper
KR101394339B1 (ko) 시드의 길이를 고려한 염기 서열 처리 시스템 및 방법
KR20140056560A (ko) 염기 서열 정렬 시스템 및 방법
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
CN110462056A (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
CA3096353C (en) Determination of frequency distribution of nucleotide sequence variants
Martin Algorithms and tools for the analysis of high throughput DNA sequencing data
KR20150026542A (ko) 염기 서열 정렬 시스템 및 방법
CN104239749A (zh) 碱基序列对准系统及方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid