WO2014119914A1

WO2014119914A1 - 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치

Info

Publication number: WO2014119914A1
Application number: PCT/KR2014/000823
Authority: WO
Inventors: 남궁정현; 윤태균; 이성곤; 이병철
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2013-02-01
Filing date: 2014-01-28
Publication date: 2014-08-07

Abstract

본 발명은 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기서열에 대해 품질관리 를 수행하고, 상기 품질관리 를 수행한 염기서열과 참조서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하며, 상기 추출된 개인 식별 유전변이 마커의 적합성을 신뢰도, 용이성 및 유용성으로 평가하며, 상기 마커 적합성이 확인된 변이 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 제공한다. 이를 통하여, 개인 유전변이를 추출하고, 발굴된 유전변이 마커의 적합성을 평가하여 우선 순위를 제시하며, 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 추가로 제공한다.

Description

유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치

본 발명은 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치에 관한 것이다.

인간 유전체 프로젝트가 완료된 후 인간의 DNA 염기서열이 해독되고 이로부터 인간 유전자의 다양한 기능들이 밝혀지고 있다. 특히, 다양한 유전자 변이들이 발견되어 이것들이 인간의 형질의 차이를 일으킬 뿐만 아니라, 특정 질병의 원인으로 작용될 수 있음이 밝혀짐에 따라 인간 유전체 분석 연구는 점점 더 가속화 되어가고 있다. 하지만, 인간 유전체에서 발생할 수 있는 방대한 유전적 변이 중 어떠한 변이가 실질적으로 병인이 될 수 있는 것인가를 밝혀내는 데에는 어려움이 있을 수 밖에 없다.

차세대 시퀀싱 기술(NGS, Next Generation Sequencing)이 발달함에 따라 개별 인간의 전체 유전체의 염기 서열 해독이 가능하게 되었고, 질병군과 정상군의 염기서열 및 변이 비교 분석 방법을 통하여 질병 특이적 유전자 변이를 추출하는 것도 가능하게 되었다. 또한, 형질에 관련된 마커를 선별하고 뉴클레오티드 수준에 기존의 변이를 확인하며 표적 뉴클레오티드 교환에 의해 상기 마커의 불변 부위의 위치들에서 하나 또는 그 이상의 뉴클레오티드의 도입으로 선별가능한 마커를 도입하여 고유한 분자 마커들의 생성을 위한

방법을 활용하기도 하였다(KR 제 10-2011-0094268호 참조). 그러나 종래의 기술은 추출된 유전자 변이 정보로부터 특이도가 높아 신뢰할 수 있고 유용성이 있는 정보를 제공할 수 없다는 한계가 있었다.

본 발명은 상기와 같은 필요성을 고려하여 안출된 것으로, 목적시료로부터 얻은 염기서열 정보를 이용하여 유전자 서열 변이를 찾고 염기서열의 품질과 추출된 마커의 적합성을 평가하여 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공하는데 목적이 있다.

또한, 본 발명은 목적시료로부터 수득된 염기서열 정보에 대한 서열 입력부, 서열 품질 관리 (QC) 부, 서열 대조 연산부, 유전변이 추출부, 및 변이 서열 출력부를 포함하는 장치를 제공하는데 목적이 있다.

본 발명에서 “신뢰도 평가”란 선정된 마커의 확률적 유의성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 유전변이 발굴에 사용된 리드(Supporting reads)의 개수, 염기 서열의 개수 및 서열 품질 등 정보를 이용하여 유전변이 분석 결과를 평가하는 것을 말한다.

본 발명에서 “용이성 평가”란 실험적 마커 검출의 용이성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 반복서열의 존재여부 및 GC 염기 함량과 같은 서열조성특성, 그리고 해당 유전변이 주변에 추가 개인 변이 존재 여부를 분석하여 평가하는 것을 말한다.

본 발명에서 “유용성 평가”란 마커의 생물학적 형질에 대한 연관성에 기반한 유용성을 평가하는 것으로, 이에 한정하지는 않지만, 예를 들어 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반으로 평가하는 것을 말한다.

본 발명의 일 구체예에서, 목적시료로부터 염기서열 정보를 수득하고, 수득된 염기정보가 분석가능한 염기서열인지를 품질을 확인하고, 상기 확인된 분석가능한 염기서열 정보와 참조 서열을 대조하며, 상기 서열 대조 결과로부터 개인 식별 마커를 추출하며, 상기 추출된 개인 식별 마커의 마커 적합성을 평가하며, 상기 마커 적합성이 확인된 서열을 출력하는 단계를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법을 제공한다. 상기 구체예에서, 마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 또는 유용성 평가를 수행하는 것을 특징으로 하는 방법을 제공하고, 품질을 확인하고 품질관리를 수행하는 단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 대조하는 단계는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법을 제공하며, 상기 마커를 추출하는 단계는 단일염기다형성(SNP: single-nucleotide polymorphism) 또는 구조 변이(SV: structural variation)를 추출하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 신뢰도를 평가하는 단계는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 용이성을 평가하는 단계는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 마커 유용성을 평가하는 단계는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 방법을 제공하며, 상기 확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 방법을 제공한다.

본 발명의 일 구체예에서, 목적시료로부터 수득된 염기서열 정보를 입력하는 입력부(110), 수득된 염기정보가 분석가능한 염기서열인지를 확인하는 품질 관리 연산부(120), 상기 확인된 분석가능한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부(130), 상기 서열 대조 결과로부터 개인 식별 마커를 추출하는 유전변이 추출부(140), 상기 추출된 개인 식별 마커의 마커 적합성을 확인 연산하는 적합성 연산부 (150) 및 상기 적합성 연산 결과를 출력하는 출력부(160)를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치을 제공한다. 상기 구체예에서, 적합성 연산부(150)는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성된 군으로부터 선택된 어느 하나 이상인 것을 특징으로 하는 장치를 제공하고, 품질 관리 연산부(120)는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치를 제공하며, 상기 대조 연산부(130)는 글로벌 정렬법(Global alignment) 및 로컬 정렬법(Local alignment)로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 장치를 제공하며, 상기 유전변이 추출부(140)는 단일염기다형성(single-nucleotide polymorphism) 또는 구조적 변이(structural variation)를 추출하는 것을 특징으로 하는 장치를 제공하며, 상기 적합성 연산부 (150)중 신뢰도 연산부는 수득된 염기서열 리드의 개수 및 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 용이성 연산부는 반복서열의 존재여부 및 GC 함량을 고려하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 유용성 연산부는 질환 위험도 및 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치를 제공하며, 상기 출력부(160)는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식 (fasta format) 등의 통용되는 표준서열 파일 형식으로 제시하는 것을 특징으로 하는 장치를 제공한다.

유전자 서열 분석 장치로부터 얻어진 염기서열 리드를 통해 발굴한 유전변이 정보는 불확실성을 내포하고 있어서 타 분석 장비를 이용한 검증 과정이 요구되는 경우가 많기 때문에 본 발명의 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치를 통하여 i) 개인 유전변이 발굴을 수행하고 ii) 발굴된 유전변이 마커를 신뢰도, 용이성 및 유용성 측면에서 평가하여 우선 순위를 제시하고 iii) 타 분석 장비를 이용한 검증 실험에 사용될 수 있도록 주변서열정보를 별도 프로그램을 사용하지 않고 동시에 획득할 수 있다. 특히 암세포 유전자의 경우 암세포 특이적 유전자변이 마커를 제공하여 피검체의 정상세포 유래 유전자와 구분되는 암세포로부터 유래한 유전자를 검출하는 데 유용한 도구로써 사용될 수 있다.

도 1은 본 발명의 일 구체예로서, 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법에 관한 일 구체예이다.

도 2는 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열에 대해 매핑하는 일 구체예이다.

도 3은 공개된 참조 서열 또는 다른 염기서열 리드를 참조로 하여 개인 유전변이를 발굴 및 정보 제시하는 방법의 일 구체예이다.

도 4a 내지 도 4h는 표 1 및 표 2에 기재된 신뢰도 계산의 대상이 된 시뮬레이션을 통해 생성한 예제서열이고 도 4i 내지 도 4l은 상기 서열 각각에 대한 계산결과를 나타낸 것이다.

도 5는 찾아진 유전변이 3개의 유용성 점수를 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 산정한 일 구체예이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

도 1은 본 발명의 일 구체예로, 서열 분석 장치로부터 얻은 염기서열 자료로부터 개인 유전변이를 발굴하고 개별 유전변이 검증을 위한 실험에 적합한 형태의 서열을 제시하는 방법에 관한 개괄도로써, 서열 분석장치로부터 염기서열 리드를 읽고 각 리드별로 품질관리 과정을 수행하고, 공개된 참조 서열과 상기 수득한 염기서열을 배열시켜 매핑하며, 공개된 참조 서열 또는 다른 대조 염기서열과 비교하여 개인 유전변이를 발굴하고 이에 관한 정보를 제공한다. 이때, 개별 유전변이 중 개인 식별 마커로서 유용성 높은 마커를 선정하기 위하여 신뢰도 평가, 용이성 평가 및 유용성 평가를 수행한다. 또한, 평가 수행 결과 추출된 유전 정보는 유전변이의 염기서열을 포함한 주변 서열을 파스타 형식(fasta format) 등의 통용되는 표준서열 파일 형식으로 제시한다.

본 발명의 다른 구체예(도면 2) 에서, 서열 분석 장치로부터 얻은 염기서열 자료로부터 리드(read) 자료를 수득하고, 이 유전자 서열 리드 자료를 읽어 시스템에 저장한다. 각 위치별로 품질 점수를 기준으로 트리밍(trimming), N 마스킹, 저품질 리드 필터를 수행하여 품질관리 처리하고, 처리된 서열에 대하여 참조서열과 글로벌 정렬법 및 로컬 정렬법을 병행하고, BWA, BWASW, Bowtie2 등의 프로그램을 사용하여 배열을 수행하여 SAM 또는 BAM 형식의 출력 파일을 작성한다.

본 발명의 다른 구체예(도면 3) 에서, 위 품질관리 과정을 거친 리드 파일을 이용하여 SNP 및 SV와 같은 변이 마커 발굴과정을 제시하였다. SNP 및 작은 인델(short INDEL) 변이 발굴은 GATK UnifiedGenotyper과 SAMtools mpileup 등을 사용하여 분석하고, 발굴 마커의 정확도를 향상시키기 위해 재보정(recalibration)과 재배열(realignment) 과정을 추가할 수 있다. SV 발굴은 상호 염색체 재배열(Inter/intrachromosomal rearrangement), 큰 인델(large INDEL), 역위(inversion), 긴 범위 반복 서열 변이(long range repeat sequence variation)와 같은 큰 구조 변이(large structural variation)를 발굴하기 위해 브레이크댄서(BreakDancer) 및 핀델(Pindel) 등의 프로그램을 사용할 수 있다.

본 발명의 일 구체예에서, 마커 평가는 i)신뢰도 평가, ii) 용이성 평가 및 iii)유용성 평가로 구분된다. 신뢰도 평가는 유전변이 발굴에 사용된 리드(Supporting reads)의 개수 및 서열 품질 등 정보를 이용하여 유전변이 결과를 평가하는 것이다. 용이성 평가는 반복서열의 존재여부 및 GC 함량과 같은 서열조성특성, 및 해당 유전변이 주변에 개인 변이 존재 여부를 분석하여 실험의 용이성을 평가하는 것을 말한다. 유용성 평가는 질환 위험도와 관련성, 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반한 평가를 말한다.

본 발명의 일 구체예서, ”신뢰도 평가”는 유전변이의 신뢰도를 평가하는 척도로서 유전변이 발굴에 사용된 지지 리드(supporting reads), 비정형 리드쌍 (discordant read pair)과 절단 리드 (clipped read)등의 개수 및 서열품질에 기반하여 점수화하고, 각 변이 끝단(Break point)에 대해 평가하는 것을 말하며, 하기와 같은 수식으로 산정한다:

,

여기서,

f()는 연결함수(link function)이고;

wi() 는 가중치 함수이며;

R_ij는 각 종류별 지지 리드의 맵핑 품질 및 개별 서열 품질을 고려한 점수이다.

본 발명의 일 구체예에서, SNP의 신뢰도는 매핑 품질(Q_i ^M)과 염기 품질(Q_i ^B)의 기하평균(Q_i), 품질 기반의 변이비율(M_s), 변이를 포함하는 리드(지지 리드)의 품질(A_s), 해당위치의 깊이(depth)와 전체 평균 깊이비(D_s)의 곱으로 정의한다. 찾아진 SNP 위치에 전체 n개의 지지 리드가 있고(i=1,…,n), m-n개의 참조서열 염기를 가진 리드를 가정하였다. 이때 Q_i ^B와 Q_i ^M은 i번째 리드의 염기 품질과 매핑 품질을 나타내며 다음과 같이 계산될 수 있다.

여기서,

와

는 각각 만족해야하는 최소 염기 품질과 매핑 품질값이며, 와 는 각각 해당샘플의 전체 서열 평균 염기 및 매핑 품질값을 나타낸다. C_B와 C_M은 스케일 상수로서 아래 예에서는

를 사용하였다. Q_i, 즉 i번째 리드의 품질값은 다음과 같이 리드의 염기 품질과 매핑 품질의 곱으로 정의하며,

품질 기반의 변이비율(M_s), 지지 리드의 품질(A_s), 해당 위치의 깊이비(D_s)는 각각 다음과 같이 정의한다.

(d는 해당 샘플의 전체 서열 평균 깊이임)

해당 SNP의 신뢰도는 아래와 같다.

하기 표 1은 시뮬레이션을 통해 생성한 2개의 SNP의 신뢰도 계산 예를 보여준다.

표 1.

본 발명의 일 구체예에서, 구조변이(SV)의 신뢰도(Q^SV)는 매핑 품질(Q_i ^M) 와 염기 품질 (Q_i ^B)의 곱으로 정의된다.

상기 구조변이 신뢰도 계산을 위해, 찾아진 구조변이 영역(즉 절단면을 중심으로 짝지은-말단 리드(paired-end read)의 경우에는 삽입체 크기(insert size)에 해당하는 영역, 단일-말단 리드의 경우에는 리드 길이의 2배에 해당하는 영역)에 전체 n개의 지지 리드(비정형 리드 및 절단 리드)가 있고, m-n개의 참조서열을 갖는 리드를 가정하였다. 또한, Q_i ^M은 지지 리드를 제외한 나머지 리드들의 평균으로, Q_i ^B지지 리드의 매핑 품질값으로 다음과 같이 정의하였다.

,

l은 리드 길이이며,

은 참조서열과 잘 매핑된 서열의 평균 매핑 품질값으로 다음과 같이 정의되고,

C_B와 C_M은 스케일 상수로서 아래 예에서는

를 사용하였다.

하기 표 2는 시뮬레이션을 통해 생성한 두 삽입 구조변이에 대한 신뢰도 계산 예를 보여준다.

표 2

본 발명의 일 구체예에서, “용이성 평가”는 PCR 또는 표적 서열 분석과 같은 방법으로 발굴한 마커의 검증 용이성을 제시하는 척도로 하기와 같은 식으로 산정한다:

여기서,

A_i는 항목별 용이도이고,

w_i는 각 용이도의 가중치이다.

항목별 용이도를 산출하기 위하여, 영역 다형성(Regional polymorphisms)은, 이에 한정하지는 않지만, 예를 들어, SNP와 작은 인델을 들 수 있다. 목적하는 마커와 주변서열에 참조 서열과 다른 치환기나 작은 인델이 있을 경우 이에 대한 용이도를 도입한다. 예를 들어, 하기와 같이 산정된다:

A_rp={호모 SNP의 경우 1; 호모 인델의 경우 0; 및 헤테로 SNP의 경우 -1; 및 헤테로 인델의 경우 -9}

또한, 서열복잡성(sequence complexity)은 자가 재구성(self assembly)이나 고유성(uniqueness)을 평가하기 위해 도입하는 것으로, 예를 들어, 하기와 같이 산정된다:

여기서,

단어 길이는 l이고,

f(s)는 서열상 빈도에 관한 함수이고,

C는 상수이다.

또한 “GC 함량”은 PCR 등의 프라이머로 쓰기 위해서는 적합한 융점(melting point)를 제공할 수 있어야 하기 때문에, 함수 도입이 필요한데, 예를 들어 하기와 같이 산정된다:

여기서,

C_n 은 계수이고,

p(XY)에서 XY 는 함량이다.

본 발명의 일 구체예에서, 찾아진 전좌(translocation) 유전변이 절단면의 업스트림(upstream) 및 다운스트림(downstream) 주변서열이 하기와 같을 경우, 용이성은 다음과 같이 계산될 수 있다.

- BP_upstream:

GACGCCCCAGGCCGCGGTGGAGTTGCGCGCGGCTTC [A] AAAGTGGAGTGGAGCAGGCCTGC

- BP_downstream:

AGCACAGGCAGGCACCAGCTGGGCAGTGT [A/T] AGGATGCTGGAGCAGCATCCGT [-] ACCCCAC

즉, 상기 업스트림 주변서열의 경우 호모 SNP를 하나 가지므로 A_rp에는 감점이 없다. 한편, 다운스트림의 경우 헤테로 SNP와 호모 인델이 있으므로 1점을 감점한다. A_sp의 경우, 예를 들어 참고논문(Computers & Chemistry 23(3-4):263-201)에 나와있는 방식과 같은 방법으로 계산할 수 있고, 그것이 가질 수 있는 의미는 primer 제작 가능 개수 등일 수 있으나, 이에 제한되는 것은 아니다. A_qc는 예를 들어 Shannon 엔트로피를 이용하여 GC 함량에 대한 적절한 가중치(0.5일 때 가장 큰 값을 줌)를 계산하는 것이다. 이들에 대한 총합으로 용이성을 평가하며, 예를 들어 고려한 인자들에 대한 가중치를 모두 1/3으로 같게 한다면 그 결과는 하기 표 3과 같다.

표 3

본 발명의 일 구체예에서, 찾아진 결실 유전변이 절단면의 측면 서열(flanking sequence)이 하기와 같을 경우,

- BP_upstream:

GGGCGCGGGCGCGCGGGGCGGCGGTGAGGGCGGCTGGCGGGGCCGGGGGCGCCGGGGGGG

- BP_downstream:

CCACTGGGGAGAGGCTGTTCTGACTCTGCAGGTGGGACAGGGACAGATGGCCACCAGGGT

상기 용이성 계산 방식을 적용한 결과는 하기 표 4와 같다.

표 4

용이성 점수 A가 표 3에 비해 표 4가 작으므로 용이성이 떨어지는 것으로 판단할 수 있다.

본 발명의 일 구체예에서, “유용성 평가”는, 이에 한정하지는 않지만, 질환 위험도, 관련성 및 표적항암제 관련성 등 유전자 마커의 생물학적 형질에 대한 연관성에 기반하여 평가하는데, 예를 들어 하기 식을 산정한다:

여기서,

U _i는 항목별 유용성이고,

w _i는 각 유용성의 가중치이다.

각각의 유용성은 영역별 기능 (Function of the region)은 유전자 마커에 해당하는 영역의 기능군에 대하여 사용자의 목적에 적합한지 비교하여 유용성을 계산한다. 예를 들어 코딩 영역, 조절 영역, 유전자간 영역 (intergenic region), 중 사용자가 목적하는 영역에 해당하면 각각 c1, c2, c3 (U _f=c1>c2>c3 ) 를 부여한다. 이때, 표적 항암제 관련성은 유전자 마커가 표적 항암제와 연관성이 있을 경우, 약물 반응성을 평가하여 유용성을 계산한다. 표적 항암제와 연관이 있는 유전자 마커는 치료 방법 결정시 사용될 수 있다. 예를 들어 하기와 같이 산정한다:

U_m= f(표적 항암제 관련 변이 포함영역 여부, 1 or 0)

또한, 질환 위험도는 유전자 마커가 질환과 연관성이 있을 경우, 질환 발병 위험도를 평가하여 유용성을 계산하는데, 예를 들어 하기와 같은 식으로 산정한다:

U_i=f(질환위험인자 포함영역 여부,1 또는 0)

본 발명의 일 구체예(도 4)에서, 찾아진 유전변이 3개에 대한 유용성 점수는 하기와 같이 계산될 수 있다. 도 4의 유전변이 2의 경우 인트론에 위치하므로 영역별 기능 평가부에서 0.5점을 부여하였고, 유방암과 난소암의 관련성이 보고되어 있으므로 질환 연관성 점수 1점을 추가하였으며, 변이가 표적 항암제 herceptin 표적 영역에 위치하므로 표적 항암제 연관성 평가부에서 1점을 추가하여 상기 유용성 계산식에 따른 유용성 점수 U가 2.5점이었다. 따라서, 3개의 유전변이 중 유전변이 2가 유용성이 가장 높다고 판단할 수 있다.

본 발명의 일 구체예에서, “N 마스킹”은 지나치게 낮은 품질로 읽혀진 서열의 개별 뉴클레오타이드 에 대해 결측치로 처리하는 것을 말하고, “저품질 리드 필더”는 지나치게 낮은 품질로 읽혀진 서열(리드)에 대해 분석에서 제외하도록 처리하는 것을 말한다.

본 발명의 일 구체예에서, “글로벌 정렬법(Global alignment)”은 리드 전체서열을 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말하고, “로컬 정렬법(Local alignment)”은 리드서열 중 일부를 참고 서열 중 가장 유사한 부분에 위치시키는 방법을 말한다.

본 발명의 일 구체예에서, 유전변이 부근에 위치한 리드들을 이용하여 샘플의 유전변이 및 주변서열을 재구성(assembly)하고 완성된 유전변이 서열에 대한 출력 파일을 작성한다

Claims

목적시료로부터 염기서열 정보를 수득하는 단계;

목적시료로부터 수득된 염기서열의 품질관리(QC: Quality Control)를 수행하는 단계;

상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조하는 단계;

상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 단계;

상기 추출된 개인 식별 유전변이 마커의 적합성을 평가하는 단계; 및

상기 마커 적합성이 확인된 서열을 출력하는 단계를

포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법.
제 1항에 있어서,

마커의 적합성을 평가하는 단계는 신뢰도 평가, 용이성 평가 또는 유용성 평가를 수행하는 것을 특징으로 하는 방법.
제 1항에 있어서,

품질관리 수행단계는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 하는 방법.
제 1항에 있어서,

대조하는 단계는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법 (Local alignment)로 수행하는 것을 특징으로 하는 방법.
제 1항에 있어서,

마커를 추출하는 단계는 단일염기다형성(single-nucleotide polymorphism) 또는 구조 변이(structural variation)를 추출하는 것을 특징으로 하는 방법.
제 2항에 있어서,

신뢰도 평가 단계는 수득된 염기서열 리드의 개수 및 염기의 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 방법.
제 2항에 있어서,

용이성 평가 단계는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험의 용이성을 평가하는 것을 특징으로 하는 방법.
제 2항에 있어서,

유용성 평가 단계는 목적하는 질환 위험도 또는 목적하는 질환 연관성을 생물학적 유용성을 평가하는 것을 특징으로 하는 방법.
제 1항에 있어서,

확인된 서열을 출력하는 단계는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format)으로 제시하는 것을 특징으로 하는 방법.
목적시료로부터 수득된 염기서열 정보를 입력하는 입력부;

수득된 염기서열의 품질관리 연산부;

상기 품질관리를 수행한 염기서열 정보와 참조서열을 대조 연산하는 대조 연산부;

상기 서열 대조 결과로부터 개인 식별 유전변이 마커를 추출하는 유전변이 추출부;

상기 추출된 개인 식별 유전변이 마커의 적합성을 연산하는 적합성 연산부; 및

상기 적합성 연산 결과를 출력하는 변이서열 출력부

를 포함하는 유전자 서열 기반 개인 마커에 관한 정보를 제공하기 위한 장치.
제 10항에 있어서,

적합성 연산부는 신뢰도 연산부, 용이성 연산부 및 유용성 연산부로 구성된 군으로부터 선택된 어느 하나 이상인 것을 특징으로 하는 장치.
제 10항에 있어서,

품질관리 연산부는 유전자의 각 위치에 대하여 트리밍(trimming), N 마스킹 및 저품질 리드 필터로 구성된 군으로부터 선택된 어느 하나 이상을 수행하는 것을 특징으로 장치.
제 10항에 있어서,

대조 연산부는 글로벌 정렬법(Global alignment) 또는 로컬 정렬법(Local alignment)을 수행하는 것을 특징으로 하는 장치.
제 10항에 있어서,

유전변이 추출부는 단일염기다형성(single-nucleotide polymorphism) 또는 구조 변이(structural variation)를 추출하는 것을 특징으로 하는 장치.
제 11항에 있어서,

신뢰도 연산부는 수득된 염기서열 리드의 개수 및 염기의 조성으로부터 통계학적 신뢰도를 평가하는 것을 특징으로 하는 장치.
제 11항에 있어서,

용이성 연산부는 반복서열의 존재여부, GC 함량 또는 주변 개인 식별 유전변이 마커 발견 빈도를 분석하여 실험적 용이성을 평가하는 것을 특징으로 하는 장치.
제 11항에 있어서,

유용성 연산부는 목적하는 질환 위험도 또는 목적하는 질환 연관성에 관한 생물학적 유용성을 평가하는 것을 특징으로 하는 장치.
제 10항에 있어서,

변이서열 출력부는 유전변이의 염기서열을 포함한 주변 서열을 포함한 파스타 형식(fasta format) 으로 제시하는 것을 특징으로 하는 장치.