KR101967879B1

KR101967879B1 - 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법

Info

Publication number: KR101967879B1
Application number: KR1020170162809A
Authority: KR
Inventors: 정종석; 박동현; 박웅양
Original assignee: 사회복지법인 삼성생명공익재단
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2019-04-10
Also published as: WO2019108014A1

Abstract

UID 핵산 서열을 포함하는 제1 영역, 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 제2 영역, 및 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 제3 영역을 포함하는, UID의 순결도(integrity)를 측정하기 위한 폴리뉴클레오티드 및 이를 이용하여 핵산 서열분석에 있어서 UID의 순결도를 측정하는 방법을 제공한다.

Description

핵산 서열분석에서 UID 핵산 서열의 순결도를 측정하는 방법 {Method for measuring integrity of unique identifier in sequencing}

UID 핵산 서열의 순결도를 측정하기 위한 폴리뉴클레오티드 및 이를 이용하여 핵산 서열분석에서 UID 핵산 서열의 순결도를 측정하는 방법에 관한 것이다.

유전체 또는 게놈 (genome)이란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체의 시퀀싱 (sequencing) 또는 서열분석을 위하여, DNA 칩 및 차세대 서열분석 (Next Generation Sequencing: NGS), 차차세대 서열분석 (Next Next Generation Sequencing: NNGS) 등 여러 기술들이 개발되고 있다. NGS는 연구 및 진단의 목적으로 널리 활용되고 있다. NGS는 장비의 종류에 따라 다르지만, 크게 보면 시료의 채취, 라이브러리의 제작, 및 핵산 서열분석의 수행의 총 3단계로 구분할 수 있다. 핵산 서열분석 후에는 생산된 서열분석 데이터에 기초하여, 유전자 변이 여부를 검출한다.

다수의 시료를 동시에 분석하기 위하여, 하나의 핵산 서열분석 장비에 다수의 시료를 혼합하여 투입할 수 있다. 이 경우, 혼합되는 검체는 혼합 전 각 시료를 구별하여 나타낼 수 있는 표지를 갖아야 한다. 상기 표지는 중합효소 연쇄 반응 중 중합효소가 야기하는 오류, 및/또는 핵산 서열분석 과정 중에서의 감지의 오류 등으로 인하여 핵산 서열분석 결과에서의 오차를 야기할 수 있는데, 이러한 오차는 변이의 검출을 저해하는 문제점이 있다. 따라서, 다수의 시료를 구별할 수 있는 표지가 분석 대상 시료에 바르게 결합하여, 해당 시료를 정확하게 표지하는지 확인할 수 있는 방법이 요구된다.

일 양상은 UID 핵산 서열의 순결도를 측정하기 위한 폴리뉴클레오티드를 제공한다.

다른 양상은 핵산 서열분석에서 UID 핵산 서열의 순결도를 측정하는 방법을 제공한다.

일 양상은 2 이상의 연속 뉴클레오티드가 고유 식별자 (unique identification: UID) 핵산 서열을 포함하는 제1 영역, 2 이상의 연속 뉴클레오티드가 참조 게놈과 상동성을 갖지 않는 (non-homologous) 핵산 서열을 포함하는 제2 영역, 및 2 이상의 연속 뉴클레오티드가 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 제3 영역을 포함하는, UID의 순결도(integrity)를 측정하기 위한 폴리뉴클레오티드를 제공한다.

상기 폴리뉴클레오티드에서 제1 영역은 고유 식별자 (unique identification: UID) 핵산 서열을 포함하는 것일 수 있다.

UID는 핵산 염기 서열분석시에 시료를 구별하는 역할을 하는 핵산 단편을 의미한다. 즉, UID는 복수의 시료에 대하여 핵산 염기 서열분석 시에 서로 다른 시료를 구별하기 위한 표지가 된다. 따라서, 복수의 시료를 구별하기 위하여 UID는 시료 간에 서로 다른 핵산 서열을 갖는 것일 수 있다. 핵산 서열분석이 요구되는 1종 이상의 시료와 UID의 순결도를 측정하기 위한 시료를 대상으로 핵산 서열분석을 수행하는 경우, UID의 순결도를 측정하기 위한 폴리뉴클레오티드는 핵산 서열분석이 요구되는 1종 이상의 시료와 서로 다른 UID 핵산 서열을 갖는 것일 수 있다. UID의 순결도를 측정하기 위한 폴리뉴클레오티드를 제작하는 경우, 상기 폴리뉴클레오티드는 복수개의 폴리뉴클레오티드 간에 동일한 UID 핵산 서열을 갖도록 합성 또는 제작할 수 있다. 상기 폴리뉴클레오티드는 1종의 동일한 UID 핵산 서열, 예를 들면, AGTC를 공통적으로 갖는 것일 수 있고, 또는 1종 이상의 동일한 UID 핵산 서열, 예를 들면, AGTC 및 TGAC를 공통적으로 갖는 것일 수 있다. 상기 UID 핵산 서열은 고유 분자 식별자 (unique molecular identifiers: UMI), 인덱스(index), 또는 바코드(barcode)와 혼용될 수 있다.

상기 UID 핵산 서열은 A, G, C, 또는 T의 염기를 포함할 수 있으나, 이에 제한되는 것은 아니다. 또한, 상기 UID 핵산 서열은 약 2 bp(염기쌍) 내지 약 40 bp, 약 2 bp 내지 약 35 bp, 약 2 bp 내지 약 30 bp, 약 2 bp 내지 약 25 bp, 약 2 bp 내지 약 30 bp, 약 3 bp 내지 약 20 bp, 약 4 bp 내지 약 20 bp, 또는 약 4 bp 내지 약 16 bp인 것일 수 있으나, 그 길이가 이에 제한되는 것은 아니다.

상기 폴리뉴클레오티드는 멀티플렉싱 (multiplexing)에 적용하기 위한 것일 수 있다. 멀티플렉싱은 2 이상의 시료를 하나의 핵산 서열분석 레인 또는 칩에서 서열분석할 수 있도록 상기 2 이상의 시료를 혼합하는 것을 의미한다.

상기 UID의 순결도(integrity)는 서열분석 데이터에서 해당 시료에 존재하는 고유한 (unique) UID의 수 또는 비율을 의미한다. UID의 순결도는 라이브러리 제작 과정, 및/또는 핵산 서열분석 과정 등에 영향을 받을 수 있다. 상기 UID의 순결도는 상대적인 수준으로 나타낼 수 있다.

상기 폴리뉴클레오티드에서 제2 영역은 참조 게놈과 상동성을 갖지 않는 (non-homologous) 핵산 서열을 포함하는 것일 수 있다.

핵산 서열분석이 요구되는 1종 이상의 시료에 대한 서열분석 데이터가 UID의 순결도를 측정하기 위한 시료에 대한 서열분석 데이터에 의하여 영향을 받는 것을 최소화하거나 또는 영향을 받지 않도록 하기 위하여, 핵산 서열분석이 요구되는 시료와 명확하게 구별될 수 있도록, 상기 폴리뉴클레오티드에서 제2 영역은 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 것일 수 있다. UID의 순결도를 측정하기 위한 폴리뉴클레오티드를 제작하는 경우, 상기 폴리뉴클레오티드는 복수개의 폴리뉴클레오티드 간에 참조 게놈과 상동성을 갖지 않는 동일한 핵산 서열을 갖도록 합성 또는 제작할 수 있다.

참조 게놈과 상동성을 갖지 않는 서열은, 핵산 서열분석 이후, 원래 서열분석의 대상이 되는 시료의 서열분석 결과에서 인위적으로 주입한 합성 절편 (상기 UID의 순결도를 측정하기 위한 폴리뉴클레오티드)을 제거하기 위함이며, 생성된 절편의 서열분석 데이터를 참조 게놈에 위치하지 않도록 하기 위해, 참조 게놈과 상동성을 갖지 않는 서열은 최소한 4 bp 이상의 연속 뉴클레오티드 서열이 참조 게놈과 다르게 되면 분리할 수 있다. 참조 게놈과 상동성을 갖지 않는 핵산 서열은, 약 2 bp(염기쌍) 내지 약 250 bp, 약 2 bp 내지 약 40 bp, 약 2 bp 내지 약 35 bp, 약 2 bp 내지 약 30 bp, 약 2 bp 내지 약 25 bp, 약 2 bp 내지 약 30 bp, 약 3 bp 내지 약 20 bp, 약 4 bp 내지 약 20 bp, 또는 약 4 bp 내지 약 16 bp인 것일 수 있으나, 그 길이가 이에 제한되는 것은 아니다.

참조 게놈 데이터는 NCBI (National Center for Biotechnology Information), GEO (Gene　Expression Omnibus), FDA (Food and Drug Administration), My Cancer Genome, TCGA (The Cancer Genome Atlas) 등과 같은 당해 기술분야에서 이미 공지된 데이터 베이스로부터 획득되거나, 또는 대조군 즉 정상인의 생물학적 시료로부터 획득된 것일 수 있다. 상기 정상인은 특정 질병, 예를 들면, 종양 등이 발견되지 않은 건강한 사람인 것일 수 있다. 상기 참조 게놈은 인간 참조 게놈일 수 있고, hg18 또는 hg19인 것일 수 있다. 상기 상동성은 주어진 참조 게놈의 염기 서열과 일치하는 정도를 의미한다.

상기 폴리뉴클레오티드에서 제3 영역은 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 것일 수 있다. 핵산 서열분석에서 정렬 (alignment) 또는 맵핑 (mapping)된 서열분석 데이터를 수득하기 위하여, 상기 폴리뉴클레오티드에서 제3 영역은 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 것일 수 있다.

상기 참조 게놈과 상동성을 갖는 핵산 서열은 표적 영역의 핵산 서열의 2 이상의 연속 뉴클레오티드와 상동성을 갖는 것일 수 있다. 질병의 원인 유전자를 찾기 위하여, 차세대 핵산 서열분석법을 이용해 전장 유전체 (Whole-genome)를 핵산 서열분석하거나, 또는 엑솜 영역 또는 특정 영역만을 목표로 하여 핵산 서열분석할 수 있다. 이러한 분석 방법을 표적 서열분석 또는 표적 시퀀싱(targeted resequencing)이라고 한다. 상기 폴리뉴클레오티드는 표적 서열분석에 적용하기 위한 것일 수 있다. 상기 표적 영역은 관심 대상인 유전자의 전체 또는 일부 영역일 수 있으며, 유전자의 종류가 제한되는 것은 아니다.

상기 제2 영역은 상기 제3 영역의 5' 말단, 상기 제3 영역의 3' 말단, 또는 상기 제3 영역의 5' 말단 및 3' 말단에 위치하고, 상기 제1 영역은 상기 제 3 영역의 5' 말단, 제 3 영역의 3' 말단, 제2 영역의 5' 말단, 제 2 영역의 3' 말단, 또는 제2 영역의 5' 말단 및 제2 영역의 3' 말단에 위치하는 것일 수 있다. 예를 들면, 상기 폴리뉴클레오티드는 5' 말단에서 3' 말단 방향으로, 제1 영역, 제2 영역 및 제3 영역을 포함하거나, 또는 제3 영역, 제2 영역 및 제1 영역을 포함하는 것일 수 있다. 또는 상기 폴리뉴클레오티드는, UID 핵산 서열 및/또는 참조 게놈과 상동성을 갖지 않는 핵산 서열을, 폴리뉴클레오티드의 양 말단에 포함하여, 예를 들면, 5' 말단에서 3' 말단 방향으로, 제1 영역, 제2 영역, 제3 영역, 제2' 영역 및 제1' 영역을 포함하는 것일 수 있다. 상기 제2' 영역은 제2 영역과 동일 또는 상이하고 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 것일 수 있고, 상기 제1' 영역은 제1 영역과 동일 또는 상이한 UID 핵산 서열을 포함하는 것일 수 있다. 상기 제1 영역, 제2 영역 및 제3 영역들은 바로 인접하거나, 그 사이에 다른 임의의 핵산 서열을 더 포함하여 일정한 거리를 두고 위치하는 것일 수도 있다.

도 1은 UID의 순결도 측정용 합성 절편 (전술한 폴리뉴클레오티드)의 구조를 나타낸 이미지이다. 도 1에 나타낸 바와 같이, 복수개의 UID의 순결도 측정용 합성 절편은, 동일한 UID 핵산 서열, 참조 게놈과 상동성을 갖지 않는 핵산 서열, 및 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 것일 수 있다. 상기 UID의 순결도 측정용 합성 절편은 프라이머 및/또는 어댑터를 더 포함할 수 있다. 상기 UID의 순결도 측정용 합성 절편은 핵산 서열분석이 요구되는 1종 이상의 시료에 대한 라이브러리 제작 단계에서 투입되어, 함께 핵산 서열분석되는 것일 수 있다. 이 경우, 핵산 서열분석이 요구되는 1종 이상의 시료와 UID의 순결도를 측정하기 위한 시료는 서로 다른 UID 핵산 서열을 갖으면서, 같은 프라이머 및/또는 어댑터 핵산 서열을 갖는 것일 수 있다.

다른 양상은 전술한 폴리뉴클레오티드를 포함하는 조성물을 제공한다.

다른 양상은 전술한 폴리뉴클레오티드를 포함하는 키트를 제공한다.

다른 양상은, 전술한 폴리뉴클레오티드를 포함하는 UID의 순결도 측정용 제1 라이브러리를 제작하는 단계; 생물학적 시료로부터 분리된 핵산을 단편화하고, 단편화된 핵산의 하나 이상의 말단에 고유 식별자 (unique identification: UID) 핵산 서열을 포함하는 폴리뉴클레오티드를 라이게이션하여 핵산 서열분석용 제2 라이브러리를 제작하는 단계; 상기 제1 라이브러리 및 제2 라이브러리를 핵산 서열분석하여 서열분석 데이터를 수득하는 단계; 수득된 서열분석 데이터의 리드(read) 중에서 제2 영역을 포함하는 리드를 추출하는 단계; 추출된 제2 영역을 포함하는 리드 중에서 제1 영역을 포함하는 리드의 비율을 산출하는 단계; 및 산출된 제1 영역을 포함하는 리드의 비율로부터 UID의 순결도를 측정하는 단계를 포함하는, 핵산 서열분석에 있어서 UID의 순결도를 측정하는 방법을 제공한다.

상기 라이브러리(library)는 핵산 서열분석에 적합한 형태로 제작된 핵산 단편을 의미하며, 핵산 서열분석이 요구되는 핵산 단편에 프라이머, 어댑터, 고유 식별자 또는 이들의 조합이 라이게이션된 것, 이의 증폭 전 또는 이의 증폭 산물인 것일 수 있다. 예를 들면, 상기 라이브러리는, 프리 캡쳐 PCR(pre capture polymerase chain reaction), 표적 농축(target enrichment), 또는 포스트 캡쳐 PCR(post capture PCR) 전 또는 후에 핵산 서열분석에 적합한 형태로 제작된 핵산 단편 집합인 것일 수 있다.

상기 라이브러리는, 예를 들면, 유전체 라이브러리(genomic library), 상보적 DNA 라이브러리(complementary DNA library), 무작위적 돌연변이 라이브러리(randomized mutant library), 또는 이들의 조합인 것일 수 있다.

상기 방법은 상기 폴리뉴클레오티드를 포함하는 UID의 순결도 측정용 제1 라이브러리를 제작하는 단계를 포함한다. 상기 제1 라이브러리는 상기 폴리뉴클레오티드의 하나 이상의 말단에 프라이머 및/또는 어댑터를 라이게이션하여 제작될 수 있다. 상기 프라이머 및/또는 어댑터는 핵산 서열분석에 적합한 어댑터, 중합효소 연쇄 반응을 위한 프라이머, 핵산 서열분석에 적합한 프라이머, 핵산 서열분석에 적합한 프라이머가 어닐링할 수 있는 영역, 또는 이들의 조합을 포함하는 것일 수 있다. 상기 프라이머 및/또는 어댑터는 통상의 기술자가 핵산 서열분석법에 따라 선택할 수 있다.

상기 방법은 생물학적 시료로부터 분리된 핵산을 단편화하고, 단편화된 핵산의 하나 이상의 말단에 UID 핵산 서열을 포함하는 폴리뉴클레오티드를 라이게이션하여 핵산 서열분석용 제2 라이브러리를 제작하는 단계를 포함한다.

생물학적 시료는 질환을 갖고 있는 것으로 의심되는 개체, 종양을 갖고 있는 것으로 의심되는 개체, 정상인 또는 이들의 조합으로부터 획득된 것, 또는 합성물인 것일 수 있다. 상기 개체는 인간, 소, 말, 돼지, 양, 염소, 개, 고양이, 또는 설치류인 것일 수 있다. 상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물 또는 이들의 조합으로부터 획득된 것일 수 있다.

상기 핵산은 유전체 (genome) 또는 그의 단편인 것일 수 있으며, 임의의 길이를 지닌 폴리뉴클레오티드와 상호교환적으로 사용할 수 있다. 상기 유전체 또는 게놈 (genome)은 염색체, 염색질, 또는 유전자의 전체를 의미한다. 상기 핵산은 DNA (deoxyribonucleic acid), RNA (ribonucleic acid) 또는 이들의 조합인 것일 수 있고, 예를 들면, 무세포 DNA (cell-free DNA: cf DNA)인 것일 수 있다.

상기 시료로부터 핵산을 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.

분리된 핵산을 단편화(fragmentation)하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있으며, 유전체를 물리적, 화학적 또는 효소적으로 절단하는 것일 수 있고, 예를 들면, 유전체를 제한효소로 절단하는 것일 수 있다.

상기 방법은 단편화된 핵산의 크기를 선별하는 단계를 포함하는 것일 수 있다. 크기를 선별하는 단계는 전기영동, 원심분리, 크로마토그래피, 또는 이들의 조합으로 수행될 수 있다. 상기 분리된 핵산 단편은 약 10 bp 내지 약 2000 bp, 약 15 bp 내지 약 1500 bp, 약 20 bp 내지 약 1000 bp, 약 20 bp 내지 약 500 bp 또는 약 20 내지 약 300 bp인 것일 수 있다.

상기 제2 라이브러리는 상기 단편화된 핵산의 하나 이상의 말단에 UID 핵산 서열을 포함하는 폴리뉴클레오티드를 라이게이션하여 제작될 수 있다. 핵산 서열분석이 요구되는 시료가 1종 이상인 경우, 어느 1종의 시료는, 다른 시료 및 UID의 순결도를 측정하기 위한 시료와 서로 다른 UID 핵산 서열을 갖는 것일 수 있다.

상기 제2 라이브러리는 상기 단편화된 핵산의 하나 이상의 말단에 프라이머 및/또는 어댑터를 라이게이션하여 제작될 수 있다. 상기 프라이머 및/또는 어댑터는 핵산 서열분석에 적합한 어댑터, 중합효소 연쇄 반응을 위한 프라이머, 핵산 서열분석에 적합한 프라이머, 핵산 서열분석에 적합한 프라이머가 어닐링할 수 있는 영역, 또는 이들의 조합을 포함하는 것일 수 있다. 상기 프라이머 및/또는 어댑터는 통상의 기술자가 핵산 서열분석법에 따라 선택할 수 있다.

상기 방법은 표적 농축 (target enrichment)하는 단계를 포함하는 것일 수 있다. 상기 표적 농축은 핵산 서열분석을 수행할 유전자 또는 기타 관심 영역의 빈도를 증가시키는 것을 의미한다. 상기 표적 농축은 통상의 기술자에게 공지된 방법으로 수행될 수 있으며, 예를 들면, 시료를 베이트 (bait)와 혼성화하는 인솔루션 캡쳐 (in-solution capture), 중합효소 연쇄 반응 또는 이들의 조합으로 수행될 수 있다. 상기 방법은 표적 농축 전에 프리 캡쳐 PCR(pre capture polymerase chain reaction), 표적 농축 후에 포스트 캡쳐 PCR(post capture PCR), 또는 이들의 조합을 수행하는 단계를 포함하는 것일 수 있다.

상기 제1 라이브러리를 제작하는 단계 및 상기 제2 라이브러리를 제작하는 단계는 핵산 서열분석 전에 수행되는 것이면 족하다. 따라서, 제1 라이브러리를 제작하는 단계를 먼저 수행할 수 있고, 제2 라이브러리를 제작하는 단계를 먼저 수행할 수도 있으며, 또는 제1 라이브러리를 제작하는 단계 및 상기 제2 라이브러리를 동시에 수행할 수도 있다.

상기 방법은 제1 라이브러리 및 제2 라이브러리를 핵산 서열분석하여 서열분석 데이터를 수득하는 단계를 포함한다.

상기 핵산 서열분석은 차세대 핵산 서열분석(next generation sequencing: NGS)인 것일 수 있다. 핵산 서열분석은 염기 서열분석, 서열분석 또는 시퀀싱 (sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대규모 병렬 서열분석 (massive parallel sequencing) 또는 2세대 서열분석 (second-generation sequencing)과 상호 교환적으로 사용되는 것일 수 있다. 상기 NGS는 대량의 단편의 핵산을 동시다발적으로 서열분석하는 기법으로서, 칩 (chip) 기반 그리고 중합효소 연쇄 반응 (polymerase chain reaction: PCR) 기반 쌍 말단 (paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응 (hybridization)에 기초하여 초고속으로 서열분석을 수행하는 것일 수 있다. 상기 NGS는 예를 들면, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina HiSeq 2500, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행되는 것일 수 있다.

상기 핵산 서열분석은 관심 영역만을 분석하기 위한 핵산 서열분석법인 것일 수 있다. 상기 핵산 서열분석은, 예를 들면, NGS 기반의 표적 서열분석 (targeted sequencing), 표적 딥 서열분석 (targeted deep sequencing) 또는 패널 서열분석 (panel sequencing)을 포함하는 것일 수 있다.

상기 서열분석 데이터는 상기 핵산 서열분석에 의해 수득된 데이터를 의미하며, 핵산 서열분석 대상에 대한 개별 리드의 염기 서열, 빈도, 및 품질 지표를 포함하는 것일 수 있다. 상기 리드(read)는 핵산 서열분석으로 수득된 핵산 단편의 핵산 서열 정보를 의미하며, 핵산 서열분석으로 나온 데이터, 또는 핵산 서열의 조각인 것일 수 있다. 상기 서열분석 데이터는, 예를 들면, BAM (binary version of SAM) 포맷 및/또는 SAM (Sequence Alignment/Map) 포맷의 데이터로부터 수득된 것일 수 있다. BAM 포맷 및/또는 SAM 포맷은 보통 짧은 리드들에 관한 데이터를 서술하는 포맷으로 이용되는 것일 수 있다. BAM 포맷 및/또는 SAM 포맷의 데이터에는 리드의 시작 포인트, 리드의 방향 (direction), 맵핑 (mapping) 품질, 정렬 (alignment)의 차수를 나타내는 FLAG, CIGAR (Compact Idiosyncratic Gapped Alignment Report)　스트링 등에 관한 텍스트 데이터가 포함될 수 있다. 다양한 정렬 쌍을 생성함으로써 다양한 서포팅 리드들 (supporting reads)을 확보할 수 있다.

상기 방법은 수득된 서열분석 데이터의 리드 중에서 제2 영역을 포함하는 리드를 추출하는 단계를 포함한다. 상기 서열분석 데이터의 리드에서 제2 영역을 포함하는 리드, 구체적으로 상기 폴리뉴클레오티드의 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 리드만을 선별할 수 있다.

상기 방법은 추출된 제2 영역을 포함하는 리드 중에서 제1 영역을 포함하는 리드의 비율을 산출하는 단계를 포함한다. 상기 추출된 제2 영역을 포함하는 리드 중에서 제1 영역을 포함하는 리드, 구체적으로 상기 폴리뉴클레오티드의 UID 핵산 서열을 갖는 리드의 비율을 산출할 수 있다.

상기 방법은 산출된 제1 영역을 포함하는 리드의 비율로부터 UID의 순결도를 측정하는 단계를 포함한다. 핵산 서열분석 과정에서 UID의 일부 또는 전부가 결실, 치환, 삭제, 또는 교체되는 오류가 발생하지 않는 경우, 추출된 제2 영역을 포함하는 리드는 모두 동일한 UID 핵산 서열을 갖는 것일 수 있다. 이 경우, 해당 핵산 서열분석에서 UID의 순결도는 100%일 수 있다. 그러나, 핵산 서열분석 과정에서 UID의 일부 또는 전부가 결실, 치환, 삭제, 또는 교체되는 오류가 발생하는 경우, 추출된 제2 영역을 포함하는 리드는 중에서 일부 또는 전부는 상기 폴리뉴클레오티드, 즉 UID의 순결도 측정용 합성 절편의 UID 핵산 서열과 다른 UID 핵산 서열을 갖을 수 있다. 이 경우, 해당 핵산 서열분석에서 UID의 순결도는 0% 내지 100% 미만일 수 있다.

본 발명의 UID의 순결도 측정용 합성 절편을 이용하는 경우, 핵산 서열분석 결과, UID에 의한 오류 여부 및 그의 발생 비율을 측정할 수 있어, 핵산 서열분석용 라이브러리 제작 및 핵산 서열분석 전반적인 과정의 정확도 및 신뢰도를 예측할 수 있다.

다른 양상은, 전술한 폴리뉴클레오티드를 포함하는 UID의 순결도 측정용 제1 라이브러리를 제작하는 단계; 상기 제1 라이브러리를 핵산 서열분석하여 핵산 서열분석 데이터를 수득하는 단계; 수득된 서열분석 데이터의 리드 중에서 제2 영역을 포함하는 리드를 추출하는 단계; 추출된 제2 영역을 포함하는 리드 중에서 제1 영역을 포함하는 리드의 비율을 산출하는 단계; 및 산출된 제1 영역을 포함하는 리드의 비율로부터 UID의 순결도를 측정하는 단계를 포함하는, 핵산 서열분석에 있어서 UID의 순결도를 측정하는 방법을 제공한다.

상기 방법은, 핵산 서열분석이 요구되는 1종 이상의 시료를 대상으로 핵산 서열분석을 수행하는 것을 제외하고, 전술한 UID의 순결도를 측정하는 방법과 동일하다. 상기 방법은 핵산 서열분석이 요구되는 시료가 없는 경우에도, 라이브러리 제작 및 핵산 서열분석 전반적인 과정에서의, 오류가 발생할 확률을 시험하기 위하여 수행할 수 있다.

UID 핵산 서열을 포함하는 제1 영역, 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 제2 영역, 및 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 제3 영역을 포함하는, UID의 순결도(integrity)를 측정하기 위한 폴리뉴클레오티드 및 이를 이용하여 핵산 서열분석에 있어서 UID의 순결도를 측정하는 방법을 제공한다. 이에 따르면, 핵산 서열분석 과정에서, 다수의 시료를 구별할 수 있는 표지가 분석 대상 시료에 바르게 결합하여, 해당 시료를 정확하게 표지하는지 확인할 수 있다.

도 1은 고유 식별자 (unique identification: UID) 핵산 서열, 참조 게놈과 상동성을 갖지 않는 (non-homologous) 핵산 서열, 참조 게놈과 상동성을 갖는 표적 영역의 핵산 서열을 포함하는 UID의 순결도 측정용 합성 절편의 구조를 나타낸 이미지이다.
도 2에서 A 및 B는, UID의 순결도 측정용 합성 절편를 이용하여 핵산 서열분석을 수행하고, 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 리드를 선별한 후, UID의 순결도 측정용 합성 절편의 UID와 다른 UID가 혼입된 리드의 비율을 확인한 결과이다. 도 1 및 2에 있어서, ss는 참조 게놈과 상동성을 갖지 않는 특이적인 핵산 서열 (specific sequence with non-homologous human reference: ss)을 의미한다.
도 3은 UID의 순결도 측정용 합성 절편를 이용하여 핵산 서열분석을 수행하는 과정의 흐름도이다. 일 실시예에 따른 UID의 순결도를 측정하는 방법은, 핵산 절편화, 말단-수선, 3'-아데노신 꼬리달기, 및 어댑터 라이게이션을 수행하고, UID의 순결도 측정용 합성 절편을 투입한 후, 캡쳐-전 중합효소 연쇄 반응, 표적 농축, 캡쳐-후 중합효소 연쇄 반응, 핵산 서열분석, 및 fastq 파일 추출, 및 UID 핵산 서열 선별을 수행함으로써, UID의 순결도를 측정할 수 있다.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1. 표적 영역의 핵산 서열분석에서 UID의 순결도(integrity) 측정

1. UID의 순결도 측정용 합성 절편의 제작

차세대 핵산 서열분석(next generation sequencing: NGS)을 위해, 표적 영역의 핵산 서열로서 암에서 변이를 갖는 것으로 알려진 유전자 KRAS, IDH1, BRAC1, ALK, 및 ERBB2 및 이들 유전자의 영역을 선정하였다. 선정된 위치를 기준으로 약 100 내지 약 350bp의 참조 서열을 선별하였다.

고유 식별자 (unique identifier: UID) 핵산 서열, 참조 게놈과 상동성을 갖지 않는 (non-homologous) 핵산 서열, 참조 게놈과 상동성을 갖는 표적 영역의 핵산 서열을 포함하고 양 말단에 일루미나 (illumina) P5 어댑터 및 P7 어댑터 핵산 서열을 포함하는, 합성 절편 (이하, "UID의 순결도 측정용 합성 절편"이라고 함)을 제작하였다.

선별된 유전자, 참조 서열, UID의 순결도 측정용 합성 절편의 핵산 서열 및 서열분석 결과 추출된 핵산 서열을 하기 표 1에 나타내었다. 표 1에서, 참조 게놈과 상동성을 갖지 않는 핵산 서열은, 추출 서열의 앞에 4bp이며, 굵은색 글씨로 표시하였다. UID 핵산 서열은 UID 순결도 측정용 합성 절편에서 굵은 및 밑줄된 글씨로 표시하였다. P5 및 P7 서열은 기울인 글씨로 표시하였다. P5이후 GTCT 서열 전까지는 서열분석 프라이머가 결합하며, 추출 서열 이후 P7까지의 서열은 서열분석 프라이머 및 index 서열분석 프라이머가 결합한다. 표적 영역은 추출 서열에서 참조 게놈과 상동성을 갖지 않는 핵산 서열 4bp 외 모든 서열에 해당한다.

.	참조 게놈의 표적 영역 및 핵산 서열	UID의 순결도 측정용 합성 절편 (UID 핵산 서열 : AGTC)	추출 서열
1	KRAS : Chr12 : 엑손 번호: 3 : chr12:25380168-25380346	5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGATCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCACCACG AGTC ATCTCGTATGCCGTCTTCTGCTTG-3' (서열번호 1)	5'-GTCTATCCTGAGAAGGGAGAAACACAGTCTGGATTATTACAGTGCACCTTTTACTTCAAAAAAGGTGTTATATACAACTCAACAACAAAAAATTCAATTTAAAAATGGGCAAAGGACTTGAAAAGACATTGTTCCTGCTCCAAAGATCTG-3' (서열번호 2)
2	IDH1 : Chr12 엑손 번호: 4 : chr2:209113048-209113359	5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTCTCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCC AGTC ACCACGAGTCATCTCGTATGCCGTCTTCTGCTTG-3' (서열번호 3)	5'-GTCTAATGGCTTCTCTGAAGACCGTGCCACCCAGAATATTTCGTATGGTGCCATTTGGTGATTTCCACATTTGTTTCAACTTGAACTCCTCAACCCTCTTCTCATCAGGAGTGATAGTGGCACATTTGACGCCAACATTATGCTTCTCTG-3' (서열번호 4)
3	BRAC1 : Chr17 엑손 번호: 15 : chr17:41222945-41223255	5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTTTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGGTCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCC AGTC ACCACGAGTCATCTCGTATGCCGTCTTCTGCTTG-3' (서열번호 5)	5'-GTCTTTCTGGCTTCTCCCTGCTCACACTTTCTTCCATTGCATTATACCCAGCAGTATCAGTAGTATGAGCAGCAGCTGGACTCTGGGCAGATTCTGCAACTTTCAACTTTCAATTGGGGAACTTTCAATGCAGAGGTTGAAGATGGTCTG-3' (서열번호 6)
4	ALK : Chr2 엑손 번호: 20: chr2:29446208-29446394	5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGGTCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCC AGTC ACCACGAGTCATCTCGTATGCCGTCTTCTGCTTG-3' (서열번호 7)	5'-GTCTACTGATGGAGGAGGTCTTGCCAGCAAAGCAGTAGTTGGGGTTGTAGTCGGTCATGATGGTCGAGGTGCGGAGCTTGCTCAGCTTGTACTCAGGGCTCTGCAGCTCCATCTGCATGGCTTGCAGCTCCTGGTGCTTCCGGCGGTCTG-3' (서열번호 8)
5	ERBB2 : Chr17 엑손 번호: 6: chr17:37864574-37864787	5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTGCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATACCACCCCTGTTCTGAGAGAGATCGGAAGAGCACACGTCTGAACTCC AGTC ACCACGAGTCATCTCGTATGCCGTCTTCTGCTTG-3' (서열번호 9)	5'-GTCTGCTACGTGCTCATCGCTCACAACCAAGTGAGGCAGGTCCCACTGCAGAGGCTGCGGATTGTGCGAGGCACCCAGCTCTTTGAGGACAACTATGCCCTGGCCGTGCTAGACAATGGAGACCCGCTGAACAATACCACCCCTGTTCTG-3' (서열번호 10)

2. 표적 영역의 핵산 서열분석을 위한 라이브러리의 제작 및 핵산 서열분석

표적 영역의 핵산 서열분석을 위한 라이브러리를 다음과 같이 제작하였다.

Coriell institute의 NA12878 시료의 게놈 DNA (genomic DNA: gDNA) 50 ng을 준비하였다. 준비된 gDNA 시료를 KAPA hyper illumina 제작 키트 (Kapa Biosystems)를 사용하여, 제조사가 제공한 방법에 따라, 단편화 (fragmentation), 말단-수선 (end-repair), 3'-아데노신 꼬리달기 (3'A-tailing), 어댑터 라이게이션 (adaptor ligation)을 수행하고, AMPure 비드 (Beckman Coulter, Indiana, USA)를 이용하여 정제(purification)하여, 핵산 서열분석용 절편를 제작하였다.

실시예 1.1에서 제작된 UID의 순결도 측정용 합성 절편을 정량하고, 5 amole의 UID의 순결도 측정용 합성 절편을 핵산 서열분석용 절편에 첨가하였다. UID의 순결도 측정용 합성 절편이 첨가된 핵산 서열분석용 절편에 대하여 캡쳐-전 (pre-capture) 중합효소 연쇄 반응 (polymerase chain reaction: PCR)을 수행하였다. 이어서, 미리 표지화된 (pre-indexed) 어댑터에 대한 블로킹 올리뉴클레오티드를 IDT x Gen 블로킹 올리고뉴클레오티드 (IDT, Santa Clara, CA, USA)로 대체하는 변형을 갖는 SureSelect 베이트 혼성화 프로토콜에 따라, 표적 영역을 표적 농축(target enrichment)하였다. 그 후, 표적 농축된 절편들에 대하여 캡쳐-후(post-capture) PCR을 수행하여, 핵산 서열분석을 위한 라이브러리를 완성하였다.

완성된 라이브러리는 AMPure 비드로 정제하고, dsDNA HS 분석 키트와 Qubit 2.0 형광광도계를 이용하여 PicoGreen 형광 분석법으로 정량하였다. DNA 농도 및 평균 단편 크기에 기초하여, 라이브러리를 2nM의 농도가 되도록 표준화하였다. 0.2N의 NaOH를 이용하여, DNA를 변성시킨 후, 변성된 라이브러리를 혼성화 버퍼 (Illumina, San Diego, CA, USA)에 희석하여 20 pM이 되도록 하였다. 변성된 주형은 제조사 (Illumina)의 지시에 따라 클러스터 증폭 (Cluster amplification)하였다. 플로우 셀 (Flow cells)을 HiSeq 2500 v3 Sequencing-by-Synthesis 키트 (Illumina)를 이용하여 100bp의 쌍-말단 모드에서 서열분석하고, RTA 소프트웨어 (v.1.12.4.2 이상)를 사용하여 분석하였다. BCL 포맷으로 염기 서열을 추출하고, bcl 컨버터를 통하여, fastq 포맷의 파일로 변환하였다. BWA-mem (v0.7.5)를 사용하여, 모든 원 데이터를 hg19 인간 참조 게놈에 정렬시켜 BAM 파일을 생성하였다. SAMTOOLS (v0.1.18), Picard (v1.93), 및 GATK (v3.1.1)를 사용하여, SAM/BAM 파일을 분류하고, 로컬 재정렬 (local realignment)을 수행하고, 중복을 표시하였다. 상기 가공 과정을 통해서, 중복, 불일치 쌍, 및 표적에서 벗어난 리드를 제거하였다. UID 핵산 서열, 정방향 리드 (forward read: r1) 및 역방향 리드 (reverse read: r2)를 분리하였다.

분리된 리드에서 표 1에 기재된 추출 서열(extraction sequence)을 갖는 리드, 즉 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 리드를 선별하였다. 이어서, 선별된 리드에서 UID 핵산 서열, 즉 AGTC를 갖는 리드의 비율을 확인하였다.

도 2에서 A 및 B는, UID의 순결도 측정용 합성 절편를 이용하여 핵산 서열분석을 수행하고, 참조 게놈과 상동성을 갖지 않는 핵산 서열을 포함하는 리드를 선별한 후, UID의 순결도 측정용 합성 절편의 UID와 다른 UID가 혼입된 리드의 비율을 확인한 결과이다. 도 2에서 A 및 B에 나타낸 바와 같이, UID 핵산 서열인 AGTC와 다른 UID 핵산 서열을 갖는 리드가 다수 포함될 수 있음을 알 수 있다. 핵산 서열분석용 라이브러리를 제작하고 핵산 서열분석을 수행하는 과정에서, 본 발명의 UID의 순결도 측정용 합성 절편을 이용하는 경우, UID가 결실, 치환, 삭제, 또는 교체되는 오류 및 그의 비율을 측정할 수 있다.

<110> Samsung Life Public Welfare Foundation <120> Method for measuring integrity of unique identifier in sequencing <130> PN118798 <160> 10 <170> KopatentIn 2.0 <210> 1 <211> 278 <212> DNA <213> Artificial Sequence <220> <223> specific sequence with non-homologous human reference <400> 1 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60 ctatcctgag aagggagaaa cacagtctgg attattacag tgcacctttt acttcaaaaa 120 aggtgttata tacaactcaa caacaaaaaa ttcaatttaa aaatgggcaa aggacttgaa 180 aagacattgt tcctgctcca aagatctgag agagatcgga agagcacacg tctgaactcc 240 agtcaccacg agtcatctcg tatgccgtct tctgcttg 278 <210> 2 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> extract sequence <400> 2 gtctatcctg agaagggaga aacacagtct ggattattac agtgcacctt ttacttcaaa 60 aaaggtgtta tatacaactc aacaacaaaa aattcaattt aaaaatgggc aaaggacttg 120 aaaagacatt gttcctgctc caaagatctg 150 <210> 3 <211> 278 <212> DNA <213> Artificial Sequence <220> <223> specific sequence with non-homologous human reference <400> 3 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60 ctaatggctt ctctgaagac cgtgccaccc agaatatttc gtatggtgcc atttggtgat 120 ttccacattt gtttcaactt gaactcctca accctcttct catcaggagt gatagtggca 180 catttgacgc caacattatg cttctctgag agagatcgga agagcacacg tctgaactcc 240 agtcaccacg agtcatctcg tatgccgtct tctgcttg 278 <210> 4 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> extract sequence <400> 4 gtctaatggc ttctctgaag accgtgccac ccagaatatt tcgtatggtg ccatttggtg 60 atttccacat ttgtttcaac ttgaactcct caaccctctt ctcatcagga gtgatagtgg 120 cacatttgac gccaacatta tgcttctctg 150 <210> 5 <211> 278 <212> DNA <213> Artificial Sequence <220> <223> specific sequence with non-homologous human reference <400> 5 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60 ctttctggct tctccctgct cacactttct tccattgcat tatacccagc agtatcagta 120 gtatgagcag cagctggact ctgggcagat tctgcaactt tcaactttca attggggaac 180 tttcaatgca gaggttgaag atggtctgag agagatcgga agagcacacg tctgaactcc 240 agtcaccacg agtcatctcg tatgccgtct tctgcttg 278 <210> 6 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> extract sequence <400> 6 gtctttctgg cttctccctg ctcacacttt cttccattgc attataccca gcagtatcag 60 tagtatgagc agcagctgga ctctgggcag attctgcaac tttcaacttt caattgggga 120 actttcaatg cagaggttga agatggtctg 150 <210> 7 <211> 278 <212> DNA <213> Artificial Sequence <220> <223> specific sequence with non-homologous human reference <400> 7 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60 ctactgatgg aggaggtctt gccagcaaag cagtagttgg ggttgtagtc ggtcatgatg 120 gtcgaggtgc ggagcttgct cagcttgtac tcagggctct gcagctccat ctgcatggct 180 tgcagctcct ggtgcttccg gcggtctgag agagatcgga agagcacacg tctgaactcc 240 agtcaccacg agtcatctcg tatgccgtct tctgcttg 278 <210> 8 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> extract sequence <400> 8 gtctactgat ggaggaggtc ttgccagcaa agcagtagtt ggggttgtag tcggtcatga 60 tggtcgaggt gcggagcttg ctcagcttgt actcagggct ctgcagctcc atctgcatgg 120 cttgcagctc ctggtgcttc cggcggtctg 150 <210> 9 <211> 278 <212> DNA <213> Artificial Sequence <220> <223> specific sequence with non-homologous human reference <400> 9 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctgt 60 ctgctacgtg ctcatcgctc acaaccaagt gaggcaggtc ccactgcaga ggctgcggat 120 tgtgcgaggc acccagctct ttgaggacaa ctatgccctg gccgtgctag acaatggaga 180 cccgctgaac aataccaccc ctgttctgag agagatcgga agagcacacg tctgaactcc 240 agtcaccacg agtcatctcg tatgccgtct tctgcttg 278 <210> 10 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> extract sequence <400> 10 gtctgctacg tgctcatcgc tcacaaccaa gtgaggcagg tcccactgca gaggctgcgg 60 attgtgcgag gcacccagct ctttgaggac aactatgccc tggccgtgct agacaatgga 120 gacccgctga acaataccac ccctgttctg 150

Claims

2 이상의 연속 뉴클레오티드가 고유 식별자 (unique identification: UID) 핵산 서열을 포함하는 제1 영역, 2 이상의 연속 뉴클레오티드가 참조 게놈과 상동성을 갖지 않는 (non-homologous) 핵산 서열을 포함하는 제2 영역, 및 2 이상의 연속 뉴클레오티드가 참조 게놈과 상동성을 갖는 핵산 서열을 포함하는 제3 영역을 포함하는, UID의 순결도(integrity)를 측정하기 위한 폴리뉴클레오티드.
청구항 1에 있어서, 상기 UID 핵산 서열은 2 bp 내지 40 bp인 것인 폴리뉴클레오티드.
청구항 1에 있어서, 상기 참조 게놈과 상동성을 갖지 않는 핵산 서열은 2 bp 내지 250 bp인 것인 폴리뉴클레오티드.
청구항 1에 있어서, 상기 참조 게놈과 상동성을 갖는 핵산 서열은 표적 영역의 핵산 서열의 2 이상의 연속 뉴클레오티드와 상동성을 갖는 것인, 폴리뉴클레오티드.
청구항 1에 있어서, 상기 제2 영역은 상기 제3 영역의 5' 말단, 상기 제3 영역의 3' 말단, 또는 상기 제3 영역의 5' 말단 및 3' 말단에 위치하고, 상기 제1 영역은 상기 제3 영역의 5' 말단, 제3 영역의 3' 말단, 제2 영역의 5' 말단, 제2 영역의 3' 말단, 또는 제2 영역의 5' 말단 및 제2 영역의 3' 말단에 위치하는 것인, 폴리뉴클레오티드.
청구항 1에 있어서, 차세대 핵산 서열분석(next generation sequencing: NGS)에 적용하기 위한 것인, 폴리뉴클레오티드.
청구항 1에 있어서, 표적 서열분석 (targeted sequencing), 표적 딥 서열분석 (targeted deep sequencing) 또는 패널 서열분석 (panel sequencing)에 적용하기 위한 것인, 폴리뉴클레오티드.
청구항 1의 폴리뉴클레오티드를 포함하는 UID의 순결도 측정용 제1 라이브러리를 제작하는 단계;
생물학적 시료로부터 분리된 핵산을 단편화하고, 단편화된 핵산의 하나 이상의 말단에 고유 식별자 (unique identification: UID) 핵산 서열을 포함하는 폴리뉴클레오티드를 라이게이션하여 핵산 서열분석용 제2 라이브러리를 제작하는 단계;
상기 제1 라이브러리 및 제2 라이브러리를 핵산 서열분석하여 핵산 서열분석 데이터를 수득하는 단계;
수득된 서열분석 데이터의 리드 중에서 제2 영역을 포함하는 리드를 추출하는 단계;
추출된 제2 영역을 포함하는 리드 중에서 제1 영역을 포함하는 리드의 비율을 산출하는 단계; 및
산출된 제1 영역을 포함하는 리드의 비율로부터 UID의 순결도를 측정하는 단계를 포함하는, 핵산 서열분석에 있어서 UID의 순결도를 측정하는 방법.
청구항 8에 있어서, 상기 핵산 서열분석은 차세대 핵산 서열분석(next generation sequencing: NGS)인 것인 방법.
청구항 8에 있어서, 상기 핵산 서열분석은 표적 서열분석 (targeted sequencing), 표적 딥 서열분석 (targeted deep sequencing) 또는 패널 서열분석 (panel sequencing)인 것인 방법.