KR101839088B1

KR101839088B1 - 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법

Info

Publication number: KR101839088B1
Application number: KR1020157031732A
Authority: KR
Inventors: 이병철; 박정선; 윤태균; 이정호; 박동윤
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2014-10-29
Filing date: 2015-10-29
Publication date: 2018-03-15
Also published as: WO2016068627A1; KR20160062747A

Abstract

단일 시료에 기반한 절대 복제수 변이의 분석 방법이 제공되며, 유전체 해독기(Sequencer)에서 생성된 실험 시료 서열 데이터를 수신하는 단계, 수신된 실험 시료 서열 데이터를 염색체상 위치(Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑(Read Mapping)한 리드 카운트(Read Count)에 기반하여 TRR(Target Region Ratio)을 산출하는 단계, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정하는 단계, 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 예측하는 단계를 포함한다.

Description

단일 시료에 기반한 절대 복제수 변이를 분석하는 방법{METHOD FOR PREDICTING ABSOULTE COPY NUMBER VARIATION BASED ON SINGLE SAMPLE}

본 발명은 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에 관한 것으로, 대조군 시료없이 실험 시료만을 이용하여 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수를 분석하는 방법에 관한 것이다.

복제수 변이(copy number variation; CNV)는 유전체에서의 구조적 변이(structural variation; SV)의 한 형태이다. 일반적으로, CNV는 1kb 이상의 DNA 절편의 증폭 또는 결실을 가리킨다. CNV는 인간 집단에서 10퍼센트가 넘는 매우 높은 빈도로 존재하며, 개인의 유전체 내에서 CNV의 평균 크기는 3.5±0.5 Mbp(0.1 퍼센트)이다. 많은 연구들은 CNV가 자폐증, 정신분열증, 알츠하이머병, 암 등과 같은 복잡한 질환과 연관되어 있음을 입증해왔다.

최근에는, 차세대 서열분석(Next Generation Sequencing; NGS) 기술이 발전됨에 따라, 서열분석기기에서 생성된 리드(read, 서열조각)을 이용하여 높은 해상도(＜10kbp)로 CNV를 검출하게 되었다(Alkan C et al., Nature Genetics 41:1061-1067; J.L. Hayes et al., Genomics, vol. 102, Issue 3, pp.174-181, 2013; Chiang DY et al., Nature Methods 6:677-681 참조).

다만, 암 시료를 대규모 병렬 서열분석기기를 이용하여 분석할 경우, 암 시료에 정상 세포가 섞여 있어 암 시료에 대한 정확한 CNV를 분석하기 위해서는 암 시료에 대한 사전 지식을 필요로 한다. 또한, 대부분의 임상 시료의 경우 대조군인 정상 시료가 존재하지 않으므로, 암 시료의 결과만으로 CNV를 정확하게 분석하기 쉽지 않다. 따라서, 정상 시료 없이 암 시료만으로도 CNV를 분석할 수 있는 새로운 방법의 개발이 요구된다.

(비특허문헌 1)Alkan C et al., Nature Genetics 41:1061-1067; J.L. Hayes et al., Genomics, vol. 102, Issue 3, pp.174-181, 2013; Chiang DY et al., Nature Methods 6:677-681

본 발명의 일예는, 대조군 시료없이 실험 시료만을 이용하여 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수를 분석하는 방법을 제공하는 것이다.

본 발명의 또 다른 예는 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수의 분석을 위한 컴퓨터 판독 방법을 제공한다.

본 발명의 또 다른 일예는 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수의 분석 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 또는 또는 컴퓨터에서 실행 가능한 프로그램(computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)을 제공하는 것이다.

본 발명의 또 다른 예는 실험 시료에 대한 적어도 하나의 타겟 영역에서의 절대적인 복제수의 분석을 위한 컴퓨터 판독 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램 또는 또는 컴퓨터에서 실행 가능한 프로그램(computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공하는 것이다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 실험 시료 서열 데이터를 염색체상 위치(Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑(Read Mapping)하여 리드 카운트(Read Count)를 얻는 단계, 상기 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출하는 단계, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정하는 단계, 산출 및 추정된 파라미터에 기초하여 실험 시료내 적어도 하나의 타겟 영역의 절대 복제수를 예측하는 단계를 포함한다.

구체적으로, 본 발명의 일예는 시료 서열정보를 염색체상 위치(Chromosomal Position)별 표준 참조 염기서열 정보에 리드 매핑(Read Mapping)하여, 리드 카운트(Read Count)를 얻는 단계;

상기 리드 카운트(Read Count)에 기반하여 시료 TRR(Target Region Ratio)을 산출하는 단계;

상기 시료의 순도 및 시료의 평균 복제수를 추정하는 단계; 및

상기 산출 TRR 및 추정된 순도와 평균 복제수에 기초하여 상기 시료의 절대 복제수를 결정하는 단계

를 포함하는, 단일 시료에 기반한 시료의 절대 복제수 변이를 결정하는 방법에 관한 것이다.

상기 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정하는 단계는,

(i)상기 리드 매핑 결과로부터, 시료 서열정보와 참조 서열정보가 동일한 대립 유전자(A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자(B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율(B allele frequency, BAF)을 산출하는 단계;

(ii)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할(Segmentation)하는 단계;

(iii)상기 분할된 적어도 하나의 세그먼트를, 시료 순도에 대한 상기 빈도율의 복제수 모델에 적용하여, 상기 시료의 순도 후보 및 복제수 후보를 추출하는 단계; 및

(iv) 필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 포함하는 방법으로 수행하는 할 수 있다.

실험 시료 서열 데이터를 표준 참조 서열 데이터에 리드 매핑하여 리드 카운트(Read Count)를 얻고, 상기 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출하고, 적어도 하나의 타겟 영역에서 실험 시료의 순도 및 평균 복제수를 추정함으로써, 실험 시료의 대조군인 대조 시료 서열 데이터 및 리드 매핑 없이도 적어도 하나의 타겟 영역에서 실험 시료의 절대적인 복제수를 파악할 수 있는 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 제공할 수 있다.

본 발명의 다른 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다.

본 발명의 추가 예는 상기 컴퓨터 판독 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램(computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 실험 시료(sample)의 대조군인 대조 시료(control), 대조 시료 서열 데이터 및 대조 시료의 리드 매핑의 작업 과정 없이도, 실험 시료의 복제수를 파악할 수 있을 뿐만 아니라, 암 시료에 정상 세포가 섞여 있는 상황이거나 대조군인 정상 시료 또는 정상 세포가 존재하지 않는 경우일지라도, 적어도 하나의 타겟 영역에서의 절대적인 복제수를 알 수 있으므로, 원하는 타겟 영역에서 정확한 복제수를 파악할 수 있고, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다.

도 1은 본 발명의 일 실시예에 따른 단일 시료에 기반한 복제수 변이의 분석 시스템을 설명하기 위한 구성도이다.
도 2는 도 1에 도시된 복제수 변이의 분석 장치를 설명하기 위한 블록 구성도이다.
도 3은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 복제수 변이의 분석 방법을 설명하기 위한 블록 구성도이다.
도 4는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 리드 매핑을 설명하기 위한 도면이다.
도 5는 도 1에 도시된 복제수 예측 장치를 사용한 경우와 기존의 복제수 예측 장치를 사용한 경우의 시뮬레이션 결과 그래프를 비교한 도면이다.
도 6은 본 발명의 일 실시예에 따라 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 설명하기 위한 동작 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 시료 서열 정보 분석 방법을 실행하기 위한 컴퓨터 판독 가능한 저장 매체를 도시한 도면이다.
도 8은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 시료 서열 정보 분석 방법을 설명하기 위한 블록 구성도이다.
도 9는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 빈도율 산출 방법을 설명하기 위한 도면이다.
도 10는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 분할 방법을 설명하기 위한 도면이다.
도 11은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 후보 추출을 위한 노드 정의 방법을 설명하기 위한 도면이다.
도 12은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 필터링 방법을 설명하기 위한 도면이다.
도 13은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 추정 방법을 설명하기 위한 도면이다.
도 14는 도 1에 도시된 복제수 변이의 분석 장치에서 추정한 시료 추정값에 대한 시료 순도 시뮬레이션 값의 그래프를 비교한 도면이다.
도 15은 본 발명의 일 실시예에 따른 시료 순도 및 복제수 추정 방법을 설명하기 위한 동작 흐름도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에서, 다른 정의가 없는 한, 타겟 영역 및 타겟 염기 서열은 게놈 또는 염색체 내의 분석하고자 하는 선택 영역 (타겟 영역) 및 상기 영역의 염기 서열 (타겟 염기 서열)을 각각 의미한다. 상기 타겟 영역 및 타겟 염기 서열은 하나의 시료에 대하여 하나 이상 존재할 수 있다. 예를 들면, 상기 타겟 영역은 전장 유전체 분석에서는 분석하고자 하는 임의의 구간이 되며 타겟 서열분석(targeted sequencing)에서는 library prep 시에 서열분석을 하기 위해 probe등을 설계하여 선별하는 영역을 의미할 수 있다.

본 명세서에서 수치 앞에 기재된 "약"은, 다른 정의가 없는 한, 기재된 수치의 10%, 5%, 또는 3%의 변동폭(증감분)을 포함하기 위하여 사용된 것일 수 있다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 단일 시료에 기반한 복제수 변이의 분석 시스템을 설명하기 위한 구성도이다. 도 1을 참조하면, 복제수 변이의 분석 시스템(1)은, 유전체 해독기(100)와 복제수 변이의 분석 장치(300)를 포함할 수 있다. 다만, 이러한 도 1의 복제수 변이의 분석 시스템(1)은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니다.

이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 네트워크(200)를 통하여 유전체 해독기(100)와 복제수 변이의 분석 장치(300)가 연결될 수 있다. 이때, 유전체 해독기(100)와 복제수 변이의 분석 장치(300)가 직접 연결될 수도 있다. 또한, 유전체 해독기(100)에서 생성된 실험 시료 서열 데이터만을 복제수 변이의 분석 장치(300)가 수신하면 되므로, 직접 또는 간접적인 연결을 모두 포함할 수 있다.

여기서, 네트워크(200)는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크(200)의 일 예는, WCDMA, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), ATM 방식을 활용한 E1 망, 3G, 4G, LTE, Wi-Fi 등이 포함되나 이에 한정되지는 않는다. 또한, 도 1에 개시된 유전체 해독기(100)와 복제수 변이의 분석 장치(300)는 도 1에 도시된 것들로 한정 해석되는 것은 아니다.

유전체 해독기(100)는 DNA 서열을 증폭시킨 후 형광 표식 등을 촬영 수단으로 촬영하고, 이미지 처리를 수행함으로써 DNA 유전 정보를 병렬 데이터화할 수 있다. 이때, 유전체 해독기(100)는 유전자 변이, DNA 복제수(Copy Number) 및 염색체 재배열을 파악하는 분야에도 적용될 수 있으며, 이를 위하여 유전체 해독기(100)는 하나의 DNA를 여러 번 읽을 수 있는데, 여기서 읽은 횟수를 리드 카운트(Read Count)라 정의하고, 리드 카운트는 깊이(Depth)라고도 정의될 수 있다.

복제수 변이의 분석 장치(300)는, 실험 시료 서열 데이터를 표준 참조 서열 데이터에 리드 매핑(Read Mapping)하여 리드 카운트(Read Count)를 계산하고, 리드 카운트에 기반하여 TRR(Target Region Ratio)을 산출할 수 있다. 이때, 복제수 변이의 분석 장치(300)는, TRR을 산출하는 과정에서 실험 시료의 대조군인 대조 시료의 대조 시료 서열 데이터가 요구되지 않는데, 이는 이하의 수학식을 통하여 상세히 서술하기로 한다. 그리고, 복제수 변이의 분석 장치(300) 실험 시료의 순도, 평균 복제수 및 복제수가 기 설정된 수인 TRR을 추정하고, 산출 및 추정된 파라미터, 즉 TRR, 순도, 평균 복제수 및 평균 복제수가 기 설정된 수인 TRR을 포함한 파라미터에 기초하여 실험 시료의 절대 복제수를 예측할 수 있다. 여기서, 순도, 평균 복제수 및 평균 복제수가 기 설정된 수인 TRR을 포함한 파라미터는 예측값을 외부로부터 차용할 수 있다. 이때, 복제수 변이의 분석 장치(300)는, 네트워크(200)를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.

도 2는 도 1에 도시된 복제수 변이의 분석 장치를 설명하기 위한 블록 구성도이고, 도 3은 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 복제수 변이의 분석 방법을 설명하기 위한 블록 구성도이고, 도 4는 도 1에 도시된 복제수 변이의 분석 장치에서 실행되는 리드 매핑을 설명하기 위한 도면이고, 도 5는 도 1에 도시된 복제수 예측 장치를 사용한 경우와 기존의 복제수 예측 장치를 사용한 경우의 시뮬레이션 결과 그래프를 비교한 도면이다.

도 2 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 복제수 예측 장치(300)는, 수신부(310), 산출부(330), 추정부(350) 및 예측부(370)를 포함할 수 있다.

수신부(310)는, 유전체 해독기(100)에서 생성된 실험 시료 서열 데이터를 수신할 수 있다(S3100). 이때, 실험 시료 서열 데이터는, 유전체 해독기(100)에서 실험 시료를 복수회 읽어들여 복수회의 리드 카운트(Read Count)를 가진 데이터일 수 있다. 이때, 실험 시료는 암 시료일 수 있다.

산출부(330)는, 수신된 실험 시료 서열 데이터를 염색체상 위치(Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑(Read Mapping)한 리드 카운트(Read Count)에 기반하여 (S3200, S3300) TRR(Target Region Ratio)을 산출할 수 있다(S3400).

본 발명의 일 실시예에 따른 복제수 변이의 분석 장치(300)에서 실험 시료의 대조군인 대조 시료 서열 데이터가 요구되지 않는 이유를 설명하기로 한다. 도 4를 참조하면, (a) 실험 시료 서열 데이터와, 대조 시료 서열 데이터를 있는 경우를 가정하여 (b) 대조 시료 서열 데이터를 인간 표준 서열인 표준 참조 서열 데이터에 리드 매핑하여 리드 카운트를 계산하고, 상기 얻어진 리드 카운트를 기반하여 타겟 영역의 TRR을 얻을 수 있다.

실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서는, TRR은 실험 시료 데이터와 대조 서열 데이터에 위치한 적어도 하나의 타겟 영역의 리드 카운트의 비율로서, 타겟 영역i에서의 리드 카운트의 비율인 Target region ratio (TRR)은 다음 수학식 1과 같이 표현될 수 있다.

[수학식 1]

수학식 1에서, TRR은 특정 타겟 영역i에서 실험시료와 대조시료의 리드 카운트의 비율이며, t _i, n _i 는 타겟 영역 i에서의 실험 시료와 대조 시료의 매핑된 리드 카운트이며, N은 매핑된 대조군 시료의 총 리드 카운트이고, T는 매핑된 실험시료의 총 리드 카운트로서, 적어도 하나의 타겟 영역에서의 t_i의 총합이다. 예를 들면 실험시료는 암 시료이고 대조 시료는 정상 시료일 수 있다.

본 발명에서는, TRR을 적어도 하나의 타겟 영역마다 계산을 하게 되는데, TRR은 아래 수학식 2 및 수학식 3과 같이 유도될 수 있다. 따라서, 수학식 2 또는 수학식 3에 나타낸 바와 같이, 본 발명에 따른 TRR은, 리드 매핑된 적어도 하나의 타겟 영역에서의 리드 카운트 및 상기 리드 카운트의 총 합의 비율에 기초하여 산출될 수 있다.

구체적으로, 실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서 정의된 수학식 1의 TRR에서, d는 단위 리드 카운트, 즉 복제수 1인 타겟 영역에서의 sequencing depth라고 하면, 타겟 영역 i의 복제수가 j 일 때 기대 리드 카운트 R^j 는 R^j=jd 가 된다. 여기서 d는 시료에 따라 dt (실험 시료) 및 dn (대조군 시료)고 구분할 수 있다. n_i는 대조 시료 서열 데이터의 기반인 대조군의 i 번째 타겟 영역에 매핑된 리드 카운트로서 대조군의 2d_n과 같이 표현될 수 있으며, N은 대조군의 총 리드 카운트로 타겟 영역 1 부터 L 까지의 n의 합을 의미하며, 2d_nL과 같이 표현될 수도 있다. T는 실험 시료의 총 리드 카운트이고, L은 타겟 영역의 총 개수이다.

[수학식 2]

[수학식 3]

상기 수학식 2 및 3에서,

는 i 번째 타겟 영역이 복제수 j를 가질 때의 TRR을 의미하며,

t_i, n_i, N, T의 정의는 수학식 1과 동일하며,

d_n 은 대조군 시료의 단위 리드 카운트이고,

T는 매핑된 실험 시료의 총 리드 카운트로서 적어도 하나의 타겟 영역 i에서 t_i의 합계이다.

수학식 3으로부터 대조 시료의 대조 시료 서열 데이터가 요구되지 않음을 알 수 있다. 즉,

는 최종적으로 t_i, T, L 값만 요구되게 되는데, t_i, T, L은 모두 상술한 바와 같이 실험 시료로부터 얻어지는 값이기 때문이다. 따라서, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은, 실험 시료의 대조군인 대조 시료의 대조 시료 서열 데이터가 존재하지 않더라도, 실험 시료만을 이용하여 TRR을 산출하고 본 발명의 복제수 변이를 예측할 수 있다.

적어도 하나의 타겟 영역에서의 t_i의 합계인 T는 하기 수학식 4와 같이 정리될 수 있다. 일반적으로 실험 시료는 정상 세포와 같은 대조군 세포가 섞여있기 때문에 실험 시료 (예, 암 세포)의 순도를 α라고 하면 총 리드 카운트 T는 다음과 같이 계산할 수 있다. 여기서, T은 실험시료의 타겟 영역의 총 리드 카운트로서 Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다. 순수한 실험시료, 예를 들면 암시료의 평균 복제수 J는 하기 수학식 5로 표현할 수 있으므로, T를 정리하면 수학식 6으로 표시할 수 있다. T와 마찬가지로 t_i로 정리하면 수학식 7로 표시할 수 있다. 적어도 하나의 타겟 영역, 즉 i 번째 타겟 영역이 실험 시료의 복제수가 j를 가질 때 복제수를 j_i 로 표시하고, 실험 시료의 순도가 α라면, 적어도 하나의 타겟 영역에서의 실험 시료 서열 데이터의 리드 카운트인 t_i는 하기 수학식 7와 같이 정의될 수 있다.

[수학식 4]

[수학식 5]

[수학식 6]

[수학식 7]

상술한 수학식 6 및 수학식 7를 이용하면, 수학식 2의 TRR을 j 복제수를 갖는 i 번째 타겟 영역에서의 TRR를 하기 수학식 8과 같이 정리할 수 있다.

[수학식 8]

여기서, 수학식 8의 우측 좌항을 하기 수학식 9와 같이 A로 정의하고, A를 수학식 8에 대입하면, 하기 수학식 10으로 표시할 수 있다.

[수학식 9]

[수학식 10]

수학식 9 및 10에서,

α는 실험 시료의 순도,

J는 실험 시료의 평균 복제수, 및

j_i 는 실험 시료의 i 번째 타겟 영역 복제수이다.

J와 α 수치값에 대한 정보를 수학식 8와 같이 A로서 정리하면 수학식 10로 표시할 수 있다. 여기서, J와 α는 외부로부터 입력을 받을 수 있다. 즉, 외부 병리과 전문의로부터 추정값을 받거나, 마이크로 어레이(Micro array)를 이용하여 추정하거나, 다른 방법을 통하여 추정값을 수신할 수 있다(S3500).

예측부(370)는, 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 예측할 수 있다. 여기서, 산출된 파라미터는 TRR일 수 있고, 추정된 파라미터는 J와 α일 수 있다. 즉, 예측부(370)는, 산출 및 추정된 파라미터에 기초하여, 수학식 11과 같이 절대 복제수 점수로

를 정의하면, 상기 수학식 10을 하기 수학식 12와 같이 변환할 수 있으며, 이에 i 번째 타겟 영역에서의 절대 복제수 j_i가 계산될 수 있다.

[수학식 11]

[수학식 12]

수학식 11 및 12에서,

는 실험 시료의 i 번째 타겟 영역이 복제수 j를 갖는 절대 복제수 점수,

A는 수학식 9에서 정의한 바와 같고, 추정된 파라미터인 J와 α를 통하여 산출할 수 있으며,

는 실험 시료의 i 번째 타겟 영역에서의 복제수 j을 갖는 TRR이고,

TRR¹은 적어도 하나의 타겟 영역에서 리드 카운트가 1인 실험 시료의 TRR이다.

본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법에서, 궁극적으로 j_i, 즉 i 번째 타겟 영역에서의 절대 복제수j 를 알고자 하는 것인데, 산출 TRR과 추정된 및 추정된 J와 α에 의하여 절대 복제수 점수

는 산출될 수 있다. 실험시료, 예를 들면 암 시료로부터 측정된 리드 카운트를 이용하여 TRR를 계산하고 A를 빼준 값(TRR^j-A)을, (TRR¹-A)으로 나누어 준 값을 구하면, 타겟 영역의 절대 복제수를 결정할 수 있다.

TRR¹은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR을 의미하고, A는 추정된 파라미터인 J (실험 시료의 평균 복제수)와 α(실험 시료의 순도)를 통하여 산출할 수 있다. 적어도 하나의 타겟 영역에서의 복제수가 기 설정된 수인 TRR을 추정할 수 있다. 여기서, 기 설정된 복제수는 1일 수 있고, TRR¹로 표현될 수 있는데, TRR¹은 적어도 하나의 타겟 영역에서의 복제수가 1인 TRR을 의미할 수 있다.

여기서, 실험 시료의 절대 복제수는, 적어도 하나의 타겟 영역에서의 실험 시료의 절대 복제수일 수 있다.

상술한 바와 같이, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은, 실험 시료 이외의 대조군인 대조 시료 서열 데이터가 존재하지 않을지라도, 즉, 실험 시료만을 이용하여도 적어도 하나의 타겟 영역에서의 절대 복제수를 예측할 수 있다. 이때, 본 발명의 일 실시예에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 통하여 적어도 하나의 타겟 영역에서 절대적인 복제수를 파악할 있다면, 환자의 정확한 치료 및 임상 실험이 가능해질 수 있다.

도 5를 참조하면, (a)는 염색체상 위치에 따른 TRR을 시뮬레이션한 결과를 도시하고, (b)는 본 발명의 일 실시예에 따른 염색체상 위치에 따른 S 및 j를 시뮬레이션한 결과를 도시한다. (a)는 암 시료 순도 50%의 시뮬레이션 결과를 도시하는데, TRR만이 나타나게 되므로 절대적인 복제수를 알 수 없지만, (b)는 절대적인 복제수에 따라 각각의 세그먼트가 나열된 것을 알 수 있고, 적어도 하나의 타겟 영역에서의 절대적인 복제수를 파악할 수 있다는 것을 알 수 있다.

이와 같은 도 2 내지 도 5의 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

도 6은 본 발명의 일 실시예에 따라 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 설명하기 위한 동작 흐름도이다. 도 6을 참조하면, 복제수 변이의 분석 장치는, 유전체 해독기(Sequencer)에서 생성된 실험 시료 서열 데이터를 수신한다(S6100).

그리고 나서, 복제수 변이의 분석 장치는, 수신된 실험 시료 서열 데이터를 염색체상 위치(Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑(Read Mapping)한 리드 카운트(Read Count)에 기반하여 TRR(Target Region Ratio)을 출한다(S6200).

또한, 복제수 변이의 분석 장치는, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정한다(S6300).

마지막으로, 복제수 변이의 분석 장치는, 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 예측한다(S6400).

이와 같은 도 6의 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 5를 통해 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.

본 발명의 또 다른 일예는, 단일 시료에 기반한 절대 복제수 변이의 분석 방법에 관한 것이다. 구체적인 일예에서, 본 발명에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법은 하기 단계를 포함할 수 있다:

(1) 시료 서열 정보를, 염색체상 위치(Chromosomal Position)별 참조 서열 정보에 리드 매핑(Read Mapping)하여 리드 카운트(Read Count)를 얻는 단계;

(2) 상기 리드 카운트(Read Count)에 기반하여, 시료내 적어도 하나의 타겟 영역에서의 TRR(Target Region Ratio)을 산출하는 단계;

(3) 상기 적어도 하나의 타겟 영역에서의 시료의 순도 및 시료의 평균 복제수를 추정하는 단계; 및

(4) 상기 산출 TRR 및 추정된 순도와 평균 복제수에 기초하여 상기 시료내 적어도 하나의 타겟 영역의 절대 복제수를 결정하는 단계.

이하, 상기 각 단계별로 단일 시료에 기반한 시료 서열정보의 분석방법을 자세히 설명하고자 한다.

(1) 실험 시료의 리드 카운트를 얻는 단계

본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 상기 (1) 시료 서열 정보를, 염색체상 위치(Chromosomal Position)별 참조 서열 정보에 리드 매핑(Read Mapping)하여 리드 카운트를 얻은 단계를 수행할 수 있다.

상기 시료 서열 정보와 참조 서열 정보는 통상의 서열정보 분석 방법으로 얻을 수 있으며, 예를 들면, 서열분석기를 통해 분석하는 방법으로서 시험 시료에 대하여 차세대 염기서열 분석과 같은 대규모 병렬 염기 서열 분석을 수행할 수 있고, 또는 얻어진 서열 정보를 데이터 저장 매체에 저장된 형태로 준비하거나 또는 네트워크 데이터 송수신 장치를 통하여 얻을 수도 있다. 본 발명의 일예에서, 도 1의 서열 정보 분석 시스템(1)에 도시된 유전체 서열분석기(100)를 이용하여 수신될 수도 있으며, 다만, 이러한 도 1의 시료 서열 정보 분석 시스템(1)은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니다.

상기 시료(sample) 서열정보는 분석하고자 하는 시료의 서열 정보를 의미하며, 상기 참조(reference) 서열 정보는 표준 게놈 염기 서열 (reference genome sequence)"로서, 한가지 종(species)을 대표하는 게놈 염기 서열 데이터베이스를 지칭한다. 현재 인간의 reference genome은 빌드 37(build 37: GRCh37), hg18, hg19, hg38과 같은 간행된(예컨대, UCSC, NCBI 등) 기준 게놈 서열에 근거하여 구축된 것일 수 있다.

상기 시료 서열정보 또는 참조 서열정보는 예컨대, 차세대 서열 분석법중 대규모 병렬형 염기 서열 분석 방법에 의하여 얻어진 것일 수 있으며, 차세대 서열 분석 방법을 이용하여 서열정보와 리드 깊이 또는 리드 카운트 수를 얻을 수 있다. 이 경우, 상기 폴리뉴클레오타이드 단편은 차세대 염기서열 분석에 사용되는 리드 (read)이며, 상기 폴리뉴클레오타이드 단편 수는 리드 수 (read count) 또는 리드 깊이(read depth)이며, 상기 평균 폴리뉴클레오타이드 단편 수는 평균 리드 수일 수 있다. 용어, "대규모 병렬 염기서열분석(massively parallel sequencing)"은 하나의 유전체(genome)을 무수히 많은 폴리뉴클레오타이드 단편으로 랜덤하게 분해하여 각 조각의 서열을 동시에 읽어낸 뒤, 이렇게 얻은 서열 데이터를 생물 정보학적 기법(bioinformatics)을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 염기서열 분석 방법을 총칭한다.

상기 차세대 염기서열 분석법은, 예컨대 454 플랫폼(platform) (Margulies, 등, Nature (2005) 437:376~380), Illumina Genome Analyzer (또는 Solexa™ platform), Illumina HiSeq2000, HisSeq2500, MiSeq, NextSeq500, Life Tech Ion PGM, Ion Proton, Ion S5, Ion S5XL, 또는 SOLiD (Applied Biosystems) 또는 Helicos True Single Molecule DNA 서열분석 기술 (Harris, 등, Science (2008) 320:106~109), Pacific Biosciences의 단일 분자, 및/또는 실시간(SMRT™) 기술 등에 의하여 수행될 수 있다. 또한 나노포어 서열 분석 (Soni and Meller, Clin Chem (2007) 53:1996~2001) 상에서 가능한 대규모 병렬 염기서열분석은 표본으로부터 분리된 많은 핵산 분자들의 서열분석을 병렬 방식의 높은 차수의 멀티플렉싱(multiplexing)으로 가능하게 한다 (Dear, Brief Funct Genomic Proteomic (2003) 1:397~416). 이들 플랫폼들 각각은 핵산 단편들의 클론적으로 확장된 또는 증폭되지 않은 단일 분자들을 서열화한다. 상업적으로 입수 가능한 서열분석 기기를 사용하여 폴리뉴클레오타이드 단편들의 서열정보를 수득할 수 있다. 이 외에도 상기 서열 분석이 다른 다양한 공지된 서열분석 방법들 및 또는 이들의 변형 방법들에 의하여 수행될 수 있다.

상기 시료 서열정보는 전체 게놈 서열정보 또는 선택된 타겟 영역의 서열정보일 수 있다. 본 명세서에서, 다른 정의가 없는 한, 타겟 영역 및 타겟 염기 서열은 게놈 또는 염색체 내의 분석하고자 하는 선택 영역 (타겟 영역) 및 상기 영역의 염기 서열 (타겟 염기 서열)을 각각 의미한다. 상기 타겟 영역 및 타겟 염기 서열은 하나의 시료에 대하여 하나 이상 존재할 수 있다. 예를 들면, 상기 타겟 영역은 전장 유전체 분석(whole genome sequencing)에서는 분석하고자 하는 임의의 구간이 되며 타겟 서열분석(targeted sequencing)에서는 library prep 시에 서열분석을 하기 위해 probe등을 설계하여 선별하는 영역을 의미할 수 있다.

상기 시료 서열정보 또는 참조 서열정보는 예컨대, 차세대 염기서열 분석법중 대규모 병렬 염기 서열 분석 방법에 의하여 얻어진 것일 수 있으며, 차세대 서열 분석 방법을 이용하여 서열정보와 리드 깊이 또는 리드 카운트 수를 얻을 수 있다. 차세대 염기서열 분석법을 통해 시료 서열정보가 전체 게놈 서열정보 또는 특정 선택 영역, 즉 타겟 영역을 선정하여 차세대 염기서열 분석법을 수행하여 (targeted sequencing) 타겟 영역의 서열정보를 시료 서열정보로 사용할 수 있다. NGS 방법을 활용한 targeted sequencing 방법은, 예를 들면 Sequence Capture'라는 기술을 활용하여 특정 유전체의 일부분을 선택적으로 분석을 할 수 있다.

구체적으로, 상기 리드 카운트를 얻는 단계는, 상기 시료 서열 정보, 예를 들면 유전체 서열분석기 (100)에서 얻어진 시료 서열 정보를 염색체상 위치별 참조 서열 정보에 리드 매핑할 수 있으며(S3200), 예를 들면 도 2의 시료 서열 정보의 분석 장치(300)의 산출부(330)에서 수행될 수 있다. 이때, 시료 서열 정보는 유전체 서열분석기(100)에서 실험 시료를 복수회 읽어 들여 복수회의 리드 카운트(Read Count)를 가진 데이터일 수 있다. 이때, 실험 시료는 암 시료일 수 있다. 예를 들어, 유전체 서열분석기(100)에서 250회의 리드 카운트를 가졌다고 가정하면, 250회 실험 시료 서열 정보를 읽어 들이면서 시료 서열 정보의 타겟 영역별 리드 카운트의 수를 계산할 수 있다. 이때, 리드 카운트는, 시료 서열 정보에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다.

(2) 시료의 순도 및 평균 복제수를 추정하는 단계

본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 적어도 하나의 타겟 영역에서의 실험 시료의 순도 및 실험 시료의 평균 복제수를 추정할 수 있다.

실험 시료의 순도 및 시료의 평균 복제수를 추정하는 단계는,

본 발명에 따른 단일 시료에 실험 시료의 순도 및 실험 시료의 평균 복제수 추정방법은, 실험 시료의 순도 및 평균 복제수를 포함하는 적어도 하나의 파라미터를 측정하고, 상기 파라미터를 이용하여 체세포 변이 발굴의 정확성을 향상시킬 수 있을 뿐만 아니라, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다.

하기, (2) 단계를 세부 단계로 나누어 자세히 설명하고자 한다.

(i) 상이한 대립 유전자의 빈도율 산출단계

본 발명에서 (i) 단계는, 시료 서열 정보와 참조 서열 정보가 동일한 대립 유전자와, 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자의 빈도수에 기초하여 상이한 대립 유전자의 빈도율(BAF:B Allele Frequency)을 산출할 수 있다.

구체적으로, 도 9를 참조하면, 시료는 정상 세포에서 복제 결실, 중복, 전좌, 역위 등이 발생하면, 암 세포로 변형된 암세포 시료일 수 있으며, 암 세포의 시료 서열정보와 참조 서열정보간에 동일한 대립 유전자의 복제수를 n, 시료 서열정보와 참조 서열정보간에 상이한 대립 유전자의 복제수를 m, 시료의 순도를 α라고 하면, 동일한 대립 유전자(A)와 상이한 대립 유전자(B)의 빈도수는 각각 수학식 13 및 수학식 14와 같이 정의될 수 있다.

[수학식 13]

[수학식 14]

수학식 13 및 14에서, n은 동일한 대립 유전자의 복제수를, m은 상이한 대립 유전자의 복제수이고 m과 n은 각각 0 또는 자연수이고,

α는 시료의 순도이고,

Fa는 동일한 대립 유전자(A)의 빈도수이고,

Fb는 상이한 대립 유전자(B)의 빈도수이다.

예를 들면, 시료의 순도는 분석대상 실험 시료에 분석대상 종양세포와 정상시료가 포함된 경우, 전체 시료 세포수중에서 종양 세포수의 비율(fraction)을 순도(tumor purity 또는 tumor cellularity)라고 표현할 수 있다. 또한, 암시료의 조직검사를 수행할 때 시료 내에 포함된 정상 세포 (stroma cell, 백혈구 등)들을 제외한 암유래 세포들만의 비율을 의미한다.

이때, 참조 서열정보와 비교하여, 실험 시료의 서열정보에서 상이한 대립 유전자의 빈도율을 BAF라고 하면, BAF는 하기 수학식 15과 같이 정의될 수 있다. 즉, 시료중 상이한 대립 유전자의 빈도율(BAF)는 전체 대립 유전자의 빈도수로서 시료와 참조 시료간에 동일한 대립 유전자의 빈도수와 상이한 대립 유전자의 빈도수의 합계에 대해, 상이한 대립 유전자의 빈도수의 비율 (BAF=(Fb)/(Fa+Fb))을 의미한다. 수학식 15에 기재된 Fa 및 Fb에 각각 수학식 13 및 14의 수식을 대입하면 수학식 15의 오른쪽 식과 같이 표현될 수 있다.

[수학식 15]

수학식 3에서, n, m, α, Fa 및 Fb의 정의는 수학식 13 및 14와 같다.

따라서, 상이한 대립 유전자의 빈도율은, 동일한 대립 유전자의 복제수, 상이한 대립 유전자의 복제수 및 실험 시료의 순도에 기초하여 산출될 수 있다.

(ii) 시료 서열 정보의 분할(Segmentation) 단계

본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (ii) 단계는 시료 서열 정보의 상이한 대립 유전자의 BAF에 기초하여, 상기 시료 서열 정보를 분할(Segmentation)할 수 있다.

본 발명의 일 예에서 도 10(c)에 있는 것과 같이, 서열 정보의 분할은 상이한 대립 유전자의 빈도수의 평균이 서로 달라지는 영역을 갖는 세그먼트(segment)를 찾아서 나누는 것이며, 예를 들면 임의의 영역을 잡고 평균에 대한 t-test를 하는 것이다. 상기 서열정보의 분할은 다양한 방법으로 수행될 수 있으며, 상기 분할방법은 예를 들면 circular binary segmentation (CBS) 방법 등이 있으나 이에 한정되는 것은 아니다.

본 명세서에서 세그먼트(segment)라 함은, 시료의 서열정보 중에서 상이한 대립 유전자 BAF의 평균이 같은 서열 정보 그룹을 의미하며 도 10(c) 에서 나와있는 검정색 막대 부분을 말하는 것이다. 도 10을 참조하면, (a)는 대조 시료의 BAF 그래프이고, (b)는 실험 시료의 BAF 그래프이다. 여기서, 상기 시료 서열정보의 분할은 CBS(Circular Binary Segmentation) 또는 다른 분할 방법을 이용하여 BAF 그래프를 분할할 수 있다.

(iii) 상이한 대립 유전자의 복제수 및 시료 순도 후보 추출 단계

본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (iii) 단계는, 시료 순도에 대한 빈도율의 복제수 모델에, 적어도 하나의 세그먼트를 적용하여, 시료의 복제수 및 시료 순도 후보를 추출할 수 있다.

여기서, 시료 순도에 대한 빈도율의 복제수 모델은 n-m plot model일 수 있다. 상기 분할단계에서 정의된 세그먼트를, n-m plot model에 적용함으로써, 각각의 노드(node1, node2....node6)를 정의할 수 있다. 여기서, 노드는 (n,m,α, F_a, F_b)의 값을 포함하므로, 후보 노드가 선정되면, 상이한 대립 유전자의 복제수 및 시료 순도 후보도 추출할 수 있게 된다. 여기서, n,m,α, F_a, F_b의 값은 상기 수학식 13 및 14에서 정의한 바와 같다.

상기 수학식 15은 하기 수학식 16와 같이 변환될 수 있는데, 각각의 세그먼트를 n-m plot model에 대입하면, α 후보를 도출할 수 있고, 이를 노드 후보 또는 시료 순도 후보라고 정의하기로 한다. 또한 상기 시료 순도 후보 값으로부터 복제수 (m,n)의 후보 값도 얻을 수 있다.

[수학식 16]

예를 들어, n이 0, m이 1, 세그먼트의 BAF가 0.7이라고 가정하고, 수학식 4에 각각의 파라미터를 대입하는 경우 α는 0.57이 얻어지며, n, m, α을 수학식 13 및 14에 상기 파라미터를 대입하면 Fa는 0.3, Fb는 1.0이므로, 이 경우의 노드는 (0,1,0.57,0.3,1.0)이 된다.

(iv) 시료의 순도 및 평균 복제수 추정 단계

본 발명에 따른 시료 서열의 정보 분석 방법에서 상기 (iv) 단계는, 상기 (iii)단계에서 추출된 시료 순도 및 복제수의 후보중에서, 적어도 하나의 필터를 통하여 필터링된 시료 순도 및 복제수를 실험 시료의 시료 순도 및 복제수로 각각 설정함으로써 추정될 수 있다.

여기서, 적어도 하나의 필터는, 비율 필터, 복제수 필터 및 단위 필터로 이루어지는 군에서 선택된 1종 이상의 필터를 포함할 수 있으며, 바람직하게는 비율 필터, 복제수 필터 및 단위 필터를 모두 사용하여 필터링할 수 있다.

이때, 비율 필터는, 기 설정된 수의 리드 카운트를 가지는 TRR(Target Region Ratio)에 대한, 적어도 하나의 타겟 영역에서의 리드 카운트에 기반한 TRR 비율의 일치 여부를 필터링하는 필터일 수 있고, 하기 수학식 17와 같이 정의될 수 있다.

[수학식 17]

상기 추정 단계는, 비율 필터를 이용하여 추출단계에서 얻어진 시료 순도의 후보 중에서 수학식 75의 비율(r)이 동일한 후보만을 남기고 모두 필터링하여 제외할 수 있다. TRR은 실험 시료의 서열 정보의 리드 매핑으로부터 얻어지는 실측 수치이다

복제수 필터는, 실험 시료의 평균 복제수의 동일 여부를 필터링할 수 있고, 하기 수학식 18과 같이 정의될 수 있다.

[수학식 18]

상기 추정 단계는, 복제수 필터를 이용하여 추출단계에서 얻어진 시료 후보 중에서 수학식 18의 평균 복제수(J)가 동일한 후보만을 남기고 모두 필터링하여 제외할 수 있다.

단위 필터는, 적어도 하나의 타겟 영역 중 단위 영역의 리드 카운트의 동일 여부를 필터링하는 필터일 수 있고, 하기 수학식 19과 같이 정의될 수 있다.

[수학식 19]

여기서, d는 단위 리드 카운드를 의미하고, 적어도 하나의 타겟 영역의 복제수가 1인 단위 영역의 리드 카운트일 수 있다. 즉, 상기 추정 단계는, 단위 필터를 이용하여, 추출단계에서 얻어진 시료 후보 중에서 수학식 19의 단위 복제수(d)가 동일한 후보만을 남기고 모두 필터링하여 제외할 수 있다.

구체적으로서 필터링 과정을 도 12를 참조하면, 추출단계에서 추출한 후보를 노드 1 내지 노드 6(node1,...,node6)로 정의하고, 적어도 하나의 필터를 동시에 또는 순차적으로 이용하는 과정에서 추출단계에서 얻어진 시료 후보가 제거, 즉 노드가 제거될 수 있다. 여기서, 도 12에 도시된 세 번의 필터링 과정은, 적어도 하나의 필터가 반복하여 사용될 수도 있기 때문에, 3 개의 필터가 순차적으로 쓰인 것을 의미하는 것은 아니다.

도 13을 참조하면, 필터링을 통하여 남은 노드, 즉 후보를 확인할 수 있다. 즉, 최종적으로 노드 3 및 노드 5가 선택되는 경우, 실험 시료의 순도 0.7에 해당하는 경우로, 세그먼트가 일치하는 것을 알 수 있다.

따라서, 본 발명의 일 실시예에 따른 시료 서열의 정보 분석 방법을 수행하는 경우, 최종적으로 남은 노드의 정보를 바탕으로 시료 순도, Fa, Fb, 동일 대립 유전자 복제수 n, 상이한 대립 유전자의 복제수 m을 구할 수 있다.

또한, 상기 남은 노드의 시료 순도, Fa, Fb, 동일 대립 유전자 복제수 n, 상이한 대립 유전자의 복제수 m을 바탕으로, 수학식 5, 수학식 6, 수학식 7를 활용하여, 시료의 평균 복제수 J 및 단위 리드 카운트 d 를 포함하는 파라미터를 산출할 수 있다.

구체적인 예로서, 도 15은 본 발명의 일 실시예에 따른 시료 서열 정보 분석 방법을 설명하기 위한 동작 흐름도이다. 도 15을 참조하면, 시료 서열 정보의 분석 장치는, 유전체 서열분석기(Sequencer)에서 생성된 시료 서열 정보를 수신하여 염색체상 위치(Chromosomal Position)별 참조 서열 정보에 리드 매핑(Read Mapping)한다(S1100).

그리고 나서, 시료 서열 정보의 분석 장치는, 시료 서열 정보와 참조 서열 정보가 동일한 대립 유전자(A Allele)와, 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자(B Allele)의 빈도수에 기초하여 상이한 대립 유전자의 빈도율을 산출한다(S1200).

또한, 시료 서열 정보의 분석 장치는, 시료 서열 정보을 BAF에 기초하여 분할(Segmentation)한다(S1300).

그리고, 시료 서열 정보의 분석 장치는, 분할된 적어도 하나의 세그먼트를 시료 순도에 대한 빈도율의 복제수 모델에 적용하여 상이한 대립 유전자의 복제수 및 시료 순도 후보를 추출한다(S1400).

마지막으로, 시료 서열 정보의 분석 장치는, 적어도 하나의 필터를 이용하여 실험 시료의 순도 및 평균 복제수를 추정한다(S1500).

(3) 타겟 영역의 TRR을 산출하는 단계

본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 실험 시료의 서열 정보를 읽어 들이면서 시료 서열 정보의 타겟 영역별 리드 카운트의 수를 산출할 수 있다. 이때, 리드 카운트는, 시료 서열 정보에 위치한 적어도 하나의 타겟 영역에서 계산될 수 있다.

도 2 및 도 3을 참조하면, 산출부(330)는, 수신된 실험 시료 서열 데이터를 염색체상 위치(Chromosomal Position)별 표준 참조 서열 데이터에 리드 매핑(Read Mapping)한 리드 카운트(Read Count)에 기반하여(S3200, S3300), TRR(Target Region Ratio)을 산출할 수 있다(S3400).

[수학식 1]

수학식 1에서, TRR은 특정 타겟 영역i에서 실험시료와 대조시료의 리드 카운트의 비율이며, t _i, n _i 는 타겟 영역 i에서의 실험 시료와 대조 시료의 매핑된 리드 카운트이며, N은 매핑된 대조군 시료의 총 리드 카운트이고, T는 매핑된 실험시료의 총 리드 카운트로서 적어도 하나의 타겟 영역에서의 t_i의 총합이다. 예를 들면 실험시료는 암 시료이고 대조 시료는 정상 시료일 수 있다.

구체적으로, 실험 시료 데이터와 대조 서열 데이터를 모두 사용하는 종래의 분석 방법에서 정의된 수학식 1의 TRR에서, d는 단위 리드수(리드 depth), 즉 복제수 1인 타겟 영역에서의 sequencing depth라고 하면, 타겟 영역 i의 복제수가 j 일 때 기대 리드 카운트 R^j 는 R^j=jd 가 된다. 여기서 d는 시료에 따라 dt (실험 시료) 및 dn (대조군 시료)고 구분할 수 있다. n_i는 대조 시료 서열 데이터의 기반인 대조군의 i 번째 타겟 영역에 매핑된 리드 카운트로서 대조군의 2d_n과 같이 표현될 수 있으며, N은 대조군의 총 리드 카운트로 타겟 영역 1 부터 L 까지의 n의 합을 의미하며, 2d_nL과 같이 표현될 수도 있다. T는 실험 시료의 타겟 영역의 총 리드 카운트이고, Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다.

[수학식 2]

[수학식 3]

상기 수학식 2 및 3에서,

는 i 번째 타겟 영역이 복제수 j를 가질 때의 TRR을 의미하며,

t_i, n_i, N, T의 정의는 수학식 1과 동일하며,

d_n 은 대조군 시료의 단위 리드 카운트이고,

L은 타겟 영역의 총 갯수이다.

적어도 하나의 타겟 영역에서의 t_i의 합계인 T는 하기 수학식 4와 같이 정리될 수 있다. 일반적으로 실험 시료는 정상 세포와 같은 대조군 세포가 섞여있기 때문에 실험 시료 (예, 암 세포)의 순도를 α라고 하면 총 리드 카운트 T는 다음과 같이 계산할 수 있다. 여기서, T는 실험시료의 타겟 영역의 총 리드 카운트이고, Lj는 복제수 j를 갖는 타겟 영역의 총 개수이다. 순수한 실험시료, 예를 들면 암시료의 평균 복제수 J는 하기 수학식 5로 표현할 수 있으므로, T를 정리하면 수학식 6으로 표시할 수 있다. T와 마찬가지로 t_i로 정리하면 수학식 7로 표시할 수 있다. 적어도 하나의 타겟 영역, 즉 i 번째 타겟 영역이 실험 시료의 복제수가 j를 가질 때 복제수를 j_i 로 표시하고, 실험 시료의 순도가 α라면, 적어도 하나의 타겟 영역에서의 실험 시료 서열 데이터의 리드 카운트인 t_i는 하기 수학식 7와 같이 정의될 수 있다.

[수학식 4]

[수학식 5]

[수학식 6]

[수학식 7]

[수학식 8]

[수학식 9]

[수학식 10]

수학식 9 및 10에서,

α는 실험 시료의 순도,

J는 실험 시료의 평균 복제수, 및

j_i 는 실험 시료의 i 번째 타겟 영역 복제수이다.

구체적으로, 평균 복제수 J와 시료 순도α를 얻은 방법의 일예는, 실험 시료의 순도 및 시료의 평균 복제수를 추정하는 단계는, (i)상기 리드 매핑 결과로부터, 시료 서열정보와 참조 서열정보가 동일한 대립 유전자(A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자(B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율(B allele frequency, BAF)을 산출하는 단계; (ii)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할(Segmentation)하는 단계; (iii)상기 분할된 적어도 하나의 세그먼트를, 시료 순도에 대한 상기 빈도율의 복제수 모델에 적용하여, 상기 시료의 순도 후보 및 복제수 후보를 추출하는 단계; 및 (iv) 필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 포함하는 방법으로 수행하는 할 수 있다.

상기 평균 복제수 J와 시료 순도α를 얻은 방법의 일예는 상기 단계(2) 시료의 순도 및 평균 복제수를 추정하는 단계에서 구체적으로 설명한 바와 같다.

상기 단일 시료에 실험 시료의 순도 및 실험 시료의 평균 복제수 추정방법은, 실험 시료의 순도 및 평균 복제수를 포함하는 적어도 하나의 파라미터를 측정하고, 상기 파라미터를 이용하여 체세포 변이 발굴의 정확성을 향상시킬 수 있을 뿐만 아니라, 대조군 시료가 존재하지 않더라도 체세포 복제수 변이 발굴에 유용하게 사용될 수 있다.

(4) 산출 및 추정된 파라미터에 기초하여 시료의 절대 복제수를 결정하는 단계

본 발명에 따른 시료 서열의 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법에서, 상기 산출 및 추정된 파라미터에 기초하여 실험 시료의 절대 복제수를 결정할 수 있다. 여기서, 산출된 파라미터는 TRR일 수 있고, 추정된 파라미터는 J와 α일 수 있다. 즉, 산출 및 추정된 파라미터에 기초하여, 수학식 11과 같이 절대 복제수 점수로

를 정의하면, 상기 수학식 10을 하기 수학식 12와 같이 변환할 수 있으며, 이에 i 번째 타겟 영역에서의 절대 복제수 j_i가 계산될 수 있다. 절대 복제수 점수는 절대 복제수를 간단한 수식으로 계산할 수 있는 점수로서 절대 복제수와 음의 관계에 있는 점수이다. 절대 복제수 점수의 임상적 의의는 이전의 임계치(threshold) 방식보다 절대 복제수를 0,1,2,3 과 같은 정수로 표현할 수 있어 보다 정확하게 복제수 변이에 대한 정의가 가능하다는 장점이 있다.

평균 복제수 J와 순도를 외부에서 입력을 받으면 이론적으로 복제수 1을 가지는 TRR¹를 계산할 수 있고 타겟 영역의 TRR값은 실측치에서 얻을 수 있으므로 타겟 영역에서의 아래와 같은 s값을 계산할 수 있다. 즉 TRR 값을 나누어 줌으로서 계산을 원하는 j 만 남고 나머지 변수들은 상쇄되어 사라지게 된다.

[수학식 11]

[수학식 12]

수학식 11 및 12에서,

TRR¹은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR이다.

여기서, 실험 시료의 절대 복제수는, 적어도 하나의 타겟 영역에서의 실험 시료의 절대 복제수일 수 있다. 예를 들어 유방암에서 널리 알려진 ERBB2 유전자의 경우 복제수가 5를 넘어가는 경우가 흔하며 여기서 제안한 방법을 통해 정상 복제수를 넘어가는 경우의 절대 복제수를 계산할 수 있다.

한편, 본 명세서에 기재된 방법 및 정보는 상기 기재된 단계를 실행시킬 수 있는 방법의 단계를 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램을 제공한다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 하드웨어와 결합된 것일 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램은 상기 단계를 컴퓨터에서 실행시키기 위한 프로그램이며, 이 때 상기한 모든 단계가 하나의 프로그램에 의하여 실행되거나, 하나 이상의 단계를 실행하는 두 개 이상의 프로그램에 의하여 실행될 수 있다. 상기 컴퓨터 판독 가능한 저장 매체에 저장된 프로그램 또는 소프트웨어는, 예컨대, 전화선, 인터넷, 무선 접속 등과 같은 통신 채널 상에서, 또는 컴퓨터 판독가능한 디스크, 플래쉬 드라이브 등과 같은, 휴대용 매체(transportable medium)를 통한 것을 포함하는 모든 공지된 전달 방법을 통하여 컴퓨터 장치에 전달될 수 있다.

또한, 다른 예는 상기 방법의 단계를 실행시키기 위한 컴퓨터에서 실행 가능한 프로그램(computer executable instruction)이 수록된 컴퓨터 판독 가능한 저장 매체 (또는 기록 매체)를 제공한다.

상기 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다.

컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 예를 들면,. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리(e.g., USB 메모리, SD 메모리, SSD, CF 메모리, xD 메모리 등), 자기 디스크, 레이저디스크, 또는 기타 메모리, CD-ROM, DVD(digital versatile disk) 또는 기타 광학적 디스크, 자기 카세트(magnetic cassette), 자기테이프, 자기 디스크 저장 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨터에 의해 접근 가능한 모든 매체들 중에서 하나 이상 선택될 수 있으나, 이에 제한되지 않는다.

통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. 예컨대, 상기 통신 매체는 유선 네트워크 또는 직접-유선 연결(direct-wired connection)과 같은 유선 매체, 및 음향(acoustic) 매체, RF, 적외선 및 기타 무선 매체와 같은 무선 매체들 중에서 하나 이상 선택될 수 있다.

상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다.

상기한 매체들 중 하나 이상의 조합도 컴퓨터 판독 가능한 매체의 범위 내에 포함될 수 있다. 본 발명의 일예에 따른 컴퓨터 판독가능 매체의 예는 도 7에 도시하였으며, 예를 들면 컴퓨터 시스템(500)의 일 구성요소로서, 상기 컴퓨터 시스템은 하나 이상의 프로세서 (510), 하나 이상의 컴퓨터 판독가능 저장 매체(530) 및 메모리(520)을 포함할 수 있다

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

(A)대조군 시료없이 실험 시료 서열정보를 염색체상 위치(Chromosomal Position)별 표준 참조 염기서열 정보에 리드 매핑(Read Mapping)하여, 리드 카운트(Read Count)를 얻는 단계;
(B)상기 리드 카운트(Read Count)에 기반하여 시료 TRR(Target Region Ratio)을 산출하는 단계;
(C)상기 시료의 순도 및 시료의 평균 복제수를 추정하는 단계; 및
(D)상기 산출 TRR 및 추정된 순도와 평균 복제수에 기초하여 상기 시료의 절대 복제수를 결정하는 단계를 포함하는, 적어도 하나의 프로세서에 의해서 동작하는 장치가 단일 시료에 기반한 시료의 절대 복제수 변이를 결정하는 방법으로서,
상기 (B) TRR(Target Region Ratio)을 산출하는 단계에서
상기 TRR은, 상기 시료내 위치하는 적어도 하나의 타겟 영역의 리드 카운트 및 상기 타겟 영역의 리드 카운트의 총합의 비율에 기초하여 하기 수학식 2에 의해 산출되는 것이며,
상기 (C) 시료의 순도 및 시료의 평균 복제수를 추정하는 단계는
(C-1)상기 리드 매핑 결과로부터, 실험 시료 서열정보와 참조 서열정보가 동일한 대립 유전자(A Allele)와, 상기 시료 서열 정보와 참조 서열 정보가 상이한 대립 유전자(B Allele)의 빈도수에 기초하여, 상기 상이한 대립 유전자의 빈도율(B allele frequency, BAF)을 산출하는 단계;
(C-2)상기 상이한 대립 유전자의 빈도율에 기초하여, 상기 시료 서열정보를 분할(Segmentation)하는 단계;
(C-3)상기 분할된 적어도 하나의 세그먼트(Segment)를 하기 수학식 15에 적용하여 얻어진 그래프와 상기 (C-1)에서 산출된 BAF가 만나는 지점의 순도 및 복제수를 시료의 순도 후보 및 복제수 후보로 선정하는 단계; 및
(C-4)필터링 파라미터를 이용하여, 상기 시료의 순도 후보 및 복제수 후보를 필터링하여 상기 시료의 순도 및 평균 복제수를 결정하는 단계를 포함하고,
상기 (D)단계의 상기 시료의 절대 복제수를 결정하는 단계는, 하기 수학식 9, 수학식 11, 및 12에 의해서 상기 시료의 절대 복제수를 결정하는 것인, 단일 시료에 기반한 시료의 절대 복제수 변이를 결정하는 방법:
상기 (C-4)필터링 파라미터는 기 설정된 수의 리드 카운트를 가지는 TRR(Target Region Ratio)에 대한 적어도 하나의 타겟 영역에서의 리드 카운트에 기반한 TRR 비율의 일치 여부를 필터링하는 비율 필터이고,
[수학식 2]

수학식2에서,

는 타겟 영역
에서의 실험 시료의 리드 카운트이고,
T는 실험시료의 총 리드 카운트로서 적어도 하나의 타겟 영역에서의 ti의 총합이며,
L은 매핑된 실험시료의 총 타겟 영역의 개수고,
[수학식 15]

수학식 15에서,
n은 암 세포의 시료 서열정보와 참조 서열정보간에 동일한 대립 유전자의 복제수이고.,
M은 시료 서열정보와 참조 서열정보간에 상이한 대립 유전자의 복제수이며,
α는 시료의 순도이고,
Fa는 동일한 대립 유전자(A)의 빈도수이며,
Fb는 상이한 대립 유전자(B)의 빈도수이고,
[수학식 11]

[수학식 9]

[수학식 12]

수학식 9, 11 및 12에서,
Sij 는 실험 시료의 i 번째 타겟 영역이 복제수 j를 갖는 절대 복제수 점수이고,
A는 수학식 9에서 정의된 바와 같이, 추정된 파라미터인 실험 시료의 평균 복제수 J와 실험 시료의 순도 α를 통하여 산출할 수 있으며,
TRRij 는 실험 시료의 i 번째 타겟 영역에서의 복제수 j을 갖는 TRR이고,
TRR1은 적어도 하나의 타겟 영역에서 리드 카운트가 1 인 실험 시료의 TRR이고,
ji는 i 번째 타겟 영역에서의 절대 복제수 (j)이다.
제 1 항에 있어서, 상기 시료 서열정보는 전체 게놈 서열정보 또는 선택된 타겟 영역의 서열정보인 단일 시료에 기반한 절대 복제수 변이의 분석 방법.
제 1 항에 있어서, 상기 시료 서열정보는 차세대 염기서열 분석법을 수행하여 얻어진 것인 단일 시료에 기반한 절대 복제수 변이의 분석 방법.
삭제
제 1 항에 있어서, 상기 실험 시료의 절대 복제수는, 상기 적어도 하나의 타겟 영역에서의 실험 시료의 절대 복제수인 것인, 단일 시료에 기반한 절대 복제수 변이의 분석 방법.
삭제
삭제
삭제
삭제
제 1 항에 있어서, 상기 상이한 대립 유전자의 빈도율은, 상기 동일한 대립 유전자의 복제수, 상기 상이한 대립 유전자의 복제수 및 상기 실험 시료의 순도에 기초하여 산출되는 것인, 단일 시료에 기반한 절대 복제수 변이의 분석 방법.
삭제
삭제
삭제
삭제
제 1 항에 있어서, 상기 평균 복제수는, 상기 실험 시료의 순도 및 상기 시료 서열 정보로부터 산출되는 TRR을 기반으로 하여 하기 수학식 18로부터 산정되는 것인 단일 시료에 기반한 절대 복제수 변이의 분석 방법:
[수학식 18]

식에서,
α는 시료의 순도이고,
j는 평균 복제수이다.
삭제
하드웨어에 결합되어 제1항 내지 제3항, 제5항, 제10항, 및 제15항 중 어느 한 항에 따른 단일 시료에 기반한 절대 복제수 변이의 분석 방법을 실행시키기 위하여 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
삭제