KR102358206B1

KR102358206B1 - 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템

Info

Publication number: KR102358206B1
Application number: KR1020187028021A
Authority: KR
Inventors: 자커리 알. 찰머스; 케이트린 에프. 코넬리; 데이비드 파브리지오; 개랫 마이클 프램튼; 프리티 헤지; 마신 코와네츠; 필립 제이. 스티븐스; 제임스 신 선; 로만 옐렌스키
Original assignee: 파운데이션 메디신 인코포레이티드; 제넨테크, 인크.
Priority date: 2016-02-29
Filing date: 2017-02-27
Publication date: 2022-02-04
Also published as: IL261126A; CA3014653C; CN109196359B; EP3423828A1; JP7317078B2; AU2017225876B2; AU2021203640B2; JP6930992B2; KR20220018627A; KR20180130506A; AU2017225876A1; CA3014653A1; AU2021203640A1; US20180363066A1; JP2019512218A; EP3423828A4; CN114959918A; MX2018010362A; CN109196359A; JP2021191276A

Abstract

피험체 유래의 샘플, 예를 들어 종양 샘플 또는 종양 유래의 샘플 내의 종양 돌연변이 부담을 평가하는 방법이 본원에 기재된다.

Description

종양 돌연변이 부담을 평가하기 위한 방법 및 시스템

관련 출원에 대한 교차 참조

본원은 미국 가출원 제62/301,534호 (2016년 2월 29일 출원)하기의 이점을 주장하며, 상기 언급된 출원의 내용은 이로써 참고로 그 전문이 편입된다.

발명의 분야

본 발명은 유전자 변이 예컨대 종양 변이 부담의 평가 방법에 관한 것이다.

암세포는 암 발생 및 진행 동안 돌연변이를 축적시킨다. 이들 돌연변이는 DNA 치유, 복제, 또는 변형, 또는 외부 돌연변이 유발원에 노출의 고유 기능이상의 결과일 수 있다. 특정 돌연변이는 암세포에 성장 이점을 부여하여 왔고 암이 생기는 조직의 미세환경에서 양성으로 선택된다. 유리한 돌연변이의 선택이 종양형성에 기여하는 반면, 종양 신생항원의 생성 및 후속적인 면역 인식의 개연성은 또한 돌연변이가 발생함에 따라 증가할 수 있다 (Gubin and Schreiber. Science 350: 158-9, 2015). 그러므로, 전장 엑솜 서열분석 (WES)에 의해 측정된 경우, 총 돌연변이 부담은 환자 치료 결정을 안내하는데, 예를 들어, 암 면역요법에 대한 내구성 반응을 예측하는데 사용될 수 있다. 그러나, 일상적인 임상 실시에 게놈 연구 번역은 전장 엑솜 서열분석이 널리 이용가능하지 않고 비싸며, 시간 집중적이고, 기술적으로 도전적이기 때문에 문제를 안고 있다.

그러므로, 종양 샘플에서 돌연변이 하중을 정확하게 측정하기 위해, 게놈 또는 엑솜의 서브셋을 표적하는 게놈 프로파일링을 포함하는, 신규한 접근법에 대하여 필요성이 여전히 존재한다.

발명의 요약

본 발명은, 적어도 부분적으로, 예를 들면, 혼성 포착-기반, 차세대 서열분석 (NGS) 플랫폼을 사용하여, 환자 샘플로부터 게놈 또는 엑솜의 작은 분획 프로파일링이 총 돌연변이 하중의 분석에 대하여 효과적인 대용물로서 제공한다는 발견에 기반된다. 변이 부담 검출용 표적된 NGS 접근법을 포함하는 방법의 이용은, 예를 들면, 전체 게놈 또는 전장 엑솜 서열분석에 비교하여, 비제한적으로, 더 빠른, 예를 들면, 더욱 임상적으로 감당할 수 있는 전환 시간 (~2주), 표준화된 정보공학 파이프라인, 및 더욱 감당할 수 있는 비용을 포함하는, 몇 개의 이점을 갖는다. 본 명세서에서 개시된 방법은, 본 방법이 주관적 측정 (예를 들면, 병리학 평점) 보다는 객관적 측정 (예를 들면, 돌연변이 하중)을 생산하기 때문에, 전통적 마커, 예컨대 조직화학에 의해 검출된 단백질 발현에 대해 다른 이점을 갖는다. 본 명세서에서 개시된 방법은 또한 표적된 요법용 실행가능한 변이, 뿐만 아니라 면역 요법용 변이 부담의 동시 검출을 허용한다. 이들 방법은 암을 가진 환자에서 요법에 반응의 임상적으로 실행가능한 예측변수를 제공할 수 있다.

따라서, 본 발명은, 적어도 부분적으로, 샘플로부터 서브게놈 구간의 세트의 서열 제공에 의해, 샘플에서 돌연변이 하중의 평가; 및 돌연변이 하중의 값의 결정 방법을 제공하고, 여기에서 상기 값은 서브게놈 구간의 세트에서 변이의 수의 함수이다. 특정 구현예에서, 서브게놈 구간의 세트는 유전자의 소정의 세트, 예를 들어, 전체 게놈 또는 엑솜을 포함하지 않는 유전자의 소정의 세트 유래이다. 특정 구현예에서, 서브게놈 구간의 세트는 코딩 서브게놈 구간의 세트이다. 다른 구현예에서, 서브게놈 구간의 세트는 양쪽 코딩 서브게놈 구간 및 비-코딩 서브게놈 구간을 함유한다. 특정 구현예에서, 돌연변이 하중의 값은 서브게놈 구간의 세트에서 변이 (예를 들면, 체세포 변이)의 수의 함수이다. 특정 구현예에서, 변이의 수는 기능적 변이, 생식세포 변이, 또는 양쪽을 배제한다. 일부 구현예에서, 샘플은 종양 샘플 또는 종양에서 유래된 샘플이다. 기재된 본 명세서에서 방법은 또한, 예를 들면, 하기 단계의 하나 이상을 포함할 수 있다: 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계; 라이브러리를 베이트세트와 접촉시켜 혼성화에 의해 선택된 종양 구성원을 제공하고, 그렇게 함으로써 라이브러리 캐치를 제공하는 단계; 라이브러리 캐치로부터 종양 구성원에서 변이를 포함하는 서브게놈 구간용 판독을 획득하는 단계; 정렬 방법에 의해 판독을 정렬하는 단계; 미리선택된 뉴클레오타이드 위치용 판독으로부터 뉴클레오타이드 값을 할당하는 단계; 및 서브게놈 구간의 세트를 배정된 뉴클레오타이드 위치의 세트로부터 선택하는 단계, 여기에서 서브게놈 구간의 세트는 유전자의 소정의 세트임.

일 측면에서, 본 발명은 샘플, 예를 들면, 종양 샘플 (예를 들면, 종양으로부터 획득된 샘플)에서 돌연변이 하중을 평가하는 방법을 특징으로 삼는다. 본 방법은 하기 단계를 포함한다:

a) 샘플로부터 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)의 세트의 서열, 예를 들면, 뉴클레오타이드 서열을 제공하는 단계 (여기에서 상기 서브게놈 구간의 세트는 유전자의 소정의 세트 유래임); 및

b) 돌연변이 하중의 값을 결정하는 단계, [여기에서 상기 값은 서브게놈 구간의 세트에서 변이 (예를 들면, 하나 이상의 변이), 예를 들면, 체세포 변이 (예컨데, 하나 이상의 체세포 변이)의 수의 함수임].

특정 구현예에서, 변이의 수는 서브게놈 구간에서의 기능적 변이를 배제한다. 다른 구현예에서, 변이의 수는 서브게놈 구간에서의 생식세포 변이를 배제한다. 특정 구현예에서, 변이의 수는 서브게놈 구간에서의 기능적 변이 및 서브게놈 구간에서의 생식세포 변이를 배제한다.

특정 구현예에서, 서브게놈 구간의 세트는 코딩 서브게놈 구간을 포함한다. 다른 구현예에서, 서브게놈 구간의 세트는 비-코딩 서브게놈 구간을 포함한다. 특정 구현예에서, 서브게놈 구간의 세트는 코딩 서브게놈 구간을 포함한다. 다른 구현예에서, 서브게놈 구간의 세트는 하나 이상의 코딩 서브게놈 구간 및 하나 이상의 비-코딩 서브게놈 구간을 포함한다. 특정 구현예에서, 서브게놈 구간의 세트에서 서브게놈 구간의 약 5% 이상, 약 10% 이상, 약 20% 이상, 약 30% 이상, 약 40% 이상, 약 50% 이상, 약 60% 이상, 약 70% 이상, 약 80% 이상, 약 90% 이상, 또는 약 95% 이상은 코딩 서브게놈 구간이다. 다른 구현예에서, 서브게놈 구간의 세트에서 서브게놈 구간의 약 90% 이하, 약 80% 이하, 약 70% 이하, 약 60% 이하, 약 50% 이하, 약 40% 이하, 약 30% 이하, 약 20% 이하, 약 10% 이하, 또는 약 5% 이하는 비-코딩 서브게놈 구간이다.

다른 구현예에서, 서브게놈 구간의 세트는 전체 게놈 또는 전체 엑솜을 포함하지 않는다. 다른 구현예에서, 코딩 서브게놈 구간의 세트는 전체 엑솜을 포함하지 않는다.

특정 구현예에서, 유전자의 소정의 세트는 전체 게놈 또는 전체 엑솜을 포함하지 않는다. 다른 구현예에서, 유전자의 소정의 세트는 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 제시된 하나 이상의 유전자를 포함하거나 상기로 이루어진다.

특정 구현예에서, 값은 유전자의 소정의 세트의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 코딩 영역의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 비-코딩 영역의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 엑손의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 인트론의 함수로서 표현된다.

특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 코딩 영역의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 비-코딩 영역의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 엑손의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 인트론의 함수로서 표현된다.

특정 구현예에서, 값은 유전자의 소정의 세트의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 코딩 영역의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 비-코딩 영역의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 엑손의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 인트론의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다.

특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 코딩 영역의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 비-코딩 영역의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 엑손의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 인트론의 위치의 미리선택된 수에서 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다.

특정 구현예에서, 값은, 예를 들면, 메가베이스당 체세포 변이의 수의 함수로서, 미리선택된 유닛당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다.

특정 구현예에서, 값은 유전자의 소정의 세트에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 코딩 영역에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 비-코딩 영역에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 유전자의 소정의 세트의 엑손에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 유전자의 소정의 세트의 인트론에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다.

특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 코딩 영역에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 비-코딩 영역에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 특정 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 엑손에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다. 다른 구현예에서, 값은 서열분석된 유전자의 소정의 세트의 인트론에서 메가베이스당 변이 (예를 들면, 체세포 변이)의 수의 함수로서 표현된다.

특정 구현예에서, 돌연변이 하중은 게놈의 더 큰 부분에, 예를 들면, 엑솜 또는 전체 게놈에, 예를 들면, 총 돌연변이 하중을 수득하기 위해 추론된다. 다른 구현예에서, 돌연변이 하중은 엑솜의 더 큰 부분에, 예를 들면, 전체 엑솜에 있을 것으로 추론된다.

특정 구현예에서, 샘플은 피험체 유래이다. 특정 구현예에서, 피험체는 장애, 예를 들면, 암을 갖는다. 다른 구현예에서, 피험체는 치료 요법, 예를 들면, 면역요법을 받고 있거나, 또는 받아 왔다.

특정 구현예에서, 돌연변이 하중은, 예를 들면, 참조 집단으로부터 샘플내 돌연변이 하중 중에서 백분위수로서 표현된다. 특정 구현예에서, 참조 집단은 피험체로서 동일한 유형의 암을 가진 환자를 포함한다. 다른 구현예에서, 참조 집단은, 피험체로서, 동일한 유형의 요법을 받고 있거나, 받아 왔던 환자를 포함한다.

또 다른 측면에서, 본 발명은 샘플, 예를 들면, 종양 샘플 또는 종양에서 유래된 샘플에서 돌연변이 하중의 평가 방법을 특징으로 삼는다. 본 방법은 하기 단계를 포함한다:

(i) 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;

(ⅱ) 상기 라이브러리를 베이트세트와 접촉시켜 선택된 종양 구성원을 제공하고, 이로 인하여 라이브러리 캐치를 제공하는 단계 (여기에서 상기 베이트세트는 종양 구성원과 혼성화됨);

(ⅲ) 예를 들면, 차세대 서열분석 방법에 의해, 상기 라이브러리 캐치로부터 종양 구성원에서 변이 (예를 들면, 체세포 변이)를 포함하는 서브게놈 구간용 판독을 획득하는 단계;

(ⅳ) 상기 판독을 정렬 방법으로 정렬하는 단계;

(v) 미리선택된 뉴클레오타이드 위치에 대하여 상기 판독으로부터 뉴클레오타이드 값을 배정하는 단계;

(ⅵ) 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)의 세트를 상기 배정된 뉴클레오타이드 위치의 세트로부터 선택하는 단계 (여기에서 서브게놈 구간의 세트는 유전자의 소정의 세트 유래임); 및

(ⅶ) 돌연변이 하중의 값을 결정하는 단계 [여기에서 상기 값은, 서브게놈 구간의 세트에서, 변이 (예를 들면, 하나 이상의 변이), 예를 들면, 체세포 변이 (예컨대, 하나 이상의 체세포 변이)의 수의 함수임].

특정 구현예에서, 변이 (예를 들면, 체세포 변이)의 수는 기능적 변이를 서브게놈 구간에서 배제한다. 다른 구현예에서, 변이의 수는 서브게놈 구간에서의 생식세포 변이를 배제한다. 특정 구현예에서, 변이 (예를 들면, 체세포 변이)의 수는 서브게놈 구간에서의 기능적 변이 및 서브게놈 구간에서의 생식세포 변이를 배제한다.

변이의 유형

다양한 유형의 변이 (예를 들면, 체세포 변이)는, 본 명세서에서 기재된 바와 같은 방법 또는 시스템에서, 돌연변이 하중의 분석을 위하여 평가 및 사용될 수 있다.

체세포 변이

특정 구현예에서, 본 명세서에서 기재된 방법에 따라 평가된 변이는 변이 (예를 들면, 체세포 변이)이다.

특정 구현예에서, 변이 (예를 들면, 체세포 변이)는 코딩하는 짧은 변이체, 예를 들면, 염기 치환 또는 인델 (삽입 또는 결실)이다. 특정 구현예에서, 변이 (예를 들면, 체세포 변이)는 점 돌연변이이다. 다른 구현예에서, 변이 (예를 들면, 체세포 변이)는 재배열 외, 예를 들면, 전좌 외이다. 특정 구현예에서, 변이 (예를 들면, 체세포 변이)는 스플라이스 변이체이다.

특정 구현예에서, 변이 (예를 들면, 체세포 변이)는 침묵 돌연변이, 예를 들면, 동의 변이이다. 다른 구현예에서, 변이 (예를 들면, 체세포 변이)는 비-동의 단일 뉴클레오타이드 변이체 (SNV)이다. 다른 구현예에서, 변이 (예를 들면, 체세포 변이)는 패신져 돌연변이, 예를 들면,세포의 클론의 적합화에서 검출가능한 효과를 갖지 않는 변이이다. 특정 구현예에서, 변이 (예를 들면, 체세포 변이)는, 미공지된 유의성 (VUS)의 변이체, 예를 들면, 이의 병원성이 확인될 수도 없고 배제될 수도 없는, 변이이다. 특정 구현예에서, 변이 (예를 들면, 체세포 변이)는 암 표현형과 관련되는 것으로서 확인되지 않았다.

특정 구현예에서, 변이 (예를 들면, 체세포 변이)는,세포 분할, 성장 또는 생존에서 효과와 관련되지 않거나, 관련된다고 공지되지 않는다. 다른 구현예에서, 변이 (예를 들면, 체세포 변이)는세포 분할, 성장 또는 생존에서 효과와 관련된다.

특정 구현예에서, 체세포 변이의 증가된 수준은 체세포 변이 (예를 들면, 재배열, 점 돌연변이, 인델, 또는 이의 임의의 조합)의 하나 이상의 부류 또는 유형의 증가된 수준이다. 특정 구현예에서, 체세포 변이의 증가된 수준은 체세포 변이 (예를 들면, 재배열 단독, 점 돌연변이 단독, 또는 인델 단독)의 하나의 부류 또는 유형의 증가된 수준이다. 특정 구현예에서, 체세포 변이의 증가된 수준은 미리선택된 위치에서 체세포 변이 (예를 들면, 본 명세서에서 기재된 변이)의 증가된 수준이다. 특정 구현예에서, 체세포 변이의 증가된 수준은 미리선택된 체세포 변이 (예를 들면, 본 명세서에서 기재된 변이)의 증가된 수준이다.

기능적 변이

특정 구현예에서, 변이 (예를 들면, 체세포 변이)의 수는 기능적 변이를 서브게놈 구간에서 배제한다.

일부 구현예에서, 기능적 변이는, 참조 서열과 비교하여, 예를 들면, 야생형 또는 미돌연변이된 서열이세포 분할, 성장 또는 생존에서 효과를 갖는, 예를 들면,세포 분할, 성장 또는 생존을 촉진시키는 변이이다. 특정 구현예에서, 기능적 변이는 기능적 변이의 데이터베이스, 예를 들면, 하기에서 포함에 의해 그 자체로 확인된다: COSMIC 데이터베이스 (cancer. sanger. ac. uk/cosmic; Forbes 등. Nucl. Acids Res. 2015; 43 (D1): D805-D811). 다른 구현예에서, 기능적 변이는, 예를 들면, COSMIC 데이터베이스에서 공지된 체세포 변이로서 발생하는, 공지된 기능적 상태를 가진 변이이다. 특정 구현예에서, 기능적 변이는 유망한 기능적 상태를 가진 변이, 예를 들면, 종양 억제제 유전자에서 절단이다. 특정 구현예에서, 기능적 변이는 드라이버 돌연변이, 예를 들면, 그것의 미세환경에서, 예를 들면,세포 생존 또는 생식 증가에 의해 클론에 선택적 장점을 제공하는 변이이다. 다른 구현예에서, 기능적 변이는 클론 확대을 야기시킬 수 있는 변이이다. 특정 구현예에서, 기능적 변이는 하기 중 1, 2, 3, 4, 5개 또는 모두를 야기시킬 수 있는 변이이다: (a) 성장 신호에서 자급자족; (b) 항성장 신호에 대한 감소, 예를 들면, 무감각; (c) 감소된세포자멸사; (d) 증가된 복제 가능성; (e) 지속된 혈관신생; 또는 (f) 조직 침습 또는 전이.

특정 구현예에서, 기능적 변이는 패신져 돌연변이가 아니다, 예를 들면,세포의 클론의 적합화에서 검출가능한 효과를 갖는 변이가 아니다. 특정 구현예에서, 기능적 변이는 미공지된 유의성을 갖는 변이체 (VUS)가 아니다, 예를 들면, 이의 병원성이 확인될 수도 없고 배제될 수도 없는, 변이가 아니다.

특정 구현예에서, 유전자의 소정의 세트에서 미리선택된 종양 유전자내 복수 (예를 들면, 약 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 또는 이를 초과하는)의 기능적 변이는 배제된다. 특정 구현예에서, 유전자의 소정의 세트에서 미리선택된 유전자 (예를 들면, 종양 유전자)내 모든 기능적 변이는 배제된다. 특정 구현예에서, 유전자의 소정의 세트에서 복수의 미리선택된 유전자 (예를 들면, 종양 유전자)내 복수의 기능적 변이는 배제된다. 특정 구현예에서, 유전자의 소정의 세트에서 모든 유전자 (예를 들면, 종양 유전자)내 모든 기능적 변이는 배제된다.

생식세포 돌연변이

특정 구현예에서, 변이의 수는 서브게놈 구간에서 생식세포 돌연변이를 배제한다. 특정 구현예에서, 체세포 변이는, 생식세포 돌연변이와 동일 또는 유사하지 않다, 예를 들면, 상기와 구별가능하다.

특정 구현예에서, 생식세포 변이는 단일 뉴클레오타이드 다형성 (SNP), 염기 치환, 인델 (예를 들면, 삽입 또는 결실), 또는 침묵 돌연변이 (예를 들면, 동의 돌연변이)이다.

특정 구현예에서, 생식세포 변이는 매칭된 정상 서열과 비교를 사용하지 않는 방법의 사용에 의해 배제된다. 다른 구현예에서, 생식세포 변이는 SGZ 알고리즘의 사용을 포함하는 방법에 의해 배제된다. 특정 구현예에서, 생식세포 변이는 생식세포 변이의 데이터베이스, 예를 들면, 하기에서 포함에 의해 그 자체로 확인된다: dbSNP 데이터베이스 (www.ncbi.nlm.nih.gov/SNP/index.html; Sherry 등. Nucleic Acids Res. 2001; 29(1):308-311). 다른 구현예에서, 생식세포 변이는 하기의 2 이상의 계수에서 포함에 의해 그 자체로 확인된다: ExAC 데이터베이스 (exac.broadinstitute.org; Exome Aggregation Consortium 등. "Analysis of protein-coding genetic variation in 60,706 humans," bioRxiv preprint. 10월 30일, 2015). 일부 구현예에서, 생식세포 변이는 하기에서 포함에 의해 그 자체로 확인된다: 1000 Genome Project 데이터베이스 (www.1000genomes.org; McVean 등. Nature. 2012; 491, 56-65). 일부 구현예에서, 생식세포 변이는 하기에서 포함에 의해 그 자체로 확인된다: ESP 데이터베이스 (Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP), Seattle, WA (evs.gs.washington.edu/EVS/).

다유전자 분석

본 명세서에서 기재된 방법 및 시스템은, 예를 들면, 서브게놈 구간의 세트를, 예를 들면, 유전자의 소정의 세트로부터 평가한다.

특정 구현예에서, 유전자의 소정의 세트는, 돌연변이체 형태에서,세포 분할, 성장 또는 생존에서 효과와 관련되는, 또는 암, 예를 들면, 본 명세서에서 기재된 암과 관련되는 복수의 유전자를 포함한다.

특정 구현예에서, 유전자의 소정의 세트는, 예를 들면, 본 명세서에서 기재된 바와 같이, 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 약 350개 이상, 약 400개 이상, 약 450개 이상, 약 500개 이상, 약 550개 이상, 약 600개 이상, 약 650개 이상, 약 700개 이상, 약 750개 이상, 또는 약 800개 이상 유전자를 포함한다. 일부 구현예에서, 유전자의 소정의 세트는 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 또는 모든 유전자 또는 유전자 생성물을 포함한다.

특정 구현예에서, 본 방법은 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계를 추가로 포함한다. 특정 구현예에서, 본 방법은 라이브러리를 베이트세트와 접촉시켜 선택된 종양 구성원을 제공하는 단계를 추가로 포함하고, 여기에서 상기 베이트세트는 라이브러리로부터 종양 구성원과 혼성화되여, 그렇게 함으로써 라이브러리 캐치를 제공한다. 특정 구현예에서, 본 방법은 라이브러리 또는 라이브러리 캐치로부터 종양 구성원에서 변이 (예를 들면, 체세포 변이)를 포함하는 서브게놈 구간용 판독을 획득하여, 그렇게 함으로써, 예를 들면, 차세대 서열분석 방법에 의해 서브게놈 구간용 판독을 획득하는 단계를 추가로 포함한다. 특정 구현예에서, 본 방법은 정렬 방법, 예를 들면, 본 명세서에서 기재된 정렬 방법에 의해 서브게놈 구간용 판독을 정렬하는 단계를 추가로 포함한다. 특정 구현예에서, 본 방법은, 예를 들면, 본 명세서에서 기재된 돌연변이 판정 방법에 의해 서브게놈 구간용 판독으로부터 미리선택된 뉴클레오타이드 위치용 뉴클레오타이드 값을 배정하는 단계를 추가로 포함한다.

특정 구현예에서, 본 방법은 하기 중 1, 2, 3, 4개 또는 모든 단계를 추가로 포함한다:

(a) 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;

(b) 라이브러리를 베이트세트와 접촉시켜 선택된 종양 구성원을 제공하고, 이로 인하여 라이브러리 캐치를 제공하는 단계, (여기에서 상기 베이트세트는 종양 구성원과 혼성화됨);

(c) 상기 라이브러리 캐치로부터 종양 구성원에서 변이 (예를 들면, 체세포 변이)를 포함하는 서브게놈 구간용 판독을 획득함으로써, 예를 들면, 차세대 서열분석 방법에 의해, 서브게놈 구간용 판독을 획득하는 단계;

(d) 정렬 방법, 예를 들면, 본 명세서에서 기재된 정렬 방법에 의해 상기 판독을 정렬하는 단계; 또는

(e) 예를 들면, 본 명세서에서 기재된 돌연변이 판정 방법에 의해, 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 뉴클레오타이드 값을 배정하는 단계.

특정 구현예에서, 서브게놈 구간용 판독의 획득은 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 약 350개 이상, 약 400개 이상, 약 450개 이상, 약 500개 이상, 약 550개 이상, 약 600개 이상, 약 650개 이상, 약 700개 이상, 약 750개 이상, 또는 약 800개 이상 유전자로부터 서브게놈 구간 서열분석을 포함한다. 특정 구현예에서, 서브게놈 구간용 판독의 획득은 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 또는 모든 유전자 또는 유전자 생성물로부터 서브게놈 구간 서열분석을 포함한다.

특정 구현예에서, 서브게놈 구간용 판독의 획득은 약 250× 초과 평균 고유 적용범위를 가진 서열분석을 포함한다. 다른 구현예에서, 서브게놈 구간용 판독의 획득은 약 500× 초과 평균 고유 적용범위를 가진 서열분석을 포함한다. 다른 구현예에서, 서브게놈 구간용 판독의 획득은 약 1,000× 초과 평균 고유 적용범위를 가진 서열분석을 포함한다.

특정 구현예에서, 서브게놈 구간용 판독의 획득은, 서열분석된 약 99% 초과의 유전자 (예를 들면, 엑손)에서, 약 250× 초과 평균 고유 적용범위를 가진 서열분석을 포함한다. 다른 구현예에서, 서브게놈 구간용 판독의 획득은, 서열분석된 약 95% 초과의 유전자 (예를 들면, 엑손)에서, 약 500× 초과 평균 고유 적용범위를 가진 서열분석을 포함한다. 특정 구현예에서, 서브게놈 구간용 판독의 획득은, 서열분석된 약 99% 초과의 유전자 (예를 들면, 엑손)에서, 약 250× 초과 평균, 약 500× 초과 평균, 또는 약 1,000× 초과 평균, 고유 적용범위를 가진 서열분석을 포함한다.

특정 구현예에서, 본 명세서에서 기재된, 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)의 세트의 서열, 예를 들면, 뉴클레오타이드 서열은 본 명세서에서 기재된 방법에 의해 제공된다. 특정 구현예에서, 서열은 매칭된 정상 대조군 (예를 들면, 야생형 대조군), 매칭된 종양 대조군 (예를 들면, 원발성 대 전이성), 또는 양쪽을 포함하는 방법의 사용 없이 제공된다.

SGZ 분석

특정 구현예에서, 생식세포 변이는 SGZ 알고리즘의 사용을 포함하는 방법 또는 시스템에 의해 배제된다.

특정 구현예에서, 본 방법은 하기에 의해 종양 샘플에서 변이체, 예를 들면, 변이를 특성규명하는 단계를 추가로 포함한다:

a) 하기의 것들을 획득하는 단계: i) 각각의 복수의 선택된 서브게놈 구간에 대하여, 선택된 서브게놈 구간에서 정규화된 서열 적용범위의 값을 포함하는, 서열 적용범위 입력 (SCI) (여기에서 SCI는 서브게놈 구간용 판독의 수 그리고 과정-매칭된 대조군용 판독의 수의 함수임); ⅱ) 각각의 복수의 선택된 생식세포 SNPs에 대하여, 종양 샘플에서 대립유전자 빈도의 값을 포함하는, SNP 대립유전자 빈도 입력 (SAFI) (여기에서 SAFI는, 적어도 부분적으로, 종양 샘플에서 소수의 또는 대안적인 대립유전자 빈도에 기반됨); 및 (ⅲ) 종양 샘플에서 상기 변이체에 대하여 대립유전자 빈도를 포함하는, 변이체 대립유전자 빈도 입력 (VAFI);

b) SCI 및 SAFI의 함수로서, 하기에 대한 값을 획득하는 단계: i) 각각의 복수의 게놈세그먼트용 게놈세그먼트 총 카피 수 (C);ⅱ) 각각의 복수의 게놈세그먼트용 게놈세그먼트 소수의 대립유전자 카피 수 (M); 및 ⅲ) 샘플 순도 (p),

(여기에서 C, M, 및 p의 값은 SCI 및 SAFI에 게놈-전체 카피 수 모델의 적합화에 의해 수득됨); 및

c) 하기의 것들을 획득하는 단계: 돌연변이 유형 g에 대한 값 (체세포, 서브클론성 체세포 변이체, 생식세포이거나 또는 구별할 수 없는 변이체를 나타내며, VAFI, p, C, 및 M의 함수임).

특정 구현예에서, 본 방법은 복수의 선택된 서브게놈 구간의 각각, 복수의 선택된 생식세포 SNPs의 각각, 및 변이체 (예를 들면, 변이) 서열분석을 추가로 포함하고, 여기에서 정규화에 앞서 평균 서열 적용범위는 적어도 약 250×, 예를 들면, 적어도 약 500×이다.

특정 구현예에서, SCI에 게놈-전체 카피 수 모델의 적합화는 하기의 방정식 사용을 포함한다:

(여기에서 ψ는 종양 배수성임).

특정 구현예에서, SAFI에 게놈-전체 카피 수 모델의 적합화는 하기의 방정식 사용을 포함한다:

(여기에서 AF는 대립유전자 빈도임).

특정 구현예에서, g는 체세포/생식세포 상태용 모델에 VAFI, p, C, 및 M의 값의 적합 결정에 의해 결정된다. 특정 구현예에서, g의 값은 하기에 의해 획득된다:

(여기에서 AF는 대립유전자 빈도임).

특정 구현예에서, 0, 또는 0에 가까운 g의 값은 변이체가 체세포 변이체인 것을 나타내거나; 1, 또는 1에 가까운 g의 값은 변이체가 생식세포 변이체인 것을 나타내거나; 1 미만 0 초과인 g의 값은 구별할 수 없는 결과를 나타내거나; 유의미하게 0 미만인 g의 값은 변이체가 서브클론성 체세포 변이체인 것을 나타낸다.

SGZ 알고리즘은 하기에서 기재된다: 국제 출원 공개 번호 WO2014/183078 및 미국출원 공개 번호 2014/0336996 (이들의 내용은 참고로 그 전문이 편입됨). SGZ 알고리즘은 또한 하기에 기재된다: Sun 등. Cancer Research 2014; 74(19S): 1893-1893.

샘플, 예를 들면, 종양 샘플

본 명세서에서 기재된 방법 및 시스템은 수많은 상이한 공급원으로부터 다양한 유형의 샘플에서 돌연변이 하중을 평가하는데 사용될 수 있다.

일부 구현예에서, 샘플은 종양 샘플 또는 종양에서 유래된 샘플이다. 특정 구현예에서, 샘플은 고체 종양, 혈액암, 또는 이의 전이성 형태로부터 획득된다. 특정 구현예에서, 샘플은, 본 명세서에서 기재된 바와 같이, 요법을 받고 있거나 요법을 받아 왔던 피험체 또는, 암을 가진 피험체로부터 수득된다.

일부 구현예에서, 샘플 (예를 들면, 종양 샘플)은 하기 중 하나 이상을 포함한다: 전악성 또는 악성세포; 고체 종양, 연조직 종양 또는 전이성 병변으로부터세포; 수술 절제면으로부터 조직 또는세포; 조직학적으로 정상 조직; 하나 이상의 순환 종양세포 (CTC); 정상 인접한 조직 (NAT); 종양을 갖거나 가질 위험에 처한 동일한 피험체로부터 혈액 샘플; 또는 FFPE 샘플. 특정 구현예에서, 샘플은 순환 종양 DNA (ctDNA)를 포함한다.

특정 구현예에서, 샘플은 FFPE 샘플이다. 특정 구현예에서, FFPE

샘플은 하기 특성들 중 1, 2개 또는 모두를 갖는다: (a) 약 10mm² 이상, 약 25mm² 이상, 또는 약 50mm² 이상의 표면적을 가짐; (b) 약 1mm³ 이상, 약 2mm³ 이상, 약 3mm³ 이상, 약 4mm³ 이상, 또는 약 5mm³ 이상의 샘플 용적을 가짐; 또는 (c) 약 50% 이상, 약 60% 이상, 약 70% 이상, 약 80% 이상, 또는 약 90% 이상, 또는 약 10,000개 이상의 세포, 약 20,000개 이상의 세포, 약 30,000개 이상의 세포, 약 40,000개 이상의 세포, 또는 약 50,000개 이상의 세포의 유핵세포충실도를 가짐.

시스템

또 다른 측면에서, 본 발명은 샘플 (예를 들면, 종양 샘플 또는 종양에서 유래된 샘플)에서 돌연변이 하중 평가용 시스템을 특징으로 삼는다. 시스템은 메모리에 작동가능하게 연결된 적어도 하나의 프로세서를 포함하고, 실행하는 경우 적어도 하나의 프로세서는 하기하도록 구성된다:

a) 샘플로부터 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)의 세트의 서열, 예를 들면, 뉴클레오타이드 서열을 획득하는 단계 (여기에서 코딩 서브게놈 구간의 세트는 유전자의 소정의 세트 유래임); 및

b) 돌연변이 하중의 값을 결정하는 단계 (여기에서 상기 값은 서브게놈 구간의 세트에서 변이 (예를 들면, 체세포 변이)의 수의 함수임).

특정 구현예에서, 변이의 상기 수는 하기를 배제한다: (i) 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)에서 기능적 변이, (ⅱ) 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)에서 생식세포 변이, 또는 (ⅲ) 양쪽.

적용

일부 구현예에서, 본 방법은 돌연변이 하중의 평가에 대한 치료 반응성, 예를 들면, 돌연변이 하중의 증가된 수준 선택을 추가로 포함한다. 일부 구현예에서, 본 방법은 돌연변이 하중의 평가에 대한 치료 반응성, 예를 들면, 돌연변이 하중의 증가된 수준 투여를 추가로 포함한다. 일부 구현예에서, 본 방법은 샘플이 돌연변이 하중의 평가에 대한 반응성으로 유래된 피험체 또는 샘플의 분류를 추가로 포함한다. 일부 구현예에서, 본 방법은 환자에 또는 또 다른 사람 또는 독립체, 간병인, 의사, 종양학자, 병원, 진료실, 제3자 지급인, 보험회사 또는 정부 기관에 보고, 예를 들면, 전자적, 웹기반, 또는 종이 보고의 작성 및 전달을 추가로 포함한다. 일부 구현예에서, 보고는 돌연변이 하중을 포함하는 방법으로부터 출력을 포함한다.

본 발명의 추가의 측면 또는 구현예는 하나 이상의 하기를 포함한다.

정렬

본 명세서에서 개시된 방법은 서열분석 방법에서, 특히 다수의 다양한 유전자에서 다수의 다양한 유전적 사건의 엄청나게 평행한 서열분석에 의존하는 방법, 예를 들면, 종양 샘플을, 예를 들면, 본 명세서에서 기재된 암으로부터 분석하는 방법에서 성능을 최적화하기 위해 다중, 개별적으로 튜닝된, 정렬 방법 또는 알고리즘의 용도를 통합할 수 있다. 구현예에서, 상이한 유전자에서 각각의 수많은 변이체에 개별적으로 맞춤화되는 또는 튜닝되는 다중 정렬 방법은 판독을 분석하는데 사용된다. 구현예에서, 튜닝은 서열분석될 유전자 (또는 다른 서브게놈 구간), 샘플에서 종양 유형, 서열분석될 변이체, 또는 샘플 또는 피험체의 특징의 (하나 이상의) 기능일 수 있다. 서열분석되는 수많은 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)으로 개별적으로 튜닝되는 정렬 조건의 선택 또는 용도는 속도, 감수성 및 특이성의 최적화를 허용한다. 본 방법은 비교적 큰 수의 다양한 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)용 판독의 정렬이 최적화되는 경우 특히 효과적이다.

따라서, 일 측면에서, 본 발명은 혈액성 악성종양 (또는 전악성 종양), 예를 들면, 본 명세서에서 기재된 혈액성 악성종양 (또는 전악성 종양) 유래의 샘플, 예를 들면, 종양 샘플의 분석 방법을 특징으로 삼는다. 본 방법은 하기 단계를 포함하고:

(a) 샘플로부터 복수 구성원, 예를 들면, 종양 샘플로부터 복수의 종양 구성원을 포함하는 하나 또는 복수의 라이브러리를 획득하는 단계;

(b) 선택적으로, 예를 들면, (때때로 본 명세서에서 라이브러리 캐치로서 지칭된) 선택된 구성원을 제공하기 위해 하나 또는 복수의 라이브러리를 베이트세트 (또는 복수의 베이트세트)와 접촉시킴으로써, 미리선택된 서열용 하나 또는 복수의 라이브러리를 농축시키는 단계;

(c) 예를 들면, 차세대 서열분석 방법으로, 예를 들면, 서열분석을 포함하는 방법에 의해, 구성원, 예를 들면, 라이브러리 또는 라이브러리 캐치로부터 종양 구성원에서 피험체 구간, 예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간용 판독을 획득하는 단계;

(d) 상기 판독을 정렬 방법, 예를 들면, 본 명세서에서 기재된 정렬 방법에 의해 정렬하는 단계; 및

(e) 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 (예를 들면, 돌연변이를, 예를 들면, 베이지안 방법으로 판정하는) 뉴클레오타이드 값을 배정하고, 이로 인하여 상기 종양 샘플을 분석하는 단계,

선택적으로 여기에서:

각각의 X개 고유 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)으로부터 판독은 고유 정렬 방법으로 정렬되고, 여기에서 고유 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 다른 X-1 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)과 상이함을 의미하고, 여기에서 고유 정렬 방법은 다른 X-1개 정렬 방법과 상이함을 의미하고, 상기 X는 적어도 2이다.

한 구현예에서, 본 방법은 서브게놈 구간에 상응하는 구성원 및 발현된 서브게놈 구간에 상응하는 구성원이 각각 수득되는 라이브러리를 획득하는 단계를 포함한다.

한 구현예에서, 본 방법은 서브게놈 구간에 상응하는 구성원이 수득되는 제1 라이브러리 그리고 발현된 서브게놈 구간에 상응하는 구성원이 수득되는 제2 라이브러리를 획득하는 단계를 포함한다.

한 구현예에서, 베이트세트는 양쪽 서브게놈 구간 및 발현된 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용된다.

한 구현예에서, 제1 베이트세트는 서브게놈 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용되고 제2 베이트세트는 발현된 서브게놈 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용된다.

한 구현예에서, 단계 (b)는 존재한다. 한 구현예에서 단계 (b)는 부재한다.

한 구현예에서, X는 적어도 3, 4, 5, 10, 15, 20, 30, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1,000이다.

한 구현예에서, 적어도 X개의 유전자, 예를 들면 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터의 적어도 X개 유전자에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은, 고유 정렬 방법으로 정렬되고, 상기 X는 2, 3, 4, 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 그 초과이다.

한 구현예에서, 방법 [예를 들면, 상기 인용된 방법의 요소 (d)]는 판독 분석용 정렬 방법의 선택 또는 사용, 예를 들면, 정렬을 포함하고,

여기에서 상기 정렬 방법은 하나 이상 또는 모든 하기의 기능이거나, 상기의 선택된 반응성이거나, 상기에 대하여 최적화된다:

(i) 종양 유형, 예를 들면, 상기 샘플내 종양 유형;

(ⅱ) 서열분석될 상기 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)이 위치하는, 유전자, 또는 유전자의 유형, 예를 들면, 미리선택된 또는 변이체 또는 변이체, 예를 들면, 돌연변이의 유형, 또는 미리선택된 빈도의 돌연변이를 특징으로 하는 유전자 또는 유전자의 유형;

(ⅲ) 분석될 부위 (예를 들면, 뉴클레오타이드 위치);

(ⅳ) 평가될 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간) 내의 변이체의 유형, 예를 들면, 치환체;

(v) 샘플, 예를 들면, FFPE 샘플, 혈액 샘플, 또는 골수 천자 샘플의 유형; 및

(ⅵ) 평가될 상기 서브게놈 구간에서 또는 근처에서 서열, 예를 들면, 상기 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)용 오정렬에 대하여 기대된 경향, 예를 들면, 상기 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)에서 또는 근처에서 반복된 서열의 존재.

본 명세서에서 다른 곳에 지칭된 바와 같이, 비교적 큰 수의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)용 판독의 정렬이 최적화되는 경우 방법은 특히 효과적이다. 따라서, 한 구현예에서, 적어도 X 고유 정렬 방법은 적어도 X 고유 서브게놈 구간용 판독을 분석하는데 사용되고, 고유는 다른 X-1과 상이함을 의미하고, X는 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1,000, 또는 이를 초과하는이다.

한 구현예에서, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 적어도 X개 유전자에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)이 분석되고, 상기 X는 2, 3, 4, 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 이를 초과하는이다.

한 구현예에서, 고유 정렬 방법은 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 또는 500개의 상이한 유전자의 각각에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 적용된다.

한 구현예에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180, 200, 300, 400, 또는 500개 유전자, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터의 유전자에서 뉴클레오타이드 위치는 뉴클레오타이드 값으로 배정된다. 한 구현예에서 고유 정렬 방법은 분석된 상기 유전자의 적어도 10, 20, 30, 40, 또는 50%의 각각에서 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)에 적용된다.

본 명세서에서 개시된 방법은 고질적인 판독, 예를 들면, 재배열을 갖는 판독의 급속 및 효율적인 정렬을 허용한다. 따라서, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)용 판독이 재배열, 예를 들면, 전좌를 가진 뉴클레오타이드 위치를 포함하는 한 구현예에서, 본 방법은 적절하게 조절되고, 하기의 단계를 포함하는 정렬 방법의 사용을 포함할 수 있다:

판독으로 정렬용 재배열 참조 서열을 선택하는 단계 [여기에서 상기 재배열 참조 서열은 미리선택된 재배열과 정렬하기 위해 미리선택됨 (구현예에서 참조 서열은 게놈 재배열과 동일하지 않음];

상기 미리선택된 재배열 참조 서열과 판독의 비교, 예를 들면, 정렬하는 단계.

구현예에서, 다른 방법은 고질적인 판독을 정렬하는데 사용된다. 이들 방법은 비교적 큰 수의 다양한 서브게놈 구간용 판독의 정렬이 최적화되는 경우 특히 효과적이다. 예로써, 종양 샘플의 분석 방법은 하기를 포함할 수 있다:

파라미터 (예를 들면, 제1 맵핑 알고리즘 또는 제1 참조 서열로)의 제1세트 하에 비교, 예를 들면, 정렬 비교의 수행하는 단계, 및

상기 판독이 제1 예정된 정렬 기준을 충족시키는지의 결정하는 단계 (예를 들면, 상기 판독은 상기 제1 참조 서열로, 예를 들면, 미리선택된 수 미만의 미스매치로 정렬될 수 있다);

상기 판독이 제1 예정된 정렬 기준을 충족시키는데 실패하는 경우, 파라미터 (예를 들면, 제2 맵핑 알고리즘 또는 제2 참조 서열로)의 제2세트 하에 제2 정렬 비교를 수행하는 단계; 및

선택적으로, 상기 판독이 상기 제2 예정된 기준을 충족시키는지 결정하는 단계 (예를 들면, 상기 판독은 미리선택된 수 미만의 미스매치를 가진 상기 제2 참조 서열로 정렬될 수 있다),

여기에서 파라미터의 상기 제2세트는 파라미터의 세트, 예를 들면, 파라미터의 상기 제1세트와 비교하여, 미리선택된 변이체용 정렬, 예를 들면, 재배열, 예를 들면, 삽입, 결실, 또는 전좌를 더욱 초래할 것 같은, 상기 제2 참조 서열의 사용을 포함한다.

이들 및 다른 정렬 방법은 본 명세서에서 다른 곳에, 예를 들면, 상세한 설명에서 "정렬" 명칭의 섹션에서 더 상세히 논의된다. 그 모듈의 요소는 종양의 분석 방법에서 포함될 수 있다. 구현예에서, (요약 및/또는 상세한 설명에서) "정렬" 명칭의 섹션으로부터 정렬 방법은 (요약 및/또는 상세한 설명에서) "돌연변이 판정" 명칭의 섹션으로부터 돌연변이 판정 방법 및/또는(요약에서) "베이트(bait)" 명칭의 섹션 및/또는 상세한 설명에서) "베이트의 설계 및 작제" 및 "베이트 합성"으로부터 베이트세트와 조합된다. 본 방법은 (요약 및/또는 상세한 설명에서) "유전자 선택" 명칭의 섹션으로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트에 적용될 수 있다.

돌연변이 판정

본 명세서에서 개시된 방법은 서열분석 방법에서, 특히 다수의 다양한 유전자, 예를 들면, 종양 샘플로부터, 예를 들면, 본 명세서에서 기재된 암으로부터 다수의 다양한 유전적 사건의 엄청나게 평행한 서열분석에 의존하는 방법에서 성능을 최적화하기 위해 맞춤화된 또는 튜닝된 돌연변이 판정 파라미터의 용도를 통합할 수 있다. 본 방법의 구현예에서 각각의 수많은 미리선택된 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대하여 돌연변이 판정은, 개별적으로, 맞춤화되거나 미세튜닝된다. 맞춤화 또는 튜닝은 본 명세서에서 기재된 하나 이상의 인자, 예를 들면, 샘플에서 암의 유형, 서열분석되는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)이 위치하는 유전자, 또는 서열분석된 변이체에 기반될 수 있다. 서열분석되는 수많은 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 미세하게 튜닝된 정렬 조건의 이러한 선택 또는 사용은 속도, 감수성 및 특이성의 최적화를 허용한다. 본 방법은 비교적 큰 수의 다양한 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)용 판독의 정렬이 최적화되는 경우 특히 효과적이다.

따라서, 일 측면에서, 본 발명은 혈액성 악성종양 (또는 전악성 종양), 예를 들면, 본 명세서에서 기재된 혈액성 악성종양 (또는 전악성 종양)으로부터 샘플, 예를 들면, 종양 샘플의 분석 방법을 특징으로 삼는다. 본 방법은 하기 단계를 포함하고:

(a) 샘플로부터 복수 구성원, 예를 들면, 샘플, 예를 들면, 종양 샘플로부터 복수의 종양 구성원을 포함하는 하나의 또는 복수의 라이브러리를 획득하는 단계;

(b) 선택적으로, 예를 들면, 선택된 구성원, 예를 들면, 라이브러리 캐치를 제공하기 위해 한 베이트세트 (또는 복수의 베이트세트)와 라이브러리 접촉에 의해, 미리선택된 서열용 하나의 또는 복수의 라이브러리를 농축시키는 단계;

(c) 예를 들면, 서열분석을 포함하는 방법에 의해, 예를 들면, 차세대 서열분석 방법으로, 구성원, 예를 들면, 상기 라이브러리 또는 라이브러리 캐치로부터 종양 구성원에서 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)용 판독을 획득하는 단계;

(e) 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 (예를 들면, 돌연변이를, 예를 들면, 본 명세서에서 기재된 판정 방법 또는 베이지안 방법으로 판정하는) 뉴클레오타이드 값을 배정하고 이로 인하여 상기 종양 샘플을 분석하는 단계,

선택적으로 여기에서 뉴클레오타이드 값은 고유 판정 방법에 의해 배정되는 각각의 X 고유 피험체 구간 (서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에서 뉴클레오타이드 위치에 대하여 배정되고, 여기에서 고유 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 다른 X-1 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)과 상이함을 의미하고, 여기에서 고유 판정 방법은 다른 X-1 판정 방법과 상이함을 의미하고, X는 적어도 2이다. 상기 판정 방법은 상이할 수 있고, 그렇게 함으로써, 예를 들면, 상이한 베이지안 선행 값에 의존함으로써 고유일 수 있다.

한 구현예에서 베이트세트는 양쪽 서브게놈 구간 및 발현된 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용된다.

한 구현예에서 제1 베이트세트는 서브게놈 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용되고, 제2 베이트세트는 발현된 서브게놈 구간을 포함하는 라이브러리 캐치 또는 구성원을 제공하는데 사용된다.

한 구현예에서, 단계 (b)는 존재한다. 한 구현예에서, 단계 (b)는 부재한다.

한 구현예에서, 상기 뉴클레오타이드 값 배정은, 한 종양의 유형에서 상기 미리선택된 뉴클레오타이드 위치에, 미리선택된 변이체, 예를 들면, 돌연변이를 보여주는 판독 관찰의 선행 (예를 들면, 문헌) 기대인 또는 상기를 나타내는 값의 함수이다.

한 구현예에서, 본 방법은 적어도 10개, 20개, 40개, 50개, 60개, 70개, 80개, 90개, 100개, 200개, 300개, 400개, 500개, 600개, 700개, 800개, 900개 또는 1,000개의 미리선택된 뉴클레오타이드 위치용 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 배정하는 단계를 포함하고, 여기에서 각각의 배정은, 한 종양의 유형에서 상기 미리선택된 뉴클레오타이드 위치에, 미리선택된 변이체, 예를 들면, 돌연변이를 보여주는 판독 관찰의 선행 (예를 들면, 문헌) 기대인 또는 상기를 나타내는 (다른 배정의 값과 대조적으로) 고유 값의 함수이다.

한 구현예에서, 상기 뉴클레오타이드 값 배정은 변이체가 빈도 (예를 들면, 1%, 5%, 10% 등)에 샘플에서 존재하면 및/또는 변이체가 부재하면 (예를 들면, 염기-판정 오류 단독으로 인해 판독에서 관측되면) 상기 미리선택된 뉴클레오타이드 위치에서 상기 미리선택된 변이체를 보여주는 판독 관찰의 개연성을 나타내는 값의 세트의 함수이다.

한 구현예에서, 방법 (예를 들면, 상기 인용된 방법의 단계 (e))는 돌연변이 판정 방법을 포함한다. 본 명세서에서 기재된 돌연변이 판정 방법은 하기 단계를 포함할 수 있다:

각각의 상기 X 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에서 미리선택된 뉴클레오타이드 위치에 대하여, 하기의 것들을 획득하는 단계:

(i) 유형 X의 종양에서 상기 미리선택된 뉴클레오타이드 위치에, 미리선택된 변이체, 예를 들면, 돌연변이를 보여주는 판독을 관찰하기 위한 선행 (예를 들면, 문헌) 기대값이거나 또는 이를 나타내는 제1 값; 및

(ⅱ) 변이체가 빈도 (예를 들면, 1%, 5%, 10%, 등)로 샘플에서 존재하고 및/또는 변이체가 부재하는 경우 (예를 들면, 염기-판정 오류 단독으로 인해 판독에서 관측되는 경우), 상기 미리선택된 뉴클레오타이드 위치에서 상기 미리선택된 변이체를 나타내는 판독을 관찰하게될 개연성(probability)을 나타내는 값의 제2세트;

상기 값에 반응하여, 예를 들면, 각각의 상기 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 본 명세서에서 기재된 베이지안 방법(Bayesian method), 즉 제1 값을 사용하는 제2세트에서 값 중에서 비교 (예를 들면, 돌연변이의 존재의 후행 개연성의 컴퓨팅)함으로서 칭량하여 배정하고, 이로 인해 상기 샘플의 분석하는 단계.

한 구현예에서, 본 방법은 하기의 단계들 중 하나 이상 또는 모두를 포함한다:

(i) 적어도 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000 개의 미리선택된 뉴클레오타이드 위치용 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 배정하는 단계 (여기에서 각각의 배정은 고유 (다른 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨);

(ⅱ) (i)의 방법의 배정 (여기에서 적어도 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 또는 500의 배정은 미리선택된 종양 유형에서 세포의, 예를 들면, 5, 10, 또는 20% 미만으로 존재하는 미리선택된 변이체의 개연성의 함수인 제1 값으로 작성됨);

(ⅲ) (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 적어도 X개의 미리선택된 뉴클레오타이드 위치에 배정하는 단계 [각각의 이들이 종양의 미리선택된 유형, 예를 들면, 상기 샘플의 종양 유형에서 존재할 고유 (다른 X-1개의 배정과는 대조적으로) 개연성을 갖는 미리선택된 변이체와 관련되고, 여기에서, 선택적으로, 각각의 상기의 X개의 배정은 고유 (다른 X-1 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨 (여기에서 X= 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 또는 500)];

(ⅳ) 제1 및 제2 뉴클레오타이드 위치에 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 배정하는 단계 [여기에서 종양의 미리선택된 유형 (예를 들면, 상기 샘플의 종양 유형)에서 존재할 상기 제1 뉴클레오타이드 위치에 제1 미리선택된 변이체의 가능성은 존재할 상기 제2 뉴클레오타이드 위치에 제2 미리선택된 변이체의 가능성의 적어도 2, 5, 10, 20, 30, 또는 40 배 초과이고, 여기에서, 선택적으로, 각각의 배정은 고유 (다른 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨];

(v) (예를 들면, 돌연변이를 판정하는) 복수의 미리선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 배정하는 단계 (여기에서 상기 복수는 하기의 개연성 백분율 범위의 하나 이상, 예를 들면, 적어도 3, 4, 5, 6, 7, 또는 모두에 해당하는 변이체용 배정을 포함함):

0.01 미만 또는 동등;

0.01 초과 및 0.02 미만 또는 동등;

0.02 초과 및 0.03 미만 또는 동등;

0.03 초과 및 0.04 미만 또는 동등;

0.04 초과 및 0.05 미만 또는 동등;

0.05 초과 및 0.1 미만 또는 동등;

0.1 초과 및 0.2 미만 또는 동등;

0.2 초과 및 0.5 미만 또는 동등;

0.5 초과 및 1.0 미만 또는 동등;

1.0 초과 및 2.0 미만 또는 동등;

2.0 초과 및 5.0 미만 또는 동등;

5.0 초과 및 10.0 미만 또는 동등;

10.0 초과 및 20.0 미만 또는 동등;

20.0 초과 및 50.0 미만 또는 동등; 및

50 초과 및 100.0 % 미만 또는 동등;

여기에서, 개연성 범위는 미리선택된 뉴클레오타이드 위치에서 미리선택된 변이체가 종양의 미리선택된 유형 (예를 들면, 상기 샘플의 종양 유형)에서 존재할 개연성의 범위 또는 미리선택된 뉴클레오타이드 위치에서 미리선택된 변이체가 미리선택된 유형 (예를 들면, 상기 샘플의 종양 유형)에 대하여 종양 샘플, 종양 샘플로부터 라이브러리, 또는 그 라이브러리로부터 라이브러리 캐치에서세포의 인용된 %로 존재할 개연성이고, 그리고

여기에서, 선택적으로, 각각의 배정은 고유 제1 및/또는 제2 값 (예를 들면, 인용된 개연성 범위에서 다른 배정과는 대조적으로 고유 또는 하나 이상의 또는 모든 다른 열거된 개연성 범위에 대하여 제1 및/또는 제2 값과는 대조적으로 고유)에 기반된다.

(ⅵ) 독립적으로, 상기 샘플에서 DNA의 50, 40, 25, 20, 15, 10, 5, 4, 3, 2, 1, 0.5, 0.4, 0.3, 0.2, 또는 0.1% 미만으로 존재하는 미리선택된 변이체를 갖는, 적어도 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000 개의 미리선택된 뉴클레오타이드 위치 각각용 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값의 배정, 여기에서, 선택적으로, 각각의 배정은 고유 (다른 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨;

(ⅶ) 제1 및 제2 뉴클레오타이드 위치에 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 배정하는 단계 [여기에서 상기 샘플의 DNA에서 제1 위치에 미리선택된 변이체의 가능성은 상기 샘플의 DNA에서 상기 제2 뉴클레오타이드 위치에 미리선택된 변이체의 가능성 적어도 2, 5, 10, 20, 30, 또는 40 배 초과이고, 여기에서, 선택적으로, 각각의 배정은 고유 (다른 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨];

(ⅷ) 하기의 것들 중 하나 이상 또는 모두에 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값을 배정하는 단계:

(1) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 1% 미만으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(2) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 1-2%로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(3) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 2% 초과 및 3% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치

(4) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 3% 초과 및 4% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(5) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 4% 초과 및 5% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(6) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 5% 초과 및 10% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(7) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 10% 초과 및 20% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(8) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 20% 초과 및 40% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

(9) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 40% 초과 및 50% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치; 또는

(10) 상기 샘플내 세포, 상기 샘플로부터 라이브러리에서 핵산, 또는 그 라이브러리로부터 라이브러리 캐치에서 핵산의 50% 초과 및 100% 미만 또는 동등으로 존재하는 미리선택된 변이체를 갖는 적어도 1, 2, 3, 4 또는 5개의 미리선택된 뉴클레오타이드 위치;

여기에서, 선택적으로, 각각의 배정은 고유 제1 및/또는 제2 값 (예를 들면, 인용된 범위 (예를 들면, 1% 미만의 (1)내 범위)에서 다른 배정과는 대조적으로 고유 또는 하나 이상의 또는 모든 다른 열거된 범위에서 결정용 제1 및/또는 제2 값과는 대조적으로 고유)에 기반되거나; 또는

(ix) 각각의 X 뉴클레오타이드 위치에서 (예를 들면, 돌연변이를 판정하는) 뉴클레오타이드 값의 배정하는 단계로서, 각각의 뉴클레오타이드 위치가, 독립적으로, 다른 X-1 뉴클레오타이드 위치에서 미리선택된 변이체용 가능성과 비교된 경우 고유인 (상기 샘플의 DNA에서 존재할 미리선택된 변이체의) 가능성을 갖는 단계 (여기에서 X는 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000 또는 이를 초과하는이고, 여기에서 각각의 배정은 고유 (다른 배정과는 대조적으로) 제1 및/또는 제2 값에 기반됨).

본 방법의 구현예에서, "역치 값"은 판독을 평가하는데, 그리고 상기 판독으로부터, 예를 들면, 유전자에서 특이적 위치에 돌연변이를 판정하는 뉴클레오타이드 위치의 값을 선택하는데 사용된다. 본 방법의 구현예에서, 각각의 수많은 미리선택된 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)용 역치 값은 맞춤화되거나 미세조정된다. 맞춤화 또는 튜닝은 본 명세서에서 기재된 하나 이상의 인자, 예를 들면, 샘플에서 암의 유형, 서열분석되는 피험체 구간 (서브게놈 구간 또는 발현된 서브게놈 구간)이 위치하는 유전자, 또는 서열분석되는 변이체에 기반될 수 있다. 이것은 서열분석되는 각각의 수많은 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 미세하게 튜닝되는 판정을 제공한다. 본 방법은 비교적 큰 수의 다양한 서브게놈 구간이 분석되는 경우 특히 효과적이다.

따라서, 또 다른 구현예에서 종양의 분석 방법은 하기 돌연변이 판정 방법을 포함한다:

각각의 상기 X개의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대하여, 역치 값의 획득, 여기에서 각각의 상기 획득된 X 역치 값은 다른 X-1 역치 값과 비교된 경우 고유이고, 그렇게 함으로써 X 고유 역치 값을 제공함;

각각의 상기 X개의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대하여, 미리선택된 뉴클레오타이드 위치에서 미리선택된 뉴클레오타이드 값을 갖는 판독의 수의 함수인 관측된 값의 그것의 고유 역치 값과의 비교, 그렇게 함으로써 각각의 상기 X개의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽), 그것의 고유 역치 값에 적용; 및

선택적으로, 상기 비교의 결과에 반응하여, 미리선택된 뉴클레오타이드 위치에 뉴클레오타이드 값의 배정,

여기에서 X는 2 또는 이를 초과하는이다.

한 구현예에서, 본 방법은, 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02, 또는 0.01 미만인 개연성의 함수인 제1 값을, 독립적으로, 각각 갖는 적어도 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000개의 미리선택된 뉴클레오타이드 위치에 뉴클레오타이드 값을 배정하는 것을 포함한다.

한 구현예에서, 본 방법은, 다른 X-1개의 제1 값과 비교된 경우 고유인 제1 값을 각각 독립적으로 갖는, 적어도 X 뉴클레오타이드 위치의 각각에 뉴클레오타이드 값의 배정을 포함하고, 여기에서 각각의 상기 X개의 제1 값은 0.5, 0.4, 0.25, 0.15, 0.10, 0.05, 0.04, 0.03, 0.02, 또는 0.01 미만인 개연성의 함수이고, 여기에서 X는 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000 이상이다.

한 구현예에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180, 200, 300, 400, 또는 500개 유전자, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터의 유전자에서의 뉴클레오타이드 위치가 뉴클레오타이드 값으로 배정된다. 한 구현예에서 고유 제1 및/또는 제2 값은 분석된 상기 유전자의 적어도 10, 20, 30, 40, 또는 50%의 각각에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 적용된다.

본 방법의 구현예는, 예를 들면, 하기 구현예로부터 보여지는 바와 같이, 비교적 큰 수의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)용 역치 값이 최적화되는 경우에 적용될 수 있다.

한 구현예에서, 고유 역치 값은, 적어도 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1,000개의 상이한 유전자 각각에서, 피험체 구간, 예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간에 적용된다.

한 구현예에서, 적어도 20, 40, 60, 80, 100, 120, 140, 160 또는 180, 200, 300, 400, 또는 500개의 유전자, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터의 유전자에서 뉴클레오타이드 위치는 뉴클레오타이드 값으로 배정된다. 한 구현예에서 고유 역치 값은 분석된 상기 유전자의 적어도 10, 20, 30, 40, 또는 50%의 각각에서 서브게놈 구간에 적용된다.

한 구현예에서, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 적어도 5, 10, 20, 30, 또는 40개의 유전자에서의 뉴클레오타이드 위치가 뉴클레오타이드 값으로 배정된다. 한 구현예에서 고유 역치 값은 분석된 상기 유전자의 적어도 10, 20, 30, 40, 또는 50%의 각각에서 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)에 적용된다.

이들 및 다른 돌연변이 판정 방법은 본 명세서에서 다른 곳에, 예를 들면, "돌연변이" 명칭의 섹션에서 더 상세히 논의된다. 그 모듈의 요소는 종양의 분석 방법에서 포함될 수 있다. 구현예에서, "돌연변이 판정" 명칭의 섹션으로부터 정렬 방법은 "정렬" 명칭의 섹션으로부터 정렬 방법 및/또는 "베이트" 명칭의 섹션으로부터 베이트세트와 조합된다. 본 방법은 "유전자 선택" 명칭의 섹션으로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트에 적용될 수 있다.

베이트

본 명세서에서 기재된 방법은, 서열분석되는 표적 핵산의 선택을 위하여, 베이트, 예를 들면, 용액 혼성화에서 사용하기 위한 베이트의 적절한 선택에 의해 하나 이상의 피험체로부터, 샘플, 예를 들면, 종양 샘플, 예를 들면, 본 명세서에서 기재된 암에서 다수의 유전자 및 유전자 생성물의 최적화된 서열분석을 제공한다. 다양한 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽), 또는 이의 부류에 대하여 선택의 효율은 선택의 미리선택된 효율을 갖는 베이트세트에 따라 매칭된다. 이 섹션에서 사용된 바와 같이, "선택의 효율"은 표적 피험체 구간(들) (예를 들면, 서브게놈 구간(들), 발현된 서브게놈 구간(들), 또는 양쪽)에 따라서 조정됨에 따라 서열 적용범위의 수준 또는 깊이를 지칭한다.

따라서 방법 (예를 들면, 상기 인용된 방법의 단계 (b))는 선택된 구성원 (예를 들면, 라이브러리 캐치)를 제공하기 위해 복수의 베이트와 라이브러리를 접촉시키는 단계를 포함한다.

따라서, 일 측면에서, 본 발명은 암, 예를 들면, 본 명세서에서 기재된 암으로부터 샘플, 예를 들면, 종양 샘플의 분석 방법을 특징으로 삼는다. 본 방법은 하기 단계를 포함하고:

(a) 샘플로부터 복수의 구성원 (예를 들면, 표적 구성원), 예를 들면, 종양 샘플로부터 복수의 종양 구성원을 포함하는 하나의 또는 복수의 라이브러리를 획득하는 단계;

(b) 한 베이트세트 (또는 복수의 베이트세트)와 하나의 또는 복수의 라이브러리를 접촉시켜 선택된 구성원 (예를 들면, 라이브러리 캐치)를 제공하는 단계;

(c) 예를 들면, 차세대 서열분석 방법과, 예를 들면, 서열분석을 포함하는 방법에 의해, 구성원, 예를 들면, 상기 라이브러리 또는 라이브러리 캐치로부터 종양 구성원에서 피험체 구간, 예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽용 판독을 획득하는 단계;

(e) 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 (예를 들면, 돌연변이를, 예를 들면, 베이지안 방법 또는 본 명세서에서 기재된 방법으로 판정하는) 뉴클레오타이드 값을 배정하고, 이에 의해 상기 종양 샘플을 분석하는 단계,

선택적으로 여기에서 상기 방법은 복수 개, 예를 들면, 적어도 2, 3, 4, 또는 5개의 베이트 또는 베이트세트와 라이브러리의 접촉을 포함하고, 여기에서 상기 복수의 각각의 베이트 또는 베이트세트는 고유 (복수에서 다른 베이트세트와는 대조적으로), 미리선택된 선택 효율을 갖는다. 예를 들면, 각각 고유 베이트 또는 베이트세트는 서열분석의 고유 깊이를 제공한다. 용어 "베이트세트"는, 본 명세서에서 사용된 바와 같이, 하나의 베이트 또는 복수의 베이트 분자를 집합적으로 지칭한다.

한 구현예에서, 본 방법은 서브게놈 구간에 상응하는 구성원 및 발현된 게놈 구간에 상응하는 구성원이 각각 수득되는 라이브러리를 획득하는 단계를 포함한다.

한 구현예에서, 복수에서 제1 베이트세트의 선택의 효율은 복수에서 제2 베이트세트의 효율과 적어도 2 배만큼 상이하다. 한 구현예에서, 제1 및 제2 베이트세트는 적어도 2 배만큼 상이한 서열분석의 깊이를 제공한다.

한 구현예에서, 본 방법은 라이브러리와 하나 또는 복수 개의 하기 베이트세트를 접촉시키는 단계를 포함한다:

a) 예를 들면, 샘플로부터세포의 5% 이하로 존재하는 돌연변이를 서열분석하기 위해, 약 500× 이상 서열분석 깊이를 제공하도록 서브게놈 구간을 포함하는 충분한 구성원을 선택하는 베이트세트;

b) 예를 들면, 샘플로부터세포의 10% 이하로 존재하는 돌연변이를 서열분석하기 위해, 약 200× 이상, 예를 들면, 약 200× 내지 약 500×의 서열분석 깊이를 제공하도록 서브게놈 구간을 포함하는 충분한 구성원을 선택하는 베이트세트;

c) 예를 들면, 하기로부터 선택되는 하나 이상의 서브게놈 구간 (예를 들면, 엑손)을 서열분석하기 위해, 약 10-100× 서열분석 깊이를 제공하도록 서브게놈 구간을 포함하는 충분한 구성원을 선택하는 베이트세트: i) 상이한 약물을 대사작용하기 위해 환자의 능력을 설명할 수 있는 약물유전체학 (PGx) 단일 뉴클레오타이드 다형성 (SNP), 또는 ⅱ) 환자를 독특하게 확인하는데 사용될 수 있는 게놈 SNPs(예를 들면, 지문);

d) 예를 들면, 구조적 중단점, 예컨대 게놈 전좌 또는 인델을 검출하기 위해, 약 5-50 X 서열분석 깊이를 제공하도록 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 충분한 구성원을 선택하는 베이트세트. 예를 들어, 인트론 중단점의 검출은 높은 검출 신뢰성을 확보하기 위해 5-50× 서열-쌍 스패닝 깊이가 필요하다. 그와 같은 베이트세트는, 예를 들어, 전좌/인델-경향의 암 유전자를 검출하는데 사용될 수 있음; 또는

e) 예를 들면, 카피 수 변화를 검출하기 위해, 약 0.1-300× 서열분석 깊이를 제공하도록 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 충분한 구성원을 선택하는 베이트세트. 일 구현예에서, 서열분석 깊이는 카피 수 변화를 검출하기 위해 약 0.1-10× 서열분석 깊이 범위이다. 다른 구현예에서, 서열분석 깊이는 게놈 DNA의 카피 수 이득/손실 또는 이형접합성 손실 (LOH)을 평가하는데 사용되는 게놈 SNPs/유전자좌를 검출하기 위해 약 100-300× 범위이다. 그와 같은 베이트세트는, 예를 들어, 증폭/결실-경향의 암 유전자를 검출하는데 사용될 수 있다.

본 명세서에서 사용된 바와 같이 서열분석 깊이의 수준 (예를 들면, 서열분석 깊이의 X-배 수준)은, 중복 판독, 예를 들면, PCR 중복 판독의 검출 및 제거 후, 판독 (예를 들면, 고유 판독)의 적용범위의 수준을 지칭한다.

일 구현예에서, 베이트세트는 하나 이상의 재배열을 함유하는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간), 예를 들면, 게놈 재배열을 함유하는 인트론을 선택한다. 그와 같은 구현예에서, 베이트세트는 반복적인 서열이 선택 효율을 증가시키기 위해 선택되도록 설계된다. 재배열이 공지된 시점 서열을 갖는 구현예에서, 상보적 베이트세트는 선택 효율을 증가시키기 위해 시점 서열에 설계될 수 있다.

구현예에서, 본 방법은, 각각의 카테고리가 상이한 베이트 설계 전략을 갖는, 2 이상의 상이한 표적 카테고리를 포착하기 위해 설계된 베이트의 용도를 포함한다. 구현예에서, 본 명세서에서 개시된 혼성 포착 방법 및 조성물은 표적 서열 (예를 들면, 표적 구성원)의 정의된 서브세트를 포착하고 표적 서열의 균질한 적용범위를 제공하면서, 그 서브세트 중에 적용범위를 최소화한다. 일 구현예에서, 표적 서열은 게놈 DNA 중에 전체 엑솜, 또는 선택된 이의 서브세트를 포함한다. 또 다른 구현예에서, 표적 서열은 큰 염색체 영역, 예를 들면, 전체 염색체 아암을 포함한다. 본 명세서에서 개시된 방법 및 조성물은 복합 표적 핵산 서열 (예를 들면, 핵산 라이브러리)에 대하여 적용범위의 상이한 깊이 및 패턴을 달성하기 위해 상이한 베이트세트를 제공한다.

한 구현예에서, 본 방법은 하나의 또는 복수의 핵산 라이브러리 (예를 들면, 라이브러리 캐치)의 선택된 구성원을 제공하는 단계를 포함한다. 본 방법은 하기 단계를 포함한다:

(예를 들면, 복수의 종양 구성원, 참조 구성원, 및/또는 PGx 구성원을 포함하는) 복수의 구성원, 예를 들면, 표적 핵산 구성원을 포함하는 하나의 또는 복수의 라이브러리 (예를 들면, 하나의 또는 복수의 핵산 라이브러리)를 제공하는 단계;

하나의 또는 복수의 라이브러리를, 예를 들면, 용액계 반응에서, 복수의 베이트 (예를 들면, 올리고뉴클레오타이드 베이트)와 접촉시켜 복수의 베이트/구성원 혼성를 포함하는 혼성화 혼합물을 형성하는 단계;

예를 들면, 상기 복수의 베이트/구성원 혼성의 분리를 허용하는 결합 독립체와 상기 혼성화 혼합물 접촉에 의해, 상기 혼성화 혼합물로부터 복수의 베이트/구성원 혼성를 분리시키는 단계,

그렇게 함으로써 라이브러리 캐치 (예를 들면, 하나의 또는 복수의 라이브러리로부터 핵산 분자의 선택된 또는 농축된 하위그룹)을 제공하는 단계,

선택적으로 여기에서 복수의 베이트는 하기의 것들 중 2 이상을 포함함:

a) 가장 깊은 적용범위가 낮은 빈도, 예를 들면, 약 5% 이하 (즉, 샘플로부터세포의 5%가 그것의 게놈에서 변이를 제공한다)로 나타나는 변이 (예를 들면, 하나 이상의 돌연변이)에 대하여 고수준의 감수성을 가능하게 하도록 요구되는 고-수준 표적 (예를 들면, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 하나 이상의 종양 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제1 베이트세트. 일 구현예에서; 제1 베이트세트는 약 500× 이상 서열분석 깊이를 요구하는 변이 (예를 들면, 점 돌연변이)를 포함하는 종양 구성원을 선택한다 (예를 들면, 상기에 상보적이다);

b) 높은 적용범위가 a), 예를 들면, 약 10%의 빈도 (즉, 샘플로부터세포의 10%는 그것의 게놈에서 변이를 제공한다)로 고-수준 표적보다 더 높은 빈도로 나타나는 변이 (예를 들면, 하나 이상의 돌연변이)에 대하여 고수준의 감수성을 가능하게 하도록 요구되는 중간-수준 표적 (예를 들면, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 하나 이상의 종양 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제2 베이트세트. 일 구현예에서; 제2 베이트세트는 약 200× 이상 서열분석 깊이를 요구하는 변이 (예를 들면, 점 돌연변이)를 포함하는 종양 구성원을 선택한다 (예를 들면, 상기에 상보적이다).

c) 저-중간 적용범위가, 예를 들면, 이종접합성 대립유전자를 검출하기 위해, 고수준의 감수성을 가능하게 하도록 요구되는 저-수준 표적 (예를 들면, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 하나 이상의 PGx 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제3 베이트세트. 예를 들어, 이종접합성 대립유전자의 검출은 높은 검출 신뢰성을 확보하기 위해 10-100× 서열분석 깊이가 필요하다. 일 구현예에서, 제3 베이트세트는 하기로부터 선택되는 하나 이상의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽, 예를 들면, 엑손)을 선택한다: a) 상이한 약물을 대사작용하기 위해 환자의 능력을 설명할 수 있는 약물유전체학 (PGx) 단일 뉴클레오타이드 다형성 (SNP), 또는 b) 환자를 고유하게 확인하는데 사용될 수 있는 게놈 SNPs(예를 들면, 지문);

d) 저-중간 적용범위가, 예를 들면, 구조적 중단점, 예컨대 게놈 전좌 또는 인델을 검출하기 위해 요구되는 제1 인트론 표적 (예를 들면, 인트론 서열을 포함하는 구성원)을 선택하는 제4 베이트세트. 예를 들어, 인트론 중단점의 검출은 높은 검출 신뢰성을 확보하기 위해 5-50× 서열-쌍 스패닝 깊이가 필요하다. 상기 제4 베이트세트는, 예를 들어, 전좌/인델-경향의 암 유전자를 검출하는데 사용될 수 있다; 또는

e) 희소 적용범위가 카피 수 변화를 검출하는 능력을 개선하도록 요구되는 제2 인트론 표적 (예를 들면, 인트론 구성원)을 선택하는 제5 베이트세트. 예를 들어, 몇 개의 말단 엑손의 1-카피 결실의 검출은 높은 검출 신뢰성을 확보하기 위해 0.1-300× 적용범위를 필요로 한다. 일 구현예에서, 적용범위 깊이는 카피 수 변화를 검출하기 위해 약 0.1-10× 범위이다. 다른 구현예에서, 적용범위 깊이는 게놈 DNA의 카피 수 이익/손실 또는 이형접합성 손실 (LOH)를 평가하기 위해 게놈 SNPs/유전자좌를 검출하도록 약 100-300× 범위이다. 상기 제5 베이트세트는, 예를 들어, 증폭/결실-경향의 암 유전자를 검출하는데 사용될 수 있다.

상기 베이트세트의 2, 3, 4개 이상의 임의의 조합, 예를 들어, 제1 및 제2 베이트세트; 제1 및 제3 베이트세트; 제1 및 제4 베이트세트; 제1 및 제5 베이트세트; 제2 및 제3 베이트세트; 제2 및 제4 베이트세트; 제2 및 제5 베이트세트; 제3 및 제4 베이트세트; 제3 및 제5 베이트세트; 제4 및 제5 베이트세트; 제1, 제2 및 제3 베이트세트; 제1, 제2 및 제4 베이트세트; 제1, 제2 및 제5 베이트세트; 제1, 제2, 제3, 제4 베이트세트; 제1, 제2, 제3, 제4 및 제5 베이트세트의 조합, 및 기타 등등은 사용될 수 있다.

일 구현예에서, 제1, 제2, 제3, 제4, 또는 제5 베이트세트는 각각 미리선택된 선택 (예를 들면, 포착) 효율을 갖는다. 일 구현예에서, 선택의 효율의 값은 a)-e)에 따라서 모든 5개 베이트 중 적어도 2, 3, 4개에 대하여 동일하다. 다른 구현예에서, 선택의 효율의 값은 a)-e)에 따라서 모든 5개 베이트 중 적어도 2, 3, 4개에 대하여 상이하다.

일부 구현예에서, 적어도 2, 3, 4개 또는 모든 5개 베이트세트는 상이한 미리선택된 효율 값을 갖는다. 예를 들어, 하기의 더 많은 것 중 하나로부터 선택된 선택의 효율의 값:

(i) 제1 미리선택된 효율은 적어도 약 500× 이상 서열분석 깊이인 선택의 제1 효율의 값을 갖거나 (예를 들면, 선택의 제2, 제3, 제4 또는 제5 미리선택된 효율 초과 (예를 들면, 선택의 제2 효율의 값 약 2-3 배 초과; 선택의 제3 효율의 값 약 5-6 배 초과; 선택의 제4 효율의 값 약 10-배 초과; 선택의 제5 효율의 값 약 50 내지 5,000-배 초과인 선택의 효율의 값을 갖거나);

(ⅱ) 제2 미리선택된 효율은 적어도 약 200× 이상의 서열분석 깊이인 선택의 제2 효율의 값을 갖거나, 예를 들면, 선택의 제3, 제4 또는 제5 미리선택된 효율 초과 (예를 들면, 선택의 제3 효율의 값 약 2배 초과; 선택의 제4 효율의 값 약 4 배 초과; 선택의 제5 효율의 값 약 20 내지 2,000-배 초과)인 선택의 효율의 값을 갖거나;

(ⅲ) 제3 미리선택된 효율은 적어도 약 100× 이상의 서열분석 깊이인 선택의 제3 효율의 값을 갖거나, 예를 들면, 선택의 제4 또는 제5 미리선택된 효율 초과 (예를 들면, 선택의 제4 효율의 값 약 2배 초과; 선택의 제5 효율의 값 약 10 내지 1000-배 초과)인 선택의 효율의 값을 갖거나;

(ⅳ) 제4 미리선택된 효율은 적어도 약 50× 이상의 서열분석 깊이인 선택의 제4 효율의 값을 갖거나, 예를 들면, 선택의 제5 미리선택된 효율 초과 (예를 들면, 선택의 제5 효율의 값 약 50 내지 500-배 초과)인 선택의 효율의 값을 갖거나; 또는

(v) 제5 미리선택된 효율은 적어도 약 10× 내지 0.1×의 서열분석 깊이인 선택의 제5 효율의 값을 갖는다.

특정 구현예에서, 선택의 효율의 값은 하나 이상의 하기에 의해 변형된다: 상이한 베이트세트의 차별적인 표현, 베이트 서브세트의 차별적인 중첩, 차별적인 베이트 파라미터, 상이한 베이트세트의 혼합, 및/또는 베이트세트의 상이한 유형의 사용. 예를 들어, 선택의 효율에서 변화 (예를 들면, 각각의 베이트세트/표적 카테고리의 상대 서열 적용범위)는 하나 이상의 하기 변경에 의해 조정될 수 있다:

(i) 상이한 베이트세트의 차별적인 발현 - 주어진 표적 (예를 들면, 표적 구성원)을 포착하기 위한 베이트세트 설계는 상대 표적 적용범위 깊이를 향상/감소시키기 위해 더 많은/더 적은 수의 카피에서 포함될 수 있음;

(ⅱ) 베이트 서브세트의 차별적인 중첩 - 주어진 표적 (예를 들면, 표적 구성원)을 포착하기 위한 베이트세트 설계는 상대 표적 적용범위 깊이를 향상/감소시키기 위해 인접하는 베이트 사이 더 긴 또는 더 짧은 중첩을 포함할 수 있음;

(ⅲ) 차별적인 베이트 파라미터 - 주어진 표적 (예를 들면, 표적 구성원)을 포착하기 위한 베이트세트 설계는 포착 효율을 감소시키기 위해 그리고 상대 표적 적용범위 깊이를 저하시키기 위해 서열 변형/더 짧은 길이를 포함할 수 있음;

(ⅳ) 상이한 베이트세트의 혼합 - 상이한 표적세트를 포착하기 위해 설계되는 베이트세트는 상대 표적 적용범위 깊이를 향상/감소시키기 위해 상이한 몰비에서 혼합될 수 있음;

(v) 상이한 유형의 올리고뉴클레오타이드 베이트세트의 사용 - 특정 구현예에서, 베이트세트는 하기를 포함할 수 있음:

(a) 하나 이상의 화학적으로 (예를 들면, 비-효소적으로) 합성된 (예를 들면, 개별적으로 합성된) 베이트,

(b) 어레이에서 합성된 하나 이상의 베이트,

(c) 하나 이상의 효소적으로 제조된, 예를 들면, 시험관내 전사된, 베이트;

(d) (a), (b) 및/또는 (c)의 임의의 조합,

(e) 하나 이상의 DNA 올리고뉴클레오타이드 (예를 들면, 천연 또는 비-천연 발생 DNA 올리고뉴클레오타이드),

(f) 하나 이상의 RNA 올리고뉴클레오타이드 (예를 들면, 천연 또는 비-천연 발생 RNA 올리고뉴클레오타이드),

(g) (e) 및 (f)의 조합, 또는

(h) 상기 중 임의의 것의 조합.

상이한 올리고뉴클레오타이드 조합은 상이한 비, 예를 들면, 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000, 또는 기타로부터 선택된 비에서 혼합될 수 있다. 일 구현예에서, 화학적으로-합성된 베이트 대 어레이-생성된 베이트의 비는 1:5, 1:10, 또는 1:20으로부터 선택된다. DNA 또는 RNA 올리고뉴클레오타이드는 천연- 또는 비-천연-발생일 수 있다. 특정 구현예에서, 베이트는, 예를 들면, 용융 온도를 증가시키기 위해 하나 이상의 비-천연-발생 뉴클레오타이드를 포함한다. 예시적인 비-천연 발생 올리고뉴클레오타이드는 변형된 DNA 또는 RNA 뉴클레오타이드를 포함한다. 예시적인 변형된 뉴클레오타이드 (예를 들면, 변형된 RNA 또는 DNA 뉴클레오타이드)는, 비제한적으로, 잠금 핵산 (LNA), 여기에서 LNA 뉴클레오타이드의 리보오스 모이어티는 2' 산소 및 4' 탄소를 연결시키는 추가의 브릿지로 변형됨; 펩타이드 핵산 (PNA), 예를 들면, 펩타이드 결합에 의해 연결된 반복 N-(2-아미노에틸)-글리신 유닛으로 구성된 PNA; 저 GC 영역을 포착하기 위해 변형된 DNA 또는 RNA 올리고뉴클레오타이드; 이환형 핵산 (BNA); 가교결합된 올리고뉴클레오타이드; 변형된 5-메틸 데옥시시티딘; 및 2,6-디아미노퓨린을 포함한다. 다른 변형된 DNA 및 RNA 뉴클레오타이드는 당해 기술에 공지되어 있다.

특정 구현예에서, 표적 서열 (예를 들면, 표적 구성원)의 실질적으로 균일한 또는 균질한 적용범위는 수득된다. 예를 들어, 각 베이트세트/표적 카테고리 안에서, 적용범위의 균일성은, 예를 들어, 하기의 것들 중 하나 이상에 의해 베이트 파라미터를 변형시킴으로써 최적화될 수 있다:

(i) 동일한 카테고리에서 다른 표적에 비해 과소/과대 포함되는, 표적 (예를 들면, 표적 구성원)의 적용범위를 향상/감소시키는데 사용될 수 있는 베이트 표현 또는 중첩의 증가/감소;

(ⅱ) 표적 서열 (예를 들면, 높은 GC 함량 서열)을 포착하기 어려운 낮은 적용범위에 대하여, 예를 들면, 인접 서열 (예를 들면, 덜 GC-풍부한 인접 서열)을 포함시키기 위해 베이트세트로 표적될 영역을 확대시킴;

(ⅲ) 베이트 서열의 변형은 베이트의 2차 구조를 감소시키는데 그리고 그것의 선택 효율을 향상시키는데 사용될 수 있음;

(ⅳ) 베이트 길이의 변형은 동일한 카테고리 안에서 상이한 베이트의 용융 혼성화 동력학을 동등화하는데 사용될 수 있음. 베이트 길이는 직접적으로 (다양한 길이를 가진 베이트 생산에 의해) 또는 간접적으로 (일관된 길이의 베이트의 생산, 및 임의의 서열로 베이트 단부의 대체에 의해) 변형될 수 있다.

(v) 동일한 표적 영역에 대하여 상이한 배향의 베이트 변형 (즉 정방향 및 역방향 가닥)은 상이한 결합 효율성을 가질 수 있다. 각 표적에 최적의 적용범위를 제공하는 어느 한쪽 배향을 가진 베이트세트는 선택될 수 있음;

(ⅵ) 각 베이트상에 존재하는, 결합 독립체, 예를 들면, 포착 태그 (예를 들면 바이오틴)의 양 변형은 그것의 결합 효율에 영향을 줄 수 있음. 특이적 표적을 표적하는 베이트의 태그 수준 증가/감소는 상대 표적 적용범위를 향상/감소시키는데 사용될 수 있음;

(ⅶ) 상이한 베이트에 사용된 뉴클레오타이드의 유형 변형은 표적에 대한 결합 친화성에 영향을 주는데, 그리고 상대 표적 적용범위를 향상/감소시키는데 사용될 수 있음; 또는

(ⅷ) 예를 들면, 더욱 안정적인 염기 짝짓기를 갖는, 변형된 올리고뉴클레오타이드 베이트 사용은 높은 GC 함량에 비해 낮은 또는 정상 GC 함량 사이 용융 혼성화 동력학을 동등화하는데 사용될 수 있음.

예를 들어, 상이한 유형의 올리고뉴클레오타이드 베이트세트는 사용될 수 있다.

일 구현예에서, 선택의 효율의 값은 사전-선택된 표적 영역을 포함하기 위해 상이한 유형의 베이트 올리고뉴클레오타이드 사용에 의해 변형된다. 예를 들어, 제1 베이트세트 (예를 들면, 10,000-50,000 RNA 또는 DNA 베이트를 포함하는 어레이-기반 베이트세트)는 큰 표적체 부분 (예를 들면, 1-2MB 총 표적체 부분)을 포함하는데 사용될 수 있다. 제1 베이트세트는 사전-선택된 표적 영역 (예를 들면, 표적체 부분의, 예를 들면, 250kb 이하에 미치는 선택된 관심 서브게놈 구간) 및/또는 더 높은 2차 구조, 예를 들면, 더 높은 GC 함량의 영역을 포함하기 위해 제2 베이트세트 (예를 들면,5,000 베이트 미만을 포함하는 개별적으로 합성된 RNA 또는 DNA 베이트세트)로 스파이킹될 수 있다. 관심의 선택된 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 본 명세서에서 기재된 하나 이상의 유전자 또는 유전자 생성물, 또는 이의 단편에 상응할 수 있다. 제2 베이트세트는 원하는 베이트 중첩에 의존하여 약 1-5,000, 2-5,000, 3-5,000, 10-5,000, 100-5,000, 500-5,000, 100-5,000, 1,000-5,000, 2,000-5,000 베이트를 포함할 수 있다. 다른 구현예에서, 제2 베이트세트는 제1 베이트세트에 스파이킹된 선택된 올리고 베이트 (예를 들면, 400, 200, 100, 50, 40, 30, 20, 10, 5, 4, 3, 2 또는 1 미만의 베이트)을 포함할 수 있다. 제2 베이트세트는 개별 올리고 베이트의 임의의 비에서 혼합될 수 있다. 예를 들어, 제2 베이트세트는 1:1 등몰 비로서 존재하는 개별 베이트를 포함할 수 있다. 대안적으로, 제2 베이트세트는, 예를 들어, 특정 표적의 표적을 최적화하기 위해, 상이한 비 (예를 들면, 1:5, 1:10, 1:20)로 존재하는 개별 베이트를 포함할 수 있다 (예를 들면, 특정 표적은 다른 표적에 비교하여 제2 베이트세트의 5-10×를 가질 수 있다).

다른 구현예에서, 선택의 효율은 베이트의 등몰 혼합물을 사용하는 경우 관측된 차별적인 서열 포착 효율과 관련하여 결합 독립체의 밀도 (예를 들면, 합텐 또는 친화성 태그 밀도) 또는, 베이트의 상대 존재도 조정에 의해 그룹 안에 개별 베이트 (예를 들면, 제1, 제2 또는 제3 복수의 베이트)의 수준측정, 및 그 다음 베이트의 제2 그룹에 비해 전반적인 베이트 혼합물에 베이트의 차별적인 과잉의 제1 그룹의 도입에 의해 조정된다.

한 구현예에서, 본 방법은 (또한 본 명세서에서 "종양 베이트세트"로서 지칭된) 종양세포로부터 종양 구성원, 예를 들면, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 핵산 분자를 선택하는 베이트세트를 포함하는 복수의 베이트세트의 용도를 포함한다. 종양 구성원은 종양세포에서 존재하는 임의의 뉴클레오타이드 서열, 예를 들면, 종양 또는 암세포에서 존재하는, 본 명세서에서 기재된 바와 같이, 돌연변이된, 야생형, PGx, 참조 또는 인트론 뉴클레오타이드 서열일 수 있다. 일 구현예에서, 종양 구성원은 낮은 빈도로 나타나는 변이 (예를 들면, 하나 이상의 돌연변이)를 포함하고, 예를 들면, 종양 샘플로부터세포의 약 5% 이하는 그것의 게놈에서 변이를 제공한다. 다른 구현예에서, 종양 구성원은 종양 샘플로부터세포의 약 10%의 빈도로 나타나는 변이 (예를 들면, 하나 이상의 돌연변이)를 포함한다. 다른 구현예에서, 종양 구성원은 PGx 유전자 또는 유전자 생성물, 인트론 서열, 예를 들면, 본 명세서에서 기재된 바와 같은 인트론 서열, 종양세포에서 존재하는 참조 서열로부터 서브게놈 구간을 포함한다.

또 다른 측면에서, 본 발명은 본 명세서에서 기재된 베이트세트, 본 명세서에서 기재된 개별 베이트세트의 조합, 예를 들면, 본 명세서에서 기재된 조합을 특징으로 삼는다. 베이트세트(들)은 지침, 표준, 완충액 또는 효소 또는 다른 시약을 선택적으로 포함할 수 있는 키트의 일부일 수 있다.

유전자 선택

분석을 위하여, 미리선택된 피험체 구간, 예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽, 예를 들면, 유전자 및 다른 영역의 세트 또는 그룹용 서브게놈 구간의 그룹 또는세트는 본 명세서에서 기재된다.

따라서, 구현예에서 방법은, 예를 들면, 차세대 서열분석 방법에 의해, 획득된 핵산 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500개 또는 이를 초과하는 유전자 또는 유전자 생성물에서 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 서열분석하는 단계를 포함하고, 여기에서 상기 유전자 또는 유전자 생성물은 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택되고, 이로 인하여 예를 들면, 본 명세서에서 기재된 암으로부터, 종양 샘플을 분석한다.

(a) 혈액성 악성종양 (또는 전악성 종양), 예를 들면, 본 명세서에서 기재된 혈액성 악성종양 (또는 전악성 종양)으로부터 샘플에서 복수 구성원, 예를 들면, 종양 샘플에서 복수의 종양 구성원을 포함하는 하나의 또는 복수의 라이브러리를 획득하는 단계;

(b) 선택적으로, 예를 들면, 선택된 구성원 (예를 들면, 라이브러리 캐치)를 제공하기 위해 베이트세트 (또는 복수의 베이트세트)와 하나의 또는 복수의 라이브러리 접촉에 의해, 미리선택된 서열용 하나의 또는 복수의 라이브러리를 농축시키는 단계;

(e) 미리선택된 뉴클레오타이드 위치용 상기 판독으로부터 (예를 들면, 돌연변이를, 예를 들면, 베이지안 방법 또는 본 명세서에서 기재된 방법으로 판정하는) 뉴클레오타이드 값을 배정하는 단계,

그렇게 함으로써 상기 종양 샘플을 분석하고,

선택적으로 여기에서 상기 방법은, 예를 들면, 차세대 서열분석 방법에 의해, 샘플로부터 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 이를 초과하는 유전자 또는 유전자 생성물에서 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 서열분석하는 단계를 포함하고, 여기에서 상기 유전자 또는 유전자 생성물은 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된다.

또 다른 구현예에서, 하기세트 또는 그룹 중 하나의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 분석된다. 예를 들면, 종양 또는 암 유전자 또는 유전자 생성물, 참조 (예를 들면, 야생형) 유전자 또는 유전자 생성물, 및 PGx 유전자 또는 유전자 생성물과 관련된 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 종양 샘플로부터 서브게놈 구간의 그룹 또는세트를 제공할 수 있다.

한 구현예에서, 본 방법은 판독, 예를 들면, 서열, 종양 샘플로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트를 획득하고, 여기에서 상기 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 하기의 것들 중 적어도 1, 2, 3, 4, 5, 6, 7개 또는 모두로부터 선택된다:

A) 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 의한 돌연변이된 또는 야생형 유전자 또는 유전자 생성물로부터의 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500개, 또는 이를 초과하는 피험체 구간, 예를 들면, 서브게놈 구간, 또는 발현된 서브게놈 구간, 또는 양쪽;

B) 종양 또는 암과 관련되는 유전자 또는 유전자 생성물, 예를 들어, 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 의한 유전자 또는 유전자 생성물로부터의, 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500개, 또는 이를 초과하는 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)[예를 들면, 양성 또는 음성 치료 반응 예측변수이거나, 종양 또는 암, 예를 들면, 하기에 따른 유전자 또는 유전자 생성물용 양성 또는 음성 예후 인자이거나, 상기의 차별적인 진단을 가능하게 함];

C) 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 하나 이상의 약물 대사, 약물 반응성, 또는 독성과 관련된 유전자 또는 유전자 생성물(또한 "PGx" 유전자로서 본 명세서에서 지칭됨)에서 존재하는 서브게놈 구간의 돌연변이된 또는 야생형 유전자 또는 유전자 생성물 (예를 들면, 단일 뉴클레오타이드 다형성 (SNP))로부터의, 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 이를 초과하는 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽);

D) 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 이하의 것 들 중 하나 이상과 관련된 유전자 또는 유전자 생성물에서 존재하는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)의 돌연변이된 또는 야생형 PGx 유전자 또는 유전자 생성물 (예를 들면, 단일 뉴클레오타이드 다형성 (SNP))로부터의, 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 이를 초과하는 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽): (i) 약물로 치료된 암 환자의 더 나은 생존 (예를 들면, 파클리탁셀로 치료된 유방암 환자의 더 나은 생존); (ⅱ) 파클리탁셀 대사; (ⅲ) 약물에 대한 독성; 또는 (ⅳ) 약물에 대한 부작용;

E) 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 따라 적어도 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 또는 이를 초과하는 유전자 또는 유전자 생성물을 포함하는 복수의 전좌 변이;

F) 하기로부터 선택된 적어도 5 유전자 또는 유전자 생성물: 표 1 내지 표 4, 또는 도 3a 내지 도 4d, 여기에서, 예를 들면, 미리선택된 위치에서, 대립유전자 변화는 종양의 미리선택된 유형과 관련되고 여기에서 상기 대립유전자 변화는 상기 종양 유형에서세포의 5% 미만으로 존재함;

G) 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 적어도 5 유전자 또는 유전자 생성물 (GC-풍부 영역에서 포매됨); 또는

H) 암 발생용 유전적 (예를 들면, 생식세포 위험) 인자를 나타내는 적어도 5 유전자 또는 유전자 생성물 (예를 들면, 유전자 또는 유전자 생성물은 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된다.

더욱 또 다른 구현예에서, 본 방법은 판독, 예를 들면, 서열, 종양 샘플로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트를 획득하고, 여기에서 상기 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 표 1에서 기재된 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400개, 또는 모든 유전자 또는 유전자 생성물로부터 선택된다.

더욱 또 다른 구현예에서, 본 방법은 판독, 예를 들면, 서열, 종양 샘플로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트를 획득하고, 여기에서 상기 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 표 2에서 기재된 5, 6, 7, 8, 9, 10, 15, 20, 25, 30ㄱ개또는 모든 유전자 또는 유전자 생성물로부터 선택된다.

더욱 또 다른 구현예에서, 본 방법은 판독, 예를 들면, 서열, 종양 샘플로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트를 획득하고, 여기에서 상기 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 표 3에서 기재된 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300개, 또는 모든 유전자 또는 유전자 생성물로부터 선택된다.

더욱 또 다른 구현예에서, 본 방법은 판독, 예를 들면, 서열, 종양 샘플로부터 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)의 세트를 획득하고, 여기에서 상기 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 표 4에서 기재된 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 60, 70, 80, 또는 모든 유전자 또는 유전자 생성물로부터 선택된다.

서브게놈 구간의 이들 및 다른세트 및 그룹은 본 명세서에서 다른 곳에, 예를 들면, "유전자 선택" 명칭의 섹션에서 더 상세히 논의된다.

임의의 본 명세서에서 기재된 방법은 아래 하나 이상의 구현예와 조합될 수 있다.

다른 구현예에서, 샘플은 종양 샘플이고, 예를 들면, 하나 이상의 전악성 또는 악성세포를 포함한다. 특정 구현예에서, 샘플, 예를 들면, 종양 샘플은 본 명세서에서 기재된 혈액성 악성종양 (또는 전악성 종양), 예를 들면, 혈액성 악성종양 (또는 전악성 종양)으로부터 획득된다. 특정 구현예에서, 샘플, 예를 들면, 종양 샘플은 고체 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 구현예에서, 샘플, 예를 들면, 종양 샘플은 수술 절제면으로부터 조직 또는세포를 포함한다. 특정 구현예에서, 샘플, 예를 들면, 종양 샘플은 종양-침윤 림프구를 포함한다. 샘플은 조직학적으로 정상 조직일 수 있다. 또 다른 구현예에서, 샘플, 예를 들면, 종양 샘플은 하나 이상의 순환 종양세포 (CTC) (예를 들면, 혈액 샘플로부터 획득된 CTC)를 포함한다. 한 구현예에서, 샘플, 예를 들면, 종양 샘플은 하나 이상의 비-악성세포를 포함한다. 한 구현예에서, 샘플, 예를 들면, 종양 샘플은 하나 이상의 종양-침윤 림프구를 포함한다.

일 구현예에서, 본 방법은 샘플, 예를 들면, 본 명세서에서 기재된 바와 같은 종양 샘플을 획득하는 단계를 추가로 포함한다. 샘플은 직접적으로 또는 간접적으로 획득될 수 있다. 한 구현예에서, 샘플은 양쪽 악성세포 및 비-악성세포를 함유하는 샘플 (예를 들면, 종양-침윤 림프구)로부터, 예를 들면, 단리 또는 정제에 의해, 획득된다.

다른 구현예에서, 본 방법은, 본 명세서에서 기재된 방법을 사용하여, 예를 들면, 수술 절제면으로부터, 샘플, 예를 들면, 조직학적으로 정상 샘플을 평가하는 단계를 포함한다. 출원인은 조직학적으로 정상 조직 (예를 들면, 달리 조직학적으로 정상 조직 절제면)으로부터 수득된 샘플이 여전히 본 명세서에서 기재된 바와 같은 변이를 가질 수 있다는 것을 알아내었다. 본 방법은 따라서 검출된 변이의 존재에 기반하여 조직 샘플을 재-분류하는 단계를 추가로 포함할 수 있다.

또 다른 구현예에서, 획득된 또는 분석된 판독의 적어도 10, 20, 30, 40, 50, 60, 70, 80, 또는 90%는 본 명세서에서 기재된 유전자, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 유전자에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대한 것이다.

한 구현예에서, 본 방법에서 작성된 돌연변이 판정의 적어도 10, 20, 30, 40, 50, 60, 70, 80, 또는 90%는 본 명세서에서 기재된 유전자 또는 유전자 생성물, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 유전자 또는 유전자 생성물에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대한 것이다.

한 구현예에서, 본 방법을 사용한 고유 역치 값의 적어도 10, 20, 30, 40, 50, 60, 70, 80, 또는 90%는 본 명세서에서 기재된 유전자 또는 유전자 생성물, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 유전자 또는 유전자 생성물에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대한 것이다.

한 구현예에서, 주석에 달린, 또는 제3자에 보고된 돌연변이 판정의 적어도 10, 20, 30, 40, 50, 60, 70, 80, 또는 90%는 본 명세서에서 기재된 유전자 또는 유전자 생성물, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 유전자 또는 유전자 생성물에서 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대한 것이다.

한 구현예에서, 본 방법은 종양 및/또는 대조군 핵산 샘플 (예를 들면, FFPE-유래된 핵산 샘플)로부터 수득된 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.

한 구현예에서, 판독은 NGS 서열분석 방법에 의해 제공된다.

한 구현예에서, 본 방법은 핵산 구성원의 하나의 또는 복수의 라이브러리를 제공하는 단계 및 상기 하나의 또는 복수의 라이브러리의 복수의 구성원으로부터 미리선택된 서브게놈 구간을 서열분석하는 단계를 포함한다. 구현예에서 본 방법은 서열분석용 상기 하나의 또는 복수의 라이브러리의 서브세트 선택의 단계, 예를 들면, 용액-기반 선택 또는 고형 지지체- (예를 들면, 어레이-) 기반 선택을 포함할 수 있다.

한 구현예에서, 본 방법은 핵산의 선택된 서브그룹, 예를 들면, 라이브러리 캐치를 제공하기 위해 복수의 베이트와 하나의 또는 복수의 라이브러리 접촉의 단계를 포함한다. 일 구현예에서, 접촉 단계는 용액 혼성화에서 영향받는다. 또 다른 구현예에서, 접촉 단계는 고형 지지체, 예를 들면, 어레이에서 영향받는다. 특정 구현예에서, 본 방법은 혼성화의 하나 이상의 추가의 라운드에 의한 혼성화 단계의 반복을 포함한다. 일부 구현예에서, 본 방법은 추가로 베이트의 동일한 또는 상이한 수집을 가진 혼성화의 하나 이상의 추가의 라운드에 라이브러리 캐치를 적용하는 단계를 포함한다.

더욱 다른 구현예에서, 본 방법은 추가로 라이브러리 캐치를 분석하는 단계를 포함한다. 일 구현예에서, 라이브러리 캐치는 서열분석 방법, 예를 들면, 본 명세서에서 기재된 바와 같이 차세대 서열분석 방법에 의해 분석된다. 본 방법은, 예를 들면, 용액 혼성화에 의한 라이브러리 캐치 단리, 및 핵산 서열분석에 의한 라이브러리 캐치 적용을 포함한다. 특정 구현예에서, 라이브러리 캐치는 재-서열분석될 수 있다. 차세대 서열분석 방법은 당해 기술에 공지되어 있고, 예를 들면, Metzker, M. (2010) Nature Biotechnology Reviews 11: 31-46에 기재된다.

한 구현예에서, 뉴클레오타이드 위치용 배정된 값은 제3 자에, 선택적으로, 설명적인 주석으로 전송된다.

한 구현예에서, 뉴클레오타이드 위치용 배정된 값은 제3 자에 전송되지 않는다.

한 구현예에서, 복수의 뉴클레오타이드 위치용 배정된 값은 제3 자에, 선택적으로, 설명적인 주석으로 전송되고, 제2 복수의 뉴클레오타이드 위치용 배정된 값은 제3 자에 전송되지 않는다.

한 구현예에서, 적어도 0.01, 0.02, 0.03, 0.04, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0, 2.0, 5.0, 10, 15, 또는 30 메가베이스, 예를 들면, 게놈 염기는 서열분석된다.

한 구현예에서, 본 방법은 적어도 하나의 SNP를 포함하는 복수의 판독을 평가하는 단계를 포함한다.

한 구현예에서, 본 방법은 샘플 및/또는 대조군 판독에서 SNP 대립유전자 비를 결정하는 단계를 포함한다.

한 구현예에서, 본 방법은 피험체에, 예를 들면, 바코드 디콘볼루션에 의해 하나 이상의 판독을 배정하는 단계를 포함한다.

한 구현예에서, 본 방법은, 예를 들면, 바코드 디콘볼루션에 의해 종양 판독 또는 대조군 판독으로서 하나 이상의 판독을 배정하는 단계를 포함한다.

한 구현예에서, 본 방법은, 예를 들면, 참조 서열로 정렬에 의해, 각각의 상기 하나 이상의 판독을 맵핑하는 단계를 포함한다.

한 구현예에서, 본 방법은 판정된 돌연변이를 기념화하는 단계를 포함한다.

한 구현예에서, 본 방법은 판정된 돌연변이를 주석화, 예를 들면, 돌연변이 구조의 징후, 예를 들면, 미스센스 돌연변이, 또는 기능, 예를 들면, 질환 표현형을 가진 판정된 돌연변이를 주석화하는 단계를 포함한다.

한 구현예에서, 본 방법은 종양 및 대조군 핵산용 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.

한 구현예에서, 본 방법은, 예를 들면, 베이지안 판정 방법 또는 비-베이지안 판정 방법으로, 각각의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대하여, 뉴클레오타이드 값, 예를 들면, 변이체, 예를 들면, 돌연변이를 판정하는 단계를 포함한다.

한 구현예에서, 예를 들면, 상이한 피험체로부터, 다중 샘플은 동시에 가공된다.

본 명세서에서 개시된 방법은 피험체의 게놈 또는 전사체에서 존재하는 변이를 검출하는데 사용될 수 있고, DNA 및 RNA 서열분석, 예를 들면, 표적된 RNA 및/또는 DNA 서열분석에 적용될 수 있다. 따라서, 본 발명에서 특징으로 삼은 또 다른 측면은, 본 명세서에서 기재된 변이를 검출하기 위해, 표적된 RNA 서열분석, 예를 들면, 샘플, 예를 들면, FFPE-샘플, 혈액 샘플, 또는 골수 천자 샘플로부터 획득된 RNA에서 유래된 cDNA의 서열분석 방법을 포함한다. 변이는 재배열, 예를 들면, 유전자 융합을 인코딩하는 재배열일 수 있다. 다른 구현예에서, 본 방법은 유전자 또는 유전자 생성물의 수준에서 변화 (예를 들면, 증가 또는 감소), 예를 들면, 본 명세서에서 기재된 유전자 또는 유전자 생성물의 발현에서 변화를 검출하는 단계를 포함한다. 본 방법은, 선택적으로, 표적 RNA용 샘플 농축화의 단계를 포함할 수 있다. 다른 구현예에서, 본 방법은 특정 고 존재도 RNAs, 예를 들면, 리보솜 또는 글로빈 RNAs의 샘플 고갈의 단계를 포함한다. RNA 서열분석 방법은 단독 또는 본 명세서에서 기재된 DNA 서열분석 방법과 조합으로 사용될 수 있다. 일 구현예에서, 본 방법은 DNA 서열분석 단계 및 RNA 서열분석 단계 수행을 포함한다. 본 방법은 임의의 순서로 수행될 수 있다. 예를 들어, 본 방법은 RNA 서열분석에 의해 본 명세서에서 기재된 변이의 발현 확인, 예를 들면, 본 발명의 DNA 서열분석 방법에 의해 검출된 돌연변이 또는 융합의 발현 확인을 포함할 수 있다. 다른 구현예에서, 본 방법은 RNA 서열분석 단계, 이어서 DNA 서열분석 단계 수행을 포함한다.

또 다른 측면에서, 본 발명은 표적된 서브게놈 영역에 대하여 서열분석/정렬 인공물의 데이터베이스 구축을 포함하는 방법을 특징으로 삼는다. 한 구현예에서, 데이터베이스는 허위 돌연변이 판정을 여과하는데 그리고 특이성을 개선하는데 사용될 수 있다. 한 구현예에서 데이터베이스는 관련없는 비-종양 (예를 들면, FFPE, 혈액, 또는 골수 천자) 샘플 또는세포주의 서열분석 그리고 1 이상의 이들 정상 샘플에서 단독 랜덤 서열분석 오류 때문에 기대된 것보다 더 자주 나타나는 비-참조 대립유전자 사건의 기록에 의해 구축된다. 이러한 접근법은 인공물로서 생식세포 변화를 분류할 수 있지만, 그것은 체세포 돌연변이와 관련된 방법에서 허용가능하다. 인공물로서 생식세포 변화의 이러한 오분류는 공지된 생식세포 변화 (통상 변이체 제거)에 대하여 그리고 단지 1 개체에서 나타나는 인공물 (더 희귀한 변화 제거)에 대하여 이 데이터베이스의 필터링에 의해 요망하는 경우 완화될 수 있다.

본 명세서에서 개시된 방법은, 예를 들면, 게놈의 암 관련된세그먼트에 적용된 바와 같이, 최적화된 베이트-기반 선택, 최적화된 정렬, 및 최적화된 돌연변이 판정을 포함하는 수많은 최적화된 요소의 통합을 허용한다. 본 명세서에서 기재된 방법은 암-다음-암, 유전자-다음-유전자 및 부위-다음-부위 기준으로 최적화될 수 있는 종양의 NGS-기반 분석을 제공한다. 이것은 예를 들면, 본 명세서에서 기재된 유전자/부위 및 종양 유형에 적용될 수 있다. 본 방법은 주어진 서열분석 기술로 돌연변이 검출에 대하여 감수성 및 특이성의 수준을 최적화시킨다. 암 다음 암, 유전자 다음 유전자, 및 부위 다음 부위 최적화는 임상 생성물에 필수적인 감수성/특이성 (예를 들면, 양쪽에 대하여 >99%)의 매우 높은 수준을 제공한다.

본 명세서에서 기재된 방법은 최적의 치료 및 질환 관리 결정을 통지하기 위해 일상적인, 실사회 샘플로부터 차세대 서열분석 기술을 사용하여 (전형적으로 50 내지 500 유전자 범위일 수 있는) 그럴듯하게 실행가능한 유전자의 포괄적세트에 대하여 게놈 비정상의 임상 및 조절 등급 포괄적 분석 및 해석을 제공한다.

본 명세서에서 기재된 방법은, 최적의 치료 및 질환 관리 결정을 정보제공하기 위해, 종양 샘플을 보내도록 그리고 그 종양에 대하여 게놈 및 다른 분자 변화의 포괄적 분석 및 설명을 받도록 종양학자/병리학자에 원 스톱 쇼핑을 제공한다.

본 명세서에서 기재된 방법은 표준 이용가능한 종양 샘플을 취득하는 그리고 하나의 시험에서 포괄적 게놈 및 다른 분자 비정상 분석을 제공하는 강력한, 실사회 임상 종양학 진단 도구를 제공하여 비정상이 종양을 구동할 수 있는 그리고 종양학자 치료 결정의 정보제공에 유용할 수 있는 포괄적 설명을 종양학자에게 제공한다.

본 명세서에서 기재된 방법은 임상 등급 품질로 환자의 암 게놈의 포괄적 분석을 제공한다. 방법은 가장 관련된 유전자 및 잠재적인 변이를 포함하고 돌연변이 (예를 들면, 인델 또는 염기 치환), 카피 수, 재배열, 예를 들면, 전좌, 발현, 및 후성유전적 마커의 분석의 하나 이상을 포함한다. 유전적 분석의 출력은 실행가능한 결과의 서술적인 보고로 문맥화될 수 있다. 방법은 관련된 과학 및 의료 지식의 현재까지세트와 용도를 연결시킨다.

본 명세서에서 기재된 방법은 환자 관리의 양쪽 품질 및 효율 증가를 제공한다. 이것은 관리 기준이 없거나 환자가 요법의 확립된 라인에 난치성이고 추가 요법의 선택에 대하여 또는 임상시험 참여에 대하여 합리적인 기초가 유용할 수 있도록 종양이 드물게 또는 저조하게 연구된 유형의 것인 적용을 포함한다. 예를 들면, 본 방법은, 요법의 임의의 지점에서, 의사 결정을 정보제공하기에 이용가능한 전체 "분자 이미지" 및/또는 "분자 하위-진단"을 가짐으로써 종양학자가 유익할 선택을 허용한다.

본 명세서에서 기재된 방법은 보고를, 예를 들면, 전자적, 웹 기반, 또는 종이 형태로, 환자에 또는 또 다른 사람 또는 독립체, 예를 들면, 간병인, 예를 들면, 의사, 예를 들면, 종양학자, 병원, 진료실, 제3-자 지급인, 보험 회사 또는 정부 기관에 제공을 포함할 수 있다. 보고는, 예를 들면, 샘플의 유형의 종양과 관련된 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 대하여, 본 방법으로부터 출력, 예를 들면, 뉴클레오타이드 값의 확인, 변이, 돌연변이, 또는 야생형 서열의 존재 또는 부재의 징후를 포함할 수 있다. 보고는 또한, 질환에서, 서열, 예를 들면, 변이, 돌연변이, 또는 야생형 서열의 역할에 관한 정보를 포함할 수 있다. 그와 같은 정보는 예후, 저항, 또는 잠재적인 또는 제안된 치료 선택권에 관한 정보를 포함할 수 있다. 보고는 환자, 예를 들면, 시험에서 확인된 변이인, 서열을 갖는, 그리고 구현예에서, 보고에서 확인된 환자에 치료 선택권의 가능성 있는 유효성, 치료 선택권의 허용가능성, 또는 치료 선택권 적용의 적부성에 관한 정보를 포함할 수 있다. 예를 들면, 보고는 환자에 정보제공, 또는 권고, 약물의 투여, 예를 들면, 미리선택된 투약량에서 또는 미리선택된 치료 레지멘으로, 예를 들면, 다른 약물과 조합으로, 투여를 포함할 수 있다. 한 구현예에서, 본 방법에서 확인된 모든 돌연변이가 보고에서 확인되지 않는다. 예를 들면, 보고는 치료에 대한 암의 발생, 예후, 스테이지, 또는 감수성과, 예를 들면, 미리선택된 치료 선택권과 상관관계의 미리선택된 수준을 갖는 유전자에서 돌연변이에 제한될 수 있다. 본 명세서에서 특징으로 삼은 방법은, 예를 들면, 본 방법을 실행하는 독립체에 의해 샘플의 수령으로부터 7, 14, 또는 21 일 안에 본 명세서에서 기재된 독립체에 보고의 전달을 허용한다.

따라서, 본 발명에서 특징으로 삼은 방법은, 예를 들면, 샘플의 수령의 7, 14 또는 21 일 안에 신속한 전환 시간을 허용한다.

본 명세서에서 기재된 방법은 또한 조직학적으로 정상 샘플, 예를 들면, 수술 절제면으로부터 샘플을 평가하는데 사용될 수 있다. 본 명세서에서 기재된 바와 같이 하나 이상의 변이가 검출되면, 조직은, 예를 들면, 악성 또는 전악성으로서, 재-분류될 수 있고/있거나, 치료의 과정은 변형될 수 있다.

특정 측면에서, 본 명세서에서 기재된 서열분석 방법은 비-암 적용에서, 예를 들면, 포렌식 적용 (예를 들면, 치과 기록의 사용에 대안, 또는 상기에 더하여 확인), 부계 시험, 및 질환 진단 및 예후에서, 예를 들면, 감염성 질환, 자가면역 장애, 소포성 섬유증, 헌팅턴병, 알츠하이머병에 대하여, 그 중에서도 유용하다. 예를 들어, 본 명세서에서 기재된 방법에 의한 유전적 변이의 확인은 특정 장애 발생에 대하여 개체의 존재 또는 위험을 나타낼 수 있다.

달리 정의되지 않는 한, 본 명세서에서 사용된 모든 기술 및 과학 용어는 본 발명이 속하는 당해 분야의 숙련가에 의해 통상적으로 이해되는 바와 동일한 의미를 갖는다. 본 명세서에서 기재된 것과 유사한 또는 동등한 방법 및 물질이 본 발명의 실시 또는 시험에서 사용될 수 있어도, 적합한 방법 및 물질은 아래 기재된다. 본 명세서에서 언급된 모든 공보, 특허 출원, 특허, 및 다른 참조문헌은 참고로 그 전문이 편입된다. 또한, 물질, 방법, 및 그 예는 단지 설명적이고 제한되는 의도는 아니다.

본 발명의 다른 특징 및 이점은 상세한 설명, 도면, 및 청구범위로부터 분명해질 것이다.

도 1a 내지 도 1f는 종양 샘플의 다유전자 분석용 방법의 구현예의 순서도를 도시한다.
도 2는 돌연변이 검출에서 판독 깊이 및 선행 기대의 영향을 도시한다.
도 3a 내지 도 3b는 본 명세서에서 기재된 방법에 따라 (예를 들면, 고체 종양에서) 평가될 수 있는 추가의 예시적인 유전자를 도시한다.
도 4a 내지 도 4d는 본 명세서에서 기재된 방법에 따라 (예를 들면, 혈액성 악성종양 또는 육종에서) 평가될 수 있는 추가의 예시적인 유전자를 도시한다.
도 5 및 도 6은 전체 엑솜 변이 부담과 표적된 유전자로부터 측정된 변이 부담 사이 상관관계를 보여주는 산포도를 도시한다.
도 7a 내지 도 7d는 에서 종양 변이 부담 분포를 도시한다. TMB는 폐 선암종 (도 7a)의 10,676 사례, 폐 편평상피세포 암종 (도 7b)의 1,960 사례, 폐 대세포 암종 (도 7c)의 220 사례, 및 폐 소세포 암종 임상 시료 (도 7d)의 784 사례, 각각에서 포괄적인 게놈 프로파일링에 의해 결정되었다.
도 8a 내지 도 8e는 폐암에서 유전적 변이 유병률을 도시한다. 폐 선암종 (도 8a), 폐 편평상피세포 암종 (도 8b), 폐 대세포 암종 (도 8c), 및 폐 소세포 암종 (도 8d)에서 빈번하게 변이된 25 유전자는 포괄적인 게놈 프로파일링, 각각에 의해 확인되었다. 폐암의 모두 4개의 하위유형의 응집된 유전자 유병률 (도 8e) 은 도시된다. SV: 짧은 변이체; CNA: 카피 수 변이; RE: 재배열; Multiple: 동일한 유전자내 변이의 다중 유형.
도 9a 및 도 9b는 결장직장 선암에서 종양 변이 부담 분포를 도시한다. TMB는 결장 선암종 (도 9a)의 6,742 사례 및 직장 선암종 임상 시료 (도 9b)의 1,176 사례, 각각에서 포괄적인 게놈 프로파일링에 의해 결정되었다.
도 10a 내지 도 10c는 결장직장 선암에서 유전적 변이 유병률을 도시한다. 결장 선암종 (도 10a) 및 직장 선암종 (도 10b)에서 빈번하게 변이된 25 유전자는 포괄적인 게놈 프로파일링, 각각에 의해 확인되었다. 결장직장 선암의 응집된 유전자 유병률 (도 10c)는 도시된다. SV: 짧은 변이체; CNA: 카피 수 변이; RE: 재배열; Multiple: 동일한 유전자내 변이의 다중 유형.
도 11은 신생물의 24 유형내 종양 변이 부담 분포를 도시한다. TMB는, 예를 들어, 방광, 뇌, 유방, 자궁경부, 두경부, 간, 난소, 췌장, 전립선, 피부, 위, 및 자궁의 종양을 포함하는, 임상 시료의 총 15508 사례에서 포괄적인 게놈 프로파일링에 의해 결정되었다.

본 발명은, 적어도 부분적으로, 예를 들면, 혼성 포착-기반, 차세대 서열분석 (NGS) 플랫폼을 사용하여, 환자 샘플로부터 게놈 또는 엑솜의 작은 분획 프로파일링이 총 돌연변이 하중의 분석에 대하여 효과적인 대용물로서 제공한다는 발견에 기반된다.

이론에 의한 구속됨 없이, 면역원성 종양 신생항원 생성의 가능성은 돌연변이가 발생함에 따라 확률적 방식으로 증가한다고 믿어져서, 면역 인식의 가능성을 증가시킨다 (Gubin and Schreiber. Science 350: 158-9, 2015). 총 돌연변이 하중 평가는, 그러나, 전장 엑솜 서열분석 (WES)를 필요로 한다. 이러한 접근법은 특화된 조직 가공, 매칭된 정상 시료가 필요하고, 현재 연구 도구로서 주로 수행된다. 임상 설정에서 WES 수행의 기술 및 정보공학 도전을 감안하면, 변이 부담 검출의 대용 방법은 필요하다. 본 명세서에서 기재된 입증된 혼성 포착-기반 NGS 플랫폼을 포함하는 방법은, 예를 들어, 더욱 임상적으로-실행가능한 전환 시간 (~2 주), 표준화된 정보공학 파이프라인, 및 더욱 감당할 수 있는 비용을 포함하는, 몇 개의 실용적 이점을 갖는다. 이러한 접근법이 전통적 마커에 대해 다른 이점, 예컨대 조직화학에 의해 검출된 단백질 발현을 갖는 것은, 객관적 측정 (병리학 평점) 보다는 주관적 측정 (예를 들면, 돌연변이 하중)을 생산하기 때문이다 (Hansen and Siu. JAMA Oncol 2(1): 15-6, 2016). 또한, 이러한 플랫폼은 표적된 요법에 대하여 관련된 실행가능한 변이의 동시 검출을 용이하게 한다.

따라서, 본 발명은, 적어도 부분적으로, 샘플로부터 서브게놈 구간의 세트의 서열 제공에 의해, 샘플에서 돌연변이 하중의 평가; 및 돌연변이 하중의 값의 결정 방법을 제공하고, 여기에서 상기 값은 서브게놈 구간의 세트에서 변이의 수의 함수이다. 특정 구현예에서, 서브게놈 구간의 세트는 유전자의 소정의 세트, 예를 들어, 전체 게놈 또는 엑솜을 포함하지 않는 유전자의 소정의 세트 유래이다. 특정 구현예에서, 서브게놈 구간의 세트는 코딩 서브게놈 구간의 세트이다. 다른 구현예에서, 서브게놈 구간의 세트는 양쪽 코딩 서브게놈 구간 및 비-코딩 서브게놈 구간을 함유한다. 특정 구현예에서, 돌연변이 하중의 값은 서브게놈 구간의 세트에서 변이 (예를 들면, 체세포 변이)의 수의 함수이다. 특정 구현예에서, 변이의 수는 기능적 변이, 생식세포 변이, 또는 양쪽을 배제한다. 일부 구현예에서, 샘플은 종양 샘플 또는 종양에서 유래된 샘플이다. 본 명세서에서 기재된 방법은 또한, 예를 들면, 하나 이상의 하기 단계를 포함할 수 있다: 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계; 라이브러리를 베이트세트와 접촉시켜 혼성화에 의해 선택된 종양 구성원을 제공하고, 그렇게 함으로써 라이브러리 캐치를 제공하는 단계; 라이브러리 캐치로부터 종양 구성원에서 변이를 포함하는 서브게놈 구간용 판독을 획득하는 단계; 정렬 방법에 의해 판독을 정렬하는 단계; 미리선택된 뉴클레오타이드 위치용 판독으로부터 뉴클레오타이드 값을 획득하는 단계; 및 배정된 뉴클레오타이드 위치의 세트로부터 서브게놈 구간의 세트를 선택하는 단계, 여기에서 상기 서브게놈 구간의 세트는 유전자의 소정의 세트 유래이다. 샘플에서 돌연변이 하중 평가용 시스템은 또한 개시된다.

특정 용어들은 먼저 정의된다. 추가의 용어들은 명세서 전반에 걸쳐 정의된다.

본 명세서에서 사용된 바와 같이, 관사 "한" 및 "하나"는 관사의 문법적 목적의 1 초과 (예를 들면, 적어도 하나)를 지칭한다.

"약" 및 "대략"은 일반적으로 측정의 정확성 또는 성질을 감안하면 측정된 양에 대하여 오차의 허용가능한 정도를 의미할 수 있다. 예시적인 오차의 정도는 주어진 값 또는 값의 범위의 20 퍼센트(%) 이내, 전형적으로, 10% 이내, 및 더욱 전형적으로, 5% 이내이다.

"획득한다" 또는 "획득하는"은 상기 용어가 본 명세서에서 사용됨에 따라, 물리적 독립체 또는 값을 "직접적으로 획득" 또는 "간접적으로 획득"함으로써, 물리적 독립체, 또는 값, 예를 들면, 수치 값의 소유 수득을 지칭한다. "직접적으로 획득"은 물리적 독립체 또는 값을 수득하기 위한 과정 수행 (예를 들면, 합성 또는 분석적 방법 수행)을 의미한다. "간접적으로 획득"은 또 다른 자 또는 공급원 (예를 들면, 물리적 독립체 또는 값을 직접적으로 획득하였던 제3 자 실험실)로부터 물리적 독립체 또는 값의 수령을 지칭한다. 물리적 독립체의 직접적으로 획득은 물리적 서브스턴스, 예를 들면, 개시 물질에서 물리적 변화를 포함하는 과정 수행을 포함한다. 예시적인 변화는 2 이상의 개시 물질로부터 물리적 독립체의 제조, 서브스턴스의 전단 또는 단편화, 서브스턴스의 분리 또는 정제, 2 이상의 별개의 독립체의 혼합물로의 배합, 공유 또는 비 공유결합 파괴 또는 형성을 포함하는 화학 반응의 수행을 포함한다. 값의 직접적으로 획득은 샘플 또는 또 다른 서브스턴스에서 물리적 변화를 포함하는 과정의 수행, 예를 들면, 서브스턴스, 예를 들면, 샘플, 피분석물, 또는 시약에서 물리적 변화를 포함하는 분석적 과정 (때때로 본 명세서에서 "물리적 분석"으로서 지칭됨) 수행, 분석적 방법, 예를 들면, 하나 이상의 하기를 포함하는 방법의 수행을 포함한다: 또 다른 서브스턴스로부터, 서브스턴스, 예를 들면, 피분석물, 또는 이의 단편 또는 다른 유도체의 분리 또는 정제; 피분석물, 또는 단편 또는 이의 다른 유도체의, 또 다른 서브스턴스, 예를 들면, 완충액, 용매, 또는 반응물과의 배합; 또는 예를 들면, 피분석물의 제1 원자와 제 2 원자 사이, 공유 또는 비-공유결합을 파괴 또는 형성함으로써, 피분석물, 또는 이의 단편 또는 다른 유도체의 구조의 변화; 또는, 예를 들면, 시약의 제1 원자와 제 2 원자 사이, 공유 또는 비-공유결합을 파괴 또는 형성함으로써, 시약, 또는 이의 단편 또는 다른 유도체의 구조의 변화.

"서열의 획득" 또는 "판독의 획득"은 용어가 본 명세서에서 사용됨에 따라, 서열 또는 판독의 "직접적으로 획득" 또는 "간접적으로 획득"에 의해, 뉴클레오타이드 서열 또는 아미노산 서열의 소유 수득을 지칭한다. 서열 또는 판독의 "직접적으로 획득"은 서열을 수득하기 위한 과정 수행 (예를 들면, 합성 또는 분석적 방법 수행), 예컨대 서열분석 방법 (예를 들면, 차세대 서열분석 (NGS) 방법) 수행을 의미한다. 서열 또는 판독의 "간접적으로 획득"은 또 다른 자 또는 공급원 (예를 들면, 서열을 직접적으로 획득하였던 제3 자 실험실)로부터 서열의 수령 또는, 서열의 정보 또는 지식의 수령을 지칭한다. 획득된 서열 또는 판독은 전체 서열일 필요는 없고, 예를 들면, 피험체에서 존재하는 바와 같이 본 명세서에서 개시된 하나 이상의 변이를 확인하는 적어도 하나의 뉴클레오타이드의 서열분석, 또는 정보 또는 지식의 수득은 서열 획득을 구성한다.

서열 또는 판독의 직접적으로 획득은 물리적 서브스턴스, 예를 들면, 개시 물질, 예컨대 조직 또는세포 샘플, 예를 들면, 생검, 또는 단리된 핵산 (예를 들면, DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정 수행을 포함한다. 예시적인 변화는 2 이상 개시 물질로부터 물리적 독립체의 제조, 서브스턴스, 예컨대 게놈 DNA 단편의 전단 또는 단편화; 서브스턴스의 분리 또는 정제 (예를 들면, 조직으로부터 핵산 샘플의 단리); 2 이상의 별개 독립체의 혼합물로의 배합, 공유 또는 비-공유결합의 파괴 또는 형성을 포함하는 화학 반응의 수행을 포함한다. 값의 직접적으로 획득은 상기 기재된 바와 같이 샘플 또는 또 다른 서브스턴스에서 물리적 변화를 포함한다.

"샘플의 획득"은 상기 용어가 본 명세서에서 사용됨에 따라, 샘플의 "직접적으로 획득" 또는 "간접적으로 획득"에 의해, 샘플, 예를 들면, 조직 샘플 또는 핵산 샘플의 소유 획득을 지칭한다. "샘플의 직접적으로 획득"은 샘플을 수득하기 위한 과정 수행 (예를 들면, 물리적 방법 예컨대 수술 또는 추출 수행)을 의미한다. "샘플의 간접적으로 획득"은 또 다른 자 또는 공급원 (예를 들면, 샘플을 직접적으로 획득하였던 제3 자 실험실)로부터 샘플의 수령을 지칭한다. 샘플의 직접적으로 획득은 물리적 서브스턴스, 예를 들면, 개시 물질, 예컨대 조직, 예를 들면, 인간 환자내 조직 또는 환자로부터 이전에 단리되었던 조직에서 물리적 변화를 포함하는 과정의 수행을 포함한다. 예시적인 변화는 개시 물질로부터 물리적 독립체의 제조, 조직의 박리 또는 스크래이핑; 서브스턴스 (예를 들면, 샘플 조직 또는 핵산 샘플)의 분리 또는 정제; 2 이상의 별개 독립체의 혼합물로의 배합; 공유 또는 비-공유결합의 파괴 또는 형성을 포함하는 화학 반응의 수행을 포함한다. 샘플의 직접적으로 획득은, 예를 들면, 상기 기재된 바와 같이, 샘플 또는 또 다른 서브스턴스에서 물리적 변화를 포함하는 과정의 수행을 포함한다.

"정렬 선택인자"는, 본 명세서에서 사용된 바와 같이, 미리선택된 서브게놈 구간의 서열분석을 최적화할 수 있는, 정렬 방법, 예를 들면, 정렬 알고리즘 또는 파라미터의 선택을 허용 또는 유도하는 파라미터를 지칭한다. 정렬 선택인자는, 예를 들면, 하나 이상의 하기에 특이적일 수 있거나, 상기의 함수로서 선택될 수 있다:

1. 상기 서브게놈 구간용 판독의 오정렬에 대하여 경향과 관련되는 서열 문맥, 예를 들면, 서브게놈 구간 (예를 들면, 평가되는 미리선택된 뉴클레오타이드 위치)의 서열 문맥예를 들면, 게놈에서 다른 곳에 반복되는 평가된 서브게놈 구간에서 또는 근처에서 서열 요소의 존재는 오정렬을 야기시킬 수 있고 그렇게 함으로써 성능을 감소시킬 수 있다. 성능은 오정렬을 최소화하는 알고리즘 또는 알고리즘 파라미터의 선택에 의해 향상될 수 있다. 이 경우에 정렬 선택인자의 값은 서열 문맥, 예를 들면, 게놈에서 (또는 분석될 게놈의 부분에서) 적어도 미리선택된 횟수 반복되는 미리선택된 길이의 서열의 존재 또는 부재의 함수일 수 있다.

2. 분석될 종양 유형. 예를 들면, 특이적 종양 유형은 결실의 증가율을 특징으로 할 수 있다. 따라서, 성능은 인델에 더욱 감수성인 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 이 경우에 정렬 선택인자의 값은 종양 유형의 함수, 예를 들면, 종양 유형용 식별자일 수 있다. 한 구현예에서 상기 값은 종양 유형, 예를 들면, 혈액성 악성종양 (또는 전악성 종양)의 동일성이다.

3. 분석될 유전자, 또는 유전자의 유형, 예를 들면, 유전자, 또는 유전자의 유형은 분석될 수 있다. 종양유전자는, 예로써, 종종 치환 또는 인프레임 인델을 특징으로 한다. 따라서, 성능은 기타에 대해 특이적이고 이들 변이체에 특히 감수성인 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 종양 억제제는 종종 프레임-시프트 인델을 특징으로 한다. 따라서, 성능은 이들 변이체에 특히 감수성인 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 따라서, 성능은 서브게놈 구간과 매칭된 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 이 경우에 정렬 선택인자의 값은 유전자 또는 유전자 유형의 함수, 예를 들면, 유전자 또는 유전자 유형용 식별자일 수 있다. 한 구현예에서 상기 값은 유전자의 동일성이다.

4. 분석될 부위 (예를 들면, 뉴클레오타이드 위치). 이 경우에 정렬 선택인자의 값은 부위 또는 부위의 유형의 함수, 예를 들면, 부위 또는 부위 유형용 식별자일 수 있다. 한 구현예에서 상기 값은 부위의 동일성이다. (예를 들면, 부위를 함유하는 유전자가 또 다른 유전자와 고도로 상동성이면, 정상/빠른 짧은 판독치 정렬 알고리즘 (예를 들면, BWA)는 2 유전자 사이 식별하는 어려움을 가질 수 있어서, 잠재적으로 더욱 집중적인 정렬 방법 (Smith-Waterman) 또는 심지어 어셈블리 (ARACHNE)를 필요로 한다. 유사하게, 유전자 서열이 저-복잡성 영역 (예를 들면, AAAAAA)를 함유하면, 더욱 집중적인 정렬 방법은 필요할 수 있다.

5. 평가될 서브게놈 구간과 관련된, 변이체, 또는 변이체의 유형. 예를 들면, 치환, 삽입, 결실, 전좌 또는 다른 재배열. 따라서, 성능은 특이적 변이체 유형에 더욱 감수성인 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 이 경우에 정렬 선택인자의 값은 변이체의 유형의 함수, 예를 들면, 변이체의 유형용 식별자일 수 있다. 한 구현예에서 상기 값은 변이체의 유형, 예를 들면, 치환의 동일성이다.

6. 샘플, FFPE 또는 다른 고정된 샘플의 유형. 샘플 유형/품질은 오차 (비-참조 서열의 그럴듯한 관찰) 속도에 영향을 줄 수 있다. 따라서, 성능은 샘플에서 진정한 오차 속도를 정확하게 모델링하는 알고리즘 또는 알고리즘 파라미터 선택에 의해 향상될 수 있다. 이 경우에 정렬 선택인자의 값은 샘플의 유형의 함수, 예를 들면, 샘플 유형용 식별자일 수 있다. 한 구현예에서, 상기 값은 샘플 유형, 예를 들면, 고정된 샘플의 동일성이다.

본 명세서에서 사용된 바와 같이, 유전자 또는 유전자 생성물 (예를 들면, 마커 유전자 또는 유전자 생성물)의 "변이" 또는 "변이된 구조"는 유전자 또는 유전자 생성물 안에 돌연변이 또는 돌연변이들, 예를 들면, 정상 또는 야생형 유전자에 비교된 경우, 유전자 또는 유전자 생성물의 완전성, 서열, 구조, 양 또는 활성에 영향을 주는 돌연변이의 존재를 지칭한다. 변이는, 정상 또는 건강한 조직 또는세포 (예를 들면, 대조군)에서, 그것의 양, 구조, 및/또는 활성에 비교된 경우, 암 조직 또는 암세포에서 양, 구조, 및/또는 활성일 수 있고, 질환 상태, 예컨대 암과 관련된다. 예를 들어, 암과 관련되는, 또는 항-암 치료제에 반응성을 예측하는 변이는, 정상, 건강한 조직 또는세포에 비교된 경우, 암 조직 또는 암세포에서, 변이된 뉴클레오타이드 서열 (예를 들면, 돌연변이), 아미노산 서열, 염색체 전좌, 염색체내 역전, 카피 수, 발현 수준, 단백질 수준, 단백질 활성, 후성유전적 변형 (예를 들면, 메틸화 또는 아세틸화 상태, 또는 번역후 변형을 가질 수 있다. 예시적인 돌연변이는, 비제한적으로, 점 돌연변이 (예를 들면, 침묵, 미스센스, 또는 논센스), 결실, 삽입, 역전, 중복, 증폭, 전좌, 염색체간 및 염색체내 재배열을 포함한다. 돌연변이는 유전자의 코딩 또는 비-코딩 영역에서 존재할 수 있다. 특정 구현예에서, 변이(들)은 재배열, 예를 들면, 하나 이상의 인트론 또는 이의 단편을 포함하는 게놈 재배열 (예를 들면, 5'- 및/또는 3'-UTR에서 하나 이상의 재배열)로서 검출된다. 특정 구현예에서, 변이는 표현형, 예를 들면, 암성 표현형 (예를 들면, 하나 이상의 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 저항)과 관련된다 (또는 관련되지 않는다). 일 구현예에서, 변이는 하나 이상의 하기와 관련된다: 암용 유전적 위험 인자, 양성 치료 반응 예측변수, 음성 치료 반응 예측변수, 양성 예후 인자, 음성 예후 인자, 또는 진단 인자.

본 명세서에서 사용된 바와 같이, 용어 "인델"은세포의 핵산에서 하나 이상의 뉴클레오타이드의 삽입, 결실, 또는 양쪽을 지칭한다. 특정 구현예에서, 인델은 하나 이상의 뉴클레오타이드의 양쪽 삽입 및 결실을 포함하고, 여기에서 양쪽 삽입 및 결실은 핵산에서 인근이다. 특정 구현예에서, 인델은 뉴클레오타이드의 총 수에서 순 변화를 초래한다. 특정 구현예에서, 인델은 약 1 내지 약 50개 뉴클레오타이드의 순 변화를 초래한다.

"클론 프로파일"은, 그 용어가 본 명세서에서 사용됨에 따라, 피험체 구간의 (또는 동일한 것을 포함하는세포의), 발생, 동일성, 가변성, 분포, 발현 (서브게놈 시그니처의 전사된 카피의 수준 또는 발생), 또는 하나 이상의 서열, 예를 들면, 대립유전자 또는 시그니처의 존재도, 예를 들면, 상대 존재도를 지칭한다. 한 구현예에서, 클론성 프로파일은 그 피험체 구간에 대하여 복수의 서열, 대립유전자, 또는 시그니처가 샘플에서 존재하는 경우 피험체 구간으로 (또는 동일한 것을 포함하는세포의), 하나의 서열, 대립유전자, 또는 시그니처에 대하여 상대 존재도의 값이다. 예를 들면, 한 구현예에서, 클론성 프로파일은 피험체 구간에 대하여 복수의 VDJ 또는 VJ 조합의 하나 이상의, 상대 존재도의 값을 포함한다. 한 구현예에서, 클론성 프로파일은 피험체 구간에 대하여, 선택된 V세그먼트의, 상대 존재도의 값을 포함한다. 한 구현예에서, 클론성 프로파일은, 예를 들면, 피험체 구간의 서열 안에서, 체세포 과돌연변이에서 발생함에 따라, 다양성의 값을 포함한다. 한 구현예에서, 클론성 프로파일은, 예를 들면, 서열, 대립유전자 또는 시그니처를 포함하는 발현된 서브게놈 구간의 수준 또는 발생에 의해 입증된 경우, 서열, 대립유전자, 또는 시그니처의 발생 또는 발현 수준의 값을 포함한다.

"발현된 서브게놈 구간"은, 그 용어가 본 명세서에서 사용됨에 따라, 서브게놈 구간의 전사된 서열을 지칭한다. 한 구현예에서, 발현된 서브게놈 구간의 서열은, 예를 들면, 일부 서열이 전사될 수 없음에 따라, 전사되는 서브게놈 구간과 상이할 것이다.

"시그니처"는, 그 용어가 본 명세서에서 사용됨에 따라, 피험체 구간의 서열을 지칭한다. 시그니처는 피험체 구간에서 복수의 가능성 중 하나의 발생의 진단일 수 있고, 예를 들면, 시그니처는 하기의 진단일 수 있다: 재배열된 중쇄 또는 경쇄 가변 영역 유전자에서 선택된 V세그먼트의 발생; 선택된 VJ 접합의 발생, 예를 들면, 재배열된 중쇄 가변 영역 유전자에서 선택된 V 및 선택된 J세그먼트의 발생. 한 구현예에서, 시그니처는 복수의 특이적 핵산 서열을 포함한다. 따라서, 시그니처는 특이적 핵산 서열에 제한되지 않고, 오히려 피험체 구간에서 서열 또는 가능성의 제1 그룹과 피험체 구간에서 가능성의 제2 그룹 사이 식별할 수 있다는 것이 충분히 특유하고, 예를 들면, 제1 V세그먼트와 제2 V세그먼트 사이 식별할 수 있어서, 예를 들면, 다양한 V세그먼트의 용법의 평가를 허용한다. 용어 시그니처는, 특이적 핵산 서열인, 용어 특이적 시그니처를 포함한다. 한 구현예에서 시그니처는 특이적 사건, 예를 들면, 재배열 사건을 나타내거나, 상기의 생성물이다.

"서브게놈 구간"은 그 용어가 본 명세서에서 사용됨에 따라, 게놈 서열의 한 부분을 지칭한다. 한 구현예에서, 서브게놈 구간은 단일 뉴클레오타이드 위치, 예를 들면, 종양 표현형과 (긍정적으로 또는 부정적으로) 관련되는 뉴클레오타이드 위치 변이체일 수 있다. 한 구현예에서, 서브게놈 구간은 1 초과 뉴클레오타이드 위치를 포함한다. 그와 같은 구현예는 길이 적어도 2, 5, 10, 50, 100, 150, 또는 250개 뉴클레오타이드 위치의 서열을 포함한다. 서브게놈 구간은 전체 유전자, 또는 이의 미리선택된 부분, 예를 들면, 코딩 영역 (또는 이의 부분), 미리선택된 인트론 (또는 이의 부분) 또는 엑손 (또는 이의 부분)을 포함할 수 있다. 서브게놈 구간은 천연 발생, 예를 들면, 게놈 DNA, 핵산의 단편의 전부 또는 일부를 포함할 수 있다. 예를 들면, 서브게놈 구간은 서열분석 반응을 거치는 게놈 DNA의 단편에 상응할 수 있다. 구현예에서, 서브게놈 구간은 게놈 공급원으로부터 연속 서열이다. 구현예에서, 서브게놈 구간은 게놈에서 인접하지 않는 서열을 포함하고, 예를 들면, cDNA내 엑손-엑손 접합부에서 형성 발견된 접합부를 포함할 수 있다.

한 구현예에서, 서브게놈 구간은 재배열된 서열, 예를 들면, V세그먼트의 D세그먼트로의, D세그먼트의 J세그먼트로의, V세그먼트의 J세그먼트로의, 또는 J세그먼트의 부류세그먼트로의 접합의 결과로서 일어나는 B 또는 T세포에서 서열에 상응한다.

한 구현예에서, 서브게놈 구간에서 다양성은 없다.

한 구현예에서, 서브게놈 구간에서 다양성이 있고, 예를 들면, 상기 서브게놈 구간은 1개 초과의 서열에 의해 표시되고, 예를 들면, VD 서열을 포함하는 서브게놈 구간은 1개 초과의 시그니처에 의해 표시될 수 있다.

한 구현예에서, 서브게놈 구간은 하기를 포함하거나 하기로 구성된다: 단일 뉴클레오타이드 위치; 유전자내 영역 또는 유전자간 영역; 엑손 또는 인트론, 또는 이의 단편, 전형적으로 엑손 서열 또는 이의 단편; 코딩 영역 또는 비-코딩 영역, 예를 들면, 프로모터, 인핸서, 5' 미번역된 영역 (5' UTR), 또는 3' 미번역된 영역 (3' UTR), 또는 이의 단편; cDNA 또는 이의 단편; SNP; 체세포 돌연변이, 생식세포 돌연변이 또는 양쪽; 변이, 예를 들면, 점 또는 단일 돌연변이; 결실 돌연변이 (예를 들면, 인프레임 결실, 유전자내 결실, 전체 유전자 결실); 삽입 돌연변이 (예를 들면, 유전자내 삽입); 역전 돌연변이 (예를 들면, 염색체내 역전); 연결 돌연변이; 연결된 삽입 돌연변이; 역전된 중복 돌연변이; 일렬 중복 (예를 들면, 염색체내 일렬 중복); 전좌 (예를 들면, 염색체 전좌, 비-상호 전좌); 재배열 (예를 들면, 게놈 재배열 (예를 들면, 하나 이상의 인트론, 또는 이의 단편의 재배열; 재배열된 인트론은 5'- 및/또는 3'- UTR을 포함할 수 있다)); 유전자 카피 수에서의 변화; 유전자 발현에서의 변화; RNA 수준에서의 변화; 또는 이의 조합. "유전자의 카피 수"는 특정 유전자 생성물을 인코딩하는세포에서 DNA 서열의 수를 지칭한다. 일반적으로, 주어진 유전자에 대하여, 포유동물은 각 유전자 당 2 카피를 갖는다. 카피 수는, 예를 들면, 유전자 증폭 또는 중복에 의해 증가될 수 있거나, 결실에 의해 감소될 수 있다.

"피험체 구간"은, 그 용어가 본 명세서에서 사용됨에 따라, 서브게놈 구간 또는 발현된 서브게놈 구간을 지칭한다. 한 구현예에서, 서브게놈 구간 및 발현된 서브게놈 구간은 상응하여, 발현된 서브게놈 구간이 상응하는 서브게놈 구간으로부터 발현된 서열을 포함한다는 것을 의미한다. 한 구현예에서, 서브게놈 구간 및 발현된 서브게놈 구간은 비-상응하여, 발현된 서브게놈 구간이 비-상응하는 서브게놈 구간으로부터 발현된 서열을 포함하지 않고, 오히려 상이한 서브게놈 구간에 상응한다는 것을 의미한다. 한 구현예에서, 서브게놈 구간 및 발현된 서브게놈 구간은 부분적으로 상응하여, 발현된 서브게놈 구간이 상응하는 서브게놈 구간으로부터 발현된 서열 및 상이한 상응하는 서브게놈 구간으로부터 발현된 서열을 포함한다는 것을 의미한다.

본 명세서에서 사용된 바와 같이, 용어 "라이브러리"는 구성원의 수집을 지칭한다. 일 구현예에서, 라이브러리는 핵산 구성원의 수집, 예를 들면, 전체 게놈, 서브게놈 단편, cDNA, cDNA 단편, RNA, 예를 들면, mRNA, RNA 단편, 또는 이의 조합의 수집을 포함한다. 일 구현예에서, 라이브러리 구성원의 한 부분 또는 모두는 어댑터 서열을 포함한다. 어댑터 서열은 한쪽 또는 양쪽 단부에 위치할 수 있다. 어댑터 서열은, 예를 들면, 서열분석 방법 (예를 들면, NGS 방법), 증폭, 역전사, 또는 벡터 속으로 클로닝에 유용할 수 있다.

라이브러리는 구성원, 예를 들면, 표적 구성원 (예를 들면, 종양 구성원, 참조 구성원, PGx 구성원, 또는 이의 조합)의 수집을 포함할 수 있다. 라이브러리의 구성원은 단일 개체 유래일 수 있다. 구현예에서, 라이브러리는 1개 초과의 피험체 (예를 들면, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 이상의 피험체)로부터 구성원을 포함할 수 있고, 예를 들면, 상이한 피험체로부터 2 이상 라이브러리는 조합되어 1 초과 피험체로부터 구성원을 포함하는 라이브러리를 형성할 수 있다. 일 구현예에서, 피험체는 암 또는 종양을 갖거나, 가질 위험에 처한 인간이다.

"라이브러리 캐치"는 라이브러리의 서브세트, 예를 들면, 미리선택된 서브게놈 구간, 예를 들면, 미리선택된 베이트와 혼성화에 의해 포착된 생성물로 농축된 서브세트를 지칭한다.

"구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는, 본 명세서에서 사용된 바와 같이, 라이브러리의 구성원인, 핵산 분자, 예를 들면, DNA, RNA, 또는 이의 조합을 지칭한다. 전형적으로, 구성원은 DNA 분자, 예를 들면, 게놈 DNA 또는 cDNA이다. 구성원은 단편화된, 예를 들면, 전단된 또는 효소적으로 제조된, 게놈 DNA일 수 있다. 구성원은 피험체로부터 서열을 포함하고 또한 피험체에서 유래되지 않은 서열, 예를 들면, 어댑터 서열, 프라이머 서열, 또는 확인을 허용하는 다른 서열, 예를 들면, "바코드" 서열을 포함할 수 있다.

"베이트"는, 본 명세서에서 사용된 바와 같이, 혼성 포착 시약의 유형이다. 베이트는, 혼성화할 수 있는 (예를 들면, 상보적일 수 있는) 핵산 분자, 예를 들면, DNA 또는 RNA 분자일 수 있고, 그렇게 함으로써 표적 핵산의 포착을 허용한다. 일 구현예에서, 베이트는 RNA 분자 (예를 들면, 자연 발생 또는 변형된 RNA 분자); DNA 분자 (예를 들면, 자연 발생 또는 변형된 DNA 분자), 또는 이의 조합이다. 다른 구현예에서, 베이트는, 예를 들면, 베이트 및 베이트에 혼성화된 핵산에 의해 형성된 혼성의, 결합 독립체에 결합에 의해, 포착 및 분리를 허용하는, 결합 독립체, 예를 들면, 친화성 태그를 포함한다. 일 구현예에서, 베이트는 용액상 혼성화에 적합하다. 일 구현예에서, 베이트는 2환형 핵산 (BNA) 분자이다.

"베이트세트"는, 본 명세서에서 사용된 바와 같이, 하나의 또는 복수의 베이트 분자를 지칭한다.

"결합 독립체"는 분자 태그가 피분석물에 특이적으로 결합할 수 있는 직접적으로 또는 간접적으로 부착될 수 있는 임의의 분자를 의미한다. 결합 독립체는 각각 베이트 서열에서 친화성 태그일 수 있다. 특정 구현예에서, 결합 독립체는 파트너, 예컨대 아비딘 분자, 또는 합텐 또는 이의 항원-결합 단편에 결합하는 항체에 결합함으로써, 혼성화 혼합물로부터 베이트/구성원 혼성의 분리를 허용한다. 예시적인 결합 독립체는, 비제한적으로, 바이오틴 분자, 합텐, 항체, 항체 결합 단편, 펩타이드, 및 단백질을 포함한다.

"상보적"은 2 핵산 가닥의 영역 사이 또는 동일한 핵산 가닥의 2 영역 사이 서열 상보성을 지칭한다. 잔기가 티민 또는 우라실이면 제1 영역에 역평행인 제2 핵산 영역의 잔기와 제1 핵산 영역의 아데닌 잔기가 특이적 수소 결합 ("염기 짝짓기")를 형성할 수 있다는 것이 공지된다. 유사하게, 잔기가 구아닌이면 제1 가닥에 역평행인 제2 핵산 가닥의 잔기와 제1 핵산 가닥의 시토신 잔기가 염기 짝짓기할 수 있다는 것이 공지된다. 2 영역이 역평행 방식으로 배열되는 경우, 제1 영역의 적어도 하나의 뉴클레오타이드 잔기가 제2 영역의 잔기와 염기 짝짓기할 수 있다면 핵산의 제1 영역은 동일한 또는 상이한 핵산의 제2 영역에 상보적이다. 특정 구현예에서, 제1 영역은 제1 부분을 포함하고 제2 영역은 제2 부분을 포함하고, 이로써, 제1 및 제2 부분이 역평행 방식으로 배열되는 경우, 제1 부분의 뉴클레오타이드 잔기의 적어도 약 50%, 적어도 약 75%, 적어도 약 90%, 또는 적어도 약 95%는 제2 부분에서 뉴클레오타이드 잔기와 염기 짝짓기할 수 있다. 다른 구현예에서, 제1 부분의 모든 뉴클레오타이드 잔기는 제2 부분에서 뉴클레오타이드 잔기와 염기 짝짓기할 수 있다.

용어 "암" 또는 "종양"은 상호교환적으로 본 명세서에서 사용된다. 이들 용어들은 암-유발세포, 예컨대 조절되지 않는 증식, 불멸, 전이 가능성, 급속 성장 및 증식 속도, 및 특정 특징적인 형태적 특징의 전형적인 특징을 소유하는세포의 존재를 지칭한다. 암세포는 종종 종양의 형태이지만, 그와 같은세포는 동물 안에 단독으로 존재할 수 있거나, 비-종양형성 암세포, 예컨대 백혈병세포일 수 있다. 이들 용어들은 고체 종양, 연조직 종양, 또는 전이성 병변을 포함한다. 본 명세서에서 사용된 바와 같이, 용어 "암"은 전악성, 뿐만 아니라 악성 암을 포함한다.

"할 것 같은" 또는 "증가된 가능성"은, 본 명세서에서 사용된 바와 같이, 항목, 객체, 사물 또는 사람이 발생할 증가된 개연성을 지칭한다. 따라서, 일 예에서, 치료에 반응할 것 같은 피험체는 참조 피험체 또는 피험체의 그룹에 비해 치료에 반응의 증가된 개연성을 갖는다.

"할 것 같지 않은"은 사건, 항목, 객체, 사물 또는 사람이 참조에 관해 발생할 감소된 개연성을 지칭한다. 따라서, 치료에 반응할 것 같지 않은 피험체는 참조 피험체 또는 피험체의 그룹에 비해 치료에 반응의 감소된 개연성을 갖는다.

"대조군 구성원"은 비-종양세포로부터 서열을 갖는 구성원을 지칭한다.

"인델 정렬 서열 선택인자"는, 본 명세서에서 사용된 바와 같이, 미리선택된 인델의 경우에서 판독이 정렬되는 서열의 선택을 허용 또는 유도하는 파라미터를 지칭한다. 그와 같은 서열의 사용은 인델을 포함하는 미리선택된 서브게놈 구간의 서열분석을 최적화할 수 있다. 인델 정렬 서열 선택인자의 값은 미리선택된 인델의 함수, 예를 들면, 인델용 식별자이다. 한 구현예에서 상기 값은 인델의 동일성이다.

"차세대 서열분석 또는 NGS 또는 NG 서열분석"은 본 명세서에서 사용된 바와 같이, 어느 한쪽 개별 핵산 분자 (예를 들면, 단일 분자 서열분석에서) 또는 고처리량 방식에서 개별 핵산 분자에 대하여 클론적으로 확대된 프록시의 뉴클레오타이드 서열을 결정하는 임의의 서열분석 방법을 지칭한다 (예를 들면, 10³ 초과, 10⁴, 10⁵ 이상 분자는 동시에 서열분석된다). 일 구현예에서, 라이브러리에서 핵산 종의 상대 존재도는 서열분석 실험에 의해 생성된 데이터에서 그것의 동족 서열의 발생의 비례수 계수에 의해 추정될 수 있다. 차세대 서열분석 방법은 당해 기술에 공지되어 있고, 예를 들면, 하기에서 기재된다: Metzker, M. (2010) Nature Biotechnology Reviews 11: 31-46 (본 명세서에서 참고로 편입됨). 차세대 서열분석은 샘플에서 핵산의 5% 미만에서 존재하는 변이체를 검출할 수 있다.

"뉴클레오타이드 값"은 본 명세서에서 지칭된 바와 같이, 미리선택된 뉴클레오타이드 위치에 배정된 또는 차지하는 뉴클레오타이드(들)의 동일성을 나타낸다. 전형적인 뉴클레오타이드 값은 하기를 포함한다: 누락 (예를 들면, 결실됨); 추가 (예를 들면, 하나 이상의 뉴클레오타이드의 삽입, 포함될 수 있거나 아닐 수 있는 동일성); 또는 존재 (점유된); A; T; C; 또는 G. 다른 값은, 예를 들면, Y가 아닐 수 있고, 여기에서 Y는 A, T, G, 또는 C임; A 또는 X, 여기에서 X는 T, G, 또는 C 중 하나 또는 둘임; T 또는 X, 여기에서 X는 A, G, 또는 C 중 하나 또는 둘임; G 또는 X, 여기에서 X는 T, A, 또는 C 중 하나 또는 둘임; C 또는 X, 여기에서 X는 T, G, 또는 A 중 하나 또는 둘임; 피리미딘 뉴클레오타이드; 또는 퓨린 뉴클레오타이드일 수 있다. 뉴클레오타이드 값은 뉴클레오타이드 위치에서 1개 이상, 예를 들면, 2, 3, 또는 4개의 염기 (또는 본 명세서에서 기재된 다른 값, 예를 들면, 누락 또는 추가)용 빈도일 수 있다. 예를 들면, 뉴클레오타이드 값은 뉴클레오타이드 위치에서 A용 빈도, 및 G용 빈도를 포함할 수 있다.

"또는"은, 문맥이 명확히 달리 나타내지 않는 한, 용어 "및/또는"을 의미하기 위해 본 명세서에서 사용되고, 상기와 상호교환적으로 사용된다. 본 명세서에서 어느 곳에서 용어 "및/또는"의 사용은 용어 "또는"의 사용이 문맥상 달리 명확하게 나타내지 않는 한 용어 "및/또는"과 교환가능하지 않다는 것을 의미하지 않는다.

"1차 대조군"은 종양 샘플에서 NAT 조직 이외의 비 종양 조직을 지칭한다. 혈액은 전형적인 1차 대조군이다.

"재배열 정렬 서열 선택인자"는, 본 명세서에서 사용된 바와 같이, 미리선택된 재배열의 경우에서 판독이 정렬되는 서열의 선택을 허용 또는 유도하는 파라미터를 지칭한다. 그와 같은 서열의 사용은 재배열을 포함하는 미리선택된 서브게놈 구간의 서열분석을 최적화할 수 있다. 재배열 정렬 서열 선택인자의 값은 미리선택된 재배열의 함수, 예를 들면, 재배열용 식별자이다. 한 구현예에서 상기 값은 재배열의 동일성이다. (또한 본 명세서에서 다른 곳에 정의된) "인델 정렬 서열 선택인자"는 재배열 정렬 서열 선택인자의 예이다.

"샘플", "조직 샘플", "환자 샘플", "환자세포 또는 조직 샘플" 또는 "시료"는 피험체 또는 환자로부터 수득된, 조직,세포, 예를 들면, 순환세포를 포함한다. 조직 샘플의 공급원은 신선한, 냉동된 및/또는 보존된 장기, 조직 샘플, 생검, 또는 천자로부터 고체 조직; 혈액 또는 임의의 혈액 구성성분; 체액 예컨대 뇌 척수액, 양수, 복막 유체 또는 간질액; 또는 피험체의 발달 또는 임신에서 임의의 시간으로부터세포일 수 있다. 조직 샘플은 자연에서 조직과 자연적으로 상호혼합되지 않는 화합물 예컨대 보존제, 항응고제, 완충액, 정착액, 영양소, 항생제 또는 기타를 함유할 수 있다. 일 구현예에서, 샘플은 냉동된 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매된 (FFPE) 조직 제제로서 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들면, FFPE 블록 또는 냉동된 샘플에서 포매될 수 있다. 또 다른 구현예에서, 샘플은 혈액 샘플이다. 더욱 또 다른 구현예에서, 샘플은 골수 천자 샘플이다. 또 다른 구현예에서, 샘플은 순환 종양 DNA (ctDNA)를 포함한다. 또 다른 구현예에서, 샘플은 순환 종양세포 (CTCs)를 포함한다.

한 구현예에서, 샘플은 종양과 관련된세포, 예를 들면, 종양세포 또는 종양-침윤 림프구 (TIL)이다. 일 구현예에서, 샘플은 종양 샘플이고, 예를 들면, 하나 이상의 전악성 또는 악성세포를 포함한다. 한 구현예에서, 샘플은 혈액성 악성종양 (또는 전악성 종양), 예를 들면, 본 명세서에서 기재된 혈액성 악성종양 (또는 전악성 종양)으로부터 획득된다. 특정 구현예에서, 샘플, 예를 들면, 종양 샘플은 고체 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 구현예에서, 샘플, 예를 들면, 종양 샘플은 수술 절제면으로부터 조직 또는세포를 포함한다. 또 다른 구현예에서, 샘플, 예를 들면, 종양 샘플은 하나 이상의 순환 종양세포 (CTC) (예를 들면, 혈액 샘플로부터 획득된 CTC)를 포함한다. 한 구현예에서, 샘플은 종양과 관련되지 않은세포, 예를 들면, 비-종양세포 또는 주변 혈액 림프구이다.

"감수성"은, 본 명세서에서 사용된 바와 같이, 서열의 불균질 모집단에서 미리선택된 서열 변이체를 검출하는 방법의 능력 측정이다. 미리선택된 서열 변이체가 샘플에서 서열의 적어도 F%로서 존재하는 샘플을 감안하여, 방법이 C%의 미리선택된 신뢰에서, 시간의S% 미리선택된 서열을 검출할 수 있는 경우, 방법은 F%의 변이체에 대하여 S%의 감수성을 갖는다. 예로써, 미리선택된 변이체 서열이 샘플에서 서열의 적어도 5%로서 존재하는 샘플을 감안하여, 방법이 99%의 미리선택된 신뢰에서, 10회 중 9회 미리선택된 서열을 검출할 수 있다면 방법은 5%의 변이체에 대하여 90%의 감수성을 갖는다 (F=5%; C=99%; S=90%). 예시적인 감수성은 C= 90%, 95%, 99%, 및 99. 9%의 신뢰 수준에서 F=1%, 5%, 10%, 20%, 50%, 100%로 서열 변이체에 대하여 S=90%, 95%, 99%의 것을 포함한다.

"특이성"은, 본 명세서에서 사용된 바와 같이, 서열분석 인공물 또는 다른 밀접하게 관련된 서열과 정말로 발생하는 미리선택된 서열 변이체를 식별하는 방법의 능력 측정이다. 거짓 양성 검출을 피하기 위한 능력이다. 거짓 양성 검출은 샘플 제조, 서열분석 오차, 또는 유전자 계열의 슈도-유전자 또는 구성원 같은 밀접하게 관련된 서열의 우연한 서열분석 동안 관심 서열 속으로 도입된 오차에서 일어날 수 있다. XTrue 서열이 진정한 변이체이고 XNot true 가 진정한 변이체가 아닌, N총 서열의 샘플세트에 적용된 경우, 상기 방법이 부정 변이체로서 진정하지 않은 변이체의 적어도 X %를 선택하면 방법은 X%의 특이성을 갖는다. 예를 들면, 500 서열이 진정한 변이체이고 500이 진정한 변이체가 아닌, 1,000 서열의 샘플세트에 적용된 경우, 방법이 부정한 변이체로서 500 진정하지 않은 변이체 서열의 90%를 선택하면 방법은 90%의 특이성을 갖는다. 예시적인 특이성은 90, 95, 98, 및 99%를 포함한다.

"종양 핵산 샘플"은 본 명세서에서 사용된 바와 같이, 종양 또는 암 샘플로부터 핵산 분자를 지칭한다. 전형적으로, 종양 또는 암 샘플로부터, DNA, 예를 들면, 게놈 DNA, 또는 RNA에서 유래된 cDNA이다. 특정 구현예에서, 종양 핵산 샘플은 정제 또는 단리된다 (예를 들면, 그것의 천연 상태로부터 제거된다).

"대조군" 또는 "참조" "핵산 샘플"은 본 명세서에서 사용된 바와 같이, 대조군 또는 참조 샘플로부터 핵산 분자를 지칭한다. 전형적으로, 유전자 또는 유전자 생성물에서 변이 또는 변화를 함유하지 않는, DNA, 예를 들면, 게놈 DNA, 또는 RNA에서 유래된 cDNA이다. 특정 구현예에서, 참조 또는 대조군 핵산 샘플은 야생형 또는 비-돌연변이된 서열이다. 특정 구현예에서, 참조 핵산 샘플은 정제 또는 단리된다 (예를 들면, 그것의 천연 상태로부터 제거된다). 다른 구현예에서, 참조 핵산 샘플은 비-종양 샘플, 예를 들면, 혈액 대조군, 정상 인접한 조직 (NAT), 또는 동일한 또는 상이한 피험체로부터 임의의 다른 비-암성 샘플 유래이다.

핵산 분자의 "서열분석"은 분자 (예를 들면, DNA 분자, RNA 분자, 또는 RNA 분자에서 유래된 cDNA 분자)에서 적어도 1 뉴클레오타이드의 동일성 결정을 필요로 한다. 구현예에서 분자에서 뉴클레오타이드의 모두 미만의 동일성은 결정된다. 다른 구현예에서, 분자에서 다수 또는 모든 뉴클레오타이드의 동일성은 결정된다.

"역치 값"은, 본 명세서에서 사용된 바와 같이, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)에 뉴클레오타이드 값을 배정하기 위해 존재하도록 요구된 판독의 수의 함수인 값이다. 예를 들면, 서브게놈 구간에서 그 뉴클레오타이드 위치에 그 뉴클레오타이드 값을 배정하도록 요구된, 뉴클레오타이드 위치에서 특이적 뉴클레오타이드 값, 예를 들면, "A"를 갖는 판독의 수의 함수이다. 역치 값은, 예를 들면, 수많은 판독, 예를 들면, 정수로서, 또는 미리선택된 값을 갖는 판독의 분율로서 (또는 상기의 함수로서) 표현될 수 있다. 예로써, 역치 값이 X이고, "A"의 뉴클레오타이드 값을 갖는 X+1 판독이 존재하면, "A"의 값은 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)에서 미리선택된 위치에 배정된다. 역치 값은 또한 돌연변이 또는 변이체 기대, 돌연변이 빈도, 또는 베이지안 선행의 함수로서 표현될 수 있다. 한 구현예에서, 미리선택된 돌연변이 빈도는, 그 뉴클레오타이드 값을 판정하기 위해, 미리선택된 위치에서, 뉴클레오타이드 값, 예를 들면, A 또는 G를 갖는 판독의 미리선택된 수 또는 분율을 요구할 것이다. 구현예에서 역치 값은 돌연변이 기대, 예를 들면, 돌연변이 빈도, 및 종양 유형의 함수일 수 있다. 예를 들면, 미리선택된 뉴클레오타이드 위치에서 미리선택된 변이체는 환자가 제1 종양 유형을 가지면 제1 역치 값 그리고 환자가 제2 종양 유형을 가지면 제2 역치 값을 가질 수 있다.

본 명세서에서 사용된 바와 같이, "표적 구성원"은 핵산 라이브러리로부터 단리시키기를 원하는 핵산 분자를 지칭한다. 일 구현예에서, 표적 구성원은 본 명세서에서 기재된 바와 같이 종양 구성원, 참조 구성원, 대조군 구성원, 또는 PGx 구성원일 수 있다.

"종양 구성원", 또는 다른 유사한 용어 (예를 들면, "종양 또는 암-관련된 구성원")은, 본 명세서에서 사용된 바와 같이 종양세포로부터 서열을 갖는 구성원을 지칭한다. 일 구현예에서, 종양 구성원은 암성 표현형과 관련된 변이 (예를 들면, 돌연변이)를 갖는 서열 (예를 들면, 뉴클레오타이드 서열)을 갖는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함한다. 다른 구현예에서, 종양 구성원은 야생형 서열 (예를 들면, 야생형 뉴클레오타이드 서열)을 갖는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함한다. 예를 들어, 암세포에서 존재하는 이종접합성 또는 동종접합성 야생형 대립유전자로부터 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간). 종양 구성원은 참조 구성원 또는 PGx 구성원을 포함할 수 있다.

"참조 구성원", 또는 다른 유사한 용어 (예를 들면, "대조군 구성원")은, 본 명세서에서 사용된 바와 같이, 암성 표현형과 관련되지 않는 서열 (예를 들면, 뉴클레오타이드 서열)을 갖는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 구성원을 지칭한다. 일 구현예에서, 참조 구성원은 돌연변이된 경우 암성 표현형과 관련되는 유전자 또는 유전자 생성물의 야생형 또는 비-돌연변이된 뉴클레오타이드 서열을 포함한다. 참조 구성원은 암세포 또는 비-암세포에서 존재할 수 있다.

"PGx 구성원" 또는 다른 유사한 용어는, 본 명세서에서 사용된 바와 같이, 유전자의 약물유전학 또는 약물유전체학 프로파일과 관련되는 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함하는 구성원을 지칭한다. 일 구현예에서, PGx 구성원은 SNP (예를 들면, 본 명세서에서 기재된 SNP)를 포함한다. 다른 구현예에서, PGx 구성원은 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 따른 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)을 포함한다.

"변이체"는, 본 명세서에서 사용된 바와 같이, 다형성 좌위에서 1 초과 구조, 예를 들면, 대립유전자를 가질 수 있는 서브게놈 구간에서 존재할 수 있는 구조를 지칭한다.

본 명세서에서 사용된 바와 같이, "X가 Y의 함수이다"는, 예를 들면, 가변 X가 또 다른 가변 Y와 관련되는 것을 의미한다. 일 구현예에서, X가 Y의 함수이면, X와 Y 사이 인과관계 관계는 암시될 수 있지만, 반드시 실재하지 않는다.

제목, 예를 들면, (a), (b), (i) 등은 명세서 및 청구범위 판독의 용이성을 위하여 단지 표시된다. 명세서 또는 청구범위에서 제목의 사용은 알파벳 또는 숫자 순서 또는 이들이 표시되는 순서에서 단계 또는 요소가 수행되는 것을 요구하지 않는다.

돌연변이 하중

본 명세서에서 사용된 바와 같이, 용어 "돌연변이 하중" 또는 "변이 하중"는 유전자의 소정의 세트에서 (예를 들면, 유전자의 소정의 세트의 코딩 영역에서) 미리선택된 유닛당 (예를 들면, 메가베이스당) 변이 (예를 들면, 하나 이상의 변이, 예를 들면, 하나 이상의 체세포 변이)의 수준, 예를 들면, 수를 지칭한다. 돌연변이 하중은, 예를 들면, 게놈 또는 엑솜의 서브세트 기준으로 또는, 전체 게놈 또는 엑솜 기준으로 측정될 수 있다. 특정 구현예에서, 게놈 또는 엑솜의 서브세트의 기준으로 측정된 돌연변이 하중은 전체 게놈 또는 엑솜 돌연변이 하중을 결정하기 위해 추론될 수 있다.

특정 구현예에서, 돌연변이 하중은, 피험체, 예를 들면, 본 명세서에서 기재된 피험체로부터, 샘플, 예를 들면, 종양 샘플 (예를 들면, 종양 샘플 또는 종양에서 유래된 샘플)에서 측정된다. 특정 구현예에서, 돌연변이 하중은, 예를 들면, 참조 집단으로부터 샘플내 돌연변이 하중 중에서 백분위수로서 표현된다. 특정 구현예에서, 참조 집단은 피험체로서 동일한 유형의 암을 가진 환자를 포함한다. 다른 구현예에서, 참조 집단은, 피험체로서, 동일한 유형의 요법을 받고 있거나, 받아 왔던 환자를 포함한다. 특정 구현예에서, 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 제시된 유전자의 소정의 세트에서 본 명세서에서 기재된 방법에 의해, 예를 들면, 변이 (예를 들면, 체세포 변이)의 수준 평가에 의해 수득된 돌연변이 하중은 전체 게놈 또는 엑솜 돌연변이 하중과 상관관계가 있다.

용어들 "돌연변이 하중", "돌연변이 하중", "돌연변이 부담", 및 "변이 부담"은 상호교환적으로 본 명세서에서 사용된다. 종양의 문맥에서, 돌연변이 하중은 또한 본 명세서에서 "종양 변이 부담", "종양 돌연변이 부담", 또는 "TMB"로서 지칭된다.

유전자 선택

(또한 본 명세서에서 "표적 유전자 또는 유전자 생성물"로서 지칭된) 선택된 유전자 또는 유전자 생성물은 유전자내 영역 또는 유전자간 영역을 포함하는 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)을 포함할 수 있다. 예를 들어, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 엑손 또는 인트론, 또는 이의 단편, 전형적으로 엑손 서열 또는 이의 단편을 포함할 수 있다. 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 코딩 영역 또는 비-코딩 영역, 예를 들면, 프로모터, 인핸서, 5' 미번역된 영역 (5' UTR), 또는 3' 미번역된 영역 (3' UTR), 또는 이의 단편을 포함할 수 있다. 다른 구현예에서, 피험체 구간은 cDNA 또는 이의 단편을 포함한다. 다른 구현예에서, 피험체 구간은, 예를 들면, 본 명세서에서 기재된 바와 같이, SNP를 포함한다.

다른 구현예에서, 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 실질적으로 게놈, 예를 들면, 본 명세서에서 기재된 바와 같이 하나 이상의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에서 모든 엑손 (예를 들면, 관심 유전자 또는 유전자 생성물 (예를 들면, 본 명세서에서 기재된 바와 같이 암성 표현형과 관련된 유전자 또는 유전자 생성물)로부터 선택된 엑손)을 포함한다. 일 구현예에서, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 체세포 돌연변이, 생식세포 돌연변이 또는 양쪽을 포함한다. 일 구현예에서, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 변이, 예를 들면, 점 또는 단일 돌연변이, 결실 돌연변이 (예를 들면, 인프레임 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이 (예를 들면, 유전자내 삽입), 역전 돌연변이 (예를 들면, 염색체내 역전), 연결 돌연변이, 연결된 삽입 돌연변이, 역전된 중복 돌연변이, 일렬 중복 (예를 들면, 염색체내 일렬 중복), 전좌 (예를 들면, 염색체 전좌, 비-상호 전좌), 재배열, 유전자 카피 수에서의 변화, 또는 이의 조합을 포함한다. 특정 구현예에서, 피험체 구간 (예를 들면, 서브게놈 구간 또는 발현된 서브게놈 구간)은 샘플에서 종양세포의 게놈의 코딩 영역의 5%, 1%, 0.5%, 0.1%, 0.01%, 0.001% 미만을 구성한다. 다른 구현예에서, 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)은 질환에서 관여되지 않고, 예를 들면, 본 명세서에서 기재된 바와 같이 암성 표현형과 관련되지 않는다.

일 구현예에서, 상기 표적 유전자 또는 유전자 생성물은 바이오마커이다. 본 명세서에서 사용된 바와 같이, "바이오마커" 또는 "마커"는 변이될 수 있는 유전자, mRNA, 또는 단백질이고, 여기에서 상기 변이는 암과 관련된다. 변이는, 정상 또는 건강한 조직 또는세포 (예를 들면, 대조군)에서, 그것의 양, 구조, 및/또는 활성에 비교된 경우, 암 조직 또는 암세포에서 양, 구조, 및/또는 활성일 수 있고, 질환 상태, 예컨대 암과 관련된다. 예를 들어, 암과 관련된, 또는 항-암 치료제에 반응성을 예측하는 마커는, 정상, 건강한 조직 또는세포에 비교된 경우 암 조직 또는 암세포에서, 변이된 뉴클레오타이드 서열, 아미노산 서열, 염색체 전좌, 염색체내 역전, 카피 수, 발현 수준, 단백질 수준, 단백질 활성, 후성유전적 변형 (예를 들면, 메틸화 또는 아세틸화 상태, 또는 번역후 변형을 가질 수 있다. 게다가, "마커"는 구조가 변경되는, 예를 들면, 돌연변이되는 (돌연변이를 함유하는), 예를 들면, 질환 상태, 예컨대 암과 관련된 조직 또는세포에서 존재하는 경우, 예를 들면, 치환, 결실, 또는 삽입에 의해, 뉴클레오타이드 또는 아미노산 수준에서 야생형 서열과 상이한 분자를 포함한다.

일 구현예에서, 상기 표적 유전자 또는 유전자 생성물은 단일 뉴클레오타이드 다형성 (SNP)를 포함한다. 또 다른 구현예에서, 유전자 또는 유전자 생성물은 작은 결실, 예를 들면, 작은 유전자내 결실 (예를 들면, 인프레임 또는 프레임-시프트 결실)을 갖는다. 더욱 또 다른 구현예에서, 표적 서열은 전체 유전자의 결실에서 비롯한다. 추가의 또 다른 구현예에서, 표적 서열은 작은 삽입, 예를 들면, 작은 유전자내 삽입을 갖는다. 일 구현예에서, 표적 서열은 역전, 예를 들면, 염색체간 역전에서 비롯한다. 또 다른 구현예에서, 표적 서열은 염색체간 전좌에서 비롯한다. 더욱 또 다른 구현예에서, 표적 서열은 일렬 중복을 갖는다. 일 구현예에서, 표적 서열은 바람직하지 않은 특징 (예를 들면, 고 GC 함량 또는 반복 요소)를 갖는다. 또 다른 구현예에서, 표적 서열은, 예를 들면, 그것의 반복적인 성질 때문에, 자체 성공적으로 표적될 수 없는 뉴클레오타이드 서열의 한 부분을 갖는다. 일 구현예에서, 표적 서열은 대안적인 스플라이싱에서 비롯한다. 또 다른 구현예에서, 표적 서열은 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 따라 유전자 또는 유전자 생성물, 또는 이의 단편으로부터 선택된다.

한 구현예에서, 상기 표적 유전자 또는 유전자 생성물, 또는 이의 단편은 항체 유전자 또는 유전자 생성물, 면역글로불린 상과 수용체 (예를 들면, B-세포 수용체 (BCR) 또는 T-세포 수용체 (TCR)) 유전자 또는 유전자 생성물, 또는 이의 단편이다.

인간 항체 분자 (및 B세포 수용체)는 적어도 하기 3 유전자좌에서 유전자에 의해 인코딩되는 양쪽 불변 (C) 및 가변 (V) 영역을 가진 중쇄 및 경쇄로 구성된다.

1. 면역글로불린 중쇄용 유전자세그먼트를 함유하는, 염색체 14 상의 면역글로불린 중 좌위 (IGH＠);

2. 면역글로불린 경쇄용 유전자세그먼트를 함유하는, 염색체 2 상의 면역글로불린 카파 (κ) 좌위 (IGK＠);

3. 면역글로불린 경쇄용 유전자세그먼트를 함유하는, 염색체 22 상의 면역글로불린 람다 (λ) 좌위 (IGL＠).

각각의 중쇄 및 경쇄 유전자는 항체 단백질의 가변 영역용 유전자세그먼트의 3 상이한 유형의 다중 카피를 함유한다. 예를 들어, 면역글로불린 중쇄 영역은 5 상이한 부류 γ, δ, α, μ 및 ε, 44개 가변 (V) 유전자세그먼트, 27개 다양성 (D) 유전자세그먼트, 및 6개 접합 (J) 유전자세그먼트 중 하나를 함유한다. 경쇄는 또한 수많은 V 및 J 유전자세그먼트를 소유할 수 있지만, D 유전자세그먼트를 갖지 않는다. 람다 경쇄는 7개의 가능한 C 영역을 갖고 카파 경쇄는 1개를 갖는다.

면역글로불린 중 좌위 (IGH＠)는 인간 항체 (또는 면역글로불린)의 중쇄용 유전자를 함유하는 인간 염색체 14 상의 영역이다. 예를 들어, IGH 좌위는 IGHV (가변), IGHD (다양성), IGHJ (접합), 및 IGHC (불변) 유전자를 포함한다. 면역글로불린 중쇄를 인코딩하는 예시적인 유전자는, 비제한적으로 하기를 포함한다: IGHV1-2, IGHV1-3, IGHV1-8, IGHV1-12, IGHV1-14, IGHV1-17, IGHV1-18, IGHV1-24, IGHV1-45, IGHV1-46, IGHV1-58, IGHV1-67, IGHV1-68, IGHV1-69, IGHV1-38-4, IGHV1-69-2, IGHV2-5, IGHV2-10, IGHV2-26, IGHV2-70, IGHV3-6, IGHV3-7, IGHV3-9, IGHV3-11, IGHV3-13, IGHV3-15, IGHV3-16, IGHV3-19, IGHV3-20, IGHV3-21, IGHV3-22, IGHV3-23, IGHV3-25, IGHV3-29, IGHV3-30, IGHV3-30-2, IGHV3-30-3, IGHV3-30-5, IGHV3-32, IGHV3-33, IGHV3-33-2, IGHV3-35, IGHV3-36, IGHV3-37, IGHV3-38, IGHV3-41, IGHV3-42, IGHV3-43, IGHV3-47, IGHV3-48, IGHV3-49, IGHV3-50, IGHV3-52, IGHV3-53, IGHV3-54, IGHV3-57, IGHV3-60, IGHV3-62, IGHV3-63, IGHV3-64, IGHV3-65, IGHV3-66, IGHV3-71, IGHV3-72, IGHV3-73, IGHV3-74, IGHV3-75, IGHV3-76, IGHV3-79, IGHV3-38-3, IGHV3-69-1, IGHV4-4, IGHV4-28, IGHV4-30-1, IGHV4-30-2, IGHV4-30-4, IGHV4-31, IGHV4-34, IGHV4-39, IGHV4-55, IGHV4-59, IGHV4-61, IGHV4-80, IGHV4-38-2, IGHV5-51, IGHV5-78, IGHV5-10-1, IGHV6-1, IGHV7-4-1, IGHV7-27, IGHV7-34-1, IGHV7-40, IGHV7-56, IGHV7-81, IGHVII-1-1, IGHVII-15-1, IGHVII-20-1, IGHVII-22-1, IGHVII-26-2, IGHVII-28-1, IGHVII-30-1, IGHVII-31-1, IGHVII-33-1, IGHVII-40-1, IGHVII-43-1, IGHVII-44-2, IGHVII-46-1, IGHVII-49-1, IGHVII-51-2, IGHVII-53-1, IGHVII-60-1, IGHVII-62-1, IGHVII-65-1, IGHVII-67-1, IGHVII-74-1, IGHVII-78-1, IGHVIII-2-1, IGHVIII-5-1, IGHVIII-5-2, IGHVIII-11-1, IGHVIII-13-1, IGHVIII-16-1, IGHVIII-22-2, IGHVIII-25-1, IGHVIII-26-1, IGHVIII-38-1, IGHVIII-44, IGHVIII-47-1, IGHVIII-51-1, IGHVIII-67-2, IGHVIII-67-3, IGHVIII-67-4, IGHVIII-76-1, IGHVIII-82, IGHVIV-44-1, IGHD1-1, IGHD1-7, IGHD1-14, IGHD1-20, IGHD1-26, IGHD2-2, IGHD2-8, IGHD2-15, IGHD2-21, IGHD3-3, IGHD3-9, IGHD3-10, IGHD3-16, IGHD3-22, IGHD4-4, IGHD4-11, IGHD4-17, IGHD4-23, IGHD5-5, IGHD5-12, IGHD5-18, IGHD5-24, IGHD6-6, IGHD6-13, IGHD6-19, IGHD6-25, IGHD7-27, IGHJ1, IGHJ1P, IGHJ2, IGHJ2P, IGHJ3, IGHJ3P, IGHJ4, IGHJ5, IGHJ6, IGHA1, IGHA2, IGHG1, IGHG2, IGHG3, IGHG4, IGHGP, IGHD, IGHE, IGHEP1, IGHM, 및 IGHV1-69D.

면역글로불린 카파 좌위 (IGK＠)는 항체 (또는 면역글로불린)의 카파 (κ) 경쇄용 유전자를 함유하는 인간 염색체 2 상의 영역이다. 예를 들어, IGK 좌위는 IGKV (가변), IGKJ (접합), 및 IGKC (불변) 유전자를 포함한다. 면역글로불린 카파 경쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, 하기를 포함한다: IGKV1-5, IGKV1-6, IGKV1-8, IGKV1-9, IGKV1-12, IGKV1-13, IGKV1-16, IGKV1-17, IGKV1-22, IGKV1-27, IGKV1-32, IGKV1-33, IGKV1-35, IGKV1-37, IGKV1-39, IGKV1D-8, IGKV1D-12, IGKV1D-13, IGKV1D-16 IGKV1D-17, IGKV1D-22, IGKV1D-27, IGKV1D-32, IGKV1D-33, IGKV1D-35, IGKV1D-37, IGKV1D-39, IGKV1D-42, IGKV1D-43, IGKV2-4, IGKV2-10, IGKV2-14, IGKV2-18, IGKV2-19, IGKV2-23, IGKV2-24, IGKV2-26, IGKV2-28, IGKV2-29, IGKV2-30, IGKV2-36, IGKV2-38, IGKV2-40, IGKV2D-10, IGKV2D-14, IGKV2D-18, IGKV2D-19, IGKV2D-23, IGKV2D-24, IGKV2D-26, IGKV2D-28, IGKV2D-29, IGKV2D-30, IGKV2D-36, IGKV2D-38, IGKV2D-40, IGKV3-7, IGKV3-11, IGKV3-15, IGKV3-20, IGKV3-25, IGKV3-31, IGKV3-34, IGKV3D-7, IGKV3D-11, IGKV3D-15, IGKV3D-20, IGKV3D-25, IGKV3D-31, IGKV3D-34, IGKV4-1, IGKV5-2, IGKV6-21, IGKV6D-21, IGKV6D-41, IGKV7-3, IGKJ1, IGKJ2, IGKJ3, IGKJ4, IGKJ5, 및 IGKC.

면역글로불린 람다 좌위 (IGL＠)는 항체 (또는 면역글로불린)의 람다 경쇄용 유전자를 함유하는 인간 염색체 22 상의 영역이다. 예를 들어, IGL 좌위는 IGLV (가변), IGLJ (접합), 및 IGLC (불변) 유전자를 포함한다. 면역글로불린 람다 경쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, 하기를 포함한다: IGLV1-36, IGLV1-40, IGLV1-41, IGLV1-44, IGLV1-47, IGLV1-50, IGLV1-51, IGLV1-62, IGLV2-5, IGLV2-8, IGLV2-11, IGLV2-14, IGLV2-18, IGLV2-23, IGLV2-28, IGLV2-33, IGLV2-34, IGLV3-1, IGLV3-2, IGLV3-4, IGLV3-6, IGLV3-7, IGLV3-9, IGLV3-10, IGLV3-12, IGLV3-13, IGLV3-15, IGLV3-16, IGLV3-17, IGLV3-19, IGLV3-21, IGLV3-22, IGLV3-24, IGLV3-25, IGLV3-26, IGLV3-27, IGLV3-29, IGLV3-30, IGLV3-31, IGLV3-32, IGLV4-3, IGLV4-60, IGLV4-69, IGLV5-37, IGLV5-39, IGLV5-45, IGLV5-48, IGLV5-52, IGLV6-57, IGLV7-35, IGLV7-43, IGLV7-46, IGLV8-61, IGLV9-49, IGLV10-54, IGLV10-67, IGLV11-55, IGLVI-20, IGLVI-38, IGLVI-42, IGLVI-56, IGLVI-63, IGLVI-68, IGLVI-70, IGLVIV-53, IGLVIV-59, IGLVIV-64, IGLVIV-65, IGLVIV-66-1, IGLVV-58, IGLVV-66, IGLVVI-22-1, IGLVVI-25-1, IGLVVII-41-1, IGLJ1, IGLJ2, IGLJ3, IGLJ4, IGLJ5, IGLJ6, IGLJ7, IGLC1, IGLC2, IGLC3, IGLC4, IGLC5, IGLC6, 및 IGLC7.

B-세포 수용체 (BCR)은 2 파트로 구성된다: i) 하나의 아이소타입의 막-결합 면역글로불린 분자 (예를 들면, IgD 또는 IgM). 내재성 막 도메인의 존재를 예외로, 이들은 그것의 분비 형태와 동일할 수 있음 그리고 ⅱ) 신호 형질도입 모이어티: 디설파이드 브릿지에 의해 함께 결합된, Ig-α/Ig-β (CD79)로 불리는 이종이량체. 이량체의 각 구성원은 원형질막에 미치고 면역수용체 티로신-기반 활성화 모티프 (ITAM)을 보유하는세포질 꼬리를 갖는다.

T-세포 수용체 (TCR)은 2 상이한 단백질 쇄 (즉, 이종이량체)로 구성된다. T세포의 95%에서, 이것은 알파 (α) 및 베타 (β) 쇄로 구성되고, 반면에 T세포의 5%에서 이것은 감마 (γ) 및 델타 (δ) 쇄로 구성된다. 이러한 비는 개체 발생 동안 그리고 이환 상태에서 변화할 수 있다. T세포 수용체 유전자는 고유 항원 수용체를 가진 각세포를 제공하기 위해 림프구의 발생 동안 재배열되는 그것의 베타 및 델타 쇄내 다중 V, D 및 J 유전자세그먼트 (및 그것의 알파 및 감마 쇄내 V 및 J 유전자세그먼트)를 이들이 너무 많이 함유한다는 점에서 면역글로불린 유전자와 유사하다.

T-세포 수용체 알파 좌위 (TRA)는 TCR 알파 쇄용 유전자를 함유하는 인간 염색체 14 상의 영역이다. 예를 들어, TRA 좌위는, 예를 들면, TRAV (가변), TRAJ (접합), 및 TRAC (불변) 유전자를 포함한다. T-세포 수용체 알파 쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, 하기를 포함한다: TRAV1-1, TRAV1-2, TRAV2, TRAV3, TRAV4, TRAV5, TRAV6, TRAV7, TRAV8-1, TRAV8-2, TRAV8-3, TRAV8-4, TRAV8-5, TRAV8-6, TRAV8-7, TRAV9-1, TRAV9-2, TRAV10, TRAV11, TRAV12-1, TRAV12-2, TRAV12-3, TRAV13-1, TRAV13-2, TRAV14DV4, TRAV15, TRAV16, TRAV17, TRAV18, TRAV19, TRAV20, TRAV21, TRAV22, TRAV23DV6, TRAV24, TRAV25, TRAV26-1, TRAV26-2, TRAV27, TRAV28, TRAV29DV5, TRAV30, TRAV31, TRAV32, TRAV33, TRAV34, TRAV35, TRAV36DV7, TRAV37, TRAV38-1, TRAV38-2DV8, TRAV39, TRAV40, TRAV41, TRAJ1, TRAJ2, TRAJ3, TRAJ4, TRAJ5, TRAJ6, TRAJ7, TRAJ8, TRAJ9, TRAJ10, TRAJ11, TRAJ12, TRAJ13, TRAJ14, TRAJ15, TRAJ16, TRAJ17, TRAJ18, TRAJ19, TRAJ20, TRAJ21, TRAJ22, TRAJ23, TRAJ24, TRAJ25, TRAJ26, TRAJ27, TRAJ28, TRAJ29, TRAJ30, TRAJ31, TRAJ32, TRAJ33, TRAJ34, TRAJ35, TRAJ36, TRAJ37, TRAJ38, TRAJ39, TRAJ40, TRAJ41, TRAJ42, TRAJ43, TRAJ44, TRAJ45, TRAJ46, TRAJ47, TRAJ48, TRAJ49, TRAJ50, TRAJ51, TRAJ52, TRAJ53, TRAJ54, TRAJ55, TRAJ56, TRAJ57, TRAJ58, TRAJ59, TRAJ60, TRAJ61, 및 TRAC.

T-세포 수용체 베타 좌위 (TRB)는 TCR 베타 쇄용 유전자를 함유하는 인간 염색체 7 상의 영역이다. 예를 들어, TRB 좌위는, 예를 들면, TRBV (가변), TRBD (다양성), TRBJ (접합), 및 TRBC (불변) 유전자를 포함한다. T-세포 수용체 베타 쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, 하기를 포함한다: TRBV1, TRBV2, TRBV3-1, TRBV3-2, TRBV4-1, TRBV4-2, TRBV4-3, TRBV5-1, TRBV5-2, TRBV5-3, TRBV5-4, TRBV5-5, TRBV5-6, TRBV5-7, TRBV6-2, TRBV6-3, TRBV6-4, TRBV6-5, TRBV6-6, TRBV6-7, TRBV6-8, TRBV6-9, TRBV7-1, TRBV7-2, TRBV7-3, TRBV7-4, TRBV7-5, TRBV7-6, TRBV7-7, TRBV7-8, TRBV7-9, TRBV8-1, TRBV8-2, TRBV9, TRBV10-1, TRBV10-2, TRBV10-3, TRBV11-1, TRBV11-2, TRBV11-3, TRBV12-1, TRBV12-2, TRBV12-3, TRBV12-4, TRBV12-5, TRBV13, TRBV14, TRBV15, TRBV16, TRBV17, TRBV18, TRBV19, TRBV20-1, TRBV21-1, TRBV22-1, TRBV23-1, TRBV24-1, TRBV25-1, TRBV26, TRBV27, TRBV28, TRBV29-1, TRBV30, TRBVA, TRBVB, TRBV5-8, TRBV6-1, TRBD1, TRBD2, TRBJ1-1, TRBJ1-2, TRBJ1-3, TRBJ1-4, TRBJ1-5, TRBJ1-6, TRBJ2-1, TRBJ2-2, TRBJ2-2P, TRBJ2-3, TRBJ2-4, TRBJ2-5, TRBJ2-6, TRBJ2-7, TRBC1, 및 TRBC2.

T-세포 수용체 델타 좌위 (TRD)는 TCR 델타 쇄용 유전자를 함유하는 인간 염색체 14 상의 영역이다. 예를 들어, TRD 좌위는, 예를 들면, TRDV (가변), TRDJ (접합), 및 TRDC (불변) 유전자를 포함한다. T-세포 수용체 델타 쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, TRDV1, TRDV2, TRDV3, TRDD1, TRDD2, TRDD3, TRDJ1, TRDJ2, TRDJ3, TRDJ4, 및 TRDC를 포함한다.

T-세포 수용체 감마 좌위 (TRG)는 TCR 감마 쇄용 유전자를 함유하는 인간 염색체 7 상의 영역이다. 예를 들어, TRG 좌위는, 예를 들면, TRGV (가변), TRGJ (접합), 및 TRGC (불변) 유전자를 포함한다. T-세포 수용체 감마 쇄를 인코딩하는 예시적인 유전자는, 비제한적으로, TRGV1, TRGV2, TRGV3, TRGV4, TRGV5, TRGV5P, TRGV6, TRGV7, TRGV8, TRGV9, TRGV10, TRGV11, TRGVA, TRGVB, TRGJ1, TRGJ2, TRGJP, TRGJP1, TRGJP2, TRGC1, 및 TRGC2를 포함한다.

예시적인 암은, 비제한적으로, 하기를 포함한다: B세포 암, 예를 들면, 다중 골수종, 흑색종, 유방암, 폐암 (예컨대 비-소세포 폐암종 또는 NSCLC), 기관지 암, 결장직장 암, 전립선암, 췌장암, 위암, 난소암, 비뇨기 방광암, 뇌 또는 중추신경계 암, 말초 신경계 암, 식도암, 자궁경부암, 자궁 또는 자궁내막암, 구강 또는 인두의 암, 간암, 신장암, 고환암, 담관암, 소장 또는 맹장 암, 타액샘 암, 갑상선암, 부신 암, 골육종, 연골육종, 혈액 조직의 암, 선암종, 염증성 근섬유아세포 종양, 위장 기질 종양 (GIST), 결장 암, 다중 골수종 (MM), 골수이형성 증후군 (MDS), 골수증식성 장애 (MPD), 급성 림프구성 백혈병 (ALL), 급성 골수구성 백혈병 (AML), 만성 골수구성 백혈병 (CML), 만성 림프구성 백혈병 (CLL), 진성 적혈구증가증, 호지킨 림프종, 비-호지킨 림프종 (NHL), 연조직 육종, 섬유육종, 점액육종, 지방육종, 골원성 육종, 척색종, 맥관육종, 내피육종, 림프관육종, 림프관내피육종, 활막종, 중피종, 유잉 종양, 평활근육종, 횡문근육종, 편평상피세포 암종, 기저세포 암종, 선암종, 땀샘 암종, 피지샘 암종, 유두상 암종, 유두상 선암종, 수질 암종, 기관지 암종, 신장세포 암종, 간종양, 담관 암종, 융모막암종, 정상피종, 배아 암종, 윌름스 종양, 방광암종, 상피성 암종, 신경아교종, 별아교세포종, 수모세포종, 두개인두종, 뇌실막세포종, 송과체종, 혈관모세포종, 청신경종, 희소돌기아교세포종, 수막종, 신경교세포종, 망막모세포종, 소포성 림프종, 미만성 큰 B-세포 림프종, 맨틀세포 림프종, 간세포 암종, 갑상선 암, 위암, 두경부 암, 소세포 암, 본태성 혈소판증가증, 원인불명 골수 화생, 호산구과다 증후군, 전신 비만세포증, 가족성 과다호산구증가증, 만성 호산구 백혈병, 신경내분비 암, 암양종 종양, 및 기타.

추가의 예시적인 암은 표 6에서 기재된다.

한 구현예에서, 암은 혈액성 악성종양 (또는 전악성 종양)이다. 본 명세서에서 사용된 바와 같이, 혈액성 악성종양은 조혈 또는 림프양 조직의 종양, 예를 들면, 혈액, 골수, 또는 림프절에 영향을 주는 종양을 지칭한다. 예시적인 혈액성 악성종양은, 비제한적으로, 하기를 포함한다: 백혈병 (예를 들면, 급성 림프아구성 백혈병 (ALL), 급성 골수 백혈병 (AML), 만성 림프구성 백혈병 (CLL), 만성 골수성 백혈병 (CML), 털이 많은세포 백혈병, 급성 단구성 백혈병 (AMoL), 만성 골수단핵구성 백혈병 (CMML), 유년 골수단핵구성 백혈병 (JMML), 또는 큰 과립 림프구성 백혈병), 림프종 (예를 들면, AIDS-관련 림프종, 피부 T-세포 림프종, 호지킨 림프종 (예를 들면, 고전적 호지킨 림프종 또는 결절성 림프구-우세한 호지킨 림프종), 균상식육종, 비-호지킨 림프종 (예를 들면, B-세포 비-호지킨 림프종 (예를 들면, 버킷 림프종, 소림프구성 림프종 (CLL/SLL), 미만성 큰 B-세포 림프종, 소포성 림프종, 면역아세포성 큰세포 림프종, 전구체 B-림프아구성 림프종, 또는 맨틀세포 림프종) 또는 T-세포 비-호지킨 림프종 (균상식육종, 역형성 큰세포 림프종, 또는 전구체 T-림프아구성 림프종)), 1차 중추신경 시스템 림프종,세자리 증후군, 발덴스트룀 거대글로불린혈증), 만성 골수증식성 신생물, 랑게르한스세포 조직구증, 다중 골수종/혈장세포 신생물, 골수이형성 증후군, 또는 골수이형성/골수증식성 신생물. 전악성 종양은, 본 명세서에서 사용된 바와 같이, 아직 악성은 아니지만 악성이 되는 태세인 조직을 지칭한다.

일 구현예에서, 상기 표적 유전자 또는 유전자 생성물, 또는 이의 단편은 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 기재된 임의의 유전자 또는 유전자 생성물로부터 선택된다.

[표 1]

[표 2]

[표 3]

[표 4]

추가의 예시적인 유전자는 도 3a 내지 도 4d에 나타난다.

일 구현예에서, 상기 표적 유전자 또는 유전자 생성물, 또는 이의 단편은 암, 예를 들면, 혈액성 악성종양 (또는 전악성 종양)과 관련되는 하나 이상의 치환, 인델, 또는 카피 수 변이를 갖는다. 예시적인 유전자 또는 유전자 생성물은, 비제한적으로, 하기를 포함한다: ABL1, ACTB, AKT1, AKT2, AKT3, ALK, AMER1 (FAM123B 또는 WTX), APC, APH1A, AR, ARAF, ARFRP1, ARHGAP26 (GRAF) ARID1A, ARID2, ASMTL, ASXL1, ATM, ATR, ATRX, AURKA, AURKB, AXIN1, AXL, B2M, BAP1, BARD1, BCL10, BCL11B, BCL2, BCL2L2, BCL6, BCL7A, BCOR, BCORL1, BIRC3, BLM, BRAF, BRCA1, BRCA2, BRD4, BRIP1 (BACH1), BRSK1, BTG2, BTK, BTLA, c11 또는, f30 (EMSY), CAD, CARD11, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CCT6B, CD22, CD274, (PDL 1), CD36, CD58, CD70, CD79A, CD79B, CDC73, CDH1, CDK12, CDK4, CDK6, CDK8, CDKN1B, CDKN2A, CDKN2B, CDKN2C, CEBPA, CHD2, CHEK1, CHEK2, CIC, CIITA, CKS1B, CPS1, CREBBP, CRKL, CRLF2, CSF1R, CSF3R, CTCF, CTNNA1, CTNNB1, CUX1, CXCR4, DAXX, DDR2, DDX3X, DNM2, DNMT3A, DOT1L, DTX1, DUSP2, DUSP9, EBF1, ECT2L, EED, EGFR, ELP2, EP300, EPHA3, EPHA5, EPHA7, EPHB1, ERBB2, ERBB3, ERBB4, ERG, ESR1, ETS1, ETV6, EXOSC6, EZH2, FAF1, FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FAS (TNFRSF6), FBXO11, FBXO31, FBXW7, FGF10, FGF14, FGF19, FGF23, FGF3, FGF4, FGF6, FGFR1, FGFR2, FGFR3, FGFR4, FHIT, FLCN, FLT1, FLT3, FLT4, FLYWCH1, FOXL2, FOXO1, FOXO3, FOXP1, FRS2, GADD45B, GATA1, GATA2, GATA3, GID4 (C17orf39), GNA11, GNA12, GNA13, GNAQ, GNAS, GPR124, GRIN2A, GSK3B, GTSE1, HDAC1, HDAC4, HDAC7, HGF, HIST1H1C, HIST1H1D, HIST1H1E, HIST1H2AC, HIST1H2AG, HIST1H2AL, HIST1H2AM, HIST1H2BC, HIST1H2BJ, HIST1H2BK, HIST1H2BO, HIST1H3B, HNF1A, HRAS, HSP90AA1, ICK, ID3, IDH1, IDH2, IGF1R, IKBKE, IKZF1, IKZF2, IKZF3, IL7R, INHBA, INPP4B, INPP5D (SHIP), IRF1, IRF4, IRF8, IRS2, JAK1, JAK2, JAK3, JARID2, JUN, KAT6A (MYST3), KDM2B, KDM4C, KDM5A, KDM5C, KDM6A, KDR, KEAP1, KIT, KLHL6, KMT2A (MLL), KMT2B (MLL2), KMT2C (MLL3), KRAS, LEF1, LRP1B, LRRK2, MAF, MAFB, MAGED1, MALT1, MAP2K1, MAP2K2, MAP2K4, MAP3K1, MAP3K14, MAP3K6, MAP3K7, MAPK1, MCL1, MDM2, MDM4, MED12, MEF2B, MEF2C, MEN1, MET, MIB1, MITF, MKI67, MLH1, MPL, MRE11A, MSH2, MSH3, MSH6, MTOR, MUTYH, MYC, MYCL (MYCL1), MYCN, MYD88, MYO18A, NCOR2, NCSTN, NF1, NF2, NFE2L2, NFKBIA, NKX2-1, NOD1, NOTCH1, NOTCH2, NPM1, NRAS, NT5C2, NTRK1, NTRK2, NTRK3, NUP93, NUP98, P2RY8, PAG1, PAK3, PALB2, PASK, PAX5, PBRM1, PC, PCBP1, PCLO, PDCD1, PDCD11, PDCD1LG2 (PDL2), PDGFRA, PDGFRB, PDK1, PHF6, PIK3CA, PIK3CG, PIK3R1, PIK3R2, PIM1, PLCG2, POT1, PPP2R1A, PRDM1, PRKAR1A, PRKDC, PRSS8, PTCH1, PTEN, PTPN11, PTPN2, PTPN6 (SHP-1), PTPRO, RAD21, RAD50, RAD51, RAF1, RARA, RASGEF1A, RB1, RELN, RET, RHOA, RICTOR, RNF43, ROS1, RPTOR, RUNX1, S1PR2, SDHA, SDHB, SDHC, SDHD, SERP2, SETBP1, SETD2, SF3B1, SGK1, SMAD2, SMAD4, SMARCA1, SMARCA4, SMARCB1, SMC1A, SMC3, SMO, SOCS1, SOCS2, SOCS3, SOX10, SOX2, SPEN, SPOP, SRC, SRSF2, STAG2, STAT3, STAT4, STAT5A, STAT5B, STAT6, STK11, SUFU, SUZ12, TAF1, TBL1XR1, TCF3, TCL1A, TET2, TGFBR2, TLL2, TMEM30A, TMSB4XP8 (TMSL3), TNFAIP3, TNFRSF11A, TNFRSF14, TNFRSF17, TOP1, TP53, TP63, TRAF2, TRAF3, TRAF5, TSC1, TSC2, TSHR, TUSC3, TYK2, U2AF1, U2AF2, VHL, WDR90, WHSC1 (MMSET, 또는, NSD2), WISP3, WT1, XBP1, XPO1, YY1AP1, ZMYM3, ZNF217, ZNF24 (ZSCAN3), ZNF703, 또는 ZRSR2.

일 구현예에서, 상기 표적 유전자 또는 유전자 생성물, 또는 이의 단편은 암, 예를 들면, 혈액성 악성종양 (또는 전악성 종양)과 관련되는 하나 이상의 재배열을 갖는다. 예시적인 유전자 또는 유전자 생성물은, 비제한적으로, ALK, BCL6, BRAF, CRLF2, EPOR, ETV4, ETV6, FGFR2, IGK, BCL2, BCR, CCND1, EGFR, ETV1, ETV5, EWSR1, IGH, IGL, JAK1, KMT2A, (MLL), NTRK1, PDGFRB, RARA, ROS1, TRG, JAK2, MYC, PDGFRA, RAF1, RET, 또는 TMPRSS2를 포함한다.

또 다른 구현예에서, 상기 표적 유전자 또는 유전자 생성물, 또는 이의 단편은 암과 관련되는 하나 이상의 융합을 갖는다. 예시적인 유전자 또는 유전자 생성물은, 비제한적으로, 하기를 포함한다: ABI1, CBFA2T3, EIF4A2, FUS, JAK1, MUC1, PBX1, RNF213, TET1, ABL1, CBFB, ELF4, GAS7, JAK2, MYB, PCM1, ROS1, TFE3, ABL2, CBL, ELL, GLI1, JAK3, MYC, PCSK7, RPL22, TFG, ACSL6, CCND1, ELN, GMPS, JAZF1, MYH11, PDCD1LG2 (PDL2), RPN1, TFPT, AFF1, CCND2, EML4, GPHN, KAT6A (MYST3), MYH9, PDE4DIP, RUNX1, TFRC, AFF4, CCND3, EP300, HERPUD1, KDSR, NACA, PDGFB, RUNX1T1 (ETO), TLX1, ALK, CD274 (PDL1), EPOR, HEY1, KIF5B, NBEAP1 (BCL8), PDGFRA, RUNX2, TLX3, ARHGAP26 (GRAF), CDK6, EPS15, HIP1, KMT2A (MLL), NCOA2, PDGFRB, SEC31A, TMPRSS2, ARHGEF12, CDX2, ERBB2, HIST1H4I, LASP1, NDRG1, PER1, SEPT5, TNFRSF11A, ARID1A, CHIC2, ERG, HLF, LCP1, NF1, PHF1, SEPT6, TOP1, ARNT, CHN1, ETS1, HMGA1, LMO1, NF2, PICALM, SEPT9, TP63, ASXL1, CIC, ETV1, HMGA2, LMO2, NFKB2, PIM1, SET, TPM3, ATF1, CIITA, ETV4, HOXA11, LPP, NIN, PLAG1, SH3GL1, TPM4, ATG5, CLP1, ETV5, HOXA13, LYL1, NOTCH1, PML, SLC1A2, TRIM24, ATIC, CLTC, ETV6, HOXA3, MAF, NPM1, POU2AF1, SNX29 (RUNDC2A), TRIP11, BCL10, CLTCL1, EWSR1, HOXA9, MAFB, NR4A3, PPP1CB, SRSF3, TTL, BCL11A, CNTRL (CEP110), FCGR2B, HOXC11, MALT1, NSD1, PRDM1, SS18, TYK2, BCL11B, COL1A1, FCRL4, HOXC13, MDS2, NTRK1, PRDM16, SSX1, USP6, BCL2, CREB3L1, FEV, HOXD11, MECOM, NTRK2, PRRX1, SSX2, WHSC1 (MMSET, 또는, NSD2), BCL3, CREB3L2, FGFR1, HOXD13, MKL1, NTRK3, PSIP1, SSX4, WHSC1L1, BCL6, CREBBP, FGFR1OP, HSP90AA1, MLF1, NUMA1, PTCH1, STAT6, YPEL5, BCL7A, CRLF2, FGFR2, HSP90AB1, MLLT1 (ENL), NUP214, PTK7, STL, ZBTB16, BCL9, CSF1, FGFR3, IGH, MLLT10 (AF10), NUP98, RABEP1, SYK, ZMYM2, BCOR, CTNNB1, FLI1, IGK, MLLT3, NUTM2A, RAF1, TAF15, ZNF384, BCR, DDIT3, FNBP1, IGL, MLLT4, (AF6), OMD, RALGDS, TAL1, ZNF521, BIRC3, DDX10, FOXO1, IKZF1, MLLT6, P2RY8, RAP1GDS1, TAL2, BRAF, DDX6, FOXO3, IL21R, MN1, PAFAH1B2, RARA, TBL1XR1, BTG1, DEK, FOXO4, IL3, MNX1, PAX3, RBM15, TCF3 (E2A), CAMTA1, DUSP22, FOXP1, IRF4, MSI2, PAX5, RET, TCL1A (TCL1), CARS, EGFR, FSTL3, ITK, MSN, PAX7, RHOH, 또는 TEC.

추가의 예시적인 유전자는, 예를 들면, 하기의 표 1-11에서 기재된다: 국제 출원 공개 번호 WO2012/092426 (그것의 내용은 참고로 그 전문이 편입됨).

전술한 방법의 적용은 의료 시료내 서열분석용 특정 유전자 또는 유전자들의 모든 공지된 서열 변이체 (또는 이의 서브세트)를 함유하는 올리고뉴클레오타이드의 라이브러리 이용을 포함한다.

특정 구현예에서, 방법 또는 검정은 추가로 하기 단계들 중 하나 이상을 포함한다:

(i) 핵산 샘플을 지문화하는 단계;

(ⅱ) 핵산 샘플에서 유전자 또는 유전자 생성물 (예를 들면, 본 명세서에서 기재된 바와 같이 유전자 또는 유전자 생성물)의 존재도를 정량화하는 단계;

(ⅲ) 샘플에서 전사체의 상대 존재도를 정량화하는 단계;

(ⅳ) 특정 피험체 (예를 들면, 정상 대조군 또는 암 환자)에 속하는 경우 핵산 샘플을 확인하는 단계;

(v) 핵산 샘플에서 유전적 특성 (예를 들면, 하나 이상의 피험체의 유전자 구성 (예를 들면, 인종, 민족, 가족성 특성))을 확인하는 단계;

(ⅵ) 핵산 샘플에서 배수성을 결정하는 단계; 핵산 샘플에서 이형접합성의 손실을 결정하는 단계;

(ⅶ) 핵산 샘플에서 유전자 중복 사건의 존재 또는 부재를 결정하는 단계;

(ⅷ) 핵산 샘플에서 유전자 증폭 사건의 존재 또는 부재를 결정하는 단계; 또는

(ix) 핵산 샘플에서 종양/정상세포 혼합물의 수준을 결정하는 단계.

핵산 샘플

다양한 조직 샘플은 본 방법에서 사용된 핵산 샘플의 공급원일 수 있다. 게놈 또는 서브게놈 핵산 (예를 들면, DNA 또는 RNA)는 피험체의 샘플 (예를 들면, 종양 샘플, 정상 인접한 조직 (NAT), 혈액 샘플), 순환 종양세포 (CTC) 또는 임의의 정상 대조군을 함유하는 샘플)로부터 단리될 수 있다. 특정 구현예에서, 조직 샘플은 냉동된 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매된 (FFPE) 조직 제제로서 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들면, FFPE 블록 또는 냉동된 샘플에서 포매될 수 있다. 특정 구현예에서, 조직 샘플은 혈액 샘플이다. 다른 구현예에서, 조직 샘플은 골수 천자 (BMA) 샘플이다. 단리 단계는 개별 염색체의 유동-분류; 및/또는 피험체의 샘플 (예를 들면, 종양 샘플, NAT, 혈액 샘플)의 현미-해부를 포함할 수 있다.

"단리된" 핵산 분자는 핵산 분자의 천연 공급원에서 존재하는 다른 핵산 분자로부터 분리되는 것이다. 특정 구현예에서, "단리된" 핵산 분자는 핵산이 유래되는 유기체의 게놈 DNA에서 핵산을 자연적으로 측접하는 서열 (예컨대 단백질-인코딩 서열) (즉, 핵산의 5' 및 3' 단부에서 위치한 서열)이 없다. 예를 들어, 다양한 구현예에서, 단리된 핵산 분자는 핵산이 유래되는세포의 게놈 DNA에서 핵산 분자를 자연적으로 측접하는 뉴클레오타이드 서열의 약 5 kB 미만, 약 4 kB 미만, 약 3 kB 미만, 약 2 kB 미만, 약 1 kB 미만, 약 0.5 kB 미만 또는 약 0.1 kB 미만을 함유할 수 있다. 또한, "단리된" 핵산 분자, 예컨대 RNA 분자 또는 cDNA 분자는, 예를 들면, 재조합 기술에 의해 생산된 경우, 다른세포 물질 또는 배양 배지가 실질적으로 없을 수 있거나, 예를 들면, 화학적으로 합성된 경우 화학 전구체 또는 다른 화학물질이 실질적으로 없을 수 있다.

용어 "다른세포 물질 또는 배양 배지가 실질적으로 없는"은 단리되거나 재조합으로 생산되는세포의세포 성분으로부터 분자가 분리되는 핵산 분자의 제조를 포함한다. 따라서,세포 물질이 실질적으로 없는 핵산 분자는 다른세포 물질 또는 배양 배지의 약 30% 미만, 약 20% 미만, 약 10% 미만, 또는 약 5% 미만 (건조 중량 기준)을 가진 핵산 분자의 제제를 포함한다.

특정 구현예에서, 핵산은 에이징된 샘플, 예를 들면, 에이징된 FFPE 샘플로부터 단리된다. 에이징된 샘플은, 예를 들어, 예를 들면, 1세, 2세, 3세, 4세, 5세, 10세, 15세, 20세, 25세, 50세, 75세, 또는 100세 이상일 수 있다.

핵산 샘플은 다양한 크기의 조직 샘플 (예를 들면, 생검, FFPE 샘플, 혈액 샘플, 또는 골수 천자 샘플)로부터 수득될 수 있다. 예를 들어, 핵산은 5 내지 200㎛, 또는 이를 초과하는 조직 샘플로부터 단리될 수 있다. 예를 들어, 조직 샘플은 5㎛, 10㎛, 20㎛, 30㎛, 40㎛, 50㎛, 70㎛, 100㎛, 110㎛, 120㎛, 150㎛ 또는 200㎛ 이상을 측정할 수 있다.

조직 샘플로부터 DNA 단리용 프로토콜은 당해 기술에, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426의 실시예 1에서 제공된 바와 같이 공지되어 있다. 포름알데하이드- 또는 파라포름알데하이드-고정된, 파라핀-포매된 (FFPE) 조직으로부터 핵산 (예를 들면, DNA)의 추가의 단리 방법은, 예를 들면, 하기에서 개시된다: Cronin M. 등. , (2004) Am J Pathol . 164(1): 35-42; Masuda N. 등. , (1999) Nucleic Acids Res. 27(22): 4436-4443; Specht K. 등. , (2001) Am J Pathol. 158(2): 419-429, Ambion RecoverAll?? Total Nucleic Acid Isolation Protocol (Ambion, Cat. No. AM1975, September 2008), Maxwell® 16 FFPE Plus LEV DNA Purification Kit Technical Manual (Promega Literature #TM349, February 2011), E. Z. N. A. ^® FFPE DNa Kit Handbook (OMEGA bio-tek, Norcross, GA, 제품 번호 D3399-00, D3399-01, 및 D3399-02; June 2009), 및 QIAamp® DNA FFPE Tissue Handbook (Qiagen, Cat. No. 37625, October 2007). RecoverAll?? Total Nucleic Acid Isolation Kit는 고온에서 자일렌을 사용하여 파라핀-포매된 샘플을 가용화시키고 유리-섬유 필터를 사용하여 핵산을 포착한다. Maxwell® 16 FFPE Plus LEV DNA Purification Kit는 FFPE 조직의 게놈 DNA 1 내지 10㎛ 섹션의 정제를 위하여 Maxwell® 16 Instrument와 사용된다. DNA는 실리카-클래드 상자성 입자 (PMPs)를 사용하여 정제되고, 저 용출 용적으로 용출된다. E. Z. N. A. ^® FFPE DNA Kit는 게놈 DNA의 단리용 완충액 시스템 및 스핀 칼럼을 사용한다. QIAamp® DNA FFPE Tissue Kit는 게놈 및 미토콘드리아 DNA의 정제용 QIAamp® DNA Micro 기술을 사용한다. 혈액으로부터 DNA 단리용 프로토콜은, 예를 들면, Maxwell® 16 LEV Blood DNA Kit 및 Maxwell 16 Buccal Swab LEV DNA Purification Kit Technical Manual (Promega Literature #TM333, January 1, 2011)에서 개시된다.

RNA 단리용 프로토콜은, 예를 들면, Maxwell® 16 Total RNA Purification Kit Technical Bulletin (Promega Literature #TB351, August 2009)에서 개시된다.

단리된 핵산 샘플 (예를 들면, 게놈 DNA 샘플)은 일상적인 기술 실시에 의해 단편화 또는 전단될 수 있다. 예를 들어, 게놈 DNA는 물리적 전단 방법, 효소 절단 방법, 화학 절단 방법, 및 당해 분야의 숙련가에 잘 알려진 다른 방법에 의해 단편화될 수 있다. 핵산 라이브러리는 게놈의 모든 또는 실질적으로 모든 복잡성을 함유할 수 있다. 용어 "실질적으로 모든"은 이러한 문맥에서 실제로 절차의 초기 단계 동안 게놈 복잡성의 일부 원치않는 손실일 수 있다는 가능성을 지칭한다. 본 명세서에서 기재된 방법은 또한 핵산 라이브러리가 게놈의 한 부분인, 즉, 게놈의 복잡성이 설계에 의해 감소되는 사례에서 유용하다. 일부 구현예에서, 게놈의 임의의 선택된 부분은 본 명세서에서 기재된 방법과 사용될 수 있다. 특정 구현예에서, 전체 엑솜 또는 이의 서브세트는 단리된다.

본 발명에서 특징으로 삼은 방법은 추가로 라이브러리 (예를 들면, 본 명세서에서 기재된 바와 같이 핵산 라이브러리)를 제공하기 위해 핵산 샘플을 단리시키는 단계를 포함할 수 있다. 특정 구현예에서, 핵산 샘플은 전체 게놈, 서브게놈 단편, 또는 양쪽을 포함한다. 단리된 핵산 샘플은 핵산 라이브러리를 제조하기 위해 사용될 수 있다. 따라서, 일 구현예에서, 본 발명에서 특징으로 삼은 방법은 추가로 라이브러리 (예를 들면, 본 명세서에서 기재된 바와 같이 핵산 라이브러리)를 제공하기 위해 핵산 샘플을 단리시키는 단계를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리 단리 및 제조용 프로토콜은 당해 기술 (예를 들면, 일루미나의 게놈 DNA 샘플 제조 키트)에 공지되어 있다. 특정 구현예에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플 (예를 들면, 종양 샘플, 정상 인접한 조직 (NAT), 혈액 샘플 또는 임의의 정상 대조군))으로부터 단리된다. 일 구현예에서, 샘플 (예를 들면, 종양 또는 NAT 샘플)은 보존된 시료이다. 예를 들어, 샘플은 매트릭스, 예를 들면, FFPE 블록 또는 냉동된 샘플에서 포매된다. 특정 구현예에서, 단리 단계는 개별 염색체의 유동-분류; 및/또는 피험체의 샘플 (예를 들면, 종양 샘플, NAT, 혈액 샘플)의 현미해부를 포함한다. 특정 구현예에서, 핵산 라이브러리를 생성하는데 사용된 핵산 샘플은 5 마이크로그램 미만, 1 마이크로그램 미만, 또는 500ng 미만, 200ng 미만, 100ng 미만, 50ng 미만, 10ng 미만, 5ng 미만, 또는 1 ng 미만이다.

또 다른 구현예에서, 라이브러리를 생산하는데 사용된 핵산 샘플은 RNA 또는 RNA에서 유래된 cDNA를 포함한다. 일부 구현예에서, RNA는 총세포 RNA를 포함한다. 다른 구현예에서, 특정 풍부한 RNA 서열 (예를 들면, 리보솜 RNAs)는 고갈되었다. 일부 구현예에서, 총 RNA 제조에서 폴리(A)-테일드 mRNA 분획은 농축되었다. 일부 구현예에서, cDNA는 랜덤-프라이밍된 cDNA 합성 방법에 의해 생산된다. 다른 구현예에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의한 프라이밍으로 성숙한 mRNAs의 폴리(A) 꼬리에서 개시된다. 고갈, 폴리(A) 풍부, 및 cDNA 합성 방법은 당해 분야의 숙련가에 잘 알려진다.

본 방법은 추가로 당해 분야의 숙련가에 잘 알려진 특이적 또는 비-특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 포함할 수 있다. 일부 구현예에서, 핵산 샘플은, 예를 들면, 전체-게놈 증폭 방법 예컨대 랜덤-프라이밍된 가닥-변위 증폭에 의해 증폭된다.

다른 구현예에서, 핵산 샘플은 물리적 또는 효소적 방법에 의해 단편화되거나 전단되고 합성 어댑터에 라이게이션되고, (예를 들면, 분취 겔 전기영동에 의해) 크기-선택되고 (예를 들면, PCR에 의해) 증폭된다. 다른 구현예에서, 핵산의 단편화된 및 어댑터-라이게이션된 그룹은 혼성 선택에 앞서 명백한 크기 선택 또는 증폭 없이 사용된다.

다른 구현예에서, 단리된 DNA (예를 들면, 게놈 DNA)는 단편화되거나 전단된다. 일부 구현예에서, 라이브러리는 게놈 DNA, 예컨대 게놈의 감소된 표현 또는 정의된 부분인, 예를 들면, 다른 수단에 의해 하위분획화된 게놈 DNA의 하위분획의 50% 미만을 포함한다. 다른 구현예에서, 라이브러리는 모든 실질적으로 모든 게놈 DNA를 포함한다.

일부 구현예에서, 라이브러리는 게놈 DNA, 예컨대 게놈의 감소된 표현 또는 정의된 부분인, 예를 들면, 다른 수단에 의해 하위분획화된 게놈 DNA의 하위분획의 50% 미만을 포함한다. 다른 구현예에서, 라이브러리는 모든 실질적으로 모든 게놈 DNA를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리 단리 및 제조용 프로토콜은 당해 기술 (예를 들면, 일루미나의 게놈 DNA 샘플 제조 키트)에 공지되어 있고, 본 명세서에서 실시예에 기재된다. 대안적인 DNA 전단 방법은, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426의 실시예 4에서 기재된 바와 같이, 당해 기술에 공지되어 있다. 　예를 들어, 대안적인 DNA 전단 방법은 (예를 들면, 분해된 FFPE 샘플로) 더욱 자동화가능 및/또는 더욱 효율적일 수 있다. 　DNA 전단 방법에 대한 대안은 또한은 라이브러리 제조 동안 라이게이션 단계를 피하는데 사용될 수 있다.

본 명세서에서 기재된 방법은, 예를 들면, 공급원 DNA 또는 RNA의 양이 (예를 들면, 전체-게놈 증폭후 조차) 제한하는 경우, 소량의 핵산을 사용하여 수행될 수 있다. 일 구현예에서, 핵산은 핵산 샘플의 약 5㎍, 4㎍, 3㎍, 2㎍, 1㎍, 0.8㎍, 0.7㎍, 0.6㎍, 0.5㎍, 또는 400ng, 300ng, 200ng, 100ng, 50ng, 10ng, 5ng, 1ng, 또는 미만보다 적게 함유한다. 예를 들어, 전형적으로 게놈 DNA의 50-100 ng으로 시작할 수 있다. 그러나, 혼성화 단계, 예를 들면, 용액 혼성화 전 (예를 들면, PCR을 사용하여) 게놈 DNA를 증폭시키면, 더 적은 양으로 시작할 수 있다. 따라서 혼성화, 예를 들면, 용액 혼성화 전 게놈 DNA를 증폭시키는 것이 가능하지만, 비필수적이다.

라이브러리를 생성하는데 사용된 핵산 샘플은 또한 RNA 또는 RNA에서 유래된 cDNA를 포함할 수 있다. 일부 구현예에서, RNA는 총세포 RNA를 포함한다. 다른 구현예에서, 특정 풍부한 RNA 서열 (예를 들면, 리보솜 RNAs)는 고갈되었다. 다른 구현예에서, 총 RNA 제제에서 폴리(A)-테일드 mRNA 분획은 농축되었다. 일부 구현예에서, cDNA는 랜덤-프라이밍된 cDNA 합성 방법에 의해 생산된다. 다른 구현예에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의한 프라이밍으로 성숙한 mRNAs의 폴리(A) 꼬리에서 개시된다. 고갈, 폴리(A) 풍부, 및 cDNA 합성 방법은 당해 분야의 숙련가에 잘 알려진다.

본 방법은 추가로 당해 분야의 숙련가에 공지되는 특이적 또는 비-특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 포함한다. 핵산 샘플은, 예를 들면, 전체-게놈 증폭 방법 예컨대 랜덤-프라이밍된 가닥-변위 증폭에 의해 증폭될 수 있다.

핵산 샘플은 본 명세서에서 기재된 바와 같이 물리적 또는 효소적 방법에 의해 단편화 또는 전단될 수 있고, 합성 어댑터에 라이게이션될 수 있고, (예를 들면, 분취 겔 전기영동에 의해) 크기-선택될 수 있고 (예를 들면, PCR에 의해) 증폭될 수 있다. 핵산의 단편화된 및 어댑터-라이게이션된 그룹은 혼성 선택에 앞서 명백한 크기 선택 또는 증폭 없이 사용된다.

한 구현예에서, 핵산 샘플은 비-암세포 또는 비-악성세포, 예를 들면, 종양-침윤 림프구로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽을 포함한다. 한 구현예에서, 핵산 샘플은 비-암세포 또는 비-악성세포, 예를 들면, 종양-침윤 림프구로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽을 포함하고, 암세포 또는 악성세포로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽을 포함하지 않거나, 본질적으로 상기가 없다.

한 구현예에서, 핵산 샘플은 암세포 또는 악성세포로부터 DNA, RNA (또는 RNA에서 유래된 cDNA)를 포함한다. 한 구현예에서, 핵산 샘플은 암세포 또는 악성세포로부터 DNA, RNA (또는 RNA에서 유래된 cDNA)를 포함하고, 비-암세포 또는 비-악성세포, 예를 들면, 종양-침윤 림프구로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽을 포함하지 않거나, 본질적으로 상기가 없다.

한 구현예에서, 핵산 샘플은 비-암세포 또는 비-악성세포, 예를 들면, 종양-침윤 림프구로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽, 그리고 암세포 또는 악성세포로부터 DNA, RNA (또는 RNA에서 유래된 cDNA), 또는 양쪽을 포함한다.

베이트(bait)의 설계 및 작제

베이트는, 혼성화할 수 있는 (예를 들면, 상보적일 수 있는) 핵산 분자, 예를 들면, DNA 또는 RNA 분자일 수 있고, 그렇게 함으로써 표적 핵산의 포착을 허용한다. 특정 구현예에서, 표적 핵산은 게놈 DNA 분자이다. 다른 구현예에서, 표적 핵산은 RNA 분자 또는 RNA 분자에서 유래된 cDNA 분자이다. 일 구현예에서, 베이트는 RNA 분자이다. 다른 구현예에서, 베이트는, 예를 들면, 베이트 및 베이트에 혼성화된 핵산에 의해 형성된 혼성의, 결합 독립체에 결합에 의해, 포착 및 분리를 허용하는, 결합 독립체, 예를 들면, 친화성 태그를 포함한다. 일 구현예에서, 베이트는 용액상 혼성화에 적합하다.

전형적으로, RNA 분자는 베이트 서열로서 사용된다. RNA-DNA 듀플렉스는 DNA-DNA 듀플렉스보다 더욱 안정적이고, 그러므로 핵산의 잠재적으로 더 나은 포착을 제공한다.

RNA 베이트는, 비제한적으로, DNA-의존적 RNA 폴리머라제를 사용하는 DNA 분자의 새로이 화학 합성 및 전사를 포함하는 당해 분야에서 공지된 방법을 사용하여, 본 명세서에서 다른 곳에 기재된 바와 같이 만들어질 수 있다. 일 구현예에서, 베이트 서열은 공지된 핵산 증폭 방법을 사용하여, 예컨대 PCR, 예를 들면, 인간 DNA 또는 풀링된 인간 DNA 샘플을 템플레이트로서 사용하여 생산된다. 올리고뉴클레오타이드는 그 다음 RNA 베이트로 전환될 수 있다. 일 구현예에서, 시험관내 전사는, 예를 들어, 올리고뉴클레오타이드의 한쪽 단부에 RNA 폴리머라제 프로모터 서열 부가에 기반하여 사용된다. 일 구현예에서, RNA 폴리머라제 프로모터 서열은, 예를 들면, PCR 또는 다른 핵산 증폭 방법을 사용하여, 베이트 서열의 증폭 또는 재증폭에 의해, 예를 들면, 각각 표적-특이적 프라이머 쌍의 하나의 프라이머의 RNA 프로모터 서열로의 테일링에 의해 베이트의 단부에서 부가된다. 일 구현예에서, RNA 폴리머라제는 T7 폴리머라제, SP6 폴리머라제, 또는 T3 폴리머라제이다. 일 구현예에서, RNA 베이트는 태그, 예를 들면, 친화성 태그로 표지된다. 일 구현예에서, RNA 베이트는, 예를 들면, 바이오티닐화된 UTP를 사용하여, 시험관내 전사에 의해 만들어진다. 또 다른 구현예에서, RNA 베이트는 바이오틴 없이 생산되고 그 다음 바이오틴은 당해 분야에서 잘 알려진 방법, 예컨대 소랄렌 가교결합을 사용하여 RNA 분자에 가교결합된다. 일 구현예에서, RNA 베이트는, 예를 들면, RNase 열화를 저항하는 RNA 분자를 생산하는 전사 동안 변형된 뉴클레오타이드의 사용에 의해 만들어질 수 있는 RNase-저항성 RNA 분자이다. 일 구현예에서, RNA 베이트는 이중-가닥 DNA 표적의 단 하나의 가닥에 상응한다. 전형적으로, 그와 같은 RNA 베이트는 자기-상보적이지 않고 혼성화 드라이버로서 더 효과적이다.

베이트세트는 참조 서열로부터 설계될 수 있고, 이로써 베이트는 참조 서열의 표적 선택에 최적이다. 일부 구현예에서, 베이트 서열은 혼합된 염기 (예를 들면, 축퇴)를 사용하여 설계된다. 예를 들어, 혼합된 염기(들)은, 양쪽 대립유전자 (예를 들면, SNP 및 비-SNP; 돌연변이체 및 비-돌연변이체)를 잡도록 베이트 서열을 최적화하기 위해, 통상 SNP 또는 돌연변이의 위치(들)에 베이트 서열에서 포함될 수 있다. 일부 구현예에서, 모든 공지된 서열 변화 (또는 이의 서브세트)는, 혼합된 축퇴 올리고뉴클레오타이드 사용에 의한 것보다는, 다중 올리고뉴클레오타이드 베이트로 표적화될 수 있다.

특정 구현예에서, 베이트세트는 길이 약 100 뉴클레오타이드 내지 300 뉴클레오타이드의 올리고뉴클레오타이드 (또는 복수의 올리고뉴클레오타이드)를 포함한다. 전형적으로, 베이트세트는 길이 약 130 뉴클레오타이드 내지 230 뉴클레오타이드, 또는 약 150 내지 200 뉴클레오타이드의 올리고뉴클레오타이드 (또는 복수의 올리고뉴클레오타이드)를 포함한다. 다른 구현예에서, 베이트세트는 길이 약 300 뉴클레오타이드 내지 1000 뉴클레오타이드의 올리고뉴클레오타이드 (또는 복수의 올리고뉴클레오타이드)를 포함한다.

일부 구현예에서, 올리고뉴클레오타이드에서 표적 구성원-특이적 서열은 길이 약 40 내지 1000 뉴클레오타이드, 약 70 내지 300 뉴클레오타이드, 약 100 내지 200 뉴클레오타이드, 전형적으로 길이 약 120 내지 170 뉴클레오타이드이다.

일부 구현예에서, 베이트세트는 결합 독립체를 포함한다. 결합 독립체는 각각 베이트 서열에서 친화성 태그일 수 있다. 일부 구현예에서, 친화성 태그는 바이오틴 분자 또는 합텐이다. 특정 구현예에서, 결합 독립체는 파트너, 예컨대 아비딘 분자, 또는 합텐 또는 이의 항원-결합 단편에 결합하는 항체에 결합함으로써, 혼성화 혼합물로부터 베이트/구성원 혼성의 분리를 허용한다.

다른 구현예에서, 베이트세트에서 올리고뉴클레오타이드는 동일한 표적 구성원 서열용 순방향 및 역방향 보체 서열을 함유하고 이로써 역-보체된 구성원-특이적 서열을 가진 올리고뉴클레오타이드는 또한 역방향 보체 보편적인 꼬리를 운반한다. 이것은 동일한 가닥인, 즉, 서로 각각 상보적이지 않은 RNA 전사체로 이어질 수 있다.

다른 구현예에서, 베이트세트는 하나 이상의 위치에 축퇴 또는 혼합된 염기를 함유하는 올리고뉴클레오타이드를 포함한다. 또 다른 구현예에서, 베이트세트는 유기체의 공동체 또는 단일 종의 모집단에서 존재하는 다중 또는 실질적으로 모든 공지된 서열 변이체를 포함한다. 일 구현예에서, 베이트세트는 인간 모집단에서 존재하는 다중 또는 실질적으로 모든 공지된 서열 변이체를 포함한다.

다른 구현예에서, 베이트세트는 cDNA 서열을 포함하거나 또는 cDNA 서열에서 유래된다. 다른 구현예에서, 베이트세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭되는 증폭 생성물 (예를 들면, PCR 생성물)을 포함한다.

다른 구현예에서, 베이트세트는 RNA 분자를 포함한다. 일부 구현예에서,세트는, 비제한적으로, 더욱 안정적이고 RNase에 저항성인 것을 포함하여, 화학적으로, 효소적으로 변형된, 또는 시험관내 전사된 RNA 분자를 포함한다.

더욱 다른 구현예에서, 베이트는 하기에서 기재된 방법에 의해 생산된다: US 2010/0029498 및 Gnirke, A 등. (2009) Nat Biotechnol. 27(2): 182-189 (본 명세서에서 참고로 편입됨). 예를 들어, 바이오티닐화된 RNA 베이트는, 마이크로어레이에서 본래 합성된, 합성 긴 올리고뉴클레오타이드의 풀의 수득, 및 베이트 서열을 생산하기 위해 올리고뉴클레오타이드의 증폭에 의해 생산될 수 있다. 일부 구현예에서, 베이트는 베이트 서열의 한쪽 단부에서 RNA 폴리머라제 프로모터 서열의 부가, 및 RNA 폴리머라제를 사용하는 RNA 서열의 합성에 의해 생산된다. 일 구현예에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 상업적 공급자, 예컨대 Agilent Technologies, Inc.로부터 수득될 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭될 수 있다.

따라서, 상기 베이트세트의 제조 방법은 제공된다. 본 방법은 하나 이상의 표적-특이적 베이트 올리고뉴클레오타이드 서열 (예를 들면, 본 명세서에서 기재된 바와 같이 하나 이상의 돌연변이 포착, 참조 또는 대조군 올리고뉴클레오타이드 서열)을 선택하는 단계; 표적-특이적 베이트 올리고뉴클레오타이드 서열의 풀을 수득하는 단계 (예를 들면, 표적-특이적 베이트 올리고뉴클레오타이드 서열의 풀을, 예를 들면, 마이크로어레이 합성에 의해 합성하는 단계); 및 선택적으로, 올리고뉴클레오타이드를 증폭시켜 베이트세트를 생산하는 단계를 포함한다.

다른 구현예에서, 본 방법은 추가로 하나 이상의 바이오티닐화된 프라이머를 사용하여 올리고뉴클레오타이드를 (예를 들면, PCR에 의해) 증폭하는 단계를 포함한다. 일부 구현예에서, 올리고뉴클레오타이드는 마이크로어레이에 부착된 각 올리고뉴클레오타이드의 단부에서 보편적인 서열을 포함한다. 본 방법은 추가로 올리고뉴클레오타이드로부터 보편적인 서열을 제거하는 단계를 포함할 수 있다. 그와 같은 방법은 또한 올리고뉴클레오타이드의 상보적 가닥의 제거, 올리고뉴클레오타이드의 어닐링, 및 올리고뉴클레오타이드의 확장을 포함할 수 있다. 이들 구현예의 일부에서, 올리고뉴클레오타이드의 (예를 들면, PCR에 의한) 증폭 방법은 하나 이상의 바이오티닐화된 프라이머를 사용한다. 일부 구현예에서, 본 방법은 추가로 증폭된 올리고뉴클레오타이드를 크기 선택하는 단계를 포함한다.

일 구현예에서, RNA 베이트세트는 만들어진다. 본 방법은 본 명세서에서 기재된 방법에 따른 베이트 서열의 세트를 생산하는 단계, 베이트 서열의 한쪽 단부에서 RNA 폴리머라제 프로모터 서열을 부가시키는 단계, 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계를 포함한다. RNA 폴리머라제는 T7 RNA 폴리머라제, SP6 RNA 폴리머라제, 또는 T3 RNA 폴리머라제로부터 선택될 수 있다. 다른 구현예에서, RNA 폴리머라제 프로모터 서열은 베이트 서열의 (예를 들면, PCR에 의한) 증폭에 의해 베이트 서열의 단부에서 부가된다. 베이트 서열이 게놈 DNA 또는 cDNA 중에 특이적 프라이머 쌍을 가진 PCR에 의해 증폭되는 구현예에서, 각 쌍에서 2 특이적 프라이머 중 하나의 5' 단부에 RNA 프로모터 서열의 부가는 표준 방법을 사용하여 RNA 베이트 속으로 전사될 수 있는 PCR 생성물로 이어질 것이다.

다른 구현예에서, 베이트세트는 인간 DNA 또는 풀링된 인간 DNA 샘플을 템플레이트로서 사용하여 생산될 수 있다. 그와 같은 구현예에서, 올리고뉴클레오타이드는 폴리머라제 쇄 반응 (PCR)에 의해 증폭된다. 다른 구현예에서, 증폭된 올리고뉴클레오타이드는 회전환 증폭 또는 하이퍼분지형 회전환 증폭에 의해 재증폭된다. 동일한 방법은 또한 인간 DNA 또는 풀링된 인간 DNA 샘플을 템플레이트로서 사용하여 베이트 서열을 생산하는데 사용될 수 있다. 동일한 방법은 또한, 비제한적으로 제한 소화, 펄스-필드 겔 전기영동, 유동-분류, CsCl 밀도 구배 원심분리, 선택적 동력학 재회합, 염색체 제제의 현미절개, 및 당해 분야의 숙련가에 공지된 다른 분별화 방법을 포함하는, 다른 방법에 의해 수득된 게놈의 하위분획을 사용하여 베이트 서열을 생산하는데 사용될 수 있다.

특정 구현예에서, 베이트세트에서 베이트의 수는 1,000 미만이다. 다른 구현예에서, 베이트세트에서 베이트의 수는 1,000 초과, 5,000 초과, 10,000 초과, 20,000 초과, 50,000 초과, 100,000 초과, 또는 500,000 초과이다.

베이트 서열의 길이는 약 70 뉴클레오타이드 내지 1000 뉴클레오타이드일 수 있다. 일 구현예에서, 베이트 길이는 길이 약 100 내지 300 뉴클레오타이드, 110 내지 200 뉴클레오타이드, 또는 120 내지 170 뉴클레오타이드이다. 상기에서 언급된 것들에 더하여, 길이 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800, 및 900 뉴클레오타이드의 중간체 올리고뉴클레오타이드 길이는 본 명세서에서 기재된 방법에서 사용될 수 있다. 일부 구현예에서, 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 또는 230 염기의 올리고뉴클레오타이드는 사용될 수 있다.

각 베이트 서열은 한쪽 또는 양쪽 단부에서 표적-특이적 (예를 들면, 구성원-특이적) 베이트 서열 및 보편적인 꼬리를 포함할 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "베이트 서열"은 올리고뉴클레오타이드의 다른 뉴클레오타이드 및 표적-특이적 "베이트 서열"을 포함하는 전체 올리고뉴클레오타이드 또는 표적-특이적 베이트 서열을 지칭할 수 있다. 베이트에서 표적-특이적 서열은 길이 약 40 뉴클레오타이드 내지 1000 뉴클레오타이드이다. 일 구현예에서, 표적-특이적 서열은 길이 약 70 뉴클레오타이드 내지 300 뉴클레오타이드이다. 또 다른 구현예에서, 표적-특이적 서열은 길이 약 100 뉴클레오타이드 내지 200 뉴클레오타이드이다. 더욱 또 다른 구현예에서, 표적-특이적 서열은 길이 약 120 뉴클레오타이드 내지 170 뉴클레오타이드, 전형적으로 길이 120 뉴클레오타이드이다. 상기에서 언급된 것들에 더하여 중간체 길이, 예컨대 길이 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800, 및 900 뉴클레오타이드의 표적-특이적 서열, 뿐만 아니라 상기-언급된 길이 사이 길이의 표적-특이적 서열은 또한 본 명세서에서 기재된 방법에서 사용될 수 있다.

일 구현예에서, 베이트는 길이 약 50 내지 200 뉴클레오타이드 (예를 들면, 길이 약 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190, 또는 200 뉴클레오타이드)의 (예를 들면, RNA 올리고머, DNA 올리고머, 또는 이의 조합으로 구성된) 올리고머이다. 일 구현예에서, 각 베이트 올리고머는, 표적-특이적 베이트 서열인, 약 120 내지 170, 또는 전형적으로, 약 120 뉴클레오타이드를 포함한다. 베이트는 한쪽 또는 양쪽 단부에서 추가의 비-표적-특이적 뉴클레오타이드 서열을 포함할 수 있다. 추가의 뉴클레오타이드 서열은, 예를 들면, PCR 증폭을 위하여 또는 베이트 식별자로서 사용될 수 있다. 특정 구현예에서, 베이트는 추가로 본 명세서에서 기재된 바와 같이 결합 독립체 (예를 들면, 포착 태그 예컨대 바이오틴 분자)를 포함한다. 결합 독립체, 예를 들면, 바이오틴 분자는, 예를 들면, 베이트의, (예를 들면, 바이오티닐화된 뉴클레오타이드의 편입에 의해) 5'-말단에서, 3'-말단에서, 또는 내부적으로, 베이트에 부착될 수 있다. 일 구현예에서, 바이오틴 분자는 베이트의 5'-말단에서 부착된다.

하나의 예시적인 구현예에서, 베이트는 길이 약 150 뉴클레오타이드의 올리고뉴클레오타이드이고, 이들 중 120 뉴클레오타이드는 표적-특이적 "베이트 서열"이다. 다른 30 뉴클레오타이드 (예를 들면, 각 단부에서 15 뉴클레오타이드)는 PCR 증폭을 위하여 사용된 보편적인 임의의 꼬리이다. 꼬리는 사용자에 의해 선택된 임의의 서열일 수 있다. 예를 들어, 합성 올리고뉴클레오타이드의 풀은 하기의 서열의 올리고뉴클레오타이드를 포함할 수 있다:

5'-ATCGCACCAGCGTGTN₁₂₀CACTGCGGCTCCTCA-3' (서열 번호 1) (표적-특이적 베이트 서열을 지시하는 N₁₂₀를 가짐).

본 명세서에서 기재된 베이트 서열은 엑손 및 짧은 표적 서열의 선택을 위하여 사용될 수 있다. 일 구현예에서, 베이트는 길이 약 100 뉴클레오타이드 내지 300 뉴클레오타이드이다. 또 다른 구현예에서, 베이트는 길이 약 130 뉴클레오타이드 내지 230 뉴클레오타이드이다. 더욱 또 다른 구현예에서, 베이트는 길이 약 150 뉴클레오타이드 내지 200 뉴클레오타이드이다. 예를 들면, 엑손 및 짧은 표적 서열의 선택을 위하여 베이트에서 표적-특이적 서열은 길이 약 40 뉴클레오타이드 내지 1000 뉴클레오타이드이다. 일 구현예에서, 표적-특이적 서열은 길이 약 70 뉴클레오타이드 내지 300 뉴클레오타이드이다. 또 다른 구현예에서, 표적-특이적 서열은 길이 약 100 뉴클레오타이드 내지 200 뉴클레오타이드이다. 더욱 또 다른 구현예에서, 표적-특이적 서열은 길이 약 120 뉴클레오타이드 내지 170 뉴클레오타이드이다.

일부 구현예에서, 긴 올리고뉴클레오타이드는 표적 서열을 포착하기 위해 필요한 올리고뉴클레오타이드의 수를 최소화시킬 수 있다. 예를 들어, 하나의 올리고뉴클레오타이드는 엑손당 사용될 수 있다. 인간 게놈에서 단백질-코딩 엑손의 평균 및 중위 길이가 약 164 및 120 염기쌍, 각각인 것이 당해 분야에서 공지된다. 더 긴 베이트는 더 짧은 것보다 더욱 특이적일 수 있고 더 양호하게 포착할 수 있다. 그 결과, 올리고뉴클레오타이드 베이트 서열당 성공률은 짧은 올리고뉴클레오타이드보다 더 높다. 일 구현예에서, 최소 베이트-포함된 서열은, 예를 들면, 엑손-크기의 표적 포착을 위하여 1 베이트의 크기 (예를 들면, 120-170 염기)이다. 베이트 서열의 길이 결정에서, 또한 불필요하게 긴 베이트가 표적에 직접적으로 인접한 더 많은 원치않는 DNA를 잡을 수 있다는 것을 고려할 수 있다. 더 긴 올리고뉴클레오타이드 베이트는 또한 더 짧은 것보다 DNA 샘플내 표적된 영역에서 다형성에 더욱 용인될 수 있다. 전형적으로, 베이트 서열은 참조 게놈 서열에서 유래된다. 실제 DNA 샘플에서 표적 서열이 참조 서열에서 벗어나면, 예를 들어 단일 뉴클레오타이드 다형성(SNP)를 함유하면, 베이트에 덜 효율적으로으로 혼성화할 수 있고 그러므로 베이트 서열에 혼성화된 서열에서 제시부족일 수 있거나 완전히 부재일 수 있다. SNPs로 인한 대립유전자 탈락은, 예를 들면, 120 내지 170 염기에서의 단일 미스매치가, 멀티플렉스 증폭 및 마이크로어레이 포착의 각각에서 전형적인 베이트 또는 프라이머 길이인 20 또는 70 염기에서의 단일 미스매치보다 혼성 안정성에서 효과가 덜할 수 있다는 이유로 더 긴 합성 베이트 분자에 의해서는 가능성이 떨어질 수 있다.

포착 베이트, 예컨대 게놈 영역의 길이에 비교하여 긴 표적의 선택을 위하여, 베이트 서열 길이는 전형적으로 상기 언급된 짧은 표적용 베이트로서 동일한 크기 범위이고, 단, 인접한 서열의 표적 최소화의 단독 목적을 위하여 베이트 서열의 최대 크기를 제한할 필요는 없다. 대안적으로, 올리고뉴클레오타이드는 훨씬 더 넓은 윈도우 (전형적으로 600 염기)를 거쳐 표제화될 수 있다. 이러한 방법은 전형적인 엑손보다 훨씬 더 큰 (예를 들면, 약 500 염기) DNA 단편을 포착하는데 사용될 수 있다. 그 결과, 훨씬 더 원치않는 측접하는 비-표적 서열은 선택된다.

베이트 합성

베이트는 올리고뉴클레오타이드, 예를 들면, DNA 또는 RNA의 임의의 유형일 수 있다. DNA 또는 RNA 베이트 ("올리고 베이트")는 개별적으로 합성될 수 있거나, DNA 또는 RNA 베이트세트 ("어레이 베이트")로서, 어레이에서 합성될 수 있다. 어레이 형식으로 제공되든, 또는 올리고 단리되든, 올리고 베이트는 전형적으로 단일 가닥이다. 베이트는 추가로 본 명세서에서 기재된 바와 같이 결합 독립체 (예를 들면, 포착 태그 예컨대 바이오틴 분자)를 포함할 수 있다. 결합 독립체, 예를 들면, 바이오틴 분자는, 예를 들면, 베이트의 5' 또는 3'-말단에서, 전형적으로, 베이트의 5'-말단에서 베이트에 부착될 수 있다. 베이트세트는, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426에서 기재된 바와 같이, 당해 분야에서 기재된 방법에 의해 합성될 수 있다.

혼성화 조건

본 발명에서 특징으로 삼은 방법은 선택된 라이브러리 캐치를 제공하기 위해 복수의 베이트와 라이브러리 (예를 들면, 핵산 라이브러리)의 접촉의 단계를 포함한다. 접촉 단계는 용액 혼성화에서 영향받을 수 있다. 특정 구현예에서, 본 방법은 용액 혼성화의 하나 이상의 추가의 라운드에 의해 혼성화 단계 반복을 포함한다. 일부 구현예에서, 본 방법은 추가로 베이트의 동일한 또는 상이한 수집과 용액 혼성화의 하나 이상의 추가의 라운드에 라이브러리 캐치 적용을 포함한다. 본 명세서에 방법에서 사용에 적합할 수 있는 혼성화 방법은, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426에서 기재된 바와 같이, 당해 분야에서 기재된다.

본 발명의 추가의 구현예 또는 특징은 아래와 같다:

또 다른 측면에서, 본 발명은 상기 베이트세트의 제조 방법을 특징으로 삼는다. 본 방법은 하나 이상의 표적-특이적 베이트 올리고뉴클레오타이드 서열 (예를 들면, 본 명세서에서 기재된 바와 같이 유전자 또는 유전자 생성물의 피험체 구간 (예를 들면, 서브게놈 구간, 발현된 서브게놈 구간, 또는 양쪽)에 상응하는 임의의 베이트 서열)을 선택하는 단계; 표적-특이적 베이트 올리고뉴클레오타이드 서열의 풀을 수득하는 단계 (예를 들면, 표적-특이적 베이트 올리고뉴클레오타이드 서열의 풀을, 예를 들면, 마이크로어레이 합성에 의해 합성하는 단계); 및 선택적으로, 올리고뉴클레오타이드를 증폭시켜 베이트세트를 생산하는 단계를 포함한다.

더욱 또 다른 측면에서, 본 발명은, 예를 들면, 긍정적으로 또는 부정적으로, 핵산 샘플에서 (예를 들면, 본 명세서에 기재된 유전자 또는 유전자 생성물에서 변이 중 적어도 10, 20, 30, 50개 이상의) 암 표현형과 관련된 변이의 존재 또는 부재 결정 방법을 특징으로 삼는다. 본 방법은 임의의 방법에 따른 용액-기반 반응에 있어서 샘플에서 핵산 및 본 명세서에서 기재된 베이트를 접촉시켜 핵산 캐치를 수득하는 단계; 및 핵산 캐치의 모두 또는 서브세트를 (예를 들면, 차세대 서열분석에 의해) 서열분석하는 단계를 포함하고, 그렇게 함으로써 본 명세서에서 기재된 유전자 또는 유전자 생성물에서 변이의 존재 또는 부재를 결정한다).

다른 구현예에서, 베이트세트는 cDNA 서열을 포함하거나 cDNAs 서열에서 유래된다. 일 구현예에서, cDNA는 RNA 서열, 예를 들면, 종양- 또는 암세포-유래된 RNA, 예를 들면, 종양-FFPE 샘플, 혈액 샘플, 또는 골수 천자 샘플로부터 수득된 RNA로부터 제조된다. 다른 구현예에서, 베이트세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭되는 증폭 생성물 (예를 들면, PCR 생성물)을 포함한다.

더욱 다른 구현예에서, 베이트는 하기에서 기재된 방법에 의해 생산된다: US 2010/0029498 및 Gnirke, A. 등. (2009) Nat Biotechnol. 27(2): 182-189 (본 명세서에서 참고로 편입됨). 예를 들어, 바이오티닐화된 RNA 베이트는, 마이크로어레이에서 본래 합성된, 합성 긴 올리고뉴클레오타이드의 풀의 수득, 및 베이트 서열을 생산하기 위해 올리고뉴클레오타이드의 증폭에 의해 생산될 수 있다. 일부 구현예에서, 베이트는 베이트 서열의 한쪽 단부에서 RNA 폴리머라제 프로모터 서열의 부가, 및 RNA 폴리머라제를 사용하는 RNA 서열의 합성에 의해 생산된다. 일 구현예에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 상업적 공급자, 예컨대 Agilent Technologies, Inc. 로부터 수득될 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭될 수 있다.

특정 구현예에서, 베이트세트에서 베이트의 수는 1,000 미만, 예를 들면, 2, 3, 4, 5, 10, 50, 100, 500 베이트이다. 다른 구현예에서, 베이트세트에서 베이트의 수는 1,000 초과, 5,000 초과, 10,000 초과, 20,000 초과, 50,000 초과, 100,000 초과, 또는 500,000 초과이다.

특정 구현예에서, 라이브러리 (예를 들면, 핵산 라이브러리)는 구성원의 수집을 포함한다. 본 명세서에서 기재된 바와 같이, 라이브러리 구성원은 표적 구성원 (예를 들면, 종양 구성원, 참조 구성원 및/또는 대조군 구성원; 또한 본 명세서에서 제1, 제2 및/또는 제3 구성원, 각각으로서 지칭됨)을 포함할 수 있다. 라이브러리의 구성원은 단일 개체 유래일 수 있다. 구현예에서 라이브러리는 1 초과의 피험체 (예를 들면, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 이상의 피험체)로부터 구성원을 포함할 수 있고, 예를 들면, 상이한 피험체로부터 2 이상 라이브러리는 1 초과 피험체로부터 구성원을 갖는 라이브러리를 형성하기 위해 조합될 수 있다. 일 구현예에서, 피험체는 암 또는 종양을 갖거나, 가질 위험에 처한 인간이다.

"구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는, 본 명세서에서 사용된 바와 같이, 라이브러리의 구성원인, 핵산 분자, 예를 들면, DNA 또는 RNA를 지칭한다. 전형적으로, 구성원은 DNA 분자, 예를 들면, 게놈 DNA 또는 cDNA이다. 구성원은 전단된 게놈 DNA일 수 있다. 다른 구현예에서, 구성원은 cDNA일 수 있다. 다른 구현예에서, 구성원은 RNA일 수 있다. 구성원은 피험체로부터 서열을 포함하고 피험체, 예를 들면, 프라이머로부터 유래되지 않은 서열 또는, 예를 들면, "바코드" 서열을 확인하는 서열을 또한 포함한다.

더욱 또 다른 구현예에서, 본 발명에서 특징으로 삼은 방법은 추가로 라이브러리 (예를 들면, 본 명세서에서 기재된 바와 같이 핵산 라이브러리)를 제공하기 위해 핵산 샘플의 단리를 포함한다. 특정 구현예에서, 핵산 샘플은 전체 게놈, 서브게놈 단편, 또는 양쪽을 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리 단리 및 제조용 프로토콜은 당해 기술 (예를 들면, 일루미나의 게놈 DNA 샘플 제조 키트)에 공지되어 있다. 특정 구현예에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플 (예를 들면, 종양 샘플, 정상 인접한 조직 (NAT), 혈액 샘플 또는 임의의 정상 대조군))으로부터 단리된다. 일 구현예에서, 샘플 (예를 들면, 종양 또는 NAT 샘플)은 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들면, FFPE 블록 또는 냉동된 샘플에서 포매된다. 특정 구현예에서, 단리 단계는 개별 염색체의 유동-분류; 및/또는 피험체의 샘플 (예를 들면, 종양 샘플, NAT, 혈액 샘플)의 현미해부를 포함한다. 특정 구현예에서, 핵산 라이브러리를 생산하는데 사용된 핵산 샘플은 5 마이크로그램 미만, 1 마이크로그램 미만, 또는 500ng 미만 (예를 들면, 200 ng 이하)이다.

본 방법은 추가로 당해 분야의 숙련가에 잘 알려진 특이적 또는 비-특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 포함할 수 있다.

일부 구현예에서, 핵산 샘플은, 예를 들면, 전체-게놈 증폭 방법 예컨대 랜덤-프라이밍된 가닥-변위 증폭에 의해 증폭된다.

특정 구현예에서, 라이브러리의 구성원은 유전자내 영역 또는 유전자간 영역을 포함하는 서브게놈 구간을 포함한다. 또 다른 구현예에서, 서브게놈 구간은 엑손 또는 인트론, 또는 이의 단편, 전형적으로 엑손 서열 또는 이의 단편을 포함한다. 일 구현예에서, 서브게놈 구간은 코딩 영역 또는 비-코딩 영역, 예를 들면, 프로모터, 인핸서, 5' 미번역된 영역 (5' UTR), 또는 3' 미번역된 영역 (3' UTR), 또는 이의 단편을 포함한다. 다른 구현예에서, 서브게놈 구간은 cDNA 또는 이의 단편 (예를 들면, 종양 RNA (예를 들면, 종양 샘플, 예를 들면, FFPE-종양 샘플로부터 추출된 RNA)로부터 수득된 cDNA)를 포함한다. 다른 구현예에서, 서브게놈 구간은, 예를 들면, 본 명세서에서 기재된 바와 같이 SNP를 포함한다. 다른 구현예에서, 표적 구성원은 게놈에서 실질적으로 모든 엑손을 포함한다. 다른 구현예에서, 표적 구성원은 본 명세서에서 기재된 바와 같이 서브게놈 구간, 예를 들면, 서브게놈 구간, 예를 들면, 관심의 선택된 유전자 또는 유전자 생성물 (예를 들면, 본 명세서에서 기재된 바와 같이 암성 표현형과 관련된 유전자 또는 유전자 생성물)로부터 엑손을 포함한다.

일 구현예에서, 서브게놈 구간은 체세포 돌연변이, 생식세포 돌연변이 또는 양쪽을 포함한다. 일 구현예에서, 서브게놈 구간은 변이, 예를 들면, 점 또는 단일 돌연변이, 결실 돌연변이 (예를 들면, 인프레임 결실, 유전자내 결실, 전체 유전자 결실), 삽입 돌연변이 (예를 들면, 유전자내 삽입), 역전 돌연변이 (예를 들면, 염색체내 역전), 연결 돌연변이, 연결된 삽입 돌연변이, 역전된 중복 돌연변이, 일렬 중복 (예를 들면, 염색체내 일렬 중복), 전좌 (예를 들면, 염색체 전좌, 비-상호 전좌), 재배열 (예를 들면, 게놈 재배열), 유전자 카피 수에서의 변화, 또는 이의 조합을 포함한다. 특정 구현예에서, 서브게놈 구간은 샘플에서 종양세포의 게놈의 코딩 영역의 5%, 1%, 0.5%, 0.1%, 0.01%, 0.001% 미만을 구성한다. 다른 구현예에서, 서브게놈 구간은 질환에서 관여되지 않고, 예를 들면, 본 명세서에서 기재된 바와 같이 암성 표현형과 관련되지 않는다.

본 발명에서 특징으로 삼은 방법은 핵산의 선택된 하위그룹, 예를 들면, 라이브러리 캐치를 제공하기 위해 하나의 또는 복수의 라이브러리 (예를 들면, 하나의 또는 복수의 핵산 라이브러리)의 복수의 베이트와의 접촉 단계를 포함한다. 일 구현예에서, 접촉 단계는 고형 지지체, 예를 들면, 어레이에서 영향받는다. 혼성화용 적합한 고형 지지체는, 예를 들면, 하기에서 기재된다: Albert, T. J 등. (2007) Nat . Methods 4(11): 903-5; Hodges, E 등. (2007) Nat . Genet. 39(12): 1522-7; 및 Okou, D. T 등. (2007) Nat . Methods 4(11): 907-9 (이들의 내용은 이로써 참고로 편입됨). 다른 구현예에서, 접촉 단계는 용액 혼성화에서 영향받는다. 특정 구현예에서, 본 방법은 혼성화의 하나 이상의 추가의 라운드에 의한 혼성화 단계의 반복을 포함한다. 일부 구현예에서, 본 방법은 추가로 베이트의 동일한 또는 상이한 수집을 가진 혼성화의 하나 이상의 추가의 라운드에 라이브러리 캐치를 적용하는 단계를 포함한다.

다른 구현예에서, 본 발명에서 특징으로 삼은 방법은 추가로 (예를 들면, PCR에 의한) 라이브러리 캐치를 증폭시키는 단계를 포함한다. 다른 구현예에서, 라이브러리 캐치는 증폭되지 않는다.

더욱 다른 구현예에서, 본 방법은 추가로 라이브러리 캐치를 분석하는 단계를 포함한다. 일 구현예에서, 라이브러리 캐치는 서열분석 방법, 예를 들면, 본 명세서에서 기재된 바와 같이 차세대 서열분석 방법에 의해 분석된다. 본 방법은 용액 혼성화에 의해 라이브러리 캐치를 단리시키는 단계, 및 핵산 서열분석에 의해 라이브러리 캐치를 적용하는 단계를 포함한다. 특정 구현예에서, 라이브러리 캐치는 재-서열분석될 수 있다. 차세대 서열분석 방법은 당해 기술에 공지되어 있고, 예를 들면, 하기에서 기재된다: Metzker, M. (2010) Nature Biotechnology Reviews 11: 31-46.

더욱 다른 구현예에서, 본 방법은 추가로 유전형분석에 라이브러리 캐치의 적용 단계를 포함하고, 그렇게 함으로써 선택된 핵산의 유전자형을 확인한다.

특정 구현예에서, 본 방법은 추가로 하나 이상의 하기 단계를 포함한다:

i) 핵산 샘플을 지문화하는 단계;

ⅱ) 핵산 샘플에서 유전자 또는 유전자 생성물 (예를 들면, 본 명세서에서 기재된 바와 같이 유전자 또는 유전자 생성물)의 존재도를 정량화하는 단계 (예를 들면, 샘플에서 전사체의 상대 존재도를 정량화하는 단계);

(ⅲ) 특정 피험체 (예를 들면, 정상 대조군 또는 암 환자)에 속하는 경우 핵산 샘플을 확인하는 단계;

ⅳ) 핵산 샘플에서 유전적 특성 [예를 들면, 하나 이상의 피험체의 유전자 구성 (예를 들면, 인종, 민족, 가족성 특성)]을 확인하는 단계;

v) 핵산 샘플에서 배수성을 결정하는 단계; 핵산 샘플에서 이형접합성의 손실을 결정하는 단계;

ⅵ) 핵산 샘플에서 유전자 중복 사건의 존재 또는 부재를 결정하는 단계;

ⅶ) 핵산 샘플에서 유전자 증폭 사건의 존재 또는 부재를 결정하는 단계; 또는

ⅷ) 핵산 샘플에서 종양/정상세포 혼합물의 수준을 결정하는 단계.

본 명세서에서 기재된 방법 중 어느 것도 아래의 구현예들 중 하나 이상과 조합될 수 있다.

한 구현예에서, 본 방법은 종양 및/또는 대조군 핵산 샘플 (예를 들면, FFPE-유래된 핵산 샘플, 또는 혈액 샘플 또는 골수 천자 샘플에서 유래된 핵산 샘플)로부터 수득된 뉴클레오타이드 서열 판독을 획득하는 단계를 포함한다.

한 구현예에서, 상기 판독은 차세대 서열분석 방법에 의해 제공된다.

한 구현예에서, 본 방법은 핵산 구성원의 라이브러리를 제공하는 단계 그리고 상기 라이브러리의 복수의 구성원으로부터 미리선택된 서브게놈 구간을 서열분석하는 단계를 포함한다. 구현예에서, 본 방법은 서열분석용 상기 라이브러리의 서브세트의 선택, 예를 들면, 용액-기반 선택 단계를 포함할 수 있다.

특정 구현예에서, 방법은, 상이한 베이트 설계 전략으로 2 이상의 상이한 표적 카테고리, 각각을 포착하기 위해 설계되는 혼성 포착 방법을 포함한다. 혼성 포착 방법 및 조성물은 표적 서열 (예를 들면, 표적 구성원)의 정의된 서브세트를 포착하도록 의도되고 표적 서열의 균질한 적용범위를 제공하면서, 그 서브세트 중에 적용범위를 최소화한다. 일 구현예에서, 표적 서열은 게놈 DNA 중에 전체 엑솜, 또는 선택된 이의 서브세트를 포함한다. 본 명세서에서 개시된 방법 및 조성물은 복합 표적 핵산 서열 (예를 들면, 라이브러리)용 적용범위의 상이한 깊이 및 패턴 달성을 위하여 상이한 베이트세트를 제공한다.

특정 구현예에서, 베이트세트 및 표적의 상이한 카테고리는 아래와 같다.

A. 낮은 빈도로 나타나는 고수준의 돌연변이용 감수성을 가능하도록 가장 깊은 적용범위가 요구되는 고-수준 표적 (예를 들면, 하나 이상의 종양 구성원 및/또는 참조 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제1 베이트세트. 예를 들어, 약 5% 이하의 빈도로 나타나는 점 돌연변이의 검출 (즉 샘플이 제조되었던세포의 5%가 그것의 게놈내 이 돌연변이를 제공한다). 제1 베이트세트는 전형적으로 높은 검출 신뢰성을 확보하기 위해 약 500× 이상의 서열분석 깊이가 필요하다. 일 구현예에서, 제1 베이트세트는 특정 유형의 암, 예를 들면, 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 따른 유전자 또는 유전자 생성물에서 빈번하게 돌연변이되는 하나 이상의 서브게놈 구간 (예를 들면, 엑손)을 선택한다.

B. 높은 수준 표적보다 더 높은 빈도, 예를 들면, 약 10%의 빈도로 나타나는 고수준의 돌연변이용 감수성을 가능하도록 높은 적용범위가 요구되는 중간-수준 표적 (예를 들면, 하나 이상의 종양 구성원 및/또는 참조 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제2 베이트세트. 예를 들어, 10%의 빈도로 나타나는 변이 (예를 들면, 점 돌연변이)의 검출은 높은 검출 신뢰성을 확보하기 위해 약 200× 이상의 서열분석 깊이가 필요하다. 일 구현예에서, 제2 베이트세트는 표 1 내지 표 4, 또는 도 3a 내지 도 4d에 따른 유전자 또는 유전자 생성물로부터 선택되는 하나 이상의 서브게놈 구간 (예를 들면, 엑손)을 선택한다.

C. 고수준의 감수성을 가능하도록, 예를 들면, 이종접합성 대립유전자를 검출하도록 저-중간 적용범위가 요구되는 저-수준 표적 (예를 들면, 하나 이상의 PGx 구성원, 예컨대 유전자, 엑손, 또는 염기)를 선택하는 제3 베이트세트. 예를 들어, 이종접합성 대립유전자의 검출은 높은 검출 신뢰성을 확보하기 위해 10-100×의 서열분석 깊이가 필요하다. 일 구현예에서, 제3 베이트세트는 하기로부터 선택되는 하나 이상의 서브게놈 구간 (예를 들면, 엑손)을 선택한다: a) 상이한 약물을 대사작용하기 위해 환자의 능력을 설명할 수 있는 약물유전체학 SNPs, b) 환자를 독특하게 확인 (지문화)하는데 사용될 수 있는 게놈 SNPs, 및 c) 게놈 DNA의 카피 수 이익/손실 및 이형접합성 손실 (LOH)를 평가하는데 사용될 수 있는 게놈 SNPs/유전자좌.

D. 구조적 중단점 예컨대 게놈 전좌 또는 인델을 검출하기 위해 저-중간 적용범위가 요구되는 인트론 표적 (예를 들면, 인트론 구성원)을 선택하는 제4 베이트세트. 예를 들어, 인트론 중단점의 검출은 높은 검출 신뢰성을 확보하기 위해 5-50×의 서열-쌍 스패닝 깊이가 필요하다. 상기 제4 베이트세트는, 예를 들어, 전좌/인델-경향의 암 유전자를 검출하는데 사용될 수 있다.

E. 카피 수 변화를 검출하기 위한 능력을 개선하기 위해 희소 적용범위가 요구되는 인트론 표적 (예를 들면, 인트론 구성원)을 선택하는 제5 베이트세트. 예를 들어, 몇 개의 말단 엑손의 1 카피 결실의 검출은 높은 검출 신뢰성을 확보하기 위해 0.1-10×의 적용범위가 필요하다. 상기 제5 베이트세트는, 예를 들어, 증폭/결실-경향의 암 유전자를 검출하는데 사용될 수 있다.

본 발명에서 특징으로 삼은 방법 및 조성물은 각 베이트세트/표적 카테고리의 상대 서열 적용범위 튜닝을 포함한다. 베이트 설계내 상대 서열 적용범위에서 차이의 시행 방법은 하기의 것들 중 하나 이상을 포함한다:

(v) 상이한 유형의 올리고뉴클레오타이드 베이트세트의 사용- 특정 구현예에서, 베이트세트는 하기를 포함할 수 있음:

(b) 어레이에서 합성된 하나 이상의 베이트,

(d) (a), (b) 및/또는 (c)의 임의의 조합,

(e) 하나 이상의 DNA 올리고뉴클레오타이드 (예를 들면, 천연 또는 비-천연 발생 DNA 올리고뉴클레오타이드),

(g) (e) 및 (f)의 조합, 또는

(h) 상기 중 임의의 것의 조합.

상이한 올리고뉴클레오타이드 조합은 상이한 비, 예를 들면, 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000, 또는 기타로부터 선택된 비에서 혼합될 수 있다. 일 구현예에서, 화학적으로-합성된 베이트 대 어레이-생성된 베이트의 비는 1:5, 1:10, 또는 1:20으로부터 선택된다. DNA 또는 RNA 올리고뉴클레오타이드는 자연-발생 또는 비자연 발생일 수 있다. 특정 구현예에서, 베이트는, 예를 들면, 용융 온도를 증가시키기 위해 하나 이상의 비-천연-발생 뉴클레오타이드를 포함한다. 예시적인 비-천연 발생 올리고뉴클레오타이드는 변형된 DNA 또는 RNA 뉴클레오타이드를 포함한다. 예시적인 변형된 RNA 뉴클레오타이드는 잠금 핵산 (LNA)이고, 여기에서 LNA 뉴클레오타이드의 리보오스 모이어티는 2' 산소 및 4' 탄소를 연결시키는 추가의 브릿지로 변형된다 (Kaur, H; Arora, A; Wengel, J; Maiti, S; Arora, A. ;Wengel, J. ;Maiti, S. (2006). "Thermodynamic, Counterion, and Hydration Effects for the Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes". Biochemistry 45 (23): 7347-55). 다른 변형된 예시적인 DNA 및 RNA 뉴클레오타이드는, 비제한적으로, 하기를 포함한다: 하기에 의해 연결된 반복 N-(2-아미노에틸)-글리신 유닛으로 구성된 펩타이드 핵산 (PNA): 펩타이드 결합 (Egholm, M. 등. (1993) Nature 365 (6446): 566-8); 낮은 GC 영역을 포착하기 위해 변형된 DNA 또는 RNA 올리고뉴클레오타이드; 이환형 핵산 (BNA) 또는 가교결합된 올리고뉴클레오타이드; 변형된 5-메틸 데옥시시티딘; 및 2,6-디아미노퓨린. 다른 변형된 DNA 및 RNA 뉴클레오타이드는 당해 기술에 공지되어 있다.

(v) 동일한 표적 영역 (즉 순방향 및 역방향 가닥)용 상이한 배향의 베이트 변형은 상이한 결합 효율성을 가질 수 있음. 각 표적에 최적의 적용범위를 제공하는 어느 한쪽 배향을 가진 베이트세트는 선택될 수 있음;

일 구현예에서, 선택의 효율의 값은 사전-선택된 표적 영역을 포함하기 위해 상이한 유형의 베이트 올리고뉴클레오타이드 사용에 의해 변형된다. 예를 들어, 제1 베이트세트 (예를 들면, 10,000-50,000 RNA 또는 DNA 베이트를 포함하는 어레이-기반 베이트세트)는 큰 표적체 부분 (예를 들면, 1-2MB 총 표적체 부분)을 포함하는데 사용될 수 있다. 제1 베이트세트는 사전-선택된 표적 영역 (예를 들면, 표적체 부분의, 예를 들면, 250kb 이하에 미치는 선택된 관심 서브게놈 구간) 및/또는 더 높은 2차 구조, 예를 들면, 더 높은 GC 함량의 영역을 포함하기 위해 제2 베이트세트 (예를 들면, 5,000 베이트 미만을 포함하는 개별적으로 합성된 RNA 또는 DNA 베이트세트)로 스파이킹될 수 있다. 선택된 관심 서브게놈 구간은 본 명세서에서 기재된 유전자 또는 유전자 생성물의 하나 이상, 또는 이의 단편에 상응할 수 있다. 제2 베이트세트는 원하는 베이트 중첩에 의존하여 약 2,000-5,000 베이트를 포함할 수 있다. 더욱 다른 구현예에서, 제2 베이트세트는 제1 베이트세트 속으로 스파이킹된 선택된 올리고 베이트 (예를 들면, 400, 200, 100, 50, 40, 30, 20, 10 미만 베이트)을 포함할 수 있다. 제2 베이트세트는 개별 올리고 베이트의 임의의 비에서 혼합될 수 있다. 예를 들어, 제2 베이트세트는 1:1 등몰 비로서 존재하는 개별 베이트를 포함할 수 있다. 대안적으로, 제2 베이트세트는, 예를 들어, 특정 표적 (예를 들면, 특정 표적은 다른 표적에 비교된 제2 베이트의 5-10×를 가질 수 있다)의 표착을 최적화하기 위해, 상이한 비 (예를 들면, 1:5, 1:10, 1:20)에서 존재하는 개별 베이트를 포함할 수 있다.

서열분석

본 발명은 또한 핵산의 서열분석 방법을 포함한다. 이들 방법에서, 핵산 라이브러리 구성원은 본 명세서에서 기재된 방법의 사용, 예를 들면, 용액 혼성화의 사용에 의해 단리되고, 그렇게 함으로써 라이브러리 캐치를 제공한다. 라이브러리 캐치 또는 이의 하위그룹은 서열분석될 수 있다. 따라서, 본 발명에서 특징으로 삼은 방법은 추가로 라이브러리 캐치를 분석하는 단계를 포함한다. 일 구현예에서, 라이브러리 캐치는 서열분석 방법, 예를 들면, 본 명세서에서 기재된 바와 같이 차세대 서열분석 방법에 의해 분석된다. 본 방법은 용액 혼성화에 의해 라이브러리 캐치를 단리시키는 단계, 및 핵산 서열분석에 의해 라이브러리 캐치를 적용하는 단계를 포함한다. 특정 구현예에서, 라이브러리 캐치는 재-서열분석될 수 있다.

당해 분야에서 공지된 임의의 서열분석 방법은 사용될 수 있다. 선택 방법에 의해 단리된 핵산의 서열분석은 차세대 서열분석 (NGS)를 사용하여 전형적으로 수행된다. 본 명세서에서 사용에 적합한 서열분석 방법은, 당해 분야에서, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426에서 기재된 바와 같이 기재된다.

NGS 판독이 생성된 후, 이들은 공지된 참조 서열로 정렬될 수 있거나 새로이 조립될 수 있다. 예를 들어, 샘플 (예를 들면, 종양 샘플)에서 유전적 변화 예컨대 단일 뉴클레오타이드 다형성 및 구조적 변이체의 확인은 참조 서열 (예를 들면, 야생형 서열)에 NGS 판독의 정렬에 의해 달성될 수 있다. NGS용 서열 정렬의 방법은 예를 들면, Trapnell C. 및 Salzberg S. L. Nature Biotech . , 2009, 27: 455-457에서 기재된다. 새로이 어셈블리의 예는, 예를 들면, 하기에서 기재된다: Warren R. 등. , Bioinformatics, 2007, 23: 500-501; Butler J 등. , Genome Res . , 2008, 18: 810-820; 및 Zerbino D. R. 및 Birney E. , Genome Res . , 2008, 18: 821-829. 서열 정렬 또는 어셈블리는, 하나 이상의 NGS 플랫폼으로부터 판독 데이터를 사용하여, 예를 들면, Roche/454 및 Illumina/Solexa 판독 데이터를 혼합하여 수행될 수 있다.

정렬

정렬은 위치, 예를 들면, 게놈 위치와 판독의 매칭의 과정이다. 오정렬 (예를 들면, 게놈에서 부정확한 위치 상의 짧은 판독치로부터 염기쌍의 배치), 예를 들면, 실제의 암 돌연변이 주위 판독의 서열 문맥 (예를 들면, 반복적인 서열의 존재)로 인한 오정렬은, 대체 대립유전자의 판독이 대안적 대립유전자 판독의 주요 파일-업 이동 제거될 수 있음에 따라, 돌연변이 검출의 감수성에서 감소로 이어질 수 있다. 실제의 돌연변이가 존재하지 않는 경우 문제있는 서열 문맥이 발생하면, 오정렬은 잘못된 위치상에 참조 게놈 염기의 실제의 판독 배치에 의해 "돌연변이된" 대립유전자의 인공의 판독을 도입할 수 있다. 다중화된 다유전자 분석용 돌연변이-판정 알고리즘이 심지어 저-풍부성 돌연변이에 감수성일 수 있기 때문에, 이들 오정렬은 거짓 양성 발견률을 증가/특이성을 감소시킬 수 있다.

본 명세서에서 논의된 바와 같이, 실제의 돌연변이에 대하여 감소된 감수성은 분석될 유전자에서 기대된 돌연변이 부위 주위 (수작업으로 또는 자동화 방식으로) 정렬의 품질 평가에 의해 다루어질 수 있다. 평가되는 부위는 암 돌연변이의 데이터베이스 (예를 들면, COSMIC)로부터 수득될 수 있다. 문제있는 것으로 확인되는 영역은 관련된 서열 문맥에서 더 나은 성능을 주기 위해 선택된 알고리즘의 사용으로, 예를 들면, 더 느린, 그러나 더욱 정확한 정렬 알고리즘 예컨대 Smith-Waterman 정렬을 사용하는 정렬 최적화 (또는 재-정렬)에 의해 개선될 수 있다. 일반적인 정렬 알고리즘이 문제를 개선할 수 없는 사례에서, 맞춤화된 정렬 접근법은, 예를 들면, 치환 함유의 높은 가능성을 가진 유전자에 대하여 최대 차이 미스매치 패널티 파라미터의 조정; 특정 종양 유형에서 흔한 특이적 돌연변이 유형 (예를 들면 흑색종에서 C→T)에 기반된 특이적 미스매치 패널티 파라미터 조정; 또는 특정 샘플 유형에서 흔한 특이적 돌연변이 유형 (예를 들면 FFPE에서 흔한 치환)에 기반된 특이적 미스매치 패널티 파라미터 조정에 의해 창출될 수 있다.

오정렬로 인해 평가된 유전자 영역에서 감소된 특이성 (증가된 거짓 양성률)은 서열분석된 샘플에서 모든 돌연변이 판정의 수동 또는 자동 시험에 의해 평가될 수 있다. 오정렬로 인해 위조 돌연변이 판정이 되는 경향인 것으로 발견된 그 영역은 상기와 같이 동일한 정렬 요법에 적용될 수 있다. 알고리즘 개선이 가능하게 발견되지 않는 사례에서, 문제 영역으로부터 "돌연변이"는 시험 패널로부터 분류 또는 선별 제거될 수 있다.

본 명세서에서 개시된 방법은, 특히 예를 들면, 종양 샘플로부터, 다수의 다양한 유전자에서 다수의 다양한 유전적 사건의 엄청나게 평행한 서열분석에 의존하는 방법에서, 재배열, 예를 들면, 인델과 관련된 서브게놈 구간의 서열분석에서 성능을 최적화하기 위해 다중, 개별적으로 튜닝된, 정렬 방법 또는 알고리즘의 사용을 허용한다. 구현예에서 상이한 유전자에서 각각의 수많은 재배열로 개별적으로 맞춤화되거나 튜닝되는 다중 정렬 방법은 판독을 분석하는데 사용된다. 구현예에서 튜닝은 서열분석될 유전자 (또는 다른 서브게놈 구간), 샘플에서 종양 유형, 서열분석될 변이체, 또는 샘플 또는 피험체의 특징의 (하나 이상의) 기능일 수 있다. 서열분석되기 위해 수많은 서브게놈 구간으로 미세하게 튜닝된 정렬 조건의 이러한 선택 또는 용도는 속도, 감수성 및 특이성의 최적화를 허용한다. 본 방법은 비교적 큰 수의 다양한 서브게놈 구간용 판독의 정렬이 최적화되는 경우 특히 효과적이다. 구현예에서 본 방법은 재배열에 최적화된 정렬 방법 및 재배열과 관련되지 않은 서브게놈 구간에 최적화된 기타의 용도를 포함한다.

따라서, 한 구현예에서, 본 명세서에서 기재된 방법, 예를 들면, 종양 샘플의 분석 방법은 본 명세서에서 기재된 재배열용 정렬 방법을 포함한다.

일반적으로, 본 명세서에서 고장난 서열분석 플랫폼에서 위조 인델 속도가 상대적으로 낮음 (따라서, 정확하게 정렬된 인델의 몇몇 관찰이 돌연변이의 강력한 증거일 수 있음)에 따라, 인델 돌연변이의 정확한 검출은 정렬에서 연습이다. 인델의 존재 하에 정확한 정렬은 그러나 (특히 인델 길이가 증가함에 따라) 어려울 수 있다. 예를 들면, 치환의, 정렬과 관련된 일반적인 사안에 더하여, 인델 자체는 정렬로 문제를 야기시킬 수 있다. (예를 들어, 디뉴클레오타이드 반복부의 2bp의 결실은 쉽게 한정적으로 배치될 수 없다. )양쪽 감수성 및 특이성은 더 짧은 (<15bp) 명목 인델-함유 판독의 부정확한 배치에 의해 감소될 수 있다. (개별 판독, 예를 들면, 36bp의 판독의 길이에 규모적으로 더 가까워지는) 더 큰 인델은 판독을 조금이라도 정렬하는데 실패를 야기시킬 수 있어서, 정렬된 판독의 표준세트에서 인델의 검출을 불가능하게 한다.

암 돌연변이의 데이터베이스는 이들 문제를 다루는데 그리고 성능을 개선하는데 사용될 수 있다. 거짓 양성 인델 발견을 감소시키기 위해 (특이성을 개선하기 위해), 통상적으로 기대된 인델 주위 영역은 서열 문맥으로 인해 문제있는 정렬에 대하여 검사될 수 있고 상기 치환에 유사하게 다루어질 수 있다. 인델 검출의 감수성을 개선하기 위해, 암에서 기대된 인델에 관한 정보 사용의 몇 개의 상이한 접근법은 사용될 수 있다. 예를 들면, 단-판독 함유 기대된 인델은 모의실험될 수 있고 정렬 시도될 수 있다. 정렬은 연구될 수 있고 문제있는 인델 영역은, 예를 들어 갭 개방/연장 패널티 감소에 의해 또는 부분적인 판독 (예를 들면 판독의 제1 또는 제2 절반) 정렬에 의해 조정된 정렬 파라미터를 가질 수 있다.

대안적으로, 초기 정렬은, 각각의 공지된 또는 유망하게 암 인델 돌연변이를 함유하는, 정상 참조 게놈, 뿐만 아니라 게놈의 대안적 버전으로 시도될 수 있다. 이러한 접근법에서, 정렬하는데 초기에 실패하였거나 부정확하게 정렬되었던 인델의 판독은 게놈의 대체 (돌연변이된) 버전에서 성공적으로 배치된다.

이런 식으로, 인델 정렬 (및 따라서 판정)은 기대된 암 유전자/부위에 대하여 최적화될 수 있다. 본 명세서에서 사용된 바와 같이, 서열 정렬 알고리즘은 게놈에서 판독 서열 (예를 들면, 차세대 서열분석으로부터, 예를 들면, 단-판독 서열)이 판독 서열과 참조 서열 사이 유사성 평가에 의해 아마도 유래하였던 경우 확인하는데 사용된 접근법 또는 전산 방법을 구현한다. 다양한 알고리즘은 서열 정렬 문제에 적용될 수 있다. 일부 알고리즘은 상대적으로 느리지만, 상대적으로 높은 특이성을 허용한다. 이들은, 예를 들면, 동적 프로그래밍-기반 알고리즘을 포함한다. 동적 프로그래밍은 이들을 더 단순한 단계로 분해함으로써 복잡한 문제의 해결 방법이다. 다른 접근법은 상대적으로 더욱 효율적이지만, 전형적으로 철저하지 않다. 이들은, 예를 들면, 대규모 데이터베이스 검색을 위하여 설계된 발견적 알고리즘 및 확률적 방법을 포함한다.

정렬 파라미터는, 예를 들면, 판독 서열과 참조 서열 사이 최적의 전반적인 또는 국부 정렬을 생산하기 위해, 알고리즘의 성능을 조정하기 위해 정렬 알고리즘에서 사용된다. 정렬 파라미터는 매치, 미스매치, 및 인델용 중량을 제공할 수 있다. 예를 들어, 더 낮은 중량은 더 많은 미스매치 및 인델로 정렬을 허용한다.

서열 문맥, 예를 들면, 반복적인 서열 (예를 들면, 연쇄 반복부, 산재된 반복부), 저-복잡성 영역, 인델, 유사유전자, 또는 파라로그의 존재는 정렬 특이성에 영향을 줄 수 있다 (예를 들면, 오정렬을 야기시킬 수 있다). 본 명세서에서 사용된 바와 같이, 오정렬은 게놈에서 부정확한 위치상에 짧은 판독으로부터 염기쌍의 배치를 지칭한다.

정렬의 감수성은 정렬 알고리즘이 선택되거나 정렬 파라미터가 종양 유형, 예를 들면, 특정 돌연변이 또는 돌연변이 유형을 갖는 경향이 있는 종양 유형에 기반하여 조정되는 경우 증가될 수 있다.

정렬의 감수성은 정렬 알고리즘이 선택되거나 정렬 파라미터가 특정 유전자 유형 (예를 들면, 종양유전자, 종양 억제제 유전자)에 기반하여 조정되는 경우 증가될 수 있다. 암-관련된 유전자의 상이한 유형에서 돌연변이는 암 표현형에서 상이한 영향을 가질 수 있다. 예를 들어, 돌연변이체 종양유전자 대립유전자는 전형적으로 우세하다. 돌연변이체 종양 억제제 대립유전자는 전형적으로 열성이고, 이는 대개의 경우 종양 억제제 유전자의 양쪽 대립유전자가 효과가 명시되기 전에 영향받아야 한다는 것을 의미한다.

정렬의 감수성은 정렬 알고리즘이 선택되거나 정렬 파라미터가 돌연변이 유형 (예를 들면, 단일 뉴클레오타이드 다형성, 인델 (삽입 또는 결실), 역전, 전좌, 연쇄 반복)에 기반하여 조정되는 경우 조정될 수 있다 (예를 들면, 증가될 수 있다).

정렬의 감수성은 정렬 알고리즘이 선택되거나 정렬 파라미터가 돌연변이 부위 (예를 들면, 돌연변이 핫스팟)에 기반하여 조정되는 경우 조정될 수 있다 (예를 들면, 증가될 수 있다). 돌연변이 핫스팟은 돌연변이가 정상 돌연변이 속도보다 최대 100 배 더 자주 발생하는 경우 게놈에서 부위를 지칭한다.

정렬의 감수성/특이성은 정렬 알고리즘이 선택되거나 정렬 파라미터가 샘플 유형 (예를 들면, FFPE 샘플)에 기반하여 조정되는 경우 조정될 수 있다 (예를 들면, 증가될 수 있다).

정렬 알고리즘은, 샘플 유형 (예를 들면, FFPE 샘플, 혈액 샘플, 또는 골수 천자 샘플)에 기반하여, 정렬 감수성/특이성을 조정 (예를 들면, 증가)하기 위해 선택될 수 있다.

정렬의 최적화는, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426에서 제시된 바와 같이 당해 분야에서 기재된다.

돌연변이 판정

염기 판정은 서열분석 디바이스의 원 출력을 지칭한다. 돌연변이 판정은 서열분석될 뉴클레오타이드 위치에 대하여, 뉴클레오타이드 값, 예를 들면, A, G, T, 또는 C의 선택 과정을 지칭한다. 전형적으로, 위치에 대하여 서열분석 판독 (또는 염기 판정)은 1 초과 값을 제공할 것이고, 예를 들면, 일부 판독은 T를 제공할 것이고 일부는 G를 제공할 것이다. 돌연변이 판정은 뉴클레오타이드 값, 예를 들면, 서열에 대한 그 값 중 하나의 배정 과정이다. "돌연변이" 판정으로서 지칭되어도 임의의 뉴클레오타이드 위치, 예를 들면, 돌연변이체 대립유전자, 야생형 대립유전자, 돌연변이체 또는 야생형으로서 특성규명되지 않았던 대립유전자에 상응하는 위치, 또는 가변성을 특징으로 하지 않는 위치에 뉴클레오타이드 값을 배정하기 위해 적용될 수 있다. 돌연변이 판정 방법은 하나 이상의 하기를 포함할 수 있다: 참조 서열에 있어서 각각의 위치에서 정보에 기반된 독립적인 판정 결정 (예를 들면, 서열 판독 검사; 염기 판정 및 품질 스코어 검사; 잠재적인 유전자형을 감안하여 관측된 염기 및 품질 스코어의 개연성 계산; 및 [예를 들면, 베이즈 규칙(Bayes rule)을 이용하는) 유전자형 배정)]; 거짓 양성 제거 (예를 들면, 기대된 것보다 월씬 더 낮은 또는 더 높은 판독 깊이로 SNPs를 거부하기 위한 깊이 역치 사용; 작은 인델로 인해 거짓 양성을 제거하기 위한 국부 재정렬); 및 판정을 개선하기 위한 연관 비평형 (LD)/귀속 기반 분석 수행.

특이적 유전자형 및 위치와 관련된 유전자형 가능성을 계산하기 위한 방정식은, 예를 들면, Li H. 및 Durbin R. Bioinformatics, 2010; 26(5): 589-95에 기재된다. 특정 암 유형에서 특정 돌연변이에 대하여 선행 기대는 그 암 유형으로부터 샘플을 평가하는 경우 사용될 수 있다. 그와 같은 가능성은 암 돌연변이의 공공 데이터베이스, 예를 들면, 하기로부터 유래될 수 있다: Catalogue of Somatic Mutation in Cancer (COSMIC), HGMD (Human Gene Mutation Database), The SNP Consortium, Breast Cancer Mutation Data Base (BIC), and Breast Cancer Gene Database (BCGD).

LD/귀속 기반 분석의 예는, 예를 들면, 하기에서 기재된다: Browning B. L. 및 Yu Z. Am. J. Hum . Genet . 2009, 85(6): 847-61. 저-적용범위 SNP 판정 방법의 예는, 예를 들면, 하기에서 기재된다: Li Y. 등 . , Annu . Rev. Genomics Hum . Genet. 2009, 10: 387-406.

정렬 후, 치환의 검출은 판정 방법, 예를 들면, 베이지안 돌연변이 판정 방법을 사용하여 수행될 수 있고; 이는 각각의 서브게놈 구간, 예를 들면, 평가되는 유전자의 엑손에서 각각의 염기에 적용되고, 여기에서 대안적 대립유전자의 존재는 관측된다. 이 방법은 돌연변이의 존재 하에 판독 데이터 관찰의 개연성을 염기-판정 오류 단독의 존재 하에 판독 데이터 관찰의 개연성과 비교할 것이다. 돌연변이는 이러한 비교가 돌연변이의 존재를 충분히 강하게 지지하면 판정될 수 있다.

암 DNA의 분석을 위하여 50% 또는 100%의 빈도로부터 제한된 편차를 다루는 방법이 개발되어 왔다. (예를 들면, SNVMix - Bioinformatics. 2010 March 15; 26(6): 730-736. )본 명세서에서 개시된 방법은 그러나 샘플 DNA의 1% 내지 100% 어디든지, 그리고 특히 50% 미만 수준에서 돌연변이체 대립유전자의 존재의 가능성을 고려한다. 이러한 접근법은 천연 (다중-클론) 종양 DNA의 저-순도 FFPE 샘플에서 돌연변이의 검출에 특히 중요하다.

베이지안 돌연변이-검출 접근법의 장점은 돌연변이의 존재의 개연성의 염기-판정 오류 단독의 개연성과의 비교가 그 부위에서 돌연변이의 존재의 선행 기대에 의해 칭량될 수 있다는 것이다. 대안적 대립유전자의 일부 판독이 주어진 암 유형에 대하여 빈번하게 돌연변이된 부위에서 관측되면, 돌연변이의 존재는 돌연변이의 증거의 양이 일반 역치를 충족시키지 않을지라도 자신있게 판정될 수 있다. 이러한 가요성은 그 다음 심지어 더 희귀한 돌연변이/더 낮은 순도 샘플에 대하여 검출 감수성을 증가시키는데, 또는 판독 적용범위에서 감소하기 위해 시험을 더욱 강력하게 만드는데 사용될 수 있다. 암에서 돌연변이될 게놈에서 랜덤 염기쌍의 가능성은 ~1e-6이다. 전형적인 다유전자 암 게놈 패널에 있어서 많은 부위에서 특이적 돌연변이의 가능성은 더 높은 자릿수일 수 있다. 이들 가능성은 암 돌연변이의 공공 데이터베이스 (예를 들면, COSMIC)로부터 유래될 수 있다. 인델 판정은, 관련된 신뢰 스코어 또는 통계적인 입증 미터법을 전형적으로 포함하는, 삽입 또는 결실에 의해 참조 서열과 상이한 서열분석 데이터에서 염기 찾기의 과정이다.

인델 판정의 방법은 후보 인델의 확인, 국부 재-정렬을 통한 유전자형 가능성 순환, 및 LD-기반 유전자형 추론 및 판정 수행의 단계를 포함할 수 있다. 전형적으로, 베이지안 접근법은 잠재적인 인델 후보를 수득하는데 사용되고, 그 다음 이들 후보는 베이지안 프레임워크에서 참조 서열과 함께 시험된다.

후보 인델을 생성하기 위한 알고리즘은, 예를 들면, 하기에서 기재된다: McKenna A.등. , Genome Res . 2010; 20(9): 1297-303; Ye K.등. , Bioinformatics, 2009; 25(21): 2865-71; Lunter G. 및 Goodson M. Genome Res . 2010, epub ahead of print; 및 Li H. 등 . , Bioinformatics 2009, Bioinformatics 25(16): 2078-9.

인델 판정 및 개체-수준 유전자형 가능성의 생성 방법은, 예를 들면, 하기를 포함한다: Dindel 알고리즘 (Albers C. A. 등 , Genome Res . 2011;21(6): 961-73). 예를 들어, 베이지안 EM 알고리즘은 판독을 분석하는데, 초기 인델을 판정하는데, 그리고 각각 후보 인델용 유전자형 가능성, 이어서, 예를 들면, 하기를 사용하는 유전자형의 대체를 생성하는데 사용될 수 있다: QCALL (Le S. Q. 및 Durbin R. Genome Res . 2011;21(6): 952-60). 파라미터, 예컨대 인델 관찰의 선행 기대는, 인델의 크기 또는 위치에 기반하여, 조정될 수 있다 (예를 들면, 증가 또는 감소될 수 있다).

돌연변이 판정의 최적화는, 예를 들면, 국제 특허 출원 공개 번호 WO 2012/092426에서 제시된 바와 같이, 당해 분야에서 기재된다.

SGZ 알고리즘

다양한 유형의 변이, 예를 들면, 체세포 변이 및 생식세포 돌연변이는 본 명세서에서 기재된 방법 (예를 들면, 서열분석, 정렬, 또는 돌연변이 판정 방법)에 의해 검출될 수 있다. 특정 구현예에서, 생식세포 돌연변이는 SGZ 알고리즘을 사용하는 방법에 의해 추가로 확인된다. SGZ 알고리즘은 Sun 등. Cancer Research 2014; 74(19S):1893-1893; 국제 출원 공개 번호 WO2014/183078 및 미국출원 공개 번호 2014/0336996에서 기재된다(이들의 내용은 참고로 그 전문이 편입됨).

다른 구현예

본 명세서에서 기재된 방법의 구현예에서 본 방법에서 단계 또는 파라미터는 본 방법에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다.

한 구현예에서, 종양 샘플의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건; 서열분석; 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 단리된 종양, 또는 대조군, 핵산의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건; 서열분석; 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 라이브러리의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 재-단리; 후속적인 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건; 서열분석; 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 라이브러리 캐치의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 재-단리; 후속적인 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건; 서열분석; 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 서열분석 방법의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 재-단리; 후속적인 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건의 후속적인 결정 후속적인 서열분석; 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 맵핑된 판독의 수집의 특징은 하기의 하나 이상 또는 모두에서 다운스트림 단계 또는 파라미터를 변형시키는데 사용된다: 상기 샘플로부터 핵산의 재-단리; 후속적인 라이브러리 작제; 베이트 설계 또는 선택; 혼성화 조건의 후속적인 결정 후속적인 서열분석; 후속적인 판독 맵핑; 돌연변이 판정 방법의 선택; 돌연변이 판정; 또는 돌연변이 주석.

한 구현예에서, 본 방법은 종양 샘플 특징의 값의 획득, 예를 들면, 하기의 값의 획득을 포함한다: 상기 샘플에서 종양세포의 분율용; 상기 종양 샘플의세포충실도용; 또는 종양 샘플의 이미지로부터.

구현예에서, 본 방법은, 종양 샘플 특징용 상기 획득된 값에 반응성인, 하기용 파라미터 선택을 포함한다: 종양 샘플로부터 핵산의 단리, 라이브러리 작제; 베이트 설계 또는 선택; 베이트/라이브러리 구성원 혼성화; 서열분석; 또는 돌연변이 판정.

한 구현예에서, 방법은 상기 종양 샘플에서 존재하는 종양 조직의 양에 대하여 값을 획득하는 단계, 참조 기준과 상기 획득된 값을 비교하는 단계, 그리고 상기 참조 기준이 충족되면, 상기 종양 샘플을 허용하는 단계, 예를 들면, 상기 종양 샘플이 30, 40 또는 50% 초과 종양세포를 함유하면 상기 종양 샘플을 허용하는 단계를 추가로 포함한다.

한 구현예에서, 방법은, 예를 들면, 상기 종양 샘플로부터, 참조 기준을 충족시키는데 실패하는 종양 샘플로부터 종양 조직 현미해부에 의해 종양세포가 농축된 하위-샘플을 획득하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 1차 대조군, 예를 들면, 혈액 샘플이 이용가능한지 그리고 상기 1차 대조군으로부터 대조군 핵산 (예를 들면, DNA) 단리도 그러한지를 결정하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 (예를 들면, 1차 대조군 샘플이 이용불가능한 경우) NAT가 상기 종양 샘플에서 존재하는지 결정하는 단계를 추가로 포함한다.

한 구현예에서, 방법은, 예를 들면, 1차 대조군에 의해 동반되지 않은 종양 샘플에서 상기 NAT로부터 비-종양 조직 현미해부에 의해 비-종양세포가 농축된 하위-샘플을 획득하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 1차 대조군 및 NAT가 이용불가능한지 여부를 결정하는 단계 그리고 매칭된 대조군 없이 분석용 상기 종양 샘플을 제조하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 단리된 종양 핵산 샘플을 제공하기 위해 상기 종양 샘플로부터 핵산을 단리시키는 단계를 추가로 포함한다.

한 구현예에서, 방법은 단리된 대조군 핵산 샘플을 제공하기 위해 대조군으로부터 핵산을 단리시키는 단계를 추가로 포함한다.

한 구현예에서, 방법은 검출불가능한 핵산을 가진 샘플을 거부하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 상기 단리된 핵산 샘플에서 핵산 수율의 값을 획득하는 단계 그리고 상기 획득된 값을 참조 기준과 비교하는 단계, 예를 들면, 여기에서 상기 획득된 값이 상기 참조 기준 미만이면, 라이브러리 작제에 앞서 상기 단리된 핵산 샘플을 증폭시키는 단계를 추가로 포함한다.

한 구현예에서, 방법은 상기 단리된 핵산 샘플에서 핵산 단편의 크기의 값을 획득하는 단계 그리고 상기 획득된 값을 참조 기준, 예를 들면, 크기, 예를 들면,, 적어도 300, 600, 또는 900 bps의 평균 크기와 비교하는 단계를 추가로 포함한다. 본 명세서에서 기재된 파라미터는 이러한 결정에 반응하여 조정 또는 선택될 수 있다.

한 구현예에서, 방법은 라이브러리를 획득하는 단계를 추가로 포함하고 여기에서 라이브러리에서 상기 핵산 단편의 크기가 참조 값 미만 또는 동등이고, 상기 라이브러리는 DNA 단리와 라이브러리 제조 사이 단편화 단계 없이 만들어진다.

한 구현예에서, 방법은 핵산 단편을 획득하는 단계를 추가로 포함하고 상기 핵산 단편의 크기가 참조 값 동등 또는 이를 초과하는이고 단편화되면 그와 같은 핵산 단편은 라이브러리로 만들어진다.

한 구현예에서, 방법은, 예를 들면, 각각의 복수의 구성원에, 확인가능한 구별되는 핵산 서열 (바코드)의 부가에 의해, 각각의 복수의 라이브러리 구성원을 표지화하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 각각의 복수의 라이브러리 구성원에 프라이머를 부착시키는 단계를 추가로 포함한다.

한 구현예에서, 방법은 하기 단계를 추가로 포함한다: 복수의 베이트를 제공하는 단계 그리고

복수의 베이트를 선택하는 단계, 상기 선택은 하기에 반응성임: 1) 환자 특징, 예를 들면, 연령, 종양의 단계, 선행 치료, 또는 저항; 2) 종양 유형; 3) 종양 샘플의 특징; 4) 대조군 샘플의 특징; 5) 대조군의 존재 또는 유형; 6) 단리된 종양 (또는 대조군) 핵산 샘플의 특징; 7) 라이브러리 특징; 8) 종양 샘플에서 종양의 유형과 관련되도록 공지된 돌연변이; 9) 종양 샘플에서 종양의 유형과 관련되도록 공지되지 않은 돌연변이; 10) 미리선택된 서열을 서열분석하는 (또는 상기에 혼성화된 또는 회수하는) 또는 미리선택된 돌연변이를 확인하는 능력, 예를 들면, 높은 GC 영역 또는 재배열을 갖는 서열과 관련된 어려움; 또는 11) 서열분석될 유전자.

한 구현예에서, 방법은, 예를 들면, 상기 종양 샘플에서 낮은 수의 종양세포의 결정에 반응성인, 제2 유전자의 구성원과 비교된 경우 제1 유전자로부터 구성원의 상대적으로 고도로 효율적인 포착을 제공하는, 베이트, 또는 복수의 베이트를 선택하는 단계를 추가로 포함하고, 예를 들면, 여기에서 제1 유전자에서 돌연변이는 종양 샘플의 종양 유형에 대하여 종양 표현형과 관련된다.

한 구현예에서, 방법은 라이브러리 캐치 특징, 예를 들면, 핵산 농도 또는 표현의 값을 획득하는 단계, 그리고 상기 획득된 값을 핵산 농도용, 또는 표현용 참조 기준과 비교하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 재작업용 참조 기준을 충족시키지 않는 라이브러리 특징용 (예를 들면, 참조 기준을 충족시키기 위한 그 값의 변화용) 값을 가진 라이브러리를 선택하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 라이브러리 정량화용 참조 기준을 충족시키는 라이브러리 특징의 값을 가진 라이브러리를 선택하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 피험체에 종양 유형, 유전자, 및 유전적 변이 (TGA)의 회합을 제공하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 복수의 요소를 갖는 미리선택된 데이터베이스를 제공하는 단계를 추가로 포함하고, 여기에서 각각의 요소는 TGA를 포함한다.

한 구현예에서, 방법은 하기 단계를 포함하는 피험체의 TGA 특성규명을 추가로 포함한다: 상기 TGA가 미리선택된 데이터베이스, 예를 들면, 입증된 TGAs의 데이터베이스에서 존재하는지를 결정하는 단계; 미리선택된 데이터베이스로부터 TGA용 정보를 상기 피험체로부터 상기 TGA (주석)과 회합하는 단계; 및 선택적으로, 상기 피험체용 제2 또는 후속적인 TGA가 상기 미리선택된 데이터베이스에서 존재하는지 그리고 상기 환자에서 존재하는 상기 제2 TGA를 가진 미리선택된 데이터베이스로부터 제2 또는 후속적인 TGA용 정보 회합도 그러한지를 결정하는 단계.

한 구현예에서, 방법은 보고서를 작성하기 위해 피험체의, TGA의 존재 또는 부재, 및 선택적으로 관련된 주석을 기념화하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 수령자에 상기 보고서를 전송하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 하기 단계를 포함하는 피험체의 TGA 특성규명을 추가로 포함한다: 상기 TGA가 미리선택된 데이터베이스, 예를 들면, 입증된 TGAs의 데이터베이스에서 존재하는지를 결정하는 단계; 또는 상기 미리선택된 데이터베이스에서 없는 TGA가 공지된 임상적으로 관련된 G 또는 A를 갖는지 그리고 상기 미리선택된 데이터베이스에서 상기 TGA에 진입 제공도 그러한지를 결정하는 단계.

한 구현예에서, 방법은 보고서를 작성하기 위해 피험체로부터 종양 샘플의 DNA에서 발견된 돌연변이의 존재 또는 부재를 기재하는 단계를 추가로 포함한다.

한 구현예에서, 방법은 보고서를 작성하기 위해 피험체의, TGA의 존재 또는 부재, 및 선택적으로 관련된 주석을 붙이는(memolialize) 단계를 추가로 포함한다.

본 발명은 하기 번호가 붙은 단락 중 어느 하나에 의해 정의될 수 있다:

1. 샘플 (예를 들면, 종양 샘플 또는 종양에서 유래된 샘플)에서 종양 변이 부담을 평가하는 방법으로서, 하기 단계를 포함하는, 방법:

a) 샘플로부터 서브게놈 구간의 세트 (예를 들면, 코딩 서브게놈 구간)의 서열, 예를 들면, 뉴클레오타이드 서열을 제공하는 단계로서, 상기 서브게놈 구간의 세트는 유전자의 소정의 세트 유래인 단계; 및

b) 종양 변이 부담의 값을 결정하고, 이로 인하여 샘플에서 종양 변이 부담을 평가하는 단계로서, 상기 값은 서브게놈 구간의 세트에서 체세포 변이 (예를 들면, 하나 이상의 체세포 변이)의 수의 함수이고, 상기 변이의 수는 하기를 배제하는 단계:

(i) 서브게놈 구간에서의 기능적 변이; 및(ⅱ) 서브게놈 구간에서의 생식세포 변이.

2. 샘플 (예를 들면, 종양 샘플 또는 종양에서 유래된 샘플)에서 종양 변이 부담을 평가하는 방법으로서, 하기 단계를 포함하는, 방법:

(ⅱ) 상기 라이브러리를 베이트세트와 접촉시켜 선택된 종양 구성원을 제공하고, 이로 인하여 라이브러리 캐치를 제공하는 단계로서, 상기 베이트세트는 종양 구성원과 혼성화되는 단계;

(ⅲ) 예를 들면, 차세대 서열분석 방법에 의해, 상기 라이브러리 캐치로부터 종양 구성원에서 변이 (예를 들면, 체세포 변이)를 포함하는 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)용 판독을 획득하는 단계;

(ⅳ) 상기 판독을 정렬 방법으로 정렬하는 단계;

(ⅵ) 상기 배정된 뉴클레오타이드 위치의 세트로부터 서브게놈 구간의 세트를 선택하는 단계로서, 상기 서브게놈 구간의 세트는 유전자의 소정의 세트 유래되는, 단계; 및

(ⅶ) 종양 변이 부담의 값을 결정하고, 이로 인하여 샘플에서 종양 변이 부담을 평가하는 단계로서, 상기 값은 서브게놈 구간의 세트에서 체세포 변이 (예를 들면, 하나 이상의 체세포 변이)의 수의 함수이고, 상기 변이의 수는 하기를 배제하는 단계:

(a) 서브게놈 구간에서의 기능적 변이; 및(b) 서브게놈 구간에서의 생식세포 변이.

3. 청구항 1 또는 2에 있어서, 상기 유전자의 소정의 세트가 전체 게놈 또는 전체 엑솜을 포함하지 않는, 방법.

4. 청구항 1 내지 3 중 어느 한 항에 있어서, 상기 서브게놈 구간의 세트가 전체 게놈 또는 전체 엑솜을 포함하지 않는, 방법.

5. 청구항 1 내지 4 중 어느 한 항에 있어서, 상기 값이 유전자의 소정의 세트, 예를 들면, 유전자의 소정의 세트의 코딩 영역의 함수로서 표현되는, 방법.

6. 청구항 1 내지 5 중 어느 한 항에 있어서, 상기 값이 서열분석된 서브게놈 구간, 예를 들면, 서열분석된 코딩 서브게놈 구간의 함수로서 표현되는, 방법.

7. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 값이 미리선택된 유닛당 체세포 변이의 수의 함수로서, 예를 들면, 메가베이스당 체세포 변이의 수의 함수로서 표현되는, 방법.

8. 청구항 1 내지 7 중 어느 한 항에 있어서, 상기 값이 유전자의 소정의 세트, 예를 들면, 유전자의 소정의 세트의 미리선택된 수의 코딩 영역의 위치에서의 체세포 변이의 수의 함수로서 표현되는, 방법.

9. 청구항 1 내지 8 중 어느 한 항에 있어서, 상기 값이 서열분석된 미리선택된 수의 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)의 위치에서의 체세포 변이 수의 함수로서 표현되는, 방법.

10. 청구항 1 내지 9 중 어느 한 항에 있어서, 상기 값이 유전자의 소정의 세트, 예를 들면, 유전자의 소정의 세트의 코딩 영역에서 메가베이스당 체세포 변이의 수의 함수로서 표현되는, 방법.

11. 청구항 1 내지 10 중 어느 한 항에 있어서, 상기 값이 서열분석된 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)에서 메가베이스당 변이의 수의 함수로서 표현되는, 방법.

12. 청구항 1 내지 11 중 어느 한 항에 있어서, 상기 종양 변이 부담이 게놈의 더 큰 부분에, 예를 들면, 전체 엑솜 또는 전체 게놈에 있을 것으로 추론되는, 방법.

13. 청구항 1 내지 12 중 어느 한 항에 있어서, 상기 샘플이 피험체, 예를 들면, 암을 가진 피험체, 또는 치료 요법을 받고 있거나 받아 왔던 피험체 유래인, 방법.

14. 청구항 1 내지 13 중 어느 한 항에 있어서, 상기 종양 변이 부담이, 종양 변이 부담 중에서, 예를 들면, 참조 집단, 예를 들면, 피험체로서 동일한 유형의 암을 가진 환자, 또는 피험체로서 동일한 유형의 치료 요법을 받고 있거나 받아 왔던 환자의 참조 집단 유래 샘플 중의 백분위수로서 표현되는, 방법.

15. 청구항 1 내지 14 중 어느 한 항에 있어서, 상기 기능적 변이가, 참조 서열, 예를 들면, 야생형 또는 미돌연변이된 서열과 비교할 때,세포 분할, 성장 또는 생존에서 효과를 갖는, 예를 들면,세포 분할, 성장 또는 생존을 촉진시키는 변이인, 방법.

16. 청구항 1 내지 15 중 어느 한 항에 있어서, 상기 기능적 변이가 기능적 변이의 데이터베이스, 예를 들면, 하기에서 포함에 의해 그 자체로 확인되는, 방법: COSMIC 데이터베이스 (cancer. sanger. ac. uk/cosmic; Forbes 등. Nucl. Acids Res. 2015; 43 (D1): D805-D811).

17. 청구항 1 내지 16 중 어느 한 항에 있어서, 상기 기능적 변이가, 예를 들면, 상기 COSMIC 데이터베이스에서 공지된 체세포 변이로서 발생하는, 공지된 기능성 상태를 가진 변이인, 방법.

18. 청구항 1 내지 17 중 어느 한 항에 있어서, 상기 기능적 변이가 가능한한 기능성 상태를 가진 변이, 예를 들면, 종양 억제제 유전자에서 절단인, 방법.

19. 청구항 1 내지 18 중 어느 한 항에 있어서, 상기 기능적 변이가 드라이버 돌연변이, 예를 들면, 그것의 미세환경에서, 예를 들면,세포 생존 또는 생식 증가에 의해 클론에 선택적 장점을 제공하는 변이인, 방법.

20. 청구항 1 내지 19 중 어느 한 항에 있어서, 상기 기능적 변이가 클론 확대을 야기시킬 수 있는 변이인, 방법.

21. 청구항 1 내지 20 중 어느 한 항에 있어서, 상기 기능적 변이가 하기의 것들 중 하나 이상을 야기시킬 수 있는 변이인, 방법:

(a) 성장 신호에서 자급자족;

(b) 항성장 신호에 대한 감소, 예를 들면, 무감각;

(c) 감소된세포자멸사;

(d) 증가된 복제 가능성;

(e) 지속된 혈관신생; 또는

(f) 조직 침습 또는 전이.

22. 청구항 1 내지 21 중 어느 한 항에 있어서, 상기 기능적 변이가 패신져 돌연변이(passenger mutation)가 아닌, 예를 들면, 클론의 맞춤화에서 검출가능한 효과를 갖는 변이인, 방법.

23. 청구항 1 내지 22 중 어느 한 항에 있어서, 상기 기능적 변이가 미공지된 유의성을 갖는 변이체 (VUS)가 아닌, 예를 들면, 이의 병원성이 확인될 수도 없고 배제될 수도 없는 변이가 아닌, 방법.

24. 청구항 1 내지 23 중 어느 한 항에 있어서, 유전자의 소정의 세트의 미리선택된 유전자 (예를 들면, 종양 유전자) 내에서 복수 (예를 들면, 10%, 20%, 30%, 40%, 50%, 또는 75% 이상)의 기능적 변이가 배제되는, 방법.

25. 청구항 1 내지 24 중 어느 한 항에 있어서, 유전자의 소정의 세트의 미리선택된 유전자 (예를 들면, 종양 유전자) 내에서 모든 기능적 변이가 배제되는, 방법.

26. 청구항 1 내지 25 중 어느 한 항에 있어서, 유전자의 소정의 세트의 복수의 미리선택된 유전자 (예를 들면, 종양 유전자) 내에서 복수의 기능적 변이가 배제되는, 방법.

27. 청구항 1 내지 26 중 어느 한 항에 있어서, 유전자의 소정의 세트의 모든 유전자 (예를 들면, 종양 유전자) 내에서 모든 기능적 변이가 배제되는, 방법.

28. 청구항 1 내지 27 중 어느 한 항에 있어서, 상기 생식세포 변이가 매칭된 정상 서열과의 비교를 사용하지 않는 방법의 사용에 의해 배제되는, 방법.

29. 청구항 1 내지 28 중 어느 한 항에 있어서, 상기 생식세포 변이가 SGZ 알고리즘의 사용을 포함하는 방법에 의해 배제되는, 방법.

30. 청구항 1 내지 29 중 어느 한 항에 있어서, 상기 생식세포 변이가 생식세포 변이의 데이터베이스, 예를 들면, 하기에서 포함에 의해 그 자체로 확인되는, 방법: dbSNP 데이터베이스 (www. ncbi. nlm. nih. gov/SNP/index. html; Sherry 등. Nucleic Acids Res. 2001; 29(1): 308-311).

31. 청구항 1 내지 30 중 어느 한 항에 있어서, 상기 생식세포 변이가 ExAC 데이터베이스 (exac. broadinstitute. org; Exome Aggregation Consortium 등. "Analysis of protein-coding genetic variation in 60,706 humans", bioRxiv preprint. 10월 30일, 2015)에서의 2회 이상의 계수에 포함됨으로써 그 자체로 확인되는, 방법: .

32. 청구항 1 내지 31 중 어느 한 항에 있어서, 상기 생식세포 변이가 단일 뉴클레오타이드 다형성 (SNP), 염기 치환, 인델, 또는 침묵 돌연변이 (예를 들면, 동의 돌연변이)인, 방법.

33. 청구항 1 내지 32 중 어느 한 항에 있어서, 상기 생식세포 변이가 하기에서 포함에 의해 그 자체로 확인되는, 방법: 1000 게놈 프로젝트 데이터베이스 (www. 1000genomes. org; McVean 등. Nature. 2012; 491, 56-65).

34. 청구항 1 내지 33 중 어느 한 항에 있어서, 상기 생식세포 변이가 하기에서 포함에 의해 그 자체로 확인되는, 방법: ESP 데이터베이스 (Exome Variant Server, NHLBI GO Exome Sequencing Project (ESP), Seattle, WA (evs. gs. washington. edu/EVS/).

35. 청구항 1 내지 34 중 어느 한 항에 있어서, 상기 체세포 변이가 침묵 돌연변이, 예를 들면, 동의 변이인, 방법.

36. 청구항 1 내지 35 중 어느 한 항에 있어서, 상기 체세포 변이가 패신져 돌연변이, 예를 들면, 클론의 맞춤화에서 검출가능한 효과가 없는 변이인, 방법.

37. 청구항 1 내지 36 중 어느 한 항에 있어서, 상기 체세포 변이가 미공지된 유의성을 갖는 변이체 (VUS), 예를 들면, 이의 병원성이 확인되지도 배제되지도 않는 변이인, 방법.

38. 청구항 1 내지 37 중 어느 한 항에 있어서, 상기 체세포 변이가 점 돌연변이인, 방법.

39. 청구항 1 내지 38 중 어느 한 항에 있어서, 상기 체세포 변이가 짧은 변이체 (예를 들면, 짧은 코딩 변이체), 예를 들면, 염기 치환, 인델, 삽입, 또는 결실인, 방법.

40. 청구항 1 내지 39 중 어느 한 항에 있어서, 상기 체세포 변이가 비-동의 단일 뉴클레오타이드 변이체 (SNV)인, 방법.

41. 청구항 1 내지 40 중 어느 한 항에 있어서, 상기 체세포 변이가 스플라이스 변이체인, 방법.

42. 청구항 1 내지 41 중 어느 한 항에 있어서, 상기 체세포 변이가 암 표현형과 관련되는 것으로 확인되고 있지 않은, 방법.

43. 청구항 1 내지 42 중 어느 한 항에 있어서, 상기 체세포 변이가 재배열이 아닌, 예를 들면, 전좌가 아닌, 방법.

44. 청구항 1 내지 43 중 어느 한 항에 있어서, 복수의 유전자를 포함하는 상기 유전자의 소정의 세트가 돌연변이체 형태에서,세포 분할, 성장 또는 생존에서의 효과와 관련되거나, 또는 암과 관련되는, 방법.

45. 청구항 1 내지 44 중 어느 한 항에 있어서, 상기 유전자의 소정의 세트가 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 약 350개 이상, 약 400개 이상, 약 450개 이상, 또는 약 500개 이상의 유전자를 포함하는, 방법.

46. 청구항 1 내지 45 중 어느 한 항에 있어서, 상기 유전자의 소정의 세트가 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 또는 모든 유전자 또는 유전자 생성물을 포함하는, 방법.

47. 청구항 1 내지 46 중 어느 한 항에 있어서, 종양 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계를 추가로 포함하는, 방법.

48. 청구항 1 내지 47 중 어느 한 항에 있어서, 상기 라이브러리를 베이트세트와 접촉시켜 선택된 종양 구성원을 제공하는 단계로서, 상기 베이트세트가 종양 구성원과 혼성화되고, 이로 인하여 라이브러리 캐치를 제공하는 단계를 추가로 포함하는 방법.

49. 청구항 1 내지 48 중 어느 한 항에 있어서, 상기 라이브러리 또는 라이브러리 캐치 유래의 종양 구성원으로부터의 체세포 변이를 포함하는 서브게놈 구간용 판독을 획득하고, 그렇게 함으로써, 예를 들면, 차세대 서열분석 방법에 의해 서브게놈 구간용 판독을 획득하는 단계를 추가로 포함하는, 방법.

50. 청구항 1 내지 49 중 어느 한 항에 있어서, 정렬 방법에 의해 상기 판독을 정렬하는 단계를 추가로 포함하는, 방법.

51. 청구항 1 내지 50 중 어느 한 항에 있어서, 미리선택된 뉴클레오타이드 위치에 대하여 상기 판독으로부터 뉴클레오타이드 값을 배정하는 단계를 추가로 포함하는, 방법.

52. 청구항 1 내지 51 중 어느 한 항에 있어서, 서브게놈 구간용 판독을 획득하는 단계가 표 1 내지 표 4, 또는 도 3a 내지 도 4d로부터 선택된 적어도 약 50개 이상, 약 100개 이상, 약 150개 이상, 약 200개 이상, 약 250개 이상, 약 300개 이상, 또는 모든 유전자 또는 유전자 생성물로부터 서브게놈 구간의 서열분석을 포함하는, 방법.

53. 청구항 1 내지 52 중 어느 한 항에 있어서, 상기 서브게놈 구간용 판독을 획득하는 단계가 약 250× 초과, 약 500× 초과, 또는 약 1,000× 초과, 평균 고유 적용범위를 가진 서열분석을 포함하는, 방법.

54. 청구항 1 내지 53 중 어느 한 항에 있어서, 상기 서브게놈 구간용 판독을 획득하는 단계가 서열분석된 유전자 (예를 들면, 엑손)의 95% 초과, 약 97% 초과, 또는 약 99% 초과에서, 약 250× 초과, 약 500× 초과, 또는 약 1,000× 초과, 평균 고유 적용범위를 가진 서열분석을 포함하는, 방법.

55. 청구항 1 내지 54 중 어느 한 항에 있어서, 상기 서열이 청구항 1 내지 54 중 어느 한 항에 따른 방법에 의해 제공되는, 방법.

56. 청구항 1 내지 55 중 어느 한 항에 있어서, 하기에 의해 종양 샘플에서, 변이체, 예를 들면, 변이를 특성규명하는 단계를 추가로 포함하는, 방법:

a) 하기의 것들을 획득하는 단계:

i) 각각의 복수의 선택된 서브게놈 구간에 대하여, 선택된 서브게놈 구간에서 정규화된 서열 적용범위의 값을 포함하는 서열 적용범위 입력 (SCI) (여기에서 SCI는 서브게놈 구간용 판독의 수 그리고 과정-매칭된 대조군용 판독의 수의 함수임); ⅱ) 각각의 복수의 선택된 생식세포 SNPs에 대하여, 종양 샘플에서 대립유전자 빈도의 값을 포함하는 SNP 대립유전자 빈도 입력 (SAFI) (여기에서 SAFI는, 적어도 부분적으로, 종양 샘플에서 소수의 또는 대안적인 대립유전자 빈도에 기반됨); 및 (ⅲ) 종양 샘플에서 상기 변이체에 대한 대립유전자 빈도를 포함하는, 변이체 대립유전자 빈도 입력 (VAFI);

b) SCI 및 SAFI의 함수로서, 하기의 것들에 대한 값을 획득하는 단계: i) 각각의 복수의 게놈 세그먼트에 대한 게놈 세그먼트 총 카피 수(C);ⅱ) 각각의 복수의 게놈 세그먼트에 대한 게놈 세그먼트 소수의 대립유전자 카피 수(M); 및(ⅲ) 샘플 순도(p),

c) 하기의 것들을 획득하는 단계: 체세포, 서브클론성 체세포 변이체, 생식세포이거나 또는 구별할 수 없는 변이체를 나타내고, VAFI, p, C, 및 M의 함수인, 돌연변이 유형 g의 값.

57. 청구항 1 내지 56 중 어느 한 항에 있어서, 각각의 복수의 선택된 서브게놈 구간, 각각의 복수의 선택된 생식세포 SNPs, 및 변이체 (예를 들면, 변이)를 서열분석하는 단계로서, 정규화에 앞서 평균 서열 적용범위가 적어도 약 250×, 예를 들면, 적어도 약 500×인 단계를 추가로 포함하고, 방법.

58. 청구항 56 또는 57에 있어서, SCI에 게놈-전체 카피 수 모델을 적합화하는 것이 하기의 방정식을 사용하는 것을 포함하는, 방법:

(여기에서 ψ는 종양 배수성임).

59. 청구항 56 내지 58 중 어느 한 항에 있어서, SAFI에 게놈-전체 카피 수 모델을 적합화하는 것이 하기의 방정식을 사용하는 것을 포함하는, 방법:

(여기에서 AF는 대립유전자 빈도임).

60. 청구항 56 내지 59 중 어느 한 항에 있어서, g가 체세포/생식세포 상태에 대한 모델에 VAFI, p, C, 및 M을 위한 값의 적합화를 결정함에 의해 결정되는, 방법.

61. 청구항 56 내지 60 중 어느 한 항에 있어서, g의 값이 하기에 의해 획득되는, 방법:

(여기에서 AF는 대립유전자 빈도임).

62. 청구항 56 내지 61 중 어느 한 항에 있어서,

0이거나, 0에 가까운 g의 값은 변이체가 체세포 변이체인 것을 나타내고;

1이거나, 1에 가까운 g의 값은 변이체가 생식세포 변이체인 것을 나타내고;

1 미만 0 초과인 g의 값은 구별할 수 없는 결과를 나타내고; 그리고

유의미하게 0 미만인 g의 값은 변이체가 서브클론성 체세포 변이체인 것을 나타내는 방법.

63. 청구항 1 내지 62 중 어느 한 항에 있어서, 상기 샘플 (예를 들면, 종양 샘플 또는 종양에서 유래된 샘플)이 하기의 것들을 포함하는, 방법: 하나 이상의 전악성(premalignant) 또는 악성 세포; 고체 종양, 연조직 종양 또는 전이성 병변 유래의 세포; 수술 절제면 유래의 조직 또는 세포; 조직학적으로 정상 조직; 하나 이상의 순환 종양 세포 (CTC); 정상 인접한 조직 (NAT); 종양을 갖거나 가질 위험에 처한 동일한 피험체 유래의 혈액 샘플; 또는 FFPE-샘플.

64. 청구항 1 내지 63 중 어느 한 항에 있어서, 상기 샘플이 FFPE 샘플인, 방법.

65. 청구항 63 또는 64에 있어서, 상기 FFPE 샘플이 1, 2 또는 모든 하기 특성을 갖는, 방법:

(a) 25 mm² 이상의 표면적;

(b) 1 mm³ 이상의 샘플 용적; 또는

(c) 80% 이상 또는 30,000개 이상의 세포의 유핵 세포충실도.

66. 청구항 1 내지 65 중 어느 한 항에 있어서, 상기 샘플이 순환 종양 DNA (ctDNA)를 포함하는 샘플인, 방법.

67. 청구항 1 내지 66 중 어느 한 항에 있어서, 상기 샘플이 고체 종양, 혈액암, 또는 이의 전이성 형태로부터 획득되는, 방법.

68. 청구항 1 내지 67 중 어느 한 항에 있어서, 종양 변이 부담의 평가에 반응하여, 종양 샘플이 유래된 피험체 또는 종양 샘플을 분류하는 단계를 추가로 포함하는, 방법.

69. 청구항 1 내지 68 중 어느 한 항에 있어서, 환자에 또는 또 다른 사람 또는 독립체, 간병인, 의사, 종양학자, 병원, 진료실, 제3-자 지급인, 보험회사 또는 정부 기관에 대한 보고서, 예를 들면, 전자적, 웹-기반, 또는 종이 보고서를 작성하는 단계를 추가로 포함하는, 방법.

70. 청구항 69에 있어서, 상기 보고서가 종양 변이 부담을 포함하는 방법으로부터의 출력을 포함하는, 방법.

71. 하기를 포함하는, 샘플 (종양 샘플 또는 종양에서 유래된 샘플)에서 종양 변이 부담을 평가하는 시스템:

메모리에 작동가능하게 연결된 적어도 하나의 프로세서로서, 실행하는 경우 하기의 단계들을 실행하도록 구성되는 프로세서:

a) 종양 샘플로부터 서브게놈 구간의 세트 (예를 들면, 코딩 서브게놈 구간)의 서열, 예를 들면, 뉴클레오타이드 서열을 획득하는 단계로서, 상기 코딩 서브게놈 구간의 세트는 유전자의 소정의 세트 유래인 단계; 및

b) 종양 변이 부담의 값을 결정하는 단계로서, 상기 값은 서브게놈 구간의 트에서 체세포 변이 (예를 들면, 하나 이상의 체세포 변이)의 수의 함수이고, 상기 변이의 수는 하기를 배제하는 단계:

(i) 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)에서의 기능적 변이; 및(ⅱ) 서브게놈 구간 (예를 들면, 코딩 서브게놈 구간)에서의 생식세포 변이.

종양 샘플의 다유전자 분석 방법의 구현예의 순서도 도시는 도 1a 내지 도 1f에 제공된다.

본 개시내용은, 명세서의 일부이고 참고로 본 명세서에서 그 전문이 편입되는, 표 5 (부록 A)를 포함한다.

실시예

본 발명은 제한으로서 해석되지 않아야 하는 하기 실시예에 의해 추가로 설명된다. 본원 전반에 걸쳐 인용된 모든 참고문헌, 도, 서열 목록, 특허 및 공개된 특허 출원의 내용은 이로써 참고로 편입된다.

실시예 1: 표적된 유전자에 의해 측정된 변이 부담과 전체 게놈 변이 부담의 비교

이 실시예에서, 315개 유전자 (1.1 Mb의 코딩 게놈)을 표적하는 포괄적인 게놈 프로파일링(CGP) 시험에 의해 측정된 경우, TMB가 전체 엑솜 TMB의 정확한 평가를 제공할 수 있는지 여부는 결정되었다. 표적된 포괄적인 게놈 프로파일링 시험에 의한 TMB의 정확한 측정은 실증되었다.

방법

TCGA 데이터의 분석

TCGA 데이터는 공공 저장소로부터 수득되었다 (Cancer Genome Atlas Research Network 등. Nat Genet 2013; 45: 1113-20). 이 분석을 위하여, TCGA에 의해 결정된 경우 변이체로 불리는 체세포는 원 돌연변이 계수로서 사용되었다. 38 Mb는 엑솜 크기의 추정치로서 사용되었다. 다운샘플링 분석을 위하여, 돌연변이/Mb의 관측된 수는 0-10 Mb / 부분 범위의 엑솜의 다양한 부분에 대하여 전체 엑솜 TMB = 100 돌연변이/Mb, 20 돌연변이/Mb, 및 10 돌연변이/Mb에서 이항식 분포를 사용하여 1000회 모의실험되었다. 흑색종 TCGA 데이터는 dbGap 수탁 번호 phs000452. v1. p1 (Berger 등. Nature 2012; 485: 502-6)로부터 수득되었다.

종양 변이 부담

이론에 의해 구속됨의 바램 없이, 이 실시예에서, 종양 변이 부담는 아래와 같이 결정되었다. 종양 변이 부담은, 검사된 게놈의 메가베이스당, 체세포, 코딩, 염기 치환 및 인델 돌연변이의 수로서 측정되었다. 동의 변이를 포함하는, 표적된 유전자의 코딩 영역에서 모든 염기 치환 및 인델은 아래 기재된 바와 같이 필터링 전 초기에 계수되었다. 동의 돌연변이는 샘플링 노이즈를 감소시키기 위해 계수되었다. 동의 돌연변이가 면역원성 창출에서 직접적으로 관여될 것 같지 않은 반면, 그것의 존재는 게놈에서 다른 곳에 신생항원 및 비동의 돌연변이를 또한 초래하는 돌연변이 과정의 신호이다. 비-코딩 변이는 계수되지 않았다. COSMIC에서 공지된 체세포 변이로서 열거된 변이 및 종양 억제제 유전자에서 절단이 계수되지 않았던 것은, 시험된 유전자가 암에서 기능성 돌연변이를 가진 유전자를 향해 편향되기 때문이다 (Bamford 등. Br J Cancer 2004; 91: 355-8). 체세포-생식세포-접합성 (SGZ) 알고리즘에 의해 생식세포인 것으로 예상된 변이는 계수되지 않았다 (Sun 등. Cancer Research 2014; 74(19S): 1893-1893). 임상 시료의 집단에서 생식세포인 것으로 주기적으로 예상된 변이는 계수되지 않았다. dbSNP에서 공지된 생식세포 변이는 계수되지 않았다. ExAC 데이터베이스에서 2회 이상의 계수로 발생하는 생식세포 변이는 계수되지 않았다 (Lek 등. Nature 2016; 536: 285-91). 메가베이스당 TMB를 계산하기 위해, 계수된 돌연변이의 총 수는 표적된 영역의 코딩 영역의 크기에 의해 분할되었다. 　비매개변수 Mann-Whitney U-시험은 2 모집단 사이 평균의 차이에서 유의성에 대하여 시험하기 위해 후속적으로 사용되었다.

결과

공공연하게 이용가능한 TCGA 전장 엑솜 서열분석 데이터세트 (The Cancer Genome Atlas; cancergenome.nih.gov)의 초기 분석은, 표적된 유전자 (예를 들면, 도 3a 및 도 3b에 제시된 유전자 세트) 가 전체 엑솜 변이 부담의 정확한 평가를 제공할지 여부를 결정하기 위해 수행되었다. 35개 구별되는 연구/질환으로부터 7,001 시료에 대하여 전체 돌연변이 판정 데이터는 TCGA로부터 다운로드되었다. 체세포 코딩 돌연변이의 수는 전체 엑솜 데이터세트, 및 도 3a 및 도 3b에서 제시된 유전자 세트를 이용하는 시험에 의해 표적화딘 유전자에서 발생하는 이들 돌연변이의 수에 대하여 계수되었다. 이들 데이터는 도 5 및 도 6에서 도시된 표 5 (부록 A) 및/또는 산포도에서 나타난다: 전체 엑솜으로부터 변이 부담은 도 3a 및 도 3b에 제시된 유전자로부터 변이 부담과 관계있으며, 0.974의 결정의 계수 (R 제곱) 만을 사용하였다.

추가 분석은, 총 8,917개 암 시료 (Cancer Genome Atlas Research Network 등. Nat Genet 2013; 45: 1113-20)을 시험하는, The Cancer Genome Atlas의 일부로서 공개된, 35개 연구로부터 전체-엑솜 서열분석 데이터를 포함하였다. 돌연변이의 수는 총계로 결정되었고 시험에 의해 표적된 315개 유전자에서 돌연변이의 수와 비교되었다. 이들 결과는 마찬가지로 또한 고도로 상관되었다 (R²=0.98).

이들 결과는 전체 엑솜 변이 부담이 하기를 사용하여 정확하게 평가될 수 있다는 것을 입증한다: 몇 백 유전자의 전체 코딩 영역의 CGP 표적의 사용 (예를 들면, 하기에서 제시된 유전자를 사용하는 시험에 의해 표적된 유전자로부터 데이터만의 사용: 도 3a 및 도 3b).

요약하면, 이 연구는 1.1 Mb 포괄적인 게놈 프로파일링 검정을 사용하여 계산된 종양 돌연변이 부담이 돌연변이 부담의 전체 엑솜 측정에 양호하게 일치한다는 것을 보여준다. 이것은, 몇 백 유전자의 전체 코딩 영역을 표적하는, CGP가 충분한 게놈 공간을 포함하여 전체 엑솜 변이 부담을 정확하게 평가한다는 것을 나타낸다. 생식세포 변이 및 희귀 변이체의 여과 제거가 TMB의 정확한 측정을 수득하는데 사용될 수 있다는 것이 밝혀졌고, 이것은 서열분석 데이터세트에서 양호하게 표시되지 않은 민족 배경으로부터 환자에서 특히 유용할 수 있다. 이들 발견은 CGP가 TMB 측정에 대하여 정확한, 비용-효율적인, 및 임상적으로 이용가능한 도구인 것을 나타낸다. 다운샘플링 분석의 결과는 1.1 Mb 서열분석 경우 샘플링으로 인해 측정에서 변화가 허용가능하게 낮아서, TMB 수준의 범위에서 TMB의 고도로 정확한 판정을 초래한다는 것을 보여준다. 이러한 샘플링 변화는 서열분석된 Mb의 수가, 특히 TMB의 더 낮은 수준에서 감소함에 따라 증가한다.

실시예 2: 암 유형에 걸친 돌연변이 부담의 상황

이 실시예에서, TMB의 분포는 ≥100,000 암 시료의 다양한 집단에 걸쳐서 기재되었고, 체세포 변이와 TMB 사이 관련은 100 초과의 종양 유형에서 시험되었다. 환자의 서브세트는, 많은 희귀 종양 유형을 포함하는, 거의 모든 암 질환 유형에 걸쳐서 높은 TMB를 나타내는 것으로 밝혀졌다. TMB가, 10세와 90세 사이 2.4-배 차이를 보여주는, 연령에 따라 상당히 증가한다는 것이 밝혀졌다. 코딩 게놈의 ~1.1 Mb를 표적하는 CGP 검정을 사용하여, 면역요법으로부터 유익할 수 있는 높은 TMB를 가진 환자의 상당한 부분과 많은 질환 유형이 있다는 것이 밝혀졌다.

이러한 연구는 다양한 유형의 >100,000 환자 종양의 포괄적인 게놈 프로파일링 (CGP)로부터 데이터에 기반된 인간암의 스펙트럼에 걸쳐서 TMB의 상황의 더 나은 이해를 제공한다. 이 실시예에서 기재된 분석은 암에서 돌연변이 부담을 정량화하는 현존하는 데이터에서 상당히 확대하여, 많은 이전에 미기재된 암 유형에 데이터를 제공한다. 신규한 데이터는 면역요법으로부터 유익할 수 있는 환자 모집단의 합리적인 확대을 뒷받침하기 위해 그리고 미시험된 암 유형에서 면역요법 제제의 임상시험의 잘 아는 설계를 허용하기 위해 제공되었다.

방법

포괄적인 게놈 프로파일링

CGP는 상세히 이전에 기재된 바와 같이 수행되었다 (Frampton 등. Nat Biotech 2013; 31: 1023-1031; He 등. Blood 2016; 127: 3004-14; FoundationOne assay (Cambridge, MA, USA)). 간단히, 각 사례의 병리적 진단은 헤마톡실린 및 에오신 (H&E) 염색된 슬라이드의 검토에 의해 확인되었고 DNA 추출로 촉진하였던 모든 샘플은 최소의 20% 종양 세포를 함유하였다. 185, 236, 315, 또는 405개 암-관련된 유전자로부터 엑손 영역 및 암에서 통상적으로 재배열된 19, 28, 또는 31 유전자로부터 선택 인트론의 혼성화 포착은 포르말린-고정 파라핀-포매된 임상 암 시료로부터 추출된 DNA의 ≥50ng에 적용되었다. 이들 라이브러리는 높은, 균일한 중위 적용범위 (>500×)로 서열분석되었고, 염기 치환, 짧은 삽입 및 결실, 카피 수 변이 및 유전자 융합/재배열에 대하여 평가되었다 (Frampton 등. Nat Biotech 2013; 31: 1023-1031). 검정의 3 버전 각각으로부터의 데이터가 분석에 사용되었다.

종양 변이 부담

이론에 의해 구속됨의 바램 없이, 이 실시예에서, 종양 변이 부담은 실시예 1에서 기재된 바와 같이 결정되었다.

집단 선택

102,292 샘플의 초기 임상 집단으로부터, 동일한 환자로부터 이중 검정 결과는 배제되었고, 300× 미만 중위 엑손 적용범위를 가진 샘플은 92,439 샘플의 분석 트를 만들기 위해 배제되었다. 암 유형에 의한 분석을 위하여, 이들은 샘플 수준 여과 이후 최소의 50개 고유 시료를 함유해야 했다.

TMB의 상황은 실험실에서 프로파일링된 환자의 집단에 걸쳐서 검사되었다. 　CGP는 102,292 암 환자에 대하여 일상적인 임상 관리의 과정에서 수행되었다 (참고 본 실시예의 "방법" 섹션). 고유 환자 집단은 41,964 남성 및 50,376 여성 환자를 포함하였다. 시료 수집의 시간에 중위 환자 연령은 60세이었고 (범위: <1세 내지 >89세), 및 사례의 2.5 퍼센트는 18세 이하 소아 환자 유래이었다. 이러한 대다수의 데이터는 분석을 위하여 541개 구별되는 암 유형을 제공하였다. 현저히, 다수의 시료는 상당히 사전치료된, 진전된 및 전이성 질환을 가진 환자 유래이었다. 전체 데이터세트에 걸쳐서, 중위 돌연변이 부담은, 0-1,241 돌연변이/Mb의 범위로, 3.6 돌연변이/Mb이었다. 이것은 전체 엑솜 연구로부터 돌연변이 부담의 이전의 추정에 양호하게 일치한다 (Alexandrov 등. Nature 2013; 500:415-21; Lawrence 등. Nature 2013; 499: 214-8). 효과 크기가 작았어도, 증가된 연령 (p < 1×10^-16)과 관련된 TMB에서 유의미한 증가는 밝혀졌다 (도 7). 10세에서 중위 TMB는 1.67 돌연변이/Mb이었고, 88세에서 중위 TMB는 4.50 돌연변이/Mb이었다. 데이터에 적합한 선형 모델은, 이들 연령에서 중위 TMB 차이와 일치하는, 10세와 90세 사이 TMB에서 2.4-배 차이를 예상하였다. 여성과 남성 환자 사이 중위 돌연변이 부담에서 통계적으로 유의차가 없었다 (도 8a).

TMB는 50개 초과 시료가 시험된 167 구별되는 암 유형에 대하여 검사되었다 (도 9, 표 6). 중위 TMB는 골수 골수이형성 증후군에서 0.8 돌연변이/Mb 내지 피부 편평상피 세포 암종에서 45.2 돌연변이/Mb로 널리 범위하였다. 소아 악성종양 (환자 연령 18세 미만)이 성인 악성종양 (중위 3.6 돌연변이/Mb)보다 더 낮은 TMB (중위 1.7 돌연변이/Mb)를 가졌다는 것이 밝혀졌다. 소아 환자 예컨대 백혈병, 림프종, 및 신경교세포종에서 흔한 질환 유형은, 육종과 마찬가지로, 낮은 TMB를 가졌다 (표 6).

*CI: 신뢰 구간

상당한 돌연변이 유발원 노출, 예컨대 폐 및 피부 암을 갖는 것으로 공지된 질환은 더욱 고도로 돌연변이되었다 (중위 TMB 7.2 돌연변이/Mb 및 13.5 연변이/Mb, 각각). 흑색종, 비-소세포 폐암 (NSCLC), 및 방광을 포함하는, 면역요법에 대하여 현재 승인된 질환 징후는 높은 TMB를 가졌다 (참고 표 6). 높은 TMB를 가진 추가의 암 유형 확인은 체크포인트 억제제 봉쇄에 유리하게 반응하는 징후의 목록을 확대하기 위한 기회를 나타낼 수 있다. 이들은 피부 편평상피 세포 암종, 폐 소세포 미분화된 암종, 미만성 큰 B 세포 림프종, 또한 많은 다른 유형의 암을 포함한다 (도 6a 내지 도 6c). 높은 전반적인 TMB를 가진 추가의 암 유형 확인에 더하여, 높은 TMB를 가진 사례는 거의 모든 암 유형에 걸쳐 밝혀졌다 (참고 표 6-7). 이것은 면역요법으로부터 유익할 수 있는 높은 TMB를 가진 환자가 거의 모든 유형의 암에서 확인될 수 있다는 가능성을 올린다. 예를 들어, 연조직 맥관육종에서, 중위 돌연변이 부담이 3.8 돌연변이/Mb이었던 반면, 사례의 13.4%는 20 초과 돌연변이/Mb를 가졌다. 전반적으로, 8 조직을 감염시키는 20 종양 유형은 높은 TMB를 가졌던 환자의 10% 초과로 확인되었고, 19 조직을 감염시키는 38 종양 유형은 높은 TMB를 가진 환자의 5% 초과로 확인되었다 (참고 표 7).

요약하면, 이러한 연구는, 많은 이전에 미기재된 유형의 암을 포함하는, 진전된 질환으로부터 100,000 초과 임상 암 시료에 걸쳐서 종양 변이 부담을 기재하는 광범위한 데이터를 특성규명하고 제공한다. 이들 데이터는 더 넓은 범위의 징후에 걸쳐서 면역요법 임상시험의 설계를 안내하는데 사용될 수 있다. 현재, CTLA-4, PD-1, 및 PD-L1을 표적하는 면역요법은 소수의 징후, 흑색종, 방광, NSCLC, 및 신장 세포 암종에서 승인된다. 흑색종 및 NSCLC가 최고 돌연변이 부담 징후의 일부를 나타내는 것이 관측되었다. 몇 개의 신규한 질환 유형은 면역-종양학 치료 개발을 위하여 양호한 표적일 수 있는 높은 돌연변이 부담으로 확인되었다. 또한, 광범위한 TMB는 많은 암 유형에 걸쳐서 관측되었다. 이들 요법으로부터 유익할 수 있는 환자의 상당한 부분을 가진 많은 질환 유형이 있을 수 있다는 것이 밝혀졌다. 전반적으로, 8개 조직을 감염시키는 22개 종양 유형은 확인되었고, 여기에서 환자의 10% 초과는 높은 TMB를 가졌다.

실시예 3: 폐암에서 돌연변이 하중을 평가하기 위한 포괄적인 게놈 프로파일링

특히 EGFR, ALK 또는 ROS1 돌연변이가 검출될 수 없고 세포독성 요법이 실패하였던 경우, 폐암은 관리 과제를 제시한다. 돌연변이 하중의 신규한 면역치료제 (예를 들면, PD-1/PD-L1 및 CTLA4 억제제)의 효능과의 관련을 연구하기 위해, 돌연변이 하중은 폐암을 가진 환자에 대하여 임상 관리의 과정에서 수행된 게놈 프로파일링을 통해 평가되었다.

방법

간단히, DNA는 폐암을 가진 환자로부터의 40 마이크론의 FFPE 섹션으로부터 추출되었다. CGP는 암에서 빈번하게 재배열된 28개 유전자로부터 315개 암-관련된 유전자 플러스 인트론에 대하여 663×의 중위 적용범위 깊이로 혼성화-포착된, 어댑터 라이게이션 기반 라이브러리에서 수행되었다. 이론에 의해 구속됨의 바램 없이, 이 실시예에서, 돌연변이 하중은, 이들이 혼성 포착으로 선택되는 것을 감안하면, 본 명세서에서 기재된 바와 같이 공지된 체세포 및 기능적 변이를 제거하기 위한 여과후 메가베이스(Mb)당 염기 치환 또는 인델의 수로서 특성규명되었다.

FFPE 종양 샘플

샘플 요건은 아래와 같다: 표면적: ≥25 mm²; 샘플 용적: ≥1 mm³; 유핵 세포충실도: ≥80% 또는 ≥30,000 세포; 종양 함량: ≥20%; 분석에 불충분한 조직을 가진 환자의 분획: 10-15%.

서열분석 라이브러리 제조

실험실 과정은 (PicoGreen 사에 의해 정량화된) ≥50ng의 dsDNA를 요구하였다. DNA는 초음파처리 (Covaris)에 의해 단편화되었고 "비드를 가진" 라이브러리 작제에서 사용되었다. DNA 단편은 바이오티닐화된 DNA 올리고뉴클레오타이드로 혼성화에 의해 포착되었다. 49×49쌍으로 된-단부 서열분석은, 엑손의 >99%에서 >100×인, >500× 평균 고유 적용범위로 Illumina HiSeq 플랫폼에서 수행되었다.

분석 파이프라인

염기 치환은 베이지안 알고리즘에 의해 분석되었다. 짧은 삽입/결실은 국부 어셈블리에 의해 평가되었다. 카피 수 변이는 과정-매칭된 정상 대조군과 비교에 의해 분석되었다. 유전자 융합은 키메라성 판독 쌍의 분석에 의해 검사되었다.

분석 방법은 임의의 돌연변이체 대립유전자 빈도로 존재하는 변이체에 감수성을 가졌고 드 브루윈(de Bruijn) 그래프-기반 국부 어셈블리를 사용하여 긴 (1-40 bp) 인델 변이체를 검출할 수 있었다. 분석 방법은 또한 카피 수 변이 (CNAs)의 평가용 판독-깊이의 비교적 게놈 혼성화 (CGH)-유사 분석을 사용하였다.

임상 보고

보고 접근법은 매칭된 전형 없이 해석을 제공하였다. 1000개 Genomes Project (dbSNP135)로부터 생식세포 변이체는 제거되었다. 공지된 드라이버 변이 (COSMIC v62)는 생물학적으로 유의미한 것으로 강조되었다. 생물의학 문헌 및 현행 임상시험의 간결한 요약은 각 변이를 위하여 제공되었다.

돌연변이 하중 분석 방법

돌연변이 하중 알고리즘의 목표는 FoundationOne® 시험에서 검출된 체세포 돌연변이의 수를 정량화하고, 전체적으로 엑솜 또는 게놈에 대해 그 값을 추론하는 것이다.

FoundationOne 시험에서 검출된 모든 짧은 변이체 변이 (염기 치환 및 인델)은 계수된다. 　 침묵 변이를 포함하는, 모든 코딩 변이는 계수된다. 　 비-코딩 변이는 계수되지 않는다. 　 (COSMIC 데이터베이스; cancer.sanger.ac.uk/cosmic에서 공지된 체세포 변이로서 발생하는) 공지된 기능성 상태 및 가능한한 기능성 상태 (종양 억제제 유전자에서 절단)을 가진 변이는 계수되지 않는다. 　 dbSNP 데이터베이스 (www.ncbi.nlm.nih.gov/SNP)에서 공지된 생식세포 변이는 계수되지 않는다. 　 ExAC 데이터베이스 (exac.broadinstitute.org)에서 2 이상의 계수로 발생하는 생식세포 변이는 계수되지 않는다. 　 체세포-생식세포-접합성 (SGZ) 알고리즘에 의해, 평가될 시료에서, 생식세포인 것으로 예상되는 변이 (예를 들면, 하기에서 기재된 바와 같이: 국제 출원 공개 번호 WO2014/183078, 미국출원 공개 번호 2014/0336996, 및 Sun 등. Cancer Research 2014; 74(19S): 1893-1893)는 계수되지 않는다. 　 SGZ 알고리즘에 의해, >60,000 임상 시료의 집단에서, 높은 신뢰로, 생식세포인 것으로 예상되는 변이는 계수되지 않는다. 　 메가베이스당 돌연변이 하중을 계산하기 위해, 계수된 돌연변이의 총 수는, 시험의 현행 버전에 대하여 1.252 메가베이스인, 시험의 코딩 영역 표적 구역에 의해 분할된다.

결과

총 10,676 폐 선암종, 1,960 폐 편평상피 세포 암종, 220 폐 대세포 암종, 및 784 폐 소세포 암종으로부터 게놈 프로파일은 평가되었다. 폐암 환자의 중위 연령은 0.9:1 남성:여성 비로 66세이었다. 메가베이스당 평균 돌연변이는 0 내지 984의 범위로서 평가되었고, 25번째, 중위, 및 75번째 4분위 역치는 2.7, 7.2, 및 22.5이었다.

폐암 환자 집단의 임상 특징은 표 8에서 나타난다. 폐암의 돌연변이 하중 특징은 표 9에서 나타난다.

임상 집단에서 돌연변이 하중 분포는 도 7a 내지 도 7d에서 나타난다. 폐암에서 돌연변이 발생은 이하 도 8a 내지 도 8e에 나타나 있다.

요약하면, 고도로 가변 돌연변이 하중은 폐암을 가진 환자에서 보여졌다. 전산적으로 체세포 대 정상 돌연변이를 정확하게 식별하는 능력은 환자 매칭된 정상 시료가 이용할 수 없는 경우 필수적이다. 폐암 사례의 실질적인 분획은 높은 돌연변이 하중 (39% =10 / Mb; 13% ≥20 / Mb)를 가졌고 면역치료제의 임상시험용 잠재적인 후보이다.

실시예 4: 결장직장 선암종에서의 돌연변이 하중을 평가하기 위한 포괄적인 게놈 프로파일링

특히 KRAS 또는 NRAS 유전자가 돌연변이되고 세포독성 요법이 실패하였던 경우, 결장직장 선암은 여전히 임상 과제로 남아있다. 면역 체크포인트 억제제로부터 예상된 이점과 종양 돌연변이 하중의 관련성을 연구하기 위해, 결장직장 선암종 샘플에서의 임상적으로 관련된 게놈 변이와 변이 부담 사이 관계는 게놈 프로파일링을 사용하는 일상적인 임상 관리의 과정에서 평가되었다.

방법

DNA는 결장직장 선암을 가진 환자로부터의 40 마이크론의 FFPE 섹션으로부터 추출되었다. CGP는 암에서 빈번하게 재배열된 28개 유전자로부터 315개 암-관련된 유전자 플러스 인트론에 대하여 698×의 평균 적용범위 깊이로 혼성화-포착된, 어댑터 라이게이션 기반 라이브러리에서 수행되었다. 이론에 의해 구속되지 않고, 이 실시예에서, 돌연변이 하중은, 이들이 혼성 포착으로 선택되는 것을 감안하면, 본 명세서에서 기재된 바와 같이 공지된 체세포 및 기능적 변이를 제거하기 위한 여과후 메가베이스 (Mb)당 염기 치환 또는 인델의 수로서 특성규명되었다.

샘플 요건, 서열분석 라이브러리 제조, 분석 파이프라인, 임상 보고, 및 돌연변이 하중 분석 방법은 실시예 3에서 기재된 바와 같다.

결과

총 6,742 결장 및 1,176 직장 선암종으로부터 게놈 프로파일은 평가되었다. 결장직장 선암종 환자의 중위 연령은 1.2:1 남성: 여성 비로 57세이었다. 메가베이스당 평균 돌연변이는 0 내지 866의 범위로서 평가되었고, 25번째, 중위, 및 75번째 4분위 역치는 2.7, 4.5, 및 6. 3이었다.

미스매치 치유 유전자 MLH1, MSH2, MSH6, 또는 DNA 폴리머라제 유전자 POLD1 에서 유전적 변이는 결장직장 선암의 174 (2.2%), 191 (2.4%), 315 (3.9%) 또는 283 (3.6%) 사례에서 검출되었고, 이것은 30, 23, 29, 또는 15, 각각의 중위 종양 돌연변이 하중과 관련되었다. 그러나, 이 집단에서 10개의 가장 빈번하게 변경된 유전자-APC (76%), TP53 (76%), KRAS (51%), PIK3CA (18%), SMAD4 (15%), FBXW7 (10%), SOX9 (10%), MYC (8%), BRAF (8%), 및 PTEN (8%)-는 종양 돌연변이 하중에서 차이와 관련되지 않았다.

결장직장 선암종 환자 집단의 임상 특징은 표 10에서 나타난다. 결장직장 선암의 돌연변이 하중 특징은 표 11에서 기재된다.

임상 집단에서 돌연변이 하중 분포는 도 9a 및 도 9b에 나타난다. 결장직장 선암에서 돌연변이 유병률은 도 10a 내지 도 10c에 나타난다.

요약하면, 임상 관리의 과정에서 CGP는 결장직장 선암에서 돌연변이 하중을 평가하는데 사용될 수 있다. DNA 미스매치 치유 유전자에서 돌연변이는 기대된 대로 더 높은 돌연변이 부담과 관련되었다. 결장직장 선암종 사례의 실질적인 분획은 높은 돌연변이 하중 (9% ≥10 / Mb; 5% ≥20 / Mb)를 갖고 면역치료제의 임상시험용 잠재적인 후보이다. 진행 중인 유망 면역요법 시도 및 임상 실시에 CGP의 편입은 이들 관계를 개선하는데 필요하다.

실시예 5: 인간 신생물의 24 유형에서 돌연변이 하중을 평가하기 위한 포괄적인 게놈 프로파일링

면역 체크포인트 억제제로부터 예상된 유익과 종양 돌연변이 하중의 관련을 연구하기 위해, 신생물의 24 유형에서 변이 부담의 분포는 게놈 프로파일링을 사용하는 일상적인 임상 관리의 과정에서 평가되었다.

방법

DNA는 신생물의 24 유형 중 하나를 가진 환자로부터의 40 마이크론의 FFPE 섹션으로부터 추출되었다. CGP는 암에서 빈번하게 재배열된 28개 유전자로부터 315개 암-관련된 유전자 플러스 인트론에 대하여 500× 초과의 평균 적용범위 깊이로 혼성화-포착된, 어댑터 라이게이션 기반 라이브러리에서 수행되었다. 이론에 의해 구속됨의 바램 없이, 이 실시예에서, 돌연변이 하중은, 이들이 혼성 포착으로 선택되는 것을 감안하면, 본 명세서에서 기재된 바와 같이 공지된 체세포 및 기능적 변이를 제거하기 위한 여과후 메가베이스 (Mb)당 염기 치환 또는 인델의 수로서 특성규명되었다.

결과

총 15,508 신생물 시료로부터 게놈 프로파일은 평가되었다. 환자 집단의 중위 연령은 60세이었고 0.6:1 남성:여성 비를 갖는다. 메가베이스당 평균 돌연변이는 0 내지 689의 범위로서 평가되었고, 25번째, 중위, 및 75번째 4분위 역치는 1.8, 3.6, 및 5.4이었다.

환자 집단의 임상 특징은 표 12에서 나타난다. 신생물의 24개 유형의 돌연변이 하중 특징은 표 13에서 기재된다. 24개 상이한 신생물에서 TMB 분포는 도 11에서 도시된다.

본 명세서에서 기재된 방법 및 시스템에 관련된 추가의 예는, 예를 들면, 국제 출원 공개 번호 WO2012/092426의 실시예 1-17, 국제 출원 공개 번호 WO2016/090273의 실시예 16 및 17에서 기재되고, 상기 공개의 내용 및 그 예는 참고로 그 전문이 편입된다.

참고에 의한 편입

본 명세서에서 언급된 모든 공보, 특허, 및 특허 출원은 각각의 개별 공보, 특허 또는 특허 출원이 참고로 편입되도록 구체적으로 및 개별적으로 지시되는 것처럼 이로써 참고로 그 전문이 편입된다. 상충의 경우에, 본 명세서에서 임의의 정의를 포함하는, 본원이 지배할 것이다.

공공 데이터베이스, 예컨대 월드와이드웹 tigr.org에서 The Institute for Genomic Research (TIGR) 및/또는 월드와이드웹 ncbi.nlm.nih.gov에서 National Center for Biotechnology Information (NCBI)에 의해 유지된 것에서 등록에 상관관계가 있는 수탁 번호를 참조하는 임의의 폴리뉴클레오타이드 및 폴리펩타이드 서열은 참고로 그 전체가 또한 편입된다.

등가물

당해 분야의 숙련가는 불과 일상적인 실험과정을 사용하여 본 명세서에서 기재된 본 발명의 특이적 구현예의 많은 등가물을 인식할 것이거나, 확인할 수 있을 것이다. 그와 같은 등가물은 하기 청구항에 의해 포괄되도록 의도된다.

표 5 (부록)

SEQUENCE LISTING <110> FOUNDATION MEDICINE, INC. GENENTECH, INC. <120> METHODS AND SYSTEMS FOR EVALUATING TUMOR MUTATIONAL BURDEN <130> F2036-7064WO <140> PCT/US2017/019763 <141> 2017-02-27 <150> 62/301,534 <151> 2016-02-29 <160> 1 <170> PatentIn version 3.5 <210> 1 <211> 150 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (16)..(135) <223> a, c, t, g, unknown or other <400> 1 atcgcaccag cgtgtnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120 nnnnnnnnnn nnnnncactg cggctcctca 150

Claims

샘플에서 종양 돌연변이 부담을 평가하는 방법으로서, 하기 단계를 포함하는 방법:
a) 샘플로부터 서브게놈 구간의 세트의 뉴클레오타이드 서열을 제공하는 단계, 여기서 서브게놈 구간의 세트는 유전자의 소정의 세트에서 유래함; 및
b) 종양 돌연변이 부담의 값을 결정하고, 이로 인하여 샘플에서 종양 돌연변이 부담을 평가하는 단계, 여기서 상기 값은 서브게놈 구간의 세트에서 체세포 변이의 수의 함수이고, 상기 변이의 수는 하기를 배제함:
(i) 서브게놈 구간에서의 기능적 변이, 여기서 기능적 변이는, 참조 서열과 비교했을 때, 세포 분할, 성장 또는 생존에 효과를 갖는 변이임; 및
(ⅱ) 서브게놈 구간에서의 생식세포 변이.
샘플에서 종양 돌연변이 부담을 평가하는 방법으로서, 하기 단계를 포함하는 방법:
(i) 샘플로부터 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계;
(ⅱ) 라이브러리를 베이트 세트와 접촉시켜 선택된 종양 구성원을 제공하고, 이로 인하여 라이브러리 캐치를 제공하는 단계, 여기서 상기 베이트 세트는 종양 구성원과 혼성화됨;
(ⅲ) 상기 라이브러리 캐치로부터 종양 구성원으로부터의 변이를 포함하는 서브게놈 구간의 판독을 획득하는 단계;
(ⅳ) 상기 판독을 정렬 방법으로 정렬하는 단계;
(v) 미리선택된 뉴클레오타이드 위치에 대하여 상기 판독으로부터의 뉴클레오타이드 값을 배정하는 단계;
(ⅵ) 배정된 뉴클레오타이드 위치의 세트로부터 서브게놈 구간의 세트를 선택하는 단계, 여기서 서브게놈 구간의 세트는 유전자의 소정의 세트에서 유래함; 및
(ⅶ) 종양 돌연변이 부담의 값을 결정하고, 이로 인하여 샘플에서 종양 돌연변이 부담을 평가하는 단계, 여기서 상기 값은 서브게놈 구간의 세트에서의 체세포 변이의 수의 함수이고, 상기 변이의 수는 하기의 것들을 배제함:
(a) 서브게놈 구간에서의 기능적 변이, 여기서 기능적 변이는, 참조 서열과 비교했을 때, 세포 분할, 성장 또는 생존에 효과를 갖는 변이임; 및
(b) 서브게놈 구간에서의 생식세포 변이.
청구항 1 또는 2에 있어서, 서브게놈 구간의 세트가 코딩 서브게놈 구간의 세트인 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트가 전체 게놈 또는 전체 엑솜보다 적은 게놈 또는 엑솜을 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 서브게놈 구간의 세트가 전체 게놈 또는 전체 엑솜보다 적은 게놈 또는 엑솜을 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담의 값이 (i) 유전자의 소정의 세트의 함수 또는 (ii) 서열분석된 서브게놈 구간의 함수로서 표현되는 것인 방법.
청구항 6에 있어서, 종양 돌연변이 부담의 값이 (i) 유전자의 소정의 세트의 코딩 영역의 함수 또는 (ii) 서열분석된 코딩 서브게놈 구간의 함수로서 표현되는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담의 값이 (i) 미리선택된 유닛당 체세포 변이의 수의 함수 또는 (ii) 유전자의 소정의 세트의 미리선택된 숫자의 위치에서의 체세포 변이의 수의 함수로서 표현되는 것인 방법.
청구항 8에 있어서, 종양 돌연변이 부담의 값이 (i) 메가베이스당 체세포 변이의 수의 함수 또는 (ii) 유전자의 소정의 세트의 코딩 영역의 미리선택된 수의 위치에서의 체세포 변이의 수의 함수로서 표현되는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담의 값이 (i) 서열분석된 서브게놈 구간의 미리선택된 수의 위치에서의 체세포 변이의 수의 함수 또는 (ii) 유전자의 미리선택된 세트에서의 메가베이스당 체세포 변이의 수의 함수로서 표현되는 것인 방법.
청구항 10에 있어서, 종양 돌연변이 부담의 값이 (i) 서열분석된 코딩 서브게놈 구간의 미리선택된 수의 위치에서의 체세포 변이의 수의 함수 또는 (ii) 유전자의 소정의 세트의 코딩 영역에서 메가베이스당 체세포 변이의 수의 함수로서 표현되는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담의 값이 서열분석된 서브게놈 구간에서 메가베이스당 변이의 수의 함수로서 표현되는 것인 방법.
청구항 12에 있어서, 종양 돌연변이 부담의 값이 서열분석된 코딩 서브게놈 구간에서 메가베이스당 변이의 수의 함수로서 표현되는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담이 서브게놈 구간의 세트에 상대적으로 게놈의 더 큰 부분에 대해 추론되는 것인 방법.
청구항 14에 있어서, 종양 돌연변이 부담이 전체 엑솜 또는 전체 게놈에 대해 추론되는 것인 방법.
청구항 1 또는 2에 있어서, 샘플이 암을 가진 피험체, 또는 치료 요법을 받고 있거나 받아 왔던 피험체에서 유래한 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담이 백분위수로 표현되는 것인 방법.
청구항 17에 있어서, 종양 돌연변이 부담이 참조 집단으로부터의 샘플에서의 종양 돌연변이 부담 중에서의 백분위수로 표현되는 것인 방법.
청구항 18에 있어서, 참조 집단이 피험체와 동일한 유형의 암을 가진 환자, 또는 피험체와 동일한 유형의 치료 요법을 받고 있거나 받아 왔던 환자의 참조 집단인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가, 참조 서열과 비교했을 때, 세포 분할, 성장 또는 생존을 촉진시키는 변이인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가 기능적 변이의 데이터베이스에 포함됨으로서 기능적 변이인 것으로 확인되는 것인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가 종양 억제자 유전자에서의 절단(truncation)인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가 드라이버 돌연변이(driver mutation)인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가 하기 중 하나 이상을 야기할 수 있는 변이인 방법:
(a) 성장 신호에서의 자급자족(self-sufficiency);
(b) 성장억제 신호에 대한 감소된 감각 또는 무감각;
(c) 감소된 세포자멸사;
(d) 증가된 복제 가능성;
(e) 지속적인 혈관신생; 또는
(f) 조직 침습 또는 전이.
청구항 1 또는 2에 있어서, 기능적 변이가 패신져 돌연변이(passenger mutation)를 포함하지 않는 것인 방법.
청구항 1 또는 2에 있어서, 기능적 변이가 미공지된 유의성의 변이체(variant of unknown significance; VUS)를 포함하지 않는 것인 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트에서의 미리선택된 유전자에서의 복수의 기능적 변이가 배제되는 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트에서의 미리선택된 유전자에서의 모든 기능적 변이가 배제되는 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트에서의 복수의 미리선택된 유전자에서의 복수의 기능적 변이가 배제되는 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트에서의 모든 유전자에서의 모든 기능적 변이가 배제되는 방법.
청구항 1 또는 2에 있어서, 생식세포 변이가 매칭된 정상 서열과의 비교를 포함하지 않는 방법의 사용에 의해 배제되는 것인 방법.
청구항 1 또는 2에 있어서, 생식세포 변이가 SGZ 알고리즘의 사용을 포함하는 방법에 의해 배제되는 것인 방법.
청구항 1 또는 2에 있어서, 생식세포 변이가 생식세포 변이의 데이터베이스에 포함됨으로써 생식세포 변이로 확인되는 것인 방법.
청구항 1 또는 2에 있어서, 생식세포 변이가 단일 뉴클레오타이드 다형성(SNP), 염기 치환, 인델(indel), 또는 침묵 돌연변이인 방법.
청구항 34에 있어서, 침묵 돌연변이가 동의 돌연변이(synonymous mutation)인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 침묵 돌연변이인 방법.
청구항 36에 있어서, 침묵 돌연변이가 동의 돌연변이인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 패신져 돌연변이인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 미공지된 유의성의 변이체 (VUS)인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 점 돌연변이인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 짧은 변이체인 방법.
청구항 41에 있어서, 짧은 변이체가 염기 치환, 인델, 삽입, 또는 결실인 방법.
청구항 41에 있어서, 짧은 변이체가 짧은 코딩 변이체인 방법.
청구항 42에 있어서, 짧은 변이체가 짧은 코딩 변이체인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 비-동의 단일 뉴클레오타이드 변이체(non-synonymous single nucleotide variant; SNV)인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 스플라이스 변이체인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 암 표현형과 관련되는 것으로 확인되어 있지 않은 것인 방법.
청구항 1 또는 2에 있어서, 체세포 변이가 재배열을 포함하지 않는 것인 방법.
청구항 48에 있어서, 체세포 변이가 전좌를 포함하지 않는 것인 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트가 돌연변이체 형태에서 세포 분할, 성장 또는 생존에 대한 효과와 관련되거나 암과 관련되는 복수의 유전자를 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트가 적어도 50개 이상, 100개 이상, 150개 이상, 200개 이상, 250개 이상, 300개 이상, 350개 이상, 400개 이상, 450개 이상, 또는 500개 이상의 유전자를 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 유전자의 소정의 세트가 표 1 내지 4 또는 도 3a 내지 도 4d로부터 선택되는 적어도 50개 이상, 100개 이상, 150개 이상, 200개 이상, 250개 이상, 300개 이상, 또는 모든 유전자 또는 유전자 생성물을 포함하는 것인 방법.
[표 1]

[표 2]

[표 3]

[표 4]

[도 3a]

[도 3b]

[도 4a]

[도 4b]

[도 4c]

[도 4d]
청구항 1에 있어서, 종양 샘플에서 유래한 복수의 종양 구성원을 포함하는 라이브러리를 획득하는 단계를 추가로 포함하는 방법.
청구항 53에 있어서, 라이브러리를 베이트 세트와 접촉시켜 선택된 종양 구성원을 제공하는 단계 및 이로 인해 라이브러리 캐치를 제공하는 단계를 추가로 포함하고, 여기서 상기 베이트 세트가 종양 구성원과 혼성화되는 것인 방법.
청구항 54에 있어서, 상기 라이브러리 또는 라이브러리 캐치로부터의 종양 구성원으로부터의 체세포 변이를 포함하는 서브게놈 구간의 판독을 획득하는 단계 및 이로 인해 서브게놈 구간의 판독을 획득하는 단계를 추가로 포함하는 방법.
청구항 2 또는 55에 있어서, 판독의 획득이 차세대 서열분석 방법에 의해 수행되는 것인 방법.
청구항 55에 있어서, 정렬 방법에 의해 상기 판독을 정렬하는 단계를 추가로 포함하는 방법.
청구항 55에 있어서, 미리선택된 뉴클레오타이드 위치에 대하여 상기 판독으로부터의 뉴클레오타이드 값을 배정하는 단계를 추가로 포함하는 방법.
청구항 2 또는 55에 있어서, 서브게놈 구간의 판독을 획득하는 단계가 표 1 내지 4 또는 도 3a 내지 도 4d로부터 선택되는 적어도 50개 이상, 100개 이상, 150개 이상, 200개 이상, 250개 이상, 300개 이상, 또는 모든 유전자 또는 유전자 생성물로부터의 서브게놈 구간의 서열분석을 포함하는 것인 방법.
[표 1]

[표 2]

[표 3]

[표 4]

[도 3a]

[도 3b]

[도 4a]

[도 4b]

[도 4c]

[도 4d]
청구항 1 또는 2에 있어서, 서브게놈 구간의 판독을 획득하는 단계가 250배 초과, 500배 초과, 또는 1,000배 초과의 평균 고유 적용범위를 갖는 서열분석을 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 서브게놈 구간의 판독을 획득하는 단계가 서열분석된 유전자의 95% 초과, 97% 초과, 또는 99% 초과에서, 250배 초과, 500배 초과, 또는 1,000배 초과의 평균 고유 적용범위를 갖는 서열분석을 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 하기의 단계에 의해 종양 샘플에서 변이체를 특성규명하는 단계를 추가로 포함하는 방법:
a) 하기를 획득하는 단계:
i) 각각의 복수의 선택된 서브게놈 구간에 대하여, 선택된 서브게놈 구간에서의 정규화된 서열 적용범위의 값을 포함하는 서열 적용범위 입력(SCI), 여기서 SCI는 서브게놈 구간의 판독의 수 그리고 과정-매칭된 대조군의 판독의 수의 함수임;
ⅱ) 각각의 복수의 선택된 생식세포 SNP에 대하여, 종양 샘플에서 대립유전자 빈도의 값을 포함하는 SNP 대립유전자 빈도 입력(SAFI), 여기서 SAFI는, 적어도 부분적으로, 종양 샘플에서 소수의 또는 대안적인 대립유전자 빈도에 기반함; 및
ⅲ) 종양 샘플에서 상기 변이체의 대립유전자 빈도를 포함하는, 변이체 대립유전자 빈도 입력(VAFI);
b) SCI 및 SAFI의 함수로서, 하기의 값을 획득하는 단계:
i) 각각의 복수의 게놈 세그먼트에 대한 게놈 세그먼트 총 카피 수 (C);
ⅱ) 각각의 복수의 게놈 세그먼트에 대한 게놈 세그먼트 소수의 대립유전자 카피 수 (M); 및
ⅲ) 샘플 순도 (p)
여기서 C, M, 및 p의 값은 SCI 및 SAFI에 게놈-전체 카피 수 모델의 적합화에 의해 수득됨; 및
c) 하기를 획득하는 단계:
체세포, 서브클론성 체세포 변이체, 생식세포이거나 또는 구별할 수 없는 변이체를 나타내고, VAFI, p, C, 및 M의 함수인, 돌연변이 유형의 값 g.
청구항 62에 있어서, 각각의 복수의 선택된 서브게놈 구간, 각각의 복수의 선택된 생식세포 SNP, 및 변이체를 서열분석하는 단계를 추가로 포함하고, 여기서 정규화에 앞선 평균 서열 적용범위가 적어도 250배인, 방법.
청구항 62에 있어서, SCI에 게놈-전체 카피 수 모델을 적합화하는 것이 하기의 방정식을 사용하는 것을 포함하고, 여기서 ψ는 종양 배수성인 방법:

.
청구항 62에 있어서, SAFI에 게놈-전체 카피 수 모델을 적합화하는 것이 하기의 방정식을 사용하는 것을 포함하고, 여기서 AF는 대립유전자 빈도인, 방법:

.
청구항 62에 있어서, g가 체세포/생식세포 상태의 모델에 대한 VAFI, p, C, 및 M의 값의 적합화를 결정함으로써 결정되는 것인 방법.
청구항 62에 있어서, g의 값이 하기에 의해 획득되고, 여기서 AF는 대립유전자 빈도인, 방법:

.
청구항 62에 있어서,
0인 g의 값은 변이체가 체세포 변이체인 것을 나타내고;
1인 g의 값은 변이체가 생식세포 변이체인 것을 나타내고;
1 미만 0 초과인 g의 값은 구별할 수 없는 결과를 나타내고; 그리고
유의미하게 0 미만인 g의 값은 변이체가 서브클론성 체세포 변이체인 것을 나타내는 방법.
청구항 1 또는 2에 있어서, 샘플이 하나 이상의 전악성(premalignant) 또는 악성 세포; 고체 종양, 연조직 종양 또는 전이성 병변 유래의 세포; 수술 절제면 유래의 조직 또는 세포; 조직학적으로 정상 조직; 하나 이상의 순환 종양 세포 (CTC); 정상 인접한 조직 (NAT); 종양을 갖거나 가질 위험에 처한 동일한 피험체 유래의 혈액 샘플; 또는 FFPE-샘플을 포함하는 것인 방법.
청구항 1 또는 2에 있어서, 샘플이 종양 샘플 또는 종양으로부터 유래한 샘플인 방법.
청구항 1 또는 2에 있어서, 샘플이 FFPE 샘플인 방법.
청구항 71에 있어서, FFPE 샘플이 하기 특성 중 하나, 둘 또는 모두를 갖는 것인 방법:
(a) 25㎟ 이상의 표면적을 가짐;
(b) 1㎣ 이상의 샘플 용적을 가짐; 또는
(c) 80% 이상 또는 30,000개 이상의 세포의 유핵 세포충실도(nucleated cellularity).
청구항 1 또는 2에 있어서, 샘플이 순환 종양 DNA (ctDNA)를 포함하는 샘플인 방법.
청구항 1 또는 2에 있어서, 샘플이 고체 종양, 혈액암, 또는 이의 전이성 형태로부터 획득되는 것인 방법.
청구항 1 또는 2에 있어서, 종양 돌연변이 부담의 평가에 반응하여, 종양 샘플이 유래된 피험체 또는 종양 샘플을 분류하는 단계를 추가로 포함하는 방법.
청구항 1 또는 2에 있어서, 환자에 또는 다른 사람 또는 독립체, 간병인, 의사, 종양학자, 병원, 진료실, 제3자 지급인, 보험회사 또는 정부 기관에 대한 보고서를 작성하는 단계를 추가로 포함하는 방법.
청구항 76에 있어서, 상기 보고서가 종양 돌연변이 부담을 포함하는 방법으로부터의 출력을 포함하는 것인 방법.
하기를 포함하는, 샘플에서 종양 돌연변이 부담을 평가하는 시스템:
하기 단계들을 실행하도록 구성되는, 메모리에 작동가능하게 연결된 적어도 하나의 프로세서:
a) 종양 샘플로부터 서브게놈 구간의 세트의 뉴클레오타이드 서열을 획득하는 단계, 여기서 코딩 서브게놈 구간의 세트는 유전자의 소정의 세트 유래임; 및
b) 종양 돌연변이 부담의 값을 결정하는 단계, 여기서 상기 값은 서브게놈 구간의 세트에서 체세포 변이의 수의 함수이고, 상기 변이의 수는 하기를 배제함:
(i) 서브게놈 구간에서의 기능적 변이, 여기서 기능적 변이는, 참조 서열과 비교했을 때, 세포 분할, 성장 또는 생존에서 효과를 갖는 변이임; 및
(ⅱ) 서브게놈 구간에서의 생식세포 변이.
청구항 78에 있어서, 서브게놈 구간의 세트가 코딩 서브게놈 구간의 세트인 시스템.
청구항 78 또는 79에 있어서, 샘플이 종양 샘플 또는 종양으로부터 유래한 샘플인 시스템.
삭제