WO2021086107A1

WO2021086107A1 - Parp 저해제에 대한 반응성 결정방법

Info

Publication number: WO2021086107A1
Application number: PCT/KR2020/015027
Authority: WO
Inventors: 김성수; 홍정훈
Original assignee: (재)록원바이오융합연구재단
Priority date: 2019-10-30
Filing date: 2020-10-30
Publication date: 2021-05-06
Also published as: KR20210052356A; KR102580824B1

Abstract

본 발명은 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성 결정방법에 관한 것으로, 더욱 자세하게는 PAPR 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 분석함으로써 신속하고 민감하며, 높은 정확도로 PARP 저해제애 대한 감수성을 결정하는 방법 및 이를 이용한 키트에 관한 것이다. 본 발명에 따른 방법은 PARP 저해제 감수성을 결정하는 바이오마커의 대립 유전자 양쪽(both allele)의 변이를 검출하여 높은 민감도와 정확도로 PARP 저해제가 작동하는 시료를 선별할 수 있을 뿐만 아니라, 기존의 BRCA1/2 유전자의 변이만 검출하는 방법에 비하여 상동재조합결핍 관련 유전자를 추가로 분석하므로 더 넓은 범위에 시료에 대하여 PARP 저해제 감수성을 결정할 수 있어 유용하다.

Description

PARP 저해제에 대한 반응성 결정방법

본 발명은 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 반응성 결정방법에 관한 것으로, 더욱 자세하게는 PAPR 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 분석함으로써 신속하고 민감하며, 높은 정확도로 PARP 저해제애 대한 반응성을 결정하는 방법 및 이를 이용한 키트에 관한 것이다.

바이오마커란 ‘정상적인 생물학적 과정, 질병 진행 상황, 그리고 치료방법에 대한 약물의 반응성을 객관적으로 측정하고 평가할 수 있는 지표’라고 정의하고 있다. 최근 유전자 분석기술의 발달로 특정 유전자의 변이와 특정 질병 사이의 관련성에 대한 연구가 증가하면서 바이오마커는 유전자와 유전적 변이, 그로 인한 RNA, 단백질, 대사물질 발현의 차이를 모두 아우르는 분자적, 생물학적 지표로 재(再)정의되고 있다.

또한, 좀 더 효과적인 치료를 위해 의약품의 치료효과를 극대화 시키거나 부작용을 최소화 할 수 있는 환자군을 분류하고자 바이오마커의 감수성 여부를 판단할 수 있는 동반진단제(Companion Dignostics Device, CDx)의 개발이 이루어지고 있다.

동반진단(Companion Diagnosis)은 환자의 특정 약물 치료에 대한 반응성을 미리 예측하기 위한 진단 기법이다. 암세포와 정상세포에 대해 모두 작용하여 부작용이 큰 기존 대부분의 항암제의 단점을 극복하기 위해 특정 표적 단백질을 선택적으로 공격하도록 하는 표적 항암제가 개발되었다.

그러나 표적 항암제는 같은 종류의 암이라도 특정 표적 단백질을 가지는 암환자에게만 효과를 보이기 때문에 표적 분자를 가진 환자를 선별하지 않으면 치료 효율이 매우 낮다.

또한, 표적 항암제는 세포 사멸보다 세포 성장과 증식 억제에 의존하기 때문에 장기간에 걸쳐 지속적인 약물 투여로 인한 내성 발생 가능성이 높다. 따라서, 약물을 투여하기 전에 항암제의 표적에 대하여 분석하여 약물에 효과를 보이는 환자군을 선별하는 것이 필요하다.

다국적 제약사 중 하나인 Roche는 최초의 유방암 표적 항암제인 "Herceptin"과 이에 대한 동반진단키트인 "Herceptest"를 개발한 Genentech를 인수하여 동반진단 기반의 표적 항암제 치료를 시작하게 되었다. 동반진단키트는 DAKO, HercepTest와 같은 면역조직화학검사를 통해 특정 단백질의 과발현을 확인하는 방법, Ventana Medical Systems, INFORM HER-2/NEU와 같은 특정 유전자의 유전자 증폭을 DNA 프로브를 이용한 FISH 또는 CISH 검사를 통해 확인하는 방법, 그리고 Roche Diagnostics, cobas EGFR mutation test 와 같은 q-PCR 등 유전체학적 기법을 이용하여 바이오 마커 유전자의 돌연변이 여부를 검사하여 확인하는 방법 등이 있다.

일반적으로 항암 요법에서, 항암제를 투여하였을 때의 생체의 반응성은 약제의 표적이 되는 암세포의 이 약제에 대한 감수성에 크게 의존한다. 이러한 암세포의 약제에 대한 감수성은, 암세포마다 크게 상이하다. 이러한 감수성의 차이는, 이 약제의 표적 분자 또는 이에 관련하는 인자의 양적 또는 질적 차이, 또는 약제 내성의 획득 등에 기인한다. 이러한 배경을 근거로, 표적이 되는 암세포가 약제에 대하여 감수성을 나타낼 경우에 특이적으로 나타나는 암세포의 유전적 변화를 확인할 수 있다면, 조기에 약제의 효과 판정, 치료법의 확립, 새로운 치료법의 선택 등이 가능해져 대단히 유익하다. 또한, 치료에 앞서 생체 조직편 등에 의해 취득된 암 조직에서, 통상의 방법에 따라 암세포를 분리한 후 약제 처리를 실시하여, 이 암세포가 약제 감수성인지 여부를 상기 변화에 의해 측정하면, 이 약제에 의한 치료가 유효한지 여부를 미리 예측할 수 있기 때문에 임상적으로 매우 유용하다.

최근 주목 받고 있는 암치료를 위한 신규한 접근법은 합성 치사(synthetic lethality)에 관한 것으로, 합성 치사란 두 개의 유전자(또는 두 유전자 산물들) 중 하나에만 돌연변이가 있는 경우 세포가 생존할 수 있지만, 두 개의 유전자 모두에 돌연변이가 있는 경우에는 세포가 죽음에 이르게 되는 것을 의미한다. 이와 같은 2 종 이상의 돌연변이의 유전적 상호작용으로 사멸을 유도하는 예로는 BRCA1/2와 올라파립을 들 수 있다. 다시 말해, 합성치사는 돌연변이 및 약물이 함께 작용하여 암세포를 사멸시키는 것으로, 암-관련 돌연변이에 의해 합성 치사되는 유전자(또는 유전자 산물)를 타겟팅하면, 암세포만을 사멸시키고 정상적인 세포는 살아남게 된다. 따라서, 합성 치사는 항암 제제의 개발을 위한 프레임워크를 제공한다. 그러나, 합성 치사 유전자들(및 유전자 산물들)의 확인 부재 등으로 인하여 이에 대한 연구는 거의 없는 실정이다.

Two hit theory 란, 종양 형성을 위해서 동일한 유전자 내에 이중가닥에 각각 돌연변이가 필수적으로 일어나야 한다는 이론으로, DNA의 두 가닥 중 하나의 가닥이 germline 변이를 가질 때, 다른 가닥은 somatic 변이를 가져야 종양이 유도되며, germline 변이가 없는 경우에는 두 가닥 모두 somatic 변이를 가지고 있어야 종양이 유도된다는 가설이다.

따라서, 유전자의 돌연변이를 분석할 때, germline 돌연변이와 somatic 돌연변이를 구분하는 것이 중요하나, 현재 한번의 분석으로 두 돌연변이를 구분하는 방법은 없는 실정이다.

한편, 올라파립(Olaparib, AZD2281)은 암세포의 비정상적인 증식을 억제하는 기능을 가진 항암제로, "PARP 단백질"의 저해제이다. PARP는 세포 내 DNA가 손상 받은 경우, 이를 복구(repair)하는 기능을 하는 단백질로, 세포가 DNA의 수리를 마치고, 지속적으로 증식을 할 수 있도록 기여하는데 큰 역할을 수행한다. 올라파립은 이 PARP의 기능을 저해함으로써, 암세포의 증식을 저해한다. 이러한 올라파립은 난소암, 유방암의 표적치료제로 잘 알려져 있으며, 특히 BRCA1, BRCA2의 돌연변이를 유전적으로 가지고 있는 암 환자들에게 효과적인 항암제로 알려져 있다.

즉, 항암제의 효과는 DNA 복구(repair) 능력에 영향을 많이 받으며, 또한, 항암제는 내성과 독성에 관해서 개인차가 상이하므로, 적합한 치료반응성 표식자를 이용한 선별은 항암제 치료의 획기적인 진보를 초래할 수 있다. 특정 유전자에 따른 개별 항암제의 치료반응성에 관한 연구가 최근 지속적으로 활발하게 전개되고 있다. 그러나 특정약제에 대한 생체반응 관련요소의 복합적 작용, 치료제 및 투여방식의 다양성과 방대한 시료확보의 어려움으로 아직 괄목할 만한 성과가 미약한 현실이다.

Myriad genetics 社에서는 PARP 저해제(올라파립(olaparib), 탈라조파립(talazopari)b 및 루카파립(rucaparib))의 동반진단을 위해 germline BRCA1 및 BRCA2의 변이유무를 진단하는 제품을 출시하였다. 그러나 이 제품은 BRCA1/2 유전자의 대립 유전자와 상관 없이 변이 존재의 유무만을 결정하는 제품이고, PARP 저해제에 대한 전체 반응율(ORR, overall response rat)가 34%밖에 되지 않아, 단순 BRCA1/2의 germline mutation 검출만으로는 PARP 저해제에 대한 동반진단이 충분히 이루어 질 수 없음을 의미한다.

Foundation medicine 社의 FoundationFocusCDxBRCA 제품 역시 BRCA1 및 BRCA2의 변이와 PARP 저해제인 루카파립(rucaparib)의 연관성을 진단하는 동반진단 제품이지만, 전체 반응율(ORR, overall response rate)가 53.8%밖에 되지 않는 실정이다.

이에 본 발명자들은 민감도와 정확성이 높은 PARP 저해제에 대한 반응성 결정방법을 개발하기 위하여 예의 노력한 결과, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 확인한 다음, 대립 유전자 양쪽(both alleles)의 변이 유무를 확인할 경우, PARP 저해제에 대한 반응성을 높은 민감도와 정확도로 결정할 수 있음을 확인하고, 본 발명을 완성하였다.

발명의 요약

본 발명의 목적은 PARP 저해제에 대한 반응성 결정방법을 제공하는 것이다.

본 발명의 다른 목적은 PARP 저해제에 대한 반응성 예측용 조성물을 제공하는 것이다.

본 발명의 또 다른 목적은 상기 조성물을 포함하는 PARP 저해제에 대한 반응성 예측용 키트를 제공하는 것이다.

상기 목적을 달성하기 위해서, 본 발명은 (a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및 (b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both allele)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법을 제공한다.

본 발명은 또한, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 제공한다.

본 발명은 또한, 상기 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트를 제공한다.

도 1은 본 발명의 일 실시예에 따라 계산한 GA 값을 유전자 별로 분류한 결과 그래프이다.

도 2는 본 발명의 일 실시예에 따라 서정한 18개 유전자에서 GA 빈도수를 확인한 결과이다.

도 3은 본 발명의 일 실시예에 따라 40세 전후의 GA 분포를 확인한 결과이다.

발명의 상세한 설명 및 바람직한 구현예

개요

A. 용어 정의

B. PAPR 저해제

1. PARP 저해제의 작동 기작

2. PARP 저해제의 종류

C. PARP 저해제 동반진단을 위한 유전자 그룹

1. PARP 저해제 저항성 유전자 그룹

2. PAPR 저해제 민감성 유전자 그룹

D. 상동재조합결핍(HRD) 판단 기준 및 예시

E. 핵산 분석 방법

1. PCR/Probe 기반 분석 방법

2. NGS 기반 분석 방법

a. 타겟 풍부화(Target Enrichment)

b. 서열분석(sequencing by synthesis)

d. 서열 정렬(alignment)

e. 변이 호출(variant calling)

F. 실시예

다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.

A. 용어 정의

본 발명에서 용어 "뉴클레오시드" 또는 “뉴클레오사이드”는 핵산 염기(핵염기)가 당 모이어티에 연결된 글리코실아민 화합물을 의미한다. "뉴클레오티드"는 뉴클레오시드 포스페이트를 의미한다. 뉴클레오티드는 표 1에 기재된 것과 같이, 그의 뉴클레오시드에 상응하는 알파벳 문자(문자 명칭)를 사용하여 표시될 수 있다. 예컨대, A는 아데노신(아데닌 핵염기를 함유하는 뉴클레오시드)을 지칭하고, C는 시티딘을 지칭하고, G는 구아노신을 지칭하고, U는 우리딘을 지칭하고, T는 티미딘(5-메틸 우리딘)을 지칭한다. W는 A 또는 T/U를 지칭하고, S는 G 또는 C를 지칭한다. N은 랜덤한 뉴클레오시드를 표시하고, dNTP는 데옥시리보뉴클레오시드 트리포스페이트를 의미한다. N은 A, C, G, 또는 T/U 중 어떤 것도 될 수 있다.

본 발명에서 용어 "올리고뉴클레오티드" 또는 “올리고뉴클레오타이드”는 뉴클레오티드의 올리고머를 의미한다. 본원에 사용된 용어 "핵산"은 뉴클레오티드의 중합체를 의미한다. 본원에 사용된 용어 "서열"은 올리고뉴클레오티드 또는 핵산의 뉴클레오티드 서열을 의미한다. 명세서를 통틀어, 올리고뉴클레오티드 또는 핵산이 문자의 서열에 의해 표시될 때마다, 뉴클레오티드는 좌에서 우로 5'→3' 순서이다. 올리고뉴클레오티드 또는 핵산은 DNA, RNA, 또는 그의 유사체(예컨대, 포스포로티오에이트 유사체)일 수 있다. 올리고뉴클레오티드 또는 핵산은 개질된 염기 및/또는 골격(예컨대, 개질된 포스페이트 연결부 또는 개질된 당 모이어티)도 또한 포함할 수 있다. 핵산에 안정성 및/또는 다른 이점을 부여하는 합성 골격의 비-제한적 예시는 포스포로티오에이트 연결부, 펩티드 핵산, 잠금 핵산, 자일로스핵산, 또는 그의 유사체를 포함할 수 있다.

본 발명에서 용어 “핵산”은 뉴클레오티드 폴리머를 지칭하며, 달리 한정되지 않는다면 자연적으로 발생한 뉴클레오티드와 유사한 방식(예컨대, 혼성화)으로 작용할 수 있는 천연 뉴클레오티드의 공지된 유사체(analog)를 포함한다.

용어 핵산은, 예를 들어 유전체 DNA; 상보 DNA(cDNA)(이는 보통 전령 RNA(mRNA)의 역전사 또는 증폭으로 얻어지는 mRNA의 DNA 표현임); 합성으로 또는 증폭으로 생성된 DNA 분자; 및 mRNA를 포함한 임의의 형태의 DNA 또는RNA를 포함한다.

용어 핵산은 단일 가닥 분자뿐만 아니라 이중 또는 삼중 가닥 핵산을 포함한다. 이중 또는 삼중 가닥 핵산에서, 핵산 가닥은 동연(coextensive)일 필요는 없다(즉, 이중 가닥 핵산은 양 가닥의 전체 길이를 따라 이중 가닥일 필요는 없다).

용어 핵산은 또한 메틸화 및/또는 캡핑과 같은 것에 의한 이의 임의의 화학적 개질을 포함한다. 핵산 개질은 개별적인 핵산 염기 또는 핵산 전체에 추가적인 전하, 분극률, 수소 결합, 정전기 상호작용, 및 기능성을 포함하는 화학기의 첨가를 포함할 수 있다. 이러한 개질은 2' 위치 당 개질, 5 위치 피리미딘 개질, 8 위치 퓨린개질, 시토신 환외(exocyclic) 아민에서의 개질, 5-브로모-우라실의 치환, 주쇄 개질, 이소염기 이소시티딘 및 이소구아니딘과 같은 특이 염기 쌍 조합 등과 같은 염기 개질을 포함할 수 있다.

핵산(들)은 고상 매개 화학적 합성(solid phase-mediated chemical synthesis)과 같은 완전한 화학적 합성 과정으로부터, 핵산을 생성하는 임의의 종으로부터 분리를 통해서와 같은 생물학적 공급원으로부터, 또는 DNA 복제, PCR 증폭, 역전사와 같은 분자 생물학 도구에 의한 핵산의 취급과 관련된 과정으로부터, 또는 이들 과정의 결합으로부터 유도될 수 있다.

본 발명에서 용어 “상보”는 2개의 뉴클레오티드 사이의 정확한 쌍형성에 대한 능력을 지칭한다. 즉, 핵산의 주어진 위치에서 뉴클레오티드가 다른 핵산의 뉴클레오티드와 수소 결합을 할 수 있다면, 2개의 핵산은 그 위치에서 서로 상보적인 것으로 여겨진다. 뉴클레오티드의 일부만이 결합하여 2개의 단일 가닥 핵산 분자 사이의 상보성은 “부분적”일 수 있거나, 또는 전체 상보성이 단일 가닥 분자 사이에 존재할 때 상보성은 완전할 수 있다. 핵산 가닥 사이의 상보성의 정도는 핵산 가닥 사이의 혼성화의 효율 및 강도에 상당한 영향을 미친다.

본 발명에서 용어 ‘프라이머(primer)’는 적합한 온도에서 적합한 완충액 내에서 적합한 조건(즉, 4종의 다른 뉴클레오시드트리포스페이트 및 중합 반응 효소 하에서 주형-지시 DNA 합성의 개시점으로 작용할 수 있는 단일 가닥의 올리고뉴클레오티드를 의미한다. 프라이머의 적합한 길이는 다양한 인자, 예를 들어, 온도와 프라이머의 용도에 따라 차이가 있지만 전형적으로 15 내지 30개의 뉴클레오티드이다. 짧은 프라이머는 주형과 충분히 안정된 혼성화 복합체를 형성하기 위하여 일반적으로 보다 낮은 온도를 요구할 수 있다. 용어 "전방향 프라이머(forward primer)" 및 "역방향 프라이머(reverse primer)"는 중합 효소 연쇄 반응에 의해 증폭되는 주형의 일정한 부위의 3' 말단 및 5' 말단에 각각 결합하는 프라이머를 의미한다. 프라이머의 서열은 주형의 일부 서열과 완전하게 상보적인 서열을 가질 필요는 없으며, 주형과 혼성화 되어 프라이머 고유의 작용을 할 수 있는 범위 내에서의 충분한 상보성을 가지면 충분하다. 따라서, 일 구체예에 따른 프라이머 세트는 주형인 뉴클레오티드 서열에 완벽하게 상보적인 서열을 가질 필요는 없으며, 이 서열에 혼성화되어 프라이머 작용을 할 수 있는 범위 내에서 충분한 상보성을 가지면 충분한 것으로 해석된다. 이러한 프라이머의 디자인은 주형이 되는 폴리뉴클레오티드의 염기 서열을 참조하여 당업자에 의해 용이하게 실시할 수 있으며, 예를 들어, 프라이머 디자인용 프로그램(예를 들어, PRIMER 3, VectorNTI 프로그램)을 이용하여 할 수 있다.

본 발명에서 용어 ‘증폭’은 핵산 분자를 증폭하는 반응을 의미한다. 다양한 증폭 반응들이 당업계에 보고 되어 있으며, 이는 중합효소 연쇄반응(이하 PCR이라 한다)(미국 특허 제4,683,195, 4,683,202, 및 4,800,159호), 역전사-중합효소 연쇄반응(이하 RT-PCR로 표기한다)(Sambrook et al., Molecular Cloning. A Laboratory Manual, 3rd ed. Cold Spring Harbor Press(2001)), WO 89/06700 및 EP 329,822의 방법, 리가아제 연쇄 반응(ligase chain reaction; LCR, WO 90/01069), 복구 연쇄 반응(repair chain reaction; EP 439,182), 전사-중재 증폭(transcription-mediated amplification; MA, WO 88/10315), 자가 유지 염기서열 복제(self-sustained sequence replication, WO 90/06995), 타깃 폴리뉴클레오티드 염기서열의 선택적 증폭(selective amplification of target polynucleotide sequences, 미국 특허 제6,410,276호), 컨센서스 서열 프라이밍 중합효소 연쇄 반응(consensus sequence primed polymerase chain reaction; CP-PCR, 미국 특허 제4,437,975호), 임의적 프라이밍 중합효소 연쇄 반응(arbitrarily primed polymerase chain reaction; AP-PCR, 미국 특허 제5,413,909호 및 제5,861,245호), 핵산 염기서열 기반 증폭(nucleic acid sequence based amplification; NASBA, 미국 특허 제5,130,238호, 제5,409,818호, 제5,554,517호, 및 제6,063,603호), 가닥 치환 증폭(strand displacement amplification) 및 고리-중재 항온성 증폭(loop-mediated isothermal amplification; LAMP)을 포함하나, 이에 한정되지는 않는다.

사용 가능한 다른 증폭 방법들은 미국특허 제5,242,794, 5,494,810, 4,988,617호 및 미국 특허 제09/854,317호에 기술되어 있다.

PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR, D-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends, RACE), DL-PCR(PC), 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR, 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다. PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 그의 교시사항은 본 명세서에 참조로 삽입된다.

상기 멀티플렉스 증폭은 멀티플렉스 PCR(Polymerase Chain Reaction) 증폭이다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 57-61℃의 어닐링(annealing) 온도 조건을 갖고, 본 발명의 다른 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58-60℃의 어닐링 온도 조건을 가지며, 본 발명의 특정 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58.5-59.5℃의 어닐링 온도 조건을 갖는다.

상기 멀티플렉스 PCR 증폭은 PCR을 실시하는 데 적정한 싸이클 수가 요구된다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 27-30 싸이클로 실시한다. 본 발명의 멀티플렉스 PCR 증폭을 26 싸이클 이하로 실시하는 경우에 500 RFU 이하의 피크들이 형성되었고, 31 싸이클에서는 2,000 RFU 이상의 피크가 형성되었지만 노이즈가 증가하고 불완전한 A 삽입이 발생하여 적합하지 않다.

본 발명에서 용어 “프로브”는 하나 이상 유형의 화학 결합을 통하여, 일반적으로 상보적 염기 쌍형성을 통하여, 보통 수소 결합 형성을 통하여 상보적인 서열의 표적 핵산에 결합하고 따라서 이중나선(duplex) 구조를 형성할 수 있는 핵산이다. 프로브는 “프로브 결합 부위”에 결합 또는 혼성화한다. 특히, 일단 프로브가 프로브의 상보적인 표적에 혼성화하면 프로브의 검출을 용이하게 하도록 프로브는 검출가능한 표지로 표지될 수 있다. 그러나 대안적으로, 프로브는 표지화되지 않을 수 있지만, 표지화된 리간드와의 특이적 결합에 의해 직접적으로 또는 간접적으로 검출될 수 있다. 프로브는 크기가 상당히 다양할 수 있다. 일반적으로 프로브는 길이가 적어도 7 내지 18개 뉴클레오티드이다. 다른 프로브는 길이가 적어도 20, 30 또는 40개 뉴클레오티드이다. 또 다른 프로브는 다소 더 길며, 길이가 적어도 50, 60, 70, 80, 또는 90개 뉴클레오티드이다. 또 다른 프로브는 더욱 더 길며, 길이가 적어도 100, 150, 200개 또는 그 이상의 뉴클레오티드이다. 프로브는 또한 상기 값(예컨대, 길이가 15~20개 뉴클레오티드)의 임의의 값으로 한정된 임의의 범위 내에 있는 임의의 길이의 것일 수 있다.

본 발명에서 용어 “혼성화”는 상보적 염기서열을 가진 단일가닥 핵산들 간 수소결합에 의해 이중가닥 핵산이 형성되는 것을 의미하며, 어닐링(annealing)과 유사한 의미로 사용된다. 다만 조금 더 넓은 의미에서, 혼성화는 두 개의 단일가닥 간 염기서열이 완전히 상보적인 경우(perfect match)와 더불어 예외적으로 일부의 염기서열이 상보적이지 않은 경우(mismatch)까지 포함한다.

본 발명에서 용어 "획득하다" 또는 "획득하는"이 본 명세서에서 사용되며, 물리적 독립체 또는 값을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 물리적 독립체 또는 값, 예를 들어 수치적 값의 소유를 얻는 것을 지칭한다. "간접적으로 획득하는"은 물리적 독립체 또는 값을 얻기 위한 처리를 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. "간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 물리적 독립체 또는 값을 직접적으로 획득한 제3자 연구소)으로부터 물리적 독립체 또는 값을 수용하는 것을 지칭한다.

물리적 독립체를 간접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질에서 물리적 변화를 포함하는 처리를 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질로부터 물리적 독립체를 만드는 것, 물질을 전단(shearing) 또는 단편화하는 것, 물질을 분리시키거나 정제하는 것, 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 간접적으로 획득하는 것은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 처리를 수행하는 것, 예를 들어 물질, 예를 들어 샘플, 분석물 또는 시약에서 물리적 변화를 포함하는 분석 과정을 수행하는 것(때때로, 본 발명에서 "물리적 분석"으로서 지칭됨), 분석 방법, 예를 들어 다음 중 하나 이상을 포함하는 방법을 수행하는 것: 물질, 예를 들어 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질로부터 분리시키거나 또는 정제하는 것; 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질, 예를 들어 완충제, 용매 또는 반응물과 합하는 것; 또는, 예를 들어 분석물의 제1 원자와 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 또는 형성함으로써 분석물 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것; 또는, 예를 들어 시약의 제1과 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 형성함으로써 시약 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것을 포함한다.

본 발명에서 용어 "서열을 획득하는 것" 또는 "리드를 획득하는 것"은 본 명세서에서 사용되며, 서열 또는 리드를 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 뉴클레오타이드 서열 또는 아미노산 서열의 소유를 얻는 것을 지칭한다. 서열 또는 리드를 "직접적으로 획득하는 것"은 시퀀싱 방법(예를 들어, 차세대 시퀀싱(NGS) 방법)을 수행하는 것과 같이 서열을 얻기 위한 과정을 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. 서열 또는 리드를 "간접적으로 획득하는"은 다른 관계자 또는 공급원(예를 들어 서열을 직접적으로 획득한 제3자 연구소)으로부터 서열을 수용하거나 또는 서열의 정보 또는 지식을 수용하는 것을 지칭한다.

획득한 서열 또는 리드는 완전한 서열일 필요는 없으며, 예를 들어 적어도 하나의 뉴클레오타이드의 시퀀싱 또는 피험체에서 존재하는 것과 같은 본 명세서에 개시된 변경 중 하나 이상을 확인하는 정보 또는 지식을 얻는 것은 서열을 획득하는 것을 구성한다.

서열 또는 리드를 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질, 물질을 전단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것); 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 직접적으로 획득하는 것은 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.

본 발명에서 용어 "샘플을 획득하는 것"은 본 명세서에서 사용되며, 샘플을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 샘플, 예를 들어 조직 샘플 또는 핵산 샘플의 소유를 얻는 것을 지칭한다. "샘플을 직접적으로 획득하는 것"은 샘플을 얻기 위한 과정을 수행하는 것(예를 들어, 수술 또는 추출과 같은 물리적 방법을 수행하는 것)을 의미한다. "샘플을 간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 샘플을 직접적으로 획득한 제3자 연구소)으로부터 샘플을 수용하는 것을 지칭한다. 샘플을 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직, 예를 들어 인간 환자의 조직 또는 환자로부터 사전에 분리한 조직에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 출발 물질로부터 물리적 독립체를 제조하는 것, 조직을 해부하거나 또는 스크레이핑(scraping)하는 것; 물질(예를 들어, 샘플 조직 또는 핵산 샘플)을 분리시키거나 또는 정제하는 것; 2 이상의 별개의 독립체를 혼합물로 합하는 것; 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 샘플을 직접적으로 획득하는 것은, 예를 들어 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.

유전자 또는 유전자 생성물(예를 들어, 마커 유전자 또는 유전자 생성물)의 본 발명에서 사용된 바와 같은 "변경" 또는 "변경된 구조"는 유전자 또는 유전자 생성물 내의 돌연변이 또는 돌연변이들, 예를 들어 정상 또는 야생형 유전자와 비교하여 유전자 또는 유전자 생성물의 양 또는 활성에 영향을 미치는 돌연변이의 존재를 지칭한다. 변경은 정상 또는 건강한 조직 또는 세포(예를 들어, 대조군)에서 세포의 양, 구조 및/또는 활성과 비교하여, 암 조직 또는 암 세포에서 양, 구조 및/또는 활성일 수 있고, 암과 같은 질병 상태와 관련된다. 예를 들어, 암과 관련된 변경 또는 항암 치료에 대한 반응의 예측은 정상의, 건강한 조직 또는 세포와 비교하여 암 조직 또는 암 세포에서 변경된 뉴클레오타이드 서열(예를 들어, 돌연변이), 아미노산 서열, 염색체 전위, 염색체내 역위, 복제수, 발현 수준, 단백질 수준, 단백질 활성, 메틸화 상태를 가질 수 있다. 대표적인 돌연변이는, 이하로 제한되는 것은 아니지만, 점돌연변이(예를 들어, 침묵, 미스센스 또는 넌센스), 결실, 삽입, 역위, 연결 돌연변이, 복제물, 저위, 염색체간 및 염색체내 재정렬을 포함한다. 돌연변이는 유전자의 암호 또는 비-암호 영역에 존재할 수 있다. 특정 실시형태에서, 변경(들)은 재배열, 예를 들어 하나 이상의 인트론 또는 이것의 단편을 포함하는 게놈 재배열로서 검출된다(예를 들어, 5'- 및/또는 3'-UTR에서 하나 이상의 재정렬). 특정 실시형태에서, 변경은 표현형, 예를 들어 암 표현형(예를 들어, 암 표현형(예를 들어, 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 내성 중 하나 이상)과 관련된다. 일 실시형태에서, 변경은 다음 중 하나 이상과 관련된다:

암에 대한 유전적 위험, 양성 치료 반응, 음성 치료 반응 예측자, 양성 예후 인자, 음성 예후 인자 또는 진단 인자.

본 발명에서 용어 "베이트"는 혼성체 포획 시약의 유형이다. 베이트는 혼성화될 수 있는(예를 들어 상보적일 수 있는) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있고, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 RNA 분자); DNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 DNA 분자) 또는 이것의 조합이다. 다른 실시형태에서, 베이트는 결합 독립체, 예를 들어 친화도 태그를 포함하는데, 이는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의, 예를 들어 결합 독립체에 결합에 의해 포획 및 분리시킨다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.

본 발명에서 용어 "베이트 세트"는 하나 또는 다수의 베이트 분자를 지칭한다.

본 발명에서 용어 "암" 또는 "종양"은 본 발명에서 상호 호환적으로 사용된다. 이들 용어는 암-원인 세포의 전형적인 특징, 예컨대 제어되지 않는 증식, 불멸, 전이 가능성, 빠른 성장 및 증식 속도 및 어떤 특징적 형태학적 특징을 소유하는 세포의 존재를 지칭한다. 암 세포는 종종 종양 형태이지만, 이러한 세포는 동물 내에서 단독으로 존재할 수 있거나 또는 비-종양 암 세포, 예컨대 백혈병 세포일 수 있다. 이들 용어는 고형 종양, 연조직 종양 또는 전이성 병변을 포함한다. 본 명세서에서 사용되는 용어 "암"은 전암성뿐만 아니라 악성 암을 포함한다.

본 발명에서 용어 "라이브러리"는 구성원의 수집물을 지칭한다. 일 실시형태에서, 라이브러리는 핵산 구성원의 수집물 예를 들어, 전체 게놈, 서브게놈 단편, cDNA, cDNA 단편, RNA, RNA 단편 또는 이들의 조합의 수집물을 포함한다. 일 실시형태에서, 라이브러리 구성원의 일부 또는 모두는 어댑터 서열을 포함한다. 어댑터 서열은 한 말단 또는 양 말단에 위치될 수 있다. 어댑터 서열은, 예를 들어 시퀀싱 방법을 위해(예를 들어 NGS 방법), 증폭을 위해, 역전사를 위해 또는 벡터 내로 클로닝을 위해 유용할 수 있다.

라이브러리는 구성원, 예를 들어 표적 구성원(예를 들어, 종양 구성원, 기준 구성원, PGx 구성원 또는 이들의 조합)의 수집물을 포함할 수 있다. 라이브러리의 구성원은 단일 개체로부터 유래될 수 있다. 실시형태에서, 라이브러리는 하나 이상의 피험체(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체)로부터 유래된 구성원을 포함할 수 있고, 예를 들어, 상이한 피험체로부터 둘 이상의 라이브러리는 조합되어 하나 이상의 피험체로부터 유래된 구성원을 갖는 라이브러리를 형성할 수 있다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 암 또는 종양을 가질 위험에 있는 인간이다.

본 발명에서 용어 "차세대 시퀀싱 또는 NGS 또는 NG 시퀀싱"은 개개의 핵산 분자(예를 들어 단일 분자 시퀀싱에서) 또는 고속 대량 방식으로(예를 들어, 10^3, 10^4, 10^5 이상의 분자가 동시에 시퀀싱됨) 개개의 핵산 분자에 대해 클론으로 확장된 프록시(proxy) 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 지칭한다. 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 발생의 상대적인 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있으며, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews11:31-46)에 기재된다. 차세대 시퀀싱은 샘플 내 핵산의 5% 미만으로 존재하는 변이체를 검출할 수 있다.

본 발명에서 "또는"은 의미를 위해 본 명세서에서 사용되며, 달리 명확하게 표시되지 않는다면, "및/또는"이라는 용어와 상호 호환적으로 사용된다. 본 명세서의 일부 위치에서 용어 "및/또는"의 사용은 "또는"이라는 용어의 사용이 달리 명확하게 표시되지 않는다면 "및/또는"이라는 용어와 상호 호환될 수 없다는 것을 의미하지는 않는다.

본 발명에서 용어 "샘플", "조직 샘플", "환자 샘플", "환자 세포 또는 조직 샘플" 또는 "표본"은 각각 피험체 또는 환자의 조직 또는 순환 세포로부터 얻은 유사한 세포의 수집을 지칭한다. 조직 샘플의 공급원은 신선한, 냉동 및/또는 보존된 기관, 조직 샘플, 생검 또는 흡입으로부터의 고형 조직; 혈액 또는 임의의 혈액 구성요소; 체액, 예컨대 뇌척수액, 양수, 복막액 또는 세포간질액; 또는 피험체의 임신 또는 발생에서 어느 시점으로부터의 세포일 수 있다. 조직 샘플은 자연에서 조직과 자연적으로 상호혼합되지 않는 화합물, 예컨대 보존제, 항응고제, 완충제, 정착제, 영양제, 항생제 등을 함유할 수 있다. 일 실시형태에서, 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매(paraformaldehyde-fixed paraffin-embedded: FFPE) 조직 제조물로서 제조된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플에서 포매될 수 있다.

일 실시형태에서, 샘플은 종양 샘플이며, 예를 들어, 하나 이상의 전암성 또는 악성 세포를 포함한다. 특정 실시형태에서, 샘플, 예를 들어 종양 샘플은 고형 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 수술절제면으로부터 조직 또는 세포를 포함한다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 하나 이상의 혈중 종양 세포(CTC)(예를 들어, 혈액 샘플로부터 획득한 CTC)를포함한다.

본 발명에서 용어 “변이(variant)”는 참조 서열과 상이한 샘플 핵산 염기서열의 변화를 지칭한다. 본 발명에서 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하고, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations); ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및 iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하며, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함할 수 있다.

본 발명에서 상동재조합결핍(Homologous Recombination Deficiency, HRD)는 손상된 DNA를 수리하는 상동성 재조합(Homologous Recombination, HR) 기능에 이상이 발생한 경우를 지칭한다. 구체적인 내용은 후술한다.

B. PAPR 저해제

1. PARP 저해제의 작동 기작

DNA는 방사선이나 자외선 등의 환경적 요인에 의해 손상을 입을 뿐만 아니라, 신진대사의 산물인 활성 산소나 DNA 복제 실패 등의 내부적 요인에 의해서도 지속적으로 손상을 받는다. 이러한 환경적인 요인과 정상적인 대사활동으로 인한 요인에 맞물려 인간의 DNA는 복제 시 필연적으로 에러가 발생되며, 정상세포 기준으로 하루에 약 1,000~1,000,000 번의 DNA breaking이 보고되고 있다. 특히 암세포의 경우 이러한 DNA breaking은 정상세포에 비해 수 십에서 수 백배 높다.

PARP 단백질은 DNA 복제 시 필연적으로 발생되는 에러를 복구하기 위해 필요한 단백질로서 핵에서 손상된 DNA를 인지하여 활성화 된 후 DNA repair 관련 단백질들을 post-translation 과정을 통해 활성화시키는 효소이다. 지금까지 약 17개의 PARP family가 알려졌지만, 오직 PARP-1과 PARP-2 단백질 만이 poly(ADP-ribosyl)ation이 가능한 DNA-repairing enzyme으로서 밝혀져 있으며 세포의 생존에 반드시 필요한 단백질로 알려져 있다.

다수의 비 임상 시험으로부터 PARP-1 단백질 저해 시 정상세포와는 달리 암 세포에서 선택적으로 강한 세포독성이 유발되는 데, 이는 DDR(DNA damage response)이라는 수리 시스템이 우리 몸에 존재하기 때문이다. 가장 대표적 DDR으로는 BRCA1/2가 관여하는 상동성 재조합(HR, Homologous recombination)과 DNA-PK가 관여하는 NHEJ(Non-homologous end joining)이 있다.

DNA 손상 시스템에는 많은 단백질들이 관여하고 있어 만약 이들에 있어서 돌연변이가 발생할 경우, DNA 수리 시스템에 문제가 발생해 암이 발생될 확률이 수 배에서 수백 배까지 올라간다. 그 때문에 일반적으로 세포들은 DNA 손상을 수리 하기 위해 두 개 이상의 복잡한 메커니즘을 지니고 있으나 이 메커니즘 또한 전체 게놈의 안정성에 영향을 주게 된다.

일반적으로 상동재조합(HR) 기능이 상실되면 유전체가 불안정하게 되고, 이는 다양한 유전적 변화를 유발시킴으로써 결국 종양이 발생된다. 그런데 이러한 DNA 복구가 올바르게 진행되지 못해 발생된 암 세포의 경우에는 cisplatin과 같은 DNA에 손상을 주는 항암제에 더욱 민감할 수 있다는 것이 1990년대 말부터 제안되었다. 항암작용을 목적으로 한 PARP 단백질 저해는 바로 이러한 DDR repair system이 기능을 제대로 하지 못해 발생한 암을 대상으로 암 특이적인 사멸을 유도하는 기전으로, “Synthetic lethality” 이론을 중심으로 연구개발 되었다.

지난 2014년 최초로 FDA/EMA에 동시 승인된 PARP 저해제인 Olaparib(LYNPARZATM)은 개발 당시 약물의 효과적인 사용을 목적으로 시판 전 승인절차(Premarket approval pathway)를 통해 동반진단제(BRAC Analysis CDx^TM)를 동시에 개발하였으며, 두 번째로 FDA에 승인된 약물인 Rucaparib(RUBRACA^TM) 역시 동반진단제(FoundationFocus CDx BRCATM)를 이용하여 현재도 BRCA 변이 환자 대상으로 처방이 이루어지고 있다. 다만, 2017년 FDA에서 승인 받은 Niraparib(ZEJULA^TM)은 상피성 난소암(epithelial ovarian cancer), 나팔관 암(fallopian tube cancer) 및 원발성 복막암(primary peritoneal cancer)에서 platinum 감수성 환자를 대상으로 별도의 동반진단제 없이 승인을 받았다.

그러나 여전히 많은 암 전문가들은 PARP 저해제를 바이오마커 독립적으로 환자에게 처방하는 것에 대한 임상학적 유효성 및 경제성 평가에 의문을 가지고 있는 실정이다.

Poly ADP ribose polymerase (PARP) enzyme 특징

PARP-1/2 단백질은 핵에서 손상된 DNA를 인지하여 활성화 된 후 여러 단백질들을 poly(ADP-ribosyl)ation이라는 post-translation 과정을 통해 변형시키는 효소이다. 지금까지 알려진 poly(ADPribosyl)ation의 기질들 중 가장 주요한 것은 바로 PARP-1 자신이며 그 외 히스톤(histones), DNA 토포아이소머레이스(topoisomerases), DNA 리가아제(ligases), p53와 NF-κB 등의 전사 관련 인자 등 많은 핵 내 단백질들이 poly(ADP-ribosyl)ation을 겪는다. 현재까지 17종의 PARP 패밀리 단백질들 중 PARP-1이 대부분의 poly(ADPribosyl)ation을 매개하는 것으로 알려져 있다. 구조상 PARP-1은 크게 세 가지 도메인으로 이루어져 있는데, N-말단 쪽의 DNA 바인딩 도메인은 두 Zn 핑거 모티프를 가지고 있어서 이를 통해 DNA 가닥의 손상을 인지한다. C-말단 쪽에는 효소의 활성을 나타내는 PARP 도메인을 가지고 있는데 특히 효소활성 부위 안에 있는 PARP 시그니쳐(signature) 서열은 모든 PARP 패밀리 단백질들 간에 잘 보존되어 있다. 가운데 위치한 오토모디피케이션 도메인(automodification domain)이 poly(ADP-ribosyl)ation을 위해 필요한 아미노산 서열을 가지고 있다.

PAR 폴리머의 합성과 분해 과정은 앞에서 언급한 PARP와 PARG (poly ADP ribose glycohydrolase)라는 효소들에 의해 조절 된다. 먼저 활성화된 PARP-1은 NAD로 부터 ADP-ribose잔기를 떼어내어 기질 단백질에 붙이는데 사슬을 연장하기 위해 ADP-ribose 분자들 간의 1”→2’glycosidic bond를, 사슬의 가지치기를 위해 1”→2”glycosidic bond를 각각 촉매한다. 그 결과 ADP-ribose가 약 200 단위까지 연결된 긴 사슬의 poly(ADPribose) 중합체를 만들게 된다. PARG는 지금까지 알려진 유일한 PAR 분해효소로서 매우 높은 exo- 그리고 endo-glycosidase 활성으로 PAR 폴리머를 ADP-ribose 단위로 가수분해한다. 마지막으로 기질 단백질에 붙어있는 최후의 ADP-ribose 단위는 ADP-ribosyl protein lyase라는 효소에 의해 잘리는 것으로 알려져 있다.

DNA repair pathway

포유동물의 DNA repair pathway는 7개로 구분되지만, 주된 메커니즘은 크게 single-strand break(SSB) repair와 double-strand break(DSB) repair로 나눠지며 SSB repair는 다시 BER(base excision repair), MMR(mismatch repair), NER(Nucleotide excision repair)로 분류되고, DSB repair는 HR(homologous recombination), NHEJ(Non-homologous end joining)로 나누어 진다. 그 밖에 DNA lesions이 있을 경우 충돌이 일어나지 않도록 replication forks를 형성하는 TLS(Translesion DNA synthesis)와 Protein complexes의 post-translational modification을 통해 DNA repair의 단계를 조정하고 chromatin-associated DNA repair를 포함하여 DNA repair network에서 상호 작용을 형성하는데 관여하는 DDR(Network of DNA damage responses)이 보고되어 있다(표 2).

이 중에서 DNA 단일가닥 절단(SSB)에 관여하는 BER는 DNA의 oxidative damage에서 가장 활성이 높은 constitutive DNA repair pathway로 밝혀져 있으며 PARP-1이 바로 BER 작용의 key protein으로 알려져 있다. 한편 DNA 이중가닥 절단(DSB) 시 HR(상동염색체교체결합)은 DSB repair의 핵심 과정으로 복구 시 error가 낮은 것이 특징이며 MRN complex(MRE11, RAD50, NBS1)와 BRCA1/2 등이 연관되어 있다. 이는 절단된 부분과 같은 2가닥의 염기서열 가진 딸 염색체를 만들어 붙이는 공정으로 cell cycle 중 S기~G2기 동안 작동이 가능하다. 반면에 NHEJ는 homologous template가 필요 없는 대신 DNA-PKcs, Ku70/80 등이 연관되는 DNA repair 과정으로 cell-cycle에 영향을 받지 않고 빠르게 일어나는 것이 특징적이나 HR 과정 보다 error를 유발할 가능성이 높은 과정이다. 마지막으로 Translesion synthesis(TLS)는 DNA repair의 주된 과정은 아니나 DNA 손상부위를 bypass하고 원래 염기코드를 인식하는 과정으로 잘 알려져 있다.

Synthetic lethality

정상세포의 DNA에 SSB가 발생되면 이를 PARP-1이 작용하는 BER pathway가 일차적으로 수복한다. 그러나 ROS, X-rays, UV light 등으로 DNA damage가 일정 수준을 넘어서면 해당 세포 DNA는 DSB가 일어나고 이후 HR 또는 NHEJ pathway가 이중가닥 절단을 복구한다. 이와 같이 정상세포에서의 DNA 절단은 두 개 이상의 repair pathway에 의해 이중으로 복구되고 있다. 그러나 선천적 또는 후천적 요인으로 인해 HR 유전자 결핍/변이 또는 BRCAness 표현형 세포에서의 DSB repair pathway는 정상적으로 작동하기 어려우며, 따라서 이러한 세포에 SSB repair pathway 마저 억제하면 결국 DNA 절단으로 인해 cell death가 유발된다. 이러한 메카니즘이 synthetic lethality이며, 주로 유전자 결핍/변이로부터 발생된 암 세포를 타겟으로 연구가 활발히 진행되었다

PARP 저해제 타깃 암 질환

최근 유전에 기인한 유방암과 난소암에서 BRCA 유전자 돌연변이가 높은 비율로 발견됨에 따라 PARP 단백질 저해제에 대한 관심이 높아지고 있다. BRCA 유전자 돌연변이를 가진 여성의 경우 유방암 또는 난소암 발병확률이 각각 최대 80%, 60%까지 증가된다고 보고하였다

Germline BRCA 유전자 변이는 전체 유방암 환자의 약 15%, 난소암 환자의 약 14~17% 내외이지만, 자자손손 유전됨으로써 그 비중이 날로 증가하고 있다. 나아가 해당 유전자변이는 유방암, 난소암 그리고 전립선암 발병과 밀접하게 연관되어 있음이 다수의 문헌으로부터 밝혀졌다.

PARP 저해제의 타겟 질환 중 유방암과 전립선암은 세계적으로 연간 1,100,000만 명 이상 발생하며 연간 300,000명 이상 사망에 이른다. 반면에 난소암의 경우 유방암에 비해 발생율은 1/5 수준이지만 사망률은 1/2로 상당히 높다. 또한 국내 암 통계에 의하면, 2014년 2,413명의 난소암 환자가 발생하였고, 이중 약 40%인 940명이 사망한 것으로 보고되었다.

이렇게 난소암 사망률이 높은 이유는 난소암 환자의 2/3 이상이 3기 이상의 진행된 상태에서 발견되기 때문이다. 난소암으로 발전하기까지 대부분의 환자들은 증상이 거의 없거나, 있더라도 소화불량, 복부팽만감 등 비특이적인 증상을 보여 조기 진단이 어려울 뿐만 아니라 아직까지 난소암 조기진단을 위한 적절한 선별검사가 부재한 실정이다. 최근까지도 진행성 난소암 환자에 대한 치료는 환자의 조직학적 또는 생물학적 다양성 때문에 제대로 적용하기가 힘들었던 것이 사실이며, 일반적으로 수술과 platinum-taxane을 이용한 화학요법이 표준치료법이지만, platinum 제제에 대한 반응성이 있는 환자들의 약 85%가 결국 1년 이내에 재발되어 치료의 한계가 있는 상황이다.

본 발명에서 PARP 저해제의 표적 암 질환은 ACTH 생성 종양, 급성 림프구성 또는 림프아구성 백혈병, 급성 또는 만성의 림포구성 백혈병, 급성 비림프구성 백혈병, 방광암, 뇌종양, 유방암, 경관암, 만성 골수성 백혈병, 림프종, 자궁내막증, 식도암, 방광암, 에윙스 육종(Ewing's sarcoma), 설암, 홉킨스 림프종, 카포시스 육종, 신장암, 간암, 폐암, 중피종, 다발성 골수종, 신경아세포종, 비홉킨 림프종, 골육종, 난소암, 유선암, 전립선암, 췌장암, 대장암, 페니스암, 레티노블라스토마, 피부암, 위암, 갑상선압, 자궁암, 고환암, 윌름스 종양 및 트로포블라스토마로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.

2. PARP 저해제의 종류

본 발명에서 PARP 저해제는 PARP 단백질의 활성을 저해할 수 있는 물질이면 제한없이 이용가능하나, 바람직하게는 PARP 단백질 활성을 저해하는 천연 화합물, 합성 화합물, DNA, RNA, 펩티드, 효소, 리간드, 세포 추출물 또는 포유동물의 분비물인 것을 특징으로 할 수 있다.

본 발명에 따라 사용될 수 있는 화합물의 예에는 하기 것들이 포함된다:

1. 니코틴아미드, 예컨대 5-메틸 니코틴아미드 및 0-(2-히드록시-3-피페리디노-프로필)-3-카르복실산 아미독심, 및 이들의 유사체 및 유도체.

2. 벤즈아미드, 예를 들어 3-치환 벤즈아미드, 예컨대 3-아미노벤즈아미드, 3-히드록시벤즈아미드, 3-니트로소벤즈아미드, 3-메톡시벤즈아미드 및 3-클로로프로카인아미드, 및 4-아미노벤즈아미드, 1,5-디[(3-카르바모일페닐)아미노카르보닐옥시]펜텐, 및 이들의 유사체 및 유도체.

3. 이소퀴놀리논 및 디히드로이소퀴놀리논, 예를 들어 2H-이소퀴놀린-1-온, 3H-퀴나졸린-4-온, 5-치환 디히드로이소퀴놀리논, 예컨대 5-히드록시디히드로이소퀴놀리논, 5-메틸 디히드로이소퀴놀리논, 및 5-히드록시 이소퀴놀리논, 5-아미노이소퀴놀린-1-온, 5-디히드록시이소퀴놀리논, 3,4-디히드로이소퀴놀린-1(2H)-온, 예컨대 3,4 디히드로-5-메톡시-이소퀴놀린-1(2H)-온 및 3,4 디히드로-5-메틸-1(2H)이소퀴놀리논, 이소퀴놀린-1(2H)-온, 4,5-디히드로-이미다조[4,5,1-ij]퀴놀린-6-온, 1,6-나프티리딘-5(6H)-온, 1,8-나프탈이미드, 예컨대 4-아미노-1,8-나프탈이미드, 이소퀴놀리논, 3,4-디히드로-5-[4-1(1-피페리디닐)부톡시]-1(2H)-이소퀴놀리논, ,3-디히드로벤조[데]이소퀴놀린-1-온, 이미다조피리딘카르복사미드, 2-페닐인돌, 2-치환 벤족사졸, 예컨대 2-페닐 벤족사졸 및 2-(3-메톡시페닐)벤족사졸, 2-치환 벤즈이미다졸, 예컨대 2-페닐 벤즈이미다졸 및 2-(3-메톡시페닐)벤즈이미다졸, 1,3,4,5-테트라히드로-아제피노[5,4,3-cd]인돌-6-온, 아제피노인돌 및 아제피노인돌론, 예컨대 1,5-디히드로-아제피노[4,5,6-cd] 인돌린-6-온 및 디히드로디아자피노인돌리논, 3-치환 디히드로디아자피노인돌리논, 예컨대 3-(4-트리플루오로메틸페닐)-디히드로디아 자피노인돌리논, 테트라히드로디아자피노인돌리논 및 5,6-디히드로이미다조[4,5,1-j,k][1,4]벤조디아조핀-7(4H)-온, 2-페닐-5,6-디히드로-이미다조[4,5,1-jk][1,4] 벤조디아제핀-7(4H)-온 및 2,3,디히드로-이소인돌-1-온, 및 이들의 유사체 및 유도체.

5. 프탈라진-1(2H)-온 및 퀴나졸리논, 예컨대 4-히드록시퀴나졸린, 프탈라지논, 5-메톡시-4-메틸-1(2)프탈라지논, 4-치환 프탈라지논, 4-(1-피페라지닐)-1(2H)-프탈라지논, 테트라시클릭 벤조피라노[4,3,2-데]프탈라지논 및 테트라시클릭 인데노[1,2,3-데]프탈라지논 및 2-치환 퀴나졸린, 예컨대 8-히드록시-2-메틸퀴나졸린-4-(3H)온, 트리시클릭 프탈라지논 및 2-아미노프탈히드라지드, 및 이들의 유사체 및 유도체.

6. 이소인돌리논 및 이들의 유사체 및 유도체.

7. 페난트리딘 및 페난트리디논, 예컨대 5[H]페난트리딘-6-온, 치환 5[H]페난트리딘-6-온, 특히 2-, 3-치환 5[H]페난 트리딘-6-온 및 6(5H) 페난트리디논의 술폰아미드/카르바미드 유도체, 티에노[2,3-c]이소퀴놀리논, 예컨대 9-아미노티에노[2,3-c]이소퀴놀리논 및 9-히드록시티에노[2,3-c]이소퀴놀리논, 9-메톡시티에노[2,3-c]이소퀴놀리논, 및 N-(6-옥소-5,6-디히드로페난트리딘-2-일]-2-(N,N-디메틸아미노}아세트아미드, 치환 4,9-디히드로시클로펜타[lmn]페난트리딘-5-온, 및 이들의 유사체 및 유도체.

8. 벤조피론, 예컨대 1,2-벤조피론, 6-니트로소벤조피론, 6-니트로소-1,2-벤조피론, 및 5-요오도-6-아미노벤조피론, 및 이들의 유사체 및 유도체.

9. 불포화 히드록심산 유도체, 예컨대 0-(3-피페리디노-2-히드록시-1-프로필)니코티닉 아미독심, 및 이들의 유사체 및 유도체.

10. 피리다진, 예를 들어 융합된 피리다진 및 이들의 유사체 및 유도체.

11. 기타 화합물, 예컨대 카페인, 테오필린 및 티미딘, 및 이들의 유사체 및 유도체.

부가적 PARP 억제제들이 예를 들어 [US 6,635,642, US 5,587,384, WO 2003080581, WO 2003070707, WO2003055865, WO 2003057145, WO 2003051879, US 6514983, WO 2003007959, US 6426415, WO 2003007959, WO 2002094790, WO 2002068407, US 6476048, WO 2001090077, WO 2001085687, WO 2001085686, WO 2001079184, WO 2001057038, WO 2001023390, WO 2001021615, WO 2001016136, WO 2001012199, Banasik 등, J. Biol. Chem., 267: 3, 1569-75(1992), Banasik 등, Molec. Cell. Biochem. 138: 185-97(1994)), Cosi(2002) Expert Opin. Ther. Patents 12(7), 및 Southan & Szabo(2003) Curr Med Chem 10 321-340 및 그 안의 참고문헌들]에 기재되어 있다.

적당한 PARP 억제제의 한 바람직한 부류는 W0 02/36576에 기재된 것과 같은 1(2H)-프탈라지논 및 이들의 유도체와 같은 프탈라지논을 포함한다. 특히, 하기 화학식의 화합물:

[식 중에서, A 및 B는 함께 임의 치환된, 융합된 방향족 환을 나타내고;

Rc은 -L-R_L(식 중에서, L은 화학식

-(CH2)n1-Qn2-(CH2)n3-(식 중에서, n1, n2 및 n3은 0, 1, 2 및 3으로부터 선택되고, n1, n2 및 n3의 합은 1, 2 또는 3이며, Q는 O, S, NH, C(=O) 또는 -CR1R2-(식 중에서, R1 및 R2는 수소, 할로겐 또는 임의 치환된 C1-7 알킬로부터 독립적으로 선택되거나, 그것들이 결합되어 있는 탄소 원자와 함께 포화될 수 있는 C3-7 시클릭 알킬기(C3-7 시클로알킬기) 또는 불포화될 수 있는 C3-7 시클릭 알킬기(C3-7 시클로알케닐기)를 형성할 수 있거나, R1 및 R2 중 하나는 RL 내의 원자에 결합되어, R1 및 R2가 Q, -(CH2)n3-(존재하는 경우에 한함), 및 RL의 부분에서 결합하고 있는 탄소 원자를 포함하는 불포화 C3-7 시클로알케닐기를 형성할 수 있음)이고; RL은 임의 치환된 C5-20 아릴이며;

RN은 수소, 임의 치환된 C1-7 알킬, C3-20 헤테로시클릴, 및 C5-20 아릴, 히드록시, 에테르, 니트로, 아미노, 아미도, 티올, 티오에테르, 술폭시드 및 술폰으로부터 선택된다))에 의해 표시된다]

및 이의 이성체, 염, 용매화물, 화학적으로 보호된 형태, 및 프로드러그가 PARP의 억제를 위해 사용될 수 있다.

바람직하게 화학식:

(식 중에서, A 및 B는 함께 임의 치환된, 융합된 방향족 환이고;

R_c은 -CH2-RL이며;

R_L은 임의 치환된 페닐이고;

R_N는 수소이다)

의 화합물, 또는 이들의 이성체, 염, 용매화물, 화학적으로 보호된 형태, 또는 프로드러그가 PARP의 억제를 위해 사용된다.

예컨대 PARP를 억제하기 위한 다른 후보 화합물은, 성분의 3차원 구조를 모델링하고, 특별한 분자 모양, 크기 및 전하 특성을 후보 화합물에 제공하기 위한 합리적인 약물 설계에 기초할 수 있다. 예를 들어, 후보 억제제는 성분을 억제하는 펩티드 단편 또는 기타 "기능적 유사체"일 수 있다. 기능적 유사체는 문제의 펩티드 또는 기타 화합물과 동일한 기능적 활성을 가지며, 즉 그것은 DNA 수복 경로 성분의 상호작용 또는 활성에 간섭할 수 있다. 그러한 유사체의 예에는 다른 한 성분과 접촉하는 부위 내의 성분의 3차원, 특히 핵심 아미노산 잔기의 그것이 나타날 때의 배치를 닮도록 모델링된 화학적 화합물들이 포함된다.

예컨대 PARP의 아미노산 서열(Acc No: NM001618)의 부분 또는 전부, 또는 이의 상보체를 코딩하는 핵산이 포함된다.

예를 들어, PARP 활성의 억제는 통상적 방법을 이용하여, 예를 들어 도트 블로트(Affar EB 등, Anal Biochem. 1998; 259(2): 280-3), 및 예를 들어 PARP 활성에 의해 형성된 중합체 사슬에 대한 삼중점 기질 NAD 또는 특정 항체를 이용한 방사능을 이용함에 의해 폴리ADP-리보스 사슬을 형성하는 PARP의 직접적 활성을 측정하는 BER 검정(K. J. Dillon 등, Journal of Biomolecular Screening, 8(3): 347-352(2003)에 의해 결정될 수 있다.

예를 들어, PARP 발현은 안티-센스 또는 RNAi 기술을 이용하여 억제될 수 있다. 유전자 발현을 하향 제어하는 이 접근법의 이용은 지금 당업계에 잘 확립되어 있다.

안티-센스 올리고뉴클레오티드는 핵산, 프리-mRNA 또는 mRNA의 상보적인 서열에 혼성화하여, 염기 절제 수복 경로 성분의 생산을 간섭함으로써, 그것의 발현을 감소시키거나, 완전히 또는 실질적으로 완전히 방지하도록 설계된다. 표적화 코딩 서열에 부가하여, 안티-센스 기법을 사용하여, 예컨대 5'-이웃 서열 내의, 유전자의 대조군 서열을 표적으로 함으로써, 안티-센스 올리고뉴클레오티드가 발현 대조군 서열을 간섭할 수 있도록 할 수 있다. 안티-센스 서열의 구축 및 그것의 용도가 예를 들어, [Peyman 및 Ulman, Chemical Reviews, 90: 543-584(1990) 및 Crooke, Ann. Rev. Pharmacol. Toxicol. 32: 329-376, (1992)]에 기재되어 있다.

올리고뉴클레오티드는 투여를 위해 생체내 또는 생체외에 발생될 수 있거나, 안티-센스 RNA가 하향 제어가 요망되는 세포 내에서 생체내 발생될 수 있다. 이에 따라, 이중 나선의 DNA는 "역방향의 프로모터의 조절 하에 놓임으로써, DNA의 안티-센스 나선의 전사가 표적 유전자의 센스 나선으로부터 전사된 정상 mRNA에 대해 상보적인 RNA를 생산하도록 할 수 있다. 이에, 상보적인 안티-센스 RNA 서열은 mRNA와 결합하여, 이중선을 형성하고, 이에, 내인성 mRNA의 표적 유전자에서 단백질로의 번역을 억제하는 것으로 사료된다. 이것이 실질적 작용 방식인지 아닌지의 여부는 아직 불확실하다. 그러나, 그 기법이 작용한다는 것은 확립된 사실이다.

역방향의 코딩 서열에 상응하는 완전한 서열은 사용될 필요가 없다. 예를 들어, 충분한 길이의 단편이 사용될 수 있다. 당업자가 안티-센스 억제의 수준을 최적화하기 위해 코딩 또는 이웃 유전자의 각종 부분들로부터의 각종 크기의 단편을 선별하는 것은 통상적이다. 개시 메티오닌 ATG 코돈, 및 아마도 그 개시 코돈의 상류에 있는 하나 이상의 뉴클레오티드를 포함하는 것이 유리할 수 있다. 한 적당한 단편은 약 14 내지 23개 뉴클레오티드, 예컨대 약 15, 16 또는 17개 뉴클레오티드를 가질 수 있다.

안티-센스에 대한 한 대안은, 표적 유전자와 동일한 방향인 센스에 삽입된 표적 유전자의 전부 또는 부분의 복사체를 사용하여, 동억제에 의해 표적 유전자의 발현을 달성하는 것이다; Angell & Baulcombe(1997), The EMBO Journal 16, 12: 3675-3684; 및 Voinnet & Baulcombe(1997) Nature 389: pg 553). 이중 나선의 RNA(dsRNA)는 양 센스 또는 안티센스 나선 단독보다 유전자 침묵에 더욱 더 효과적인 것으로 나타났다(Fire A. 등, Nature 391, (1998)). dsRNA 매개 침묵은 유전자 특이적이고, 종종 RNA 간섭(RNAi)으로 칭해진다.

RNA 간섭은 2-단계 공정이다. 첫 번째로, dsRNA는 세포 내에서 절단되어, 5' 말단 인산염 및 3' 짧은 오버행(~2nt)을 갖는, 약 21 내지 23 nt 길이의 짧은 간섭 RNA(siRNA)를 생성시킨다. siRNA는 파괴에 대해 특이적으로 상응하는 mRNA 서열을 표적으로 한다(Zamore P. D. Nature Structural Biology, 8, 9, 746-750, (2001)).

RNAi는 또한 3'-오버행 말단을 갖는 동일 구조의 화학적으로 합성된 siRNA 이중체를 이용하여 효율적으로 유도될 수 있다(Zamore PD 등, Cell, 101, 25-33, (2000)). 합성 siRNA 이중체는 광범위한 포유동물 세포주들에 있어 내인성 및 이질성 유전자의 발현을 특이적으로 억제하는 것으로 나타났다(Elbashir SM. 등, Nature, 411, 494-498, (2001)).

다른 한 가능성은, 핵산이 특정 부위에 핵산을 절단할 수 있는 리보자임을 전사 시에 생성하여, 이에 따라 유전자 발현에 영향을 줌에 있어서도 유용하다는 것이다. 리보자임에 대한 배경 참고문헌에는 [Kashani-Sabet 및 Scanlon, 1995, Cancer Gene Therapy , 2(3): 213-223, 및 Mercola 및 Cohen, 1995, Cancer Gene Therapy, 2(1), 47-59]이 포함된다.

본 발명의 방법은 개체에게 PARP 억제제를 투여하는 것을 포함할 수 있다. 이는 개체가 HR 의존성 DNA DSB 수복이 결핍된 암 상태를 갖는 것으로 확인함에 후속하여 일어날 수 있다.

본 발명에 있어서, 상기 PARP 저해제는 PARP 효소의 활성을 저해할 수 있는 물질이면 모두 가능하나, 바람직하게는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.

본 발명의 일 실시형태에서 PAPR 저해제는 탈라조파립의 토실레이트 염이다. 탈라조파립은 아래에 나타낸 구조를 가진다:

C. PARP 저해제 동반진단을 위한 유전자

1. PARP 저해제 저항성 유전자

MAD2L2

MAD2L2의 결핍은 PARPi 저항성과 관련이 있는 것으로 알려져 있다(Xu et al., 2015)

TP53BP1

TP53BP1는 DNA 이중가닥 절단 복구 경로를 선택하고, NHEJ 경로를 촉진하며, HR 기능을 제한하는 기능을 하며, TP53BP1의 감소는 BRCA1이 결핍된 mouse 종양에서 PARPi에 대한 저항성을 유발하여(Jaspers et al., 2013) ATM가 결핍된 종양 환자에서 PARPi 내성의 예측인자인 것으로 알려져 있다(Hong et al., 2016).

XRCC5

XRCC5는 NHEJ에 의한 DNA 이중가닥 손상 복구의 기능을 하며(Weterings et al., 2016) BRCA1 변이가 있는 난소암 환자에서 miR-622으로 인해 XRCC5의 발현이 감소되면 PARPi 와 cisplatin 의 내성을 유도시키는 것으로 알려져 있다(Choi et al., 2016)

XRCC6

XRCC6는 XRCC5와 복합체를 이루어 이중가닥 손상 복구, V(D)J 재조합에 필요한 것과 같은 비상동성 DNA 말단의 수리에 관여하며, BRCA1 변이가 있는 난소암 환자에서 miR-622으로 인해 XRCC6의 발현이 감소되면 PARPi 와 cisplatin 의 내성을 유도시키는 것으로 알려져 있다(Choi et al., 2016)

SLFN11

SLFN11 발현은 talazoparib이 단독으로 사용되거나 temozolomide 와 함께 사용될 때 소세포 폐암 세포에 대하여 민감성과 관련이 있으며 (Murai et al., 2016), SLFN11의 소실은 소세포 폐암에서 talazoparib에 대해 저항성을 부여하는 것으로 알려져 있다(Lok et al., 2017)

2. PARP 저해제 민감성 유전자

BRCA1/2

BRCA1은 상동재조합의존성 DNA 이중가닥절단 복구를 위한 유전적 안정성을 유지하며, 종양억제제로써 역할도 하며, 특히 BRCA1 의 결손이나 돌연변이는 PARP inhibitor 에 대하여 민감성을 보이며, RBBP8, CHEK2, BRIP1, FANCD2, PALB2, BRCA2 등의 유전자와 상호작용을 하는 것으로 알려져 있다.

BRCA2는 상동재조합의존성 DNA 이중가닥절단 복구를 위한 유전적 안정성을 유지하며, BRCA2의 결손이나 돌연변이는 PARP inhibitor 에 민감성을 보이며, BRCA1, RAD51, PALB2 등의 유전자와 상호작용을 하는 것으로 알려져 있다.

여러 종류의 DNA 손상 중에서 DNA 이중 가닥이 절단(DNA double-strand breaks) 되었을 경우, 세포는 비상동단말연결 (nonhomologous end-joining (NHEJ))과 상동재조합 (homologous recombination (HR))을 이용해 손상된 DNA를 복구한다. 비상동단말연결(NHEJ) 은 절단된 두가닥의 DNA를 인지하고 DNA 연결효소 (ligase)를 이용해 붙이기 때문에 일반적으로 DNA 정보의 변화를 초래하고 염색체의 결실 (deletion)이나 전좌(translocation)를 일으킨다. 이에 반해, 상동재조합 (HR)은 손상되지 않은 homologous sister chromatid의 정보를 이용하여 손상된 부위의 DNA를 복구 하기 때문에 정확한 DNA 복구를 수행한다. 그러므로 상동재조합 (HR)은 유전체 올바른 보전을 위해 중요한 역할을 담당한다. BRCA1과 BRCA2 단백질은 상동재조합 (HR)을 통한 DNA 이중 가닥의 절단을 복구 하는데 과정에 중요한 역할을 하는 것으로 알려졌다. BRCA1 은 절단된 DNA 부위에 abraxas-RAP80 macro-complex와 함께 결합하고, CtIP와MRN complex와의 상호 작용을 통해 DNA resection에 관여하여 손상된 DNA가 상동재조합 (HR)을 통해 복구가 될 수 있도록 도와준다. BRCA1은 상동재조합 (HR)에 있어서의 중추적 역할을 하는 단백질인 RAD51이 손상된 DNA 부위에 모이게 하는 역할을 하는데 이 과정에는 PALB2 (Partner and Localizer of BRCA2) 와 BRCA2와의 상호작용이 필요하고, 이는 CHK2에 의한 BRCA1의 988th Serine에 인산화가 중요하다. BRCA1은 상동재조합 (HR) 뿐만 아니라 DNA 손상을 감지 하거나 이에 대한 세포내 반응에 관여하는 것으로도 알려졌는데, 이는 세포 주기 조절에 관여하는 단백질들이나 다른 DNA 복구에 관여하는 단백질들과의 상호작용을 통해 이루어진다.

BRCA2는 RAD51 결합할 수 있는 8개의 BRCrepeats 과 DNA에 결합하는 부위를 가지고 있다. BRCA2의 DNA 결합 부위는 단일 가닥 및 이중 가닥의 DNA에 결합할수 있는 구조로 되어 있어 BRCA2가 손상된 DNA에 위치하도록 하고, BRC repeats를 통해서는 RAD51을 손상된 DNA에 전달하는 역할을 한다. BRCA2는 3418개의 아미노산을 가진 거대한 단백질로 정제가 어려워 그동안 BRCA2의 부위들만을 가지고 연구가 진행되었는데, 최근에 전체 길이의 BRCA2 단백질이 성공적으로 정제되어 보다 자세한 연구가 진행되었다. BRCA2는 상동재조합 (HR) 과정중에 DNA resection의 결과로 나타나는 RPA가 결합된 단일 가닥의 DNA에 RPA 대신에 RAD51가 결합되도록 촉매 작용하여 성공적으로 상동재조합 (HR) 가 일어나도록 하는 것으로 밝혀졌다.

BARD1

BARD1은 BRCA1의 N-말단과 상호작용을 하며, PARP inhibitor의 민감성에도 영향을 주는 것으로 알려져 있다(Peng et al., 2019).

PALB2

PALB2는 종양 억제에 작용할 수 있으며, BRCA2 와 결합하여 핵 내에서 위치하며, PALB2 변이는 olaparib 치료에 대하여 민감하며, BRCA1/2와 유사한 기능을 나타내며(Thales et al., 2017), BRCA1, BRCA2, RAD51C 등의 유전자와 상호작용하는 것으로 알려져 있다.

RAD51

RAD51은 BRCA2에 의해 세포 내 위치와 DNA 결합능력이 조절되며, olaparib 과 상관관계가 있는 것으로 알려져 있다.

ATM

ATM은 신호전달 경로상 종양 억제 단백인 p53과 BRCA1 등의 하위 신호 분자들의 조절자로서 역할을 하며, ATM이 결핍된 경우 olaparib에 민감한 것으로 알려져 있다(Montani et al., 2013)

ATR

ATR는 세린/트레오닌 키나제 (serine/threonine kinase) 이자 DNA 손상 감지자 이며, DNA 스트레스 상황에서 세포 주기의 체크포인트 신호를 활성화 시키며, ATR의 손실 시 PARPi에 민감한 것으로 알려져 있다 (Rimar et al., 2017).

RAD51B

RAD51B는 RAD51B 변이가 PARPi에 민감한 것으로 알려져 있다(Romeo et al., 2018).

RAD51C

RAD51C는 결핍 시 olaparib에 매우 민감하며, 항암효과를 예측하는 바이오마커로 간주되고 있다(Min et al., 2013).

NBN

NBN은 이중가닥 손상 복구 복합체 MRE11/RAD50의 구성원이며, DNA 이중가닥 절단 복구에 관여하는 것으로 여겨지고 있으며, NBN의 변이나 결실은 BRCAness 표현형을 유도하는 것으로 알려져 있다(Rowe and Glazer 2010).

FANCA/FANCD2

FANCA와 FANCD2의 결핍은 PAPR 저해제인 KU0058684와 KU0058948에 민감한 것으로 알려져 있다(McCabe et al., 2006)

FANCM

FANCM의 결핍은 PARP 저해제에 민감한 것으로 알려져 있다(Stoepker et al., 2015).

FANCI

FANCI는 DNA 손상 부위에서 Fanconi Anemia의 핵심 복합체 모집을 조절하는 것으로 알려져 있다(Castella et al., 2015).

STK11

STK11은 세포의 극성을 조절하고, 종양 억제제로 역할을 나타내며 STK11 의 결핍은 PARPi에 민감한 것으로 알려져 있다(Wang et al., 2016)

MRE11

MRE11은 상동재조합의존성 DNA 이중가닥손상 복구경로에 관여하는 핵단백질이며, MRE11의 손실은 PARPi 에 매우 민감한 것으로 알려져 있다(Romana et al., 2014)

RAD50

RAD50은 이중가닥 손상 복구, DNA 재조합, telomere 유지에 중요한 역할을 하는 MRN (MRE11-RAD50-NBN) 복합체의 구성요소이며, RAD50 발현량에 따라 olaparib의 반응에 영향을 주는 것으로 알려져 있다 (Zhang et al., 2016).

RAD51D

RAD51D는 2차 돌연변이를 갖는 RAD51D 변이는 PARPi 에 대한 내성이 있는 것으로 알려져 있다(Kondrashova et al., 2017)

CHEK2

CHEK2는 세포 주기 체크포인트 조절자이며, 종양 억제제로 추정되고 있으며, CHEK2의 손실은 talazoparib에 의해 유도된 세포 생존능력의 감소에 영향을 주는 것으로 알려져 있다 (Engert et al., 2017).

CDH1

CDH1은 세포-세포간 유착, 이동성 및 세포 증식을 조절하는 매커니즘에 관여하지만, 기능이 소실되었을 때는 암의 진행에 기여하는 것으로 알려져 있다.

RBBP8

RBBP8은 BRCA1과 동일한 경로에서 작용하며 종양억제제일 수 있으며, RBBP8의 손실은 상동재조합 의존성 DNA 이중가닥손상 복구를 방해하고, 유방암 세포가 olaparib에 민감하게 하며(Wang et al., 2015), BRCA1, MRN 복합체, MRE11, RAD50, NBN 등과 상호작용 하는 것으로 알려져 있다.

BRIP1

BRIP1은 BRCA1의 BRCT domain과 상호작용 하며, BRIP1에서 발생한 단백 절단 변이는 난소암의 위험성과 상관관계가 있는 것으로 알려져 있다(Ramus et al., 2015).

PTEN

PTEN은 종양억제제로 호모자이고스(homozygous) 변이 발생 시 PARPi 에 민감하게 반응하고 (Ana et al., 2009), 인산화된 PTEN은 STK11과 상호작용하는 것으로 알려져 있다.

BLM

BLM은 유비퀴틴화된 FANCD2와 상호작용하는 것으로 알려져 있다.

TP53

TP53은 종양 억제 단백질을 암호화하며, p53의 변이는 다양한 암종과 관련이 있으며, BRCA2, TP53, PTEN 모두 결실된 마우스 유래 세포에서 olaparib에 민감한 반응을 보이며(Baldwin et al., 2019) TP53의 단백 절단 변이는 BRCA1 결실에 의한 유전적 불안정성의 직접적인 결과일 수 있는 것으로 제안되었다 (Holstege et al., 2010).

CDK12

CDK12 발현이 억제되었을 때 종양 부피에 대해 명확한 olaparib의 억제 효과가 나타나는 것이 알려져 있다.

EMSY

EMSY는 BRCA2와 상호작용을 통해 BRCA2의 DNA 복구 기능에 중심적인 역할을 할 수 있으며, EMSY 가 증폭될 경우 rucaparib에 대한 민감성과 관련이 있으며, PALB2와 BRCA2 결합 부위를 공유하는 것으로 알려져 있다(Xia et al., 2006).

FANCF

FANCF의 불활성화는 BRCAness 표현형 또는 PARPi 민감성으로 연관이 있으며, Fanca, Fancc 및 Fancg와 상호작용하여 FA DNA 복구 경로의 핵심 구성요소인 Fanca, Fancc를 안정화시키는 것으로 알려져 있다.

ERCC1

ERCC1는 핵산 절단 복구 경로에서 역할을 하며, ERCC1과 BRCA1이 동시에 결핍됐을 경우, platinum 치료와 PARPi 에 민감한 것으로 알려져 있다.

XRCC1

XRCC1은 DNA ligase III, polymerase-beta, PARP와 상호작용하여 BER 경로에 작용하며, PARPi는 DNA 손상부위에서 BER effector인 XRCC1과 NHEJ 매개체인 XRCC4, Ku70/80 의 모집을 방해하는 것으로 알려져 있다(Chandra et al., 2017).

D. Biallelic Genetic Impairment (BGI) 판단 기준 및 예시

본 발명에서 Biallelic Genetic Impairment (BGI)의 양성 및 음성의 판단은 이배체의 경우 양쪽 대립유전자(both allele)에서 발생한 변이의 유무를 확인하여 이루어질 수 있다.

Biallelic Genetic Impairment (BGI) 양성

본 발명에서 BGI 양성(BGI+)은 상동재조합(Homologous recombination)의 결핍이 있는 경우를 의미하며, PARP 저해제를 처리할 경우, 감응성이 높게 나타날 것으로 예상되는 시료를 의미한다.

Biallelic genetic impairment (BGI) 는 아래와 같은 상황(Mechanisms)을 만족할 경우를 지칭하며, NGS 분석에 사용된 종양 조직의 종양분율 정보 및 PARP 저해제 민감성 유전자들의 Allele Frequency (variant allele frequency) 정보를 이용하여 평가할 수 있다.

1. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 체세포성(somatic) 돌연변이가 존재하는 경우

2. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 macro-deletion (> 15Kb) 이 존재하는 경우

3. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 epigenetic silencing 이 존재하는 경우

4. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에도 체세포성(somatic) 돌연변이가 존재하는 경우

5. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 macro-deletion (> 15Kb) 이 존재하는 경우

6. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 epigenetic silencing 이 존재하는 경우

7. 어떠한 유전자의 두 개의 allele 모두에서 macro-deletion (> 15Kb) 이 존재하는 경우

8. EMSY 유전자에 대하여 copy-number amplification 이 존재하는 경우

위의 상황에 대하여 유전적(germline) 돌연변이는 다음과 같이 정의한다. 유전적 돌연변이는 혈액을 이용한 유전적 검사를 통하여 확인된 돌연변이로써, 1000genome 과 COSMIC database 에서 제공하는 정보에 의하여 SNV 또는 INDEL 으로 확인되는 변이를 지칭한다. SNV 는 deleterious mutation 인 변이를 말하며, Frameshift, Nonsense, splice-site variants (2 ~ 5bp) 변이를 포함한다. INDEL 은 유전자 내에 30bp 이하의 염기서열이 삭제되거나 삽입되어 유전자의 원래의 기능을 못하는 경우를 일컫는다.

위의 상황에 대하여 체세포성(somatic) 돌연변이는 다음과 같이 정의한다. Somatic 돌연변이는 조직을 이용한 유전적 검사를 통하여 확인된 돌연변이로써, SNV 또는 INDEL 으로 확인되는 변이를 지칭한다. 확인된 변이 중 다음의 과정을 거쳐 병원성 변이로 선정한다.

- 각각의 exon 에 대해, Cas9 / gRNA 을 이용하여 100 bp 이내에 존재하는 모든 SNV 를 포함하는 플라스미드 라이브러리를 제작한다(SNV 라이브러리).

- SNV 라이브러리를 HAP1 세포에 형질 전환시키며, 형질 전환이 성공적으로 된 세포는 하나의 SNV 만을 가지게 되어 운반할 수 있게 된다.

- 형질 전환된 세포에서 유전자의 기능을 손상시키는 SNV를 선택하고, 해당 SNV가 mRNA 생성에도 영향을 미치는 경우 병원성 변이로 선별한다.

위의 상황에 대하여 epigenetic silencing은 다음과 같이 정의한다. Epigenetic silencing은 RNA 의 발현량이 저하된 단계로, RNA 패널을 이용하여 유전자의 발현이 감소되었음을 coverage depth 로 확인한다. 발현양의 저하는 exon의 결실, 병원성 변이를 원인으로 들 수 있다.

위의 내용에 대하여 macro-deletion은 다음과 같이 정의한다. Macro-deletion은 혈액 및 조직을 이용한 유전적 검사를 통하여 15Kb 이상에 해당하는 영역의 염기서열이 삭제된 변이를 지칭한다. 삭제된 염기서열의 확인은 Coverage 로 확인한다. 일정 수준으로 유지되는 coverage가 절반 이하(0.4~0.6배)로 감소하였을 경우 macro-deletion 영역(heterozygosity)으로 판단한다.

이에 대하여 패널의 각 유전자는 다음의 상황을 하나라도 만족 할 때 BGI 로 분류된다.

구체적으로, Biallelic genetic impairment는 아래와 같이 정의한다.

종양 조직 내의 하나의 allele 에만 genetic impairment 가 존재하는 경우를 one allele impairment라 한다. 이 때, one allele impairment는 Wild-type을 포함하는 전체 allele 개수에서 변이가 존재하는 한 개의 allele만을 나타내는 비율로서,

으로 계산된다. 이 때, a는 변이를 가지는 allele이며, 상수 200은 종양 내의 전체 allele의 status (100%, tumor + normal cell) x 2개의 allele으로 계산된 값이다.

BGI를 갖는 세포가 있고 그 세포에서 한쪽 allele에 대한 변이의 비율은

로 정의할 수 있고, BGI를 갖는 세포가 T개 있을 경우,

로 정의될 것이다. 만약, BGI 가 나타난다면 최소한

보다 클 것이다. 즉, Biallelic genetic impairment ≥

으로 정리할 수 있다.

한편, 상동재조합 유전자에 Biallelic genetic impairment가 존재할 경우에 PARP 저해제 민감성 유전자들의 Allele Frequency (variant allele frequency) 정보를 다음과 같이 활용할 수 있다.

하지만 Allele frequency는 전체 read count에 대한 alternative allele의 read count의 비율을 계산한 값이기 때문에 아래 수식 1과 같이 보정할 필요가 있다.

이렇게 계산된 값이 Adjusted Allele Frequency (Adj. AF) ≥

을 만족한다면, Biallelic genetic impairment으로 판단할 수 있다.

Biallelic genetic impairment를 판단하기 위해서는 추가적으로 Standard Tumor Fraction을 확인해야 한다. Standard Tumor Fraction 은 조직 단위에서 allele frequency를 계산한 것으로, 전체 조직 중에서 종양 조직이 가지는 대립 유전자의 비율을 의미하며, 다음과 같이 계산한다.

예를 들어, 조직 검사 또는 수술 등으로 수득한 전체 샘플에서 종양 조직이 차지하는 비율을 계산할 수 있다. 이는 곧 종양 조직의 세포 수로 치환될 수 있는데 상기에 기재한 바와 같이 BGI를 갖는 종양 세포가 T개 있을 경우,

로 정의될 수 있으며 BGI 가 나타난다면 최소한

보다 큰 값이 도출될 수 있다.

이와 같이 계산된 Standard Tumor Fraction 은 BGI를 가질 수 있는 확률의 최소값을 나타내며, 이 값을 평가 대상자들의 PARP 저해제 민감성 유전자들의 Adj. AF 와 비교하여 BGI를 판단할 수 있다.

즉, 대상자의 Adj. AF는 NGS를 기반으로 생성한 리드 데이터를 분석하여 도출한 대립유전자 빈도이고, Standard Tumor Fraction은 실제 조직 샘플에서 종양 조직이 가지는 대립유전자 빈도를 의미한다. 따라서, Adj. AF가 standard tumor fraction 보다 높을 경우 양쪽 대립유전자에 결함이 있는 것으로 판단할 수 있고, 그렇지 않을 경우에는 one allele impairment 또는 WT으로 판단할 수 있다.

Adjusted Allele Frequency ≥ Standard Tumor Fraction

예를 들어, Tumor % 가 80%인 검체에서 Standard Tumor Fraction 은 67% 로 산출이 되는데, 이 때의 대상자의 Adj. AF 가 73% 일 경우, Adj. AF 값이 Standard tumor fraction 보다 큰 값이기 때문에 BGI 양성으로 판단한다.

Standard Tumor Fraction 은 아래의 표 4를 참고할 수 있다.

Biallelic Genetic Impairment (BGI) 음성

본 발명에서 BGI 음성(BGI-)은 상동재조합(Homologous recombination)의 결핍이 없거나 결핍이 있더라도 동시에 저항성 유전자에 변이가 있는 경우를 의미하며, PARP 저해제를 처리할 경우, 감응성이 없을 것으로 예상되는 시료를 의미한다.

본 발명에서는 다음에 해당하는 경우 BGI 음성으로 정의한다:

9. 저항성 유전자 중 하나의 유전자에서 대립유전자의 어느 한쪽에서만 변이가 발생한 경우

10. 모든 저항성 유전자의 대립유전자 어디에도 변이가 발생하지 않고 모든 민감성 유전자의 대립유전자 어디에도 변이가 발생하지 않은 경우

11. 모든 저항성 유전자의 대립유전자 어디에도 변이가 발생하지 않고 민감성 유전자의 변이가 대립유전자 한 쪽에서만 발생한 경우

12. 저항성 유전자 중 하나의 유전자에서 대립유전자의 어느 한쪽에서 변이가 발생하고 민감성 유전자에서 BGI 가 발생한 경우

본 발명에서는 PARP 저해제의 동반진단을 위해 민감도와 정확도가 높은 유전자 마커를 발굴하여 그 효과를 확인하고자 하였다.

본 발명에서는 기존에 분석 정리된 유방암 환자의 돌연변이 정보와 복제수 변이 정보를 바탕으로 민감도와 정확도가 높은 유전자 마커를 발굴하여 그 효과를 확인하였다.

즉, 본 발명의 일 실시예에서는 The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 1,098 명의 유방암 환자들(TCGA-BRCA)의 돌연변이(SNV) 정보와 복제수 변이(CNV) 정보를 다운받아 변이 정보를 분석하여 ‘유해한 변이(deleterious mutation)’ 및 ‘복제수 변이(copy number alteration)’를 조사하였다.

먼저, 다음 조건을 모두 만족하는 경우에 ‘유해한 변이’로 분류하였다.

i. 변이의 유형이 단백절단변이(protein truncating alterations), 접합부위변이, 및 프레임이동 변이(frameshift alterations) 으로 구성된 변이;

ii. coverage depth 가 2 이상 (Pred score ≥ 25)인 변이; 및

iii. variant allele frequency (VAF) 값이 30% 이상

다음으로, 복제수 변이(copy number alteration, CNA)는 TCGA에서 제공해주는 값들에 대하여 다음과 같이 점수를 매겼다:

i. 0 : 복제수 변이가 없는 경우,

ii. -1 : heterozygous copy number deletion으로, 대립유전자 한쪽에 복제수 결실 변이가 있는 경우

iii. -2 : homozygous copy number deletion으로, 대립유전자 양쪽에 복제수 결실 변이가 있는 경우

iv. 1 : heterozygous copy number amplification으로, 대립유전자 한쪽에 복제수 증폭 변이가 있는 경우

v. 2 : homozygous copy number amplification으로, 대립유전자 양쪽에 복제수 증폭 변이가 있는 경우

그 다음, 상기 ‘유해한 변이’ 및 ‘복제수 변이’ 조사 결과에 바탕하여 BGI을 판단하였다

한 환자의 한 유전자 내에서

i. ‘유해한 변이’가 대립유전자의 한쪽에 나타나고 다른 한쪽에 heterozygous copy number deletion (copy number variant, CNV = -1)이 나타나거나 혹은

ii. ‘유해한 변이’는 없으나 대립유전자의 양쪽에 ‘복제수 결핍 변이’(homozygous copy number deletion (-1< CNV ≤ -2))가 일어난 경우를 상동재조합결핍이 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 반응성이 있는 것으로 판단하였다.

한편, Oncogene인 EMSY 유전자(민감성)의 경우에는

i. ‘유해한 변이’와 ‘복제수 증폭 변이’(heterozygous copy number amplification, CNV = 1)가 대립유전자 각각에 나타나는 경우, 그리고

ii. 대립유전자 양쪽에 ‘복제수 증폭 변이’ (homozygous copy number amplification, CNV = 2)가 있는 경우 상동재조합결핍이 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 반응성이 있는 것으로 판단하였다.

그 결과, 총 1098명의 유방암 환자 중 510명에서 상동재조합결핍을 확인할 수 있었으며, 이는 단순히 BRCA1/2의 변이정보만 확인할 경우 PARP 저해제에 대하여 반응성이 있는 것으로 결정되는 환자가 동일한 모집단에서 42명밖에 되지 않는 것에 비하여 10배 이상 향상된 효과를 나타낸 것이다.

따라서, 본 발명은 일 관점에서, (a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및

(b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both allele)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계를 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법에 관한 것이다.

본 발명에 있어서, 상기 방법은 (i) 상기 PARP 저해제 저항성 유전자 그룹 중 하나 이상의 유전자에 변이가 나타나거나,

(ii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 both allele에서 모두 변이가 없거나,

(iii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 single allele에서 변이가 나타날 경우, PARP 저해제에 대한 감수성이 없는 것으로 결정하는 단계;

를 추가로 포함하는 것을 특징으로 할 수 있다.

즉, 본 발명은 각 유전자 그룹의 대립 유전자 양쪽 모두의 변이 유무를 분석하여, PARP 저해제 감수성을 결정하기 때문에 기존의 단순 변이 유무만을 결정하는 방법에 비하여 정확도가 높은 특징이 있다.

본 발명에 있어서, 상기 PARP 저해제 저항성 유전자 그룹은 특정 유전자에 돌연변이가 발생할 경우, PARP 저해제의 효과를 감소시키는 유전자이면 모두 가능하나, 바람직하게는 MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11으로 구성된 군인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서, 상기 PARP 저해제 민감성 유전자 그룹은 특정 유전자에 돌연변이가 발생할 경우, PARP 저해제가 암 치료효과를 발생시키게 하는 유전자이면 모두 가능하나, 바람직하게는 BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.

본 발명에 있어서, 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations);

ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및

iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 유해한 변이는 염기서열의 치환(substitution), 삽입(insertion), 결실(deletion), 카피수 변경(copy number alteration), 재배열(rearrangement)로 구성된 군에서 선택되는 하나 이상의 방법으로 발생하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 환자 유래 핵산 분자의 biallelic genetic impairment(BGI)를 계산하는 단계를 포함하는 방법으로 검출하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 BGI는 환자 유래 핵산 분자의 종양 분율(standard tumor fraction)과 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)를 이용하여 계산하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 종양분율은 하기 수식 2로 계산하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)은 하기 수식 1로 계산하는 것을 특징으로 할 수 있다:

여기서, alt allele은 변이가 발생한 대립유전자를 의미한다.

본 발명에 있어서, 상기 BGI는 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)가 환자 유래 핵산 분자의 종양 분율(standard tumor fraction) 이상일 경우, 1로 계산하고, 미만인 경우 0으로 계산하는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 BGI 값이 1일 경우, 대립 유전자 양쪽에 변이가 있는 것으로 결정하고, 0일 경우, 대립 유전자 양쪽에 변이가 없거나, 어느 한쪽에만 변이가 있는 것으로 결정하는 것을 특징으로 할 수 있다.

E. 핵산 분석 방법

상기와 같은 유전자의 변이를 검출하기 위해서 본 발명에서는 유전자 서열에 기반한 공지된 모든 방법을 사용할 수 있다.

1. PCR 기반 분석 방법

PCR을 기초로 한 주요 변이 분석법은 SSCP(Single Strand Conformation Polymorphism), AFLP(Amplified Fragment Length Polymorphism), RFLP(Restriction Fragment Length Polymorphism), RAPD(Random Amplified Polymorphic DNA), AS-PCR(Allele-Specific PCR) 등이 있다.

일 실시형태에서 본 발명은 SSCP(single-strand conformation polymorphism 또는 single-strand chain polymorphism) 방법으로 변이를 분석한다. 상기 방법은 SNP genotyping에 많이 이용되는 방법으로, 특정 실험 조건 하에서 서열의 차이에 의해 유도된 동일 길이의 단일가닥 염기서열의 형태적 차이로 정의된다. 이 특성은 서로 다른 형태에 따라 단편을 분리하는 겔 전기영동에 의해 서열을 구별할 수 있게 한다(Masato Orita, et al., (1989). Proc. Natl. Acad. Sci. USA. 86 (8): 2766-2770). PCR로 해당 부위를 증폭한 뒤 이중나선 DNA를 높은 온도 조건(94℃)에서 변성(denature)시켜 단일가닥(single strand)으로 만든 뒤 빠르게 냉각시켜 단일가닥 서열 특유의 입체구조를 형성하게 한다. 이를 denaturing polyacrylamide gel에서 전기영동 하면 서열 상의 차이가 존재하는 각각의 단일가닥은 서로 다른 이동상을 가지게 된다. 길이가 같더라도 그 안에 서로 다른 염기구조를 가지게 되면 이동상에서 구별이 되므로 샘플 사이의 이동속도를 비교하여 변이를 확인할 수 있다.

다른 실시형태에서 본 발명은 AFLP(amplified fragment length polymorphism) 방법으로 변이를 분석한다. 상기 방법은 1990년대 초 Keygene에 의해 개발되었으며, 결과 데이터는 길이 다형성(length polymorphisms)으로 기록되지 않고, 존재-부존재 다형성(presence-absence polymorphisms)으로 기록된다(Vos P, et al. (November 1995). Nucleic Acids Res. 23 (21): 4407-14). 게놈 DNA를 분해하기 위해 제한효소(restriction enzyme)를 사용하며, restriction fragment의 sticky end에 adaptor를 연결한다. 이어서, restriction fragment의 subset가 증폭되도록 선택된다. 인식부위가 많지 않은 특정 제한효소로 절단된 DNA의 단편들에 adaptor를 붙인 다음, adaptor의 염기서열을 바탕으로 제작된 primer를 사용하여 각 단편들을 증폭시켜 얻어지는 band pattern의 차이를 비교하는 것이다.

AFLP는 randomly amplified polymorphic DNA(RAPD), restriction fragment length polymorphism(RFLP) 및 microsatellites와 같은 다른 마커 기술과 비교할 때 많은 장점이 있다. AFLP는 다른 기술에 비해 전체 게놈 수준에서 더 높은 재현성, 분해능 및 민감도를 가질 뿐만 아니라(Mueller UG, et al., (October 1999). Trends Ecol. Evol. 14 (10): 389-394), 한 번에 50 내지 100개의 단편을 증폭할 수 있는 능력을 가지고 있다. 또한, 증폭을 위해서 이전의 서열 정보가 필요하지 않다(Meudt HM, Clarke AC (March 2007). Trends Plant Sci. 12 (3): 106-17). 다형성이 드문 계통에 적용할 수 있을 뿐 아니라 양 말단의 DNA 염기서열을 알지 못하는 제한효소 단편을 증폭시킬 수 있다는 장점이 있다.

또 다른 실시형태에서 본 발명은 RFLP(restriction fragment length polymorphism)방법으로 변이를 분석한다. 상기 방법은 제한효소(restriction endonuclease) 처리에 의한 DNA fragment 길이 차이를 확인하여 SNP를 typing하는 방법이다. PCR을 통해 증폭된 DNA fragment 상에 존재하는 SNP 부위가 특정 제한효소에 의하여 구별될 수 있는 경우에 이용된다. 증폭된 fragment의 SNP에 의하여 특정 제한효소에 대한 restriction site의 sequence가 달라져 두 SNP allele의 fragment 길이의 차이가 발생하여 agarose gel 상에서 쉽게 확인할 수 있다. 많은 종류의 제한효소가 시판되고 있고 원하는 sequence에 작용하는 인식부위를 찾아주는 software가 web 상에서 무료로 제공되고 있어 손쉽게 이용할 수 있다. 그러나 30~40%의 SNP는 restriction site를 가지고 있지 않은데, 이를 해결하기 위해서 primer 상에 1~2bp의 변화를 주어 실재하지 않는 restriction site를 만들어 typing에 이용하기도 한다(primer mutagenesis).

다른 실시형태에서 본 발명은 RAPD(Random Amplified Polymorphic DNA) 방법을 이용하여 변이를 분석한다. 상기 방법은 PCR의 일종이지만, 증폭되는 DNA 부분은 random이다. 임의의 짧은 프라이머(8~12bp)를 이용하여 상보적인 염기서열에 의해 match되는 부위만을 증폭시키게 된다. 이 방법은 agarose gel에서 나타나는 DNA 절편의 패턴을 조사하면 되기 때문에 매우 간단하다. 하지만 아주 작은 primer 단편들은 DNA에 대해 대략 70%의 상동성만 지니고 있으면 증폭이 가능하기 때문에 극도의 세심한 실험 조건을 필요로 한다. 이런 단점을 극복하기 위해 증폭된 부위의 말단 염기서열을 분석한 다음 특이적인 primer로 재합성하여 사용한다면 재현성에 전혀 문제가 없기 때문에 연관분석 연구에는 충분히 사용할 수 있는 방법이다.

다른 실시형태에서 본 발명은 AS-PCR(allele-specific polymerase chain reaction) 방법으로 변이를 분석한다. 상기 방법은 ethidium bromide로 염색된 agarose 또는 polyacrylamide gel에서 PCR 산물을 분석함으로써 DNA의 임의의 점 돌연변이를 직접 검출할 수 있는 PCR의 응용 방법이다(Luis Ugozzoli, et al., Methods, Volume 2, Issue 1, February 1991, Pages 42-48). PCR 증폭에서 primer의 3’ 말단(end)이 반드시 DNA template와 상보적이어야 한다는 것에 기초하고 있다. A(adenine)과 C(cytosine)의 SNP가 있을 경우 3’ 말단이 A로 끝나는 primer와 C로 끝나는 primer를 제작하여 증폭하게 되면 각각의 primer와 상보적인 DNA만 증폭되므로 SNP typing이 가능해 진다.

다른 실시형태에서 본 발명은 형광 dye를 이용하여 Real-time PCR을 통해 변이를 분석한다.

다른 실시형태에서 본 발명은 GC-tail primer를 이용한 Tm-shift genotyping으로 변이를 분석한다. 상기 방법은 Allele-specific PCR과 유사한 방법으로, 각각의 SNP allele에 specific한 primer와 공통되는 reverse primer로 DNA template를 증폭하게 되면 GC-tail이 붙은 allele은 붙지 않은 allele에 비하여 높은 Tm을 가지게 되기 때문에 이러한 Tm값의 차이를 모니터링하여 SNP typing을 수행한다. Tm 값의 차이는 PCR이 끝난 산물에 천천히 열을 가하게 되면 primer에 표지된 SYBR Green의 fluorescence가 소실되는데, 이를 측정하여 각각의 SNP를 typing하게 된다. 이 방법은 SYBR Green의 형광이 double strand DNA일 때 강하게 나타나며 single strand로 denature 되면서 signal이 점차 약해지는 특성을 이용한 것이다.

다른 실시형태에서 본 발명은 DASH(dynamic allele-specific hybridization) 방법으로 변이를 분석한다. 상기 방법은 mismatch 염기쌍의 불안정성으로부터 기인한 DNA의 용융온도 차이를 이용한다. 한쪽에 biotinylation된 primer를 사용하여 원하는 부위를 증폭시킨 후, strptavidin으로 coating된 well에 immobilization시키고 NaOH를 처리하여 denature시켜 single strand로 만든 다음 biotinylation 되지 않은 strand를 제거하여, allele specific probe를 hybridization 시킨다. SYBR Green(double strand에 specific한 dye)를 첨가한 뒤 1℃ 간격으로 95℃까지 천천히 열을 가하면 염기서열이 완전하게 일치할 경우와 single-base mismatch가 발생했을 때 Tm 값의 차이가 도식적으로 나타나 이를 통해 SNP를 typing하는 방법이다. 검출원리는 마찬가지로 SYBR Green의 형광이 double strand DNA일때 강하게 나타나며 single strand로 denature되면서 signal이 점차 약해지는 특성을 이용한 것이다(Howell WM; et al., (January 1999). Nat. Biotechnol. 17 (1): 87-8).

다른 실시형태에서 Taq DNA polymerase의 5’-nuclease 활성은 SNP 유전형 분석을 위한 TaqMan 분석에 사용된다. TaqMan 분석은 SNP가 존재하는 염기서열 상에 match되거나 match되지 않는 차이를 형광물질을 통해 감별하는 방식이다. PCR 반응과 동시에 수행되며, PCR 반응이 진행됨에 따라 결과를 실시간으로 읽을 수 있다. 이 분석법은 SNP 다형성 부위를 포함하는 영역을 증폭시킬 forward 및 reverse PCR 프라이머를 필요로 한다. Allele discrimination은 SNP 다형성 부위에 혼성화하는 하나 또는 두 개의 allele-specific 프로브와 함께 FRET를 사용하여 달성된다. 프로브는 5’말단에 연결된 fluorophore와 3’말단에 연결된 quencher 분자를 갖는다. 프로브가 손상되지 않은 동안, quencher는 fluorophore와의 근접성을 유지하면서 fluorophore의 신호를 제거한다. PCR 증폭 단계 동안, allele-specific 프로브가 SNP allele와 완벽하게 상보적이라면, 표적 DNA 가닥에 결합할 것이고, PCR 프라이머로부터 DNA를 연장시킴에 따라 Taq polymerase의 5’-nuclease 활성에 의해 분해될 것이다. 프로브의 분해는 quencher 분자로부터 fluorophore의 분리를 초래하여 검출 가능한 신호를 생성한다. 만약 allele-specific 프로브가 완벽하게 상보적이지 않으면, 융해 온도가 낮아져 효율적으로 결합하지 못한다. 이는 nuclease가 프로브에 작용하는 것을 방지한다.

TaqMan 분석은 PCR을 기반으로 하기 때문에 구현하기가 상대적으로 간단하다. TaqMan 분석은 하나의 반응에서 최대 7개의 SNP 검출을 결합시킴으로써 다중화될 수 있다. 그러나 각 SNP에는 고유한 프로브가 필요하기 때문에 TaqMan 분석은 SNP가 얼마나 가까이에 있는지에 따라 제한된다. Microtitre plates에서 많은 동시 반응을 수행하여 분석 규모를 크게 증가시킬 수 있다. 일반적으로 TaqMan은 각 SNP별로 최적의 프로브 및 반응 조건을 설계해야 하기 때문에, 적은 수의 SNP를 조사할 수 있는 등의 적용에 제한이 있다.

다른 실시형태에서 본 발명은 Molecular Beacons을 이용하여 변이를 분석한다. 상기 분자 비콘은 균질 용액에서 특정 핵산의 존재를 보고할 수 있는 올리고뉴클레오타이드 혼성화 프로브이다. molecular beacon은 표적 핵산 서열에 결합할 때 형광이 복원되는 내부적으로 소광된 fluorophore를 갖는 hairpin 형태의 분자이다. Molecular beacons를 통한 SNP 검출은 특별히 조작된 단일 가닥 올리고뉴클레오타이드 프로브를 사용한다. 올리고뉴클레오타이드는 각 말단에 상보적인 영역 및 그 사이에 위치하는 프로브 서열이 존재하도록 디자인된다. 이 디자인은 프로브가 자연 분리 상태의 hairpin 또는 stem-loop 구조를 취할 수 있게 한다. 프로브의 한쪽 말단에는 fluorophore이 부착되어 있고 다른 쪽 끝에는 fluorescence quencher가 부착되어 있다. 프로브의 stem-loop 구조로 인해 fluorophore가 quencher에 근접하고, 분자가 형광을 방출하지 못하게 한다. 분자는 또한 오직 프로브 서열만이 분석에서 사용될 게놈 DNA에 상보적이도록 조작된다. Loop 부분은 target에 특이적인 염기서열(약 10~40base)을 포함하고, 양끝은 각 4~7base의 상보적인 염기서열로 stem이 형성된다. Probe의 5’에는 reporter fluorescent dye가 붙어있고 3’는 universal quencher로 dye가 붙어있는데, loop 부분이 specific target sequence에 hybridization되면 quencher와 reporter fluorescent dye가 분리되어 형광을 나타낸다. Matched sequence와 mis-matched sequence의 이러한 Tm 값의 차이를 측정함으로써 SNP를 typing하는 방법이다.

다른 실시형태에서 본 발명은 OLA(Oligonucleotide Ligase Assay)를 이용하여 변이를 분석한다. 상기 방법에서는 2개의 프로브가 디자인된다. DNA ligase는 직접적으로 인접한 DNA 단편의 5’말단에 DNA 단편의 3’말단을 ligation시키는 것을 촉매한다. 이 메커니즘은 두 개의 프로브를 SNP 다형성 부위에 직접 혼성화함으로써 SNP를 조사할 수 있으므로, 프로브가 표적 DNA와 동일하면 ligation이 발생할 수 있다. OLA에서 디자인되는 2개의 프로브는, 3’염기가 SNP 뉴클레오타이드 바로 위에 위치하도록 표적 DNA에 혼성화하는 allele-specific 프로브 및 ligation 반응을 위한 5’말단을 제공하는 SNP 다형성 부위의 template upstream(downstream in the complementary strand)에 혼성화하는 프로브이다. 만약 allele-specific 프로브가 표적 DNA와 일치하면 표적 DNA에 완전히 혼성화될 것이며, ligation이 일어날 수 있다. 일반적으로 mismatched 3’염기가 존재하는 경우에 ligation은 일어나지 않는다. Ligated 또는 unligated 생성물은 겔 전기영동, MALDI-TOF 질량 분석 또는 대규모 응용을 위한 모세관 전기영동에 의해 검출될 수 있다(Harbron S; Rapley R (2004). Molecular analysis and genome discovery. London: John Wiley & Sons Ltd.). 올리고뉴클레오타이드상의 적절한 서열 및 태그를 이용하여, ligated 생성물 및 결정된 유전자형으로부터 높은 처리량의 서열 데이터를 생성할 수 있다(Curry et al., 2012). 많은 수의 샘플 인덱스 사용하여 고효율 시퀀싱 실행의 작은 부분에서 생성되는 수천 개의 샘플 중 수백 개의 SNP에서 높은 처리량의 서열 데이터를 얻을 수 있다. 이는 massive genotyping by sequencing technology(MGST)이다.

다른 실시형태에서 Flap Endonuclease(FEN)는 구조 특이적인 절단을 촉매하는 endonuclease이다. 이 절단은 mismatch에 매우 민감하며 고도의 특이성을 가진 SNP를 조사하는데 사용될 수 있다(Olivier M (June 2005). Mutat. Res. 573 (1-2): 103-10). Invader Assay(Invasive Cleavage of Oligonucleotide Probes)는 Flap Endonuclease(FEN)을 이용한 방법으로, invader probe와 normal probe 또는 mutand probe가 target DNA에 hybridization될 때 단일 염기가 일치하는 경우 one base invasion이 발생하여 5’ end가 cleavage되고 이 절편이 reporter arm을 가진 signal oligonucleotide의 삼차원 구조에 결합하여 arm 말단에 표지된 형광물질의 cleavage를 유발함으로써 형광을 나타낸다(Ryan et al. 1999). 이를 검출하여 SNP를 구분한다.

2. NGS 기반 분석 방법

생어 염기서열 분석법(Sanger sequencing)은 매우 간편하고 독성이 적어서 비슷한 시기에 개발된 Maxam-Gilbert 법(Maxam and Gilbert, 1977)에 비해 빠르게 보급되었으며, 차후의 다른 방법들도 이 방법에서 변형 및 발전되었다. 이 기술은 DNA 중합 반응(DNA polymerization)에 기초한 것으로서, 서열 분석 대상인 DNA의 단일가닥 부위가 주형(template)으로 사용되며, 이 주형에 상보적인 짧은 올리고뉴클레오타이드가 합성을 개시하기 위한 프라이머(primer)로 사용된다. DNA 중합반응에서 디디옥시뉴클레오타이드 트리포스페이트(dideoxy nucleotide triphosphate, ddNTP)가 사용되면 DNA 사슬의 연장이 종료된다. 디디옥시뉴클레오타이드(dd-nucleotide)는 정상적인 뉴클레오타이드의 ribose의 3’ 위치에 -OH기가 H기로 치환되어 있다. 정상적인 DNA 합성과정에서 ddNTPs도 DNA 사슬에 결합할 수 있다. 그러나 DNA 사슬로 들어가고 나면 ddNTPs는 3’ 위치에 -OH기가 없으므로 더 이상 다음 뉴클레오타이드가 결합하지 못하여 신장반응이 종결된다.

반응에서는 4가지의 각기 다른 시험관을 사용한다. 각 시험관에는 DNA의 구성성분이 되는 dNTP(dATP, dTTP, dGTP, dCTP)가 공통적으로 들어있다. 각각의 시험관에는 서로 다른 ddNTP 사슬 종결자(chain terminator)가 들어있어서 한 시험관에는 ddATP, 다음 시험관에는 ddTTP, 다음 시험관에는 ddGTP, 다음 시험관에는 ddCTP가 소량씩 들어있다. 나중에 검출을 용이하게 하기 위하여 dNTP 중의 한가지나 또는 primer는 방사능(32P)으로 표지가 되어야 한다. 예를 들면, ddGTP는 무작위적으로 G자리에 들어가므로 모든 G자리에 이론적으로 ddGTP가 들어갈 수 있다. 이 반응에서 합성되는 각각의 DNA 사슬은 모든 G지점에서 끝나게 되므로 합성된 사슬의 길이를 보면 G가 존재하는 위치를 알 수 있다. 이와 마찬가지로 A시험관에서는 사슬의 중합은 모든 A지점에서 끝날 수 있으며, T시험관에서는 모든 T지점에서, C시험관에서는 모든 C지점에서 끝나게 되어, 각 시험관마다 일련의 서로 길이가 다른 DNA가 만들어진다. 반응 후 각 시험관에서 DNA를 변성시켜 새로 합성된 다양한 가닥이 주형으로부터 떨어져 나오게 한다. A, T, G, C 각 염기 반응시험관마다 다른 lane에서 전기영동 후, 길이에 따라 분리된 DNA 조각들을 자기방사법(autoradiography)으로 관찰한다. 인접한 A, C, G, T 각 lane에서 위치에 따라 이동한 DNA 조각인 band를 차례로 읽으면 DNA 염기서열을 결정할 수 있다.

초기의 Sanger방식은 생성된 DNA 조각을 polyacrylamide slab gel에서 전기영동으로 분리하고 방사능으로 읽어내는 과정을 따로 수행해야 하기 때문에 조작이 길고 복잡하며 시간과 노동력이 많이 소요되었다(Sun-Il Kwon, Next Generation Sequencing (NGS), A Key Tool to open the Personalized Medicine Era, Korean J Clin Lab Sci. 2012, 44(4): 167-177; F. SANGER, DNA sequencing with chain-terminating inhibitors, Proc. Nati. Acad. Sci. USA Vol. 74, No. 12, pp. 5463-5467, December 1977).

이러한 초기 Sanger 방식의 문제점을 개선하기 위하여, 형광라벨을 도입하고 모세관 전기영동을 결합시켜 반응과 탐색을 부분적으로 자동화시켰다(자동화 염기서열 분석기술 - 1세대 염기서열 분석법). 형광라벨을 각각의 ddNTPs를 구분할 수 있는 표지자로 이용함으로써 하나의 시험관에서 염기서열 분석을 진행할 수 있으며, 모세관 전기영동은 전기영동에 필요한 모세관수를 획기적으로 늘림으로써 분석의 효율을 높였다. 또한 염기서열 분석기뿐만 아니라 주변기기도 자동화되게 되어서 사람의 손으로 하던 클로닝과 염기서열 결정 작업이 상당부분 자동화되었다.

하지만 이러한 자동화에도 불구하고, 기본적으로는 Sanger의 사슬 종결(chain termination)을 이용한 염기서열 분석방법을 그대로 이용하는 것이었기 때문에 인간의 방대한 양의 유전체를 밝히기 위해서는 막대한 시간과 비용이 소요되는 문제점을 여전히 가지고 있었다. 개인의 염기서열을 분석하고 이를 의학을 비롯한 산업에 연계하기 위해서는 적은 시간 및 저렴한 비용을 들여 염기서열을 분석할 수 있는 획기적인 기술 개발의 필요성이 대두되었다. 이러한 문제를 해결하기 위하여 병목이 되고 있는 복잡한 과정을 과감히 없애거나, 시간이 많이 소요되는 과정을 한꺼번에 대량으로 처리할 수 있는 방법이 시도되었다.

본래 차세대 염기서열 분석(Next Generation Sequencing, NGS)으로 지칭되는 기술은 자동화로는 제2세대 기술에 해당된다. NGS는 이전의 첫 자동화 기기와 구분하고, 이후에 탄생한 Next NGS 기기(차차세대, 혹은 제3세대 NGS라고도 지칭됨)와 따로 구분하기 위하여 불리는 이름이다. 그러나, 효율적인 염기서열 분석기술의 개발경쟁이 가속화되고 새로운 기술의 도입 및 플랫폼의 사용 목적에 기초한 염기서열 분석기술이 지속적으로 개발됨에 따라, 각 세대의 염기서열 분석기술은 그 구분이 모호해지고, NGS는 자동화된 생어 염기서열 분석기술 이후의 염기서열 분석기술을 모두 아우르는 광의의 의미로 사용되고 있다.

NGS에 도입된 기술은 크게 클론 증폭(clonal amplification), 대량병렬법(massively parallel), 바로 읽을 수 있는 새로운 염기서열결정법(비 Sanger법)(base/color calling) 등 3가지로 나눌 수 있다. 클론 증폭은 라이브러리(library) 구축과정을 제거하여 클로닝 과정이 제거되는 효과를 가지며, 대량병렬법은 동시에 수십만 개의 클론을 취급하므로 효율이 향상된다. 바로 읽을 수 있는 새로운 염기서열결정법은 모세관 전기영동 과정이 제거된 효과를 나타낸다.

클론 증폭(clonal amplification)에 의해 주형 clone을 얻는 과정이 단순화되었다. Sanger법으로 시퀀싱을 하려면 약 500염기쌍의 길이를 가진 주형 DNA가 필요하다. BAC library를 구축한 후 subcloning을 통해서 짧은 단편을 cloning한 다음 bacteria에서 증폭해야 한다. 새로운 방법은 번거로운 library 구축과 cloning 과정을 모두 없애고 DNA를 바로 적절히 짧은 단편으로 자른 다음 프라이머를 이용하여 PCR로 바로 증폭하여 주형 clone을 얻을 수 있게 한다. 클론 증폭에는 비드 기반(bead-based), 솔리드-스테이트(solid-satate), DNA 나노볼 생성(DNA nanoball generation)과 같은 전략들이 사용된다.

비드 기반의 클론 증폭의 경우, 에멀젼 PCR을 이용한다. 에멀전 PCR은 게놈 DNA를 단편화(fragmentation)하여 얻은 집합체인 DNA 라이브러리(DNA library)를 기름 속에서 작은 수용액 방울로 공간적으로 분리(separation)한 다음 한쪽 PCR primer가 표면에 수식된 미세비드와 함께 유탁액(emulsion)안에서 증폭한다. 이렇게 만들어진 한 개의 비드에 하나의 단일 DNA 단편에서 유래한 100만개 이상의 클론 DNA 조각이 고정되어 있게 하는 방법이다. 솔리드 스테이트 방법에는 대표적으로 브릿지-증폭방법(Bridge-amplification)이 있다. 브릿지-증폭방법은 단편화한 DNA의 양 말단에 어댑터 올리고뉴크레오타이드(adaptor oligonucleotide)를 연결시킨 후, 이를 glass flow cell의 표면에 흘려주면 표면에 고정된 어댑터와 상보적인 primer에 무작위로 결합된다. 이 상태에서 PCR을 행하면 주변에 존재하는 free primer에 고정된 DNA의 자유 말단이 결합되어 브릿지 형태를 이루고 증폭이 진행된다. 이렇게 증폭이 진행을 하면 상기 비드와 동일한 역할을 하는 클러스터(cluster)가 형성된다.

NGS는 대량병렬(massively parallel) 방식을 도입하여 상기 클론들을 판상으로 배치하여 염기서열 분석을 진행한다. 주형 clone은 숫자가 매우 많아서 이를 따로 준비하면 시간이 많이 소요된다. 주형에서 염기서열신호를 읽어내는 과정도 효율을 떨어뜨리는 심각한 제한요인이 된다. 수십만 개의 다른 clone을 대량병렬 방식으로 처리하면 시간을 획기적으로 단축할 수 있다.

번거로운 전기영동 과정을 없애기 위해서 주형에 반응을 일으킨 다음, 반응에서 나오는 시그널로 각 주형의 서열정보를 바로 읽는 Sanger법을 탈피한 새로운 방법이 개발되었다. Sanger법을 대체하는 염기서열 결정법은 크게 DNA 결찰(ligation)을 통한 서열 분석 방법(Sequencing By Ligation, SBL)과 중합을 통한 서열 분석 방법(Sequencing By Synthesis, SBS)으로 나뉜다.

SBL방식은 DNA단편의 반복적인 결찰(ligation)을 이용하는 것으로 주형 DNA에 n개의 염기를 갖는 앵커가 상보적으로 결합되며, 형광라벨로 표지 되는 2개의 무작위적으로 인코딩된 염기(encoded base)와 그 뒤에 따라오는 퇴화염기 또는 범용염기(degenerate or universial bases)를 갖는 프로브가 상기한 비드 나 클러스터가 침전된 DNA 라이브러리 슬라이드에 추가된다. 앵커의 바로 뒤에 따라오는 주형 DNA 단편과 상보적인 2개의 엔코딩된 서열을 가지는 프로브가 앵커에 라이게이션되고, 슬라이드의 형광라벨 이미징을 통해 2개의 인코딩된 염기서열을 분석한다. 2개의 서열이 분석되면 퇴화염기서열과 형광입자는 제거 된 후 프로브를 추가하는 상기 과정을 반복한다. 상기한 n의 앵커 외에 n+2, n+4의 염기를 갖는 앵커를 이용 및 반복적으로 분석하여 전체 주형 DNA단편의 서열을 분석하는 방법이다.

SBS는 다시 사이클릭 리버서블 터미네이션 방식(Cyclic Reversible Termination, CRT)과 단일 뉴클레오타이드 추가 방식(Single Nucleotide Addition, SNA)으로 구분된다.

CRT방식은 자동화된 Sanger 방식과 유사한 과정을 이용하는데, 솔리드 스테이트 방법을 이용해 증폭된 DNA 클러스터를 갖는 슬라이드에 프라이머, DNA 중합효소, 변형 뉴클레오타이드 혼합물을 추가한다. 상기 변형 뉴클레오타이드는 추가적인 중합과정이 일어날 수 없도록 3`-O-아지도메틸(3`-O-azidomethyl)로 차단되며 각 베이스 특유적인 그리고 추후 제거가능한 형광라벨로 표지 된다. 중합 후 중합되지 않은 베이스는 씻어내고 총 내부 반사형 형광체(total internal reflection fluorescence, TIRF) 현미경을 이용하여 이미징을 통해 염기를 식별한다. 염기가 식별되면, 형광라벨은 분해되고 3′-OH는 환원제 Tris 2-Carboxyethyl)phosphine (TCEP)으로 재생된다. 이러한 과정을 반복하여 전기영동 없이 주형 DNA의 서열을 분석하는 방식이다.

SNA방식은 DNA 중합효소가 단일 뉴클레오타이드를 붙일 때 생성되는 이온등을 빛으로 전환하여 염기서열을 분석하는 방식이다. SNA방식은 Roche사의 454기기가 이용하는 파이로시퀀싱 방법으로 대표되는데, 이는 뉴클레오타이드가 결합할 때 방출되는 이인산(pyrophosphate)를 빛으로 읽어내는 방식이다. 4가지의 dNTP(A, G, T, C)를 순차적으로 넣어서 반응시키고 씻어내기를 반복하면 중합반응이 될 때마다 빛을 발산하므로 이를 통해 염기서열을 알아내는 방식이다.

SBL을 이용한 대표적인 분석기기로는 구 Life Technologies사의 SOLiD 시리즈가 있으며, SBS를 이용한 대표적 분석기기로는 Illumina사의 Hiseq 시리즈(CRT 방식), Roche사의 454 시리즈(SNA 방식)가 있다.

a. 타겟 풍부화(Target Enrichment)

핵산 샘플

다양한 조직 샘플은 본 방법에 사용된 핵산 샘플의 공급원일 수 있다. 게놈 또는 서브게놈 핵산(예를 들어, DNA 또는 RNA)은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플, 혈중 종양 세포를 함유하는 샘플(CTC) 또는 임의의 정상 대조군))로부터 분리될 수 있다. 특정 실시형태에서, 조직 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀 포매(FFPE) 조직 제조물로서 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매될 수 있다. 분리 단계는 개개 염색체의 유동-분리(flow-sorting); 및/또는 피험체 샘플의 마이크로-해부(예를 들어, 종양 샘플, NAT, 혈액 샘플)를 포함할 수 있다.

본 발명에서 "분리된" 핵산 분자는 핵산 분자의 천연 공급원에 존재하는 다른 핵산 분자로부터 분리된 것이다. 특정 실시형태에서, "분리된" 핵산 분자는 핵산이 유래된 유기체의 게놈 DNA에서 핵산에 자연적으로 측접한 서열(예컨대 단백질-암호화 서열)(즉, 핵산의 5' 및 3'에 위치된 서열)이 없다. 예를 들어, 다양한 실시형태에서, 분리된 핵산 분자는 핵산이 유래된 세포의 게놈 DNA에서 핵산 분자에 자연적으로 측접한 약 5 kB 미만, 약 4 kB 미만, 약 3kB 미만, 약 2 kB 미만, 약 1 kB 미만, 약 0.5 kB 미만 또는 약 0.1 kB의 뉴클레오타이드 서열을 함유할 수 있다. 게다가, "분리된" 핵산 분자, 예컨대 cDNA 분자는 재조합 기법에 의해 생성될 때 다른 세포 물질 또는 배양물이 실질적으로 없거나 또는 화학적으로 합성될 때 화학적 전구체 또는 다른 화학물질이 실질적으로 없을 수있다.

"다른 세포 물질 또는 배양 배지가 실질적으로 없는"이라는 표현은 핵산 분자가 그것이 분리되거나 또는 재조합적으로 생성된 세포의 세포 성분으로부터 분리된, 핵산 분자의 제조를 포함한다. 따라서, 세포 물질이 실질적으로 없는 핵산 분자는 약 30% 미만, 약 20% 미만, 약 10% 미만 또는 약 5% 미만(건조 중량으로)의 다른 세포 물질 또는 다른 배양 배지를 갖는 핵산 분자의 제조를 포함한다.

특정 실시형태에서, 핵산은 연령 샘플, 예를 들어 연령 FFPE 샘플로부터 분리된다. 연령 샘플은, 예를 들어 연령, 예를 들어 1세, 2세, 3세, 4세, 5세, 10세, 15세, 20세, 25세, 50세, 75 세 또는 100세 이상일 수 있다.

핵산 샘플은 다양한 크기의 조직 샘플(예를 들어, 생검 또는 FFPE 샘플)로부터 얻을 수 있다. 예를 들어, 핵산은 5 내지 200㎛ 또는 그 이상의 조직 샘플로부터 분리될 수 있다. 예를 들어, 조직 샘플은 5㎛, 10㎛, 20㎛, 30㎛, 40㎛, 50㎛, 70㎛, 100㎛, 110㎛, 120㎛, 150㎛ 또는 200㎛ 이상으로 측정될 수 있다.

조직 샘플로부터 DNA 분리를 위한 프로토콜은 실시예 1에서 제공된다. 포름알데하이드- 또는 파라포름알데하이드-고정, 파라핀-포매(FFPE) 조직으로부터 핵산(예를 들어, DNA)을 분리시키기 위한 추가적인 방법은, 예를 들어 문헌[Cronin M. et al., (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429], 앰비온 리커버올(Ambion RecoverAll)(상표명) 전체 핵산 분리 프로토콜(Ambion, Cat. No. AM1975, September 2008), 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM349, 2011년 2월), E.Z.N.A.(등록상표) FFPE DNA 키트 핸드북(조지아주 노크로스에 소재한 오메카 바이오-테크(OMEGA bio-tek), 제품 번호 D3399-00, D3399-01 및 D3399-02; 2009년 6월), 및 QIAamp(등록상표) DNA FFPE 조직 핸드북(퀴아젠 (Qiagen), 카탈로그 번호 37625, 2007년 10월)에 개시된다. 리커버올(RecoverAll)(상표명) 전체 핵산 분리 키트는 파라핀-포매된 샘플을 가용화하기 위하여 상승된 온도에서 자일렌을 사용하고, 핵산을 포획하기 위하여 유리-섬유 필터를 사용한다. 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트는 FFPE 조직의 1 내지 10㎛ 부문으로부터 게놈 DNA의 정제를 위해 맥스웰(Maxwell)(등록상표) 16 기기와 함께 사용된다. DNA는 실리카-클래드 상자성 입자(PMP)를 사용하여 정지되고, 낮은 용리 부피로 용리된다. E.Z.N.A.(등록상표) FFPE DNA 키트는 게놈 DNA의 분리를 위한 스핀 칼럼 및 완충제 시스템을 사용한다. QIAamp(등록상표) DNA FFPE 조직 키트는게놈 및 미토콘드리아 DNA의 정제를 위해 QIAamp(등록상표) DNA 마이크로기법을 사용한다. 혈액으로부터 DNA 분리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 LEV 혈액 DNA 키트 및 맥스웰(Maxwell) 16 경구 면봉 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM333, 2011년 1월 1일)]에 개시된다.

RNA 분리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 전체 RNA 정제 키트 기술 공고(프로메가(Promega) 문헌 #TB351, 2009년 8월)]에 개시된다.

분리된 핵산 샘플(예를 들어, 게놈 DNA 샘플)은 일상적인 기법에 의해 단편화되거나 또는 전단될 수 있다. 예를 들어, 게놈 DNA는 물리적 전단 방법, 효소적 절단 방법, 화학적 절단 방법 및 당업자에게 잘 알려진 다른 방법에 의해 단편화될 수 있다. 핵산 라이브러리는 모든 또는 실질적으로 모든 게놈의 복잡성을 함유할 수 있다. 이 내용에서 "실질적으로 모든"이라는 용어는 처리의 개시 단계 동안 사실상 게놈 복잡성의 일부 원치않는 소실이 있을 수 있다는 가능성을 지칭한다. 본 명세서에 기재된 방법은 또한 핵산 라이브러리가 게놈의 일부인 경우, 즉 게놈의 복잡성이 설계에 의해 감소되는 경우에 유용하다. 일부 실시형태에서, 게놈의 임의의 선택된 부분은 본 발명에 기재된 방법과 함께 사용될 수 있다. 특정 실시형태에서, 전체 엑솜 또는 이것의 서브세트는 분리된다.

본 발명에서 특징으로 하는 방법은 핵산 샘플을 분리시켜 라이브러리(예를 들어, 본 명세서에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함할 수 있다. 특정 실시형태에서, 핵산 샘플은 전체 게놈, 서브 게놈 단편 또는 둘 다를 포함한다. 분리된 핵산 샘플은 핵산 라이브러리를 제조하기 위해 사용될 수 있다. 따라서, 일 실시형태에서, 본 발명에서 특징으로 하는 방법은 핵산 샘플을 분리시켜 라이브러리(예를 들어, 본 발명에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 분리시키고 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트). 특정 실시형태에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플 또는 임의의 정상 대조군))로부터 분리된다. 일 실시형태에서, 샘플(예를 들어, 종양 또는 NAT 샘플)은 보존된 표본이다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매된다. 특정 실시형태에서, 분리 단계는 개개의 염색체의 유동-분리단계; 및/또는 피험체 샘플(예를 들어, 종양 샘플, NAT, 혈액 샘플)의 마이크로해부 단계를 포함한다. 특정 실시형태에서, 핵산 라이브러리를 만들기 위해 사용된 핵산 샘플은 5 마이크로그램 미만, 1 마이크로그램 미만 또는 500ng 미만, 200ng 미만, 100ng 미만, 50ng 미만, 10ng 미만, 5ng 미만 또는 1ng 미만이다.

또 다른 실시형태에서, 라이브러리를 만들기 위해 사용되는 핵산 샘플은 RNA 또는 RNA로부터 유래된 cDNA를 포함한다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 일부 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.

해당 방법은 당업자에게 잘 공지된 특이적 또는 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 일부 실시형태에서, 특정 실시형태에서, 핵산 샘플은, 무작위-프라이밍된 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭된다.

다른 실시형태에서, 핵산 샘플은 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단되고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어, 분취 겔 전기 영동에 의함), 증폭된다(예를 들어, PCR에 의함). 다른 실시형태에서, 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.

다른 실시형태에서, 분리된 DNA(예를 들어, 게놈 DNA)는 단편화되거나 또는 전단된다. 일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편(subfraction) 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다.

일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 분리시키고, 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트). 대안의 DNA 전단 방법은 더 자동화가능하며 및/또는 더 효율적일 수 있다(예를 들어 분해된 FFPE 샘플에 의해). DNA 전단 방법에 대한 대안은 또한 라이브러리 제조 동안 결찰 단계를 회피하기 위해 사용될 수 있다.

본 발명에 기재된 방법은 공급원 DNA의 양이 제한될 때(예를 들어, 전체-게놈 증폭 후 조차), 소량의 핵산을 사용하여 수행될 수 있다. 일 실시형태에서, 핵산은 약 5㎍ 미만, 4㎍, 3㎍, 2㎍, 1㎍, 0.8㎍, 0.7㎍, 0.6㎍, 0.5㎍또는 400ng, 300ng, 200ng, 100ng, 50ng, 10ng, 5ng, 1ng 또는 그 미만인 핵산 샘플을 포함한다. 예를 들어, 전형적으로 50 내지 100ng의 게놈 DNA로 시작될 수 있다. 그러나 혼성화 단계, 예를 들어 용액 혼성화 전 게놈 DNA(예를 들어, PCR을 사용)를 증폭시킨다면, 더 적게 시작할 수 있다. 따라서, 혼성화, 예를 들어 용액 혼성화 전 게놈 DNA를 증폭시키는 것은 가능하지만, 필수적인 것은 아니다.

라이브러리를 만들기 위해 사용된 핵산 샘플은 또한 RNA 또는 RNA로부터 유래된 cDNA를 포함할 수 있다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 다른 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의한 프라이밍에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.

해당 방법은 당업자에게 공지된 특이적 및 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 핵산 샘플은, 예를 들어 무작위-프라이밍 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭될 수 있다.

핵산 샘플은 본 발명에 기재된 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단될 수 있고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어 분취 겔 전기영동에 의함) 증폭된다(예를 들어, PCR에 의함). 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.

라이브러리 구성원

본 발명에서 "구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는 핵산 분자, 예를 들어 라이브러리(또는 "라이브러리-캐치")의 구성원인 DNA 또는 RNA를 지칭한다. 라이브러리 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원 중 하나 이상일 수 있다. 전형적으로, 구성원은 DNA 분자, 예를 들어 게놈 DNA 또는 cDNA 분자이다. 구성원은, 예를 들어 효소적으로 또는 전단에 의해 단편화된 게놈 DNA일 수 있다. 구성원은 피험체로부터의 뉴클레오타이드 서열을 포함할 수 있고, 또한 피험체, 예를 들어 프라이머 또는 어댑터(예를 들어, PCR 증폭에 대해 또는 시퀀싱에 대해)로부터 유래되지 않은 뉴클레오타이드 서열 또는 샘플, 예를 들어 "바코드" 서열을 확인하게 하는 서열을 포함할 수 있다.

본 발명에서 "표적 구성원"은 핵산 라이브러리로부터 분리될 것이 요망되는 핵산 분자를 지칭한다. 일 실시형태에서, 표적 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원일 수 있다. 핵산 라이브러리로부터 실제로 선택된 구성원은 본 명세서에서 "라이브러리 캐치"로서 지칭된다. 일 실시형태에서, 라이브러리-캐치는 라이브러리 구성원의 선택 또는 풍부화, 예를 들어 본 명세서에 기재된 혼성체 포획물 중 하나 이상의 라운드 후 라이브러리의 풍부화되거나 또는 선택된 결과물을 포함한다.

표적 구성원은 라이브러리의 하위그룹일 수 있으며, 즉 라이브러리 구성원의 모두가 본 명세서에 기재된 어떤 특정한 과정의 사용에 의해 선택되는 것은 아니다. 다른 실시형태에서, 표적 구성원은 요망되는 표적 영역 내에 있다. 예를 들어, 표적 구성원은 10%만큼 낮거나 또는 95% 내지 98%만큼 높거나 또는 그 이상인 라이브러리 구성원의 백분율일 수 있다. 일 실시형태에서, 라이브러리 캐치는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상의 표적 구성원을 포함한다. 다른 실시형태에서, 라이브러리는 표적 구성원의 100%를 함유한다. 일 실시형태에서, 라이브러리 캐치의 순도(표적에 대해 배열되는 리드의 백분율)는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상이다.

게놈 DNA로부터 얻은 표적 구성원(또는 라이브러리 캐치)는 전체 게놈 DNA의 작은 분획을 포함할 수 있으므로, 이는 약 0.0001% 미만, 적어도 약 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%의 게놈 DNA 또는 전체 게놈 DNA의 더 유의한 분획을 포함하며, 이는 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 또는 10%의 게놈 DNA 또는 10% 이상의 게놈 DNA를 포함한다.

일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 게놈의 복잡한 혼합물로부터 선택된다. 예를 들어, 다른 세포 유형(예를 들어, 정상 세포)으로부터 DNA를 함유하는 샘플로부터 하나의 세포 유형(예를 들어, 암 세포)으로부터의 DNA 선택. 이러한 적용에서, 표적 구성원은 복합체 샘플 또는 더 유의한 분획에서 존재하는 핵산 서열의 전체 복잡성의 0.0001% 미만, 적어도 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%를 포함할 수 있으므로, 이는 복합체 샘플 내 존재하는 핵산 서열의 전체 복잡성의 적어도 약 1%, 2%, 5%, 10% 또는 10% 이상을 포함한다.

일 실시형태에서, 본 발명에 기재된 방법(예를 들어, 용액 혼성화 선택 방법)에 의해 선택된 표적 구성원(또는 라이브러리 캐치)은 게놈 엑손의 게놈 내 엑손의 모두 또는 일부, 예컨대 약 0.1%, 1%, 2%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95% 초과를 포함한다. 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손의 구체적 그룹, 예를 들어, 적어도 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000개의 특정 엑손, 예를 들어, 암과 같은 특정 질병과 관련된 엑손일 수 있다. 또 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손 또는 관심의 선택된 유전자의 다른 부분을 함유한다. 구체적 베이트 서열의 사용은 실행자가 특정 선택을 위한 핵산의 그룹으로부터 표적 서열(선택된 서열의 이상적 세트) 및 다수의 또는 소수의 엑손(또는 다른 서열)을 함유하는 핵산의 서브그룹(선택된 서열의 실제 세트)을 선택하기 위해 한다.

일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 cDNA의 세트를 포함한다. cDNA의 포획은, 예를 들어 스플라이스 변이체를 찾기 위하여, 그리고 융합 전사체를 확인하기 위하여(예를 들어, 게놈 DNA 전위) 사용될 수 있다. 다른 실시형태에서, 표적 구성원(및 라이브러리 캐치)은 세포, 조직 또는 기관, 예를 들어 종양 내, 세포의 RNA 분획에서 발현된 단일 염기 변화 및 다른 서열 변화를 발견하기 위해 사용된다.

표적 구성원(또는 라이브러리 캐치)(예를 들어, 엑손, cDNA 및 다른 서열)은 원한다면 관련되거나 또는 관련되지 않을 수 있다. 예를 들어, 선택된 표적 구성원(및 라이브러리 캐치)은 질병에 수반된 유전자인 핵산의 그룹, 예컨대 암과 같은 하나 이상의 질병에 연루된 유전자의 그룹, 특이적 SNP를 함유하는 핵산의 그룹으로부터 얻어질 수 있다.

베이트의 설계 및 구성

베이트는 혼성화될 수 있는(예를 들어, 상보적인) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있으며, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자이다. 다른 실시형태에서, 베이트는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의 결합 독립체, 예를 들어 앞서 언급한 결합 독립체를 포함한다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.

전형적으로, RNA 분자는 베이트 서열로서 사용된다. RNA-DNA 듀플렉스는 DNA-DNA 듀플렉스보다 더 안정하며, 따라서 핵산의 잠재적으로 더 양호한 포획을 제공한다.

RNA 베이트는, 이하에 제한되는 것은 아니지만, 데노보(de novo) 화학 합성 및 DNA-의존적 RNA 폴리머라제를 사용하는 DNA분자의 전자를 포함하는, 당업계에 공지된 방법을 사용하여 본 명세서의 다른 곳에 기재된 바와 같이 만들어질 수 있다. 일 실시형태에서, 베이트 서열은 PCR과 같은 공지된 핵산 증폭 방법을 사용하여, 예를 들어 주형으로서 인간 DNA 또는 불량한 인간 DNA 샘플을 사용하여 생성된다. 그 다음에 올리고뉴클레오타이드는 RNA 베이트로 전환될 수 있다. 일 실시형태에서, 시험관내 전사는, 예를 들어 올리고뉴클레오타이드의 한 말단에 RNA 폴리머라제 프로모터 서열을 첨가하는 것을 기반으로 사용된다. 일 실시형태에서, RNA 폴리머라제 프로모터 서열은 베이트 서열을 증폭시키거나 또는 재증폭시킴으로써, 예를 들어 PCR 또는 다른 핵산 증폭 방법을 사용하여, 예를 들어 RNA 프로모터 서열로 각각의 표적-특이적 프라이머 쌍의 하나의 프라이머를 테일링(tailing)함으로써 베이트의 말단에 첨가된다. 일 실시형태에서, RNA 폴리머라제는 T7 폴리머라제, SP6 폴리머라제 또는 T3 폴리머라제이다. 일 실시형태에서, RNA 베이트는 태그, 예를 들어 친화도 태그로 표지된다. 일 실시형태에서, RNA 베이트는, 예를 들어 바이오틴화된 UTP를 사용하여 시험관내 전사에 의해 만들어진다. 다른 실시형태에서, RNA 베이트는 바이오틴 없이 생성된 다음, 바이오틴은 당업계에 잘 공지된 방법, 예컨대 소랄렌(psoralen) 가교를 사용하여 RNA 분자에 가교된다. 일 실시형태에서, RNA 베이트는 RNase-내성 RNA 분자인데, 이는, 예를 들어 전사 동안 변형된 뉴클레오타이드를 사용함으로써 만들어져서 RNase 분해에 저항하는 RNA 분자를 생성할 수 있다. 일 실시형태에서, RNA 베이트는 이중 가닥 DNA 표적의 단지 하나의 가닥에 대응된다. 전형적으로, 이러한 RNA 베이트는 자기-상보적이지 않으며, 혼성화 구동자로서 더 효과적이다.

베이트 세트는 기준 서열로부터 설계될 수 있으므로, 베이트는 기준 서열의 표적을 선택하는데 최적이다. 일부 실시형태에서, 베이트 서열은 혼합된 염기(예를 들어, 축퇴)를 사용하여 설계된다. 예를 들어, 혼합된 염기(들)는 보통의 SNP 또는 돌연변이의 위치(들)에서 베이트 서열에 포함되어 대립유전자들 둘 다(예를 들어, SNP와 비-SNP; 돌연변이체와 비-돌연변이체)를 잡는 베이트 서열을 최적화할 수 있다. 일부 실시형태에서, 모든 공지된 서열 변형(또는 이것의 서브세트)은 혼합된 축퇴 올리고뉴클레오타이드를 사용하는 것보다는 다중 올리고뉴클레오타이드 베이트에 의해 표적화될 수 있다.

특정 실시형태에서, 베이트 세트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 전형적으로, 베이트 세트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드, 또는 약 150 내지 200개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 다른 실시형태에서, 베이트 세트는 길이로 약 300개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다.

일부 실시형태에서, 올리고뉴클레오타이드에서 표적 구성원-특이적 서열은 길이로 약 40 내지 1000개의 뉴클레오타이드, 약 70 내지 300개의 뉴클레오타이드, 약 100 내지 200개의 뉴클레오타이드, 전형적으로 길이로 약 120 내지 170개의 뉴클레오타이드이다.

일부 실시형태에서, 베이트 세트는 결합 독립체를 포함한다. 결합 독립체는 각각의 베이트 서열 상에서 친화도 태그일 수 있다. 일부 실시형태에서, 친화도 태그는 바이오틴 분자 또는 햅텐이다. 특정 실시형태에서, 결합 독립체는 햅텐 또는 이것의 항원-결합 단편에 결합하는 아비딘 분자 또는 항체와 같은 상대에 결합함으로써 혼성화 혼합물로부터 베이트/구성원 혼성체를 분리시킨다.

다른 실시형태에서, 베이트 세트 내 올리고뉴클레오타이드는 동일 표적 구성원 서열에 대해 전방 및 후방의 상보적 서열을 함유하며, 이에 의해 후방-상보적(reverse-complemented) 구성원-특이적 서열을 갖는 올리고뉴클레오타이드는 또한 후방 상보적인 보편적 꼬리를 운반한다. 이는 동일 가닥인, 즉 서로 상보적이 아닌 RNA 전사체를 유발할 수 있다.

다른 실시형태에서, 베이트 세트는 하나 이상의 위치에서 축퇴 또는 혼합된 염기를 함유하는 올리고뉴클레오타이드를 포함한다. 또 다른 실시형태에서, 베이트 세트는 단일 종의 집단 또는 유기체의 군집에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다. 일 실시형태에서, 베이트 세트는 인간 집단에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다.

다른 실시형태에서, 베이트 세트는 cDNA 서열을 포함하거나 또는 cDNA 서열로부터 유래된다. 다른 실시형태에서, 베이트 세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭된 증폭 생성물(예를 들어, PCR 생성물)을 포함한다.

다른 실시형태에서, 베이트 세트는 RNA 분자를 포함한다. 일부 실시형태에서, 세트는 화학적으로, 효소적으로 변형된 또는, 이하에 제한되는 것은 아니지만, RNase에 대해 더 안정하고 내성인 것을 포함하는 시험관내 전사된 RNA 분자를 포함한다.

또 다른 실시형태에서, 베이트는 본 명세서에 참조로서 포함된 미국특허 제2010/0029498호 및 문헌[Gnirke, A.et al. (2009) Nat Biotechnol. 27(2):182-189]에 기재된 방법에 의해 생성된다. 예를 들어, 바이오틴화된 RNA 베이트는 본래 마이크로어레이 상에서 합성된 합성의 긴 올리고뉴클레오타이드를 얻는 단계 및 올리고뉴클레오타이드를 증폭시켜 베이트 서열을 생성하는 단계에 의해 생성될 수 있다. 일부 실시형태에서, 베이트는 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계에 의해 생성된다. 일 실시형태에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 애질런트 테크로놀로지스 인코포레이티드(Agilent Technologies, Inc.)와 같은 상업적 공급업자로부터 얻을 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭된다.

일 실시형태에서, 베이트 서열은 SNP를 암호화하는 표적 유전자 또는 유전자 생성물 또는 이것의 단편에서, 예를 들어 그것의 결합 능력(예를 들어, 친화성 및/또는 특이성)을 증가시키기 위해 SNP에 대한 염기 상보성을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, BRCA1, BRCA2, MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11를 포함한다.

또 다른 실시형태에서, 베이트 세트는 암과 관련된 표적 유전자 또는 유전자 생성물 또는 이것의 단편을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1, XRCC1, MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11을 포함한다.

베이트 서열의 길이는 약 70개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드일 수 있다. 일 실시형태에서, 베이트 길이는 길이로 약 100 내지 300개의 뉴클레오타이드, 110 내지 200개의 뉴클레오타이드 또는 120 내지 170개의 뉴클레오타이드이다. 상기 언급한 것에 추가로, 길이로 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 중간체 올리고뉴클레오타이드 길이가 본 명세서에 기재된 방법에서 사용될 수 있다. 일부 실시형태에서, 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220 또는 230개의 염기의 올리고뉴클레오타이드가 사용될 수 있다.

각각의 베이트 서열은 하나 또는 양 말단 상에서 표적-특이적(예를 들어, 구성원-특이적) 베이트 서열 및 보편적 꼬리를 포함할 수 있다. 본 명세서에서 사용된 바와 같은, 용어 "베이트 서열"은 표적-특이적 베이트 서열 또는 표적-특이적 "베이트 서열"을 포함하는 전체 올리고뉴클레오타이드 및 올리고뉴클레오타이드의 다른 뉴클레오타이드를 지칭할 수 있다. 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드, 전형적으로 길이로 120개의 뉴클레오타이드이다. 상기 언급한 것에 추가로 중간체 길이는 또한

본 발명에 기재된 방법, 예컨대 길이로 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 표적-특이적 서열뿐만 아니라 상기-언급한 길이 사이의 길이의 표적-특이적 서열에서 사용될 수 있다.

일 실시형태에서, 베이트는 길이로 약 50 내지 200개(예를 들어, 길이로 약 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190 또는 200개의 뉴클레오타이드)의 뉴클레오타이드의 올리고머(예를 들어, RNA 올리고머, DNA 올리고머 또는 이들의 조합를 포함)이다. 일 실시형태에서, 각각의 베이트 올리고머는 약 120 내지 170 또는 전형적으로, 약 120개의 뉴클레오타이드를 포함하는데, 이는 표적 특이적 베이트 서열이다. 베이트는 하나 또는 양 말단에서 추가적인 비-표적 특이적 뉴클레오타이드 서열을 포함할 수 있다. 추가적인 뉴클레오타이드 서열은, 예를 들어 PCT 증폭에 대해 또는 베이트 식별자로서 사용될 수 있다. 특정 실시형태에서, 베이트는 추가적으로 본 명세서에 기재된 바와 같은 결합 독립체(예를 들어, 바이오틴 분자와 같은 포획 태그)를 포함한다. 결합 독립체, 예를 들어 바이오틴 분자는, 예를 들어 베이트의 5'-, 3'-말단에서 또는 내부로(예를 들어 바이오틴화된 뉴클레오타이드를 포함함으로써) 베이트에 부착될 수 있다. 일 실시형태에서, 바이오틴 분자는 베이트의 5'-말단에 부착된다.

본 발명에 기재된 베이트 서열은 엑손 및 짧은 표적 서열의 선택을 위해 사용될 수 있다. 일 실시형태에서, 베이트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 베이트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드이다. 또 다른 실시형태에서, 베이트는 길이로 약 150개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 예를 들어 엑손 및 짧은 표적 서열의 선택을 위한 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드이다.

일부 실시형태에서, 긴 올리고뉴클레오타이드는 표적 서열을 포획하는데 필요한 올리고뉴클레오타이드의 수를 최소화할 수 있다. 예를 들어, 하나의 올리고뉴클레오타이드는 엑손마다 사용될 수 있다. 인간 게놈 내 단백질-암호 엑손의 평균 및 중앙값 길이는 각각 약 164 내지 120개의 염기쌍이라는 것은 당업계에 공지되어 있다. 더 긴 베이트는 더욱 특이적이며, 더 짧은 것보다 더 양호하게 포획할 수 있다. 그 결과, 올리고뉴클레오타이드 베이트 서열 당 성공률은 짧은 올리고뉴클레오타이드보다 더 높다. 일 실시형태에서, 최소의 베이트로 덮인 서열은, 예를 들어 엑손-크기 표적에 대한 하나의 베이트의 크기(예를 들어, 120 내지 170개의 염기)이다. 베이트 서열의 길이를 결정하는 것에서, 불필요하게 긴 베이트가 표적에 직접적으로 인접한 더 많은 원치않는 DNA를 포획하는 것을 또한 고려할 수 있다. 더 긴 올리고뉴클레오타이드 베이트는 더 짧은 것보다 DNA 샘플 내 표적화된 영역에서 다형성에 대해 더 관대할 수 있다. 전형적으로, 베이트 서열은 기준 게놈 서열로부터 유래된다. 실제 DNA 샘플 내 표적 서열이 기준 서열로부터 벗어난다면, 예를 들어 단일-뉴클레오타이드 다형성(SNP)을 함유한다면, 이는 베이트에 대해 덜 효율적으로 혼성화될 수 있고, 따라서 베이트 서열에 혼성화된 서열에서 실제보다 적게 표시되거나 또는 완전히 없을 수 있다. SNP에 기인하는 대립유전자 드롭-아웃(drop-out)은, 예를 들어 120 내지 170개의 염기에서 단일의 잘못된 쌍이, 멀티플렉스 증폭 및 마이크로어레이 포획에서 각각 전형적인 베이트 또는 프라이머 길이인 20 또는 70개의 염기에서 단일의 잘못된 쌍보다 혼성체 안정성에서 더 적은 효과를 가질 수 있다는 이유로 더 긴 합성 베이트 분자를 지닐 가능성이 더 적을 수 있다.

게놈 영역과 같은 포획 베이트의 길이에 비해서 긴 표적의 선택을 위해, 인접한 서열의 표적화를 최소화하는 유일한 목적을 위해 베이트 서열의 최대 크기를 제한할 필요가 없다는 것을 제외하고, 베이트 서열 길이는 전형적으로 상기 언급한 짧은 표적에 대한 베이트와 동일한 크기 범위에 있다. 대안적으로, 올리고뉴클레오타이드는 훨씬 더 넓은 창(전형적으로 600개의 염기)을 가로질러 타일링될 수 있다. 이 방법은 전형적인 엑손보다 훨씬 더 큰(예를 들어, 약 500개의 염기) DNA단편을 포획하기 위해 사용될 수 있다. 그 결과, 훨씬 더 원치않는 측접하는 비-표적 서열이 선택된다.

혼성화 조건

본 발명에서 특징으로 하는 방법은 라이브러리(예를 들어, 핵산 라이브러리)를 다수의 베이트와 접촉시켜 선택된 라이브러리 캐치를 제공하는 단계를 포함한다. 접촉 단계는 용액 혼성화에서 달성될 수 있다. 특정 실시형태에서, 해당 방법은 용액 혼성화의 하나 이상의 추가적인 라운드에 의해 혼성화 단계를 반복하는 단계를 포함한다. 일부 실시형태에서, 해당 방법은 라이브러리 캐치에 베이트의 동일 또는 상이한 수집물에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 추가로 포함한다.

다른 실시형태에서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 증폭시키는 단계(예를 들어, PCR에 의해)를 추가로 포함한다. 다른 실시형태에서, 라이브러리 캐치는 증폭되지 않는다.

또 다른 실시형태에서, 해당 방법은 라이브러리 캐치에 지노타이핑(genotyping)을 실시함으로써, 선택된 핵산의 유전형을 확인하는 단계를 추가로 포함한다.

더 구체적으로는, 수천 베이트 서열의 혼합물은 핵산의 그룹에서 상보적 핵산으로 효과적으로 혼성화될 수 있고, 이러한 혼성화된 핵산(핵산의 서브그룹)은 효과적으로 분리되며 회수될 수 있다. 일 실시형태에서, 본 발명에 기재된 방법은 약 1,000 초과의 베이트 서열, 약 2,000 초과의 베이트 서열, 약 3,000 초과의 베이트 서열, 약 4,000 초과의 베이트 서열, 약 5,000 초과의 베이트 서열, 약 6,000 초과의 베이트 서열, 약 7,000 초과의 베이트 서열, 약 8,000 초과의 베이트 서열, 약 9,000 초과의 베이트 서열, 약 10,000 초과의 베이트 서열, 약 15,000 초과의 베이트 서열, 약 20,000 초과의 베이트 서열, 약 30,000 초과의 베이트 서열, 약 40,000 초과의 베이트 서열 또는 약 50,000 초과의 베이트 서열을 함유하는 베이트 서열의 세트를 사용한다.

일부 실시형태에서, 선택 과정은, 예를 들어 선택된 핵산의 풍부함을 증가시키기 위해 핵산의 선택된 서브그룹 상에서 반복된다. 예를 들어, 1 라운드의 혼성화 후, 핵산의 수천 배 풍부화가 관찰될 수 있다. 제2 라운드 후, 풍부화는, 예를 들어 약 15,000-배 평균 풍부화로 상승될 수 있는데, 이는 단일 시퀀서 실행에서 표적의 100-배 커버리지를 제공할 수 있다. 따라서, 혼성체 선택의 단일 라운드에서 달성 가능하지 않은 풍부화 인자가 필요한 실험에 대해, 해당 방법은 전형적으로 핵산의 단리된 서브그룹에(즉, 표적 서열의 일부 또는 모두) 베이스 서열의 세트에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 포함한다.

2가지 상이한 베이트 서열(베이트 1, 베이트 2)을 갖는 순차적인 혼성체 선택은 "교차지점(intersection)", 즉, 예를 들어, 이하에 제한되는 것은 아니지만, 교차지점을 풍부화하는 단계를 포함하는 적용을 위해 사용되는 베이트 1에 및 베이트 2에 결합된 DNA 서열의 서브그룹을 분리시키고 시퀀싱하기 위해 사용될 수 있다. 예를 들어, 염색체 1 상의 서열에 특이적인 베이트에 의한 종양 샘플로부터 DNA의 선택 다음에 염색체 2에 특이적인 베이트에 혼성화되는 서열의 제1 선택의 생성물로부터의 선택은 두 염색체 모두로부터의 서열을 함유하는 염색체 전위 접합에서 서열을 풍부하게 할 수 있다.

핵산의 선택된 서브그룹의 몰농도는 제어될 수 있으므로, 임의의 특정 핵산의 몰농도는 핵산의 서브그룹에서 모든 선택된 핵산의 평균 몰농도의 작은 변형 내에 있다. 표적 표현의 균일함을 제어하고, 최적화하기 위한 방법은, 이하에 제한되는 것은 아니지만, 물리화학적일 뿐만 아니라 당업계에 잘 공지된 프로브 설계의 경험적 법칙을 기반으로 한 베이트 서열의 합리적 설계 및 기대에 미치지 못한 것으로 알려지거나 또는 의심되는 서열이 본래의 약점을 보상하는 것으로 지나치게 부각된 경우 베이트의 풀을 포함한다. 일부 실시형태에서, 핵산의 분리된 서브그룹의 적어도 약 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%는 평균 몰농도의 약 20-배, 15-배, 10-배, 5-배, 3-배 또는 2-배 이내이다. 일 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 50%는 평균 몰농도의 약 3-배 이내이다. 다른 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 90%는 평균 몰농도의 약 10-배 이내이다.

선택 효율의 변화는 베이트의 농도를 변경시킴으로써 추가로 조절될 수 있다. 일 실시형태에서, 선택 효율은 베이트의 등몰 혼합을 사용할 때 관찰된 차별적인 서열 포획 효율에 대해 베이트의 상대적 존재비 또는 결합 독립체의 밀도(예를 들어, 햅텐 또는 친화도 태그 밀도)를 조절한 다음, 내부-평준화된(leveled) 그룹 2에 비해 전반적인 베이트 혼합에 대해 내부로-평준화된 그룹 1 만큼 차별적인 과량을 도입함으로써 그룹(예를 들어, 제1, 제2 또는 제3 다수의 베이트) 내에서 개개 베이트의 효율을 평준화함으로써 조절된다.

특정 실시형태에서, 본 발명에 기재된 방법은 표적 서열의 균등한 커버리지를 달성할 수 있다. 일 실시형태에서, 예상된 커버리지의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 단백질-암호 엑손과 같은 짧은 표적에 대해 적어도 약 60%, 70%, 80% 또는 90%이다. 다른 실시형태에서, 예상된 커버리지의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 게놈 영역과 같은 포획 베이트의 길이와 비교하여 긴 표적에 대해 적어도 약 80%, 90% 또는 95%이다.

혼성화 전, 베이트는 당업계에 잘 공지된 방법에 따라 변성될 수 있다. 일반적으로, 혼성화 단계는 표지된 베이트 조성물에 대해 과량의 차단 DNA를 첨가하는 단계, 혼성화 조건 하에 차단 베이트 조성물을 검출된 표적 서열과 접촉시키는 단계, 및 표적에 대한 베이트 조성물의 결합을 검출하는 단계를 포함한다.

베이트는 혼성화 조건 하에서 표적 서열에 대해 혼성화되거나 또는 어닐링된다. "혼성화 조건"은 베이트와 표적핵산 사이의 어닐링을 가능하게 하는 조건이다. 상이한 베이트의 어닐링이 프로브 길이, 염기 농도 등에 의존하여 다를 것이기 때문에, 어닐링은 베이트 농도, 혼성화 온도, 염 농도 및 당업계에 잘 공지된 다른 인자를 다르게 함으로써 가능하게 된다.

혼성화 조건은 농도, 염기 조성, 베이트의 복합체 및 길이뿐만 아니라 염 농도, 온도 및 인큐베이션 길이를 다르게 함으로써 가능하게 된다. 예를 들어, 혼성화는 5x SSPE, 5x 덴하르트(Denhardt's), 5mM EDTA 및 0.1% SDS 및 차단 DNA를 함유하는 혼성화 완충제 중에서 수행되어 비-특이적 혼성화를 억제할 수 있다. 베이트가 RNA라면, RNase 억제제가 사용될 수 있다. 일반적으로, 상기 기재한 바와 같은 혼성화 조건은 약 25℃ 내지 약 65℃, 전형적으로 약 65℃의 온도 및 약 0.5 시간 내지 약 96 시간, 전형적으로 약 66 시간의 인큐베이션 길이를 포함한다. 추가적인 대표적인 혼성화 조건은 본 명세서의 실시예 12A 내지 12C 및 표 14에 있다.

본 명세서에 기재된 방법은 표준 액체 조작 방법 및 장치에 적용가능하다. 일부 실시형태에서, 해당 방법은 멀티웰 플레이트를 조작하는 장치와 같은 당업계에 공지된 것과 같은 자동화된 액체 조작 기법을 사용하여 수행된다(예를 들어, 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189] 참조). 이는, 이하에 제한되는 것은 아니지만, 자동화된 라이브러리 구성 및 셋업 및 용액 혼성화 후 세척을 포함하는 용액 혼성화 단계를 포함할 수 있다. 예를 들어, 장치는 비드-포획을 위한 이러한 자동화된 방법 및 용액 혼성화 반응 후 세척 단계를 수행하기 위해 사용될 수 있다. 대표적인 장치는, 이하에 제한되는 것은 아니지만, 다음의 위치를 포함할 수 있다: 스트렙타비딘-코팅된 자기비드를 함유하는 멀티-웰 플레이트에 대한 위치, 용액 혼성체-선택 반응을 함유하는 멀티웰 플레이트에 대한 위치, 사용자-규정 온도에서 세척 단계를 수행하고, 시약을 사전가열하기 위한 I/O 제어된 열 차단, 피펫 끝의 받침대를 위한 위치, 자석-고정된 비드로부터 상청액의 분리를 가능하게 하는 특정 배치로 놓인 자석에 의한 위치, 피펫 팁을 세척하고, 폐기물을 없애는 세척 단계 및 다른 용액 및 시약, 예컨대 낮은 및 높은 엄격 세척 완충제 또는 최종 캐치의 알칼리 용리를 위한 용액에 대한 위치. 일 실시형태에서, 장치는 동시에 캐치 중화 단계를 통한 비드-포획 단계로부터 96 혼성체 선택까지의 과정으로 설계된다. 다른 실시형태에서, 하나 이상의 위치는 이중 기능을 가진다. 또 다른 실시형태에서, 사용자는 하나의 플레이트를 다른 것으로 교환하는 프로토콜에 의해 촉진된다.

직접적으로 선택된 핵산은 연쇄되며, 전단될 수 있는데, 이는 짧은 시퀀싱 리드의 제한을 극복하기 위해 행해진다. 일 실시형태에서, 각각의 엑손-크기 시퀀싱 표적은 표적으로서 동일한 거의 동일한 크기이며, 표적의 종말점 근처의 종말점을 갖는 단일 베이트 분자로 포획된다. 대략 100 이상의 인접한 염기쌍을 갖는 이중가닥 분자를 형성하는 유일한 혼성체는 엄격 혼성화 세척 후 살아남는다. 그 결과, 핵산의 선택된 서브그룹(즉, "캐치")은 말단이 베이트 분자의 말단 근처에 있는 무작위로 전단된 게놈 DNA 단편에 대해 풍부화된다. 매우 짧은 시퀀싱 리드에 의한 "캐치"의 말단만의 시퀀싱은 표적의 말단 근처에서(또는 외부에서조차) 더 높은 커버리지를 제공하며, 중간 근처에서 더 낮은 커버리지를 제공한다.

결찰 다음에 무작위 전단화 및 샷건(shotgun) 시퀀싱에 의해 "캐치" 분자를 연쇄시키는 것은 표적 서열의 전체 길이에 따라 서열 커버리지를 얻는 한 방법이다. 이 방법은 매우 짧은 리드를 갖는 말단 시퀀싱보다 표적 상에서 (근처 표적과 대조적임) 더 높은 백분율의 시퀀싱된 염기를 생성한다. 공동-결찰에 의해 분자를 연쇄시키는 방법은 당업계에 잘 공지되어 있다. 연쇄화는 단순한 평활 말단 결찰에 의해 수행될 수 있다. 효율적인 결찰을 위한 "접착성" 말단은 그것의 5' 말단 근처에서 제한 부위를 갖는 PCR 프라이머를 지니는 "캐치"의 PCR 증폭 다음에 대응되는 제한 효소(예를 들어, NotI)에 의한 분해 또는 T4 DNA 폴리머라제에 의한 부분적 "츄-백(chewback)과 같은 PCR 생성물의 결찰-독립적 클로닝을 위해 보통 사용되는 것과 유사한 전략(Aslanidis and deJong, Nucleic Acids Res. 18:6069-6074, 1990) 또는 UDG 글라이코실라제 및 리아제 엔도 VIII에 의한 유라실-함유 PCR 생성물의 처리(예를 들어, 뉴 잉글랜드 바이오랩스 카탈로그 E5500S)를 포함하는 다양한 방법에 의해생성될 수 있다.

다른 실시형태에서, 베이트 분자의 엇갈린(staggered) 세트는 영역을 표적화하기 위해 사용되며, 표적 영역을 통해 빈번하게 베이트 말단을 얻는다. 일부 실시형태에서, 단지 말단-시퀀싱된 "캐치"(즉, 연쇄화 및 전단없이)는 실제 시퀀싱 표적(예를 들어, 엑손)을 포함하는 베이트에 의해 덮이는 전체 영역에 따라 상당히 균일한 서열 커버리지를 제공한다. 베이트 분자를 엇갈리게 하는 것은 베이트에 의해 덮이는 세그먼트를 넓히기 때문에, 시퀀싱된 염기는 더 넓은 영역에 걸쳐 분포된다. 그 결과, 표적 상의 서열 대 근처 표적의 비는 표적 당 단일 베이트 만을 종종 필요로 하는 비-중복 베이트에 의한 선택에 대해서보다 더 낮다.

다른 실시형태에서, 약간 더 긴 리드(예를 들어, 76개의 염기)을 갖는 말단 시퀀싱은 짧은 선택 표적(예를 들어, 엑손)을 시퀀싱하기 위한 전형적인 방법이다. 매우 짧은 리드에 의한 말단 시퀀싱과 달리, 이 방법은 중간의 커버리지로 낮춰지지 않고 단봉형의 커버리지 프로파일을 유도한다. 이 방법은 상기 기재한 연쇄 및 전단 방법 보다 수행이 더 용이하며, 표적에 따라 상대적으로 균일한 커버리지를 야기하고, 베이트 및 표적 상에 적절하게 떨어지는 높은 백분율의 시퀀싱된 염기를 만들어낸다.

일 실시형태에서, 핵산의 선택된 서브그룹은 시퀀싱 또는 지노타이핑으로 분석하기 전에 증폭된다(예를 들어, PCR에 의해). 다른 실시형태에서, 서브그룹은 증폭 단계 없이, 예를 들어 선택된 서브그룹이 단일 분자를 리드할 수 있는 민감한 분석 방법에 의해 분석될 때 분석된다.

b. 서열분석(sequencing by synthesis)

본 발명은 또한 핵산의 시퀀싱 방법을 포함한다. 이들 방법에서, 핵산 라이브러리 구성원은 본 명세서에 기재된 방법을 사용하여, 예를 들어 용액 혼성화를 사용하여 분리되고, 이에 의해 라이브러리 캐치를 제공한다. 라이브러리 캐치 또는 이것의 서브그룹은 시퀀싱될 수 있다. 따라서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 분석하는 단계를 추가로 포함한다. 일 실시형태에서, 라이브러리 캐치는 시퀀싱 방법, 예를 들어 본 명세서에 기재된 바와 같은 차세대 시퀀싱 방법에 의해 분석된다. 해당 방법은 용액 혼성화에 의해 라이브러리 캐치를 분리시키는 단계 및 라이브러리 캐치에 핵산 시퀀싱을 실시하는 단계를 포함한다. 특정 실시형태에서, 라이브러리 캐치는 재시퀀싱될 수 있다.

당업계에 공지된 임의의 시퀀싱 방법이 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.

일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열 을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.

차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.

NGS 테크놀로지스는, 예를 들어 주형 제조, 시퀀싱 및 이미징 및 데이터 분석 단계 중 하나 이상을 포함할 수 있다.

주형 제조. 주형 제조를 위한 방법은 핵산(예를 들어, 게놈 DNA 또는 cDNA)을 작은 크기로 무작위로 파괴하는 단계 및 시퀀싱 주형(예를 들어, 단편 주형 또는 메이트-쌍 주형)을 만드는 단계와 같은 단계들을 포함할 수 있다. 공간적으로 분리된 주형은 고체 표면 또는 지지체에 부착되거나 또는 고정될 수 있는데, 이는 대량의 시퀀싱 반응이 동시에 수행되도록 한다. NGS 반응을 위해 사용될 수 있는 주형의 유형은, 예를 들어 단일 DNA 분자로부터 유래된 클론이 증폭된 주형 및 단일 DNA 분자 주형을 포함한다.

클론이 증폭된 주형의 제조방법은, 예를 들어 에멀젼 PCR(emulsion PCR: emPCR) 및 고체상 증폭을 포함한다.

EmPCR은 NGS를 위한 주형을 제조하기 위해 사용될 수 있다. 전형적으로, 핵산 단편의 라이브러리가 만들어지며, 보편적 프라이밍 부위를 함유하는 어댑터는 단편의 말단에 결찰된다. 그 다음에 단편은 단일 가닥으로 변성되고, 비드에 의해 포획된다. 각 비드는 단일 핵산 분자를 포획한다. 증폭 및 emPCR 비드의 풍부화 후, 다량의 주형이 부착될 수 있고, 표준 현미경 슬라이드(예를 들어, 폴로네이터(Polonator)) 상에서 폴리아크릴아마이드 겔에 고정되며, 아미노-코팅된 유리 표면(예를 들어, Life/APG; 폴로네이터(Polonator))에 화학적으로 가교되거나, 또는 개개의 피코타이터플레이트(PicoTiterPlate: PTP) 웰(예를 들어, 로슈(Roche)/454) 상에 증착되는데, 이때 NGS 반응이 수행될 수 있다.

고체상 증폭이 또한 사용되어 NGS를 위한 주형을 생성할 수 있다. 전형적으로, 전방 및 후방 프라이머는 고체지지체에 공유적으로 부착된다. 증폭된 단편의 표면 밀도는 지지체 상에서 프라이머 대 주형의 비로써 정의된다. 고체상 증폭은 수백만개의 공간적으로 분리된 주형 클러스터(예를 들어, 일루미나/솔렉사(Illumina/Solexa))를 생성할 수 있다. 주형 클러스터의 말단은 NGS 반응을 위한 보편적 프라이머에 혼성화될 수 있다.

클론으로 증폭된 주형의 제조를 위한 다른 방법은, 예를 들어 다중 치환 증폭(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol. 2007; 10(5):510-6)을 포함한다. MDA는 비-PCR 기반 DNA 증폭 기법이다. 반응은 주형에 대해 무작위 헥사머 프라이머를 어닐링하는 단계 및 일정한 온도에서 고충실도 효소, 전형적으로 Ф29에 의해 DNA를 합성하는 단계를 수반한다. MDA는 더 낮은 오류 빈도로 거대한 크기의 생성물을 만들 수 있다.

PCR과 같은 주형 증폭 방법은 표적에 NGS 플랫폼을 결합시킬 수 있거나 또는 게놈의 특이적 영역을 풍부화할 수 있다(예를 들어, 엑손). 대표적인 주형 풍부화 방법은, 예를 들어 마이크로점적 PCR 기법(Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), 맞춤-설계된 올리고뉴클레오타이드 마이크로어레이(예를 들어, 로슈(Roche)/님블젠(NimbleGen) 올리고뉴클레오타이드 마이크로어레이) 및 용액-기반 혼성화 방법(예를 들어, 분자역위 프로브(molecular inversion probe: MIP))(Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci. USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316) 및 바이오틴화된 RNA 포획 서열(Gnirke A. et al., Nat. Biotechnol. 2009;27(2):182-9)을 포함한다.

단일-분자 주형은 NGS 반응을 위해 사용될 수 있는 주형의 다른 유형이다. 공간적으로 분리된 단일 분자 주형은 다양한 방법에 의해 고체 지지체 상에 고정될 수 있다. 한 접근에서, 개개의 프라이머 분자는 고체 지지체에 공유적으로 부착된다. 어댑터는 주형에 첨가되고, 주형은 그 다음에 고정된 프라이머에 혼성화된다. 다른 접근에서, 단일-분자 주형은 고정된 프라이머로부터 단일-가닥의 단일-분자 주형을 프라이밍하고 연장시킴으로써 고체 지지체에 공유적으로 부착된다. 그 다음에 보편적 프라이머는 주형에 혼성화된다. 또 다른 접근에서, 단일 폴리머라제 분자는 프라이밍된 주형이 결합된 고체 지지체에 부착된다.

시퀀싱 및 이미징. NGS를 위한 대표적인 시퀀싱 및 이미징 방법은, 이하에 제한되는 것은 아니지만, 사이클릭 가역적 종결(cyclic reversible termination: CRT), 결찰에 의한 시퀀싱(sequencing by ligation: SBL), 단일-분자 첨가(파이로시퀀싱(pyrosequencing)) 및 실시간 시퀀싱을 포함한다.

CRT는 뉴클레오타이드 포함, 형광 이미징 및 절단 단계를 최소로 포함하는 사이클릭 방법에서 가역 종결자를 사용한다. 전형적으로, DNA 폴리머라제는 프라이머에 주형 염기의 상보적 뉴클레오타이드에 대해 상보적인 단일의 형광으로 변형된 뉴클레오타이드를 포함시킨다. DNA 합성은 단일 뉴클레오타이드의 첨가 후 종결되고, 미포함된 뉴클레오타이드는 세척된다. 포함된 표지 뉴클레오타이드의 동일성을 결정하기 위해 이미징이 수행된다. 그 다음에, 절단 단계에서, 종결/억제기 및 형광 염료는 제거된다. CRT 방법을 사용하는 대표적인 NGS 플랫폼은, 이하에 제한되는 것은 아니지만, 전체 내부 반사 형광(total internal reflection fluorescence: TIRF)에 의해

검출된 4-색 CRT 방법과 결합된 클론으로 증폭된 주형 방법을 사용하는 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(GA); 및 TIRF에 의해 검출된 1-색 CRT 방법과 결합된 단일-분자 주형 방법을 사용하는 헬리코스 바이오사이언스(Helicos BioSciences)/헬리스코프(HeliScope)를 포함한다.

SBL은 시퀀싱을 위해 DNA 리가제 및 1-염기-암호화된 프로브 또는 2-염기-암호화된 프로브 중 하나를 사용한다.

전형적으로, 형광 표지된 프로브는 프라이밍된 주형에 인접한 상보적 서열에 혼성화된다. DNA 리가제는 프라이머에 염료-표지된 프로브를 결찰시키기 위해 사용된다. 비-결찰 프로브가 세척된 후 결찰된 프로브의 동일성을 결정하기 위하여 형광 이미징이 수행된다. 형광 염료는 후속의 결찰 주기를 위해 5'-PO4 기를 재생하는 절단가능한 프로브를 사용하여 제거될 수 있다. 대안적으로, 새로운 프라이머는 오래된 프라이머가 제거된 후 주형에 혼성화될 수 있다. 대표적인 SBL 플랫폼은, 이하에 제한되는 것은 아니지만, 라이프(Life)/APG/SOLiD(지지체 올리고뉴클레오타이드 결찰 검출)를 포함하는데, 이는 2-염기-암호화된 프로브를 사용한다.

파이로시퀀싱 방법은 다른 화학발광 효소로 DNA 폴리머라제의 활성을 검출하는 단계를 기반으로 한다. 전형적으로, 해당 방법은 한 번에 하나의 염기쌍을 따라 상보적 가닥을 합성하고, 각 단계에서 실제로 첨가된 염기를 검출함으로써 DNA의 단일 가닥을 시퀀싱시킨다. 주형 DNA는 고정적이며, A, C, G 및 T 뉴클레오타이드의 용액은 순차적으로 첨가되고, 반응으로부터 제거된다. 빛은 단지 뉴클레오타이드 용액이 주형의 짝지어지지 않은 염기를 보충할 때에만 생성된다. 화학발광 신호를 생성하는 용액의 서열은 주형의 서열을 결정하게 한다. 대표적인 파이로시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, PTP 웰에 증착된 백만 내지 2백만개의 비드에 의한 emPCR에 의해 제조된 DNA 주형을 사용하는 로슈(Roche)/454를 포함한다.

실시간 시퀀싱은 DNA 합성 동안 염료-표지된 뉴클레오타이드의 연속적 포함을 이미징하는 단계를 수반한다. 대표적인 실시간 시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, 포스페이트 연결된 뉴클레오타이드가 성장되는 프라이머 가닥에 포함될 때 서열 정보를 얻기 위한 개개의 0-모드 웨이브가이드(zero-mode waveguide, ZMW)

검출기의 표면에 부착된 DNA 폴리머라제 분자를 사용하는 퍼시픽 바이오사이언스 플랫폼(Pacific Biosciences); 형광 공명 에너지 전달(fluorescence resonance energy transfer, FRET)에 의한 뉴클레오타이드 포함 후 향상된 신호를 만들기 위해 부착된 형광 염료와 함께 유전자 조작된 DNA 폴리머라제를 사용하는 라이프(Life)/비시겐(VisiGen) 플랫폼; 및 시퀀싱 반응에서 염료-퀀처 뉴클레오타이드를 사용하는 LI-COR 바이오사이언스(Biosciences) 플랫폼을 포함한다.

NGS의 다른 시퀀싱 방법은, 이하에 제한되는 것은 아니지만, 나노포어 시퀀싱, 혼성화에 의한 시퀀싱, 나노-트랜지스터 어레이 기반 시퀀싱, 폴로니(polony) 시퀀싱, 주사형전자 터널링 현미경(scanning tunneling microscopy, STM) 기반 시퀀싱 및 나노와이어-분자 센서 기반 시퀀싱을 포함한다.

나노포어 시퀀싱은 단일-핵산 폴리머에서 분석될 수 있는 고도로 밀폐된 공간을 제공하는 나노-규모 포어를 통해서 용액 중의 핵산 분자의 전기영동을 수반한다. 나노포어 시퀀싱의 대표적인 방법은, 예를 들어 문헌[Branton D. et al., Nat Biotechnol. 2008; 26(10):1146-53]에 기재된다.

혼성화에 의한 시퀀싱은 DNA 마이크로어레이를 사용하는 비-효소적 방법이다. 전형적으로, DNA의 단일 풀은 형광으로 표지되며, 공지된 서열을 함유하는 어레이에 혼성화된다. 어레이 상의 주어진 스팟으로부터 혼성화 신호는 DNA 서열을 확인할 수 있다. DNA 이중-가닥에서 DNA 중 한 가닥의 그것의 상보적 가닥에 결합은 혼성체 영역이 짧거나 또는 구체된 미스매치 검출 단백질이 존재할 때, 단일-염기 미스매치에 대해서 조차도 민감하다. 혼성화에 의한 시퀀싱의 대표적인 방법은, 예를 들어 문헌(Hanna G.J. et al., J. Clin. Microbiol. 2000; 38(7): 2715-21; 및 Edwards J.R. et al., Mut. Res. 2005; 573(1-2): 3-12)에 기재된다.

폴로니 시퀀싱은 폴로니 증폭 및 다중 단일-염기-연장(FISSEQ)을 통해 시퀀싱에 따르는 것을 기반으로 한다. 폴로니 증폭은 폴리아크릴아마이드 필름 상에서 인시츄로 DNA를 증폭시키는 방법이다. 대표적인 폴로니 시퀀싱 방법은, 예를 들어 미국특허 출원 공개 제2007/0087362호에 기재된다.

탄소나노튜브 전계 효과 트랜지스터(Carbon NanoTube Field Effect Transistor: CNTFET)와 같은 나노-트랜지스터 어레이 기반 장치가 또한 NGS를 위해 사용될 수 있다. 예를 들어, DNA 분자는 신장되고, 마이크로-제작된 전극에 의해 나노튜브에 걸쳐 구동된다. DNA 분자는 탄소 나노튜브 표면과 순차적으로 접촉하게 되고, DNA 분자와 나노튜브 사이의 전하 전달에 기인하여 각 염기로부터의 전류 흐름의 차이가 만들어진다. DNA는 이들 차이를 기록함으로써 시퀀싱된다. 대표적인 나노-트랜지스터 어레이 기반 시퀀싱 방법은, 예를 들어 미국특허 공개 제2006/0246497호에 기재된다.

주사형전자 터널링 현미경(STM)은 또한 NGS를 위해 사용될 수 있다. STM은 표본의 래스터 주사(raster scan)를 수행하는 피에조-전자-제어 프로브를 사용하여 그것 표면의 이미지를 형성한다. STM은, 예를 들어 작동기-구동 가요성 갭과 주사형전자 터널링 현미경을 통합시킴으로써 일관된 전자 터널링 이미징 및 분광학을 만드는 단일 DNA 분자의 물리적 특성을 이미징하기 위해 사용될 수 있다. STM을 사용하는 대표적인 시퀀싱 방법은, 예를 들어 미국특허출원 공개 제2007/0194225호에 기재된다.

나노와이어-분자 센서로 구성된 분자-분석 장치가 또한 NGS를 위해 사용될 수 있다. 이러한 장치는 DNA와 같은 나노와이어 및 핵산 분자에 배치된 질소성 물질의 상호작용을 검출할 수 있다. 분자 가이드는 상호작용 및 후속하는 검출을 허용하기 위해 분자 센서 근처의 분자를 가이딩하기 위해 배치된다. 나노와이어-분자 센서를 사용하는 대표적인 시퀀싱 방법은 예를 들어 미국특허 출원 공개 제2006/0275779호에 기재된다.

이중 말단의 시퀀싱 방법이 NGS를 위해 사용될 수 있다. 이중 말단 시퀀싱은 DNA의 센스와 안티센스 가닥 둘 다를 시퀀싱하기 위해 차단 및 미차단 프라이머를 사용한다. 전형적으로, 이들 방법은 핵산의 제1 가닥에 미차단 프라이머를 어닐링시키는 단계; 핵산의 제2 가닥에 제2의 차단 프라이머를 어닐링 시키는 단계; 폴리머라제로 제1 가닥을 따라 핵산을 연장시키는 단계; 제1 시퀀싱 프라이머를 종결시키는 단계; 제2 프라이머를 차단해제(deblocking)하는 단계; 및 제2 가닥을 따라 핵산을 연장시키는 단계를 포함한다. 대표적인 이중 가닥 시퀀싱 방법은, 예를 들어 미국특허 제7,244,567호에 기재된다.

데이터 분석. NGS 리드가 만들어진 후, 그것들은 공지된 기준 서열에 대해 정렬되거나 데노보 조립된다.

예를 들어, 샘플(예를 들어, 종양 샘플)에서 단일-뉴클레오타이드 다형성 및 구조적 변이체와 같은 유전적 변형을 확인하는 것은 기준 서열(예를 들어, 야생형 서열)에 대해 NGS 리드를 정렬함으로써 수행될 수 있다. NGS에 대한 서열 정렬방법은, 예를 들어 문헌[Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457]에기재된다.

드노보 조립체의 예는, 예를 들어 문헌(Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; 및 Zerbino D.R. 및 Birney E., Genome Res., 2008, 18:821-829)에 기재된다.

서열 정렬 또는 어셈블리는 하나 이상의 NGS 플랫폼으로부터의 리드 데이터를 사용하여, 예를 들어 로슈(Roche)/454 및 일루미나(Illumina)/솔렉사(Solexa) 리드 데이터를 혼합하여 수행될 수 있다.

d. 서열 정렬(alignment)

일반

정렬은 위치, 예를 들어 게놈 위치와 리드를 매칭시키는 과정이다. 정렬불량(예를 들어, 게놈 내 정확하지 않은 위치 상에서 짧은 리드로부터 염기쌍의 위치), 예를 들어, 실제 암 돌연변이 주위 리드의 서열 콘텍스트(예를 들어, 반복 서열의 존재)에 기인하는 정렬불량은 돌연변이 검출의 민감의 감소를 야기할 수 있는데, 대안의 대립유전자의 리드가 대안의 대립유전자 리드의 주요 파일업(pile-up)을 피할 수 있기 때문이다. 실제 돌연변이가 존재하지 않는 경우 문제의 서열 콘텍스트가 생긴다면, 미스-정렬은 잘못된 위치 상에 기준 게놈 염기의 실제 리드를 위치시킴으로써 "돌연변이된" 대립유전자의 인공 리드를 도입할 수 있다. 다중의 다유전자 분석을 위한 돌연변이-호출 알고리즘이 심지어 낮은-존재비 돌연변이에 대해 민감하여야 하기 때문에, 이들 정렬불량은 위양성 발견율을 증가시키고/특이성을 감소시킬 수 있다.

본 명세서에서 논의되는 바와 같이, 실제 돌연변이에 대해 감소된 민감성은 분석되는 유전자에서 예상되는 돌연변이 부위 주변의 정렬(수동으로 또는 자동화된 방식으로)의 품질을 평가함으로써 처리될 수 있다. 평가될 수 있는 부위는 암 돌연변이(예를 들어, COSMIC)의 데이터베이스로부터 얻어질 수 있다. 문제가 있는 것으로 확인된 영역은 더 느리지만, 더 정확한 정렬 알고리즘, 예컨대 스미스-워터만(Smith-Waterman) 정렬을 사용하여, 예를 들어 정렬 최적화(또는 재정렬)에 의해 적절한 서열 콘텍스트에서 더 양호한 수행을 제공하기 위해 선택된 알고리즘의 사용에 의해 교정될 수 있다. 일반적 정렬 알고리즘이 문제를 교정할 수 없는 경우에, 맞춤 정렬 접근은, 예를 들어 치환을 함유할 가능성이 높은 유전자에 대해 최대 차이 미스매치 패널티 변수의 조절에 의해; 특정 종양 유형(예를 들어, 흑색종에서 C→T)에서 흔한 특이적 돌연변이 유형에 기반한 특이적 미스매치 페널티 변수를 조절함으로써; 또는 특정 샘플 유형에서 흔한(예를 들어, FFPE에서 흔한 치환) 특이적 돌연변이 유형에 기반한 특이적 미스매치 패널티 변수를 조절함으로써 만들어질 수 있다. 미스-정렬에 기인하여 평가된 유전자 영역 내의 감소된 특이성(증가된 위양성률)은 시퀀싱된 샘플 내 모든 돌연변이 호출의 수동의 또는 자동화된 시험에 의해 평가될 수 있다. 미스-정렬에 기인하여 비논리적 돌연변이 호출이 되기 쉬운 것으로 발견된 해당 영역은 상기와 같은 동일 정렬 교정이 실시될 수 있다. 가능한 알고리즘 교정이 발견되지 않은 경우, 문제 영역으로부터의 "돌연변이"는 시험 패널로부터 분류되거나 또는 스크리닝될 수 있다.

삽입/결실(삽입-결실)

일반적으로, 삽입-결실 돌연변이의 정확한 검출은 정렬에서 실행되는데, 본 명세서에서 망가진 시퀀싱 플랫폼 상의 비논리적 삽입-결실률이 상대적으로 낮기 때문이다(따라서, 정확하게 정렬된 삽입-결실의 몇 안 되는 관찰 조차도 돌연변이의 강한 증거가 될 수 있다). 그러나 삽입-결실의 존재에서 정확한 정렬은 어려울 수 있다(특히 삽입-결실 길이가 증가함에 따라). 정렬과 관련된 일반적 문제, 예를 들어 치환에 추가로, 삽입-결실 그 자체는 정렬에 의한 문제를 야기할 수 있다. (예를 들어, 다이뉴클레오타이드 반복체의 2bp의 결실은 용이하게 명확하게 위치될 수 없다.) 민감성과 특이성은 둘 다 더 짧은(<15bp) 명확한 삽입-결실-함유 리드의 부정확한 배치에 의해 감소될 수 있다. 더 큰 삽입-결실(개개의 리드 길이에 대한 규모에서 더 가깝게 됨)은 리드를 정렬시키는 것에서 어쨌든 실패를 야기할 수 있는데, 이는 정렬된 리드의 표준 세트에서 불가능한 삽입-결실의 검출을 제공한다.

암 돌연변이의 데이터베이스는 이들 문제를 처리하고, 성능을 개선시키기 위해 사용될 수 있다. 위양성 삽입-결실 발견을 감소시키기 위해(특이성을 개선시키기 위해), 보통 예상되는 삽입-결실 주위의 영역은 서열 콘텍스트에 기인하는 문제가 있는 정렬에 대해 시험될 수 있고, 상기 치환과 유사하게 처리될 수 있다. 삽입-결실 검출의 민감성을 개선시키기 위해, 암에서 예상되는 삽입-결실에 대한 정보를 사용하여 몇몇 상이한 접근이 사용된다. 예를 들어, 예상된 삽입-결실을 함유하는 짧은-리드는 자극되고, 정렬이 시도된다. 정렬은 연구될 수 있고, 문제가 있는 삽입-결실 영역은, 예를 들어 갭 개방/확장 페널티를 감소시키거나 또는 부분적 리드(예를 들어, 리드의 제1 또는 제2의 절반)을 정렬시킴으로써 조절된 정렬 변수를 가질 수 있다.

대안적으로, 초기 정렬은 정상 기준 게놈에 의할 뿐 아니라 공지되거나 또는 가능성이 있는 암 삽입-결실 돌연변이를 각각 함유하는 게놈의 또 다른 형태에 의해 시도될 수 있다. 이 접근에서, 초기에 정렬되지 않거나 또는 부정확하게 정렬된 삽입-결실의 리드는 게놈의 대안의(돌연변이된) 형태 상에 성공적으로 위치된다.

이 방법으로, 삽입결실 정렬(및 따라서 호출)은 예상된 암 유전자/부위에 대해 최적화될 수 있다.

조정

조정: 서열 정렬 알고리즘

본 명세서에서 사용된 바와 같은 서열 정렬 알고리즘은 게놈에서 리드 서열(예를 들어, 차세대 시퀀싱으로부터의, 예를 들어 짧은-리드 서열)이 대부분 리드 서열과 기준 서열 사이의 유사성을 평가함으로써 유래될 가능성이 있는 경우로부터 동일성에 대해 사용되는 컴퓨터적 방법 또는 접근을 포함한다. 서열 정렬 문제에 다양한 알고리즘이 적용될 수 있다. 일부 알고리즘은 상대적으로 느리지만, 상대적으로 높은 특이성을 허용한다. 이들은, 예를 들어 역동적 프로그래밍-기반 알고리즘을 포함한다. 역동적 프로그래밍은 그것들이 더 간단한 단계로 나누어짐으로써 복잡한 문제를 해결하는 방법이다. 다른 접근은 상대적으로 더 효율적이지만, 전형적으로 철저하지 않다. 이는, 예를 들어 대량 데이터베이스 검색을 위해 설계된 휴리스틱(heuristic) 알고리즘 및 확률적(probabilistic) 방법을 포함한다.

전형적으로, 정렬 과정에 두 단계가 있을 수 있다: 후보자 검사 및 서열 정렬. 후보자 검사는 가능한 정렬 위치의 더 짧은 열거에 대해 전체 게놈으로부터 서열 정렬을 위한 검색 공간을 감소시킨다. 용어가 시사하는 바와 같이 서열 정렬은 후보자 검사 단계에 제공된 서열을 갖는 서열을 정렬시키는 단계를 포함한다. 이는 광역 정렬(예를 들어, 니들만-분쉬(Needleman-Wunsch) 정렬) 또는 국소 정렬(예를 들어, 스미스-워터만 정렬)을 사용하여 수행될 수 있다.

대부분의 속성 정렬 알고리즘은 색인 방법에 기반한 3가지 유형 중 하나를 특징으로 할 수 있다: 해쉬 테이블(예를 들어, BLAST, ELAND, SOAP), 접미사트리(예를 들어, Bowtie, BWA) 및 병합 정렬(예를 들어, 슬라이더(Slider))에 기반한 알고리즘. 짧은 리드 서열은 정렬을 위해 전형적으로 사용된다. 짧은-리드 서열에 대한 서열 정렬 알고리즘/프로그램의 예는, 이하에 제한되는 것은 아니지만, BFAST (Homer N. et al., PLoS One. 2009;4(11):e7767), BLASTN(월드 와이드 웹상의 blast.ncbi.nlm.nih.gov에서), BLAT(Kent W.J. Genome Res. 2002;12(4):656-64), 보타이(Bowtie)(Langmead B. et al., Genome Biol. 2009;10(3):R25), BWA(Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60), BWA-SW(Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95), 클라우드버스트(CloudBurst)(Schatz M.C. Bioinformatics. 2009;25(11):1363-9), 코로나 라이트(Corona Lite)(Applied Biosystems, Carlsbad, California, USA), CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002), CUDA-EC (Shi H. et al., J Comput Biol. 2010;17(4):603-15), ELAND(월드 와이드 웹상의 bioit.dbi.udel.edu/howto/eland에서), GNUMAP(Clement N.L. et al., Bioinformatics. 2010;26(1):38-45), GMAP(Wu T.D. and Watanabe C.K. Bioinformatics. 2005;21(9):1859-75), GSNAP(Wu T.D. and Nacu S., Bioinformatics. 2010;26(7):873-81), 제니오스 어셈블러(Geneious Assembler)(뉴질랜드 오클랜드에 소재한 Biomatters Ltd.), LAST, MAQ(Li H. et al., Genome Res. 2008;18(11):1851-8), Mega-BLAST(월드 와이드 웹 상의 ncbi.nlm.nih.gov/blast/megablast.shtml에서), MOM(Eaves H.L. and Gao Y. Bioinformatics. 2009;25(7):969-70), MOSAIK(월드 와이드 웹 상의 bioinformatics.bc.edu/marthlab/Mosaik에서), 노보얼라인(Novoalign)(월드 와이드 웹 상의 novocraft.com/main/index.php에서), 팔맵퍼(PALMapper)(월드 와이드 웹 상의 fml.tuebingen.mpg.de/raetsch/suppl/palmapper에서), PASS(Campagna D. et al., Bioinformatics. 2009;25(7):967-8), PatMaN(Prufer K. et al., Bioinformatics. 2008; 24(13):1530-1), PerM(Chen Y. et al., Bioinformatics, 2009, 25 (19): 2514-2521), ProbeMatch(Kim Y.J. et al., Bioinformatics. 2009;25(11):1424-5), QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16): i174), RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654), RMAP (Smith A.D. et al., Bioinformatics. 2009;25(21):2841-2), SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.), Shrec(Salmela L., Bioinformatics. 2010;26(10):1284-90), SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386), SLIDER(Malhis N. et al., Bioinformatics, 2009, 25 (1): 6-13), 슬림 서치(SLIM Search)(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9), SOAP(Li R. et al., Bioinformatics. 2008;24(5):713-4), SOAP2(Li R. et al., Bioinformatics. 2009;25(15):1966-7), SOCS(Ondov B.D. et al., Bioinformatics, 2008; 24(23):2776-7), SSAHA(Ning Z. et al., Genome Res. 2001;11(10):1725-9), SSAHA2(Ning Z. et al., Genome Res. 2001;11(10):1725-9), 스탬피(Stampy)(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print), 타이판(Taipan)(월드 와이드 웹 상의 taipan.sourceforge.net에서), UGENE(월드 와이드 웹 상의 ugene.unipro.ru에서), XpressAlign(월드 와이드 웹 상의 bcgsc.ca/platform/bioinfo/software/XpressAlign에서), 및 ZOOM(캐나다 온타리오주 워터루에 소재한 바이오인포매틱스 솔루션 인코포레이티드(Bioinformatics Solutions Inc.))을 포함한다.

서열 정렬 알고리즘은, 예를 들어 시퀀싱 기법, 리드 길이, 리드 수, 입수가능한 컴퓨팅 자료 및 민감성/스코어링 필요조건을 포함하는 다수의 인자에 기반하여 선택될 수 있다. 상이한 서열 정렬 알고리즘은 상이한 속도 수준, 정렬 민감성 및 정렬 특이성을 달성할 수 있다. 정렬 특이성은 예측된 정렬과 비교하여 정확하게 정렬된 전형적으로 서브미션에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다. 정렬 민감성은 또한 서브미션에서 정확하게 정렬된 보통 예측된 정렬에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다.

정렬 알고리즘, 예컨대 ELAND 또는 SOAP는 속도가 고려되는 제1 인자일 때 기준 게놈에 대해 짧은 리드(예를 들어, 일루미나(Illumina)/솔렉사(Solexa) 시퀀서제)을 정렬하는 목적으로 사용될 수 있다. BLAST 또는 Mega-BLAST와 같은 정렬 알고리즘은 특이성이 가장 중요한 인자일 때, 이들 방법이 상대적으로 더 느리지만, 짧은 판독(예를 들어, 로슈(Roche) FLX제)을 사용하여 유사성 조사의 목적을 위해 사용될 수 있다. MAQ 또는 노보얼라인(Novoalign)와 같은 정렬 알고리즘은 품질 스코어를 고려하며, 따라서 정확성이 본질을 가질 때 단일- 또는 짝지어진-말단 데이터에 대해 사용될 수 있다(예를 들어, 고속-대량 SNP 검색에서). 보타이(Bowtie) 또는 BWA와 같은 정렬 알고리즘은 버로우즈-휠러 변환(Burrows-Wheeler Transform: BWT)을 사용하며, 따라서 상대적으로 작은 메모리 풋프린트(memory footprint)를 필요로 한다. BFAST, PerM, SHRiMP, SOCS 또는 ZOOM과 같은 정렬 알고리즘은 색공간 리드를 맵핑하며, 따라서 ABI의 SOLiD 플랫폼과 함께 사용될 수 있다. 일부 적용에서, 2 이상의 정렬 알고리즘으로부터의 결과가 조합될 수 있다.

조정: 정렬 변수

정렬 변수는 알고리즘의 성능을 조절하기 위해, 예를 들어 리드 서열과 기준 서열 사이의 최적의 광역 또는 국소 알고리즘을 생성하기 위해 정렬 알고리즘에서 사용된다. 정렬 변수는 매치, 미스매치 및 삽입-결실을 위한 가중치를 제공할 수 있다. 예를 들어, 더 낮은 가중치는 더 많은 미스매치 및 삽입-결실을 가지는 정렬을 허용한다.

정렬 변수의 예는, 이하에 제한되는 것은 아니지만, 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크를 포함한다.

예를 들어, 갭 페널티는 정렬이 리드 서열 또는 기준 서열에서 삽입에 의해 파괴되었을 때 정렬 스코어를 감소시키도록 설계된다. 갭 페널티는 서열 내 일부 다른 이웃하는 지점에서 잔기 대 잔기의 양호한 정렬을 달성하는 것이 가능할 때, 정렬 내 갭 또는 삽입이 허용되는지 여부의 결정을 돕기 위해 사용될 수 있다. 특히, 페널티는 각각의 개방된 갭("갭 오프닝" 페널티)에 대한 스코어 및 비용을 곱한 갭 공간의 전체 수("갭 익스텐션" 페널티)에 대한 스코어로부터 차감될 수 있다. 전형적으로, 연장된 갭의 비용은 갭 오프닝에 대한 비용보다 적어도 약 2, 3, 4, 5, 6, 7, 8, 9 또는 10배 더 낮게 설정된다. 예상 역치는 특정 크기의 데이터베이스를 검색할 때 우연히 알게 되는 것으로 "예상할 수 있는" 히트의 수를 설명하는 변수이다.

조정: 알고리즘 및 변수의 서열 콘텍스트-기반 선택/조정

서열 콘텍스트, 예를 들어, 반복 서열(예를 들어, 종열(tandem) 반복, 산재성(interspersed) 반복)의 존재, 낮은 복잡도 영역, 삽입-결실, 위유전자 또는 파라로그는 정렬 특이성에 영향을 미칠 수 있다(예를 들어, 정렬불량을 야기한다). 본 명세서에서 사용된 바와 같은, 정렬불량은 게놈 내 부정확한 위치 상에서 짧은 리드으로부터 염기쌍의 배치를 지칭한다.

정렬 알고리즘, 예컨대 더 느리지만 더 정확한 정렬 알고리즘(예를 들어, 스미스-워터만(Smith-Waterman) 정렬 또는 다중-서열(리드) 정렬기 CLUSTALW)은 정렬 특이성을 증가시키도록 선택될 수 있다(예를 들어, 서열 콘텍스트, 예를 들어, 반복 서열의 존재에 의해 야기된 정렬불량의 가능성을 감소시킴).

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 정렬 특이성을 증가시키도록(예를 들어, 서열 콘텍스트에 의해 야기되는 정렬불량의 가능성을 감소시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다).

조정: 종양 유형-기반 선택/알고리즘 및 변수의 조정

정렬 알고리즘이 선택되거나 또는 정렬 변수가 종양 유형, 예를 들어 특정 돌연변이 또는 돌연변이 유형을 가지는 경향이 있는 종양 유형에 기반하여 조절될 때, 정렬의 민감성이 증가될 수 있다

정렬 알고리즘은 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는, 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를들어, C→T 치환은 흑색종에서 흔한 돌연변이 유형이다. 따라서, 정렬의 민감성은흑색종 샘플로부터 핵산 서열의 미스매치 페널티가 감소되거나 또는 증가될 때 조절될 수 있다(예를 들어, 증가될 수 있다).

조정: 유전자 유형-기반 선택/알고리즘 및 변수의 조정

정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 특정 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 조절될 때 증가될 수 있다. 암-관련 유전자의 상이한 유형에서 돌연변이는 암 표현형에서 상이한 충격을 가질 수 있다. 예를 들어, 돌연변이체 종양유전자 대립유전자가 전형적으로 우세하다. 돌연변이체 종양 억제 유전자 대립유전자는 전형적으로 열성인데, 이는 대부분의 경우에 종양 억제자 유전자의 대립유전자 둘 다 효과가 명백하게 되기 전에 영향을 받아야한다는 것을 의미한다.

정렬 알고리즘은 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 종양 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 프레임내 삽입-결실은 보통 종양 억제자와 관련된다. 따라서, 정렬의 민감성 및 특이성은 표준 갭 페널티 접근(예를 들어, 갭 오픈 + 갭 익스텐션)이 종양유전자에 대한 프레임내 삽입-결실 및 종양 억제 유전자에 대한 프레임-이동 삽입-결실에서 선호되도록 변형될 때 조절될 수 있다(예를 들어, 증가될 수 있다).

조정: 돌연변이 유형-기반 선택/알고리즘 및 변수의 조정

정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 조절될 때, 조절될 수 있다(예를 들어, 증가될 수 있다).

BWA(속성 단일 짧은-리드), 스미스-워터만(Smith-Waterman)(더 짧고, 더 정확한 단일의 짧은-리드) 및 CLUSTALW(훨씬 더 짧지만, 다중 리드를 고려)와 같은 정렬 알고리즘은 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 점 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치에 대한 미스매치 페널티가 감소될 때 증가될 수 있다. 유사하게, 결실은 보통 EGFR 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치(들) 또는 유전자에 대한 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티)가 감소될 때, 증가될 수 있다. 부분적 서열(예를 들어, 리드의 제1 또는 제2의 절반)이 정렬을 위해 사용된다면, 정렬의 민감성은 또한 증가될 수 있다.

조정/돌연변이 부위-기반 선택/알고리즘 및 변수의 조정

알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 부위(예를 들어, 핫스팟)를 기반으로 조절될 때, 정렬의 민감성은 조절될 수 있다(예를 들어, 증가될 수 있다). 돌연변이 핫스팟은 돌연변이가 정상 돌연변이율보다 더 빈번하게 100배까지 일어나는 경우의 게놈 내 부위를 지칭한다.

정렬 알고리즘은 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 코돈 12에서 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 부위에 대한 미스매치 페널티가 감소될 때 증가될 수 있다.

조정: 샘플 유형-기반 선택/알고리즘 및 변수의 조정

정렬 알고리즘이 선택되거나 또는 정렬 변수가 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 조절될 때, 정렬의 민감성/특이성은 조절될 수 있다(예를 들어, 증가될 수 있다).

정렬 알고리즘은 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어,증가시키도록) 선택될 수 있다.

정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, DNA 손상에 기인하는 전이 돌연변이는 보통 FFPE 샘플과 관련된다. 따라서, 정렬의 민감성/특이성은 FFPE샘플로부터 얻은 서열에 대한 미스매치 페널티가 증가될 때, 감소될 수 있다.

e. 변이 호출(variant calling)

염기 호출은 시퀀싱 장치의 미가공(raw) 결과물을 지칭한다. 돌연변이 호출은 시퀀싱되는 뉴클레오타이드 위치에 대해 뉴클레오타이드 값, 예를 들어, A, G, T 또는 C를 선택하는 과정을 지칭한다. 전형적으로, 위치에 대한 시퀀싱 판독(또는 염기 호출)은 하나 이상의 값을 제공할 것이며, 예를 들어 일부 판독은 T를 제공할 것이고, 일부는 G를 제공할 것이다. 돌연변이 호출은 뉴클레오타이드 값, 예를 들어 서열에 대한 해당 값 중 하나를 부여하는 과정이다. "돌연변이" 호출로서 지칭되지만, 임의의 뉴클레오타이드 위치에, 예를 들어 돌연변이체 대립유전자, 야생형 대립유전자, 돌연변이체 또는 야생형 중 하나를 특징으로 하지 않은 대립유전자에 대응되는 위치에 또는 가변성을 특징으로 하지 않는 위치에 뉴클레오타이드 값을 부여하기 위해 적용될 수 있다. 돌연변이 호출을 위한 방법은 다음 중 하나 이상을 포함할 수 있다: 기준 서열의 각 위치에서 정보에 기반한 독립적 호출을 만드는 단계(예를 들어, 서열 판독을 시험하는 단계; 염기 호출 및 품질 스코어를 시험하는 단계; 관찰된 염기의 확률 및 잠재적 유전자형이 주어진 품질 스코어를 계산하는 단계; 및 유전자형을 부여하는 단계(예를 들어, 베이스(Bayes) 규칙을 사용)); 위양성을 제거하는 단계(예를 들어, 예상치보다 훨씬 더 낮거나 또는 훨씬 더 높은 판독에 의해 SNP를 기각시키는 심층의 역치; 작은 삽입-결실에 기인하여 위양성을 제거하는 국소 재정렬을 사용); 및 연관불균형(linkage disequilibrium: LD)/호출을 개선시키는 대치(imputation) 기반 분석을 수행하는 단계.

특이적 유전자형 및 위치와 관련된 유전자형 가능성을 계산하기 위한 식은, 예를 들어 문헌[Li H. and Durbin R. Bioinformatics, 2010; 26(5): 589-95]에 기재된다. 특정 암 유형에서 특정 돌연변이에 대한 사전 예상치는 해당 암 유형으로부터 샘플을 평가할 때 사용될 수 있다. 이러한 가능성은 암 돌연변이의 공공 데이터베이스, 예를 들어 암에서 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutation in Cancer: COSMIC), HGMD(인간 유전자 돌연변이 데이터베이스(Human Gene Mutation Database)), SNP 컨소시엄(The SNP Consortium), 유방암 돌연변이 데이터베이스(Breast Cancer Mutation Data Base: BIC) 및 유방암 유전자 데이터베이스(Breast Cancer Gene Database: BCGD)로부터 유래될 수 있다.

LD/대치 기반 분석의 예는, 예를 들어 문헌[Browning B.L. and Yu Z. Am. J. Hum. Genet. 2009, 85(6):847-61]에 기재된다. 낮은-덮임률 SNP 호출 방법의 예는, 예를 들어 문헌[Li Y. et al., Annu. Rev. Genomics Hum.Genet. 2009, 10:387-406]에 기재된다.

돌연변이 호출: 치환

정렬 후, 치환의 검출은 호출 방법, 예를 들어, 베이지안 돌연변이 호출 방법을 사용하여 수행될 수 있는데; 이는 대안의 대립유전자의 존재가 관찰되는 경우 서브게놈 간격, 예를 들어 평가되는 유전자의 엑손의 각각에서 각 염기에 적용된다. 이 방법은 돌연변이의 존재에서 판독 데이터를 관찰할 확률을 염기-호출 오류 단독의 존재에서 판독 데이터를 관찰할 확률과 비교할 것이다. 돌연변이는 이 비교가 돌연변이 존재를 충분히 강하게 지원하는 경우 호출될 수 있다.

방법은 암 DNA의 분석을 위해 50% 또는 100%의 빈도로부터 제한된 편차를 처리하기 위해 개발되었다. (예를 들어, SNVMix -Bioinformatics. 2010 March 15; 26(6): 730-736.) 그러나 본 명세서에 개시된 방법은 샘플 DNA의 1% 내지 100% 어디에서든지 및 특히 50% 미만의 수준에서 돌연변이체 대립유전자 존재의 가능성을 고려하게 한다. 이 접근은 천연(다중-클론) 종양 DNA의 저-순도 FFPE 샘플에서 돌연변이의 검출에 대해 특히 중요하다.

베이지안 돌연변이-검출 접근의 이점은 돌연변이 존재의 확률과 염기-호출 오류 단독의 확률의 비교가 부위에서 돌연변이 존재의 사전 예상치에 의해 가중치를 부여할 수 있다는 점이다. 대안의 대립유전자의 일부 판독이 주어진 암 유형에 대해 빈번하게 돌연변이된 부위에서 관찰된다면, 돌연변이의 존재는 돌연변이 증거의 양이 보통의 역치를 충족시키지 못한다 해도 자신있게 호출될 수 있다. 그 다음에 이 가요성은 훨씬 더 드문 돌연변이/더 낮은 순도의 샘플에 대해 검출 민감성을 증가시키거나 또는 판독 덮임률의 감소에 대해 시험을 더 탄탄하게 하기 위해 사용될 수 있다. 암에서 돌연변이된 게놈에서 무작위 염기쌍의 가능성은 ~1e-6이다. 전형적 돌연변이유발 암 게놈 패널의 다수 부위에서 특이적 돌연변이의 가능성은 10배 이상일 수 있다. 이들 가능성은 암 돌연변이(예를 들어, COSMIC)의 공공의 데이터베이스로부터 유래될 수 있다.

그 다음에 이러한 테이블이 만들어질 수 있으며, 공공의 데이터베이스에서 풍분한 정보가 이용가능한 경우 다유전자 시험에서 임의의 유전자에 대한 돌연변이 호출 알고리즘에서 사용될 수 있다.

돌연변이 호출: 삽입-결실

삽입-결실 호출은 전형적으로 관련된 신뢰도 스코어 또는 통계적 증거 측정 기준을 포함하는, 삽입 또는 결실에 의해 기준서열과 상이한 시퀀싱 데이터에서 염기를 발견하는 과정이다.

삽입-결실 호출 방법은 후보자 삽입-결실을 확인하는 단계, 국소 재정렬을 통해 유전자형 가능성을 계산하는 단계 및 LD-기반 유전자형 추론 및 호출을 수행하는 단계를 포함할 수 있다. 전형적으로, 베이지안 접근은 잠재적인 삽입-결실 후보자를 얻기 위해 사용된 다음, 이들 후보자는 베이지안 프레임워크에서 기준 서열과 함께 시험된다.

후보자 삽입-결실을 만들기 위한 알고리즘은, 예를 들어 문헌[McKenna A. et al., Genome Res. 2010; 20(9):1297-303; Ye K. et al., Bioinformatics, 2009; 25(21):2865-71; Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print; Li H. et al., Bioinformatics 2009, Bioinformatics 25(16):2078-9]에 기재된다.

삽입-결실 호출 및 개개-수준 유전자형 가능성을 만들기 위한 방법은, 예를 들어 딘델(Dindel) 알고리즘(Albers C.A. et al., Genome Res. 2010 Oct 27. [Epub ahead of print]). 예를 들어, 베이지안 EM 알고리즘은 리드를 분석하기 위해 사용될 수 있고, 초기 삽입-결실 호출을 만들고, 각 후보자 삽입-결실에 대해 유전자형 가능성을 만든 다음, 예를 들어, QCALL을 사용하여 유전자형을 대치를 만들 수 있다(Le S.Q. and Durbin R. Genome Res. 2010 Oct 27. [Epub ahead of print]). 삽입-결실을 관찰하는 것의 사전 예상치와 같은 변수는 삽입-결실의 크기 또는 위치를 기반으로 조절될 수 있다(예를 들어, 증가되거나 또는 감소될 수 있다).

복제물 판독

시퀀싱 과정 동안, 오류는, 예를 들어 시퀀싱 화학에 의해 또는 이미지 분석 소프트웨어에 의해 상이한 과정의 전략에서 판독에 도입될 수 있다. 복제물 리드는 전형적으로 별개의 판독으로서 시퀀싱된다. 돌연변이 호출 알고리즘은 시퀀싱 오류와 실제 서열 변형 사이를 구별하여 후자를 정확하게 호출할 필요가 있다. 본 명세서에 기재된 방법은 시퀀싱 오류를 감소시키기 위해 복제된 판독을 분석할 수 있으며, 이에 의해 돌연변이 호출 알고리즘의 민감성을 개선시킬 수 있다.

이는 동일 게놈 위치를 덮는 독립된 판독을 비교하는 것에 의해 전형적으로 행해진다. 실제 복제물은 다양한 라이브러리 제조 단계 동안(예를 들어, PCR 증폭) 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들은 독립된 판독이 아니기 때문에(즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다.

복제물의 사용은 시퀀싱 오류를 감소시키도록 판독되며, 이에 의해 본 명세서에 기재된 돌연변이 호출 알고리즘의 민감성을 개선시킨다. 복제물 판독은 동일한 시작 및 말단 위치의 소유에 의해 확인될 수 있다. 복제물 판독이 동일한 본래의 DNA 분자의 판독을 본질적으로 복제하기 때문에, 복제물 사이의 임의의 차이는 시퀀싱 오류이어야 하고, 따라서 무시될 수 있다. 예를 들어, 고도의 복제물 데이터가 이용가능하다면, 공통된 3 이상의 복제물이 사용될 수 있다. 대안적으로, 염기의 품질 스코어는 판독의 2 이상의 복제물 사이의 동의를 반영하기 위해 재정립될 수 있으며, 임의의 하위 과정에 의해 이용될 수 있다. 예를 들어, 돌연변이 호출 알고리즘은 모든 복제물에 의해 지지되지 않은 서열 차이에 더 적은 가중치를 둘 수 있다.

제시된 방법은 복제물에 대한 공통 서열을 만드는 것에 의해 일부 시퀀싱 데이터 상에서 시험되었다. 공통 판독서열의 오류율은 본래의 판독보다 상당히 더 낮게 되는 것으로 나타났다.

이 방법은, 예를 들어 1) 시퀀서의 일부 실패 방식이, 이 데이터에서 돌연변이를 호출하는 능력에 부정적으로 영향을 미치는, 더 높은 오류율을 지니는 사용할 수 있는 서열 데이터를 초래할 때 사용될 수 있다. 복제물을 사용함으로써 오류를 감소시키는 것은 시나리오에서 특히 효과적이어야 하며, 기계 고장에 대해 돌연변이 호출경로를 더 강하게 만들고, 2) 샘플에서 특히 드문(예를 들어, 혈중 종양 세포는 샘플 내 세포의 <1% 일 수 있음) 암 세포로부터의 DNA 시퀀싱할 때, 염기 오류율의 어떤 개선은 이들 종양 세포에서 돌연변이를 정확하게 확인하는 능력을 상당히 증가시킬 수 있다.

하나의 대표적인 실시형태에서, 높은 복제율(69%)을 갖는 데이터세트는 복제물에 대해 스캐닝되었다. 복제물 중 하나의 판독을 임의로 선택하는 보통-사용되는 소프트웨어 제거 툴(피카드 마크듀플리케이트(Picard MarkDuplicates))에 의해 복제물이 제거될 때, 얻어진 오류율은 0.40%였다. 비슷하게, 적어도 3개의 복제물을 갖는 모든 판독은 개별적으로 처리되었고, 각 복제물 세트에 대한 공통 서열은 가장 흔한 복제물 서열을 선택하 는 것에 의해 유래된다. 공통 서열의 오류율은 0.20%였는데, 이는 그것의 서열을 비교함으로써 복제물 판독에 대해 더 낮은 오류율이 달성될 수 있다는 것을 증명한다.

다른 실시형태에서, 복제물 판독은 확인되지 않거나 또는 제거되지 않는다. 복제물 판독을 제거하지 않는 것은, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때 종양 DNA에서 복제수를 확인하는 것과 대립 유전자-균형의 평가에서 특히 유용할 수 있다. 예를 들어, 고-복제율을 갖는 샘플에서 높은 덮임률 심도를 갖는 게놈 영역은 낮은 중복률을 갖는 샘플에서 유사한 심도를 갖는 동일 영역보다 더 많은 판독을 상실할 수 있는

반면, 낮은-덮임률 영역은 이 효과에 대한 경향이 더 적을 가능성이 있다. 따라서, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때, 둘 사이의 비교는 더 소란스럽게 될 수 있으며, 따라서 복제수 변경 호출의 민감성 및/또는 특이성을 낮출 수 있다.

DNA 시험 샘플, 예를 들어 종양으로부터 추출된 DNA 샘플의 서열 분석은 대조군 샘플, 예를 들어 비-암성 조직으로부터의 DNA 샘플과 시험군 샘플의 비교를 필요로 한다.

게놈 DNA 샘플의 시퀀싱에서, 복제물 판독이 만들어질 것이다. 판독 복제물은 라이브러리 제조의 다양한 단계(예를 들어, PCR 증폭)동안 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들이 독립된 판독이 아니기 때문에 (즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다. 전형적으로, 대조군과 시험 샘플 둘 다로부터 복제물 판독은 시험군과 대조군 DNA 서열 사이의 유사한 분석을 수행하기 전에 제거된다.

일 실시형태에서, 복제물 판독의 분획이 시험군과 대조군 샘플 사이에 상당히 상이한 경우의 상황에서(예를 들어, 20%, 30%, 40%, 50%, 60% 이상 만큼 상이함), 복제물 판독은 시험 샘플 내 돌연변이를 정확하게 확인하는 능력을 최대화하기 위해 유사한 분석 전에 제거되지 않는 것이 바람직하다. 예를 들어, 대조군 샘플과 시험 샘플에서 복제물 판독의 수가 각각 20% 및 80%(또는 70% 또는 60% 또는 50%)인 경우의 상황이라면, 복제물 판독은 바람직하게는 유사한 분석 전에 제거되지 않는다.

기타

맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

실시형태에서, 단리된 종양 또는 대조군, 핵산의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

일 실시형태에서, 라이브러리의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

일 실시형태에서, 라이브러리-캐치의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

일 실시형태에서, 시퀀싱 방법의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

일 실시형태에서, 맵핑된 판독의 수집물의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 후속 시퀀싱의 혼성화 조건의 후속 결정; 후속 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.

일 실시형태에서, 해당 방법은 종양 샘플 특징에 대해 값을 획득하는 단계, 예를 들어 상기 샘플에서 종양 세포의 비율에 대해, 상기 종양 샘플의 세포질에 대해; 또는 종양 샘플의 이미지로부터 값을 획득하는 단계를 포함한다.

일 실시형태에서, 해당 방법은 종양 샘플 특징에 대해 상기 획득한 값에 반응하여, 종양 샘플로부터 핵산의 단리, 라이브러리 구성; 베이트 설계 또는 선택; 베이트/라이브러리 구성원 혼성화; 시퀀싱; 또는 돌연변이 호출에 대한 변수를 선택하는 단계를 포함한다.

일 실시형태에서, 방법은 상기 종양 샘플에 존재하는 종양 조직의 양에 대한 값을 획득하는 단계, 상기 획득한 값을 참조 기준과 비교하는 단계 및 상기 참조 기준이 충족된다면, 상기 종양 샘플을 받아들이는 단계, 예를 들어 상기 종양 샘플이 30, 40 또는 50% 초과의 종양 세포를 함유한다면, 상기 종양 샘플을 받아들이는 단계를 추가로 포함한다.

일 실시형태에서, 방법은 종양 세포에 대해 상기 종양 샘플로부터의 종양 조직을 참조 기준을 충족시키지 못하는 종양 샘플로부터 마크로해부(macrodissecting)함으로써 풍부화된 하위-샘플을 획득하는 단계를 추가로 포함한다.

일 실시형태에서, 방법은 주요 대조군, 예를 들어 혈액 샘플이 이용가능한지 여부, 따라서 상기 주요 대조군으로부터 대조군 핵산(예를 들어, DNA)을 분리시키는지 여부를 결정하는 단계를 추가로 포함한다.

일 실시형태에서, 방법은 분리된 종양 핵산 샘플을 제공하기 위해 상기 종양 샘플로부터 핵산을 분리시키는 단계를 추가로 포함한다.

일 실시형태에서, 방법은 분리된 대조군 핵산 샘플을 제공하기 위해 대조군으로부터 핵산을 분리시키는 단계를 추가로 포함한다.

일 실시형태에서, 방법은 검출가능한 핵산이 없는 샘플을 기각시키는 단계를 추가로 포함한다.

본 발명에 있어서, 상기 (a) 단계는 (a-i) 채취된 시료에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;

(a-ii) 분리된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계;

(a-iii) 상기 제작된 라이브러리를 복수의 베이트 세트(bait set)와 접촉시켜, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 핵산을 포획하는 단계;

(a-iv) 포획된 핵산을 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계;

(a-v) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(판독, 리드, reads)를 획득하는 단계.

(a-vi) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;

(a-vii) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; 및

(a-viii) 선별된 서열정보에서 돌연변이 정보를 도출하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 a-vi) 단계는 (i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및

(ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 기준값은, 상기 정렬 일치도 점수(mapping quality score)가 15 내지 70이고, GC 비율은 30 내지 60%인 것을 특징으로 할 수 있다.

본 발명은 다른 관점에서, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물에 관한 것이다.

본 발명은 또 다른 관점에서, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트에 관한 것이다.

본 발명에 있어서, 상기 폴리뉴클레오타이드는 프로브 또는 프라이머인 것을 특징으로 할 수 있다.

본 발명에 있어서, 상기 키트는 필요에 따라 다양한 완충액, 세척액 및 표지물질을 포함하는 것을 특징으로 할 수 있다.

F. 실시예

이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.

실시예 1. TCGA 기반 마커 조합 도출

The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 BRCA으로 분류된 1,098 명의 유방암 환자들의 돌연변이(mutation) 정보와 복제수 변이(CNA) 정보를 다운받아 변이 정보(Genomic Alterations, GA)를 분석하였다. 먼저 변이 중 ‘유해한 변이’는 다음과 같이 선정하였다:

i. 변이의 유형이 ‘nonsense’, ‘frame shift’, ‘splice site variant (2~5bp)’, ‘inframe deletion’ 으로 구성된 변이;

ii. coverage depth 가 2 이상 (Pred score ≥ 25)인 변이; 및

iii. varaint allele frequency (VAF) 값이 30% 이상인 경우를 모두 만족하는 변이를 ‘유해한 변이’로 선정하였다.

변이 중 복제수 변이(copy number alteration, CNA)는 TCGA에 의해 계산된 값들에 대하여 다음과 같이 점수를 매겼다:

i. 0 : 정상,

ii. -1 : heterozygous copy number deletion,

iii. -2 : homozygous copy number deletion,

iv. 1 : heterozygous copy number amplification,

v. 2 : homozygous copy number amplification

그 다음, 상기 점수에 근거하여 변이(GA)를 다음과 같이 정의하여 분석을 진행하였다:

한 환자 내의 동일한 유전자에서

i. ‘유해한 변이’와 heterozygous copy number deletion (copy number variant, CNV = -1)이 동시에 일어나거나 혹은

ii. ‘유해한 변이’는 없으나 homozygous copy number deletion (CNV ≤ -2)이 일어난 경우를 변이(GA)가 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 감수성이 있는 것으로 판단하였다.

특히, Oncogene인 EMSY 유전자(민감성)의 경우에는

i. ‘유해한 변이’만을 가진 경우,

ii. ‘유해한 변이’와 gain (heterozygous copy number amplification, CNV = 1)을 동시에 가진 경우, 그리고

iii. copy number amplification (homozygous copy number amplification, CNV = 2)인 경우를 변이가 있는 것으로 결정하였다.

그 결과, 총 1098명의 유방암 환자 중 510명에서 GA를 확인할 수 있었다(도 1).

이는 단순히 BRCA1/2의 변이정보만 확인할 경우 PARP 저해제에 대하여 감수성이 있는 것으로 결정되는 환자가 동일한 모집단에서 42명밖에 되지 않는 것에 비하여 10배 이상 향상된 효과를 나타낸 것이다.

실시예 2. TCGA 기반 마커 빈도수 확인

The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 BRCA으로 분류된 유방암 환자들 중 ER+/HER2- 인 환자들(n=437)과 Triple negative breast cancer (TNBC, n=116) 환자들에 대하여 특정 유전자의 빈도수를 분석하였다.

먼저 특정 유전자는 PARP 저해제인 루카파립 (rucaparib)에 대하여 sensitive 한 것으로 알려진 다음의 18개 유전자를 선정하였다:

BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, MRE11, RAD50, RAD51D, EMSY

그 외에 탐색적 연구로써 7개의 유전자도 함께 분석하였으며, 유전자는 다음과 같다:

STK11, CHEK2, BRIP1, CDK12, FANCF, ERCC1, XRCC1

ER+/HER2- 인 유방암 환자군에서 루카파립 (rucaparib)에 대하여 sensitive 한 18개 유전자의 GA 빈도수를 확인한 결과, 437명 중 65명(14.9%)에게서 18개의 유전자에서 GA가 존재하는 것으로 확인되었다. TNBC 인 유방암 환자군에서 18개 유전자의 GA 빈도수는 116명 중 26명(22.4%)에서 GA가 존재하는 것으로 확인되었다. 하지만 두 그룹 모두에서 BRCA1과 BRCA2 유전자에서 GA의 빈도는 높지 않았으며, EMSY 유전자의 GA가 ER+/HER2- 그룹(6.4%)에서 TNBC 그룹(2.6%)보다 많이 나타났다(도 2). 탐색적 연구를 위한 7개의 유전자에서는 두 그룹 모두 큰 차이를 보이지 않는 것을 확인하였다.

ER+/HER2- 인 유방암 환자군에서 40세 전후로 GA 분포에 차이가 있는지 확인해본 결과, BRCA2 유전자에서 40세보다 나이가 많은 환자들에게 많이 나타나는 경향을 보였으며, FANCA와 EMSY 유전자에서 40세보다 나이가 많은 환자들에게서 GA가 많이 나타나는 것으로 확인되었다(도 3). 이는 50세를 기준으로 했을 때에도 비슷한 결과를 확인 할 수 있었다. 탐색적 연구를 위한 7개의 유전자에서는 나이에 따른 차이를 보이지 않는 것을 확인하였다.

따라서, 유방암 환자에서 BRCA1/2 유전자뿐만 아니라 18개 유전자 내에서 유방암과의 연관성이 있는 유전자들을 함께 분석할 경우, PARP 저해제의 처방 대상자가 증가하는 것을 확인하였다.

실시예 3. Biallelic Genetic Impairment(BGI)의 판독

3-1. 변이정보 획득

BGI 를 평가하기 위해서는 분석에 사용된 종양 조직의 종양 분율 정보 및 PARP 저해제 민감성 유전자들의 Adjusted Allele Frequency (Adj. AF,

) 가 필요하다. 이를 검증하기 위하여, PARP 저해제 저항성 유전자 그룹의 모든 유전자(MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11)에 변이가 없는 고형암 환자 56명의 돌연변이 정보 및 종양분율 정보를 이용하여 BGI를 분석하였다.

먼저, 돌연변이 정보를 획득하기 위하여, 종양분율 정보를 보유하고 있는 고형암 환자 56명의 FFPE 샘플에서 GeneRead DNA FFPE Kit (Qiagene) 를 이용하여 DNA 을 추출하였다. 구체적으로는 Deparaffinization solution 을 사용하여 56°C 에서 FFPE 샘플을 녹인 후 하단의 투명층을 분리하였다. 분리된 용액은 원심분리를 이용한 정제 과정을 거쳐 핵산을 추출하였다.

추출한 핵산은 총량이 400 ng 이상을 만족하는 검체들을 대상으로 SOLIDaccuTest Library DNA Prep Kit (NGeneBio) 를 사용해 Library preparation 을 수행하여, MiSeq-Dx 장비(Illumina)를 이용하여 sequencing 을 진행하였다. 그 결과, 샘플당 200Mb 이상의 데이터가 생산되는 것을 확인하였다.

차세대염기서열분석기(NGS) 장비에서 생성된 fastq 파일은 참조 염색체 Hg19 서열을 기준으로 염기서열이 다른 부위를 BWA 으로 제거하였고, GATK 알고리즘으로 변이 정보를 수득하였다. 수득한 돌연변이 중 PARP 저해제 저항성 유전자 그룹(MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11)에 대해서는 아무런 돌연변이가 없는 것을 확인하였다.

3-2. BGI 판독

3-1에서 수득한 돌연변이 정보 및 종양분율 정보를 이용해 수식 2를 이용하여 Standard Tumor Fraction 을 계산한다.

이와 같이 계산된 Standard Tumor Fraction 은 평가 대상자들의 PARP 저해제 민감성 유전자들의 Adj. AF 과 비교하여 BGI 를 판단한다. 대상자의 Adj. AF 이 Standard Tumor Fraction 보다 높을 경우, 양쪽 대립유전자에 결함이 있는 것으로 판단하며, 그렇지 않을 경우에는 one allele impairment 또는 WT 으로 판단하였다.

예를 들어, Tumor % 가 80%인 검체에서 Standard Tumor Fraction 은 67% 로 산출이 되는데, 이 때의 대상자의 Adj. AF 가 73% 일 경우, Adj. AF 값이 Standard tumor fraction 보다 큰 값이기 때문에 BGI 양성으로 판단하였다.

Standard Tumor Fraction 은 아래의 표 5를 참고하였다.

상기 분석법으로 BGI 를 분석한 결과, 표 6에 기재된 바와 같이 전체 56명 중 19명(33.9%)에게서 BGI 를 확인할 수 있었다.

이는 PARP 저해제 민감성 유전자에 일반적인 돌연변이가 있을 경우(n=33, 58.9%)로 판정할 경우에는 위양성의 가능성이 있다는 것을 확인하였다.

이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 구체적인 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.

본 발명에 따른 방법은 PARP 저해제 감수성을 결정하는 바이오마커의 대립 유전자 양쪽(both allele)의 변이를 검출하여 높은 민감도와 정확도로 PARP 저해제가 작동하는 시료를 선별할 수 있을 뿐만 아니라, 기존의 BRCA1/2 유전자의 변이만 검출하는 방법에 비하여 상동재조합결핍 관련 유전자를 추가로 분석하므로 더 넓은 범위에 시료에 대하여 PARP 저해제 감수성을 결정할 수 있어 유용하다.

Claims

다음의 단계를 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법:

(a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및

(b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both alleles)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계.
제1항에 있어서,

(i) 상기 PARP 저해제 저항성 유전자 그룹 중 하나 이상의 유전자에 변이가 나타나거나,

(ii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 both allele에서 모두 변이가 없거나,

(iii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 single allele에서 변이가 나타날 경우, PARP 저해제에 대한 감수성이 없는 것으로 결정하는 단계;

를 추가로 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 PARP 저해제 저항성 유전자 그룹은 MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11으로 구성된 군인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 PARP 저해제 민감성 유전자 그룹은 BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제5항에 있어서, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations);

ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및

iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제5항에 있어서, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제5항에 있어서, 상기 유해한 변이는 염기서열의 치환(substitution), 삽입(insertion), 결실(deletion), 카피수 변경(copy number alteration), 재배열(rearrangement)로 구성된 군에서 선택되는 하나 이상의 방법으로 발생하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법:

(a-i) 채취된 시료에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;

(a-ii) 분리된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계;

(a-iii) 상기 제작된 라이브러리를 복수의 베이트 세트(bait set)와 접촉시켜, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 핵산을 포획하는 단계;

(a-iv) 포획된 핵산을 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계;

(a-v) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(판독, 리드, reads)를 획득하는 단계.

(a-vi) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;

(a-vii) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; 및

(a-viii) 선별된 서열정보에서 돌연변이 정보를 도출하는 단계.
제1항에 있어서, 상기 (b) 단계의 유전자형을 확인하는 단계는 분리된 핵산을 1백만 내지 1억 리드 깊이로 유전체 시퀀싱을 통해 획득하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제9항에 있어서, 상기 a-vi) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법:

(i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및

(ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계.
제11항에 있어서, 상기 기준값은, 상기 정렬 일치도 점수(mapping quality score)가 15 내지 70이고, GC 비율은 30 내지 60%인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 환자 유래 핵산 분자의 biallelic genetic impairment(BGI)를 계산하는 단계를 포함하는 방법으로 검출하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제13항에 있어서, 상기 BGI는 환자 유래 핵산 분자의 종양 분율(standard tumor fraction)과 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)를 이용하여 계산하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제14항에 있어서, 상기 종양분율은 하기 수식 2로 계산하는 것을 특징으로하는 PARP 저해제에 대한 감수성 결정 방법:
제14항에 있어서, 상기 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)은 하기 수식 1로 계산하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법:

여기서, alt allele은 변이가 발생한 대립유전자를 의미함.
제13항에 있어서, 상기 BGI는 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)가 환자 유래 핵산 분자의 종양 분율(standard tumor fraction) 이상일 경우, 1로 계산하고, 미만인 경우 0으로 계산하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제13항에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 BGI 값이 1일 경우, 대립 유전자 양쪽에 변이가 있는 것으로 결정하고, 0일 경우, 대립 유전자 양쪽에 변이가 없거나, 어느 한쪽에만 변이가 있는 것으로 결정하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
제1항에 있어서, 상기 PARP 저해제는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
(a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및

(b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물.
(a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및

(b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트.