KR20200020728A

KR20200020728A - 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 검출하기 위한 프로브 및 방법

Info

Publication number: KR20200020728A
Application number: KR1020197038272A
Authority: KR
Inventors: 히로유키 마노; 신지 코사카; 토시히데 우에노
Original assignee: 고쿠리츠다이가쿠호우진 도쿄다이가쿠
Priority date: 2017-06-27
Filing date: 2018-06-22
Publication date: 2020-02-26
Also published as: KR102604001B1; EP3647420A1; EP4269610A2; JP2023054163A; CN110832076A; EP4269610A3; US20200165687A1; EP3647420B1; JPWO2019004080A1; CN110832076B; EP3647420A4; WO2019004080A1

Abstract

본 발명은 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 간편하게 검출가능한 방법을 제공하는 것 등을 과제로 한다.
일실시형태에 있어서, 본 발명은 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트, 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트, 당해 프로브 세트를 포함하는 키트, 당해 프로브 세트를 이용하여 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법, 및 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하는 방법 등에 관한 것이다.

Description

융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 검출하기 위한 프로브 및 방법

본 발명은 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브, 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브, 당해 프로브를 포함하는 키트, 당해 프로브를 이용하여 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법, 및 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하는 방법 등에 관한 것이다.

융합 유전자는 체세포 암 변이의 한 요인으로 알려져 있으며, 지금까지 융합 유전자에 기인하는 암에 대하여 몇 가지 치료법이 개발되고 있다. 예를 들면, 만성 골수 백혈병에 있어서의 BCR-ABL1 융합 유전자 (비특허문헌 1), 비소세포 폐암에 있어서의 EML4-ALK 융합 유전자 (비특허문헌 2) 등의 암 변이를 갖는 환자에 대하여, 티로신 키나아제 저해제를 이용하는 제1 선택 요법을 들 수 있다. 이에 따라 융합 유전자에 기인하는 암의 치료 성적이 개선되었다.

최근의 시퀀싱 기술의 진보에 따라, 암 게놈 및 전사체 (Transcriptome)에 있어서의 염색체 재구성의 망라적인 검출이 가능해지고, RET, ROS1, NTRK1, NRG1, 또는 FGRF1/2/3 유전자 등의 융합 유전자가 발견되고 (비특허문헌 3 ~ 8), 이들 융합 유전자는 암의 진단에도 응용되고 있다. 또, 최근에는 융합 유전자에 더하여 MET14 엑손 스키핑 등의 엑손 스키핑도 암의 원인이 될 수 있다는 것이 시사되어 있다.

그러나, 이들 융합 유전자 및 엑손 스키핑의 발생은 비교적 저빈도이며, 그 종류도 다양하기 때문에, 표적 유전자가 되는 복수의 융합 유전자를 동시에 검출하는 것은 곤란했다. 또, FISH, 면역 조직 화학, 및 역전사 PCR 등의 종래의 방법은 진단에 전문적 기술을 요하기 때문에, 임상 응용을 위하여, 간편하게 다수의 표적 유전자를 검출 가능한 방법이 요망되고 있다.

암플리콘（Amplicon） PCR 또는 하이브리다이제이션 캡쳐에 의한 gDNA의 표적 유전자 부화(富化)에 의한 암 관련 유전자의 타켓 시퀀싱은 융합 유전자 등의 변이 검출에 이용되는 방법의 일례이다. 그러나, 융합 유전자 등의 연결점은 대부분의 경우 각 유전자의 인트론에 널리 분포되어 있다. 이 때문에, 통상의 하이브리다이제이션 캡쳐법에서는, 융합 유전자 및 엑손 스키핑의 연결점을 포착하기 위하여 인트론에 치우치지 않고 프로브를 제작할 필요가 있고, 다수의 프로브를 필요로 한다.

또, 신선한 동결 샘플 또는 세포주로부터 융합 전사물을 검출하기 위한 대체법으로서, RNA 시퀀스 (RNA-seq)가 제안되고 있다. 그러나, 포르말린 고정 파라핀 포매 (FFPE) 등의 RNA의 질이 낮은 샘플 (저질 RNA 샘플)에서는, mRNA 농축에 통상 이용되는 폴리A 선택 등에 의해 신뢰할 수 있는 라이브러리를 제작하는 것이 곤란하기 때문에, 적용이 어렵다. 또, 저질 RNA 샘플을 이용할 경우, RNA-seq에는 cDNA 캡쳐법 또는 앵커된 멀티플렉스 PCR 베이스의 방법이 유용하다는 보고도 있지만, 이들 방법에서는 대상이 되는 유전자의 종류가 대단히 한정적이기 때문에, 임상적인 유용성이 낮다. 따라서, 저질 RNA 샘플에 대해서도 간편하게 다수의 표적 유전자를 검출 가능한 방법이 요구되고 있었다.

비특허문헌1: J. Erikson et al., Proc. Natl. Acad. Sci., USA 83, 1807-1811, 1986 비특허문헌 2: M. Soda et al., Nature, 448, 561-566, 2007 비특허문헌 3: T. Kohno et al., Nat. Med.18, 375-377, 2012 비특허문헌 4: K . Takeuchi et al., Nat. Med.18, 378-381, 2012 비특허문헌 5: D. Lipson et al., Nat. Med.18, 382-384, 2012 비특허문헌 6: L. Fernandez-Cuesta et al., Cancer Discov.4, 415-422, 2014 비특허문헌 7: A . Vaishnavi et al., Nat. Med., 19, 1469-1472, 2013 비특허문헌 8: R. Wang, L et al., Clin. Cancer Res.20, 4107-4114, 2014

일실시형태에 있어서, 본 발명은 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 간편하게 검출 가능한 방법을 제공하는 것을 과제로 한다.

본 발명자는 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자 또는 엑손 스키핑에 의해 생기는 전사 산물을 검출하기 위하여 이용할 수 있는 프로브를 제작하고, 본 프로브를 이용하여 게놈상의 융합 유전자 또는 엑손 스키핑에 의해 생기는 전사 산물을 효율적으로 검출할 수 있다는 것을 찾아냈다.

본원 발명은 이하의 양태를 포함한다.

(1) 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,

상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현하고,

상기 프로브가 상기 전사 산물로부터 조제한 cDNA의 유전자 A 또는 B 중 어느 하나에 유래하는 영역에 혼성화(hybridize)하고,

상기 cDNA에 프로브가 혼성화했을 때의 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브.

(2) 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,

상기 전사 산물로부터 조제한 cDNA의 유전자 A 또는 B 중 어느 하나에 유래하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하고,

상기 cDNA에 프로브가 혼성화했을 때의 각 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 각 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브 세트.

(3) 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,

상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며,

상기 프로브가 상기 전사 산물로부터 조제한 cDNA의 엑손 A' 또는 B' 중 어느 하나에 유래하는 영역에 혼성화하고,

(4) 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,

상기 전사 산물로부터 조제한 cDNA의 엑손 A' 또는 B' 중 어느 하나에 유래하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하고,

(5) x가 0 ~ 140, y가 30 ~ 140, z가 100 ~ 300인, (1) ∼ (4) 중 어느 하나에 기재된 프로브 또는 프로브 세트.

(6) 상기 프로브를 적어도 6개 포함하는, (2), (4), 및 (5) 중 어느 하나에 기재된 프로브 세트.

(7) z ≥ x + y를 만족하는 프로브만으로 이루어지는, (2) 및 (4) ∼ (6) 중 어느 하나에 기재된 프로브 세트.

(8) 프로브 세트가 n개의 프로브를 포함하고, 각 프로브의 상기 최단 염기길이를 각각 x₁, x₂, x₃, … xn (단, x₁ < x₂ < x₃ … < x_n)로 한 경우에,

x₁ = 0, x₂ = x_n × 1 / (n-1), x₃ = x_n× 2 / (n-1), … x_n = x_n × (n-1) / (n-1) 인, (2) 및 (4) ∼ (7) 중 어느 하나에 기재된 프로브 세트.

(9) 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,

상기 전사 산물로부터 조제한 cDNA의 상기 가상 연결점을 포함하는 영역에 혼성화하는 프로브.

(10) 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,

상기 전사 산물로부터 조제한 cDNA의 상기 가상 연결점을 포함하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하는, 프로브 세트.

(11) 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,

상기 전사 산물로부터 조제한 cDNA에 있어서의 엑손 스키핑이 생길 수 있는 상기 가상 연결점을 포함하는 영역에 혼성화하는, 프로브.

(12) 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,

상기 전사 산물로부터 조제한 cDNA에 있어서의 엑손 스키핑이 생길 수 있는 상기 가상 연결점을 포함하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하는, 프로브 세트.

(13) (1) ∼ (12) 중 어느 하나에 기재된 상이한 복수의 프로브 또는 프로브 세트를 포함하는, 조합 프로브 세트.

(14) 적어도 1개의 유전자 발현량 측정용 프로브를 더 포함하는, (1) ∼ (12) 중 어느 하나에 기재된 프로브 또는 프로브 세트 또는 (13)에 기재된 조합 프로브 세트.

(15) 가공 처리한 생체 샘플 유래의 전사 산물에 대하여 이용하기 위한, (1) ∼ (14) 중 어느 하나에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트.

(16) (1) ∼ (15) 중 어느 하나에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트를 포함하는 키트.

(17) 피험체 유래의 샘플로부터 전사 산물을 조제하는 공정,

상기 전사 산물로부터 cDNA를 조제하는 공정,

(1) ∼ (15) 중 어느 하나에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트의 프로브에 혼성화한 표적 cDNA를 농축하는 공정,

농축된 상기 표적 cDNA에 대하여, 대규모 병렬 배열 결정에 의한 배열 해석을 하는 공정, 및

상기 배열 해석의 결과에 의거하여, 게놈상의 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정,

을 포함하는, 게놈상의 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법.

(18) 상기 판정이, 이하의 공정:

상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현된다고 했을 때에,

가상 연결점에 있어서 유전자 융합이 생기지 않는 유전자 A 유래의 cDNA의 리드수를 α, 유전자 B 유래의 cDNA의 리드수를 β로 하고, 가상 연결점에 있어서 유전자 융합이 생기고 있는 융합 유전자 유래의 cDNA의 리드수를 γ로 한 경우에,

0 < α 또는 β ≤ γ인 경우, 융합 유전자가 존재한다고 판정하고,

0 < γ < α 또는 β인 경우, 낮은 발현량으로 융합 유전자가 존재한다고 판정하고,

α 또는 β > 0, γ = 0인 경우, 융합 유전자가 존재하지 않는다고 판정하는 공정에 의해 행해지는, (17)에 기재된 방법.

(19) 피험체 유래의 샘플로부터 전사 산물을 조제하는 공정,

상기 전사 산물로부터 cDNA를 조제하는 공정,

상기 배열 해석의 결과에 의거하여, 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정,

을 포함하는, 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법.

(20) 판정이, 이하의 공정:

상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되고 있다고 했을 때에,

가상 연결점에 있어서 유전자 융합이 생기고 있지 않는 엑손 A' 유래의 cDNA의 리드수를 α', 엑손 B' 유래의 cDNA의 리드수를 β'라고 하고, 엑손 스키핑에 의해 생기는 전사 산물 유래의 cDNA의 리드수를 γ'로 한 경우에,

0 < α' 또는 β' ≤ γ'인 경우, 엑손 스키핑에 의해 생기는 전사 산물이 존재한다고 판정하고,

0 < γ' < α' < β' 인 경우, 낮은 발현량으로 엑손 스키핑에 의해 생기는 전사 산물이 존재한다고 판정하고,

α' 또는 β' > 0, γ' = 0인 경우, 엑손 스키핑에 의해 생기는 전사 산물이 존재하지 않는다고 판정하는 공정에 의해 행해지는, (19)에 기재된 방법.

(21) 상기 판정 공정에 있어서, 동일 영역에 혼성화하는 복수의 프로브가 존재할 경우, 해당 복수의 프로브 수에 의거하여 전사 산물의 발현량을 보정하는 것을 포함하는, (17) ∼ (20) 중 어느 하나에 기재된 방법.

(22) 상기 판정 공정에 있어서, 하우스키핑 유전자의 발현량에 의거하여, 전사 산물의 발현량을 보정하는 것을 포함하는, (17) ∼ (21) 중 어느 하나에 기재된 방법.

(23) (17) ∼ (22) 중 어느 하나에 기재된 방법에 따라서, 게놈상의 융합 유전자의 전사 산물, 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물 존재 또는 그 발현량을 판정하는 공정,

을 포함하는, 피험체에 있어서의 질환의 이환 유무 또는 그 리스크를 판정하는, 암의 종류를 특정하거나, 또는 암의 예후를 판정하는 방법.

(24) 암의 종류의 특정이, 복수의 전사 산물의 존재 및/또는 발현량에 의거하여, 피험체 유래의 샘플을 클러스터링하는 것을 포함하는, (23)에 기재된 방법.

본 명세서는 본원의 우선권의 기초가 되는 일본 특허출원 번호 2017-125074호의 개시 내용을 포함한다.

본 발명에 의해, 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 간편하게 검출할 수 있는 방법이 제공될 수 있다.

도 1: 도 1A는 본 발명의 일실시형태의 프로브의 개념도이다. 도시한 프로브는 모두 우측 말단부가 5' 말단, 좌측 말단부가 3' 말단이다. 가상 연결점을 포함하는 연결 지지 리드가 얻어지도록, 리드 길이 z 및 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이 y에 의거하여, 프로브의 말단부로부터 가상 연결점까지의 최단 염기길이 x를 정할 수 있다. 도 1B는 본 발명의 일실시형태의 방법에 있어서, 배열 결정의 결과로부터 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 검출하는 방법의 일례를 나타낸다. 도 1B에 나타낸 바와 같이, 가상 연결점에 있어서 유전자 변이 (유전자 융합 또는 엑손 스키핑)이 생기지 않는 유전자 A 유래의 cDNA의 리드수를 α, 유전자 B 유래의 cDNA의 리드수를 β라고 하고, 가상 연결점에 있어서 유전자 변이가 생기고 있는 융합 유전자 유래의 cDNA의 리드수를 γ로 한 경우에, 0 < α 또는 β ≤ γ인 경우, 변이 유전자가 존재한다고 판정하고, 0 < γ < α 또는 β인 경우, 낮은 발현량으로 변이 유전자가 존재한다고 판정하고, α또는 β > 0, γ = 0인 경우, 변이 유전자가 존재하지 않는다고 판정할 수 있다.
도 2: 도 2A는 나타낸 각 방법에 있어서의, 10M(1000만) 로우 리드(raw read) 당의 연결 지지 리드의 수를 나타낸다 (Pancancer panel은 FFPE 유래의 합성cDNA의 전(全) 엑손 캡쳐를 나타낸다). 본 발명의 일실시형태의 정션 캡쳐법과, 종래의 코딩 엑손 캡쳐법을 이용한 경우의, 프로브수를 도 2B에, 표적 캡쳐 사이즈를 도 2C에 나타낸다. 도 2B 및 도 2C에 있어서의 V1, V2, 및 V3은 실시예에 있어서 기재한 유전자 패널(TOP RNA V1, TOP RNA V2, 및 TOP RNA V3)에 있어서의 결과를 나타내고 있다.
도 3: 도 3A는 3개의 상이한 방법: 즉, 신선 동결 샘플로부터 추출한 RNA의 폴리A 선택(폴리A 캡쳐), FFPE 유래의 합성 cDNA의 전 엑손 캡쳐(Pancancer panel), 또는 FFPE 유래의 합성 cDNA의 정션 캡쳐를 이용하여, RNA-seq에 의해 MET엑손 14 스키핑 양성의 증례에 있어서, MET 전사 산물에 시퀀스 리드를 매핑한 결과를 나타낸다. 도면에서, 2개의 세로선으로 끼워진 영역은 MET 엑손 14에 상당하는 영역을 나타내고, 이 영역에 리드가 없는 것이 엑손 스키핑 양성이라는 것을 나타낸다. 도 3B는 각 방법에 있어서의, 1000만 로우 리드 당의 MET 엑손 13 및 MET 엑손 15의 연결(엑손 스키핑) 지지 리드의 수를 나타낸다.
도 4: 도 4A는 헤마톡실린 및 에오신 염색한 골수 흡인 표본의 대표적인 사진이다 (200× 배율, 스케일 바 100μm). 도 4B는 헤마톡실린 및 에오신 염색한 TBLB 표본의 대표적인 사진이다 (좌측, 40× 배율, 스케일 바 1mm. 우측, 400× 배율, 스케일 바 100μm).
도 5: 도 5는 RNA-seq의 RPKM과, 정션 캡쳐법에 있어서의 타일링수에 의거한 보정을 행한 RPKM의 상관을 나타낸 도면이다. 발현량 측정용 유전자군의 결과를 A에, 융합 유전자 해석용 유전자군의 결과를 B에 나타낸다. 7개의 샘플 모두에 있어서 상관이 보여졌다.
도 6: 도 6은 유전자의 발현량에 의거하여 샘플을 클러스터링한 결과를 나타낸다. 세로축은 각 유전자를 나타내고, 발현 강도에 따라서 클러스터링을 행했다. 가로축은 각 샘플을 나타내고, LUAD, SARC, MUCA, 및 LUSC 등의 암종에 따라서 샘플이 클러스터링된 것을 알 수 있다.

1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브

일양태에 있어서, 본 발명은 대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브에 관한 것이다.

본 명세서에 있어서, "대규모 병렬 배열 결정 (Massively Parallel Sequencing)"은 DNA의 배열 결정을 대규모로 병렬로 실시하는 방법을 의미하고, 대규모 병렬 배열 결정에서는 통상, 10², 10³, 10⁴, 10⁵또는 그 이상의 분자가 동시에 시퀀싱된다. 대규모 병렬 배열 결정에는 예를 들면 차세대 시퀀스가 포함된다.

차세대 시퀀스란, 차세대 시퀀서를 이용한 배열 정보의 취득법이며, Sanger법에 비하여 방대한 수의 시퀀싱 반응을 동시 병행하여 실행할 수 있다는 것을 특징으로 한다 (예를 들면, Rick Kamps et al., Int. J. Mol. Sci., 2017, 18 (2), p.308 및 Int. Neurourol. J., 2016, 20 (Suppl.2), S76-83을 참조 바람). 차세대 시퀀스를 위한 시스템에는 여러 가지의 것이 제공되고 있으며, 한정하는 것이 아니지만, 예를 들면 Roche의 Genome Sequencer (GS) FLX System, Illumina의 HiSeq, 또는 Genome Analyzer (GA), Life technologies의 Support Oligonucleotide Ligation Detection (SOLiD) 시스템, Polonator의 G.007 시스템, 및 Helicos BioSciences의 HeliScope Gene Sequencing 시스템 등을 이용할 수 있다.

한정하는 것이 아니지만, 차세대 시퀀스가 일반적인 공정을 이하에 나타낸다. 차세대 시퀀스에서는, 먼저 처음에, 샘플 조제를 행한다. 이 공정에서는, 해석 대상이 되는 핵산을, 차세대 시퀀서의 리드 길이에 맞춰서 효소적 또는 기계적으로 단편화한다. 계속해서, 대부분의 경우, 다음 시퀀스 공정에 필요한 어댑터 배열을 부가한다. 또, 특정 유전자 영역을 해석하기 위하여, PCR 등에 의해 특정 유전자 영역을 부화해도 무방하고, 또는 프로브 등을 이용하여 특정 배열을 갖는 영역을 농축해도 무방하다. 유전자 영역의 부화는 예를 들면 4 ~ 12 사이클의 증폭 스텝에 의해 행할 수 있고, 프로브를 이용한 농축은 프로브에 붙인 표식자 (예를 들면 비오틴 등)을 이용하여 행할 수 있다.

계속해서, 시퀀싱이 행해진다. 이 공정의 상세는 차세대 시퀀서의 종류에 따라 다르지만, 전형적으로는 어댑터 배열을 통해서 기판에 연결시키고, 또 어댑터 배열을 프라이밍 부위로서 시퀀싱 반응이 행해진다. 시퀀스 반응의 상세에 대해서는 예를 들면 Rick Kamps et al.(상기 기재)을 참조하기 바란다.

마지막으로, 데이터 출력이 행해진다. 이 공정에서는 시퀀싱 반응에 의해 얻어진 배열 정보 (리드)를 모은 것이 얻어진다. 출력된 데이터를 더 해석하여, 리드수, 예를 들면 로우 리드 당 연결 지지 리드 수 등의 더욱 의미 있는 결과를 도출할 수 있다.

본 명세서에 있어서, "리드수"란 특정 배열을 갖는 증폭 산물의 증폭량을 가리킨다. 리드수는 통상 시퀀싱 전의 핵산 양에 비례하기 때문에, 리드수를 이용하여 유전자의 발현량을 추정할 수 있다.

본 명세서에 있어서, "연결 지지 리드"란 유전자 융합 또는 엑손 스키핑에 의해 생기는 전사 산물에 있어서의 연결점, 또는 유전자 융합 또는 엑손 스키핑에 의해 생기는 게놈상의 연결점을 포함하는 리드를 의미하고, "연결 지지 리드수"는 연결 지지 리드의 수를 의미한다. 본 명세서에 있어서, "로우 리드 (raw read)"란 차세대 시퀀스에 의해 얻어진 리드의 총수를 나타내고, 로우 리드 당의 연결 지지 리드수를 산출함으로써, 연결 지지 리드의 빈도를 평가할 수 있다.

본 명세서에 있어서, "게놈상의 융합 유전자"란 결실, 삽입, 역위, 및 전좌 등에 의해 생기는 염색체 재구성의 결과, 복수의 유전자가 연결되어서 생기는 변이 유전자를 가리킨다. 통상, 융합 유전자는 그 발현 산물로서 전사에 의해 RNA 분자를 생기게 한다. 예를 들면, RNA 분자의 예로서 융합 단백질을 코드하는 mRNA 등의 전사 산물을 들 수 있다. 본 명세서에 있어서, 융합 유전자의 종류는 한정하지 않지만, 예를 들면 발암성을 갖는 융합 유전자, 예를 들면 EML4-ALK, BCR-ABL1, KIF5B-RET, SLC34A 2-ROS1, CD74-ROS1, SS18-SSX1, SS18-SSX2, NAB2-STAT6, EWSR1-FLI1, SYT-SSX1, FUS-CREB3L2, TPM3-ROS1, CD74-NRG1, 및 EWSR1-FLI1 등을 들 수 있다.

본 발명에 있어서, 게놈상의 융합 유전자의 전사 산물의 "존재"란 융합 유전자의 게놈상의 유무를 가리키고, 융합 유전자의 전사 산물의 "발현량"은 융합 유전자에 유래하는 mRNA, rRNA, 및 tRNA 등의 전사 산물, 바람직하게는 mRNA의 발현량을 가리킨다.

일실시형태에 있어서, 본 발명의 프로브는 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현된다고 했을 경우, 상기 전사 산물로부터 조제한 cDNA의 유전자 A 또는 B 중 어느 하나에 유래하는 영역에 혼성화한다. 융합 유전자를 형성할 수 있는 각 유전자, 및 가상 연결점에 대해서는, 과학 논문, 특허문헌, 및 COSMIC 등의 데이터베이스를 참조하여, 결정할 수 있다.

본 명세서에 있어서, "엑손"이란 유전자의 염기 배열 중에서, 성숙 전사 산물 중에 남는 영역을 의미한다. 일반적으로, 진핵 생물에서는 유전자는 일차 전사 산물로서 전사된 후, 스플라이싱에 의해 인트론이라고 불리는 개재 영역이 제거되고, 엑손끼리가 연결되어서 성숙 전사 산물이 형성된다. 예를 들면, 단백질을 코드하는 유전자의 경우, 전사에 의해 생긴 mRNA 전구체 (pre-miRNA)로부터 pre-miRNA 스플라이싱에 의해 인트론이 제거되어서 연결된 엑손으로 구성되는 성숙 miRNA가 생긴다.

일실시형태에 있어서, 전사 산물의 RNA 분자로부터 조제한 cDNA에 프로브가 혼성화했을 때의 각 프로브에 5'측 또는 3'측의 어느 한 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 각 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y가 되도록, 프로브를 설계한다. 이러한 가상 연결점을 포함하지 않는 핵산 영역에 혼성화하는 프로브를, 이하 "가상 연결점 비함유 프로브"라고도 기재한다. 가상 연결점 비함유 프로브는 복수의 융합 파트너, 및 신규의 융합 유전자를 검출할 수 있다는 이점을 갖는다.

본 발명의 이해를 쉽게 하기 위하여, 본 실시형태의 프로브 설계를 도 1A에 나타낸다. 도 1A에서는 프로브의 말단부로부터 가상 연결점까지의 최단 염기길이 x, 상기 프로브에 있어서의 cDNA와 혼성화하는 영역의 염기길이 y, 및 리드 길이 z가 나타내지고, 대규모 병렬 배열 결정에 의해 가상 연결점을 포함하는 리드를 얻을 수 있을 수 있다는 것을 나타내고 있다.

일실시형태에 있어서, 리드 길이 z는 대규모 병렬 배열 결정에 이용하는 기기 및 방법 등에 의해 정해진다. 또, 샘플 유래의 핵산이 단편화되고 있을 경우 및/또는 시퀀스 앞에 핵산의 단편화를 행할 경우, 이들 단편의 길이에 의해 리드 길이가 규정될 수 있다. 리드 길이 z의 길이는 한정하지 않지만, 예를 들면 50 이상, 75 이상, 100 이상, 150 이상, 또는 160 이상이어도 무방하고, 500 이하, 400 이하, 300 이하, 200 이하, 또는 180 이하이어도 무방하고, 예를 들면 50 ~ 500, 100 ~ 300, 또는 150 ~ 200 이어도 무방하다. 한편, 대규모 병렬 배열 결정에서는, 핵산의 한 쪽으로부터만 시퀀스를 행하는 싱글 리드와, 핵산의 양측으로부터 시퀀스를 행하는 페어 엔드가 존재하지만, 상기 리드 길이 z는 바람직하게는 페어 엔드에 있어서의 리드 길이이다.

프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이 y는 당업자라면 적절히 정할 수 있다. y는 예를 들면 20 이상, 30 이상, 40 이상, 바람직하게는 50 이상, 60 이상, 또는 80 이상이어도 무방하고, 220 이하, 200 이하, 180 이하, 바람직하게는 160 이하, 140 이하, 또는 120 이하이어도 무방하고, 예를 들면 20 ~ 220, 50 ~ 160, 또는 60 ~ 140 이어도 무방하다. 바람직하게는 프로브는 가상 연결점에 가까운 말단부로부터 연속하는 영역에 있어서 cDNA와 혼성화한다. 일실시형태에 있어서, 프로브는 그 전장에 있어서 cDNA와 혼성화하고, 이 경우, y는 프로브의 길이와 동일하게 된다.

프로브의 염기길이는 한정하지 않지만, 예를 들면 20 이상, 40 이상, 60 이상, 80 이상, 100 이상, 110 이상, 또는 115 이상이어도 무방하고, 220 이하, 200 이하, 180 이하, 160 이하, 140 이하, 130 이하, 또는 125 이하이어도 무방하고, 예를 들면 20 ~ 220, 60 ~ 180, 100 ~ 140, 110 ~ 130, 115 ~ 125, 또는 120 이어도 무방하다.

프로브의 말단부로부터 가상 연결점까지의 최단 염기길이 x는 상기 리드 길이 z 및 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이 y에 의거하여 적절히 정할 수 있다. 예를 들면, 프로브의 말단부로부터 가상 연결점까지의 최단 염기길이 x의 하한은 0 이며, 이것은 가상 연결점에 인접하는 영역에 대하여 프로브가 설계되고 있는 것을 의미한다. x의 상한은 한정되지 않고, 예를 들면 300 이하, 250 이하, 200 이하, 150 이하, 140 이하, 130 이하, 125 이하, 120 이하이어도 무방하고, x는 예를 들면 0 ~ 300, 0 ~ 200, 0 ~ 140, 0 ~ 125, 또는 0 ~ 120 이어도 무방하다.

z ≥ x + y + a (a ≥ 0)은 가상 연결점을 넘어서 a 염기 이상의 배열을 포함하는 리드가 얻어질 수 있다는 것을 나타내고 있으며, 이와 같이 가상 연결점의 부근에 프로브를 복수개 설계함으로써, 이 프로브를 이용하여, 융합 유전자에 관한 여러 가지 종류의 전사 산물을 효율적으로 농축할 수 있다. a의 값은 0 이상이라면 특히 한정하지 않지만, 크게 하면 특이성이 높아지는 한편, 검출 감도가 떨어지기 때문에, 당업자라면 본 명세서의 내용을 참조해서 적절히 정할 수 있다. a의 값은 예를 들면 5 이상, 10 이상, 바람직하게는 15 이상, 20 이상, 30 이상, 50 이상, 또는 100 이상이어도 무방하고, 500 이하, 400 이하, 바람직하게는 300 이하, 200 이하, 또는 150 이하이어도 무방하다.

프로브는 표적 유전자의 배열에 의거하여 당업자라면 용이하게 설계할 수 있다. 본 명세서에 있어서, "표적 유전자"란 본 발명의 프로브에 의해 포착될 수 있는 유전자, 예를 들면 융합 유전자를 형성할 수 있는 유전자, 및 엑손 스키핑을 생길 수 있는 유전자 등을 가리킨다.

그러한 프로브의 예로서, 예를 들면, (a) 표적 유전자의 상보적인 배열의 연속하는 적어도 20, 40, 60, 80, 100, 110, 115, 또는 120의 염기 배열, (b) (a)의 염기 배열에 있어서, 1 또는 복수개의 염기가 부가, 결실, 및/또는 치환된 염기 배열, (c) (a)의 염기 배열에 대하여, 예를 들면 70% 이상, 80% 이상, 바람직하게는 90% 이상, 95% 이상, 97% 이상, 98% 이상, 또는 99% 이상의 동일성을 갖는 염기 배열, 및 (d) 표적 유전자의 연속하는 적어도 20, 40, 60, 80, 100, 110, 115, 또는 120의 배열에 대하여, 엄격한(stringent) 조건으로 혼성화하는 핵산의 염기 배열을 포함하는 프로브를 들 수 있다.

본 명세서에 있어서, "1 또는 복수개"의 범위는 1 내지 10개, 바람직하게는 1 내지 7개, 더욱 바람직하게는 1 내지 5개, 특히 바람직하게는 1 내지 3개, 또는 1개 또는 2개이다. 또, 본 명세서에 있어서, 염기 배열에 관한 동일성의 값은 복수의 배열 간의 동일성을 연산하는 소프트웨어 (예를 들면, FASTA, DANASYS, 및 BLAST)을 이용하여 디폴트의 설정으로 산출한 값을 나타낸다. 동일성의 결정 방법의 상세에 대해서는, 예를 들면 Altschul et al, Nuc. Acids. Res.25, 3389-3402, 1977 및 Altschul et al, J. Mol. Biol.215, 403-410, 1990을 참조하기 바란다.

본 명세서에 있어서, "엄격한(stringent) 조건"이란 이른바 특이적인 하이브리드가 형성되어, 비특이적인 하이브리드가 형성되지 않는 조건을 의미한다. 엄격한 조건은 공지의 하이브리디제이션법의 조건을 이용할 수 있다. 예를 들면 Green and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Press 를 참조해서 적절히 결정하면 무방하다. 구체적으로는, 하이브리디제이션법 온도나 용액에 포함되는 염 농도, 및 하이브리디제이션법의 세정 공정에 있어서의 온도나 용액에 포함되는 염 농도에 의해 엄격한 조건을 설정하면 무방하다. 보다 상세한 엄격한 조건으로는, 예를 들면, 나트륨 농도가 25 ~ 500 mM, 바람직하게는 25 ~ 300 mM이며, 온도가 42 ~ 68℃, 바람직하게는 42 ~ 65℃를 들 수 있다. 보다 구체적으로는 5×SSC (83mM NaCl, 83mM 구연산 나트륨), 온도 42℃를 들 수 있다.

프로브는 상기 배열에 의거하여 당업자에게 알려진 공지의 방법에 의해 조제할 수 있고, 한정되는 것이 아니지만, 예를 들면 화학 합성법에 의해 조제할 수 있다.

일실시형태에 있어서, 본 발명은 상이한 상기 프로브를 적어도 2개 포함하는 프로브 세트에 관한 것이다. 상기 프로브의 수는 2개 이상이라면 특히 한정하지 않지만, 지나치게 적으면 검출 감도가 저하되고, 너무 많으면 비용이 증가하기 때문에, 감도 및 비용 등을 감안하여, 본 명세서의 내용을 참조하여 적절히 정하면 무방하다. 프로브 세트에 포함될 수 있는 상기 프로브의 수는 예를 들면 3개 이상, 4개 이상, 5개 이상, 6개 이상, 8개 이상, 10개 이상, 또는 11개 이상, 또는 30개 이하, 25개 이하, 20개 이하, 15개 이하, 14개 이하, 13개 이하, 또는 12개 이하이어도 무방하다.

프로브 세트에 포함되는 각 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이 x는 각각의 값이 동일하지 않고, 또 분산되어 있는 것이 바람직하다. 이에 따라, 여러 가지 핵산 단편을 포착할 수 있기 때문이다. 예를 들면, 프로브 세트가 n개의 프로브를 포함하고, 각 프로브의 최단 염기길이를 각각 x₁, x₂, x₃, … x_n (단, x₁ < x₂ < x₃ … < x_n)로 한 경우,

[수학식 1]

x₁＝ 0±b、x₂＝x_n×1/（n-1）±b、x₃＝ x_n×2/（n-1）±b、…x_n=x_n×（n-1）/（n-1）±b

이 되도록, 각 프로브의 최단 염기길이를 정할 수 있다. b는 상수로, b가 0인 경우, 각 프로브의 최단 염기길이 x가, 가상 연결점으로부터 균등하게 분포되어 있는 것을 의미하고, b의 값이 커질수록 가상 연결점으로부터의 분포가 불균등해지는 것을 의미한다. b는 예를 들면 50 이하, 40 이하, 30 이하, 25 이하, 20 이하, 15 이하, 10 이하, 바람직하게는 5 이하, 4 이하, 3 이하, 2 이하, 1 이하, 또는 0 이다. 또, x_n은 임의의 값이어도 무방하고, 예를 들면 20 ~ 500, 30 ~ 400, 40 ~ 300, 60 ~ 200, 80 ~ 180, 바람직하게는 100 ~ 140, 110 ~ 130, 115 ~ 125, 또는 120 이어도 무방하다.

또, 프로브의 수 n이 3 이상인 경우, 상기 식에 따라서 프로브를 설계한 후, m개의 프로브를 프로브 세트로부터 제외해도 무방하다 (단, m은 1 이상의 정수, 예를 들면 1 ~ 5, 1 ~ 4, 1 ~ 3, 1 ~ 2, 바람직하게는 1로, n - m ≥ 2이다).

일실시형태에 있어서, 본 발명의 프로브는 차세대 시퀀스의 시퀀싱 공정 전에 특정의 핵산 배열을 농축하기 위하여 이용할 수 있다.

일양태에 있어서, 본 발명의 프로브는 가상 연결점을 포함하는 핵산 영역에 혼성화한다. 이러한 가상 연결점을 포함하는 핵산 영역에 혼성화하는 프로브를, 이하 "가상 연결점 함유 프로브"라고도 기재한다). 가상 연결점 함유 프로브, 또는 그 세트에 대하여, 가상 연결점을 포함하는 핵산 영역에 혼성화하는 프로브를 포함하는 이외의 구성, 예를 들면 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이 y 및 프로브 세트에 포함되는 프로브의 수는 상술의 "가상 연결점 비함유 프로브"와 마찬가지이다. 단, 가상 연결점 함유 프로브는 유전자 A의 일부와 유전자 B의 일부의 융합에 의해 생기는 하나의 융합 유전자만을 검출하기 위하여, 특이성이 높지만, 여러 가지 융합 파트너를 검출할 수 없다.

일실시형태에 있어서, 가상 연결점 함유 프로브는 상기 융합 유전자의 전사 산물로부터 조제한 cDNA의 5'측의 유전자 A와 3'측의 유전자 B의 쌍방에 유래하는 영역에 10 염기 이상, 15 염기 이상, 20 염기 이상, 30 염기 이상, 40 염기 이상, 50 염기 이상, 또는 60 염기 이상으로 혼성화한다.

일실시형태에 있어서, 본 발명의 프로브 세트는 상기 "가상 연결점 비함유 프로브"에 더해서, "가상 연결점 함유 프로브"를 포함한다. 양쪽의 프로브를 포함함으로써, 검출 특이성을 더욱 높일 수 있다. 일실시형태에 있어서, 본 발명의 프로브 세트는 z ≥ x + y를 만족시키는 프로브, 및 상기 가상 연결점 함유 프로브만으로 이루어진다. 또 별도의 일실시형태에 있어서, 본 발명의 프로브 세트는 z ≥ x + y를 만족시키는 프로브만으로 이루어진다.

본 발명의 프로브 세트는 평가 대상이 되는 모든 표적 유전자의 엑손의 5' 말단측 및 3' 말단측에 대해서 설계되어도 무방하지만, 융합 유전자를 형성하는 것이 알려져 있는 유전자의, 유전자 융합에 관련된 엑손에 5' 말단측 및/또는 3' 말단측에 대해서만 프로브를 설계하는 것이 바람직하다.

일실시형태에 있어서, 본 발명의 프로브 또는 프로브 세트는 적어도 1개의 유전자 발현량 측정용 프로브를 더 포함한다. 유전자 발현량 측정용 프로브란, 대규모 병렬 배열 결정에 있어서 유전자 발현량을 측정하기 위하여 이용되는 프로브이다. 유전자 발현량 측정용 프로브는 발현량을 측정하고자 하는 유전자에 대하여 골고루, 또, 예를 들면 2× 타일링 이상의 밀도로 설계할 수 있다. 유전자 발현량 측정용 프로브의 염기길이는 한정하지 않지만, 예를 들면 20 이상, 40 이상, 60 이상, 80 이상, 100 이상, 110 이상, 또는 115 이상이어도 무방하고, 220 이하, 200 이하, 180 이하, 160 이하, 140 이하, 130 이하, 또는 125 이하이어도 무방하고, 예를 들면 20 ~ 220, 60 ~ 180, 100 ~ 140, 110 ~ 130, 115 ~ 125, 또는 120 이어도 무방하다. 하나의 유전자에 대한 유전자 발현량 측정용 프로브의 수는 한정하지 않지만, 예를 들면 3개 이상, 4개 이상, 5개 이상, 6개 이상, 8개 이상, 10개 이상, 또는 11개 이상, 또 30개 이하, 25개 이하, 20개 이하, 15개 이하, 14개 이하, 13개 이하, 또는 12개 이하이어도 무방하다. 유전자 발현량 측정용 프로브는 "복수"의 유전자, 예를 들면 2 이상, 5 이상, 10 이상, 50 이상, 100 이상, 150 이상, 200 이상, 250 이상, 바람직하게는 300 이상, 400 이상, 또는 500 이상이어도 무방하고, 2000 이하, 1000 이하, 900 이하, 바람직하게는 800 이하, 700 이하, 또는 600 이하의 유전자에 대한 프로브이어도 무방하다. 발현량을 측정하는 표적 유전자의 예로서, 암 유전자 (예를 들면, ALK, EGFR, ERBB2, MET), 및 하우스키핑 유전자를 들 수 있다. 이들 유전자의 적어도 일부에 결합 가능한 핵산을, 프로브로서 이용할 수 있다. 발현량 측정용 프로브를 포함함으로써, 보다 정확하게 유전자의 발현량을 측정하는 것이 가능해진다.

일실시형태에 있어서, 본 발명은 상이한 복수의 상기 프로브 또는 프로브 세트를 포함하는 조합 또는 프로브 세트에 관한 것이다. 여기서, 조합 프로브 세트는 복수의 상이한 융합 유전자에 대한 프로브 세트를 포함하는 것이 바람직하고, 이에 따라 복수의 융합 유전자의 전사 산물 존재 또는 그 발현량을 동시에 검출할 수 있다. "복수"의 하한 및 상한은 특히 한정하지 않지만, 예를 들면 2 이상, 5 이상, 10 이상, 50 이상, 100 이상, 150 이상, 200 이상, 250 이상, 바람직하게는 300 이상, 400 이상, 또는 500 이상이어도 무방하고, 2000 이하, 1000 이하, 900 이하, 바람직하게는 800 이하, 700 이하, 또는 600 이하이어도 무방하다.

일실시형태에 있어서, 본 명세서에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트는 포함되는 RNA가 분해 또는 열화한 샘플, 예를 들면 가공 처리를 행한 생체 샘플 유래의 전사 산물에 대하여 바람직하게 이용할 수 있다. 가공 처리의 종류로는, 열 처리, 동결 처리, 산 처리, 염기 처리, 바람직하게는 FFPE (포르말린 고정 파라핀 포매) 등의 고정 처리 등을 들 수 있다.

2. 본 발명의 프로브 효과

상기와 같이, 본 발명의 프로브는 대규모 병렬 배열 결정에 의해 가상 연결점을 포함하는 리드가 얻어지는 핵산 단편을 포착하고, 농축할 수 있기 때문에, 농축을 행한 샘플에 대하여 대규모 병렬 배열 결정을 행함으로써, 효율적으로 융합 유전자를 검출할 수 있다. 또, 일실시형태에 있어서, 본 발명의 프로브 세트는 mRNA 등의 전사 산물로부터 조제한 cDNA에 대하여 이용되고, 또 가상 연결점 부근에 집중적으로 프로브를 포함할 수 있기 때문에, 게놈 DNA의 인트론 부분을 포착하는 인트론 캡쳐법, 및 모든 엑손 부분을 포착하는 코딩 엑손 캡쳐법보다도, 필요로 되는 프로브의 수가 적다는 이점을 가질 수 있다. 또, 일실시형태에 있어서, 본 발명의 프로브 세트는 가상 연결점 부근에 집중적으로 프로브를 포함하기 때문에, 가상 연결점을 포함하는 여러 가지 핵산 단편을 얻을 수 있다. Ryan Tewhey et al (Genome Biology, 2009, 10, R116)에 의해, 프로브를 2× 타일링 이상의 밀도로 해도 coverage가 향상되지 않는 것이 나타내져 있기 때문에, 가상 연결점 부근에 집중적으로 프로브를 포함함으로써, 융합 유전자 또는 엑손 스키핑의 검출 효율이 향상하는 것은 놀랄만한 것이었다. 한편, 본 명세서에 있어서 "타일링"이란 표적 유전자에 대하여 프로브가 설계되는 밀도를 의미하고, 타일링의 배수의 값 n은 프로브의 길이를 w로 하면, w/n 씩 간격을 두어서 프로브가 설계되고 있는 것을 의미한다.

또, 일실시형태에 있어서, 본 발명의 프로브는 mRNA에 포함되는 폴리A 배열을 전사 또는 농축에 필요로 하지 않기 때문에, 특히 RNA가 분해 또는 열화된 샘플에 있어서 효율적으로 융합 유전자를 검출할 수 있다.

3. 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브

일양태에 있어서, 본 발명은 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브, 또는 상이한 본 프로브를 적어도 2개 포함하는 프로브 세트에 관한 것이다. 상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있다고 한 경우, 본 양태의 프로브는 상기 전사 산물로부터 조제한 cDNA의 엑손 A' 또는 B' 중 어느 하나에 유래하는 영역에 혼성화한다. 일실시형태에 있어서, 프로브가 상기 전사 산물로부터 조제한 cDNA에 혼성화했을 때의 각 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 각 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y이다.

일양태에 있어서, 대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며, 상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며, 상기 전사 산물로부터 조제한 cDNA에 있어서의 엑손 스키핑이 생길 수 있는 가상 연결점을 포함하는 영역에 혼성화하는 프로브, 또는 상이한 본 프로브를 적어도 2개 포함하는 프로브 세트에 관한 것이다.

본 명세서에 있어서, "엑손 스키핑"이란 스플라이싱 미스에 의해, 일부의 엑손이 인트론과 함께 제거되는 결과, 이상한 엑손 연결이 생기는 현상을 말한다. 예를 들면, 야생형 유전자가 엑손 A', B', 및 C'를 포함할 경우, 원래 엑손 A', B', 및 C'이 연결되어야 할 곳을 스플라이싱의 미스에 의해 엑손 B'가 스킵 아웃되어서 엑손 A'와 엑손 C'이 연결되는 경우가 해당한다. 엑손 스키핑에 의해 생기는 산물은 이상 산물이기 때문에, 질환의 원인이 되는 경우가 많다. 예를 들면 MET (mesenchymal-epithelial transition)의 엑손 14의 스키핑은 비소세포 폐암의 이환율과 관련이 있다는 것이 알려져 있다.

엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 것인 이외의 본 양태의 프로브의 구성, 예를 들면 프로브의 수, 각 프로브의 말단부로부터 가상 연결점까지의 최단 염기길이 x, 각 프로브에 있어서의 cDNA와 혼성화하는 영역의 염기길이 y, 대규모 병렬 배열 결정의 리드 길이 z, 각 프로브의 배열, 설계 등은 상기 "1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"에 준한다. 유전자 발현량 측정용 프로브를 더 포함할 수 있는 점에 대해서도, "1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"와 마찬가지이다. 또, 본 양태의 프로브의 효과는 상기 "2. 본 발명의 프로브 효과"에 준한다.

일양태에 있어서, 본 발명은 상기 "1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브" 및 본 양태의 "엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브" 양쪽을 포함하는 프로브 세트에 관한 것이다. 이 프로브 세트를 이용함으로써, 융합 유전자와 엑손 스키핑의 양쪽을 동시에 검출할 수 있다.

4. 프로브를 포함하는 키트

일양태에 있어서, 본 발명은 상기 "1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브" 및/또는 상기 "3. 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"에 기재된 프로브, 프로브 세트, 또는 조합 프로브 세트를 포함하는 키트에 관한 것이다.

본 키트는 상기 프로브에 더해서, 예를 들면, 버퍼, 효소, 및 사용 설명서 등을 포함해도 무방하다.

본 키트는 융합 유전자의 전사 산물의 존재 또는 그 발현량, 및/또는 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위하여 이용될 수 있다.

5. 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법

일양태에 있어서, 본 발명은 게놈상의 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법에 관한 것이다. 본 양태의 방법은 피험체 유래의 샘플로부터 전사 산물을 조제하는 공정 (전사 산물 조제 공정), 전사 산물로부터 cDNA를 조제하는 공정 (cDNA 조제 공정), 상기 "1.게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"의 프로브, 프로브 세트 또는 조합 프로브 세트의 프로브에 혼성화한 표적 cDNA를 농축하는 공정 (농축 공정), 농축된 표적 cDNA에 대하여, 대규모 병렬 배열 결정에 의한 배열 결정을 하는 공정 (배열 결정 공정), 및 배열 결정의 결과에 의거하여, 게놈상의 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정 (판정 공정),을 이 순서로 포함한다.

본 방법을 구성하는 각 공정에 대하여, 이하에 상세히 설명한다.

(1) 전사 산물 조제 공정

전사 산물 조제 공정에서는, 피험체 유래의 샘플로부터 전사 산물을 조제한다. 본 명세서에 있어서, 피험체의 생물종은 한정하지 않지만, 바람직하게는 포유 동물, 예를 들면 인간 및 침팬지 등의 영장류, 라트(rat) 및 마우스 등의 실험 동물, 돼지, 소, 말, 양, 및 염소 등의 가축 동물, 및 개 및 고양이 등의 애완 동물, 바람직하게는 인간이다.

본 명세서에 있어서, "샘플"이란 본 발명의 방법에 제공되는 생체 시료를 의미한다. 본 발명에 있어서 사용 가능한 샘플로는, 한정하는 것이 아니지만, 예를 들면 생체로부터 단리한 체액, 세포 또는 조직을 들 수 있다. 체액의 예로서, 혈액, 땀, 타액, 젖, 및 오줌 등을 들 수 있고, 세포의 예로서, 예를 들면 말초혈세포, 세포를 포함하는 림프액 및 조직액, 모모(毛母) 세포, 구강 세포, 비강 세포, 장관 세포, 질내 세포, 점막 세포, 객담(폐포 세포 또는 기간 세포 등을 포함할 수 있다)을 들 수 있다. 조직의 예로서, 암의 병변 부위, 예를 들면, 뇌, 인두, 갑상선, 폐, 유방, 식도, 위, 간장, 췌장, 신장, 소장, 대장, 방광, 전립선, 자궁, 난소, 바람직하게는 폐 등을 들 수 있고, 예를 들면 이들 조직의 생검 샘플을 이용할 수 있다. 샘검 샘플을 이용할 경우, 조직학적인 병리 진단과 본 발명의 방법에 의한 융합 유전자의 검출을 동시에 행할 수 있기 때문에, 피험체의 병리학적 증상을 보다 정확하게 특정할 수 있다.

또, 일실시형태에서는, 샘플로서, 포함되는 RNA가 분해 또는 열화된 샘플, 예를 들면 가공 처리를 행한 생체 샘플을 이용할 수 있다. 가공 처리의 종류로는, 열 처리, 동결 처리, 산 처리, 염기 처리, 바람직하게는 FFPE (포르말린 고정 파라핀 포매) 등의 고정 처리 등을 들 수 있다.

전사 산물 (total RNA)에는 rRNA, tRNA, 및 mRNA가 포함될 수 있지만, 바람직하게는 mRNA이다.

샘플로부터의 전사 산물의 조제는 공지의 임의의 방법을 이용하여 행할 수 있다. 예를 들면, 샘플과; 치오시안산 구아니딘 및 계면활성제를 포함하는 가용화액;을 혼합하고, 얻어진 혼합액에 물리적 처리 (교반, 호모게나이즈, 초음파 파쇄 등)을 실시하여, 전사 산물을 추출할 수 있다. 바람직하게는, 부가적으로, 페놀 및 클로로포름을 첨가하여 교반하고, 이것을 원심 분리함으로써, 전사 산물을 포함하는 수층을 회수하는 방법 (AGPC법)을 이용할 수도 있다. 계속해서, 당해 수층으로부터 알코올 침전법 등에 의해 전사 산물을 얻을 수 있다. 또, RNA의 추출에는 RNA-Bee (Tel-Test Inc.), 및 TRIZOL (Thermo Fisher Scientific) 등의 시판 키트를 이용할 수도 있다. 이들의 구체적인 순서 등에 대해서는, 당해 분야의 프로토콜, 예를 들면, Green and Sambrook, Molecular Cloning, 4th Ed (2012), Cold Spring Harbor Laboratory Press를 참조하면 무방하다. 본 명세서에 기재된 다른 생물학적인 수법, 예를 들면 이하의 cDNA 조제 공정, 및 농축 공정에 대해서도, Green and Sambrook (상기 기재)을 참조할 수 있다.

(2) cDNA 조제 공정

전사 산물 조제 공정에서 얻어진 전사 산물로부터의 cDNA의 제조는 역전사 효소를 이용하는 역전사 반응에 의해 행할 수 있다. 역전사 반응을 행할 때에 사용하는 프라이머, 역전사 효소, 및 반응 조건 등은 당업자라면, 공지의 것을 적절히 선택할 수 있다. 본 발명의 방법에서는, 이하에서 기재하는 농축 공정에 의해 목적하는 핵산 단편이 농축되기 때문에, 폴리A 배열을 이용하여 mRNA만을 역전사할 필요가 없고, 예를 들면 랜덤 프라이머 등을 이용하여 total RNA를 역전사해도 무방하다.

(3) 농축 공정

농축 공정에서는 본 명세서에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트에 혼성화한 표적 cDNA를 농축한다. 농축은 당업자에게 알려진 임의의 방법을 이용하여 행할 수 있다. 예를 들면, 프로브에 표식자를 붙이고, 표식자와 다른 물질과의 상호 작용에 의해 프로브에 혼성화한 표적 cDNA를 농축할 수 있다. 예를 들면, 프로브에 비오틴을 붙여서 아비딘과의 상호 작용에 의해 프로브에 혼성화한 cDNA를 농축해도 무방하고, 기질 또는 항원 항체 반응을 이용한 어피니티 크로마토그래피에 의해 농축을 행해도 무방하고, 프로브에 자성 비즈를 붙여서 자기에 의해 프로브에 혼성화한 cDNA를 농축해도 무방하다.

프로브 세트에 의한 농축 공정의 전 또는 후에, 대규모 병렬 배열 결정에 있어서의 리드 길이에 맞춰서 cDNA를 효소적 또는 기계적으로 단편화해도 무방하다. 또, 후의 시퀀스 공정에 필요한 어댑터 배열을 부가해도 무방하다. 농축 공정의 전 또는 후에 특정의 유전자 영역을 해석하기 위하여, PCR 등에 의해 특정의 유전자 영역을 부화해도 무방하다. 유전자 영역의 부화는 예를 들면 4 ~ 12 사이클의 증폭 스텝에 의해 행할 수 있다.

(4) 배열 결정 공정

배열 결정 공정에서는, 농축된 표적 cDNA에 대하여, 대규모 병렬 배열 결정에 의한 배열 결정이 행해진다. 시퀀싱 공정의 상세는 대규모 병렬 배열 결정에 이용하는 기기의 종류 등에 따라 다르지만, 전형적으로는 어댑터 배열을 통해서 기판에 연결시키고, 또 어댑터 배열을 프라이밍 부위로서 시퀀싱 반응이 행해진다. 시퀀스 반응의 상세에 대해서는 예를 들면 Rick Kamps et al.(상기 기재)을 참조하기 바란다.

본 공정에서는 시퀀싱 반응에 의해 얻어진 배열 정보 (리드)를 모은 것을 얻을 수 있다. 출력된 데이터를 더욱 해석하여, 리드수, 예를 들면 로우 리드 당 연결 지지 리드수 등의 더욱 의미 있는 결과를 도출할 수 있다. 대규모 병렬 배열 결정을 위한 장치는 각 메이커에서 시판되고 있으며, 그것들을 이용할 수 있다. 예를 들면, 한정하는 것이 아니지만, Roche의 Genome Sequencer (GS) FLX System, Illumina의 HiSeq, 또는 Genome Analyzer (GA), Life technologies의 Support Oligonucleotide Ligation Detection (SOLiD) 시스템, Polonator의 G.007 시스템, 및 Helicos BioSciences의 HeliScope Gene Sequencing 시스템 등을 이용할 수 있다.

(5) 판정 공정

판정 공정에서는, 배열 결정 공정의 결과에 의거하여, 게놈상의 융합 유전자의 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량이 판정된다. 판정 공정의 일례를, 도 1B에 나타낸다. 판정 공정의 구체적인 방법은 한정되는 것이 아니지만, 예를 들면 이하의 기준에 의해 행할 수 있다.

융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현된다고 했을 때에, 가상 연결점에 있어서 유전자 융합이 생기지 않는 유전자 A 유래의 cDNA의 리드수를 α, 유전자 B 유래의 cDNA의 리드수를 β로 하고, 가상 연결점에 있어서 유전자 융합이 생기고 있는 융합 유전자 유래의 cDNA의 리드수를 γ로 한 경우에,

0 < α또는 β ≤ γ인 경우, 융합 유전자가 존재한다고 판정하고,

α 또는 β > 0, γ = 0인 경우, 융합 유전자가 존재하지 않는다고 판정할 수 있다.

α 및/또는 β = 0, 및 γ = 0인 경우에는 융합 유전자의 전사 산물이 존재하지 않거나, 또는 샘플의 질이 나쁨에 따라서 전사 산물이 분해되어 있는지 중 어느 하나라고 생각된다. 이 경우, 추정 융합 유전자의 양쪽의 유전자의 야생형 전사 산물의 가상 연결점 부근의 리드를 보다 상세하게 카운트함으로써, 어느 것이 올바른지를 정확하게 판단하는 것이 가능하다.

리드수는 통상 시퀀싱 전의 핵산 양에 비례하기 때문에, 유전자의 리드수에 의거하여 발현량을 판정할 수 있다. 발현량은 예를 들면 야생형 유전자와의 리드수의 비교, 건강체에 있어서의 리드수와의 비교 등에 의해 상대값으로 정할 수 있고, 특정 조건에 있어서의 리드 수 등의 측정값을 절대값으로서 정할 수도 있다.

일실시형태에 있어서, 상기 판정 공정은 동일 영역에 혼성화하는 복수의 프로브가 존재할 경우, 당해 복수의 프로브 수에 의거하여 전사 산물의 발현량을 보정하는 것을 포함한다. 본 발명의 프로브 세트는 가상 연결점 부근에 집중적으로 프로브를 포함하기 때문에, 동일 영역에 중복해서 프로브가 설계될 수 있다. 이에 따라, 프로브의 수에 따라서 당해 영역에 상당하는 전사 산물의 리드수가 높게 산출될 수 있다. 따라서, 보다 정확하게 리드수에 의거하여 발현량을 판정하기 위해서는, 동일 영역에 혼성화하는 프로브의 수로 리드수를 보정하는 것이 바람직하다. 프로브의 수에 의한 리드수의 보정 방법은 한정하지 않지만, 예를 들면, 리드수를 프로브의 타일링수에 의해 나누는 것에 의해, 리드수를 보정할 수 있다 (예를 들면, 5× 타일링이라면 리드수를 5로 나누고, 10× 타일링이라면 리드수를 10으로 나눌 수 있다).

일실시형태에 있어서, 상기 판정 공정은 적어도 1개의 하우스키핑 유전자의 발현량에 의거하여, 전사 산물의 발현량을 보정하는 것을 포함한다. 하우스키핑 유전자에 의거한 보정은 상이한 프로브 세트를 이용할 경우, 및/또는 상이한 샘플을 이용할 경우에, 보다 정확하게 발현량을 비교할 때에 특히 바람직하다. 하우스키핑 유전자는 본 분야에서 공지의 것을 사용할 수 있고, 예를 들면 ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, NPM1, PPIA, RPLP0, TFRC, 및 UBC 중 적어도 1개, 적어도 2개, 적어도 3개, 적어도 5개, 또는 모두를 사용할 수 있다. 하우스키핑 유전자에 의한 리드수의 보정 방법은 한정하지 않지만, 예를 들면, 발현량을 측정하고자 하는 전사 산물의 리드수를, 하우스키핑 유전자의 리드수에 의해 나누는 것에 의해, 리드수를 보정할 수 있다.

본 양태의 방법에 의해, 게놈상의 융합 유전자 존재 또는 그 발현량을 판정함으로써 질환을 진단할 수 있다. 또, 게놈상의 융합 유전자 존재 또는 그 발현량의 정보 등의 피험체의 유전적 배경을 감안하여 적절한 약제 등의 요법을 선택할 수 있다.

6. 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법

일양태에 있어서, 본 발명은 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법에 관한 것이다. 본 양태의 방법은 피험체 유래의 샘플로부터 전사 산물을 조제하는 공정 (전사 산물 조제 공정), 전사 산물로부터 cDNA를 조제하는 공정 (cDNA 조제 공정), 상기 "3.엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"에 기재된 프로브, 프로브 세트 또는 조합 프로브 세트의 프로브에 혼성화한 표적 cDNA를 농축하는 공정 (농축 공정), 농축된 표적 cDNA에 대하여, 대규모 병렬 배열 결정에 의한 배열 결정을 하는 공정 (배열 결정 공정), 및 배열 결정의 결과에 의거하여, 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정 (판정 공정),을 이 순서로 포함한다.

엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 것인 점, 및 이용하는 프로브가 상이한 점 이외의 본 양태의 방법의 구성, 예를 들면 전사 산물 조제 공정, cDNA 조제 공정, 농축 공정, 배열 결정 공정, 판정 공정은 상기 "5.융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법"에 준한다. 따라서, 여기에서는 상기 "5.융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법"과 상이한 점을 중심으로 이하에서 설명한다.

일양태에 있어서, 본 발명은 상기 "1. 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브", 및 상기 "3. 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브"의 양쪽을 이용하여 cDNA 농축 공정을 행하는 방법에 관한 것이다. 이에 따라, 융합 유전자와 엑손 스키핑의 양쪽을 동시에 검출할 수 있다.

판정 공정은 상기 "5. 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법"에 있어서 기재한 바와 같이 행할 수 있다. 즉 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있다고 했을 때에, 가상 연결점에 있어서 유전자 융합이 생기지 않는 엑손 A' 유래의 cDNA의 리드수를 α', 엑손 B' 유래의 cDNA의 리드수를 β'로 하고, 엑손 스키핑에 의해 생기는 전사 산물 유래의 cDNA의 리드수를 γ'로 한 경우에,

0 < α' 또는 β ≤ γ'인 경우, 엑손 스키핑에 의해 생기는 전사 산물이 존재한다고 판정하고,

0 < γ' < α' 또는 β'인 경우, 낮은 발현량으로 엑손 스키핑에 의해 생기는 전사 산물이 존재한다고 판정하고,

α' 또는 β' > 0, γ' = 0인 경우, 엑손 스키핑에 의해 생기는 전사 산물이 존재하지 않는다고 판정하는 공정에 의해 행할 수 있다.

7. 질환의 이환 유무 또는 그 리스크 판정을 판정하는, 암의 종류를 특정하거나 또는 암의 예후를 판정하는 방법

일양태에 있어서, 본 발명은 본 명세서에 기재된 방법에 따라서, 게놈상의 융합 유전자의 전사 산물, 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정 (판정 공정)을 포함하는 피험체에 있어서의 질환의 이환 유무 또는 그 리스크를 판정하는 암 (예를 들면 원발 암)의 종류를 특정하거나 또는 암 (또는 암 환자)의 예후를 판정하는 방법에 관한 것이다. 판정 공정은 상기 "5. 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법" 및/또는 상기 "6. 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하는 방법"에 있어서 기재한 바와 같이 행할 수 있다. 본 양태의 방법은 이환 유무 또는 그 리스크를 판정하는 암의 종류를 특정하거나 또는 암의 예후를 판정하는 것인 점에서, 상기 "5. 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하는 방법" 또는 "6. 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하는 방법"에 기재된 방법과 다르다.

본 양태의 방법에 있어서, 질환의 종류는 융합 유전자 또는 엑손 스키핑에 의해 이환 유무 또는 그 리스크를 판정할 수 있는 것이라면 한정하지 않지만, 예를 들면 암, 예를 들면 뇌종양, 인두암, 갑상선암, 폐암, 유방암, 식도암, 위암, 간장암, 췌장암, 신장암, 소장암, 대장암, 방광암, 전립선암, 자궁경암, 난소암, 육종, 림프종, 또는 흑색종, 바람직하게는 폐암 또는 육종을 들 수 있다.

본 양태의 방법은 판정 공정에 더해서, 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량, 및/또는 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량에 의거하여, 피험체에 있어서의 질환의 이환 유무 또는 그 리스크를 평가하는 공정 (평가 공정), 암의 종류를 특정하는 공정 (특정 공정), 또는 암의 예후를 판정하는 공정 (판정 공정)을 포함할 수 있다.

평가 공정

평가 공정은 융합 유전자 또는 엑손 스키핑과 질환의 공지의 관련성을 이용하여 행할 수 있다. 예를 들면, EML4 (echinoderm microtubule associated protein like 4)-ALK (Anaplastic lymphoma kinase)는 비소세포 폐암의, BCR (B cell receptor)-ABL1 (Abelson murine leukemia viral oncogene homolog 1)은 만성 골수 백혈병의, TAF15 (TATA-box binding protein associated factor 15)-NR4A 3 (nuclear receptor subfamily 4 group A member 3)은 골외성 연골육종의, AHRR (aryl-hydrocarbon receptor repressor)-NCOA2 (nuclear receptor coactivator 2)은 혈관 섬유종의, MET의 엑손 14의 스키핑은 비소세포 폐암의 이환 유무 또는 그 리스크를 판정하기 위하여 이용할 수 있다.

평가 공정에서는, 융합 유전자의 전사 산물의 존재 또는 엑손 스키핑에 의해 생기는 전사 산물의 존재가 검출되었을 경우에, 또는 융합 유전자의 발현량 또는 엑손 스키핑에 의해 생기는 전사 산물의 발현량이, 예를 들면 건강체와 비교해서 높을 경우에, 그 질환에 이환되어 있거나, 또는 그 리스크가 높다고 평가할 수 있다.

특정 공정 및 판정 공정

암의 종류 특정 및 암의 예후 판정은 게놈상의 융합 유전자의 전사 산물, 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물과 질환의 관련성을 이용하여 행할 수 있다. 상기 전사 산물과 질환의 관련성은 공지의 것을 이용해도 무방하고, 미지의 것을 이용해도 무방하다.

본 명세서에 있어서, "예후"란 예를 들면 화학 요법 등의 치료 처치를 행한 후의, 종양량의 저감, 종양 증식의 억제, 질환의 경과 또는 결말 (예를 들면, 재발의 유무, 생사 등), 바람직하게는 생존 기간의 길이, 재발의 리스크의 고저를 의미한다. 예후의 판정은 예를 들면 치료 처치를 행한 후의, 생존 기간 또는 일정 기간 후의 생존율의 예측이어도 무방하다.

일실시형태에 있어서, 특정 및 판정 공정은 복수의 전사 산물의 존재 및/또는 발현량에 의거하여, 피험체 유래의 샘플을 클러스터링하는 것을 포함한다. 이 실시형태는 상기 전사 산물과 질환의 관련성이 미지인 경우에 특히 유리하다. 이 실시형태에 있어서의 복수의 전사 산물의 수는 한정하지 않지만, 예를 들면 2 이상, 5 이상, 10 이상, 20 이상, 30 이상, 50 이상, 100 이상, 200 이상, 300 이상, 400 이상, 또는 500 이상이어도 무방하고, 20000 이하, 10000 이하, 5000 이하, 바람직하게는 3000 이하, 2000 이하, 또는 1000 이하이어도 무방하다. 복수의 전사 산물의 존재 및/또는 발현량에 의거하여 샘플을 클러스터링할 때에는 암종이 특정되어 있거나 또는 예후가 예측되고 있는 피험체 유래의 표준 샘플을 더할 수 있다. 이에 따라, 보다 정확하게 암종에 의거한, 또는 예후에 의거한 클러스터링이 가능해진다. 클러스터링의 방법은 한정하지 않지만, 예를 들면 통계 해석 소프트 R의 heatmap.3을 이용하여, 유전자 발현량을 기초로 샘플의 클러스터링을 행할 수 있다.

특정 공정에 있어서의 암의 종류는 한정하지 않지만, 예를 들면 뇌종양, 인두암, 갑상선암, 폐암 (예를 들면 폐선 암), 유방암, 식도암, 위암, 간장암, 췌장암, 신장암, 소장암, 대장암, 방광암, 전립선암, 자궁경암, 난소암, 육종, 림프종, 또는 흑색종, 바람직하게는 폐암 (예를 들면 폐선암) 또는 육종이어도 무방하다.

본 양태의 질환의 이환 유무 또는 그 리스크 판정을 판정하거나, 암의 종류를 특정하거나 또는 암의 예후를 판정하는 방법은 다른 방법, 예를 들면 조직학적인 병리 진단, FISH, RT-PCR, 및 면역 조직 화학 등에 의한 바이오 마커의 검출, CT, MRI, 및 핵의학 검사 등의 화상 진단과 조합하여 행해도 무방하다. 다른 방법과의 조합에 의해, 질환의 검출 정밀도를 향상시킬 수 있다.

실시예

재료와 방법

gDNA 표적 시퀀싱

FFPE 샘플로부터 게놈 DNA (500ng)을 GeneRead DNA FFPE Kit (Qiagen)에 의해 단리하고, SureSelectXT Custom Kit (Agilent)을 이용하여 표적 단편을 부화했다. 오더 메이드의 프로브는 표적 유전자의 gDNA에 혼성화하고, 캡쳐하도록 설계했다. 단리한 단편의 대규모 병렬 시퀀싱 (Massively Parallel Sequencing)을, 페어 앤드 옵션으로 HiSeq2500 platform (Illumina)을 이용하여 행했다. 큰 데이터 세트로부터, 각 염기에 대해서 Q값 ≥ 0의 시퀀스 리드만을 선택하고, bowtie 2 알고리즘 (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)을 이용하여 참조 인간 게놈 시퀀스 (hg19)에 매핑했다. 체세포 변이는 MuTect (http://www.broadinstitute.org/cancer/cga/mutect)에 의해 특정했다. 또, 이하의 판단 기준:judgment KEEP (KEEP은 mutect에 의한 체세포 변이 양성을 나타낸다), 종양 리드 심도 ≥ 20×, 변이율 ≥ 10%, 및 정상 리드 심도 ≥ 10×에 의해 변이 후보를 선택했다.

폴리A 선택에 의한 RNA-seq

RNA-Bee (Tel-Test Inc., #CS-104B)을 이용하여 전(全) RNA를 신선 동결 샘플로부터 추출하고, DNase I (Life Technology)로 처리한 후에 폴리A-RNA 선택에 제공하고, 이것을 cDNA 합성에 이용했다. RNA-seq의 라이브러리 조제를 NEBNext Ultra Directional RNA Library Prep Kit (New England Bio Labs)을 이용하여, 제조업자의 프로토콜에 따라 행했다. NGS 시퀀싱을, HiSeq2500 platform (Illumina)을 이용하여, 각 클러스터의 양단으로부터 행했다.

cDNA 캡쳐에 의한 RNA-seq

전 RNA를, RNeasy FFPE Kit (Qiagen)에 의해 FFPE 샘플로부터 추출하고, DNase I (Life Technology)로 처리했다. 코딩 엑손 캡쳐를 위한 cDNA 합성, 프로브에 의한 캡쳐, 및 라이브러리 조제는 TruSight RNA Pan-Cancer Panel (Illumina)을 이용하여, 제조업자의 프로토콜에 따라 행했다.

정션 캡쳐를 위한 cDNA 합성 및 라이브러리 조제는 SureSelect RNA Capture kit (Agilent technologies)을 이용하여, 제조업자의 프로토콜에 따라 행했다. 정션 캡쳐법을 위한 커스텀 프로브는 표적 유전자의 가상 연결점 부근 배열에 혼성화하고, 캡쳐하도록 설계했다. 구체적으로는 이용한 대규모 병렬 배열 결정의 리드 길이가 170bp인 것을 고려하고, 또 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이가 50 이상이라면 가상 연결점을 포함하는 리드가 얻어질 수 있다고 상정하여, cDNA에 프로브가 혼성화했을 때의 각 프로브의 말단부로부터 가상 연결점까지의 최단 염기길이를 120 이하가 되도록 프로브를 설계했다. 한편, 프로브의 길이는 모두 120bp로 했다. 또, 정션 캡쳐법에서는 될 수 있는 한 많은 종류의 리드를 얻기 위하여, 5× 또는 10× 타일링으로 프로브의 설계를 행했다. NGS 시퀀싱은 HiSeq2500 platform (Illumina)을 이용하여, 각 클러스터의 양단으로부터 행했다. 일례로서, EML4의 엑손 13, ALK의 엑손 20, 및 EML4-ALK의 융합 유전자를 동정하기 위하여 이용한 프로브 세트의 배열 번호를 이하의 표 1에 나타낸다.

	배열 번호
EML 4(exon 13)	1
EML 4(exon 13) 프로브 1	2
EML 4(exon 13) 프로브 2	3
EML 4(exon 13) 프로브 3	4
EML 4(exon 13) 프로브 4	5
EML 4(exon 13) 프로브 5	6
ALK(exon 20)	7
ALK(exon 20) 프로브 1	8
ALK(exon 20) 프로브 2	9
ALK(exon 20) 프로브 3	10
ALK(exon 20) 프로브 4	11
ALK(exon 20) 프로브 5	12

실시예 1: 정션 캡쳐법에 의한 융합 유전자의 검출

결과

시퀀스 데이터의 해석에서는, 융합 전사 산물의 연결점의 존재를 지지하는 시퀀스 리드의 수를 카운트하고, 야생형 유전자의 전사 산물과 비교하여, 융합 전사 산물이 유의하게 발현되고 있는지의 여부를 조사했다.

또, 각 유전자 전사 산물이 존재하고, 융합 유전자 전사 산물이 존재하지 않는 경우에는 융합 전사 산물이 존재하지 않는 것이 나타나지만, 각 유전자의 리드수가 0인 경우에는 mRNA가 발현되고 있지 않거나, 또는 샘플의 질에 의거한 mRNA 분해에 유래하는 것인지를 신중하게 평가했다.

파일럿 실험으로서, 정션 캡쳐법에 의거하여 67개의 융합 유전자를 표적으로 하는 작은 타겟 패널 (TOP RNA V1)을 제작했다. 그리고, TOP RNA V1을, 종래의 방법인 융합 유전자의 게놈에 있어서의 연결점을 검출하는 인트론 캡쳐법 (TOP DNA)에 의해 얻어지는 패널, 또는 코딩 엑손 캡쳐법에 의거한 TruSight RNA Pan-Cancer Panel (illumina)과 비교했다.

그 결과, 정션 캡쳐법에 의해 얻어진 TOP RNA V1패널은 인트론 캡쳐법에 의해 얻어진 TOP DNA 패널보다도 융합 유전자를 정확하게 검출할 수 있고, 또 연결 지지 리드/1000만 로우 리드의 값도 많았다 (표 2, 도 2A). 이 결과는 정션 캡쳐법이 융합 유전자를 검출하는 뛰어난 방법이라는 것을 시사하고 있다.

증례 #	진단	RIN 스코어	융합 유전자	정션 캡쳐		gDNA 캡쳐
증례 #	진단	RIN 스코어	융합 유전자	연결 지지 리드수	버젼	연결 지지 리드수
#1	NSCLC	-	EML4-ALK	232	V1	12
#2	NSCLC	-	EML4-ALK	284	V1	108
#3	NSCLC	-	EML4-ALK	180	V1	44
#4	NSCLC	-	EML4-ALK	4179	V1	0
#5	NSCLC	-	KIF5B-RET	514	V1	0
#6	NSCLC	-	KIF5B-RET	2898	V1	150
#7	NSCLC	1.3	KIF5B-RET	1189	V1	53
#8	NSCLC	-	SLC34A2-ROS1	1633	V1	17
#9	NSCLC	1.4	CD74-ROS1	5268	V1	0
#10	NSCLC	-	CD74-ROS1	2491	V1	77
#11	SS	-	SS18-SSX1	4410	V2	NA
#12	SS	1.1	SS18-SSX2	492	V2	NA
#13	SS	-	SS18-SSX1	629	V2	NA
#14	SS	2	NAB2-STAT6	4232	V2	NA
#15	SS	2	EWSR1-FLI1	110	V2	NA
#16	SS	2.2	SYT-SSX1	1446	V2	NA
#17	LGFS	1.4	FUS-CREB3L2	213	V2	NA
#18	NSCLC	1	EML4-ALK	109	V3	NA
#19	NSCLC	-	EML4-ALK	119	V3	NA
#20	NSCLC	1.9	EML4-ALK	175	V3	NA
#21	NSCLC	1.8	EML4-ALK	156	V3	NA
#22	NSCLC	1.7	EML4-ALK	396	V3	NA
#23	NSCLC	-	EML4-ALK	107	V3	NA
#24	NSCLC	-	KIF5B-RET	369	V3	NA
#25	NSCLC	-	KIF5B-RET	423	V3	NA
#26	NSCLC	-	CD74-ROS1	13	V3	NA
#27	NSCLC	-	CD74-ROS1	28	V3	NA
#28	NSCLC	1.9	TPM3-ROS1	32	V3	NA
#29	NSCLC	1.3	CD74-NRG1	59	V3	NA
#30	ARSM	-	EWSR1-FLI1	35	V3	NA
#31	EWS	1	EWSR1-FLI1	412	V3	NA
#32	EWS	1.6	EWSR1-FLI1	544	V3	NA
#33	EWS	2.2	EWSR1-FLI1	394	V3	NA
#34	EWS	1.3	EWSR1-FLI1	384	V3	NA

표에서, NSCLC은 비소세포암을, SS는 활막 육종(synovial sarcoma)을, LGFS는 저악성 섬유 점액 육종(Low-Grade Fibromyxoid Sarcoma)을, ARSM은 치조 횡문근 육종(Alveolar Rhabdomyosarcoma)을, EWS는 유잉 육종(Ewing sarcoma)을 가리킨다.

계속해서, 정션 캡쳐법에 대하여, 육종의 융합 유전자를 커버하는 보다 큰 타겟 패널 (TOP RNA V2), 및 데이터베이스 COSMIC에 있어서 보고된 모든 융합 유전자를 커버하는 패널 (TOP RNA V3)을 설계했다. RNA를 추출한 FFPE 보존 샘플의 RNA integrity score (RIN)은 고도로 분해가 진행되고 있는 것을 나타내는 1.1 ~ 2.3이었지만, 모든 융합 전사 산물이 검출 가능했다 (표 3). 또, 정션 캡쳐법에서는, 코딩 엑손 캡쳐법에 의해 패널을 설계한 경우에 비교하여, 예상되는 프로브의 수 및 표적 캡쳐 사이즈 (프로브에 의해 포착되는 핵산 배열의 길이)의 양쪽이, 현저하게 적다 (도 2B, 및 도 2C). 이것은 정션 캡쳐법이 매우 비용 대비 효과가 높은 것을 시사하고 있다.

하우스키핑 유전자 커버도 및 차지하는 비율을 계산함으로써, RNA-seq의 질을 평가할 수 있다. 이하의 기준을, RNA-seq의 질이 우수하다고 했다 : 하우스키핑 유전자의 평균 커버도 > 500× 및 100×, 및 하우스키핑 유전자의 차지하는 비율 > 70%. 연결 지지 리드가 존재하지 않을 경우에는 FFPE 유래의 RNA의 분해가 진행되고 있음으로써 연결 지지 리드가 검출되지 않는다고 할 가능성도 있다. 따라서, 융합 유전자가 참 음성이라는 것을 확실하게 하기 위하여, COSMIC의 데이터베이스에 있어서 보고되고 있는 추정 융합 유전자 양쪽의 유전자의 야생형 전사 산물의 연결 지시 리드를 카운트하는 파이프라인을 개발했다. 증례 #31 (EML4-ALK 양성 폐선암)에 대한 이 분석 결과에 의해, 이 종양이 분석한 융합 전사 산물에 대해서 참 음성이라는 것이 확실해졌다 (데이터 나타내지 않음).

실시예 2: 정션 캡쳐법에 의한 엑손 스키핑의 검출

계속해서, 정션 캡쳐법이, 폐선암에 있어서 발암성이라는 것이 보고되고 있는 MET 엑손 14 스키핑 등의 전사 산물도 검출 가능인지를 조사했다. 신선한 동결 샘플을 이용하는 RNA-seq에 의해 MET 엑손 14 스키핑을 갖는 것이 특정된 폐선암의 증례의 5개의 FFPE로부터 RNA를 추출했다. 엑손 13로부터 엑손 15로의 연결, 즉 엑손 14의 스키핑을 지지하는 연결 지지 리드의 수를 카운트했다. 정션 캡쳐법에서는, 엑손 스키핑을 갖는 5개의 FFPE 샘플 모두에 있어서 MET 엑손 14스키핑을 동정할 수 있었지만, MET 엑손 스키핑을 갖지 않는 다른 34의 증례에서는 모두, 연결 지지 리드가 보이지 않았다 (도 3, 표 3). 이것은 정션 캡쳐법이 엑손 스키핑도 검출 가능하다는 것을 나타내고 있다.

	신선 동결 샘플	FFPE
증례 #	폴리A 캡쳐	Pancancer panel	정션 캡쳐
#35	1689	828	27918
#36	310	256	12182
#37	1226	242	25607
#38	431	272	3528
#39	84	348	5076
#1-34	NA	0	0

실시예 3: 생검 샘플에 대한 정션 캡쳐법의 적용

또, 정션 캡쳐법이, 작은 생검 샘플에 적용 가능한지를 평가했다. 바늘 생검 (core needle biopsy), 미세바늘 흡인 생검 (fine needle aspiration), 및 경기관지 폐 생검 (transbronchial lung biopsy, TBLB)을 비롯한 융합 유전자 양성의 FFPE 표본으로부터 RNA를 조제했다. 놀랍게도, 모든 RNA-seq에 있어서, 각 표본에 특이적인 올바른 융합 전사 산물을 지지하는 다수의 연결 지지 리드를 검출했다 (도 4, 표 4).

증례#	진단	샘플의 취득년도	RIN	융합 유전자	연결 지지 리드수	로우 리드수	TOP version	생검법
#40	ARSM	2011	-	PAX3-FOXO1	237	35,522,326	V2	바늘 생검
#41	ARSM	2010	1.3	PAX7-FOXO1	1499	31,848,250	V2	미세바늘 흡인 생검
#42	EWS	2015	1.3	EWSR1-FLI1	362	31,372,328	V3	바늘 생검
#43	NSCLC	2014	NA	EML4-ALK	142	36,012,196	V3	TBLB

실시예 4: 정션 캡쳐법의 임상적인 유용성

KRAS 및 EGFR 변이 음성인, 스테이지 II 또는 III의 NSCLC의 40의 증례의 외과적 절제에 의해 얻어진 FFPE에 대해서, 정션 캡쳐법으로 시험함으로써, 이 방법의 임상적인 유용성을 평가했다. MET 엑손 14 스키핑, EML4-ALK 융합 유전자, RET 융합 유전자가 각각 3증례, 2증례, 및 1증례로 검출되었다 (데이터 나타내지 않음). 또, 정션 캡쳐법의 육종의 진단에의 임상적 유용성을 평가하기 위하여, 적극적 연구에 있어서 육종환자에 대해서 정션 캡쳐법을 실시했다. 결과를 이하의 표 5에 나타낸다.

증례#	부위	절제일	절제에 의한 진단	TOP-RNA에서 검출된 융합 유전자	최종 진단
#44	좌슬	2017/2/8	점액 섬유육종	AHRR-NCOA2	연조직 혈관섬유종
#48	좌대퇴	2017/4/12	골외성 연골육종	TAF15-NR4A3	골외성 연골육종

하나의 증례(#44)는 점액성 간질 부근에서의 비정형 핵을 갖는 방추 세포의 증식 때문에, 점액 섬유육종이라고 진단되고 있었다. 그러나, 본 증례는 정션 캡쳐법에 의해, 혈관 섬유종에 특이적인 융합 유전자인 AHRR-NCO2A 유전자가 검출되었기 때문에, 연조직 혈관 섬유종이라는 것이 밝혀졌다. 별도의 증례(#48)는 TAF15-NR4A 3 양성이며, 이것은 골외성 연골육종의 진단 결과와 일치한다.

이러한 결과는 정션 캡쳐법이 질환의 진단에 이용될 수 있다는 것을 나타내고 있다.

실시예 5: 유전자 발현량의 측정

본 실시예에서는 정션 캡쳐법을 이용하여 유전자 발현량의 측정을 행했다.

(재료와 방법)

유전자 발현량 측정

11 종류의 하우스키핑 유전자 (ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, PPIA, RPLP0, TFRC, 및 UBC)에 대해서, 실시예 1에 따라서, 전 RNA를 FFPE 샘플로부터 추출하고, 실시예 1에 따라서 cDNA 캡쳐 (정션 캡쳐)에 의한 RNA-seq를 행했다. 비교를 위하여, 실시예 1에 따라서 전 RNA를 신선 동결 샘플로부터도 추출하고, 폴리A 선택에 의한 RNA-Seq를 행했다.

단, 본 실시예에서는 실시예 1에서 나타낸 정션 캡쳐법을 위한 커스텀 프로브 (TOP RNA V3)에 더해서, 유전자 발현량 측정용의 프로브를 더해서 농축을 행했다. 유전자 발현량 측정용 프로브로는, ERBB2 등의 암 유전자를 포함하는 125 유전자에 2× 타일링으로 디자인한 프로브를 사용했다. 프로브 길이는 모두 120 염기로 했다.

타일링수에 의거하는 리드수의 보정

실시예 1에서 기재한 바와 같이, 정션 캡쳐법에서는, 될 수 있는 한 많은 종류의 리드를 얻기 위하여, 가상 연결점 부근에 집중해서 5× 또는 10× 타일링으로 프로브의 설계를 행했다. 따라서, 리드수에 의거하여 유전자의 발현량을 추정할 경우, 프로브의 수에 따라서 발현량이 많이 산출될 우려가 있다. 따라서, 정션 캡쳐법에서는, 리드수를 프로브의 타일링수에 의해 나누는 것으로, 리드수를 보정했다 (예를 들면, 5× 타일링이라면 리드수를 5로 나누고, 10× 타일링이라면 리드수를 10로 나누었다).

하우스키핑 유전자에 의거한 리드수의 보정

정션 캡쳐법에서는, FFPE 샘플 (A군)을 이용하고, 폴리A 선택에 의한 RNA-Seq에서는 신선 동결 샘플 (B군)을 이용했기 때문에, 샘플간의 질의 차이를 양자의 하우스키핑 유전자의 발현량이 동등하게 되도록 보정했다. 구체적으로는, 11 종류의 하우스키핑 유전자의 발현량의 A군과 B군의 비의 log_2 평균이 동등하게 되도록 B군의 발현량을 보정하는 계수를 계산하고, 이들 계수를 이용하여 전 유전자의 발현량을 보정했다.

(결과)

폐암 환자 유래에 7개의 샘플에 대해서, 폴리A 선택에 의한 RNA-Seq 및 정션 캡쳐법을 이용하여, 11 종류의 하우스키핑 유전자 (ACTB, B2M, GAPDH, GUSB, H3F3A, HPRT1, HSP90AB1, NPM1, PPIA, RPLP0, TFRC, 및 UBC)의 발현량을 측정했다.

그 결과, 하우스키핑 유전자에 대해서는, 폴리A 선택에 의한 RNA-Seq와 정션 캡쳐법에서는 RPKM (Reads Per Kilobase of exon model per Million mapped reads)의 값에 상관이 보이지 않았다 (데이터 나타내지 않음).

계속해서, RNA-seq의 RPKM과, 정션 캡쳐법에 있어서의 타일링수에 의거하여 보정을 행한 RPKM에 대해서, 발현량 측정용 유전자군과 융합 유전자 해석용 유전자군에 대해서 상관계수를 계산했다. 여기서, 발현량 측정용 유전자군이란 유전자 발현량 측정용의 프로브에 의해 발현 측정을 행한 유전자군이며, 융합 유전자 해석용 유전자군이란 정션 캡쳐법을 위한 커스텀 프로브에 의해 발현 측정을 행한 유전자군이다.

발현량 측정용 유전자군의 결과를 도 5A 및 표 6에, 융합 유전자 해석용 유전자군의 결과를 도 5B 및 표 7에 나타낸다. 발현량 측정용 유전자군 및 융합 유전자 해석용 유전자군의 양쪽에서 RNA-seq의 RPKM과, 정션 캡쳐법의 RPKM의 상관이 보이고, 특히 발현량 측정용 유전자군에 대해서, 더 강한 상관이 보였다. 이들 결과는 유전자 발현량 측정용의 프로브의 쪽이 발현량의 측정에 적합하지만, 정션 캡쳐법을 위한 커스텀 프로브도 발현량의 측정에 이용될 수 있다는 것을 나타내고 있다. 또, 이들 결과는 유전자 발현량 측정용의 프로브에 더해서 정션 캡쳐법을 위한 커스텀 프로브를 포함하는 경우이더라도, 정확하게 유전자 발현량을 측정할 수 있다는 것을 나타내고 있다.

sample	상관 계수
Sample-1	0.938599
Sample-2	0.971988
Sample-3	0.962161
Sample-4	0.953048
Sample-5	0.991559
Sample-6	0.990007
Sample-7	0.99219

sample	상관 계수
Sample-1	0.817235
Sample-2	0.770109
Sample-3	0.860437
Sample-4	0.782432
Sample-5	0.822337
Sample-6	0.630832
Sample-7	0.801661

실시예 6: 유전자 발현량에 의거한 암의 클러스터링

LUAD (폐선암), SARC (육종), MUCA (다발암), 및 LUSC (폐편평 상피암)의 환자 유래의 샘플을, 실시예 5에 따라서, 유전자 발현량 측정용의 프로브도 더해서 정션 캡쳐법에 의해 유전자 발현 측정을 행했다. 구체적으로는, 발현량 측정용, 융합 유전자 해석용 양쪽의 유전자 합계 467 유전자에 대해서, 실시예 5에 기재된 방법에 따라서 타일링수에 의거하는 리드수의 보정 및 하우스키핑 유전자에 의거한 리드수의 보정을 행하여 발현값을 구했다. 구해진 발현값 (xn, n=1, ..., N, N은 유전자수)을 대수 변환 (log_2 (xn + 1)) 하고, 그 값에 의거하여 통계 해석 소프트R의 heatmap.3을 이용하여 클러스터링을 행했다.

그 결과, 도 6에 나타낸 바와 같이, 유전자의 발현량에 의거하여 LUAD, SARC, MUCA, 및 LUSC이 클러스터링되었다. 이것은 본 발명의 방법에 의해 유전자 발현량을 측정함으로써, 원발암의 종류를 특정할 수 있다는 것을 나타내고 있다.

[산업상의 이용 가능성]

본 발명에 의해, 융합 유전자 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 간편하게 검출 가능한 방법이 제공된다. 이에 따라 질환의 진단이나, 피험체의 유전적 배경을 감안하여 적절한 약제를 선택하는 것이 가능해지기 때문에, 산업상의 이용 가능성은 크다.

본 명세서에서 인용한 모든 간행물, 특허 및 특허출원은 그대로 인용에 의해 본 명세서에 병합되는 것으로 한다.

<110> The University of Tokyo <120> A Probe and method for detecting a fusion gene and/or exon skipping <130> PH-7477-PCT <150> JP 2017-125074 <151> 2017-06-27 <160> 12 <170> KoPatentIn 3.0 <210> 1 <211> 136 <212> DNA <213> Homo sapiens <400> 1 aaatatgaaa agccaaaatt tgtgcagtgt ttagcattct tggggaatgg agatgttctt 60 actggagact caggtggagt catgcttata tggagcaaaa ctactgtaga gcccacacct 120 gggaaaggac ctaaag 136 <210> 2 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 2 aatttgtgca gtgtttagca ttcttgggga atggagatgt tcttactgga gactcaggtg 60 gagtcatgct tatatggagc aaaactactg tagagcccac acctgggaaa ggacctaaag 120 120 <210> 3 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 3 aatatgaaaa gccaaaattt gtgcagtgtt tagcattctt ggggaatgga gatgttctta 60 ctggagactc aggtggagtc atgcttatat ggagcaaaac tactgtagag cccacacctg 120 120 <210> 4 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 4 agggaatttt tgggaaatat gaaaagccaa aatttgtgca gtgtttagca ttcttgggga 60 atggagatgt tcttactgga gactcaggtg gagtcatgct tatatggagc aaaactactg 120 120 <210> 5 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 5 cactaacaag aaaacaggga atttttggga aatatgaaaa gccaaaattt gtgcagtgtt 60 tagcattctt ggggaatgga gatgttctta ctggagactc aggtggagtc atgcttatat 120 120 <210> 6 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 6 cctggagcgg caattcacta acaagaaaac agggaatttt tgggaaatat gaaaagccaa 60 aatttgtgca gtgtttagca ttcttgggga atggagatgt tcttactgga gactcaggtg 120 120 <210> 7 <211> 187 <212> DNA <213> Homo sapiens <400> 7 tgtaccgccg gaagcaccag gagctgcaag ccatgcagat ggagctgcag agccctgagt 60 acaagctgag caagctccgc acctcgacca tcatgaccga ctacaacccc aactactgct 120 ttgctggcaa gacctcctcc atcagtgacc tgaaggaggt gccgcggaaa aacatcaccc 180 tcattcg 187 <210> 8 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 8 tgtaccgccg gaagcaccag gagctgcaag ccatgcagat ggagctgcag agccctgagt 60 acaagctgag caagctccgc acctcgacca tcatgaccga ctacaacccc aactactgct 120 120 <210> 9 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 9 caccaggagc tgcaagccat gcagatggag ctgcagagcc ctgagtacaa gctgagcaag 60 ctccgcacct cgaccatcat gaccgactac aaccccaact actgctttgc tggcaagacc 120 120 <210> 10 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 10 gccatgcaga tggagctgca gagccctgag tacaagctga gcaagctccg cacctcgacc 60 atcatgaccg actacaaccc caactactgc tttgctggca agacctcctc catcagtgac 120 120 <210> 11 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 11 ctgcagagcc ctgagtacaa gctgagcaag ctccgcacct cgaccatcat gaccgactac 60 aaccccaact actgctttgc tggcaagacc tcctccatca gtgacctgaa ggaggtgccg 120 120 <210> 12 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe <400> 12 gtacaagctg agcaagctcc gcacctcgac catcatgacc gactacaacc ccaactactg 60 ctttgctggc aagacctcct ccatcagtga cctgaaggag gtgccgcgga aaaacatcac 120 120

Claims

대규모 병렬 배열 결정(massively parallel sequencing)에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,
상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현하고,
상기 프로브가 상기 전사 산물로부터 조제한 cDNA의 유전자 A 또는 B 중 어느 하나에 유래하는 영역에 혼성화(hybridize)하고,
상기 cDNA에 프로브가 혼성화했을 때의 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브.
대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,
상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현하고,
상기 전사 산물로부터 조제한 cDNA의 유전자 A 또는 B 중 어느 하나에 유래하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하고,
상기 cDNA에 프로브가 혼성화했을 때의 각 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 각 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브 세트.
대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,
상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며,
상기 프로브가 상기 전사 산물로부터 조제한 cDNA의 엑손 A' 또는 B' 중 어느 하나에 유래하는 영역에 혼성화하고,
상기 cDNA에 프로브가 혼성화했을 때의 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브.
대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,
상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며,
상기 전사 산물로부터 조제한 cDNA의 엑손 A' 또는 B' 중 어느 하나에 유래하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하고,
상기 cDNA에 프로브가 혼성화했을 때의 각 상기 프로브의 말단부로부터 상기 가상 연결점까지의 최단 염기길이를 x, 각 상기 프로브에 있어서 cDNA와 혼성화하는 영역의 염기길이를 y, 대규모 병렬 배열 결정의 리드 길이를 z로 한 경우에, z ≥ x + y인, 프로브 세트.
제1항 내지 제4항 중 어느 한 항에 있어서,
x가 0 ~ 140, y가 30 ~ 140, z가 100 ~ 300인, 프로브 또는 프로브 세트.
대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,
상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현하고,
상기 전사 산물로부터 조제한 cDNA의 상기 가상 연결점을 포함하는 영역에 혼성화하는, 프로브.
대규모 병렬 배열 결정에 있어서 게놈상의 융합 유전자의 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,
상기 융합 유전자가, 5'측의 유전자 A의 일부와 3'측의 유전자 B의 일부가 가상 연결점에 있어서 연결된 전사 산물을 발현하고,
상기 전사 산물로부터 조제한 cDNA의 상기 가상 연결점을 포함하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하는 프로브 세트.
대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브이며,
상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며,
상기 전사 산물로부터 조제한 cDNA에 있어서의 엑손 스키핑이 생길 수 있는 상기 가상 연결점을 포함하는 영역에 혼성화하는 프로브.
대규모 병렬 배열 결정에 있어서 엑손 스키핑에 의해 생기는 전사 산물의 존재 또는 그 발현량을 판정하기 위한 프로브 세트이며,
상기 전사 산물에 있어서, 5'측의 엑손 A'와 3'측의 엑손 B'가 가상 연결점에 있어서 연결되어 있으며,
상기 전사 산물로부터 조제한 cDNA에 있어서의 엑손 스키핑이 생길 수 있는 상기 가상 연결점을 포함하는 영역에 혼성화하는 적어도 2개의 상이한 프로브를 포함하는, 프로브 세트.
제1항 내지 제9항 중 어느 한 항의 상이한 복수의 프로브 또는 프로브 세트를 포함하는, 조합 프로브 세트.
적어도 1개의 유전자 발현량 측정용 프로브를 더 포함하는, 제1항 내지 제9항 중 어느 한 항의 프로브 또는 프로브 세트 또는 제10항의 조합 프로브 세트.
가공 처리한 생체 샘플 유래의 전사 산물에 대하여 이용하기 위한, 제1항 내지 제11항 중 어느 한 항의 프로브, 프로브 세트 또는 조합 프로브 세트.
제1항 내지 제12항 중 어느 한 항의 프로브, 프로브 세트 또는 조합 프로브 세트를 포함하는, 키트.
피험체 유래의 샘플로부터 전사 산물을 조제하는 공정,
상기 전사 산물로부터 cDNA를 조제하는 공정,
제1항 내지 제12항 중 어느 한 항의 프로브, 프로브 세트 또는 조합 프로브 세트의 프로브에 혼성화한 표적 cDNA를 농축하는 공정,
농축된 상기 표적 cDNA에 대하여, 대규모 병렬 배열 결정에 의한 배열 해석을 행하는 공정, 및
상기 배열 해석의 결과에 의거하여, 게놈상의 융합 유전자의 전사 산물 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정,
을 포함하는, 게놈상의 융합 유전자의 전사 산물 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 방법.
제14항의 방법에 따라서, 게놈상의 융합 유전자의 전사 산물, 및/또는 엑손 스키핑에 의해 생기는 전사 산물을 포함하는 전사 산물의 존재 또는 그 발현량을 판정하는 공정,
을 포함하는, 피험체에 있어서의 질환의 이환 유무 또는 그 리스크를 판정하는 암의 종류를 특정하거나 또는 암의 예후를 판정하는 방법.