KR20170138566A

KR20170138566A - 가닥 특이적 cDNA 라이브러리를 작제하기 위한 조성물 및 방법

Info

Publication number: KR20170138566A
Application number: KR1020177034464A
Authority: KR
Inventors: 브래드 토운슬레이; 마이클 에프. 코빙턴; 니리마 신하
Original assignee: 더 리젠츠 오브 더 유니버시티 오브 캘리포니아
Priority date: 2015-04-29
Filing date: 2016-04-29
Publication date: 2017-12-15
Also published as: BR112017023257A2; US11279927B2; WO2016176654A3; US20220389416A1; CA2982421A1; JP2018515081A; JP6917629B2; WO2016176654A2; US20190048336A1; CN107636163A; AU2016255570B2; EP3289105A2; AU2016255570A1; EP3289105A4; EP3289105B1; MX2017013749A

Abstract

가닥 특이적 cDNA 라이브러리의 생성을 위한 조성물, 키트 및 방법이 본원에 제공된다. 상기 조성물, 키트 및 방법은 이중 가닥 폴리뉴클레오티드, 예를 들어, RNA-cDNA 듀플렉스의 특성을 이용하여 신규한 시퀀싱 어댑터를 포획하고 혼입시킨다. 상기 방법은 대량의 병행 서열, 예를 들어, 전장 RNA 시퀀싱(RNA-Seq) 및 3' 태그 디지털 유전자 발현(DGE)에 의한 유용한 전사체 프로파일링이다.

Description

가닥 특이적 cDNA 라이브러리를 작제하기 위한 조성물 및 방법

관련 출원에 대한 교차 참조

본 출원은 모든 목적상 전체 개시내용이 참조로서 본원에 포함되는 2015년 4월 29일에 출원된 미국 가출원 번호 62/154,584호에 대한 우선권을 주장한다.

미연방 후원 연구 및 개발하에 만들어진 발명에 대한 권리에 대한 진술

본 발명은 미국 국립과학재단(National Science Foundation)에 의해 수여되는 보조금 번호 DBI1238243 하에 미국 정부의 지원으로 이루어졌다. 미국 정부는 본 발명에 특정 권리를 갖는다.

고 처리량의 차세대 시퀀싱(NGS) 기술에서의 최근의 진전은 전체 유전체 시퀀싱 및 임의의 전사체의 포괄적 특성규명 및 정량을 포함하는 기능 유전체학에 대한 새로운 접근법을 가능하게 하였다. RNA-시퀀싱(RNA-Seq)은 메신저 및 구조 RNA로부터 생성된 상보적 DNA(cDNA)의 직접 시퀀싱 및 시퀀싱 판독값의 유전자 발현 분석을 위한 참조 유전체 또는 유전자 세트에 대한 맵핑(mapping)을 수반한다. 이러한 기술은 신규한 전사물, 작은 RNA, 대안적 스플라이싱 생성물, 융합 전사물, 센스 전사물 및 안티센스 전사물을 확인하기 위해 사용될 수 있다. 디지털 유전자 발현(DGE)으로 공지된 또 다른 기술은 서열에 상응하는 RNA의 상대 발현과 직접 관련된 샘플 내에서 cDNA 서열이 검출되는 횟수의 수를 결정하기 위해 NGS를 이용한다.

표준 RNA-Seq를 수행하는 하나의 단점은 전사 방향에 대한 정보의 부족이다. 연쇄 정보는 2개의 DNA 가닥 중 어느 것이 표적 RNA 전사물에서 유래되었는지 확인한다. 이러한 정보는, 예를 들어, 전사물 주석, 전사물 발견 및 발현 프로파일링에서 증가된 신뢰도를 제공할 수 있다. 가닥 배향을 유지하는 것은 또한 유전자 조절의 중요한 매개체인 안티센스 RNA 발현의 확인을 가능하게 한다. 센스 및 안티센스 발현의 수준을 결정하는 능력은 세포의 전사체에 더 많은 정보를 제공한다.

가닥 특이적 RNA-Seq 라이브러리를 생성시키기 위한 방법이 최근에 개발되었다. 예를 들어, 한 방법은 본래의 RNA(예를 들어, 바이설파이트 처리에 의함) 또는 전사된 cDNA(예를 들어, 변형된 뉴클레오티드의 혼입에 의함) 중 하나의 가닥을 표시한 후, 표시되지 않은 가닥을 분해한다. 불행히도, 이들 방법은 노동 집약적이다.

차세대 시퀀싱을 이용하여 RNA-Seq 및 디지털 유전자 발현(DGE) 분석을 수행하기 위한 방향성(가닥 특이적) cDNA 라이브러리를 생성시키기 위한 개선된 방법이 필요하다.

일 양태에서, RNA 샘플에서 RNA 분자로부터 가닥 특이적 cDNA 분자를 생성시키는 방법이 본원에 제공된다. 상기 방법은 (a) 생물학적 샘플로부터 RNA 샘플을 분리시키는 단계; (b) RNA 분자를 단편화시키는 단계; (b) RNA 분자 및 역전사에 의한 제1 cDNA 가닥을 포함하는 RNA-상보적 DNA(cDNA) 듀플렉스를 생성시키는 단계; (c) 제1 cDNA 가닥의 3' 말단에 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터를 어닐링시키는 단계로서, 5' 어댑터가 (i) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 제1 cDNA 가닥의 3' 말단으로 어닐링되는 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 (ii) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하는, 단계; 및 (d) 가닥 특이적 cDNA 분자를 생성시키는 단계를 포함한다. 일부 구현예에서, 상기 방법은 단계 (a) 후에 RNA 분자를 단편화시키는 단계를 포함한다. 일부 예에서, 가닥 특이적 cDNA 분자를 생성시키는 단계 (d)는 DNA 중합효소 또는 이의 단편을 이용하여 5' 어댑터의 제1 가닥 포획 올리고뉴클레오티드를 연장시켜 제1 cDNA 가닥에 상보적인 제2 cDNA 가닥을 생성시키는 단계를 포함한다. 일부 구현예에서, 상기 방법은 또한 제2 가닥 차단 올리고뉴클레오티드에 상보적인 프라이머를 이용하여 제2 cDNA 가닥을 증폭시키는 단계를 포함한다. 증폭 단계는 중합효소 연쇄 반응(PCR)을 포함한다.

일부 구현예에서, 상기 방법은 증폭된 제2 cDNA 가닥의 서열을 결정하는 단계를 추가로 포함한다. 일부 경우에, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적이다. 다른 경우에, 8-12개의 연속적 데옥시리보뉴클레오티드가 미리 선택된 제1 cDNA 가닥에 100% 상보적이다.

일부 구현예에서, RNA 샘플을 단편화시키는 단계는 Mg² ⁺ 함유 완충액에서 수행된다. 단계 (c) 및/또는 (d)는 실온에서 수행될 수 있다.

일부 예에서, DNA 중합효소 또는 이의 단편은 DNA 중합효소 I이다. 다른 예에서, DNA 중합효소 또는 이의 단편은 클레노우(Klenow) 단편이다.

일부 구현예에서, 5' 어댑터의 제2 가닥 차단 올리고뉴클레오티드는 5' 인산화된다. 이러한 경우, DNA 중합효소는 클레노우 단편 및 리가제일 수 있다.

생물학적 샘플은 동물 조직 샘플일 수 있다. 대안적으로, 생물학적 샘플은 식물 조직 샘플이다.

또 다른 양태에서, 제1 cDNA 가닥의 3' 말단에 대한 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터로서, (i) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 제1 cDNA 가닥의 3' 말단으로 어닐링되는 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 (ii) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하는 5' 어댑터; 및 제2 가닥 차단 올리고뉴클레오티드에 상보적인 시퀀싱 프라이머를 포함하는 키트가 본원에 제공된다. 선택적으로, 키트는 사용설명서를 함유할 수 있다.

제1 가닥 포획 올리고뉴클레오티드는 SEQ ID NO:1에 기재된 서열을 포함할 수 있다. 제2 가닥 차단 올리고뉴클레오티드는 SEQ ID NO:2에 기재된 서열을 포함할 수 있다. 일부 구현예에서, 제2 가닥 차단 올리고뉴클레오티드는 5' 인산화된다.

5' 어댑터의 3' 오버행은 약 8-12개의 연속적 무작위 데옥시리보뉴클레오티드일 수 있다. 일부 예에서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적이다. 다른 예에서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 100% 상보적이다.

또 다른 양태에서, 폴리뉴클레오티드 복합체가 본원에 제공된다. 폴리뉴클레오티드 복합체는 생물학적 샘플로부터 유래된 RNA 분자 및 RNA 분자의 역전사에 의해 생성된 제1 cDNA 가닥을 포함하는 RNA-cDNA 듀플렉스, 및 제1 cDNA 가닥의 3' 말단에 대한 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터를 포함하며, 5' 어댑터는 (i) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 제1 cDNA 가닥의 3' 말단으로 어닐링되는 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 (ii) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하고, 5' 어댑터는 RNA-cDNA 듀플렉스의 제1 cDNA 가닥의 3' 말단으로 어닐링된다.

제1 cDNA 가닥은 무작위 뉴클레오티드 서열을 포함하는 3' 어댑터를 이용하여 생성될 수 있다. 대안적으로, 제1 cDNA 가닥은 polyT 서열을 포함하는 3' 어댑터를 이용하여 생성될 수 있다.

일부 구현예에서, 5' 어댑터의 3' 오버행은 약 8-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함한다. 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적일 수 있다. 다른 경우에, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 100% 상보적일 수 있다.

제1 가닥 포획 올리고뉴클레오티드는 SEQ ID NO:1에 기재된 서열을 포함할 수 있다. 제2 가닥 차단 올리고뉴클레오티드는 SEQ ID NO:2에 기재된 서열을 포함할 수 있다.

본 발명의 다른 목적, 특징, 및 장점은 하기 상세한 설명 및 도면으로부터 당업자에게 명백해질 것이다.

도 1은 가닥 특이적 라이브러리 합성 메커니즘의 개략도를 제시한다. mRNA(101)는 열 및 마그네슘에 의해 단편화되고(1), 어댑터-함유 올리고뉴클레오티드에 의해 cDNA 합성을 위해 프라이밍된다(2 및 3). 예시적 mRNA 전사물은 poly A 꼬리(SEQ ID NO:18; 5'-AAAAAAAAAAAAAAA)를 포함한다. 예시적 DGE 프라이머는 SEQ ID NO:19(5'-TTTTTTTTTTTTTTTTTV)의 핵산 서열을 함유한다. 예시적 SHO 프라이머는 SEQ ID NO:20(5'-NNNNNNNN)의 핵산 서열을 포함한다.
크기 선택 및 세정은 혼입되지 않은 올리고뉴클레오티드 및 작은 cDNA 단편을 제거한다(4). RNA-cDNA 하이브리드의 말단에서의 일시적 듀플렉스 호흡(breathing)(5)은 5-프라임 포획 어댑터의 단일 가닥 부분과의 상호작용을 촉진하고(6), E. 콜리 DNA 중합효소 I은 완전한 라이브러리 분자로의 이의 혼입을 촉매작용한다(7). 8개의 무작위 데옥시리보뉴클레오티드(SEQ ID NO:21; 5'-NNNNNNNN)의 오버행을 갖는 예시적 이중 가닥 5'-어댑터(130)가 제시된다.
도 2a-2d는 라이브러리 품질 및 특징의 분석을 제공한다. 모든 품질 필터링 단계를 통과하는 판독의 백분율(도 2a). DGE 및 HTR에 대한 서열 중복 수준(도 2b). DGE 및 HTR에서의 판독의 GC 함량(도 2c). HTR 보다 DGE에서 평균 GC 함량은 더 낮고, 분포는 더 넓다. 개별적 뉴클레오티드의 조성은 가닥 특이적 DGE와 비-가닥 특이적 HTR 라이브러리 사이에서 상이하다(도 2d). 서열 편향은 트리밍(trimming)된 품질-필터링된 판독의 처음 여러 위치에서 HTR 라이브러리에서 더욱 명백하다. 오차 막대는 조직 및 방법(도 2a) 또는 방법(도 2b 및 2c)에 의해 분리된 샘플 사이에서의 표준 편차를 반영한다.
도 3a-3d는 판독 맵핑 및 가닥 특이성을 제공한다. 어댑터(도 3a) 및 리보솜 RNA(도 3b) 오염으로부터 유래되는 판독의 분획. ITAGcds+500 참조의 어느 한 가닥에 대한 판독 맵핑(도 3c). 플러스 가닥에 속하는 코딩 서열 맵핑된 판독(도 3d).
도 4a-4c는 전사물 범위 및 cDNA 서열 선택 편향을 제시한다. 맵핑 참조 내의 DGE 및 HTR 판독의 국소화(도 4a), 1.5KB 범위로 맵핑된 DGE 판독은 주석이 달린 정지 코돈 근처에 국소화된다. 맵핑된 판독의 상류의 전사물 뉴클레오티드에 대한 염기 빈도(도 4b 및 4c).
도 5는 각각에 대한 샘플의 대표적 쌍을 이용한 각각의 샘플 DGE 및 HTR에 대한 대표적 샘플 쌍에 대한 log2-전환된 발현 상관관계를 제시한다. 모든 DGE 및 HTR에 대한 평균 R-제곱 값.
도 6a-6b는 DGE 및 HTR에 대한 다차원 스케일링(MDS) 플롯을 제시한다. SAM 및 잎 샘플(도 6a). DGE 및 HTR 사이에서의 SAM 대 잎 Log2 배수 변화 비교(도 6b).
도 7a-7c는 증가하는 시간 간격에서 94℃에서 3 mM 마그네슘에 의한 RNA 단편화를 도시한다(도 7a). E. 콜리 중합효소 I을 이용한 호흡 포획 반응에서의 MgCl 농도의 라이브러리 생성물에 대한 효과(도 7b). 호흡 포획 반응은 E. 콜리 중합효소 I(2.5 U), 클레노우 단편(1.25 U) 및 클레노우 exo-(1.25 U)에 의해 성공적으로 촉진된다(도 7c). 도 7c에 제시된 레인은 각각 4개, 2개 및 2개의 기술적 복제물이다. 호흡 포획 반응(도 7b 및 7c)은 15분 동안 실온에서 수행되었다.
도 8은 RNA 시작량 대 라이브러리 증폭, 이용된 주기 횟수 및 푸울링 전의 세척된 라이브러리의 농도를 제시한다.
도 9a-9b는 본 연구에서 사용된 DGE 및 HTR 라이브러리에 대한 품질 필터링 전 및 후의 PHRED 스코어를 제시한다.
도 10은 1백만개의 품질 필터링된 판독마다의 서열 중복률을 제시한다. 고 처리량 HTR 23.12%(파쇄선), DGE 66.15%(실선), 샷건(Shotgun; SHO) 53.63%(실선), 데옥시-우라실 표시(dU) 48.28%(점선).
도 11a-11f는 추가의 가닥 특이적 라이브러리 방법, 샷건(SHO)(도 11a, 11c 및 11e) 및 데옥시-우라실 표시(dU)(도 11b, 11d 및 11f)에 대한 필터링된 판독 정보에 대한 FastQC 분석학을 제시한다. 품질 스코어(도 11a 및 11b), 염기 조성(도 11c 및 11d), GC 함량 백분율(도 11e 및 11f).
도 12는 DGE 및 HTR에서의 독특하게 맵핑된 판독의 유전체 맵핑 위치를 제공한다. DGE 판독은 전사물의 3-프라임에 우세한 국소화를 나타낸다.
도 13은 SHO 라이브러리에 대한 전사물 범위 추적을 제시한다.
도 14는 판독 기원의 구별을 제시한다. DGE 판독은 전사물이 중첩되거나, 판독의 가닥 특이성에 근접한 경우 이들의 기원 전사물에 양성으로 지정될 수 있다.
도 15는 맵핑된 판독의 상류의 20개의 염기에 대한 정보 내용을 나타내는 서열 로고(logo)를 제시한다.
도 16은 방법 사이보다는 각각의 방법 내에서 더 높은 상관관계를 나타내는 차별적 유전자 발현의 쌍을 이룬 비교를 제공한다.
도 17은 3-프라임 말단 근처에 바코드 서열을 함유하는 단일 가닥 어댑터에 의한 동일한 mRNA 샘플로부터의 이종성 증폭을 제시한다.
도 18은 바코드 서열에 의해서만 그룹화를 나타내는 단일 가닥의 바코드 함유 어댑터로 제조된 라이브러리 샘플의 계층적 클러스터링을 도시한다.
도 19는 구아닌 반복부를 함유하는 위치를 맵핑하는 판독의 과다표현(overrepresentation)을 제시한다.
도 20은 프로토타입 어댑터로 제조된 라이브러리의 맵핑 위치의 매우 고르지 않은 분포를 제시한다.
도 21은 트리밍된 판독에 대한 첫번째 맵핑 뉴클레오티드의 상류의 판독에 대한 서열 정보 내용을 제시한다.
도 22는 본원에 기재된 방법(BrAD-seq) 및 Illumina ScriptSeq v2를 이용한 전사물 내의 위치에 의한 판독 범위를 제공한다.

I. 서문

차세대 시퀀싱(NGS)에서 사용될 수 있는 가닥 특이적 RNA-seq 라이브러리의 생성을 위한 조성물, 키트 및 방법이 본원에 제공된다. 가닥 특이적 cDNA 라이브러리를 생성시키기 위한 이들 시간이 덜 소모되고 더 비용 효과적인 방법은 방향성 시퀀싱 어댑터의 포획 및 이들의 이중 가닥 핵산 분자로의 혼입을 촉진하는 DNA 호흡(DNA breathing)의 현상을 이용한다. 특정 서열에 대한 제공된 온도에서, 이중 가닥 핵산 분자(예를 들어, RNA-cDNA 복합체)는 일시적으로 분리되어 염기를 노출시킬 수 있다("호흡(breathe)"). 이러한 과정은 이중 가닥 핵산 분자의 최종 말단에서 높은 비율로 발생한다. 일시적인 말단 호흡 동안, 폴리뉴클레오티드 어댑터는 RNA-cDNA 복합체의 제1 cDNA 가닥으로 어닐링될 수 있다. 중합효소의 존재하에서, 어댑터는 연장되어 제1 cDNA 가닥에 상보적인 제2 가닥 cDNA를 생성시킬 수 있다. 어댑터 혼입된 이중 가닥 cDNA 분자가 증폭 준비된다. 이러한 절차는 어댑터 첨가 전에 제2 가닥 cDNA 합성 및 RNA의 제거에 대한 요구사항을 회피한다. 본원에 기재된 방법은 가닥 특이적 RNA 라이브러리 및 3' 디지털 유전자 발현 라이브러리를 생성시키기 위해 사용될 수 있다.

II. 정의

본원에서 사용되는 바와 같은 하기 용어는 달리 특정되지 않는 한 이들에 기인되는 의미를 갖는다.

본원에서 사용되는 용어의 단수 관사 또는 정관사는 하나의 구성원을 갖는 양태를 포함할 뿐만 아니라 하나 초과의 구성원을 갖는 양태를 포함한다. 예를 들어, 단수 형태는 문맥이 명백히 달리 지시하지 않는 한 복수의 지시대상을 포함한다. 따라서, 예를 들어, "세포"에 대한 언급은 복수의 상기 세포를 포함하며, "제제"에 대한 언급은 당업자에게 공지된 1개 이상의 제제에 대한 언급을 포함하며, 기타 사항도 마찬가지이다.

용어 "가닥 특이적" 또는 "방향성"은 본래의 주형 가닥과 본래의 주형 가닥에 상보적인 가닥 사이의 이중 가닥 폴리뉴클레오티드를 구별하는 능력을 나타낸다.

용어 "폴리뉴클레오티드" 또는 "핵산"은 단일 가닥 또는 이중 가닥 형태의 데옥시리보핵산(DNA) 또는 리보핵산(RNA) 및 이들의 중합체를 나타낸다. 특별히 제한되지 않는 한, 상기 용어는 참조 핵산과 유사한 결합 특성을 갖고, 천연 발생 뉴클레오티드와 유사한 방식으로 대사되는 천연 뉴클레오티드의 공지된 유사체를 함유하는 핵산을 포함한다.

용어 "RNA 분자" 또는 "리보핵산 분자"는 데옥시리보스 당이 아닌 리보스 당 및 통상적으로 피리미딘 염기의 하나로서 티민이 아닌 우라실을 갖는 폴리뉴클레오티드를 나타낸다. 본 발명의 RNA 분자는 일반적으로 단일 가닥이나, 또한 이중 가닥일 수 있다. RNA 샘플로부터의 RNA 분자의 상황에서, RNA 분자는 세포핵, 미토콘드리아 또는 엽록체 내의 DNA로부터 전사된 단일 가닥 분자를 포함할 수 있으며, 이는 전사되는 DNA 가닥에 상보적인 뉴클레오티드 염기의 선형 서열을 갖는다.

용어 "cDNA 분자" 또는 "상보적 DNA 분자"는 역전사효소의 작용을 통해 RNA로부터 역전사되는 합성 DNA를 나타낸다. cDNA 분자는 한 가닥이 RNA 서열의 일부와 실질적으로 동일한 서열을 갖고, 두번째 가닥이 이에 상보적인 이중 가닥일 수 있다.

용어 "제1 가닥 합성"은 중합효소 반응에 대한 시작 주형으로서 본래의 핵산(예를 들어, RNA)를 이용한 제1 가닥의 합성을 나타낼 수 있다. 제1 가닥의 뉴클레오티드 서열은 시작 주형에 상보적인 서열에 상응한다. 예를 들어, 시작 주형으로서 RNA 및 역전사효소(예를 들어, RNA-의존성 DNA 중합효소)를 이용한 제1 가닥 합성에서, 결과로서 발생된 제1 가닥(예를 들어, 제1 가닥 cDNA)은 RNA 주형의 상보적 서열에 상응한다.

용어 "제1 가닥 cDNA"는 제1 가닥 합성에 의해 합성된 cDNA 가닥을 나타낸다. 제1 가닥 cDNA의 서열은 제1 가닥 합성의 시작 주형에 상보적이다.

용어 "제2 가닥 cDNA"는 주형으로서 제1 가닥 합성 반응으로부터의 제1 가닥 cDNA를 이용하는 연장 또는 중합효소 반응에 의해 생성된 cDNA의 제2 가닥을 나타낸다. 제2 가닥 cDNA의 뉴클레오티드 서열은 제1 가닥 합성의 본래의 핵산 주형(예를 들어, RNA 주형)의 서열에 상응한다.

용어 "프라이머" 또는 "올리고뉴클레오티드"는 표적 또는 주형과 하이브리드화됨으로써 표적 올리고뉴클레오티드, 표적 폴리뉴클레오티드, 또는 주형 폴리뉴클레오티드에 결합하는 일반적으로 자유 3'-OH 기를 갖는 짧은 폴리뉴클레오티드를 나타낸다.

용어 "어댑터" 또는 "어댑터 분자"는 관심 표적 폴리뉴클레오티드 또는 표적 폴리뉴클레오티드 가닥으로 어닐링될 수 있고, 관심 표적 폴리뉴클레오티드 또는 표적 폴리뉴클레오티드 가닥의 증폭 생성물의 발생을 가능하게 하는 공지된 서열의 올리고뉴클레오티드를 나타낸다. 적합한 어댑터는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 이보다 더 긴 염기의 단일 가닥 오버행을 포함하는 이중 가닥 핵산(DNA 또는 RNA) 분자를 포함한다. 어댑터의 이중 가닥 DNA 부분은 샘플 또는 관심 서열을 표시하도록 설계된 인덱싱 또는 바-코딩 서열을 추가로 포함할 수 있다.

용어 "연장", "연장하는" 또는 이들의 문법적 등가물은 중합효소와 같은 연장 효소에 의한 프라이머, 폴리뉴클레오티드 또는 다른 핵산 분자로의 dNTP의 첨가를 나타낸다.

용어 "라이게이션", "라이게이팅" 또는 이들의 문법적 등가물은 포스포디에스테르 결합에 의한 2개의 뉴클레오티드 가닥의 연결을 나타낸다. 이러한 반응은 리가제에 의해 촉매작용될 수 있다. 리가제는 ATP 또는 유사한 트리포스페이트의 가수분해로 상기 반응을 촉매 작용하는 효소의 부류를 나타낸다.

용어 "하이브리드화", "하이브리드화되는" 또는 이들의 문법적 등가물은 하나 이상의 폴리뉴클레오티드가 반응하여 뉴클레오티드 잔기의 염기 사이의 수소 결합을 통해 적어도 부분적으로 형성되는(통상적으로, 안정화되는) 복합체를 형성하는 반응을 나타낸다. 수소 결합은 왓슨-크릭 염기쌍 형성(Watson-Crick base pairing), 후그스테인(Hoogstein) 결합, 또는 임의의 다른 서열-특이적 방식에 의해 발생할 수 있다.

용어 "역전사"는 RNA 분자의 뉴클레오티드 서열을 DNA 분자로 복사하는 과정을 나타낸다. 역전사는 널리 공지된 조건하에서 RNA 주형과 RNA-의존성 DNA 중합효소(역전사효소로도 공지됨)를 반응시킴으로써 수행될 수 있다. 역전사효소는 단일 가닥 RNA를 단일 가닥 DNA로 전사시키는 DNA 중합효소이다. 사용되는 중합효소에 따라, 역전사효소는 또한 RNA 주형의 이후의 분해에 대해 RNase H 활성을 가질 수 있다.

뉴클레오티드 서열의 상황에서 용어 "무작위"는 폴리뉴클레오티드 집단에서 다른 무작위 뉴클레오티드 서열과 조합되는 경우 제공된 길이의 뉴클레오티드에 대한 모든 또는 실질적으로 모든 가능한 조합의 뉴클레오티드를 나타내는 뉴클레오티드의 다양한 서열을 나타낸다. 예를 들어, 임의의 제공된 위치에 존재하는 4개의 가능한 뉴클레오티드로 인해, 길이가 2개의 무작위 뉴클레오티드의 서열은 16개의 가능한 조합을 갖거나, 길이가 3개의 무작위 뉴클레오티드의 서열은 64개의 가능한 조합을 갖거나, 길이가 4개의 무작위 뉴클레오티드의 서열은 265개의 가능한 조합을 갖는다.

2개의 핵산 서열의 상황에서 용어 "상보적"은 핵산 사이, 예를 들어, 제1 폴리뉴클레오티드와 제2 폴리뉴클레오티드 사이에서 하이브리드화되거나 염기쌍을 형성하는 능력을 나타낸다. 상보적 뉴클레오티드는 일반적으로 A 및 T(또는 A 및 U), 또는 C 및 G이다. 2개의 단일 가닥 폴리뉴클레오티드는 한 가닥의 염기가 최적으로 정렬되고, 다른 가닥의 염기의 적어도 약 80%, 일반적으로 적어도 약 90% 내지 95%, 더욱 바람직하게는 약 98 내지 100%와 쌍을 이루는 경우에 실질적으로 상보적인 것으로 언급된다.

III. 구현예의 상세한 설명

본래의 단일 가닥 핵산 분자의 방향 정보를 보존하는 가닥 특이적 cDNA 라이브러리를 작제하기 위한 방법, 조성물 및 키트가 본원에 제공된다. 본 발명은 cDNA-RNA 듀플렉스 내의 cDNA의 3' 말단으로 특이적으로 어닐링되고, 연장되어, 가닥 특이적 cDNA 분자를 생성시킬 수 있는 신규한 어댑터의 발견을 부분적으로 기초로 한다.

특정 조건하에서, 5' 이중 가닥 DNA 어댑터(포획-차단 어댑터)는 cDNA-RNA 듀플렉스로 어닐링되어 호흡을 겪을 수 있다. cDNA-RNA 듀플렉스 및 DNA 어댑터를 포함하는 중간 복합체의 형성시, 뉴클레오티드는 DNA 중합효소에 의한 연장을 통해 어댑터의 포획 가닥의 3' 말단으로 첨가될 수 있다. 첨가된 뉴클레오티드(예를 들어, 제2 가닥 cDNA 또는 표적 폴리뉴클레오티드)는 상보적이고, cDNA-RNA 듀플렉스의 cDNA 가닥과 관련하여 방향성을 갖는다. 본원에 기재된 방법은 표적 mRNA의 3' 말단으로부터의 판독을 제공하는 가닥 특이적 3' 디지털 유전자 발현(3' DGE) 라이브러리를 생성시키는데 유용하다. 상기 방법 및 조성물은 널리 공지된 시퀀싱 기술, 특히 고 처리량 시퀀싱 기술과 조합될 수 있으며, 발견 어플리케이션(discovery application)은 대안적 스플라이싱 사건, 유전자 융합, 대립유전자-특이적 발현을 확인하고, 희귀하고 신규한 전사물을 검사하는 것을 포함한다.

A. 어댑터

본원에 제공된 어댑터는 포획 프라이머 및 차단 프라이머를 포함하며, 차단 프라이머는 포획 프라이머의 일부와 상보적이다. 당업자는 차단 프라이머가 포획 프라이머와 100% 상보적일 필요는 없고, 실질적으로 상보적(예를 들어, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 상보적)일 수 있음을 인지할 것이다. 어댑터의 핵산 서열은 본 발명의 가닥 특이적 cDNA 분자의 하류 적용을 기초로 할 수 있다. 예를 들어, 어댑터 서열은 특정 NGS 플랫폼과 상용되도록 선택될 수 있다.

일부 구현예에서, 어댑터의 포획 프라이머는 차단 프라이머에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함한다. 포획 프라이머는 또한 3' 말단에 표적 제1 가닥 cDNA의 3' 말단으로 어닐링될 수 있는 약 6 내지 약 12개, 예를 들어, 약 6개, 약 7개, 약 8개, 약 9개, 약 10개, 약 11개, 약 12개의 데옥시리보뉴클레오티드의 포획 영역을 포함한다. 이중 가닥 어댑터 분자의 3' 오버행은 포획 프라이머의 3' 말단에 위치된 포획 영역의 약 6 내지 약 12개, 예를 들어, 약 6개, 약 7개, 약 8개, 약 9개, 약 10개, 약 11개, 약 12개의 데옥시리보뉴클레오티드에 의해 형성된다. 포획 영역의 데옥시리보뉴클레오티드의 서열(즉, 3' 오버행)은 무직위일 수 있다. 즉, 이들 데옥시리보뉴클레오티드는 제1 가닥 cDNA 서열의 고려사항 또는 지식 없이 무작위로 선택될 수 있다. 다른 경우에, 포획 영역의 서열은 실질적으로 무작위 서열, 컨센서스 서열 또는 특이적 서열일 수 있다. 일부 구현예에서, 3' 오버행의 데옥시리보뉴클레오티드는 하나 이상의 미리 선택된 제1 가닥 cDNA와 실질적으로 상보적, 예를 들어, 80%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 상보적이다. 다른 구현예에서, 3' 오버행의 데옥시리보뉴클레오티드는 하나 이상의 미리 선택된 제1 가닥 cDNA와 100% 상보적이 되도록 선택된다.

일부 구현예에서, 이중 가닥 어댑터 분자의 차단 프라이머는 어댑터 분자의 3' 오버행을 형성하지 않는 포획 프라이머의 부분과 상보적인 적어도 20개, 예를 들어, 20개, 25개, 30개, 35개, 40개, 45개, 50개 또는 그 초과의 데옥시리보뉴클레오티드를 포함한다. 차단 프라이머는 포획 프라이머의 일부의 역 상보체일 수 있다. 차단 프라이머의 5' 말단은 인산화될 수 있다.

일부 경우에, 포획 프라이머는 SEQ ID NO:1(5'- CCTACACGACGCTCTTCCGATCT)의 뉴클레오티드 서열을 포함한다. 포획 영역을 갖는 포획 프라이머는 SEQ ID NO:3(5'-CCTACACGACGCTCTTCCGATCTN_6-12, 여기서, N은 임의의 데옥시리보뉴클레오티드일 수 있음)의 핵산 서열을 가질 수 있다. 일부 구현예에서, 포획 영역을 갖는 포획 프라이머는 SEQ ID NO:4(5'-CCTACACGACGCTCTTCCGATCTNNNNNN), SEQ ID NO:5(5'-CCTACACGACGCTCTTCCGATCTNNNNNNN), SEQ ID NO:6(5'-CCTACACGACGCTCTTCCGATCTNNNNNNNN), SEQ ID NO:7(5'-CCTACACGACGCTCTTCCGATCTNNNNNNNNN), SEQ ID NO:8(5'-CCTACACGACGCTCTTCCGATCTNNNNNNNNNN), SEQ ID NO:9(5'-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNN), 또는 SEQ ID NO:10(5'-CCTACACGACGCTCTTCCGATCTNNNNNNNNNNNN)의 핵산 서열을 갖는다. 일부 경우에, 차단 프라이머는 SEQ ID NO:2(5'-AGATCGGAAGAGCGTCGTGTAGG)의 핵산 서열을 포함한다.

부분적으로 이중 가닥인 5' 어댑터는, 예를 들어, Illumina^®, Roche Diagnostics^®, Applied Biosystems^®, Pacific Biosciences^®, Thermo Fisher Scientific^®, Bio-Rad^® 등에 의해 상업화된 플랫폼을 포함하는 다수의 NGS 시퀀싱 플랫폼에 사용되는 임의의 5' 어댑터를 기초로 할 수 있을 것으로 생각된다. 포획 프라이머 및 이의 상응하는 차단 프라이머의 서열은 특정 어댑터를 기초로 하여 선택될 수 있으며, 포획 프라이머의 포획 영역의 서열은 무작위이거나, 관심 제1 가닥 cDNA 또는 관심 RNA 분자의 서열을 기초로 할 수 있다.

이중 가닥 5' 어댑터는 3' 오버행을 갖는 복합체가 형성되는 조건하에서 포획 프라이머 및 차단 프라이머를 어닐링시킴으로써 생성될 수 있다. 일부 예에서, 3' 오버행은 길이가 약 6 내지 약 12개, 예를 들어, 약 6개, 약 7개, 약 8개, 약 9개, 약 10개, 약 11개, 약 12개의 무작위의 연속적 데옥시리보뉴클레오티드이다. 프라이머는 다음과 같은 조건하에서 어닐링될 수 있다: (1) 1분 동안 94℃, (2) -1℃/주기로 60주기의 10초 동안 94℃, (3) 1분 동안 20℃, 및 선택적으로 4℃ 유지. 일부 경우, 생성된 이중 가닥 5' 어댑터는 임의의 어닐링되지 않은 자유 포획 프라이머 및 차단 프라이머로부터 분리된다.

복수의 cDNA 분자(예를 들어, 제1 및 제2 가닥 cDNA)를 포함하는 가닥 특이적 cDNA 라이브러리를 생성시키기 위해, 복수의 부분적 이중 가닥 어댑터 분자가 사용될 수 있다. 일부 구현예에서, 각각의 어댑터 분자에 대한 포획 프라이머 및 차단 프라이머의 서열은 실질적으로 동일하고, 어댑터 분자의 3' 오버행의 서열은 무작위일 수 있다.

B. 가닥 특이적 cDNA 라이브러리를 생성시키는 방법

본원에 기재된 방법은 생물학적 샘플로부터 유래된 RNA-cDNA 듀플렉스의 혼합물로부터 가닥 특이적 cDNA 라이브러리를 생성시키는 것을 포함한다. RNA-cDNA 듀플렉스의 혼합물을 생성시키는 상세한 설명은, 예를 들어, 문헌[Kumar et al., Front Plant Sci, 2012, 3:202; "mRNA Sequencing: Sample Preparation Guide", Illumina, Cat. # RS-930-1001, Part # 1004898; Maekawa et al., Methods Mol Biol, 2014, 1164:51-65, 및 Tariq et al., Nucl Acids Res, 2011, 39(18):e120]에서 발견된다.

샘플은 임의의 생물학적 샘플, 예를 들어, 동물, 식물, 곰팡이, 진균, 또는 미생물, 예를 들어, 박테리아, 효모, 바이러스, 바이로이드로부터의 샘플일 수 있다. 생물학적 샘플로부터의 RNA(예를 들어, mRNA 및 비-mRNA)는 당 분야에 공지된 표준 기술을 이용하여 획득되거나 정제될 수 있다. 키트 및 시약, 예를 들어, PureLink^® RNA Mini kit(Thermo Fisher Scientific), Dynabeads^® mRNA DIRECT™ Micro Purification Kit(Thermo Fisher Scientific), GeneJET RNA Purification Kit(Thermo Fisher Scientific), TRIzol^®(Thermo Fisher Scientific), 및 RNeasy^® Plus Universal Kits(Qiagen)가 생물학적 샘플을 용해시키고, RNA 샘플을 추출하기 위해 사용될 수 있다. 방향성 cDNA 라이브러리는 소량의 생물학적 샘플, 예를 들어, 10 mg의 세포질에 밀집한 식물 조직 또는 이의 등가물로부터 본원에 기재된 방법에 따라 생성될 수 있다.

RNA 샘플은 RNA 분자, 예를 들어, mRNA 및 마이크로RNA를 분리시키기 위해 추가로 가공될 수 있다. 키트, 예를 들어, Dynabeads^® mRNA Purification Kit, mRNA Isolation Kit(Roche) 및 Isolation of mRNA Kit(New England Biolabs)가 사용될 수 있다. 대안적으로, RNA 샘플은 당업자에게 공지된 임의의 방법을 이용하여 리보솜 RNA(rRNA)를 고갈시킬 수 있다. 리보솜 RNA 고갈 키트는 Qiagen, Thermo Fisher Scientific, New England Biolabs, Illumina 등으로부터 상업적으로 이용 가능하다.

RNA-cDNA 듀플렉스를 생성시키기 위한 역전사 전에, 분리된 RNA 분자(예를 들어, mRNA 분자)는 상승된 온도(예를 들어, 90℃-96℃) 하에서 2가 양이온(예를 들어, Zn² ⁺ 및 Mg² ⁺)을 이용한 부분적 알칼리성 가수분해에 의해 단편화될 수 있다. 단편화 완충액은, 예를 들어, New England Biolabs^® 및 Thermo Fisher Scientific^®로부터 상업적으로 이용 가능하다. 대안적으로, Mg² ⁺ 이온을 함유하는 제1 가닥 cDNA 합성 완충액은 고온에서 mRNA를 단편화시키기 위해 사용될 수 있다. 일부 구현예에서, 분리된 RNA 분자는 단편화되지 않는다. 단편화되지 않은 RNA 분자는 전장 전사물 라이브러리를 제조하기 위해 사용될 수 있다.

단편화 mRNA 분자 또는 단편화되지 않은 mRNA 분자는 하류 적용, 예를 들어, 특정 NGS 플랫폼과 상용되는 3' 어댑터로 프라이밍될 수 있다. 예를 들어, 3' 어댑터에 융합된 polyT 프라이머 또는 무작위 프라이머(예를 들어, 무작위 헥사머 또는 옥타머)는 mRNA 분자로 어닐링될 수 있다.

RNA-cDNA 듀플렉스는 표준 제1 가닥 cDNA 합성 반응 방법에 의해 상기 기재된 3' 어댑터 프라이밍된 RNA 분자로부터 생성될 수 있다. 예를 들어, 역전사 완충액, DTT, dNTP 및 역전사효소를 포함하는 제1 가닥 cDNA 반응 혼합물은 제1 가닥 cDNA를 합성하는 조건하에서 3' 어댑터 프라이밍된 RNA 분자와 혼합될 수 있다.

상기 기재된 이중 가닥 5' 어댑터는 RNA 분자, 제1 cDNA 가닥 및 어댑터를 포함하는 중간 복합체를 형성하는 조건하에서 RNA-cDNA 듀플렉스에 첨가될 수 있다. 일부 구현예에서, 중간 복합체는 양이온(예를 들어, Mg² ⁺)의 존재하에서 20℃ 내지 25℃에서 형성된다. 다합체의 중간 복합체는 RNA-cDNA 듀플렉스가 말단에서 일시적으로 개방되어, 5' 어댑터의 포획 단일 가닥 연장부(예를 들어, 3' 오버행)가 cDNA 가닥의 3' 말단에 어닐링되도록 하는 경우에 생성될 수 있다. 복합체는 어댑터의 포획 프라이머의 연장에 의해 추가로 안정화될 수 있다.

일부 양태에서, 상기 방법은 5' 어댑터, 예를 들어, 제1 가닥 cDNA에 하이브리드화되는 포획 프라이머를 연장시키는 것을 포함한다. 일부 경우에, 제1 가닥 cDNA로부터 제2 가닥 cDNA를 합성하는 것은 하이브리드화된 포획 프라이머를 연장시키는 것을 포함한다. 프라이머 연장을 위한 방법은 당업자에게 널리 공지되어 있으며, 연장 효소, 예를 들어, 중합효소를 이용하는 것을 포함할 수 있다. 유용한 DNA 중합효소는 5'에서 3'으로의 엑소뉴클레아제 활성을 갖는 중합효소; 가닥 치환 활성을 갖는 중합효소; DNA 중합효소 I(Pol I); DNA 중합효소 I, 거대(클레노우) 단편, 및 클레노우 단편 exo^-를 포함한다. 일부 경우에, 가닥 치환 활성을 갖는 DNA 중합효소는 phi 29, Bst DNA 중합효소, 거대 단편; SD DNA 중합효소, 테르무스 아쿠아티쿠스(Thermus aquaticus)로부터 유래된 변형된 DNA 중합효소(Taq 중합효소) 등일 수 있다. 본 발명의 제2 가닥 cDNA는 프라이머 연장에 의해 생성되며, 포획 프라이머를 포함한다. 일부 구현예에서, 가닥 특이적 cDNA는 포획 프라이머 상의 cDNA 프라이밍의 3' 말단으로부터 생성된다.

C. 가닥 특이적 cDNA의 증폭

하류 적용을 위한 가닥 특이적 cDNA의 증폭 준비 생성물을 생성시키기 위해 임의의 방법, 조성물 및 키트, 예를 들어, 대량의 병행 시퀀싱(즉, 차세대 시퀀싱 방법) 또는 하이브리드화 플랫폼이 사용될 수 있다. 일부 예에서, 농축 PCR은 cDNA 분자의 5' 및 3' 어댑터와 상용되고, 어댑터 및 cDNA 분자를 증폭시킬 수 있는 프라이머를 이용하여 수행된다. 증폭 방법은 당 분야에 널리 공지되어 있다. 적합한 증폭 반응은 중합효소 연쇄 반응(PCR), 가닥 치환 증폭(SDA), 선형 증폭, 다중 치환 증폭(MDA), 롤링 써클 증폭(RCA), 단일 프라이머 등온 증폭(SPIA), Ribo-SPIA, 또는 이들의 조합을 포함하나 이에 제한되지는 않는 임의의 DNA 증폭 반응을 포함할 수 있다.

PCR에서, DNA의 반대 가닥으로 어닐링되는 2개의 상이한 PCR 프라이머는 하나의 프라이머의 중합효소 촉매 작용된 연장 생성물이 다른 프라이머에 대한 주형 가닥으로 작용하여 길이가 올리고뉴클레오티드 프라이머의 5' 말단 사이의 거리에 의해 규정되는 별개의 이중 가닥 단편의 축적을 발생시킬 수 있도록 위치된다. 변성, 프라이머 어닐링, 및 중합효소에 의한 프라이머 연장의 반복 사이클링은 프라이머에 측접된 표적 폴리뉴클레오티드의 원하는 서열의 카피에서의 지수적 증가를 발생시킨다.

D. 차세대 시퀀싱

일부 구현예에서, 본원에 제공된 방법은 서열이 표적 RNA 분자에 상응하는 증폭 생성물을 DNA 시퀀싱하는 것을 포함한다. DNA 시퀀싱의 비제한적인 예는 자동화 생거 시퀀싱(AB 13730x1 유전체 분석기), 고형 지지체 상에서의 피로시퀀싱(pyrosequencing)(454 시퀀싱, Roche), 가역적 종료를 갖는 합성에 의한 시퀀싱(Illumina^® Genome Analyzer), 반도체를 이용한 합성에 의한 시퀀싱(Ion Torrent™), 라이게이션에 의한 시퀀싱(ABI SOLiD^®) 또는 가상 종료자를 갖는 합성에 의한 시퀀싱(HeliScope™)을 포함한다. 시퀀싱을 위한 유용한 방법은 Illumina, 454/Roche Life Sciences, Applied Biosystems, Helicos Biosciences, Pacific Biosciences, Life Technologies 등에 의해 상업화되었다.

E. 키트

부분적 이중 가닥 5' 어댑터 및 5' 어댑터를 시퀀싱하는데 유용한 시퀀싱 프라이머를 포함하는 키트가 본원에 제공된다. 5' 어댑터는 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 포획 프라이머 및 약 6-12개의 연속적 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 포획 프라이머의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 차단 프라이머를 포함할 수 있다. 차단 프라이머는 차단 프라이머의 길이에 걸쳐 포획 프라이머와 100% 상보적일 수 있다. 3' 오버행을 형성하는 6-12개의 연속적 데옥시리보뉴클레오티드는 무작위일 수 있거나, 관심 제1 가닥 cDNA를 기초로 한 미리 선택된 서열일 수 있다. 일부 예에서, 미리 선택된 서열은 관심 cDNA의 말단과 적어도 50%, 예를 들어, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 99% 상보적이다. 다른 예에서, 미리 선택된 서열은 관심 cDNA의 말단과 100% 상보적이다.

키트의 시퀀싱 프라이머는 본원에 기재된 방법에 따라 생성된 제2 가닥 cDNA의 서열을 결정하기 위해 사용된다. 서열 프라이머의 서열은 5' 어댑터 분자를 기초로 한다. 일부 구현예에서, 시퀀싱 프라이머는 어댑터의 차단 프라이머와 상보적이다.

키트는 가닥 특이적 cDNA 라이브러리의 생성을 수행하는데 필요한 시약, 예를 들어, 중합효소 완충액, 중합효소, DTT, dNTP, 멸균수, MgCl₂, 단편화 완충액, cDNA 증폭 프라이머, 및 라이브러리를 정제하기 위한 시약을 포함할 수 있다. 키트는 또한 사용설명서를 함유할 수 있다.

IV. 실시예

하기 실시예는 청구된 본 발명을 예시하기 위해 제공되지만, 이를 제한하지 않는다.

실시예 1: 호흡 어댑터 방향성 시퀀싱( BrAD - seq ): DNA 및 가닥 특이적 mRNA 라이브러리 작제를 위한 간소화된 초간단 및 신속 라이브러리 제조 프로토콜.

차세대 시퀀싱(NGS) 기술은 빠르게 유전체학 연구의 기초 도구가 되고 있다(Koboldt et al., 2013). 특히, RNA-시퀀싱(RNA-seq)은 변형된 유전자 발현 분석을 가지며, 사실상 모든 종에 대한 전사체 어셈블리를 생성시키는 능력으로 전례가 없는 수준의 세부사항으로 비-모델 유기체의 연구를 촉진시켰다(Semon, 2014). 가장 일반적으로 사용되는 Illumina 플랫폼에서, 많은 수의 생물학적 샘플을 시퀀싱하는 능력은 핵산 샘플로부터 분자의 말단에 특정 서열 "어댑터"를 갖는 라이브러리의 생성을 필요로 한다. 다양한 원료 물질로부터의 핵산 샘플로부터 어댑터-추가된 라이브러리를 생성시키기 위해 이용 가능한 다양한 방법이 존재하나, 상기 과정은 여전히 기술적으로 난제이고, 번거롭고, 고비용인 채로 남아 있어, 상기 기술에 대한 광범위한 접근을 제한한다.

본원에서, 본 발명자는 간단하고, 신속하며, 저렴한 모듈 포맷으로 가닥 특이적 RNA-seq 라이브러리를 작제하기 위한 신규하고 효율적인 방법을 제시한다. 상기 방법은 가닥 특이적인 3-프라임 디지털 유전자 발현(DGE - mRNA의 3' 말단으로부터의 판독을 제공함)을 생성하도록 최적화되며, 다양한 DNA 공급 물질을 이용하는 것에 더하여 가닥 특이적 비-DGE 샷건(shotgun) 유형(SHO) 및 더욱 통상적인 비-가닥 특이적(CNV) RNA-seq 라이브러리에 대해 적합화될 수 있다. 3-프라임 DGE 라이브러리는 종종 유전자 발현 연구에 선호되는데, 이는 단일 mRNA가 약 1회의 서열 판독을 발생시켜 잠재적인 편향의 원인을 감소시키기 때문이다.

가닥 특이적 RNA-seq는 cDNA 라이브러리의 제조 동안 독특한 5-프라임 및 3-프라임 어댑터 서열의 방향성 첨가를 필요로 한다. 이는 다양한 NGS 라이브러리 제조 프로토콜 중에서 다수의 방식으로 달성된다. 이들은 cDNA 합성 전의 mRNA 분자의 5-프라임 부분에 대한 공지된 서열의 라이게이션(Lister et al., 2008), 주형 RNA 가닥의 제거 후의 무작위적으로 프라이밍된 제2 가닥 합성(Armour et al., 2009), 농축 전의 효소적 분해를 위한 dUTP를 이용한 제1 또는 제2 가닥 cDNA 분자의 표지화(Parkhomchuk et al., 2009) 및 cDNA 분자에 규정된 뉴클레오티드를 첨가하기 위한 말단 트랜스페라제의 이용(Zhu et al., 2001; Tang et al., 2010)을 포함하며, 각각의 방법은 장점 및 단점을 갖는다(Regev et al., 2012). 방향성 NGS 라이브러리 작제를 위한 본 발명의 방법은 라이브러리 작제 과정을 상당히 간소화시키고 가속화한다. 단지 약 10 밀리그램의 세포질에 밀집된 식물 조직, 예를 들어, 줄기 정단 분열조직(SAM) 또는 엽원기(leaf primordia)(성숙 조직에 대해서는 약간 더 많은 양)가 RNA-seq 라이브러리 생성에 필요하며, 개별 작업자는 조직으로부터 시작하는 절차를 하루만에 용이하게 완료할 수 있다.

본 발명자는 가닥 특이적 라이브러리를 생성시키기 위해 이용 가능한 방법에서 이용되지 않은 핵산 화학의 한 양태를 활용한다. 이중 가닥 핵산은 개별적 가닥이 일시적으로 분리되어 염기를 노출하게 될 "호흡"으로 불리는 현상을 겪는다(von Hippel et al., 2013). 이러한 과정은 이중 가닥 핵산의 말단에서 더 높은 비율로 발생한다(von Hippel et al., 2013). 본 발명자는 RNA-cDNA 듀플렉스의 5-프라임 말단에 Illumina TruSeq PE1 서열을 포함하는 어댑터 올리고뉴클레오티드를 특이적으로 혼입시키기 위해 상기 일시적 말단 호흡을 이용한다. 호흡 포획은 사전의 제2 가닥 합성 또는 주형 RNA의 제거를 필요로 하지 않고, 3-프라임 DGE 또는 샷건(SHO) 유형 가닥 특이적 라이브러리의 작제를 가능하게 하는 간소화된 가닥 특이적 라이브러리 프로토콜을 가능하게 한다.

이들 기본적인 가닥 특이적 모듈로부터, 본 발명자는 투입 물질로서 다양한 핵산 종인 단일 가닥 RNA, 이중 가닥 DNA 및 단일 가닥 DNA를 수용하는 추가의 상용성인 모듈을 추가로 개발하였다. 이는 유전자 발현 연구를 위한 라이브러리, 유전체 DNA 라이브러리뿐만 아니라 염색질 면역침전(ChIP) 실험에서 획득된 DNA 및 레이저 포획 미세해부(LCM) 조직 샘플로부터의 RNA와 같은 미세한 샘플의 증폭 생성물로부터의 라이브러리의 생성을 위한 범용 플랫폼을 제공한다. 이러한 플랫폼의 공통 모듈의 이용은 임의의 수의 라이브러리 유형을 생성시키는데 필요한 개별적 시약의 수를 최소화시킬 뿐만 아니라, 취급 및 조작 단계를 표준화시켜, 학습 곡선을 감소시키고, 인간 오류에 대한 가능성을 최소화시킨다.

재료 및 방법

가닥 특이적 라이브러리 합성을 위한 반응 단계의 개략도가 도 1에 제시된다. 비-가닥 특이적인 "통상적인"(CNV) RNA-seq 라이브러리에 대한 간략한 프로토콜이 하기에서 발견될 수 있다. 가닥 특이적 DGE RNA-seq 뿐만 아니라 가닥 특이적 SHO RNA-seq 및 비-가닥 CNV RNA-seq 및 DNA-seq 프로토콜 변형에 대한 상세한 지침이 또한 하기에서 발견될 수 있다. 본 연구에서 사용된 모든 올리고뉴클레오티드는 Life Technologies(Thermo Fisher Scientific)에서 50 나노몰 규모로 주문하였고, 이는 추가 정제 없이 탈염된 것이었다.

A. 식물 물질

토마토 종자(S. 리코페르시쿰(S. lycopersicum) cv M82: LA3475)는 캘리포니아 대학의 토마토 유전학 자원 센터(Tomato Genetics Resource Center)의 데이비스(Davis)에 의해 제공되었다. 멸균(1분 동안 50% 표백제 후 물로 헹굼) 후, 종자를 실온에서 3일 동안 어두운 곳에서 피타트레이스(Phytatrays; Sigma) 내의 물에 적신 페이퍼 타월 위에 두어 발아시켰다. 피타트레이스 내의 발아된 종자를 또 다른 4일 동안 70% 상대 습도 및 16 h 명/8 h 암의 광주기와 함께 22℃에서 성장 챔버에 두었다. 이후, 묘종을 Sunshine Mix 토양(Sun Gro)에 심었다. 11일 동안 토양에서의 성장 후, P5 엽원기(잎 샘플) 및 SAM(SAM 및 4개의 어린 엽원기로 구성됨)을 면도날을 이용하여 조심스럽게 절개하고, RNase-비함유 튜브로 수거하였다.

B. mRNA 분리

조직을 지르콘 비드 및 리튬 도데실 설페이트 대신에 소듐 도데실 설페이트를 함유하는 용해질 결합 완충액을 이용하여 쿠마르 등(Kumar et al.)(Kumar et al., 2012)에 의해 이전에 기재된 바와 같이 처리하고 용해시켰다. mRNA를 샘플 당 200 μl의 용해질로부터 분리시켰다. 5-프라임의 20개의 뉴클레오티드의 임의의 스페이서 서열 뒤에 20개의 티아민 뉴클레오티드를 함유하는 1 μl의 12.5 μM의 5-프라임의 비오티닐화된 polyT 올리고뉴클레오티드(5'-bio- ACAGGACATTCGTCGCTTCCTTTTTTTTTTTTTTTTTTTT-3'; SEQ ID NO:11)를 각각의 용해질 샘플에 첨가하고, 수회 피펫팅하여 혼합하고, 10분 동안 방치하였다. 인큐베이션 후, 포획된 mRNA를 20 μl의 LBB 세척된 스트렙타비딘-코팅된 자기 비드(New England BioLabs, Cat. # S1420S)의 첨가에 의해 용해질로부터 분리시켰다. 비드-용해질 혼합물을 피펫팅하여 혼합하고, 추가 10분 동안 방치하였다. 샘플을 96-웰 자기 분리기(Edge BioSystems, Cat. # 57624)에 두고, 다음의 변형과 함께 이전에 기재된 바와 같이(Kumar et al., 2012) 세척하였다. A) WBA, WBB 및 LSB의 세척 부피는 각각 300 μl였고, 완충액을 사용 전에 얼음 상에서 냉각시켰다. B) mRNA 용리를 1 mM β-머캅토에탄올을 함유하는 16 μl의 10 mM Tris-HCl(pH 8)로 수행하였다.

C. mRNA 단편화, 3- 프라임 어댑터 프라이밍

mRNA 단편화를 상승된 온도에서 마그네슘 이온을 이용하여 달성하였다(도 7a-c). cDNA 합성 반응을 위한 프라이밍을 가닥 특이적-DGE, 가닥 특이적-RND에 대한 단일 반응 혼합물에서 수행하였고, 비-가닥 특이적 라이브러리를 10 μl의 전체 반응 부피로 1.5 μl의 5X RT 완충액(Thermo scientific, Cat. # EP0441), 1 μl의 프라이밍 어댑터 및 7.5 μl의 샘플 mRNA를 함유하는 반응물에서 단편화시켰다. 혼합물을 회전시키고, 열 순환기에서 인큐베이션하였다. 하기 올리고뉴클레오티드 및 열 순환기 프로그램을 각각의 라이브러리 유형에 대해 사용하였다.

DGE: 1 μl의 2 μM 올리고 L-3ILL-20TV.2 (5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTTTTTTTTTTTTTTTTTTV-3'; SEQ ID NO:12)(1초 동안 25℃, 1.5분 동안 94℃, 1분 동안 30℃, 4분 동안 20℃, 20℃ 유지).

SHO: 1 μl의 5 μM 올리고 L-3ILL-N8.2 (5'-GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNNNN-3'; SEQ ID NO:13)(1초 동안 25℃, 1.5분 동안 94℃, 5분 동안 4℃, 20℃ 유지).

D. cDNA 합성

단편화되고 프라이밍된 mRNA에 5 μl의 다음과 같은 반응 혼합물을 첨가하여 cDNA를 합성하였다: 1.5 μl의 5X Thermo Scientific RT 완충액(Thermo scientific, Cat. # EP0441), 1.5 μl의 0.1M 디티오트레이톨(DTT), 1 μl의 H2O, 0.5 μl의 25mM dNTPs(Thermo Scientific, Cat. # R1121), 0.5 μl의 RevertAid RT 효소(Thermo Scientific, Cat. # EP0441)(전체 반응 부피 15 μl). 반응 혼합물을 실온에서 준비하고, 다음과 같은 프로그램을 수행하는 열 순환기에 두었다: (25℃ 10분, 42℃ 50분, 50℃ 10분, 70℃ 10분, 4℃ 유지). cDNA를 세척하고, "호흡 포획" 또는 각 샘플로의 5 μl의 50 mM EDTA(pH 8.0) 및 30 μl의 Agencourt AMPure XP 비드(Beckman, Cat. # A63881)의 첨가에 의한 제2 가닥 합성 전에 크기 선택하고, 피페팅에 의해 혼합하였다. 5분 후, 샘플을 자기 트레이에 놓고, 상층액을 제거하고, 펠렛을 펠렛 파괴 없이 300 μl의 80% 에탄올로 2회 세척하였다. 잔여 에탄올을 20-μl 피펫 첨단으로 제거하고, 샘플을 가시적인 미량의 액체가 검출 가능하지 않을 때까지 공기 건조시켰다.

E. 5- 프라임 듀플렉스 호흡 포획 어댑터 첨가(가닥 특이적)

실온에서 4 μl의 10 μM의 미리-어닐링된 5-프라임 이중 가닥 어댑터 올리고로 비드-펠렛에 결합된 cDNA를 재수화시킴으로써 5-프라임 어댑터 첨가를 수행하였다. H₂O 중에 각각 10 mM의 올리고 5pSense8n(5pSense8n 5'-CCTACACGACGCTCTTCCGATCTNNNNNNNN-3'; SEQ ID NO:4) 및 5pAnti(5pAnti 5'-AGATCGGAAGAGCGTCGTGTAGG-3'; SEQ ID NO:2)를 함유하는 스톡 용액을 제조하고, 스트립 튜브 중에 100 μL 부피를 분배하고, 이를 다음과 같은 프로그램을 수행하는 열 순환기에서 어닐링시켜 이중 가닥 5-프라임 어댑터를 제조하였다: [1분 동안 94℃(10초 동안 94℃) x 60 주기 -1℃/주기, 1분 동안 20℃, 4℃ 유지]. 이후, 6 μl의 다음과 같은 반응 혼합물을 첨가하고, 피페팅으로 혼합하여 펠렛을 완전히 재현탁시키고, 15분 동안 실온에서 인큐베이션하였다: 3.5 μl의 H₂O, 1 μl의 10X Thermo Pol I 반응 완충액(Thermo Scientific, Cat. # EP0041), 1 μl의 250 mM MgCl₂(새로이 제조하고, -20℃에서 보관함), 0.25 μl의 25 mM dNTPs(Thermo Scientific, Cat. # R1121), 0.25 μl의 Thermo DNA Pol I(Thermo Scientific, Cat. # EP0041)(10 μl의 전체 반응 부피). 비드 상의 사전-농축 라이브러리를 세척하고, 10 μl의 50 mM EDTA(pH 8.0) 및 30 μl의 ABR을 첨가함으로써 이전 단계로부터 존재하는 Agencourt AMPure XP 비드를 이용하여 크기 선택하고, 피페팅에 의해 충분히 혼합하고, 5분 동안 방치시킨 후, 자기 트레이에 두었다. 상층액을 제거하고, 펠렛을 펠렛 파괴 없이 300 μl의 80% 에탄올로 2회 세척하였다. 잔여 에탄올을 20-μl 피펫 첨단으로 제거하고, 샘플을 가시적인 미량의 액체가 검출 가능하지 않을 때까지 공기 건조시켰다. 펠렛을 22 μl의 10mM Tris(pH 8)에 재현탁시키고, 1분 동안 방치시키고, 자기 트레이에 두었다. 상층액을 비드 없이 새로운 스트립 튜브로 옮기고, 농축 전에 -20℃에서 보관하였다.

F. PCR 농축 및 인덱스 서열 첨가(가닥 특이적 및 비-가닥 특이적)

농축 단계를 완전한 어댑터 서열을 함유하는 전장 올리고뉴클레오티드뿐만 아니라 어댑터 아암(arm)의 가장 원위 부분에 상보적인 짧은 올리고뉴클레오티드를 이용하여 수행하여 주로 전장 증폭 생성물을 보장하도록 하였다. 20 μl의 전체 반응 부피로 1 μl의 2 μM의 독특하게 인덱싱된 ILL-INDEX 올리고뉴클레오티드(ILL-INDEX 5'-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGAT-3'; SEQ ID NO:14)와 9 μL의 마스터 믹스(4 μl의 5X Phusion HF 완충액, 2.6 μl의 H₂O, 1 μl의 2 μM PE1 프라이머(PE1 5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'; SEQ ID NO:15), 1 μl의 8 μM의 각각의 S1 + S2 프라이머(S1 5'-AATGATACGGCGACCACCGA-3'; SEQ ID NO:16, S2 5'-CAAGCAGAAGACGGCATACGA-3'; SEQ ID NO:17), 0.2 μl의 25mM dNTPs, 0.2 μl의 Phusion 중합효소(Thermo Scientific, Cat. # F-530L)) 및 10 μl의 사전-농축 cDNA를 조합시킴으로써 PCR 농축을 수행하였다. PCR 믹스의 절반(10 μl)을 별개의 샘플 튜브에 두고, 더 많은 주기의 농축이 필요한 샘플에 대한 백업으로서 -20℃에서 보관하였다. 나머지 10 μl를 회전시키고, 다음과 같은 프로그램을 이용하여 열 순환기에 두었다: [30초 동안 98℃, 11 주기의 (10초 동안 98℃, 30초 동안 65℃, 30초 동안 72℃), 5분 동안 72℃, 10℃ 유지). 매우 희미한 농축만 나타내는 샘플을 백업 PCR 샘플로부터 13주기의 농축으로 재증폭시켰다. 2 μl의 각각의 라이브러리 샘플을 20분 동안 100볼트에서 크기 및 양 참조를 위한 1 μl의 O'GeneRuler 100 bp DNA 래더(Thermo Scientific, Cat. # SM1143)와 함께 1% 아가로스 젤에서 영동시켰다. 나머지 8 μl의 농축된 라이브러리 샘플을 세척하고, 12 μl의 새로운 Agencourt AMPure XP 비드를 이용하여 크기 선택하고, 이전 세척 단계에서와 같이 80% 에탄올로 2회 세척하였다. 라이브러리를 10 μl의 10mM Tris(pH 8.0)로 펠렛으로부터 용리시키고, 정량하고, 이전에 기재된 바와 같이 푸울링시켰다(Kumar et al., 2012). UV 버클리의 빈센트 제이. 코아테스(Vincent J. Coates)의 유전체 시퀀싱 시설에서 50 bp 단일 말단 시퀀싱을 수행하였다.

G. 생물정보학

iPlant Atmosphere 클라우드 서비스(Goff et al., 2011)를 이용하여 생물정보학 및 통계 분석을 수행하였다. 판독을 42 bp로 트리밍하고, FASTX-Toolkit(hannonlab.cshl.edu/fastx_toolkit/의 웹사이트 참조) 및 UC 데이비스(UC Davis)의 코마이 랩(Comai lab)(comailab.genomecenter.ucdavis.edu의 웹사이트 참조)에 의해 개발된 스크립트를 이용하여 품질 필터링시켰다. 판독을 표 1에 특정된 파라미터로 Bowtie(Langmead et al., 2009)를 이용하여 맵핑하였다. 판독 품질 분석을 FASTQC(www.bioinformatics.bbsrc.ac.uk/projects/fastqc/의 웹사이트 참조)를 이용하여 수행하였다. 각각의 생물정보학 단계를 수행하기 위해 사용된 코드는 웹사이트 github.com/SinhaLab/townsley-fips-2015/에서 이용 가능하고, 본 연구에서 사용된 RNA-seq 데이터에 대한 FASTQ 파일은 드라이어드(Dryad) 데이터 저장소(드라이어드 데이터 호스팅 정책으로 인해 링크가 증명으로만 제공될 수 있음)로부터 다운로드될 수 있다.

표 1. DGE 및 HTR 라이브러리 샘플에 대한 차별적 유전자 발현 콜(call).

결과 및 논의

본 발명의 가닥 특이적 라이브러리 제조 방법을 평가하기 위해, 본 발명자는 새로운 BrAD-seq DGE 방법 및 쌍 비교 분석을 위한 본 발명자의 이전에 개발된 HTR 방법을 이용하여 줄기 정단 분열조직(SAM) 및 엽원기(잎) 샘플을 제조하였다. 이러한 프로토콜에서, 본 발명자는 농축 단계 동안 라이브러리 분자에 샘플-확인 인덱스 서열을 첨가하였다(Meyer and Kircher, 2010).

A. 라이브러리 농축

절차의 문제로 본 발명자는 더 높은 처리량을 유지하기 위해 라이브러리 합성 전에 mRNA 농도를 통상적으로 정량하지 않지만, 익숙하지 않은 물질로 실험을 시작하는 경우, 얼마나 많은 농축 주기가 시도하기에 합리적인지에 대해 일부 인식하는 것이 유용할 수 있다. 투입 mRNA 농도와 선택된 농축 주기의 수 사이의 관계를 확인하기 위해, DGE 라이브러리 합성에 사용된 22개의 mRNA 샘플을 RNA 6000 Pico 키트(Agilent Technologies)를 이용하여 BIOANALYZER™에서 정량하였다. 이러한 정보는 각각의 라이브러리 샘플의 농축에 사용된 주기의 수 및 세척된 라이브러리의 농도와 상관 관계가 있었다(도 8). 상기 상관관계는 약 10ng/μl 미만의 mRNA에서 첫번째 시도로 약 14회의 농축 주기로 시작하는 것이 가치가 있을 수 있으나, 젤 이미지의 해석에서의 개별적 참조 및 샘플의 푸울링을 위한 표적화된 최종 농도가 궁극적으로 농축 주기의 이상적 수를 결정하는데 있어서 중요한 요인이 될 것임을 암시한다.

B. 판독 품질

5-프라임 어댑터 포획 가닥으로부터 유래되는 서열의 포함을 피하기 위해, DGE 라이브러리의 처음 8개의 염기를 분석 전에 트리밍하였다. HTR 라이브러리에 대해, 처음 8개의 염기가 트리밍된 경우 판독 맵핑의 백분율이 또한 더 높은 것으로 밝혀졌으며(77.8% 대 74.1%), 이에 모든 분석에 대해 품질 필터링 단계 전에 트리밍된 FASTQ 파일을 샘플에 대해 생성시켰다. cDNA 합성 동안 무작위 프라이머가 미스매치와 함께 어닐링되고, cDNA 분자로 비-천연 서열을 혼입시키므로 트리밍된 HTR 라이브러리에서 맵핑 속도가 개선된다.

미가공 DGE 라이브러리에 대한 전체 품질 스코어는 polyA 트랙을 함유하는 cDNA 삽입물의 포함으로 인해 HTR보다 낮았다(도 8). 이들 낮은 복잡도의 서열은 참조 서열에 맵핑될 수 없고, 이들은 품질 필터링에 의해 맵핑 전에 대부분 제거된다(도 2a 및 도 9a-9b).

mRNA 전사물의 3-프라임에서 고도로 농축된 가닥 특이적 cDNA 분자의 집단은 더 적은 수의 각각의 전사물에 대한 독특한 서열로 구성되어야 하므로, 독립적 cDNA 분자로부터의 동일한 판독이 비-가닥 특이적 및 비-DGE 라이브러리에서보다 높은 수준으로 예상된다. 본 발명자는 실제로 HTR 보다 DGE에 대해 더 높은 서열 중복을 관찰하였다(도 2b). 비-DGE 가닥 특이적 라이브러리는 더 완전한 전사물 길이 범위를 가지며, 더 높은 서열 복잡도로 인해 DGE 라이브러리보다 낮은 서열 중복을 나타낸다(도 10). 데옥시-우라실(dU) 표시 가닥 특이적 방법(Wang et al, 2011)을 이용하여 제조된 유전자 발현 옴니버스(Gene Expression Omnibus; Acession: GSE38879)로부터 다운로드된 유사한 단계로 발달하는 토마토 잎으로부터 제조된 가닥 특이적 토마토 SHO 라이브러리 및 아라비돕시스 가닥 특이적 라이브리러(Hsu et al., 2013)를 또한 평가하였고, 이들은 서로 유사한 중복 비율을 갖는다(도 10). 판독 중복 카운트에서 한 요인으로서의 샘플 사이의 시퀀싱 정도에서의 차이를 제거하기 위해, 중복 분석을 위해 각각의 FASTQ 파일로부터 1백만개의 판독의 무작위 서브샘플(subsample)을 사용하였다.

또한, 3-프라임 DGE 라이브러리에서 모든 poly-A 작업이 품질 필터링에 의해 제거되는 것이 아니다. 동종뉴클레오티드 "A" 반복이 DGE 라이브러리에서 우세한 중복 서열을 구성하며, 품질 필터링된 판독의 약 0.3%를 포함한다. 품질-필터링 후, GC 함량 및 염기 당 서열 함량은 DGE와 HTR 사이에서 상이하며(도 2c), 가닥 특이적 DGE 라이브러리 판독에서 GC 함량이 더 낮다. 비-가닥 특이적 라이브러리(예를 들어, HTR 라이브러리)에서의 개별적 염기 조성은 대략 동일한 양의 G 대 C 및 A 대 T 뉴클레오티드를 함유해야 하는 반면, G/C 및 A/T 비는 mRNA의 코딩 가닥에 대해 동일하지 않다. 주석이 달린 토마토 코딩 서열의 센스 가닥에서의 각각의 뉴클레오티드의 비율은 22.1% G, 18.5% C, 29.9% A, 29.4% T였다. 이는 DGE 서열에서 관찰된 비율과 매우 유사하다: 22.5% G, 15.2% C, 28.5% A, 33.8% T(도 2d). 품질 스코어, 서열 함량 및 GC 분포는 SHO 및 dU 라이브러리 방법 사이에 유사한 성능을 나타낸다(도 11).

C. 어댑터 및 rRNA 오염

어댑터 오염은 HTR에서보다 DGE 라이브러리에서 더 높았으며(도 3a), 이는 HTR에서의 판독의 약 1%와 비교하여 DGE에서의 판독의 약 5%로 구성된다. 이는 DGE 프로토콜의 비드 세척 단계에서 더 높은 PEG 농도의 이용으로 인한 것일 수 있다. 이는 작은 생성물의 비드 결합을 증가시킬 수 있다. HTR 라이브러리에서의 0.22% 내지 0.39%(도 3b) 및 상업적 Illumina 키트(Kumar et al., 2012)로 이루어진 토마토 라이브러리에서의 약 3%와 비교하여 DGE 라이브러리로부터의 판독의 약 1%는 리보솜 오염으로 인한 것일 수 있다. HTR에 비한 DGE에서의 증가된 rRNA는 HTR 과정에서 2 단계 mRNA 재분리와 비교하여 단일 단계 mRNA 분리로 인한 것일 수 있다.

D. 판독 맵핑

DGE 및 HTR 라이브러리를 확실하게 비교하기 위해, 본 발명자는 주석이 달린 토마토 코딩 서열 및 정지 코돈에 대한 유전체 서열 3-프라임에 해당하는 추가 하류 부분으로 구성된 참조 서열 세트를 생성시켰다. 식물 3-프라임 비번역 영역(3'-UTR)은 길이에 있어서 가변적이고, 평균 약 200 bp(Mignone et al., 2002)이지만, 많은 3'-UTR에는 주석이 달려 있지 않다. 본 연구의 목적상, 500 bp의 하류 유전체 서열을 대부분의 3'-UTR 서열을 포함하도록 선택하였고, 주석이 달린 ITAG2.4 코딩 서열에 첨부하였다(ITAGcds+500). 코딩 서열 내의 임의의 A-풍부 영역으로의 3-프라임 polyT 함유 어댑터의 미스-프라이밍의 효과를 최소화시키기 위해 코딩 서열의 3-프라임 500 bp 및 3'-UTR을 나타내는 추가 500 bp로 구성된 DGE 라이브러리(ITAG500+500)에 대해 추가 맵핑 참조를 특이적으로 생성시켰다.

ITAGcds+500 참조의 플러스 및 마이너스 가닥에 1회 이상 맵핑되는 판독의 비율은 HTR(77-78%)보다 DGE(85-87%)에서 더 높으며(도 3c), 이는 둘 모두의 방법에서의 대부분의 판독은 mRNA로부터 유래되는 것을 입증한다.

E. DGE 3- 프라임 선택성

mRNA 전사물의 3-프라임 부분에 대한 DGE 라이브러리 프로토콜의 강한 선택성이 존재하는 반면, HTR로부터 유래된 판독은 전사물 전체에 걸쳐 더욱 균일하게 분포된다. (도 12). ITAG500+500 참조 서열은 ITAGcds+500 참조 서열보다 평균 608 bp 더 짧지만, ITAGcds+500 참조에 독특하게 맵핑되는 HTR 판독(73% 내지 78%)보다 많은 DGE 판독이 ITAG500+500 참조에 대해 독특하고 가닥 특이적으로 맵핑된다(78% 내지 81%).

F. 가닥 특이성

DGE 라이브러리의 가닥 특이성을 평가하기 위해, 중첩 UTR 영역에 맵핑되는 판독을 배제하기 위해 판독을 토마토 코딩 서열에만 맵핑시켰다(도 3d). DGE 라이브러리에서 맵핑된 판독의 약 99% 및 HTR 라이브러리에서 맵핑된 판독의 50%는 센스 가닥에 국소화되며, 이는 DGE 라이브러리에 대한 매우 높은 정도의 가닥 특이성을 나타낸다. RNA-cDNA 듀플렉스의 cDNA 가닥만 Pol I에 대한 주형으로 작용할 수 있으므로 cDNA 분자의 방향성 정보는 보존된다. 본 발명자는 E. 콜리 Pol I, 클레노우 단편, 및 클레노우 exo^-와 함께 상기 방법을 이용하여 라이브러리를 성공적으로 생성시켰으며(도 7c), 이는 상기 과정을 효율적으로 작업하기 위해 Pol I의 엑소뉴클레아제 활성이 필요하지 않음을 나타낸다.

DGE 라이브러리에서 독특하게 맵핑된 판독의 대부분(95%)은 ITAGcds+500 참조의 주석이 달린 정지 코돈의 +/- 500 bp 영역에 맵핑되는 반면(표 2), HTR 라이브러리는 전사물 전체에 걸쳐 더욱 균일한 분포를 나타낸다(도 4a). DGE 판독은 주석이 달린 정지 코돈의 하류를 포함하는 전사물의 3-프라임 영역에 거의 전적으로 국소화되며, 이는 DGE 판독을 맵핑하기 위해 이러한 간격만이 필요함을 암시한다. 비교에 의한 HTR 판독은 더욱 균일한 분포를 나타내지만, 전사물의 3-프라임에서 서열에 대한 편향이 여전히 존재한다. 모든 코딩 서열이 1 kb 이상이 아니므로, 판독 위치를 또한 코딩 서열의 부분으로 스케일링(scaling)시켰다(도 4b). HTR 라이브러리는 여전히 CDS의 3-프라임 말단 근처의 서열에 대해 약간의 편향을 나타낸다. SHO 라이브러리는 HTR과 유사한 전사물 범위를 나타내지만, SHO 범위는 다소 높은 5-프라임 전사물 표시를 나타낸다(도 13).

표 2. 정지 코돈과 관련된 ITAGcds+500 참조에서의 DGE 판독 맵핑 위치.

어댑터 포획 과정에 의해 도입된 서열 선택 편향의 정도를 확인하기 위해, 각각의 판독에 대해 처음 맵핑된 뉴클레오티드의 상류의 20개의 뉴클레오티드를 염기 조성(도 4c) 및 정보 내용(도 14)에 대해 FASTA 맵핑 참조로부터 추출하였다. 위치 -8 내지 -1은 DNA-RNA 듀플렉스의 호흡 포획을 담당하는 어댑터의 8 bp 단일 가닥 부분으로 어닐링된 cDNA 영역에 해당한다. 위치 -20 내지 -9는 Illumina TruSeq PE1 서열을 함유하는 어댑터의 "차폐된" 이중 가닥 부분에 해당한다. 차폐(차단) 올리고뉴클레오티드의 존재에도 불구하고, 어댑터의 마지막 몇개의 염기에 해당하는 -9 맵 위치에 접근하는 위치는 이중 가닥 영역의 말단 근처에서 일부 서열 편향을 나타낸다(도 15). 이는 포획 말단에서의 어댑터의 듀플렉스 호흡이 일시적으로 처음 몇개의 내부 염기를 노출시켜, 일부 상보성을 갖는 cDNA 서열과의 증가된 상호작용을 가능하게 함을 암시한다. 이러한 서열 선택 편향의 정도 및 범위는 차폐되지 않은 단일 가닥 어댑터를 이용하는 본 프로토콜의 이전 형태에 비해 유의하게 개선되지만, 이는 무작위 8-머(mer)의 첫번째 염기를 연장된 이중 가닥 차폐 영역으로 전환시킴으로써 추가로 또한 개선될 수 있다. 주형 mRNA 가닥의 보유는 cDNA의 내부 부분에 대한 접근을 방지한다. 이는 cDNA의 말단 부분에 대한 어댑터의 상호작용을 제한하며, 이는 mRNA 단편화를 통해 라이브러리 크기의 조절을 제공하고, 서열 특이적 이차 구조의 효과를 제한한다. 호흡 포획 반응에서 마그네슘 농도를 20 mM로 증가시키는 것은 cDNA 가닥과 어댑터의 포획 뉴클레오티드 사이의 염기-쌍 상호작용의 증가된 강도를 통해 잠재적으로 라이브러리 수율을 개선시킨다(도 7b). DGE 라이브러리의 가닥 특이성은 또한 종료자 영역이 중첩되는 유전자에 대해 기원 전사물의 명확한 지정을 가능하게 한다(도 14).

G. 유전자 발현의 검출

사전-품질 필터링된 판독의 동등한 크기의 부분집합으로부터 판독을 분석하였다(표 3). 맵핑된 판독을 갖는 전사물의 수는 독특하게 맵핑되지 않은 판독을 배제하는 경우 DGE 및 HTR 라이브러리 둘 모두에서 감소된다. 독특하게 맵핑된 판독 및 가닥 특이성만 보유하는 것과 조합된 DGE 라이브러리로 혼입된 전사물의 제한된 범위는 전사물의 유전체 위치가 중첩되고, 코딩 서열이 고도로 보존된 전사물의 거짓 검출을 감소시킬 수 있다.

표 3. DGE 및 HTR 각각에 대해 6.5M 판독의 사전-품질 필터링된 부분집합에 대한 전사물 검출.

독특하게 맵핑되지 않음은 ITAGcds+500 참조의 둘 모두의 가닥에 대한 맵핑을 판독하고, 독특하게 맵핑됨은 ITAGcds+500의 둘 모두의 가닥에 대한 맵핑을 판독하고, 독특하게 맵핑됨은 ITAG500+500 참조의 센스 가닥에 대한 맵핑을 판독한다.

복제물 사이의 상관관계는 HTR 샘플보다 DGE에 대해 더 높다(도 5 및 표 5). Log2-전환된 발현의 모든 쌍을 이룬 비교에 대한 R-제곱 값은 HTR(SAM 0.91, 잎 0.93)보다 DGE(SAM 0.96, 잎 0.95) 복제물 사이에서 더 높은 상관관계를 나타내었다. 이들 값은 DGE 및 아라비돕시스 dU 라이브러리(0.96)에 대해서뿐만 아니라 HTR과 SHO 사이(0.92)에서 유사하다. DGE 및 HTR 실험 샘플 사이의 변동을 또한 다차원 스케일링(MDS)를 이용하여 평가하였다(도 6a). DGE 및 HTR 샘플 둘 모두는 SAM 및 잎 클러스터 사이의 거리가 DGE 라이브러리에 대해 차원 2를 따라 더 크지만 조직 유형에 밀집되어 있으며, 이는 유전자 발현에 의한 조직 사이의 높은 구별 능력을 암시한다. DGE와 HTR 사이의 차별적 유전자 발현 콜(call)은 높은 정도의 중첩을 나타낸다(표 4). 본 발명자는 둘 모두의 라이브러리 제조 방법에 대해 SAM 대 잎 샘플에서 차별적으로 조절되는 유전자의 log2 배수-변화(FDR < 0.05) 사이에서의 매우 강한 상관관계(r_s = 0.92)를 발견하였다. DGE 방법(r_s = 0.87; 도 6b에서 오렌지색) 또는 HTR 방법(r_s = 0.87; 도 6b에서 청색)에 대해서만 차별적으로 조절되는 유전자를 고려하는 경우 상관관계는 매우 강하게 유지된다.

표 4. DGE 및 HTR 라이브러리 샘플에 대한 차별적 유전자 발현 콜.

방법 내 및 방법 전체에서 차별적 발현 결과를 비교하기 위해, 본 발명자는 2개 복제물의 10개의 그룹으로 샘플을 나누었다. 10개의 샘플 그룹은 2개의 HTR 잎, 2개의 HTR SAM, 3개의 DGE 잎, 및 3개의 DGE SAM이었다. 각각의 라이브러리 제조 방법 내에서, 본 발명자는 잎 x SAM의 모든 조합에 대해 차별적 유전자 발현 분석을 수행하였다. 이는 HTR에 대해 4개의 비교 및 DGE에 대해 9개의 비교를 발생시켰다. 이들을 이용하여, 본 발명자는 각각의 라이브러리 제조 방법 내(DGE에 대해 45개 및 HTR에 대해 6개) 및 각각의 라이브러리 제조 방법 사이(DGE 대 HTR에 대해서 36개)에서의 잎-SAM 차별적 발현 유전자의 모든 조합에 대해 스피어만 순위 상관 계수(Spearman's Ranked Correlation Coefficient)를 계산할 수 있었다. 본 발명자는 차별적으로 조절되는 유전자의 배수 변화가 라이브러리 제조 방법 내에서보다 라이브러리 제조 방법 사이를 비교하는 경우에 상관 관계가 덜하지만, 방법 사이 및 방법 내 비교 둘 모두가 매우 강하게 상관 관계를 나타내는 것을 발견하였다.

H. 비용

본 발명자는 대부분 변형되지 않은 올리고뉴클레오티드를 이용하고, 조작, 단계 및 시약을 최소화하는 프로토콜을 개발함으로써 라이브러리 제조 비용 및 복잡도를 최소화시키고자 하였다. 상기 방법으로 mRNA를 분리시키고, 가닥 특이적 라이브러리를 제조하는 비용은 매우 적으며, 자기 비드, dNTP 및 효소 비용은 mRNA 분리를 포함하여 전체 $2.96/샘플이며, mRNA로부터 라이브러리를 제조하는 경우 $1.98이다. 소모품, 화학 시약 및 반응 마스터 믹스를 위한 추가 10% 부피의 추가 비용을 허용하면서도, 이러한 방법은 이용가능한 상업적 가닥 특이적 방법(예를 들어, Illumina® 96 반응을 위한 NEBNext^® Ultra™ Directional RNA Library Prep Kit, Cat. # E7420L; 96 샘플 반응을 위한 SureSelect Strand Specific RNA-Seq Library Preparation kit, Cat. # G9691A)에 비해 20-40배의 비용 감소를 제공한다.

I. 프로토콜 개발

본 발명자는 처음에 주형 스위칭 프로토콜을 변형시키려고 시작했으나, 현재까지 틀림없이 가장 저렴하고 가장 신속한 RNA-seq 프로토콜을 본 발명자가 생성할 수 있었음을 최종적으로 발견하였다. 본 발명의 본래 목적은 일차 판독 내에서 바코드 서열과 함께 어댑터-인코딩된 인덱스 서열을 이용하여 샘플의 극도로 밀집한 멀티플렉싱을 달성하려고 하는 것이었다. 5-프라임 어댑터는 MMLV 중합효소에 의해 cDNA로 첨가되는 비-주형화 시토신과의 염기 쌍형성을 촉진하기 위해 부분적인 Illumina PE1 서열 뒤에 9-염기쌍 서열(6개의 염기쌍 바코드 및 3개의 말단 구아닌)을 갖는 단일 가닥 분자로 설계되었다. cDNA로의 어댑터 서열의 첨가는 어댑터 연쇄동일서열(concatamer)로 구성된 "백그라운드 cDNA"를 피하기 위해 크기-선택 비드 세척 후에 E. 콜리 중합효소 I을 이용하는 두번째 반응에서 수행되었다.

본 발명의 최초 라이브러리는 어댑터에 함유된 바코드 서열에 따라 동일하게 푸울링된 시험 mRNA의 고도로 이종성인 농축을 나타내었고(도 17), 어댑터 바코드 서열에 따라 변하는 특정 앰플리콘의 대량의 과다표현(overrepresentation)으로 인해 유의한 가시적 밴딩을 나타내었다. Illumina 판독으로부터의 처음 9개의 뉴클레오티드의 트리밍 후, 토마토 전사물에 대한 맵핑, 및 샘플의 클러스터링은 샘플 유형이 아니라 바코드 서열을 기초로 한 그룹화를 예기치 않게 나타내었다(도 18). 또한, 첫번째 시도 라이브러리에서, 적은 수의 전사물만이 판독 수의 대부분을 차지하였다.

이들 예기치 않은 결과의 추가 연구는 Illumina 플랫폼에서 시퀀싱될 수 있는 cDNA 라이브러리가 생성되었으나, 프라이밍 메커니즘은 본래 예견된 주형 스위칭을 이용하지 않은 것을 나타내었다. 트리밍된 판독의 첫번째로 맵핑된 뉴클레오티드에 대해 5-프라임에 위치된 전사물 참조 서열의 서열 분석은 바코드 서열 및 "G" 반복과 매치되는 뉴클레오티드(도 19-20) 및 어댑터의 PE1 서열과의 유사성을 포함하도록 연속된 추가 상류 서열에 대해 시퀀싱된 토마토 전사물에서 극도의 편향을 나타내었다. 이는 이중 가닥 cDNA의 말단 부분과 어댑터의 바코드-함유 부분 사이의 염기 쌍형성 상호작용이 라이브러리에서 표시된 전사물을 선택하는 것을 나타내었다.

제공된 유전체에서 임의의 특정 9개의 염기쌍 서열의 희귀성(한 예로, 3.8e-06 염기마다)에도 불구하고, 판독의 74%는 바코드에 대한 완전한 9개 염기쌍 매치를 함유하였고, 이어서 판독의 사전-트리밍된 부분에서 3개의 "G"를 함유하였다(도 21). 이는 시퀀싱 반응에 대한 우세한 주형이 주형으로서 cDNA를 이용하여 어댑터의 3-프라임 말단으로부터 프라이밍된 가닥임을 나타내었다. 결과적으로, MMLV 역전사효소에 의한 cDNA 분자로의 비-주형화된 "C"의 첨가는 어댑터 올리고뉴클레오티드에서의 프라이밍을 차단할 수 있어 시퀀싱되는 분자의 대부분이 제2 가닥으로부터 강제로 유래되도록 한다.

이는 이중 가닥 주형에서 호흡 효과가 있었음을 암시하였다. 본 발명자는 5-프라임 어댑터를 재설계하여 상기 호흡-포획 효과를 이용하였고, 본 발명자의 초기 어댑터에 의해 생성되는 서열 편향을 제거하였다. Illumina PE1 서열을 함유하는 어댑터의 부분은 상보적 서열 올리고뉴클레오티드를 어닐링시킴으로써 차폐되었고, 다음의 9개의 염기를 더 짧거나 더 긴 변형보다 우수한 6 내지 8개의 뉴클레오티드의 연장을 갖는 무작위 혼합-염기 서열의 가변 길이 연장부로 대체하였다. 무작위 뉴클레오티드 연장부의 3-프라임 말단에 차단기를 혼입시킨 어댑터 변형은 극도로 불량하게 작동되었고, 이는 이러한 가닥으로부터의 프라이밍이 상기 과정을 이용한 라이브러리 형성에 필수적임을 나타낸다.

전사물 내의 염기 위치에 의한 판독 범위의 분석(도 22)은 호흡 어댑터 방향성 시퀀싱(BrAD-Seq) 방법이 전사물의 5-프라임 영역의 증가된 표현을 갖는 것을 나타낸다. 이는 유전체 주석 및 의학 진단에 매우 유용하다.

결론

본 발명자는 조직으로부터 다중화된 포맷으로 가닥 특이적 3-프라임 DGE RNA-seq 라이브러리를 제조하기 위한 신속하고 저렴한 방법을 개발하였다. 전체 과정은 하루의 작업일 내에 완료될 수 있다. 본 발명자가 알고 있는 바로는 이는 어댑터 서열을 선택적 및 방향적으로 첨가하기 위해 핵산 듀플렉스의 말단 호흡을 이용하는 최초의 라이브러리 작제 과정이다. 본 발명자는 다양한 라이브러리 유형을 생성하도록 하는 모듈을 포함하는 과정을 추가로 개발하였다. 본 발명자는 또한 C. 펜타고나(C. pentagona), S. 펜넬리이(S. pennellii), S. 핌피넬리폴리움(S. pimpinellifolium), S. 네오릭키이(S. neorickii) 및 N. 토바쿰(N. tobacum)을 포함한 S. 리코페르시쿰(S. lycopersicum)에 더하여 다수의 종에 대해 코어 DGE 방법을 이용하였다. 현재까지, 본 발명자는 발달 및 비생물학적 스트레스와 관련된 다수의 연구에서 차별적 유전자 발현을 연구하기 위해 우수한 결과로 본 발명의 DGE 프로토콜을 성공적으로 이용하였다. 본 발명자는 본 발명자의 목적을 위해 상기 코어 프로토콜에 모듈을 추가하고 적합화시켰으며, 본 발명자는 또한 이들 모듈을 제공하여, 다른 사람들도 범용 RNA 및 DNA-seq 라이브러리 프로토콜 계열에 대한 기초로서 상기 프로토콜을 이용할 수 있도록 한다. NGS 시퀀싱 기술을 보편화하는 것을 돕기 위해, 본 발명자는 NGS 라이브러리의 제조를 위한 저렴하고 용이하게 구현되는 프로토콜을 제공한다. 본 연구는 문헌[Townsley et al., Frontiers in Plant Science, 2015, 6(366):1-11, doi:10.3389/fpls.2015.00366]으로서 공개되었다.

표 5. log2 표준화된 판독 카운트의 모든 쌍을 이룬 복제 샘플 비교를 위한 R-제곱 값.

참고문헌

전술한 본 발명은 이해의 명료성을 위해 예시 및 예로서 일부 상세하게 기재되었으나, 당업자는 특정한 변화 및 변형이 첨부된 청구항의 범위 내에서 실시될 수 있음을 인지할 것이다. 또한, 본원에 제공된 각각의 참고문헌은 각각의 참고문헌이 개별적으로 참조로서 포함되는 것과 동일한 정도로 전체내용이 참조로서 포함된다.

정보 서열 목록

SEQUENCE LISTING <110> The Regents of the University of California Townsley, Brad Covington, Michael F. Sinha, Neelima F. <120> COMPOSITIONS AND METHODS FOR CONSTRUCTING STRAND SPECIFIC cDNA LIBRARIES <130> 1008757 <140> PCT/US2016/030288 <141> 2016-04-29 <150> US 62/154,584 <151> 2015-04-29 <160> 30 <170> PatentIn version 3.5 <210> 1 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 1 cctacacgac gctcttccga tct 23 <210> 2 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 2 agatcggaag agcgtcgtgt agg 23 <210> 3 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(29) <223> N = A, C, T or G <220> <221> misc_feature <222> (30)..(35) <223> N may be present or absent; N = A, C, T or G <400> 3 cctacacgac gctcttccga tctnnnnnnn nnnnn 35 <210> 4 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(29) <223> N = A, C, T or G <400> 4 cctacacgac gctcttccga tctnnnnnn 29 <210> 5 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(30) <223> N = A, C, T or G <400> 5 cctacacgac gctcttccga tctnnnnnnn 30 <210> 6 <211> 31 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(31) <223> N = A, C, T or G <400> 6 cctacacgac gctcttccga tctnnnnnnn n 31 <210> 7 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(32) <223> N = A, C, T or G <400> 7 cctacacgac gctcttccga tctnnnnnnn nn 32 <210> 8 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(33) <223> N = A, C, T or G <400> 8 cctacacgac gctcttccga tctnnnnnnn nnn 33 <210> 9 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(34) <223> N = A, C, T or G <400> 9 cctacacgac gctcttccga tctnnnnnnn nnnn 34 <210> 10 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (24)..(35) <223> N = A, C, T or G <400> 10 cctacacgac gctcttccga tctnnnnnnn nnnnn 35 <210> 11 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> modified_base <222> (1)..(1) <223> A is biotinylated <400> 11 acaggacatt cgtcgcttcc tttttttttt tttttttttt 40 <210> 12 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 12 gtgactggag ttcagacgtg tgctcttccg atcttttttt tttttttttt tttv 54 <210> 13 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (35)..(42) <223> N = A, C, T or G <400> 13 gtgactggag ttcagacgtg tgctcttccg atctnnnnnn nn 42 <210> 14 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (25)..(32) <223> N = A, C, T or G <400> 14 caagcagaag acggcatacg agatnnnnnn nngtgactgg agttcagacg tgtgctcttc 60 cgat 64 <210> 15 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 15 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 16 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 16 aatgatacgg cgaccaccga 20 <210> 17 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 17 caagcagaag acggcatacg a 21 <210> 18 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 18 aaaaaaaaaa aaaaa 15 <210> 19 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 19 tttttttttt tttttttv 18 <210> 20 <211> 8 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (1)..(8) <223> N = A, C, T or G <400> 20 nnnnnnnn 8 <210> 21 <211> 8 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <220> <221> misc_feature <222> (1)..(8) <223> N = A, C, T or G <400> 21 nnnnnnnn 8 <210> 22 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 22 ttgatatggg 10 <210> 23 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 23 ttgtgctggg 10 <210> 24 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 24 tacactaggg 10 <210> 25 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 25 tctgcctggg 10 <210> 26 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 26 tcaattaggg 10 <210> 27 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 27 tctctctggg 10 <210> 28 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 28 tgatactggg 10 <210> 29 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 29 tgccataggg 10 <210> 30 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 30 tgtcaatggg 10

Claims

(a) 생물학적 샘플로부터 RNA 샘플을 분리시키는 단계;
(b) RNA 분자 및 역전사에 의한 제1 cDNA 가닥을 포함하는 RNA-상보적 DNA(cDNA) 듀플렉스를 생성시키는 단계;
(c) 제1 cDNA 가닥의 3' 말단에 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터를 어닐링시키는 단계로서, 5' 어댑터가 (i) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 제1 cDNA 가닥의 3' 말단으로 어닐링되는 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 (ii) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하는, 단계; 및
(d) 가닥 특이적 cDNA 분자를 생성시키는 단계를 포함하는,
RNA 샘플 내의 RNA 분자로부터 가닥 특이적 cDNA 분자를 생성시키는 방법.
제1항에 있어서, 단계 (a) 후에 RNA 분자를 단편화시키는 단계를 추가로 포함하는 방법.
제1항에 있어서, 가닥 특이적 cDNA 분자를 생성시키는 단계가 DNA 중합효소 또는 이의 단편을 이용하여 5' 어댑터의 제1 가닥 포획 올리고뉴클레오티드를 연장시켜 제1 cDNA 가닥에 상보적인 제2 cDNA 가닥을 생성시키는 단계를 포함하는 방법.
제1항에 있어서, 제2 가닥 차단 올리고뉴클레오티드에 상보적인 프라이머를 이용하여 제2 cDNA 가닥을 증폭시키는 단계를 추가로 포함하는 방법.
제4항에 있어서, 증폭이 중합효소 연쇄 반응을 포함하는 방법.
제1항에 있어서, 증폭된 제2 cDNA 가닥의 서열을 결정하는 단계를 추가로 포함하는 방법.
제1항에 있어서, 3' 오버행이 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적인 약 8-12개의 연속적 데옥시리보뉴클레오티드를 포함하는 방법.
제1항에 있어서, 3' 오버행이 미리 선택된 제1 cDNA 가닥에 100% 상보적인 약 8-12개의 연속적 데옥시리보뉴클레오티드를 포함하는 방법.
제 1항에 있어서, 생물학적 샘플이 동물 조직 샘플인 방법.
제 1항에 있어서, 생물학적 샘플이 식물 조직 샘플인 방법.
제1항에 있어서, RNA 샘플을 단편화시키는 단계가 Mg² ⁺ 함유 완충액에서 수행되는 방법.
제1항에 있어서, 단계 (c) 및/또는 (d)가 실온에서 수행되는 방법.
제1항에 있어서, DNA 중합효소 또는 이의 단편이 DNA 중합효소 I인 방법.
제1항에 있어서, DNA 중합효소 또는 이의 단편이 클레노우(Klenow) 단편인 방법.
제1항에 있어서, 5' 어댑터의 제2 가닥 차단 올리고뉴클레오티드가 5' 인산화되는 방법.
제15항에 있어서, DNA 중합효소가 클레노우 단편 및 리가제인 방법.
(a) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및
(b) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하는 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터; 및
제2 가닥 차단 올리고뉴클레오티드에 상보적인 시퀀싱 프라이머를 포함하는, 키트.
제17항에 있어서, 제2 가닥 차단 올리고뉴클레오티드가 5' 인산화되는 키트.
제17항에 있어서, 제1 가닥 포획 올리고뉴클레오티드가 SEQ ID NO:1에 기재된 서열을 포함하는 키트.
제17항에 있어서, 제2 가닥 차단 올리고뉴클레오티드가 SEQ ID NO:2에 기재된 서열을 포함하는 키트.
제17항에 있어서, 5' 어댑터의 3' 오버행이 약 8-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 키트.
제21항에 있어서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적인 키트.
제21항에 있어서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 100% 상보적인 키트.
제17항에 있어서, 사용설명서를 추가로 포함하는 키트.
생물학적 샘플로부터 유래된 RNA 분자 및 RNA 분자의 역전사에 의해 생성된 제1 cDNA 가닥을 포함하는 RNA-cDNA 듀플렉스, 및
(a) 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제1 가닥 포획 올리고뉴클레오티드 및 약 6-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 3' 오버행, 및 (b) 제1 가닥 포획 올리고뉴클레오티드의 적어도 일부에 상보적인 적어도 20개의 데옥시리보뉴클레오티드를 포함하는 제2 가닥 차단 올리고뉴클레오티드를 포함하는 부분적 이중 가닥 올리고뉴클레오티드 5' 어댑터를 포함하는 폴리뉴클레오티드 복합체로서,
5' 어댑터가 RNA-cDNA 듀플렉스의 제1 cDNA 가닥의 3' 말단으로 어닐링되는, 폴리뉴클레오티드 복합체.
제25항에 있어서, 제1 cDNA 가닥이 무작위 뉴클레오티드 서열을 포함하는 3' 어댑터를 이용하여 생성되는 폴리뉴클레오티드 복합체.
제25항에 있어서, 제1 cDNA 가닥이 polyT 서열을 포함하는 3' 어댑터를 이용하여 생성되는 폴리뉴클레오티드 복합체.
제25항에 있어서, 제1 가닥 포획 올리고뉴클레오티드가 SEQ ID NO:1에 기재된 서열을 포함하는 폴리뉴클레오티드 복합체.
제25항에 있어서, 제2 가닥 차단 올리고뉴클레오티드가 SEQ ID NO:2에 기재된 서열을 포함하는 폴리뉴클레오티드 복합체.
제25항에 있어서, 5' 어댑터의 3' 오버행이 약 8-12개의 연속적 무작위 데옥시리보뉴클레오티드를 포함하는 폴리뉴클레오티드 복합체.
제30항에 있어서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 실질적으로 상보적인 폴리뉴클레오티드 복합체.
제30항에 있어서, 약 8-12개의 연속적 데옥시리보뉴클레오티드가 RNA-cDNA 듀플렉스의 미리 선택된 제1 cDNA 가닥에 100% 상보적인 폴리뉴클레오티드 복합체.