KR102282863B1

KR102282863B1 - 혼합물 중 핵산의 서열분석 방법 및 그와 관련된 조성물

Info

Publication number: KR102282863B1
Application number: KR1020157025850A
Authority: KR
Inventors: 마크 씨. 에메릭; 윌리엄 에스. 아그뉴
Original assignee: 에모리 유니버시티; 더 존스 홉킨스 유니버시티
Priority date: 2013-02-20
Filing date: 2014-02-17
Publication date: 2021-07-27
Also published as: JP6557151B2; CN105121664B; CA2901907C; JP2019180415A; US20160046930A1; AU2020201691B2; AU2020201691A1; EP2959019A4; AU2014219180A1; EP3550033A1; AU2022203617A1; EP2959019B1; WO2014130388A9; JP6989853B2; KR20150141944A; JP2016507246A; WO2014130388A1; CA2901907A1; EP3550033B1; JP2022031278A

Abstract

본 개시내용은 폴리뉴클레오티드의 불균일 혼합물 중의 종단간 서열 및 상대적인 분포를 분석하는 것, 및 그와 관련된 방법 및 그를 수행할 수 있는 시약에 관한 것이다. 특정 실시양태에서, 본 방법은 제한하는 것은 아니지만, 복잡한 전사 후 RNA 프로세싱이 수행되는 불연속 유전자를 가지는 고등 다세포 유기체의 세포 또는 조직의 트랜스크립톰에 존재하는 mRNA의 완전한 전장의 서열분석 및 정량적 프로파일링에 관한 것이다.

Description

혼합물 중 핵산의 서열분석 방법 및 그와 관련된 조성물 {METHODS OF SEQUENCING NUCLEIC ACIDS IN MIXTURES AND COMPOSITIONS RELATED THERETO}

관련 출원에 대한 상호 참조

본 출원은 2013년 2월 20일 출원된 미국 가출원 번호 제61/766,841호(상기 출원은 그 전문이 본원에서 참조로 포함된다)에 대한 우선권을 주장한다.

배경기술

개별 유전자는 흔히 유기체의 생활 주기에서 정상적으로는 접하게 되는 것이 아닌 세포 (예컨대, 암 세포; 배양물 중 세포; 발생학상 신경해부학적 이상인 세포)를 비롯한, 상이한 세포 또는 분화 단계에서 새 단백질을 생기게 할 수 있다. 상이한 단백질은 발현 세포에서 단백질을 지정하는 메신저 RNA(mRNA: messenger RNA)의 전사 활성화 및 전사 후 RNA 프로세싱의 차별적 패턴으로부터 일어난다.

세포에서 발견되는 mRNA "전사체" 집단은 본원에서 "트랜스크립톰"으로 지칭된다. 트랜스크립톰 서열분석에 대한 최신 기술은 "RNA-Seq"이다. 문헌 [Nature Methods (2008) 5, 621-628]을 참조할 수 있다. 상기 접근법에서, 조직 또는 세포 배양물로부터 단리된 mRNA를 상보성 DNA(cDNA: complementary DNA)로 역전사시키고, cDNA를 프로세싱하고, 증폭시켜 서열분석되는 짧은 단편으로 이루어진 라이브러리를 수득한다. cDNA 단편의 서열을 중첩시키고, 그를 게놈 중 서열에 정렬하여서는 세포 중 mRNA를 프로파일링할 수 없다. 대신, 복합 통계학적 알고리즘을 사용하여 가능성이 가장 큰 mRNA 집단을 조립하게 되며, 그의 유효성은 현재 진행 중인 연구의 실제 대상이 된다. RNA-Seq는 단백질 코딩 도메인을 지정하는 분절을 비롯한, 메신저 RNA 중에 유지되는 게놈 서열을 포함하는 조직 특이 '엑솜'에 관한 정보를 제공한다.

대개는 개별 mRNA 전사체가 전형적으로는, 서열분석기 cDNA 리드 길이를 훨씬 초과하는 길이만큼 이격되어 있는 수개의 가변 영역을 포함하고 있기 때문에 RNA-Seq 방법은 서열 변이체에 대한 특정 정보를 보유하지 않는다. 따라서, 같은 mRNA 전사체 상에서도 가변 영역의 어떤 조합이 발견되는지는 불명확하다.

예시적인 설명을 위해 1,500개의 뉴클레오티드에 의해 이격되어 있는 두 "임의적인" 도메인: 아미노 말단 근처의 칼슘 결합 도메인(C), 및 카복실 말단 근처의 칼모듈린 도메인(M)을 포함하는, 단백질을 코딩하는 유전자를 검토해 보자. 상기 유전자의 전사체는 최종 mRNA 중에 상기 두 도메인 모두(CM)를, 단 하나의 도메인만(cM 또는 Cm)만 보유하거나, 또는 어느 것도 보유하지 않게(cm) 선택적으로 스플라이싱될 수 있다. 발현된 단백질은 어느 도메인이 존재하는냐에 따라 4가지 매우 다른 생리학적 양상을 띨 수 있다. RNA-Seq 실험을 통해 두 도메인 모두의 변이, 둘 모두가 밝혀지게 된다면, 원래의 mRNA 풀에 어느 전사체가 실제로 존재하는지를 도출해 내는 것에 전적으로 의지하지 않을 수 있다: 데이터는 하기 전사체 세트: {CM, cm}, {cM, Cm}, {CM, cm, cM, Cm} 등의 것 중 임의의 것을 지원한다. 이는 모든 전사체 변이체 중 도메인 C와 M을 연결하는 긴 영역이 같은 서열을 함유하기 때문이다.

이전 설명에서 입증된 바와 같이, 대규모 cDNA 서열분석을 위한 도전과제는 본질적으로 고등 종 유전자의 생물학적 성질과 연관되어 있다. 주어진 세포 또는 세포 분화 단계에서 어느 메세지가 발현되는지에 관한 불확실성은 고도의 병렬 cDNA의 서열분석으로부터 어느 짧은 리드가 특정 전사체로 지정될 수 있는지에 대한 불확실성과 매칭된다. 따라서, 게놈과 프로테옴 사이의 생화학적 전달자에서 더 많은 정보를 포착하는 것이 요구된다.

(Fu) 등은 분자 인덱싱은 표적화된 RNA의 정량적 서열분석을 수행할 수 있고, 그러한 인덱싱은 표준 라이브러리 제조에서 효율이 낮다고 보고하였다(문헌 [Proc Natl Acad Sci U S A. 2014, 111 (5): 1891-6]).

잠재적으로 대규모 트랜스크립톰 서열분석을 제공하는 것으로 특정 방법이 기술되었다. 이 방법은 그의 적용이 한정되어 있다. (Zamore) 등의 PCT 공보 WO 2011/049955(발명의 명칭: "Deducing Exon Connectivity by RNA-Templated DNA Ligation/Sequencing")는 각각이 무작위화된 바 코드를 포함하는 공지된 선택적 스플라이스 접합부에 상보적인 올리고머에 RNA를 어닐링시키는 방법을 포함하는 특정 서열분석 방법을 제공한다. 이어서, 결찰 및 이어서, 서열분석을 수행한다. 상기 방법은 엑손 접합부에 관한 사전 지식을 필요로 하고, 각 mRNA 그 전체를 서열분석하지 않기 때문에 그 방법은 한정적이다.

병렬 태깅된 서열분석(PTS: parallel tagged sequencing) 또한 분자적 바코딩 방법이다. 문헌 [Meyer et al., Nature Protocols, 2007 3, 267-278]을 참조할 수 있다. 상기 방법은 결찰 및 가닥(스트랜드) 치환에 의해 서열 태그 및 제한 부위를 포함하는 샘플 특이 바코딩 어댑터를 둔단의 수복된 DNA 샘플에 부착시키는 것에 의존한다. 태그 서열을 사용하여 각 DNA 서열의 샘플 소스를 추적한다.

문헌 [Parameswaran et al., Nucleic Acids Res., 2007, 35(19): e130]에서는 샘플 소스로부터의 라이브러리의 풀링된 서열분석을 가능하게 하기 위해 조합적으로 바코드 다양성을 증가시키는 방법을 공개하였다. 오직 샘플 특이 태그만이 사용된다. 개별 전사체는 식별이 불가능하거나, 또는 전체적으로 서열분석된다.

문헌 [Craig et al., Nat Methods., 2008, 5(10): 887-893]에는 서열분석 이전에 단편화된 DNA에 결찰된 축퇴성 인덱싱된 DNA 서열 바코드를 사용하여 일루미나 게놈 애널라이저(Illumina Genome Analyzer) 상에서 인간 게놈의 표적화된 영역을 다중 서열분석하는 방법이 기술되어 있다.

(Halbritter) 등은 다중 바코딩된 어레이 기반 PCR 증폭 및 차세대 서열분석을 적용하여 수행하는 콩팥황폐증 관련 복부 질환 환자에서의 고 처리량 돌연변이 분석을 보고하였다. 문헌 [See J Med Genet. 2012, 49:756-767]을 참조할 수 있다.

(Sharon) 등은 인간 트랜스크립톰의 단일 분자의 긴 리드 조사에 관하여 보고하였다(문헌 [Nat Biotechnol, 2013, 31:1009-14]).

본원에서 인용된 참고 문헌이 선행 기술임을 인정하는 것은 아니다.

요약

본 개시내용은 불균일 혼합물 중에 존재하는 개별 폴리뉴클레오티드의 전장의 (종단간) 서열을 수득하는 것에 관한 것이다. 이는 추가로 상기 분석을 수행할 수 있는 전문 시약을 제조하는 디자인, 합성 및 방법에 관한 것이다. 특정 실시양태에서, 본 개시내용은 고등 다세포 유기체의 세포 또는 조직의 트랜스크립톰 중 mRNA를 완전하게 서열분석하고, 정량화하는 것에 관한 것이다. 개시된 방법을 통해 고등 다세포 유기체의 세포 및 조직의 분자적 표현형을 지정하는 전장의 mRNA를 효율적으로, 경제적으로 서열분석할 수 있다. 특정 실시양태에서, 본 개시내용은 상기 분석을 수행하기 위한 시약을 포함하는 상업적 키트 및 상기 분석 수행 적용 방법에 관한 것이다.

특정 실시양태에서, 본 개시내용은 a) 샘플 및 태깅 폴리뉴클레오티드 군(a group of tagging polynucleotides)을 혼합하는 단계로서, 샘플은 상이한 길이 및/또는 상이한 서열의 핵산의 혼합물을 포함하고, 태깅 폴리뉴클레오티드는 개별적으로 중첩(overlapping) 서열, 및 무작위(random) 서열을 포함하는 부분(part)을 포함하고, 혼합은 태깅 폴리뉴클레오티드가 핵산에 결합하여 개별적으로 무작위 서열로 태깅된 핵산을 형성하도록 하는 조건하에서 수행되는 것인 단계; b) 개별적으로 무작위 서열로 태깅된 핵산 혼합물을 동종중합체(homopolymer)의 혼합물로 복제하는 단계로서, 동종중합체는 반복 핵산 및 반복 서열 태그를 포함하는 것인 단계; c) 예컨대, 효소적 단편화, 가열, 전단, 초음파 처리, 또는 하나 이상의 제한 효소에의 노출에 의해 동종중합체를 파괴시켜 동종중합체 단편을 제공하는 단계; 및 d) 동종중합체 단편을 서열분석하는 단계를 포함하는 방법에 관한 것이다. 동종중합체 단편 길이는 전형적으로 1,000, 2,000, 또는 5,000개 미만의 뉴클레오티드 염기 길이이다. 특정 실시양태에서, 동종중합체를 파괴시키는 단계는 무작위적으로 수행된다. 특정 실시양태에서, 동종중합체를 파괴시키는 단계는 태깅 폴리뉴클레오티드 상의 중첩 서열내 부위를 절단하는 제한 뉴클레아제, 또는 등가인 작용제로 수행되며, 이로써, 절단된 동종중합체 단편을 제공하게 된다.

특정 실시양태에서, 본 방법은 동종중합체 단편을, 태깅 폴리뉴클레오티드 상의 중첩 서열내 부위를 절단하는 제한 뉴클레아제와 혼합하여 한쪽 단부(말단)에는 태깅 서열을, 및 나머지 다른 한쪽 단부에는 표적 핵산의 무작위 내부 파괴점을 포함하는 절단된 동종중합체 단편을 제공하는 단계를 추가로 포함한다.

특정 실시양태에서, 본 방법은 절단된 동종중합체 단편을 서열분석하는 단계를 추가로 포함한다.

특정 실시양태에서, 본 방법은 동종중합체 단편 내의 태깅된 서열을 확인하고, 무작위 서열의 부분 내의 동일한 서열을 분리시키고, 샘플 중에 존재한 핵산 서열을 표적 핵산의 관련된 무작위 내부 서열로부터 재구성하는 단계를 추가로 포함한다.

특정 실시양태에서, 태깅 폴리뉴클레오티드는 제한 부위를 포함하는 이중 가닥 분절(segment)로 자가 혼성화하도록 구성된 회문(palindromic) 서열을 포함한다. 전형적으로, 제한 부위는 희귀(rare) 제한 부위이다.

특정 실시양태에서, 본 개시내용은 본원에 개시된 태깅 폴리뉴클레오티드, 및 임의적으로 역전사효소 다른 바이러스 역전사효소, 또는 단일 가닥 RNA, 뉴클레오티드로부터 이중 가닥 핵산을 생성하는 다른 기원의 임의의 필적하는 효소, 및 본원에 개시된 다른 시약을 포함하는 키트에 관한 것이다. 특정 실시양태에서, 키트는 본원에 개시된 방법을 설명하는 설명서를 포함한다.

특정 실시양태에서, 독특한 표지는 핵산 샘플 중의 각 핵산과 관련이 있다. 일부 실시양태에서, 독특한 표지는 소스 분자 식별자(SMID: source molecule identifier)를 포함한다. 특정 실시양태에서, 개별 핵산은 모든 접합/서브유니트 반복부에 독특한 식별 서열을 포함하는 긴 탠덤 동종중합체로서 복제된다. 단계 c)의 특정 실시양태에서, 동종중합체는 무작위로 단편화되고, 일부 실시양태에서, 선택적으로 절단되어 소스 분자 식별자를 포함하는 단편을 제공한다. 특정 실시양태에서, SMID 및 무작위 파괴 서열을 전형적으로는 병렬 중복 방식으로 함께 서열분석하고, 서열을 분자 소스에 따라 분리한다. 일부 실시양태에서, 리드를 중첩시켜 상기 서열을 분석함으로써 전장의 mRNA 소스 분자의 콘센서스 서열을 제공한다. 특정 실시양태에서, 서열을 확립된 유전자 데이터베이스로부터 소화된 유전자 서열과 정렬함으로써 분석하고, 확립된 유전자 데이터베이스에 기록된 엑손 경계부와 비교한다. 특정 실시양태에서, 서열을 전사체 데이터베이스로부터 검색된 서열과 정렬함으로써 분석한다. 특정 실시양태에서, 서열을 cDNA 데이터베이스로부터 검색된 비코딩 cDNA 서열과 정렬함으로써 분석한다. 일부 실시양태에서, 본 개시내용은 전사를 위해 활성화된 모든 유전자로부터 유래된 서열 변이체를 포함하는 샘플 중 mRNA를 정량화하는 방법을 제공한다.

특정 실시양태에서, 본 개시내용은 함께 용액 중 다양한 길이 및 조성의 복수 개의 이종성 폴리뉴클레오티드의 전장의 서열분석을 수행하는 방법에 관한 것이다. 전형적으로, 이종성 폴리뉴클레오티드는 RNA, 예컨대, mRNA 또는 마이크로RNA이다. 전형적으로, mRNA는 성숙한 및 캡핑된 mRNA이다. 특정 실시양태에서, 이종성 폴리뉴클레오티드는 미생물 및 바이러스 게놈이다.

특정 실시양태에서, 본 개시내용은 a) 태깅 부분 및 표적 부분을 포함하는, 길이가 전형적으로 1,000, 2,000, 또는 5,000개 미만의 뉴클레오티드 길이인 이중 가닥 핵산 단편을 제공하는 단계로서, 태깅 부분은 중첩 서열의 분절 및 가변(varying) 서열의 분절을 포함하고, 중첩 서열은 제1 프라이머 부위 및 제한 부위를 포함하는 것인 단계; b) 이중 가닥 단편을 제한 부위에 대한 제한 효소와 혼합하여 절단된 단편을 제공하는 단계; c) 절단된 단편이 환형 단편을 형성할 수 있도록 하는 조건하에서 절단된 단편을 효소와 혼합하는 단계; d) 환형 단편을 무작위 지점에서 파괴하여 전단된(sheared) 단편을 제공하는 단계; e) 어댑터를 이중 가닥 핵산의 단부(ends)에 결찰시켜 어댑터 핵산 접합체(conjugate)를 제공하는 단계로서, 어댑터는 제2 프라이머 부위를 포함하는 것인 단계; f) 제1 및 제2 프라이머 부위에 대한 프라이머를 사용하여 어댑터 핵산 접합체를 증폭시켜 포획 표적 태깅된 접합체를 제공하는 단계로서, 제1 프라이머는 5' 단부 상에 제1 포획 서열을 포함하고, 제2 프라이머는 5' 단부 상에 제2 포획 서열을 포함하는 것인 단계; 및 g) 포획 표적 태그 접합체를 서열분석하는 단계를 포함하는 방법에 관한 것이다.

특정 실시양태에서, 가변 서열의 분절은 제1 프라이머 부위와 표적 부분 사이에 존재한다. 특정 실시양태에서, 제1 프라이머 부위는 가변 서열의 분절과 표적 부분 사이에 존재한다. 특정 실시양태에서, 제한 부위는 가변 서열의 분절과 제1 프라이머 부위 사이에 존재한다. 특정 실시양태에서, 가변 서열의 분절은 제한 부위와 제1 프라이머 부위 사이에 존재한다. 특정 실시양태에서, 핵산 단편은 가변 서열의 두 분절을 포함하고, 여기서, 가변 분절은 동일한 서열이고, 제한 부위는 동일한 서열 사이에 존재한다.

특정 실시양태에서, 본 개시내용은 a) 샘플 및 태깅 폴리뉴클레오티드 군을 혼합하는 단계로서, 샘플은 상이한 길이 및/또는 상이한 서열의 핵산의 혼합물을 포함하고, 태깅 폴리뉴클레오티드는 개별적으로 중첩 서열, 및 무작위 서열을 포함하는 부분을 포함하고, 혼합은 태깅 폴리뉴클레오티드가 핵산에 결합하여 개별적으로 무작위 서열로 태깅된 핵산을 형성하도록 하는 조건하에서 수행되는 것인 단계; b) 개별적으로 무작위 서열로 태깅된 핵산 혼합물을 동종중합체의 혼합물로 복제하는 단계로서, 동종중합체는 반복 핵산 및 반복 서열 태그를 포함하는 것인 단계; c) 동종중합체를 무작위 지점에서 파괴하여 동종중합체 단편을 제공하는 단계; d) 태깅 폴리뉴클레오티드 상의 중첩 서열에 연관된 부위를 절단하는 제한 뉴클레아제와 동종중합체 단편을 혼합하여 절단된 동종중합체 단편을 제공하는 단계; 및 e) 절단된 동종중합체 단편을 서열분석하는 단계를 포함하는 방법을 제공한다.

특정 실시양태에서, 본 방법은 동종중합체 단편 내의 태깅된 서열을 확인하고, 무작위 서열의 부분 내의 동일 서열을 분리하고, 샘플 중에 존재한 핵산 서열을 재구성하는 단계를 추가로 포함할 수 있다. 추가 실시양태에서, 태깅 폴리뉴클레오티드는 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문 서열을 포함한다. 전형적으로, 제한 부위는 희귀 제한 부위이다. 태깅 폴리뉴클레오티드는 핵산에 공유적으로 또는 비공유적으로 결합할 수 있다.

특정 실시양태에서, 본 개시내용은 a) 샘플 및 태깅 폴리뉴클레오티드 군을 혼합하는 단계로서, 샘플은 상이한 길이 및/또는 상이한 서열의 핵산의 혼합물을 포함하고, 태깅 폴리뉴클레오티드는 개별적으로 중첩 서열, 및 무작위 서열을 포함하는 부분을 포함하고, 태깅 폴리뉴클레오티드는 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문 서열을 포함하고, 무작위 서열을 포함하는 부분은 이중 가닥 분절 내에 존재하고, 혼합은 태깅 폴리뉴클레오티드가 핵산에 결합하여 개별적으로 무작위 서열로 태깅된 핵산을 형성하도록 하는 조건하에서 수행되는 것인 단계; b) 개별적으로 무작위 서열로 태깅된 핵산 혼합물을 동종중합체의 혼합물로 복제하여 동종중합체 단편을 제공하는 단계로서, 동종중합체는 반복 핵산 및 반복 서열 태그를 포함하는 것인 단계; c) 태깅 폴리뉴클레오티드 상의 중첩 서열에 연관된 부위를 절단하는 제한 뉴클레아제와 동종중합체 단편을 혼합하여 절단된 동종중합체 단편을 제공하는 단계; 및 d) 절단된 동종중합체 단편을 서열분석하는 단계를 포함하는 방법에 관한 것이다.

특정 실시양태에서, 본 개시내용은 a) 상이한 크기 및/또는 서열의 3, 4, 5, 10, 100, 또는 1,000개 초과의 독특한 mRNA를, 4, 5, 6, 7, 8, 9 또는 10개 초과의 뉴클레오티드로 이루어진 폴리 T 테일을 포함하는 헤어핀 폴리뉴클레오티드를 혼합하는 단계로서, 헤어핀 폴리뉴클레오티드는 헤어핀 mRNA 접합체가 형성되도록 하는 조건하에서 헤어핀의 이중 가닥 부분 내에 가변 서열의 분절, 및 헤어핀의 이중 가닥 부분 내에 제한 부위를 포함하는 것인 단계; b) cDNA 보체가 형성되도록 하는 조건하에서 헤어핀 mRNA 접합체를 복제 시약과 혼합하는 단계; c) cDNA 보체를 환형화하는 단계; d) 프라이머 및 복제 시약과 혼합하여 독특한 mRNA 서열 및 독특한 서열 분절을 포함하는 이중 가닥 동종중합체를 형성함으로써 cDNA 보체를 증폭시키는 단계; e) 헤어핀 폴리뉴클레오티드 서열 중 제한 부위에 대한 제한 효소와 이중 가닥 동종중합체를 혼합하여 단편을 형성하거나, 또는 헤어핀 폴리뉴클레오티드 서열 중 절단 부위를 이용하는 서열 특이 화학 제제와 혼합하여 단편을 형성하는 단계; 및 f) 단편을 서열분석하는 단계를 포함하는 방법에 관한 것이다.

특정 실시양태에서, 본 개시내용은 a) 상이한 크기 및/또는 서열의 3, 4, 5, 10, 100, 또는 1,000개 초과의 독특한 환형화된 mRNA를 4, 5, 6, 7, 8, 9, 또는 10개 초과의 뉴클레오티드로 이루어진 폴리 T 테일을 포함하는 헤어핀 폴리뉴클레오티드와 혼합하는 단계로서, 헤어핀 폴리뉴클레오티드는 헤어핀 mRNA 접합체가 형성되도록 하는 조건하에서 헤어핀의 이중 가닥 부분 내에 가변 서열의 분절, 및 헤어핀의 이중 가닥 부분 내에 제한 부위를 포함하는 것인 단계; b) 환형 cDNA 보체가 형성되도록 하는 조건하에서 헤어핀 mRNA 접합체를 복제 시약과 혼합하는 단계; c) 프라이머 및 복제 시약과 혼합하여 독특한 mRNA 서열 및 독특한 서열 분절을 포함하는 이중 가닥 동종중합체를 형성함으로써 환형 cDNA 보체를 증폭시키는 단계; e) 헤어핀 폴리뉴클레오티드 서열 중 제한 부위에 대한 제한 효소와 이중 가닥 동종중합체를 혼합하여 단편을 형성하거나, 또는 헤어핀 폴리뉴클레오티드 서열 중 절단 부위를 이용하는 서열 특이 화학 제제와 혼합하여 단편을 형성하는 단계; 및 f) 단편을 서열분석하는 단계를 포함하는 방법에 관한 것이다.

특정 실시양태에서, 본원 개시내용의 방법은 독특한 서열 분절을 분류하여 mRNA 서열을 재구성하는 단계, 및 상기 서열을 컴퓨터 상에 기록하는 단계를 추가로 포함한다.

특정 실시양태에서, 본 개시내용은 a) 태깅 폴리뉴클레오티드가 mRNA에 혼성화하도록 하는 조건하에서 복수 개의 태깅 폴리뉴클레오티드를, 복수 개의 mRNA를 포함하는 샘플과 혼합하여 mRNA 태깅 시약 핵산을 형성하는 단계로서, 태깅 시약 폴리뉴클레오티드는 폴리 T 서열, 실질적으로 동일하지 않는 무작위 서열의 서열 식별 가능한 부위, 및 제한 부위를 포함하는 것인 단계; b) 상보적인 태깅된 핵산이 형성되도록 하는 조건하에서 mRNA 태깅 시약 핵산을 역전사효소와 혼합하는 단계; c) 상보적인 태깅된 핵산을 환형화시켜 태깅된 환형의 상보적인 핵산을 제공하는 단계; 및 e) 환형의 상보적인 태깅된 핵산을 증폭시켜 mRNA 소스 분자에 따라 태깅된 증폭된 상보적인 핵산을 제공하는 단계를 포함하는, 샘플 중 복수 개의 mRNA를 증폭시키는 방법에 관한 것이다. 전형적으로, 제한 부위는 희귀 제한 부위이다.

특정 실시양태에서, 상보적인 태깅된 핵산을 환형화시킴으로써 환형의 단일 가닥 상보적인 태깅된 핵산을 제공한다. 특정 실시양태에서, 단일 가닥 상보적인 태깅된 핵산을 환형화시키는 것은 단일 가닥 상보적인 태깅된 핵산을, 이중 가닥 핵산을 결찰시킬 수 없는 리가제와 혼합하는 것을 포함한다. 특정 실시양태에서, 환형의 상보적인 태깅된 핵산을 증폭시키는 것은 상보적인 태깅된 핵산의 반복 서열을 생성하는 것을 포함한다. 특정 실시양태에서, 상보적인 태깅된 핵산의 반복 서열을 생성하는 것은 환형의 단일 가닥 상보적인 태깅된 핵산을 폴리머라제 및 프라이머와 혼합하는 단계로서, 폴리머라제는 핵산 합성 동안 주형으로부터 이중 가닥 핵산으로 치환하는 것을 포함한다. 특정 실시양태에서, 프라이머는 무작위 서열이거나, 또는 태깅 폴리뉴클레오티드 상의 부위에 혼성화하거나, 또는 표적 유전자로부터 유래되거나, 또는 표적 다중 유전자 패밀리의 구성원으로부터 또는 다중의 다중 유전자 패밀리의 구성원으로부터 유래된 서열에 혼성화한다. 특정 실시양태에서, 프라이머는 오량체, 육량체, 칠량체, 및 그의 조합으로부터 선택되는 무작위 서열이다.

특정 실시양태에서, 본 개시내용은 증폭된 상보적인 태깅된 핵산을, 서열 식별가능한 부위를 포함하는 분절로 파괴시키는 단계를 포함하는 방법을 고려한다.

특정 실시양태에서, 증폭된 상보적인 태깅된 핵산을 파괴시키는 단계는 태깅 시약 서열 중 미리 결정된 부위 내의 물리적 파괴 및/또는 화학적 파괴에 의해 무작위로 및/또는 특이적으로 파괴시키는 것을 포함한다. 특정 실시양태에서, 분절은 2,000, 1,000, 또는 500개 미만의 뉴클레오티드이다. 특정 실시양태에서, 본원에 개시된 방법은 증폭된 상보적인 태깅 핵산 분절을 서열분석하는 단계, 서열분석된 분절을 컴퓨터 상에 저장하는 단계, 및 서열 식별가능한 부위를 분석하고, 독특한 무작위 서열을 중첩시켜 샘플 중 개별 mRNA 서열을 생성하는 단계; 및 샘플 중 개별 mRNA 서열의 패턴을 확인하는 단계를 포함한다. 패턴은 샘플의 표현형과 상관 관계가 있을 수 있다. 특정 실시양태에서, 샘플은 이환된 세포, 예컨대, 암 세포를 포함한다.

특정 실시양태에서, 본 개시내용은 태깅 시약, 예컨대, I형, II-ps₁형; II-ps₂형; II-pa₁형; II-pa₂형; 및 II-t형에 관한 것이다. 특정 실시양태에서, 태깅 시약은 무작위 서열의 제1 서열 식별가능한 부위 및 무작위 서열의 제2 서열 식별가능한 부위, 및 폴리 T 분절을 포함한다. 일부 실시양태에서, 제2 서열 식별가능한 부위는 제1 서열 식별가능한 부위의 역 보체이다. 전형적으로, 태깅 시약은 제한 부위 서열을 형성하는 회문 서열을 추가로 포함하며, 여기서, 회문 서열은 무작위 서열의 제1 서열 식별가능한 부위와 무작위 서열의 제2 서열 식별가능한 부위 사이에 위치한다. 일부 실시양태에서, 태깅 시약은 5 또는 10기 초과의 뉴클레오티드로 이루어진 프라이머 부위 서열을 포함하는 루프 서열을 포함한다. 일부 실시양태에서, 태깅 시약 폴리뉴클레오티드는 폴리 T 서열과 무작위 서열의 제1 서열 식별가능한 부위 사이에 프라이머 부위를 포함한다.

특정 실시양태에서, 본 개시내용은 각각 개별적으로 중첩 서열, 무작위 서열을 포함하는 부분, 5, 10, 또는 15개 초과의 뉴클레오티드로 이루어진 폴리 T를 포함하는 부분, 및 제한 부위를 포함하는 것인 폴리뉴클레오티드의 혼합물을 포함하는 조성물에 관한 것이다. 일부 실시양태에서, 폴리 T는 3' 단부 부근(about)에 존재하고, 무작위 서열을 포함하는 부분은 폴리 T와 제한 부위 사이에 존재한다. 일부 실시양태에서, 폴리뉴클레오티드는 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문 서열을 포함한다. 일부 실시양태에서, 무작위 서열을 포함하는 부분은 이중 가닥 분절 내에 존재한다. 일부 실시양태에서, 폴리 T는 3' 단부 부근에 존재하고, 제2 폴리 T는 5' 단부 부근에 존재한다. 전형적으로, 제한 부위는 희귀 제한 부위이다. 전형적으로, 무작위 서열을 포함하는 부분은 무작위 염기 부위 또는 사이사이에 중첩 서열이 산재되어 있는 서열을 포함한다.

특정 실시양태에서, 본 개시내용은 각각 개별적으로 중첩 서열, 무작위 서열을 포함하는 부분, 동일한 무작위 서열이 중복되는 제2 부분, 5, 10, 또는 15개 초과의 뉴클레오티드로 이루어진 폴리 T를 포함하는 부분, 및 무작위 서열을 포함하는 부분과 동일한 무작위 서열이 중복되는 제2 부분 사이의 제한 부위를 포함하는 것인 폴리뉴클레오티드의 혼합물을 포함하는 조성물에 관한 것이다.

특정 실시양태에서, 본 개시내용은 개별 뉴클레오티드 중 서열 부분은 실질적으로 중첩 서열을 포함하고, 개별 뉴클레오티드 중 서열 부분은 실질적으로 비중첩 서열을 포함하고, 개별 뉴클레오티드는 5, 10, 15, 또는 20개 초과의 뉴클레오티드로 이루어진 티민 또는 우라실 염기를 포함하는 반복 뉴클레오티드로 이루어진 서열을 포함하고, 실질적으로 중첩 서열은 희귀 제한 부위를 포함하는 것인, 폴리뉴클레오티드 혼합물을 포함하는 조성물을 고려한다. 전형적으로, 개별 뉴클레오티드는 50, 100, 또는 150개 초과의 뉴클레오티드 염기를 포함한다. 전형적으로, 개별 뉴클레오티드는 500, 1,000, 2,000, 5,000, 또는 10,000개 미만의 뉴클레오티드 염기를 포함한다. 일부 실시양태에서, 폴리뉴클레오티드 혼합물은 중첩 및 비중첩 서열을 포함하는 부분을 가지는 회문 뉴클레오티드를 추가로 포함한다. 전형적으로, 회문 서열은 10, 20, 50개 초과의 염기쌍 서열이 서로 혼성화하는 헤어핀을 형성하는 구조를 생성한다.

특정 실시양태에서, 본 개시내용은 개별 뉴클레오티드 중 서열 부분은 실질적으로 중첩 서열을 포함하고, 개별 뉴클레오티드 중 서열 부분은 실질적으로 비중첩 서열을 포함하고, 개별 뉴클레오티드는 10, 15, 또는 20개 초과의, 아데닌 염기를 포함하는 반복 뉴클레오티드로 이루어진 서열을 포함하고, 중첩 서열 부분은 개별 뉴클레오티드 중 회문 서열인 것인, 폴리뉴클레오티드 혼합물을 포함하는 조성물을 고려한다. 일부 실시양태에서, 비중첩 서열 부분은 개별 뉴클레오티드 중 회문 서열이다. 일부 실시양태에서, 중첩 서열 부분은 개별 뉴클레오티드 중 역 보체가 아니다.

특정 실시양태에서, 본 개시내용은 본원에 개시된 루프 프라이머 RNA-제2 가닥 프라이머, PCR 프라이머, 어댑터, 단일 가닥, 절두된, 및 단리된 핵산에 관한 것이다.

특정 실시양태에서, 본 개시내용은 본원에 개시된 시약의 용액 또는 고체상 합성 방법에 관한 것이다. 특정 실시양태에서, 본 개시내용은 트랜스크립톰의 통계학적 구조 및 조성 분석; 대량 병렬 서열분석에 의해 확인된 분자 변이체의 단리를 비롯한, 대량 병렬 게놈 서열분석 기술과 함께 조합하여 본원에 개시된 시약을 사용하는 방법에 관한 것이다.

특정 실시양태에서, 본 개시내용은 a) 태깅 부분 및 표적 부분을 포함하는 단편화된 이중 가닥 핵산을 제공하는 단계로서, 태깅 부분은 중첩 서열의 분절, 및 가변 서열의 분절을 포함하고, 중첩 서열은 제1 프라이머 부위 및 제2 프라이머 부위를 포함하고, 가변 서열의 분절은 제1 및 제2 프라이머 부위 사이에 존재하고, 제1 프라이머 부위 및 제2 프라이머 부위는 핵산의 반대 가닥 상의 같은 서열인 것인 단계; b) 어댑터를 이중 가닥 핵산의 단부에 결찰시켜 어댑터 핵산 접합체를 제공하는 단계로서, 어댑터는 제3 프라이머 부위를 포함하는 것인 단계; c) 제1 프라이머는 제1 및 제2 프라이머 부위에 혼성화하고, 제3 프라이머는 제2 프라이머 부위에 혼성화하는 조건하에서 어댑터 핵산 접합체, 제1 프라이머, 제2 프라이머, 및 복제 시약을 혼합함으로써 표적 부분을 증폭시켜, 가변 서열 및 표적 부분을 포함하는, 프라이머 부위 사이의 단리된 핵산을 제공하는 단계를 포함하는, 표적 핵산을 단리시키는 방법에 관한 것이다.

특정 실시양태에서, 핵산은 중첩 서열 내에 제한 부위를 포함하고, 본 방법은 어댑터를 절단된 이중 가닥 핵산에 결찰시키기 이전에 핵산을 제한 부위에 대한 제한 효소와 혼합하여 절단된 핵산을 제공하는 단계를 추가로 포함한다. 일부 실시양태에서, 제한 부위는 가변 서열과 프라이머 부위 사이에 존재하고, 일부 실시양태에서, 제한 부위는 2개의 동일한 가변 서열 사이에 존재한다.

특정 실시양태에서, 본 개시내용은 a) 태깅 시약 폴리뉴클레오티드가 mRNA에 혼성화하는 조건하에서 복수 개의 태깅 폴리뉴클레오티드를 복수 개의 mRNA를 포함하는 샘플과 혼합하여 mRNA 태깅 시약 핵산을 형성하는 단계로서, 태그는 mRNA 태깅 시약 핵산을 포함하는 회문 서열, 무작위 서열의 제1 서열 식별가능한 부위, 무작위 서열의 제2 서열 식별가능한 부위, 및 한쪽 단부 부근에 폴리 T 분절을 포함하고, 제2 서열 식별가능한 부위는 제1 서열 식별가능한 부위의 역 보체이고, 회문 서열은 무작위 서열의 제1 및 제2 서열 식별가능한 부위 사이에 위치하는 것인 단계; b) 상보적인 태깅된 핵산이 형성되도록 하는 조건하에서 mRNA 태깅 시약 핵산을 역전사효소와 혼합하는 단계; c) mRNA로부터 상보적인 태깅된 핵산을 분리하여 단일 가닥 상보적인 조이너(joiner) 핵산을 제공하는 단계; d) 단일 가닥 상보적인 태깅된 핵산을 환형화하여 환형의 상보적인 태깅된 핵산을 제공하는 단계, 및 e) 환형의 상보적인 태깅된 핵산을 증폭시켜 증폭된 상보적인 조이너 핵산을 제공하는 단계, f) 제한 효소와 혼합함으로써, 증폭된 상보적인 태깅된 핵산을, 서열 식별가능한 부위를 포함하는 분절로 파괴시키는 단계를 포함하는, 샘플 중 복수 개의 mRNA를 증폭시키는 방법에 관한 것이다.

특정 실시양태에서, 본원에 개시된 방법은 표지를 분절의 단부에 접합시켜 표지 결합된, 증폭된 상보적인 태깅된 핵산 분절을 제공하는 단계를 포함한다. 일부 실시양태에서, 표지는 비오틴이다. 특정 실시양태에서, 본 방법은 분절을 환형화하고, 단편화시키는 단계; 표지 결합된, 증폭된 상보적인 태깅된 핵산 분절을 표지에 결합하는 기질과 혼합하여 분절을 정제하는 단계; 및 증폭된 상보적인 태깅된 핵산 분절을 유리시키고, 분절을 서열분석하는 단계를 추가로 포함한다.

특정 실시양태에서, 본 개시내용은 a) 프라이머 및 복제 시약을, 3' 폴리 T, 중첩 서열, 무작위 서열을 포함하는 부분, 및 루프를 포함하는 출발 헤어핀 폴리뉴클레오티드와 혼합하여 부분적으로 이중 가닥이고 부분적으로 단일 가닥인 핵산을 형성하는 단계로서, 프라이머는 루프 서열에 대한 것인 단계; 및 b) 부분적으로 이중 가닥이고 부분적으로 단일 가닥인 핵산을 폴리 A 프라이머 및 복제 시약과 혼합하여 전체적으로 이중 가닥인 핵산을 형성하는 단계를 포함하는, 핵산을 제조하는 방법에 관한 것이다. 특정 실시양태에서, 본 방법은 폴리 A 프라이머를 절단하여 폴리 T 테일을 포함하는 이중 가닥 핵산을 제공하는 단계를 추가로 포함한다. 특정 실시양태에서, 본 방법은 이중 가닥 핵산을 변성시켜 폴리 T 테일 및 출발 헤어핀 폴리뉴클레오티드를 포함하는 헤어핀 핵산을 형성하는 단계를 추가로 포함한다. 전형적으로, 출발 헤어핀 폴리뉴클레오티드는 고체 지지체에 접합되어 있다.

특정 실시양태에서, 본 개시내용은 본원에 기술된 바와 같이 헤어핀 폴리뉴클레오티드를 포함하는, 상기 방법에 의해 제조된 고체 지지체를 고려한다.

특정 실시양태에서, 본 개시내용은 a) 루프 서열을 제외하면 실질적으로 이중 가닥 핵산인 주형 폴리뉴클레오티드, 루프 서열 프라이머 부위에 대한 프라이머, 및 폴리머라제를 혼합하여 부분적으로 이중 가닥 및 단일 가닥 핵산을 형성하는 단계로서, 주형 폴리뉴클레오티드는 이중 가닥 핵산 내에 루프 서열 프라이머 부위 및 제2 프라이머 부위를 포함하고, 폴리머라제는 핵산 합성 동안 주형으로부터 이중 가닥 핵산으로 치환하는 것인 단계; b) 부분적으로 이중 가닥 및 단일 가닥 핵산을 제2 프라이머 부위에 대한 프라이머, 및 폴리머라제와 혼합하여 이중 가닥 핵산을 형성하는 단계로서, 폴리머라제는 핵산 합성 동안 주형으로부터 이중 가닥 핵산으로 치환하는 것인 단계; 및 c) 이중 가닥 핵산을 가열하여 폴리뉴클레오티드를 변성시키고, 유리시키고, 주형 폴리뉴클레오티드를 재형성시키는 단계를 포함하는, 폴리뉴클레오티드를 제조하는 방법에 관한 것이다. 특정 실시양태에서, 주형 폴리뉴클레오티드는 고체 지지체에 접합되어 있고; 주형 폴리뉴클레오티드는 한쪽 단부 부근에 폴리 A 분절을 포함하고; 제2 가닥 합성을 위한 프라이머 부위는 폴리 A 분절에 인접해 있고; 주형 폴리뉴클레오티드는 제2 가닥 합성을 위한 프라이머 부위에 인접해 있는 식별가능한 무작위 서열의 제1 부위를 포함하고; 주형은 루프 서열에 인접해 있는 제한 부위를 포함하는 회문 서열을 포함한다. 특정 실시양태에서, 회문 서열은 식별가능한 무작위 서열의 제1 부위에 인접해 있다.

특정 실시양태에서, 본 개시내용은 세포 또는 조직의 분자 표현 분석, 이환된 세포 또는 조직의 분석, 및 트랜스크립톰 데이터베이스의 확립에 관한 것이다.

특정 실시양태에서, 본원에 개시된 방법은 태깅된 올리고뉴클레오티드를 증폭시키기 위한 방식으로 프로세싱한 후, 제조된 내부 단편, 및 원래의 불균일 용액 중 올리고뉴클레오티드의 서열 및 상대적인 개수를 재구성하는 데 필요한 연상 정보의 연산적 회수와 관련하여 원래의 태그가 복제되도록 하는 방식으로 각각의 단편 카피를 프로세싱하는 단계를 포함한다.

도 1a는 SMID, 5' 및 3' 래퍼(Wrapper) 서열, 및 5' 테일, 3' 연결 요소(예컨대, 폴리 T 테일) 및 루프 구조를 포함하는 측면 영역을 포함하는 마커 블록의 네스티드 구조를 개략적으로 도시한 것이다. 본 실시양태에서, 마커 블록은 최종 서열분석 라이브러리에 유지되고, 배치, 소스 및 가닥에 따라 리드를 분류하는 데 이용하는 것 서열을 포함한다. 마커 블록은 다수의 서열 요소, 예컨대, 태깅 시약 가닥(TRS: tagging reagent strand) 합성에 사용되는 프라이머 서열 및 어닐링 부위, 또는 PCR 프라이머, 클러스터 합성 및 서열분석 요소, 본원에 도시된 응용에 사용되는 서열분석 프로토콜의 제한 효소 절단 부위를 포함할 수 있다.
도 1b는 5' 테일, 마커 블록, 루프 및 3' 링커 요소를 보여주는 I형, II-ps형, II-pa형 및 II-t형 태그를 도시한 것이다. 본원에 기술된 일례에서, 3' 링커 요소는 3' 단일 가닥 올리고 dT(T₂₂ 또는 T₂₂V)이다. 가변 잔기(V = A, G, 또는 C)는 약 300-400개의 염기 폴리 A 테일 바로 옆에 인접해 있는 코딩된 메세지의 극단 3' 염기로부터의 합성을 프라이밍한다. 태그는 4종의 일례로 제시된다. 단일 SMID 단일 가닥 I형 마커는 cDNA 합성 및 환형화 반응을 프라이밍하는 데 고도로 효과적이다; 이는 라이브러리 제조 동안 생성되는 제한 절단 단편의 절반부만이 오직 단부 표지화되는 것인 원형 분자이다. II-ps형 태그는 2개 카피수의 SMID를 도입하고, 두 효소 절단 단편 모두 단부 표지화될 것이다. 상기 시약은 소스 분자 주형의 센스를 직접 확인하지 못하며, 이는 오직 유전자 서열에 대한 참조만을 평가할 수 있다. II-pa형 태그는 II-ps형과 유사할 뿐만 아니라, 주형 소스 가닥의 센스를 전산적으로 식별가능하게 하며, 이로써, 폴리 A 비코딩 RNA를 확인할 수 있다. II-t형 태그는 SMID 서열이 소스 가닥의 센스에 대해 배향되는 독특한 특성을 가지며, 전산화 단계를 필요로 하지 않는다. 이러한 태그는 또한 특이적인 SMID 식별된 cDNA가 클로닝 및 발현을 위해 PCR에 의해 직접 증폭될 수 있게 한다.
도 1c는 태깅 시약의 확인을 도시한 것이다. II-pa형 및 II-ps형의 두 일반적인 구조가 도시되어 있다.
도 1d는 마커 블록의 자가 상보성을 도시한 것이다; I형 및 II-t형은 일반적으로 2차 구조를 가지지 않는다(상기 b 참조). II-pa형 및 II-ps형 태그의 상보성은, 역전사체가 이중 가닥 cDNA로 전환될 때, 2개의 동일한 카피의 독특한 분자 식별자(SMID)의 도입을 유도하고, 이로써, 단편 태깅의 효율은 배가된다. 상기 영역의 자가 어닐링을 선호함에 따라 합성 후 TRS를 효율적으로 정제할 수 있고; 이는 추가로 라이브러리 형성 동안 양측 단부 모두에서 태깅된 단편(예컨대, 완전한 cDNA)의 증폭을 차단한다.
도 1e는 특이 DNA 서열을 가지는 I형 및 II-pa형의 태깅 시약을 도시한 것이다. II-pa형에서, 제시된 마커 블록 내에 PCR 1.0 포함 일루미나 어댑터, 포획, 클러스터 합성, 서열분석을 위한 서열, 및 메이트 쌍 서열분석에 사용되는 제한 효소 서열이 존재한다. SMID, 가닥 센스 식별인자 및 제한 부위를 포함하는 마커 요소가 도시되어 있다.
도 2a는 1개의 테일을 가지는 II-ps₁형 및 II-pa₁형 태깅 시약에 대한 II형 태깅 시약의 합성을 도시한 것이다. 본원에 기술된 반응은 고체상을 포함하지 않는 용액 중에서, 또는 고체상 단계를 이용하여 수행될 수 있다. 1개 및 2개의 테일을 가지는 II-p 형태 둘 모두의 합성은 공통 전구체 및 제1 단계를 공유하고; II-ps 형태와 II-pa 형태 사이의 차이는 마커 블록의 세부 사항으로부터 기원한다 (도 1c 참조). (1) HP는 그 위에서 TRS가 이어서 합성되는 헤어핀 구조 주형이다. HP는 전구체 올리고 J를 효소 DNA 폴리머라제 Phi 29로 신장시킴으로써 생성된다. 올리고 J 전구체는 안정성이 중간 정도인 말단 클램프를 가지는데, 이는 분자가 그 자체에서 폴딩 백하여 그의 신장을 프라이밍하게 하고, 이로써 마커의 독특한 SMID 요소의 분자내 보체가 생성된다. 상기 반응은 전형적으로 정량적인 반응이다 (도 7a 참조). (2) HP로부터의 3Q 합성. 이 두번째 반응 또한 Phi 29 DNA 폴리머라제에 의해 매개된다. 루프 프라이머는 HP의 개방형 루프에 어닐링하여 HP의 5' 일부의 카피(1Q)를 프라이밍하여 단일 가닥 DNA로서 3' 단부를 유리시켜 반응 (3)을 허용한다. 루프 프라이머는 예외가 없는 것은 아니지만, 일반적으로는 5' 말단에서 폴리아데닐화된 것이 아니다. 1Q-HP 복합체를 3Q로 지칭한다. (3). TRS-HP 복합체. 본 반응은 같은 효소에 의해 매개되는 반응 (2)와 동시에 수행된다. 2SP RNA 프로텍터 프라이머(Protector Primer)는 3Q의 3' 단부에 어널링하여 말단을 Phi 29의 엑소뉴클레아제 활성으로부터 보호하고, RNA 키메라 TRS-HP 이중체의 합성을 프라이밍하며, 동시에 유리 1Q가 3Q로부터 유리된다. Phi 29의 불활성화 후, RN아제(RNase) H는 RNA 모이어티를 제거한다. 상기 반응은 전형적으로 정량적인 반응이다. (4) 1Q, 반응 프라이머 및 효소는 TRS-HP의 겔 또는 다른 정제에 의해 제거될 수 있다. 1Q 및 과량의 반응 프라이머는 Phi 29의 3'→5' 엑소뉴클레아제 활성에 의해 제거될 수 있다. (1Q가 cDNA 합성을 프라이밍할 수 있는 오염원과 같이 유지된다면, 생성된 생성물은 5' 포스포릴 기의 부재로 인해 후속 반응에서 환형화되지 않을 것이다). 일시적인 변성은 단일 가닥 HP 및 TRS DNA를 비가역적으로 분리시킨다. 강력한 내부 상보성 때문에, 자가 어닐링은 복합체의 재현성을 방해하면서, 두 가닥의 재회합을 정량적으로 지배한다. 동몰량의 부산물로서 HP는 중요하지 않으며, 이는 라이브러리 제조시 cDNA 프라이밍 또는 환형화와 관련하여 불활성을 띤다. 반응 (2) 및 (3)은 전형적으로 정량적인 반응이다(도 7b 참조). II-pa형/HP₁ 또는 II-ps형/HP 생성물 시약은 순수한 것이며, 태깅된 cDNA를 합성하는 데 직접적으로 사용된다.
도 2b는 2개의 테일을 가지는 II-ps₂형 및 II-pa₂형 태깅 시약 제조를 도시한 것이다. 본 반응은 전형적으로 일부 단계 또는 모든 단계가 고체상을 이용하여 실시될 때 수행된다. 비오티닐 기에 연결될 수 있거나, 또는 세파덱스, 유리 또는 다른 고체 기판에의 공유 부착을 위한 화학 링커일 수 있는 공유 신장부(별표 기호)를 포함하는 올리고 J 전구체는 상업적으로 제조된다. 여기서, 비오티닐화된 버전을 사용하는 것이 제시되어 있으며, 반응 중 제1 단계는 용액 중에서 수행된다. (1) HP 신장 및 3Q 합성은 상기 도 2a(1, 2)에서와 같이 수행된다. (2) TRS-HP' 합성은 3Q의 3' 단일 가닥 단부 중 래퍼 서열의 5' 영역에만 어닐링하는 2sP로 프라이밍된다. 2sP의 비상보적인 부분은 올리고 dT로서 제시되지만, 달라질 수 있다. 1Q는 상기 2a(3)에서와 같이 치환된다. Phi 29의 3' 엑소뉴클레아제 활성은 의도적으로 저해되지 않으며, 최종적으로는 HP의 3' 단일 가닥 부분이 제거된 후, 2sP의 비상보적인 부분의 카피로서 새로운 3' 테일이 합성되고, 이로써 HP'로 지칭되는 변형된 주형이 제조된다. (3) TRS-HP' 복합체를 스트렙트아비딘 비드에 흡착시키고; 1Q, 프라이머 및 효소를 세척에 의해 제거한다. 가닥을 분리하는 일시적인 변성 후 순수한 TRS는 용리되고; 경미한 변성 조건은 HP'의 상보적인 포크형 테일과의 어닐링을 막기 위해 용리 동안 유지될 수 있다. 반응은 전형적으로 정량적 반응이다(도 7c 참조). (4) HP'가 고체상에서 재생되기 때문에, 이는 TRS 가닥을 합성하는 추후 사이클에서 사용될 수 있다. 이는 HP'가 고체상에 공유적으로 부착된 경우에 가장 잘 수행될 수 있다. TRS 합성을 프라이밍시키기 위해 HP' 구조를 개방하는 데 루프 프라이머를 사용할 필요가 더 이상 없으며, 1Q는 합성되지 않는다. HP'의 노출된 3' 포크(제시되지 않음)에 상보적인 변형된 2sP가 TRS 합성을 프라이밍한다; 세척하여 잔류 2sP 및 효소를 제거한다. 이를 통해 같은 주형으로부터 TRS를 합성하는 반복 사이클을 수행할 수 있다. 고체상 합성 사이클은 다이어그램으로 제시되어 있다.
도 2c는 II-t형 태그의 합성을 도시한 것이다.
도 3a는 II-t형 태그 제조를 위해 사용된 방법의 실시양태를 도시한 것이다. cDNA를 태깅 시약으로 프라이밍한 후, RNA를 제거하고, 단일 가닥 RNA/DNA 리가제로 환형화한다. 엑소뉴클레아제 I로 선형 잔류물을 제거한다.
도 3b는 캡핑된 및 캡핑되지 않은 mRNA를 식별하는 것을 도시한 것이다. 일부 적용을 위해, 성숙한 Gppp 캡핑된 mRNA를, 말단 5' 포스포릴 또는 5' OH 기를 가지는 미숙한 형태와 식별하는 것이 바람직할 수 있다. (1) 태깅, (a) 캡핑된 형태: 전체 폴리 A mRNA를 알칼리성 포스파타제로 처리하여 5' 포스포릴 말단을 제거하고, 이로써, 5' OH 단부로서 캡핑되지 않은 분자가 남게 된다. 이어서, 담배 산성 포스파타제를 이용하여 Gppp 캡을 제거하면, 5' 포스포릴 형태가 유리되고, 이는 단일 가닥 RNA/DNA 리가제를 이용하여 환형화될 수 있다. (인산화된 형태 - 환형화 이전에 (1)에서 사용된 두 효소 단계 모두를 생략하면 메신저 집단 중 환형 RNA로서 오직 내인성 5' 포스포릴 형태만이 포획된다). (b) 전체 캡핑되지 않은 형태. 환형화 이전에 폴리뉴클레오티드 키나제로 폴리 A mRNA를 처리하고, (1)의 담배 산성 포스파타제 단계를 생략하면, 5' OH 형태가 인산화된다. 이어서, 단일 가닥 RN/DNA 리가제로 처리하는 후속 처리 동안 변형되지 않는 캡핑된 분자를 그대로 남기면 오직 캡핑되지 않은 mRNA 집단만이 환형화된다.
도 3c는 cDNA 합성을 도시한 것이다. 화학량론적 양 이하(≪ 1:10)의, II형 시약의 2개의 테일을 가지는 변이체(예컨대, II-ps₂형 또는 II-pa₂형)를 앞서 환형화된 메신저 및 잔류 선형 RNA에 어닐링시킨 후, 역전사시킨다. cDNA 합성 후, T4 DNA 리가제에 의해 cDNA를 분자내에서 효과적으로 결찰시켜 환형 cDNA를 형성한다. 선형 mRNA가 아닌 환형 mRNA는 효소 작용을 위한 속도 증진 "스플린트(splint)"를 제공한다; 또한, 일반적으로, 어닐링 부위로부터의 3' 폴리 A 메신저 '오버행'은 환형 분자내 또는 분자간 DNA 결찰을 막는다. RN아제 H로 RNA를 제거한다. 엑소뉴클레아제 I로 선형 단일 가닥 cDNA(제시되지 않음)를 제거한다. 이어서, 전체 폴리 A mRNA로부터 생성물이 생성됨에 따라(3a), 생성된 환형화된 단일 가닥 cDNA는 프로세싱된다.
도 4는 롤링 서클 증폭을 도시한 것이다. 각각의 태깅된, 환형화된 단일 가닥 cDNA는 다중 프라이머(예컨대, 제한하는 것은 아니지만, 티오포스포릴 무작위 육량체)에 어닐링된다; 제2 가닥 합성은 DNA 폴리머라제 Phi 29로 촉매화된다. 이러한 고도의 진행성 효소가 주형을 둥글게 둘러싸고, 그 자신의 또는 또 다른 효소의 제2 가닥의 말단과 대면하게 되면, 상기 가닥은 긴 장쇄의 동종중합체로서 치환된다; 결국, 상기 가닥의 후속 프라이밍 결과로, 흔히 역반응의 다중 프라이밍 부위에서 분지형인 이중 가닥 생성물이 생성된다. 선형 동종중합체 또한 생성된다. 제2 카피의 SMID가 이중 가닥 동종중합체 DNA 중 II-ps형 및 II-pa형 태그로부터 생성된다. 탠덤 카피의 각 cDNA는 개재 카피의 태깅 시약에 의해 이격되어 있으며, 이러한 경우, 희귀 제한 절단 부위를 포함하는 루프 유래 분절에 의해 서로로부터 이격되어 있는, 대칭적으로 배치된 복제 카피의 독특한 SMID를 포함한다. 동종중합체는 다음 단계 이전에 단일 가닥 뉴클레아제 (S1 또는 멍빈(Mung Bean) 뉴클레아제)로 탈분지화될 수 있다.
도 5는 RCA 증폭된 cDNA 동종중합체의 프로세싱을 도시한 것이다. a) 단편화. 탈분지화 후, 연결된 동종중합체를 초음파 처리, 효소적 단편화, 하이드로시어(hydroshear), 또는 유사한 물리 공정에 의해 대략 평균 표적 cDNA 크기의 임의적인 길이로 단편화한다. b) 제한 절단. 무작위 단편을 마커 블록 사이의 루프 유래 연결기 중의 한 부위에서 희귀 제한 효소(또는 다른 서열 특이 절단 작용제)로 절단한다. 태깅된 접합부를 포함하는 단편은 한쪽 단부에 독특한 SMID를 포함하고, 나머지 다른 한쪽에는 효소적 단편화에 의해 생성되거나, 또는 초음파 처리에 의해 생성된 cDNA 내부 서열로부터의 무작위 단부를 포함하는 마커 블록를 포함하는 두 절단 가닥을 생성할 것이다. 일반적으로, 상기 단편은 다수의 차세대 샷건(shotgun) 서열분석 플랫폼 중 임의의 것에 대한 프로토콜을 이용하여 쌍을 이룬 단부 또는 메이트 쌍 라이브러리를 생성하는 데 사용된다. 본원에서 이는 일루미나 하이 Seq(Illumina High Seq) 또는 일루미나 MiSeq 기구에 대한 메이트 쌍 프로토콜의 응용에 의해 예시된다. c) 일루미나 메이트 쌍 프로토콜에서 단부 태깅된 단편의 운명. 일루미나 메이트 쌍 프로토콜은 서열분석하고자 하는 단부의 이격을 현저하게 확장시키는 데 유용한, 게놈 서열분석에 널리 사용된다. 이는 각 cDNA의 길이(평균 ~1.7 kb, 최대 ~15 kb) 전역에 걸쳐 말단 마커가 무작위 리드와 회합되어 있어야 하는 cDNA 서열분석에 적용된다. 여기서, 표준 일루미나 메이트 쌍 프로토콜의 초기 단계에서 단부 태깅된 단편의 운명을 제시한다. 마커 블록이 없는 단편은 3 단계를 거쳐 전달되고, 이어서 제거될 것이다. (1) 초기 전단(초음파 처리 또는 효소적 단편화) 및 제한 분해 후, DNA 단편을 단부 수복시키고, 말단 비오티닐화하고, 환형 결찰시킨다. 엑소뉴클레아제 I 및 II로 선형 잔류물을 제거한다. (2) 환형화된 cDNA를 분무에 의해 파괴시킨 후, 300-500 bp의 단편의 겔 정제를 수행한다. 비오티닐화된 접합형 단편이 스트렙트아비딘 비드에 의해 포획되고, 비접합형 단편은 세척에 의해 제거된다.
도 6a는 마커 보유 단편의 선택적인 증폭을 개략적으로 도시한 것이다. a) 표준 프로토콜에서, 포획된 접합부는 A 테일링되고, PCR 증폭을 허용하는 일루미나 포크형 어댑터(PCR 프라이머 1.0; PCR 프라이머 2.0)에 결찰되고, 이를 통해 각 단편의 존재비는 증가되고, PCR 프라이머 부위 이외에도, 서열분석 프라이머와 함께 포획, 클러스터 합성, A 및 B형 제한 부위 서열을 함유하는 독특한 쌍을 이룬 단부가 동시에 도입된다.
상기 단계는 마커 서열 내로 PCR 프라이머 1.0에 대한 어닐링 부위를 도입함으로써 변형되었다. 독점적 포크형 어댑터 대신, 변형된 어댑터는 오직 PCR 프라이머 2.0에만 상보적인 분절을 단편의 3' 단부에 부착시킨다. 그 결과, (a) 오직 마커를 함유하는 스트렙트아비딘 포획된 접합형 서열만이 증폭되고; (b) (SMID를 포함하는) 마커 서열은 I 단계 리드 초기에 서열되어 있고, 효소적 단편화 또는 초음파 처리 무작위 파괴점을 포함하는 마커 접합부로 신장된다. II 단계는 분무에 의해 제조된 제2 무작위 파괴 부위로부터 리드 서열을 기록한다. 그러므로, SMID를 포함하는 마커와 관련하여 2개의 내부 서열이 선택적으로 기록되고, 이로써 그의 원래의 소스 분자가 확인된다. 태깅 시약은 소스 분자 가닥의 센스를 기록할 수 있는 그의 능력면에서 차이가 난다. 여기에 제시된 도면 요소는 I형, II-p형 및 II-t형 마커와 함께 사용된 증폭 반응을 기술한다.
도 6b. a) I형 마커 블록은 SMID의 5' 및 3' 측에 2가지 유형의 제한 부위를 가진다. b) cDNA 합성 및 증폭 이후, cDNA를 효소적 단편화되거나, 또는 초음파 처리에 의해 무작위 단편화한다; (제시된 전단 부위 위치는 기호로 제시), c) 샘플 단편을 도시한다. d) 효소적 단편화 또는 초음파 처리 이후, 단편을 분취량으로 나누고, 제한 효소 중 하나 또는 그 나머지 하나로 절단하고, 재조합한다 (5b의 변형). e) 단편의 단부를 수복시키고, 비오티닐화하고, 환형화시키고, 분무하고, 접합형 단편을 스트렙트아비딘 비드 상에서 포획시킨다. 이어서, A 테일링하고, 3' 단부에서 오직 PCR 프라이머 2.0에 대한 어닐링 부위만을 가지는 변형된 어댑터에 결찰시킨다. f) 마커 중 상보적인 서열과 상호작용하는 프라이머 1.0, 및 무작위 파괴점에서 3' 어댑터에 어닐링하는 프라이머 2.0을 이용하여 증폭을 수행한다. 증폭 결과로 한쪽 단부에 마커 및 다른 나머지 한쪽에는 무작위 파괴점을 가지는 분절만이 최종 메이트 쌍 라이브러리에 나타난다. g) 메이트 쌍 라이브러리 중 제1 서열 리드는 마커(래퍼 및 관련 SMID 서열) 및 소스 분자 가닥의 센스를 수득한다.
도 6c. II-pa형 및 II-ps형 태깅된 cDNA는 같은 방식으로 프로세싱된다; II-pa형 프로세싱을 도시한다. a) II형 마커 블록은 PCR 프라이머 1.0의 것 및 그의 보체인 두 서열과 함께, 복제 SMID 사이에 루프 중 2 카피수의 희귀 제한 부위를 가진다. b) cDNA를 합성하고, 증폭시키고, 단편화한다(효소적 단편화 또는 초음파 처리); (무작위 파괴 부위는 기호로 제시) c) 단편은 개략적으로 제시되어 있다. d) 제한 효소 절단에 의해 SMID 사이의 분절을 제거한다. 단편의 단부를 수복시키고, 비오티닐화하고, 결찰시켜 환형화시키고, 분무하고, 접합형 단편을 스트렙트아비딘 비드 상에서 포획시킨다. 환형화를 통해, 효소적 단편화 또는 초음파 처리에 의해 제조된 무작위 또는 비무작위 파괴 부위는 SMID 또는 SMID 보체에 근접한 위치에 놓이게 된다. e) 포획된 비오티닐화된 접합형 분무 단편의 단부를 수복시키고, A 테일링하고, 3' 단부에서 오직 PCR 프라이머 2.0에 대해 상보적인 변형된 어댑터에 결찰시킨다. f) 마커 중 그의 상보적인 부위와 상호작용하는 프라이머 1.0 또는 상기 프라이머의 변형된 버전, 및 어댑터와 관련된 무작위 파괴 부위와 상호작용하는 PCR 프라이머 2.0을 이용하여 증폭을 수행한다. g) 증폭 결과는 (a) 오직 마커 보유 단편만이 메이트 쌍 라이브러리를 포함하고; (b) 마커 서열은 초기 리드에서 선택적으로 기록된 후, 초기 단편화(효소적 단편화 또는 초음파 처리)로부터 내부 파괴 서열이 생성된다; (c) 메이트 쌍 서열은 분무에 의해 제조된 제2 무작위 파괴 부위로부터 유래된다. 메이트 쌍 라이브러리로부터의 본질적으로 모든 리드 쌍은 그의 유래 기점이 되는 소스 분자에 따라 인덱싱된다. II-pa형 태깅된 분자의 경우, 소스 분자 가닥의 센스는 비대칭형 마커(동그라미 기호)로 표시되고; II-ps형 태깅된 분자의 경우, 이 정보는 이용불가능하다.
도 6d. a-f) 라이브러리 생성은 II-p 마커형에 대한 것과 같이 수행되지만, SMID 배향 운명은 도시한다. g) 마커 서열(또는 그의 보체)은 제1 리드에서 나타나고, 이어서, 효소적 단편화 또는 초음파 처리 파괴 부위에 상응하는 접합부가 나타난다; 메이트 쌍 서열은 상기와 같이 분무 파괴 부위를 나타낸다. 각각의 리드 쌍은 서열분석된 리드 또는 그의 보체로서 기록될 수 있다. II-t형 마커는 (래퍼 서열 및 체크 염기에 의해 식별되는) 태깅 시약 마커의 보체가 소스 분자 가닥의 서열과 독특하게 관련이 있다는 유용한 속성을 가진다. cDNA 구성물의 직접적인 단리: II형 시약은 동일한 마커 서열을 가지는 3' 및 5' 단부, 둘 모두의 측면에 위치하는 cDNA를 생성하고; 따라서, 특이적인 소스 분자로부터의 전장의 cDNA는 마커(예컨대, SMID) 지정 PCR 및 서브클로닝에 의해서 효소적 단편화 또는 초음파 처리된 샘플로부터 구제된 분취량으로부터 직접적으로 구조될 수 있다.
도 7a는 HP 신장 결과를 보여주는 것이다(4% 아가로스 겔). DNA 폴리머라제 Phi 29로 올리고 J 전구체를 신장시킨다. 전구체 밴드는 가볍고, (a) 클램프된 형태와 신장된 형태 사이의 입체구조적 평형 및 (b) 단일 가닥 DNA에 의한 에티디움Br에의 불충분한 결합에 기인하여 확산된다. 대조적으로, 신장 후, HP는 더욱 강성인 이중 가닥 구성에 기인하여 더 높은 겉보기 분자량의 밝은 밴드로서 뚜렷하게 나타난다.
도 7b는 II-ps₁형 TRS의 합성 결과를 보여주는 것이다(4% 아가로스 겔). 가닥 합성, 겔 정제 및 분리 후, 유리 용액(고체상 포함하지 않음) 중 제조된 상기 물질은 별개의 TRS 및 HP로 이루어진 동몰량의 믹스이다. HP는 RCA 이전에는 cDNA 합성 또는 환형화를 프라이밍하는 데 불활성이다: (환형화 후, HP는 환형화 후에 엑소뉴클레아제 I 및 II 처리에 의해 제거된다). 전환은 전형적으로 정량적인 것이다.
도 7c는 II-ps₂의 합성 결과를 보여주는 것이다(4% 아가로스 겔). HP-TRS 합성 후, 스트렙트아비딘 비드에의 흡착 및 세척을 통해 1Q, 시약 프라이머 및 효소를 제거하고; 일시적으로 가열하고, 변성시킴으로써 고체상으로부터 순수한 TRS를 유리시키고, 비오티닐화된 HP는 비드 상에 유지된다. 이 반응은 전형적으로 정량적인 것이다.
도 7d는 I형, II-ps₁형 및 II-ps₂형 태깅 시약에 의해 프라이밍된 cDNA 합성 결과를 보여주는 것이다(4% 아가로스 겔). 제한된 양(0.25 pmol)의 각 태깅 시약을 이용하여 인간 배아 신장(HEK(Human Embryonic Kidney)-293) 세포로부터 폴리 A mRNA를 역전사시켰다. 큰 cDNA는 겔 상단부에 클러스터링된다. 각 cDNA 밴드는 세포에 존재하는 mRNA 집단을 대량으로 기록하는 충분한 개수의 분자(~150,000,000,000개)에 상응한다.
도 7e는 I형, II-ps₁형 및 II-ps₂형 태깅 시약으로부터의 환형화된 cDNA의 RCA 결과를 보여주는 것이다(4% 아가로스 겔). 티오포스포릴 무작위 육량체 및 Phi 29 DNA 폴리머라제를 이용하여 (d)에서와 같이 제조된 소량의 분취량의 cDNA에 대해 RCA를 수행하고, 소량의 분취량을 겔 상에 전개시켰다. 큰 연쇄동일서열이 겔 상단부에 포획된다. 이러한 반응은 재현가능성이 높다; 각 RCA 반응은 다중 라이브러리를 제조하는 데 충분할 수 있다.
도 7f는 탈분지형 RCA 생성물의 효소적 단편화 또는 초음파 처리 및 제한 효소 절단 결과를 보여주는 것이다(1% 아가로스 겔). 먼저, 동종중합체를 효소적 단편화 또는 초음파 처리하여 평균 ~4 kbp인 단편을 생성하고, 겔 상에 전개시킨다. 희귀 제한 효소 AlwNI로 절단하여 복제 마커 사이의 분절을 제거한 후, 분자량 이동을 기록한다. 그래프는 처리 이전 및 이후의 겔 스캔을 도시한 것이다. 실선은 100% 절단에 대한 크기 분포를 예측하는 것이고; 작은 오프셋은 수학적 모델링은 내부 태크가 없을 수도 있는 단편을 추정하지 못한다는 사실을 반영한다.
도 7h는 접합형 단편의 PCR 증폭으로 생성된 메이트 쌍 라이브러리의 복제 겔 및 겔 스캔 결과를 보여주는 것이다(애질런트(Agilent) 분석 겔). 이 경우에는, PCR을 II-ps₁형 태그 내의 프라이머 부위, 및 무작위 파괴 부위에 결찰된 말단 어댑터 중의 말단 PCR 2.0 부위로부터 프라이밍하였다. 상기 라이브러리를 이용하고, High Seq 장치의 15개의 실험용 챔버 중 하나를 사용하여 수행된 서열분석 실행으로 174,000,000개이 리드(read) 쌍이 수득되었다.
도 7i는 상기 단부 태깅된 메이트 쌍 라이브러리의 High Seq 서열분석에 의해 생성된 단부 태깅된 리드 쌍 결과를 보여주는 것이다. (1) 무작위로 선택된 단부 태깅된 서열로부터의 메이트 쌍 리드의 일례를 나타낸다; 리드 I에서 마커는 5' 및 3' 래퍼 및 체크 염기에 대해 강조 표시되어 있다. 상응하는 리드 II 서열은 하기에 제시되어 있다. 체크 염기에서 서열분석 오류는 빨간색으로 제시되어 있다.
이 데이터는 프로토콜의 단계가 그의 원하는 단부를 달성한다는 것을 입증하며, 구체적으로는 (a) 태깅 시약 합성은 의도된 서열의 마커를 생성하는 데 성공을 거두었고, 다양성은 메이트 쌍 라이브러리까지 전달되었고; (b) 조직 샘플(배양된 인간 배아 신장(HEK 293) 세포)로부터의 cDNA 합성 태깅된 개별 mRNA - 30,000개의 리드 쌍을 조사한 결과, 세포에서 4,000개 초과의 유전자가 발현된 것으로 확인되었고; (c) 사용된 2 태깅된 II-pa₁형 시약의 절단은 효율적이었고; (d) 본 반응은 내부 cDNA 서열을 포함하는 소스 분자에 대한 독특한 SMID를 함께 모았고; (e) 일루미나 메이트 쌍 프로토콜의 변형으로 단부 태깅된 메이트 쌍 라이브러리가 제조되었으며, 마커 서열 확인은 촉진되었고; (f) 메이트 쌍 서열은 유전자간 DNA 서열이 아닌, 공지된 유전자의 생성물과 고도한 효율성 및 충실도로 매칭되고; (g) 데이터는 독특한 SMID로 확인된 소스 분자에 따라 분류될 수 있다는 것을 입증한다. (2) 메이트 쌍은 blast 검색 일례 I로부터 매칭된다. 본 일례에서, 호모 사피엔스(Homo sapiens) 알데히드 데하이드로게나제에 대한 유전자로부터의 mRNA를 태깅하였다. 서열분석된 단편은, 평균적으로 분무된 단편 중간에 위치하는 마커 서열 내부로부터 증폭되기 때문에, cDNA 서열 중 163개의 염기(리드 I로부터 63개, 리드 II로부터 100개)는 흔히 300-400 bp 분무 단편으로 생성된 상기 라이브러리 중에서 중첩된다. 이러한 중첩은 강조 표시된 의문 서열에 의해 표시된다. (3) 메이트 쌍은 blast 검색 일례 II로부터 매칭된다. 호모 사피엔스 뇌 my047 단백질에 대한 유전자에 대한 mRNA를 태깅한 본 두번째 일례에서는, 유사한 정도의 중첩이 관찰된다. 비록 PCR 증폭에서 사용된 분무의 약간 좀더 큰 생성물이 사용가능한 서열을 증가시킬 수는 있지만, 일부 중첩은 긴 서열분석 사이클(여기서, 100 bp) 종료시 염기를 소환하는 데 있어 충실도 감소를 제어하는 데 바람직할 수 있다.
도 8a는 중첩 콘티그(contigs), 및 두 콘티그에 의해 커버링되는 주형으로의 서열 리드의 어셈블리를 개략적으로 도시한 것이며, 최소부가 3개의 탠덤 cDNA 서열을 포함하는 주형의 것이 갭 없이 구성될 수 있다는 것을 보증할 것임을 나타낸 것이다.
도 8b는 리드 개수 대 전산화된 파라미터에 대한 적용 범위를 플롯팅한 것을 그래프로 나타낸 것이다. 이는 전반적인 양상을 보여준다. 각 선분은 한 전사체 길이(T), 한 전사체 반복 값(r), 및 한 리드 길이(L)에 대한 전체 서열(반복부 포함)당 k(1, 2, 3, 5, 및 10) 콘티그의 5개의 값에 대한 지점을 연결한다. 3개 반복 수준(r)은 플롯을 3개의 군: (r = 1), (r = 2) 및 (r = 3)으로 분리한다. 이는 전사체가 탠덤으로 카피는 되었지만, 고정 개수의 콘티그에 의해 커버링될 경우에, 단일 전사체의 적용 범위가 얼마나 증가하는지를 보여준다. 전사체를 커버링하는 데 더 많은 리드가 필요한 바, 더 큰 전사체는 상단에 위치한다.
도 8c는 전체 전사체 서열을 포획하기 위한 전체 적용 범위에 대하여 리드 길이가 미치는 효과를 입증하는 데이터의 서브세트를 플롯팅한 것을 그래프로 나타낸 것이다. 빨간색 곡선은 각각 리드 길이(50 bp) 및 리드 개수 (3)가 고정된 5개의 콘티그 값을 가지는 9개의 전사체 길이에 대한 값을 플롯팅한 것이다. 파란색 곡선은 동일하지만, 리드 길이가 더 긴 것이다(150 bp). 더 긴 장쇄의 전사체는 전사체를 확실하게 같은 수준으로 커버링하는 데 150 bp 리드를 사용하는 경우보다 50 bp 리드를 사용할 경우에 3.5 내지 4배 더 많은 염기를 판독하는 것을 필요로 한다.
도 8d는 리드 길이, 전사체 길이, 적용 범위, 및 리드 개수에 관한 표이다. 리드 길이 상의 특정 정도의 적용 범위를 위한 리드 개수, 리드 길이당 콘티그 개수, 반복 수준 및 전사체 길이의 관계에 관한 상기 요약된 표를 통해 실험에서 생성된 메이트 쌍 리드 개수와, 특정 정도의 적용 범위로 완전하게 서열분석되는 주어진 크기의 cDNA의 개수 사이의 관계를 추정할 수 있다.
도 9는 변형된 프라이머의 실시양태를 도시한 것이다. SMID를 함유하는 메이트 쌍 서열의 수율 개선은 라이브러리 제조의 PCR 단계에서 태그(조이너)에 대한 프라이머를 사용함으로써 이루어질 수 있다. 이는 추가로는 리드 쌍 중 하나가 태그 서열 중 SMID를 생성할 수 있도록 SMID 서열은 본질적으로는 모든 라이브러리 단편의 단부 부근에 위치할 것이라는 것을 보증할 것이다. 그러므로, 표준 메이트 쌍 또는 단부 쌍 프로토콜에서 일루미나 시약의 A 프라이머를 대신하여 변형된 프라이머로 치환된다.
도 10은 선택적 프로모터 및 RNA 쇄 종결 및 폴리아데닐화의 선택적 콘센서스 부위의 사용에 기인하는 5' 및 3' UTR에서의 변이, 및 선택적 RNA 스플라이싱에 기인하는 UTR 및 ORF, 둘 모두에서의 변이의 대상이 되는 가상 유전자로부터 생성될 수 있는 선택적 트랜스크립톰을 도시한 것이다. 기호 A-E는 선택적 프로모터와 관련된 가변 3' UTR 분절을 나타내고; x-z는 선택적 종결 및 폴리아데닐화 부위와 관련된 상이한 3' UTR 분절을 반영하고; 녹색 기호는 선택적으로 스플라이싱된 엑손을 나타내며, 그의 잔류 또는 결실은 변이체 매트릭스에서 괄호 안의 1 또는 0 기재로 제시된다. 점선은 가상 ORF를 나타낸다.
도 11a 및 11b는 서열분석 실행으로부터 복귀되는 전산 데이터 분석을 위한 순서도를 도시한 것이다. G + T는 게놈 및 전사체 데이터베이스를 나타내고; PTMP는, 파괴된, 또는 다르게는 부분적으로 서열분석된 SMID, 또는 소수의 PCR 또는 서열분석 오류를 포함하는 SMID(그의 확인은 SMID 서열 및 특정 유전자 전사체와의 관련성, 둘 모두에 기초하여 명시된 확률 임계치(즉, p<10-9)를 초과하는 것으로 제시될 수 있다)를 포함하는 라이브러리 단편으로부터 생성될 수 있는 부분적으로 태깅된 메이트 쌍을 의미한다.
도 12는 인간 배아 신장 세포주로부터 제조된 태깅된 cDNA 동종중합체로부터의 원형 실험에서 서열분석되고, 일루미나 HiSeq 2000 메이트 쌍 서열분석에 의해 분석된 전장의 메신저 RNA를 도시한 것이다(문헌 [Nature. 2008 456(7218):53-59]). 패널 a는, 각각이 역전사에 의해 1차 cDNA 분자 내로 도입된 SMID의 복제물로 표지화된 것인, 메이트 쌍 리드로 표제된 락트산 데하이드로게나제 A 유전자의 전체 서열을 도시한 것이다; RefSeq로 주석이 달린 엑손 경계부가 표시되어 있다; 단부 서열은 검사에 의해 확인하였다. 패널 b는 리드의 연결성을 도시한 것이다. 가는 수평선은 염색체의 해체성 분절을 매칭하는 단일 리드에 분절을 연결한다. 많은 경우에서, 개재 게놈 서열은 스플라이싱 아웃되는 인트론이고, 2개의 측면 조각은 실제로 리드 중 연속 서열이다. 다른 경우에서, 연결된 서열은 실제로 리드 내에서 이격되어 있다; 이는 메이트 쌍 라이브러리 제조에서 함께 수집된 원거리 cDNA 서열로부터 생성된다. 2종의 결합이 패널 c에 도시되어 있다. 패널 d는 도출된 메신저 RNA(엑손 2 결실) 상의 같은 리드의 정렬을 도시한 것으로 이는 모든 분자내 스플라이스 접합부의 적용 범위를 보여주는 것이다. 전역에 걸쳐 색상은 서열분석된 메이트 쌍에 기록된 메신저 RNA의 센스에 관한 것이다.

본원에 기술된 방법은 RNASeq가 가지는 특정 한계를 극복한다. 세포 및 조직 표현형을 예측하거나, 또는 설명하는 데 있어 RNA-Seq 뿐만 아니라, 전체 게놈 서열분석 또는 '엑솜 서열분석' 전략법이 가지는 한계는 도 10에 도시된, 단일의 가상 불연속 유전자로부터 발생할 수 있는 2개의 선택적 트랜스크립톰에 관한 개략도에서 포착된다. 심지어 선택적으로 스플라이싱된 개별 분절(여기서, 두 트랜스크립톰에서 동일)의 발현 빈도를 정량화한 경우에도 조차, 엑솜 서열분석은 전체적으로 상이한 단백질이 발현되는 시나리오 - 질환 돌연변이가 기능에 영향을 줄 수 있는 독특한 구조적 맥락을 식별하지 못한다는 것은 명백하다.

RNA-Seq 및 일반 엑솜 서열분석 전략법에서 누락되기 쉬운 정보를 정의할 수 있다: 전사 활성화의 선택적 5' 부위로부터 유래된 다중 UTR 및 3' 콘센서스 폴리아데닐화 부위, 및 선택된 RNA 스플라이싱(또는 RNA 편집)되는 UTR 및 ORF 분절, 둘 모두와 함께 가상 유전자 g로부터의 복합 조직 중에서 발생하는 선택적 RNA의 어레이를 고려해 본다. 종합적인 조사에서 변이체가 염색체 상에서 5'→3' 순으로 n개의 가변 분절 (광범위하게 정의하여 '엑손')의 선형 조합을 포함한다고 가정할 때, X = (e ₁ , e ₂ , ... , e _n ) 이다. i번째 메신저 변이체의 서열, s _i 는 s _i = (a _i1 e ₁ + a _i2 e ₂ ... a _ij e _j + ... a _in e _n )(여기서, a _ij 는 잔류 계수로서, 이는 엑손 e _j 가 결실 또는 잔류할 때 각각 0 또는 1이다), 또는 더욱 간단하게

s _i = a _ig · X _g

(여기서, a _ig 는 유전자 g의 i번째 메신저 변이체에 대한 잔류 계수의 벡터이고, X _g 는 g의 잔류 엑손의 세트를 지칭한다)으로 명시된다.

심지어 스플라이스 변이체에 대한 대규모 조사도 불완전할 수 있다고, 예컨대, 조사되지 않은 세포 유형은 X _g 에 추가의 변이를 도입할 수 있다고 인정할 경우, 상기 용어는 상이한 양식으로(ψ _g 기호로 표시) 작성된, 유전자 경계부 내의 게놈 서열에 의해 대체된다. ψ _g 는 X _g 와 같은 매트릭스를 의미하지만, 이는 스플라이싱 수용체 및 공여체 부위 사이에 존재할 수 있는 유전자 경계부 내의 모든 정돈된 염기로부터의 모든 가능한 인접한 분절을 포함한다. 따라서,

s _i = a _ig · ψ _g 이다.

상기 관계식은 형식적으로 ( ψ _g 로 구현되는) g의 게놈 서열로부터 도출되는 메신저 코드의 정보를 (종종 '인터렉톰(interactome)'으로도 불리는) 변이체가 발현되는 세포에서의 고도로 조절되는 RNA 프로세싱으로부터 발생하는 세포 지령( a _ig )과 분리시킨다. 두 정보 기여 모두 단백질의 구조 및 분자적 특성을 나타내고; 이는 변이 및 자연 도태의 대상이 되어야 한다. 단백질 코딩 유전자는 동시에 다수의 방향으로 진화될 수 있고, 이로써 상이한 생물학적 프로세스를 매개하는 단백질이 제조된다.

트랜스크립톰인 τ는 종종 상대적인 유전자 발현 수준의 분포로 간주된다: τ = (p ₁,... ,p _g ..., p _N )(여기서, N은 유전자 개수이고;

이고; n _g 는 유전자 g의 모든 변이체에 대한 메세지 분자의 총 개수이다).

결국, 각 유전자는 그 자신의 트랜스크립톰, τ _g = (q _g1 , ..., q _gk )(여기서, k는 유전자 g의 메세지 변이체의 개수이고;

이고; n _g 는 변이체 i에 대한 메세지 분자의 개수이다)을 가진다. 실제 유전자 서열 요소를 τ _g 에 흡수시키는 것은 트랜스크립톰을 예컨대, 일반적으로 원하는 정보 형태와 같이, 변이체 서열의 가중화된 목록으로서 재구성한다. 상기 렌더링에서,

이다.

임의적으로 수행된 RNASeq는 ψ _g 및 일부 개별 스플라이스 접합부로부터 발현되는 모든 정보를 포착하지만, 보다 긴 범위의 결합에 대해서는 그러하지 못한다. RNASeq는 일반적으로 복잡한 통계학적 알고리즘을 사용하여 가능성이 가장 큰 발현된 변이체를 예측하지만, 실험적으로 a _ig 를 포착하지는 못한다; 즉, 전산상 집약적인 불확실한 전략법인 반면, 직접적인 서열분석은, 어느 경우에는 RNASeq 알고리즘이 그에 대해 입증되어야 하는 '실측 자료' 데이터세트를 제공한다. 유사하게, 디자인에 의해 '그' 엑솜의 게놈 서열분석은 a _ig 를 명시하는 정보를 누락시키고, 따라서, 어느 단백질(또는 기능적 RNA)이 세포 또는 조직에서 발현될 수 있는지를 명확하게 결정짓지 못한다. 본원에 개시된 기술은 구체적으로 분자내 결합 정보, 및 트랜스크립톰을 기술하는 데 필요한 상대적인 변이체 분포를 포착하기 위해 디자인된 것이다.

이전 설명에서 입증된 바와 같이, 대규모 cDNA 서열분석을 위한 도전은 본질적으로 고등 종의 유전자의 생물학적 성질 및 고전적인 시스트론성 유전자 모델과 그의 차이와 연관되어 있다. 격차 규모는 쉽게 유추된다: 즉, 대략 미토콘드리아의 크기이고, 표현형상의 다양성이 제한된 단세포 유기체인 박테리아 에스케리키아 콜라이(Escherichia coli)는 (균주마다 다른) ~4,700개의 시스트론성 단백질 및 기능성 RNA 코딩 유전자를 가진다. 대조적으로, 다수의 '불연속 유전자' 정도로 단지 4배를 약간 초과하는 인간 수정란을 통해 각각의 것이 박테리아보다 크게 더 복잡한 100조개의 세포가 생성되고, 이로써, 조직, 기관 및 기관 시스템을 형성한다(인간 뇌의 1,000억개의 뉴런 및 100조개의 시냅스 포함). 시스트론성 및 '불연속' 유전자의 정보상의 비등가성은 명백하다.

본 개시내용의 전형적인 실시양태에서, 모든 mRNA는 역전사시에 한 카피 또는 카피들의 소스 분자 식별자(SMID)를 포함하는 독특한 태깅 시약으로 표지화된다. 역전사 후, 전장의, 태깅된 cDNA는 일련의 단계를 거쳐 각 단편이 한 카피의 원래의 SMID를 포함하는 중첩 단편으로 된 라이브러리를 수득하게 된다. 큐레이팅된 유전자 서열에 대한 정렬 비교를 통해 새 엑손을 확인할 수 있고, 앞서 주석이 달린 엑손을 확인할 수 있다.

이러한 라이브러리는 수개의 현존 샷건 서열분석 플랫폼 중 임의의 것을 이용하여 서열분석될 수 있고, 이로써 특이 소스 분자에 대한 표지, 및 상기 분자로부터 유래된 무작위 서열, 둘 모두를 수득할 수 있다. 이어서, 서열 쌍은 각 소스 cDNA 분자에 특이적인 군('빈')으로 분류된 후, 상기 cDNA의 전장의, 종단간 서열에 대해 조립된다.

전형적으로, 본 방법을 통해 샘플 중 모든 분자를 미리 결정된 적용 범위 수준(예컨대, 5x, lOx, 25x 등)으로 서열분석을 완료할 수 있다: 더욱 높은 정도의 적용 범위로부터 생성된 정확도를 통해 단일 염기 돌연변이, 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism), 또는 RNA 편집 부위를 검출할 수 있다. 돌연변이, 단일 뉴클레오티드 다형성(SNP: single nucleotide polymorphism), 또는 RNA 편집 부위의 분포를 통해 원래의 mRNA 집단의 구조를 재구성할 수 있다. 침묵 또는 미스센스 돌연변이를 비롯한, 5' 비번역 영역(UTR), 오픈 리딩 프레임(ORF: open reading frame), 및 3' UTR을 포함하는 완전한 서열이 생성된다. 이는 전사 활성화 제어와 서열 요소의 전사 후 어셈블리 사이의 상관 관계를 허용할 수 있다. 프로토콜에서 중간 단계는 서열분석에 의해 검출되는 카피의 임의의 특정 소스 mRNA를 즉시 클로닝하는 데 사용될 수 있는 원래의 cDNA 풀의 전장의 샘플을 보존한다. 상기 클론은 이종 발현에 의해 특징 규명될 수 있거나, 또는 분자 프로브를 제조하는 데 사용될 수 있다. 다양한 조직 소스로부터 다중의 트랜스크립톰을 동시에 프로파일링할 수 있도록 하기 위해 라이브러리 구성을 수행할 수 있다. 따라서, 같은 환자로부터의 다중의 종양, 또는 상이한 발생 단계 또는 질환 진행 단계로부터의 mRNA를 같은 실험에서 프로세싱할 수 있고, 서열분석 후 데이터를 분류할 수 있다(다중화).

mRNA를 서열분석하고, 생성된 결과를 기본 및 임상 연구를 위해 적용하는 것 이외에도, 본원에 기술된 기술은 환자에서의 질환 진행 과정 동안 발생하는 레트로바이러스의 이종성 게놈을 서열분석하는 것; 인플루엔자(influenza)의 변이 생성에 기반을 이루는 것과 같이, 동물 저장소에서 인간 및 동물 바이러스 요소의 재조합을 모니터링하는 것; 예방학적으로 항생제 처리된 동물 중에서의 미생물 집단, 또는 토양 생태를 변환시키는 살충제 요법을 받은 농작물에서 발생하는 미생물 중에서의 약물 저항성 또는 독소 생산과 관련된 유전자 교환에 대한 역학적 성질을 분석하는 것과 같이, 다른 잠재적인 용도를 가진다.

개인 맞춤형 의료라는 신생 영역에서 적용이 고려된다. 특정 치료 제품은 사람들에게 상이하게 영향을 줄 수 있다. 개인 맞춤형 의료는 질환 발병을 예측하거나, 또는 설명하기 위해, 및 치료학적 전략법을 선택하거나, 또는 최적화하기 위해, 이 둘 모두를 위하여 개인 환자에 대한 유전적 정보를 사용하는 것을 추구한다. 비록 이러한 접근법을 통해 상당수가 성공하기는 하였지만, 아주 많은 다수의 사례에서, 개인 맞춤형 의료의 유망성은 이행되지 않은 상태 그대로 남아있다. 심지어는 최상의 환경에서 결과는, 여러 일례로 조명되는 세포 또는 조직 분자 표현형에 대한 더 많은 지식으로부터 상당한 이익을 얻게 될 것이다.

유방암 치료에서, 신호 전달 경로 및 세포 증식에 관여하는 티로신 키나제인 HER2/neu에 대한 종양 표본에 관한 조직학적 검사는, HER2/neu 세포외 도메인에 대한 재조합 인간화된 모노클로날 항체인 트라스투주맙(허셉틴(Herceptin))을 사용하는 쪽으로 이루어질 수 있다. 성공적으로 치료되면, 세포 증식의 근인으로서 HER2/neu 발현은 하향 조절되고, 암 세포의 면역 사멸화가 유발될 수 있다. 불행하게도, 대다수의 환자에서는 트라스투주맙에 대해 원발성 및 후천성 저항이 발생하게 되고; 심장 조직에 미치는 표적 효과를 손상시키면, 심장 질환의 병력이 있는 다른 적합한 환자에서는 그의 사용은 불가능해질 수 있다. 추가로, 삼중음성 유방암 환자에서, 3가지 세포 마커, HER2/neu, ER (에스트로겐 수용체) 및 PR (프로게스테론 수용체) 중 어느 것도 발현되지 않는다; 이들 암은 전형적으로는 더욱 침습성이 크고, 젊은 여성 및 아프리카계 미국 여성이 더 자주 진단을 받으며, 우수한 진단 마커 또는 치료학적 약물 표적은 없다. 종합적인 cDNA 프로파일링이 가능하게는 질환 메커니즘, 신규 진단 마커 및 가능한 치료학적 약물 표적에 대한 통찰력을 제공할 것이다.

특정 실시양태에서, 본 개시내용은 암 게놈 서열분석 방법에 관한 것이다. 특정 실시양태에서, 본 개시내용은 돌연변이체 단백질, 활성화된 유전자 캐스케이드 및 암 표현형을 나타내는 다른 마커, 예컨대, 세포 계대가 '흑색종'임을 명시하는 특성을 검출하는 종양 및 정상 대조군 세포의 mRNA의 병렬 분석을 이용하여 무작위로 누적된 일과성 돌연변이에 기인하는 변이들로 이루어진 배경과 특정 게놈을 비교하는 방법에 관한 것이다. 암의 독특한 단백질을 확인하는 것이 약물 또는 면역억제 요법에 대한 표적을 제공할 것이다.

특정 실시양태에서, 본 개시내용은 면역계 조작 방법에 관한 것이다. 극적인 선행 연구에서, 만성 림프구성 빈혈증을 앓는 3명의 환자의 면역계를 재조작하여 정상 및 악성 면역 β 세포 상에서 발현되는 마커 단백질인 CD19를 공격하였다(문헌 [N Engl J Med (2011); 365:725-733]). 두 사례에서, 이를 통해 자가면역이 공격을 받았고, 이로써 질환의 징후는 제거되었다; 세번째의 현저한 개선이 주목되었다. 불행하게도, 평균 인간 세포는 단백질 코딩 유전자 보체 중 25-30%의 생성물을 발현하기 때문에, 중증의 고형 종양 암에 대한 유사한 연구에서, 및 수개의 사례에서는 치명적인 부정확한 반응이 종양과 표면 마커를 공유한 다른 신체 중요 기관을 손상시켰다. 신체 중요 조직에서 발현된 특정 단백질 변이체에 대하여 더 많이 학습함으로써 표적 선별에 있어 필요한 개선안을 가이드할 수 있다.

특정 실시양태에서, 본 개시내용은 선택적 약물 요법에 관한 방법에 관한 것이다. 수용체 및 효소를 선택적으로 조절하는 것이 상당한 주목을 받고 있다. 문헌 [Journal of Clinical Oncology, (2007) 125, 5815-5824]를 참조할 수 있다. 표적 조직에 존재하는 공동 활성 인자 및 공동 억제 인자의 상대적인 수준에 대해 특징을 규명하는 것이 가장 크게 주목을 받고 있다. 대략 두 다수의, 상기 수용체의 스플라이스 변이체, 또는 프로게스테론 및 안드로겐 수용체에서의 유사한 변이의 조직 특이 발현이 상기와 같은 차이를 설명할 수 있다는 가능성은 상대적으로 거의 고려되고 있지 않다. 본원에 개시된 실시양태를 사용하는 mRNA 프로파일링은 상기의 모든 가능성들에 관한 정보를 포착할 수 있다.

유사하게, 키나제는 매우 다양한 병증에 대하여 효과적인 약리학적 표적이다; 특히, 세린/트레오닌 키나제가 많은 암 형태의 근본 원인이 되는 것으로 보여진다. 최근 518개의 유전자가 인간 단백질 키나제 유전자 슈퍼패밀리의 구성원인 것으로 분류되었다. 문헌 [Science, 2002, 298(5600): 1912-34]를 참조할 수 있다. 이중 다수는 건강한 상태 및 질환 상태에서의 상이한 조직에서 뚜렷이 다른 생리학적 역할을 할 수 있다. 이들이 전체적으로 또는 부분적으로 약리학상 구별될 수 있다는 가능성을 통해 약물 대안을 개선시킬 수 있고, 이로써 최소의 부정확한 효과를 가지는 화합물을 확인할 수 있다.

특정 실시양태에서, 본 개시내용은 진행성 질환을 평가하는 방법에 관한 것이다. 매우 다양한 진행성 질환과 관련된 세포 변화에 관한 종합 분석이 광범위하게 추구되고 있다. 후보 장애로는 알츠하이머병, 근위축 측삭 경화증(ALS: Amyotrophic Lateral Sclerosis), 파킨슨병, 다발성 경화증 및 울혈성 심부전증을 포함한다. 돌연변이가 미토콘드리아, 시냅스 기능, 선택적 RNA 스플라이싱의 광범위한 제어, 및 또한 일반적으로는 유비퀴틴 시스템에 의해 매개되는 단백질 교체를 변경시키는 것으로 보이는 다수의 유전자가 검출되었다. 문헌 [Nature (2011) 477, 211-215]를 참조할 수 있다. 심지어는 확인된 돌연변이의 부재하에서도 상기 요소 중 일부가 잘못 조절되는 경우도 발생하는 것으로 보이며; 표현형 프로파일링은 유전자 활성화 변화에 대해 나타내는 더욱 중요한 지표를 제공할 수 있고, 동시에 질환 진행과 관련된 돌연변이 및/또는 스플라이스 변이 목록을 제공할 수 있다.

특정 실시양태에서, 본 개시내용은 감염 질환을 평가하는 방법에 관한 것이다. 트랜스크립톰 분석은 가속된 시간 프레임에서 상기 감염원에 대한 증거를 밝혀낼 수 있다.

특히 감염원에 대한 성숙한 성공적인 반응에서 불균형적으로 상향 조절된 면역글로불린을 조사하기 위해 면역계에서 mRNA 프로파일링을 지시함으로써 생체 공학적 백신으로서 발현될 수 있는, 모노클로날 항체와 유사한, 인간 면역글로불린을 직접적으로 클로닝할 수 있다. 예를 들어, 진행성 광견병은 면역계가 그를 따라잡기에는 너무 빠른 속도로 진행되며, 일반적으로, 이환율이 높다. 상기 기술은, 흔히 그 자신의 고유한 면역원성을 극복하기 위해 마우스 면역글로불린을 인간화시켜야 하는 필요성으로 인해 지장을 받게 되는 모노클로날 항체의 상업적 개발을 증대시킬 수 있다.

경제적으로 중요한 임상 연구 영역은 소형 간섭 RNA(또는 siRNA: Small Interfering RNA)를 사용하는 것에 관한 것이다. 이는 특정 mRNA를 선택적으로 분해하거나, 또는 그의 번역을 막을 수 있는 치료학적 제제로서 도입될 수 있다. 유전자 특이 표적화가 크게 발달하였고, 임상 요법에서 일부는 성공을 거두었음에도 불구하고, 혼동을 일으키는 문제는 표적 특이성을 평가할 수 없다는 점이다. 원치않는 유전자 억제가 흔히 일어나는 부작용이다. siRNA 발현 이전 및 이후 표적 조직 중 전체 mRNA 어레이를 프로파일링할 수 있는 능력이 siRNA 기반 치료제를 발전시키는 데 있어 유용한 도구가 되는 것으로 여겨진다.

특정 실시양태에서, 본원에 개시된 방법을 통해 개인 연구원에 의해 최소 비용으로 단일 실험에서 다수의 cDNA를 종단간에 걸쳐 서열분석할 수 있고, 정량화할 수 있다(실험당 10^4,10⁵, 10⁶, 10⁸개의 cDNA) .

다세포 고등 종의 복잡한 불연속 유전자의 발현 과정에서 전사 활성화 및 전사 후 RNA 프로세싱에 의해 제조되는 mRNA에 대한 철저한 전장 서열분석이 특히 강력하게 적용되고 있다. 이는 게놈과 프로테옴 사이의 생화학적 전달자에서 야기되는 정보 이득을 포착한다. 이러한 적용은 분자 표현형이 전사를 위해 활성화된 유전자에 의한 것보다 단백질 및 발현되는 기능성 RNA에 의해서 더욱 가깝게 명시된다는 전제를 지지한다.

트랜스크립토믹스

특정 실시양태에서, 본 개시내용은 염색체 DNA와 같이, 임의의 긴 장쇄 중합체의 서열분석 및 새로운(de-novo) 어셈블리를 위해 사용될 수 있지만, 본 섹션에서는 트랜스크립톰에 대한 적용을 기술한다. 본 실시양태을 통해 세포 또는 조직 트랜스크립톰 중 혼합된 메세지 집단으로부터 mRNA 변이체에 대하여 종합적으로 전장의 서열분석을 수행하고, 상대적인 존재비에 대해 정량화할 수 있다.

본 실시양태에서, 본 개시내용은, 임의의 개별 서열 리드보다 큰 길이에 걸쳐 분포되어 있는 공통 서열 요소의 결합 패턴에 있어서만 오직 상이한 형태를 포함하는, cDNA의 불균일 혼합물로부터 유도된 최대 수십억 개의 cDNA 단편의 무작위, 대량 병렬 서열분석 후에 얻은 서열 정보의 분자적 소스('가상 클로닝')에 따라 분리할 수 있는 대신('가상 클로닝'), 각각의 전장의 mRNA의 cDNA 복제물을 클로닝하는 통상의 단계를 우회한다.

본 개시내용은 다수의 상이한 DNA 서열분석 기술 플랫폼이 세포 또는 조직으로부터의 mRNA('트랜스크립톰')를 서열분석하고, 그의 프로파일을 정량화하는 데 사용될 수 있게 하는시약, 단계 및 방법의 조합을 제공한다.

특정 실시양태에서, 본 방법은 전형적으로 하기 단계:

1) 독특한 식별자 서열 '태그'를 혼합물 중 각 폴리뉴클레오티드에 부착시키는 단계;

2) 태깅된 폴리뉴클레오티드, 전형적으로(반드시 그러한 것은 아니지만) 탠덤, 태깅된 동종중합체로서 복제시키는 단계;

3) 태깅된 복제된 생성물을 전단, 예컨대, 물리적으로 전단하여 무작위 점에서 cDNA 복제물을 파괴시키는 단계;

4) 식별 태그 범위 내의 정의된 부위에서 효소적으로 절단하여 각 효소 절단 생성물의 한쪽 단부 상에 식별자를 배치하는 단계;

5) 모든 태깅된 단편을 서열분석하여 무작위 전단점으로부터 식별자 태그 및 관련 서열을 포착하는 단계;

6) 동일한 서열로 이루어진 폴리뉴클레오티드를 기록하기 위해, 및 출발 mRNA 집단의 통계학적 구조를 재구성하기 위해 단일 분자 서열 어셈블리에 대해 확인된 소스 분자에 따라 태깅된 서열 쌍을 분리하는 단계를 포함한다

'태그'는 전형적으로 2가지 요소: (1) 확실하게 아주 많은 다수의 폴리뉴클레오티드가 같은 식별자를 받을 가능성이 없도록 하는 충분한 복잡도를 가진 무작위 서열의 서열 식별가능한 영역을 포함하는 독특한 SMID; (2) SMID가 분명하게 확인될 수 있도록 하는 비변이체 서열 영역("SMID 래퍼")을 가진다. 구체적인 실시양태에서 태그 디자인의 다른 측면은 상세한 방법에서 열거한다.

상기 기술을 가능하게 하는 SMID 시약의 디자인, 합성, 적용 및 사용 방법은 하기 실시양태에서 제공한다. 식별자 태그는 mRNA에의 직접적인 단부 결찰에 의해 도입될 수 있다; 특정 실시양태에서, 태깅 시약은 폴리 T 테일을 가지고, mRNA의 폴리 A 테일로부터의 역전사를 프라이밍하는 데 사용되고, 태깅 시약은 태그를 생성된 cDNA의 5' 단부 내로 도입한다. 과량으로 부가되면, 상기 시약은 현탁액 중에서 mRNA를 포획하게 될 것이며; 화학량론적 양 미만으로 부가되면, 비편향 무작위 샘플을 포획한다.

태깅된 폴리뉴클레오티드는 PCR, 예를 들어, 제한된 효율의 최소 프로토콜에 의해 복제될 수 있다. 바람직한 접근법은 효소적 분해에 의해 cDNA/mRNA 이종이중체로부터 mRNA를 제거한 후, 단일 가닥 DNA에 대해 작용할 수 있는 적절한 형태의 RNA 리가제로 태깅된, 단일 가닥 cDNA를 환형화하는 것을 포함한다. 임의의 잔류 선형 형태는 엑소뉴클레아제 I로 제거될 수 있다. T4 RNA 리가제의 변이체(에피센터(Epicentre); 프로메가 코포레이션(Promega Corp.) 참조)를 이용하여 단일 가닥 cDNA를 공유 환형으로 결찰시킬 수 있다. 호열성 박테리아로부터 기원한 상기 효소 중 일부 형태를 승온에서 최적으로 사용하기 위해 추가로 변형시킬 수 있다(예컨대, 써크리가제(CircLigase): 에피센터). 상기 효소는 저수준의 선형 또는 환형화된 분자간 결찰 생성물을 이용하여 단일 가닥 RNA 또는 DNA를 효율적으로 환형화시키고, 올리고뉴클레오티드 서열과는 독립적인 것으로 보인다. 효소는 이중 가닥 DNA를 결찰시킬 수 없지만, 60도의 인큐베이션 온도에서, 이중체 구조로 폴딩되는 단일 가닥 분자의 5' 단부에 유리 단일 가닥 3' 단부를 결찰시킬 수 있다는 것이 밝혀졌다.

환형화된, 태깅된 cDNA 분자를 수행되는 서열분석 규모에 의해 지시되는 양으로 분취하고; 이상적으로는 샘플 중의 모든 개별 분자는 미리 결정된 정도(예컨대, 5x, 10x, 25x 등)로 서열 리드에 의해 커버될 것이다. 고도의 진행성, 가닥 치환 phi 29 DNA 폴리머라제를 이용하여 롤링 서클 증폭(RCA: Rolling Circle Amplification)을 분취된 물질(환형화된, 태깅된 cDNA 분자)에 대하여 수행한다. RCA는 무작위 서열 프라이머로 비선택적으로; 또는 태그의 비변이체 영역에 대한 폴리뉴클레오티드로; 또는 개별 유전자에 특이적인 서열; 또는 다중 유전자 패밀리의 유사 구성원에 대한; 또는 오르토로고스 유전자 또는 다중 유전자 패밀리에 공통적인 서열에 대한 폴리뉴클레오티드로 프라이밍될 수 있다. 각 RCA 생성물은, 각 카피가 SMID 태그를 포함하는 마커 카피에 의해 그 다음 것에 연결되어 있는 것인, 단일 cDNA의 신장된 동종연쇄동일서열을 구성한다. 프라이머 선택에 따라, RCA는 연속 단일 가닥, 또는 분지형(또는 "고차분지형") 이중 가닥 생성물을 수득할 수 있다. 분지형 생성물은 S1 또는 멍빈 뉴클레아제로 탈분지화될 수 있다.

동종중합체의 단편화는 전형적으로 2 단계로 수행된다. 먼저, 탈분지형 동종중합체를 효소적 단편화, 초음파 처리, 하이드로시어 또는 등가인 물리적 방법에 의해 대략적으로는 원하는 서열 길이의 평균 mRNA 길이의 크기로 - 전형적으로 2-6 kbp, 또는 표적 mRNA 집단의 길이에 따라 다른 길이로 단편화한다. 그 다음으로, 무작위적인 물리적 단편화의 생성물을, 그에 대한 하나 이상의 콘센서스 부위가 SMID 시약으로 디자인된 것인 희귀 인식 서열을 포함하는 제한 효소로 절단한다. 상기 단계를 통해, 각각이 한쪽 단부에는 무작위 단편화에 의해 노출된 내부 서열을 포함하고, 나머지 다른 단부에는 SMID를 포함하는 단편이 생성된다. 이어서, 수개의 대량 병렬 서열분석 플랫폼 중 임의의 것을 사용하여 각 SMID 표지화된 단편의 쌍을 이룬 단부를 서열분석할 수 있다. 일루미나 High Seq의 메이트 쌍 프로토콜에 대한 응용은 태깅된 cDNA 단편을 효율적으로 서열분석하는 데 있어서 방법의 유용성을 입증하는 일례로서 본원에 기술되어 있다.

특정 실시양태에서, 본 개시내용은 소스 분자 식별 태그의 디자인, 합성 및 적용, 및 본원에 개시된 그의 합성 및 적용을 위한 키트 및 사용 방법에 관한 것이다. mRNA 서열분석 및 정량화를 위한 태깅 시약은 본원에 기술된 I형 및 II형 부류이 DNA 폴리뉴클레오티드 조이너/프라이머에 의해 예시된다. 이는 전형적으로 mRNA의 폴리 A 트랙과 어닐링할 수 있고, 태깅된 단일 가닥 cDNA의 레트로바이러스 역전사효소 합성을 프라이밍할 수 있는 폴리 dT의 노출된 단일 가닥 3' 신장부를 가지는 단일 가닥 DNA 분자이다.

I형 태깅 시약은 SMID, 다른 기능 서열을 가지고, 이는 2차 구조의 부재를 보일 수 있다. 이는 추가 변형 없이 디자인 서열로부터의 상업적 합성에 의해 수득될 수 있다. II형 태그는 복제 카피의 SMID를 함유한다. 태깅 시약은 SMID의 카피 둘 모두를 함유할 수 있거나, 또는 이중 가닥 DNA로 카피되었을 때, 단일 SMID가 복제될 수 있도록 디자인될 수 있다.

II형 시약, 및 그의 상업적으로 합성된 전구체는, (A) 상업적으로 제조된 전구체로부터의 태깅 시약 합성에서 사용되고, (B) 대량 병렬 서열분석을 위해 풍부한 SMID 단부 표지화된 cDNA 단편 라이브러리를 합성하는 데 있어 유용한 기능적 역할을 하는 2차 구조를 가진다. 2차 구조 및 적용에서 차이가 있는 II형 태깅 시약 디자인을 하기에 기술한다. 이는 시약 합성에서 또는 태깅된 cDNA 서열분석 라이브러리의 최종 제조에서 다재다능함을 제공하는 더 많은 기능성 도메인을 추가로 포함한다. 하기 기술되는 추가의 시약은 라이브러리 제조에서 특수 용도로 사용되는 프라이머 및 II형 합성 전구체 폴리뉴클레오티드를 포함한다.

II형 태깅 시약 합성은 복합 태깅 시약 구조를 직접 정교하게 만들기 위해 화학적으로 합성된 전구체로 디자인된 2차 구조를 이용한다. 별법으로, 2차 구조는 최종 태깅 시약 합성시 복합 주형을 정교하게 만들기 위해, 및 사용 준비가 된 시약으로서 그를 효율적으로 정제할 수 있도록 하기 위해 사용된다. 이러한 전략법을 통해 단일의 합성 효소를 사용함으로써 상기 복합체 및 가변 시약을 고도로 효율적으로 합성할 수 있고, 순수한 형태로 정제할 수 있다.

특정 실시양태에서, 본 개시내용은 고체 기판에 부착된 주형으로부터 원하는 태깅 시약 변형물을 합성하기 위한 대안을 포함하는 방법을 고려한다.

특정 실시양태와 관련하여, 태깅된 라이브러리를 서열분석하여 생성된 데이터를 분석하는 것은 전형적으로 하기 단계를 포함한다:

1. SMID 검출 - 서열 요소('래퍼')을 측면에 배치하거나, 또는 각 라이브러리 가닥의 한쪽 단부에 균일하게 배치함으로써, 또는 그 둘 모두에 의해 식별 무작위화된 서열을 위치에 설치한다.

2. 리드 분류(가상 클로닝) - 서열분석 리드를 SMID에 따라 별개의 "빈"으로 분류한다. 빈은 관련 서열 데이터를 저장하는 컴퓨터 메모리의 어드레스 블록이다. SMID를 포함하는 각 리드는 그의 메이트 쌍 리드(또는 리드들)과 함께 상기 SMID 빈으로 배정된다. 각 빈은 원래의 샘플 중의 개별 소스 분자(즉, 단일의 완전한 mRNA 분자)를 나타내고, 상기 빈 중의 모든 서열은 상기 단일 분자에서 유래된 것이다. 이는 정보상으로는 서열분석 이전에 혼합물로터 물리적 cDNA를 클로닝하는 것과 같은 서열분석 후의 것이다(그러므로, '가상 클로닝').

3. 기록된 리드로부터 태그 서열이 제거된 관련 리드로 표현되는 가닥을 확인하는 데 SMID 태그를 사용한 후, 서열을 트리밍하면, 오직 소스 분자로부터 유도된 정보만이 남게 된다.

4. 소스 분자 서열 어셈블리 - 각 빈 내의 트리밍된 리드를 최대로 중첩되는 정렬로 배열하여 각각이 최대 길이인 것인, 최소 개수의 콘티그를 생성한다. 적용 범위가 적절할 경우, 각 빈은 소스 분자의 종단간 서열을 포함하는 단일 콘티그를 수득한다. (각 빈은 비교적 짧은 단쇄의 한 cDNA 소스 가닥으로부터의 서열 리드를 포함하기 때문에, 대규모(예컨대, 게놈) 어셈블리를 방해하는 문제들은 면하게 된다). 트랜스크립톰 분석의 주요 문제인, 서열 리드를 개별 전사체로 지정하는 것은 배제된다. 전체 어셈블리 프로세스는 현존하는 새로운 어셈블러 소프트웨어로 달성될 수 있다.

5. 조립된 각 서열을 그의 소스 유전자(또는 트랜스 스플라이싱의 경우, 가능하게는 유전자들)에 대해 참조 - 현존 소프트웨어를 사용하여 각 유전자의 엑손/인트론 조직의 큐레이션을 업데이트시킬 수 있다.

6. 소스 가닥 확인 - 태그 배향 또는 소스 유전자에 대한 참조로부터의 정보는 관련 cDNA 서열이 "센스"(단백질 코딩) mRNA 서열, 또는 그의 안티센스 보체에 상응하는지 여부를 나타낸다. 이는 mRNA 서열을, 유전자 발현에서 조절 역할을 할 수 있는 폴리 A 표지화된 비코딩 안티센스 서열로부터 구별지을 수 있다.

7. mRNA 프로파일의 요약 재구성 - 모든 유전자로부터의 각 서열 변이체의 상대적인 발현 수준과 함께, 모든 발현된 내인성 및 외인선(병원체 감염인 경우) 유전자의 정상 상태 발현의 상대적인 수준을 정량화한다. 이러한 데이터는 서열 변이의 연관에 관한 연상 정보; 예컨대, 특정 스플라이스 또는 RNA 편집 변이체와 특정 선택적 프로모터 서열과의 관련; 단백질 기능 메커니즘을 지배하는 상호작용하는 단백질 도메인을 반영할 수 있는 특정 코딩 도메인의 공동 연관 등을 제공한다. 재구성은 암 환자의 다중 종양 및 이환되지 않은, 비악성 대조군 조직으로부터의 샘플; 다양한 발생 및 분화 단계에서 샘플링된 조직; 질환 진행 과정에 걸쳐 샘플링된 조직에서와 같이, 함께 서열분석될 수 있는(다중 서열분석) 다중 조직으로부터 메신저 프로파일의 비교 구조를 포함할 수 있다.

시약

본 개시내용의 특정 실시양태의 맥락에서, 하기 용어가 고려된다.

"태그"란, 부착부 또는 그의 복제물 일부(또는 전체)를 확인함으로써 생성된 접합체가 복제될 수 있게 하고, 식별될 수 있게 하는, 관심의 대상이 되는 폴리뉴클레오티드(예컨대, 표적 서열)에 부착되는 폴리뉴클레오티드 부착부를 의미한다. 태그는 전형적으로 시퀀싱 라이브러리의 제조 및 분석을 촉진하는 다양한 요소를 보유한다.

"태깅 시약"이란, 독특한 태그를 폴리뉴클레오티드 샘플 또는 샘플 내로 도입하는 데 사용되는 폴리뉴클레오티드 시약을 의미한다. 특정 맥락에서, "태그 시약"은 실질적으로 중첩인 서열을 포함하는 섹션, 및 실질적으로 비중첩인 서열을 포함하는 폴리뉴클레오티드의 일부분을 포함하는 폴리뉴클레오티드 군을 의미하며, 즉, 여기서, 비중첩 서열 섹션 내의 중첩 서열의 집단은 통계학상 낮다. 일단 ㅐ그가 폴리뉴클레오티드에 접합되고 나면, 이는 전형적으로 복제되고 - 따라서, 태그는 동일한 서열을 가지는 다중 카피를 생성한다.

"마커(marker)"란 내부 cDNA 서열과 관련하여 복제되는 태깅 시약의 일부분을 의미한다. 마커는 개별 분자의 유래된 된 원래의 현탁액 중의 개별 분자에 따라 각각의 서열분석된 분자를 확인한다. 때때로 전체 마커는 원칙적으로 최종 데이터 어셈블리 소프트웨어를 위해 이용가능하다. 마커는 2개의 성분을 포함할 수 있다. 하나는 "SMID," 또는 "소스 분자 식별자"로서, 이는 예컨대, 비변이체인 "체크" 염기 사이에 산재되어 있는 일련의 무작위 염기와 같은, 무작위 서열의 서열 식별가능한 영역을 의미하고: 무작위 염기는 예컨대, 제한하는 것은 아니지만, 전형적으로는 10⁹개 초과의 독특한 SMID 서열과 같이, 태깅 시약의 고도한 다양성을 생성하는 데 충분할 정도로 그 개수는 충분하다. 두번째 것인 "SMID 래퍼"는 하나 또는 양측 모두 SMID 측면에 위치하는 비변이체 염기(중첩 서열)을 포함한다. 체크 염기 및 래퍼, 둘 모두 라이브러리 서열의 큰 어레이에서 태그 검출을 용이하게 한다. 도 1에 도시된 바와 같이, 마커 블록은 추가의 인접 서열과 함께 마커 서열(예컨대, SMID + 측면 래퍼 서열)을 포함하며, 이는 마커의 한쪽 상에는 PCR 프라이머 서열 또는 그의 보체, 및 나머지 다른 한쪽에는 하나 이상의 제한 엔도뉴클레아제에 대한 인식 서열을 포함할 수 있다. 따라서, SMID, 마커 및 마커 블록이 태그의 네스티드 서열 요소를 포함한다.

본원에서 더 많이 기술된 II형 태그의 경우, "개재 루프," 또는 "루프 도메인"은 하나 이상의 프라이머에 대한 결합 부위, 또는 그의 보체를 함유할 수 있다. 하나 이상의 제한 엔도뉴클레아제 인식 및 절단 서열 또한 개재 루프에 존재할 수 있다.

"클램프"란, 전구체의 3' 단부를 신장시키는 자가 프라이밍을 가능하게 하고, 이로써, SMID를 포함하는 마커 블록의 분자내, 상보적인 카피를 생성하는 것인, 태깅 시약 전구체의 개재 루프 측면에 위치하는 어닐링 서열을 의미한다 (도 2a 참조, "어닐링"). 3' 테일 도메인은 전형적으로 폴리아데닐화된 mRNA로부터의 cDNA 합성을 프라이밍하는 데 사용되는 폴리 dT 또는 변이체(예컨대, dT22dV)이다. 임의적인 5' 테일 도메인은 전형적으로, 일반적으로는 태깅 시약의 임의의 다른 부분과 혼성화하지 않는 폴리 dT 또는 다른 서열의 스트레치이다. 5' 테일은 부분적으로 승온을 변성시킬 필요 없이 완성된 cDNA를 RNA 리가제에 의해 효율적으로 환형화시키기 위해 단일 가닥 5' 단부를 제공한다. Gppp 캡핑된 mRNA의 서열분석 방법의 실시양태에서와 같이, 5' 및 3' 테일을 포함하는 시약의, 트윈 5' 및 3' 테일은 환형화된 RNA로부터 cDNA를 카피하고 환형화하는 데 그가 사용될 수 있게 한다. (시약은 태그 표시에서 마지막 요소와 같이 아래첨자로 표시된(예컨대, II-ps₁형 또는 II-ps₂형), 1개(오직 3'만) 또는 2개(5' 및 3')의 테일을 가지는 것을 특징으로 할 수 있다).

"배치 코드"란 예컨대, mRNA와 같은 핵산 샘플 소스에 기초하여 라이브러리 단편을 식별하는 데 사용될 수 있는, 마커에 유지되는 임의의 변형을 의미한다. 다중 배치 코드를 통해 조직의 일련의 발생 단계에서, 질환의 다양한 진행 단계에서의 조직에서, 또는 상이한 종의 조직으로부터의 유전자 생성물 사이의 비교에서와 같이, 수개의 소스로부터 mRNA 집단을 동시에 프로파일링할 수 있다.

태그 유형

상이한 유형의 태그: I형(단일 마커), II-ps형(2개의 회문, 대칭 마커), II-pa형(2개의 회문, 비대칭 마커), 및 II-t형(회문이 아닌, 탠덤형의 2개의 마커)가 고려된다.

I형 태그는 전형적으로 마커의 5' 측면에 한 제한 효소에 대한 하나 이상의 카피수의 희귀 콘센서스 결합 및 절단 부위 및 마커의 3' 측면에 제2 효소에 대한 하나 이상의 카피수의 제2 희귀 콘센서스 결합 및 절단 부위와 함께 마커를 가진다. 테일은 (메신저 RNA 또는 폴리아데닐화된 비코딩 RNA의 폴리 A 신장으로부터의) cDNA 합성을 프라이밍하기 위한 3' 폴리 dT, 또는 환형 결찰을 촉진시킬 수 있는 5' 서열을 포함할 수 있다.

I형 태깅 시약의 예는 상기 부류의 속성을 예시하는 DNA 서열로서 및 개략적으로 도 1e에 제시되어 있다. 시약은, 예외 가능성이 없는 것은 아니지만, 일반적으로는 2차 구조가 없는 단일 가닥 DNA 폴리뉴클레오티드이다. 본 실시양태에서, 상기 시약은 성숙한 mRNA의 폴리 A 테일과 어닐링할 수 있고, RNA 의존성 역전사효소에 의해 cDNA 합성을 프라이밍할 수 있는, 제한하는 것은 아니지만, 22개의 염기로 이루어진 올리고 dT 트랙을 포함하는 3' 테일을 가진다. 각 태깅 분자의 SMID는 제한하는 것은 아니지만, 체크 염기에 의해 이격되어 있는 6개의 트리플렛에 분포되어 있는 18개의 무작위 염기를 포함하는 총 23개의 염기를 나타낸다. 도 1e의 예에서, 마커 블록은 제한 효소에 대한 이중 희귀 콘센서스 서열, 마커의 3'측 측면에 위치하는 한쌍의 한 유형, 및 마커의 5'측 측면에 위치하는 한쌍의 제2 유형을 포함한다. 따라서, SMID 래퍼는 SMID의 경계부와 각 5' 및 3' 제한 절단 부위 사이에 구간을 포함한다.

II형 태그란 최소한 마커 블록 순서대로 3개의 연속 도메인, 개재 루프, 마커 블록을 포함하는 단일 가닥 폴리뉴클레오티드를 지칭하고; 임의적인 테일 도메인은 양측 단부 상에 포함될 수 있으며, 이로써, II형 태그의 도메인 구조는 일반적으로

5'-[테일]-[마커 블록]-[개재 루프]-[마커 블록]-[테일]-3'이고,

여기서, 테일은 도메인이 임의적인 것임을 나타낸다. 1 또는 2개의 테일을 가지는 태그는 예컨대, 1 및 2개의 테일을 가지는 형태의 예로서 각각 II-pa₁형 또는 II-ps₂형과 같이, 아래첨자에 의해 표시된다.

1개의 테일을 가지는 II형 태그는 폴리 A mRNA로부터의 cDNA 합성을 효율적으로 프라이밍시키고, 승온에서 열안정성 버전의 RNA/DNA 단일 가닥 리가제로 환형화된다. 2차 구조를 제거하기 위해 승온 없이도 일반 RNA/DNA 단일 가닥 리가제를 환형화하는 데에는 2개의 테일을 가지는 태그가 더욱 적합하다; 이는 미숙한 5' 인산화된 형태 또는 5' OH 형태로부터 성숙한(캡핑된) 폴리 A mRNA를 식별하는 데 사용된다. 본원에 기술된 실시양태에서, 3' 연결 요소는 cDNA 합성의 단일 가닥 올리고 dT 프라이머인 반면, 5' 단일 가닥 테일은 올리고 dT일 수 있거나, 또는 그의 적용에 따라 대체 서열일 수 있다.

하나를 제외하면, II형 태그는 합성에서 효소 반응, 또는 후속된 태그 반응의 사용을 위해 사용되는 안정한 이중체를 형성할 수 있는 임의의 자가 상보적인 영역을 포함하지 않는다. 유일한 예외는 마커 서열 및 추가의 기능 서열을 포함하는 마커 블록 도메인이다.

II-p형 태그에서, 제2 마커 블록은 상당한 정도의 도메인에 걸친 제1 마커 블록의 염기 보체이며, 이로써, 태그 폴리뉴클레오티드는 마커 블록 도메인의 상보적인 염기 사이의 염기 쌍 형성에 의해 제조되는 이중체로 폴딩될 것이다. 이러한 마커 블록 이중체형 입체구조에서, 나머지 다른 도메인은 대개는 2차 구조 없이 그대로 유지될 수 있다.

II-ps형 태그에서, 2개의 마커 블록 도메인은 그의 전장에 걸쳐 상보적이다. II-ps형 태깅 시약의 일례가 도 1d에 개략적으로 제시되어 있다. 본 일례에서, 올리고 dT의 신장된 3' 단일 가닥 트랙은 mRNA의 폴리 A 테일과 어닐링하여 cDNA 합성을 프라이밍할 수 있는 3' 테일을 형성한다. II-ps는 정확하게 상보적인 2개의 마커 블록 서열을 가지며, 이로써 용액 중에서 연속 이중체를 형성한다; 이중 가닥 cDNA로 카피되었을 때, 2개의 마커 블록은, 각각이 두 가닥에서 같은 5' → 3' 배향으로 정렬되어 있는 2개의 동일한 카피의 SMID를 생성하게 된다.

II-pa형 태그에서, 하나의 마커 블록 또는 그 둘 모두는 나머지 다른 마커 블록에 상보적이지 않은 내부 서열 분절을 포함할 수 있다. II-pa형 태그의 2개의 마커 블록 도메인이 혼성화하게 되면, 한 길이의 단일 가닥은 이중체의 한 아암 또는 그 둘 모두로부터 돌출될 것이며, 이로써, 이중체의 재연결 이전에 쌍을 이루지 않는 루프가 형성될 것이다. 마커 블록 내의 미스매치 영역의 목적은 후속되는 서열 분석 동안 2개의 마커가 식별될 수 있게 하는 것이다. 이를 통해 개별 리드 중의 마커 서열은 원래의 소스 분자 가닥의 센스를 확인할 수 있다. 이는 2개의 동일한 카피의 마커가 반대 센스로 소스 가닥에 첨부되어 있는 II-ps형 태그의 경우에는 불가능하다.

II-pa형 태깅 시약의 일례는 개략적으로 및 DNA 서열로서 도 1e에 제시되어 있다. 올리고 dT의 신장된 3' 단일 가닥 트랙은 mRNA의 폴리 A 테일과 어닐링하여 cDNA 합성을 프라이밍할 수 있는 3' 테일을 형성한다. 이는 실질적으로 상보적인 2개의 마커 블록 서열을 가지며, 이로써 용액 중에서 이중체를 형성한다; 이중 가닥 cDNA로 카피되었을 때, 2개의 마커 블록은, 각각이 두 가닥에서 같은 5' → 3' 배향으로 정렬되어 있는 2개의 동일한 카피의 SMID를 생성하게 된다. 마커 블록은 마커의 3' 측면에 희귀 제한 효소에 대한 콘센서스 서열을 포함한다. 따라서, 이중 가닥 cDNA로 카피되었을 때, 상기 제한 효소의 작용은 각 가닥에서 3'을 절단하여 각 카피의 마커 서열로 절단하고, cDNA 구성물로부터 '개재 루프'를 결실시키는 역할을 한다. 마커 블록은 마커의 5' 측에 라이브러리 제조 동안 SMID가 PCR 증폭될 수 있도록 하는 프라이밍을 위한 부위를 포함한다. 도 1e의 "Seq"를 참조할 수 있다. 태그는 또한 마커 블록 중 쌍을 이루지 않은 2개의 DNA 분절을 포함하는데, 이는 개재 루프에서 종료되는 마커 블록의 단부의 제한 효소 콘센서스 부위와 SMID 사이에 포함된다. 도 1e의 "마커 식별인자"를 참조할 수 있다. 이중 가닥 cDNA로 카피되고, 단계를 거쳐 프로세싱됨으로써 서열분석을 위한 최종 라이브러리에 이르게 되었을 , 이러한 상이한 서열들은 각각의 특정 SMID와 관련된, 원래의 소스 분자의 가닥이 식별될 수 있게 할 것이다.

II-t형 태그에서, 제2 마커 블록은 같은 센스의 탠덤형인, 제1 마커 블록의 정확한 복제물이다(여기서, 두 카피는 개재 루프 서열에 의해 이격되어 있다). 그러므로, 마커의 두 카피 모두 소스 가닥에 같은 센스로 첨부되어 있으며, 이로써, 소스 분자의 센스는 서열분석기에서 출력된 마커 서열로부터 추론될 수 있다.

II-t형 태깅 시약은 전형적으로는 이중체 구조는 없으며, 개재 루프에 의해 이격되어 있는 2개의 동일한 마커를 가지는 단일 가닥 DNA 폴리뉴클레오티드이다. 상기 시약은 상기 마커를 제외한 II-pa형 태깅 시약이 항상 DNA 합성에서 카피된 가닥의 센스를 나타내는 것과 같은 이점을 제공한다. II-t형을 통해 전산 조작을 필요로 하지 않으면서, 서열분석된 가닥을 실험을 통해 결정할 수 있다. 더욱 중요하게는, II-t형을 통해 임의의 개별 cDNA를 즉시 직접적으로 클로닝할 수 있다.

1 또는 2개의 테일을 가지는 태깅 시약을 합성하는 방법:

I형 태깅 시약은 한번에 뉴클레오티드 1개씩 이루어지는 순차적인 고체상 합성에 의해, 또는 별개로 제조된 분절을 커플링함으로써 수득될 수 있다. 무작위 염기 부위는 뉴클레오티드의 혼합물을 커플링함으로써 생성될 수 있다.

II-p(ps 및 pa)형 태깅 시약은, 전구체로 디자인된 2차 구조를 이용하는 생합성 효소인 phi 29 DNA 폴리머라제의 성질, 및 최종 시약을 정교하게 만드는 반응 중간체를 이용하면서, 시판용 폴리뉴클레오티드 전구체로부터 합성될 수 있다.

단일 테일을 가지는 II-ps형 태그(II-ps₁형)를 합성하기 위해, 5'→3' 순서로 하기 4개의 도메인을 가지는 전구체 분자가 상업적으로 합성될 수 있다:

(1) 최종 분자에서 필요한 3' 단일 가닥 테일에 대한 보체(예를 들어, 제한하는 것은 아니지만, 5'-WA₂₂(여기서, W는 V에 대한 보체 염기이다)).

(2) 마커 블록(5'-A-[B-SMID-C]-D 3')(여기서, "[B-SMID-C]"는 마커 그 자체이고(상기 요소는 복제되고, 최종 서열분석 라이브러리에서 유지되는 것이다), A 및 D는 마커 블록의 인접한 5' 및 3' 성분이다).

(3) 개재 루프; 상기 루프는 전구체 내에 상보성 부위를 포함하지 않는 반면, 이는 반응 시리즈에서 제2 가닥 중간체의 합성을 프라이밍시키는 데 사용될 수 있는 폴리뉴클레오티드("루프 프라이머," LP(loop primer))에 상보적인 서열을 함유할 수 있다.

(4) SMID에 대한 3'인 마커 블록의 일부(예컨대, C-D의 일부 또는 그 모두)에 대한 보체: 이는 자가 프라이밍을 위한 분자내 "클램프"로서 지칭될 수 있다.

전구체는 용액 중 폴딩하여 도메인 (4)와 도메인 (2)의 그의 보체 사이의 이중체 - 즉, 마커 블록 중 서브도메인 C-D의 역보체인 5'-D'-C를 형성하게 될 것이며: 또한, 이 요소는 '클램프를 포함한다. 도 2a의 "올리고 J 전구체"를 참조할 수 있다.

이는 스템 루프 입체구조를 형성하며, 여기서, 스템은 이중체를 포함하고, 루프는 개재 루프 도메인 (3)이다. 상기 논의된 바와 같이 도메인 (2)의 쌍을 이루지 않는 분절 및 테일 도메인 (1)을 포함하는 단일 가닥 DNA는 루프 반대측 상에서 스템의 5' 단부로부터 신장한다.

폴딩된 구조 중 일부 버전이 문자 "J"와 유사하기 때문에(여기서, 단일 가닥 루프는 상기 문자의 기저부에 상응한다), 상기 전구체 폴리뉴클레오티드는 "올리고 J"로 지칭된다. 도 2a를 참조할 수 있다.

올리고 J의 개재 루프 도메인(3)에 결합하는 "루프 프라이머"(LP) 폴리뉴클레오티드가 합성된다. LP 결합 서열은 마커 블록 도메인으로부터 양측 상의 수개의 염기에 의해 오프셋될 수 있고, 이로써 단일 가닥 루프에의 비방해 프라이머 결합, 및 폴리머라제 반응의 효율적인 프라이밍이 이루어질 수 있다. 예외가 없는 것은 아니지만, 일반적으로는 LP는 (최종 TRS 제조에서 미량의 오염원으로서 유지될 경우), cDNA 합성 및 후속되는 환형화 반응에 참여하지 못하도록 하기 위해 5' 말단 상에서 인산화되지 않을 것이다.

"RNA 보호제/프라이머"(RPP: RNA protector/primer)로 지칭되는, 올리고 J의 5' 테일 도메인과 동일한 RNA 폴리뉴클레오티드가 합성된다. 일부 실시양태에서, 짧은 DNA 폴리뉴클레오티드가 RPP 대신으로 치환되고, DNA 합성을 막기 위해 차단되고, 제2 가닥 합성을 위해 별개의 프라이머와 함께 부가될 수 있다.

전형적으로, 합성 제1 단계에서, 이중체의 3' 단부는 폴리머라제로 신장되어 SMID 및 인접한 마커 블록 및 테일 도메인을 카피하는, 올리고 J 상의 자가 프라이머로서의 역할을 한다. 도 2a를 참조할 수 있다. 이를 통해 둔단 스템 루프 구조가 생성되는데, 여기서, 이때 스템은 한쪽 가닥에는 테일 + 전체 마커 블록, 및 나머지 다른 한쪽 가닥에는 그의 정확한 보체를 포함하는 분절을 포함한다. 오직 개재 루프 도메인만이 단일 가닥이다. 이러한 구조는 "헤어핀"(HP: hairpin)으로 지칭된다.

전형적으로, 합성 제2에서, RPP에 대한 유리 결합 부위는 하기와 같이, HP의 3' 단부 상에서 생성된다: "루프 프라이머"(LP)는 HP의 단일 가닥 루프 중 그의 상보적인 서열에 결합하게 된다. 도 2a를 참조할 수 있다. 상기 프라이머는 phi 29 폴리머라제로 신장되고, 이로써 그의 5' 단부로까지 주형이 카피되고, 본 프로세스에서는 스템으로부터 가닥의 3' 단부의 치환이 이루어진다.

생성물 가닥은 HP 주형의 5' 절반부와 함께 이중체 상태로 유지되지만, 완전한 마커 블록 및 테일 도메인을 포함하는, 치환된 주형 3' 절반부는 이때 단일 가닥이다. 이러한 2 가닥 구조는 "3Q"로 지칭된다. 단독의 짧은 생성물 가닥은 "1Q"로 지칭된다.

3Q 이중체의 구조:

.

전형적으로, 합성 제3 단계에서, 3Q의 유리 3' 단부에의 RPP의 결합 및 phi 29 폴리머라제에 의한 신장에 의해 완전한 HP 카피가 생성되는데, 이는 RNA 폴리뉴클레오티드로 쉽게 프라이밍된다. 상기 합성은 주형 가닥을 카피하고, 복합체로부터 1Q 가닥을 치환한다. 도 2a를 참조할 수 있다.

제2 및 제3 단계는 전형적으로 동시에 수행된다. 주형의 3' 단부가 루프 프라이밍된 반응에서 치환될 때, 상기 단부는 폴리머라제의 3' 엑소뉴클레아제 활성에 의해 분해될 수 있다. 이러한 이유에서, 프라이머 LP 및 RPP, 둘 모두는 동시에 부가되고, 이로써, RPP는 주형 3' 단부가 노출됨에 따라 그가 혼성화할 수 있고, 이로써 그가 분해되지 못하도록 보호할 수 있다.

합성 제4 단계에서, 이어서, 생성물의 RNA 프라이머 부분은 RN아제 H로 제거된다. 이중 가닥 생성물은 HP 주형 가닥과 함께 이중체로 형성된 원하는 TRS를 포함한다.

프라이머 및 단백질, 예컨대, 여기서, 절두된 카피의 TRS의 오염 분획을 나타내는 "헬퍼" 가닥 1Q를 제거하고, TRS 및 HP 가닥을 분리하는 데 다양한 수단이 사용될 수 있다. 단일 가닥 프라이머는 일반적으로 Phi 29의 3'→5' 엑소뉴클레아제 활성에 의해 분해된다. HP-TRS 복합체는 아가로스 겔 전기영동에 의해 1Q로부터 분리될 수 있고, 동시에 반응 2 및 3의 잔류 폴리뉴클레오티드 프라이머 및 임의의 단백질도 제거될 수 있다. 정제된 HP-TRS는 종래 방법(전기용리; 카오트로픽 염 중 멜팅 아가, 추출 및 막 정제 등)에 의해 겔 실리카로부터 회수된다. 겔로부터의 추출 동안, 또는 그 이후에 HP-TRS 이중체가 일시적으로 변성된다면, 이어서 가닥은 재어닐링되지 못할 것이다. 압도적으로 우세한 동력학적 경로는 각 분자가 분자내 상보성에 기인하여 그 자체적으로 붕괴되는 것이다. 생성된 동몰량의 HP 및 TRS 용액은 mRNA 태깅에 직접 사용될 수 있다. HP는 mRNA와의 어닐링 및 cDNA 합성 프라이밍과 관련하여, 및 후속되는 방법 단계(예컨대, 단일 가닥 DNA의 환형화)와 관련하여 불활성을 띤다.

제2 실시양태에서, 올리고 J 전구체는 그가 폴리뉴클레오티드 상에서 효소 활성을 방해하지 않도록 하는 방식으로 그가 고체 지지체에 부착될 수 있도록 하는 작용기로 유도체화된다. 본 실시양태의 일례에서, 올리고 J 전구체는 비오틴에 부착된 화학적 신장부로 변형될 수 있다. TRS-HP 이중체 합성 후, 오염성 1Q 또는 잔류 폴리뉴클레오티드 프라이머 및 효소를 제외한, TRS-HP 이중체는 스트렙트아비딘이 부착되어 있는 아가로스 또는 유리 비드 또는 다른 고체 기판에 결합할 것이다. 1Q, 폴리뉴클레오티드 프라이머 및 임의의 단백질은 세척에 의해 제거된다. 이어서, 비드를 처리하여 TRS-HP 이중체를 일시적으로 변성시킴으로써 기판에 부착된 HP를 재생시킨다. TRS는 용액으로 유리되고, 세척으로 용리되고, 태깅 반응에서 사용될 준비가 된 적합한 형태가 된다.

2개의 테일을 가지는 II-ps형 태그(II-ps₂형) 합성은 도 2b에 도시되어 있다. 1Q 합성은, 최종 생성물의 물리적 분리를 위해 HP-전구체를 비오티닐화된 신장부(또는 고체 매트릭스와의 상호작용에 적합한 다른 신장부)로 유도체화시키는 이전 실시양태에서와 같이 루프 프라이머로 개시된다. 이러한 경우, 제2 반응과 동시에 수행되는 제3 반응에서는 RPP 대신, SMID가 제외된(즉, 도메인 "A-B") 올리고 J 중의 마커 블록 부분에 대하여 그의 3' 단부 서열과 등가인 DNA 폴리뉴클레오티드(TRS 프라이머)가 합성될 수 있다. 상기 프라이머의 5' 테일은 HP의 3' 테일 서열의 보체가 아니다: (이러한 비상보적인 부분은 원하는 바에 따라 달라질 수 있고, 폴리 dT의 5' 스트레치일 수 있다). 상기 프라이머는 프라이머의 5' 테일, 및 HP의 3' 테일, 둘 모두가 단일 가닥으로 유지될 수 있도록 하는 방식으로 새로 노출된 3' 영역에서 HP에 결합한다. 상기 프라이머의 그의 이중체 3' 단부로부터의 신장으로 비상보적인 5' 및 3' 테일을 포함하는 TRS가 생성되고, 1Q가 치환된다. 일시적인 변성으로 유리되면 상기 가닥은 그 스스로 폴딩하여 5' 및 3' 단부 둘 모두에 단일 가닥을 가지는 스템 루프 구조를 형성하게 될 것이다. TRS의 3' 단부 및 HP의 유리 5' 단부가 어닐링하지 못하도록 막는 온화한 변성 조건하에서 HP 및 TRS를 분리한다.

단일 테일을 가지는 II-pa 형 태그(IIpa₁형) 합성은 II-ps₁형 태그와 같은 방식으로 제조되되, 단, 예외적으로, 제1 마커 블록의 SMID 래퍼(상기 도면에서 도메인 C)의 3' 분절은 제2 마커 블록 중 그의 대응물(C)에 완전하게 상보적인 것은 아니며, 올리고 J 전구체의 클램프를 형성한다. 유일의 제약은 두 래퍼 분절이 인접한 SMID에 상보적이어야 하고, 상기 영역의 상보성 정도는 HP 합성의 자가 프라이밍을 허용할 수 있을 정도로 충분히 안정한 이중체를 형성할 수 있게 충분하여야 한다는 점이다.

2개의 테일을 가지는 II-pa형 태그(II pa₂형)의 합성은 상기 실시양태에 기술된 적절한 올리고 J 전구체를 시작으로 하여, 정확하게 2개의 테일을 가지는 II-ps₂형 형태에 대한 것과 같이 제조된다.

II-pa형 및 IIps형 태깅 시약의 고체상 합성은 화학적 연결부를 통해 고체 기판, 예컨대, 유리에 대하여 공유적으로 부착된다.

단일 테일을 가지는 형태의 합성에서, 올리고 J 전구체 폴리뉴클레오티드는 그가 폴리뉴클레오티드 상에서 효소 활성을 방해하지 않도록 하는 방식으로 그가 고체 지지체, 예컨대, 유리에 공유적으로 부착될 수 있도록 하는 작용기를 포함한다. 이러한 방식으로, 반응 중간체는 세척될 수 있고, 새 반응물은 최소의 조작 또는 손실로 도입될 수 있다. 최종 생성물(TRS)는 간단하게 가열시켜 HP-TRS 이중체를 용융시킴으로써 회수된다. 냉각시, TRS 및 HP 가닥은 그 스스로 폴딩하여 헤어핀을 형성한다. TRS는 용액 중에서 회수되고, HP는 지지체에 결합된 상태 그대로 남아있다.

2개의 테일을 가지는 형태의 합성 중 제1 사이클에서 1Q의 합성은 이전 실시양태에서와 같이 루프 프라이머로 개시된다. 그러나, 제2 반응과 동시에 수행되는 제3 반응에서는 RPP 대신, SMID가 제외된(즉, 도메인 "A-B") 올리고 J 중의 마커 블록 부분에 대하여 그의 3' 단부 서열과 등가인 DNA 폴리뉴클레오티드(TRS 프라이머)가 합성될 수 있다. 상기 프라이머의 5' 테일은 HP의 3' 테일 서열의 보체가 아니다: (이러한 비상보적인 부분은 원하는 바에 따라 달라질 수 있고, 폴리 dT의 5' 스트레치일 수 있다). 상기 프라이머는 오직 그의 새로 노출된 3' 단부에서만 HP에 결합하며, 이로써, 프라이머의 5' 테일, 및 HP의 3' 테일, 둘 모두 단일 가닥으로 유지된다. 상기 프라이머의 그의 이중체 3' 단부로부터의 신장으로 비상보적인 5' 및 3' 테일을 포함하는 TRS가 생성되고, 1Q가 치환된다. 일시적인 변성으로 유리되면 상기 가닥은 그 스스로 폴딩하여 5' 및 3' 단부 둘 모두에 단일 가닥을 가지는 스템 루프 구조를 형성하게 될 것이다.

2개의 테일을 가지는 태깅 시약의 고체상 합성을 수행할 때, phi 29 폴리머라제의 3' 엑소뉴클레아제 활성에의 노출이 광범위할 경우, HP의 유리 3' 단부는 TRS DNA 프라이머와의 이중체 지점까지 분해될 것이며, 이후 phi 29 폴리머라제는 TRS 프라이머의 5' 단부를 카피하여 변형된, 공유적으로 부착된 HP를 형성한다. 변성 조건하에서 HP-TRS 복합체로부터 TRS가 제거된 후, 변형된 HP는 비상보적인 5' 및 3' 테일을 가지는 포크형 단부 구조를 취할 것이다. 그 결과로 반복된 사이클에 의한 추가의 TRS 합성은 사전의 1Q 합성을 필요로 하지 않으면서, 오직 HP의 유리 3' 단부에 대한 프라이머로 개시될 수 있다. 반응은 프라이밍되고, 고체상을 세척하여 시약을 제거하고, 변성 조건하에서 다음 TRS 사이클을 회복한다. 일반적으로, TRS는 후속되는 유리 3' 단부에서 변형된 HP와 재어닐링할 수 있기 때문에, 고체상의 존재하에서는 2차 구조를 회복하지 못한다.

따라서, 고체상 상에서 포크 테일을 가지는, 변형된 HP를 제조하는 것은 HP 소모(및 추가의 올리고 J 전구체 소모 비용) 없이, 다중 사이클로 TRS를 형성하는 데 사용될 수 있다. 상기와 같은 고체상 주형은 태깅 시약 합성용 키트에 대한 기반을 제공할 수 있다; 연구원의 재량에 따라, 도 2b에 개요되어 있는 반복 단계를 통해 고체상 시약은 변형될 수 있고, 이로써 상이한 5' 테일을 가지는 TRS가 생성될 수 있다.

II-t형 시약 합성은 도 2c에 도시되어 있다. 5'→3' 순서로 하기 11개의 도메인을 가지는 전구체 분자가 상업적으로 합성될 수 있다: (괄호 안에 기재된 번호는 도 2c의 것에 상응한다).

(1) 최종 분자에서 필요한 3' 테일에 대한 보체(예를 들어, 제한하는 것은 아니지만, 5'-WA₂₂) 함유.

(2) (임의적으로) PCR 프라이머 상보성 서열 함유.

(3) DNA 합성 차단 폴리뉴클레오티드에 상보적인 서열 함유.

(4) 자가 프라이밍 클램프 서열에 상보적인 서열(SP-2 보체) 함유.

(5) SMID 상보성 서열 함유.

(6) 자가 프라이밍 클램프 서열에 상보적인 서열(SP-1 보체) 함유.

(7) 폴리뉴클레오티드에 상보적인 서열("LP-1") 함유. LP-1 결합 부위는 도메인 (5)의 3' 단부로부터의 수개의 염기에 의해 오프셋되고, 이로써 루프 프라이머 LP-1의 적절한 결합 및 phi 29 DNA 폴리머라제에 의한 결합된 프라이머의 효율적인 신장이 이루어질 수 있다. 도메인 (6)은 또한 라이브러리 제조에서 사용되는 제한 엔도뉴클레아제에 대한 희귀 인식 서열(RE-L(도면에서 스트로크로 표시))을 포함한다.

(8) 클램프 서열 SP-2 보체(도메인 3의 반복부) 함유.

(9) 폴리뉴클레오티드에 상보적인 서열("LP-2") 함유. LP-2 결합 부위는 도메인 (7)의 3' 단부로부터의 수개의 염기에 의해 오프셋되고, 이로써 루프 프라이머 LP-2의 적절한 결합 및 phi 29 DNA 폴리머라제에 의한 결합된 프라이머의 효율적인 신장이 이루어질 수 있다. 도메인 (6)은 또한 태그 합성에서 사용되는 제한 엔도뉴클레아제에 대한 인식 서열(RE-T(도면에서 더블 스트로크로 표시))을 포함한다. LP-2 서열은 그의 3' 단부 상에서 도메인 (8)을 지나, 원하는 경우에는 그 다음 도메인으로까지 신장될 수 있다. 서열 RE-T는 LP-2의 3' 단부까지 신장되어야 하지만, 제한 엔도뉴클레아제가 그 말단에 LP-2를 가지는 이중 가닥 기질의 두 가닥 둘 모두를 절단할 수 있을 정도의 충분한 개수의 염기에 의해 상기 위치로부터 오프셋되어야 한다.

(10) PCR 프라이머 상보성 서열(존재하는 경우, 도메인 2의 반복부) 함유.

(11) 도메인 (5)에 상보적인 자가 프라이밍 클램프 서열 1(SP-1) 함유.

전구체 폴리뉴클레오티드의 도메인 (6) 및 (8) 중의 그의 각각의 결합 부위에 상보적인 서열을 포함하는, 두 "루프 프라이머" 폴리뉴클레오티드, LP-1 및 LP-2가 합성된다.

도메인 (3)에 상보적인 차단 DNA 단일 가닥 폴리뉴클레오티드가 합성된다. 전구체 폴리뉴클레오티드는 스템 루프 입체구조를 형성하는데, 여기서, 스템은 도메인 (5) 및 (10)(SP-1 및 그의 보체) 사이의 이중체를 포함한다. 루프는 도메인 (6) 내지 (9)를 포함한다. 도메인 (1)-(4)를 포함하는 단일 가닥 DNA는 루프 반대측에서 스템의 5' 단부로부터 신장된다. 도 2c (A), (B)를 참조할 수 있다.

전구체는 차단 DNA 폴리뉴클레오티드에 어닐링되고, 이후, 스템 루프 입체구조 중 전구체 폴리뉴클레오티드의 3' 단부는 DNA 폴리머라제(클레나우(Klenow))로 신장되고, SP-1로부터 프라이밍되고, 5' 단일 가닥을 카피하여 부분 헤어핀(HP-1, 도 2c (C))을 형성한다. 헤어핀 스템의 아암은 주형 상의 도메인 (4)에 상보적인, 새로 합성된 클램프 서열 SP-2를 포함하지만, 차단 폴리뉴클레오티드를 지나도록 신장되지는 않는다.

루프 프라이머 LP-1이 도입되고, 헤어핀의 루프에의 혼성화가 이루어진다. phi 29 폴리머라제에 의한 신장으로 헤어핀의 5' 아암이 카피되고, 단일 가닥 분절로서 3' 아암이 치환되고(도 2c (E)), 차단 폴리뉴클레오티드는 용액 내로 옮겨진다. 새로 합성된 생성물 가닥은 HP-1 주형의 5' 절반부와 함께 이중체 상태로 유지되지만, 치환된 주형 3' 부분은 이때 단일 가닥이다. 이러한 2 가닥 구조는 "3Q"로 지칭된다. 단독의 짧은 생성물 가닥은 "1Q"로 지칭된다(도 2c (H) 참조).

HP-1 합성 동안 생성된 새 SP-2 서열은 이때 쌍을 이루어진 않은 형태이며, 루프 중 그의 보체 - 도메인 (7)과 혼성화한다(도 2c (F)). 3' 단부 상의 혼성화되지 않은 남은 뉴클레오티드는 연속하여 phi 29 폴리머라제의 3'→ 5' 엑소뉴클레아제 활성에 의해 제거되고, 다시 SP-2 이중체로 복귀하게 된다(도 2c (D)). 이때 프라이머로서의 역할을 하는 혼성화된 SP-2의 경우, phi 29 폴리머라제는 3' 단부를 신장시키고, 1Q를 용액으로 옮겨 놓는다(도 2c (H)). 이로써, 그의 단일 가닥 루프가 원래의 전구체 폴리뉴클레오티드로부터 도메인 (8)-(11)을 포함하는 것인, 보다 긴 장쇄의 헤어핀(HP-2)가 생성된다(도 2c (H)).

제2 루프 프라이머 LP-2는 도입되고, 루프 중 그의 상보적인 서열(도메인 (8))과 혼성화가 이루어진다. 상기 프라이머의 신장으로 HP-2의 5' 아암이 카피되고, 단일 가닥으로서 3' 아암이 치환된다(도 2c (F)). 제한 엔도뉴클레아제에 의한 분해에 의해 RE-1에서의 상기 생성물의 절단이 이루어지고, 이로써 단일 가닥 조각으로부터 이중 가닥 부분이 분리되는데, 이것이 원하는 TRS - II-t형 시약이다.

전구체 폴리뉴클레오티드가 비오티닐화된 경우, 스트렙트아비딘 비드와 함꼐 인큐베이션시키고, 상청액 중에서 TRS를 단독으로 회수함으로써 TRS를 이중 가닥 절단 생성물로부터 단리시킬 수 있다.

고도의 병렬 서열분석 플랫폼을 위한 시약

일루미나 High Seq 장치의 메이트 쌍 및 쌍을 이룬 단부 서열분석 모드에서, 각 라이브러리에 도입되는 DNA 단편의 단부를 연마하고, A 테일링하고, 수개의 기능 요소: PCR 부위, 포획 서열, 클러스터 합성을 위한 서열, 콘센서스 절단 부위 및 서열분석 프라이머를 포함하는 포크형 어댑터에 결찰시킨다.

도시된 바와 같이, 어댑터 결찰 후, PCR 증폭을 통해 말단의 독특한 쌍을 이중 가닥 DNA(예컨대, A 및 B 상보적인 폴리뉴클레오티드 쌍)의 반대쪽 단부에 부착시킨다. 비록 증폭된 라이브러리를 형성하는 각각의 어댑터 변형된 DNA 단편의 반대쪽 단부가 A 말단 및 B 말단을 포함하기는 하지만, 가닥이 각 가닥의 5' 또는 3' 단부 상에 B 폴리뉴클레오티드 중 하나, 또는 각 가닥의 5' 또는 3' 단부 상에 A 폴리뉴클레오티드 중 하나를 가질 가능성도 동등하게 존재한다.

A 및 B에 대한 PCR 프라이머(각각 PCR 1.0 및 PCR 2.0)는 그 안에 포획된 DNA 단편을 증폭시킨다. 한쪽 단부에는 오직 마커만을, 및 나머지 다른 한쪽 단부에는 오직 cDNA 내부 서열만을 가지는 라이브러리 단편을 선택적으로 생성하기 위해, 변형된 어댑터, 변형된 PCR 프라이머, 또는 그 둘 모두를 사용할 수 있다.

한 실시양태에서, 변형된 어댑터는 표준 포크형 프라이머의 B 포크에 상응하는 단일 가닥을 포함할 것이다. 제1 라운드의 PCR에서 카피되었을 때, 이는 PCR 1.0과 상호작용할 수 있는 단지 소규모의 분절만을 제공하고; 사용된 어닐링 온도에서 A 말단으로부터의 DNA 합성의 프라이밍은 감소되거나, 또는 억제된다.

제2 실시양태에서, 변형된 어댑터는 표준 포크형 프라이머의 B 포크에 상응하는 단일 가닥 및 절두된 A 포크의 소규모의 상보적인 부분을 포함할 것이다. 이는 어닐링 온도에서 PCR 1.0과 상호작용할 수 있는 단지 소규모의 분절만을 제공하고; 사용된 어닐링 온도에서 A 말단으로부터의 DNA 합성의 프라이밍은 감소되거나, 또는 억제된다.

한 실시양태에서, (제한하는 것은 아니지만) 3' 단부에 5 염기 오버행을 가지는, 변형된 버전의 A 포크 특이 PCR 1.0이 합성된다. 염기를 연결하는 포스포릴 결합은 포스포티오에이트, 메틸포스포네이트, 또는 포스포아미데이트 결합과 같이 변형되며; 이는 오버행 제거로부터 폴리머라제 중의 엑소뉴클레아제 활성의 능력을 감소시킨다. 그 결과, 변형되지 않은 포크형 프라이머로부터의 것인지, 절두된 A 가닥을 포함하는 변형된 어댑터로부터의 것인지, 또는 단지 B 가닥만을 포함하는 변형된 프라이머로부터의 것인지와는 상관 없이, A 말단으로부터의 DNA 합성은 크게 감소된다. 변형된 어댑터를 변형된 PCR 1.0과 조합하면 A 말단으로부터의 DNA 합성은 크게 감소된다.

특정 실시양태와 관련하여, 변형된 PCR 1.0 프라이머에 대한 어닐링 부위를 포함하도록 태깅 시약을 디자인하였다. 이러한 여러 단계를 거친 결과, 변형된 A 프라임(PCR 1.0, 변형된 것)을 이용하는 PCR 증폭은 오직 마커 서열로부터 SMID를 거쳐 회합된 무작위 파괴 부위로까지 진행될 수 있다. B 말단으로부터의 증폭에는 변경 사항이 없다. 이러한 제한 결과는 모든 I 단계 서열은 마커 서열로 시작되고, cDNA에서 무작위 내부 파괴 부위로까지 진행된다는 것이다. 모든 메이트 쌍 II 단계 서열은 cDNA 내로부터 제2 무작위 파괴 부위에서 시작된다. 이러한 조건하에서, 거의 모든 서열분석 리드 쌍은 마커를 포함하고, 이로써, 소스 cDNA 분자의 서열을 구성하는 데 사용될 수 있다.

방법

특정 실시양태에서, 본 개시내용은 그의 구별가능성을 최대화시키기 위해 불균일 현탁액 중 폴리뉴클레오티드를 태깅하는 것에 관한 것이다. 폴리뉴클레오티드의 불균일 용액 중, 개별 분자는 단지 그의 서열이 상이할 경우에만 구별될 수 있다. 대량 병렬 단쇄 서열 리드로부터 정량적 집단 프롸일을 재구성하기 위해, 먼저 각 분자를 모든 다른 서열로부터 궁극적으로 구별될 수 있도록 그의 완전한 서열에 기초하여 변형시킨다.

특정 실시양태에서, 본 방법은 증폭시킨 후, 이어서, 원래의 태그가 제조된 내부 단편과 함께 복제될 수 있도록 하는 방식으로 각각의 카피를 단편화시키기 위한 방식으로 태깅된 올리고뉴클레오티드를 프로세싱할 수 있다. 이로써 서열을 재구성하는 데 필요한 연상 정보, 및 원래의 불균일 용액 중의 모든 올리고뉴클레오티드의 상대적인 개수를 전산상으로 회수할 수 있다.

특정 실시양태에서, 본원에 개시된 방법은 세포 또는 조직 중의 실질적으로 모든 메신저 RNA의 서열, 또는 통계학상 그를 나타내는 양을 그의 상대적인 발현 수준의 추정치와 함께 복귀시킬 수 있다. 이러한 메세지는 "트랜스크립톰"의 서브세트를 포함한다. 메신저 프로파일인 T_m은 하기의 메신저 RNA의 가중화된 분포 방정식에 관한 것이다:

.

(여기서, S_i는 특이적인 메신저 서열을 나타내고; q _gi 는 유전자 g의 i번째 메세지의 상대적인 존재비를 나타내고; p _g 는 N개의 발현된 유전자 각각에 대한 전사체의 상대적인 수준을 나타낸다). 이러한 정보는 트랜스크립톰의 통계학상 구조를 분석하기 위한 기초를 제공함으로써 게놈과 바현된 세포 분자 표현형 사이의 정보 획득을 지배하는 복잡한 메커니즘을 밝혀낼 수 있다.

특정 실시양태에서, 본 개시내용은 샘플 중의 실질적으로 모든 mRNA, 또는 통계학상 그를 나타내는 양을 식별하는 방법에 관한 것이다. 특정 실시양태에서, 본 개시내용은 폴리아데닐화된 mRNA를 단리시키고, 화학량론적인 양의 태깅 시약, 예컨대, II-pa₁형 시약 현탁액과 조합하는 것인, mRNA의 프로파일을 재구성하는 방법에 관한 것이다. 3' 단일 가닥 올리고 dT 신장에 의해, 태깅 시약은 mRNA의 폴리 A 테일에 어닐링한다. 본 실시양태에서, 따라서, 소스 분자의 정량화는 일반적으로 프로토콜에서 후속 단계에서의 복제 효율의 어떤 차이와도 상관이 없다. 3' 태그 말단으로부터 프라이밍된 역전사에 의한 cDNA 합성은 전장의 cDA를 효율적으로 생성하는 조건하에서 레트로바이러스 RNA 의존성 DNA 폴리머라제(예컨대, 말로니 뮤린 백혈병 바이러스(Maloney Murine Leukemia Virus) 역전사효소 또는 다른 기원의 역전사효소)로 개시된다.

특정 실시양태에서, 본 개시내용은 샘플 중 모든 Gppp 캡핑된 mRNA를 식별하는 방법에 관한 것이다. 성숙한 mRNA는 한쪽 단부에는 Gppp, 및 나머지 다른 한쪽 단부에는 폴리 A 테일를 가진다. 미숙한 형태는 5' 포스포릴 기 또는 5' OH를 가진다. 샘플 중 오직 캡핑된 mRNA만의 프로파일을 포착하는 것에 대한 실시양태에서, Gppp 캡핑된 형태를 포함하는 폴리아데닐화된 mRNA; 말단 캡은 없지만, 5' 말단 포스페이트는 포함하는 mRNA; 말단 캡은 없지만, 5' OH는 포함하는 mRNA를 표준 프로토콜에 따라 단리시킨다. 폴리 A mRNA를 알칼리성 포스파타제(AP: alkaline phosphatase)로 처리하여 캡핑되지 않은, 5' 인산화된 종으로부터 말단 포스페이트를 제거한다. 샘플을 담배 산성 포스파타제(TAP: tobacco acid phosphatase)로 처리하여 말단 Gppp 기를 제거함으로써 상기 분자상에는 오직 5' 말단 포스페이트만이 남도록 한다. 샘플 중 5' 말단 포스페이트를 포함하는 앞서 캡핑된 mRNA는 RNA 리가제를 사용하여 환형 RNA로 결찰시키는 반면, 5' OH 형태는 선형 그대로 유지된다. 혼합된 환형화된 및 선형 mRNA를, 5' 및 3' 단일 가닥 폴리 dT 트랙, 둘 모두를 가지는 II형 태깅 시약(예컨대, II pa₂형) 현탁액과 조합한다. mRNA의 폴리 A 테일에 어닐링된 태그는 레트로바이러스 역전사효소에 의한 역전사를 프라이밍한다. 환형화된 RNA는 T4 DNA 리가제를 이용하여 환형 cDNA로 효율적으로 결찰시키기 위한 주형 또는 '스플린트'를 제공한다. 선형 RNA 분자와 이중체를 형성하는 선형 선형 cDNA는 비효율적으로 결찰되며, 대개는 선형화된 형태 그대로 남게 된다. 샘플을 RN아제 H로 처리하여 RNA를 mRNA/cDNA 이중체를 제거하고, RN아제 R로 처리하여 잔류, 비복제된 선형 RNA를 제거한 후, 엑소뉴클레아제 I로 선형 cDNA를 제거한다. 남은 환형화된 cDNA는 원래의 샘플 중의 성숙한, 캡핑된 mRNA의 프로파일을 반영하고; 환형화된 형태는 본원에 기술된 방법에서 후속 단계로 도입될 수 있다.

특정 실시양태에서, 본 개시내용은 캡핑되지는 않았지만, 말단 5' 포스페이트는 포함하는 mRNA를 식별하는 방법에 곤한 것이다. 본 실시양태는 Gppp 캡이 온전한 상태 그대로 유지된다는 점을 제외하면, 상기의 것과 동일하고; 5' 포스포릴 형태는 환형 결찰된 후, 이어서, 이전 일례의 남은 단계가 수행된다. 환형화된 형태는 본언에 기술된 방법에서 후속 단계로 도입될 수 있다. 대체 실시양태에서, mRNA의 5' OH 형태ㄹㄹ 인산화시켜 Gppp 캡이 온전한 상태 그대로 유지되도록 한다. 이는 "미숙한 형태"를 포획할 것이며, 이는 그의 조성에 대하여 성숙한 형태의 것과 대조하는 데 사용될 수 있다.

특정 실시양태에서, 본원에 개시된 방법은 개별적으로 태깅된 cDNA 폴리뉴클레오티드를 환형화시키는 단계를 포함한다. 역전사로부터 생성된 RNA/cDNA 이종이중체를 RN아제 H로 처리하여 RNA 가닥을 제거한 후, RN아제 H를 가열하여 불활성화시킨다. 표준 프로토콜에 따라 RNA 리가제를 사용하여 5' 태깅된 단일 가닥 cDNA를 환형화시킨 후, 리가제를 불활성화시키고, 엑소뉴클레아제 I을 사용하여 잔류 선형 cDNA 가닥을 제거한다. 환형화된 cDNA의 개수는 cDNA 합성을 프라이밍시키기 위해 부가된 프라이머의 (제한된) 화학량론으로부터 추정될 수 있거나, 또는 분광 수단 또는 다른 수단에 의해 추정될 수 있고, 이를 최종 서열분석 규모 및 원하는 정도의 적용 범위에 적합화된 분취량으로 나눈다.

특정 실시양태에서, 본원에 개시된 방법은 환형화된 cDNA를 분지형, 선형, 태깅된 동종중합체로 복제하는 단계를 포함한다. 한 실시양태에서, 무작위 올리고머로 프라이밍되는, 고도한 소유성을 띠는 DNA 폴리머라제 phi 29를 이용하는 RCA를 서열분석하고자 하는 분취량의 환형화된 cDNA에 대해 수행한다. RCA 생성물은, 각각이 소스 분자 특이 태그의 반복부에 의해 이격되어 있는 단일 cDNA의 연결된 반복부를 포함하는 것인, 이중 가닥 DNA의 장쇄이고, 빈번하게는 분지형인 동종중합체이다. 대체 실시양태에서, 태그 중의 독특한 서열에 어닐링되는 반대 방향의 올리고머로 프라이밍되는, phi 29A 폴리머라제를 이용하는 RCA를 서열분석하고자 하는 분취량의 cDNA에 대해 수행한다. 대체 실시양태에서, mRNA 스플라이스 변이체 사이에서 보존될 가능성이 있는 선택된 유전자의 서열에 상보적인 올리고머로 프라이밍되는, phi 29A 폴리머라제를 이용하는 RCA를 서열분석하고자 하는 분취량의 cDNA에 대해 수행한다. 대체 실시양태에서, 다중유전자 패밀리 또는 슈퍼패밀리의 파라로고스 구성원의 일반적으로 보존되는 서열에 상보적인 폴리뉴클레오티드로 프라이밍되는, phi 29A 폴리머라제를 이용하는 RCA를 서열분석하고자 하는 분취량의 cDNA에 대해 수행한다. 대체 실시양태에서, 상이한 종으로부터의 오르토로고스 유전자의 구성원의 서열에 상보적인 올리고뉴클레오티드로 프라이밍되는, phi 29A 폴리머라제를 이용하는 RCA를 서열분석하고자 하는 분취량의 cDNA에 대해 수행한다.

특정 실시양태에서, 본원에 개시된 방법은 개별 폴리뉴클레오티드의 무작위 내부 분절을 소스 분자 태깅 시약으로부터 유래된 식별 마커와 결합시키는 단계를 포함한다. 무작위 내부 분절은 cDNA 합성시 도입되는 태깅 시약으로부터 유래된 마커를 확인함과 동시에 서열분석될 수 있는 형태로 전환된다. 단일 가닥 뉴클레아제, 예컨대, S1 뉴클레아제 또는 멍빈 뉴클레아제로 단일 가닥 포커를 절단하여 장쇄 폴리뉴클레오티드를 탈분지화시킬 수 있다. 초음파 처리, 효소적 단편화, 하이드로시어 또는 분무를 포함할 수 있지만, 이에 한정되지 않는 물리적 방법에 의해 탈분지형 장쇄 폴리뉴클레오티드를 연구원이 명시한 평균 크기 범위로 단편화한다. 일부 실시양태에서, 최적의 평균 크기는 대략 평균 mRNA 크기(약 1.7 kb), 예컨대, 약 3 kbp가 될 것이다. 일부 실시양태에서, 최적의 크기 범위는 평균 mRNA 크기보다 작을 것이다(예컨대, 약 500 bp). 일부 실시양태에서, 최적의 크기는 대략적으로 서열분석하고자 하는 mRNA의 최대 크기(예컨대, 약 30 kbp)가 될 것이다. 일부 실시양태에서, 분취량의 단편화된 물질은 기능성 발현 또는 다른 연구를 위하여 특정 mRNA에 대한 후속 클로닝을 위해 유지될 수 있고, 이어서, 관심의 대상으로서 서열분석에서 확인될 수 있다.

특정 실시양태에서, 본원에 개시된 방법은 I형 태깅 시약에서 비롯된 cDNA 중합체의 단편을 절단하는 단계를 포함한다. I형 태깅 시약으로 생성되고, 단일 마커를 가지는 cDNA 중합체의 경우, 효소적 탈분지화 및 물리적 단편화 이후, 분취량의 단편을 따로따로, 마커의 5'측 상에서만 오직, 또는 3'측 상에서만 오직 용해시키는, 콘센서스 서열에 대한 제한 효소로 처리할 것이다. 절단 후, 상기 단편의 분취물은 재조합될 것이다.

특정 실시양태에서, 본원에 개시된 방법은 II형 태깅 시약에서 비롯된 cDNA 중합체의 단편을 절단하는 단계를 포함한다. 효소적 탈분지화 및 물리적 단편화 이후, 복제된 cDNA 폴리뉴클레오티드를, 앞서 태그로 조작된 희귀 콘센서스 서열을 포함하는 제한 효소로 처리할 것이다. 종단간 서열 내의 어느 위치에든 태그를 포함하는 단편은 절단됨에 따라 각 절단 단편의 한쪽 단부에는 마커가, 및 나머지 다른 한쪽 단부에는 무작위 파괴 부위가 남게 될 것이다. 본 단계에서, 이기능성 태깅 시약에서 2개의 마커 요소를 이격시키는 루프 서열은 모든 경우에 있어 그러한 것은 아니지만, 일반적으로는 절제될 것이다.

전형적으로, 상기 단계의 순 효과는 복수 개의 단편을 생성하는 것으로, 상기 단편 중 다수는 개별 cDNA의 서열 내로부터 한쪽 단부에 무작위 파괴점을 가지고, 나머지 다른 한쪽 단부에는 원래의 개별 소스 분자를 확인하는 한 카피의 분자를 가진다. 쌍을 이룬 단부 또는 메이트 쌍 서열분석 방법을 포함하는 다양한 대량 병렬 서열분석 플랫품 중 임의의 것의 대상이 되는 상기 단편은, 출발 샘플 또는 샘플들 중 폴리뉴클레오티드의 원래의 혼합물의 것을 반영하는, 전장의 서열로 조립된 마커의 SMID에 기초하여 분리될 수 있는, 표지화된 리드 또는 쌍을 이룬 단부 리드로 이루어진 대량의 앙상블을 생성할 것이다.

하기 일례는 일루미나 High Seq 장치 플랫폼의 쌍을 이룬 단부 또는 메이트 쌍 서열분석 프로토콜을 사용하는 실시양태를 기술한다. 쌍을 이룬 단부 프로토콜은 모든 경우에 있어 그러한 것은 아니지만, 일반적으로는 태깅된 단편 단부로부터 최대 대략적으로 800 bp의 내부 서열을 제공하는 데 있어 제약이 있으며, 일반적으로, cDNA 전장의 서열의 크기는 mRNA의 수치상의 평균 크기에 가까운 약 1.6 kb로 한정되는데, 이는 프로파일을 mRNA 집단 중 대략 절반으로 한정한다. 대조적으로, 쌍을 이룬 단부 프로토콜에 있어서는 상기와 같은 제한은 없으며, 일반적으로는 전체 mRNA 집단을 프로파일링하는 데 적용될 수 있다.

특정 실시양태에서, 본원에 개시된 방법은 쌍을 이룬 단부 서열분석 라이브러리를 제조하는 단계를 포함한다. 쌍을 이룬 단부 서열분석을 위한 일루미나 프로토콜은 본원에 기술된 방법을 이용하여 전장의 mRNA 서열분석을 위한 것으로 적합화될 수 있다. 본원에서 제공된 일례에서, 상기 기술된 바와 같이 제조된 마커 태깅된 단편은 하기와 같이 적합화된다.

약 800 bp 이하인, 효소로 절단된 마커 태깅된 단편의 단부를 수복시키고, A 테일링하고, 일루미나 포크형 어댑터에 결찰시킨다. 과량의 어댑터를 세척하여 제거한 후, 포크형 어댑터에 특이적인 프라이머를 사용하여 PCR에 의해 인덱싱된 라이브러리를 제조한다. 생성된 라이브러리를 메이트 쌍 서열분석에 대해 하기 기술되는 바와 같이 서열분석한다.

양단 모두에 마커 서열을 가지는 단편 및 마커 서열이 없는 단편과 같이, 한쪽 단부에는 마커 서열 및 나머지 다른 한쪽 단부에는 무작위 파괴 서열을 가지는 단편이 포획될 것이다. 일부 실시양태에서, 변형된 어댑터 및 PCR 프라이머를 사용하는 것을 도입함으로써 한쪽 단부에는 마커 및 나머지 다른 한쪽 단부에는 무작위 파괴 서열을 가지는 라이브러리를 생성할 수 있다. 이러한 변형된 단계는 하기의 메이트 쌍 서열분석하에 기술된다. 상기 방법은 전형적으로 cDNA의 5' 또는 3' 말단의 800 bp 이내에 포함되는 내부 서열을 생성하는 바, 이에 길이가 ~1.6 kbp를 훨씬 초과하는 cDNA에 대한 전장의 서열은 포획하지 못할 것이다.

일루미나 메이트 쌍 프로토콜은 전장의 서열이 제공되는 DNA의 크기를 실질적으로 신장시키는 변형된 방법이며, 따라서, mRNA 프로파일링을 위한 전형적인 접근법이다. 크기 범위가 상기 개요된 바와 같은, 효소로 절단된 마커 태깅된 단편은 상기 기술된 바와 같이 생성된다. 단편의 단부를 수복시키고, 각 가닥의 5' 단부 상에서 비오티닐화하고, 표준 프로토콜에 의해 환형화시킨다. 따라서, 비오티닐 기는 환형화 반응의 접합부를 표지한다. 그러므로, 한쪽 단부에는 마커 및 반대쪽 단부에는 무작위 파괴점을 가지는 단편에서, 환형화를 통해 cDNA 중 무작위 파괴점과 소스 분자 식별 SMID와의 물리적 결합이 생성되고, 이러한 접합부는 비오틴 잔기에 공유적으로 부착된다.

환형화된, 비오티닐화된 cDNA를 다시 분무에 의해 단편화하여 평균 길이가 300-500 bp인 다양한 단편을 생성한다. 기술된 바와 같이, 상기 단편의 단부를 수복시키고, A 테일링하고, 표준 일루미나 포크형 어댑터, 또는 시판용의 변형된 버전의 어댑터와 결찰시킨다. 이를 스트렙트아비딘 비드에 흡착시키고, 비접합된 단편은 세척하여 제거한다. 일루미나 PCR 1.0(A) 또는 PCR 2.0(B)을 이용하여 표준 일루미나 포크형 어댑터에 결찰된 단편에 대해 PCR을 수행한다.

PCR 증폭의 순 효과는 한쪽 단부에는 A 프라이머 서열 및 그의 보체를 가지고, 나머지 다른 한쪽 단부에는 B 프라이머 서열 및 그의 보체를 가지는 것인, 이중 가닥 DNA 단편을 생성하는 것이다. A 및 B 쌍이 단부에 연결되는 복제된 카피의 동일한 cDNA 분절이 생성될 것이다. A 및 B 말단은, 서열분석 챔버에서 단일 가닥 DNA를 단일 가닥 A 및 B 특이 폴리뉴클레오티드에 어닐링시키는 데 이용되는 포획 서열인 PCR 1.0 또는 PCR 2.0 프라이머를 이용하는 PCR에 대한 프라이머; 클러스터 합성을 위한 프라이밍 서열; 메이트 쌍 서열분석 프로토콜 동안 사용되는 A 또는 B 말단 특이 시약에 대한 절단 부위; 및 프라이머 부위를 포함하며, 이로써, 포획 폴리뉴클레오티드의 3' 단부는 서열분석 프로세스에서 DNA 합성을 프라이밍한다. 한 실시양태에서, 표준 포크형 어댑터의 B 가닥에 상응하는, T 테일을 가지는 DNA의 단일 가닥을 포함하는 변형된 어댑터가 사용될 수 있다. 한 실시양태에서, 표준 포크형 어댑터의 B 가닥에 상응하고, 표준 포크형 어댑터의 A 가닥의 짧은 분절에 어닐링되지만, PCR 반응 조건하에서 A 프라이머(PCR 1.0)의 어닐링을 허용하는 분절은 결실되어 있는, T 테일을 가지는 DNA의 단일 가닥을 포함하는 변형된 어댑터가 사용될 수 있다. 특정 실시양태에서, 어댑터가 부가된 분무 단편을 스트렙트아비딘 비드에 부착시키고, 환형화 반응의 접합부를 포함하지 않는 비비오티닐화된 DNA 단편을 세척에 의해 제거한다. 비오티닐화된, 흡착된 단편에 대해 PCR 1.0 및 PCR 2.0 프라이머를 이용하는 PCR을 수행하고, 이로써, 한쪽 단부 상에는 A 프라이머 쌍을 가지고, 나머지 다른 한쪽 단부 상에는 B 프라이머 쌍을 가지는 이중 가닥 DNA가 용액 내로 유리된다. 이는 환형화 반응의 접합부를 포획하는 메이트 쌍 라이브러리를 구성한다.

대체 실시양태에서, PCR 1.0이 아닌 PCR 2.0에 의해 DNA 합서이 프라이밍되는 말단 분절을 가지는 비오티닐화된, 흡착된 단편은 변형된 어댑터 중 하나로부터 유래된 것이다. 상기 단편의 경우, PCR 1.0 및 PCR 2.0으로 프라이밍된 PCR이 진행되며, 여기서, 한 가닥은 단부 말단 어댑터 가닥에 어닐링되는 PCR 2.0에 의해 프라이밍되는 반면, 반대 방향으로 진행되는 합성은, 태깅 시약으로부터 유래된, 단편 중에 유지되는 마커 블록 중의 PCR 프라이머 부위로서 앞서 도입된 A 가닥 서열에 결합하는 PCR 1.0으로 프라이밍된다.

추가의 실시양태에서, 상기 단편의 경우, 프로토콜은 이들 단편의 경우, DNA 합성이 단부 말단 어댑터 가닥에 어닐링된 PCR 2.0으로 한 방향으로 프라이밍될 수 있는 반면, 합성은 반대 방향으로 (변형된) PCR 1.0으로 프라이밍될 수 있도록 변형되며, 여기서, (변형된) PCR 1.0은 말단 어댑터에도, 일반적으로 표적 DNA 서열의 단부에도 비상보적인 수개의 염기 오버행에 의해 말단으로부터 프라이밍 합성을 하지 못하는 상태로 만들어 진다.

한 실시양태에서, 변형된 PCR 1.0 프라이머는 표준 일루미나 포크형 프라이머 어댑터와 함께 사용될 수 있다. 한 실시양태에서, 변형된 PCR 1.0 프라이머는 변형된 단일 가닥 B 어댑터와 함께 사용될 수 있다. 한 실시양태에서, 변형된 PCR 프라이머는 일반 B 가닥 및 절두된 A 가닥을 포함하는 변형된 프라이머와 함께 사용될 수 있다.

일부 실시양태에서, 디자인에 의해 I형 또는 II t형 마커를 제외한, II-ps₁형, II ps-2형, II pa₁형 및 II pa₂형으로 형성된 라이브러리에서 5' 및 3' 단부, 둘 모두에 마커를 포함하는 단편은, 분무 이전 환형화시 (개재 루프가 아닌) 마커 블록이 재결합될 것이며, 내부 상보성의 결과로 인해 PCR 1.0 프라이머 PCR 1.0 변형된 프라이머 어닐링 부위는 증폭 반응을 위해 이용할 수 없기 때문에 최종 라이브러리에서는 증폭되지 못할 것이라는 것을 이해할 것이다.

일부 실시양태에서, I형 또는 II t형 마커를 제외한, II ps₁형, II ps₂형, II pa₁형 및 II pa₂형으로 형성된 라이브러리에서 서열 중 어느 위치에서든 마커가 없는 단편에는 PCR 1.0 프라이머 또는 PCR 1.0 변형된 프라이머 어닐링 부위가 존재하지 않을 것이며, 이로써, 증폭되지 못한다는 것을 이해할 것이다.

변형된 표준 프로토콜의 순 결과는 메이트 쌍 라이브러리의 생성으로서, 여기서, 각 단편은 차별적으로 (>80%) 한쪽 단부에는 A 프라이머/서열분석 쌍, 및 나머지 다른 한쪽 단부에는 B 프라이머/서열분석 쌍을 포함하지만, 여기서, A 프라이머 쌍 바로 옆에 인접해 있는 서열은 항상 cDNA 서열 내의 무작위 파괴 서열에 직접적으로 연결되어 있는(소스 분자 식별 SMID를 포함하는) 마커가 될 것이다. B 프라이머/서열분석 쌍은, 일반적으로 분무 단편의 평균 크기(예컨대, 300-500 bp)만큼 이격되어 있는 A 연결된 서열의 하류 영역에 상응하는, 분무에 의해 제조된 같은 cDNA 서열 내의 제2 무작위 파괴 서열에 연결될 것이다.

변형된 표준 프로토콜의 순 결과는 High Seq 장치 중 단일 챔버의 사용으로 일반적으로 >100,000,000개의 쌍을 이룬 서열 리드를 수득하는 것이며, 본질적으로는 이들 모두가 소수 분자 SMID와 관련하여 식별가능하게 태깅될 것이다. 15개의 이용가능한 챔버 모두를 사용할 경우, 일반적으로 >1,500,000,000개의 쌍을 이룬 서열 리드를 수득하게 될 것이며, 본질적으로는 이들 모두가 소수 분자 SMID와 관련하여 식별가능하게 태깅될 것이다. 따라서, 원하는 적용 범위 정도에 따라, 단일 챔버는 >1,000,000개의 전장의 메세지 그 이상으로 된 조립된 서열을 수득할 수 있고, 현존 장치의 조합된 챔버는 >15,000,000개의 전장의 메세지로 된 조립된 서열을 수득할 수 있다.

특정 방법은 성장하는 이중 가닥 서열에 부착된 형광으로 표지화된 뉴클레오티드를 사용하며, 여기서, 중합화는 화학적 작용기에 의해 제어된다. 고체 표면적은 같은 올리고뉴클레오티드로 증강되고, 형광으로 표지화된 뉴클레오티드는 어느 염기가 부가되는지를 나타낸다. 기술된 접근법은 또한 중간 크기의 단편(>300 bp)의 전체 서열분석을 비롯한, 다른 프로토콜로도 확장될 수 있다.

일루미나 High Seq 장치의 쌍을 이룬 단부 방법에서, 라이브러리는 전형적으로 800 bp 미만의 단편을 포함한다. 이중 가닥의, 벡터로 변형된 둔단의 DNA 단편으로 구성된 라이브러리를 단일 가닥으로 변성시킨다. 이를 포획 챔버(유동 셀)의 표면 타일 상에 공유적으로 부착된 (3' 단부 신장부 B 또는 A에 상보적인) 단일 가닥 올리고뉴클레오티드의 론(lawn)에 어닐링시킨다.

포획 올리고뉴클레오티드는 어닐링된 단일 가닥 DNA에 상보적인 가닥의 합성을 프라이밍하고, 이후, 생성물은 변성되고, (비공유) 주형을 세척한다. 이어서, 유지된 가닥은 그의 유리 3' 단부에 상보적인, 인근의 포획 올리고뉴클레오티드에 어닐링된다. 제2 가닥이 상기 포획 올리고뉴클레오티드로부터 신장되고, 이로써, 양측 단부에서 DNA 이중체의 5' 단부에 의해서만 오직 테더링된 이중 가닥 "브릿지"가 생성된다.

상기 브릿지는 변성되고, 단일 가닥은 다시 신규 포획 올리고뉴클레오티드에 재어닐링되고, 각 DNA 단편이 원래 챔버 표면에 어닐링된 경우에는 증폭이 그의 A 또는 B 단부에 의해 표면에 부착된 뉴클레오티드 클러스터를 생성할 때까지 상기 공정은 반복된다. 이는 전형적으로 유동 셀 서열분석 챔버당 다수(예컨대, 100,000,000 - 600,000,000개)의 클러스터를 생성한다.

서열분석은 전형적으로는 2단계로 수행된다. I 단계에서, 두 링커 중 하나에 특이적인 시약을 이용하여 DNA 브릿지 집단을 절단하고, 비공유적으로 연결된 가닥을 변성시키고, 세척한다. 상기 기술된 포크형 어댑터와 함께 도입된 A 서열분석 프라이머를 사용할 경우, 이로써 유리 단부로부터 서열분석하고자 하는, 두 배향 중 오직 한 배향인(예컨대, B 공유 5' 단부) 단일 가닥 DNA가 남게 된다.

서열분석은 A 포획 폴리뉴클레오티드로부터 4개의 식별가능한 형광성 뉴클레오티드 트리포스페이트 유도체 용액으로부터 적절한 염기를 연속적으로 도입하는 것을 프라이밍하고; 각각의 새로 부가된 염기를 광학적으로 기록한 후, 형광단을 가수분해하고, 반응을 반복함으로써 수행된다. 이러한 방식으로 유리 (3') 단부의 최대 150개의 염기를 광학적으로 기록할 수 있다.

I 단계 후, 서열분석 동안 생성된 테더링되지 않은 가닥은 변성되고, 이를 세척한다. 이어서, 유지된 주형을 그의 유리 3' 단부에서 타일 상의 포획 올리고뉴클레오티드(예컨대, A)에 재어닐링시킨다. 포획 올리고뉴클레오티드를 신장시킴으로써 반대 배향의 새로운 가닥을 합성한다. 이어서, 생성된 가교된 올리고뉴클레오티드 집단을 제2 (예컨대, B) 링커에서 절단하고, 예시된 바와 같이, 생성된 테더링되지 않은 가닥은 변성되고, 이를 세척한다. 남은 집단은 상기에서와 같이 서열분석된 유리 3'('B') 단부를 제시하고, 'B' 올리고뉴클레오티드로 프라이밍하여 제1 서열분석된 가닥의 반대쪽 단부의 상보적인 서열을 수득하게 된다. I 단계 및 II 단계에 대한 각 클러스터의 광학적 기록으로부터 서열을 컴파일링한 후, 각 클러스터에 대하여 상기 리드 쌍을 함께 기록한다.

메이트 쌍 서열분석에서, 핵산을 (예컨대, 제한하는 것은 아니지만, 초음파 처리, 효소적 단편화 또는 하이드로시어에 의해) 분절로, 전형적으로는 수 kb의 길이로 단편화한다. 따라서, 생성된 서열 리드는 평균 단편 크기의 최대 2배까지의 개재 서열을 포획한다. 초기 단편화 크기 범위를 선택할 때, 전장의 조립된 서열에 대한 최대 크기는 원래의 단편 크기의 대략 2배 정도가 되도록 설정된다. 다른 일면에서, 장치 서열분석 단계는 쌍을 이룬 단부 및 메이트 쌍 프로토콜에서 동일하며, 라이브러리 제조에서만 유일하게 차이가 난다.

서열은 전산학적으로 조립된다(도 11 참조). 요약하면, 서열분석된 cDNA의 유래 기점이 된 개별 소스 분자를 명시하는 독특한 SMID 식별자에 따라 리드 쌍을 분류한다. 각 cDNA을 물리적으로 취급하지 않는 것이 곧 서열 데이터를 대량으로 수득할 수 있도록 하는 것이다; 이는 물리적 cDNA보다는 단지 서열 정보를 현탁액 중의 다른 것으로부터 각각 분류하는 것인, '가상 클로닝'의 의도된 의미를 포착한다.

개별 소스 분자를 확인하고, 이로써 계수한다. 간단한 통계학적 분석은 원래의 샘플 중의 모든 cDNA가 서열분석될 수 있는 가능성을 정량화한다. 발현되는 모든 유전자의 상대적인 전사체를 확인하고, 정량화하는 데는 마이크로칩 검사에서와 같이 검색할 유전자에 대한 사전 지식을 필요로 하지 않고, 내인성 및 외인성(예컨대, 병원체) 유전자 생성물, 둘 모두를 포착한다.

각 개별 유전자로부터의 개별 소스 분자는 각 유전자로부터의 서열 변이체와 관련하여 분류된다. 유사하게, 상대적인 일배체형 유전자 발현, 유전자 발현의 후생적 조절, 또는 체세포 돌연변이를 반영하는 서열 변이를 나타내는 SNP 변이가 정량화된다. 종합해 보면, 이러한 정량은 mRNA 집단의 통계학적 구조를 제공한다. 이는 RNA 교체, 번역 속도, RNA 수송 및 상호작용하여 발현된 단백질의 분자 메커니즘에 영향을 줌으로써 분자 표현형을 구성하는 생화학적 특성을 지배하는 도메인을 반영할 수 있는 서열 요소의 공동 선택과 관련된 정보와 함께, 특정 프로모터 요소와 관련될 수 있는 유전자 캐스케이드의 상대적인 전사 활성화에 관한 정보를 제공한다.

서열 분석 단계는 하기와 같을 수 있다. 식별 SMID를 측면 서열 요소('래퍼')에 의해, 또는 각 라이브러리 가닥의 한쪽 단부에 균일하게 배치함으로써 국재화한다. 이는 현존 소프트웨어로 달성될 수 있다.

SMID에 따라 태깅된 리드 쌍을 "빈"으로 분류한다. 빈은 관련 서열 데이터를 저장하는 컴퓨터 메모리의 어드레스 블록이다. SMID를 포함하는 각 리드는 그의 메이트 쌍 리드(또는 리드들)과 함께 상기 SMID 빈으로 배정된다. 각 빈은 원래의 샘플 중의 개별 소스 분자(즉, 단일의 완전한 mRNA 분자)를 나타내고, 상기 빈 중의 모든 서열은 상기 단일 분자에서 유래된 것이다. 다중 mRNA 집단(예컨대, 상이한 조직)을 같은 실험에서 서열분석하였을 때, 리드 분류는 먼저 샘플 소스에 의해 태깅된 쌍을 분리할 수 있다.

SMID 태그를 사용하여 관련 리드가 나타내는 가닥을 확인한 후, 기록된 리드로부터 태그 서열을 제거함에 따라 소스 분자로부터 도출된 정보만이 남게 된다. 각 리드 쌍은 초기 단편화 및 이어지는 분무 동안 무작위 파괴점에 의해 생성된 2개의 내부 리드를 제공하고; 이는 각각 SMID 식별자에 인접해 있는 분절, 및 대략적으로 라이브러리 단편의 평균 길이만큼 하류 방향으로 떨어져 있는 제2 무작위 파괴점으로부터의 것이다. 각 쌍의 두 리드는 상보적인 가닥에 상응하고, 따라서, 이는 어셈블리 이전에 같은 센스로 전환되어야 한다.

각 빈 내의 (같은 센스로 형질전환된) 트리밍된 리드를 최대로 중첩되는 정렬로 배열시켜 각각 최대 길이의, 최소 개수의 콘티그를 생성한다. 적절한 적용 범위로 각 빈은 소스 분자의 종단간 서열을 포함하는 단일 콘티그를 수득하게 된다. 전체 어셈블리 프로세스는 현존하는 새로운 어셈블러 소프트웨어(예컨대, 벨벳(Velvet))로 달성될 수 있다.

각각의 조립된 서열은 그의 소스 유전자(또는 트랜스 스플라이싱의 경우, 다중 유전자들)에 대해 참조된다. 현존 소프트웨어를 사용하여 각 유전자의 엑손/인트론 조직의 큐레이션을 업데이트시킬 수 있다(예컨대, 스파이디(Spidey)).

소스 가닥이 태그 배향(II-pa형 또는 II-t형 태깅 시약)으로부터의 또는 소스 유전자에 대한 참조로부터의 정보로부터 도출된 것인지를 확인하는 것은 관련 cDNA 서열이 "센스"(단백질 코딩) mRNA 서열, 또는 그의 안티센스 보체에 상응하는지 여부를 나타낸다. 상기 단계는 mRNA 서열을, 유전자 발현에서 조절 역할, 또는 다른 예상 밖의 역할을 할 수 있는 폴리 A 표지화된 비코딩 안티센스 서열로부터 구별지을 수 있다.

유사하게 정량화된, 모든 유전자로부터의 각 서열 변이체의 상대적인 발현 수준과 함께, 발현된 내인성 및 외인선(병원체가 존재하는 경우) 유전자의 정상 상태 발현의 상대적인 수준은 각 유전자로부터의 메세지에서 발견되는 독특한 SMIDS의 개수에 의해 정량화된다.

이러한 데이터는 서열 변이의 연관에 관한 연상 정보; 예컨대, 특정 스플라이스 또는 RNA 편집 변이체와 특정 선택적 프로모터 서열과의 관련; 단백질 기능 메커니즘을 지배하는 상호작용하는 단백질 도메인을 반영할 수 있는 특정 코딩 도메인의 연관 등을 제공한다. 재구성은 암 환자의 다중 종양 및 이환되지 않은, 비악성 대조군 조직으로부터의 샘플; 다양한 발생 및 분화 단계에서 샘플링된 조직; 질환 진행 과정에 걸쳐 샘플링된 조직에서와 같이, 함께 서열분석될 수 있는(다중 서열분석) 다중 조직으로부터 메신저 프로파일의 비교 구조를 포함할 수 있다.

이어서, mRNA 프로파일의 1차 재구성으로부터 도출된 정보에 대하여 고차 분석, 예컨대, 체세포 또는 유전적 돌연변이에 대한 검색; 상향 또는 하향 조절된 유전자에 대한 검색; 다중 유전자 발현의 조직 특징적인 패턴에 대한 검색; 병원체 유전자 발현에 대한 검색 등을 실시할 수 있다.

데이터 분석에서 확인되는 특정 메신저로 이루어진 전장의 구성물이 기능 분석 또는 다른 분석을 위해 요구되는 경우, SMID 식별자 특이 및 유전자 특이 PCR 프라이머의 조합을 사용하여 임의의 특정 소스 분자의 전장의 cDNA를 증폭시킨 후, 서브클로닝하고, 확인 서열분석을 수행할 수 있다.

개별 서열분석 실행의 효율은 장치 플랫폼 및 유래된 서열 리드의 특징에 의존한다. 또한, 차세대 서열분석 플랫폼의 능력은 계속 확장되고 있으며, 현재 추정치는 하한인 것으로 간주되어야 한다. 각 cDNA의 적용 범위 수준은 적용에 의존한다. 따라서, 상대적으로 낮은 정도의 적용 범위는 SMID 아이덴티티를 확인하고, 스플라이스 변이체 중의 엑손 잔류를 평가하는 데 충분할 수 있다: 고 처리량 방법의 내재하는 오류 빈도 때문에, 높은 수준의 정확도로 단일 염기 변이를 소환하는 데에는 더욱 높은 정도의 적용 범위가 필요할 수 있다.

본 방법의 일부 실시양태에서, 길이가 T(예컨대, 제한하는 것은 아니지만, 500 내지 10,000 bp)인 전사체의 1, 2, 또는 3개의 탠덤 반복부로 이루어진, 적용 범위, r을 포함하는 완전한 서열이 고려된다. 고려되는 서열 리드는 제한하는 것은 아니지만, 길이가 L(25-200 bp)인 것일 수 있다. 본 목적을 위해, "콘티그"란 한 세트의 중첩 리드에 의해 완전하게 커버링되는 원래 서열로 이루어진 영역을 의미한다; 즉, 콘티그 내의 모든 염기는 1개 이상의 리드에 나타나고, 커버링 세트 내의 모든 리드는 같은 세트 중의 또 리드와 공통되는 1개 이상의 염기를 가진다. 서열을 "커버링"한다는 것은 서열의 모든 뉴클레오티드가 1개 이상의 리드 내에 포함되어 있다는 것을 의미한다. 서열은 1 초과의 콘티그에 의해 완전하게 커버링될 수 있다. 상기 경우에서, 둘 모두가 리드에 의해 커버링되지만, 같은 리드 내에서는 함께 발견되지 않는 이웃하는 뉴클레오티드 쌍이 존재한다. 그러한 "분할 쌍"은 두 콘티그 사이의 경계부를 정의하며, 따라서, 서열을 커버링하는 콘티그의 개수는 분할 쌍의 개수보다 1개 더 많다. 45 염기 서열은 2개의 콘티그를 정의하는 6 또는 7 염기 리드에 의해 커버링된다. 콘티그 경계부를 정의하는 분할 쌍을 제시한다.

전사체의 명확한 전장의 서열은 전체 서열의 전사체 반복부 중에 분할 쌍이 존재하지 않는 것인데, 이는 상기와 같은 경우에는 임의의 개재 서열이 누락될 수도 있는 가능성을 배제시킬 방법이 없기 때문이다. 반복부가 없는 단일 서열은 1개 이하의 콘티그에 의해 커버링되어야 한다. 탠덤 반복부는 2개의 콘티그에 의해 커버링될 수 있는데, 이는 한 카피 중의 분할 쌍이 다른 카피에서는 분할되지 않기 때문이다.

따라서, 서열이 전사체의 r개의 탠덤 반복부를 포함할 결우, 전장의 전사체 서열을 수득하기 위해서는 콘티그 개수는 k ≤ r이어야 한다. 상기 값는 최소치라는 것에 주의한다. 본 발명자들은 콘티그 내의 모든 염기가 최소 개수의(3개라고 가정할 때) 염기를 공유하는 중첩 리드를 통해 같은 콘티그 내의 모든 다른 염기로부터 도달가능하여야 한다고 요구할 수 있다. 이를 통해 본 발명자들은 리드가 실제로 인접한 서열을 커버링한다는 것을 더욱더 신뢰할 수 있게 되었다. 이를 모델링하지 않고도, 본 발명자들은 그 대신에 적용 범위가 상기 모델로부터 수득된 최소치를 일부 약정된 양만큼 초과한다는 것을 확인할 수 있다. 2개의 콘티그에 의해 3개의 탠덤 반복부로 이루어진 서열은 단일 카피를 커버링하는 데 필요한 개수와 비교하여 1.5배만큼 중첩 콘티그의 개수를 증가시키고, 콘티그가 그의 단부에 더욱 큰 중첩부를 가질 가능성을 증가시킨다.

적용 범위는 covg = NL/T로서 계산되며, 여기서, N은 리드의 총 개수이고, L은 리드 길이이고, T는 전사체 길이다. covg가 k개의 콘티그로 r개의 탠덤 반복부를 커버링함으로써 수득될 경우, 이때 단일 전사체 적용 범위는 r x 반복부를 포함하는 완전한 서열의 적용 범위이다.

k = N exp(-NL/rT)

N에 대해 풀이하면:

N = -kA W_-1(-1/A)

(여기서, A = rT/ kL이고, W _-1 은 본 경우에서 N에 대한 (즉, 복소수가 아닌) 실가로 복귀되는 실수에 대한 램버트-W(Lambert-W) 함수의 분기이다)(문헌 [Adv , Comparative Mathematics, 5, 329-359, 1996]).

데이터 표는 다양한 L, r, T, 및 k 값으로부터 전산화된 것이다. 이 정보는 도 8b, c에 최상으로 시각적으로 그래프로 제시되어 있다. 전산화된 모든 파라미터에 대한 적용 범위 대 리드 개수의 플롯은 전반적인 양상을 보여주는 것이다. 각 선분은 한 전사체 길이(T), 한 전사체 반복 값(r), 및 한 리드 길이(L)에 대한 전체 서열(반복부 포함)당 k(1, 2, 3, 5, 및 10) 콘티그의 5개의 값에 대한 지점을 연결한다. 3개 반복 수준(r)은 플롯을 3개의 군: (r = 1), (r = 2) 및 (r = 3)으로 분리한다. 이는 전사체가 탠덤으로 카피는 되었지만, 고정 개수의 콘티그에 의해 커버링될 경우에, 단일 전사체의 적용 범위가 얼마나 증가하는지를 보여준다. 전사체를 커버링하는 데 더 많은 리드가 필요한 바, 더 큰 전사체는 상단에 위치한다.

전체 cDNA 서열을 포획하는 데 필요한 전체 적용 범위에 대하여 리드 길이가 미치는 효과를 입증하는 데이터의 서브세트를 플롯팅. 더 긴 장쇄의 cDNA(예컨대, 10 kbp)는 cDNA를 확실하게 같은 수준으로 커버링하는 데 150 bp 리드를 사용하는 경우보다 50 bp 리드를 사용할 경우에 3.5 내지 4배 더 많은 염기를 판독하는 것을 필요로 한다.

도 8d에 도시된 약식 표는 3 kbp의 cDNA의 경우, 대략 10 x 요구치 정도는 150 bp의 대략 230 리드를 필요로 한다는 것을 입증한다. 리드 길이가 167 bp일 의 더 낮은 정도의 적용 범위는 대략 100개의 리드를 필요로 할 수 있다. 현재 일루미나 High Seq 플랫폼의 한 챔버로부터의 전형적인 실행을 통해, 수 평균 mRNA 크기인 크기의 대략 2배인 대략 100만개의 cDNA를 완전하게 서열분석하는 데 충분한, 리드당 167 bp인 서열을 가지는 대략 2억개의 리드 쌍을 수득하게 된다. 그러므로, 상기 장치의 전체 15개의 챔버 용량을 사용하는 것은 평균 크기가 대략 3,000만개의 cDNA를 서열분석하는 데 충분할 것이다.

평균 세포가 7,000-8,000개의 단백질 코딩 유전자의 생성물을 발현한다고 가정할 때, 이를 통해서 단일 챔버의 경우, 유전자 1개당 대략 250개의 mRNA; 또는 모든 챔버를 사용하여 실행할 경우, 3,000 내지 4,000개인 역학적 범위가 허용된다. 상기 범위는 단지 장치 성능이 증가함에 따라 증가하게 된다는 사실을 무시할 경우, 이는 심지어 중간 정도로 복잡한 조직에 대한 모든 메세지를 프로파일링하는 데에도 충분할 것으로 보인다.

용어

"폴리뉴클레오티드" 또는 "폴리뉴클레오티드"라는 용어는 2개 이상의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드, 바람직하게는 3개 초과, 및 일반적으로는 10개 초과의 것으로 구성된 분자를 의미한다. 정확한 크기는 많은 인자들에 따라 달라질 것이며, 이는 결국에는 폴리뉴클레오티드의 궁극적인 기능 또는 용도에 의존한다. 폴리뉴클레오티드는 화학적 합성, DNA 복제, 역전사, 또는 그의 조합을 비롯한, 임의의 방식으로 생성될 수 있다.

"핵산"이라는 용어는 상기 기술된 바와 같이, 뉴클레오티드의 중합체, 또는 폴리뉴클레오티드를 의미한다. 상기 용어는 단일 분자, 또는 분자 집합을 지칭하는 데 사용된다. 핵산은 단일 가닥 또는 이중 가닥일 수 있고, 코딩 영역 및 다양한 제어 요소로 이루어진 영역을 포함할 수 있다.

"상보적인" 및 "상보성"이라는 용어는 폴리뉴클레오티드(즉, 뉴클레오티드 서열)가 염기쌍 형성 법칙에 의해 관련되어 있음을 의미한다. 예를 들어, 서열 "A-G-T"의 경우, 이는 서열 "T-C-A"에 상보성이다. 상보성은, 핵산의 염기 중 단지 일부만이 염기쌍 형성 법칙에 따라 매칭되는 것인 "부분" 상보성일 수 있다. 또는 핵산 사이에 "완전한" 또는 "전체" 상보성이 존재할 수 있다. 핵산 가닥 사이의 상보성 정도는 핵산 가닥 사이의 혼성화율 및 혼성화 강도에 유의적인 영향을 미친다. 이는 증폭 반응 뿐만 아니라, 핵산 사이의 결합에 의존하는 검출 방법에서 특히 중요하다.

"회문 서열"이라는 용어는, 한 가닥 상에서 5'(5 프라임)에서 3'(3 프라임)으로 판독하거나, 또는 상보적인 가닥 상에서 5'에서 3'으로 판독하여도 동일한 핵산 서열(DNA 또는 RNA)을 의미하며 - 뉴클레오티드 서열은 이 서열이 그의 역 보체와 동일할 경우, 이는 회문 서열이라고 지칭된다. 회문 뉴클레오티드 서열은 헤어핀을 형성할 수 있다. 상기 용어는, 실질적으로는 상보성이 존재하지만, 미스매칭되는 쌍을 일부 포함할 수 있는 서열, 예컨대, 자가 혼성화를 파괴하지 못하거나, 다중 루프를 형성하지 못하는 서열을 포함하는 것으로 한다.

제한 부위, 또는 제한 인식 부위는 제한 효소(뉴클레아제) 또는 다른 유능한 분자에 의해 절단되는, 뉴클레오티드 중 특이 서열을 함유하는 핵산 분자 상의 위치이다. 본원에 개시된 실시양태들 중 임의의 실시양태의 범위 내에서, 제한 부위는 절단 부위로서 지칭될 수 있다. 부위는 전형적으로 회문 서열이고, 특정 절단 분자, 예컨대, 제한 효소는 그의 인식 부위 내의, 또는 그 부근 어디에서든 2개 이상의 뉴클레오티드 사이에서 서열을 절단할 수 있다. 자연적으로 발생된 제한 효소는 전형적으로 4-6 bp 길이의 서열을 인식한다. 상기 용어는 제한 효소 콘센서스 서열과 동의어이다. 비자연적으로 발생된 절단 효소 및 분자가 고려된다. (Chu) 및 (Orgel)은 단일 가닥 DNA의 비효소적 서열 특이 절단에 대해 보고한 바 있다. 문헌 [PNAS, 1985, 82:963-967]을 참조할 수 있다. 문헌 [Dervan, Science, 1986, 232:464-47]; [Dreyer & Dervan PNSA, 1985, 82(4):968-972]; 및 미국 특허 번호 제6,555,692호 및 제4,795,700호 또한 참조할 수 있다.

"희귀 제한 부위"란 길이가 6, 7, 또는 8 bp 초과인, 절단 분자 또는 다른 제한 효소에 의해 절단되는 부위를 의미한다. 제한 변형 효소는 현존 효소를 돌연변이화하거나, 조작함으로써, 또는 키메라 제한 뉴클레아제를 제조함으로써 인식 부위가 더 긴 제한 엔도뉴클레아제를 생성한다. 아연 핑거 단백질은 맞춤형 서열 특이성을 가지는 키메라 제한 효소에서 흔히 사용된다. 상기 단백질은 전형적으로는 알파 나선을 이중 나선의 메이저 그루브 내로 삽입함으로써 핵산에 결합한다. 예를 들어, Fok I 엔도뉴클레아제의 절단 도메인에의 아연 핑거 단백질의 융합물을 제조함으로써 바람직한 부위에서 DNA를 절단하는 뉴클레아제를 디자인할 수 있다. 문헌 [Kim et al., Proc. Natl. Acad. Sci. USA 1996, 93, 1156-1160]을 참조할 수 있다.

"혼성화"라는 용어는 상보적인 핵산의 쌍 형성을 의미한다. 혼성화 및 혼성화 강도(즉, 핵산 사이의 회합 강도)는 핵산 사이의 상보적인 정도, 관여하는 조건의 엄격성, 형성된 하이브리드의 T_m, 및 핵산내 G:C 비율과 같은 인자에 의해 영향을 받는다. 그의 구조 내에 상보적인 핵산의 쌍 형성을 포함하는 단일 분자는 "자가 혼성화된" 것으로 지칭된다.

"프라이머"라는 용어는 정제된 제한 분해물 중에 존재하는 것과 같이 자연적으로 발생된 것인지 또는 합성적으로 제조된 것인지 여부와는 상관없이, 핵산 가닥에 대해 상보적인 프라이머 신장 생성물의 합성이 유도되는 조건하에 존재할 때 (즉, 뉴클레오티드 및 유도화제, 예컨대, DNA 폴리머라제의 존재하에 및 적절한 온도 및 pH에서) 합성 개시점으로서의 역할을 할 수 있는 폴리뉴클레오티드를 의미한다. 프라이머는 바람직하게 증폭시 최대 효율을 위해 단일 가닥이지만, 별법으로, 이중 가닥일 수 있다. 이중 가닥일 경우, 신장 생성물을 제조하는 데 사용하기 전에 먼저 프라이머를 처리하여 그의 가닥을 분리시킨다. 프라이머는 유도화제의 존재하에서 신장 생성물의 합성을 프라이밍하는 데 충분하게 긴 장쇄여야 한다. 프라이머의 정확한 길이는 온도, 프라이머 소스, 및 방법의 용도를 비롯한, 다수의 인자에 의존할 것이다.

"서열분석"이라는 용어는 특정 핵산의 뉴클레오티드의 순서를 확인하는 데 사용될 수 있는 임의 개수의 방법을 의미한다. 핵산 서열분석을 위한 방법 및 기구는 공지되어 있고, 특정 실시양태에서, 서열분석 방법은 사용된 특정 방법, 장치, 또는 데이터/품질 필터링으로 한정되지 않는다. (Bokulich) 등은 일루미나 GAIIx, HiSeq 및 MiSeq 기구에 의해 생성된 품질 필터링이 서열분석을 개선시킨다고 보고한 바 있다. 문헌 [Nature Methods, 2013, 10:57-59]를 참조할 수 있다.

"중합효소 연쇄 반응"("PCR: polymerase chain reaction")은 혼합물 중 표적 서열의 분절의 농도를 증가시키는 방법을 기술하는, 미국 특허 번호 제4,683,195호, 제4,683,202호, 및 제4,965,188호(K. B. Mullis)의 방법을 지칭한다. 표적 서열을 증폭시키는 상기 공정은 과다한 대량의 두 폴리뉴클레오티드 프라이머를 원하는 표적 서열을 함유하는 DNA 혼합물에 도입한 후, DNA 폴리머라제의 존재하에서 정확한 서열을 열적으로 사이클링하는 것으로 이루어진다. 두 프라이머는 이중 가닥 표적 서열의 그의 각 가닥에 대하여 상보적이다. 증폭시키기 위해, 혼합물을 변성시킨 후, 프라이머를 표적 분자 내의 그의 상보적인 서열에 어닐링시킨다. 어닐링 후, 폴리머라제를 이용하여 프라이머를 신장시켜 새로운 한쌍의 상보적인 가닥을 형성한다. 고농도의, 원하는 표적 서열의 증폭된 분절을 수득하기 위해 변성 단계, 프라이머 어닐링 단계, 및 폴리머라제 신장 단계는 수회에 걸쳐 반복될 수 있다(즉, 변성, 어닐링, 및 신장이 한 "사이클"을 구성하고 다회에 걸친 "사이클"이 존재할 수 있다). 원하는 표적 서열의 증폭된 분절의 길이는 서로에 대한 프라이머의 각 위치에 의해 결정되며, 그러므로, 그 길이는 제어가능한 파라미터이다. 상기 공정을 반복 수행한다는 측면 때문에, 본 방법은 "폴리머라제 연쇄 반응"(이하, "PCR")으로 지칭된다. 표적 서열의 원하는 증폭된 분절이 혼합물 중 (농도면에서) 우세한 서열이 되기 때문에, 이는 "PCR로 증폭된" 것으로 지칭된다.

PCR을 이용하여 게놈 DNA 중 단일 카피수의 특정 표적 서열을 수개의 상이한 방법(예컨대, 표지화된 프로브와의 혼성화; 비오티닐화된 프라이머 도입 후, 아비딘-효소 접합체 검출; 증폭된 분절 내로의 ³²P 표지화된 데옥시뉴클레오티드 트리포스페이트, 예컨대, dCTP 또는 dATP 도입)에 의해 검출가능한 수준으로까지 증폭시킬 수 있다. 게놈 DNA 이외에도, 임의의 폴리뉴클레오티드 또는 폴리뉴클레오티드 서열은 적절한 프라이머 분자 세트를 이용하여 증폭될 수 있다. 특히, PCR 공정 그 자체에 의해 생성된 증폭된 분절은 그 자체가 후속 PCR 증폭을 위해 효율적인 주형이 된다.

"PCR 생성물," "PCR 단편," 및 "증폭 생성물"이라는 용어는 변성, 어닐링, 및 신장으로 이루어진 PCR 단계의 사이클을 2회 이상 완료한 후 생성된 화합물의 혼합물을 의미한다. 상기 용어는 하나 이상의 표적 서열의 하나 이상의 분절이 증폭된 경우의 것도 포함한다.

"증폭 시약"이라는 용어는 증폭에 필요한 시약(데옥시리보뉴클레오티드 트리포스페이트, 완충제, 프라이머, 핵산 주형, 및 증폭 효소 등)을 의미한다. 전형적으로, 다른 반응 성분과 함께 증폭 시약은 반응 베쓸(시험관, 마이크로웰 등)에 배치되고, 그에 포함된다.

특정 실시양태의 경우, 본원에 개시된 방법은 하기에 추가로 기술되고, 문헌 [Bentley et al., Nature, 2008, 456, 53-59] 및 [Meyer et al., Nature protocols, 2008, 3, 267-278](상기 문헌은 본원에서 참조로 포함된다)에 기술된, 쌍을 이룬 단부, 메이트 쌍 방법과 조합하여 사용된다.

특정 방법은 성장 이중 가닥 서열에 부착되는, 형광으로 표지화된 뉴클레오티드를 사용하며, 여기서, 중합화는 화학적 작용기로 제어된다. 고체 표면적은 같은 올리고뉴클레오티드로 증강되고, 형광으로 표지화된 뉴클레오티드는 어느 염기가 부가되는지를 나타낸다. 기술된 접근법은 또한 중간 크기의 단편(>300 bp)의 전체 서열분석을 비롯한, 다른 프로토콜로도 확장될 수 있다.

쌍 단부 방법에서, 핵산은 전형적으로 800 bp 미만의 분절/단편으로 파괴된다(예컨대, 제한하는 것은 아니지만, 효소적 단편화, 초음파 처리, 하이드로시어, 분무). (이중 가닥) 단편의 단부를 연마하고, A 테일링하고, PCR 증폭을 일으키는 단일 가닥 신장부를 포함하는 포크형 어댑터에 결찰시켜 상이한(A 및 B) 이중 가닥 신장부를 각 단편의 반대쪽 단부에 도입한다. PCR을 통해 생성된 단부 조각은 라이브러리 PCR, 클러스터 합성, 및 프라이머 지정 단부 서열분석에서 추후에 사용하기 위한 기능성 부위를 포함한다. 각 DNA 단편의 (+) 및 (-) 가닥과 관련하여 두 배향 모두에 단부 표지(A 및 B)를 가지는 PCR 생성물이 생성된다.

PCR 증폭 및 겔 여과 후, 이중 가닥의, 벡터로 변형된 둔단의 DNA 단편을 단일 가닥으로 변성시킨다. 이를 포획 챔버(유동 셀)의 표면 타일 상에 공유적으로 부착된 (3' 단부 신장부 B 또는 A에 상보적인) 단일 가닥 올리고뉴클레오티드의 론에 어닐링시킨다.

상기 브릿지는 변성되고, 단일 가닥은 다시 신규 포획 올리고뉴클레오티드에 재어닐링되고, 각 DNA 단편이 원래 챔버 표면에 어닐링된 경우에는 증폭이 그의 A 또는 B 단부에 의해 표면에 부착된 올리고뉴클레오티드 클러스터를 생성할 때까지 상기 공정은 반복된다. 이는 전형적으로 유동 셀당 다수의 클러스터를 생성한다.

서열분석은 전형적으로는 2단계로 수행된다. I 단계에서, 두 링커 중 하나에 특이적인 시약을 이용하여 DNA 브릿지 집단을 절단하고, 비공유적으로 연결된 가닥을 변성시키고, 세척한다. 포크형 어댑터와 함께 도입된 A 서열분석 프라이머를 사용할 경우, 이로써 유리 단부로부터 서열분석하고자 하는, 두 배향 중 오직 한 배향인(예컨대, B 공유 5' 단부) 단일 가닥 DNA가 남게 된다.

서열분석은 A 올리고뉴클레오티드로 4개의 식별가능한 형광성 뉴클레오티드 트리포스페이트 유도체 용액으로부터 적절한 염기를 연속적으로 도입하는 것을 프라이밍하고; 각각의 새로 부가된 염기를 광학적으로 기록한 후, 형광단을 가수분해하고, 반응을 반복함으로써 수행된다. 이러한 방식으로 유리 단부의 최대 150, 250개 이상의 염기를 광학적으로 기록할 수 있다.

I 단계 후, 서열분석 동안 생성된 테더링되지 않은 가닥은 변성되고, 이를 세척한다. 이어서, 유지된 주형을 그의 유리 3' 단부에서 타일 상의 포획 올리고뉴클레오티드(예컨대, A)에 재어닐링시킨다. 포획 올리고뉴클레오티드를 신장시킴으로써 반대 배향의 새로운 가닥을 합성한다. 이어서, 생성된 가교된 올리고뉴클레오티드 집단을 제2 (예컨대, B) 링커에서 절단하고, 예시된 바와 같이, 생성된 테더링되지 않은 가닥은 변성되고, 이를 세척한다. 남은 집단은 상기에서와 같이 서열분석된 유리 3'('B') 단부를 제시하고, 'B' 올리고뉴클레오티드로 프라이밍하여 제1 서열분석된 가닥의 반대쪽 단부의 상보적인 서열을 수득하게 된다. 각 클러스터에 대하여 상기 리드 쌍을 함께 기록한다.

메이트 쌍 서열분석에서, 핵산을 (예컨대, 제한하는 것은 아니지만, 효소적 단편화, 초음파 처리 또는 하이드로시어에 의해) 분절로, 전형적으로는 수 kb의 길이로 단편화한다. 상기 무작위 단편을 단부 연마하고, 그의 단부에서 비오티닐화하고, 효소적 결찰에 의해 환형화하고; 나머지 선형 생성물은 엑소뉴클레아제 I 및 II를 이용하여 제거한다.

환형화는 전단 단편의 두 비오티닐화된 단부를 함께 연결한다. 환형 핵산을 무작위적으로 더 짧은 단쇄의 선형 단편, 전형적으로는 300-500 bp 길이의 것으로 분해한다. 비오틴을 포함하는 짧은 단편을 스트렙트아비딘 비드에 흡착시키고, 비오티닐화되지 않은 단편을 세척하고, 폐기한다. 유지된 단편의 단부를 연마하고, A 테일링하고, (상기 기술된 바와 같은) 포크형 어댑터에 결찰시키고, 겔 여과에 의해 크기를 선별한다. 생성된 단편은, 각 요소 또는 쌍이 핵산 상에서 공지된 평균 거리(제1 전단 길이)만큼 그 나머지 것으로부터 이격되어 있는 것인, 무작위로 분포된 서열 요소 쌍으로 이루어진 라이브러리를 구성한다. 이러한 메이트 쌍 라이브러리는 이전 섹션에서 개요된 프로토콜에 따라 서열분석된다.

실시예 1: 태깅 시약을 이용한 mRNA 서열 분석

세포 또는 조직 유래된 폴리 A mRNA는 표준 키트를 이용하여 단리된 것이고, 게놈 DNA의 잔류물 제거는 전형적이다(DNA 프리TM(DNA-FreeTM), 라이프테크놀러지(LifeTechnology)).

1. SMID를 함유하는 태깅 시약으로 프라이밍된, RNA로부터 cDNA 역전사(뮤린 말로니 백혈병 바이러스 RT아제(Murine Maloney Leukemia Virus RTase)); 이종이중체의 RNA아제 H 처리. 뮤린 말로니 백혈병 바이러스 RT아제를 다른 바이러스 역전사효소, 또는 RNA 역전사를 수행할 수 있는 다른 기원의 임의의 유사한 효소로 대체될 수 있다.

2. 표지화된 단일 가닥 cDNA를 환형화한다(T4 RNA, DNA 리가제(써크리가제; 에피센터); 잔류 선형 cDNA를 엑소뉴클레아제 I로 제거.

3. 환형화된 cDNA 현탁액을 분취하고, 롤링 서클 증폭(RCA)(phi 29 DNA 폴리머라제)으로 신장시킨다[증폭시키고자 하는 cDNA 집단은 프라이머 선택에 따라 달라질 수 있다].

4. 고차분지형 RCA cDNA 동종중합체를 임의적으로 S-1 뉴클레아제 또는 멍빈 뉴클레아제로 탈분지화한다; 효소적 단편화 또는 초음파 처리 완충을 위해 옮기고, 미리 선택된 평균 크기([예컨대, 2-4 kb])로 단편화한다(예컨대, 효소적 단편화, 초음파 처리, 하이드로시어).

5. 단편을 제한 효소(들)로 절단하고; 완충제를 교환한다. 상기 물질을 표준 방법에 의한 라이브러리 제조 및 서열분석을 위해 상업적 게놈 센터(Genome Center)에 제출한다. 표준 키트의 A 프라이머를 교체하기 위해 프라이머/태깅된 특이 변형된 PCR 프라이머를 공급받을 수 있다.

실시예 2: 폴리아데닐화되지 않은 RNA

(Salzman, J.) 등은 환형 RNA가 다양한 세포 유형에서 수백 개의 인간 유전자로부터 유래된 우세한 전사체 이소폼이라고 보고한 바 있다(문헌 [PloS One, 2012, vol 7, issue 2, e30733]). 이는 폴리아데닐화된 것이 아니다. 이러한 부류이 RNA 생성물은 본원에 기술된 바와 같이, RNA 카피 제조를 위해 무작위 3' 말단 서열을 포함하는 태깅 서열을 낮은 화학량론으로 사용한 후, 이어서, 환형화하고, 프로세싱하는 상기 기술을 통해 쉽게 서열분석될 수 있다.

Claims

a) 샘플 및 태깅 폴리뉴클레오티드 군을 혼합하는 단계로서, 샘플이 상이한 길이 및/또는 상이한 서열의 핵산의 혼합물을 포함하고, 태깅 폴리뉴클레오티드는 개별적으로 비변이체 서열, 및 무작위 서열을 갖는 부분을 포함하며, 혼합은 태깅 폴리뉴클레오티드가 핵산에 결합하여 개별적으로 무작위 서열로 태깅된 핵산을 형성하도록 하는 조건하에서 수행되는 것인 단계;
b) 개별적으로 무작위 서열로 태깅된 핵산 혼합물을, 롤링 서클 증폭 또는 중합효소 연쇄 반응에 의해 동종중합체의 혼합물로 복제하는 단계로서, 동종중합체 각각은 반복 핵산 및 반복 서열 태그를 포함하는 것인 단계;
c) 동종중합체를 파괴하여 동종중합체 단편을 제공하는 단계; 및
d) 동종중합체 단편을 서열분석하여, 개별 폴리뉴클레오티드의 서열을 얻는 단계를 포함하는,
불균일 혼합물을 포함하는 샘플에서 개별 폴리뉴클레오티드를 서열분석하기 위한 방법.
제1항에 있어서, 단계 c) 이후에, 동종중합체 단편을, 태깅 폴리뉴클레오티드 상의 비변이체 서열내 부위를 절단하는 제한 뉴클레아제와 혼합하여, 절단된 동종중합체 단편을 서열분석하는 단계 d) 이전에, 절단된 동종중합체 단편을 제공하는 단계를 추가로 포함하는 방법.
제1항에 있어서, 단계 d) 이후 동종중합체 단편 내의 태깅된 서열을 확인하고, 무작위 서열의 부분 내의 동일한 서열들을 분리하고, 샘플 중에 존재한 핵산 서열을 재구성하는 단계를 추가로 포함하는 방법.
제1항에 있어서, 태깅 폴리뉴클레오티드가 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문(palindromic) 서열을 포함하는 것인 방법.
삭제
a) 태깅 부분 및 표적 부분을 포함하는 이중 가닥 핵산 단편을 제공하는 단계로서, 태깅 부분은 비변이체 서열의 분절 및 무작위 서열의 분절을 포함하고, 비변이체 서열은 제1 프라이머 부위 및 제한 부위를 포함하는 것인 단계;
b) 이중 가닥 단편을 제한 부위에 대한 제한 효소와 혼합하여 절단된 단편을 제공하는 단계;
c) 절단된 단편이 환형 단편을 형성하도록 하는 조건하에서 절단된 단편을 효소와 혼합하는 단계;
d) 환형 단편을 무작위 지점에서 파괴하여 전단된(sheared) 단편을 제공하는 단계;
e) 제2 프라이머 부위, 제1 포획 서열 및 제2 포획 서열의 상보체를 포함하는 어댑터를 전단된 단편의 단부에 결찰시켜 어댑터 핵산 접합체를 생산하는 단계;
f) 제1 및 제2 프라이머 부위에 대한 프라이머를 사용하여 어댑터 핵산 접합체를 증폭시키는 단계로서, 제1 프라이머는 5' 단부 상에 제1 포획 서열을 포함하고, 제2 프라이머는 5' 단부 상에 제2 포획 서열을 포함하여 포획 표적 태깅된 접합체를 생산하는 단계; 및
g) 포획 표적 태깅된 접합체를 서열분석하여, 샘플 중의 개별 폴리뉴클레오티드의 서열을 얻는 단계를 포함하는,
불균일 혼합물을 포함하는 샘플에서 개별 폴리뉴클레오티드를 서열분석하기 위한 방법.
제6항에 있어서, 단계 a)의 이중 가닥 핵산 단편에서, 무작위 서열의 분절이 제1 프라이머 부위와 표적 부분 사이에 존재하는 것인 방법.
제6항에 있어서, 단계 a)의 이중 가닥 핵산 단편에서, 제1 프라이머 부위가 무작위 서열의 분절과 표적 부분 사이에 존재하는 것인 방법.
제6항에 있어서, 단계 a)의 이중 가닥 핵산 단편에서, 제한 부위가 무작위 서열의 분절과 제1 프라이머 부위 사이에 존재하는 것인 방법.
제6항에 있어서, 단계 a)의 이중 가닥 핵산 단편에서, 무작위 서열의 분절이 제한 부위와 제1 프라이머 부위 사이에 존재하는 것인 방법.
제6항에 있어서, 단계 a)의 이중 가닥 핵산 단편에서, 핵산 단편이 무작위 서열의 두 분절을 포함하고, 무작위 분절들은 동일한 서열이고, 제한 부위는 상기 동일한 서열들 사이에 존재하는 것인 방법.
a) 샘플 및 태깅 폴리뉴클레오티드 군을 혼합하는 단계로서, 샘플은 상이한 길이 및/또는 상이한 서열의 핵산의 불균일 혼합물을 포함하고, 태깅 폴리뉴클레오티드는 개별적으로 비변이체 서열, 및 무작위 서열을 갖는 부분을 포함하고, 태깅 폴리뉴클레오티드는 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문 서열을 포함하고,
무작위 서열을 갖는 부분은 이중 가닥 분절 내에 존재하고,
혼합은 태깅 폴리뉴클레오티드가 핵산에 결합하여 개별적으로 태깅 폴리뉴클레오티드로 태깅된 핵산을 형성하도록 하는 조건하에서 수행되는 것인 단계;
b) 개별적으로 태깅 폴리뉴클레오티드로 태깅된 핵산 혼합물을 롤링 서클 증폭 또는 중합효소 연쇄 반응에 의해 동종중합체의 혼합물로 복제하는 단계로서, 각각의 동종중합체는 반복 핵산 및 반복 서열 태그를 포함하는 것인 단계;
c) 동종중합체를 무작위 지점에서 파괴하여 동종중합체 단편을 생산하는 단계;
d) 동종중합체 단편을, 태깅 폴리뉴클레오티드 상의 비변이체 서열 내 부위를 절단하는 제한 뉴클레아제와 혼합하여, 하나의 말단 상에 절단된 제한 부위를 포함하고, 다른 말단 상에 파괴 부위를 포함하는 절단된 동종중합체 단편을 제공하는 단계; 및
e) 절단된 동종중합체 단편을 서열분석하는 단계를 포함하는,
핵산의 불균일 혼합물을 포함하는 샘플에서 개별 폴리뉴클레오티드를 서열분석하기 위한 방법.
각각 개별적으로 비변이체 서열, 무작위 서열을 갖는 부분, 폴리 T를 갖는 부분, 및 제한 부위를 포함하는 폴리뉴클레오티드의 혼합물을 포함하는 조성물로서, 비변이체 서열 및 무작위 서열이 제한 부위를 포함하는 이중 가닥 분절로 자가 혼성화하도록 구성된 회문 서열을 포함하는 것인 조성물.
제13항에 있어서, 폴리 T가 3' 단부에 존재하고, 무작위 서열을 갖는 부분이 폴리 T와 제한 부위 사이에 존재하는 것인 조성물.
삭제
제13항 또는 제14항에 있어서, 무작위 서열을 갖는 부분이 이중 가닥 분절 내에 존재하는 것인 조성물.
제14항에 있어서, 폴리 T가 3' 단부에 존재하고, 5' 단부에 존재하는 제2 폴리 T를 추가로 포함하는 조성물.
삭제
제13항, 제14항 및 제17항 중 어느 한 항에 있어서, 무작위 서열을 갖는 부분이 무작위 염기들 또는 비변이체 서열이 산재되어 있는 서열을 포함하는 것인 조성물.
삭제
a) 프라이머 및 복제 시약을, 3' 폴리 T, 비변이체 서열, 무작위 서열을 갖는 부분, 및 루프를 포함하는 출발 헤어핀 폴리뉴클레오티드와 혼합하여 부분적으로 이중 가닥이고 부분적으로 단일 가닥인 핵산을 형성하는 단계로서, 프라이머는 루프 서열에 혼성화하는 것인 단계; 및
b) 부분적으로 이중 가닥이고 부분적으로 단일 가닥인 핵산을 폴리-라이보실 A 프라이머 및 복제 시약과 혼합하여 전체적으로 이중 가닥 핵산을 형성하는 단계를 포함하는, 이중 가닥 핵산의 제조 방법.
제21항에 있어서, 단계 b) 이후, RNase로 폴리-라이보실 A 프라이머를 절단하여 폴리 T 테일을 갖는 이중 가닥 핵산을 제공하는 단계를 추가로 포함하는 방법.
제22항에 있어서, 이중 가닥 핵산을 변성시키고 복원시켜, 폴리 T 테일 및 출발 헤어핀 폴리뉴클레오티드를 갖는 헤어핀 핵산을 형성하는 단계를 추가로 포함하는 방법.
제21항 내지 제23항 중 어느 한 항에 있어서, 출발 헤어핀 폴리뉴클레오티드가 고체 지지체에 접합되어 있는 것인 방법.
제13항, 제14항 및 제17항 중 어느 한 항의 폴리뉴클레오티드를 포함하는 키트.