KR102507415B1 - 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법 - Google Patents

고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법 Download PDF

Info

Publication number
KR102507415B1
KR102507415B1 KR1020227014338A KR20227014338A KR102507415B1 KR 102507415 B1 KR102507415 B1 KR 102507415B1 KR 1020227014338 A KR1020227014338 A KR 1020227014338A KR 20227014338 A KR20227014338 A KR 20227014338A KR 102507415 B1 KR102507415 B1 KR 102507415B1
Authority
KR
South Korea
Prior art keywords
cells
nucleic acid
indexed
nuclei
cell
Prior art date
Application number
KR1020227014338A
Other languages
English (en)
Other versions
KR20220057665A (ko
Inventor
프랭크 제이. 스티머스
제이 쉔뎌
준유 카오
몰리 개스퍼리니
제이콥 톰
Original Assignee
일루미나, 인코포레이티드
유니버시티 오브 워싱톤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드, 유니버시티 오브 워싱톤 filed Critical 일루미나, 인코포레이티드
Publication of KR20220057665A publication Critical patent/KR20220057665A/ko
Application granted granted Critical
Publication of KR102507415B1 publication Critical patent/KR102507415B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Abstract

본 명세서에는 복수의 단일 세포로부터 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법이 제공된다. 일 실시형태에서, 시퀀싱 라이브러리는 복수의 단일 세포로부터 전체 전사체를 나타내는 핵산을 포함한다. 일 실시형태에서, 핵산은 3개의 인덱스 서열을 포함한다. 또한, 본 명세서에는 조성물, 예를 들어, 3개의 인덱스 서열을 갖는 핵산을 포함하는 조성물이 제공된다.

Description

고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법 {HIGH-THROUGHPUT SINGLE-CELL TRANSCRIPTOME LIBRARIES AND METHODS OF MAKING AND OF USING}
관련 출원에 대한 상호 참고문헌
본 출원은 2018년 6월 4일자로 출원된 미국 가출원 제62/680,259호, 및 2019년 3월 21일자로 출원된 미국 가출원 제62/821,678호의 이익을 주장하며, 이들 기초출원의 각각은 전문이 본 명세서에 참고로 포함된다.
정부 지원
본 발명은 미국 국립 보건원(National Institutes of Health)에 의해 수여된 허가번호 DP1 HG007811 하에서 정부 지원으로 이루어졌다. 정부는 본 발명에서 특정 권리를 갖는다.
기술분야
본 개시내용의 실시형태는 핵산을 시퀀싱하는 것에 관한 것이다. 특히, 본 명세서에 기술되는 방법 및 조성물의 실시형태는 인덱싱된 단일 세포 전사체 라이브러리를 제조하는 것 및 이로부터 서열 데이터를 얻는 것에 관한 것이다.
세포는 다양한 과정 동안, 예를 들어, 다세포 유기체의 발달 동안, 및 치료제에 대한 노출과 같은 상이한 조건에 대한 반응으로 기능적으로 및 분자적으로 구별되는 상태를 가로질러 이동한다. 세포 상태 전이 경로, 또는 세포 운명을 특징분석하는 것은 변화하는 환경에 대한 세포의 발달 및 분자 반응을 포함하는 경로를 이해하는데 유용하다. 예를 들어, 발달 결함의 조절인자는 식별될 수 있으며, 치료제가 세포에 어떻게 영향을 미치는지에 대한 보다 양호한 이해가 달성될 수 있다.
단일 세포 조합 인덱싱(single cell combinatorial indexing; 'sci-')은 다수의 단일 세포 또는 핵의 핵산 함유물을 독특하게 표지화하기 위해 분할-풀 바코딩(split-pool barcoding)을 이용하는 방법론적 프레임워크(methodological framework)이다. 그러나, 현재 단일 세포 게놈 기술은 다세포 유기체의 발달 동안 통상적으로 존재하는 세포 타입의 수를 빠르게 다양화하고 확장시키는 분자 상태 및 궤적(궤적)의 전체적인 견해를 얻기 위한 처리량 및 해상도가 부족하다. 현 단일 세포 게놈 기술은 단지 세포의 상태의 스냅샷(snapshot)만을 캡처하고, 이에 따라, 고유(예를 들어, 세포의 고유 세포 주기 프로그램) 및 외부(예를 들어, 치료제와 같은 외부 자극에 대한 세포의 반응) 인자에 의해 조절된 세포 전이 역학에 대한 정보를 제공할 수 없다.
본 명세서에는 새로이 합성된 RNA를 표지화함으로써 세포 상태 전이 역학(cell state transition dynamic)을 식별하는 방법이 제공된다. 전체 RNA 전사체 및 새로이 합성된 RNA 전사체 둘 모두는 캡처되어, 단일 세포 수준에서 시점들 간에 전사체 역학의 특징분석을 가능하게 한다. 또한, 본 명세서에는 고려되는 mRNA에 대한 단일 세포 시퀀싱에 초점을 맞추어서, 임의의 제공된 전사체의 존재비의 변화를 감지하기 위해 제한된 전류의 힘을 어드레싱하는 방법이 제공된다. 종래에 가능한 것보다 더 큰 수의 단일 세포의 프로파일링을 야기시키기 위해 세포 손실 속도 및 제한된 반응 효율을 극복하는 방법이 또한 제공된다.
일 실시형태에서, 방법은 제1의 복수의 구획에서 복수의 핵 또는 세포를 제공하되, 각 구획은 핵 또는 세포의 서브세트를 포함하고, 세포로부터 얻어진 세포 또는 핵의 서브세트에서 새로이 합성된 RNA를 표지화하는 것을 포함한다. 핵 또는 세포의 각 서브세트에서 RNA 분자는 인덱싱된 핵 또는 세포를 생성시키기 위해 처리되며, 여기서, 이러한 처리는 핵 또는 세포의 각 서브세트에 존재하는 RNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 DNA 핵산을 야기시키고, 이후에, 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 것을 포함한다.
다른 실시형태에서, 방법은 제1의 복수의 구획에서 복수의 핵 또는 세포를 제공하는 것을 포함하며, 여기서, 각 구획은 핵 또는 세포의 서브세트를 포함한다. 각 서브세트는 사전결정된 RNA 핵산에 어닐링되는 프라이머 및 역전사 효소와 접촉되어, 프라이머 및 주형 RNA 핵산의 상응하는 DNA 뉴클레오타이드 서열을 갖는 이중 가닥 DNA 핵산을 야기시킨다. 핵 또는 세포의 각 서브세트에서 DNA 분자는 처리되어 인덱싱된 핵 또는 세포를 생성시키며, 여기서, 이러한 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 야기시키고, 이후에, 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 것을 포함한다.
다른 실시형태에서, 방법은 제1의 복수의 구획에서 복수의 핵 또는 세포를 제공하는 것을 포함하며, 여기서, 각 구획은 핵 또는 세포의 서브세트를 포함한다. 각 서브세트는 사전결정된 RNA 핵산에 어닐링되는 프라이머 및 역전사효소와 접촉되어, 프라이머 및 주형 RNA 핵산의 상응하는 DNA 뉴클레오타이드 서열을 갖는 이중 가닥 DNA 핵산을 야기시킨다. 핵 또는 세포의 각 서브세트에서 DNA 분자는 처리되어 인덱싱된 핵 또는 세포를 생성시키며, 여기서, 이러한 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 야기시키고, 이후에 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 것을 포함한다. 풀링된 인덱싱된 핵 또는 세포는 분할되고, 이후에, 추가로 처리되어 DNA 분자에 제2 구획 특이적 인덱스를 첨가하고, 조합되고, 분할되고, 추가로 처리되어 DNA 분자에 제3 구획 특이적 인덱스를 첨가한다.
정의
본 명세서에서 사용되는 용어는 달리 명시되지 않는 한 관련 분야에서 이의 통상적인 의미를 갖는 것으로 이해될 것이다. 본 명세서에서 사용되는 여러 용어들 및 이의 의미들은 하기에 기술된다.
본 명세서에서 사용되는 용어 "유기체," "대상체"는 호환 가능하게 사용되고, 미생물(예를 들어, 원핵생물 또는 진핵생물), 동물 및 식물을 지칭한다. 동물의 일례는 포유동물, 예를 들어, 인간이다.
본 명세서에서 사용되는 용어 "세포 타입"은 모폴로지, 표현형, 발달 기원 또는 다른 공지되거나 인식 가능한 구별되는 세포 특징을 기초로 하여 세포를 식별하도록 의도된다. 다양한 상이한 세포 타입은 단일 유기체로부터(또는 유기체의 동일한 종으로부터) 얻어질 수 있다. 예시적인 세포 타입은 생식세포(암컷 생식세포, 예를 들어, 난소 또는 난자 세포, 및 수컷 생식세포, 예를 들어, 정자를 포함함), 난소 상피, 난소 섬유아세포, 고환, 방광, 면역 세포, B 세포, T 세포, 자연살 세포, 수지상 세포, 암 세포, 진핵생물 세포, 줄기 세포, 혈액 세포, 근육 세포, 지방 세포, 피부 세포, 신경 세포, 뼈 세포, 췌장 세포, 내피 세포, 췌장 상피, 췌장 알파, 췌장 베타, 췌장 내피, 골수 림프아세포, 골수 B 림프아세포, 골수 대식세포, 골수 적혈모세포, 골수 수상돌기, 골수 지방세포, 골수 골세포, 골수 연골세포, 전골아세포, 골수 거대핵모세포, 방광, 뇌 B 림프구, 뇌 신경교, 뉴런, 뇌 성상세포, 신경외배엽, 뇌 대식세포, 뇌 소교세포, 뇌 상피, 피질 뉴런, 뇌 섬유아세포, 유방 상피, 결장 상피, 결장 B 림프구, 유방 상피, 포유류 근상피, 포유류 섬유아세포, 결장 장세포, 자궁경부 상피, 유방 도관 상피, 혀 상피, 편도선 수상돌기, 편도선 B 림프구, 말초 혈액 림프아세포, 말초 혈액 T 림프아세포, 말초 혈액 피부 T 림프구, 말초 혈액 자연살, 말초 혈액 B 림프아세포, 말초 혈액 단핵구, 말초 혈액 골수아세포, 말초 혈액 단핵모세포, 말초 혈액 전골아세포, 말초 혈액 대식세포, 말초 혈액 호염기성 세포, 간 내피, 간 비만, 간 상피, 간 B 림프구, 비장 내피, 비장 상피, 비장 B 림프구, 간 세포, 간, 섬유아세포, 폐 상피, 기관지 상피, 폐 섬유아세포, 폐 B 림프구, 폐 슈반, 폐 편평상피, 폐 대식세포, 폐 골아세포, 신경내분비, 폐 치경음, 위 상피, 및 위 섬유아세포를 포함하지만, 이들로 제한되지 않는다.
본 명세서에서 사용되는 용어 "조직"은 유기체에서 하나 이상의 특정 기능을 수행하기 위해 함께 작용하는 세포의 콜렉션 또는 집합체를 의미하는 것으로 의도된다. 세포는 선택적으로, 형태상으로 유사할 수 있다. 예시적인 조직은 배아, 부고환, 눈, 근육, 피부, 힘줄, 정맥, 동맥, 혈액, 심장, 비장, 림프구, 뼈, 골수, 폐, 기관지, 기관, 소화관, 작은 창자, 큰 창자, 결장, 직장, 침샘, 혀, 담낭, 맹장, 간, 췌장, 뇌, 위, 피부, 신장, 요관, 방광, 요도, 생식샘, 고환, 난소, 자궁, 나팔관, 흉선, 뇌하수체, 갑상선, 부신, 또는 부갑상선를 포함하지만, 이들로 제한되지 않는다. 조직은 인간 또는 다른 유기체의 임의의 다양한 장기로부터 유래될 수 있다. 조직은 건강한 조직 또는 건강하지 않은 조직일 수 있다. 건강하지 않은 조직의 예는 생식 조직, 폐, 유방, 직결장, 전립선, 인두, 위, 고환, 피부, 신경계, 뼈, 난소, 간, 혈액 조직, 췌장, 자궁, 신장, 림프 조직, 등에서의 악성종양을 포함하지만, 이들로 제한되지 않는다. 악성 종양은 다양한 조직학적 서브타입, 예를 들어, 암종, 선암종, 육종, 섬유종암종, 신경내분비 미분화일 수 있다.
본 명세서에서 사용되는 용어 "구획"은 다른 것들로부터 어떠한 것을 분리시키거나 단리시키는 구역 또는 부피를 의미하는 것으로 의도된다. 예시적인 구획은 바이알, 튜브, 웰, 점적, 볼루스, 비드, 용기, 표면 피처, 또는 유체 흐름, 자력, 전기 전류, 등과 같은 물리력에 의해 분리된 구역 또는 부피를 포함하지만, 이들로 제한되지 않는다. 일 실시형태에서, 구획은 다중-웰 플레이트, 예를 들어, 96- 또는 384-웰 플레이트의 웰이다. 본 명세서에서 사용되는 점적은 하나 이상의 핵 또는 세포를 캡슐화하기 위한 비드인 하이드로겔 비드를 포함하고, 하이드로겐 조성물을 포함할 수 있다. 일부 실시형태에서, 점적은 하이드로겔 물질의 균질한 점적이거나 폴리머 하이드로겔 쉘을 갖는 중공 점적이다. 균질하거나 중공이든지 간에, 점적은 하나 이상의 핵 또는 세포를 캡슐화할 수 있다. 일부 실시형태에서, 점적은 표면활성제 안정화된 점적이다.
본 명세서에서 사용되는 "트랜스포좀 복합체"는 통합 인식 부위를 포함하는 통합 효소 및 핵산을 지칭한다. "트랜스포좀 복합체"는 유전자전위효소 및 전위 반응을 촉매화할 수 있는 유전자전위효소 인식 부위에 의해 형성된 기능성 복합체이다[예를 들어, Gunderson et al., WO 2016/130704호 참조]. 통합 효소의 예는 인테그라제 또는 유전자전위효소를 포함하지만, 이들로 제한되지 않는다. 통합 인식 부위의 예는 유전자전위효소 인식 부위를 포함하지만, 이들로 제한되지 않는다.
본 명세서에서 사용되는 용어 "핵산"은 당해 분야에서 이의 용도와 일치하는 것으로 의도되고, 천연 핵산 또는 이의 기능적 유사체를 포함한다. 특히 유용한 기능적 유사체는 서열 특이적 방식으로 핵산을 혼성화하거나 특정 뉴클레오타이드 서열의 복제를 위한 주형으로서 사용될 수 있다. 천연 핵산은 일반적으로, 포스포디에스터 결합을 함유한 골격을 갖는다. 유사한 구조는 당해 분야에 공지된 임의의 다양한 것을 포함하는 대안적인 골격 연결을 가질 수 있다. 천연 핵산은 일반적으로 데옥시리보 당(예를 들어, 데옥시리보핵산(DNA)에서 확인됨) 또는 리보오스 당(예를 들어, 리보핵산(RNA)에서 확인됨)을 갖는다. 핵산은 당해 분야에 공지된 이러한 당 모이어티의 임의의 다양한 유사체를 함유할 수 있다. 핵산은 천연 또는 비-천연 염기를 포함할 수 있다. 이와 관련하여, 천연 데옥시리보핵산은 아데닌, 티민, 사이토신, 또는 구아닌으로 이루어진 군으로부터 선택된 하나 이상의 염기를 가질 수 있으며, 리보핵산은 아데닌, 우라실, 사이토신, 또는 구아닌으로 이루어진 군으로부터 선택된 하나 이상의 염기를 가질 수 있다. 핵산에 포함될 수 있는 유용한 비-천연 염기는 당해 분야에 공지되어 있다. 비-천연 염기의 예는 로킹된 핵산(LNA), 브릿징된 핵산(BNA), 및 유사-상보적 염기를 포함한다[Trilink Biotechnologies, 캘리포니아주 샌디에이고 소재]. LNA 및 BNA 염기는 DNA 올리고뉴클레오타이드 내에 통합되고, 올리고뉴클레오타이드 혼성화 강도 및 특이성을 증가시킬 수 있다. LNA 및 BNA 염기 및 이러한 염기의 사용은 당업자에게 공지되어 있고 일상적이다. 달리 명시하지 않는 한, 용어 "핵산"천연 및 비천연 mRNA, 비-코딩 RNA, 예를 들어, 3' 단부에 폴리-A가 없는 RNA, RNA로부터 유도된 핵산, 예를 들어, cDNA, 및 DNA를 포함한다.
본 명세서에서 사용되는 용어 "표적"은 핵산을 참조하여 사용될 때, 본 명세서에 기술된 방법 또는 조성물의 문맥에서 핵산에 대한 의미론적 식별자로서 의도되고, 달리 명확하게 명시하지 않는 것을 넘어서 핵산의 구조 또는 기능을 본질적으로 제한하지 않는다. 표적 핵산은 본질적으로 공지되거나 미지의 서열의 임의의 핵산일 수 있다. 이는 예를 들어, 게놈 DNA(예를 들어, 염색체 DNA), 염색체외 DNA, 예를 들어, 플라스미드, 무세포 DNA, RNA(예를 들어, RNA 또는 비-코딩 RNA), 단백질(예를 들어, 세포 또는 세포 표면 단백질, 또는 cDNA의 단편일 수 있다. 시퀀싱은 표적 분자 전체 또는 이의 일부의 서열의 결정을 야기시킬 수 있다. 표적은 1차 핵산 샘플, 예를 들어, 뉴클레우스로부터 유도될 수 있다. 일 실시형태에서, 표적은 각 표적의 일단부 또는 두 단부 모두에서 공통 서열의 배치에 의해 증폭을 위해 적합한 주형으로 처리될 수 있다. 표적은 또한, cDNA로의 역전사에 의해 1차 RNA 샘플로부터 얻어질 수 있다. 일 실시형태에서, 표적은 세포에 존재하는 DNA, RNA, 또는 단백질의 서브세트를 참조로 하여 사용된다. 표적화된 시퀀싱은 통상적으로, PCR 증폭(예를 들어, 영역-특이적 프라이머) 또는 혼성화-기반 캡처 방법 또는 항체에 의해 고려되는 유전자 또는 영역 또는 단백질의 선택 및 단리를 사용한다. 표적화된 농축은 방법의 다양한 단계에서 일어날 수 있다. 예를 들어, 표적화된 RNA 표현은 역전사 단계에서 표적 특이적 프라이머를 사용하거나 또는 더욱 복잡한 라이브러리로부터 서브세트의 혼성화-기반 농축을 이용하여 얻어질 수 있다. 예는 엑솜 시퀀심 또는 L1000 검정이다[Subramanian et al., 2017, Cell, 171;1437-1452]. 표적화된 시퀀싱은 당업자에게 공지된 임의의 농축 공정을 포함할 수 있다.
본 명세서에서 사용되는 용어 "공통"은 뉴클레오타이드 서열을 기술하기 위해 사용될 때, 분자가 또한 서로 상이한 서열의 영역을 갖는 둘 이상의 핵산 분자에 대해 공통인 서열의 영역을 지칭한다. 분자의 콜렉션의 상이한 구성원에 존재하는 공통 서열은 공통 캡처 핵산, 예를 들어, 공통 서열, 예를 들어, 공통 캡처 서열의 일부에 상보적인 캡처 올리고뉴클레오타이드의 집단을 사용하여 다수의 상이한 핵산의 캡처를 허용할 수 있다. 공통 캡처 서열의 비제한적인 예는 P5 및 P7 프라이머에 일치하거나 이에 대해 상보적인 서열을 포함한다. 유사하게, 분자의 콜렉션의 상이한 구성원에 존재하는 공통 서열은 공통 서열, 예를 들어, 공통 고정 서열의 일부에 상보적인 공통 프라이머의 집단을 사용하여 다수의 상이한 핵산의 복제(예를 들어, 시퀀싱) 또는 증폭을 허용할 수 있다. 일 실시형태에서, 공통 고정 서열은 공통 프라이머(예를 들어, 리드 1 또는 리드 2에 대한 시퀀싱 프라이머)가 시퀀싱을 위해 어닐링되는 부위로서 사용된다. 이에 따라, 캡처 올리고뉴클레오타이드 또는 공통 프라이머는 공통 서열에 특이적으로 혼성화할 수 있는 서열을 포함한다.
용어 "P5" 및 "P7"은 공통 캡처 서열 또는 캡처 올리고뉴클레오타이드를 지칭할 때 사용될 수 있다. 용어 "P5'"(P5 프라임) 및 "P7'"(P7 프라임)은 각각 P5 및 P7의 보체를 지칭한다. 임의의 적합한 공통 캡처 서열 또는 캡처 올리고뉴클레오타이드가 본 명세서에 제시된 방법에서 사용될 수 있으며, P5 및 P7의 사용이 단지 예시적인 실시형태라는 것으로 이해될 것이다. 플로우 셀 상에서의 캡처 올리고뉴클레오타이드, 예를 들어, P5 및 P7, 또는 이의 보체의 사용은 WO 2007/010251호, WO 2006/064199호, WO 2005/065814호, WO 2015/106941호, WO 1998/044151호, 및 WO 2000/018957호의 개시내용에 의해 예시된 바와 같이, 당해 분야에 공지되어 있다. 예를 들어, 임의의 적합한 정방향 증폭 프라이머는 고정되거나 용액 중에 있던지, 상보적인 서열의 혼성화 및 서열의 증폭을 위해 본 명세서에 제시된 방법에서 유용할 수 있다. 유사하게, 임의의 적합한 역방향 증폭 프라이머는, 고정되거나 용액 중에 있던지, 상보적인 서열의 혼성화 및 서열의 증폭을 위해 본 명세서에 제시된 방법에서 유용할 수 있다. 당업자는 본 명세서에 제시된 바와 같이 핵산의 캡처 및/또는 증폭을 위해 적합한 프라이머 서열을 설계 및 사용하는 방법을 이해할 것이다.
본 명세서에서 사용되는 용어 "프라이머" 및 이의 유도체는 일반적으로, 고려되는 표적 서열에 혼성화할 수 있는 임의의 핵산을 지칭한다. 통상적으로, 프라이머는 뉴클레오타이드가 폴리머라제에 의해 중합될 수 있거나 뉴클레오타이드 서열, 예를 들어, 인덱스가 결찰될 수 있는 기질로서 기능한다. 그러나, 일부 실시형태에서, 프라이머는 합성된 핵산 가닥 내에 통합될 수 있고, 다른 프라이머가 합성된 핵산 분자에 대해 상보적인 신규한 가닥의 합성을 준비하기 위해 혼성화할 수 있는 부위를 제공할 수 있다. 프라이머는 뉴클레오타이드 또는 이들의 유사체의 임의의 조합을 포함할 수 있다. 일부 실시형태에서, 프라이머는 단일 가닥 올리고뉴클레오타이드 또는 폴리뉴클레오타이드이다. 용어 "폴리뉴클레오타이드" 및 "올리고뉴클레오타이드"는 임의의 길이의 뉴클레오타이드의 폴리머 형태를 지칭하기 위해 호환 가능하게 사용되고, 리보뉴클레오타이드, 데옥시리보뉴클레오타이드, 이의 유사체, 또는 이들의 혼합물을 포함할 수 있다. 용어는 균등물로서 뉴클레오타이드 유사체로부터 제조된 DNA, RNA, cDNA 또는 항체-올리고 컨쥬게이트의 유사체를 포함하고, 단일 가닥(예를 들어, 센스 또는 안티센스) 및 이중가닥 폴리뉴클레오타이드에 적용 가능할 수 있는 것으로 이해되어야 한다. 본 명세서에서 사용되는 용어는 또한, 예를 들어, 역전사 효소의 작용에 의해, RNA 주형으로부터 형성된 상보적 또는 카피 DNA인, cDNA를 포함한다. 이러한 용어는 단지 분자의 1차 구조를 지칭한다. 이에 따라, 이러한 용어는 삼중-, 이중- 및 단일-가닥 데옥시리보핵산("DNA") 뿐만 아니라 삼중-, 이중- 및 단일-가닥 리보핵산("RNA")을 포함한다.
본 명세서에서 사용되는 용어 "어댑터" 및 이의 유도체, 예를 들어, 공통 어댑터는 일반적으로, 본 개시내용의 핵산 분자에 부착될 수 있는 임의의 선형 올리고뉴클레오타이드를 지칭한다. 일부 실시형태에서, 어댑터는 샘플에 존재하는 임의의 표적 서열의 3' 단부 또는 5' 단부에 대해 실질적으로 비-상보적이다. 일부 실시형태에서, 적합한 어댑터 길이는 길이에 있어서, 약 10 내지 100개의 뉴클레오타이드, 약 12 내지 60개의 뉴클레오타이드, 또는 약 15 내지 50개의 뉴클레오타이드이다. 일반적으로, 어댑터는 뉴클레오타이드 및/또는 핵산의 임의의 조합을 포함할 수 있다. 일부 양태에서, 어댑터는 하나 이상의 위치에서 하나 이상의 분열 가능한 기를 포함할 수 있다. 다른 양태에서, 어댑터는 프라이머의 적어도 일부분, 예를 들어, 공통 프라이머와 실질적으로 동일하거나, 실질적으로 상보적인 서열을 포함할 수 있다. 일부 실시형태에서, 어댑터는 다운스트럼 오류 보정, 식별, 또는 시퀀싱을 돕기 위해 바코드(본 명세서에서 태그 또는 인덱스로도 지칭됨)를 포함할 수 있다. 용어 "어댑토" 및 "어댑터"는 호환 가능하게 사용된다.
본 명세서에서 사용되는 용어 "각각"은 항목들의 콜렉션을 참조하여 사용될 때, 콜렉션에서 개별 항목을 식별하도록 의도되지만, 문맥이 달리 명확하게 명시하지 않는 한, 반드시, 콜렉션에서 모든 항목을 지칭하는 것은 아니다.
본 명세서에서 사용되는 용어 "전달체"는 유체를 통한 분자의 이동을 지칭한다. 이러한 용어는 이의 농도 구배(예를 들어, 수동 확산)에 따라 분자의 이동과 같은 수동 전달체를 포함할 수 있다. 이러한 용어는 또한, 능동 전달체를 포함할 수 있으며, 이에 의해, 분자는 이의 농도 구배를 따라 또는 이의 농도 구배에 대해 이동할 수 있다. 이에 따라, 전달체는 요망되는 방향으로 또는 증폭 부위와 같은 요망되는 위치로 하나 이상의 분자를 이동시키기 위해 에너지를 가하는 것을 포함할 수 있다.
본 명세서에서 사용되는 "증폭하다", "증폭하는" 또는 "증폭 반응" 및 이들의 파생어는 일반적으로, 핵산 분자의 적어도 일부분이 적어도 하나의 추가적인 핵산 분자 내에 복제되거나 카피되는 임의의 작용 또는 작용을 지칭한다. 추가적인 핵산 분자는 주형 핵산 분자의 적어도 일부분과 실질적으로 동일하거나 이와 실질적으로 상보적인 서열을 선택적으로 포함한다. 주형 핵산 분자는 단일 가닥이거나 이중 가닥일 수 있으며, 추가적인 핵산 분자는 독립적으로 단일 가닥이거나 이중 가닥일 수 있다. 증폭은 선택적으로, 핵산 분자의 선형 또는 기하급수적 복제를 포함한다. 일부 실시형태에서, 이러한 증폭은 등온 조건에서 수행될 수 있다. 다른 실시형태에서, 이러한 증폭은 써모사이클링(thermocycling)을 포함할 수 있다. 일부 실시형태에서, 증폭은 단일 증폭 반응에서 복수의 표적 서열의 동시 증폭을 포함하는 멀티플렉스 증폭이다. 일부 실시형태에서, "증폭"은 DNA 및 RNA 기반 핵산의 적어도 일부의 단독 또는 조합한 증폭을 포함한다. 증폭 반응은 당업자에게 공지된 임의의 증폭 공정을 포함할 수 있다. 일부 실시형태에서, 증폭 반응은 폴리머라제 사슬 반응(polymerase chain reaction: PCR)을 포함한다.
본 명세서에서 사용되는 "증폭 조건" 및 이의 파생어는 일반적으로, 하나 이상의 핵산 서열을 증폭하기에 적합한 조건을 지칭한다. 이러한 증폭은 선형 또는 기하급수적일 수 있다. 일부 실시형태에서, 증폭 조건은 등온 조건을 포함할 수 있거나, 대안적으로, 써모사이클링 조건, 또는 등온과 써모사이클링 조건의 조합을 포함할 수 있다. 일부 실시형태에서, 하나 이상의 핵산 서열을 증폭시키기에 적합한 조건은 폴리머라제 사슬 반응(PCR) 조건을 포함한다. 통상적으로, 증폭 조건은 공통 서열의 측면에 있는 하나 이상의 표적 서열과 같은 핵산을 증폭시키거나 하나 이상의 어댑터에 결찰된 증폭된 표적 서열을 증폭시키기에 충분한 반응 혼합물을 지칭한다. 일반적으로, 증폭 조건은 증폭 또는 핵산 합성을 위한 촉매, 예를 들어, 폴리머라제; 증폭되는 핵산에 대해 어느 정도 상보성을 갖는 프라이머; 및 뉴클레오타이드, 예를 들어, 핵산에 1회 혼성화된 프라이머의 연장을 증진시키기 위한 데옥시리보뉴클레오타이드 트라이포스페이트(dNTP)를 포함한다. 증폭 조건은 핵산에 프라이머의 혼성화 또는 어닐링, 프라이머의 연장, 및 연장된 프라이머가 핵산 서열로부터 분리되어 증폭되는 변성 단계를 필요로 할 수 있다. 통상적으로, 그러나, 반드시 그러한 것은 아니지만, 증폭 조건은 써모사이클링을 포함할 수 있다. 일부 실시형태에서, 증폭 조건은 어닐링, 연장 및 분리 단계가 반복되는 복수의 사이클을 포함한다. 통상적으로, 증폭 조건은 Mg2+ 또는 Mn2+와 같은 양이온을 포함하고, 또한, 이온 강도의 다양한 변형제를 포함할 수 있다.
본 명세서에서 사용되는 "재-증폭" 및 이의 파생어는 일반적으로, 증폭된 핵산 분자의 적어도 일부분이 임의의 적합한 증폭 공정(일부 실시형태에서, "2차' 증폭으로서 지칭됨)을 통해 추가로 증폭되어, 재증폭된 핵산 분자를 생성하는 임의의 공정을 지칭한다. 2차 증폭은 본래 증폭 공정과 동일할 필요는 없으며, 이에 의해, 증폭된 핵산 분자가 형성되었으며, 또는 재증폭된 핵산 분자가 증폭된 핵산 분자와 완전히 동일하거나 이와 완전히 상보적일 필요는 없다. 필요로 하는 모든 것은 재증폭된 핵산 분자가 증폭된 핵산 분자의 적어도 일부분 또는 이의 보체를 포함하는 것이다. 예를 들어, 재-증폭은 상이한 증폭 조건, 및/또는 1차 증폭보다 상이한 표적-특이적 프라이머를 포함하는 상이한 프라이머의 사용을 포함할 수 있다.
본 명세서에서 사용되는 용어 "폴리머라제 사슬 반응"("PCR")은 클로닝 또는 정제 없이 게놈 DNA의 혼합물에서 고려되는 폴리뉴클레오타이드의 세그먼트의 농도를 증가시키기 위한 방법을 기술한 Mullis 미국 특허 제4,683,195호 및 제4,683,202호의 방법을 지칭한다. 고려되는 폴리뉴클레오타이드를 증폭시키기 위한 이러한 공정은 고려되는 요망되는 폴리뉴클레오타이드를 함유한 DNA 혼합물에 큰 과량의 2개의 올리고뉴클레오타이드 프라이머를 통합하고, 이후에, DNA 폴리머라제의 존재하에서 일련의 열 사이클을 하는 것으로 이루어진다. 2개의 프라이머는 고려되는 이중가닥 폴리뉴클레오타이드의 이의 개개 가닥에 대해 상보적이다. 혼합물은 먼저 고온에서 변성되며, 프라이머는 이후에 고려되는 분자의 폴리뉴클레오타이드 내에 상보적 서열로 어닐링된다. 어닐링 후에, 프라이머는 신규한 쌍의 상보적 가닥을 형성하기 위해 폴리머라제로 연장된다. 변성, 프라이머 어닐링 및 폴리머라제 연장의 단계는 고농도의 고려되는 요망되는 폴리뉴클레오타이드의 증폭된 세그먼트를 얻기 위해 여러 차례 반복될 수 있다(써모사이클링으로 지칭됨). 고려되는 요망되는 폴리뉴클레오타이드(앰플리콘)의 증폭된 세그먼트의 길이는 서로에 대해 프라이머의 상대적 위치에 의해 결정되며, 이에 따라, 이러한 길이는 조절 가능한 파라미터이다. 공정을 반복함으로써, 방법은 PCR로서 지칭된다. 고려되는 폴리뉴클레오타이드의 요망되는 증폭된 세그먼트가 혼합물에서 지배 핵산 서열(농도의 측면에서)이 되기 때문에, 이러한 것은 "PCR 증폭"된다고 한다. 상기에 논의된 방법에 대한 변형예에서, 표적 핵산 분자는 복수의 상이한 프라이머 쌍, 일부 경우에, 고려되는 표적 핵산 분자 당 하나 이상의 프라이머 쌍을 사용하여 PCR 증폭될 수 있고, 이에 의해 멀티플렉스 PCR 반응을 형성할 수 있다.
본 명세서에서 규정된 "멀티플렉스 증폭"은 적어도 하나의 표적-특이적 프라이머를 사용하여 샘플 내에 둘 이상의 표적 서열의 선택적 및 비-랜덤 증폭을 지칭한다. 일부 실시형태에서, 멀티플렉스 증폭은 표적 서열 중 일부 또는 모두가 단일 반응 용기 내에서 증폭되도록 수행된다. 제공된 멀티플렉스 증폭의 "plexy" 또는 "plex"는 일반적으로, 그러한 단일 멀티플렉스 증폭 동안 증폭되는 상이한 표적-특이적 서열의 수를 지칭한다. 일부 실시형태에서, plexy는 약 12-plex, 24-plex, 48-plex, 96-plex, 192-plex, 384-plex, 768-plex, 1536-plex, 3072-plex, 6144-plex 또는 그 이상일 수 있다. 여러 상이한 방법론(예를 들어, 겔 전기영동 이후, 밀도측정, 바이오분석기 또는 정량적 PCR로의 정량화, 표지화된 프로브와의 혼성화; 바이틴화된 프라이머의 통합 이후 아비딘-효소 컨쥬게이트 검출; 증폭된 표적 서열 내에 32P-표지화된 데옥시뉴클레오타이드 트라이포스페이트의 통합)에 의해 증폭된 표적 서열을 검출하는 것이 또한 가능하다.
본 명세서에서 사용되는 "증폭된 표적 서열" 및 이의 파생어는 일반적으로, 표적-특이적 프라이머 및 본 명세서에 제공된 방법을 사용하여 표적 서열을 증폭시킴으로써 행성된 핵산 서열을 지칭한다. 증폭된 표적 서열은 표적 서열과 관련하여 동일한 센스(즉, 양성 가닥) 또는 안티센스(즉, 음성 가닥) 중 어느 하나일 수 있다.
본 명세서에서 사용되는 용어 "결찰하는", "결찰" 및 이의 파생어는 일반적으로, 둘 이상의 분자를 함께 공유 결합시키는, 예를 들어, 둘 이상의 핵산 분자를 서로 공유 결합시키는 공정을 지칭한다. 일부 실시형태에서, 결찰은 핵산의 인접한 뉴클레오타이드 사이에 닉을 결합시키는 것을 포함한다. 일부 실시형태에서, 결찰은 제1 핵산 분자의 단부와 제2 핵산 분자의 단부 사이에 공유 결합을 형성하는 것을 포함한다. 일부 실시형태에서, 결찰은 하나의 핵산의 5' 포스페이트기와 제2 핵산의 3' 하이드록실기 사이에 공유 결합을 형성하여, 결찰된 핵산 분자를 형성하는 것을 포함할 수 있다. 일반적으로, 본 개시내용의 목적을 위하여, 증폭된 표적 서열은 어댑터-결찰된 증폭된 표적 서열을 생성하기 위해 어댑터에 결찰될 수 있다.
본 명세서에서 사용되는 "리가제" 및 이의 파생어는 일반적으로, 2개의 기질 분자의 결찰을 촉매화할 수 있는 임의의 작용제를 지칭한다. 일부 실시형태에서, 리가제는 핵산의 인접한 뉴클레오타이드 사이에서 닉의 결합을 촉매화할 수 있는 효소를 포함한다. 일부 실시형태에서, 리가제는 하나의 핵산 분자의 5' 포스페이트와 다른 핵산 분자의 3' 하이드록실 사이에 공유 결합의 형성을 촉매화하여, 결찰된 핵산 분자를 형성할 수 있는 효소를 포함한다. 적합한 리가제는 T4 DNA 리가제, T4 RNA 리가제, 및 이.콜라이(E. coli) DNA 리가제를 포함할 수 있지만, 이들로 제한되지 않는다.
본 명세서에서 사용되는 "결찰 조건" 및 이의 파생어는 일반적으로, 서로 2개의 분자를 결찰시키기에 적합한 조건을 지칭한다. 일부 실시형태에서, 결찰 조건은 핵산 사이에 닉 또는 갭을 시일링하기에 적합하다. 본 명세서에서 사용되는 용어 닉 또는 갭은 당해 분야에서의 용어의 사용과 일치한다. 통상적으로, 닉 또는 갭은 적절한 온도 및 pH에서, 리가제와 같은 효소의 존재 하에서 결찰될 수 있다. 일부 실시형태에서, T4 DNA 리가제는 약 70 내지 72℃의 온도에서 핵산 사이에 닉을 결합할 수 있다.
본 명세서에서 사용되는 용어 "플로우 셀"은 하나 이상의 유체 시약이 이를 가로질러 흐를 수 있는 고체 표면을 포함하는 챔버를 지칭한다. 본 개시내용의 방법에서 용이하게 이용될 수 있는 플로우 셀 및 관련된 유체 시스템 및 검출 플랫폼의 예는 예를 들어, 문헌[Bentley et al., Nature 456:53-59 (2008)], WO 04/018497호; US 7,057,026호; WO 91/06678호; WO 07/123744호; US 7,329,492호; US 7,211,414호; US 7,315,019호; US 7,405,281호, 및 US 2008/0108082호에 기술되어 있다.
본 명세서에서 사용되는 용어 "앰플리콘"은 핵산을 참조로 하여 사용될 때, 핵산을 카피하는 제품을 의미하며, 여기서, 제품은 핵산의 뉴클레오타이드 서열의 적어도 일부분과 동일하거나 이에 대해 상보적인 뉴클레오타이드 서열을 갖는다. 앰플리콘은 예를 들어, 폴리머라제 연장, 폴리머라제 사슬 반응(PCR), 롤링 원형 증폭(rolling circle amplification: RCA), 결찰 연장, 또는 결찰 사슬 반응을 포함하는 주형으로서, 핵산 또는 이의 앰플리콘을 사용하는 임의의 다양한 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오타이드 서열의 단일 카피(예를 들어, PCR 생성물) 또는 뉴클레오타이드 서열의 다중 카피(예를 들어, RCA의 콘카타머 생성물)을 갖는 핵산 분자일 수 있다. 표적 핵산의 제1 앰플리콘은 통상적으로, 상보적인 카피이다. 후속 앰플리콘은 제1 앰플리콘의 생성 후에 표적 핵산으로부터 또는 제1 앰플리콘으로부터 생성된 카피이다. 후속 앰플리콘은 표적 핵산에 대해 실질적으로 상보적이거나 표적 핵산과 실질적으로 일치하는 서열을 가질 수 있다.
본 명세서에서 사용되는 용어 "증폭 부위"는 하나 이상의 앰플리콘이 생성될 수 있는 어레이에 또는 이의 상의 부위를 지칭한다. 증폭 부위는 부위에서 생성되는 적어도 하나의 앰플리콘을 함유, 유지 또는 부착시키도록 추가로 구성될 수 있다.
본 명세서에서 사용되는 용어 "어레이"는 상대적 위치에 따라 서로 구별될 수 있는 부위의 집단을 지칭한다. 어레이의 상이한 부위에 있는 상이한 분자는 어레이에서 부위의 위치에 따라 서로 구별될 수 있다. 어레이의 개별 부위는 특정 타입의 하나 이상의 분자를 포함할 수 있다. 예를 들어, 부위는 특정 서열을 갖는 단일 표적 핵산 분자를 포함할 수 있거나, 부위는 동일한 서열(및/또는 이의 상보적 서열)을 갖는 수 개의 핵산 분자를 포함할 수 있다. 어레이의 부위는 동일한 기질 상에 위치된 상이한 피처일 수 있다. 예시적인 피처는 비제한적으로, 기질에서의 웰, 기질에 또는 기질 상의 비드(또는 다른 입자), 기질로부터의 돌출부, 기질 상의 리지 또는 기질에서의 채널을 포함한다. 어레이의 부위는 각각이 상이한 분자를 지닌 별도의 기질일 수 있다. 별도의 기질에 부착된 상이한 분자는 기질이 결합된 표면 상에 기질의 위치에 따라, 또는 액체 또는 겔에서 기질의 위치에 따라 식별될 수 있다. 별개의 기질이 표면 상에 위치된 예시적인 어레이는 비제한적으로, 웰에 비드를 갖는 것을 포함한다.
본 명세서에서 사용되는 용어 "용량"은 부위 및 핵산 물질을 참조로 하여 사용될 때, 부위를 점유할 수 있는 핵산 물질의 최대량을 의미한다. 예를 들어, 이어한 용어는 특정 조건에서 부위를 점유할 수 있는 핵산 분자의 총수를 지칭할 수 있다. 예를 들어, 핵산 물질의 총 질량, 또는 특정 조건에서 부위를 점유할 수 있는 특정 뉴클레오타이드 서열의 카피의 총수를 포함하는 다른 측정치가 또한 사용될 수 있다. 통상적으로, 표적 핵산에 대한 부위의 용량은 표적 핵산의 앰플리콘에 대한 부위의 용량과 실질적으로 균등할 것이다.
본 명세서에서 사용되는 용어 "캡처제"는 표적 분자(예를 들어, 표적 핵산)에 부착, 유지 또는 결합할 수 있는 물질, 화학물질, 분자 또는 이의 모이어티를 지칭한다. 예시적인 캡처제는 비제한적으로, 표적 핵산의 적어도 일부분에 대해 상보적인 캡처 핵산(또한 본 명세서에서 캡처 올리고뉴클레오타이드로서 지칭됨), 표적 핵산(또는 여기에 부착된 연결 모이어티)에 결합할 수 있는 수용체-리간드 결합쌍의 구성원(예를 들어, 아비딘, 스트렙타비딘, 바이오틴, 렉틴, 탄수화물, 핵산 결합 단백질, 에피토프, 항체, 등), 또는 표적 핵산(또는 여기에 부착된 연결 모이어티)과 공유 결합을 형성할 수 있는 화학 시약을 포함한다.
본 명세서에서 사용되는 용어 "리포터 모이어티"는 조사되는 분석물의 조성, 식별, 및/또는 소스를 결정할 수 있는 임의의 식별 가능한 태그, 표지, 인덱스, 바코드, 또는 그룹을 지칭할 수 있다. 일부 실시형태에서, 리포터 모이어티는 단백질에 특이적으로 결합하는 항체를 포함할 수 있다. 일부 실시형태에서, 항체는 검출 가능한 표지를 포함할 수 있다. 일부 실시형태에서, 리포터는 핵산 태그로 표지화된 항체 또는 친화력 시약을 포함할 수 있다. 핵산 태그는 예를 들어, 근위 결찰 검정(proximity ligation assay: PLA) 또는 근위 연장 검정(proximity extension assay: PEA) 또는 시퀀싱-기반 판독[Shahi et al. Scientific Reports volume 7, Article number: 44447, 2017] 또는 CITE-seq[Stoeckius et al. Nature Methods 14:865-868, 2017]를 통해 검출 가능할 수 있다.
본 명세서에서 사용되는 용어 "클론 집단"은 특정 뉴클레오타이드 서열에 대해 균일한 핵산의 집단을 지칭한다. 균일한 서열은 통상적으로, 적어도 10개의 뉴클레오타이드 길이이지만, 예를 들어, 적어도 50, 100, 250, 500 또는 1000개의 뉴클레오타이드 길이를 포함하는 심지어 더 길 수 있다. 클론 집단은 단일 표적 핵산 또는 주형 핵산으로부터 유도될 수 있다. 통상적으로 클론 집단에서 모든 핵산은 동일한 뉴클레오타이드 서열을 가질 것이다. 작은 수의 돌연변이(예를 들어, 증폭 인공물로 인함)가 클론화를 벗어나지 않으면서 클론 집단에서 일어날 수 있는 것으로 이해될 것이다.
본 명세서에서 사용되는 용어 "독특한 분자 식별자"(unique molecular identifier) 또는 "UMI"는 핵산에 부착될 수 있는, 랜덤, 비-랜덤, 또는 반-랜덤의 분자 태그를 지칭한다. 핵산 내에 통합될 때, UMI는 증폭 후 시퀀싱되는 독특한 분자 식별자(UMI)를 직접적으로 카운팅함으로써 후속 증폭 바이어스를 보정하기 위해 사용될 수 있다.
본 명세서에서 사용되는 "외인성" 화하물, 예를 들어, 외인성 효소는 특정 조성물에서 일반적으로 또는 자연적으로 발견되지 않는 화합물을 지칭한다. 예를 들어, 특정 조성물이 세포 용해물을 포함할 때, 외인성 효소는 세포 용해물에서 일반적으로 또는 천연에서 발견되지 않는 효소이다.
조성물, 물품, 핵산, 또는 핵의 문맥에서 본 명세서에서 사용되는 "제공하는"은 조성물, 물품, 핵산, 또는 핵을 제조하거나, 조성물, 물품, 핵산, 또는 핵을 구매하거나, 그밖에 화합물, 조성물, 물품, 또는 핵을 얻는 것을 의미한다.
용어 "및/또는"는 나열된 구성요소 중 하나 또는 모두, 또는 나열된 구성요소들 중 임의의 둘 이상의 조합을 의미한다.
단어 "바람직한" 및 "바람직하게"는 특정 환경 하에서 특정 이점을 제공할 수 있는 개시내용의 실시형태를 지칭한다. 그러나, 다른 실시형태는 또한, 동일한 또는 다른 환경 하에서 바람직할 수 있다. 또한, 하나 이상의 바람직한 실시형태의 기술은 다른 실시형태가 유용하지 않고, 본 개시내용의 범위로부터 다른 실시형태를 배제하도록 의도되지 않음을 암시하지 않는다.
용어 "포함하다" 및 이의 변형예는 이러한 용어가 설명 및 청구범위에 나타나는 제한적인 의미를 갖지 않는다.
실시형태가 본 명세서에서 언어 "포함하다" 또는 "포함하는" 등과 함께 기술되는 경우에, "...로 이루어진" 및/또는 "필수적으로 포함하는"의 용어에 기술된 유사한 실시형태가 또한 제공되는 것으로 이해된다.
달리 기술하지 않는 한, 단수 용어 및 "적어도 하나"는 호환 가능하게 사용되고, 하나 이상을 의미한다.
또한, 본 명세서에서, 종결점에 의한 수치 범위의 기술은 그러한 범위 내에 포함된 모든 숫자를 포함한다(예를 들어, 1 내지 l5는 1, 1.5, 2, 2.75, 3, 3.80, 4, 5 등을 포함한다).
별도의 단계를 포함하는 본 명세서에 개시된 임의의 방법에 대하여, 단계들은 임의의 가능한 순서로 수행될 수 있다. 그리고, 적절한 경우에, 둘 이상의 단계의 임의의 조합이 동시에 수행될 수 있다.
"일 실시형태," "실시형태," "특정 실시형태," 또는 "일부 실시형태," 등에 대한 본 명세서 전반에 걸친 언급은, 실시형태와 관련하여 기술된 특정 특성, 구성, 조성 또는 특징이 본 개시내용의 적어도 하나의 실시형태에 포함됨을 의미한다. 이에 따라, 본 명세서 전반에 걸쳐 다양한 위치에서 이러한 구의 출현은 본 개시내용의 동일한 실시형태를 반드시 지칭하는 것은 아니다. 또한, 특정 특성, 구성, 조성, 또는 특징은 하나 이상의 실시형태에서 임의의 적합한 방식으로 결합될 수 있다.
본 개시내용의 예시적인 실시형태의 하기 상세한 설명은 하기 도면을 참조하여 읽을 때 가장 잘 이해될 수 있다.
도 1은 본 개시내용에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적 방법의 일반 블록도를 도시한 것이다.
도 2는 본 개시내용에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적 방법의 일반 블록도를 도시한 것이다.
도 3은 본 개시내용에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적 방법의 일반 블록도를 도시한 것이다.
도 4는 sci-RNA-seq3이 일 실험에서 5개의 발달 단계 걸쳐 61개의 마우스 배아로부터 약 2백만개의 세포의 프로파일링을 가능하게 함을 도시한 것이다. (A) sci-RNA-seq3 작업흐름 및 실험 방식. (B) 여기에서 실험별 처리량 대 최근 보고서의 비교. (C) HEK293T 및 NIH/3T3으로부터 마우스 대 인간 UMI의 산란 플롯. (D) 61개의 마우스 배아 각각으로부터 프로파일링된 세포의 수를 도시한 막대 플롯. (E) 세포당 검출된 유전자 및 UMI의 수를 도시한 박스 플롯. (F) 마우스 배아 당 Xist(chr X) 대 chrY 유전자에 정렬한 독특한 리드의 산란 플롯. (G) 마우스 배아의 슈도벌크 RNA-seq 프로파일의 의사시간 궤적. (H) 마우스의 배아의 슈도벌크 RNA-seq 프로파일로부터 마커 유전자 발현 E9.5 내지 E13.5에서의 변화의 히트맵.
도 5는 sci-RNA-seq3에 대한 성능 및 QC-관련 분석을 도시한 것이다. (A) 61개 마우스 배아 각각에 대해 사용된 RT 웰의 수를 도시한 막대 플롯. (B) sci-RNA-seq3에서 각 PCR 웰로부터 미가공 시퀀싱 리드의 분포를 도시한 히스토그램. (C) HEK293T 및 NIH/3T3 세포로부터 세포당 UMI의 수를 도시한 박스 플롯. (D) HEK293T (인간) 및 NIH/3T3 (마우스) 세포에 대한 예상되는 종에 대한 맵핑하는 리드의 비율을 도시한 박스 플롯. (E) sci-RNA-seq3 vs. sci-RNA-seq에 대한 세포당 UMI의 수를 비교한 박스 플롯(세포당 20,000 미가공 리드로 다운샘플링됨). (F) sci-RNA-seq3 대 sci-RNA-seq로부터의 HEK293T 세포의 집계된 프로파일에서 유전자 발현 측정 간의 상관 관계.
도 6은 sci-RNA-seq3에 대한 추가적인 성능 및 QC-관련 분석을 도시한 것이다. (A) 사용된 RT 웰의 수와 배아 당 회수된 세포의 수 사이의 상관 관계를 도시한 산란 플롯. (B 내지 D) sci-RNA-seq3과 다른 방법 간의 세포당 미가공 시퀀싱 피드(B), 검출된 유전자(C) 및 UMI(D)의 수를 비교한 막대 플롯. (E) 5개의 발달 단계를 거친 배아로부터 세포당 검출된 UMI의 수를 도시한 박스 플롯. (F) 각 발달 단계에서 프로파일링된 수컷 및 암컷 배아의 수를 도시한 막대 플롯.
도 7은 발달 단계에 의해 용이하게 분리된 마우스 배아의 슈도벌크 RNA-seq 프로파일을 도시한 것이다. (A) 61개 마우스 배아 각각으로부터 유도된 단일 세포의 집합된 전사체의 t-SNE는 이의 발달 단계를 완벽하게 매칭하는 5개의 긴밀하게 클러스팅된 그룹을 야기시킨다. (B) 도 4G와 동일하지만 의사시간에 의해 착색된, 마우스 배아의 슈도벌크 RNA-seq 프로파일의 의사시간 궤적. (C) 61개의 프로파일링된 배아는 의사시간에 의해 정렬되었다. 앞에서 3개 및 뒤에서 3개(의사시간) E10.5 배아는 사진에 도시되어 있고, 모폴로지적으로 구별되는 것으로 나타난다.
도 8은 마우스 기관형성의 주요 세포 타입을 식별하는 것을 도시한 것이다. (A) Louvain 클러스터링으로부터 클러스터 id에 의해 착색되고 마커 유전자를 기초로 하여 주석이 달린 2,026,641개의 마우스 배아 세포의 t-SNE 시각화. 동일한 t-SNE는 하기에 플롯팅되며, 각 발달 단계로부터 세포만을 나타낸다. 원시 적혈구(일시적) 및 결정적인 적혈구(확장) 클러스터는 이의 증식 역학을 예시하기 위해 박스로 표시된다. (B) 세포 타입 당 하나의 선택된 마커 유전자의 발현을 도시한 도트 플롯. 도트의 크기는 세포 타입 내에서 세포의 백분율을 인코딩하며, 이의 컬러는 평균 발현 수준을 인코딩한다.
도 9는 마우스 기관 형성의 주요 세포 타입 및 세포 타입-특이적 마커 유전자의 상응하는 세트를 식별하는 것을 도시한 것이다. (A) 발달 단계에 의해 착색된, E9.5에서 E13.5로의 세포 상태 전이의 t-SNE 시각화. 이는 도 8A에 도시된 바와 동일한 t-SNE이지만, 각 플롯에서, 단일 시점으로부터 유도된 세포만이 도시된다. (B) 식별된 주요 세포 타입에 걸친 유전자의 상대적 발현을 도시한 히트맵. (C) 두 번째로 가장 높은 발현 세포 타입(5%의 FDR)과 비교할 때 2배 이상 더 높은 발현을 갖는 각 세포 타입에서 마커 유전자의 수를 도시한 막대 플롯.
도 10은 동일한 시점의 복제 배아로부터 유도된 세포가 명백한 배치 효과를 나타내지 않을 도시한 것이다. (A 내지 E) 각 단계에서 배아 ID에 의해 착색된, 상이한 발달 단계로부터 마우스 배아 세포의 t-SNE 시각화: E9.5 (A), E10.5 (B), E11.5 (C), E12.5 (D), E13.5 (E).
도 11은 마우스 기관형성 동안 세포 타입 수의 역학을 도시한 것이다. (A) 발달 단계에 의해 분할된, 각 세포 타입에 대해 프로파일링된 세포의 수를 도시한 막대 플롯. (B) 61개의 마우스 배아(열)에서 각 세포 타입(행)의 상대적 세포 수를 도시한 히트맵. 배아 당 세포 타입당 절대 세포 수의 추정치는 제공된 배아에 기여된 세포 타입의 비율을 그러한 발달 단계에서 세포의 추정된 총수와 곱함으로써 계산되었다. 제시를 위하여, 이러한 추정치는 모두 61개의 배아에 걸쳐 제공된 세포 타입에 대한 최대 추정 세포 수에 의해 각 행에서 정규화된다. 배아는 발달 의사시간에 의해 왼쪽에서 오른쪽으로 분류된다. (C) 패널 B로서 계산된, 원시 적혈구 및 최종 적혈구 계통에 대한 상대적 세포 수 변화를 도시한 선 플롯. 점선은 원시 적혈구(Hbb-bh1) 및 최종 적혈구(Hbb-bs)에 대한 마커 유전자의 상대적 발현을 도시한 것이다. 개별 배아에 대한 데이터 포인트는 발달 의사시간에 의해 정렬되고 loess 방법에 의해 평활화된다.
도 12는 38개의 주요 세포 타입 각각의 서브클러스터의 louvain 클러스터링 및 t-SNE 시각화를 도시한 것이다. 세포 타입 이종성이 도 8A에 도시된 다수의 38개의 클러스터 내에 자명하기 때문에, 본 발명자는 서브클러스터를 식별하기 위해 각 주요 세포 타입 상에서 Louvain 클러스터링을 반복하는, 반복 전략을 채택하였다. 하나 또는 두 개의 배아에 의해 지배되는 서브클러스터가 제거되고 매우 유사한 서브클러스터가 병합된 후, 총 655개의 서브클러스터(또한, 초기 클러스터링에 의해 식별된 38개의 주요 세포 타입과 구별되는 '서브타입'으로 언급됨)가 되었다.
도 13은 발달 단계에 걸친 38개의 주요 세포 타입 각각의 서브클러스터의 louvain 클러스터링 및 t-SNE 시각화를 도시한 것이다. 도 12와 동일하지만, 서브클러스터 ID보다 오히려 발달 단계에 의해 세포는 착색됨.
도 14는 세포 타입을 검출하기 위한 민감성이 세포 커버리지의 함수임을 도시한 것이다. (A) 도 8A로부터의 Louvain 클러스터 ID에 의해 착색된, 모든 세포(좌측 플롯, n = 2,026,641) 및 다운샘플링된 서브세트(우측 플롯, n = 50,000)의 t-SNE 시각화. (B) 35,878 내피 세포를 기초로 하여 계산된 Louvain 클러스터 ID에 의해 착색된 모든 내피 세포(좌측 플롯, n = 35,878) 및 다운샘플링된 서브세트(우측 플롯, n = 1,173)의 t-SNE 시각화. (C) 1,173개 내피 세포를 기초로 하여 계산된 Louvain 클러스터 ID에 의해 착색된 1,173개 내피 세포의 t-SNE 시각화.
도 15는 655개 세포 서브타입이 다수의 배로부터 유도되고 마커의 세트에 의해 규정됨을 도시한 것이다. (A) 세포 수에 대한 서브클러스터의 분포를 도시한 히스토그램(중간값 1,869; 범위 51 내지 65,894). (B) 기여 배아의 수와 관련한 서브클러스터의 분포를 도시한 히스토그램(기여체로서 정량화하기 위한 5개 초과의 세포). (C) 가장 높은 기여 배아로부터 유도된 세포의 비율에 대한 서브클러스터의 분포를 도시한 히스토그램. (D) 마커 유전자의 수에 대한 서브클러스터의 분포를 도시한 히스토그램(동일한 주요 클러스터 내에서 두 번째로 높은 발현 세포 서브타입과 비교할 때 적어도 1.5배 더 높은 발현; 5% FDR).
도 16은 마우스 기관형성 동안 세포 서브타입 수의 역학을 도시한 것이다. (A) 655개의 식별된 서브클러스터에 걸친 유전자의 상대적 발현을 도시한 히트맵. (B) 61개의 마우스 배아(열)에서 각 세포 서브타입(행)의 상대적 세포 수를 도시한 히트맵. 배아 당 세포 서브타입 당 절대 세포 수의 추정치는 도 11b로서 계산되었다. (C) 각 배아에서 오로지 655개의 세포 서브타입의 비율을 기초로 한 모두 61개의 마우스 배아의 t-SNE 시각화.
도 17은 상피 세포 서브타입 및 사지 정단 외배엽 융기(apical ectodermal ridge: AER)의 식별 및 특징분석을 도시한 것이다. (A) 상피 세포 서브타입의 t-SNE 시각화 및 마커-기반 주석. (B) Fgf8의 발현 수준에 의해 착색된 모든 상피 세포의 t-SNE 시각화. (C) E10.5(좌측) 및 E11.5(우측) 배아에서 Fgf8의 인시튜 혼성화 이미지. (D) Fndc3a의 발현 수준에 의해 착색된 모든 상피 세포의 t-SNE 시각화. (E) E10.5 배아에서 Fndc3a의 인시튜 혼성화 이미지. 화살표: 유전자 발현의 부위. (F) 상이한 발달 단계에서 배아 당 AER 세포의 비율을 도시한 박스 플롯. (G) 발달 단계에 의해 착색된, AER 단일 세포 전사체의 의사시간 궤적. (H) 발달적 의사시간에 걸친 AER 마커 유전자의 상대적 발현을 도시한 라인 플롯.
도 18은 마우스 상피의 서브타입을 식별하는 것을 도시한 것이다. 상피 서브타입 당 하나의 선택된 마커 유전자의 발현을 도시한 도트 플롯. 도트의 크기는 세포 타입 내에 세포의 백분율을 인코딩하며, 이의 컬러는 평균 발현 수준을 인코딩한다.
도 19는 의사시간에 걸친 사지 정단 외배엽 융기(AER) 세포의 유전자 발현의 역학을 도시한 것이다. (A) 음성 이항 회귀에 의해 생성되고, 최대 유전자 발현의 백분율소서 스케일링된, AER 세포에서 매끄러운 의사시간-의존 차등 유전자 발현(1%의 FDR)을 도시한 히트맵. 각 행은 상이한 유전자를 지시하며, 이러한 것은 E9.5 내지 E13.5에서 활성화(상부), 억제(중간) 또는 일시적 역학(하부)을 나타내는 서브세트로 분할된다. (B-C) 발현이 AER 발달에서 유의미하게 감소하는 유전자에 대한 농축된 Reactome 항(B) 및 전사 인자(C)의 -log10 변형된 q 값 및 enrichR 기반 조합 스코어를 도시한 플롯. 유의미하게 감소하는 유전자에 대한 상부 농축된 경로 항(Reactome2016)은 세포 주기 진행(유사 세포 주기, qval = 0.0002) 및 글루코스 대사(탄수화물의 대사, qval = 0.0002)를 포함한다. 감소하는 유전자로부터 표적을 갖는 상부 농축된 TF는 다능성 인자, 예를 들어, Isl1(qval < 10-5), Pou5f1(qval = 0.002) 및 Nanog(qval = 0.003)를 포함한다.
도 20은 사지 중간엽 분화 동안 세포 궤적을 특징분석한 것을 도시한 것이다. (A) 발달 단계에 의해 착색된 사지 중간엽 세포의 UMAP 3D 시각화(좌측 및 우측은 2개의 궤적으로부터의 도면을 나타냄). (B) 사지 중간엽 세포에서 Pitx1 및 Tbx5의 정규화된 발현을 도시한 산란 플롯. Pitx1 및/또는 Tbx5가 검출된 세포만이 도시되어 있다. (C) 앞다리와 뒷다리 간에 상이하게 발현된 유전자를 도시한 볼카노 플롯(5%의 FDR, 적색에 의해 착색됨). 상부의 상이하게 발현된 유전자가 표지화된다. x축: 각 유전자에 대한 앞다리와 뒷다리 간에 log2 변환된 배수 변화. y축: 분화 ttlgja으로부터 -log10 변환된 qval. (D) 근위/연골세포(Sox6, Sox9), 원위(Hoxd13, Tfap2b), 전방(Pax9, Alx4), 또는 후방(Hand2, Shh) 마커의 정규화된 유전자 발현에 의해 착색된 패널 A와 동일한 시각화. (F) E10.5 내지 E13.5 배아에서 Hoxd13의 인시튜 혼성화 이미지. (G) Cpa2의 정규화된 유전자 발현에 의해 착색된 패널 A & D와 동일한 시각화. 이러한 궤적 내에서 이의 발현 패턴은 Cpa2가 Hoxd13과 같은 발달 중인 사지 중간엽의 원위 마커임을 예측하게 한다. (H) E10.5 및 E11.5 배아에서 Cpa2의 인시튜 혼성화 이미지. (I) AER 및 사지 중간엽 궤적에 대한 결과의 조합된 요약.
도 21은 사지 중간엽 발달 동안 세포 운명 궤적을 특징분석한 것을 도시한 것이다. (A) 사지 중간엽 세포에 대한 상이한 발달 단계 간에 다르게 발현된 유전자를 상부에 도시한 히트맵. (B) 사지 중간엽 발달 동안 유의미하게 상향 조절된 유전자에 대한 농축된 전사 인자의 -log10 변형된 조정된 p 값을 도시한 막대 플롯. (C) 앞다리(Tbx5 +) 및 뒷다리(Pitx1+)에 의해 착색된 사지 중간엽 세포의 t-SNE 시각화. 발현되지 않거나 Tbx5 및 Pitx1 둘 모두에서 발현된 세포는 도시되어 있지 않다.
도 22는 팔다리에서 공간적으로 제한된 마커의 발현을 도시한 것이다. 각 패널은 상이한 마커 유전자를 예시한 것이다. 컬러는 라이브러리 크기에 대해 스케일링되고, log-변환되고, 이후에 Z-스코어에 맵핑되어 유전자 간의 비교를 가능하게 하는 UMI 카운트를 지시하는 것이다. 제공된 마커가 발현되지 않은 세포는 오버플롯팅을 방지하기 위해 배제된다. (A) 뒷다리 마커 Pitx1 및 앞다리 마커 Tbx5. (B) 제1 행: 근위 사지 마커 Sox6(또한 연골세포를 마킹함) 및 Sox9. 제2 행: 원위 사지 마커 Hoxd13 및 Tfap2b. 제3 행: 전방 사지 마커s68 Pax9 및 Alx4. 제4 행: 후방 사지 마커 Shh 및 Hand2.
도 23은 사지에서 공간적으로 공간적으로 제한된 유전자를 조절하는 것을 도시한 것이다. 총 1,191개의 유전자는 계층적 클러스터링을 통해 클러스터링된다. 덴드로그램은 R에서 컷트리 함수를 이용하여 8개의 모듈로 절단되며, 각 모듈에서 유전자의 총 발현이 계산되었다. 컬러는 라이브러리 크기에 대해 스케일링되고, log-변환되고, 이후에 Z-스코어에 맵핑되어 모듈 간에 비교를 가능하게 하는 각 모듈에 대한 총 UMI 카운트를 지시한다. 제공된 모듈이 발현되지 않은 세포는 오버플롯팅을 방지하기 위해 배제된다.
도 24는 마우스 기관형성 동안 존재하는 8개의 주요 발달 궤적의 특징분석을 도시한 것이다. (A) 전체 데이터세트의 UMAP 3D 시각화; 상부: 2 방향으로부터 도면; 하부: 발달 단계에 의해 착색된, 중간엽(좌측) 및 신경관/노치코드(우측) 궤적의 확대도. (B) 8개의 주요 궤적 각각에 대해 할당된 38개의 주요 세포 타입 각각으로부터의 세포의 비율을 도시한 히트맵. 열은 상부 막대의 컬러에 의해 표지화된, 8개의 주요 계통을 나타낸다(패널 A에서 기호 설명표(key) 참조). (C) 발달 단계에 의해 착색된 상피 서브-궤적의 UMAP 3D 시각화.
도 25는 마우스 기관형성 동안 존재하는 8개의 주요 발달 궤적의 특징분석을 도시한 것이다. (A) 도 24a와 동일하지만, 38개의 주요 세포 클러스터에 해당하는 컬러를 갖는다. (B 내지 C) E9.5에서 E13.5까지의 8개의 주요 세포 궤적 각각으로부터 유도된 배아 당 세포의 추정된 비율(B) 및 추정된 절대 세포 수(C)를 도시한 면적 플롯.
도 26은 주요 세포 클러스터 ID에 의해 착색된 8개의 주요 세포 궤적의 UMAP 시각화를 도시한 것이다.
도 27은 발달 단계에 의해 착색된 8개의 주요 세포 궤적의 UMAP 시각화를 도시한 것이다.
도 28은 상피 세포 서브타입의 UMAP 시각화를 도시한 것이다. 도 17A에 도시된 29개의 상피 서브타입에 대해 착색됨.
도 29는 근발생에서 세포 궤적을 분해하는 것을 도시한 것이다. Monocle 3에 의해 보고된 궤적을 규정하는 주요 그래프에서 에지는 밝은 청색 선 세그먼트로서 나타낸다. (A) 추정적으로 근발생에 관여된 세포는 실리코에서 중간엽 세포 궤적으로부터 단리되고, 이후에, 근세포 서브-궤적을 작제하기 위해 사용된다(방법). (B) 발달 단계에 의해 착색된 근세포 서브-궤적에서의 세포. (C) 근발생의 선택된 전사 조절인자의 발현에 의해 착색된, 근세포 궤적에서의 세포. 제공된 유전자에 대한 검출 가능하지 않은 발현을 갖는 세포는 이의 플롯에서 생략됨. (D) 패널 C(방법)에 도시된 마커에 따른 발달 단계에 의해 분류된 세포.
도 30은 sci-fate에 의한 전체 및 새로이 합성된 전사체의 공동 프로파일링을 도시한 것이다. (A) 텍스트에서 개략된 주요 단계를 갖는 sci-fate 작업흐름. (B) 실험식. A549 세포는 시간 독립적으로 덱사메타손으로 처리되었다. 모든 처리 조건으로부터의 세포는 sci-fate에 대해 수확 전 2시간에 S4U로 표지화되었다. (C) 6개의 처리 시간에 세포당 S4U 표지화된 리드의 비율을 도시한 바이올린 플롯. (D) 엑손 및 인트론 리드에서 S4U 표지화된 리드의 비율을 도시한 바이올린 플롯. 모든 박스 플롯에 대해: 두꺼운 수평선, 중간값; 상한 및 하한 박스 에지, 각각 제1 및 제3 사분면; 휘스커, 사분위 범위의 1.5배; 원형, 이상치. (E) 전체 전사체(좌측), 새로이 합성된 전사체(중간) 및 둘 모두(우측)에 의한 A549 세포의 UMAP 시각화. (F) (E)와 유사하고, 전체 전사체에 의해 식별된 클러스터 id에 의해 착색됨. (G) RNA 수준(좌측) 및 새로이 합성된 RNA 수준(우측)에 의한 G2/M 마커 유전자의 정규화된 발현에 의해 착색된, 공동 정보에 의한 A549 세포의 UMAP 시각화. 이러한 유전자에 대한 UMI 카운트는 라이브러리 크기에 의해 스케일링되고, log-변환되고, 집계되고, 이후에, Z-스코어로 맵핑된다.
도 31은 sci-fate에 대한 성능 및 QC-관련 분석을 도시한 것이다. (A) sci-fate의 조건에서 세포당 마우스(NIH/3T3) 대 인간(HEK293T) UMI 카운트의 산란 플롯. (B 내지 D) S4U 표지화된 리드, UMI의 수, 및 HEK293T(세포 수 n = 932) 및 NIH/3T3 세포(세포 수 n = 438)로부터의 세포당 순도(예상된 종으로 맵핑하는 리드의 비율)를 도시한 박스플롯. 모든 박스 플롯에 대해: 두꺼운 수평선, 중간값; 상한 및 하한 박스 에지, 각각 제1 및 제3 사분면; 휘스커, 사분위 범위의 1.5배; 원형, 이상치. (E 내지 F) sci-fate(y축) 대 sci-RNA-seq 세포(x축)로부터 HEK293T (E) 및 NIH/3T3 세포(F)의 집계된 프로파일의 유전자 발현 측정 간의 상관관계(Spearman의 상관관계).
도 32는 덱사메타손 처리된 A549 세포에 대한 sci-fate의 성능을 도시한 것이다. (A, B) 6개의 처리 조건에서 세포당 UMI(A) 및 유전자(B)의 수를 도시한 바이올린 플롯. 모든 박스 플롯에 대하여, 두꺼운 수평선, 중간값; 상한 및 하한 박스 에지, 각각 제1 및 제3 사분면; 휘스커, 사분위 범위의 1.5배; 원형, 이상치. (C) 집계된 전체 전사체(상부 우측) 및 새로이 합성된 전사체(하부 좌측)에 대한 상이한 처리 조건 간에 피어슨 상관 계수를 도시한 상관관계 플롯. (D) 새로이 합성된 전사체에 의해 식별된 클러스터 id에 의해 착색된, 새로이 합성된 전사체에 의한 A549 세포의 UMAP 시각화. (E) 새로이 합성된 전사체에 의해 각 세포 클러스터로 떨어진, 전체 전사체에 의해 규정된 각 클러스터로부터 세포의 비율을 도시한 히트맵. (F 내지 G) 전체 RNA 발현(F) 및 새로이 합성된 RNA(G)에 의한 S 주기 마커 유전자의 정규화된 발현에 의해 착색된, 전체 및 새로이 합성된 전사체 둘 모두에 의한 A549 세포의 UMAP 시각화. 이러한 유전자에 대한 UMI 카운트는 라이브러리 크기에 대해 스케일링되고, log-변환되고, 집계되고, 이후에, Z-스코어로 맵핑된다.
도 33은 세포 상태 전이를 유도하는 TF 모듈을 특징으로 하는 것을 도시한 것이다. (A) 전사 인자(오렌지색)과 조절 유전자(회색) 간의 식별된 링크(청색). 세포 주기 진행 또는 GR 반응과 관련된 TF 모듈이 표지화된다. (B) S 주기 및 G2/M 주기 마커(상부), 3개의 세포 주기 시기(하부 좌측), 및 무감독 클러스터링 분석에 의한 9개의 세포 주기 상태(하부 우측)의 새로이 합성된 mRNA에 의해 착색된, 세포 주기 TF 모듈에 의해 정렬된 A549 세포의 UMAP 시각화. (C) DEX 처리 시간(좌측), CEBPB 및 FOXO1 활성(중간) 및 무감독 클러스터링 분석으로부터의 클러스터 id(우측)에 의해 착색된, GR 반응 TF 모듈에 의해 정렬된 A549의 UMAP 시각화. TF 활성을 계산하기 위해, 이러한 유전자에 대한 새로이 합성된 UMI 카운트는 라이브러리 크기에 의해 스케일링되고, log-변환되고, 집계되고, 이후에, Z-스코어로 맵핑된다. (D) 세포 주기 모듈(x축) 및 GR 반응 모듈(y축)의 조합 상태에 의한 세포 상태의 관찰된 비율(검정색)을 도시한 표. 적색 숫자는 독립 유전을 추정하는 예상된 비율이다. (E) 공동 전체 및 새로이 합성된 전사체를 기초로 한 클러스터링 분석에 의해 식별된 각 주요 클러스터에서 TF 모듈의 조합 상태에 의해 규정된 세포 상태의 비율을 도시한 히트맵.
도 34는 DEX 처리된 A549 세포에서 세포 상태 전이를 유도하는 TF 모듈을 도시한 것이다. (A) CEBPB(오렌지색)의 식별된 유전자 표적(회색). LASSO > 0.6으로부터의 정규화된 상관 계수를 갖는 링크만이 나타낸다. (B) CEBPB 발현(좌측) 및 활성(우측)에 의해 착색된 전체 및 새로이 합성된 전사체에 의한 A549의 UMAP 시각화. (C) YOD1 발현(좌측), 및 YOD1 활성(우측)에 의해 착색된, (B)와 유사함. (D) GTF2IRD1 발현(좌측), 및 GTF2IRD1 활성(우측)에 의해 착색된, (B)와 유사함. (E) E2F1 발현(좌측), E2F1 활성(중간) 및 E2F1 연결된 유전자에 대한 전체 전사체의 집계된 발현(우측)에 의해 착색된, (B)와 유사함. (F) TF 모듈 간의 피어슨 상관 계수의 절대값을 도시한 히트맵. 29 TF 모듈은 계층적 클러스터링 분석에 의해 5개의 그룹으로 그룹화되었다.
도 35는 기능적 TF 모듈의 조합 상태에 의해 특징된 세포 상태를 도시한 것이다. (A) 기능적 TF 모듈의 조합 상태에 의해 세포 상태를 특징화하기 위한 전략을 도시한 방식. (B) UMAP 공간 상에서 밀도 피크 클러스터링 알고리즘에 의해 식별된 주요 클러스터 id로 착색된, 전체 및 새로이 합성된 전사체 둘 모두에 의한 모든 세포의 Umap 시각화.
도 36은 6,000개 초과의 단일 세포 상태 전이 궤적의 특징을 도시한 것이다. (A) 텍스트 및 방법에서 개략된 세부사항을 갖는 단일 세포 전이 궤적을 작제하기 위한 메모리 보정 및 세포 연결 분석을 도시한 방식. (B) DEX 처리 시간에 의해(또한, z 좌표로서) 착색된 세포의 3D 플롯. x 및 y 좌표는 도 30e(좌측)에 전체 및 새로이 합성된 전사체에 의한 UMAP 공간에 해당한다. 연결된 부모 및 자식 세포는 회색 선으로 연결된다. (C) x 및 y 좌표가 6개의 시점에 걸쳐 단일 세포 전사체 역학에 의한 UMAP 공간에 해당하는 것을 제외하고, (B)와 유사함. (D) 각 세포 궤적 클러스터(좌측) 또는 세포 연결 분석과는 독립적으로 모든 세포(우측)에서 상이한 GR 반응 상태(상부) 및 세포 주기 상태(하부)의 세포 상태 역학을 도시한 라인 플롯. (E) 세포 상태 전이 네트워크. 노드는 도 33d에서 특징된 27개의 세포 상태이며, 링크는 세포 상태 간에 식별된 전이 경로이다. 낮은 전이 확률(< 0.1)을 갖는 링크는 여과된다. 점선 사각형은 가역적 전이 역학을 갖는 예시적인 상태를 도시한 것임. (F) 처리 조건 간에 세포 상태 비율의 상관관계를 도시한 상관관계 플롯. 양성 상관관계는 청색으로 나타내며, 음성 상관관계는 적색으로 나타낸다. 타원형의 형상은 상관관계 계수(타원형 상)와 상관관계가 있다. (G) 관찰된 10시간 DEX 처리군과 예측된 세포 상태 비율 간의 세포 상태 비율의 상관관계를 도시한 산란 플롯. 예측은 DEX 처리되지 않은 군에서 세포 상태 전이 확률과 세포 상태 비율을 기초로 한 것이다. 청색 선은 선형 회귀 라인을 나타낸다. (H) 선형 회귀 라인과 함께, 전체 데이터(0 내지 10시간) 또는 부분 데이터(0 내지 6시간)에 의해 계산된 세포 상태 전이 확률의 상관관계를 도시한 산란 플롯.
도 37은 신규한 RNA 검출률 및 RNA 분해률 추정을 도시한 것이다. (A) x 축: DEX 처리되지 않은 세포와 2시간 DEX 처리된 세포 간의 정규화된 전체 전사체의 차이와, y 축: DEX 처리되지 않은 세포와 2시간 DEX 처리된 세포 간의 정규화된 새로이 합성된 전사체의 차이 간의 상관관계를 도시한 산란 플롯. 청색 선은 선형 회귀 라인이다. 각 시점의 두 전체 전사체 및 새로이 합성된 전사체 모두는 시점의 전체 전사체의 라이브러리 크기에 의해 정규화된다. (B) 처리 조건 간에 추정된 유전자 분해율의 상관관계를 도시한 상관관계 플롯. 양성 상관관계는 청색으로 나타나며, 음성 상관관계는 적색으로 나타난다. 타원형의 형상은 상관관계 계수(타원형 상)와 상관 관계가 있다.
도 38은 세포 상태 예측을 위한 세포 상태 전이 네크워크를 도시한 것이다. (A) 각 처리 시간에 관찰된 세포 상태와, DEX 처리되지 않은 군에서 세포 상태 전이 확률 및 세포 상태 비율에 의한 예측된 세포 상태 간에 상관관계를 도시한 산란 플롯. 청색 선은 선형 회귀 라인을 나타낸다. (B) 관찰된 10시간 DEX 처리군과 예측된 값 간의 세포 상태 비율의 상관 관계를 도시한 산란 플롯. 예측된 값은 파트 데이터(0 내지 6시간)에 의해 추정된 세포 상태 전이 확률, 및 DEX 처리되지 않은 군에서 세포 상태 비율을 기초로 한 것이다. 청색 라인은 선형 회귀 라인을 나타낸다.
도 39는 세포 상태 전이 확률이 인근 상태 불안정성 랜드스케이프에 의해 조절됨을 도시한 것이다. (A) ggplot2에 의해 적색 LOESS 매끄러운 선과 함께, 전이 거리(피어슨 거리) 간의 관계 및 세포 상태 간의 전이 확률을 도시한 산란 플롯. (B) 세포 상태의 불안정성 랜드스케이프를 도시한 3D 플롯. X-축은 GR 반응 상태(반응 상태 없음 내지 낮은 반응 상태에서 높은 반응 상태까지)를 나타낸다. Y-축은 G0/G1에서 G2/M 상태까지 정렬된 세포 주기 상태를 나타낸다. Z-축은 2시간 후에 다른 상태로 점핑한 각 세포 상태 내에서 세포의 확률에 의해 규정된 세포 상태 불안정성을 나타낸다. (C) ggplot2에 의해 적색 LOESS 매끄러운 선과 함께, 10시간 DEX 처리 전 및 후에 세포 상태 불안정성과 세포 비율 변화 간의 관계를 도시한 산란 플롯. (D) 상태 불안정성과 선형 회귀 라인을 갖는 상태 전이 엔트로피 간의 상관 관계를 도시한 산란 플롯(청색). (E) 단지 전이 거리에 의해 상태간 전이 확률을 예측하거나 조밀하게 연결된 뉴런 네트워크에 의한 상태 불안정성 랜드스케이프와 전이 거리를 결합시키기 위한 제곱된 교차-검증된 r을 도시한 박스 플롯.
도 40은 LMO2 유전자에서 표적화된 엑손의 브라우저 샷을 도시한 것이다. 표적화된 엑손은 '표적 엑손' 트랙에 나타낸다. 본 필터를 통과한 12 RT 프라이머가 가능한 한 균일하게 엑손에 걸치는 것을 주지한다. 하부의 2개의 트랙, '프라이머_plus/minus' 및 '캡처된_plus/minus'는 RT 프라이머에 대한 리드 맵핑, 및 상응하는 캡처 전사체를 도시한 것이다. 리드 카운트에서의 차이는 오프 표적 프라이밍 사건의 수를 나타낸다.
도 41은 ENCODE 총 핵 RNA-seq 데이터세트 및 인 시튜 멀티플렉스 RT 캡처 라이브러리에서 유전자의 순위를 비교한 표를 도시한 것이다. 표적화된 유전자는 진하게 표시된다. 표적화된 라이브러리에서 12개의 가장 풍부한 유전자들 중에서, 8개는 표적화된 유전자이다. 마지막 2 칼럼은 '순위', 본 데이터세트에서의 순위, 'ENCODE', ENCODE 데이터세트에서의 순위이다. 풍부한 비-표적화된 RNA는 미토콘드리아 리보솜 RNA RNR2 및 RNR1, 및 매우 풍부한 핵 lncRNA MALAT1을 포함한다. LMO2 유전자가 ENCODE 데이터세트(26,281개 유전자로부터)에서 4,627번째 가장 검출된 유전자로부터 본 라이브러리에서 제3의 가장 검출되는 것으로 진행함으로 주지한다.
도 42는 전체 RNA에 대한 캡처된 전사체의 농축을 도시한 것이다. ENCODE 핵 RNA에서의 리드에 대한 표적화된 라이브러리에서 리드의 산란 플롯. RT에 의해 표적화된 유전자는 적색으로 표시되며, 이러한 것은 일반적으로 대각선에서 떨어지며, 이는 이러한 것이 참조 데이터세트에서 예상된 제공된 발현 수준보다 농축됨을 나타냄을 주지한다. 풍부한 핵 lncRNAs MALAT1 및 XIST는 청색으로 표시되며, 이러한 것은 대각선 위로 떨어지는데, 이러한 RNA에 대한 성공적인 농축을 나타낸다. 표적화된 eRNA는 농축되지 않는다(오렌지색). 이러한 실험에서 표적화된 9개 유전자에 대한 예상된 수준보다 높은 중간 농축은 45.3배이다. 전반적으로, 표적화된 유전자로부터의 리드는 이러한 데이터세트에서 유전자에 대해 맵핑된 전체 리드의 31%를 차지한다.
개략적 도면은 반드시 일정한 비율을 갖는 것은 아니다. 도면에서 사용되는 유사한 숫자는 유사한 성분, 단계, 등을 지칭한다. 그러나, 제공된 도면에서 성분을 언급하기 위해 숫자의 사용이 동일한 숫자로 표기된 다른 도면에서 성분을 제한하도록 의도되지 않는 것으로 이해될 것이다. 또한, 성분을 지칭하기 위한 상이한 숫자의 사용은 상이한 넘버링된 성분이 다른 넘버링된 성분과 동일하거나 유사할 수 없다는 것을 지시하도록 의도되지 않는다.
일 실시형태에서, 본 명세서에서 제공되는 방법은 복수의 단일 세포의 전사체를 포함하는 단일 세포 조합 인덱싱(single cell combinatorial indexing: sci) 시퀀싱 라이브러리를 생성시키기 위해 이용될 수 있다. 예를 들어, 본 방법은 전 세포 전사체, 새로이 합성된 RNA의 전사체, 또는 조합에 대한 서열 정보를 얻기 위해 이용될 수 있다. 다른 실시형태에서, 본 명세서에 제공된 방법은 RNA 핵산의 하위집단의 서열 정보를 포함하는 sci 시퀀싱 라이브러리를 생성하기 위해 이용될 수 있다. 예를 들어, 비코딩 조절 영역이 섭동에 대해 표적화될 때, 조절 영역에 대한 코딩 영역 cis는 변형 발현에 대해 시험될 수 있다. 다른 예에서, 세포 지도 실험은 매우 유익한 제한된 수의 mRNA로 제한되는 판독(readout)으로 수행될 수 있다.
본 방법은 단리된 핵 또는 세포를 제공하는 것, 단리된 핵 또는 세포의 서브세트를 구획 내에 분포시키는 것, 핵산 단편을 포함하도록 단리된 핵 또는 세포를 처리하는 것, 및 구획 특이적 인덱스를 핵산 단편에 첨가하는 것 중 하나 이상을 포함할 수 있다. 선택적으로, 본 방법은 세포를 사전결정된 조건에 노출시키고/거나 세포에서 새로이 합성된 RNA를 표지화하는 것을 포함할 수 있다. 본 방법은 세포의 전사체, 또는 RNA 핵산의 하위집단을 포함하는 정보를 얻는 것에 관한 것일 수 있다. 이러한 단계들은 본질적으로 임의의 순서로 일어날 수 있고, 상이한 방식으로 결합될 수 있다. 선택적으로, 핵은, 세포를 사전결정된 조건에 노출시키고 새로이 합성된 RNA를 표지화한 후에 세포로부터 단리될 수 있다.
단리된 핵 또는 세포를 제공
본 명세서에 제공된 방법은 복수의 세포로부터 세포 또는 단리된 핵을 제공하는 것을 포함할 수 있다(도 1, 블록 10; 도 2, 블록 22). 세포는 임의의 유기체(들)로부터, 및 유기체(들)의 임의의 세포 타입 또는 임의의 조직으로부터 유래될 수 있다. 일 실시형태에서, 세포는 배아 세포, 예를 들어, 배아로부터 얻어진 세포일 수 있다. 일 실시형태에서, 세포 또는 핵은 암 또는 질병에 걸린 조직으로부터 유래될 수 있다. 본 방법은 세포를 용해시키고/거나 핵을 단리시키는 것을 더 포함할 수 있다. 핵 또는 세포의 수는 적어도 2개일 수 있다. 상한치는 본 명세서에 기술된 바와 같은 방법의 다른 단계에서 이용되는 장비의 실제 한계(예를 들어, 다중-웰 플레이트, 인덱스의 수)에 따른다. 사용될 수 있는 핵 또는 세포의 수는 제한적인 것으로 의도되지 않고, 수십억의 수일 수 있다. 예를 들어, 일 실시형태에서, 핵 또는 세포의 수는 100,000,000개 이하, 10,000,000개 이하, 1,000,000,000개 이하, 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 1,000개 이하, 500개 이하, 또는 50개 이하일 수 있다. 당업자는 일부 실시형태에서, 각 핵에서 핵산 분자가 그러한 핵의 전체 전사체, 예를 들어, 전체 전사체, 새로이 합성된 전사체, 또는 둘 모두를 나타낸다는 것을 인지할 것이다.
단리된 핵을 사용한 그러한 실시형태에서, 핵은 추출 및 고정에 의해 얻어질 수 있다. 선택적으로 및 바람직하게, 단리된 핵을 얻는 방법은 효소 처리를 포함하지 않는다. 새로이 합성된 전사체가 생성되는 그러한 실시형태에서, 핵은 세포가 새로이 합성된 전사체를 표지화하기에 적합한 조건에 노출된 후까지 단리되지 않는다.
일 실시형태에서, 핵은 부착되거나 현탁액 중의 개별 세포로부터 단리된다. 개별 세포로부터 핵을 단리시키는 방법은 당업자에게 공지되어 있다. 핵은 통상적으로, 조직에 존재하는 세포로부터 단리된다. 단리된 핵을 얻는 방법은 통상적으로, 조직을 제조하고, 제조된 조직으로부터 핵을 단리시키고, 이후에 핵을 고정시키는 것을 포함한다. 일 실시형태에서, 모든 단계는 얼음 위에서 수행된다.
조직 제조는 액체 질소에서 조직을 스냅 동결시키고, 이후에 조직의 크기를 1 mm 이하의 직경의 조각으로 감소시키는 것을 포함한다. 조직의 크기는 조직을 갈거나 또는 조직에 둔력(blunt force)을 적용함으로써 감소될 수 있다. 가는 것(mincing)은 조직을 작은 조각으로 절단하기 위해 블레이드로 달성될 수 있다. 둔력을 가하는 것은 조직을 햄머 또는 유사한 물체로 분쇄함으로써 달성될 수 있으며, 분쇄된 조직의 형성된 조성물은 분말로서 언급된다.
핵 단리는 세포 용해 완충제 중에서 조각 또는 분말을 적어도 1 내지 20분, 예를 들어, 5, 10, 또는 15분 동안 인큐베이션함으로써 달성될 수 있다. 유용한 완충제는 세포 용해를 증진시키지만, 핵 온전성(nuclei integrity)을 보유하는 것이다. 세포 용해 완충제의 예는 10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2, 0.1% IGEPAL CA-630, 1% SUPERase In RNase 억제제(20 U/㎕, Ambion) 및 1% BSA(20 mg/㎖, NEB)를 포함한다. 표준 핵 단리 방법은 종종 단리를 돕기 위해, 외인성 효소와 같은 하나 이상의 외인성 화합물을 사용한다. 세포 용해 완충제에 존재할 수 있는 유용한 효소의 예는 프로테아제 억제제, DNase, 리소자임, 프로테이나제 K, 계면활성제, 리소스타핀, 지몰라제, 셀룰로스, 프로테아제 또는 글리카나제 등을 포함하지만, 이들로 제한되지 않는다[Islam et al. Micromachines (Basel), 2017, 8(3):83; www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107]. 일 실시형태에서, 하나 이상의 외인성 효소는 본 명세서에 기술된 방법에서 유용한 세포 용해 완충제에 존재하지 않는다. 예를 들어, 외인성 효소(i)는 세포 및 용해 완충제의 혼합 전에 세포에 첨가되지 않고, (ii) 세포와 혼합되기 전에 세포 용해 완충제에 존재하지 않고, (iii) 세포와 세포 용해 완충제의 혼합물, 또는 이들의 조합에 첨가되지 않는다. 당업자는 성분들의 이러한 수준이 핵을 단리하기 위한 세포 용해 완충제의 유용성을 감소시키지 않으면서, 다소 변경될 수 있다는 것을 인식할 것이다. 추출된 핵은 이후에, 하나 이상의 핵 완충제로의 세척 라운드에 의해 정제된다. 핵 완충제의 예는 10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2, 1% SUPERase In RNase 억제제(20 U/㎕, Ambion) 및 1% BSA(20 mg/㎖, NEB)를 포함한다. 세포 용해 완충제와 같이, 외인성 효소는 또한, 본 개시내용의 방법에서 사용되는 핵 완충제로부터 존재하지 않을 수 있다. 당업자는 핵을 단리시키기 위한 핵 완충제의 유용성을 감소시키지 않으면서 이러한 수준의 성분이 다소 변경될 수 있다는 것을 인식할 것이다. 당업자는 BSA 및/또는 계면활성제가 핵의 단리를 위해 사용되는 완충제에서 유용할 수 있다는 것을 인식할 것이다.
단리된 핵은 가교제에 대한 노출에 의해 고정된다. 가교제의 유용한 예는 파라폼알데하이드를 포함하지만, 이들로 제한되지 않는다. 파라폼알데하이드는 4%와 같은 1% 내지 8%의 농도로 존재할 수 있다. 파라폼알데하이드로의 핵의 처리는 파라폼알데하이드를 핵의 현탁액에 첨가하고 0℃에서 인큐베이션하는 것을 포함할 수 있다. 선택적으로 그리고 바람직하게, 고정 이후에 핵 완충제에서 세척이 이어진다.
단리된 고정 핵은 즉시 사용되거나 이후 사용을 위해 분취되고 액체 질소에서 급속 냉동될 수 있다. 냉동 후에 사용하기 위해 제조될 때, 해동된 핵은 얼음 위에서 3분 동안 예를 들어, 0.2% tritonX-100과 함께 투과될 수 있고, 핵 클럼핑을 감소시키기 위해 짧게 초음파처리될 수 있다.
통상적인 조직 핵 추출 기술은 일반적으로, 고온(예를 들어, 37℃)에서 30분 내지 수 시간 동안 조직 특이적 효소(예를 들어, 트립신)와 함께 조직을 인큐베이션하고, 이후에, 세포를 핵 추출을 위해 세포 용해 완충제와 함께 용해시킨다. 본 명세서에 기술된 핵 단리 방법은 여러 장점을 갖는다: (1) 인공 효소가 도입되지 않으며, 모든 단계는 얼음 위에서 수행된다. 이러한 것은 잠재적인 섭동을 세포 상태(예를 들어, 전사체 상태)로 감소한다. (2) 신규한 방법은 뇌, 폐, 신장, 비장, 심장, 소뇌, 및 질병 샘플, 예를 들어, 종양 조직을 포함하는 대부분의 조직 타입에 걸쳐 입증되었다. 상이한 조직 타입에 대한 상이한 효소를 사용하는 통상적인 조직 핵 추출과 비교하여, 새로운 기술은 상이한 조직과 세포 상태를 비교할 때 잠재적으로 바이어스를 감소시킬 수 있다. (3) 새로운 방법은 또한, 효소 처리 단계를 제거함으로써 비용을 감소시키고 효능을 증가시킨다. (4) 다른 핵 추출 기술(예를 들어, Dounce 조직 그라인더)과 비교하여, 신규한 기술은 상이한 조직 타입에 대해 더욱 강력하고(예를 들어, Dounce 방법은 상이한 조직에 대한 Dounce 사이클을 최적화할 필요가 있다), 고속 대량으로 큰 피스의 샘플을 처리할 수 있다(예를 들어, Dounce 방법은 그라인더의 크기로 제한된다).
선택적으로, 단리된 핵은 뉴클레오솜-부재일 수 있거나, 뉴클레오솜의 핵을 고갈시켜 뉴클레오솜-고갈된 핵을 생성시키는 조건으로 처리될 수 있다.
서브세트의 분포
본 명세서에 제공된 방법은 복수의 구획 내에 단리된 핵 또는 세포의 서브세트를 분포시키는 것을 포함한다(도 1, 블록 11; 도 2, 블록 23; 도 3, 블록 32). 본 방법은 다수의 분포 단계를 포하말 수 있으며, 여기서, 단리된 핵 또는 세포의 집단(또한, 본 명세서에서 풀로서 지칭됨)은 서브세트로 분할된다. 통상적으로, 단리된 핵 또는 세포의 서브세트, 예를 들어, 복수의 구획에 존재하는 서브세트는 구획 특이적 인덱스로 인덱싱되고, 이후에 풀링된다. 이에 따라, 본 방법은 통상적으로, 풀링된 단리된 핵 또는 세포를 취하고 이를 분포시키고 구획 특이적 인덱스를 첨가하는 적어도 하나의 "분할 및 풀링" 단계를 포함하며, 여기서, "분할 및 풀링" 단계의 수는 핵산 단편에 첨가되는 상이한 인덱스의 수에 의존적일 수 있다. 인덱싱 이전에 핵 또는 세포의 각 초기 서브세트는 다른 서브세트에서 독특할 수 있다. 예를 들어, 각 제1 서브세트는 독특한 샘플로부터 기인한 것이거나 독특한 조건에 노출될 수 있다. 인덱싱 후에, 서브세트는 인덱싱 후에 풀링되고, 서브세트로 분할되고, 인덱싱되고, 충분한 수의 인덱스가 핵산 단편에 첨가될 때까지 필요한 경우에 다시 풀링될 수 있다. 이러한 공정은 각 단일 세포 또는 핵에 대한 독특한 인덱스 또는 인덱스 조합을 할당한다. 인덱싱이 완료된 후에, 예를 들어, 1, 2, 3, 또는 그 이상의 인덱스가 첨가된 후에, 단리된 핵 또는 세포가 용해될 수 있다. 일부 실시형태에서, 인덱스를 첨가하고, 용해하는 것이 동시에 일어날 수 있다.
서브세트에 존재하는 핵 또는 세포의 수, 및 각 구획에서의 이러한 것은 적어도 1일 수 있다. 일 실시형태에서, 서브세트에 존재하는 핵 또는 세포의 수는 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 4,000개 이하, 3,000개 이하, 2,000개 이하, 또는 1,000개 이하, 500 이하, 또는 50개 이하이다. 일 실시형태에서, 서브세트에 존재하는 핵 또는 세포의 수는 1 내지 1,000, 1,000 내지 10,000, 10,000 내지 100,000, 100,000 내지 1,000,000, 1,000,000 내지 10,000,000, 또는 10,000,000 내지 100,000,000일 수 있다. 일 실시형태에서, 각 서브세트에 존재하는 핵 또는 세포의 수는 대략 동일하다. 서브세트에 존재하는 핵의 수, 및 각 구획에서의 이에 대한 것은 부분적으로, 인덱스 충돌을 감소시키고자 하는 것을 기초로 한 것이며, 이는 방법의 이러한 단계에서 동일한 구획에서 끝나는 동일한 인덱스 조합을 갖는 2개의 핵 또는 세포의 존재이다. 서브세트 내에 핵 또는 세포를 분포시키는 방법은 당업자에게 공지되어 있고, 일반적인 것이다. 형광-활성화된 세포 분류(fluorescence-activated cell sorting: FACS) 세포측정법이 이용될 수 있지만, 단순 희석의 사용이 일부 실시형태에서 바람직하다. 일 실시형태에서, FACS 세포측정법이 사용되지 않는다. 선택적으로, 상이한 배수체의 핵은 게이팅되고, 염색, 예를 들어, DAPI(4',6-다이아미디노-2-페닐인돌) 염색에 의해 농축될 수 있다. 염색은 또한, 분류 동안 더블릿으로부터 단일 세포를 구별하기 위해 사용될 수 있다.
분포 단계(및 후속 인덱스의 첨가)에서 구획의 수는 사용되는 포맷에 의존적일 수 있다. 예를 들어, 구획의 수는 2 내지 96 구획(96-웰 플레이트가 사용될 때), 2 내지 384 구획(384-웰 플레이트가 사용될 때), 또는 2 내지 1536 구획(1536-웰 플레이트가 사용될 때)일 수 있다. 일 실시형태에서, 다수의 플레이트가 사용될 수 있다. 일 실시형태에서, 각 구획은 점적일 수 있다. 사용되는 구획의 타입이 둘 이상의 핵 또는 세포를 함유한 점적일 때, 임의의 수의 점적, 예를 들어, 적어도 10,000, 적어도 100,000, 적어도 1,000,000, 또는 적어도 10,000,000개의 점적이 사용될 수 있다. 단리된 핵 또는 세포의 서브세트는 통상적으로, 풀링 전에 구획에서 인덱싱된다.
일부 실시형태에서, 구획은 점적 또는 웰이다. 세포 또는 핵의 전사체, 새로이 합성된 전사체, 또는 이의 하위집단은 점적 또는 웰에서 독특한 인덱스 또는 인덱스 조합으로 표지화될 수 있다. 점적 또는 웰 칸막이로부터 유로된 인덱싱된 라이브러리는 추가 처리 및 시퀀싱을 위해 풀링될 수 있다. 이러한 방법의 예는 10X genomics(캘리포니아주 플레전턴 소재), Biorad(캘리포니아주 에르쿨레스 소재), 및 CellSee(미시건주 앤아버 소재)로부터 단일 세포 분석 시스템을 포함하지만, 이들로 제한되지 않는다.
사전결정된 조건에 노출
선택적인 실시형태에서, 세포의 각 서브세트는 작용제 또는 섭동에 노출된다(도 1, 블록 12). 작용제는 보질적으로, 세포에 변화를 야기시키는 것일 수 있다. 예를 들어, 작용제는 세포의 전사체를 변경시킬 수 있거나, 세포의 크로마틴 구조를 변경시키거나, 세포에서 단백질의 활성을 변경시키거나, 세포의 DNA를 변경시키거나, 메틸화 상태를 변경시키거나, 세포의 DNA 에디팅을 변경시키거나, 다른 변화를 야기시킬 수 있다. 작용제의 예는 화합물, 예를 들어, 단백질(항체를 포함함), 비-리보솜 단백질, 폴리케타이드, 유기 분자(900 달톤 이하의 유기 분자를 포함함), 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합물을 포함하지만, 이들로 제한되지 않는다. 일 실시형태에서, 작용제는 유전 섭동, 예를 들어, DAN 에디팅 단백질, 예를 들어, CRISPR 또는 Talen을 야기시킨다. 일 실시형태에서, 작용제는 치료 약물이다. 일 실시형태에서, 세포는 야생형 세포일 수 있으며, 다른 실시형태에서, 세포는 유전 섭동, 예를 들어, 유전자 녹-인 또는 유전자 녹-아웃을 포함하도록 유전적으로 변형될 수 있다[Szlachta et al., Nat Commun., 2018, 9:4275]. 세포의 서브세트는 동일한 작용제에 노출될 수 있지만, 상이한 변수는 구획에 걸쳐 변경될 수 있어서, 단일 실험에서 다수의 변수가 시험될 수 있다. 예를 들어, 상이한 투여량, 상이한 노출 시간, 및 상이한 세포 타입은 단일의 다중-웰 플레이트에서 시험될 수 있다. 일 실시형태에서, 세포는 상이한 조건 하에서 평가된 활성에 대한 작용제의 효과, 및 공지된 활성을 갖는 단백질을 발현시킬 수 있다. 핵산 단편을 표지화하기 위한 인덱스 서열의 사용은 핵 또는 세포의 특정 서브세트로부터, 예를 들어, 다중-웰 플레이트의 하나의 웰로부터 비롯된 핵산의 후속 식별을 허용한다.
표지화 핵산
선택적인 실시형태에서, 핵산, 예를 들어, 세포에 의해 생성된 RNA, cDNA, 또는 DNA가 표지화된다(도 1, 블록 13). 단일 세포 게놈 기술에 대한 현 방법은 세포 상태의 스냅샷을 캡처하고, 이에 따라, 세포 전이 역학에 대한 정보를 제공하지 못한다. 본 발명자는 새로이 합성된 RNA의 표지화가 분할 및 풀 인덱싱, 조합 인덱싱, 또는 임의의 단일 세포 인덱싱 방법을 이용하여 단일 세포 수준에서 전체 전사체 및 새로이 합성된 전사체 둘 모두의 캡처를 허용한다는 것을 발견하였다. 전체 전사체 및 새로이 합성된 RNA는 동일한 독특한 인덱스 또는 인덱스 조합을 수용하여, 현 상태(예를 들어, 기존) 및 새로이 합성된 핵산을 동일한 세포에 할당될 수 있게 한다. 이는 내인성(예를 들어, 세포의 내인성 세포 주기 프로그램) 및 외인성(예를 들어, 치료 약물과 같은 외부 자극에 대한 세포의 반응) 인자에 의해 조절된 세포 상태 전이 역학의 특징화를 허용한다. 추가적으로, 일부 실시형태에서, 단일 세포 수준에서 전체 전사체 및 새로이 합성된 전사체 둘 모두의 캡처는 이의 과거 상태(과거 상태 기억)으로부터 분해된 전사체 정보와 함께 가능하다. 각 세포의 과거 상태 기억은 mRNA 분해 속도(기억 보정)에 의해 보정될 수 있으며, 이에 따라, 각 세포는 둘 이상의 시점 사이에 전사체 역학에 의해 특징될 수 있다.
다양한 방법이 표지화 새로이 합성된 핵산을 위해 존재하며, 이에 따라, 이는 기존 핵산과 구별될 수 있으며, 본질적으로, 임의의 방법이 사용될 수 있다. 통상적으로, 표지는 이러한 것이 합성됨에 따라 핵산에 통합된다. 한 타입의 방법은 식별 가능한 돌연변이를 첨가하는 뉴클레오사이드 유사체의 통합을 포함한다. 예를 들어, RNA 분자에 뉴클레오사이드 유사체 4-티오우리딘(S4U)의 첨가는 티민-대-사이토신 전환을 갖는 돌연변이된 제1 가닥 cDNA를 야기시키기 위해 역전사 단계 동안 포인트 돌연변이를 야기시킨다[Sun and Chen, 2018, Metabolic Labeling of Newly Synthesized RNA with 4sU to in Parallel Assess RNA Transcription and Decay. In: Lamande S. (eds) mRNA Decay. Methods in Molecular Biology, vol. 1720. Humana Press, New York, NY]. 이러한 포인트 돌연변이는 서열과 참조물의 비교에 의해 시퀀싱 및 분석 단계 동안 식별될 수 있다. 다른 타입의 방법은 합텐을 함유한 그러한 RNA를 정제하기 위해 사용될 수 있는 합텐-표지화된 뉴클레오타이드의 통합을 포함한다. 예는 바이오티닐화된 뉴클레오타이드[Luo et al., 2011, Nucl. Acids Res., 39(19):8559-8571] 및 디곡시게닌-변형된 뉴클레오타이드(digoxigenin-modified nucleotide)[Jena Bioscience GmbH로부터 입수 가능함]를 포함한다. 제3 타입의 방법은 화학 반응으로 변형될(modified) 수 있는 뉴클레오타이드, 예를 들어, 클릭-작용화된 뉴클레오타이드의 통합 및 합텐의 첨가를 포함한다[Bharmal et al., 2010, J Biomol Tech., 21(3 Suppl):S43, 및 Jena Bioscience GmbH 및 Thermo Fisher Scientific로부터 입수 가능함]. 다른 타입의 방법은 돌연변이 뉴클레오타이드, 예를 들어, 비제한적으로, 8-옥소-dGTP 및 dPTP(Jena Bioscience GmbH로부터 입수 가능함)의 통합을 포함한다.
사전결정된 조건은 통상적으로, 세포 상에서 사용되지만, 단리된 핵 상에서는 사용되지 않는다. 그러나, 합성됨에 따라 핵산의 표지화는 세포 또는 세포로부터 단리된 핵을 사용하여 수행될 수 있다.
일부 실시형태에서, 표지화는 새로이 합성된 cDNA 또는 DNA를 포함할 수 있다. 표지화는 특정 조건 또는 세포 또는 핵의 서브세트에 대한 식별자로서 사용될 수 있다. 예를 들어, 상이한 양의 표지, 예를 들어, 뉴클레오사이드 유사체, 합텐-표지화된 뉴클레오타이드, 클릭-작용화된 뉴클레오타이드, 및/또는 돌연변이 뉴클레오타이드 및/또는 표지 간의 상이한 비율은 구획의 RNA, cDNA, 또는 DNA를 특이적으로 표지화시키기 위해 사용될 수 있다. 다른 실시형태에서, 표지는 시간 차원을 캡처하기 위해 상이한 시점에 첨가될 수 있다. 상이한 표지 또는 상이한 표지 비율은 상이한 시간에 RNA를 차등적으로 표지화하기 위해 첨가될 수 있다. 일부 실시형태에서, 표지화는 개별 세포를 분해하기 위한 인덱싱 방식의 일부일 수 있다. 예를 들어, 연장 단계는 각 구획에 대한 뉴클레오타이드의 독특한 세트를 함유할 수 있다. 표지화는 역전사 단계, 연장 단계, 혼성화, 또는 PCR과 같은 증폭 단계에서 일어날 수 있다. 일부 실시형태에서, 이는 더블릿 또는 다수의 세포의 검출 또는 세포 간의 충돌을 허용한다.
핵산 단편을 수득하기 위한 처리
일 실시형태에서, 단리된 핵 또는 세포를 처리하는 것은 단리된 핵 또는 세포에서 DNA 핵산을 핵산 단편으로 단편화시키기 위해 이용될 수 있다(도 1, 블록 14). 핵산의 단편화는 본 명세서에 기술된 방법으로 시퀀싱하기에 적합한 길이를 갖는 분자를 얻기에 유용할 수 있다. 처리는 시퀀싱되는 표적 핵산이 핵 또는 세포에 존재하는 DNA로부터 유도될 때 필요할 수 있다. 그러나, 일부 실시형태에서, 처리는 시퀀싱되는 표적 핵산이 핵 또는 세포에 존재하는 RNA(예를 들어, mRNA 및/또는 비-코딩 RNA)로부터 유도될 때 선택적인데, 왜냐하면, 일부 실시형태에서, RNA 분자가 단편화될 필요가 없기 때문이다. 다른 실시형태에서, RNA 분자로부터 유도된 핵산이 단편화된다. 단편화는 방법의 임의의 단계에서 일어날 수 있다. 예를 들어, 도 2에 도시된 예시적인 방법은 핵산 분자에 2개의 인덱스의 첨가 후에 단편화를 포함한다.
핵 또는 세포에서 핵산의 처리는 통상적으로, 처리에 의해 생성된 핵산 단편의 일단부 또는 두 단부 모두에 뉴클레오타이드 서열을 첨가하며, 뉴클레오타이드 서열은 하나 이상의 공통 서열을 포함할 수 있고, 통상적으로, 이를 포함한다. 공통 서열은 예를 들어, 핵산 단편에, 인덱스와 같은 다른 뉴클레오타이드 서열의 첨가를 위한 프라이머로서 사용될 수 있는 뉴클레오타이드 서열을 어닐링시키는 후속 단계에서 "랜딩 패드(landing pad)"로서 사용될 수 있다. 이러한 프라이머의 뉴클레오타이드 서열은 선택적으로, 인덱스 서열을 포함할 수 있다. 핵 또는 세포에서 핵산의 처리는 처리에 의해 생성된 핵산 단편의 일단부 또는 두 단부 모두에 하나 이상의 독특한 분자 식별자를 첨가할 수 있다.
핵 또는 세포에서 핵산을 핵산 단편으로 처리하기 위한 다양한 방법이 공지되어 있다. 예는 CRISPR 및 Talen-유사 효소, 및 DNA 단편이 혼성화하고 연장 또는 증폭을 개시하는 단일 가닥 영역을 제조할 수 있는 DNA를 풀지 않는 효소(예를 들어, 헬리카제)를 포함한다. 예를 들어, 헬리카제-기반 증폭이 이용될 수 있다[Vincent et al., 2004, EMBO Rep., 5(8):795-800]. 일 실시형태에서, 연장 또는 증폭은 랜덤 프라이머로 개시된다. 일 실시형태에서, 트랜스포좀 복합체가 사용된다.
트랜스포좀 복합체는 유전자전위효소 인식 부위에 결합된 유전자전위효소이고, 때때로 "태그화"로 지칭되는 공정에서 유전자전위효소 인식 부위를 핵 내에서 표적 핵산 내에 삽입할 수 있다. 이러한 일부 삽입 사건에서, 유전자전위효소 인식 부위의 하나의 가닥은 표적 핵산으로 전달될 수 있다. 이러한 가닥은 "전달된 가닥"으로서 지칭된다. 일 실시형태에서, 트랜스포좀 복합체는 2개의 서브단위, 및 2개의 비-연속 트랜스포손 서열을 갖는 다이머 유전자전위효소를 포함한다. 다른 실시형태에서, 유전자전위효소는 2개의 서브단위, 및 연속 트랜스포손 서열을 갖는 다이머 유전자전위효소를 포함한다. 일 실시형태에서, 유전자전위효소 인식 부위의 한 가닥 또는 두 가닥 모두의 5' 단부가 포스포릴화될 수 있다.
일부 실시형태는 과활성 Tn5 유전자전위효소 및 Tn5-타입 유전자전위효소 인식 부위[Goryshin and Reznikoff, J. Biol. Chem., 273:7367 (1998)], 또는 MuA 유전자전위효소 및 R1 및 R2 단부 서열을 포함하는 Mu 유전자전위효소 인식 부위[Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H, et al., EMBO J., 14: 4893, 1995]의 사용을 포함할 수 있다. Tn5 모자이크 단부(Mosaic End: ME) 서열은 또한, 당업자에 의해 최적화된 것과 같이 사용될 수 있다.
본 명세서에 제공된 조성물 및 방법의 특정 실시형태와 함께 사용될 수 있는 전위 시스템의 더 많은 예는 스타필로코쿠스 아우레우스(Staphylococcus aureus) Tn552(Colegio et al., J. Bacteriol., 183: 2384-8, 2001; Kirby C et al., Mol. Microbiol., 43: 173-86, 2002), Ty1(Devine & Boeke, Nucleic Acids Res., 22: 3765-72, 1994 및 국제공개 WO 95/23875), 트랜스포손 Tn7(Craig, N L, Science. 271: 1512, 1996; Craig, N L, Review in: Curr Top Microbiol Immunol., 204:27-48, 1996), Tn/O 및 IS10(Kleckner N, et al., Curr Top Microbiol Immunol., 204:49-82, 1996), 마리너 유전자전위효소(Lampe D J, et al., EMBO J., 15: 5470-9, 1996), Tc1(Plasterk R H, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996), P Element(Gloor, G B, Methods Mol. Biol., 260: 97-114, 2004), Tn3(Ichikawa & Ohtsubo, J Biol. Chem. 265:18829-32, 1990), 박테리아 삽입 서열(Ohtsubo & Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996), 레트로바이러스(Brown, et al., Proc Natl Acad Sci USA, 86:2525-9, 1989), 및 효모의 레트로트랜스포손(Boeke & Corces, Annu Rev Microbiol. 43:403-34, 1989)을 포함한다. 더 많은 예는 IS5, Tn10, Tn903, IS911, 및 유전자전위효소 패밀리 효소의 공학처리된 버전(Zhang et al., (2009) PLoS Genet. 5:e1000689. Epub 2009 Oct 16; Wilson C. et al (2007) J. Microbiol. Methods 71:332-5)을 포함한다.
본 명세서에 제공된 방법 및 조성물과 함께 사용될 수 있는 인테그라제의 다른 예는 레트로바이러스 인테그라제 및 이러한 레트로바이러스 인테그라제에 대한 인테그라제 인식 서열, 예를 들어, HIV-1, HIV-2, SIV, PFV-1, RSV를 포함한다.
본 명세서에 기술된 방법 및 조성물과 함께 유용한 트랜스포손 서열은 미국 특허 출원 공개 제2012/0208705호, 미국 특허 출원 공개 제2012/0208724호 및 국제특허출원공개 WO 2012/061832호에 제공된다. 일부 실시형태에서, 트랜스포손 서열은 제1 유전자전위효소 인식 부위 및 제2 유전자전위효소 인식 부위를 포함한다. 트랜스포좀 복합체가 인덱스 서열을 도입하기 위해 사용되는 그러한 실시형태에서, 인덱스 서열은 유전자전위효소 인식 부위 사이에 또는 트랜스포손에 존재할 수 있다.
본 명세서에서 유용한 일부 트랜스포좀 복합체는 2개의 트랜스포손 서열을 갖는 유전자전위효소를 포함한다. 일부 이러한 실시형태에서, 2개의 트랜스포손 서열은 서로 연결되지 않으며, 다시 말해서, 트랜스포손 서열은 서로 비-연속적이다. 이러한 트랜스포좀의 예는 당해 분야에 공지되어 있다[예를 들어, 미국 특허 출원 공개 제2010/0120098호 참조].
통상적으로, 각 단부에 상이한 뉴클레오타이드 서열을 포함하는 핵산 단편을 생성시키기 위해 태그화가 이용된다(예를 들어, 하나의 단부에 N5 프라이머 서열 및 타단부에 N7 프라이머). 이는 2가지 타입의 트랜스포좀 복합체를 사용함으로써 달성될 수 있으며, 여기서, 각 트랜스포좀 복합체는 전달된 가닥의 일부인 상이한 뉴클레오타이드 서열을 포함한다. 일부 실시형태에서, 본 명세서에서 사용되는 태그화는 핵산 단편에 하나의 뉴클레오타이드 서열을 삽입한다. 뉴클레오타이드 서열의 삽입은 일단부에 헤어핀 결찰 듀플렉스를 갖는 핵산 단편을 야기시키며, 타단부에 트랜스포좀 복합체-삽입 뉴클레오타이드 서열을 야기시킨다. 트랜스포좀 복합체-삽입된 뉴클레오타이드 서열은 공통 서열을 포함한다. 공통 서열은 다른 인덱스를 통합하기 위해 본 명세서에 기술된 증폭 단계에서 혼성화를 위한 상보적인 서열로서 역할을 한다.
일부 실시형태에서, 트랜스포좀 복합체는 "루핑된 복합체" 또는 "루핑된 트랜스포좀"을 형성하기 위해 2개의 유전자전위효소 서브단위를 결합시키는 트랜스포손 서열 핵산을 포함한다. 일례에서, 트랜스포좀은 다이머 유전자전위효소 및 트랜스포손 서열을 포함한다. 루핑된 복합체는 본래 표적 DNA의 정렬 정보를 유지하고 표적 DNA를 단편화하지 않으면서 표적 DNA에 트랜스포손이 삽입될 수 있게 한다. 인식되는 바와 같이, 루핑된 구조는 표적 핵산의 물리적 연결성을 유지하면서, 표적 핵산 내에 요망되는 핵산 서열, 예를 들어, 인덱스를 삽입할 수 있다. 일부 실시형태에서, 루핑된 트랜스포좀 복합체의 트랜스포손 서열은 트랜스포손 서열이 2개의 트랜스포손 서열을 포함하는 트랜스포좀 복합체를 생성하기 위해 단편화될 수 있도록 단편화 부위를 포함할 수 있다. 이러한 트랜스포좀 복합체는 트랜스포손이 삽입한 이웃하는 표적 DNA 단편이 검저의 후속 단계에서 모호하지 않게 조립될 수 있는 바코드 조합을 수용할 수 있게 하는데 유용하다.
일 실시형태에서, 핵산의 단편화는 핵산에 존재하는 단편화 부위를 사용함으로써 달성된다. 통상적으로, 단편화 부위는 트랜스포좀 복합체를 사용함으로써 표적 핵산 내에 통합된다. 일 실시형태에서, 핵산이 단편화된 후에, 유전자전위효소는 핵산 단편에 부착된 채로 유지되며, 이에 따라, 동일한 게놈 DNA 분자로부터 유도된 핵산 단편이 물리적으로 연결된 채로 유지된다[Adey et al., 2014, Genome Res., 24:2041-2049]. 예를 들어, 루핑된 트랜스포좀 복합체는 단편화 부위를 포함할 수 있다. 단편화 부위는 표적 핵산 내에 삽입된 인덱스 서열 간의 정보 회합이 아닌 물리적 회합을 분열시키기 위해 사용될 수 있다. 분열은 생화학적, 화학적, 또는 다른 수단에 의할 수 있다. 일부 실시형태에서, 단편화 부위는 다양한 수단에 의해 단편화될 수 있는 뉴클레오타이드 또는 뉴클레오타이드 서열을 포함할 수 있다. 단편화 부위의 예는 제한 엔도뉴클레아제 부위, RNAse로 분열가능한 적어도 하나의 리보뉴클레오타이드, 특정 화학 작용제의 존재 하에서 분열 가능한 뉴클레오타이드 유사체, 퍼요오데이트로의 처리에 의해 분열 가능한 디올 연결, 화학적 환원제로 분열 가능한 디설파이드 기, 광화학적 분열로 처리될 수 있는 분열 가능한 모이어티, 및 펩티다아제 효소 또는 다른 적합한 수단에 의해 분열 가능한 펩타이드를 포함하지만, 이들로 제한되지 않는다[예를 들어, 미국 특허 출원 공개 제2012/0208705호, 미국 특허 출원 공개 제2012/0208724호 및 WO 2012/061832호 참조].
트랜스포좀 복합체는 선택적으로, 유전자전위효소 인덱스로서도 지칭되는, 인덱스 서열을 포함할 수 있다. 인덱스 서열은 트랜스포손 서열의 일부로서 존재한다. 일 실시형태에서, 인덱스 서열은 표적 핵산으로 전달되는 유전자전위효소 인식 부위의 가닥인 전달 가닥 상에 존재할 수 있다.
핵의 태그화 및 핵산 단편의 처리 이후에, 분자의 순도를 향상시키기 위해 정화 공정으로 이어질 수 있다. 임의의 적합한 정화 공정, 예를 들어, 전기영동, 크기 배제 크로마토그래피, 등이 사용될 수 있다. 일부 실시형태에서, 고체상 가역적 고정화 상자성 비드는 예를 들어, 통합되지 않은 프라이머로부터 요망되는 DNA 분자를 분리시키고, 크기를 기초로 하여 핵산을 선택하기 위해 사용될 수 있다. 고체상 가역적 고정화 상자성 비드는 Beckman Coulter(Agencourt AMPure XP), Thermofisher(MagJet), Omega Biotek(Mag-Bind), Promega Beads(Promega), 및 Kapa Biosystems(Kapa Pure Beads)로부터 상업적으로 입수 가능하다.
구획 특이적 인덱스의 첨가
태그 또는 바코드로서도 지칭되는 인덱스 서열은 특정 핵산이 존재하는 구획에 특징적인 마커로서 유용하다. 이에 따라, 인덱스는 특정 구획에 존재하는 표적 핵산 각각에 부착된 핵산 서열 태그이며, 이의 존재는, 단리된 핵 또는 세포의 집단이 방법의 특정 단계에서 존재하는 구획을 지시하거나 이를 식별하기 위해 사용된다. 핵산 단편에 인덱스의 첨가는 상이한 구획에 분포된 단리된 핵 또는 세포의 서브세트로 달성된다(도 1, 블록 15; 도 2, 블록 24, 26, 및 30; 도 3, 블록 33 및 37).
인덱스 서열은 임의의 적합한 수, 예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 그 이상의 길이의 뉴클레오타이드일 수 있다. 4개의 뉴클레오타이드 태그는 동일한 어레이 상에 256개 샘플을 멀티플렉싱하는 가능성을 제공하며, 6개의 염기는 4096개의 샘플을 동일한 어레이 상에서 처리될 수 있게 한다.
일 실시형태에서, 인덱스의 첨가는 핵산의 핵산 단편으로의 처리 동안 달성된다. 예를 들어, 인덱스를 포함하는 트랜스포좀 복합체가 사용될 수 있다. 일부 실시형태에서, 인덱스는 하나 또는 두 단부 모두에서 뉴클레오타이드 서열을 함유한 핵산 단편이 처리에 의해 생성된 후에 첨가된다. 다른 실시형태에서, 처리는 인덱스를 첨가할 필요는 없다. 예를 들어, 인덱스는 RNA 핵산을 단편화하지 않으면서 RNA 핵산에 직접적으로 첨가될 수 있다. 이에 따라, "핵산 단편"에 대한 언급은 처리로부터 생성된 핵산 및 RNA 핵산, 및 이러한 핵산으로부터 유도된 핵산을 포함한다.
인덱스를 첨가하는 방법은 결찰, 연장(역전사 효소를 사용한 연장을 포함함), 혼성화, 흡착, 프라이머의 특이적 또는 비-특이적 상호작용, 증폭, 또는 전위를 포함하지만, 이들로 제한되지 않는다. 핵산 단편의 하나 또는 두 단부 모두에 첨가된 뉴클레오타이드 서열은 또한, 하나 이상의 공통 서열 및/또는 독특한 분자 식별자를 포함할 수 있다. 공통 서열은 예를 들어, 핵산 단편에 다른 인덱스 및/또는 다른 공통 서열과 같은 다른 뉴클레오타이드 서열의 첨가를 위한 프라이머로서 사용될 수 있는 뉴클레오타이드 서열을 어닐링하기 위한 후속 단계에서 "랜딩 패드"로서 사용될 수 있다. 이에 따라, 인덱스 서열의 통합은 본질적으로, 결찰, 연장, 혼성화, 흡착, 프라이머의 특이적 또는 비-특이적 상호작용, 증폭, 또는 전위의 임의의 조합을 이용하여, 1, 2, 또는 그 이상의 단계를 포함하는 공정을 이용할 수 있다.
예를 들어, mRNA로부터 유도된 핵산 단편의 사용을 포함하는 실시형태에서, 다양한 방법은 1 또는 2 단계에서 mRNA에 인덱스를 첨가하기 위해 사용될 수 있다. 예를 들어, 인덱스는 cDNA를 생성하기 위해 사용되는 타입의 방법을 이용하여 첨가될 수 있다. 3' 단부에서 폴리-T 서열을 갖는 프라이머는 mRNA 분자에 어닐링되고, 역전사 효소를 사용하여 연장될 수 있다. 역전사를 위해 적합한 조건 하에서 이러한 성분들에 단리된 핵 또는 세포의 노출은 인덱싱된 핵 또는 세포의 집단을 야기시키기 위해 인덱스의 1 단계 첨가를 초래하며, 여기서, 각 핵 또는 세포는 인덱싱된 핵산 단편을 함유한다. 대안적으로, 폴리-T 서열을 갖는 프라이머는 인덱스 대신에 공통 서열을 포함하며, 인덱스는 결찰, 프라이머 연장, 증폭, 혼성화, 또는 이들의 조합의 후속 단계에 의해 첨가된다. 일부 실시형태에서, 바코드는 공통 서열을 사용하지 않고 첨가된다. 인덱싱된 핵산 단편은 합성된 가닥 상에 특정 구획을 나타내는 인덱스 서열을 포함할 수 있거나, 통상적으로 포함한다.
비-코딩 RNA로부터 유도된 핵산 단편의 사용을 포함하는 실시형태에서, 1 또는 2 단계에서 비-코딩 RNA에 인덱스를 첨가하기 위해 다양한 방법이 사용될 수 있다. 예를 들어, 인덱스는 랜덤 서열 및 주형-스위치 프라이머(template-switch primer)를 포함하는 제1 프라이머를 사용하여 첨가될 수 있으며, 여기서, 어느 한 프라이머는 인덱스를 포함할 수 있다. 합성된 가닥의 3' 단부에 비-주형 뉴클레오타이드의 첨가를 야기시키기 위한 말단 트랜스퍼라제 활성을 갖는 역전사 효소가 사용될 수 있으며, 주형-스위치 프라이머는 역전사 효소에 의해 첨가된 비-주형 뉴클레오타이드와 함께 어닐링되는 뉴클레오타이드를 포함한다. 유용한 역전사 효소의 예는 Moloney 뮤린 백혈병 바이러스 역전사 효소이다. 특정 실시형태에서, Takara Bio USA, Inc.로부터 입수 가능한 SMARTerTM 시약(카탈로그 번호 634926)은 비-코딩 RNA 및 요망되는 경우에, mRNA에 인덱스를 첨가하기 위해 주형-스위칭의 사용을 위해 사용된다. 대안적으로, 제1 프라이머 및/또는 주형-스위치 프라이머는 인덱스 대신에 공통 서열을 포함할 수 있으며, 인덱스는 결찰, 프라이머 연장, 증폭, 혼성화, 또는 이들의 조합의 후속 단계에 의해 첨가된다. 인덱싱된 핵산 단편은 합성된 가닥 상에 특정 구획을 나타내는 인덱스 서열을 포함할 수 있고, 통상적으로 포함한다. 다른 실시형태는 RNA 또는 전장 RNA 프로파일의 5' 또는 3' 프로파일링을 포함한다.
다른 실시형태에서, 특정 mRNA 및/또는 비-코딩 RNA는 증폭에 대해 표적화될 수 있다. 표적화는 유용한 정보를 얻을 가능성이 더 높고 시퀀싱 깊이의 큰 감소를 야기시키고, 세포 간에 미묘한 차이를 검출하는 힘을 증가시키는 서열에 대해 농축된 시퀀싱 라이브러리의 생성을 허용한다. 하나 이상의 mRNA 및/또는 하나 이상의 비-코딩 RNA를 포함하는 RNA 분자는 유용한 정보를 얻을 가능성이 높은 것으로 선택될 수 있으며, 프라이머는 사전결정된 RNA 핵산에 선택적으로 어닐링하고, 세포 또는 핵에 존재하는 전체 RNA 분자의 하위집단을 증폭시키기 위해 사용될 수 있다. 당업자는 적절한 RNA 분자가 실험에 따라 선택한다는 것을 인식할 것이다. 예를 들어, 비코딩 섭동의 평가에서, 파괴되는 조절 구성요소에 대한 유일한 코딩 영역 cis는 발현의 변화에 대해 시험될 수 있다. 이러한 방법은 랜덤 헥사머 또는 폴리-T 프라이머의 사용보다 더 큰 리보솜 리드의 백그라운드를 감소시킬 수 있다. 이러한 방법은 또한, 대안적인 전사 개시 부위 사건으로 인한 스플라이스 접합 및 엑손을 표적화할 수 있게 하여, 통상적인 sci 방법으로 용이하게 검출되지 않는 아이소형 정보를 제공한다.
RNA 분자의 표적화된 증폭은 라이브러리 생성 동안 여러 단계에서 일어날 수 있다. 일 실시형태에서, 다수의 표적의 표적화된 증폭은 RNA 분자의 역전자 동안 일어난다. 실험은 상이한 RNA 분자를 표적화하는 다수의 상이한 프라이머를 포함할 수 있다. 일 실시형태에서, 동일한 RNA 분자의 상이한 영역을 표적화하는 다수의 프라이머가 사용될 수 있다. 동일한 RNA 분자의 상이한 영역에 관한 다수의 프라이머의 사용은 RNA 분자에 대한 다수의 기회를 cDNA로 역전사시킬 수 있게 하여, RNA 분자의 검출 가능성을 증가시킨다.
일 실시형태에서, 표적화된 증폭을 위해 사용되는 프라이머는 인덱스를 포함하지 않는다. 인덱스가 증폭 동안 첨가되지 않을 때, 상이한 구획 내에 세포 또는 핵의 분포는 필요하지 않으며, 증폭은 존재하는 모든 RNA 분자 및 모든 프라이머와의 단일 반응으로서 일어날 수 있다. 인덱스가 증폭 반응 동안 첨가되는 실시형태에서, 세포 또는 핵의 분포는 유용하며, 증폭은 모든 RNA 분자 및 모든 프라이머와의 각 구획에서의 단일 반응으로서 일어날 수 있지만, 구획에서 각 프라이머는 동일한 구획 특이적 인덱스를 갖는다.
일 실시형태에서, 멀티플렉스 표적 캡처에 대한 프라이머의 설계는 하기 고려사항 중 하나 이상을 포함할 수 있다. RNA가 표적화된 증폭을 위해 선택된 후에, RNA의 서열은 수집될 수 있으며, 모든 가능한 역전사 효소 프라이머, 즉, 후보 프라이머가 결정된다. 임의의 프라이머의 길이는 역전사 반응에서 기능하기에 충분히 길어야 하고, 예를 들어, 길이가 20 내지 30개의 뉴클레오타이드일 수 있다.
후보 프라이머는 GC 함량, 프라이머에서 GC 염기의 위치, 오프사이트 표적화의 가능성, 및 맵핑 능력을 포함하지만, 이들로 제한되지 않는, 다양한 기준에 의해 여과될 수 있다. 유용한 GC 함량은 40 내지 60%이며, 이는 대략 55 내지 70℃인 용융 온도에 해당한다. 어닐링된 프라이머가 역전사 효소에 의해 연장을 위한 양호한 기질일 가능성을 증가시키기 위해 프라이머의 3' 단부의 마지막 5 뉴클레오타이드에 2개의 구아닌 또는 사이토신 염기를 갖는 것이 바람직하다.
오프 표적 프라이밍의 가능성과 관련하여, 본 발명자는 표적 RNA가 매우 풍부한 반면, 큰 부분의 리드가 세포 내에서 풍부한 다른 RNA로부터 여전히 유도된다는 것을 발견하였다. 대부분의 이러한 오프 표적 프라이밍 사건은 프라이머의 3' 단부와 오프 표적 RNA 사이에 상보적인 대략 5 내지 8개의 염기쌍의 결과이다. 본 발명자는 전체 세포 RNA 내에 후보 프라이머의 최종 헥사머의 존재비를 고려하는 것이 유용하다는 것을 발견하였다. 유용한 프라이머가 (i) 리보솜 RNA 내에 존재하지 않거나 (ii) 전체 세포 RNA 내에 낮은 수준으로 나타난 마지막 헥사머를 포함하는 것이 결정되었다.
리보솜 RNA 내에 존재하지 않는 헥사머의 예는 문헌[the 'Not So Random' or NSR hexamers of Armour et al., 2009, Nature Methods, 6(9):647-49]에 기술되어 있다. 이러한 특징을 갖는 프라이머는 리보솜 RNA 내에 오프 표적 프라이밍을 가질 가능성이 훨씬 낮은 것으로 확인되었다. 헥사머가 전체 세포 RNA 내에서 낮은 수준으로 나타나는 지의 여부를 결정하는 하나의 방법은 세포 내에서 RNA 분자에서 각 헥사머의 존재비, 예를 들어, 본 명세서에 기술된 방법에 따라 분석되는 세포의 타입 내에서, 리보솜 전사를 포함하는 모든 초기 전사를 식별하는 것을 포함할 수 있다. 낮은 수준의 존재비에서, 예를 들어, 가장 낮은 사분위수의 존재비 내에 있는 후보 프라이머의 사용은 오프-사이트 표적화를 감소시킬 수 있다.
후보 프라이머는 또한, 맵핑능력에 의해 평가될 수 있다. 예를 들어, 각 후보는 보우타이-타입의 알고리즘을 이용하고 3 미스매치를 허용하여 표적에 정렬될 수 있다. 이러한 단계는 각 프라이머가 게놈에서 단지 하나의 표적 부위를 가질 것이라는 것을 보장하는데 도움을 준다.
일부 실시형태에서, 멀티플렉스 표적 캡처로도 지칭되는, 동일한 반응에서의 다중 표적의 증폭, 역전사 효소 프라이머의 어닐링 온도의 조절은 요망되는 표적 RNA의 특정 역전사 및 증폭을 유지하는데 도움을 준다. 예를 들어, 통상적인 역전사 프로토콜은 RNA와 역전사 프라이머의 혼합물을 변성시키고, 어닐링하기 위해 4℃까지 냉각시킨다. 낮은 어닐링 온도는 너무 낮고, 요망되지 않는 오프 표적 어닐링 사건을 야기시킨다. 연장하는 단지 어닐링 사건이 전체 표적화된 역전사 프라이머가 정확한 표적으로 어닐링되는 것일 가능성을 증가시키기 위해, 고온은 역전사의 전체 공정 동안 유지된다. 일 실시형태에서, 성분, 즉, 예를 들어, 고정된 세포, 역전사 프라이머 풀, 및 dNTP의 혼합물은 65℃에서, 53℃에서 어닐링하고, 어닐링 반응에 대해 53℃에서 사전 평형화되는 역전사 효소/완충제 혼합물을 첨가하고, 53℃에서 20분 동안 연장한다. 이에 따라, 변성과 연장 단계 사이에 저온에서 어닐링되는 역전사 프라이머의 가능성이 감소된다. 당업자는 변형이 다소, 예를 들어, 역전사의 특이성을 감소시키지 않으면서, 온도 또는 시간을 변경하여 이루어질 수 있다는 것을 인식할 것이다.
핵산 단편에 인덱스의 첨가를 위한 다른 방법이 사용될 수 있으며, 인덱스가 첨가되는 방법은 제한적인 것으로 의도되지 않는다. 예를 들어, 일 실시형태에서, 인덱스 서열의 통합은 핵산 단편의 일단부 또는 두 단부 모두에 프라이머를 결찰시키는 것을 포함한다. 결찰 프라이머의 결찰은 핵산 단편의 단부에 공통 서열의 존재에 의해 보조될 수 있다. 프라이머의 예는 헤어핀 결찰 듀플렉스이다. 결찰 듀플렉스는 핵산 단편의 일단부 또는 바람직하게, 두 단부 모두에 결찰될 수 있다.
다른 실시형태에서, 인덱스 서열의 통합은 단일 가닥 핵산 단편의 사용 및 제2 DNA 가닥의 합성을 포함한다. 일 실시형태에서, 제2 DNA 가닥은 단일 가닥 핵산 단편의 단부에 존재하는 뉴클레오타이드에 상보적인 서열을 포함하는 프라이머를 사용하여 형성된다.
다른 실시형태에서, 인덱스의 통합은 1, 2, 3 또는 그 이상의 라운드의 분할 및 풀 바코딩을 일으켜서, 단일, 이중, 삼중 또는 다중(예를 들어, 4 이상) 인덱싱된 단일 세포 라이브러리를 야기시킨다.
다른 실시형태에서, 인덱스 및 증폭 매개체(예를 들어, 공통 서열)의 통합은 유익하고, 표적화된 단일 세포 시퀀싱 라이브러리 및/또는 표적화된 단일 세포 시퀀싱 라이브러리를 제조할 수 있게 한다.
고정화를 위한 공통 서열의 첨가
일 실시형태에서, 가공 및/또는 인덱싱 단계 동안 뉴클레오타이드의 첨가는 단편의 고정화 및 시퀀싱에서 유용한 공통 서열을 첨가한다. 다른 실시형태에서, 인덱싱된 핵산 단편은 핵산 단편의 고정화 및 시퀀싱에서 유용한 공통 서열을 첨가하기 위해 추가로 가공될 수 있다. 당업자는 구획이 점적인 실시형태에서, 핵산 단편을 고정시키기 위한 서열이 선택적이라는 것을 인지할 것이다. 일 실시형태에서, 단편의 고정화 및 시퀀싱에서 유용한 공통 서열의 통합은 동일한 공통 어댑터(또한, '미스매칭된 어댑터'로서 지칭됨, 이의 일반적인 특징은 Gormley et al., US 7,741,463호 및 Bignell et al., US 8,053,192호에 기술됨)를 인덱싱된 핵산 단편의 5' 및 3' 단부에 결찰시키는 것을 포함한다. 일 실시형태에서, 공통 어댑터는 어레이 상에 인덱싱된 핵산 단편을 고정시키기 위한 서열을 포함하는, 시퀀싱을 위해 필수적인 모든 서열을 포함한다.
일 실시형태에서, 블런트-단부 결찰이 이용될 수 있다. 다른 실시형태에서, 핵산 단편은 인덱싱된 핵산 단편의 3' 단부에 하나 이상의 데옥시뉴클레오타이드, 예를 들어, 데옥시아데노신(A)을 첨가하는 비-주형-의존 말단 트랜스퍼라제 활성을 갖는 특정 타입의 DNA 폴리머라제, 예를 들어, Taq 폴리머라제 또는 Klenow 엑소 마이너스 폴리머라제의 활성에 의해 단일 오버행잉 뉴클레오타이드로 제조된다. 일부 경우에, 오버행잉 뉴클레오타이드는 하나 초과의 염기이다. 이러한 효소는 핵산 단편의 각 가닥의 블런트 단부 3' 말단에 단일 뉴클레오타이드 'A'를 첨가하기 위해 사용될 수 있다. 이에 따라, 'A'는 Taq 또는 Klenow 엑소 마이너스 폴리머라제와의 반응에 의해 이중 가닥 표적 단편의 각 가닥의 3 말단에 첨가될 수 있으며, 핵산단편의 각 단부에 첨가되는 추가적인 서열은 첨가되는 이중 가닥 핵산의 각 영역의 3' 말단 상에 존재하는 상용성 'T' 오버행을 포함할 수 있다. 이러한 단부 변형은 또한, 이러한 실시형태에서 첨가된 서열에 나란히 있는 인덱싱된 핵산 단편의 형성 쪽으로의 바이어스가 존재하도록 핵산의 자가-결찰을 방지한다.
다른 실시형태에서, 인덱싱된 핵산 단편에 결찰된 공통 어댑터가 시퀀싱을 위해 필요한 모든 서열을 포함할 때, 증폭 단계, 예를 들어, PCR은 고정화 및 시퀀싱 이전에 각 인덱싱된 핵산 단편에 존재하는 공통 어댑터를 추가로 변형시키기 위해 사용될 수 있다. 예를 들어, 초기 프라이머 연장 반응은 인덱싱된 핵산 단편에 존재하는 공통 서열에 대해 상보적인 공통 고정 서열을 사용하여 수행될 수 있으며, 여기서, 각 개별 인덱싱된 핵산 단편의 두 가닥 모두에 대해 상보적인 연장 생성물이 형성된다. 통상적으로, PCR은 추가적인 공통 서열, 예를 들어, 공통 캡처 서열을 첨가한다.
공통 어댑터가 시퀀싱을 위해 필요한 모든 서열을 포함한 공통 어댑터를 결찰하거나 혼성화시키는 단일 단계 방법에 의해, 또는 공통 어댑터를 결찰시키고 이후에 공통 어댑터를 추가로 변형시키기 위한 증폭의 2-단계 방법에 의해 첨가된 후에, 최종 인덱스 단편은 공통 캡처 서열 및 고정 서열을 포함할 것이다. 각 단부에 공통 어댑터 첨가의 결과는 인덱싱된 핵산 단편의 복수의 라이브러리이다.
얻어진 인덱싱된 단편은 총괄적으로, 고정되고 이후에 시퀀싱될 수 있는 핵산의 라이브러리를 제공한다. 본 명세서에서 시퀀싱 라이브러리로도 지칭되는, 용어 라이브러리는 이의 3' 및 5' 단부에서 공지된 공통 서열을 함유한 단일 핵 또는 세포로부터의 핵산 단편의 콜렉션을 지칭한다. 라이브러리는 전체 전사체로부터의 핵산, 새로이 합성된 RNA 분자로부터의 핵산, 또는 둘 모두의 조합을 포함하고, 전체 전사체, 새로이 합성된 RNA의 전사체, 또는 둘 모두의 조합의 시퀀싱을 수행하기 위해 사용될 수 있다.
인덱싱된 핵산 단편은 사전결정된 크기 범위, 예를 들어, 길이가 150 내지 400개 뉴클레오타이드, 예를 들어, 150 내지 300개 뉴클레오타이드에 대해 선택하는 조건으로 처리될 수 있다. 얻어진 인덱싱된 핵산 단편은 풀링되고, 선택적으로, 통합되지 않은 공통 어댑터 또는 프라이머의 적어도 일부분을 제거함으로써 DNA 분자에 대한 순도를 향상시키기 위해 정화 공정으로 처리될 수 있다. 임의의 적합한 정화 공정, 예를 들어, 전기영동, 크기 배제 크로마토그래피, 등이 사용될 수 있다. 일부 실시형태에서, 고체상 가역적 고정화 상자성 비드는 부착되지 않은 공통 어댑터 또는 프라이머로부터 요망되는 DNA 분자를 분리시키고, 크기를 기초로 하여 핵산을 선택하기 위해 사용될 수 있다. 고체상 가역적 고정화 상자성 비드는 Beckman Coulter(Agencourt AMPure XP), Thermofisher(MagJet), Omega Biotek(Mag-Bind), Promega Beads(Promega), 및 Kapa Biosystems(Kapa Pure Beads)로부터 상업적으로 입수 가능하다.
본 개시내용의 비제한적인 예시적인 실시형태는 도 1에 도시되어 있다. 이러한 실시형태에서, 방법은 복수의 세포를 제공하는 것을 포함한다(도 1, 블록 10). 이러한 방법은 세포의 서브세트를 복수의 구획 내에 분포시키고(도 1, 블록 11), 세포를 사전결정된 조건에 노출시키는 것(도 1, 블록 12)을 더 포함한다. 사전결정된 조건은 상이한 구획 사이에서 달라질 수 있고, 통상적으로, 달라진다. 예를 들어, 상이한 구획은 상이한 투여량의 작용제, 상이한 섭동, 상이한 노출 기간, 상이한 세포 타입, 등을 포함할 수 있다. 새로이 합성된 RNA는 이후에 표지화된다(도 1, 블록 13). 표지화는 세포로 일어날 수 있거나, 핵은 세포로부터 단리될 수 있으며, 표지화는 핵으로 일어난다. 일부 실시형태에서, 세포 RNA는 처리되어 단편을 초래한다(도 1, 블록 14). 세포 또는 핵에 존재하는 RNA는 이후에 인덱싱된다(도 1, 블록 15). RNA을 인덱싱하기 위한 다양한 실시형태가 가능하다. 예를 들어, 일 실시형태에서, 세포에 존재하는 모든 mRNA는 폴리-T 영역을 포함하는 프라이머를 사용함으로써 인덱싱된다. 다른 실시형태에서, 특정 RNA 핵산은 인덱싱된다.
본 개시내용의 다른 비제한적인 예시적인 실시형태는 도 2에 도시되어 있고 실시예 1에 기술되어 있다. 이러한 실시형태에서, 본 방법은 복수의 세포로부터 단리된 핵을 제공하는 것을 포함한다(도 2, 블록 22). 본 방법은 제1의 복수의 구획 내에 단리된 핵의 서브세트를 분포시키는 것을 더 포함한다(도 2, 블록 23). 제1 분포 단계(도 2, 블록 23)에서 구획의 수는 사용된 포맷에 의존적일 수 있다. 예를 들어, 구획의 수는 2 내지 96 구획(96-웰 플레이트가 사용될 때), 2 내지 384 구획(384-웰 플레이트가 사용될 때), 또는 2 내지 1536 구획(1536-웰 플레이트가 사용될 때)일 수 있다. 대안적으로, 다른 구획, 예를 들어, 점적이 사용될 수 있다.
본 방법은 또한, 인덱싱된 핵을 생성시키는 것을 포함한다(도 2, 블록 24). 일 실시형태에서, 인덱싱된 핵을 생성시키는 것은 인덱스, 랜덤 뉴클레오타이드 서열, 및 공통 서열을 첨가하기 위해 올리고-dT 플라이머를 갖는 역전사 효소의 사용을 포함한다. 각 구획에서 인덱스는 독특하며, 예를 들어, 각 인덱스는 구획 특이적이다. 랜덤 서열은 독특한 핵산 단편을 표지화하기 위해 독특한 분자 식별자(UMI)로서 사용된다. 랜덤 서열은 또한, 다운스트림 처리에서 복제품의 제거에 도움을 주기 위해 사용될 수 있다. 공통 서열은 본 명세서에 기술된 결찰 단계에서 혼성화를 위한 상보적인 서열로서 역할을 한다. 다른 실시형태에서, 인덱싱된 핵을 생성시키는 것은 사전결정된 RNA 분자를 표적화하기 위해 특정 프라이머를 갖는 역전사 효소의 사용을 포함한다. 역전사는 표적화된 RNA 분자에 인덱스, 랜덤 뉴클레오타이드 서열, 및 공통 서열의 첨가를 야기시킬 수 있다. 역전사를 위해 적합한 조건 하에서 이러한 성분에 핵의 노출은 인덱싱된 핵의 집단을 야기시키며, 여기서, 각 핵은 인덱싱된 핵산 단편을 함유한다. 인덱싱된 핵산 단편은 합성된 가닥 상에 특정 구획을 나타내는 인덱스 서열을 포함할 수 있고, 통상적으로 이를 포함한다. 인덱싱된 핵산 단편의 예는 실시예 1의 도 1A에 도시되어 있다("인덱싱된 역전사" 참조).
다수의 구획으로부터의 인덱싱된 핵이 조합될 수 있다(도 2, 블록 25). 본 명세서에서 풀링된 인덱싱된 핵으로서 지칭되는, 이러한 조합된 인덱싱된 핵의 서브세트는 이후에, 제2의 복수의 구획 내에 분포된다(도 2, 블록 25). 서브세트 내에 핵의 분포 이후에 이중-인덱싱된 단편을 생성시키기 위해 각 구획에서 인덱싱된 핵산 단편 내에 제2 인덱스 서열을 통합하는 것이 이어진다. 이는 인덱싱된 핵산 단편의 추가 인덱싱을 야기시킨다(도 2, 블록 26).
이러한 예시적인 실시형태에서, 제2 인덱스 서열의 통합은 각 구획에서 인덱싱된 핵산 단편에 헤어핀 결찰 듀플렉스를 결찰시키는 것을 포함한다. 표적 핵산 단편의 단부에 공통 서열, 인덱스, 또는 이들의 조합을 통합하기 위한 헤어핀 결찰 듀플렉스의 사용은 통상적으로, 후속 증폭을 위한 프라이머로서 듀플렉스의 일단부를 사용한다. 반대로, 이러한 실시형태에서 사용되는 헤어핀 결찰 듀플렉스는 프라이머로서 작용하지 않는다. 본 명세서에 기술된 헤어핀 결찰 듀플렉스 사용의 장점은 당해 분야에 기술된 다수의 헤어핀 결찰 듀플렉스로 관찰된 자가-자가 결찰의 감소이다. 일 실시형태에서, 결찰 듀플렉스는 5가지 구성요소를 포함한다: 1) 올리고-dT 프라이머 상에 존재하는 공통 서열의 보체인 공통 서열, 2) 제2 인덱스, 3) ideoxyU, 4) 헤어핀을 형성할 수 있는 뉴클레오타이드 서열, 및 5) 제2 인덱스의 역보체. 제2 인덱스 서열은 제1 인덱스가 역전사에 의해 첨가된 후 분포된 인덱싱된 핵이 배치된(도 2, 블록 25) 각 구획에 대해 독특하다. 이중-인덱싱된 핵산 단편의 예는 실시예 1의 도 1A에 도시되어 있다("인덱싱된 헤어핀 결찰" 참조).
핵산 단편 내에 통합된 헤어핀 결찰 듀플렉스의 헤어핀 영역에 존재하는 ideoxyU의 제거는정화 전, 동안, 또는 후에 일어날 수 있다. 우라실 잔기의 제거는 임의의 이용 가능한 방법에 의해 달성될 수 있으며, 일부 실시형태에서, NEB로부터 입수 가능한 우라실-특이적 절단 시약(Uracil-Specific Excision Reagent: USER)이 사용된다.
본 명세서에서 풀링된 이중-인덱싱된 핵으로 지칭되는, 이러한 조합된 이중-인덱싱된 핵의 서브세트는 이후에, 제3의 복수의 구획 내에 분포된다(도 2, 블록 27). 일 실시형태에서, 100 내지 30,000개 핵은 각 웰에 분포된다. 일 실시형태에서, 웰에서 핵의 수는 적어도 100, 적어도 500, 적어도 1,000, 또는 적어도 5,000개이다. 일 실시형태에서, 웰에서 핵의 수는 30,000개 이하, 25,000개 이하, 20,000개 이하, 또는 15,000개이다. 일 실시형태에서, 서브세트에 존재하는 핵의 수는 100 내지 1,000, 1,000 내지 10,000, 10,000 내지 20,000, 또는 20,000 내지 30,000개일 수 있다. 일 실시형태에서, 2,500개 핵은 각 웰에 분포된다. 일 실시형태에서, 각 서브세트에 존재하는 핵의 수는 대략 동일하다.
서브세트 내에 이중-인덱싱된 핵의 분포 이후에, 제2 DNA 가닥의 합성이 이어진다(도 2, 블록 28). 핵에서 핵산은 이를 태그화함으로써 처리된다(도 2, 블록 29). 이중-인덱싱된 핵을 함유한 각 구획은 트랜스포좀 복합체를 포함한다. 이러한 실시형태에서, 각 단부에서 상이한 뉴클레오타이드 서열(예를 들어, 일단부에서 N5 프라이머 서열 및 타단부에서 N7 프라이머)을 포함하는 핵산 단편을 생성시키기 위해 태그화가 이용된다.
핵의 태그화 이후에, 삼중-인덱싱된 단편을 생성시키기 위해 각 구획에서 이중-인덱싱된 핵산 단편 내에 제3 인덱스 서열을 통합시키며, 여기서, 각 구획에서 제3 인덱스 서열은 구획에서 제1 및 제2 인덱스 서열과 상이하다. 이는 고정화 및 시퀀싱 이전에 인덱싱된 핵산 단편의 추가 인덱싱을 야기시킨다(도 2, 블록 30; 또한, 실시예의 도 1A 참조("USER 처리, 인덱싱된 PCR")). 일 실시형태에서, 이중-인덱싱된 핵산 단편의 단부에 존재하는 공통 서열(한 단부에 헤어핀 결찰 듀플렉스-삽입된 뉴클레오타이드 서열 및 타단부에 트랜스포좀 복합체-삽입된 뉴클레오타이드 서열)은 프라이머의 결합을 위해 사용되고, 증폭 반응에서 연장될 수 있다. 통상적으로, 2개의 상이한 프라이머가 사용된다. 하나의 프라이머는 이중-인덱싱된 핵산 단평의 하나의 가닥의 3' 단부에서 공통 서열과 혼성화되며, 제2 프라이머는 이중-인덱싱된 핵산 단편의 다른 가닥의 3' 단부에서 공통 서열과 혼성화된다. 이에 따라, 각 프라이머 상에 존재하는 고정 서열(예를 들어, 리드 1 또는 리드 2에 대한 시퀀싱 프라이머와 같은 공통 프라이머가 시퀀싱을 위해 어닐링되는 부위)은 상이할 수 있다. 적합한 프라이머 각각은 추가적인 공통 서열, 예를 들어, 공통 캡처 서열을 포함할 수 있다(예를 들어, 캡처 올리고뉴클레오타이드가 혼성화되는 부위, 여기서, 캡처 올리고뉴클레오타이드는 고체 기질의 표면 상에 고정될 수 있음). 각 프라이머가 인덱스를 포함하기 때문에, 이러한 단계는 삼중-인덱싱된 단편을 야기시키기 위해 핵산 단편의 각 단부에 다른 인덱스 서열의 첨가를 야기시킨다. 일 실시형태에서, 인덱싱된 프라이머, 예를 들어, 인덱싱된 P5 프라이머 및 인덱싱된 P7 프라이머는 제3 인덱스를 첨가하기 위해 사용될 수 있다. 삼중-인덱싱된 단편은 풀링되며, 이러한 것은 본 명세서에 기술된 바와 같이 정화 단계로 처리될 수 있다.
복수의 삼중-인덱싱된 단편은 시퀀싱을 위해 제조될 수 있다. 삼중-인덱싱된 단편이 풀링되고 정화된 후에, 이러한 것은 통상적으로, 시퀀싱 전에 고정화 및/또는 증폭에 의해 풍부해진다(도 2, 블록 31).
본 개시내용의 다른 비제한적인 예시적인 실시형태는 도 3에 도시되어 있고, 실시예 4에 기술되어 있다. 이러한 실시형태에서, 본 방법은 단리된 핵 또는 세포를 제공하는 것을 포함한다(도 3, 블록 30). 핵 또는 세포는 역전사 효소에 노출되고 특정 프라이머는 표적에 노출되고 사전결정된 RNA 분자를 풍부하게 할 수 있다(도 3, 블록 31). 역전사를 위해 적합한 조건 하에서 이러한 성분에 핵 또는 세포의 노출은 핵 또는 세포의 집단을 야기시키며, 여기서, 각 핵은 사전결정된 RNA 분자에 존재하는 서열에 대해 풍부한 핵산 단편을 함유한다. 본 방법은 핵 또는 세포의 서브세트를 제1의 복수의 구획 내에 분포시키는 것을 더 포함한다(도 3, 블록 32). 제1 분포 단계(도 3, 블록 32)에서 구획의 수는 사용되는 포맷에 따를 수 있다. 예를 들어, 구획의 수는 2 내지 96개의 구획(96-웰 플레이트가 사용될 때), 2 내지 384개의 구획(384-웰 플레이트가 사용될 때), 또는 2 내지 1536개의 구획(1536-웰 플레이트가 사용될 때)일 수 있다. 대안적으로, 다른 구획, 예를 들어, 점적이 사용될 수 있다.
본 방법은 또한, 인덱싱된 단편을 생성시키기 위해 각 구획에서 핵산 단편 내에 인덱스 서열을 통합시킴으로써 인덱싱된 핵 또는 세포를 생성시키는 것을 포함한다(도 3, 블록 33).
일 실시형태에서, 인덱스 서열의 통합은 각 구획에서 인덱싱된 핵산 단편에 헤어핀 결찰 듀플렉스를 결찰시키는 것을 포함한다. 인덱싱된 단편을 함유한 핵 또는 세포는 풀링되며, 이러한 조합된 인덱싱된 핵 또는 세포의 서브세트는 이후에, 제2의 복수의 구획 내에 분포된다(도 3, 블록 34).
서브세트 내에 인덱싱된 핵 또는 세포의 분포 이후에, 제2 DNA 가닥의 합성이 이어질 수 있다(도 3, 블록 35). 핵 또는 세포에서 핵산은 이러한 것을 태그화함으로써 처리된다(도 3, 블록 36). 인덱싱된 핵을 함유한 각 구획은 트랜스포좀 복합체를 포함한다. 이러한 실시형태에서, 태그화는 각 단부에서 상이한 뉴클레오타이드 서열(예를 들어, 일단부에 N5 프라이머 서열 및 타단부에 N7 프라이머)을 포함하는 핵산 단편을 생성시키기 위해 사용된다.
핵의 태그화 이후에 이중-인덱싱된 단편을 생성시키기 위해 각 구획에서 인덱싱된 핵산 단편 내에 제2 인덱스 서열이 통합될 수 있으며, 여기서, 각 구획에서 제2 인덱스 서열은 구획에서 제1 인덱스 서열과 상이하다. 이는 고정화 및 시퀀싱 이전에 인덱싱된 핵산 단편의 추가 인덱싱을 야기시킨다(도 3, 블록 37).
복수의 이중-인덱싱된 단편은 시퀀싱을 위해 제조될 수 있으며, 여기서, 시퀀싱 데이터는 사전결정된 RNA 분자에 존재하는 서열에 대해 풍부해진다. 이중-인덱싱된 단편이 풀링되고 정화된 후에, 이러한 것은 통상적으로, 시퀀싱 이전에 고정화 및/또는 증폭에 의해 풍부해진다(도 3, 블록 38).
시퀀싱을 위한 고정된 샘플의 제조
기질에 하나 이상의 소스로부터의 인덱싱된 단편을 부착시키기 위한 방법이 당해 분야에 공지되어 있다. 일 실시형태에서, 인덱싱된 단편은 인덱싱된 단편에 대한 특이성을 갖는 복수의 캡처 올리고뉴클레오타이드를 사용하여 풍부해지며, 캡처 올리고뉴클레오타이드는 고체 기질의 표면 상에 고정될 수 있다. 예를 들어, 캡처 올리고뉴클레오타이드는 공통 결합쌍의 제1 구성원을 포함할 수 있으며, 결합쌍의 제2 구성원은 고체 기질의 표면 상에 고정된다. 마찬가지로, 고정된 이중-인덱싱된 단편을 증폭시키는 방법은 브리지 증폭 및 역학 배제를 포함하지만, 이들로 제한되지 않는다. 시퀀싱 이전에 고정하고 증폭시키는 방법은 예를 들어, 문헌[Bignell et al. (US 8,053,192), Gunderson et al. (WO2016/130704), Shen et al. (US 8,895,249), 및 Pipenburg et al. (US 9,309,502)]에 기술되어 있다.
풀링된 샘플은 시퀀싱을 위한 준비에서 고정될 수 있다. 시퀀싱은 단일 분자의 어레이로서 수행될 수 있거나, 시퀀싱 이전에 증폭될 수 있다. 증폭은 하나 이상의 고정된 프라이머를 사용하여 수행될 수 있다. 고정된 프라이머(들)는 예를 들어, 평면 표면 상 또는 비드의 풀 상의 론(lawn)일 수 있다. 비드의 풀은 에멀션의 각 "구획"에서 단일 비드를 갖는 에멀션 내로 단리될 수 있다. "구획" 당 단지 하나의 주형에 집중하여, 단지 하나의 단일 구형은 각 비드 상에서 증폭된다.
본 명세서에서 사용되는 용어 "고체상 증폭"은 모든 증폭된 산물 또는 이의 일부가 이러한 것이 형성될 때 고체 지지체 상에 고정되도록 고체 지지체 상에 수행되거나 이와 회합되는 임의의 핵산 증폭 반응을 지칭한다. 특히, 이러한 용어는 정방향 및 역방향 증폭 프라이머 중 하나 또는 둘 모두가 고체 지지체 상에 고정된 것을 제외하고, 표준 용액상 증폭과 유사한 반응인 고체상 폴리머라제 사슬 반응(고체상 PCR) 및 고체상 등온 증폭을 포함한다. 고체상 PCR은 시스템, 예를 들어, 하나의 프라이머는 비드에 고정되며, 다른 하나는 자유 용액에 존재하는 에멀션, 및 하나의 프라이머가 표면에 고정되고 하나가 자유 용액에 존재하는 고체상 겔 매트릭스에서의 콜로니 형성을 포함한다.
일부 실시형태에서, 고체 지지체는 패턴화된 표면을 포함한다. "패턴화된 표면"은 고체 지지체의 노출된 층에 또는 층 상에 상이한 영역의 배열을 지칭한다. 예를 들어, 영역들 중 하나 이상은 하나 이상의 증폭 프라이머가 존재하는 피처일 수 있다. 피처는 증폭 프라이머가 존재하지 않는 간질 영역에 의해 분리될 수 있다. 일부 실시형태에서, 패턴은 열 및 행으로 존재하는 피처의 x-y 포맷일 수 있다. 일부 실시형태에서, 패턴은 피처 및/또는 간질 영역의 반복 배열일 수 있다. 일부 실시형태에서, 패턴은 피처 및/또는 간질 영역의 랜덤 배열일 수 있다. 본 명세서에 기술된 방법 및 조성물에서 사용될 수 있는 예시적인 패턴화된 표면은 미국 특허 제8,778,848호, 제8,778,849호 및 제9,079,148호, 및 미국 특허 출원 공개 제2014/0243224호에 기술되어 있다.
일부 실시형태에서, 고체 지지체는 표면에 웰 또는 오목부의 어레이를 포함한다. 이는 포토리소그래피, 스탬핑 기술, 몰딩 기술, 마이크로에칭 기술을 포함하지만, 이들로 제한되지 않는 다양한 기술을 이용하여 당해 분야에 일반적으로 공지된 바와 같이 제작될 수 있다. 당업자에 의해 인식되는 바와 같이, 이용되는 기술은 어레이 기질의 조성 및 형상에 따를 것이다.
패턴화된 표면에서 피처는 폴리(N-(5-아지도아세트아미딜펜틸)아크릴아마이드-코-아크릴아마이드)(PAZAM, 예를 들어, 미국 특허 출원 공개 제2013/184796호, WO 2016/066586호, 및 WO 2015/002813호 참조)와 같은 패턴화된, 공유-결합된 겔을 갖는 유리, 실리콘, 플라스틱 또는 다른 적합한 고체 지지체 상에 웰(예를 들어, 마이크로웰 또는 나노웰)의 어레이에서의 웰일 수 있다. 본 공정은 다수의 사이클을 갖는 시퀀싱 런(sequencing run)에 걸쳐 안정할 수 있는 시퀀싱을 위해 이용되는 겔 패드를 생성시킨다. 웰에 대한 폴리머의 공유 결합은 다양한 용도 동안 구조화된 기질의 수명 전반에 걸쳐 구조화된 피처에서 겔을 유지시키는 데 도움을 준다. 그러나, 다수의 실시형태에서, 겔은 웰에 공유 결합될 필요는 없다. 예를 들어, 일부 조건에서, 구조화된 기질의 임의의 부분에 공유 결합되지 않은 실란 부재 아크릴아마이드(SFA, 예를 들어, 미국 특허 제8,563,477호 참조)는 겔 물질로서 사용될 수 있다.
특정 실시형태에서, 구조화된 기질은 고체 지지체 물질을 웰(예를 들어, 마이크로웰 또는 나노웰)로 패턴화하고, 패턴화된 지지체를 겔 물질(예를 들어, PAZAM, SFA 또는 이의 화학적으로 변형된 변형체, 예를 들어, SFA의 아지도화된 버전(아지도-SFA))로 코팅하고, 예를 들어, 화학적 또는 기계적 폴리싱을 통해 겔 코팅된 지지체를 폴리싱하여, 웰에 겔을 유지시키지만, 웰 사이에 구조화된 기질의 표면 상에 간질 영역으로부터 실질적으로 모든 겔을 제거하거나 비활성화시킴으로써 제조될 수 있다. 프라이머 핵산은 겔 물질에 부착될 수 있다. 인덱싱된 단편의 용액은 이후에, 개별 인덱싱된 단편이 겔 물질에 부착된 프라이머와의 상호작용을 통해 개별 웰을 시딩하도록 폴리싱된 기질과 접촉될 수 있다. 그러나, 표적 핵산은 겔 물질의 부재 또는 비활성으로 인해 간질 영역을 점유하지 않을 것이다. 인덱싱된 단편의 증폭은, 간질 영역에서 겔의 부재 또는 비활성화가 성장하는 핵상 콜로니의 외측 이동을 방지하기 때문에 웰로 제한될 것이다. 본 공정은 편리하게 제조될 수 있고, 확장 가능하고, 통상적인 마이크로- 또는 나노제조 방법을 이용한다.
개시내용이 오로지 하나의 증폭 프라이머가 고정되는(다른 프라이머는 대개 자유 용액에 존재함) "고체상" 증폭 방법을 포함하지만, 일 실시형태에서, 고체 지지체에는 고정된 정방향 프라이머 및 역방향 프라이머 둘 모두가 제공되는 것이 바람직하다. 실제로, 증폭 공정이 증폭을 유지하기 위해 과량의 프라이머를 필요로 하기 때문에, 고체 지지체 상에 고정된 '복수'의 동일한 정방향 프라이머 및/또는 '복수'의 동일한 역방향 프라이머가 존재할 것이다. 본 명세서에서 정방향 프라이머 및 역방향 프라이머에 대한 언급은 이에 따라, 문맥이 달리 명시하지 않는 한, '복수'의 이러한 프라이머를 포함하는 것으로서 해석되어야 한다.
기술을 가진 독자에 의해 이해되는 바와 같이, 임의의 제공된 증폭 반응은 증폭되는 주형에 대해 특이적인 적어도 한 타입의 정방향 프라이머 및 적어도 한 타입의 역방향 프라이머를 필요로 한다. 그러나, 특정 실시형태에서, 정방향 프라이머 및 역방향 프라이머는 동일한 서열의 주형-특이적 부분을 포함할 수 있고, 전체적으로 동일한 뉴클레오타이드 서열 및 구조(임의의 비-뉴클레오타이드 변형을 포함함)를 가질 수 있다. 다시 말해서, 단지 한 타입의 프라이머를 사용하여 고체상 증폭을 수행하는 것이 가능하며, 이러한 단일-프라이머 방법은 본 개시내용의 범위 내에 포함된다. 다른 실시형태는 동일한 주형-특이적 서열을 함유하지만 일부 다른 구조적 특징이 상이한 정방향 프라이머 및 역방향 프라이머를 사용할 수 있다. 예를 들어, 한 타입의 프라이머는 다른 것에 존재하지 않는 비-뉴클레오타이드 변형을 함유하지 않을 수 있다.
본 개시내용의 모든 실시형태에서, 고체상 증폭을 위한 프라이머는 바람직하게, 프라이머의 5' 단부에 또는 이의 부근에 고체 지지체에 대한 단일 포인트 공유 부착에 의해 고정되어, 이의 동족 주형으로 풀려지게 하기 위해 프라이머 부재의 주형-특이적 부분을 남기고 프라이머 연장을 위해 3' 하이드록 실기를 존재하지 않게 한다. 당해 분야에 공지된 임의의 적합한 공유 부착 수단이 이러한 목적을 위해 이용될 수 있다. 선택된 부착 화학은 고체 지지체의 특성, 및 이에 적용되는 임의의 유도체화 또는 작용화에 따를 것이다. 프라이머 자체는 부착을 촉진시키기 위해, 비-뉴클레오타이드 화학적 변형일 수 있는 모이어티를 포함할 수 있다. 특정 실시형태에서, 프라이머는 5' 단부에 황-함유 친핵제, 예를 들어, 포스포로티오에이트 또는 티오포스페이트를 포함할 수 있다. 고체-지지 폴리아크릴아마이드 하이드로겔의 경우에, 이러한 친핵체는 하이드로겔에 존재하는 브로모아세트아마이드 기에 결합할 것이다. 고체 지지체에 프라이머 및 주형을 부착시키는 더욱 특별한 수단은 WO 05/065814호에 기술된 바와 같이, 중합된 아크릴아마이드 및 N-(5-브로모아세트아미딜펜틸) 아크릴아마이드(BRAPA)를 포함하는 하이드로겔에 대한 5' 포스포로티오에이트 부착을 통한 것이다.
본 개시내용의 특정 실시형태는 예를 들어, 폴리뉴클레오타이드와 같은 생체분자에 대한 공유 결합을 허용하는 반응성 기를 포함하는 중간 물질의 층 또는 코팅의 적용에 의해 "작용화"된 불활성 기판 또는 매트릭스(예를 들어, 유리 슬라이드, 폴리머 비드, 등)를 포함하는 고체 지지체를 사용할 수 있다. 이러한 지지체의 예는 유리와 같은 불활성 기판 상에 지지된 폴리아크릴아마이드 하이드로겔을 포함하지만, 이들로 제한되지 않는다. 이러한 실시형태에서, 생체분자(예를 들어, 폴리뉴클레오타이드)는 중간 물질(예를 들어, 하이드로겔)에 직접적으로 공유 결합될 수 있지만, 중간체 물질 자체는 기판 또는 매트릭스(예를 들어, 유리 기판)에 비-공유 결합될 수 있다. 용어 "고체 지지체에 대한 공유 결합"은 이에 따라, 이러한 타입의 배열을 포함하는 것으로 해석되어야 한다.
풀링된 샘플은 각 비드가 정방향 및 역방향 증폭 프라이머를 함유한 비드 상에서 증폭될 수 있다. 특정 실시형태에서, 인덱싱된 단편의 라이브러리는 고체상 증폭 및 보다 특히, 고체상 등온 증폭에 의해, 미국 특허 출원 공개 제2005/0100900호, 미국 특허 제7,115,400호, WO 00/18957호 및 WO 98/44151호에 기술된 것과 유사한, 핵산 콜로니의 클러스터링된 어레이를 제조하기 위해 사용된다. 용어 '클러스터' 및 '콜로니'는 복수의 동일한 고정된 핵산 가닥 및 복수의 동일한 고정된 상보적 핵산 사닥을 포함하는 고체 지지체 상의 별도의 부위를 지칭하기 위해 호환 가능하게 사용된다. 용어 "클러스터링된 어레이"는 이러한 클러스터 또는 콜로니로부터 형성된 어레이를 지칭한다. 이러한 문맥에서, 용어 "어레이"는 클러스터의 정렬된 배열을 필요로 하는 것으로서 이해되는 것은 아니다.
용어 "고체상" 또는 "표면"은 프라이머가 평평한 표면, 예를 들어, 유리, 실리카 또는 플라스틱 현미경 슬라이드 또는 유사한 플로우 셀 디바이스에 부착된 평면 어레이; 비드(하나 또는 두 개의 프라이머는 비드에 부착되며 비드는 증폭됨); 또는 비드가 증폭된 후 표면 상의 비드의 어레이를 의미하는 것을 이용된다.
클러스터링된 어레이는 WO 98/44151호에 기술된 바와 같은 써모사이클링 공정, 또는 온도가 일정하게 유지되는 공정을 이용하여 제조될 수 있으며, 연장 및 변성 사이클은 시약의 변경을 이용하여 수행된다. 이러한 등온 증폭 방법은 특허출원 번호 WO 02/46456호 및 미국 특허 출원 공개 제2008/0009420호에 기술되어 있다. 등온 공정에서 유용한 저온으로 인하여, 이는 일부 실시형태에서 특히 바람직하다.
본 명세서에 기술되거나 당해 분야에서 일반적으로 공지된 임의의 증폭 방법론이 고정된 DNA 단편을 증폭시키기 위해 공통 또는 표적-특이적 프라이머와 함께 이용될 수 있는 것으로 이해될 것이다. 적합한 증폭 방법은 미국 특허 제8,003,354호에 기술된 바와 같이, 폴리머라제 사슬 반응(PCR), 가닥 변위 증폭(strand displacement amplification: SDA), 전사 매개 증폭(transcription mediated amplification: TMA) 및 핵산 서열 기반 증폭(nucleic acid sequence based amplification: NASBA)을 포함하지만, 이들로 제한되지 않는다. 상기 증폭 방법은 고려되는 하나 이상의 핵산을 증폭시키기 위해 이용될 수 있다. 예를 들어, 멀티플렉스 PCR, SDA, TMA, NASBA 등을 포함하는, PCR은 고정된 DNA 단편을 증폭시키기 위해 이용될 수 있다. 일부 실시형태에서, 고려되는 폴리뉴클레오타이드에 특이적으로 관련된 프라이머는 증폭 반응에 포함된다.
폴리뉴클레오타이드의 증폭을 위한 다른 적합한 방법은 올리고뉴클레오타이드 연장 및 결찰, 롤링 원형 증폭(RCA)[Lizardi et al., Nat. Genet. 19:225-232 (1998)] 및 올리고뉴클레오타이드 결찰 검정(OLA)[일반적으로, 미국 특허 제7,582,420호, 제5,185,243호, 제5,679,524호 및 제5,573,907호; EP 0 320 308 B1호; EP 0 336 731 B1호; EP 0 439 182 B1호; WO 90/01069호; WO 89/12696호; 및 WO 89/09835호] 기술을 포함할 수 있다. 이러한 증폭 방법론이 고정된 DNA 단편을 증폭시키도록 설계될 수 있다는 것으로 이해될 것이다. 예를 들어, 일부 실시형태에서, 증폭 방법은 고려되는 핵산에 특이적으로 관련된 프라이머를 함유한 결찰 프로브 증폭 또는 올리고뉴클레오타이드 결찰 검정(OLA) 반응을 포함할 수 있다. 일부 실시형태에서, 증폭 방법은 고려되는 핵산에 특이적으로 관련된 프라이머를 함유한 프라이머 연장-결찰 반응을 포함할 수 있다. 고려되는 핵산을 증폭하도록 특이적으로 설계될 수 있는 프라이머 연장 및 결찰 프라이머의 비제한적인 예로서, 증폭은 미국 특허 제7,582,420호 및 제7,611,869호에 의해 예시된 바와 같이, GoldenGate 검정을 위해 사용되는 프라이머를 포함할 수 있다(Illumina, Inc., 캘리포니아주 샌디에이고 소재).
DNA 나노볼은 또한, 본 명세서에 기술된 바와 같은 방법 및 조성물과 함께 사용될 수 있다. 게놈 시퀀싱을 위한 DNA 나노볼을 생성하고 사용하기 위한 방법은 예를 들어, 미국 특허 및 미국 특허공개 제7,910,354호, 제2009/0264299호, 제2009/0011943호, 제2009/0005252호, 제2009/0155781호, 제2009/0118488호에서 확인될 수 있고, 예를 들어, 문헌[Drmanac et al., 2010, Science 327(5961): 78-81]에 기술된 바와 같다. 간략하게, 게놈 라이브러리 DNA 단편화 어댑터가 단편에 결찰된 후에, 어댑터 결찰된 단편은 원형 리가제로의 결찰에 의해 원형화되며, 롤링 원형 증폭이 수행된다[문헌[Lizardi et al., 1998. Nat. Genet. 19:225-232 및 US 2007/0099208 A1호]에 기술된 바와 같음]. 앰플리콘의 연장된 콘카타머 구조는 코일링을 증진시켜서, 컴팩트 DNA 나노볼을 생성시킨다. DNA 나노볼은 바람직하게, 각 나노볼 간의 거리가 유지되어 별도의 DNA 나노볼의 시퀀싱을 허용하도록 정렬되거나 패턴화된 어레이를 생성시키기 위해, 기질 상에 캡처될 수 있다. Complete Genomics(캘리포니아주 마운티뷰 소재)에 의해 사용된 것과 같은 일부 실시형태에서, 어댑터 결찰, 증폭 및 소화의 연속적인 라운드는 어댑터 서열에 의해 분리된 수 개의 게놈 DNA 단편을 갖는 헤드-투-테일 작제물을 생성하기 위해 원형화 전에 수행된다.
본 개시내용의 방법에서 이용될 수 있는 예시적인 등온 증폭 방법은 예를 들어, 문헌[Dean et al., Proc. Natl. Acad. Sci. USA 99:5261-66 (2002)]에 의해 예시된 바와 같은 다중 변위 증폭(MDA), 또는 예를 들어, 미국 특허 제6,214,587호에 의해 예시된 등온 가닥 변위 핵산 증폭을 포함하지만, 이들로 제한되지 않는다. 본 개시내용에서 이용될 수 있는 다른 비-PCR-기반 방법은 예를 들어, 문헌[Walker et al., Molecular Methods for Virus Detection, Academic Press, Inc., 1995; 미국 특허 제5,455,166호 및 제5,130,238호, 및 Walker et al., Nucl. Acids Res. 20:1691-96 (1992)]에 기술된 가닥 변위 증폭(SDA), 또는 예를 들어, 문헌[Lage et al., Genome Res. 13:294-307 (2003)]에 기술된 과-분기된 가닥 변위 증폭을 포함한다. 등온 증폭 방법은 예를 들어, 가닥-변위 Phi 29 폴리머라제 또는 Bst DNA 폴리머라제 큰 단편, 게놈 DNA의 랜덤 프라이머 증폭을 위해 5'->3' 엑소-와 함께 이용될 수 있다. 이러한 폴리머라제의 사용은 높은 가공성 및 가닥 변위 활성을 이용한다. 높은 가공성은 폴리머라제가 길이가 10 내지 20 kb인 단편을 생성시킬 수 있다. 상술된 바와 같이, 더 작은 단편은 Klenow 폴리머라제와 같은 낮은 가공성 및 가닥-변위 활성을 갖는 폴리머라제를 사용하여 등온 조건 하에서 생성될 수 있다. 증폭 반응, 조건 및 성분의 추가적인 설명은 미국 특허 제7,670,810호의 개시내용에서 상세히 기술되어 있다.
본 개시내용에서 유용한 다른 폴리뉴클레오타이드 증폭 방법은 예를 들어, 문헌[Grothues et al. Nucleic Acids Res. 21(5):1321-2 (1993)]에 기술된 바와 같이 불변 5' 영역 이후에 랜덤 3' 영역을 갖는 2-도메인 프라이머의 집단을 사용하는 태그화된 PCR이다. 증폭의 제1 라운드는 랜덤하게 합성된 3' 영역으로부터 개별 혼성화를 기초로 하여 열 변성된 DNA에 대한 다수의 개시를 허용하기 위해 수행된다. 3' 영역의 특성으로 인하여, 개시 부위는 게놈 전반에 걸쳐 랜덤한 것으로 고려된다. 이후에, 결합되지 않은 프라이머가 제거될 수 있으며, 추가 복제는 불변 5' 영역에 대해 상보적인 프라이머를 사용하여 일어날 수 있다.
일부 실시형태에서, 등온 증폭은 배제 증폭(ExAmp)으로서도 지칭되는, 역학 배제 증폭(KEA)을 이용하여 수행될 수 있다. 본 개시내용의 핵산 라이브러리는 각각이 부위를 시딩한 개별 표적 핵산으로부터 앰플리콘의 실질적으로 클론 집단을 포함하는 복수의 증폭 부위를 생성하기 위해 증폭 시약을 반응시키는 단계를 포함하는 방법을 이용하여 제조될 수 있다. 일부 실시형태에서, 증폭 반응은, 개개 증폭 부위의 용량의 충전하기 위해 충분한 수의 앰플리콘이 발생될 때까지 진행한다. 이러한 방식으로 용량에 이미 시딩된 부위의 충전은 표적 핵산이 부위에서 랜딩되고 증폭하는 것을 억제하여, 부위에서 앰플리콘의 클론 집단을 생성시킨다. 일부 실시형태에서, 겉보기 클론성은 증폭 부위가 부위에 도달하는 제2 표적 핵산 이전에 용량에 충전되지 않는 경우에도 달성될 수 있다. 일부 조건 하에서, 제1 표적 핵산의 증폭은 부위로 이동되는 제2 표적 핵산으로부터 카피의 생산을 효과적으로 능가하거나 압도하기 위해 충분한 수의 카피가 제조되는 지점으로 진행할 수 있다. 예를 들어, 직경이 500㎚보다 작은 환형 피처 상에서 브리지 증폭 공정을 이용하는 일 실시형태에서, 제1 표적 핵산에 대한 14회 사이클의 기하급수적 증폭 후에, 동일한 부위에서 제2 표적 핵산으로부터의 오염이 불충분한 수의 오염 앰플리콘을 생성시켜서 Illumina 시퀀싱 플랫폼 상에 합성에 의한 시퀀싱(sequencing-by-synthesis) 분석에 악영향을 미칠 것으로 결정되었다.
일부 실시형태에서, 어레이에서 증폭 부위는 전체적으로 클로닝될 수 있지만, 반드시 그러할 필요는 없다. 오히려, 일부 적용을 위하여, 개별 증폭 부위는 제1 인덱싱된 단편으로부터 앰플리콘으로 주로 집단화될 수 있고, 또한, 제2 표적 핵산으로부터 낮은 수준의 오염 앰플리콘을 가질 수 있다. 어레이는 오염 수준이 어레이의 후속 사용에 허용되지 않게 영향을 미치지 않는 한, 낮은 수준의 오염 앰플리콘을 갖는 하나 이상의 증폭 부위를 가질 수 있다. 예를 들어, 어레이가 검출 적용에서 사용될 때, 허용 가능한 오염 수준은 허용되지 않는 방식으로 검출 기술의 잡음에 대한 신호 또는 분해능에 영향을 미치지 않는 수준일 것이다. 이에 따라, 겉보기 클론성은 일반적으로 본 명세서에 기술된 방법에 의해 제조된 어레이의 특정 사용 또는 적용과 관련이 있을 것이다. 특정 적용을 위해 개별 증폭 부위에서 허용될 수 있는 예시적인 오염 수준은 최대 0.1%, 0.5%, 1%, 5%, 10% 또는 25% 오염 앰플리콘을 포함하지만, 이들로 제한되지 않는다. 어레이는 이러한 예시적인 수준의 오염 앰플리콘을 갖는 하나 이상의 증폭 부위를 포함할 수 있다. 예를 들어, 어레이에서 증폭 부위의 최대 5%, 10%, 25%, 50%, 75%, 또는 심지어 100%는 일부 오염 앰플리콘을 가질 수 있다. 어레이 또는 부위의 다른 콜렉션에서, 부위의 적어도 50%, 75%, 80%, 85%, 90%, 95% 또는 99% 또는 그 초과가 클로닝되거나 명백하게 클로닝될 수 있는 것으로 이해될 것이다.
일부 실시형태에서, 역학 배제는 공정이 다른 사건 또는 공정이 일어나는 것을 효과적으로 배제하기 위해 충분히 빠른 속도로 일어날 때 일어날 수 있다. 예를 들어, 어레이가 용액으로부터 인덱싱된 단편으로 랜덤으로 시딩되는 핵산 어레이를 제조하는 것을 고려하여, 인덱싱된 단편의 카피는 시딩된 부위 각각을 용량으로 채울 수 있도록 증폭 공정에서 생성된다. 본 개시내용의 역학 배제 방법에 따르면, 시딩 및 증폭 공정은 증폭 속도가 시딩 속도를 초과하는 조건 하에서 동시에 진행할 수 있다. 이와 같이, 카피가 제1 표적 핵산에 의해 시딩된 부위에서 제조되는 비교적 빠른 속도는 증폭을 위한 부위를 제2 핵산이 시딩하는 것을 효과적으로 배제할 것이다. 역학 배제 증폭 방법은 미국출원공개 제2013/0338042호의 개시내용에서 상세히 기술된 바와 같이 수행될 수 있다.
역학 배제는 증폭을 개시하기 위한 비교적 느린 속도(예를 들어, 인덱싱된 단편의 제1 카피를 제조하는 느린 속도) 대 인덱싱된 단편(또는 인덱싱된 단편의 제1 카피)의 후속 카피를 제조하기 위한 비교적 빠른 속도를 이용할 수 있다. 상기 문단의 예에서, 역학 배제는 인덱싱된 단편 시딩의 비교적 느린 속도(예를 들어, 비교적 느린 확산 또는 이동) 대 부위를 인덱싱된 단편 시드로 충전시키기 위해 증폭이 일어나는 비교적 빠른 속도로 인해 일어난다. 다른 예시적인 실시형태에서, 역학 배제는 후속 카피가 부위를 채우도록 제조되는 비교적 빠른 속도에 대한 부위를 시딩한 인덱싱된 단편의 제1 카피의 형성 지연(예를 들어, 지연되거나 느린 활성화)으로 인해 일어날 수 있다. 이러한 예에서, 개별 부위는 수 개의 상이한 인덱싱된 단편으로 시딩될 수 있다(예를 들어, 수 개의 인덱싱된 단편은 증폭 이전에 각 부위에 존재할 수 있음). 그러나, 임의의 제공된 인덱싱된 단편을 위한 제1 카피 형성은, 제1 카피 형성의 평균 속도가 후속 카피가 생성되는 속도와 비교하여 비교적 느리도록 랜덤하게 활성화될 수 있다. 이러한 경우에, 개별 부위가 수 개의 상이한 인덱싱된 단편으로 시딩될 수 있지만, 역학 배제는 그러한 인덱싱된 단편 중 단 하나가 증폭될 수 있게 할 것이다. 더욱 상세하게, 제1 인덱싱된 단편이 증폭을 위해 활성화된 직후에, 부위는 이의 카피로 용량까지 빠르게 채워질 것이며, 이에 의해, 제2의 인덱싱된 단편이 부위의 카피가 부위에서 제조되는 것을 방지할 것이다.
일 실시형태에서, 본 방법은 동시에 (i) 평균 수송률로 인덱싱된 단편을 증폭 부위로 이동시키고 (ii) 평균 증폭률로 증폭 부위에 있는 인덱싱된 단편을 증폭시키기 위해 수행되며, 여기서, 평균 증폭률은 평균 수소율을 초과한다(미국 특허 제9,169,513호). 대안적으로, 역학 배제는 비교적 느린 수송률을 이용함으로써 이러한 실시형태에서 달성될 수 있다. 예를 들어, 충분히 낮은 농도의 인덱싱된 단편은 요망되는 평균 수송률을 달성하기 위해 선택될 수 있으며, 농도가 낮을수록 평균 수송률을 더 느리게 한다. 대안적으로 또는 추가적으로, 고점도 용액 및/또는 용액에 분자 군집 시약의 존재는 수송률을 감소시키기 위해 사용될 수 있다. 유용한 분자 군집 시약의 예는 폴리에틸렌 글리콜(PEG), 피콜, 덱스트란, 또는 폴리비닐 알코올을 포함하지만, 이들로 제한되지 않는다. 예시적인 분자 군집 시약 및 제형은 미국 특허 제7,399,590호에 기술되어 있으며, 이러한 문헌은 본 명세서에 참고로 포함된다. 요망되는 수송률을 달성하기 위해 조정될 수 있는 다른 인자는 표적 핵산의 평균 크기이다.
증폭 시약은 앰플리콘 형성을 촉진시키고 일부 경우에, 앰플리콘 형성 속도를 증가시키는 추가 성분을 포함할 수 있다. 일례는 리콤비나제이다. 리콤비나제는 반복된 침입/연장을 허용함으로써 앰플리콘 형성을 촉진시킬 수 있다. 보다 상세하게, 리콤비나제는 앰플리콘 형성을 위한 주형으로서 인덱싱된 단편을 사용하여 폴리머라제에 의한 인덱싱된 단편의 침입 및 폴리머라제에 의한 프라이머의 연장을 촉진시킬 수 있다. 이러한 공정은 각 침입/연장의 라운드로부터 생성된 앰플리콘이 후속 라운드에서 주형으로서 역할을 하는 사슬 반응으로서 반복될 수 있다. 본 공정은 변성 사이클(예를 들어, 가열 또는 화학적 변성을 통해)이 요망되지 않기 때문에 표준 PCR보다 더욱 빠르게 일어날 수 있다. 이와 같이, 리콤비나제-촉진된 증폭는 등온적으로 수행될 수 있다. 일반적으로, 증폭을 촉진시키기 위해 리콤비나제-촉진된 증폭 시약에서 ATP, 또는 다른 뉴클레오타이드(또는 일부 경우에, 이의 비-가수분해 가능한 유사체)를 포함하는 것이 바람직하다. 리콤비나제와 단일 가닥 결합(SSB) 단백질의 혼합물은 SSB가 증폭을 추가로 촉진시킬 수 있기 때문에 특히 유용하다. 리콤비나제-촉진된 증폭을 위한 예시적인 제형은 TwistDx(Cambridge, UK)에 의해 TwistAmp Kits로서 상업적으로 시판되는 것을 포함한다. 리콤비나제-촉진된 증폭 시약의 유용한 성분 및 반응 조건은 US 5,223,414호 및 US 7,399,590호에 기술되어 있다.
앰플리콘 형성을 촉진시키고, 일부 경우에, 앰플리콘 형성 속도를 증가시키기 위해 증폭 시약에 포함될 수 있는 성분의 다른 예는 헬리카제이다. 헬리카제는 앰플리콘 형성의 사슬 반응을 허용함으로써 앰플리콘 형성을 촉진시킬 수 있다. 이러한 공정은 변성 사이클(예를 들어, 가열 또는 화학적 변성을 통한)이 요망되지 않기 때문에, 표준 PCR보다 더욱 빠르게 일어날 수 있다. 이와 같이, 헬리카제-촉진된 증폭은 등온적으로 수행될 수 있다. 헬리카제와 단일 가닥 결합(SSB) 단백질의 혼합물은 SSB가 증폭을 추가로 촉진시킬 수 있기 때문에 특히 유용하다. 헬리카제-촉진된 증폭을 위한 예시적인 제형은 Biohelix(Beverly, MA)로부터의 IsoAmp Kits로서 시판되는 것을 포함한다. 또한, 헬리카제 단백질을 포함하는 유용한 제형의 예는 US 7,399,590호 및 US 7,829,284호에 기술되어 있다.
앰플리콘 형성을 촉진시키고 일부 경우에 앰플리콘 형성 속도를 증가시키기 위해 증폭 시약에 포함될 수 있는 성분의 또 다른 예는 원점 결합 단백질이다.
시퀀싱에서의 사용/시퀀싱의 방법
표면에 인덱싱된 단편의 부착 후에, 고정되고 증폭된 인덱싱된 단편의 서열이 결정된다. 시퀀싱은 임의의 적합한 시퀀싱 기술을 이용하여 수행될 수 있으며, 가닥 재-합성을 포함하는, 고정되고 증폭된 인덱싱된 단편의 서열을 결정하는 방법은 당해 분야에 공지되어 있고, 예를 들어, 문헌[Bignell et al. (US 8,053,192), Gunderson et al. (WO2016/130704), Shen et al. (US 8,895,249), 및 Pipenburg et al. (US 9,309,502)]에 기술되어 있다.
본 명세서에 기술된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용 가능한 기술은 상대적 위치가 변경되지 않도록 핵산이 어레이에서 고정된 위치에 부착되고 어레이가 반복적으로 이미지화되는 것이다. 예를 들어, 하나의 뉴클레오타이드 염기 타입을 다른 것과 구별하기 위해 사용되는 상이한 표지과 일치하는, 상이한 컬러 채널에서 이미지가 얻어진 실시형태가 특히 적용 가능하다. 일부 실시형태에서, 인덱싱된 단편의 뉴클레오타이드 서열을 결정하는 공정은 자동화된 공정일 수 있다. 바람직한 실시형태는 합성에 의한 시퀀싱(sequencing-by-synthesis: "SBS") 기술을 포함한다.
SBS 기술은 일반적으로, 주형 가닥에 대해 뉴클레오타이드의 반복 첨가를 통해 초기 핵산 가닥의 효소적 연장을 포함한다. SBS의 전통적인 방법에서, 단일 뉴클레오타이드 모노머는 각 전달에서 폴리머라제의 존재 하에서 표적 뉴클레오타이드에 제공될 수 있다. 그러나, 본 명세서에 기술된 방법에서, 하나 초과의 타입의 뉴클레오타이드 모노머는 전달에서 폴리머라제의 존재 하에서 표적 핵산에 제공될 수 있다.
일 실시형태에서, 뉴클레오타이드 모노머는 로킹된 핵산(locked nucleic acid: LNA) 또는 브릿징된 핵산(bridged nucleic acid: BNA)을 포함한다. 뉴클레오타이드 모노머에서 LNA 또는 BNA의 사용은 고정된 인덱싱된 단편 상에 존재하는 시퀀싱 프라이머 서열과 뉴클레오타이드 모노머 간의 혼성화 강도를 증가시킨다.
SBS는 종결 인자 모이어티를 갖는 뉴클레오타이드 모노머 또는 임의의 종결 인자 모이어티가 결여된 것을 사용할 수 있다. 종결 인자가 결여된 뉴클레오타이드 모노머를 사용하는 방법은 예를 들어, 본 명세서에 더욱 상세히 기술된 바와 같은, 파이로시퀀싱 및 γ-포스페이트-표지화된 뉴클레오타이드를 사용한 시퀀싱을 포함한다. 종결 인자가 결여된 뉴클레오타이드 모노머를 사용한 방법에서, 각 사이클에 첨가된 뉴클레오타이드의 수는 일반적으로 가변적이고, 주형 서열 및 뉴클레오타이드 전달 모드에 의존적이다. 종결 인자 모이어티를 갖는 뉴클레오타이드 모노머를 사용하는 SBS 기술에 대하여, 종결 인자는 다이데옥시뉴클레오타이드를 사용하는 전통적인 Sanger 시쿠너싱에 대한 경우와 같이 사용되는 시퀀싱 조건 하에서 효과적으로 비가역적일 수 있거나, 종결 인자는 SolexA(이제는 Illumina, Inc.)에 의해 개발된 시퀀싱 방법에 대한 경우와 같이 가역적일 수 있다.
SBS 기술은 표지 모이어티를 갖는 뉴클레오타이드 모노머 또는 표지 모이어티가 결여된 것을 사용한다. 이에 따라, 통합 사건은 표지의 형광과 같은 표지의 특징; 분자량 또는 전하와 같은 뉴클레오타이드 모노머의 특징; 파이로포스페이트의 방출과 같은 뉴클레오타이드의 통합 부산물; 등을 기초로 하여 검출될 수 있다. 둘 이상의 상이한 뉴클레오타이드가 시퀀싱 시약에 존재하는 실시형태에서, 상이한 뉴클레오타이드는 서로 구별 가능할 수 있거나, 대안적으로, 둘 이상의 상이한 표지는 사용되는 검출 기술 하에서 구별 가능하지 않을 수 있다. 예를 들어, 시퀀싱 시약에 존재하는 상이한 뉴클레오타이드는 상이한 표지를 가질 수 있으며, 이러한 것은 SolexA(이제는 Illumina, Inc.)에 의해 개발된 시퀀싱 방법에 의해 예시된 바와 같이 적절한 광학을 이용하여 구별될 수 있다.
바람직한 실시형태는 파이로시퀀싱 기술을 포함한다. 파이로시퀀싱은 특정 뉴클레오타이드가 초기 가닥 내에 통합됨에 따라 특정 뉴클레오타이드로서 무기 파이로포스페이트(PPi)의 방출을 검출한다[Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363; 미국 특허 제6,210,891호; 제6,258,568호 및 제6,274,320호]. 파이로시퀀싱에서, 방출된 PPi는 ATP 서루라제에 의해 아데노신 트라이포스페이트(ATP)로 즉시 전환됨으로써 검출될 수 있으며, 생성된 ATP의 수준은 루시페라제-생성 광자를 통해 검출된다. 시퀀싱되는 핵산은 어레이에서의 피처에 부착될 수 있으며, 어레이는 어레이의 피처에 뉴클레오타이드의 통합으로 인해 생성되는 화학발광 신호를 캡처하기 위해 이미지화될 수 있다. 이미지는 어레이가 특정 뉴클레오타이드 타입(예를 들어, A, T, C 또는 G)로 처리된 후에 얻어질 수 있다. 각 뉴클레오타이드 타입의 첨가 후 얻어진 이미지는 어레이가 검출되는 피처와 관련하여 상이할 것이다. 이미지에서 이러한 차이는 어리에 상의 피처의 상이한 서열 함량을 반영한다. 그러나, 각 피처의 상대적인 위치는 이미지에서 변경되지 않은 채로 존재할 것이다. 이미지는 본 명세서에 기술된 방법을 이용하여 저장, 처리 및 분석될 수 있다. 예를 들어, 각 상이한 뉴클레오타이드 타입으로 어레이의 처리 후 얻어진 이미지는 본 명세서에서 가역적 종결 인자-기반 시퀀싱 방법에 대한 상이한 검출 채널로부터 얻어진 이미지에 대해 예시된 것과 동일한 방식으로 취급될 수 있다.
SBS의 다른 예시적인 타입에서, 사이클 시퀀싱은 예를 들어, WO 04/018497호 및 미국 특허 제7,057,026호에 기술된 바와 같은, 예를 들어, 절단성 또는 광표백성 염료 표지를 함유한 가역적 종결 인자 뉴클레오타이드의 단계별 첨가를 수반한다. 이러한 방법은 SolexA(이제는 Illumina Inc.)에 의해 상업화 중에 있고, 또한, WO 91/06678호 및 WO 07/123,744호에 기술되어 있다. 종결화가 역전되고 형광 표지가 절단될 수 있는 형광-표지화된 종결 인자의 이용 가능성은 효율적인 순환 가역적 종결(cyclic reversible termination: CRT) 시퀀싱을 용이하게 한다. 폴리머라제는 또한, 이러한 변형된 뉴클레오타이드로부터 효율적으로 통합하고 연장하도록 공동-처리될 수 있다.
일부 가역적 종결 인자-기반 시퀀싱 실시형태에서, 표지는 SBS 반응 조건 하에서 연장을 실질적으로 억제하지 않는다. 그러나, 검출 표지는 예를 들어, 절단 또는 분해에 의해 제거될 수 있다. 이미지는 어레이된 핵산 피처 내에 표지의 통합 후에 캡처될 수 있다. 특정 실시형태에서, 각 사이클은 어레이에 4개의 상이한 뉴클레오타이드 타입의 동시 전달을 포함하며, 각 뉴클레오타이드 타입은 스펙트럼으로 구별되는 표지를 갖는다. 4개의 이미지가 이후에 얻어질 수 있으며, 각각은 4개의 상이한 표지들 중 하나에 대해 선택적인 검출 채널을 이용한다. 대안적으로, 상이한 뉴클레오타이드 타입은 순차적으로 첨가될 수 있으며, 어레이의 이미지는 각 첨가 단계 사이에 얻어질 수 있다. 이러한 실시형태에서, 각 이미지는 특정 타입의 통합된 뉴클레오타이드를 갖는 핵산 피처를 나타낼 것이다. 상이한 피처는 각 피처의 상이한 서열 함량으로 인해 상이한 이미지에 존재하거나 부재할 것이다 그러나, 피처의 상대적인 위치는 이미지에서 변경되지 않은 채로 존재할 것이다. 이러한 가역적 종결 인자-SBS 방법으로부터 얻어진 이미지는 본 명세서에 기술된 바와 같이, 저장, 처리 및 분석될 수 있다. 이미지 캡처 단계 이후에, 표지가 제거될 수 있으며, 가역적 종결 인자 모이어티는 뉴클레오타이드 첨가 및 검출의 후속 사이클 동안 제거될 수 있다. 이러한 것이 특정 사이클에서 검출된 후에 및 후속 사이클 이전에 표지의 제거는 백그라운드 신호 및 사이클 간의 혼선을 감소시키는 장점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예는 본 명세서에 기술되어 있다.
특정 실시형태에서, 뉴클레오타이드 모노머 중 일부 또는 모두는 가역적 종결 인자를 포함할 수 있다. 이러한 실시형태에서, 가역적 종결 인자/절단성 형광단은 3' 에스터 연결을 통해 리보오스 모이어티에 연결된 형광단을 포함할 수 있다[Metzker, Genome Res. 15:1767-1776 (2005)]. 다른 방법은 형광 표지의 절단과 종결 인자 화학을 분리하였다[Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)]. Ruparel 등의 문헌에는 블록 연장을 위해 작은 3' 알릴 기를 사용한 가역적 종결 인자의 개발이 기술되어 있지만, 팔라듐 촉매로의 짧은 처리에 의해 용이하게 탈블로킹될 수 있다. 형광단은 장파장 UV 광에 대한 30초 노출에 의해 용이하게 절단될 수 있는 광절단성 링커를 통해 염기에 부착된다. 이에 따라, 디설파이드 환원 또는 광절단은 절단성 링커로서 사용될 수 있다. 가역적 종결화를 위한 다른 방법은 dNTP 상에 벌키한 염의 배치 후에 발생하는 자연 종결화의 이용이다. dNTP 상에 하전된 벌키한 염료의 존재는 입체적 및/또는 정전기적 방해를 통한 효과적인 종결인자로서 작용할 수 있다. 하나의 통합 사건의 존재는 염료가 제거되지 않는 한 추가 통합을 방해한다. 염료의 절단은 형광단을 제거하고, 종결을 효과적으로 역전시킨다. 변형된 뉴클레오타이드의 예는 또한 미국 특허 제7,427,673호, 및 제7,057,026호에 기술되어 있다.
본 명세서에 기술된 방법 및 시스템과 함께 이용될 수 있는 추가적인 예시적 SBS 시스템 및 방법은 미국 특허공개 제2007/0166705호, 제2006/0188901호, 제2006/0240439호, 제2006/0281109호, 제2012/0270305호, 및 제2013/0260372호, 미국 특허 제7,057,026호, PCT 공개 WO 05/065814호, 미국 특허 출원 공개 제2005/0100900호, 및 PCT 공개 WO 06/064199호 및 WO 07/010,251호에 기술되어 있다.
일부 실시형태는 4개보다 적은 상이한 표지를 사용한 4개의 상이한 뉴클레오타이드의 검출을 이용할 수 있다. 예를 들어, SBS는 미국 특허공개 제2013/0079232호의 포함된 자료에 기술된 방법 및 시스템을 이용하여 수행될 수 있다. 제1 예로서, 한 쌍의 뉴클레오타이드 타입은 동일한 파장에서 검출될 수 있지만, 다른 구성원과 비교하여 쌍의 하나의 구성원에 대한 강도 차이를 기초로 하거나 쌍의 다른 구성원에 대해 검출된 신호와 비교하여 명백한 신호가 나타나거나 사라지는 쌍의 하나의 구성원에 대한 변화(예를 들어, 화학적 변형, 광화학적 변형, 또는 물리적 변형을 통함)를 기초로 하여 구별될 수 있다. 제2 예로서, 4개의 상이한 뉴클레오타이드 타입 중 3개는 특정 조건 하에서 검출될 수 있으며, 제4 뉴클레오타이드 타입은 그러한 조건 하에서 검출 가능하거나 그러한 조건 하에서 최소로 검출되는(예를 들어, 백그라운드 형광, 등으로 인한 최소 검출) 표지가 결여되어 있다. 핵산 내에 제1의 3개의 뉴클레오타이드 타입의 통합은 이의 개개 신호의 존재를 기초로 하여 결정될 수 있으며, 핵산 내에 제4 뉴클레오타이드의 통합은 임의의 신호의 부재 또는 최소 검출을 기초로 하여 결정될 수 있다. 제3 예로서, 하나의 뉴클레오타이드 타입은 2개의 상이한 채널에서 검출되는 표지(들)을 포함할 수 있으며, 다른 뉴클레오타이드 타입은 채널 중 하나 이하에서 검출된다. 상술된 3개의 예시적인 구성은 상호 배타적인 것으로 여겨지지 않고, 다양한 조합으로 이용될 수 있다. 모두 3가지 예를 조합한 예시적인 실시형태는 제1 채널에서 검출되는 제1 뉴클레오타이드 타입(예를 들어, 제1 여기 파장에 의해 여기될 때 제1 채널에서 검출되는 표지를 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오타이드 타입(예를 들어, 제2 여기 파장에 의해 여기될 때 제2 채널에서 검출되는 표지를 갖는 dCTP), 제1 및 제2 채널 둘 모두에서 검출되는 제3 뉴클레오타이드 타입(예를 들어, 제1 및/또는 제2 여기 파장에 의해 여기될 때 두 채널 모두에서 검출되는 표지를 갖는 dTTP), 및 어느 한 채널에서 검출되지 않거나 최소한으로 검출되는 표지가 결여된 제4 뉴클레오타이드 타입(예를 들어, 표지를 가지지 않은 dGTP)을 사용하는 형광-기반 SBS 방법이다.
또한, 미국 특허공개 제2013/0079232호의 포함된 자료에 기술된 바와 같이, 시퀀싱 데이터는 단일 채널을 이용하여 얻어질 수 있다. 이러한 소위 1-염료 시퀀싱 방법에서, 제1 뉴클레오타이드 타입은 표지화되지만, 표지는 제1 이미지가 생성된 후 제거되며, 제2 뉴클레오타이드 타입은 제1 이미지가 생성된 후에만 표지화된다. 제3 뉴클레오타이드 타입은 제1 및 제2 이미지 둘 모두에서 이의 표지를 보유하며, 제4 뉴클레오타이드 타입은 두 이미지 모두에서 표지화되지 않은 채로 유지된다.
일부 실시형태는 결찰 기술에 의한 시퀀싱을 이용할 수 있다. 이러한 기술은 올리고뉴클레오타이드를 통합하고 이러한 올리고뉴클레오타이드의 통합을 식별하기 위해 DNA 리가제를 사용한다. 올리고뉴클레오타이드는 통상적으로, 올리고뉴클레오타이드가 혼성화되는 서열에서 특정 뉴클레오타이드의 식별과 상관관계가 있는 상이한 표지를 갖는다. 다른 SBS 방법과 관련하여, 이미지는 표지화된 시퀀싱 시약으로 핵산 피처의 어레이의 처리 후에 얻어질 수 있다. 각 이미지는 특정 타입의 통합된 표지를 갖는 핵산 피처를 나타낼 것이다. 상이한 피처는 각 피처의 상이한 서열 함량으로 인해 상이한 이미지에서 존재하거나 부재할 것이지만, 피처의 상대적인 위치는 이미지에서 변경되지 않을 것이다. 결찰-기반 시퀀싱 방법으로부터 얻어진 이미지는 본 명세서에 기술된 바와 같이, 저장, 처리 및 분석될 수 있다. 본 명세서에 기술된 방법 및 시스템과 함께 이용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 제6,969,488호, 제6,172,218호, 및 제6,306,597호에 기술되어 있다.
일부 실시형태는 나노포어 시퀀싱을 사용할 수 있다[Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)]. 이러한 실시형태에서, 인덱싱된 단편은 나노포어를 통과한다. 나노포어는 합성 포어 또는 생물학적 막 단백질, 예를 들어, α-용혈소일 수 있다. 인덱싱된 단편이 나노포어를 통과할 때, 각 염기쌍은 포어의 전기 전도도의 변동을 측정함으로써 식별될 수 있다[미국 특허 제7,001,792호; Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)]. 나노포어 시퀀싱으로부터 얻어진 데이터는 본 명세서에 기술된 바와 같이, 저장되고, 처리되고, 분석될 수 있다. 특히, 데이터는 광학 이미지 및 본 명세서에 기술된 다른 이미지의 예시적인 처리에 따라 이미지로서 처리될 수 있다.
일부 실시형태는 DNA 폴리머라제 활성의 실시간 모니터링을 포함하는 방법을 이용할 수 있다. 뉴클레오타이드 통합은 예를 들어, 미국 특허 제7,329,492호 및 제7,211,414호에 기술된 바와 같은 형광단-함유 폴리머라제와 γ-포스페이트-표지화된 뉴클레오타이드 간의 형광 공명 에너지 전이(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오타이드 통합은 예를 들어, 미국 특허 제7,315,019호에 기술된 바와 같은 0-모드 도파관으로, 그리고 예를 들어, 미국 특허 제7,405,281호 및 미국 특허공개 제2008/0108082호에 기술된 바와 같은 형광 뉴클레오타이드 유사체 및 공학처리된 폴리머라제를 이용하여 검출될 수 있다. 설명은 형광으로 표지화된 뉴클레오타이드의 통합이 낮은 백그라운드로 관출될 수 있도록 표면-테더링된 폴리머라제 둘레에 젭토리터-스케일 부피로 제한될 수 있다[Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)]. 이러한 방법으로부터 얻어진 이미지는 본 명세서에 기술된 바와 같이, 저장되고, 처리되고, 분석될 수 있다.
일부 SBS 실시형태는 연장 생성물 내에 뉴클레오타이드의 통합 시에 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출을 기초로 한 시퀀싱은 전기 검출기, 및 Ion Torrent(Guilford, CT, a Life Technologies subsidiary)로부터 상업적으로 입수 가능한 관련된 기술, 또는 미국 특허공개 제2009/0026082호; 제2009/0127589호; 제2010/0137143호; 및 제2010/0282617호에 기술된 시퀀싱 방법 및 시스템을 이용할 수 있다. 역학 배제를 이용하여 표적 핵산을 증폭하기 위한 본 명세서에 기술된 방법은 양성자를 검출하기 위해 사용되는 기질에 용이하게 적용될 수 있다. 더욱 상세하게, 본 명세서에 기술된 방법은 양성자를 검출하기 위해 사용되는 앰플리콘의 클론 집단을 형성하기 위해 이용될 수 있다.
상기 SBS 방법은 다수의 상이한 인덱싱된 단편이 동시에 조작되도록 멀티플렉스 포맷으로 유리하게 수행될 수 있다. 특정 실시형태에서, 상이한 인덱싱된 단편은 공통의 반응 용기에 또는 특정 기질의 표면 상에서 처리될 수 있다. 이는 시퀀싱 시약의 편리한 전달, 미반응된 시약의 제거, 및 멀티플렉스 방식으로 도입 사건의 검출을 허용한다. 표면-결합된 표적 핵산을 사용한 실시형태에서, 인덱싱된 단편은 어레이 포맷으로 존재할 수 있다. 어레이 포맷에서, 인덱싱된 단편은 통상적으로, 공간적으로 구별 가능한 방식으로 표면에 결합될 수 있다. 인덱싱된 단편은 직접 공유 결합, 비드 또는 다른 입자에 대한 부착, 또는 표면에 부착되는 다른 분자 또는 폴리머라제에 대한 결합에 의해 결합될 수 있다. 어레이는 각 부위에서 인덱싱된 단편의 단일 카피(또한, 피처로서 지칭됨)를 포함할 수 있거나, 동일한 서열을 갖는 다수의 카피는 각 부위 또는 피처에 존재할 수 있다. 다수의 카피는 본 명세서에 더욱 상세히 기술된 바와 같은 브리지 증폭 또는 에멀션 PCR과 같은 증폭 방법에 의해 형성될 수 있다.
본 명세서에 기술된 방법은 예를 들어, 예를 들어, 적어도 약 10개 피처/㎠, 100개 피처/㎠, 500개 피처/㎠, 1,000개 피처/㎠, 5,000개 피처/㎠, 10,000개 피처/㎠, 50,000개 피처/㎠, 100,000개 피처/㎠, 1,000,000개 피처/㎠, 5,000,000개 피처/㎠, 또는 보다 높은 것을 포함하는 임의의 다양한 밀도에서 피처를 갖는 어레이를 이용할 수 있다.
본 명세서에 기술된 방법의 장점은 이러한 것이 병렬로 복수의 ㎠의 빠르고 효율적인 검출을 위해 제공한다는 것이다. 이에 따라, 본 개시내용은 본 명세서에 예시된 것과 같은 당해 분야에 공지된 기술을 이용하여 핵산을 제조하고 검출할 수 있는 통합 시스템을 제공한다. 이에 따라, 본 개시내용의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정된 인덱싱된 단편에 전달할 수 있는 유체 성분을 포함할 수 있으며, 시스템은 펌프, 밸브, 저장소, 유체 라인, 등과 같은 구성성분들을 포함한다. 플로우 셀은 표적 핵산의 검출을 위해 통합 시스템에 구성되고/거나 이용될 수 있다. 예시적인 플로우 셀은 예를 들어, 미국 특허공개 제2010/0111768호 및 미국 특허출원 제13/273,666호에 기술되어 있다. 플로우 셀에 대해 예시된 바와 같이, 통합 시스템의 유체 성분들 중 하나 이상은 증폭 방법 및 검출 방법을 위해 사용될 수 있다. 일례로서 핵산 시퀀싱 실시형태를 고려하면, 통합 시스템의 유체 성분들 중 하나 이상은 본 명세서에 기술된 증폭 방법 및 상기에 예시된 것과 같은 시퀀싱 방법에서 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 별도의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는 비제한적으로, MiSeqTM 플랫폼(Illumina, Inc., 캘리포니아주 샌디에이고 소재) 및 미국 특허출원 제13/273,666호에 기술된 디바이스를 포함한다.
또한, 본 명세서에는 조성물이 제공된다. 본 명세서에 기술된 방법의 실행 동안, 다양한 조성물이 형성될 수 있다. 예를 들어, 새로이 합성된 RNA로부터 유도되는 인덱싱된 핵산 단편을 포함하는 조성물이 형성될 수 있다. 일 실시형태에서, 새로이 합성된 RNA는 표지화된다. 또한, 다중-웰 플레이트가 제공되며, 여기서, 다중-웰 플레이트의 웰은 인덱싱된 핵산 단편을 포함한다.
본 명세서에는 또한 키트가 제공된다. 일 실시형태에서, 키트는 새로이 합성된 RNA가 표지화되는 경우 시퀀싱 라이브러리를 제조하기 위한 것이다. 일 실시형태에서, 키트는 본 명세서에 기술된 뉴클레오타이드 표지를 포함한다. 다른 실시형태에서, 키트는 RNA에 어닐링하기 위한 하나 이상의 프라이머를 포함하며, 여기서, 적어도 하나의 프라이머는 하나 이상의 사전결정된 핵산의 표적화된 증폭을 위한 것이다. 추가 실시형태에서, 키트는 핵산에 적어도 3개의 인덱스를 첨가하기 위한 성분을 포함한다. 키트는 또한, 시퀀싱 라이브러리를 생성시키는데 유용한 다른 성분을 포함할 수 있다. 예를 들어, 키트는 인덱스를 유도하기 위해 RNA 분자를 처리하기 위한 결찰, 프라이머 연장 또는 증폭을 매개하는 적어도 하나의 효소를 포함할 수 있다. 키트는 인덱스 서열을 갖는 핵산을 포함할 수 있다. 키트는 또한, 트랜스포좀 복합체와 같은, 핵산에 인덱스를 첨가하는데 유용한 다른 성분을 포함할 수 있다. 키트는 또한, RNA에 어닐링하기 위한 하나 이상의 프라이머를 포함할 수 있다. 프라이머는 전체 전사체(예를 들어, 폴리-T 서열을 유도하는 프라이머)의 생산 또는 하나 이상의 사전결정된 핵산의 표적화된 증폭을 위한 것일 수 있다.
키트의 성분들은 통상적으로 적어도 하나의 어레이 또는 사용을 위해 충분한 양으로 적합한 패키징 재료에 존재한다. 선택적으로, 다른 성분, 예를 들어, 완충제 및 용액이 포함될 수 있다. 패키징된 성분들의 사용 설명서가 또한, 통상적으로, 포함된다. 본 명세서에서 사용되는 구 "패키징 재료"는 키트의 함유물을 수용하기 위해 사용되는 하나 이상의 물리적 구조를 지칭한다. 패키징 재료는 일반적으로, 멸균, 오염물-부재 환경을 제공하기 위해 통상적인 방법에 의해 구성된다. 패키징 재료는 성분들이 시퀀싱 라이브러리를 형성하기 위해 사용될 수 있음을 지시하는 표지를 가질 수 있다. 또한, 패키징 재료는 키트 내에 재료가 어떻게 이용되는 지를 나타내는 설명서를 포함한다. 본 명세서에서 사용되는 용어 "패키지"는 키트의 성분들을 고정된 범위 내에 유지시킬 수 있는, 용기, 예를 들어, 유리, 플라스틱, 페이퍼, 호일, 등을 지칭한다. "사용 설명서"는 통상적으로, 시약 농도 또는 적어도 하나의 검정 방법 파라미터, 예를 들어, 혼합되는 시약 및 샘플의 상대적인 양, 시약/샘플 혼합물에 대한 유지 기간, 온도, 완충제 조건, 등을 기술하는 유형의 표현을 포함한다.
예시적인 실시형태
실시형태 1. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 시퀀싱 라이브러리(sequencing library)를 제조하는 방법으로서,
(a) 제1의 복수의 구획에 복수의 핵 또는 세포를 제공하는 단계로서, 각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 복수의 핵 또는 세포를 제공하는 단계;
(b) 상기 세포로부터 얻어진 상기 세포 또는 핵의 서브세트에서 새로이 합성된 RNA를 표지화하는 단계;
(c) 인덱싱된 핵 또는 세포를 생성하기 위해 핵 또는 세포의 각 서브세트에서 RNA 분자를 처리하는 단계로서,
상기 처리는 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 DNA 핵산을 야기시키기 위해 핵 또는 세포의 각 서브세트에 존재하는 RNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하는 것을 포함하며,
상기 처리는 결찰, 프라이머 연장, 혼성화 또는 증폭을 포함하는, 상기 RNA 분자를 처리하는 단계; 및
(d) 풀링된 인덱싱된 핵 또는 세포를 생성하기 위해 상기 인덱싱된 핵 또는 세포를 조합하는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 2. 실시형태 1에 있어서, 상기 처리는 서브세트를, RNA 핵산으로 어닐링되는 프라이머 및 역전사 효소와 접촉시켜, 상기 프라이머 및 주형 RNA 분자의 상응하는 DNA 뉴클레오타이드 서열을 포함하는 이중 가닥 DNA 핵산을 야기시키는 것을 포함한다.
실시형태 3. 실시형태 1 또는 2에 있어서, 상기 프라이머는 mRNA 폴리(A) 테일에 어닐링되는 폴리-T 뉴클레오타이드 서열을 포함한다.
실시형태 4. 실시형태 1 내지 3 중 어느 하나에 있어서, 상기 처리는 서브세트를 제2 프라이머와 접촉시키는 것을 더 포함하되, 상기 제2 프라이머는 사전결정된 DNA 핵산에 어닐링되는 서열을 포함한다.
실시형태 5. 실시형태 1 내지 4 중 어느 하나에 있어서, 상기 제2 프라이머는 구획 특이적 인덱스를 포함한다.
실시형태 6. 실시형태 1 내지 5 중 어느 하나에 있어서, 상기 프라이머는 사전결정된 RNA 핵산에 어닐링되는 서열을 포함한다.
실시형태 7. 실시형태 1 내지 6 중 어느 하나에 있어서, 상기 방법은 상기 동일한 사전결정된 RNA 핵산의 상이한 뉴클레오타이드에 어닐링되는 상이한 구획에 프라이머를 포함한다.
실시형태 8. 실시형태 1 내지 7 중 어느 하나에 있어서, 상기 프라이머는 주형-스위치 프라이머를 포함한다.
실시형태 9. 실시형태 1 내지 8 중 어느 하나에 있어서, 상기 제1 구획 특이적 인덱스 서열을 첨가하기 위한 처리가 공통 서열을 포함하는 뉴클레오타이드 서열을 상기 RNA 핵산에 첨가하여 DNA 핵산을 야기시키고, 이후에, 상기 제1 구획 특이적 인덱스 서열을 상기 DNA 핵산에 첨가하는 2-단계 공정을 포함한다.
실시형태 10. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 제1의 복수의 구획에 복수의 핵 또는 세포를 제공하는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 복수의 핵 또는 세포를 제공하는 단계;
(b) 각 서브세트를, 사전결정된 RNA 핵산에 어닐링되는 프라이머 및 역전사 효소와 접촉시켜, 상기 프라이머 및 상기 주형 RNA 핵산의 상응하는 DNA 뉴클레오타이드 서열을 포함하는 이중 가닥 DNA 핵산을 야기시키는 단계;
(c) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화 또는 증폭을 포함하는, 상기 인덱싱된 핵 또는 세포를 생성시키는 단계; 및
(d) 상기 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 11. 실시형태 10에 있어서, 상기 프라이머는 상기 제1 구획 특이적 인덱스 서열을 포함한다.
실시형태 12. 실시형태 10 또는 11에 있어서, 접촉 전에, 상기 세포로부터 얻어진 상기 세포 또는 핵의 서브세트에서 새로이 표지화된 RNA를 표지화하는 단계를 더 포함한다.
실시형태 13. 실시형태 10 내지 12 중 어느 하나에 있어서, 상기 제1 구획 특이적 인덱스 서열을 첨가하기 위한 처리가 공통 서열을 포함하는 뉴클레오타이드 서열을 상기 핵산에 첨가하고, 이후에 상기 제1 구획 특이적 인덱스 서열을 상기 핵산에 첨가하는 2-단계 공정을 포함한다.
실시형태 14. 실시형태 1 내지 13 중 어느 하나에 있어서, 상기 사전결정된 RNA 핵산은 mRNA이다.
실시형태 15. 실시형태 1 내지 14 중 어느 하나에 있어서, 기존에 존재하는 RNA 핵산 및 새로이 합성된 RNA 핵산이 동일한 구획에서 동일한 인덱스와 표지화된다.
실시형태 16. 실시형태 1 내지 15 중 어느 하나에 있어서, 상기 표지화가 뉴클레오타이드 표지를 포함하는 조성물에서 상기 복수의 핵 또는 세포를 인큐베이션하는 것을 포함하되, 상기 뉴클레오타이드 표지는 상기 새로이 합성된 RNA 내에 통합된다.
실시형태 17. 실시형태 1 내지 16 중 어느 하나에 있어서, 상기 뉴클레오타이드 표지가 뉴클레오타이드 유사체, 합텐-표지화된 뉴클레오타이드, 돌연변이 뉴클레오타이드, 또는 화학 반응에 의해 변형될 수 있는 뉴클레오타이드를 포함한다.
실시형태 18. 실시형태 1 내지 17 중 어느 하나에 있어서, 하나 초과의 뉴클레오타이드 표지가 상기 새로이 합성된 RNA 내에 통합된다.
실시형태 19 실시형태 1 내지 18 중 어느 하나에 있어서, 상기 뉴클레오타이드 표지 또는 표지들의 비율이 상이한 구획 또는 시점에 대해 상이하다.
실시형태 20. 실시형태 1 내지 19 중 어느 하나에 있어서, 상기 표지화 전에 핵 또는 세포의 서브세트를 사전결정된 조건에 노출시키는 단계를 더 포함한다.
실시형태 21. 실시형태 1 내지 20 중 어느 하나에 있어서, 상기 사전결정된 조건은 작용제에 대한 노출을 포함한다.
실시형태 22. 실시형태 1 내지 21 중 어느 하나에 있어서, 상기 작용제는 단백질, 비-리보솜 단백질, 폴리케타이드(polyketide), 유기 분자, 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합물을 포함한다.
실시형태 23. 실시형태 1 내지 22 중 어느 하나에 있어서, 상기 작용제는 치료 약물을 포함한다.
실시형태 24. 실시형태 1 내지 23 중 어느 하나에 있어서, 둘 이상의 구획의 사전결정된 조건은 상이하다.
실시형태 25. 실시형태 1 내지 24 중 어느 하나에 있어서, 상기 노출 및 상기 표지화가 동시에 일어나거나, 또는 상기 노출이 상기 표지화 전에 일어난다.
실시형태 26. 실시형태 1 내지 25 중 어느 하나에 있어서, 상기 풀링된 인덱싱된 핵 또는 세포의 서브세트를 제2의 복수의 구획 내에 분포시켜 핵 또는 세포의 서브세트에 존재하는 인덱싱된 핵산에 제2 인덱스 서열을 첨가하여 이중-인덱싱된 핵산 단편을 포함하는 이중-인덱싱된 핵 또는 세포를 생성시키는 단계로서, 상기 첨가는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 이중-인덱싱된 핵 또는 세포를 생성시키는 단계;
상기 이중-인덱싱된 핵 또는 세포를 조합하여 풀링된 이중-인덱싱된 핵 또는 세포를 생성시키는 단계를 더 포함한다.
실시형태 27. 실시형태 1 내지 26 중 어느 하나에 있어서, 상기 풀링된 이중-인덱싱된 핵 또는 세포의 서브세트를 제3의 복수의 구획 내에 분포시키고 핵 또는 세포의 서브세트에 존재하는 인덱싱된 핵산에 제3 인덱스 서열을 첨가하여 삼중-인덱싱된 핵산 단편을 포함하는 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계로서, 상기 첨가는 결찰, 혼성화, 프라이머 연장, 증폭, 또는 전위를 포함하는, 상기 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계;
상기 삼중-인덱싱된 핵 또는 세포를 조합하여 풀링된 삼중-인덱싱된 핵 또는 세포를 생성시키는 것을 더 포함한다.
실시형태 28. 실시형태 1 내지 27 중 어느 하나에 있어서, 분포가 희석을 포함한다.
실시형태 29. 실시형태 1 내지 27 중 어느 하나에 있어서, 분포가 분류(sorting)를 포함한다.
실시형태 30. 실시형태 1 내지 29 중 어느 하나에 있어서, 상기 첨가는 하나 또는 두 개의 인덱스 서열을 포함하는 핵산 단편의 단부에 헤어핀 결찰 듀플렉스의 결찰을 위해 적합한 조건 하에서 헤어핀 결찰 듀플렉스와 서브세트를 접촉시키는 것을 포함한다.
실시형태 31. 실시형태 1 내지 30 중 어느 하나에 있어서, 상기 첨가는 하나 이상의 인덱스 서열을 포함하는 핵산 단편을 트랜스포좀 복합체와 접촉시키는 것을 포함하되, 구획에서 상기 트랜스포좀 복합체는 유전자전위효소 및 공통 서열을 포함하며, 상기 접촉은 상기 핵산 단편의 단편화 및 상기 공통 서열의 핵산 단편 내에 통합을 더 포함한다.
실시형태 32. 실시형태 1 내지 31 중 어느 하나에 있어서, 상기 첨가는 제1 구획 특이적 인덱스 서열의 결찰을 포함하며, 상기 방법은 제2 인덱스 서열을 첨가하여 이중-인덱싱된 핵산 단편을 포함하는 이중-인덱싱된 핵 또는 세포를 생성시키는 단계를 더 포함하되, 상기 첨가는 전위를 포함한다.
실시형태 33. 실시형태 1 내지 32 중 어느 하나에 있어서, 상기 첨가는 제2 구획 특이적 인덱스 서열의 결찰을 포함하며, 상기 방법은 제3 인덱스 서열을 첨가하여 삼중-인덱싱된 핵산 단편을 포함하는 이중-인덱싱된 핵 또는 세포를 생성시키는 단계를 더 포함하되, 상기 첨가는 전위를 포함한다.
실시형태 34. 실시형태 1 내지 33 중 어느 하나에 있어서, 상기 구획은 웰 또는 점적을 포함한다.
실시형태 35. 실시형태 1 내지 34 중 어느 하나에 있어서, 상기 제1의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한다.
실시형태 36. 실시형태 1 내지 35 중 어느 하나에 있어서, 상기 제2의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한다.
실시형태 37. 실시형태 1 내지 36 중 어느 하나에 있어서, 상기 제3의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한댜.
실시형태 38. 실시형태 1 내지 37 중 어느 하나에 있어서, 상기 풀링된 인덱싱된 핵 또는 세포로부터 상기 인덱싱된 핵산을 얻어서, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성시키는 단계를 더 포함한다.
실시형태 39. 실시형태 1 내지 38 중 어느 하나에 있어서, 상기 풀링된 이중-인덱싱된 핵 또는 세포로부터 상기 이중-인덱싱된 핵산을 얻어서, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성시키는 단계를 더 포함한다.
실시형태 40. 실시형태 1 내지 39 중 어느 하나에 있어서, 상기 풀링된 삼중-인덱싱된 핵 또는 세포로부터 상기 삼중-인덱싱된 핵산을 얻어서, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성시키는 단계를 더 포함한다.
실시형태 41. 실시형태 1 내지 40 중 어느 하나에 있어서, 상기 방법은
복수의 증폭 부위를 포함하는 표면을 제공하는 단계로서, 상기 증폭 부위는 자유 3' 단부를 갖는 부착된 단일 가닥 캡처 올리고뉴클레오타이드의 적어도 2개의 집단을 포함하는, 상기 표면을 제공하는 단계, 및
상기 증폭 부위를 포함하는 표면을 1, 2, 또는 3개의 인덱스 서열을 포함하는 상기 핵산 단편과, 각각이 복수의 인덱스를 포함하는 개개 단편으로부터 앰플리콘의 클론 집단을 포함하는 복수의 증폭 부위를 생성하기에 적합한 조건 하에서 접촉시키는 단계를 더 포함한다.
실시형태 42. 실시형태 1 내지 41 중 어느 하나에 있어서, 상기 구획 특이적 인덱스 서열의 첨가가 상기 핵산에 공통 서열을 포함하는 뉴클레오타이드 서열을 첨가하고, 이후에, 상기 핵산에 상기 구획 특이적 인덱스 서열을 첨가하는 2-단계 공정을 포함한다.
실시형태 43. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 제1의 복수의 구획에 복수의 핵 또는 세포를 제공하는 단계로서, 각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 복수의 핵 또는 세포를 제공하는 단계;
(b) 각 서브세트를 역전사 효소 및 프라이머와 접촉시켜, 상기 프라이머 및 상기 주형 RNA 핵산의 상응하는 DNA 뉴클레오타이드 서열을 포함하는 이중 가닥 DNA 핵산을 야기시키는 단계;
(c) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 인덱싱된 핵 또는 세포를 생성시키는 단계; 및
(d) 상기 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 단계;
(e) 상기 풀링된 인덱싱된 핵 또는 세포를 제2의 복수의 구획 내에 분포시키는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 제2의 복수의 구획 내에 분포시키는 단계;
(f) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 이중-인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제2 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 이중-인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 이중-인덱싱된 핵 또는 세포를 생성시키는 단계;
(g) 상기 이중-인덱싱된 핵 또는 세포를 조합하여 풀링된 이중-인덱싱된 핵 또는 세포를 생성시키는 단계;
(h) 상기 풀링된 이중-인덱싱된 핵 또는 세포를 제3의 복수의 구획 내에 분포시키는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 제3의 복수의 구획 내에 분포시키는 단계;
(i) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제3 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 삼중-인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계; 및
(j) 상기 삼중-인덱싱된 핵 또는 세포를 조합하여 풀링된 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 44. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 복수의 핵 또는 세포를 제공하는 단계;
(b) 상기 복수의 핵 또는 세포를 역전사 효소 및 프라이머와 접촉시켜, 상기 프라이머 및 상기 주형 RNA 핵산의 상응하는 DNA 뉴클레오타이드 서열을 포함하는 이중 가닥 DNA 핵산을 야기시키는 단계;
(c) 상기 핵 또는 세포를 제1의 복수의 구획 내에 분포시키는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 제1의 복수의 구획 내에 분포시키는 단계;
(d) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 인덱싱된 핵 또는 세포를 생성시키는 단계;
(e) 상기 인덱싱된 핵 또는 세포를 조합하여 풀링된 인덱싱된 핵 또는 세포를 생성시키는 단계;
(f) 상기 풀링된 인덱싱된 핵 또는 세포를 제2의 복수의 구획 내에 분포시키는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 상기 풀링된 인덱싱된 핵 또는 세포를 분포시키는 단계;
(g) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 이중-인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제2 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 이중-인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 이중-인덱싱된 핵 또는 세포를 생성시키는 단계; 및
(h) 상기 이중-인덱싱된 핵 또는 세포를 조합하여 풀링된 이중-인덱싱된 핵 또는 세포를 생성시키는 단계;
(i) 상기 이중-인덱싱된 핵 또는 세포를 제3의 복수의 구획 내에 분포시키는 단계로서,
각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 제3의 복수의 구획 내에 분포시키는 단계;
(j) 핵 또는 세포의 각 서브세트에서 DNA 분자를 처리하여 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계로서,
상기 처리는 핵 또는 세포의 서브세트에 존재하는 DNA 핵산에 제3 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 삼중-인덱싱된 핵산을 야기시키고,
상기 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계; 및
(k) 상기 삼중-인덱싱된 핵 또는 세포를 조합하여 풀링된 삼중-인덱싱된 핵 또는 세포를 생성시키는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 45. 실시형태 43 내지 44에 있어서, 상기 프라이머는 RNA 핵산으로 어닐링되어서, 상기 프라이머 및 상기 주형 RNA 분자의 상응하는 DNA 뉴클레오타이드 서열을 포함하는 이중 가닥 DNA 핵산을 야기시킨다.
실시형태 46. 실시형태 43 내지 45 중 어느 하나에 있어서, 상기 프라이머는 mRNA 폴리(A) 테일에 어닐링되는 폴리-T 뉴클레오타이드 서열을 포함한다.
실시형태 47. 실시형태 43 내지 46 중 어느 하나에 있어서, 상기 접촉은 서브세트를 제2 프라이머와 접촉시키는 것을 더 포함하되, 상기 제2 프라이머는 사전결정된 DNA 핵산에 어닐링되는 서열을 포함한다.
실시형태 48. 실시형태 43 내지 47 중 어느 하나에 있어서, 상기 제2 프라이머는 구획 특이적 인덱스를 포함한다.
실시형태 49. 실시형태 43 내지 45 중 어느 하나에 있어서, 상기 프라이머는 사전결정된 RNA 핵산에 어닐링되는 서열을 포함한다.
실시형태 50. 실시형태 43 내지 49 중 어느 하나에 있어서, 상기 사전결정된 RNA 핵산이 mRNA이다.
실시형태 51. 실시형태 43 내지 50 중 어느 하나에 있어서, 상기 프라이머는 주형-스위치 프라이머를 포함한다.
실시형태 52. 실시형태 43 내지 51 중 어느 하나에 있어서, 상기 제1, 제2, 또는 제3 구획 특이적 인덱스 서열 중 하나 이상을 첨가하는 처리가 공통 서열을 포함하는 뉴클레오타이드 서열을 상기 핵산에 첨가하고, 이후에, 상기 제1 구획 특이적 인덱스 서열을 상기 DNA 핵산에 첨가하는 2-단계 공정을 포함한다.
실시형태 53. 실시형태 43 내지 52 중 어느 하나에 있어서, 상기 프라이머는 상기 제1 구획 특이적 인덱스 서열을 포함한다.
실시형태 54. 실시형태 43 내지 53 중 어느 하나에 있어서, 상기 접촉 전에, 상기 세포로부터 얻어진 세포 또는 핵의 서브세트에서 새로이 합성된 RNA를 표지화하는 단계를 더 포함한다.
실시형태 55. 실시형태 43 내지 54 중 어느 하나에 있어서, 기존에 존재하는 RNA 핵산 및 새로이 합성된 RNA 핵산이 동일한 구획에서 동일한 인덱스로 표지화된다.
실시형태 56. 실시형태 43 내지 55 중 어느 하나에 있어서, 상기 표지화가 뉴클레오타이드 표지를 포함하는 조성물에서 복수의 핵 또는 세포를 인큐베이션하는 것을 포함하되, 상기 뉴클레오타이드 표지는 상기 새로이 합성된 RNA 내에 통합된다.
실시형태 57. 실시형태 43 내지 56 중 어느 하나에 있어서, 상기 뉴클레오타이드 표지가 뉴클레오타이드 유사체, 합텐-표지화된 뉴클레오타이드, 돌연변이 뉴클레오타이드, 또는 화학 반응에 의해 변형될 수 있는 뉴클레오타이드를 포함한다.
실시형태 58. 실시형태 43 내지 57 중 어느 하나에 있어서, 하나 초과의 뉴클레오타이드 표지가 상기 새로이 합성된 RNA 내에 통합된다.
실시형태 59. 실시형태 43 내지 58 중 어느 하나에 있어서, 상기 뉴클레오타이드 표지 또는 표지들의 비율이 상이한 구획 또는 시점에 대해 상이하다.
실시형태 60. 실시형태 43 내지 59 중 어느 하나에 있어서, 상기 방법은 상기 표지화 전에 구획의 핵 또는 세포의 서브세트를 사전결정된 조건에 노출시키는 단계를 더 포함한다.
실시형태 61. 실시형태 43 내지 60 중 어느 하나에 있어서, 상기 사전결정된 조건은 작용제에 대한 노출을 포함한다.
실시형태 62. 실시형태 43 내지 61 중 어느 하나에 있어서, 상기 작용제는 단백질, 비-리보솜 단백질, 폴리케타이드, 유기 분자, 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합물을 포함한다.
실시형태 63. 실시형태 43 내지 62 중 어느 하나에 있어서, 상기 작용제는 치료 약물을 포함한다.
실시형태 64. 실시형태 43 내지 63 중 어느 하나에 있어서, 둘 이상의 구획의 사전결정된 조건은 상이하다.
실시형태 65. 실시형태 43 내지 64 중 어느 하나에 있어서, 상기 노출 및 상기 표지화가 동시에 일어나거나, 또는 상기 노출이 상기 표지화 전에 일어난다.
실시형태 66. 실시형태 43 내지 65 중 어느 하나에 있어서, 하나 이상의 분포가 희석을 포함한다.
실시형태 67. 실시형태 43 내지 65 중 어느 하나에 있어서, 하나 이상의 분포가 분류를 포함한다.
실시형태 68. 실시형태 43 내지 67 중 어느 하나에 있어서, 제1, 제2, 또는 제3 구획 특이적 인덱스 서열 중 하나 이상을 첨가하는 것이 핵산 단편의 단부에 대한 헤어핀 결찰 듀플렉스의 결찰을 위해 적합한 조건 하에서 서브세트를 헤어핀 결찰 듀플렉스와 접촉시키는 것을 포함한다.
실시형태 69. 실시형태 43 내지 68 중 어느 하나에 있어서, 제1, 제2, 또는 제3 구획 특이적 인덱스 서열 중 하나 이상을 첨가하는 것이 핵산 단편을 트랜스포좀 복합체와 접촉시키는 단계를 포함하되, 구획에서 상기 트랜스포좀 복합체는 유전자전위효소 및 공통 서열을 포함하며, 상기 접촉은 상기 핵산 단편의 단편화 및 핵산 단편 내에 뉴클레오타이드 서열의 통합을 위해 적합한 조건을 더 포함한다.
실시형태 70. 실시형태 43 내지 69 중 어느 하나에 있어서, 상기 제1 또는 제2 구획 특이적 인덱스의 첨가가 결찰을 포함하며, 후속 구획 특이적 인덱스 서열의 첨가가 전위를 포함한다.
실시형태 71. 실시형태 43 내지 70 중 어느 하나에 있어서, 상기 구획은 웰 또는 점적을 포함한다.
실시형태 72. 실시형태 43 내지 71 중 어느 하나에 있어서, 상기 제1의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한다.
실시형태 73. 실시형태 43 내지 72 중 어느 하나에 있어서, 상기 제2의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한다.
실시형태 74. 실시형태 43 내지 73 중 어느 하나에 있어서, 상기 제3의 복수의 구획 중의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함한다.
실시형태 75. 실시형태 43 내지 74 중 어느 하나에 있어서, 상기 풀링된 삼중-인덱싱된 핵 또는 세포로부터 상기 삼중-인덱싱된 핵산을 얻어서, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성시키는 단계를 더 포함한다.
실시형태 76. 실시형태 43 내지 75 중 어느 하나에 있어서,
복수의 증폭 부위를 포함하는 표면을 제공하는 단계로서, 상기 증폭 부위는 자유 3' 단부를 갖는 부착된 단일 가닥 캡처 올리고뉴클레오타이드의 적어도 2개의 집단을 포함하는, 상기 표면을 제공하는 단계,
상기 증폭 부위를 포함하는 표면을 상기 삼중-인덱싱된 핵산 단편과, 각각이 복수의 인덱스를 포함하는 개개 단편으로부터 앰플리콘의 클론 집단을 포함하는 복수의 증폭 부위를 생성하기에 적합한 조건 하에서 접촉시키는 단계를 더 포함한다.
실시형태 77. 복수의 단일 세포로부터 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 복수의 세포로부터 핵을 제공하는 단계;
(b) 핵의 서브세트를 제1의 복수의 구획 내에 분포시키고, 각 서브세트를 역전사 효소 및 프라이머와 접촉시켜, 인덱싱된 핵산 단편을 포함하는 인덱싱된 핵을 생성시키는 단계로서, 각 구획에서 프라이머는 다른 구획에서의 제1 인덱스 서열과는 상이한 제1 인덱스 서열을 포함하는, 상기 인덱싱된 핵을 생성시키는 단계;
(c) 인덱싱된 핵을 조합하여 풀링된 인덱싱된 핵을 생성시키는 단계;
(d) 풀링된 인덱싱된 핵의 서브세트를 제2의 복수의 구획 내에 분포시키고, 제1 인덱스 서열을 포함하는 인덱싱된 핵산 단편의 단부에 대한 헤어핀 결찰 듀플렉스의 결찰을 위해 적합한 조건 하에서 각 서브세트를 헤어핀 결찰 듀플렉스와 접촉시켜, 이중-인덱싱된 핵산 단편을 포함하는 이중-인덱싱된 핵을 생성시키는 단계로서, 헤어핀 결찰 듀플렉스는 다른 구획에서 제2 인덱스 서열과 상이한 제2 인덱스 서열을 포함하는, 상기 이중-인덱싱된 핵을 생성시키는 단계;
(e) 이중-인덱싱된 핵을 조합하여 풀링된 이중-인덱싱된 핵을 생성시키는 단계;
(f) 풀링된 이중-인덱싱된 핵의 서브세트를 제3의 복수의 구획 내에 분포시키고, 이중-인덱싱된 핵산 단편을 제2 가닥 합성을 위한 조건으로 처리하는 단계;
(g) 이중-인덱싱된 핵산 단편을 트랜스포좀 복합체와 접촉시키는 단계로서, 각 구획에서 트랜스포좀 복합체는 유전자전위효소 및 공통 서열을 포함하며, 접촉은 일단부에 제1 및 제2 인덱스 및 타단부에 공통 서열을 포함하는 이중-인덱싱된 핵산 단편을 생성시키기 위해 이중-인덱싱된 핵산 단편의 단편화 및 이중-인덱싱된 핵산 단편 내에 공통 서열의 통합을 위해 적합한 조건을 포함하는, 상기 이중-인덱싱된 핵산 단편을 트랜스포좀 복합체와 접촉시키는 단계;
(h) 각 구획에서 이중-인덱싱된 핵산 단편 내에 제3 인덱스 서열을 통합하여 삼중-인덱스 단편을 생성시키는 단계;
(i) 삼중-인덱스 단편을 조합하여, 복수의 단일 세포로부터 전사체 핵산을 포함하는 시퀀싱 라이브러리를 생성시키는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 78. 실시형태 77에 있어서, 상기 프라이머는 mRNA 폴리(A) 테일에 어닐링되는 폴리-T 서열을 포함한다.
실시형태 79. 실시형태 77 또는 78에 있어서, 각 구획의 프라이머가 사전결정된 mRNA에 어닐링되는 서열을 포함한다.
실시형태 80. 실시형태 77 내지 79 중 어느 하나에 있어서, 상기 방법은 동일한 사전결정된 mRNA의 상이한 뉴클레오타이드에 어닐링되는 상이한 구획에서 프라이머를 포함한다.
실시형태 81. 복수의 단일 세포로부터 핵산을 포함하는 전사체 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 복수의 세포로부터 풀링된 핵을 제공하는 단계;
(b) 상기 풀링된 핵을 mRNA 폴리(A) 테일에 어닐링되는 올리고-dT 서열을 포함하는 프라이머 및 역전사 효소와 접촉시켜, 핵산 단편을 포함하는 풀링된 핵을 생성시키는 단계;
(c) 풀링된 핵의 서브세트를 복수의 구획 내에 분포시키고, 핵산 단편의 단부에 대한 헤어핀 결찰 듀플렉스의 결착을 위해 적합한 조건 하에서 각 서브세트를 헤어핀 결찰 듀플렉스와 접촉시켜, 인덱싱된 핵산 단편을 포함하는 인덱싱된 핵을 생성시키는 단계로서, 헤어핀 결찰 듀플렉스는 다른 구획에서 인덱스 서열과 상이한 인덱스 서열을 포함하는, 상기 덱싱된 핵을 생성시키는 단계;
(d) 인덱싱된 핵을 조합하여 풀링된 인덱싱된 핵을 생성시키는 단계;
(e) 풀링된 인덱싱된 핵의 서브세트를 제2의 복수의 구획 내에 분포시키고, 인덱싱된 핵산 단편을 제2 가닥 합성을 위한 조건으로 처리하는 단계;
(f) 인덱싱된 핵산 단편을 트랜스포좀 복합체와 접촉시키는 단계로서, 각 구획에서 트랜스포좀 복합체는 유전자전위효소 및 공통 서열을 포함하며, 접촉은 일단부에 인덱스를 그리고 타단부에 공통 서열을 포함하는 인덱싱된 핵산 단편을 생성시키기 위해 인덱싱된 핵산 단편의 단편화 및 인덱싱된 핵산 단편 내에 공통 서열의 통합을 위해 적합한 조건을 포함하는, 상기 인덱싱된 핵산 단편을 트랜스포좀 복합체와 접촉시키는 단계;
(g) 각 구획에서 인덱싱된 핵산 단편 내에 제2 인덱스 서열을 통합시켜 이중-인덱스 단편을 생성시키는 단계;
(j) 이중-인덱스 단편을 조합하여, 복수의 단일 세포로부터 전사체 핵산을 포함하는 시퀀싱 라이브러리를 생성시키는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 82. 핵을 단리시키는 방법으로서,
(a) 액체 질소에서 조직을 스냅 동결시키는 단계;
(b) 조직의 크기를 감소시켜 가공된 조직을 생성시키는 단계; 및
(c) 세포 용해를 증진시키고 하나 이상의 외인성 효소의 부재 하에서 핵의 온전성을 유지하는 완충제에서의 인큐베이션에 의해 가공된 조직으로부터 핵을 추출하는 단계를 포함하는, 시퀀싱 라이브러리를 제조하는 방법.
실시형태 83. 실시형태 82에 있어서, 상기 감소는 조직을 가는 것, 조직에 둔력(blunt force)을 적용하는 것, 또는 이들의 조합을 포함한다.
실시형태 84. 실시형태 82 내지 83에 있어서,
(d) 상기 추출된 핵을 가교제에 노출시켜 고정된 핵을 야기시키는 단계; 및
(e) 상기 고정된 핵을 세척하는 단계를 더 포함한다.
실시형태 85. 시퀀싱 라이브러리를 제조하는데 사용하기 위한 키트로서, 뉴클레오타이드 표지, 및 결찰, 프라이머 연장 또는 증폭을 매개하는 적어도 하나의 효소를 포함하는, 키트.
실시형태 86. 시퀀싱 라이브러리를 제조하는데 사용하기 위한 키트로서, 사전결정된 핵산에 어닐링되는 프라이머, 및 결찰, 프라이머 연장 또는 증폭을 매개하는 적어도 하나의 효소를 포함하는, 키트.
실시예
본 개시내용은 하기 실시예에 의해 예시된다. 특정 실시예, 물질, 양 및 절차가 본 명세서에 기술된 바와 같은 본 개시내용의 범위 및 사상에 따라 광범위하게 해석되는 것으로 이해되어야 한다.
실시예 1
단일 세포 분해능에서 포유류 기관형성의 동적 전사 랜드스케이프
포유류 기관형성 동안, 3배엽의 세포는 가장 주요 내부 및 외부 기관을 포함하는 배아로 변형시킨다. 발달 결함의 주요 조절 인자는 이러한 중요한 시기 동안 에 연구될 수 있지만, 현 기술은 빠르고 다양화되고 확장되는 수의 세포 타입의 분자 상태 및 궤적의 전체적인 관점을 얻기 위한 처리량 및 분해능이 부족하다. 여기에서, 본 발명자는 단일 세포 분해능에서 기관형성 동안 마우스 발달의 전사 역학을 조사하기 시작하였다. 개선된 단일 세포 조합 인덱싱-기반 프로토콜('sci-RNA-seq3')과 관련하여, 본 발명자는 임신 9.5일 내지 13.5일 사이에 단계화된 61마리의 마우스로부터 유래된 2백만개 이상의 세포를 프로파일링하였다(E9.5 내지 E13.5; 시점 당 10 내지 15개의 복제물). 본 발명자는 수백개의 확장, 수축, 및 과도 세포 타입을 식별하고, 여기에서 얻어진 세포 커버리지의 깊이로 인해 단지 이러한 것들 중 다수가 검출되며, 세포 타입-특이적 마커 유전자의 상응하는 세트를 규정하고, 이들 중 수 개는 전체 마운트 인시튜 혼성화에 의해 검증된다. 본 발명자는 정단 외배엽 융기, 사지 중간엽 및 골격근의 집중 분석을 포함하여, 시간에 따른 세포 타입 내의 증식 및 유전자 발현의 역학을 탐구한다. 신규한 알고리즘을 이용하여, 본 발명자는 마우스 기관형성의 주요 단일 세포 발달 궤적을 식별하고, 이러한 것 내에서, 동일한 종결점, 즉, 분기 또는 수렴에 대한 고유한 경로의 예를 발견한다. 이러한 데이터는 포유류 발달 생물학에 대한 기초적인 재원을 포함하고, 연구 커뮤니티에 의해 지속적으로 주석을 달 수 있는 방식으로 이용될 수 있다.
도입부
포유류 기관형성은 놀라운 과정이다. 짧은 시간의 윈도우 내에, 삼배엽의 세포는 대부분 이의 주요 내부 및 외부 기관을 포함하는 적절한 배아로 변형된다. 매우 초기 인간 배아가 시험관내1에서 배양되고 연구될 수 있지만, 인간 배아 발달의 후기 단계에 해당하는 물질에 대한 접근은 제한적이다. 결과적으로, 포유류 기관형성의 대부분의 연구는 모델 유기체, 및 특히, 마우스에 의존하고 있다.
인간과 비교하면, 마우스는 수정과 새끼 출생 사이에 단지 21일에, 빠르게 발달한다. 마우스 배반포(32 내지 64개의 세포)의 이식은 배아 4일째에 일어난다(E4.0). 이어서 장배형성 및 1차 배열의 형성으로 이어진다(E6.5-E7.5; 660-15K 세포)2,3. 이러한 시간 동안, 원시 선상 형태 및 전방-대-후방 서열에서 배아의 뚜렷한 계통의 할당이 일어난다4. 초기 체절 단계(E8.0-E8.5)에서, 배아는 장배형성에서 신경판 및 심장관 형성과 관련된 초기 기관형성으로 이동한다(60K-90K 세포). 전통적인 기관형성은 E9.5에서 개시한다. 이어지는 4일에(E9.5-E13.5), 마우스 배아는 수십만개의 세포 내지 1천만개 이상의 세포로 확장하고, 동시에, 감각 기관, 위장 기관 및 호흡 기관, 이의 척수, 골격계 및 조혈계를 발달시킨다. 당연히, 이러한 중요한 마우스 발달 시기는 집중적으로 연구되었다. 실제로, 발달 결함의 대부분의 주요 조절 인자는 이러한 윈도우 동안에 연구될 수 있다5,6.
마우스 기관형성의 연구를 위한 통상적인 패러다임은 제한된 발달 단계에서 개별 기관계에 초점을 맞추고 해부학적 형태학, 인시튜 혼성화, 면역조직화학7,8, 또는 더욱 최근에, 전사체 또는 에피게놈 프로파일링9에 의해 유전자 녹아웃 연구와 표현형을 결합시키는 것을 포함한다. 이러한 집중 연구가 포유류 발달에 대한 기본적인 통찰을 생성하였지만, 기본적인 기술은 처리량과 해상도가 부족하여 기관형성 동안 다양하고 빠르게 확장하는 세포의 집단 및 하위집단에서 진행중인 동적 분자 과정에 대한 전체적인 관점을 얻을 수 없다.
단일 세포의 분자 함량의 '샷건 프로파일링'은 이러한 단점을 해결하고 포유류 발달의 이해를 더욱 발전시키기 위한 유망한 통로를 나타낸다. 예를 들어, 단일 세포 RNA-seq 방법의 적용은 최근에 마우스 발달 동안 뉴런 및 심근세포에서 엄청난 이질성을 나타내었다10,11. 마우스의 2개의 단일 세포 전사 지도가 최근에 발표되고 본 분야에 대한 중요한 재원을 나타내지만12,13, 이러한 것은 주로 성인 기관에 제한되고, 발달 동안 포유류 세포 타입의 출현 및 시간적 역학을 특성화하려고 시도되지 않았다.
단일 세포 조합 인덱싱('sci-')은 분할-풀 바코딩을 이용하여 다수의 단일 세포 또는 핵의 핵산 함량을 독특하게 표지화하는 방법론적 프레임워크이다14-21. 본 발명자는 최근에, 전사체에 대한 'sci-' 프로토콜('sci-RNA-seq')을 개발하였고, 이를 적용하여 L2 단계에서 선충 카에노르하브디티스 엘레간스의 50배 '샷건 세포 커버리지'를 생성하였다19. 'sci-' 방법의 처리량이 인덱싱의 라운드 수에 따라 기하급수적으로 증가하지만, 이러한 잠재력은 아직 세포 손실 속도 및 일부 단계의 제한된 반응 효능과 같은 다른 인자로 인하여 완전히 실현되지 않는다19,21. 이를 해결하기 위해, 본 발명자는 3-레벨 sci-RNA-seq(sci-RNA-seq3)를 개발하고, 광범위하게 최적화하여, 실험 당 1백만개 이상의 세포를 프로파일링할 수 있는 작업흐름을 형성시켰다. 종래에서와 같이19, 다수의 샘플(예를 들어, 복제물, 시점, 등)은 제1 라운드의 인덱싱 동안 바코딩될 수 있고, 동시에 처리될 수 있다.
여기에서, 본 발명자는 sci-RNA-seq3를 이용한 단일 세포 해상도에서 기관형성 동안 마우스 발달의 전사 역학을 조사하기 시작하였다. 하나의 실험에서, 본 발명자는 E9.5 내지 E13.5(시점 당 10 내지 15개의 복제물)에서 61개의 마우스 배아로부터 유도된 2백만개 이상의 단일 세포를 프로파일링하였다. 이러한 데이터로부터, 본 발명자는 38개의 주요 세포 타입뿐만 아니라 600개 이상의 과립 세포 타입(여기에서 38개의 주요 세포 타입과 이를 구별하기 위해 '서브타입'으로 지칭됨)을 식별한다. 전적으로, 본 발명자는 세포 타입 및 서브타입에 대한 수천개의 신규한 후보 마커 유전자를 발견하고, 전체 마운트 인시튜 혼성화에 의해 예시적인 예를 검증한다. 본 발명자는 정단 외배엽 융기, 사지 중간엽 및 골격근의 집중 분석을 포함하여, 임신 중기 동안 확장하고 과도 세포 타입에서 증식 및 유전자 발현의 역학을 정량화한다. 새로운 알고리즘을 이용하여, 본 발명자는 마우스 기관형성의 주요 단일 세포 발달 궤적을 규정하고, 이러한 것 내에서, 동일한 종결점, 즉, 분기 또는 수렴에 대한 고유한 경로의 예를 발견한다. 모든 데이터는 연구 커뮤니티에 의해 지속적으로 주석을 달 수 있는 방식으로 자유롭게 이용할 수 있다.
결과
sci-RNA-seq3으로 5개의 발달 단계를 거친 61개의 마우스 배아로부터 2백만개의 세포 프로파일링
sci-RNA-seq의 처리량을 증가시키기 위하여, 본 발명자는 1,000개 이상의 실험 조건을 탐구하였다. 방법의 본래 설명과 관련하여19, sci-RNA-seq3에 의해 도입된 주요 개선(도 4A, 방법)은 하기와 같다: (i) 본 발명자는 신규한 핵 추출 및 고정 전략을 개발하였으며, 여기서, 핵은 임의의 효소 처리 없이 새로운 조직으로부터 직접적으로 추출된다. 이의 추출에 후속하여, 핵은 4% 파라폼알데하이드에서 고정되고, 추가 처리 전에 액체 질소에서 저장될 수 있다. (ii) 3-레벨 인덱싱의 본 발명자의 이전 설명과 비교하면19, 본 발명자는 인덱싱된 Tn5 태그화에서 인덱싱된 헤어핀 결찰로 전환하였다. (iii) 여러 개별 반응, 예를 들어, 역전사는 효율을 위해 추가로 최적화되었다. (iv) FACS 분류 단계가 생략되며, 핵의 응집을 최소화하기 위해 초음파처리 및 여과 단계가 추가되었다. sci-RNA-seq3의 라이브러리 제조 단계는 1주에 단일 개체에 의해 완료될 수 있으며, 대안적인 sc-RNA-seq 프로토콜의 '실험 당' 처리량을 크게 초과한다(도 4B).
본 발명자는 E9.5-E13.5 사이에서 단계 당 적어도 3마리의 독립적인 새끼로부터 10 내지 15개의 배아를 포함하는, C57BL/6 마우스 배아를 수집하고, 이를 액체 질소 중에서 스냅 냉동시켰다. 본 발명자는 후속하여, 61개의 개별 전체 배아로부터 핵을 단리하고, sci-RNA-seq3을 수행하였다(도 4A). 각 배아로부터 유도된 핵은 제1 라운드의 인덱싱 동안에 상이한 웰에 침적되었으며, 이에 따라, 개별 핵의 RNA-seq 프로파일이 이러한 것이 유도된 배아에 연결될 수 있도록 한다(도 5A). 내부 대조군으로서, 본 발명자는 또한, 제1 라운드 인덱싱 동안 2개의 웰 내에 HEK293T 및 NIH/3T3 세포의 혼합물을 스파이킹하였다. sci-RNA-seq3 프로토콜을 완료한 후에, 얻어진 라이브러리는 하나의 NovaSeq 런에서 시퀀싱되어 110억개의 리드를 수득하였다(도 5B).
이러한 하나의 실험으로부터, 본 발명자는 61개의 마우스 배아로부터 2,058,652개의 세포 및 HEK293T 또는 NIH/3T3 세포로부터 13,359개의 세포를 포함하는, 2,072,011개의 단일 세포 전사체(독특한 분자 식별자 또는 UMI 카운트 ≥ 200)를 회수하였다. 다행히, HEK293T 및 NIH/3T3 세포의 전사체는 420 (3%) 충돌과 함께 한 종 또는 다른 종의 게놈에 압도적으로 맵핑되었다(도 4C). 세포당 23,207개 리드의 시퀀싱 깊이에서, 본 발명자는 HEK293T 세포당 3,676 UMI 및 NIH/3T3 세포당 5,163 UMI의 중간값을 관찰하였으며, 세포당 각각 3.9% 및 2.9%의 리드가 부정확한 종에 맵핑되었다(도 5C 및 도 5D). 본 발명자는 이전에 수집된 데이터세트19를 HEK293T 또는 NIH/3T3 세포당 동등한 시퀀싱 깊이로 다운샘플링함으로써 본 발명의 본래 sci-RNA-seq 프로토콜을 sci-RNA-seq3과 비교하였다. sci-RNA-seq3 프로토콜은, 처리량이 40배 증가한 반면, 세포당 검출된 UMI의 수와 관련하여 유사한 효율을 나타내었다(도 5E). 또한, sci-RNA-seq3 및 sci-RNA-seq로부터 유도된 HEK293T 단일 세포 프로파일의 응집된 전사체는 높은 상관관계가 있다(피어슨: 0.98, 도 5F).
2,058,652개 배아-유도 세포는 이의 제1-라운드 바코드를 기초로 하여 61개의 개별 배아에 맵핑되었다(중간값 배아 당 35,272개 세포; 도 4D). 각 배아로부터 회수된 세포의 수는 이에 할당된 제1-라운드 웰의 수와 관련이 있다(스피어맨: 0.75, 도 6A). 비교적 얕은 시퀀싱 깊이(세포당 대략 5,000개 리드)에서, 본 발명자는 세포당 519개의 유전자의 중간값(671 UMI)을 식별하였다(도 4E). 이는 세포당 다수의 미가공 시퀀싱 리드의 1/3보다 적은 수에도 불구하고(도 6B 내지 도 6D), 다양한 세포 타입이 구별되고 주석이 달린 다른 scRNA-seq 연구와 유사하거나 이보다 더 높다19,21,22. 후기 단계 배아(E12.5 및 E13.5)는 세포당 다소 더 적은 UMI 카운트를 나타내었는데, 이는 발달 동안 핵 당 mRNA 함량을 감소시킴을 시사한다(도 6E).
각 시점(방법)에서 배아 당 세포의 수의 대략적인 추정치를 기초로 하고, 시점 당 모두 10 내지 15개의 복제물과 함께 합하여, 본 발명자는 마우스 배아의 '샷건 세포 커버리지'가 E9.5에서 0.8x(배아 당 200K 세포; 여기에서 152K 프로파일링됨), E10.5에서 0.3x(1.1M 세포; 378K 프로파일링됨), E11.5에서 0.2x(2M 세포; 616K 프로파일링됨), E12.5에서 0.08x(6M 세포; 475K 프로파일링됨), 및 E13.5에서 0.03x(13M 세포; 437K 프로파일링됨)인 것으로 추정한다. 이에 따라, 본 발명자가 아직 "오버샘플링"이 아니지만, 본 발명자가 각 단계에서 프로파일링하는 세포의 수는 개별 마우스 배아의 세포 함량의 실질적인 백분율(3 내지 80%)과 동등하다.
데이터 품질에 대한 체크로서, 본 발명자는 각 개체의 단일 세포 전사체를 집계하여, 마우스 배아의 61개의 '유사-벌크 프로파일'을 야기시켰다. Xist 전사체(단지 암컷에서 발현됨) 또는 Y 염색체 전사체에 맵핑되는 UMI의 수를 카운팅함으로써, 마우스 배아는 수컷(x = 31) 및 암컷(n = 30) 그룹으로 용이하게 분리되며(도 4F), 각 단계에서 수컷 대 암컷 복제물의 수와 관련하여 균형을 이룸을 나타낸다(도 6F).
추가 품질 체크로서, 본 발명자는 61개의 배아의 '의사-벌크' 전사체를 t-확률적 이웃 임베딩(t-stochastic neighbor embedding: t-SNE)으로 처리하였으며, 이는 이의 발달 단계를 완벽하게 매칭하는 5개의 단단히 클러스터링된 그룹을 야기시켰다(도 7A). 본 발명자는 또한, 시점에 걸쳐 다르게 발현된 상위 1,000개 유전자를 기초로 하여, Monocle23을 이용하여 '의사시간' 궤적을 따라 마우스 배아를 정렬하고, 얻어진 정렬은 또한 예상치와 매칭된다(도 4G). 배아-수준 의사시간 궤적에는 눈의 띄는 2가지 차이가 존재한다. 하나는 E9.5와 E10.5 사이이며, 다른 하나는 E11.5와 E12.5 사이인데, 이러한 윈도우 동안 전체 전사체의 극적인 변화를 시사하는 것이다 .본 발명자는 각 배아에 의사시간을 할당하였으며, 이는 발달 단계의 더욱 세밀한 평가를 잠재적으로 반영한다(도 7B). 예를 들어, 발달 의사시간에서 이전 대 이후에 위치된 E10.5 배아는 형태학적으로 구별되었다(도 7C).
본 발명자는 또한, 발달 동안 전체 전사체의 변화를 시험하였다. 12,236개의 유전자는 상이한 발달 단계에 걸쳐 다르게 발현되었다(데이터 미제시됨). 본 발명자는 도 4H에서 가장 동적인 유전자 중 일부를 플롯팅하였다. 예상되는 바와 같이, 본 발명자는 Hbb-bt 및 Hbb-bs와 같은 성인 헤모글로빈 유전자의 발현 증가, 및 Hbb-bh1 및 Hbb-x와 같은 배아 헤모글로빈 유전자의 발현 감소를 관찰한다. Cntn4 24 , Neurod2 25 Neurod6 26 을 포함하는, 뉴런 분화에서 공지된 역할을 갖는 유전자는 후기 단계에서 증가된 발현을 나타낸다. 그러나, 다수의 매우 동적인 유전자, 예를 들어, Slc35f4, Prtg Trim30a는 이전에 특징화되지 못하였다. 본 발명자의 추정에도 불구하고, 그리고 실제로, 단일 세포 데이터를 수집하려는 동기는, '전체 배아' 유전자 발현의 역학이 임의의 단일 세포 타입 내에서의 변화보다는 오히려, 별도의 세포 타입의 상대적 비율의 동적 변화에 의해 주로 유도된다는 것이다.
마우스 기관형성 동안 존재하는 주요 세포 타입 및 서브타입의 식별 및 주석
주요 세포 타입을 식별하기 위하여, 본 발명자는 2,058,652개의 단일 세포 전사체(즉, 모든 시점으로부터의 모든 배아)를 40개의 구별된 그룹을 식별한 Louvain 클러스터링 t-SNE 시각화로 처리하였다(도 8A). 확실하게, 본 발명자가 상이한 시점으로부터 유도된 세포 간에 명확한 차이를 관찰하지만(도 9A), 동일한 시점의 복제 배아로부터 유도된 세포는 유사하게 분포된다(도 10). 이러한 40개의 클러스터 각각에 대해 특이적인 유전자의 세트를 기초로 하여, 본 발명자는 공개된 마커 유전자와 비교에 의해 세포 타입 할당을 수작업으로 준비하였다(데이터 미제시됨). 37개의 클러스터에 대하여, 본 발명자는 정확하게 하나의 문헌-규정된 세포 타입에 이를 확실하게 할당하였으며, 2개의 클러스터 모두는 최종적인 적혈구 계통에 해당한다. 하나의 클러스터는 비정상적으로 높은 UMI 카운트를 가졌지만, 강력한 클러스터-특이적 유전자는 아니었는데, 이는 세포 더블릿의 기술적 인공물일 수 있음을 시사한다. 최종적인 적혈구 계통 클러스터의 병합 및 이러한 추정 더블릿 클러스터의 폐기는 38개의 주요 세포 타입을 야기시켰다(도 8A). 다수의 클러스터에 대하여, 고도의 특이적 마커 유전자는 세포 타입 식별을 간단하게 이루었다(도 8B, 도 9B 및 도 9C, 데이터는 미도시됨). 예를 들어, 클러스터 6(상피 세포)은 잘-특징화된 마커 유전자 EpcamTrp63을 특이적으로 발현시켰으며27,28, 클러스터 29(간세포)는 Afp 및 Alb 발현에 의해 특이적으로 마킹되었다12. 고도로 전문화된 세포 타입에 해당하는 것을 포함하는 더 작은 클러스터는 또한 용이하게 주석이 달릴 수 있다. 예를 들어, 클러스터 36은 TyrTrpm1과 같은 망막 발달 동안 고도로 발현된 전사체에 대해 풍부하였으며, 이는 이러한 것이 멜라닌 세포임을 강력하게 시사하는 것이다29,30. 클러스터 37은 오로지 발달하는 렌즈에서 발현된 전사체에 대해 풍부하였다. 배아 중간엽 및 결합 조직에 해당하는 클러스터에 대하여, 세포 타입 식별은 주로, 더 적은 고도의 특정 마커 유전자가 현 문헌에서 이용 가능할 수 있기 때문에, 더욱 문제가 된다.
26,183개의 유전자로부터, 17,789개의 유전자(68%)는 38개의 주요 세포 타입에 걸쳐 다르게 발현되었다(5%의 FDR)(도 9B, 데이터 미제시됨). 이러한 것들 중에서, 본 발명자는 2,863개의 세포 타입-특이적 마커를 식별하였으며, 이 중 대부분은 이전에 개개 세포 타입과 관련된 본 발명의 지식에 대한 것이 아니다(클러스터 당 평균 75개 마커; 도 8B, 도 9C). 이러한 데이터가 유전자 발현의 새로운 발달적으로 및 세포 타입-특이적 마커를 규정하기 위해 어떻게 유용한 지의 예로서, 소닉 헤지호그(Shh)를 고려하는데, 이는 사지, 뇌의 정중선 구조, 시상, 척수, 및 폐를 포함하는 다수의 기관계의 발달 동안 중요할 역할을 하는 것으로 나타났다31. 본 발명자는 발달 동안 척색 및 저부판(floor plate)의 세포에서 모두 발현되는 것으로 공지된 Ntn1, Slit1 Spon1과 함께, 클러스터 30(척색; 데이터 미제시됨)에서 Shh의 가장 높은 발현을 검출한다32-34. 그러나, 척색의 마커로서 이전에 기술된 바 없는 유전자 Tox2, Stxbp6, Schip1, Frmd4b는 또한, 클러스터 30에 대해 매우 특이적이었다.
예상되는 바와 같이, 본 발명자는 기관형성 동안 세포 타입 비율의 큰 변화를 관찰하였다. 38개의 주요 세포 타입 대부분이 기하급수적으로 증식되었지만, 몇 개는 일시적이고 결국 E13.5에서 사라졌다(도 11A 및 도 11B). 예를 들어, 클러스터 26에 의해 나타내는 노른자 자루(yolk sack)로부터 비롯된 원시적 적혈구 계통은 Hbb-bh1 발현에 의해 특징되며, 태아 간으로부터 비롯된 최종적인 적혈구 계통은 클러스터 22에서 Hbb-bs 발현에 의해 마킹되었다(데이터 미제시됨). E9.5에서, 본 발명자는 주로 원시적 적혈구 계통에 해당하는 세포를 검출하였다(도 8A). 다음 5일에 걸쳐, 최종적인 적혈구 계통은 태아 순환에서 우세한 세포 타입이 되었고, 궁극적으로, E13.5에 의해 독점적인 적혈구 계통이 되었다(도 8A). 상응하는 유전자 마커는 유사한 역학을 나타내었다(도 11C).
여기에서 식별된 38개의 주요 세포 타입은 47,073개 세포의 중간값을 가지며, 가장 큰 클러스터는 144,648개 세포(결합 조직 전구세포; 전체 데이터세트의 7.0%)를 함유하며, 가장 작은 클러스터는 단지 1,000개 세포(단핵구/과립구; 전체 데이터세트의 0.05%)를 함유한다. 세포 타입 이질성이 다수의 이러한 38개 클러스터 내에서 자명하였기 때문에, 본 발명자는 서브클러스터를 식별하기 위해 각 주요 세포 타입에 대해 반복하는 Louvain 클러스터링인 반복 전략을 채택하였다(도 12 및 도 13). 하나 또는 두 개의 배아에 의해 지배된 서브클러스터가 제거되고 고도로 유사한 서브클러스터가 병합된 후(방법), 총 655개의 서브클러스터가 식별되었다(여기에서, 38개의 주요 세포 타입과 구별하기 위해 '서브타입'으로 지칭됨; 도 12 및 도 13). 주목할 만한 것 중에는, 본 연구에서 세포 타입 및 서브타입을 검출하기 위한 본 발명의 민감성은 프로파일링된 다수의 세포의 직접적인 기능이었다. 예를 들어, 본 발명자의 데이터(50,000개 세포)의 2.5%에 대한 반복 Louvain 클러스터링은 단지 세포 타입 및 서브타입의 서브세트를 식별하였다(도 14).
655개의 서브타입은 중간값 1,869개의 세포로 이루어지고, 51개 세포(척색 세포의 서브타입) 내지 65,894개 세포(결합 조직 전구 세포의 서브타입)의 범위이다(도 15A).
거의 모든 서브타입(99%)은 다수의 배아의 기여를 포함하며, 단일 배아는 지배적이지 않다(도 15B 및 도 15C). 이러한 서브타입이 관련된 서브타입과 구별되는 진짜 전사 프로그램을 구성한다는 견해를 지지하면서, 본 발명자는 서브타입 당 55개의 특이적 마커의 중간값을 식별하였다(도 15D; 서브타입-특이적 마커가 전체 데이터세트보다 오히려 상응하는 주요 세포 타입 내에서 특이적이기 때문에 규정됨을 주지함). 38개 이상의 주요 세포 타입, 개별 서브타입은 E9.5 내지 E13.5 사이에서 가변 역학을 나타내었다. 대부분의 서브타입(64%)은 추정된 세포 수를 증가시켰으며, 12% 감소되었으며, 24%는 더욱 복잡한 패턴을 나타내었다(도 16A 및 도 16B). 흥미롭게도, 본 발명자는 오로지 각 서브타입에 할당된 세포의 비율을 기초로 한 다양한 발달 단계의 배아를 용이하게 분리할 수 있다(도 16C).
사지 정단 외배엽 융기(AER) 발달 동안 유전자 발현 궤적의 특징분석
세부적인 서브타입 주석 및 탐색으로 달성될 수 있는 예로서, 본 발명자는 상피(클러스터 6) 및 특히, 정단 외배엽 융기(서브클러스터 6.25)에 집중하였다. 서브타입-특이적 마커 유전자를 기초로 하여, 본 발명자는 29개의 상피 서브타입에 주석을 달았다(클러스터 6; 도 17A; 도 18A, 데이터 미제시됨). 예를 들어, 서브타입 6.10에서 상피 세포는 귀소포의 상피에서 배타적으로 발현되는 유전자인 Oc90에 의해 마킹되었으며35, 서브타입 6.25에서 상피 세포는 손발가락 발달에서 수반되는 고도의 특수 상피인 정단 외배엽 융기(AER)에 대해 특이적인, 잘 특징화된 마커 유전자 Fgf8, Msx2, 및 Rspo2의 발현 증가를 나타내었다36. 모든 상피 서브타입에 대해, 본 발명자는 이전에 마커인 것으로 공지되지 않은 유전자를 식별하였다. 예를 들어, AER은 또한, Fndc3a, Adamts3, Slc16a10, Snap91, 및 Pou6f2의 발현에 의해 구별되었다. Fgf8(공지된 마커) 및 Fndc3A(신규한 마커)의 전체-마운트 인시튜 혼성화(WISH)는 두 유전자 모두가 E10.5에서 AER을 나타내는 지아(limb bud)의 가장 원위 첨단에서 발현된다는 것을 확인하였다(도 17B 내지 도 17E).
다음에, 본 발명자는 AER 발현 동안 세포 증식 및 유전자 발현의 역학을 시험하였다. 본 발명자는 총 1,237개 AER 세포를 식별하였는데, 이는 전체 데이터세트의 단지 0.06%를 나타내지만, 거의 모든 배아에 기여하였다(61개 중 45개, 5개 이상의 AER 세포가 프로파일링됨). AER 세포가 모든 시점에 검출되지만, 본 발명자는 E9.5에서 배아 당 세포 집단의 측면에서 이의 피크에 도달하고 종래 보고서37 및 자체의 인시튜 검정 연구와 일치하는, 이후에 감소한다(도 17F)는 것을 관찰하였다(도 17C). 발달 동안 AER 내에 유전자 발현의 역학을 특징분석하기 위하여, 본 발명자는 발달 단계 중 상위 500개의 다르게 발현된 유전자를 기초로 하여 AER 세포의 의사시간적 정렬을 수행하여, 단순한 초기-대-후기 궤적을 산출하였다(도 17G). 710개 단백질-코딩 단백질은 발달 의사시간을 따라 다르게 발현되었다(5%의 FDR)(데이터 미제시됨). 예를 들어, 지아에서 AER-특이적 발현을 나타내는 것으로 공지된 Fgf9는38 Fgf8 및 Fndc3A와 비교하여 지연된 활성화 역학을 나타내었다(도 17H). 상당히 활성화된 유전자는 AER 세포 분화에서 중요한 역할을 할 수 있다. 예를 들어, 활성화된 유전자는 AER의 유지 및 사지 발달에서 성장 및 패턴화를 위해 중요한 것으로39 알려진 Rspo2를 포함한다(도 17H).
본 발명자는 또한, 발현이 E9.5와 E13.5 사이에서 AER 세포 내에서 상당히 감소되는 유전자를 식별하였다(1%의 FDR에서 169개 유전자; 도 19A). 이러한 것은 Ki67(Mki67) 및 인슐린-유사 성장 인자 2(Igf2)를 포함하며, 이러한 둘 모두는 세포 증식을 증진시키는 데 역할을 한다40,41(도 17H). 실제로, 이러한 발달 윈도우 동안 AER에 의한 증식의 중단과 일치하여, 상당히 감소하는 유전자의 경로-수준 분석은 세포 주기 진행 및 글루코스 대사와 관련된 용어뿐만 아니라 다능성(Isl1, Pou5f1, Nanog)과 관련된 전사 인자를 강조한다(도 19B 및 도 19C).
사지 중간엽 발달 동안 세포 운명 궤적의 특징분석
본 발명자는 다음으로, 세포 타입과 서브타입 사이의 전이를 포함하는, 포유류 발달의 이러한 중요한 시기 동안 세포 타입이 통과하는 발달 궤적을 조사하고자 한다. 의사시간적 궤적 재구성을 위한 가장 현대적인 알고리즘에는 2가지 주요 한계가 있다. 첫째로, 이는 세포가 단일 연속 매니폴드 상에 잔류한다고 가정하며, 즉, 세포의 서브세트 사이에 불연속이 존재하지 않는다. 그러나, 가장 초기 배아가 E9.5로부터 유도되기 때문에, 본 발명자의 데이터세트는 적어도 일부 선조 상태에 해당하는 세포를 함유하지 않는다. 둘째로, 이러한 것은 기초 궤적이 분기점이 운명 결정에 해당하는 트리(tree)임을 가정한다. 그러나, 일부 조직은 전사적으로 구별되는 계통, 즉, 하나 또는 수개의 분기 사건에 의해 분리된 궤적의 수렴에 의해 기여된 전사적으로 구별할 수 없는 세포를 함유하는 것으로 알려져 있다.
이러한 한계를 해결하기 위하여, 본 발명은 궤적 내에 분기 및 수렴 둘 모두를 가능하게 하면서 다수의 분리 궤적을 해결하기 위한, Monocle 패키지42에 통합된, 신규한 알고리즘을 개발하였다. Monocle 3은 균일한 매니폴드 근사화 및 투영(Uniform Manifold Approximation and Projection: UMAP)을 이용한 저-차원 공간 인코딩 전사 상태 상에 세포를 투영함으로써 시작한다43. Monocle 3은 이후에, Louvain 클러스터링을 이용하여 서로 유사한 세포의 커뮤니티를 검출하고, 근사 그래프 추상화(AGA) 알고리즘에 통합된 통계학적 검사를 이용하여 인접한 커뮤니티를 통합한다44. 중요하게도, 이러한 절차는 세포의 다수의 분리된 커뮤니티의 유지를 허용한다. Monocle 3에서 최종 단계는 발달 동안 개별 세포가 취할 수 있는 경로를 분석하는 것을 목표로 하며, 이는 각 커뮤니티, 즉, 궤적을 포함하는 세포의 세트 내에 수렴뿐만 아니라 분기의 위치를 정확히 찾아낸다. 본 발명자는 이전에, 단일 세포 RNA-seq 프로파일의 프로젝션 내에서 '주요 그래프'를 임베딩하기 위한 'L1-그래프'로 지칭되는 절차를 기술하였으며, 이에 따라, 모든 세포가 그래프 상에 가까운 일부 포인트이게 하였다45. L1-그래프가 닫힌 루프 및 분기를 갖는 궤적을 학습하였지만, 이는 수백개의 세포를 갖는 데이터세트에서만 수행될 수 있다. 알고리즘이 수천 또는 심지어 수백만개의 세포를 처리하기 위하여, 본 발명자는 2개의 향상을 구현하였다. 첫째로, 본 발명자는 세포 자체보다는 수백개의 데이터의 중심의 데이터에서 실행한다. 둘째로, 본 발명자는 알고리즘의 선형 프로그래밍 절차를 제한하여 AGA 시험에 의해 규정된 nsfl된 궤적 사이에 경계를 고려한다.
본 발명자는 먼저, 이러한 새로운 알고리즘을 단일 주요 세포 타입, 클러스터 25에 적용하고자 하였으며, 이중 26,559 세포는 Hoxd13, Fgf10 및 Lmx1b 발현을 기초로 하여 지아 중간엽으로서 주석을 달고 있다(데이터 미제시됨). Monocle 3으로 이러한 클러스터의 세포의 궤적을 시각화하는 것은 E10.5와 E12.5 사이에서 주요 결과를 갖는, 발달 시간에 걸쳐 사지 중간엽 세포의 극적인 확장을 예시한다(도 20A). 유전자 발현은 임의의 것이지만, 이러한 확장 동안 정적이며, 4,763개 단백질-코딩 유전자의 수준은 현저하게 변한다(1%의 FDR; 데이터 미제시됨). 사지 중간엽 발달의 초기 단계는 Tbx1546, 및 Gpc347과 같은 일부 예상된 유전자에 의해 특징화되며, 후기 단계는 Msx148, Epha449 및 Dach150에 의해 특징화되지만(도 21A), 대부분의 동적으로 발현된 유전자는 신규한 것이다. 사지 중간엽 발달 동안 현저하게 상향조절된 전사 인자는 연골세포 분화(예를 들어, Sox951 및 Yap152), 근육 분화(예를 들어, Tead453), 및 상처 치유 및 사지 재생(예를 들어, Smarcd154)에서 역할을 하는 것을 포함한다(도 21B).
흥미롭게도, 앞다리 및 뒷다리 세포는 감독되지 않은 클러스터링(도 21C) 또는 궤적 분석(도 22A)에 의해 용이하게 분리되지 않았지만, 앞다리에서 Tbx5(2,085 세포, 모든 사지 중간엽 세포의 7.9%) 및 뒷다리에서 Pitx1(1,885 세포, 모든 사지 중간엽 세포의 7.1%)의 서로 배타적인 발현에 의해 구별될 수 있으며, 단지 22개의 세포는 두 마커 모두를 발현시킨다(0.08%의 모든 사지 중간엽 세포 대 약 0.6% 이러한 것이 독립적인 경우에 예상치; 도 20B)55. 285개의 유전자는 이러한 방식으로 앞다리 및 뒷다리에 할당된 세포 간에 다르게 발현되었다(도 20C, 데이터 미제시됨). 공지된 마커 유전자, 예를 들어, Tbx4 및 Hoxc 클러스터의 유전자(Hoxc4-10)56는 예상된 바와 같이 뒷다리 세포에서 상향조절되었지만, 신규한 마커가 또한 식별되었다. 예를 들어, 본 발명자는 Epha3 및 Hs3st3b1이 앞다리에서 5배 더 풍부하고, Pcdh17 및 Igf1이 뒷다리에서 3배 풍부함을 관찰하였다.
발달 시간이 Monocle 3 사지 중간엽 궤적에서 주요한 변동 축이지만(도 20A), 명확하게 추가적인 구조가 존재한다. 이러한 것의 적어도 일부는 사지 발달의 2가지 주요 공간 축에 해당하는 것으로 나타난다: 근위-원위 축(결과의 주요 방향) 및 전방-후방 축(5개의 손발가락에 해당함)55. 예를 들어, Sox6 및 Sox9(근위)57,58, Hoxd13 및 Tfap2b(원위)36, Pax9 및 Alx4(전방), 및 Shh 및 Hand2(후방)는 Monocle 3 궤적에서 상이하게 분포되었다(도 20D; 도 22B). Hoxd13(공지된 원위 마커) 및 Cpa2(Monocle 3 궤적에서의 분포가 공지된 원위 마커의 것과 유사한 신규한 마커)의 전체-마운트 인시튜 혼성화는, 두 유전자 모두가 E10.5와 E13.5 사이에서 원위 사지 중간엽에서 발현됨을 확인하였다(도 20F 및 도 20H). 사지 중간엽 궤적에 공간 자기상관을 검출하기 위한 Moran 시험을 적용하는 것은 1,191개의 상당히 다양한 유전자를 나타내었다(1%의 FDR; Moran의 I > 10). 이러한 유전자는 8개의 발현 패턴으로 클러스터링되며, 이 중 수개는 근위-원위 및 전방-후방 축에 대한 마커의 분포와 매칭한다(도 23, 데이터 미제시됨).
AER 및 사지 중간엽 궤적에 대한 본 발명자의 결과의 조합된 요약은 도 20i에 도시되어 있다. 사지 발달이 비교적 단순한 궤적에 의해 규정되지만, 본 발명자의 분석은 마우스 기관 형성의 이러한 단일 세포 지도가 특정 시스템에서 유전자 발현의 시공간적 역학을 특징분석하기 위해 어떻게 이용될 수 있는 지를 예시한 것이다.
마우스 기관형성의 주요 세포 계통의 묘사 및 특징분석
본 발명자는 다음으로 전체 데이터세트에 대한 주요 발달 계통 및 세포 궤적을 식별하고자 하였다. Monocle 3은 샘플링된 100,000개의 고품질 세포(UMI > 400)를 8개의 잘 분리된 계통으로 조직화하였다(도 24A, 도 25A). 거의 모든 38개의 주요 세포 타입은 거의 오로지 이러한 8개의 그룹 중 하나에 속한다(도 24B). 제외대상은 아마도 이의 낮은 수로 인한, 4개의 가장 작은 클러스터 중 3개, 즉, 단핵구/과립구(36개 세포), 수정체(125개 세포) 및 거핵세포(287개 세포)이다. 2가지의 가장 복합한 구조는 명확하게 모든 중간엽 및 근육 세포 타입을 포함하는 중간엽 궤적(도 24A 및 도 25A의 좌측), 및 척색, 신경관, 전구세포 및 발달 중인 뉴런 및 신경교 세포 타입을 포함하는 신경관/척색 궤적(도 24A 및 도 25A의 우측)이다. 제1 신경관 궤적("신경관 1")은 멜라노사이트 및 슈반 세포 전구체를 포함하지만, 제2 신경관 궤적("신경관 2")은 감각 뉴런을 포함한다. 조혈 궤적은 거핵구, 적혈구, 및 림프구를 포함하며, 나머지 세 개의 궤적(간, 내피, 상피) 각각은 단일의 주요 세포 타입에 해당한다. 이러한 계통 각각에서 배아 당 세포의 추정된 수가 E9.5 내지 E13.5에서 기하급수적으로 증가하지만, 이의 비율은 비교적 안정하게 유지하며, 이러한 발달 윈도우 동안 거의 10배까지 이의 기여를 확장시키는 간세포를 제외된다(E9.5에서 0.3% → E13.5에서 2.8%)(도 25B 및 도 25C).
UMAP는 t-SNE와는 달리, 규정된 영역과 동일한 타입의 세포를 투여하고, 또한, 서로 가까이에 관련된 세포 타입을 배치시킨다. 예를 들어, 초기 중간엽 세포는 규정된 영역으로부터 근세포, 사지 중간엽, 연골세포/골아세포 및 결합 조직 내로 방출시키는 것으로 나타났다(도 24A, 좌측). 유사하게, 글루탐산성 뉴런과 같은 후기 발달 시점에서 발견된 세포 타입은 뉴런 전구 세포에 의해 초기 CNS 전구체(예를 들어, 방사신경아교세포)로부터 분리된다(도 24A, 우측). 다른 한편으로, 불연속성(예를 들어, 8개의 주요 계통 사이)은 E9.5 내지 E13.5에 대한 본 연구의 제한에 대한 결과로, 이러한 그룹 간에 중간 또는 선조 상태의 표현의 부족을 반영할 가능성이 있다.
본 발명자가 반복 서브-클러스터링과 유사한, 상기와 같은 궤적 분석으로 8개의 주요 계통 각각을 별도로 처리할 때, 중간엽 및 신경관/척색 궤적은 상술된 바와 같이 다시 조직화되며(도 26 및 도 27, 상부 열), 다른 주요 계통(상피, 내피, 등)은 다수의 불연속 서브계통을 나타내어, 잠재적으로 서브타입에 대한 상세한 궤적을 나타낸다(도 26 및 도 27, 나머지 열). 예를 들어, 상피 궤적으로 29개의 서브타입으로 주석을 다는 경우에(도 17A), 본 발명자는 수 개의 별개의 서브-궤적을 관찰하며, 이들 각각은 상피 서브타입의 기초 서브세트인 E9.5-유도 세포의 초점 농도로부터 나온다(도 24C, 도 28). 예를 들어, 정단 외배엽 융기의 상피 세포(도 17G)는 다른 상피 서브-궤적으로부터 잘 분리된 E9.5 내지 E13.5 세포의 선형 서브-궤적을 형성한다(도 24C, 하부 중심).
골격근 발생 동안 세포 궤적의 재구조화
고려 가능한 추가 작업은 도 24에 나타낸 궤적, 특히, 더욱 복잡한 궤적을 포함하는 세포 타입과 서브타입 간의 관계를 완전히 설명하기 위해 필요하다. 가능할 수 있는 예시적인 예로서, 본 발명자는 기관형성의 개시 전에 형성하는 별도의 중배엽 계통을 포함하는, 발달 중인 근육 조직을 더욱 세밀히 시험하고자 한다. 예를 들어, 외안근은 척삭전 중배엽에 의해 기여되며, 얼굴 및 턱의 다른 부분은 인두 중배엽에 의해 발생된다. 골격근 발생은 업스트림 유전자59의 별도의 세트에 의해 활성화되는 근원성 조절 인자(MRF)의 코어 세트에 의해 유도된다. 예를 들어, Pax3은 몸통 근육에서 Myod1을 활성화시키며, 두부에서, Pax3은 불필요하며, MRF는 Pitx2 및 Tbx160-62에 의해 활성화된다. Myod1 또는 Myf5는 또한, 미오게닌을 활성화시키는데, 이는 수축성 골격근에 의해 요구된 여러 유전자의 발현을 유도한다. 본 발명자는, 근육성 궤적이, 전체 배아의 스케일에서 볼 때, 근관에 의해 공유되는 코어 유전자 발현 프로그램의 활성화에 해당하는 공통 경로로 세포를 공급하는 다수의 진입점을 특징으로 할 것이라고 가설을 세웠다.
이러한 가설을 시험하기 위하여, 본 발명자는 먼저 근세포(클러스터 13)로서 분류된 각 주요 그래프 노드에서 세포의 분율을 정량화함으로써 근세포 및 중간엽 궤적으로부터의 이의 추정 "선조" 세포를 단리하였다. 본 발명자는 모든 '주요 근세포' 노드를 수집하고, 이후에, 이러한 노드 세트를 더 넓은 세포의 "이웃"으로 확장하기 위해 주요 그래프의 에지를 사용하였다(도 29A). 다음으로, 본 발명자는 근생성-특이적 궤적을 구조화하기 위해 이러한 세포의 서브세트에 대해 Monocle 3을 재실행하였다. E9.5로부터의 세포의 다수의 초점 농도를 특징으로 하고, 골격 근육 선조체를 마킹하는, 외측으로 방사되는 수 개의 경로를 통해 분포된 후기 단계로부터의 세포(도 29B), Pax3 및 Pax7을 갖는 이러한 궤적은 주요 그래프의 넓은 범위에 걸쳐 분포된 세포에서 발현되었다(도 29C). 2개의 평행한 선형 세그먼트는 그래프의 이러한 영역에서 나오며, 여기서, 세포는 Myf5 또는 Myod를 발현시켰다. 두 경로 모두는 각각 근세포 및 근관의 마커인 Myog 또는 Myh3을 발현시키는 세포에 의해 점유되는 공통 영역 내에 공급된다. Lhx2, Tbx1, 및 Pitx2를 발현시키지만, 매우 낮은 수준의 Pax3을 발현시키는, E9.5로부터의 세포에 의해 통과된 추가적인 경로는 아마도 인두 중배엽에 해당하는, Myf5 및 Myod1 세그먼트의 단지 업스트림의 궤적 내로 공급한다. 이에 따라, 궤적에 대한 MRF 및 이의 업스트림 활성제의 역학은 상이한 중배엽 계통이 근육 유전자의 코어 프로그램에 수렴하기 위해 별개의 인자를 사용한다는 견해와 일치하였다(도 29D).
논의
본 연구에서, 본 발명자는 전통적인 기관형성에 해당하는 윈도우에 초점을 둔, 전체 마우스 배아의 스케일에서 단일 세포의 전사체를 프로파일링함으로써 포유류 발달을 특징분석하고자 하였다. sci-RNA-seq3으로의 단일 실험에서 61개의 개별 배아로부터 2,000,000개 이상의 세포를 프로파일링함으로써, 본 발명자는 또한, 전례 없는 처리량으로 단일 세포 RNA-seq 데이터세트를 생성시키기 위해 작은 실험실을 위한 기술적 프레임워크를 제공한다. 발달 궤적에서 분기, 수렴 및 불연속을 해결하기 위하여, 본 발명자는 수백만개의 세포로 스케일링하는 궤적 추론을 위한 신규한 알고리즘인, Monocle 3을 제시한다.
임신 중기 마우스 배아에서, 본 발명자는 38개의 주요 세포 타입 및 600개 이상의 서브타입을 식별한다. 이러한 타입 및 서브타입 각각은 마커 유전자의 세트의 발현에 의해 특징분석되며, 이들 중 대부분은 신규하며, 이들의 예시적인 예는 전체 마운트 인시튜 혼성화에 의해 검증한다. 희귀 세포 타입을 특징분석하기 위해 딥 샷건 세포 커버리지의 유용성의 예시로서, 본 발명자는 손발가락 발달에서 중요한 역할을 가지지만 여기에서 세포의 단지 0.06%가 프로파일링된 특수 상피인, 정단 외배엽 융기(AER)에서의 마커 및 역동적으로 발현된 유전자를 강조한다. 38개의 주요 세포 타입은 중간엽, 신경관/척색, 조혈, 간, 내피, 상피, 및 2개의 신경관 궤적을 포함하는, 8개의 궤적으로 넓게 분해한다. 이러한 8개의 궤적 간의 불연속성은 E9.5에서 개시하는, 데이터세트에서 선조 또는 중간 상태의 표현의 부족의 결과일 수 있다. 사지 중간엽의 궤적 분석은 시간적 및 다수의 공간 축 둘 모두에 해당하는 발달 이질성의 상관관계를 나타내었다. 근세포 미 이의 전구세포에 해당하는 중간엽 궤적의 서브세트에 초점을 맞추면, 본 발명자는 근관에 해당하는 공통 종결점 내에 공급하는 다수의 서브-궤적을 식별한다. 발현 프로그램의 이러한 '수렴'의 예는 발달 궤적 추론을 위한 대부분의 알고리즘에 의해 가정된 분기 구조와는 대조적이다.
본 발명자의 연구는 고려되어야 하는 몇 가지 한계를 갖는다. 첫째로, 다른 단일 세포 지도와 마찬가지로, 개별 세포 전사체 데이터는 드물다. 그러나, 이전 연구에서는, 전사 프로그램이 놀랍게도 얕은 시퀀싱 깊이에서 단일 세포 전사체 데이터세트 내에서 용이하게 구별될 수 있다는 것을 나타내었다63. 세포당 671 UMI의 중간값을 갖는 655개의 전사적으로 별도의 서브타입을 규정할 수 있는 것은 이러한 견해와 일치하며, 각 세포 타입 또는 서브타입과 전사체의 집계는 예시적인 발현 프로파일을 구조화할 수 있다. 둘째로, 본 발명자가 여기에서 이루어진 대부분의 세포 타입 할당에 대해 적절하게 확신을 갖지만, 이는 그럼에도 불구하고, 예비로서 간주되어야 한다. 주요 과제는, 임신 중기 마우스 발달(E9.5-E13.5)이 단일 세포 해상도에서, 또는 전체 유기체 스케일에서 이전에 연구되지 않았다는 것이다. 기존의 단일 세포 전사 지도는 성체 마우스 또는 후기 배아 단계의 개별 기관을 프로파일링하였다12,13. 본 발명자가 현재까지 상당히 진척되었지만, 이러한 655개의 세포 서브타이의 포괄적인 주석은 진행 중인 프로젝트이며, 본 발명자가 인식하는 것은 안정한 합의에 도달하기 위해 커뮤니티 입력 및 분야 전문성으로부터 유익할 것이다. 이를 위하여, 본 발명자는 본 발명자 및 커뮤니티에 의해 이의 주석을 용이하게 하기 위해 wiki를 만들었다(월드-와이드 웹, atlas.gs.washington.edu/mouse-rna/에서 입수 가능함). 각 서브타입의 독특한 페이지는 이를 포함하는 세포의 다운로딩 가능한 매트릭스, 그러한 서브타입에 대해 특이적인 마커 유전자의 리스트, 및 여기에서 시험된 발달 윈도우에 대한 그러한 서브타입의 역학의 설명을 포함한다.
아마도 마침내 기술적 관점 내에서 본 분야의 오랜 목표는 단일 세포 해상도에서 포유류 발달의 포괄적이고 시공간적으로 분석된 분자 지도를 생성하는 것이다. 이를 위하여, 마우스에 중점을 두는 것은 이의 작은 크기, 초기 발달 시점의 접근성, 근친 유전자 백그라운드, 및 유전자 조작성을 포함하는, 몇 가지 장점을 갖는다. 개별 마우스 배아의 실질적인 백분율의 세포 함량에 상응하는 다수의 세포를 프로파일링함으로써(단계 당 3 내지 80% '샷건 세포 커버리지'), 이러한 데이터는 발달 생물학 분야에 대한 강력한 재원을 구성하고, 또한, 세포 타입 또는 발달 궤적을 해결하고 해석하기 위한 계산 방법의 개발을 더욱 발전시키는데 도움을 줄 수 있다. 앞으로, 보 발명자는 전사체, 추가적인 분자 표현형64, 계통 이력65 및 공간 정보의 통합 측정이 포유류 발달의 전체적인 관점을 추가로 형성할 것으로 예상한다.
본 발명자는 야생형 마우스의 발달의 단일 세포 지도가 유기체 스케일에서 다발성 발달 장애를 이해하는 것의 첫번째 단계, 뿐만 아니라, 발달 중에 유전 및 조절 서열에 대한 미묘한 역할의 상세한 조사를 나타낸다는 점에서 주목한다. 예를 들어, 마우스에서 약 35%의 유전자 녹아웃이 치명적이지만5, 여러 녹아웃, 및 특히, 보존된 조절 서열의 것은 통상적인 표현형에 임의의 이상을 나타내지 않는다66. 본 발명자는, 유기체-스케일 sc-RNA-seq가 역 유전학을 강화하여, 예를 들어, 분자 프로그램에서 미묘한 결함 또는 특정 세포 타입의 상대적 비율을 갖는 이전에 결여된 표현형의 발견을 잠재적으로 가능하게 할 것으로 예상한다67.
방법
배아 절개
C57BL/6 마우스를 The Jackson Laboratory(Bar Harbor, ME)로부터 획득되었으며, 플러그 메이팅이 셋업되었다. 플러깅 일자는 배아 일(E) 0.5로서 간주되었다. 절개는 이전에 기술된 바와 같이 수행되었으며69, 모든 배아는 액체 질소에서 즉시 스냅 냉동되었다. 모든 동물 절차는 기관, 주, 및 정부 규정(IACUC 프로토콜 4378-01)에 따랐다.
전체-마운트 인시튜 혼성화
E9.5-E11.5 마우스 배아에서 mRNA 발현은 클로닝된 유전자 특이적 프로브(PCR DIG Probe Synthesis Kit, Roche)로부터 전사된 디곡시게닌-표지화된 안티센스 리보프로브를 이용하여 전체 마운트 인시튜 혼성화(WISH)에 의해 평가되었다. 전체 배아는 밤새 4% PFA/PBS 중에서 고정되었다, 배아는 PBST(0.1% Tween) 중에서 세척되고, 25%, 50% 및 75% 메탄올/PBST에서 단계별로 탈수화되고, 마지막으로, -20℃에서 100% 메탄올 중에 저장되었다. WISH 프로토콜은 하기와 같다: 1일) 배아는 역 메탄올/PBST 단계에서 얼음 상에서 재수화되고, PBST 중에서 세척되고, 1시간 동안 6% H2O2/PBST 중에서 표백되고, PBST 중에서 세척되었다. 배아는 이후에, 3분 동안 10 ㎍/㎖ 프로테이나제 K/PBST 중에서 처리되고, 글리신/PBST 중에서 인큐베이션되고, PBST에서 세척되고, 마지막으로, 20분 동안 4% PFA/PBS, 0.2% 글루타르알데하이드 및 0.1% Tween 20으로 재-고정되었다. PBST로의 추가 세척 단계 후에, 배아는 68℃에서 10분 동안 L1 완충제(50% 탈이온화된 포름아마이드, 5x SSC, 1% SDS, DEPC 중 0.1% Tween 20; pH 4.5)와 함께 인큐베이션되었다. 다음으로, 배아는 68℃에서 2시간 동안 혼성화 완충제 1(0.1% tRNA 및 0.05% 헤파린을 갖는 L1) 중에서 인큐베이션되었다. 이후에, 배아는 68℃에서 혼성화 완충제 2(0.1% tRNA 및 0.05% 헤파린을 갖는 혼성화 완충제 1 및 1:500 DIG 프로브) 중에서 인큐베이션되었다. 2일) 결합되지 않은 프로브의 제거는 각각 68℃에서 3x30분 동안 L1, L2(50% 탈이온화된 포름아마이드, 2x SSC pH 4.5, DEPC 중 0.1% Tween 20; pH 4.5) 및 L3(2x SSC pH 4.5, DEPC 중 0.1% Tween 20; pH 4.5)으로의 일련의 세척 단계를 통해 수행되었다. 후속하여, 배아는 1시간 동안 RNase 용액(H2O 중 0.1M NaCl, 0.01M Tris pH 7.5, 0.2% Tween 20, 100 ㎍/㎖ RNase A)로 처리하고, 이후에, TBST 1(140mM NaCl, 2.7mM KCl, 25mM Tris-HCl, 1% Tween 20; pH 7.5)로 세척되었다. 다음으로, 배아는 RT에서 2시간 동안 차단 용액(2% 송아지-혈청 및 0.2% BSA를 갖는 TBST 1)에서 차단되고, 이후에, 4℃에서 하룻밤 1:5000 항-디곡시게닌-AP를 함유한 차단 용액 중에서 인큐베이션되었다. 3일) 결합되지 않은 항체의 제거는 RT에서 8x 30분에 (0.1% Tween 20, 및 0.05% 레바미솔/테트라미솔을 갖는 TBST)로의 일련의 세척 단계를 통해서 수행되고, 4℃에서 하룻밤 정치시켰다. 4일) 배아의 염색은 RT에서 알칼리성 포스페이트 완충제(H2O 중 0.02M NaCl, 0.05M MgCl2, 0.1% Tween 20, 0.1M Tris-HCl, 및 H2O 중 0.05% 레바미솔/테트라미솔)로 3x 20분 동안 세척하고 이후에, BM Purple AP 기질(Roche)로 염색함으로써 개시되었다. 염색된 배아는 Zeiss Discovery V.12 현미경 및 Leica DFC420 디지털 카메라를 이용하여 이미징되었다.
포유류 세포 배양
모든 포유류 세포를 5% CO2와 함께 37℃에서 배양하고, 둘 모두가 10% FBS 및 1X Pen/Strep(Gibco 카탈로그 번호 15140122; 100U/㎖ 페니실린, 100 ㎍/㎖ 스트렙토마이신)이 보충된, HEK293T 및 NIH/3T3 세포에 대해 고 글루코스 DMEM(Gibco 카탈로그 번호 11965)에서 유지시켰다. 세포를 0.25 트립신-EDTA(Gibco 카탈로그 번호 25200-056)으로 트립신화하고, 1주일 동안 3회 1:10 분할하였다.
마우스 배아 핵 추출 및 고정
상이한 발달 단계로부터의 마우스 배아는 함께 처리되어 배치 효과를 감소시켰다. 각 마우스 배아는 1㎖ 얼음-냉각 세포 용해 완충제(10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2 및 0.1% IGEPAL CA-63070, 또한 1% SUPERase In 및 1% BSA를 포함하도록 변형됨)에서 블레이드에 의해 작은 조각으로 갈고, 40 um 세포 여과기(Falcon)의 상부로 옮겨졌다. 조직은 4㎖ 세포 용액 완충제 중에서 시린지 플런지(5㎖, BD)의 고무 첨단으로 균질화되었다. 여과된 핵은 이후에, 새로운 15㎖ 튜브(Falcon)으로 옮겨지고, 5분 동안 500×g에서의 원심분리에 의해 펠릿화되고, 1㎖ 세포 용해 완충제로 1회 세척되었다. 핵은 얼음 상에서 15분 동안 4㎖ 얼음 냉각 4% 파라폼알데하이드(EMS)에서 고정되었다. 고정 후에, 핵은 1㎖ 핵 세척 완충제(IGEPAL 없는 세포 용해 완충제) 중에서 2회 세척되고, 500 ul 핵 세척 완충제 중에서 재현탁되었다. 샘플은 각 튜브에서 250 ul씩 2개의 튜브로 분할되고, 액체 질소에서 급속 냉동되었다.
품질 관리로서, HEK293T 및 NIH/3T3 세포는 트립신화되고, 300×g에서 5분 동안(4℃) 회전되고, 1X PBS 중에서 1회 세척되었다. 동일한 세포 수의 HEK293T 및 NIH/3T3 세포가 조합되고, 1㎖ 얼음-냉각 세포 용해 완충제를 사용하여 용해되고, 이후에, 마우스 배아와 동일한 고정 및 저장 조건에서 처리되었다.
sci-RNA-seq3 라이브러리 제조 및 시퀀싱
해동된 핵은 얼음 상에서 3분 동안 0.2% tritonX-100(핵 세척 완충제 중)으로 침투되고, 간단하게 초음파처리되어(Diagenode, 저출력 모드에서 12초) 핵 클럼핑을 감소시켰다. 핵은 이후에, 핵 세척 완충제로 1회 세척되고, 1㎖ Flowmi 세포 염색기(Flowmi)를 통해 필터링되었다. 여과된 핵은 5분 동안 500×g에서 회전되고, 핵 세척 완충제에서 재현탁되었다.
각 마우스 배아로부터의 핵은 이후에, 4개의 96-웰 플레이트에서 수 개의 개별 웰 내에 분포되었다. 웰 뚜껑과 마우스 배아 간의 연결은 다운스트림 데이터 처리를 위해 기록되었다. 각 웰에 대하여, 80,000개 핵(16㎕)은 8㎕의 25μM 고정 올리고-dT 프라이머(5'-/5Phos/CAGAGCNNNNNNNN[10bp 바코드]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3'(서열번호 1), 여기서, "N"은 임의의 염기임; IDT) 및 2㎕ 10mM dNTP 혼합물(Thermo)과 혼합되었으며, 55℃에서 5분 동안 변성되었고, 즉시 얼음 위에 배치되었다. 8㎕ 5X Superscript IV 제1-가닥 완충제(Invitrogen), 2㎕ 100mM DTT(Invitrogen), 2㎕ SuperScript IV 역전사 효소(200 U/㎕, Invitrogen), 2㎕ RNaseOUT 재조합 리보뉴클레아제 억제제(Invitrogen)를 함유한, 14㎕의 제1-가닥 반응 혼합물이 이후에, 각 웰에 첨가되었다. 역전사는 구배 온도(4℃ 2분, 10℃ 2분, 20℃ 2분, 30℃ 2분, 40℃ 2분, 50℃ 2분 및 55℃ 10분)에 의해 플레이트를 인큐베이션함으로써 수행되었다.
RT 반응 후에, 60㎕ 핵 희석 완충제(10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2 및 1% BSA)는 각 웰 내에 첨가되었다. 모든 웰로부터의 핵은 함께 풀링되고, 10분 동안 500×g로 회전되었다. 핵은 이후에, 핵 세척 완충제에 재현탁되고, 각 웰이 4㎕ T4 결찰 완충제(NEB), 2㎕ T4 DNA 리가제(NEB), 4㎕ 베타인 용액(5M, Sigma-Aldrich), 6㎕ 핵 세척 완충제 중 핵, 8㎕ 바코딩된 결찰 어댑터(100uM, 5'- GCTCTG[9bp 또는 10bp 바코드 A]/ideoxyU/ACGACGCTCTTCCGATCT[바코드 A의 역 보체]-3')(서열번호 2) 및 16㎕ 40% PEG 8000(Sigma-Aldrich)을 포함한, 다른 4개의 96-웰 플레이트 내에 재분포되었다. 결찰 반응은 16℃에서 3시간 동안 수행되었다.
RT 반응 후에, 60㎕ 핵 희석 완충제(10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2 및 1% BSA)는 각 웰 내에 첨가되었다. 모든 웰로부터의 핵은 함께 풀링되고 10분 동안 600×g으로 회전되었다. 핵은 핵 세척 완충제로 1회 세척되고, 1㎖ Flowmi 세포 염색제(Flowmi)로 2회 필터링되고, 카운팅되고, 각 웰이 5㎕ 핵 세척 완충제 및 5㎕ 용리 완충제(Qiagen) 중 2,500개 핵을 포함한 8개의 96-웰 플레이트 내에 재분포되었다. 1.33㎕ mRNA 제2 가닥 합성 완충제(NEB) 및 0.66㎕ mRNA 제2 가닥 합성 효소(NEB)는 이후에, 각 웰에 첨가되었으며, 제2 가닥 합성은 16℃에서 180분 동안 수행되었다.
태그화를 위하여, 각 웰은 11㎕ Nextera TD 완충제(Illumina) 및 1㎕ i7 온리 TDE1 효소(i7 only TDE1 enyzme)(62.5nM, Illumina)와 혼합되고, 이후에, 55℃에서 5분 동안 인큐베이션되어 태그화를 수행하였다. 반응은 이후에, 웰 당 24㎕ DNA 결합 완충제(Zymo)를 첨가하고 실온에서 5분 동안 인큐베이션함으로써 중지되었다. 각 웰은 이후에, 1.5x AMPure XP 비드(Beckman Coulter)를 사용하여 정제되었다. 용리 단계에서, 각 웰은 8㎕ 뉴클레아제 부재 수, 1㎕ 10X USER 완충제(NEB), 1㎕ USER 효소(NEB)로 첨가되고, 37℃에서 15분 동안 인큐베이션되었다. 다른 6.5㎕ 용리 완충제는 각 웰 내에 첨가되었다. AMPure XP 비드는 자석 스탠드에 의해 제거되었으며, 용리 생성물은 새로운 96-웰 플레이트 내로 옮겼다.
PCR 증폭을 위하여, 각 웰(16㎕ 생성물)은 2㎕의 10μM 인덱싱된 P5 프라이머(5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'; IDT)(서열번호 3), 2㎕의 10μM P7 프라이머(5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3', IDT)(서열번호 4), 및 20㎕ NEBNext High-Fidelity 2X PCR Master Mix(NEB)과 혼합되었다. 증폭은 하기 프로그램을 이용하여 수행되었다: 72℃에서 5분, 98℃에서 30초, 12 내지 14의 사이클(98℃에서 10초, 66℃에서 30초, 72℃에서 1분), 및 최종 72℃에서 5분.
PCR 후에, 샘플은 풀링되고, 0.8 부피의 AMPure XP 비드를 사용하여 정제되었다. 라이브러리 농도는 Qubit(Invitrogen)에 의해 결정되었으며, 라이브러리는 6% TBE-PAGE 겔 상에서의 전기영동에 의해 시각화되었다. 모든 라이브러리는 하나의 NovaSeq 플랫폼(Illumina)(리드 1: 34 사이클, 리드 2: 52 사이클, 인덱스 1: 10 사이클, 인덱스 2: 10 사이클) 상에서 시퀀싱되었다.
시퀀싱 리드 처리
염기 콜은 Illumina의 bcl2fastq를 사용하여 fastq 포맷으로 전환되고, 디폴트 셋팅을 갖는 최대 가능성 탈멀티플렉싱 패키지 deML71을 사용하여 PCR i5 및 i7 바코드를 기초로 하여 탈멀티플랙싱되었다. 다운스트림 서열 처리 및 단일 세포 디지털 발현 기질 생성은 RT 인덱스가 헤어핀 어댑터 인덱스와 조합된 것을 제외하고 sci-RNA-seq19와 유사하였으며, 이에 따라, 맵핑된 리드는 RT 인덱스 및 결찰 인덱스 둘 모두를 사용하여 리드를 탈멀티플렉싱함으로써 구성성분 세포 인덱스로 분할되었다(ED < 2, 삽입 및 결실을 포함함). 간단하게, 탈멀티플렉싱된 리드는 RT 인덱스 및 결찰 인덱스를 기초로 하여 필터링되고(ED < 2, 삽입 및 결실을 포함함), 디폴트 셋팅을 갖는 trim_galore/0.4.1을 이용하여 어댑터 클립핑되었다. 트리밍된 리드는 디폴트 셋팅 및 유전자 주석(인간에 대해 GENCODE V19; 마우스에 대해 GENCODE VM11)을 갖는 STAR/v 2.5.2b72를 이용하여 마우스 배아 핵에 대하여 마우스 기준 게놈(mm10), 또는 HEK293T 및 NIH/3T3 혼합된 핵에 대하여 인간 hg19 및 마우스 mm10의 키메라 기준 게놈에 맵핑되었다. 독특하게 맵핑된 리드는 추출되었으며, 복제물은 독특한 분자 식별자(UMI) 서열, 역전사(RT) 인덱스, 헤어핀 결찰 어댑터 인덱스 및 리드 2 단부-코디네이트(즉, 동일한 UMI, RT 인덱스, 결찰 어댑터 인덱스 및 태그화 부위를 갖는 리드는 복제물로 여겨짐)를 사용하여 제거되었다. 마지막으로, 맵핑된 리드는 RT 인덱스 및 결찰 헤어핀을 사용하여 리드를 추가로 탈멀티플렉싱함으로써 구성요소 세포 인덱스로 분할되었다(ED < 2, 삽입 및 결실을 포함함). 혼합된 종 실험을 위하여, 각 종의 게놈에 대한 독특하게 맵핑된 리드의 백분율이 계산되었다. 하나의 종에 할당된 UMI의 85% 이상을 갖는 세포는 종-특이적 세포로서 간조되었으며, 나머지 세포는 혼합된 세포 또는 "충돌"로서 분류된다. 디지털 발현 매트릭스를 생성하기 위해, 본 발명자는 python HTseq 패키지73로 각 유전자의 엑손 및 인트론 영역에 대한 각 세포 맵핑을 위하여 가닥-특이적 UMI를 계산하였다. 다중-맵핑된 리드에 대하여, 리드는 다른 교차된 유전자가 가장 가까운 유전자의 단부에 100 bp 내에 포함되는 경우를 제외하고 가장 가까운 유전자에 할당되었으며, 이러한 경우에, 리드는 폐기되었다. 대부분의 분석을 위하여, 본 발명자는 퍼-겐(per-gene) 단일 세포 발현 매트릭스에서 예상된 가닥 인트론 및 엑손 UMI 둘 모두를 포함하였다.
전체 마우스 배아 분석
단일 세포 유전자 카운트 매트릭스가 생성된 후에, 각 세포는 RT 바코드를 기초로 하여 이의 본래 마우스 배아에 할당되었다. 각 배아에 맵핑되는 리드는 응집되어 각 배아를 위한 "벌크 RNA-seq"를 생성하였다. 배아의 성 분리를 위하여, 본 발명자는 암컷 특이적 비-코딩 RNA(Xist) 또는 chr Y 유전자에 맵핑되는 리드를 카운팅하였다(chr X 및 chr Y 둘 모두에 있는 유전자 Erdr1은 제외함). 배아는 암컷 집단(chr Y 유전자 보다 Xist에 더 많은 리드가 맵핑됨) 및 수컷 그룹(Xist보다 chr Y 유전자에 더 많은 리드가 맵핑됨)으로 용이하게 분리되었다.
전체 마우스 배아의 의사시간 정렬은 Monocle 274에 의해 수행되었다. 간단하게, 응집된 유전자 발현 기질은 상기에 기술된 바와 같이 구조화되었다. 상이한 발달 조건에 걸쳐 상이하게 발현된 유전자는 Monocle 274의 differentialGeneTest 함수로 식별되었다. 최저 q 값을 갖는 상부 2,000개 유전자는 Monocle 274를 이용하여 의사시간 궤적을 구조화하기 위해 사용되었다. 각 배아는 궤적 트리를 따라 이의 위치를 기초로 하여 의사-시간 값이 할당되었다.
세포 클러스터링, t-SNE 시각화 및 마커 유전자 식별
디지털 유전자 발현 기질을 상술된 바와 같은 미가공 시퀀싱 데이터로부터 작제하였다. 200 미만의 UMI를 갖는 세포를 폐기하였다. 다운스트림 분석을 Monocle274 및 python package scanpy75로 수행하였다. 간단하게, 클러스터링 및 치수 감소 전에 성염색체에 대한 유전자 카운트 맵핑을 제거하였다. 사전가공 단계는 scanpy75에서 "zheng17 recipe" 함수(n_top_genes = 2,000)에 의해 Zheng et al22에 의해 사용된 방법과 유사하다. 데이터의 치수를 먼저 PCA(30 성분)에 의해 감소되고, 이후에, t-SNE로 감소되고, 이후에, 30개의 주요 구성성분에 대해 수행된 Louvain 클러스터링으로 처리되었다(해상도=1.5). 40개의 클러스터가 식별되었다. 본 발명자는 이후에, 각 클러스터로부터 1,000개의 샘플을 샘플링하였고, 상이한 클러스터에 대해 상이하게 발현된 유전자는 Monocle 274의 differentialGeneTest 함수로 식별되었다. 각 클러스터에 대해 특이적인 유전자는 사전에 유사하게 식별되었다76. 클러스터는 클러스터 특이적 마커를 기초로 한 공지된 세포 타입에 할당되었다(표 1). 하나의 클러스터는 비정상적으로 높은 UMI 카운트를 가지지만, 강력하게 클러스터-특이적 유전자를 가지지 않는데, 이는 세포 더블릿의 기술적 인공물일 수 있고, 이에 따라 제거됨을 시사한다. 다른 2개의 클러스터 모두는 최종적인 적혈구 계통에 상응하는 것으로 나타나고, 병합된다. 각 세포 타입에 대한 합의 컨센서스 발현 프로파일은 76에서와 같이 구조화되었다. 세포 타입 특이적 유전자 마커를 식별하기 위해, 본 발명자는 상이한 세포 타입에 걸쳐 상이하게 발현되고(5%의 FDR, 우도비 시험) 제2 최대 발현을 갖는 다른 세포 타입과 비교하여 적어도 2배 증가를 갖는 각 세포 타입에서의 최대 발현을 갖는 유전자를 선택하였다.
Figure 112022045449509-pat00001
Figure 112022045449509-pat00002
Figure 112022045449509-pat00003
서브 클러스터 식별을 위하여, 본 발명자는 각 주요 세포 타입에서 고품질 세포(UMI > 400)를 선택하였고, 일반 클러스터 분석과 유사하게 PCA, t-SNE, Louvain 클러스터링을 적용하였다. 고도로 바이어싱된 서브클러스터는 클러스터의 대부분 세포(> 50%)가 단일 배아로부터인 경우에 필터링되었다. 매우 유사한 서브클러스터는 이의 집계된 전사체가 매우 관련성이 있는 경우에 합병되며(피어슨 상관계수 > 0.95), 2개의 클러스터는 t-SNE 공간에서 서로 가까이 있다. 서브 클러스터에 대한 상이하게 발현된 유전자는 상술된 바와 같은 각 주요 세포 타입에 대해 식별되었다.
각 세포 타입(또는 서브 세포 타입)의 세포 수 추정을 위하여, 본 발명자는 먼저 개별 배아에서 각 세포 타입의 비율을 계산하고, 이후에, 이러한 비율에 각 배아에 대한 추정된 총 세포 수를 곱하였다(E9.5: 200,000, E10.5: 1,100,000; E11.5: 2,600,000; E12.5: 6,100,000; E13.5: 13,000,000).
성 특이적 세포 타입(또는 서브 세포 타입)을 식별하기 위해, 본 발명자는 먼저 5개의 발달 단계에 걸쳐 수컷 및 암컷에 대한 각 세포 타입(서브 세포 타입)에서 세포 수를 계산하였다. 수컷과 암컷 간의 세포 타입 특이적 비율은 각 발달 단계에서 수컷과 암컷 간의 전체 세포수 비율과 비교되었다. 본 발명자는 이후에, 각 세포 타입에서 수컷과 암컷 아이의 유의미한 차이를 갖는 세포 타입 또는 서브 세포 타입을 식별하기 위해 R에서 이항 시험을 적용하였다(x 및 n은 각 발달 단계로부터의 각 세포 타입에서 암컷 세포 및 전체 세포의 수이며, p는 각 발달 단계에서 암컷 세포 비율임). p-값은 R에서 p.조정 함수를 갖는 Benjamini & Hochberg 방법에 의해 조정된 q-값으로 전환된다.
AER 및 사지 중간엽 의사-시간 분석
AER 세포, 앞다리 또는 뒷다리의 의사시간 정렬은 Monocle 274에 의해 수행되었다. 간단하게, 5개의 발달 단계를 걸쳐 상이하게 발현된 유전자는 Monocle 274의 differentialGeneTest 함수로 식별되었다. 최저 q 값을 갖는 상부 500개 유전자는 트리 구조에서 공변량으로서 세포당 UMI 카운트를 갖는, Monocle 274를 이용하여 의사시간 궤적을 구성하기 위해 이용되었다. 각 세포에 궤적 트리를 따라 이의 위치를 기초로 하여 의사시간 값을 할당하였다. 의사시간에 따른 평활 유전자 마커 발현 변화는 Monocle 274에서 plot_genes_in_pseudotim 함수에 의해 생성되었다. 궤적에서 세포는 77과 동일한 방법으로 그룹화되었다. 간단하게, 세포는 먼저 의사시간 축을 따라 k-수단 클러스터링(k = 10)에 의해 의사시간에서 유사한 위치에서 그룹화되었다. 이러한 클러스터는 적어도 50 및 100개 이하의 세포를 함유한 그룹으로 세분화되었다. 본 발명자는 이후에, 각 그룹 내에서 세포의 전사체 프로파일을 집계하였다. 의사시간을 따른 유전자 발현은 77과 동일한 방법으로 계산되었다. 간단하게, 상이한 처리 조건에 걸쳐 유의미한 시험을 통과한 유전자(5%의 FDR)가 선택되었으며, 천연 스플라인은 의사시간을 따라 유전자 발현을 피팅하기 위해 이용되었으며, mean_number_genes는 공변량을 포함하였다. 각 유전자에 대한 유전자 발현은 최저 발현으로 차감되었고, 이후에, 최고 발현에 의해 나누어졌다. 의사시간의 초기 20% 내에 최대 발현을 갖는 유전자는 활성화된 유전자로서 표지화되었다. 의사시간의 마지막 20%에서 최대 발현을 갖는 유전자는 억제된 유전자로서 표지화되었다. 다른 유전자는 일과성 유전자로서 표지화되었다. 농축된 reactome 항(Reactome_2016) 및 전사 인자(ChEA_2016)는 EnrichR 패키지78를 이용하여 식별되었다.
Monocle 3으로의 궤적 추론
Monocle 3 작업흐름은 세포를 잠재적으로 불연속 궤적으로 구성하는 3개의 코어 단계로 이루어지며, 이후에, 그러한 궤적에 따라 발현이 달라지는 유전자를 발견하기 위해 선택적인 통계학적 시험을 수행하였다. Monocle 3은 또한, 3차원으로 궤적으로 탐구하는데 도움을 주는 시각화 툴을 포함한다.
균일한 매니폴드 근사화 및 투영(UMAP)으로의 치수 감소
Monocle 3은 데이터를 저차원 공간으로 투영하며, 이는 전사체 상태 간에 세포가 어떻게 전이하는 지를 기술하는 주요 그래프를 용이하게 학습한다. Monocle 3은 UMAP와 마찬가지로, 치수 감소 및 데이터 시각화를 수행하기 위해 Riemannian 기하학 및 대수 토폴로지를 기초로 한 최근에 제안된 알고리즘을 수행한다79. 이의 시각화 품질은 단일 세포 전사체학에서 널리 사용되는 대중적인 t-SNE(t-stochastic neighbor embedding) 방법과 경쟁적이다. 그러나, t-SNE가 저차원 공간의 동일한 영역에서 고도로 유사한 세포를 배치하는 것을 목표로 하는 경우에, UMAP는 또한, 더 긴 범위의 거리 관계를 유지한다. UMAP 알고리즘 자체는 또한 더욱 효율적이다(UMAP의 알고리즘 복잡성은 t-SNE의 경우에
Figure 112022045449509-pat00004
Figure 112022045449509-pat00005
임). 간단하게, UMAP는 먼저 로컬 매니폴드 근사치와 함께 고차원 데이터의 토폴로지 표현을 구성하고 이의 로컬 퍼지 단순 세트 표현과 함께 패칭한다. UMAP는 이후에 저차원 임베딩을 최적화하여, 저차원 표현과 고차원 표현 사이의 교차-엔트로피를 최소화한다.
UMAP의 계산 효율은 마우스 배아 데이터의 분석을 크게 가속화하였다. 본 발명자는, UMAP가 3시간에 2백만개의 세포 데이터세트를 분석하는 것을 완료하는 반면, t-SNE가 10개 코어의 경웨 10시간을 초과하는 것(다중 코어 bh-t-SNE가 사용됨)을 발견하였다. 몇 가지 구현 세부사항은 UMAP의 효과로 이어진다. 두 개의 주요 단계는 UMAP 및 t-SNE 알고리즘 둘 모두에서 수반된다: 첫째로, 고차원 공간(대개 상부 PCA 감소 공간)으로부터의 중간 구조는 구축되며, 이후에, 저차원 임베딩은 중간 구조를 나타내는 것으로 발견되었다. 제2 단계를 위하여, 두 방법 모두는 데이터를 저차원 공간에 임베딩하기 위해 상이한 손실 함수를 갖는 확률론적 그리드 하강 방식을 사용하였다. t-SNE가 전체적인 정규화를 위한 손실 함수를 필요로 하지만, UMAP는 이러한 필요를 방지하는 상이한 목적 함수를 사용한다. 이러한 단계는 본질적으로, 데이터 샘플의 수에 따라 UMAP 스케일을 선형화할 수 있게 한다. Monocle 3에서, 본 발명자는 망상 패키지(월드-와이드 웹 atcran.r-project.org/web/packages/reticulate/index.html에서 입수 가능함)를 통해 Leland McInnes and John Healy로부터의 UMAP 피톤 구현(월드-와이드 웹 atgithub.com/lmcinnes/umap에서 입수 가능함)과 상호작용한다.
세포를 불연속 궤적으로 분할
최근에, Wolf 및 동료는 단일 세포 전사체 데이터를 서로 발달적으로 관련될 수 있는 세포의 클러스터와 관련된 "추상 분할 그래프"(abstract partition graph; AGA)로 구성하기 위한 사상을 제안하였다. 간단하게, 이의 알고리즘은 세포 상에 k-최근접 이웃 그래프를 구성하고, 이후에, CyTOF 또는 단일 세포 RNA-seq 데이터 분석하기 위한 이전 방법과 유사한, Louvain 방법을 통해 세포의 "커뮤니티"를 식별한다80. 이어서, AGA는 정점이 Louvain 커뮤니티인 그래프를 구성한다. 두 개의 정점은 개개 커뮤니티에서 세포가 단순 이항 모델81에서 예상된 것보다 더욱 자주 kNN 그래프에서 이웃할 때 AGA 그래피에서 에지와 연결된다. 유사한 방법은 또한 최근에 개발되었고, 제브라피시 및 제노푸스 세포 지도 데이터세트를 분석하는 데 적용되었다82,83.
Monocle 3은 이러한 사상으로부터 그리는데, 첫째는 UMAP 공간에서 세포 상에 kNN 그래프를 구성하며, 이후에, 이를 Louvain 커뮤니티로 그룹화하고, 이의 개개 세포 간의 유의미한 수의 연결을 위해 각 쌍의 커뮤니티를 시험한다. 비논리적인 연결(FDR < 10%)의 눌 가설 하에서 예상된 것 보다 더 많은 연결을 갖는 그러한 커뮤니티는 AGA 그래프에서 연결된 채로 잔류하며, 이러한 시험에서 실패한 그러한 연결은 절단된다. 얻어진 AGA 그래프는 하나 이상의 성분을 가질 것이며, 이들 각각은 궤적에서 구성되는 세포의 별도의 그룹으로서 다음 단계(L1-그래프)로 통과된다. AGA 알고리즘은 이러한 단계에서 본질적으로 정지하는데, 이는 각 커뮤니티에서 한 부류의 거친 궤적이 상이한 상태를 반영할 때 세포가 이러한 것이 발달함에 따라 채택할 수 있는 AGA 그래프를 제시한다. 반대로, 다음 섹션에 기술되는 바와 같이, Monocle 3은 최종 궤적을 형성할 수 있는 주요 그래프의 공간을 제한하기 위해 AGA 그래프를 사용한다. 즉, Monocle 3은 세밀한 궤적을 학습하기 위해 거친 AGA 그래프를 사용한다.
상기 절차의 Monocle 3의 구현은 수백만개의 세포까지 확장시킨다. 간단하게, 이는 커뮤니티 검출을 수행하기 위해 i그래프 패키지로부터 clustering_louvain 함수를 사용한다. 다음으로, Wolf 등으로부터의 코어 AGA 계산은 일련의 희소 행렬 연산을 통해 계산된다. X는 세포의 커뮤니티 멤버쉽을 나타내는 A(희소) 행렬이다. X의 각 열은 Louvain 커뮤니티를 나타내며, X의 각 행은 특정 세포에 해당한다. 세포 i가 Louvain 커뮤니티 j에 속하는 경우에, Xij = 1이며, 다른 경우에, 0이다. 본 발명자는 kNN 그래프에서 세포 i가 j에 연결되는 경우에 Aij = 1인 louvain 클러스터링을 수행하기 위해 사용되는 kNN 그래프의 인접 행렬을 추가로 얻을 수 있다. 이후에, 각 클러스터 간의 연결 행렬 M은 하기와 같이 계산된다:
Figure 112022045449509-pat00006
M이 구성된 직후에, 본 발명자는 이후에, 각 louvain 클러스터링 간의 연결의 유의성을 계산하기 위해, ref.81로부터 보충 주석을 따를 수 있고, 분리되지 않은 것으로서 기본적으로 p-값이 0.05보다 큰 값을 갖는 임의의 클러스터를 고려할 수 있다.
주요 그래프를 학습
Monocle 3은 세포가 발달함에 따라 취할 수 있는 가능한 경로 셀을 나타내기 위해 데이터와 동일한 저차원 공간에 있는 주요 그래프를 학습한다. Monocle 3은 주요 그래프를 학습하기 위해 L1-그래프 알고리즘84의 향상된 구현을 이용한다. Mao 등의 문헌에는 L1-그래프 방법84의 2개의 버전이 기술되어 있다. 제1("알고리즘 1")에서, 이는 데이터세트에서 모든 개별 데이터 포인트에 대해 최적화한다. 이전에, 본 발명은 L1-그래프가 단일 세포 RNA-seq 데이터에 적용될 수 있지만, 다운샘플링에 대해 강하지 않은 잡음이 많은 그래프를 학습하는 경향이 있으며 이러한 방법이 수백개의 세포의 데이터 세트로 효과적으로 확장하지 못함을 나타내었다85. Qiu 등의 문헌에서, 본 발명자는 "알고리즘 2"를 탐색하지 못하는데, 이는 먼저 K-평균 클러스터링 알고리즘을 이용하여 "랜드마크" 데이터의 세트를 선택한다. 이후에 알고리즘은 이러한 훨씬 더 작은 데이터 샘플에 대해 최적화한다. Monocle 3은 이러한 방법을 사용하는데, 이는 UMAP 공간에서 셀에 적용될 때, 강력하고 몇 가지 주요 변경과 함께 수백만개의 세포로 확장할 수 있다.
L1-그래프의 구현은 큰 데이터세트의 분석 및 주요 그래프의 강력한 복구를 지지하는 몇 가지 주요 특징을 갖는다. 첫째로, 본 발명자는 (기본값으로서, 3차원) UMAP 공간에서 L1 그래프를 학습한다. 본 발명자는 최적화를 가속화하기 위해 랜드마크 셀을 선택하도록 K-메디오이드(medioid) 클러스터링을 사용한다. 선택된 랜드마크 세포의 수는 알고리즘 실행 시간 및 해법의 품질에 영향을 미친다. 너무 많은 랜드마크는 실행 불가능한 선형 프로그래밍 문제를 야기시킬 것이다. 이에 따라, 본 발명자는 K를 세포 중에서 검출된 Louvain 커뮤니티의 수의 3배이도록 설정함으로써 데이터의존 방식으로 랜드마크의 수를 결정하며, 이는 실제적으로 빠르고 안정한 해법을 야기시킨다.
L1-그래프에 대한 제2 주요 최적화는 본 발명자가 최적화에 의해 고려되는 모든 가능한 그래프의 "실행 가능한" 공간에 제약을 가한다는 것이다. Mao 등은 랜드마크 데이터포인트 사이에 모든 가능한 에지를 고려한다. 그러나, 수 천개의 랜드마크 세포만으로도, 선형 프로그래밍 문제가 신속하게 실행 가능하게 되지 못할 수 있는데, 왜냐하면, 변수의 수가 그래프에서 에지 수의 함수이기 때문이다. Monocle 3에서, 본 발명자는 단지 랜드마크 포인트 상에 구성된 최소 스패닝 트리(MST)에 있거나, MST에서 홀수 정도를 갖는 정점 상에 구성된 kNN 그래프(기본값 k=3)에 있는 실행 가능한 공간으로만 에지를 인정한다. 마지막으로, 본 발명자는 이전 섹션에 기술된 바와 같이 구축된 AGA 그래프의 상이한 연결된 성분에서 세포를 연결시키는 에지를 배제한다.
유전자를 궤적-의존 발현으로 식별
발달적 궤적에 대해 발현이 다양한 유전자를 식별하기 위하여, 본 발명자는 공간 데이터를 분석하는데 통상적으로 사용되는 통계학적 시험을 차용한다. Moran I 통계량은 다중방향 및 다차원 공간 자기상관의 척도이다. 통계량은 가장 가까운 인접 그래프를 통해 데이터 포인트 간의 공간 관계를 인코딩하여, 큰 단일 세포 RNA-seq 데이터세트를 분석하는데 특히 매우 적합하다.
Moran I 시험86은 하기와 같이 규정된다:
Figure 112022045449509-pat00007
상기 식에서, N은 i 및 j에 의해 인덱싱된 세포의 수이며; x는 고려되는 유전자의 발현 값이며;
Figure 112022045449509-pat00008
는 세포 i(또는 j)의 가장 가까운 이웃에 대한 유전자 발현의 평균이며;
Figure 112022045449509-pat00009
는 대각선에 0이 있는 가장 가까운 이웃 그래프에 의해 규정된 가중치 행렬이며(즉, wii = 0) 및
Figure 112022045449509-pat00010
(여기서, ki는 가장 가까운 이웃의 수임); W는 모든 wij의 합이다.
가중치 행렬 W를 생성시키는데 사용되는 가장 가까운 이웃을 식별하기 위해, 본 발명자는 먼저 UMAP 공간에서 모든 셀에 대해 k(기본값은 25임) 가장 가까운 이웃 그래피(knNN)를 만든다. 본 발명자는 또한, 주요 그래프에서 이의 가장 가까운 노드에 각 셀을 투여한다. 이후에, 본 발명자는 에지를 공유하지 않는 주요 그래프 노드 상에 투여하는 셀을 연결하는 kNN 그래프로부터 모든 에지를 제거한다.
Monocle 3에서, 본 발명자는 Moran I 시험을 수행하기 위해 spdep 패키지로부터 변형된 버전의 루틴에 의존하는 매니폴드 상관 유전자를 식별하기 위해 manifoldTest 함수를 구현하였다.
문헌 1
Figure 112022045449509-pat00011
Figure 112022045449509-pat00012
Figure 112022045449509-pat00013
Figure 112022045449509-pat00014
Figure 112022045449509-pat00015
Figure 112022045449509-pat00016
Figure 112022045449509-pat00017
Figure 112022045449509-pat00018
Figure 112022045449509-pat00019
실시예 2
조직 핵 추출 및 고정을 위한 새로운 기술(sc-RNA-seq)
시약. BSA(분자 생물학 등급, NEB, #B9000S); SuperRnase 억제제(Thermo, #AM2696); EMS 157-4-100 4% 파라폼알데하이드(폼알데하이드) 수용액, EM 등급, 100㎖ (Amazon).
완충제. 핵 완충제(4℃에서 저장됨): 10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2. 10% IGEPAL CA-630 (stored in 4℃). 핵 세척 완충제(매번 새로 제조됨): 10ul BSA 및 10ul SuperRnaseIn 중 980ul 핵 완충제, 웰을 혼합하고, 얼음 상에서 저장함. 핵 용해 완충제(매번 새로 제조됨): 0.1% IGEPAL CA-630을 갖는 핵 세척 완충제.
조직으로부터 직접적으로 핵 추출
조직은 1㎖ 얼음-냉각된 세포 용해 완충제(10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2 및 0.1% IGEPAL CA-630, 1% SUPERase In 및 1% BSA) 중에서 블레이드에 의해 작은 조각으로 절단되고, 40um 세포 염색기(Falcon)의 상부로 옮겨진다.
조직은 4㎖ 세포 용해 완충제에서 시린지 플런지(5㎖, BD)의 고무 첨단으로 균질화되었다.
여과된 핵은 이후에, 새로운 15㎖ 튜브(Falcon)으로 옮겨지고, 5분 동안 500×g에서의 원심분리에 의해 펠릿화되고, 1㎖ 세포 용해 완충제로 1회 세척되었다.
핵 고정
핵은 얼음 상에서 15분 동안 4㎖ 얼음 냉각 4% 파라폼알데하이드(EMS)에서 고정되었다.
고정 후에, 핵은 1㎖ 핵 세척 완충제(IGEPAL 없는 세포 용해 완충제) 중에서 2회 세척되고, 500 ul 핵 세척 완충제 중에서 재현탁되었다.
샘플은 각 튜브에서 250 ul씩 여러 개로 분할되고, 액체 질소에서 급속 냉동되었다. 냉동된 샘플은 드라이 아이스 위로 옮겨질 수 있다.
실시예 3
sci-fate에 의한 단일 세포 상태 전이 역학의 특징분석
발달의 사례는 엄격하게 구성된 시간적 순서에서 다양한 세포 상태의 발생에 있다. 단일세포 게놈 기술의 확산에도 불구하고, 세포 상태 전이 역학을 정량적으로 결정하는 것은 여전히 어려운 과제이다. 여기에서, 본 발명자는 각각 수천 개의 단일 세포에서 전체 및 새로이 합성된 전사체 둘 모두를 프로파일링하기 위한 조합 인덱싱-기반 고속 대량 검정(combinatorial indexing-based high throughput assay)인 sci-fate를 소개한다. 개념의 증명으로서, 본 발명자는 코르티솔 반응의 모델 시스템에 sci-fate를 적용하였고, 글루코코르티코이드 수용체 활성화 시에 공지된 세포 주기 역학과 일치하는, 6,000개 이상의 단일 세포 상태 전이를 특징화하였다. 이러한 분석으로부터, 본 발명자는 세포 상태 전이 방향을 나타내며, 확률은 상태간 거리 및 상태 불안정성 랜드스케이프에 의해 조절된다. 기술 및 계산 방법은 세포 상태 역학을 정량적으로 특징화하고 세포 운명 결정을 위한 내부 메커니즘을 해독하기 위해 다른 생물학적 시스템에 용이하게 적용될 수 있다.
세포는 다세포 유기체 발달 동안 기능적이고 분자적으로 뚜렷한 상태를 가로질러 이동한다. 세포 상태 전이 경로, 또는 세포 운명의 특징화는 세포 공학과 같은 개발 및 적용을 이해하는 데 핵심이다. 단일 세포 게놈 기술을 위한 방법이 확산되었지만, 이는 단지 세포 상태의 스냅샷을 캡처하고, 이에 따라, 세포 전이 역학에 대한 정보를 제공하지 못한다(1). 시간차 현미경 기반 단일 세포 트레이싱이 세포 상태 전이를 특징화하기 위해 이용될 수 있지만(2,3), 이러한 것은 처리량에 있어서 제한되고, 단지 여러 유전자의 변화를 추적할 수 있고, 이에 따라, 복잡한 시스템을 해독하기 위해 낮은 용량을 갖는다.
여기에서, 본 발명자는 전체 전사체의 수준에서 정량적 세포 상태 전이 역학을 유추하기 위한 신규한 전략을 기술한다. 이러한 전략은 신규한 조합 인덱싱 기반 단일 세포 RNA-seq 기술, sci-fate에 따른다. 역전사 동안 C > T 포인트 돌연변이를 생성시키는 4-티오우리딘으로 새로이 합성된 mRNA를 표지화시킴으로써(4, 5), sci-fate는 이의 과거 상태(과거 상태 메모리)로부터의 분해된 전사체 정보와 함께, 단일 세포 수준에서 전체 전사체 및 새로이 합성된 전사체 둘 모두를 캡처한다. 각 세포의 과거 상태 메모리는 이후에 mRNA 분해 속도(메모리 보정 기술)에 의해 보정되고, 이에 따라, 각 세포는 2 시점 사이에 전사체 역학에 의해 특징될 수 있게 한다.
내재 및 외래 인자에 의해 조절된 세포 상태 전이 역학을 특징화하기 위해, 본 발명자는 코르티솔 반응의 모델 시스템에 sci-fate를 적용하였으며, 여기서, 세포 운명은 2가지 주요 힘에 의해 유도되었다: 고유 세포 주기 프로그램 및 외부 약물 유도 글루코코르티코이드 수용체(GR) 활성화. GR 활성화는 신체에서 거의 모든 세포의 활성에 영향을 미치고, 발달, 대사, 및 면역 반응을 조절하는 유전자를 조절한다(6). sci-fate를 이용하여, 본 발명자는 6,000개 이상의 단일 세포에 대한 전체 전사체 역학을 프로파일링하였다. 과거 전사체 상태와 현재 전사체 상태 간의 유사성을 기초로 하여, 본 발명자는 5개의 시점에 걸쳐 수천 개의 세포 상태 전이 궤적을 구축하였으며, 이는 GR 활성화에서 공지된 세포 주기 진행 패턴과 일치하는 3가지 타입의 세포 운명으로 클러스터링될 수 있다. 본 발명자는 기능적 TF 모듈 활성에 의해 세포의 숨겨진 상태를 추가로 특징으로 하고, 세포 상태 예측을 위한 세포 전이 네트워크를 유추하였다. 마지막으로, 본 발명자는 세포 상태 전이 방향 및 확률이 이의 인근 상태의 전사체 유사성 및 불안정성 랜드스케이프에 의해 조절됨을 나타내었다. 이론적, 계산적 및 실험적 방법은 여기에서, 세포 전이 역학이 여전이 알려지지 않은 다른 생물학적 시스템에 용이하게 적용될 수 있어야 한다.
sci-fate의 개론
sci-fate는 하기 단계에 따른다(도 30A): (i) 세포는 먼저 새로이 합성된 RNA를 표지화하기 위한 널리 사용되는 티미딘 유사체인 4-티오우리딘(S4U)과 함께 인큐베이션되었다(7-13). (ii) 세포는 수확되고 4% 파라폼알데하이드에 의해 고정되고, 이후에, 친핵체 치환에 의해 S4U에 카복시아미도메틸 기를 공유 결합시키는 티올(SH)-결합 알킬화 반응으로 처리된다(4). (iii) 세포는 4x96 웰 플레이트의 각 웰에 벌키하게 분포되었다. 제1 RNA-seq 분자 인덱스는 웰-특이적 바코드 및 분해 독특한 분자 식별자(UMI) 둘 모두를 지닌 폴리(T) 프라이머로의 인시튜 역전사(RT)를 통해 각 웰에서 세포의 mRNA에 통합된다. cDNA 합성 동안에, mRNA는 변형된 S4U 유사 티민-대-사이토신(T > C) 전환으로 표지화되었고, 돌연변이된 제1 가닥 cDNA를 형성하였다. (iv) 모든 웰로부터의 세포는 풀링되고, 이후에 다수의 96-웰 플레이트에 형광-활성화 세포 분류(FACS)에 의해 재분포되었다. 세포는 분류 동안 더블릿으로부터 단일 세포를 구별하기 위해 DAPI(4',6-다이아미디노-2-페닐인돌) 염색 시에 게이팅된다. 이중 가닥 cDNA는 RNA 분해 및 제2 가닥 합성에 의해 생성되고, Tn5로 전위된다. cDNA는 이후에, 5' 단부 상에서 Tn5 어댑터를 및 3' 단부 상에서 RT 프라이머를 인식하는 프라이머의 조합으로 폴리머라제 사슬 반응(PCR)을 통해 증폭된다. 이러한 프라이머는 또한, 제2 RNA-seq 분자 인덱스를 통합하는 웰-특이적 바코드를 지닌다. (v) PCR로부터의 앰플리콘은 풀링되고, 대규모 병렬 시퀀싱으로 처리된다. 다른 "sco-" 프로토콜과 마찬가지로(14-21), 대부분의 핵은 웰의 독특한 조합을 통과하고, 이에 따라, 각 세포의 함량은 동일한 세포로부터 유도하는 리드를 그룹화하기 위해 사용될 수 있는 바코드의 독특한 조합에 의해 마킹된다. 전체 전사체로부터의 새로이 합성된 mRNA는 백그라운드 오류 보정 "T > C" 전환(방법)에 의해 식별된다.
품질 관리로서, 본 발명자는 먼저 4가지 조건 하에서 HEK293T (인간) 및 NIH/3T3 (마우스) 세포의 혼합물에서 기술을 시험하였다: S4U 표지화 (200nM, 6 hrs)을 수행하거나 수행하지 않고, IAA 처리를 수행하거나 수행하지 않음(도 31A 내지 도 31D). S4U 표지화 및 IAA 처리(sci-fate 조건)를 수행하는 경우, 인간/마우스 세포로부터의 전사체는 높은 비율의 T > C 돌연변이된 리드가 검출되면서(sci-fate 조건에서 인간의 경우 46% 및 마우스의 경우 31% 대 무처리 조건에서 인간의 경우 0.8% 및 마우스 세포의 경우 0.8%), 압도적으로 종-코히어런트하였다(인간 및 마우스 세포 둘 모두에 대해 > 99%, 2.6% 충돌). 본 발명자는 IAA 처리군에서 검출된 UMI가 약간 더 낮지만, 4가지 조건에 걸쳐 대략 동일한 세포 순도를 얻었다. sci-fate 대 정상 sci-RNA-seq의 집계된 전사체는 매우 상관관계가 있는데(스피어만의 상관관계 r = 0.99; 도 31E 및 도 31F), 이는 단기 표지화 및 전환 과정이 세포 상태에 최소 효과를 나타냄을 시사한다.
덱사메타손 처리된 A549 세포에서 전체 및 새로이 합성된 전사체의 공동 프로파일링
본 발명자는 이후에, 코르티솔 반응의 모델에 sci-fate를 적용하였으며, 여기서, 덱사메타손(DEX), 코르티솔의 합성 유사체는 글루코코르티코이드 수용체(GR)를 활성화시키며, 이는 게놈을 가로질러 수천개의 위치에 결합하고, 단기 내에 세포 상태를 크게 변화시킨다(22-25). 본 발명자는 100nM DEX로 0, 2, 4, 6, 8 또는 10시간 동안 폐 선암-유래 A549 세포를 처리하였다. 각 조건에서, 세포는 384 x 192 웰 sci-fate에 대한 수확 전 마지막 2시간 동안 S4U (200nM)와 함께 인큐베이션되었다(도 30B). 6개의 조건은 각각 제1 라운드의 인덱싱 동안 64웰에 각각 나타내었으며, 이에 따라, 처리 조건은 각 세포의 제1 인덱스를 기초로 하여 회수될 수 있게 한다.
저품질의 세포, 잠재적인 더블릿 및 분화된 세포의 작은 서브그룹(방법)을 여과한 후에, 본 발명자는 6,680개 세포에 대한 단일 세포 프로파일을 얻었으며(세포당 검출된 26,176 mRNA의 중간값), 세포당 20% 표지화된 UMI가 중간값이었다(도 30C, 도 32A 및 도 32B). 인트론 리드는 엑손 리드보다 상당히 더 높은 새로이 합성된 속도를 나타내었으며(인트론 리드에서 65% 대 엑손 리드에서 13%, p-값 < 2.2e-16, Wilcoxon 서명 순위 시험; 도 30D), 이는 인트론 리드가 새로이 합성된 전사체에 농축된다는 예상과 일치한다.
본 발명자는 전체 전사체 및 새로이 합성된 전사체가 세포 상태 특징화에서 상이한 정보를 전달하는 지를 문의하였다. 본 발명자는 각 처리 조건에 대해 전체 전사체 및 새로이 합성된 전사체를 응집하였고, 이의 상관관계를 체크하였다. 전체 전사체와는 달리, 새로이 합성된 전사체는 DEX 처리 없음(0h)과 처리된 그룹 간에 급격한 차이를 나타내었다(도 32C). 이와 일치하여, 전체 또는 새로이 합성된 전사체에 대한 Uniform Manifold Approximation and Projection(UMAP)(26)로의 치수 감소는 상이한 결과를 제공한다(도 30E). 전체 전사체는 DEX 처리없음(0h) 및 초기 DEX 처리(2h)를 분리하지 못할 수 있으며, 새로이 합성된 전사체는 모든 DEX 처리된 세포를 단일 그룹으로 응집한다. 전체 또는 새로이 합성된 전사체에 의해 식별된 세포 클러스터는 서로 완전히 매칭되지 않는다(도 30F, 도 32D 및 도 32E). 이는 새로이 합성된 전사체가 유전자 프로모터 활성 또는 외부 환경에 대한 유전외적 반응을 직접적으로 반영하는 것으로서 예상되며, 전체 전사체는 거의 이의 과거 상태로부터 남은 mRNA에 의해 결정된다.
결합 정보를 갖는 세포 상태를 특징화하기 위해, 본 발명자는 UMAP 분석을 위한 전체 및 새로이 합성된 전사체로부터 상부 주요 성분(PC)를 조합하였다. 결합 정보는 세포를 DEX 비처리(0h), 초기 처리(2h) 및 후기 처리(>2h)로 분리한다(도 30E). 흥미롭게도, 전체 전사체에 의해 특징된 2개의 클러스터(클러스터 1 및 4)는 결합 정보에 의해 4개의 별도의 그룹으로 분할되었다(도 30F). 본 발명자는 세포 주기 관련 유전자 마커의 발현 수준 및 새로운 합성 속도를 체크하였다(27)(도 30G, 도 32F 내지 32G): 결합 정보에 의한 새로이 분리된 클러스터는 G2/M 시기(G2/M 마커의 높은 발현 및 높은 합성 속도) 및 초기 G0/G1 시기 세포(G2/M 마커의 높은 발현 및 낮은 합성 속도)에 해당한다. 이는 전체 전사체와 비교하여 새로이 합성된 전사체가 상이한 세포 상태 정보를 전달하고, 결합 정보가 잠재적으로 세포 상태 특징화에서 더 높은 해상도를 가능하게 한다는 것을 시사한다.
세포 운명 결정을 유도하는 기능적 TF 모듈의 특징분석
본 발명자는 다음으로 세포 상태 전이를 유도하는 TF 모듈을 특징화하고자 하였다. 전사 인자(TF)와 이의 조절된 유전자 간의 링크는 2 단계에 의해 식별되었다: 각 유전자에 대하여, 본 발명자는 마지막 2시간 동안 mRNA 합성 속도와 LASSO(최소 절대 수축 및 선택 연산자)를 이용하여 6,000개 이상의 세포에 걸친 TF 발현 수준 간에 상관관계를 계산하였다. 이러한 식별된 링크는 공개된 CHIP-seq 데이터(28) 및 모티프 농축 분석(29)(방법)에 의해 추가로 필터링되었다. 전체적으로, 본 발명자는 TF-유전자 공분산을 기초로 하여, 29 TF와 532 유전자 사이에 986 링크를 식별하였고(도 33A, 표 S1), DAN 결합 데이터에 의해 검증되었다. 링크가 정규화된 회귀의 인공물일 가능성을 평가하기 위하여, 본 발명자는 TF 발현 기질의 샘플 ID를 순열하고 동일한 분석을 수행하였다. 이러한 순열 후에 링크가 식별되지 않았다.
공지된 GR 반응 이펙터, 예를 들어, CEBPB(30)(도 34A, 도 34B), FOXO1(31), 및 JUNB(32)(도 33A)와 같은 공지된 GR 반응을 유도하는 TF 모듈이 식별된다. 본 발명자는 또한, DEX 처리된 세포에서 상향조절된 발현 및 활성 둘 모두를 갖는, YOD1 및 GTF2IRD1을 포함하는 여러 신규한 GR 반응 관련 TF 모듈을 발견하였다(도 34C 및 도 34D). 세포 주기 진행을 유도하는 주요 TF 모듈이 식별되며, 이러한 것은 E2F1, E2F2, E2F7, BRCA1, 및 MYBL2를 포함한다(33). 전체 발현 수준과 비교하여, 세포 주기 TF 모듈에 의한 조절된 유전자의 새로운 RNA 합성 속도는 표적 TF 발견과 높은 상관관계를 나타낸다(도 34E). 추가적으로, 본 발명자는 또한, 주로 대부분 세포의 정지 집단(34)에서 발현된, GATA3과 같은 세포 분화와 관련된 TF 모듈, 및 NRF1(35) 및 NFE2L2 (NRF2)(36)와 같은 산화성 스트레스 반응과 관련된 TF 모듈을 발견하였다.
본 발명자는 다음으로 각 TF 모듈 내에서 유전자의 새로운 RNA 합성 속도를 집계함으로써 TF 활성을 특징화되고, 각 TF 쌍 간에 절대 상관 계수를 계산하였다(도 34F). 고도의 상관 관계를 갖는 TF활성은 연결된 공정에서 기능할 수 있음을 시사한다. 계층적 클러스터링은 이러한 29 TF모듈을 5개의 주요 모듈로 분리한다(도 34F). 제1 모듈은 E2F1 및 FOXM1과 같은 모든 세포 주기 관련 TF 모듈이고(33), 세포 주기 진행을 위한 구동력을 나타낸다. 제3 모듈은 FOXO1, CEBPB, JUNB 및 RARB와 같은 모든 GR 반응 관련 TF 모듈이다(30)(31)(32). 다른 TF 모듈 그룹은 세포 주기 및 GR 반응 둘 모두에 의해 동시 조절된 3가지 TF(KLF6, TEAD1, 및 YOD1)(모듈 2), GATA3 및 AR을 포함하는 내부 분화 경로(모듈 3), 및 NRF1 및 NFE2L2와 같은 스트레스 반응 관련 TF(모듈 5)를 포함한다.
상이한 세포 주기 상태를 식별하기 위하여, 본 발명자는 먼저 세포 주기 연결된 TF 모듈 활성에 의해 세포를 정렬하였다. 세포는 세포 주기의 매끄러운 궤적으로 정렬되고, 공지된 세포 주기 마커의 합성 속도에 의해 검증된다(27)(도 33B). 본 발명자는 세포 분화 동안 급격한 세포 상태 변화와 일치하는 G2/M 시기와 G0/G1 시기 간에 갭을 관찰하였다. 감독되지 않은 클러스터링에 의해, 본 발명자는 세포 주기 마커 발현을 기초로 하여 G0/G1, S 및 G2/M 세포 주기 시기에 걸친 9개의 세포 주기 상태를 식별하였다(도 33B). 세포는 GR 반응 연결된 TF 모듈에 의해 다른 매끄러운 궤적으로 정렬되었다. 궤적은 DEX 처리 시간 및 공지된 GR 활성화 조절된 TF 활성의 역학과 관련이 있다(도 33C). 감독되지 않은 클러스터링 분석에 의해, 본 발명자는 없음/낮은/높은 GR 반응 상태에 해당하는, GR 반응을 따라 3개의 세포 클러스터를 식별하였다(도 33C).
본 발명자는 다음으로, 시스템에서 숨겨진 세포 상태를 정량적으로 특징화하고자 하였다(도 35A). 9개의 세포 주기 상태 및 3개의 GR 반응 상태는 도 33B 및 도 33C에서 식별되었다. 모든 가능한 조합 상태는 식별되었으며, 가장 작은 그룹은 모든 세포의 1.1%(74)를 포함한다(도 33D). 관찰된 세포 상태 비율은 독립 유전을 추정하는 기대된 비율에 가깝다. 이는 6,000개 이상의 세포에 걸쳐 이러한 2개의 기능적 TF 모듈의 활성 간에 낮은 상관 계수(피어슨 상관 r = 0.004)와 일치한다. 비교를 위하여, 전체 및 새로이 합성된 전사체에 대한 차원 감소 및 클러스터링 분석에 의해, 본 발명자는 6개의 주요 클러스터를 식별하였다(도 35B). 이러한 주요 클러스터는 이러한 27개의 세포 상태의 조합된 그룹에 의해 용이하게 규정될 수 있다(도 33E).
단일 세포 전이 궤적 및 상태 전이 네트워크의 특징분석
각 세포에 대해 전체 전사체 및 새로이 합성된 전사체 둘 모두가 특징화됨으로써, 본 발명자는 S4U 표지화 전에 단일 세포 전사체 상태를 유추할 수 있다(도 36A). 과거 세포 전사체의 회수는 2개의 파라미터에 따른다: sci-fate에서 새로이 합성된 리드의 검출 속도, 및 각 mRNA의 분해 속도(또는 반감기)(방법). 두 개의 파라미터 모두는 sci-fate에서 동일한 실험으로부터 추정될 수 있다.
본 발명자는 먼저 sci-fate의 검출 속도를 추정하였다. 본 발명자는 mRNA 반감기가 상이한 DEX 처리 조건에 걸쳐 안정하다고 가정한다. 이러한 가정은 이후에 자기-일관성 체크에 의해 추가로 검증된다. 이러한 가정 하에서, 2시간 S4U 표지화 전에 일부 분해된 벌크 전사체는 DEX 없음 및 2시간 DEX 처리된 세포 간에 동일해야 한다. 이에 따라, 전체 전사체(벌크)에서의 이의 차이는 기술 검출 속도에 의해 보정된 새로이 합성된 전사체(벌크)에서의 이의 차이와 동일해야 한다. 전체 및 새로이 합성된 전사체 둘 모두가 본 발명의 실험에서 프로파일링될 때, 본 발명자는 sci-fate의 검출 속도를 직접적으로 계산할 수 있다. 새로이 합성된 mRNA의 차이는 mRNA 발현 수준의 차이와 관련이 있으며(피어슨 r = 0.93, 도 37A), 이는 새로운 RNA 검출 속도가 유전자에 걸쳐 다소 안정함을 시사한다. 본 발명자는 이에 따라, 다운스트림 분석을 위한 새로운 RNA 캡처 속도(82%)의 중간값을 사용하였다.
본 발명자는 다음으로 2시간에 mRNA 분해 속도를 계산하였다. A549 세포 집단이 외부 섭동 없이 안정한 것으로 간주될 수 있기 때문에, 2시간 DEX 처리 후 세포에 대하여, 이의 과거 상태(2시간 S4U 표지화 전)는 0시간 DEX 처리된 세포와 동일해야 한다. 유사하게, T = 0/2/4/6/8/10 시간 DEX 처리된 세포에 대하여 과거 상태(S4U 표지화 전)는 프로파일링된 T = 0/0/2/4/6/8 시간 세포와 유사해야 한다. 모든 처리 조건에 대해 전체 전사체 및 새로이 합성된 전사체를 프로파일링함으로써, 각 2시간 간격에서 수천 개의 유전자에 걸친 mRNA 분해 속도가 추정될 수 있다. 상기에서 언급된 자기-일관성 체크로서, 유전자 분해 속도는 상이한 DEX 처리 시간에 걸쳐 높은 상관 관계가 있다(도 37B). 본 발명자는 이후에, 다운스트림 분석에 대한 평균처리된 유전자 분해 속도를 사용하였다. 새로운 mRNA 검출 속도 및 유전자 분해 속도 둘 모두를 사용하여, 본 발명자는 단일 세포 과거 전사체 상태를 추정하였으며, 이에 따라, 각 세포는 2-시간 간격으로 전사체 역학에 의해 특징될 수 있게 한다
더 긴 간격(즉, 10시간) 동안 세포 상태 역학을 회복하기 위해, 본 발명자는 동일한 상태 전이 궤적에서 모 및 자식 세포를 연결시키기 위해 세포 연결 파이프라인을 개발하였다(도 36A). 각 세포 A(예를 들어, 2시간 DEX 처리된 세포)에 대해, 본 발명자는 더 초기 시점에 프로파일링된 세포 B(예를 들어, DEX 처리되지 않은 세포)를 식별하였으며, B는 2개의 데이터 세트 간에 공통 세포 상태를 식별하기 위하여 최근에 개발된 정렬 전략을 기초로 하여, A의 과거 상태와 유사한 이의 현재 상태를 갖는다(27). B는 A의 모 상태로서 간주될 수 있다. 유사하게, 본 발명자는 또한, 후기 시점에서 프로파일링된 다른 세포 C를 식별하였으며(예를 들어, 4시간 DEX 처리된 세포), C는 A의 현재 상태와 유사한 이의 과거 상태를 갖는다. 세포 C는 A의 미래 상태로서 간주될 수 있다. 각 세포에 대해 식별된 모든 과거 및 미래 상태로 동일한 전략을 확장함으로써, 본 발명자는 10시간 및 5개 시점에 걸쳐 6,680개 단일 세포 전이 궤적을 구성하였다(도 36A 및 도 36B). 참고로, 이러한 분석은 (출발 및 종료 시점에 세포를 제외한) 각 세포의 과거 및 현재 상태가 포괄적으로 검출된다는 가정을 기초로 한 것이며, 이는 6,000개 이상의 세포가 프로파일링(조건 당 1,000개 이상의 세포) 또는 세포 주기 동안 1분 미만 동안 세포로서 본 발명의 데이터 세트에서 보유한다. 다수의 세포(>50)는 각 세포 상태에서 프로파일링되며, 이에 따라, 확률적 세포 상태 전이 과정이 또한 캡처될 수 있다.
결과를 검증하기 위하여, 본 발명자는 차원 감소 및 감독되지 않은 클러스터링 분석을 이러한 6,680개 단일 세포 궤적에 적용하였으며, 이는 3가지 궤적 클러스터로 그룹화되었다. 본 발명자는 도 36C에 특징된 세포 상태의 역학을 체크하였다. 예상되는 바와 같이, 모두 3가지 궤적은 시간에 따른 GR 반응 없음에서 낮은/높은 GR 반응 상태로의 세포 상태 전이를 나타내었다(도 36D). 본 발명자는 이러한 3가지 궤적을 걸쳐 뚜렷한 세포 주기 역학을 관찰하였다(도 36D). 궤적 1은 감소된 G2/M 시기 및 지속적으로 증가된 G0/G1 시기를 나타내었고, G2/M 및 G1 중간 상태에서 G1 시기로의 세포 상태 전이를 나타내었다. 궤적 2는 S 및 G2/M 중간 상태에서 G2/M 시기로의 세포 상태 전이를 나타내었다. 궤적 3에서, 본 발명자는 초기 DEX 처리(0 내지 2시간) 동안 G1 및 S 중간 시기에서 초기 S 단계로의 세포 상태 전이를 관찰하였지만, 이러한 전이는 후기 DEX 처리 조건(>2시간 DEX 처리)에서 억제되는데, 이는 장기 DEX 처리가 G1 시기 정지를 야기시킴을 시사한다. 이는 처리 시간 및 이전 연구를 따른 세포 상태 비율 변화와 일치한다(37, 38)(도 36D). 이는, sci-fate에 의해 특징된 단일 세포 전이 경로가 일반적인 세포 상태 전이 방향을 회복할 수 있음을 시사한다.
각 상태에서 다수의 세포(>70)를 프로파일링함으로써, 본 발명자는 모두 27개의 숨겨진 상태를 걸쳐 세포 상태 전이 확률을 계산하였다. 낮은 전이 확률(< 0.1)을 갖는 세포 상태 전이는 잠재적으로 드문 사건 또는 노이즈로 인한 것이고, 이에 따라 필터링되었다. 세포 상태 전이 네트워크는 노드로서 27개의 세포 상태에 의해 규정될 수 있으며, 연결되어 잠재적인 전이 경로를 나타낸다(도 36E). 세포 주기 진행의 방향은 세포 주기를 따라 비가역적 전이 방향과 함께 적어도 3개의 전이 단계에 의해 용이하게 특징된다(도 36E). 후기 G1 시기 및 후기 G2/M 시기에서, 본 발명자는 또한, 가역적 전이 역학을 나타내는 수 개의 상태를 발견하였으며, 이는 G1/S 및 G2/M 시기에 2개의 세포 주기 체크포인트를 잠재적으로 반영한다(33). 예상되는 바와 같이, 유사한 세포 주기를 갖지만 상이한 GR 반응 상태를 갖는 세포는 상당히 상이한 전이 역학을 나타내었으며, 높은 GR 반응 상태를 갖는 세포는 G1 또는 G2/M 시기에서 정지되는 경향이 있다.
세포 상태 전이 네트워크가 세포 상태 전이 역학을 캡처하는 지의 여부를 검증하기 위한 일관성 체크로서, 본 발명자는 전이 확률이 상이한 시점에 걸쳐 실제 세포 상태 분포를 회수할 수 있는 지를 평가하였다. 실제로, 세포 상태 비율이 10시간에 걸쳐 동적으로 변경되지만(도 36F), 상태 전이 네트워크 정확성은 0시간 DEX 처리된 세포에서 세포 상태 비율로부터 모두 5개의 후기 시점에 걸쳐 27개의 세포 상태 비율을 예측한다(도 36G, 도 38A). 본 발명자는 또한, 데이터의 단지 일부(0시간 내지 6시간)로 세포 상태 전이 네크워크를 계산하였으며, 이는 전체 데이터와 상관관계가 높은 전이 확률을 제공하고, 10시간에 세포 상태를 정확하게 예측한다(도 36H, 도 38B).
세포 상태 전이 방향을 조절하는 인자의 특징화
세포 상태 전이 확률을 조절하는 인자를 특징화하기 위하여, 본 발명자는 먼저, 각 상태 쌍 간에 집계된 전사체(전체 및 새로이 합성된)의 피어슨 거리에 의해 세포 상태 거리를 계산하였다. 예상되는 바와 같이, 세포 상태 전이 확률은 전이 거리와 음으로 관련이 있다(스피어맨 상관 계수 = -0.38, 도 39A). 본 발명자는 또한, 2시간 내에 상태로부터 이동하는 세포의 비율에 의해 규정된, 상태 불안정성을 계산하였다(도 39B). 상태 불안정성 랜드스케이프는 세포 전이 방향과 잘 매칭하며(도 39B): GR 반응 없는 상태는 높은 GR 반응 상태와 비교하여 더 높은 불안정성을 나타낸다. 높은 GR 반응 상태에서, 초기 G1 시기에 서의 세포는 가장 낮은 불안정성을 가지며, G1/S 중간 상태에서의 세포는 후기 DEX 처리에서 G1 시기 정지와 일치하는, 높은 불안정한 피크를 나타내었다.
10시간 후 세포 상태 비율 변화는 세포 상태 불안정성과 관련이 있는데(스피어맨 상관 계수 = -0.88, 도 39C), 이는 세포 상태 역학이 세포 상태 불안정성 랜드스케이프에 의해 조절됨을 시사한다. 상태 불안정성은 또한, 상태 전이 확률 엔트로피와 상관 관계를 나타내고, 이는 상태 전이 표적의 다양성을 반영한다(피어슨 상관 r = 0.73, 도 39D). 상태간 전이 확률이 인근 상태 불안정성에 의해 추론될 수 있는 지를 검증하기 위하여, 본 발명자는 인근 상태 불안정성 및 거리를 뉴런 네트워크 모델 내에 피팅하여, 각 상태에서 다른 상태로의 상태 전이 확률을 예측하였다. 인근 상태 불안정성 및 거리 둘 모두의 결합은, 상태 거리 단독을 이용하여 비교하는 경우, 상태간 전이 확률을 예측하는데 10배 초과의 더 높은 성능을 달성하였으며(중간 교차 검증된 r 제곱은 두 정보를 이용함으로써 0.58이고, 상태 거리 단독을 이용함으로써 0.046임, p-값 = 4.5e-10, 양측 wilcoxon 순위 합 시험, 도 39E), 이는 세포 상태 전이 방향 및 확률이 인근 상태 불안정성 랜드스케이프에 의해 조절됨을 시사한다. 그리고, 세포는 단지 가장 가까운 위치보다 더욱 안정한 인근 상태로 이동하는 것을 선호한다.
논의
여기에서, 본 발명자는 전체 전사체 수준에서 세포 상태 전이 역할을 특징화하기 위한 제1 전략을 개발하였다. 전략은 수천 개의 세포에서 전체 및 새로이 합성된 전사체 둘 모두를 프로파일링할 수 있는, 신규한 조합 인덱싱 기반 고속 대량 단일 세포 RNA-seq 기술인 sci-fate에 따른다. 다른 "sci-" 기술과 유사하게, sci-fate는 최대 수백만 개의 세포로 용이하게 확장되고(39) 전사체 및 에피게놈 둘 모두를 프로파일링하는 것과 잠재적으로 양립 가능하다(40). 이는 sci-fate가 수백 개의 세포 타입에 대한 실제 세포 전이 경로가 여전히 알려져 있지 않은 더욱 복잡한 시스템(즉, 전체 배아 발달)에서 세포 상태 역학을 특징화할 수 있다. 본 발명은 sci-fate 데이터(메모리 보정)로부터 새로이 합성된 RNA 캡처 속도 및 유전자 분해 속도를 추정하기 위해 계산 파이프라인을 추가로 개발하였고, 각 시점에서 공유된 과거 및 현재 전사체 상태에 의해 연결된 각 단일 세포에 대한 수천 개의 미분 궤적을 추정한다.
기술을 검증하고 세포 상태 역학이 내부 및 외부 인자에 의해 어떻게 조절되는 지를 시험하기 위하여, 본 발명자는 코르티솔 반응의 모델 시스템에 전략을 적용하였으며, 여기서, 세포 운명은 내부 세포 주기 및 외부 약물 유도 GR 활성화에 의해 역동적으로 조절되었다. 본 발명자는 새로이 합성된 전사체가 환경 자극에 대한 에피게놈 반응에 직접적으로 연결시키는 것을 나타내었으며, 전체 및 새로이 합성된 전사체 둘 모두의 공동 분석은 세포 상태 분리에서 더 높은 해상도를 가능하게 한다. 수천 개의 세포에 걸쳐 TF 발현과 새로운 RNA 합성 속도 간의 공분산에 의해, 본 발명자는 TF와 조절된 유전자 사이에 1천개 이하의 연결을 식별하고 DNA 결합 데이터에 의해 검증되었다. 본 발명자는 통상적인 클러스터링 분석에 의해 단지 6개의 상태와 비교하여, 세포 주기 진행 및 GR 반응에서 기능적 TF 모듈의 조합 상태에 의해 특징된 27개의 "숨겨진 세포 상태"를 추가로 식별하였다.
메모리 보정 및 세포 계통 분석에 의해, 본 발명자는 10시간에 걸쳐 6,000개 이상의 단일 세포 전이 궤적을 구축하였으며, 주요 궤적은 세포 주기 및 GR 반응에서 공지된 세포 상태 역학과 일치한다. 세포 상태 전이 네트워크는 모든 세포 상태에 걸쳐 전이 확률에 의해 특징되고, 모든 5개의 시점에 걸쳐 27개의 세포 상태 역학의 회복에 의해 검증된다. 마지막으로, 본 발명자는 세포 상태 전이 네트워크의 2가지 중요한 특징에 의해 조절된다는 것을 발견하였다: 상태간 거리 및 상태 불안정성 랜드스케이프, 둘 모두는 통상적인 단일 세포 RNA-seq r술에 의해 잠재적으로 추정될 수 있다.
강력하지만, 이러한 전략은 여러 한계를 갖는다. 첫째로, 단일 세포 궤적을 충실히 구축하기 위하여, 본 발명자는 각 시점에서 포괄적인 세포 상태 특징화를 필요로 한다. 또한, 각 상태에 대한 여러 관찰은 전이 확률을 강력하게 추정하기 위해 요구된다. 이러한 한계는 sci-fate의 조합 전략에 의해 용이하게 해결될 수 있으며, 이는 단일 실험에서 수백 만개의 세포를 프로파일링할 수 있다. 다른 통고는 대부분의 S4U 표지화 실험이 시험관내 시스템에 적용된다는 것이다. 그러나, 최근 연구에서는 S4U가 다수의 마우스 조직(즉, 뇌, 장 및 지방 조직)에서 세포 타입 특이적 RNA 전사를 안정하게 표지화할 수 있음을 나타내었다(41, 42), 이는 S4U 통합 및 검출 속도를 향상하기 위한 추가 최적화와 함께, sci-fate가 생체내 단일 세포 전사체 역학을 프로파일링하기 위해 적용될 수 있음을 시사한다.
sci-fate는 동적 시스템을 특징화하기 위해 "정적" 단일 세포 게놈 기술을 적용할 수 있는 새로운 길을 열어준다. 전통적인 이미징 기반 기술과 비교하여, sci-fate는 전체 전사체 수준에서 세포 상태 역학을 프로파일링하고, 마커 선택 및 세포 분화에서 중요한 구동력의 발견 없이 포괄적인 세포 상태 특징화를 가능하게 한다. 마지막으로, 본 발명자는 sci-fate가 수백 개의 발달 계통 내에서 상세한 세포 상태 전이 역학을 모든 최종 세포 상태로 해독하기 위해, 대안적인 계통 트레이싱 기술(43-45)과 용이하게 조합될 수 있다는 것을 예상한다.
물질 및 방법:
포유류 세포 배양
모든 포유류 세포는 5% CO2와 함께 37℃에서 배양되었고, 10% FBS 및 1X Pen/Strep(Gibco 카탈로그 번호 15140122; 100U/㎖ 페니실린, 100 ㎍/㎖ 스트렙토마이신)이 보충된, HEK293T 및 NIH/3T3 세포의 경우 고 글루코스 DMEM(Gibco 카탈로그 번호 11965), 또는 A549 세포의 경우 DMEM/F12 매질에서 유지되었다. 세포는 0.25% 트립신-EDTA(Gibco 카탈로그 번호 25200-056)으로 트립신화되었고, 주 당 3회 1:10으로 분할되었다.
sci-fate에 대한 샘플 처리
A549 세포는 0시간, 2시간, 4시간, 6시간, 8시간, 및 10시간 동안 100 nM DEX로 처리되었다. 모든 실험 조건에서 세포는 세포 수확 전에 마지막 2시간 동안 200uM S4U와 함께 인큐베이션되었다. HEK293T 및 NIH/3T3 세포의 경우에 세포는 세포 수확 전에 6시간 동안 200uM S4U와 함께 인큐베이션되었다.
모든 세포주(A549, HEK293T 및 NIH/3T3 세포)는 트립신화되고, 5분(4℃) 동안 300×g로 회전되고, 1X 얼음-냉각된 PBS에서 1회 세척되었다. 모든 세포는 얼음 상에서 15분 동안 4㎖ 얼음 냉각된 4% 파라폼알데하이드(EMS)로 고정되었다. 고정 후에, 세포는 3분(4℃) 동안 500×g에서 펠릿화되고, 1㎖ PBSR(1 x PBS, pH 7.4, 1% BSA, 1% SuperRnaseIn, 1% 10mM DTT)로 1회 세척되었다. 세척 후, 세포는 ㎖당 1천만 개의 세포에서 PBSR에서 재현탁되고, 액체 질소에서 급속 냉동되고 저장되었다. 파라폼알데하이드 고정된 세포는 37℃ 수욕에서 해동되고, 5분 동안 500×g로 회전되고, 얼음 상에서 3분 동안 0.2% Triton X-100을 포함한 500ul PBSR과 함께 인큐베이션되었다. 세포는 펠릿화되고, 1% SuperRnaseIn을 포함한 500ul 뉴클레아제 부재 수에 재현탁되었다. 3㎖ 0.1N HCl은 얼음 상에서 5분 인큐베이션을 위해 세포 내에 첨가되었다(21). 3.5㎖ Tris-HCl(pH = 8.0) 및 35ul 10% Triton X-100은 HCl를 중화시키기 위해 세포 내에 첨가되었다. 세포는 펠릿화되고 1㎖ PBSR로 세척되었다. 세포는 100ul PBSR에 재현탁되었다. 고정된 세포와 함께 100ul PBSR은 50℃에서 15분 동안 40ul 요오도아세트아마이드(IAA, 100mM), 40ul 나트륨 포스페이트 완충제(500mM, pH = 8.0), 200ul DMSO 및 20ul H2O를 포함한 혼합물과 함께 인큐베이션되었다. 반응은 8ul DTT(1M) 및 8.5㎖ PBS(47)에 의해 중지되었다. 세포는 펠릿화되고 100ul PBSI(1 x PBS, pH 7.4, 1% BSA, 1% SuperRnaseIn)에 재현탁되었다. 모든 후속 세척을 위하여, 핵은 5분 동안(4℃) 500×g에서의 원심분리에 의해 펠릿화되었다.
하기 단계는 파라폼알데하이드 고정 핵과 함께 sci-RNA-seq 프로토콜과 유사하다(15, 16). 간단하게, 세포는 4개의 96-웰 플레이트 내에 분포되었다. 각 웰에 대하여, 5,000 핵(2㎕)은 1㎕의 25μM 고정된 올리고-dT 프라이머 (5'-ACGACGCTCTTCCGATCTNNNNNNNN[10bp 인덱스]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTVN-3') (서열번호 5) (여기서, "N"은 임의의 염기이며, "V"는 "A", "C" 또는 "G"임; IDT) 및 0.25㎕ 10mM dNTP 혼합물(Thermo)과 혼합되고, 55℃에서 5분 동안 변성되고, 즉시 얼음 위에 배치되었다. 1㎕ 5X Superscript IV 제1-가닥 완충제(Invitrogen), 0.25㎕ 100mM DTT(Invitrogen), 0.25㎕ SuperScript IV 역전사 효소(200 U/㎕, Invitrogen), 0.25㎕ RNaseOUT 재조합 리보뉴클레아제 억제제(Invitrogen)를 함유한 1.75㎕의 제1-가닥 반응 혼합물은 이후에, 각 웰에 첨가되었다. 역전사는 하기 온도 구배에서 플레이트를 인큐베이션함으로써 수행되었다: 4℃ 2분, 10℃ 2분, 20℃ 2분, 30℃ 2분, 40℃ 2분, 50℃ 2분 및 55℃ 10분. 모든 세포(또는 핵)는 이후에, 풀링되고, 3μM의 최종 농도로 4',6-다이아미디노-2-페닐인돌(DAPI, Invitrogen)로 염색되고, 5㎕ EB 완충제 내로 웰 달 25개의 핵으로 분류되었다. 세포는, 싱글렛이 더블릿과 구별되고 각 웰 내에 분류되도록 DAPI를 기초로 하여 게이팅되었다. 0.66㎕ mRNA 제2 가닥 합성 완충제(NEB) 및 0.34㎕ mRNA 제2 가닥 합성 효소(NEB)는 이후에, 각 웰에 첨가되고, 제2 가닥 합성은 16℃에서 180분 동안 수행되었다. 각 웰은 이후에 5㎕ Nextera TD 완충제(Illumina) 및 1㎕ i7 only TDE1 효소(25 nM, Illumina, Nextera TD 완충제에 용해됨)와 혼합되고, 이후에 55℃에서 5분 동안 인큐베이션되어 태그화를 수행하였다. 반응은, 10㎕ DNA 결합 완충제(Zymo)를 첨가하고, 실온에서 5분 동안 인큐베이션함으로써 중지되었다. 각 웰은 이후에 30 uL AMPure XP 비드(Beckman Coulter)를 사용하여 정제되고, 16㎕의 완충제 EB(Qiagen)에서 용리되고, 이후에, 새로운 다중-웰 플레이트로 옮겨졌다.
PCR 반응에 대하여, 각 웰은 2㎕의 10μM P5 프라이머(5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'; IDT)(서열번호 6), 2㎕의 10μM P7 프라이머(5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3'; IDT)(서열번호 7), 및 20㎕ NEBNext High-Fidelity 2X PCR Master Mix (NEB)과 혼합되었다. 증폭은 하기 프로그램을 이용하여 수행되었다: 5분 동안 72℃, 30초 동안 98℃, 18 내지 22 사이클(10초 동안 98℃, 30초 동안 66℃, 1분 동안 72℃) 및 5분 동안 최종 72℃. PCR 후에, 샘플은 풀링되고 0.8 부피의 AMPure XP 비드를 사용하여 정제되었다. 라이브러리 농도는 Qubit(Invitrogen)에 의해 결정되었고, 라이브러리는 6% TBE-PAGE 겔 상에서의 전기영동에 의해 시각화되었다. 라이브러리는 V2 150 사이클 키트(리드 1: 18 사이클, 리드 2: 130 사이클, 인덱스 1: 10 사이클, 인덱스 2: 10 사이클)를 이용하여 NextSeq 500 platform(Illumina) 상에서 시퀀싱되었다.
리드 정렬 및 다운스트림 처리
단일 세포 RNA-seq에 대한 리드 정렬 및 유전자 카운트 매트릭스 생성은 본 발명자가 최소 변경을 갖는 sci-RNA-seq(48)를 위해 개발된 파이프라인을 이용하여 수행되었다. 리드는 먼저 STAR/v2.5.2b로 참조 게놈에 맵핑되었으며, 이는 인간의 경우 GENCODE V19 및 마우스의 경우 GENCODE VM11로부터 유전자 주석을 갖는다(49). HEK293T 및 NIH/3T3 세포로의 실험을 위하여, 본 발명자는 인간(hg19) 및 마우스(mm10) 둘 모두로부터 인덱스 조합 염색체를 사용하였다. A549 실험에 대하여, 본 발명자는 인간 게놈 구축 hg19를 사용하였다.
단일 세포 sam 파일은 먼저 jvarkit(50)에서 sam2tsv 함수를 이용하여 정렬 tsv 파일로 전환되었다. 다음으로, 각 단일 세포 정렬 파일에 대하여, 백그라운드 SNP와 매칭하는 돌연변이가 필터링되었다. A549 세포의 백그라운드 SNP 참조물에 대하여, 본 발명자는 ENCODE(28)로부터 A549 세포에 대한 쌍-단부 벌크 RNA-seq 데이터를 다운로딩하였다(샘플링명: ENCFF542FVG, ENCFF538ZTA, ENCFF214JEZ, ENCFF629LOL, ENCFF149CJD, ENCFF006WNO, ENCFF828WTU, ENCFF380VGD). 각 쌍-단부 fastq 파일은 먼저 기본값 셋팅을 갖는 trim_galore/0.4.1(51)을 이용하여 어댑터-클립핑되고, STAR/v2.5.2b(49)로 구축된 인간 hg19 게놈에 정렬되었다. 맵핑되지 않고 다중 맵핑된 리드는 samtools/v1.3(52)에 의해 제거되었다. 복제된 리드는 picard/1.105에서 MarkDuplicates 함수에 의해 필터링되었다(53). 모든 샘플로부터의 탈-복제된 리드가 조합되고, samtools/v1.3로 분류되었다(52). 백그라운드 SNPs는 samtools/v1.3(52)에서의 mpileup 함수 및 VarScan/2.3.9(54)에서의 mpileup2snp 함수에 의해 콜링되었다. HEK293T 및 NIH/3T3 시험 실험을 위하여, 백그라운드 SNP 참조물은 대조 조건으로부터의 집계된 단일 세포 sam 데이터(S4U 표지화 및 IAA 처리 조건이 아님)와 함께, 상기 유사한 파이프라인에서 생성되었다.
각 단일 세포 정렬 파일에 대하여, 품질 스코어 <= 13을 갖는 모든 돌연변이가 제거되었다. 각 리드의 양 단부에서의 돌연변이는 주로 시퀀싱 오류에 기인한 것이고, 이에 따라, 필터링되었다. 각 리드에 대하여, 본 발명자는 T > 돌연변이(센스 가닥의 경우) 또는 A > G 돌연변이(안티센스 가닥의 경우)인 경우를 체크하고, 새로이 합성된 리드로서 이러한 돌연변이된 리드를 표지화하였다.
각 세포는 상술된 바와 같이 전체 시퀀싱 데이터 및 새로이 합성된 RNA 데이터로부터 2개의 디지털 유전자 발현 기질에 의해 특정화되었다. 5개 이하의 세포에서 발현된 유전자는 필터링되었다. 2000 이하의 UMI 또는 80,000 초과의 UMI를 갖는 세포가 폐기되었다. 더블릿 분석 파이프라인 Scrublet/0.2(55)에 의한 더블릿 스코어 > 0.2를 갖는 세포가 제거되었다.
데이터의 차원성은 먼저, Monocle 3(56, 57)에 의한 전체 유전자 발현 데이터 또는 새로이 합성된 유전자 발현 데이터 상에서 디지털 유전자 발현 기질 상에서 PCA(최고 분산을 갖는 2,000개 유전자를 선택한 후)로 감소되었다. 상부 10 PC는 차원 감소 및 데이터 시각화를 수행하기 위해 Riemannian 기하학 및 대수 토폴로지를 기초로 한 최근 제안된 알고리즘인 uniform manifold approximation and projection(UMAP/0.3.2)으로 차원 감소 분석을 위해 선택되었다(26). 공동 분석을 위하여, 본 발명자는 전체 전사체 상에서 계산된 상부 10 PC 및 UMAP로의 차원 감소 전 각 단일 세포에 대한 새로이 합성된 전사체 상에서 계산된 상부 10 PC를 조합하였다. 세포 클러스터는 Monocle 3(56, 57)에서 구현된 densityPeak 알고리즘을 통해 수행되었다. 본 발명자는 먼저, 모든 처리된 세포의 결합 정보에 대한 UMAP 분석을 수행하고, 아웃라이어 클러스터(7,404개 세포로부터 724)를 식별하였다. 이러한 세포는 분화된 세포의 마커(34)인 GATA3의 고수준 발현에 의해 마킹되고, 다운스트림 분석 전에 필터링되었다.
조절된 유전자에 전사 인자(TF)를 연결하기 위한 분석
본 발명자는 이의 공분산을 기초로 하여 TF와 조절된 유전자 간의 결합을 식별하는 것을 목표로 하였다. 모든 세포의 10% 초과에서 검출된 10,000 초과의 UMI를 갖는 세포, 및 검출된 새로운 합성 리드를 갖는 유전자가 선택되었다. 세포당 전체 유전자 발현 및 새로이 합성된 유전자 카운트는 Monocle 3 (56, 57)에서 estimateSizeFactors에 의해 전체 유전자 발현 기질에 대해 계산된 세포-특이적 라이브러리 크기 인자에 의해 정규화되고, log 변형되고, 중심에 두고, 이후에, R의 스케일() 함수에 의해 스케일링되었다. 검출된 각 유전자에 대하여, LASSO 회귀 모델은 하기 모델을 피팅함으로써, 패키지 RcisTarget(29)으로부터의 "motifAnnotations_hgnc" 데이터에서 주석이 달린 853 TFs의 정규화된 발현을 기초로 하여, 정규화된 발현 수준을 예측하기 위해 패키지 glmnet (58)로 구성되었다:
Figure 112022045449509-pat00020
상기 식에서, Gi는 유전자 i에 대한 조정된 유전자 발현 값이다. 이는 각 세포에 대한 새로이 합성된 mRNA에 의해 계산되고, 각 세포의 전체 발현 기질에 대해 Monocle 3 (56, 57)에서 estimateSizeFactors에 의한 세포 특이적 크기 인자(cell specific size factor)(SGi)에 의해 정규화되고, log 변환되었다:
Figure 112022045449509-pat00021
유전자 간의 다운스트림 비교를 단순화하기 위해, 본 발명자는 각 유전자 i에 대한 모델을 R의 스케일() 함수로 피팅하기 전 반응 Gi를 표준화한다.
Gi와 유사하게, Ti는 각 세포에 대한 조정된 TF 발현 값이다. 이는 각 세포에 대한 전체 TF 발현 카운트에 의해 계산되고, 각 세포의 전체 발현 기질에 대해 Monocle 3 (56, 57)에서 estimateSizeFactors에 의한 세포 특이적 크기 인자(SGi)에 의해 정규화되고, log 변환되었다:
Figure 112022045449509-pat00022
피팅 전에, Ti는 R의 스케일() 함수로 표준화된다.
본 방법은 회귀 모델에서 이의 발현을 예측하기 위해 사용될 수 있는 서브세트를 발견함으로써 각 유전자를 조절할 수 있는 TF를 목표로 한다. 그러나, 유전자의 발현과 상관관계가 있는 발현을 갖는 TF는 유전자를 조절하는 것을 보증하지 않는다: 유전자 A가 세포 상태 1에서 특이적으로 발현되고, TF B는 세포 타입 2에서 특이적으로 발현되는 경우. TF의 발현과 유전자의 새로운 합성 속도 간의 음의 상관관계가 전사 억제자의 활성을 반영할 수 있지만, 본 발명자는 glmnet에 의해 보고된 음의 연결에 대한 더 가능성 있는 설명이 세포 상태 특이적 발현 및 TF 활성의 상호 배타적인 패턴이라고 나타내었다. 이에 따라, 예측 동안, 본 발명자는 유전자의 합성 속도 및 또한 낮은 상관계수(<= 0.03) 연결과 함께 음의 상관된 발현을 갖는 TF를 배제하였다. 본 발명자는 TF와 조절된 유전자 간에 총 6,103개 연결을 식별하였다.
추정적 직접-결합 표적을 식별하기 위하여, 본 발명자는 ENCODE Chip-seq 실험(28)에서 프로파일링된 TF와의 연결을 교차하였다. ENCODE에서 특징화된 TF와의 1,086개 연결로부터, 807개의 연결은 백그라운드와 비교하여 홀수 비율(비-검증된 연결에 대한 검정된 연결의 수)에 있어서 4.3배 풍부한 것으로 유전자 프로모터 부근의 TF 결합 부위에 의해 검증되었다(59)(홀수 비율 = LASSO 회귀에서 식별된 연결에서 2.89 대 백그라운드에서 0.67, p-값 < 2.2e-16, Fisher's Exact 시험). 정확한 TF Chip-seq 결합 부위가 상당히 농축된 유전자 세트만이 유지되며(Fish's Exact test, 5%의 거짓 발견률), TF 결합 데이터 지지 없이 간접 표적 유전자를 제거하기 위해 제거되었다. 591개의 연결은 이러한 방법에서 유지되었다.
검증된 TF-유전자 연결을 확장하기 위해, 본 발명자는 유전자 프로모터(10kb) 둘레의 표적 TF 모티프의 풍부성을 기초로 하여 유전자 조절 네트워크를 구성하기 위한 파이프라인인, 패키지 SCENIC(29)를 추가로 적용하였다. LASSO 회귀에 의해 식별된 각 동시-발현 모듈은 RcisTarget(29)을 이용한 시스-조절 모티프 분석을 이용하여 분석되었다. 정확한 TF 조절인자의 유의미한 모티프 풍부성을 갖는 모듈만이 유지되었고, 모티프 지지 없이 간접 표적 유전자를 제거하기 위해 축소되었다. 본 발명자는 3개의 상관 계수 임계값(0.3, 0.4 및 0.5)에 의해 TF-유전자 연결을 필터링하고, RcisTarget(29)에 의해 검증된 모든 연결을 결합하였다. 전체적으로, 모티프 분석 방법에 의해 509개의 연결이 검증되었다. 두 방법을 결합하여, 본 발명자는 TF 발현과 유전자 합성 속도 사이의 공분산에 의해 총 986개 TF-유전자 조절 연결을 식별하였고, DNA 결합 데이터 또는 모티프 분석에 의해 검증되었다. 연결이 정규화된 회귀의 인공물일 가능성을 평가하기 위하여, 본 발명자는 TF 발현 기질의 샘플 ID를 치환하고, 동일한 분석을 수행하였다. 이러한 치환 후에 연결이 식별되지 않았다.
기능적 TF 모듈에 의한 세포 정렬
각 세포에서 TF 활성을 계산하기 위해, 표적 TF 모듈 내의 유전자에 대한 새로이 합성된 UMI 카운트를 라이브러리 크기로 스케일링하고, log-변환하고, 합하고, 이후에, Z-스코어로 맵핑하였다. 상호연관성이 높거나 상호연관성이 없는 TF가 관련된 생물학적 공정에서 기능할 수 있음을 시사하는 것처럼, 본 발명자는 TF 활성의 각 쌍 간의 절대 피어슨 상관 계수를 계산하였고, 이를 기초로 하여, 본 발명자는 패키지 pheatmap/1.0.12(60)에서 ward.d2 클러스터링 방법에 의해 TF를 클러스터링하였다. 5개의 기능적 TF 모듈을 이의 기능을 기초로 하여 식별하고 주석을 달았다.
각 기능적 TF 모듈의 차원에 대해 세포 상태를 특징화하기 위하여, 세포는 UMAP(메트릭 = "코사인", n_neighbors = 30, min_dist = 0.01)를 갖는 세포 주기 관련 TF(TF 모듈 1) 또는 GR 반응 관련 TF(TF 모듈 3)의 활성에 의해 정렬되었다. 세포 주기 진행 궤적은 Seurat/2.3.4(27)에서 세포 주기 유전자 마커에 의해 검증되었다. 3개의 세포 주기 단계는 세포 주기 TF 모듈에 의해 정렬된 UMAP 좌표 상에, Monocle 3 (56, 57)에서 구현된 densityPeak 알고리즘에 의해 식별되었다. 각 주요 세포 주기 단계가 여전히 가변 TF 활성 및 세포 주기 마커 발현을 나타내었을 때, 본 발명자는 k-수단 클러스터링(k = 3)에 의해 각 단계를 초기/중기/후기 상태로 세그먼트화하고, 총 9개의 세포 주기 상태를 회복하였다. 3개의 GR 반응 상태는 Monocle 3 (56, 57)에서 구현된 densityPeak 알고리즘에 의해 식별되었다.
sci-fate로부터의 과거 전사체 상태 회복
과거 전사체 상태(S4U 표지화 전 세포 상태)를 식별하기 위하여, 본 발명자는 mRNA 반감기가 상이한 DEX 처리 조건에 걸쳐 안정하다고 가정한다. 이러한 가정은 이후 자가-일관성 체크에 의해 추가로 검증된다. 이러한 가정 하에서, 2시간 S4U 표지화 전에 일부 분해된 벌크 전사체는 DEX 처리되지 않은 세포와 2시간 DEX 처리된 세포 사이에 동일해야 한다. 이에 따라, 전체 전사체(벌크)에서의 이의 차이는 기술 검출 속도에 의해 보정된 새로이 합성된 전사체(벌크)에서의 이의 차이와 동일해야 한다:
Figure 112022045449509-pat00023
A(0h)는 DEX 미처리 그룹에서 모든 세포에 대한 집계된 UMI 카운트이며; S(0h)는 DEX 미처리에서 라이브러리 크기(세포의 총 UMI 카운트)이며; N(0h)는 DEX 미처리 그룹에서 모든 세포에 대한 집계된 새로이 합성된 UMI 카운트이며; A(2h)는 2시간 DEX 처리 그룹에서 모든 세포에 대한 집계된 UMI 카운트이며; S(2h)는 2시간 DEX 처리 그룹에서 라이브러리 크기(세포의 총 UMI 카운트)이며; N(2h)는 2시간 DEX 처리 그룹에서 모든 세포에 대한 집계된 새로이 합성된 UMI 카운트이며; α는 sci-fate에 대한 검출 속도이다. 이론적으로, 하나의 검출 속도는 각 유전자에 대해 계산될 수 있다. 그러나, 2가지 조건 사이에 새로운 합성 속도의 작은 차이를 갖는 유전자에 대하여, 추정된 α는 노이즈에 의해 지배된다. 본 발명자는 이에 따라 2가지 조건 사이에 정규화된 새로운 합성 속도의 더 큰 차이를 나타내는 유전자를 선택하였다: 본 발명자는 먼저 유전자 필터링에 대한 일련의 임계값을 시험하였고, 각 유전자에 대해 α를 계산하였다. 본 발명자는 이후에, 임계값과 벗어난 α 값(< 0 또는 > 1)을 갖는 유전자의 비율 간의 관계를 플롯팅하였다. 본 발명자는 선택된 186개의 유전자와 함께 플롯의 변곡점에 있는 임계값을 선택하였다. 이러한 유전자의 새로이 합성된 mRNA의 차이는 mRNA 발현 수준의 차이와 매우 관련이 있으며(피어슨 r = 0.93, 도 35A), 이는 신규한 RNA 검출 속도가 유전자에 걸쳐 다소 안정함을 시사한다. sci-fate에 의해 캡처된 82% 새로이 합성된 RNA의 중간값이 존재한다.
본 발명자는 다음으로, 각 2시간에 걸쳐 mRNA 분해 속도를 계산하였다. A549 세포 집단이 외부 섭동 없이 안정한 것으로 간주될 수 있기 때문에, 2시간 DEX 처리된 세포에 대하여, 이의 과거 상태(2시간 S4U 표지화 전)는 0시간 DEX 처리된 세포와 동일해야 한다. 유사하게, T = 0/2/4/6/8/10시간 DEX 처리된 세포에 대한 과거 상태(S4U 표지화 전)는 프로파일링된 T = 0/0/2/4/6/8시간 세포와 유사해야 한다:
Figure 112022045449509-pat00024
At1는 t1에서 모든 세포에 대한 집계된 UMI 카운트이며; St1은 t1에서 라이브러리 크기이며(세포의 총 UMI 카운트); Nt1은 t1에서 모든 세포에 대한 집계된 새로이 합성된 UMI 카운트이며; α는 sci-fate의 추정된 검출 속도이며; At0는 t0에서 모든 세포에 대한 집계된 UMI 카운트이며; St0는 t0에서 라이브러리 크기이며(세포의 총 UMI 카운트); β는 1 - t0과 t1 사이의 유전자 특이적 분해 속도이고, 하기 식에 의해 mRNA 반감기 γ와 관련이 있다:
Figure 112022045449509-pat00025
유전자 분해 속도 β는 각 2시간 간격의 DEX 치료에 대해 계산될 수 있다. 상기 언급된 자가-일관성 체크로서, 유전자 분해 속도는 상이한 DEX 처리 시간에 걸쳐 매우 관련이 있다(도 35B). 본 발명자는 이후에, 다운스트림 분석에 대한 평균처리된 유전자 분해 속도를 사용하였다.
추정된 검출 속도 및 유전자 분해 속도를 이용하여, 각 세포의 과거 전사체 상태는 하기 식에 의해 추정될 수 있다:
Figure 112022045449509-pat00026
at1은 t1에서 단일 세포 UMI이며; nt1은 t1에서 단일 세포 새로이 합성된 UMI 카운트이며; α는 sci-fate의 추정된 검출 속도이며; β는 1 - t0과 t1 사이에 유전자 특이적 분해 속도이며, at0는 과거 시점 t0에서 추정된 단일 세포 UMI 카운트이며, 모든 음의 값은 0으로 전환된다.
단이 세포 상태 궤적을 구축하기 위한 연결 분석
연결 분석에 의해, 본 발명자는 동일한 세포 궤적에서 연결된 부모 및 자식 세포를 식별하는 것을 목표로 한다. 기술적으로, t1에서 세포에 대하여, 본 발명자는 하나의 그룹 1로서 이의 과거 상태 전사체 상태(하나의 실험에서 S4U 표지화 전, t1 전 2시간), 및 다른 그룹 2로서 t0의 전체 전사체 상태(t1 전 2시간)를 조합한다. 명백한 세포 아폽토시스가 존재하지 않다고 가정하면, 이러한 2개의 그룹은 유사한 세포 상태 분포를 가져야 한다. 본 발명은 공통의 변이원을 기초로 하여, 2개의 데이터 세트 사이에 공통 세포 상태를 식별하기 위해 매니폴드 정렬 전략을 적용하였다(27). 이러한 분석은 (출발 및 종료 시점에서의 세포를 제외하고) 각 세포의 과거 및 현 상태가 포괄적으로 검출된다는 다른 가정을 기초로 하며, 이는 6,000개 이상의 세포가 프로파일링될 때(조건 당 1,000개 이상의 세포) 데이터 세트에서 보유되거나, 세포는 세포 주기 동안 1분 미만 동안 있다. 파이프라인의 결과로서, t0으로부터의 세포 상태 및 t1으로부터의 과거 세포 상태는 동일한 UMAP 공간에서 정렬된다. 상기 가정의 위반은 2개의 데이터 세트의 정렬 동안 아웃라이어에 의해 검출될 수 있다. t1에서 각 세포 A에 대하여, 본 발명자는 정렬 UMAP 공간에서 이의 부모 상태로서 t0에서 이의 가장 가까운 이웃을 선택하였다. 유사하게, t0에서 각 세포에 대하여, 본 발명자는 이의 자식 세포 상태로서 t1에서 이의 가장 가까운 이웃을 선택하였다. 특히, 연결은 양방향일 필요는 없다: 하나의 세포의 부모 상태는 상이한 자식 세포에 연결될 수 있다. 부모 상태 및 자식 상태가 (0시간 및 10시간에서의 세포를 제외하고) 각 세포에 대해 식별될 때, 본 발명자는 각 세포의 부모의 연결된 부모 세포, 및 유사하게, 각 세포의 자식의 연결된 자식 세포를 식별하였다. 이에 따라, 각 단일 세포는 10시간에 걸쳐 모두 5개의 시점에 걸쳐 단일 세포 상태 전이 경로에 의해 특징화될 수 있다. 다수의 세포(>50)가 각 세포 상태에서 프로파일링될 때, 확률적 세포 상태 전이 공정이 또한 캡처될 수 있다.
단일 세포 전사체 역학을 위한 차원 감소 및 클러스터링 분석
단일 세포 전사체 역학에 대한 차원 감소를 위하여, 전체 전사체에 대한 상부 5개의 PC 및 새로이 합성된 전사체에 대한 상부 5개의 PC는 각 상태에 대해 선택되었고, UMAP 분석을 위한 단일 세포 상태 궤적을 따라 시간 순서로 조합되었다. 주요 세포 궤적 타입은 밀도 피크 클러스터링 알고리즘(61)에 의해 식별되었다.
개시 시점(0시간 처리)에서의 세포 상태 비율 및 데이터로부터 추정된 세포 상태 전이 확률을 이용하여, 본 발명은 먼저, DEX 처리에서 세포 상태 전이 공정이 세포-자율적이고, 시간-독립적인 Markovian 역학이라고 가정하여, 2시간 후 세포 상태 분포를 예측하였다. 유사하게, 후기 시점에서 세포 상태 분포는 2시간 전 예측된 세포 상태 분포를 기초로 하여 계산될 수 있다.
상태 불안정성에 의한 상태간 전이 확률 예측
세포 상태 불안정성은 2시간 후 다른 상태로 이동하는 각 상태의 확률로서 규정된다. 세포 상태 거리를 계산하기 위하여, 본 발명자는 먼저, 각 상태에서 동일한 수(n = 50)의 세포를 샘플링하고, 상태 내에서 모든 세포의 전체 전사체 및 새로이 합성된 전사체를 집계하였다. 각 세포 상태는 전체 및 새로이 합성된 전사체를 조합한 결합 정보에 의해 규정될 수 있다. 세포 상태 거리는 2개의 상태 간의 결합 정보의 피어슨 상관 계수로서 계산된다.
상태간 전이 확률을 예측하기 위하여, 본 발명자는 Keras/2.2.4(62)로 3 레이어 뉴런 네트워크를 구축하였다(유닛 번호: 128, 128, 26, 각 레이어에서 relu 활성화를 가짐; 손실 함수: cosine_proximity, 배치 크기: 128, 에포크: 80). 입력을 위하여, 본 발명자는 현 상태의 상태 불안정성, 다른 26개의 상태(현 상태의 불안정성에 의해 스케일링됨)의 정규화된 상태 불안정성, 및 현 상태에서 다른 26개의 상태(상태 불안정성 벡터에서 동일한 상태 순서에서)까지의 전이 거리(제곱)를 이용하였다. 오버-피팅을 방지하기 위하여, 본 발명자는 상태 불안정성과 동일한 상태 전이 거리의 상태 순서를 여전히 유지하면서, 각 입력에 대한 상태 불안정성의 상태 순서를 200회 변경하였다. 모델 성능을 평가하기 위하여, 본 발명자는 26개의 상태에 대해 모델을 훈련시킴으로써 리브-원-아웃(leave-one-out) 검정을 적용하고, 모든 다른 26개의 상태에 대한 상태 전이 확률을 예측에 대해 남은 상태에 대한 모델을 검정한다. 단지 상태 전이 거리를 갖는 상태간 확률을 예측하기 위하여, 1로 대체된 모든 입력 상태 불안정성으로 훈련 및 검증하기 위해 동일한 모델이 이용된다.
문헌
Figure 112022045449509-pat00027
Figure 112022045449509-pat00028
Figure 112022045449509-pat00029
Figure 112022045449509-pat00030
Figure 112022045449509-pat00031
Figure 112022045449509-pat00032
실시예 4
멀티플렉스 전사체 캡처
대부분의 단일 세포 RNA 시퀀싱 방법은 세포당 15,000 내지 50,000개의 독특한 리드의 범위에서 포화되며[Ziegenhain et al. 2017], 단일 세포의 전체 mRNA 함량은 50,000 내지 300,000 분자 범위일 수 있다[Marinov et al. 2014]. 또한, 이러한 방법 중 대부분은 역전사(RT)를 위한 올리고(dT) 프라이밍을 사용하는데, 이는 RNA의 3' 단부에서 시퀀싱에 초점을 맞춘다. 이는, 이러한 방법이 임의의 제공된 전사체의 존재비의 변화를 검출하는 능력을 제한함을 의미한다. 다수의 세포를 프로파일링한 최근 연구[Gasperini et al. 2019; Cao et al. 2019]는 매우 높은 시퀀싱 깊이를 필요로 하였다. 이러한 연구에서 사용된 Illumina NovaSeq 실행은 각각 $30,000이 소요되었으며, 이는 대부분 그룹에 대해 이러한 실험을 확실하게 수행할 수 없다.
그러나, 두 경우 모두에서, 데이터로부터 생물학적 통찰력을 얻는데 요망되는 리드의 수는 비교적 적다. 비코딩 섭동의 단일 세포 판독에서, 방해되는 조절 요소에 대한 유전자 시스만이 발현 변화에 대해 시험된다[Xie et al. 2017; Gasperini et al. 2018]. 세포 지도 실험에서, 전체 발현 패턴이 유사한 세포를 클러스터링하기 위해 사용되는 반면, 세포 타입 할당은 소수의 주요 전사 인자 유전자를 사용하여 수행되었다. 이에 따라, 이러한 실험에서 가장 유익한 유전자 전사체에 대한 판독에 초점을 맞추는 능력은 요망되는 시퀀싱 깊이의 큰 감소, 및 세포 간에 미묘한 차이를 검출하는 능력의 증가를 야기시킬 것이다.
본 발명자는 올리고(dT) 프라이밍보다 오히려 특정 RT 프라이머를 사용함으로써 고려되는 mRNA 상에서의 단일 세포 시퀀싱에 초점을 맞추었다. 유사한 방법은 최근에 대량으로 사용되어, 효모에서 모든 공지된 스플라이스 접합을 특이적으로 시퀀싱하여, 비-표적화된 영역에 비해 표적화된 영역에 대해 100배 농축을 야기시켰다[Xu et al., 2018]. 고려되는 전사체를 가로지러 붙여진 RT 프라이머의 풀은 실험 당 수백개의 캡처된 전사체에 대한 전사체 라이브러리(sciRNA-seq) 판독값의 감소를 허용할 것이다.
이러한 sciRNA-seq 게리맨더링은 올리고(dT) 프라이밍에 비해 여러 장점을 갖는다. 첫째로, 이는 본 발명자가 각 실험에 대해 가장 유익한 것으로 결정한 게놈의 영역으로의 시퀀싱을 유도할 것이다. 둘째로, 이는 각 RNA 분자가 cDNA로 역전사될 수 있는 기회를 허용하여 RNA 분자 당 검출 가능성을 증가시킨다. 셋째로, 이러한 방법은 독특하게 맵핑 가능하고, 랜덤 헥사머 또는 올리고(dT) 프라이밍의 대안보다 더욱 리보솜 리드이 백그라운드를 감소시킬 수 있는 앰플리콘만을 표적화할 수 있게 한다. 넷째로, 이는 대안적인 전사 개시 부위 사건으로부터 형성된 스플라이스 접합 및 엑손과 같은 mRNA의 유익한 영역을 표적화하여, 통상적인 sciRNA-seq로 용이하게 검출될 수 없는 이소형 정보를 제공할 수 있다.
sciRNA-seq는 다중 RT 프라이머로의 변형에 독특하게 적합하다. 대부분의 단일 세포 RNA-seq 방법은 독특한 식별자 올리고와 결합된 비드를 사용하여 각 세포의 전사체에 세포 식별 바코드를 첨부하고, 대개, 이의 폴리(A) 테일에 혼성화시킴으로써 mRNA를 캡처한다. 이러한 비드가 수 개의 전사체의 범위를 증가시키기 위해 소수의 특정 RT 프라이머를 추가하도록 변형되었지만[Saikia et al. 2018], 이러한 전략은 수백개의 표적화된 전사체로 확장하거나 실험 간에 빠르게 변화하기 어려울 것이다. 이에 따라, 단일 세포 조합 인덱싱의 적응성은 멀티플렉스 RT 단일 세포 RNA-seq의 발달에 도움을 줄 것이다.
이러한 양태의 작업흐름은 실시예 1 및 3에 기술된 3 수준 sciRNA-seq 프로토콜과 유사하지만, 일부 버전에서 RT 단계를 포함하지 않는다.
1. RT 프라이머의 풀을 설계. 일 양태에서, 이러한 것은 개별적으로 ㅎ kq성되고 풀링될 것이다. >384 앰플리콘을 표적화하기 위해, 프라이머의 라이브러리는 합성되고, 이중 가닥 DNA로서 전파되고, 처리되어 기술된 바와 같이 단일 가닥 프라이머를 생성할 수 있다[Xu et al. 2018]. 이러한 제2 전략은 RT 프라이머에 여러 독특한 인덱스의 추가를 허용한다(RT 및 최종 PCR에서 sciRNA-seq 인덱싱을 허용함).
2. 프라이머의 풀을 이용한, 멀티플렉스 RT. 이는 수천개의 세포를 갖는 단일 반응(인덱싱이 이러한 단계에서 수행되지 않는 경우), 또는 역전사될 때 웰 특이적 인덱스를 추가하는 여러 병렬 반응 중 어느 하나일 것이다.
3. 헤어핀 어댑터를 결찰시켜 웰 특이적 인덱스를 추가.
4. 모든 세포를 풀링하고, 제2 가닥 합성을 수행.
5. 여러 웰에 세포를 분포시키고, 태그화를 수행하여 제2 일정 PCR 핸들을 추가.
6. PCR 증폭, 최종 웰 특이적 인덱스를 추가.
7. 시퀀싱.
프라이머 설계 작업흐름:
1. 표적화되는 유전자로부터 모든 엑손에 대한 서열을 수집한다.
2. 모든 가능한 25 bp RT 프라이머를 분석하다.
3. 하기에 의해 후보물질 RT 프라이머를 여과한다:
a. 대략 55 내지 70도인 용융 온도에 해당하는 40 내지 60%의 GC 함량.
b. 어닐링된 RT 프라이머가 역전사 효소에 의해 연장을 위한 양호한 기질일 가능성을 증가시키는, 마지막 5 nt의 프라이머에서 적어도 2개의 G 또는 C
c. 오프 표적 프라이밍의 가능성. 본 발명자의 제1 실험에서, 본 발명자는 본 발명자의 표적 유전자가 매우 농축된 반면, 세포 내에 풍부한 다른 RNA로부터 많은 분율의 리드가 여전히 유도됨을 발견하였다. 대부분의 이러한 오프 표적 프라이밍 사건은 프라이머의 단부 3' 단부와 오프 표적 RNA 사이의 약 5 내지 8 bp의 상보성의 결과이다. 이에 따라, 본 발명자의 마지막 프라이머 설계 파이프라인은 전체 세포 RNA 내에 RT 프라이머의 최종 헥사머의 풍부함을 고려한다. 본 발명자는 단지 이러한 마지막 헥사머가 하기 중 어느 하나인 RT 프라이머만을 포함한다:
i. 리보솜 RNA 내에 전혀 존재하지 않음. 상기에서 기술된 '랜덤이 아님(Not So Random)' 또는 NSR 헥사머의 세트로부터(Armour et al. 2009). 이러한 필터를 통과하는 프라이머는 리보솜 RNA 내에 오프 표적 프라이밍을 가질 가능성이 훨씬 낮을 것이다.
ii. 전체 세포 RNA 내에 낮게 나타남. 본 발명자는 인간 게놈에 맵핑되는 PRO-seq 리드 내에 모두 4,096개의 가능한 헥사머의 존배비를 카운팅하였다[Core et al. 2014]. PRO-seq는 리보솜 전사를 포함하는, 세포 내에서 모든 초기 전사를 측정한다. 본 발명자는 이러한 데이터세트에서 풍부함의 가장 낮은 사분위수 내에 있는 헥사머에서 종결되는 RT 프라이머만을 사용한다. 이는 리보솜 RNA 내에 존재하지만, 세포 내에 RNA로서 풍부하지 않은 일부 헥사머를 구제한다.
이러한 풍부 필터는 프라이머 선택을 크게 변경시킨다. 이러한 필터를 갖거나 갖지 않는 본 발명자의 파이프라인에 의해 선택된 프라이머 사이에 단지 약 17% 중첩이 존재한다. 본 발명자의 설계 파이프라인의 미래 버전은 이러한 오프 표적 필터를 세분화할 것이다. 본 발명자가 더 많은 프라이머에 대해 데이터를 수집함에 따라, 본 발명자는 더 많은 오프 표적 프라이밍 사건을 평가할 수 있어야 한다.
4. 맵가능성에 의해 후보물질을 여과한다. 본 발명자는 보타이(bowtie)를 이용하여 hg19로 각 후보물질을 정렬하여, 3개의 미스매치를 허용하였다. 이러한 단계는, 각 프라이머가 게놈에서 단지 하나의 표적 부위를 가질 것을 보장한다.
5. 이러한 필터를 통해 제조된 가능한 프라이머 중에서, 유전자를 가로질러 가장 균일하게 붙여진 세트를 선택한다.
본 발명자가 표적화하는 각 유전자에 대하여, 본 발명자는 엑손 당 얼마나 많은 프라이머가 설계될 것인지를 결정한다. 본 발명자는 각 엑손에 대한 필터를 통과하는 제1 및 마지막 프라이머를 포함하고, 이후에, 엑손을 정확하게 n개의 정크로 분할하는 프라이머 위치로부터의 거리를 최소화함으로써 엑손을 가장 균일하게 덮는 내부 프라이머를 선택한다.
예를 들어, 300 bp 엑손에 대하여, 3개의 프라이머에 대해 검색하는 경우에, 본 발명자는 이러한 포인트까지 모든 필터를 통과한 위치 1, 150 및 300에 가장 가까운 필터를 사용한다.
6. 본 발명자의 파일럿 실험을 위하여, RT 프라이머를 384 웰 플레이트에서 정렬시키고, 모든 프라이머의 동일 몰 혼합물을 생성시키기 위해 풀링하였다. 이러한 혼합물을 이후에, T4 폴리뉴클레오타이드 키나제로 포스포릴화하여 sciRNA-seq 라이브러리 생성 동안 인덱싱된 헤어핀 올리고의 결찰을 허용하였다[Cao et al. 2019]. 이는 정렬 포스포릴화된 올리고보다 훨씬 더 비용 효과적이다. 25 bp RT 프라이머는 또한, 웰 특이적 인덱스(조합 인덱싱) 및 PCR 핸들을 추가하는 헤어핀 올리고의 어닐링을 위한 6 bp 핸들 및 8 bp 독특한 분자 식별자(UMI)를 추가한다.
이러한 공정은 각 RT 프라이머가 별도로 정렬될 때 반복될 수 있다: 제1 실험에서 바람직한 캡처 속도를 갖는 것으로 확인된 프라이머를 선택적으로 재풀링함으로써 후속 실험에서 더 낮은 오프 표적 비율이 달성되었다. 각 Illumina 시퀀싱 리드는 25 bp RT 프라이머 및 캡처된 RNA 분자에 걸쳐 있어서, RT 프라이머 및 캡처된 분자를 별도로 맵핑하여 각 프라이머에 대한 온-표적 속도를 계산할 수 있다.
이후 라운드는 어레이를 합성함으로써 더 많은 RT 프라이머를 통합할 수 있다. 프라이머 라이브러리는 PCR에 의해 전파되고, PCR 프라이머에서 차단기를 포함하지 않는 가닥의 선택적 엑소핵분해 분해에 의해 단일 가닥으로 만들 수 있다[Xu et al. 2018]. 큰 어레이는 프라이머의 다수의 풀을 합성하기 위해 사용될 수 있다: 각 풀이 특정 PCR 핸들을 갖는 경우에, 하나의 어레이는 각각이 선택적으로 증폭될 수 있는 수 천개의 프라이머의 수십개 풀을 생성시키기 위해 사용될 수 있다.
멀티플렉스 역전사:
멀티플렉스 표적 캡처는 RNA-seq 라이브러리 생성 프로토콜 동안 여러 단계에서 가능하게 수행될 수 있다. 그러나, 본 발명자는, 역전사가 병렬화가 가장 쉬울 것으로 사료된다. 고도의 멀티플렉스 PCR 반응은 성공적으로 수행하기 매우 어렵다. PCR 반응은 여러(10 내지 20) 사이클을 포함한다. 이는 오프 표적 어닐링을 갖는 문제가 요망되는 표적을 종종 능가하는 이러한 사이클 통한 기하급수적 성장 후에 악화됨을 의미한다. 멀티플렉스 PCR에서, 각 표적은 개의 특이적 PCR 프라이머를 제공한다. 목표는 이러한 2개의 프라이머가 이의 표적만을 특이적으로 증폭시키기기 위한 것이다. 그러나, 큰 프라이머 풀에서, 풀에서 다른 프라이머에 어닐링되는 여러 조합이 존재할 것이다. 프라이머의 농도가 주형 분자의 농도보다 훨씬 더 높기 때문에, 이러한 프라이머 다이머는 PCR의 단부에 의해 풀을 지배할 것이다. 고도의 멀티플렉스화된 PCR의 실행불가능성은 엑솜 시퀀싱과 같은 여러 표적화된 증폭 프로토콜이 종종 표적을 캡처하기 위해 분자 반전 프로브를 사용하는 이유이다[Hiatt et al. 2013]. 이러한 프로토콜에서, 표적 특이성은 프로브와 표적 사이에 단일 어닐링 단계를 통해 달성된다. 표적 특이적 프로브는 PCR 핸들을 추가하는데, 이는 이후에, 표적 유전 PCR 증폭에서 사용된다. 단일 세포 조합 인덱싱 방법은 라이브러리 생성 동안 여러 단계에서 인덱싱에 의존하며, cDNA로부터 표적을 캡처하기 위한 반전 프로브 방법은 충분한 인덱싱 단계를 허용하지 않을 것이다.
멀티플렉스 표적 캡처를 위해, 특정 역전사 프라이머를 사용하고, 이후에, 역전다된 모든 분자를 증폭하는 PCR 반응으로 이어진다. 이에 따라, 본 발명자의 전략은 표적화된 DNA 증폭을 위해 분자 반전 프로브를 사용하는 것과 유사하며, 단일 단계(역전사)는 고려되는 전사체를 선택적으로 표적화하고, PCR 동안 모든 표적화된 분자를 증폭시키기 위해 사용될 수 있는 일반 PCR 핸들을 추가한다. 이에 따라, 역전사 동안 높은 특이성이 중요하다. RT 프라이머의 어닐링 후 고온을 유지하는 것은 멀티플렉스 특이적 프라이밍에 도움이 된다. 정상 역전사 프로토콜은 RNA와 역전사 프라이머의 혼합물을 변성시키고, 4도로 냉각시켜 어닐링할 수 있다. 이러한 낮은 어닐링 온도는 표적 어닐링 사건을 벗어나기에 허용 가능하지 않다. 본 발명자는, 확장할 수 있는 단지 어닐링 사건이 본 발명자가 설계한 고도로 특이적 RT 프라이머 전체가 이의 표적을 발견한 곳인지를 확인해야 한다. 이에 따라, 본 발명자는 다른 멀티플렉스 특이적 역전사 방법에 의해 고취된 바와 같은, 전체 프로토콜 동안 고온을 유지한다[Xu et al. 2018]. 본 발명자는 고정된 세포, RT 프라이머 풀, 및 dNTPs의 혼합물을 65℃에서 변성시키고, 53℃에서 어닐링하고, 이후에, 어닐링 반응을 위해 53℃에서 사전-평형화된 역전사 효소/완충제 혼합물을 첨가하고, 53℃에서 20분 동안 연장시킨다. 이에 따라, RT 프라이머는 변성 단계와 연장 단계 사이에 저온에서 어닐링할 기회가 없다.
나머지 방법은 실시예 1 및 3에 기술된 방법을 따른다. 헤어핀 어댑터는 인시튜로 결찰되어, 세포 인덱스를 첨가한다. 세포는 최종 인덱싱 단계를 위해 풀링되고, 세척되고, 새로운 웰 내에 분할된다. 이러한 웰에서, 제2 가닥 합성이 수행된다. 이중 가닥 cDNA는 이후에 태그화되어, 제2 일반 PCR 핸들을 추가한다(제1 핸들은 결찰로부터인 것이며, 제2는 태그화로부터인 것임). DNA는 Ampure 비드 결합에 의해 세포로부터 정제되며, 이후에, PCR이 수행되어, 제2 인덱스를 첨가한다.
예비 결과:
도 40 내지 42에 도시된 모든 결과는 K562 세포의 LMO2 유전자좌에서 RT 프라이머 표적팅 유전자의 풀을 사용하여 제조된 벌크(단일 세포 조합 인덱싱 없음) 인시튜(모든 단계는 파라폼알데하이드 고정된 핵에서 수행됨) 라이브러리로부터 얻은 것이다.
문헌
Figure 112022045449509-pat00033
Figure 112022045449509-pat00034
본 명세서에서 인용된 모든 특허, 특허 출원, 및 출판물, 및 전자적으로 입수 가능한 자료(예를 들어, GenBank 및 RefSeq에서의 뉴클레오타이드 서열 제출, 및 예를 들어, SwissProt, PIR, PRF, PDB에서 아미노산 서열 제출, 및 GenBank 및 RefSeq에서 인용된 코딩 영역으로부터의 번역을 포함함)의 완전한 개시내용은 전문이 참고로 포함된다. 출판물에서 언급된 보충 자료(예를 들어, 보충 표, 보충 도면, 보충 자료 및 방법 및/또는 보충 실험 데이터)는 마찬가지로, 전문이 참고로 포함된다. 본 출원의 개시내용과 본 명세서에 참고로 포함된 임의의 문서의 개시내용(들) 간에 불일치가 존재하는 경우에, 본 출원의 개시내용이 우선할 것이다. 전술한 상세한 설명 및 실시예는 단지 이해의 명확성을 위해 제공되었다. 이로부터 불필요한 제한이 이해되어서는 안된다. 본 개시내용은 당업자에게 명백한 변형이 청구범위에 의해 규정된 개시내용 내에 포함되기 때문에, 도시되고 기술된 정확한 세부사항으로 제한되지 않는다.
달리 명시하지 않는 한, 본 명세서 및 청구범위에서 사용되는 성분의 양, 분자량, 등을 나타내는 모든 수치는 모든 경우에 용어 "약"에 의해 수식되는 것으로 이해되어야 한다. 이에 따라, 달리 상반되게 명시하지 않는 한, 본 명세서 및 청구범위에 기술된 수치 파라미터는 본 개시내용에 의해 얻어지는 요망되는 성질에 따라 달라질 수 있는 근사치이다. 최소한, 그리고, 청구범위에 대한 균등론을 제한하는 시도가 아닌 것으로서, 각 수치 파라미터는 적어도, 보고된 유효 자릿수의 수에 비추어 일반적으로 반올림 기술을 적용하여 해석되어야 한다.
본 개시내용의 넓은 범위를 기술하는 수치 범위 및 파라미터가 근사치임에도 불구하고, 특정 예에서 기술된 수치는 가능한 한 정확하게 보고된다. 그러나, 모든 수치는 본질적으로, 이의 개개 시험 측정에서 확인된 표준 편차로부터 비롯된 범위를 반드시 함유한다.
모든 표제는 독자의 편위를 위한 것이고, 구체적으로 명시하지 않는 한 표제를 따르는 텍스트의 의미를 제한하기 위해 사용되어서는 안된다.
SEQUENCE LISTING <110> ILLUMINA, INC. UNIVERSITY OF WASHINGTON <120> HIGH-THROUGHPUT SINGLE-CELL TRANSCRIPTOME LIBRARIES AND METHODS OF MAKING AND OF USING <130> WO2019/236599 <140> PCT/US2019/035422 <141> 2019-06-04 <150> 62/821,678 <151> 2019-03-21 <150> 62/680,259 <151> 2018-06-04 <160> 11 <170> PatentIn version 3.5 <210> 1 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <220> <221> modified_base <222> (7)..(24) <223> a, c, t, g, unknown or other <400> 1 cagagcnnnn nnnnnnnnnn nnnntttttt tttttttttt tttttttttt tttt 54 <210> 2 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <223> Description of Combined DNA/RNA Molecule: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(16) <223> a, c, t, g, unknown or other <220> <221> misc_feature <222> (7)..(16) <223> This region may encompass 9-10 bases <220> <221> modified_base <222> (36)..(45) <223> a, c, t, g, unknown or other <220> <221> misc_feature <222> (36)..(45) <223> This region may encompass 9-10 bases <400> 2 gctctgnnnn nnnnnnuacg acgctcttcc gatctnnnnn nnnnn 45 <210> 3 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 3 aatgatacgg cgaccaccga gatctacac 29 <210> 4 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 4 caagcagaag acggcatacg agat 24 <210> 5 <211> 68 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <220> <221> modified_base <222> (19)..(36) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (68)..(68) <223> a, c, t, g, unknown or other <400> 5 acgacgctct tccgatctnn nnnnnnnnnn nnnnnntttt tttttttttt tttttttttt 60 ttttttvn 68 <210> 6 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 6 aatgatacgg cgaccaccga gatctacac 29 <210> 7 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 7 caagcagaag acggcatacg agat 24 <210> 8 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 8 acactctttc cctacacgac gctcttccga tct 33 <210> 9 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 9 gtctcgtggg ctcgg 15 <210> 10 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 10 acactctttc cctacacgac gctcttccga tct 33 <210> 11 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 11 gtctcgtggg ctcgg 15

Claims (56)

  1. 복수의 단일 세포들로부터 핵산을 포함하는 시퀀싱 라이브러리(sequencing library)를 제조하는 방법으로서, 상기 방법은
    (a) 복수의 핵 또는 세포를 제공하는 단계;
    (b) 복수의 핵 또는 세포를 역전사효소 및 프라이머와 접촉시켜 프라이머 및 주형 RNA 핵산의 상응하는 DNA 뉴클레오티드 서열을 포함하는 DNA 핵산을 생성하는 단계;
    (c) 핵 또는 세포를 제1의 복수의 구획으로 분배하는 단계로서, 여기서 각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 단계;
    (d) 인덱싱된 핵 또는 세포를 생성하기 위해 핵 또는 세포의 각 서브세트에서 DNA 핵산을 프로세싱하는 단계로서, 여기서 상기 프로세싱은 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하는 것을 포함하고, 여기서 상기 프로세싱은 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 단계;
    (e) 상기 인덱싱된 핵 또는 세포들을 조합하여 풀링된 인덱싱된 핵을 생성하는 단계;
    (f) 상기 풀링된 색인화된 핵 또는 세포를 제2의 복수의 구획으로 분배하는 단계로서, 여기서 각 구획은 핵 또는 세포의 서브세트를 포함하는, 상기 단계;
    (g) 이중 인덱싱된 핵 또는 세포를 생성하기 위해 핵 또는 세포의 각 서브세트에서 DNA 핵산을 프로세싱하는 단계로서, 여기서 상기 프로세싱은 핵 또는 세포의 각 서브세트에 존재하는 DNA 핵산에 제2 구획 특이적 인덱스 서열을 추가하여 인덱스싱된 핵 또는 세포에 존재하는 이중 인덱싱된 핵산을 생성하는 것을 포함하고, 여기서 상기 프로세싱은 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 상기 단계; 및
    (h) 이중-인덱스 단편을 조합하여 복수의 핵 또는 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 생성하는 단계;를 포함하는, 방법.
  2. 제1항에 있어서, 제1 복수의 구획의 각 구획의 제1 구획 특이적 인덱스 서열이 고유한 분자 식별자인, 방법.
  3. 제2항에 있어서, 제1 복수의 구획의 각 구획에 있는 핵 또는 세포의 서브세트가 고유한 샘플로부터 유래하거나 고유한 조건에 노출되는 것인, 방법.
  4. 제1항에 있어서, 제1 복수의 구획의 각 구획에 있는 핵 또는 세포의 서브세트가 고유한 샘플로부터 유래하거나 고유한 조건에 노출되는 것인, 방법.
  5. 제1항에 있어서, 상기 프라이머가 mRNA 폴리(A)테일에 어닐링하는 폴리-T 뉴클레오티드 서열을 포함하는 것인, 방법.
  6. 제1항에 있어서, 상기 프라이머는 미리 결정된 RNA 핵산에 어닐링하는 서열을 포함하는 것인, 방법.
  7. 제6항에 있어서, 상기 미리 결정된 RNA 핵산이 mRNA인, 방법.
  8. 제1항에 있어서, 상기 프라이머가 주형-스위치 프라이머를 포함하는 것인, 방법.
  9. 제1항에 있어서, 상기 접촉 전에 핵 또는 세포를 미리 결정된 조건에 노출시키는 단계를 추가로 포함하는, 방법.
  10. 제9항에 있어서, 상기 미리 결정된 조건은 제제에 대한 노출을 포함하는 것인, 방법.
  11. 제10항에 있어서, 상기 제제가 단백질, 비-리보솜 단백질, 폴리케티드, 유기 분자, 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합을 포함하는 것인, 방법.
  12. 제11항에 있어서, 상기 제제가 치료 약물을 포함하는 것인 방법.
  13. 제12항에 있어서, 상기 제제가 DNA 편집 단백질을 포함하는 것인, 방법.
  14. 제13항에 있어서, 상기 제제가 CRISPR DNA 편집 단백질 또는 Talen DNA 편집 단백질을 포함하는 것인, 방법.
  15. 제9항에 있어서, 핵 또는 세포에서 새로 합성된 RNA를 표지하는 단계를 추가로 포함하는, 방법.
  16. 제15항에 있어서, 상기 표지는 뉴클레오티드 표지를 포함하는 조성물에서 복수의 핵 또는 세포를 인큐베이션하는 것을 포함하고, 여기서 상기 뉴클레오티드 표지는 새로 합성된 RNA에 통합되는 것인, 방법.
  17. 제16항에 있어서, 상기 뉴클레오티드 표지가 뉴클레오티드 유사체, 합텐-표지된 뉴클레오티드, 돌연변이 유발 뉴클레오티드, 또는 화학 반응에 의해 변형될 수 있는 뉴클레오티드를 포함하는 것인 방법.
  18. 제15항에 있어서, 하나 이상의 뉴클레오티드 표지가 새로 합성되는 RNA에 통합되는 것인 방법.
  19. 제18항에 있어서, 상기 뉴클레오티드 표지 또는 표지들의 비율이 상이한 구획 또는 시점에 대해 상이한 것인 방법.
  20. 제1항에 있어서, 하나 이상의 분배는 희석에 의한 분류(sorting)를 포함하는, 방법.
  21. 제1항에 있어서, 제1, 제2, 또는 제1 및 제2 구획 특이적 인덱스 서열 둘 다를 첨가하는 프로세싱은 범용 서열을 포함하는 뉴클레오티드 서열을 상기 핵산에 첨가한 후, 상기 제1 구획 특이적 인덱스 서열을 상기 DNA 핵산에 추가하는 2-단계 프로세스를 포함하는, 방법.
  22. 제1항에 있어서, 제1, 제2, 또는 제1 및 제2 구획 특이적 인덱스 서열 둘 다의 중 하나 이상을 첨가하는 것은 서브세트를, 핵산 단편의 말단에 헤어핀 결찰 듀플렉스를 결찰하기에 적합한 조건 하에서 상기 헤어핀 결찰 듀플렉스와 접촉시키는 것을 포함하는, 방법.
  23. 제1항에 있어서, 제1, 제2, 또는 제1 및 제2 모두의 구획 특이적 인덱스 서열 중 하나 이상을 첨가하는 것은 핵산 단편을 트랜스포솜 복합체와 접촉시키는 것을 포함하고, 여기서 구획 내의 상기 트랜스포솜 복합체는 트랜스포사제 및 범용 서열을 포함하고, 여기서 상기 접촉은 상기 핵산 단편의 단편화 및 뉴클레오티드 서열의 핵산 단편으로의 통합에 적합한 조건을 추가로 포함하는, 방법.
  24. 제1항에 있어서, 상기 제1 구획 특이적 인덱스의 추가는 결찰을 포함하고, 후속하는 구획 특이적 인덱스 서열의 추가는 전위를 포함하는 것인, 방법.
  25. 제1항에 있어서, 상기 구획이 웰 또는 액적을 포함하는 것인 방법.
  26. 제1항에 있어서, 상기 제1 복수의 구획의 구획은 50 내지 100,000,000개의 핵 또는 세포를 포함하는 것인, 방법.
  27. 제1항에 있어서, 상기 제2 복수의 구획의 구획은 50 내지 100,000,000개의 핵 또는 세포를 포함하는 것인, 방법.
  28. 제1항에 있어서,
    복수의 증폭 부위를 포함하는 표면을 제공하는 단계로서, 상기 증폭 부위는 자유 3' 단부를 갖는 부착된 단일 가닥 캡처 올리고뉴클레오타이드의 적어도 2개의 집단을 포함하는, 상기 단계, 및
    증폭 부위를 포함하는 상기 표면을, 각각이 복수의 인덱스를 포함하는 개개 단편으로부터 앰플리콘의 클론 집단을 포함하는, 복수의 증폭 부위를 생성하기에 적합한 조건 하에서 상기 이중-인덱싱된 핵산 단편과 접촉시키는 단계를 더 포함하는, 방법.
  29. 복수의 단일 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서, 상기 방법은
    (a) 복수의 제1 구획에 복수의 단일 세포를 제공하는 단계로서, 여기서 각각의 구획은 세포의 서브세트를 포함하는, 상기 단계;
    (b) 세포의 서브세트를 미리 결정된 조건에 노출시키는 단계;
    (c) 세포의 서브세트에서 새로 합성되는 RNA를 표지하는 단계;
    (d) 인덱싱된 세포를 생성하기 위해 세포의 각 서브세트에서 RNA 분자를 프로세싱하는 단계로서, 여기서 상기 프로세싱은 세포의 각각의 서브세트에 존재하는 RNA 핵산에 제1 구획 특이적 인덱스 서열을 첨가하여 인덱싱된 세포에 존재하는 인덱싱된 핵산을 생성하는 것을 포함하고, 여기서 상기 프로세싱은 결찰, 프라이머 연장, 혼성화 또는 증폭을 포함하는, 상기 단계; 및
    (e) 상기 인덱싱된 세포를 조합하여 풀링된 인덱싱된 세포를 생성하는 단계를 포함하는, 방법.
  30. 제29항에 있어서, 상기 제1 복수의 구획의 각 구획의 제1 구획 특이적 인덱스 서열이 고유한 분자 식별자인, 방법.
  31. 제30항에 있어서, 상기 제1 복수의 구획의 각 구획에 있는 세포의 서브세트가 고유한 샘플로부터 유래하거나 고유한 조건에 노출되는 것인, 방법.
  32. 제29항에 있어서, 상기 제1 복수의 구획의 각각의 구획에 있는 세포의 서브세트가 고유한 샘플로부터 유래하거나 고유한 조건에 노출되는 것인, 방법.
  33. 제29항에 있어서, 상기 미리 결정된 조건은 제제에 대한 노출을 포함하는, 방법.
  34. 제33항에 있어서, 상기 제제가 단백질, 비-리보솜 단백질, 폴리케티드, 유기 분자, 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합을 포함하는 것인, 방법.
  35. 제33항에 있어서, 상기 제제가 치료 약물을 포함하는 것인, 방법.
  36. 제33항에 있어서, 상기 제제가 DNA 편집 단백질을 포함하는 것인, 방법.
  37. 제33항에 있어서, 상기 제제가 CRISPR DNA 편집 단백질 또는 Talen DNA 편집 단백질을 포함하는 것인 방법.
  38. 제29항에 있어서, 상기 표지는 뉴클레오티드 표지를 포함하는 조성물에서 복수의 세포를 인큐베이션하는 것을 포함하고, 여기서 상기 뉴클레오티드 표지는 새로 합성되는 RNA에 통합되는 것인 방법.
  39. 제38항에 있어서, 상기 뉴클레오티드 표지가 뉴클레오티드 유사체, 합텐-표지된 뉴클레오티드, 돌연변이 유발 뉴클레오티드, 또는 화학 반응에 의해 변형될 수 있는 뉴클레오티드를 포함하는 것인 방법.
  40. 제38항에 있어서, 하나 이상의 뉴클레오티드 표지가 새로 합성되는 RNA에 통합되는 것인 방법.
  41. 제40항에 있어서, 상기 뉴클레오티드 표지 또는 표지들의 비율이 상이한 구획 또는 시점에 대해 상이한 것인 방법.
  42. 제29항에 있어서, 상기 프로세싱은 역전사효소 및 RNA 핵산에 어닐링하는 프라이머와 서브세트를 접촉시켜 프라이머 및 주형 RNA 분자의 상응하는 DNA 뉴클레오티드 서열을 포함하는 DNA 핵산을 생성하는 것을 포함하는, 방법.
  43. 제42항에 있어서, 상기 프라이머가 mRNA 폴리(A)테일에 어닐링하는 폴리-T 뉴클레오티드 서열을 포함하는 것인 방법.
  44. 제42항에 있어서, 상기 프라이머가 미리 결정된 RNA 핵산에 어닐링하는 서열을 포함하는 것인 방법.
  45. 제42항에 있어서, 상기 프로세싱은 세포의 서브세트를 제2 프라이머와 접촉시키는 것을 추가로 포함하고, 여기서 제2 프라이머는 미리 결정된 DNA 핵산에 어닐링하는 서열을 포함하는 것인 방법.
  46. 제44항에 있어서, 상기 방법은 미리 결정된 RNA 핵산의 상이한 뉴클레오티드에 어닐링하는 상이한 구획 내의 프라이머를 포함하는 것인 방법.
  47. 제29항에 있어서,
    상기 풀링된 인덱싱된 세포를 제2의 복수의 구획으로 분배하는 단계로서, 여기서 각각의 구획은 세포의 서브세트를 포함하는, 상기 단계;
    인덱싱된 세포에 존재하는 인덱싱된 핵산을 프로세싱하여 이중 인덱싱된 세포에 존재하는 이중 인덱싱된 핵산을 생성하는 단계; 및
    상기 이중 인덱싱된 세포를 조합하여 풀링된 이중 인덱싱된 세포를 생성하는 단계를 더 포함하는 방법.
  48. 제47항에 있어서, 상기 분배는 희석에 의한 분류를 포함하는 것인 방법.
  49. 제47항에 있어서, 상기 프로세싱은 세포의 각 서브세트에 존재하는 DNA 핵산에 제2 구획 특이적 인덱스 서열을 추가하여, 인덱싱된 세포에 존재하는 이중 인덱싱된 핵산을 생성하는 것을 포함하고, 여기서 상기 프로세싱은 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함하는, 방법.
  50. 제49항에 있어서, 상기 제2 구획 특이적 인덱스 서열을 부가하는 프로세싱은, 범용 서열을 포함하는 뉴클레오티드 서열을 상기 핵산에 부가한 다음, 제1 구획 특이적 인덱스 서열을 상기 인덱싱된 핵산에 부가하는 2-단계 프로세스를 포함하는 것인 방법.
  51. 제49항에 있어서, 상기 제2 구획 특이적 인덱스 서열을 부가하는 프로세싱은 서브세트를, 핵산 단편의 말단에 헤어핀 결찰 듀플렉스의 결찰에 적합한 조건 하에서 상기 헤어핀 결찰 듀플렉스와 접촉시키는 것을 포함하는 것인 방법.
  52. 제49항에 있어서, 제2 구획 특이적 인덱스 서열을 추가하는 것은 서브세트를 트랜스포솜 복합체와 접촉시키는 것을 포함하고, 여기서 구획 내의 상기 트랜스포솜 복합체는 트랜스포사제 및 범용 서열을 포함하고, 여기서 상기 접촉은 인덱싱된 핵산의 단편화 및 인덱싱된 핵산으로의 뉴클레오티드 서열의 통합에 적합한 조건을 더 포함하는 것인, 방법.
  53. 제29항에 있어서, 상기 제1 복수의 구획의 구획이 웰 또는 액적을 포함하는 것인 방법.
  54. 제29항에 있어서, 상기 제1 복수의 구획의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함하는 것인 방법.
  55. 제47항에 있어서, 상기 제2 복수의 구획의 구획이 50 내지 100,000,000개의 핵 또는 세포를 포함하는 것인 방법.
  56. 제29항 또는 제47항에 있어서,
    복수의 증폭 부위를 포함하는 표면을 제공하는 단계로서, 상기 증폭 부위는 자유 3' 단부를 갖는 부착된 단일 가닥 캡처 올리고뉴클레오타이드의 적어도 2개의 집단을 포함하는, 상기 단계, 및
    증폭 부위를 포함하는 상기 표면을, 각각이 복수의 인덱스를 포함하는 개개 단편으로부터의 앰플리콘의 클론 집단을 포함하는, 복수의 증폭 부위를 생성하기에 적합한 조건 하에서, 상기 이중-인덱싱된 핵산 단편과 접촉시키는 단계;를 더 포함하는, 방법.
KR1020227014338A 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법 KR102507415B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201862680259P 2018-06-04 2018-06-04
US62/680,259 2018-06-04
US201962821678P 2019-03-21 2019-03-21
US62/821,678 2019-03-21
KR1020207003217A KR102393414B1 (ko) 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법
PCT/US2019/035422 WO2019236599A2 (en) 2018-06-04 2019-06-04 High-throughput single-cell transcriptome libraries and methods of making and of using

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020207003217A Division KR102393414B1 (ko) 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법

Publications (2)

Publication Number Publication Date
KR20220057665A KR20220057665A (ko) 2022-05-09
KR102507415B1 true KR102507415B1 (ko) 2023-03-07

Family

ID=68769215

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207003217A KR102393414B1 (ko) 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법
KR1020227014338A KR102507415B1 (ko) 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207003217A KR102393414B1 (ko) 2018-06-04 2019-06-04 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법

Country Status (15)

Country Link
US (1) US20210102194A1 (ko)
EP (2) EP3810774B1 (ko)
JP (2) JP6986103B2 (ko)
KR (2) KR102393414B1 (ko)
CN (1) CN111247248A (ko)
AU (2) AU2019282158B2 (ko)
BR (1) BR112019027750A2 (ko)
CA (1) CA3072273A1 (ko)
DK (1) DK3810774T3 (ko)
ES (1) ES2966028T3 (ko)
FI (1) FI3810774T3 (ko)
IL (1) IL272234A (ko)
MX (2) MX2019015262A (ko)
SG (1) SG11202000905PA (ko)
WO (1) WO2019236599A2 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
WO2021168455A1 (en) * 2020-02-20 2021-08-26 The Regents Of The University Of California Methods of spatially resolved single cell rna sequencing
AU2021270596A1 (en) * 2020-05-15 2022-12-15 Integrated Dna Technologies, Inc. Methods for ligation-coupled-PCR
CN111549025B (zh) * 2020-06-08 2021-09-14 郑州大学第一附属医院 链置换引物和细胞转录组文库构建方法
WO2021252617A1 (en) 2020-06-09 2021-12-16 Illumina, Inc. Methods for increasing yield of sequencing libraries
WO2022020728A1 (en) * 2020-07-23 2022-01-27 10X Genomics, Inc. Systems and methods for detecting and removing aggregates for calling cell-associated barcodes
CN111996598A (zh) * 2020-08-11 2020-11-27 杭州瀚因生命科技有限公司 一种单细胞染色质可及性的建库方法
WO2022036273A1 (en) * 2020-08-14 2022-02-17 Factorial Diagnostics, Inc. In situ library preparation for sequencing
CN112592968B (zh) * 2020-12-27 2022-07-26 苏州科诺医学检验实验室有限公司 高通量测序用分子标签接头及其合成方法与应用
WO2022143221A1 (zh) * 2020-12-31 2022-07-07 中国科学院北京基因组研究所(国家生物信息中心) 用于标记核酸分子的方法和试剂盒
WO2022182682A1 (en) 2021-02-23 2022-09-01 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
CN113160886B (zh) * 2021-04-02 2023-04-07 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113106150B (zh) * 2021-05-12 2022-05-24 浙江大学 一种超高通量单细胞测序方法
CN113652475A (zh) * 2021-07-19 2021-11-16 中国辐射防护研究院 一种重金属铀诱导仓鼠卵巢细胞损伤的研究方法
WO2023044475A1 (en) * 2021-09-20 2023-03-23 Faeth Therapeutics, Inc. Methods of determining metabolic targets and designing nutrient modulating treatments
CN114107459B (zh) * 2021-11-11 2022-12-06 浙江大学 一种基于寡核苷酸链杂交标记的高通量单细胞测序方法
WO2023122309A1 (en) * 2021-12-23 2023-06-29 Takara Bio Usa, Inc. Methods and compositions for producing cell-source identifiable collections of nucleic acids
WO2023137292A1 (en) * 2022-01-12 2023-07-20 Jumpcode Genomics, Inc. Methods and compositions for transcriptome analysis
WO2023159151A2 (en) * 2022-02-16 2023-08-24 Factorial Diagnostics, Inc. In situ library preparation
CA3223722A1 (en) 2022-04-07 2023-10-12 Illumina, Inc. Altered cytidine deaminases and methods of use
WO2023225618A2 (en) * 2022-05-18 2023-11-23 Yale University Method for estimating a dynamic molecular program of a cell
CN114774527A (zh) * 2022-05-20 2022-07-22 良渚实验室 一种高通量单细胞转录组测序方法及其应用
EP4332234A1 (en) * 2022-08-29 2024-03-06 Ecole Polytechnique Federale De Lausanne (Epfl) Improved microfluidic transcriptome based screening methods
WO2024073043A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Methods of using cpg binding proteins in mapping modified cytosine nucleotides
WO2024069581A1 (en) 2022-09-30 2024-04-04 Illumina Singapore Pte. Ltd. Helicase-cytidine deaminase complexes and methods of use
WO2024073047A1 (en) 2022-09-30 2024-04-04 Illumina, Inc. Cytidine deaminases and methods of use in mapping modified cytosine nucleotides
CN116497105B (zh) * 2023-06-28 2023-09-29 浙江大学 基于末端转移酶的单细胞转录组测序试剂盒及测序方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200609A1 (en) 2014-06-26 2015-12-30 Illumina, Inc. Library preparation of tagged nucleic acid using single tube add-on protocol
WO2016130704A2 (en) 2015-02-10 2016-08-18 Illumina, Inc. Methods and compositions for analyzing cellular components

Family Cites Families (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
AU622426B2 (en) 1987-12-11 1992-04-09 Abbott Laboratories Assay using template-dependent nucleic acid probe reorganization
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
WO1989009835A1 (en) 1988-04-08 1989-10-19 The Salk Institute For Biological Studies Ligase-based amplification method
EP0379559B1 (en) 1988-06-24 1996-10-23 Amgen Inc. Method and reagents for detecting nucleic acid sequences
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
WO1990001069A1 (en) 1988-07-20 1990-02-08 Segev Diagnostics, Inc. Process for amplifying and detecting nucleic acid sequences
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
US5248607A (en) * 1988-10-27 1993-09-28 Ciba-Geigy Corporation Monoclonal antibodies and hybridomas specific for green-oat phytochrome
WO1991006678A1 (en) 1989-10-26 1991-05-16 Sri International Dna sequencing
CA2035010C (en) 1990-01-26 1996-12-10 Keith C. Backman Method of amplifying target nucleic acids applicable to both polymerase and ligase chain reactions
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
JPH06197762A (ja) * 1992-12-28 1994-07-19 Iseki & Co Ltd タマネギのdna抽出法
AU694187B2 (en) 1994-02-07 1998-07-16 Beckman Coulter, Inc. Ligase/polymerase-mediated genetic bit analysis TM of single nucleotide polymorphisms and its use in genetic analysis
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
JPH09510351A (ja) 1994-03-16 1997-10-21 ジェン−プローブ・インコーポレイテッド 等温鎖置換核酸増幅法
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
CA2229938A1 (en) * 1995-08-21 1997-02-27 Koichi Suzuki Methods of assessing mhc class i expression and proteins capable of modulating class i expression
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
EP3034626A1 (en) 1997-04-01 2016-06-22 Illumina Cambridge Limited Method of nucleic acid sequencing
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
DE60131194T2 (de) 2000-07-07 2008-08-07 Visigen Biotechnologies, Inc., Bellaire Sequenzbestimmung in echtzeit
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US20030082584A1 (en) * 2001-06-29 2003-05-01 Liang Shi Enzymatic ligation-based identification of transcript expression
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US8030000B2 (en) 2002-02-21 2011-10-04 Alere San Diego, Inc. Recombinase polymerase amplification
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
EP1530578B1 (en) 2002-08-23 2013-03-13 Illumina Cambridge Limited Modified nucleotides for polynucleotide sequencing
JP4632788B2 (ja) 2002-09-20 2011-02-16 ニュー・イングランド・バイオラブズ・インコーポレイティッド 核酸のヘリカーゼ依存性増幅
US20050053980A1 (en) 2003-06-20 2005-03-10 Illumina, Inc. Methods and compositions for whole genome amplification and genotyping
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3175914A1 (en) 2004-01-07 2017-06-07 Illumina Cambridge Limited Improvements in or relating to molecular arrays
GB2423819B (en) 2004-09-17 2008-02-06 Pacific Biosciences California Apparatus and method for analysis of molecules
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
JP4990886B2 (ja) 2005-05-10 2012-08-01 ソレックサ リミテッド 改良ポリメラーゼ
CA2611671C (en) 2005-06-15 2013-10-08 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
SG10201405158QA (en) 2006-02-24 2014-10-30 Callida Genomics Inc High throughput genome sequencing on dna arrays
JP5180845B2 (ja) 2006-02-24 2013-04-10 カリダ・ジェノミックス・インコーポレイテッド Dnaアレイ上でのハイスループットゲノム配列決定
EP2021503A1 (en) 2006-03-17 2009-02-11 Solexa Ltd. Isothermal methods for creating clonal single molecule arrays
CN101460953B (zh) 2006-03-31 2012-05-30 索雷克萨公司 用于合成分析的序列的系统和装置
US8343746B2 (en) 2006-10-23 2013-01-01 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
WO2008070352A2 (en) 2006-10-27 2008-06-12 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
JP5622392B2 (ja) 2006-12-14 2014-11-12 ライフ テクノロジーズ コーポレーション 大規模fetアレイを用いた分析物測定のための方法および装置
WO2008093098A2 (en) 2007-02-02 2008-08-07 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
US8198028B2 (en) 2008-07-02 2012-06-12 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US9080211B2 (en) 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
US8829171B2 (en) 2011-02-10 2014-09-09 Illumina, Inc. Linking sequence reads using paired code tags
EP2635679B1 (en) 2010-11-05 2017-04-19 Illumina, Inc. Linking sequence reads using paired code tags
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
EP2718465B1 (en) 2011-06-09 2022-04-13 Illumina, Inc. Method of making an analyte array
SI3623481T1 (sl) 2011-09-23 2022-01-31 Illumina, Inc. Sestavki za sekvenciranje nukleinske kisline
EP2771103B1 (en) 2011-10-28 2017-08-16 Illumina, Inc. Microarray fabrication system and method
EP2636427B1 (en) 2012-01-16 2019-02-27 Greatbatch Ltd. Elevated hermetic feedthrough insulator adapted for side attachment of electrical conductors on the body fluid side of an active implantable medical device
US9193996B2 (en) 2012-04-03 2015-11-24 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
ES2700529T3 (es) 2013-07-01 2019-02-18 Illumina Inc Funcionalización de superficie sin catalizador e injerto de polímero
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
CN104032377A (zh) * 2014-06-30 2014-09-10 北京诺禾致源生物信息科技有限公司 单细胞转录组测序文库的构建方法及其应用
ES2772127T3 (es) 2014-10-31 2020-07-07 Illumina Cambridge Ltd Polímeros y recubrimientos de copolímeros de ADN
US10900065B2 (en) * 2014-11-14 2021-01-26 University Of Washington Methods and kits for labeling cellular molecules
SG11201705615UA (en) * 2015-01-12 2017-08-30 10X Genomics Inc Processes and systems for preparing nucleic acid sequencing libraries and libraries prepared using same
US20180080061A1 (en) * 2015-03-23 2018-03-22 The Regents Of The University Of California Biosynthetic labeling and separation of rna
EP3286326A1 (en) * 2015-04-23 2018-02-28 Cellular Research, Inc. Methods and compositions for whole transcriptome amplification
WO2017164936A1 (en) * 2016-03-21 2017-09-28 The Broad Institute, Inc. Methods for determining spatial and temporal gene expression dynamics in single cells
JP7155021B2 (ja) * 2016-07-22 2022-10-18 オレゴン ヘルス アンド サイエンス ユニヴァーシティ 単細胞全ゲノムライブラリおよびそれを作成する組み合わせインデックス付加方法
SG10201911905QA (en) * 2016-12-29 2020-01-30 Illumina Inc Analysis system for orthogonal access to and tagging of biomolecules in cellular compartments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015200609A1 (en) 2014-06-26 2015-12-30 Illumina, Inc. Library preparation of tagged nucleic acid using single tube add-on protocol
WO2016130704A2 (en) 2015-02-10 2016-08-18 Illumina, Inc. Methods and compositions for analyzing cellular components

Also Published As

Publication number Publication date
EP3810774B1 (en) 2023-09-13
RU2020102911A (ru) 2021-07-27
EP4269618A3 (en) 2024-01-10
AU2021261918A1 (en) 2021-12-02
SG11202000905PA (en) 2020-02-27
KR20200035955A (ko) 2020-04-06
JP6986103B2 (ja) 2021-12-22
CN111247248A (zh) 2020-06-05
AU2019282158A1 (en) 2020-01-16
BR112019027750A2 (pt) 2022-06-14
IL272234A (en) 2020-03-31
JP2022031810A (ja) 2022-02-22
RU2020102911A3 (ko) 2021-08-27
WO2019236599A2 (en) 2019-12-12
MX2019015262A (es) 2023-01-25
KR20220057665A (ko) 2022-05-09
ES2966028T3 (es) 2024-04-18
WO2019236599A3 (en) 2020-02-20
JP2020533952A (ja) 2020-11-26
US20210102194A1 (en) 2021-04-08
EP3810774A2 (en) 2021-04-28
MX2023001088A (es) 2023-03-16
FI3810774T3 (fi) 2023-12-11
AU2019282158B2 (en) 2021-08-12
DK3810774T3 (da) 2023-12-11
CA3072273A1 (en) 2019-12-12
EP4269618A2 (en) 2023-11-01
KR102393414B1 (ko) 2022-05-02
EP3810774A4 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
KR102507415B1 (ko) 고속 대량 단일 세포 전사체 라이브러리 그리고 이의 제조 및 사용 방법
KR102447811B1 (ko) 감소된 증폭 편향을 갖는 고속대량 단일 세포 서열분석
CN117822128A (zh) 单细胞全基因组文库及制备其的组合索引方法
US20220033805A1 (en) High-throughput single-nuclei and single-cell libraries and methods of making and of using
Yeo et al. A multiplexed barcodelet single-cell RNA-seq approach elucidates combinatorial signaling pathways that drive ESC differentiation
US20220356461A1 (en) High-throughput single-cell libraries and methods of making and of using
RU2773318C2 (ru) Крупномасштабные моноклеточные библиотеки транскриптомов и способы их получения и применения
Bhattacharya et al. Experimental toolkit to study RNA level regulation
NZ760374A (en) High-throughput single-cell transcriptome libraries and methods of making and of using
Mahat et al. Single-cell nascent RNA sequencing using click-chemistry unveils coordinated transcription

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant