KR20220118295A - 고 처리량 단일 세포 라이브러리, 및 이의 제조 방법 및 사용 방법 - Google Patents

고 처리량 단일 세포 라이브러리, 및 이의 제조 방법 및 사용 방법 Download PDF

Info

Publication number
KR20220118295A
KR20220118295A KR1020217030969A KR20217030969A KR20220118295A KR 20220118295 A KR20220118295 A KR 20220118295A KR 1020217030969 A KR1020217030969 A KR 1020217030969A KR 20217030969 A KR20217030969 A KR 20217030969A KR 20220118295 A KR20220118295 A KR 20220118295A
Authority
KR
South Korea
Prior art keywords
cells
nuclei
cell
nucleic acid
sequencing
Prior art date
Application number
KR1020217030969A
Other languages
English (en)
Inventor
제이 센듀어
다렌 쿠사노비치
리자 다자
프랑크 스티머스
앤드류 케네디
Original Assignee
일루미나, 인코포레이티드
유니버시티 오브 워싱톤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 일루미나, 인코포레이티드, 유니버시티 오브 워싱톤 filed Critical 일루미나, 인코포레이티드
Publication of KR20220118295A publication Critical patent/KR20220118295A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Virology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

복수의 단일 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법이 본 명세서에 제공된다. 일 실시 형태에서, 시퀀싱 라이브러리는 복수의 단일 세포로부터의 염색질 접근성을 나타내는 핵산을 포함한다. 일 실시 형태에서, 핵산은 3개의 인덱스 서열을 포함한다. 다른 실시 형태에서, 본 발명은 단리된 세포 및 핵에서의 희귀 이벤트를 특성화하는 방법을 제공한다.

Description

고 처리량 단일 세포 라이브러리, 및 이의 제조 방법 및 사용 방법
관련 출원의 상호 참조
본 출원은 2019년 12월 19일자로 출원된 미국 가출원 제62/950,670호의 이익을 주장하며, 이는 전체적으로 본 명세서에 참고로 포함된다
정부의 재정 지원
본 발명은 미국 국립 보건원(National Institutes of Health)의 인가를 받은 인가 번호 T32 HL007828에 따라 정부 지원으로 이루어졌다. 정부는 본 발명에 소정의 권리를 갖는다.
기술분야
본 발명의 실시 형태는 핵산 시퀀싱에 관한 것이다. 특히, 본 명세서에 제공된 방법 및 조성물의 실시 형태는 단일 세포 조합 인덱싱된 시퀀싱 라이브러리를 생성하고 이로부터 서열 데이터를 얻는 것에 관한 것이다. 일부 실시 형태에서, 라이브러리로부터 얻어진 서열 데이터는 포괄적이며, 다른 실시 형태에서 라이브러리로부터 얻어진 서열 데이터는 희귀 이벤트의 특성화를 가능하게 한다.
단일 세포 조합 인덱싱('sci-')은 분할 풀 바코딩(split-pool barcoding)을 이용하여, 단일 세포 조합 시퀀싱 라이브러리를 생성하기 위해 다수의 단일 세포 또는 핵의 핵산 함량을 고유하게 표지화하는 방법론적 프레임워크이다. 현재의 단일 세포 게놈 기술은 종종 트랜스포좀 복합체를 사용하여 한 단계에서 고유한 표지를 추가하는 것을 포함하지만, 이는 다량의 맞춤형 변형된 트랜스포존을 필요로 한다.
단일 세포 게놈 기술은 대량의 세포 집단을 연구할 때 측정하기 어려운 세포 차이를 해결한다. 종양학, 면역학 및 메타게노믹스와 같은 많은 중요한 응용에서, 희귀 세포를 특성화하는 데 있어서 큰 관심과 과제가 있다. 단일 세포 시퀀싱에서의 현재의 방법은 수백만 개의 단일 세포를 동시에 특성화할 수 있지만; 농축되지 않은 집단에서의 희귀 세포의 포괄적인 시퀀싱 기반 특성화는 비용이 많이 들고 힘들다.
맞춤형 변형된 트랜스포존을 생성할 필요 없이 단일 세포 조합 인덱싱 동안 트랜스포좀 복합체를 사용하는 방법이 본 명세서에 제공된다.
일 실시 형태에서, 본 발명은 복수의 단일 핵 또는 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법을 제공한다. 상기 방법은 복수의 핵 또는 세포를 제공하는 단계 - 여기서, 상기 핵 또는 세포는 뉴클레오솜을 포함함 - 및 복수의 핵 또는 세포를 트랜스포사제 및 유니버셜(universal) 서열을 포함하는 트랜스포좀 복합체와 접촉시키는 단계를 포함한다. 일 실시 형태에서, 복수의 핵 또는 세포는 트랜스포좀 복합체와 접촉될 때 벌크 상태이며, 다른 실시 형태에서 트랜스포좀 복합체와 접촉될 때 복수의 핵 또는 세포는 제1 복수의 컴파트먼트(compartment)에 분배되며, 여기서 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함하거나 샘플을 나타낸다. 상기 접촉은 유니버셜 서열을 DNA 핵산에 혼입시켜, 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함한다. 복수의 핵 또는 세포가 벌크 상태로 접촉이 일어나는 실시 형태에서, 상기 방법은 복수의 핵 또는 세포를 제1 복수의 컴파트먼트에 분배하는 단계를 포함하며, 여기서 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함한다. 핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 인덱싱된 핵 또는 세포를 생성한다. 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제1 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하는 것을 포함한다. 상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함할 수 있다. 인덱싱된 핵 또는 세포를 배합하여, 풀링된 인덱싱된 핵 또는 세포를 생성할 수 있다.
일 실시 형태에서, 상기 제공하는 단계는 복수의 컴파트먼트에 복수의 핵 또는 세포를 제공하는 단계를 포함할 수 있으며, 여기서 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함하거나 샘플을 나타낸다. 상기 접촉시키는 단계는 각각의 컴파트먼트를 트랜스포좀 복합체와 접촉시키는 단계를 포함할 수 있고, 상기 방법은 접촉 후에 핵 또는 세포를 배합하여, 풀링된 핵 또는 세포를 생성하는 단계를 추가로 포함할 수 있다.
일 실시 형태에서, 상기 접촉은 각각의 서브세트를 2개의 트랜스포좀 복합체와 접촉시키는 것을 포함하며, 여기서 하나의 트랜스포좀 복합체는 제1 유니버셜 서열을 포함하는 제1 트랜스포사제를 포함하고, 다른 트랜스포좀 복합체는 제2 유니버셜 서열을 포함하는 제2 트랜스포사제를 포함하며, 상기 접촉은 제1 유니버셜 서열 및 제2 유니버셜 서열을 DNA 핵산에 혼입시켜, 제1 및 제2 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함한다.
일 실시 형태에서, 상기 방법은 인덱싱된 핵 또는 세포를 포함하는 풀링된 인덱싱된 핵 또는 세포를 제2 복수의 컴파트먼트에 분배하는 단계 - 여기서, 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 - 및 핵 또는 세포의 각각의 서브세트 내의 DNA 분자를 처리하여 듀얼 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함할 수 있다. 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제2 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 듀얼 인덱싱된 핵산을 생성하는 것을 포함할 수 있다. 상기 방법은 듀얼 인덱싱된 핵 또는 세포를 배합하여, 풀링된 듀얼 인덱싱된 핵 또는 세포를 생성하는 단계를 포함할 수 있다.
일 실시 형태에서, 상기 방법은 듀얼 인덱싱된 핵 또는 세포를 포함하는 풀링된 인덱싱된 핵 또는 세포를 제3 복수의 컴파트먼트에 분배하는 단계 - 여기서, 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 - 및 핵 또는 세포의 각각의 서브세트 내의 DNA 분자를 처리하여 트리플 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함할 수 있다. 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제3 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 트리플 인덱싱된 핵산을 생성하는 것을 포함할 수 있다. 상기 방법은 트리플 인덱싱된 핵 또는 세포를 배합하여, 풀링된 트리플 인덱싱된 핵 또는 세포를 생성하는 단계를 포함할 수 있다.
일 실시 형태에서, 상기 방법은 풀링된 인덱싱된 핵 또는 세포로부터 인덱싱된 핵산(예를 들어, 듀얼 인덱싱된, 트리플 인덱싱된 등)을 얻음으로써, 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함할 수 있다.
또한 세포 아집단을 식별 및/또는 특성화하는 방법이 본 명세서에 제공된다. 일 실시 형태에서, 본 방법은 단일 세포 조합 시퀀싱 라이브러리와 같은 시퀀싱 라이브러리를 제공하는 단계를 포함한다. 임의로, 시퀀싱 라이브러리는 특성이 강화된 세포 또는 핵의 집단으로부터 생성된다. 상기 방법은 표적 시퀀싱에 의해 시퀀싱 라이브러리를 조사하는 단계를 포함할 수 있다. 표적 시퀀싱은 라이브러리를 제조하는 데 사용되는 작은 비율의 세포에 전형적으로 존재하는 생물학적 특징부에 기초할 수 있다. 생물학적 특징부의 예에는 세포 부류, 종 유형 또는 질환 상태를 나타내는 뉴클레오티드 서열이 포함되지만 이에 한정되지 않는다. 생물학적 특징부의 표적 시퀀싱에 더하여, 시퀀싱은 또한 생물학적 특징부와 동일한 변형된 표적 핵산 상에 존재하는 인덱스 서열의 서열을 결정하는 것을 포함한다. 그 결과, 생물학적 특징부를 포함하는 라이브러리의 구성원과 동일한 세포 또는 핵으로부터 유래하는 시퀀싱 라이브러리의 구성원이 식별된다. 상기 방법은 생물학적 특징부를 포함하는 라이브러리의 구성원과 동일한 세포 또는 핵으로부터 유래하는 이들 구성원의 표현을 증가시키도록 시퀀싱 라이브러리를 변경하는 단계를 추가로 포함한다. 변경은 시퀀싱 라이브러리의 원하는 구성원의 농축 또는 시퀀싱 라이브러리의 바람직하지 않은 구성원의 고갈을 포함하여, 서브라이브러리를 생성할 수 있다.
정의
본 명세서에 사용되는 용어는 달리 명시되지 않는 한, 관련 기술 분야에서 이들의 통상적인 의미를 갖는 것으로 이해되어야 한다. 본 명세서에 사용되는 몇몇 용어 및 그 의미는 다음과 같다.
본 명세서에 사용되는 용어 "유기체", "대상"은 상호교환적으로 사용되며, 미생물(예를 들어, 원핵생물 또는 진핵생물), 동물 및 식물을 지칭한다. 동물의 예는 인간과 같은 포유류이다.
본 명세서에 사용되는 용어 "세포 유형"은 형태, 표현형, 발생학적 기원 또는 다른 공지되거나 인식가능한 구별되는 세포 특성에 기초하여 세포를 식별하고자 하는 것이다. 다양한 상이한 세포 유형이 단일 유기체로부터(또는 동일한 종의 유기체로부터) 얻어질 수 있다. 예시적인 세포 유형은 생식세포(자성 생식세포, 예를 들어 난자 또는 난세포, 및 웅성 생식세포, 예를 들어 정자 포함), 난소 상피 세포, 난소 섬유아세포, 고환, 방광, 면역 세포, B 세포, T 세포, 자연 살해 세포, 수지상 세포, 암 세포, 진핵 세포, 줄기 세포, 혈액 세포, 근육 세포, 지방 세포, 피부 세포, 신경 세포, 뼈 세포, 췌장 세포, 내피 세포, 췌장 상피, 췌장 알파, 췌장 베타, 췌장 내피, 골수 림프아구, 골수 B 림프아구, 골수 대식세포, 골수 적아구, 골수 수지상, 골수 지방세포, 골수 골세포, 골수 연골세포, 전골수아구, 골수 거핵아구, 담낭, 뇌 B 림프구, 뇌 신경교, 뉴런, 뇌 성상세포, 신경외배엽, 뇌 대식세포, 뇌 소교세포, 뇌 상피, 피질 뉴런, 뇌 섬유아세포, 유방 상피, 결장 상피, 결장 B 림프구, 유방 상피, 유방 근상피, 유방 섬유아세포, 결장 세포, 자궁경부 상피, 유관 상피, 혀 상피, 편도 수지상, 편도 B 림프구, 말초 혈액 림프아구, 말초 혈액 T 림프아구, 말초 혈액 피부 T 림프구, 말초 혈액 자연 살해, 말초 혈액 B 림프아구, 말초 혈액 단핵구, 말초 혈액 골수아구, 말초 혈액 단핵모세포, 말초 혈액 전골수아구, 말초 혈액 대식세포, 말초 혈액 호염기구, 간 내피, 간 비만, 간 상피, 간 B 림프구, 비장 내피, 비장 상피, 비장 B 림프구, 간세포, 간 섬유아세포, 폐 상피, 기관지 상피, 폐 섬유아세포, 폐 B 림프구, 폐 슈반(lung Schwann), 폐 편평상피, 폐 대식세포, 폐 골아세포, 신경내분비, 폐포, 위 상피 및 위 섬유아세포를 포함하지만 이로 한정되지 않는다. 일 실시 형태에서, 단일 유기체로부터 얻어진 다양한 상이한 세포 유형은 유기체의 세포 및 다른 세포, 예를 들어 유기체와 관련된 공생 또는 병원성 미생물의 세포를 포함할 수 있다. 유기체와 관련된 공생 또는 병원성 미생물의 예는 유기체로부터의 마이크로바이옴 샘플에 존재하거나 조직에 존재하고, 임의로 질환을 유발하는 원핵 및 진핵 미생물을 포함하지만, 이에 한정되지 않는다.
본 명세서에 사용되는 용어 "조직"은 유기체에서 하나 이상의 특정 기능을 수행하도록 함께 작용하는 세포의 집합 또는 집합체를 의미하도록 의도된다. 세포는 임의로 형태학적으로 유사할 수 있다. 예시적인 조직은 배아, 부고환염, 눈, 근육, 피부, 힘줄, 정맥, 동맥, 혈액, 심장, 비장, 림프절, 골, 골수, 폐, 기관지, 기관, 소화관, 소장, 대장, 결장, 직장, 침샘, 혀, 담낭, 맹장, 간, 췌장, 뇌, 위, 피부, 신장, 요관, 방광, 요도, 생식선, 고환, 난소, 자궁, 나팔관, 흉선, 뇌하수체, 갑상선, 부신 또는 부갑상선을 포함하지만 이로 한정되지 않는다. 조직은 인간 또는 다른 유기체의 다양한 기관 중 임의의 것으로부터 유래될 수 있다. 조직은 건강한 조직 또는 건강하지 못한 조직일 수 있다. 건강하지 못한 조직의 예는 생식 조직, 폐, 유방, 결장직장, 전립선, 비인두, 위, 고환, 피부, 신경계, 뼈, 난소, 간, 혈액 조직, 췌장, 자궁, 신장, 림프 조직 등의 악성 종양을 포함하지만 이로 한정되지 않는다. 악성 종양은 다양한 조직학적 아형, 예를 들어, 상피성 악성 종양, 선암, 육종, 섬유선종, 신경내분비 종양 또는 미분화형 종양일 수 있다.
본 명세서에 정의된 "샘플" 및 이의 유도체는 가장 넓은 의미로 사용되며, 표적 핵산 및/또는 표적 단백질을 포함하는 것으로 의심되는 모든 표본, 배양물 등을 포함한다. 일부 실시 형태에서, 샘플은 DNA, RNA, 단백질 또는 이들의 조합을 포함한다. 샘플은 하나 이상의 핵산 및/또는 하나 이상의 단백질을 포함하는 임의의 생물학적, 임상적, 외과적, 농업적, 대기 또는 수생 기반 표본을 포함할 수 있다. 이 용어는 또한 게놈 DNA 또는 트랜스크립톰(transcriptome)과 같은 샘플로부터의 임의의 단리된 핵산, 및 샘플로부터의 임의의 단리된 단백질을 포함한다. 일부 실시 형태에서, 샘플은 세포 또는 핵의 집합을 포함한다.
본 명세서에 사용되는 용어 "컴파트먼트"는 다른 것들로부터 어떤 것을 분리하거나 격리시키는 면적 또는 체적을 의미하고자 한다. 예시적인 컴파트먼트는 바이알, 튜브, 웰, 소적, 볼루스, 비드, 용기, 표면 특징부, 또는 유량, 자력, 전류 등과 같은 물리적인 힘에 의해 분리된 면적 또는 체적을 포함하지만, 이에 한정되지 않는다. 일 실시 형태에서, 컴파트먼트는 96-웰 플레이트 또는 384-웰 플레이트와 같은 다중 웰 플레이트의 웰이다. 일 실시 형태에서, 컴파트먼트는 패턴화된 표면의 웰(예를 들어, 마이크로웰 또는 나노웰)이다. 본 명세서에 사용되는 소적은 하나 이상의 핵 또는 세포를 캡슐화하기 위한 비드로서, 하이드로겔 조성물을 포함하는 하이드로겔 비드를 포함할 수 있다. 일부 실시 형태에서, 소적은 하이드로겔 재료의 균질한 소적이거나, 폴리머 하이드로겔 셸을 갖는 중공형 소적이다. 균질하든 중공형이든 간에, 소적은 하나 이상의 핵 또는 세포를 캡슐화할 수 있다. 일부 실시 형태에서, 소적은 계면활성제 안정화된 소적이다.
본 명세서에 사용되는 "트랜스포좀 복합체"는 통합 효소, 및 통합 인식 부위를 포함하는 핵산을 의미한다. "트랜스포좀 복합체"는 트랜스포사제 및 전위 반응을 촉진할 수 있는 트랜스포사제 인식 부위에 의해 형성된 기능 복합체이다(예를 들어, 문헌[Gunderson et al., WO 2016/130704] 참조). 통합 효소의 예는 인테그라제 또는 트랜스포사제를 포함하나, 이에 한정되지 않는다. 통합 인식 부위의 예에는 트랜스포사제 인식 부위가 포함되나, 이에 한정되지 않는다.
본 명세서에 사용되는 용어 "핵산"은 폴리뉴클레오티드 및 올리고뉴클레오티드와 상호교환가능하게 사용된다. 핵산은 당업계에서의 그의 사용과 일치하도록 의도되며, 자연 발생 핵산 또는 이의 기능적 유사체를 포함한다. 특히 유용한 기능적 유사체는 서열 특이적 방식으로 핵산에 하이브리디제이션될 수 있거나 특정 뉴클레오티드 서열의 복제를 위한 주형으로서 사용될 수 있다. 자연 발생 핵산은 일반적으로 포스포다이에스테르 결합을 포함하는 골격을 갖는다. 유사체 구조는 당업계에 공지된 임의의 다양한 것을 포함하는 대체 골격 결합을 가질 수 있다. 자연 발생 핵산은 일반적으로 데옥시리보스 당(예를 들어, 데옥시리보핵산(DNA)에서 발견됨) 또는 리보스 당(예를 들어, 리보핵산(RNA)에서 발견됨)을 갖는다. 핵산은 당업계에 알려진 이들 당 부분의 임의의 다양한 유사체를 함유할 수 있다. 핵산은 천연 또는 비천연 염기를 포함할 수 있다. 이와 관련하여, 천연 데옥시리보핵산은 아데닌, 티민, 시토신 또는 구아닌으로 이루어진 군으로부터 선택되는 하나 이상의 염기를 가질 수 있고, 리보핵산은 아데닌, 우라실, 시토신 또는 구아닌으로 이루어진 군으로부터 선택되는 하나 이상의 염기를 가질 수 있다. 핵산 내에 포함될 수 있는 유용한 비천연 염기는 당업계에 알려져 있다. 비천연 염기의 예는 잠금(locked) 핵산(LNA), 가교 핵산(BNA), 및 의사 상보적(pseudo-complementary) 염기(미국 캘리포니아주 샌디에고 소재의 트라이링크 바이오테크놀로지스(Trilink Biotechnologies))를 포함한다. LNA 및 BNA 염기는 DNA 올리고뉴클레오티드에 혼입되어, 올리고뉴클레오티드 하이브리디제이션 강도 및 특이성을 증가시킬 수 있다. LNA 및 BNA 염기 및 이러한 염기의 용도는 당업자에게 공지되어 있으며, 통상적이다. 달리 명시되지 않는 한, 용어 "핵산"은 천연 및 비천연 DNA, mRNA, 및 비코딩 RNA, 예를 들어 3' 말단에 폴리-A가 없는 RNA, 및 RNA로부터 유래된 핵산, 예를 들어 cDNA를 포함한다. 용어 "핵산"은 분자의 일차 구조 만을 말한다. 따라서, 이 용어는 삼중, 이중 및 단일 가닥 데옥시리보핵산("DNA")뿐만 아니라 삼중, 이중 및 단일 가닥 리보핵산("RNA")을 포함한다.
본 명세서에 사용되는 용어 "표적"은 공급원, 기능, 동일성 및/또는 조성이 조사되고 있는 분자에 대한 의미적 식별자(semantic identifier)로서 의도된다. 표적의 예는 핵산 및 단백질을 포함하나 이에 한정되지 않는다. 본 명세서에 사용되는 용어 "표적"은 핵산에 관하여 사용되는 경우, 본 명세서에 기재된 방법 또는 조성물과 관련하여 핵산에 대한 의미적 식별자로서 의도되며, 달리 명시적으로 지시된 것 이상으로 핵산의 구조 또는 기능을 반드시 제한하지는 않는다. 표적 핵산은 기본적으로 임의의 기지 서열 또는 미지 서열의 핵산일 수 있다. 이것은 예를 들어, 게놈 DNA(예를 들어, 염색체 DNA), 염색체외 DNA, 예를 들어 플라스미드, 무세포 DNA, RNA(예를 들어, RNA 또는 비코딩 RNA), 단백질(예를 들어, 세포 또는 세포 표면 단백질), 또는 cDNA의 단편일 수 있다. 표적 핵산은 단백질, 글리칸, 프로테오글리칸 또는 지질과 같은 생체 분자에 특이적으로 결합하는 항체와 같은 화합물에 부착된 핵산일 수 있다(미국 특허 출원 공개 제2018/0273933호). 시퀀싱은 표적 분자의 전체 또는 일부의 서열을 결정할 수 있다. 표적은 핵과 같은 일차 핵산 샘플로부터 유래될 수 있다. 일 실시 형태에서, 표적은 각각의 표적 단편의 한쪽 또는 양쪽 말단에 유니버셜 서열의 배치에 의해 증폭에 적합한 주형으로 처리될 수 있다. 표적은 또한 cDNA로의 역전사에 의해 일차 RNA 샘플로부터 얻어질 수 있다. 일 실시 형태에서, 표적은 세포에 존재하는 DNA, RNA 또는 단백질의 서브세트에 관하여 사용된다. 표적 시퀀싱은 전형적으로 PCR 증폭(예를 들어, 영역 특이적 프라이머) 또는 하이브리디제이션 기반 포획 방법 또는 항체에 의해, 관심 유전자 또는 영역 또는 단백질의 선택 및 분리를 사용한다. 표적 농축(targeted enrichment)는 본 방법의 다양한 단계에서 일어날 수 있다. 예를 들어, 표적 RNA 표현은 역전사 단계에서 표적 특이적 프라이머를 사용하거나, 더욱 복잡한 라이브러리로부터의 서브세트의 하이브리디제이션 기반 농축을 사용하여 얻어질 수 있다. 일례는 엑솜 시퀀싱 또는 L1000 분석(문헌[Subramanian et al., 2017, Cell, 171;1437-1452])이다. 표적 시퀀싱은 당업자에게 공지된 임의의 농축 과정을 포함할 수 있다. 한쪽 또는 양쪽 말단에 유니버셜 서열을 갖는 표적 핵산을 갖는 표적 핵산은 변형된 표적 핵산으로 지칭될 수 있다. 표적 핵산과 같은 핵산에 대한 언급은 달리 지시되지 않는 한, 단일 가닥 및 이중 가닥 핵산 둘 다를 포함한다. 일 실시 형태에서, 라이브러리는 인덱스 서열 또는 인덱스 서열들을 사용하여 농축된다. 일부 실시형태에서, 농축은 예를 들어, 조합 인덱싱을 통해 도입된, 동일한 라이브러리 분자에 부착된 하나 이상의 인덱스 서열을 포함한다.
본 명세서에 사용되는 용어 "유니버셜"은 뉴클레오티드 서열을 설명하기 위해 사용될 때, 분자가 또한 서로 상이한 서열의 영역을 갖는 2개 이상의 핵산 분자에 공통적인 서열의 영역을 지칭한다. 분자의 집합의 상이한 구성원, 예를 들어 시퀀싱 라이브러리의 구성원에 존재하는 유니버셜 서열은 유니버셜 포획 서열의 집단을 사용하여 다수의 상이한 핵산의 포획을 가능하게 할 수 있다. 유니버셜 포획 서열의 비제한적인 예는 P5 및 P7 프라이머와 동일하거나 상보적인 서열을 포함한다. 유사하게, 분자의 집합의 상이한 구성원에 존재하는 유니버셜 서열은 유니버셜 서열의 일부, 예를 들어 유니버셜 프라이머 결합 부위에 상보적인 유니버셜 프라이머의 집단을 사용하여 다수의 상이한 핵산의 복제(예를 들어, 시퀀싱) 또는 증폭을 가능하게 할 수 있다. 용어 "A14" 및 "B15"은 유니버셜 프라이머 결합 부위를 지칭할 때 사용될 수 있다. 용어 "A14'(A14 프라임)" 및 "B15'(B15 프라임)"은 각각, A14 및 B15의 상보체를 지칭한다. 임의의 적절한 유니버셜 프라이머 결합 부위가 본 명세서에 제시된 방법에 사용될 수 있으며, A14 및 B15의 사용이 단지 예시적인 실시 형태라는 것이 이해될 것이다. 일 실시 형태에서, 유니버셜 프라이머 결합 부위는 유니버셜 프라이머(예를 들어, 리드 1 또는 리드 2용 시퀀싱 프라이머)가 시퀀싱을 위해 어닐링하는 부위로 사용된다.
용어 "P5" 및 "P7"은 유니버셜 포획 서열 또는 포획 올리고뉴클레오티드를 지칭할 때 사용될 수 있다. 용어 "P5'(P5 프라임)" 및 "P7'(P7 프라임)"은 각각, P5 및 P7의 상보체를 지칭한다. 임의의 적절한 유니버셜 포획 서열 또는 포획 올리고뉴클레오티드가 본 명세서에 제시된 방법에 사용될 수 있으며, P5 및 P7의 사용이 단지 예시적인 실시 형태라는 것이 이해될 것이다. 플로우 셀 상의 P5 및 P7 또는 이들의 상보체와 같은 포획 올리고뉴클레오티드의 용도는 WO 2007/010251호, WO 2006/064199호, WO 2005/065814호, WO 2015/106941호, WO 1998/044151호 및 WO 2000/018957호의 개시내용에 의해 예시되는 바와 같이, 당업계에 알려져 있다. 예를 들어, 임의의 적절한 순방향 증폭 프라이머는, 고정화되든 용액 중에 있든, 상보적 서열에 대한 하이브리디제이션 및 서열의 증폭을 위해 본 명세서에 제시된 방법에 유용할 수 있다. 유사하게, 임의의 적절한 역방향 증폭 프라이머는, 고정화되든 용액 중에 있든, 상보적 서열에 대한 하이브리디제이션 및 서열의 증폭을 위해 본 명세서에 제시된 방법에 유용할 수 있다. 당업자는 본 명세서에 제시된 바와 같은 핵산의 포획 및/또는 증폭에 적합한 프라이머 서열을 어떻게 설계하고 사용하는지를 이해할 것이다.
본 명세서에 사용되는 용어 "프라이머" 및 이의 유도체는 일반적으로 관심 서열에 하이브리디제이션될 수 있는 임의의 핵산을 지칭한다. 전형적으로, 프라이머는 뉴클레오티드가 폴리머라제에 의해 중합될 수 있거나, 인덱스와 같은 뉴클레오티드 서열이 라이게이션될 수 있는 기질로서 기능하지만; 일부 실시 형태에서, 프라이머는 합성된 핵산 가닥에 혼입되어, 다른 프라이머가 하이브리디제이션하여 합성된 핵산 분자에 상보적인 새로운 가닥의 합성을 프라이밍할 수 있는 부위를 제공할 수 있다. 프라이머는 뉴클레오티드 또는 이의 유사체의 임의의 조합을 포함할 수 있다. 프라이머는 단일 가닥, 이중 가닥이거나, 단일 가닥 영역(들) 및 이중 가닥 영역(들)을 포함하는 핵산일 수 있으며, 리보뉴클레오티드, 데옥시리보뉴클레오티드, 이의 유사체 또는 이들의 혼합물을 포함할 수 있다. 용어 "폴리뉴클레오티드" 및 "올리고뉴클레오티드"는 본 명세서에서 상호교환가능하게 사용된다. 이 용어는 등가물로서, 뉴클레오티드 유사체로부터 제조된 DNA, RNA, cDNA 또는 항체-올리고 복합체의 유사체를 포함하고, 단일 가닥(예컨대, 센스 또는 안티센스) 및 이중 가닥 폴리뉴클레오티드에 적용가능한 것으로 이해되어야 한다. 본 명세서에 사용되는 용어는 또한, 예를 들어 역전사 효소의 작용에 의해 RNA 주형으로부터 생성된 상보적 또는 카피 DNA인 cDNA를 포함한다. 이 용어는 분자의 일차 구조 만을 말한다. 따라서, 이 용어는 삼중, 이중 및 단일 가닥 데옥시리보핵산("DNA")뿐만 아니라 삼중, 이중 및 단일 가닥 리보핵산("RNA")을 포함한다.
본 명세서에 사용되는 용어 "어댑터" 및 이의 유도체, 예를 들어 유니버셜 어댑터는 일반적으로 본 발명의 핵산 분자에 부착될 수 있는 임의의 선형 올리고뉴클레오티드를 지칭한다. 일부 실시 형태에서, 어댑터는 샘플에 존재하는 임의의 표적 서열의 3' 말단 또는 5' 말단에 실질적으로 비상보적이다. 일부 실시 형태에서, 적절한 어댑터 길이는 약 10 내지 100개의 뉴클레오티드, 약 12 내지 60개의 뉴클레오티드, 또는 약 15 내지 50개의 뉴클레오티드 길이의 범위이다. 일반적으로, 어댑터는 뉴클레오티드 및/또는 핵산의 임의의 조합을 포함할 수 있다. 일부 태양에서, 어댑터는 하나 이상의 위치에서 하나 이상의 절단가능한 기를 포함할 수 있다. 다른 태양에서, 어댑터는 프라이머, 예를 들어 유니버셜 프라이머의 적어도 일부와 실질적으로 동일하거나 실질적으로 상보적인 서열을 포함할 수 있다. 일부 실시 형태에서, 어댑터는 다운스트림 에러 보정(downstream error correction), 식별 또는 시퀀싱을 지원하도록 바코드(본 명세서에서 태그 또는 인덱스로도 지칭됨)를 포함할 수 있다. 용어 "어댑터(adaptor)" 또는 "어댑터(adapter)"는 상호교환가능하게 사용된다.
본 명세서에 사용되는 용어 "각각의"는 아이템들의 집합에 관하여 사용될 때, 집합 내의 개별 아이템을 식별하도록 의도되지만, 문맥이 명백하게 달리 지시하지 않는 한, 반드시 집합 내의 모든 아이템을 지칭하지는 않는다.
본 명세서에 사용되는 용어 "수송"은 유체를 통한 분자의 이동을 지칭한다. 이 용어는 농도 구배(예를 들어, 수동 확산)를 따른 분자의 이동과 같은 수동 수송을 포함할 수 있다. 이 용어는 또한 분자가 농도 구배를 따라 또는 농도 구배에 대해 이동할 수 있는 능동 수송을 포함할 수 있다. 따라서, 수송은 하나 이상의 분자를 원하는 방향으로 또는 증폭 부위와 같은 원하는 위치로 이동시키기 위해 에너지를 적용하는 것을 포함할 수 있다.
본 명세서에 사용되는 "증폭시키다", "증폭시키는" 또는 "증폭 반응" 및 이들의 파생어는 일반적으로 핵산 분자의 적어도 일부가 적어도 하나의 추가의 핵산 분자에 복제되거나 카피되는 임의의 작용 또는 과정을 지칭한다. 추가의 핵산 분자는 임의로, 주형 핵산 분자의 적어도 일부와 실질적으로 동일하거나 실질적으로 상보적인 서열을 포함한다. 주형 핵산 분자는 단일 가닥 또는 이중 가닥일 수 있고, 추가의 핵산 분자는 독립적으로 단일 가닥 또는 이중 가닥일 수 있다. 증폭은 임의로 핵산 분자의 선형 또는 지수함수적 복제를 포함한다. 일부 실시 형태에서, 이러한 증폭은 등온 조건을 사용하여 수행될 수 있고; 다른 실시 형태에서, 이러한 증폭은 서모사이클링을 포함할 수 있다. 일부 실시 형태에서, 증폭은 단일 증폭 반응에서 복수의 표적 서열의 동시 증폭을 포함하는 멀티플렉스 증폭이다. 일부 실시 형태에서, "증폭"은 DNA 및 RNA 기반 핵산의 적어도 일부를 단독으로 또는 조합하여 증폭시키는 것을 포함한다. 증폭 반응은 당업자에게 알려진 임의의 증폭 과정을 포함할 수 있다. 일부 실시 형태에서, 증폭 반응은 폴리머라제 연쇄 반응(PCR)을 포함한다.
본 명세서에 사용되는 "증폭 조건" 및 이의 파생어는 일반적으로 하나 이상의 핵산 서열을 증폭시키기에 적합한 조건을 지칭한다. 이러한 증폭은 선형 또는 지수함수적일 수 있다. 일부 실시 형태에서, 증폭 조건은 등온 조건을 포함할 수 있거나, 대안적으로 서모사이클링 조건, 또는 등온 조건과 서모사이클링 조건의 조합을 포함할 수 있다. 일부 실시 형태에서, 하나 이상의 핵산 서열을 증폭시키기에 적합한 조건은 폴리머라제 연쇄 반응(PCR) 조건을 포함한다. 전형적으로, 증폭 조건은 유니버셜 서열에 의해 플랭킹된 하나 이상의 표적 서열과 같은 핵산을 증폭시키거나, 하나 이상의 어댑터에 라이게이션된 증폭된 표적 서열을 증폭시키기에 충분한 반응 혼합물을 지칭한다. 일반적으로, 증폭 조건은 증폭 또는 핵산 합성을 위한 촉매, 예를 들어 폴리머라제; 증폭될 핵산에 어느 정도의 상보성을 갖는 프라이머; 및 핵산에 하이브리디제이션되면 프라이머의 신장을 촉진하는 뉴클레오티드, 예를 들어 데옥시리보뉴클레오티드 트라이포스페이트(dNTP)를 포함한다. 증폭 조건은 핵산에 대한 프라이머의 하이브리디제이션 또는 어닐링, 프라이머의 신장, 및 신장된 프라이머가 증폭되는 핵산 서열로부터 분리되는 변성 단계를 필요로 할 수 있다. 전형적으로, 반드시 그렇지는 않지만, 증폭 조건은 서모사이클링을 포함할 수 있으며; 일부 실시 형태에서, 증폭 조건은 어닐링, 신장 및 분리 단계가 반복되는 복수의 사이클을 포함한다. 전형적으로, 증폭 조건은 Mg2+ 또는 Mn2+와 같은 양이온을 포함하며, 다양한 이온 강도의 개질제도 포함할 수 있다.
본 명세서에서 사용되는 "재증폭" 및 이의 파생어는 일반적으로 증폭된 핵산 분자의 적어도 일부가 임의의 적절한 증폭 과정을 통해 추가로 증폭되어(일부 실시형태에서 "이차" 증폭으로 지칭됨), 재증폭된 핵산 분자를 생성시키는 임의의 과정을 지칭한다. 이차 증폭은 증폭된 핵산 분자가 생성되는 원래의 증폭 과정과 동일할 필요도 없고; 재증폭된 핵산 분자가 증폭된 핵산 분자와 완전히 동일하거나 완전히 상보적일 필요도 없으며; 필요한 것은 재증폭된 핵산 분자가 증폭된 핵산 분자 또는 이의 상보체의 적어도 일부를 포함한다는 것뿐이다. 예를 들어, 재증폭은 일차 증폭과 상이한 표적 특이적 프라이머를 포함하는 상이한 프라이머 및/또는 상이한 증폭 조건의 사용을 포함할 수 있다.
본 명세서에 사용되는 용어 "폴리머라제 연쇄 반응"("PCR")은 물리스(Mullis)의 방법(미국 특허 제4,683,195호 및 제4,683,202호)을 지칭하는데, 이것은 클로닝 또는 정제 없이 게놈 DNA의 혼합물 중에서 관심 폴리뉴클레오티드의 세그먼트의 농도를 증가시키는 방법을 기술한다. 관심 폴리뉴클레오티드를 증폭시키는 이러한 방법은 원하는 관심 폴리뉴클레오티드를 함유하는 DNA 혼합물에 과량의 2개의 올리고뉴클레오티드 프라이머를 도입한 후에, DNA 폴리머라제의 존재 하에서 일련의 열 사이클링을 수행하는 것으로 이루어진다. 2개의 프라이머는 관심 이중 가닥 폴리뉴클레오티드의 각각의 가닥에 상보적이다. 혼합물은 먼저 고온에서 변성되고, 이어서 프라이머는 관심 폴리뉴클레오티드 분자 내의 상보적 서열에 어닐링된다. 어닐링 후에, 프라이머를 폴리머라제로 신장시켜, 새로운 한 쌍의 상보적 가닥을 형성한다. 변성 단계, 프라이머 어닐링 및 폴리머라제 신장의 단계를 여러 번 반복하여(서모사이클링으로 지칭됨), 고 농도의 원하는 관심 폴리뉴클레오티드의 증폭된 세그먼트를 얻을 수 있다. 원하는 관심 폴리뉴클레오티드의 증폭된 세그먼트(앰플리콘)의 길이는 서로에 대한 프라이머의 상대적 위치에 의해 측정되고, 따라서 이러한 길이는 제어가능한 파라미터이다. 이러한 과정의 반복으로 인해, 이 방법은 PCR로 지칭된다. 관심 폴리뉴클레오티드의 원하는 증폭된 세그먼트가 혼합물 중에서 우세한 핵산 서열(농도 면에서)이 되기 때문에, 이는 "PCR 증폭된"으로 불리운다. 상기에 논의된 방법에 대한 변형에서, 표적 핵산 분자는 복수의 상이한 프라이머 쌍, 일부 경우에, 관심 표적 핵산 분자당 하나 이상의 프라이머 쌍을 사용하여 PCR 증폭되어, 멀티플렉스 PCR 반응을 형성할 수 있다.
본 명세서에 정의된 "멀티플렉스 증폭"은 적어도 하나의 표적 특이적 프라이머를 사용하여 샘플 내의 2개 이상의 표적 서열의 선택적 및 비무작위 증폭을 지칭한다. 일부 실시 형태에서, 멀티플렉스 증폭은 표적 서열 중 일부 또는 전부가 단일 반응 용기 내에서 증폭되도록 수행된다. 주어진 멀티플렉스 증폭의 "플렉시(plexy)" 또는 "플렉스"는 일반적으로 단일 멀티플렉스 증폭 동안 증폭되는 상이한 표적 특이적 서열의 수를 지칭한다. 일부 실시 형태에서, 플렉시는 약 12-플렉스, 24-플렉스, 48-플렉스, 96-플렉스, 192-플렉스, 384-플렉스, 768-플렉스, 1536-플렉스, 3072-플렉스, 6144-플렉스 또는 그 이상일 수 있다. 또한, 증폭된 표적 서열을 몇몇 상이한 방법(예를 들어, 겔 전기영동, 이어서 농도 측정, 생물분석기 또는 정량적 PCR을 이용한 정량화, 표지화된 프로브와의 하이브리디제이션; 비오틴화 프라이머의 혼입, 이어서 아비딘-효소 복합체 검출; 32P 표지화된 데옥시뉴클레오티드 트라이포스페이트의 증폭된 표적 서열에로의 혼입)으로 검출할 수 있다.
본 명세서에 사용되는 "증폭된 표적 서열" 및 이의 파생어는 일반적으로 표적 서열을 표적 특이적 프라이머 및 본 명세서에 제공된 방법을 사용하여 증폭시킴으로써 생성되는 폴리뉴클레오티드 서열을 지칭한다. 증폭된 표적 서열은 표적 서열에 대하여 동일한 센스(즉, 양성 가닥) 또는 안티센스(즉, 음성 가닥) 중 어느 하나일 수 있다.
본 명세서에 사용되는 용어 "라이게이팅", "라이게이션" 및 이들의 파생어는 일반적으로 2개 이상의 분자를 함께 공유 결합시키는 과정, 예를 들어 2개 이상의 핵산 분자를 서로 공유 결합하는 과정을 지칭한다. 일부 실시 형태에서, 라이게이션은 핵산의 인접한 뉴클레오티드 간의 닉(nick)을 결합하는 것을 포함한다. 일부 실시 형태에서, 라이게이션은 제1 핵산 분자의 말단과 제2 핵산 분자의 말단 사이에 공유 결합을 형성하는 것을 포함한다. 일부 실시형태에서, 라이게이션은 하나의 핵산의 5' 포스페이트기와 다른 하나의 핵산의 3' 하이드록실기 사이에 공유 결합을 형성하여, 라이게이션된 핵산 분자를 형성하는 것을 포함할 수 있다. 일반적으로, 본 발명의 목적을 위해, 증폭된 표적 서열은 어댑터에 라이게이션되어 어댑터 라이게이션된 증폭된 표적 서열을 생성할 수 있다.
본 명세서에 사용되는 "리가제" 및 이의 유도체는 일반적으로 2개의 기질 분자의 라이게이션을 촉매할 수 있는 임의의 제제를 말한다. 일부 실시 형태에서, 리가제는 핵산의 인접한 뉴클레오티드 간의 닉의 연결을 촉매할 수 있는 효소를 포함한다. 일부 실시 형태에서, 리가제는 하나의 핵산 분자의 5' 포스페이트와 다른 핵산 분자의 3' 하이드록실 사이의 공유 결합의 형성을 촉매하여, 라이게이션된 핵산 분자를 형성할 수 있는 효소를 포함한다. 적절한 리가제는 T4 DNA 리가제, T4 RNA 리가제 및 대장균 DNA 리가제를 포함할 수 있지만, 이에 한정되지 않는다.
본 명세서에 사용되는 "라이게이션 조건" 및 이의 파생어는 일반적으로 2개의 분자를 서로 라이게이션시키기에 적합한 조건을 지칭한다. 일부 실시 형태에서, 라이게이션 조건은 핵산 사이의 닉 또는 갭을 밀봉하는 데 적합하다. 본 명세서에 사용되는 용어 "닉" 또는 "갭"은 당해 기술 분야에서의 그 용어의 사용과 일치한다. 전형적으로, 닉 또는 갭은 적절한 온도 및 pH에서 리가제와 같은 효소의 존재 하에 라이게이션될 수 있다. 일부 실시 형태에서, T4 DNA 리가제는 약 70 내지 72℃의 온도에서 핵산 간의 닉을 연결할 수 있다.
본 명세서에 사용되는 용어 "플로우 셀"은 하나 이상의 유체 시약이 유동할 수 있는 고체 표면을 포함하는 챔버를 지칭한다. 본 발명의 방법에서 용이하게 사용될 수 있는 플로우 셀 및 관련 유체 시스템 및 검출 플랫폼의 예는 예를 들어, 문헌[Bentley et al., Nature 456:53-59 (2008)], 국제 특허 공개 WO 04/018497호; 미국 특허 제7,057,026호; 국제 특허 공개 WO 91/06678호; 국제 특허 공개 WO 07/123744호; 미국 특허 제7,329,492호; 미국 특허 제7,211,414호; 미국 특허 제7,315,019호; 미국 특허 제7,405,281호 및 미국 특허 공개 제2008/0108082호에 기재되어 있다.
본 명세서에 사용되는 용어 "앰플리콘"은 핵산과 관련하여 사용될 때, 핵산을 카피하는 산물을 의미하며, 여기서 상기 산물은 핵산의 뉴클레오티드 서열의 적어도 일부와 동일하거나 상보적인 뉴클레오티드 서열을 갖는다. 앰플리콘은 예를 들어, 폴리머라제 신장, 폴리머라제 연쇄 반응(PCR), 롤링 서클 증폭(RCA), 라이게이션 신장 또는 라이게이션 연쇄 반응을 비롯하여, 주형으로서 핵산 또는 이의 앰플리콘을 사용하는 임의의 다양한 증폭 방법에 의해 생성될 수 있다. 앰플리콘은 특정 뉴클레오티드 서열의 단일 카피(예를 들어, PCR 산물) 또는 뉴클레오티드 서열의 다수의 카피(예를 들어, RCA의 콘카테머 산물(concatemeric product))를 갖는 핵산 분자일 수 있다. 표적 핵산의 제1 앰플리콘은 전형적으로 상보적 카피이다. 후속 앰플리콘은 제1 앰플리콘의 생성 후에, 표적 핵산으로부터 또는 제1 앰플리콘으로부터 생성된 카피이다.
본 명세서에 사용되는 용어 "증폭 부위"는 하나 이상의 앰플리콘이 생성될 수 있는 어레이 내의 또는 어레이 상의 부위를 지칭한다. 증폭 부위는 그 부위에서 생성되는 적어도 하나의 앰플리콘을 포함하거나, 보유하거나 또는 이에 부착되도록 추가로 구성될 수 있다.
본 명세서에 사용되는 용어 "어레이"는 상대적 위치에 따라 서로 구별될 수 있는 부위의 집단을 지칭한다. 어레이의 다른 부위에 있는 다른 분자들은 어레이 내의 부위 위치에 따라 서로 구별될 수 있다. 어레이의 개별 부위는 특정 유형의 하나 이상의 분자를 포함할 수 있다. 예를 들어, 부위는 특정 서열을 갖는 단일 표적 핵산 분자를 포함할 수 있거나, 부위는 동일한 서열(및/또는 이의 상보적 서열)을 갖는 몇몇 핵산 분자를 포함할 수 있다. 어레이의 부위는 동일한 기질 상에 위치된 상이한 특징부일 수 있다. 예시적인 특징부는 기질 내의 웰, 기질 내 또는 기질 상의 비드(또는 다른 입자), 기질로부터의 돌출부, 기질 상의 릿지(ridge) 또는 기질 내의 채널을 포함하지만, 이에 한정되지 않는다. 어레이의 부위는 각각 상이한 분자를 갖는 별도의 기질일 수 있다. 별도의 기질에 부착된 다른 분자는 기질이 결합된 표면 상의 기질의 위치에 따라, 또는 액체 또는 겔 중의 기질의 위치에 따라 식별될 수 있다. 별도의 기질이 표면에 위치하는 예시적인 어레이는 웰에 비드를 갖는 어레이를 포함하지만, 이에 한정되지 않는다.
본 명세서에 사용되는 용어 "용량"은 부위 및 핵산 물질과 관련하여 사용될 때, 부위를 차지할 수 있는 핵산 물질의 최대량을 의미한다. 예를 들어, 이 용어는 특정 조건에서 부위를 차지할 수 있는 핵산 분자의 총수를 지칭할 수 있다. 예를 들어, 특정 조건에서 부위를 차지할 수 있는 특정 뉴클레오티드 서열의 총 카피수 또는 핵산 물질의 총 질량을 포함하는 다른 측정치가 또한 사용될 수 있다. 전형적으로, 표적 핵산에 대한 부위의 용량은 표적 핵산의 앰플리콘에 대한 부위의 용량과 실질적으로 동등할 것이다.
본 명세서에 사용되는 용어 "포획제"는 표적 분자(예를 들어, 표적 핵산)에 부착, 보유 또는 결합할 수 있는 물질, 화학물질, 분자 또는 이의 부분을 지칭한다. 예시적인 포획제는 비제한적으로 표적 핵산의 적어도 일부에 상보적인 포획 서열(본 명세서에서 포획 올리고뉴클레오티드라고도 지칭됨), 표적 핵산(또는 이에 부착된 연결 부분)에 결합할 수 있는 수용체-리간드 결합쌍의 구성원(예를 들어, 아비딘, 스트렙타비딘, 비오틴, 렉틴, 탄수화물, 핵산 결합 단백질, 에피토프, 항체 등), 또는 표적 핵산(또는 이에 부착된 연결 부분)과 공유 결합을 형성할 수 있는 화학 시약을 포함한다.
본 명세서에 사용되는 용어 "리포터 부분"은 조사되는 표적의 조성물, 동일성 및/또는 공급원을 결정할 수 있는 임의의 식별가능한 태그, 표지, 인덱스, 바코드 또는 기를 지칭할 수 있다. 일부 실시 형태에서, 리포터 부분은 단백질에 특이적으로 결합하는 항체를 포함할 수 있다. 일부 실시 형태에서, 항체는 검출가능한 표지를 포함할 수 있다. 일부 실시 형태에서, 리포터는 핵산 태그로 표지화된 항체 또는 친화성 시약을 포함할 수 있다. 일 실시 형태에서, 핵산은 트랜스포좀 복합체의 기질로서 작용하기에 충분한 길이를 갖는다. 일 실시 형태에서, 핵산 태그는 예를 들어, 근접 라이게이션 분석(PLA) 또는 근접 신장 분석(PEA), 시퀀싱 기반 리드아웃(sequencing-based readout; 문헌[Shahi et al. Scientific Reports volume 7, Article number: 44447, 2017]) 또는 에피토프 기반 리드아웃 예컨대 CITE-seq(문헌[Stoeckius et al. Nature Methods 14:865-868, 2017])을 통해 검출가능할 수 있다.
본 명세서에 사용되는 용어 "클론 집단"은 특정 뉴클레오티드 서열에 대하여 균일한 핵산의 집단을 지칭한다. 균일한 서열은 전형적으로 적어도 10개의 뉴클레오티드 길이이지만, 예를 들어 적어도 50, 100, 250, 500 또는 1000개의 뉴클레오티드 길이를 비롯하여, 훨씬 더 길 수 있다. 클론 집단은 단일 표적 핵산 또는 주형 핵산으로부터 유래될 수 있다. 전형적으로, 클론 집단 내의 모든 핵산은 동일한 뉴클레오티드 서열을 가질 것이다. 적은 수의 돌연변이(예를 들어, 증폭 인공물로 인한)가 클론성에서 벗어나지 않으면서 클론 집단에서 일어날 수 있음이 이해될 것이다.
본 명세서에 사용되는 용어 "고유 분자 식별자" 또는 "UMI"는 핵산에 부착될 수 있는, 무작위화, 비무작위화 또는 반무작위화 분자 태그를 지칭한다. 핵산에 혼입될 때, UMI는 증폭 후에 시퀀싱된 고유 분자 식별자(UMI)를 직접 카운팅하여 후속 증폭 바이어스를 보정하는데 사용될 수 있다.
본 명세서에 사용되는 "외인성" 화합물, 예를 들어 외인성 효소는 특정 조성물에서 일반적으로 또는 자연에 발견되지 않는 화합물을 지칭한다. 예를 들어, 특정 조성물이 세포 용해물을 포함하는 경우, 외인성 효소는 세포 용해물에서 일반적으로 또는 자연에 발견되지 않는 효소이다.
본 명세서에 사용되는, 예를 들어 조성물, 물품, 핵산 또는 핵과 관련하여 "제공하는"은 조성물, 물품, 핵산 또는 핵을 제조하거나, 조성물, 물품, 핵산 또는 핵을 구입하거나, 달리 화합물, 조성물, 물품 또는 핵을 얻는 것을 의미한다.
용어 "및/또는"은 열거된 요소들 중 하나 또는 전부, 또는 열거된 요소들 중 임의의 둘 이상의 조합을 의미한다.
단어 "바람직한" 및 "바람직하게는"은 특정 상황 하에서 특정 이익을 제공할 수 있는 본 발명의 실시 형태를 지칭한다. 그러나, 다른 실시 형태가 동일하거나 다른 상황 하에서 또한 바람직할 수 있다. 또한, 하나 이상의 바람직한 실시 형태의 언급은 다른 실시 형태가 유용하지 않다는 것을 의미하지 않으며, 본 발명의 범주로부터 다른 실시 형태를 배제하고자 하는 것은 아니다.
용어 "포함하다(comprise)" 및 이의 변형은 이 용어가 상세한 설명 및 청구범위에 나타날 경우 제한적인 의미를 갖지 않는다.
실시 형태가 "포함하다(include)", "포함하다(includes)" 또는 "포함하는(including)" 등의 언어로 본 명세서에서 설명될 때마다, 아니면 "~로 이루어진" 및/또는 "기본적으로 ~로 이루어진"과 관련하여 설명된 유사한 실시 형태가 또한 제공되는 것으로 이해된다.
달리 명시되지 않는 한, 단수형("a", "an", "the") 및 "적어도 하나"는 상호교환가능하게 사용되며, 하나 또는 둘 이상을 의미한다.
또한 본 명세서에서, 종점(endpoint)에 의한 수치 범위의 언급은 그 범위 내에 포함되는 모든 수를 포함한다(예를 들어, 1 내지 5는 1, 1.5, 2, 2.75, 3, 3.80, 4, 5 등을 포함함).
개별 단계를 포함하는 본 명세서에 개시된 임의의 방법의 경우, 단계는 임의의 실행 가능한 순서로 수행될 수 있다. 그리고, 필요에 따라, 2개 이상의 단계의 임의의 조합이 동시에 수행될 수 있다.
본 명세서 전반에 걸쳐 "일 실시 형태", "실시 형태", "특정 실시 형태" 또는 "일부 실시 형태" 등에 대한 언급은 그 실시 형태와 관련하여 기술된 특정 특징부, 구성, 조성물 또는 특성이 본 발명의 적어도 하나의 실시 형태에 포함됨을 의미한다. 따라서, 본 명세서 전반에 걸쳐 다양한 부분에서 이러한 어구의 출현은 반드시 본 발명의 동일한 실시 형태를 언급하는 것은 아니다. 또한, 특정 특징부, 구성, 조성물 또는 특성은 하나 이상의 실시 형태에서 임의의 적절한 방식으로 조합될 수 있다.
본 발명의 예시적인 실시 형태의 하기의 상세한 설명은 하기의 도면을 참조할 때 가장 잘 이해될 수 있다.
도 1a 및 도 1b는 본 발명에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적인 방법의 상이한 실시 형태의 일반적인 블록도를 도시한다.
도 2는 도 1a의 방법에 일반적으로 예시된 바와 같은 단일 세포 조합 인덱싱을 위한 방법의 개략도를 도시한다. 단순화하기 위해, 하나의 이중 가닥 표적 핵산 만이 도시되어 있다.
도 3은 본 발명에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적인 방법의 일 실시 형태의 일반적인 블록도를 도시한다.
도 4는 본 발명에 따른 단일 세포 조합 인덱싱을 위한 일반적인 예시적인 방법의 일 실시 형태의 일반적인 블록도를 도시한다.
도 5는 도 1, 도 3 또는 도 4의 방법에 일반적으로 예시된 바와 같은 단일 세포 조합 인덱싱을 위한 방법의 개략도를 도시한다. 단순화하기 위해, 하나의 이중 가닥 표적 핵산 만이 도시되어 있다.
도 6은 본 발명에 따른 단일 세포 조합 인덱싱을 사용하여 메타게놈 분석을 위한 일반적인 예시적인 방법의 일 실시 형태의 일반적인 블록도를 도시한다.
도 7은 본 발명에 따른 인접 인덱스를 사용하여 시퀀싱 라이브러리를 생성하기 위한 일반적인 예시적인 방법의 일 실시 형태의 개략도를 도시한다.
도 8은 본 발명에 따른 표적 증폭과 농축을 커플링하기 위한 일반적인 예시적인 방법의 일 실시 형태의 개략도를 나타낸다.
도 9는 sci-ATAC-seq3의 개략도를 나타낸다. 59개의 태아 샘플로부터의 160만 개의 세포의 핵을 벌크 상태로 Tn5 트랜스포사제에 태그멘테이션하였다. 인덱싱의 처음 두 라운드는 Tn5 트랜스포사제 복합체의 각 말단에 대한 연속 라이게이션에 의해 달성되었고, 제3 라운드는 PCR에 의해 달성되었다. 제1 라운드의 인덱싱을 샘플 인덱스로서 사용하였다.
도 10은 실시예 1에 기술된 sci-ATAC-seq3로부터 생성된 앰플리콘의 구조를 도시한다.
도 11은 실시예 2에 기술된 프로젝트 워크플로우를 도시한다.
개략도는 반드시 축척대로 도시된 것은 아니다. 도면에 사용된 동일한 도면 부호는 동일한 구성요소, 단계 등을 지칭한다. 그러나, 주어진 도면에서 구성요소를 지칭하기 위한 도면부호의 사용은 동일한 도면부호로 표시된 다른 도면의 구성요소를 제한하고자 하는 것이 아님을 이해할 것이다. 또한, 구성요소를 지칭하기 위해 다른 도면부호를 사용하는 것은 상이한 도면부호로 된 구성요소가 다른 도면부호로 된 구성요소와 동일하거나 유사할 수 없음을 나타내는 것으로 의도되지 않는다.
본 명세서에 제공된 방법은 복수의 단일 세포로부터 시퀀싱 라이브러리를 생성하는 데 사용될 수 있다. 본질적으로 단일 세포 조합 인덱싱 방법, 예컨대 트랜스포존 접근가능한 염색질의 단일 핵 시퀀싱(sci-ATAC, 미국 특허 제10,059,989호), 단일 핵의 전체 게놈 시퀀싱(미국 특허 출원 공개 제2018/0023119호), 단일 핵 트랜스크립톰 시퀀싱(미국 가특허 출원 제62/680,259호 및 군더슨(Gunderson) 등의 국제 특허 공개 제WO2016/130704호), sci-HiC(문헌[Ramani et al., Nature Methods, 2017, 14:263-266]), DRUG-seq(문헌[Ye et al., Nature Commun., 9, article number 4307]), 또는 DNA 및 단백질로부터의 분석물의 임의의 조합, 예를 들어 sci-CAR(문헌[Cao et al., Science, 2018, 361(6409):1380-1385]) 및 RNA 및 단백질, 예를 들어 CITE-seq(문헌[Stoeckius et al., 2017, Nature Methods. 14 (9): 865-868])를 포함하지만, 이에 한정되지 않는 임의의 단일 핵 또는 단일 세포 라이브러리 제조 방법 또는 시퀀싱 방법이 사용될 수 있다. 일 실시 형태에서, 세포지도 실험은 염색질 접근가능한 DNA, 전체 세포 트랜스크립톰, 매우 유익한 mRNA의 제한된 수 또는 이들의 조합으로 제한된 리드아웃으로 행해질 수 있다.
단리된 핵 또는 세포의 제공
일 실시 형태에서, 본 명세서에 제공된 방법은 복수의 세포로부터 세포 또는 단리된 핵을 제공하는 단계를 포함할 수 있다(예를 들어, 도 1a, 블록 10, 도 3, 블록 30, 도 4, 블록 40, 도 6, 블록 600). 세포는 임의의 유기체(들)로부터, 그리고 유기체(들)의 임의의 세포 유형 또는 임의의 조직으로부터 유래될 수 있다. 일 실시 형태에서, 세포는 조직 또는 액체 생검과 같은 생검으로부터 유래될 수 있다. 일 실시 형태에서, 세포는 배아 세포, 예를 들어 배아로부터 얻은 세포일 수 있다. 일 실시 형태에서, 세포 또는 핵은 암 또는 병변 조직으로부터 유래될 수 있다. 일 실시 형태에서, 세포 또는 핵은 면역 세포, 예컨대 T 세포 또는 B 세포일 수 있다. 일 실시 형태에서, 세포는 단일 유기체로부터 얻은 다양한 상이한 세포 유형일 수 있다. 일 실시 형태에서, 단일 유기체로부터 얻은 다양한 상이한 세포 유형은 원핵 세포 및/또는 진핵 세포를 포함한 미생물 세포를 포함할 수 있다. 일 실시 형태에서, 상이한 공급원, 예를 들어 상이한 유기체 및/또는 상이한 조직으로부터의 세포는 이 단계에서 조합되지 않는다. 일 실시 형태에서, 상이한 공급원, 예를 들어 상이한 유기체 및/또는 상이한 조직으로부터의 세포는 이 단계에서 조합된다.
일 실시 형태에서, 복수의 세포는 보다 큰 세포 집단의 서브세트일 수 있다. 서브세트는 예를 들어, 세포 표면 상의 단백질 또는 글리칸과 같은 동정가능한 분자의 크기, 형태 또는 존재의 차이에 기초하여 다른 세포로부터 분리될 수 있다. 세포를 분류하기 위한 방법은 당업계에 공지되어 있으며, 형광 활성화 세포 분류, 자기 활성화 세포 분류 및 마이크로유체 세포 분류를 포함한다.
상기 방법은 세포를 해리시키는 단계 및/또는 핵을 단리하는 단계를 추가로 포함할 수 있다. 일 실시 형태에서, 핵에 존재하는 염색질을 유지하는 조건이 사용된다. 일 실시 형태에 있어서, 핵에 존재하는 뉴클레오솜은 고갈된다. 뉴클레오솜 고갈을 위한 방법은 당업자에게 공지되어 있다(미국 특허 출원 공개 제2018/002311호).
Drop-seq, Seq-well 및 단일 세포 조합 인덱싱("sci-") 방법을 포함하지만 이에 한정되지 않는 많은 상이한 단일 세포 라이브러리 제조 방법이 당업계에 공지되어 있다(문헌[Hwang et al. Experimental & Molecular Medicine, vol. 50, Article number: 96 (2018)]). 단일 세포 산물 및 관련 기술을 제공하는 회사에는 10X Genomics, Takara biosciences, BD biosciences, Biorad, 1cellbio, IsoPlexis, CellSee, NanoCellect 및 Dolomite Bio가 포함되지만 이에 한정되지 않는다. sci-seq는 분할 풀 바코딩을 이용하여, 다수의 단일 세포 또는 핵의 핵산 함량을 고유하게 표지화하는 방법론적 프레임워크이다. 전형적으로, 핵 또는 세포의 수는 적어도 2개일 수 있다. 상한은 본 명세서에 기술된 방법의 다른 단계에서 사용되는 장비(예를 들어, 다중-웰 플레이트, 인덱스 수)의 실제적인 제한에 좌우된다. 사용될 수 있는 핵 또는 세포의 수는 제한하려는 것이 아니며, 수십억에 이를 수 있다. 예를 들어, 일 실시 형태에서, 핵 또는 세포의 수는 1,000,000,000개 이하, 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 1,000개 이하, 500개 이하 또는 50개 이하일 수 있다. 일 실시 형태에서, 핵 또는 세포의 수는 50개 이상, 500개 이상, 1,000개 이상, 10,000개 이상, 100,000개 이상, 1,000,000개 이상, 10,000,000개 이상, 100,000,000개 이상 또는 1,000,000,000개 이상일 수 있다.
단리된 핵을 사용하는 이들 실시 형태에서, 핵은 추출 및 고정에 의해 얻어질 수 있다. 임의로 그리고 바람직하게는, 단리된 핵을 얻는 방법은 효소 처리를 포함하지 않는다.
일 실시 형태에서, 핵은 부착하거나 부유 상태인 개별 세포로부터 단리된다. 개별 세포로부터 핵을 단리하는 방법은 당업자에게 공지되어 있다. 핵은 전형적으로 조직 내에 존재하는 세포로부터 단리된다. 단리된 핵을 얻는 방법은 전형적으로 조직을 준비하고, 준비된 조직으로부터 핵을 단리한 다음에, 핵을 고정하는 단계를 포함한다. 일 실시 형태에서, 모든 단계는 얼음 상에서 수행된다.
일 실시 형태에서, 조직 준비는 액체 질소 중에서 조직을 급속 동결한 다음에, 조직의 크기를 직경 1 mm 이하의 조각으로 감소시키는 것을 포함한다. 조직은 조직을 잘게 썰거나 조직에 무딘 힘을 가해 크기가 감소될 수 있다. 조직을 작은 조각으로 절단하기 위해 칼날로 잘게 썰기를 할 수 있다. 무딘 힘을 가하는 것은 해머 또는 유사한 물체로 조직을 스매싱하여 행할 수 있으며, 얻어진 스매싱된 조직의 조성물은 분말로 지칭된다.
핵 단리는 조각 또는 분말을 세포 용해 완충액 중에서 적어도 1 내지 20분, 예컨대 5, 10 또는 15분간 인큐베이션하여 행해질 수 있다. 유용한 완충액은 세포 용해를 촉진하지만 핵의 완전성을 유지하는 것이다. 세포 용해 완충액의 예는 10 mM 트리스(Tris)-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2, 0.1% IGEPAL CA-630, 1% SUPERase In RNAse 억제제 (20 U/μL, 앰비온(Ambion)) 및 1% BSA (20 mg/ml, NEB)를 포함한다. 표준 핵 단리 방법은 종종 단리를 돕기 위해 외인성 효소와 같은 하나 이상의 외인성 화합물을 사용한다. 세포 용해 완충액에 존재할 수 있는 유용한 효소의 예는 프로테아제 억제제, 리소자임, 프로테이나제 K, 서팩턴트(surfactant), 리소스타핀, 자이몰리아제, 셀룰로스, 프로테아제 또는 글리카나제 등을 포함하나 이에 한정되지 않는다(문헌[Islam et al. Micromachines (Basel), 2017, 8(3):83]; www.sigmaaldrich.com/life-science/biochemicals/biochemical-products.html?TablePage=14573107). 일 실시 형태에서, 하나 이상의 외인성 효소는 본 명세서에 기재된 방법에 유용한 세포 용해 완충액에 존재하지 않는다. 예를 들어, 외인성 효소는 (i) 세포와 용해 완충액의 혼합 전에 세포에 첨가되지 않거나, (ii) 세포와 혼합되기 전에 세포 용해 완충액에 존재하지 않거나, (iii) 세포와 세포 용해 완충액의 혼합물에 첨가되지 않거나, 이들의 조합이다. 당업자는 핵을 단리하기 위한 세포 용해 완충액의 유용성을 감소시키지 않으면서 성분의 이러한 레벨이 다소 변경될 수 있음을 인식할 것이다. 그 다음에, 추출된 핵은 핵 완충액을 사용하여 1회 이상의 라운드로 세척하여 정제된다. 핵 완충액의 예는 10 mM 트리스-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2, 1% SUPERase In RNAse 억제제 (20 U/μL, 앰비온) 및 1% BSA (20 mg/ml, NEB)를 포함한다. 세포 용해 완충액과 같이, 외인성 효소는 또한 본 발명의 방법에 사용되는 핵 완충액에 존재하지 않을 수 있다. 당업자는 핵을 단리하기 위한 핵 완충액의 유용성을 감소시키지 않으면서 성분의 이러한 레벨이 다소 변경될 수 있음을 인식할 것이다. 당업자는 BSA 및/또는 계면활성제가 핵의 단리에 사용되는 완충액에 유용할 수 있음을 인식할 것이다.
단리된 핵은 가교결합제에 노출되어 고정될 수 있다. 가교결합제의 유용한 예에는 파라포름알데히드 및 포름알데히드가 포함되지만 이로 한정되지 않는다. 파라포름알데히드는 1% 내지 8%, 예를 들어 4%의 농도일 수 있다. 포름알데히드는 30% 내지 45%, 예를 들어 37%의 농도일 수 있다. 핵을 가교결합제로 처리하는 것은 핵 현탁액에 가교결합제를 첨가하여, 0℃에서 인큐베이션하는 것을 포함할 수 있다. 다른 고정 방법은 메탄올 고정을 포함하지만 이로 한정되지 않는다. 임의로 바람직하게는, 고정 후에, 핵 완충액으로 세척한다.
단리된 고정된 핵은 즉시 사용되거나, 분취하여 나중에 사용하기 위해 액체 질소에서 급속 냉동될 수 있다. 동결 후 사용을 위해 준비될 때, 해동된 핵은 예를 들어, 얼음 상에서 3분간 0.2% 트리톤(Triton) X-100으로 투과 처리될 수 있고, 잠시 초음파 처리하여 핵 응집을 감소시킬 수 있다.
통상적인 조직 핵 추출 기술은 보통 조직을 고온(예를 들어, 37℃)에서 30분 내지 수 시간 동안 조직 특이적 효소(예를 들어, 트립신)로 인큐베이션한 후에, 세포를 핵 추출을 위해 세포 용해 완충액으로 용해시킨다. 본 명세서에 기재된 핵 단리 방법은 몇 가지 이점이 있다: (1) 인공 효소가 도입되지 않으며, 모든 단계가 얼음 상에서 수행된다. 이는 세포 상태(예를 들어, 염색질 구성 또는 트랜스크립톰 상태)에 대한 잠재적 교란을 감소시킨다. (2) 새로운 방법은 뇌, 폐, 신장, 비장, 심장, 소뇌, 및 종양 조직과 같은 질환 샘플을 비롯한 대부분의 조직 유형에 대해 입증되었다. 상이한 조직 유형에 대해 상이한 효소를 사용하는 통상적인 조직 핵 추출 기술과 비교하여, 새로운 기술은 상이한 조직의 세포 상태를 비교할 때 잠재적으로 바이어스를 줄일 수 있다. (3) 새로운 방법은 또한 효소 처리 단계를 제거하여 비용을 절감하고 효율을 높인다. (4) 다른 핵 추출 기술(예를 들어, 다운스 티슈 그라인더(Dounce tissue grinder))과 비교하여, 새로운 기술은 상이한 조직 유형에 대해 더욱 강력하며(예를 들어, 다운스 방법은 상이한 조직에 대해 다운스 사이클을 최적화해야 함), 큰 샘플을 높은 처리량으로 처리할 수 있다(예를 들어, 다운스 방법은 그라인더의 크기로 제한됨).
임의로, 단리된 핵은 뉴클레오솜이 없거나, 뉴클레오솜의 핵을 고갈시켜 뉴클레오솜이 고갈된 핵을 생성하는 조건에 처해질 수 있다.
유니버설 서열의 삽입
본 명세서에 제공된 방법은 핵 또는 세포에 존재하는 핵산에 하나 이상의 유니버셜 서열을 삽입하는 단계를 포함한다. 일 실시 형태에서, 하나 이상의 유니버셜 서열의 혼입은 서브세트의 분배 전에 일어나고(도 1a, 블록 11, 도 1b, 블록 110), 다른 실시 형태에서는 하나 이상의 유니버셜 서열의 혼입은 서브세트의 분배 후에 일어난다(도 3, 블록 32, 도 4, 블록 42, 블록 45). 일부 실시 형태에서, 인덱스는 또한 유니버셜 서열과 함께 혼입될 수 있거나, 하나 이상의 유니버셜 서열의 삽입과 별개인 임의 단계로서 세포 또는 핵과 결합될 수 있다. 핵 또는 세포의 임의 인덱싱은 유니버셜 서열의 삽입 전 또는 후에 일어날 수 있다(도 1a, 블록 12). 일 실시 형태에서, 핵 또는 세포의 서브세트를 분배하기 전에 인덱스가 샘플에 부가된다(도 1a, 블록 13). 일부 실시 형태에서, 핵 또는 세포의 서브세트를 분배하기 전에 다수의 샘플에 인덱스가 부가된다(도 1a, 블록 13).
일 실시형태에서, 트랜스포좀 복합체가 사용된다. 트랜스포좀 복합체는 트랜스포사제 인식 부위에 결합된 트랜스포사제이며, 때때로 "태그멘테이션"으로 지칭되는 과정에서 핵 내의 표적 핵산에 트랜스포사제 인식 부위를 삽입할 수 있다. 일부의 이러한 삽입 이벤트에서, 트랜스포사제 인식 부위의 하나의 가닥이 표적 핵산으로 전달될 수 있다. 이러한 가닥은 "전달된 가닥"으로 지칭된다. 일 실시 형태에서, 트랜스포좀 복합체는 2개의 서브유닛 및 2개의 비인접 트랜스포존 서열을 갖는 이량체 트랜스포사제를 포함한다. 다른 실시 형태에서, 트랜스포사제는 2개의 서브유닛 및 인접한 트랜스포존 서열을 갖는 이량체 트랜스포사제를 포함한다. 일 실시 형태에서, 트랜스포사제 인식 부위의 하나 또는 두 가닥의 5' 말단은 인산화될 수 있다.
일부 실시 형태는 과활성 Tn5 트랜스포사제 및 Tn5형 트랜스포사제 인식 부위(문헌[Goryshin and Reznikoff, J. Biol . Chem ., 273:7367 (1998)]), 또는 MuA 트랜스포사제와, R1 및 R2 말단 서열을 포함하는 Mu 트랜스포사제 인식 부위(문헌[Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H, et al., EMBO J., 14: 4893, 1995])의 사용을 포함할 수 있다. Tn5 모자이크 엔드(ME) 서열이 또한 당업자에 의해 사용될 수 있다.
본 명세서에 제공된 조성물 및 방법의 특정 실시 형태와 함께 사용될 수 있는 전위 시스템의 추가의 예에는 황색포도상구균(Staphylococcus aureus) Tn552(문헌[Colegio et al., J. Bacteriol ., 183: 2384-8, 2001]; 문헌[Kirby C et al., Mol. Microbiol., 43: 173-86, 2002]), Ty1(문헌[Devine & Boeke, Nucleic Acids Res., 22: 3765-72, 1994] 및 국제 특허 공개 제WO 95/23875호), 트랜스포존 Tn7(문헌[Craig, N L, Science. 271: 1512, 1996; Craig, N L, Review in: Curr Top Microbiol Immunol ., 204:27-48, 1996]), Tn/O 및 IS10(문헌[Kleckner N, et al., Curr Top Microbiol Immunol., 204:49-82, 1996]), 마리너(Mariner) 트랜스포사제(문헌[Lampe D J, et al., EMBO J., 15: 5470-9, 1996]), Tc1(문헌[Plasterk R H, Curr . Topics Microbiol . Immunol ., 204: 125-43, 1996]), P 엘리먼트(Element)(문헌[Gloor, G B, Methods Mol. Biol ., 260: 97-114, 2004]), Tn3(문헌[Ichikawa & Ohtsubo, J Biol . Chem . 265:18829-32, 1990]), 박테리아 삽입 서열(문헌[Ohtsubo & Sekine, Curr . Top. Microbiol . Immunol. 204: 1-26, 1996]), 레트로바이러스(문헌[Brown, et al., Proc Natl Acad Sci USA, 86:2525-9, 1989]), 및 효모 레트로트랜스포존(retrotransposon)(문헌[Boeke & Corces, Annu Rev Microbiol. 43:403-34, 1989])이 포함된다. 추가의 예에는 IS5, Tn10, Tn903, IS911, 및 트랜스포사제 패밀리 효소의 조작된 버전이 포함된다(문헌[Zhang et al., (2009) PLoS Genet. 5:e1000689. Epub 2009 Oct 16]; 문헌[Wilson C. et al (2007) J. Microbiol. Methods 71:332-5]).
본 명세서에 제공된 방법 및 조성물과 함께 사용될 수 있는 인테그라제의 다른 예에는 레트로바이러스 인테그라제 및 이러한 레트로바이러스 인테그라제, 예컨대 HIV-1, HIV-2, SIV, PFV-1, RSV의 인테그라제에 대한 인테그라제 인식 서열이 포함된다.
본 명세서에 기재된 방법 및 조성물에 유용한 트랜스포존 서열은 미국 특허 출원 공개 제2012/0208705호, 미국 특허 출원 공개 제2012/0208724호 및 국제 특허 출원 공개 제WO 2012/061832호에 제공되어 있다. 일부 실시 형태에서, 트랜스포존 서열은 제1 트랜스포사제 인식 부위 및 제2 트랜스포사제 인식 부위를 포함한다.
본 발명에서 유용한 일부 트랜스포좀 복합체는 2개의 트랜스포존 서열을 갖는 트랜스포사제를 포함한다. 일부 이러한 실시 형태에서, 2개의 트랜스포존 서열은 서로 연결되지 않으며, 다시 말하면, 트랜스포존 서열은 서로 인접하지 않는다. 이러한 트랜스포좀의 예는 당업계에 공지되어 있다(예를 들어, 미국 특허 출원 공개 제2010/0120098호 참조).
일 실시 형태에서, 태그멘테이션은 각 말단에 상이한 유니버셜 서열(예를 들어, 한 말단에 A14과 같은 유니버셜 프라이머 결합 부위 및 다른 말단에 B15과 같은 유니버셜 프라이머 결합 부위)을 포함하는 표적 핵산을 생성하는데 사용된다. 이는 2가지 유형의 트랜스포좀 복합체를 사용하여 행해질 수 있으며, 여기서 각각의 트랜스포좀 복합체는 전이된 가닥의 일부인 상이한 뉴클레오티드 서열을 포함한다. 유니버셜 서열은 여러 용도로 사용될 수 있다. 예시하기 위한 것으로 제한하고자 함이 없이, 이는 다른 뉴클레오티드 서열, 예를 들어 인덱스의 부가를 위한 후속 증폭 단계에서 하이브리디제이션을 위한 상보적 서열로서 작용할 수 있거나, 유니버셜 프라이머(예를 들어, 리드 1 또는 리드 2에 대한 시퀀싱 프라이머)가 시퀀싱을 위해 어닐링하는 부위로서 작용할 수 있거나, 인덱스와 같은 다른 뉴클레오티드 서열을 표적 핵산에 부가하기 위한 프라이머로서 사용될 수 있는 뉴클레오티드 서열을 어닐링하기 위한 후속 단계에서 "랜딩 패드(landing pad)"로서 작용할 수 있다.
일부 실시 형태에서, 트랜스포좀 복합체는 2개의 트랜스포사제 서브유닛과 결합하여 "루프형 복합체" 또는 "루프형 트랜스포좀"을 형성하는 트랜스포존 서열 핵산을 포함한다. 하나의 예에서, 트랜스포좀은 이량체 트랜스포사제 및 트랜스포존 서열을 포함한다. 루프형 복합체는 원래의 표적 DNA의 규칙화(ordering) 정보를 유지하고 표적 DNA를 단편화하지 않으면서, 트랜스포존이 표적 DNA에 삽입되는 것을 보장할 수 있다. 이해되는 바와 같이, 루프형 구조는 표적 핵산의 물리적 연결성을 유지하면서, 유니버셜 서열과 같은 원하는 핵산 서열을 표적 핵산에 삽입할 수 있다. 일부 실시 형태에서, 루프형 트랜스포좀 복합체의 트랜스포존 서열은 트랜스포존 서열이 단편화되어 2개의 트랜스포존 서열을 포함하는 트랜스포좀 복합체를 생성할 수 있도록 단편화 부위를 포함할 수 있다. 이러한 트랜스포좀 복합체는 트랜스포존이 삽입되는 인접 표적 DNA 단편이 분석의 후속 단계에서 확실하게 조립될 수 있는 바코드 조합을 수용하는 것을 보장하는 데 유용하다. 일 실시 형태에서, 인덱스 조합은 하나 이상의 유니버셜 서열을 표적 핵산에 삽입한 후에 부가된다.
일 실시 형태에서, 단편화 핵산은 핵산에 존재하는 단편화 부위를 사용하여 달성된다. 전형적으로, 단편화 부위는 트랜스포좀 복합체를 사용하여 표적 핵산에 도입된다. 일 실시 형태에서, 핵산이 단편화된 후, 트랜스포사제는 핵산 단편에 부착된 채로 남아있어, 동일한 게놈 DNA 분자로부터 유래된 핵산 단편이 물리적으로 연결된 상태로 유지된다(문헌[Adey et al., 2014, Genome Res., 24:2041-2049], 문헌[Amini S. et al. (2014) Nat Genet 46: 1343-1349]). 예를 들어, 루프형 트랜스포좀 복합체는 단편화 부위를 포함할 수 있다. 단편화 부위는 물리적 결합을 절단하는데 사용될 수 있지만, 표적 핵산에 혼입된 인덱스 서열 간의 정보적 연관성(informational association)은 절단할 수 없다. 절단은 생화학적, 화학적 또는 다른 수단에 의해 이루어질 수 있다. 일부 실시형태에서, 단편화 부위는 다양한 수단에 의해 단편화될 수 있는 뉴클레오티드 또는 뉴클레오티드 서열을 포함할 수 있다. 단편화 부위의 예에는 제한 엔도뉴클레아제 부위, RNAse로 절단가능한 적어도 하나의 리보뉴클레오티드, 특정 화학 물질의 존재 하에서 절단가능한 뉴클레오티드 유사체, 과요오드산염 처리에 의해 절단가능한 다이올 결합, 화학적 환원제로 절단가능한 다이설파이드기, 광화학적 절단이 행해질 수 있는 절단가능한 부분, 및 펩티다제 효소 또는 다른 적절한 수단에 의해 절단가능한 펩티드가 포함되지만 이에 한정되지 않는다(예를 들어, 미국 특허 출원 공개 제2012/0208705호, 미국 특허 출원 공개 제2012/0208724호 및 WO 2012/061832호 참조). 일 실시 형태에서, 트랜스포사제는 단백질 변성제, 예컨대 SDS 또는 킬레이트제, 예컨대 EDTA의 첨가와 같은 적절한 조건을 사용하여 제거할 때까지, 핵산 단편에 부착된 상태로 남아있고 동일한 게놈 DNA 분자로부터 유래된 핵산 단편 사이의 물리적 결합을 유지한다. 이러한 유형의 접근법은 인접하여 연결된 전위 표적 핵산을 포획하여 인접 정보의 도출을 가능하게 한다(미국 특허 출원 공개 제2019/0040382호). 인접 정보는 표적 핵산에 인접한 주형 핵산 단편의 결합을 유지하기 위해 트랜스포사제를 사용하여 보존될 수 있다.
전위의 대안으로서, 표적 핵산은 단편화에 의해 얻어질 수 있다. 샘플로부터의 일차 핵산의 단편화는 효소적, 화학적 또는 기계적 방법에 의해 비규칙화 방식으로 수행될 수 있으며, 이어서 어댑터가 단편의 말단에 부가된다. 효소적 단편화의 예에는 CRISPR 및 탈렌(Talen) 유사 효소, 및 DNA 단편이 하이브리디제이션되어 신장 또는 증폭을 개시할 수 있는 단일 가닥 영역을 형성할 수 있는 DNA를 언와인딩(unwinding)하는 효소(예를 들어, 헬리카제)가 포함된다. 예를 들어, 헬리카제 기반 증폭이 사용될 수 있다(문헌[Vincent et al., 2004, EMBO Rep., 5(8):795-800]). 일 실시 형태에서, 신장 또는 증폭은 랜덤 프라이머로 개시된다. 기계적 단편화의 예에는 분무(nebulization) 또는 초음파 처리가 포함된다.
기계적 수단에 의한 일차 핵산의 단편화에 의해, 평활(blunt) 말단과 3' 및 5' 돌출(overhanging) 말단의 불균일한 혼합물을 갖는 단편을 생성한다. 따라서, 예를 들어 평활 부위에 어댑터를 부가하기에 최적인 말단을 생성하기 위해 당업계에 공지된 방법을 사용하여 단편 말단을 리페어(repair)하는 것이 바람직하다. 특정 실시 형태에서, 핵산 집단의 단편 말단은 평활 말단이다. 보다 구체적으로, 단편 말단은 평활 말단이며, 인산화된다. 포스페이트 부분은 효소 처리를 통해, 예를 들어 폴리뉴클레오티드 키나제를 사용하여 도입될 수 있다.
일 실시 형태에서, 단편화 핵산은 돌출된 뉴클레오티드로 제조된다. 예를 들어, 단일 돌출 뉴클레오티드는 단일 데옥시뉴클레오티드, 예를 들어 뉴클레오티드 'A'를 DNA 분자의 3' 말단에 부가하는 비주형 의존성 말단 트랜스페라제 활성을 갖는 Taq 폴리머라제 또는 클레노우 엑소 마이너스(Klenow exo minus) 폴리머라제와 같은 특정 유형의 DNA 폴리머라제의 활성에 의해 부가될 수 있다. 이러한 효소는 이중 가닥 핵산 단편의 각 가닥의 평활 말단의 3' 말단에 단일 뉴클레오티드 'A'를 부가하는데 사용될 수 있다. 따라서, 'A'는 Taq 또는 클레노우 엑소 마이너스 폴리머라제와의 반응에 의해 이중 가닥 표적 단편의 각 말단 리페어된 가닥의 3' 말단에 부가될 수 있는 반면에, 어댑터는 유니버셜 어댑터의 이중 가닥 핵산의 각 영역의 3' 말단에 존재하는 호환 가능한 'T' 돌출부가 있는 T 구축물일 수 있다. 일례에서, 말단 데옥시뉴클레오티딜 트랜스페라제(TdT)를 사용하여 다수의 'T' 뉴클레오티드를 부가할 수 있다(미국 미시간주 앤 아버 소재의 스위프트 바이오사이언시즈(Swift Biosciences)). 이러한 유형의 말단 변형은 또한 벡터 및 표적 둘 다의 셀프라이게이션을 방지하여, 각 말단에 동일한 어댑터를 갖는 표적 핵산의 형성에 치우치게 된다.
일차 핵산은 DNA, RNA, 또는 DNA/RNA 하이브리드일 수 있다. 일차 핵산이 RNA인 실시 형태에서, 핵 또는 세포에 존재하는 핵산에 하나 이상의 유니버셜 서열을 혼입시키는 것은 전형적으로 RNA를 DNA로 전환시키는 것을 포함한다. 다양한 방법이 사용될 수 있으며, 일부 실시 형태에서, cDNA를 생성하는데 사용되는 통상적인 방법을 포함한다. 예를 들어, 3' 말단에 폴리-T 서열을 갖는 프라이머 및 폴리-T 서열의 상류에 있는 어댑터는 mRNA 분자에 어닐링되고 역전사효소를 사용하여 신장될 수 있다. 이것은 mRNA에서 DNA로의 일단계 전환 및 임의로 3' 말단의 유니버셜 서열을 가져온다. 일 실시 형태에서, 프라이머는 또한 하나 이상의 인덱스 서열을 포함할 수 있다. 일 실시 형태에서, 랜덤 프라이머가 사용된다.
비코딩 RNA는 또한 다양한 방법을 사용하여 DNA로 전환될 수 있고, 임의로 유니버셜 서열을 포함하도록 변형될 수 있다. 예를 들어, 어댑터는 랜덤 서열 및 주형 전환 프라이머를 포함하는 제1 프라이머를 사용하여 부가될 수 있으며, 여기서 어느 프라이머도 유니버셜 서열 어댑터를 포함할 수 있다. 합성된 가닥의 3' 말단에 비주형 뉴클레오티드를 부가하는 말단 트랜스페라제 활성을 갖는 역전사효소를 사용할 수 있으며, 주형 전환 프라이머는 역전사효소에 의해 부가되는 비주형 뉴클레오티드와 어닐링하는 뉴클레오티드를 포함한다. 유용한 역전사효소의 예는 몰로니(Moloney) 뮤린 백혈병 바이러스 역전사효소이다. 특정 실시 형태에서, 타카라 바이오 유에스에이, 인코포레이티드(Takara Bio USA, Inc.)에서 입수할 수 있는 스마터(SMARTer)TM 시약(Cat.634926)은 주형 전환을 사용하여, 비코딩 RNA 및 필요에 따라, mRNA에 유니버셜 서열을 부가하기 위해 사용된다. 임의로, 주형 전환 프라이머는 폴리-T 서열을 갖는 프라이머와 관련하여 mRNA와 함께 사용되어, RNA로부터 생성된 DNA 표적 핵산의 양 말단에 유니버셜 서열을 부가할 수 있다.
서브세트의 분배
본 명세서에 제공된 방법은 단리된 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하는 단계를 포함한다(도 1a, 블록 13, 도 1b, 블록 115, 도 3, 블록 31, 도 4, 블록 41, 블록 44). 본 방법은 다수의 분배 단계를 포함할 수 있으며, 여기서 단리된 핵 또는 세포의 집단(본 명세서에서 풀(pool)로도 지칭됨)은 서브세트로 분할된다. 전형적으로, 단리된 핵 또는 세포의 서브세트, 예를 들어 복수의 컴파트먼트에 존재하는 서브세트는 컴파트먼트 특이적 인덱스로 인덱싱된 다음에 풀링된다. 따라서, 본 방법은 전형적으로, 풀링된 단리된 핵 또는 세포를 취해, 이를 분배하고, 컴파트먼트 특이적 인덱스를 부가하는 적어도 하나의 "분할 및 풀" 단계를 포함하며, 여기서 "분할 및 풀" 단계의 수는 표적 핵산에 부가되는 상이한 인덱스의 수에 좌우될 수 있다. 인덱싱 전의 핵 또는 세포의 각각의 초기 서브세트는 다른 서브세트와 다를 수 있다. 예를 들어, 각각의 제1 서브세트는 고유 샘플, 예컨대 고유 유기체 또는 고유 조직으로부터 유래될 수 있다. 인덱싱 후에, 서브세트는 풀링되고, 서브세트로 분할되고, 인덱싱되고, 충분한 수의 인덱스가 표적 핵산에 부가될 때까지 필요에 따라 다시 풀링될 수 있다. 이러한 과정은 각각의 단일 세포 또는 핵에 고유 인덱스 또는 인덱스 조합을 할당하여, 조합 인덱싱을 가져오는데, 이는 본 명세서에 기재되어 있다. 인덱싱이 완료된 후에, 예를 들어, 1, 2, 3개 또는 그 이상의 인덱스가 부가된 후에, 단리된 핵 또는 세포가 용해될 수 있다. 일부 실시 형태에서, 인덱스의 부가 및 용해는 동시에 일어날 수 있다.
서브세트에 존재하고, 따라서 각각의 컴파트먼트에 존재하는 핵 또는 세포의 수는 1개 이상일 수 있다. 일 실시 형태에서, 서브세트에 존재하는 핵 또는 세포의 수는 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 4,000개 이하, 3,000개 이하, 2,000개 이하, 1,000개 이하, 500개 이하 또는 50개 이하이다. 일 실시 형태에서, 서브세트에 존재하는 핵 또는 세포의 수는 1 내지 1,000, 1,000 내지 10,000, 10,000 내지 100,000, 100,000 내지 1,000,000, 1,000,000 내지 10,000,000, 또는 10,000,000, 내지 100,000,000일 수 있다. 일 실시 형태에서, 각각의 서브세트에 존재하는 핵 또는 세포의 수는 거의 동일하다. 서브세트에 존재하고, 따라서 각각의 컴파트먼트에 존재하는 핵 또는 세포의 수는 부분적으로, 인덱스 충돌을 감소시키고자 하는 요구에 기초하며, 동일한 인덱스 조합을 갖는 2개의 핵 또는 세포는 본 방법의 이러한 단계에서 결국 동일한 컴파트먼트에 존재하게 된다. 핵 또는 세포를 서브세트에 분배하는 방법은 당업자에게 공지되어 있으며, 통상적이다. 형광 활성화 세포 분류(FACS) 세포측정법이 사용될 수 있지만, 일부 실시 형태에서 단순 희석을 사용하는 것이 바람직하다. 일 실시 형태에서, FACS 세포측정법은 사용되지 않는다. 임의로, 상이한 배수성 핵은 염색, 예를 들어 DAPI(4',6-다이아미디노-2-페닐인돌) 염색에 의해 게이팅되고 농축될 수 있다. 염색은 또한 분류하는 동안 이중선에서 단일 세포를 식별하는데 사용될 수 있다.
분배 단계의 컴파트먼트 수(및 후속 인덱스 부가)는 사용된 포맷에 따라 달라질 수 있다. 예를 들어, 컴파트먼트 수는 2 내지 96개의 컴파트먼트(96개의 웰 플레이트가 사용될 때), 2 내지 384개의 컴파트먼트(384개의 웰 플레이트가 사용될 때) 또는 2 내지 1536개의 컴파트먼트(1536개의 웰 플레이트가 사용될 때)일 수 있다. 일 실시 형태에서, 다수의 플레이트가 사용될 수 있다. 컴파트먼트의 예에는 웰, 소적(droplet), 및 마이크로유체 컴파트먼트가 포함되지만 이로 한정되지 않는다. 일 실시 형태에서, 각각의 컴파트먼트는 소적일 수 있다. 사용되는 컴파트먼트의 유형이 2개 이상의 핵 또는 세포를 포함하는 소적일 때, 10,000개 이상, 100,000개 이상, 1,000,000개 이상 또는 10,000,000개 이상의 소적과 같은 임의의 수의 소적이 사용될 수 있다. 단리된 핵 또는 세포의 서브세트는 전형적으로 풀링 전에 컴파트먼트에서 인덱싱된다.
조합 인덱싱
본 명세서에 제공된 방법은 샘플에 존재하는 핵 또는 세포에 컴파트먼트 특이적 인덱스를 부가하는 단계(도 1b, 블록 112) 또는 상이한 컴파트먼트에 분배된 단리된 핵 또는 세포의 서브세트에 컴파트먼트 특이적 인덱스를 부가하는 단계(예를 들어, 도 1a, 블록 14, 도 3, 블록 32, 도 4, 블록 42 및 45, 도 6, 블록 601)를 포함한다. 일부 실시 형태에서, 유니버셜 서열은 또한 인덱스와 함께 혼입될 수 있다. 태그 또는 바코드로도 지칭되는 인덱스 서열은 특정 핵산이 존재하는 컴파트먼트에 특징적인 마커로서 유용하다. 따라서, 일부 실시 형태에서, 인덱스는 특정 컴파트먼트에 존재하는 표적 핵산 각각에 부착된 핵산 서열 태그이며, 이의 존재는 단리된 핵 또는 세포의 집단이 본 방법의 특정 단계에서 존재하는 컴파트먼트를 나타내거나 식별하는데 사용된다.
일 실시 형태에서, 다수의 인덱스가 부가된다. 각각의 인덱스의 혼입은 분할 및 풀 인덱싱의 하나의 라운드에서 일어난다. 분할 및 풀 바코딩의 1회, 2회, 3회 또는 그 이상의 라운드는 단일, 이중, 삼중 또는 다중(예를 들어, 4개 이상의) 인덱싱된 표적 핵산을 생성한다.
인덱스는 표적 핵산의 하나의 말단 또는 양 말단에 부가될 수 있다. 예를 들어, 2개 이상의 인덱스를 갖는 변형된 표적 핵산은 각각의 말단에서 상이한 인덱스를 포함할 수 있으며, 이의 예가 도 5a에 도시되어 있다. 도 5a에서, 표적 핵산(55)은 4개의 별개의 인덱스, 하나의 말단에 2개의 인덱스(51 및 52) 및 다른 말단에 2개의 인덱스(53 및 54)를 포함하도록 변형된다. 다른 실시 형태에서, 변형된 표적 핵산은 하나의 말단 또는 양 말단에 함께 그룹화된 인덱스를 포함할 수 있으며, 이의 예가 도 5b에 도시되어 있다. 도 5b에서, 표적 핵산(56)은 각 말단에서 4개의 별개의 인덱스(51, 52, 53, 54)를 포함하도록 변형된다. 표적 핵산의 하나의 말단에 존재하는 인덱스 세트는 "인접 인덱스"로 지칭될 수 있다. 일 실시 형태에서, 인접 인덱스는 각 인덱스 사이에 뉴클레오티드가 존재하지 않는다. 다른 실시 형태에서, 인접 인덱스의 하나 이상의 인덱스 사이에 위치된 1, 2, 3, 4개 또는 그 이상의 뉴클레오티드가 있을 수 있다. 본 명세서에 기재된 바와 같이, 인접 인덱스는 특정 인덱스 세트를 갖는 라이브러리의 구성원들을 식별하는 데 유용할 수 있다. 예를 들어, 인접 인덱스는 동일한 세포로부터 유래하는 라이브러리 구성원의 농축을 용이하게 할 수 있다.
인덱스 서열은 길이가 임의의 적절한 수의 뉴클레오티드, 예를 들어 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 이상일 수 있다. 4개의 뉴클레오티드 태그는 동일한 어레이에서 256개의 샘플을 다중화하는 가능성을 제공하고, 6개의 염기 태그는 동일한 어레이에서 4096개의 샘플을 처리할 수 있게 한다.
일 실시 형태에서, 인덱스는 유니버셜 서열이 예를 들어, 트랜스포좀 복합체에 의해 핵 또는 세포의 DNA 핵산에 혼입된 후에 부가된다. 인덱스 서열의 혼입은 기본적으로 라이게이션, 신장, 하이브리디제이션, 흡착, 프라이머의 특이적 또는 비특이적 상호작용, 또는 증폭의 임의의 조합을 사용하여, 1개, 2개 또는 그 이상의 단계를 포함하는 과정을 사용할 수 있다. 일 실시 형태에서, 인덱스는 cDNA 합성 동안 부가된다. 일 실시 형태에서, 인덱스는 태그멘테이션을 통해 부가된다. 표적 핵산의 하나의 말단 또는 양 말단에 부가되는 뉴클레오티드 서열은 또한 하나 이상의 유니버셜 서열 및/또는 고유 분자 식별자와 같은 다른 유용한 서열을 포함할 수 있다.
유니버셜 서열을 포함하는 핵산에 인덱스를 부가하기 위한 다양한 방법이 사용될 수 있으며, 인덱스가 어떻게 부가되는지를 제한하고자 하는 것은 아니다. 일 실시 형태에서, 표적 핵산은 각각의 말단에 상이한 유니버셜 서열(예를 들어, 하나의 말단에 A14, 다른 말단에 B15)을 가지며, 당업자는 특정 서열이 표적 핵산의 하나의 말단 또는 양 말단에 부가될 수 있음을 인식할 것이다. 트랜스포좀 복합체에 의해 부가되는 유니버셜 서열은 예를 들어, 다른 인덱스 및/또는 다른 유니버셜 서열과 같은 다른 뉴클레오티드 서열의 부가를 위한 프라이머로서 사용될 수 있는 뉴클레오티드 서열을 표적 핵산에 어닐링하기 위한 후속 단계에서 "랜딩 패드"로서 사용될 수 있다. 예를 들어, 일 실시 형태에서, 인덱스 서열의 혼입은 핵산의 하나의 말단 또는 양 말단에 프라이머를 라이게이션하는 것을 포함한다. 프라이머의 라이게이션은 표적 핵산의 각 말단에 유니버셜 서열의 존재에 의해 지원될 수 있다. 프라이머의 예는 헤어핀 라이게이션 듀플렉스이다. 라이게이션 듀플렉스는 표적 핵산의 하나의 말단 또는 바람직하게는 양 말단에 라이게이션될 수 있다.
일 실시 형태에서, 평활 말단 라이게이션이 사용될 수 있다. 다른 실시 형태에서, 표적 핵산은 예를 들어, 하나 이상의 데옥시뉴클레오티드, 예를 들어 데옥시아데노신(A)을 표적 핵산의 3' 말단에 부가하는 비주형 의존성 말단 트랜스페라제 활성을 갖는 Taq 폴리머라제 또는 클레노우 엑소 마이너스 폴리머라제와 같은 특정 유형의 DNA 폴리머라제의 활성에 의해 단일 돌출 뉴클레오티드로 제조된다. 일부 경우에, 돌출 뉴클레오티드는 2개 이상의 염기이다. 이러한 효소는 표적 핵산의 각 가닥의 평활 말단의 3' 말단에 단일 뉴클레오티드 'A'를 부가하는데 사용될 수 있다. 따라서, 'A'는 Taq 또는 클레노우 엑소 마이너스 폴리머라제와의 반응에 의해 이중 가닥 표적 단편의 각 가닥의 3' 말단에 부가될 수 있는 반면에, 표적 핵산의 각 말단에 부가될 추가의 서열은 부가될 이중 가닥 핵산의 각 영역의 3' 말단에 존재하는 호환 가능한 'T' 돌출부를 포함할 수 있다. 이러한 말단 변형은 또한 핵산의 셀프라이게이션을 방지하여, 이러한 실시 형태에서 부가되는 서열에 의해 플랭킹된 인덱싱된 표적 핵산의 형성에 치우치게 된다.
일 실시 형태에서, 인덱스의 혼입은 PCR과 같은 지수함수적 증폭 반응에 의한 것이다. 표적 핵산의 말단에 존재하는 유니버셜 서열은 프라이머로서 작용할 수 있고 증폭 반응에서 신장될 수 있는 서열의 어닐링을 위해 사용될 수 있다.
인덱스 및 다른 유용한 서열이 단일 단계로 또는 다수의 단계로 부가될 수 있다. 예를 들어, 인덱스 및 임의의 다른 유용한 서열이 라이게이션 또는 신장에 의해 부가될 수 있거나, 예를 들어, 유니버셜 서열을 라이게이션한 다음에, 인덱스 및 임의의 다른 유용한 서열을 포함하도록 유니버셜 서열을 추가로 변형시키는 증폭을 포함하는 2단계 방법이 사용될 수 있다.
일 실시 형태에서, 인덱싱 단계 동안 서열의 부가는 표적 핵산을 고정화 및/또는 시퀀싱하는 데 유용한 유니버셜 서열을 부가한다. 다른 실시 형태에서, 인덱싱된 표적 핵산은 표적 핵산을 고정화 및 시퀀싱하는 데 유용한 유니버셜 서열을 부가하도록 추가로 처리될 수 있다. 당업자는 컴파트먼트가 핵산 단편을 고정화시키기 위한 소적 서열인 실시 형태에서 선택적이라는 것을 인식할 것이다. 일 실시 형태에서, 단편을 고정화 및 시퀀싱하는데 유용한 유니버셜 서열의 혼입은 동일한 유니버셜 어댑터('미스매칭된 어댑터(mismatched adaptor)"로도 지칭됨, 이의 일반적 특징은 곰리(Gormley) 등의 미국 특허 제7,741,463호 및 빅넬(Bignell) 등의 미국 특허 제8,053,192호에 기재되어 있음)를 인덱싱된 핵산 단편의 5' 및 3' 말단에 라이게이션하는 것을 포함한다. 일 실시 형태에서, 유니버셜 어댑터는 인덱싱된 핵산 단편을 어레이 상에 고정화하기 위한 서열을 비롯하여, 시퀀싱에 필요한 모든 서열을 포함한다.
얻어진 인덱싱된 단편은 집합적으로, 고정화된 다음에 시퀀싱될 수 있는 핵산 라이브러리를 제공한다. 본 명세서에서 시퀀싱 라이브러리로도 지칭되는 용어 "라이브러리"는 3' 및 5' 말단에 공지된 유니버셜 서열 및 다양한 조합의 인덱스를 포함하는 단일 핵 또는 세포로부터의 표적 핵산의 집합체를 말한다. 라이브러리는 예를 들어, 접근가능한 DNA, 전체 게놈, 또는 전체 트랜스크립톰, 특정 단백질을 나타내는 핵산, 또는 이들의 조합으로부터의 핵산을 포함하며, 시퀀싱을 수행하는데 사용될 수 있다.
인덱싱된 핵산 단편은 소정 크기 범위, 예컨대 150 내지 400개의 뉴클레오티드 길이, 예컨대 150 내지 300개의 뉴클레오티드 길이를 위해 선택하는 조건에 처해질 수 있다. 얻어진 인덱싱된 핵산 단편은 풀링되고, 임의로 혼입되지 않은 유니버셜 어댑터 또는 프라이머의 적어도 일부를 제거함으로써 DNA 분자에 대한 순도를 향상시키기 위해 클린업(clean-up) 과정에 처해질 수 있다. 전기영동, 크기 배제 크로마토그래피 등과 같은 임의의 적절한 클린업 과정이 사용될 수 있다. 일부 실시 형태에서, 고상 가역적 고정화 상자성 비드를 사용하여, 원하는 DNA 분자를 부착되지 않은 유니버셜 어댑터 또는 프라이머로부터 분리하고, 크기에 기초하여 핵산을 선택할 수 있다. 고상 가역적 고정화 상자성 비드는 벡크만 쿨터(Beckman Coulter)(아젠코트(Agencourt) AMPure XP), 서모피셔(Thermofisher)(MagJet), 오메가 바이오텍(Omega Biotek)(Mag-Bind), 프로메가 비드(Promega) 및 카파 바이오시스템즈(Kapa Biosystems)(Kapa Pure Bead)에서 시판되고 있다.
본 발명의 비제한적인 예시적인 실시 형태가 도 1a에 도시되어 있다. 이러한 실시 형태에서, 본 방법은 복수의 핵 또는 세포를 제공하는 단계(도 1a, 블록 10)를 포함한다. 복수의 핵 또는 세포는 하나의 샘플 또는 복수의 샘플로부터 유래될 수 있다. 본 방법은 핵 또는 세포에 존재하는 핵산에 하나 이상의 유니버셜 서열을 혼입하는 단계를 추가로 포함한다(도 1a, 블록 11). 임의로, 본 방법은 또한 인덱스를 핵 또는 세포에 결합하는 단계(예를 들어, 핵 또는 세포 해싱(hashing), WO 2020/180778호 참조)를 포함할 수 있으며, 일 실시 형태에서 결합은 핵산에 인덱스를 부가하는 것일 수 있다(도 1a, 블록 12). 일 실시 형태에서, 2개의 상이한 유니버셜 서열이 부가되어, 결국은 각각의 말단에 상이한 유니버셜 서열을 갖는 표적 핵산을 생성한다. 본 방법은 현재 내부에 위치된 핵산에 혼입된 유니버셜 서열 및 임의로, 적어도 하나의 인덱스를 포함하는 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하는 단계를 포함한다(도 1a, 블록 13). 각각의 컴파트먼트에 존재하는 핵산이 인덱싱되고(도 1a, 블록 14), 이어서 핵 또는 세포가 풀링된다(도 1a, 블록 15). 단일 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 추가로 처리하여 시퀀싱을 준비할 수 있지만(도 1a, 블록 16); 일부 바람직한 실시 형태에서, 제2, 제3 또는 그 이상의 인덱스를 부가하는 것이 바람직하다. 일 실시 형태에서, 각 인덱스의 부가는 분할 후에 발생하는 인덱싱과 함께 "분할 및 풀" 단계, 예를 들어 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하고(도 1a, 블록 13), 각각의 컴파트먼트에 존재하는 핵산을 인덱싱한(도 1a, 블록 14) 다음에, 핵 또는 세포를 풀링하는(도 1a, 블록 15) 것을 포함할 수 있다. "분할 및 풀" 단계는 핵 또는 세포에 존재하는 핵산의 하나의 말단에만 또는 양 말단에 인덱스를 부가할 수 있다. 최종 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 풀링하고 추가로 처리하여, 시퀀싱을 준비할 수 있으며(도 1a, 블록 16), 여기서 시퀀싱은 포괄적이거나 표적화될 수 있다.
본 발명의 다른 비제한적인 예시적인 실시 형태가 도 1b에 도시되어 있다. 이 실시 형태에서, 본 방법은 처음에 병렬로 처리되는 복수의 샘플을 제공하는 단계(도 1b, 블록 110)를 포함한다. 본 방법은 핵 또는 세포에 존재하는 핵산에 하나 이상의 유니버셜 서열을 혼입한(도 1b, 블록 111) 다음에, 핵산에 인덱스를 부가하는 단계(도 1b, 블록 112)를 추가로 포함하며, 여기서 각 샘플에 부가된 인덱스는 고유하며, 특정 샘플로부터 유래된 핵산을 식별하기 위한 샘플 인덱스로서 사용될 수 있다. 일 실시 형태에서, 2개의 상이한 유니버셜 서열이 부가되어, 결국은 각각의 말단에 상이한 유니버셜 서열을 갖는 표적 핵산을 생성한다. 본 방법은 핵 또는 세포를 풀링하는 단계(도 1b, 블록 113)를 추가로 포함한다. 일 실시 형태에서, 하나의 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리는 추가로 처리하여 시퀀싱을 준비할 수 있지만(도 1a, 블록 114); 일부 바람직한 실시 형태에서, 제2, 제3 또는 그 이상의 인덱스를 부가하는 것이 바람직하다. 일 실시 형태에서, 각 인덱스의 부가는 분할 후에 발생하는 인덱싱과 함께 "분할 및 풀" 단계, 예를 들어 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하고(도 1b, 블록 115), 각각의 컴파트먼트에 존재하는 핵산을 인덱싱한(도 1b, 블록 116) 다음에, 핵 또는 세포를 풀링하는(도 1b, 블록 117) 것을 포함할 수 있다. "분할 및 풀" 단계는 핵 또는 세포에 존재하는 핵산의 하나의 말단에만 또는 양 말단에 인덱스를 부가할 수 있다. 최종 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 풀링하고 추가로 처리하여, 시퀀싱을 준비할 수 있으며(도 1b, 블록 118), 여기서 시퀀싱은 포괄적이거나 표적화될 수 있다.
본 발명의 다른 비제한적인 예시적인 실시 형태가 도 2에 도시되어 있다. 이 실시 형태에서, 본 방법은 핵 또는 세포에 존재하는 핵산에 2개의 유니버셜 서열을 혼입하기 위한 태그멘테이션 및 3회의 후속 라운드의 인덱싱의 사용을 포함한다(도 2a). 하나의 트랜스포좀 복합체(21)는 유니버셜 서열(23)(예를 들어, A14)을 포함하고, 다른 트랜스포좀 복합체(22)는 유니버셜 서열(24)(B15)을 포함한다. 핵산으로의 유니버셜 서열의 삽입은 벌크 상태로 복수의 핵 또는 세포에 일어난다. 도 2a는 또한 2개의 유니버셜 서열(23, 24)을 표적 핵산(25)에 삽입한 결과를 나타낸다. 복수의 핵 또는 세포는 상이한 컴파트먼트에 분배되고, 인덱스를 포함하는 폴리뉴클레오티드(26)는 하나의 유니버셜 서열(예를 들어, A14)에 상보적인 뉴클레오티드를 사용하여 라이게이션에 의해 핵산(25)의 한 측부에 부가된다(도 2b). 복수의 핵 또는 세포는 풀링된 다음에, 상이한 컴파트먼트에 분배되고, 제2 인덱스를 포함하는 상이한 폴리뉴클레오티드(27)는 다른 유니버셜 서열(예를 들어, B15)에 상보적인 뉴클레오티드를 사용하여 라이게이션에 의해 핵산(25)의 다른 측부에 부가된다(도 2c). 듀얼 인덱싱된 핵산을 포함하는 복수의 핵 또는 세포는 풀링된 다음에, 상이한 컴파트먼트에 분배되고, 이어서 핵산(25)의 한 측부에 제3 인덱스를 포함하는 폴리뉴클레오티드(28)를 부가하고, 핵산(25)의 한 측부에 제4 인덱스를 포함하는 폴리뉴클레오티드(29)를 부가하는 PCR 증폭 반응을 거친다(도 2d). 최종 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 풀링하고 추가로 처리하여, 시퀀싱을 준비할 수 있으며, 여기서 시퀀싱은 포괄적이거나 표적화될 수 있다.
본 발명의 또 다른 비제한적인 예시적인 실시 형태가 도 3에 도시되어 있다. 이러한 실시 형태에서, 본 방법은 복수의 핵 또는 세포를 제공하는 단계(도 3, 블록 30)를 포함한다. 본 방법은 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하는 단계(도 3, 블록 31)를 추가로 포함한다. 각각의 컴파트먼트의 핵 또는 세포에 존재하는 핵산은 인덱스 및/또는 유니버셜 서열의 혼입에 의해 변형된다(도 3, 블록 32). 대안적인 실시 형태에서, 각각의 컴파트먼트의 핵 또는 세포에 존재하는 핵산은 동일한 유니버셜 서열의 혼입(예를 들어, 동일한 유니버셜 서열을 갖는 트랜스포존을 사용한 태그멘테이션)에 이어서, 컴파트먼트 특이적 인덱스를 부가함으로써 변형된다. 그 다음에, 핵 또는 세포를 풀링한다(도 3, 블록 33). 인덱스 및/또는 유니버셜 서열의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 추가로 처리하여 시퀀싱을 준비할 수 있지만(도 3, 블록 34); 일부 바람직한 실시 형태에서, 제2, 제3 또는 그 이상의 인덱스를 부가하는 것이 바람직하다. 임의로, 유니버셜 서열이 또한 부가될 수 있다. 각 인덱스의 부가는 분할 후에 발생하는 인덱싱과 함께 "분할 및 풀" 단계, 예를 들어 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하고(도 3, 블록 31), 각각의 컴파트먼트에 존재하는 핵산을 인덱싱한(도 3, 블록 32) 다음에, 핵 또는 세포를 풀링하는(도 3, 블록 33) 것을 포함할 수 있다. "분할 및 풀" 단계는 핵 또는 세포에 존재하는 핵산의 하나의 말단에만 또는 양 말단에 인덱스를 부가할 수 있다. 최종 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 풀링하고 추가로 처리하여, 시퀀싱을 준비할 수 있으며(도 3, 블록 34), 여기서 시퀀싱은 포괄적이거나 표적화될 수 있다.
본 발명의 추가의 비제한적인 예시적인 실시 형태가 도 4에 도시되어 있다. 이러한 실시 형태에서, 본 방법은 RNA의 분석을 포함한다. 복수의 핵 또는 세포가 제공되고(도 4, 블록 40), 하나의 샘플 또는 복수의 샘플로부터 유래될 수 있다. 핵 또는 세포의 서브세트는 복수의 컴파트먼트에 분배된다(도 4, 블록 41). 임의로, 분배 전에, 본 방법은 또한 인덱스를 핵 또는 세포에 결합하거나(예를 들어, 핵 또는 세포 해싱, WO 2020/180778호 참조) 핵산에 결합하는 단계를 포함할 수 있다. 각각의 컴파트먼트의 핵 또는 세포에 존재하는 핵산은 역전사효소를 사용하여 인덱스 및/또는 유니버셜 서열을 삽입함으로써 변형되고(도 4, 블록 42), 이어서 핵 또는 세포는 풀링된다(도 4, 블록 43). 본 방법은 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하는 단계(도 4, 블록 44)를 추가로 포함한다. 각각의 컴파트먼트의 핵 또는 세포에 존재하는 핵산은 다른 인덱스 및/또는 유니버셜 서열을 삽입함으로써 변형되고(도 4, 블록 45), 이어서 핵 또는 세포는 풀링된다(도 4, 블록 46). 인덱스 및/또는 유니버셜 서열의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 추가로 처리하여 시퀀싱을 준비할 수 있지만(도 4, 블록 47); 일부 바람직한 실시 형태에서, 제3, 제4 또는 그 이상의 인덱스를 부가하는 것이 바람직하다. 임의로, 유니버셜 서열이 또한 부가될 수 있다. 각 인덱스의 부가는 분할 후에 발생하는 인덱싱과 함께 "분할 및 풀" 단계, 예를 들어 핵 또는 세포의 서브세트를 복수의 컴파트먼트에 분배하고(도 4, 블록 44), 각각의 컴파트먼트에 존재하는 핵산을 인덱싱한(도 4, 블록 45) 다음에, 핵 또는 세포를 풀링하는(도 4, 블록 46) 것을 포함할 수 있다. "분할 및 풀" 단계는 핵 또는 세포에 존재하는 핵산의 하나의 말단에만 또는 양 말단에 인덱스를 부가할 수 있다. 최종 인덱스의 부가 후에, 핵 또는 세포의 핵산 라이브러리를 풀링하고 추가로 처리하여, 시퀀싱을 준비할 수 있으며(도 4, 블록 47), 여기서 시퀀싱은 포괄적이거나 표적화될 수 있다.
시퀀싱을 위한 고정화 샘플의 준비
하나 이상의 공급원으로부터의 인덱싱된 단편을 기질에 부착하는 방법은 당업계에 공지되어 있다. 일 실시 형태에서, 인덱싱된 단편은 인덱싱된 단편에 대해 특이성을 갖는 복수의 포획 서열을 사용하여 농축되고, 포획 서열은 고체 기질의 표면에 고정화될 수 있다. 예를 들어, 포획 서열은 결합쌍의 제1 구성원(예컨대, P5')을 포함할 수 있고, 결합쌍의 제2 구성원(P5)이 고체 기질의 표면 상에 고정화된다. 마찬가지로, 고정화 인덱싱된 단편을 증폭하는 방법은 브릿지 증폭 및 동력학적 배제(kinetic exclusion)를 포함하지만, 이에 한정되지 않는다. 시퀀싱 전에 고정화 및 증폭하는 방법은 예를 들어, 빅넬 등의 미국 특허 제8,053,192호, 군더슨 등의 WO2016/130704호, 셴(Shen) 등의 미국 특허 제8,895,249호 및 피펜버그(Pipenburg)등의 미국 특허 제9,309,502호에 기재되어 있다.
풀링된 샘플은 시퀀싱의 준비를 위해 고정화될 수 있다. 시퀀싱은 단일 분자의 어레이로서 수행될 수 있거나, 시퀀싱 전에 증폭될 수 있다. 증폭은 하나 이상의 고정화 프라이머를 사용하여 수행될 수 있다. 고정화 프라이머(들)는 예를 들어, 평면 또는 비드 풀 상의 론(lawn)일 수 있다. 비드 풀은 에멀젼의 각각의 "컴파트먼트" 내에 단일 비드를 갖는 에멀젼으로 단리될 수 있다. "컴파트먼트" 당 단 하나의 주형의 농도에서, 단일 주형만이 각각의 비드 상에서 증폭된다.
본 명세서에 사용되는 용어 "고상 증폭"은 증폭 산물의 전부 또는 일부가 형성될 때 고상 지지체 상에 고정화되도록 고상 지지체 상에 또는 이와 관련하여 수행되는 임의의 핵산 증폭 반응을 지칭한다. 특히, 이 용어는 순방향 및 역방향 증폭 프라이머 중 하나 또는 둘 다가 고상 지지체 상에 고정화된 것을 제외하고는, 표준 용액상 증폭과 유사한 반응인 고상 폴리머라제 연쇄 반응(고상 PCR) 및 고상 등온 증폭을 포함한다. 고상 PCR은 하나의 프라이머가 비드에 고정되고 다른 하나가 자유 용액 중에 있는 에멀젼과 같은 시스템과, 하나의 프라이머가 표면에 고정되고 다른 하나가 자유 용액 중에 있는 고상 겔 매트릭스의 콜로니 형성을 포함한다.
일부 실시 형태에서, 고상 지지체는 패턴화된 표면을 포함한다. "패턴화된 표면"은 고상 지지체의 노출된 층 내의 또는 그 상에서의 상이한 영역들의 배열을 지칭한다. 예를 들어, 하나 이상의 영역은 하나 이상의 증폭 프라이머가 존재하는 특징부일 수 있다. 특징부는 증폭 프라이머가 존재하지 않는 틈새 영역(interstitial region)에 의해 분리될 수 있다. 일부 실시 형태에서, 패턴은 행(row) 및 열(column)로 있는 특징부의 x-y 포맷일 수 있다. 일부 실시 형태에서, 패턴은 특징부 및/또는 틈새 영역의 반복 배열일 수 있다. 일부 실시 형태에서, 패턴은 특징부 및/또는 틈새 영역의 무작위 배열일 수 있다. 본 명세서에 제시된 방법 및 조성물에 사용될 수 있는 예시적인 패턴화된 표면이 미국 특허 제8,778,848호, 제8,778,849호 및 제9,079,148호, 및 미국 특허 공개 제2014/0243224호에 기재되어 있다.
일부 실시 형태에서, 고상 지지체는 표면에 함몰부 또는 웰의 어레이를 포함한다. 이는, 포토리소그래피, 스탬핑 기술, 몰딩 기술 및 마이크로에칭 기술을 포함하지만 이에 한정되지 않는 다양한 기술을 사용하여 당업계에 일반적으로 알려진 바와 같이 제조될 수 있다. 당업자에 의해 이해되는 바와 같이, 사용되는 기술은 어레이 기재의 조성 및 형상에 의존할 것이다.
패턴화된 표면의 특징부는 유리, 규소, 플라스틱, 또는 폴리(N-(5-아지도아세트아미딜펜틸)아크릴아미드-코-아크릴아미드)(PAZAM, 예를 들어, 미국 특허 공개 제2013/184796호, WO 2016/066586호 및 WO 2015/002813호 참조)와 같은 패턴화된 공유 결합 겔이 있는 다른 적절한 고상 지지체 상의 웰(예컨대, 마이크로웰 또는 나노웰)의 어레이 중의 웰일 수 있다. 이 과정은 다수의 사이클의 시퀀싱 런에서 안정적일 수 있는 시퀀싱에 사용되는 겔 패드를 생성한다. 웰에 대한 폴리머의 공유결합은 다양한 용도에서 구조화된 기질의 수명 전체에 걸쳐 구조화된 특징부에 겔을 유지하는 데 도움이 된다. 그러나, 다수의 실시 형태에서, 겔은 웰에 공유결합될 필요가 없다. 예를 들어, 일부 조건에서, 구조화된 기질의 어느 부분에도 공유결합되지 않은 실란 비함유 아크릴아미드(SFA, 예를 들어 미국 특허 제8,563,477호 참조)가 겔 재료로서 사용될 수 있다.
특정 실시형태에서, 구조화된 기질은 고상 지지체 재료를 웰(예를 들어, 마이크로웰 또는 나노웰)로 패턴화시키고, 패턴화된 지지체를 겔 재료(예를 들어, PAZAM, SFA 또는 이들의 화학적으로 변형된 변이체, 예컨대 SFA의 아지도 분해된(azidolyzed) 버전(아지도-SFA))로 코팅하고, 예를 들어, 화학적 또는 기계적 폴리싱을 통해서, 겔 코팅된 지지체를 폴리싱하여 웰 내에 겔을 보유시키지만 웰들 사이의 구조화된 기질의 표면 상의 틈새 영역로부터 실질적으로 모든 겔을 제거하거나 불활성화시킴으로써 제조될 수 있다. 프라이머 핵산은 겔 재료에 부착될 수 있다. 이어서, 인덱싱된 단편의 용액이 폴리싱된 기질과 접촉될 수 있어서, 개별 인덱싱된 단편이 겔 재료에 부착된 프라이머와의 상호작용을 통해 개별 웰에 시딩될 것이지만; 표적 핵산은 겔 재료의 부재 또는 불활성으로 인해 틈새 영역을 점유하지 않을 것이다. 인덱싱된 단편의 증폭은 틈새 영역 내에서의 겔의 부재 또는 불활성이 성장하는 핵산 콜로니의 외향 이동을 방지하기 때문에 웰에 한정될 것이다. 이러한 과정은 편리하게 제조가능하여, 스케일링가능하고, 종래의 마이크로가공 또는 나노가공 방법을 활용할 수 있다.
본 발명은 단 하나의 증폭 프라이머가 고정화되는 "고상" 증폭 방법을 포함하지만(다른 프라이머는 통상적으로 자유 용액 중에 존재함), 일 실시 형태에서 고상 지지체에는 고정화된 순방향 및 역방향 프라이머 둘 다가 제공되는 것이 바람직하다. 실제로, 증폭 과정이 증폭을 지속하기 위해 과량의 프라이머를 필요로 하기 때문에, 고상 지지체 상에 고정화된 '복수'의 동일한 순방향 프라이머 및/또는 '복수'의 동일한 역방향 프라이머가 존재할 것이다. 순방향 및 역방향 프라이머에 대한 본 명세서에서의 언급은 따라서, 문맥이 달리 지시하지 않는 한, '복수'의 이러한 프라이머를 포함하는 것으로 해석되어야 한다.
숙련된 독자에 의해 이해되는 바와 같이, 임의의 주어진 증폭 반응은 증폭될 주형에 특이적인 적어도 하나의 유형의 순방향 프라이머 및 적어도 하나의 유형의 역방향 프라이머를 필요로 한다. 그러나, 특정 실시 형태에서, 순방향 및 역방향 프라이머는 동일한 서열의 주형 특이적 부분을 포함할 수 있고, 완전히 동일한 뉴클레오티드 서열 및 구조(임의의 비뉴클레오티드 변형을 포함함)를 가질 수 있다. 다시 말해서, 단 하나의 유형의 프라이머를 사용하여 고상 증폭을 수행하는 것이 가능하며, 이러한 단일 프라이머 방법은 본 발명의 범주 내에 포함된다. 다른 실시 형태는 동일한 주형 특이적 서열을 포함하지만, 일부 다른 구조적 특징이 상이한 순방향 및 역방향 프라이머를 사용할 수 있다. 예를 들어, 한 유형의 프라이머는 다른 유형에 존재하지 않는 비뉴클레오티드 변형을 포함할 수 있다.
본 발명의 모든 실시 형태에서, 고상 증폭을 위한 프라이머는 바람직하게는 프라이머의 5' 말단 또는 그 근처에서 고상 지지체에 단일점 공유결합에 의해 고정화되어, 프라이머의 주형 특이적 부분을 자유롭게 남겨두어 이의 동족 주형에 어닐링할 수 있으며, 프라이머 신장을 위해 3' 하이드록실기를 자유로운 상태로 존재하게 된다. 당업계에 알려진 임의의 적합한 공유 부착 수단이 이러한 목적을 위해 사용될 수 있다. 선택된 부착 화학은 고상 지지체의 성질, 및 그에 적용되는 임의의 유도체화 또는 작용화에 따라 좌우될 것이다. 프라이머 자체는 부착을 용이하게 하기 위해 비뉴클레오티드 화학적 변형일 수 있는 부분을 포함할 수 있다. 특정 실시 형태에서, 프라이머는 예를 들어, 5' 말단에 황 함유 친핵체, 예컨대 포스포로티오에이트 또는 티오포스페이트를 포함할 수 있다. 고체-지지된 폴리아크릴아미드 하이드로겔의 경우, 이러한 친핵체는 하이드로겔에 존재하는 브로모아세트아미드 기에 결합할 것이다. 프라이머 및 주형을 고상 지지체에 부착시키는 보다 특별한 수단은 WO05/065814호에 기재된 바와 같이, 중합된 아크릴아마이드 및 N-(5-브로모아세트아미딜펜틸)아크릴아미드(BRAPA)로 구성된 하이드로겔에 대한 5' 포스포로티오에이트 부착을 통한 것이다.
본 발명의 특정 실시 형태는 예를 들어, 생체 분자, 예컨대 폴리뉴클레오티드에 대한 공유결합이 가능한 반응성 기를 포함하는 중간 재료의 층 또는 코팅의 적용에 의해, "기능화된" 불활성 기재 또는 매트릭스(예를 들어, 유리 슬라이드, 폴리머 비드 등)를 포함하는 고상 지지체를 사용할 수 있다. 이러한 지지체의 예에는 유리와 같은 불활성 기재 상에 지지된 폴리아크릴아미드 하이드로겔이 포함되지만 이로 한정되지 않는다. 이러한 실시 형태에서, 생체분자(예를 들어, 폴리뉴클레오티드)는 중간 재료(예를 들어, 하이드로겔)에 직접 공유결합될 수 있지만, 중간 재료는 그 자체로 기재 또는 매트릭스(예를 들어, 유리 기재)에 비공유결합될 수 있다. 용어 "고상 지지체에 대한 공유결합"은 따라서 이러한 유형의 배열을 포함하는 것으로 해석되어야 한다.
풀링된 샘플은 비드 상에서 증폭될 수 있으며, 여기서 각각의 비드는 순방향 및 역방향 증폭 프라이머를 포함한다. 특정 실시 형태에서, 인덱싱된 단편의 라이브러리는 고상 증폭, 특히 고상 등온 증폭에 의해 미국 특허 출원 공개 제2005/0100900호, 미국 특허 제7,115,400호, WO 00/18957호 및 WO 98/44151호에 기재된 것과 유사한, 핵산 콜로니의 클러스터링된 어레이를 제조하는 데 사용된다. 용어 '클러스터' 및'콜로니'는 복수의 동일한 고정화된 핵산 가닥 및 복수의 동일한 고정화된 상보적 핵산 가닥을 포함하는 고상 지지체 상의 별개의 부위를 지칭하기 위해 본 명세서에서 상호교환가능하게 사용된다. 용어 "클러스터링된 어레이"는 이러한 클러스터 또는 콜로니로부터 형성된 어레이를 지칭한다. 이와 관련하여, 용어 "어레이"는 클러스터의 규칙적인 배열을 필요로 하는 것으로 이해되어서는 안 된다.
용어 "고상" 또는 "표면"은 프라이머를 평탄한 표면, 예를 들어 유리, 실리카 또는 플라스틱 현미경 슬라이드 또는 유사한 플로우 셀 장치에 부착하는 평면 어레이; 하나 또는 2개의 프라이머가 비드에 부착되고, 비드가 증폭되는 비드; 또는 비드가 증폭된 후 표면 상의 비드 어레이를 의미하도록 사용된다.
클러스터링된 어레이는 국제 특허 공개 WO 98/44151호에 기재된 바와 같은 서모사이클링 공정, 또는 온도가 일정한 상태로 유지되는 공정 중 어느 하나를 사용하여 제조될 수 있으며, 신장 및 변성의 사이클은 시약의 변화를 사용하여 수행된다. 이러한 등온 증폭 방법은 국제 특허 공개 WO 02/46456호 및 미국 특허 공개 제2008/0009420호에 기재되어 있다. 등온 과정에 유용한 더 낮은 온도로 인해, 이것은 일부 실시 형태에서 특히 바람직하다.
본 명세서에 기재되거나 당업계에 일반적으로 공지된 임의의 증폭 방법은 유니버셜 또는 표적 특이적 프라이머를 사용하여 고정화 DNA 단편을 증폭시킬 수 있음이 이해될 것이다. 증폭에 적합한 방법은 미국 특허 제8,003,354호에 기재된 바와 같이, 폴리머라제 연쇄 반응(PCR), 가닥 치환 증폭(SDA), 전사 매개 증폭(TMA) 및 핵산 서열 기반 증폭(NASBA)을 포함하지만 이에 한정되지 않는다. 상기 증폭 방법은 하나 이상의 관심 핵산을 증폭시키기 위해 이용될 수 있다. 예를 들어, 멀티플렉스 PCR을 비롯한 PCR, SDA, TMA, NASBA 등을 사용하여 고정화 DNA 단편을 증폭시킬 수 있다. 일부 실시 형태에서, 관심 폴리뉴클레오티드에 특이적으로 관련된 프라이머가 증폭 반응에 포함된다.
폴리뉴클레오티드의 증폭을 위한 다른 적절한 방법은 올리고뉴클레오티드 신장 및 라이게이션, 롤링 서클 증폭(RCA)(문헌[Lizardi et al., Nat. Genet. 19:225-232 (1998)]) 및 올리고뉴클레오티드 라이게이션 분석(OLA)(일반적으로 미국 특허 제7,582,420호, 제5,185,243호, 제5,679,524호 및 제5,573,907호; 유럽 특허 제0 320 308 B1호; 유럽 특허 제0 336 731 B1호; 유럽 특허 제0 439 182 B1호; 국제 특허 공개 WO 90/01069호; WO 89/12696호; 및 WO 89/09835호 참조) 기술을 포함할 수 있다. 이러한 증폭 방법은 고정화 DNA 단편을 증폭시키도록 설계될 수 있음이 이해될 것이다. 예를 들어, 일부 실시 형태에서, 증폭 방법은 관심 핵산에 특이적으로 관련된 프라이머를 포함하는 라이게이션 프로브 증폭 또는 올리고뉴클레오티드 라이게이션 분석(OLA) 반응을 포함할 수 있다. 일부 실시 형태에서, 증폭 방법은, 관심 핵산에 특이적으로 관련된 프라이머를 포함하는 프라이머 신장-라이게이션 반응을 포함할 수 있다. 관심 핵산을 증폭시키도록 특이적으로 설계될 수 있는 프라이머 신장 및 라이게이션 프라이머의 비제한적인 예로서, 미국 특허 제7,582,420호 및 제7,611,869호에 의해 예시되는 바와 같이, 증폭은 골든게이트(GoldenGate) 검정(미국 캘리포니아주 샌디에고 소재의 일루미나, 인코포레이티드)에 사용되는 프라이머를 포함할 수 있다.
DNA 나노볼은 또한 본 명세서에 기재된 방법 및 조성물과 조합하여 사용될 수 있다. 게놈 시퀀싱을 위한 DNA 나노볼을 생성하고 이용하는 방법은 예를 들어, 미국 특허 및 공보들, 즉, 미국 특허 제7,910,354호, 2009/0264299, 2009/0011943, 2009/0005252, 2009/0155781, 2009/0118488 및 예를 들어, 문헌[Drmanac et al., 2010, Science 327(5961): 78-81]에서 찾아볼 수 있다. 간략하게, 게놈 라이브러리 DNA 단편화 어댑터가 단편에 라이게이션된 후에, 어댑터 라이게이션된 단편은 서클 리가제를 사용한 라이게이션에 의해 원형으로 되고 롤링 서클 증폭이 수행된다(문헌[Lizardi et al., 1998. Nat. Genet. 19:225-232] 및 US 2007/0099208 A1호에 기재된 바와 같음). 앰플리콘의 신장된 콘카테머 구조는 코일링(coiling)을 촉진하여, 콤팩트한 DNA 나노볼을 생성한다. DNA 나노볼은 기질 상에 포획될 수 있으며, 바람직하게는 각각의 나노볼 사이의 거리가 유지되어 개별 DNA 나노볼의 시퀀싱을 가능하게 하도록 규칙화 또는 패턴화된 어레이를 생성할 수 있다. 일부 실시 형태에서, 어댑터 라이게이션, 증폭 및 분해의 연속적 라운드는 원형화(circularization) 전에 수행되어, 어댑터 서열에 의해 분리된 여러 개의 게놈 DNA 단편을 갖는 헤드 투 테일(head to tail) 구축물을 생성한다.
본 발명의 방법에 사용될 수 있는 예시적인 등온 증폭 방법은 예를 들어, 문헌[Dean et al., Proc. Natl. Acad. Sci. USA 99:5261-66 (2002)]에 의해 예시된 바와 같은 다중 치환 증폭(MDA) 또는 예를 들어, 미국 특허 제6,214,587호에 의해 예시된 등온 가닥 치환 핵산 증폭을 포함할 수 있지만 이에 한정되지 않는다. 본 발명에 사용될 수 있는 다른 비PCR 기반 방법은 예를 들어 문헌[Walker et al., Molecular Methods for Virus Detection, Academic Press, Inc., 1995]; 미국 특허 제5,455,166호 및 제5,130,238호, 및 문헌[Walker et al., Nucl. Acids Res. 20:1691-96 (1992)]에 기재된 가닥 치환 증폭(SDA) 또는 예를 들어 문헌[Lage et al., Genome Res. 13:294-307(2003)]에 기재된 초분지(hyper-branched) 가닥 치환 증폭을 포함한다. 등온 증폭 방법은 에를 들어, 게놈 DNA의 랜덤 프라이머 증폭을 위해 가닥 치환 Phi 29 폴리머라제 또는 Bst DNA 폴리머라제 큰 단편, 5'->3' 엑소-와 함께 사용될 수 있다. 이들 폴리머라제의 사용은 그들의 높은 진행성(processivity) 및 가닥 치환 활성을 활용한다. 높은 진행성으로 인해 폴리머라제는 길이가 10 내지 20 kb인 단편을 생성한다. 상술한 바와 같이, 클레노우 폴리머라제와 같이 낮은 진행성 및 가닥 치환 활성을 갖는 폴리머라제를 사용하여 등온 조건 하에서 더 작은 단편을 생성할 수 있다. 증폭 반응, 조건 및 구성요소에 대한 추가 설명은 미국 특허 제7,670,810호의 개시 내용에 상세히 제시되어 있다.
본 발명에 유용한 다른 폴리뉴클레오티드 증폭 방법은 예를 들어, 문헌[Grothues et al. Nucleic Acids Res. 21(5):1321-2 (1993)]에 기재된 바와 같은 불변 5' 영역 다음에 랜덤 3' 영역을 갖는 2-도메인 프라이머의 집단을 사용하는 태깅된 PCR이다. 랜덤으로 합성된 3' 영역으로부터의 개별 하이브리디제이션에 기초하여 열 변성 DNA에 대한 다수의 개시를 허용하도록 제1 증폭 라운드가 수행된다. 3' 영역의 특성으로 인해, 개시 부위는 게놈 전체에 걸쳐 랜덤한 것으로 고려된다. 그 후에, 비결합 프라이머는 제거될 수 있고 불변 5' 영역에 상보적인 프라이머를 사용하여 추가의 복제가 일어날 수 있다.
일부 실시 형태에서, 등온 증폭은 배제 증폭(ExAmp)이라고도 지칭되는 동력학적 배제 증폭(kinetic exclusion amplification; KEA)을 사용하여 수행될 수 있다. 본 발명의 핵산 라이브러리는 증폭 시약을 반응시켜 부위를 시딩한 개별 표적 핵산으로부터의 앰플리콘의 실질적인 클론 집단을 각각 포함하는 복수의 증폭 부위를 생성시키는 단계를 포함하는 방법을 사용하여 제조될 수 있다. 일부 실시 형태에서, 증폭 반응은 각각의 증폭 부위의 용량을 충전하기에 충분한 수의 앰플리콘이 생성될 때까지 진행된다. 이러한 방식으로 이미 시딩된 부위를 최대한으로 충전시키면, 표적 핵산이 그 부위에서 랜딩하고, 증폭하여 그 부위에서 앰플리콘의 클론 집단을 생성시키는 것을 방지한다. 일부 실시 형태에서, 제2 표적 핵산이 부위에 도달하기 전에 증폭 부위가 최대한으로 충전되지 않은 경우에도 명백한 클론성이 달성될 수 있다. 일부 조건 하에서, 제1 표적 핵산의 증폭은 부위로 수송되는 제2 표적 핵산으로부터의 카피의 생산을 효과적으로 능가하거나 압도하기에 충분한 수의 카피가 만들어지는 지점까지 진행될 수 있다. 예를 들어, 직경이 500 nm 미만인 원형 특징부 상에서 브릿지 증폭 과정을 사용하는 실시 형태에서, 제1 표적 핵산에 대한 14회 사이클의 지수함수적 증폭 후에, 동일한 부위에서 제2 표적 핵산으로부터의 오염은 일루미나 시퀀싱 플랫폼 상에서의 합성을 통한 시퀀싱(sequencing-by-synthesis) 분석에 악영향을 미치기에 불충분한 수의 오염된 앰블리콘을 생성할 것임을 알았다.
일부 실시 형태에서, 어레이에서 증폭 부위는 완전히 클론성일 수 있지만 그럴 필요는 없다. 그 보다는, 일부 응용을 위해서, 개별 증폭 부위는 제1 인덱싱된 단편으로부터의 앰플리콘이 우세하게 존재할 수 있고, 제2 표적 핵산으로부터의 저 레벨의 오염 앰플리콘을 또한 가질 수 있다. 어레이는 오염 레벨이 어레이의 후속 사용에 허용 가능하지 않은 영향을 갖지 않는 한, 저 레벨의 오염 앰플리콘을 갖는 하나 이상의 증폭 부위를 가질 수 있다. 예를 들어, 어레이를 검출 응용에서 사용하려는 경우, 허용 가능한 레벨의 오염은 검출 기술의 신호 대 노이즈 또는 분해능에 허용될 수 없는 방식으로 영향을 주지 않는 레벨일 것이다. 따라서, 명백한 클론성은 일반적으로 본 명세서에 언급된 방법에 의해 제조된 어레이의 특정 용도 또는 응용에 관련될 것이다. 특정 응용을 위해 개별 증폭 부위에서 허용 가능할 수 있는 예시적인 오염 레벨은 최대 0.1%, 0.5%, 1%, 5%, 10% 또는 25%의 오염 앰플리콘을 포함하지만 이로 한정되지 않는다. 어레이는 이러한 예시적인 레벨의 오염 앰플리콘을 갖는 하나 이상의 증폭 부위를 포함할 수 있다. 예를 들어, 어레이 내의 증폭 부위 중 최대 5%, 10%, 25%, 50%, 75% 또는 심지어 100%가 일부 오염 앰플리콘을 가질 수 있다. 부위의 어레이 또는 다른 집합체에서, 부위의 적어도 50%, 75%, 80%, 85%, 90%, 95% 또는 99% 이상이 클론이거나 명백히 클론일 수 있음이 이해될 것이다.
일부 실시 형태에서, 또 다른 이벤트 또는 과정이 일어나는 것을 효과적으로 배제하기에 충분히 신속한 속도로 과정이 일어나는 경우 동력학적 배제가 일어날 수 있다. 예를 들어, 핵산 어레이의 제조를 고려하여, 어레이의 부위가 용액으로부터의 인덱싱된 단편으로 무작위하게 시딩되고, 인덱싱된 단편의 카피가 증폭 과정에서 생성되어 시딩된 부위 각각을 최대한으로 충전시킨다. 본 발명의 동력학적 배제 방법에 따라, 시딩 및 증폭 과정은 증폭 속도가 시딩 속도를 초과하는 조건 하에서 동시에 진행될 수 있다. 이와 같이, 카피가 제1 표적 핵산에 의해 시딩된 부위에서 제조되는 비교적 빠른 속도는 제2 핵산이 증폭을 위해 부위를 시딩하는 것을 효과적으로 배제시킬 것이다. 동력학적 배제 증폭 방법은 미국 출원 공개 제2013/0338042호의 개시내용에 상세하게 기술된 바와 같이 수행될 수 있다.
동력학적 배제는 증폭을 개시하기 위해 상대적으로 느린 속도(예를 들어, 인덱싱된 단편의 제1 카피를 제조하는 느린 속도) 대 인덱싱된 단편(또는 인덱싱된 단편의 제1 카피)의 후속 카피를 제조하기 위해 상대적으로 빠른 속도를 이용할 수 있다. 이전 단락의 예에서, 동력학적 배제는 인덱싱된 단편 시딩의 비교적 느린 속도(예를 들어, 비교적 느린 확산 또는 수송) 대 증폭이 일어나서 부위를 인덱싱된 단편 시드의 카피로 충전시키는 비교적 빠른 속도로 인해 일어난다. 다른 예시적인 실시형태에서, 동력학적 배제는 부위를 시딩한 인데스된 단편의 제1 카피의 형성의 지연(예를 들어, 지연된 또는 느린 활성화) 대 후속 카피가 제조되어 그 부위를 충전시키는 비교적 빠른 속도로 인해 일어날 수 있다. 이러한 예에서, 개별 부위는 몇몇의 상이한 인덱싱된 단편으로 시딩될 수 있다(예를 들어, 몇몇 인덱싱된 단편이 증폭 이전에 각각의 부위에서 존재할 수 있다). 그러나, 임의의 주어진 인덱싱된 단편을 위한 제1 카피 형성은 무작위로 활성화될 수 있어서, 제1 카피 형성의 평균 속도는 후속 카피가 생성되는 속도에 비해 상대적으로 느리다. 이러한 경우, 개별 부위가 몇몇 상이한 인덱싱된 단편으로 시딩될 수 있지만, 동력학적 배제는 이러한 인덱싱된 단편 중 단지 하나가 증폭되게 할 것이다. 보다 구체적으로, 일단 제1 인덱싱된 단편이 증폭을 위해 활성화되면, 그 부위는 이의 카피로 신속하게 최대한으로 충전되어, 제2 인덱싱된 단편의 카피가 그 부위에서 제조되는 것을 방지할 것이다.
일 실시 형태에서, 본 방법은 (i) 인덱싱된 단편을 평균 수송 속도로 증폭 부위로 수송하는 단계 및 (ii) 평균 증폭 속도로 증폭 부위에 있는 인덱싱된 단편을 증폭시키는 단계를 동시에 수행하며, 여기서 평균 증폭 속도는 평균 수송 속도를 초과한다(미국 특허 제9,169,513호). 따라서, 동력학적 배제는 비교적 느린 수송 속도를 사용함으로써 이러한 실시 형태에서 달성될 수 있다. 예를 들어, 충분히 낮은 농도의 인덱싱된 단편을 선택하여, 원하는 평균 수송 속도를 달성할 수 있고, 더 낮은 농도가 더 느린 평균 수송 속도를 초래한다. 대안적으로 또는 추가적으로, 고점도 용액 및/또는 상기 용액 중의 분자 밀집 시약의 존재는 수송 속도를 감소시키는 데 사용될 수 있다. 유용한 분자 밀집 시약의 예에는 폴리에틸렌 글리콜(PEG), 피콜(ficoll), 덱스트란 또는 폴리비닐 알코올이 포함되지만 이로 한정되지 않는다. 예시적인 분자 밀집 시약 및 제제가 본 명세서에 참고로 포함된 미국 특허 제7,399,590호에 기재되어 있다. 원하는 수송 속도를 달성하도록 조정될 수 있는 다른 인자는 표적 핵산의 평균 크기이다.
증폭 시약은 앰플리콘 형성을 용이하게 하고, 일부 경우에 앰플리콘 형성의 속도를 증가시키는 추가 성분을 포함할 수 있다. 예로는 재조합효소가 있다. 재조합효소는 반복된 침입/신장을 허용함으로써 앰플리콘 형성을 용이하게 할 수 있다. 보다 구체적으로, 재조합효소는 앰플리콘 형성을 위한 주형으로서 인덱싱된 단편을 사용하여 폴리머라제에 의한 프라이머의 신장 및 폴리머라제에 의한 인덱싱된 단편의 침입을 용이하게 할 수 있다. 이러한 과정은 침입/신장의 각 라운드로부터 생성된 앰플리콘이 후속 라운드에서 주형으로서 작용하는 연쇄 반응으로서 반복될 수 있다. 이러한 과정은 표준 PCR보다 더 신속하게 일어날 수 있는데, 그 이유는 (예를 들어, 가열 또는 화학적 변성을 통한) 변성 사이클이 필요하지 않기 때문이다. 이와 같이, 재조합효소 촉진성 증폭은 등온적으로 수행될 수 있다. 증폭을 용이하게 하기 위해 재조합효소 촉진성 증폭 시약에 ATP 또는 다른 뉴클레오티드(또는 일부 경우에 이의 비가수분해성 유사체)를 포함하는 것이 일반적으로 바람직하다. 재조합효소와 단일 가닥 결합(SSB) 단백질의 혼합물은 SSB가 증폭을 더욱 용이하게 할 수 있기 때문에 특히 유용하다. 재조합효소 촉진성 증폭의 예시적인 제제는 트위스트디엑스(TwistDx)(영국 캠브릿지 소재)에 의해 트위스트앰프(TwistAmp)로서 시판되는 것을 포함한다. 재조합효소 촉진성 증폭 시약의 유용한 성분 및 반응 조건이 미국 특허 제5,223,414호 및 미국 특허 제7,399,590호에 기재되어 있다.
앰플리콘 형성을 용이하게 하기 위해 그리고 일부 경우에 앰플리콘 형성의 속도를 증가시키기 위해 증폭 시약에 포함될 수 있는 성분의 다른 예는 헬리카제이다. 헬리카제는 앰플리콘 형성의 연쇄 반응을 가능하게 함으로써 앰플리콘 형성을 용이하게 할 수 있다. 이러한 과정은 표준 PCR보다 더 신속하게 일어날 수 있는데, 그 이유는 (예를 들어, 가열 또는 화학적 변성을 통한) 변성 사이클이 필요하지 않기 때문이다. 이와 같이, 헬리카제 촉진성 증폭은 등온적으로 수행될 수 있다. 헬리카제와 단일 가닥 결합(SSB) 단백질의 혼합물은 SSB가 증폭을 더욱 용이하게 할 수 있기 때문에 특히 유용하다. 헬리카제 촉진성 증폭의 예시적인 제제는 바이오헬릭스(Biohelix; 미국 매사추세츠주 베벌리 소재)로부터 아이소앰프(IsoAmp) 키트로서 시판되는 것들을 포함한다. 또한, 헬리카제 단백질을 포함하는 유용한 제형의 예는 미국 특허 제7,399,590호 및 미국 특허 제7,829,284호에 기재되어 있다.
앰플리콘 형성을 용이하게 하기 위해 그리고 일부 경우에 앰플리콘 형성의 속도를 증가시키기 위해 증폭 시약에 포함될 수 있는 성분의 또 다른 예는 기원 결합 단백질이다.
시퀀싱 방법
인덱싱된 단편을 표면에 부착한 후에, 고정화 및 증폭된 인덱싱된 단편의 서열이 결정된다. 시퀀싱은 포괄적이거나 표적화될 수 있다. 라이브러리에 존재하는 각각의 세포 또는 핵의 전체 서열이 요구되는 경우, 포괄적인 시퀀싱이 사용될 수 있다. 포괄적인 시퀀싱을 사용하는 응용의 예는 전체 게놈 시퀀싱, 전체 트랜스크립톰 시퀀싱 및 ATAC 시퀀싱을 포함하지만 이에 한정되지 않는다. 표적 시퀀싱은 생물학적 특징부에 관한 정보가 요구될 때 사용될 수 있다. 일 실시 형태에서, 표적 시퀀싱은 세포 또는 핵의 아집단, 또는 게놈의 서브세트, 트랜스크립톰의 서브세트, 프로테옴의 서브세트, 또는 이들의 임의의 조합의 식별에 사용될 수 있고, 본 명세서에 상세히 기술된다.
시퀀싱은 임의의 적절한 시퀀싱 기술을 사용하여 수행될 수 있고, 가닥 재합성을 포함하여, 고정화되고 증폭된 인덱싱된 단편의 서열을 결정하는 방법은 당업계에 공지되어 있으며, 예를 들어, 빅넬 등(US 8,053,192), 군더슨 등(WO2016/130704), 쉔 등(US 8,895,249), 및 피펜버그 등(US 9,309,502)에 기술되어 있다.
본 명세서에 기재된 방법은 다양한 핵산 시퀀싱 기술과 함께 사용될 수 있다. 특히 적용가능한 기술은 핵산이 어레이 내의 고정된 위치에 부착되어, 이의 상대 위치가 변화하지 않고, 어레이가 반복적으로 이미징되는 것이다. 예를 들어, 하나의 뉴클레오티드 염기 유형을 다른 것과 식별하는데 사용되는 다른 표지와 일치하는 다른 색상 채널에서 이미지가 획득되는 실시 형태가 특히 적용가능하다. 일부 실시 형태에서, 인덱싱된 단편의 뉴클레오티드 서열을 결정하는 과정은 자동화 과정일 수 있다. 바람직한 실시 형태는 합성을 통한 시퀀싱("SBS") 기술을 포함한다.
SBS 기술은 일반적으로 주형 가닥에 대한 뉴클레오티드의 반복적 부가를 통한 초기 핵산 가닥의 효소적 연장을 수반한다. 기존의 SBS 방법에서, 단일 뉴클레오티드 단량체가 각각의 전달에서 폴리머라제의 존재 하에 표적 뉴클레오티드에 제공될 수 있다. 그러나, 본 명세서에 기재된 방법에서, 하나 초과의 유형의 뉴클레오티드 단량체가 전달에서 폴리머라제의 존재 하에 표적 핵산에 제공될 수 있다.
일 실시 형태에서, 뉴클레오티드 단량체는 잠금 핵산(LNA)또는 가교 핵산(BNA)을 포함한다. 뉴클레오티드 단량체에서 LNA 또는 BNA를 사용하면, 고정화 인덱싱된 단편에 존재하는 시퀀싱 프라이머 서열과 뉴클레오티드 단량체 사이의 하이브리디제이션 강도가 증가한다.
SBS는 종결인자 부분(terminator moiety)을 갖는 뉴클레오티드 단량체 또는 임의의 종결인자 부분이 없는 뉴클레오티드 단량체를 사용할 수 있다. 종결인자가 없는 뉴클레오티드 단량체를 사용하는 방법은 예를 들어, 본 명세서에서 더욱 상세히 설명되는 바와 같이, γ-포스페이트 표지화된 뉴클레오티드를 사용하는 시퀀싱 및 파이로시퀀싱(pyrosequencing)을 포함한다. 종결인자가 없는 뉴클레오티드 단량체를 사용하는 방법에서, 각각의 사이클에서 첨가되는 뉴클레오티드의 수는 일반적으로 가변적이며, 주형 서열 및 뉴클레오티드 전달 방식에 따라 달라진다. 종결인자 부분을 갖는 뉴클레오티드 단량체를 사용하는 SBS 기술에서, 종결인자는 디데옥시뉴클레오티드를 사용하는 기존의 생어(Sanger) 시퀀싱의 경우와 같이, 사용된 시퀀싱 조건 하에서 실질적으로 비가역적일 수 있거나, 종결인자는 솔렉사(Solexa)(현재, 일루미나, 인코포레이티드)에 의해 개발된 시퀀싱 방법의 경우와 같이 가역적일 수 있다.
SBS 기술은 표지 부분을 갖는 뉴클레오티드 단량체 또는 임의의 표지 부분이 없는 뉴클레오티드 단량체를 사용할 수 있다. 따라서, 혼입 이벤트는 표지의 특징, 예컨대 표지의 형광; 뉴클레오티드 단량체의 특징, 예컨대 분자량 또는 전하; 뉴클레오티드의 혼입의 부산물, 예컨대 파이로포스페이트의 방출 등을 기반으로 검출될 수 있다. 2종 이상의 상이한 뉴클레오티드가 시퀀싱 시약 중에 존재하는 실시 형태에서, 상이한 뉴클레오티드는 서로 구별 가능할 수 있거나, 대안적으로 2개 이상의 상이한 표지가 사용되고 있는 검출 기술 하에서 구별 가능하지 않을 수 있다. 예를 들어, 시퀀싱 시약 중에 존재하는 상이한 뉴클레오티드는 상이한 표지를 가질 수 있고, 이것은 솔렉사(현재 일루미나, 인코포레이티드)에 의해 개발된 시퀀싱 방법에 의해 예시된 바와 같은 적절한 광학 장치를 사용하여 구별될 수 있다.
바람직한 실시 형태는 파이로시퀀싱 기술을 포함한다. 파이로시퀀싱은 특정 뉴클레오티드가 초기 가닥에 혼입될 때 무기 파이로포스페이트(PPi)의 방출을 검출한다(문헌[Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9]; 문헌[Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11]; 문헌[Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363]; 미국 특허 제6,210,891호; 제6,258,568호 및 제6,274,320호). 파이로시퀀싱에서, 방출된 PPi는 ATP 설퍼릴라제에 의해 아데노신 트라이포스페이트(ATP)로 즉시 전환됨으로써 검출될 수 있고, 생성된 ATP의 레벨은 루시페라제-생성된 광자를 통해 검출될 수 있다. 시퀀싱될 핵산은 어레이 내의 특징부에 부착될 수 있고, 어레이는 어레이의 특징부에서의 뉴클레오티드의 혼입으로 인해 생성되는 화학발광 신호를 포획하기 위해 이미징될 수 있다. 이미지는 특정 뉴클레오티드 유형(예를 들어, A, T, C 또는 G)으로 처리된 후에 얻어질 수 있다. 각각의 뉴클레오티드 유형의 첨가 후에 얻어지는 이미지는 어레이 내의 특징부가 검출되는 것과 관련하여 상이할 것이다. 이미지에서의 이러한 차이는 어레이 상의 특징부의 상이한 서열 콘텐츠를 반영한다. 그러나, 각각의 특징부의 상대적인 위치는 이미지에서 변하지 않은 채로 있을 것이다. 이미지는 본 명세서에 기재된 방법을 사용하여 저장, 처리 및 분석될 수 있다. 예를 들어, 어레이를 각각의 상이한 뉴클레오티드 유형으로 처리한 후에 얻어진 이미지는 가역적 종결인자 기반 시퀀싱 방법을 위해 상이한 검출 채널로부터 얻은 이미지에 대해 본 명세서에 예시된 것과 동일한 방식으로 취급될 수 있다
SBS의 다른 예시적인 유형에서, 사이클 시퀀싱은 예를 들어, 국제 특허 공개 WO 04/018497호 및 미국 특허 제7,057,026호에 기재된 바와 같은 절단가능한 또는 광표백성 염료 표지를 포함하는 가역적 종결인자 뉴클레오티드의 단계적 첨가에 의해 달성된다. 이러한 접근법은 솔렉사(현재 일루미나, 인코포레이티드)에 의해 상업화되고 있으며, 또한 국제 특허 공개 WO 91/06678호 및 WO 07/123,744호에 기재되어 있다. 종결이 역전될 수 있고, 형광 표지가 절단될 수 있는 형광 표지화된 종결인자의 이용가능성은 효율적인 주기적 가역적 종결(CRT) 시퀀싱을 용이하게 한다. 폴리머라제는 또한 이러한 변형된 뉴클레오티드를 효율적으로 혼입하고 신장하도록 공동 조작될 수 있다.
일부 가역적 종결인자 기반 시퀀싱 실시 형태에서, 표지는 SBS 반응 조건 하에서 신장을 실질적으로 저해하지 않는다. 그러나, 검출 표지는 예를 들어, 절단 또는 분해에 의해 제거될 수 있다. 이미지는 배열된 핵산 특징부에 표지를 포함시킨 후에 캡처될 수 있다. 특정 실시 형태에서, 각각의 사이클은 어레이에 4종의 상이한 뉴클레오티드 유형을 동시에 전달하는 것을 포함하고, 각각의 뉴클레오티드 유형은 스펙트럼적으로 구별되는 표지를 갖는다. 이어서 각각 4개의 상이한 표지 중 하나에 대해 선택적인 검출 채널을 사용하여 4개의 이미지가 얻어질 수 있다. 대안적으로, 상이한 뉴클레오티드 유형은 순차적으로 부가될 수 있으며, 각각의 부가 단계 사이에 어레이의 이미지가 얻어질 수 있다. 이러한 실시 형태에서, 각각의 이미지는 특정 유형의 뉴클레오티드가 혼입된 핵산 특징을 나타낼 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 콘텐츠로 인해 상이한 이미지에 존재하거나 존재하지 않을 것이다. 그러나, 특징부의 상대적인 위치는 이미지에서 변하지 않은 채로 있을 것이다. 이러한 가역적 종결인자-SBS 방법으로부터 얻어진 이미지는 본 명세서에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 이미지 캡처 단계 후에, 표지는 제거될 수 있고, 가역적 종결인자 부분은 뉴클레오티드 첨가 및 검출의 후속 사이클을 위해 제거될 수 있다. 특정 사이클에서 검출된 후에 그리고 후속 사이클 전에 표지의 제거는 사이클 사이의 배경 신호 및 크로스토크(crosstalk)를 감소시키는 이점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예가 본 명세서에 기재되어 있다.
특정 실시 형태에서, 뉴클레오티드 단량체의 일부 또는 전부는 가역적 종결인자를 포함할 수 있다. 이러한 실시 형태에서, 가역적 종결인자/절단 가능한 형광단은 3' 에스테르 결합을 통해 리보스 부분에 연결된 형광단을 포함할 수 있다(문헌[Metzker, Genome Res. 15:1767-1776(2005)]). 다른 접근법은 형광 표지의 절단으로부터 종결인자 화학물질을 분리하였다(문헌[Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7(2005)]). 루파렐(Ruparel) 등은 작은 3'알릴기를 사용하여 신장을 차단하지만, 팔라듐 촉매를 사용한 짧은 처리에 의해 쉽게 비블록화될 수 있는 가역적 종결인자의 개발을 기술하였다. 형광단은 장파장 UV 광에 30초 노출에 의해 쉽게 절단될 수 있는 광절단가능한 링커를 통해 염기에 부착되었다. 따라서, 다이설파이드 환원 또는 광절단 중 어느 하나가 절단가능한 링커로서 사용될 수 있다. 가역적 종결에 대한 다른 접근법은 dNTP 상에 벌키한 염료를 배치한 후에 일어나는 자연 종결의 사용이다. dNTP 상의 하전된 벌키한 염료의 존재는 입체 및/또는 정전기 장애를 통해 효과적인 종결인자로서 작용할 수 있다. 하나의 혼입 이벤트의 존재는 염료가 제거되지 않는 한, 추가 혼입을 방지한다. 염료의 절단은 형광단을 제거하고, 종결를 효과적으로 역전시킨다. 변형된 뉴클레오티드의 예는 또한 미국 특허 제7,427,673호 및 제7,057,026호에 기재되어 있다.
본 명세서에 기술된 방법 및 시스템과 함께 사용될 수 있는 추가의 예시적인 SBS 시스템 및 방법은 미국 특허 공개 제2007/0166705호, 제2006/0188901호, 제2006/0240439호, 제2006/0281109호, 제2012/0270305호 및 제2013/0260372호, 미국 특허 제7,057,026호, 국제 특허 공개 제WO 05/065814호, 미국 특허 출원 공개2005/0100900호, 국제 특허 공개 제WO 06/064199호 및 제WO 07/010,251호에 기술되어 있다.
일부 실시 형태는 4개 미만의 상이한 표지를 사용하는 4개의 상이한 뉴클레오티드의 검출을 사용할 수 있다. 예를 들어, SBS는 미국 특허 공개 제2013/0079232호에 포함된 문헌에 기술된 방법 및 시스템을 사용하여 수행될 수 있다. 첫 번째 예로서, 한 쌍의 뉴클레오티드 유형이 동일한 파장에서 검출될 수 있지만, 그 쌍의 하나의 구성원에 대해 다른 구성원과 비교한 세기의 차이에 기초하여, 또는 그 쌍의 다른 구성원에 대해 검출된 신호와 비교한, 명백한 신호가 나타나거나 사라지게 하는 (예를 들어, 화학적 변형, 광화학적 변형 또는 물리적 변형을 통한) 그 쌍의 하나의 구성원에 대한 변화에 기초하여 구별될 수 있다. 두 번째 예로서, 4개의 상이한 뉴클레오티드 유형 중 3개가 특정 조건 하에서 검출될 수 있는 반면, 제4 뉴클레오티드 유형은 그러한 조건 하에서 검출 가능한 표지가 결여되어 있거나, 그러한 조건 하에서 최소한으로 검출된다(예를 들어, 배경 형광 등으로 인한 최소 검출). 핵산 내로의 첫 번째 3개의 뉴클레오티드 유형의 혼입은 이의 각각의 신호의 존재를 기반으로 결정될 수 있고, 핵산 내로의 제4 뉴클레오티드 유형의 혼입은 임의의 신호의 부재 또는 최소 검출을 기반으로 결정될 수 있다. 세 번째 예로서, 하나의 뉴클레오티드 유형은 2개의 상이한 채널에서 검출되는 표지(들)를 포함할 수 있는 반면, 다른 뉴클레오티드 유형은 단 하나의 채널에서만 검출된다. 상술한 3개의 예시적인 구성은 상호 배타적인 것으로 간주되지 않으며, 다양한 조합으로 사용될 수 있다. 모든 3개의 예를 조합한 예시적인 실시형태는 제1 채널에서 검출되는 제1 뉴클레오티드 유형(예를 들어, 제1 여기 파장에 의해 여기되는 경우 제1 채널에서 검출되는 표지를 갖는 dATP), 제2 채널에서 검출되는 제2 뉴클레오티드 유형(예를 들어, 제2 여기 파장에 의해 여기되는 경우 제2 채널에서 검출되는 표지를 갖는 dCTP), 제1 채널 및 제2 채널 둘 다에서 검출되는 제3 뉴클레오티드 유형(예를 들어, 제1 여기 파장 및/또는 제2 여기 파장에 의해 여기되는 경우 두 채널 모두에서 검출되는 적어도 하나의 표지를 갖는 dTTP) 및 어느 하나의 채널에서도 검출되지 않거나 최소한으로 검출되는 표지가 결여된 제4 뉴클레오티드 유형(예를 들어, 표지를 갖지 않는 dGTP)을 사용하는 형광 기반 SBS 방법이다.
또한, 미국 특허 공개 제2013/0079232호에 포함된 문헌에 기술된 바와 같이, 시퀀싱 데이터는 단일 채널을 사용하여 얻을 수 있다. 이러한 소위 1 염료 시퀀싱 접근법에서, 제1 뉴클레오티드 유형은 표지화되지만, 표지는 제1 이미지가 생성된 후에 제거되고, 제2 뉴클레오티드 유형은 제1 이미지가 생성된 후에만 표지화된다. 제3 뉴클레오티드 유형은 제1 이미지 및 제2 이미지 둘 모두에서 이의 표지를 보유하고, 제4 뉴클레오티드 유형은 두 이미지에서 표지화되지 않은 상태로 유지된다.
일부 실시 형태는 라이게이션 기술에 의한 시퀀싱을 사용할 수 있다. 이러한 기술은 DNA 리가제를 사용하여 올리고뉴클레오티드를 혼입하고 이러한 올리고뉴클레오티드의 혼입을 식별한다. 올리고뉴클레오티드는 전형적으로 올리고뉴클레오티드가 하이브리디제이션되는 서열에서 특정 뉴클레오티드의 동일성과 상관관계가 있는 상이한 표지를 갖는다. 다른 SBS 방법에서와 같이, 이미지는 핵산 특징부의 어레이를 표지화된 시퀀싱 시약으로 처리한 후에 얻어질 수 있다. 각각의 이미지는 특정 유형의 표지가 혼입된 핵산 특징부를 나타낼 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 콘텐츠로 인해 상이한 이미지로 존재하거나 존재하지 않을 것이지만, 특징부의 상대적인 위치는 이미지에서 변화되지 않은 상태로 유지될 것이다. 라이게이션 기반 시퀀싱 방법으로부터 얻어진 이미지들은 본 명세서에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 본 명세서에 기술된 방법 및 시스템과 함께 사용될 수 있는 예시적인 SBS 시스템 및 방법이 미국 특허 제6,969,488호, 제6,172,218호 및 제6,306,597호에 기술되어 있다.
일부 실시 형태는 나노포어(nanopore) 시퀀싱을 사용할 수 있다(문헌[Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000)]; 문헌[Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002)]; 문헌[Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)]). 이러한 실시 형태에서, 인덱싱된 단편은 나노포어를 통과한다. 나노포어는 합성 포어 또는 생물학적 막 단백질, 예컨대, α-용혈소일 수 있다. 인덱싱된 단편이 나노포어를 통과함에 따라, 각각의 염기쌍은 포어의 전기전도도의 변동을 측정함으로써 식별될 수 있다(미국 특허 제7,001,792호; 문헌[Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007)]; 문헌[Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007)]; 문헌[Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)]). 나노포어 시퀀싱으로부터 얻어진 데이터는 본 명세서에 기재된 바와 같이 저장, 처리 및 분석될 수 있다. 특히, 데이터는 본 명세서에 언급된 광학 이미지 및 다른 이미지의 예시적인 처리에 따라 이미지으로서 처리될 수 있다.
일부 실시 형태는 DNA 폴리머라제 활성의 실시간 모니터링을 포함하는 방법을 사용할 수 있다. 뉴클레오티드 혼입은 예를 들어, 미국 특허 제7,329,492호 및 제7,211,414호에 기술된 바와 같이 형광단 보유 폴리머라제와 γ-포스페이트 표지화된 뉴클레오티드 간의 형광 공명 에너지 전달(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오티드 혼입은 예를 들어, 미국 특허 제7,315,019호에 기술된 바와 같은 제로-모드 도파관으로 그리고 예를 들어, 미국 특허 제7,405,281호 및 미국 특허 공개 제2008/0108082호에 기술된 바와 같은 형광 뉴클레오티드 유사체 및 조작된 폴리머라제를 사용하여 검출될 수 있다. 일루미네이션은 표면 테더링된 폴리머라제 주변의 젭토리터-스케일(zeptoliter-scale) 체적에 제한될 수 있어서, 형광 표지화된 뉴클레오티드의 혼입은 낮은 배경으로 관찰될 수 있다(문헌[Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003)]; 문헌[Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008)]; 문헌[Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)]). 이러한 방법으로부터 얻어진 이미지는 본 명세서에 기재된 바와 같이 저장, 처리 및 분석될 수 있다.
일부 SBS 실시 형태는 신장 산물 내로의 뉴클레오티드의 혼입 시 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 프로톤의 검출에 기초한 시퀀싱은 아이온 토렌트(Ion Torrent; 미국 코네티컷주 길포드 소재, 라이프 테크놀로지스(Life Technologies)의 자회사)로부터 시판되고 있는 전기적 검출기 및 관련 기술, 또는 미국 특허 출원 공개 제2009/0026082호; 제2009/0127589호; 제2010/0137143호; 및 제2010/0282617호에 기재된 시퀀싱 방법 및 시스템을 사용할 수 있다. 운동력학적 배제를 사용하여 표적 핵산을 증폭하기 위한 본 명세서에 제시된 방법은 양성자를 검출하는 데 사용되는 기재에 용이하게 적용될 수 있다. 보다 구체적으로, 본 명세서에 제시된 방법은 양성자를 검출하는 데 사용되는 앰플리콘의 클론 집단을 생성하는 데 사용될 수 있다.
상기 SBS 방법은 멀티플렉스 포맷으로 유리하게 수행되어 다수의 상이한 인덱싱된 단편이 동시에 조작될 수 있다. 특정 실시 형태에서, 상이한 인덱싱된 단편이 일반적인 반응 용기에서 또는 특정 기재의 표면 상에서 처리될 수 있다. 이것은 멀티플렉스 방식으로 시퀀싱 시약의 편리한 전달, 미반응 시약의 제거 및 혼입 이벤트의 검출을 가능하게 한다. 표면 결합된 표적 핵산을 사용한 실시 형태에서, 인덱싱된 단편은 어레이 포맷으로 존재할 수 있다. 어레이 포맷에서, 인덱싱된 단편은 전형적으로 공간적으로 구별가능한 방식으로 표면에 결합될 수 있다. 인덱싱된 단편은 직접 공유결합, 비드 또는 다른 입자에 대한 부착 또는 표면에 부착된 폴리머라제 또는 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 각각의 부위(특징부라고도 지칭됨)에서 인덱싱된 단편의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 다수의 카피가 각각의 부위 또는 특징부에 존재할 수 있다. 다수의 카피는 본 명세서에 더욱 상세하게 기술된 바와 같은 증폭 방법, 예컨대 브릿지 증폭 또는 에멀젼 PCR에 의해 생성될 수 있다.
본 명세서에 기재된 방법은 예를 들어, 적어도 약 10개의 특징부/㎠, 100개의 특징부/㎠, 500개의 특징부/㎠, 1,000개의 특징부/㎠, 5,000개의 특징부/㎠, 10,000개의 특징부/㎠, 50,000개의 특징부/㎠, 100,000개의 특징부/㎠, 1,000,000개의 특징부/㎠, 5,000,000개의 특징부/㎠ 또는 그 이상을 포함하는, 다양한 밀도들 중 임의의 밀도의 특징부를 갖는 어레이를 사용할 수 있다.
본 명세서에 언급된 방법의 이점은 이것이 동시에 복수의 ㎠의 신속하고 효율적인 검출을 제공한다는 것이다. 따라서, 본 발명은 본 명세서에 예시된 것과 같은 당업계에 공지된 기술을 사용하여 핵산을 제조 및 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 발명의 통합 시스템은 증폭 시약 및/또는 시퀀싱 시약을 하나 이상의 고정화 인덱싱된 단편으로 전달할 수 있는 유체 구성요소를 포함할 수 있으며, 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 구성요소를 포함한다. 플로우 셀은 표적 핵산의 검출을 위한 통합된 시스템으로 구성되고/되거나 사용될 수 있다. 예시적인 플로우 셀은 예를 들어, 미국 특허 공개 제2010/0111768호 및 미국 가특허 제13/273,666호에 기술되어 있다. 플로우 셀에 대해 예시된 바와 같이, 통합 시스템의 유체 구성요소 중 하나 이상이 증폭 방법 및 검출 방법에 사용될 수 있다. 핵산 시퀀싱 실시 형태를 예로 들면, 통합된 시스템의 하나 이상의 유체 구성요소가 본 명세서에 제시된 증폭 방법 및 상기 예시된 것과 같은 시퀀싱 방법에서의 시퀀싱 시약의 전달을 위해 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하기 위해 그리고 검출 방법을 수행하기 위해 별개의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고 또한 핵산의 서열을 결정할 수 있는 통합 시퀀싱 시스템의 예는, 제한 없이, MiSeqTM 플랫폼(미국 캘리포니아주 샌디에고 소재의 일루미나, 인코포레이티드) 및 미국 가특허 제13/273,666호에 기재된 장치를 포함한다.
희귀 이벤트의 검출
본 발명은 또한 희귀 이벤트를 식별 및/또는 특성화하는 방법을 제공한다. 현재, 농축되지 않은 집단에서의 희귀 이벤트를 특성화하는 방법은 비용이 많이 들고 도전적이다. 농축이 사용되는 경우, 선택은 전형적으로 세포의 표면 상의 단백질 또는 글리칸과 같은 식별가능한 분자의 크기, 형태 또는 존재와 같은 세포의 일부 생물학적 특징부에 기초한다. 이로 인해 식별될 수 있는 이벤트의 유형이 제한된다. 본 명세서에 제시된 방법은 희귀 이벤트의 존재를 식별하고/하거나 특성화하는 능력에 있어서 상당한 진보를 제공한다. 일반적으로, 본 발명은 수백만 개 또는 수십억 개의 세포의 라이브러리에 존재하는 희귀 단일 세포의 서브세트의 식별, 농축 및 시퀀싱 기반 특성화를 제공한다. 희귀 단일 세포의 식별은 어떤 세포가 추가의 분석에 사용될 수 있는지를 결정하기 위해 연구자가 사용할 수 있는 세포 데이터베이스를 작성하는 데 사용될 수 있다.
희귀 이벤트의 예에는 큰 세포 집단에서의 희귀 세포가 포함되지만 이로 한정되지 않는다. 희귀 세포의 유형에는 세포 부류, 종 유형, 및 질병 상태 또는 위험이 포함되지만 이로 한정되지 않는다. 희귀 세포 부류의 예에는 예를 들어, 게놈, 트랜스크립톰 또는 에피게놈의 변경을 갖는 개체로부터의 세포가 포함되지만 이로 한정되지 않는다. 희귀 종 유형의 예에는 원핵 세포, 진핵 세포 또는 진균 세포가 포함되지만 이로 한정되지 않는다. 질병 상태 또는 위험과 관련된 희귀 세포의 예에는 암 세포가 포함되지만 이로 한정되지 않는다.
희귀 이벤트는 전형적으로 희귀 이벤트와 상관관계가 있는 생물학적 특징부, 보통 뉴클레오티드 서열의 존재에 의해 식별된다. 일 실시형태에서, 생물학적 특징부는 단백질, 글리칸, 프로테오글리칸 또는 지질과 같은 생체 분자이다. 생체 분자는 생체 분자에 특이적으로 결합하는 항체와 같은 화합물에 부착된 핵산으로 태깅될 수 있다. 생물학적 특징부는 선험적으로(예를 들어, 방법이 실행되기 전에 알려져 있음, 미리 결정된 것으로도 지칭됨) 또는 새로이(예를 들어, 생물학적 특징부가 본 명세서에 기재된 표적화된 또는 포괄적인 시퀀싱 후에 식별됨) 공지될 수 있다.
게놈과 관련된 생물학적 특징부의 예는 유전자 재배열과 같은 면역세포의 변경을 포함하지만, 이에 한정되지 않는다. 트랜스크립톰과 관련된 생물학적 특징부의 예는 하나 이상의 특이적 유전자 또는 RNA 분자의 발현, 또는 특이적 단백질의 발현을 포함한다. 에피게놈과 관련된 생물학적 특징부의 예는 예를 들어, 메틸화 마크, 메틸화 패턴 및 접근가능한 DNA이지만 이에 한정되지 않는 에피제네틱 패턴, 또는 에피제네틱 변화와 상관관계가 있는 특이적 단백질의 발현을 포함한다. 희귀 종 유형과 상관관계가 있는 생물학적 특징부의 예는 16s rRNA 또는 rDNA, 18s rRNA 또는 rDNA, 및 내부 전사 스페이서 (ITS) rRNA/rDNA, 또는 희귀 종에 의한 특이적 단백질의 발현을 포함한다. 질병 상태 또는 위험과 관련된 생물학적 특징부의 예는 암과 같은 질환과 상관관계가 있는 RNA 및/또는 단백질의 변이체 DNA 서열 또는 발현 패턴을 갖는 생식계열세포 또는 체세포를 포함한다.
본 방법은 희귀 이벤트를 포함하는 시퀀싱 라이브러리의 구성원 - 개별 변형된 표적 핵산 - 을 식별하는 단계를 포함할 수 있다. 일 실시 형태에서, 본 방법은 희귀 이벤트를 포함하는 것으로 의심되는 시퀀싱 라이브러리의 조사를 포함할 수 있다. 시퀀싱 라이브러리를 조사하는 것은 전형적으로 라이브러리에 존재하는 두 가지 유형의 뉴클레오티드 영역의 서열을 결정하는 것을 포함한다: (i) 희귀 이벤트와 상관관계가 있는 생물학적 특징부 및 (ii) 라이브러리의 구성원에 존재하는 인덱스. 일 실시 형태에서, 하나 이상의 생물학적 특징부의 서열이 결정될 수 있다.
일 실시 형태에서, 생물학적 특징부의 뉴클레오티드 서열은 표적 시퀀싱에 의해 식별된다. 표적 시퀀싱을 위한 방법은 당업계에 공지되어 있으며, 시퀀싱을 위한 개시 부위로서 작용하는 위치 및 배향으로 생물학적 특징부 근처에 하이브리디제이션되는 프라이머의 사용을 포함할 수 있다. 예를 들어, 생물학적 특징부가 특정 단일 뉴클레오티드 다형(SNP)의 존재인 경우, SNP 부근의 뉴클레오티드에 특이적으로 어닐링할 프라이머를 설계할 수 있다. 다른 예에서, 생물학적 특징부가 단백질인 경우, 생체 분자에 특이적으로 결합된 화합물에 부착된 핵산의 뉴클레오티드에 특이적으로 어닐링할 프라이머가 설계될 수 있다. 결과는 당업자가 라이브러리의 어느 구성원들이 관심 생물학적 특징부를 포함하는지를 식별할 수 있게 하는 서열 데이터이다. 시퀀싱 라이브러리의 구성원 상에 존재하는 인덱스의 서열을 결정하는 것은 단일 세포 조합 인덱싱 방법의 일상적인 부분이다.
그 다음에, 생물학적 특징부의 표적 시퀀싱 및 인덱스 시퀀싱의 서열 데이터는 일상적인 생물정보학 방법을 사용하여 분석하고, 생물학적 특징부와 동일한 라이브러리 구성원에 존재하는 인덱스 서열의 조합을 식별한다. 생물학적 특징부와 인덱스 서열의 이러한 상관관계에 의해, 라이브러리의 구성원의 서브세트를 식별하게 되며, 여기서 각각의 구성원은 생물학적 특징부와 인덱스 서열의 고유한 그룹화, 및 세포 데이터베이스의 생성을 포함한다. 본 명세서에서 "마커 인덱스 서열"로도 지칭되는 인덱스 서열의 각각의 고유한 그룹화는 마찬가지로, 동일한 세포 또는 핵으로부터 유래된 라이브러리의 다른 구성원, 예를 들어 인덱싱된 관심 라이브러리에 존재한다. 일 실시 형태에서, 마커 인덱스 서열은 인접 인덱스, 즉, 각각의 인덱스 사이에 0, 1, 2, 3, 4개 또는 그 이상의 뉴클레오티드와 함께 일렬로 라이브러리 구성원 상에 존재하는 다수의 인덱스의 세트이다. 본 명세서에 기재된 바와 같이, 이러한 마커 인덱스 서열을 사용하여, 생물학적 특징부를 갖는 세포 또는 핵으로부터 유래된 라이브러리의 이들 구성원에 후속 시퀀싱 노력을 집중시켜, 비용을 감소시킬 수 있다.
본 방법은 생물학적 특징부를 갖는 세포 또는 핵으로부터 유래된 라이브러리의 이들 구성원의 표현을 증가시키도록 시퀀싱 라이브러리를 변경하는 단계를 추가로 포함할 수 있다. 변경은 농축(예를 들어, 원하는 마커 인덱스 서열을 포함하는 라이브러리의 희귀 구성원의 양성 선택) 또는 고갈(예를 들어, 원하는 마커 인덱스 서열을 포함하지 않는 라이브러리의 풍부한 구성원의 선택적 제거와 같은 음성 선택)을 포함할 수 있다.
농축 및 고갈은 마커 인덱스 서열을 사용하는 것을 포함할 수 있다. 농축 및 고갈 방법은 당업계에 공지되어 있으며, 마커 인덱스 서열 특이적 증폭(예를 들어, 어댑터 고정 PCR), 하이브리드 캡처 및 CRISPR (d)Cas9과 같은 하이브리디제이션 기반 방법을 포함하지만 이에 한정되지 않는다. 농축 및 고갈 방법은 원하는 마커 인덱스 서열에 특이적으로 하이브리디제이션되는 뉴클레오티드 서열의 사용으로부터 이익을 얻는다. 따라서, 농축 및 고갈은 인접 인덱스, 즉, 각각의 인덱스 사이에 0, 1, 2, 3, 4개 또는 그 이상의 뉴클레오티드와 함께 일렬로 라이브러리 구성원 상에 존재하는 다수의 인덱스의 세트를 포함하는 라이브러리에서 수행될 수 있다(도 5b 참조). 원하는 생물학적 특징부와 상관관계가 있는 인접 인덱스는 양성 선택되어 보유될 수 있으므로, 원하는 라이브러리 구성원의 농축을 가져온다. 대안적으로, 원하는 생물학적 특징부와 상관되지 않는 인접 인덱스는 선택되어 제거될 수 있으므로, 풍부한 세포와 상관관계가 있는 라이브러리 구성원이 고갈되고, 원하는 생물학적 특징부와 상관관계가 있는 라이브러리 구성원이 사실상 농축된다. 일 실시 형태에서, 농축은 표적 증폭과 커플링될 수 있다. 예를 들어, 시퀀싱 라이브러리의 구축 후에, 증폭 반응을 사용하여 관심 생물학적 특징부를 포함하는 라이브러리 구성원을 특이적으로 증폭할 수 있다. 일 실시 형태에서, 특이적 증폭은 생물학적 특징부를 갖는 뉴클레오티드 서열에 어닐링하도록 설계된 생물학적 특징부 특이적 프라이머 및 라이브러리의 모든 구성원의 일 측부에 어닐링되는 제2 프라이머를 사용하여 달성될 수 있다. 생물학적 특징부 특이적 프라이머는 이의 5' 말단에 하나 이상의 인덱스 및/또는 유니버셜 서열을 포함할 수 있다.
인접 인덱스의 총 길이는 프로브와 원하는 마커 인덱스 서열을 갖는 라이브러리의 구성원 사이의 특이적 하이브리디제이션에 필요한 프로브의 크기에 의존한다. 일부 실시 형태에서, 인접 인덱스(및 따라서 마커 인덱스 서열)의 총 길이는 40개 이상, 45개 이상, 50개 이상 또는 55개 이상의 뉴클레오티드, 및 80개 이하, 75개 이하, 70개 이하 또는 65개 이하의 뉴클레오티드이다. 일 실시 형태에서, 인접 인덱스의 총 길이는 60개의 뉴클레오티드이다.
농축 또는 고갈의 사용은 생물학적 특징부를 갖는 세포 또는 핵으로부터 유래된 라이브러리의 이들 구성원의 표현 증가를 포함하는 서브라이브러리를 생성한다. 서브라이브러리의 포괄적인 시퀀싱은 본 명세서에 기재된 것을 포함하여, 일상적인 방법을 사용하여 수행될 수 있다. 표현 증가는 포괄적인 시퀀싱이 상당히 적은 리소스를 필요로 할만큼 충분히 높아서, 비용 효과적이다. 서브라이브러리의 포괄적인 시퀀싱을 사용함으로써, 하나 이상의 추가의 이전에 알려지지 않은 생물학적 특징부를 식별할 수 있게 된다.
애플리케이션
본 발명에 의해 제공되는 방법은 전체 게놈, 트랜스크립톰, 에피게놈, 접근가능(예를 들어, ATAC) 및 구조적 상태(conformational state; 예를 들어, HiC)와 같은 시퀀싱 라이브러리 제조를 포함하는 본질적으로 임의의 애플리케이션에 용이하게 통합될 수 있다. 전체 게놈 또는 표적화 라이브러리의 구축에 사용될 수 있는 다수의 시퀀싱 라이브러리 방법이 당업자에게 공지되어 있다(예를 들어, genomics.umn.edu/downloads/sequencing-methods-review.pdf의 월드 와이드 웹에서 이용할 수 있는 Sequencing Methods Review 참조).
희귀 이벤트를 검출하는 것에 관한 실시 형태에서, 본 발명에 의해 제공되는 방법은 전체 게놈(예를 들어, sci-WGS-seq), 에피케놈(예를 들어, sci-MET-seq), 접근가능(예를 들어, sci-ATAC-seq), 트랜스크립톰(sci-RNA-seq) 및 구조적(sci-HiC-seq)을 포함하지만 이에 한정되지 않는 단일 세포 조합 인덱싱(sci) 방법과 함께 본질적으로 임의의 애플리케이션에 쉽게 통합될 수 있다. 일부 실시 형태에서, 애플리케이션은 가교결합에 의한 링크된 롱 리드(linked-long read) 방법에 의한 근접 라이게이션을 포함하는 구조적 단일 세포 조합 인덱싱의 사용을 포함한다. 일부 실시 형태에서, 애플리케이션은 샘플로부터의 2개 이상의 상이한 분석물 또는 정보를 동시에 평가하는 공동 분석(co-assay)이다. 분석물의 예에는 DNA, RNA 및 단백질(예를 들어, 표면 단백질)이 포함되지만 이로 한정되지 않는다. 예에는 전체 게놈 및 트랜스크립톰, 또는 ATAC 및 트랜스크립톰을 분석하는 분석이 포함되지만 이에 한정되지 않는다(Ma et al., 2020, bioRxiv, DOI: doi.org/10.1016/j.cell.2020.09.056).
일부 실시 형태에서, 애플리케이션은 환경 샘플로부터 직접 회수된 유전 물질의 연구인 메타게노믹스이다. 환경의 예에는 농업(예를 들어, 토양), 바이오연료(예를 들어, 바이오매스를 전환하는 미생물 군집), 생명공학(예를 들어, 생물학적 활성 화합물을 생성하는 미생물 군집) 및 장내 미생물총(예를 들어, 인체 또는 동물 마이크로바이옴에 존재하는 미생물 군집)과 관련된 분야에 존재하는 것들이 포함된다. 유전 물질은 진균 세포를 포함한 원핵 및/또는 진핵 미생물(단세포 및 다세포)에 존재할 수 있다. 본 명세서에 기재된 방법은 희귀 세포가 배양될 수 있는지 여부에 관계없이 희귀 세포를 식별하는데 사용될 수 있다. 메타게노믹스에서 희귀 이벤트를 식별하는 데 사용될 수 있는 생물학적 특징부에는 16s rRNA 또는 rDNA, 18s rRNA 또는 rDNA, 및 내부 전사 스페이서(ITS) rRNA/rDNA, 또는 미생물에 의해 암호화된 단백질이 포함되지만, 이에 한정되지 않는다. 식별 후에, 희귀 세포는 포괄적으로 시퀀싱될 수 있다.
일부 실시 형태에서, 애플리케이션은 질병 상태 또는 위험에 관한 것이다. 예를 들어, 질병 또는 질병 위험과 상관관계가 있는 단일 뉴클레오티드 다형(SNP) 및/또는 바이오마커이지만 이에 한정되지 않는 희귀 이벤트가 식별될 수 있으며, SNP 및/또는 바이오마커를 갖는 이러한 세포가 포괄적으로 시퀀싱된다. 예를 들어, 대상의 혈류에 있는 순환 세포의 액체 생검 또는 세포의 조직 생검은 질병 또는 질병 위험과 관련된 희귀 이벤트에 대해 분석될 수 있다. 분석될 수 있는 희귀 이벤트는 특정 암의 할당을 허용할 수 있는 체세포 드라이버 돌연변이를 포함하지만, 이에 한정되지 않는다. 관련 애플리케이션은 시간 간격에 따라 대상으로부터 샘플을 얻고, 암성인 세포 또는 핵을 선택한 다음에, 종양 세포의 서브세트를 포괄적으로 시퀀싱하여 종양의 진전을 완전히 특성화하고 추적하는 것이다.
일부 실시 형태에서, 애플리케이션은 면역 세포에 관한 것이다. 면역 세포는 외래 분자를 식별하는 후천성 면역체계의 능력과 관련된 특정 유전자 재배열을 겪는다. 유전자 재배열을 겪는 면역 세포의 예는 T 세포(예를 들어, T 세포 수용체의 재배열), 항원 제시 세포(예를 들어, 주요 조직적합성 복합체의 단백질을 암호화하는 유전자의 재배열) 및 B 세포(예를 들어, 항체를 암호화하는 유전자의 재배열)를 포함하지만, 이에 한정되지 않는다. 면역 세포의 변경과 관련된 생물학적 특징부는 특정 재배열, 또는 특정 재배열로 인한 단백질일 수 있지만, 이에 한정되지 않는다. T 세포 수용체 레퍼토리(repertoire) 특성화 및 진화를 포함하지만 이에 한정되지 않는 특정 변경을 갖는 면역 세포는 완전히 특성화되고 추적될 수 있다. 다른 실시 형태에서, 본 애플리케이션은 세포 분화에 관한 것이다. 예를 들어, 다양한 영역에서의 발현 레벨 및/또는 메틸화를 사용하여, 접근성과 발현 사이의 상관관계와 같은 분화 이벤트를 평가할 수 있다.
본 발명의 비제한적인 예시적인 실시 형태가 도 6에 도시되어 있다. 본 실시 형태에서, T 세포 수용체 레퍼토리의 식별 및 특성화를 위한 방법은 복수의 세포를 제공하는 단계(도 6, 블록 600) 및 세포의 서브세트를 복수의 컴파트먼트에 분배하는 단계(도 6, 블록 601)를 포함할 수 있다. 복수의 세포는 예를 들어, 혈액 샘플 또는 림프절 샘플로로부터 유래될 수 있다. 각각의 컴파트먼트의 세포에 존재하는 핵산은 인덱스의 삽입에 의해 변형되고(도 6, 블록 602), 이어서 세포는 풀링된다(도 6, 블록 603). 추가 인덱스는 서브세트의 분배(도 6, 블록 601), 인덱스 부가(도 6, 블록 602) 및 풀링(도 6, 블록 603)을 반복하는 "분할 및 풀" 단계에 의해 부가된다. 일 실시 형태에서, 각각의 인덱스는 라이브러리의 구성원의 동일한 측부에 부가되어 인접 인덱스를 생성한다(도 5b 참조). 임의로, 유니버셜 서열은 하나 이상의 인덱스와 함께 부가될 수 있다. 최종 인덱스의 부가 후에, 핵 또는 세포 내의 핵산의 라이브러리를 풀링하고(도 6, 블록 603), 추가로 처리하여 관심 생물학적 특징부, 예를 들어 미생물 또는 바이러스의 생체 분자에 결합할 수 있는 것과 같은 특정 뉴클레오티드 서열을 포함하는 T 세포 수용체의 식별을 허용하는 생물학적 특징부의 표적 시퀀싱 및 관심 생물학적 특징부와 관련된 인덱스의 시퀀싱을 준비할 수 있다(도 6, 블록 604). 서열 분석(도 6, 블록 605)은 마커 인덱스 서열, 즉, 인덱스 서열의 고유한 그룹화를 식별하는 데 사용된다. 식별된 마커 인덱스 서열은 (i) 생물학적 특징부와 상관관계가 있어 희귀 세포로부터 유래하는 라이브러리의 구성원을 식별하는 것 또는 (ii) 생물학적 특징부와 상관되지 않으므로 풍부한 세포로부터 유래하는 라이브러리의 구성원을 식별하는 것이다. 이러한 예시적인 실시 형태의 다음 단계는 라이브러리의 풍부한 구성원의 고갈을 설명하지만, 이 방법은 희귀 라이브러리 구성원의 농축을 포함하도록 본 명세서에 기재된 바와 같이 변경될 수 있다. 특정 올리고뉴클레오티드 또는 가이드 RNA 서열은 풍부한 세포로부터 유래하는 라이브러리의 구성원과 상관되는 마커 인덱스 서열과 하이브리디제이션되도록 설계된(도 6, 블록 606) 다음에, 예를 들어 하이브리디제이션 포획 또는 CRISPR 분해를 사용하여 풍부한 세포로부터 유래하는 구성원의 시퀀싱 라이브러리를 고갈시키는데(도 6, 607) 사용할 수 있다. 그 결과 생물학적 특징부를 갖는 세포로부터 유래하는 구성원의 표현 증가를 포함하는 변경된 라이브러리가 생성된다. 변경된 시퀀싱 라이브러리의 구성원은 포괄적인 시퀀싱이 행해질 수 있다(도 6, 블록 608). 대안적으로, 변경된 라이브러리는 라이브러리의 원하는 구성원의 표현이 특성화 기준을 충족시키기에 충분할 때까지 추가 라운드의 농축 및/또는 고갈이 행해질 수 있다. 예를 들어, 변경된 라이브러리의 구성원은 재차 시퀀싱될 수 있고, 마커 인덱스 서열은 식별될 수 있으며, 특정 올리고뉴클레오티드 또는 가이드 RNA 서열은 변경된 라이브러리를 고갈시키거나 농축시키기 위해 설계되어 사용될 수 있다.
일부 실시 형태에서, 애플리케이션은 인접 인덱스의 사용을 포함한다. 인접 인덱스를 사용하여 시퀀싱 라이브러리를 생성하기 위한 접근법의 비제한적인 예시적인 실시예가 도 7에 도시되어 있다. 세포 또는 핵의 서브세트의 분배 후에, 제1 컴파트먼트 특이적 인덱스(I1)가 예를 들어, 태그멘테이션에 의해 세포 또는 핵에 존재하는 DNA 분자(705)에 부가될 수 있다(도 7, 단계 701). 핵산의 주요 공급원이 RNA인 경우, 핵산은 태그멘테이션 전에 cDNA 합성과 같은 방법을 사용하여 DNA로 전환될 수 있다. 결과는 세포 또는 핵에 존재하는 변형된 핵산의 라이브러리이며, 여기서 각각의 변형된 핵산(706)은 각각의 말단에서 컴파트먼트 특이적 인덱스(I1)를 포함한다. 서브세트는 풀링될 수 있고, 얻어진 변형된 표적 핵산의 말단은 필요에 따라, 예를 들어 3' 충전에 의해 리페어될 수 있다. 일 실시 형태에서, 변형된 표적 핵산의 5' 말단은 인산화될 수 있다. 일 실시 형태에서, 제2 인덱스 부가의 다음 단계는 변형된 표적 핵산의 3' 말단에 돌출부, 예를 들어 G, C 또는 폴리-A 테일을 부가함으로써 촉진될 수 있다. 풀링된 세포 또는 핵은 예를 들어, 적절하게 변형된 3' 말단, 예를 들어 T-테일 3' 말단을 갖는 어댑터의 라이게이션에 의해 부가된 제2 세트의 컴파트먼트 및 제2 컴파트먼트 특이적 인덱스(I2)에 분배될 수 있다(도 7, 단계 702). 이는 변형된 핵산의 라이브러리를 포함하는 세포 또는 핵을 생성하며, 여기서 각각의 변형된 핵산(707)은 각각의 말단에 2개의 컴파트먼트 특이적 인덱스(I1, I2)를 포함한다. 변형된 표적 핵산의 말단은 예를 들어, 5' 인산화 및/또는 폴리-A 테일링 또는 G 또는 C의 3' 부가에 의한 3' 말단의 변형에 의해 다음 인덱스의 부가를 용이하게 하도록 변경될 수 있다. 다른 컴파트먼트 특이적 인덱스의 풀링 및 부가는 적절한 수의 인덱스를 부가하기 위해 원하는 대로 반복될 수 있다. 일 실시 형태에서, 유니버셜 서열을 갖는 어댑터는 최종 컴파트먼트 특이적 인덱스(I3)가 세포 또는 핵의 분배된 서브세트에 부가될 때 포함될 수 있다(도 7, 단계 703). 예를 들어, 미스매치된 어댑터가 각각의 말단에 첨가되어 변형된 핵산(708)을 생성할 수 있다. 유니버셜 서열의 예는 라이브러리 구성원을 어레이(P5 및 P7)에 고정화하는 데 사용되는 것들을 포함한다. 미스매치된 어댑터는 또한 시퀀싱에 유용한 유니버셜 서열을 포함할 수 있거나, 일부 실시 형태에서, 변형된 핵산(708)이 증폭될 수 있고(도 7, 단계 704), 시퀀싱에 유용한 유니버셜 서열(i5, i7)이 부가되어 변형된 핵산(709)을 생성한다. 변형된 핵산(709)은 후속 농축 및/또는 고갈에 유용한 생물학적 특징부와 상관관계가 있는 마커 인덱스 서열을 식별하기 위해 표적 시퀀싱에 사용될 수 있다.
표적 증폭을 이용한 커플링 농축의 비제한적인 예시적인 실시 형태가 도 8에 도시되어 있다. 이러한 실시 형태에서, 단일 세포 조합 라이브러리가 생성되고(예를 들어, 도 3, 블록 35; 도 4, 블록 47; 6, 블록 605), 얻어진 변형된 핵산(예를 들어, 도 7, 변형된 핵산(709))은 관심 생물학적 특징부를 포함하는 라이브러리 구성원을 특이적으로 증폭시키는 증폭 반응을 거친다. 인접 인덱스를 갖는 변형된 핵산(802)은 2개의 도메인, 즉, 생물학적 특징부를 갖는 뉴클레오티드 서열에 어닐링하도록 설계된 3' 도메인 및 하나 이상의 유니버셜 서열 또는 이의 상보체, 예를 들어 i7 및 P7을 갖는 5' 도메인을 포함할 수 있는 프라이머(803)와 접촉된다. 증폭 반응은 라이브러리의 모든 구성원의 한 측부에 어닐링하는 제2 프라이머(804)를 포함한다. 증폭(801)은 한쪽 말단에 컴파트먼트 특이적 인덱스(I1-3)을 갖고 다른 말단에 생물학적 특징부를 표적으로 하는 2-도메인 프라이머가 부가된 유니버셜 서열을 갖는 변형된 핵산(805)를 생성한다. 증폭된 변형된 표적 핵산은 표적 시퀀싱 및 관심 생물학적 특징부와 상관관계가 있는 마커 인덱스 서열을 식별하기 위한 시퀀싱에 사용될 수 있다.
또한, 키트가 본 명세서에 제공된다. 일 실시 형태에서, 키트는 시퀀싱 라이브러리를 제조하기 위한 것이다. 일 실시 형태에서, 키트는 유니버셜 서열이 표적 핵산에 삽입될 수 있도록 트랜스포존 인식 부위가 있는 트랜스포좀 복합체를 포함한다. 다른 실시 형태에서, 키트는 2개의 유니버셜 서열이 표적 핵산에 삽입될 수 있도록 각각의 복합체가 상이한 유니버셜 서열을 갖는 트랜스포존 인식 부위를 포함하는 2개의 트랜스포좀 복합체를 포함한다. 다른 실시 형태에서, 키트는 적어도 1, 2 또는 3개의 인덱스를 핵산에 부가하는 구성요소를 포함한다. 키트는 또한 시퀀싱 라이브러리를 생성하는 데 유용한 다른 구성요소를 포함할 수 있다. 예를 들어, 키트는 인덱스를 포함하도록 DNA 분자를 처리하기 위한 라이게이션, 프라이머 신장 또는 증폭을 매개하는 적어도 하나의 효소를 포함할 수 있다. 키트는 인덱스 서열을 갖는 핵산을 포함할 수 있다.
키트의 구성요소는 일반적으로 1회 이상의 분석 또는 사용에 충분한 양으로 적절한 패키징 재료에 들어 있다. 임의로, 완충액 및 용액과 같은 다른 구성요소가 포함될 수 있다. 패키징된 구성요소의 사용설명서가 또한 일반적으로 포함된다. 본 명세서에 사용되는 어구 "패키징 재료"는 키트의 내용물을 수용하는데 사용되는 하나 이상의 물리적 구조체를 지칭한다. 패키징 재료는 일반적으로 멸균 상태의 오염물질이 없는 환경을 제공하도록 통상적인 방법에 의해 구성된다. 패키징 재료에는 구성요소가 시퀀싱 라이브러리를 생성하는 데 사용될 수 있음을 나타내는 표지가 있을 수 있다. 또한, 패키징 재료는 키트 내의 재료가 어떻게 사용되는지를 나타내는 설명서를 포함한다. 본 명세서에 사용되는 용어 "패키지"는 키트의 구성요소를 정해진 한계 내에 유지할 수 있는 유리, 플라스틱, 종이, 포일 등과 같은 용기를 지칭한다. "사용설명서"는 전형적으로 시약 농도, 또는 혼합할 시약과 샘플의 상대적인 양, 시약/샘플 혼합물의 보유 기간, 온도, 완충액 조건 등과 같은 적어도 하나의 분석 방법 파라미터를 설명하는 유형적 표현 어구를 포함한다.
조성물
시퀀싱 라이브러리의 생성 동안 또는 그 후에, 다수의 분자 및 조성물이 생성될 수 있다. 예를 들어, 생성될 수 있는 분자 또는 조성물은 인접 인덱스에 의해 한 측부 또는 양측부에 플랭킹된 변형된 표적 핵산을 포함한다. 인접 인덱스는 1, 2, 3, 4, 5, 6개 또는 그 이상의 인덱스를 일렬로 포함할 수 있으며, 여기서 각각의 인덱스는 1, 2, 3, 4개 또는 그 이상의 뉴클레오티드에 의해 다른 것으로부터 분리된다. 일부 실시 형태에서, 인접 인덱스의 총 길이는 40개 이상, 45개 이상, 50개 이상 또는 55개 이상의 뉴클레오티드, 및 80개 이하, 75개 이하, 70개 이하 또는 65개 이하의 뉴클레오티드이다. 복수의 이러한 변형된 표적 핵산을 포함하는 라이브러리 또는 조성물이 생성될 수 있다. 풀링된 라이브러리 및 이러한 폴리뉴클레오티드의 풀링된 라이브러리를 포함하는 조성물이 생성될 수 있다.
예시적인 실시 형태
실시 형태 1. 생물학적 특징부(biological feature)를 포함하는 세포 아집단을 식별하는 방법으로서,
(a) 단일 세포 시퀀싱 라이브러리를 제공하는 단계
- 상기 시퀀싱 라이브러리는 복수의 변형된 표적 핵산을 포함하고,
상기 변형된 표적 핵산은 적어도 하나의 인덱스 서열을 포함함 -;
(b) 표적 시퀀싱에 의해 상기 시퀀싱 라이브러리를 조사하여, 생물학적 특징부와 동일한 변형된 표적 핵산 상에 존재하는 인덱스 서열을 식별하는 단계
- 상기 생물학적 특징부와 관련된 인덱스 서열은 마커 인덱스 서열임 -;
(c) 상기 시퀀싱 라이브러리를 변경하여, 서브라이브러리를 얻는 단계
- 상기 서브라이브러리는 마커 인덱스 서열을 포함하지 않는 상기 시퀀싱 라이브러리에 존재하는 다른 변형된 표적 핵산과 비교하여, 상기 마커 인덱스 서열을 포함하는 상기 변형된 표적 핵산의 표현 증가를 포함함 -; 및
(d) 마커 인덱스 서열을 포함하는 상기 변형된 표적 핵산의 뉴클레오티드 서열을 결정하는 단계를 포함하는 방법.
실시 형태 2. 상기 단일 세포 시퀀싱 라이브러리가 다수의 샘플로부터의 핵산을 포함하는, 실시 형태 1의 방법.
실시 형태 3. 상기 다수의 샘플이 (i) 상이한 유기체로부터 얻어진 동일한 조직의 샘플, (ii) 하나의 유기체로부터의 상이한 조직의 샘플 또는 (iii) 상이한 유기체로부터의 상이한 조직의 샘플을 포함하는, 실시 형태 1 또는 실시 형태 2의 방법.
실시 형태 4. 2개 이상의 마커 인덱스 서열이 단계 (b)에서 식별되는, 실시 형태 1 내지 실시 형태 3 중 어느 하나의 방법.
실시 형태 5. 상기 단일 세포 조합 시퀀싱 라이브러리가 세포 또는 핵의 전체 게놈 또는 게놈의 서브세트를 나타내는 표적 핵산을 포함하는, 실시 형태 1 내지 실시 형태 4 중 어느 하나의 방법.
실시 형태 6. 상기 게놈의 서브세트가 세포 또는 핵의 트랜스크립톰, 접근가능한 염색질, DNA, 구조적 상태 또는 단백질을 나타내는 표적 핵산을 포함하는, 실시 형태 1 내지 실시 형태 5 중 어느 하나의 방법.
실시 형태 7. 상기 변경이 마커 인덱스 서열을 포함하는 변형된 표적 핵산의 농축을 포함하는, 실시 형태 1 내지 실시 형태 6 중 어느 하나의 방법.
실시 형태 8. 상기 농축이 하이브리디제이션 기반 방법을 포함하는, 실시 형태 1 내지 실시 형태 7 중 어느 하나의 방법.
실시 형태 9. 상기 하이브리디제이션 기반 방법이 하이브리드 캡처, 증폭 또는 CRISPR (d)Cas9을 포함하는, 실시 형태 1 내지 실시 형태 8 중 어느 하나의 방법.
실시 형태 10. 상기 변경이 마커 인덱스 서열을 포함하지 않는 변형된 표적 핵산의 고갈을 포함하는, 실시 형태 1 내지 실시 형태 9 중 어느 하나의 방법.
실시 형태 11. 상기 고갈이 하이브리디제이션 기반 방법을 포함하는, 실시 형태 1 내지 실시 형태 10 중 어느 하나의 방법.
실시 형태 12. 상기 하이브리디제이션 기반 방법이 하이브리드 캡처, 증폭 또는 CRISPR (d)Cas9을 포함하는, 실시 형태 1 내지 실시 형태 11 중 어느 하나의 방법.
실시 형태 13. 상기 생물학적 특징부가 종 유형을 나타내는 뉴클레오티드 서열을 포함하는, 실시 형태 1 내지 12 중 어느 하나의 방법.
실시 형태 14. 상기 종 유형이 세포의 종을 포함하는, 실시 형태 1 내지 실시 형태 13 중 어느 하나의 방법.
실시 형태 15. 상기 생물학적 특징부가 16s 서브유닛, 18s 서브유닛 또는 ITS 비전사 영역의 뉴클레오티드를 포함하는, 실시 형태 1 내지 실시 형태 14 중 어느 하나의 방법.
실시 형태 16. 상기 생물학적 특징부가 세포 부류를 나타내는 뉴클레오티드 서열을 포함하는, 실시 형태 1 내지 실시 형태 15 중 어느 하나의 방법.
실시 형태 17. 상기 세포 부류가 발현 패턴, 에피제네틱 패턴, 면역 유전자 재조합 또는 이들의 조합을 포함하는, 실시 형태 1 내지 실시 형태 16 중 어느 하나의 방법.
실시 형태 18. 상기 에피제네틱 패턴이 메틸화 마크, 메틸화 패턴, 접근가능한 DNA 또는 이들의 조합을 포함하는, 실시 형태 1 내지 실시 형태 17 중 어느 하나의 방법.
실시 형태 19. 상기 생물학적 특징부가 질병 상태 또는 위험을 나타내는 뉴클레오티드 서열을 포함하는, 실시 형태 1 내지 실시 형태 18 중 어느 하나의 방법.
실시 형태 20. 상기 질병 상태 또는 위험이 질병과 상관관계가 있는 변이체 DNA 서열, 변이체 발현 패턴 또는 변이체 에피제네틱 패턴을 포함하는, 실시 형태 1 내지 실시 형태 19 중 어느 하나의 방법.
실시 형태 21. 상기 변이체 DNA 서열이 적어도 하나의 단일 뉴클레오티드 다형(polymorphism)을 포함하는 실시 형태 1 내지 실시 형태 20 중 어느 하나의 방법.
실시 형태 22. 상기 변이체 발현 패턴이 바이오마커의 발현을 포함하는, 실시 형태 1 내지 실시 형태 21 중 어느 하나의 방법.
실시 형태 23. 상기 변이체 에피제네틱 패턴이 메틸화 마크, 메틸화 패턴을 포함하는, 실시 형태 1 내지 실시 형태 22 중 어느 하나의 방법.
실시 형태 24. 상기 변형된 표적 핵산이 2개 이상의 컴파트먼트 특이적 인덱스 서열의 인접 인덱스를 포함하며, 2개의 인덱스 서열 사이에 6개 이하의 뉴클레오티드가 존재하는, 실시 형태 1 내지 실시 형태 23 중 어느 하나의 방법.
실시 형태 25. 상기 인접 인덱스가 변형된 표적 핵산의 각 말단에 존재하는, 실시 형태 1 내지 실시 형태 24 중 어느 하나의 방법.
실시 형태 26. 상기 인접 인덱스의 길이가 55개 이상의 뉴클레오티드인, 실시 형태 1 내지 실시 형태 25 중 어느 하나의 방법.
실시 형태 27. 상기 인접 인덱스의 하나의 카피가 변형된 표적 핵산 상에 존재하는, 실시 형태 1 내지 실시 형태 26 중 어느 하나의 방법.
실시 형태 28. 상기 인접 인덱스의 2개의 카피가 변형된 표적 핵산 상에 존재하는, 실시 형태 1 내지 실시 형태 27 중 어느 하나의 방법.
실시 형태 29. 상기 시퀀싱 라이브러리의 복수의 변형된 표적 핵산이 100,000개 이상의 상이한 세포 또는 핵을 나타내는, 실시 형태 1 내지 실시 형태 28 중 어느 하나의 방법.
실시 형태 30. 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계가,
샘플을 처리하여 라이브러리를 생성하는 단계 - 상기 샘플은 유기체로부터 얻어진 메타게놈 샘플임 -를 포함하는, 실시 형태 1 내지 실시 형태 29 중 어느 하나의 방법.
실시 형태 31. 상기 유기체가 포유동물인, 실시 형태 1 내지 실시 형태 30 중 어느 하나의 방법.
실시 형태 32. 상기 메타게놈 샘플이 공생 또는 병원성 미생물을 포함하는 것으로 의심되는 조직을 포함하는, 실시 형태 1 내지 실시 형태 31 중 어느 하나의 방법.
실시 형태 33. 상기 미생물이 원핵생물 또는 진핵생물인, 실시 형태 1 내지 실시 형태 32 중 어느 하나의 방법.
실시 형태 34. 상기 메타게놈 샘플이 마이크로바이옴 샘플을 포함하는, 실시 형태 1 내지 실시 형태 33 중 어느 하나의 방법.
실시 형태 35. 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계가,
샘플을 처리하여 라이브러리를 생성하는 단계 - 상기 샘플은 유기체로부터 유래됨 -를 포함하는, 실시 형태 1 내지 실시 형태 34 중 어느 하나의 방법.
실시 형태 36. 상기 유기체가 포유동물인, 실시 형태 1 내지 실시 형태 35 중 어느 하나의 방법.
실시 형태 37. 상기 샘플로부터의 핵산의 주요 공급원이 RNA를 포함하는, 실시 형태 1 내지 실시 형태 36 중 어느 하나의 방법.
실시 형태 38. 상기 RNA가 mRNA를 포함하는, 실시 형태 1 내지 실시 형태 37 중 어느 하나의 방법.
실시 형태 39. 상기 샘플로부터의 핵산의 주요 공급원이 DNA를 포함하는, 실시 형태 1 내지 실시 형태 38 중 어느 하나의 방법.
실시 형태 40. 상기 DNA가 전체 세포 게놈 DNA를 포함하는, 실시 형태 1 내지 실시 형태 39 중 어느 하나의 방법.
실시 형태 41. 상기 전체 세포 게놈 DNA가 뉴클레오솜을 포함하는, 실시 형태 1 내지 실시 형태 40 중 어느 하나의 방법.
실시 형태 42. 상기 샘플로부터의 핵산의 주요 공급원이 무세포 DNA를 포함하는, 실시 형태 1 내지 실시 형태 41 중 어느 하나의 방법.
실시 형태 43. 상기 샘플이 암세포를 포함하는, 실시 형태 1 내지 실시 형태 42 중 어느 하나의 방법.
실시 형태 44. 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계가 단일 핵 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 및 트랜스포존 접근가능한 염색질 시퀀싱, 단일 핵의 전체 게놈 시퀀싱, 트랜스포존 접근가능한 염색질의 단일 핵 시퀀싱, 단일 세포 에피토프 시퀀싱, sci-HiC 및 sci-MET로부터 선택되는 단일 세포 조합 인덱싱 방법을 사용하여 라이브러리를 생성하는 단계를 포함하는, 실시 형태 1 내지 실시 형태 43 중 어느 하나의 방법.
실시 형태 45. 상기 제공하는 단계가 각각의 세포 또는 핵으로부터의 2개의 상이한 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계를 포함하는, 실시 형태 1 내지 실시 형태 44 중 어느 하나의 방법.
실시 형태 46. 상기 2개의 상이한 단일 세포 조합 시퀀싱 라이브러리가 단일 핵 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 및 트랜스포존 접근가능한 염색질 시퀀싱, 단일 핵의 전체 게놈 시퀀싱, 트랜스포존 접근가능한 염색질의 단일 핵 시퀀싱, sci-HiC 및 sci-MET로부터 선택되는 단일 세포 조합 인덱싱 방법으로부터 선택되는, 실시 형태 1 내지 실시 형태 45 중 어느 하나의 방법.
실시 형태 47. 핵산에 대한 뉴클레오티드 서열을 결정하기 위해 시퀀싱 절차를 수행하는 단계를 추가로 포함하는, 실시 형태 1 내지 실시 형태 46 중 어느 하나의 방법.
실시 형태 48. 복수의 단일 핵 또는 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
(a) 복수의 핵 또는 세포를 제공하는 단계 - 상기 핵 또는 세포는 뉴클레오솜을 포함함 -;
(b) 복수의 핵 또는 세포를 트랜스포사제 및 유니버셜 서열을 포함하는 트랜스포좀 복합체와 접촉시키는 단계 - 상기 접촉은 상기 유니버셜 서열을 DNA 핵산에 혼입시켜, 상기 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함함 -;
(d) 복수의 핵 또는 세포를 제1 복수의 컴파트먼트에 분배하는 단계
- 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
(e) 핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 인덱싱된 핵 또는 세포를 생성하는 단계
- 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제1 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하는 것을 포함하고,
상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
(g) 상기 인덱싱된 핵 또는 세포를 배합하여, 풀링된 인덱싱된 핵 또는 세포를 생성하는 단계를 포함하는, 방법.
실시 형태 49. 상기 제공하는 단계가 복수의 컴파트먼트에 복수의 핵 또는 세포를 제공하는 것을 포함하며, 각각의 컴파트먼트가 핵 또는 세포의 서브세트를 포함하고, 상기 접촉시키는 단계가 각각의 컴파트먼트를 상기 트랜스포좀 복합체와 접촉시키는 것을 포함하며, 상기 방법은 접촉 후에 핵 또는 세포를 배합하여, 풀링된 핵 또는 세포를 생성하는 단계를 추가로 포함하는, 실시 형태 48의 방법.
실시 형태 50. 상기 제공하는 단계가 상기 핵에 화학적 처리를 행하여, 단리된 핵의 완전성을 유지하면서 뉴클레오솜 고갈된 핵을 생성하는 단계를 포함하는, 실시 형태 48 또는 실시 형태 49의 방법.
실시 형태 51.
상기 인덱싱된 핵 또는 세포를 포함하는 풀링된 인덱싱된 핵 또는 세포를 제2 복수의 컴파트먼트에 분배하는 단계
- 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 듀얼 인덱싱된 핵 또는 세포를 생성하는 단계 -
상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제2 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 듀얼 인덱싱된 핵산을 생성하는 것을 포함하고,
상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
상기 듀얼 인덱싱된 핵 또는 세포를 배합하여, 풀링된 듀얼 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 50 중 어느 하나의 방법.
실시 형태 52.
상기 듀얼 인덱싱된 핵 또는 세포를 포함하는 풀링된 핵 또는 세포를 제3 복수의 컴파트먼트에 분배하는 단계
- 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 트리플 인덱싱된 핵 또는 세포를 생성하는 단계
- 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제3 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 트리플 인덱싱된 핵산을 생성하는 것을 포함하고,
상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
상기 트리플 인덱싱된 핵 또는 세포를 배합하여, 풀링된 트리플 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 51 중 어느 하나의 방법.
실시 형태 53. 상기 분배 단계는 희석을 포함하는, 실시 형태 48 내지 실시 형태 52 중 어느 하나의 방법.
실시 형태 54. 상기 컴파트먼트가 웰, 마이크로유체 컴파트먼트 또는 소적을 포함하는, 실시 형태 48 내지 실시 형태 53 중 어느 하나의 방법.
실시 형태 55. 상기 제1 복수의 컴파트먼트의 컴파트먼트가 50 내지 100,000,000개의 핵 또는 세포를 포함하는, 실시 형태 48 내지 실시 형태 54 중 어느 하나의 방법.
실시 형태 56. 상기 제2 복수의 컴파트먼트의 컴파트먼트가 50 내지 100,000,000개의 핵 또는 세포를 포함하는, 실시 형태 48 내지 실시 형태 55 중 어느 하나의 방법.
실시 형태 57. 상기 제3 복수의 컴파트먼트의 컴파트먼트가 50 내지 100,000,000개의 핵 또는 세포를 포함하는, 실시 형태 48 내지 실시 형태 56 중 어느 하나의 방법.
실시 형태 58. 상기 접촉이 각각의 서브세트를 2개의 트랜스포좀 복합체와 접촉시키는 것을 포함하며, 여기서 하나의 트랜스포좀 복합체는 제1 유니버셜 서열을 포함하는 제1 트랜스포사제를 포함하고, 다른 트랜스포좀 복합체는 제2 유니버셜 서열을 포함하는 제2 트랜스포사제를 포함하며, 상기 접촉은 제1 유니버셜 서열 및 제2 유니버셜 서열을 DNA 핵산에 혼입시켜, 제1 및 제2 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함하는, 실시 형태 48 내지 실시 형태 57 중 어느 하나의 방법.
실시 형태 59. 상기 컴파트먼트 특이적 인덱스 서열을 부가하는 단계가 유니버셜 서열을 포함하는 뉴클레오티드 서열을 상기 핵산에 부가한 다음에, 상기 컴파트먼트 특이적 인덱스 서열을 상기 핵산에 부가하는 2단계 과정을 포함하는, 실시 형태 48 내지 실시 형태 58 중 어느 하나의 방법.
실시 형태 60. 상기 풀링된 인덱싱된 핵 또는 세포로부터 상기 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 59 중 어느 하나의 방법.
실시 형태 61. 상기 풀링된 듀얼 인덱싱된 핵 또는 세포로부터 상기 듀얼 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 60 중 어느 하나의 방법.
실시 형태 62. 상기 풀링된 트리플 인덱싱된 핵 또는 세포로부터 상기 트리플 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 61 중 어느 하나의 방법.
실시 형태 63.
복수의 증폭 부위를 포함하는 표면을 제공하는 단계
- 상기 증폭 부위는 유리 3' 말단을 갖는 부착된 단일 가닥 포획 올리고뉴클레오티드의 적어도 2개의 집단을 포함함 -, 및
복수의 인덱스를 포함하는 개별 단편으로부터의 앰플리콘의 클론 집단을 각각 포함하는 복수의 증폭 부위를 생성하기에 적합한 조건 하에 상기 증폭 부위를 포함하는 표면을 1, 2 또는 3개의 인덱스 서열을 포함하는 핵산 단편과 접촉시키는 단계를 추가로 포함하는, 실시 형태 48 내지 실시 형태 62 중 어느 하나의 방법.
실시 형태 64.
(a) 복수의 샘플을 제공하는 단계 - 각각의 샘플은 복수의 세포 또는 핵을 포함하고, 각각의 샘플의 복수의 세포 또는 핵은 하나 이상의 개별 컴파트먼트에 존재함 -;
(b) 상기 복수의 핵 또는 세포를 트랜스포사제 및 유니버셜 서열을 포함하는 트랜스포좀 복합체와 접촉시키는 단계 - 단, 상기 트랜스포좀 복합체는 인덱스 서열을 포함하지 않고, 상기 접촉은 상기 유니버셜 서열을 핵산에 혼입시키기에 적합한 조건을 추가로 포함함 -;
(c) 제1 인덱스 서열을 각각의 개별 컴파트먼트의 핵산에 부가하는 단계;
(d) 상기 개별 컴파트먼트의 세포 또는 핵을 배합하는 단계;
(e) 상기 세포 또는 핵을 복수의 컴파트먼트에 분배하는 단계; 및
(f) 제2 인덱스 서열을 상기 복수의 컴파트먼트의 핵산에 부가하는 단계를 포함하는, 핵산 라이브러리의 제조 방법.
실시 형태 65. 상기 제1 인덱스 서열, 상기 제2 인덱스 서열 또는 이들의 조합이 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합에 의해 부가되는, 실시 형태 64의 방법.
실시 형태 66. 단계 (d) 내지 단계 (e)가 제3 또는 그 이상의 인덱스 서열을 상기 복수의 컴파트먼트의 세포 또는 핵에 부가하기 위해 반복되는, 실시 형태 64 또는 실시 형태 65의 방법.
실시 형태 67. 상기 복수의 핵 또는 세포가 고정되는, 실시 형태 64 내지 실시 형태 66 중 어느 하나의 방법.
실시 형태 68. 단계 (c) 또는 단계 (f) 후에 인덱싱된 핵산을 증폭하는 단계를 추가로 포함하는, 실시 형태 64 내지 실시 형태 67 중 어느 하나의 방법.
실시 형태 69. 상기 복수의 컴파트먼트의 핵산을 배합하여, 핵산의 서열을 결정하는 단계 (g)를 추가로 포함하는, 실시 형태 64 내지 실시 형태 68 중 어느 하나의 방법.
실시 형태 70. 핵산에 대한 뉴클레오티드 서열을 결정하기 위해 시퀀싱 절차를 수행하는 단계를 추가로 포함하는, 실시 형태 64 내지 실시 형태 69 중 어느 하나의 방법.
실시 형태 71. 단일 세포 또는 핵을 시퀀싱하는 방법으로서,
(a) 샘플 내의 각각의 세포 또는 핵의 핵산을 고유하게 인덱싱하여, 각각의 세포 또는 핵에 대한 인덱싱된 라이브러리를 생성하는 단계;
(b) 생물학적 특징부를 사용하여, 단계 (a)의 관심 대상인 하나 이상의 인덱싱된 라이브러리를 식별하는 단계;
(c) 단계 (b)의 관심 대상인 인덱싱된 라이브러리를 농축시켜, 농축된 라이브러리를 생성하는 단계; 및
(d) 단계 (c)의 농축된 라이브러리를 시퀀싱하는 단계를 포함하는, 방법.
실시 형태 72. 상기 라이브러리가 세포 또는 핵의 DNA, RNA 또는 단백질로부터 유래되는, 실시 형태 71의 방법.
실시 형태 73. 상기 생물학적 특징부가 DNA, RNA 또는 단백질, 또는 이들의 조합인, 실시 형태 64 내지 72 중 어느 하나의 방법.
실시 형태 74. 단계 (a)의 고유하게 인덱싱하는 단계가 적어도 2개의 상이한 인덱스를 세포 또는 핵의 핵산과 회합시키는 단계를 포함하는, 실시 형태 64 내지 실시 형태 73 중 어느 하나의 방법.
실시 형태 75. 상기 적어도 2개의 상이한 인덱스가 인접 인덱스인, 실시 형태 64 내지 실시 형태 74 중 어느 하나의 방법.
실시 형태 76. 상기 농축된 라이브러리가 양성 농축을 통해 생성되는, 실시 형태 64 내지 실시 형태 75 중 어느 하나의 방법.
실시 형태 77. 상기 양성 농축이 증폭을 포함하는, 실시 형태 64 내지 실시 형태 76 중 어느 하나의 방법.
실시 형태 78. 상기 양성 농축이 포획제를 포함하는, 실시 형태 64 내지 실시 형태 77 중 어느 하나의 방법.
실시 형태 79. 상기 양성 농축이 고상 지지체를 포함하는, 실시 형태 64 내지 실시 형태 78 중 어느 하나의 방법.
실시 형태 80. 상기 농축된 라이브러리가 음성 농축을 통해 생성되는, 실시 형태 64 내지 실시 형태 79 중 어느 하나의 방법.
실시 형태 81. 단계 (c)의 관심 대상인 상기 인덱싱된 라이브러리를 식별하는 단계가 상기 인덱스를 시퀀싱하는 단계를 포함하는, 실시 형태 64 내지 실시 형태 80 중 어느 하나의 방법.
실시 형태 82. 단일 세포 또는 핵을 시퀀싱하는 방법으로서, (a) 복수의 핵 또는 세포를 포함하는 샘플을 제공하는 단계;
(b) 상기 샘플 내의 각각의 핵 또는 세포 상에서 제1 인덱스를 회합하는 단계;
(c) 상기 샘플을 복수의 컴파트먼트로 분할하는 단계;
(d) 상기 복수의 컴파트먼트의 각각의 핵 또는 세포 상에서 제2 인덱스를 회합하는 단계;
(e) 상기 복수의 컴파트먼트를 풀링하는 단계;
(f) 풀링된 컴파트먼트를 시퀀싱하는 단계;
(g) 생물학적 특징부와 관련된 제1 및 제2 인덱스의 조합을 식별하는 단계; 및
(h) 단계 (g)로부터의 제1 및 제2 인덱스의 식별된 조합을 사용하여, 풀링된 컴파트먼트로부터 생물학적 특징부를 농축하는 단계를 포함하는, 방법.
실시 형태 83.
(a) 각각, 트랜스포사제 및 인덱스되지 않은 트랜스포존 서열을 포함하는 복수의 트랜스포좀 복합체;
(b) 적어도 2개의 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제1 복수의 인덱스 올리고뉴클레오티드; 및
(c) 상기 인덱스 올리고뉴클레오티드와 함께 사용하기 위한 리가제 효소를 포함하는 키트.
실시 형태 84. 상기 제1 복수의 인덱스 올리고뉴클레오티드와는 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제2 복수의 인덱스 올리고뉴클레오티드를 추가로 포함하는, 실시 형태 83의 키트.
실시 형태 85. 상기 제1 복수의 인덱스 올리고뉴클레오티드 및 상기 제2 복수의 인덱스 올리고뉴클레오티드와는 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제3 복수의 인덱스 올리고뉴클레오티드를 추가로 포함하는, 실시 형태 83 또는 실시 형태 84의 키트.
실시예
본 발명은 하기 실시예에 의해 예시된다. 특정 실시예, 재료, 양 및 절차는 본 명세서에 기재된 바와 같은 본 발명의 범위 및 사상에 따라 광범위하게 해석되어야 한다는 것을 이해해야 한다.
실시예 1
발달 중의 염색질 접근성의 인간세포지도
요약
인간 게놈의 염색질 랜드스케이프(landscape)는 유전자 발현의 세포 유형 특이적 프로그램을 형상화한다. 본 발명자들은 3레벨(three-level) 조합 인덱싱(sci-ATAC-seq3)에 기초한 염색질 접근성의 단일 세포 프로파일링에 대한 개선된 분석법을 개발하고, 이를 15개의 기관을 나타내는 59개의 태아 샘플에 적용하였으며, 결국 100만개 정도의 단일 세포를 프로파일링하였다. 본 발명자들은 동일한 기관에서 유전자 발현에 의해 정의된 세포 유형을 이용하여 이러한 데이터에 주석을 달고, 수십만 개의 세포 유형 특이적 DNA 조절 요소의 카탈로그를 구축하고, 계통 특이적인 전사 인자의 특성 및 복잡한 형질 유전성의 세포 유형 특이적 농축을 조사한다. 발달 중의 유전자 발현의 부수적인 인간세포지도와 함께, 이들 데이터는 인간 생물학의 탐사를 위한 풍부한 자원을 구성한다.
주요 텍스트
최근에, 단일 세포 방법, 실험 및 지도가 빠르게 보급되었다. 그러나, 압도적인 대부분의 노력은 단일 세포 유전자 발현에 집중되어 있으며, 이는 세포, 발생 및 기관 생물학의 단지 하나의 태양만을 반영한다. 유전자 발현 프로그램을 형상화하는 염색질 랜드스케이프를 포함하는 다른 태양은 단일 세포 분해능으로 조사하는 것 만큼이나 중요하지만, 스케일링가능한 방법이 비교적 적으므로 어려움을 겪고 있다.
단일 세포 조합 인덱싱("sci")의 프레임워크는 세포 또는 핵의 분할 및 풀링을 수반하는데, 여기서 분자 바코드가 각각의 라운드에서 관심 종(예를 들어, RNA 또는 염색질)에 대해 원위치에서 도입된다. 원위치 분자 바코딩의 연속 라운드를 통해, 동일한 세포 내의 종은 고유 바코드 조합으로 일치하게 표지화된다. sci- 분석법은 염색질 접근성(sci-ATAC-seq), 유전자 발현(sci-RNA-seq), 핵 구조, 게놈 서열, 메틸화, 히스톤 마크 및 기타 현상을 프로파일링하기 위해 개발되었으며, 또한 sci- 공동 분석법도 예를 들어, 염색질 접근성 및 유전자 발현을 공동으로 프로파일링하기 위해 개발되었다("CoBatch", "Split-seq", "Paired-seq" 및 "dscATAC-seq"는 단일 세포 조합 인덱싱에도 의존하는 방법임).
2레벨 sci-ATAC-seq를 통해 약 100,000개의 포유류 세포에서 염색질 접근성을 이전에 프로파일링할 수 있었지만, 이 분석법은 몇 가지 제한이 있다. 예를 들어, 이것은 바코드딩된 어댑터를 갖는 Tn5 효소의 맞춤 로딩을 필요로 하며, 충돌에 의해 실험당 104 내지 105개의 세포(바코드의 동일한 조합을 수용하는 세포)로 제한된다. 이러한 문제를 해결하기 위해, 본 발명자들은 3레벨의 조합 인덱싱(sci-ATAC-seq3)에 기초하여 염색질 접근성의 단일 세포 프로파일링에 대한 개선된 분석법을 개발하였다. sci-ATAC-seq의 이전 반복과는 대조적으로, 본 분석법은 분자적으로 바코딩된 Tn5 복합체에 의존하지 않는다(도 9; 도 10) 오히려, 인덱싱의 처음 두 라운드는 통상적인 균일하게 로딩된 Tn5 트랜스포사제 복합체(표준 "넥스테라(Nextera)")의 어느 한 말단에 라이게이션함으로써 달성되지만, 인덱싱의 최종 라운드는 PCR을 통해 유지된다. sci-RNA-seq3와 유사하지만 2레벨 sci-ATAC-seq에 비해, sci-ATAC-seq3는 실질적으로 라이브러리 제조의 세포당 비용뿐만 아니라 충돌률(rate of collision)을 감소시킨다. 2레벨(96 x 384 웰) 및 3레벨 인덱싱(384 x 384 x 384 웰)에 대한 이론적 충돌률은 각각, 12% 및 1.3%이고, 풀링된 동일한 수의 GM12878 세포 및 CH12.LX 세포를 사용한 3레벨 "종 혼합" 실험에 대한 관찰된 충돌률은 4.0%로 추정되어, 106개의 세포 단위에 대한 실험을 착수하였다. 프로토콜은 더 이상 세포 분류를 필요로 하지 않으며, 본 발명자들은 또한 각각의 세포로부터 회수된 단편의 수를 최대화하기 위해 리가제 및 폴리머라제 선택, 키나제 농도, 및 올리고 디자인 및 농도를 최적화하였다. 접근가능한 영역의 농축을 유지하면서, 접근가능한 부위에 대한 특이성을 희생하여 복잡성을 최대화하기 위해 본 발명자들이 명시적 선택을 하였다는데 주목해야 한다. 각각의 세포에 대한 추정된 총 고유 리드('복합성')를 피카드(Picard)를 사용하여 계산하고, 'FRiTSS'(Fraction of Reads in Transcription Start Site)를 각각의 세포에 대해 계산하였다. Gencode TSS의 500bp 이내의 리드를 TSS 내인 것으로 간주하였다. 특히, 본 발명자들은 고정 조건이 분석의 감도(즉, 복잡성) 및 특이성(즉, 접근가능한 부위의 농축)을 조절하도록 조정될 수 있음을 알아냈다.
염색질 접근성의 인간세포지도를 위해, 15개의 기관(부신, 2개의 소뇌 영역, 눈, 심장, 장, 신장, 간, 폐, 근육, 췌장, 태반, 비장, 위 및 흉선)을 나타내는 59개의 태아 샘플에 sci-ATAC-seq3를 적용하여, 결국 160만개의 세포에서 염색질 접근성을 프로파일링하였다(도 1d 내지 도 1e). 실시예 2에서는, 중복 샘플 세트에 기초하여, 동일한 기관으로부터의 400만 내지 500만 개의 세포에서의 유전자 발현의 프로파일링이 기재되어 있다. 프로파일링된 기관은 다양한 시스템에 걸쳐 이어지는데; 골수, 뼈, 생식선 및 피부의 부재가 가장 두드러진다.
불균일 태아 조직의 신속하고 균일한 처리는 힘든 과제를 나타낸다. 본 발명자들은 다양한 조직 유형에 걸쳐 잘 작동하고 sci-ATAC-seq3 및 sci-RNA-seq3 둘 다에 적합한 균질물을 생성하는 동결보존된 조직에서 직접 핵을 추출하는 새로운 방법을 개발하였다. 간단히 말하면, 본 발명자들은 급속 냉동된 조직 절편을 알루미늄 호일로 싼 다음에, 냉각 해머를 사용하여 드라이 아이스 상에서 분말로 분쇄한다. 그 다음에, 조직 분말을 분취물로 분할하는데, 하나는 sci-ATAC-seq3용이고, 다른 하나는 sci-RNA-seq3용이다.
sci-ATAC-seq3의 경우, 89일에서 125일 사이의 추정된 재태기간 범위의 23명의 태아로부터 샘플을 얻었다. 본 발명자들은 세포를 용해하여, 공개된 ATAC-seq 세포 용해 완충액으로 핵을 단리하고, 핵을 향후 처리를 위해 급속 냉동시키기 전에 포름알데히드로 고정시켰다. 각 조직의 핵에서, 96웰 플레이트 중 4개의 웰에 대해 약 50,000개의 고정된 핵을 증착시켜, 태그멘테이션을 위해 처리하였다. 태그멘테이션 후에, 조직 샘플을 또한 식별한 제1 인덱스는 비대칭인 삽입된 트랜스포사제 복합체의 유리 말단 중 하나에 라이게이션에 의해 도입되었다. 풀링 및 분할 후에, 제2 인덱스는 트랜스포사제 복합체의 다른 유리 말단에 라이게이션에 의해 도입되었다. 또 다른 라운드의 풀링 및 분할 후에, 최종 인덱스를 PCR에 의해 부가하고, 생성된 앰플리콘을 시퀀싱을 위해 풀링하였다.
본 발명자들은 5개의 일루미나 NovaSeq 실행에 걸친 3개의 실험으로부터 sci-ATAC-seq3 라이브러리를 시퀀싱하여, 결국 500억 이상의 리드를 생성하였다. 초기 QC 체크로서, 본 발명자들은 조직 레벨에서, 즉, 이를 단일 세포로 분할하기 전에, 데이터를 조사하였다. ENCODE 데이터 포털로부터 태아 조직의 모든 사용가능한 단일-말단 DNase-seq 샘플을 다운로드하고 재매핑하였다. 이어서, 본 발명자들은 각각의 "슈도벌크(pseudobulk)" 샘플과 각 ENCODE 샘플에서 접근성의 피크를 식별하고, 이러한 세트를 병합하고, 마스터 리스트의 각 피크에서 접근성에 대한 각 샘플의 점수를 매겼다. sci-ATAC-seq3 데이터는 피크가 다소 덜 풍부했지만(피크의 중앙값 리드: sci-ATAC-seq3의 경우 29%; ENCODE DNase-seq의 경우 35%), 동일한 조직의 샘플은 sci-ATAC-seq3에 대한 더 큰 기술적 재현성(중앙값 스피어만(Spearman) 상관관계: 0.95)과 함께 두 가지 분석에 대해 동등하게 상관관계가 있었다(중앙값 스피어만 상관관계: sci-ATAC-seq3에 대한 동일한 조직의 2개의 샘플의 경우 0.93; DNase-seq의 경우 0.91). 또한, 클러스터 샘플에 대한 쌍별(pairwise) 스피어만 상관관계를 사용하여, sci-ATAC-seq3 샘플 단독 또는 sci-ATAC-seq3 및 DNase-seq 샘플을 함께 분석하든지 간에, 이들 응집체 프로파일에 기초하여 샘플을 각각의 조직에 클러스터링하였다.
상술한 바와 같이 세포 바코드에 기초하여 리드를 분할하고, 동적 임계치를 적용하여, 본 발명자들은 1,568,018개의 세포를 식별하였다. 반야드 대조군으로부터, 본 발명자들은 3개의 실험 각각에 대해 약 5%의 충돌률을 추정한다. 인간 센티넬(sentinel) 조직에 상응하는 세포의 UMAP(Uniform Manifold Approximation and Projection) 가시화는 어떠한 명백한 실험적 배치(batch) 효과도 나타내지 않았다. 3개의 샘플을 단편 크기 분포의 불량한 뉴클레오솜 밴딩으로 인해 떨어뜨리고, 더 적은 수의 세포가 포획되었기 때문에 추가의 2개의 샘플을 떨어뜨렸다. 본 발명자들은 이러한 sci-ATAC-seq3 라이브러리에서 조직 유형당 세포당 모든 고유 단편의 중앙값 91% 내지 99%를 시퀀싱한 것으로 추정한다.
본 발명자들은 조직-대-조직 기준으로 접근성 피크를 식별한 다음에, 이들을 병합하여, 105만개 부위의 마스터 세트를 생성하였다. 각각의 부위에서 리드의 유무에 대해 각각의 세포를 스코어링한 후에, 총 고유 리드 수(1,000 내지 3,586개 범위의 샘플별 최소값), 접근가능한 부위의 마스터 세트와 중첩하는 리드의 분율(0.2 내지 0.4 범위의 샘플별 최소값), TSS 부근에서 떨어지는 리드의 분율(+/- 1kb; 0.05 내지 0.15 범위의 샘플별 최소값) 및 scRNA-seq 데이터용으로 초기에 개발된 스크러블렛(Scrublet) 이중선 검출 알고리즘의 적응으로부터 도출된 이중선 스코어(최고 이중선 스코어를 갖는 세포의 약 10%를 제외함)에 기초하여 저품질 세포를 제거하였다.
이러한 절차 후에, 54개의 태아 샘플에서 790,957개의 단일 세포 염색질 접근성 프로파일이 남아 있었다. 조직당 고품질 세포의 총 수는 비장의 2,421개에서 간의 211,450개 까지 다양하였다. 이 세트에 대한 세포 당 고유 단편의 중앙값 수는 6,042이며, 이때 중앙값 0.49는 접근가능한 부위의 마스터 세트와 중첩되고, 0.19는 TSS(+/- 1kb) 부근에서 떨어진다.
본 발명자들은 로그 변환된 단어 빈도 성분(term frequency component)을 사용하여, 조직별로 고품질 세포에 잠재적 의미 인덱싱(latent semantic indexing; LSI)을 적용하였다. 동일한 조직에 상응하는 상이한 샘플에 대한 배치 효과의 명백한 증거를 관찰하지 못했지만, 본 발명자들은 보존적 방법으로서 하모니(Harmony) 알고리즘을 적용하여 각 조직에 대한 PCA 공간 내의 샘플을 정렬하였다. 그 다음에, 각 조직에 대해 정렬된 PCA 공간을 사용하여, 본 발명자들은 루뱅(Louvain) 클러스터링을 적용하여, 초기에 모든 조직에서 172개의 클러스터를 얻었다. 본 발명자들은 UMAP를 사용하여 각각의 조직 데이터세트의 차원을 추가로 축소시켰다.
세포 유형의 주석 달기
본 발명자들과 다른 사람들이 보여주듯이, scATAC-seq 데이터 세트의 세포 유형 주석은 scRNA-seq 데이터 세트를 활용하여 크게 단순화될 수 있다. 본 발명자들의 scATAC-seq 데이터에 대한 세포 유형 주석을 부분적으로 자동화하기 위해, 동반 원고에 설명된 대로 동일한 조직에 대한 scRNA-seq 데이터 내의 세포 유형에 먼저 주석을 달았다. 두 번째로, 본 발명자들은 scATAC-seq 데이터에 대한 유전자 레벨 접근성 스코어를 계산하여, 이의 TSS의 2kb 업스트림에 의해 신장된 유전자체에 속하는 전위 이벤트의 수를 집계하였다. 세 번째로, 본 발명자들은 NNLS(non-negative least squares) 회귀에 기초하여 scRNA-seq와 scATAC-seq 클러스터 사이의 가능한 일치를 찾기 위한 접근법에 대한 입력으로서 각 데이터 유형에 대한 유전자-대-세포 매트릭스를 사용하여, scATAC-seq 클러스터에 대한 자동 주석의 초기 "리프트-오버(lift-over)" 세트를 생성하였다. 최종적으로, 본 발명자들은 각 조직 내의 각 세포 유형에 대한 마커 유전자 주변의 파일업을 조사하고, 필요에 따라 할당된 표지에 대한 변형을 행함으로써, 모든 자동화된 주석을 수동으로 검토하였다. 세포 유형은 먼저 마커 유전자 발현에 기초하여 매칭 조직에 수집된 sci-RNA-seq 데이터에 주석이 달렸다. 루뱅 클러스터를 각 조직에 대한 ATAC 데이터에서 식별하였다. 다음으로, 이러한 클러스터 각각에 대해 유전자 레벨 접근성 점수를 계산하고, NNLS(Non-Negative Least Squares) 회귀에 기초하여 RNA 클러스터에 매칭시켰으며, 경우에 따라 루뱅 클러스터의 병합으로 이어졌다. 이러한 초회 통과(first-pass) 자동화된 주석을 마커 유전자 주변의 클러스터 특이적 접근성 랜드스케이프를 수동으로 검토하여 더욱 개선시켰다. 주석이 달린 세포 유형은 공지된 마커 유전자의 TSS 주위에 특정 접근성을 나타내었다. 각 세포 유형 또는 주석을 달지 않은 클러스터에 대해, 알려진 마커 유전자의 TSS 근처의 접근성을 합산하고 세포 유형에 따른 세포 수 뿐만 아니라 세포당 총 리드의 차이를 설명하기 위해 스케일을 정규화하였다. 데이터는 일부 주석을 달지 않은 클러스터가 새로운 세포 유형이 아니라 기술적 인공물(예를 들어, 이중선)을 나타낼 수 있음을 시사하였다. 본 발명자들은 다른 접근법이 단일 세포 데이터의 다중 모드 통합에 대해 큰 가능성을 나타내었지만, 본 명세서에서 본 발명자들의 목적에 충분하고 훨씬 덜 계산적으로 집약적인 클러스터 대 클러스터 NNLS 방법을 발견하였다.
결국, 172개의 클러스터 중 150개(87%), 또는 신뢰도가 낮은 표지를 포함하는 경우 172개 중 163개(95%)에 주석을 달 수 있었다. 일부 클러스터는 동일한 조직 내에서 동일한 주석을 수신하여 병합되어 모든 조직에 걸쳐 124개의 주석을 얻었다. 이들 중, 일부 주석은 다수의 조직(예를 들어, 4개의 조직 내의 적아구)에 걸쳐 존재하였다. 조직 전반에 걸친 붕괴로 인해, scRNA-seq 데이터세트에 작성된 주석에 1:1로 매핑되는 54개의 고유한 세포 유형 주석이 생성되었다(또는 신뢰도가 낮은 표지와 1:2 매핑을 포함하는 경우 59개). 이러한 레벨의 분해능에서 염색질 접근성 데이터에서 발견되지 않은 다수의 scRNA-seq 세포 유형은 본 연구에서 프로파일링된 세포 수가 적기 때문에 검출할 수 있을 정도로 충분히 샘플링되지 않았을 수도 있는 작은 클러스터이다(약 4M(RNA) 대 약 800K(ATAC) 고 품질 세포). 다른 한편으로는, 완전히 무주석을 유지한 9개의 scATAC-seq 클러스터의 대부분은 UMAP 표현에서 여러 인접 세포 유형에 대한 마커 유전자의 접근성을 특징으로 하는 필터링되지 않은 이중선으로 인한 것으로 보인다.
계통 특이적 TF의 식별
다음으로, 본 발명자들은 15개의 모든 기관에 대한 세포 유형에서 염색질 접근성을 통합하여 비교하고자 하였다. 기관 및/또는 세포 유형당 세포 수의 총체적 차이의 효과를 완화시키기 위해, 본 발명자들은 기관 당 세포 유형당 800개의 세포를 무작위로 샘플링하고(또는 주어진 세포 유형의 800개 미만의 세포가 주어진 기관에 나타나는 경우, 모든 세포를 취하였음), UMAP 가시화를 수행하였다. 안심할 수 있는 점은, 다수의 기관에 나타난 세포 유형이 일괄 또는 개별 단위가 아니라, 예를 들어 간질 세포(9개 기관), 내피 세포(13개 기관), 림프구 세포(7개 기관) 및 골수성 세포(10개 기관)에 함께 모여 있었다. 발생적으로 그리고 기능적으로 관련된 세포 유형도, 예를 들어 다양한 혈액 세포, 분비 세포, PNS 뉴런, CNS 뉴런도 또한 공국소화되어(colocalize) 있었다.
발생 생물학에 있어서의 중요한 문제는 전사 인자(TF)가 불변 게놈으로부터 이러한 다양한 세포 유형을 생성하는데 관여한다는 것이다. 다음으로, 본 발명자들은 이러한 폭넓은 인간세포지도의 염색질 접근성을 활용하여 어떤 TF 모티프가 차등적으로 접근할 수 있는지를 체계적으로 평가하여 생체 내 인간 발달과 관련하여 세포 운명의 주요 조절인자를 지명하고자 하였다.
첫 번째 접근법으로서, 본 발명자들은 선형 회귀 모델을 사용하여 각 세포의 접근가능한 부위에서 발견되는 어떤 TF 모티프가 해당 세포 유형 계열을 가장 잘 설명하는지를 물어볼 수 있었다. 초기에 각 조직을 독립적으로 치료하면서, 본 발명자들은 124개의 주석이 달린 세포 유형 클러스터 각각에서 JASPAR 데이터베이스로부터 가장 고도로 농축된 모티프/TF를 식별했으며, 이는 알려진 조절인자와 잠재적으로 새로운 조절인자를 모두 드러내었다. 예를 들어, 태반에서 골수 세포 계열 발달의 확립된 조절인자인 SPI1/PU.1의 모티프는 골수성 세포의 피크가 매우 풍부하고; 간질 전구세포의 형성에 필요한 TWIST-1의 모티프는 간질 세포의 피크가 풍부하며; FOS::JUN 모티프는 상응하는 AP1 복합체가 특이적으로 활성인 것으로 기재된 세포 유형인 융모외성 영양막세포(extravillous trophoblast)의 염색질 접근성과 관련되어 있다.
흥미롭게도, 태반 내의 주석이 없는 클러스터는 적혈구 생성의 확립된 조절인자인 GATA1::TAL1 모티프가 강하게 농축되었다. 이들 세포는 글로벌 UMAP에서 다른 조직의 적아구로 클러스터링되었으며, 추가의 조사에서, 주요 적혈구 마커 유전자는 특이적 프로모터 접근성을 나타내었다. NNLS 가이드된 워크플로우에서, 이러한 클러스터에는 주석이 없는데, 그 이유는 scRNA-seq 연구의 태반에서 적아구 클러스터가 검출되지 않았기 때문인데, 아마도 태반이 RNA 세포보다 더 많은 ATAC를 갖는 몇 안되는 조직 중 하나이기 때문이다. 따라서, 세포 유형의 주요 조절인자가 알려져 있다면, 모티프 농축은 세포 유형 주석에 도움이 될 수 있다.
본 발명자들은 모든 조직에서 관찰된 54개의 주요 세포 유형, 즉, 다수의 조직에서 나타나는 세포 유형을 붕괴시킨 후에, 이러한 분석을 반복하였다. 예상대로, 상부 모티프는 조직 특이적 분석 및 문헌과 일관성을 유지하였다: 예를 들어, 골수성 세포의 SPI1/PU.1; 망막 색소 및 광수용 세포의 CRX; 심근세포 및 골격근 세포(31)의 MEF2B; 및 심근막 및 평활근 세포의 SRF. 대부분의 모티프는 단지 한두 가지의 세포 유형이 풍부하지만, OLIG2, NEUROG1 및 POU4F1을 포함한 신경 TF 모티프는 다수의 신경 세포 유형이 풍부하다. 다른 주목할 만한 예외는 통상적으로, 신장 및 췌장 발생과 관련된 HNF1B이며, 이의 모티프는 다양한 특수화된 상피 및 분비 세포의 범위에 걸쳐 13개의 세포 유형이 풍부하다.
POU2F1은 이전에 특정 발달 분기와 관련되지 않았지만, 오히려 특정 궤적을 제어하지 않고 광범위하게 표현된 POU 패밀리 내에서 예외로 제안된 TF의 일례이다. 대조적으로, 본 발명자들은 적어도 인간 태아 발달에서, 그 모티프에 여러 신경 세포 유형이 풍부하다는 것을 알아낸다. 더욱 지원을 하면, POU2F1은 그러한 동일한 세포 유형에서 특이적으로 발현된다.
이러한 관찰을 연장하여, 본 발명자들은 다음으로, 동반 scRNA-seq 지도를 활용하여 TFS가 이의 모티프의 차등적 접근성과 일치하는 패턴으로 차등적으로 발현되는지 여부를 더욱 일반적으로 물어보려고 하였다. 예를 들어, 두 데이터세트의 동일한 조직에 주석이 달린 모든 세포 유형을 살펴보면, 골수 선구 인자(myeloid pioneer factor) SPI1/PU.1의 발현은 접근가능한 부위에서 이의 모티프의 농축과의 사이에 강한 양의 상관관계가 있다. 흥미롭게도, 이러한 분석은 또한 이의 발현과 모티프 농축 사이에 음의 상관관계가 있는 많은 TF를 밝혀냈다. 정밀 검사의 결과로서, 이러한 TF는 억제인자인 경향이 있었다. 예를 들어, GFI1B는 모티프 결합 시에 히스톤 데아세틸라제를 모집하고, 예를 들어 태아 헤모글로빈 유전자좌에서 염색질의 폐쇄를 유도함으로써 적아구 및 거핵구 발달에 중요한 억제인자로 작용하는 것으로 기재되어 있다. 이것과 일치하게, 본 발명자에 의해, 이의 발현이 접근가능한 부위에서 이의 모티프 농축과 음의 상관관계가 있는 것으로 관찰된다.
TF를 GO 용어에 기초하여 '활성화인자' 또는 '억제인자'로 분류하여, 본 발명자들은 TF 발현과 모티프 접근성이 주석이 달린 활성화인자에 대해 양의 상관관계가 있는 경향이 있고 주석이 달린 억제인자에 대해 음의 상관관계가 있는 경향이 있으며, 모티프 농축과 발현의 상관관계는 미분류 TF의 작용 모드를 예측하는 데 사용될 수 있음을 알아낸다. 예외는 주로 누락되거나 상반되는 GO 용어로 설명될 수 있지만, 문헌 검색은 상관값에 의해 예측된 카테고리에 해당 항목을 넣는다. 따라서, 이러한 종류의 분석은 TF를 활성화인자 또는 억제인자로서 분류하기 위한 체계적인 접근법을 제공할 수 있다. 예를 들어, NFATc3는 일반적으로 활성화인자로서 기재되지만, 본 발명자들의 분석은 특히 T 세포 발생에서 억제 작용 모드를 가리키는데, 이는 고도로 발현되지만 이의 모티프가 접근가능한 부위에서 고갈된다. NFATc3에 대한 이러한 억제 작용 모드는 이전의 간행물에서 암시되었다. 일반적인 분류 외에도, 본 발명자들은 또한 TF가 활성화인자 또는 억제인자로서 가변적으로 작용할 수 있는 세포 유형 컨텍스트에 대한 통찰력을 얻을 수 있다. 예를 들어, FOXO3를 포함한 TF는 비변형된 상태에서 활성화인자로서 작용하지만, 인산화될 때 억제인자로서 작용하는 것으로 제안되었으며, 이는 발현과 접근성 사이의 이의 보다 모호한 관계를 설명할 수도 있다.
상기 접근법은 알려진 TF를 잠재적으로 새로운 역할과 체계적으로 연관시킬 수 있게 하며, 각각의 세포 유형에 대해 차등적으로 접근가능한 부위를 사전선택하는 것에 의존하지 않는 이점을 가지며, 본 발명자들은 TF의 발현을 이의 상응하는 모티프의 접근성과 관련시킬 수 있는 추가의 이점을 갖는다. 그러나, 알려진 TF 모티프의 데이터베이스에 의존한다는 점에서 제한된다. 다른 접근법으로서, 각각의 접근가능한 부위에 대한 특이성 점수를 계산하고, 각각의 세포 유형에 대해 2,000개의 가장 특이적인 피크를 선택하고, CpG 매칭된 배경 게놈 서열과 비교하여 이 세트 내의 농축된 모티프에 대해 새로 검색하였다. 일반적으로, 개별 세포 유형에 대한 상부 드노보 모티프는 선형 회귀에 의해 식별된 상부의 알려진 모티프와 일치한다. 흥미롭게도, 알려진 모티프(예를 들어, 내피, 간질, 슈반 세포)에 강하게 매칭되지 않은 일부 세포 유형은 그럼에도 불구하고 드노보 모티프와 강하게 결합되었다. 특히 내피 세포의 경우, 이러한 결과는 하기에 추가로 논의된다.
혈액 세포 및 내피 세포의 교차 조직 분석
이러한 데이터세트의 특성은 광범위하게 나타나는 세포 유형, 예를 들어 혈액 세포 및 내피 세포 내에서의 염색질 접근성의 기관 특이적 차이를 조사할 기회를 만든다. 혈액 시스템에 대한 세포 유형 주석의 초회 통과에서, 골수성 세포, 림프구 세포, 적아구, 거핵구 및 조혈 줄기 세포를 구별할 수 있었다. 모든 기관으로부터 이들 혈액 계통을 추출 및 재클러스터링함으로써, 본 발명자들은 대식세포, B 세포, NK/ILC 3 세포, T 세포 및 수지상 세포를 추가로 식별할 수 있었고, 다시 한번 RNA 지원 주석 접근법을 채택하였다(여러 조직으로부터 유사한 세포 유형을 분석하려면, 추가의 이중선 세척 단계가 필요한 것에 주목해야 함: 방법 참조). 대식세포는 이전에 관찰된 바와 같이, 탐식 대식세포뿐만 아니라 기원 조직과 관련된 그룹으로 추가로 분리될 수 있었다. 이러한 전자 그룹은 주로 비장에서 식별되고, 이어서 간 및 부신에서 식별되었다. 혈액 계통 내에서 특히 관심을 끄는 것은 태아 발달 동안 적혈구 생성의 시공간적 동태로 인한 적아구이다. 본 발명자들은 처음에 간, 부신, 심장 및 태반에서 이러한 계통을 검출하였으며; 본 발명자들의 교차 조직 분석은 얕게 프로파일링된 비장에서 적아구를 추가로 식별하였다(여기서, 거핵구 및 골수성 세포 만이 원래 주석이 달렸음). 조직의 혈액 계통 내의 적아구의 비율은 간에서 가장 높으며, 이 기관이 이러한 발달 단계에서 적혈구 생성의 원발 부위이고, 비장 및 부신이 그 뒤를 잇는 것과 일치하여, RNA 데이터에서 관찰된 경향을 표현형 모사한다. 태아 조혈의 잠재적 부위로서의 부신의 예상치 못한 관찰은 실시예 2에서 추가로 논의된다.
적아구를 추가로 조사한 결과, 본 발명자들은 이러한 발달 단계에서 성체 베타 및 태아 감마 글로빈 유전자에 인접한 영역에 접근할 수 있는 반면에, 배아 엡실론 글로빈 유전자의 프로모터는 접근불가능하다는 점에 주목한다. 적아구 클러스터는 별개의 적아구 전구세포 클러스터를 포함하여, 차등적 염색질 접근성을 갖는 5개의 주요 루뱅 클러스터로 추가로 세분될 수 있다. 적아구 전구세포 클러스터 및 인접한 초기 적아구 클러스터(적아구_3)의 접근가능한 부위에는 GATA1::TAL1 및 기타 GATA 모티프가 농축되어 있다. 적아구 전구세포에서 다양한 GATA 인자의 발현 레벨을 비교하여, GATA1/2을 이러한 모티프 농축에 관여하는 가능한 TF로 지정할 수 있다. 적혈구 생성의 후기에 해당하는 다른 적아구 클러스터는 NFE2/NFE2L2(적아구_1) 및 KLF 인자(적아구_2/4)에 대한 모티프 농축을 나타내며, 특히 GATA 모티프 접근성에 대한 농축의 현저한 부재를 보여준다. 뮤린 조혈계에 대한 최근 공개된 scRNA-seq 연구는 적혈구 생성에서 초기에 GATA2의 유도를 보고하였으며, 이후 GATA2의 감소와 함께 안정적인 GATA1 발현을 보고하였다. 대조적으로, 분류된 벌크 인간 시험관내 배양된 적혈구 집단에 대한 연구는 인간 태아 조직에서 관찰한 것과 일치하여, 전구세포에서 분화된 적아구로의 GATA1 발현의 감소뿐만 아니라, 후기 적아구에서 증가된 KLF1NFE-2 레벨을 나타내었다. 본 발명자들의 결과는 또한, 접근성 랜드스케이프가 KLF1 또는 NFE-2 와 같은 비GATA 인자에 의해 형상화되는 분화된 적아구의 에피제네틱한 별개의 아집단이 있을 수 있음을 추가로 나타낸다. 예를 들어, 말라리아 기생충에 의한 적혈구 침입 수용체로서 사용되는 GYPA의 상류의 원위 조절 요소는 적아구_1 집단에서 가장 접근가능하며, NFE-2 모티프와 유사한 모티프를 포함한다.
다른 흥미로운 교차 조직 시스템은 혈관 내피이다. 흥미롭게도, 어떠한 TF도 혈관 내피 세포에서 배타적으로 발현되는 것으로 기재되지 않았으며, 이는 내피 특이적 트랜스크립톰이 내피에서 중복 발현을 갖는 여러 TF에 의해 조합적으로 제어된다는 제안으로 이어졌다. 이것과 일치하게, 본 발명자들은 JASPAR 모티프의 분석에서 내피 세포의 강력한 단일 농축을 관찰하지 못하였다. 다른 한편으로는, 2,000개의 가장 내피 특이적 피크 상의 드노보 모티프 발견은 ERG 및 SOX15와 유사한 모티프에 대한 배경 게놈 서열에 비해 강한 농축을 나타내었다. 이러한 모티프는 내피세포에 제한되지 않고(ERG 모티프는 거핵구에서 더 풍부하고; SOX15는 여러 세포 유형에서 풍부함), 이러한 TF의 발현이 이러한 세포 유형에 제한되지 않기 때문에, 본 발명자들의 선형 모델링 접근법에서 강하게 가중되지 않았을 가능성이 높다. 이에 따라, ERG는 이전에 내피 기능의 주요 조절인자로 설명되었지만, 또한 거핵구로의 분화전환을 유도한다.
내피 세포는 폐에서의 가스 교환이나 신장에서의 체액 여과와 같은 구성적 기능과 고도로 분화된 기능을 모두 수행해야 하는 모든 기관에 존재한다. 본 발명자들의 연구에서, 15개의 기관 중 13개에서 내피 세포를 검출한다(더욱 얕게 프로파일링된 소뇌 및 눈은 예외). 기관에 대하여 이러한 세포를 추출하고 재클러스터링하면, 임의의 잔류 오염 이중선(방법)을 제거하기 위한 엄격한 반복 필터링 단계에도 불구하고, 적아구 계통과는 대조적으로, 기원 조직에 따라 현저한 분리가 나타났다. 이것과 일치하게, 본 발명자들은 또한 실시예 2에 기재된 바와 같이 유전자 발현의 조직 특이적 프로그램을 관찰한다. 실제로, 이러한 차등적으로 발현된 유전자에 가장 가까운 접근성의 피크는 ATAC 데이터의 매칭 조직에서 보다 높은 특이성 점수를 갖는다. 더욱이, 거의 모든 기관으로부터 유래된 내피 세포는 특이적 TF 모티프 농축을 나타내었다. 주목할 점은, 많은 농축된 모티프에 대한 TF가 또한 RNA 데이터의 매칭 조직에서 차등적으로 발현된다.
전반적으로, 이러한 발견은 일반적인 기능과 기관 특이적 기능을 모두 채워야 하는 널리 분포된 세포 유형인 내피 세포에서 염색질 접근성 및 유전자 발현의 일반적인 프로그램이 ERG 및 SOX15와 같은 구성적 TF와 추가의 특수화를 유도하는 조직 특이적 TF의 조합에 의해 매개된다는 것을 나타낸다. 이러한 분석은 또한 개별 세포 유형의 염색질 접근성 랜드스케이프의 기초가 되는 주요 조절인자를 지명하기 위해 조직 전반에 걸친 선형 모델 접근법과 특정 피크에서의 드노보 모티프 농축을 조합하는 장점을 강조한다.
다른 흥미로운 예는 scRNA-seq 및 sc-ATAC-seq 지도에서 식별된 태반의 PAEP_MECOM 양성 세포 유형을 포함한다. 이러한 계통 내의 조절 영역은 통상적으로 신장 및 췌장 발생과 관련된 인자인 HNF1B의 모티프가 강하게 농축된다. 예를 들어, HNF1B는 태반 내의 PAEP_ MECOM 세포 계통에서 고도로 특이적으로 발현된다. 전체 염색체에 걸쳐 접근불가능한 부위에서도 일부 게놈 리드를 포획하는 ATAC-seq 데이터의 특성으로 인해, X 염색체 또는 상염색체에 의해 유래된 리드에 대한 Y 염색체에 기초하여 세포의 자웅감별이 가능하다. 흥미롭게도, 본 발명자들은 PAEP_ MECOM 및 IGFBP1_ DKK 양성 태반 세포 유형뿐만 아니라, 비교적 정도는 낮지만 태반 골수성 세포가 남아 태아에서 유의하게 낮은 Y 염색체 리드비를 갖는다는 것을 알아낸다. PAEP(글리코델린) 및 IGFBP1에 대해 알려진 것과 일치하게, 이러한 세포 유형은 각각 모체의 자궁내막 상피 세포 및 간질 세포에 잠재적으로 상응한다.
CICERO
추가 연구를 위한 리소스로, 본 발명자들은 데이터세트의 각 조직에 대하여 Cicero 공접근성 점수 및 Cicero 유전자 활성 점수를 생성하였다. Cicero 공접근성 점수는 접근가능한 인자 간의 시스 제어 상호작용을 예측하는 데 사용될 수 있다. 본 발명자들은 양의 공접근성 점수와 쌍을 이룬 인자를 조합하여, 추정 시스 제어 상호작용의 데이터베이스를 생성하였다. 이러한 데이터베이스는 450만(6%) 프로모터-원위부 쌍, 7600만(94%) 원위부-원위부 쌍 및 128,000(0.2%) 프로모터-프로모터 쌍을 포함하여 8000만 개의 고유 공접근가능한 쌍을 포함한다. 조직 당 평균 3300만 개의 공접근가능한 쌍을 발견하였다. 쌍의 38%가 단일 조직에만 고유한 반면에, 쌍의 0.007%만이 16개의 조직 모두에서 검출되었다. 더 많은 조직에서 발견된 쌍은 프로모터-원위부 및 프로모터-프로모터일 가능성이 더 높았다. 생성된 공접근성 점수 및 유전자 활성 점수는 본 발명자들의 웹사이트에서 다운로드할 수 있다.
주목해야 할 것은, 436,206개의 초기에 식별된 부위 중 89%는 2,040개의 세포로 된 대조군 세트와 비교하여, 이러한 85개의 세포 클러스터 중 적어도 하나에서 1%의 오류 발견율(false discovery rate; FDR)로 유의하게 차등적으로 접근가능(DA)하였다(17개의 샘플 각각에서 120개의 세포가 무작위로 샘플링됨, 추가 리소스 참조). 접근성이 특정 클러스터(들)로 제한되는 DA 부위를 식별하기 위해, 본 발명자들은 scRNA-seq 연구에서 유전자 발현 특이성을 정량화하기 위한 메트릭(metric)을 염색질 접근성에 적응시키고, 모든 85개의 클러스터에 의한 모든 436,206개의 부위에 대해 이를 계산하였다. 본 발명자들은 접근가능한 부위의 39%(167,981/436,206)를 제한된 클러스터(즉, 제한된 수의 클러스터에서 접근성 증가)로 분류했으며, 이 중 55%(92,334/167,981)가 단일 클러스터로 제한되었다.
공통 인간 형질 및 질병에서의 세포 유형 관련
전 게놈 관련 해석(genome-wide association study)에 의해 측정된 바와 같이, 공통 인간 형질 및 질병에 대한 유전성의 주요 부분은 종종 세포 유형 특이적인 원위 조절 요소로 나눠진다. 결과적으로, 특정 질병을 특정 조직의 기능장애와 체계적으로 연결시키려는 목적으로, 대량 DNase 과민성 데이터(및 기타 에피제네틱 특징)와 GWAS 신호를 교차시키는 데 많은 연구가 진행되었다. 그러나, 그러한 연구의 해결책은 세포 유형 이질성에 의해 현저하게 제한된다. 마우스와 인간 사이의 염색질 접근성의 보존 정도를 고려하면, 본 발명자들은 종간 차이에 상관없이 복잡한 인간 형질의 기초가 되는 유전적 변이의 세포 유형 특이적 영향을 더 잘 이해하기 위해 본 발명자들의 데이터를 사용할 수 있는지를 궁금해하였다. 따라서, 본 발명자들의 데이터가 마우스 조직에서 생성되었다는 사실에도 불구하고, 본 발명자들은 인간 유전성의 세포 유형 특이적 농축을 검출하기 위한 최첨단 방법을 적용하고자 하였다.
이를 위해 분할된(partitioned) 불균형 분해(linkage disequilibrium, LD) 점수 회귀(LDSC)를 사용하여 85개의 클러스터 각각에 대한 DA 피크 내의 인간 형질에 대한 유전성 농축을 정량화하였다. 인간 SNP를 마우스 게놈의 이종상동성 좌표로 리프팅한 후에, 본 발명자들은 85개의 클러스터 각각에 대해 얻은 DA 피크에 걸쳐 32개의 표현형에 대한 유전성 농축을 계산하였다. 85개의 세포 유형 중 55개는 하나 이상의 표현형이 농축된 반면에, 32개 표현형 중 28개는 하나 이상의 세포 유형이 농축되었다. 광범위한 경향으로, 본 발명자들은 백혈구에 상응하는 클러스터에서 루푸스, 셀리악병 및 크론병(Crohn's disease)과 같은 자가면역 질환에 대한 강한 유전성 농축을 관찰한 반면에, 양극성 장애, 교육적 달성 및 정신분열증과 같은 신경학적 형질의 경우, 신경 세포 유형에서 농축이 발생하였다. 특히, 이러한 농축의 대부분은 벌크 조직으로부터 호출된 피크에서 발견되지 않았으며, 이는 단일 세포 염색질 접근성 데이터에 의해 세포 유형의 값이 정의된다는 것을 입증한다. 많은 농축이 기대와 일치하였다. 예를 들어, 저밀도 리포단백질(LDL) 콜레스테롤, 고밀도 리포단백질(HDL) 콜레스테롤 및 트라이글리세라이드에 대한 가장 강한 유전성 농축은 간세포에 있지만, 흥미롭게도, LDL 콜레스테롤은 또한 헨레 고리(loop of Henle)의 신장 상피에서 현저하였다. 마찬가지로, 면역글로불린 A(IgA) 결핍에 대한 유전성의 가장 강한 농축은 T 세포 클러스터에 있다. 이러한 신호는 또한 세포의 아형의 중요성에 대한 세련된 이해로 이어질 수 있다. 이러한 경향의 예로서, 양극성 장애에 대한 유전성 농축이 다수의 뉴런 클러스터에서 관찰되지만, 가장 강한 농축은 흥분성 뉴런을 포함한다. 대조적으로, 알츠하이머병에 대한 유전성은 어떤 부류의 뉴런에서도 농축되지 않는다. 대신에, 이의 가장 강한 농축은 소교세포 클러스터에서 발견된다.
보다 큰 세트의 형질로 분석을 확장시키기 위해, 본 발명자들은 UK 바이오뱅크(UK Biobank)로부터 300,000명이 넘는 개체의 2,419개의 형질의 GWAS에 대한 요약 통계량(nealelab.github.io/UKBB_ldsc/)을 다운로드하였다. 유효 샘플 크기가 ≥5,000이고 추정된 유전성이 ≥0.01인 405개의 형질에 초점을 맞추어, 본 발명자들은 하나 이상의 세포 유형에서 273개의 형질에 대한 유전성의 유의한 농축이 관찰한 반면에, 85개 중 74개의 세포 유형이 하나 이상의 형질에 대해 농축된 유전성을 나타낸다. 상술한 것과 동일한 광범위한 경향이 자가면역 및 신경학적 형질에 대해서도 본 명세서에서 나타나 있지만, UK 바이오뱅크에서 측정한 훨씬 더 많은 수의 형질이 추가의 경향을 나타낸다. 예를 들어, 신체 크기 및 조성(예를 들어, 체질량 지수)의 많은 측정값도 뇌의 세포 유형과 관련된다(도 18b). 또한, T 세포의 특정 서브세트(12.1, 12.2)는 다른 T 세포 클러스터를 포함한 다른 세포 유형보다 천식 및 알러지성 비염과 더욱 관련되어 있다. 더 많은 과립상의 레벨에서, 심장마비는 간(25.3)의 내피 세포와 관련되지만, 다른 내피 클러스터에서는 관련되지 않는 반면에, 통풍은 신장 근위세뇨관 세포와 관련된다. 본 발명자들이 본 명세서에서 시연하는 프레임워크는 임의의 인간 또는 마우스 조직 및 임의의 유전 형질로부터 수집된 단일 세포 염색질 접근성 데이터에 용이하게 적용될 수 있다.
새로운 설계의 한 가지 결과는 2레벨('2lv2' 또는 '2레벨 버전 2 프로토콜') 및 3레벨('3lv2') 구성 둘 다와 호환되어 연구 설계에 더 많은 유연성을 제공한다는 것이다(도 9).
최종적으로, 본 발명자들은 또한 장기간에 걸친 안정한 저장을 가능하게 하도록 세포 또는 핵을 포름알데히드로 고정하기 위한 다양한 조건을 시험하였다. 본 발명자들은 고정에 사용되는 완충액과 고정 전후에 핵을 단리하는 선택이 복잡성과 특이성 사이의 선택을 제시한다는 것을 발견하였다. 현재의 연구에서는, 본 발명자들은 특이성을 희생하여 복잡성/감수성을 증가시키는 고정 프로토콜을 선택했지만, 이는 프로토콜의 최종 사용자가 결정할 수 있다.
재료 및 방법
세포 배양
GM12878 세포를 15% FBS(서모 피셔 카탈로그 번호 SH30071.03) 및 1% Pen-strep(서모 피셔 카탈로그 번호 15140122)이 포함된 RPMI 1640 배지(서모 피셔 사이언티픽 카탈로그 번호 11875-093)에서 배양하여 유지하였다. 이를 1주일에 3회 계수하고, 300,000개의 세포/ml로 분할하였다. CH12-LX 뮤린 세포주를 스탠포드(Stanford)의 마이클 스나이더(Michael Snyder) 랩에서 제공하였다. 세포를 10% FBS, 1% Pen-strep(페니실린 및 스트렙토마이신) 및 1x10^5M B-ME가 포함된 RPMI 1640 배지에서 배양하였다. 이를 주 3회 계수하고, 1x10^5개의 세포/ml의 밀도로 유지하고, 분할하여, 세포 농도를 유지하였다. 두 세포주를 5% CO2를 사용하여 37℃에서 인큐베이션하였다.
세포주로부터의 핵 단리 및 고정
부유 세포의 경우, 약 1천만 내지 1억 개의 세포를 얻고, 실온에서 5분간 500 x g로 스피닝하여 세포를 펠릿화한다. 상청액을 흡인하고, 펠릿을 1 ml 옴니-ATAC 용해 완충액(10 mM NaCl, 3 mM MgCl2, 10 mM 트리스-HCl pH 7.4, 0.1% NP40, 0.1% 트윈 20 및 0.01% 디지토닌) 중에 재현탁시키고, 얼음 상에서 3분간 인큐베이션한다. 0.1% 트윈(Tween) 20가 포함된 5 ml의 10 mM NaCl, 3 mM MgCl2, 10 mM 트리스-HCl pH 7.4를 첨가하여, 핵을 4℃에서 500 x g로 5분간 펠릿화한다. 상청액을 흡인하고, 핵을 5 ml 1X DPBS(서모 피셔 카탈로그 번호 14190144)에 재현탁시킨다. 핵을 가교결합시키기 위해, 140 μl의 37% 포름알데히드(메탄올 함유)(VWR 카탈로그 번호 MK501602)을 최종 농도 1%로 한 번에 첨가한다. 고정 혼합물을 1 내지 2 분마다 뒤집으면서 실온에서 10분간 인큐베이션한다. 가교결합 반응을 켄칭(quenching)하기 위해, 250 μl의 2.5 M 글리신을 첨가하고, 실온에서 5분간 인큐베이션하고, 이어서 15분간 얼음 상에서 인큐베이션하여, 가교결합을 완전히 정지시킨다. 20 μl의 켄칭된 가교결합 혼합물을 계수를 위해 20 μl의 트리판 블루에 취한다. 가교결합된 핵을 4℃에서 500 x g로 5분간 스피닝하여, 상청액을 흡인한다. 고정된 핵을 적절한 양의 동결 완충액(pH 8.0의 50 mM 트리스, 25% 글리세롤, 5 mM Mg(OAc)2, 0.1 mM EDTA, 5 mM DTT(시그마-알드리치(Sigma-Aldrich) 카탈로그 번호 646563-10X0.5ml), 1×프로테아제 억제제 칵테일(시그마-알드리치 카탈로그 번호 P8340)에 재현탁시켜, 1 ml 분취물 당 200만 개의 핵을 얻고, 액체 질소 중에서 급속 동결하여, -80℃로 저장한다.
조직 채취 및 저장
관심 조직을 단리하고 1X HBSS(Ca 및 Mg 포함)로 린스한 다음에, 반 정도 축축한 거즈로 닦아내어 건조시킨다. 건조된 조직을 내구성이 강한 호일이나 동결관(cryotube)에 놓고, 액체 질소를 사용하여 조직을 급속 동결한다. 동결 조직을 -80℃로 저장한다.
동결 태아 조직의 핵 단리 및 고정
분쇄 당일에, 미리 표지화된 튜브를 미리 냉각시키고 드라이아이스와 금속 사이의 천 타월로 드라이아이스를 두드린다. 18" x 18"의 튼튼한 포일을 사용하여 "패딩"을 만들고 반으로 두 번 접어 직사각형을 만든다. 두 번 더 접어서 정사각형을 만든다. 포일 "패딩" 내부에 동결 조직을 넣은 다음에, 포일이 파열되는 경우 조직이 드라이아이스 위로 떨어지는 것을 방지하기 위해 미리 냉각된 4 mm 플라스틱 백 내부의 포일 패딩에 조직을 넣는다. 이 조직 패킷을 2개의 드라이아이스의 슬랩(slab) 사이에서 냉각시킨다. 미리 냉각된 해머를 사용하여, 상기 패킷 내부의 조직을 수동으로 분쇄하고; 샘플 가열을 피하기 위해 중단하기 전에 분쇄 동작을 피하면서 3 내지 5회 충격을 가한다. 해머를 냉각시키고, 조직이 균일해질 때까지 필요에 따라 분쇄를 반복한다. 분쇄된 조직을 미리 표지화되고 미리 냉각된 1.5 ml 로빈드(LoBind) 및 뉴클레아제 무함유 스냅캡 1.5 ml 튜브(에펜도르프(Eppendorf) 카탈로그 번호 022431021)에 분취한다. 분말상 조직의 분취물은 추가 처리될 때까지 -80℃로 저장할 수 있다.
핵 단리일에, 용해 완충액을 튜브에 직접 추가하거나 동결된 분취물을 세포 용해 완충액이 있는 60 mm 접시에 붓고 블레이드로 더 잘게 다진다. 분취물이 저장 중 어느 시점에서 해동되지 않는 한, 분말상 조직 분취물은 샘플 손실 없이 저장 튜브에서 쉽게 미끄러져 나와야 한다. 본 발명자들은 원래 조직 중량 mg 당 약 20,000개의 세포를 추정하고, 성능은 조직마다 다를 수 있다. 분쇄된 조직을 1 ml 옴니 용해액(RSB + 0.1% 트윈 + 0.1% NP-40 및 0.01% 디지토닌)에 재현탁시킨 후에, 15 ml 팔콘 튜브로 옮긴다. 핵을 얼음 상에서 3분간 인큐베이션한 다음에, 5 m 의 RSB + 0.1% 트윈 20을 첨가한다. 핵을 4℃에서 500 x g로 5분간 원심분리한다. 상청액을 흡인하고 5 ml 1X DPBS에 재현탁시킨다. 1X DPBS 중의 핵을 100 마이크로미터 세포 여과기(VWR 카탈로그 번호 10199-658)로 통과시켜 조직 덩어리를 제거한다. 흄 후드(fume hood)에서, 140 μL의 37% 포름알데히드(메탄올 함유)를 한 번에 첨가하여 1% 최종 농도를 만들고, 튜브를 여러 번 뒤집어 빠르게 혼합하여 핵을 가교결합시킨다. 1 내지 2분마다 튜브를 부드럽게 뒤집으면서 정확히 10분간 실온에서 인큐베이션한다. 250 μL의 2.5 M 글리신(새로 제조됨, 여과 멸균됨)을 첨가하여 가교결합 반응을 켄칭하고, 튜브를 여러 번 뒤집어 잘 혼합한다. 실온에서 5분간 인큐베이션한 다음에, 얼음 상에서 15분간 인큐베이션하여 가교결합을 완전히 중지시킨다. 첨가할 동결 완충액의 최종 부피를 알기 위해 혈구계를 사용하여 핵을 계수하는데, 목표는 약 100만 내지 200만 개의 핵/튜브를 동결시키는 것이다. 가교결합된 핵을 4℃에서 5분간 500 x g로 원심분리하여, 상청액을 흡인하고, 1x 프로테아제 억제제 및 5 mM DTT가 보충된 1 내지 10 ml의 동결 완충액 중에 펠릿을 재현탁시킨다. 액체 질소 중에서 핵을 급속 동결하여, 핵을 -80℃로 저장한다.
sci- ATAC - seq3 샘플 처리(라이브러리 구축 및 qc )
동결된 고정된 핵을 -80℃에서 꺼내, 드라이아이스 베드 상에 둔다. 37℃ 수조에서 핵을 해동할 때까지 해동하고(약 30초 내지 1분), 핵을 15 ml 팔콘 튜브로 옮긴다. 핵을 4℃에서 500 x g로 5분간 펠릿화한다. 펠릿을 건드리지 않고 상청액을 흡인하고, 펠릿을 200 μL의 옴니 용해 완충액에 재현탁시킨 후에, 얼음 상에서 3분간 인큐베이션한다. 0.1% 트윈 20가 포함된 1 ml ATAC-RSB로 용해 완충액을 씻어내고, 튜브를 3회 부드럽게 뒤집어 혼합한다. 20 μl의 핵 및 20 μl의 트리판 블루를 취해, 핵을 계수한다. 계수하는 동안, 이후 가능할 때마다 핵을 얼음 상에 유지시킨다. 384^3에서의 3레벨 인덱싱 실험의 경우, 핵 입력 수는 96개의 반응에 산재하는 조직 또는 샘플 당 웰당 50,000개의 핵에서 480만이다. 핵을 펠릿화하고 미리 제조된 태그멘테이션 반응 마스터 믹스(넥스테라 TD 완충액, 1X DPBS, 0.1% 디지토닌, 0.1% 트윈 20, 및 물)에 재현탁시킨다. 로빈드 96웰 플레이트(에펜도르프 카탈로그 번호 30129512)에 와이드 보어 팁(라이닌 인스트루먼트 컴퍼니(Rainin Instrument Co) 카탈로그 번호 30389249)을 사용하여 태그멘테이션 믹스 중의 47.5 μl의 핵을 분취한다. 웰당 2.5 μl의 넥스테라 v2 효소(일루미나 인코포레이티드 카탈로그 번호 FC-121-1031)를 첨가하여, 접착 테이프로 플레이트를 밀봉하고, 500 x g로 30초간 스피닝한다. 플레이트를 55℃에서 30분간 인큐베이션하여 DNA를 태그멘테이션한다. 50 μl의 정지 반응 혼합물(40 mM EDTA + 1 mM 스페르미딘(Spermidine))을 첨가하여 태그멘테이션 반응을 중단한 다음에, 37℃에서 15분간 인큐베이션하였다. 와이드 보어 팁을 사용하여, 태그멘테이션된 핵을 폴링하고, 4℃에서 5분간 500 x g로 펠릿화한 후에, 0.1% 트윈 20가 함유된 ATAC-RSB로 세척하였다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 0.1% 트윈 20가 함유된 384 μl의 ATAC-RSB에 재현탁시킨다. PNK 반응 마스터 믹스(1X PNK 완충액(NEB 카탈로그 번호 M0201L), 1 mM rATP(NEB 카탈로그 번호 P0756S), 물 및 T4 폴리뉴클레오티드 키나제(NEB 카탈로그 번호 M0201L))를 만들어, 핵에 첨가한다. 5 μl의 PNK 반응 혼합물을 4개의 로빈드 96웰 플레이트에 분취하고, 접착 테이프로 밀봉하여, 4℃에서 5분간 500 x g로 스피닝한다. PNK 반응물을 37℃에서 30분간 인큐베이션하였다. 13.8 μl의 라이게이션 마스터 믹스(1X T7 리가제 완충액(NEB, 카탈로그 번호 M0318L), 9 μM N5_ 스플린트(splint)(IDT), 물 및 2.5 μl T7 DNA 리가제 효소(NEB 카탈로그 번호 M0318L))를 PNK 반응물에 직접 첨가한다. 다중 채널 또는 96 헤드 디스펜서(리퀴데이터(Liquidator), 카탈로그 번호 17010335)를 사용하여, 4개의 96웰 플레이트에 대하여 각각의 웰에 1.2 μl의 50 μM N5_ 올리고(oligo)(IDT)를 첨가한다. 접착 테이프로 밀봉하여, 500 x g로 30초간 스피닝한 후에, 25℃에서 1시간 동안 인큐베이션한다. 제1 라운드의 라이게이션 후에, 1 mM의 스페르미딘이 함유된 20 μl의 40 mM EDTA를 첨가하여 라이게이션 반응을 중지시키고, 37℃에서 15분간 인큐베이션한다. 와이드 보어 팁을 사용하여, 각각의 웰을 트로프(trough)에 풀링하고, 50 ml 팔콘 튜브에 옮긴다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 0.1% 트윈 20가 함유된 1 ml의 ATAC-RSB에 핵을 재현탁시켜 임의의 잔류 라이게이션 반응 혼합물을 세척한다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 펠릿을 건드리지 않고 상청액을 흡인한다. N7 라이게이션 마스터 믹스(1X T7 리가제 완충액, 9 uM N7_ 스플린트(IDT), 물 및 T7 DNA 리가제)를 만들어, 핵을 라이게이션 마스터 믹스로 재현탁시킨다. 마스터 믹스에 현탁시킨 핵을 트로프에 옮기고, 와이드 보어 팁을 사용하여, 18.8 μl의 라이게이션 마스터 믹스를 4개의 96웰 로빈드 플레이트에 분취한 다음에, 1.2 μl의 50 μM N7_ 올리고(IDT)를 4개의 96웰 플레이트에 대하여 각각의 웰에 첨가한다. 접착 테이프로 플레이트를 밀봉하여, 500 x g로 30초간 스피닝한 다음에, 25℃에서 1시간 동안 인큐베이션한 후에, 20 μl의 40 mM EDTA 및 1 mM 스페르미딘을 첨가하여 라이게이션을 중지시키고, 37℃에서 15분간 인큐베이션한다. 와이드 보어 팁을 사용하여 웰을 트로프에 풀링한 다음에, 50 ml 팔콘 튜브에 옮긴다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 핵을 2 ml의 퀴아젠(Qiagen) EB 완충액(퀴아젠 카탈로그 번호 19086)에 재현탁시킨다. 20 μl의 재현탁된 핵 및 20 μl의 트리판 블루를 취해 핵을 계수한다. 핵을 μl 당 100 내지 300개의 핵으로 희석하고, 4개의 96웰 로빈드 플레이트에 웰당 10 μl를 분취한다. 핵을 역가교결합시키기 위해, 역방향 가교결합 마스터 믹스(EB 완충액, 프로테이나제(Proteinase) k(퀴아젠, 카탈로그 번호 19133) 및 1% SDS; 각각, 웰당 1 μl/0.5 μl/0.5 μl)를 제조하여, 핵의 각 웰에 2 μl를 첨가한다. 접착 테이프로 밀봉하여, 500 x g로 30초간 스피닝한 후에, 65℃에서 16시간 동안 인큐베이션한다. 본 발명자들은 테스트 PCR 증폭을 수행하고, 플레이트의 여러 웰에서 SYBR 그린으로 반응을 모니터링하여, 최적 사이클 수를 결정하였다. 테스트 PCR 결과에 기초하여, 본 발명자들은 나머지의 역방향 가교결합 플레이트를 웰당 7.5 μl NPM, 0.5 μl BSA(NEB, 카탈로그 번호 B9000S), 1.25 μl 인덱싱된 P5_10 μM(IDT), 1.25 인덱싱된 P7_10 μM(IDT) 및 물로 증폭시켰다. 2 라운드의 라이게이션 후에 조직 및 핵 회수의 양에 따라, 본 발명자들의 관리 하에서 11 내지 13회의 사이클이 일반적이다. 사이클링 조건은 다음과 같다: 72℃ 3 min, 98℃ 30 sec, 11 내지 13회의 사이클(98℃ 10 sec, 63℃ 30 sec, 72℃ 1 min)이고, 10℃에서 유지하였다. 96웰 플레이트의 증폭 산물을 트로프에 풀링하고, 제조업자의 사양서에 따라 자이모 클린 앤드 컨센트레이트(Zymo Clean & Concentrate)-5(자이모 리서치(Zymo Research) 카탈로그 번호 D4014)를 사용하여 정제하여, 4개의 컬럼에 대하여 분할하였다. 각 컬럼을 25 μl EB 완충액으로 용출시킨 다음에, 1개의 튜브에 배합하였다. 100 μl의 AMPure 비드(아젠코트, 카탈로그 번호 A63882)를 정제된 PCR 산물에 첨가하여, 잔류 프라이머 이량체를 추가로 제거하고, 제조업자의 정제 과정에 따랐다. 25 μl 퀴아젠 EB 완충액으로 비드로부터 최종 라이브러리를 용출시킨다. 200 내지 1000개의 염기쌍 윈도우를 설정하여 시퀀싱 중에 잘 클러스터링될 단편의 nM 농도를 결정하는 애질런트(Agilent) 4200 테이프스테이션 시스템(Tapestation System)의 D5000 스크린테이프(애질런트 카탈로그 번호 5067-5588 스크린테이프, 5067-5589 시약)를 사용하여 최종 라이브러리를 정량화한다. 2 nM 풀을 등몰 풀링으로부터 생성하고, 맞춤형 레시피 및 프라이머를 사용하여 NextSeq 고 출력 150 사이클 키트(일루미나 카탈로그 번호 20024904)로 1.8 pM 로딩 농도에서 시퀀싱하였다.
방법 개발을 위한 데이터 처리
sci-ATAC-seq3를 개발하기 위해 수행된 반야드 실험에 대한 데이터 처리를 상술한 바와 같이 행하였다. 간단히 말해서, BCL 파일을 bcl2fastq v2.16(일루미나)를 사용하여 fastq 파일로 변환시켰다. 각각의 리드는 4개의 구성요소로 구성된 세포 바코드와 관련되었다: 분자의 P5 말단에는 태그멘테이션 및 PCR을 위한 행 주소가 추가되었고, 분자의 P7 말단에는 태그멘테이션 및 PCR을 위한 열 주소가 추가되었다. 이러한 바코드의 오류를 수정하기 위해, 본 발명자들은 이들을 4개의 구성부분으로 나누고, 이러한 수정이 필요한 편집 거리에서 모호하지 않은 한, 2의 편집 거리 내에서 가장 가까운 바코드로 이들을 수정하였다. 4개의 바코드 중 하나라도 알려진 바코드로 수정할 수 없으면, 상응하는 리드쌍이 삭제된다. 그 다음에, 리드를 옵션(option) 'ILLUMINACLIP:{adapters_path}:2:30:10:1:true TRAILING:3 SLIDINGWINDOW:4:10 MINLEN:20'를 사용하여 트리모매틱(Trimmomatic)으로 트리밍하였다. 트리밍된 리드를 옵션 '-X 2000 -3 1'을 갖는 보티2(bowtie2)를 사용하여 하이브리드 인간/마우스(hg19/mm9) 게놈에 매핑하였다. 이어서, 품질이 10 이상인 게놈에 적절한 쌍으로 매핑되지 않은 리드를 옵션 '-f3 -F12 -q10'을 사용하여 samtools로 필터링하고, 단지 상염색체 또는 성염색체에 대해 매핑된 리드를 다운스트림 분석을 위해 보유하였다. 맞춤형 스크립트를 사용하여, 각 세포 바코드에 대해 리드를 중복 배제하였다. 조직에 대한 파이프라인(후술됨)과는 달리, 리드 쌍이 중복 배제 시에 유지되지 않았음에 유의한다.
조직 샘플에 대한 데이터 처리
조직 샘플로부터 시퀀싱 데이터를 처리하는 방법은 또한 보다 큰 데이터세트로 스케일하기 위해 수많은 최적화가 있음에도, 엄밀하게 사용되는 방법을 밀접하게 따르지만, 편의를 위해 본 명세서의 설명을 포함한다. BCL 파일을 bcl2fastq v2.20(일루미나)를 사용하여 fastq 파일로 변환시켰다. 리드 이름에 수정된 바코드가 포함된 리드는 본 발명자들의 데이터세트의 각 샘플에 대해 별도의 R1/R2 파일로 작성되었다. 알려진 바코드 세트에 대한 모든 미스매치의 매핑을 사전에 계산하고(짧은 길이 및 비교적 적은 수의 바코드 때문에 실현가능함), 수정 스크립트를 pypy(이러한 특정 테스크에 대해 훨씬 더 빠른 C파이썬 인터프리터(cpython interpreter)의 대안)를 사용하여 실행하고, 본 발명자들이 시퀀싱 런(run)의 상이한 레인들에 걸쳐 이러한 계산을 병렬처리하여, 본 발명자들의 이전의 방법에 비해 런타임을 현저하게 개선시켰음에 주목한다.
다음으로, 본 발명자들은 3' 말단으로부터의 저 품질 염기/어댑터 서열을 옵션 ILLUMINACLIP:{adapters_path} TRAILING:3 SLIDINGWINDOW:4:10 MINLEN:20를 사용하여 트리모매틱(Trimmomatic)으로 트리밍한 다음에, 트리밍된 리드를 옵션으로서 '-X 2000 -3 1'을 갖는 보티2를 사용하여 hg19 참조 게놈에 매핑한 후에, 매핑 품질이 10 이상인 상염색체 또는 성염색체에 특이적으로 매핑되지 않은 리드쌍을 Samtools -- samtools view -L {whitelist of chromosomes} -f3 -F12 -q10 -bS을 사용하여 필터링하였다. 얻어진 BAM 파일을 분류하고, 각각의 샘플에 대한 정렬된 리드를 삼바밤바(sambabamba)를 사용하여 병합하여, 얻어진 BAM 파일을 인덱싱하였다. 이러한 프로세스는 가능하다면, 샘플/레인에 대해 병렬처리되었지만, 또한 트리모매틱/보티2/삼바밤바를 제공하면, 런타임을 개선하기 위해 프로세스당 스레드(thread)를 배가할 것이다.
그 후에, 본 발명자들은 각 세포 내에서 고유한 단편 엔드포인트 세트를 식별하여 세포 내의 PCR 복제물을 식별하였다. 본 발명자들의 이전 작업에서, 얻어진 중복배제된 BAM 파일은 중복배제된 BAM 파일에 기록된 리드 쌍 간에 항상 적절한 리드 이름을 유지하지 않아(각 고유 단편에 대해 독립적으로 R1 및 R2에 대한 대표적인 리드를 무작위로 선택함), SnapATAC(github.com/r3fang/SnapATAC)와 같은 일부 도구와의 호환성 문제를 일으켰다. 본 발명자들은 이 문제를 수정하였으며, 또한 1) 각 세포에 대한 단편 엔드포인트의 BED 파일 및 2) 이들의 scATAC 솔루션에 대해 10x 게노믹스에서 제공하는 fragments.tsv.gz 파일을 밀접하게 미러링하는 파일의 기록을 구현하였다.
각 샘플 내에서, 각 세포에 대한 고유 단편 엔드포인트의 BED 파일을 MACS2 -- macs2 callpeak -t {bed} -f BED -g hs --nomodel --shift -100 --extsize 200 --keep-dup all --call-summits -n {sample_name} -o {output_dir}를 통해 각 샘플의 피크 호출에 사용하였다. 얻어진 {outdir}/{sample_name}_peaks.narrowPeak 파일을 분류하고, BED 파일로서 출력하였다. 다운스트림 분석에 포함된 모든 샘플의 피크 호출(추가로 당사의 기준 제외)은 베드툴을 사용하여 병합되어 마스터 세트의 피크를 형성하였다. 본 발명자들은 본 발명자들이 전술한 바와 같이, 본 명세서에서 피크 호출에 BED 파일을 사용하는 것은 의도적이며, BAM 입력에서 macs2의 동작을 바이패스하는 것에 유의한다. BAM 파일이 입력으로 주어지면 MACS2는 R1/R2를 독립적으로 사용하는 리드 쌍 중 하나를 버리거나(입력 데이터를 효과적으로 다운샘플링), BAM 파일이 페어드 엔드(paired-end)(전체 삽입을 따라 커버리지를 계산하지 않고 엔드포인트만 계산함)임을 명시적으로 지정하는 경우 커버리지를 계산할 때 전체 삽입을 사용할 것이다. BED 파일을 사용하면, 분자 엔드포인트 주변의 윈도우만 사용하여 모든 데이터를 사용하고 커버리지를 계산할 수 있다.
각 샘플에 대해 1) 마스터 피크 세트에 속하는 리드, 2) 게놈의 2kb 업스트림 및 5kb 윈도우로 신장된 유전자 본체 내에 속하는 리드를 계산하는 희박 매트릭스를 추가로 생성하였다. 본 발명자들은 또한 주석이 달린 TSS(각 TSS 주변의 +/-1kb), ENCODE 블랙리스트 영역 및 QC 목적을 위해 병합된 피크 세트에서 오는 각 세트의 총 리드 수를 추가로 표로 작성하였다.
본 발명자들은 또한 10x genomics scATAC 파이프라인에 사용된 방법을 사용하여 모티프 매트릭스별로 피크를 구축하였다(support.10xgenomics.com/single-cell-atac/software/pipelines/latest/algorithms/overview 참조). 간단히 말해서, 10x의 방법은 피크 및 빈(bin) 피크의 GC% 분포를 GC 함량의 동일한 변위치(quantile) 범위로 계산하여, 각 빈 내에서 모티프 발생을 개별적으로 발견할 수 있다. MOODS 패키지는 1E-7의 p-값 임계값 및 GC 바이어스를 완화하기 위해 각 GC 빈에 매칭된 백그라운드 뉴클레오티드 조성에서 JASPAR 모티프 데이터베이스의 모티프에 대한 모티프 발생을 식별하는 데 사용된다. 이러한 히트는 다운스트림 분석에서 세포 계수로 모티프 매트릭스를 계산하는 데 사용될 수 있는 피크 매트릭스로 모티프를 구축하는데 사용된다. 이러한 매트릭스는 피크당 단 한번의 모티프만 계수될 수 있도록 이진화된다.
10x genomics scATAC 파이프라인에서 사용하는 수정판의 방법을 사용하여 백그라운드 바코드의 분포로부터 세포 바코드를 분리하였다(상기 링크 참조). 간단히 말해서, 본 발명자들은 2개의 음의 이항(노이즈 대 신호)의 혼합을 피팅한다. 이러한 두 분포 사이에 초기 임계값을 설정하기 위해 10x가 사용되는 방법 대신에, 본 발명자들은 k-means 클러스터링을 로그 스케일된 총 단편 수 분포에 적용하고 평균 총 수가 더 낮은 클러스터의 최대값을 초기 임계값으로 취한다. 이러한 초기 임계값은 최대 우도 추정치(maximum likelihood estimate)를 사용하여 두 분포에 대한 출발 파라미터화를 결정하는 데 사용되고, 기대값 최대화 접근법을 통해 더욱 개선된다. 10x에서 알 수 있듯이, 이러한 적합성은 카운트 분포에 좌측 시프트를 적용하여 향상될 수 있다. 10x 방법과는 달리, 본 발명자들은 2에서 12로 여러 번의 시프트를 시도하고 최상의 적합도(best goodness of fit)를 가진 혼합 모델을 취해 이러한 시프트를 결정한다. 최종적으로, 10x 접근법과는 대조적으로, 본 발명자들은 이러한 방법을 호출된 피크 내의 수 분포가 아니라, 총 단편 수 분포에 적용한다. 선택한 최종 임계값은 둘 다 20 이상의 승산비(신호에 유리함)를 산출하고, 신호 분포의 CDF에서 추정된 신호 분포의 최소 0.5%를 제거하는 최소 카운트이었다(본 발명자들은 이러한 제2 기준이 달리 너무 느슨해 보이는 임계값과의 적합을 방지한다는 것을 알아냈음).
세포 레벨 QC , 차원 축소 및 클러스터링
각 셀에 대해, 상술한 바와 같이 TSS(+/1kb) 주위에, 피크 내에 및 ENCODE 블랙리스트 영역에 속하는 총 고유 리드 및 총 고유 리드 수를 표로 작성하였다. 이러한 총수를 사용하여, 각 샘플에 대한 이들 분포의 육안 검사를 통해 TSS에 속하는 피크의 고유 리드 비율과 고유 리드 비율에 대한 샘플별 컷오프 및 ENCODE 블랙리스트 영역에서 오는 고유 리드의 0.5%에 대한 글로벌 컷오프를 선택한다. 데이터세트의 다른 샘플보다 상당히 낮은 자동화 임계값을 가진 샘플의 수가 적기 때문에, 본 발명자들은 해당 샘플의 자동화 임계값을 높이기 위해 세포 당 1000개의 고유 리드(또는 세포 당 500개의 고유 단편)의 글로벌 임계값을 적용하였다. 본 발명자들은 이전에 개발한 뉴클레오솜 밴딩 점수를 조사했지만, 이전에 마우스 고환에 대해 했던 것처럼 이상치(outlier)의 명확한 분포를 관찰하지 못했으므로, QC에서 이러한 점수를 사용하지 않았다. ENCODE 블랙리스트 영역과 겹치거나 성염색체에 해당하는 피크를 다운스트림 단계 전에 제거하였다(후자는 다른 성별의 샘플 간에 잠재적인 배치 효과의 도입을 피하기 위함). 본 발명자들은 또한 분석되는 조직에서 매우 낮은 카운트를 갖는 피크를 제거하기 위해 피크 분포당 로그 스케일된 카운트의 평균에서 2개의 표준편차를 넘는 피크를 배제하였다.
주어진 조직의 모든 샘플에서 통과 세포를 풀링하여 모든 다운스트림 단계를 한 번에 한 조직씩 수행하였다.
필터링 후에, 본 발명자들은 이중선일 가능성이 가장 높은 세포를 제거하기 위한 시도로 스크러블릿(scrublet) 알고리즘의 수정판을 이용하였다. 간단히 말해서, 본 발명자들은 세포 매트릭스에 의한 피크를 사용하여 데이터세트로부터의 무작위로 선택된 세포의 합으로서 이중선을 시뮬레이션한다. 그 다음에, 본 발명자들은 원래의 세포의 매트릭스 및 시뮬레이션된 이중선을 사용하여 후술하는 바와 같이 LSI를 수행한다. 이 단계에서, 스크러블릿이 scRNA-seq 데이터에 대해 원래의 데이터세트의 배율을 어떻게 적용하는지와 유사하게, 시뮬레이션된 이중선 없이 원래의 데이터세트로부터 도출된 역문서 빈도(IDF) 단어를 사용함에 유의한다. 생성된 50차원 공간에서, 각 세포의 최근린(nearest neighbor)을 찾고, 근린에서의 시뮬레이션된 이중선의 비율을 이중선 점수로 계산한다. 본 발명자들은 가장 높은 이중선 점수를 갖는 각 샘플 내의 상위 10%의 세포를 제외한다.
차원 축소를 위해, 본 발명자들은 처음에 이전에 설명한 잠재적 의미 인덱싱(LSI)의 구현이 본 연구에서 수집된 데이터에서 잘 수행되지 않는다는 것을 알아냈다. 본 발명자들은 이것이 희소성에 의한 가능성이 높은 것으로 추론하고, CisTopic 및 SnapATAC를 비롯한 여러 대체 방법을 조사하였다. 이러한 각각의 방법은 처음에 LSI 구현보다도 더 나은 성능을 수행하는 것으로 보였다. 본 발명자들은 처음에 이러한 방법의 내재하는 유사성 및 데이터의 특성을 고려해 볼 때, 이것이 왜 그런 경우인지 확신할 수 없었다. 본 발명자들은 본 발명자들과 다른 많은 사람들이 이전에 수행하지 않은 LSI의 용어-빈도 용어를 단순히 로그 스케일링하면, 테스트한 다른 툴과 성능이 매우 유사하다는 것을 발견하였다. 본 발명자들은 이것이 로그 스케일링이 없을 때 LSI의 PCA 단계에 대한 강력한 이상치의 영향과 세포당 총 수의 지수 분포에 의한 가능성이 높은 것으로 여겨진다. 이는 본 명세서에서 상세히 논의된다: andrewjohnhill.com/blog/2019/05/06/dimensionality-reduction-for-scatac-data/. 본 발명자들은 로그 스케일링을 사용하거나 사용하지 않고 관찰된 차이가 세포당 총 수의 범위가 큰 희소 데이터세트에서 특히 극적인 것에 주목한다. 본 발명자들은 또한 이후에 다른 그룹들이 LSI가 scATAC 차원 감소에 대한 기존의 다른 모든 방법과 비교하여 손색이 없다는 본 발명자들의 독자적인 발견을 확인하였다는 것에 주목한다. 본 발명자들은 또한 게놈의 피크 또는 5 kb 윈도우를 사용할 때 매우 유사한 성능을 관찰했기 때문에, 이전 작업에서 주로 했던 것처럼 피크를 사용하기로 결정하였다.
요약하면, 본 발명자들은 한 번에 한 조직씩 각 조직으로부터 모든 통과 세포의 세포 기질에 의해 이진화 윈도우에서 LSI를 수행하였다. 본 발명자들은 먼저 개별 세포의 모든 부위에 로그(세포에서 접근가능한 피크의 총수)(로그 스케일링된 "단어 빈도")로 가중치를 주었다. 그 다음에, 이러한 가중치에 로그(1 + 모든 세포에 대한 각 부위의 역 빈도), "역문서 빈도"를 곱하였다. 그 다음에, 본 발명자들은 TF-IDF 행렬에서 특이값 분해를 사용하여, 2차원에서 50차원까지만 유지하여 데이터(PCA)의 저차원 표현을 생성하였다(제1 차원은 리드 깊이와 높은 상관관계가 있는 경향이 있기 때문임). 이어서, 본 발명자들은 세포 당 고유 단편 수의 차이를 추가로 설명하기 위해 PCA 행렬 상에서 L2 정규화를 수행하였다. 이러한 L2 정규화된 PCA 행렬을 모든 다운스트림 단계에 사용하였다.
본 발명자들이 샘플 간의 실질적인 배치 효과에 대한 증거를 관찰하지 못했지만, 본 발명자들은 PCA 공간에 하모니(Harmony) 배치 보정 알고리즘을 적용하여 상이한 샘플 간의 배치 효과를 보정하였다. 본 발명자들은 주로 하모니가 대규모 데이터세트로 쉽게 스케일링되어 본 발명자들의 기존 PCA 좌표를 사용할 수 있다는 사실때문에 하모니를 선택한다.
이러한 보정된 L2 정규화된 PCA 공간은 서라(Seurat) V3로 구현된 바와 같이 루뱅 클러스터링 및 UMAP에 대한 입력으로서 사용되었다.
특이성 점수
ENCODE 블랙리스트 영역과 겹치는 모든 피크를 특이성 점수 계산 전에 필터링하였다. 본 발명자들은 상술된 바와 같이 각각의 사이트/세포 유형 쌍에 대한 특이성 점수를 계산하였다.
모티프 농축
ENCODE 블랙리스트 영역과 겹치는 모든 피크를 모티프 농축 계산 전에 필터링하였다. 먼저, 세포 매트릭스(상술한 바와 같이 검사 중인 데이터 서브세트의 모든 세포에 대해 집계됨)에 의한 해당 피크에 모티프 매트릭스에 의한 피크를 곱해 세포 계수에 의한 모티프 매트릭스를 구한다. 본 발명자들이 주석(예를 들어, 세포 유형) 당 최대 800개의 세포가 포함되도록 데이터세트를 다운샘플링하여 다운스트림 단계에서 농축을 계산할 때 계산 비용을 줄이고 매우 풍부한 세포 유형의 과잉 표현을 줄임에 유의한다. 그 다음에, 각 주석에 대해, 본 발명자들은 speedglm 패키지를 사용하여 음의 2항 회귀(negative binomial regression)를 수행하고, 2개의 입력 변수 - 주요 관심 변수로서 주석 표시 열 및 공변량으로서 각 세포에 대한 로그(입력 피크 행렬의 0이 아닌 항목의 총 수) - 를 사용하여, 총 모티프 수를 예측한다. 본 발명자들은 주석 표시 열에 대한 계수와 절편을 사용하여, 다른 모든 주석의 세포와 관련된 관심 주석의 모티프 수의 배수 변화를 추정한다 -- exp(절편 + 주석_계수) / exp(절편). 본 발명자들은 모든 그룹의 모든 모티프에 대해 이 테스트를 수행한 다음에, 벤자미니-호흐베르크(Benjamini-Hochberg) 절차를 사용하여 p-값을 보정한다.
실시예 2
발달 중의 유전자 발현의 인간세포지도
요약
인간 발달 동안 세포 유형의 출현 및 분화는 기본적인 관심의 대상이다. 본 발명자들은 3레벨 조합 인덱싱(sci-ATAC-seq3)에 기초한 유전자 발현의 단일 세포 프로파일링에 대한 분석을 15개의 기관을 나타내는 121개의 태아 조직에 적용하였으며, 결국 400만 내지 500만 개의 단일 세포에서 전사를 프로파일링하였다. 이들 데이터로부터, 본 발명자들은 세포 유형을 식별하고, 마커 유전자, 발현 및 조절 모듈에 관하여 이것에 주석을 단다. 본 발명자들은 다수의 기관계, 예를 들어 상피, 내피 및 혈액 세포에 걸쳐 있는 세포 유형에 대한 이러한 데이터의 초기 분석에 집중한다. 흥미로운 관찰에는 기관 특이적 내피 특수화, 잠재적으로 새로운 태아 적혈구 생성 부위 및 잠재적으로 새로운 세포 유형이 포함된다. 발달 중의 염색질 접근성의 인간세포지도와 함께, 이들 데이터는 인간 생물학의 탐사를 위한 풍부한 자원이다.
주요 텍스트
몇 가지 이유로, 본 발명자들은 발달 중에 얻은 조직을 사용하여 유전자 발현과 염색질 접근성에 대한 인간세포지도를 생성하기 시작하였다. 첫째, 유전성 질환(대부분이 발달적 요소를 포함함)는 소아의 이환율과 사망률에서 매우 불균형적인 비율을 차지한다. 여기에는 수천 가지 멘델형 유전병과 유전적 요인과 비유전적 요인이 모두 크게 기여하는 더욱 흔히 볼 수 있는 질환(예를 들어, 선천성 심장 결함, 기타 선천적 결손증, 신경 발달 장애 등)가 포함된다. 발달 중인 조직에서 생성된 참조 세포지도는 이러한 각각의 소아 질환을 유발하는 특정 분자 및 세포 이벤트를 이해하기 위한 체계적인 노력의 기초로서 역할을 할 수 있다.
둘째, 발달 중인 조직은 성체 조직보다 인간 세포 유형의 생체내 출현 및 분화를 연구할 훨씬 더 우수한 기회를 제공한다. 배아 및 태아 조직에 비해, 성체 조직은 분화된 세포로 차지되며, 또한 많은 세포 상태는 단순히 표시되지 않는다. 생체 내 발달 궤적의 더 나은 해상도를 통해, 발달 중인 조직으로부터 생성된 단일 세포지도는 생체 내 인간 생물학에 대한 기본 이해와 세포 재프로그래밍 및 세포 요법을 위한 전략을 널리 알릴 수 있다.
셋째, 많은 성인 기관에 대해 선구적인 세포지도가 이미 보고되었지만, 이러한 연구의 독립적인 특성으로 인해 상이한 조직, 예를 들어 상피, 내피 및 혈액 세포에 나타나는 세포 유형 간의 차이를 조사하기가 어렵다. 특히, 기존 데이터를 기반으로 한 비교는 샘플 처리 및 기관별 세포 지도를 생성하는 그룹 간의 기술 플랫폼 차이로 인해 어려움을 겪고 있다.
유전자 발현의 인간세포지도를 위해, 본 발명자들은 3레벨 조합 인덱싱(scI-RNA-seq3)을 기반으로 한 단일 세포 RNA-seq에 대한 최근 개발된 분석을 15개 기관을 나타내는 121개의 태아 조직에 적용했으며, 결국 거의 500만 개 세포에서 유전자 발현을 프로파일링하였다(도 11). 실시예 1에서는, 중복 샘플 세트에 기초하여, 동일한 기관으로부터의 160만 개의 세포에서의 염색질 접근성의 프로파일링이 기재되어 있다. 프로파일링된 기관은 다양한 시스템에 걸쳐 이어지는데; 골수, 뼈, 생식선 및 피부의 부재가 가장 두드러진다.
72일에서 129일 사이의 추정된 재태기간 범위의 28명의 태아로부터 조직을 얻었다. 간단히 말해서, 이들은 다양한 분석을 위해 급속 냉동, 분쇄 및 분할된 얻어진 분말이었다. sci-RNA-seq3의 경우, 핵을 냉각 용해된 분말로부터 직접 추출한 다음에, 파라포름알데히드로 고정시켰다. RNase 및 프로테아제가 풍부한 신장 및 소화 기관의 경우, 본 발명자들은 핵이 아니라 파라포름알데히드로 고정된 세포를 사용하여, 세포 및 mRNA 회수를 증가시켰다. 각 실험에서, 주어진 조직의 핵 또는 세포를 상이한 웰에 침착시켜, sci-RNA-seq3 프로토콜의 제1 인덱스가 또한 공급원을 식별하였다. 핵 실험을 위한 배치 대조군으로서, 본 발명자들은 인간 HEK293T와 마우스 NIH/3T3 핵의 혼합물, 또는 일반적인 '센티넬' 조직(sci-ATAC-seq3 실험에도 사용됨)의 핵을 하나 또는 여러 개의 웰에 스파이킹(spiking)하였다. 세포 실험을 위한 배치 대조군으로서, 본 발명자들은 일반적인 췌장 조직(예를 들어, 핵도 프로파일링됨)으로부터 유래된 세포를 하나 또는 여러 개의 웰에 스파이킹하였다.
본 발명자들은 7개의 일루미나 NovaSeq 실행에 걸친 7개의 실험으로부터 sci-RNA-seq3 라이브러리를 시퀀싱하여, 결국 686억의 리드를 생성하였다. 상술한 바와 같이 데이터를 처리하여, 본 발명자들은 4,979,593개의 단일 세포 유전자 발현 프로파일(UMI > 250)을 회수하였다. 인간-마우스 대조군 웰로부터의 단일 세포 트랜스크립톰은 압도적으로 종 일관성(약 5% 충돌률)을 나타내었다. 센티넬 조직의 핵 또는 세포의 UMAP(Uniform manifold approximation and projection)는 세포 유형 차이가 실험간 배치 효과를 지배함을 나타내었다. 일반적인 췌장 조직에 상응하는 핵 및 세포의 서라를 사용한 통합 분석은 또한 고도의 중복 분포를 가져왔다.
본 발명자들은 기관당 72,241개의 세포 또는 핵의 중앙값을 프로파일링하였다(최대 2,005,512개(대뇌), 최소 12,611개(흉선)). 다른 대규모 단일 세포 RNA-seq 지도와 비교하여 상대적으로 얕은 시퀀싱(세포당 약 14,000개의 원시(raw) 리드)에도 불구하고, 본 발명자들은 세포 또는 핵 당 동등한 수의 UMI를 회수하였다(중앙값 863 UMI 및 525개의 유전자). 예상대로, 핵은 세포보다 인트론에 매핑되는 UMI의 비율이 더 높았다(핵의 경우 56%; 세포의 경우 45%; p < 2.2e-16, 양측 윌콕슨 순위합 검정(two-sided Wilcoxon rank sum test)). 본 발명자는 이제부터 달리 명시되지 않는 한, 세포 및 핵을 모두 지칭하기 위해 '세포'를 사용한다.
조직은 성별별 유전자 발현에 의해 남성(n=14) 또는 여성(n=14)으로부터 유래하는 것으로 쉽게 식별되었다. 15개의 기관 각각을 각각의 성별 및 다양한 재태기간 중 2개 이상을 포함하는 다수의 샘플(중앙값 8)로 나타내었다. 개체 또는 실험이 아니라 기관별로 클러스터링된 각각의 조직의 '의사 벌크' 트랜스크립톰의 UMAP 가시화. 발현된 단백질 코딩 전사체의 약 절반이 이러한 의사 벌크 트랜스크립톰 세트에서 차등적으로 발현되었다(20,033개 중 11,766개; FDR 5%).
본 발명자들은 클러스터 내 및 클러스터 간 이중선을 모두 포함한 이중선 추정치 12.6%에 해당하는 6.4%의 이중선 가능성이 있는 이중선 세포를 검출하기 위해 스크러블릿을 적용하였다. 그 다음에, 본 발명자들은 이전에 200만 개의 세포의 마우스 기관 형성 지도(MOCA)에 대해 개발한 전략을 적용하여, 저품질 세포, 이중선이 풍부한 클러스터, 스파이크트-인(spiked-in) HEK293T 및 NIH/3T3 세포를 제거하였다. 하기에 기재된 모든 분석은 이러한 필터링 단계 후에 남아있는, 112개의 태아 조직으로부터 유래된, 4,062,980개의 인간 단일 세포 유전자 발현 프로파일을 기반으로 한다.
77가지의 주요 세포 유형의 식별
저품질 세포 및 이중선이 풍부한 클러스터에 대해 필터링한 후에, 400만 개의 단일 세포 유전자 발현 프로파일에 대하여, 기관별로 모노클(Monocle) 3를 사용하여 UMAP 가시화 및 루뱅 클러스터링을 행하였다. 결국, 본 발명자들은 처음에 문헌의 세포 유형 특이적 마커에 기초하여, 172개의 세포 유형을 식별하고 주석을 달았다. 조직 전반에 걸친 공통 주석의 붕괴로 인해, 77가지의 주요 세포 유형으로 축소되었으며, 그 중 54개는 단일 기관(예를 들어, 소뇌의 푸르키네(Purkinje) 뉴런)에서만 관찰되었고, 23개는 다수의 기관(예를 들어, 모든 기관의 혈관 내피 세포)에서 관찰되었다. 이들 77가지의 주요 세포 유형은 중앙값 4,829개의 세포를 포함하고, 1,258,818개의 세포(대뇌의 흥분성 뉴런)에서 단 68개의 세포(부신의 SLC26A4_PAEP 양성 세포)까지 다양하다. 각각의 주요 세포 유형은 다수의 개체(중앙값 9)가 기여하였다. 본 발명자들은 종, 발달 단계 및 기술에 대한 차이에도 불구하고, 동일한 기관에 대한 이전의 지도 작업으로 식별된 거의 모든 주요 세포 유형을 회수하였다. 본 발명자들은 5개(흉선) 내지 16개(눈, 심장 및 위) 범위의 기관당 12개의 주요 세포 유형의 중앙값을 식별하였다. 본 발명자들은 프로파일링된 세포의 수와 식별된 세포 유형의 수 사이의 상관관계를 관찰하지 못했다(ρ = -0.10, p = 0.74).
평균적으로, 본 발명자들은 주요 세포 유형당 11개의 마커 유전자를 식별하였다(최소 0개, 최대 294개; 발현과 관련하여 1위 세포 유형과 2위 세포 유형 사이에 적어도 5배 차이로 차등적으로 발현된 유전자로 정의됨; FDR 5%). 다른 기관에서 유사한 세포 유형(예를 들어, ENS 글리아 및 슈반 세포)으로 인해 이러한 역치에서 마커 유전자가 결여된 몇몇 세포 유형이 있었다. 이러한 이유로, 본 발명자들은 동일한 절차에 의해 결정되지만 기관별로 결정된 "조직 내 마커 유전자" 세트도 보고한다(세포 유형당 평균 147개의 마커; 최소 12개, 최대 778개).
표준 마커가 일반적으로 관찰되고, 실제로 본 발명자들의 주석 과정에 중요하였지만, 우리 지식으로는 대부분의 관찰된 마커들은 새롭다. 예를 들어, OLR1, SIGLEC10 및 비코딩 RNA RP11- 480C22 .1CLEC7A, TLR7CCL3와 같은 보다 확립된 소교세포 마커와 함께, 가장 강한 소교세포 마커 중 하나이다. 예상대로, 이러한 조직이 활발하게 발달하고 있다는 것을 고려하면, 77가지의 주요 세포 유형 중 다수는 전구체에서 하나 또는 여러 최종 분화된 세포 유형으로 진행하는 상태를 포함한다. 예를 들어, 대뇌 흥분성 뉴런은 PAX6+ 신경전구체로부터 NEUROD6+ 분화 뉴런으로 SLC17A7+ 성숙 뉴런까지 연속 궤적을 나타낸다. 간에서, 간 전구세포(DLK1+, KRT8+, KRT18+)는 기능적 간모세포(SLC22A25+, ACSS2+, ASS1+)의 연속 궤적을 나타낸다. 전사 프로그램의 성숙이 발달 시간과 밀접하게 결합되어 있는 마우스 기관형성과 대조적으로, 세포 상태 궤적은 이러한 인간 데이터에서 추정된 재태기간과 일관되지 않은 상관관계가 있었다. 가장 간단한 설명은 유전자 발현이 발달의 초기 단계, 즉, 기관형성 대 태아 발달 동안 현저하게 더욱 역동적이라는 것이다. 그러나, 추정되는 재태기간에서의 불균일한 표현 및 부정확성이 본 발명자들의 해결책을 혼란스럽게 할 수도 있다.
이러한 세포 유형의 수동 주석 이외에, 본 발명자들은 또한 가넷(Garnett)을 사용하여 각 기관에 대한 반자동 분류자(classifier)와 글로벌 분류자를 생성하였다. 가넷 분류자는 문헌으로부터 별도로 컴파일링된 마커 유전자를 사용하여 클러스터링에 관계없이 생성되었다. 가넷에 의한 분류는 수동 분류와 매우 일치하였으며, 예를 들어 88%의 세포가 췌장에서 일치되었다(클러스터-신장; 5%는 일치하지 않음, 7% 미분류됨). 이러한 인간세포지도에서 훈련된 가넷 모델을 사용하여, 본 발명자들은 또한 다른 방법과 성체 기관의 데이터를 포함하여 다른 단일 세포 데이터세트로부터 세포 유형을 정확하게 분류할 수 있었다. 예를 들어, 본 발명자들은 췌장용 카넷 분류자를 inDrop 단일 세포 RNA-seq 데이터에 적용하고, 이 모델이 세포의 82%에 정확하게 주석을 달았다는 것을 발견하였다(클러스터 확장; 11% 부정확; 8% 미분류됨). 이러한 가넷 모델은 당사 웹사이트에 게시되어 있으며, 다양한 기관의 단일 세포 데이터를 자동 분류하는데 널리 사용될 수 있다.
조직 간 통합 및 예상치 못한 세포 유형 조사
다음으로, 본 발명자들은 15개의 모든 기관에 대한 데이터를 통합하여 비교하고자 하였다. 기관 및/또는 세포 유형당 샘플링된 세포 수의 총체적 차이의 효과를 완화시키기 위해, 본 발명자들은 기관 당 세포 유형당 5,000개의 세포를 무작위로 샘플링하고(또는 주어진 세포 유형의 5,000개 미만의 세포가 주어진 기관에 나타나는 경우, 모든 세포를 취하였음), 각 기관 내의 세포 유형에 대하여 상위 차등 발현된 유전자를 기반으로 UMAP 가시화를 수행하였다. 예상대로, 다수의 기관에 나타낸 세포 유형은 일반적으로 간질 세포, 림프 내피 세포 및 중피 세포와 함께 클러스터링되었다. 발달적으로 관련된 세포 유형은 일반적으로 예를 들어, 다양한 혈액 세포, PNS 뉴런, 중간엽과 같이 공국소화되어 있다.
본 발명자들은 이러한 글로벌 UMAP를 이용하여, 처음에 관찰된 기관에서 명확하게 주석을 달 수 없거나 예상되지 않은 세포 유형을 밝혀냈다. 많은 경우에, 글로벌 UMAP에서 주석이 달린 세포 유형과의 공국소화는 이들의 정체성을 밝혀낸다. 예를 들어, 본 발명자들은 태반의 영양아층 거대세포(예를 들어, 높은 레벨의 태반성 락토겐, 융모성 고나노트로핀 및 아로마타제 발현)와 높은 상관관계가 있는 폐 및 부신의 세포를 관찰하여, 이들이 태아 순환에 들어간 영양아층임을 시사한다(CSH1_CSH2_양성 세포). 더욱 놀랍게도, 본 발명자들은 간모세포(예를 들어, 높은 레벨의 혈청 알부민, 알파 태아단백 및 아포리포단백질 발현)와 고도로 관련된 태반 및 비장의 세포를 관찰한다(AFP_ALB_양성 세포).
심장에서, 본 발명자들은 이전의 지도 작업에 기초하여 예상하지 못한 세 가지 세포 유형을 관찰하였다. 이들 중 첫 번째(SATB2_LRRC7 양성 뉴런)는 CNS 흥분성 뉴런과 강한 상관관계가 있으며, SATB2, PTPRD DAB1을 포함한 마커를 발현한다. 본 발명자들이 아는 한, 이는 예상치 못한 관찰이다. 본 발명자들은 다른 조직으로부터의 오염을 완전히 배제할 수 없지만, 샘플링된 모든 심장(n=9)에서 일관된 비율(범위)로 이러한 세포를 관찰하고, 게다가 심장에서 다른 CNS 유사 세포 유형을 관찰하지 못한다. 다른 2개는 심근세포와 고도로 상관관계가 있지만, 특수화된 역할을 반영할 수 있는 별개의 프로그램을 발현한다. 구체적으로, ELF3_AGBL2 양성 심근세포 유사 세포는 폐 분비 단백질 1(SCGB3A2), 폐 서팩턴트(surfactant) 관련 단백질 B(SFTPB) 및 폐 서팩턴트 관련 단백질 C(SFTPC)를 비롯한 폐포 서팩턴트 분비세포와 관련된 많은 유전자를 특이적으로 발현하는 반면에, CLC_IL5RA 양성 심근세포 유사 세포는 인터루킨 5 수용체 서브유닛 알파(IL5RA) 및 조혈 특이적 막관통 단백질 4(MS4A3)를 비롯한 면역세포 관련 수용체를 특이적으로 발현한다.
세포 특이적 유전자 조절 네트워크 및 경로의 특성화
다음으로, 본 발명자들은 세포간 또는 세포-환경 상호작용을 조절하는 데 중요한 표면 및 분비 단백질 코딩 유전자의 세포 특이적 발현을 조사하였다. 대부분의 표면 단백질(5,480개 중 4,565개)과 대부분의 분비 단백질(2,933개 중 2,491개)은 77가지의 주요 세포 유형에 걸쳐 차등적으로 발현되었다(FDR 0.05). 예를 들어, 소교세포는 알츠하이머병(Alzheimer's disease)과 관련된 시알산 결합 면역글로불린 유사 렉틴 8(SIGLEC8)과 산화된 LDL 엔도사이토시스 수용체(OLR1)를 특이적으로 발현하며; 내피 세포는 혈관 형성 및 혈관 패턴 형성에 관여하는 ROBO4(roundabout guidance receptor 4) 및 내피 세포 접착 분자(ESAM)를 특이적으로 발현한다. 유사하게, 다른 뉴런은 별개의 세포 표면 수송체에 의해 표시되었다. 예를 들어, 소뇌에서, 본 발명자들은 억제 개재 뉴런에서의 글리신 신경전달물질 수송체 SLC6A5, 푸르키네 뉴런에서의 흥분성 아미노산 수송체 SLC1A6, 과립 뉴런에서의 칼륨 채널 KCNK9 및 SLC24A4_PEX5L 양성 억제성 뉴런에서의 나트륨/칼륨/칼슘 교환체 SLC24A4의 특이적 발현을 관찰한다. 분비 단백질의 세포 유형 특이적 발현의 유사한 무수한 예가 있다. 특히 흥미로운 예는 모두 간엽 전구체 또는 줄기 세포와 관련된 당단백질 STC2와 TF TLX1NKX2-3를 특이적으로 발현하는 비장의 예상치 못한 세포 유형(STC2_TLX1 양성 세포)이다.
비코딩 RNA는 질병뿐만 아니라 정상적인 발달에 중요한 역할을 하는 것으로 입증되었다. 이들 데이터에서, 예를 들어, 소교세포(RP11-489O18.1, RP11-480C22.1, RP11-10H3.1) 또는 내피 세포(AC011526.1, RP11-554D15.1, CTD-3179P9.1)에 고도로 특이적인 ncRNA인, 10,695개의 비코딩 RNA 중 3,130개가 77가지의 주요 세포 유형에 대하여 차등적으로 발현되었다(FDR 0.05). 이러한 세포 유형 특이적 ncRNA의 생물학적 유의성은 여전히 불분명하지만, 이의 발현 패턴이 77가지의 주요 세포 유형을 발달적으로 일관된 그룹으로 분리하기에 충분하다는 것은 주목할 만하다.
대다수의 전사 인자(TF)는 또한 77가지의 주요 세포 유형(1,984개 중 1,715개, FDR 0.05)에 대하여 차등적으로 발현되었다. 각각의 세포 유형에 대해 가장 특이적인 TF 들 중 다수는 예상과 일치하였는데, 선방 세포의 경우 RBPJL, 희소돌기아교세포의 경우 OLG1OLG2, 위성 세포의 경우 PAX7이었다. 다른 경우에는, 세포 유형 특이적 TF는 예기치 못한 세포 유형의 고려 사항을 알려주었는데, 예를 들어 췌장에서 관찰되고 림프계 케모카인의 발현을 특징으로 하는 간질 세포 유형(CCL19_CCL21 양성 세포)은 면역 활성화와 관련된 TF를 특이적으로 발현한다는 것이다.
본 발명자들은 유전자 발현 데이터를 통해 TF-표적 유전자 상호작용을 직접 예측하고자 하였다. 간단히 말해서, 후보 상호작용은 전체 데이터 세트에서 TF 발현과 표적 유전자 발현 사이의 공분산에 의해 확인되었다. 이러한 상호 작용은 ChIP-seq 결합 및 모티프 농축 분석(방법)에 의해 추가로 필터링되었다. 706개의 TF와 12,868개의 표적 유전자를 포함한 56,272개의 후보 TF-표적 유전자 링크가 유지되었다. 이들 706개의 TF 연결 유전자 세트 중 220개는 TF 네트워크(TRRUST) 또는 Enrichr TF-유전자 네트워크의 수동으로 큐레이팅된 데이터베이스에서 해당 TF의 농축(FDR 0.05)을 보여주었다(예를 들어, E2F1에 연결한 330개의 유전자에 대한 최상위 농축 TRRUST TF는 E2F1임, 조정된 p-값 = 2.2e-14; FLI1에 연결한 1,219개의 유전자에 대한 최상위 Enrichr TF는 FLI1임, 조정된 p-값 = 5.6e-122). 본 발명자들이 이러한 706개의 TF에 할당된 표적 유전자를 치환하고 분석을 반복할 때, TF 연결 유전자 세트 중 어느 것도 동일한 임계값에서 해당 TF에 대해 유의하게 풍부하지 않다.
기관에 대한 혈액 계통 발달의 특성화
이러한 데이터세트의 특성은 광범위하게 나타나는 세포 유형, 예를 들어 혈액 세포, 내피 세포 및 상피 세포 내에서의 유전자 발현의 기관 특이적 차이를 조사할 기회를 만든다. 이러한 첫 번째 분석으로서, 본 발명자들은 조혈 세포 유형에 상응하는, 모든 기관으로부터 유래된 103,766개의 세포를 재클러스터링하였다. 그 다음에, 본 발명자들은 루뱅 클러스터링을 수행하고, 공개된 유전자 마커를 기반으로, 세분화된 면역세포 유형에 추가로 주석을 달았으며, 일부 경우에는 매우 희귀한 세포 유형을 식별하였다. 예를 들어, 골수성 세포는 소교세포, 대식세포 및 다양한 수지상 세포 아형(CD1C+, S100A9+, CLEC9A+ 및 pDC)으로 분리된다. 소교세포 클러스터는 주로 대뇌와 소뇌로부터 유래하며, 대식세포와 잘 분리되므로, 별개의 발생학적 기원에 부합한다. 림프구 세포는 B 세포, NK 세포, ILC 3 세포 및 T 세포(후자는 흉선세포증식을 포함함)를 포함하는 여러 그룹으로 클러스터링되었다. 본 발명자들은 또한 형질 세포(모든 혈액 세포의 0.1% 또는 전체 데이터세트의 0.003%인 139개의 세포; 대부분 태반에 있음) 및 TRAF1+ APC(모든 혈액 세포의 0.2% 또는 전체 데이터세트의 0.005%인 189개의 세포; 대부분 흉선 및 심장에 있음)와 같은 매우 희귀한 세포 유형을 회수하였다.
다양한 면역 세포 유형에 대한 유전자 발현 마커가 광범위하게 연구되었지만, 제한된 기관 또는 세포 유형 세트를 통한 이의 정의에 의해 제한될 수 있다. 실제로, 본 발명자들은 많은 통상적인 면역세포 마커가 다수의 세포 유형에서 발현되었음을 발견하였다. 예를 들어, T 세포에 대한 통상적인 마커는 또한 대식세포 및 수지상 세포(CD4) 또는 NK 세포(CD8A)에서 발현되었으며, 이는 다른 연구와 일치하였다. 본 발명자들은 14개의 혈액 세포 유형에 대한 범기관(pan-organ) 세포 유형 특이적 마커를 계산하였다. 예를 들어, T 세포는 예상대로, CD8BCD5 뿐만 아니라, TENM1도 특이적으로 발현하였다. 주석이 RORC KIT의 발현을 기반으로 한 ILC 3 세포는 SORCS1JMY에 의해 더욱 특이적으로 표시되었다. 이들 및 기타 범기관 정의 마커는 향후 연구에서 인간 태아 혈액 세포 유형의 표지화 및 정제에 유용할 수 있다.
예상대로, 다양한 기관에서 매우 다양한 비율의 혈액 세포가 나타났다. 예를 들어, 간은 태아 적혈구 생성의 주요 부위로서의 역할과 일치하는 가장 높은 비율의 적혈구를 포함하는 반면에, T 세포는 흉선에 풍부하고 B 세포는 비장에 풍부하였다. 소뇌와 대뇌에서 회수된 혈액 세포는 거의 소교세포이었다. 또한 수집 분석을 통해, 특정 기관에서 희귀 세포 집단을 식별할 수 있었다. 예를 들어, 본 발명자들은 간, 비장 및 흉선뿐만 아니라 심장, 폐, 부신 및 장에서도 희귀 HSC를 확인하였다.
적혈구 생성에 초점을 맞춰, 본 발명자들은 HSC로부터의 중간 세포 유형인 EBMP(Erythroid-Basophil-Megakaryocyte biased Progenitor)까지의 연속 궤적을 관찰한 다음에, 적혈구, 호염기구 및 거핵구 궤적으로 분할하였는데, 마우스 태아 간에서의 최근 연구와 일치한다. 이러한 일관성은 종(인간 대 마우스), 기술(sci-RNA-seq3 대 10x) 및 기관(췌장 대 태아)의 차이에도 불구하고 있었다. 그 연구로부터의 무감독 클러스터링 및 채택을 이용하여, 본 발명자들은 적혈구 상태의 연속체를 3개의 단계로 추가로 분할하였다: 초기 적혈구 전구세포(EEP; SLC16A9FAM178B로 표시됨), 수임 적혈구 전구세포(CEP; KIF18BKIF15 로 표시됨) 및 적혈구 말단 분화 상태의 세포(ETD; TMCC2HBB 로 표시됨). 거핵구 세포의 초기 및 후기 단계도 쉽게 식별되었다. 적혈구 계통에서의 게놈 와이드 염색질 접근성의 해당 동역학은 동반 원고에서 추가로 고려된다.
예상대로, 태아 적혈구 생성에서 이의 확립된 역할을 고려하면, 간과 비장 내의 상당한 비율의 면역세포가 EEP, CEP 및 거핵구 전구세포에 해당하였다. 놀랍게도, 본 발명자들은 또한, 연구된 모든 샘플에서, 부신의 EEP, CEP 및 거핵구 전구세포를 관찰하였다. 본 발명자들은 간과 비장에서 많이 보이는 세포 유형을 관찰하지 못하기 때문에, 부신에서 회수 시에 사소한 오염은 믿기 어려운 설명이다. 직교 방법에 의한 확인이 필요하지만, 그 결과는 부신이 태아 적혈구 생성의 추가 부위일 가능성을 시사한다.
대식세포는 훨씬 더 널리 분포되어 있다. 다음으로, 본 발명자들은 뇌의 소교세포와 함께 모든 대식세포를 대조한 다음에, UMAP 가시화 및 루뱅 클러스터링에 독립적으로 적용하였다. 소교세포는 3개의 서브클러스터로 나뉘며, 그 중 하나는 IL1BTNFRSF10D로 표시되며, 염증 반응에 관여하는 활성화 소교세포를 나타낼 가능성이 있다. 다른 소교세포 클러스터는 TMEM119CX3CR1(대뇌에서 많이 보임) 또는 PTPRCCDC14B(소뇌에서 많이 보임)의 발현에 의해 표시되었다.
뇌 외부의 대식세포는 3개의 주요 그룹으로 클러스터링되었다: 1) 항원 제시 대식세포, 주로 GI 관 기관(장 및 위)에서 발견되고 항원 제시(HLA-DPB1, HLA-DQA1) 및 염증 활성화(AHR) 유전자의 높은 발현으로 표시되는 항원 제시 대식세포; 2) F13A1COLEC12와 같은 마커뿐만 아니라, RNASE1LYVE1과 같은 새로운 마커의 특이적 발현을 갖는, 대부분의 기관에서 발견되는 혈관주위 대식세포; 및 3) CD5L, TIMD4VCAM1과 같은 마커의 특이적 발현을 갖는, 간, 비장 및 부신에 풍부한 탐식 대식세포. 탐식 대식세포는 적혈구 탐식에 중요하며; 부신에서의 관찰은 상술한 태아 적혈구 생성 부위로서의 이의 잠재적 역할과 일치한다.
기관에 대한 내피 및 상피 세포의 특성화
여러 기관에 대한 단일 세포 유형에 대한 두 번째 분석으로서, 본 발명자들은 혈관 내피, 림프 내피 또는 심내막에 상응하는, 모든 기관으로부터 유래된 세포를 재클러스터링하였다. 이들 3개의 그룹은 서로 쉽게 분리되며, 혈관 내피 세포는 기관에 의해 적어도 어느 정도까지는 더 클러스터링된다. 기관 특이적 차이가 동맥, 모세혈관 및 정맥 간의 차이보다 더 쉽게 검출된다는 점은 성체 마우스의 이전 세포 지도와 일치한다.
차등적 발현 유전자 분석으로, 내피 세포의 서브세트에서 특이적으로 발현되는 700개의 마커를 식별하였다(FDR 0.05, 1위 클러스터와 2위 클러스터 사이의 2배 이상의 발현 차이). 이들 중 약 1/3(700개 중 236개)이 막 단백질을 암호화했으며, 이들 중 다수가 잠재적인 특수화 기능에 해당하는 것으로 보였다. 예를 들어, 신장 내피 세포는 신장의 근원성 수축 및 혈류 조절에 관여하는 기계센서(mechanosensor)인 산 감지 이온 채널 2(ASIC2)를 특이적으로 발현하였다. 폐 내피 세포는 릴랙신 패밀리 펩티드 수용체 1(RXFP1)을 특이적으로 발현하였으며, 이는 혈액 뇌 관문의 설정 및 기능에 통합적으로 관여하는 나트륨 의존성 리소포스파티딜콜린 수송체 공수송체 1(MFSD2A)을 특이적으로 발현하는 폐의 내인성 산화질소 매개 혈관 이완에 관여한다. 내피의 서브세트에서의 차등적 유전자 발현에 대한 잠재적 조절 기준은 동반 문서에 논의되어 있다.
광범위하게 분포된 세포 유형의 세 번째 분석으로서, 본 발명자들은 모든 기관으로부터 유래된 상피 세포를 재클러스터링하고, UMAP 가시화에 적용하였다. 일부 상피 세포 유형, 예를 들어 선방 세포(췌장) 및 폐포 세포(폐)는 기관 특이적이었지만, 유사한 기능을 갖는 상피 세포는 일반적으로 함께 클러스터링되었다. 예를 들어, 편평 상피 세포(폐, 위)의 발현 프로그램은 각막 및 결막 상피 세포(눈)와 함께 공클러스터링되는 반면, PDE1C_ACSM3 양성 세포(위)는 장 상피 세포(장)와 함께 클러스터링된다.
상피 세포 내에서, 2개의 신경내분비 세포 클러스터를 식별하였다. 이들 중 더욱 단순한 것은 부신 크롬친화성 세포에 해당하고, 교감신경세포 다양화에 관여하는 TF인 HMX1 (NKX-5-3)의 특이적 발현에 의해 표시되었다. 다른 클러스터는 다수의 기관(위, 장, 췌장, 폐)으로부터 신경내분비 세포를 포함하고, 췌도 및 장내분비 분화에서 중요한 역할을 하는 TF인 NKX2-2의 특이적 발현에 의해 표시되었다. 본 발명자들은 후자 그룹에 대한 추가 분석을 수행하여 5개의 서브세트를 식별하였다: 1) 인슐린 발현에 의해 표시된 췌도 베타 세포; 2) 췌장 폴리펩티드 및 글루카곤 발현에 의해 표시된 췌도 알파/감마 세포; 3) 소마토스타틴 발현에 의해 표시된 췌도 델타 세포; 4) 폐에서 이러한 계통을 특정하는 중요한 역할을 하는 TF인 ASCL1의 발현으로 표시된 폐 신경내분비 세포(PNEC); 및 5) 장내분비세포. 장내분비 세포는 NEUROG 발현 췌도 엡실론 전구세포, 위와 장 모두에서의 TPH1 발현 크롬친화성 세포, 가스트린- 또는 콜레시스토키닌 발현 G/L/K/I 세포를 비롯한 여러 서브세트를 추가로 포함하였다. 최종적으로, 본 발명자들은 위와 장에서의 그렐린 발현 장내분비 전구세포뿐만 아니라, 발달 중인 폐에서도 그렐린 발현 내분비 세포를 관찰하였다. 신경내분비 세포의 다양한 기능이 분비 단백질과 밀접하게 관련되어 있기 때문에, 신경내분비 세포에서 차등적으로 발현되는 1,086개의 분비 단백질 코딩 유전자를 식별하였니다(FDR 0.05). 예를 들어, PNEC는 점막 보호 및 폐 섬모 세포 분화에 관여하는 트레포일 인자(trefoil factor) 3, 위장의 G 세포로부터 가스트린 방출을 자극하는 가스트린 방출 펩티드 및 폐 발달과 관련된 서팩턴트인 SCGB3A2의 특이적 발현을 나타내었다.
이들 데이터가 세포 궤적을 탐색하는 데 어떻게 사용될 수 있는지의 예시적인 예로서, 본 발명자들은 신세뇨관 세포로 이어지는 상피 세포 다양화의 경로를 추가로 조사하였다. 요관아(ureteric bud) 후신 세포를 조합 및 재클러스터링하여, 본 발명자들은 전구세포 및 말단 신장 상피 세포 유형을 모두 식별하였으며, 이때 분화 경로는 인간 태아 신장의 최근 연구와 매우 일치한다. 차등적 유전자 발현 분석에 의해, 본 발명자들은 잠재적으로 사양을 조절하는 TF를 추가로 특성화하였다. 예를 들어, 후신 궤적의 네프론 전구세포는 높은 레벨의 중간엽 및 meis 호메오박스 유전자(MEOX1, MEIS1, MEIS2)를 발현하는 반면에, 족세포는 MAFBTCF21/POD1을 특이적으로 발현하였다. 다른 예로서, HNF4A는 근위세뇨관 세포에서 특이적으로 발현되었으며; 이러한 유전자의 돌연변이는 근위세뇨관에 특이적으로 영향을 미치는 질환인 판코니 세뇨관 증후군(Fanconi renotubular syndrome)을 유발하며, 최근에는 마우스에서 근위세뇨관 형성에 필요한 것으로 밝혀졌다.
인간 및 마우스 발달 지도의 비교
세포 유형 간의 발달 관계를 조사하기 위해, 본 발명자들은 그 다음에 이러한 데이터를 본 발명자들의 최근의 마우스 기관형성 세포 지도(MOCA)와 비교하는데, 이는 포유류 발생의 초기 윈도우인 E9.5 내지 E13.5에 걸쳐 있는 전체 태아로부터 200만 개의 세포를 프로파일링하였다.
첫 번째 접근법으로서, 본 발명자들은 상술한 세포 유형 크로스매칭 방법을 통해 MOCA에 의해 정의된 발달 궤적에 대해 본 명세서에 정의된 77가지의 주요 인간 세포 유형을 비교하였다. 간단히 말해서, 이 방법은 2개의 데이터세트에서 상호 간의 가장 잘 매칭된 세포 유형 쌍을 선택하기 위해 NNLS(Non-Negative Least Squares) 회귀를 사용한다. 대부분의 인간 세포 유형은 단일 주요 마우스 궤적 및 서브 궤적에 강하게 일치하였다. 이는 일반적으로 기대에 상응하며, 두 세트의 주석에 대한 하나의 확인 형태로서의 역할을 한다. 몇몇 불일치는 MOCA 주석에 대한 중요한 보정을 용이하게 하였다. 강한 매치가 결여된 많은 인간 세포 유형 및 마우스 궤적(복합 NNLS 회귀 계수 < 0.6)은 다른 데이터세트(예를 들어, 마우스 태반; 인간 피부 및 생식선)에서 제외된 조직에 해당하였다. 다른 모호성은 연구된 발달 윈도우(예를 들어, 부신 세포 유형), 희귀성(예를 들어, 쌍극 세포) 및/또는 세포 유형(예를 들어, 예를 들어, 다수의 배아 궤적으로부터 유래된 태아 세포 유형) 간의 복잡한 관계 사이의 격차에서 비롯될 수 있다.
두 번째 접근법으로서, 본 발명자들은 인간 및 마우스 세포를 함께 직접 클러스터링하고자 하였다. 간단히 말해서, 본 발명자들은 MOCA로부터 100,000개의 마우스 배아 세포(무작위로)와 65,000개의 인간 태아 세포(77가지의 세포 유형 각각에서 최대 1,000개의 세포)를 샘플링하여, 종간 scRNA-seq 데이터 세트를 통합하기 위한 서라의 최근 설명된 전략을 적용하였다. 생성된 UMAP 기반 가시화에서의 마우스 세포의 분포는 MOCA의 글로벌 분석과 아주 유사하였다. 또한, 세포는 일부 놀라운 것을 제외하고는, 주로 공간적 기관 위치 대신에 발달 및 시간적 관계 둘 다에 대해 합리적인 방식으로 분포되었다. 예를 들어, 본 발명자들은 인간 태아 내피, 조혈, 간, 상피 및 중간엽 세포가 모두 상응하는 마우스 배아 궤적에 매핑되어 있음을 관찰한다. 인간 태아 대뇌 및 소뇌 뉴런이 마우스 배아 신경관 궤적과 중첩되었지만, ENS 뉴런, 내장 뉴런, 교감신경아세포 및 크롬친화성 세포와 같은 인간 태아 신경 능선 유도체는 아마도 종 또는 발달 단계 사이의 과도한 차이로 인해, 상응하는 마우스 배아 궤적과 별도로 클러스터링되었다. 예상대로, 인간 ENS 글리아 및 슈반 세포는 마우스 배아 PNS 글리아 서브궤적과 중첩되었다. 인간 태아 성상세포는 마우스 배아 신경 상피 궤적과 클러스터링되었다(마우스 성상세포는 E18.5까지 발달하지 않음). 인간 태아 희소돌기아교세포는 돌이켜 보면, 희소돌기아교세포 전구세포 (OPC; Olig1+, Olig2+, Brinp3+에 상응하는 희귀 마우스 배아 서브 궤적(Pdgfra+ 글리어)과 중첩하고, 희소돌기아교세포로 다른 Oligo1+ 서브 궤적에 대한 이전 주석에 의문을 제기한다.
인간 태아와 마우스 배아 세포 사이의 보다 상세한 관계를 가시화하기 위해, 본 발명자들은 유사한 통합 분석 전략을 조혈, 내피 및 상피 궤적으로부터 추출한 인간 및 마우스 세포에 적용하였다. 이러한 태아 인간 세포 지도의 데이터는 "전체 배아" 마우스 데이터를 세분화된 기능 또는 공간 그룹으로 용이하게 디컨볼루션(deconvolution)한다. 예를 들어, 마우스 "백혈구" 궤적의 서브세트는 특정 인간 혈구 유형, 예를 들어 HSC, 소교세포, 대식세포(간 및 비장), 대식세포(다른 기관) 및 DC에 매핑한다. 이들 서브세트는 관련 혈액 세포 마커의 발현에 의해 추가로 검증되었다. 유사하게, 본 발명자들은 마우스/인간 내피 및 상피 세포의 관련된 하위세트가 서로 매핑되는 것을 관찰한다. 이러한 접근법은 접근하기 어렵거나 해부학적으로 해결하기 어려운 발달 시점에서 특정 계통의 조상의 유전자 발현 프로그램을 얻는 데 유용할 수 있다. 예를 들어, 이전에는 전장 상피 궤적으로서 표지화된 마우스 세포 내에서, 이제 위 대 췌장에 대한 가능성 있는 기여자들을 해결할 수 있다.
토론
기능적 인간 태아의 성공적인 발달은 세 가지 주요 발달 단계에 걸친 세포 증식 및 분화 과정을 특징으로 하는 놀라운 과정이다.
자궁에서 간단한 세포 증식 및 착상과 함께 짧은(수정 후 2주) 배아 기간 후에, 배아발생 단계는 격렬한 세포 분화 및 내부 기관 전구체의 생성을 특징으로 하는 장배형성, 신경배형성 및 기관형성으로 계속된다. 재태기간 10주째가 끝날 무렵에, 배아는 태아로 불리는 기본 형태를 갖추게 되었다. 다음 20주 동안, 전구체로부터 생성된 다양한 말단 분화 세포 유형으로 다양한 기관이 계속 성장하고 성숙한다.
배아 및 배아발생 단계는 공유된 초기 개발 프로그램을 통해 인간 또는 모델 시스템(즉, 마우스)에서 단일 세포 분해능으로 집중적으로 프로파일링되었다. 후기 발달 단계(태아 단계)는 호모 사피엔스와 다른 종 사이의 다양한 발달 프로그램과 길이를 보여준다. 그리고 고도의 유기체 복잡성과 기술 제한으로 인해 이 단계에서 세포 동역학에 대한 전체적인 관점을 얻는 것은 어려웠다. 태아 발달에 대한 여러 단일 세포 연구가 최근에 발표되고 있지만, 대부분 특정 기관이나 세포 계통에 제한되어 있으며, 전체 유기체 발달에 대한 전체적인 관점을 얻지 못했다.
재료 및 방법:
포유동물의 세포 배양 및 핵 추출
모든 포유동물 세포를 37℃에서 5% CO2로 배양하고, 10% FBS 및 1X Pen/Strep(집코(Gibco) 카탈로그 번호 15140122; 100 U/ml 페니실린, 100 ㎍/ml 스트렙토마이신)이 보충된 고 글루코스 DMEM(집코 카탈로그 번호 11965)에서 유지하였다. 세포를 0.25% 트립신-EDTA(집코 카탈로그 번호 25200-056)로 트립신 처리하여, 주당 3회 1:10 으로 분할하였다.
모든 세포주를 트립신 처리하여, 5분간(4℃) 300 x g로 스핀 다운하고, 1X 빙냉 PBS로 1회 세척하였다. 5M 세포를 배합하고, 1 mL의 빙냉 세포 용해 완충액(10 mM 트리스-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2 및 0.1% IGEPAL CA-630, 또한 1% SUPERase In RNase 억제제를 포함하도록 변형됨)을 사용하여 용해시켰다. 이어서, 여과된 핵을 새로운 15 ml 튜브(팔콘)로 옮기고, 4℃에서 5분간 500xg로 원심분리하여 펠릿화하고, 1 ml 빙냉 세포 용해 완충액으로 1회 세척하였다. 핵을 얼음 상에서 15분간 4 ml 빙냉 4% 파라포름알데히드(EMS)에 고정시켰다. 고정 후에, 핵을 1 ml 핵 세척 완충액(IGEPAL이 없는 세포 용해 완충액)으로 2회 세척하고, 500 μl 핵 세척 완충액에 재현탁시켰다. 샘플을 각각의 튜브에서 100 μl로 5개의 튜브로 분할하고, 액체 질소에서 급속 냉동시켰다.
인간 태아 조직 준비 및 핵 추출
인간 태아 조직을 함께 처리하여 배치 효과를 감소시켰다. 각각의 기관을 해머(드라이아이스 상에서)로 조직 분말로 분쇄하여, 샘플링 전에 혼합하였다. 0.1 내지 1 g 분말을 먼저, 1 mL의 빙냉 세포 용해 완충액(10 mM 트리스-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2 및 0.1% IGEPAL CA-630 from53, 또한 1% SUPERase 및 1% BSA를 포함하도록 변형됨)를 사용하여 인큐베이션한 다음에, 40 μm 세포 여과기(팔콘)의 상부로 옮겼다. 조직을 4 ml 세포 용해 완충액 중에서 주사기 플런저(5 ml, BD)의 고무 팁으로 균질화시켰다. 이어서, 여과된 핵을 새로운 15 ml 튜브(팔콘)로 옮기고, 5분간 500xg로 원심분리하여 펠릿화하고, 1 ml 세포 용해 완충액으로 1회 세척하였다. 핵을 얼음 상에서 15분간 5 ml 빙냉 4% 파라포름알데히드(EMS)에 고정시켰다. 고정 후에, 핵을 1 ml 핵 세척 완충액(IGEPAL이 없는 세포 용해 완충액)으로 2회 세척하고, 500 μl 핵 세척 완충액에 재현탁시켰다. 샘플을 각각의 튜브에서 250 μl로 2개의 튜브로 분할하고, 액체 질소에서 급속 냉동시켰다. 일부 기관(신장, 췌장, 장 및 위)에서의 인간 세포 추출 및 파라포름알데히드 고정.
sci-RNA- seq3 라이브러리 제조 및 시퀀싱
파라포름알데히드로 고정된 핵을 약간의 변형을 가한 공개된 sci-RNA-seq3 프로토콜로 유사하게 처리하였다. 간단히 말해서, 해동된 핵을 얼음 상에서 3분간 0.2% 트리톤 X-100(핵 세척 완충액 중에서)으로 투과처리하고, 잠시 초음파 처리(디아게노드(Diagenode), 저 전력 모드로 12초간)하여, 핵 응집을 감소시켰다. 그 다음에, 핵을 핵 세척 완충액으로 1회 세척하여, 1 ml 플로우미(Flowmi) 세포 여과기(플로우미)를 통해 여과하였다. 여과된 핵을 500xg으로 5분간 스핀 다운하고, 핵 세척 완충액에 재현탁시켰다. 이어서, 각 샘플의 핵을 4개의 96-웰 플레이트의 여러 개별 웰에 분배하였다. 웰 리드와 마우스 배아 사이의 링크를 다운스트림 데이터 처리를 위해 기록하였다. 각 웰에 대하여, 80,000개의 핵(16 μL)을 8 μl의 25 μM 고정된 올리고-dT 프라이머(5'-/5Phos/CAGAGCNNNNNNNN[10bp 바코드]TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT-3'(서열 번호 1)(여기서, "N"은 임의의 임기임; IDT) 및 2 μL 10 mM dNTP 믹스(서모(Thermo))와 혼합하여, 55℃에서 5분간 변성시키고, 즉시 얼음 상에 두었다. 8 μL 5X 수퍼스크립트(Superscript) IV 제1 스트랜드(First-Strand) 완충액(인비트로겐(Invitrogen)), 2 μl 100 mM DTT(인비트로겐), 2 μl 수퍼스크립트 IV 역전사효소(200 U/μl, 인비트로겐), 2 μL RNaseOUT 재조합 리보뉴클레아제 억제제(인비트로겐)를 함유하는 14 μL의 제1 반응 혼합물을 각각의 웰에 첨가하였다. 플레이트를 구배 온도(4℃ 2분, 10℃ 2 분, 20℃ 2 분, 30℃ 2분, 40℃ 2분, 50℃ 2분 및 55℃ 10분)로 플레이트를 인큐베이션하여 역전사를 행하였다.
역전사 반응 후에, 60 μL 핵 희석 완충액(10 mM 트리스-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2 및 1% BSA)를 각각의 웰에 첨가하였다. 모든 웰의 핵을 함께 풀링하고, 500xg로10분간 스핀 다운하였다. 이어서, 핵을 핵 세척 완충액에 재현탁시키고, 각각의 웰이 20 μL 퀵(Quick) 리가제 완충액(NEB), 2 μL 퀵 DNA 리가제(NEB), 핵 세척 완충액 중의 10 μL 핵, 8 μL 바코드화된 라이게이션 어댑터(100 μM, 5'- GCTCTG[9 bp 또는 10 bp 바코드 A]/다이데옥시U/ACGACGCTCTTCCGATCT[바코드 A의 역상보체]-3'(서열 번호 2)를 포함하는 다른 4개의 96-웰 플레이트에 재분배하였다. 라이게이션 반응을 25℃에서 10분간 행하였다. 라이게이션 반응 후에, 60 μL 핵 희석 완충액(10 mM 트리스-HCl, pH 7.4, 10 mM NaCl, 3 mM MgCl2 및 1% BSA)를 각각의 웰에 첨가하였다. 모든 웰의 핵을 함께 풀링하고, 10분간 600xg로 스핀 다운하였다.
핵을 핵 세척 완충액으로 1회 세척하여, 1 ml 플로우미 세포 여과기(플로우미)로 여과하고, 계수하여, 각각의 웰이 5 μL 핵 세척 완충액 및 3 μL 용출 완충액(퀴아젠) 중에서 2,500개의 핵을 포함하는 96-웰 플레이트에 재분배하였다. 이어서, 1.33 μl mRNA 제2 스트랜드 합성 완충액(NEB) 및 0.66 μl mRNA 제2 스트랜드 합성 효소(NEB)를 각각의 웰에 첨가하고, 제2 스트랜드 합성을 16℃에서 180분간 수행하였다.
태그멘테이션의 경우, 각각의 웰을 11 μL 넥스테라 TD 완충액(일루미나) 및 1 μL i7 단독 TDE1 효소(62.5 nM, 일ㄹ루미나, 넥스테라 TD 완충액(일루미나)에 희석됨)와 혼합한 다음에, 55℃에서 5분간 인큐베이션하여 태그멘테이션을 수행하였다. 이어서, 웰당 24 μL DNA 결합 완충액(자이모)을 첨가하고, 실온에서 5분간 인큐베이션하여 반응을 중단시켰다. 그 다음에, 각각의 웰을 1.5x AMPure XP 비드(벡크만 쿨터)를 사용하여 정제하였다. 용출 단계에서, 각각의 웰에 8 μL 뉴클레아제 무함유 물, 1 μL의 10X USER 완충액(NEB), 1 μL의 USER 효소(NEB)를 첨가하여, 37℃에서 15분간 인큐베이션하였다. 다른 6.5 μL 용출 완충액을 각각의 웰에 첨가하였다. AMPure XP 비드를 마그네틱 스탠드(magnetic stand)로 제거하고, 용출 생성물(16 μL)을 새로운 96-웰 플레이트로 옮겼다.
PCR 증폭을 위해, 각각의 웰(16 μL 생성물)을 2 μL의 10 μM 인덱싱된 P5 프라이머(5'-AATGATACGGCGACCACCGAGATCTACAC[i5]ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3' (서열 번호 3); IDT), 2 μL의 10 μM P7 프라이머 (5'-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3' (서열 번호 4), IDT) 및 20 μL NEBNext 하이-피델리티(High-Fidelity) 2X PCR 마스터 믹스(NEB)와 혼합하였다. 증폭은 다음 프로그램을 사용하여 수행되었습니다: 72℃에서 5분간, 98℃에서 30초간, (98℃에서 10초간, 66℃에서 30초간, 72℃에서 1분간)의 12 내지 16 사이클 및 최종 72℃에서 5분간.
PCR 후에, 샘플을 풀링하고, 0.8 체적의 AMPure XP 비드를 사용하여 정제하였다. 라이브러리 농도를 큐빗(Qubit)(인비트로젠)에 의해 결정하고, 라이브러리를 6% TBE-PAGE 겔에서 전기영동으로 가시화하였다. 모든 라이브러리를 하나의 NovaSeq 플랫폼(일루미나))에서 시퀀싱하였다(리드 1: 34 사이클, 리드 2: 52 사이클, 인덱스 1: 10 사이클, 인덱스 2: 10 사이클).
파라포름알데히드 고정 세포의 경우, 이들을 약간의 변형된 고정 핵과 유사하게 처리하였다: 동결 고정된 세포를 37℃ 수조에서 해동시키고, 5분간 500xg로 스핀 다운하여, 얼음 상에서 3분간 0.2% 트리톤 X-100을 포함하는 500 μl PBSR(1 x PBS, pH 7.4, 1% BSA, 1% SuperRnaseIn, 1% 10 mM DTT)을 사용하여 인큐베이션하였다. 세포를 펠릿화하여, 1% SuperRnaseIn을 포함하는 500 μl 뉴클레아제 무함유 물에 재현탁시켰다. 3 ml의 0.1 N HCl을 얼음(7) 상에서 5분간 인큐베이션을 위해 세포에 첨가하였다. 3.5 ml의 트리스-HCl(pH=8.0) 및 35 μl 10% 트리톤 X-100을 세포에 첨가하여, HCl을 중화시켰다. 세포를 펠릿화하여, 1 ml의 PBSR로 세척하였다. 세포를 펠릿화하여, 100 μl PBSI(1 x PBS, pH 7.4, 1% BSA, 1% SuperRnaseIn)에 재현탁시켰다. 다음 단계들은 약간의 변형을 가한 상기 sci-RNA-seq3 프로토콜(파라포름알데히드 고정된 핵을 포함함)과 유사하였다: (1) 본 발명자들은 역전사를 위해 웰당 20,000개의 고정된 세포(80,000개의 핵 대신에)를 분배하였다. (2) 본 발명자들은 다음 단게에서 모든 핵 세척 완충액을 PBSI로 대체하였다. (3) 모든 핵 희석 완충액을 PBS + 1% BSA로 대체하였다.
시퀀싱 리드의 처리
단일 세포 RNA-seq에 대한 리드 정렬 및 유전자 카운트 매트릭스 생성을 본 발명자들이 약간의 변형을 가해 sci-RNA-seq3용으로 개발한 파이프라인을 사용하여 수행하였다: 일루미나의 bcl2fastq/v2.16을 사용하여 기본 호출을 fastq 포맷으로 변환하고, 디폴트 설정으로 최대 공산 역다중화 패키지 deML을 사용하여 PCR i5 및 i7 바코드에 기초하여 역다중화하였다. 다운스트림 서열 처리 및 단일 세포 디지털 발현 매트릭스 생성은 RT 인덱스가 헤어핀 어댑터 인덱스와 결합된다는 것을 제외하고는, sci-RNA-seq와 유사하였으며, 따라서 매핑된 리드는 RT 인덱스 및 라이게이션 인덱스(ED < 2, 삽입 및 결실 포함)를 사용하여 리드를 역다중화함으로써 구성 세포 인덱스로 분할하였다. 간단히 말해서, 역다중화된 리드를 RT 인덱스 및 라이게이션 인덱스(ED < 2, 삽입 및 결실 포함)에 기초하여 필터링하고, 어댑터를 디폴트 설정으로 trim_galore/v0.4.1을 사용하여 클립핑하였다. 트리밍된 리드는 디폴트 설정 및 유전자 주석(인간의 경우 GENCODE V19, 마우스의 경우 GENCODE VM11)이 있는 STAR/v 2.5.2b를 사용하여, 인간 태아 핵의 경우 인간 참조 게놈(hg19) 또는 HEK293T 및 NIH/3T3 혼합 핵의 경우 인간 hg19 및 마우스 mm10의 키메라 참조 게놈에 매핑되었다. 고유하게 매핑된 리드를 추출하고, 고유 분자 식별자(UMI) 서열(ED < 2, 삽입 및 결실 포함), 역전사(RT) 인덱스, 헤어핀 라이게이션 어댑터 인덱스 및 리드 2 말단 좌표를 사용하여 중복을 제거하였다(즉, 편집 거리가 2 미만인 UMI 서열, RT 인덱스, 라이게이션 어댑터 인덱스 및 태그멘테이션 부위를 갖는 리드는 중복으로 간주되었음). 최종적으로, 매핑된 리드는 RT 인덱스 및 라이게이션 헤어핀을 사용하여 리드를 추가로 역다중화함으로써, 구성 세포 인덱스로 분할하였다(ED < 2, 삽입 및 결실 포함). 혼합 종 실험의 경우, 각각의 종의 게놈에 대해 고유하게 매핑된 리드의 비율을 계산하였다. 하나의 종에 할당된 UMI가 85% 이상인 세포는 종 특이적 세포로 간주되었고, 나머지 세포는 혼합 세포 또는 "충돌"로 분류되었다. 디지털 발현 매트릭스를 생성하기 위해, 본 발명자들은 파이톤(python)/v2.7.13 HTseq 패키지56를 사용하여 각 유전자의 엑손 및 인트론 영역에 매핑하는 각 세포에 대한 가닥 특이적 UMI의 수를 계산하였다. 다중 매핑된 리드의 경우, 다른 교차된 유전자가 가장 가까운 유전자의 말단에서 100 bp 내에 포함되는 경우를 제외하고는, 리드를 가장 가까운 유전자에 할당하였으며, 이 경우에 리드가 폐기되었다. 대부분의 분석을 위해, 본 발명자들은 유전자당 단일 세포 발현 매트릭스에 예상 가닥 인트론 및 엑손 UMIS를 모두 포함하였다.
단일 세포 유전자 카운트 매트릭스를 생성한 후에, 250개 미만의 UMIS를 갖는 세포를 필터링하였다. 각각의 세포를 RT 바코드에 기초하여 이의 원래의 인간 태아 샘플에 할당하였다. 각 태아 개체에 매핑하는 리드를 집계하여, "벌크 RNA-seq"를 생성하였다. 태아의 성별 분리를 위해, 본 발명자들은 여성 특이적 비코딩 RNA(TSIXXIST) 또는 chrY 유전자(남성과 여성 모두에서 검출된 유전자 TBL1Y, RP11-424G14.1, NLGN4Y, AC010084.1, CD24P4, PCDH11YTTTY14를 제외함)에 매핑하는 리드를 계산하였다. 태아는 여성(chrY 유전자보다 TSIXXIST에 매핑하는 하는 리드가 더 많음)과 남성(TSIXXIST보다 chrY 유전자에 매핑하는 리드가 더 많음)으로 쉽게 분리되었다.
전체 인간 태아 샘플의 클러스터링 분석을 모노클(Monocle) 3로 행하였다. 간략하게, 집합된 유전자 발현 매트릭스를 각각의 개체로부터의 인간 태아 기관에 대해 상술한 바와 같이 구축하였다. 총 UMI가 5,000개가 넘는 샘플을 선택하였다. 데이터의 차원은 먼저, 가장 많이 분산된 상위 500개의 유전자에서 PCA(10개의 구성요소)에 의해 축소된 다음에, UMAP로 축소되었다(max_components = 2, n_neighbors = 10, min_dist = 0.5, metric = 'cosine').
세포 필터링 , 클러스터링 및 마커 유전자 식별
잠재적인 이중선 세포의 감출을 위해, 먼저 데이터세트를 각 기관 및 개체에 대한 서브세트로 분할한 다음에, 이중선 점수 계산을 위한 파라미터(min_count = 3, min_cells = 3, vscore_percentile = 85, n_pc = 30, expected_doublet_rate = 0.06, sim_doublet_ratio = 2, n_neighbors = 30, scaling_method = 'log')를 사용하여 각 서브세트에 스크러블렛/v0.1 파이프라인을 적용하였다. 이중선 점수가 0.2를 초과하는 세포는 검출된 이중선으로서 주석이 달린다. 본 발명자들은 전체 데이터 세트에서 6.4%의 잠재적인 이중선 세포를 감출했으며, 이는 전체 추정 이중선 비율 12.6%에 해당한다(클러스터내 및 클러스터간 이중선을 모두 포함함).
각각의 기관으로부터의 세포에 대한 이중선 유래 서브클러스터의 검출을 위해, 본 발명자들은 앞서 나타낸 바와 같은 반복적 클러스터링 전략을 사용하였다. 간단히 말해서, 성염색체에 대한 유전자 카운트 매핑은 클러스터링 및 차원 축소 전에 제거되었다. 전처리 단계는 참조에 의해 사용된 접근법과 유사하였다. 간단히 말해서, 카운트되지 않은 유전자를 필터링하고, 각 세포를 세포당 총 UMI 계수로 정규화하였다. 변동이 가장 높은 상위 1,000개의 유전자를 선택하여, 유전자 필터링 후에 디지털 유전자 발현 매트릭스를 재정규화하였다. 의사 카운트(pseudocount)를 부가한 후에 데이터를 로그 변환하였고, 단위 분산 및 0 평균으로 스케일링하였다. 데이터 차원은 먼저, PCA(30개의 구성요소)에 의해 축소된 다음에, UMAP에 의해 축소되고, 이어서 디폴트 파라미터를 사용하여 30개의 주요 구성요소에 대해 루뱅 클러스터링이 수행되었다. 루뱅 클러스터링의 경우, 본 발명자들은 먼저, 상위 30개의 PC를 피팅하여, scanpy/v1.0의 scanpy.api.pp.neighbors 함수를 사용하여 로컬 이웃 번호(local neighborhood number)가 50인 관찰의 이웃 그래프(neighborhood graph)를 산출하였다. 그 다음에, 본 발명자들은 scanpy.api.tl.louvain 함수로 구현된 루뱅 알고리즘을 사용하여, 세포를 서브그룹으로 클러스터링하였다. UMAP 가시화를 위해, 본 발명자들은 PCA 매트릭스를 min_distance가 0.1인 scanpy.api.tl.umap 함수에 직접 피팅하였다. 서브클러스터 식별을 위해, 본 발명자들은 각 주요 세포 유형에서 세포을 선택하고, 주요 클러스터 분석과 유사하게 PCA, UMAP, 루뱅 클러스터링을 적용하였다. 검출된 이중선 비율(스크러블렛에 의해)이 15%를 초과하는 서브클러스터에는 이중선 유래 서브클러스터로 주석을 달았다.
데이터 가시화를 위해, 이중선(스크러블렛에 의해)으로서 표지화되거나 이중선 유래 서브클러스터로부터 표지화된 세포를 필터링하였다. 각 세포에 있어서, 단백질 코딩 유전자, lincRNA 유전자 및 위유전자(pseudogene) 만 보유한다. 10개 미만의 세포에서 발현되는 유전자 및 100개 미만의 유전자를 발현하는 세포를 추가로 필터링하였다. 다운스트림 차원 축소 및 클러스터링 분석을 모노클 3로 행하였다. 데이터의 차원은 먼저, 가장 많이 분산된 상위 5,000개의 유전자에서 PCA(50개의 구성요소)에 의해 축소된 다음에, UMAP로 축소되었다(max_components = 2, n_neighbors = 50, min_dist = 0.1, metric = 'cosine'). 모노클 3(루뱅_res = 1e-04)에서 구현된 루뱅 알고리즘을 사용하여, 세포 클러스터를 식별하였다. 클러스터는 세포 유형 특정 마커를 기반으로 알려진 세포 유형에 할당되었다. 본 발명자들은 상기 스크러블렛 및 반복적 클러스터링 기반 접근법이 풍부한 세포 클러스터와 희귀 세포 클러스터(예를 들어, 총 세포 집단의 1% 미만) 사이의 세포 이중선을 표시하는 데 제한적이라는 것을 알아냈다. 이러한 이중선 세포를 추가로 제거하기 위해, 본 발명자들은 모노클 3에 의해 식별된 세포 클러스터를 취해, 먼저 모노클 3의 DifferentialGeneTest() 함수를 사용하여 세포 클러스터(기관 내)에 따라 차등적으로 발현된 유전자를 계산하였다. 그 다음에, 본 발명자들은 각 세포 클러스터에 대한 상위 10개의 유전자 마커를 조합한 유전자 세트를 선택하였다(q-값, 및 1위 세포 클러스터와 2위 세포 클러스터 간의 배수 발현 차이로 순서화됨). 각 주요 세포 클러스터의 세포는 차원 축소를 위해, 먼저, 상위 클러스터 특이적 유전자 마커의 선택된 유전자 세트에서의 PCA(10개의 구성요소)에 의해, 그 다음에 UMAP(max_components = 2, n_neighbors = 50, min_dist = 0.1, metric = 'cosine')에 의해, 이어서 모노클 3(대부분의 클러스터링 분석의 경우, rho_thresh = 5, delta_thresh = 0.2)에서 구현된 밀도 피크 클러스터링 알고리즘을 사용한 클러스터링 식별에 의해 선택되었다. 표적 세포 클러스터 특이적 마커의 낮은 발현 및 비표적 세포 클러스터 특이적 마커의 풍부한 발현을 나타내는 서브클러스터는 이중선 유래 서브클러스터로 주석이 달렸고, 가시화 및 다운스트림 분석에서 필터링되었다. 세포 유형(기관 내)에 따라 차등적으로 발현된 유전자는 모든 이중선, 또는 이중선 유래 서브클러스터로부터의 세포를 제거한 후에 모노클 3의 differentialGeneTest() 함수로 재계산되었다.
기관들의 세포의 클러스터링 분석
15개의 기관들에 대한 77개의 주요 세포 유형의 클러스터링 분석을 위해, 각각의 세포 유형으로부터 5,000개의 세포를 샘플링하였다(또는 주어진 기관에서 5,000개 미만의 세포를 갖는 세포 유형의 경우 모든 세포). 데이터의 차원은 먼저, 상기에서 식별된 상위 세포 유형 특이적 유전자 마커(표 S5, qval = 0)를 조합한 유전자 세트 상의 PCA(50개의 구성요소)에 의해, 그 다음에 UMAP(max_components = 2, n_neighbors = 50, min_dist = 0.1, metric = 'cosine')에 의해 축소되었다. 세포 유형에 따라 차등적으로 발현된 유전자는 모노클 3의 DifferentialGeneTest() 함수로 식별되었다. 세포 유형 특이적 유전자 특징에 주석을 달기 위해, 본 발명자들은 상기에서 식별된 세포 유형 특이적 유전자를 인간 단백질 지도로부터의 예측된 분비 및 막 단백질 코딩 유전자 세트 뿐만 아니라, 패키지 RcisTarget/v1.2.1로부터의 "motifAnnotations_hgnc" 데이터에서 주석이 달린 TF 세트와도 교차시켰다.
15개의 기관들에 대한 혈액 세포의 클러스터링 분석을 위해, 본 발명자들은 골수 세포, 림프구 세포, 흉선 세포, 거핵구, 소교세포, 항원 제시 세포, 적아구 및 조혈 줄기 세포를 포함한 모든 혈액 세포를 추출하였다. 데이터의 차원은 먼저, 상위 3,000개의 혈액 세포 유형 특이적 유전자 마커(적어도 하나의 혈액 세포 유형에서 특이적으로 발현되는 유전자만 선택되고(q-값 < 0.05, 1위 세포 클러스터와 2위 세포 클러스터 간의 배수 발현 차이 > 2), 기관들의 중앙값 qval에 의해 순서화됨)를 조합한 유전자 세트의 발현에서의 PCA(40개의 구성요소)에 의해 축소된 다음에, UMAP(max_components = 2, n_neighbors = 50, min_dist = 0.1, metric = 'cosine')로 축소되었다. 모노클 3(루뱅_res = 1e-04)에서 구현된 루뱅 알고리즘을 사용하여, 세포 클러스터를 식별하였다. 클러스터는 세포 유형 특정 마커를 기반으로 알려진 세포 유형에 할당되었다.
그 다음에, 본 발명자들은 기관들의 내피 또는 상피 세포의 클러스터링 분석을 위해 상기와 유사한 분석 전략을 적용하였다. 내피 세포의 경우, 본 발명자들은 먼저, 기관들의 혈관 내피 세포, 림프 내피 세포 및 심장 내막 세포로부터 세포를 추출하였다. 데이터의 차원은 먼저, 상위 1,000개의 내피 세포 유형 특이적 유전자 마커(적어도 하나의 내피 세포 유형에서 특이적으로 발현되는 유전자만 선택되고(q-값 < 0.05, 1위 세포 클러스터와 2위 세포 클러스터 간의 배수 발현 차이 > 2), 기관들의 중앙값 qval에 의해 순서화됨)를 조합한 유전자 세트에서의 PCA(30개의 구성요소)에 의해 축소된 다음에, 혈액 세포의 동일한 파라미터를 갖는 UMAP로 축소되었다. 모노클 3(루뱅_res = 1e-04)에서 구현된 루뱅 알고리즘을 사용하여, 세포 클러스터를 식별한 다음에, 내피 세포의 조직 기원에 기초하여 주석을 달았다. 상피 세포의 경우, 본 발명자들은 먼저, Fig. S3B의 상피 세포 클러스터로부터 세포를 추출한 후에, 먼저 가장 고도로 분산된 상위 5,000개의 유전자에서 PCA(50개의 구성요소)로 차원 축소를 수행한 다음에, UMAP(max_components = 2, n_neighbors = 50, min_dist = 0.1, metric = 'cosine')로 차원 축소를 수행하였다.
TF -유전자 결합 분석
본 발명자들은 유전자 조절 과정이 대규모 단일 세포 유전자 발현 분석으로부터 얽힐 수 있는 것으로 가정하였다. 이러한 목적을 위해, 본 발명자들은 이전의 연구와 유사한 단일 세포 조절 추론 방법을 적용하여, 검증을 위해 수백만 개의 세포에 대한 공분산을 조절 서열 분석과 결합하여 TF-유전자 상호작용을 예측하였다. 워크플로우는 3개의 단계로 이루어진다: 본 발명자들의 단일 세포 프로파일의 희소성이 이를 어렵게 만들기 때문에, 본 발명자들은 먼저, 상술한 반복적 클러스터링 전략에 의해 세포(기관 내)를 서브클러스터로 그룹화하여, 매우 유사한 트랜스크립톰을 가진 세포의 서브세트(약 100개의 세포)로부터 유전자 수를 집계한 다음에, 각각의 서브클러스터로부터의 세포에 대한 UMAP 좌표에서 k 평균(k-means) 클러스터링이 이어졌다. k는 각각의 서브클러스터 내의 세포들의 수에 기초하여 선택되어, 서브클러스터당 평균 세포 수가 100이 된다.
본 발명자들은 각 기관 내에서 집계된 "의사 세포(pseudo-cell)"들의 발현 공분산에 기초하여 TF와 이의 조절된 유전자 사이의 결합을 확인하고자 하였다. UMI가 10,000개 이상 검출된 세포와 전체 세포의 10% 이상에서 검출된 유전자(TF 포함)를 선택하였다. 세포당 전체 유전자 발현은 모노클 3의 estimateSizeFactors에 의해 전체 유전자 발현 매트릭스에서 계산된 세포 특이적 라이브러리 크기 인자에 의해 정규화되고, 로그 변환되고, 중심설정된 다음에, R의 스케일 함수에 의해 스케일링되었다. 검출된 각각의 유전자에 대해, 하기 모델을 피팅하여, 패키지 RcisTarget/v1.2.1의 "motifAnnotations_hgnc" 데이터에 주석이 달린 TF의 정규화된 발현을 기반으로, 각각의 유전자의 정규화된 발현 레벨을 예측하기 위해 패키지 glmnet/v.2.0으로 LASSO 회귀 모델을 구축하였다:
Figure pct00001
여기서
Figure pct00002
는 유전자 i에 대한 조정된 유전자 발현값이다. 이는 각각의 의사 세포의 유전자 수에 의해 계산되고, 각각의 의사 세포의 전체 발현 매트릭스에서 모노클 3의 estimateSizeFactors에 의해 세포 특이적 크기 인자(
Figure pct00003
) 추정값으로 정규화되고, 로그 변환된다:
Figure pct00004
유전자 간의 다운스트림 비교를 단순화하기 위해, 본 발명자들은 각각의 유전자 i 에 대한 모델을 R의 scale() 함수로 피팅하기 전에 응답치 Gi를 표준화한다.
Figure pct00005
와 유사하게,
Figure pct00006
는 각각의 의사 세포에 대한 조정된 TF 발현값이다. 이는 전체 TF 발현 수에 의해 계산되고, 각각의 의사 세포의 전체 발현 매트릭스에서 모노클 3의 estimateSizeFactors에 의해 세포 특이적 크기 인자(
Figure pct00007
) 추정값으로 정규화되고, 로그 변환된다:
Figure pct00008
피팅 전에,
Figure pct00009
는 R의 스케일() 함수로 표준화된다.
TF의 발현과 유전자의 새로운 합성 속도 사이의 음의 상관관계가 전사 억제인자의 활성을 반영할 수 있지만, 본 발명자들은 glmnet에 의해 보고된 음의 링크에 대한 그럴듯한 설명은 세포 상태 특이적 발현과 TF 활성의 상호 배타적 패턴이었음을 느꼈다. 따라서, 예측 동안, 본 발명자들은 잠재적인 표적 유전자의 합성 속도와 음의 상관관계가 있는 발현과, 또한 낮은 회귀 계수(< 0.03) 링크를 갖는 TF를 배제하였다.
본 발명자들의 접근법은 회귀 모델에서 그의 발현을 예측하는 데 사용될 수 있는 서브세트를 찾아, 각각의 유전자를 조절할 수 있는 TF를 식별하는 것을 목적으로 한다. 그러나, 유전자의 발현과 상관된 발현을 갖는 TF는 이것이 그 유전자를 직접 조절하는 것을 확실히 의미하는 것은 아니다. 이 세트 내에서 추정되는 직접적인 표적을 식별하기 위해, 본 발명자들은 먼저, ENCODE ChIP-seq 실험에서 프로파일링된 TF와 링크를 교차시켰다. 정확한 TF ChIP-seq 결합 부위의 유의한 풍부화를 갖는 유전자 세트만을 보유하고(양측 피셔 정확 검정(two-sided Fisher's exact test), FDR 5%), 추가로 가지치기 하여, TF 결합 데이터가 지원되지 않는 간접 표적 유전자를 제거하였다. 확인된 TF-유전자 링크 세트를 확장하기 위해, 본 발명자들은 유전자 프로모터 주변의 10 kb 윈도우에서 표적 TF 모티프의 농축을 기반으로 유전자 조절 네트워크를 구축하는 파이프라인인 패키지 SCENIC를 추가로 적용하였다. LASSO 회귀에 의해 식별된 각각의 공발현 모듈은 RcisTarget/v1.2.1을 사용한 시스-조절 모티프 분석을 사용하여 분석되었다. 정확한 TF 조절인자의 유의한 모티프 농축을 갖는 모듈만을 보유하고, 가지치기하여, 모티프가 지원되지 않는 간접 표적 유전자를 제거하였다. 본 발명자들은 TF-유전자 링크를 3개의 상관계수 임계값(0.3, 0.4 및 0.5)으로 필터링하여, RcisTarget36 및 ChIP-seq 결합 데이터에 의해 검증된 모든 링크를 조합하였다.
본 발명자들은 상기 전략을 각각의 기관의 집계된 의사 세포에 적용하고, 기관 전체에서 1,220(흉선) 내지 10,059(간)개의 TF-유전자 링크를 식별하였으며, 이는 발현 공분산 및 TF 결합 또는 모티프 데이터 둘 다에 의해 검증된, 706개의 TF와 12,868개의 유전자 사이의 총 56,272개의 TF-유전자 링크로 결합되었다. 대조군 분석으로서, 본 발명자들은 TF 발현 매트릭스의 세포 ID를 치환하였으며, 치환 후에 링크는 확인되지 않았다. 식별된 TF 및 유전자 조절 관계 중 일부는 TF 네트워크(TRRUST) 또는 Enrichr 제출 TF-유전자 동시 발생 네트워크(Enrichr submission TF-gene co-occurrence network)의 수동으로 큐레이팅된 데이터베이스, 예를 들어 E2F1(330개의 연결 유전자의 상위 농축 TRRUST TF = E2F1, 조정된 p-값 = 2.2e-14), HNF4A(745개의 연결 유전자의 상위 농축 TRRUST TF = HNF4A, 조정된 p-값 = 0.000003) 및 FLI1(1219개의 연결 유전자의 상위 농축 동시 발생 TF = FLI1, 조정된 p-값 = 5.6e-122)에서 쉽게 확인된다. 85%(56,272개 중 48,050개)의 TF-유전자 링크는 기관 특이적이었다. 예를 들어, ATPase 인지질 수송 8B1(ATP8B1)은 장에서만 HNF4A에 연결되었는데, 이는 다른 기관(스피어만 상관계수의 평균 = 0.008)과 비교하여, 장에서의 HNF4A(스피어만 상관계수 = 0.36)와 가장 높은 상관관계를 보였다는 사실과 일치한다. 745개의 TF-유전자 링크가 다수의 기관(> 5)에서 발견되었다. 예상대로, 이들의 연결 유전자가 면역세포 분화 경로(조혈 줄기 세포 분화: 조정된 p-값 2.5e-6; 폐 수지상 세포 및 대식세포 서브세트의 발달: 조정된 p-값 0.0001) 뿐만 아니라, 스트레스 반응 및 세포 주기와 같은 기본적인 생물학적 과정(DNA IR-손상 및 ATR을 통한 세포 반응: 조정된 p-값 0.006, 산화 스트레스: 조정된 p-값 0.02, G1에서 S까지의 세포 주기 제어: 조정된 p-값 0.05)에서도 풍부하였다. 10.5%(56,272개 중 5935개)의 TF-유전자 링크는 2개의 TF 사이에 있었으며, 그 중 362개의 TF 쌍은 잠재적으로 자가 활성화 회로를 나타내는 양방향 조절 관계를 나타내었다. 예를 들어, 본 발명자들은 MYOD1, MYOG, TEAD4 및 MYF6를 포함한 골격근 분화를 유도하는 주요 조절인자의 양의 피드백 루프를 식별하였다. 세포 유형별 유전자, TF 및 이들의 조절 상호작용은 당사 웹사이트에서 가시화 및 탐색할 수 있다.
인간-마우스 통합 분석
본 발명자들은 먼저, 인간 태아 세포지도와 마우스 기관형성 세포지도(MOCA) 사이에 상관성이 있는 세포 유형을 식별하기 위해 약간 변형된 전략을 적용하였다. 본 발명자들은 먼저, 세포 유형 특이적 UMI 수를 집계하고, 총수로 정규화하고, 100,000을 곱하고, 의사 카운트(pseudo-count)를 추가한 후에 로그 변환하였다. 그 다음에, 본 발명자들은 데이터세트 B에서의 모든 세포 유형(
Figure pct00010
)의 유전자 발현을 사용하여 데이터세트 A에서의 표적 세포 유형(
Figure pct00011
)의 유전자 발현을 예측하기 위해 NNLS(Non-negative least squares) 회귀를 적용하였다:
Figure pct00012
여기서
Figure pct00013
Figure pct00014
는 각각, 데이터세트 A로부터의 표적 세포 유형 및 데이터세트 B로부터의 모든 세포 유형에 대한 필터링된 유전자 발현을 나타낸다. 정확도와 특이성을 향상시키기 위해, 본 발명자들은 1) 표적 세포 유형과 모든 세포 유형에 대한 중간 발현 사이의 발현 배수 변화에 기초하여 유전자를 순위화한 다음에, 상위 200개의 유전자를 선택하는 단계, 2) 표적 세포 유형과 다른 모든 세포 유형 중 최대 발현을 갖는 세포 유형 사이의 발현 배수 변화에 기초하여 유전자를 순위화한 다음에, 상위 200개의 유전자를 선택하는 단계, 및 3) 단계 (1) 및 단계 (2)로부터의 유전자 목록들을 병합하는 단계에 의해, 각각의 표적 세포 유형에 대한 세포 유형 특이적 유전자를 선택하였다.
Figure pct00015
는 NNLS 회귀에 의해 계산된 상관계수이다.
유사하게, 그 다음에 본 발명자들은 데이터세트 A와 B의 순서를 바꾸고, 데이터세트 A의 모든 세포 유형(
Figure pct00016
)의 유전자 발현을 사용하여 데이터세트 B의 표적 세포 유형(
Figure pct00017
)의 유전자 발현을 예측한다:
Figure pct00018
따라서, 데이터세트 A의 각각의 세포 유형 a 및 데이터세트 B의 각각의 세포 유형 b는 상기 분석으로부터의 2개의 상관계수에 의해 링크된다: b를 사용하여 세포 유형 a를 예측하기 위한
Figure pct00019
및 a를 사용하여 세포 유형 b를 예측하기 위한
Figure pct00020
다음 식에 의해 두 값을 합한다:
Figure pct00021
Figure pct00022
는 높은 특이성을 갖는 2개의 데이터세트 간의 세포 유형의 매칭을 반영한다. 데이터세트 A의 각 셀 유형에 대해 데이터 세트 B의 모든 셀 유형은
Figure pct00023
로 순위가 매겨지고 최상위 셀 유형(β > 0.06)이 일치하는 셀 유형으로 식별됩니다. 데이터세트 A의 각각의 세포 유형에 대해, 데이터세트 B의 모든 세포 유형은
Figure pct00024
로 순위화되고, 상위 세포 유형(
Figure pct00025
> 0.06)은 매칭된 세포 유형으로서 식별된다. 본 발명자들은 본 연구의 모든 인간 세포 유형을 마우스 배아 세포지도(MOCA)의 10개의 주요 세포 궤적 및 56개의 서브 궤적과 비교하였다.
그 다음에, 본 발명자들은 서라 v3 통합 방법(FindAnchors 및 IntegrateData)을 사용하여 인간 태아 세포지도와 마우스 기관형성 세포지도(MOCA)를 통합하였으며, 이때 인간 및 마우스 모두에서 공유된 유전자명을 갖는 상위 3,000개의 초가변 유전자에서 선택된 차원은 30이었다. 본 발명자들은 먼저, 65,000개의 인간 태아 세포(77개의 세포 유형 각각으로부터 무작위로 샘플링된 1,000개 이하의 세포)와 MOCA로부터 무작위로 샘플링한 100,000개의 마우스 배아 세포를 디폴트 파라미터를사용하여 통합하였다. 그 다음에, 본 발명자들은 조혈, 내피 및 상피 궤적으로부터 추출된 인간 및 마우스 세포에 동일한 통합 분석 전략을 적용하였다.
실시예 3
3레벨 조합 인덱싱(sci- ATAC - seq )을 기반으로 한 염색질 접근성의 단일 세포 프로파일링 방법
재료
시약 및 소모품
0.5 M EDTA(서모 피셔 사이언티픽, AM9260G); 100 bp 래더(ladder)(뉴 잉글랜드 바이오랩스(New England Biolabs; NEB), N3231L); 1000X Sybr(인비트로겐(집코/BRL Life Tech), S7563); 10 mM ATP(뉴 잉글랜드 바이오랩스(NEB), PO756S); 10X HBSS(집코/BRL Life Tech, 14065-056); 10X PNK 완충액(뉴 잉글랜드 바이오랩스(NEB), M0201L); 1 M MgCl2(서모 피셔 사이언티픽, AM9530G); 1X DPBS(서모 피셔 사이언티픽, 14190-144); 5% 디지토닌(서모 피셔 사이언티픽, BN2006); 5 M NaCl(서모 피셔 사이언티픽, AM9759); 6% TBE PAGE(인비트로겐(집코/BRL Life Tech), EC6265BOX); 6x 오렌지 염료(뉴 잉글랜드 바이오랩스(NEB), B7022S); AMPure 비드(벡크만 쿨터, A63882); BSA, 분자 생물학 그레이드(뉴 잉글랜드 바이오랩스(NEB), B9000S); DNA 로빈드 튜브 1.5 ml, PCR 클린(에펜도르프 노스 아메리카(Eppendorf North America), 22431021); DL-다이티오트레이톨, 1 M 10 x 0.5 ML(시그마 알드리치(Sigma Aldrich), 64563-10x 5 ML); EB 완충액(퀴아젠, 19086); 팔콘 튜브, 15 ml(VWR 사이언티픽(Scientific), 21008-936); 팔콘 튜브, 50 ml(VWR 사이언티픽, 21008-940); 세포 여과기(피셔 사이언티픽, 352235)를 갖는 팔콘® 5mL 둥근 바닥; 그린 팩 LTS 200 μl 필터 팁(GP-L200F)(라이닌 인스트루먼트, 17002428); 그린 팩 LTS 20 μl 필터 팁(GP-L20F)(라이닌 인스트루먼트, 17002429); 글리세롤(시그마 알드리치, G5516-500ML); 글리신(시그마 알드리치, 50046-250G); IGEPAL CA-630(시그마 알드리치, 18896-50ML); 리퀴데이터 팁스(Liquidator tips)-10 μl(라이닌 인스트루먼트, 17011117); 리퀴데이터 팁스-200 μl(라이닌 인스트루먼트, 17010646); 로빈드, 클리어 96-웰 PCR 플레이트(에펜도르프 노스 아메리카, 30129512); 캡 없는 저-프로파일 0.2 ml 8-튜브 백색 튜브(바이오-라드 래보러토리즈(Bio-rad Laboratories), TLS0851); 아세트산마그네슘 4수화물(시그마 알드리치, M5661-50G); 마이크로시일(Microseal) 'B' 접착 시일(바이오-라드 래보러토리즈, MSB1001); 날진(Nalgene) MF 75 멸균 필터 유닛, 0.2 μm - 250 ml(VWR, 28199-112); 날진 MF 75 멸균 필터 유닛, 0.2 μm - 500 ml(VWR, 28198-505); NEBNext 하이-피델리티 마스터 믹스(2x)(뉴 잉글랜드 바이오랩스(NEB), M0541L); NextSeq 500 고출력 키트(150 사이클)(일루미나 인코포레이티드, FC-404-2002); 부직포 거즈(두칼(Dukal), 6114); 뉴클레아제 무함유 물(서모 피셔 사이언티픽, AM9937); 광학 평평한 8-캡 스트립(바이오-라드 래보러토리즈, TCS-0803); 프로테아제 억제제(시그마 알드리치, P8340-1 ml); RT-L250WS 외이드-오리피스 LTS 250 μl(라이닌 인스트루먼트, 30389249); 시약 저장소(피셔 사이언티픽, 07-200-127); 스페르미딘(시그마 알드리치, S2626-1G); Sybr 골드(인비트로겐(집코/BRL Life Tech), S-11494); 스테리플립(Steriflip), 일회용 진공 필터 유닛, 0.22 μm 기공(피셔 사이언티픽, SCGP00525); T4 PNK(뉴 잉글랜드 바이오랩스(NEB), M0201L); T7 리가제(뉴 잉글랜드 바이오랩스(NEB), M0318L); T7 리가제 완충액(뉴 잉글랜드 바이오랩스(NEB), M0318L); 테이프스테이션(D5000 시약)(애질런트 테크놀로지즈(Agilent Technologies), 5067-5589); 타페스테이션(스크린테이프)(애질런트 테크놀로지즈, 5067-5588); TD 완충액(2x)(일루미나 인코포레이티드, FC-121-1031); TDE1(Tn5)(일루미나 인코포레이티드, FC-121-1031); 트리스-HCl pH 7.5(1 M)(서모 피셔 사이언티픽, 15567027); 트윈-20(서모 피셔 사이언티픽, BP337-500); 초순수 증류수(DNAse, RNAse 없음)(서모 피셔 사이언티픽, 10977023); DNA 세정 및 농축물(DCC-5)(자이모 리서치, D4014).
기기:
애질런트 4200 테이프 스테이션 시스템; 브라이트-라인(Bright-Line)™ 혈구계(시그마); 원심분리기(4℃로 냉각됨)(에펜도르프, 5810 R); 다이나맥(DynaMag)™-96 사이드 스커티드 마그넷(Side Skirted Magnet)(서모 피셔 사이언티픽, 12027); 에펜도르프 마스터사이클러(Eppendorf Mastercycler)(열 사이클러); FACSAria III 세포 분별기(BD); 냉동고(-20℃, -80℃) 및 냉장고(4℃); 겔 박스; 샘플 저장용 액체 질소 탱크; 현미경; 다중 채널 피펫(10ul, 200ul)(라이닌 인스트루먼트); NextSeq 500 플랫폼(일루미나); 라이닌 리퀴데이터 96 수동 피펫 시스템
시약 제조:
ATAC-RSB 레시피를 사용하였다. 50 ml 팔콘 튜브에서, 500 μl의 1 M 트리스-HCl pH 7.4(최종 10 mM 트리스-HCl), 100 μl의 5 M NaCl(최종 10 mM NaCl), 300 μl의 0.5 M MgCl2(최종 3 mM MgCl2) 및 49.1 ml의 뉴클레아제 무함유 물을 배합한다. 밀리포어 "스테리플립" 멸균 일회용 진공 필터 유닛, PES 막; 기공 크기: 0.22 μm(SCGP00525)를 사용하여 여과 멸균한다. 4℃에서 최대 6개월간 완충액을 저장한다.
10% 트윈-20(최대 6개월간 4℃에서 저장); 10% IGEPAL CA- 630(최대 6개월간 4℃에서 저장); 1% 디지토닌(1% 뉴클레아제 무함유 물을 사용하여 5% 디지토닌을 1%로 희석하고, 최대 6개월간 4℃에서 저장)
동결 완충액(FB). 50 ml 팔콘 튜브에서, pH 8.0의 50 mM 트리스, 25% 글리세롤, 5 mM Mg(OAc)2, 0.1 mM EDTA 및 물을 배합한다. 밀리포어 "스테리플립" 멸균 일회용 진공 필터 유닛, PES 막; 기공 크기: 0.22 μm(SCGP00525)를 사용하여 여과 멸균한다. 4℃에서 최대 6개월간 완충액을 저장한다. 핵 단리 일에, 975 μl의 FB, 5 μl의 5 mM DTT(시그마-알드리치 카탈로그 번호 646563-10X0.5ml) 및 20 μl 50 × 프로테아제 억제제 칵테일(시그마-알드리치 카탈로그 번호 P8340)을 혼합한다.
2.5 M 글리신. 2.5 M 글리신을 제조하고, 250 ml의 물 중에 46.92 g의 글리신을 배합한 다음에, 여과 살균한다(날진 여과 시스템, 0.2 um 셀룰로오스 니트레이트 막(VWR, 28199-112)). 시약을 실온에서 최대 6개월간 저장한다.
40 mM EDTA. 물을 사용하여 0.5 M EDTA 스톡(인비트로겐, AM9262)으로부터 40 mM EDTA를 제조한 다음에, 여과 멸균한다(VWR, 28198-505). 시약을 실온에서 최대 6개월간 저장한다.
세포 배양. GM12878 세포를 15% FBS(서모 피셔 카탈로그 번호 SH30071.03) 및 1% Pen-strep(서모 피셔 카탈로그 번호 15140122)이 포함된 RPMI 1640 배지(서모 피셔 사이언티픽 카탈로그 번호 11875-093)에서 배양하여 유지하였다. 1주일에 3회 계수하고, 300,000개의 세포/ml로 분할하였다. CH12-LX 세포주를 10% FBS, 1% Pen-strep(페니실린 및 스트렙토마이신) 및 1x10^5M B-ME가 포함된 RPMI 1640 배지에서 배양하였다. 이를 주 3회 계수하고, 1x10^5개의 세포/ml의 밀도로 유지하고, 분할하여, 세포 농도를 유지하였다. 두 세포주를 5% CO2를 사용하여 37℃에서 인큐베이션하였다.
세포주로부터의 핵 단리 및 고정. 부유 세포의 경우, 약 1천만 내지 1억 개의 세포를 얻고, 실온에서 5분간 500 x g로 스피닝하여 세포를 펠릿화한다. 상청액을 흡인하고, 펠릿을 1 ml 옴니-ATAC 용해 완충액(10 mM NaCl, 3 mM MgCl2, 10 mM 트리스-HCl pH 7.4, 0.1% NP40, 0.1% 트윈 20 및 0.01% 디지토닌) 중에 재현탁시키고, 얼음 상에서 3분간 인큐베이션한다. 0.1% 트윈 20가 포함된 5 ml의 10 mM NaCl, 3 mM MgCl2, 10 mM 트리스-HCl pH 7.4를 첨가하여, 핵을 4℃에서 500 x g로 5분간 펠릿화한다. 상청액을 흡인하고, 핵을 5 ml 1X DPBS(서모 피셔 카탈로그 번호 14190144)에 재현탁시킨다. 핵을 가교결합시키기 위해, 140 μl의 37% 포름알데히드(메탄올 함유)(VWR 카탈로그 번호 MK501602)을 최종 농도 1%로 한 번에 첨가한다. 고정 혼합물을 1 내지 2 분마다 뒤집으면서 실온에서 10분간 인큐베이션한다. 가교결합 반응을 켄칭하기 위해, 250 μl의 2.5 M 글리신을 첨가하고, 실온에서 5분간 인큐베이션하고, 이어서 15분간 얼음 상에서 인큐베이션하여, 가교결합을 완전히 정지시킨다. 20 μl의 켄칭된 가교결합 혼합물을 계수를 위해 20 μl의 트리판 블루에 취한다. 가교결합된 핵을 4℃에서 500 x g로 5분간 스피닝하여, 상청액을 흡인한다. 고정된 핵을 적절한 양의 동결 완충액(pH 8.0의 50 mM 트리스, 25% 글리세롤, 5 mM Mg(OAc)2, 0.1 mM EDTA, 5 mM DTT(시그마-알드리치 카탈로그 번호 646563-10X0.5ml), 1×프로테아제 억제제 칵테일(시그마-알드리치 카탈로그 번호 P8340)에 재현탁시켜, 1 ml 분취물 당 200만 개의 핵을 얻고, 액체 질소 중에서 급속 동결하여, -80℃로 저장한다.
조직 채취 및 저장.
관심 조직을 분리한다. 1X HBSS pH 7.4(Ca 함유, Mg 함유), 칼슘 및 마그네슘을 함유한 1X HBSS, 페놀 레드 비함유, 집코 BRL(500ml) 14065-056으로 린스한다. 조직을 반 정도 축축한 거즈로 닦아내어 건조시킨다(젖은 거즈는 조직이 거즈에 달라붙는 것을 방지한다). 부직포 거즈 두칼 # 6114. 건조된 조직을 내구성이 강한 호일(NC19180132, 피셔 사이언티픽)이나 동결관에 놓는다. 주: 동결관은 급속 동결 과정 동안 갇힌 공기/습기로 인해 튜브 내부에 물 결정의 "성에"를 생성할 수 있다. 액체 질소를 사용하여 조직을 급속 동결한다. 조직을 -80℃의 저장소에 저장한다.
분쇄 및 저장. 분쇄 당일에, 미리 표지화된 튜브를 미리 냉각시키고 드라이아이스와 금속 사이의 천 타월로 드라이아이스를 두드린다. 18" x 18"의 튼튼한 포일을 사용하여 "패딩"을 만들고 반으로 두 번 접어 직사각형을 만든다. 두 번 더 접어서 정사각형을 만든다. 포일 "패딩" 내부에 동결 조직을 넣은 다음에, 포일이 파열되는 경우 조직이 드라이아이스 위로 떨어지는 것을 방지하기 위해 미리 냉각된 4 mm 플라스틱 백 내부의 포일 패딩에 조직을 넣는다. 이 조직 패킷을 2개의 드라이아이스의 슬랩 사이에서 냉각시킨다. 미리 냉각된 해머를 사용하여, 상기 패킷 내부의 조직을 수동으로 분쇄하고; 샘플 가열을 피하기 위해 중단하기 전에 분쇄 동작을 피하면서 3 내지 5회 충격을 가한다. 해머를 냉각시키고, 조직이 균일해질 때까지 필요에 따라 분쇄를 반복한다. 분쇄된 조직을 미리 표지화되고 미리 냉각된 1.5 ml 로빈드 및 뉴클레아제 무함유 스냅캡 1.5 ml 튜브(에펜도르프 카탈로그 번호 022431021)에 분취한다. 분말상 조직의 분취물은 추가 처리될 때까지 -80℃로 저장할 수 있다.
냉동 조직의 핵 단리 및 고정. 시작하기 전에, 옴니 용해 완충액(RSB + 0.1% 트윈 + 0.1% NP-40 및 0.01% 디지토닌)과, 0.1% 트윈-20를 함유한 RSB를 제조한다. 핵 단리일에, 용해 완충액을 튜브에 직접 추가하거나 동결된 분취물을 세포 용해 완충액이 있는 60 mm 접시에 붓고 블레이드로 더 잘게 다진다. 분취물이 저장 중 어느 시점에서 해동되지 않는 한, 분말상 조직 분취물은 샘플 손실 없이 저장 튜브에서 쉽게 미끄러져 나와야 한다. 원래 조직 중량 mg 당 약 20,000개로 추정된 세포를 얻을 수 있으며, 성능은 조직마다 다를 수 있다. 분쇄된 조직을 1 ml 옴니 용해액(RSB + 0.1% 트윈 + 0.1% NP-40 및 0.01% 디지토닌)에 재현탁시킨 후에, 15 ml 팔콘 튜브로 옮긴다. 핵을 얼음 상에서 3분간 인큐베이션한 다음에, 5 ml의 RSB + 0.1% 트윈-20을 첨가한다. 핵을 4℃에서 500 x g로 5분간 원심분리한다. 상청액을 흡인하고 5 ml 1X DPBS에 재현탁시킨다. 1X DPBS 중의 핵을 100 μm 세포 여과기(VWR 카탈로그 번호 10199-658)로 통과시켜 조직 덩어리를 제거한다.
흄 후드에서, 140 μL의 37% 포름알데히드(VWR, MK501602)를 한 번에 첨가하여 1% 최종 농도를 만들고, 튜브를 여러 번 뒤집어 빠르게 혼합하여 핵을 가교결합시킨다. 1 내지 2분마다 튜브를 부드럽게 뒤집으면서 정확히 10분간 실온에서 인큐베이션한다. 250 μL의 2.5 M 글리신(새로 제조됨, 여과 멸균됨)을 첨가하여 가교결합 반응을 켄칭하고, 튜브를 여러 번 뒤집어 잘 혼합한다. 실온에서 5분간 인큐베이션한 다음에, 얼음 상에서 15분간 인큐베이션하여 가교결합을 완전히 중지시킨다. 첨가할 동결 완충액의 최종 부피를 알기 위해 혈구계를 사용하여 핵을 계산하는데, 목표는 약 100만 내지 200만 개의 핵/튜브를 동결시키는 것이다. 가교결합된 핵을 4℃에서 5분간 500 x g로 원심분리하여, 상청액을 흡인하고, 1x 프로테아제 억제제 및 5 mM DTT가 보충된 1 내지 10 ml의 동결 완충액 중에 펠릿을 재현탁시킨다. 액체 질소 중에서 핵을 급속 동결하여, 핵을 -80℃로 저장한다.
sci-ATAC-seq3 샘플 처리(라이브러리 구축 및 qc). 해동, 투과화, 계수 및 태그멘테이션. 시작하기 전에, 옴니 용해 완충액(RSB + 0.1% 트윈 + 0.1% NP-40 및 0.01% 디지토닌)과, 0.1% 트윈-20을 함유한 RSB를 제조한다. 동결된 고정된 핵을 -80℃에서 꺼내, 드라이아이스 베드 상에 둔다. 37℃ 수조에서 핵을 해동할 때까지 해동하고(약 30초 내지 1분), 핵을 15 ml 팔콘 튜브로 옮긴다. 핵을 4℃에서 500 x g로 5분간 펠릿화한다. 펠릿을 건드리지 않고 상청액을 흡인하고, 펠릿을 200 μL의 옴니 용해 완충액에 재현탁시킨 후에, 얼음 상에서 3분간 인큐베이션한다. 0.1% 트윈-20가 포함된 1 ml ATAC-RSB로 용해 완충액을 씻어내고, 튜브를 3회 부드럽게 뒤집어 혼합한다. 20 μl의 핵 및 20 μl의 트리판 블루를 취해, 핵을 계수한다. 계수하는 동안, 이후 가능할 때마다 핵을 얼음 상에 유지시킨다. 384^3에서의 3레벨 인덱싱 실험의 경우, 핵 입력 수는 96개의 반응에 산재하는 조직 또는 샘플 당 웰당 50,000개의 핵에서 480만이다. 배치당, 24번째 샘플 및 대조군으로서 23개의 샘플/조직 + 마우스와 인간 핵의 혼합물이 있다. 태그멘테이션 반응을 위한 마스터 믹스를 제조한다(표 1):
[표 1]
Figure pct00026
각각의 샘플에 대해, 225,000개의 핵을 취해(계수를 기준으로), 4℃에서 5분간 500 x g로 스피닝하고, 상청액을 흡인하여, 펠릿을 213 μl의 미리 제조된 태그멘테이션 반응 마스터 믹스에 재현탁시킨다. 로빈드 96웰 플레이트(에펜도르프 카탈로그 번호 30129512)의 4개의 웰에 와이드 보어 팁(라이닌 인스트루먼트 컴퍼니 카탈로그 번호 30389249)을 사용하여 태그멘테이션 믹스 중의 47.5 μl의 핵을 분취한다. 웰당 2.5 μl의 넥스테라 v2 효소(일루미나 인코포레이티드 카탈로그 번호 FC-121-1031)를 첨가하여, 접착 테이프로 플레이트를 밀봉하고, 500 x g로 30초간 스피닝한다. 플레이트를 55℃에서 30분간 인큐베이션하여 DNA를 태그멘테이션한다. 25 ml의 40 mM EDTA 및 3.9 μl의 6.4 M 스페르미딘(최종 20 mM EDTA 및 1 mM 스페르미딘)을 배합하여, 정지 반응 마스터 제조한다. 50 μl의 정지 반응 혼합물(40 mM EDTA + 1 mM 스페르미딘)을 첨가하여 태그멘테이션 반응을 중단한 다음에, 37℃에서 15분간 인큐베이션하였다.
풀링, PNK 반응 및 N5 라이게이션. 와이드 보어 팁을 사용하여, 태그멘테이션된 핵을 폴링하고(샘플 당), 4℃에서 5분간 500 x g로 펠릿화한 후에, 0.1% 트윈 20가 함유된 500 μl의 ATAC-RSB로 세척하였다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 샘플당 0.1% 트윈-20가 함유된 18 μl의 ATAC-RSB에 재현탁시킨다. PNK 반응 마스터 믹스를 제조한다(표 2):
[표 2]
Figure pct00027
72 μl의 PNK 마스터 믹스를 각각의 샘플에 첨가한다. 5 μl의 PNK 반응 믹스를 분취한다(4개의 96 웰 플레이트의 16개의 웰에 대하여). 접착 테이프로 밀봉하여, 4℃에서 5분간 500 x g로 스피닝한다. PNK 반응물을 37℃에서 30분간 인큐베이션하였다. 440개의 반응에 충분한 N5 라이게이션 마스터 믹스를 제조한다(표 3):
[표 3]
Figure pct00028
다중 채널을 사용하여, 13.8 μl의 라이게이션 마스터 믹스를 각각의 PNK 반응물에 직접 첨가한다. 다중 채널 또는 96 헤드 디스펜서(리퀴데이터, 카탈로그 번호 17010335)를 사용하여, 4개의 96웰 플레이트에 대하여 각각의 웰에 1.2 μl의 50 μM N5_ 올리고(IDT)를 첨가한다. 접착 테이프로 밀봉하여, 500 x g로 30초간 스피닝한 후에, 25℃에서 1시간 동안 인큐베이션한다. 제1 라운드의 라이게이션 후에, EDTA와 스페르미딘 혼합물 20 μl(20 mM EDTA 및 1 mM 스페르미딘)를 첨가하여 라이게이션 반응을 중지시키고, 37℃에서 15분간 인큐베이션한다. 와이드 보어 팁을 사용하여, 각각의 웰을 트로프에 풀링하고, 50 ml 팔콘 튜브에 옮긴다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 0.1% 트윈-20가 함유된 1 ml의 ATAC-RSB에 핵을 재현탁시켜 임의의 잔류 라이게이션 반응 혼합물을 세척한다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 펠릿을 건드리지 않고 상청액을 흡인한다.
N7 라이게이션. 440개의 반응에 충분한 N7 라이게이션 마스터 믹스(1X T7 리가제 완충액, 9 uM N7_ 스플린트(IDT), 물 및 T7 DNA 리가제)를 만들어, 핵을 라이게이션 마스터 믹스로 재현탁시킨다(표 4).
[표 4]
Figure pct00029
마스터 믹스에 현탁시킨 핵을 트로프에 옮기고, 와이드 보어 팁을 사용하여, 18.8 μl의 라이게이션 마스터 믹스를 4개의 96웰 로빈드 플레이트에 분취한 다음에, 1.2 μl의 50 μM N7_ 올리고(IDT)를 4개의 96웰 플레이트에 대하여 각각의 웰에 첨가한다. 접착 테이프로 플레이트를 밀봉하여, 500 x g로 30초간 스피닝한 다음에, 25℃에서 1시간 동안 인큐베이션한다. 20 μl의 20 mM EDTA 및 1 mM 스페르미딘 혼합물(20 mM EDTA 및 1 mM 스페르미딘)을 첨가하여 라이게이션을 중지시키고, 37℃에서 15분간 인큐베이션한다.
풀링 , 계수 및 희석. 와이드 보어 팁을 사용하여 웰을 트로프에 풀링한 다음에, 50 ml 팔콘 튜브에 옮긴다. 4℃에서 5분간 500 x g로 핵을 펠릿화하고, 상청액을 흡인하여, 핵을 2 ml의 퀴아젠 EB 완충액(퀴아젠 카탈로그 번호 19086)에 재현탁시킨다. 40 μm 여과 캡(피셔 사이언티픽 카탈로그 번호 352235)을 갖는 FACs 튜브를 사용하여 핵을 여과한다. 20 μl의 재현탁 및 여과된 핵과, 20 μl의 트리판 블루를 취해, 핵을 계수한다. 핵을 μl 당 100 내지 300개의 핵으로 희석하고, 4개의 96웰 로빈드 플레이트에 웰당 10 μl를 분취한다.
비가교결합. 핵을 역가교결합시키기 위해, 역방향 가교결합 마스터 믹스(EB 완충액, 프로테이나제 k(퀴아젠, 카탈로그 번호 19133) 및 1% SDS; 각각, 웰당 1 μl/0.5 μl/0.5 μl)를 제조하여, 핵의 각 웰에 2 μl를 첨가한다. 접착 테이프로 밀봉하여, 500 x g로 30초간 스피닝한 후에, 65℃에서 16시간 동안 인큐베이션한다.
시험 PCR 및 겔 QC. 시작하기 전에, 비가교결합된 플레이트를 잠시 스핀 다운한다. 6개의 반응에 충분한 PCR 마스터 믹스를 제조한다(표 5):
[표 5]
Figure pct00030
35.5 μl의 PCR 마스터 믹스를 캡이 없는 백색 8-스트립 튜브(바이오-라드 래보러토리즈, TLS0851)에 분취한다. 1.25 μl의 10 μM P7 및 P5 프라이머를 첨가한다. 12 μl의 비가교결합된 핵을 PCR 및 프라이머 믹스에 첨가한다. 반응 튜브를 광학 평평한 8-캡 스트립(바이오-라드 래보러토리즈, TCS-0803)으로 캡핑한다. qPCR 기기에 넣고 증폭을 모니터링하여 최적의 사이클 수를 결정한다: 72℃ 5분간, 98℃ 30초간, 98℃ 10초간의 30 사이클, 63℃ 30초간, 72℃ 1분간, 그 다음에 10℃에서 유지. 시험 웰에 기초하여, 시험 웰이 모두 명백하게 증폭되지만, 임의의 웰의 형광 강도가 포화되기 전에 사이클 수를 선택한다. QC를 위해 1 μl의 PCR 산물을 취한다: 샘플 = 1 μl + 9 μl의 뉴클레아제 무함유 물 + 2 μl의 6X 오렌지색 염료; 100 bp 래더(1:10) = 1 μl + 9 μl의 뉴클레아제 무함유 물 + 2 μl의 6x 오렌지색 염료. 6% TBE 폴리아크릴아미드 겔을 180 볼트에서 35분간 실행한다. 5 μl SYBR 골드 및 50 ml 0.5X TBE 완충액으로 실온에서 5분간 염색한다.
PCR 플레이트 셋업. 플레이트를 잠시 스핀 다운한다. 시험 PCR 결과가 나올 때까지 얼음 상에 따로 놓는다. PCR 마스터 믹스를 제조한다(표 6):
[표 6]
Figure pct00031
증폭 동안 행과 열의 프라이머 조합이 사용된 것에 주목한다. 접착 테이프로 밀봉한 다음에, 500 x g로 30초간 스피닝한다. 시험 PCR 결과로부터의 최적 사이클 수로 PCR 플레이트를 실행한다: 72℃ 5분간, 98℃ 30초간, 98℃ 10초간의 10 내지 20 사이클, 63℃ 30초간, 72℃ 1분간, 그 다음에 10℃에서 유지.
PCR 증폭 클린업 및 QC. 자이모 클린 앤드 콘센트레이터(Zymo Clean & Concentrator)-5를 사용하여 PCR 산물을 세정한다. 25 μl의 각각의 PCR 반응물(2.4 ml)을 트로프에 배합하고, 2볼륨의 결합 완충액(4.8 ml)을 첨가하고, 4개의 C&C 컬럼에 대하여 분할하고(600 μl, 각각의 컬럼에서 3회 스피닝), 200 μl 자이모 세척 완충액을 첨가하여 스피닝하고(총 2회 세척), 최종 세척 후에 추가 스피닝을 사용하여 컬럼을 1분간 건조시키고, 25 μl의 퀴아젠 용출 완충액으로 용리하고(완충액을 컬럼 상에 1분간 정치시킨 다음에, 최대 속도로 1분간 스피닝함), 4개의 용출액을 모두 배합하여, 1X AMPure 비드(100 μl)로 다시 세척하고, 상청액이 투명할 때까지 MPC(자성 입자 수집기)에 놓고, 상청액을 흡인한다. 비드를 200 μl의 80% 에탄올로 2회 세척하고, 비드를 과도하게 건조시키지 않고서 비드 색상이 흐릿해질 때까지 30초 내지 1분간 비드를 건조시키며, 비드를 25 μl의 퀴아젠 EB 완충액으로 용리시키고, MPC에 넣고, 상청액을 깨끗한 튜브에 옮기고, 라이브러리 QC를 위해 테이프스테이션을 사용하고, 제조업자의 사양서에 따라 D5000 스크린테이프 분석을 사용한다. 단편 분석을 위해, 200 내지 1000 bp의 영역 표를 작성하여, 영역 몰 농도를 계산한다. 해당 nM(nmol/l)농도를 사용하여 라이브러리를 완충액 EB 및 0.1% 트윈-20를 사용하여 2 nM로 희석시킨다. 다수의 라이브러리를 풀링하는 경우, 각각의 라이브러리를 2 nM으로 정규화하고, 시퀀싱을 위해 등몰 풀을 생성한다.
차세대 시퀀싱(150 사이클 키트). 라이브러리 변성: 2 N NaOH를 0.2 N NaOH(10 μl 1 N에서 90 μl 뉴클레아제 무함유 물)로 희석시키고, 새로운 1.5 로빈드 튜브에서, 10 μl의 0.1 N NaOH를 옮기고 10 μl의 2 nM 풀링된 라이브러리를 첨가하고, 실온에서 5분간 인큐베이션하고, 980 μl의 HT1을 첨가하여 변성 라이브러리를 20 pM으로 희석시키고, 변성 라이브러리를 1.8 pM 로딩 농도(135 μl 20 pM + 1365 μl HT1)로 희석시키고, 커스텀(custom) 프라이머를 0.6 μM으로 희석시킴, NextSeq 시퀀싱 레시피 이름: 3LV2_sciATAC_high.
R1 - gDNA의 경우 50개의 염기, R2 - gDNA의 경우 50개의 염기.
1 내지 20개의 염기를 인덱싱하고(N7 올리고의 경우 10개의 염기, 15 다크 사이클, PCR 바코드 10개의 염기), 2 내지 20개의 염기를 인덱싱한다(N5 올리고의 경우 10개의 염기, 15 다크 사이클, PCR 바코드 10개의 염기).
시퀀싱 프라이머: 3L_NexteraV2_R1_seq TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG (서열 번호 5); L_NexteraV2_R2_seq GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG (서열 번호 6); 3LV2_IDX1 CTCCGAGCCCACGAGACGACAAGTC (서열 번호 7); 3LV2_IDX2 ACACATCTGACGCTGCCGACGACTGATTAC (서열 번호 8).
본 명세서에 인용된 모든 특허, 특허 출원 및 간행물, 및 전자적으로 이용가능한 자료(예를 들어, GenBank 및 RefSeq에 제출된 뉴클레오티드 서열, 및 예를 들어, SwissProt, PIR, PRF, PDB에 제출된 아미노산 서열, 및 본 명세서에 인용된 GenBank 및 RefSeq에서의 주석이 달린 코딩 구역으로부터의 번역을 포함함)의 전체 개시물은 전체적으로 참고로 포함된다. 간행물에 언급된 보충 자료(예를 들어, 보충용 테이블, 보충용 도면, 보충 물질 및 방법, 및/또는 보충 실험 데이터)는 마찬가지로 전체적으로 참고로 포함된다. 본 출원의 개시 내용과 본 명세서에 참고로 포함된 임의의 문헌의 개시 내용(들)사이에 임의의 불일치가 존재하는 경우, 본 출원의 개시 내용은 우선할 것이다. 전술한 상세한 설명 및 실시예는 단지 명확한 이해를 위해 제공되었다. 그로부터 불필요한 제한이 이해되어서는 안된다. 본 발명은 도시되고 기술된 정확한 상세 사항으로 제한되지 않으며, 당업자에게 명백한 변형이 청구범위에 의해 한정되는 개시 내용 내에 포함될 것이다.
달리 지시되지 않는 한, 본 명세서 및 특허청구범위에서 사용되는 성분, 분자량 등의 양을 표현하는 모든 수는 모든 경우에 용어 "약" 에 의해 수식되는 것으로 이해되어야 한다. 따라서, 달리 반대로 지시되지 않는 한, 명세서 및 특허청구범위에 기재된 수치 파라미터는 본 발명에 의해 얻고자 하는 원하는 특성에 따라 달라질 수 있는 근사치이다. 적어도, 그리고 청구범위의 범주에 대한 등가물의 원칙을 제한하려는 시도로서가 아니라, 각각의 수치 파라미터는 적어도 보고된 유효 숫자의 수에 비추어 그리고 보통의 반올림 기술을 적용함으로써 해석되어야 한다.
본 발명의 넓은 범주를 기술하는 수치 범위 및 파라미터가 근사치임에도 불구하고, 특정 실시예에 기재된 수치 값은 가능한 한 정확하게 보고된다. 그러나, 모든 수치 값은 그의 각각의 시험 측정에서 발견되는 표준 편차로부터 필연적으로 생기는 범위를 본질적으로 포함한다.
모든 헤딩은 독자의 편의를 위한 것이며, 달리 명시되지 않는 한, 헤딩 다음에 나오는 텍스트의 의미를 제한하기 위해 사용되지 않아야 한다.
SEQUENCE LISTING <110> ILLUMINA, INC. UNIVERSITY OF WASHINGTON <120> HIGH-THROUGHPUT SINGLE-CELL LIBRARIES AND METHODS OF MAKING AND OF USING <130> IP-1952-PCT-531001952WO01 <140> PCT/US2020/066013 <141> 2020-12-18 <150> 62/950,670 <151> 2019-12-19 <160> 10 <170> PatentIn version 3.5 <210> 1 <211> 54 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (7)..(24) <223> a, c, t, g, unknown or other <400> 1 cagagcnnnn nnnnnnnnnn nnnntttttt tttttttttt tttttttttt tttt 54 <210> 2 <211> 45 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> source <223> /note="Description of Combined DNA/RNA Molecule: Synthetic oligonucleotide" <220> <221> modified_base <222> (7)..(16) <223> a, c, t, g, unknown or other <220> <221> misc_feature <222> (7)..(16) <223> /note="This region may encompass 9-10 nucleotides" <220> <221> modified_base <222> (36)..(45) <223> a, c, t, g, unknown or other <220> <221> misc_feature <222> (36)..(45) <223> /note="This region may encompass 9-10 nucleotides" <220> <221> source <223> /note="See specification as filed for detailed description of substitutions and preferred embodiments" <400> 2 gctctgnnnn nnnnnnuacg acgctcttcc gatctnnnnn nnnnn 45 <210> 3 <211> 29 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 3 aatgatacgg cgaccaccga gatctacac 29 <210> 4 <211> 24 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 4 caagcagaag acggcatacg agat 24 <210> 5 <211> 33 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 5 tcgtcggcag cgtcagatgt gtataagaga cag 33 <210> 6 <211> 34 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 6 gtctcgtggg ctcggagatg tgtataagag acag 34 <210> 7 <211> 25 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 7 ctccgagccc acgagacgac aagtc 25 <210> 8 <211> 30 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 8 acacatctga cgctgccgac gactgattac 30 <210> 9 <211> 33 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 9 acactctttc cctacacgac gctcttccga tct 33 <210> 10 <211> 15 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 10 gtctcgtggg ctcgg 15

Claims (85)

  1. 생물학적 특징부(biological feature)를 포함하는 세포 아집단을 식별하는 방법으로서,
    (a) 단일 세포 시퀀싱 라이브러리를 제공하는 단계
    - 상기 시퀀싱 라이브러리는 복수의 변형된 표적 핵산을 포함하고,
    상기 변형된 표적 핵산은 적어도 하나의 인덱스 서열을 포함함 -;
    (b) 표적 시퀀싱에 의해 상기 시퀀싱 라이브러리를 조사하여, 생물학적 특징부와 동일한 변형된 표적 핵산 상에 존재하는 인덱스 서열을 식별하는 단계
    - 상기 생물학적 특징부와 관련된 인덱스 서열은 마커 인덱스 서열임 -;
    (c) 상기 시퀀싱 라이브러리를 변경하여, 서브라이브러리를 얻는 단계
    - 상기 서브라이브러리는 마커 인덱스 서열을 포함하지 않는 상기 시퀀싱 라이브러리에 존재하는 다른 변형된 표적 핵산과 비교하여, 상기 마커 인덱스 서열을 포함하는 상기 변형된 표적 핵산의 표현 증가를 포함함 -; 및
    (d) 마커 인덱스 서열을 포함하는 변형된 표적 핵산의 뉴클레오티드 서열을 결정하는 단계를 포함하는 방법.
  2. 제1항에 있어서, 상기 단일 세포 시퀀싱 라이브러리는 다수의 샘플로부터의 핵산을 포함하는 방법.
  3. 제2항에 있어서, 상기 다수의 샘플은 (i) 상이한 유기체로부터 얻어진 동일한 조직의 샘플, (ii) 하나의 유기체로부터의 상이한 조직의 샘플 또는 (iii) 상이한 유기체로부터의 상이한 조직의 샘플을 포함하는 방법.
  4. 제1항에 있어서, 2개 이상의 마커 인덱스 서열은 단계 (b)에서 식별되는 방법.
  5. 제1항에 있어서, 상기 단일 세포 조합 시퀀싱 라이브러리는 세포 또는 핵의 전체 게놈 또는 게놈의 서브세트를 나타내는 표적 핵산을 포함하는 방법.
  6. 제5항에 있어서, 상기 게놈의 서브세트는 세포 또는 핵의 트랜스크립톰, 접근가능한 염색질, DNA, 구조적 상태 또는 단백질을 나타내는 표적 핵산을 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 변경은 마커 인덱스 서열을 포함하는 변형된 표적 핵산의 농축을 포함하는 방법.
  8. 제7항에 있어서, 상기 농축은 하이브리디제이션 기반 방법을 포함하는 방법.
  9. 제8항에 있어서, 상기 하이브리디제이션 기반 방법은 하이브리드 캡처, 증폭 또는 CRISPR (d)Cas9을 포함하는 방법.
  10. 제9항에 있어서, 상기 변경은 마커 인덱스 서열을 포함하지 않는 변형된 표적 핵산의 고갈을 포함하는 방법.
  11. 제10항에 있어서, 상기 고갈은 하이브리디제이션 기반 방법을 포함하는 방법.
  12. 제11항에 있어서, 상기 하이브리디제이션 기반 방법은 하이브리드 캡처, 증폭 또는 CRISPR (d)Cas9을 포함하는 방법.
  13. 제1항에 있어서, 상기 생물학적 특징부는 종 유형을 나타내는 뉴클레오티드 서열을 포함하는 방법.
  14. 제13항에 있어서, 상기 종 유형은 세포의 종을 포함하는 방법.
  15. 제14항에 있어서, 상기 생물학적 특징부는 16s 서브유닛, 18s 서브유닛 또는 ITS 비전사 영역의 뉴클레오티드를 포함하는 방법.
  16. 제1항에 있어서, 상기 생물학적 특징부는 세포 부류를 나타내는 뉴클레오티드 서열을 포함하는 방법.
  17. 제16항에 있어서, 상기 세포 부류는 발현 패턴, 에피제네틱(epigenetic) 패턴, 면역 유전자 재조합 또는 이들의 조합을 포함하는 방법.
  18. 제17항에 있어서, 상기 에피제네틱 패턴은 메틸화 마크, 메틸화 패턴, 접근가능한 DNA 또는 이들의 조합을 포함하는 방법.
  19. 제1항에 있어서, 상기 생물학적 특징부는 질병 상태 또는 위험을 나타내는 뉴클레오티드 서열을 포함하는 방법.
  20. 제19항에 있어서, 상기 질병 상태 또는 위험은 질병과 상관관계가 있는 변이체 DNA 서열, 변이체 발현 패턴 또는 변이체 에피제네틱 패턴을 포함하는 방법.
  21. 제20항에 있어서, 상기 변이체 DNA 서열은 적어도 하나의 단일 뉴클레오티드 다형(polymorphism)을 포함하는 방법.
  22. 제21항에 있어서, 상기 변이체 발현 패턴은 바이오마커의 발현을 포함하는 방법.
  23. 제22항에 있어서, 상기 변이체 에피제네틱 패턴은 메틸화 마크, 메틸화 패턴을 포함하는 방법.
  24. 제1항에 있어서, 상기 변형된 표적 핵산은 2개 이상의 컴파트먼트 특이적 인덱스 서열의 인접 인덱스를 포함하며, 2개의 인덱스 서열 사이에 6개 이하의 뉴클레오티드가 존재하는 방법.
  25. 제24항에 있어서, 상기 인접 인덱스는 변형된 표적 핵산의 각 말단에 존재하는 방법.
  26. 제24항 또는 제25항에 있어서, 상기 인접 인덱스의 길이는 55개 이상의 뉴클레오티드인 방법.
  27. 제24항 내지 제26항 중 어느 한 항에 있어서, 상기 인접 인덱스의 하나의 카피가 변형된 표적 핵산 상에 존재하는 방법.
  28. 제24항 내지 제26항 중 어느 한 항에 있어서, 상기 인접 인덱스의 2개의 카피가 변형된 표적 핵산 상에 존재하는 방법.
  29. 제1항에 있어서, 상기 시퀀싱 라이브러리의 복수의 변형된 표적 핵산은 100,000개 이상의 상이한 세포 또는 핵을 나타내는 방법.
  30. 제1항에 있어서, 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계는,
    샘플을 처리하여 라이브러리를 생성하는 단계 - 상기 샘플은 유기체로부터 얻어진 메타게놈 샘플임 -를 포함하는 방법.
  31. 제30항에 있어서, 상기 유기체는 포유동물인 방법.
  32. 제30항 또는 제31항에 있어서, 상기 메타게놈 샘플은 공생 또는 병원성 미생물을 포함하는 것으로 의심되는 조직을 포함하는 방법.
  33. 제32항에 있어서, 상기 미생물은 원핵생물 또는 진핵생물인 방법.
  34. 제30항, 제31항 또는 제33항에 있어서, 상기 메타게놈 샘플은 마이크로바이옴 샘플을 포함하는 방법.
  35. 제1항에 있어서, 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계는,
    샘플을 처리하여 라이브러리를 생성하는 단계 - 상기 샘플은 유기체로부터 유래됨 -를 포함하는 방법.
  36. 제35항에 있어서, 상기 유기체는 포유동물인 방법.
  37. 제35항에 있어서, 상기 샘플로부터의 핵산의 주요 공급원은 RNA를 포함하는 방법.
  38. 제37항에 있어서, 상기 RNA는 mRNA를 포함하는 방법.
  39. 제35항에 있어서, 상기 샘플로부터의 핵산의 주요 공급원은 DNA를 포함하는 방법.
  40. 제39항에 있어서, 상기 DNA는 전체 세포 게놈 DNA를 포함하는 방법.
  41. 제40항에 있어서, 상기 전체 세포 게놈 DNA는 뉴클레오솜을 포함하는 방법.
  42. 제35항에 있어서, 상기 샘플로부터의 핵산의 주요 공급원은 무세포 DNA를 포함하는 방법.
  43. 제35항에 있어서, 상기 샘플은 암세포를 포함하는 방법.
  44. 제1항에 있어서, 상기 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계는 단일 핵 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 및 트랜스포존 접근가능한 염색질 시퀀싱, 단일 핵의 전체 게놈 시퀀싱, 트랜스포존 접근가능한 염색질의 단일 핵 시퀀싱, 단일 세포 에피토프 시퀀싱, sci-HiC 및 sci-MET로부터 선택되는 단일 세포 조합 인덱싱 방법을 사용하여 라이브러리를 생성하는 단계를 포함하는 방법.
  45. 제44항에 있어서, 상기 제공하는 단계는 각각의 세포 또는 핵으로부터의 2개의 상이한 단일 세포 조합 시퀀싱 라이브러리를 제공하는 단계를 포함하는 방법.
  46. 제45항에 있어서, 상기 2개의 상이한 단일 세포 조합 시퀀싱 라이브러리는 단일 핵 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 시퀀싱, 단일 세포 트랜스크립톰 및 트랜스포존 접근가능한 염색질 시퀀싱, 단일 핵의 전체 게놈 시퀀싱, 트랜스포존 접근가능한 염색질의 단일 핵 시퀀싱, sci-HiC 및 sci-MET로부터 선택되는 단일 세포 조합 인덱싱 방법으로부터 선택되는 방법.
  47. 제1항에 있어서, 핵산에 대한 뉴클레오티드 서열을 결정하기 위해 시퀀싱 절차를 수행하는 단계를 추가로 포함하는 방법.
  48. 복수의 단일 핵 또는 세포로부터의 핵산을 포함하는 시퀀싱 라이브러리를 제조하는 방법으로서,
    (a) 복수의 핵 또는 세포를 제공하는 단계 - 상기 핵 또는 세포는 뉴클레오솜을 포함함 -;
    (b) 복수의 핵 또는 세포를 트랜스포사제 및 유니버셜 서열을 포함하는 트랜스포좀 복합체와 접촉시키는 단계 - 상기 접촉은 상기 유니버셜 서열을 DNA 핵산에 혼입시켜, 상기 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함함 -;
    (d) 복수의 핵 또는 세포를 제1 복수의 컴파트먼트에 분배하는 단계
    - 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
    (e) 핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 인덱싱된 핵 또는 세포를 생성하는 단계
    - 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제1 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하는 것을 포함하고,
    상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
    (g) 상기 인덱싱된 핵 또는 세포를 배합하여, 풀링된 인덱싱된 핵 또는 세포를 생성하는 단계를 포함하는 방법.
  49. 제48항에 있어서, 상기 제공하는 단계는 복수의 컴파트먼트에 복수의 핵 또는 세포를 제공하는 것을 포함하며, 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함하고, 상기 접촉시키는 단계는 각각의 컴파트먼트를 상기 트랜스포좀 복합체와 접촉시키는 것을 포함하며, 상기 방법은 접촉 후에 핵 또는 세포를 배합하여, 풀링된 핵 또는 세포를 생성하는 단계를 추가로 포함하는 방법.
  50. 제48항에 있어서, 상기 제공하는 단계는 상기 핵에 화학적 처리를 행하여, 단리된 핵의 완전성을 유지하면서 뉴클레오솜 고갈된 핵을 생성하는 단계를 포함하는 방법.
  51. 제48항에 있어서,
    상기 인덱싱된 핵 또는 세포를 포함하는 풀링된 인덱싱된 핵 또는 세포를 제2 복수의 컴파트먼트에 분배하는 단계
    - 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
    핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 듀얼 인덱싱된(dual-indexed) 핵 또는 세포를 생성하는 단계
    - 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제2 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 듀얼 인덱싱된 핵산을 생성하는 것을 포함하고,
    상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
    상기 듀얼 인덱싱된 핵 또는 세포를 배합하여, 풀링된 듀얼 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함하는 방법.
  52. 제51항에 있어서,
    상기 듀얼 인덱싱된 핵 또는 세포를 포함하는 풀링된 핵 또는 세포를 제3 복수의 컴파트먼트에 분배하는 단계
    - 각각의 컴파트먼트는 핵 또는 세포의 서브세트를 포함함 -;
    핵 또는 세포의 각 서브세트 내의 DNA 분자를 처리하여, 트리플 인덱싱된(triple-indexed) 핵 또는 세포를 생성하는 단계
    - 상기 처리는 핵 또는 세포의 각 서브세트 내에 존재하는 DNA 핵산에 제3 컴파트먼트 특이적 인덱스 서열을 부가하여, 인덱싱된 핵 또는 세포에 존재하는 트리플 인덱싱된 핵산을 생성하는 것을 포함하고,
    상기 처리는 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합을 포함함 -; 및
    상기 트리플 인덱싱된 핵 또는 세포를 배합하여, 풀링된 트리플 인덱싱된 핵 또는 세포를 생성하는 단계를 추가로 포함하는 방법.
  53. 제48항, 제51항 또는 제52항에 있어서, 상기 분배 단계는 희석을 포함하는 방법.
  54. 제48항, 제51항 또는 제52항에 있어서, 상기 컴파트먼트는 웰, 마이크로유체 컴파트먼트 또는 소적을 포함하는 방법.
  55. 제48항에 있어서, 상기 제1 복수의 컴파트먼트의 컴파트먼트는 50 내지 100,000,000개의 핵 또는 세포를 포함하는 방법.
  56. 제51항에 있어서, 상기 제2 복수의 컴파트먼트의 컴파트먼트는 50 내지 100,000,000개의 핵 또는 세포를 포함하는 방법.
  57. 제52항에 있어서, 상기 제3 복수의 컴파트먼트의 컴파트먼트는 50 내지 100,000,000개의 핵 또는 세포를 포함하는 방법.
  58. 제48항에 있어서, 상기 접촉은 각각의 서브세트를 2개의 트랜스포좀 복합체와 접촉시키는 것을 포함하며, 여기서 하나의 트랜스포좀 복합체는 제1 유니버셜 서열을 포함하는 제1 트랜스포사제를 포함하고, 다른 트랜스포좀 복합체는 제2 유니버셜 서열을 포함하는 제2 트랜스포사제를 포함하며, 상기 접촉은 제1 유니버셜 서열 및 제2 유니버셜 서열을 DNA 핵산에 혼입시켜, 제1 및 제2 유니버셜 서열을 포함하는 이중 가닥 DNA 핵산을 생성하기에 적합한 조건을 추가로 포함하는 방법.
  59. 제48항, 제49항 또는 제50항에 있어서, 상기 컴파트먼트 특이적 인덱스 서열을 부가하는 단계는 유니버셜 서열을 포함하는 뉴클레오티드 서열을 상기 핵산에 부가한 다음에, 상기 컴파트먼트 특이적 인덱스 서열을 상기 핵산에 부가하는 2단계 과정을 포함하는 방법.
  60. 제48항에 있어서, 상기 풀링된 인덱싱된 핵 또는 세포로부터 상기 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는 방법.
  61. 제49항에 있어서, 상기 풀링된 듀얼 인덱싱된 핵 또는 세포로부터 상기 듀얼 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는 방법.
  62. 제50항에 있어서, 상기 풀링된 트리플 인덱싱된 핵 또는 세포로부터 상기 트리플 인덱싱된 핵산을 얻어, 상기 복수의 핵 또는 세포로부터 시퀀싱 라이브러리를 생성하는 단계를 추가로 포함하는 방법.
  63. 제60항 내지 제62항 중 어느 한 항에 있어서,
    복수의 증폭 부위를 포함하는 표면을 제공하는 단계
    - 상기 증폭 부위는 유리 3' 말단을 갖는 부착된 단일 가닥 포획 올리고뉴클레오티드의 적어도 2개의 집단을 포함함 -, 및
    복수의 인덱스를 포함하는 개별 단편으로부터의 앰플리콘의 클론 집단을 각각 포함하는 복수의 증폭 부위를 생성하기에 적합한 조건 하에 상기 증폭 부위를 포함하는 표면을 1, 2 또는 3개의 인덱스 서열을 포함하는 핵산 단편과 접촉시키는 단계를 추가로 포함하는 방법.
  64. (a) 복수의 샘플을 제공하는 단계 - 각각의 샘플은 복수의 세포 또는 핵을 포함하고, 각각의 샘플의 복수의 세포 또는 핵은 하나 이상의 개별 컴파트먼트에 존재함 -;
    (b) 상기 복수의 핵 또는 세포를 트랜스포사제 및 유니버셜 서열을 포함하는 트랜스포좀 복합체와 접촉시키는 단계 - 단, 상기 트랜스포좀 복합체는 인덱스 서열을 포함하지 않고, 상기 접촉은 상기 유니버셜 서열을 핵산에 혼입시키기에 적합한 조건을 추가로 포함함 -;
    (c) 제1 인덱스 서열을 각각의 개별 컴파트먼트의 핵산에 부가하는 단계;
    (d) 상기 개별 컴파트먼트의 세포 또는 핵을 배합하는 단계;
    (e) 상기 세포 또는 핵을 복수의 컴파트먼트에 분배하는 단계; 및
    (f) 제2 인덱스 서열을 상기 복수의 컴파트먼트의 핵산에 부가하는 단계를 포함하는, 핵산 라이브러리의 제조 방법.
  65. 제64항에 있어서, 상기 제1 인덱스 서열, 상기 제2 인덱스 서열 또는 이들의 조합은 라이게이션, 프라이머 신장, 하이브리디제이션, 증폭 또는 이들의 조합에 의해 부가되는 방법.
  66. 제64항 또는 제65항에 있어서, 단계 (d) 내지 단계 (e)는 제3 또는 그 이상의 인덱스 서열을 상기 복수의 컴파트먼트의 세포 또는 핵에 부가하기 위해 반복되는 방법.
  67. 제64항 또는 제65항에 있어서, 상기 복수의 핵 또는 세포는 고정되는 방법.
  68. 제64항 또는 제65항에 있어서, 단계 (c) 또는 단계 (f) 후에 인덱싱된 핵산을 증폭하는 단계를 추가로 포함하는 방법.
  69. 제64항 또는 제65항에 있어서, 상기 복수의 컴파트먼트의 핵산을 배합하여, 핵산의 서열을 결정하는 단계 (g)를 추가로 포함하는 방법.
  70. 제64항에 있어서, 핵산에 대한 뉴클레오티드 서열을 결정하기 위해 시퀀싱 절차를 수행하는 단계를 추가로 포함하는 방법.
  71. 단일 세포 또는 핵을 시퀀싱하는 방법으로서,
    (a) 샘플 내의 각각의 세포 또는 핵의 핵산을 고유하게 인덱싱하여, 각각의 세포 또는 핵에 대한 인덱싱된 라이브러리를 생성하는 단계;
    (b) 생물학적 특징부를 사용하여, 단계 (a)의 관심 대상인 하나 이상의 인덱싱된 라이브러리를 식별하는 단계;
    (c) 단계 (b)의 관심 대상인 인덱싱된 라이브러리를 농축시켜, 농축된 라이브러리를 생성하는 단계; 및
    (d) 단계 (c)의 농축된 라이브러리를 시퀀싱하는 단계를 포함하는 방법.
  72. 제71항에 있어서, 상기 라이브러리는 세포 또는 핵의 DNA, RNA 또는 단백질로부터 유래되는 방법.
  73. 제71항 또는 제72항에 있어서, 상기 생물학적 특징부는 DNA, RNA 또는 단백질, 또는 이들의 조합인 방법.
  74. 제71항 또는 제72항에 있어서, 단계 (a)의 고유하게 인덱싱하는 단계는 적어도 2개의 상이한 인덱스를 세포 또는 핵의 핵산과 회합시키는 단계를 포함하는 방법.
  75. 제74항에 있어서, 상기 적어도 2개의 상이한 인덱스는 인접 인덱스인 방법.
  76. 제71항 또는 제72항에 있어서, 상기 농축된 라이브러리는 양성 농축을 통해 생성되는 방법.
  77. 제76항에 있어서, 상기 양성 농축은 증폭을 포함하는 방법.
  78. 제76항에 있어서, 상기 양성 농축은 포획제를 포함하는 방법.
  79. 제76항에 있어서, 상기 양성 농축은 고상 지지체를 포함하는 방법.
  80. 제76항에 있어서, 상기 농축된 라이브러리는 음성 농축을 통해 생성되는 방법.
  81. 제71항 또는 제72항에 있어서, 단계 (c)의 관심 대상인 상기 인덱싱된 라이브러리를 식별하는 단계는 상기 인덱스를 시퀀싱하는 단계를 포함하는 방법.
  82. 단일 세포 또는 핵을 시퀀싱하는 방법으로서,
    (a) 복수의 핵 또는 세포를 포함하는 샘플을 제공하는 단계;
    (b) 상기 샘플 내의 각각의 핵 또는 세포 상에서 제1 인덱스를 회합하는 단계;
    (c) 상기 샘플을 복수의 컴파트먼트로 분할하는 단계;
    (d) 상기 복수의 컴파트먼트의 각각의 핵 또는 세포 상에서 제2 인덱스를 회합하는 단계;
    (e) 상기 복수의 컴파트먼트를 풀링하는 단계;
    (f) 풀링된 컴파트먼트를 시퀀싱하는 단계;
    (g) 생물학적 특징부와 관련된 제1 및 제2 인덱스의 조합을 식별하는 단계; 및
    (h) 단계 (g)로부터의 제1 및 제2 인덱스의 식별된 조합을 사용하여, 풀링된 컴파트먼트로부터 생물학적 특징부를 농축하는 단계를 포함하는 방법.
  83. (a) 각각, 트랜스포사제 및 인덱스되지 않은 트랜스포존 서열을 포함하는 복수의 트랜스포좀 복합체;
    (b) 적어도 2개의 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제1 복수의 인덱스 올리고뉴클레오티드; 및
    (c) 상기 인덱스 올리고뉴클레오티드와 함께 사용하기 위한 리가제 효소를 포함하는 키트.
  84. 제83항에 있어서, 상기 제1 복수의 인덱스 올리고뉴클레오티드와는 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제2 복수의 인덱스 올리고뉴클레오티드를 추가로 포함하는 키트.
  85. 제83항에 있어서, 상기 제1 복수의 인덱스 올리고뉴클레오티드 및 상기 제2 복수의 인덱스 올리고뉴클레오티드와는 상이한 서열을 갖는 올리고뉴클레오티드를 포함하는 제3 복수의 인덱스 올리고뉴클레오티드를 추가로 포함하는 키트.
KR1020217030969A 2019-12-19 2020-12-18 고 처리량 단일 세포 라이브러리, 및 이의 제조 방법 및 사용 방법 KR20220118295A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962950670P 2019-12-19 2019-12-19
US62/950,670 2019-12-19
PCT/US2020/066013 WO2021127436A2 (en) 2019-12-19 2020-12-18 High-throughput single-cell libraries and methods of making and of using

Publications (1)

Publication Number Publication Date
KR20220118295A true KR20220118295A (ko) 2022-08-25

Family

ID=74191887

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217030969A KR20220118295A (ko) 2019-12-19 2020-12-18 고 처리량 단일 세포 라이브러리, 및 이의 제조 방법 및 사용 방법

Country Status (12)

Country Link
US (1) US20220356461A1 (ko)
EP (1) EP3927824A2 (ko)
JP (1) JP2023508792A (ko)
KR (1) KR20220118295A (ko)
CN (1) CN114008199A (ko)
AU (1) AU2020407641A1 (ko)
BR (1) BR112021019640A2 (ko)
CA (1) CA3134746A1 (ko)
IL (1) IL286643A (ko)
MX (1) MX2021011847A (ko)
SG (1) SG11202109486QA (ko)
WO (1) WO2021127436A2 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112023026984A2 (pt) * 2021-06-24 2024-03-12 Illumina Inc Métodos e composições para indexação combinatória de ácidos nucleicos baseados em microesferas
WO2023137292A1 (en) * 2022-01-12 2023-07-20 Jumpcode Genomics, Inc. Methods and compositions for transcriptome analysis

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
AU622426B2 (en) 1987-12-11 1992-04-09 Abbott Laboratories Assay using template-dependent nucleic acid probe reorganization
CA1341584C (en) 1988-04-06 2008-11-18 Bruce Wallace Method of amplifying and detecting nucleic acid sequences
AU3539089A (en) 1988-04-08 1989-11-03 Salk Institute For Biological Studies, The Ligase-based amplification method
AU634969B2 (en) 1988-06-24 1993-03-11 Amgen, Inc. Method and reagents for detecting nucleic acid sequences
US5130238A (en) 1988-06-24 1992-07-14 Cangene Corporation Enhanced nucleic acid amplification process
EP0425563B1 (en) 1988-07-20 1996-05-15 David Segev Process for amplifying and detecting nucleic acid sequences
US5185243A (en) 1988-08-25 1993-02-09 Syntex (U.S.A.) Inc. Method for detection of specific nucleic acid sequences
EP0450060A1 (en) 1989-10-26 1991-10-09 Sri International Dna sequencing
US5573907A (en) 1990-01-26 1996-11-12 Abbott Laboratories Detecting and amplifying target nucleic acids using exonucleolytic activity
ES2089038T3 (es) 1990-01-26 1996-10-01 Abbott Lab Procedimiento mejorado para amplificar acidos nucleicos blanco aplicable para la reaccion en cadena de polimerasa y ligasa.
US5223414A (en) 1990-05-07 1993-06-29 Sri International Process for nucleic acid hybridization and amplification
US5455166A (en) 1991-01-31 1995-10-03 Becton, Dickinson And Company Strand displacement amplification
EP0754240B1 (en) 1994-02-07 2003-08-20 Beckman Coulter, Inc. Ligase/polymerase-mediated genetic bit analysis of single nucleotide polymorphisms and its use in genetic analysis
US5677170A (en) 1994-03-02 1997-10-14 The Johns Hopkins University In vitro transposition of artificial transposons
CA2185239C (en) 1994-03-16 2002-12-17 Nanibhushan Dattagupta Isothermal strand displacement nucleic acid amplification
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
ES2563643T3 (es) 1997-04-01 2016-03-15 Illumina Cambridge Limited Método de secuenciación de ácido nucleico
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7582420B2 (en) 2001-07-12 2009-09-01 Illumina, Inc. Multiplex nucleic acid reactions
US7611869B2 (en) 2000-02-07 2009-11-03 Illumina, Inc. Multiplexed methylation detection methods
US7955794B2 (en) 2000-09-21 2011-06-07 Illumina, Inc. Multiplex nucleic acid reactions
US7001792B2 (en) 2000-04-24 2006-02-21 Eagle Research & Development, Llc Ultra-fast nucleic acid sequencing device and a method for making and using the same
EP2100971A3 (en) 2000-07-07 2009-11-25 Visigen Biotechnologies, Inc. Real-time sequence determination
WO2002044425A2 (en) 2000-12-01 2002-06-06 Visigen Biotechnologies, Inc. Enzymatic nucleic acid synthesis: compositions and methods for altering monomer incorporation fidelity
AR031640A1 (es) 2000-12-08 2003-09-24 Applied Research Systems Amplificacion isotermica de acidos nucleicos en un soporte solido
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
US8030000B2 (en) 2002-02-21 2011-10-04 Alere San Diego, Inc. Recombinase polymerase amplification
JP2006509040A (ja) 2002-08-23 2006-03-16 ソレックサ リミテッド 修飾されたヌクレオチド
US7282328B2 (en) 2002-09-20 2007-10-16 New England Biolabs, Inc. Helicase dependent amplification of nucleic acids
EP1636337A4 (en) 2003-06-20 2007-07-04 Illumina Inc METHODS AND COMPOSITIONS USEFUL FOR THE AMPLIFICATION AND GENOTYPING OF THE GENOME
GB0321306D0 (en) 2003-09-11 2003-10-15 Solexa Ltd Modified polymerases for improved incorporation of nucleotide analogues
EP3673986A1 (en) 2004-01-07 2020-07-01 Illumina Cambridge Limited Improvements in or relating to molecular arrays
US7315019B2 (en) 2004-09-17 2008-01-01 Pacific Biosciences Of California, Inc. Arrays of optical confinements and uses thereof
WO2006064199A1 (en) 2004-12-13 2006-06-22 Solexa Limited Improved method of nucleotide detection
US8623628B2 (en) 2005-05-10 2014-01-07 Illumina, Inc. Polymerases
US20090264299A1 (en) 2006-02-24 2009-10-22 Complete Genomics, Inc. High throughput genome sequencing on DNA arrays
EP3492602A1 (en) 2005-06-15 2019-06-05 Complete Genomics, Inc. Single molecule arrays for genetic and chemical analysis
GB0514936D0 (en) 2005-07-20 2005-08-24 Solexa Ltd Preparation of templates for nucleic acid sequencing
US7405281B2 (en) 2005-09-29 2008-07-29 Pacific Biosciences Of California, Inc. Fluorescent nucleotide analogs and uses therefor
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
CA2643700A1 (en) 2006-02-24 2007-11-22 Callida Genomics, Inc. High throughput genome sequencing on dna arrays
WO2007107710A1 (en) 2006-03-17 2007-09-27 Solexa Limited Isothermal methods for creating clonal single molecule arrays
CN101460953B (zh) 2006-03-31 2012-05-30 索雷克萨公司 用于合成分析的序列的系统和装置
AU2007309504B2 (en) 2006-10-23 2012-09-13 Pacific Biosciences Of California, Inc. Polymerase enzymes and reagents for enhanced nucleic acid sequencing
US7910302B2 (en) 2006-10-27 2011-03-22 Complete Genomics, Inc. Efficient arrays of amplified polynucleotides
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
EP2092322B1 (en) 2006-12-14 2016-02-17 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale fet arrays
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
EP2291533B2 (en) 2008-07-02 2020-09-30 Illumina Cambridge Limited Using populations of beads for the fabrication of arrays on surfaces
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US9080211B2 (en) 2008-10-24 2015-07-14 Epicentre Technologies Corporation Transposon end compositions and methods for modifying nucleic acids
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
CA2821299C (en) 2010-11-05 2019-02-12 Frank J. Steemers Linking sequence reads using paired code tags
US8829171B2 (en) 2011-02-10 2014-09-09 Illumina, Inc. Linking sequence reads using paired code tags
US8951781B2 (en) 2011-01-10 2015-02-10 Illumina, Inc. Systems, methods, and apparatuses to image a sample for biological or chemical analysis
EP2718465B1 (en) 2011-06-09 2022-04-13 Illumina, Inc. Method of making an analyte array
EP2768972B2 (en) 2011-09-23 2020-07-22 Illumina, Inc. Methods and compositions for nucleic acid sequencing
WO2013063382A2 (en) 2011-10-28 2013-05-02 Illumina, Inc. Microarray fabrication system and method
EP2628504A1 (en) 2012-01-16 2013-08-21 Greatbatch Ltd. EMI filtered co-connected hermetic feedthrough, feedthrough capacitor and leadwire assembly for an active implantable medical device
CA3138752C (en) 2012-04-03 2024-02-06 Illumina, Inc. Integrated optoelectronic read head and fluidic cartridge useful for nucleic acid sequencing
US8895249B2 (en) 2012-06-15 2014-11-25 Illumina, Inc. Kinetic exclusion amplification of nucleic acid libraries
US9512422B2 (en) 2013-02-26 2016-12-06 Illumina, Inc. Gel patterned surfaces
CN105339503B (zh) 2013-05-23 2020-04-10 斯坦福大学托管董事会 用于个人表观基因组学的至天然染色质的转座
ES2899618T3 (es) 2013-07-01 2022-03-14 Illumina Inc Funcionalización de superficie exenta de catalizador e injerto de polímero
US9677132B2 (en) 2014-01-16 2017-06-13 Illumina, Inc. Polynucleotide modification on solid support
US10017759B2 (en) * 2014-06-26 2018-07-10 Illumina, Inc. Library preparation of tagged nucleic acid
IL299976A (en) 2014-10-17 2023-03-01 Illumina Cambridge Ltd Continuity-preserving transposition
PL3212684T3 (pl) 2014-10-31 2020-10-19 Illumina Cambridge Limited Polimery i powłoki z kopolimeru DNA
CA3174951A1 (en) 2015-02-10 2016-08-18 Illumina, Inc Methods and compositions for analyzing cellular components
AU2017299803B2 (en) 2016-07-22 2023-06-29 Illumina, Inc. Single cell whole genome libraries and combinatorial indexing methods of making thereof
RU2744175C1 (ru) * 2018-05-17 2021-03-03 Иллумина, Инк. Высокопроизводительное секвенирование одиночной клетки со сниженной ошибкой амплификации
CA3113841A1 (en) 2019-03-01 2020-09-10 Illumina, Inc. High-throughput single-nuclei and single-cell libraries and methods of making and of using

Also Published As

Publication number Publication date
AU2020407641A1 (en) 2021-09-23
WO2021127436A2 (en) 2021-06-24
SG11202109486QA (en) 2021-09-29
IL286643A (en) 2021-12-01
WO2021127436A3 (en) 2021-07-29
MX2021011847A (es) 2021-11-17
CA3134746A1 (en) 2021-06-24
US20220356461A1 (en) 2022-11-10
EP3927824A2 (en) 2021-12-29
BR112021019640A2 (pt) 2022-06-21
CN114008199A (zh) 2022-02-01
JP2023508792A (ja) 2023-03-06

Similar Documents

Publication Publication Date Title
KR102447811B1 (ko) 감소된 증폭 편향을 갖는 고속대량 단일 세포 서열분석
US20230323426A1 (en) Single cell whole genome libraries and combinatorial indexing methods of making thereof
CN108026575B (zh) 扩增核酸序列的方法
CA3072273A1 (en) High-throughput single-cell transcriptome libraries and methods of making and of using
US20210301329A1 (en) Single Cell Genetic Analysis
US20220356461A1 (en) High-throughput single-cell libraries and methods of making and of using
US20220145285A1 (en) Compartment-Free Single Cell Genetic Analysis
NZ760374A (en) High-throughput single-cell transcriptome libraries and methods of making and of using
NZ749719B2 (en) Single cell whole genome libraries and combinatorial indexing methods of making thereof