KR102640255B1

KR102640255B1 - 감소된 증폭 편향을 갖는 고속-대량 단일 세포 서열분석

Info

Publication number: KR102640255B1
Application number: KR1020227032955A
Authority: KR
Inventors: 제이 쉔뎌; 이 인; 프랭크 제이. 스티머스
Original assignee: 일루미나, 인코포레이티드; 유니버시티 오브 워싱톤
Priority date: 2018-05-17
Filing date: 2019-05-17
Publication date: 2024-02-27
Also published as: EP3794141A1; KR102447811B1; AU2022202739A1; JP2020533272A; CA3067435C; JP7234146B2; CN111201329A; US20190382753A1; JP2023075143A; IL271454A; RU2744175C1; BR112020005982A2; AU2019270185A1; RU2021102869A; CA3206377A1; KR20200035942A; EP3794141A4; WO2019222688A1; MX2019015013A; KR20220137133A

Abstract

복수의 단일 세포로부터 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법이 본 명세서에 제공된다. 일 실시형태에서, 상기 방법은 핵산의 선형 증폭을 포함한다. 일 실시형태에서, 서열분석 라이브러리는 복수의 단일 세포로부터의 전장 게놈 핵산을 포함한다. 일 실시형태에서, 핵산은 3개의 인덱스 서열을 포함한다. 3개의 인덱스 서열을 갖는 핵산을 포함하는 조성물과 같은 조성물이 본원에 또한 제공된다.

Description

감소된 증폭 편향을 갖는 고속-대량 단일 세포 서열분석 {HIGH-THROUGHPUT SINGLE-CELL SEQUENCING WITH REDUCED AMPLIFICATION BIAS}

관련 출원에 대한 상호 참조

본 출원은 2018년 5월 17일자로 출원된 미국 가출원 제62/673,023호 및 2019년 3월 21일자로 출원된 미국 가출원 제62/821,864호(이들의 각각은 본원에서 그 전문이 참고로 원용됨)의 이익을 주장한다.

정부의 재정지원

본 발명은 국립 보건원(National Institutes of Health)이 부여한 허가 번호 DP1 HG007811 하에 정부 지원으로 이루어졌다. 정부는 본 발명에서 소정의 권한을 갖는다.

기술분야

본 개시내용의 실시형태는 서열분석 핵산(sequencing nucleic acid)에 관한 것이다. 특히, 본 명세서에 제공된 방법 및 조성물의 실시형태는 인덱싱된 단일 세포 서열분석 라이브러리를 제조하는 것 및 교차(crossover) 및 염색체 비분리(mis-segregation) 사건을 포함하는 희귀 사건을 규명하기 위해 이로부터 서열 데이터를 수득하는 것에 관한 것이다. 몇몇 실시형태에서, 상기 방법은 단일 세포 수준에서 암 이질성을 해소하는 것에 관한 것이다.

동시적인 단일 세포 게놈 서열분석 기법은 2개의 주요 제한을 갖는다. 첫째로, 대부분의 방법은 처리량을 제한할 수 있는 개별 세포의 구획화를 요한다. 둘째로, 대부분의 증폭 방법은 PCR 기반이고, 이에 따라 지수 증폭 편향을 겪는다. 첫번째의 논쟁을 해소하도록, 본 발명자들 및 동료는 단일 세포 조합 인덱싱('sci-')을 개발하였고, 여기서 이들은 몇 회차의 스플릿-풀(split-pool) 분자 바코딩을 수행하여서 단일 세포의 핵산 함량을 독특하게 태그화하고, 이로써 각각의 연속적인 회차의 인덱싱에 의해 처리량에서의 지수 이득이 가능하게 한다. Sci- 방법은 다수의 단일 세포에서 염색질 접근성(sci-ATAC-seq), 전사체(sci-RNA-seq), 게놈(sci-DNA-seq), 메틸놈(sci-MET), 염색체 구성(sci-Hi-C)을 프로파일링하도록 성공적으로 개발되었다(Cao et al., 2017, Science 357:661-667; Cusanovich et al., 2015, Science, 348:910-914; Mulqueen et al., 2018, Nat. Biotechnol. 36:428-431; Ramani et al., 2017, Nat. Methods 14:263-266; Vitak et al., 2017, Nat. Methods 14:302-308). 두번째의 논쟁을 해소하도록, T7 기반 전사를 통한 선형 증폭은 단일 세포 검정의 맥락에서 이전에 이용된 잠재적인 해결책을 제공한다(Eberwine et al., 1992; Proceedings of the National Academy of Sciences 89:3010-3014; Hashimshony et al., 2012, Cell Rep. 2:666-673; Sos et al., 2016, Genome Biolol., 17:20). 예를 들어, 최근에, Chen 등은 게놈을 단편화하고 동시에 시험관내 전사(in vitro transcription: IVT)를 위해 T7 RNA 촉진자를 삽입하도록 Tn5 트랜스포슨(transposon)을 사용하는 트랜스포슨 삽입("LIANTI")을 통한 선형 증폭을 개발하였다. DNA 주형으로부터 생성된 RNA 카피는 추가의 증폭에 대한 주형으로서 작용할 수 없고, 따라서 모든 카피는 원래의 DNA 주형으로부터 직접적으로 유래된다. 지수 증폭을 피함으로써, LIANTI는 통일성을 유지시키고, 서열 오류를 최소화한다. 그러나, 상기 방법은 각각의 단일 세포로부터의 연속 라이브러리 제조를 요하므로 저속이다(Chen et al., 2017, Science 356:189-194).

처리량의 지수 이득이 동시에 가능하게 하면서 증폭 편향을 최소화하도록 단일 세포 조합 인덱싱 및 선형 증폭을 통합시키는 방법이 본 명세서에 기재되어 있다. 수 회차의 분자 바코딩으로, 상기 방법은 선형 증폭의 이점을 보유하면서 실험마다 적어도 수천 및 가능하게는 수백만 개의 세포로 처리량을 개선한다. 본 발명자들은 단일 세포 전장 게놈 서열분석("sci-L3-WGS"), 표적화된 게놈 서열분석("sci-L3-표적-seq") 및 게놈 및 전사체의 공동검정("sci-L3-RNA/DNA")의 개념 증명 입증을 통한 방법의 일반화를 입증한다. 추가의 입증으로서, 단일 세포 전장 게놈 서열분석은 불임 종간 (B6 x Spretus) F1 수컷 마우스, 및 가임 종내 (B6 x Cast) F1 수컷 마우스로부터의 조숙 및 성숙 수컷 생식 세포에서 감수분열 교차 및 희귀 염색체 비분리 사건의 전례 없는 수를 맵핑하도록 이용된다.

정의

본 명세서에 사용된 용어는, 달리 기재되지 않는 한, 관련 분야에서의 이의 일반 의미에서 취해지는 것으로 이해될 것이다. 본 명세서에서 사용된 몇몇 용어 및 이의 의미는 본 명세서에 기재되어 있다.

본 명세서에 사용된 바와 같은, 용어 "유기체", "대상체"는 상호 교환되어 사용되고, 미생물(예를 들어, 원핵 또는 진핵) 동물 및 식물을 지칭한다. 동물의 예는 포유류, 예컨대, 인간이다.

본 명세서에 사용된 바와 같은, 용어 "세포 유형"은 형태학, 표현형, 발육 기원 또는 다른 공지된 또는 인식 가능한 구별하는 세포 특징에 기초하여 세포를 확인하도록 의도된다. 다양한 상이한 세포 유형은 단일 유기체로부터(또는 유기체의 동일한 종으로부터) 얻어질 수 있다. 예시적인 세포 유형은 배우자(암배우자, 예를 들어, 난자 세포 또는 난세포, 및 수배우자, 예를 들어, 정자 포함), 난소 상피, 난소 섬유아세포, 고환, 방광, 면역 세포, B 세포, T 세포, 천연 살해 세포, 수지상 세포, 암 세포, 진핵 세포, 줄기 세포, 혈액 세포, 근육 세포, 지방 세포, 피부 세포, 신경 세포, 골 세포, 췌장 세포, 내피 세포, 췌장 상피, 췌장 알파, 췌장 베타, 췌장 내피, 골수 림프아구, 골수 B 림프아구, 골수 대식세포, 골수 적아구, 골수 수지상, 골수 지방세포, 골수 골세포, 골수 연골세포, 전골아세포(promyeloblast), 골수 거핵아구, 방광, 뇌 B 림프구, 뇌 신경교, 뉴런, 뇌 성상세포, 신경외배엽, 뇌 대식세포, 뇌 미세아교세포, 뇌 상피, 피질 뉴런, 뇌 섬유아세포, 유방 상피, 결장 상피, 결장 B 림프구, 유방 상피, 유방 근상피, 유방 섬유아세포, 결장 장세포, 자궁경부 상피, 유관 상피, 혀 상피, 편도 수지상, 편도 B 림프구, 말초 혈액 림프아구, 말초 혈액 T 림프아구, 말초 혈액 피부 T 림프구, 말초 혈액 천연 살해, 말초 혈액 B 림프아구, 말초 혈액 단핵구, 말초 혈액 골수아구, 말초 혈액 단아구, 말초 혈액 전골아세포, 말초 혈액 대식세포, 말초 혈액 호염구, 간 내피, 간 비만, 간 상피, 간 B 림프구, 비장 내피, 비장 상피, 비장 B 림프구, 간 간세포, 간, 섬유아세포, 폐 상피, 기관지 상피, 폐 섬유아세포, 폐 B 림프구, 폐 슈반, 폐 편평, 폐 대식세포, 폐 조골세포, 신경내분비, 폐포, 위 상피, 및 위 섬유아세포를 포함하지만, 이들로 제한되지는 않는다.

본 명세서에 사용된 바와 같은, 용어 "조직"은 유기체에서 하나 이상의 특정한 기능을 수행하도록 함께 작용하는 세포의 집단 또는 집합을 의미하도록 의도된다. 세포는 선택적으로 형태학적으로 유사할 수 있다. 예시적인 조직은 부고환, 눈, 근육, 피부, 힘줄, 정맥, 동맥, 혈액, 심장, 비장, 림프절, 골, 골수, 폐, 기관지, 기관, 장, 소장, 대장, 결장, 직장, 침샘, 혀, 방광, 맹장, 간, 췌장, 뇌, 위, 피부, 신장, 요관, 방광, 요도, 성샘, 고환, 난소, 자궁, 나팔관, 흉선, 피하수체, 갑상선, 부신 또는 부갑상선을 포함하지만, 이들로 제한되지는 않는다. 조직은 인간 또는 다른 유기체의 임의의 다양한 기관으로부터 유래될 수 있다. 조직은 건강한 조직 또는 비건강한 조직일 수 있다. 비건강한 조직의 예는 생식 조직, 폐, 유방, 결장직장, 전립선, 코인두, 위, 고환, 피부, 신경계, 골, 난소, 간, 혈액학적 조직, 췌장, 자궁, 신장, 림프구성 조직 등에서의 악성종양을 포함하지만, 이들로 제한되지는 않는다. 악성종양은 다양한 조직학적 아형, 예를 들어, 암종, 선암, 육종, 섬유선암, 신경내분비, 또는 미분화형일 수 있다.

본 명세서에 사용된 바와 같은, 용어 "뉴클레오솜"은 염색질의 기본 반복 단위를 지칭한다. 인간 게놈은 약 10㎛의 평균 직경을 갖는 세포의 핵 내에 압축된 수 미터의 DNA로 이루어진다. 진핵생물 핵에서, DNA는 염색질로 공지된 핵단백질 복합체로 패키징된다. 뉴클레오솜(염색질의 기본 반복 단위)은 통상적으로 코어 히스톤 옥타머 주위에 대략 1.7배 둘러싼 DNA의 약 146개의 염기 쌍을 포함한다. 히스톤 옥타머는 각각의 히스톤 H2A, H2B, H3 및 H4의 2개의 카피로 이루어진다. 뉴클레오솜은 규칙적으로 스트링에서 비드의 방식으로 DNA를 따라 이격된다.

본 명세서에 사용된 바와 같은, 용어 "구획"은 다른 것으로부터 어떤 것을 분리하거나 격리시키는 면적 또는 용적을 의미한다. 예시적인 구획은 바이알, 관, 웰, 드랍플렛, 볼루스, 비드, 용기, 표면 특징부, 또는 물리적 힘, 예컨대, 유체 흐름, 자력, 전기 전류에 의해 분리된 면적 또는 용적 등을 포함하지만, 이들로 제한되지는 않는다. 일 실시형태에서, 구획은 다중웰 플레이트, 예컨대, 96웰 또는 384웰 플레이트의 웰이다. 본 명세서에 사용된 바대로, 드랍플렛은 하나 이상의 핵 또는 세포를 캡슐화하기 위한 비드인 하이드로겔 비드를 포함할 수 있고, 하이드로겔 조성물 또는 드랍플렛 기반 미세유체공학을 포함한다. 몇몇 실시형태에서, 드랍플렛은 하이드로겔 재료의 균질한 드랍플렛이거나, 중합체 하이드로겔 쉘을 갖는 중공 드랍플렛이다. 균질하든 또는 중공이든, 드랍플렛은 하나 이상의 핵 또는 세포를 캡슐화할 수 있다.

본 명세서에 사용된 바와 같은, "트랜스포솜 복합체"는 통합 효소 및 통합 인식 부위를 포함하는 핵산을 지칭한다. "트랜스포솜 복합체"는 트랜스포사제 및 전위 반응을 촉매화할 수 있는 트랜스포사제 인식 부위에 의해 형성된 기능적 복합체이다(예를 들어, Gunderson 등의 WO 2016/130704 참조). 통합 효소의 예는 인테그레아제(integrase) 또는 트랜스포사제를 포함하지만, 이들로 제한되지는 않는다. 통합 인식 부위의 예는 트랜스포사제 인식 부위를 포함하지만, 이들로 제한되지는 않는다.

본 명세서에 사용된 바와 같은, 용어 "핵산"은 당해 분야에서의 이의 용도와 일치하는 것으로 의도되고, 천연 발생 핵산 또는 이의 기능적 유사체를 포함한다. 특히 유용한 기능적 유사체는 서열 특이적 방식으로 핵산에 혼성화할 수 있거나 특정한 뉴클레오타이드 서열의 복제를 위한 주형으로서 사용될 수 있다. 천연 발생 핵산은 일반적으로 포스포다이에스터 결합을 함유하는 골격을 갖는다. 유사체 구조는 당해 분0야에 공지된 임의의 다양한 것을 포함하는 교대하는 골격 연결을 가질 수 있다. 천연 발생 핵산은 일반적으로 (예를 들어, 데옥시리보핵산(DNA)에서 발견되는) 데옥시리보스 당 또는 (예를 들어, 리보핵산(RNA)에서 발견되는) 리보스 당을 갖는다. 핵산은 당해 분야에 공지된 이 당 모이어티의 임의의 다양한 유사체를 함유할 수 있다. 핵산은 네이티브 또는 비네이티브 염기를 포함할 수 있다. 이와 관련하여, 네이티브 데옥시리보핵산은 아데닌, 타이민, 사이토신 또는 구아닌으로 이루어진 군으로부터 선택된 하나 이상의 염기를 가질 수 있고, 리보핵산은 아데닌, 유라실, 사이토신 또는 구아닌으로 이루어진 군으로부터 선택된 하나 이상의 염기를 가질 수 있다. 핵산에 포함될 수 있는 유용한 비네이티브 염기는 당해 분야에 공지되어 있다. 비네이티브 염기의 예는 잠금 핵산(locked nucleic acid: LNA), 브리지 핵산(bridged nucleic acid: BNA) 및 슈도-상보성 염기(Trilink Biotechnologies(캘리포니아주 샌 디에고))를 포함한다. LNA 및 BNA 염기는 DNA 올리고뉴클레오타이드로 도입되고, 올리고뉴클레오타이드 혼성화 강도 및 특이성을 증가시킬 수 있다. LNA 및 BNA 염기 및 이러한 염기의 용도는 당업자에게 공지되어 있고 일상적이다.

본 명세서에 사용된 바와 같은, 용어 "표적"은, 핵산을 참조하여 사용될 때, 본 명세서에 기재된 방법 또는 조성물의 맥락에서 핵산에 대한 의미론적 식별자로서 의도되고, 달리 명확히 표시된 것을 넘어 핵산의 구조 또는 기능을 반드시 제한하지 않는다. 표적 핵산은 본질적으로 공지된 또는 비공지된 서열의 임의의 핵산일 수 있다. 이것은, 예를 들어, 게놈 DNA(예를 들어, 염색체 DNA), 염색체외 DNA, 예컨대, 플라스미드, 무세포 DNA, RNA(예를 들어, RNA 또는 비코딩 RNA), 단백질(예를 들어, 세포 또는 세포 표면 단백질), 또는 cDNA의 단편일 수 있다. 서열분석은 표적 분자의 전체 또는 일부의 서열의 결정을 발생시킬 수 있다. 표적은 1차 핵산 샘플, 예컨대, 핵으로부터 유래될 수 있다. 일 실시형태에서, 표적은 각각의 표적 단편의 단부의 하나 또는 둘 다에서 보편적 서열의 배치에 의해 증폭에 적합한 주형으로 처리될 수 있다. 표적은 또한 cDNA로의 역전사에 의해 1차 RNA 샘플로부터 얻어질 수 있다. 일 실시형태에서, 표적은 세포에 존재하는 DNA, RNA 또는 단백질의 하위집단과 관련하여 사용된다. 표적화된 서열분석은, 통상적으로 PCR 증폭(예를 들어, 영역 특이적 프라이머) 또는 혼성화 기반 포획 방법(예를 들어, 포획 프로브의 사용) 또는 항체에 의해, 관심 대상의 유전자 또는 영역 또는 단백질의 선택 및 단리를 이용한다. 표적화된 농후화는 방법의 다양한 단계에서 발생할 수 있다. 예를 들어, 표적화된 RNA 표현은 더 복잡한 라이브러리로부터 하위집단의 역전사 단계 또는 혼성화 기반 농후화에서 표적 특이적 프라이머를 사용하여 얻어질 수 있다. 예는 엑솜 서열분석 또는 L1000 검정(Subramanian et al., 2017, Cell, 171;1437-1452)이다. 표적화된 서열분석은 당업자에게 공지된 임의의 농후화 공정을 포함할 수 있다.

본 명세서에 사용된 바와 같은, 용어 "보편적"은, 뉴클레오타이드 서열을 기재하도록 사용될 때, 분자가 서로 상이한 서열의 영역을 또한 갖는 2개 이상의 핵산 분자에 흔한 서열의 영역을 지칭한다. 분자의 집단의 상이한 구성원에 존재하는 보편적 서열은 보편적 포획 핵산의 집단, 예를 들어, 보편적 서열, 예를 들어, 보편적 포획 서열의 일부에 상보성인 포획 올리고뉴클레오타이드를 사용한 다수의 상이한 핵산의 포획을 허용할 수 있다. 보편적 포획 서열의 비제한적인 예는 P5 및 P7 프라이머와 동일하거나 이와 상보성인 서열을 포함한다. 유사하게, 분자의 집단의 상이한 구성원에 존재하는 보편적 서열은 보편적 서열, 예를 들어, 보편적 앵커 서열의 일부에 상보성인 보편적 프라이머의 집단을 사용한 다수의 상이한 핵산의 복제(예를 들어, 서열분석) 또는 증폭을 허용할 수 있다. 보편적 앵커 서열의 비제한적인 예는 스페이서 서열, 예컨대, sp1 및 sp2와 동일하거나 이와 상보성인 서열을 포함한다. 일 실시형태에서 보편적 앵커 서열은 보편적 프라이머(예를 들어, 판독 1 또는 판독 2에 대한 서열분석 프라이머)가 서열분석에 대해 어닐링하는 부위로서 사용된다. 포획 올리고뉴클레오타이드 또는 보편적 프라이머는 따라서 보편적 서열에 특이적으로 혼성화할 수 있는 서열을 포함한다.

용어 "P5" 및 "P7"은 보편적 포획 서열 또는 포획 올리고뉴클레오타이드를 지칭할 때 사용될 수 있다. 용어 "P5"(P5 프라임) 및 "P7"(P7 프라임)은 각각 P5 및 P7의 보체를 지칭한다. 임의의 적합한 보편적 포획 서열 또는 포획 올리고뉴클레오타이드가 본 명세서에 제시된 방법에서 사용될 수 있고, P5 및 P7의 사용이 오직 예시적인 실시형태라고 이해될 것이다. 유세포에서의 포획 올리고뉴클레오타이드, 예컨대, P5 및 P7 또는 이의 보체의 사용은 WO 제2007/010251호, WO 제2006/064199호, WO 제2005/065814호, WO 제2015/106941호, WO 제1998/044151호 및 WO 제2000/018957호의 개시내용에 의해 예시된 바대로 당해 분야에 공지되어 있다. 예를 들어, 임의의 적합한 정방향 증폭 프라이머는, 부동화되든 또는 용액 중이든, 상보성 서열에 대한 혼성화 및 서열의 증폭에 대해 본 명세서에 제시된 방법에서 유용할 수 있다. 유사하게, 임의의 적합한 역방향 증폭 프라이머는, 부동화되든 또는 용액 중이든, 상보성 서열에 대한 혼성화 및 서열의 증폭에 대해 본 명세서에 제시된 방법에서 유용할 수 있다. 당업자는 본 명세서에 제시된 바대로 핵산의 포획 및/또는 증폭에 적합한 프라이머 서열을 어떻게 설계하고 사용하는지를 이해할 것이다.

본 명세서에 사용된 바와 같은, 용어 "프라이머" 및 이의 유도체는 일반적으로 관심 대상의 표적 서열에 혼성화할 수 있는 임의의 핵산을 지칭한다. 통상적으로, 프라이머는 뉴클레오타이드가 중합효소에 의해 중합될 수 있는 또는 뉴클레오타이드 서열, 예컨대, 인덱스가 결찰될 수 있는 기질로서 작용하고; 몇몇 실시형태에서, 그러나, 프라이머는 합성된 핵산 가닥에 도입되고, 합성된 핵산 분자에 상보성인 새로운 가닥의 합성을 프라이밍하도록 또 다른 프라이머가 혼성화할 수 있는 부위를 제공할 수 있다. 프라이머는 뉴클레오타이드 또는 이의 유사체의 임의의 조합을 포함할 수 있다. 몇몇 실시형태에서, 프라이머는 단일 가닥 올리고뉴클레오타이드 또는 폴리뉴클레오타이드이다. 용어"폴리뉴클레오타이드" 및 "올리고뉴클레오타이드"는 임의의 길이의 뉴클레오타이드의 중합체 형태를 지칭하도록 본 명세서에서 상호 호환되어 사용되고, 리보뉴클레오타이드, 데옥시리보뉴클레오타이드, 이의 유사체, 또는 이의 혼합물을 포함할 수 있다. 상기 용어는, 균등물로서, 뉴클레오타이드 유사체로부터 제조된 DNA, RNA, cDNA 또는 항체-올리고 접합체의 유사체를 포함하고, 단일 가닥(예컨대, 센스 또는 안티센스) 및 이중 가닥 폴리뉴클레오타이드에 적용 가능하다고 이해되어야 한다. 상기 용어는 본 명세서에 사용된 바대로 또한, 예를 들어, 역전사효소의 작용에 의해 상보성인 cDNA 또는 RNA 주형으로부터 제조된 카피 DNA를 포함한다. 이 용어는 오로지 분자의 1차 구조를 지칭한다. 따라서, 상기 용어는 삼중-, 이중- 및 단일 가닥 데옥시리보핵산("DNA"), 및 삼중-, 이중- 및 단일 가닥 리보핵산("RNA")을 포함한다.

본 명세서에 사용된 바와 같은, 용어 "어댑터" 및 이의 유도체, 예를 들어, 보편적 어댑터는 일반적으로 본 개시내용의 핵산 분자에 결찰될 수 있는 임의의 선형 올리고뉴클레오타이드를 지칭한다. 몇몇 실시형태에서, 어댑터는 실질적으로 샘플에 존재하는 임의의 표적 서열의 3' 단부 또는 5' 단부에 비상보성이다. 몇몇 실시형태에서, 적합한 어댑터 길이는 약 10개 내지 100개의 뉴클레오타이드, 약 12개 내지 60개의 뉴클레오타이드, 또는 약 15개 내지 50개의 뉴클레오타이드의 길이의 범위이다. 일반적으로, 어댑터는 뉴클레오타이드 및/또는 핵산의 임의의 조합을 포함할 수 있다. 몇몇 양상에서, 어댑터는 하나 이상의 위치에서의 하나 이상의 절단 가능한 기를 포함할 수 있다. 또 다른 양상에서, 어댑터는 프라이머, 예를 들어, 보편적 프라이머의 적어도 일부에 실질적으로 동일하거나 실질적으로 상보성인 서열을 포함할 수 있다. 몇몇 실시형태에서, 어댑터는 하류 오류 수정, 확인 또는 서열분석을 돕도록 바코드(본 명세서에서 태그 또는 인덱스라고도 칭함)를 포함할 수 있다. 용어 "어댑터" 및 "어댑터"는 상호 호환되어 사용된다.

본 명세서에 사용된 바와 같은, 용어 "각각"은, 항목의 집단과 관련하여 사용될 때, 집단에서의 개별 항목을 확인하도록 의도되지만, 문맥이 달리 명확히 나타내지 않는 한, 집단에서의 모든 항목을 반드시 지칭하지 않는다.

본 명세서에 사용된 바와 같은, 용어 "수송"은 유체를 통한 분자의 이동을 지칭한다. 상기 용어는 이의 농도 구배(예를 들어, 수동 확산)를 따른 분자의 이동과 같은 수동 수송을 포함할 수 있다. 상기 용어는 또한 분자가 이의 농도 구배를 따라 또는 이의 농도 구배에 대항하여 이동할 수 있는 능동 수송을 포함할 수 있다. 따라서, 수송은 원하는 방향에서 또는 원하는 위치, 예컨대, 증폭 부위로 하나 이상의 분자를 이동시키도록 에너지를 인가하는 것을 포함할 수 있다.

본 명세서에 사용된 바와 같은, "증폭시킨다", "증폭시키는" 또는 "증폭 반응" 및 이의 파생어는 일반적으로 핵산 분자의 적어도 일부가 적어도 하나의 추가 핵산 분자로 복제되거나 카피되는 임의의 작용 또는 과정을 지칭한다. 추가 핵산 분자는 선택적으로 주형 핵산 분자의 적어도 약간의 일부에 실질적으로 동일하거나 실질적으로 상보성인 서열을 포함한다. 주형 핵산 분자는 단일 가닥 또는 이중 가닥일 수 있고, 추가 핵산 분자는 독립적으로 단일 가닥 또는 이중 가닥일 수 있다. 증폭은 선택적으로 핵산 분자의 직선 또는 지수 복제를 포함한다. 몇몇 실시형태에서, 이러한 증폭은 등온 조건을 이용하여 수행될 수 있고; 다른 실시형태에서, 이러한 증폭은 써멀사이클링(thermocycling)을 포함할 수 있다. 몇몇 실시형태에서, 증폭은 단일 증폭 반응에서 복수의 표적 서열의 동시의 증폭을 포함하는 멀티플렉스 증폭이다. 몇몇 실시형태에서, "증폭"은 단독의 또는 조합된 DNA 및 RNA 기반 핵산의 적어도 약간의 일부의 증폭을 포함한다. 증폭 반응은 당업자에게 공지된 임의의 증폭 과정을 포함할 수 있다. 몇몇 실시형태에서, 증폭 반응은 중합효소 연쇄 반응(polymerase chain reaction: PCR)을 포함한다.

본 명세서에 사용된 바와 같은, "증폭 조건" 및 이의 파생어는 일반적으로 하나 이상의 핵산 서열을 증폭시키기에 적합한 조건을 지칭한다. 이러한 증폭은 직선 또는 지수일 수 있다. 몇몇 실시형태에서, 증폭 조건은 등온 조건을 포함할 수 있거나, 대안적으로 써멀사이클링 조건, 또는 등온 및 써멀사이클링 조건의 조합을 포함할 수 있다. 몇몇 실시형태에서, 하나 이상의 핵산 서열을 증폭시키기에 적합한 조건은 중합효소 연쇄 반응(PCR) 조건을 포함한다. 통상적으로, 증폭 조건은 핵산, 예컨대, 보편적 서열에 의해 플랭킹된 하나 이상의 표적 서열을 증폭시키기에 또는 하나 이상의 어댑터에 결찰된 증폭된 표적 서열을 증폭시키기에 충분한 반응 혼합물을 지칭한다. 일반적으로, 증폭 조건은 일단 핵산에 혼성화되면 프라이머의 연장을 촉진시키도록 증폭 또는 핵산 합성에 대한 촉매, 예를 들어, 중합효소; 증폭되는 핵산에 대한 약간의 정도의 상보성을 보유하는 프라이머; 및 뉴클레오타이드, 예컨대, 데옥시리보뉴클레오타이드 트라이포스페이트(dNTP)를 포함한다. 증폭 조건은 핵산에 대한 프라이머의 혼성화 또는 어닐링, 프라이머의 연장 및 연장된 프라이머가 증폭을 겪는 핵산 서열로부터 분리되는 변성 단계를 요할 수 있다. 반드시는 아니지만, 통상적으로, 증폭 조건은 써멀사이클링을 포함할 수 있고; 몇몇 실시형태에서, 증폭 조건은 어닐링, 증폭 및 분리의 단계가 반복되는 복수의 사이클을 포함한다. 통상적으로, 증폭 조건은 양이온, 예컨대, Mg²⁺ 또는 Mn²⁺를 포함하고, 또한 이온 강도의 다양한 개질제를 포함할 수 있다.

본 명세서에 사용된 바와 같은, "재증폭" 및 이의 파생어는 일반적으로 증폭된 핵산 분자의 적어도 일부가 임의의 적합한 증폭 과정(몇몇 실시형태에서 "2차" 증폭이라고 칭함)을 통해 추가로 증폭되어서, 재증폭된 핵산 분자를 생성시키는 임의의 과정을 지칭한다. 2차 증폭은 증폭된 핵산 분자가 생성되는 원래의 증폭 과정과 동일할 필요는 없고; 재증폭된 핵산 분자가 증폭된 핵산 분자와 완전히 동일하거나 완전히 상보성일 필요는 없고; 필요한 모든 것은 재증폭된 핵산 분자가 증폭된 핵산 분자의 적어도 일부 또는 이의 보체를 포함한다는 것이다. 예를 들어, 재증폭은 1차 증폭과 상이한 표적 특이적 프라이머를 포함하는 상이한 증폭 조건 및/또는 상이한 프라이머의 사용을 수반할 수 있다.

본 명세서에 사용된 바와 같은, 용어 "중합효소 연쇄 반응"("PCR")은, 클로닝 또는 정제 없이 게놈 DNA의 혼합물에서 관심 대상의 폴리뉴클레오타이드의 분절의 농도를 증가시키는 방법을 기재한, Mullis의 미국 특허 제4,683,195호 및 4,683,202호의 방법을 지칭한다. 관심 대상의 폴리뉴클레오타이드를 증폭시키기 위한 이 과정은 원하는 관심 대상의 폴리뉴클레오타이드를 함유하는 DNA 혼합물로 많은 과량의 2개의 올리고뉴클레오타이드 프라이머를 도입한 후, DNA 중합효소의 존재하 일련의 열 순환으로 이루어진다. 2개의 프라이머는 관심 대상의 이중 가닥 폴리뉴클레오타이드의 이의 각각의 가닥에 상보성이다. 혼합물은 처음에 더 높은 온도에서 변성되고, 프라이머는 이어서 관심 대상의 폴리뉴클레오타이드 분자 내에 상보성 서열에 어닐링된다. 어닐링 이후에, 프라이머는 중합효소로 연장되어서 새로운 쌍의 상보성 가닥을 형성한다. 변성, 프라이머 어닐링 및 중합효소 연장의 단계는 원하는 관심 대상의 폴리뉴클레오타이드의 증폭된 분절의 높은 농도를 얻도록 수회 반복될 수 있다(써멀사이클링이라 지칭). 원하는 관심 대상의 폴리뉴클레오타이드의 증폭된 분절(앰플리콘)의 길이는 서로에 대하여 프라이머의 상대 위치에 의해 결정되고, 따라서 이 길이는 조절 가능한 매개변수이다. 과정의 반복에 의해, 상기 방법은 PCR이라 칭해진다. 관심 대상의 폴리뉴클레오타이드의 원하는 증폭된 분절이 혼합물에서 (농도의 면에서) 주요 핵산 서열이 되므로, 이것은 "PCR 증폭된다"고 말해진다. 상기 기재된 방법의 변형에서, 표적 핵산 분자는 관심 대상의 표적 핵산 분자당 복수의 상이한 프라이머 쌍, 몇몇 경우에, 하나 이상의 프라이머 쌍을 사용하여 PCR 증폭되어서, 멀티플렉스 PCR 반응을 형성할 수 있다.

본 명세서에 정의된 바와 같은, "멀티플렉스 증폭"은 적어도 하나의 표적 특이적 프라이머를 사용한 샘플 내의 2개 이상의 표적 서열의 선택적 및 비무작위 증폭을 지칭한다. 몇몇 실시형태에서, 멀티플렉스 증폭은 표적 서열의 일부 또는 전부가 단일 반응 용기 내에 증폭되도록 수행된다. 주어진 멀티플렉스 증폭의 "플렉시" 또는 "플렉스"는 일반적으로 그 단일 멀티플렉스 증폭 동안 증폭되는 상이한 표적 특이적 서열의 수를 지칭한다. 몇몇 실시형태에서, 플렉시는 약 12-플렉스, 24-플렉스, 48-플렉스, 96-플렉스, 192-플렉스, 384-플렉스, 768-플렉스, 1536-플렉스, 3072-플렉스, 6144-플렉스 또는 이것 초과일 수 있다. 몇몇 상이한 방법론(예를 들어, 겔 전기영동, 이어서 밀도측정, 바이오분석기에 의한 정량화 또는 정량적 PCR, 표지된 프로브에 의한 혼성화; 바이오티닐화 프라이머의 도입, 이어서 아비딘-효소 접합체 검출; 증폭된 표적 서열로의 ³²P 표지된 데옥시뉴클레오타이드 트라이포스페이트의 도입)에 의해 증폭된 표적 서열을 검출하는 것이 또한 가능하다.

본 명세서에 사용된 바와 같은, "증폭된 표적 서열" 및 이의 파생어는 일반적으로 본 명세서에 제공된 표적 특이적 프라이머 및 방법을 사용하여 표적 서열을 증폭시킴으로써 제조된 핵산 서열을 지칭한다. 증폭된 표적 서열은 표적 서열과 관련하여 동일한 센스(즉, 포지티브 가닥) 또는 안티센스(즉, 네가티브 가닥)일 수 있다.

본 명세서에 사용된 바와 같은, 용어 "결찰하는", "결찰" 및 이의 파생어는 일반적으로 2개 이상의 분자를 함께 공유 연결하는, 예를 들어, 2개 이상의 핵산 분자를 서로에 공유 연결하는 과정을 지칭한다. 몇몇 실시형태에서, 결찰은 핵산의 인접한 뉴클레오타이드 간의 닉(nick)의 연결을 포함한다. 몇몇 실시형태에서, 결찰은 제1 핵산 분자의 말단과 제2 핵산 분자의 말단 사이의 공유 결합의 형성을 포함한다. 몇몇 실시형태에서, 결찰은 하나의 핵산의 5' 포스페이트기와 제2 핵산의 3' 하이드록실기 사이의 공유 결합의 형성에 의한 결찰된 핵산 분자의 형성을 포함할 수 있다. 일반적으로, 본 개시내용의 목적을 위해, 증폭된 표적 서열은 어댑터 결찰된 증폭된 표적 서열을 생성시키도록 어댑터에 결찰될 수 있다.

본 명세서에 사용된 바와 같은, "리가제" 및 이의 파생어는 일반적으로 2개의 기질 분자의 결찰을 촉매화할 수 있는 임의의 물질을 지칭한다. 몇몇 실시형태에서, 리가제는 핵산의 인접한 뉴클레오타이드의 닉의 연결을 촉매화할 수 있는 효소를 포함한다. 몇몇 실시형태에서, 리가제는 하나의 핵산 분자의 5' 포스페이트와 또 다른 핵산 분자의 3' 하이드록실 사이의 공유 결합의 형성에 의한 결찰된 핵산 분자의 형성을 촉매화할 수 있는 효소를 포함한다. 적합한 리가제는 T4 DNA 리가제, T4 RNA 리가제 및 이. 콜라이 DNA 리가제를 포함할 수 있지만, 이들로 제한되지는 않는다.

본 명세서에 사용된 바와 같은, "결찰 조건" 및 이의 파생어는 일반적으로 2개의 분자를 서로에 결찰시키기에 적합한 조건을 지칭한다. 몇몇 실시형태에서, 결찰 조건은 핵산 사이에 닉 또는 갭을 실링하기에 적합하다. 본 명세서에 사용된 바와 같은, 용어 닉 또는 갭은 당해 분야에서 용어의 사용과 일치한다. 통상적으로, 닉 또는 갭은 적절한 온도 및 pH에서 효소, 예컨대, 리가제의 존재하에 결찰될 수 있다. 몇몇 실시형태에서, T4 DNA 리가제는 약 70 내지 72℃의 온도에서 핵산 사이에 닉을 연결할 수 있다.

용어 "유세포"는 본 명세서에 사용된 바대로 하나 이상의 유체 시약이 흐를 수 있는 고체 표면을 포함하는 챔버를 지칭한다. 본 개시내용의 방법에서 용이하게 사용될 수 있는 유세포 및 관련 유체 시스템 및 검출 플랫폼의 예는, 예를 들어, 문헌[Bentley et al., Nature 456:53-59 (2008)], WO 제04/018497호; US 제7,057,026호; WO 제91/06678호; WO 제07/123744호; US 제7,329,492호; US 제7,211,414호; US 제7,315,019호; US 제7,405,281호 및 US 제2008/0108082호에 기재되어 있다.

본 명세서에 사용된 바와 같은, 용어 "앰플리콘"은, 핵산과 관련하여 사용될 때, 핵산의 카핑의 산물을 의미하고, 여기서 산물은 핵산의 뉴클레오타이드 서열의 적어도 일부와 동일하거나 이에 상보성인 뉴클레오타이드 서열을 갖는다. 앰플리콘은, 예를 들어, 중합효소 연장, 중합효소 연쇄 반응(PCR), 회전 환 증폭(rolling circle amplification: RCA), 결찰 연장, 또는 결찰 연쇄 반응을 포함하는, 주형으로서 핵산, 또는 이의 앰플리콘을 사용하는 임의의 다양한 증폭 방법에 의해 제조될 수 있다. 앰플리콘은 특정한 뉴클레오타이드 서열의 단일 카피(예를 들어, PCR 산물) 또는 뉴클레오타이드 서열의 다수의 카피(예를 들어, RCA의 연쇄체 산물)를 갖는 핵산 분자일 수 있다. 표적 핵산의 제1 앰플리콘은 통상적으로 상보성 카피이다. 후속하는 앰플리콘은 제1 앰플리콘의 생성 후 표적 핵산 또는 제1 앰플리콘으로부터 생성되는 카피이다. 후속하는 앰플리콘은 표적 핵산에 실질적으로 상보성이거나 표적 핵산과 실질적으로 동일한 서열을 가질 수 있다.

본 명세서에 사용된 바와 같은, 용어 "증폭 부위"는 하나 이상의 앰플리콘이 생성될 수 있는 어레이에서의 또는 어레이 상의 부위를 지칭한다. 증폭 부위는 부위에서 생성되는 적어도 하나의 앰플리콘을 함유하거나 유지시키거나 부착시키도록 추가로 구성될 수 있다.

본 명세서에 사용된 바와 같은, 용어 "어레이"는 상대 위치에 따라 서로로부터 분화될 수 있는 부위의 집단을 지칭한다. 어레이의 상이한 부위에 있는 상이한 분자는 어레이에서의 부위의 위치에 따라 서로로부터 분화될 수 있다. 어레이의 개별 부위는 특정한 유형의 하나 이상의 분자를 포함할 수 있다. 예를 들어, 부위는 특정한 서열을 갖는 단일 표적 핵산 분자를 포함할 수 있거나, 부위는 동일한 서열(및/또는 이의 상보성 서열)을 갖는 몇몇 핵산 분자를 포함할 수 있다. 어레이의 부위는 동일한 기질에 위치한 상이한 특징부일 수 있다. 예시적인 특징부는, 제한 없이, 기질에서의 웰, 기질에서의 또는 기질 상의 비드(또는 다른 입자), 기질로부터의 돌출부, 기질 위의 리지(ridge) 또는 기질에서의 채널을 포함한다. 어레이의 부위는 상이한 분자를 각각 보유하는 별도의 기질일 수 있다. 별도의 기질에 부착된 상이한 분자는 기질이 연관된 표면에서의 기질의 위치에 따라 또는 액체 또는 겔에서의 기질의 위치에 따라 확인될 수 있다. 별도의 기질이 표면에 위치하는 예시적인 어레이는, 제한 없이, 웰에서 비드를 갖는 것을 포함한다.

본 명세서에 사용된 바와 같은, 용어 "역량"은, 부위 및 핵산 재료와 관련하여 사용될 때, 부위를 점유할 수 있는 핵산 재료의 최대 양을 의미한다. 예를 들어, 상기 용어는 특정한 조건에서 부위를 점유할 수 있는 핵산 분자의 전체 수를 지칭할 수 있다. 다른 측정치는, 예를 들어, 핵산 재료의 전체 질량 또는 특정한 조건에서 부위를 점유할 수 있는 특정한 뉴클레오타이드 서열의 카피의 전체 수를 포함하는 웰로서 사용될 수 있다. 통상적으로, 표적 핵산에 대한 부위의 역량은 표적 핵산의 앰플리콘에 대한 부위의 역량과 실질적으로 동등할 것이다.

본 명세서에 사용된 바와 같은, 용어 "포획제"는 표적 분자(예를 들어, 표적 핵산)에 부착하고 이를 보유하고 이에 결합할 수 있는 재료, 화학물질, 분자 또는 이의 모이어티를 지칭한다. 예시적인 포획제는, 제한 없이, 표적 핵산의 적어도 일부에 상보성인 포획 핵산(본 명세서에서 포획 올리고뉴클레오타이드라고도 칭함), 표적 핵산(또는 이에 부착된 연결 모이어티)에 결합할 수 있는 수용체-리간드 결합 쌍의 구성원(예를 들어, 아비딘, 스트렙타비딘, 바이오틴, 렉틴, 탄수화물, 핵산 결합 단백질, 에피토프, 항체 등), 또는 표적 핵산(또는 이에 부착된 연결 모이어티)과 공유 결합을 형성할 수 있는 화학 시약을 포함한다.

본 명세서에 사용된 바와 같은, 용어 "리포터 모이어티"는 조사되는 분석물질의 조성, 식별 및/또는 공급원을 결정하게 하는 임의의 식별 가능한 태그, 표지, 인덱스, 바코드 또는 그룹을 지칭할 수 있다. 몇몇 실시형태에서, 리포터 모이어티는 단백질에 특이적으로 결합하는 항체를 포함할 수 있다. 몇몇 실시형태에서, 항체는 검출 가능한 표지를 포함할 수 있다. 몇몇 실시형태에서, 리포터는 핵산 태그로 표지된 항체 또는 친화도 시약을 포함할 수 있다. 핵산 태그는, 예를 들어, 근접 결찰 검정(proximity ligation assay: PLA) 또는 근접 연장 검정(proximity extension assay: PEA) 또는 서열분석 기반 판독(Shahi et al. Scientific Reports　volume 7, 논문 번호 44447, 2017) 또는 CITE-seq(Stoeckius et al. Nature Methods　14:865-868, 2017)를 통해 검출 가능할 수 있다.

본 명세서에 사용된 바와 같은, 용어 "클론성 집단"은 특정한 뉴클레오타이드 서열과 관련하여 균질한 핵산의 집단을 지칭한다. 균질한 서열은 통상적으로 적어도 10개의 뉴클레오타이드 길이이지만, 예를 들어, 적어도 50개, 100개, 250개, 500개 또는 1000개의 뉴클레오타이드 길이를 포함하여 훨씬 더 길 수 있다. 클론성 집단은 단일 표적 핵산 또는 주형 핵산으로부터 유래될 수 있다. 통상적으로, 클론성 집단에서의 모든 핵산은 동일한 뉴클레오타이드 서열을 가질 것이다. (예를 들어, 증폭 인공물로 인해) 적은 수의 돌연변이가 클론성으로부터 벗어나지 않으면서 클론성 집단에서 발생할 수 있다고 이해될 것이다.

본 명세서에 사용된 바와 같은, 용어 "고유한 분자 식별자" 또는 "UMI"는 핵산 분자에 부착될 수 있는, 무작위, 비무작위 또는 반무작위의, 분자 태그를 지칭한다. 핵산 분자로 도입될 때, UMI는 증폭 후 서열분석되는 고유한 분자 식별자(UMI)를 직접적으로 계수함으로써 후속하는 증폭 바이어스에 대해 수정하도록 사용될 수 있다.

본 명세서에 사용된 바와 같은, "제공하는"은 조성물, 물품, 핵산 또는 핵의 맥락에서 조성물, 물품, 핵산 또는 핵을 제조하는 것, 조성물, 물품, 핵산 또는 핵을 구입하는 것 그렇지 않으면 화합물, 조성물, 물품 또는 핵을 수득하는 것을 의미한다.

용어 "및/또는"은 기재된 요소 중 하나 또는 모두 또는 기재된 요소의 임의의 2개 이상의 조합을 의미한다.

단어 "바람직한" 및 "바람직하게"는 소정의 상황 하에 소정의 이익을 제공할 수 있는 개시내용의 실시형태를 지칭한다. 그러나, 다른 실시형태는 동일한 또는 다른 상황 하에 또한 바람직할 수 있다. 더구나, 하나의 또는 더 바람직한 실시형태의 언급은 다른 실시형태가 유용하지 않다는 것을 의미하지 않고, 본 개시내용의 범주로부터 다른 실시형태를 배제하는 것으로 의도되지 않는다.

용어 "포함한다" 및 이의 변형어는 이들 용어가 명세서 및 청구항에 보이는 제한 의미를 가지지 않는다.

실시형태가 언어 "포함한다", "포함하다" 또는 "포함하는" 등과 본 명세서에 기재되는 어디서든, "이루어지는" 및/또는 "본질적으로 이루어지는"의 면에서 기재된 달리 유사한 실시형태가 또한 제공된다고 이해된다.

달리 기재되지 않는 한, "일", "하나", "이" 및 "적어도 하나"는 상호 호환되어 사용되고, 하나 또는 하나 초과를 의미한다.

또한 본 명세서에서, 종점에 의한 숫자 범위의 언급은 그 범위 내에 포괄되는 모든 숫자를 포함한다(예를 들어, 1 내지 5는 1, 1.5, 2, 2.75, 3, 3.80, 4, 5 등을 포함한다).

별개의 단계를 포함하는 본 명세서에 개시된 임의의 방법에 대해, 단계는 임의의 실행 가능한 순서로 수행될 수 있고, 적절한 바대로, 2개 이상의 단계의 임의의 조합은 동시에 수행될 수 있다.

"일 실시형태", "하나의 실시형태", "소정의 실시형태" 또는 "몇몇 실시형태" 등에 대한 본 명세서에 걸친 언급은 실시형태와 연결되어 기재된 특정한 특징부, 구성, 조성물 또는 특징이 본 개시내용의 적어도 하나의 실시형태에 포함된다는 것을 의미한다. 따라서, 본 명세서에 걸쳐 다양한 장소에서의 이러한 구절의 출현은 본 개시내용의 동일한 실시형태를 반드시 지칭하지는 않는다. 더구나, 특정한 특징부, 구성, 조성물 또는 특징이 하나 이상의 실시형태에서 임의의 적합한 방식으로 조합될 수 있다.

본 개시내용의 예시적인 실시형태의 하기 상세한 설명은 하기 도면을 참조하여 읽을 때 가장 잘 이해될 수 있다.
도 1a 내지 도 1b는 본 개시내용에 따른 단일 세포 조합 인덱싱에 대한 일반적인 예시적인 방법의 일반적인 블록 다이어그램을 나타낸다.
도 2는 본 개시내용에 따른 단일 세포 조합 인덱싱에 대한 일반적인 예시적인 방법의 일반적인 블록 다이어그램을 나타낸다.
도 3A 내지 도 3F는 sci-L3-WGS가 고속대량(high-throughput), 단일 세포, 선형 전장 게놈 증폭을 가능하게 한다는 것을 나타낸다. (A) 인덱싱의 3개의 수준을 갖는 sci-L3-WGS 흐름도의 도식. (B) 상부: 다양한 라이브러리 제조 방법에 맞는 생성된 증폭된 DNA 듀플렉스의 바코드 구조. bc, 바코드; sp, 스페이서; gDNA, 게놈 DNA. 중간: sci-L3-WGS에 대한 예시적인 라이브러리 구조. P5 및 P7 서열분석 어댑터는 A-테일링 및 결찰에 의해 첨가된다. UMI 단부에서의 P7 및 gDNA 단부에서의 P5를 갖는 것이 결찰의 대칭으로 인해 동등하게 가능하다는 것에 주목한다. 하부: sci-L3-표적-seq에 대한 예시적인 라이브러리 구조. P5 및 P7 서열분석 어댑터는 각각 게놈에서 표적화된 관심 대상의 유전좌위 및 스페이서 2(sp2)로부터의 프라이밍에 의해 첨가된다. 바코드 bc3'의 새로운 3회차가 WGS 라이브러리에서 각각의 bc3에 상응하는 PCR에 의해 또한 첨가되고, 새로운 UMI'가 bc3'의 외부에 첨가된다는 것에 주목한다. (C) 낮은 서열분석 깊이에서의 인간 및 마우스 세포로부터의 고유한 Tn5 삽입 부위의 수의 산점도, 24개 bc1 x 64개 bc2 x 6개 bc3 sci-L3-WGS, 웰당 분류된 100 내지 300개의 세포. 청색, 추론된 마우스 세포(마우스 판독의 백분율 >95%, 98.7%의 중앙치로, n = 315); 적색, 추론된 인간 세포(인간 판독의 백분율 >95%, 99.8%의 중앙치로, n = 7l9); 회색, 추론된 충돌(n = 48, 4%). (D) 세포마다 평균 2.4M의 원시 판독 및 1.78x 깊이에서 세포마다 고유한 Tn5 삽입 부위의 수를 보여주는 상자 그림. 깊이는 고유한 IVT 전사체의 수와 고유한 Tn5 삽입 부위의 수 사이의 비율로서 정의된다. 두꺼운 수평 선, 중앙치; 상부 및 하부 박스 테두리, 각각 제1 및 제3 사분위수; 휘스커, 사분위간 범위의 1.5배; 원, 이상점). 또한 프로토콜의 개선된 버전으로 제조된 라이브러리의 규명에 대해 도 5 및 실시예 2, "Methods and molecular design of sci-L3-WGS and sci-L3-target-seq" 부문을 참조한다. (E) 개별 세포에 대한 예시적인 염색체 CNV 도면. 상부, HEK293T 세포, 2.6M의 원시 판독, 2.4M 고유한 분자, MAPQ > 1을 갖는 1.3M 고유한 Tn5 삽입 부위. 하부, 3T3 세포, 2.7M의 원시 판독, 2.4M 고유한 분자, MAPQ > 1을 갖는 1.2M 고유한 Tn5 삽입 부위. (F) 822 293T 세포 또는 1,453 HAP1 세포에 걸친 카피수 변이에 대한 상자 그림. Y-축은 분절성 카피 이득 또는 손실이 없는 정배수체 염색체가 1의 값을 갖는 것으로 예상되도록 염색체 길이에 의해 정규화된 염색체마다 판독 비율을 도시한다.
도 4A 내지 도 4F는 각각의 단계에서의 sci-LIANTI에 대한 분자 구조를 나타낸다. 파선: RNA, 실선: DNA. (A) Tn5 어댑터는 둘 다, 하나는 삽입을 요하고 다른 하나는 결찰을 요하는, 인산화된 5' 단부를 갖는다. 어닐링된 트랜스포슨의 오버행은 결찰에 대해 1회차의 바코드("bc1") 및 스페이서("sp1")를 함유한다. (B) 결찰 분자는 3개의 분자로부터 2개의 분자로 분자간 결찰을 감소시키는 헤어핀 루프로서 예비어닐링된다; 헤어핀 구조는 또한 하류 단계에서 RT 효율을 개선하는 것을 돕는다. 헤어핀은 1) 결찰에 대해 "sp1"과 어닐링하는 오버행, 2) 하류 단계에서 SSS에서 줄기에서 프라이밍 부위로서 작용하는 2회차의 바코드("bc2") 및 스페이서("sp2"), 및 3) IVT에 대한 루프에서의 T7 촉진자를 함유한다. (C) 갭 연장은 루핑된 T7 촉진자를 듀플렉스로 전환시킨다. 결찰이 단부 둘 다에서 성공적인 경우, T7 촉진자는 측면 둘 다에 존재하지만; 결찰이 하나의 단부에서 성공적인 경우, 박스의 부분은 손실된다는 것에 주목한다. 그렁에도 불구하고, 둘 다는 상이한 RT 프라이머와 하류 단계에서 역전사될 수 있다. (D) IVT는 T7 촉진자의 하류에 단일 가닥 RNA 앰플리콘을 생성한다. (E) 결찰이 단부 둘 다에서 성공적인 경우, RT는 바람직하게 자가 루핑된 RT 프라이머에 의해 프라이밍되고, 이는 루핑된 결찰 분자로부터 이어받고; 결찰이 오직 하나의 단부에서 성공적인 경우, RT는 과량으로 첨가되는 추가 RNA RT 프라이머에 의해 프라이밍된다. 과량의 RNA 프라이머는 이후 후속하는 SSS 반응의 방해를 피하도록 SSS 전에 제거된다. (F) 이중 가닥 DNA 분자는, 동시에 3회차의 바코드를 첨가하고, 각각의 전사체를 UMI 태그화하도록, "sp2"를 프라이밍하는 SSS에 의해 제조된다. 더 자세한 설명은 실시예 2, "Methods and molecular design of sci-L3-WGS and sci-L3-target-seq" 부문에 제공된다.
도 5A 내지 도 5G는 상이한 sci-L3-WGS 실험에서의 그리고 상이한 Tn5 트랜스포솜 농도로의 판독 수를 나타낸다. 표시된 깊이에서 세포마다 고유한 Tn5 삽입 부위의 수를 보여주는 상자 그림. 깊이는 고유한 IVT 전사체의 수와 고유한 Tn5 삽입 부위의 수 사이의 비율로서 정의된다. 두꺼운 수평 선, 중앙치; 상부 및 하부 박스 테두리, 각각 제1 및 제3 사분위수; 휘스커, 사분위간 범위의 1.5배; 원, 이상점). 농축된 Tn5 트랜스포솜: 0.2μM, 희석된 Tn5 트랜스포솜: 0.1μM. (A) 농축된 Tn5에 의한 yi128(중앙치 깊이: 1.19x) 인간 대 마우스 고유 판독(중앙치 인간 고유 판독: 215k, n=115 세포; 중앙치 마우스 고유 판독: 169k, n=44); 농축된 Tn5(중앙치 고유한 판독: 215k) 대 희석된(중앙치 고유한 판독: 46k) Tn5에 의한 인간 고유 판독. (B) 농축된 Tn5(중앙치 고유한 판독: 635k) 대 희석된(중앙치 고유한 판독: 183k) Tn5에 의한 yi129(중앙치 깊이: 1.78x) 인간 고유 판독. 도 3D에 제시된 마우스 고유 판독. (C) 농축된 Tn5에 의한 yi140 및 yi141(중앙치 깊이: 1.37x; 중앙치 인간 고유 판독: 660k). 또한 표 2 및 실시예 2를 참조한다. (D) 농축된 Tn5에 의한 yi144 및 yi145(중앙치 깊이: 1.05x; 중앙치 인간 고유 판독: 97.3k). 또한 표 2를 참조한다. yi140, yi141, yi144 및 yi145가 실시예 2에 기재된 최적화된 프로토콜을 갖는 라이브러리라는 것에 주목한다. (E) 농축된 Tn5에 의한 yi174(중앙치 깊이: 1.06x) 인간/마우스 고유 판독(중앙치 인간 고유 판독: 100k, n=103; 중앙치 마우스 고유 판독: 23k, n=35); 농축된 Tn5(중앙치 고유한 판독: 100k) 및 희석된 Tn5(중앙치 고유한 판독: 54k)에 의한 인간 고유 판독. (F) 마우스 생식 세포의 라이브러리: yi186, yi187, yi188은 희석된 Tn5에 의해 제조되었다; yi190, yi192, yi193은 농축된 Tn5에 의해 제조되었다. (G) 서열분석 깊이의 함수로서의 고유한 Tn5 삽입 부위의 수. 청색 및 적색 선은 각각 RNA RT 프라이머를 갖는 sci-L3-WGS 및 갖지 않는 것을 나타낸다(실시예 2). 농축된에 의한 yi129(패널 B에서처럼, 중앙치 깊이: 1.78x) 인간 고유한 삽입(중앙치 고유한 삽입: 635k). 5x 및 10x 깊이로 돌출될 때, 삽입의 예상된 고유한 수는 각각 1.9M 및 2.6M이다. yi140 및 yi141 조합은 660k의 중앙치 고유한 삽입으로 1.37x의 중앙치 깊이를 갖는다. 1.78x, 5x 및 10x 깊이로 돌출될 때, 고유한 삽입의 예상된 수는 각각 1.5M, 4.2M 및 6.0M이다.
도 6A 내지 도 6E는 Sci-L3 기반 RNA/DNA 공동검정이 동일한 단일 세포로부터의 게놈 및 전사체에 대해 공동으로 고속대량 및 선형 증폭이 가능하게 한다는 것을 나타낸다. (A) 인덱싱의 3개의 수준에 의한 sci-L3-RNA/DNA 공동검정 흐름도의 도식. Tn5 트랜스포슨 및 cDNA 합성 프라이머 둘 다는 1회차의 바코드의 밖에서 5' 오버행에서 동일한 인산화된 결찰 랜딩 패드(핑크색)를 함유한다는 것에 주목한다. (B) 다양한 라이브러리 제조 방법과 맞는 게놈 및 전사체(각각 왼쪽 및 오른쪽)에 상응하는 생성된 증폭된 듀플렉스의 바코드 구조. bc, 바코드; sp, 스페이서; gDNA, 게놈 DNA. (C) 함께 작도된 낮은 및 높은 서열분석 깊이에서 인간 및 마우스 세포로부터의 고유한 Tn5 삽입 부위의 수의 산점도, 24개 bc1 x 64개 bc2 x 6개 bc3 sci-L3-RNA/DNA 공동검정, 웰마다 분류된 100개 내지 300개의 세포. 청색, 추론된 마우스 세포(마우스 판독의 백분율 >95%, 99.5%의 중앙치로, n=2002); 적색, 추론된 인간 세포(인간 판독의 백분율 >95%, 99.8%의 중앙치로, n=2419); 회색, 추론된 충돌(n=149, 낮은 및 높은 깊이(조합)로 6.6%; 5/270, 높은 깊이로 3.7%). (D) RNA에 대해 (C)에서와 동일. 청색, 추론된 마우스 세포(95.1%의 마우스 판독의 중앙치 순도); 적색, 추론된 인간 세포(91.5%의 인간 판독의 중앙치 순도); 회색, 추론된 충돌(n=272, 낮은 및 높은 깊이(조합)로 12%; 7/270, 높은 깊이로 5.2%). (E) RNA-seq 신호에 의한 Seurat는 BJ-5ta 인간 피부 섬유아세포(수컷) 및 HEK293T(암컷) 세포에 상응하는 구별되는 클러스터를 나타낸다. Y 염색체의 존재 또는 부재에 기초하여, 988/1024개의 세포(96.5%)는 정확히 배정된다.
도 7A 내지 도 7E는 교차를 갖는 유사분열/균등 및 감수분열/환원 염색체 분리 및 갖지 않는 것을 나타낸다. 각각의 수직 분절은 하나의 염색분체를 나타낸다(DNA 가닥 비도시). 흑색 및 청색은 동족체를 나타낸다. 타원형은 동원체를 나타낸다. 마우스 염색체가 말단동원체라는 것에 주목한다. 회색 십자는 4C 단계에서의 DNA 복제 후 교차의 부위를 도시한다. 적색 박스는 이형접합성인 유사분열의 딸 세포를 나타내고, 흑색 및 청색 박스는 동원체-근위 영역에서 각각의 균주 배경에 동형접합성인 감수분열 I(MI)의 딸 세포를 나타낸다. 딸 세포에서의 LOH 영역은 동그랗게 말린 괄호로 표시된다. (A) 교차를 갖지 않는 유사분열/균등 분리. 딸 세포 둘 다는 이형접합성을 보유한다. (B) 동족체 사이의 교차를 갖는 유사분열/균등 분리. 재조합된 염색분체는 떨어져 분리하여서, 교차에 원위인 LOH 동원체를 생성시킨다. (C) 동족체 사이의 교차를 갖는 유사분열/균등 분리. 재조합된 염색분체는 함께 분리하여서, 딸 세포 둘 다는 이형접합성을 보유하지만, 하나의 딸 세포는 계통 전환을 갖는다. (D) (B)에서와 달리 교차에 근위인 LOH 동원체를 생성시키는, 교차를 갖는 감수분열/환원 분리. (E) 딸 세포에서 상호 단친성 이염색체(UPD)를 생성시키는, 교차를 갖는 감수분열/환원 분리. 균등 염색체 분리를 갖는 MI는 닮았다는 것에 주목한다(B) 및 (C). 다음에, 본 발명자들의 연구가 MI에 주로 주력하면서, 본 발명자들은 MI 동안 예상된 감수분열/환원 분리(여기서 자매 염색분체는 "환원 분리"로서 함께 분리됨) 및 MI 동안 예상된 유사분열-유사/균등 분리(여기서, 자매 염색분체는 "균등 분리"로서 떨어져 분리됨)를 지칭한다.
도 8A 내지 도 8G는 FACS에 의한 정자 및 정자 전구체 및 이의 배수성을 나타낸다. (A) B6 정자의 가시화. (B) (B6 x Spret) F1 정자의 가시화. 본 발명자들은 낮은 수의 비공지된 배수성의 원형 생식 세포 및 극도로 적은 형태학적으로 성숙한 정자(화살표)를 관찰하였다. (C) 부고환으로부터 단리된 (B6 x Spret) F1 정자 및 정자 전구체는 예상치 못하게 많은 비율의 2C 세포를 포함한다. 375의 DAPI 전압. (D) HEK293/Patski 혼합물, 350의 DAPI 전압. Patski 피크(2C)는 더 낮은 DAPI 전압으로 인해 (C)에서 2C 피크에 비해 왼쪽으로 약간 이동한다. (E) 부고환으로부터 단리된 (B6 x Cast) F1 정자는 거의 전부 1C 세포로 이루어진다. 375의 DAPI 전압. (F) (B6 x Cast) F1 정자 전구체, 분해된 고환으로부터 2C 세포에 대해 예비 분류; 많은 수의 1C 세포가 여전히 존재한다. 375의 DAPI 전압. (G) (2회차의 바코딩 후) sci-L3-WGS 동안 FACS 단계에서 (B6 x Cast) F1 정자 및 정자 전구체는 여전히 대부분 1C 세포로 이루어진다. (F)로부터의 예비 분류된 2C 핵에서의 오염된 1C 핵의 비율에 기초하여, 본 발명자들은 균질화된 고환에서 2.5%의 2C 핵에 비해 7.2배 농후화인 18%인 2C인 태그먼테이션된 핵의 비율을 추산한다. 본 발명자들은 2C 집단으로부터 분류하였다(태그먼테이션 단계에 대해 추산된 18%와 유사한 모든 세포의 약 15.4%). 375의 DAPI 전압.
도 9A 내지 도 9F는 종간 잡종 마우스 수컷 생식선의 sci-L3-WGS가 MI에서 비독립적인 균등 분리의 많은 예를 밝혀낸다는 것을 나타낸다. (A), (B) 및 (C)에서, 적색 선은 HMM을 통한 피팅된 교차 전이를 도시한다. 동원체는 각각의 염색체의 사진에 대해 가장 왼쪽에 위치한다. (A) 1C 세포에 대한 예시적인 교차 도면. 회색 점은 Spret 대립유전자에 대해 1 및 B6 대립유전자에 대해 0의 값을 갖는다. (B) 및 (C)에서, 회색 점은 40개 SNP 부위를 평균화한 Spret의 대립유전자 빈도를 나타낸다. (B) 환원 분리를 갖는 M2 세포에 대한 예시적인 LOH 도면(또한 도 7D 참조). LOH는 교차 부위의 동원체-근위 영역에 존재한다. (C) 균등 분리를 갖는 M2 세포에 대한 예시적인 LOH 도면(또한 도 7B 참조). LOH는 (B)에서와 달리 교차 부위의 동원체-원위 영역에 존재한다. (D-F) 각각의 M2 세포에 대해 환원으로(적색, 핑크색, 흑색) 및 균등으로(청색, 녹색) 분리된 염색체의 수. 각각의 열은 1개의 단일 M2 세포를 나타낸다(세포마다 19개의 염색체, 색상으로 표시된 바대로 분포됨). (D) 이항식 분포에 기초한 환원 대 균등 분리의 예상된 분포 및 환원 분리의 확률 p가 0.76이라고 가정하여, 관찰된 데이터로부터의 MLE. (E) M2 세포에서 관찰된 데이터. 희귀한 경우(27/5,548개의 염색체)에, 본 발명자들은 희박한 SNP 커버리지로 인해 환원 대 균등 분리를 구별할 수 없었다(패널의 상부에서 백색 공간). 흑색 막대는 MI 비분리현상(NDJ, 전체로 40개의 염색체)을 도시하고, 여기서 본 발명자들은 염색분체의 0개 또는 4개의 카피를 관찰하였다. 자매 염색분체가 함께 분리되므로 NDJ가 환원 분리로 생각된다는 것에 주목한다. (F) (E)와 동일하지만, 교차("CO"로 약축)를 갖거나 갖지 않는 염색체의 수로 더 파괴됨. 세포를 처음에 균등 분리된 염색체(내림차순에서 담녹색 및 청색)의 수에 의해 및 이어서 교차를 갖지 않는 관찰된 균등 분리된 염색체(내림차순에서 청색)의 수에 의해 분류한다.
도 10A 내지 도 10G는 염색체 척도에서 감수분열 교차 및 단친성 염색체 분포를 나타낸다. (A) 염색체 크기에 정규화한 후, 각각의 염색체에서 적어도 하나의 교차를 갖는 반수체 세포의 수는 염색체 크기와 음의 상관관계이다(r = -0.87, p = 2e-6). (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14C를 참조한다. (B) M2 세포에 대해 (A)와 동일(r = -0.91, p = 8e-8). (B6 x Cast) 교배에 대해 도 14D를 참조한다. (C) 반수체 세포마다 염색체마다 교차(CO)의 분포((B6 x Spret)에 대해 평균 = 0.62 및 (B6 x Cast)에 대해 평균 = 0.58). (D) M2 세포에 대해 (C)와 동일((B6 x Spret)에 대해 평균 = 0.92 및 (B6 x Cast)에 대해 평균 = 1.03). (E) 적어도 2개의 교차를 갖는 염색체에 대해, 모든 염색체에 대한 교차 거리. 예상된 수의 분포는 염색체마다 2개의 교차를 무작위로 배치함으로써 생성된다. (B6 x Spret) 교배가 도시된다. (B6 x Cast) 교배에 대해 도 14E를 참조한다. (F) Patski 세포에서의 UPD 및 LOH 사건의 수(상부) 및 염색체 분포(하부). (G) 대부분의 염색체를 환원으로 대 균등 분리시킨 M2 세포에 대해 파괴된 (정규화된) 미토콘드리아 카피수. (B6 x Spret) 교배.
도 11A 내지 도 11E는 종내 잡종 마우스 수컷 생식선의 sci-L3-WGS가 또한 비독립적인 균등 분리의 많은 예를 밝혀낸다는 것을 나타낸다. (A-B) 2개의 무작위 1C 세포의 이중항으로부터 유래된, 바코드 그룹 1로부터 인공 "2C" 세포에 대해 환원으로(적색) 및 균등으로(청색) 분리된 염색체의 수. 각각의 열은 1개의 단일 2C 세포를 나타낸다(세포마다 19개의 염색체, 색상으로 표시된 바대로 분포됨). (A) 이항식 분포에 기초하고 균등 분리의 확률 p가 0.5라고 가정하여, 환원 대 균등 분리의 예상된 분포. (B) (A)에서 관찰된 예상된 분포와 일치하는 2C 세포에서 관찰된 데이터. (C-E) 2개의 무작위 1C 핵 및 실제 2C 2차 정모세포의 인공 이중항 둘 다의 혼합물인, 바코드 그룹 2로부터의 비-1C 세포에 대한 환원으로(적색, 핑크색, 흑색) 및 균등으로(청색, 녹색) 분리된 염색체의 수. 각각의 열은 1개의 단일 비-1C 세포를 나타낸다(세포마다 19개의 염색체, 색상으로 표시된 바대로 분포됨). (C) 바코드 그룹 2로부터의 모든 비-1C 세포. (D) 오직 편향된 염색체 분리를 갖는 비-1C 세포, 즉 적어도 15개의 염색체는 균등으로 또는 환원으로 분리됨. 흑색 막대는 감수분열 I 비분리(NDJ, 전체 2,185개 중 2개의 염색체)를 도시하고, 여기서 본 발명자들은 염색분체의 0개 또는 4개의 카피를 관찰하였다. (E) (E)와 동일하지만, 교차("CO"로 약축)를 갖거나 갖지 않는 염색체의 수로 더 파괴됨. 세포를 처음에 균등 분리된 염색체(내림차순에서 담녹색 및 청색)의 수에 의해 및 이어서 교차를 갖지 않는 관찰된 균등 분리된 염색체(내림차순에서 청색)의 수에 의해 분류한다.
도 12A 내지 도 12C는 마우스 수컷 생식선의 sci-L3-WGS로부터의 관찰된 데이터(바닥)와 비교된 3개의 이항식 분포(상부)를 갖는 피팅된 유한 혼합 모델을 나타낸다. 혼합물 모델링의 상세내용에 대해 실시예 2를 참조한다. (A) (B6 x Cast) 잡종에서 바코드 그룹 1로부터의 비-1C 세포의 혼합물 모델링. (B) (B6 x Cast) 잡종에서의 바코드 그룹 2로부터의 비-1C 세포의 혼합물 모델링. (C) (B6 x Spret) 교배로부터의 2C 세포의 혼합물 모델링.
도 13A 내지 도 13I는 염색체 척도에서 감수분열 교차 및 단친성 염색체 분포를 나타낸다. (A) 염색체 크기(cM/Mb)에 의해 정규화된 교차의 수는 반수체 세포의 염색체 크기와 음의 상관관계이다(r = -0.66, p = 0.002). (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14A를 참조한다. (B) M2 세포에 대해 (A)와 동일(r = -0.83, p = 1e-5). (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14B를 참조한다. (C) 반수체 세포마다 염색체마다 교차(CO) 빈도의 분포. 계수치의 분포에 대해 도 10C를 참조한다. (D) M2 세포에 대해 (C)와 동일. 계수치의 분포에 대해 도 10D를 참조한다. (E) 적어도 2개의 교차를 갖는 염색체에 대해, 염색체 1, 2, 12 및 13에 대한 교차 사이의 거리(Mb). 모든 염색체에 대해 도 10E를 참조한다. (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14E를 참조한다. 염색체마다 2개의 교차를 무작위로 배치함으로써 예상된 계수치의 분포를 생성한다. 상자 그림은 (B6 x Cast) 교배가 (B6 x Spret) 교배보다 더 강한 교차 간섭을 갖는다는 것을 나타낸다(p=5e-91). (F) 반수체(중앙치 = 8, 평균 = 8.1), M2 세포(중앙치 = 1, 평균 = 1.1) 또는 다른 이배체/4C(중앙치 = 0, 평균 = 0.4) 세포마다 단친성 염색체 수의 히스토그램. (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14F를 참조한다. (G) 반수체(r = -0.87, p = 2e-6), M2 세포(r = -0.75, p = 2e-4) 및 다른 이배체/4C(r = -0.68, p = 0.001) 세포에 대한 단친성 염색체 분포. (B6 x Spret) 교배가 도시되어 있다. (B6 x Cast) 교배에 대해 도 14G를 참조한다. (H) (B6 x Spret) (왼쪽) 및 (B6 x Cast) (오른쪽) 교배에서의 역분리 사건의 염색체 분포. (I) 반수체, M2 세포 및 다른 이배체/4C 이배체 세포에 대해 판독 깊이에 의해 정규화된, 세포마다 미토콘드리아 판독의 수. (B6 x Spret) 교배.
도 14A 내지 도 14G는 감수분열 교차 및 UPD, (B6 x Cast)에 대한 염색체 분포를 나타낸다. (A) 염색체 크기(cM/Mb)에 의해 정규화된 교차의 수는 반수체 세포에서의 염색체 크기와 음의 상관관계이다(r = -0.65, p = 0.003). (B6 x Cast) 교배. (B) M2 세포에서 (A)와 동일(r = -0.9, p = 2e-7). (B6 x Cast) 교배. (C) 염색체 크기에 정규화한 후, 각각의 염색체에서 적어도 하나의 교차를 갖는 반수체 세포의 수는 염색체 크기와 음의 상관관계이다(r = -0.85, p = 5e-6). (B6 x Cast) 교배. (D) M2 세포에 대해 (C)와 동일(r = -0.94, p = 3e-9). (B6 x Cast) 교배. (E) 적어도 2개의 교차를 갖는 염색체에 대해, 모든 염색체에 대한 교차 거리. 염색체마다 2개의 교차를 무작위으로 배치함으로써 예상된 수의 분포를 생성한다. (B6 x Cast) 교배. (F) 반수체(중앙치 = 8, 평균 = 8.9) 및 M2 세포(중앙치 = 0, 평균 = 0.54) 세포마다 단친성 염색체 수. (B6 x Cast) 교배. (G) 단친성 염색체 분포(괄호에 표시된 염색체 크기와의 상관관계), 반수체(r = -0.8, p = 4e-5) 및 M2 세포(r = -0.45, p = 0.05). (B6 x Cast) 교배.
도 15A 내지 도 15C는 교차 중단점 파일업 프로필을 나타낸다. (A) 상부 내지 바닥: B6, Cast 및 (B6 x Cast) F1 잡종에 대한 SSDS 맵, 이 연구에서 생성된 (B6 x Spret) 및 (B6 x Cast)에서의 교차 맵에 의한 감수분열 DSB 핫스팟). 반수체 대 M2 세포에 대한 파괴, 및 Spol1-올리고 맵에 대해 (B) 및 (C)를 참조한다. (B) 상부 내지 바닥: 1) (B6 x Cast) F1 잡종에 대해 SSDS에 의한 감수분열 DSB 핫스팟 맵, 2) (B6 x Cast)에서의 반수체 교차 맵, 및 3) (B6 x Cast)에서의 M2 세포 교차 맵. (C) 상부 내지 바닥: 1) "대칭" 핫스팟을 갖는 Spo11-올리고 맵에 의한 감수분열 DSB 핫스팟, 2) 모든 핫스팟을 갖는 Spo11-올리고 맵에 의한 감수분열 DSB 핫스팟: PRDM9 모티프는 고려되지 않는다. 3) (B6 x Spret)에서의 반수체 교차 맵 및 4) (B6 x Spret)에서의 M2 세포 교차 맵.
도 16A 내지 도 16F는 감수분열 교차 격렬(hotness) 및 탐색적 게놈 특징을 나타낸다. (A) BMA에 의한 교차 격렬과 연관된 특징에 대한 주변 포함 확률. 사후 확률에 의한 x-축 랭크 모델, 여기서 회색 박스는 각각의 모델에 포함되지 않은 특징부를 도시하고(수직 선, 20개의 상부 모델이 도시됨), 오렌지 색상의 척도는 모델의 사후 확률을 도시한다. (B6 x Spret) 및 (B6 x Cast) 교배 둘 다로부터의 조합된 데이터세트가 여기에 도시되어 있다. 별개로 분석된 2개의 교배에 대해 도 15를 참조한다. (B) 중단점 분해에 대한 크기의 분포(로그 정상 분포). 왼쪽: (B6 x Spret), 150kb의 중앙치. 오른쪽: (B6 x Cast), 250kb의 중앙치. (C-D) 각각의 염색체의 가장 오른쪽의 교차의 위치. 염색체의 길이는 적색 선의 정도보다는 가장 오른쪽의 SNP(흑색 막대)로 표시된다. (C) M2 세포. (B6 x Cast)(왼쪽) 교배에서의 교차는 염색체의 동원체-원위 단부를 선호하는 한편, (B6 x Spret) 교배(오른쪽)에서의 교차는 각각의 염색체 아암의 중앙 영역을 선호한다. 염색체간 변동성을 고려한 후, 본 발명자들은 (B6 x Spret) 교배에서의 교차가 평균적으로 5.5Mb 더 동원체-근위라고 추산한다. 1C 세포를 제외하고 유사한 도 20A를 참조한다. (D) 1C 및 M2 세포의 비교, (B6 x Spret) 교배. 염색체간 변동성을 고려한 후, 본 발명자들은 M2 세포에서의 교차(오른쪽)가 (B6 x Spret) 교배에서 1C(왼쪽)보다 평균적으로 9.4Mb 더 동원체-근위라고 추산한다. (B6 x Cast) 교배에서보다 더 적은 정도로 동일한 경향이 관찰된다(도 20B 참조). (E) 마우스 게놈으로부터 취해진 영역이 B6 x Spret 교차 트랙 및 무작위로 샘플링된 트랙의 동일한 수로부터 오는 경우 0.73의 AUC는 예측에 있어서의 예상된 정확도를 정량화한다. 왼쪽: 모든 76개의 특징부. 오른쪽: MIP>0.5로 BMA로부터의 25개의 특징부의 하위집단. (F) 마우스 게놈으로부터 취해진 영역이 B6 x Cast 교차 트랙 및 무작위로 샘플링된 트랙의 동일한 수로부터 오는 경우 0.85의 AUC는 예측에 있어서의 예상된 정확도를 정량화한다. 왼쪽: 모든 69개의 특징부. 오른쪽: MIP>0.5로 BMA로부터의 25개의 특징부의 하위집단.
도 17A 내지 도 17B는 BMA에 의한 교차 격렬과 연관된 특징의 주변 포함 확률을 나타낸다. 사후 확률에 의한 x-축 랭크 모델. (A) (B6 x Cast) 교배. (B) (B6 x Spret) 교배.
도 18은 교차 사건 둘 다에 대한 상관 행렬 및 (B6 x Cast) 교배에서 게놈 특징을 나타낸다. 여기서 본 발명자들은, 100kb 윈도우에서 계산된, 다양한 교차 파일업 트랙 및 게놈 특징 사이의 모든 가능한 쌍별 상관관계를 보여준다. 교차 파일업 트랙은 처음의 5개의 열 또는 행("사건" 접두사; 적색 텍스트 표지)이지만, 나머지는 모델링에서 사용된 동일한 게놈 특징부(청색 텍스트 표지)이다. "hp_m2", "hp", "m2", "mt" 및 "me"에 의해 접미사인 교차 파일업 트랙은 각각 반수체 및 M2 세포, 반수체, M2 세포, 편향된 균등 분리를 갖는 M2 세포 및 편향된 환원 분리를 갖는 M2 세포 기원이다. 청색 정사각형은 양의 상관관계를 도시하고, 적색 정사각형은 음의 상관관계를 도시한다. 특징부는 계층적 클러스터링에 의해 순서화된다. 열린 타원형은 텍스트에 기재된 바대로 2개의 교배에서 상이한 경향을 나타내는 특징부 "텔로머" 및 "사분위_75_100"을 강조한다.
도 19는 (B6 x Spret) 교배에서의 교차 사건 및 게놈 특징부 둘 다에 대한 상관 행렬을 나타낸다. 도 18 범례에 기재된 바와 동일한 포맷.
도 20A 내지 도 20E는 각각의 염색체에서의 가장 오른쪽의 교차의 위치를 나타낸다. (A) 반수체 세포. 교배 둘 다에서, 교차는 염색체의 동원체-원위 단부를 선호한다. (B) 반수체 및 M2 세포의 비교(B6 x Cast 교배). 염색체간 변동성을 고려한 후, 본 발명자들은 M2 세포에서의 교차가 (B6 x Cast) 교배에서의 반수체보다 평균적으로 5.2Mb 더 동원체-근위라고 추산한다. (C) M2 세포와 편향된 염색체 분리의 비교. 염색체간 변동성을 고려한 후, 본 발명자들은 편향된 균등 분리를 갖는 M2 세포에서의 교차가 (B6 x Cast) 교배에서 편향된 환원 분리를 갖는 M2 세포에서의 것보다 평균적으로 13.7Mb 더 동원체-원위라고 추산한다. (D) (B6 x Spret) 교배에서 (C)에서와 동일. 교차는 평균적으로 8.7Mb 더 동원체-원위이다. (E) 적절한 염색체 분리에서 교차의 위치의 효과에 대한 모델. (마지막 사분위에서보다 중간의 2개의 사분위수에서) 동원체에 더 가까운 교차는 더 강한 아암 응집을 가짐으로써 환원 분리를 수월하게 할 수 있지만; 염색체 아암의 단부 근처의 교차는 더 강한 CEN 응집을 가짐으로써 MII 분리를 수월하게 할 수 있다.
도 21은 B6 x Spret 교배에서 교차 핫스팟을 구별하는 특징의 주성분 분석을 나타낸다. "chr3_bp(중단점)" 및 "chr1_upc(단친성 염색체)"가 모든 염색체에 포함된 특징을 나타낸다는 것에 주목한다. 본 발명자들은 115개의 전체 특징 중 44개를 보여준다. 36개의 다른 염색체 중단점 및 생략된 UPC 특징 이외에, 35개의 다른 특징은 분명한 경향의 결여로 인해 보이지 않는다.
도 22는 B6 x Cast 교배에 대한 교차 핫스팟을 구별하는 특징의 주성분 분석을 나타낸다. "chr3_bp(중단점)" 및 "chr1_upc(단친성 염색체)"가 모든 염색체에 포함된 특징을 나타낸다는 것에 주목한다. 본 발명자들은 108개의 전체 특징 중 19개를 보여준다. 36개의 다른 염색체 중단점 및 생략된 UPC 특징 이외에, 53개의 다른 특징은 분명한 경향의 결여로 인해 보이지 않는다.
도 23은 감수분열 교차와 염색체 비분리 사이의 관계에 대한 모델을 나타낸다. "MI": 감수분열 I, "CEN": 동원체(타원형 또는 원형 원), "IH": 동족체간. 본 개시내용의 예시적인 실시형태의 하기 상세한 설명은 하기 도면과 함께 읽혀질 때 최고로 이해될 수 있다.
도식적 도면은 반드시 비례조정되지 않는다. 도면에서 사용된 유사한 숫자는 유사한 성분, 단계 등을 지칭한다. 그러나, 주어진 도면에서 성분을 지칭하기 위한 숫자의 사용이 동일한 숫자로 표지된 또 다른 도면에서의 성분을 제한하도록 의도되지 않는다고 이해될 것이다. 또한, 성분을 지칭하기 위한 상이한 숫자의 사용은 상이한 숫자의 성분이 다른 숫자의 성분과 동일하거나 유사할 수 없다는 것을 나타내도록 의도되지 않는다.

본 명세서에 제공된 방법은, 예를 들어, 전장 게놈(sci-WGS), 전사체(sci-RNA), 게놈 및 전사체의 공동검정(sci-DNA/RNA) 및/또는 메틸놈(sci-MET)을 포함하는 복수의 단일 세포 또는 핵의 단일 세포 조합 인덱싱(sci) 서열분석 라이브러리를 제조하기 위해 이용될 수 있다. 일 실시형태에서, 상기 방법은 특정한 영역 또는 관심 대상의 영역의 표적화된 서열분석에 이용될 수 있다. 예를 들어, 특정한 영역(예를 들어, 코딩 영역, 비코딩 영역 등), 가이드 RNA 또는 가이드 RNA에 의해 삽입된 뉴클레오타이드 서열에 혼성화하는 프라이머는 표적화된 서열을 선택적으로 농후화시키도록 사용될 수 있다. 일 실시형태에서, 세포 또는 핵으로부터의 개별 유전자 편집, DNA 편집, 또는 편집, 유전자 서명, 교란, 및/또는 기능적 리드를 위한 마커(RNA, DNA, 단백질 또는 조합)에 대한 정보는 수집되고 분석될 수 있다(Perturb-seq). 다른 실시형태에서, 상기 방법은 염색질 접근성(sci-ATAC), 염색질 구성(Hi-C) 및 다른 단일 세포 조합 인덱싱 방법을 평가하기 위해 이용될 수 있다.

상기 방법은 단리된 핵 또는 세포를 제공하는 단계, 핵 또는 세포의 하위집단을 구획에 분배하는 단계, 핵산 단편을 포함하도록 핵 또는 세포를 처리하는 단계, 구획 특이적 인덱스를 핵산 단편에 첨가하는 단계 및 선형 증폭에 의해 핵산 단편을 증폭시키는 단계를 포함한다. 이들 단계는 상이한 순서로 발생할 수 있고, 상이한 방식으로 조합될 수 있다. 3개의 실시형태는 도 1a 및 도 1b에 도시되어 있다. 일 실시형태에서, 상기 방법은 핵산 단편을 함유하는 단리된 핵 또는 세포의 분포된 하위집단을 제공하는 단계를 포함한다(도 1a, 블록 1, 및 도 1b, 블록 1). 도 1ab에 도시된 바대로, 선형 증폭에 의해 핵산 단편을 증폭시키는 것(도 1a, 블록 2)에는 인덱스를 증폭된 핵산 단편에 첨가하는 것(도 1a, 블록 3)이 후행한다. 도 1b에 도시된 바대로, 분포된 핵 또는 세포에서의 핵산 단편은 인덱스를 포함하고, 핵산 단편은 선형 증폭에 의해 증폭된다(도 1b, 블록 2). 단리된 핵 또는 세포를 제공하고, 단리된 핵 또는 세포의 하위집단을 분포시키고, 핵산 단편을 포함하도록 단리된 핵 또는 세포를 처리하고, 구획 특이적 인덱스를 첨가하고, 선형 증폭에 의해 핵산 단편을 증폭시키는 단계는 본 명세서에 기재되어 있다.

단리된 핵 또는 세포의 제공

본 명세서에 제공된 방법은 복수의 세포로부터 세포 또는 단리된 핵을 제공하는 것을 포함한다. 세포 및 핵은 임의의 샘플, 예를 들어, 임의의 유기체(들), 및 유기체(들)의 임의의 세포 유형 또는 임의의 조직 유래일 수 있다. 일 실시형태에서, 세포는 생식 세포, 예를 들어, 정자 세포 또는 난세포일 수 있다. 일 실시형태에서, 조직은 생식 조직, 예를 들어, 부고환일 수 있다. 일 실시형태에서, 세포 또는 핵은 암 또는 이환된 조직 유래일 수 있다. 상기 방법은 세포의 분리, 및/또는 핵의 단리를 추가로 포함할 수 있다. 세포로부터 핵을 단리하기 위한 방법은 당업자에게 공지되어 있고 일상적이다. 핵 또는 세포의 수는 적어도 2개일 수 있다. 상한은 본 명세서에 기재된 바와 같은 방법의 다른 단계에서 사용된 설비(예를 들어, 다중웰 플레이트)의 실행 제한에 의존적이다. 사용될 수 있는 핵 또는 세포의 수는 제한이도록 의도되지 않고, 수십억 개의 수일 수 있다. 예를 들어, 일 실시형태에서 핵 또는 세포의 수는 100,000,000개 이하, 10,000,000개 이하, 1,000,000,000개 이하, 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 1,000개 이하, 500개 이하 또는 50개 이하일 수 있다. 하나 이상의 샘플은 제공될 수 있다. 예를 들어, 샘플은 하나의 유기체로부터의 하나의 세포 유형 또는 조직일 수 있다. 본 명세서에 기재된 인덱싱 방법을 이용하여, 다수의 샘플, 예를 들어, 하나의 유기체로부터의 상이한 세포 유형, 2개 이상의 유기체로부터의 하나의 세포 유형 또는 조직, 또는 2개 이상의 유기체로부터의 상이한 세포 유형 또는 조직은 샘플을 확인하도록 제1 인덱스와 별도로 인덱싱되고 이후 조합될 수 있다. 당업자는 몇몇 실시형태에서 각각의 핵에서의 핵산 분자가 유기체의 전체 유전자 보체(유기체의 전장 게놈이라고도 칭함)를 나타내고, 인트론 및 엑손 서열 둘 다, 및 비코딩 조절 서열, 예컨대, 촉진자 및 인핸서 서열을 포함하는 게놈 DNA 분자라는 것을 인식할 것이다.

핵 단리는 적어도 1분 내지 20분, 예컨대, 5분, 10분 또는 15분 동안 세포 용해 완충제에서 세포를 항온처리함으로써 달성될 수 있다. 선택적으로, 세포는 용해, 예컨대, 피펫을 통한 이동을 돕도록 외부 힘에 노출될 수 있다. 세포 용해 완충제의 예는 10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl₂, 0.1% IGEPAL CA-630 및 1% SUPERase In RNase 저해제를 포함한다. 당업자는 성분의 이 수준이 핵을 단리시키기 위한 세포 용해 완충제의 유용성을 감소시키지 않으면서 다소 변경될 수 있다는 것을 인식할 것이다. 당업자는 RNAse 저해제, BSA, 및/또는 계면활성제가 핵의 단리에 사용되는 완충제에서 유용할 수 있고, 다른 첨가제가 다른 하류 단일 세포 조합 인덱싱 분야에 대해 완충제에 첨가될 수 있다는 것을 인식할 것이다.

일 실시형태에서, 핵은 부착성 또는 현탁 중인 개별 세포로부터 단리된다. 개별 세포로부터 핵을 단리시키는 방법은 당업자에게 공지되어 있다. 일 실시형태에서, 핵은 조직에 존재하는 세포로부터 단리된다. 단리된 핵을 얻는 방법은 통상적으로 조직의 준비 및 준비된 조직으로부터의 핵의 단리를 포함한다. 일 실시형태에서, 모든 단계는 얼음에서 수행된다.

조직 준비는 조직을 액체 질소 중에 급속 동결시키고, 이후 조직을 저밈 또는 무딘 힘으로 처리하여 조직의 크기를 1㎜ 이하의 직경의 조각으로 감소시키는 것을 포함할 수 있다. 선택적으로, 차가운 프로테아제 및/또는 세포-세포 연결을 파괴하기 위한 다른 효소가 사용될 수 있다. 저밈은 조직을 작은 조각으로 절단하도록 블레이드에 의해 달성될 수 있다. 무딘 힘을 적용하는 것은 조직을 해머 또는 유사한 물체로 두들김으로써 달성될 수 있고, 두들긴 조직의 생성된 조성물은 분말로 지칭된다.

관습적인 조직 핵 추출 기법은 조직을 보통 30분 내지 몇 시간 동안 고온(예를 들어, 37℃)에서 조직 특이적 효소(예를 들어, 트립신)와 항온처리하고, 이후 핵 추출을 위해 세포를 세포 용해 완충제로 용해시킨다. 본 명세서에서 및 미국 가특허출원 제62/680,259호에 기재된 핵 단리 방법은 몇몇 이점을 갖는다: (1) 인공 효소는 도입되지 않고, 모든 단계는 얼음에서 수행된다. 이것은 세포 상태(예를 들어, 전사체 상태, 염색질 상태 또는 메틸화 상태)에 대한 잠재적인 교란을 감소시킨다. (2) 이것은 뇌, 폐, 신장, 비장, 심장, 소뇌, 및 질환 샘플, 예컨대, 종양 조직을 포함하는 대부분의 조직 유형에 걸쳐 검증된다. 상이한 조직 유형에 대해 상이한 효소를 사용하는 관습적인 조직 핵 추출 기법과 비교하여, 새로운 기법은 잠재적으로 상이한 조직으로부터의 세포 상태를 비교할 때 편향을 감소시킬 수 있다. (3) 상기 방법은 또한 효소 처리 단계를 제거함으로써 비용을 감소시키고 효율을 증가시킨다. (4) 다른 핵 추출 기법(예를 들어, Dounce 조직 분쇄기)과 비교하여, 기법은 상이한 조직 유형에 더 튼튼하고(예를 들어, Dounce 방법은 상이한 조직에 대한 Dounce 사이클의 최적화를 요함), 고속대량에서의 샘플의 큰 조각의 처리를 가능하게 한다(예를 들어, Dounce 방법은 분쇄기의 크기로 제한됨).

단리된 핵 또는 세포는 뉴클레오솜를 포함할 수 있거나, 뉴클레오솜 비함유일 수 있거나, 뉴클레오솜의 핵을 결실시키는 조건으로 처리될 수 있어서, 뉴클레오솜 고갈된 핵을 생성한다. 뉴클레오솜 고갈된 핵은 세포의 전장 게놈의 DNA 서열, 또는 이의 분획을 결정하기 위한 방법에서 유용하다.

일 실시형태에서, 뉴클레오솜 고갈에 이용된 조건은 단리된 핵의 통합성을 유지시킨다. 통상적으로, 뉴클레오솜 고갈 방법은 단일 세포의 펠릿 또는 현탁액에서 사용되어서, 부착성 세포 배양 또는 조직이 세포의 공급원으로서 사용되는 이들 실시형태에서, 공급원은 단일 세포의 펠릿 또는 현탁액을 얻도록 처리된다.

뉴클레오솜 고갈에 대한 방법은 공지되어 있고 일상적이고, 효소 처리 및 화학 처리를 포함하지만, 이들로 제한되지는 않는다. 일 실시형태에서, 뉴클레오솜 고갈에 대한 조건은 핵산-단백질 상호작용을 파괴시킬 수 있는 카오트로피제(chaotropic agent)에 의한 화학 처리를 포함한다. 유용한 카오트로피제의 예는 3,5-리튬 다이요오도살리실산을 포함하지만, 이것으로 제한되지는 않는다. 3,5-리튬 다이요오도살리실산을 사용하는 것에 대한 조건은 이것을 세포의 펠릿에 첨가하는 것 및 얼음에서 항온처리하는 것을 포함한다.

바람직한 실시형태에서, 조건은 핵산-단백질 상호작용을 파괴할 수 있는 세제에 의한 화학 처리를 포함한다. 유용한 세제의 예는 황산 도데실 나트륨(SDS)을 포함하지만, 이것으로 제한되지는 않는다. SDS를 사용하는 것에 대한 조건은 이것을 세포의 펠릿에 첨가하는 것 및 승온, 예컨대, 42℃에서 항온처리하는 것 및 이후 비이온성 세제, 예컨대, Triton(상표명) X-100을 첨가하는 것 및 승온, 예컨대, 42℃에서 항온처리하는 것을 포함한다.

몇몇 실시형태에서, 세제, 예컨대, SDS가 사용될 때, 핵은 뉴클레오솜의 고갈 전에 가교결합제에 노출된다(WO 제2018/018008호). 일 실시형태에서, 핵은 세포 내부에 있으면서 가교결합제에 노출되고, 또 다른 실시형태에서, 단리된 핵은 가교결합제에 노출된다. 가교결합제의 유용한 예는 폼알데하이드를 포함하지만, 이것으로 제한되지는 않는다(Hoffman et al., 2015, J. Biol. Chem., 290:26404-26411). 폼알데하이드에 의한 세포의 처리는 세포의 현탁액에 대한 폼알데하이드의 첨가 및 실온에서의 항온처리를 포함할 수 있다. 일 실시형태에서, 폼알데하이드 처리 후, 핵은 글라이신 및 비이온성 비변성 세제 비이온성, 비변성 세제, 예컨대, Igepal(등록상표)에 노출될 수 있다.

단리된 핵에서 뉴클레오솜을 고갈시키는 공정 동안, 단리된 핵의 통합성은 유지된다. 핵이 뉴클레오솜을 고갈시키기 위한 조건에 노출 후 온전히 있는지는 일상적 방법, 예컨대, 위상 대비 영상화에 의해 핵의 상태를 가시화함으로써 결정될 수 있다. 일 실시형태에서, 뉴클레오솜 고갈 후 온전한 핵의 수는 1개 내지 1,000개, 1,000개 내지 10,000개, 10,000개 내지 100,000개, 100,000개 내지 1,000,000개, 1,000,000개 내지 10,000,000개, 또는 10,000,000개 내지 100,000,000개일 수 있다.

본 명세서에 기재된 제공, 풀링 및 분배를 포함하는 핵 또는 세포의 조작은 핵 완충제의 사용을 포함할 수 있다. 핵 완충제의 예는 10mM Tris-HCl, pH 7.4, 10mM NaCl, 3mM MgCl2, 1% SUPERase In RNase 저해제(20U/㎕, Ambion) 및 1% BSA(20㎎/㎖, NEB))를 포함한다. 당업자는 성분의 이 수준이 핵을 현탁시킨 핵 완충제의 유용성을 감소시키지 않으면서 다소 변경될 수 있다는 것을 인식할 것이다. 당업자는 또한 핵을 현탁시킨 핵 완충제의 유용성을 감소시키지 않으면서 다양한 성분이 치환될 수 있다는 것을 인식할 것이다.

일 실시형태에서, 세포(핵이 단리된 세포를 포함)는 상이한 미리 결정된 조건에 노출된다. 예를 들어, 세포의 하위집단은 상이한 미리 결정된 조건에 노출될 수 있다. 상이한 조건은, 예를 들어, 상이한 배양 조건(예를 들어, 상이한 배지, 상이한 환경 조건), 물질의 상이한 용량, 상이한 물질, 또는 물질의 조합을 포함할 수 있다. 물질은 본 명세서에 기재되어 있다. 세포 및/또는 샘플 또는 샘플들의 각각의 하위집단의 핵 또는 세포는 하나 이상의 인덱스 서열로 인덱싱되고, 풀링되고, 엄청난 멀티플렉스 단일 핵 또는 단일 세포 서열분석 방법에 의해 분석된다. 단일 핵 전사체 서열분석(미국 가특허출원 제62/680,259호 및 Gunderson 등의 (WO 제2016/130704호)), 단일 핵의 전장 게놈 서열분석(미국 특허 출원 공보 US 제2018/0023119호), 또는 트랜스포슨 접근 가능한 염색질의 단일 핵 서열분석(미국 특허 제10,059,989호), sci-HiC(Ramani et al., Nature Methods, 2017, 14:263-266), DRUG-seq(Ye et al., Nature Commun., 9, 논문 번호 4307), Perturb-seq(Dixit et al., Cell, 2016, 167(7):1853-1866.e17), 또는 DNA, RNA 및 단백질로부터의 분석물질의 임의의 조합, 예를 들어, sci-CAR(Cao et al., Science, 2018, 361(6409):1380-1385)(이들로 제한되지는 않음)을 포함하는 본질적으로 임의의 단일 핵 또는 단일 세포 서열분석 방법이 사용될 수 있다. 드랍플렛 기반 단일 세포 분석은 또한, 샘플 인덱스로서의 인덱스의 사용을 포함하는, 초기 스필릿-앤-풀 인덱싱(예는 10X genomics Chromium(상표명) 시스템 또는 Biorad ddseq 시스템을 포함) 후 적용될 수 있다. 핵 해싱(nuclear hashing)은 상이한 조건으로부터 개별 세포 또는 핵을 역다중화하고 확인하도록 사용된다.

일 실시형태에서, 세포의 각각의 하위집단은 물질 또는 섭동에 노출된다. 물질은 본질적으로 세포에 변화를 일으키는 어떤 것일 수 있다. 예를 들어, 물질은 세포의 전사체를 변경, 세포의 염색질 구조를 변경, 세포에서의 단백질의 활성을 변경, 세포의 DNA를 변경, 세포의 DNA 편집을 변경하거나, 다른 변화를 일으킬 수 있다. 물질의 예는 화합물, 예컨대, 단백질(항체 포함), 비리보솜 단백질, 폴리케타이드, 유기 분자(900달톤 이하의 유기 분자 포함), 무기 분자, RNA 또는 RNAi 분자, 탄수화물, 당단백질, 핵산, 또는 이들의 조합을 포함하지만, 이들로 제한되지는 않는다. 일 실시형태에서, 물질, 예를 들어, DNA 편집 단백질 및/또는 가이드 RNA, 예컨대, CRISPR 또는 Talen은 유전자 교란을 야기한다. 일 실시형태에서, 물질은 치료학적 약물이다. 일 실시형태에서, 세포는 야생형 세포일 수 있고, 또 다른 실시형태에서, 세포는 유전자 교란, 예를 들어, 유전자 넉인 또는 유전자 넉아웃을 포함하도록 유전자 변형될 수 있다(Szlachta et al., Nat Commun., 2018, 9:4275). 세포의 하위집단은 동일한 물질에 노출될 수 있지만, 상이한 변수는 다중 웰 장치의 구획에 걸쳐 변경될 수 있어서, 다수의 변수가 단일 실험에서 시험되게 허용한다. 예를 들어, 상이한 투약량, 상이한 노출 기간 및 상이한 세포 유형은 단일 플레이트에서 시험될 수 있다. 일 실시형태에서, 세포는 공지된 활성, 및 상이한 조건 하에 평가된 활성에 대한 물질의 효과를 갖는 단백질을 발현할 수 있다. 표지 핵산 단편에 대한 인덱스 서열의 사용은, 예를 들어, 다중웰 플레이트의 하나의 웰로부터 특정한 핵 또는 세포의 하위집단으로부터 기원한 핵산의 차후의 확인을 허용한다.

하위집단의 분포

본 명세서에 제공된 방법은 복수의 구획에 핵의 하위집단, 예를 들어, 뉴클레오솜 고갈된 핵, 또는 세포를 분포시키는 단계를 포함한다. 상기 방법은 단리된 핵 또는 세포의 집단(본 명세서에서 풀이라고도 칭함)이 하위집단으로 분할되는 다수의 분포 단계를 포함할 수 있다. 통상적으로, 풀로부터 복수의 구획으로의 단리된 핵 또는 세포의 하위집단의 분포는 단리된 핵 또는 세포의 하위집단에 존재하는 핵산 단편에 대한 인덱스의 첨가 전에 발생한다. 따라서, 상기 방법은 풀링된 단리된 핵 또는 세포를 취하고 이들을 분포시키는 적어도 하나의 "스플릿 및 풀" 단계를 포함하고, 여기서 "스플릿 및 풀" 단계의 수는 핵산 단편에 첨가된 상이한 인덱스의 수에 따라 달라질 수 있다. 인덱싱 후, 하위집단은 풀링되고, 하위집단으로 분할되고, 인덱싱되고, 충분한 수의 인덱스가 핵산 단편에 첨가될 때까지 필요한 바대로 다시 풀링될 수 있다.

하위집단에, 그리고 따라서 각각의 구획에 존재하는 핵 또는 세포의 수는 적어도 1개일 수 있다. 일 실시형태에서, 하위집단에 존재하는 핵 또는 세포의 수는 100,000,000개 이하, 10,000,000개 이하, 1,000,000개 이하, 100,000개 이하, 10,000개 이하, 4,000개 이하, 3,000개 이하, 2,000개 이하 또는 1,000개 이하, 500개 이하 또는 50개 이하이다. 일 실시형태에서, 하위집단에 존재하는 핵 또는 세포의 수는 1개 내지 1,000개, 1,000개 내지 10,000개, 10,000개 내지 100,000개, 100,000개 내지 1,000,000개, 1,000,000개 내지 10,000,000개, 또는 10,000,000개 내지 100,000,000개일 수 있다. 일 실시형태에서, 각각의 하위집단에 존재하는 핵 또는 세포의 수는 대략 동일하다. 하위집단에, 그리고 따라서 각각의 구획에 존재하는 핵의 수는 부분적으로 상기 방법의 이 단계에서 동일한 구획에서 끝나는 동일한 트랜스포사제 인덱스를 갖는 2개의 핵의 존재인 인덱스 충돌을 감소시키려는 요망에 기초한다. 하위집단에 핵 또는 세포를 분포시키는 방법은 당업자에게 공지되어 있고 일상적이다. 예는 형광 활성화 세포 분류(fluorescence-activated cell sorting: FACS) 세포계산법 및 단순 희석을 포함하지만, 이들로 제한되지는 않는다. 선택적으로, 상이한 배수성의 핵은 게이팅되고 염색, 예를 들어, DAPI(4',6-다이아미디노-2-페닐인돌) 염색에 의해 농후화될 수 있다.

분포 단계(및 후속하는 인덱스의 첨가)에서의 구획의 수는 사용된 포맷에 따라 달라질 수 있다. 예를 들어, 구획의 수는 2개 내지 96개의 구획(96웰 플레이트가 사용될 때), 2개 내지 384개의 구획(384웰 플레이트가 사용될 때), 또는 2개 내지 1536개의 구획(1536웰 플레이트가 사용될 때)일 수 있다. 일 실시형태에서, 각각의 구획은 드랍플렛일 수 있다. 사용된 구획의 유형이 2개 이상의 핵 또는 세포를 함유하는 드랍플렛일 때, 임의의 수의 드랍플렛, 예컨대, 적어도 10,000개, 적어도 100,000개, 적어도 1,000,000개, 또는 적어도 10,000,000개의 드랍플렛을 사용할 수 있다. 일 실시형태에서, 구획의 수는 24개이다.

핵산 단편을 생성하기 위한 처리

일 실시형태에서, 단리된 핵 또는 세포의 처리는 단리된 핵 또는 세포에서의 DNA 핵산, 예를 들어, 염색체 및/또는 플라스미드를 핵산 단편으로 단편화하도록 사용될 수 있다. 서열되는 표적 핵산이 핵 또는 세포에 존재하는 DNA로부터 유래될 때 처리가 통상적으로 필요하지만; 몇몇 실시형태에서, RNA 분자가 대개 단편화될 필요가 없으므로, 서열되는 표적 핵산이 핵 또는 세포에 존재하는 RNA(예를 들어, mRNA 및/또는 비코딩 RNA)로부터 유래될 때 처리는 선택적이다. 핵 또는 세포에서의 핵산의 처리는 통상적으로 처리에 의해 생성된 핵산 단편의 단부의 하나 또는 둘 다에 뉴클레오타이드 서열을 첨가하고, 뉴클레오타이드 서열은 하나 이상의 보편적 서열을 포함할 수 있고 통상적으로 포함한다. 보편적 서열은 결찰, 프라이머 연장 또는 증폭의 후속하는 단계에 의해 핵산 단편에 대한 또 다른 뉴클레오타이드 서열, 예컨대, 인덱스의 첨가를 위해 프라이머로서 사용될 수 있는 뉴클레오타이드 서열을 어닐링하기 위해 후속하는 단계에서, 예를 들어, "랜딩 패드(landing pad)"로서 사용될 수 있다. 이러한 프라이머의 뉴클레오타이드 서열은 선택적으로 인덱스 서열을 포함할 수 있다. 핵 또는 세포에서의 핵산의 처리는 처리에 의해 생성된 핵산 단편의 단부의 하나 또는 둘 다에 하나 이상의 고유한 분자 식별자를 첨가할 수 있다.

핵산 단편으로의 핵산의 처리가 발생할 수 있는 방법에서 다수의 점이 있다. 예를 들어, 일 실시형태에서 단리된 핵 또는 세포는 단리된 핵 또는 세포의 하위집단을 분포시키기 전에 처리될 수 있다. 이것과 같은 실시형태에서, 모든 단리된 핵 또는 세포가 조합될 때 구획 특이적 인덱스의 첨가가 통상적으로 무목적을 제공하므로, 처리는 통상적으로 구획 특이적 인덱스가 아니라 핵산 단편에 대한 보편적 서열 및/또는 보편적 분자 식별자의 첨가를 포함한다. 또 다른 실시형태에서, 단리된 핵 또는 세포는 상이한 구획으로의 하위집단의 분포 후 처리될 수 있다(예를 들어, 도 1a 및 도 1b). 이 실시형태의 일 양상에서, 처리는 인덱스를 첨가하지 않고(도 1a, 블록 1), 이 실시형태의 또 다른 양상에서, 처리는 구획 특이적 인덱스의 첨가를 포함할 수 있다(도 1b, 블록 1). 상기 방법에서의 임의의 점에서의 처리는 핵산 단편의 단부의 하나 또는 둘 다에 대한 보편적 서열 및/또는 보편적 분자 식별자의 첨가를 포함할 수 있다.

핵산 단편으로 핵 또는 세포에서 핵산을 처리하기 위한 다양한 방법은 공지되어 있다. 예는 CRISPR 및 Talen 유사 효소, 및 DNA 단편이 혼성화하고 연장 또는 증폭을 개시시킬 수 있는 단일 가닥 영역을 만들기 위한 DNA를 풀어내는 효소(예를 들어, 헬리카제)를 포함한다. 예를 들어, 헬리카제 기반 증폭을 사용할 수 있다(Vincent et al., 2004, EMBO Rep., 5(8):795-800). 일 실시형태에서, 연장 또는 증폭은 무작위 프라이머로 개시된다. 일 실시형태에서, 트랜스포솜 복합체를 사용한다. 트랜스포솜 복합체는 트랜스포사제 인식 부위에 결합된 트랜스포사제이고, 때때로 "태그먼테이션(tagmentation)"이라 칭하는 과정에서 핵 내의 표적 핵산으로 트랜스포사제 인식 부위를 삽입할 수 있다. 몇몇 이러한 삽입 사건에서, 트랜스포사제 인식 부위의 하나의 가닥은 표적 핵산으로 이동될 수 있다. 이러한 가닥은 "이동된 가닥"이라 칭해진다. 일 실시형태에서, 트랜스포솜 복합체는 2개의 아단위 및 2개의 비인접 트랜스포슨 서열을 갖는 이합체 트랜스포사제를 포함한다. 또 다른 실시형태에서, 트랜스포사제는 2개의 아단위 및 인접 트랜스포슨 서열을 갖는 이합체 트랜스포사제를 포함한다. 일 실시형태에서, 하나 또는 둘 다의 트랜스포사제 인식 부위의 가닥의 5' 말단은 인산화될 수 있다.

몇몇 실시형태는 과활성 Tn5 트랜스포사제 및 Tn5-유형 트랜스포사제 인식 부위(Goryshin and Reznikoff, J. Biol. Chem., 273:7367 (1998)), 또는 R1 및 R2 말단 서열을 포함하는 MuA 트랜스포사제 및 Mu 트랜스포사제 인식 부위(Mizuuchi, K., Cell, 35: 785, 1983; Savilahti, H, et al., EMBO J., 14: 4893, 1995)의 사용을 포함할 수 있다. Tn5 모자이크 말단(Mosaic End: ME) 서열은 또한 당업자에 의해 최적화된 것처럼 사용될 수 있다.

본 명세서에 제공된 조성물 및 방법의 소정의 실시형태와 사용될 수 있는 전위 시스템의 더 많은 예는 스타필로코커스 아우레우스 Tn552(Colegio et al., J. Bacteriol., 183: 2384-8, 2001; Kirby C et al., Mol. Microbiol., 43: 173-86, 2002), Ty1(Devine & Boeke, Nucleic Acids Res., 22: 3765-72, 1994 및 국제 공보 WO 제95/23875호), 트랜스포슨 Tn7(Craig, N L, Science. 271: 1512, 1996; Craig, N L, 문헌[Curr Top Microbiol Immunol., 204:27-48, 1996]에서 검토), Tn/O 및 IS10(Kleckner N, et al., Curr Top Microbiol Immunol., 204:49-82, 1996), Mariner 트랜스포사제(Lampe D J, et al., EMBO J., 15: 5470-9, 1996), Tc1(Plasterk R H, Curr. Topics Microbiol. Immunol., 204: 125-43, 1996), P 요소(P Element)(Gloor, G B, Methods Mol. Biol., 260: 97-114, 2004), Tn3(Ichikawa & Ohtsubo, J Biol. Chem. 265:18829-32, 1990), 박테리아 삽입 서열(Ohtsubo & Sekine, Curr. Top. Microbiol. Immunol. 204: 1-26, 1996), 레트로바이러스(Brown, et al., Proc Natl Acad Sci USA, 86:2525-9, 1989) 및 효모의 레트로트랜스포슨(Boeke & Corces, Annu Rev Microbiol. 43:403-34, 1989)을 포함한다. 더 많은 예는 IS5, Tn10, Tn903, IS911, 및 트랜스포사제 패밀리 효소의 조작된 버전을 포함한다(Zhang et al., (2009) PLoS Genet. 5:e1000689. Epub 2009 Oct 16; Wilson C. et al (2007) J. Microbiol. Methods 71:332-5).

본 명세서에 제공된 방법 및 조성물과 사용될 수 있는 인테그레아제의 다른 예는 레트로바이러스 인테그레아제 및 인테그레아제 인식 서열, 예를 들어, 레트로바이러스 인테그레아제, 예컨대, HIV-1, HIV-2, SIV, PFV-1, RSV로부터의 인테그레아제를 포함한다.

본 명세서에 기재된 방법 및 조성물에 의해 유용한 트랜스포슨 서열은 미국 특허 출원 공보 제2012/0208705호, 미국 특허 출원 공보 제2012/0208724호 및 국제 특허 출원 공보 WO 제2012/061832호에 제공된다. 몇몇 실시형태에서, 트랜스포슨 서열은 제1 트랜스포사제 인식 부위 및 제2 트랜스포사제 인식 부위를 포함한다. 인덱스 서열을 도입하기 위해 트랜스포솜 복합체가 사용되는 이 실시형태에서, 인덱스 서열은 트랜스포사제 인식 부위 사이에 또는 트랜스포슨에서 존재할 수 있다.

본 명세서에서 유용한 몇몇 트랜스포솜 복합체는 2개의 트랜스포슨 서열을 갖는 트랜스포사제를 포함한다. 몇몇 이러한 실시형태에서, 2개의 트랜스포슨 서열은 서로에 연결되지 않고, 다른 말로, 트랜스포슨 서열은 서로와 비인접하다. 이러한 트랜스포솜의 예는 당해 분야에 공지되어 있다(예를 들어, 미국 특허 출원 공보 제2010/0120098호 참조).

몇몇 실시형태에서, 트랜스포솜 복합체는 "루핑된 복합체" 또는 "루핑된 트랜스포솜"을 형성하기 위해 2개의 트랜스포사제 아단위에 결합하는 트랜스포슨 서열 핵산을 포함한다. 일 예에서, 트랜스포솜은 이합체 트랜스포사제 및 트랜스포슨 서열을 포함한다. 루핑된 복합체는, 표적 DNA를 단편화하지 않으면서, 원래의 표적 DNA의 명령 정보를 유지시키면서, 트랜스포슨이 표적 DNA로 삽입되게 보장할 수 있다. 이해되는 것처럼, 루핑된 구조는 표적 핵산의 물리적 연결성을 유지시키면서 원하는 핵산 서열, 예컨대, 인덱스를 표적 핵산으로 삽입할 수 있다. 몇몇 실시형태에서, 2개의 트랜스포슨 서열을 포함하는 트랜스포솜 복합체를 생성하기 위해 트랜스포슨 서열이 단편화될 수 있도록 루핑된 트랜스포솜 복합체의 트랜스포슨 서열은 단편화 부위를 포함할 수 있다. 이러한 트랜스포솜 복합체는, 트랜스포슨이 삽입하는 이웃하는 표적 DNA 단편이 검정의 나중의 단계에서 분명하게 조립될 수 있는 코드 조합을 수신하도록 보장하는 데 유용하다.

일 실시형태에서, 핵산의 단편화는 핵산에 존재하는 단편화 부위를 사용함으로써 달성된다. 통상적으로, 단편화 부위는 트랜스포솜 복합체를 사용함으로써 표적 핵산에 도입된다. 일 실시형태에서, 핵산이 단편화된 후, 트랜스포사제는 핵산 단편에 부착된 채 있어서, 동일한 게놈 DNA 분자로부터 유래된 핵산 단편은 물리적으로 연결된 채 있다(Adey et al., 2014, Genome Res., 24:2041-2049). 예를 들어, 루핑된 트랜스포솜 복합체는 단편화 부위를 포함할 수 있다. 단편화 부위는 표적 핵산으로 삽입된 인덱스 서열 사이의 정보적 연관이 아닌 물리적 연관을 절단하도록 사용될 수 있다. 절단은 생화학, 화학 또는 다른 수단에 의할 수 있다. 몇몇 실시형태에서, 단편화 부위는 다양한 수단에 의해 단편화될 수 있는 뉴클레오타이드 또는 뉴클레오타이드 서열을 포함할 수 있다. 단편화 부위의 예는 제한 엔도뉴클레아제 부위, RNAse로 절단 가능한 적어도 하나의 리보뉴클레오타이드, 소정의 화학 물질의 존재 하에 절단 가능한 뉴클레오타이드 유사체, 페리오데이트에 의한 처리로 절단 가능한 다이올 연결, 화학 환원제로 절단 가능한 다이설파이드기, 광화학 절단으로 처리될 수 있는 절단 가능한 모이어티 및 펩티다제 효소 또는 다른 적합한 수단에 의해 절단 가능한 펩타이드를 포함하지만, 이들로 제한되지는 않는다(예를 들어, 미국 특허 출원 공보 제2012/0208705호, 미국 특허 출원 공보 제2012/0208724호 및 WO 제2012/061832호 참조).

트랜스포솜 복합체는 선택적으로 적어도 하나의 인덱스 서열을 포함할 수 있고, 트랜스포사제 인덱스라 칭해질 수 있다. 인덱스 서열은 트랜스포슨 서열의 일부로서 존재한다. 일 실시형태에서, 인덱스 서열은 표적 핵산으로 이동된 트랜스포사제 인식 부위의 가닥인 이동된 가닥에 존재할 수 있다.

트랜스포솜 복합체는 선택적으로 선형 증폭 매개자에 의해 사용될 수 있는 적어도 하나의 뉴클레오타이드 서열을 포함할 수 있다. 이러한 뉴클레오타이드 서열의 예는 핵산 단편이 파지 촉진자를 포함할 때 RNA 중합효소, 예컨대, T7 촉진자 및 선형 증폭 프라이머와 사용하기 위한 T7 RNA 중합효소를 포함하지만, 이들로 제한되지는 않는다. 선형 증폭 프라이머의 예는 증폭의 PCR 유형에서 사용하기 위한 단일 프라이머 또는 선형 증폭 매개자를 포함한다. 선형 증폭 매개자에 의해 사용될 수 있는 뉴클레오타이드 서열의 다른 실시형태는 가닥 대체 중합효소에 의해 인식된 서열이다. 매개자는 복제를 개시시키는 니킹 부위를 함유할 수 있다. 몇몇 경우에, 니킹 부위는 추가 증폭에 재생된다.

구획 특이적 인덱스의 첨가

태그 또는 바코드라고도 칭하는 인덱스 서열은 특정한 핵산이 존재하는 구획의 마커 특징으로서 유용하다. 따라서, 인덱스는 특정한 구획에 존재하는 각각의 표적 핵산에 부착된 핵산 서열 태그이고, 이의 존재는 단리된 핵 또는 세포의 집단이 상기 방법의 특정한 단계에 존재하는 구획을 나타내거나 이를 확인하도록 사용된다. 핵산 단편에 대한 인덱스의 첨가되는 상이한 구획에 분포된 단리된 핵 또는 세포의 하위집단으로 달성된다.

인덱스 서열은 뉴클레오타이드의 임의의 적합한 수의 길이, 예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 이상일 수 있다. 4개의 뉴클레오타이드 태그는 동일한 어레이에서의 256개의 샘플의 다중화의 가능성을 주고, 6개의 염기 태그는 4096개의 샘플이 동일한 어레이에서 처리되게 한다.

일 실시형태에서, 인덱스의 첨가는 핵산 단편으로의 핵산의 처리 동안 달성된다. 예를 들어, 인덱스를 포함하는 트랜스포솜 복합체를 사용할 수 있다. 다른 실시형태에서, 하나 또는 둘 다의 단부에서의 뉴클레오타이드 서열을 함유하는 핵산 단편이 처리에 의해 생성된 후 인덱스는 첨가된다. 인덱스를 첨가하는 방법은 결찰, 연장(역전사효소를 사용한 연장 포함), 혼성화, 흡착, 프라이머의 특이적 또는 비특이적 상호작용, 또는 증폭을 포함하지만, 이들로 제한되지는 않는다. 핵산 단편의 단부의 하나 또는 둘 다에 첨가되는 뉴클레오타이드 서열은 또한 하나 이상의 보편적 서열 및/또는 고유한 분자 식별자를 포함할 수 있다. 보편적 서열은 핵산 단편에 대한 또 다른 뉴클레오타이드 서열, 예컨대, 또 다른 인덱스 및/또는 또 다른 보편적 서열의 첨가를 위한 프라이머로서 사용될 수 있는 뉴클레오타이드 서열을 어닐링하도록 후속하는 단계에서, 예를 들어, "랜딩 패드"로서 사용될 수 있다.

예를 들어, mRNA로부터 유래된 핵산 단편의 사용을 포함하는 실시형태에서 다양한 방법은 1개 또는 2개의 단계에서 인덱스를 mRNA에 첨가하도록 사용될 수 있다. 예를 들어, 인덱스는 cDNA를 제조하도록 사용된 방법의 유형을 사용하여 첨가될 수 있다. 3' 단부에서 polyT 서열을 갖는 프라이머는 mRNA 분자에 어닐링되고 역전사효소를 사용하여 연장될 수 있다. 역전사에 적합한 조건 하에 이들 성분에 대한 단리된 핵 또는 세포의 노출은 인덱스의 1 단계 첨가를 발생시켜서 인덱싱된 핵 또는 세포의 집단을 발생시키고, 여기서 각각의 핵 또는 세포는 인덱싱된 핵산 단편을 함유한다. 대안적으로, polyT 서열을 갖는 프라이머는 인덱스 대신에 보편적 서열을 포함하고, 인덱스는 결찰, 프라이머 연장, 증폭의 후속하는 단계에 의해 첨가된다. 인덱싱된 핵산 단편은 합성된 가닥에서 특정한 구획을 나타내는 인덱스 서열을 포함할 수 있고 통상적으로 포함한다.

비코딩 RNA로부터 유래된 핵산 단편의 사용을 포함하는 실시형태에서 다양한 방법은 1개 또는 2개의 단계에서 인덱스를 비코딩 RNA에 첨가하도록 사용될 수 있다. 예를 들어, 인덱스는 무작위 서열 및 주형-스위치 프라이머를 포함하는 제1 프라이머를 사용하여 첨가될 수 있고, 여기서 어느 한 프라이머는 인덱스를 포함할 수 있다. 합성된 가닥의 3' 단부에 대한 비-주형 뉴클레오타이드의 첨가를 발생시키는 말단 전환효소 활성을 갖는 역전사효소를 사용할 수 있고, 주형-스위치 프라이머는 역전사효소에 의해 첨가된 비-주형 뉴클레오타이드와 어닐링하는 뉴클레오타이드를 포함한다. 유용한 역전사효소 효소의 예는 몰로니 쥣과 백혈병 바이러스 역전사효소이다. 특정한 실시형태에서, Takara Bio USA, Inc.로부터 구입 가능한 SMARTer(상표명) 시약(카탈로그 634926호)은 원하는 경우 인덱스를 비코딩 RNA 및 mRNA에 첨가하도록 주형-스위칭의 사용에 사용된다. 대안적으로, 제1 프라이머 및/또는 주형-스위치 프라이머는 인덱스 대신에 보편적 서열을 포함할 수 있고, 인덱스는 결찰, 프라이머 연장 또는 증폭의 후속하는 단계에 의해 첨가된다. 인덱싱된 핵산 단편은 합성된 가닥에서 특정한 구획을 나타내는 인덱스 서열을 포함할 수 있고 통상적으로 포함한다. 다른 실시형태는 RNA 또는 전장 RNA 프로파일링의 5' 또는 3' 프로파일링을 포함한다.

다른 방법은 핵산 단편에 대한 인덱스의 첨가에 사용될 수 있고, 인덱스가 어떻게 첨가되는지는 제한인 것으로 의도되지 않는다. 예를 들어, 일 실시형태에서 인덱스 서열의 도입은 핵산 단편의 단부의 하나 또는 둘 다에 대한 프라이머의 결찰을 포함한다. 결찰 프라이머의 결찰은 핵산 단편의 단부에서 보편적 서열의 존재에 의해 보조될 수 있다. 프라이머의 비제한적인 예는 헤어핀 결찰 듀플렉스이다. 결찰 듀플렉스는 핵산 단편의 하나의 단부 또는 바람직하게 둘 다의 단부에 결찰될 수 있다. 일 실시형태에서, 프라이머, 예컨대, 헤어핀 결찰 듀플렉스는 선형 증폭 매개자에 의해 인식되는 뉴클레오타이드 서열을 함유할 수 있다. 이러한 뉴클레오타이드를 함유하는 헤어핀 어댑터의 예는 실시예 1, 도 2에 기재되어 있다. 바코딩된 분자의 증폭 산물을 생성시키도록 그 분자의 2개의 단부의 하나에서 성공적인 결찰을 오직 요하는 증폭 매개자를 도입하는 실시예 1에 기재된 것과 같은 검정 계획은 이것이 주형 전환의 증가된 효율의 이점을 가지면서 바람직하다. 예를 들어, 단일 결찰 사건이 50% 효율을 가질 때, 이 변형은 25% 대신에 분자를 증폭시키는 결찰 단계에서 75% 성공율이 되게 한다(실시예 1, 도 2).

또 다른 실시형태에서, 인덱스 서열의 도입은 단일 가닥 핵산 단편의 사용 및 제2 DNA 가닥의 합성을 포함한다. 일 실시형태에서, 제2 DNA 가닥은 단일 가닥 핵산 단편의 말단에 존재하는 뉴클레오타이드에 상보성인 서열을 포함하는 프라이머를 사용하여 제조된다.

또 다른 실시형태에서, 인덱스의 도입은 스플릿 및 풀 바코딩의 1회차, 2회차, 3회차 이상에서 발생하여서, 단일, 이중, 삼중 또는 다수의 인덱싱된 단일 세포 라이브러리를 발생시킨다.

또 다른 실시형태에서, 증폭 매개자에 의해 사용될 수 있는 인덱스 및 뉴클레오타이드 서열의 도입은 일방향으로 설계되어서, 표적화된 단일 세포 서열분석 라이브러리가 제조되게 한다(실시예 1, 도 3b 참조).

핵산 단편의 선형 증폭

본 명세서에 제공된 방법은 핵산 단편의 선형 증폭을 포함한다. 대부분의 증폭 방법을 PCR 기반이고, 이에 따라 지수 증폭 편향을 겪는다. 본 명세서에 사용된 바와 같은 선형 증폭은 지수 증폭 편향을 감소하거나 제거하여서, 더 양호한 통일성 및 감소된 서열 오류를 발생시킬 수 있다. 전장 게놈 증폭을 이용하는 모든 단일 세포 게놈 방법에서, 증폭 산물은 구획(예를 들어, 웰 또는 드랍플렛)에 의해 함유되고, 직접적으로 또는 간접적으로 바코드는 증폭된 산물에 부착된다. 그러므로, 오직 단일 세포는 구획마다 존재하여서 처리량을 제한하고 비용을 증가시킨다. 본 발명의 고유한 양상은 다수의 단일 세포 라이브러리가 단일 구획에서 지수 증폭 편향 없이 증폭될 수 있다는 것이다. 단일 세포로부터의 라이브러리는 각각의 고유한 단일 세포에 대해 고유한 바코드 또는 바코드들에 기초하여 배정될 수 있다.

일 실시형태에서, 선형 증폭은 핵산 단편의 단부의 하나 또는 둘 다에 파지 촉진자를 첨가함으로써 달성된다. 핵산 단편의 상류에 배치될 때, 파지 촉진자는 단일 가닥 RNA를 생성하는 시험관내 전사에 의해 상응하는 파지 RNA 중합효소를 사용하여 전사를 추진하도록 사용될 수 있다. DNA 주형으로부터 생성된 RNA 카피는 추가의 증폭에 대한 주형으로서 작용할 수 없고; 따라서, 모든 카피는 원래의 DNA 주형으로부터 직접 유래하고, 지수 증폭은 회피된다. 일 실시형태에서, 후속하는 단계는 단일 가닥 DNA를 얻기 위한 RNA 카피의 역전사, 및 이어서 단일 가닥 DNA 카피를 이중 가닥 분자로 전환시키기 위한 제2 가닥 합성을 포함할 수 있다. 제2 가닥 합성은 통상적으로 프라이머의 사용을 요하고, 이 프라이머는 인덱스, 보편적 서열, 및/ 또는 보편적 분자 식별자 중 하나 이상을 도입하도록 사용될 수 있다.

선형 증폭의 다른 방법을 사용할 수 있다. 예를 들어, PCR 증폭은 1개의 프라이머 또는 2개의 프라이머(하나는 과량임)와 사용될 수 있다. 몇몇 실시형태에서 선형 PCR은 트랜스포슨 삽입 부위에 인접한 플랭킹 서열의 증폭에 사용될 수 있다(Xianbo et al. AMB Express, 2017, 7:195). 연결된 선형 증폭(Reyes et al., Clin. Chem., 2001, 47(1):31-40), 선형 연장 및 선형 연장 및 결찰, 가닥 대체 증폭(SDA)(Walker et al., Nucl. Acids Res., 1992, 20(7): 1691-1696), 및 회전 환 증폭(Ali et al., Chem. Soc. Rev., 2014, 43:3324-3341)은 또한 몇몇 실시형태에서 사용될 수 있다. 몇몇 실시형태에서 인덱스, 보편적 서열, 및/또는 고유한 분자 식별자는 선형 증폭 동안 핵산 단편에 첨가될 수 있다.

통상적으로, 선형 증폭은 단리된 핵 또는 세포에 선형 증폭 매개자를 도입하는 것을 포함한다. 선형 증폭 매개자의 예는 핵산 단편이 파지 촉진자를 포함할 때 RNA 중합효소, 예컨대, T7 촉진자와 사용하기 위한 T7 RNA 중합효소, 및 선형 증폭 프라이머를 포함한다. 선형 증폭 프라이머의 예는 증폭의 PCR 유형에서 사용하기 위한 단일 프라이머 또는 선형 증폭 매개자를 포함한다. 증폭 매개자의 다른 실시형태는 뉴클레오타이드 서열을 인식하는 가닥 대체 중합효소이다. 매개자는 복제를 개시하기 위한 닉킹 부위를 함유할 수 있다. 몇몇 경우에, 닉킹 부위는 추가 증폭을 위해 재생된다. 매개자는 고유한 바코드 또는 프라이머를 함유할 수 있어서 증폭 산물의 증폭 또는 표지화 동안 바코드가 카피되게 한다.

부동화를 위한 보편적 서열의 첨가

일 실시형태에서, 처리 및/또는 인덱싱 단계 동안 뉴클레오타이드의 첨가는 단편을 부동화하고 서열분석하는 데 유용한 보편적 서열을 첨가한다. 또 다른 실시형태에서, 인덱싱된 핵산 단편은 핵산 단편을 부동화하고 서열분석하는 데 유용한 보편적 서열을 첨가하도록 추가로 처리될 수 있다. 당업자는 구획이 드랍플렛인 실시형태에서 핵산 단편을 부동화하기 위한 서열이 선택적이라는 것을 인식할 것이다. 일 실시형태에서, 단편을 부동화하고 서열분석하는 데 유용한 보편적 서열의 도입은 인덱싱된 핵산 단편의 5' 및 3' 단부에 동일한 보편적 어댑터('불일치된 어댑터'라고도 칭함, 이의 일반적인 특징은 Gormley 등의 US 제7,741,463호 및 Bignell 등의 US 제8,053,192호에 기재됨)를 결찰하는 것을 포함한다. 일 실시형태에서, 보편적 어댑터는 어레이 상에서의 인덱싱된 핵산 단편의 부동화를 위한 서열을 포함하여 서열분석에 필요한 모든 서열을 포함한다.

일 실시형태에서, 무딘 단부 결찰을 사용할 수 있다. 또 다른 실시형태에서, 핵산 단편은 인덱싱된 핵산 단편의 3' 단부에, 예를 들어, DNA 중합효소의 소정의 유형, 예컨대, Taq 중합효소 또는 단일 데옥시뉴클레오타이드, 예를 들어, 데옥시아데노신(A)을 추가하는 비주형 의존적 말단 전환효소 활성을 갖는 Klenow 엑소 마이너스 중합효소의 활성에 의한 단일 오버행잉 뉴클레오타이드에 의해 제조된다. 몇몇 경우에, 오버행잉 뉴클레오타이드는 하나 초과의 염기이다. 이러한 효소는 핵산 단편의 각각의 가닥의 무딘 단부 3' 말단에 단일 뉴클레오타이드 'A'를 첨가하도록 사용될 수 있다. 따라서, 'A'는 Taq 또는 Klenow 엑소 마이너스 중합효소와의 반응에 의해 이중 가닥 표적 단편의 각각의 가닥의 3' 말단에 첨가될 수 있는 한편, 핵산 단편의 각각의 단부에 첨가되는 추가적인 서열은 추가되는 이중 가닥 핵산의 각각의 영역의 3' 말단에 존재하는 상용성 'T' 오버행을 포함할 수 있다. 이 단부 변형은 또한 핵산의 자기 결찰을 방지하여서, 이 실시형태에서 추가되는 서열에 의해 플랭킹된 인덱싱된 핵산 단편의 형성을 향한 편향이 있다.

또 다른 실시형태에서, 인덱싱된 핵산 단편에 결찰된 보편적 어댑터가 서열분석에 필요한 모든 서열을 포함하지 않을 때, 증폭 단계, 예컨대, PCR은 부동화 및 서열분석 전에 각각의 인덱싱된 핵산 단편에 존재하는 보편적 어댑터를 추가로 변형시키도록 사용될 수 있다. 예를 들어, 초기 프라이머 연장 반응은 인덱싱된 핵산 단편에 존재하는 보편적 서열에 상보성인 보편적 앵커 서열을 사용하여 수행될 수 있고, 여기서 연장 각각의 개별 인덱싱된 핵산 단편의 가닥 둘 다에 상보성인 산물이 형성된다. 통상적으로, PCR은 추가 보편적 서열, 예컨대, 보편적 포획 서열을 첨가한다.

보편적 어댑터가 첨가된 후, 서열분석에 필요한 모든 서열을 포함하는 보편적 어댑터의 결찰의 단일 단계 방법에 의해, 또는 보편적 어댑터의 결찰 및 이어서 보편적 어댑터를 추가로 변형시키기 위한 증폭의 2-단계 방법에 의해, 최종 인덱스 단편은 보편적 포획 서열 및 앵커 서열을 포함할 것이다. 각각의 단부에 보편적 어댑터를 첨가하는 것의 결과는 인덱싱된 핵산 단편의 복수 또는 라이브러리이다.

생성된 인덱싱된 핵산 단편은 총체적으로 부동화되고 이어서 서열분석될 수 있는 핵산의 라이브러리를 제공한다. 본 명세서에서 서열분석 라이브러리라고도 불리는 용어 라이브러리는 이의 3' 및 5' 단부에서 공지된 보편적 서열을 함유하는 단일 핵 또는 세포로부터의 핵산 단편의 집단을 지칭한다.

인덱싱된 핵산 단편은 미리 결정된 크기 범위, 예컨대, 150 내지 400개의 뉴클레오타이드 길이, 예컨대, 150 내지 300개의 뉴클레오타이드에 대해 선택한 조건으로 처리될 수 있다. 생성된 인덱싱된 핵산 단편은 풀링되고, 선택적으로 비도입된 보편적 어댑터 또는 프라이머의 적어도 일부를 제거함으로써 DNA 분자에 대한 순도를 증대시키도록 클린-업 공정으로 처리될 수 있다. 임의의 적합한 클린-업 공정, 예컨대, 전기영동, 크기 배제 크로마토그래피 등을 사용할 수 있다. 몇몇 실시형태에서, 비부착된 보편적 어댑터 또는 프라이머로부터 원하는 DNA 분자를 분리하고, 크기에 기초하여 핵산을 선택하도록 고상 가역적 부동화 상자성 비드를 사용할 수 있다. 고상 가역적 부동화 상자성 비드는 Beckman Coulter(Agencourt AMPure XP), Thermofisher(MagJet), Omega Biotek(Mag-Bind), Promega Beads(Promega) 및 Kapa Biosystems(Kapa Pure Beads)로부터 상업적으로 이용 가능하다.

본 개시내용의 비제한적인 예시적인 실시형태는 도 2에 도시되어 있고, 실시예 1에 기재되어 있다. 이 실시형태에서, 상기 방법은 복수의 세포로부터 단리된 핵을 제공하는 단계를 포함한다(도 2, 블록 22). 단리된 핵은 뉴클레오솜 비함유일 수 있거나, 뉴클레오솜의 핵을 고갈시키는 조건으로 처리될 수 있어서 뉴클레오솜 고갈된 핵을 생성한다(도 2, 블록 23).

이 실시형태에서, 상기 방법은 뉴클레오솜 고갈된 핵의 하위집단을 제1 복수의 구획으로 분포시키는 단계를 포함한다(도 2, 블록 24). 제1 분포 단계에서의 구획의 수(도 2, 블록 24)는 사용된 포맷에 따라 달라질 수 있다. 일 실시형태에서, 구획의 수는 24개이다.

각각의 구획은 트랜스포솜 복합체를 포함한다. 트랜스포솜 복합체는 핵의 하위집단이 구획에 첨가되기 전에, 첨가된 후에 또는 첨가와 동시에 각각의 구획에 첨가될 수 있다. 트랜스포솜 복합체는 적어도 하나의 인덱스 서열 및 적어도 하나의 보편적 서열을 포함한다. 트랜스포솜 복합체의 일부로서 존재하는 보편적 서열은 스페이서 서열이라 칭해질 수 있다. 스페이서 서열은 트랜스포슨 서열의 일부로서 존재한다. 일 실시형태에서, 스페이서 서열은 이동된 가닥, 표적 핵산으로 이동된 트랜스포사제 인식 부위의 가닥에 존재할 수 있다. 스페이서 서열은 상보성 서열과 어닐링하기 위한 부위로서 유용하다. 예를 들어, 스페이서 서열은 보편적 프라이머 또는 보편적 프라이머의 보체일 수 있다. 트랜스포솜 복합체의 스페이서 서열은 각각의 구획에 대해 동일할 수 있다. 일 실시형태에서, 인덱스("bc1") 및 스페이서("sp1")는 실시예 1의 도 4A에 도시된 배향으로 배열된 오버행에 존재한다.

상기 방법은 또한 인덱싱된 핵을 생성하는 단계를 포함한다(도 2, 블록 25). 일 실시형태에서, 인덱싱된 핵을 생성하는 단계는 뉴클레오솜 고갈된 핵의 하위집단에 존재하는 핵산(예를 들어, 각각의 구획에 존재하는 핵산)을 복수의 핵산 단편으로 처리하는 단계를 포함한다. 일 실시형태에서, 핵산이 단편화된 후, 트랜스포사제는 핵산 단편에 부착된 채 있어서, 동일한 게놈 DNA 분자로부터 유래된 핵산 단편은 물리적으로 연결된 채 있는다(Adey et al., 2014, Genome Res., 24:2041-2049). 단편화의 결과는 인덱싱된 핵의 집단이고, 여기서 각각의 핵은 인덱싱된 핵산 단편을 함유한다. 트랜스포솜 복합체의 인덱스 서열은 각각의 구획에 상이하고, 따라서, 인덱싱된 핵산 단편은 적어도 하나의 가닥에서 특정한 구획을 나타내는 인덱스 서열을 포함할 수 있고 통상적으로 포함한다. 인덱싱된 핵산 단편의 예는 실시예 1의 도 4A의 박스 부분에 도시된다.

복수의 구획으로부터의 인덱싱된 핵은 조합될 수 있다(도 2, 블록 26). 이 조합된 인덱싱된 핵의 하위집단은 이후 제2 복수의 구획으로 분포된다. 하위집단에 그리고 그 대신에 각각의 구획에 존재하는 핵의 수는 부분적으로, 상기 방법의 이 단계에서 동일한 구획에서 끝나는 동일한 트랜스포사제 인덱스를 갖는 2개의 핵의 존재인, 인덱스 충돌을 감소시키기 위한 요망에 기초한다. 일 실시형태에서, 각각의 하위집단에 존재하는 핵의 수는 대략 동일하다.

하위집단으로의 핵의 분포는 이중 인덱스 단편을 생성하도록 각각의 구획에서 인덱싱된 핵산 단편으로 제2 인덱스 서열을 도입하는 것이 후행한다. 이는 인덱싱된 핵산 단편의 추가의 인덱싱을 발생시킨다(도 2, 블록 27). 세포가 가교결합제에 의해 가교결합된 이 실시형태에서, 인덱싱된 핵산 단편에 부착된 트랜스포사제는 인덱싱된 핵산 단편으로부터 분해될 수 있다. 세제는 트랜스포사제를 해리시키도록 사용될 수 있고, 일 실시형태에서 세제는 황산 도데실 나트륨(SDS)이다.

일 실시형태에서, 제2 인덱스 서열의 도입은 각각의 구획에서 인덱싱된 핵산 단편에 헤어핀 결찰 듀플렉스를 결찰하는 것을 포함한다. 결찰 듀플렉스는 이중 인덱싱된 핵산 단편의 하나의 단부 또는 바람직하게 단부 둘 다에 결찰될 수 있다. 일 실시형태에서, 결찰 듀플렉스 5개의 요소를 포함한다: 1) 본 명세서에 기재된 결찰 단계에서 "랜딩 패드"로서 작용하는 제1 스페이서 서열의 역보체(예를 들어, 실시예 1의 도 4B에서의 "sp1"); 2) 2회차의 바코드의 역보체; 3) 제2 가닥 합성(SSS) 프라이머의 역보체; 4) 바람직하게 헤어핀의 루프 영역인 T7 촉진자; 5) T7 전사를 증대시키기 위해 GGG로 시작하는 제2 가닥 합성(SSS) 프라이머 영역(실시예 1의 도 4B에서의 제2 스페이서 서열, "sp2"); 및 6) 제2 인덱스 서열의 2회차 바코드(실시예 1의 도 4B에서의 "bc2"). 제2 인덱스 서열은 제1 인덱스가 태그먼테이션에 의해 첨가된 후 분포된 인덱싱된 핵이 배치된 각각의 구획에 고유하다(도 2, 블록 27).

복수의 구획으로부터의 인덱싱된 핵은 조합될 수 있다(도 2, 블록 28). 이들 조합된 인덱싱된 핵의 하위집단은 이후 제3 복수의 구획으로 분포된다. 하위집단에 및 그 대신에 각각의 구획에 존재하는 핵의 수는 부분적으로, 상기 방법의 이 단계에서 동일한 구획에서 끝나는 동일한 트랜스포사제 인덱스를 갖는 2개의 핵의 존재인, 인덱스 충돌을 감소시키기 위한 요망에 기초한다. 일 실시형태에서, 100개 내지 300개의 세포는 각각의 웰으로 분포된다. 일 실시형태에서, 300개 이하의 세포는 각각의 웰로 분포된다. 일 실시형태에서, 각각의 하위집단에 존재하는 핵의 수는 대략 동일하다.

하위집단으로의 이중 인덱싱된 핵의 분포는 용해 및 추가의 조작이 후행한다(도 2, 블록 29). 핵의 용해를 위한 방법은 당업자에게 공지되어 있고 일상적이다. 추가의 조작은 갭 연장, 시험관내 전사(IVT) 및 역전사를 포함하지만, 이것으로 제한되지는 않는다.

갭 연장은 헤어핀 T7 촉진자 구조를 듀플렉스로 전환시킨다(실시예 1의 도 4C). 가닥 대체 활성을 갖는 중합효소는 통상적으로 갭 연장에 사용된다. 이 활성을 갖는 중합효소, 예를 들어, Bst 중합효소가 이용 가능하다.

IVT는 T7 촉진자의 하류에 선형 증폭된 단일 가닥 RNA 분자를 생성한다(실시예 1의 도 4D). IVT에 대한 방법은 공지되어 있고 일상적이다.

역전사는 2개의 경로 중 하나에 의해 발생할 수 있다(실시예 1의 도 4E). 본 명세서에 기재된 결찰 반응은 핵산 단편의 2개의 유형을 발생시킨다: 단부 둘 다에서 결찰 듀플렉스를 갖는 핵산 단편 및 일 단부에서 결찰 듀플렉스를 갖는 핵산 단편. 결찰이 단부 둘 다에서 성공적인 경우, 역전사는 루핑된 결찰 듀플렉스로부터 이어받은 자가 루핑된 역전사 프라이머에 의해 프라이밍될 수 있고; 결찰이 오직 하나의 단부에서 성공적인 경우, 역전사는 과량으로 첨가되는 추가 RNA 역전사 프라이머에 의해 프라이밍된다.

핵의 용해 및 핵산 단편의 처리는 삼중 인덱싱된 단편을 생성하도록 제3 인덱스 서열을 각각의 구획에서 이중 인덱싱된 핵산 단편을 도입하는 것이 후행하고, 여기서 각각의 구획에서의 제3 인덱스 서열은 다른 구획에서의 제1 인덱스 및 제2 인덱스 서열과 다르고, 각각의 구획에서의 제3 인덱스 서열은 다른 구획에서의 제3 인덱스 서열과 다르다. 이것은 부동화 및 서열분석 전에 인덱싱된 핵산 단편의 추가의 인덱싱(도 2, 블록 30; 실시예 1의 도 4F)을 발생시킨다. 제3 인덱스는 제2 DNA 가닥의 합성에 의해 도입될 수 있다. 일 실시형태에서, 제2 DNA 가닥은 이중 인덱싱된 핵산 단편의 단부에 존재하는 뉴클레오타이드에 상보성인 서열을 포함하는 프라이머를 사용하여 제조된다. 예를 들어, 프라이머는 제2 스페이서 서열의 역보체와 어닐링하는 제2 스페이서 서열(sp2)을 포함할 수 있다(실시예 1의 도 4F). 프라이머는 제3 인덱스(실시예 1의 도 4F에서의 "bc3") 및 다른 고유한 분자 식별자(UMI)를 추가로 포함한다. 생성된 이중 가닥 DNA는 일상적 방법을 이용하여 정제될 수 있다.

복수의 삼중 인덱싱된 단편은 서열분석을 위해 준비될 수 있다. 삼중 인덱싱된 단편이 풀링된 후, 이들은 서열분석 전에 통상적으로 부동화 및/또는 증폭에 의해 농후화된다(도 2, 블록 31).

서열분석을 위한 부동화된 샘플의 준비

복수의 인덱싱된 단편은 서열분석을 위해 준비될 수 있다. 예를 들어, 삼중 인덱싱된 단편의 라이브러리가 제조되는 이 실시형태에서, 삼중 인덱싱된 단편은 서열분석 전에 통상적으로 부동화 및/또는 증폭에 의해 농후화된다(도 2, 블록 21). 하나 이상의 공급원으로부터의 인덱싱된 단편을 기질에 부착시키는 방법은 당해 분야에 공지되어 있다. 일 실시형태에서, 인덱싱된 단편은 인덱싱된 단편에 대해 특이성을 갖는 복수의 포획 올리고뉴클레오타이드를 사용하여 농후화되고, 포획 올리고뉴클레오타이드는 고체 기질의 표면에서 부동화될 수 있다. 예를 들어, 포획 올리고뉴클레오타이드는 보편적 결합 쌍의 제1 구성원을 포함할 수 있고, 결합 쌍의 제2 구성원은 고체 기질의 표면에 부동화된다. 마찬가지로, 부동화된 이중 인덱싱된 단편을 증폭하기 위한 방법은 브리지 증폭 및 키네틱 배제를 포함하지만, 이들로 제한되지는 않는다. 서열분석 전에 부동화하고 증폭하기 위한 방법은, 예를 들어, Bignell 등(US 제8,053,192호), Gunderson 등(WO 제2016/130704호), Shen 등(US 제8,895,249호) 및 Pipenburg 등(US 제9,309,502호)에 기재되어 있다.

풀링된 샘플은 서열분석에 대한 준비에서 부동화될 수 있다. 서열분석은 단일 분자의 어레이로서 수행될 수 있거나, 서열분석 전에 증폭될 수 있다. 증폭은 하나 이상의 부동화된 프라이머를 사용하여 수행될 수 있다. 부동화된 프라이머(들)는, 예를 들어, 평면 표면 또는 비드의 풀에 뿌려질 수 있다. 비드의 풀은 에멀션의 각각의 "구획"에서 단일 비드와의 에멀션으로 단리될 수 있다. "구획"마다 오직 하나의 주형의 농도에서, 오직 단일 주형은 각각의 비드에서 증폭된다.

용어 "고상 증폭"은 본 명세서에 사용된 바대로 증폭된 산물의 전부 또는 일부가 이들이 형성되면서 고체 지지체에 부동화되도록 고체 지지체에서 수행되거나 이와 연관된 임의의 핵산 증폭 반응을 지칭한다. 특히, 상기 용어는, 정방향 및 역방향 증폭 프라이머의 하나 또는 둘 다가 고체 지지체 상에 부동화된다는 것을 제외하고는, 표준 액상 증폭과 유사한 반응인 고상 중합효소 사슬 반응(고상 PCR) 및 고상 등온 증폭을 포함한다. 고상 PCR은 하나의 프라이머가 비드에 앵커링되고 다른 것이 유리 용액 중에 있는 에멀션 및 하나의 프라이머가 표면에 앵커링되고 하나가 유리 용액 중에 있는 고상 겔 매트릭스 중의 콜로니 형성과 같은 시스템을 다룬다.

몇몇 실시형태에서, 고체 지지체는 패턴화된 표면을 포함한다. "패턴화된 표면"은 고체 지지체에서의 또는 이의 노출된 층에서의 상이한 영역의 배열을 지칭한다. 예를 들어, 영역의 하나 이상은 하나 이상의 증폭 프라이머가 존재하는 특징일 수 있다. 특징은 증폭 프라이머가 존재하지 않는 간질성 영역에 의해 분리될 수 있다. 몇몇 실시형태에서, 패턴은 열 및 행으로 있는 특징의 x-y 포맷일 수 있다. 몇몇 실시형태에서, 패턴은 특징의 반복 배열 및/또는 간질성 영역일 수 있다. 몇몇 실시형태에서, 패턴은 특징의 무작위 배열 및/또는 간질성 영역일 수 있다. 본 명세서에 기재된 방법 및 조성물에서 사용될 수 있는 예시적인 패턴화된 표면은 미국 특허 제8,778,848호, 제8,778,849호 및 제9,079,148호 및 US 공보 제2014/0243224호에 기재되어 있다.

몇몇 실시형태에서, 고체 지지체는 표면에서 웰 또는 오목부의 어레이를 포함한다. 이는 포토리쏘그래피, 스탬핑 기법, 몰딩 기법 및 마이크로에칭 기법(이들로 제한되지는 않음)을 포함하는 다양한 기법을 이용하여 당해 분야에 일반적으로 공지된 바대로 제작될 수 있다. 당업자에 의해 이해되는 것처럼, 이용된 기법은 어레이 기질의 조성 및 형상에 따라 달라질 것이다.

패턴화된 표면에서의 특징부는 패턴화된 공유 연결된 겔, 예컨대, 폴리(N-(5-아지도아세트아미딜펜틸)아크릴아마이드-코-아크릴아마이드)를 갖는 유리, 실리콘, 플라스틱 또는 다른 적합한 고체 지지체 상의 웰의 어레이에서의 웰(예를 들어, 마이크로웰 또는 나노웰)일 수 있다(PAZAM, 예를 들어, 미국 공보 제2013/184796호, WO 제2016/066586호 및 WO 제2015/002813호 참조). 공정은 많은 수의 사이클로 서열분석 실행에 걸쳐 안정할 수 있는 서열분석에 사용되는 겔 패드를 생성한다. 웰에 대한 중합체의 공유 연결은 다양한 사용 동안 구조화된 기질의 수명에 걸쳐 구조화된 특징부에서 겔을 유지시키는 데 도움이 된다. 그러나, 많은 실시형태에서, 겔은 웰에 공유 연결될 필요는 없다. 예를 들어, 몇몇 조건에서 구조화된 기질의 임의의 부분에 공유 부착되지 않은 실란 유리 아크릴아마이드(SFA, 예를 들어, 미국 특허 제8,563,477호 참조)는 겔 재료로서 사용될 수 있다.

특정한 실시형태에서, 구조화된 기질은 웰(예를 들어, 마이크로웰 또는 나노웰)을 갖는 고체 지지체 재료를 패턴화하고, 패턴화된 지지체를 겔 재료(예를 들어, PAZAM, SFA 또는 이의 화학 변형된 변이체, 예컨대, SFA의 아지도화 버전(아지도-SFA))에 의해 코팅하고, 예를 들어, 화학적 또는 기계적 연마를 통해 겔 코팅된 지지체를 연마하여서, 웰에서 겔을 보유하지만 웰 사이의 구조화된 기질의 표면에서 간질성 영역으로부터 실질적으로 모든 겔을 제거하고 불활성화함으로써 제조될 수 있다. 프라이머 핵산은 겔 재료에 부착될 수 있다. 인덱싱된 단편의 용액은 이후 연마된 기질과 접촉할 수 있어서, 개별 인덱싱된 단편은 겔 재료에 부착된 프라이머와의 상호작용을 통해 개별 웰을 시딩할 것이지만; 표적 핵산은 겔 재료의 부재 또는 불활성으로 인해 간질성 영역을 점유하지 않을 것이다. 간질성 영역에서의 겔의 부재 또는 불활성이 성장하는 핵산 콜로니의 외부로의 이동을 방지하므로, 인덱싱된 단편의 증폭은 웰로 구속될 것이다. 공정은 편리하게 제조될 수 있고, 규모확대 가능하고, 관습적인 마이크로제작 또는 나노제작 방법을 이용한다.

본 개시내용이 오직 하나의 증폭 프라이머가 부동화된(보통 유리 용액에 존재하는 다른 프라이머) "고상" 증폭 방법을 포함하지만, 일 실시형태에서 고체 지지체에 부동화된 정방향 및 역방향 프라이머 둘 다가 제공되는 것이 바람직하다. 실제로, 증폭을 지속시키도록 증폭 과정이 과량의 프라이머를 요하므로 고체 지지체에서 부동화된 '복수의' 동일한 정방향 프라이머 및/또는 '복수의' 동일한 역방향 프라이머가 있을 것이다. 본 명세서에서 정방향 및 역방향 프라이머의 언급은, 문맥이 달리 나타내지 않는 한, 따라서 '복수의' 이러한 프라이머를 포함하는 것으로 해석되어야 한다.

숙련된 독자에 의해 이해되는 것처럼, 임의의 주어진 증폭 반응은 증폭되는 주형에 특이적인 정방향 프라이머의 적어도 하나의 유형 및 역방향 프라이머의 적어도 하나의 유형을 요한다. 그러나, 소정의 실시형태에서 정방향 및 역방향 프라이머는 동일한 서열의 주형 특이적 부분을 포함할 수 있고, 전부 동일한 뉴클레오타이드 서열 및 구조(임의의 비-뉴클레오타이드 변형 포함)를 가질 수 있다. 다른 말로, 프라이머의 오직 하나의 유형을 사용하여 고상 증폭을 수행할 수 있고, 이러한 단일 프라이머 방법은 본 개시내용의 범주 내에 포함된다. 다른 실시형태는 동일한 주형 특이적 서열을 함유하지만 몇몇 다른 구조 특징에서 다른 정방향 및 역방향 프라이머를 사용할 수 있다. 예를 들어, 프라이머의 하나의 유형은 다른 것에 존재하지 않는 비뉴클레오타이드 변형을 함유할 수 있다.

본 개시내용의 모든 실시형태에서, 고상 증폭을 위한 프라이머는 바람직하게는 프라이머의 5' 단부에서 또는 근처에서 고체 지지체에 대한 단일 점 공유 부착에 의해 부동화되어서, 이의 동족 주형에 어닐링하기에 자유로운 프라이머의 주형 특이적 부분 및 프라이머 연장에 자유로운 3' 하이드록실기가 남는다. 당해 분야에 공지된 임의의 적합한 공유 부착 수단은 이 목적에 선택될 수 있다. 선택된 부착 화학은 고체 지지체의 성질, 및 이것에 적용되는 임의의 유도체화 또는 기능화에 따라 달라질 것이다. 프라이머 자체는 부착을 수월하게 하도록 비뉴클레오타이드 화학 변형일 수 있는 모이어티를 포함할 수 있다. 특정한 실시형태에서, 프라이머는 5' 단부에서 황 함유 친핵체, 예컨대, 포스포로티오에이트 또는 티오포스페이트를 포함할 수 있다. 고체 지지된 폴리아크릴아마이드 하이드로겔의 경우에, 이 친핵체는 하이드로겔에 존재하는 브로모아세트아마이드기에 부착할 것이다. 프라이머 및 주형을 고체 지지체에 부착하기 위한 더 특정한 수단은 WO 제05/065814호에 기재된 바대로 중합된 아크릴아마이드 및 N-(5-브로모아세트아미딜펜틸) 아크릴아마이드(BRAPA)로 이루어진 하이드로겔에 대한 5' 포스포로티오에이트 부착을 통해서이다.

본 개시내용의 소정의 실시형태는, 예를 들어, 생물분자, 예컨대, 폴리뉴클레오타이드에 대한 공유 부착을 허용하는 반응성 기를 포함하는 중간체 재료의 층 또는 코팅에 의해 "기능화"된 불활성 기질 또는 매트릭스(예를 들어, 유리 슬라이드, 중합체 비드 등)를 포함하는 고체 지지체를 사용할 수 있다. 이러한 지지체의 예는 불활성 기질, 예컨대, 유리에 지지된 폴리아크릴아마이드 하이드로겔을 포함하지만, 이들로 제한되지는 않는다. 이러한 실시형태에서, 생물분자(예를 들어, 폴리뉴클레오타이드)는 중간체 재료(예를 들어, 하이드로겔)에 직접 공유 부착될 수 있지만, 중간체 재료는 자체가 기질 또는 매트릭스(예를 들어, 유리 기질)에 비공유로 부착될 수 있다. 용어 "고체 지지체에 대한 공유 부착"은 따라서 이 유형의 배열을 포함하는 것으로 해석되어야 한다.

풀링된 샘플은 비드에서 증폭될 수 있고, 여기서 각각의 비드는 정방향 및 역방향 증폭 프라이머를 함유한다. 특정한 실시형태에서, 인덱싱된 단편의 라이브러리는 고상 증폭 및 더 특히 고상 등온 증폭에 의해 미국 공보 제2005/0100900호, 미국 특허 제7,115,400호, WO 제00/18957호 및 WO 제98/44151호에 기재된 것과 유사한 핵산 콜로니의 클러스터링된 어레이를 제조하도록 사용된다. 용어 '클러스터' 및 '콜로니'는 복수의 동일한 부동화된 핵산 가닥 및 복수의 동일한 부동화된 상보성 핵산 가닥을 포함하는 고체 지지체에서의 별개의 부위를 지칭하도록 본 명세서에서 상호 호환되어 사용된다. 용어 "클러스터링된 어레이"는 이러한 클러스터 또는 콜로니로부터 형성된 어레이를 지칭한다. 이 맥락에서, 용어 "어레이"는 클러스터의 순서화된 배열을 요하는 것으로 해석되지 않아야 한다.

용어 "고상" 또는 "표면"은 프라이머가 편평한 표면, 예를 들어, 유리, 실리카 또는 플라스틱 현미경 슬라이드에 부착된 평면 어레이 또는 유사한 유세포 장치; 비드(여기서 1개 또는 2개의 프라이머는 비드에 부착되고 비드는 증폭됨); 또는 비드가 증폭된 후 표면에서의 비드의 어레이를 의미하도록 사용된다.

클러스터링된 어레이는 WO 제98/44151호에 기재된 바와 같은 써멀사이클링의 공정, 또는 온도가 일정하게 유지되고, 연장 및 변성의 사이클이 시약의 변화를 사용하여 수행되는 공정을 사용하여 제조될 수 있다. 이러한 등온 증폭 방법은 특허 출원 번호 WO 제02/46456호 및 미국 공보 제2008/0009420호에 기재되어 있다. 등온 공정에서 유용한 더 낮은 온도로 인해, 이것은 몇몇 실시형태에서 특히 바람직하다.

본 명세서에 기재되거나 당해 분야에 일반적으로 공지된 임의의 증폭 방법론이 부동화된 DNA 단편을 증폭시키도록 보편적 또는 표적 특이적 프라이머와 사용될 수 있다고 이해될 것이다. 증폭에 적합한 방법은 미국 특허 제8,003,354호에 기재된 바대로 중합효소 사슬 반응(PCR), 가닥 대체 증폭(SDA), 전사 매개된 증폭(TMA) 및 핵산 서열 기반 증폭(NASBA)을 포함하지만, 이들로 제한되지는 않는다. 관심 대상의 하나 이상의 핵산을 증폭시키도록 상기 증폭 방법을 이용할 수 있다. 예를 들어, 부동화된 DNA 단편을 증폭시키도록 멀티플렉스 PCR, SDA, TMA, NASBA 등을 포함하는 PCR을 이용할 수 있다. 몇몇 실시형태에서, 관심 대상의 폴리뉴클레오타이드에 특이적으로 지향된 프라이머는 증폭 반응에 포함된다.

폴리뉴클레오타이드의 증폭을 위한 다른 적합한 방법은 올리고뉴클레오타이드 연장 및 결찰, 회전 환 증폭(RCA)(Lizardi et al., Nat. Genet. 19:225-232 (1998)) 및 올리고뉴클레오타이드 결찰 검정(OLA)(일반적으로 미국 특허 제7,582,420호, 제5,185,243호, 제5,679,524호 및 제5,573,907호; EP 0 320 308 B1; EP 0 336 731 B1; EP 0 439 182 B1; WO 제90/01069호; WO 제89/12696호; 및 WO 제89/09835호 참조) 기술을 포함할 수 있다. 부동화된 DNA 단편을 증폭시키도록 이들 증폭 방법론이 설계될 수 있다는 것이 이해될 것이다. 예를 들어, 몇몇 실시형태에서, 증폭 방법은, 관심 대상의 핵산에 특이적으로 지향된 프라이머를 함유하는, 결찰 프로브 증폭 또는 올리고뉴클레오타이드 결찰 검정(OLA)을 포함할 수 있다. 몇몇 실시형태에서, 증폭 방법은, 관심 대상의 핵산에 특이적으로 지향된 프라이머를 함유하는, 프라이머 연장-결찰 반응을 포함할 수 있다. 관심 대상의 핵산을 증폭시키도록 특별하게 설계될 수 있는 프라이머 연장 및 결찰 프라이머의 비제한적인 예로서, 미국 특허 제7,582,420호 및 제7,611,869호에 예시된 것처럼 증폭은 GoldenGate 검정(Illumina, Inc. (캘리포니아주 샌 디에고))에 사용된 프라이머를 포함할 수 있다.

DNA 나노볼은 본 명세서에 기재된 바와 같은 방법 및 조성물과 조합되어 또한 사용될 수 있다. 게놈 서열분석을 위해 DNA 나노볼을 생성하고 사용하는 방법은, 예를 들어, 미국 특허 및 공보 미국 특허 제7,910,354호, 제2009/0264299호, 제2009/0011943호, 제2009/0005252호, 제2009/0155781호, 제2009/0118488에서 발견되고, 예를 들어, 문헌[Drmanac et al., 2010, Science 327(5961): 78-81]에 기재된 바와 같을 수 있다. 간단히, 게놈 라이브러리 DNA 단편화 이후에 어댑터는 단편에 결찰되고, 어댑터 결찰된 단편은 서클 리가제에 의한 결찰에 의해 원형화되고, 회전 환 증폭이 수행된다(문헌[Lizardi et al., 1998. Nat. Genet. 19:225-232] 및 US 제2007/0099208호 A1에 기재된 바대로). 앰플리콘의 연장된 연쇄체 구조는 코일링을 촉진하여서 컴팩트 DNA 나노볼을 생성한다. 각각의 나노볼 사이의 거리가 유지되어서 별개의 DNA 나노볼의 서열분석을 허용하도록, 바람직하게는 순서화된 또는 패턴화된 어레이를 생성하도록 DNA 나노볼은 기질에 포획될 수 있다. Complete Genomics(캘리포니아주 마운틴 뷰)에 의해 사용된 것과 같은 몇몇 실시형태에서, 어댑터 서열에 의해 분리된 몇몇 게놈 DNA 단편을 갖는 머리 꼬리 작제물을 제조하기 위해 원형화 전에 어댑터 결찰, 증폭 및 소화의 연속 회차가 수행된다.

본 개시내용의 방법에서 사용될 수 있는 예시적인 등온 증폭 방법은, 예를 들어, 문헌[Dean et al., Proc. Natl. Acad. Sci. USA 99:5261-66 (2002)]에 예시된 바와 같은 다중 대체 증폭(MDA) 또는, 예를 들어, 미국 특허 제6,214,587호에 예시된 등온 가닥 대체 핵산 증폭을 포함하지만, 이들로 제한되지는 않는다. 본 개시내용에서 사용될 수 있는 다른 비-PCR 기반 방법은, 예를 들어, 문헌[Walker et al., Molecular Methods for Virus Detection, Academic Press, Inc., 1995]; 미국 특허 제5,455,166호 및 제5,130,238호, 및 문헌[Walker et al., Nucl. Acids Res. 20:1691-96 (1992)]에 기재된 가닥 대체 증폭(SDA) 또는, 예를 들어, 문헌[Lage et al., Genome Res. 13:294-307 (2003)]에 기재된 과분지된 가닥 대체 증폭을 예를 들어 포함한다. 등온 증폭 방법은 게놈 DNA의 무작위 프라이머 증폭에 대해, 예를 들어, 가닥 대체 Phi 29 중합효소 또는 Bst DNA 중합효소 큰 단편, 5'->3' 엑소-와 사용될 수 있다. 이들 중합효소의 사용은 이의 높은 진행도(Processivity) 및 가닥 대체 활성의 이점을 취한다. 높은 진행도는 중합효소가 10 내지 20kb 길이인 단편을 생성하게 한다. 상기 기재된 바대로, 낮은 진행도 및 가닥 대체 활성을 갖는 중합효소, 예컨대, Klenow 중합효소를 사용하여 등온 조건 하에 더 작은 단편이 제조될 수 있다. 증폭 반응, 조건 및 성분의 추가 설명은 미국 특허 제7,670,810호의 개시내용에 자세히 기재되어 있다.

본 개시내용에서 유용한 또 다른 폴리뉴클레오타이드 증폭 방법은 Tagged PCR이고, 이것은, 예를 들어, 문헌[Grothues et al. Nucleic Acids Res. 21(5):1321-2 (1993)]에 기재된 바와 같은 불변 5' 영역, 이어서 무작위 3' 영역을 갖는 2-도메인 프라이머의 집단을 사용한다. 1회차의 증폭은 무작위로 합성된 3' 영역으로부터 개별 혼성화에 기초하여 열 변성 DNA에서 다수의 개시를 허용하도록 수행된다. 3' 영역의 성질로 인해, 개시의 부위는 게놈에 걸쳐 무작위인 것으로 생각된다. 이후, 비결합된 프라이머는 제거될 수 있고, 추가의 복제는 불변 5' 영역에 상보성인 프라이머를 사용하여 수행될 수 있다.

몇몇 실시형태에서, 등온 증폭은 배제 증폭(exclusion amplification: ExAmp)이라고도 칭하는 키네틱 배제 증폭(kinetic exclusion amplification: KEA)을 이용하여 수행될 수 있다. 본 개시내용의 핵산 라이브러리는 복수의 증폭 부위를 시딩한 개별 표적 핵산으로부터 앰플리콘의 실질적으로 클론성인 집단을 각각 포함하는 상기 부위를 제조하도록 증폭 시약을 반응시키는 단계를 포함하는 방법을 사용하여 제조될 수 있다. 몇몇 실시형태에서, 각각의 증폭 부위의 역량을 채우도록 충분한 수의 앰플리콘이 생성될 때까지 증폭 반응은 진행한다. 이미 시딩된 부위를 이러한 방식으로 역량까지 채우는 것은 표적 핵산이 그 부위에서 랜딩하고 증폭하는 것을 저해하여서 그 부위에서 앰플리콘의 클론성 집단을 생성한다. 몇몇 실시형태에서, 제2 표적 핵산이 그 부위에 도달하기 전에 증폭 부위가 역량까지 채워지지 않더라도 명확한 클론성은 달성될 수 있다. 여러 조건 하에, 제1 표적 핵산의 증폭은, 그 부위로 이동된 제2 표적 핵산으로부터 카피의 산물을 효과적으로 능가하거나 압도하도록, 충분한 수의 카피가 제조되는 점까지 진행할 수 있다. 예를 들어, 500㎚ 미만의 직경인 원형 특징부에서의 브리지 증폭 과정을 사용하는 실시형태에서, 제1 표적 핵산에 대한 지수 증폭의 14 사이클 후, 동일한 부위에서의 제2 표적 핵산으로부터의 오염이 Illumina 서열분석 플랫폼에서 합성에 의한 서열분석 분석에 부정적으로 영향을 미치도록 불충분한 수의 오염 앰플리콘을 생성할 것이라고 결정되었다.

몇몇 실시형태에서, 어레이에서의 증폭 부위는 전부 클론성일 수 있지만 그럴 필요는 없다. 오히려, 몇몇 분야에 대해, 개별 증폭 부위는 제1 인덱싱된 단편으로부터의 앰플리콘이 주로 있을 수 있고, 또한 제2 표적 핵산으로부터의 낮은 수준의 오염 앰플리콘을 가질 수 있다. 어레이는 오염의 수준이 후속하는 어레이 사용에 허용 불가능한 영향을 갖지 않는 한, 낮은 수준의 오염 앰플리콘을 갖는 하나 이상의 증폭 부위를 가질 수 있다. 예를 들어, 어레이가 검출 분야에서 사용되어야 할 때, 오염의 허용 가능한 수준은 허용 불가능한 방식으로 검출 기법의 해상 또는 신호 대 노이즈에 영향을 미치지 않는 수준일 것이다. 따라서, 명확한 클론성은 일반적으로 본 명세서에 기재된 방법에 의해 제조된 어레이의 특정한 사용 또는 적용과 관련될 것이다. 특정한 분야에 대해 개별 증폭 부위에서 허용 가능할 수 있는 오염의 예시적인 수준은 기껏해야 0.1%, 0.5%, 1%, 5%, 10% 또는 25%의 오염 앰플리콘을 포함하지만, 이들로 제한되지는 않는다. 어레이는 오염 앰플리콘의 이 예시적인 수준을 갖는 하나 이상의 증폭 부위를 포함할 수 있다. 예를 들어, 어레이에서의 증폭 부위의 5%, 10%, 25%, 50%, 75% 또는 심지어 100% 이하는 약간의 오염 앰플리콘을 가질 수 있다. 그 부위의 어레이 또는 다른 집단에서, 그 부위의 적어도 50%, 75%, 80%, 85%, 90%, 95% 또는 99% 이상이 클론성 또는 명확히 클론성일 수 있다고 이해될 것이다.

몇몇 실시형태에서, 또 다른 사건 또는 공정이 발생하는 것을 효과적으로 배제하도록 충분히 빠른 속도로 공정이 발생할 때 키네틱 배제가 발생할 수 있다. 예를 들어, 핵산 어레이의 제조를 취하고, 여기서 어레이의 부위는 용액으로부터 삼중 인덱싱된 단편에 의해 무작위로 시딩되고, 삼중 인덱싱된 단편의 카피는 증폭 과정에서 생성되어서, 각각의 시딩된 부위를 역량까지 채운다. 본 개시내용의 키네틱 배제 방법에 따라, 시딩 및 증폭 과정은 증폭 속도가 시딩 속도를 초과하는 조건 하에 동시에 진행할 수 있다. 그러므로, 제1 표적 핵산에 의해 시딩된 부위에서 카피가 이루어지는 비교적 빠른 속도는 증폭을 위해 그 부위를 시딩하는 것으로부터 제2 핵산을 효과적으로 배제할 것이다. 키네틱 배제 증폭 방법은 미국 출원 공보 제2013/0338042호의 개시내용에 자세히 기재된 바대로 수행될 수 있다.

키네틱 배제는 삼중 인덱싱된 단편의 후속하는 카피(또는 인덱싱된 단편의 제1 카피)를 제조하기 위한 비교적 빠른 속도에 대한 증폭을 개시하기 위한 비교적 느린 속도(예를 들어, 인덱싱된 단편의 제1 카피를 제조하기 위한 느린 속도)를 이용할 수 있다. 이전의 문단의 예에서, 키네틱 배제는 인덱싱된 단편 시드의 카피로 그 부위를 채우도록 증폭이 발생하는 비교적 빠른 속도에 대한 인덱싱된 단편 시딩의 비교적 느린 속도(예를 들어, 비교적 느린 확산 또는 수송)로 인해 발생한다. 또 다른 예시적인 실시형태에서, 키네틱 배제는 후속하는 카피가 그 부위를 채우도록 이루어지는 비교적 빠른 속도에 대한 부위를 시딩하는 인덱싱된 단편의 제1 카피의 형성의 지연(예를 들어, 지연된 또는 느린 활성화)으로 인해 발생할 수 있다. 이 예에서, 개별 부위는 몇몇 상이한 인덱싱된 단편으로 시딩될 수 있다(예를 들어, 몇몇 인덱싱된 단편은 증폭 전에 각각의 부위에 존재할 수 있음). 그러나, 제1 카피 형성의 평균 속도가 후속하는 카피가 생성되는 속도와 비교하여 비교적 느리도록 임의의 주어진 인덱싱된 단편에 대한 제1 카피 형성은 무작위로 활성화될 수 있다. 이 경우에, 개별 부위가 몇몇 상이한 인덱싱된 단편으로 시딩될 수 있지만, 키네틱 배제는 이들 인덱싱된 단편의 오직 하나가 증폭되게 허용할 것이다. 더 구체적으로, 제1 인덱싱된 단편이 증폭에 대해 활성화되면, 그 부위는 이의 카피로 역량까지 신속히 채워서, 제2 인덱싱된 단편의 카피가 그 부위에서 만들어지는 것을 막는다.

일 실시형태에서, 동시에 (i) 평균 수송 속도에서 증폭 부위로 인덱싱된 단편을 수송하도록, 그리고 (ii) 평균 증폭 속도에서 증폭 부위에 있는 인덱싱된 단편을 증폭시키도록(여기서, 평균 증폭 속도는 평균 수송 속도를 초과함)(미국 특허 제9,169,513호) 방법은 수행된다. 따라서, 키네틱 배제는 비교적 느린 수송 속도를 사용함으로써 이러한 실시형태에서 달성될 수 있다. 예를 들어, 원하는 평균 수송 속도를 달성하도록 인덱싱된 단편의 충분히 낮은 농도가 선택될 수 있고, 더 낮은 농도는 더 느린 평균 수송 속도를 생성시킨다. 대안적으로 또는 추가적으로, 고점도 용액 및/또는 용액 중의 분자 크라우딩 시약의 존재는 수송 속도를 감소시키도록 이용될 수 있다. 유용한 분자 크라우딩 시약의 예는 폴리에틸렌 글라이콜(PEG), 피콜, 덱스트란 또는 폴리비닐 알코올을 포함하지만, 이들로 제한되지는 않는다. 예시적인 분자 크라우딩 시약 및 제형은 미국 특허 제7,399,590호(본 명세서에서 참고로 원용됨)에 기재되어 있다. 원하는 수송 속도를 달성하도록 조정될 수 있는 또 다른 인자는 표적 핵산의 평균 크기이다.

증폭 시약은 앰플리콘 형성을 수월하게 하고, 몇몇 경우에 앰플리콘 형성의 속도를 증가시키는 추가의 성분을 포함할 수 있다. 예는 재조합효소이다. 재조합효소는 반복된 침입/연장을 허용함으로써 앰플리콘 형성을 수월하게 할 수 있다. 더 구체적으로, 재조합효소는 중합효소에 의한 인덱싱된 단편의 침입 및 앰플리콘 형성을 위한 주형으로서 인덱싱된 단편을 사용한 중합효소에 의한 프라이머의 연장을 수월하게 할 수 있다. 이 공정은 사슬 반응으로서 반복될 수 있고, 여기서 각각의 회차의 침입/연장으로부터 제조된 앰플리콘은 후속하는 회차에서 주형으로서 작용한다. 공정은 (예를 들어, 가열 또는 화학 변성을 통한) 변성 사이클이 필요하지 않으므로 표준 PCR보다 더 신속히 발생할 수 있다. 그러므로, 재조합효소 촉진된 증폭은 등온으로 수행될 수 있다. 증폭을 촉진하기 위한 재조합효소 촉진된 증폭 시약에서 ATP 또는 다른 뉴클레오타이드(또는 몇몇 경우에 이의 가수분해 불가능한 유사체)를 포함하는 것이 일반적으로 바람직하다. SSB가 증폭을 추가로 촉진할 수 있으므로, 재조합효소 및 단일 가닥 결합(SSB) 단백질의 혼합물은 특히 유용하다. 재조합효소 촉진된 증폭에 대한 예시적인 제형은 TwistDx(영국 캠브리지)에 의해 TwistAmp 키트로서 상업적으로 판매되는 것을 포함한다. 재조합효소 촉진된 증폭 시약의 유용한 성분 및 반응 조건은 US 제5,223,414호 및 US 제7,399,590호에 기재되어 있다.

앰플리콘 형성을 수월하게 하고, 몇몇 경우에 앰플리콘 형성의 속도를 증가시키도록 증폭 시약에 포함될 수 있는 성분의 또 다른 예는 헬리카제이다. 헬리카제는 앰플리콘 형성의 사슬 반응을 허용함으로써 앰플리콘 형성을 수월하게 할 수 있다. 공정은 (예를 들어, 가열 또는 화학 변성을 통한) 변성 사이클이 필요하지 않으므로 표준 PCR보다 더 신속히 발생할 수 있다. 그러므로, 헬리카제 촉진된 증폭은 등온으로 수행될 수 있다. SSB가 증폭을 추가로 촉진할 수 있으므로, 헬리카제 및 단일 가닥 결합(SSB) 단백질의 혼합물은 특히 유용하다. 헬리카제 촉진된 증폭에 대한 예시적인 제형은 Biohelix(메사추세츠주 비벌리)로부터 IsoAmp 키트로서 상업적으로 판매되는 것을 포함한다. 추가로, 헬리카제 단백질을 포함하는 유용한 제형의 예는 US 제7,399,590호 및 US 제7,829,284호에 기재되어 있다.

앰플리콘 형성을 수월하게 하고, 몇몇 경우에 앰플리콘 형성의 속도를 증가시키도록 증폭 시약에 포함될 수 있는 성분의 더 또 다른 예는 원래의 결합 단백질이다.

서열분석에서의 사용/서열분석의 방법

표면에 대한 인덱싱된 단편의 부착 이후에, 부동화된 및 증폭된 인덱싱된 단편의 서열은 결정된다. 서열분석은 임의의 적합한 서열분석 기법을 이용하여 수행될 수 있고, 가닥 재합성을 포함하는 부동화된 및 증폭된 인덱싱된 단편의 서열을 결정하는 방법은 당해 분야에 공지되어 있고, 예를 들어, Bignell 등(US 제8,053,192호), Gunderson 등(WO 제2016/130704호), Shen 등(US 제8,895,249호) 및 Pipenburg 등(US 제9,309,502호)에 기재되어 있다.

본 명세서에 기재된 방법은 다양한 핵산 서열분석 기법과 함께 사용될 수 있다. 특히 적용 가능한 기법은 핵산이 어레이에서 고정된 위치에서 부착되어서 이들의 각각의 위치가 변하지 않고 어레이가 반복하여 영상화되는 것이다. 예를 들어, 또 다른 것으로부터 하나의 뉴클레오타이드 염기 유형을 구별하기 위해 사용되는 상이한 표지와 일치하는, 상이한 색상 채널에서 영상이 얻어지는 실시형태는 특히 적용 가능하다. 몇몇 실시형태에서, 인덱싱된 단편의 뉴클레오타이드 서열을 결정하기 위한 과정은 자동화 공정일 수 있다. 바람직한 실시형태는 합성에 의한 서열분석("SBS") 기법을 포함한다.

SBS 기법은 일반적으로 주형 가닥에 대한 뉴클레오타이드의 반복적 첨가를 통해 초기 핵산 가닥의 효소 연장을 수반한다. SBS의 전통적인 방법에서, 단일 뉴클레오타이드 단량체는 각각의 전달에서 중합효소의 존재 하에 표적 뉴클레오타이드에 제공될 수 있다. 그러나, 본 명세서에 기재된 방법에서, 뉴클레오타이드 단량체의 하나 초과의 유형은 전달에서 중합효소의 존재 하에 표적 핵산에 제공될 수 있다.

일 실시형태에서, 뉴클레오타이드 단량체는 잠김 핵산(LNA) 또는 브리지된 핵산(BNA)을 포함한다. 뉴클레오타이드 단량체에서의 LNA 또는 BNA의 사용은 뉴클레오타이드 단량체와 부동화된 인덱싱된 단편에 존재하는 서열분석 프라이머 서열 사이의 혼성화 강도를 증가시킨다.

SBS는 종결자 모이어티를 갖는 뉴클레오타이드 단량체 또는 임의의 종결자 모이어티가 결여된 것을 사용할 수 있다. 종결자가 결여된 뉴클레오타이드 단량체를 사용하는 방법은 본 명세서에 더 자세히 기재된 바대로, 예를 들어, 파이로시퀀싱 및 γ-포스페이트 표지된 뉴클레오타이드를 사용한 서열분석을 포함한다. 종결자가 결여된 뉴클레오타이드 단량체를 사용하는 방법에서, 각각의 사이클에서 첨가된 뉴클레오타이드의 수는 일반적으로 가변적이고, 주형 서열 및 뉴클레오타이드 전달의 방식에 따라 달라진다. 종결자 모이어티를 갖는 뉴클레오타이드 단량체를 사용하는 SBS 기법에 대해, 종결자는 다이데옥시뉴클레오타이드를 사용하는 전통적인 Sanger 서열분석에 대한 경우에서처럼 사용된 서열분석 조건 하에 효과적으로 비가역적일 수 있거나, 종결자는 Solexa(이제 Illumina, Inc.)에 의해 개발된 서열분석 방법에 대한 경우에서처럼 가역적일 수 있다.

SBS 기법은 표지 모이어티를 갖는 뉴클레오타이드 단량체 또는 표지 모이어티가 결여된 것을 사용할 수 있다. 따라서, 도입 사건은 표지의 특징, 예컨대, 표지의 형광; 뉴클레오타이드 단량체, 예컨대, 분자량 또는 전하의 특징; 뉴클레오타이드의 도입의 부산물, 예컨대, 피로포스페이트의 방출; 등에 기초하여 검출될 수 있다. 2개 이상의 상이한 뉴클레오타이드가 서열분석 시약에 존재하는 실시형태에서, 상이한 뉴클레오타이드는 서로로부터 구별 가능할 수 있거나, 대안적으로 2개 이상의 상이한 표지는 사용된 검출 기법 하에 구별 불가능할 수 있다. 예를 들어, 서열분석 시약에 존재하는 상이한 뉴클레오타이드는 상이한 표지를 가질 수 있고, 이들은 Solexa(이제 Illumina, Inc.)에 의해 개발된 서열분석 방법에 의해 예시된 바대로 적절한 광학제품을 이용하여 구별될 수 있다.

바람직한 실시형태는 파이로시퀀싱(pyrosequencing) 기법을 포함한다. 특정한 뉴클레오타이드가 초기 가닥에 도입되면서, 파이로시퀀싱은 무기 피로포스페이트(PPi)의 방출을 검출한다(Ronaghi, M., Karamohamed, S., Pettersson, B., Uhlen, M. and Nyren, P. (1996) "Real-time DNA sequencing using detection of pyrophosphate release." Analytical Biochemistry 242(1), 84-9; Ronaghi, M. (2001) "Pyrosequencing sheds light on DNA sequencing." Genome Res. 11(1), 3-11; Ronaghi, M., Uhlen, M. and Nyren, P. (1998) "A sequencing method based on real-time pyrophosphate." Science 281(5375), 363; 미국 특허 제6,210,891호; 제6,258,568호 및 제6,274,320호). 파이로시퀀싱에서, 방출된 PPi는 ATP 설푸라제에 의해 아데노신 트라이포스페이트(ATP)로 즉시 전환됨으로써 검출될 수 있고, 생성된 ATP의 수준은 루시퍼라제 생성된 광자를 통해 검출된다. 서열분석되는 핵산은 어레이에서의 특징부에 부착될 수 있고, 어레이는 어레이의 특징부에서의 뉴클레오타이드의 도입으로 인해 생성된 화학발광 신호를 포획하도록 영상화될 수 있다. 어레이가 특정한 뉴클레오타이드 유형(예를 들어, A, T, C 또는 G)으로 처리된 후 영상을 얻어질 수 있다. 각각의 뉴클레오타이드 유형의 첨가 후 얻어진 영상은 어레이에서의 특징부가 검출되는 것과 관련하여 다를 것이다. 영상에서의 이 차이는 어레이에서의 특징부의 상이한 서열 함량을 반영한다. 그러나, 각각의 특징부의 상대 위치는 영상에서 변하지 않은 채 있을 것이다. 영상은 본 명세서에 기재된 방법을 이용하여 저장되고, 처리되고, 분석될 수 있다. 예를 들어, 각각의 상이한 뉴클레오타이드 유형에 의한 어레이의 처리 후 얻은 영상은 가역적 종결자 기반 서열분석 방법에 대해 상이한 검출 채널로부터 얻은 영상에 대해 본 명세서에 예시된 것과 동일한 방식으로 취급될 수 있다.

SBS의 또 다른 예시적인 유형에서, 사이클 서열분석은, 예를 들어, WO 제04/018497호 및 미국 특허 제7,057,026호에 기재된 바대로, 예를 들어, 절단 가능한 또는 광표백성 염료 표지를 함유하는 가역적 종결자 뉴클레오타이드의 단계별 첨가에 의해 달성된다. 이 접근법은 Solexa(이제 Illumina Inc.)에 의해 상업화되고, 또한 WO 제91/06678호 및 WO 제07/123,744호에 기재되어 있다. 종결 둘 다가 역전될 수 있고, 형광성 표지가 절단된 형광 표지된 종결자의 이용가능성은 효율적인 사이클릭 가역적 종결(CRT) 서열분석을 수월하게 한다. 중합효소는 또한 이 변형된 뉴클레오타이드로부터 효율적으로 도입하고 연장시키도록 동시조작될 수 있다.

몇몇 가역적 종결자 기반 서열분석 실시형태에서, 표지는 SBS 반응 조건 하에 연장을 실질적으로 저해하지 않는다. 그러나, 검출 표지는, 예를 들어, 절단 또는 분해에 의해 제거 가능할 수 있다. 영상은 배열된 핵산 특징부로 표지의 도입 이후에 포획될 수 있다. 특정한 실시형태에서, 각각의 사이클은 어레이로의 4개의 상이한 뉴클레오타이드 유형의 동시 전달을 수반하고, 각각의 뉴클레오타이드 유형은 스펙트럼으로 뚜렷한 표지를 갖는다. 4개 중 1개의 상이한 표지에 대해 선택적인 검출 채널을 각각 사용하여 4개의 영상은 이후 얻어질 수 있다. 대안적으로, 상이한 뉴클레오타이드 유형은 순차적으로 첨가될 수 있고, 어레이의 영상은 각각의 첨가 단계 사이에 얻어질 수 있다. 이러한 실시형태에서, 각각의 영상은 특정한 유형의 도입된 뉴클레오타이드를 갖는 핵산 특징부를 나타낼 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 함량으로 인해 상이한 영상에서 존재하거나 부재할 것이다. 그러나, 특징부의 상대 위치는 영상에서 변하지 않은 채 있을 것이다. 이러한 가역적 종결자-SBS 방법으로부터 얻은 영상은 본 명세서에 기재된 바대로 저장되고, 처리되고, 분석될 수 있다. 영상 포획 단계 이후에, 표지는 제거될 수 있고, 가역적 종결자 모이어티는 뉴클레오타이드 첨가 및 검출의 후속하는 사이클에 대해 제거될 수 있다. 표지가 특정한 사이클에서 검출된 후 및 후속하는 사이클 전 표지의 제거는 배경 신호 및 사이클 사이에 누화를 감소시킬 이점을 제공할 수 있다. 유용한 표지 및 제거 방법의 예는 본 명세서에 기재되어 있다.

특정한 실시형태에서, 뉴클레오타이드 단량체의 일부 또는 전부는 가역적 종결자를 포함할 수 있다. 이러한 실시형태에서, 가역적 종결자/절단 가능한 형광단은 3' 에스터 연결을 통해 리보스 모이어티에 연결된 형광단을 포함할 수 있다(Metzker, Genome Res. 15:1767-1776 (2005)). 다른 접근법은 형광 표지의 절단으로부터 종결자 화학물질을 분리시킨다(Ruparel et al., Proc Natl Acad Sci USA 102: 5932-7 (2005)). Ruparel 등은 연장을 차단하기 위해 작은 3' 알릴기를 사용하지만, 팔라듐 촉매에 의한 짧은 처리에 의해 용이하게 탈차단될 수 있는, 가역적 종결자의 개발을 기재한다. 형광단은 긴 파장 UV 광에 대한 30초 노출에 의해 용이하게 절단될 수 있는 광절단 가능한 링커를 통해 염기에 부착된다. 따라서, 다이설파이드 환원 또는 광절단은 절단 가능한 링커로서 사용될 수 있다. 가역적 종결에 대한 또 다른 접근법은 dNTP에서 벌키 염료의 배치 후 뒤따르는 자연 종결의 사용이다. dNTP에서 충전된 벌키 염료의 존재는 입체 및/또는 정전 장애를 통해 효과적인 종결자로서 작용할 수 있다. 하나의 도입 사건의 존재는 염료가 제거되지 않는 한 추가의 도입을 방지한다. 염료의 절단은 형광단을 제거하고 종결을 효과적으로 역전시킨다. 변형된 뉴클레오타이드의 예는 또한 미국 특허 제7,427,673호 및 제7,057,026호에 기재되어 있다.

본 명세서에 기재된 방법 및 시스템과 사용될 수 있는 추가적인 예시적인 SBS 시스템 및 방법은 미국 공보 제2007/0166705호, 제2006/0188901호, 제2006/0240439호, 제2006/0281109호, 제2012/0270305호 및 제2013/0260372호, 미국 특허 제7,057,026호, PCT 공보 WO 제05/065814호, 미국 특허 출원 공보 제2005/0100900호, 및 PCT 공보 WO 제06/064199호 및 WO 제07/010,251호에 기재되어 있다.

몇몇 실시형태는 4개 미만의 상이한 표지를 사용하여 4개의 상이한 뉴클레오타이드의 검출을 사용할 수 있다. 예를 들어, SBS는 미국 공보 제2013/0079232호의 원용된 자료에 기재된 방법 및 시스템을 이용하여 수행될 수 있다. 제1 예로서, 한 쌍의 뉴클레오타이드 유형은 동일한 파장에서 검출되지만, 다른 것과 비교하여 쌍의 하나의 구성원에 대한 강도의 차이에 기초하여, 또는 쌍의 다른 구성원에 대해 검출되는 신호와 비교하여 분명한 신호가 나타나거나 사라지게 하는 쌍의 하나의 구성원에 대한 변화에 기초하여(예를 들어, 화학적 변형, 광화학적 변형 또는 물리적 변형을 통해) 구별될 수 있다. 제2 예로서, 4개 중 3개의 상이한 뉴클레오타이드 유형은 특정한 조건 하에 검출 가능할 수 있는 한편, 제4 뉴클레오타이드 유형은 이 조건 하에 검출 가능하거나, 이 조건 하에 최소로 검출되는(예를 들어, 배경 형광 등으로 인한 최소 검출) 표지가 결여된다. 핵산으로의 처음의 3개의 뉴클레오타이드 유형의 도입은 이의 각각의 신호의 존재에 기초하여 결정될 수 있고, 핵산으로의 제4 뉴클레오타이드 유형의 도입은 임의의 신호의 부재 또는 최소 검출에 기초하여 결정될 수 있다. 제3 예로서, 하나의 뉴클레오타이드 유형은 2개의 상이한 채널에서 검출된 표지(들)를 포함할 수 있는 한편, 다른 뉴클레오타이드 유형은 채널의 1개 이하에서 검출된다. 상기 언급된 3개의 예시적인 구성은 상호 배타적인 것으로 생각되지 않고, 다양한 조합으로 사용될 수 있다. 모든 3개의 예를 조합한 예시적인 실시형태는 제1 채널에서 검출된 제1 뉴클레오타이드 유형(예를 들어, 제1 여기 파장에 의해 여기될 때 제1 채널에서 검출된 표지를 갖는 dATP), 제2 채널에서 검출된 제2 뉴클레오타이드 유형(예를 들어, 제2 여기 파장에 의해 여기될 때 제2 채널에서 검출된 표지를 갖는 dCTP), 제1 채널 및 제2 채널 둘 다에서 검출된 제3 뉴클레오타이드 유형(예를 들어, 제1 및/또는 제2 여기 파장에 의해 여기될 때 채널 둘 다에서 검출된 적어도 하나의 표지를 갖는 dTTP) 및 어느 한 채널에서 검출되지 않거나 최소로 검출되는 표지가 결여된 제4 뉴클레오타이드 유형(예를 들어, 표지를 갖지 않는 dGTP)을 사용하는 형광성 기반 SBS 방법이다.

추가로, 미국 공보 제2013/0079232호의 원용된 자료에 기재된 바대로, 서열분석 데이터는 단일 채널을 사용하여 얻어질 수 있다. 이러한 소위 1-염료 서열분석 접근법에서, 제1 뉴클레오타이드 유형은 표지되지만, 표지는 제1 영상이 생성된 후 제거되고, 제2 뉴클레오타이드 유형은 제1 영상이 생성된 후에만 표지된다. 제3 뉴클레오타이드 유형은 제1 영상 및 제2 영상 둘 다에서 이의 표지를 보유하고, 제4 뉴클레오타이드 유형은 영상 둘 다에서 표지되지 않은 채 있는다.

몇몇 실시형태는 결찰에 의한 서열분석 기법을 이용할 수 있다. 이러한 기법은 올리고뉴클레오타이드를 도입하고 이러한 올리고뉴클레오타이드의 도입을 확인하도록 DNA 리가제를 사용한다. 올리고뉴클레오타이드는 통상적으로 올리고뉴클레오타이드가 혼성화하는 서열에서 특정한 뉴클레오타이드의 동일성과 상관되는 상이한 표지를 갖는다. 다른 SBS 방법에서처럼, 영상은 표지된 서열분석 시약에 의한 핵산 특징부의 어레이의 처리 이후에 얻어질 수 있다. 각각의 영상은 특정한 유형의 도입된 표지를 갖는 핵산 특징부를 보여줄 것이다. 상이한 특징부는 각각의 특징부의 상이한 서열 내용으로 상이한 영상에서 존재하거나 부재할 것이지만, 특징부의 상대 위치는 영상에서 변하지 않은 채 있을 것이다. 결찰 기반 서열분석 방법으로부터 얻은 영상은 본 명세서에 기재된 바대로 저장되고, 처리되고, 분석될 수 있다. 본 명세서에 기재된 방법 및 시스템과 사용될 수 있는 예시적인 SBS 시스템 및 방법은 미국 특허 제6,969,488호, 제6,172,218호 및 제6,306,597호에 기재되어 있다.

몇몇 실시형태는 나노기공 서열분석을 사용할 수 있다(Deamer, D. W. & Akeson, M. "Nanopores and nucleic acids: prospects for ultrarapid sequencing." Trends Biotechnol. 18, 147-151 (2000); Deamer, D. and D. Branton, "Characterization of nucleic acids by nanopore analysis", Acc. Chem. Res. 35:817-825 (2002); Li, J., M. Gershow, D. Stein, E. Brandin, and J. A. Golovchenko, "DNA molecules and configurations in a solid-state nanopore microscope" Nat. Mater. 2:611-615 (2003)). 이러한 실시형태에서, 인덱싱된 단편은 나노기공을 통해 통과한다. 나노기공은 합성 기공 또는 생물학적 막 단백질, 예컨대, α-용혈소일 수 있다. 인덱싱된 단편이 나노기공을 통해 통과하면서, 각각의 염기-쌍은 기공의 전기 전도도의 변동을 측정함으로써 확인될 수 있다. (미국 특허 제7,001,792호; Soni, G. V. & Meller, "A. Progress toward ultrafast DNA sequencing using solid-state nanopores." Clin. Chem. 53, 1996-2001 (2007); Healy, K. "Nanopore-based single-molecule DNA analysis." Nanomed. 2, 459-481 (2007); Cockroft, S. L., Chu, J., Amorin, M. & Ghadiri, M. R. "A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution." J. Am. Chem. Soc. 130, 818-820 (2008)). 나노기공 서열분석으로부터 얻은 데이터는 본 명세서에 기재된 바대로 저장되고, 처리되고, 분석될 수 있다. 특히, 데이터는 광학 영상 및 본 명세서에 기재된 다른 영상의 예시적인 처리에 따라 영상으로서 처리될 수 있다.

몇몇 실시형태는 DNA 중합효소 활성의 실시간 모니터링을 수반하는 방법을 이용할 수 있다. 뉴클레오타이드 도입은, 예를 들어, 미국 특허 제7,329,492호 및 제7,211,414호에 기재된 바대로 형광단 보유 중합효소와 γ-포스페이트 표지된 뉴클레오타이드 사이의 형광 공명 에너지 이동(FRET) 상호작용을 통해 검출될 수 있거나, 뉴클레오타이드 도입은, 예를 들어, 미국 특허 제7,315,019호에 기재된 바대로 0-모드 도파관으로 및, 예를 들어, 미국 특허 제7,405,281 및 미국 공보 제2008/0108082호에 기재된 바대로 형광성 뉴클레오타이드 유사체 및 조작된 중합효소를 사용하여 검출될 수 있다. 형광으로 표지된 뉴클레오타이드의 도입이 낮은 배경으로 검출될 수 있도록 조명은 표면 테터링된 중합효소 주위의 제토리터-척도 용적으로 제한될 수 있다(Levene, M. J. et al. "Zero-mode waveguides for single-molecule analysis at high concentrations." Science 299, 682-686 (2003); Lundquist, P. M. et al. "Parallel confocal detection of single molecules in real time." Opt. Lett. 33, 1026-1028 (2008); Korlach, J. et al. "Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures." Proc. Natl. Acad. Sci. USA 105, 1176-1181 (2008)). 이러한 방법으로부터 얻은 영상은 본 명세서에 기재된 바대로 저장되고, 처리되고, 분석될 수 있다.

몇몇 SBS 실시형태는 연장 산물로의 뉴클레오타이드의 도입 시 방출되는 양성자의 검출을 포함한다. 예를 들어, 방출된 양성자의 검출에 기초한 서열분석은 Ion Torrent(코네티컷주 길퍼드, Life 기술 자회사)로부터 상업적으로 구입 가능한 전기 검출기 및 연관 기법 또는 미국 공보 제2009/0026082호; 제2009/0127589호; 제2010/0137143호; 및 제2010/0282617호에 기재된 서열분석 방법 및 시스템을 사용할 수 있다. 키네틱 배제를 이용하여 표적 핵산을 증폭하기 위한 본 명세서에 기재된 방법은 양성자를 검출하기 위해 사용되는 기질에 용이하게 적용될 수 있다. 더 구체적으로, 본 명세서에 기재된 방법은 양성자를 검출하기 위해 사용된 앰플리콘의 클론성 집단을 제조하도록 사용될 수 있다.

상기 SBS 방법은 유리하게는 다수의 상이한 인덱싱된 단편이 동시에 조작되도록 멀티플렉스 포맷에서 수행될 수 있다. 특정한 실시형태에서, 상이한 인덱싱된 단편은 일반 반응 용기에서 또는 특정한 기질의 표면에서 처리될 수 있다. 이는 서열분석 시약의 편리한 전달, 비반응된 시약의 제거 및 멀티플렉스 방식의 도입 사건의 검출을 허용한다. 표면 결합된 표적 핵산을 사용하는 실시형태에서, 인덱싱된 단편은 어레이 포맷으로 있을 수 있다. 어레이 포맷에서, 인덱싱된 단편은 통상적으로 공간적으로 구별 가능한 방식으로 표면에 결합될 수 있다. 인덱싱된 단편은 직접적인 공유 부착, 비드 또는 다른 입자에 대한 부착 또는 중합효소 또는 표면에 부착된 다른 분자에 대한 결합에 의해 결합될 수 있다. 어레이는 (특징부라고도 칭하는) 각각의 부위에서 인덱싱된 단편의 단일 카피를 포함할 수 있거나, 동일한 서열을 갖는 다수의 카피는 각각의 부위 또는 특징부에 존재할 수 있다. 다수의 카피는 본 명세서에 더 자세히 기재된 바대로 브리지 증폭 또는 에멀션 PCR과 같은 증폭 방법에 의해 제조될 수 있다.

본 명세서에 기재된 방법은 임의의 다양한 밀도로, 예를 들어, 적어도 약 10개 특징부/㎠, 100개 특징부/㎠, 500개 특징부/㎠, 1,000개 특징부/㎠, 5,000개 특징부/㎠, 10,000개 특징부/㎠, 50,000개 특징부/㎠, 100,000개 특징부/㎠, 1,000,000개 특징부/㎠, 5,000,000개 특징부/㎠, 또는 초과를 포함하는 특징부를 갖는 어레이를 사용할 수 있다.

본 명세서에 기재된 방법의 이점은 이것이 동시에 복수의 ㎠의 신속하고 효율적인 검출을 제공한다는 점이다. 따라서, 본 개시내용은 당해 분야에 공지된 기법, 예컨대, 본 명세서에 예시된 것을 사용하여 핵산을 제조하고 검출할 수 있는 통합 시스템을 제공한다. 따라서, 본 개시내용의 통합 시스템은 증폭 시약 및/또는 서열분석 시약을 하나 이상의 부동화된 인덱싱된 단편에 전달할 수 있는 유체 성분을 포함할 수 있고, 시스템은 펌프, 밸브, 저장소, 유체 라인 등과 같은 성분을 포함한다. 유세포는 표적 핵산의 검출을 위한 통합 시스템에서 구성되고/되거나 사용될 수 있다. 예시적인 유세포는, 예를 들어, 미국 공보 제2010/0111768호 및 미국 출원 제13/273,666호에 기재되어 있다. 유세포에 대해 예시된 것처럼, 통합 시스템의 유체 성분 중 하나 이상은 증폭 방법 및 검출 방법에 사용될 수 있다. 예로서 핵산 서열분석 실시형태를 취하여, 통합 시스템의 유체 성분 중 하나 이상은 본 명세서에 기재된 증폭 방법 및 상기 예시된 것과 같은 서열분석 방법에서의 서열분석 시약의 전달에 사용될 수 있다. 대안적으로, 통합 시스템은 증폭 방법을 수행하고 검출 방법을 수행하기 위한 별개의 유체 시스템을 포함할 수 있다. 증폭된 핵산을 생성하고 또한 핵산의 서열을 결정할 수 있는 통합 서열분석 시스템의 예는, 제한 없이, MiSeqTM 플랫폼(Illumina, Inc.(캘리포니아주 샌 디에고)) 및 미국 출원 제13/273,666호에 기재된 장치를 포함한다.

조성물이 본 명세서에 또한 제공된다. 본 명세서에 기재된 방법의 실행 동안에, 다양한 조성물이 생성할 수 있다. 예를 들어, 삼중 인덱싱된 핵산 단편을 포함하는 조성물이 생성할 수 있다. 다중웰 플레이트가 또한 제공되고, 여기서 다중웰 플레이트의 웰은 삼중 인덱싱된 핵산 단편을 포함한다.

키트가 본 명세서에 또한 제공된다. 일 실시형태에서, 키트는 서열분석 라이브러리를 제조하기 위한 것이다. 키트는 적어도 하나의 검정 또는 사용에 충분한 양으로 적합한 패키징 재료에서 본 명세서에 기재된 트랜스포솜 및/또는 선형 증폭 매개자를 포함한다. 선택적으로, 다른 성분, 예컨대, 프라이머, 인덱스, 보편적 서열, 또는 이들의 조합을 포함하는 하나 이상의 핵산이 포함될 수 있다. 포함될 수 있는 다른 성분은 시약, 예컨대, 완충제 및 용액이다. 패키징된 성분의 사용을 위한 설명서는 또한 통상적으로 포함된다. 본 명세서에 사용된 바대로, 구절 "패키징 재료"는 키트의 내용물을 보유하도록 사용된 하나 이상의 물리적 구조를 지칭한다. 패키징 재료는 일반적으로 무균 오염물질 비함유 환경을 제공하도록 일상적 방법에 의해 제작된다. 패키징 재료는 서열분석 라이브러리를 제조하기 위한 성분이 사용될 수 있다는 것을 나타내는 표지를 가질 수 있다. 또한, 패키징 재료는 키트 내의 재료가 어떻게 사용되는지를 나타내는 설명서를 함유한다. 본 명세서에 사용된 바와 같은, 용어 "패키지"는 고정된 한계 내에 키트의 성분을 보유할 수 있는 용기, 예컨대, 유리, 플라스틱, 종이, 포일 등을 지칭한다. "사용 설명서"는 통상적으로 시약 농도 또는 적어도 하나의 검정 방법 매개변수, 예컨대, 혼합되는 시약 및 샘플의 상대 양, 시약/샘플 혼합물에 대한 유지 시간 기간, 온도, 완충제 조건 등을 기재하는 유형의 표현을 포함한다.

예시적인 실시형태

실시형태 1. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법으로서,

제1 복수의 구획에서 복수의 단리된 핵 또는 세포를 제공하는 단계(여기서, 각각의 구획은 단리된 핵 또는 세포의 하위집단을 포함하고, 핵 또는 세포는 핵산 단편을 포함함);

선형 증폭 매개자를 세포 또는 핵에 도입하는 단계;

선형 증폭에 의해 핵산 단편을 증폭시키는 단계;

핵 또는 세포의 각각의 하위집단을 처리하여서 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 처리는 단리된 핵 또는 세포에 존재하는 핵산 단편에 단리된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하도록 제1 구획 특이적 인덱스 서열을 첨가하는 것을 포함하고, 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함함); 및

인덱싱된 핵 또는 세포를 조합하여서 풀링된 인덱싱된 핵 또는 세포를 생성함으로써 복수의 핵 또는 세포로부터 서열분석 라이브러리를 제조하는 단계를 포함하는, 방법.

실시형태 2. 실시형태 1에 있어서, 증폭은 처리 전에 발생하는, 방법.

실시형태 3. 실시형태 1에 있어서, 처리는 증폭 전에 발생하는, 방법.

실시형태 4. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법으로서,

복수의 단리된 핵 또는 세포를 제공하는 단계(여기서, 핵 또는 세포는 핵산 단편을 포함함);

선형 증폭 매개자를 단리된 핵 또는 세포에 도입하는 단계;

단리된 핵 또는 세포를 제1 복수의 구획에 분배하는 단계(여기서, 각각의 구획은 단리된 핵 또는 세포의 하위집단을 포함함);

선형 증폭에 의해 핵산 단편을 증폭시키는 단계;

단리된 핵 또는 세포의 각각의 하위집단을 처리하여서 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 처리는 단리된 핵 또는 세포에 존재하는 핵산 단편에 단리된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하도록 제1 구획 특이적 인덱스 서열을 첨가하는 것을 포함하고, 처리는 결찰, 프라이머 연장, 증폭 또는 전위를 포함함);

인덱싱된 핵을 조합하여서 풀링된 인덱싱된 핵 또는 세포를 생성함으로써 복수의 핵 또는 세포로부터 서열분석 라이브러리를 제조하는 단계를 포함하는, 방법.

실시형태 5. 복수의 단일 핵 또는 세포로부터 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법으로서,

핵 또는 세포의 각각의 하위집단을 처리하여서 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 처리는 단리된 핵 또는 세포에 존재하는 핵산 단편에 단리된 핵 또는 세포에 존재하는 인덱싱된 핵산을 생성하도록 (i) 제1 구획 특이적 인덱스 서열 및 (ii) 선형 증폭 매개자에 의해 인식된 뉴클레오타이드 서열을 첨가하는 것을 포함하고, 처리는 결찰, 프라이머 연장, 혼성화, 증폭 또는 전위를 포함함);

선형 증폭 매개자를 세포 또는 핵에 도입하는 단계;

선형 증폭에 의해 핵산 단편을 증폭시키는 단계;

실시형태 6. 실시형태 1 내지 5 중 어느 하나에 있어서, 선형 증폭 매개자는 파지 RNA 중합효소 또는 선형 증폭 프라이머를 포함하는, 방법.

실시형태 7. 실시형태 1 내지 6 중 어느 하나에 있어서, 핵산 단편은 T7 촉진자를 포함하고, 파지 RNA 중합효소는 T7 RNA 중합효소를 포함하는, 방법.

실시형태 8. 실시형태 1 내지 7 중 어느 하나에 있어서, 선형 증폭 매개자를 도입하는 단계는 단리된 핵 또는 세포에 존재하는 핵산 단편에 선형 증폭 매개자를 첨가하는 단계를 포함하는, 방법.

실시형태 9. 실시형태 1 내지 8 중 어느 하나에 있어서, 각각의 구획의 복수의 단리된 핵 또는 세포를 미리 결정된 조건에 노출시키는 단계를 추가로 포함하는, 방법.

실시형태 10. 실시형태 1 내지 9 중 어느 하나에 있어서, 노출 후 복수의 세포로부터 핵을 단리시키는 단계를 추가로 포함하는, 방법.

실시형태 11. 실시형태 1 내지 10 중 어느 하나에 있어서, 복수의 단리된 핵 또는 세포를 미리 결정된 조건에 노출시키는 단계를 추가로 포함하는, 방법.

실시형태 12. 실시형태 1 내지 11 중 어느 하나에 있어서, 단리된 핵의 통합성을 유지시키면서 단리된 핵을 뉴클레오솜 고갈된 핵을 생성시키는 조건으로 처리하는 단계를 추가로 포함하는, 방법.

실시형태 13. 실시형태 1 내지 12 중 어느 하나에 있어서, 처리는,

각각의 하위집단을 트랜스포솜 복합체와 접촉시키는 단계(여기서, 각각의 구획에서의 트랜스포솜 복합체는 다른 구획에서의 제1 인덱스 서열과 상이한 제1 인덱스 서열을 포함함); 및

하위집단에서의 핵산을 복수의 핵산으로 단편화하고, 제1 인덱스 서열을 핵산의 적어도 하나의 가닥에 도입하여서 인덱싱된 핵산을 포함하는 인덱싱된 핵 또는 세포를 생성하는 단계를 포함하는, 방법.

실시형태 14. 실시형태 1 내지 13 중 어느 하나에 있어서, 처리는,

단리된 핵에서 각각의 하위집단을 역전사효소 및 RNA 분자로 어닐링하는 프라이머와 접촉시켜서 인덱싱된 핵산을 포함하는 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 각각의 구획에서의 프라이머는 다른 구획에서의 제1 인덱스 서열과 상이한 제1 인덱스 서열을 포함함)를 포함하는, 방법.

실시형태 15. 실시형태 1 내지 14 중 어느 하나에 있어서, 접촉은 특이적 뉴클레오타이드 서열에 어닐링하는 표적 특이적 프라이머를 추가로 포함하는, 방법.

실시형태 16. 실시형태 1 내지 15 중 어느 하나에 있어서, 제1 구획 특이적 인덱스 서열을 첨가하기 위한 처리는 보편적 서열을 포함하는 뉴클레오타이드 서열을 핵산 단편에 첨가하고, 이후 제1 구획 특이적 인덱스 서열을 핵산 단편에 첨가하는 2 단계 공정을 포함하는, 방법.

실시형태 17. 실시형태 1 내지 16 중 어느 하나에 있어서, 첨가는 보편적 서열을 포함하는 트랜스포솜 복합체를 포함하는, 방법.

실시형태 18. 실시형태 1 내지 17 중 어느 하나에 있어서, 처리는 제1 인덱스를 단리된 핵 또는 세포에 존재하는 DNA 핵산에, 제1 인덱스를 상기 단리된 핵 또는 세포에 존재하는 RNA 핵산에 첨가하거나, 또는 이들의 조합을 포함하는, 방법.

실시형태 19. 실시형태 1 내지 18 중 어느 하나에 있어서, 제1 인덱스 서열을 RNA 핵산에 첨가하는 단계는,

단리된 핵 또는 세포에서 각각의 하위집단을 역전사효소 및 RNA 분자로 어닐링하는 프라이머와 접촉시켜서 인덱싱된 핵산을 포함하는 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 각각의 구획에서의 프라이머는 제1 구획 특이적 인덱스 서열을 포함함)를 포함하는, 방법.

실시형태 20. 실시형태 1 내지 19 중 어느 하나에 있어서, 제1 인덱스 서열을 DNA 핵산에 첨가하는 단계는,

각각의 하위집단을 트랜스포솜 복합체와 접촉시키는 단계(여기서, 각각의 구획에서의 트랜스포솜 복합체는 제1 구획 특이적 인덱스 서열을 포함함); 및

하위집단에서의 핵산을 복수의 핵산으로 단편화하고, 제1 구획 특이적 인덱스 서열을 핵산의 적어도 하나의 가닥에 도입하여서 인덱싱된 핵산을 포함하는 인덱싱된 핵 또는 세포를 생성하는 단계를 포함하는, 방법.

실시형태 21. 실시형태 1 내지 20 중 어느 하나에 있어서, 각각의 구획에서의 DNA 핵산에 첨가된 제1 인덱스 서열 및 RNA 핵산에 첨가된 제1 인덱스 서열은 동일한, 방법.

실시형태 22. 실시형태 1 내지 21 중 어느 하나에 있어서, 각각의 구획에서의 DNA 핵산에 첨가된 제1 인덱스 서열 및 RNA 핵산에 첨가된 제1 인덱스 서열은 동일하지 않은, 방법.

실시형태 23. 실시형태 1 내지 22 중 어느 하나에 있어서, 핵산 단편의 지수 증폭을 추가로 포함하고, 지수 증폭은 특이적 뉴클레오타이드 서열에 어닐링하는 표적 특이적 프라이머를 포함하는, 방법.

실시형태 24. 실시형태 1 내지 23 중 어느 하나에 있어서, 조합한 후,

풀링된 인덱싱된 핵 또는 세포의 하위집단을 제2 복수의 구획에 분배하는 단계; 및

제2 구획 특이적 인덱스 서열을 인덱싱된 핵산에 도입하여서 이중 인덱싱된 핵산을 포함하는 이중 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 도입은 결찰, 프라이머 연장, 증폭 또는 전위를 포함함)를 추가로 포함하는, 방법.

실시형태 25. 실시형태 1 내지 24 중 어느 하나에 있어서,

상기 이중 인덱싱된 핵을 조합하여서 풀링된 이중 인덱싱된 핵 또는 세포를 생성하는 단계,

풀링된 이중 인덱싱된 핵 또는 세포의 하위집단을 제3 복수의 구획에 분배하는 단계; 및

제3 구획 특이적 인덱스 서열을 인덱싱된 핵산에 도입하여서 삼중 인덱싱된 핵산을 포함하는 삼중 인덱싱된 핵 또는 세포를 생성하는 단계(여기서, 도입은 결찰, 프라이머 연장, 증폭 또는 전위를 포함함)를 추가로 포함하는, 방법.

실시형태 26. 실시형태 1 내지 25 중 어느 하나에 있어서, 메틸화 분석을 위해 인덱싱된 핵 또는 세포를 처리하여서 메틸화 분석에 적합한 핵산 단편을 생성하는 단계를 추가로 포함하는, 방법.

실시형태 27. 실시형태 1 내지 26 중 어느 하나에 있어서, 인덱싱된 핵 또는 세포를 근접 결찰로 처리하여서 염색질 구성의 분석에 적합한 핵산 단편을 생성하는 단계를 추가로 포함하는, 방법.

실시형태 28. 실시형태 1 내지 27 중 어느 하나에 있어서, 서열분석 라이브러리의 핵산 단편을 증폭시켜서 DNA 나노볼을 생성하는 단계를 추가로 포함하는, 방법.

실시형태 29. 실시형태 1 내지 28 중 어느 하나에 있어서, 구획은 웰 또는 드랍플렛을 포함하는, 방법.

실시형태 30. 실시형태 1 내지 29 중 어느 하나에 있어서, 제1 복수의 구획의 각각의 구획은 50개 내지 100,000,000개의 핵 또는 세포를 포함하는, 방법.

실시형태 31. 실시형태 1 내지 29 중 어느 하나에 있어서, 제2 복수의 구획의 각각의 구획은 50개 내지 100,000,000개의 핵 또는 세포를 포함하는, 방법.

실시형태 32. 실시형태 1 내지 31 중 어느 하나에 있어서,

복수의 증폭 부위를 포함하는 표면을 제공하는 단계(여기서, 증폭 부위는 유리 3' 단부를 갖는 부착된 단일 가닥 포획 올리고뉴클레오타이드의 적어도 2개의 집단을 포함함), 및

증폭 부위를 포함하는 표면을 복수의 인덱스를 포함하는 개별 단편으로부터의 앰플리콘의 클론성 집단을 각각 포함하는 복수의 증폭 부위를 생성하기에 적합한 조건 하에 인덱싱된 단편과 접촉시키는 단계를 추가로 포함하는, 방법.

실시형태 33. 복수의 단일 세포로부터 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법으로서,

(a) 복수의 세포로부터 단리된 핵을 제공하는 단계;

(b) 단리된 핵의 통합성을 유지시키면서 단리된 핵을 화학 처리로 처리하여서 뉴클레오솜 고갈된 핵을 생성하는 단계;

(c) 뉴클레오솜 고갈된 핵의 하위집단을 제1 복수의 구획에 분배하고, 각각의 하위집단을 트랜스포솜 복합체와 접촉시키는 단계(여기서, 각각의 구획에서의 트랜스포솜 복합체는 트랜스포사제 및 다른 구획에서의 제1 인덱스 서열과 상이한 제1 인덱스 서열을 포함함);

(d) 뉴클레오솜 고갈된 핵의 하위집단에서의 핵산을 복수의 핵산 단편으로 단편화하고, 제1 인덱스 서열을 핵산의 적어도 하나의 가닥 단편으로 도입하여서 인덱싱된 핵산 단편을 포함하는 인덱싱된 핵을 생성하는 단계(여기서, 인덱싱된 핵산 단편은 트랜스포사제에 부착된 채 있음);

(d) 인덱싱된 핵을 조합하여서 풀링된 인덱싱된 핵을 생성하는 단계;

(e) 풀링된 인덱싱된 핵의 하위집단을 제2 복수의 구획에 분배하고, 각각의 하위집단을 이중 인덱싱된 핵산 단편을 생성시키도록 인덱싱된 핵산 단편의 단부의 하나 또는 둘 다에 대한 헤어핀 결찰 듀플렉스의 결찰에 적합한 조건 하에 헤어핀 결찰 듀플렉스와 접촉시키는 단계(여기서, 헤어핀 결찰 듀플렉스는 다른 구획에서의 제2 인덱스 서열과 상이한 제2 인덱스 서열을 포함함);

(f) 이중 인덱싱된 핵을 조합하여서 풀링된 인덱싱된 핵을 생성하는 단계;

(g) 풀링된 이중 인덱싱된 핵의 하위집단을 제3 복수의 구획에 분배하는 단계;

(h) 이중 인덱싱된 핵을 용해시키는 단계;

(i) 이중 인덱싱된 핵산 단편을 다른 구획에서의 제3 인덱스 서열과 상이한 제3 인덱스 서열을 포함하도록 처리하는 단계; 및

(j) 삼중 인덱스 단편을 조합하여서 복수의 단일 세포로부터 전장 게놈 핵산을 포함하는 서열분석 라이브러리를 제조하는 단계를 포함하는, 방법.

실시예

본 개시내용은 하기 실시예로 예시된다. 특정한 실시예, 재료, 양 및 절차가 본 명세서에 기재된 바와 같은 본 개시내용의 범주 및 정신에 따라 광범위하게 해석되어야 한다고 이해되어야 한다.

실시예 1

선형 증폭에 의한 고속대량 단일 세포 서열분석

단일 세포 게놈 서열분석에 대한 관습적인 방법은 통일성 및 처리량과 관련하여 제한된다. 여기서 본 발명자들은 단일 세포 조합 인덱싱("sci") 및 선형("L") 증폭을 조합하는 고속대량 고커버리지 단일 세포 서열분석 방법인 "sci-L3"을 기재한다. sci-L3 방법은 처리량에서의 지수 이득을 가능하게 하면서 증폭 편향을 최소화하는 일방향 3-수준("3") 인덱싱 계획을 채택한다. 본 발명자들은 단일 세포 전장 게놈 서열분석("sci-L3-WGS"), 표적화된 게놈 서열분석("sci-L3-표적-seq"), 및 게놈 및 전사체의 공동검정("sci-L3-RNA/DNA")의 개념 증명 입증을 통해 sci-L3 프레임워크의 일반화가능도를 입증한다. 본 발명자들은 F1 잡종 수컷 마우스로부터 10,000개 초과의 정자 및 정자 전구체의 게놈을 프로파일링하도록 sci-L3-WGS를 적용하여서, 86,786 교차를 맵핑하고 전장 게놈 균등 염색체 분리의 경우를 포함하는 수컷 감수분열에서의 희귀한 염색체 비분리 사건을 규명한다. 본 발명자들은 sci-L3 검정이 재조합 풍경을 완전히 규명하도록, CRISPR 섭동 및 게놈 안정성의 측정을 커플링하도록, 및 고속대량 고커버리지 단일 세포 게놈 서열분석을 요하는 다른 목표에 적용될 수 있다고 기대한다.

도입

동시적인 단일 세포 게놈 서열분석 기술은 2개의 주요 제한을 갖는다. 첫째로, 대부분의 방법은 처리량을 제한하는 개별 세포를 구획화하는 것을 요한다. 둘째로, 대부분의 증폭 방법은 PCR 기반이고 이에 따라 지수 증폭 편향을 겪는다. 제1 안건을 해결하도록, 본 발명자들 및 동료는 단일 세포 조합 인덱싱('sci-')을 개발하였고, 여기서 단일 세포의 핵산 함량을 고유하게 태그화하도록 몇 회차의 스플릿-풀 분자 바코딩을 수행하여서, 각각의 연속적 회차의 인덱싱으로 처리량에서의 지수 이득이 가능하게 한다. Sci- 방법은 다수의 단일 세포에서 염색질 접근성(sci-ATAC-seq), 전사체(sci-RNA-seq), 게놈(sci-DNA-seq), 메틸놈(sci-MET), 염색체 구성(sci-Hi-C)을 프로파일링하도록 성공적으로 개발되었다(Cao et al., 2017; Cusanovich et al., 2015; Mulqueen et al., 2018; Ramani et al., 2017; Vitak et al., 2017). 제2 안건을 해결하도록, T7 기반 전사를 통한 선형 증폭은 단일 세포 검정의 맥락에서 이전에 이용된 잠재적인 해결책을 제공한다(Eberwine et al., 1992; Hashimshony et al., 2012; Sos et al., 2016). 예를 들어, 최근에, Chen 등은 시험관내 전사(IVT)를 위해 게놈을 단편화하고 T7 RNA 촉진자를 동시에 삽입하도록 Tn5 트랜스포슨을 사용하는 트랜스포슨 삽입("LIANTI")을 통한 선형 증폭을 개발하였다. DNA 주형으로부터 생성된 RNA 카피는 추가의 증폭을 위한 주형으로 작용할 수 없고; 따라서, 모든 카피는 원래의 DNA 주형으로부터 직접적으로 유래된다. 지수 증폭을 피함으로써, LIANTI는 통일성을 유지시키고 서열 오류를 최소화한다. 그러나, 상기 방법은 각각의 단일 세포로부터의 연속 라이브러리 제조를 요하므로 저속이다(Chen et al., 2017).

처리량에서의 지수 이득을 동시에 가능하게 하면서 증폭 편향을 최소화하도록, 본 발명자들은 단일 세포 조합 인덱싱 및 선형 증폭을 통합시킨 sci-L3을 개발하였다. 3회차의 분자 바코딩으로, sci-L3은 선형 증폭의 이점을 보유하면서 LIANTI의 처리량을 실험마다 적어도 수천 및 가능하게는 수백만 개의 세포로 개선한다. 본 발명자들은 단일 세포 전장 게놈 서열분석("sci-L3-WGS"), 표적화된 게놈 서열분석("sci-L3-표적-seq"), 및 게놈 및 전사체의 공동검정("sci-L3-RNA/DNA")의 개념 증명 입증을 통한 sci-L3 프레임워크의 일반화가능성을 입증한다. 추가의 입증으로서, 본 발명자들은 불임 종간 (B6 x Spretus) F1 수컷 마우스 및 가임, 종내 (B6 x Cast) F1 수컷 마우스로부터 조숙 및 성숙 수컷 생식 세포에서의 전례 없는 수의 감수분열 교차 및 희귀한 염색체 비분리 사건을 맵핑하도록 sci-L3-WGS를 적용한다.

설계

처리량을 증가시키면서 증폭 편향을 최소화하는 잠재적인 기술적 경로는 "sci" 및 "LIANTI" 방법을 단순히 조합하는 것일 것이다. 그러나, LIANTI(여기서, T7 촉진자는 Tn5 트랜스포슨을 통해 삽입된)의 분자 구조는 오직 2회차의 세포 바코딩에 대한 기회를 제공하고, 이는 처리량을 실험마다 수천개의 단일 세포로 제한한 것이다. 이것은 더구나 게놈 DNA의 프로파일링으로 제한된다(Chen et al., 2017; Sos et al., 2016). sci-L3을 개발하는 데 있어서, 본 발명자들은 결찰에 의해 T7 촉진자를 도입함으로써 단일 세포 조합 인덱싱, 선형 증폭 및 3회차의 세포 바코딩("3-수준")을 통합하였다(도 3A). sci-L3 접근법은 "sci" 및 "LIANTI"를 단순히 조합함으로써 몇몇 주요 이점을 갖는다. 첫째로, 잠재적인 처리량은 훨씬 감소된 비용으로 3-수준 인덱싱에 의해 실험마다 수백만 개 초과의 세포로 지수로 증가한다(Cao et al., 2019). 둘째로, 단일 세포 바코딩의 일방향 성질은 sci-L3이 전장 게놈 서열분석("WGS") 이외에 표적화된 서열분석("표적-seq")으로 쉽게 전환되게 하고, 이는 커플링 CRISPR 섭동 및 생성된 게놈 불안정성, 및 많은 수의 단일 세포에 걸쳐 서열 특이적 게놈 유전자위에 바람직한 다른 분야가 가능하게 한다. 셋째로, 일반화 가능한 선형 증폭 및 고속대량 세포 바코딩 계획으로서, sci-L3은, sci-L3 기반 단일 세포 RNA/DNA 공동검정의 여기서의 개념 증명에 의해 입증된 바대로, 프로토콜의 적은 변형으로 다른 단일 세포 검정 및 공동검정에 채택하려는 융통성을 제공한다.

결과

sci-L3-WGS 및 sci-L3-표적-seq의 개념 증명

sci-L3-WGS 및 sci-L3-표적-seq의 3-수준 조합 인덱싱 및 증폭 계획은 도 3A에 도시되어 있다: (i) 세포는 폼알데하이드로 고정되고, 뉴클레오솜은 SDS에 의해 고갈된다(Vitak et al., 2017). 생성된 핵은 이후 24 웰로 균등하게 분포된다. (ii) 1회차의 바코드는 각각의 24 웰 내에 인덱싱된 Tn5 삽입("태그먼테이션")에 의해 첨가된다. Tn5 트랜스포슨이 바코드 없이 T7 촉진자를 함유하는 LIANTI와 달리, 스페이서 서열은 바코드에 5'에 포함되고, 이는 후속하는 결찰 단계에 대한 "랜딩 패드"로서 작용한다(Tn5 트랜스포슨 설계의 상세내용에 대해 도 4 및 실시예 2, "Methods and molecular design of sci-L3-WGS and sci-L3-target-seq" 부문 참조). (iii) 모든 핵은 풀링되고 64 새로운 웰로 균등하게 재분포된다; 2회차의 바코드는 결찰에 의해 첨가되고, 이는 바코드 둘 다의 바깥에 배치된 T7 촉진자 서열을 포함한다. (iv) 모든 핵은 다시 한번 함께 풀링되고, 형광 활성화 세포 분류(FACS) 세포계산법에 의해 분류되고, 웰마다 300개 이하의 세포로 최종 회차의 웰로 분포된다. 상이한 배수성의 핵이 게이팅되고 DAPI(4',6-다이아미디노-2-페닐인돌) 염색에 의해 농후화될 수 있다는 것에 주목한다. 또한, 단순한 희석은 손실률을 감소시킬 수 있는 FACS에 대한 대안이다. (v) 분류된 핵은 용해되고 인시츄 갭 연장으로 처리되어서 듀플렉스 T7 촉진자를 형성한다. 이것에 IVT, 역전사(RT) 및 제2 가닥 합성(SSS)이 후행하여서 선형 방식으로 게놈을 증폭시킨다. 3회차의 바코드는 개별 IVT 전사체를 태그화하도록 고유한 분자 식별자(UMI)와 함께 SSS 단계 동안 첨가된다. (vi) 듀플렉스 DNA 분자(도 3B, 상부)(각각 기원의 세포를 한정하는 3개의 바코드를 함유)는 관습적인 라이브러리 구성 방법(목표가 단일 세포 WGS(예를 들어, 결찰에 의한 첨부한 서열 어댑터(도 3B, 중간) 또는 태그먼테이션인 경우), 또는 약간 변형된 방법(목표가 단일 세포 표적화된 DNA-seq(예를 들어, 프라이머 중 하나가 표적 특이적인 PCR 단계의 추가(도 3B, 바닥))인 경우)에 알맞다.

초기 개념 증명으로서, 본 발명자들은 마우스 및 인간 세포를 혼합하고, sci-L3-WGS를 수행하였다. 95% 초과의 생성된 단일 세포 게놈에 대해, 아주 대부분의 판독은 마우스 또는 인간 게놈으로 맵핑된다; 2개 이상의 세포에 의한 바코드의 동일한 조합의 기회 사용으로부터 생긴 때때로의 '충돌'(도 3C). sci-L3-WGS의 수행은 LIANTI, 및 표 1에서의 본 발명자들의 이전의 PCR 기반 sci-DNA-seq 방법과 비교된다. 본 발명자들은 sci-L3-WGS의 여러 이점을 강조한다: 1) 본 발명자들은 일반적으로 PCR 기반 sci-DNA-seq로 60% 회수와 비교된 분류된 세포의 90%를 회수한다(Vitak et al., 2017); 2) 40% 더 적은 원시 판독(sci-L3-WGS에 의한 329M 대 sci-DNA-seq에 의한 549M)으로, sci-L3-WGS는 sci-DNA-seq에 의한 약 30,000개의 고유한 삽입과 비교하여 세포마다 약 97,000개의 고유한 Tn5 삽입에서 서열 커버리지를 생성하였다, 3배 초과 개선. 더 높은 깊이로 더 적은 수의 세포를 서열분석하여, 본 발명자들은 sci-DNA-seq보다 더 높은 라이브러리 복합성을 유지시키면서 세포마다 660,000개의 고유한 Tn5 삽입을 관찰하여서, 20배 초과의 추가의 개선을 제안한다; 3) 맵핑 가능한 판독의 비율은 sci-L3-WGS로 LIANTI에 의해 61%로부터 86%로 개선하였다. 이는 아마도 LIANTI가 전부 관내이기 때문이고 따라서 (예를 들어, Tn5의 자가-삽입에 부차적인) 인공 서열을 제거하기 어렵지만, sci-L3-WGS로, 핵은 수회 펠릿화되어서 과량의 유리 DNA가 제거된다; 4) 중복 판독이 SNP 호출에 정보제공이 아닌 PCR 기반 증폭과 달리, sci-L3-WGS의 '중복' 판독은 원래의 주형으로부터 중합된 독립적인 IVT 전사체로부터 거의 항상 생기고, 따라서 신생 SNV 발견 또는 공지된 SNP의 유전자형분석에 유용하다.

sci-L3-WGS로, Tn5는 인간 게놈의 평균적으로 0.5 내지 1.5kb마다 삽입하고, IVT는 약 1,000개의 전사체를 생성시킨다. 이는 단일 세포마다 200만 내지 600만 개의 고유한 Tn5 삽입, 및 따라서 20억 내지 60억 개의 고유한 게놈 유래된 IVT 전사체에 상응한다. 고유한 IVT 전사체의 수와 관련하여 생성된 라이브러리를 포화까지 서열분석하는 것이 현재 명확히 비현실적이다. 여기서 본 발명자들은 맵핑된 고유한 Tn5 삽입 부위의 수 대 서열분석되는 고유한 전사체의 수의 비율로서 각각의 라이브러리에 대해 '서열분석의 깊이'를 정의한다. 이 연구에서, 대부분의 라이브러리는 1.1x 내지 2x의 깊이에서 서열분석되어서, 각각의 세포의 게놈의 0.5% 내지 5% 커버리지를 생성시킨다. 인간/마우스 개념 증명 실험에서의 세포마다 고유한 Tn5 삽입 부위의 분포는 도 3D에 도시되어 있고, 다른 실험에 대해 도 5에 도시되어 있다. 대표적인 단일 세포에 대한 추산된 상대 염색체 카피수는 도 3E에 도시되어 있고, 모든 세포에 걸친 이의 분포는 도 3F에 도시되어 있다. 더 높은 서열분석 깊이에서 단일 세포마다 추산된 게놈 커버리지를 추정하기 위해, 본 발명자들은 서열분석 깊이의 함수로서 고유한 삽입 부위의 수를 피팅한다(도 5G). 본 발명자들은, 개별 세포의 게놈의 16% 및 22% 커버리지에 상응하는, 각각 5x 및 10x의 서열분석 깊이에서 세포마다 4.2M 및 6.0M 고유한 삽입을 관찰할 것으로 예상한다.

상기 기재된 바대로, sci-L3에 의해 생성된 이중 가닥 앰플리콘(도 3B, 상부)은 단일 세포 WGS(sci-L3-WGS; 도 3B, 중앙)뿐만 아니라, 단일 세포 표적화된 DNA 서열분석("sci-L3-표적-seq")과 알맞다. 구체적으로, 표적화된 서열분석에 대해, 제2 가닥 합성 후, 제3 세포 바코드를 보유하는 하나의 프라이머, 그러나 게놈의 특정한 영역을 표적화하는 다른 프라이머로 PCR에 의해 서열분석 어댑터를 첨가할 수 있다(도 3B, 바닥). sci-L3-표적-seq로 회수의 효율을 정량화하기 위해, 본 발명자들은 낮은 MOI로 렌티바이러스 CRISPR 라이브러리를 통합하고(상세내용에 대해 실시예 2, "Methods and molecular design of sci-L3-WGS and sci-L3-target-seq" 참조), sci-L3-표적-seq에 의해 sgRNA 스페이서에 상응하는 DNA 서열을 회수하였다. 1003개 중 97개의 단일 세포에 대해, 본 발명자들은 단일 통합된 sgRNA를 성공적으로 회수할 수 있다. 단상형마다 이 10% 효율은 서열분석 깊이를 추정함으로써 상기 추산된 22%의 게놈 커버리지로 광범위하게 일치하다(도 5G).

분자 수준에서, 본 발명자들은 몇몇 방식에서 "sci" 및 "LIANTI" 방법 둘 다를 변형시킨다는 것에 주목한다. 요약하기 위해, 본 발명자들은 1) Tn5 트랜스포슨의 설계를 결찰과 알맞도록 변경하고, 이에 따라 다른 단일 세포 검정에 잠재적으로 일반화하는 접근법인 "sci"의 2회차 초과가 가능하게 하고, 2) 분자내 결찰을 수월하게 하도록 T7 촉진자의 루프 구조를 첨가하고, 3) 본 발명자들이 1회차 바코딩된 분자의 2개 중 1개의 단부에서 성공적인 결찰을 오직 필요로 하도록 RT 계획을 변경하였다. 단일 결찰 사건이 50% 효율을 갖는다는 것을 추정하여서, 이 변형은 25% 대신에 결찰 단계에서 75% 성공률이 되게 한다(도 5에 도시된 비교). 본 발명자들은 도 4에서의 각각의 바코딩 단계 후 분자의 구조르 도시하고, 실시예 2, "Methods and molecular design of sci-L3-WGS and sci-L3-target-seq" 부문에서 이 설계에 대한 이유를 토의한다. 확장성 및 비용은 또한 실시예 2 및 표 2에 토의되어 있다. 100개, 1000개, 10,000개 및 1백만 개의 단일 세포의 라이브러리에 대해, 본 발명자들은 sci-L3-WGS의 비용이 LIANTI를 갖는 세포의 당량 수의 처리의 14%, 1.5%, 0.26% 및 0.014%인 것으로 추산한다. 조합 인덱싱의 2개보다는 3개의 수준은 처리량을 증가시키도록(예를 들어, 3-수준 sci-L3-WGS에 의한 5% 충돌 속도에서 1백만 개의 세포에 대한 라이브러리의 작제의 비용은 약 8,000 달러임), 또는 충돌 속도를 감소시키도록(예를 들어, 3-수준 sci-L3-WGS에 의한 1% 충돌 속도에서 10,000개의 세포에 대한 라이브러리의 작제의 비용은 약 1,500 달러임) 레버리징될 수 있다.

단일 세포 RNA/DNA 공동검정에 대한 sci-L3-WGS의 레버리징

본 발명자들은 sci-L3-WGS 계획이 프로토콜에 대한 적은 변형으로 분자 생물학의 다른 양상에 잠재적으로 채택될 수 있다는 것을 실현하였다. 이를 입증하기 위해, 본 발명자들은 sci-L3-RNA/DNA 공동검정의 개념 증명 실험을 수행하였다. 간단히, 1회차의 DNA 바코딩은 sci-L3-WGS에서처럼 Tn5 삽입에 의해 수행되지만, 본 발명자들은 1회차의 RNA 바코딩을 동시에 수행하여서, 바코드 및 UMI 보유 polyT 프라이머로 역전사를 통해 mRNA를 태그화한다(도 6A). Tn5 삽입 및 RT 프라이머 둘 다는 2회차의 바코드의 결찰을 매개할 수 있는 오버행, 및 T7 촉진자를 보유하여서, sci-L3-WGS와 대부분 동일한 방식으로 3-수준 인덱싱 및 후속하는 IVT 기반 선형 증폭이 효과적으로 가능하게 한다(도 6A-6B, 실시예 2, "Methods and molecular design of sci-L3-RNA/DNA co-assay" 부문). 개념 증명으로서, 본 발명자들은 2개의 인간 세포주로부터 마우스 세포를 세포와 함께 혼합하고, sci-L3-RNA/DNA 공동검정을 수행하였다. 아주 대부분의 세포에 대해, 판독은 RNA(5.2% 충돌 속도) 및 DNA(6.6% 충돌 속도) 둘 다에 대해 마우스 또는 인간 게놈으로 맵핑된다(도 6C-6D). 더구나, 성공적인 공동검정과 일치하여, 세포의 100%는 이의 RNA 및 DNA 프로필에 의해 동일한 종 표지가 배정된다. 추가의 확인으로서, 본 발명자들은 이의 RNA 프로필에 기초하여 t-SNE 공간에서 인간 세포에서 가시화하였다. 예상된 것처럼, 이들은 2개의 클러스터로 분리된다. Y 염색체의 존재 또는 부재에 기초한 개별 세포의 표지화는 시종일관 96.5% 정확성으로 BJ 세포(수컷) 또는 HEK293T 세포(암컷)(도 6E)에 상응하여 클러스터를 확인하였다.

sci-L3-WGS에 의한 마우스 생식 세포의 단일 세포 DNA 프로파일링

정상 유사분열 세포 분열에서, 이배체 염색체는 DNA의 4개의 카피를 생성하도록 복제를 겪고, 자매 염색분체는 상호 딸 세포로 떨어져 분리한다. 딸 세포는 각각의 모계로 및 부계로 유전된 DNA 서열의 하나의 카피를 수용하고, 동원체-근위 서열에서 이형접합성을 거의 항상 유지시킨다(도 7A). 드물게, 염색체는 염색체 동족체 사이에 유사분열 교차를 겪고, 이는 2개의 재조합된 염색분체가 상이한 딸 세포로 분리하는 경우 교차에 원위인 서열 동원체에서 이형접합성 소실(LOH)로 이배체 세포를 때때로 생성시킬 수 있다(도 7B-C).

감수분열에서, 자매 염색분체는 처음에 동일한 딸 세포로 동시분리하고, 동족체는 "환원 분리"로도 공지된 감수분열 I("MI") 단계에서 상호 딸 세포로 분리하여서, 동원체-근위 서열에서 이형접합성 소실(LOH)로 2C 세포(비복제된 이배체 세포의 DNA 함량)를 생성시킨다(도 7D-E). MI에서의 염색체의 성공적인 환원 분리(도 7D)를 위해, Spo11 촉진된 이중 가닥 파괴(DSB)(Baudat et al., 2000; Keeney et al., 1997; Romanienko and Camerini-Otero, 2000)에 의해 개시된 교차는 염색체 동족체 사이에 링크 및 필요한 긴장(Hong et al., 2013)을 제공한다. 드물게, 염색체는 임의의 동족체간 교차 없이 감수분열 방식으로 분리하여서, 단친성 이염색체(UPD)를 생성시킨다. MI 후, 이 2C 세포는 이후 "균등 분리"라고도 칭하는 감수분열 II("MII")에서 유사분열 유사 염색체 분리를 겪어서, 자매 염색분체는 떨어져 분리하여서 1C 배우자를 형성한다(도 7E). 하기에, 본 발명자들의 연구가 MI에 주로 집중하면서, 본 발명자들은 자매 염색분체가 "환원 분리"로서 함께 분리하는 MI 동안의 감수분열/환원 분리 및 자매 염색분체가 "균등 분리"로서 떨여저 분리하는 MI 동안의 유사분열 유사/균등 분리라 지칭한다.

현재까지, 교차 위치와 염색체 분리 사이의 관계에 관한 현재의 작업은 영상화에 의해 수행되고(Wang et al., 2017a, 2017b), 이는 감수분열 교차의 경향이 있는 기초하는 게놈 서열을 완전히 규명하지 못했다. 몇몇 검정은 감수분열 DSB 핫스팟의 자세한 맵핑을 가능하게 하지만(Lange et al., 2016; Smagulova et al., 2011, 2016), 이 검정은 감수분열 교차를 직접적으로 맵핑하지 않는다. 미세한 척도로 비교차에 대해 교차를 나누는 검정은 아주 적은 핫스팟으로 제한된다(Cole et al., 2014). 결과적으로, 본 발명자들은 본 발명자들이 감수분열 DSB 핫스팟에 대해 아는 것보다 교차와 염색체-척도 특징, 예컨대, 복제 도메인 사이의 관계에 대해 훨씬 덜 안다(Baudat et al., 2013; Choi and Henderson, 2015; Yamada et al., 2017). 게놈-양식 감수분열 교차 맵은 87개의 완전한 감수분열을 함께 분석한 인간 여성 감수분열의 연구의 예외로 효모(Mancera et al., 2008; Zhang et al., 2017), 단일 인간 정자 및 완전한 인간 여성 감수분열(Hou et al., 2013; Lu et al., 2012; Ottolini et al., 2015; Wang et al., 2012)에서 사분자를 맵핑함으로써 생성되고(Hou et al., 2013; Ottolini et al., 2015), 대부분의 교차 맵은 적어도 3개의 점에서 제한된다: 1) 성숙 1C 배우자는 분석되고, 여기서 세포는 감수분열의 회차 둘 다를 완료하였고, 이는 염색체가 MI 동안 환원 대 균등 분리를 겪는지 및 얼마나 자주인지를 평가하도록 더 유익한 중간 2C 세포의 직접적인 관찰을 막는다(도 7); 2) 비정상 세포는 성숙 배우자 상태로 진행하지 못함으로 인해 선택된다; 3) 단일 정자 또는 난모세포 서열분석에 의한 분석은 처리량에서 및 기껏해야 몇백 개의 세포로 제한되고, 그래서 희귀 사건에서 소실한다. 가임 교배에 대해서도, 합당하게 생성되고 유전자형분석될 수 있는 자손의 수는 꽤 제한된다(Liu et al., 2014).

한 번에 모든 이들 제한을 해결하기 위해, 본 발명자들은 sci-L3-WGS를 종간 교배의 불임 자손(암컷 무스 무스쿨루스 도메스티쿠스(Mus musculus domesticus) C57BL/6('B6') x 수컷 무스 스프레투스(Mus spretus) SPRET/Ei(후속하여 'Spret')), 및 종내 잡종의 가임 자손(암컷 B6 x 수컷 무스 무스쿨루스 카스타네우스(Mus musculus castaneous) CAST/Ei('Cast'))으로 적용하였다. 고도로 확장가능한 기술로 정자를 서열분석함으로써, 본 발명자들은 포유류 시스템에 대해, 그리고 불임 및 가임 잡종 둘 다에서 교차 사건의 전례 없는 수를 맵핑할 수 있다. 더구나, 희귀한 2C 2차 정모세포로부터 프로필을 회수하기 위해 sci-L3-WGS의 처리량을 이용함으로써, 본 발명자들은 동일한 단일 세포로부터 동시에 교차 및 염색체 비분리를 또한 평가할 수 있다.

근친교배된 수컷 및 (B6 x Cast) F1 수컷(이들의 부고환은 수백만 개의 성숙 정자를 저장함)과 달리, (B6 x Spret) F1 수컷의 부고환(Berletch et al., 2015)은 극도로 적은 형태학적으로 성숙한 정자 및 제한된 수의 비공지된 배수성의 원형 생식 세포를 함유한다(도 8A-B). 흥미롭게도, 본 발명자들은 1C 정자에 의해 우세한 '정상' 부고환에 대해 예상된 것보다 FACS 동안 2C 세포의 훨씬 더 많은 비율을 관찰하였다(도 8C-D). 회수된 세포의 수 및 이의 추산된 배수성은 표 3에 기재되어 있다. 반대로 그리고 예상된 바대로, (B6 x Cast) F1 수컷의 부고환은 거의 전부 1C 정자를 함유하였다(도 8E). 이 교배에 대해, 본 발명자들은 따라서 분할된 고환으로부터 1C 및 2C 세포를 분류하였다(도 8F).

(B6 x Spret) 및 (B6 x Cast) 교배 둘 다로부터 F1 수컷으로부터의 세포에 대해, 본 발명자들은 선형 증폭, 3회차 바코드를 첨가하기 위한 제2 가닥 합성, 라이브러리 제조 및 서열분석으로 진행하였다(실시예 2, "Setup of sci-L3-WGS experiment in (B6 x Spret) cross and (B6 x Cast) cross" 부문에서의 상세내용). 중요한 점은 1C 및 2C 세포가 정보에 의해 구별될 수 있지만, 이의 상대 풍부도가 여전히 본 발명자들의 분석에 영향을 미친다는 점이다. 구체적으로, (B6 x Spret) 교배에서, 임의의 "이중항"(예를 들어, 함께 달라붙거나 우연히 동일한 바코드를 수용하는 2개의 1C 세포)이 2C 집단에 실질적으로 기여하지 않도록 1C 세포는 희귀하다. 반대로, (B6 x Cast) 교배에서, 2C 세포를 모방하는 많은 1C 이중항이 있을 수 있도록 농후화에도 불구하고 대부분의 세포는 1C(약 85%, 도 8G)이다. 본 발명자들은 나중의 부문에서 진실한 2C 세포로부터 1C 이중항을 어떻게 정보에 의해 구별하는지를 기술한다.

M2 세포는 클러스터링된 환원 또는 균등 염색체 분리를 나타낸다

불임 (B6 x Spret) 교배로부터 M2 세포에서의 염색체 분리

본 발명자들은 처음에 상기 기재된 바대로 얻은 불임 (B6 x Spretus) F1 수컷의 부고환으로부터 세포에서 감수분열을 분석하도록 추구하였다. 2개의 sci-L3-WGS 실험에 걸쳐, 본 발명자들은 2,689개(10k 초과의 원시 판독으로 2,919개의 분류된 세포의 92%) 및 4,239개(30k 초과의 원시 판독으로 4,497개의 분류된 세포의 94%)의 단일 세포의 게놈을 프로파일링하였다. 고유하게 맵핑하는 판독의 수는 도 5F에 도시되어 있다. 2개의 라이브러리에 대한 1.6x 및 1.4x의 서열분석 깊이(도 5에서의 상세내용)에서, 본 발명자들은, 각각 0.7% 및 1.4% 중앙치 게놈 커버리지에 상응하는, 세포마다 약 70k 및 약 144k 고유한 Tn5 부위의 중앙치를 얻었다.

교차 중단점을 확인하기 위해, 본 발명자들은, Spret에 대해 B6으로 명확히 배정된, 고품질 판독에 의존하는 은닉 마르코프 모델(hidden Markov model: HMM)을 실행하였다. (실시예 2, "Methods of bioinformatic and statistical analyses" 부문 참조). 본 발명자들은 1,663개의 1C 세포에서 교차를 규명하였고, 이의 대표적인 예는 도 9A에 도시되어 있다. 또한, 본 발명자들은 교차 사건에 대해 약 5,200개의 2C 세포를 조사하였다. 대부분의 이들 5,200개가 단순히 체세포이지만, 놀랍게도, 본 발명자들은 본 발명자들이 "M2 세포"라 칭하는 상당한 수의 교차를 갖는 292개의 2C 세포를 확인하였다(도 9B 및 도 9C). 훨씬 더 놀랍게도, 이들 세포의 실질적인 비율은 환원보다는 균등 분리를 나타냈다.

2개의 염색체 동족체 사이에 교차가 발생한 후, 염색체가 환원 방식으로 분리하면, 동원체와 교차의 위치 사이의 영역은 동형접합성이 되는 한편, 이형접합성은 교차의 하류에 유지될 것이다(도 7D). 그러나, 염색체가 2차세포분열 방식으로 분리하면, LOH는 재조합된 염색분체가 떨여져 분리하는 경우 교차에 원위인 동원체가 관찰된다(도 7B). 본 발명자들은 염색체가 도 9B에서 예상된 환원 분리를 겪는 M2 세포의 하나의 예(동원체와 교차의 지점 사이의 지속적인 동형접합성 주목), 및 염색체가 예상치 못하게 도 9C에서 균등 분리를 겪는 M2 세포의 하나의 예(동원체와 교차의 지점 사이의 지속적인 이형접합성 주목)를 보여준다. 전체적으로, 292개의 M2 세포에 걸쳐, 본 발명자들은 환원 분리를 겪는 염색체의 4,162개의 예(이들 중에서 3,740개는 교차(90%)를 보유함) 및 균등 분리를 겪는 염색체의 1,310개의 예(이들 중에서 636개는 교차(49%)를 보유함)를 관찰하였다. 그러나, 물론, 본 발명자들이 교차 결과의 하위집단을 확인할 수 없고, 한편 본 발명자들이 환원 분리된 염색체에 대해 모든 교차를 검출할 수 있으므로(도 7C); 균등 분리한 염색체에서의 교차 사건의 수는 더 높을 수 있다.

본 발명자들이 몇몇 염색체가 환원 분리를 나타내고 다른 염색체가 균등 분리를 나타내는 세포의 많은 예를 관찰하지만, M2 세포 내의 개별 염색체의 분리 패턴은 독립적인 것으로 보이지 않는다. 각각의 세포에서의 염색체가 독립적으로 환원 대 균등 분리를 선택하면, 본 발명자들은, 환원 분리하는 염색체의 거의 3 쿼터 및 균등 분리하는 1 쿼터로, 환원 분리의 확률 p(데이터로부터 p=0.76, 4162/5472)의 최대 우도 예상치(MLE)에 집중된, 환원으로 및 균등 분리된 염색체의 이항식 분포를 예상할 것이다(도 9D). 그러나, 본 발명자들이 프로파일링한 292개의 M2 세포 중에서, 본 발명자들은 환원 방식으로 분리한 적어도 15개의 염색체를 갖는 202개의 세포 및 2차세포분열 방식으로 분리한 적어도 15개의 염색체를 갖는 38개의 세포를 관찰하였다(도 9E; 이것은 독립의 추정 하에 각각 예상된 148 및 0 세포로 대조적이다; p = 4e-23, Fisher 정확 시험). 이 개별 M2 세포는 압도적으로 겪는 환원 또는 균등 분리를 향해 편향되어서 세포가 감수분열로 진행하거나 유사분열로 돌아가는지를 결정하기 위해 세포-자율 전체 감지 메커니즘의 가능성을 제안한다.

본 발명자들은 M2 세포에서 염색체가 교차를 갖는지에 의해 세포를 추가로 분류할 수 있다(도 9F). 환원 분리된 염색체는 균등 분리된 염색체(도 9F에서의 녹색)보다 더 많은 교차(도 9F에서의 핑크색)를 갖는 것으로 보인다. 그러나, 본 발명자들이 동원체 LOH로서 모든 교차를 검출할 수 있는 환원 분리된 염색체에서와 달리, 2개의 재조합된 염색분체가 상호 딸 세포로 떨어져 분리하면 균등 분리된 염색체는 오직 LOH를 갖는다(도 7B). 대신에 재조합된 염색분체가 동시분리하면, 이형접합성은 검출 불가능한 계통 전환에도 불구하고 염색체에 걸쳐 유지될 것이다(도 7C). 도 9F에서, 균등 분리된 염색체에서 관찰 가능한 LOH를 갖지 않는 것(청색으로 표시)에 대한 갖는 것(녹색으로 표시)의 비율은 거의 1:1이다. 이것은 이 완전히 이형접합성인 염색체(청색으로 표시)가 계통 전환을 갖는 경우 균등 분리된 염색체가 함께 재조합된 염색분체를 분리시킬 50% 기회를 갖거나; 또는 대안적으로 균등 분리된 염색체가 항상 재조합된 염색분체를 떨어져 분리시키고, 교차 빈도는 환원 분리된 염색체와 비교하여 절반으로 감소한다는 것을 의미한다.

부분 또는 전장 염색체 LOH는 포유류 유사분열 세포에서 희귀하다고 공지되어 있다. 그렁에도 불구하고, 이러한 사건의 유사분열 기원을 배제하기 위해, 본 발명자들은 암컷 (B6 x Spret) F1 마우스로부터 유래된 저절로 불활화된 세포주인 Patski 세포주에서 이러한 사건을 조사하였다. 본 발명자들은 sci-L3-WGS로 Patski로부터 1,107개의 단일 세포를 분석하였고, 이들 중에서 본 발명자들은 M2 세포와 비교하여 훨씬 감소된 속도로 세포마다 평균 0.36 UPD 염색체 및 0.098 부분 LOH 사건을 발견하였다. 본 발명자들은 또한 이들 사건이 반드시 독립적은 아니라는 것에 주목한다. 예를 들어, 세포주의 계대배양에서 초기에 생긴 UPD는 대부분의 자손 세포에서 공유될 수 있어서, 독립적인 LOH 사건의 속도는 훨씬 더 낮을 것 같다. 이들 사건의 분포(Spretus 유래된 염색체에 대해 비교적 균일 및 B6 유래된 염색체에 대해 비균일)는 도 10F에 작도되어 있다.

종합하면, 동일한 기술에 의해 둘 다 측정된, 유사분열 LOH의 낮은 속도(예상됨)와 균등 분리를 나타내는 2C 세포의 비교적 높은 속도(예상되지 않음) 사이의 대비는 후자가 체세포에 매우 상응하지 않을 것이라는 것은 확인시켜준다. 다음의 부문에서, 가임 (B6 x Cast) 교배를 분석함으로써, 본 발명자들은 더구나 1) 여기서 전장 게놈 균등 분리 사건이 2개의 1C 세포의 이중항의 인공물이 아니고, 2) 감소된 속도이더라도 이러한 분리 사건이 또한 가임 종내 잡종에서 발생한다는 것을 보여준다.

가임 (B6 x Cast) 교배로부터의 M2 세포에서의 염색체 분리

본 발명자들은 균등 분리가 또한 종내 (B6 x Cast) F1 수컷의 가임 자손에서 MI 동안 발생하는지 궁금하였다. 상기 기재된 바대로, 이 교배로부터의 부고환은 거의 완전히 1C 성숙 정자로 이루어지고; 본 발명자들은 따라서 전체 고환으로부터 2C 2차 정모세포에 대해 농후화하였다. 본 발명자들은 이후 부고환 및 고환 둘 다로부터 세포에서 sci-L3-WGS를 수행하였다.

이 교배에서의 제1 sci-L3-WGS 실험에서, 회수 및 바코드 충돌 속도를 평가하기 위해 품질 관리에 대해 주로 수행되어서, 본 발명자들은 1C 원형 정세포(round spermatid)를 균등하게 분포시키고, 2회차의 바코딩 후 1C에 대해 오직 분류하였다. 이들이 비-1C라는 사실에 의해 확인된 이중항은 본 발명자들이 바코드 충돌의 속도를 정량화하게 한다. 2,400개의 분류된 세포(200/웰) 중에서, 본 발명자들은 세포마다 7,000 초과의 판독으로 2,127개(89%) 회수하였고; 이들 중 2,008개는 감수분열 교차를 갖는 1C이어서, 5.5%의 바코드 충돌 속도를 나타낸다. 1.06x의 서열분석 깊이에서, 본 발명자들은 약 0.6% 중앙치 게놈 커버리지에 상응하는 세포마다 약 60k 고유한 Tn5 삽입의 중앙치를 얻었다.

이 교배에서의 제2 sci-L3-WGS 실험에서, 본 발명자들은 1회차의 바코딩 동안 별개의 웰에서 고환으로부터의 1C 원형 정세포("바코드 그룹 1"), 고환으로부터의 2C 세포("바코드 그룹 2"; 도 8F에 도시된 바대로 많은 수의 1C 정세포로 오염됨), 및 부고환으로부터 1C 성숙 정자("바코드 그룹 3", 실시예 2, "Setup of sci-L3-WGS experiment in (B6 x Spret) cross and (B6 x Cast) cross" 부문)를 태그먼테이션하였다. 추가의 농후화로서, sci-L3-WGS의 FACS 단계 동안, 웰의 하위집단에 대해, 본 발명자들은 구체적으로 2C 세포에 대해 게이팅하였다(모든 세포의 15.5%, 도 8G). 1.09x의 서열분석 깊이에서, 본 발명자들은 약 0.9% 중앙치 게놈 커버리지에 상응하는 세포마다 약 94k 고유한 Tn5 삽입의 중앙치를 얻었다.

전체적으로, 본 발명자들은 이 제2 sci-L3-WGS 실험으로부터 3,539개의 1C 및 1,477개의 비-1C 세포를 회수하였다. 흥미롭게도, 1C 세포의 97% 초과는 그룹 3(n = 88)보다는 바코드 그룹 1(n = 1,853) 및 2(n = 1,598)로부터 유래되어서, 부고환으로부터의 성숙 정자가 sci-L3-WGS에 의해 잘 회수되지 않는다는 것을 나타낸다. 이것은 상기 (B6 x Spret) 교배로부터 회수된 1C 세포가, 도 8B에서 성숙 형태를 갖는 낮은 수의 정자와 일치하게, 또한 성숙 정자 유래가 아니라 원형 정세포 유래라는 것을 제안한다.

1,477개의 비-1C 세포는 바코드 그룹 1(n = 1,104; 아마도 1C 원형 '의 이중항) 및 바코드 그룹 2(n = 373; 아마도 진실한 M2 세포 및 1C 이중항의 혼합물) 둘 다 로부터 유래하였다. 1C 이중항의 서명을 확인하기 위해, 본 발명자들은 (진실한 M2 세포를 함유하지 않도록 1C 함량에 대해 구체적으로 예비분류된) 바코드 그룹 1로부터의 비-1C 세포의 프로필을 조사하였다. 감수분열 분열의 회차 둘 다를 완료한 1C 세포의 동원체-근위 SNP는 B6 또는 Cast 유래되어야 한다. 1C 이중항에 대해, 이들 영역은 이형접합성 또는 동형접합성을 보일 동일한 기회를 갖는다. 따라서, 임의의 주어진 1C 이중항 내에서, 균등 분리된 것으로 보이는 염색체의 수, 및 환원 분리된 것으로 보이는 수는 n = 19 및 p = 0.5로 이항식 분포를 따라야 한다. 실제로, 이것은 본 발명자들이 바코드 그룹 1로부터의 1C 이중항에 관찰한 것이다(이항식 (19, 0.5)로부터 벗어난 균등 분리된 염색체의 비율의 분포에 대해 p = 0.53, 카이 자승 검증, 도 11A-B). 사실, 균등이든 또는 환원이든, 일치한 방식으로 분리하는 것으로 보이는 적어도 15개의 염색체로 오직 11개의 1C 이중항 세포가 있다.

반대로, 바코드 그룹 2로부터의 비-1C 세포는 매우 상이한 분포를 나타낸다. 373개의 이러한 세포 중에서, 258개는, 균등 또는 환원 분리 패턴을 갖는 염색체의 유사한 수를 갖는다는 점에서, 바코드 그룹 1의 1C 이중항과 유사하다. 남은 115개의 세포는 편향되고, 적어도 15개의 염색체는, 균등이든 또는 환원이든, 일치하는 방식으로 분리하고(도 11C-E; 바코드 그룹 2에 대한 115/373 대 바코드 그룹 1에 대한 11/1,104; p = 3e-70, 카이 자승 검증), 많은 것은 완전히 균등(n = 6) 또는 완전히 환원(n = 91) 패턴을 나타낸다.

비-1C 세포의 3개의 집단을 피팅하기 위한 유한 혼합 모델

이를 더 정식으로 고려하도록, 본 발명자들은 각각의 실험으로부터의 데이터를 3개의 이항식 분포의 베이지안 유한 혼합물로 피팅한다. 상세내용은 실시예 2, "Finite mixture model for fitting the three populations of non-1C cells" 부문 및 도 12에서 제공되고, 중요한 결론은 여기서 요약된다. 첫째로, 종내 (B6 x Cast) F1 수컷의 고환으로부터(즉, 바코드 그룹 2로부터) 비-1C 세포는 환원으로(28%) 대 균등으로(2%) 분리하는 세포의 하위집단, 및 아마도 1C 이중항(69%)을 포함하는 것으로 예상된다(도 12B). 비율은 환원으로(66%) 대 균등으로(14%) 분리하는 세포의 하위집단, 및 아마도 1C 이중항(20%)을 포함하는 것으로 예상된 종간 (B6 x Spret) F1 수컷으로부터의 M2 세포와 다르다(도 12C). 이 분석은 불임 (B6 x Spret) 교배가 환원 분리보다 균등 분리를 향해 편향된 세포의 훨씬 더 높은 비율을 갖는다는 결론을 지지한다.

염색체 수준에서의 감수분열 교차의 분포

본 발명자들은 교차 사건의 게놈 상관관계를 조사하도록 다음에 추구하였다. 종합하면, 본 발명자들은 (B6 x Spret) 교배로부터 19,601개의 교차 중단점을 보유하는 1,663개의 1C 세포 및 4,184개의 교차 중단점을 갖는 240개의 M2 세포, 및 (B6 x Cast) 교배로부터 60,755개의 교차 중단점을 보유하는 5,547개의 1C 세포 및 2,246개의 교차 중단점을 갖는 115개의 M2 세포를 분석하였다. 지식에 의해, 이것은 포유류 감수분열과 연관되어 확인된 교차 사건의 수와 관련하여 전례 없는 데이터세트이다.

sci-L3-WGS의 고속대량 성질은 본 발명자들이 많은 수의 조숙 생식 세포를 분석하고 MII가 아니라 MI를 완료한 희귀한 세포 집단을 확인하여서, 동일한 세포에서 감수분열 교차 및 염색체 비분리 사건을 관찰하도록 허용되었다. 염색체 수준에서 불임 종간 (B6 x Spret) 잡종과 가임 종내 (B6 x Cast) 잡종의 비교에서, 본 발명자들은 MI에서의 하기 결함을 관찰한다: 1) 모든 19개의 상염색체에서 적어도 하나의 교차를 갖는 M2 세포의 비율은 (B6 x Cast)에서의 약 2/3으로부터 (B6 x Spret)에서의 약 1/2로 감소하고; 2) M2 세포마다 교차의 평균 수는 (B6 x Spret)에서 더 낮지만, 1C 세포마다 교차의 평균 수는 더 높고; 3) 교차 간섭은 (B6 x Spret)에서 더 약하고, 여기서 인접한 교차 사이의 중앙치 거리는 97Mb로부터 82Mb로 감소하고; 4) (B6 x Spret) M2 세포에서, 교차는 교배 둘 다의 1C 및 (B6 x Cast) M2 세포(여기서, 이들은 대부분의 동원체-원위 사분위를 선호함)와 반대로 각각의 염색체 아암의 중간에서 발생하는 경향이 있고; 5) 편향된 균등 또는 환원 염색체 분리를 갖는 M2 세포 중에서, (B6 x Spret)는 (B6 x Cast)(8/115)보다 전장 게놈 균등 분리의 유의미하게 더 높은 비율(38/240)을 나타내고; 6) MI에서의 M2 세포 전장 게놈 환원 분리 중에서, 산발적 균등 분리(역분리라고도 칭함(Ottolini et al., 2015))의 평균 수는 0.2로부터 1.1로 증가한다. 이 발견은 교차 형성 및 배치에서의 결함을 포함하는 (B6 x Spret) F1 수컷의 불임에 기여하는 기초 인자를 반영하거나 기여할 수 있는 메커니즘이 염색체마다 적어도 하나의 교차, 및 산발적 및 전장 게놈 균등 분리 둘 다의 증가를 보장하기 위한 메커니즘을 손상시킨다는 것을 제안한다. 이 분석의 상세내용은 도 10, 도 13 및 도 14 및 실시예 2, "Distribution of meiotic crossovers at the chromosomal level" 부문에 제시된다.

게놈의 풍경과 관련한 감수분열 교차 사건의 분포

교차 격렬을 조절하는 게놈 특징

더 미세한 척도에서의 교차의 분포를 평가하기 위해, 본 발명자들은 각각의 쥣과 염색체를 따라 "격렬 맵"을 생성하기 위해 모든 교차 사건을 붕괴시켰다. 본 발명자들은 처음에 이 맵을 단일 가닥 DNA 서열분석(SSDS) 맵(Brick et al., 2018; Smagulova et al., 2011, 2016) 및 가장 높은 해상도에서 감수분열 DSB 핫스팟을 확인하는 Spo11 올리고뉴클레오타이드-복합 맵(Lange et al., 2016)과 비교하였다(도 15A). 이들 2개의 맵핑 방법으로부터의 B6 균주에서의 DSB 맵은 100kb 윈도우을 따라 서로 강하게 상관된다(rho = 0.87, p < 2e-308). 본 발명자들의 1C 및 M2 세포 교차 파일업이 서로 상관되지만((B6 x Spret) 교배에 대한 rho = 0.67 및 (B6 x Cast) 교배에 대한 rho = 0.55, 둘 다에 대해 p < 2e-308, 도 15B-C), 둘 다는 DSB 맵으로부터 일탈한다. 연관되어, 핫스팟 사양에 대한 주요 플레이어인 PRDM9 유전자는 마우스의 아종 사이에서도 갈라진 마우스 균주 사이에 상이한 모티프에 결합하도록 진화되었다(Davies et al., 2016; Gregorova et al., 2018). 본 발명자들은 실시예 2, "Effect of PRDM9 on crossover hotness" 부문에서 2개의 교배 사이의 차이에 대한 이의 잠재적인 효과를 토의한다.

감수분열 특이적 DSB의 불과 10%는 교차로서 보수된다. 본 발명자들은 다음에 베이지안 모델 평균화(Bayesian Model Averaging: BMA)에 의해 선형 모델을 구축함으로써 Spo11을 넘어 어떤 인자가 교차 형성에 기여하는지 살펴보았다(Clyde et al., 2011). 여기 적용된 것처럼, BMA는 조사된 가중된 평균 15,000개 초과의 가변 선택 모델을 취하고, 각각의 모델의 사후 확률에 의해 이를 가중시키고, 이는 Lasso 회귀와 같은 몇몇 다른 가변 선택 기법과 달리 모델 선택에서의 불확실성을 설명한다. 본 발명자들은 약 80개의 잠재적으로 탐색적인 변수에 대해 주변 포함 확률(MIP)을 정량화하였다. 감수분열 교차와 관련된 것으로 공지된 특징부, 예컨대, Spo11 파괴 부위, GC 함량 등은 높은 확률로 거의 모든 모델에 포함되고(도 16A, 도 17); 예를 들어, 높은 GC 함량을 갖는 영역은 교차 형성에 더 격렬하고, 본 발명자들은 또한 감수분열 교차에서 이전에 연루되지 않은 약간의 더 많은 특징부, 예컨대, 반복부 및 염색질 마크의 특정한 패밀리, 및 특히 초기 복제 도메인을 발견하였다. 교차 격렬과 모든 특징부 사이의 상관 행렬은 각각의 교배에 대해 도 18 내지 도 19에 작도된다. 사용된 특징부 및 단순한 선형 모델 및 BMA의 요약은 포함된다. 중단점 해상도((B6 x Spret)에 대해 중앙치 약 150kb 및 (B6 x Cast)에 대해 약 250kb; 도 16B)는 단일 세포 서열분석(150 내지 500kb)에 의해 감수분열 교차를 맵핑하려는 이전의 노력과 동등하지만(Lu et al., 2012; Ottolini et al., 2015; Wang et al., 2012); sci-L3-WGS에 의해 제공된 더 높은 라이브러리 복잡함은 본 발명자들이 훨씬 더 낮은 서열분석 깊이를 갖는 것을 달성하게 한다.

교차 형성과 상관되는 많은 특징부는 (B6 x Spret) 및 (B6 x Cast) 교배 사이에 일관되지만, 몇몇은 그렇지 않다. 예를 들어, 교차 형성의 위치 편향은 상이한 것으로 보인다. 교배 둘 다의 1C 세포, 및 (B6 x Cast) 교배에서의 M2 세포에서, 교차는 동원체로부터 10Mb 내에 적게 표시되고, 오히려 가장 오른쪽 위치상 '사분위'에서 텔로머와 가깝게 발생하는 경향이 있다(도 18). 그러나, (B6 x Spret) 교배에서 M2 세포에서, 교차는 동원체 근처에서, 그리고 텔로머 근처에서 적게 표시되고, 오히려 중앙 사분위수에서 발생하는 경향이 있다(도 19). 이 경향은 선형 모델에서 유효하고, 여기서 본 발명자들은 모든 다른 특징부로부터의 기여를 설명한다.

교차의 위치는 염색체 동족체 사이에 강제된 긴장의 양에 크게 영향을 미칠 수 있고, 이는 결국 적절한 염색체 분리를 수월하게 한다. 본 발명자들은 따라서 각각의 세포에서 각각의 염색체에 대해 오직 가장 오른쪽의 교차를 취하고 각각의 교배에서 염색체 아암을 따라 이의 위치를 조사함으로써 더 자세히 이것을 탐구하였다(de Boer et al., 2015). 선형 혼합 효과 모델로 염색체간 변동성에 설명하여, 본 발명자들은 (B6 x Spret) 교배에서의 가장 오른쪽의 교차의 위치가 1C 세포에서 (B6 x Cast) 교배에서의 것보다 평균적으로 1.6Mb 더 동원체-근위이지만(도 20A, p = 1e-13, F 시험), M2 세포에서 5.5Mb 더 동원체-근위(도 16C, p = 2.2e-15)라고 추산한다. M2 세포에서의 가장 오른쪽의 교차가 교배 둘 다에서 1C 세포에서보다, 그러나 더 높은 정도로 (B6 x Cast) 교배(도 20B)에서보다 (B6 x Spret) 교배(도 16D)에서 더 동원체-근위인 경향이 있다는 것에 주목한다. 이 차이는 교차가 동원체에 너무 가깝게 발생하는 (B6 x Spret) 교배에서의 M2 세포의 하위집단이, 가능하게는 MII 분리에서의 결함으로 인해, 1C 세포로 성숙시킬 수 없다는 것을 제안한다. 유사하게, 제한된 수의 사건이지만, 본 발명자들은 또한 편향된 염색체 분리를 갖는 M2 세포에서의 교차의 위치를 비교하였고, 교배 둘 다에서 편향된 균등 분리를 갖는 세포에서의 교차가, (B6 x Cast) 교배에서의 13.7Mb(p = 4e-15) 및 (B6 x Spret) 교배에서의 8.7Mb(p = 6e-14)의 차이로(도 20C-D), 편향된 환원 분리를 갖는 세포에서보다 더 동원체-원위라는 것을 발견하였다. 이것은 텔로머에 너무 가까운 교차를 갖는 세포에서의 가능한 MI 분리를 제안한다. 본 발명자들은 도 20E에서의 이 관찰을 설명할 잠정적인 모델을 제안한다.

교차 중단점의 면에서 세포 이질성

1C 및 M2 세포가 교차 파일업에서 광범위하게 유사하다고 보이지만(도 15), 본 발명자들은 단일 세포의 하위집단에서 교차 분포에 영향을 미치는 특징부에 임의의 구조가 있는지를 궁금했었다. 이를 탐구하기 위해, 본 발명자들은 78개의 특징부의 각각에 대해 각각의 단일 세포에 대한 교차 관련된 정보를 집계하였다(실시예 2, "Methods of bioinformatic and statistical analyses" 부문). 본 발명자들은 이후 하나의 단일 세포로서 각각의 열 및 하나의 요약된 특징부 값으로서 각각의 행을 갖는 행렬에서 주성분 분석(PCA)을 사용하였다. (B6 x Spret) 교배에 대해, 처음의 2개의 주성분(PC)은 변량의 26%를 포획하고, (B6 x Cast) 교배에 대해, PC1 및 PC3은 변량의 17%를 포획한다. 교배 둘 다에서, 1C 및 M2 세포는 이 PC에 의해 2개의 클러스터로 분리된다. 도 21 및 도 22에서, 본 발명자들은 이 PC에서 계획된 각각의 특징부를 작도한다. 교차의 염색체 분포, 단친성 염색체 및 염색체 사분위수에서의 교차의 위치는 1C 및 M2 세포의 분리를 추진시키는 것으로 보이는 특징부이다.

게놈 특징으로부터 교차 트랙의 예측

마지막으로, 본 발명자들은 교차 위치의 예측적 모델을 구축하도록 여기서 관찰된 다수의 사건을 이용하도록 추구하였다. 구체적으로, 본 발명자들은 2진법 반응의 선형 모델을 구축하고, 1은 교차 트랙이고, 0은 동일한 트랙 길이 분포로부터 게놈으로부터 샘플링된 무작위 트랙이다(실시예 2, "Methods of bioinformatic and statistical analyses" 부문에서의 상세내용). BMA 분석에서처럼 동일한 76개의 특징부를 사용하여, 본 발명자들은 (B6 x Spret) 교배에 대해 0.73의 평균 수신자 조작자 곡선(ROC) 곡선 하 면적(AUC)으로 홀드-아웃 데이터에서 교차 트랙을 예측할 수 있다. BMA에 의해 확인된 높은 포함 확률(MIP>0.5)의 25개의 변수의 하위집단으로, 본 발명자들은 0.72의 유사한 평균 AUC를 달성한다(도 16E). 유사하게, (B6 x Cast) 교배에 대해, 본 발명자들은 모든 특징부 또는 MIP >0.5를 갖는 25개의 특징부의 하위집단이 사용될 때 0.85의 평균 AUC를 달성한다(도 16F).

토의

여기서 본 발명자들은 3-수준 단일 세포 조합 인덱싱 및 선형 증폭을 조합하는 프레임워크인 sci-L3을 기재한다. 본 발명자들은 sci-L3이 단일 세포 전장 게놈 서열분석(sci-L3-WGS), 단일 세포 표적화된 DNA 서열분석(sci-L3-표적-seq) 및 게놈 및 전사체의 단일 세포 공동검정(sci-L3-RNA/DNA)에 적용 가능하다는 것을 입증한다. sci-L3-WGS로, 단일 세포 게놈의 적어도 수천 수만의 및 가능하게는 수백만 개는 10k 세포에 대해 세포마다 0.14 달러 및 1M 세포에 대해 세포마다 0.008 달러의 라이브러리 작제 비용에서 2일 실험에서 처리될 수 있다. sci-L3-WGS의 처리량은 선형 증폭, 예컨대, '관내' LIANTI에 기초한 대안적인 단일 세포 WGS 방법보다 더 높은 규모의 차수이다(Chen et al., 2017). 이것은 더구나 많아도 수천(Pellegrino et al., 2018) 또는 많아도 수천 수만(Vitak et al., 2017)으로부터 수십만으로 각각의 단일 세포로부터 회수된 고유한 분자의 수에서 개선한다.

본 발명자들은 수컷 마우스 감수분열을 연구하도록 sci-L3-WGS를 적용하고, M2 세포의 예상되지 않은 집단을 확인하였다. 데이터의 단일 세포 성질은 또한 본 발명자들이 감수분열 교차 및 염색체 비분리를 동시에 규명하게 하였다. 역분리 사건은 이전에 인간 여성 감수분열의 완전한 분석에서 관찰되고(Ottolini et al., 2015), 본 발명자들은 마우스 수컷 감수분열(즉, 하나 또는 몇몇 염색체의 균등 분리)의 맥락에서 여기서 유사한 사건을 관찰한다. 본 발명자들이 (B6 x Spret) 교배로부터 분석한 292개의 M2 세포 중에서, 개별 세포는 균등 또는 환원 염색체 분리를 향해 편향되어서, 세포가 감수분열로 진행하는지 또는 이의 염색체의 유사분열 분리로 돌아가는지를 결정하기 위한 전체 감지 메커니즘을 제안한다. 또한, 포유류 감수분열에서 처음으로 지식에 의해, 본 발명자들은 MI 동안 전장 게놈 균등 분리의 다수의 경우를 관찰하여서, 균등 분리의 염색체 자율 방식보다는 세포 자율을 제안한다. 본 발명자들은 가임 (B6 x Cast) 교배에서 더 희귀하지만 교배 둘 다에서 이러한 사건을 확인하였다.

특히 종간 (B6 x Spret) 교배에서 염색체 자율 메커니즘(2^-19의 속도)에 예상된 것과 비교할 때 전장 게놈 역분리의 높은 발생률은 이것이 대답하는 더 많은 질문을 제기한다. 본 발명자들은 모델을 도시하고, 도 23에서 몇몇 해결되지 않은 질문을 강조한다. 정상 MI에서, 동원체 코헤신은 환원 분리에서 유지되고, 교차에 동원체-근위인 자매 염색분체는 MII까지 분할하지 않는다(도 23D에서의 패턴 1). MI에서의 균등 분리는 조숙 동원체 코헤신 분리를 나타낸다(도 23D에서의 패턴 2 및/또는 3). 이전의 작업은 또한 동족체 짝 짓기가 PRDM9 결합 부위의 부식으로 인해 이 F1 교배에서 결함일 수 있고(Davies et al., 2016; Gregorova et al., 2018; Smagulova et al., 2016), 짝 짓기 문제가 종간 교배에서 아마도 더 심각하다는 것을 나타낸다. 실시예 2, "Speculations on the causes and consequences of reverse segregation" 부문에서, 본 발명자들은 1) 무엇이 조숙 동원체 코헤신 분리를 발생시키는지, 2) 하나의 교차가 적절한 환원 분리에 충분한지, 및 3) MI에서의 균등 분리가 어떤 결과를 갖는지 추축한다.

개선된 게놈 커버리지는 다른 단일 세포 서열분석 방법과 비교하여 교차 중단점의 고해상 맵핑이 가능하게 하고, 전체 약 87,000개의 교차를 맵핑하기 위한 처리량은 본 발명자들이 파일업 데이터로 교차 격렬과 연관된 게놈 및 에피게놈 특징부를 더 잘 규명하게 한다. 본 발명자들은 교차 격렬의 연속체가 실시예 2, "Crossover hotness and associated (epi)genomic factors" 부문에서 많은 인자에 의해 어떻게 형상화되는지 기술한다.

sci-L3의 개발에서 트랜스포슨 삽입(LIANTI)을 통해 단순히 고속대량 단일 세포 조합 인덱싱("sci") 계획을 선형 증폭과 조합함으로부터 하나의 중요한 차이는 본 발명자들이 결찰에 의해 T7 촉진자를 도입한다는 것이고, 이것은 2회차 초과의 세포 바코딩이 가능하게 하고 훨씬 감소한 비용으로 처리량을 추가로 증가시킬 뿐만 아니라, 프로토콜의 적은 수정으로 다른 단일 세포 검정에 상기 방법을 일반화할 융통성을 제공한다. 제1 예로서, 본 발명자들은 sci-L3-WGS가 sci-L3-표적-seq에 쉽게 적응될 수 있다는 것을 입증한다. 단일 세포 표적화된 서열분석이 10X Genomics 플랫폼으로 보고되었지만, 본 발명자들의 지식으로, 이것은 DNA 유전좌위보다는 RNA 전사체를 갖는다. 단상형마다 현재의 10% "회수율"이 표적화된 서열분석에 이상적이지 않을 수 있지만, 이것은 분리될 수 있는 많은 수의 세포에 의해 완화된다. 제2 예로서, 본 발명자들은 sci-L3-WGS가 sci-L3-RNA/DNA 공동검정에 또한 적응될 수 있다는 것을 입증한다. 본 발명자들은 처리량 및 증폭 통일성의 면에서 이 목표에 대해 공개된 sci- 방법(Cusanovich et al., 2015; Mulqueen et al., 2018; Ramani et al., 2017)에 비해 이점을 가질 수 있는 각각 염색질 접근성, 메틸놈 및 염색질 구성의 단일 세포 프로파일링에 대해 sci-L3을 ATAC-seq, 바이설파이트-seq 및 Hi-C로 적응시키는 것이 추가로 가능할 수 있다고 기개된다.

요약하면, sci-L3-WGS, sci-L3-표적-seq 및 sci-L3-RNA/DNA 동시검정은 단일 세포 서열분석에 대한 도구세트를 확장시킨다. 이 연구에서, 본 발명자들은 더구나 sci-L3-WGS가 감수분열 재조합의 시스템상 및 정량적 관점을 어떻게 제공할 수 있는지 보여주고, 처리량의 전례 없는 조합으로 희귀한 전장 게놈 염색체 비분리 사건을 알아냈다. 본 발명자들은 단일 세포 게놈 서열분석이, 예를 들어, 희귀한 동족체간 유사분열 교차를 연구하고 유전자 이질성 및 암의 진화를 해부하기 위해 전환적이라 입증한 다른 맥락에서 sci-L3 방법이 매우 유용할 것으로 기대한다.

참고문헌

실시 2

비-1C 세포의 3개의 집단을 피팅하기 위한 유한 혼합 모델

바코드 그룹 2로부터 (B6 x Cast) 잡종으로부터 회수된 비-1C 세포는 1C 이중항, 균등 분리를 향해 편향되게 보이는 세포 및 환원 분리를 향해 편향되게 보이는 세포를 포함한다. 상대 비율을 정량화하기 위해, 본 발명자들은 0.01, 0.48 및 0.95의 균등 분리하는 염색체의 확률 및 0.28, 0.69 및 0.02의 혼합 비율로 3개의 이항식 분포의 혼합물에 데이터를 피팅한다(도 12A). 반대로, 본 발명자들이 3개의 이항식 분포의 혼합물에 바코드 그룹 1로부터의 비-1C 세포를 유사하게 피팅하도록 시도할 때, 본 발명자들은 0.46, 0.5 및 0.53의 균등 분리하는 염색체의 확률(모두 0.5에 가까움), 및 0.24, 0.44 및 0.31의 혼합 비율(도 12B)을 얻는다.

균등 대 환원 분리를 향해 편향된 M2 세포의 비율이 가임 및 불임 교배 사이에 다른지의 질문을 향해, 본 발명자들은, 0.05, 0.39 및 0.91의 균등 분리하는 염색체의 확률 및 0.66, 0.2 및 0.14의 혼합 비율을 생성시키는(도 12C), (B6 x Spret) 교배로부터 염색체 데이터를 유사하게 피팅할 수 있다(도 9E). 이 비율은 불임 (B6 x Spret) 교배가 환원 분리보다 균등 분리를 향해 편향된 세포의 더 높은 비율을 갖는다는 것을 제안한다.

염색체 수준에서의 감수분열 교차의 분포

(B6 x Spret) 교배로부터 19,601개의 교차 중단점을 보유하는 1,663개의 1C 세포 및 4,184개의 교차 중단점을 갖는 240개의 M2 세포, 및 (B6 x Cast) 교배로부터 60,755개의 교차 중단점을 보유하는 5,547개의 1C 세포 및 2,246개의 교차 중단점을 갖는 115개의 M2 세포에 기초하여, 본 발명자들은 처음에 염색체에 걸쳐 감수분열 교차의 분포를 고려한다. 교차 밀도는 (1C 세포에서) 2 또는 (M2 세포에서)를 곱한 Mb마다 분열마다 세포마다 교차의 평균 수로서 여기서 정의된다. (B6 x Spret) 교배에서, 본 발명자들은 1C 세포에서의 염색체 크기와 교차 밀도 사이의 강한 음의 상관관계를 관찰하였다(도 13A, r = -0.66, p = 0.002). 이전의 발견과 일치하여(Lange et al., 2016), 이 상관관계는 Spo11 올리고뉴클레오타이드 복합체 밀도(r = -0.46, p < 0.05)에 의해 오직 부분적으로 설명되어서, 더 적은 염색체가 더 많은 DSB를 지속시키고, 이 DSB가 교차를 더 생성시킬 것 같다고 제안한다. 이 음의 상관관계는 M2 세포에서 훨씬 더 강하다(도 13B, r = -0.83, p = 1e-5). 도 10A-B에서, 본 발명자들은 단일 사건으로서 세포마다 염색체마다 다수의 교차의 경우를 고려하고, 이는 훨씬 더 음의 상관관계를 강화시킨다(1C 세포에 대해 r = -0.87, p = 2e-6; M2 세포에 대해 r = -0.91, p = 8e-8). 이 관찰은 더 작은 염색체가 교차에 대해, 그리고 특히 세포 분열마다 적어도 하나의 교차를 갖는 것에 대해 더 격렬하다고 제안한다. 동일한 경향은 (B6 x Cast) 교배에서 관찰된다(도 14A-D). 1C 세포는 각각 종간 및 종내 교배에 대해 세포마다 염색체마다 평균 0.62 및 0.58 교차를 갖는 한편, M2 세포는 세포마다 염색체마다 평균 0.92 및 1.03을 갖는다(도 13C-D, 10C-D). 종간 M2 세포에서의 교차 속도는 2%의 서열 일탈에도 불구하고 B6 근친 교배된 마우스에서 4C 정모세포에서의 Mlh1 포커스에 측정된 교차 계수치보다 불과 9% 더 낮다(Froenicke et al., 2002). 1C 세포에서의 교차 속도는 단일 인간 정자 서열분석에서 관찰된 것보다 45% 더 낮다(Lu et al., 2012; Wang et al., 2012). 후자의 차이는 대부분 마우스 염색체의 말단동원체로 인할 수 있다. 종간 (B6 x Spret) 교배가 (B6 x Cast) 교배(p = 7e-26, Mann-Whitney 시험)와 비교하여 1C에서 검출된 교차의 더 높은 평균 수를 갖지만, M2 세포에서의 교차의 평균 수는 더 낮다(p = 2e-10). 본 발명자들은 모든 염색체에서 교차를 갖는 모든 19개의 상염색체를 환원 분리시키는 M2 세포의 비율이 (B6 x Spret) 교배(41/80 또는 51%)(p = 0.06, Fisher 정확 시험)보다 (B6 x Cast) 교배(66%의 60/91)에 대해 더 높다는 것(이것은 전자의 불임에 기여할 수 있음)에 주목한다.

교차 간섭을 조사하기 위해, 본 발명자들은 적어도 2개의 교차를 갖는 염색체를 취하고, 인접한 교차 사이의 거리를 작도하고, 무작위 모의에 기초하여 이 분포를 기대와 비교하였다(도 13E, 도 10E, 도 14E). 교차 사이의 중앙치 관찰된 거리는 (B6 x Spret)에 대해 82Mb 및 (B6 x Cast)에 대해 97Mb이고; 둘 다는 39 및 42Mb의 기대보다 훨씬 더 크다(p = 1e-267 및 p < 2e-308, 각각, Mann-Whitney 시험). 이는 매우 근접하여 교차의 반발과 일치한다. 교차 간섭이 (B6 x Spret) 교배보다 (B6 x Cast)에서 더 강하고, 인접한 교차 사이에 거리가 더 길다는 것에 주목한다(p = 5e-91).

본 발명자들은 또한 (B6 x Spret) 교배(동일한 경향은 (B6 x Cast) 교배에 유지, 도 14F-G에 도시)에서 각각의 단일 세포(도 13F)에서 그리고 각각의 염색체(도 13G)에 대해 단친성 염색체(즉, 관찰된 교차가 없음)의 분포를 분석하였다. 길이에 의해 정규화될 때 더 짧은 염색체가 증가된 교차 속도를 나타내지만, (모든 세포 종류에 대해 붕괴된) 단친성 염색체의 비율은 염색체 크기와 여전히 부적으로 상관된다(도 13G; r = -0.91, p = 4.6e-8).

본 발명자들이 M2 세포가 이의 염색체의 균등 또는 환원 분리를 향해 강하게 편향된다고 나타냈지만, 본 발명자들은 또한 환원 분리를 갖는 적어도 15개의 염색체를 갖는 세포 중에서 수백 개의 산재된 균등 분리 사건을 관찰하였다. 이 현상은 이전에 관찰되었고, "역분리"라 칭해진다(Ottolini et al., 2015). 도 13H에서, 본 발명자들은 이 역분리 사건의 염색체 분포를 보여준다. 역분리의 속도가 (B6 x Cast) 교배(평균 = 0.2, p = 2e-14, Mann-Whitney 시험)보다 (B6 x Spret) 교배(평균 = 1.1)에서 유의미하게 더 높지만, 염색체 7 및 11이 교배 둘 다에서 가장 높은 역분리의 속도를 갖는다는 것에 주목한다.

본 발명자들은 이후 미토콘드리아 게놈에 맵핑하도록 세포마다 판독의 정규화된 비율을 조사하였다(도 13I, 도 10G). 1C 세포는 본 발명자들이 성공적인 설명이 부족한 관찰인 미토콘드리아 DNA의 "카피수"의 면에서 이봉 분포를 나타낸다. 본 발명자들은 미토콘드리아 판독 비율과 교차의 수 사이의 적절한 음의 상관관계를 관찰하였다(rho= -0.11, p=3e-6). 흥미롭게도, 제한된 수이지만, 균등 대 환원으로 이들의 염색체의 적어도 15개를 분리시킨 M2 세포는 미토콘드리아 판독 비율의 매우 상이한 분포를 가졌다(도 10G). 이와 일치하게, 미토콘드리아 판독 비율은 M2 세포에서 환원 분리된 염색체의 수와 양으로 상관된다(r = 0.18, p = 0.005). 서열분석된 단일 세포의 90% 초과가 미토콘드리아 게놈으로 맵핑하는 임의의 판독을 가지지 않으므로, 본 발명자들이 (B6 x Cast) 교배에서 이것을 평가할 수 없다는 것에 주목한다. 상이한 방법이 고환 (B6 x Cast) 대 부고환 (B6 x Spret)로부터 핵 단리에 사용되고, 고환으로부터의 핵의 예비분류와 커플링되고, 벌크 핵으로부터 미토콘드리아를 단편화시킬 수 있다.

교차 격렬에서의 PRDM9의 효과

게놈에 걸쳐 염색체를 따라 교차 중단점을 파일링함으로써 교차 격렬 맵에 기초하여(도 15), 본 발명자들은 종내 (B6 x Cast) 교배에서 교차 격렬이, 가능하게는 F1 잡종에서 반우성인 Cast PRDM9 대립유전자의 결과로서, B6 수컷(rho = 0.28 및 0.12, p < 2e-308 및 p = 1e-83, 각각)에서보다 Cast 수컷에서 맵핑된 DSB 핫 도메인과 더 양호히 상관된다는 것을 발견하였다. 상관관계는 (B6 x Cast) F1 동물(rho = 0.3, p < 2e-308)에서 맵핑된 DSB 핫 도메인에 의해 더 강하다. (B6 x Spret) 교배에 대해, PRDM9 공통 결합 부위의 부식은 Spo11 올리고뉴클레오타이드-복합체 맵에 의해 한정된 DSB 핫스팟의 4개의 유형을 생성시킨다: "대칭" 핫스팟이라 칭하는 B6 및 Spret 사이에 보존된 것, "비대칭" 핫스팟이라 칭해지는 B6 또는 Spret에 오직 존재하는 것 및 어느 한 종에서 PRDM9 결합 부위를 함유하지 않는 것. DSB 핫 도메인의 모든 4개의 유형은 (B6 x Spret) 교배로부터의 교차와 불량하게 상관된다(B6에서 맵핑된 모든 Spo11 핫스팟을 사용하는 것에 대해 rho = 0.13, p = 4e-87; 본 발명자들이 오직 "비대칭 핫스팟"을 사용하는 경우 rho = 0.11, p = 3e-63). 하나의 가능성은 (B6 x Spret) 교배에서의 DSB 부위가 Spret PRDM9 대립유전자에 의해 강하게 지배되어서, B6 균주 배경에서 맵핑된 DSB 핫스팟이 교차의 부위를 예측하지 않는다는 것이다.

역분리의 원인 및 결과에 대한 추측

본 발명자들은 특히 종간 (B6 x Spret) 교배에서 역분리의 높은 발생률을 관찰하였다. 아래에 본 발명자들은 1) 무엇이 조숙 동원체 코헤신 분리를 야기하는지, 2) 하나의 교차가 적절한 환원 분리에 충분한지, 및 3) MI에서의 균등 분리가 어떠한 결과를 가질 수 있는지를 추측한다.

첫째로, B6 및 Spret 염색체 사이의 불충분한 동족체 짝 짓기로 인해, 감수분열 동안 동족체를 정상으로 보수해야 하는 DSB가 주형으로서 자매 염색분체를 사용하여 대신에 흔히 보수될 수 있다는 것이다. 이것은 코헤신의 파괴를 초래하고(Storlazzi et al., 2008), 조숙 동원체 코헤신 분리를 발생시킨다.

둘째로, 현재의 모델은 하나의 동족체간 교차 및 적절한 자매 염색분체 코헤신이 종간 교배에서 초기 불충분한 동족체 짝 짓기에도 불구하고 교차점을 형성하기에 충분하다고 제안한다(도 23). 교차가 성공적으로 형성되면, 염색체 분리는 손상되지 않아야 한다. 본 발명자들의 연구에서, 개별 염색체 수준에서, 관찰된 많은 수의 균등 분리된 염색체는 동원체-원위 LOH에 의해 입증된 것처럼 정상 교차를 갖고, 이것은 초기 동족체 짝 짓기에서의 결함이 궁극적인 결과에 영향을 미친다는 것을 나타낸다. 그러나, 게놈 수준에서, 본 발명자들이 환원 분리하는 염색체에 대해 모든 교차를 검출할 수 있지만, 본 발명자들이 2개의 재조합된 염색분체가 떨어져 분리할 때 균등 분리된 염색체에서의 교차를 오직 검출할 수 있으므로, 본 발명자들은 편향된 균등 분리를 갖는 이들 세포가 이의 환원 편향된 대응물과 유사한 수의 교차를 갖는지를 자신있게 평가할 수 없다(도 5B-C 및 도 16D, 패턴 2 및 3). 재조합된 염색분체가 동등하게 함께 또는 떨어져 분리할 것 같다고 추정하여, 교차의 수는 이 게놈-수준 균등 분리 경우에서 더 적지 않지만, 본 발명자들은 비분해된 재조합 중간체로 인해 분리가 50/50로부터 편향될 가능성을 배제할 수 없다(도 23, 패턴 3).

셋째로, 무엇이 이 균등 분리된 염색체의 결과인가? 이들이 유사분열로 돌아가서, 광범위한 LOH를 보유하거나, 이들이 MII로 진행하고, 그렇다면, 1C 배우자의 형성에 기여하는가? 효모에서, "성장으로 복귀"라 불리는 현상은 규명되고, 여기서 감수분열 프로그램을 개시한 세포는 적절한 영양소의 존재 하에 정상 유사분열 분할로 되돌아갈 수 있어서, 다수의 LOH 사건을 생성시킨다(Dayani et al., 2011). 인간 여성 감수분열에서, 역분리를 갖는 염색체는 MII로 진행하여서, 정상 MII 분리와 일치하는, 하나의 정배수체 난모세포 및 하나의 정배수체 극성 바디 2를 생성시키고; 저자들은 비분해된 재조합 중간체가 둘 다 MI에서 역분리를 야기하고 달리 비연관된 동족체 염색분체를 연결함으로써 적절한 MII 분리를 촉진할 수 있다고 제안한다(도 23, 패턴 3)(Ottolini et al., 2015). Mlh1은 미스매치 보수(MMR) 둘 다에서 그리고 감수분열에서 홀리데이 접합부 중간체를 해성하기 위해 중요하다. B6 및 Spret 사이의 2% 서열 일탈을 고려하면, Mlh1이 집중적인 MMR로 인해 제한인 것이 가능하고, 재조합 중간체를 분해하기 위해 충분한 Mlh1이 있을 수 없다. 그러나, 본 발명자들은 재조합된 동족체 염색분체가 동시분리하는 경우 이것이 LOH를 발생시키지 않는다고 강조한다(도 5C). 따라서, LOH 및 균등 분리를 갖는 M2 세포는 비분해된 중간체의 동시분리에 의해 설명될 수 없다.

마지막으로, 도 23에서, 본 발명자들은 또한, 패턴 중 하나(패턴 4)가 교차를 갖지만 재조합된 염색분체를 동시분리하는 세포로부터 구별 가능하지 않으므로(패턴 3), 아마도 불충분한 동족체 짝 짓기로 인해, 임의의 동족체간 교차 없이 염색체로부터 배우자를 형성하는 것에 가능한 기여를 나타낸다. 그러나, 교차가 없는 이들 세포가 1C 세포에 유의미하게 기여하는 경우, 본 발명자들은 1C 세포 중에서 교차-유리 염색체의 더 많은 수를 관찰해야 한다. 본 발명자들이 교배 둘 다에서 관찰한 1C 세포 중에서, 교차를 갖는 염색체 및 갖지 않는 것의 수는 거의 50-50이어서, 이들이 도 23에서 패턴 1-3의 여러 조합으로부터 주로 유래하고, 동족체간 교차가 없는 2C 세포(패턴 4 및 5)가 MII를 성공적으로 완료한 1C 세포에 실질적으로 기여하지 않는다는 것을 나타낸다.

교차 격렬 및 연관된 (에피)게놈 인자

교차 격렬은 연속체이고 많은 인자에 의해 형상화된다. (B6 x Cast) 교배에서의 교차는, 신규한 감수분열 핫스팟이 F1 잡종에서 형성할 수 있는 이전의 발견에 기초하여 예상된, 2개의 부모 균주에 대해 개별 맵에서보다 F1 교배에서 맵핑된 감수분열 DSB 핫스팟와 더 강하게 상관된다(Smagulova et al., 2016). (B6 x Spret) 교배에서, 교차는 Spo11 파괴와 약하지만 양으로 상관된다. Spo11 맵이 B6 대립유전자의 PRDM9 단백질에 의해 결합된 PRDM9 부위에 오직 설명한다는 것에 주목하고, PRDM9의 Spret 카피가 상이한 부위에 결합하고, 본 발명자들의 분석에서 설명되지 않는 새로운 감수분열 DSB 핫스팟을 생성한다. 본 발명자들이 감수분열 교차와 양으로 상관된다고 관찰한 게놈 특징은 GC 농후 영역(또한 효모 감수분열에서의 경우(Petes, 2001; Petes and Merker, 2002)), 균주 사이의 CNV 이득(Lilue et al., 2018), 유전자 바디, 모조유전자 전사체, CTCF 결합 부위, 복제 도메인(Marchal et al., 2018), DNA 트랜스포슨, 부수체 DNA 및 히스톤 변형의 하위집단, 예를 들어, H3K4me1, H3K27me3 및 H3K36me3(Mu et al., 2017)을 포함한다. 아주 흥미롭게, 수컷 생식 세포에서 유사분열로부터 감수분열 분할로의 전환을 조절하는 데 관여된 Dmrt6의 결합 부위(Zhang et al., 2014)는 감수분열 교차 격렬과 강하게 상관된다. 감수분열 교차와 특히 음으로 상관되는 게놈 특징은 3' UTR, LINE 및 낮은 복잡함 DNA를 포함한다. rDNA가 감수분열 교차에 대해 극도로 차가운 효모와 달리(Petes and Botstein, 1977), 마우스 rDNA는 교차를 억제하는 것으로 보이지 않는다. 이들 게놈 특징으로, 본 발명자들은 각각 (B6 x Spret) 및 (B6 x Cast)에서 0.73 및 0.85 정확성으로 마우스 게놈에서 무작위로 샘플링된 실제 감수분열 교차 개시 부위를 구별할 수 있고, (B6 x Cast) 교배에서의 0.85 예측 정확성은 25개의 게놈 특징의 하위집단에 동의한다. 본 발명자들은 다양한 특징이 대부분 모델링 접근법 사이에 일치하여 거동하지만, 본 발명자들이 추가의 실험 없이 임의의 인과관계를 배정할 수 없다는 것을 강조한다.

방법

sci-L3-WGS 및 sci-L3-표적-seq의 방법 및 분자 설계

단일 세포 준비 및 뉴클레오솜 고갈

세포 현탁액은 페트리 접시로부터 트립신화하거나 조직으로부터 균질화함으로써 제조된다. 수컷 F1 마우스를 CO₂에 의해 안락사시킨 후, 워싱턴 대학교(University of Washington) IACUC 허가 프로토콜에 따라 자궁경부 배치하였다. 수컷 생식 세포의 단리를 위해, 본 발명자들은 내부에 관을 슬라이싱하고 10% FBS가 보충된 1㎖의 1xPBS 중에 실온에서 15분 동안 조직을 항온처리함으로써 부고환을 절제하였다. 항온처리 후 세포 현탁액을 피펫팅에 의해 수집한다. 부고환으로부터 단리된 세포를 (B6 x Spret) 교배의 실험에 대해 그리고 또한 (B6 x Cast) 교배에서 성숙 정자("바코드 그룹 3")의 공급원으로서 사용하였다. (B6 x Cast) 교배에 대한 2C 세포에 대한 농후화 방법으로서 전체 고환으로부터의 핵의 단리를 위해, 본 발명자들은 처음에 고환 세포를 1% 폼알데하이드와 교차결합시키고, 저장성 완충제를 사용하여 핵을 추출하였다. 본 발명자들은 이후 주로 DAPI 신호에 기초하여 DNA 함량에 의해 1C 및 2C 핵을 FACS 분류하였다. 배양된 인간 및 마우스 세포를 4℃에서 5분 동안 550g에서 펠릿화하고, 수컷 생식 세포를 4℃에서 10분 동안 2400g에서 펠릿화하였다.

뉴클레오솜 고갈은, 용해 완충제가 하류 LIANTI 프로토콜(Chen et al., 2017)과 맞게 변형된다는 것을 제외하고는, 주로 sci-DNA-seq에서 xSDS 방법을 따른다(Vitak et al., 2017). 세포를 (관을 약하게 도립시키면서) 실온에서 10분 동안 406㎕의 37% 폼알데하이드(최종 농도 1.5%)를 갖는 10㎖의 DMEM 완전 배지에서 교차결합시킨다. 본 발명자들은 이후 800㎕의 2.5M 글라이신을 첨가하고, 얼음에서 5분 동안 항온처리한다. 세포를 펠릿화하고, 1㎖의 용해 완충제(60mM Tris-Ac pH 8.3, 2mM EDTA pH 8.0, 15mM DTT)로 세척한다. 펠릿을 0.1% IGEPAL(I8896, SIGMA)을 갖는 1㎖의 용해 완충제 중에 재현탁시키고, 얼음에서 20분 동안 항온처리한다. 핵을 이후 펠릿화하고, 1xNEBuffer2.1로 세척하고, (30분 동안 격렬히 진탕하면서, 500rpm) 42℃에서 뉴클레오솜 고갈에 대해 0.3% SDS와 800㎕의 1xNEBuffer2.1 중에 재현탁시킨다. 본 발명자들은 이후 180㎕의 10% Triton-X를 첨가하고, 42℃(500rpm)에서 30분 동안 격렬히 진탕시킨다. 투과된 핵을 이후 1㎖의 용해 완충제 중에 2회 세척하고, 1㎕마다 20,000개의 핵으로 용해 완충제 중에 재현탁시킨다.

트랜스포솜 설계 및 어셈블리

트랜스포슨 DNA 올리고는 인산화된 2개의 가닥의 5' 둘 다로 합성되고, 하나는 LIANTI 및 Nextera에서와 유사하게 Tn5 삽입(5'/Phos/CTGTCTCTTATACACATCT, IDT, PAGE 정제(서열번호 1))에 필요하고, 다른 것은 결찰(5'/Phos/GTCTTG XXXXXXXX[1회차 바코드] AGATGTGTATAAGAGACAG, IDT, 표준 제염(서열번호 2))에 필요하다. 어닐링 완충제(10mM Tris-HCl pH 8.0, 50mM NaCl, 1mM EDTA, pH 8.0) 중의 점진적인 냉각(95℃ 5분, -0.1℃/사이클, 9초/사이클, 25℃로 700사이클)과 함께 1:1 어닐링 후, 5' 오버행을 갖는 Tn5 듀플렉스는 1.5μM으로 희석된다. 본 발명자들은 이후 7.2㎕의 저장 완충제(1xTE와 50% 글라이세롤)를 12㎕의 약 1μM Tn5 트랜스포사제(Lucigen, TNP92110)를 첨가하고, 실온에서 30분 동안 0.4㎕의 1.5μM Tn5 듀플렉스와 0.79㎕의 희석된 트랜스포사제를 항온처리한다. 트랜스포솜은 0.2μM의 최종 농도로 이합체화한다. 트랜스포솜 복합체는 1년까지 동안 -20℃에서 안정하게 저장될 수 있다. 본 발명자들은 1회차에 24개 웰을 바코딩하기 위한 24개 반응을 셋업하지만, 더 많은 웰은 분야에 따라 바람직하다. 각각의 새로운 생물학적 분야에 대해, 본 발명자들은 처음에 추가로 시험 실험을 위해 트랜스포솜을 0.1μM으로 희석한다. 고유한 판독의 수 및 라이브러리 복잡함은 덜 최적이지만(도 5), 낮은 해상도에서 맵핑에 이용 가능하다.

도 7에서, 본 발명자들은 각각의 단계에서 sci-L3-WGS의 분자 구조를 나타낸다. 상업용 Nextera 라이브러리 제조에서, 1) Tn5 삽입이 단편화된 게놈 DNA의 2개의 단부에서 대칭 트랜스포슨 서열을 도입함(이는 변성될 때 헤어핀 루프의 형성을 발생시키고 PCR 증폭을 방지할 수 있음); 및 2) 2개의 단부가 50% 변화로 i5 또는 i7 둘 다로 태그먼테이션되는 경우, 분자는 서열분석될 수 없음으로 인해 서열분석 가능한 DNA 재료의 적어도 반을 손실한다. Nextera 기반 라이브러리 제조에 비해 LIANTI의 하나의 중요한 이점은 루핑된 Tn5 설계가 트랜스포솜 이합체에 의해 도입된 대칭을 파괴하고, 또한 루핑된 트랜스포슨에 특징적인 분자내 RT 프라이머를 사용함으로써 역전사(RT)를 촉진한다는 것이다. 그러나, 루핑된 트랜스포슨은 2회차 초과의 바코딩과 맞지 않고, 이는 처리량을 제한하고 라이브러리 비용을 유의미하게 증가시킨다(비교를 위해 표 2 참조). sci-L3-WGS에 대해 본 발명자들이 만든 변화에서, 본 발명자들은 결찰 단계 동안 루핑된 Tn5에 의해 생긴 이점을 유지시킨다.

태그먼테이션(1회차 바코드) 및 결찰(2회차 바코드)

본 발명자들은 이후 lo-bind 96웰 플레이트에서 각각의 웰로 20,000/㎕ 농도로 1.5㎕의 핵을 분포시키고, 6.5㎕의 H₂O 및 0.7㎕의 50mM MgCl₂(용해 완충제 중의 EDTA를 차지하는 3.24mM의 최종 농도)를 첨가한다. 상기 제조된 1.2㎕의 트랜스포솜을 각각의 웰에 첨가하고, 플레이트를 이후 55℃에서 20분 동안 항온처리한다(열혼합기가 추천되지만 필요하지 않음). 본 발명자들은 이후 5㎕의 중단 용액(40mM EDTA 및 1mM 스페르미딘)을 첨가하고, 통(trough)에 핵을 풀링한다. 추가 1㎖의 용해 완충제를 핵 현탁액에 첨가한 후 펠릿화한다. 상청액을 조심스럽게 제거한 후, 본 발명자들은 312㎕의 재현탁 완충제(24㎕의 10mM dNTP, 48㎕ 10x 태그먼테이션 완충제[50mM MgCl₂, 100mM Tris-HCl pH 8.0], 96㎕의 H₂O, 144㎕의 용해 완충제) 중에 핵을 재현탁시키고, 4.7㎕의 핵 혼합물을 새로운 lo-bind 96웰 플레이트의 각각의 웰로 분포시킨다. 헤어핀 결찰 듀플렉스(1. CAAGAC 2. Y'Y'Y'Y'Y'Y'Y'[2회차 바코드의 역보체] 3. CAGGAGCGAGCTGCATCCC 4. AATTTAATACGACTCACTATA 5. GGGATGCAGCTCGCTCCTG 6. YYYYYYY [2회차 바코드](서열번호 3))를 Tn5 트랜스포슨 듀플렉스와 유사하게 예비어닐링하고, 1.5μM으로 희석시킨다. 결찰 듀플렉스가 5개의 요소를 함유한다는 것에 주목한다: 1) Tn5에서 결찰 어댑터의 역보체; 2) 2회차 바코드의 역보체; 3) 제2 가닥 합성(SSS) 프라이머의 역보체; 4) T7 촉진자, 이것이 헤어핀의 루프 영역임에 주목한다; 5) T7 전사를 증대시키기 위한 GGG와 시작하는 제2 가닥 합성(SSS) 프라이머 영역(도 4B에서 "sp2"); 6) 2회차 바코드(도 4B에서 "bc2"). 본 발명자들은 0.8㎕의 이들 듀플렉스를 핵 현탁액과 64 웰의 각각에 첨가하고, 각각의 웰로 1.18㎕의 결찰 혼합물(0.6㎕의 10x NEB T4 리가제 완충제, 0.48㎕의 PEG-4000, 0.1㎕의 T4 DNA 리가제[Thermo EL0011])을 첨가하고, 20℃에서 30분 동안 항온처리한다. 결찰 후, 루핑된 구조가 LIANTI의 것을 모방하고, (하기 기재된) RT 단계에서 효율을 촉진하고, 바코드의 회차의 둘 다가 T7 촉진자의 3'에 존재하고, 이에 따라 증폭된 분자에 포함된다는 것에 주목한다. 결찰 반응은 4㎕의 중지 용액을 첨가함으로써 중지된다. 세포는 이후 새로운 통(약 630㎕)에서 풀링되고, 5㎍/㎖의 최종 농도로 DAPI로 염색되고, 세포 분류 전에 첨가된 3㎕의 용해 완충제를 갖는 각각의 새로운 웰로 100-300 분류된다. FACS에 의한 각각의 분류 사건이 노즐의 크기에 따라 약 3 내지 5nL의 FACS 완충제와 연관된다는 것에 주목하고, 본 발명자들은 염 농도를 낮게 유지시키도록 각각의 웰 < 1㎕로 첨가된 액체의 전체 용적을 유지시킴을 추천한다.

세포 용해, 갭 연장 및 시험관내 전사에 의한 선형 증폭

본 발명자들은 이후 75℃에서 45분 동안 항온처리하고, 4℃로 냉각시키고, 55℃에서 8시간 동안 새로 희석된 Qiagen 프로테아제(최종 농도 2㎎/㎖)로 처리함으로써 세포 용해에 대해 각각의 웰에서 전체 3.5 내지 4㎕의 분류된 핵으로 진행한다. 프로테아제는 이후 75℃에서 30분 동안 항온처리함으로써 열 불활화된다. 세포 용해물은 -80℃에서 저장될 수 있다. 후속하는 증폭 단계가 RNA를 수반하고 시간 민감하므로, 본 발명자들은 각각의 실험에 대해 샘플의 32개 이하의 웰(약 9600개의 단일 세포)의 처리를 추천한다. 갭 연장(도 4C)에 대해, 가닥 대체 활성을 갖는 중합효소는 2㎕의 H₂O, 0.7㎕의 10x 태그먼테이션 완충제, 0.35㎕의 10mM dNTP 및 0.35㎕의 가닥 대체 활성을 갖는 Bst WarmStart 2.0 중합효소의 혼합물을 첨가함으로써 사용되고, 68℃에서 5분 동안 항온처리한다. 결찰이 단부 둘 다에서 성공적인 경우, 듀플렉스가 측면 둘 다에서 T7 촉진자와 대칭이고, 결찰이 하나의 단부에서 오직 성공적인 경우, 점선 박스의 영역은 하나의 측면에서 손실된다는 것에 주목한다. 분자내 결찰은 일반적으로 비효율적이다. 본 발명자들은 분자내 결찰의 필요성을 최소화하도록 예비어닐링된 헤어핀 루프를 포함하였지만, (헤어핀 루프가 없는 3개 대신에) 2개의 분자는 여전히 서로 발현할 필요가 있다. 결찰 효율이 50%인 경우, 단부 둘 다에서 결찰을 갖는 것은 25% 속도를 갖지만, 어느 한 단부에서 결찰을 갖는 것은 75% 속도를 갖는다. RT 단계에서 나중에, 본 발명자들은 오직 하나의 단부에 성공적인 결찰이 필요하다는 것을 보여준다. 갭 연장 후, 2㎕의 H₂O, 2㎕의 T7 Pol 혼합물 및 10㎕의 rNMP 혼합물(NEB, HiScribe((상표명) T7 Quick High Yield RNA 합성 키트)를 첨가함으로써 20㎕의 T7 시험관내 전사 시스템은 어셈블링된다. 혼합물은 37℃에서 10 내지 16시간 동안 항온처리된다.

RNA 정제, RT 및 SSS(또는 표적화된 서열분석)

전사는 2.2㎕의 0.5M EDTA를 첨가함으로써 종결된다. 증폭된 RNA 분자는 이후 RCC-5(Zymo Research, R1016)로 정제되고, 18㎕의 0.1x TE로 용리된다. 처음에 0.6㎕의 RNA RT 프라이머(rArGrArUrGrUrGrUrArUrArArGrArGrArCrArG, IDT(서열번호 4)), 2㎕의 10mM dNTP 및 0.5㎕의 SUPERaseㆍIn((상표명) RNase 저해제(20U/㎕, Thermo Fisher AM2696)를 첨가함으로써 30㎕의 RT 시스템은 어셈블링된다. 본 발명자들은 이후 2차 구조를 변성하고 제거하기 위해 70℃에서 1분 및 90℃에서 20초 동안 항온처리하고, 얼음에서 갑자기 냉각시킨다. SuperScript((상표명) IV Reverse Transcriptase(SSIV, Thermo Fisher 18090050)는 6㎕의 5x RT 완충제, 1.5㎕의 0.1M DTT, 1㎕의 SUPERaseㆍIn((상표명) 및 1㎕의 SSIV와 RT에 사용된다. RT 반응은 55℃에서 15분, 60℃에서 10분, 65℃에서 12분, 70℃에서 8분, 75℃에서 5분 및 80℃에서 10분 동안 항온처리된다. 반응은 실온으로 냉각된 후 0.5㎕의 RNaseH(NEB) 및 0.3㎕의 RNaseA(Life 기술, AM2270)를 첨가되고, 37℃에서 30분 동안 항온처리된다. 도 4E가 RT 단계 동안 2개의 시나리오를 도시한다는 것에 주목한다: 1) 단부 둘 다가 성공적인 결찰을 갖는 경우, RT는 LIANTI에서처럼 폴드-백 루프에 의해 프라이밍될 것 같다; 2) 오직 하나의 단부가 성공적인 결찰을 갖는 경우, RT는 변성 단계전에 첨가되는 RNA RT 프라이머에 의해 프라이밍될 것 같다. 과도한 RNA 프라이머 및 RNA 전사체는 cDNA 합성 후 분해된다. 마지막으로, 본 발명자들은 27㎕의 H₂O, 20㎕의 5x Q5 완충제, 20㎕의 Q5 GC 인핸서, 1㎕의 Q5 중합효소 및 1㎕의 SSS 프라이머(NNNN[UMI] ZZZZZZ[3회차 바코드] GGGATGCAGCTCGCTCCTG, IDT, 표준 제염(서열번호 5))를 첨가함으로써 Q5 DNA 중합효소를 갖는 제2 가닥을 합성하였다. 생성된 이중 가닥 DNA는 DCC-5(Zymo Research, D4014)로 정제될 수 있고, 서열분석 어댑터의 첨가를 위해 PCR의 최소 3 사이클로 라이브러리 제조 키트, 예컨대, NEBNext Ultra II로 진행한다.

게놈에서 하나의 영역에 대해 표적화 프라이머와 함께 P5 말단을 갖는 단일 세포 바코드 프라이머(AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGAC GCTCTTCCGATCT NNNNNNN ZZZZZZ[3회차 바코드] GGGATGCAGCTCGCTCCTG(서열번호 6))를 사용함으로써 SSS 단계가 표적화된 서열분석이 가능하게 하도록 쉽게 변형될 수 있다는 것에 주목할 가치가 있다(도 3B). 예를 들어, 렌티바이러스 기반 CRISPR 라이브러리를 통합한 분야에서(Shalem et al., 2014), 각각의 단일 세포에서의 가이드 RNA 서열은, 렌티바이러스 통합된 CRISPR 라이브러리 프라이머, CAAGCAGAAGACGGCATACGAGAT TCGCCTTG[인덱스 1] GTGACTGGAGTTCAGACGTGTGCTCTT CCGATCTCCGACTCGGTGCCACTTTTTCAA(서열번호 7))를 갖는 P7 말단을 사용하여서, 전장 게놈을 서열분석하고 관심 대상의 특정한 영역을 농후화하기 위한 필요성을 우회함으로써 판독될 수 있다. 이 경우에, 라이브러리 제조 단계는 프라이머 이합체를 제거하기 위해 겔 또는 비드 정제에 의해 생략되거나 대체될 수 있다.

sci-L3-RNA/DNA 공동검정의 방법 및 분자 설계

단일 세포 준비 및 뉴클레오솜 고갈

세포 현탁액은 하기 표시된 차이 이외에 sci-L3-WGS에서와 동일한 프로토콜로 제조된다. HEK293T, BJ-5ta 및 3T3 세포는 페트리 접시로부터 트립신화되고, 1M/㎖ 세포 농도에서 실온에서 10분 동안 1x PBS에서 2% PFA로 고정된다. 후속하는 (글라이신에 의한) 켄칭, 세척, (0.1% IGEPAL에 의한) 핵 단리, 뉴클레오솜 고갈(xSDS 방법) 단계는, 본 발명자들이 모든 용해 완충제 및 1xNEBuffer2.1에 1% Superase-In을 첨가한다는 것을 제외하고는, sci-L3-WGS와 동일하다. 핵은 ㎕마다 20,000개의 핵에서 1% Superase-In을 갖는 용해 완충제 중에 재현탁된다.

트랜스포솜 및 역전사(RT) 프라이머 설계

단일 세포 게놈 증폭 성분에 대해, 트랜스포솜 설계 및 어셈블리는 sci-L3-WGS와 동일하다.

단일 세포 전사체 프로파일링 성분에 대해, 역전사 프라이머는 역전사 양상, 즉 올리고의 polyT 프라이밍 파트에 대해 (Cao et al., 2017; Cusanovich et al., 2015; Mulqueen et al., 2018; Ramani et al., 2017; Vitak et al., 2017)에서 sci-RNA-seq와 유사한 구조를 공유하지만, 상이한 바코드 구조 및 후속하는 결찰 단계에 대한 랜딩 패드(/5Phos/GTCTTG [sci-L3-WGS에서와 동일한 랜딩 패드 서열] NNNNNN[고유한 전사체를 태그화하기 위한 UMI1] X'X'X'X'X'X'X'X'[Tn5 트랜스포슨 바코드로부터 상이한 서열인 전사체에 대한 1회차 바코드] TTTTTTTTTTTTTTTTTTTTTT TTTTTTTTVN, IDT, 표준 제염(서열번호 8))를 함유한다.

RT 및 태그먼테이션(1회차 바코드), 결찰(2회차 바코드), FACS 및 세포 용해

본 발명자들은 이후 lo-bind 96웰 플레이트에서 각각의 웰로 20,000/㎕ 농도로 1.5㎕의 핵을 분포시키고, 상기 기재된 바대로 0.2㎕의 H₂O, (용해 완충제 중의 EDTA를 중화시키도록) 0.3㎕의 50mM MgCl₂, 0.25㎕의 10mM dNTP 및 1㎕의 25μM RT 프라이머를 첨가하여서 RT 단계에 준비한다. 핵 혼합물은 이후 55℃에서 5분 동안 항온처리되어서 2차 구조를 제거하고 얼음에서 빨리 켄칭한다. 본 발명자들은 이후 1㎕의 5x RT 완충제, 0.03㎕의 100mM DTT(용해 완충제로부터 DTT가 있다는 것에 주목한다, 최종 농도 5mM), 0.25㎕의 SSIV, 0.25㎕의 RNaseOUT(Thermo Fisher 카탈로그 10777019호)를 첨가하고, RT 반응을 위해 25℃에서 1분, 37℃에서 1분, 42℃에서 1분, 50℃에서 1분, 55℃에서 15분 동안 항온처리한다. 이후, 0.4㎕의 MgCl₂ 및 3.52㎕의 H₂O 및 1.2㎕의 상기 제조된 트랜스포솜을 각각의 웰에 첨가한다. 세포 용해 후까지 모든 후속하는 단계는 sci-L3-WGS와 동일하다.

갭 연장 및 시험관내 전사에 의한 선형 증폭

본 발명자들은 5' 오버행(CACGACGCTCTTCCGATCT NNNNNNN(서열번호 9))으로서 부분 NEBNext Read 1 프라이머에 의한 갭 연장을 위해 무작위 헵타머를 사용한다. 본 발명자들은 1㎕의 20μM 올리고를 첨가하고, 95℃에서 3분 동안 항온처리하여서 DNA를 변성시키고, 올리고가 어닐링하도록 점진적으로 (약 5분) 실온으로 냉각시킨다. 본 발명자들은 이후 2㎕의 H₂O, 0.8㎕의 10x NEBuffer2, 0.4㎕의 10mM dNTP, 0.4㎕의 Klenow 단편(3'→5' exo-, NEB M0212S)을 첨가하고, 30℃에서 8분 및 75℃에서 10분 동안 항온처리한다. 갭 연장 후, 20㎕의 T7 시험관내 전사 시스템은 동일한 sci-L3-WGS 프로토콜에 의해 어셈블링된다.

RNA 정제, RT 및 SSS

모든 단계는 상이한 올리고 서열을 제외하고 sci-L3-WGS와 동일하다. IVT 후 RT 단계에서, 0.6㎕의 RNA RT 프라이머를 사용하는 것 대신에, 본 발명자들은 0.6㎕의 NEBNext Read 1 프라이머(AATGATACGGCGACCACCG AGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT, Illumina 서열분석의 P5 단부, IDT(서열번호 10))를 사용한다. SSS 프라이머에 대해, 본 발명자들은 서열분석 어댑터를 첨가하도록 AAGCAGAAGACGGCATACGAGAT[P7 단부] NNNN [UMI2] Z'Z'Z'Z'Z'Z'[3회차 바코드] CGTCTCTAC GGGATGCAGCTCGCTCCTG(서열번호 11)를 사용한다. 생성된 이중 가닥 DNA가 이제 Illumina 서열분석을 위해 P5 및 P7 단부 둘 다를 함유하고, 1.1x AmpureXP 비드로 정제될 수 있고, 서열분석으로 진행한다는 것에 주목한다. 서열분석 어댑터를 첨가하기 위한 sci-L3-WGS에서 라이브러리 제조 단계 및 PCR의 최소 3 사이클이 공동검정에 불필요하다.

sci-L3-WGS 실험 in (B6 x Spret) 교배 및 (B6 x Cast) 크로스의 셋업

(B6 x Spret) 교배

본 발명자들은 2개의 별개의 실험에서 각각 70일 및 88일령의 (B6 x Spret) F1 수컷으로부터 6개 및 3개의 부고환으로부터 단리된 세포를 풀링하고, 1% 폼알데하이드로 고정하였다. 각각의 실험에 대해, 뉴클레오솜 고갈 후, 본 발명자들은 웰마다 30,000개의 세포를 분포시키고, 24 웰에 걸쳐 인시츄 인덱싱된 Tn5 삽입을 수행하여서 1회차 바코드를 첨가하였다. 본 발명자들은 이후 모든 세포를 풀링하고, 64 웰에 이들을 재분포시켜서 결찰에 의해 2회차의 바코드 및 T7 촉진자를 첨가하였다. 모든 세포를 다시 풀링한 후, 본 발명자들은 세포 혼합물을 1:6 분할하고, 대부분의 세포(6/7)를 FACS 분류하고, 나머지(1/7)를 희석하였다. 생성된 웰은 4% 내지 11%의 추산된 충돌비로 웰마다 100 내지 360개의 세포를 함유하였다.

(B6 x Cast) 교배

6개의 고환으로부터, 본 발명자들은 약 12M 1C 원형 정세포 및 약 0.5M 2C 세포를 회수하였다. 그러나, 1C 세포의 20배 초과로 더 높은 수로 인해, 본 발명자들은 여전히 2C 세포에 대해 분류된 집단에서 많은 1C 세포를 발견하였다(도 8F). 본 발명자들이 2C 세포를 농후화하도록 시도한 sci-L3-WGS 실험 중 하나에서, 본 발명자들은 본 발명자들이 부고환으로부터 약 160k 정자, 약 160k 1C 원형 정세포 및 약 70k 2C 세포를 테그먼테이션하고, sci-L3-WGS의 FACS 단계 동안 2C 세포에 대해 추가로 농후화했다는 것을 추정한다(도 8G). 그러나, 2회차의 농후화에도 불구하고, 1C 세포는 여전히 우세했다.

바이오인포매틱스 및 통계 분석의 방법

판독 처리, 정렬 및 SNV 호출

기본 콜은 bc12fastq에 의해 fastq 파일로 전환되고, 1 미스매치는 인덱스에서의 오류에 허용되었다. 본 발명자들은 이후 탈다중화를 위해 고객화된 쉘 스크립트 "sci_lianti_v2.sh"를 사용하였다(python 스크립트 및 R Markdown 파일은 "sci_lianti_inst.tar.gz"로서 별개로 업로딩되고; 모든 주요 및 보충 도면을 생성하기 위한 중간 데이터 파일을 함유하는 R 패키지는, 하기 단계에 대해 python 스크립트 또는 NGS 도구를 호출하는, 하기 링크를 통해 다운로딩되고 설치될 수 있다: https://drive.google.com/file/d/19NFubouHrahZ8WoblL-tcDrrTlIZEpJh/view?usp=sharing): 1) 모든 단일 세포 조합 바코드가 판독 1(R1)에 있도록 순서 판독 쌍; 2) 3회차(SSS, 6nt, 오류 허용 되지 않음)의 바코드를 탈다중화하고, 전사체에 대한 UMI 및 바코드 둘 다를 판독 명칭에 부착하고, 3회차 바코드에 의해 라이브러리를 분할한다. 모든 후속하는 단계가 100개 내지 300개의 단일 세포를 함유하는 3회차 바코드에 의해 분할되는 개별 라이브러리에 대해 동시에 수행된다는 것에 주목한다; 3) R1에서 바코드의 1회차(Tn5, 8nt, 1 오류가 허용됨) 및 2회차(결찰, 7nt, 1 오류 허용됨)를 분할하기 위한 cutadapt를 사용하여, 오류는 Levenshtein 거리에 의해 계산되고, 바코드의 회차 둘 다를 판독 명칭에 부착한다. 이 단계는 쌍별 말단 방식으로 수행되고, 즉, R1이 정확한 바코드 및 스페이서 구조를 갖지 않는 경우, 쌍별 판독 2(R2)는 버려진다; 4) R2를 깨끗하게 하도록 cutadapt를 사용; 5) 쌍별 말단 방식으로 bwa mem으로 hg19 또는 mm10 게놈에 정렬(Li 및 Durbin, 2009). 본 발명자들이 바코드 충돌을 평가한 실험에 대해, 본 발명자들은 hg19 및 mm10의 연관된 기준품을 사용하고, 인간 또는 마우스 게놈의 상대 맵핑 속도를 결정하도록 고유하게 정렬된 판독을 사용한다; 6) 판독 명칭에서 부착된 1회차 및 2회차의 바코드를 사용하여 bam 파일을 단일 세포 bam 파일로 분할한다; 7) bedtools로 bam 파일을 bed 파일로 전환하고(Li and Durbin, 2009), R1 또는 R2가 동일한 말단 점을 공유하는 경우 고유한 삽입 부위를 결정한다. 고유한 Tn5 삽입 부위는 판독 쌍의 말단 둘 다가 상이할 필요가 있는 단편으로서 정의된다; 8) 대립유전자 각성 방식으로 변이체를 호출하기 위해 "lianti" 패키지에서 "파일업" 함수를 사용(https://github.com/lh3/lianti/blob/master/pileup.c)(Chen et al., 2017). 본 발명자들을, 각각의 SNP 위치에서의 깊이의 한계치가 오직 최종 vcf 파일에서 포함되도록 SNP 콜에 대해 벌크 파일에서 초과될 필요가 있고, 따라서 변이체가 벌크 파일에서 이형접합성 SNP로서 존재하는 한 REF 및 ALT 대립유전자의 원시 계수치가 단일 세포 칼럼에 포함되도록, 이 단계에서 각각의 단일 세포 bam 파일로 (모든 약 6900개의 단일 세포의 samtools merge(Chen et al., 2017; Li 및 Durbin, 2009)에 의해 생성된, 30x 초과) 조합된 벌크 bam 파일을 포함한다는 것에 주목한다. 이것은 신생 SNP 호출 질문을 유전자형 질문으로 전환함으로써 단일 세포에서 낮은-깊이 서열분석으로 인해 높은 위음성률의 문제를 피해간다; 9) Spret에 대해 기준 SNP vcf 파일에 의해 각각의 단일 세포에서 SNP 품질의 용어로 불리는 SNV를 주석을 단다(Mouse Genome Project로부터 다운로딩된 SPRET_EiJ.mgp.v5.snps.dbSNP142.vcf.gz). 주석을 단 SNP 파일은 이후 후속하는 교차 중단점 분석애 대한 입력으로서 사용된다.

중단점을 호출하기 위한 HMM

주어진 SNP 부위에서의 유전자형은 기준 및 대안적인 대립유전자를 지지하는 판독의 수를 비교함으로써 결정된다. 1C 세포에 대해, 교차 위치는 기준, 대안적 및 이형접합성의 3개의 상태로 은닉 마르코프 모델을 피팅함으로써 결정된다.

전이 행렬은 표 5에 기재되어 있다.

본 발명자들은 HMM이 데이터에서 명확한 구조를 어떻게 잘 포획하는지 및 본 발명자들이 규모의 2차수로 1차 매개변수를 변할 때 결과가 눈에 띄세 변하지 않는다는 가시적 평가에 기초하여 수동으로 매개변수를 선택하였다. transprob는 임의의 개별 SNP 부위에서의 전이하는 상태가 매우 희귀 사건이어야 한다는 믿음을 반영하도록 매우 적은 수[이 경우에 1e-10 / (주어진 염색체에서 SNP의 전체 수)]를 취한다. 0.3 및 0.7의 분수로 transprob의 추가의 파괴는 형태 기준-대안-기준 또는 대안-기준-대안의 신속한 성공적인 전이를 억제함을 목표한다.

방사 행렬은 표 6에 기재되어 있다.

은닉 상태가 각각의 개별 SNP에 대해 호출된 후, 연속 긴 상태 블록은 50kb보다 더 짧은 상태 블록을 제거함으로써 호출된다. 교차 위치가 이후 결정되고, 이것에 의해 긴 상태 블록은 상이한 상태로 전환하고, 여기서 중단점 트랙 시작 위치는 이전의 상태 블록의 마지막 SNP 위치이고, 트랙 종료 위치는 하기 상태 블록의 제1 SNP 위치이다.

M2 세포에 대해, 평균 대립유전자 빈도는 처음에 40 SNP의 윈도우 내에 대립유전자에 걸쳐 평균화함으로써 얻어진다. 비닝된 대립유전자 빈도는 이후 단일 Gaussian 확률 분포를 갖는 은닉 마르코프 모델로부터 기초하는 염색체 상태를 추론하도록 사용된다.

전이 행렬은 표 7에 기재되어 있다.

방사 행렬은 표 8에 기재되어 있다.

연속 긴 상태 블록은 50kb보다 더 짧은 상태 블록을 제거함으로써 호출되고, 이후 근사 중단점 위치가 결정되고, 이것에 의해 긴 상태 블록은 상이한 상태로 전환한다. 근사 중단점 위치는 이후 근사 중단점 근처의 상류 20개 및 하류 20개 SNP 내에 아마도 중단점을 발견하려는 목표로 확률 비율 시험에 의해 개선된다. 각각의 SNP에 대해, 관찰된 유전자형을 관찰할 확률은 표 9에 기재되어 있다.

오류_prob는 SNP가 부정확하게 호출되는 확률을 반영하는 1e-3로 기재된다. 근사 중단점 주위의 각각의 SNP에 대해, 이것이 실제 중단점인 가능성은 상기 분포에 의해 계산된다. 0.01 * 최대 가능성 초과의 가능성을 갖는 모든 SNP는 중단점 범위 내인 것으로 생각된다. 파괴 트랙의 시작은 이 SNP 내에 가장 왼쪽의 SNP로서 결정되는 한편, 파괴 트랙의 종료는 가장 오른쪽의 SNP로서 결정된다. 1C 경우에서처럼, 모든 M2 세포 중단점 트랙은 인공물을 제거하도록 추가로 수동으로 조사되고, 예를 들어, 여기서 2개의 바로 인접한 스위치는 50kb 내에 존재한다. 본 발명자들은 또한 유사분열로 분열하는 Patski 세포에서 동일한 중단점 호출을 수행하였다. M2 세포 및 Patski 세포에 대해, 본 발명자들은 또한 희박한 게놈 커버리지로 세포에 대해 10 및 40 SNP의 Bin 크기를 비교함으로써 중단점 트랙을 수동으로 조사하였다.

이 단계는 교차 중단점을 생성한다. 본 발명자들은 동원체 영역, 즉 각각의 염색체의 출발 영역이 이형접합성("mt", 유사분열 분리) 또는 동형접합성("me", 감수분열 분리)인지에 기초하여 염색체 분리 정보를 추가하도록 후처리한다.

단친성 염색체의 분석

이 단계는 HMM 출력으로부터 rds 파일을 취하고, 단친성 염색체 콜을 생성한다.

염색체 수준에서의 감수분열 교차 및 염색체 분리의 분석

이 단계는 도 10, 도 13 및 도 14에 도시된 감수분열 교차의 염색체 수준 특징을 생성한다.

(B6 x Cast) 교배에서의 바코드 그룹 2에서의 2C 세포에 대한 유한 혼합 모델의 피팅

본 발명자들은 각각 p₁, p₂, p₃에 의해 매개변수화된 3개의 이항식 분포의 혼합물에 데이터를 피팅하여서, 균등 분리하는 염색체의 이의 확률을 나타낸다. 이들 3개의 이항식 분포의 상대 기여는 길이 3 벡터 쎄타로 표시된다. 본 발명자들은, θ에 대한 균일한 Dirichlet 프라이어: θ ~ Dir(K=3, α=1), 및 p에 대한 베타 프라이어: p ~ 베타(a = 5, b = 5)로, R 패키지 rstan(http://mc-stan.org/users/interfaces/rstan)을 사용하여 이의 포스테리어 분포로부터 샘플을 취함으로서 p₁, p₂, p₃, 및 θ를 추산하였다. 모델 사양에 대한 추가의 상세내용에 대해, Stan file mt_mixture_model.stan을 참조한다.

교차 격렬 및 세포 클러스터링의 선형 모델을 빌딩하기 위한 다른 게놈 연구로부터의 데이터세트의 예비처리.

본 발명자들은 이전의 게놈 연구 및 다양한 게놈 요소의 면에서 UCSC Genome Browser(https://genome.ucsc.edu/cgi-bin/hgTables)로부터 gff3 포맷의 다운로딩된 마우스 주석 파일 및 RepeatMasker로부터 데이터세트를 처리하였다. mm9에 기초한 데이터세트는 처음에 mm10로 위로 리프팅된다. 이 데이터세트는 거의 2개의 카테고리에 떨어진다: 베드 포맷에서의 계수치 데이터 또는 bedGraph 포맷에서의 다양한 유전적 또는 후성적 마크의 신호. 세포 클러스터링 및 예측적 모델링을 위해, 교차 트랙은 상이한 길이를 갖는다. 본 발명자들은 세포 클러스터링 분석에 대해 각각의 단일 세포에서 모든 교차로부터 합계된 서열의 전체 양을 나눔으로써 계수치 데이터를 정규화하고, 본 발명자들은 각각의 교차 트랙 또는 무작위으로 샘플링된 트랙에 대해 트랙 길이를 나누고 1kb를 더함으로서 정규화하여서, 극도로 짧은 트랙은 과도하게 가중되지 않을 것이다. 중앙치 트랙 길이가 150kb이어서 1kb의 추가가 많은 추가의 서열을 포함하지 않는다는 것에 주목한다. 다양한 마크의 연속 신호를 갖는 데이터세트에 대해, 본 발명자들은 교차 또는 무작위 트랙과 교차하는 마크의 평균 신호를 취한다. 교차 파일업 데이터세트에 대해, 본 발명자들이 균등하게 크기화된 100kb 윈도우를 사용하므로, 본 발명자들은 계수치 데이터를 사용할 때 트랙 길이를 정규화하지 않았다.

특징이 교차 발생과 통계적으로 유의미한 연관을 갖는 토의 부문에 언급된 데이터세트 이외에, 본 발명자들은 또한 하기 데이터세트를 사용하였다: 1) 서열 일탈(Lilue et al., 2018); 2) 정제된 후사기 정모세포로부터 맵핑된 ATAC-seq 및 H3K27ac(Maezawa et al., 2018); 3) 정원세포로부터의 바이설파이트 서열분석(Inoue et al., 2017); 4) 정모세포에서의 MNase 기반 뉴클레오솜 배치(Barral et al., 2017); 5) 정모세포에서의 H4K5 및 H4K8 뷰티릴화 및 아세틸화(Goudarzi et al., 2016); 6) 정모세포에서의 H2A 유비퀴틴화(Hasegawa et al., 2015); 7). CTCFL의 결합 부위, CTCF 결합 부위의 고환 특이적 파라로그(Sleutels et al., 2012); 8) 후사기 정모세포에서의 5-hmC 맵(Gan et al., 2013); 9) 에토포사이드 처리 후 End-seq 및 활성화된 B 세포에서의 TOP2A 및 TOP2B ChIP-seq, MEF에서의 CTCF 및 RAD21 ChIP-seq(Canela et al., 2017); 10) Patski 대립유전자 ATAC-seq 데이터(Bonora et al., 2018).

세포 클러스터링에 대한 PCA, 교차 격렬의 선형 모델에 대한 BMA 및 교차 및 무작위 트랙의 예측적 모델을 위한 무작위 포레스트

주성분 분석은 2D에서 이의 중단점 특징에 기초하여 1C 및 M2 세포의 분리를 가시화하도록 사용된다. 본 발명자들은 각각의 단일 세포에 대해 3개의 유형에 상응하는 전체 78개의 특징인 교차-관련된 정보를 집계하였다. 제1 유형으로서, 본 발명자들은 각각의 세포에서 각각의 염색체에 대한 교차 또는 전장 염색체 LOH 사건의 수를 단순히 계산하였다. 제2 유형으로서, GC 함량, 서열 일탈, 염색질 마크의 강도 등과 같은 특징에 대해, 본 발명자들은 각각의 세포에서 교차 중단점에 대한 중앙치 값을 계산하였다. 제3 유형으로서, 본 발명자들은 각각의 세포에서 게놈 요소, 예컨대, 유전자 바디, 긴 말단 반복부(LTR), 교차 중단점과 중첩하는 LINE 요소의 정규화된 수를 계산하였다.

"bas" 패키지(Clyde et al., 2011)를 사용하여 평균하는 베이지안 모델은 교차 격렬을 예측하는 선형 모델(디폴트 설정을 갖는 함수 bas.lm sampling 2¹⁴ 모델)을 작제하도록 사용되고, 격렬을 예측하기 위해 중요한 변수는 이의 주변 포함 확률에 기초하여 확인된다. 무작위 포레스트는 "null" 분포를 닮은 게놈으로부터 무작위로 샘플링된 트랙으로부터 진정한 교차 트랙을 구별하도록 훈련된다. 모델 정확성은 5의 외부 배수 및 각각의 훈련 세트 내에 5배로 풀 네스팅된 5배 크로스 검증에 의해 결정된다(R 코드 및 주석에 대해 sci-L3-WGS-figures.Rmd에서 "Models"이라 불리는 부문 참조).

참고문헌

염색체를 따른 가장 오른쪽의 교차의 배치에 대한 균주(또는 세포 유형) 효과를 추산하기 위해, 본 발명자들은 균주(또는 세포 유형)에 대한 고정된 효과와의 선형 혼합 효과 모델 및 염색체가 염색체간 변동성을 고려하기 위한 무작위 절편을 사용한다(R 코드 및 주석에 대해 sci-L3-WGS-figures.Rmd에서 "Karyotype Plots"이라 불리는 부문 참조).

본 명세서에 인용된 모든 특허, 특허 출원 및 공보, 및 전자로 이용 가능한 자료(예를 들어, GenBank 및 RefSeq에서의, 예를 들어, 뉴클레오타이드 서열 제출, 및 SwissProt, PIR, PRF, PDB, 및 예를 들어, GenBank 및 RefSeq에서의 주석화된 코딩 영역으로부터의 번역에서의 아미노산 서열 제출 포함)의 완전한 개시내용은 그 전문이 참고로 원용된다. 공보에 언급된 보충 자료(예컨대, 보충 표, 보충 도면, 보충 자료 및 방법, 및/또는 보충 실험 데이터)는 마찬가지로 그 전문이 참고로 원용된다. 본 출원의 개시내용과 본 명세서에서 참고로 원용된 임의의 문헌의 개시내용(들) 사이에 어떠한 불일치가 존재하는 경우에, 본 출원의 개시내용은 지배할 것이다. 상기 상세한 설명 및 실시예는 오직 이해의 명확성을 위해 주어진다. 이로부터 불필요한 제한이 이해되지 않는다. 본 개시내용은 도시되고 기재된 정확한 상세내용으로 제한되지 않고, 당업자에 명확한 변경에 대해 청구항에 의해 정의된 개시내용 내에 포함될 것이다.

달리 표시되지 않는 한, 본 명세서 및 청구항에 사용된 성분, 분자량 및 기타의 분량을 표현하는 모든 숫자는 용어 "약"에 의해 모든 경우에 변형된 것으로 이해되어야 한다. 따라서, 달리 반대로 표시되지 않는 한, 본 명세서 및 청구항에 기재된 숫자 매개변수는 본 개시내용에 의해 얻고자 추구하는 원하는 특성에 따라 변할 수 있는 근사치이다. 최소한 그리고 청구항의 범주에 균등물의 교리를 제한하려는 시도가 아니고서, 각각의 숫자 매개변수는 보고된 유효 숫자의 수의 견지에서 및 보통의 올림 기법을 적용함으로써 적어도 해석되어야 한다.

본 개시내용의 광범위한 범주를 기재한 숫자 범위 및 매개변수가 근사치임에도 불구하고, 특정한 실시예에 기재된 숫자 값은 가능한 한 정확히 보고된다. 그러나, 모든 숫자 값은 본래 이의 각각의 시험 측정에서 발견된 표준 편차로부터 반드시 생기는 범위를 함유한다.

모든 제목은 독자의 편의를 위한 것이고, 달리 기재되지 않는 한, 제목에 다르는 텍스트의 의미를 제한하도록 사용되지 않아야 한다.

SEQUENCE LISTING <110> ILLUMINA, INC. UNIVERSITY OF WASHINGTON <120> HIGH-THROUGHPUT SINGLE-CELL SEQUENCING WITH REDUCED AMPLIFICATION BIAS <130> WO2019/222688 <140> PCT/US2019/032966 <141> 2019-05-17 <150> 62/821,864 <151> 2019-03-21 <150> 62/673,023 <151> 2018-05-17 <160> 176 <170> PatentIn version 3.5 <210> 1 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 1 ctgtctctta tacacatct 19 <210> 2 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(14) <223> a, c, t, or g <400> 2 gtcttgnnnn nnnnagatgt gtataagaga cag 33 <210> 3 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(13) <223> a, c, t, or g <220> <221> modified_base <222> (73)..(79) <223> a, c, t, or g <400> 3 caagacnnnn nnncaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgnnnnnnn 79 <210> 4 <211> 19 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 4 agauguguau aagagacag 19 <210> 5 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (5)..(10) <223> a, c, t, or g <400> 5 nnnnnnnnnn gggatgcagc tcgctcctg 29 <210> 6 <211> 90 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (59)..(65) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (66)..(71) <223> a, c, t, or g <400> 6 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctnn 60 nnnnnnnnnn ngggatgcag ctcgctcctg 90 <210> 7 <211> 89 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 7 caagcagaag acggcatacg agattcgcct tggtgactgg agttcagacg tgtgctcttc 60 cgatctccga ctcggtgcca ctttttcaa 89 <210> 8 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (13)..(20) <223> a, c, t, or g <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 8 gtcttgnnnn nnnnnnnnnn tttttttttt tttttttttt tttttttttt vn 52 <210> 9 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (20)..(26) <223> a, c, t, g, unknown or other <400> 9 cacgacgctc ttccgatctn nnnnnn 26 <210> 10 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 10 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 11 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (24)..(27) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (28)..(33) <223> a, c, t, or g <400> 11 aagcagaaga cggcatacga gatnnnnnnn nnncgtctct acgggatgca gctcgctcct 60 g 61 <210> 12 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 12 ctgtctctta tacacatct 19 <210> 13 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 13 gtcttgtgat attgagatgt gtataagaga cag 33 <210> 14 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 14 gtcttggatc ccgtagatgt gtataagaga cag 33 <210> 15 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 15 gtcttgctcg attaagatgt gtataagaga cag 33 <210> 16 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 16 gtcttgcatc aaggagatgt gtataagaga cag 33 <210> 17 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 17 gtcttgtcct tgtgagatgt gtataagaga cag 33 <210> 18 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 18 gtcttgggtc atatagatgt gtataagaga cag 33 <210> 19 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 19 gtcttgatcg cgttagatgt gtataagaga cag 33 <210> 20 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 20 gtcttgcatg ccccagatgt gtataagaga cag 33 <210> 21 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 21 gtcttggtta cgcgagatgt gtataagaga cag 33 <210> 22 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 22 gtcttgccgc gcttagatgt gtataagaga cag 33 <210> 23 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 23 gtcttgtctt agtgagatgt gtataagaga cag 33 <210> 24 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 24 gtcttgtcgg cctaagatgt gtataagaga cag 33 <210> 25 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 25 gtcttgcttt ctctagatgt gtataagaga cag 33 <210> 26 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 26 gtcttgtcgc gtttagatgt gtataagaga cag 33 <210> 27 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 27 gtcttggtca gtagagatgt gtataagaga cag 33 <210> 28 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 28 gtcttgccat ggaaagatgt gtataagaga cag 33 <210> 29 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 29 gtcttgatgc tgcgagatgt gtataagaga cag 33 <210> 30 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 30 gtcttggagt ctttagatgt gtataagaga cag 33 <210> 31 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 31 gtcttgtacg atatagatgt gtataagaga cag 33 <210> 32 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 32 gtcttgacca tttaagatgt gtataagaga cag 33 <210> 33 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 33 gtcttgatcg ggacagatgt gtataagaga cag 33 <210> 34 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 34 gtcttggacg tcggagatgt gtataagaga cag 33 <210> 35 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 35 gtcttgcatt gtgtagatgt gtataagaga cag 33 <210> 36 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 36 gtcttgtttg actcagatgt gtataagaga cag 33 <210> 37 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 37 caagacaggt ggccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggccacct 79 <210> 38 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 38 caagactaat agccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggctatta 79 <210> 39 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 39 caagaccaac atacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtatgttg 79 <210> 40 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 40 caagaccggt taacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgttaaccg 79 <210> 41 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 41 caagactgta ccccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggggtaca 79 <210> 42 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 42 caagacaata gaacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgttctatt 79 <210> 43 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 43 caagacatca agccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggcttgat 79 <210> 44 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 44 caagacactt ggacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtccaagt 79 <210> 45 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 45 caagactagt tctcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgagaacta 79 <210> 46 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 46 caagacaaac cgacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtcggttt 79 <210> 47 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 47 caagacagtc tctcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgagagact 79 <210> 48 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 48 caagacttaa cagcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgctgttaa 79 <210> 49 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 49 caagacacta cctcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgaggtagt 79 <210> 50 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 50 caagacccaa gcccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgggcttgg 79 <210> 51 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 51 caagacaaca gtgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcactgtt 79 <210> 52 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 52 caagacacga cgtcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgacgtcgt 79 <210> 53 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 53 caagacttaa gcacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtgcttaa 79 <210> 54 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 54 caagacctat ggacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtccatag 79 <210> 55 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 55 caagacgcgg caccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtgccgc 79 <210> 56 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 56 caagacgacc tgccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggcaggtc 79 <210> 57 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 57 caagaccggt gcacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtgcaccg 79 <210> 58 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 58 caagacagtc tctcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgagagact 79 <210> 59 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 59 caagaccttt tatcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgataaaag 79 <210> 60 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 60 caagactggg acccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgggtccca 79 <210> 61 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 61 caagacgtgc gaccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtcgcac 79 <210> 62 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 62 caagaccctt taccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtaaagg 79 <210> 63 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 63 caagaccaag tcgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcgacttg 79 <210> 64 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 64 caagactaag cggcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgccgctta 79 <210> 65 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 65 caagactgac catcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgatggtca 79 <210> 66 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 66 caagactgga tggcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgccatcca 79 <210> 67 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 67 caagacctcg ccccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggggcgag 79 <210> 68 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 68 caagaccatg cagcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgctgcatg 79 <210> 69 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 69 caagacctgt aggcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcctacag 79 <210> 70 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 70 caagacacct ctgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcagaggt 79 <210> 71 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 71 caagaccgtt ttgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcaaaacg 79 <210> 72 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 72 caagacgaag gtccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggaccttc 79 <210> 73 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 73 caagacggct actcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgagtagcc 79 <210> 74 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 74 caagacccgg ctacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtagccgg 79 <210> 75 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 75 caagactaga ctacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtagtcta 79 <210> 76 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 76 caagacaaat taccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtaattt 79 <210> 77 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 77 caagactact cgacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtcgagta 79 <210> 78 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 78 caagactcct acccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgggtagga 79 <210> 79 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 79 caagaccccc gtccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggacgggg 79 <210> 80 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 80 caagacgata cgacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtcgtatc 79 <210> 81 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 81 caagacgctg tgacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtcacagc 79 <210> 82 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 82 caagactata ggccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggcctata 79 <210> 83 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 83 caagaccgac gcacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtgcgtcg 79 <210> 84 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 84 caagactcca tttcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgaaatgga 79 <210> 85 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 85 caagacaaga ccgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcggtctt 79 <210> 86 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 86 caagactaag taacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgttactta 79 <210> 87 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 87 caagacctac tgccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggcagtag 79 <210> 88 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 88 caagactctt atacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtataaga 79 <210> 89 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 89 caagacaacc caccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtgggtt 79 <210> 90 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 90 caagactacg gatcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgatccgta 79 <210> 91 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 91 caagacaatt ccacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtggaatt 79 <210> 92 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 92 caagacgtct ccgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcggagac 79 <210> 93 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 93 caagacatgc agtcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgactgcat 79 <210> 94 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 94 caagacgagc ttgcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgcaagctc 79 <210> 95 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 95 caagacgaga aaccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggtttctc 79 <210> 96 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 96 caagactttg gcccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgggccaaa 79 <210> 97 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 97 caagactgcg agtcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgactcgca 79 <210> 98 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 98 caagactgca tcacaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgtgatgca 79 <210> 99 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 99 caagacggga tatcaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tgatatccc 79 <210> 100 <211> 79 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 100 caagactcgc ctccaggagc gagctgcatc ccaatttaat acgactcact atagggatgc 60 agctcgctcc tggaggcga 79 <210> 101 <211> 19 <212> RNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 101 agauguguau aagagacag 19 <210> 102 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 102 nnnnacgcga gggatgcagc tcgctcctg 29 <210> 103 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 103 nnnncgcttg gggatgcagc tcgctcctg 29 <210> 104 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 104 nnnngtccta gggatgcagc tcgctcctg 29 <210> 105 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 105 nnnnaggatg gggatgcagc tcgctcctg 29 <210> 106 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 106 nnnnttctcc gggatgcagc tcgctcctg 29 <210> 107 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 107 nnnnaccact gggatgcagc tcgctcctg 29 <210> 108 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 108 nnnntttcgc gggatgcagc tcgctcctg 29 <210> 109 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 109 nnnncggtgg gggatgcagc tcgctcctg 29 <210> 110 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 110 nnnntattct gggatgcagc tcgctcctg 29 <210> 111 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 111 nnnnacttaa gggatgcagc tcgctcctg 29 <210> 112 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 112 nnnntaaaga gggatgcagc tcgctcctg 29 <210> 113 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 113 nnnngagttt gggatgcagc tcgctcctg 29 <210> 114 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 114 nnnngggtgc gggatgcagc tcgctcctg 29 <210> 115 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 115 nnnngggccg gggatgcagc tcgctcctg 29 <210> 116 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 116 nnnnaattga gggatgcagc tcgctcctg 29 <210> 117 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 117 nnnntaagcg gggatgcagc tcgctcctg 29 <210> 118 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 118 nnnntaatgc gggatgcagc tcgctcctg 29 <210> 119 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (1)..(4) <223> a, c, t, g, unknown or other <400> 119 nnnngtctat gggatgcagc tcgctcctg 29 <210> 120 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 120 gtcttgnnnn nnacccgaca tttttttttt tttttttttt tttttttttt vn 52 <210> 121 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 121 gtcttgnnnn nnaggctctc tttttttttt tttttttttt tttttttttt vn 52 <210> 122 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 122 gtcttgnnnn nntctaaact tttttttttt tttttttttt tttttttttt vn 52 <210> 123 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 123 gtcttgnnnn nntaccctcg tttttttttt tttttttttt tttttttttt vn 52 <210> 124 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 124 gtcttgnnnn nnctggtcat tttttttttt tttttttttt tttttttttt vn 52 <210> 125 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 125 gtcttgnnnn nnttataagc tttttttttt tttttttttt tttttttttt vn 52 <210> 126 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 126 gtcttgnnnn nnaatgtaga tttttttttt tttttttttt tttttttttt vn 52 <210> 127 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 127 gtcttgnnnn nncgcagacc tttttttttt tttttttttt tttttttttt vn 52 <210> 128 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 128 gtcttgnnnn nncgaatcaa tttttttttt tttttttttt tttttttttt vn 52 <210> 129 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 129 gtcttgnnnn nnccggaaag tttttttttt tttttttttt tttttttttt vn 52 <210> 130 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 130 gtcttgnnnn nngtttaaag tttttttttt tttttttttt tttttttttt vn 52 <210> 131 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 131 gtcttgnnnn nnaaagttga tttttttttt tttttttttt tttttttttt vn 52 <210> 132 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 132 gtcttgnnnn nncggaaact tttttttttt tttttttttt tttttttttt vn 52 <210> 133 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 133 gtcttgnnnn nntgagtacc tttttttttt tttttttttt tttttttttt vn 52 <210> 134 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 134 gtcttgnnnn nncgtagaat tttttttttt tttttttttt tttttttttt vn 52 <210> 135 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 135 gtcttgnnnn nncgacaccc tttttttttt tttttttttt tttttttttt vn 52 <210> 136 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 136 gtcttgnnnn nngtactgaa tttttttttt tttttttttt tttttttttt vn 52 <210> 137 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 137 gtcttgnnnn nncggaaaga tttttttttt tttttttttt tttttttttt vn 52 <210> 138 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 138 gtcttgnnnn nnatatcaat tttttttttt tttttttttt tttttttttt vn 52 <210> 139 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 139 gtcttgnnnn nntacccggc tttttttttt tttttttttt tttttttttt vn 52 <210> 140 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 140 gtcttgnnnn nngccatccc tttttttttt tttttttttt tttttttttt vn 52 <210> 141 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 141 gtcttgnnnn nnaccaacgc tttttttttt tttttttttt tttttttttt vn 52 <210> 142 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 142 gtcttgnnnn nntgcaagct tttttttttt tttttttttt tttttttttt vn 52 <210> 143 <211> 52 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (7)..(12) <223> a, c, t, g, unknown or other <220> <221> modified_base <222> (52)..(52) <223> a, c, t, g, unknown or other <400> 143 gtcttgnnnn nngcaaccgg tttttttttt tttttttttt tttttttttt vn 52 <210> 144 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (20)..(26) <223> a, c, t, g, unknown or other <400> 144 cacgacgctc ttccgatctn nnnnnn 26 <210> 145 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 145 caagcagaag acggcatacg agatnnnnga tccgcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 146 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 146 caagcagaag acggcatacg agatnnnngg gtatcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 147 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 147 caagcagaag acggcatacg agatnnnnca tggacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 148 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 148 caagcagaag acggcatacg agatnnnntt gaagcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 149 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 149 caagcagaag acggcatacg agatnnnnct gggtcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 150 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 150 caagcagaag acggcatacg agatnnnnca ctaccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 151 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 151 caagcagaag acggcatacg agatnnnnct tatacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 152 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 152 caagcagaag acggcatacg agatnnnngt tggacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 153 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 153 caagcagaag acggcatacg agatnnnnag cggtcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 154 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 154 caagcagaag acggcatacg agatnnnncc gttccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 155 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 155 caagcagaag acggcatacg agatnnnnac gttacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 156 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 156 caagcagaag acggcatacg agatnnnnaa catacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 157 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 157 caagcagaag acggcatacg agatnnnngc agaccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 158 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 158 caagcagaag acggcatacg agatnnnnat tcgtcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 159 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 159 caagcagaag acggcatacg agatnnnntg gggtcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 160 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 160 caagcagaag acggcatacg agatnnnnct tccccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 161 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 161 caagcagaag acggcatacg agatnnnntc cgtgcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 162 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 162 caagcagaag acggcatacg agatnnnntt tgtacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 163 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 163 caagcagaag acggcatacg agatnnnnga gatgcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 164 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 164 caagcagaag acggcatacg agatnnnngg accacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 165 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 165 caagcagaag acggcatacg agatnnnnta tgttcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 166 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 166 caagcagaag acggcatacg agatnnnncg acgccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 167 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 167 caagcagaag acggcatacg agatnnnngc tattcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 168 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 168 caagcagaag acggcatacg agatnnnncg gctgcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 169 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 169 caagcagaag acggcatacg agatnnnnca tctgcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 170 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 170 caagcagaag acggcatacg agatnnnnaa gttccgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 171 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 171 caagcagaag acggcatacg agatnnnntt gttacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 172 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 172 caagcagaag acggcatacg agatnnnnca ggcacgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 173 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 173 caagcagaag acggcatacg agatnnnngg tgagcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 174 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 174 caagcagaag acggcatacg agatnnnnca aaagcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 175 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 175 caagcagaag acggcatacg agatnnnnac tcctcgtctc tacgggatgc agctcgctcc 60 tg 62 <210> 176 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (25)..(28) <223> a, c, t, g, unknown or other <400> 176 caagcagaag acggcatacg agatnnnntg cgggcgtctc tacgggatgc agctcgctcc 60 tg 62

Claims

복수의 세포 유래 핵산을 포함하는 서열분석 라이브러리를 제조하는 방법으로서, 다음을 포함하는 방법:
(a) 복수의 세포로부터 단리된 핵을 제공하는 단계;
(b) 상기 단리된 핵을 제1 복수 구획으로 분배하고- 여기서 각각의 구획은 단리된 핵의 서브세트를 포함함- 각 서브세트를 트랜스포솜 복합체와 접촉시키는 단계로서, 각 구획 내의 트랜스포솜 복합체는 트랜스포사제, 다른 구획들 내의 제1 인덱스 서열들과는 다른 제1 인덱스 서열 및 적어도 하나의 범용(universal) 서열을 포함하는 것인, 상기 단계;
(c) 단리된 핵의 서브세트 내의 핵산을 복수의 핵산 단편으로 단편화하고, 상기 제1 인덱스 서열을 상기 핵산 단편의 적어도 하나의 가닥에 통합하여 인덱싱된 핵을 생성하는 단계로서, 여기서 각각의 인덱싱된 핵은 인덱싱된 핵산 단편을 함유하는 것인, 상기 단계;
(d) 상기 인덱싱된 핵을 배합하여 인덱싱된 핵의 풀(pool)을 생성하는 단계;
(e) 상기 인덱싱된 핵의 풀의 서브세트를 제2 복수 구획으로 분배하는 단계;
(f) 이중 인덱싱된 핵을 생성하기 위해 상기 제2 복수 구획의 각 구획 내 인덱싱된 핵에 제2 인덱스 서열을 통합시키는 단계로서, 여기서 각 이중 인덱싱된 핵은 이중 인덱싱된 핵산 단편을 함유하고, 상기 제2 인덱스 서열은 상기 제2 복수 구획의 각 구획에 대해 고유한 것인, 상기 단계;
(g) 상기 이중 인덱싱된 핵을 배합하여 이중 인덱싱된 핵의 풀을 생성하는 단계;
(h) 상기 이중 인덱싱된 핵의 풀의 서브세트를 제3 복수 구획으로 분배하고, 상기 이중 인덱싱된 핵을 용해(lysis)시켜 이중 인덱싱된 핵산 단편을 생성하는 단계;
(i) 상기 제3 복수 구획의 각 구획 내 이중 인덱싱된 핵산 단편으로 제3 인덱스 서열을 통합하여 삼중 인덱싱된 핵산 단편을 생성하는 단계로서, 여기서 각 구획 내 제3 인덱스 서열은 다른 구획들의 제1 및 제2 인덱스 서열과 상이하고, 각 구획 내 제3 인덱스 서열은 다른 구획들의 제3 인덱스 서열과는 상이한 것인, 상기 단계; 및
(j) 상기 삼중 인덱싱된 핵산 단편을 배합하여 삼중 인덱싱된 핵산 단편의 풀을 생성함으로써 복수의 핵 유래 서열분석 라이브러리를 생성하는 단계.
제1항에 있어서, 상기 단리된 핵은 뉴클레오솜이 없는 것인 방법.
제1항에 있어서, 단계 (b) 이전에 단리된 핵을 상기 단리된 핵의 완전성(integrity)을 유지하면서 뉴클레오솜 고갈된 핵을 생성하는 조건에 적용하는 단계를 추가로 포함하는 방법.
제1항에 있어서, 상기 범용 서열이 범용 프라이머를 포함하는 것인, 방법.
제1항에 있어서, 단계 (c)의 인덱싱된 핵산 단편이 트랜스포사제에 부착된 채로 있어서, 동일한 게놈 DNA 분자로부터 유래된 핵산 단편이 물리적으로 연결된 상태로 남아 있는 것인, 방법.
제5항에 있어서, 상기 인덱싱된 핵산 단편으로부터 트랜스포사제를 해리시키는 단계를 추가로 포함하는 방법.
제1항에 있어서, 단계 (f)는 인덱싱된 핵산 단편의 한쪽 또는 양쪽 말단에 헤어핀 결찰 듀플렉스를 결찰하기에 적합한 조건 하에 각각의 서브세트를 헤어핀 결찰 듀플렉스와 접촉시켜 이중 인덱싱된 핵산 단편을 생성하는 단계를 포함하고, 여기서 헤어핀 결찰 듀플렉스는 제2 인덱스 서열을 포함하는 것인, 방법.
제1항에 있어서, 단계 (h) 이후 및 단계 (i) 이전에 상기 이중 인덱싱된 핵산 단편을 조작하는 단계를 추가로 포함하고, 여기서 상기 조작하는 단계는 갭 확장(gap extension), 시험관내 전사, 역전사 또는 이들의 조합을 포함하는 방법.
제1항에 있어서, 단계 (i)의 통합은 제2 가닥 합성을 포함하는 것인, 방법.