KR20210143855A

KR20210143855A - 세포-유형별 특이적 조절 요소들을 식별해내기 위한 조절 요소들의 멀티플렉싱

Info

Publication number: KR20210143855A
Application number: KR1020217034275A
Authority: KR
Inventors: 카르티크 라마무르티; 앤 타넨하우스; 시리카 우드; 마틴 무르헤드; 스테파니 타글리아텔라; 제리 에스. 첸; 라가벤드라 호수르
Original assignee: 엔코디드 테라퓨틱스, 인크.
Priority date: 2019-03-22
Filing date: 2020-03-20
Publication date: 2021-11-29
Also published as: EP3942055A4; TW202102680A; IL286455A; CL2021002433A1; US20220170910A1; WO2020198017A1; EP3942055A1; JP2022525477A; MA55386A; EA202192580A1; CA3134501A1; MX2021011511A; CN113874515A; BR112021018819A2; SG11202110298RA; AU2020245425A1; CO2021012576A2

Abstract

특정 관심 세포 유형에서 선택적 발현을 제공하는 조절 요소를 스크리닝하고, 식별해내기 위한 고-처리량 방법이 본원에 제공된다. 고-처리량 스크리닝 방법에 이용되는 핵산 조성물들이 또한 제공된다.

Description

세포-유형별 특이적 조절 요소들을 식별해내기 위한 조절 요소들의 멀티플렉싱

본 출원은 2019년 3월 22일자로 출원된 미국 특허 가출원 번호 62/822,528의 우선권의 이익을 주장하며, 그 내용은 전문이 본원에 참조로 포함된다.

본 명세서의 배경

최근 몇 년 동안 질환 치료를 위해 유전자 요법을 활용한 임상 시험이 꾸준히 증가하고 있다. 이러한 임상 시험들이 직면한 주요 과제 중 하나는 치료 단백질 또는 RNA 간섭-기반 서열들의 과다발현으로 인한 치료 효능과 비-특이적 독성 사이의 균형을 제공하기 위해 치료요법적 유전자의 발현 또는 침묵화 수준을 제어하는 능력이다. 특히, 치료요법적으로 적절한 용량(dose)을 달성하는 데 필요한 전이유전자(transgene)의 발현 수준은 특이적 질환의 내재성 병태생리와 해당 전이유전자 산물의 속성 (가령, 세포-내 대비 세포-외, 구조 대비 효소적 기능)에 따라 가변적이다. 추가적으로, 전이유전자의 세포-특이적 발현은 병리학적으로 관련된 세포 유형 (가령, 암 세포)을 선택적으로 표적화하는 능력을 제공하고, 환자에서 부작용의 가능성을 감소시키기 때문에 매우 바람직하다. 따라서, 표적 조직 및/또는 세포 유형에서 관심대상의 조직 또는 세포 유형으로 유전자 요법 또는 유전자 발현을 표적화하기 위한 조절 요소들을 식별해내고, 이의 사용 방법을 확인할 필요가 있는데, 이러한 경우 표적을 빗겨가는 영향을 감소시키고, 표적 조직 및/또는 세포 유형에서 치료 효능을 증가시키고, 그리고 효능을 달성하는 데 필요한 유효 용량을 낮춤으로써 환자의 안전성과 내성을 증가시키게 된다.

본 명세서의 요약

일부 구체예들에서, 본 명세서는 주어진 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해내는 방법을 제공하며, 다음을 포함한다: a) 세포들에게 벡터들의 혼합물을 제공하며, 각 벡터는 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하고, 이때 각 벡터는 바코드를 추가로 포함하며; b) 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고; c) 각 단일 세포의 전사체(transcriptome)를 시퀸싱함으로써, 전술한 단일 세포들을 동정하고; 그리고 d) 상기 전사체내 바코드를 후보 조절 요소에 상호연관시키고, 이렇게 함으로써 해당 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해낸다. 일부 구체예들에서, 상기 조절 요소는 해당 세포 유형에서 전이유전자의 발현을 선택적으로 증가시킨다. 일부 구체예들에서, 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상기 조절 요소는 적어도 하나의 다른 세포 유형에 비해, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 제공한다. 일부 구체예들에서, 흥분성 뉴런과 비교하였을 때, 상기 조절 요소는 GABAergic(감마아미노 낙산을 생산하는 신경세포의) 뉴런에서 해당 전이유전자의 선택적 발현을 제공한다. 다른 구체예들에서, 상기 조절 요소는 GABAergic 뉴런 하위유형 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런에서 해당 전이유전자의 선택적 발현을 제공한다. 다른 구체예들에서, 상기 조절 요소는 비-PV 뉴런과 비교하였을 때, 파르알부민 (PV) 뉴런에서 해당 전이유전자의 선택적 발현을 제공한다. 일부 구체예들에서, 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상이다. 일부 구체예들에서, 상이한 GABAergic 뉴런 하위유형에서 동일한 조절 요소로부터 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상이한 GABAergic 뉴런 하위유형에서 동일한 조절 요소로부터 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다.

일부 구체예들에서, 본 명세서는 주어진 세포 유형 또는 세포 하위유형에서 전이유전자의 선택적 발현을 제공하는 조절 요소를 식별해내는 방법을 제공하며, 다음을 포함한다: a) 세포들에게 벡터들의 혼합물을 제공하며, 각 벡터는 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하고, 이때 각 벡터는 바코드를 추가로 포함하며; b) 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고; c) 각 단일 세포의 전사체를 시퀸싱함으로써, 전술한 단일 세포들을 동정하고; 그리고 d) 상기 전사체내 바코드를 후보 조절 요소에 상호연관시키고; 그리고 e) 각 후보 조절 요소에 의해 제공되는 해당 전이유전자의 발현 수준을 해당 전이유전자의 참조 발현 수준과 비교하고; 이렇게 함으로써, 해당 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해낸다 일부 구체예들에서, 상기 조절 요소 해당 세포 유형에서 전이유전자의 발현을 선택적으로 증가 또는 감소시킨다. 일부 구체예들에서, 해당 전이유전자의 참조 발현 수준은 대조군 조절 요소에 의해 제공된다. 일부 구체예들에서, 또다른 후보 조절 요소 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 해당 전이유전자의 참조 발현 수준은 범-세포성 조절 요소에 의해 제공된다. 일부 구체예들에서, 상기 범-세포성 조절 요소는 사이토메갈로바이러스 주요-즉시 초기 프로모터(CMV), 닭 β-액틴 프로모터(CBA), CMV 초기 인핸서/CBA 프로모터(CAG), 신장 인자-1α 프로모터(EF1α), 원숭이 바이러스 40 프로모터(SV40), 포스포글리세레이트 키나제 프로모터(PGK) 및 폴리유비퀴틴 C 유전자 프로모터(UBC)로 구성된 군에서 선택된다 일부 구체예들에서, 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 상기 조절 요소는 적어도 하나의 다른 세포 유형에 비해, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 제공한다. 일부 구체예들에서, 비-PV 뉴런과 비교하였을 때, 상기 조절 요소는 PV 뉴런에서 해당 전이유전자를 선택적으로 발현시킨다. 일부 구체예들에서, 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상이다.

일부 구체예들에서, 본 명세서는 조절 요소에 작동가능하도록 연계된 전이유전자를 선택적으로 발견시키는 세포 유형을 동정하는 방법을 제공하며, 이 방법은 다음을 포함한다: a) 세포들에게 벡터들의 혼합물을 제공하며, 각 벡터는 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하고, 이때 각 벡터는 바코드를 추가로 포함하며; b) 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고; c) 각 단일 세포의 전사체를 시퀸싱함으로써, 전술한 단일 세포들을 동정하고; 그리고 d) 상기 전사체내 바코드를 후보 조절 요소에 상호연관시키고; 그리고 e) 하나의 세포 유형에서 조절 요소에 의해 제공되는 해당 전이유전자의 발혈 수준을 상이한 세포 유형에서 동일한 후보 조절 요소의 발현 수준과 비교하고, 이렇게 함으로써 절 요소에 작동가능하도록 연계된 전이유전자를 선택적으로 발현시키는 세포 유형을 동정해낸다. 일부 구체예들에서, 적어도 하나의 다른 세포 유형과 비교하였을 때, 상기 조절 요소는 하나의 세포 유형에서 해당 전이유전자의 발현을 선택적으로 증가 또는 감소시킨다. 일부 구체예들에서, 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공한다. 일부 구체예들에서, 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 상기 조절 요소는 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공한다. 일부 구체예들에서, 비-PV 뉴런과 비교하였을 때, 상기 조절 요소는 PV 뉴런에서 해당 전이유전자를 선택적으로 발현시킨다. 일부 구체예들에서, 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상이다.

용이하게 이해될 수 있는 바와 같이, 관심대상의 세포 또는 세포 유형에서 조절 요소에 의해 구동되는 발현의 선택성은 다양한 방식으로 측정될 수 있다. 예를 들면, 비-표적 세포 유형과 대비하여 표적 세포 유형에서 유전자 발현의 선택성은 하나 또는 그 이상의 조절 요소에 작동가능하도록 연계된 탐지가능한 수준의 전사체를 발현시키는 표적 세포의 수를 해당 유전자를 발현시키는 세포들의 총 수에 비교함으로써 측정될 수 있다. 이러한 측정, 검출 및 정량화는 생체 내 또는 시험관 내에서 수행할 수 있다.

일부 경우들에서, 특이적 세포 유형에 대한 선택성은 공동-국소화 분석(co-localization assay)을 이용하여 결정될 수 있다. 일부 경우들에서, 상기 공동-국소화 분석은 면역조직화학에 기반을 둔다. 일부 경우들에서, 검출가능한 리포터 유전자는 관심대상의 세포 유형에서 유전자 발현의 검출 및/또는 측정을 허용하는 전이유전자로 이용된다. 일부 경우들에서, 검출가능한 마커, 가령, 표적 세포를 특이적으로 라벨링시키는 형광 마커 또는 항체를 해당 표적 세포를 검출하고 및/또는 측정하는데 이용한다. 일부 경우들에서, 공동-국소화 분석은 이미징 가령, 형광 이미징을 사용하여 서로 상이한 형광 수준 간의 중첩, 가령, 표적 세포를 나타내는 형광 신호와 유전자 발현을 나타내는 또다른 형광 신호 사이의 중첩을 결정한다. 일부 경우들에서, 공동-국소화 분석에 이용되는 형광 라벨에는 적색 형광 단백질 (RFP), 이를 테면, tdTomato 리포터 유전자, 및 녹색 형광 리포터 단백질, 이를 테면, eGFP가 내포된다.

일부 구체예들에서, 세포 유형에서 조절 요소의 선택성은 면역조직화학-기반의 공동-국소화 분석에 의해 결정될 수 있다. 일부 구체예들에서, 상기 분석은 다음을 포함한다: a) 전이유전자 발현을 측정하기 위해 조절 요소에 작동가능하도록 연계된 전이유전자로써 검출가능한 리포터 유전자를 이용하고, 그리고 b) 표적 세포 유형에 특이적인 마커를 동정하는 결합제를 이용하고, 이때 상기 결합제는 검출가능한 라벨이 연계되어 있다. 일부 구체예들에서, 세포 유형에 대한 선택성은 다음을 이용하여 면역조직화학-기반의 공동-국소화 분석을 이용하여 결정되거나 또는 실증될 수 있다: a) 전이유전자 발현을 측정하기 위해 조절 요소에 작동가능하도록 연계된 전이유전자, 그리고 b) 제 2 형광 라벨에 연계된 관심대상의 세포 유형을 동정하는 항체.

일부 구체예들에서, 본 명세서는 주어진 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해내는 방법을 제공하며, 다음을 포함한다: a) 세포들에게 벡터들의 혼합물을 제공하며, 각 벡터는 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하고, 이때 각 벡터는 바코드를 추가로 포함하며; b) 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고; c) 각 단일 세포의 전사체(transcriptome)를 시퀸싱함으로써, 전술한 단일 세포들을 동정하고; 그리고 d) 상기 전사체내 바코드를 후보 조절 요소에 상호연관시키고, 이렇게 함으로써 해당 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해낸다. 단일 핵 RNAseq에서 검출 임계값 미만으로 떨어지는 AAV 구성물의 검출을 증가시키기 위해, 증폭 전에 강화(enrichment) PCR 단계를 수행했다. 일부 구체예들에서, 각 단일 세포의 전사체를 시퀸싱에 의해 전술한 각 단일 세포를 동정하기 전, 상기 PCR 강화 단계가 행된다. 일부 구체예들에서, 상기 PCR 강화 단계는 AAV 구조체로부터 적어도 1-50-배, 적어도 2-25-배, 또는 적어도 3-10-배 증폭된 신호를 만든다.

본원에 기술된 임의의 방법들의 일부 구체예들에서, RNA는 mRNA, 긴 넌-코딩 RNA, 안타센스 전사체, 및 pri-miRNAs로 구성된 군에서 선택된다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 벡터는 라스미드, 바이러스 벡터, 또는 코스미드로 구성된 군에서 선택된다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 바이러스 벡터는 아데노-연합된 바이러스 (AAV) 벡터다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, AAV 벡터는 AAV1, AAV8, AAV9, scAAV1, scAAV8, 또는 scAAV9이다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, AAV 벡터는 AAV9이다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 벡터는 5' AAV 역전된 말단 반복부 (ITR) 서열 및 3' AAV ITR 서열을 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 벡터들의 혼합물은 적어도 10⁴ 개의 보 조절 요소를 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 각 후보 조절 요소는 적어도 하나의 특유의 바코드에 관련되어 있다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 전이유전자는 리포터 유전자 서열을 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 리포터 유전자 서열은 결합 도메인을 인코딩하는 서열에 작동가능하도록 연계된다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 전이유전자는 바코드를 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 리포터 유전자 서열은 바코드를 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 바코드는 대체 코돈을 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 핵 결합 도메인을 인코딩하는 서열은 Karsicht/ANC-1/Syne 상동성 (KASH) 도메인 또는 Sad1p/UNC-84 (SUN) 도메인 단백질, 또는 이의 생물학적으로 활성 단편을 인코드한다. 본원에 기술된 임의의 방법들의 일부 구체예들에서, 상기 세포 유형은 결합 조직, 근육 조직, 신경 조직 및 상피 조직으로 구성된 그룹에서 선택된 조직으로 구성된 군에서 선택된 조직에 속한다.

일부 구체예들에서, 본 명세서는 전이유전자에 작동가능하도록 연계된 조절 요소를 포함하는 핵산 분자를 제공하며, 이때 상기 핵산 분자는 바코드를 포함한다. 일부 구체예들에서, 상기 바코드는 대체 코돈을 포함한다. 일부 구체예들에서, 상기 전이유전자는 리포터 유전자 서열을 포함한다. 일부 구체예들에서, 상기 리포터 유전자 서열은 핵 결합 도메인을 인코딩하는 서열을 인코딩하는 뉴클레오티드 서열에 작동가능하도록 연계된다. 일부 구체예들에서, 상기 핵 결합 도메인 서열은 KASH 도메인 또는 SUN 도메인 단백질 또는 이의 생물학적으로 활성 단편을 인코드한다. 일부 구체예들에서, 상기 조절 요소는 비-자연적으로 생성된다. 일부 구체예들에서, 상기 리포터 유전자 서열은 형광 단백질을 인코드한다. 일부 구체예들에서, 상기 형광 단백질은 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, 또는 mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), a 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프이다. 일부 구체예들에서, 상기 전이유전자는 바코드를 포함한다. 일부 구체예들에서, 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함한다. 일부 구체예들에서, 상기 리포터 유전자 서열은 바코드를 포함한다. 일부 구체예들에서, 상기 바코드는 상기 전이유전자의 코딩 영역 안에 위치한다. 일부 구체예들에서, 상기 핵산 분자는 넌-코딩 영역을 포함하고, 이때 상기 바코드는 상기 전이유전자의 넌-코딩 영역 안에 위치한다. 일부 구체예들에서, 상기 핵산 분자는 미-해독 영역 (UTR)을 포함하고, 상기 바코드는 상기 UTR 안에 위치한다. 일부 구체예들에서, 상기 바코드 서열은 상기 핵산에서 폴리A 꼬리 시작에서부터 약 25, 30, 35, 50, 100, 150, 200, 250, 300, 350, 400, 450 또는 500개의 염기 안에 위치한다. 다른 구체예들에서, 상기 핵산은 폴리A 서열을 포함하고, 이때 상기 바코드는 상기 폴리A 서열의 상류 적어도 35개 염기 지점에 위치한다. 일부 구체예들에서, 상기 바코드는 전사 시작 부위의 상류에 위치한다.

일부 구체예들에서, 본 명세서는 핵산 분자를 제공하며, 이때 상기 핵산 분자는 DNA 분자로부터 전사된 RNA 분자이며, 이때 이 RNA 분자는 전이유전자 및 바코드 서열을 포함하고, 이때 이 DNA 분자는 조절 요소를 포함하고, 그리고 이때 상기 RNA 분자내 바코드 서열은 상기 DNA 분자내 조절 요소와 연관되어 있다. 일부 구체예들에서, 상기 전이유전자는 리포터 유전자 서열을 포함한다. 일부 구체예들에서, 상기 리포터 유전자 서열은 핵 결합 도메인을 인코딩하는 뉴클레오티드 서열에 작동가능하도록 연계된다. 일부 구체예들에서, 상기 핵 결합 도메인은 KASH 도메인 또는 SUN 도메인 단백질 또는 이의 생물학적으로 활성 단편이다. 일부 구체예들에서, 상기 조절 요소는 비-자연적으로 생성된다. 일부 구체예들에서, 상기 리포터 유전자 서열은 형광 단백질을 인코드한다. 일부 구체예들에서, 상기 형광 단백질은 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, 또는 mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), a 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프이다. 일부 구체예들에서, 상기 전이유전자는 바코드를 포함한다. 일부 구체예들에서, 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함한다. 일부 구체예들에서, 상기 리포터 유전자 서열은 바코드를 포함한다. 일부 구체예들에서, 상기 바코드는 대체 코돈을 포함한다. 일부 구체예들에서, 상기 핵산 분자는 미-해독 영역 (UTR)을 포함하고, 상기 바코드는 상기 UTR 안에 위치한다. 일부 구체예들에서, 상기 핵산 분자는 폴리A 서열을 포함하고, 이때 상기 바코드는 상기 폴리A 서열의 상류 적어도 30 ~ 50개 염기 지점에 위치한다. 일부 구체예들에서, 상기 핵산 분자는 극미립자에 연결된다. 일부 구체예들에서, 상기 극미립자는 비드이다. 일부 구체예들에서, 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된다. 일부 구체예들에서, 상기 핵산 분자는 상기 극미립자에 극미립자 폴리뉴클레오티드 분자를 경유하여 연결된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 프라이머 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 세포 바코드 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 특유의 분자 식별자 (UMI) 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 세포 바코드 서열, c) 특유의 분자 식별자 (UMI) 뉴클레오티드 서열, 그리고 d) 올리고-dT 서열; 이때 상기 핵산은 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-d)에 연결된다: 극미립자--a)--b)--c)--d); 그리고 이때 상기 폴리A 뉴클레오티드 서열은 올리고-dT 서열과 혼성화된다. 일부 구체예들에서, 상기 극미립자는 비드이다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 포함하는 벡터를 제공한다. 일부 구체예들에서, 상기 벡터는 바이러스 벡터다. 일부 구체예들에서, 상기 벡터는 아데노-연합된 바이러스 벡터다. 일부 구체예들에서, 상기 아데노-연합된 바이러스 벡터는 AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10, AAV11, AAV12, rh10, 및 이의 하이브리드, 조류(avian) AAV, 소 AAV, 개의 AAV, 말(equine) AAV, 영장류 AAV, 비-영장류 AAV, 또는 양(ovine) AAV중 임의의 하나다. 일부 구체예들에서, 상기 아데노-연합된 바이러스 벡터는 AAV9 벡터다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 포함하는 세포를 제공한다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 벡터를 포함하는 세포를 제공한다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산들중 하나 또는 그 이상에 연결된 극미립자를 제공한다. 일부 구체예들에서, 상기 극미립자는 비드이다. 일부 구체예들에서, 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 프라이머 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 특유의 분자 식별자 (UMI)를 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함한다. 일부 구체예들에서, 상기 핵산은 폴리A 뉴클레오티드 서열을 포함하고, 이때 이 폴리A 뉴클레오티드 서열은 올리고-dT 서열에 혼성화된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 세포 바코드 서열, c) 특유의 분자 식별자 (UMI) 서열, 그리고 d) 올리고-dT 서열; 이때 상기 핵산 는 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-d)에 연결되고: 극미립자--a)--b)--c)--d); 그리고 이때 상기 폴리A 뉴클레오티드 서열은 올리고-dT 서열과 혼성화된다. 일부 구체예들에서, 상기 극미립자는 비드이다.

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 핵산 분자를 포함하는 소적(droplet)을 제공한다.

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 세포를 포함하는 소적을 제공한다.

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 극미립자를 포함하는 소적을 제공한다.

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 세포 및 본원에 기술된 임의의 극미립자를 포함하는 소적을 제공한다.

도면의 간단한 설명
본 발명의 새로운 특징들은 첨부된 청구범위에 구체적으로 제시된다. 본 발명의 특징 및 이점들은 본 발명의 원리를 이용하는 예시적 구체예들을 제시하는 하기 상세한 설명 그리고 다음과 같은 첨부 도면을 참고하여 보다 잘 이해될 것이다:
도 1A는 단일 핵 RNAseq를 이용하여 생체내 조절 요소들 ("REs")의 특이성을 평가하기 위해, RE들을 멀티플랙싱하는 방법을 단순하게 도시한 것이다. 도 1B는 단일 핵 RNAseq에 대한 10X Genomics Chromium Single Cell 3' v2 키트의 작업 흐름의 단순화된 개략도다.
도 2는 문헌으로부터-파생된 기본형(canonical) 바이오마커를 기반으로 주석이 달린 클러스터를 보여준다. 상기 바이오마커들은 표 2에서 특정된다. "Exc"= 흥분성 뉴런; "GABA"=GABAergic 뉴런; "NonN"=비-뉴런 세포; "TPM"= 백만개당 전사체.
도 3은각 세포 집단 내에서 CamKII 프로모터, CBA 프로모터, 또는 RE1조절 요소 (가령, 서열 식별 번호: 1) 하에서 각 바코드화된 AAV 전이유전자의 발현을 도시한다. "Exc"= 흥분성 뉴런; "GABA"=GABAergic 뉴런; "NonN"=비-뉴런 세포; "TPM"= 백만개당 전사체.
도 4는 각 세포 집단 내에서 각 AAV 전이유전자에 대한 CBA-표준화된 배수 변화 (예를 들면, 주어진 세포 집단 내에서 평균 CBA 발현에 대한 각 AAV 전이유전자의 발현)를 도시한다. 흥분(excitatory)-집단 내의 폴드-변화는 1로 정규화된다. 각 바코드화된 AAV 전이유전자를 별도로 나타낸다. "Exc"= 흥분성 뉴런; "GABA"=GABAergic 뉴런; "NonN"=비-뉴런 세포.
도 5는 각 세포 집단 내에서 각 AAV 전이유전자에 대한 CBA-표준화된 배수 변화를 도시한다. 발현 값은 각 AAV 전이유전자의 두 가지 바코드화된 버젼 간의 평균이다. 흥분(excitatory)-집단 내의 폴드-변화는 1로 정규화된다. "Exc"= 흥분성 뉴런; "GABA"=GABAergic 뉴런; "NonN"=비-뉴런 세포.
도 6은 4가지 GABA sub-집단(PV (파르알부민), VIP (혈관활성화된 장내 폴리펩티드), Sst (소마토스태틴), 또는 Ndnf-Reln (뉴런-유래된 신경영양성 인자- Reelin)에 대해 양성인 하위-집단)에서 비교된 흥분 세포내 AAV 전이유전자 발현을 도시한다.
도 7은 GABAergic 뉴런 및 흥분성 뉴런에서 각 조절 요소들에 대한 AAV L3 라이브러리의 발현(TPM)을 보여주는 그래프다. 대조군 조절 요소는 다음과 같다: CBA (구조체 1), EF1α (구조체 2), 그리고 RE1 (구조체 3).
도 8은 GABAergic 뉴런 및 흥분성 뉴런에서 각 조절 요소들에 대한 AAV L3.2 라이브러리의 발현(TPM)을 보여주는 그래프다. 대조군 조절 요소는 다음과 같다: CBA (구조체 1), EF1α (구조체 2), 그리고 RE1 (구조체 3).
도 9는 GABAergic 뉴런에서 다양한 REs (AAV L3 라이브러리 및 AAV L3.2 라이브러리)의 세포 유형 특이적 발현을 보여주는 그래프다. 각 구조체에 대한 발현은 해당 전이유전자 연합된 AAV EF1α의 평균 TPM 발현으로 정규화된다. 대조군 조절 요소들은 다음과 같다: CBA (구조체 1), EF1α (구조체 2), 그리고 RE1 (구조체 3).
도 10은 GABAergic 뉴런의 클래스 (가령, PV, SST, 그리고 VIP 세포)내에 특이적 세포 유형 안에 세포 유형 특이적 발현 (AAV9 L3.2 라이브러리)을 보여주는 그래프다. 각 구조체에 대한 발현은 해당 전이유전자 연합된 AAV EF1α의 평균 TPM 발현으로 정규화된다. 대조군 조절 요소들은 다음과 같다: CBA (구조체 1), EF1α (구조체 2), 그리고 RE1 (구조체 3).

본 명세서의 상세한 설명

유전자 치료의 한 가지 과제는 관심대상의 전이유전자가 적절한 관심대상의 세포 유형 또는 표적 세포 유형에서 발현되도록 하고, 표적을 벗어난 효과가 없거나, 또는 최소화하면서, 유전자 발현에 영향을 미치거나 또는 표적화하도록 하는 것이다. 표적화된 유전자 요법의 전통적인 방법은 운반 방법 및/또는 비히클에 대해 의존하였다 (가령, 사용된 바이러스 또는 바이러스의 캡시드 서열들을 변경시킴으로써). 전이유전자의 전달이 관련된 치료 방법은 많은 벡터가 전이유전자 크기에 대한 제한된 용량을 갖기 때문에, 이들 전이유전자 크기의 제한과 같은 많은 문제를 또한 가지고 있다. 예를 들면, AAV 벡터들은 대략적으로 4.7 kb의 최대 용량을 가지고, 그리고 두 개의 역전된 말단 반복부 (ITRs)는 합해서 약 0.2-0.3 kb이므로, 대략적으로 4.4 kb가 남는데, 이것으로 전이유전자 및 이 전이유전자의 발현을 조절하는 조절 요소들을 모두 수용해야 한다.

본 명세서는 관심대상의 세포 유형에서 관심대상 유전자 (전이유전자)의 선택적 발현을 제공하는 조절 요소를 동정하기 위해, 조절 요소들을 스크리닝하는 조성물 및 그 방법을 제공한다. 구체적으로, 본 명세서는 특이적 세포 집단에서 전이유전자의 생리학적으로 또는 치료요법적으로 관련된 발현 수준을 달성하는 조절 요소들을 식별해내기 위해, 많은 (가령, 10 ~ 10⁴) 조절 요소들을 (가령, 생체내 또는 시험관내) 스크리닝하는 방법을 제공한다. 일부 구체예들에서, 본 명세서는 수천개의 후보 조절 요소들중에서 관심대상의 세포 유형에서 관심대상의 전이유전자의 선택적 발현을 제공하는 조절 요소를 식별해내는 (이렇게 함으로써 치료요법적 설정에서 전이유전자를 발현시키기 위해 이용될 때, 표적을 벗어난 영향을 효과적으로 최소화시키거나 또는 제거함) 고-처리량의 시스템을 제공한다. 본 명세서는 관심대상의 조절 요소를 이용하여 전이유전자를 발현시키는데 더 적합한 (또는 더 선택적인) 세포 유형을 식별해내는데 또한 이용될 수 있다. 즉, 본 발명을 이용하여, 임의의 관심대상 전이유전자의 최적의 선택적 발현을 위해 주어진 세포 유형 (가령, PV 뉴런, 심근세포, 등등)에 주어진 조절 요소들을 "정합"시킬 수 있다. 본원에 기술된 방법들을 이용하여 조절 요소들을 동정함으로써, 유전자 요법의 효능을 개선시키고, 치료요법적 효과를 얻는데 필요한 유효 용량을 줄이고, 부작용 또는 표적을 벗어난 효과, 및/또는 환자 안전성 및/또는 용인성을 증가시키는 것이 가능하다 본 명세서는 본 발명들을 실행하는데 유용한 조성물들을 또한 제공한다.

정의

본 명세서에서 이용된 바와 같이, 단수("a", "an" 및 "the")는 다른 명시적인 언급이 없는 한, 복수 형태를 또한 포함한다. 또한, 용어 "~을 내포하는", "~을 내포하다", "~을 가지는", "~을 갖는", "~와 함께" 또는 이들의 변형이 상세한 설명 및/또는 청구범위에서 사용되는 한, 이러한 용어는 다음과 같이 "~을 포함하는"이라는 용어와 유사한 방식으로 의도된다.

용어 "AAV"는 "아데노-연합된 바이러스"의 약자로써 바이러스 자체 또는 그 파생물을 지칭하는 용어로 사용될 수 있다. 이 용어는 달리 필요한 경우를 제외하고, 모든 혈청형, 하위 유형 및 자연 발생 및 재조합 형태를 모두 포괄한다. 약어 "rAAV"는 재조합 아데노-연합된 바이러스를 지칭한다. 용어 "AAV"에는 AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10, AAV11, AAV12, rh10, 및 이의 하이브리드, 조류(avian) AAV, 소 AAV, 개의 AAV, 말(equine) AAV, 영장류 AAV, 비-영장류 AAV, 그리고 양(ovine) AAV이 내포된다. AAV의 각종 혈청형의 게놈 서열, 뿐만 아니라 고유 말단 반복부 (TRs), Rep 단백질, 그리고 캡시드 하위단위의 서열은 당분야에 공지되어 있다. 이러한 서열들은 문헌 또는 공개 데이터베이스 이를 테면, GenBank에서 찾아볼 수 있다. 본원에서 사용된 바와 같이, "rAAV 벡터"란 고유의 AAV의 폴리뉴클레오티드 서열이 아닌 서열 (예를 들면, AAV에 대해 이종성(heterologous) 폴리뉴클레오티드), 전형적으로 세포의 유전적 형질전환을 위한 관심대상 서열을 포함하는 AAV 벡터를 지칭한다. 일부 구체예들에서, 상기 이종성 폴리뉴클레오티드는 적어도 하나의, 그리고 일반적으로 두 개의 AAV 역전된 말단 반복부 서열들 (ITRs)의 측면에 있다. rAAV 벡터는 단일-가닥으로 되거나 (ssAAV) 또는 자가-상보적 (scAAV)일 수 있다. "AAV 바이러스" 또는 "AAV 바이러스 입자"는 적어도 하나의 AAV 캡시드 단백질과 포집된 폴리뉴클레오티드 rAAV 벡터를 포함하는 바이러스 입자를 지칭한다. 만일 상기 입자가 이종성 폴리뉴클레오티드 (예를 들면, 야생형 AAV 게놈이외의 폴리뉴클레오티드, 이를 테면, 포유류 세포로 전달되는 전이유전자)를 포함한다면, 이것은 통상적으로 "rAAV 바이러스 입자" 또는 간단하게 "rAAV 입자"라고 불린다.

용어 "약(about)" 또는 "대략"은 당업자에 의해 결정된 특정 값에 대한 허용가능한 오차를 의미한며, 이는 어떻게 이러한 값이 측정되는 또는 결정되는 방법에 따라 부분적으로 의존적일 것이며, 예를 들면, 측정 시스템의 제약이 있을 것이다. 예를 들면, "약((about))"이란 당업계의 관행에 따라 하나 또는 그 이상의 표준 편차 이내를 의미할 수 있다. 대안으로, "약"이란 주어진 값보다 최대 20%, 최대 15%, 최대 10%, 최대 5%, 또는 최대 1%의 범위를 의미할 수 있다.

"~에 연결된" 또는 "~에 연결하는"이라는 용어는 2개 또는 그 이상의 엔티티 사이의 연합, 예를 들어, 본 명세서에 개시된 임의의 핵산 중 2개 또는 그 이상 사이의 연합을 의미한다. 두 엔티티는 예를 들어, 공유 결합(가령, 두 개 또는 그 이상의 핵산 뉴클레오티드 사슬을 함께 연결하는 포스포디에스테르 결합) 또는 수소 결합(가령, 하나의 핵 분자에 있는 뉴클레오티드 서열과 또다른 핵산 분자 상에 있는 상보적 뉴클레오티드 서열 간의 혼성화에 의해 연합된 수소 결합)에 의해 서로 연결될 수 있다.

본 명세서에서 "~을 포함하는"이라는 언어는 구체예들이 기술되는 경우, 그렇지 않으면 "~로 구성되는" 및/또는 "~로 본질적으로 구성되는"의 관점에서 설명된 유사한 구체예들이 또한 제공되는 것으로 이해된다.

용어 "~을 결정하는", "~을 측정하는", "~을 평가하는", "~을 사정하는", "~를 검정하는", "~을 분석하는" 및 그 문법적 등가물은 여기에서 임의의 형태의 측정을 지칭하고 요소가 존재하는지 여부(예를 들면, 검출)를 결정하는 것을 포함하기 위해 상호교환적으로 사용될 수 있다. 이러한 용어에는 정량적 및/또는 정성적 결정이 모두 내포될 수 있다. 사정이란 상대적이거나 절대적일 수 있다.

용어 "발현" 또는 "발현하는"이란 핵산 서열 또는 핵산 분자 및/또는 또는 폴리뉴클레오티드가 DNA 주형으로부터 전사되는 (이를 테면, mRNA 또는 다른 RNA 전사체) 과정, 및/또는 전사된mRNA가 펩티드, 폴리펩티드, 또는 단백질로 후속적으로 해독되는 공정을 지칭한다. 용어 "발현" 또는 "발현하는"이란 또한 넌-코딩 RNA 분자, 이를 테면, 안타센스 RNA 분자, RNAi 분자 및/또는 짧은 헤어핀 RNA 분자의 전사를 또한 지칭할 수 있다. 전사체 및 인코드된 폴리펩티드를 집합적으로 "유전자 산물"이라고 부를 수 있다. 상기 폴리뉴클레오티드가 게놈 DNA로부터 유래된 경우, 발현에는 진핵 세포에서 mRNA의 스플라이싱이 내포될 수 있다.

뉴클레오티드 또는 펩티드 서열의 "단편"은 "전장" 서열이라고 생각되는 것보다 작은 서열을 의미한다.

DNA 또는 단백질 서열의 "기능적 단편"은 전장 또는 참조 DNA 또는 단백질 서열보다 짧지만, 그러나 해당 전장 또는 참조 DNA 또는 단백질 서열의 생물학적 활성과 실질적으로 유사한 적어도 하나의 생물학적 활성(기능적 또는 구조적)을 보유하는, 서열의 생물학적 활성 단편을 지칭한다.

"시험관내(in vitro)"라는 용어는 대상체의 신체 외부에서 일어나는 사건을 지칭한다. 예를 들면, 시험관 내 분석은 대상체 외부에서 실행되는 모든 분석을 포괄한다. 시험관내 분석은 살아있는 세포 또는 죽은 세포가 사용되는 세포-기반 분석을 포괄한다. 시험관내 분석은 무손상(intact) 세포가 사용되지 않는 무-세포 분석을 포함할 수도 있다.

"생체 내(in vivo)"라는 용어는 대상체의 신체에서 일어나는 사건을 지칭한다.

"단리된(isolated)" 핵산이란 핵산의 자연 환경 성분으로부터 분리된 핵산 분자를 지칭한다. 단리된 핵산은 핵산 분자를 보통 포함하는 세포 안에 있는 핵산 분자를 포함하지만, 상기 핵산 분자는 자연 염색체 위치와는 상이한 염색체 위치에 존재하거나 또는 염색체외부에 존재하거나, 또는 오로지 코딩 서열만을 함유하는 핵산 분자가 내포된다.

본원에 사용된 바와 같이, "작동가능하게 연계된", "작동가능한 링키지(linkage)", "작동가능하게 연계된" 또는 그의 문법적 등가 표현은 유전자 요소, 예를 들어 프로모터, 인핸서, 폴리아데닐화 서열 등의 병치(juxtaposition)를 지칭하며, 여기서 해당 요소들은 그들이 예상한 방식으로 작동하도록 허용하는 관계에 있다. 예를 들면, 프로모터를 포함하는 조절 요소는 이러한 조절 요소가 해당 코딩 서열의 전사 개시를 지원하는 경우, 코딩 영역에 작동가능하도록 연계된다. 일부 구체예들에서, 이러한 기능적 상관관계가 유지되는 한, 조절 요소와 코딩 영역 사이에 중간개재된 잔기들이 있을 수 있다.

용어 "조절 요소" ("RE"와 호환사용됨)란 작동가능하도록 연계된 서열, 이를 테면, 유전자의 발현에 영향을 줄 수 있는(가령, 증가, 감소, 또는 조정) 핵산 서열 또는 유전자 요소를 지칭한다. 조절 요소들에는 프로모터, 인헨서, 억제자(repressor), 침묵자(silencer), 절연(insulator) 서열, 인트론, UTR, 역전된 말단 반복부 (ITR) 서열, 긴 말단 반복 서열 (LTR), 안정성 요소, 마이크로 RNA 결합 부위, 해독-후 반응 요소, 또는 폴리A 서열, 또는 이의 조합이 내포되나, 이에 국한되지 않는다. 조절 요소들은 DNA 및/또는 RNA 수준에서 기능을 할 수 있는데, 가령, 해당 유전자 발현의 전사 단계, 전사-후 단계, 또는 해독 단계에서 유전자 발현을 조절함으로써; 해독 수준을 조절함으로써 (가령, 해독을 위해 mRNA를 안정화시키는 안정성 요소들), RNA 절단, RNA 스플라이싱, 및/또는 전사 종료; 코딩 영역으로 유전자 발현을 증가시키는 전사 인자들을 모집함으로써; RNA 전사체가 생성되는 비율을 증가시키고, 생성된 RNA의 안정성을 증가시키고, 및/또는 RNA 전사체로부터 단백질 합성율을 증가시킴으로써; 및/또는 RNA 분해를 방지하고 및/또는 이의 안정성을 증가시켜 단백질 합성을 촉진시킴으로써 기능을 할 수 있다. 일부 구체예들에서, 조절 요소는 인헨서, 억제자, 프로모터, 또는 이의 조합, 특히 인헨서와 프로모터 조합이거나, 또는 억제자와 프로모터의 조합을 지칭한다. 일부 구체예들에서, 상기 조절 요소는 인간 서열로부터 유래되는데, 가령, 해당 서열은 인간 서열에서 유래된 서열에 대해 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 93%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99% 서열 동일하다. 일부 구체예들에서, 상기 조절 요소는 합성 서열이다.

"후보 조절 요소"는 본 명세서의 분석 방법들중 임의의 방법에서 평가되는 조절 요소를 의미한다. "후보 조절 요소"에는 하나의 조절 요소 또는 하나 이상의 조절 요소들의 조합이 내포될 수 있다.

"대조군 조절 요소"란 후보 조절 요소와 비교되는 조절 요소를 의미한다. 일부 구체예들에서, "대조군 조절 요소"는 잘-특징화된 발현 프로파일을 갖는 조절 요소다. 예를 들면, 일부 구체예들에서, "대조군 조절 요소"는 자연적으로 생성된 조절 요소, 이를 테면, 닭 β-액틴 프로모터 (CBA)이다.

본원에서 이용된 바와 같이, "RNAseq" 또는 "RNA-seq"는 전사체 접근방법을 지칭할 때 이용되는데, 여기에서 주어진 샘플로부터 전체 RNAs 보체를 단리시키고, 고-처리량 차세대 시퀸싱 (NGS) 기술 (가령, SOLiD, 454, Illumina, 또는 ION Torrent)을 이용하여 서열화시킨다. 일부 구체예들에서, RNAseq 전사체는 cDNA로 역-전사되고, 그리고 어뎁터들이 cDNA의 각 단부에 결찰된다. 일부 구체예들에서, 시퀸싱은 일-방향(단일-단부 시퀸싱)이거나 또는 양방향 (쌍을 이룬-단부 시퀸싱)일 수 있고, 그 다음 참조 게놈 데이터베이스에 대해 정렬된다.

일반적으로, "서열 동일성" 또는 "서열 상동성" (이들은 호환사용될 수 있음)이란 2개의 폴리뉴클레오티드 또는 폴리펩티드 서열에서 각각 차례로 정확한 뉴클레오티드-대 뉴클레오티드, 또는 아미노산-대-아미노산 대응성을 지칭한다. 2개의 또는 그 이상의 서열 (폴리뉴클레오티드 또는 아미노산)은 이들의 동일성 퍼센트 (또는 "상동성 퍼센트라고도 함)를 결정함으로써, 비교될 수 있다. 참조 서열 (가령, 핵산 또는 아미노산 서열)에 대한 동일성 퍼센트는 2개의 최적으로 정렬된 서열 간의 정확한 일치 수를 참조 서열의 길이로 나누고, 100을 곱하여 계산할 수 있다. 서열 동일성에 대한 일치 수를 결정할 때 보존적 치환은 일치(matches)로 간주되지 않는다. 제 1 서열 (A)의 길이가 제 2 서열(B)의 길이와 동일하지 않은 경우, A:B 서열의 동일성 퍼센트는 B:A 서열의 동일성 퍼센트와 상이할 것이라는 것이 이해될 것이다. 서열 정렬, 이를 테면, 동일성 퍼센트를 평가하기 위한 목적으로, Needleman-Wunsch 알고리즘 (가령, EMBOSS Needle aligner 참고, www.ebi.ac.uk/Tools/psa/emboss_needle/에서 이용가능), BLAST 알고리즘 (가령, BLAST 정렬 도구 참고, www.blast.ncbi.nlm.nih.gov/Blast.cgi에서 이용가능), Smith-Waterman 알고리즘 (가령, EMBOSS Water aligner 참고, www.ebi.ac.uk/Tools/psa/emboss_water/에서 이용가능), 그리고 Clustal Omega 정렬 프로그램 (가령, www.clustal.org/omega/에서 이용가능, 그리고 F. Sievers et al., Mol Sys Biol. 7: 539 (2011) 참고)를 포함하나, 이에 국한되지 않은 임의의 적합한 정렬 알고리즘 또는 프로그램에 의해 실행될 수 있다. 기본 매개변수를 포함하여 선택한 알고리즘의 적절한 매개변수를 사용하여 최적의 정렬을 평가할 수 있다. BLAST 프로그램은 Karlin and Altschul, Proc. Natl. Acad. Sci. USA 87:2264-2268 (1990)을 기반으로 하며, Altschul, et al., J. Mol. Biol. 215:403-410 (1990); Karlin and Altschul, Proc. Natl. Acad. Sci. USA 90:5873-5877 (1993); 그리고 Altschul et al., Nucleic Acids Res. 25:3389-3402 (1997)에서 논의된 것이다.

용어 "대상체" 및 "개체"는 본원에서 상호교환가능하게 사용되며, 척추동물, 바람직하게는 포유동물, 보다 바람직하게는 인간을 지칭한다.

뉴클레오타이드 서열의 "변이체"는 가장 일반적인 야생형 DNA 서열 (가령, cDNA 또는 그의 GenBank 기탁 번호에 의해 참조되는 서열) 또는 특정 참조 서열과 비교하여 유전적 변경 또는 돌연변이를 갖는 서열을 지칭한다.

"벡터"는 본원에서 이용된 바와 같이, 복제 또는 발현될 수 있는 세포에 연계된 또다른 핵산 분자의 전달을 매개하는 데 사용할 수 있는 핵산 분자를 지칭한다. 이 용어는 자가-복제 핵산 구조로서의 벡터 및 그것이 도입된 숙주 세포의 게놈에 통합된 벡터를 포함한다. 특정 벡터들은 이들에게 작동가능하도록 연계된 핵산의 발현을 지시할 수 있다. 이러한 벡터를 본원에서 "발현 벡터"라고 칭한다. 벡터의 다른 예시에는 플라스미드, 바이러스 벡터, 그리고 코스미드가 내포된다.

용어 "전이유전자(transgene)"는 본원에서 이용된 바와 같이, 특정 세포에 자연적으로 존재하지 않는 폴리뉴클레오티드 서열들, 외생적으로 세포에게 추가된 폴리뉴클레오티드 서열들, 및/또는 벡터(가령, 바이러스 벡터 이를 테면, AAV 벡터) 안에 함유된 이종성 폴리뉴클레오티드 서열들을 지칭한다. 전이유전자는 천연 서열들 (가령, 천연 단백질을 인코딩하는 서열) 뿐만 아니라 합성 서열들을 포함할 수 있다. 전이유전자는 코딩 및/또는 넌-코딩 서열들을 포함할 수 있다. 일부 구체예들에서, 전이유전자는 조절 요소에 작동가능하도록 연계된 서열이다.

용어 "선택적 발현" 또는 "선택적으로 발현된다"란 해당 전이유전자가 작동가능하도록 연계되어 있는 조절 요소 (가령, 후보 조절 요소)에 의해 구동될 때, 참조 발현 수준(본원에서 정의된 바와 같이)과 비교하여 전이유전자의 발현의 선택적 증가 또는 감소를 지칭한다. 다양한 구체예들에서, 조절 요소에 의해 제공되는 전이 유전자의 선택적 발현에는 다음이 내포된다: 하나의 세포 유형에서 전이유전자 발현은 동일한 세포 유형에서 상이한 조절 요소에 의해 제공되는 전이유전자 발현 수준보다 더 높거나 또는 더 낮고; 하나의 세포 유형에서 전이유전자 발현이 하나 또는 그 이상의 다른 세포 유형(들)에서 동일한 조절 요소에 의해 제공되는 전이유전자 발현 수준보다 더 높거나 또는 더 낮고; 특정 세포 유형에서 전이유전자 발현이 동일한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 상이한 세포 유형 (참조 세포 유형)에서 관찰되지 않는 증가 또는 감소; 세포 집단 (가령, 표적 조직)에서 후보 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 하나의 특정 세포 유형의 표적 세포의 수의 비율이 동일한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 집단에서 전체 세포 수와 비교하였을 때 증가 또는 감소; 상기 전이유전자가 후보 조절 요소에 작동가능하도록 연계될 때, 해당 전이유전자가 이와 상이한 조절 요소에 작동가능하도록 연계될 때 획득된 비율과 비교하였을 때 전이유전자를 발현시키는 표적 세포 수 대비 전이유전자를 발현시키는 세포의 전체 수의 비율의 증가 또는 감소; 표적 세포에서 전이유전자 발현 수준이 비-표적 세포 또는 비-표적 조직 (가령, 인간 대상체)에서 전이유전자 발현 수준보다 적어도 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%, 120%, 140%, 150%, 200%, 250%, 300%, 350%, 400%, 450%, 500% 이상; 표적 표적 조직의 관심대상의 세포 유형의 적어도 일부분에서 의미있는 수준 (가령, 치료요법적으로 관련된)으로 발생되는 전이유전자의 발현; 및/또는 다른 조직의 것과 비교하여 표적 조직의 세포에서 주로 발생되는 전이유전자의 발현.

용어 "참조 발현 수준"이란 동일한 관심대상의 세포 유형에서 또다른 후보 조절 요소; 상이한 세포 유형에서 동일한 후보 조절; 동일한 관심대상의 세포 유형에서 공지의, 대조군 조절 요소; 및/또는 상이한 세포 유형에서 공지의 대조군 조절요소에 의해 제공되는 발현 수준을 지칭한다.

조절 요소 관련하여 용어 "범(pan)-세포적"이란 많은 세포 유형들 (또는 산재된)에 걸쳐 작동가능하도록 연계된 유전자 또는 전이유전자의 발현을 구동시키는 조절 요소를 지칭한다. 이러한 조절 요소들의 일부 예시에는 사이토메갈로바이러스 주요-즉시 초기 프로모터(CMV), 닭 β-액틴 프로모터(CBA), CMV 초기 인핸서/CBA 프로모터(CAG), 신장 인자-1α 프로모터(EF1α), 원숭이 바이러스 40 프로모터(SV40), 포스포글리세레이트 키나제 프로모터(PGK) 및 폴리유비퀴틴 C 유전자 프로모터(UBC)가 내포된다.

"세포 유형"이라는 용어는 세포의 뚜렷한 형태학적 또는 기능적 형태를 의미한다. 세포 유형은 다음을 비롯한 다양한 특징을 이용하여 식별될 수 있다: 예를 들면: 유전자 발현 프로파일, 후성 유전학적 프로파일, 넌-코딩 RNA 프로파일, 단백질 발현 프로파일, 세포 표면 마커, 분화 가능성, 증식 능력, 자극 또는 신호에 대한 반응, 해부학적 위치, 형태, 염색 프로파일 및/또는 발달 중 출현 시기, 및/또는 전술한 것들중 임의의 조합. 일부 구체예들에서, 세포 유형은 특정 특성 또는 특성 조합을 기반으로 정의된다. 예를 들면, 일부 구체예들에서, 세포 유형은 특이적 유전자 또는 유전자들의 조합에 기반하여 정의된다. 일부 구체예들에서, 세포 유형은 결합 조직, 근육 조직, 신경 조직 또는 상피 조직과 같이 그것이 공급되거나 또는 유래된 조직에 의해 정의될 수 있다. 예로서, 근육 조직으로부터 유래된 세포에 심장 근육 세포(가령, 심근세포), 평활근 세포, 골격근 세포 및 전술한 것 중 임의의 것의 다양한 하위집단이 내포된다. 단일 유기체 (또는 동일한 종의 유기체), 단일 기관 또는 단일 조직에서 다양한 상이한 세포 유형을 얻을 수 있다. 예시적인 세포 유형에는 다음의 것들이 내포되나, 이에 국한되지 않는다: 요도 방광, 췌장 상피, 췌장 알파, 췌장 베타, 췌장 내피, 골수 림프모구, 골수 B 림프모구, 골수 대식세포, 골수 적혈구, 골수 수지상, 골수 지방세포, 골수 골세포, 골수 연골세포, 전골수아세포, 골수 거핵모세포, 방광, 뇌 B 림프구, 뇌교, 뉴런, 뇌 성상세포, 신경외배엽, 뇌 대식세포, 뇌 미세아교세포, 뇌 상피, 심근세포, 피질 뉴런, 뇌 섬유아세포, 유방 상피, 결장 상피, 결장 B 림프구, 유방 상피, 유방 근상피, 유방 섬유아세포, 결장 장세포, 자궁경부 상피, 난소 상피, 난소 섬유아세포, 유방관 상피, 혀 상피, 편도 수지상, 편도 B 림프구, 말초 혈액 림프구, 말초 혈액 T림프구, 말초 혈액 피부 T 림프구, 말초 혈액 자연살해, 말초혈액 B 림프구, 말초 혈액 단핵구, 말초 혈액 골수모세포, 말초 혈액 단구체, 말초 혈액 전골수세포, 말초 혈액 대식세포, 말초 혈액 호염기구, 간 내피세포, 간 마스트(mast), 간 상피세포, 간 B 림프구, 비장 내피, 비장 상피, 비장 B 림프구, 간 간세포, 간 Alexander, 간 섬유아세포, 폐 상피, 기관지 상피, 폐 섬유아세포, 폐 B 림프구, 폐 Schwann, 폐 편평, 폐 대식세포, 폐 조골세포, 신경 내분비, 위 폐포 상피 및 위 섬유아세포.

용어 "리포터 분자"란 세포 또는 유기체에서 특정 생물학적 공정, 활성, 이벤트 또는 상태의 발생 또는 수준의 지표로 사용될 수 있는 분자 (가령, 단백질)를 의미한다. 리포터 분자는 일반적으로 쉽게 측정할 수 있도록 만들거나, 또는 리포터 분자를 발현시키는 세포의 선별을 허용하는 하나 또는 그 이상의 특성 또는 효소 활성을 가지고 있다. 일반적으로, 세포는 리포터 분자 자체(가령, DNA, RNA 및/또는 단백질) 또는 리포터 분자의 효소 활성의 존재를 결정하고 및/또는 수준을 측정하여 리포터 분자의 존재에 대해 분석할 수 있다. 리포터 분자가 가질 수 있는 검출가능한 특성 또는 활성에는 예를 들어, 형광, 생물발광, 특정 기질에 결합하는 능력, 서열, 적합한 기질의 존재 하에 형광 또는 착색된 물질을 생성하는 반응을 촉매하는 능력, 또는 광자(빛)의 방출 및/또는 흡수를 기반으로 기타 판독이 내포된다. 전형적으로, 리포터 분자는 해당 리포터 분자가 이용되는 세포 또는 유기체에 의해 내생적으로 발현되지 않는 분자, 또는 내생적 분자에 비해 선택적 검출이 되도록 변형된 분자다.

용어 "도메인" 또는 "단백질 도메인"이란 해당 단백질 쇄의 나무지 부분과 별개도 존재할 수 있고, 독립적으로 기능할 수 있는 단백질 쇄의 일부분을 지칭한다.

용어 "비-자연적" 또는 "비-자연적으로" 또는 "변이체"는 자연에서 발생하는 것과는 다른 특성을 나타내는 것으로 이해해야 한다.

"통계적으로 유의미한" 또는 "유의미하게"라는 용어는 통계적 유의미성을 나타내며, 일반적으로 참조 수준에서 최소 2 표준편차(2SD)를 의미한다. 이것은 귀무 가설(null hypothesis)이 실제로 참일 때, 당해 귀무 가설을 기각하기로 결정할 확률로 정의된다.

용어 "감소하다", "감소된", "감소", "감소하다" 또는 "억제하다"란 모두 본 명세서에서 측정된 파라미터에서 관찰 가능한 감소를 의미하기 위해 일반적으로 사용된다.

용어 "증가된", "증가하다" 또는 "향상되다" 또는 "활성화되다"란 모두 측정된 매개변수에서 관찰 가능한 증가를 일반적으로 의미하기 위해 본 명세서에서 모두 사용된다.

본원에서 이용된 바와 같이, "치료하다", "치료", "요법" 등의 용어는 원하는 약리학적 및/또는 생리학적 효과를 얻는 것을 의미하는데, 진행의 완화, 지연 또는 감속, 효과 또는 증상 감소, 발병 방지, 재발 방지, 질환 또는 장애의 발병 억제, 개선, 질환, 장애 또는 의학적 병태와 관련하여 유익하거나 원하는 결과, 예를 들어, 치료 이익 및/또는 예방적 이익을 획득하는 것들이 내포되나, 이에 국한되지 않는다. "치료"란 본원에서 이용된 바와 같이, 포유동물, 특히 인간의 질병 치료를 포괄하며, 다음이 내포된다: (a) 질환에 걸리기 쉬울 수 있거나, 또는 질환에 걸릴 위험이 있지만 아직 해당 질환에 걸린 것으로 진단되지 않은 대상에서 이런 질환이 발생하는 것을 예방하고; (b) 해당 질환을 억제, 예를 들면, 이의 발생을 억제하고; 그리고 (c) 해당 질환을 완화, 예를 들면, 질병의 퇴행 또는 다음 중 어느 하나의 단계적 변화를 일으키는 것이 내포된다. 치료적 이점에는 치료 중인 기저 장애의 근절 또는 개선이 내포된다. 또한, 치료적 이점은 대상체가 여전히 기저 장애를 앓고 있을 수 있음에도 불구하고, 해당 대상체에서 개선이 관찰되도록 기저 장애와 관련된 하나 또는 그 이상의 생리학적 증상의 근절 또는 개선으로 달성된다. 일부 구체예들에서, 예방적 이점을 위해, 조성물은 특정 질환이 발병할 위험이 있는 대상체, 또는 비록 이 질병의 진단이 내려지지 않았을 수 있지만, 해당 질환의 하나 또는 그 이상의 생리학적 증상을 보고하는 대상체에게 투여된다. 본 명세서의 방법들을 임의의 포유류에 사용할 수 있다. 일부 구체예들에서, 해당 치료는 증상의 감소 또는 중지를 초래할 수 있다. 예방 효과는 질병 또는 상태의 출현의 지연 또는 제거, 질병 또는 상태의 증상의 발병 지연 또는 제거, 질병 또는 상태의 진행을 늦추거나 중단시키거나 역전시키는 것, 또는 이들의 임의의 조합을 포함한다.

달리 명시되지 않는 한, 본 명세서에 사용된 모든 용어는 당업자에게 동일한 의미를 가지며, 본 발명의 실행은 당업자의 지식 범위 내에 있는 분자 생물학, 미생물학 및 재조합 DNA 기술의 통상적인 기술을 사용할 것이다.

핵산 조성물

일부 구체예들에서, 본 명세서는 특이적 세포 집단에서 관심대상 전이유전자의 선택적 발현을 제공하는 조절 요소들을 식별해내기 위해 다수 (가령, 10 ~ 10⁴)의 후보 조절 요소들을 스크리닝하는 (가령, 생체내 또는 시험관내) 방법에 관계한다. 일부 구체예들에서, 본 명세서는 특이적 세포 집단에서 관심대상 전이유전자의 선택적 발현을 제공하는 조절 요소들을 식별해내기 위해, 10 ~ 20개, 10 ~ 50개, 10 ~ 100개, 10 ~ 200개, 10 ~ 400개, 10 ~ 600개, 10 ~ 800개, 10 ~ 1000개, 10 ~ 3000개, 10 ~ 6000개, 10 ~ 10,000개, 10 ~ 13,000개, 10 ~ 16,000개, 10 ~ 20,000개, 10 ~ 30,000개, 10 ~ 40,000개, 10 ~ 50,000개, 10 ~ 60,000개, 10 ~ 70,000개, 10 ~ 80,000개, 10 ~ 90,000개, 10 ~ 100,000개, 10 ~ 500,000개, 또는 10 ~ 1,000,000개의 후보 조절 요소들을 스크리닝하는 (가령, 생체내 또는 시험관내) 방법에 관계한다. 상기 방법에는 세포 (가령, 세포 집단 또는 조직)에 벡터들의 혼합물을 제공하며, 이들 벡터 각각은 전이유전자를 인코딩하는 서열에 작동가능하도록 연계된 하나 또는 그 이상의 후보 조절 요소를 갖는 핵산 분자 (가령, 리포터 유전자를 포함하는) 및 조절 요소 식별을 위한 바코드 서열을 포함한다. 따라서, 일부 측면들에서, 본 명세서의 방법의 실행에 유용한 핵산 성분들과 조성물들이 본원에서 제공된다.

일부 구체예들에서, 상기 핵산은 DNA 분자다. 일부 구체예들에서, 상기 핵산은 RNA 분자다. 일부 구체예들에서, 상기 핵산은 본원에서 기술된 임의의 벡터에 있는 DNA 분자다. 일부 구체예들에서, 상기 핵산 분자는 본원에서 기술된 전이유전자들중 임의의 것을 포함한다. 일부 구체예들에서, 상기 핵산 분자는 본원에서 기술된 후보 조절 요소들중 임의의 것을 포함한다. 일부 구체예들에서, 상기 핵산은 본원에서 기술된 바코드 서열들들중 임의의 것을 포함한다. 일부 구체예들에서, 상기 핵산은 본원에서 기술된 임의의 전이유전자, 본원에서 기술된 임의의 후보 조절 요소들, 그리고 본원에서 기술된 임의의 바코드 서열들을 포함하는 DNA 분자다. 일부 구체예들에서, 상기 핵산 분자는 본원에서 기술된 임의의 전이유전자 및 본원에서 기술된 임의의 바코드 서열들을 포함하는 RNA 분자다. 일부 구체예들에서, RNA 분자는 본원에서 기술된 DNA 분자 (가령, 본원에서 기술된 전이유전자, 후보 조절 요소들, 그리고 바코드 서열들중 임의의 것을 포함하는 DNA 분자)중 임의의 것들로부터 전사된다. 일부 구체예들에서, RNA 분자는 본원에서 기술된 DNA 분자 (가령, 본원에서 기술된 전이유전자, 후보 조절 요소들, 그리고 바코드 서열들중 임의의 것을 포함하는 DNA 분자)중 임의의 것들로부터 전사되며, 이때 RNA 분자는 전이유전자 및 바코드 서열을 포함하고, 이때 RNA 분자에서 바코드 서열은 DNA 분자내 후보 조절 서열과 관련된다.

하기에서 추가로 더 논의되겠지만, 일부 구체예들에서, 본원에 기술된 임의의 핵산 분자는 극미립자에 연결된다. 특정 구체예들에서, 상기 극미립자에 연결된 핵산 분자는 DNA 분자 (가령, 본원에서 기술된 임의의 DNA 분자)로부터 전사된 RNA 분자다. 일부 구체예들에서, 상기 RNA 분자는 전이유전자와 바코드 서열을 포함한다. 일부 구체예들에서, 상기 DNA 분자는 조절 요소를 포함하고, 이때 RNA 분자에서 바코드 서열은 DNA 분자내 조절 요소와 관련된다. 일부 구체예들에서, 상기 극미립자는 비드이다. 일부 구체예들에서, 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된다. 일부 구체예들에서, 상기 핵산 분자는 상기 극미립자 폴리뉴클레오티드 분자를 통하여 극미립자에 연결된다 (가령, 핵산 분자 상에 상보적인 뉴클레오티드 서열들과 극미립자 폴리뉴클레오티드 분자 간의 혼성화를 통하여). 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 프라이머 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 바코드 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 특유의 분자 식별자 (UMI) 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 바코드 서열, c) 특유의 분자 식별자 (UMI) 뉴클레오티드 서열, d) 올리고-dT 서열, 그리고 e) 상기 핵산 서열; 이때 상기 핵산 는 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-e)에 연결되며: 극미립자--a)--b)--c)--d)--e); 그리고 이때 폴리A 서열은 올리고-dT 서열과 혼성화된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 바코드 서열, c) 특유의 분자 식별자 (UMI) 뉴클레오티드 서열, d) 올리고-dT 서열, 그리고 e) 상기 핵산 서열; 이때 상기 핵산 는 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-e)에 연결되며: 극미립자--a)--c)--b)--d)--e); 그리고 이때 폴리A 서열은 올리고-dT 서열과 혼성화된다.

조절 요소 식별자 바코드

일부 구체예들에서, 본원에 기술된 임의의 핵산 분자는 이와 연합된 특이적 조절 요소를 식별해내는 작업을 하는 핵산 바코드 서열을 포함한다. 본원에서 기술된 바와 같이, 본 방법들은 특이적 유형 및/또는 세포 집단 (가령, 뉴런, 심근세포, 등등) 또는 세포의 하위유형 (가령, GABAergic 하위유형, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런)에서 관심대상 전이유전자의 선택적 발현을 제공하는 REs를 식별해내기 위하여 다수(가령, 10 ~ 10⁴)의 REs를 스크리닝할 수 있다 (가령, 생체내 또는 시험관내). 주어진 세포 유형에서 선택적인 발현을 제공하는 RE를 식별하는 능력은 특정 후보 RE에 대한 특정 바코드 서열의 할당(또는 태깅, 매칭, 페어링)을 통해 가능하다. 전이유전자 발현이 세포에서 탐지될 때 (가령, 리포터 유전자, 이를 테면, EGFP를 인코딩하는 유전자의 발현), 해당 세포 안에 존재하는 바코드 서열은 상기 전이유전자 (가령, EGFP)의 발현을 유도하기 위해 해당 세포 안에 존재하는 특정 후보 RE를 결정할 수 있게 한다. 특정 구체예들에서, 상기 바코드 서열은 특이적 조절 요소에 대해 특유하다. 따라서, 본 방법들에서 테스트된 모든 후보 조절 서열의 경우, 특유의 바코드 서열은 각 후보 조절 요소에 짝지어져, 각 후보 조절 요소의 식별을 가능하게 한다. 일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 발현시키는 방법을 제공한다. 일부 구체예들에서, 상기 핵산의 발현은 상기 핵산에서 관심대상 전이유전자를 전사하는 단계와 연루되는데, 이때 상기 전이유전자는 후보 RE에 작동가능하도록 연계된다. 일부 구체예들에서, 상기 핵산에서 후보 RE는 전이유전자와 함께 전사되기 때문에, 상기 바코드 서열은 핵산에서 관심대상의 이식유전자의 전사를 촉진한 특정 후보 RE를 식별하는 정보를 보존하여, 특히 유용하다. 특정 구체예들에서, 상기 바코드 서열은 DNA 핵산 분자내에 있다. 일부 구체예들에서, 상기 바코드 서열은 본원에서 기술된 임의의 DNA 핵산 분자로부터 전사된 RNA 핵산 분자 안에 있다.

상기 바코드 서열의 크기는 길이가 약 4 ~ 약 100, 약 4 ~ 약 50, 약 4 ~ 약 20, 또는 약 6 ~ 약 20개 또는 그 이상의 뉴클레오티드 범위일 수 있다. 특정 구체예들에서, 바코드 서열의 길이는 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 이보다 긴 뉴클레오티드이다. 특정 구체예들에서, 바코드 서열의 길이는 적어도 6개, 적어도 7개, 적어도 8개, 적어도 9개, 적어도 10개, 적어도 11개, 적어도 12개, 적어도 13개, 적어도 14개, 적어도 15개, 적어도 16개, 적어도 17개, 적어도 18개, 적어도 19개, 적어도 20개 뉴클레오티드이다. 일부 구체예들에서, 상기 바코드 서열은 연속적이며, 예를 들면, 인접 뉴클레오티드의 단일 띠 안에 있고, 또는 일부 구체예들에서, 상기 바코드 서열은 1개 또는 그 이상의 뉴클레오티드에 의해 분리된 두 개 또는 그 이상의 별개 하위 서열로 분리되어 있다. 특정 구체예들에서, 분리된 바코드 하위서열들의 길이는 약 4 ~ 약 16개의 뉴클레오티드일 수 있다. 일부 구체예들에서, 상기 바코드 하위서열의 길이는 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16개 또는 이보다 더 긴 뉴클레오티드이다. 특정 구체예들에서, 상기 바코드 하위서열은 적어도 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16개 또는 이보다 더 긴 뉴크레오티드일 수 있다. 특정 구체예들에서, 상기 바코드 하위서열은 기껏해야 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16개 또는 이보다 더 짧은 뉴클레오티드일 수 있다. 일부 구체예들에서, 상기 바코드 서열은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 바코드 하위서열들을 포함하고, 이때 상기 바코드 하위서열들의 길이는 적어도 2개 ~ 10개 뉴클레오티드다. 일부 구체예들에서, 상기 바코드 서열은 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개의 바코드 하위서열들을 포함하고, 이때 상기 바코드 하위서열들의 길이는 적어도 4개 ~ 20개 뉴클레오티드다. 일부 구체예들에서, 두 개 또는 그 이상의 바코드 하위서열들 사이에 하나 또는 그 이상의 뉴클레오티드가 있다. 일부 구체예들에서, 두 개 또는 그 이상의 바코드 하위서열들 사이에 1 ~ 200, 1 ~ 150, 1 ~ 100, 1 ~ 90, 1 ~ 80, 1 ~ 70, 1 ~ 60, 1 ~ 50, 1 ~ 40, 1 ~ 30, 1 ~ 20, 1 ~ 10, 5 ~ 200, 5 ~ 150, 5 ~ 100, 5 ~ 90, 5 ~ 80, 5 ~ 70, 5 ~ 60, 5 ~ 50, 5 ~ 40, 5 ~ 30, 5 ~ 20, t ~ 10, 10 ~ 200, 10 ~ 150, 10 ~ 100, 10 ~ 90, 10 ~ 80, 10 ~ 70, 10 ~ 60, 10 ~ 50, 10 ~ 40, 10 ~ 30, 10 ~ 20, 20 ~ 200, 20 ~ 150, 20 ~ 100, 20 ~ 90, 20 ~ 80, 20 ~ 70, 20 ~ 60, 20 ~ 50, 20 ~ 40, 20 ~ 30, 30 ~ 200, 30 ~ 150, 30 ~ 100, 30 ~ 90, 30 ~ 80, 30 ~ 70, 30 ~ 60, 30 ~ 50, 30 ~ 40, 50 ~ 200, 50 ~ 150, 50 ~ 100, 50 ~ 90, 50 ~ 80, 50 ~ 70, 50 ~ 60, 75 ~ 200, 75 ~ 150, 75 ~ 100, 75 ~ 90, 75 ~ 80, 80 ~ 200, 80 ~ 150, 80 ~ 100, 또는 80 ~ 90개의 뉴클레오티드가 있다. 일부 구체예들에서, 상기 바코드는 두 개의 바코드 하위서열들을 포함하고, 이때 각 바코드 하위서열의 길이는 4 ~ 20개 뉴클레오티드이며, 이때 상기 바코드 하위서열들은 1 ~ 200, 1 ~ 150, 1 ~ 100, 1 ~ 90, 1 ~ 80, 1 ~ 70, 1 ~ 60, 1 ~ 50, 1 ~ 40, 1 ~ 30, 1 ~ 20, 1 ~ 10, 5 ~ 200, 5 ~ 150, 5 ~ 100, 5 ~ 90, 5 ~ 80, 5 ~ 70, 5 ~ 60, 5 ~ 50, 5 ~ 40, 5 ~ 30, 5 ~ 20, t ~ 10, 10 ~ 200, 10 ~ 150, 10 ~ 100, 10 ~ 90, 10 ~ 80, 10 ~ 70, 10 ~ 60, 10 ~ 50, 10 ~ 40, 10 ~ 30, 10 ~ 20, 20 ~ 200, 20 ~ 150, 20 ~ 100, 20 ~ 90, 20 ~ 80, 20 ~ 70, 20 ~ 60, 20 ~ 50, 20 ~ 40, 20 ~ 30, 30 ~ 200, 30 ~ 150, 30 ~ 100, 30 ~ 90, 30 ~ 80, 30 ~ 70, 30 ~ 60, 30 ~ 50, 30 ~ 40, 50 ~ 200, 50 ~ 150, 50 ~ 100, 50 ~ 90, 50 ~ 80, 50 ~ 70, 50 ~ 60, 75 ~ 200, 75 ~ 150, 75 ~ 100, 75 ~ 90, 75 ~ 80, 80 ~ 200, 80 ~ 150, 80 ~ 100, 또는 80 ~ 90개의 뉴클레오티드에 의해 분리된다. 일부 구체예들에서, 상기 바코드는 세 개의 바코드 하위서열들을 포함하고, 이때 각 바코드 하위서열의 길이는 4 ~ 20개 뉴클레오티드이며, 이때 상기 바코드 하위서열들은 1 ~ 200, 1 ~ 150, 1 ~ 100, 1 ~ 90, 1 ~ 80, 1 ~ 70, 1 ~ 60, 1 ~ 50, 1 ~ 40, 1 ~ 30, 1 ~ 20, 1 ~ 10, 5 ~ 200, 5 ~ 150, 5 ~ 100, 5 ~ 90, 5 ~ 80, 5 ~ 70, 5 ~ 60, 5 ~ 50, 5 ~ 40, 5 ~ 30, 5 ~ 20, t ~ 10, 10 ~ 200, 10 ~ 150, 10 ~ 100, 10 ~ 90, 10 ~ 80, 10 ~ 70, 10 ~ 60, 10 ~ 50, 10 ~ 40, 10 ~ 30, 10 ~ 20, 20 ~ 200, 20 ~ 150, 20 ~ 100, 20 ~ 90, 20 ~ 80, 20 ~ 70, 20 ~ 60, 20 ~ 50, 20 ~ 40, 20 ~ 30, 30 ~ 200, 30 ~ 150, 30 ~ 100, 30 ~ 90, 30 ~ 80, 30 ~ 70, 30 ~ 60, 30 ~ 50, 30 ~ 40, 50 ~ 200, 50 ~ 150, 50 ~ 100, 50 ~ 90, 50 ~ 80, 50 ~ 70, 50 ~ 60, 75 ~ 200, 75 ~ 150, 75 ~ 100, 75 ~ 90, 75 ~ 80, 80 ~ 200, 80 ~ 150, 80 ~ 100, 또는 80 ~ 90개의 뉴클레오티드에 의해 분리된다. 일부 구체예들에서, 상기 바코드는 네 개의 바코드 하위서열들을 포함하고, 이때 각 바코드 하위서열의 길이는 4 ~ 20개 뉴클레오티드이며, 이때 상기 바코드 하위서열들은 1 ~ 200, 1 ~ 150, 1 ~ 100, 1 ~ 90, 1 ~ 80, 1 ~ 70, 1 ~ 60, 1 ~ 50, 1 ~ 40, 1 ~ 30, 1 ~ 20, 1 ~ 10, 5 ~ 200, 5 ~ 150, 5 ~ 100, 5 ~ 90, 5 ~ 80, 5 ~ 70, 5 ~ 60, 5 ~ 50, 5 ~ 40, 5 ~ 30, 5 ~ 20, t ~ 10, 10 ~ 200, 10 ~ 150, 10 ~ 100, 10 ~ 90, 10 ~ 80, 10 ~ 70, 10 ~ 60, 10 ~ 50, 10 ~ 40, 10 ~ 30, 10 ~ 20, 20 ~ 200, 20 ~ 150, 20 ~ 100, 20 ~ 90, 20 ~ 80, 20 ~ 70, 20 ~ 60, 20 ~ 50, 20 ~ 40, 20 ~ 30, 30 ~ 200, 30 ~ 150, 30 ~ 100, 30 ~ 90, 30 ~ 80, 30 ~ 70, 30 ~ 60, 30 ~ 50, 30 ~ 40, 50 ~ 200, 50 ~ 150, 50 ~ 100, 50 ~ 90, 50 ~ 80, 50 ~ 70, 50 ~ 60, 75 ~ 200, 75 ~ 150, 75 ~ 100, 75 ~ 90, 75 ~ 80, 80 ~ 200, 80 ~ 150, 80 ~ 100, 또는 80 ~ 90개의 뉴클레오티드에 의해 분리된다. 일부 구체예들에서, 상기 바코드는 다섯 개 또는 그 이상의 바코드 하위서열들을 포함하고, 이때 각 바코드 하위서열의 길이는 4 ~ 20개 뉴클레오티드이며, 이때 상기 바코드 하위서열들은 1 ~ 200, 1 ~ 150, 1 ~ 100, 1 ~ 90, 1 ~ 80, 1 ~ 70, 1 ~ 60, 1 ~ 50, 1 ~ 40, 1 ~ 30, 1 ~ 20, 1 ~ 10, 5 ~ 200, 5 ~ 150, 5 ~ 100, 5 ~ 90, 5 ~ 80, 5 ~ 70, 5 ~ 60, 5 ~ 50, 5 ~ 40, 5 ~ 30, 5 ~ 20, t ~ 10, 10 ~ 200, 10 ~ 150, 10 ~ 100, 10 ~ 90, 10 ~ 80, 10 ~ 70, 10 ~ 60, 10 ~ 50, 10 ~ 40, 10 ~ 30, 10 ~ 20, 20 ~ 200, 20 ~ 150, 20 ~ 100, 20 ~ 90, 20 ~ 80, 20 ~ 70, 20 ~ 60, 20 ~ 50, 20 ~ 40, 20 ~ 30, 30 ~ 200, 30 ~ 150, 30 ~ 100, 30 ~ 90, 30 ~ 80, 30 ~ 70, 30 ~ 60, 30 ~ 50, 30 ~ 40, 50 ~ 200, 50 ~ 150, 50 ~ 100, 50 ~ 90, 50 ~ 80, 50 ~ 70, 50 ~ 60, 75 ~ 200, 75 ~ 150, 75 ~ 100, 75 ~ 90, 75 ~ 80, 80 ~ 200, 80 ~ 150, 80 ~ 100, 또는 80 ~ 90개의 뉴클레오티드에 의해 분리된다.

일부 구체예들에서, 하나 또는 그 이상의 바코드 서열이 상기 핵산 분자의 하나 이상의 영역에 내포될 수 있다. 예를 들면, 하나 또는 그 이상의 바코드 서열들은 코딩 영역 (가령, 발현된 전이유전자를 인코딩하는 서열) 또는 넌-코딩 영역 (가령, UTR 및/또는 인트론 서열), 또는 이 둘 모두에 내포될 수 있다. 일부 구체예들에서, 상기 전이유전자의 코딩 영역 또는 넌-코딩 영역은 바코드 서열을 포함한다. 일부 구체예들에서, 상기 바코드 서열은 상기 전이유전자의 코딩 영역 또는 비- 코딩 영역에 연계된다. 일부 구체예들에서, 만일 하나 이상의 바코드 서열이 상기 핵산 분자 안에 내포된다면, 각 바코드 서열은 동일할 수 있고 (가령, 적어도 1개 뉴클레오티드에 의해 분리된 동일한 바코드 서열의 3개 카피), 각각은 서로 상이할 수 있거나 (가령, 적어도 1개 뉴클레오티드에 의해 분리된 3개의 상이한 바코드 서열), 또는 상기 바코드 서열들의 일부는 서로 동일하고, 서로 상이할 수 있다. 따라서, 임의의 수의 바코드 서열들 (동일한, 각각 상이한, 또는 일부 동일하고/일부 상이한)이 본원에 기술된 임의의 핵산 분자 안에 내포될 수 있다. 특정 구체예들에서, 상기 핵산 분자는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 또는 적어도 6개의 동일한 바코드 서열을 포함한다. 특정 구체예들에서, 상기 핵산 분자는 적어도 1개, 적어도 2개, 적어도 3개, 적어도 4개, 적어도 5개, 또는 적어도 6개의 상이한 바코드 서열을 포함한다.

일부 구체예들에서, 바코드 서열은 특이적 후보 조절 요소에 특이적이다. 일부 구체예들에서, 바코드 서열들의 조합은 특이적 후보 조절 요소에 특이적이다. 일부 구체예들에서, 핵산 분자에서 바코드 서열의 배치는 특이적 후보 조절 요소에 대해 특이적이다. 일부 구체예들에서, a) 바코드 서열, b) 바코드 서열들의 조합, c) 핵산 분자에서 바코드 서열의 배치, 또는 a)-c)의 임의의 조합은 특이적 후보 조절 요소에 대해 특이적이다.

일부 구체예들에서, 상기 임의의 핵산 분자들의 코딩 영역 (가령, 상기 전이유전자)은 하나 또는 그 이상의 바코드 서열들을 포함한다. 일부 구체예들에서, 상기 전이유전자의 코딩 영역에 있는 바코드는 대체 코돈을 포함한다. 대체 코돈이란 코딩 DNA에서 비슷한 코돈을 지칭한다. 단일 아미노산이 하나 이상의 코돈에 의해 코딩될 수 있기 때문에, 유전자 코드는 축중(degenerate) 또는 중복(redundant)으로 기술된다. 예를 들면, 코돈 TAT 및 코돈 TAC는 모두 티로신 아미노산을 인코드한다. 따라서, 예를 들면, EGFP를 인코딩하는 뉴클레오티드 서열의 코딩 영역에 위치한 바코드는 대체 코돈 (가령, DNA 서열에 대해 변화)을 이용하여 EGFP의 영역을 인코드하고, 한편 EGFP 야생형 단백질 서열의 발현은 유지하도록 기획될 수 있다 (예를 들면, EGFP-인코딩 뉴클레오티드 서열의 코딩 영역 안에 존재하는 바코드 서열 안에 대체 코돈은 이 뉴클레오티드 서열에 의해 인코드되는 EGFP 아미노산 서열을 변경시키지 않는다). 일부 구체예들에서, 본원에 기술된 임의의 핵산 분자의 넌-코딩 영역 (가령, 전이유전자의 UTR 및/또는 인트론 영역)은 하나 또는 그 이상의 바코드 서열을 포함한다. 일부 구체예들에서, 본원에 기술된 임의의 핵산 분자의 넌-코딩 영역과 코딩 영역은 하나 또는 그 이상의 바코드 서열을 포함한다. 일부 구체예들에서, 본원에 기술된 임의의 핵산 분자는 상기 핵산 분자의 코딩 영역에 적어도 부분적으로 존재하고, 상기 핵산 분자의 넌-코딩 영역에 적어도 부분적으로 존재하는 적어도 하나의 바코드 서열을 포함한다.

일반적으로, 하나 또는 그 이상의 바코드 서열들은 상기 핵산 분자의 임의의 위치에 존재할 수 있다. 일부 구체예들에서, 본원에 개시된 핵산 서열들중 임의의 서열은 폴리A 꼬리 및 적어도 하나의 바코드 서열을 포함한다. 일부 구체예들에서, 상기 바코드 서열은 상기 핵산에서 폴리A 꼬리 시작에서부터 약 25, 30, 35, 50, 100, 150, 200, 250, 300, 350, 400, 450 또는 500개의 염기 안에 위치한다. 일부 구체예들에서, 상기 바코드 서열은 상기 핵산에서 폴리A 꼬리 시작에서부터 약 50개의 염기 안에 위치한다. 일부 구체예들에서, 상기 핵산은 다수의 바코드를 포함하며, 이때 각 바코드는 상기 핵산에서 폴리A 꼬리에 근위 약 50개 염기에 걸쳐있는 영역내 80~120개 bp에 의해 분리된다. 일부 구체예들에서, 적어도 하나의 바코드 서열은 폴리A 꼬리의 근위 약 50개 염기에 걸쳐 있는 영역내 각 80~120bp 안에 위치한다.

전이유전자

일부 구체예들에서, 본 방법에서 이용될 수 있는 본원에서 제공되는 임의의 핵산 분자는 다중 방법에 사용을 위해 후보 조절 요소에 작동가능하도록 연계된 전이유전자 서열을 포함한다. 일부 구체예들에서, 본 조성물 및 방법에서 전이유전자들은 후보 조절 요소에 의해 구동된 발현이 존재한다면, 이러한 발현을 탐지하기 위한 리포터로 작용한다. 일부 구체예들에서, 상기 후보 RE는 상기 전이유전자의 상류에 위치한다. 일부 구체예들에서, 상기 후보 RE는 상기 전이유전자의 넌-코딩 영역 안에 위치한다.

일부 구체예들에서, 상기 전이유전자는 야생형 참조 유전자 서열 (가령, EGFP 단백질을 인코딩하는 유전자 서열)로부터 유도된다. 일부 구체예들에서, 상기 전이유전자는 야생형 유전자 서열에 대해 적어도 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 동일하다. 일부 구체예들에서, 상기 전이유전자는 야생형 참조 뉴클레오티드 서열과 비교하였을 때, 임의의 돌연변이를 포함하지 않는다. 일부 구체예들에서, 상기 전이유전자는 본원에서 기술된 하나 또는 그 이상의 임의의 바코드 서열에 연계된다 (예를 들면, 상기 바코드 서열은 상기 전이유전자의 코딩 영역 또는 넌-코딩 영역에 있지 않는다). 임의의 관심대상 전이유전자들이 기획되고, 본 방법들에 이용될 수 있다. 본원에 기술되고 예시된 바와 같이, 전이유전자는 용이하게 검출가능하고 및/또는 식별가능한 속성, 특징 또는 모이어티가 내포되도록 기획될 수 있다. 일부 구체예들에서, 상기 전이유전자는 참조 뉴클레오티드 서열과 비교하였을 때, 변형된 뉴클레오티드 서열 (가령, 대체 코돈)을 포함한다. 일부 구체예들에서, 상기 전이유전자는 특정 유익한 속성을 갖도록 기획될 수 있는데, 가령, 발현된 전이유전자는 세포의 특정 구획에 특이적으로 국소화되거나, 및/또는 발현된 전이유전자는 상기 전이유전자 단백질, 세포 또는 세포 성분 (가령, 핵)의 단리 및/또는 정제를 용이하게 한다. 당업계에 공지된 기능적 도메인 및/또는 테그가 통합된 다양한 단백질 기획 방법을 사용하여, 본 방법에 대한 특정 맥락에서 유용한 전이유전자를 생성할 수 있다. 일부 구체예들에서, 상기 전이유전자는 DNA 핵산 분자다. 일부 구체예들에서, 상기 전이유전자는 본원에서 기술된 임의의 DNA 핵산 분자로부터 전사된 RNA 핵산 분자다.

일부 구체예들에서, 상기 전이유전자는 리포터 유전자를 인코딩하는 서열을 포함한다. 본 방법들을 위한 전이유전자가 생성되도록 당분야에 공지된 각종 리포터 유전자들이 이용될 수 있다. 리포터 유전자에는 전이유전자가 발현된다면, 이의 발현 검출을 용이하게 하는 임의의 유전자 또는 뉴클레오티드 서열이 내포된다. 리포터 유전자는 선택적으로, 예를 들어 세포의 특정 영역 또는 소기관(organelle) 및/또는 특정 세포, 조직, 기관 또는 다세포 유기체의 임의의 부분에서 발현된 생성물의 국재화를 허용할 수 있다. 이러한 리포터 유전자는 또한 이들이 리포터 폴리펩티드 (가령, GFP 단백질)와 기능적 잇점, 가령, 세포 단리, 세포 식별, 또는 세포의 영역에 리포터 국소화 (가령, 핵 결합 도메인을 통하여)를 부여하는 하나 또는 그 이상의 도메인을 포함하는 융합 단백질을 인코드하도록 또한 기획될 수 있다. 일부 구체예들에서, 본원에서 기술된 임의의 리포터 유전자는 하나 또는 그 이상의 형광 단백질, 이를 테면, 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프를 인코드한다. 특정 구체예들에서, 상기 형광 단백질은 GFP 또는 EGFP이다. 일부 구체예들에서, 상기 전이유전자는 탐지가능하도록 라벨된 단백질, 이를 테면, 탐지가능하도록 라벨된 항체 또는 이의 항원-결합 단편을 인코드한다. 일부 구체예들에서, 상기 전이유전자는 단백질에 결합하는 하나 또는 그 이상의 제제를 이용하여 검출될 수 있는 해당 단백질을 인코드한다. 예를 들면, 일부 구체예들에서, 상기 전이유전자는 하나 또는 그 이상의 탐지가능하도록 라벨된 항체 (가령, 형광 라벨된 항체)로 검출될 수 있는 단백질을 인코드한다.

본원에서 구체화된 바와 같이, 상기 전이유전자는 핵 결합 도메인을 인코딩하는 서열 (가령, KASH 도메인 또는 SUN 도메인 단백질, 또는 이의 생물학적으로 활성 단편)에 작동가능하도록 연계된 리포터 유전자 서열 (가령, EGFP를 인코딩하는 서열)을 포함할 수 있고, 이는 외측 핵 막으로 발현된 리포터 유전자 단백질 (EGFP)을 표적화시킨다. EGFP는 전이유전자를 발현시키는 세포를 용이하게 식별하고, 이를 분류할 수 있는 반면, 상기 핵 결합 도메인은 세포로부터 핵 단리를 촉진시키고, 이것은 무손상 조직으로부터 해리되는 동안 세포 막 파열되기 쉬운 특정 세포 (가령, 뉴런 또는 지방세포)에 유익하다. 리포터 유전자 서열에 의해 인코드된 폴리펩티드는 핵 결합 도메인 서열에 연계될 필요가 없음을 당업자는 인지할 것이다. 일부 구체예들에서, 상기 리포터 유전자에 의해 인코드된 폴리펩티드 (가령, EGFP)는 단독으로 상기 리포터 유전자를 발현시키는 세포의 세포질을 라벨시킬 수 있고, 이로써 상기 전이유전자를 발현시키는 세포가 식별된다. 이러한 라벨은 무손상 조직(가령, 상피 세포 및 섬유모세포)에서 분리하는 동안 세포막이 파괴되는 경향이 없는 조직에서 온전체 세포를 단리하는 데 사용할 수 있다. 이러한 세포는 이들의 공급처 (가령, 조직)로부터 분리되고, 리포터 유전자 발현, 그리고 본원에서 상술된 분석을 위해 서열화된 전사체를 기반으로 분류된다.

일부 구체예들에서, 상기 전이유전자는 세포 국소화 도메인을 인코딩하는 서열을 포함한다. 각종 세포 국소화 도메인은 당분야에 공지되어 있고, 그리고 여기에는 가령, KASH 도메인, SUN 도메인이 내포된다. 당업자는 다른 세포 국소화 도메인, 이를 테면, LOCATE 하위세포의 국소화 데이터베이스에서 보관된 것들을 인지할 것이다 (http://locate.imb.uq.edu.au).

조절 요소들(Regulatory Elements)

일부 구체예들에서, 본 명세서의 임의의 핵산 분자에는 가령, 하나 또는 그 이상의 바코드 서열들, 그리고 하나 또는 그 이상의 전이유전자에 작동가능하도록 연계된 후보 조절 요소가 내포된다. 본원에서 기술된 바와 같이, 본 명세서는 특이적 세포 집단에서 관심대상 전이유전자의 선택적 발현을 제공하는 REs를 식별해내기 위해, 다수 (가령, 10 ~ 10⁴)의 후보 REs 스크리닝 (가령, 생체내 또는 시험관내)에 부분적으로 관계한다. 주어진 세포 유형 (관심대상의 세포 유형 또는 표적 세포)에서 전이유전자의 선택적 발현을 제공하는 REs를 식별하기 위해 본원에서 제공된 방법에서 후보 REs이 테스트될 수 있다. 일반적으로, 본원에서 기술된 방법들을 이용하여 임의의 공지된, 천연 및/또는 합성 후보 REs가 스크리닝되고, 단리되고, 그리고 식별될 수 있다. 공지의 및/또는 자연적으로-생성된 REs는 본 발명의 방법에서 후보 REs로 사용하기 위해 용이하게 획득될 수 있다. 본 명세서에서 유용한 합성 후보 REs는 당분야에 공지된 다양한 방법을 이용하여 기획 및 생성될 수 있다. 일부 구체예들에서, 본 방법에서 사용될 수 있는 후보 REs는 하나 또는 그 이상의 세포 유형에서 알려진 활성을 갖지만 다른 세포 유형에서는 알려지지 않은 REs일 수 있다. 일부 구체예들에서, 본 발명의 방법에 이용될 수 있는 후보 REs는 알려지지 않는 활성을 갖는 REs일 수 있다. 본원에서 기술된 바와 같, RE가 선택적 발현을 제공하는 세포 유형을 식별해내기 위해 본 발명의 방법에 따라 다양한 공지의 또는 신규의 (가령, 합성된) REs가 스크리닝될 수 있다. 일부 구체예들에서, 본 방법들에서 이용될 수 있는 후보 RE에는 후보 REs들과 비교될 수 있는 네가티브 또는 포지티브 대조군 REs로 이용되는 공지의 REs(가령, 범-세포성 REs)가 내포된다.

특정 구체예들에서, 상기 후보 RE는 DNA 핵산 분자의 일부분이다. 일부 구체예들에서, 상기 DNA 핵산 분자는 본원에서 기술된 임의의 전이유전자, 하나 또는 그 이상의 후보 REs, 그리고 하나 또는 그 이상의 바코드 서열들을 포함하고, 이때 상기 바코드 서열은 상기 핵산내 후보 RE와 관련된다 (가령, 상기 바코드는 상기 핵산 분자 안에 함유된 RE를 식별하기 위해 이용될 수 있다). 일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 DNA 핵산 분자 (가령, 본원에서 기술된 바코드 서열(들), 후보 RE(들) 및 전이유전자를 포함하는 DNA 핵산 분자)로부터 전사된 RNA 핵산 분자를 제공하며, 이때 RNA 핵산 분자는 전이유전자 및 바코드 서열을 포함하고, 이때 RNA 분자내 바코드 서열은 DNA 분자내 후보 RE와 관련된다.

REs는 DNA 및/또는 RNA 수준에서 기능을 할 수 있다. REs는 세포-선택적 (세포-특이적) 유전자 발현을 조절하거나 또는 제어하는 기능을 할 수 있다. REs는 해당 유전자 발현의 전사 단계, 전사-후 단계, 또는 해독 단계에서 유전자 발현을 조절하는 기능을 할 수 있다. REs에는 프로모터, 인헨서, 인트론, 또는 기타 넌-코딩 서열들이 내포되나, 이에 국한되지 않는다. RNA 수준에서, 조절은 해독 수준 (가령, 해독을 위해 mRNA를 안정화시키는 안정성 요소들), RNA 절단, RNA 스플라이싱, 및/또는 전사 종료에서 발생할 수 있다. 일부 구체예들에서, REs는 관심대상의 세포 유형에서 유전자 발현 선택적으로 증가시키는 전사 인자들을 모집할 수 있다. 일부 구체예들에서, REs는 RNA 전사체가 생성되는 속도를 증가시킬 수 있고, 생성된 RNA의 안정성을 증가시킬 수 있고, 및/또는 RNA 전사체로부터 단백질 합성율을 증가시킬 수 있다.

REs는 하나 또는 그 이상의 세포 유형 또는 조직에서 유전자 또는 전이유전자 (가령, 단백질 이를 테면, EGFP 또는 루시퍼라제를 인코딩하는 리포터 유전자; 국소화 도메인 이를 테면, KASH 도메인을 인코딩하는 전이유전자; 및/또는 치료요법적 유전자)의 발현에 영향을 줄 수 있는(가령, 증가 또는 감소시키는) 핵산 서열 또는 유전적 요소들이다. 일부 구체예들에서, RE는 인트론, 프로모터, 인헨서, UTR, 역전된 말단 반복부 (ITR) 서열, 긴 말단 반복 서열 (LTR), 안정성 요소, 해독-후 반응 요소, 마이크로 RNA 결합 부위, 또는 폴리A 서열, 또는 이의 조합일 수 있다. 일부 구체예들에서, 상기 RE는 프로모터 또는 인헨서, 또는 이의 조합이다. 일부 구체예들에서, 상기 RE는 인간 서열로부터 유래된다.

일부 구체예들에서, 두개 또는 그 이상의 REs (공지의, 천연 및/또는 합성 REs)들이 복합되어 더 큰 RE를 형성할 수 있고, 이들은 본원에서 기술된 방법에서 후보 RE로 이용될 수 있다. 일부 구체예들에서, 더 작은 후보 REs를 만드는 것이 바람직할 수 있다. 전이유전자 발현 활성을 유지하는 더 작은 REs들이 큰 전이유전자를 이용하는 유전자 요법 방법에서 유익하며, 및/또는 벡터 또는 플라스미드의 클로닝 능력은 유전자 요법을 이용하여 전달되는 전이유전자의 크기 측면에서 제한된다. 따라서, 일부 구체예들에서, 후보 REs는 가령, 한 시점에서 하나 또는 그 이상의 염기를 절두하고, 그리고 각 생성된 후보 RE가 본 발명의 방법에 따른 발현을 구동시키는 능력에 대해 각 생성된 후보 RE를 테스트함으로써, 공지의 활성을 갖는 REs로부터 유도될 수 있다.

일부 구체예들에서, 두 개 또는 그 이상의 상대적으로 짧은 REs를 복합시켜 더 큰 RE를 만들고, 이를 본 발명의 방법에서 후보 RE로 이용할 수 있다. 이러한 조합은 이미 전이유전자의 높은 발현 활성을 만들고 및/또는 크기 규정화된 유전자 발현을 만드는 것으로 나타났다. 이와 같이, 이러한 후보 RE는 가령, 선택적 발현을 제공하는 세포 유형을 식별하기 위해 스크리닝될 수 있다.

일부 구체예들에서, 본원에서 기술된 후보 RE는 단지 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1000 bp, 1100 bp, 1200 bp, 1300 bp, 1400 bp, 1500 bp, 1600 bp, 1700 bp, 1800 bp, 1900 bp, 2000 bp, 2100 bp, 2200 bp, 2300 bp, 2400 bp, 2500 bp, 2600 bp, 2700 bp, 2800 bp, 2900 bp, 3000 bp, 3100 bp, 3200 bp, 3300 bp, 3400 bp, 3500 bp, 3600 bp, 3700 bp, 3800 bp, 3900 bp, 4000 bp, 4100 bp, 4200 bp, 4300 bp, 4400 bp, 4500 bp, 4600 bp, 4700 bp, 4800 bp, 4900 또는 5000 bp를 포함한다.

일부 구체예들에서, 본원에서 기술된 후보 RE는 단지 40bp, 45bp, 49bp, 50bp, 56bp, 60bp, 70bp, 80bp, 90bp, 100bp, 110bp, 117bp, 120bp, 130bp, 140bp, 150bp, 160bp, 170bp, 180bp, 190bp, 200bp, 210bp, 220bp, 230bp, 240bp, 250bp, 259bp, 260bp, 265bp, 270bp, 280bp, 290bp, 300bp, 310bp, 320bp, 330bp, 340bp, 350bp, 360bp, 370bp, 380bp, 390bp, 또는 400bp를 포함한다.

일부 구체예들에서, 본 발명에서 스크리닝될 수 있는 후보 RE는 단지 49bp, 50bp, 56bp, 60bp, 70bp, 80bp, 90bp, 100bp, 110bp, 117bp, 120bp, 130bp, 140bp, 150bp, 160bp, 170bp, 180bp, 190bp, 200bp, 210bp, 220bp, 230bp, 240bp, 250bp, 259bp, 260bp, 265bp, 270bp, 280bp, 290bp, 300bp, 310bp, 320bp, 330bp, 340bp, 350bp, 360bp, 370bp, 380bp, 390bp, 또는 400bp이다. 이러한 후보 REs는 큰 전이유전자 (가령, 유전자 요법 또는 발현 카세트에서) 발현 구동에 유용할 수 있는데, 그 이유는 상기 REs는 AAV 벡터 또는 발현 카세트 내에서 상당한 공간을 차지하지 않고 전이유전자 발현을 향상시키고, 따라서 큰 전이유전자에 대한 더 큰 용량을 허용한다.

일부 구체예들에서, 본원에서 기술된 후보 RE는 40-50 bp, 45-55 bp, 50-60 bp, 또는 55-65 bp이다. 일부 구체예들에서, 상기 후보 RE는 45-60 bp이다. 일부 구체예들에서, 본원에서 기술된 후보 RE는 49bp 또는 56bp이다. 일부 구체예들에서, 상기 후보 RE는 100bp ~ 150bp, 110bp ~ 140bp, 110bp ~ 130bp, 또는 115bp ~ 125bp 사이에 있을 수 있다. 일부 구체예들에서, 후보 REs는 100bp이거나, 또는 약 100bp이다.

일부 구체예들에서, 본원에 기술된 방법에 사용하기 위한 후보 조절 요소들은 후보 조절 요소의 식별을 허용하는 임의의 방법 (가령, DNAase 과다민감성, ATAC-Seq, 그리고 ChIP-Seq)을 이용하여 선별될 수 있다. 가령, WO 2018187363 (이의 전문이 본 명세서에 편입된다) 참고. 일부 구체예들에서, 조절 요소들은 분석-기반의 실험 (가령, 리포터 유전자 분석), 고-처리량 실험 (가령, 크로마틴 면역침전 실험), 또는 계산적 접근 (가령, ChIP-seq)을 이용하여 식별될 수 있다. 가령, Narlikar, et al., 2009, Briefings in Functional Genomics and Proteomics, 8(4): 215-230 참고. 일부 구체예들에서, 계산적 방법론은 특정 관심 게놈(가령,hg19)에서 조절 요소 식별에 사용될 수 있다. 일부 구체예들에서, 인핸서와 프로모터 사이의 상호작용을 차단하는 추정 절연체 영역을 식별하고, 게놈 영역 내에서 유전자 및 인핸서의 영향 범위 예측에 사용할 수 있다. 가령, Khan, et al., 2013, Genesis, 51:311-324 참고. 일부 구체예들에서, 계통발생적 풋프린팅(footprinting)은 cis-조절 요소의 계산 예측에 사용할 수 있다. 특히, 계통발생적 풋프린팅은 진화 전반에 걸쳐 유지되는 전사 인자 발견 부위를 포함할 수 있는 DNA의 보존된 부분 식별에 사용할 수 있다. Id. 일부 구체예들에서, 계통 발생 풋프린팅은 추정 절연체 영역으로 정의된 영역에서만 사용되어, 후보 조절 요소를 효과적으로 선택할 수 있다. Id.

일부 구체예들에서, 후보 RE는 공지의, 대조군 RE, 이를 테면, 공지의 프로모터로부터 유래된다. 사용될 수 있는 예시적인 공지의, 대조군 프로모터에는 다음이 내포되나, 이에 국한되지 않는다: CMV 프로모터, 수퍼 코어 프로모터, TTR 프로모터, Proto 1 프로모터, UCL-HLP 프로모터, AAT 프로모터, KAR 프로모터, EF1α 프로모터, EFS 프로모터, 또는 CMVe 인헨서/CMV 프로모터 조합, 닭 β-액틴 프로모터 (CBA), CMV 초기 인헨서/CBA 프로모터 (CAG), 신장 인자-1α 프로모터 (EF1α), 원숭이 바이러스 40 프로모터 (SV40), 포스포글리세레이트 키나제 프로모터 (PGK), 그리고 폴리유비퀴틴 C 유전자 프로모터 (UBC).이러한 공지의, 대조군 REs에 작동가능하도록 연계된 전이유전자로부터의 발현 수준은 후보 RE에 작동가능하도록 연계된 전이유전자 (동일한 전이유전자)의 발현 수준에 대해 분석될 수 있다.

일부 구체예들에서, 후보 RE가 본 명세서의 핵산 분자내에 내포될 때, 이는 하류 서열의 전사를 구동할 수 있는 프로모터일 수 있으며, 이것은 하류 서열 (가령, 전이유전자)과 밀접하게 연합된 또는 직접 접촉될 수 있다. 프로모터는 연계된 전이 유전자의 높은 발현, 중간 발현, 또는 낮은 발현을 구동시킬 수 있다.

일부 구체예들에서, 본원에 기술된 후보 RE는 인간-유래된 서열을 포함한다. 일부 구체예들에서, 본 명세서의 후보 RE는 비-자연적으로 생성된다. 일부 구체예들에서, 상기 후보 RE는 인간 참조 게놈 (또는 인간 게놈 빌드(build))에 있는 서열에 대해 적어도 80%, 90%, 95% or 99% 서열 동일성을 갖는 뉴클레오티드 서열을 포함한다. 상동성 서열은 인간 게놈의 영역과 비교하였을 때, 적어도 80% 서열 동일성 (가령, BLAST로 측정할 때)의 영역을 갖는 서열일 수 있다. 예를 들면, 인간 서열에 대해 적어도 80%, 적어도 85%, 적어도 90%, 적어도 91%, 적어도 92%, 적어도 93%, 적어도 94%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99% 상동성을 갖는 서열은 인간 유래된 서열로 간주된다.

일부 구체예들에서, 인간-유래된 후보 RE는 인간 서열에 대해 100% 동일한 서열이다. 일부 구체예들에서, 후보 RE의 서열은 인간 유래된 것으로, 이때 상기 후보 RE는 대응하는 인간 서열과는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 또는 95개 뉴클레오티드 또는 염기쌍이 상이하다.

일부 구체예들에서, 후보 RE 서열의 적어도 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 98%, 또는 99%는 인간 유래된다. 예를 들면, 후보 RE의 서열의 50%는 인간 유래된 것이며, 나머지 50%는 비-인간 유래된 것이다 (가령, 마우스 유래되거나, 또는 전체가 합성됨). 추가 예로써, 50% 인간 유래된 것이며, 300bp를 포함하는 후보 RE는 인간 게놈에 있는 서열에 대해 전반적으로 45% 서열 동일성을 가질 수 있는 반면, 상기 후보 RE의 염기쌍 1-150은 인간 게놈의 유사한 크기 영역에 대해 90% 동일성 (가령, 국소 서열 동일성)을 가질 수 있다.

일부 구체예들에서, 후보 RE는 인간-유래된 서열과 비-인간-유래된 서열을 함유하여, 전반적으로 해당 RE는 인간 게놈에 대해 낮은 서열 동일성을 갖는다. 그러나, 상기 후보 RE의 일부분은 인간 게놈에 대해 100% 서열 동일성을 갖는다. 다은 예로써, 상기 후보 RE 서열의 적어도 50%, 60%, 70%, 80%, 90%, 95%, 98% 또는 99%는 인간-유래되거나, 또는 적어도 10, 20, 30, 40, 또는 50개의 연속 뉴클레오티드는 인간-유래된다. 예를 들면, 후보 RE의 서열 50%는 인간-유래된 것을 보유할 수 있고, 나머지 50%는 비-인간-유래된 것을 보유할 수 있다 (가령, 마우스 유래된, 바이러스 유래된 또는 전체가 합성됨).

상기 후보 RE는 상이한 종으로부터 유래될 수 있다. 일부 구체예들에서, 후보 RE의 적어도 한 부분은 인간-유래된다. 비-인간-유래된 REs는 포유류, 바이러스, 또는 합성 서열들로부터 유래될 수 있다.

본원에서 기술된 바와 같이, 본 명세서는 REs를 식별해내는 방법을 고려하며, 이때 RE는 가령, 본원에서 기술된 전이유전자를 비롯한 하나 또는 그 이상의 기능 서열에 작동가능하도록 연계될 수 있다. DNA 분자가 벡터에 삽입되기 전, 또는 후, 이러한 작동적 연계 방법은 잘 공지되어 있다.

일부 구체예들에서, 본원에 기술된 후보 RE는 게놈 프로모터 서열로부터 유래될 수 있다. 일부 구체예들에서, 본원에 기술된 후보 RE는 게놈 프로모터 서열 및 3' 미-해독 영역 (3' UTR)으로부터 유래될 수 있다. 일부 구체예들에서, 본원에 기술된 후보 RE는 유전자간(intergenic) 서열로부터 유래될 수 있다. 일부 구체예들에서, 본원에 기술된 후보 RE는 유전자의 하류 게놈 서열, 또는 5' UTR 서열, 또는 5' UTR 및 하류 서열의 혼합으로부터 유래될 수 있다.

일부 구체예들에서, 후보 RE는 인헨서일 수 있고, 그리고 프로모터와 함께 발현 벡터에서 이의 활성은 이런 인헨서 없이, 상기 프로모터에 의해 동일한 전이유전자의 발현과 비교하였을 때, 특이적 유형의 세포 또는 특이적 세포 집단 내에서 전이유전자 (가령, EGFP)의 선택적 발현 (가령, 해당 발현의 증가 또는 감소)을 제공할 수 있는 지에 대해 평가될 수 있다.

일부 구체예들에서, 본원에서의 후보 RE는 인트론 서열이거나, 또는 인트론을 포함하며, 그리고 프로모터와 함께 발현 벡터에서 이의 활성은 이런 인트론 서열없이, 상기 프로모터에 의해 동일한 전이유전자의 발현과 비교하였을 때, 특이적 세포 집단내에서 전이유전자 (가령, EGFP를 인코딩하는 전이유전자)의 선택적 발현을 제공할 수 있는 지에 대해 평가될 수 있다.

일부 구체예들에서, 본원에서 후보 RE는 프로모터 서열이거나, 또는 프로모터 서열을 포함하고, 그리고 이것은 관심대상의 전이유전자를 발현시키기 위해 임의의 다른 프로모터 서열들 및/또는 인헨서 서열들없이, 본 명세서의 핵산 분자 안에 해당의 전이유전자에게 작동가능하도록 연계될 수 있다.

일부 구체예들에서, 상기 후보 REs는 5' 미-해독 영역 (5' UTR)의 일부분 또는 전부를 포함한다. 5' UTR 후보 REs는 여러 상이한 방식으로 유전자의 발현에 영향을 줄 수 있다. 5' UTR 후보 REs는 RNA 결합 단백질의 결합 부위를 함유할 수 있다. 더욱이, 5' UTR에서 REs에 의해 형성된 이차 구조는 해독에 요구되는 RNA 결합 단백질의 결합에 영향을 끼칠 수 있다. 일부 예시에서, 상기 후보 RE는 높은 수준의 이차 구조를 가질 수 있다. 일부 구체예들에서, 상기 후보 RE는 이차 구조가 없거나 또는 거의 보유하지 않을 수 있다. 상기 후보 RE는 내부 리보솜 진입 부위 (IRES)를 또한 함유할 수 있고, 이로써 5' 캡 독립적인 해독이 허용된다. 상기 후보 RE는 상류 해독 개시 코돈 (uAUG)을 함유할 수 있다. 일부 구체예들에서, 상기 후보 RE는 상류 해독 개시 코돈을 함유하지 않는다. 일부 구체예들에서, 상기 후보 RE는 AUG 코돈의 한 개 염기 안에 임의의 코돈을 함유하지 않거나, 또는 우연히 예상했던 것보다 AUG에 유사한 코돈이 더 적다. 일부 구체예들에서, 상기 후보 RE는 상류 AUG (또는 충분히 유사한 서열)이 존재할 때 발생되는, 상류 개방 판독 프레임에 이어서 인-프레임 정지 코돈을 함유할 수 있다. 일부 예시에서, 상기 후보 RE는 uORF를 포함하지 않는다. 일부 구체예들에서, 상기 후보 REs는 microRNA 결합 부위, 또는 RNA 결합 단백질을 위한 결합 부위를 함유한다.

일부 구체예들에서, 본 명세서의 후보 RE는 또한 상기의 임의의 기능적 단편일 수도 있다. 상기 기능적 단편이 인헨서, 인트론 서열, 프로모터 서열, 또는 이의 조합인 경우, 당해 기능적 단편이 없는 유사한 벡터 또는 카세트와 비교하였을 때, 해당 단편이 전이유전자에 작동가능하도록 연계된 경우, 더 높은 발현, 더 낮은 발현 또는 더욱 선택적인 발현이 관찰된다. 일부 구체예들에서, 단편의 길이는 25bp, 30bp, 40bp, 50bp, 60bp, 70bp, 80bp, 90bp, 100bp, 또는 110bp에 대등하거나, 또는 이보다 적다. 일부 구체예들에서, 인간 프로모터 서열로부터 유래된 본 명세서의 후보 RE은 벡터에서 제 2 프로모터 없이 사용될 수 있다.

일부 구체예들에서, 인트론 서열인 후보 RE는 임의의 프로모터에 커플링되거나 또는 작동가능하도록 연계될 수 있다. 일부 구체예들에서, 프로모터 서열인 후보 RE는 임의의 다른 프로모터 서열들 없이 전이유전자에 커플링되거나 또는 작동가능하도록 연계될 수 있다. 일부 구체예들에서, 프로모터 서열과 인트론 서열을 포함하는 후보 RE는 임의의 다른 프로모터 서열들 없이 전이유전자에 커플링되거나 또는 작동가능하도록 연계될 수 있다. 일부 구체예들에서, 프로모터 서열과 인헨서 서열을 포함하는 후보 RE는 임의의 다른 프로모터 서열들 없이 전이유전자에 커플링되거나 또는 작동가능하도록 연계될 수 있다.

극미립자

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 핵산 분자에 연결된 극미립자를 제공한다. 특정 구체예들에서, 상기 극미립자에 연결된 핵산 분자는 본원에서 기술된 임의의 DNA 핵산 분자로부터 전사된 RNA 분자다. 일부 구체예들에서, 상기 RNA 분자는 전이유전자와 바코드 서열을 포함한다. 일부 구체예들에서, 상기 DNA 분자는 조절 요소를 포함하고, 이때 RNA 분자에서 바코드 서열은 DNA 분자내 조절 요소와 관련된다. 일부 구체예들에서, 상기 극미립자는 비드이다. 일부 구체예들에서, 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 서열은 프라이머 서열을 포함한다. 특정 구체예들에서, 상기 프라이머 서열은 상기 극미립자 폴리뉴클레오티드 서열의 적어도 일부분의 증폭 및/또는 발현을 용이하게 한다. 일부 구체예들에서, 상기 프라이머 서열은 상기 극미립자 폴리뉴클레오티드 서열의 적어도 일부분과 상기 극미립자 폴리뉴클레오티드 서열에 연결된/혼성화된 본원에 기술된 임의의 핵산 분자의 적어도 일부분의 증폭 및/또는 발현을 용이하게 한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 상기 극미립자 (가령, 비드)에 특유의 바코드 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 각 극미립자는 두 개 또는 그 이상의 극미립자 폴리뉴클레오티드를 포함한다. 일부 구체예들에서, 두 개 또는 그 이상의 극미립자 폴리뉴클레오티드 각각은 상이한 특유의 분자 식별자 (UMI) 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 올리고-dT 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 올리고-dT 서열은 본원에 기술된 임의의 핵산 분자의 폴리A 부분에 혼성화될 수 있다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 바코드 서열, c) 특유의 분자 식별자 (UMI) 서열, d) 올리고-dT 서열, 그리고 e) 본원에 기술된 임의의 핵산 분자. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 바코드 서열, c) 특유의 분자 식별자 (UMI) 서열, d) 올리고-dT 서열, 그리고 e) 본원에 기술된 임의의 핵산 분자; 이때 상기 핵산 는 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-e)에 연결되며: 극미립자--a)--b)--c)--d)--e); 그리고 이때 폴리A 서열은 올리고-dT 서열과 혼성화된다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함한다: a) 프라이머 서열, b) 바코드 서열, c) 특유의 분자 식별자 (UMI) 서열, d) 올리고-dT 서열, 그리고 e) 본원에 기술된 임의의 핵산 분자; 이때 상기 핵산 는 폴리A 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-e)에 연결되며: 극미립자--a)--c)--b)--d)--e); 그리고 이때 폴리A 서열은 올리고-dT 서열과 혼성화된다.

운반 방법 및 조성물들

일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 핵산 분자를 포함하는 벡터 (가령, 본원에서 기술된 임의의 벡터)를 제공한다. 일부 구체예들에서, 상기 벡터는 바이러스 벡터 (가령, 아데노-연합된 바이러스 벡터)다. 일부 구체예들에서, 상기 벡터는 바이러스 입자다. 일부 구체예들에서, 상기 벡터는 비-바이러스 벡터다.

일부 구체예들에서, 본원에서 기술된 핵산 분자는 당분야에서 이용가능한 각종 공지된, 그리고 적합한 방법들을 이용하여 시험관 또는 생체내에서 조직 또는 세포로 제공(또는 전달)된다. 통상의 바이러스 및 비-바이러스 기반의 유전자 전달 방법을 이용하여 본원에서 기술된 핵산 분자를 세포 (가령, 포유류 세포) 및 표적 조직으로 운반할 수 있다. 비-바이러스 발현 벡터 시스템에는 핵산 벡터 이를 테면, 가령, 선형 올리고뉴클레오티드 및 원형 플라스미드; 인공 염색체 이를 테면, 인간 인공 염색체(HACs), 효모 인공 염색체 (YACs), 그리고 박테리아 인공 염색체 (BACs 또는 PACs)); 에피좀 벡터; 트랜스포존 (가령, PiggyBac); 그리고 코스미드가 내포된다. 바이러스 벡터 운반 시스템에는 DNA 및 RNA 바이러스, 이를 테면, 가령, 레트로바이러스 벡터, 렌티바이러스 벡터, 아데노바이러스 벡터, 그리고 아데노-연합된 바이러스 벡터가 내포된다. 본원에서 기술된 핵산 분자를 임의의 비-바이러스 시스템 및 바이러스 발현 시스템으로 통합시키는 방법은 당업자에게 공지되어 있다.

핵산의 비-바이러스 운반을 위한 방법 및 조성물은 물리적 방법 및 화학적 방법을 비롯하여 당분야에 공지되어 있다. 물리적 방법은 일반적으로 유전적 물질의 세포내 운반을 촉진에 있어서 세포막 장벽에 대항하기 위해 물리적인 힘을 사용하는 전달 방법을 의미한다. 물리적 방법의 예로는 바늘, 침투성(ballistic) DNA, 전기천공, 초음파천공(sonoporation), 광천공(photoporation), 마그네토펙션(magnetofection) 및 하이드로포레이션(hydroporation)의 사용이 내포된다. 화학적 방법에는 일반적으로 화학적 담체가 핵산 분자를 세포에 운반하는 방법을 말하며, 무기 입자, 지질-기반 담체, 중합체-기반 담체 및 펩티드-기반 담체가 내포될 수 있다.

일부 구체예들에서, 비-바이러스 발현 벡터는 무기 입자를 이용하여 표적 세포로 투여된다. 무기 입자는 나노입자, 이를 테면, 세망내피 시스템으로부터 탈출하거나, 또는 걸려든 분자를 분해로부터 보호하기 위해, 다양한 크기, 모양 및/또는 다공성을 위해 조작된 나노입자를 지칭할 수 있다. 무기 나노입자는 금속 (가령, 철, 금 및 은), 무기 염 또는 세라믹 (가령, 칼슘, 마그네슘 또는 규소의 인산염 또는 탄산염)으로부터 제조될 수 있다. 이들 나노입자의 표면은 DNA 결합 또는 표적화된 유전자 전달을 촉진하기 위해 코팅될 수 있다. 자성 나노입자 (가령, 초자성 산화철), 풀러렌(fullerenes) (가령, 가용성 탄소 분자), 탄소 나노튜브(가령, 원통형 풀러렌), 양자점 및 초분자 시스템이 또한 사용될 수 있다.

일부 구체예들에서, 비-바이러스 발현 벡터는 양이온성 지질 (가령, 양이온성 리포좀)을 이용하여 표적 세포로 투여된다. 유전자 운반용으로 각종 유형의 지질이 조사되었는데, 이를 테면, 예를 들면, 지질 나노 에멀젼 (가령, 유화제에 의해 안정화된 액체 상에 하나의 비혼화성 액체가 분산된 것), 또는 고체 지질 나노입자들이 조사되었다. 일부 구체예들에서, 지질 나노입자(LNPs)를 이용하여 비-바이러스 발현 벡터를 운반할 수 있다. 일부 구체예들에서, LNPs는 양이온성 지질을 포함한다. 일부 구체예들에서, LNPs는 (9Z,12Z)-3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 옥타데카-9,12-디에노에이트 [또는 3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 (9Z,12Z)-옥타데카-9,12-디에노에이트)로도 불림] 또는 또다른 이온화가능한 지질을 포함한다. 가령, WO2017/173054, WO2015/095340, 그리고 WO2014/136086의 지질 참고하며, 뿐만 아니라 본원에서 제공된 참조자료 참고.

일부 구체예들에서, 펩티드 기반의 운반 비히클을 이용하여 표적 세포로 비-바이러스 발현 벡터를 투여한다. 펩티드 기반의 운반 비히클은 운반될 유전적 물질을 보호하고, 특정 세포 수용체를 표적으로 하고, 엔도솜 막을 파괴하고, 유전적 물질을 핵으로 운반하는 이점을 가질 수 있다. 일부 구체예들에서, 중합체 기반의 운반 비히클을 이용하여 표적 세포로 비-바이러스 발현 벡터를 투여한다. 중합체 기반의 운반 비히클은 천연 단백질, 펩티드 및/또는 다당류 또는 합성 중합체를 포함할 수 있다. 한 구체예에서, 중합체 기반의 운반 비히클은 폴리에틸렌이민 (PEI)을 포함한다. PEI는 DNA를 음이온성 세포 표면 잔기에 결합하고, 엔도사이토시스를 통해 세포로 가져오는 양전하 입자로 응축시킬 수 있다. 다른 구체예들에서, 중합체 기반의 운반 비히클은 폴리-L-리신 (PLL), 폴리 (DL-젖산) (PLA), 폴리 (DL-락티드-co-글리코시드) (PLGA), 폴리오르니틴, 폴리아르기닌, 히스톤, 프로타민, 덴드리머, 키토산, 덱스트란의 합성 아미노 유도체, 및/또는 양이온성 아크릴 중합체를 포함할 수 있다. 특정 구체예들에서, 중합체 기반의 운반 비히클은 중합체 예를 들면 PEG 및 PLL의 혼합물을 포함한다.

일부 구체예들에서, 본원에 기술된 임의의 핵산 분자는 전이유전자에 작동가능하도록 연계된 후보 조절 요소와 바코드 서열을 포함하며, 임의의 공지의 적합한 바이러스 벡터를 이용하여 운반될 수 있는데, 가령, 레트로바이러스 (가령, A-유형, B-유형, C-유형, 그리고 D-유형 바이러스), 아데노바이러스, 파르보바이러스 (가령 아데노-연합된 바이러스 또는 AAV), 코로나바이러스, 네가티브 가닥 RNA 바이러스 이를 테면, 오르소믹소바이러스 (가령, 인플루엔자 바이러스), 라도바이러스 (가령, 광견병 및 소포 위염 바이러스), 파라믹소바이러스 (가령, 홍역 및 Sendai), 포지티브 가닥 RNA 바이러스, 이를 테면, 피코르나 바이러스 및 알파바이러스, 그리고 이중-가닥 DNA 바이러스 [아데노바이러스, 헤르페스바이러스 (가령, 헤르페스 Simplex 바이러스 유형 1 및 2, Epstein-Barr 바이러스, 사이토메갈로바이러스), 그리고 폭스바이러스 (가령, 백시니아, 계두 및 카나리아두창)가 내포된다. 레트로바이러스의 예로는 조류(avian) 백혈증-육종 바이러스, 인간 T-림프영양요구성 바이러스 유형 1 (HTLV-1), 소의 백혈병 바이러스 (BLV), 렌티바이러스, 그리고 스푸마바이러스가 내포된다. 다른 바이러스에는 예를 들면 Norwalk 바이러스, 토가바이러스, 플라비바이러스, 레오바이러스, 파포바-바이러스, 헤파드나바이러스, 그리고 간염 바이러스가 내포된다. 바이러스 벡터는 숙주 게놈에 통합되는 능력에 따라 통합 및 비-통합의 두 그룹으로 분류될 수 있다. 온코레트로바이러스 및 렌티바이러스는 숙주 세포 염색질에 통합될 수 있는 반면, 아데노바이러스, 아데노 관련 바이러스 및 헤르페스 바이러스는 주로 염색체외 에피솜으로 세포 핵에 지속된다.

일부 구체예들에서, 적합한 바이러스 벡터는 레트로바이러스 벡터다. 레트로바이러스는 레트로비리데 패밀리의 바이러스를 지칭한다. 레트로바이러스의 예로는 온코레트로바이러스, 이를 테면, 뮤린 백혈병 바이러스 (MLV), 그리고 렌티바이러스, 이를 테면, 인간 면역결핍 바이러스 1 (HIV-1)가 내포된다. 레트로바이러스 게놈은 단일-가닥으로 된 (ss) RNAs이며, cis 또는 trans로 제공될 수 있는 각종 유전자를 포함한다. 예를 들면, 레트로바이러스 게놈은 유전자 발현, 역-전사 및 숙주 염색체로의 통합을 위한 요소들과 함께, cis-작용 서열들 이를 테면, 두 개의 긴 말단 반복부 (LTR)를 함유할 수 있다. 다른 구성 요소에는 새로 형성된 비리온으로의 특정 RNA 패키징을 위한 패키징 신호(psi 또는 ψ)와 역-전사 중 포지티브 가닥 DNA 합성 개시 부위인 폴리퓨린 트랙(PPT)이 내포된다. 추가로, 일부 구체예들에서, 레트로바이러스 게놈는 gag, pol 및 env 유전자를 포함할 수 있다. gag 유전자는 구조 단백질을 인코딩하고, pol 유전자는 ssRNA를 동반하고, 바이러스 RNA의 DNA로의 역전사를 수행하는 효소를 인코딩하고, env 유전자는 바이러스 외피를 인코딩한다. 일반적으로, gag, pol 및 env 는 바이러스 복제 및 패키징을 위해 trans 로 제공된다.

일부 구체예들에서, 본원에 제공된 레트로바이러스 벡터는 렌티바이러스 벡터일 수 있다. 렌티바이러스의 적어도 5개의 혈청군 또는 혈청형이 인지된다. 상이한 혈청형의 바이러스는 특정 세포 유형 및/또는 숙주를 차등적으로 감염시킬 수 있다. 렌티바이러스에는 예를 들면, 영장류 레트로바이러스 및 비-영장류 레트로바이러스가 내포된다. 영장류 레트로바이러스에는 HIV 및 원숭이 면역결핍 바이러스 (SIV)가 내포된다. 비-영장류 레트로바이러스에는 고양이 면역결핍 바이러스 (FIV), 소 면역결핍 바이러스 (BIV), 염소 관절염-뇌염 바이러스 (CAEV), 말(equine) 감염성 빈혈 바이러스 (EIAV) 및 비스나바이러스가 내포된다. 렌티바이러스 또는 렌티벡터는 휴지(quiescent) 세포를 형질도입시킬 수 있다. 온코레트로바이러스 벡터와 함께, 렌티벡터의 디자인은 cis-및 trans-작용 서열들의 분리에 기반될 수 있다.

일부 구체예들에서, 본 명세서는 최적화된 치료요법적 레트로바이러스 벡터에 의한 운반용으로 기획된 발현 벡터를 제공한다. 레트로바이러스 벡터는 다음중 임의의 하나 또는 그 이상을 포함하는 렌티바이러스일 수 있다: 좌측 (5') LTR; 바이러스의 패키지 및/또는 핵 유입(import)을 지원하는 서열들; 프로모터; 임의선택적으로 하나 또는 그 이상의 추가 조절 요소들 (이를 테면, 예를 들면, 인헨서 또는 폴리A 서열); 임의선택적으로 렌티바이러스 역-반응 요소 (RRE); 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하는 구조체(가령 EGFP-KASH); 임의선택적으로 절연체; 그리고 우측 (3') 레트로바이러스 LTR.

일부 구체예들에서, 본원에서 제공된 바이러스 벡터는 아데노-연합된 바이러스 (AAV)다. AAV는 인간과 일부 다른 영장류 종을 감염시키는 작고, 복제 결함이 있는 외피-없는 동물 바이러스다. AAV는 인간 질병을 유발하는 것으로 알려져 있지 않으며, 가벼운 면역 반응을 유도한다. AAV 벡터는 또한 숙주 세포 게놈에 통합되지 않고, 분열 세포와 휴지 세포 모두를 감염시킬 수 있다.

AAV 게놈은 자연적으로 길이가 ~4.7kb인 선형 단일 가닥 DNA로 구성된다. 게놈은 길이가 약 145bp인 역전된 말단 반복부(ITR) 서열이 측면에 있는 두 개의 개방 리딩 프레임(ORF)으로 구성된다. ITR은 5' 말단의 뉴클레오티드 서열 (5' ITR)과 팔린드롬(palindromic) 서열을 함유하는 3' 말단에 위치한 뉴클레오티드 서열 (3' ITR)로 구성된다. ITRs는 두 번째 가닥 합성을 위한 DNA 복제가 시작되는 동안 프라이머 역할을 하는 상보적 염기 쌍형성에 의해 T-자형 헤어핀 구조를 형성하도록 폴딩되어 cis에서 기능한다. 두 개의 오픈 리딩 프레임은 비리온의 복제 및 패키징에 관여하는 rep 및 cap 유전자를 인코딩한다. 일부 구체예들에서, 본원에서 제공된 AAV 벡터는 rep 또는 cap 유전자를 함유하지 않는다. 이러한 유전자는 하기에 추가로 기술되는 바와 같이 비리온을 생산하기 위해 trans로 제공될 수 있다.

일부 구체예들에서, AAV 벡터에는 스투퍼(stuffer) 핵산이 내포될 수 있다. 일부 구체예들에서, 상기 스투퍼 핵산은 카나마이신 또는 암피실린과 같은 항생제에 대한 내성을 제공하는 녹색 형광 단백질 또는 항생제 내성 유전자를 인코딩할 수 있다. 특정 구체예들에서, 상기 스투퍼 핵산은 ITR 서열 외부에 위치할 수 있다. (가령, 5' 서열과 3' ITR 서열 사이에 위치한 전이유전자 서열 및 조절 서열들과 비교하였을 때).

일부 구체예들에서, AAV 벡터는 AAV1, AAV2, AAV3, AAV3b, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10, AAV11, AAV12, AAV13, AAV-DJ, AAV-DJ8, AAV-DJ9 또는 키메라, 하이브리드, 또는 변이체 AAV중 임의의 하나다. AAV는 또한 자가-상보적 AAV (scAAV)일 수 있다. 이들 혈청형은 향성(tropism), 또는 이들이 감염시키는 세포 유형에서 상이하다. 일부 구체예들에서, AAV 벡터는 다수의 혈청형 (가령, 유사형(pseudotypes))으로부터 게놈 및 캡시드를 포함한다. 예를 들면, AAV는 혈청형 5 또는 혈청형 9의 캡시드에 패키징된 혈청형 2(가령 ITR)의 게놈을 포함할 수 있다. 유사형은 형질도입 효율을 향상시킬 뿐만 아니라, 향성을 변경할 수 있다. 일부 구체예들에서, AAV는 AAV9 혈청형이다. 특정 구체예들에서, AAV에 의한 운반용으로 기획된 발현 벡터는 5' ITR 및 3' ITR을 포함한다.

일부 구체예들에서, AAV 혈청형 6 또는 AAV 혈청형 9의 ITRs는 본원에서 기술된 임의의 AAV 벡터에 이용될 수 있다. 그러나, 다른 적합한 혈청형으로부터의 ITRs이 선택될 수 있다. 일부 구체예들에서, 본원에 기술된 임의의 핵산 분자는 캡시드 단백질 안에 패키지되고, 선택된 숙주 세포로 운반된다. 본 명세서의 AAV 벡터는 다양한 아데노-연합된 바이러스로부터 생성될 수 있다. 상기 벡터의 향성은 하나의 재조합 게놈을 또다른 AAV 혈청형으로부터 유래된 캡시드에 패키징함으로써 변경될 수 있다. 일부 구체예들에서, rAAV 바이러스의 ITRs는 AAV1-12중 임의의 하나의 ITRs에 기반될 수 있고, AAV1-12, AAV-DJ, AAV-DJ8, AAV-DJ9중 하나 또는 다른 변형된 혈청형으로부터 선택된 AAV 캡시드와 복합될 수 있다. 특정 구체예들에서, AAV ITRs 및/또는 캡시드는 AAV 벡터로 표적화될 세포 또는 조직에 기반하여 선택된다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 포함하는 벡터를 제공하며, 이때 상기 벡터는 AAV 벡터 또는 AAV 바이러스 입자, 또는 비리온이다. 일부 구체예들에서, AAV 벡터 또는 AAV 바이러스 입자, 또는 비리온을 이용하여 본원에서 기술된 임의의 전이유전자에 작동가능하도록 연계된 본원에서 기술된 임의의 후보 조절 요소들을 포함하는 본원에 기술된 임의의 핵산 분자를 생체내, 생체외, 또는 시험관내에서 운반할 수 있다. 일부 구체예들에서, 이러한 AAV 벡터는 복제-결함이 있다. 일부 구체예들에서, AAV 바이러스는 헬퍼 인자가 있는 경우에만 복제하고, 비리온을 생성할 수 있도록 공작되거나 또는 유전적으로 변형된다.

일부 구체예들에서, 전이유전자에 작동가능하도록 연계된 하나 또는 그 이상의 후보 조절 요소들을 스크리닝하여, 표적 세포, 세포 유형, 또는 조직에서 전이유전자를 선택적 발현(가령, 증가 또는 감소)을 제공하는 지를 결정할 수 있다. 일부 구체예들에서, AAV에 의한 운반용으로 기획된 발현 벡터는 5' ITR, 프로모터, 전이유전자에 작동가능하도록 연계된 후보 조절 요소와 바코드 서열을 포함하는 핵산 분자 (가령 EGFP-KASH를 인코딩하는 전이유전자), 그리고 3' ITR을 포함한다. 일부 구체예들에서, AAV에 의한 운반용으로 기획된 발현 벡터는 5' ITR, 인헨서, 프로모터, 전이유전자에 작동가능하도록 연계된 후보 조절 요소, 바코드 서열 및 폴리A 서열을 포함하는 핵산 분자 (가령 EGFP-KASH를 인코딩하는 전이유전자), 그리고 3' ITR을 포함한다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 포함하는 바이러스 벡터를 제공한다. 용어 "바이러스 입자", 및 "비리온"은 본원에서 호환사용되며, 캡시드 내에 패키지된 바이러스 게놈을 포함하는 감염성이며, 전형적으로 복제-결함 바이러스 입자 (가령, 바이러스 발현 벡터)에 관련되며, 그리고 가령, 레트로바이러스의 경우, 캡시드를 둘러싼 지질 외피도 포함된다. "캡시드"는 바이러스 게놈이 패키지된 구조에 관계한다. 캡시드는 단백질로 구성된 몇 개의 올리고머 구조 하위단위로 구성된다. 예를 들면, AAV는 3개의 캡시드 단백질의 상호작용에 의해 형성된 정20면체 캡시드를 갖는다: VP1, VP2 및 VP3. 일부 구체예들에서, 본원에서 제공된 비리온은 본원에서 기술된 바와 같이, 단백질 쉘(shell)에 전이유전자에 작동가능하도록 연계된 후보 조절 요소 및 바코드 서열을 포함하는 AAV 벡터를 패키징함으로써 획득된 재조합 AAV 비리온이다.

일부 구체예들에서, 본원에서 제공된 재조합 AAV 비리온은 동일한 특정 혈청형에 대응하는 천연 Cap 단백질에 의해 형성된 바이러스 입자 안에 특정 AAV 혈청형으로부터 유래된 AAV 게놈을 포집함으로써 만들 수 있다. 다른 구체예들에서, 본원에서 제공된 AAV 바이러스 입자는 주어진 혈청형과는 상이한 혈청형으로부터 유래된 단백질 안에 패키지된 주어진 AAV 혈청형의 ITR(들)을 포함하는 바이러스 벡터를 포함한다. 가령, Bunning H et al. J Gene Med 2008; 10: 717-733 참고. 예를 들면, 주어진 AAV 혈청형으로부터 유래된 ITRs를 갖는 바이러스 벡터는 a) 동일한 또는 상이한 AAV 혈청형으로부터 유래된 캡시드 단백질 (가령, AAV2 ITRs 및 AAV9 캡시드 단백질; AAV2 ITRs 및 AAV8 캡시드 단백질; 등등)로 구성된 바이러스 입자; b) 상이한 AAV 혈청형 또는 돌연변이체로부터 유래된 캡시드 단백질의 혼합물로 구성된 모자이크 바이러스 입자 (가령, AAV1 및 AAV9 캡시드 단백질을 갖는 AAV2 ITRs); c) 상이한 AAV 혈청형 또는 변이체 간에 도메인 스와핑에 의해 절두된 캡시드 단백질로 구성된 키메라 바이러스 입자 (가령, AAV9 도메인을 갖는 AAV8 캡시드 단백질을 갖는 AAV2 ITRs); 또는 d) 선택적 결합 도메인들을 디스플레이하도록 공작된 표적화된 바이러스 입자는 표적 세포 특이적 수용체와의 엄격한 상호작용이 가능하다 (가령, 펩티드 리간드의 삽입으로 유전적으로 절두된 AAV9 캡시드 단백질을 갖는 AAV5 ITRs; 또는 펩티드 리간드를 캡시드 표면에 커플링시킴으로써 비-유전적으로 변형된 AAV9 캡시드 단백질)로 패키지될 수 있다.

당업자는 본원에서 제공된 AAV 비리온은 임의의 AAV 혈청형의 캡시드 단백질을 포함할 수 있음을 인지할 것이다. 한 구체예에서, 상기 바이러스 입자는 AAV1, AAV2, AAV5, AAV6, AAV8, 및 AAV9로 구성된 군에서 선택된 AAV 혈청형으로부터 유래된 캡시드 단백질을 포함한다.

rAAV 비리온을 만드는 다수의 방법들이 당업계 공지되어 있고, including 형질감염, 안정적 세포 계통 생산, 그리고 감염성 하이브리드 바이러스 생산 시스템이 내포되며, 이때 하이브리드 바이러스에는 아데노바이러스-AAV 하이브리드, 헤르페스바이러스-AAV 하이브리드 (Conway, J E et al., (1997) J. Virology 71(11):8780-8789) 및 바큘류바이러스-AAV 하이브리드가 내포된다. 일부 구체예들에서, rAAV 바이러스 입자 생산을 위한 rAAV 생산 배양물은 다음을 포함한다; 1) 적합한 숙주 세포, 예를 들면, 인간-유래된 세포 계통 이를 테면, HeLa, A549, 또는 293 세포, 또는 곤충-유래된 세포 계통, 이를 테면, 바큘로바이러스 생산 시스템의 경우 SF-9; 2) 야생형 또는 돌연변이체 아데노바이러스 (이를 테면, 온도 민감성 아데노바이러스), 헤르페스 바이러스, 바큘로바이러스에 의해 제공되는 적합한 헬퍼 바이러스 기능, 또는 헬퍼 기능을 제공하는 플라스미드 구조체; 3) AAV rep 및 cap 유전자 및 유전자 산물; 4) AAV ITR 서열들 측면에 있는 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하는 핵산 분자 (가령, 본원에서 기술된 바와 같이, 리포터 유전자 서열에 작동가능하도록 연계된 핵 결합 도메인을 인코딩하는 뉴클레오티드 서열); 이때 상기 핵산 분자는 하나 또는 그 이상의 바코드 서열들을 포함하고, 그리고 5) rAAV 생산을 지원하는 적절한 배지 및 배지 성분들.

일부 구체예들에서, 상기 생산자 세포 계통은 Rep 및 Cap 단백질을 제공하는 바큘로바이러스 발현 벡터에 감염된 곤충 세포 계통 (전형적으로 Sf9 세포)이다. 이 시스템은 아데노바이러스 헬퍼 유전자를 요구하지 않는다 (Ayuso E, et al., Curr. Gene Ther. 2010, 10:423-436).

용어 "cap 단백질"은 본원에서 이용된 바와 같이, 고유의 AAV Cap 단백질의 적어도 하나의 기능적 활성을 갖는 폴리펩티드 (가령, VP1, VP2, VP3)를 지칭한다. cap 단백질의 기능 활성의 예시에는 캡시드 형성을 유도하는 능력, 단일-가닥으로 된 DNA의 축적을 용이하게 하는 능력, 캡시드 안으로 AAV DNA 패키징을 용이하게 하는 능력 (예를 들면, 포집화), 세포의 수용체에 결합하는 능력, 그리고 숙주 세포로 비리온의 진입을 용이하게 하는 능력이 내포된다. 원칙적으로, 본원 발명의 내용에서 임의의 Cap 단백질이 이용될 수 있다.

Cap 단백질은 숙주 향성, 세포, 조직 또는 기관 특이성, 수용체 사용, 감염 효율 및 AAV 바이러스의 면역원성에 대한 영향을 갖는 것으로 보고되고 있다. 따라서, rAAV에서 사용을 위한 AAV cap는 예를 들면, 대상체의 종 (가령 인간 또는 비-인간), 대상체의 면역학적 상태, 장기적 치료 또는 단기적 치료에 대해 대상체의 적합성, 또는 특정 치료요법적 응용 (가령, 특정 질환 또는 장애의 치료, 또는 특정 세포, 조직, 또는 장기로의 운반)을 고려하여 선택될 수 있다. 특정 구체예들에서, 상기 cap 단백질은 AAV1, AAV2, AAV5, AAV6, AAV8, 그리고 AAV9 혈청형으로 구성된 군의 AAV로부터 유래된다.

일부 구체예들에서, 본원에서 제공된 방법에 사용을 위한 AAV Cap는 전술한 AAV caps 또는 이를 인코딩하는 핵산중 하나의 돌연변이생성 (예를 들면, 삽입, 결손, 또는 치환)에 의해 생성될 수 있다. 일부 구체예들에서, AAV cap은 전술한 AAV caps중 하나 또는 그 이상에 대해 적어도 70%, 75%, 80%, 85%, 90%, 95%, 98%, 또는 99% 또는 그 이상으로 유사하다.

일부 구체예들에서, AAV cap은 전술한 AAV caps중 2, 3, 4 또는 그 이상으로부터 유래된 도메인을 포함하는 키메라다. 일부 구체예들에서, AAV cap은 두 개 또는 세 개의 상이한 AAV 또는 재조합 AAV로부터 기인된 VP1, VP2, 및 VP3 단량체의 모자이크다. 일부 구체예들에서, rAAV 조성물은 전술한 caps중 하나 이상을 포함한다.

일부 구체예들에서, rAAV 비리온에 사용을 위한 AAV cap은 이종성(heterologous) 서열 또는 다른 변형이 함유되도록 공작된다. 예를 들면, 선택적 표적화 또는 면역 침투를 부여하는 펩티드 또는 단백질 서열은 cap 단백질로 공작될 수 있다. 대안으로 또는 추가적으로, 상기 cap는 화학적으로 변형될 수 있어, rAAV의 표면은 폴리에틸렌 글리콜화되고 (예를 들면, 페길화되고), 이는 면역 침투를 용이하게 할 수 있다. 상기 cap 단백질은 또한 돌연변이될 수 있다 (가령, 이의 천연 수용체 결합이 제거되도록, 또는 면역원성 에피토프를 차단시키도록).

용어 "rep 단백질"은 본원에서 이용된 바와 같이, 고유의 AAV rep 단백질의 적어도 하나의 기능적 활성을 갖는 폴리펩티드 (가령, rep 40, 52, 68, 78)를 지칭한다. rep 단백질의 기능적 활성의 예시에는 해당 단백질의 생리학적 기능과 연합된 임의의 활성, 이를 테면, 인지를 통하여 DNA 복제를 용이하게 하고, DNA 복제의 AAV 원점의 결합 및 니킹(nicking), 뿐만 아니라 DNA 헬리카제 활성이 내포된다. 추가 기능에는 AAV (또는 다른 이종성) 프로모터로부터의 전사 조절 및 숙주 염색체로 AAV DNA의 부위-특이적 통합이 내포된다. 일부 구체예들에서, AAV rep 유전자는 혈청형 AAV1, AAV2, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10 또는 AAVrh10로부터 유래될 수 있다.

일부 구체예들에서, 본 발명에서 제공된 방법에 사용을 위한 AAV rep 단백질은 전술한 AAV reps 또는 이를 인코딩하는 핵산중 하나의 돌연변이생성 (예를 들면, 삽입, 결손, 또는 치환)에 의해 생성될 수 있다. 일부 구체예들에서, AAV rep는 전술한 AAV reps중 하나 또는 그 이상에 대해 적어도 70%, 75%, 80%, 85%, 90%, 95%, 98%, 또는 99% 또는 그 이상으로 유사하다.

"헬퍼 기능" 또는 "헬퍼 유전자"라는 표현은 본원에서 이용된 바와 같이, AAV가 복제 의존하는 바이러스 단백질을 지칭한다. 상기 헬퍼 기능에는 AAV 복제에 요구되는 단백질, 예를 들면, AAV 유전자 전사의 활성화에 연루된 단백질, 단계 특이적 AAV mRNA 스플라이싱에 연루된 단백질, AAV DNA 복제에 연루된 단백질, cap 발현 산물 합성에 연루된 단백질, 그리고 AAV 캡시드 어셈블리에 연루된 단백질이 내포되나, 이에 국한되지 않는다. 바이러스-기반의 보조 기능은 공지의 헬퍼 바이러스 이를 테면, 아데노바이러스, 헤르페스바이러스 (헤르페스 심플렉스 바이러스 유형-1 이외의 바이러스), 그리고 백시니아 바이러스중 임의의 것으로부터 유래될 수 있다. 헬퍼 기능에는 아데노바이러스 E1, E2a, VA, 및 E4 또는 헤르페스바이러스 UL5, ULB, UL52, 그리고 UL29, 그리고 헤르페스바이러스 중합효소가 내포되나, 이에 국한되지 않는다. 바람직한 구체예에서, AAV가 복제 의존성인 단백질은 아데노바이러스로부터 유래된다.

일부 구체예들에서, AAV가 본 발명의 방법에서 사용을 위한 복제 의존성인 바이러스 단백질은 바이러스 단백질 또는 이를 인코딩하는 핵산중 하나의 돌연변이생성 (예를 들면, 삽입, 결손, 또는 치환)에 의해 생성될 수 있다. 일부 구체예들에서, 상기 바이러스 단백질은 전술한 바이러스 단백질들중 하나 또는 그 이상의 단백질에 대해 적어도 70%, 75%, 80%, 85%, 90%, 95%, 98%, 또는 99% 또는 그 이상으로 유사하다.

AAV가 복제에 의존적인 cap 단백질, rep 단백질 및 바이러스 단백질의 기능을 분석하는 방법들은 당분야에 잘 공지되어 있다.

일부 구체예들에서, 바이러스 발현 벡터는 표적 세포로 투여하기 위한 지질 운반 비히클 (가령,본원에서 기술된 바와 같이, 양이온성 리포좀 또는 LNPs)과 연합될 수 있다.

본원에서 기술된 핵산 분자를 함유하는 각종 운반 시스템은 생체내 세포로 운반을 위해 유기체로 투여될 수 있거나, 또는 생체외 세포 또는 세포 배양물로 투여될 수 있다. 투여는 혈액, 체액 또는 세포와의 궁극적인 접촉으로 분자를 도입하기 위해 일반적으로 사용되는 임의의 경로에 의한 주사, 주입, 국소 적용 및 전기천공을 포함하나, 이에 국한되지 않는 수단에 의해 이루어진다. 이러한 핵산을 투여하는 적합한 방법들이 이용가능하며, 당업자에 공지되어 있다.

상기 핵산 분자들은 시험간내, 생체내 또는 생체외에서 각종 세포 및/또는 조직을 표적으로 운반될 수 있다. 일부 구체예들에서, 운반은 다양한 장기/조직 및 상응하는 세포, 예를 들어, 뇌, 심장, 골격근, 간, 신장, 비장 또는 위로 표적화될 수 있다. 일부 구체예들에서, 상기 핵산 분자는 신경 세포, 심근세포, 골격근 세포, 평활근 세포, 간세포, 족세포 또는 상피 세포 중 임의의 하나 이상으로 운반된다. 일부 구체예들에서, 병이 든 세포, 이를 테면, 가령, 종양 또는 암 세포로 운반을 표적화시킬 수 있다. 일부 구체예들에서, 줄기 세포, 혈액 세포, 또는 면역 세포로 운반을 표적화시킬 수 있다.

일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 벡터, 또는 본원에서 기술된 임의의 핵산의 혼합물을 제공한다. 일부 구체예들에서, 상기 혼합물은 두 개 또는 그 이상의 핵산 분자를 포함하며, 이때 각 핵산 분자는 상이한 바코드 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 혼합물은 약 10¹ ~ 약 10⁴ 개의 핵산 분자를 포함하고, 이때 각 핵산 분자는 상이한 조절 요소를 포함한다. 일부 구체예들에서, 상기 혼합물은 약 10¹ 개의 핵산 분자를 포함하고, 이때 각 핵산 분자는 상이한 조절 요소를 포함한다. 일부 구체예들에서, 상기 혼합물은 약 10² 개의 핵산 분자를 포함하고, 이때 각 핵산 분자는 상이한 조절 요소를 포함한다. 일부 구체예들에서, 상기 혼합물은 약 10³ 개의 핵산 분자를 포함하고, 이때 각 핵산 분자는 상이한 조절 요소를 포함한다. 일부 구체예들에서, 상기 혼합물은 약 10⁴ 개의 핵산 분자를 포함하고, 이때 각 핵산 분자는 상이한 조절 요소를 포함한다. 일부 구체예들에서, 상기 혼합물 또는 핵산 분자는 약 10, 약 50, 약 100, 약 250, 약 500, 약 750, 약 1000, 약 1250, 약 1500, 약 1750, 약 2000, 약 2500, 약 3000, 약 3500, 약 4000, 약 4500, 약 5000, 약 5500, 약 6000, 약 6500, 약 7000, 약 7500, 약 8000, 약 8500, 약 9000, 약 9500, 약 10000개, 또는 그 이상의 상이한 조절 요소들을 포함한다.

다중 분석(Multiplex Assay) 방법

본원에서 기술된 바와 같이, 본 명세서는 특이적 세포 집단에서 관심대상 전이유전자의 선택적 발현을 제공하는 조절 요소들을 식별해내기 위해, 조절 요소들을 스크리닝 (가령, 생체내 또는 시험관내)하는 고-처리량 방법에 부분적으로 관계한다.

일부 구체예들에서, 상기 방법들에는 전이유전자(가령, 리포터 유전자 및 조절 요소 식별을 위한 바코드를 포함하는 전이유전자)를 인코딩하는 서열에 작동가능하도록 연계된 후보 조절 요소를 포함하는 핵산 서열을 각각 포함하는, 벡터의 혼합물로 두 개 또는 그 이상의 세포 (가령, 세포 집단 또는 조직)에 제공하고/세포를 처리하는 방법이 내포된다. 일부 구체예들에서, 본원에 기술된 임의의 방법들은 본원에서 기술된 임의의 핵산 또는 벡터를 세포 집단으로 투여하는 단계를 포함할 수 있다. 투여는 세포 집단과의 궁극적인 접촉으로 분자를 도입하기 위해 일반적으로 사용되는 임의의 경로에 의한 주사, 주입, 국소 적용 및 전기천공을 포함하나, 이에 국한되지 않는 수단에 의해 이루어진다. 일부 구체예들에서, 해당 세포 집단내 세포는 포유류 세포이다. 일부 구체예들에서, 해당 세포 집단내 세포는 인간 세포이다. 일부 구체예들에서, 해당 세포 집단은 시험관내에 있다. 일부 구체예들에서, 해당 세포 집단은 생체내에 있다. 일부 구체예들에서, 해당 세포 집단은 동물의 조직 또느 장기내에 있다. 일부 구체예들에서, 해당 세포 집단은 동물 안에 있다. 일부 구체예들에서, 상기 동물은 마우스, 렛, 개구리, 개, 토끼, 기니아 피크, 또는 비-인간 영장류이다. 일부 구체예들에서, 상기 비-인간 영장류는 시노몰구스(cynomolgus) 원숭이 또는 침팬지다. 일부 구체예들에서, 만일 세포 집단이 동물의 조직 또는 기관에 있는 경우, 해당 조직 또는 장기(또는 조직 또는 장기의 샘플)을 동물로부터 제거 (가령, 외과적 제거)하여, 해당 세포 집단으로부터 세포를 분리/단리 (아래에서 더 자세히 설명됨)한다. 일부 구체예들에서, 해당 세포 집단이 동물 안에상기 있고, 벡터 및/또는 핵산은 다음 투여 경로 중 임의의 하나 이상에 의해 이 동물에 투여된다: 정맥내, 피하, 경구, 비강내, 근육내, 안구내, 직접 주사 관심 조직, 또는 경막내.

일부 구체예들에서, 본 방법에 따라 조절 요소들을 식별해내기 위해, 처리된 세포 또는 조직의 개별 세포는 하기에서 기술된 바와 같이, 가령, 전이유전자 발현을 평가하고, 상기 전이유전자를 발현시키는 각 세포의 동일성을 결정하고, 및/또는 원래 조절 요소와 발현된 전이유전자 (가령, 바코드를 이용하여)와의 상관관계를 위해 추가 분석을 위해 분리 및 단리된다.

단일 세포 RNA 단리

일부 구체예들에서, 본 명세서는 조직, 장기, 또는 체액 (가령, 혈청))으로부터 세포)의 혼합물로부터 단일 세포를 단리 또는 분리하는 임의의 방법들이 통합된 방법을 제공한다. 일부 구체예들에서, 해당 세포 각각의 전사체를 서열화시키기 위해, 절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 각 세포들이 분리/단리된다. 일반적으로, 조직, 장기, 또는 체액 (가령, 혈청))으로부터 세포)의 혼합물로부터 단일 세포를 분리시키는 다양한 방법들이 당분야에 공지되어 있다. 이러한 방법들에는 다음이 내포되나, 이에 국한되지 않는다: 세포 분리 조성물에서 부력 밀도에 기초하여 세포를 분리 (U.S. 특허 번호 4,927,750), 항혈청 인자로 피복된 라텍스 비드를 이용하여 밀도 구배 상에서 혈청 인자들을 분리 (U.S. 특허 번호 3,862,303), 자장을 사용하여 세포를 분리 (U.S. 특허 번호 4,777,145), 그리고 밀도 구배 상에서 T 세포와 B 세포의 분리 (U.S. 특허 번호 4,511,662). 일부 구체예들에서, 개별 세포는 가령, FACS 소팅을 이용하여 세포 내 또는 이에 결합된 형광 마커에 의해 방출되는 형광 강도에 기반하여 분리된다. 당업자는 특정 맥락 또는 응용에 적합한 공정을 용이하게 실시할 수 있다. 예를 들면, 특정 세포 유형 (가령, 뉴런 및 지방세포)의 세포 막은 무손상 조직으로부터 해리되는 동안 파괴되기 쉽다. 따라서, 특정 표준 기관 해리 기술(가령, 효소 및 기계적 힘)은 다른 세포와 비교하여 일부 세포 유형에 더 적합하다. 일부 경우들에서, 특정 용용에 따라, 세포는 손상되지 않은 상태(가령, 용해 없이)로 분리/단리된다. 일부 구체예들에서, 해당 세포의 핵은 무손상으로 분리/단리된다(가령, 용해 없이).

일부 구체예들에서, 개별 세포는 세포 집단, 이를 테면, 조직 공급원으로부터 단리될 수 있다. 본 발명의 방법에 사용될 수 있는 조직 공급원의 예로는 결합 조직, 근육 조직, 신경 조직 및 상피 조직이 내포된다. 본 방법의 적용에서 분리/단리 및 분석될 수 있는 결합 조직의 세포의 예시에는 예를 들어, 섬유아세포, 지방세포, 대식세포, 비만 세포, 형질 세포 등이 내포된다. 본 방법의 적용에서 분리/단리 및 분석될 수 있는 근육 조직의 세포의 예시에는 예를 들어 심근 세포, 골격근 세포, 심장 근육 세포, 평활근 세포 등이 내포된다. 본 방법의 적용에서 분리/단리 및 분석될 수 있는 신경 조직 세포의 예시에는 예를 들어 뉴런, 신경교 등이 내포된다. 본 방법의 적용에서 분리/단리 및 분석될 수 있는 신경 조직 세포의 예시에는 뉴런 세포의 하위유형, 이를 테면, 가령, 루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런을 비롯한 GABAergic 세포가 내포된다. 본 방법의 적용에서 분리/단리 및 분석될 수 있는 상피 조직의 세포의 예시에는 예를 들어 편평 상피, 입방형 상피, 원주 상피 등이 내포된다. 일부 구체예들에서, 개별 세포는 혈액 세포로부터 분리/단리될 수 있다. 일부 구체예들에서, 개별 세포는 줄기 세포의 집단, 가령, 골수로부터 분리/단리될 수 있다. 일부 구체예들에서, 개별 세포는 종양으로부터 분리/단리될 수 있다. 일부 구체예들에서, 개별 세포는 암으로부터 분리/단리될 수 있다.

일부 구체예들에서, 본 명세서는 분리된/단리된 세포의 분류(sorting)를 허용하는 임의의 방법을 포함하는 방법을 제공한다. 일부 구체예들에서, 상기 분리된/단리된 세포 (또는 핵)는 단일-세포 RNA 시퀸싱을 실시하기 전, 분류된다. 특정 구체예들에서, 세포를 단리하고, 가령, 전이유전자의 발현 (가령, 본원에서 구체화된 바와 같이, 단백질 이를 테면, EGFP 또는 EGFP-KASH를 인코딩하는 리포터 유전자), 천연 세포-특이적 마커의 존재, 또는 추가된 라벨의 존재를 기반으로 분류된다. 각종 리포터 유전자, 천연 세포-특이적 마커, 그리고 세포 분류 목적을 위한 라벨은 본원에서 기술된 바와 같이, 당분야에 공지되어 있다. 당업자가 인식하는 바와 같이, 리포터 전이유전자 또는 표지는 필요에 따라 세포의 임의의 부분(가령, 세포 표면 또는 핵 외피의 표면)에서 발현되도록 설계될 수 있다. 예를 들면, KASH 단백질 (Klarsicht, ANC-1, Syne 상동성) 및 SUN 단백질 (Sad1 및 UNC-84)은 이들 모두 대표적인 핵 결합 도메인 서열들로써, 핵막의 외막에 발현되고, 국소화된다. 본원에서 구체화된 것과 같이, 형광 마커 및 핵 결합 도메인 서열을 포함하는 전이유전자의 발현으로 해당 전이유전자의 발현을 기반으로 하는 핵 분류가 가능해진다. 각종 세포 분류 방법 이를 테면, 형광-활성화된 세포 분류 (FACS) 및 자석-활성화된 세포 분류 (MACS)를 본 명세서 실시에서 이용할 수 있다.

일부 구체예들에서, 상기 분리된 세포들은 단일-세포 RNA 시퀸싱을 실시하기 전, 분류되지 않는다.

일부 구체예들에서, 당업자에게 공지된 임의의 라벨링 물질을 상기 기재된 세포 분류 방법과 조합하여 사용할 수 있다. 특정 구체예들에서, 세포를 단리하고, 리포터 유전자의 발현 (가령 형광 라벨, 이를 테면, EGFP의 발현)을 기반으로 분류될 수 있다. 일부 구체예들에서, 상기 라벨은 형광 라벨이다. 형광 라벨의 예로는 다음이 내포되나, 이에 국한되지 않는다: 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, 또는 mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프. 특정 구체예들에서, 상기 형광 라벨은 GFP 또는 EGFP이다. 일부 구체예들에서, 상기 분리된/단리된 세포 또는 핵은 소적 안에 포집된다. 일부 구체예들에서, 상기 소적은 에멀젼 소적이다. 일부 구체예들에서, 상기 소적은 나노리터-규모다. 일부 구체예들에서, 상기 소적은 극미립자를 더 포함한다. 일부 구체예들에서, 상기 극미립자는 비드이다.

일부 구체예들에서, 본 명세서는 mRNA 전사체의 추가 분석을 위해 세포 또는 핵을 구별화시키는 임의의 방법을 통합한 방법을 제공한다. 일부 구체예들에서, 본 명세서는 본원에서 기술된 임의의 핵산을 포함하는 소적 (가령, 에멸젼 소적)을 제공한다. 일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 세포를 포함하는 에멸젼 소적을 제공한다. 일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 극미립자를 포함하는 소적 (가령, 에멸젼 소적)을 제공한다. 일부 구체예들에서, 본 명세서는 본원에 기술된 임의의 극미립자 및 본원에 기술된 임의의 세포를 또한 포함하는 소적 (가령, 에멸젼 소적)을 제공한다.

일부 구체예들에서, 본원에서 기술된 임의의 세포 또는 핵이 본원에 기술된 임의의 소적에 의해 일단 포집화되면, 해당 세포 또는 핵을 용해시켜, 이들 세포 또는 핵의 내용물 (가령, RNA 내용물)을 소적으로 방출시킨다. 특정 구체예들에서, 해당 세포 또는 핵을 용해시켜, 이들 세포 또는 핵의 내용물 (가령, RNA 내용물)을 소적으로 방출시키고, 이때 해당 소적은 본원에 기술된 임의의 극미립자를 더 포함한다. 일부 구체예들에서, 다수의 RNA 분자는 다수의 극미립자 (가령, 비드)에 연결되며, 이때 각 비드는 특유하게 바코드화된다. 일부 구체예들에서, 상기 극미립자는 극미립자 폴리뉴클레오티드에 연결되며, 이때 상기 극미립자 폴리뉴클레오티드는 올리고-dT 뉴클레오티드 서열을 포함한다. 일부 구체예들에서, 상기 올리고-dT 뉴클레오티드 서열은 상기 용해된 세포 또는 핵에서 방출된 임의의 mRNA 분자의 3' 폴리아데닐화된 (폴리(A)) 꼬리와 혼성화될 수 있다. 일부 구체예들에서, 본 방법들에서 분석용으로 포집되고, 단리된 RNA에는 mRNA, 긴 넌-코딩 RNA, 안타센스 전사체, 그리고 pri-miRNAs가 내포된다. 일부 구체예들에서, 상기 단리된 RNA는 mRNA이다. 특정 구체예에서, mRNA는 바코드화된 극미립자 (가령 비드)에 결합함으로써 단리된다.

단리된 세포의 세포 유형을 식별하는 방법

상기에서 기술된 바와 같이, 본 방법들은 세포의 실체 (예를 들면, 세포 유형)를 결정하고, 및/또는 이들 특정 세포 안에서 발현된 유전자 및 전이유전자에 관한 정보를 얻기 위해, 단일 세포 전사체의 시퀸싱을 고려한다. 궁극적으로, 상기 서열 정보를 라이브러리에 수집할 수 있고, 이 정보는 해당 세포의 시체를 확인할 뿐만 아니라 특정 세포 안에서 전이유전자를 발현시킬 수 있는 후보 조절 요소를 결정하고, 이 세포 안에서 전이유전자의 발현 수준을 정량화시키는데 이용될 수 있다.

일부 구체예들에서, 본 명세서는 단일 세포 또는 단일 핵으로부터 RNA 단리를 허용하는 임의의 방법을 통합하는 방법들을 제공한다. 일부 구체예들에서, 본 명세서는 전사체의 원점 세포에 관한 정보는 보존하면서, mRNA 전사체를 분석하는 임의의 방법을 통합하는 방법들을 제공한다. 일부 구체예들에서, 본 명세서는 후보 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 세포의 식별을 허용하는 임의의 방법을 통합하는 방법들을 제공한다. 하나의 실시예에서, 단일 세포는 소적-시퀸싱 ("Drop-Sequence" 또는 "Drop-Seq") 방법을 이용하여 식별될 수 있다. Drop-Sequence 방법은 고-처리량 단일-세포 RNA-Seq 및/또는 표적화된 핵산 프로파일링 (가령, 시퀸싱, 정량적 역 전사 중합효소 쇄 반응, 그리고 이와 유사한 것들)을 제공하고, 이때 상이한 세포로부터 유래된 RNAs는 특유의 바코드화된 폴리뉴클레오티드를 이용하여 개별적으로 테그되고, 이렇게 함으로써 각 서열화된 mRNA의 세포 실체는 유지하면서 단일 라이브러리가 생성되도록 한다. 일부 구체예들에서, 분자 바코드와 에멀젼-기반 미세 유체(microfluidics)의 조합을 사용하여, 개별 세포로부터 핵산을 단리, 용해, 바코드화하고, 고-처리량 방식으로 준비한다.

상기 Drop-Sequence 방법에서, 특유의 바코드화된 폴리뉴클레오티드에 연결된 특별히 고안된 극미립자 (가령, 비드)를 세포 식별에 이용한다. 도 1에서 나타낸 것과 같이, 특유하게 바코드화된 폴리뉴클레오티드를 다수 함유하는 단일 극미립자 (비드)를 단일 세포 (또는 단일 핵)와 함께 개별 에멸젼 소적 안으로 도입시킬 수 있다. 일부 구체예들에서, 상기 바코드화된 폴리뉴클레오티드는 바코드화된 캡쳐 비드를 만들기 위해 유연성 다수-원자 링커를 통하여 극미립자 (가령, 비드) (5'에서 3' 방향으로, 효소 프라이밍을 위해 이용가능한 3' 자유로운 단부가 생성됨)에 공유적으로 부착된다. 일부 구체예들에서, 상기 바코드화된 폴리뉴클레오티드는 바코드화된 캡쳐 비드를 만들기 위해 유연성 다수-원자 링커를 통하여 극미립자 (가령, 비드) 5'에서 3' 방향으로, (효소 프라이밍을 위해 이용가능한 3' 자유로운 단부가 생성됨)에 공유적으로 부착된다.

일부 구체예들에서, 본원에서 기술된 임의의 상기 극미립자 (가령, 비드)는 폴리뉴클레오티드 분자에 연결된다 (본원에서 "극미립자 폴리뉴클레오티드"로 불림). 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 하류 PCR 및 시퀸싱을 위한 프라이밍 부위로 사용하기 위한 불변 서열을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 상기 극미립자 (가령, 비드)에 특유한, 그러나 극미닙자에 연결된 모든 극미립자 폴리뉴클레오티드에게는 공통적인, 바코드 서열 ("세포 바코드")을 포함한다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 특유의 분자 식별자 (UMI) 뉴클레오티드 서열을 포함하며, 이것은 극미립자 폴리뉴클레오티드 각각에 특유한 것이다. 예를 들면, 만일 극미립자가 두 개 또는 그 이상의 극미립자 폴리뉴클레오티드를 포함한다면, 이 극미립자 상의 각 극미립자 폴리뉴클레오티드는 상이한 UMI 서열을 포함할 것이다. 일부 구체예들에서, 상기 UMI를 이용하여 PCR 복제물(duplicates)을 식별해낼 수 있다. 일부 구체예들에서, 상기 극미립자 폴리뉴클레오티드는 올리고-dT 서열을 포함한다. 일부 구체예들에서, 상기 올리고-dT 서열를 이용하여 폴리아데닐화된 mRNAs (가령, mRNA의 폴리A 서열과 혼성화를 통하여)를 포집하고, 및/또는 역 전사를 프라이밍할 수 있다.

일부 구체예들에서, 본원에 기술된 임의의 극미립자 폴리뉴클레오티드 분자는 본원에 기술된 임의의 핵산 분자와 상호작용한다. 일부 구체예들에서, 상기 극미립자와 상호작용하는 (가령, 연결된) 핵산 분자는 DNA 분자로부터 전사된 RNA 분자다. 일부 구체예들에서, 상기 RNA 분자는 전이유전자와 바코드 서열을 포함한다. 일부 구체예들에서, 상기 DNA 분자는 조절 요소를 포함하고, 이때 RNA 분자에서 바코드 서열은 DNA 분자내 조절 요소와 관련된다. 일부 구체예들에서, 상기 핵산 분자는 폴리A 꼬리를 포함하고, 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함하고, 그리고 상기 핵산 분자의 폴리A 꼬리는 상기 극미립자 폴리뉴클레오티드의 올리고-dT 서열에 혼성화된다.

일부 구체예들에서, 각 극미립자 폴리뉴클레오티드 분자는 4개의 별개 영역을 포함한다: (1) 하류 PCR 및 시퀸싱을 위한 프라이밍 부위로 이용가능한 불변 서열 (모든 극미립자에 걸쳐 극미립자 폴리뉴클레오티드 분자 상에서 동일); (2) 임의의 하나의 극미립자에서 모든 극미립자 폴리뉴클레오티드 분자에 걸쳐 동일하지만, 다른 극미립자 상에 세포 바코드와는 상이한 "세포 바코드" (예를 들면, 세포 바코드는 정 극미립자에 대해 특유함); (3) 각 극미립자 폴리뉴클레오티드 분자에서 상이하고 PCR 복제물을 식별하는데 이용되는 특유의 분자 식별자 (UMI); 그리고 (4) 폴리아데닐화된 mRNAs 캡쳐 및 역 전사 프라이밍에 이용되는 올리고-dT 서열.

위에서 언급한 바와 같이, 미세유체 장치에 의해 생성된 에멀젼 소적 (비혼화성 담체 유체로 둘러싸인 수성 소적)은 바코드가 있는 극미립로 세포 (또는 핵)를 공동-포집화하는 데 사용할 수 있다. 일부 구체예들에서, 상기 세포 (또는 핵)은 소적 안에서 용해되고, 그리고 상기 용해된 세포 또는 핵으로부터 mRNA (전사체)는 다수의 극미립자 폴리뉴클레오티드 분자 (가령, 극미립자 (가령, 비드)의 미립자 폴리뉴클레오티드 분자)의 올리고-dT 영역 상에서)에 혼성화된다. 가령, 도 1 참고. 본원에서 기술된 바와 같이, 특정 구체예들에서, 상기 극미립자는 특유하게 바코드화되고, 각 소적과 이의 내용물이 구별될 수 있다. 본원에 기술된 방법은 임의의 극미립자 유형 (가령 10X Genomics Chromium Single Cell Gene Expression Assays)를 이용한 단일-세포 접근방법을 고려한다. 가령, U.S. 공개된 출원 번호 20180030515 및 Macosko et al., 2015, "Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets" Cell 161, 1202-1214; 그리고 Klein et al., 2015, "Droplet Barcoding for Single-Cell Transcriptomics Applied to Embryonic Stem Cells" Cell 161, 1187-1201 참고, 이들 각각은 전문이 본원의 참고자료에 편입된다. 전이유전자를 발현시키는 세포를 식별하는데 이용될 수 있는 다른 기술에는 예를 들면, CEL-seq2/C1, MARS-seq, SCRB-seq, Smar-seq/C1, 및/또는 Smart-seq2가 내포된다. 가령, Ziegenhain, et al., 2017, Molecular Cell, 65:631-643 참고.

단일-세포 전사체 시퀸싱

일부 구체예들에서, 상기에서 논의된 바와 같이, 용해된 세포 또는 핵에서 유래된 RNA는 본원에 기술된 임의의 시퀸싱 방법을 이용하여 서열화될 수 있고, 서열 정보를 수집하여 서열 라이브러리를 만든다. 일부 구체예들에서, 본 명세서는 세포 전사체의 시퀸싱을 허용하는 임의의 방법을 통합한 방법을 제공한다. 서열 라이브러리를 만드는 다양한 방법들이 당분야에 공지되어 있고, 이들 방법은 이용된 특정 고-처리량 플렛폼에 맞춰진다. 일부 구체예들에서, mRNA 분석에서 코딩 RNA가 넌코딩 RNA로부터 분리되도록, 3' 폴리아데닐화된 (폴리(A)) 꼬리를 표적화시킨다. 본원에서 기술된 Drop-Sequence 방법에서, 상기 바코드화된 극미립자 폴리뉴클레오티드 분자는 mRNAs에 혼성화된다. 가령, 도 1 참고. 일부 구체예들에서, 상기 바코드화된 극미립자 상에 mRNA를 캡쳐한 후, 각 세포의 mRNA를 특유하게 바코드화되고, 상기 mRNA 극미립자에 공유적으로 연결된 첫 가닥 cDNA로 전환시키기 위해 역 전사 (RT) 반응을 실행한다. 후속적으로, 일부 구체예들에서, 주형 스위칭 반응을 통한 범용 프라이머를 이용하여 합성된 cDNA의 하류에 PCR 핸들을 도입시킨다. 일부 구체예들에서, 그 다음, 각 cDNA를 PCR을 이용하여 증폭시키고, 정량화하고, 고-처리량 플렛폼, 이를 테면, 차세대 시퀸싱 (NGS)을 이용하여 나란하게 서열화하여 데이트 세트를 생성한다. PCR 방법들은 당업계에 널리 공지되어 있다. 가령, Dieffenbach and Dveksler, PCR Primer, a Laboratory Manual, Cold Spring Harbor Press, Plainview, N.Y. [1995] 참고. NGS 방법, 이를 테면, Illumina/Solexa^TM 플렛폼 및 NovaSeq^TM 플렛폼은 당업자에게 공지되어 있다.

일부 구체예들에서, 일단 시퀸싱이 완료되면, 미가공 서열 데이터는 추가 분석될 것이다. 일부 구체예들에서, 종래의 라이브러리 준비 프로토콜을 이용하여 RNA-Seq 라이브러리를 준비할 수 있다. 일부 구체예들에서, NGS 데이터의 경우 일반화된 데이터 분석 파이프라인이 이용될 수 있다. 일부 구체예들에서, NGS 데이터의 경우 일반화된 데이터 분석 파이프라인에는 다음의 것들이 내포되나, 이에 국한되지 않는다: 어뎁터 서열들 및 저-품질 판독을 제거하기 위해 해당 데이터의 사전-프로세싱, 참조 게놈에 해당 데이터의 맵핑 또는 서열 판독의 새로운 정렬, 그리고 적재된 서열의 분석. 예를 들면, 일부 구체예들에서, 서열들은 특정 인간 전사체에 정렬될 수 있으며, 어떤 mRNA가 어떤 세포로부터 유래했는지 확인하기 위해 이들 "세포" 바코드 서열 정보를 추출할 수 있다. 일부 구체예들에서, 서열들은 특정 인간 전사체에 정렬될 수 있고, 그들의 "UMI" 바코드 서열 정보는 특정 세포에서 특정 전사체의 풍도를 확인하기 위해 추출될 수 있다. 일부 구체예들에서, 서열들열은 특정 인간 전사체에 정렬될 수 있으며, 이들의 "세포" 및 "UMI" 바코드 서열 정보는 어떤 mRNA가 어느 세포에서 유래했는지, 특정 세포에서 특정 전사체의 풍도를 확인하기 위해 추출될 수 있다. 서열들의 분석에는 다음의 것들이 내포되나, 이에 국한되지 않는 다양한 생물정보 평가가 내포된다: 작은 뉴클레오티드 다형성 (SNPs) 검출을 유전적 변이체의 소환에 대한 평가, 신규한 유전자의 검출, 전이유전자 삽입 부위의 식별, 전이유전자를 발현시키는 세포 유형의 결정, 전이유전자의 발현에 연루된 후보 조절 요소의 식별, 및/또는 유전자 (가령, 전이유전자) 전사체 발현 수준의 평가. 일부 구체예들에서, 단일 시퀸싱 실행을 통하여 수만개 (또는 그 이상)의 구별가능한 전사체를 동시에 얻을 수 있다.

단일 세포 발현 프로파일의 분석

일부 구체예들에서, 본 명세서는 주어진 세포 유형에서 선택적 발현을 제공하는 후보 조절 요소를 식별해내기 위해 이종성 세포 집단을 평가하는 방법들을 제공한다. 일부 구체예들에서, 본 명세서는 후보 조절 요소에 작동가능하도록 연계된 전이유전자를 선택적으로 발현시키는 세포의 식별을 허용하는 임의의 방법을 통합하는 방법들을 제공한다. 일부 구체예들에서, 상기 세포는 이종성 세포 집단 안에 존재할 수 있다. 상기 이종성 세포 집단은 상이한 유형의 세포(예를 들어, 상이한 계통의 세포, 상이한 분화 상태의 세포, 및/또는 전신을 통하여 하나 또는 그 이상의 조직 공급원으로부터 수득된 세포), 뿐만 아니라 다양한 세포 주기 단계의 세포를 포함할 수 있다. 일부 구체예들에서, 이러한 이종성 세포 집단의 전사체 측정은 다양한 생물정보학 평가를 거칠 수 있다.

일부 구체예들에서, 미가공 서열 데이터는 참조 게놈에 정렬되어, 각 유전자와 관련된 판독 수를 제공할 수 있다. 일부 구체예들에서, 미가공 서열 데이터는 알려진 세포 유형 또는 신규 세포 유형에 대한 유전자 발현의 하나 또는 그 이상의 분자 지도(atlases)의 서열 데이터와 정렬될 수 있다. 일부 구체예들에서, 판독 카운트는 PCR 증폭 편향으로 인해 내포되었던 전사체를 식별내고 제거하기 위해, UMI 바코드를 사용하여 전사체 수를 정량화하여 결정된다. 상기 데이터는 cDNA 라이브러리 형성 및 시퀀싱의 효율성에서 세포 간 변이를 설명하도록 정규화된다. 다수의 정규화 방법이 당업계에 공지되어 있다. 가령, Risso et al., 2018, "A General and Flexible Method for Signal Extraction from Single-Cell RNA-Seq Data" Nat. Comm. 9:284; 1-17 (이의 전문이 본원의 참고자료에 편입된다) 참고. 일부 구체예들에서, 세포 또는 유전자를 클러스터링하여 전사체 프로파일을 기반으로 하위그룹을 형성할 수 있으므로, 각각 세포 하위 유형 또는 공변 유전자를 식별할 수 있다. 일부 구체예들에서, 주요 성분 분석(PCA) 또는 t-SNE와 같은 다양한 분석을 사용하여, 세포를 고차원 공간에서 저차원 공간으로 변환시킴으로써, 시각화 및 패턴 감지를 위한 데이터를 단순화할 수 있다. 일부 구체예들에서, 대표적인 세포 마커들 (예를 들면, 문헌-유래된 기본형 바이오마커)를 각 클러스터에 매핍하여 특이적 세포 집단을 식별해낼 수 있다.

일부 구체예들에서, 만일 해당 세포가 후보 조절 요소에 작동가능하도록 연계된 바코드화된 전이유전자 (가령, EGFP-KASH를 인코딩하는 전이유전자)를 발현시킨다면, 본원에서 기술된 바와 같이, 특정 세포 유형에서 전이 유전자 발현에 있어서 주어진 후보 조절 요소의 효과를 평가하기 위해 각 전이유전자 바코드의 비교 분석이 실행될 수 있다. 예를 들면, 특정 조절 요소에 작동가능하도록 연계된 특정 전이유전자의 발현 크기가 평가될 수 있다. 일부 구체예들에서, 후보 조절 요소에 작동가능하도록 연계된 특정 전이유전자의 발현 수준 (가령, 발현 수준의 감소 또는 증가)은 상이한 후보 조절 요소에 작동가능하도록 연계된 동일한 전이유전자의 발현 수준과 비교될 수 있다. 일부 구체예들에서, 후보 조절 요소에 작동가능하도록 연계된 하나의 세포 유형에서 특정 전이유전자의 발현 수준 (가령, 발현 수준의 감소 또는 증가)은 상이한 후보 조절 요소에 작동가능하도록 연계된 상이한 전이유전자의 발현 수준과 비교될 수 있다. 추가적으로, 일부 구체예들에서, 각종 세포 유형들중에서 후보 조절 요소에 작동가능하도록 연계된 전이유전자의 발현을 비교하기 위한 비교가 이루어지는 것이 더 고려된다. 이와 같은 방식에서 상기 조절 요소의 세포 유형 특이성 및 해당 조절 요소에 작동가능하도록 연계된 전이유전자의 발현 크기가 결정될 수 있다.

조절 요소에 의해 제공되는 선택적 발현의 결정

일부 구체예들에서, 본 명세서의 방법에는 다양한 방법들, 가령, 리포터 전이유전자를 발현시키는 세포로부터 RNA 단리시키는 방법, 관심대상 전사체의 시퀸싱 방법, 전이유전자의 발현 측정 및/또는 탐지 방법, 관심대상의 세포 유형에서 해당 전이유전자 발현을 제공하는 조절 요소의 식별하는 방법 등등이 내포된다. 표적 세포 유형에서 전이유전자 발현의 선택성을 기반으로 표적 세포 유형에서 임의의 관심대상 전이유전자를 발현시키는데 적합한 조절 요소를 식별해내고, 이를 선택하는데 본 방법들이 이용될 수 있다. 일부 구체예들에서, 상기 전이유전자 발현의 선택성은 비-표적 세포 유형에 대비하여 표적 세포 유형에서 해당 전이유전자가 발현되는 지를 결정하는 것이다. 일부 구체예들에서, 상기 전이유전자 발현의 선택성은 비-표적 세포 유형에 대비하여 표적 세포 유형에서 해당 전이유전자가 더 높은 수준에서 발현되는 지를 결정하는 것이다. 일부 구체예들에서, 상기 전이유전자 발현의 선택성은 비-표적 세포 유형에 대비하여 표적 세포 유형에서 해당 전이유전자가 더 낮은 수준에서 발현되는 지를 결정하는 것이다.

일부 구체예들에서, 본 방법을 이용하여 임의의 관심대상의 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해낼 수 있다. 일부 구체예들에서, 상기 관심대상의 세포 유형은 근육 세포, 뉴런 세포, 상피 세포, 또는 결합 조직 세포 또는 이의 각종 하위집단이다. 일부 구체예들에서, 근육 세포는 심근 세포, 골격근 세포, 심장 근육 세포 또는 평활근 세포이다. 일부 구체예들에서, 상피 세포는 편평 상피 세포, 입방형 상피 세포, 또는 원주 상피 세포이다. 일부 구체예들에서, 뉴런 세포는 뉴런 또는 신경교 세포이다. 일부 구체예들에서, 결합 조직 세포는 섬유아세포, 지방세포, 대식세포, 비만 세포 또는 형질 세포이다. 일부 구체예들에서, 관심대상 세포는 혈액 세포이다. 일부 구체예들에서, 관심대상 세포는 줄기 세포다. 일부 구체예들에서, 관심대상 세포는 종양 세포 (가령, 암 세포)이다. 일부 구체예들에서, 상기 관심대상의 세포 유형은 포유동물 세포와 같은 진핵 세포이며, 여기에는 다음의 세포가 포함되지만 이에 국한되지는 않는다: 인간, 인간이 아닌 영장류(이를 테면, 유인원, 침팬지, 원숭이 및 오랑우탄), 개와 고양이를 포함한 가축, 말, 소, 돼지, 양, 염소와 같은 가축, 또는 다음을 포함한 (마우스, 래트, 기니피그, 토끼, 햄스터 및 이와 유사한 것들, 이에 국한되지 않음) 기타 포유류 종. 일부 구체예들에서, 관심대상의 세포 유형에는 "형질전환체(transformants)" 및 "형질전환된 세포"를 포함하고, 여기에는 원발성 형질변형된 세포 및 계대 횟수에 관계없이, 이로부터 유래된 자손이 포함된다.

단순한 시나리오에서, 주어진 후보 조절 요소 ("조절 요소 A")는 전이유전자의 발현을 동일한 세포 유형에서 또다른 조절 요소 ("조절 요소 B") 보다, 특정 세포 유형에서 더 높은 수준으로 구동시키는 것이 결정될 수 있다. 그러한 시나리오에서, 조절 요소 A는 특정 세포 유형에서 이식유전자의 발현 가능에 있어서 조절 요소 B와 비교하여 더 선택적인 것으로 간주될 것이다. 또 다른 간단한 시나리오에서, 주어진 조절 요소 A는 동일한 세포 유형의 다른 조절 요소 B보다 특정 세포 유형에서 이식유전자의 발현을 더 낮은 수준으로 유도하도록 결정될 수 있다. 일부 경우들에서, 조절 요소 A는 상이한 많은 세포 유형의 주어진 조직 (가령, 뉴런 조직)에 걸쳐 광범위한 전이유전자의 발현을 가능하게 할 수 있다. 일부 구체예들에서, 조절 요소 B는 주어진 조직의 표적 세포의 별개 집단 안에 전이유전자 발현을 가능하게 할 수 있다 (예를 들면, 상기 조절 요소 B는 전이유전자를 발현시크는 전체 세포 수 대비 해당 전이유전자를 발현시키는 표적 세포의 비율을 더 높게 제공한다). 이 시나리오에서, 상기 조절 요소 B는 더욱 제한된 세포 유형(들)의 하위집단에서 해당 전이유전자의 발현 가능에 있어서 조절 요소 A와 비교하여 더 선택적인 것으로 간주될 것이며, 이것은 가령, 표적을 벗어난 이벤트를 감소시키는데 유익할 것이다. 상기 단순화된 예시 시나리오에서 선택성을 결정하기 위한 비교는 상호 배타적이지 않다.

일부 구체예들에서, 조절 요소의 특정 용도 및/또는 특정 치료 목적을 달성하기 위해 다중 비교를 고려할 수 있다. 일부 구체예들에서, 특정 치료 목적에 적합한 조절 요소는 주어진 세포 유형에서 최고 또는 최저 수준의 발현을 제공할 필요는 없다. 본원에 상세히 기술된 바와 같이, 후보 조절 요소에 의해 구동되는 발현의 선택성은 다양한 방식으로 측정 및 결정될 수 있다.

한 측면에서, 본 방법들을 이용하여 전이유전자 (가령, 리포터 유전자)에 작동가능하도록 연계된 후보 조절 요소들의 풀(pool)로부터 관심대상의 세포 유형 안에 해당 전이유전자의 임의의 검출가능한 발현을 허용하는 조절 요소(들)을 스크리닝하고, 이를 식별해낼 수 있다. 즉, 관심대상의 세포 유형 안에 주어진 후보 조절 요소에 작동가능하도록 연계된 전이유전자의 임의의 검철가능한 발현은 상기 조절 요소는 관심대상의 세포 유형 안에서 임의의 전이유전자의 발현을 구동하는데 이용될 수 있음을 나타낸다. 예를 들면, PV 세포 안에서 전이유전자 (가령, 리포터 유전자)의 발현을 구동시키는 것으로 식별된 조절 요소는 관심대상 전이유전자의 발현을 구동시키기 위해 PV 세포에서 식별된 조절 요소를 이용할 수 있음을 나타낸다. 일부 구체예들에서, 상기 전이유전자의 발현 수준은 참조 발현 수준과 비교될 필요는 없고; 조절 요소에 작동가능하도록 연계된 전이유전자의 발현의 임의의 탐지가능한 수준은 상기 조절 요소가 주어진 세포 유형에서 선택적 발현을 제공한다는 것을 나타낸다. 따라서, 일부 구체예들에서, 상기 식별된 조절 요소는 하나의 세포 유형에서 해당 전이유전자의 발현을 또다른 세포 유형과 비교하였을 때 (이 경우 발현이 없거나, 낮은 발현이 탐지됨) 선택적으로 전이유전자 발현을 구동시킨다. 일부 구체예들에서, 상기 식별된 조절 요소는 또다른 후보 조절 요소 (동일한 세포 유형에서 해당 전이유전자의 발현을 구동시키지 않음)과 비교하였을 때, 하나의 세포 유형에서 해당 전이유전자의 발현을 선택적으로 구동시킨다.

일부 측면들에서, 본원에 기술된 방법을 이용하여 전이유전자(가령, 리포터 유전자)에 작동가능하도록 연계된 보 조절 요소들의 풀로부터 동일한 세포 유형에서 해당 전이유전자의 참조 발현 수준과 비교하였을 때 해당 전이유전자의 선택적 발현(가령, 증가된 또는 감소된 발현)을 허용하는 조절 요소(들)을 스크리닝하고, 이를 식별해낼 수 있다. 일부 구체예들에서, 해당 전이유전자의 참조 발현 수준은 대조군 조절 요소에 의해 제공되는 전이유전자 발현 수준이다. 당업자는 당분야에 다수의 예시적인 대조군 조절 요소들 (가령, CBA)을 인지한다. 일부 구체예들에서, 대조군 조절 요소는 자연적으로 생성된 조절 요소 (가령, CBA)이다. 일부 구체예들에서, 해당 전이유전자의 참조 발현 수준은 동일한 세포 유형에서 또다른 후보 조절 요소에 제공된 전이유전자 발현 수준이다. 일부 구체예들에서, 해당 전이유전자의 참조 발현 수준은 동일한 세포 유형에서 범-세포성 조절 요소에 의해 제공되는 전이유전자 발현 수준이다. 범-세포성 조절 요소의 예로는 본원에서 기술된 바와 같이, 가령, 사이토메갈로바이러스 주요-즉시 초기 프로모터(CMV), 닭 β-액틴 프로모터(CBA), CMV 초기 인핸서/CBA 프로모터(CAG), 신장 인자-1α 프로모터(EF1α), 원숭이 바이러스 40 프로모터(SV40), 포스포글리세레이트 키나제 프로모터(PGK) 및 폴리유비퀴틴 C 유전자 프로모터(UBC)가 내포된다. 예를 들면, 관심대상의 세포 유형에서 후보 조절 요소의 선택성은 하나의 세포 유형에서 해당 조절 요소에 의해 제공되는 발현 수준을 동일한 세포 유형에서 에 대해, 동일한 세포 유형에서 하나 또는 그 이상의 상이한 후보 조절 요소들에 의해 구동되는 발현 수준과 비교함으로써 결정될 수 있다. 일부 구체예들에서, 상기 조절 요소는 동일한 세포 유형에서 참조 발현 수준 (가령, 또다른 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준; 범-세포성 조절 요소에 의해 제공된 전이유전자의 발현 수준)과 비교하였을 때, 적어도 1.2-배, 적어도 1.4-배, 적어도 1.6-배, 적어도 1.8-배, 적어도 2-배, 적어도 3-배 적어도 4-배, 적어도 5-배, 적어도 6-배, 적어도 7-배, 적어도 8-배, 적어도 9-배, 적어도 10-배, 적어도 12-배, 적어도 14-배, 적어도 16-배, 적어도 18-배, 적어도 20-배 이상 또는 미만의 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 동일한 세포 유형에서 참조 발현 수준 (가령, 또다른 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준; 범-세포성 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 100%, 적어도 125%, 적어도 150%, 적어도 175%, 적어도 200%, 적어도 250%, 적어도 300%, 적어도 350%, 적어도 400%, 적어도 450%, 또는 적어도 500% 더 큰 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 동일한 세포 유형에서 참조 발현 수준 (가령, 또다른 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준; 수범-세포성 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 적은 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 동일한 세포 유형에서 참조 발현 수준 (가령, 또다른 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준; 범-세포성 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 약 1.5 배, 약 2 배, 약 2.5 배, 약 3 배, 약 3.5 배, 약 4 배, 약 4.5 배, 약 5 배, 약 5.5 배, 약 6 배, 약 6.5 배 약 7 배, 약 7.5 배, 약 8 배, 약 8.5 배, 약 9 배, 약 9.5 배, 또는 약 10 배 더 큰 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 동일한 세포 유형에서 참조 발현 수준 (가령, 또다른 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준; 범-세포성 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 약 1.5 배, 약 2 배, 약 2.5 배, 약 3 배, 약 3.5 배, 약 4 배, 약 4.5 배, 약 5 배, 약 5.5 배, 약 6 배, 약 6.5 배 약 7 배, 약 7.5 배, 약 8 배, 약 8.5 배, 약 9 배, 약 9.5 배, 또는 약 10 배 더 작은 선택적 발현을 제공한다.

일부 측면들에서, 본원에 기술된 임의의 방법을 이용하여 전이유전자(가령, 리포터 유전자)에 작동가능하도록 연계된 후보 조절 요소들의 풀로부터 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 작동가능하도록 연계된 동일한 전이유전자의 발현 수준 (참조 발현 수준)과 비교하여, 하나의 세포 유형에서 조절 요소에 작동가능하도록 연계된 전이유전자의 선택적 발현(가령, 증가된 또는 감소된 발현)을 제공하는 조절 요소들을 스크리닝하고, 식별해낼 수 있다. 예를 들면, 관심대상의 세포 유형에서 후보 조절 요소의 선택성은 하나의 세포 유형에서 해당 조절 요소에 의해 제공되는 발현 수준을 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소들에 의해 구동되는 발현 수준과 비교함으로써 결정될 수 있다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 1.2-배, 적어도 1.4-배, 적어도 1.6-배, 적어도 1.8-배, 적어도 2-배, 적어도 3-배 적어도 4-배, 적어도 5-배, 적어도 6-배, 적어도 7-배, 적어도 8-배, 적어도 9-배, 적어도 10-배, 적어도 12-배, 적어도 14-배, 적어도 16-배, 적어도 18-배, 적어도 20-배 더 큰 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 1.2-배, 적어도 1.4-배, 적어도 1.6-배, 적어도 1.8-배, 적어도 2-배, 적어도 3-배 적어도 4-배, 적어도 5-배, 적어도 6-배, 적어도 7-배, 적어도 8-배, 적어도 9-배, 적어도 10-배, 적어도 12-배, 적어도 14-배, 적어도 16-배, 적어도 18-배, 적어도 20-배 더 작은 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 100%, 적어도 125%, 적어도 150%, 적어도 175%, 적어도 200%, 적어도 250%, 적어도 300%, 적어도 350%, 적어도 400%, 적어도 450%, 또는 적어도 500% 더 큰 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 더 작은 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 약 1.5 배, 약 2 배, 약 2.5 배, 약 3 배, 약 3.5 배, 약 4 배, 약 4.5 배, 약 5 배, 약 5.5 배, 약 6 배, 약 6.5 배 약 7 배, 약 7.5 배, 약 8 배, 약 8.5 배, 약 9 배, 약 9.5 배, 또는 약 10 배 더 큰 선택적 발현을 제공한다. 일부 구체예들에서, 상기 조절 요소는 참조 발현 수준 (가령, 하나 또는 그 이상의 상이한 세포 유형에서 동일한 조절 요소에 의해 제공되는 전이유전자의 발현 수준)과 비교하였을 때, 약 1.5 배, 약 2 배, 약 2.5 배, 약 3 배, 약 3.5 배, 약 4 배, 약 4.5 배, 약 5 배, 약 5.5 배, 약 6 배, 약 6.5 배 약 7 배, 약 7.5 배, 약 8 배, 약 8.5 배, 약 9 배, 약 9.5 배, 또는 약 10 배 더 작은 선택적 발현을 제공한다.

일부 구체예들에서, 조절 요소에 작동가능하도록 연계된 전이유전자 발현의 선택성은 세포 집단 (가령, 조직 안에서) 안에서 전이유전자를 발현시키는 특정 관심대상의 세포 유형 (관심대상의 가상적 세포 유형 "Cell X")의 비율을 측정하는 방법에 의해 결정될 수 있다. 일부 구체예들에서, 이 비율의 결정에는 전이유전자 발현의 수준 또는 크기 측정이 포함되지 않고; 오히려, 그러한 구체예에서, 세포에서 임의의 검출가능한 발현이 비율에 기여한다. 일부 구체예들에서, 후보 조절 요소에 작동가능하도록 연계된 전이유전자 발현의 선택성은 세포 집단에서 (가령, 조직 안에서) 해당 전이유전자의 사전-결정된 임계값 수준 (가령, 탐지가능한 수준)을 발현시키는 Cell X 세포의 수를 동일한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 전체 세포 수에 비교함으로써, 측정될 수 있다. 일부 구체예들에서, 이러한 "비율"은 전이유전자-발현시키는 Cell X 세포의 수 대비 해당 세포 집단에서 전이유전자-발현시키는 세포의 총 수 (Cell X + 비-Cell X 세포)로 산출되며, 이때 상기 전이유전자는 해당 세포 집단내 모든 세포에서 동일한 조절 요소에 작동가능하도록 연계된다. 예를 들면, 뉴런 조직에서 다른 비-PV 세포와 비교하여GABAergic 뉴런, 이를 테면, PV 뉴런에서 조절 요소에 작동가능하도록 연계된 전이유전자 (가령, GFP를 인코딩하는 전이유전자)의 선택적 발현은 탐지가능한 수준의 해당 전이유전자를 발현시키는 (가령, GFP 전이유전자를 발현시키는) PV 세포의 수를 이 뉴런 조직 안에서 동일한 조절 요소 A의 제어 하에서 GFP를 발현시키는 세포의 전체 수와 비교함으로써 측정될 수 있다 (예를 들면, GFP를 발현시키는 PV의 비율 대비 전체 세포 (PV + 비-PV 세포)의 비율). 이러한 측정, 검출, 그리고 정량화는 본원에서 기술된 분석 방법에 따라 생체내 또는 시험관내에서 실행될 수 있다. 예를 들면, 본원에서 상술된 분석 방법을 이용하여, GFP를 발현시키는 세포들을 분리 및 단리시킬 수 있고, 각 단리된 세포의 실체가 결정되며 (가령, PV 뉴런 대비 비-PV 세포), 그리고 후보 조절 요소의 제어 하에서 GFP-발현시키는 PV 뉴런의 수와 동일한 조절 요소의 제어 하에 GFP-발현시키는 비-PV 뉴런의 수를 정량화시킬 수 있다. 일부 구체예들에서, 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 전체 세포 수에 대비하여 동일한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 Cell X 세포 수의 비율이 더 높다면 (예를 들면, 이 비율이 높을 수록), Cell X에 대핸 상기 조절 요소의 선택성은 더 크다.

일부 구체예들에서, 세포 유형에서 조절 요소의 선택성은 면역조직화학-기반의 공동-국소화 분석을 이용하여 결정되거나, 또는 실증될 수 있다. 일부 구체예들에서, 상기 분석은 다음을 이용한다: a) 전이유전자 발현을 측정하기 위해, 조절 요소에 작동가능하도록 연계된 전이유전자 (가령, GFP를 인코딩하는 전이유전자), 그리고 b) 표적 세포 유형에 특이적인 마커를 식별해내는 결합제 (가령, 항체), 이때 해당 결합제는 검출가능한 라벨에 연계된다. 예를 들면, 일부 구체예들에서, 세포 유형에 대한 선택성은 다음을 이용한 면역조직화학-기반의 공동-국소화 분석에 의해 결정되거나, 또는 실증될 수 있다: a) 전이유전자 발현을 측정하기 위해, 조절 요소에 작동가능하도록 연계된전이유전자 (가령, GFP를 인코딩하는 전이유전자), 그리고 b) 관심대상의 세포 유형을 식별해내기 위한 제 2 형광 라벨 (가령, 적색 형광 단백질)에 연계된 항체 (가령, 특히 PV 뉴런과 상호작용하는 항-PV 항체). 세포 유형에서 유전자 발현의 선택성은 세포 유형 (가령, PV 세포)에도 포지티브한 GFP 포지티브 세포(가령, 전체 세포)의 백분율로 측정된다. 이러한 분석에서, GFP 포지티브이기도 한 관심대성의 포지티브 양성 세포 유형은 두 가지 형광 신호의 공동- 국소화, 즉 적색 형광과 녹색 형광의 중첩으로 나타난다. 이러한 측정, 분석 및/또는 탐지는 시각적 점검에 의해, 또는 컴퓨터로 수행할 수 있다.

일부 구체예들에서, 상기 "비율"은 본원에서 기술된 바와 같이, 후보 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 Cell X 수를 동일한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 세포의 총 수 (예를 들면, Cell X 세포 및 비-Cell X 세포)로 나누고, 여기에 100을 곱하여 백분율로 전환시킴으로써, 산출될 수 있다. 일부 구체예들에서, 만약 조절 요소에 작동가능하도록 연계된 전이유전자 A를 발현시키는 세포의 전체 수에서 약 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 99% 이상이 Cell X 세포인 경우, 조절 요소 A는 Cell X에 대해 선택적이다.

일부 구체예들에서, 상기에서 기술된 바와 같이, 상기 비율(또는 백분율)은 조절 요소를 이용하여 Cell X 세포에 대해 결정하고, 하나 또는 그 이상의 상이한 조절 요소들을 이용하여 Cell X 세포에 대해 결정된 비율(또는 백분율)에 이를 비교한다. 예를 들면, 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)는 상이한 조절 요소에 작동가능하도록 연계된 동일한 전이유전자를 발현시키는 Cell X 세포의 백분율보다 더 높은 경우, 이 조절 요소는 Cell X에서의 발현에 대해 선택적이다. 일부 구체예들에서, 상기 상이한 조절 요소는 참조 조절 요소다. 일부 구체예들에서, 상기 상이한 조절 요소는 본원에서 기술된 바와 같이, 가령, 사이토메갈로바이러스 주요-즉시 초기 프로모터(CMV), 닭 β-액틴 프로모터(CBA), CMV 초기 인핸서/CBA 프로모터(CAG), 신장 인자-1α 프로모터(EF1α), 원숭이 바이러스 40 프로모터(SV40), 포스포글리세레이트 키나제 프로모터(PGK) 및 폴리유비퀴틴 C 유전자 프로모터(UBC)가 내포된다. 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)이 발현시키는 상기 전이유전자는 상이한 조절 요소에 작동가능하도록 연계된 동일한 전이유전자를 발현시키는 Cell X 세포의 백분율보다 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 100%, 적어도 125%, 적어도 150%, 적어도 175%, 적어도 200%, 적어도 250%, 적어도 300%, 적어도 350%, 적어도 400%, 적어도 450%, 또는 적어도 500% 더 높거나, 또는 적어도 1-5%, 5%-10%, 10-15%, 15-20%, 20-25%, 25-30%, 30-35%, 35-40%, 40-45%, 45-50%, 50-55%, 55-60%, 65-70%, 70-75%, 75-80%, 80-85%, 85-90%, 90-95%, 100-125%, 125-150%, 150-200%, 200-250%, 250-300%, 300-350%, 350-400%, 400-450%, 또는 450-500% 더 높을 때, Cell X에서 해당 조절 요소는 선택적 발현을 제공한다. 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)이 발현시키는 상기 전이유전자는 상이한 조절 요소에 작동가능하도록 연계된 동일한 전이유전자를 발현시키는 Cell X 세포의 백분율보다 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 더 적거나, 또는 적어도 1-5%, 5%-10%, 10-15%, 15-20%, 20-25%, 25-30%, 30-35%, 35-40%, 40-45%, 45-50%, 50-55%, 55-60%, 65-70%, 70-75%, 75-80%, 80-85%, 85-90%, 또는 90-95% 더 적을 때, Cell X에서 해당 조절 요소는 선택적 발현을 제공한다. 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)이 적어도 1.5-배, 적어도 2-배, 적어도 3-배, 적어도 4-배, 적어도 5-배, 적어도 6-배, 적어도 7-배, 적어도 8-배, 적어도 9-배, 적어도 10-배, 적어도 15-배, 적어도 20-배, 적어도 25-배, 또는 적어도 50-배 더 높을 때, Cell X에서 해당 조절 요소는 선택적 발현을 제공한다. 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)이 적어도 1.5-배, 적어도 2-배, 적어도 3-배, 적어도 4-배, 적어도 5-배, 적어도 6-배, 적어도 7-배, 적어도 8-배, 적어도 9-배, 적어도 10-배, 적어도 15-배, 적어도 20-배, 적어도 25-배, 또는 적어도 50-배 더 낮을 때, Cell X에서 해당 조절 요소는 선택적 발현을 제공한다. 일부 구체예들에서, 전이유전자를 발현시키는 Cell X 세포의 백분율 (가령, Cell X 세포/전체 Cell X 100)이 상이한 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 Cell X 세포의 백분율보다 적어도 1.1, 1.2, 1.3, 1.4, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 또는 100 배 더 높을 때, Cell X에서 해당 조절 요소는 선택적 발현을 제공한다.

일부 구체예들에서, Cell X에서 선택적 발현을 제공하는 조절 요소는 또한 높은 수준의 활성을 갖는다. 특정 구체예들에서, Cell X에서 선택적 발현을 제공하는 조절 요소는 상기 조절 요소가 없거나, 상이한 조절 요소 (참조 조절 요소)를 갖는 Cell X 세포에서 동일한 구조체의 발현 수준과 비교하였을 때, 적어도 2, 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 또는 더 높은-배수로 Cell X 세포에서 전이유전자의 발현을 증가시킨다. 일부 구체예들에서, Cell X에서 선택적 발현을 제공하는 조절 요소는 상기 조절 요소가 없거나, 상이한 조절 요소 (참조 조절 요소)를 갖는 Cell X 세포에서 동일한 구조체의 발현 수준과 비교하였을 때, 적어도 1.5%, 2%, 5%, 10%, 15%, 20%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100%로 유전자 발현을 증가시킨다. 일부 구체예들에서, Cell X에서 선택적 발현을 제공하는 조절 요소는 Cell X와는 상이한 세포 유형에서 동일한 구조체의 발현 수준과 비교하였을 때 Cell X 세포에서 적어도 1.5%, 2%, 5%, 10%, 15%, 20%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100% 유전자 발현을 증가시킨다. 일부 구체예들에서, 조절 요소는 동일한 조절 요소에 작동가능하도록 연계된 동일한 전이유전자를 발현시키는 상이한 세포에서 발현의 증가량과 비교하였을 때, Cell X 세포에서 전이유전자의 발현을 적어도 1.5%, 2%, 5%, 10%, 15%, 20%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100% 증가시킨다. 일부 구체예들에서, 조절 요소는 상이한 조절 요소 (가령, 참조 조절 요소 또는 범-세포의 조절 요소)에 작동가능하도록 연계된 동일한 전이유전자를 발현시키는 Cell X 세포에서 발현 증가량과 비교하였을 때, Cell X 세포에서 전이유전자의 발현을 적어도 1.5%, 2%, 5%, 10%, 15%, 20%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 100% 증가시킨다.

일반적으로, 발현의 증가 또는 감소는 전사 수준에서 또는 전사-후 수준에서 일어날 수 있으며, 전사 또는 전사-후 산물이 측정될 수 있다. 예를 들면, 전사 수준에서, 조절 요소는 전사 인자, 및/또는 RNA 중합효소를 모집하고, 전사의 개시를 증가시키거나, 또는 전사 수준을 증가시킨 DNA 및/또는 히스톤 변형을 모집함으로써 발현을 증가시킬 수 있다. 발현의 증가 또는 감소는 전이유전자를 대표하는 RNA 전사체의 양의 증가 또는 감소를 측정함으로써 탐지될 수 있다. 전사-후 수준에서, 조절 요소는 단백질로 해독되는 RNA의 양 또는 그 속도를 증가시킴으로써, 발현을 증가시킬 수 있다. 이것은 예를 들어, mRNA의 안정성을 증가시키거나 또는 해독에 필요한 단백질의 모집 및 조립을 증가시킴으로써 다양한 메커니즘을 통해 달성될 수 있다. 단백질 발현의 이러한 증가 또는 감소는 전이유전자를 대표하는 발현된 단백질의 양을 측정함으로써 탐지될 수 있다. 생성된 단백질의 양은 예를 들어, 효소 연계된 면역흡착 분석 (ELISA)에 의해 직접적으로, 또는 예를 들어, 기능 분석에 의해 간접적으로 측정될 수 있다.

상기에서 설명한 방법을 사용하여, 확인된 다양한 REs의 선택성은 특정 세포 유형에서 선택적 유전자 발현에 대해 추가로 테스트 및 검증될 수 있다. 예를 들면, GABAergic 뉴런 이를 테면, PV, SST, 또는 VIP 뉴런에서 면역조직화학 방법을 이용하여 선택적 유전자 발현에 대해 테스트될 수 있다. GABAergic 뉴런은 마커, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 및 VIP의 발현에 의해 식별될 수 있다. 대안으로, REs는 다른 세포 유형, 이를 테면, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런 또는 기타 CNS 세포, 상피 세포, 심근세포, 또는 간세포, 또는 신체의 임의의 다른 세포 유형에서 선택적 유전자 발현에 대해 테스트될 수 있다. 관심대상의 세포 또는 세포 유형에서 조절 요소에 의해 구동되는 발현의 선택성은 다양한 방식으로 측정될 수 있다. 비-표적 세포 유형과 대비하여 표적 세포 유형에서 유전자 발현의 선택성은 하나 또는 그 이상의 조절 요소에 작동가능하도록 연계된 탐지가능한 수준의 전사체를 발현시키는 표적 세포의 수를 해당 유전자를 발현시키는 세포들의 총 수에 비교함으로써 측정될 수 있다. 이러한 측정, 검출 및 정량화는 생체 내 또는 시험관 내에서 수행할 수 있다.

일부 경우들에서, 하나 또는 그 이상의 조절 요소에 작동가능하도록 연계된 유전자는 형광 단백질, 가령, eGFP 또는 RFP이며, 이때 상기 전이유전자의 발현은 검출가능한 신호를 제공한다. 일부 경우들에서, 조직이 eGFP에 대해 착색되거나, 또는 eGFP의 형광이 형광 현미경을 사용하여 직접 검출된다. 상이한 형광 또는 검출가능한 신호를 갖는 제 2 형광 마커 또는 리포터 유전자는 표적 세포를 표시하는데 이용될 수 있는데, 이를 테면, 해당 표적 세포를 식별해내는 항체가 이용될 수 있다. 예를 들면, 특히, PV 뉴런과 상호작용하는 항-PV 항체를 이용하여 유전자 발현, 이를 테면, 적색 형광 또는 적색 착색을 측정하기 위해 이용되는 형광과는 구별가능한 검출가능한 신호를 만들 수 있다. 따라서, PV 뉴런에서 선택적 발현을 구동시키는 하나 또는 그 이상의 조절 요소에 작동가능하도록 연계된 전이유전자인 실시예에서, 이때 PV 뉴런은 항-PV 항체로 라벨되며, PV 세포에서 유전자 발현의 선택성은 PV+인 eGFP+ 세포의 백분율로 측정된다. 이러한 분석에서, eGFP+이기도 한 PV+ 세포는 두 형광 신호의 중첩, 예를 들면, 적색 형광과 녹색 형광의 중첩으로 나타난다. 이러한 측정, 분석 및/또는 탐지는 시각적 점검에 의해, 또는 컴퓨터로 수행할 수 있다.

일부 경우들에서, 전이유전자에 작동가능하도록 연계된 하나 또는 그 이상의 조절 요소들의 선택성을 평가하기 위해 해당 전이유전자를 발현시키는 비-표적 세포 유형(또는 다른 세포)의 비율과 비교하여, 해당 전이유전자를 발현시키는 관심대상의 세포 유형 (또는 표적 세포 유형)의 비율을 또한 측정할 수 있다. 유사하게, 발현의 선택성은 하나 또는 그 이상의 조절 요소에 작동가능하도록 연계된 전이유전자를 발현시키는 표적 세포의 수를 해당 전이유전자를 발현시키는 모든 세포의 총 수에 비교함으로써 또한 측정될 수 있다. 두 방식 모두에서, 해당 전이유전자를 발현시키는 표적 세포의 수가 높을 수록, 해당 표적 세포에 대한 이 조절 요소의 선택성이 더 크다. 일부 경우들에서, 상기 표적 세포는 PV 뉴런이다.

상기 단일 핵 다중 분석의 대안적 응용

특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 관심대상 세포에서 AAV 형질도입을 측정한다. 이러한 구체예들에서, 상기 다중 분석을 이용하여 관심대상의 세포로 관심대상의 특이적 바이러스, 이를 테면, 특이적 AAV 혈청형, 재조합 또는 공작된 AAV, 또는 특이적 렌티바이러스 균주의 형질도입을 측정할 수 있다. 특정 구체예들에서, 상기 다중 분석을 이용하여 다음으로 구성된 군에서 선택된 AAV이 관심대상 세포로의 형질도입을 측정한다: AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10, AAV11, AAV12, rh10, 및 이의 하이브리드, 조류(avian) AAV, 소 AAV, 개의 AAV, 말(equine) AAV, 영장류 AAV, 비-영장류 AAV, 그리고 양(ovine) AAV. 특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 관심대상의 세포 유형, 이를 테면, CNS 세포 (가령, 뉴런, 또는 신경교 세포 이를 테면, 성상세포), 비-CNS 세포 (가령, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런, 또는 다른 CNS 세포), 상피 세포, 심근세포, 또는 간세포로 AAV 형질도입을 측정한다. 특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 GABAergic 뉴런으로 AAV 형질도입을 측정하는데, 이것은 마커 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 및 VIP의 발현에 의해 식별될 수 있다.

특정 구체예들에서, 본 발명의 단일 핵 다중 분석을 이용하여 관심대상의 세포에서 바이러스 형질도입의 증가 또는 감소를 측정함으로써, 관심대상 세포로 이들 바이러스의 형질도입을 증가시키는 새로운 바이러스 캡시드 또는 바이러스 DNA 서열들을 식별해낸다. 예를 들면, 신규한 바이러스 캡시드 변이체 또는 바이러스 DNA 서열들의 라이브러리를 스크리닝하여 관심대상 세포로 바이러스 형질도입 (가령, AAV 또는 렌티바이러스)을 증가시키는 캡시드 또는 바이러스 DNA 서열들을 식별할 수 있다. 일부 경우들에서, 캡시드 또는 DNA 서열은 관심대상의 세포 유형, 이를 테면, CNS 세포 (가령, 뉴런, 또는 신경교 세포 이를 테면, 성상세포), 비-CNS 세포 (가령, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런, 또는 다른 CNS 세포), 상피 세포, 심근세포, 또는 간세포로 바이러스 형질도입을 증가시킨다. 특정 경우들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 GABAergic 뉴런, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런으로 AAV 형질도입을 증가시키는 캡시드 또는 DNA 서열을 식별해낸다.

다른 구체예들에서, 예를 들면, 신규한 바이러스 캡시드 변이체 또는 바이러스 DNA 서열들의 라이브러리를 스크리닝하여 관심대상 세포로 바이러스 형질도입 (가령, AAV 또는 렌티바이러스)을 감소 또는 억제시키는 바이러스 캡시드 또는 바이러스 DNA 서열들을 식별할 수 있다. 예를 들면, 캡시드 또는 DNA 서열은 관심대상의 세포 유형, 이를 테면, CNS 세포 (가령, 뉴런, 또는 신경교 세포 이를 테면, 성상세포), 비-CNS 세포 (가령, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런, 또는 다른 CNS 세포), 상피 세포, 심근세포, 또는 간세포로 바이러스 형질도입을 감소 또는 억제시킨다. 특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 GABAergic 뉴런, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런으로 AAV 형질도입을 감소 또는 억제시키는 캡시드 또는 DNA 서열을 식별해낸다.

또다른 구체예에서, 본 발명의 단일 핵 다중 분석을 이용하여 바이러스 (가령, AAV, 렌티바이러스, HSV, 등등)에 의해 관심대상 세포로 형질도입되는 전이유전자의 해독을 조절하는 인자를 식별해낸다. 예를 들면, 후보 인자들의 라이브러리는 바이러스 (가령, AAV, 렌티바이러스, HSV, 등등)에 의해 관심대상 세포로 형질도입되는 전이유전자의 해독을 증가 또는 감소시키는 인자를 식별해낸다. 한 구체예에서, 인자는 관심대상의 세포, 이를 테면, 이를 테면, CNS 세포 (가령, 뉴런, 또는 신경교 세포 이를 테면, 성상세포), 비-CNS 세포 (가령, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런, 또는 다른 CNS 세포), 상피 세포, 심근세포, 또는 간세포로 형질도입되는 전이유전자의 해독을 증가 또는 감소시킨다. 특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 GABAergic 뉴런, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런으로 형질도입되는 전이유전자의 해독을 증가 또는 감소시키는 인자를 식별해낸다.

또다른 구체예에서, 본 발명의 단일 핵 다중 분석을 이용하여 관심대상 세포에서 바이러스 (가령, AAV) 제 2 가닥 합성을 용이하게 하는 바이러스 DNA 서열들을 식별해낸다. 예를 들면, 신규한 바이러스 DNA 서열들의 라이브러리를 스크리닝하여 관심대상 세포에서 AAV 제 2 가닥 합성을 증가 또는 감소시키는 DNA 서열들을 식별해낸다. 예를 들면, DNA 서열은 관심대상 세포 유형, 이를 테면, CNS 세포 (가령, 뉴런, 또는 신경교 세포 이를 테면, 성상세포), 비-CNS 세포 (가령, 흥분성 뉴런, 성도파민활 뉴런, 소교세포, 운동 뉴런, 맥관 세포, 비-GABAergic 뉴런, 또는 다른 CNS 세포), 상피 세포, 심근세포, 또는 간세포에서 AAV 제 2 가닥 합성을 증가 또는 감소시킨다. 특정 구체예들에서, 본원에서 기술된 단일 핵 다중 분석을 이용하여 GABAergic 뉴런, 이를 테면, 글루탐산 탈탄산효소 2 (GAD2), GAD1, NKX2.1, DLX1, DLX5, SST, PV 또는 VIP를 발현시키는 GABAergic 뉴런에서 AAV 제2 가닥 합성을 증가 또는 감소시키는 바이러스 DNA 서열을 식별해낸다.

또다른 구체예에서, 본 발명의 단일 핵 다중 분석을 이용하여 관심대상의 기능 단백질, 이를 테면, 기능적 단백질 작동체에 반응하여 관심대상 세포에서 유전자 발현을 측정한다. 이러한 구체예에서, 단백질의 라이브러리는 관심대상 세포에서 측정된 각 특유의 단백질에 반응하여 하나 또는 그 이상의 세포, 그리고 유전자 발현에 추가될 수 있다. 치료요법적 반응, 세포 경로 신호전달 반응, 표적을 벗어난 유전자 조절, 면역 반응, 등등에 있어서 이라이브러리의 하나 또는 그 이상의 단백질에 반응하여 유전자 발현이 분석될 수 있다.

서열

서열 식별 번호: 1

TCAACAGGGGGACACTTGGGAAAGAAGGATGGGGACAGAGCCGAGAGGACTGTTACACATTAGAGAAACATCAGTGACTGTGCCAGCTTTGGGGTAGACTGCACAAAAGCCCTGAGGCAGCACAGGCAGGATCCAGTCTGCTGGTCCCAGGAAGCTAACCGTCTCAGACAGAGCACAAAGCACCGAGACATGTGCCACAAGGCTTGTGTAGAGAGGTCAGAGGACAGCGTACAGGTCCCAGAGATCAAACTCAACCTCACCAGGCTTGGCAGCAAGCCTTTACCAACCCACCCCCACCCCACCCACCCTGCACGCGCCCCTCTCCCCTCCCCATGGTCTCCCATGGCTATCTCACTTGGCCCTAAAATGTTTAAGGATGACACTGGCTGCTGAGTGGAAATGAGACAGCAGAAGTCAACAGTAGATTTTAGGAAAGCCAGAGAAAAAGGCTTGTGCTGTTTTTAGAAAGCCAAGGGACAAGCTAAGATAGGGCCCAAGTAATGCTAGTATTTACATTTATCCACACAAAACGGACGGGCCTCCGCTGAACCAGTGAGGCCCCAGACGTGCGCATAAATAACCCCTGCGTGCTGCACCACCTGGGGAGAGGGGGAGGACCACGGTAAATGGAGCGAGCGCATAGCAAAAGGGACGCGGGGTCCTTTTCTCTGCCGGTGGCACTGGGTAGCTGTGGCCAGGTGTGGTACTTTGATGGGGCCCAGGGCTGGAGCTCAAGGAAGCGTCGCAGGGTCACAGATCTGGGGGAACCCCGGGGAAAAGCACTGAGGCAAAACCGCCGCTCGTCTCCTACAATATATGGGAGGGGGAGGTTGAGTACGTTCTGGATTACTCATAAGACCTTTTTTTTTTCCTTCCGGGCGCAAAACCGTGAGCTGGATTTATAATCGCCCTATAAAGCTCCAGAGGCGGTCAGGCACCTGCAGAGGAGCCCCGCCGCTCCGCCGACTAGCTGCCCCCGCGAGCAACGGCCTCGTGATTTCCCCGCCGATCCGGTCCCCGCCTCCCCACTCTGCCCCCGCCTACCCCGGAGCCGTGCAGCCGCCTCTCCGAATCTCTCTCTTCTCCTGGCGCTCGCGTGCGAGAGGGAACTAGCGAGAACGAGGAAGCAGCTGGAGGTGACGCCGGGCAGATTACGCCTGTCAGGGCCGAGCCGAGCGGATCGCTGGGCGCTGTGCAGAGGAAAGGCGGGAGTGCCCGGCTCGCTGTCGCAGAGCCGAGGTGGGTAAGCTAGCGACCACCTGGACTTCCCAGCGCCCAACCGTGGCTTTTCAGCCAGGTCCTCTCCTCCCGCGGCTTCTCAACCAACCCCATCCCAGCGCCGGCCACCCAACCTCCCGAAATGAGTGCTTCCTGCCCCAGCAGCCGAAGGCGCTACTAGGAACGGTAACCTGTTACTTTTCCAGGGGCCGTAGTCGACCCGCTGCCCGAGTTGCTGTGCGACTGCGCGCGCGGGGCTAGAGTGCAAGGTGACTGTGGTTCTTCTCTGGCCAAGTCCGAGGGAGAACGTAAAGATATGGGCCTTTTTCCCCCTCTCACCTTGTCTCACCAAAGTCCCTAGTCCCCGGAGCAGTTAGCCTCTTTCTTTCCAGGGAATTAGCCAGACACAACAACGGGAACCAGACACCGAACCAGACATGCCCGCCCCGTGCGCCCTCCCCGCTCGCTGCCTTTCCTCCCTCTTGTCTCTCCAGAGCCGGATCTTCAAGGGGAGCCTCCGTGCCCCCGGCTGCTCAGTCCCTCCGGTGTGCAGGACCCCGGAAGTCCTCCCCGCACAGCTCTCGCTTCTCTTTGCAGCCTGTTTCTGCGCCGGACCAGTCGAGGACTCTGGACAGTAGAGGCCCCGGGACGACCGAGCTG

서열 식별 번호: 2

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGTTCATCACAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCTGCTTCAGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGGACTCAGCT

서열 식별 번호: 3

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGTAGCAGCCAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCTGCCAGCGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGCTTACTAGC

서열 식별 번호: 4

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGCAGTAGTCAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCCGCTAGTGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGTCAGGAATC

서열 식별 번호: 5

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGCTCGTCGCAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCCGCCTCGGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGAGACAGGTA

서열 식별 번호: 6

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGATCTTCTCAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCAGCATCTGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGGATTCTCAG

서열 식별 번호: 7

GAGGAGGAGGAGGAGACAGACAGCAGGATGCCCCACCTCGACAGCCCCGGGTCCTCCCAACCGAGACGCTCCTTCCTCTCAAGGGTGATCAGGGCAGCTCTACCGTTGCAGCTGCTTCTGCTGCTGCTGCTGCTCCTGGCCTGCCTGTTGCCGGCGTCCGAGGATGACTACAGCTGCACCCAGGCCAACAACTTTGCCCGATCCTTCTACCCCATGCTGCGGTACACCAACGGGCCACCTCCCACCTAGCAGATACCA

서열 식별 번호: 8: CCCCTGGTT

서열 식별 번호: 9: GGTTCATCACAA

서열 식별 번호: 10: TTGCCTGCTTCAGAG

서열 식별 번호: 11: CTAACGGTT

서열 식별 번호: 12: GTGGATTCT

서열 식별 번호: 13: GGTAGCAGCCAA

서열 식별 번호: 14: TTGCCTGCCAGCGAG

서열 식별 번호: 15: CTTTCTCTC

서열 식별 번호: 16: GGTGGTACT

서열 식별 번호: 17: GGCAGTAGTCAA

서열 식별 번호: 18: TTGCCCGCTAGTGAG

서열 식별 번호: 19: TCCCATCAT

서열 식별 번호: 20: GGTTCCTTC

서열 식별 번호: 21: GGCTCGTCGCAA

서열 식별 번호: 22: TTGCCCGCCTCGGAG

서열 식별 번호: 23: AAGTTGGCG

서열 식별 번호: 24: GGTGGTACT

서열 식별 번호: 25: GGATCTTCTCAA

서열 식별 번호: 26: TTGCCAGCATCTGAG

서열 식별 번호: 27: TCCCATCAT

서열 식별 번호: 28: GGAGGCAAG

서열 식별 번호: 29: GGGTCCTCCCAA

서열 식별 번호: 30: TTGCCGGCGTCCGAG

서열 식별 번호: 31: CATCAATCG

서열 식별 번호: 32: TCGCAATCT

서열 식별 번호: 33: GGTTCGTCGCAG

서열 식별 번호: 34: CTCCCTGCATCGGAA

서열 식별 번호: 35: ACGGCTACA

서열 식별 번호: 36: CGCTACCAG

서열 식별 번호: 37: GGTTCTTCTCAG

서열 식별 번호: 38: CTCCCTGCTTCTGAA

서열 식별 번호: 39: GCGTCGTAA

서열 식별 번호: 40: ACAACACCT

서열 식별 번호: 41: GGCTCCTCCCAG

서열 식별 번호: 42: CTCCCCGCATCCGAA

서열 식별 번호: 43: ATGACGACC

서열 식별 번호: 44: AAAGTCCCG

서열 식별 번호: 45: GGCTCATCACAG

서열 식별 번호: 46: CTCCCCGCGTCAGAA

서열 식별 번호: 47: TCTCATCCG

서열 식별 번호: 48: GACTTCTCT

서열 식별 번호: 49: GGAAGCAGCCAG

서열 식별 번호: 50: CTCCCAGCCAGCGAA

서열 식별 번호: 51: TCCACGGTT

서열 식별 번호: 52: ACTCCAACT

서열 식별 번호: 53: GGGAGTAGTCAG

서열 식별 번호: 54: CTCCCGGCCAGTGAA

서열 식별 번호: 55: TTCCAGCTC

서열 식별 번호: 56: CAGGCTGAA

서열 식별 번호: 57: GGTAGTTCTCAG

서열 식별 번호: 58: TTGCCTGCATCTGAA

서열 식별 번호: 59: TTCGCATTG

서열 식별 번호: 60: CGTCGATGC

서열 식별 번호: 61: GGCAGCTCCCAA

서열 식별 번호: 62: TTGCCAGCTAGCGAG

서열 식별 번호: 63: GACTCCACT

서열 식별 번호: 64: GTTCGGAAA

서열 식별 번호: 65: GGGAGCTCCCAG

서열 식별 번호: 66: TTGCCGGCAAGTGAG

서열 식별 번호: 67: ACTCCGTCG

서열 식별 번호: 68

AATGATACGGCGACCACCGAGATCTACACTAGATCGCACACTCTTTCCCTACACGACGCTCTTCCGATCT

서열 식별 번호: 69

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGATCCTTCTACCCCATGCTGCGG

서열 식별 번호: 70

CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATC

실시예

이들 실시예는 설명의 목적으로만 제공되며, 여기에 제공된 청구 범위를 제한하지 않는다.

실시예 1

REs의 특이성을 평가하기 위해 생체내 AAV-기반 감염에 있어서 다중 조절 요소들(REs)

개별 조절 요소들의 세포 특이성을 평가하기 위해 생체내 AAV-기반 시스템에서 다중 조절 요소들을 분석하였다. 이 분석으로 세포 특이적 조절 요소들을 식별할 수 있고, 세포 특이적 조절 요소 하에서 각 전이유준자의 발현 크기를 식별해낼 수 있다.

다중화된(multiplexed) RE AAVs의 기획, 생산 및 생체내 테스트

세 가지 조절 요소들을 다중화시키는 시스템의 능력을 테스트하기 위해, 관심대상 전이유전자를 다음 세 가지 후보 REs중 하나에 작동가능하도록 연계하였다: (1) CamKII, (2) CBA 및 (3) 서열 식별 번호: 1 (RE1)의 핵산 서열에 의해 인코드된 조절 요소. 이들 REs는 다음의 이해하에 선택된다: CamKII 프로모터는 흥분성 뉴런에서 선호적 발현을 나타내고, the CBA 프로모터는 산재적(ubiquitous) 발현을 나타내고, 그리고 서열 식별 번호: 1 (RE1)의 핵산 서열에 의해 인코드된 조절 요소는 저해성/파라브알부민(PV) 뉴런에서 선호적인 발현을 나타낸다. 상기 전이유전자는 KASH 핵 테터링(tethering)에 융합된 EGFP 단백질 도메인 (EGFP-KASH)을 인코딩하는 리포터 유전자로 구성되었다. EGFP-KASH 전이유전자에서 KASH의 세 가지 특이적 영역들은 혼합된 풀에서 개별 식별이 허용되도록 서열 변형되었다 (표 1). 이들 서열 변형은 EGFP-KASH의 DNA 및 RNA 서열에만 영향을 주었고, 해당 아미노산 서열을 변형시키지 않았다. 따라서, 해당 서열 변형은 대응 EGFP-KASH 전이유전자 구조체를 구동시키는 주어진 RE의 특유한 바코드 작용을 한다. 상기 바코드화된 전이유전자를 AAV 게놈 백본으로 클론시켰고, 플라스미드는 일시적으로 형질감염된 HEK293 세포에 의해 평가되었으며, EGFP 형광이 평가되었다. 바코딩 전략은 하기 표 1에 나타내며, KASH 서열에서 바코드화된 영역은 굵은 체의 밑줄로 표시된다.

초기 다중화 실험을 설정하려면 (도 1에서 단순화된 도식에서 설명된 바와 같이), 각 RE에 있어서 두 개의 바코드가 할당되었으며, 그리고 플라스미드 믹스는 동량의 각 바코드화된 구조체 (가령, CamKII-EGFP-KASH 바코드 1, CamKII-EGFP-KASH 바코드 2, CBA-EGFP-KASH 바코드 3, CBA-EGFP-KASH 바코드 4, RE1-EGFP-KASH 바코드 5, 그리고 RE1-EGFP-KASH 바코드 6)로 구성되도록 만들었다. 이 믹스 (L1로 지칭됨)를 이용하여 아데노-연합된 바이러스 9 (AAV9)(생체내 운반 비히클로 선택된)를 만들었다. 야생형 (C57Bl6/J) 마우스 (n = 6)에게 등과 복부쪽 해마(4개 주사 부위)로 AAV 벡터를 양측으로 주입하였고, AAV9 L1 (2E14 게놈 카피 (gc)/마우스), 또는 PBS 대조군이다. 주사 4주 후, 동물을 희생시키고, 오른쪽 및 왼쪽 해마를 외과적으로 제거하고, 밤새 4℃에서 RNAlater^TM에 보관했다.

개별 마우스 해마는 핵을 방출하기 위해 수동 도싱(douncing)을 통해 용해 완충액에서 균질화되었다. 농축된, 미정제 핵 조제물을 PBS-기반 세척 및 원심분리에 의해 얻었다. 세포 분류기에서 식별하고, 핵 무결성을 확인하기 위해 핵을 DAPI로 착색했다. 게이팅 전략(gating strategy)을 정의하는 데 사용되는 PBS 주입 대조군 샘플과 함께, BD FACSAria^TM II 세포 분류기를 사용하여 핵을 정제했다. 모든 샘플에 대해, 약 100,000개의 핵을 분류하고, 단일 핵 RNA 시퀀싱(RNAseq)을 위해 원심분리하여 샘플을 농축했다. 단일 핵 RNAseq는 10X genomics Chromium Single Cell 3' v2 키트로 수행되었다. 생성된 cDNA 라이브러리를 차세대 시퀸싱하였다.

서열 프로세싱

시퀀싱 후, 미가공 BCL 시퀀스 파일(Illumina 바이너리 형식)을 Illumina BaseSpace에서 다운로드하고, 맞춤형 처리 스크립트를 사용하여 원시 FASTQ 읽기 파일로 변환시켰다. 각 샘플의 경우, 마우스 게놈 및 유전자 주해(annotations) 와 함께, 미가공 FASTQs (GENCODE version M19, https://uswest.ensembl.org/Mus_musculus/Info/Annotation)는 10x 세포 Ranger 소프트웨어 (v. 2.1.0)를 이용하여 처리하였다. 10x 세포 Ranger 소프트웨어는 판독값을 셀별로 역다중화한 다음, 판독값을 전사체에 매핑한다. 판독을 전사체에 매핑하기 위해, 핵 샘플에서 전사체의 많은 부분이 pre-mRNA이므로 pre-mRNA 참조 전사체를 사용했다. AAV 벡터에서 파생된 판독의 경우, 각 바코드화된 AAV 전사체 서열을 참조 전사체에 수동으로 추가했다. 10x Cell Ranger는 감지된 각 핵의 각 유전자에 대한 고유한 분자 식별자(UMI) 계수를 포함하는 각 샘플에 대한 파일을 생성했다. 그런 다음, 이러한 UMI 카운트 파일은 조직 하위-집단을 정의하기 위해 차원 축소 및 클러스터링에 사용되었다.

시퀸싱 분석

위의 UMI 카운트 파일은 사용자 지정 R 및 Python 스크립트를 사용하여 처리되어 셀룰러 하위-집군을 식별해낸다. 세포-별 유전자 수 파일은 먼저 총 300개 미만의 UMI를 포함하는 세포를 제거하기 위해 필터링되었다. 세포 (행) 및 유전자 (열)별로 필터링된 UMI 카운트의 2D 매트릭스는 동일한 수의 세포 (행)로 더 작은 크기로 축소되었지만, 유전자 열은 ZinbWave를 사용하여 35개의 축소된 차원으로 대체되었다 (version 1.3.4, D. Risso et al., Nature 9: 284 (2018)). 35개의 축소된 차원은 유전자의 선형 조합이며, 다양한 세포 유형에서 활성인 생물학적 모듈을 나타낸다. ~15K 유전자에서 35개의 생물학적 모듈로 차원을 줄임으로써, 데이터의 노이즈가 크게 감소되어 단일 세포 데이터의 잘 알려진 '드롭-아웃(drop-out)' 문제를 효과적으로 완화하여, 클러스터링을 보다 다루기 쉽게 만들었다. 상위 5000개 가변 유전자 (Seurat: https://satijalab.org/seurat/, 매개 변수 min.cells = 300, min.genes = 200, y.cutoff=0.005)를 이용하여 ZinbWave를 이용하여 35개 크기를 산출하였다 (디폴트 매개변수). 또한, 각 세포의 총 전사 출력 (총 UMI)은 ZinbWave 방법의 공변량으로 통합되었다.

이 매트릭스를 클러스터링하기 위해, Louvain 패키지(버전 0.6.1, https://pypi.org/project/louvain/)에 구현된 Louvain 클러스터링 알고리즘이 사용되었다. Louvain 알고리즘은 모서리로 연결된 꼭짓점으로 셀이 있는 그래프를 입력으로 요구한다. 상관관계(35 크기 표현 사용)가 0.5보다 큰 경우, 두 셀 사이의 가장자리를 포함하여 그래프를 구성했다. 그런 다음, 확인된 클러스터 (또는 세포 하위-집단)에 문헌-유래된 표준 바이오마커를 기반으로 주석을 달았다(표 2 및 도 2 참조). 주어진 RE가 이식유전자 발현에 미치는 영향을 평가하기 위해, 뉴런 집단에서 EGFP-KASH 발현의 비교 분석을 수행하였다.

유전자 라벨	유전자 하위-라벨	유전자 ID	유전자 이름	염색체 시작	염색체 끝
질환	FTD	ENSMUSG00000034708	Grn	102430314	102437048
질환	Dravet	ENSMUSG00000064329	Scn1a	66270777	66440840
질환	알츠하이머	ENSMUSG00000023992	Trem2	48346400	48354147
흥분	_	ENSMUSG00000032502	Stac	111561436	111690348
흥분	_	ENSMUSG00000070570	Slc17a7	45163948	45176142
흥분	_	ENSMUSG00000032373	Car12	66713685	66766845
흥분	_	ENSMUSG00000058420	Syt17	118380716	118448222
흥분	_	ENSMUSG00000027296	Itpka	119742336	119751263
흥분	_	ENSMUSG00000001119	Col6a1	76708791	76726168
흥분	_	ENSMUSG00000024617	Camk2a	60925617	60988152
흥분	_	ENSMUSG00000053025	Sv2b	75114893	75309262
흥분	_	ENSMUSG00000041324	Inhba	16011850	16027211
흥분	_	ENSMUSG00000030772	Dkk3	112116016	112159057
GABA	_	ENSMUSG00000070880	Gad1	70553071	70602014
GABA	Vip	ENSMUSG00000019772	Vip	5639217	5647617
GABA	_	ENSMUSG00000062209	Erbb4	68032185	69108059
GABA	Sst	ENSMUSG00000004366	Sst	23889580	23890844
GABA	_	ENSMUSG00000026787	Gad2	22622204	22693874
GABA	PV	ENSMUSG00000005716	Pvalb	78191113	78206400
비_흥분	Ndnf	ENSMUSG00000042453	Reln	21884453	22344702
비_흥분	_	ENSMUSG00000051910	Sox6	115470871	116038796
비_흥분	Ndnf	ENSMUSG00000049001	Ndnf	65671589	65712326
비_흥분	_	ENSMUSG00000037771	Slc32a1	158610766	158615748
비_뉴런	Astro	ENSMUSG00000020932	Gfap	102887335	102900912
비_뉴런	Endo	ENSMUSG00000029648	Flt1	147561603	147726011
비_뉴런	OPC	ENSMUSG00000029231	Pdgfra	75152291	75198215
비_뉴런	올리고	ENSMUSG00000046160	Olig1	91269771	91271933
비_뉴런	OPC	ENSMUSG00000032911	Cspg4	56865032	56899870
비_뉴런	_	ENSMUSG00000033208	S100b	76253852	76261159
비_뉴런	_	ENSMUSG00000054675	Tmem119	113793728	113800516
비_뉴런	Micro	ENSMUSG00000038642	Ctss	95526785	95556403
비_뉴런	Micro	ENSMUSG00000052336	Cx3cr1	119901615	120069879
비_뉴런	올리고	ENSMUSG00000076439	Mog	37010742	37023398
비_뉴런	SMC	ENSMUSG00000031375	Bgn	73483601	73495933
비_뉴런	올리고	ENSMUSG00000036634	Mag	30899175	30914873
비_뉴런	Astro	ENSMUSG00000050953	Gja1	56377299	56390419
비_뉴런	Astro	ENSMUSG00000024411	Aqp4	15389393	15403684
범_뉴런	_	ENSMUSG00000027273	Snap25	136713452	136782428

결과

각 샘플에 대해 공지의 바이오마커를 기반으로, 클러스터는 3개 클러스터-군으로 집단화시켰다: 흥분성 뉴런 (Exc), GABAergic 뉴런 (GABA), 그리고 비-뉴런 세포 (NonN). 해석의 편의를 위해, 이러한 클러스터 그룹 각각을 세포 집단이라고 지칭한다. UMI 카운트의 경우, 백반개당 전사체 (TPM)에서 각 바코드화된 AAV 전이유전자의 발현을 산출하였다 (도 3).

유전자 TPM은 다음과 같이 계산되었다:

GABA 내 발현과 흥분성 내에서의 발현을 비교하고, 다른 RE-구동 AAV 전이유전자를 보다 쉽게 비교할 수 있도록, 모든 AAV 유전자의 TPM 발현을 흥분성 뉴런에서의 발현에 대해 정규화하였다. CBA가 편재적으로 발현되는 양성 대조군으로 활용되었기 때문에, 각 AAV 유전자의 TPM 발현은 또한 세포 집단 내에서 그 집단 내 AAV CBA 이식유전자의 평균 TPM 발현으로 정규화되었다. 마지막으로, 해석의 편의를 위해 각 AAV 이식유전자 (CBA로 정규화됨)의 상대적 발현을 CBA-정규화된 배수-변화로 나타내었다.

예상대로, 2개의 CamKII AAV 전이유전자의 상대적 발현은 흥분성 세포에 비해 GABA 및 비-뉴런 집단에서 ~30% 더 낮았다 (도 4). 2개의 RE1 구동 AAV 전이유전자는 흥분성 뉴런에 비해 GABA 뉴런에서 ~20% 더 높고, 비-뉴런 세포에서 ~25% 더 낮다.

추가적으로, 각 AAV 전이유전자에 대한 2개의 바코드화된 구조체가 각 세포 집단 내에서 유사한 발현을 나타내기 때문에, 각 AAV 전이유전자에 대한 2개의 바코드 구조체 간의 발현 값을 평균화하여 단순화된 발현 플롯을 얻었다 (도 5).

도 4와 유사하게, 도 5는 CamKII AAV 전이유전자의 상대적 발현이 흥분성 세포와 비교하여 GABA 및 비-뉴런 집단에서 ~30% 더 낮고, RE1 구동 AAV 전이유전자와 비교하여 GABA 뉴런에서 ~20% 더 높았고, 흥분성 뉴런에서, 그리고 비-뉴런 세포에서 ~25% 더 낮았다는 것을 입증한다.

GABA성 뉴런의 4가지 주요 하위-집단은 알려진 바이오마커(PV, VIP, Sst, Ndnf-Reln)를 사용하여 평가되었다. 결과는 106m1 전이유전자의 발현이 GABA의 PV, VIP 및 Sst 하위 집단 내에서 상당히 높다는 것을 보여준다(도 6). 추가적으로, 결과는 PV 하위-집단의 평균 배수 변화가 RE1에서 가장 높다는 것을 보여주었다 (흥분 세포에서보다 ~50% 더 높음).

위에서 설명된 방법을 사용하여 얻은 이러한 데이터는 후보 조절 요소가 생체 내에서 스크리닝되어 세포 특이적 조절 요소 및 세포 특이적 조절 요소 하에 있는 각 전이유전자의 발현 크기를 식별할 수 있음을 입증한다. 또한, 이들 결과는 이러한 방법이 특정 세포 집단에서 생리학적으로 적절한 용량을 달성하는 조절 요소를 식별하기 위해 조절 요소의 다중 분석 수행에 효과적으로 사용될 수 있음을 보여준다. 여기에 설명된 분석은 다양한 전달 방법을 사용하여 생체 내 시스템에서 10⁴개 이상의 후보 조절 요소 스크리닝에 유용할 수 있다.

실시예 2

생체내 AAV-기반 감염을 이용하여 식별된 REs를 REs 특이성을 평가한다

본원에 기술된 스크리닝 분석을 사용하여 확인된 조절 요소의 세포 선택성을 검증한 후, 상기 조절 요소들은 특이적 세포 집단으로 특이적 전이유전자를 표적화하는데 이용할 수 있다. 특히, 각 조절 요소는 적어도 1, 2, 3, 4, 5개 또는 5개 이상의 비-PV 세포에 비교하여 특이적 세포 집단에 대해 선택적인 발현을 표적으로 하기 위해 전이유전자에 작동가능하도록 연계된 연계될 수 있다.

실시예 3

복합 혼합물에서 REs의 특이성을 평가하기 위해, 대규모로 생체 내 조절 요소(REs) 다중화

조절 요소	L3 바코드	L3.2 바코드
구조체 1 (CBA-EGFP-KASH)	MBC7	MBC7
구조체 2 (EF1α-EGFP-KASH)	MBC10	MBC10
구조체 3 (RE1-EGFP-KASH)	MBC11	MBC11
구조체 4 (RE2-EGFP-KASH)	MBC8	MBC8
구조체 5 (RE3-EGFP-KASH)	MBC9	MBC9
구조체 6 (RE4-EGFP-KASH)	MBC12	MBC12
구조체 7 (RE5-EGFP-KASH)	MBC13	MBC13
구조체 8 (RE6-EGFP-KASH)	MBC14	MBC14
구조체 9 (RE7-EGFP-KASH)	MBC15	MBC15
구조체 10 (RE8-EGFP-KASH)	MBC16	MBC16
구조체 11 (RE9-EGFP-KASH)	MBC17	MBC17
구조체 12 (RE10-EGFP-KASH)	MBC18	MBC18
구조체 13 (RE11-EGFP-KASH)	MBC19	MBC19
구조체 14 (RE12-EGFP-KASH)	MBC20	N/A
구조체 15 (RE13-EGFP-KASH)	MBC21	MBC21

다중 분석이 세포의 복합한 혼합물에서 세포 유형 특이성과 개별 REs의 발현 크기를 평가할 수 있는지 여부를 테스트하기 위해, 15개의 조절 요소가 생체내 AAV 기반 시스템에서 분석되었다. 이 분석은 여러 다른 구성의 복합 혼합물 내에서 세포 특이적 조절 요소의 식별 뿐만 아니라 세포 특이적 조절 요소 아래의 각 전이유전자의 발현 크기 식별을 허용한다.

다중화된 RE AAVs의 기획, 생산 및 생체내 테스트

조절 요소들의 복합 혼합물을 다중화시키는 시스템의 능력을 테스트하기 위해, 관심대상 전이유전자를 다음 15가지 후보 REs중 하나에 작동가능하도록 연계하였다: 상기 REs중 두 개는 CBA 및 EF1이었고α, 이들은 산재적으로 발현된 대조군 프로모터 (차례로 구조체 1 및 구조체 2)로써 모두 선택되었다. 저해성/파라브알부민 (PV) 뉴런에서 선호적인 발현을 나타낸 서열 식별 번호: 1 (RE1)의 핵산 서열에 의해 인코드된 조절 요소가 구조체 3에서 이용되었다. 표 3 참고. 나머지 12개의 프로모터는 저해성/PV 뉴런에서의 우선적인 발현을 위해 선택되었다. 상기 전이유전자는 KASH 핵 테터링(tethering)에 융합된 EGFP 단백질 도메인 (EGFP-KASH)을 인코딩하는 리포터 유전자로 구성되었다. EGFP-KASH 전이유전자에서 KASH의 코딩 서열의 두 개 영역 (KASH 서열 1 및 KASH 서열 2)은 혼합된 풀에서 개별 식별이 허용되도록 서열 변형되었다 (표 4). 이들 서열 변형은 EGFP-KASH의 DNA 및 RNA 서열에만 영향을 주었고, 해당 아미노산 서열을 변형시키지 않았다. 따라서, 해당 서열 변형은 대응 EGFP-KASH 전이유전자 구조체를 구동시키는 주어진 RE의 특유한 바코드 작용을 한다. 혼합 풀에서 특이적 구조체를 개별적으로 식별할 수 있도록 추가 고유 바코드 서열이 각 구성에 대한 전사 시작 부위 상류에 삽입되었다 (표 4, 상류 서열). 끝으로, 특유의 바코드 서열을 각 구조체에서 EGFP 전이유전자의 종료 코돈 다음에 삽입시켜 혼합 물에서 특이적 구조체의 개별 식별이 가능하도록 하였다 (표 4, 하류 서열). 상기 바코드화된 전이유전자를 AAV 게놈 백본으로 클론시키고, 이를 생체내 연구를 위한 AAV9 바이러스 준비에 이용하였다. 특유의 바코드 서열들을 하기 표 4에 나타낸다.

바코드	상류 서열	KASH 서열 1	KASH 서열 2	하류 서열
MBC7	CCCCTGGTT (서열 식별 번호: 8)	GGTTCATCACAA (서열 식별 번호: 9)	TTGCCTGCTTCAGAG (서열 식별 번호: 10)	CTAACGGTT (서열 식별 번호: 11)
MBC8	GTGGATTCT (서열 식별 번호: 12)	GGTAGCAGCCAA (서열 식별 번호: 13)	TTGCCTGCCAGCGAG (서열 식별 번호: 14)	CTTTCTCTC (서열 식별 번호: 15)
MBC9	GGTGGTACT (서열 식별 번호: 16)	GGCAGTAGTCAA (서열 식별 번호: 17)	TTGCCCGCTAGTGAG (서열 식별 번호: 18)	TCCCATCAT (서열 식별 번호: 19)
MBC10	GGTTCCTTC (서열 식별 번호: 20)	GGCTCGTCGCAA (서열 식별 번호: 21)	TTGCCCGCCTCGGAG (서열 식별 번호: 22)	AAGTTGGCG (서열 식별 번호: 23)
MBC11	GGTGGTACT (서열 식별 번호: 24)	GGATCTTCTCAA (서열 식별 번호: 25)	TTGCCAGCATCTGAG (서열 식별 번호: 26)	TCCCATCAT (서열 식별 번호: 27)
MBC12	GGAGGCAAG (서열 식별 번호: 28)	GGGTCCTCCCAA (서열 식별 번호: 29)	TTGCCGGCGTCCGAG (서열 식별 번호: 30)	CATCAATCG (서열 식별 번호: 31)
MBC13	TCGCAATCT (서열 식별 번호: 32)	GGTTCGTCGCAG (서열 식별 번호: 33)	CTCCCTGCATCGGAA (서열 식별 번호: 34)	ACGGCTACA (서열 식별 번호: 35)
MBC14	CGCTACCAG (서열 식별 번호: 36)	GGTTCTTCTCAG (서열 식별 번호: 37)	CTCCCTGCTTCTGAA (서열 식별 번호: 38)	GCGTCGTAA (서열 식별 번호: 39)
MBC15	ACAACACCT (서열 식별 번호: 40)	GGCTCCTCCCAG (서열 식별 번호: 41)	CTCCCCGCATCCGAA (서열 식별 번호: 42)	ATGACGACC (서열 식별 번호: 43)
MBC16	AAAGTCCCG (서열 식별 번호: 44)	GGCTCATCACAG (서열 식별 번호: 45)	CTCCCCGCGTCAGAA (서열 식별 번호: 46)	TCTCATCCG (서열 식별 번호: 47)
MBC17	GACTTCTCT (서열 식별 번호: 48)	GGAAGCAGCCAG (서열 식별 번호: 49)	CTCCCAGCCAGCGAA (서열 식별 번호: 50)	TCCACGGTT (서열 식별 번호: 51)
MBC18	ACTCCAACT (서열 식별 번호: 52)	GGGAGTAGTCAG (서열 식별 번호: 53)	CTCCCGGCCAGTGAA (서열 식별 번호: 54)	TTCCAGCTC (서열 식별 번호: 55)
MBC19	CAGGCTGAA (서열 식별 번호: 56)	GGTAGTTCTCAG (서열 식별 번호: 57)	TTGCCTGCATCTGAA (서열 식별 번호: 58)	TTCGCATTG (서열 식별 번호: 59)
MBC20	CGTCGATGC (서열 식별 번호: 60)	GGCAGCTCCCAA (서열 식별 번호: 61)	TTGCCAGCTAGCGAG (서열 식별 번호: 62)	GACTCCACT (서열 식별 번호: 63)
MBC21	GTTCGGAAA (서열 식별 번호: 64)	GGGAGCTCCCAG (서열 식별 번호: 65)	TTGCCGGCAAGTGAG (서열 식별 번호: 66)	ACTCCGTCG (서열 식별 번호: 67)

복합 혼합물의 다중화는 실시예 1에서 기술된 초기 실험과 유사하게 설정되었지만, 다만 특유의 상류 서열, KASH의 내부 두 개 특유 서열, 그리고 특유의 하류 서열을 포함하는 단일 MBC 바코드가 각 RE에 할당되었으며, 그리고 동량의 각 바코드화된 구조체 (가령, MBC7-CBA-EGFP-KASH, MBC10-EF1α-EGFP-KASH, MBC11-RE1-EGFP1-KASH, 등등)를 포함하는 플라스미드 믹스를 만들었다. 이 믹스 (L3으로 지칭됨)를 이용하여 아데노-연합된 바이러스 9 (AAV9)(생체내 운반 비히클로 선택된)를 만들었다. 이 실험은 바코드를 포함하는 서열 세그먼트 (가령, 상류 서열, KASH 내부의 2개 서열, 및 하류 서열)가 구성체 내에서 다르게 구성된 것을 제외하고, 동일한 특유의 바코드 서열을 사용하여 두 번째로 반복되었다. 동일한 양의 이러한 바코딩된 구조체 각각을 포함하는 플라스미드 믹스를 만들었다. 이 믹스 (L3.2라고 함)를 사용하여 추가 AAV9를 생성시켰다. L3.2 라이브러리에는 구조체 14가 내포되어 있지 않았다.

6~8 주령의 야생형 마우스 (C57Bl6/J)에게 1.5 μL의 AAV 벡터 풀(pools)을 등쪽과 배쪽 피질에, 그리고 1.5 μL은 등쪽과 배쪽 해마에 한-측면으로 주입시켰고 (부위당 3 μL 씩 2개 주사; 해마의 경우 1.5 μL를, 그리고 피질의 경우 1.5 μL), 주사 후 4분 휴식하고, 0.3 μL/분의 속도로 1.5 x 10¹1 ~ 2.4 x 10¹¹ 바이러스 게놈/마우스 (vg/마우스)의 함량으로 AAV9 L3 또는 AAV9 L3.2를 주입시켰다.

주사-후 4주 시점에 동물을 희생시키고, 감각 피질과 해마를 외과적으로 제거하고, RNAlater™에 4℃에서 24시간 동안 보관한 다음, 조직이 처리할 준비가 될 때까지 -80℃에서 동결했다.

RNAlater^TM 뇌 피질 또는 해마 샘플을 얼음 위에서 해동시켰다. 핵을 방출하기 위해, 약 20mg의 조직을 용해 완충액에서 수동으로 균질화시켰다. 농축된, 미정제 핵 조제물을 PBS-기반 세척 및 원심분리에 의해 얻었다. 세포 분류기에서 식별하고, 핵 무결성을 확인하기 위해 핵을 DAPI로 착색했다. 핵은 BD FACS Melody 세포 분류기를 사용하여 정제되었다. 모든 샘플에 대해, 대략적으로 100,000개의 핵이 분류되었다. 샘플은 단일 핵 RNAseq에 대한 원심분리에 의해 농축되었다. 단일 핵 RNAseq는 10X genomics Chromium Single Cell 3' v3 키트로 수행되었다 (제조업체의 지침에 설명된 바와 같이, - 도 1). 생성된 cDNA 라이브러리를 차세대 시퀸싱하였다.

단일 핵 RNAseq에서 검출 임계값 미만으로 떨어지는 UMI를 포함하는 AAV 구조체의 검출을 증가시키기 위해, 증폭 전에 10X 워크플로우의 cDNA 샘플에 대해 농축 PCR 단계를 수행했다. 이 농축 단계는 10x 라이브러리에서 검출된 AAV 구조체로부터 신호의 3-10배 증폭시켰다. 농축 PCR 단계에 사용된 PCR 프라이머에는 표준 Illumina Truseq 시퀀싱 프라이머(501)의 포워드 프라이머와 폴리A 부위에 상대적으로 가까운 AAV 이식유전자의 영역에 결합하도록 설계된 역방향 프라이머가 내포되었다. 이 역방향 프라이머에는 Illumina 어댑터를 제품에 추가하는 수단으로 후속 PCR 반응에 사용할 수 있도록 Read 2 핸들이 추가되었다 (시퀸싱 목적으로). 이 단계를 여기에서 풀아웃(pullout) PCR이라고 한다. 이 풀아웃 PCR에 대한 프라이머 서열은 표 5에 나와 있다.

프라이머 이름	프라이머 서열	프라이머 사용
501 Illumina 프라이머	AATGATACGGCGACCACCGAGATCTACACTAGATCGCACACTCTTTCCCTACACGACGCTCTTCCGATCT (서열 식별 번호: 68)	Illumina 시퀸싱 어뎁터, p5 및 Read 1 서열 내포됨
Perturb_KASH_2F	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGATCCTTCTACCCCATGCTGCGG (서열 식별 번호: 69)	Read 2 핸들과 함께, KASH 안의 영역에 특이적인 역 프라이머
70x Illumina 프라이머	CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATC (서열 식별 번호: 70)	Illumina 시퀸싱 어뎁터, p7 및 Read 2 서열 내포됨

10X Genomics Chromium Single Cell 3' v3 키트 워크플로는 감도를 개선하고 단일 세포 수준에서 DNA/단백질 정보를 검출할 수 있다. cDNA 생산을 위해 단일 핵 소적에 통합된 비드는 v3 워크플로에서 변형된다. 이들 비드는 Capture 1 또는 Capture 2 서열을 포함하는 DNA/RNA 서열 뿐만 아니라 폴리A 서열을 캡처하도록 공작되었다. 이것은 특정 관심대상 단백질에 대한 항체-올리고 콘쥬게이트 및 이러한 캡쳐 서열을 포함하는 DNA 종 검출을 용이하게 한다. 키트가 이러한 DNA/RNA 종을 캡처하고, 주어진 구조체에서 RE에 특유하게 연계하기 위해, 특유의 바코드 속성이 캡처 서열 다음에 인코딩된다. 이런 바코드는 각 RE에 대해 특유하다.

10X Genomics Chromium Single Cell 3' v3 키트 워크플로에서, 각 샘플은 탈다중화를 위한 4개의 샘플 인덱스를 함유한다. 풀아웃 PCR에서, 각 샘플은 오로지 하나의 샘플 인덱스만 함유한다. 10X Genomics Chromium Single Cell 3' v3 키트 워크플로에서 사용되는 10x Cell Ranger 소프트웨어를 통해 풀아웃 PCR 샘플을 처리하려면, 하나의 풀아웃 PCR 샘플 인덱스는 10x Cell Ranger 소프트웨어의 4-샘플 인덱스 요구 사항을 모방하기 위해 3개의 "sham" 인덱스 (임의의 10x 인덱스에 대해 최소 2개의 뉴클레오티드가 상이함)와 복합되었다. 10x 호환 FASTQ 파일로 탈다중화한 후, 프로세싱은 10x 서열 프로세싱과 동일하게 진행된다.

서열 프로세싱

시퀸싱-후, 미가공 BCL 서열 파일 (Illumina 바이너리 형식)을 Illumina BaseSpace에서 다운로드하고, 샘플을 탈다중화시키기 위해, 10x 세포 Ranger 소프트웨어 (v.3.0.2)를 이용하여 FASTQ 판독 파일로 전환시키며, 각 샘플은 4개의 10x 인덱스를 갖는다. 각 샘플의 경우, 마우스 게놈 및 유전자 주해(annotations) 와 함께, 미가공 FASTQs (GENCODE version M19, https://uswest.ensembl.org/Mus_musculus/Info/Annotation)는 10x 세포 Ranger 소프트웨어 (v.3.0.2)를 이용하여 처리하였다. 10x 세포 Ranger 소프트웨어는 판독값을 셀별로 역다중화한 다음, 판독값을 전사체에 매핑한다. FASTQ 파일에는 UMI 바코드와 10x 세포 바코드를 함유한 Read 1과 유전자 전사 서열이 포함된 Read 2가 있는 페어드-엔드 리드(paired-end reads)를 함유한다. Read 2는 마우스 게놈 및 각 RE 서열에 정렬되어 유전자/RE 동일성을 결정한다. 10x Cell Ranger 소프트웨어는 감지된 각 핵의 각 유전자에 대한 고유한 분자 식별자(UMI) 계수를 포함하는 각 샘플에 대한 파일을 생성했다. 그런 다음, 이러한 UMI 카운트 파일은 조직 하위-집단을 정의하기 위해 차원 축소 및 클러스터링에 사용되었다.

시퀸싱 분석

차원 수 감소를 위해, 상위 5000개 가변 유전자 (Stuart, Butler et al., bioRxiv, 2018; Butler et al, Nature Biotechnology, 2018에 따라 계산됨; Hafemeister and Satija, bioRxiv 2019; 매개변수 min.세포 = 300, min.genes = 200, y.cutoff=0.005)를 이용하여 ZinbWave를 이용하여 35개 크기를 산출하였다 (디폴트 매개변수). 또한, 각 세포의 총 전사 출력 (총 UMI)은 ZinbWave 방법의 공변량으로 통합되었다. L1 라이브러리의 프로세싱과 유사하게, UMI 카운트 파일은 사용자 지정 R 및 Python 스크립트를 사용하여 처리되어 셀룰러 하위-집군을 식별해낸다. 세포-별 유전자 수 파일은 먼저 총 300개 미만의 UMI를 포함하는 세포를 제거하기 위해 필터링되었다. 세포 (행) 및 유전자 (열)별로 필터링된 UMI 카운트의 2D 매트릭스는 동일한 수의 세포 (행)로 더 작은 크기로 축소되었지만, 유전자 열은 ZinbWave를 사용하여 35개의 축소된 차원으로 대체되었다 (version 1.3.4, D. Risso et al., Nature 9: 284 (2018)). 35개의 축소된 차원은 유전자의 선형 조합이며, 다양한 세포 유형에서 활성인 생물학적 모듈을 나타낸다. ~15K 유전자에서 35개의 생물학적 모듈로 차원을 줄임으로써, 데이터의 노이즈가 크게 감소되어 단일 세포 데이터의 잘 알려진 '드롭-아웃(drop-out)' 문제를 효과적으로 완화하여, 클러스터링을 보다 다루기 쉽게 만들었다.

이 매트릭스를 클러스터링하기 위해, Louvain 패키지 (version 0.6.1, https://pypi.org/project/louvain/)에 구현된 Louvain 클러스터링 알고리즘이 상기에서 기술된 바와 같이 사용되었다. Louvain 알고리즘은 모서리로 연결된 꼭짓점으로 셀이 있는 그래프를 입력으로 요구한다. 상관관계(35 크기 표현 사용)가 0.5보다 큰 경우, 두 셀 사이의 가장자리를 포함하여 그래프를 구성했다. 그 다음, 확인된 클러스터 (또는 세포 하위-집단)에 GABAergic 뉴런, 흥분성 뉴런, 그리고 비-뉴런 세포 집단에 대한 문헌-유래된 기본형 바이오마커를 기반으로 표 2 및 도 2에서 나타낸 바와 같이, 주석을 달았다 주어진 RE가 전이유전자 발현에 있어서 상대적인 발현 크기 및 세포 유형 특이성을 평가하기 위해, 뉴런 집단에서 EGFP-KASH 발현의 비교 분석을 수행하였다.

결과

실시예 1에 기술된 바와 같이, 클러스터는 각 샘플에 대한 공지된 바이오마커에 기초하여 3개의 클러스터-그룹으로 그룹화되었다: 흥분성 뉴런 (Exc), GABAergic 뉴런 (GABA), 그리고 비-뉴런 세포 (NonN). UMI 카운트로부터, 백반개당 전사체 (TPM)에서 각 바코드화된 AAV 전이유전자의 발현을 상기에서 논의된 유전자 TPM 알고리즘을 이용하여 산출하였다.

처음에, L3 및 L3.2 라이브러리 모두에서 TPM을 흥분성 및 GABAergic 뉴런의 각 RE에서 분석하여 흥분성 및 GABAergic 뉴런의 각 RE로부터의 유전자 발현 및 세포 유형 특이성의 크기를 결정했다. 발현의 크기는 RE의 강도에 대한 피드백을 제공한다. 흥분성 또는 GABAergic 뉴런에 대한 세포 유형 특이성도 표시되며, 여기서 특정 프로모터에 대한 흥분성 및 GABAergic 뉴런 간의 발현 차이는 각 세포 유형에 대한 특이성을 나타낸다. 예를 들면, 구조체 6 및 구조체 3은 GABAergic 뉴런에서 더 높은 발현을 나타내며, 따라서 이 RE가 GABAergic 뉴런 특이적임을 나타낸다. 그러나, 구조체 1은 GABAergic 뉴런 및 흥분성 뉴런 모두에서 비교적 유사한 발현을 보여, 프로모터의 세포 유형 특이성이 부족함을 나타낸다.

해석의 용이함을 위해, 각 AAV 전이유전자의 상대적 발현을 로그 척도로 제시하였다. CBA 프로모터 (구조체 1) 및 EF1α 프로모터 (구조체 2)로부터의 증가된 발현이 관찰되었다. CBA 및 EF1α 프로모터로부터의 이러한 증가된 발현은 이러한 프로모터가 강력한 산재성 프로모터로 알려져 있다는 점을 감안할 때 예상된 것이다. RE1 (구조체 3)로부터 증가된 발현이 또한 관찰되었다. 다른 후보 프로모터에서 더 낮은 수준의 발현이 관찰되었으며, 이는 잠재적으로 이러한 프로모터가 CBA 및 EF1보다 유전자 발현을 덜 유도함을 나타낸다. 흥미롭게도, 테스트된 조절 요소의 GABAergic 뉴런에서 세포 유형 특이적 발현이 몇몇 구조체에 대해 관찰되었다. 도 7 및 도 8 참고. 이러한 데이터는 다중 분석이 단일 분석에서 여러 RE를 검출할 수 있을 뿐만 아니라 세포-유형 특이적 REs 및 그 강도를 식별할 수 있음을 보여준다.

각 RE로부터 세포 유형 특이적 발현은 다음으로 GABAergic 뉴런 내 특이성에 대해 L3 및 L3.2 라이브러리 모두에서 평가되었다 (도 9). 여기에서, 각 AAV 유전자의 TPM 발현은 EF1α이 산재적으로-발현된 대조군으로 활용되었기 때문에, 해당 집단 내 AAV EF1α연합된 전이유전자의 평균 TPM 발현으로 세포 집단 내에서 정규화되었다. 또한, GABAergic 뉴런 내 발현에 대한 특이성은 흥분성 뉴런에서의 발현과 관련하여 다음과 같이 계산되었다:

log ₁₀ (특이성) = log ₁₀ (GABA 뉴런 발현) - log ₁₀ (흥분 뉴런 발현)

마지막으로, 해석의 편의를 위해 각 AAV 이식유전자 (EF1α로 정규화됨)의 상대적 발현을 EF1α-정규화된 배수-변화로 나타내었고, 이는 로그 규모로 제시된다.

각 TPM 발현은 EF1α 연합된 전이식유전자의 평균 TPM 발현으로 모집단 내에서 정규화되었으므로, EF1α의 발현은 0이다. CBA 프로모터 (구조체 1)로부터 발현은 평균적으로 EF1α 프로모터의 발현과 유사하다. 이는 CBA 및 EF1α가 고도로 발현되는 산재성 프로모터이기 때문에 예상된다. 대조적으로, 구조체 3은 CBA 및 EF1의 산재성 발현 뿐만 아니라 흥분성 뉴런에 비해 GABAergic 뉴런에서 상당히 더 높은 발현을 보여준다. 이것은 또한 구조체 3이 억제/파라알부민(PV) 뉴런(RE1, 서열 번호: 1에 의해 인코딩됨)에서 우선적인 발현을 나타내는 RE를 활용하기 때문에 예상된다. 나머지 구조체는 흥분성 뉴런에 비해 GABAergic 뉴런에서 더 높은 발현을 보였을 뿐만 아니라, CBA 및 EF1α의 산재성 발현을 보여주지만, 발현은 α 3만큼 높지는 않다. 이것은 이들 구조체의 REs가 GABAergic 뉴런에서 세포 유형 특이적 발현을 유도한다는 것을 나타낸다. 이러한 데이터는 다중 분석이 GABAergic 뉴런 특이적 발현을 유도하는 여러 REs를 검출할 수 있음을 보여준다.

다중 분석은 일반적으로 GABAergic 뉴런 대신 GABAergic 뉴런 부류(가령, PV, SST 및 VIP 세포) 내의 특정 세포 유형 내에서 세포 유형 특이적 발현 (AAV L3.2 라이브러리)을 측정하는 능력에 대해 테스트되었다. 각 AAV 유전자의 TPM 발현은 EF1α이 산재적으로-발현된 대조군으로 활용되었기 때문에, 해당 집단 내 AAV EF1α연합된 전이유전자의 평균 TPM 발현으로 세포 집단 내에서 정규화되었다. 특이성은 상기에서 기술된 바와 같이, 또한 정의되었다. 예상대로, EF1α 및 CBA 연합된 전이유전자의 발현은 산재적으로 발현되는 세포이기 때문에, 모든 특이적 GABAergic 세포 유형에서 유사하고, 0에 가깝다. 다중 분석은 또한 모든 GABAergic 세포 유형에서 더 높은 전이유전자 발현을 갖는 REs (가령, 구조체 11)를 식별할 수 있었으며, 이는 이러한 REs가 GABAergic 뉴런 클래스 내의 특정 세포 유형에 특이적이지 않음을 나타낸다(도 10). 중요한 것은, 다중 분석은 GABAergic 뉴런의 클래스 내 특정 세포 유형의 발현에 특이적인 특정 REs의 발현을 식별하고, 설명할 수 있었다.

위에서 설명한 방법을 사용하여 얻은 데이터는 세포 특이적 조절 요소와 세포 특이적 조절 요소 아래의 각 전이유전자의 발현 크기를 확인하기 위해 생체 내에서 조절 요소의 복합 혼합물에서 후보 조절 요소를 스크리닝할 수 있음을 추가로 보여준다. 또한, 이들 결과는 본원에서 기술된 방법들이 특정 세포 집단에서 생리학적으로 적절한 용량을 달성하는 조절 요소를 식별하기 위해 조절 요소의 다중 분석 수행에 효과적으로 사용될 수 있음을 더 보여준다. 여기에 설명된 분석은 다양한 전달 방법을 사용하여 생체 내 시스템에서 10⁴개 이상의 후보 조절 요소 스크리닝에 유용할 수 있다.

SEQUENCE LISTING <110> ENCODED THERAPEUTICS, INC. <120> MULTIPLEXING REGULATORY ELEMENTS TO IDENTIFY CELL-TYPE SPECIFIC REGULATORY ELEMENTS <130> 1864445-0002-004-WO1 <140> PCT/US2020/023881 <141> 2020-03-20 <150> 62/822,528 <151> 2019-03-22 <160> 70 <170> PatentIn version 3.5 <210> 1 <211> 1878 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 1 tcaacagggg gacacttggg aaagaaggat ggggacagag ccgagaggac tgttacacat 60 tagagaaaca tcagtgactg tgccagcttt ggggtagact gcacaaaagc cctgaggcag 120 cacaggcagg atccagtctg ctggtcccag gaagctaacc gtctcagaca gagcacaaag 180 caccgagaca tgtgccacaa ggcttgtgta gagaggtcag aggacagcgt acaggtccca 240 gagatcaaac tcaacctcac caggcttggc agcaagcctt taccaaccca cccccacccc 300 acccaccctg cacgcgcccc tctcccctcc ccatggtctc ccatggctat ctcacttggc 360 cctaaaatgt ttaaggatga cactggctgc tgagtggaaa tgagacagca gaagtcaaca 420 gtagatttta ggaaagccag agaaaaaggc ttgtgctgtt tttagaaagc caagggacaa 480 gctaagatag ggcccaagta atgctagtat ttacatttat ccacacaaaa cggacgggcc 540 tccgctgaac cagtgaggcc ccagacgtgc gcataaataa cccctgcgtg ctgcaccacc 600 tggggagagg gggaggacca cggtaaatgg agcgagcgca tagcaaaagg gacgcggggt 660 ccttttctct gccggtggca ctgggtagct gtggccaggt gtggtacttt gatggggccc 720 agggctggag ctcaaggaag cgtcgcaggg tcacagatct gggggaaccc cggggaaaag 780 cactgaggca aaaccgccgc tcgtctccta caatatatgg gagggggagg ttgagtacgt 840 tctggattac tcataagacc tttttttttt ccttccgggc gcaaaaccgt gagctggatt 900 tataatcgcc ctataaagct ccagaggcgg tcaggcacct gcagaggagc cccgccgctc 960 cgccgactag ctgcccccgc gagcaacggc ctcgtgattt ccccgccgat ccggtccccg 1020 cctccccact ctgcccccgc ctaccccgga gccgtgcagc cgcctctccg aatctctctc 1080 ttctcctggc gctcgcgtgc gagagggaac tagcgagaac gaggaagcag ctggaggtga 1140 cgccgggcag attacgcctg tcagggccga gccgagcgga tcgctgggcg ctgtgcagag 1200 gaaaggcggg agtgcccggc tcgctgtcgc agagccgagg tgggtaagct agcgaccacc 1260 tggacttccc agcgcccaac cgtggctttt cagccaggtc ctctcctccc gcggcttctc 1320 aaccaacccc atcccagcgc cggccaccca acctcccgaa atgagtgctt cctgccccag 1380 cagccgaagg cgctactagg aacggtaacc tgttactttt ccaggggccg tagtcgaccc 1440 gctgcccgag ttgctgtgcg actgcgcgcg cggggctaga gtgcaaggtg actgtggttc 1500 ttctctggcc aagtccgagg gagaacgtaa agatatgggc ctttttcccc ctctcacctt 1560 gtctcaccaa agtccctagt ccccggagca gttagcctct ttctttccag ggaattagcc 1620 agacacaaca acgggaacca gacaccgaac cagacatgcc cgccccgtgc gccctccccg 1680 ctcgctgcct ttcctccctc ttgtctctcc agagccggat cttcaagggg agcctccgtg 1740 cccccggctg ctcagtccct ccggtgtgca ggaccccgga agtcctcccc gcacagctct 1800 cgcttctctt tgcagcctgt ttctgcgccg gaccagtcga ggactctgga cagtagaggc 1860 cccgggacga ccgagctg 1878 <210> 2 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 2 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg ttcatcacaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg cctgcttcag aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctagg actcagct 258 <210> 3 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 3 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg tagcagccaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg cctgccagcg aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctagc ttactagc 258 <210> 4 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 4 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg cagtagtcaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg cccgctagtg aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctagt caggaatc 258 <210> 5 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 5 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg ctcgtcgcaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg cccgcctcgg aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctaga gacaggta 258 <210> 6 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 6 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg atcttctcaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg ccagcatctg aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctagg attctcag 258 <210> 7 <211> 258 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <400> 7 gaggaggagg aggagacaga cagcaggatg ccccacctcg acagccccgg gtcctcccaa 60 ccgagacgct ccttcctctc aagggtgatc agggcagctc taccgttgca gctgcttctg 120 ctgctgctgc tgctcctggc ctgcctgttg ccggcgtccg aggatgacta cagctgcacc 180 caggccaaca actttgcccg atccttctac cccatgctgc ggtacaccaa cgggccacct 240 cccacctagc agatacca 258 <210> 8 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 8 cccctggtt 9 <210> 9 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 9 ggttcatcac aa 12 <210> 10 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 10 ttgcctgctt cagag 15 <210> 11 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 11 ctaacggtt 9 <210> 12 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 12 gtggattct 9 <210> 13 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 13 ggtagcagcc aa 12 <210> 14 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 14 ttgcctgcca gcgag 15 <210> 15 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 15 ctttctctc 9 <210> 16 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 16 ggtggtact 9 <210> 17 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 17 ggcagtagtc aa 12 <210> 18 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 18 ttgcccgcta gtgag 15 <210> 19 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 19 tcccatcat 9 <210> 20 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 20 ggttccttc 9 <210> 21 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 21 ggctcgtcgc aa 12 <210> 22 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 22 ttgcccgcct cggag 15 <210> 23 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 23 aagttggcg 9 <210> 24 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 24 ggtggtact 9 <210> 25 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 25 ggatcttctc aa 12 <210> 26 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 26 ttgccagcat ctgag 15 <210> 27 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 27 tcccatcat 9 <210> 28 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 28 ggaggcaag 9 <210> 29 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 29 gggtcctccc aa 12 <210> 30 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 30 ttgccggcgt ccgag 15 <210> 31 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 31 catcaatcg 9 <210> 32 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 32 tcgcaatct 9 <210> 33 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 33 ggttcgtcgc ag 12 <210> 34 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 34 ctccctgcat cggaa 15 <210> 35 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 35 acggctaca 9 <210> 36 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 36 cgctaccag 9 <210> 37 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 37 ggttcttctc ag 12 <210> 38 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 38 ctccctgctt ctgaa 15 <210> 39 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 39 gcgtcgtaa 9 <210> 40 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 40 acaacacct 9 <210> 41 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 41 ggctcctccc ag 12 <210> 42 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 42 ctccccgcat ccgaa 15 <210> 43 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 43 atgacgacc 9 <210> 44 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 44 aaagtcccg 9 <210> 45 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 45 ggctcatcac ag 12 <210> 46 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 46 ctccccgcgt cagaa 15 <210> 47 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 47 tctcatccg 9 <210> 48 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 48 gacttctct 9 <210> 49 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 49 ggaagcagcc ag 12 <210> 50 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 50 ctcccagcca gcgaa 15 <210> 51 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 51 tccacggtt 9 <210> 52 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 52 actccaact 9 <210> 53 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 53 gggagtagtc ag 12 <210> 54 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 54 ctcccggcca gtgaa 15 <210> 55 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 55 ttccagctc 9 <210> 56 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 56 caggctgaa 9 <210> 57 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 57 ggtagttctc ag 12 <210> 58 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 58 ttgcctgcat ctgaa 15 <210> 59 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 59 ttcgcattg 9 <210> 60 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 60 cgtcgatgc 9 <210> 61 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 61 ggcagctccc aa 12 <210> 62 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 62 ttgccagcta gcgag 15 <210> 63 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 63 gactccact 9 <210> 64 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 64 gttcggaaa 9 <210> 65 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 65 gggagctccc ag 12 <210> 66 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 66 ttgccggcaa gtgag 15 <210> 67 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 67 actccgtcg 9 <210> 68 <211> 70 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 68 aatgatacgg cgaccaccga gatctacact agatcgcaca ctctttccct acacgacgct 60 cttccgatct 70 <210> 69 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 69 gtgactggag ttcagacgtg tgctcttccg atctgatcct tctaccccat gctgcgg 57 <210> 70 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <220> <221> modified_base <222> (25)..(32) <223> a, c, t, g, unknown or other <400> 70 caagcagaag acggcatacg agatnnnnnn nngtgactgg agttcagacg tgtgctcttc 60 cgatc 65

Claims

주어진 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해내는, 다음을 포함하는 방법:
a. 세포에 각 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하는 벡터들의 혼합물을 제공하고, 이때 각 벡터 바코드를 추가로 포함하며;
b. 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고;
c. 각 단일 세포의 전사체를 시퀸싱함으로써 전술한 각 단일 세포를 식별해내고; 그리고
d. 상기 전사체내 바코드를 후보 조절 요소에 상호연관시키고;
이렇게 함으로써 해당 세포 유형에서 선택적 발현을 제공하는 조절 요소를 식별해낸다.
청구항 1에 있어서, 이때 상기 조절 요소 해당 세포 유형에서 전이유전자의 발현을 선택적으로 증가시키는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 상이한 세포 유형에서 동일한 조절 요소에 의한 해당 전이유전자의 발현과 비교하였을 때, 상기 조절 요소는 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형에 비해, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 제공하는, 방법.
청구항 1에 있어서, 이때 상기 조절 요소는 비-PV 뉴런과 비교하였을 때, 파르알부민 (PV) 뉴런에서 해당 전이유전자의 선택적 발현을 제공하는, 방법.
청구항 10에 있어서, 이때 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상인, 방법.
세포 유형에서 전이유전자의 선택적 발현을 제공하는 조절 요소를 식별해내는, 다음을 포함하는 방법:
a. 세포에 각 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하는 벡터들의 혼합물을 제공하고, 이때 각 벡터 바코드를 추가로 포함하며;
b. 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고;
c. 각 단일 세포의 전사체를 시퀸싱함으로써 전술한 각 단일 세포를 식별해내고;
d. 상기 전사체내 바코드를 해당 후보 조절 요소에 상호연관시키고;
e. 각 후보 조절 요소에 의해 제공되는 해당 전이유전자의 발현 수준을 해당 전이유전자의 참조 발현 수준과 비교하고;
이렇게 함으로써 해당 세포 유형에서 전이유전자의 선택적 발현을 제공하는 후보 조절 요소를 식별해낸다.
청구항 12에 있어서, 이때 상기 조절 요소 해당 세포 유형에서 전이유전자의 발현을 선택적으로 증가 또는 감소시키는, 방법.
청구항 12에 있어서, 이때 해당 전이유전자의 참조 발현 수준은 대조군 조절 요소에 의해 제공되는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 요소 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 또다른 후보 조절 및/또는 동일한 세포 유형 대조군 조절 요소에 의해 구동되는 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 해당 전이유전자의 참조 발현 수준은 범-세포성 조절 요소에 의해 제공되는, 방법.
청구항 12에 있어서, 이때 상기 범-세포성 조절 요소는 사이토메갈로바이러스 주요-즉시 초기 프로모터(CMV), 닭 β-액틴 프로모터(CBA), CMV 초기 인핸서/CBA 프로모터(CAG), 신장 인자-1α 프로모터(EF1α), 원숭이 바이러스 40 프로모터(SV40), 포스포글리세레이트 키나제 프로모터(PGK) 및 폴리유비퀴틴 C 유전자 프로모터(UBC)로 구성된 군에서 선택되는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 동일한 세포 유형에서 범-세포성 조절 요소에 의해 구동된 발현과 비교하였을 때, 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형에 비해, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 제공하는, 방법.
청구항 12에 있어서, 이때 상기 조절 요소는 비-PV 뉴런과 비교하였을 때, PV 뉴런에서 해당 전이유전자를 선택적으로 발현시키는, 방법.
청구항 24에 있어서, 이때 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상인, 방법.
조절 요소에 작동가능하도록 연계된 전이유전자를 선택적으로 발견시키는 세포 유형을 식별해내는, 다음을 포함하는 방법:
a. 세포에 각 전이유전자에 작동가능하도록 연계된 후보 조절 요소를 포함하는 벡터들의 혼합물을 제공하고, 이때 각 벡터 바코드를 추가로 포함하며;
b. 전술한 전이유전자를 발현시키는 단일 세포 다수로부터 RNA를 단리시키고;
c. 각 단일 세포의 전사체를 시퀸싱함으로써 전술한 각 단일 세포를 식별해내고;
d. 상기 전사체내 바코드를 해당 후보 조절 요소에 상호연관시키고;
e. 하나의 세포 유형에서 상기 후보 조절 요소에 의해 제공되는 전이유전자의 발현 수준을 상이한 세포 유형에서 동일한 후보 조절 요소에 의한 발현 수준과 비교하고;
이렇게 함으로써 조절 요소에 작동가능하도록 연계된 전이유전자를 선택적으로 발현시키는 세포 유형을 식별해낸다.
청구항 26에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형과 비교하였을 때, 하나의 세포 유형에서 해당 전이유전자의 발현을 선택적으로 증가 또는 감소시키는, 방법.
청구항 26에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 적어도 2-배, 적어도 4-배, 적어도 6-배, 적어도 8-배, 또는 적어도 10-배 이상 또는 미만으로 제공하는, 방법.
청구항 26에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 적어도 2%, 적어도 5%, 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 또는 적어도 95% 이상 또는 미만으로 제공하는, 방법.
청구항 26에 있어서, 이때 상기 조절 요소는 적어도 하나의 다른 세포 유형에서 상기 조절 요소에 의해 구동되는 발현과 비교하였을 때, 하나의 세포 유형에서 해당 전이유전자의 선택적 발현을 약 1.5 배, 2 배, 3 배, 4 배, 5 배, 6 배, 7 배, 7.5 배, 8 배, 9 배, 또는 10 배 이상 또는 미만으로 제공하는, 방법.
청구항 26에 있어서, 이때 상기 조절 요소는 비-PV 뉴런과 비교하였을 때, PV 뉴런에서 해당 전이유전자를 선택적으로 발현시키는, 방법.
청구항 31에 있어서, 이때 상기 비-PV 뉴런은 흥분성 뉴런, 성도파민활 뉴런, 성상세포, 소교세포, 또는 운동 뉴런중 하나 또는 그 이상인, 방법.
청구항 1-32중 임의의 한 항에 있어서, 이때 RNA는 mRNA, 긴 넌-코딩 RNA, 안타센스 전사체, 그리고 pri-miRNAs로 구성된 군에서 선택되는, 방법.
청구항 1-33중 임의의 한 항에 있어서, 이때 상기 벡터는 라스미드, 바이러스 벡터, 또는 코스미드로 구성된 군에서 선택되는, 방법.
청구항 34에 있어서, 이때 바이러스 벡터는 아데노-연합된 바이러스 (AAV) 벡터인, 방법.
청구항 35에 있어서, 이때 AAV 벡터는 AAV1, AAV8, AAV9, scAAV1, scAAV8, 또는 scAAV9인, 방법.
청구항 36에 있어서, 이때 AAV 벡터는 AAV9인, 방법.
청구항 35-37중 임의의 한 항에 있어서, 이때 상기 벡터는 5' AAV 역전된 말단 반복부 (ITR) 서열 및 3' AAV ITR 서열을 포함하는, 방법.
청구항 1-38중 임의의 한 항에 있어서, 이때 상기 벡터들의 혼합물은 적어도 10⁴ 개의 후보 조절 요소를 포함하는, 방법.
청구항 1-39중 임의의 한 항에 있어서, 이때 각 후보 조절 요소는 적어도 하나의 특유의 바코드에 관련된, 방법.
청구항 1-40중 임의의 한 항에 있어서, 이때 상기 전이유전자는 리포터 유전자 서열을 포함하는, 방법.
청구항 41에 있어서, 이때 상기 리포터 유전자 서열은 핵 결합 도메인을 인코딩하는 서열에 작동가능하도록 연계된, 방법.
청구항 1-43중 임의의 한 항에 있어서, 이때 상기 전이유전자은 바코드를 포함하는, 방법.
청구항 42-44중 임의의 한 항에 있어서, 이때 상기 리포터 유전자 서열은 바코드를 포함하는, 방법.
청구항 43 또는 44에 있어서, 이때 상기 바코드는 대체 코돈을 포함하는, 방법.
청구항 43-45중 임의의 한 항에 있어서, 이때 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함하는, 방법.
청구항 43-46중 임의의 한 항에 있어서, 이때 핵 결합 도메인을 인코딩하는 서열은 Karsicht/ANC-1/Syne 상동성 (KASH) 도메인 또는 Sad1p/UNC-84 (SUN) 도메인 단백질, 또는 이의 생물학적으로 활성 단편을 인코드하는, 방법.
청구항 1-47중 임의의 한 항에 있어서, 이때 상기 세포 유형은 결합 조직, 근육 조직, 신경 조직 및 상피 조직으로 구성된 그룹에서 선택된 조직으로 구성된 군에서 선택된 조직에 속하는, 방법.
전이유전자에 작동가능하도록 연계된 조절 요소를 포함하는 핵산 분자에 있어서, 이때 상기 핵산 분자는 바코드를 포함하는, 핵산 분자.
청구항 49에 있어서, 이때 상기 바코드는 대체 코돈을 포함하는, 핵산 분자.
청구항 49 또는 50에 있어서, 이때 상기 전이유전자는 리포터 유전자 서열을 포함하는, 핵산 분자.
청구항 51에 있어서, 이때 상기 리포터 유전자 서열은 핵 결합 도메인을 인코딩하는 서열을 인코딩하는 뉴클레오티드 서열에 작동가능하도록 연계된, 핵산 분자.
청구항 52에 있어서, 이때 상기 핵 결합 도메인 서열은 ASH 도메인 또는 SUN 도메인 단백질 또는 이의 생물학적으로 활성 단편을 인코드하는, 핵산 분자.
청구항 50-53중 임의의 한 항에 있어서, 이때 상기 조절 요소는 비-자연적으로 생성된, 핵산 분자.
청구항 49-54중 임의의 한 항에 있어서, 이때 상기 리포터 유전자 서열은 형광 단백질을 인코드하는, 핵산 분자.
청구항 55에 있어서, 이때 상기 형광 단백질은 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, 또는 mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프인, 핵산 분자.
청구항 49-56중 임의의 한 항에 있어서, 이때 상기 전이유전자은 바코드를 포함하는, 핵산 분자.
청구항 49-56중 임의의 한 항에 있어서, 이때 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함하는, 핵산 분자.
청구항 49-56중 임의의 한 항에 있어서, 이때 상기 리포터 유전자 서열은 바코드를 포함하는, 핵산 분자.
청구항 49-59중 임의의 한 항에 있어서, 이때 상기 바코드 는 상기 전이유전자의 코딩 영역 안에 위치하는, 핵산 분자.
청구항 49-59중 임의의 한 항에 있어서, 이때 상기 핵산 분자는 넌-코딩 영역을 포함하고, 이때 상기 바코드는 상기 전이유전자의 넌-코딩 영역 안에 위치하는, 핵산 분자.
청구항 61에 있어서, 이때 상기 핵산 분자는 미-해독 영역 (UTR)을 포함하고, 상기 바코드는 상기 UTR 안에 위치하는, 핵산 분자.
청구항 61에 있어서, 이때 상기 핵산은 폴리A 서열을 포함하고, 이때 상기 바코드는 상기 폴리A 서열의 상류 적어도 50 염기 지점에 위치하는, 핵산 분자.
청구항 49-59중 임의의 한 항에 있어서, 이때 상기 바코드는 전사 시작 부위의 상류에 위치하는, 핵산 분자.
핵산 분자에 있어서, 이때 상기 핵산 분자는 DNA 분자로부터 전사된 RNA 분자이며, 이때 이 RNA 분자는 전이유전자 및 바코드 서열을 포함하고, 이때 이 DNA 분자는 조절 요소를 포함하고, 그리고 이때 상기 RNA 분자내 바코드 서열은 상기 DNA 분자내 조절 요소와 연관되어 있는, 핵산 분자.
청구항 65에 있어서, 이때 상기 전이유전자는 리포터 유전자 서열을 포함하는, 핵산 분자.
청구항 66에 있어서, 이때 상기 리포터 유전자 서열은 핵 결합 도메인을 인코딩하는 뉴클레오티드 서열에 작동가능하도록 연계된, 핵산.
청구항 67에 있어서, 이때 상기 핵 결합 도메인은 KASH 도메인 또는 SUN 도메인 단백질 또는 이의 생물학적으로 활성 단편인, 핵산.
청구항 65-68중 임의의 한 항에 있어서, 이때 상기 조절 요소는 비-자연적으로 생성된, 핵산 분자.
청구항 66-69중 임의의 한 항에 있어서, 이때 상기 리포터 유전자 서열은 형광 단백질을 인코드하는, 핵산 분자.
청구항 70에 있어서, 이때 상기 형광 단백질은 녹색 형광 단백질 (GFP), 향상된 녹색 형광 단백질 (EGFP), 황색 형광 단백질 (YFP), 이를 테면, mBanana, 적색 형광 단백질 (RFP), 이를 테면, mCherry, DsRed, dTomato, tdTomato, mHoneydew, 또는 mStrawberry, TagRFP, 근-적외선 형광 팔미드론산 (FRFP), 이를 테면, mGrape1 또는 mGrape2, 청록색 형광 단백질 (CFP), 청색 형광 단백질 (BFP), 향상된 청록색 형광 단백질 (ECFP), 군청색 형광 단백질 (UMFP), 오렌지 형광 단백질 (OFP), 이를 테면, mOrange 또는 mTangerine, 적색 (오렌지) 형광 단백질 (mROFP), TagCFP, 또는 테트라시스테인 형광 모티프인, 핵산 분자.
청구항 65-71중 임의의 한 항에 있어서, 이때 상기 전이유전자은 바코드를 포함하는, 핵산.
청구항 67-71중 임의의 한 항에 있어서, 이때 핵 결합 도메인을 인코딩하는 서열은 바코드를 포함하는, 핵산 분자.
청구항 66-71중 임의의 한 항에 있어서, 이때 상기 리포터 유전자 서열은 바코드를 포함하는, 핵산 분자.
청구항 66-74중 임의의 한 항에 있어서, 이때 상기 바코드는 대체 코돈을 포함하는, 핵산 분자.
청구항 65-71중 임의의 한 항에 있어서, 이때 상기 핵산 분자는 미-해독 영역 (UTR)을 포함하고, 상기 바코드는 상기 UTR 안에 위치하는, 핵산 분자.
청구항 65-71중 임의의 한 항에 있어서, 이때 상기 핵산 분자는 폴리A 서열을 포함하고, 이때 상기 바코드는 상기 폴리A 서열의 상류 적어도 50 염기 지점에 위치하는, 핵산 분자.
청구항 65-71중 임의의 한 항에 있어서, 이때 상기 바코드는 전사 시작 부위의 상류에 위치하는, 핵산 분자.
청구항 65-77중 임의의 한 항에 있어서, 이때 상기 핵산 분자는 극미립자에 연결된 핵산 분자.
청구항 79에 있어서, 이때 상기 극미립자는 비드인, 핵산 분자.
청구항 79 또는 80에 있어서, 이때 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된, 핵산 분자.
청구항 81에 있어서, 이때 상기 핵산 분자는 상기 극미립자 폴리뉴클레오티드 분자를 경유하여 극미립자에 연결된, 핵산 분자.
청구항 81 또는 82, 이때 상기 극미립자 폴리뉴클레오티드 분자는 프라이머 서열을 포함하는, 핵산 분자.
청구항 81-83중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 세포 바코드 서열을 포함하는, 핵산 분자.
청구항 81-84중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 특유의 분자 식별자 (UMI) 뉴클레오티드 서열을 포함하는, 핵산 분자.
청구항 81-85중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함하는, 핵산 분자.
청구항 81-86중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함하는, 핵산 분자: a) 프라이머 서열, b) 세포 바코드 서열, c) 특유의 분자 식별자 (UMI) 뉴클레오티드 서열, 그리고 d) 올리고-dT 서열; 이때 상기 핵산은 polyA 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-d)에 연결된다: 극미립자--a)--b)--c)--d); 그리고 이때 상기 polyA 뉴클레오티드 서열은 올리고-dT 서열과 혼성화된다.
청구항 87에 있어서, 이때 상기 극미립자는 비드인, 핵산 분자.
청구항 49-65중 임의의 한 항에 따른 핵산을 포함하는 벡터.
청구항 89에 있어서, 이때 상기 벡터는 바이러스 벡터인, 벡터.
청구항 89에 있어서, 이때 상기 벡터는 아데노-연합된 바이러스 벡터인, 벡터.
청구항 89에 있어서, 이때 상기 아데노-연합된 바이러스 벡터는 AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAV10, AAV11, AAV12, rh10, 및 이의 하이브리드, 조류(avian) AAV, 소 AAV, 개의 AAV, 말(equine) AAV, 영장류 AAV, 비-영장류 AAV, 또는 양(ovine) AAV중 임의의 하나인, 벡터.
청구항 89에 있어서, 이때 상기 아데노-연합된 바이러스 벡터는 AAV9 벡터인, 벡터.
청구항 49- REF _Ref35467005 \w 87중 임의의 한 항에 따른 핵산을 포함하는, 세포.
청구항 88-92중 임의의 한 항에 따른 벡터를 포함하는 세포.
청구항 65-88중 임의의 한 항에 따른 핵산중 하나 또는 그 이상에 연결된 극미립자.
청구항 96에 있어서, 이때 상기 극미립자는 비드인, 극미립자.
청구항 96 또는 97에 있어서, 이때 상기 극미립자는 극미립자 폴리뉴클레오티드 분자에 연결된 극미립자.
청구항 98에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 프라이머 서열을 포함하는, 극미립자.
청구항 98 또는 99에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 특유의 분자 식별자 (UMI)를 포함하는, 극미립자.
청구항 98-100중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 올리고-dT 서열을 포함하는, 극미립자.
청구항 98-101중 임의의 한 항에 있어서, 이때 상기 핵산은 폴리A 뉴클레오티드 서열을 포함하고, 이때 폴리A 뉴클레오티드 서열은 올리고-dT 서열에 혼성화되는, 극미립자.
청구항 98-102중 임의의 한 항에 있어서, 이때 상기 극미립자 폴리뉴클레오티드 분자는 다음을 포함하는, 극미립자: a) 프라이머 서열, b) 세포 바코드 서열, c) 특유의 분자 식별자 (UMI) 서열, 그리고 d) 올리고-dT 서열; 이때 상기 핵산은 polyA 뉴클레오티드 서열을 포함하고, 이때 상기 극미립자는 다음의 순서로 a)-d)에 연결되고: 극미립자--a)--b)--c)--d); 그리고 이때 상기 polyA 뉴클레오티드 서열은 올리고-dT 서열과 혼성화된다.
청구항 103에 있어서, 이때 상기 극미립자는 비드인, 극미립자.
청구항 49-88중 임의의 한 항에 따른 핵산을 포함하는 소적.
청구항 94 또는 95중 임의의 한 항에 따른 세포를 포함하는 소적.
청구항 96-104중 임의의 한 항에 따른 극미립자를 포함하는 소적.
청구항 94 또는 95의 세포그리고 청구항 청구항 96-104중 임의의 한 항에 따른 극미립자를 포함하는 소적.