WO2020101329A1

WO2020101329A1 - 세포의 dna에 시간의 흐름을 기록하는 방법

Info

Publication number: WO2020101329A1
Application number: PCT/KR2019/015372
Authority: WO
Inventors: 김형범; 박지혜
Original assignee: 연세대학교 산학협력단
Priority date: 2018-11-15
Filing date: 2019-11-12
Publication date: 2020-05-22
Also published as: KR102209608B1; KR20200056937A; US20220251634A1

Abstract

본 발명은 세포의 DNA에 시간의 흐름을 기록하는 방법에 관한 것으로서, 보다 구체적으로 본 발명은 표적 유전자 교정 시스템을 이용하여 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법 및 세포 내 시간 측정용 시스템에 관한 것이다. 본 발명의 방법은 인 비보( in vivo) 내에서 정해진 시점으로부터 임의의 시점으로 경과된 시간을 정확하게 측정할 수 있도록 하는 새로운 합성 생물학적 시계이다. 본 발명의 시스템을 통해 인 비트로( in vitro) 또는 인 비보( in vivo) 동물 세포, 및 살아 있는 동물의 DNA에 수 시간(hours)에서 수 주(weeks)에 이르는 시간 정보를 정확하게 기록할 수 있으며, DNA 서열 분석을 통해 모르는 시점에 기록시점부터 경과된 시간을 측정할 수 있다. 또한, 본 발명의 합성 DNA 시계를 이용하면 배양 세포의 화학물질에 대한 노출 시간 및 살아 있는 동물에서 시간 기록을 시작한 이후 남은 수명을 정확하게 기록하고 측정할 수 있다. 또한, 본 발명의 합성 DNA 시계를 이용하여 세포 내 다양한 신호 전달에 관련된 시간적 정보를 세포 내 DNA에 기록하고 해독할 수 있다.

Description

세포의 DNA에 시간의 흐름을 기록하는 방법

본 발명은 세포의 DNA에 시간의 흐름을 기록하는 방법에 관한 것으로서, 보다 구체적으로 본 발명은 표적 유전자 교정 시스템을 이용하여 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법 및 세포 내 시간 측정용 시스템에 관한 것이다.

대부분의 과학 분야에서 생체 내 시간을 정확하게 측정하는 것은 매우 중요하다. 특히 대부분의 생물학적 현상들이 역동적이라는 점에서 생물학 분야에서 시간을 기록하고 측정하는 것은 매우 중요하다.

물리학에서는 방사성 동위원소 붕괴를 이용하여 시간의 경과를 측정해왔다. 이 방사성 연대측정법은 개별 방사성 동위원소 원자가 붕괴 산물로 변환되는 속도가 일정하다는 것과 모든 변환 반응은 서로 독립적이라는 두 가지 원리에 의존한다. 따라서 특정 물질에 남아 있는 방사성 동위원소 원자의 개수는 시간이 지남에 따라 지수함수적으로 감소하며, 물질 내의 방사성 동위 원소와 붕괴 산물의 양을 측정함으로써 방사성 동위원소의 반감기로부터 경과된 시간을 계산할 수 있는 것이다. 이와 같은 연대측정 방식은 암석 또는 화석과 같은 물질의 나이를 결정하는 데 사용되고 있다.

현대 생명과학에서는 아직까지 시간 측정에 전기적 또는 기계적 방법이 사용되고 있다. 그러나, 현재 주(week) 단위와 같은 상대적으로 긴 시간을 측정할 수 있는 합성 생물학적 시스템은 아직 개발되지 않았다.

유전 물질인 DNA는 최근 정보를 저장하는 매개체로 알려졌다. 특정 대사물질의 효용 가능성뿐만 아니라 화학적인 노출, 염증 반응, 신호 전달 활성, 및 RNA 전사와 같은 생물학적 사건들이 CRISPR-Cas 뉴클레아제 시스템 등과 같은 DNA-공학적 도구를 이용하여 DNA에 기록된다는 것이 알려졌다. 그러나 화학 물질에 대한 노출 경과 시간이나 동물의 수명과 같은 시간적 정보를 세포 내 DNA에 정확히 기록하는 것에 대해서는 알려진 바가 없다.

위치-특이적 재조합효소(site-specific recombinases), Cas1-Cas2-매개 올리고뉴클레오티드 취득(Cas1-Cas2-mediated oligonucleotide acquisition), 및 염기 편집(base editing)과 같은 방법을 이용하여 DNA 서열에 제한적인 시간 정보가 기록될 수 있음에도 불구하고, 이와 같은 방법의 해상도 및 기록 가능한 시간 범위에 한계가 있어서 "DNA 시계" 수준에까지 이르지 못했다.

이에, 본 발명자들은 살아 있는 동물 세포 및 동물에서 정확하게 시간을 측정하는 방법을 개발하기 위해 예의 노력한 결과, CRISPR-Cas9 시스템을 이용하여 세포 내 표적 서열에 인델을 형성시킬 때 온전한 표적 서열의 빈도가 시간에 따라 지수함수형으로 감소한다는 것을 발견하고, 표적 서열의 인델 빈도와 시간의 상관관계를 나타내는 식을 유도함으로써 수 시간에서부터 주 단위까지의 시간을 정확하게 측정할 수 있는 합성 생물학적 시스템을 개발하여 본 발명을 완성하였다.

따라서 본 발명의 목적은 (a) 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계, (b) 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계, (c) 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계 및 (d) 하기 식으로부터 임의의 시점을 계산하는 단계:

(상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t ₀은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임)를 포함하는 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법을 제공하고자 하는 것이다.

본 발명의 또 다른 목적은 표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부, 상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부 및 상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부를 포함하는 세포 내 시간 측정용 시스템을 제공하고자 하는 것이다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, CRISPR/Cas9 시스템을 통해 표적 내 인델을 생성하였을 때 표적 세포의 온전한 서열 빈도가 방사성연대측정에서와 같이 지수함수형으로 감소한다는 점에 기초하여 세포 내 임의의 시간 경과를 정확하게 측정할 수 있는 방법 및 시스템을 제공한다.

본 발명은 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법을 제공한다. 이하 상기 방법의 각 단계에 대해서 상세히 설명한다.

본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계[(a) 단계]를 포함한다.

본 발명의 상기 표적 유전자 교정용 조성물은 가이드 RNA(guide RNA), 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함할 수 있다.

본 발명에서 용어 "가이드 RNA(guide RNA)"는 표적 DNA 특이적인 RNA를 의미하며, 표적 서열과 전부 또는 일부 상보적으로 결합하여 RNA-가이드 뉴클레아제가 표적 서열을 절단할 수 있다.

통상적으로 가이드 RNA는 두 개의 RNA, 즉, crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)를 구성 요소로 포함하는 이중 RNA(dual RNA); 또는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하는 제1부위 및 RNA-가이드 뉴클레아제와 상호작용하는 서열을 포함하는 제2 부위를 포함하는 형태를 말하나, RNA-가이드 뉴클레아제가 표적 서열에서 활성을 가질 수 있는 형태라면 제한 없이 본 발명의 범위에 포함될 수 있다. 일례로, 상기 가이드 RNA를 Cpf1에 적용할 경우 가이드 RNA는 crRNA일 수 있고, Cas, 특히 Cas9에 적용할 경우에는 crRNA 및 tracrRNA를 구성요소로 포함하는 이중 RNA 형태 또는 crRNA 및 tracrRNA의 주요 부분이 융합된 형태인 단일-사슬 가이드 RNA(single-chain guide RNA; sgRNA) 형태일 수 있다. 상기 sgRNA는 표적 DNA 내 서열과 상보적인 서열을 가지는 부분(이를 Spacer region, Target DNA recognition sequence, base pairing region 등으로도 명명함) 및 Cas, 특히 Cas9 단백질 결합을 위한 헤어핀 (hairpin) 구조를 포함할 수 있다. 보다 구체적으로, 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 가지는 부분, Cas, 특히 Cas9 단백질 결합을 위한 헤어핀 구조 및 터미네이터(Terminator) 서열을 포함할 수 있다. 상기 기술된 구조는 5'에서 3' 순으로 순차적으로 존재하는 것일 수 있다. 그러나, 이에 제한되는 것은 아니며, 상기 가이드 RNA가 crRNA의 주요 부분 또는 표적 DNA의 전부 또는 일부 상보적인 부분을 포함하는 경우라면 어떠한 형태의 가이드 RNA도 본 발명에서 사용될 수 있다.

상기 가이드 RNA, 구체적으로 crRNA 또는 sgRNA는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하며, crRNA 또는 sgRNA의 업스트림 부위, 구체적으로 sgRNA 또는 crRNA의 5' 말단에 하나 이상의 추가의 뉴클레오티드를 포함할 수 있다. 상기 추가의 뉴클레오티드는 구아닌(guanine, G)일 수 있으나, 이에 제한되는 것은 아니다.

또한, 상기 가이드 RNA는 RNA-가이드 뉴클레아제가 부착되는 것을 돕는 스캐폴드 서열을 포함할 수 있다.

본 발명에서 용어, "표적 염기서열" 또는 "타겟 서열(target sequence)"은 RNA-가이드 뉴클레아제가 표적으로 할 것으로 예상되는 염기서열을 말하며, 본 발명에서는 더 나아가 본 발명의 방법에서 인델 빈도를 분석하고자 하는 목적 서열을 포함한다. 본 발명에서 상기 올리고뉴클레오티드 라이브러리 및 벡터 라이브러리를 이루는 각각의 올리고뉴클레오티드 및 벡터에는 가이드 RNA와 표적 서열이 페어(pair) 형태로 존재하므로, 하나의 올리고뉴클레오티드 또는 벡터에 존재하는 가이드 RNA는 그 표적 서열에 대응된다.

본 발명에서 사용된 "표적 서열(target sequence)"은 페어 형태로 존재하는 가이드 RNA에 의해 발생하는 RNA-가이드 뉴클레아제의 활성이 작용하는지 여부를 분석하고자 하는 서열을 말한다. 즉, 이는 본 발명의 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드 설계(design) 또는 제조 단계에서 실시자에 의해 결정될 수 있는 것으로, 실시자는 상기 설계 단계에서 그 실시 목적에 따라 페어 가이드 RNA에 대해 표적 활성을 기대하는 서열 및 비표적 활성을 기대하는 서열을 선택하여 표적 서열로 설계할 수 있다. 상기 표적 서열은 RNA-가이드 뉴클레아제가 인식하는 PAM(protospacer-adjacent motif) 서열을 포함할 수 있으나, 이에 제한되지 않는다.

본 발명에서 상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA)일 수 있다.

본 발명의 용어 "자가-표적 가이드 RNA(self-targeting guide RNA)" 또는 "stgRNA"는 하나의 핵산 서열에 가이드 RNA 서열과 표적 서열을 모두 포함하고 있는 것으로서, 표적 서열 및 이에 상보적으로 결합하는 가이드 RNA를 각각 설계하여야 하는 일반적인 CRISPR 시스템에 비해 단순화된 것이다. stgRNA는 일반적인 가이드 RNA에 비해 활성이 감소되어, 오랜 시간에 걸쳐 인델 빈도 및 활성 측정이 가능하다는 특징이 있다. 본 발명의 일실시예에서는 상기 목적 서열의 인델 분석 단계를 보다 단순화하고 상대적으로 장기간 동안 시간 측정의 가능성을 확인하기 위해 stgRNA 서열을 사용하였다.

본 발명의 용어 "RNA-가이드 뉴클레아제(RNA-guide nuclease)"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 뉴클레아제로서, 특히 가이드 RNA(guide RNA)에 의해 표적 특이성을 갖는 뉴클레아제를 말한다. 상기 RNA-가이드 뉴클레아제는 구체적으로 미생물 면역체계인 CRISPR에서 유래한 Cas9 단백질(CRISPR-Associated Protein 9), Cpf1(CRISPR-associated endonuclease in Prevotella and Francisella 1), 또는 화학물질에 의해 활성이 유도되는 뉴클레아제를 포함할 수 있으나, 이에 한정되지 않는다.

상기 RNA-가이드 뉴클레아제는 인간 세포를 비롯한 동식물 세포의 유전체에서 특정 염기서열을 인식해 이중나선 절단(double strand break, DSB)을 일으킬 수 있으며, 닉(nick)을 형성할 수 있다(nickase 활성). 상기 이중나선 절단은 DNA의 이중 나선을 잘라 둔단(blunt end) 또는 점착종단(cohesive end)을 만드는 것을 모두 포함한다. DSB는 세포 내에서 상동재조합(homologous recombination) 또는 비상동재접합(non-homologous end-joining, NHEJ) 기작에 의해 효율적으로 수선되는데 이 과정에 연구자가 원하는 변이를 표적 장소에 도입할 수 있다. 상기 RNA-가이드 뉴클레아제는 인공적인, 혹은 조작된 비자연적으로 발생된(non-naturally occurring)것일 수 있다.

본 발명에서 용어, "Cas 단백질" 또는 "Cas9 단백질"은 CRISPR/Cas 시스템의 주요 단백질 구성 요소로, 활성화된 엔도뉴클레아제 또는 니카아제(nickase)로 작용할 수 있는 단백질이다. 상기 Cas 단백질은 crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)와 복합체를 형성하여 이의 활성을 나타낼 수 있다.

Cas 단백질 또는 유전자 정보는 NCBI(National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있다. 구체적으로, 상기 Cas 단백질은 Cas9 단백질일 수 있다. 또한, 상기 Cas 단백질은 스트렙토코커스( Streptococcus) 속, 네이세리아( Neisseria) 속, 파스테우렐라( Pasteurella) 속, 프란시셀라( Francisella) 속, 캄필로박터 속( Campylobacter) 속 유래의 Cas 단백질일 수 있고, 구체적으로, 스트렙토코서스 피요젠스( Streptococcus pyogenes)유래 Cas9 단백질일 수 있다. 그러나, 상술한 RNA-가이드 뉴클레아제의 활성을 갖는 한, 상기 기술된 예에 본 발명이 제한되는 것은 아니다. 본 발명에서 상기 Cas 단백질은 재조합 단백질일 수 있다.

본 발명에서 용어 "Cpf1" 또는 "Cpf1 단백질"은 상기 CRISPR/Cas 시스템과는 구별되는 새로운 CRISPR 시스템의 뉴클레아제로서, Cpf1의 유전자 가위로서의 역할은 비교적 최근에서야 보고되었다(Cell, 2015, 163(3): 759-71). 상기 Cpf1은 단일 RNA에 의해 구동되는 뉴클레아제로, tracrRNA가 필요 없고 Cas9에 비해 상대적으로 크기가 작은 특징을 가진다. 또한, 티민(thymine)이 풍부한 PAM(protospacer-adjacent motif) 서열을 이용하며 DNA의 이중 사슬을 잘라 점착종단(cohesive end)을 만드는 것으로 알려져 있다. 상기 Cpf1은 캔디다투스 파세이박터( Candidatus Paceibacter), 라치노스피라( Lachnospira) 속, 뷰티리비브리오( Butyrivibrio) 속, 페레그리니박테리아( Peregrinibacteria) 속, 액시도미노코쿠스( Acidominococcus) 속, 포르파이로모나스( Porphyromonas) 속, 프레보텔라( Prevotella) 속, 프란시셀라( Francisella) 속, 캔디다투스 메타노플라스마( Candidatus Methanoplasma), 또는 유박테리움( Eubacterium) 속 유래일 수 있다. 그러나, 상술한 RNA-가이드 뉴클레아제의 활성을 갖는 한, 상기 기술된 예에 본 발명이 제한되는 것은 아니다. 본 발명에서 상기 Cpf1 단백질은 재조합 단백질일 수 있다.

상기 용어 "재조합"은, 예컨대 세포, 핵산, 단백질 또는 벡터 등을 언급하며 사용될 때, 이종(heterologous) 핵산 또는 단백질의 도입 또는 천연형(native) 핵산 또는 단백질의 변경, 또는 변형된 세포로부터 유래한 세포에 의해 변형된 세포, 핵산, 단백질, 또는 벡터를 나타낸다. 따라서, 예컨대, 재조합 Cas9 또는 재조합 Cpf1 단백질은 인간 코돈 표(human codon table)를 이용하여 Cas9 또는 Cpf1 단백질을 암호화하는 서열을 재구성함으로써 만들 수 있다.

상기 Cas9 또는 Cpf1 단백질은 상기 단백질이 핵 내에서 작용할 수 있게 하는 형태일 수 있고, 세포 내로 도입되기에 용이한 형태일 수 있다. 그 예로 Cas9 또는 Cpf1 단백질은 세포 침투 펩타이드 또는 단백질 전달 도메인(protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리-아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 세포 침투 펩타이드 또는 단백질 전달 도메인은 상기 기술된 예 외에도 다양한 종류가 당업계에 공지되어 있으므로, 당업자는 상기 예에 제한되지 않고 다양한 예를 본 발명에 적용할 수 있다.

또한, 상기 Cas9 또는 Cpf1 단백질을 코딩하는 핵산은 추가적으로 핵 위치 신호(nuclear localization signal, NLS) 서열을 포함할 수 있다. 따라서, 상기 Cas9 또는 Cpf1 단백질을 코딩하는 핵산을 포함하는 발현 카세트는 상기 Cas9 또는 Cpf1 단백질을 발현시키기 위한 프로모터 서열 등 조절 서열 외에도 NLS 서열을 포함할 수 있으나 이에 제한되지 않는다.

본 발명의 Cas9 또는 Cpf1 단백질은 분리 및/또는 정제에 유리한 태그와 연결될 수 있다. 그 예로, His 태그, Flag 태그, S 태그 등과 같은 작은 펩타이드 태그, 또는 GST(Glutathione S-transferase) 태그, MBP(Maltose binding protein) 태그 등을 목적에 따라 연결할 수 있으나, 이에 제한되지 않는다.

본 발명의 구체적인 일 실시예에서 상기 단계 (a)는 (i) RNA-가이드 뉴클레아제(RNA-guide nuclease)를 코딩하는 서열이 삽입(knock-in)된 세포주를 제조하는 단계, (ii) 가이드 RNA(guide RNA)를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열(target sequence)을 포함하는 올리고뉴클레오티드를 포함하는 벡터를 제조하는 단계, (iii) 상기 벡터를 상기 세포주에 형질도입시켜 형질도입 세포를 제조하는 단계, 및 (iv) 상기 형질도입된 세포를 배양하는 단계를 포함하여 수행될 수 있다.

본 발명의 세포 내 시간 측정 방법에 따르면, 표적 서열의 인델 형성 단계에서 단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)은 표적 서열의 조성, RNA-가이드 뉴클레아제의 농도 및 가이드 RNA의 농도에 의해 결정된다. 이에 RNA-가이드 뉴클레아제를 코딩하는 서열이 삽입된 세포주를 제조함으로써, 세포주 내에서RNA-가이드 뉴클레아제의 발현 농도를 일정하게 유지시킬 수 있다.

상기 뉴클레아제는 도입된 세포가 가지고 있는 가이드 RNA-표적 서열 페어 또는 stgRNA 서열의 종류 및/또는 수에 따라 그 활성 정도가 다르게 나타날 수 있다. 상기 RNA-가이드 뉴클레아제는 플라스미드 벡터 또는 바이러스 벡터를 통해 세포에 전달되거나, RNA-가이드 뉴클레아제 단백질 그 자체로 세포 내에 전달될 수 있으며, 세포 내에서 RNA-가이드 뉴클레아제가 활성을 나타낼 수 있는 한 그 도입 방법에 특별히 제한되지 않는다. 한 예로, 단백질 전달 도메인과 연결된 형태로 RNA-가이드 뉴클레아제(예, Cas 단백질, Cpf1 단백질) 등이 전달될 수 있으나, 이에 제한되는 것은 아니다. 단백질 전달 도메인은 당업계에 공지된 다양한 종류가 사용될 수 있으며, 상기한 바와 같이 폴리-아르기닌이나 HIV 유래의 TAT 단백질을 들 수 있다. 그러나, 특별히 이에 제한되는 것은 아니다.

상기 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있다. 구체적으로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포) 등의 동물 세포; 또는 식물 세포 중에서 선택될 수 있으나, 이에 한정되지 않는다.

본 발명의 일실시예에서는, HEK293 세포의 전사 활성 영역에 FLP 재조합효소를 사용하여 SpCas9 서열을 삽입함으로써 Cas9이 삽입된 세포주를 제조하였다.

다음으로, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함하는 벡터를 제조할 수 있다. 본 발명의 일실시예에 따르면, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 벡터를 제작할 수 있다. 상기 가이드 RNA는 2종 이상의 서로 상이한 것일 수 있으며, 이러한 경우 2종 이상의 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 2종 이상의 벡터를 포함하는 벡터 라이브러리를 제작할 수 있다.

본 발명에서 용어 "라이브러리"는 특성이 다른 동종의 물질이 2 종 이상 포함된 집단(pool or population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 염기서열이 다른 2 종 이상의 올리고뉴클레오티드, 예컨대 가이드 RNA, PAM 서열, 및/또는 표적 서열이 다른 2종의 올리고뉴클레오티드를 포함하는 집단일 수 있고, 벡터 라이브러리(예, 바이러스 벡터 라이브러리)는 서열 또는 구성요소를 달리하는 2 종 이상의 벡터를 포함하는 집단일 수 있으며, 예컨대, 상기 올리고뉴클레오티드 라이브러리의 각각의 올리고뉴클레오티드에 대한 벡터들의 집단으로, 해당 벡터를 구성하는 올리고뉴클레오티드에 차이가 있는 2 이상의 벡터들의 집단일 수 있다. 세포 라이브러리는 특성이 다른 2 종 이상의 세포, 구체적으로 본 발명의 목적상 각각의 세포가 포함하는 올리고뉴클레오티드가 다른, 예컨대 도입된 벡터의 수 및/또는 종류, 특히 종류가 다른 세포들의 집단일 수 있다. 본 발명에서는 유전자 교정용 조성물이 형질도입된 세포 라이브러리를 이용하여 세포 내 시간 경과를 측정하는 방법을 제공하는 것을 목적으로 하므로, 상기 각각의 라이브러리를 구성하는 올리고뉴클레오티드, 벡터(예, 바이러스 벡터) 및 세포의 종류는 적어도 2 이상일 수 있으며, 그 상한은 상기 시간 측정 방법이 정상적으로 작동하는 한 제한되지 않을 수 있으나, 예를 들어 10,000개일 수 있다.

본 발명에서 용어 "올리고뉴클레오티드(oligonucleotide)"는 수 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 말하며, 본 발명의 목적상 상기 올리고뉴클레오티드는 이중나선 DNA일 수 있다. 본 발명에서 사용되는 상기 올리고뉴클레오티드는 20 내지 300 bp, 구체적으로, 50 내지 200 bp, 보다 구체적으로, 100 내지 180 bp의 길이를 가질 수 있다. 본 발명에서 상기 올리고뉴클레오티드는 가이드 RNA 코딩 염기서열 및 표적 염기서열을 포함할 수 있다. 본 발명의 상기 올리고뉴클레오티드는 자가-표적 가이드 RNA 코딩 서열을 포함할 수 있다. 또한, 상기 올리고뉴클레오티드는 PCR 증폭될 수 있도록 프라이머가 결합될 수 있는 추가의 서열을 포함할 수 있다.

구체적으로 단일 올리고뉴클레오티드에서 가이드 RNA는 이와 인접하게 존재하는 표적 염기서열에 Cis-acting 할 수 있다. 즉, 상기 가이드 RNA는 인접한 표적 염기서열의 절단 여부를 확인하기 위해 설계된 것일 수 있다.

상기 올리고뉴클레오티드는 세포에 도입되어 염색체 내에 통합(integration)되는 것일 수 있다.

올리고뉴클레오티드의 설계는 표적 서열의 인델 빈도를 측정하고 이로부터 시간을 예측하기 위한 목적 하에 당업자가 자유롭게 수행할 수 있다. 예컨대, 특정 가이드 RNA 서열에 대해서 표적 활성을 가지는 서열로 페어를 구성할 수 있고, 또한 상기 가이드 RNA 서열에 대해서 비표적 활성을 가지는 서열로 페어를 구성할 수 있다. 예컨대, 가이드 RNA 서열, 구체적으로, crRNA 서열과 완전히 상보적인 서열 또는 일부 염기가 불일치하는 일부 상보적인 서열을 설계할 수 있다. 또는 상기 가이드 RNA와 표적 서열의 성질을 동시에 갖는 stgRNA 서열을 설계할 수 있다.

또한, 당업자는 본 발명의 시간 측정을 위한 인델 분석 단계를 수행하기 위해 올리고뉴클레오티드에 추가적인 구성요소를 포함시킬 수 있다. 예컨대, 상기 올리고뉴클레오티드는 직접 반복 서열, 폴리 T 서열, 바코드 서열, 불변부 서열, 프로모터 서열, 및 스캐폴드 서열로 이루어진 군에서 선택되는 어느 하나 이상을 추가로 포함할 수 있으나, 이에 제한되지 않는다.

상기 올리고뉴클레오티드는 상술한 바와 같은 길이, 구체적으로 100 내지 200 개의 염기서열로 이루어진 것일 수 있으나, 이에 제한되는 것은 아니고, 사용되는 RNA-가이드 뉴클레아제의 종류, 분석 목적 등에 따라 당업자에 의해 적절히 조절될 수 있다.

한편, 상술한 올리고뉴클레오티드는, 5'에서 3' 순으로 표적서열 및 가이드 RNA 코딩 서열을 포함할 수 있고, 반대로 5'에서 3' 순으로 가이드 RNA 및 표적서열을 포함하도록 설계될 수 있다.

예컨대, 상기 올리고뉴클레오티드는 표적서열 및 가이드 RNA 코딩 서열을 포함하며, 구체적으로 바코드 서열, PAM 서열, 폴리 T 서열, 직접 반복 서열, 불변부 서열을 추가로 포함할 수 있으며, 각 서열의 순서는 제한되지 않는다.

또한, 상기 올리고뉴클레오티드는 stgRNA 코딩 서열을 포함하며, 구체적으로 바코드 서열, PAM 서열, 폴리 T 서열, 직접 반복 서열, 불변부 서열을 추가로 포함할 수 있으며, 각 서열의 순서는 제한되지 않는다.

또한, 상기 올리고뉴클레오티드는 가이드 RNA 코딩 서열 또는 stgRNA 코딩 서열에 인접하여 RNA-가이드 뉴클레아제가 결합하는 것을 돕는 스캐폴드 서열을 더 포함할 수 있다.

또한, 발현을 위하여 5' 말단 부위에 프로모터 서열을 포함할 수 있다. 본원의 실시예에서는 가이드 RNA 또는 stgRNA의 발현을 일정하게 유지하기 위해, 장기간 비암호화 RNA 발현을 일정하게 유지할 수 있는 것으로 알려진U6 프로모터를 사용하였다.

또한, 상술한 바와 같이, 상기 올리고뉴클레오티드는 상술한 구성요소 외에도 5' 및 3' 말단에 PCR 증폭이 가능하도록 하는 프라이머 부착 서열을 더 포함할 수 있다. 그러나, 특별히 이에 제한되는 것은 아니다.

본 발명의 상기 표적 서열은 10 내지 100 bp, 구체적으로는 20 내지 50 bp, 보다 더 구체적으로는 23 내지 34 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 가이드 RNA 코딩 서열은 10 내지 100 bp, 구체적으로는 15 내지 50 bp, 보다 더 구체적으로는 20 내지 30 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 stgRNA 코딩 서열은10 내지 200 bp, 구체적으로는 80 내지 180 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.

또한, 상기 바코드 서열은 각 올리고뉴클레오티드를 식별하도록 하기 위한 뉴클레오티드 서열을 의미한다. 본원에서 상기 바코드 서열은 2 이상의 반복 뉴클레오티드(AA, TT, CC, GG)를 포함하지 않는 것일 수 있으나, 각 올리고뉴클레오티드를 식별하도록 설계된 것이라면 특별히 이에 제한되는 것은 아니다. 복수의 올리고뉴클레오티드들에 있어, 상기 바코드 서열은 각 올리고뉴클레오티드가 식별될 수 있도록 적어도 2 개의 염기가 다르도록 설계된 것일 수 있다. 상기 바코드 서열은 5 내지 50 bp의 길이를 가질 수 있으나, 특별히 이에 제한되지 않는다.

다음으로, 상기 올리고뉴클레오티드 라이브러리를 이용하여 벡터 라이브러리(예, 바이러스 벡터)를 제조할 수 있다.

상기 벡터가 바이러스인 경우, 바이러스 라이브러리를 세포에 도입한 뒤, 이로부터 바이러스를 생산하여 수득할 수 있으며, 이를 이용하여 세포를 감염시킬 수 있으며, 이러한 과정은 당업계에 공지된 방법을 사용하여 당업자가 적절히 수행할 수 있다.

본 발명에서 벡터는 각각의 가이드 RNA 코딩 염기서열 및 표적 염기서열, 또는 stgRNA 코딩 염기서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있고, 바이러스 벡터는 구체적으로 렌티바이러스 벡터 또는 레트로바이러스 벡터 등이 사용될 수 있다. 그러나, 이에 제한되는 것은 아니고 당업자는 본 발명의 목적을 달성할 수 있는 한 공지된 벡터를 자유롭게 사용할 수 있다.

상기 벡터는 상기 올리고뉴클레오티드를 세포 내에 전달할 수 있도록 하는매개체, 예컨대 유전적 적제물을 의미한다. 구체적으로, 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물, 즉 올리고뉴클레오티드가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다.

상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.

본 발명의 구체적인 일 실시예에서는 준무작위 추출에 의해 24,000개의 자가-표적 가이드 RNA(stgRNA)를 설계하였고, 이를 포함하는 올리고뉴클레오티드 라이브러리를 제조하였다. 상기 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드는 총 138 nt (라이브러리 1 및 2), 또는 150 nt (라이브러리 3)의 염기 길이로, 각기 다른 stgRNA를 포함한다. 다음으로 렌티바이러스 벡터에 상기 올리고뉴클레오티드 라이브러리의 각각의 올리고뉴클레오티드를 클로닝하여 렌티바이러스 벡터 라이브러리를 제조하였고, 이를 세포에서 발현시켜 바이러스를 수득하였다.

다음 단계는, 본 발명의 상기 벡터를 각각 상기 RNA-가이드 뉴클레아제가 삽입된 세포주에 형질도입시킨 2종 이상의 세포를 포함하는 세포 라이브러리를 제작하는 단계이다.

구체적으로, 상기 벡터를 라이브러리를 제조하기 위한 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물, 즉 벡터를 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다.

상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 특별히 이에 제한되는 것은 아니다.

본원에서 제조된 세포 라이브러리는 stgRNA 코딩 서열을 포함하는 올리고뉴클레오티드가 도입된 세포 집단을 말한다. 이때 각각의 세포들은 벡터, 구체적으로 바이러스의 종류 및/또는 수가 다르게 도입된 것일 수 있다. 다만, 본 발명의 인델 빈도 분석을 통한 시간 측정 방법은 세포 라이브러리 전체를 이용하여 수행되고, 가이드 RNA를 코딩하는 염기서열 및 표적 서열이 stgRNA 형태로 도입되기 때문에 세포 감염 효율, 올리고뉴클레오티드의 카피 수 등의 편차에 크게 영향을 받지 않고 각 stgRNA에 의존적으로 데이터 해석이 가능하다.

상기 세포 라이브러리에서는 도입된 가이드 RNA-표적 서열 페어 올리고뉴클레오티드(또는 stgRNA) 및 세포 내에서 발현되는 RNA-가이드 뉴클레아제에 의해 뉴클레아제 활성이 나타날 수 있다. 즉, 도입된 표적 서열(또는 stgRNA)에 대하여 RNA-가이드 뉴클레아제에 의한 DNA 절단이 일어날 수 있으며, 이에 따라 인델(indel)이 나타날 수 있다.

본 발명에서 용어 "인델(indel)"은 DNA의 염기 배열에서 일부 염기가 중간에 삽입(insertion) 되거나 결실(deletion) 된 변이를 총칭한다. 인델은 상술한 바와 같이 RNA-가이드 뉴클레아제가 DNA의 이중 나선을 절단하는 경우 상동재조합(homologous recombination) 또는 비상동재접합(non-homologous end-joining, NHEJ) 기작에 의해 수선되는 과정에서 표적 서열에 도입되는 것일 수 있다.

상기 단계에서 배양된 세포를 동물에 이식하여 배양할 수 있다. 이 경우 살아 있는 동물 내에서 시간의 경과를 측정할 수 있다.

본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계[(b) 단계]를 포함한다.

상기 단계는 도입된 RNA-가이드 뉴클레아제의 활성이 나타난 세포로부터 DNA 서열을 수득하는 것을 포함할 수 있다. 이러한 DNA 수득은 당업계에 공지된 다양한 DNA 분리방법을 이용하여 수행될 수 있다.

세포 라이브러리를 구성하는 각각의 세포들은 도입된 표적 서열에서 인델이 발생한 것으로 예상되므로 표적 서열의 염기를 서열 분석, 예컨대 딥 시퀀싱 (deep sequencing), 또는 RNA-시퀀싱을 수행하여 이에 따른 데이터를 수득할 수 있다.

본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계[(c) 단계]를 포함한다.

상술한 바와 같이 각각의 인델은 각 가이드 RNA-표적 서열 페어(pair) 또는 stgRNA 서열에 의존적으로 발생할 수 있으며, 이에 따라 상기 인델 빈도는 가이드 RNA-표적 서열 페어 또는 stgRNA에 의한 RNA-가이드 뉴클레아제의 활성 정도로 평가될 수 있다.

복수의 가이드 RNA-표적 서열 페어 또는 stgRNA 서열은 상기 올리고뉴클레오티드 라이브러리를 구성하는 각각의 올리고뉴클레오티드에 이를 구별할 수 있는 특정 서열을 삽입하여 구별될 수 있으므로 데이터 분석 단계에서 이러한 구별 서열을 기준으로 데이터를 분류하여 분석이 가능하다. 일례로, 본 발명에서는 각 올리고뉴클레오타이드에 2 이상의 반복 뉴클레오티드(즉, AA, CC, TT, GG)를 포함하지 않고, 각각이 서로 적어도 2 개의 염기가 다르게 설계된 바코드(barcode) 서열을 포함시켜 제작하였다.

상기 표적 서열의 인델 빈도는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도(F)와 하기 식의 관계를 갖는다:

본 발명의 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법은하기 식으로부터 임의의 시점을 계산하는 단계[(d) 단계]를 포함한다:

상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이다.

본 발명의 시간 측정 방법은 온전한 표적 서열의 빈도가 시간에 따라 지수함수형으로 감소한다는 사실에 기초한다.

상기 람다(λ)는 단위 시간 당 표적 서열의 인델 생성 확률 또는 단위 시간당 온전한 표적 서열 카피수의 감소 확률을 나타내는 값으로서, 표적 서열의 조성, RNA-가이드 뉴클레아제 및 가이드 RNA(stgRNA)의 농도에 의해 결정되는 상수이다.

본 발명에서는 상기 (b) 단계 이전에 하기 단계를 포함하는 람다 상수(λ)를 추정하는 단계를 더 포함할 수 있다:

(i) 소정의 시점( t ^*)에 상기 배양된 세포의 일부를 수확하는 단계;

(ii) 세포 유전체 DNA로부터 표적 서열을 시퀀싱하는 단계;

(iii) 표적 서열의 전체 카피수 중 온전한 서열의 카피수 빈도(F, frequency of intact sequence)를 측정하는 단계; 및

하기 식을 이용하여 주어진 표적 서열에 대하여 단위 시간 당 표적 서열의 인델 생성 확률(λ)을 계산하는 단계:

상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, λ는 양의 상수, t*는 소정의 시점을 나타내는 양의 상수이다.

RNA-가이드 뉴클레아제의 농도와 가이드 RNA(또는 stgRNA)의 농도가 알려져 있다면, 특정 시점에 표적 서열의 온전한 카피수 빈도(F)를 측정함으로써 주어진 표적 서열에 대한 λ를 실험적으로 계산할 수 있다. 주어진 표적 서열에 대한 λ를 결정한 다음에는, 모르는 시점에서 표적 서열의 인델 빈도(IF)를 측정함으로써 방사성연대측정과 비슷한 방법으로 시간을 계산할 수 있다.

본 발명의 일실시예에서는 인델 빈도와 시간과의 관계식에서 특정 표적 서열에 대한 λ 값을 일정하게 하기 위하여, RNA-가이드 뉴클레아제의 농도 및 stgRNA의 발현 농도를 일정하게 유지할 수 있도록 세포 라이브러리를 구축하였다.

본 발명의 세포 라이브러리는 인 비보( in vivo) 상에서 온전한 표적 세포 카피수의 빈도가 시간에 따라 지수함수형으로 감소한다는 점으로부터 임의의 시점에 인델 빈도 값과 시간의 상관 관계를 지수함수식으로 나타냄으로써, 보다 정확하고 예측 가능성이 높은 시간 측정 방법을 제공한다.

본 발명의 상기 (e) 단계는 하기 식으로부터 임의의 시점을 계산할 수 있다:

상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, IF는 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 확률을 나타내는 양의 상수이며, t ₀은 세포 내에 형질도입된 전이 유전자가 발현되는 데 걸리는 잠복 시간이다.

본 발명의 인델 형성 과정은 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계를 포함한다. 이 때 가이드 RNA 및 표적 서열을 포함하는 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 전이 유전자가 발현되는 데까지 일정한 시간이 소요된다. 이와 같은 잠복 시간(t ₀)이 존재함으로 인해 시간 측정 또는 예측에 오차가 발생할 수 있다. 따라서 본 발명의 방법은 이미 알고 있는 잠복 시간을 고려하여 임의의 시점을 계산할 수 있다.

본 발명의 다른 양태는, 표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부, 상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부 및 상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부를 포함하는 세포 내 시간 측정용 시스템이다.

한편, 상술한 바와 같이 상기에서 기술한 용어들의 정의 및 양태는 하기에도 적용됨이 분명하다.

본 발명의 세포 내 시간 측정용 시스템에 있어서, 상기 표적 유전자 교정용 조성물은 가이드 RNA, 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제를 포함할 수 있다.

본 발명의 일실시예에 있어서, 상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA를 코딩하는 염기서열일 수 있다.

본 발명의 상기 인델 빈도 측정부의 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것일 수 있다.

본 발명의 상기 시간 예측부는 하기 식으로부터 임의의 시점을 계산하는 것일 수 있다:

본 발명의 방법은 인 비보( in vivo) 내에서 정해진 시점으로부터 임의의 시점으로 경과된 시간을 정확하게 측정할 수 있도록 하는 새로운 합성 생물학적 시계이다. 본 발명의 시스템을 통해 인 비트로( in vitro) 또는 인 비보( in vivo) 동물 세포, 및 살아 있는 동물의 DNA에 수 시간(hours)에서 수 주(weeks)에 이르는 시간 정보를 정확하게 기록할 수 있으며, DNA 서열 분석을 통해 모르는 시점에 기록시점부터 경과된 시간을 측정할 수 있다.

또한, 본 발명의 합성 DNA 시계를 이용하면 배양 세포의 특정 화학물질에 대한 최초 노출 시각, 노출 시간 및 살아 있는 동물에서 시간 기록을 시작한 후 남은 수명을 기록하고 측정할 수 있다.

또한, 본 발명의 합성 DNA 시계를 이용하여 세포 내 다양한 신호 전달에 관련된 시간적 정보를 세포 내 DNA에 기록하고 해독할 수 있다.

도 1은 본 발명에 따른 Cas9-삽입 세포(knockin cells) 제조를 위한 재조합 벡터 구조를 나타낸 모식도이다.

도 2 (A)는 Cas9-삽입 세포를 60일 동안 배양하면서 Cas9 단백질 발현양을 웨스턴 블럿으로 확인한 결과이고, (B)는 Cas9-삽입 세포의 형광현미경 관찰 사진이다 (Scale bar = 50 μm).

도 3은 본 발명의 일실시예에 따른 자가-표적 가이드 RNA(stgRNAs)의 구조를 나타낸 것이다. 각 표적 서열을 인식하기 위해 바코드 서열이 사용되었다.

도 4는 Cas9-삽입 세포를 이용한 본 발명의 시간 예측 실험 방법의 모식도이다.

도 5는 렌티바이러스 라이브러리 복제군 A 내지 H의 샘플링 시점을 나타낸 모식도이다.

도 6은 복제군 A 내지 H에서 모든 분석 시점의 온전한 표적 서열 빈도로부터 예측된 t ₀ 값의 분포이다.

도 7은 복제군 A 내지 F를 사용하여 시간에 따른 온전한 표적 서열 빈도 또는 인델 변화를 설명하는 후보 모델의 적합성을 비교한 데이터이다.

도 8 (a - c)는 시간에 따른 온전한 표적 서열 빈도 또는 인델 빈도의 변화에 대해 후보 모델 적합성을 비교한 데이터이다. 모든 복제군 데이터(A) 또는 각각의 복제군 데이터(C, D)를 이용해 계산한 AIC 및 BIC 값을 나타낸 것이다.

도 9는 일부 stgRNA에 대해 60일 동안 연속적으로 측정한 온전한 표적 서열 빈도를 점 그래프로 나타낸 것이다. 점선은 데이터에 적합된 지수함수형 붕괴 곡선을 나타내며, 그래프 위에 stgRNA-인코딩 서열(표적 서열)의 반감기를 나타내었다.

도 10 (A)는 LOOCV(Leave-one-out cross-validation) 결과, (B)는 (A)에서 시간 추정에 대한 상대절대오차(relative absolute errors)를 나타낸다. (C)는 모든 시점의 데이터(All time points) 또는 4일 이후 시점 데이터(> 4 days)으로부터 계산한 시간 추정에 대한 평균상대절대오차(mean relative absolute errors) 를 나타낸다. (D-E) 모든 시점의 데이터(D), 및 4일 이후 시점 데이터(E)로부터 계산한 평균상대절대오차에서 예측된 시간 값의 nps-가중 평균 효과를 나타낸다.

도 11은 라이브러리 1 및 2에서 계산된 stg-인코딩 서열의 반감기를 나타낸다.

도 12는 복제군 및 라이브러리 사이의 인델 빈도, 감마 값, 및 반감기의 상관관계를 나타낸 것이다: (a) 라이브러리 1 내 복제군 사이의 인델 빈도 상관관계, (b) 라이브러리 2 내 복제군 사이의 인델 빈도 상관관계, (c) 라이브러리 1 내 서로 다른 복제군으로부터 계산된 감마 값의 상관관계, (d) 라이브러리 2 내 서로 다른 복제군으로부터 계산된 감마 값의 상관관계, (e) 라이브러리 1 내 서로 다른 복제군으로부터 계산된 반감기의 상관관계, (f) 라이브러리 2 내 서로 다른 복제군으로부터 계산된 반감기의 상관관계, (g) 서로 다른 라이브러리 사이의 인델 빈도 상관관계, (h) 서로 다른 라이브러리 사이의 반감기 상관관계.

도 13은 복제군들 사이에 온전한 표적 서열 빈도의 nps-가중 평균(왼쪽)과 동등-가중 평균(오른쪽)을 비교한 결과이다.

도 14 (A)는 각 복제군에서 각 관찰 시점에 경과 시간 예측에 대한 평균 상대절대오차를 나타낸 것이고, (B)는 시간 예측에 대한 상대절대오차를 나타낸 것이다.

도 15는 stgRNA-인코딩 서열 개수가 온전한 표적 빈도에 기초한 시간 예측에 대한 평균 상대절대오차에 미치는 영향을 무작위 서브샘플링(n = 10)으로 분석한 결과이다.

도 16 (A)는 본 발명에 따른 ciCas9-삽입 세포( chemically inducible Cas9-knockin cells) 제조를 위한 재조합 벡터 구조를 나타낸 모식도이고, (B)는 ciCas9-삽입 세포의 형광현미경 관찰 사진이다 (Scale bar = 50 μm)

도 17 (A)는 본 발명의 일실시예에 따른 sgRNA-인코딩 및 표적 서열 쌍의 구조를 나타낸 것이다. 각 표적 서열을 인식하기 위해 바코드 서열이 사용되었다. (B)는 ciCas9-삽입 세포를 이용한 본 발명의 시간 예측 실험 방법의 모식도이다.

도 18은 세포 내 화합물 노출 경과 시간 기록에서 일부 표적 서열에 대해 60일 동안 연속적으로 측정한 온전한 표적 서열 빈도를 점 그래프로 나타낸 것이다. 점선은 데이터에 적합된 지수함수형 붕괴 곡선을 나타내며, 그래프 위에 stgRNA-인코딩 서열(표적 서열)의 반감기를 나타내었다.

도 19는 라이브러리 1 내지 3에 대한 반감기 분포를 나타낸다.

도 20 (A)는 라이브러리 3을 이용하여 LOOCV(leave-one-out cross-validation)을 수행한 결과이고, (B)는 (A)에 나타난 시간 예측의 상대절대오차이다.

도 21은 복제군 G와 H의 온전한 표적 서열 빈도의 nps-가중 평균을 비교한 결과이다.

도 22는 각 복제군에서 각 시점에 경과 시간을 예측할 때 평균 상대절대오차를 나타낸 것이다.

도 23 (A)는 다공성 폴리스티렌 스캐폴드에 심은 Cas9-삽입 라이브러리 2 세포를 현미경(왼쪽) 및 형광 현미경(오른쪽)으로 관찰한 결과이다 (Scale bar = 50 μm). (B)는 살아 있는 마우스에서 시간 경과를 예측하기 위한 실험 방법을 나타낸 모식도이다.

도 24는 온전한 표적 서열 빈도를 측정하여 경과 시간을 예측한 결과이다.

도 25는 Cas9-삽입 세포에 라이브러리 2 렌티바이러스로 감염시킨 후의 Cas9 뉴클레아제 발현량을 나타낸 웨스턴 블럿 결과(왼쪽)와 이를 정량화한 그래프(오른쪽)이다.

도 26은 라이브러리 2 세포에서 자가-표적 가이드 RNA의 농도를 나타낸 그래프이다.

도 27은 자가-표적 가이드 RNA당 세포 분석수에 따른 시간 예측 값의 상대절대오차값을 나타낸 그래프이다.

도 28은 낮은 유전 독성을 갖는 가이드 RNA의 선별 과정을 나타낸 모식도(왼쪽)와 각 가이드 RNA 세트별 반감기 분포를 비교한 그래프(오른쪽)이다.

도 29는 FLEx 스위치 개념을 도입한 플라스미드(위쪽)와 특정 생명현상에 반응성이 있는 반응성 프로모터를 이용하는 플라스미드(아래쪽)를 나타낸 모식도이다.

도 30은 FLEx 재조합 과정을 나타낸 모식도이다.

도 31은 특정 생명현상으로 Wnt 신호전달, 염증반응, heat induction에 따른 형광단백질의 발현을 확인한 결과이다.

도 32는 농도별 LiCl 주입에 의한 형광단백질의 발현을 확인한 결과이다.

도 33은 Wnt 반응성 FLEx DNA 시계 라이브러리 세포에서 Wnt 신호 유도 후 자가-표적 가이드 RNA의 인델 빈도를 나타낸 그래프이다.

이하, 실시예를 통하여 본 발명을 더욱 상세하게 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가 진 자에게 있어서 자명할 것이다.

실시예 1. CRISPR-Cas9 뉴클레아제로 유도된 온전한 표적 서열의 지수함수형 붕괴

인 비보( in vivo) 세포에서 시간의 경과를 기록하기 위해, Cas9 및 단일-가이드 RNA(sgRNA)로 구성된 CRISPR-Cas9 시스템에 의한 인델 형성을 활용하였다. Cas9 및 sgDNA 농도가 일정하게 유지된다면, 개별 세포에서 단위 시간당 표적 서열의 인델 생성 속도(rate)는 일정하다고 가정하였으며, 본 명세서에서 람다(λ)로 표기하였다. 세포 하나 당 표적 서열 하나를 도입하면, 개별 세포에서 인델 생성 반응은 개별적으로 일어나며, 표적 서열에서 각각의 인델 생성은 서로 독립적인 사건이다.

이 경우, 인델이 생성되는 속도 또는 전체 세포 군에서 온전한 표적 서열 카피수의 감소 속도(λ)는 시간 t에 온전한 표적 서열의 카피수(N _t)에 선형으로 비례하며, 하기 식으로 표현될 수 있다:

………………………………………………식 (1)

상기 식 (1)의 시간 t에 대한 정적분 식은 다음과 같다:

………………………………………………………식 (2)

여기서,

는 t 시점에 총 표적 서열 카피 수 중에서 온전한 표적 서열 카피수의 비율 또는 상대 빈도(이하에서, 빈도라 함)를 나타내며,

는 온전한 표적 서열의 최초(0 시점의) 카피수를 나타낸다. 상기 식 (2)에 나타난 바와 같이,

는 방사성 연대측정에 사용되는 지수함수형 붕괴를 따른다.

단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)은 렌티바이러스 형질도입을 이용하여 표적 서열을 도입할 때 표적 서열의 서열 조성, 및 Cas9과 가이드 RNA의 농도에 의해 결정된다. 따라서 Cas9 및 sgRNA의 발현 수준을 일정하게 유지한다면, λ는 표적 서열의 조성에 의해 결정된다.

실시예 2. 세포 내에서 Cas9 및 가이드 RNA 농도의 안정적인 유지

세포 내의 Cas9 농도를 일정하게 유지하기 위해, SpCas9 ( Streptococcus pyogenes 유래 Cas9)-삽입(knock-in) 세포주를 사용하였다. 이 세포주는 CMV 프로모터-Cas9-E2A-mRFP 서열을 FLP 재조합효소를 사용하여 변형된 HEK293 세포(Flp-In™ T-REx™ cells)의 전사 활성 영역에 주입하여 제조하였다(도 1).

히그로마이신(hygromycin) 존재 하에서 2개월 동안 배양하면서 상기 Cas9 삽입 세포에서 Cas9 단백질 발현 농도가 장기간 일정하게 유지되는지 확인하였다. 웨스턴 블럿 분석 결과 상기 세포에서 최대 60일 동안 동일한 양의 Cas9 단백질이 발현된다는 것을 확인하였고 (도 2A), 형광 현미경으로 관찰한 결과 세포군의 모든 세포에서 Cas9과 함께 번역되는 mRFP가 균일하게 발현된다는 것을 확인하였다 (도 2B). 이로부터 상기 Cas9 삽입 세포에서 오랜 시간 동안 SpCas9 발현양이 일정하게 유지된다는 것을 알 수 있었다.

한편, 가이드 RNA의 발현을 일정하게 유지하기 위해서는 장기간(수 개월간) 비암호화 RNA 발현을 일정하게 유지할 수 있는 것으로 알려진 U6 프로모터를 사용하였다.

실시예 3. stgRNA-인코딩 서열의 렌티바이러스 라이브러리 생성

Cas9 및 가이드 RNA 농도가 일정한 경우, 알려진 시점에 표적 서열의 온전한 카피수 빈도를 측정함으로써 실험적으로 주어진 표적 서열의 람다(λ)를 결정할 수 있다. 주어진 표적 서열에 대해 λ를 결정하면, 방사성 연대측정과 유사한 방법으로 모르는 시점에 표적 서열에서 인델 빈도(indel frequency, IF)를 측정함으로써 경과된 시간을 계산할 수 있다. 온전한 표적 서열 빈도 (F)는 F = 1 - IF로 계산된다.

그러나, 하나의 가이드 RNA만 사용할 경우 시간 예측의 정확성과 효과적으로 측정 가능한 시간의 범위가 제한된다. 따라서 본 발명에서는 높은 정확도로 다양한 기간에 대한 시간 측정을 위해서, 복수 개의 가이드 RNA와 이에 상응하는 표적 서열을 사용하였다.

본 발명자들은 렌티바이러스를 이용하여 융합된 수 천 개의 합성 표적 서열에서 인델 빈도를 결정하는 방법을 개발한 바 있다(한국공개특허 제10-2017-0123581호). 이 고효율 인델 빈도 평가 방법에서는 렌티바이러스 벡터를 이용하여 가이드 RNA 코딩 서열, 표적 서열 및 분석용 바코드 세트를 293T 세포에 전달하였다. 최근에, 가이드 RNA 코딩 서열이면서 동시에 표적 서열이 될 수 있는 홈잉 가이드 RNA(homing guide RNA) 또는 자가-표적RNA(stgRNA, self-targeting guide RNA) 시스템이 보고되었다. 본 발명에서는 고효율 인델 빈도 분석 시스템을 보다 단순화하기 위하여, 자가-표적 가이드 RNA 코딩 시스템 및 분석용 바코드 서열 쌍을 사용하였다(도 3). stgRNA를 사용하는 또 다른 이점은 이들의 활성이 보통의 가이드 RNA에 비해 감소되어, 오랜 시간에 걸쳐 시간 측정이 가능하다는 점이다.

먼저, 렌티바이러스 라이브러리 1을 준비하였고, 이는 준무작위로 선택된 24,000개의 stgRNA-인코딩 서열 및 이에 상응하는 바코드 서열을 포함한다. 다음으로, 24,000개의 sgtRNA를 암호화하는 렌티바이러스 라이브러리를 Cas9-삽입 세포에 형질도입시켜서 세포 라이브러리를 제조하였고, 각각 독립적으로 형질도입되고 유지되는 3개의 세포 라이브러리 복제군을 제조하였다 (복제군 A, B, C). 이 세포 라이브러리를 계대배양하였고, 라이브러리마다 평균 세포수가 stgRNA 수의 최소 1,000배를 유지하도록 하였다 (즉, 평균 1,000 cells/stgRNA x 24,000 stgRNA = 24 million cells) (도 4). 유전체 DNA를 분리하기 위해 정해진 시점에 배양된 세포의 일부를 수확하였다 (도 5). 유전체 DNA에서 표적 서열을 PCR 증폭한 후 인델 빈도 평가를 위해 딥 시퀀싱(deep-sequencing) 하였다. 11일째에 라이브러리 1의 복제군 A에서 평균 인델 빈도를 측정했을 때, stgRNA-인코딩 서열의 61%의 인델 빈도(IF)가 10% 이하의 매우 낮은 활성을 나타내었다.

따라서, 다른 렌티바이러스 라이브러리(라이브러리 2)를 만들기 위해 별도의 올리고뉴클레오티드 풀(pool)을 준비하였다. 라이브러리 2는 라이브러리 1에 비해 상대적으로 높은 활성을 가지는 stgRNA가 풍부한 2,000개의 stgRNA를 포함하도록 하였다. 라이브러리 2에 렌티바이러스를 각각 독립적으로 형질도입시켜서 3개의 복제군을 만들었다(복제군 D, E, F). 상기 3개의 복제군을 독립적으로 계대배양하였고, 라이브러리마다 평균 세포수가 stgRNA 수의 최소 12,000배를 유지하도록 하였다 (즉, 24 million cells) (도 4 및 5).

실시예 4. 잠복 기간의 계산

이항분포 B(n, P)는 nP 및 n(1 - P)가 충분히 큰 경우 대략적으로 정규분포에 근접할 수 있다. 빈도의 참값(모수) P에 대한 추정량(estimator)의 분산이 P(1 - P)/n으로 계산되기 때문에, n이 크고, P가 중간 값일 때(즉, nP 및 n(1 - P)가 모두 클 때) 모수 P를 추정하는 정확도가 향상될 수 있다. 이로부터 관찰된 빈도 p와 총 실시 횟수 n에 기초하여 참값 빈도 P의 추정 정확도에 대한 지표로 np 및 n(1-p)의 최소값을 사용할 수 있다는 것을 알 수 있다.

본 실시예에서, 주어진 특정 표정 서열 i에 대하여 주어진 시점 t에 측정된 온전한 타겟 서열 수

는 이항분포

를 따르며, 이 때

는 타겟 서열 i에 대해 주어진 시점 t에서 서열 분석 심도(sequencing read depth)를 나타내고,

는 빈도의 참값을 나타낸다. 따라서,

및

가 모두 클 때, 측정된 온전한 타겟 서열 빈도(

)는 참값

에 가까워질 수 있다.

및

에서 참값

가 알려져 있지 않기 때문에,

를 추정하기 위해

를 사용할 수 있다.

본 명세서에서는,

및

중에서 더 작은 값을 nps로 정의하였으며, 이 파라미터는 관찰값

에 기초하여 참값

을 추정하는 정확도에 대한 지표로서 사용되었다.

세포를 렌티바이러스로 처리한 후에, 렌티바이러스의 전이유전자(transgene)가 역전사되고, 숙주 유전체로 삽입되어서 발현되는 데 일정한 시간이 필요하다. 이와 같은 잠복 시간(t ₀)을 추정하기 위해, 지수함수형 모델에 기초하여 복제군 A 내지 F로부터 얻은 데이터를 이용하여 통계적으로 계산하였다. 상기 식 (2)에 하기와 같이 잠복 시간(t ₀)을 나타내는 파라미터를 추가하였고, 빈도(F)에 대한 nps로 가중된 잔차제곱합(RSS)을 최소화 하기 위한 비선형 최소자승법을 사용하여 λ와 t ₀를 결정하였다.

………………………………………………식 (3)

모델 적합을 위해, 2% <

< 95% 범위의 데이터를 사용하였다. 극단적으로 낮은 활성을 나타내는 몇몇 stgRNA의 경우, 온전한 표적 서열 빈도 F는 60일 동안 85% 이하로 감소하지 않았다. 따라서, 특정 stgRNA에 대하여 측정된 온전한 표적 서열 빈도가 모든 측정 시점에서 85% 이상이면, 상기 stgRNA-인코딩 서열을 분석에서 제외하였다.

계산된 잠복 기간의 분포를 도 6에 나타내었다. 모든 복제군 A 내지 F에서 5% 절단한 t ₀의 nps-가중 평균은 1.021일(days)이었으며, 이후 분석에서 이 값을 사용하였다.

실시예 5. 지수함수 모델의 검증

상기에서 가정한 바와 같이, 온전한 표적 서열 빈도 F가 지수함수형 붕괴를 따라 감소하는지 여부를 확인하기 위하여, 지수함수 모델을 선형 모델, 곰페르츠 모델(Gompertz) 및 로지스틱(logistic) 모델과 비교하였으며, 이를 위해 AIC(Akaike information criterion) 및 BIC(Bayesian information criterion)를 계산하였다. 모델 적합을 용이하게 하기 위하여 곰페르츠 모델 및 로지스틱 모델에서는 온전한 표적 빈도 F 대신 인델 빈도(IF = 1 - F)를 사용하였다.

그 결과 잠복 기간 t ₀를 1.021일 또는 0일로 가정하는지 여부와 관계 없이, 복제군 A 내지 F에서 모두 지수함수 모델의 AIC 및 BIC 값 대부분이 나머지 세 가지 모델의 값보다 작게 나타났다 (도 7, 도 8a-c). 이로부터 온전한 표적 서열 빈도가 지수함수형 붕괴 모델을 따라 감소한다는 것을 알 수 있었다. 몇몇 stgRNA에 대한 적합된 지수함수 모델을 도 9에 예시로서 나타내었다.

실시예 6. LOOCV(Leave-One-Out Cross-Validation)을 이용한 경과 시간 측정

본 발명의 지수함수형 붕괴 모델을 이용하여 시간을 측정할 수 있는지 확인하기 위하여, LOOCV(Leave-One-Out Cross-Validation)을 수행하였다. 구체적으로, 실험을 통해 측정된 시점 중 하나를 선택하고 그 시점에서 온전한 서열 빈도를 이용하여 경과 시간을 예측하였다. 이 예측에 있어서, 빈도에 대한 nps-가중 RSS를 최소화하기 위한 비선형 최소자승법을 사용하여 다른 시점의 온전한 서열 빈도로부터 λ를 계산하였다. 잠복 기간 추정 시에, 온전한 서열 빈도가 극단치인 경우(

< 2% 또는

> 95%) 및 stgRNA 활성이 극단적으로 낮은 경우(60일 동안 측정된 모든 시점에서

가 85% 이상)는 분석에서 제외시켰다. 다음으로, 걸러지고 남은 수 천 개의

값으로부터 특정 시점에서 수 천 개의 추정 시간

값을 추정하였다. 모르는 시점에 경과 시간

을 예측하기 위해 상기 수 천 개의

값의 사분위수(25% 절단치) nps-가중 평균을 구하였다. 이로부터 복제군 A 내지 F에 대한 시간 예측은 매우 정확한 것을 알 수 있었다 (도 10A). 모든 복제군에 있어서 4일 후에 상대절대오차(relative absolute errors)는 20% 이하로 나타났다 (도 10B). 또한 이 시간 예측은 4일 후에 안정화되었으며, 4일 후 평균상대절대오차(MRAE, mean relative absolute error)는 복제군 A 내지 F에서 3.1% 내지 5.2% 범위로 나타났다 (도 10C). 상기 MRAE는 모든 시점에 대하여 4.5% 내지 8.7% 범위로 확인되었다 (평균 5.9%, 중간값 5.5%). 또한, 추정 시간

값의 nps-가중 RSS 및 nps-가중 평균 계산에 기초한 시간 예측의 정확성을 추정 시간

값의 동일-가중 RSS 및 동일-가중 평균 계산에 기초한 것과 비교하였을 때, nps-가중 접근법을 사용한 경우에서 모든 시점의 MRAE 및 4일 후의 MRAE가 모두 더 낮게 나타나는 것을 확인하였고 (도 10D-10E), 이로부터 nps-가중 평균법이 시간 예측의 정확성을 더 높인다는 것을 알 수 있었다.

실시예 7. 표적 서열의 반감기

방사성연대측정에 있어서 λ 대신에 반감기(t _1/2, half-life)가 더 널리 사용되기 때문에, 상기 식 (2)는 하기와 같이 표현될 수 있다:

…………식 (4)

상기한 바와 같은 비선형 최소자승법을 사용하여, 모든 측정 시점의 온전한 서열 빈도로부터 각각의 stgRNA-인코딩 서열에 대한 반감기를 결정하였다. 하나 이상의 복제군에 대해 특정 stgRNA 서열이 사용될 때, 복제군들의 반감기로부터 계산한 nps-가중 평균 반감기가 진짜 반감기에 가장 근접한 추정값으로 선택되었다. 라이브러리 1 및 2에서 stgRNA와 관련된 반감기는, 라이브러리 1의 경우 2.3 ~ 747일 (중간값: 91.5일, 평균: 113일) 범위, 라이브러리 2의 경우 2.7 ~ 642일 (중간값: 34.7일, 평균: 56.6일)로 나타났다 (도 11).

실시예 8. 서로 다른 복제군 및 라이브러리 사이의 경과 시간 기록 및 측정의 재현성(Reproducibility) 확인

F 또는 IF 값을 시계로 사용하기 위해서는 복제군 사이의 재현성 및 높은 상관관계가 필수적이다. 라이브러리 1 및 라이브러리 2에서 복제군 사이의 인델 빈도에 높은 관련성이 있었다 (도 12a, 12b). 두 라이브러리에서 서로 다른 복제군의 온전한 서열 빈도 Fs (= 1 - IF)로부터 계산된 반감기 및 λ값 역시 비교가능하였다 (도 12c-12f).

다음으로 서로 다른 라이브러리 사이의 재현성을 평가하였다. 라이브러리 1 및 2는 1,200개의 stgRNA를 공유하며, 1,200개의 표적 중에서 889개에 대한 반감기는 모든 복제군 A, B, C, D, E 및 F에서 결정되었다. 인델 빈도는 서로 다른 라이브러리의 복제군 사이에서도 높은 상관관계가 있었고 (도 12g), 온전한 표적 서열 빈도(Fs)의 nps-가중 평균 및 동등-가중 평균은 모든 6개 복제군에서 비교가능하였다 (도 13). 이로부터 주어진 stgRNA-인코딩 서열에 대한 온전한 서열 빈도가 감소하는 속도는 라이브러리 배치마다 거의 동일하며 독립적이라는 것을 알 수 있었다. 또한, 복제군 E에서는 3가지 시점(4.0일, 10.9일, 15.1일)에서만 온전한 서열빈도 F를 측정하였음에도 불구하고, 서로 다른 라이브러리의 복제군에서 계산된 반감기 및 λ 값 사이에서도 높은 상관관계가 확인되었다 (도 12h).

마지막으로, 889개의 공유 stgRNA를 사용하여 시간 예측이 재현 가능한지 평가하였다. 어떤 복제군에 대해 모르는 시점에서 경과된 시간을 추정할 때 다른 복제군에서 계산된 반감기를 이용하는 경우, 시간 예측 오차는 비슷했고, 오차의 평균은 4일차 이후에 10% 이하로 떨어졌다 (도 14A-14B). 이로부터 본 발명의 시스템은 라이브러리 배치 또는 복제군과 무관하게 높은 재현성 및 정확성을 나타냄을 알 수 있었다.

실시예 9. 표적 서열의 개수 감소가 시간 측정 정확성에 미치는 영향

다음으로, 시간 측정에 있어서 더 적은 수의 stgRNA를 사용할 수 있는지 알아보았다. 구체적으로 복제군 A 내지 F에서 무작위 추출로 stgRNA 개수를 줄이고 각 복제군에 대한 MRAE 값을 계산하였다. MRAE 값은 거의 100 또는 200개의 stgRNA에 대새 비교 가능했으며, 그 후로 MRAE는 stgRNA 수가 감소함에 따라 급격하게 변동하고 증가하였다 (도 15). 이로부터 상대적으로 정확한 시간 측정을 위해서는 적어도 100 또는 200개의 stgRNA를 포함한 작은 규모의 라이브러리를 이용할 수 있음을 알 수 있었다.

실시예 10. 세포 내 화학 물질 노출의 경과 시간 기록

DNA 서열 안으로 화학 물질 노출 측정을 기록하기 위해, 화학적으로 유도 가능한 Cas9 (chemically-inducible Cas9, ciCas9)을 사용하였으며, 이 ciCas9은 화합물 A-1155463의 존재 하에 빠르게 활성화되는 것이다 (Rose et al., 2017; Rose et al., 2018). 먼저, Cas9-삽입 세포를 만드는 것과 유사한 방법으로 ciCas9-삽입 세포를 제조하였다 (도 16). 또한, stgRNA는 sgRNA에 비해 너무 약한 활성을 나타내기 때문에, 몇 시간 단위와 같이 상대적으로 짧은 시간을 기록하기 위해 stgRNA-인코딩 서열 대신에 보통의 sgRNA-인코딩 서열과 이에 상응하는 표적 서열을 따로 포함하는 라이브러리 쌍을 사용하였다 (도 17A). ciCas9-삽입 세포를 sgRNA-인코딩 및 표적 서열이 짝지어진 라이브러리 3으로 형질도입시켰다. 형질도입된 세포는 10 μM A-1155463으로 처리한 후 시간에 따라 온전한 서열 빈도를 측정하였다 (도 17B, 도 5). 온전한 표적 서열 빈도는 시간에 따라 지수함수형으로 감소하였다 (도 18). A-1155463 존재 하에서 계산된 반감기는 47.9시간 내지 442시간 (평균: 219시간, 중간값: 214시간)으로 나타났다 (도 19). 상기 라이브러리 1 및 2를 이용하여 수행한 바와 같이 라이브러리 3을 이용하여 LOOCV(leave-one-out cross-validation)을 수행한 결과, 본 발명의 시간 예측 정확도가 매우 높고 (도 20A), 50분 이후 상대절대오차는 30% 이하로 나타났다 (도 20B). 이로부터 화학 물질에 대한 노출 시간 경과를 기록하고 측정할 수 있으며, 이 기록은 50분 이후에 보다 정확하다는 것을 알 수 있었다.

A-1155463을 처리하지 않은 경우, A-1155463 존재 하에서 결정된 반감기를 이용하여 계산한 4일째(= 96시간)에 대한 추정 시간은 2.1시간으로, A-1155463 존재 하에서 추정된 경과 시간인 96시간에 비해 46배 짧았다.

또한, 온전한 표적 서열 빈도의 nps-가중 평균은 복제군 G 및 H 모두 비슷하게 나타났으며 (도 21), 이로부터 복제군 사이에 ciCas9-유도 인델 형성의 비교가능한 속도를 알 수 있었다. 어떤 복제군에 대해 모르는 시점에서 A-1155463 노출 시간을 추정할 때 다른 복제군에서 계산된 반감기를 이용하는 경우, 복제군 H는 2가지 시점(48시간, 120시간)만 포함하였음에도 불구하고, 시간 예측 오차는 비슷했고, 오차의 평균은 30% 이하로 떨어졌다 (도 22). 이로부터 서로 다른 복제군 사이에 높은 재현성이 있음을 알 수 있었다.

또한, 50분과 그 이후에 시점을 계산할 때, 모든 시점의 평균 값과 비교하여 MRAE는 더 낮게 나타났다. 이 결과는 본 발명의 시간 예측 시스템이 높은 재현성 및 정확성을 가진다는 것을 뒷받침하며, 결과적으로 A-1155463 화합물 노출 시간 경과를 기록할 수 있음을 알 수 있었다.

실시예 11. 살아 있는 마우스 내 경과 시간 기록

다음으로, 인 비보( in vivo) 동물 모델 내에서 시간 경과를 기록할 수 있는지 확인하였다. 먼저, 본 발명자들은 stgRNA-인코딩 서열 라이브러리로 형질도입된 Cas9-삽입 세포를 알고 있는 시점에 마우스 내로 전달한 후 온전한 표적 서열 빈도를 분석하면 세포 전달 후 동물이 살아 있는 상태에서 시간을 예측할 수 있게 할 것이라고 가정하였다. 마우스 내로 세포를 효과적으로 전달하기 위해, 먼저 Cas9-삽입 세포를 라이브러리 2로 형질도입하고 형질도입된 세포를 다공성 폴리스티렌 스캐폴드에 1 million cells/scaffold 농도로 심었다. 세포를 파종한지 2일 후, 형광현미경으로 세포가 스캐폴드에 잘 부착된 것을 확인하였다 (도 23A). 다음으로 이 세포가 포함된 스캐폴드를 NOG-SCID 마우스의 피하에 이식하였다. 다음으로 세포 이식 후 4일, 8일, 14일 및 21일째 되는 날 마우스를 안락사시키고 스케폴드를 제거한 후 분석 시까지 -20℃에 보관하였다 (도 23B). 동일 조건의 인 비트로( in vitro) 대조군으로서, 상기 세포를 포함한 스캐폴드를 인 비트로에서 배양하였다.

스캐폴드로부터 유전체 DNA를 분리하고, 온전한 표적 서열 빈도를 평가하여 상기한 바와 같이 독립적인 인 비트로 실험에서 복제군 D 내지 F 분석으로 결정된 반감기를 이용하여 경과 시간을 추정하였다. 그 결과 온전한 표적 서열 빈도를 기초로 측정한 스캐폴드 이식 후 수명의 상대절대오차는 4일, 8일, 14일 및 21일째에 각각 12%, 8.8%, 3.1%, 및 6.4% (네 시점 전체의 평균 오차: 7.6%)에 불과했다 (도 24의 Replicate D-F). 이로부터 마우스 내에서 정확한 방법으로 경과 시간을 기록할 수 있음을 알 수 있었다.

또한, 이 오차는 대조군 실험으로 결정된 반감기를 사용했을 때 비교가능하였고 (도 24의 In vitro parallel), 이로부터 본 발명의 시간 기록 시스템의 재현성이 복제군마다 독립적이며, 인 비트로나 인 비보 조건 사이의 미세한 환경 차이에 거의 영향을 받지 않는다는 것을 알 수 있었다. 이는, 동물이 죽을 때 Cas9-유도 인델 생성이 멈춘다면, 정해진 시점에 시간 기록 세포를 동물에 이식하면 수명을 기록할 수 있다는 것을 의미한다.

실시예 12. 세포 내 RNA-가이드 뉴클레아제와 자가-표적 가이드 RNA의 농도 유지 확인

단위 세포당 온전한 표적 서열 카피수의 감소 확률(λ)이 표적 서열의 서열, RNA-가이드 뉴클레아제 및 가이드 RNA의 농도에 의해 결정되는 것으로 가정하였을 때, RNA-가이드 뉴클라아제와 자가-표적 가이드 RNA의 발현 농도가 일정하게 유지되는지 여부를 확인하였다.

먼저, RNA-가이드 뉴클레아제의 발현 농도를 확인하기 위하여 Cas9-삽입 라이브러리 2 세포를 85.5일까지 배양하면서 웨스턴 블럿을 통해 발현량을 확인하였다 (도 25). 웨스턴 블럿에서 Flp-In 은 Flp-In™ T-REx™ 세포를 사용하였으며, Cas9 KI는 Cas9-삽입 세포를 사용하였다. D11.5, D42.5, D85.5는 각각 Cas9-삽입 세포에 라이브러리 2 렌티바이러스로 감염시킨 후 경과일을 나타낸 것 (Flp-In 샘플 n=2, 나머지 샘플 n=4)이다. 정량화 그래프에 나타난 것과 같이 Cas9 뉴클레아제 발현량이 일정하게 유지되는 것을 확인하였다.

세포 라이브러리에서 자가-표적 가이드 RNA의 농도를 확인하기 위하여 Flp-In 세포, Cas9-삽입 세포, 라이브러리 2 세포 (11.5, 35.5, 42.5, 59.5일 샘플)에서 각각 small RNA (miRNeasy Mini Kit, QIAGEN)를 추출하여 Cdna로 합성한 뒤 qPCR (SYBR™ Green PCR Master Mix, ThermoFisher)을 통해 정량하였다 (도 26). 각각의 샘플에서 small RNA를 추출하여 RT-qPCR로 자가-표적 RNA 농도를 측정(샘플 당 n=2)하였으며, 내생 대조군으로는 U6 snRNA를 사용하였다. qPCR에 사용한 프라이머는 다음 [표 1]에 나타내었다. 정량화 그래프에 나타난 것과 같이 라이브러리 2 세포에서 59.5일까지 자가-표적 가이드 RNA의 농도가 일정한 것을 확인하였다.

Usage	Name	Sequence	서열번호
stgRNA expression quantification	stgRNA_scaffold_pF1	GGGTTAGAGCTAGAAATAGCAAGTTAACC	21
	stgRNA_scaffold_pR1	CCGACTCGGTGCCACTTTTTC	22
	U6_endogenous_ctrl_pF1	CTCGCTTCGGCAGCACA	23
	U6_endogenous_ctrl_pR1	AACGCTTCACGAATTTGCGT	24

실시예 13. 관찰한 세포 개수와 시간 예측 정확도의 관계성 확인

세포 라이브러리를 이용하여 시간을 측정할 때에는, 서로 다른 자가-표적 가이드 RNA별로 충분한 개수의 세포가 분석되어야 인델 빈도 데이터의 신빙성을 확보할 수 있다. 또한, 신빙성이 높은 인델 빈도 데이터로 분석하여야 시간 예측 정확도를 높일 수 있다. 따라서, 일정 수준 이상의 시간 예측 정확도를 얻기 위해 필요한 최소 세포 수를 확인하기 위해, 관찰한 세포 개수에 따른 시간 예측 에러값을 측정하였다.

Cas9-삽입 세포에 라이브러리 2 렌티바이러스를 감염시킨 뒤 14.5일이 지난 샘플을 분석하였다. 최종 반감기 리스트의 반감기 정보를 이용하여 시간 예측 에러값을 측정하였다 (도 27). Library coverage (x)는 자가-표적 가이드 RNA당 분석한 세포 개수를 의미한다. 최소 세포수인, 자가-표적 가이드 RNA당 0.12개의 세포 분석 시 상대절대오차값은 552.0%로 매우 높게 나타났다. 최대 세포수인, 자가-표적 가이드 RNA당 120,000개의 세포 분석 시 상대절대오차값은 8.2%로 나타나 시간 예측 정확도가 우수한 것을 확인하였다. 한편, 자가-표적 가이드 RNA당 1,200개의 세포 분석 시 상대절대오차값이 16%로 나타나 유의미하게 정확한 시간 예측 값을 도출할 수 있음을 확인하였다.

실시예 14. 세포 독성이 낮은 자가-표적 가이드 RNA의 선별

세포 라이브러리를 이용하여 시간을 측정할 때에는, 세포 내에서 일정한 속도로 행해지는 이중나선 절단을 통한 인델 형성이 필수적이다. 그러나, 지속적인 이중나선 절단은 각각의 자가-표적 가이드 RNA의 서열과 비슷한 다른 유전체 서열을 망가뜨릴 수 있는 오프-타겟 (off-target) 효과를 유발할 위험이 있다. 이러한 유전 독성을 최소화하고 안정성을 극대화 하기 위해 실험에 사용한 자가-표적 가이드 RNA에 대한 선별 작업을 수행하였다.

먼저, 염기서열을 기반으로 Cas9의 잠재적 오프-타겟 사이트를 찾아주는 Cas9-OFFinder (Bae S et al., Bioinformatics (2014)) 웹툴의 코드를 이용하여, 라이브러리 1과 2에 공통적인 가이드 RNA에서 인간 유전체 상에서 존재하는 서열과 비슷한 서열을 갖는 자가-표적 가이드 RNA를 제거하는 필터링을 수행하였다. 사용한 필터 조건으로 라이브러리 염기서열 구성 성분 중 20nt 가이드 염기서열에서 인간 유전체 서열과 비교 하였을 때에 완전히 같거나, NRG PAM 시퀀스를 기준으로 1, 2bp 미스매치를 갖는 유전체 오프-타겟 개수를 분석하였다. 또한, DNA bulge와 RNA bulge 1, 2bp 조건에서도 완전히 같은 서열을 갖거나 1bp의 미스매치를 갖는 유전체 오프-타겟 개수를 도출하였다. 첫번째 필터링 조건에서 분석된 오프-타겟 개수의 합산이 적은 순으로 자가-표적 가이드 RNA 90개 (Guide set 1)만 다음 필터링 과정에 사용하였다 (도 28).

이어서, 첫번째 필터링 후 남은 90개 가이드 RNA에 대해 생존에 필수적인 유전자 (Hart T et al., EMBO molecular systems biology (2014), Hart T et al., Cell (2015)) 와 비슷한 시퀀스를 갖는 가이드 RNA를 제거하였다. 사용한 필터 조건으로 라이브러리 20nt 가이드 염기서열에서 생존 필수 유전자 염기서열과 비교 하였을 때에 완전히 같거나, NRG PAM 시퀀스 기준으로 1, 2, 3bp 미스매치를 갖거나 DNA bulge와 RNA bulge 1, 2bp 조건에서도 완전히 같은 서열을 갖거나 1, 2bp의 미스매치를 갖는 유전체 오프-타겟 개수를 분석하였다. 두번째 필터링 조건의 오프-타겟 개수 합산이 적은 순으로 자가-표적 가이드 RNA를 20개 (Guide set 2)를 뽑아내었고, 최종 20개 가이드 RNA는 생존 필수 유전자 외 오프-타겟의 개수는 3개 이하였다.

라이브러리 2, Guide set 1, 2에 속하는 자가-표적 가이드 RNA의 반감기 분포 비교 결과 서로 크게 차이가 없었으므로, 최종적으로 높은 안정성을 가지는 RNA가 선별되었음을 확인하였다.

실시예 15. DNA 시계의 일반화를 위한 FLEx DNA 시계 라이브러리 시스템 구축

DNA 시계로서 세포 라이브러리의 적용 가능성을 넓히기 위해, Cas9-삽입 세포나 ciCas9-삽입 세포를 이용하지 않고 다른 다양한 생물학적 현상을 측정할 수 있는 일반화된 시스템을 구축하였다. 특정 생명현상에 반응하여 Cas9 뉴클레아제의 발현을 유도하기 위해 Cre-mediated recombination을 이용한 FLEx 스위치 개념을 도입하였다 (도 29). (Schnutgen F et al., Nature Biotech (2003), Andersson-Rolf A et al., Nature Biotech (2017))

FLEx DNA 시계 라이브러리 시스템에 이용한 벡터는 Sleeping Beauty (SB) transposon에 기초하여 벡터를 새롭게 고안하였다. 기존 라이브러리 1, 2, 3과 같이 렌티바이러스를 이용한 라이브러리에서는 polyA 시퀀스를 사용할 수 없고, 8kb 이상의 큰 카세트를 인코딩하기에는 부적절하기 때문이다. 따라서 SB transposition에 필요한 ITR 염기서열이 카세트 양 말단에 존재하여, SB transposase에 의해 세포 내 유전체 염기서열에 삽입될 수 있도록 한다. ITR 염기서열 안쪽에 위치한 ins (insulator) 시퀀스는, DNA 시계가 작동한 뒤 Cas9 뉴클레아제의 발현량을 세포마다 비슷하게 맞춰주기 위해 첨가하였다. (Loveless TB et al., BioRxiv (2019), Liu M et al., Nature Biotech (2015)) 도 29에서 ins와 PuroR 사이의 삼각형 및 U6와 polyA 사이의 삼각형은 lox2272 서열이고, PuroR와 EF1a 사이의 삼각형 및 polyA와 Cas9 사이의 삼각형은 loxP 서열, polyA는 SV40 polyA 서열을 의미한다.

세포 독성이 낮고 안정성이 높은 자가-표적 가이드 RNA를 이용하기 위해 위 18에서 선별해낸 가이드 RNA 20개 중 11개를 이용하여 FLEx DNA 라이브러리의 stgRNA 부분에 클로닝하여 라이브러리를 제작하였다.

FLEx DNA 시계 라이브러리 벡터에 Cre 단백질이 작용하면 Cre-dependent recombination에 의해 FLEx 스위치가 작동하고, 그 결과로 꺼져있던 Cas9 뉴클레아제의 발현이 유도된다. 이 Cas9 뉴클레아제 발현이 시작되면 자가-표적 가이드 RNA 서열에 인델을 유도하고, 그 결과로 라이브러리의 자가-표적 가이드 RNA 서열에 형성된 인델 빈도를 측정하여 시간을 예측할 수 있다 (도 30). Cre 단백질에 의해 lox2272 1쌍, loxP 1쌍에 재조합이 일어나면 순서에 상관없이 EF1a 프로모터에 의해 Cas9과 mClover3 형광단백질이 발현되고, stgRNA 부분에 인델이 지속적으로 형성된다.

이처럼, 특정 생명현상에 반응성이 있는 프로모터에 의해 Cre 단백의 발현이 조절되도록 고안하면 특정 생명현상이 일어난 시간을 측정하는 것이 가능해진다.

실시예 16. 특정 생명현상에 반응성을 갖는 세포주의 수립

Cas9-삽입 세포나 ciCas9-삽입 세포의 사용에 국한되지 않고 다른 다양한 생물 현상의 시간적 정보를 측정하기 위해, 특정 자극에 의해 전사가 유도되는 다양한 합성 프로모터 가진 렌티바이러스 벡터를 제작하였다. Wnt 신호 전달에 반응하는 TCF-LEF 합성 프로모터 (Tang W et al., Science (2018)), 염증반응에 의해 활성화되는 NF-kBR 합성 프로모터 (Perli SD et al., Science (2016)), heat induction에 반응하는 HSE 합성 프로모터 (Ortner V et al., Cell Stress and Chaperones (2015))에 대한 렌티바이러스 벡터를 고안하였다. 각각 해당 합성 프로모터 하에 Cre 단백질과 mRuby3 형광단백질 염기서열을 인코딩하도록 클로닝하였다 (도 31).

위 세가지 생명현상에 반응하여 Cre 단백질을 발현하게 하는 렌티바이러스를 제작하여 HEK293T 세포에 각각 감염시킨 뒤, 단일 클론 세포주를 수립하였다. 이 세포주에 각각 Wnt (25mM LiCl 처리), 염증반응 (10ng/ml hTNFa 처리), heat induction (42C heat-shock에서 배양)하여, 모두에서 mRuby3 형광단백질이 발현되는 것을 확인하였다.

실시예 17. Wnt 신호전달에 반응하여 작동하는 DNA 시계 시스템 검증

기 수립한 생명현상에 반응성을 갖는 세포주 중에서 Wnt 신호전달에 반응하는 세포주에 FLEx DNA 시계 라이브러리를 도입하여 Wnt 신호전달에 의해 작동하는 DNA 시계 시스템을 구축하였다. FLEx DNA 시계 라이브러리 벡터와 SB transposase 벡터를 동시에 Wnt 반응성 세포주에 트랜스펙션하여 푸로마이신으로 선택적 배양을 한 뒤, LiCl을 처리하여 FLEx DNA 시계 라이브러리에 Cre-dependent recombination을 유도하였다 (도 32).

Wnt 신호전달에 반응하는 HEK293T 단일 클론 세포주에 FLEx DNA 시계 라이브러리를 도입하였으며, Wnt (25.6mM, 51.2mM LiCl 처리)에 의해 Cre 단백질과 mRuby3 형광단백질이 발현되었다. 이 Cre 단백질에 의해 Cas9 뉴클레아제와 mClover3 발현이 유도되는 것을 확인하여, Wnt 신호전달이 일어난 시점을 측정할 수 있는 DNA 시계 시스템이 작동하는 것을 확인하였다.

Wnt 반응성 FLEx DNA 시계 라이브러리 세포에 여러가지 시작 시점에서 (0, 4, 8일) LiCl로 Wnt 신호를 이틀간 유도하고, 표시된 시점에서 각각 세포를 채취하여 11개의 자가-표적 가이드 RNA의 인델 빈도를 분석하였다 (도 33).

샘플 당 두 개의 복제군이 존재하며, 하나의 복제군 인델 빈도 데이터를 이용해 라이브러리에 포함된 자가-표적 가이드 RNA의 반감기를 추정하였다. 도 33에서 원이 표시된 시점에서 해당 샘플을 채취하고, 빈 원은 Wnt 신호 유도를 하지 않은 대조군 (bg), 색 또는 패턴으로 표시된 원은 진한 선에 해당하는 기간 동안 Wnt 신호를 유도한 샘플을 나타낸 것이다. 도 33의 우측 그래프는 각 샘플의 인델 빈도 데이터를 이용한 시간 예측값을 나타낸 것이다. 상기 그래프에서 확인되는 바와 같이, 추정된 반감기로 다른 하나의 복제군의 시간을 예측하였을 때 각각 다른 Wnt 신호 시작 시점에서 경과된 시간을 잘 예측되는 것이 확인되었다. 따라서, 특정 생물학적 현상이 유도된 시점을 측정할 수 있는 FLEx DNA 시계 시스템이 잘 작동하는 것을 검증하였다.

[실험 재료]

본 발명의 실시예에 사용된 물질 및 데이터의 출처를 하기 표에 나타내었다.

REAGENT or RESOURCE	SOURCE	IDENTIFIER
항체
Anti-CRISPR-Cas9 antibody [7A9-3A3]	Abcam	Cat#ab191468
β-Actin antibody (C4)	Santa Cruz Biotechnology	Cat#sc-47778
박테리아 및 바이러스
One Shot Stbl3 Chemically Competent E.coli	Thermo Fisher	Cat#C737303
Subcloning Efficiency™ DH5α™ Competent Cells	Thermo Fisher	Cat#18265017
Endura™ ElectroCompetent Cells	Lucigen	Cat#60242-2
화합물, 펩티드 및 재조합 단백질
BsmBI restriction enzyme	enzynomics	Cat#R075L
Alkaline Phosphatase, Calf Intestinal (CIP)	NEB	Cat#M0290L
NEBuilder® HiFi DNA Assembly Master Mix	NEB	Cat#E2621L
Phusion® High-Fidelity DNA Polymerase	NEB	Cat#M0530L
2X Taq PCR Smart mix	Solgent	Cat#STD02-M50h
Fetal bovine serum (FBS)	Thermo Fisher	Cat#16000-044
DMEM	Thermo Fisher	Cat#11995-065
Penicillin-Streptomycin (10,000 U/mL)	Thermo Fisher	Cat#15140-122
Lipofectamine 2000 transfection Reagent	Thermo Fisher	Cat#11668-019
A-1155463	BioVision	Cat#B1821
Hygromycin B Gold™	InvivoGen	Cat#ant-hg-5
Puromycin Dihydrochloride	Thermo Fisher	Cat#A1113803
Zeocin™	InvivoGen	Cat#ant-zn-1p
Protease Inhibitor Cocktail	Merck	Cat#P8340
어세이(Assay)
MEGAquick-spin™ total fragment DNA purification kit	iNtRON Biotechnology	Cat#17290
Wizard® Genomic DNA Purification Kit	Promega	Cat#A1620
데이터
Deep sequencing data	NCBI
실험 세포주(Cell Lines)
Flp-In™ T-REx™ Cell Line	Thermo Fisher	Cat#R780-07
HEK293T cells	ATCC	Cat#CRL-1573
Cas9-E2A-mRFP knockin cell line	This paper	N/A
ciCas9-E2A-mRFP knockin cell line	This paper	N/A
모델 마우스(Organisms/Strains)
Mouse (NOG): NOD.Cg- Prkdc ^scid 　Il2rg ^tm1Sug/JicTac	Central Institute for Experimental Animals	N/A
올리고뉴클레오티드
All oligonucleotide pools used in library construction	TwistBioscience	N/A
Primers used for library construction (서열번호 1 ~ 3)	This paper	N/A
Primers used for deep sequencing preparation (서열번호 5 ~ 20)	This paper	N/A
Primers used for stgRNA expression quantification (서열번호 21~24)	This paper	N/A
재조합 DNA
Lenti_gRNA-Puro plasmid	Addgene	Cat#84752
Lenti_stgRNA-Puro plasmid	This paper	N/A
pRGEN-Cas9-CMV/T7-Puro-RFP	Toolgen	Cat#TGEN_OP1
ciCas9_pcDNA5	Addgene	Cat #100550
pcDNA™5/FRT Expression Vector	Thermo Fisher	Cat#V6010-20
pOG44 Expression Vector	Thermo Fisher	Cat#V6005-20
pcDNA™5/FRT/CMV_promoter-Cas9-E2A-mRFP	This paper	N/A
pcDNA™5/FRT/CMV_promoter-ciCas9-E2A-mRFP	This paper	N/A
psPAX2	Addgene	Cat#12260
pMD2.G	Addgene	Cat#12259
소프트웨어 및 알고리즘
EMBOSS	Rice, Longden, and Bleasby, 2000	emboss.sourceforge.net
R	R Core Team, 2018	https://www.r-project.org/
doSNOW	Microsoft Corporation and Stephen Weston, 2017	https://cran.r-project.org/web/packages/doSNOW/index.html
Indel searcher, model comparison, t ₀ and half-life calculation algorithms	This paper and available on GitHub	https://github.com/hkimlab/SupplementalCodes
기타
MicroPulser™ Electroporator	Bio-Rad	Cat#1652100
QIAGEN Plasmid Maxi Kit	QIAGEN	Cat#12165
Millex-GV Syringe Filter Unit, 0.22 μm, PVDF, 33 mm, gamma sterilized	Merck	Cat#SLGV033RS
48-well PS scaffold	3D Biotek	Cat#PS152048-16

[실험 방법]

1. 벡터 구축

라이브러리 1 및 2를 구축하기 위한 렌티바이러스 플라스미드 뼈대는 Lenti_gRNA-Puro plasmid (Addgene; #84752)로부터 위치-특이적 돌연변이 유도를 통해 sgRNA 스캐폴드를 stgRNA 스캐폴드로 변형시킴으로써 구축하였다. 구체적으로, 상기 위치-특이적 돌연변이 유도는 U23 및 U24 위치를 구아닌으로 대체하고, A48 및 A49 위치를 시토신으로 대체하였다 (Perli et al., 2016). 구축한 벡터는 E.coli 균주 Stbl3 (Thermo Fisher, Waltham, MA)에 형질전환시킨 후, 100 μg/ml 암피실린(ampicillin) 존재 하에서 선별하였다.

Cas9- 및 ciCas9-삽입(knockin) 세포 제작을 위한 통합 벡터를 만들기 위해, pRGEN-Cas9-CMV/T7-Puro-RFP (Toolgen, Seoul, Korea) 및 ciCas9_pcDNA5 (Addgene; #100550)(Rose et al., 2017) 카세트(cassettes)를 각각 pcDNA™5/FRT 발현 벡터 (Thermo Fisher, Waltham, MA)에 서브클로닝하고, pcDNA™5/FRT/CMV_promoter- Cas9-E2A-mRFP 및 pcDNA™5/FRT/CMV_promoter- ciCas9-E2A-mRFP 벡터를 만들었다 (도 1, 도 16A). 이 벡터를 E.coli 균주 DH5α (Thermo Fisher)에 형질전환한 후, 100 μg/ml 암피실린 존재 하에서 선별하였다.

2. Cas9 - 또는 ciCas9 -발현 세포 제작

Flp-In™ T-REx™ 세포주 (Thermo Fisher)는 10% FBS (Gibco, Waltham MA)가 보충된 DMEM 배지에 보관하였다. 상기 세포를 설명서에 따라 Flp 재조합 벡터 (pOG44 Expression Vector; Thermo Fisher) 및 Cas9-E2A-mRFP 또는 ciCas9-E2A-mRFP 서열을 포함하는 삽입 벡터로 형질주입시켰다. 48시간 후에 Cas9- 또는 ciCas9-삽입 세포를 100 μg/ml 히그로마이신 B 골드(hygromycin B Gold; InvivoGen, Pak Shek Kok, Hong Kong)의 존재 하에 1주일 동안 배양함으로써 선별하였다. 각각의 콜로니를 위상차현미경으로 보면서 피펫을 이용하여 집어 내었다. 형광현미경 하에서 mRFP를 고르게 발현시키는 살아 있는 세포 콜로니를 선별하였고, 20 μg/ml 히그로마이신 B 골드 존재 하에서 배양하다가 각각의 세포주를 냉동 저장하였다. 이 명세서의 모든 실험은 이 냉동 세포주를 녹여 20 μg/ml 히그로마이신 B 골드를 포함하는 배지에 배양하여 사용하였다.

3. 웨스턴 블럿

프로테아제 저해제 혼합물(Merck, Darmstadt, Germany)이 포함된 세포 용해 버퍼(50 mM Tris-HCl, pH 7.5, 1% Triton X-100, 150 mM NaCl, 0.1% sodium dodecyl sulfate, and 1% sodium deoxycholate)를 이용하여 Cas9-E2A-mRFP 삽입 세포의 전체 세포 용출물을 준비하였다. 상기 용출물을 13,000 ×g, 4℃에서 20분간 원심분리한 후 상층액 단백질 추출물을 사용 전까지 -80℃에서 보관하였다. 시료 당 총 단백질30 μg을 8% 아크릴아마이드 겔에 로딩한 후 니트로셀룰로오스 멤브레인을 따라 전기영동하였다. 멤브레인을 항-CRISPR-Cas9 항체에 대한 1차 항체(1:1,000) (Abcam, Cambridge, UK) 또는 β-actin (1:1,000) (Santa Cruz Biotechnology, Dallas, Texas)과 함께 4℃에서 하룻밤 동안 반응시켰다. 웨스턴 블럿 결과는 ImageQuant™ LAS 4000 (GE Healthcare, Velizy-Villacoublay, France)로 얻었다 (도 2A).

4. 올리고뉴클레오티드 풀(pool) 설계

라이브러리 1을 구축하기 위해, 각각 23 nt의 5'-불변부(constant region) 서열, 15 nt의 바코드(barcode) 서열, 50 nt의 연장 서열(extension sequence), 20 nt의 가이드 서열(guide sequence), 3 nt의 PAM 서열, 및 27 nt의 3'-불변부(constant region) 서열을 포함하여 총 138 nt 길이를 갖는 (도 3), 23,940개의 올리고뉴클레오티드를 주문 제작하였다 (TwistBioscience, San Francisco, CA). 이후의 딥 시퀀싱 분석에 사용된 표적 서열은 20 nt의 가이드 서열과 3 nt의 PAM 서열로 구성되어 있다. 바코드 서열은 2 nt 이상의 모노뉴클레오티드 반복 서열을 제외한 임의의 서열을 포함한다. 50 nt의 연장 서열을 생성하기 위해, 먼저 2 nt 이상의 모노뉴클레오티드 반복 서열이 없는 25 nt의 임의 서열 2개를 생성하였고, 다음으로 이 두 서열을 임의로 조합하였다. 23,940개의 stgRNA-인코딩 서열 중에서, 14,000개의 가이드 서열은 모노뉴클레오티드 반복 서열을 포함하지 않으면서, 40% ≤ GC contents ≤ 60%를 나타내도록 임의로 설계되었고, 9,800개의 가이드 서열은 모노뉴클레오티드 서열의 길이가 ≤ 10 nt인 조건에서 임의로 선택되었다. 남은 140개의 서열은 이전에 사용된 stgRNA-인코딩 서열 (Kalhor et al., 2016; Perli et al., 2016)과 서로 다른 바코드 및 연장 서열 세트 10개를 조합하여 만들었다. 이전 논문에서 보고된 stgRNA-인코딩 서열 중 4개는 10 nt 또는 20 nt의 연장 서열을 포함하기 때문에 이 연장 서열은 추가적인 연장 서열로 사용되었다. 위의 연장 서열이 20 nt짜리인 경우에 5'- 및 3'- 불변부 서열을 각각 20 nt 및 22 nt로 줄였다.

라이브러리 2를 구축하기 위해, 3일째에 라이브러리 1의 복제군 A에서 측정된 인델 빈도 순위에 따라 라이브러리 1로부터 2,000개의 stgRNA-인코딩 서열을 선택하였다. 표적 서열은 최소 서열 분석 심도(sequence read depth)가 50이고 5% 이하의 배경 인델 빈도를 나타내는 서열을 선별하였다. 상위 1,800개 서열 및 하위 200개 서열을 선별하였다. 서열 1201위부터 1800위의 stgRNA-인코딩 서열에 대해 20 nt 가이드 서열을 SpCas9에 대해 높은 활성을 나타내는 가이드 서열과 맞게 바꿨다.

라이브러리 3을 구축하기 위한 표적 서열은 수 천 개의 표적 서열에서 SpCas9 및 sgRNA 활성 수준을 실험하여 얻은 인델-생성 활성 프로파일에 따라 선별하였다. 라이브러리 3의 가이드 RNA-인코딩 서열은 stgRNA 보다 보통의 sgRNA 스캐폴드와 관련이 있다. 라이브러리 3에서 활성이 뛰어난 가이드의 비율을 증가시키기 위해, 활성이 좋은 가이드 서열의 복제군(최대 10개)을 독특하게 정의된 바코드 서열과 조합하였다. 라이브러리 3의 어레이 합성을 위해, 각각 20 nt의 5'-불변부, 20 nt의 가이드 서열, 11 nt의 첫 번째 BsmBI 절단 부위, 20 nt의 바코드 1 서열, 11 nt의 두 번째 BsmBI 절단 부위, 15 nt의 바코드 2 서열, 3 nt의 임의 서열(without mononucleotide repeats ≥ 2 nt), 30 nt의 PAM 서열을 포함하는 상응 표적 서열, 및 20 nt의 3'-불변부 서열을 포함하여, 총 150 nt 길이를 갖는 1,993개의 올리고뉴클레오티드 풀을 주문 제작하였다 (TwistBioscience, San Francisco, CA).

5. 플라스미드 라이브러리 준비

라이브러리 1 및 2에 사용될 뼈대 플라스미드는 BsmBI 제한 효소 (Enzynomics, Daejeon, Korea)로 55℃에서 3시간 동안 반응시켜 선형으로 만들었다. 제한 효소 반응 후, 뼈대를 1 μl of calf intestinal alkaline phosphatase (NEB)으로 37℃에서 30분 동안 처리하였다. 올리고뉴클레오티드는 OligoAmp_pF1, pR1(서열번호 1, 2) 프라이머 세트를 이용하여 Phusion Polymerase (NEB)으로 PCR 증폭시켰고, 증폭산물은 MEGAquick-spin™ total fragment DNA purification kit (iNtRON Biotechnology, Seongnam, South Korea)를 이용하여 겔 정제시켰다. 상기 선형 뼈대 플라스미드 및 올리고뉴클레오티드의 정제된 PCR 증폭산물을 NEBuiderHiFi DNA assembly kit (NEB)로 50℃에서 40분 간 결합시킨 후, 결합된 산물을 MicroPulser (Bio-Rad, Hercules, CA)을 이용하여 electrocompetent 박테리아 (Lucigen, Middleton, WI)로 형질전환시켰다. 형질전환된 박테리아를 50 μg/ml 카르베니실린(carbenicillin)이 포함된 LB 아가 플레이트에 놓고 37℃에서 16시간 동안 배양하였다. 다음으로 Plasmid Maxiprep kit (Qiagen, Hilden, Germany)를 이용하여 배양시킨 콜로니로부터 플라스미드를 추출하였다. 플라스미드 라이브러리 커버리지(coverage)는'(총 박테리아 콜로니 수)/(라이브러리 내 총 올리고뉴클레오티드 수)'에 따라 계산하였다. 최종 라이브러리 1 및 2의 커버리지는 각각 3.83x 및 20.6x로 나타났다.

특별히, 라이브러리 3은 제한 효소 절단 및 결합 단계 및 깁슨 조립(Gibson assembly) 단계의 2단계 클로닝 방법으로 구축하였다. 이와 같은 다단계 방법은 올리고뉴클레오티드 풀의 PCR-증폭 과정에서 가이드 RNA와 표적 서열 쌍 사이의 짝풀림(uncoupling)을 효과적으로 방지한다. 구체적인 방법은 하기와 같다.

1 단계: 가이드 서열 및 표적 서열 쌍을 포함하는 초기 플라스미드 라이브러리 생성

Lenti-gRNA-Puro plasmid (Addgene; #84752)를 BsmBI 효소(Enzynomics)로 55℃에서 6시간 동안 반응시켜 선형으로 만들었다. 제한 효소 반응 후, 벡터를 1 μl calf intestinal alkaline phosphatase (NEB)로 37℃에서 30분 간 처리하였다. 올리고뉴클레오티드는 OligoAmp_pF1, pR2(서열번호 1, 3) 프라이머 세트를 이용하여 Phusion Polymerase (NEB)으로 PCR 증폭시켰고, 증폭산물은 겔 정제시킨 후 NEBuilder HiFi DNA assembly kit (NEB)를 이용하여 선형 뼈대와 조립하였다. 조립 산물을 정제한 후 상기한 바와 같은 방법으로 electrocompetent 세포에 형질전환하였다.

본 발명의 올리고뉴클레오티드 증폭에 사용된 프라이머 세트를 하기 [표 3]에 나타내었다.

Name	Sequence	서열번호
OligoAmp_pF1	TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC	1
OligoAmp_pR1	TTTCAAGTTGATAACGGACTAGCCTTAGGTTAACTTGCTATTTCTAGCTCTAAC	2
OligoAmp_pR2	GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT	3

2 단계 : sgRNA 스캐폴드 삽입

상기 1단계에서 제조한 초기 플라스미드 라이브러리를 BsmBI로 12시간 동안 분해시키고, 2 μl calf intestinal alkaline phosphatase (NEB)을 37℃에서 30분 간 처리하였다. 효소 반응 산물을 0.8% 아가로스 겔 전기영동을 통해 크기 선별한 후 MEGAquick-spin total fragment DNA purification kit (iNtRON Biotechnology)를 이용하여 정제하였다.

별도로, sgRNA 스캐폴드를 포함하는 합성 삽입 절편(서열번호 4; CGTCTCT GTTT TAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTT TTT GGGAGACG)을 TOPO vector (T-blunt vector; Solgent, Daejeon, South Korea)에 클로닝하였다. 이 삽입 절편 내의 sgRNA 스캐폴드는 폴리 T 서열(bold) 및 BsmBI 절단 부위( underline)를 포함한다.

그 다음으로, 삽입 절편을 포함하는 TOPO 벡터를 BsmBI으로 절단시키고 83 nt의 삽입 절편을 4% 아가로스 겔에서 겔 정제하였다. 90 ng의 정제된 삽입 절편 및 200 ng의 초기 플라스미드 라이브러리 벡터를 사용하여 4가지 라이게이션 반응을 수행하였다. 16℃에서 하룻밤 동안 반응시킨 후 반응 산물을 65℃에서 10분 간 열비활성화 시키고 컬럼에서 정제하였다. 정제된 산물을 상기한 방법으로 electrocompetent 세포에 형질전환하였다. 결과적으로, 라이브러리 3으로서 초기 올리고뉴클레오티드 수에 대해 커버리지가 3,990x인 최종 플라스미드 라이브러리를 얻었다. Plasmid Maxiprep kit (Qiagen)를 이용하여 콜로니를 수확하고 플라스미드를 추출하였다.

6. 렌티바이러스 생산

HEK293T cells (ATCC)을10% FBS 및 페니실린-스트렙토마이신(pen-strep)이 보충된 DMEM 배지에서 보관하였다. 렌티바이러스 생산을 위해 목적하는 유전자가 포함된 트랜스퍼 플라스미드, psPAX2 (Addgene; #12260), 및 pMD2.G (Addgene; #12259)를 4:3:1 중량비로 혼합하여 총 60 μg의 플라스미드 혼합물을 만든 후, Lipofectamine 2000 (Invitrogen, Carlsbad, CA)를 이용하여 70 ~ 80% confluent HEK293T 세포에 전달하였다. 트랜스펙션 후 24시간 시점에, 20 ml 성장 배지로 갈아 주었다. 바이러스가 포함된 상등액을 최초 트랜스펙션 후 72시간이 지났을 때 수확하였고, Millex-HV 0.45 μm low-protein-binding membrane (Merck, Darmstadt, Germany)으로 여과시킨 후, 부분 표본(aliquots)으로 나누고 사용 직전까지 -80℃에서 냉동 보관하였다.

바이러스 역가를 측정하기 위해, 바이러스 부분 표본을 연속 희석하고 10 μg/ml 폴리브렌(polybrene) 존재 하에서 HEK293T 세포에 형질도입하였다. 형질도입되지 않은 세포와 연속 희석된 바이러스로 처리한 세포를 2 μg/ml 푸로마이신(puromycin) 존재 하에서 배양하였다. 형질도입되지 않은 세포가 거의 모두 죽었을 때, 살아 있는 바이러스 처리된 개체수룰 계수하여 바이러스 역가를 추정하였다.

7. 라이브러리 1, 2 및 3의 형질도입

총 세포수 1.0 x 10 ⁸ (library 1) 또는 4.8 x 10 ⁷ (library 2)의 Cas9-E2A-mRFP 삽입 세포를 1.0 Х 10 ⁷ cells/dish (library 1) 또는 1.2 Х 10 ⁷ cells/dish (library 2)로 150 mm 조직 배양 디쉬에 심고, 하룻밤 동안 배양하였다. 상기 세포 배치(batch)를 10 μg/ml 폴리브렌 존재 하에 MOI 0.3에서 각각 렌티바이러스 라이브러리 1 또는 2로 형질도입시킨 후 24시간 동안 배양하였다. 형질도입되지 않은 세포를 제거하기 위해, 세포를 2 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 3일 동안 배양하였다. 세포 라이브러리의 다양성을 보존하기 위해, 세포 라이브러리를 1 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 최소 세포수 2.4 Х 10 ⁷ cells가 유지되도록 하였다. 각 샘플링 시점마다(도 5), 최소 2.4 Х 10 ⁷ (1,000x for library 1, 12,000x for library 2) 세포를 유전체 DNA 분리를 위해 수확하였고, 8.0 Х 10 ⁶ cells (333x for library 1, 4,000x for library 2)에 상당한 80 μg의 유전체 DNA를 딥 시퀀싱 분석에 사용하였다.

렌티바이러스 3의 형질도입을 위해서, 6.0 Х 10 ⁸ ciCas9-E2A-mRFP 삽입 세포를 1.2 Х 10 ⁷ cells/dish 농도로 150 mm 조직 배양 디쉬 5개에 심었다. 형질도입 24시간 후, 배양 배지에 1 μg/ml 푸로마이신을 첨가하였다. 24시간 동안 배양한 후 100 mm 조직 배양 디쉬로 계대시켰다. 다음날 세포를 10 μM A-1155463 (BioVision, Milpitas, CA)로 처리하여 ciCas9을 활성화시켰다. 각 시점에 최소 8.0 Х 10 ⁶ cells (4,000x)를 수확하고, 0.8 ~ 1.2 Х 10 ⁷ cells (4,000 ~ 6,000x)에 상당한 80 ~ 120 μg의 유전체 DNA를 PCR-증폭 및 딥 시퀀싱에 사용하였다.

8. 배경 인델 빈도 (background indel frequencies) 측정

표적 서열의 배경 인델 빈도를 측정하기 위해 2.4 Х 10 ⁷ HEK293T 세포를 렌티바이러스 라이브러리 1 및 2로 형질도입시키고, 3일 후에 유전체 DNA를 분리한 후 1.6 Х 10 ⁷ cells (667x for library 1; 8,000x for library 2)에 상응하는 양의 유전체 DNA 160 μg를 PCR-증폭시킨 후 딥 시퀀싱하였다.

라이브러리 2의 경우, ciCas9-E2A-mRFP 삽입 세포를 렌티바이러스 3으로 형질도입시키고, 3일 후에 2.4 Х 10 ⁷ cells (12,000x)에 상응하는 양의 유전체 DNA 240 μg를 분석하였다.

9. 딥 시퀀싱

Wizard Genomic DNA purification kit (Promega, Fitchburg, WI)를 이용하여 세포 펠릿으로부터 유전체 DNA를 추출하였다. 다음으로 2X Taq PCR Smart mix (Solgent)를 이용하여 표적 서열을 PCR 증폭시켰다.

충분한 라이브러리 다양성을 구축하고 딥 시퀀싱 결과의 질을 개선하기 위해, 2개의 독립적인 PCR 반응을 수행하였다. 딥 시퀀싱 분석을 위한 첫 번째 PCR 반응 세트는 3쌍의 정방향 및 역방향 프라이머 세트(NGS1st_stgRNA_pF1,2,3 및 pR1,2,3, 서열번호 5 내지 10)와 추출된 유전체 DNA의 3/4를 이용하여 제조하였다. PCR 반응의 두 번째 세트는 남은 유전체 DNA의 1/4과 프라이머 세트 한 쌍(NGS1st_stgRNA_pF1r, pR1r, 서열번호 11, 12)으로 제조하였다. 라이브러리 1 및 2에 관한 모든 시점의 시료에 대해 PCR 반응을 수행하였다. 라이브러리 3에 대해서는, 모든 시점의 시료의 유전체 DNA에 포함된 표적을 증폭하고 딥 시퀀싱 하는 데에 동일하게 혼합된 세 쌍의 정방향 및 역방향 프라이머 세트(NGS1st_sgRNA_pF1,2,3 and pR1,2,3, 서열번호 13 내지 18)가 사용되었다.

첫 번째 PCR 증폭 산물을 하나의 풀(pool)에 합친 후 MEGAquick-spin Total Fragment DNA Purification Kit (iNtRON Biotechnology)을 이용하여 1차 정제하고, 동일한 키트로 겔 정제하였다. 정제된 산물을 Illumina adaptors가 포함된 프라이머(NGS2nd_pF1, pR1, 서열번호 19, 20)를 이용하여 PCR 증폭시켰다. 다음으로 증폭 산물을 HiSeq 또는 MiniSeq (Illumina, San Diego, CA)를 이용하여 분석하였다.

본 발명의 딥 시퀀싱 분석을 위한 PCR 반응에 사용된 프라이머 서열을 하기 [표 4]에 나타내었다.

Usage	Name	Sequence	서열번호
1 ^st PCR reaction (library 1 and 2)	NGS1st_stgRNA_pF1	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGCTTTATATATCTTGTGGAAAGGACG	5
	NGS1st_stgRNA_pF2	ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGGCTTTATATATCTTGTGGAAAGGACG	6
	NGS1st_stgRNA_pF3	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCTGGCTTTATATATCTTGTGGAAAGGACG	7
	NGS1st_stgRNA_pR1	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA	8
	NGS1st_stgRNA_pR2	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA	9
	NGS1st_stgRNA_pR3	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATGCCTTAGGTTAACTTGCTATTTCTAGCTCTA	10
1 ^st PCR reaction (reverse)(library 1 and 2)	NGS1st_stgRNA_pF1r	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGGCTTTATATATCTTGTGGAAAGGACG	11
1 ^st PCR reaction (reverse)(library 1 and 2)	NGS1st_stgRNA_pR1r	ACACTCTTTCCCTACACGACGCTCTTCCGATCTGCCTTAGGTTAACTTGCTATTTCTAGCTCTA	12
1 ^st PCR reaction (library 3)	NGS1st_sgRNA_pF1	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGAAAAAGTGGCACCGAGTCG	13
	NGS1st_sgRNA_pF2	ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTTGAAAAAGTGGCACCGAGTCG	14
	NGS1st_sgRNA_pF3	ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGCTTGAAAAAGTGGCACCGAGTCG	15
	NGS1st_sgRNA_pR1	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAAGTCGAGTAAGCTGACCGCTGAAG	16
	NGS1st_sgRNA_pR2	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTAAGTCGAGTAAGCTGACCGCTGAAG	17
	NGS1st_sgRNA_pR3	GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTATTAAGTCGAGTAAGCTGACCGCTGAAG	18
2 ^nd PCR reaction	NGS2nd_pF1	AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGAC	19
2 ^nd PCR reaction	NGS2nd_pR1	CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGT	20

10. 인델 빈도 분석

딥 시퀀싱 데이터는 본 연구실에서 개발한 파이썬(Python) 스크립트를 이용하여 분석하였다(Kim et al., 2017). 라이브러리 1, 2 및 3의 표적 서열은 바코드 서열(4 nt의 상류 서열 + 15 nt의 바코드)을 포함하는 19 nt의 독특한 서열을 이용하여 확인하였다. 예상되는 절단 부위(PAM 서열로부터 3 nt 위쪽)로부터 4 nt 위쪽 및 4 nt 아래쪽에 해당하는 영역에 위치하는 삽입 또는 결실 부위가SpCas9에 의해 유도된 변형으로 생각되었다 (Kim et al., 2018; Kim et al., 2017).

올리고 풀(oligo pool) 합성 및 PCR 증폭 과정에서 생기는 배경 인델 빈도를 배제하기 위해, 관찰된 인델 빈도를 배경 인델 빈도로 정규화시켰다.

보다 정확한 분석을 위해, 배경 인델 빈도와 5% 이상인 가이드 서열을 배제시켰고, 0% 이하인 인델 빈도는 임의로 0%로 놓았다. 본 발명에서 시간 추정을 위한 다른 주요 값은 아래와 같이 계산하였다.

여기서, F는 온전한 표적 서열 카피수의 상대 빈도(%), k는 각 시점의 표적 서열 당 총 카피 분석 개수(read count), mutk는 각 시점의 표적 서열 당 돌연변이 카피 분석 개수를 의미한다.

같은 방법으로, 배경 데이터에 대해 F, mutk 및 nps 값을 계산하였고, 각각 Back_F, Back_mutk 및 Back_nps로 표시하였다.

11. 수학적 모델 비교

최적 모델을 결정하기 위해 R 코드를 이용하여 선형, 지수함수형, 곰페르츠(Gompertz) 및 로지스틱(logistic) 모델의 적합도를 비교하였다.

서로 다른 파라미터를 갖는 각 모델의 상대적인 적합도를 추정하는 추정량(estimator)으로서 AIC(Akaike information criterion) 및 BIC(Bayesian information criterion)를 사용하였다. 공정한 비교를 위해 계산하는 데 복제군 A 내지 F에서 각 측정 시점에 얻은 모든 데이터 값을 제한 없이 사용하였다. 하기 식에 따라 잔차 제곱합(RSS, residual sum of squares)이 최소가 되는 최소 제곱법(least square method)를 사용하여 모수(parameter)를 추정하였다.

여기서 θ는 각 모델의 파라미터 세트를 의미한다. 선형 모델에서는 closed-form solution를 포함하지만, 다른 모델에서는 모수 추정에 수치로 나타낸 알고리즘(numerical algorithms)을 사용하였다.

AIC 및 BIC 값은 하기 식에 따라 계산하였다.

여기에서, p는 수학적 모델에 사용된 파라미터의 총 수를 나타내고, n은 각 가이드 서열에 대한 관찰된 시점의 수를 나타낸다. 지수함수 모델에서 각 표적 서열의 AIC 및 BIC 값을 다른 세 가지 모델의 값에서 빼서 ΔAIC 또는 ΔBIC를 계산하였다. 지수함수 모델에 대하여, 잠복 기간(t ₀)은 0 또는 1.021로 가정하였다.

12. 잠복 기간 추정

상기한 R 코드를 사용하여, 각각의 가이드 서열과 관련된 반감기 및 잠복 기간(t ₀)을 추정하였다. 모든 시점의 복제군 A - F에 대해 결정된 개별 t ₀ 값을 사용하여 가장 적합한(RRS를 최소화하는) 반감기 및 잠복 기간(t ₀)을 추정하였다. 모든 분석 시점에 온전한 표적 빈도가 85% 보다 높은 표적 서열은 분석에서 제외하였다. 또한 2% <

< 95% 조건을 만족하는 모든 데이터를 계산에 사용하였다.

이상치(outlier)를 제거하기 위해 상위 5% 및 하위 5%의 t ₀ 값은 제외하였고, 최종 t ₀으로서 nps-가중 평균을 계산하였다. 총 39,138개의 개별 t ₀ 값이 사용되었고, 최종 계산된 t ₀ 값은 1.021일(days)이었다.

t ₀ 값이 결정된 후, t ₀ 값을 1.021일로 고침으로써 라이브러리 1 및 2의 모든 복제군으로부터 표적 서열의 반감기를 다시 계산하였다. 다른 언급이 없다면, 라이브러리 1 및 2를 이용한 모든 분석은 t ₀ 값을 1.021일로 놓고 수행하였다. 그러나, 라이브러리 3에 대해서는 화학적으로 유도가능한 Cas9이 즉각적으로 활성화되기 때문에 t ₀ 값을 0시간으로 놓고 분석하였다.

13. 시간 추정

시간

의 정확한 추정을 위해, t ₀ 값을 1.021일로 놓고 지수함수 모델의 RRS를 최소화시키는 R 코드를 사용하여 각 표적 서열의 반감기를 먼저 계산하였다. 다음으로 모든 복제군으로부터 각 반감기의 가중 평균값으로 각 표적 서열의 최종 반감기를 계산하였다. 최종 반감기는 각 표적 서열에 대한 모든 관찰 시점에서 nps 값의 합에 따라 가중치를 더하였다.

다음으로, 계산된

을 지수함수 모델 식의 역함수

에 대입하여, 주어진 시점 t에서 각 표적 서열의

값을 계산하였다. 이 때 라이브러리 1 및 2에서는 t ₀ 값을 1.021일로, 라이브러리 3에서는 0으로 놓고 계산하였다. 다음으로, 각 시점의

값 풀(pool) 중에서 사분위수 범위(spanning the 25th ~ 75th percentiles)에 포함되는

값을 선별하고, 이 선별된

값의 nps-가중 평균(

)을 아래와 같이 계산하였다.

여기에서

및

는 각각 주어신 시점 t에서 25퍼센타일 및 75퍼센타일

값이다. 추정된

값의 진짜 시점(true time)에 대한 오차는 아래와 같이 계산된다.

시간 추정의 정확성을 위한 모수(parameter)로 모든 시점에서

의 평균값(mean RAE, MRAE)을 사용하였다.

14. 표적 서열의 서브-샘플링

표적 서열의 개수가 시간 추정의 정확성에 얼마나 많은 영향을 미치는지 확인하기 위해, 라이브러리 1 및 2로부터 임의로 서브-샘플을 추출하였다 (도 15). MS Excel의 "RAND()" 함수를 이용하여 표적 서열의 개수와 복제군마다 10개의 서로 다른 바코드 서열을 가지는 라이브러리 서브-샘플을 선별하였다.

15. 라이브러리 2로 형질도입된 Cas9 삽입 세포의 인 비보( in vivo ) 이식

본 실시예의 모든 동물 실험은 연세대학교 의과대학 실험동물운영위회(the (Institutional Animal Care and Use Committee, IACUC)의 규정을 준수하였다.

먼저 Cas9-E2A-mRFP 삽입 세포를 렌티바이러스 라이브러리 2로 MOI 0.5에서 형질도입하였다. 형질도입 24시간 후, 2 μg/ml 푸로마이신 및 20 μg/ml 히그로마이신 B 골드 존재 하에 3일 동안 배양하여 형질도입되지 않은 세포를 제거하였다. 다음으로 1.0 Х 10 ⁶ cells를 비분해성 폴리스티렌 48-웰 기공 스캐폴드 (3D Biotek, Bridgewater, NJ)에 1.0 Х 10 ⁶cells/scaffold 농도로 심고 24시간 동안 배양 배지에서 배양하였다. 스캐폴드에 심긴 세포를 수컷 NOG 마우스(NOD/Shi-scid/IL-2Rγnull) 등 피하에 마우스 당 4 스캐폴드 농도로, 각각 다른 사분면에 주입하였다. 인 비트로( in vitro) 대조군으로서 스캐폴드에 심긴 세포 중 일부를 배양 배지에서 배양하였다. 라이브러리 2의 형질도입 후 8일, 14일 및 21일째에 스캐폴드를 수확하였다.

스캐폴드의 세포로부터 유전체 DNA를 분리하기 위해, 각각의 스캐폴드를 포함하는 세포를 2 ml DNA 용출 버퍼(Wizard Genomic DNA purification kit; Promega)를 포함하는 2 ml 에펜도르프 튜브에 넣고, 하룻밤 동안 흔들면서 배양하였다. 세포 용출액으로부터 유전체 DNA를 분리한 후 상기한 방법으로 딥 시퀀싱하였다.

딥 시퀀싱을 위한 첫 번째 PCR 반응은 48 μg 유전체 DNA(2,400x)와 3쌍의 프라이머 세트(NGS1st_stgRNA_pF1,2,3 and pR1,2,3, 서열번호 5 내지 10)를 사용하여 수행하였다.

Claims

(a) 표적 유전자 교정용 조성물을 세포 내에 형질도입한 후 배양하는 단계;

(b) 소정의 시점으로부터 경과된 임의의 시점(t)에 배양된 세포의 일부를 수확한 후, 세포 유전체 DNA로부터 표적 서열을 서열분석하는 단계;

(c) 상기 표적 서열의 인델 빈도(IF, indel frequency)를 측정하는 단계; 및

(d) 하기 식으로부터 임의의 시점을 계산하는 단계:

(상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t ₀은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임)

를 포함하는 세포 내에서 소정의 시점으로부터 경과 시간을 측정하는 방법.
제1항에 있어서,

상기 (b) 단계 이전에 하기

(i) 소정의 시점( t ^*)에 상기 배양된 세포의 일부를 수확하는 단계;

(ii) 세포 유전체 DNA로부터 표적 서열을 시퀀싱하는 단계;

(iii) 표적 서열의 전체 카피수 중 온전한 서열의 카피수 빈도(F, frequency of intact sequence)를 측정하는 단계; 및

하기 식을 이용하여 주어진 표적 서열에 대하여 단위 시간 당 표적 서열의 인델 생성 속도 상수(λ)를 계산하는 단계:

(상기 식에서 F는 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 빈도를 나타내며, λ는 양의 상수, t ^*는 소정의 시점을 나타내는 양의 상수임)

를 포함하는 람다 상수(λ)를 추정하는 단계를 더 포함하는, 방법.
제1항에 있어서,

상기 단계 (a)의 표적 유전자 교정용 조성물은 가이드 RNA(guide RNA), 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함하는 것인, 방법.
제1항에 있어서,

상기 단계 (a)의 표적 유전자 교정용 조성물은 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열을 포함하는 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA) 및 RNA-가이드 뉴클레아제(RNA-guide nuclease)를 포함하는 것인, 방법.
제1항에 있어서,

상기 단계 (a)는 하기

(i) RNA-가이드 뉴클레아제(RNA-guide nuclease)를 코딩하는 서열이 삽입(knock-in)된 세포주를 제조하는 단계;

(ii) 가이드 RNA(guide RNA)를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열(target sequence)을 포함하는 벡터를 제조하는 단계;

(iii) 상기 벡터를 상기 세포주에 형질도입시켜 형질도입 세포를 제조하는 단계; 및

(iv) 상기 형질도입된 세포를 배양하는 단계를 포함하는 것인, 방법.
제3항 내지 제5항 중 어느 한 항에 있어서,

상기 RNA-가이드 뉴클레아제는 Cas9 단백질, Cpf1 단백질 또는 화학물질에 의해 활성이 유도되는 Cas9 단백질인, 방법.
제6항에 있어서,

상기 Cas9 단백질은 스트렙토코커스(Streptococcus) 속, 네이세리아(Neisseria) 속, 파스테우렐라(Pasteurella) 속, 프란시셀라(Francisella) 속 및 캄필로박터(Campylobacter) 속으로 이루어진 군에서 선택되는 하나 이상으로부터 유래된 것인, 방법.
제6항에 있어서,

상기 Cpf1 단백질은 캔디다투스 파세이박터(Candidatus Paceibacter), 라치노스피라(Lachnospira) 속, 뷰티리비브리오(Butyrivibrio) 속, 페레그리니박테리아(Peregrinibacteria), 액시도미노코쿠스(Acidominococcus) 속, 포르파이로모나스(Porphyromonas) 속, 프레보텔라(Prevotella) 속, 프란시셀라(Francisella) 속, 캔디다투스 메타노플라스마(Candidatus Methanoplasma), 또는 유박테리움(Eubacterium) 속으로 이루어진 군에서 선택되는 하나 이상으로부터 유래된 것인, 방법.
제5항에 있어서,

가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열은 서로 다른 2종 이상의 서열을 포함하는 것인, 방법.
제5항에 있어서,

상기 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA(stgRNA, self-targeting guide RNA)를 코딩하는 염기서열인, 방법.
제10항에 있어서,

상기 자가-표적 가이드 RNA는 서로 다른 2종 이상의 서열을 포함하는 것인, 방법.
제5항에 있어서,

상기 벡터는 바이러스 벡터인, 방법.
제12항에 있어서,

상기 벡터는 렌티바이러스 벡터 또는 레트로바이러스 벡터 및 플라스미드 벡터로 이루어진 군에서 선택되는 하나 이상인, 방법.
제5항에 있어서,

2종 이상의 가이드 RNA를 코딩하는 염기서열 및 각각의 가이드 RNA가 목적하는 표적 염기서열을 포함하는 2종 이상의 벡터를 포함하는 벡터 라이브러리를 제작하는 단계; 및

상기 벡터를 각각 서로 다른 세포주에 형질도입시킨 2종 이상의 세포를 포함하는 세포 라이브러리를 제작하는 단계를 포함하는 것인, 방법.
제1항에 있어서,

상기 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것인, 방법.
표적 유전자 교정용 조성물을 포함하는 세포 내 인델 생성부;

상기 표적 유전자의 서열분석을 포함하는 세포 내 인델 빈도 측정부; 및

상기 측정된 인델 빈도를 이용하여 소정의 시점으로부터 임의의 시점의 시간 경과를 계산하는 시간 예측부

를 포함하는 세포 내 시간 측정용 시스템.
제16항에 있어서,

상기 표적 유전자 교정용 조성물은 가이드 RNA, 상기 가이드 RNA가 목적하는 표적 염기서열 및 RNA-가이드 뉴클레아제를 포함하는 것인, 시스템.
제17항에 있어서,

상기 가이드 RNA 및 상기 가이드 RNA가 목적하는 표적 염기서열은 자가-표적 가이드 RNA를 코딩하는 염기서열인, 시스템.
제16항에 있어서,

상기 인델 빈도 측정부의 서열분석 단계는 딥 시퀀싱(deep sequencing)으로 수행되는 것인, 시스템.
제16항에 있어서,

상기 시간 예측부는 하기 식으로부터 임의의 시점을 계산하는 것인, 시스템:

(상기 식에서 F는 임의의 시점에 표적 서열의 전체 카피수 중에서 온전한 표적 서열 카피수의 상대빈도(비율)를 나타내며, IF는 임의의 시점에 측정된 표적 서열의 인델 빈도를 나타내며, λ는 단위 시간 당 표적 서열의 인델 생성 속도를 나타내는 양의 상수이며, t ₀은 세포 내에 형질도입된 전이유전자가 발현되는 데 걸리는 잠복 시간임).