WO2023153811A1

WO2023153811A1 - 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법

Info

Publication number: WO2023153811A1
Application number: PCT/KR2023/001867
Authority: WO
Inventors: 이정준; 권정훈; 김민영; 조안나; 김영호
Original assignee: 주식회사 툴젠
Priority date: 2022-02-08
Filing date: 2023-02-08
Publication date: 2023-08-17
Also published as: KR102667508B1; KR20240073226A; AU2023218196A1; KR20230121565A

Abstract

본 출원은 프라임 에디팅 시스템을 사용하여 게놈을 편집하는 과정에서 발생할 가능성이 있는 오프 타겟을 예측하는 방법에 관한 것이다.

Description

프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟을 예측하는 방법

본 출원은 유전자 편집 시스템 중 하나인 프라임 에디팅 시스템의 오프 타겟을 예측하는 방법에 관한 것이다.

CRISPR/Cas 시스템을 이용한 게놈 편집은 활발히 연구되고 있는 분야이다. 유전자 조작을 위해 다양한 Cas 단백질 개발 변형된 가이드 RNA의 등을 포함하는 다양한 연구가 이뤄졌으나, CRISPR/Cas 시스템을 이용하여 유전자를 편집하는 방법은 여전히 문제를 갖고 있다. CRISPR/Cas 시스템을 이용하여 유전자를 조작하는 방법에 의해 발생되는 다양한 문제들은 보다 정교한 게놈 편집 기술을 개발의 동기를 부여하였다. 상기 동기로부터 보다 정교한 게놈 에디팅 기술인 베이스 에디팅(Base editing)이 개발되었다. 그러나 베이스 에디팅은 사용 가능한 범위가 여전히 제한적이다.

David R. Liu 등은 베이스 에디팅의 개발 이후에, 삽입, 결실, 12개의 모든 base-to-base 전환, 및 이들의 조합들을 게놈에 유도하는데 사용될 수 있는 '검색-및-교체(search-and-replace)' 게놈 에디팅 기술인 프라임 에디팅 기술을 개발하였다.

David R. Liu 등에 의해 "프라임 에디팅(Prime editing)"으로 지칭되는 게놈 편집을 위한 새로운 플랫폼이 개발되었으나, 프라임 에디팅을 통한 게놈 편집에서 발생할 수 있는 오프 타겟을 예측하는 방법 또는 시스템은 아직까지 개발되지 않았다. 게놈 편집을 위한 새로운 플랫폼인 프라임 에디팅의 개발로 인해, 프라임 에디팅 시스템에 보다 적합한 새로운 오프 타겟을 예측하는 방법의 개발이 요구된다.

유전자 편집 과정에서 발생하는 오프 타겟은 강력한 부작용을 야기한다. 이에 따라, 다양한 오프 타겟을 예측하기 위한 방법들이 개발되었다. 그러나, 현재까지 알려진 방법들은 전통적인 CRISPR/Cas 시스템을 표적으로 하여 개발된 것으로, 새로운 유전자 편집 시스템은 프라임 에디팅 시스템에 적용하기는 어렵다. 이에, 본 출원은 프라임 에디팅 시스템을 표적으로 개발된, 프라임 에디팅 시스템의 오프 타겟을 예측하는 방법 또는 시스템을 개시한다.

본 출원의 일부 실시양태는 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다:

(a) 조작된 세포를 얻음,

이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:

(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA(tagmentation pegRNA)를 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,

(ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;

(b) 상기 조작된 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻음,

이때 상기 태그멘테이션에 대한 정보는 태그 서열이 삽입된 게놈 DNA의 부위에 대한 정보를 포함함.

특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다:

상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 상기 오프 타겟 후보가 존재하는 경우 상기 오프 타겟 후보의 부위에 대한 정보를 포함함.

온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.

온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함을 통해, 오프 타겟 후보의 존재 여부에 대한 정보를 확인함.

특정한 실시양태에서, 상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입될 수 있다.

특정한 실시양태에서, 상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관될 수 있다.

특정한 실시양태에서, 상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함할 수 있다.

특정한 실시양태에서, 상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함할 수 있다.

특정한 실시양태에서, 상기 태그맨테이션에 대한 정보는 다음을 더 포함할 수 있다: 태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.

특정한 실시양태에서, 상기 오프 타겟에 대한 정보는 다음을 더 포함할 수 있다: 오프 타겟 후보에 대한 오프 타겟 예측 점수.

특정한 실시양태에서, 상기 오프 타겟에 대한 정보는 다음을 더 포함할 수 있다: 예측된 오프 타겟 후보의 개수.

특정한 실시양태에서, 상기 조작된 세포는 다음을 포함하는 방법에 의해 수득될 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.

특정한 실시양태에서, 상기 조작된 세포는 다음을 포함하는 방법에 의해 수득될 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.

특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 상기 조작된 세포로부터 DNA를 얻음, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 얻음은 (b) 이전에 수행됨.

특정한 실시양태에서, tpegRNA는 다음을 포함할 수 있다:

스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.

특정한 실시양태에서, 상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.

특정한 실시양태에서, 상기 조작된 게놈 DNA는 편집을 포함할 수 있다.

특정한 실시양태에서, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치할 수 있다.

특정한 실시양태에서, 상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치할 수 있다.

특정한 실시양태에서, 상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함할 수 있다.

미리 결정된 프라임 에디팅 시스템을 확인함, 이때 상기 미리 결정된 프라임 에디팅 시스템을 확인함은 다음 중 하나 이상을 포함함:

미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보.

특정한 실시양태에서, 상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포일 수 있다.

특정한 실시양태에서, 상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고, 상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일할 수 있다.

특정한 실시양태에서, 상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고, 상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고, 상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일할 수 있다.

특정한 실시양태에서, 상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것일 수 있다.

특정한 실시양태에서, 상기 태그 주형의 길이는 5 내지 60nt일 수 있다.

특정한 실시양태에서, 상기 태그 주형의 길이는 10 내지 50nt일 수 있다.

특정한 실시양태에서, 상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제일 수 있다.

특정한 실시양태에서, 상기 프라임 에디터 단백질은 PEmax-뉴클레아제일 수 있다.

특정한 실시양태에서, 상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제일 수 있다.

특정한 실시양태에서, 상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있다.

특정한 실시양태에서, 게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여될 수 있다.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈 DNA를 태그-특이적 분석함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈 DNA를 시퀀싱함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다:

상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.

(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생성함,

이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 하나 이상의 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:

(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA (tagmentation pegRNA)를 세포의 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,

(ii) 게놈 DNA 내에 태그 서열이 삽입됨, 이때 상기 태그 서열의 삽입은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 달성됨;

(b) 상기 하나 이상의 조작된 세포의 상기 조작된 게놈 DNA를 시퀀싱을 포함하는 과정을 통해 분석하여, 태그맨테이션에 대한 정보를 얻음,

이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함; 및

(c) 상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음,

이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.

본 출원의 일부 실시양태는 다음을 포함하는 tpegRNA (tagmentation pegRNA)를 제공한다:

스페이서; gRNA 코어; 및 태그 주형을 포함하는 연장 영역.

특정한 실시양태에서, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 상기 tpegRNA 상에 위치할 수 있다.

특정한 실시양태에서, 상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함할 수 있다.

특정한 실시양태에서, 상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치할 수 있다.

특정한 실시양태에서, 상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치할 수 있다.

특정한 실시양태에서, 상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치할 수 있다.

특정한 실시양태에서, 상기 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.

특정한 실시양태에서, 상기 태그 주형은 5 내지 60nt의 길이를 가질 수 있다.

특정한 실시양태에서, 상기 태그 주형은 10 내지 50nt의 길이를 가질 수 있다.

특정한 실시양태에서, 상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가질 수 있다.

특정한 실시양태에서, 상기 tpegRNA는 100 내지 350nt의 길이를 가질 수 있다.

본 출원의 일부 실시양태는, 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 조성물을 제공한다:

tpegRNA; 및

Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터.

본 출원의 일부 실시양태에 따른 프라임 에디팅 시스템의 오프 타겟 예측 방법은 프라임 에디팅 시스템의 분자적 매커니즘을 이용하기 때문에, 알려진 다른 오프 타겟 예측 방법보다 프라임 에디팅 시스템의 오프 타겟을 예측하는데 다수의 장점을 갖는다.

도 01은 전통적인 gRNA, pegRNA, 및 tpegRNA의 구조의 예시를 나타낸다.

도 02는 tpegRNA의 예시적 실시양태에 관한 것이다. 도 02에 도시된 tpegRNA는 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함한다.

도 03은 tpegRNA의 예시적 실시양태에 관한 것이다. 도 03에 도시된 tpegRNA는 프라이머 결합 부, 태그 주형, 편집 주형, 및 상동성 영역을 포함하는 연장 영역을 포함한다.

도 04는 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 구체적으로, 도 04는 온타겟 또는 오프 타겟 후보 위치에 닉이 발생한 DNA 분자, 및 닉을 유도한 프라임 에디터 단백질/tpegRNA 복합체의 예시를 나타낸다.

도 05는 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 구체적으로, 도 05는 tpegRNA의 프라이머 결합 부가 게놈 DNA의 프라이머로 기능하는 영역과 어닐링된 장면을 도시한다. 이후, 태그 주형 등을 주형으로 하여, 리버스트랜스크립타아제에 의해 역전사가 수행된다.

도 06은 본 출원의 오프 타겟 예측 시스템의 tpegRNA를 이용한 태그 삽입 매커니즘에 관한 것이다. 역전사가 수행되어 태그 서열 등이 내인성 DNA 가닥(3' DNA 플랩)에 추가되었음이 도시된다. 이후, 5' DNA 플랩의 제거 및 DNA 수선을 포함하는 과정을 통해 태그 서열 및 태그 서열에 상보적인 서열이 게놈 DNA의 온타겟 위치 또는 오프 타겟 후보의 위치로 설치된다.

도 07은 본 출원의 오프 타겟 예측 시스템인 TAPE-seq의 예시적 과정을 나타낸 것이다.

도 08은 인큐베이션 기간에 따른 태그 서열의 삽입율에 대한 결과를 나타낸다.

도 09는 GFP-piggyBac 벡터의 맵을 나타낸다.

도 10 내지 도 15는 GFP 양성 세포의 농축 결과를 나타낸다. 구체적으로 도 10 내지 도 11은 HEK293T에 관한 결과이다. 도 12 내지 도 13은 HeLa에 관한 결과이다. 도 14 내지 도 15는 K562에 관한 결과이다.

도 16은 HEK4 (+2G to T) pegRNA로 HEK294T 세포를 형질감염시킨 후의 인큐베이션 시간 별 TAPE-seq에 의해 발견된 후보 오프타겟 부위의 수를 나타낸다.

도 17 내지 도 19는 트랜스포사제 플라스미드로 공동 형질감염시키기 위한 최적의 piggyBac 벡터의 양을 찾기 위한 실험의 결과이다. 구체적으로, 도 17은 PB 플라스미드 (PiggyBac plasmid) 양 별, 정량적 PCR을 통해 세포에서 발견됭 piggyBac 구축물의 복제수를 도시한 그래프이다. 도 18은 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 온타겟 위치에서의 태그맨테이션율을 도시한 그래프이다. 도 19는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 오프 타겟 위치 (off-target site 1) 1에서의 태그맨테이션율을 도시한 그래프이다.

도 20은 프로브 서열의 길이 별 태그맨테이션율에 대한 분석 결과를 나타낸다. 온타겟 사이트에서 태그 삽입율이 분석되었다.

도 21은 프로브 서열의 길이 별 태그맨테이션율에 대한 분석 결과를 나타낸다. 오프 타겟 사이트에서 태그 삽입율이 분석되었다.

도 22는 9개의 다른 pegRNA의 온타겟 사이트에서의 태그맨테이션율 및 프라임 에디팅율에 대한 분석 결과를 나타낸다.

도 23은 HEK4 (+2 G to T) 및 HBB (+4 A to T) pegRNAs의 6개의 타겟 사이트 에 대한 태그맨테이션율에 대한 분석 결과를 나타낸다.

도 24는 표적화된 딥시퀀싱(targeted deep sequencing) 및 PE-analyzer를 이용하여 결정된 Case 1 및 Case 2 에디팅의 비율을 나타낸다. 9개의 서로 다른 pegRNA에 대해 분석되었다.

도 25는 10개의 상이한 온타겟 및 오프 타겟 사이트에서, 프라임 에디팅 편집이 있는 태그맨테이션과 프라임 에디팅 편집이 없는 태그맨테이션에 대한 조사 결과를 나타낸다.

도 26 내지 도 28은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4 pegRNA의 오프 타겟 사이트의 비교 결과를 나타낸다. 도 26은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4 (+2 G to T) pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타낸다. 도 27은 HEK4 (+3 TAA ins)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과를 나타낸다. 도 28은 HEK4 (+2 G to T)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과를 나타낸다.

도 29 내지 도 38은 TAPE-seq에 의해 예측된 결과와 다른 오프 타겟 예측 방법을 통해 예측된 결과의 비교와 관련된 것이다. 도 29는 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 30은 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 31은 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 32는 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 33은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 34는 RNF2 (+6 G to A) pegRNA에 대한 결과를 나타낸다. 도 35는 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 36은 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 37은 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 38은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.

도 39는 도 29 내지 도 38의 결과와 관련된, 각 예측 방법에서 놓친 검증된 오프 타겟에 대한 분석 결과를 나타낸다.

도 40은 PE2 TAPE-seq 및 PE4 TAPE-seq의 태그맨테이션율에 대한 분석 결과를 나타낸다.

도 41 내지 도 43은 PE2 TAPE-seq에 의해 예측된 오프 타겟, PE4 TAPE-seq에 의해 예측된 오프 타겟, 및 진정한 오프 타겟에 대한 비교 결과를 나타낸다. 진정한 오프 타겟은 표적화된 딥 시퀀싱을 통해 검증되었다. 도 41은 HEK293T와 관련된 결과이다. 도 42는 HeLa와 관련된 결과이다. 도 43은 K562와 관련된 결과이다.

도 44는 도 41 내지 도 43과 관련된 놓친 표적 사이트 수의 요약에 대한 분석 결과를 나타낸다. 도 44 (a)는 각 예측 방법 별 분석 결과를 나타낸다. 도 44 (b)는 각 세포 별 분석 결과를 나타낸다.

도 45 내지 도 47은 세포 별 TAPE-seq 오프 타겟 예측 결과 및 검증 결과를 비교한 것이다. 도 45는 HEK293T에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다. 도 46은 HeLa 세포에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다. 도 47은 K562 세포에서의 검증 결과와 각 세포에서의 TAPE-seq 예측 결과를 비교한 것이다.

도 48은 각 세포에서의 TAPE-seq 예측 결과가 놓친 검증된 오프 타겟에 대한 수에 대한 분석 결과이다.

도 49는 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용된 PEmax-nuclease를 사용한 TAPE-seq의 태그맨테이션율에 대한 분석 결과이다.

도 50 내지 도 54는 각 TAPE-seq (PE2 TAPE-seq, PE2-뉴클레아제 TAPE-seq, 및 PEmax-뉴클레아제 및 epegRNA를 사용하는 TAPE-seq)에 의해 예측된 오프 타겟과 검증된 오프 타겟 부위를 비교한 결과를 나타낸다. 도 50은 HEK4 (+2 G to T) pegRNA (또는 epegRNA)에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 51은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 52는 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 53은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 54는 RNF2 (+6 G to A) pegRNA, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다.

도 55 내지 도 59는 nDigenome-seq, GUIDE-seq, 및 TAPE-seq (PEmax-뉴클레아제 및 epegRNA를 사용하는 TAPE-seq)의 오프 타겟 예측 결과, 및 검증된 오프 타겟을 비교한 결과를 나타낸다. 도 55는 HEK4 (+2 G to T) pegRNA에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 56은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 57은 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 58은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 59는 RNF2 (+6 G to A) pegRNA에 대한 결과, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다.

도 60은 GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA 사용)의 미스율에 대한 분석 결과를 나타낸다.

도 61 내지 도 66은 ROC 커브를 통한 GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA)에 대한 비교 결과를 나타낸다. 도 61은 HEK4 (+2 G to T) pegRNA에 대한 결과 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 62는 HBB (+4 A to T) pegRNA에 대한 결과 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 63은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 64는 EMX1 (+5 G to T) pegRNA에 대한 결과 및 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 65는 RNF2 (+6 G to A) pegRNA에 대한 결과 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 66은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.

도 67은 도 61 내지 도 66의 분석 결과를 바탕으로 계산된 ROC 커브의 아래 면적에 대한 분석 결과를 나타낸다.

도 68 내지 도 87은 표적화된 딥시퀀싱을 통해 분석된 오프 타겟 사이트들의 에디팅 패턴에 대한 분석 결과이다. 도 68은 HEK4 (+3 TAA ins) pegRNA를 통해 유도된 편집 패턴과 관련된 결과이다. 도 69 내지 도 71은 HEK4 (+2 G to T) pegRNA를 통해 유도된 편집 패턴과 관련된 결과이다. 도 72 내지 도 75는 HEK4 (+2 G to T) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 76은 HBB (+4 A to T) pegRNA과 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 77 내지 도 80은 HEK4 (+3 TAA ins) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 도 81 내지 도 82는 HeLa 세포에서의 결과를 나타낸다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 83 내지 도 84는 K562 세포에서의 결과를 나타낸다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 85 내지 도 87은 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 나타낸다. 구체적으로, HEK4 (+2 G to T) pegRNA, DNMT1 (+6 G to C) pegRNA, HBB (+4 A to T) pegRNA, 및 VEGFA (+5 to T) pegRNA에 대한 결과를 나타낸다.

도 88 내지 도 90은 tpegRNA의 각 영역 (타겟 영역, PBS, RT 주형)의 미스매치 수를 사용하여 구성된 ROC 커브에 대한 분석 결과를 나타낸다. 도 88은 HEK4 (+2 G to T) pegRNA에 대한 결과, HEK4 (+3 TAA ins) pegRNA에 대한 결과, 및 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 89는 HEK3 (+1 CTT ins) pegRNA에 대한 결과, FANCF (+6 G to C) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과이다. 도 90은 DNMT1 (+6 G to C) pegRNA에 대한 결과, RUNX1 (+6 G to C) pegRNA에 대한 결과, 및 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.

도 91은 도 88 내지 도 90의 분석 결과를 바탕으로 계산된 ROC 커브의 아래 면적에 대한 분석 결과를 나타낸다.

도 92는 TAPE-seq에 의해 예측된 위양성 사이트, 및 검증된 사이트들에 대한 미스매치율의 분석 결과를 나타낸다.

도 93은 PiggyBac PE2 올인원 플라스미드 (pAllin1-PE2)의 벡터 맵을 나타낸다.

용어의 정의

달리 정의되지 않는 한, 본 명세서에 사용된 모든 기술 과학 용어는 본 발명이 속하는 기술분야의 통상의 기술자에 의해 통상적으로 이해되는 의미를 갖는다. 하기 참고문헌은 통상의 기술자에게 본 명세서에 사용된 많은 용어의 일반적 정의를 제공한다: [Singleton et al., Dictionary of Microbiology and Molecular Biology (2nd ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger et al. (eds.), Springer Verlag (1991); 및 Hale & Marham, The Harper Collins Dictionary of Biology (1991)]. 본 명세서에 사용된 하기의 용어는 달리 명시되지 않는 한 이들에게 부여된 의미를 갖는다.

"연결된" 또는 "연결"

본 명세서에서 사용되는 용어 "연결된" 또는 "연결"은 하나의 개념화 가능한 구조 내에 존재하는 2 이상의 요소가 직접적으로 또는 간접적으로 (예를 들어, 링커와 같은 다른 요소를 통해) 연결되어 있는 것을 의미하며, 상기 2 이상의 요소 사이에 다른 추가적 요소가 존재할 수 없음을 의도하는 것은 아니다. 예를 들어, "요소 A에 연결된 요소 B"와 같은 기재는 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 포함된 경우(즉, 하나 이상의 다른 요소를 통해 요소 A가 요소 B에 연결된 경우) 및 요소 A와 요소 B 사이에 하나 이상의 다른 요소가 존재하지 않는 경우 (즉, 요소 A와 요소 B가 직접적으로 연결된 경우)를 모두 포함하는 것으로 의도되며, 제한되어 해석될 것은 아니다.

서열 동일성

본 명세서에서 사용되는 용어 "서열 동일성 (sequence identity)"은 2개 이상의 서열 사이의 유사성 정도와 관련하여 사용되는 용어이다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 서열을 지칭하는 용어 및 비율(예를 들어, 백분율)을 나타내는 용어와 함께 사용된다. 예를 들어, 용어 "서열 동일성"은 기준이 되는 뉴클레오타이드 서열과 유사하거나 실질적으로 동일한 서열을 설명하기 위해서 사용될 수 있다. "서열 A와 90% 이상의 서열 동일성을 갖는 서열"과 같이 기술되는 경우, 여기서 기준이 되는 서열은 서열 A이다. 예를 들어, 서열 동일성의 백분율은 기준 서열과 서열 동일성의 백분율 측정의 대상이 되는 서열을 정렬함을 통해 계산될 수 있으며, 서열 동일성의 백분율은 하나 이상의 뉴클레오타이드에 대한 미스매치(mismatch), 결실(deletion), 및 삽입(insertion)을 모두 포함하여 계산될 수 있다. 서열 동일성의 백분율의 계산 및/또는 결정 방법은 달리 제한되지 않으며, 당해 기술분야의 통상의 기술자에 의해 이용될 수 있는 합리적인 방법 또는 알고리즘을 통해 계산 및/또는 결정될 수 있다.

아미노산 서열의 표기

달리 서술하지 않는 한, 본 명세서에서 아미노산 서열을 기재할 때는 아미노산 일문자 표기법, 또는 세문자 표기법을 사용하여, N-터미널에서 C-터미널 방향으로 기재한다. 예를 들어, RNVP로 표기하는 경우, N-터미널에서 C-터미널 방향으로 아르기닌(arginine), 아스파라긴(asparagine), 발린(valine), 및 프롤린(proline)이 차례로 연결된 펩타이드를 의미한다. 또 다른 예를 들어, Thr-Leu-Lys로 표기하는 경우, N-터미널에서 C-터미널 방향으로 트레오닌(Threonine), 류신(Leucine), 및 리신(Lysine)이 차례로 연결된 펩타이드를 의미한다. 상기 일문자 표기법으로 나타낼 수 없는 아미노산의 경우, 다른 문자를 사용하여 표기하며, 추가적으로 보충하여 설명한다.

각각의 아미노산 표기 방법은 다음과 같다: 알라닌(Alanine; Ala, A); 아르기닌(Arginine; Arg, R); 아스파라긴(Asparagine; Asn, N); 아스파르트산(Aspartic acid; Asp, D); 시스테인(Cysteine; Cys, C); 글루탐산(Glutamic acid; Glu, E); 글루타민(Glutamine; Gln, Q); 글리신(Glycine; Gly, G); 히스티딘(Histidine; His, H); 이소류신(Isoleucine; Ile, I); 류신(Leucine; Leu, L); 리신(Lysine; Lys K); 메티오닌(Methionine; Met, M); 페닐알라닌(Phenylalanine; Phe, F); 프롤린(Proline; Pro, P); 세린(Serine; Ser, S); 트레오닌(Threonine; Thr, T); 트립토판(Tryptophan; Trp, W); 티로신(Tyrosine; Tyr, Y); 및 발린(Valine; Val, V).

핵산 서열의 표기

본 명세서에서 사용되는 A, T, C, G 및 U 기호는 당업계 통상의 기술자가 이해하는 의미로 해석된다. 문맥 및 기술에 따라 DNA 또는 RNA 상에서 염기, 뉴클레오사이드 또는 뉴클레오타이드로 적절히 해석될 수 있다. 예를 들어, 염기를 의미하는 경우는 각각 아데닌(A), 티민(T), 시토신(C), 구아닌(G) 또는 우라실(U) 자체로 해석될 수 있고, 뉴클레오사이드를 의미하는 경우는 각각 아데노신(A), 티미딘(T), 시티딘(C), 구아노신(G) 또는 유리딘(U)으로 해석될 수 있으며, 서열에서 뉴클레오타이드를 의미하는 경우는 상기 각각의 뉴클레오사이드를 포함하는 뉴클레오타이드를 의미하는 것으로 해석되어야 한다.

개시되는 서열의 방향성

본 명세서에서 개시되는 뉴클레오타이드 서열(예를 들어, DNA 서열, RNA 서열, DNA/RNA 하이브리드 서열)은, 달리 명시되지 않는 한 또는 달리 서술되지 않는 한, 5' 에서 3' 방향으로 개시된 것으로 이해되어야 한다. 본 명세서에서 개시되는 아미노산 서열은, 달리 명시되지 않는 한 또는 달리 서술되지 않는 한, N 말단에서 C 말단의 방향으로 개시된 것으로 이해되어야 한다.

표적 서열

본 명세서에서 사용되는 “표적 서열”은 가이드 RNA 또는 유전자 편집 도구 (예를 들어, Cas/전통적인 gRNA 복합체 및 프라임 에디터 효소/pegRNA 복합체 등)가 표적 유전자 또는 표적 핵산을 절단하기 위해 인식하는 특정 서열을 의미한다. 상기 표적 서열은 그 목적에 따라 적절히 선택될 수 있다. 예를 들어, “표적 서열”은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA(예를 들어, pegRNA)에 포함된 스페이서 서열과 상보성을 가지는 서열을 의미할 수 있다 (이 경우, 표적 서열은 가이드 RNA의 스페이서 서열과 상보적으로 결합 가능함). 다른 예로, "표적 서열"은 표적 유전자 또는 표적 핵산 서열 내에 포함된 서열이며, 가이드 RNA에 포함된 스페이서 서열과 상보성을 갖는 서열에 상보적인 서열을 의미할 수 있다 (이 경우, 표적 서열은 가이드 RNA의 스페이서 서열과 실질적으로 동일한 서열을 가질 수 있음). 이와 같이, 표적 서열은 가이드 RNA에 포함된 스페이서 서열에 상보성을 갖는 서열 및/또는 가이드 RNA의 스페이서 서열과 실질적으로 동일한 서열을 지칭하는 것으로 사용되며, 제한되어 해석되어서는 아니된다. 일부 실시양태서, 표적 서열은 PAM 서열을 포함하는 서열로 개시될 수 있다. 일부 실시양태에서, 표적 서열은 PAM 서열을 포함하지 않는 서열로 개시될 수 있다. 표적 서열은 이를 서술하는 문맥의 내용에 따라 적절히 해석될 것이다. 일반적으로, 상기 스페이서 서열은 표적 유전자 또는 표적 핵산의 서열 및 CRISPR/Cas 시스템의 편집 단백질이 인식하는 PAM 서열을 고려하여 결정된다. 상기 표적 서열은 CRISPR/Cas 복합체의 가이드 RNA와 상보적으로 결합하는 특정 가닥의 서열만을 지칭할 수 있으며, 가이드 RNA와 상보적으로 결합하지 않는 특정 가닥의 서열만을 지칭할 수 있으며, 또는 상기 특정 가닥 부분을 포함하는 표적 이중 가닥 전체를 지칭할 수도 있으며, 이는 문맥에 따라 적절히 해석된다. 본 표적 서열에 대한 용어의 정의는, 표적 서열이 존재할 수 있는 가닥을 설명하기 위해서 개시되며, 표적 서열이라는 용어를 통해 온 타겟 서열과 오프 타겟 서열을 구분하기 위한 의도로 작성된 것은 아니다. 용어 "표적 서열"은 온 타겟 서열과 관련되어 사용될 수 있으며, 또한 용어 "표적 서열"은 오프 타겟 서열과 관련되어 사용될 수 있다. 즉, 일부 실시양태에서, 의도된 표적 서열은 온 타겟 서열로 지칭될 수 있고, 의도되지 않은 표적 서열은 오프 타겟 서열로 지칭될 수 있다. 예를 들어, 일부 실시양태에서, 온 타겟 서열은 표적 서열로 지칭될 수 있다 (이 경우, 예를 들어, 가이드 RNA의 스페이서 서열과 표적 서열은 실질적으로 동일할 수 있다). 다른 예로, 일부 실시양태에서, 오프 타겟 서열은 표적 서열로 지칭될 수 있다 (이 경우, 예를 들어, 가이드 RNA의 스페이서 서열과 표적 서열 간에는 0 또는 하나 이상의 미스매치가 존재할 수 있다). 온 타겟 및 오프 타겟과 관련하여, 용어 표적 서열은 관련 단락의 내용에 따라 적절히 해석될 수 있다.

스페이서 결합 가닥

본 명세서에서 용어 "스페이서 결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템 및 프라임 에디팅 시스템 등)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가진다. 이중 가닥에서, 가이드 핵산의 스페이서 영역 일부 또는 전부의 서열과 상보성을 갖는 서열을 가지고, 이를 통해 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하게 되는 가닥이 스페이서 결합 가닥으로 지칭될 수 있다.

스페이서 비-결합 가닥

본 명세서에서 용어 "스페이서 비-결합 가닥"은, 가이드 핵산 (예를 들어, 가이드 RNA)이 관여되는 유전자 편집 시스템 (예를 들어, CRISPR/Cas 유전자 편집 시스템 및 프라임 에디팅 시스템 등)에서, 가이드 핵산의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥인 '스페이서 결합 가닥'이 아닌 다른 가닥을 지칭하는 것으로 사용된다. 게놈과 같은 DNA 분자는 대체로 이중 가닥으로 형성된 구조를 가지며, 용어 "스페이서 비-결합 가닥"은 이중 가닥에서 스페이서 결합 가닥이 아닌 다른 가닥을 지칭하는 것으로 사용될 수 있다. 예를 들어, 프라임 에디팅 시스템을 이용한 DNA 분자의 편집에서, pegRNA의 스페이서 영역의 일부 또는 전부의 서열과 상보적인 결합을 형성하는 서열을 포함하는 가닥은 '스페이서 결합 가닥'으로 지칭되고, pegRNA의 프라이머 결합 부(primer binding site; PBS)와 상보적인 결합을 형성하는 서열을 포함하는 가닥은 '스페이서 비-결합 가닥'으로 지칭될 수 있다. 예를 들어, 프라임 에디팅 버전 2에서, 스페이서 비-결합 가닥에 Cas9(H840A)에 의해 닉이 유도되며, 스페이서 비-결합 가닥에 3' DNA 플랩이 형성된다.

DNA 분자의 제1 가닥 및 제2 가닥

게놈과 같은 DNA 분자는 대체로 두개의 가닥으로 구성된 이중나선 구조를 갖는다. 이러한 두개의 가닥으로 구성된 DNA 분자는 이중 가닥 DNA로 지칭될 수 있다. CRISPR/Cas 기반 유전자 편집 시스템의 설명을 위해서, 때때로 DNA 분자의 두개의 가닥은 구분되어 지칭될 필요가 있다. DNA 분자의 하나의 가닥은 제1 가닥 (first strand)로 지칭될 수 있다. 이때 이중 가닥 DNA에서, 제1 가닥이 아닌 가닥은 제2 가닥 (second strand)으로 지칭될 수 있다. 각각의 실시양태에서, 제1 가닥 및 제2 가닥은 임의적으로 설정될 수 있다. 예를 들어, 일부 실시양태에서, DNA 분자의 어느 하나의 가닥을 제1 가닥으로 지칭하는 경우, DNA 분자의 다른 하나의 가닥은 제2 가닥으로 지칭될 수 있다. 예를 들어, 일부 실시양태에서는 스페이서 결합 가닥이 제1 가닥으로 지칭될 수 있다. 다른 예로, 일부 실시양태에서는 스페이서 비-결합 가닥이 제1 가닥으로 지칭될 수 있다. 이처럼 DNA 분자의 어느 한 가닥은, 필요에 따라, 제1 가닥으로 지칭될 수 있고, 다른 하나의 가닥은 제2 가닥으로 지칭될 수 있다.

상류 (upstream) 및 하류 (downstream)

본 명세서에서 사용되는 용어 "상류" 및 "하류"는 5'에서 3' 방향으로 배향되는 핵산 분자 (단일 가닥이든 이중 가닥이든)에 위치한 적어도 2개의 요소의 선형 위치를 정의하는 상대성 용어이다. 예를 들어, 제1 요소는 핵산 분자에서 제2 요소의 상류에 있음과 같이 기술되는 경우, 여기서 제1 요소는 제2 요소에 대해 5'인 어딘가에 위치한다. 예를 들어, SNP(single-nucleotide polymorphism)가 닉 부위의 5' 측면 상에 있는 경우에, SNP는 Cas9에 의해 유도된 닉 부위의 상류에 위치하는 것으로 기술될 수 있다. 다른 예로, 제1 요소는 핵산 분자에서 제2 요소의 하류에 있음과 같이 기술되는 경우, 여기서 제1 요소는 제2 요소에 대해 3' 방향의 어딘가에 위치한다. 예를 들어, SNP가 닉 부위의 3' 측면 상에 있는 경우에, SNP는 Cas9에 의해 유도된 닉 부위의 하류에 위치하는 것으로 기술될 수 있다. 핵산 분자는 DNA(이중 또는 단일 가닥), RNA (이중 또는 단일 가닥), 또는 DNA와 RNA의 하이브리드일 수 있다.

NLS(nuclear localization signal or sequence)

용어 "NLS (nuclear localization signal or sequence)"은, 세포 핵 내로의 단백질의 유입을 촉진하는 아미노산 서열을 지칭한다. 예를 들어, 상기 단백질의 유입은 핵 수송에 의해 촉진될 수 있다. NLS는 관련 기술분야에 공지되어 있고, 통상의 기술자에게 명백할 것이다. 예를 들어, NLS의 예시적인 서열은 PCT 출원 출원번호 PCT/EP2000/011690 (공개번호 WO2021/038547)에 기재되어 있으며, 이의 내용은 예시적인 NLS에 대해 본 명세서에 참조로 포함된다. 일부 실시양태에서, NLS는 아미노산 서열 PKKKRKV (서열번호 01), KRPAATKKAGQAKKKK (서열번호 02), PAAKRVKLD (서열번호 03), RQRRNELKRSP (서열번호 04), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 05), RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 06), VSRKRPRP (서열번호 07), PPKKARED (서열번호 08), PQPKKKPL (서열번호 09), SALIKKKKKMAP (서열번호 10), DRLRR (서열번호 11), PKQKKRK (서열번호 12), RKLKKKIKKL (서열번호 13), REKKKFLKRR (서열번호 14), KRKGDEVDGVDEVAKKKSKK (서열번호 15), RKCLQAGMNLEARKTKK (서열번호 16) 또는 MDSLLMNRRKFLYQFKNVRWAKGRRETYLC (서열번호 17)을 포함할 수 있으나, 이에 제한되지 않는다. 하나 이상의 NLS는 Cas 단백질 또는 프라임 에디터 단백질 등과 같은 유전자 편집을 위한 단백질에 선택적으로 융합될 수 있다. 단백질에 융합된 NLS는, 연결된 단백질을 목적하는 위치인 핵 내로의 이동을 촉진하는데 사용될 수 있다.

단백질, 펩티드 및 폴리펩티드

본 명세서에서 사용되는 용어 "단백질", "펩티드" 및 "폴리펩티드"는 상호교환가능하게 사용되고, 펩티드 (아미드) 결합에 의해 연결된 아미노산 잔기의 중합체를 지칭한다. 상기 용어는 임의의 크기, 구조, 또는 기능의 단백질, 펩티드 또는 폴리펩티드를 지칭한다. 전형적으로, 단백질, 펩티드 또는 폴리펩티드는 적어도 3 이상의 아미노산 길이일 것이다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 개별 단백질 또는 단백질들의 결합을 지칭할 수 있다. 예를 들어, 단백질, 펩티드, 또는 폴리펩티드는 개별 단백질, 두개 이상의 요소 (이때, 두개의 요소 중 적어도 하나는 단백질임)가 융합되어 있는 융합 단백질, 및 두개 이상의 요소(이때, 두개의 요소 중 적어도 하나는 단백질임)가 복합체화 되어있는 복합체 단백질을 모두 포괄하는 용어로 사용될 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드 내의 아미노산 중 1개 이상은 변형될 수 있다. 이때 단백질, 펩티드, 또는 폴리펩티드에 포함된 변형은, 예를 들어, 화학 물질, 예컨대 탄수화물 기, 히드록실 기, 포스페이트 기, 파르네실 기, 이소파르네실 기, 지방산 기, 접합, 관능화 또는 다른 변형을 위한 링커 등의 부가에 의한 변형일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 단일 분자일 수 있거나 또는 다분자 복합체일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 자연 발생 단백질일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 단백질의 단편일 수 있다. 일부 실시양태에서, 단백질, 펩티드 또는 폴리펩티드는 자연 발생, 재조합 또는 합성, 또는 이의 임의의 조합일 수 있다. 본 명세서에 제공된 임의의 단백질은 관련 기술분야에 공지된 임의의 방법에 의해 생산될 수 있다. 예를 들어, 본 명세서에 제공된 임의의 단백질은 재조합 단백질 발현 및 정제를 통해 생산될 수 있으며, 이는 펩티드 링커를 포함하는 융합 단백질에 특히 적합하다. 재조합 단백질 발현 및 정제를 위한 발명은 널리 공지되어 있고, 문헌 [Green, Michael R., and Joseph Sambrook. "Molecular cloning." A Laboratory Manual 4th (2012).]을 참조할 수 있고, 이의 전체 내용은 본 명세서에 참조로 포함된다.

기능적 등가물

용어 "기능적 등가물" 또는 "등가물"은 제1 분자 또는 개념화가능한 요소와 기능상 등가이지만 구조상 반드시 등가인 것은 아닌 제2 분자 또는 개념화가능한 요소를 지칭한다. 예를 들어, "Cas9 등가물"은 Cas9와 동일하거나 실질적으로 동일하거나 유사한 기능을 갖지만 반드시 동일한 아미노산 서열을 갖는 것은 아닌 단백질을 지칭한다. 본 출원의 전반에 걸쳐, 특정 단백질을 언급하는 경우 언급된 특정 단백질은 그의 기능적 등가물을 모두 포괄하는 것으로 의도된다. 예를 들어, "X 단백질"과 같이 기재되는 경우, X 단백질의 용어는 X 단백질의 기능적 등가물을 포괄하는 의미로 해석될 수 있다. 이러한 차원에서, X 단백질의 "기능적 등가물" 또는 "등가물"은 등가의 기능을 보유하는 단백질 X의 임의의 상동체, 파라로그(paralog), 오쏘로그(ortholog), 단편, 자연발생된, 조작된, 돌연변이된, 및 합성된 버전을 포괄한다. 예를 들어, 용어 Cas 단백질이 사용되는 경우, 용어 Cas 단백질은 Cas 단백질의 등가물(예를 들어, Cas 닉카제 등)을 포괄하는 것으로 해석될 수 있다. 다른 예로, 용어 리버스 트랜스크립타아제가 사용되는 경우, 용어 리버스 트랜스크립타아제는 리버스 트랜스크립타아제의 등가물을 포괄하는 것으로 해석될 수 있다.

원형 순열체 (Circular permutant)

본 명세서에서 사용되는 용어 "원형 순열체 (circular permutant)"는 단백질의 아미노산 서열에 나타나는 아미노산의 순서의 변화를 수반하는 단백질의 구조적 구성의 변화인, 원형 순열(circular permutation)을 포함하는 단백질 또는 폴리펩티드를 지칭한다. 원형 순열체는 야생형 대응물과 비교하여 N- 및/또는 C- 말단이 변경된 단백질이며, 예를 들어 단백질의 야생형 C-말단 절반이 새로운 N-말단 절반이 된다. 원형 순열 (또는 CP)은 예를 들어, 그의 서열을 상이한 위치에서 분할하여 새로운 인접한 N- 및 C- 말단을 생성하면서, 동시에 그의 N- 및 C- 말단을 펩티드 링커와 연결하는, 단백질의 1차 서열의 위상 재배열이다. 그 결과로, 상이한 연결성을 갖지만 종종 동일한 또는 유사한 3차원 (3D) 형상을 갖는 단백질이 생성될 수 있다. 예를 들어, 감소된 단백질분해 감수성, 개선된 촉매 활성, 변경된 기질 또는 리간드 결합, 및/또는 개선된 열안정성을 포함한 개성된 또는 변경된 특징을 포함할 수 있는 단백질 구조가 생성될 수 있다. 원형 순열체 단백질은 자연에서 발생할 수 있다 (예를 들어, 콘카나발린 A 및 렉틴). 추가로, 원형 순열은 번역 후 변형의 결과로서 발생할 수 있거나 또는 재조합 기술을 사용하여 조작될 수 있다. 특정 단백질의 원형 순열체는 특정 단백질의 등가물에 포함될 수 있다.

원형 순열체의 예로, "원형 순열 Cas9"은 그의 N- 및 C-말단이 국소적으로 재배열된, 원형 순열체로부터 발생한 임의의 Cas9 단백질 또는 그의 변이체를 지칭한다. 이러한 원형 순열 Cas9 단백질 ("CP-Cas9") 또는 그의 변이체는 가이드 RNA (gRNA)와 복합체화되는 경우 DNA에 결합하는 능력을 보유한다. 문헌 [Oakes, Benjamin L., Dana C. Nadler, and David F. Savage. "Protein engineering of Cas9 for enhanced function." Methods in enzymology. Vol. 546. Academic Press, 2014. 491-511.; 및 Oakes, Benjamin L., et al. "CRISPR-Cas9 circular permutants as programmable scaffolds for genome modification." Cell 176.1-2 (2019): 254-267.]을 참조하며, 이들 각각은 본 명세서에 참조로 포함된다. 본 명세서의 개시내용은 새로운 CP-Cas9이, 임의의 이전에 공지된 CP-Cas9을 고려하거나 또는 생성된 원형 순열 단백질이 gRNA와 복합체화되는 경우 DNA에 결합하는 능력을 보유하는 한, 새로운 CP-Cas9을 포함한다. 예시적인 CP-Cas9 단백질의 서열은 문헌 WO2020191233A1 (출원번호 PCT/US2020/023712)에 개시되며, 상기 문헌 WO2020191233A1의 전체 내용은 본 명세서에 참조로 포함된다.

융합 단백질 (fusion protein)

본 명세서에서 사용되는 용어 "융합 단백질"은 적어도 2종의 상이한 요소(이때 적어도 하나의 요소는 단백질임)로부터 유래된 단백질 또는 도메인을 포함하는 하이브리드 폴리펩티드를 지칭한다. 예를 들어, 융합 단백질은 2종의 상이한 단백질로부터 유래된 단백질을 포함하는 하이브리드 폴리펩티드일 수 있다. 1종의 단백질은 융합 단백질의 아미노-말단 (N-말단) 부분에 또는 융합단백질의 카르복시-말단 (C-말단) 부분에 위치하며, 따라서 각각 "아미노-말단 융합 단백질" 또는 "카르복시-말단 융합 단백질"을 형성할 수 있다. 일부 실시양태에서, 융합 단백질은 2개 이상의 요소가 공유결합을 통해 연결된 단일 분자 형태의 요소를 지칭하는 것으로 사용될 수 있다. 다른 실시양태에서, 융합 단백질은 2개 이상의 요소가 비공유결합을 통해 결합된 다분자 복합체 형태의 요소를 지칭하는 것으로 사용될 수 있다.

링커

본 명세서에서 사용되는 용어 "링커"는 2개의 다른 분자 또는 모이어티를 연결하는 분자를 지칭한다. 융합단백질에서, 2개의 단백질을 연결하는 링커의 경우, 링커는 아미노산 서열일 수 있다. 예를 들어, Cas9은 아미노산 링커 서열에 의해 리버스 트랜스크립타아제와 연결되어 융합 단백질을 형성할 수 있다. 또한 2개의 뉴클레오티드 서열을 함께 연결하는 링커의 경우, 링커는 뉴클레오티드 서열일 수 있다. 예를 들어, 전통적인 가이드 RNA에서, crRNA는 tracrRNA와 링커를 통해 연결되고, 단일가닥 가이드 RNA가 형성될 수 있다. 다른 실시양태에서, 링커는 유기 분자, 그룹, 중합체 또는 화학적 모이어티일 수 있다. 일부 실시양태에서, 링커는 1 내지 200개의 아미노산 길이를 가질 수 있으나 이에 제한되지 않는다. 일부 실시양태에서, 링커는 1 내지 500개의 뉴클레오타이드 길이를 가질 수 있으나 이에 제한되지 않는다. 보다 긴 링커 또한 고려될 수 있다.

이중특이적 리간드 (Bi-specific ligand)

본 명세서에서 사용되는 용어 "이중특이적 리간드" 또는 "이중특이적 모이어티"는 2종의 상이한 리간드-결합 도메인(ligand binding domain)에 결합하는 리간드를 지칭한다. 특정한 실시양태에서, 리간드는 소분자 화합물, 펩티드, 또는 폴리펩티드이다. 다른 실시양태에서 리간드-결합 도메인은 펩티드 태그로서 단백질 상에 설치될 수 있는 이량체화 도메인(dimerization domain)이다. 다양한 실시양태에서, 각각 동일하거나 상이한 이량체화 도메인을 포함하는 2종의 단백질은 이중 특이적 리간드에 대한 각각의 이량체화 도메인의 결합을 통해 이량체화되도록 유도될 수 있다. 본 명세서에 사용된 "이중특이적 리간드"는 동등하게 "이량체화의 화학적 유도제" 또는 "CID"를 지칭할 수 있다.

이량체화 도메인 (dimerization domain)

용어 "이량체화 도메인 (dimerization domain)"은 이중특이적 리간드의 결합 모이어티에 결합하는 리간드-결합 도메인을 지칭한다. 제1 이량체화 도메인은 이중특이적 리간드의 제1 결합 모이어티에 결합하고, 제2 이량체화 도메인은 동일한 이중특이적 리간드의 제2 결합 모이어티에 결합한다. 제1 이량체화 도메인이 제1 단백질에 융합되고, 제2 이량체화 도메인이 제2 단백질에 융합되는 경우에, 제1 및 제2 단백질은 이중특이적 리간드의 존재 하에 이량체화될 수 있다. 여기서, 이중특이적 리간드는 제1 이량체화 도메인에 결합하는 적어도 하나의 모이어티 및 제2 이량체화 도메인에 결합하는 적어도 또 다른 모이어티를 갖는다. 일부 실시양태에서, Cas 단백질에는 이량체화 도메인 (예를 들어, 제1 이량체화 도베인)이 연결될 수 있다. 일부 실시양태에서, 리버스 트랜스크립타아제에는 이량체화 도메인(예를 들어, 제2 이량체화 도메인)이 연결될 수 있다.

닉카제 (nickase)

용어 "닉카제"는 2개의 뉴클레아제 도메인 중 하나가 불활성화된 Cas 단백질을 지칭한다. 닉카제는 표적 DNA 분자의 한 가닥만을 절단할 수 있다.

플랩 엔도뉴클레아제 (flap endonuclease)

본 명세서에서 사용되는 용어 "플랩 엔도뉴클레아제"는 5' 단일 가닥 DNA 플랩의 제거를 촉매하는 효소를 지칭한다. 이들은 DNA 복제를 비롯한 세포 과정 동안 형성된 5' 플랩의 제거를 프로세싱하는 효소이다. 일부 실시양태에서, 프라임 에디팅 방법은 프라임 에디팅 동안 표적 부위에 형성된 내인성 DNA의 5' 플랩을 제거하기 위해 내인성의 플랩 엔도뉴클레아제 또는 외부로부터 제공된 것을 이용할 수 있다. 플랩 엔도뉴클레아제는 관련 기술분야에 공지되어 있고, 문헌 [Patel, Nikesh, et al. "Flap endonucleases pass 5′-flaps through a flexible arch using a disorder-thread-order mechanism to confer specificity for free 5′-ends." Nucleic acids research 40.10 (2012): 4507-4519.; 및 Tsutakawa, Susan E., et al. "Human flap endonuclease structures, DNA double-base flipping, and a unified understanding of the FEN1 superfamily." Cell 145.2 (2011): 198-211.]에 상세히 개시되며, 이들 각각은 본 명세서에 참조로 포함된다. 예시적인 플랩 엔도뉴클레아제는 FEN1일 수 있다. FEN1의 서열은 문헌 WO2020191233A1 (출원번호 PCT/US2020/023712)에 개시된다.

유효량

본 명세서에서 사용되는 용어 "유효량"은 목적하는 생물학적 반응을 도출하기에 충분한 생물학적 활성제의 양을 지칭한다. 예를 들어, 일부 실시양태에서, 프라임 에디터 단백질의 유효량은 표적 부위 뉴클레오티드 서열, 예를 들어 게놈을 편집하기에 충분한 단백질의 양을 지칭할 수 있다. 일부 실시양태에서, 본 출원에서 제공되는 프라임 에디터 단백질, 예를 들어 닉카제 Cas9 도메인 (nickase Cas9 domain) 및 리버스 트랜스크립타아제를 포함하는 융합 단백질의 유효량은, 융합 단백질에 의해 특이적으로 결합되고 편집되는 의도된 표적 부위의 편집을 유도하기에 충분한 융합 단백질의 양을 지칭할 수 있다. 통상의 기술자에게 의해 인지될 바와 같이, 작용제, 예를 들어, 융합 단백질, 뉴클레아제, 하이브리드 단백질, 단백질 이량체, 단백질 (또는 단백질 이량체) 및 폴리뉴클레오티드의 복합체, 또는 폴리뉴클레오티드의 유효량은 다양한 인자, 예를 들어 목적하는 생물학적 반응, 편집될 특정 유전자, 편집될 게놈, 편집될 표적 부위, 표적화될 세포 또는 조직, 및 사용될 작용제에 따라 달라질 수 있다.

약 (about)

본 명세서에서 사용되는 용어 “약”은 어떤 수량에 거의 가까운 정도를 의미하며, 참조 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이에 대해 30, 25, 20, 25, 10, 9, 8, 7, 6, 5, 4, 3, 2 또는 1% 정도로 변하는 양, 수준, 값, 수, 빈도, 퍼센트, 치수, 크기, 양, 중량 또는 길이를 의미한다.

CRISPR/Cas 시스템

CRISPR/Cas 시스템 개괄

CRISPR

본 "CRISPR" 섹션은 기술자의 이해를 돕기 위한 섹션이며, 본 섹션에 사용된 용어는 본 명세서에 개시된 용어를 제한하는 것이 아니다.

CRISPR는 원핵생물을 침입한 바이러스에 의한 이전 감염(prior infections)의 조각 (snippets)을 나타내는, 박테리아 및 고세균에서의 DNA 서열의 패밀리 (즉, CRISPR 클러스터)이다. DNA의 조각은 유사한 바이러스에 의한 후속 공격으로부터 DNA를 검출하고 파괴하기 위해 원핵세포에 의해 사용되고, CRISPR-연관 단백질 (CRISPR associated protein; Cas protein) 및 CRISPR-연관 RNA의 어레이와 함께 원핵 면역 방어 시스템을 효과적으로 구성한다. CRISPR 클러스터는 CRISPR RNA (crRNA)로 전사 및 프로세싱된다. 후속적으로, Cas9/crRNA/tracrRNA는 RNA에 상보적인 선형 또는 원형 dsDNA 표적을 핵산내부분해적으로 절단한다. 구체적으로, crRNA에 상보적이지 않은 표적 가닥은 먼저 핵산내부분해적으로 절단된 다음, 핵산외부분해적으로 3'-5' 트리밍된다. DNA-결합 및 절단은 전형적으로 단백질 및 두개의 RNA를 요구한다. 그러나, 단일 가이드 RNA (sgRNA, single guide RNA, 또는 간단히 gRNA)가 개발되었으며 단일 가닥 RNA는 crRNA 및 tracrRNA 둘 다의 측면을 단일 RNA 종 내로 혼합되도록 조작된 것이다. 예를 들어, 문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.]을 참조하며, 이의 전체 내용은 본 명세서에 참조로 포함된다. Cas9은 CRISPR 반복 서열 내의 짧은 모티프 (PAM 또는 프로토스페이서 인접 모티프)를 인식하여 자기 대 비-자기 구별을 돕는다. CRISPR 생물학, 뿐만 아니라 Cas9 뉴클레아제 서열 및 구조는 관련 기술분야의 통상의 기술자에게 널리 공지되어 있다 (예를 들어, 문헌 [Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al. "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471.7340 (2011): 602-607.; 및 Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이들 각각의 전체 내용은 본 명세서에 참조로 포함됨). Cas9 오쏘로그 (ortholog)는 S. pyogenes (Streptococcus pyogenes)및 S. thermophilus (Streptococcus thermophilus)를 포함하나 이에 제한되지 않고, 다양한 종에서 기재되어 있다. 추가의 적합한 Cas9 뉴클레아제 및 서열은 본 개시내용에 기초하여 관련 기술분야의 통상의 기술자에게 명백할 것이고, 이러한 Cas9 뉴클레아제 및 서열은 그의 전체 내용이 본원에 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된 유기체 및 유전자좌로부터의 Cas9 서열을 포함한다.

CRISPR/Cas 시스템 및 이를 이용한 DNA 분자의 편집

전술한 CRISPR로부터 개발된 CRISPR/Cas 시스템은 세포의 CRISPR 시스템으로부터 유래된 Cas 단백질과, Cas 단백질을 표적 영역으로 유도하는 가이드 핵산을 이용하여 원하는 DNA 분자(예를 들어, 세포의 게놈)를 원하는 위치에서 편집하는 기술이다. 예를 들어, Cas 단백질은 가이드 RNA (guide RNA; gRNA)와 함께, Cas/gRNA 복합체를 형성한다. Cas/gRNA 복합체는 여기에 포함된 가이드 RNA를 통해 목적하는 위치로 유도된다. Cas/gRNA 복합체에 포함된 Cas 단백질은 목적하는 위치에 DSB(double strand break) 또는 nick (nickase의 경우)을 유도한다. CRISPR/Cas 시스템을 사용하는 경우, 세포의 게놈 뿐만 아니라, 게놈 상에 위치하지 않은 DNA 분자 또한 편집 가능하다. CRISPR의 발견 이래로, CRISPR/Cas 시스템과 관련하여, 전술한 바와 같이 tracrRNA 및 crRNA이 연결된 단일가닥 가이드 RNA (single guide RNA; sgRNA)의 개발 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.], 이의 전체 내용이 본 명세서에 참조로 포함됨), cas9, cas12a(cpf1), cas12b(c2c1), cas12e(casX), cas12k(c2c5), cas14, cas14a, cas13a(c2c2), cas13b(c2c6) cas nicakse (예를 들어, cas9 nickase), dead cas 등과 같은 다양한 종류 및/또는 유형의 Cas 단백질이 개발되었다. 일부 실시양태에서, Cas 단백질은 CRISPR 효소로 지칭될 수 있다. CRISPR/Cas 시스템의 이해를 위해 문헌 WO2018/231018(국제공개번호)가 참조될 수 있으며, 이의 전체가 본원에 참조로 포함된다. 기술자의 이해를 돕기 위해 CRISPR/Cas 시스템에 사용될 수 있는 Cas 단백질(또는, CRISPR 효소)에 대하여 추가적으로 아래에서 더 설명한다.

Cas 단백질

Cas 단백질 개괄

Cas 단백질은, CRISPR/Cas 시스템과 관련하여, 편집을 달성할 수 있도록 목적하는 영역에 DSB 또는 닉을 발생시키거나, 편집을 유도할 수 있도록 도움을 주는 단백질을 지칭하는 것으로 사용될 수 있다. 용어 Cas 단백질은 이의 등가물을 포괄하는 것으로 사용될 수 있다. 일반적으로, Cas 단백질은 핵산을 절단하는 뉴클레이즈(nuclease)활성을 갖는다. 예를 들어, 일부의 Cas 단백질은 이중 가닥 절단 (double-strand-break; DSB)를 유도할 수 있고, 이는 Cas 뉴클레아제로 지칭될 수 있다. 다른 예로, 일부의 Cas 단백질은 닉(nick)을 유도할 수 있고, 이는 Cas 닉카제(nickase)로 지칭될 수 있다. 몇몇의 Cas 단백질은 뉴클라아제 활성을 갖지 않도록 변형된 것으로, 이는 데드 Cas (dead cas)로 지칭될 수 있다. CRISPR/Cas 시스템에서 Cas 단백질은 CRISPR 효소와 상호 교환적으로 사용될 수 있다. Cas 단백질의 대표적인 예로는 Cas9 이 있다.

본 명세서에서 사용되는 용어 Cas 단백질은 CRISPR/Cas 시스템에서 사용되는, 표적 영역 내에 DSB 또는 nick을 발생시킬 수 있는 편집 단백질, 또는 불활성 Cas 단백질을 총칭하는 것으로 사용된다. Cas 단백질의 예로는, Cas9, Cas9 변이체, Cas9 닉카제 (Cas9 nickase, nCas9), dead Cas9, Cpf1 (Cas12a) (유형-V CRISPR-Cas 시스템), C2c1 (Cas12b) (유형 V CRISPR-Cas 시스템), C2c2 (Cas13a) (유형 VI CRISPR-Cas 시스템) 및 C2c3 (유형 V CRISPR-Cas 시스템) 등이 있으나 이에 제한되지 않는다. 추가의 Cas 단백질의 예시는 문헌 [Abudayyeh, Omar O., et al. "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector." Science 353.6299 (2016): aaf5573.]에 기재되어 있으며, 이의 전체 내용은 본 명세서에 참조로 포함된다.

일 실시양태에서, Cas 단백질은 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속(Streptococcus sp.), 스타필로코커스 아우레스(Staphylococcus aureus), 캄필로박터 제주니 (Campylobacter jejuni), 노카르디옵시스 다손빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 알리사이클로바클루스 아시도칼다리우스(AlicyclobacHlus acidocaldarius), 바실러스 슈도마이코이데스(Bacillus pseudomycoides), 바실러스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실러스 델브루에키이(Lactobacillus delbrueckii), 락토바실러스 살리바리우스(Lactobacillus salivarius), 미크로스 킬라 마리나(Microscilla marina), 부르크홀데리아레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 속(Polaromonas sp.), 크로코스파에라 와트소니이(Crocosphaera watsonii), 시아노테세 속(Cyanothece sp.), 마이크로시스티스 아에루기노사(Microcystis aeruginosa), 시네코코커스 속(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시럽토 베시이(Caldicelulosiruptor bescii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리듐 보툴리눔(Clostridium botulinum), 클로스트리듐 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라나에로비우스 써모필러스 (Natranaerobius thermophilus), 펠로토마쿨럼 써모프로피오니쿰(Pelotomaculum thermopropionicum), 아시디티오바실러스 칼두스(Acidithiobacillus caldus), 아시디티오바실러스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 속(Marinobacter sp.), 니트로소코커스 할로필러스(Nitrosococcus halophilus), 니트로소코커스 와트소니(Nitrosococcus watsoni), 슈도알테로 모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박테르 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나베나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 속(Nostoc sp.), 아르트로스피라 맥시마(Arthrospira maxima), 아르트로스피라 플라텐시스(Arthrospira platensis), 아르트로스피라 속(Arthrospira sp.), 링비아속(Lyngbya sp.), 마이크로콜레우스 크토노플라스테스(Microcoleus chthonoplastes), 오실라토리아 속(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus) 또는 아카리오클로리스 마리나(Acaryochloris marina) 등 다양한 미생물 유래의 Cas 단백질 (예를 들어, Cas9 또는 Cpf1) 일 수 있다.

이하에서는 Cas 단백질의 대표적인 예인 Cas9 단백질에 대하여 예시한다.

Cas9 단백질

CRISPR/Cas9 시스템에서, 핵산을 절단하는 뉴클라아제(nuclase) 활성을 가지는 단백질 또는 뉴클레아제 활성이 불활성화된 단백질을 Cas9 단백질이라 한다. 용어 Cas9 단백질은 이의 등가물을 포괄하는 것으로 사용된다. Cas9 단백질은 또한 때때로 Cas9 뉴클레아제, casn1 뉴클레아제 또는 CRISPR(Clustered Regularly Interspaced Short Palindromic Repeat)-연관 뉴클레아제로 지칭된다. 상기 Cas9 단백질은 CRISPR/Cas 시스템 분류 상 Class 2, Type II에 해당하며, 스트렙토코커스 피오게네스(Streptococcus pyogenes), 스트렙토코커스 써모필러스(Streptococcus thermophilus), 스트렙토코커스 속 (Streptococcus sp.), 스트렙토마이세스 프리스티네스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토스포랑기움 로세움(Streptosporangium roseum), 또는 스트렙토스포랑기움 로세움(Streptosporangium roseum) 유래 Cas9 단백질 등이 있다. Cas9 단백질의 서열 및 구조는 관련 기술분야의 기술자에게 널리 공지되어 있다 (예를 들어, 문헌 [Ferretti, Joseph J., et al. "Complete genome sequence of an M1 strain of Streptococcus pyogenes." Proceedings of the National Academy of Sciences 98.8 (2001): 4658-4663.; Deltcheva, Elitza, et al. "CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III." Nature 471.7340 (2011): 602-607.; 및 Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이들 각각의 전체 내용은 본 명세서에 참조로 포함됨). 추가의 Cas9 단백질 및 서열은 본 명세서에 전체 내용이 참조로 포함되는 문헌 [Chylinski, Krzysztof, Anais Le Rhun, and Emmanuelle Charpentier. "The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems." RNA biology 10.5 (2013): 726-737.]에 개시된다.

예를 들어, Cas9의 DNA 절단 도메인은 2개의 서브 도메인, 즉 NHN 뉴클레아제 서브도메인 및 RucC1 서브도메인을 포함하는 것으로 알려져 있다. NHN 서브도메인은 gRNA에 상보적인 가닥을 절단하고, RuvC1 서브도메인은 비-상보적 가닥을 절단한다. 이들 서브도메인 중 어느 하나의 불활성화는 불활성화된 서브도메인의 뉴클레아제 활성을 침묵시킬 수 있으며, 이들 서브도메인 모두의 불활성화는 Cas9의 전체 뉴클레아제 활성을 침묵시킬 수 있다. 예를 들어, 돌연변이 H840A는 Cas9 nickase를 제공한다. 예를 들어, 돌연변이 D10A 및 H840A 모두는 S. pyogenes Cas9의 뉴클레아제 활성을 완전히 불활성화시킨다 (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조). 일부 실시양태에서, Cas9의 단편을 포함하는 단백질이 제공될 수 있다. 예를 들어, 단백질은 다음의 2개의 Cas9 도메인 중 선택되는 어느 하나 이상을 포함할 수 있다: Cas9의 gRNA 결합 도메인; 및 Cas9의 DNA 절단 도메인. 일부 실시양태에서, Cas9 변이체가 제공될 수 있다. Cas9 변이체는 Cas9 또는 이의 단편에 대해 상동성을 갖는다. 예를 들어, Cas9 변이체는 야생형 Cas9 (예를 들어, SpCas9)에 대해 적어도 약 70% 동일하거나, 적어도 약 80% 동일하거나, 적어도 약 90% 동일하거나, 적어도 약 95% 동일하거나, 적어도 약 96% 동일하거나, 적어도 약 97% 동일하거나, 적어도 약 98% 동일하거나, 적어도 약 99% 동일하거나, 적어도 약 99.5% 동일하거나, 적어도 약 99.6% 동일하거나, 적어도 약 99.7% 동일하거나, 적어도 약 99.8% 동일하거나, 또는 적어도 약 99.9% 동일할 수 있다. 일부 실시양태에서, Cas9 변이체는 야생형 Cas9 (예를 들어, SpCas9)과 비교하여 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50개 또는 그 초과의 아미노산 변화를 가질 수 있다. 일부 실시양태에서, Cas9 변이체는 Cas9의 단편 (예를 들어, gRNA 결합 도메인 및/또는 DNA 절단 도메인)을 포함할 수 있다. 일부 실시양태에서, Cas9 변이체의 단편은 야생형 Cas9의 상응하는 단편에 대해 적어도 약 70% 동일하거나, 적어도 약 80% 동일하거나, 적어도 약 90% 동일하거나, 적어도 약 95% 동일하거나, 적어도 약 96% 동일하거나, 적어도 약 97% 동일하거나, 적어도 약 98% 동일하거나, 적어도 약 99% 동일하거나, 적어도 약 99.5% 동일하거나, 적어도 약 99.6% 동일하거나, 적어도 약 99.7% 동일하거나, 적어도 약 99.8% 동일하거나, 또는 적어도 약 99.9% 동일할 수 있다. 일부 실시양태에서, 야생형 Cas9의 단편 또는 Cas9 변이체의 단편은 상응하는 야생형 Cas9의 아미노산 길이의 적어도 10%, 적어도 15%, 적어도 20%, 적어도 25%, 적어도 30%, 적어도 35%, 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 적어도 99.5%, 또는 적어도 99.9% 이상일 수 있다.

가이드 RNA

가이드 RNA 개괄

CRISPR/Cas 시스템에서, Cas 단백질은 가이드 핵산과 회합(association)하여 Cas/가이드 핵산 복합체를 형성한다. 일반적으로, CRISPR/Cas 시스템에서 가이드 핵산으로는 가이드 RNA (guide RNA; gRNA)가 사용되며, Cas 단백질은 가이드 RNA와 회합하여 Cas/gRNA 복합체를 형성한다. Cas/gRNA 복합체는 RNP(Ribonucleoprotein)으로 지칭될 수 있다. Cas/gRNA 복합체는 가이드 RNA (guide RNA; gRNA)의 스페이서 서열과 대응되는 (예를 들어, 상보성을 갖는) 서열을 포함하는 표적 영역 내에서 DSB (double-strand break) 또는 닉 (nick)을 발생시키며, DSB 또는 닉은 Cas 단백질에 의해 유도된다. DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다.

Cas/gRNA의 표적화에는 게놈상의 프로토스페이서 인접 모티프(Protospacer adjacent motif; PAM) 및 가이드 RNA의 스페이서 서열이 관여된다. PAM 및 가이드 RNA의 스페이서 서열에 의해 표적 영역으로 유도된 Cas 단백질 (예를 들어, Cas9)은 표적 영역 내에 DSB를 발생시킨다.

CRISPR/Cas 유전자 편집 시스템에서, 표적 DNA 분자에 포함된 특정 서열을 인식하도록 Cas 단백질을 표적 영역으로 유도하는 기능을 갖는 RNA를 가이드 RNA라고 지칭한다.

상기 가이드 RNA의 구성을 기능적으로 나눈다면, 크게, 1) 스캐폴드 서열 부분, 및 2) 가이드 서열을 포함하는 가이드 도메인으로 나눌 수 있다. 상기 스캐폴드 서열 부분은 Cas 단백질 (예를 들어, Cas9 단백질)과 상호작용하는 부분으로, Cas 단백질과 결합하여 복합체를 이룰 수 있도록 하는 부분이다. 일반적으로 상기 스캐폴드 서열 부분은 tracrRNA, crRNA 반복 서열 부분을 포함하며, 상기 스캐폴드 서열은 어떤 Cas 단백질을 사용하느냐에 따라서 결정된다. 상기 가이드 서열은, 표적 핵산 (예를 들어, 표적 DNA 분자 또는 세포의 게놈) 내 일정 길이의 뉴클레오타이드 서열 부분과 상보적으로 결합할 수 있는 부분이다. 상기 가이드 서열은 인위적으로 변형할 수 있으며, 목적하는 유전자 편집과 관련된 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다.

일부 실시양태에서, 가이드 RNA는 crRNA 및 tracrRNA를 포함하는 것으로 설명될 수 있다. crRNA는 스페이서 및 반복 서열을 포함할 수 있다. crRNA의 반복 서열의 부분은 tracrRNA의 부분과 상호작용(예를 들어, 상보적 결합)을 할 수 있다. 전술한 바와 같이, crRNA와 tracrRNA가 연결된 단일 가닥 가이드 RNA(single guide RNA; sgRNA) (문헌 [Jinek, Martin, et al. "A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity." science 337.6096 (2012): 816-821.] 참조, 이의 전체 내용이 본 출원에 참조로 포함됨)가 제공될 수 있다. 즉, 가이드 RNA는 두개의 가닥으로 제공될 수 있거나, 또는 가이드 RNA는 하나의 가닥으로 제공될 수 있다.

일부 실시양태에서, sgRNA는 가이드 도메인, 제1 상보적 도메인, 링커 도메인, 및 제2 상보적 도메인을 포함하는 것으로 설명될 수 있다. 이때 sgRNA는 근위 도메인 및 꼬리 도메인 중 어느 하나 이상을 포함하는 추가적인 도메인을 포함할 수 있으며, 달리 제한되지 않는다. 이때 링커 도메인은 제1 상보적 도메인과 제2 상보적 도메인을 연결하며, 제1 상보적 도메인의 일부 또는 전부는 제2 상보적 도메인의 일부 또는 전부와 상보적 결합을 형성하고, 결국, 상기 제1 상보적 도메인, 연결 도메인 (예를 들어, 폴리뉴클레오타이드 링커를 포함함), 및 제2 상보적 도메인은 루프 구조와 같은 2차 구조를 형성한다 (문헌 [PCT 출원 출원번호 PCT/KR2018/006803, 공개번호 WO2018/231018] 참조).

용어 가이드 RNA는 또한 자연 발생이든 비-자연 발생(예를 들어, 조작된 것 또는 재조합 등)이든 Cas9 등가물, 상동체, 오쏘로그 또는 파라로그와 회합(association)하고, Cas9 등가물 등을 특이적 표적 뉴클레오티드 서열에 국재화(localization)하도록 하는 등가의 가이드 핵산 분자를 포괄한다. 전술한 바와 같이, Cas9 등가물은 Cpf1 (유형-V CRISPR-Cas 시스템), C2c1 (유형 V CRISPR-Cas 시스템), C2c2(유형 VI CRISPR-Cas 시스템) 및 C2c3 (유형 V CRISPR-Cas 시스템)을 포함하는 임의의 유형의 CRISPR 시스템 (예를 들어, 유형 II, V, VI)으로부터 유래된 다른 Cas 단백질을 포함할 수 있다. 추가의 Cas 등가물은 문헌 [Abudayyeh, Omar O., et al. "C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPR effector." Science 353.6299 (2016): aaf5573.]에 기재되어 있으며, 이의 전체 내용은 본 명세서에 참조로 포함된다. 전통적인 CRISPR/Cas 시스템에 사용되는 가이드 RNA는 본 명세서에서 설명되는 프라임 에디팅 방법 및 조성물에 대해 발명된 프라임 에디팅 가이드 RNA (pegRNA)로 지칭되는 변형된 형태의 가이드 RNA와 대조되도록, '전통적인' 가이드 RNA로 지칭될 수 있다. 프라임 에디팅 가이드 RNA (pegRNA)는 전통적인 가이드 RNA의 3' 단부 또는 5' 단부에 연장 암이 연결된 형태를 가질 수 있다.

가이드 RNA 또는 pegRNA는 스페이서, gRNA 코어, 연장 암(특히, pegRNA에서), 및 전사 종결인자 중 어느 하나 이상을 포함할 수 있다. 나아가, 이에 제한되지 않고 다양한 구조적 요소를 추가적으로 포함할 수 있다. 스페이서는 스페이서 서열을 포함하고, 스페이서 서열은 표적 영역 내의 프로토스페이서 서열을 포함하는 영역의 서열에 결합하는 가이드 RNA 또는 pegRNA 내의 서열을 지칭한다. gRNA 코어는 gRNA 스캐폴드 또는 백본 서열로 지칭될 수 있으며, cas9 또는 이의 등가물과 결합을 담당하는 gRNA 또는 pegRNA 내의 서열을 지칭한다. gRNA 코어는 Cas9을 표적 영역 (표적 DNA)로 가이드하는데 사용되는 스페이서 또는 표적화 서열을 포함하지 않는다. 연장 암(특히, pegRNA에서)은 프라이머 결합 부위(primer binding site; PBS), 및 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)를 통해 관심 유전적 변화를 함유하는 단일 가닥 DNA 플랩을 설치하기 위한 DNA 합성 주형 서열을 포함하는 pegRNA에 포함된 요소이다. 연장 암은 pegRNA의 3' 또는 5' 단부에 위치할 수 있으며, 목적하는 유전적 변화를 설치하기 위해 디자인된다. pegRNA에서 연장 암은 연장 영역으로 지칭될 수 있다. 일부 실시양태에서, 가이드 RNA 또는 pegRNA는 분자의 3'에 전사 종결 서열을 더 포함할 수 있다.

가이드 RNA의 가이드 서열

가이드 RNA는 가이드 서열을 포함하는 가이드 도메인을 포함할 수 있다. 가이드 서열은 스페이서 서열과 상호 교환적으로 사용될 수 있다. 가이드 도메인은 스페이서와 상호 교환적으로 사용될 수 있다. 가이드 서열은 인위적으로 디자인될 수 있는 부분으로 관심 있는 표적 뉴클레오타이드 서열에 의해 결정된다. 일부 실시양태에서, 가이드 서열은 편집을 목적하는 DNA 분자 상에 위치한 PAM 서열에 인접하는 서열을 표적하도록 디자인될 수 있다. 전술한 바와 같이, Cas/gRNA 복합체의 표적 위치(예를 들어, 온 타겟 위치)로의 국재화를 유도한다. 가이드 핵산의 구조는 CRISPR 유형에 따라 달라질 수 있다. 예를 들어, CRISPR/Cas9 유전자 편집 시스템에 사용되는 가이드 RNA는 5'-[가이드 도메인]-[스캐폴드]-3'의 구조를 가질 수 있다.

일 실시양태에서, 가이드 서열은 5nt 내지 40nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 RNA의 가이드 도메인에 포함된 가이드 서열은 10nt 내지 30nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 15nt 내지 25nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 18nt 내지 22nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열은 20nt의 길이를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열(스페이서 결합 가닥에 존재하는 타겟 서열 및 스페이서 비-결합 가닥에 존재하는 타겟 서열을 모두 포괄함)은 5nt 내지 40nt의 길이 또는 5bp 내지 40bp를 가질 수 있다. 일 실시양태에서, 가이드 서열과 상보적인 결합을 형성하는 게놈 내의 서열인 타겟 서열은 10nt 내지 30nt의 길이 또는 10bp 내지 30bp를 가질 수 있다. 일 실시양태에서, 타겟 서열은 15nt 내지 25nt의 길이 또는 15bp 내지 25bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 18nt 내지 22nt의 길이 또는 18bp 내지 22bp의 길이를 가질 수 있다. 일 실시양태에서, 타겟 서열은 20nt 또는 20bp의 길이를 가질 수 있다.

PAM

전통적인 CRISPR/Cas 시스템이 표적 DNA 분자를 절단하기 위해서는 두가지 조건이 필요할 수 있다. 첫째, 표적 유전자, 또는 표적 핵산 내에 Cas 단백질 (예를 들어, Cas9 단백질)이 인식할 수 있는 일정 길이의 염기 서열(뉴클레오타이드 서열)이 있어야 한다. 이때, 상기 Cas9 단백질에 의해 인식되는 일정 길이의 염기 서열(뉴클레오타이드 서열)을 Protospacer Adjacent Motif(PAM) 서열이라 한다. 상기 PAM 서열은 상기 Cas9 단백질에 따라 정해지는 고유한 서열이다. 둘째, 상기 일정 길이의 PAM 서열 주변에 가이드 RNA에 포함된 스페이서 서열과 상보적으로 결합할 수 있는 서열이 있어야 한다. 여기서, PAM 서열은 스페이서 비-결합 가닥 상에 존재하는 서열과 스페이서 결합 가닥 상에 존재하는 서열을 모두 포괄하는 것으로 사용될 수 있다.

전술한 바와 같이, CRISPR/Cas 시스템에서 Cas/gRNA 복합체는 표적 DNA 분자 (예를 들어, 세포의 게놈) 상의 프로토스페이서 인접 모티프(PAM) 서열 및 gRNA의 가이드 서열에 의해 표적 영역으로 유도된다. 표적 DNA 분자에서, PAM 서열은 가이드 RNA의 가이드 서열이 결합하는 가닥이 아닌 가이드 서열 비-결합 가닥에 위치할 수 있다. PAM 서열은 사용되는 Cas 단백질의 종류에 따라 독립적으로 결정될 수 있다. 일 실시양태에서, PAM 서열의 다음 중 선택되는 어느 하나일 수 있다 (5' 에서 3' 방향으로 개시됨): NGG (서열번호 19); NNNNRYAC (서열번호 20); NNAGAAW (서열번호 21); NNNNGATT (서열번호 22); NNGRR(T) (서열번호 23); TTN (서열번호 24); 및 NNNVRYAC (서열번호 25). 각각의 N은, 독립적으로 A, T, C 또는 G일 수 있다. 각각의 R은 독립적으로 A 또는 G일 수 있다. 각각의 Y는 독립적으로 C 또는 T일 수 있다. 각각의 W는 독립적으로 A 또는 T일 수 있다. 예를 들어, Cas 단백질로 spCas9이 사용되는 경우, PAM 서열은 NGG (서열번호 19)일 수 있다. 예를 들어, Cas 단백질로 스트렙토코커스 써모필러스 Cas9 (StCas9)이 사용되는 경우, PAM 서열은 NNAGAAW (서열번호 21)일 수 있다. 예를 들어, NmCas9(Neisseria meningitides Cas9)이 사용되는 경우, PAM 서열은 NNNNGATT (서열번호 22)일 수 있다. 예를 들어, CjCas9(Campylobacter jejuni Cas9)이 사용되는 경우, PAM 은 NNNVRYAC (서열번호 25)일 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 타겟 서열 (여기서, 스페이서 비-결합 가닥에 존재하는 타겟 서열은 가이드 RNA와 결합하지 않는 서열을 지칭함)의 3' 말단에 연결되어 있을 수 있다. 일 실시양태에서, PAM 서열은 스페이서 비-결합 가닥에 존재하는 표적 서열의 3' 말단에 위치할 수 있다. 스페이서 비-결합 가닥에 존재하는 표적 서열은 가이드 RNA의 가이드 서열과 결합하지 않는 서열을 지칭한다. 스페이서 비-결합 가닥에 존재하는 표적 서열은 스페이서 결합 가닥에 존재하는 표적 서열에 상보적이다.

DSB 또는 닉이 발생되는 위치는 게놈 상의 PAM 서열 근처일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥에 존재하는 PAM 서열의 5' 또는 3' 말단을 기준으로 -0 내지 -20 또는 +0 내지 +20일 수 있다. 일 실시양태에서, DSB 또는 닉이 발생되는 위치는 스페이서 비-결합 가닥 상의 PAM 서열의 -1 내지 -5 또는 +1 내지 +5일 수 있다. 예를 들어, spCas9을 사용하는 CRISPR/Cas 시스템에서, spCas9은 PAM 서열의 상류에 위치한 세번째 뉴클레오타이드와 네번째 뉴클레오타이드 사이를 절단하는 것으로 알려져 있다.

전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집의 과정

기술자의 이해를 돕기 위해, 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집 과정에 대하여 하기의 예시를 들어 간략하게 개시한다. 여기서, 전통적인 CRISPR/Cas 시스템은 Cas 단백질과 전통적인 gRNA를 사용하여 DNA 분자를 편집할 수 있는 시스템을 지칭한다.

예를 들어, 편집을 목적하는 DNA 분자와 Cas/gRNA 복합체가 접촉할 수 있는 환경이 제공될 수 있다. 세포 내에서 게놈 편집을 목적으로 하는 경우, Cas 단백질 또는 이를 암호화하는 핵산 및 가이드 RNA 또는 이를 암호화하는 핵산이 세포 내부로 도입되고, 이를 통해 Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경이 달성될 수 있다. Cas 단백질 및 가이드 RNA가 세포의 게놈 DNA와 접촉할 수 있는 환경 하에서, Cas 단백질과 가이드 RNA는 Cas/gRNA 복합체를 형성할 수 있다. 물론, Cas/gRNA 복합체는, 세포의 게놈 DNA가 존재하지 않더라도, 적절한 환경에서 Cas 단백질 및 gRNA가 모두 존재하는 경우 형성될 수 있다. Cas/gRNA 복합체에 포함된 gRNA의 가이드 서열 및 게놈 상의 PAM 서열이 관여되어 Cas/gRNA 복합체를 미리 디자인된 표적 서열이 존재하는 표적 영역으로 유도한다. 표적 영역으로 유도된 Cas/gRNA 복합체는 표적 영역 내에 DSB(예를 들어, Cas9의 경우)를 발생시킨다. 이후, DNA 수선 과정에 의해 DSB가 발생된 (절단된) DNA가 수선되면서 표적 영역 또는 표적 위치에서의 유전자 편집이 달성된다. DNA에 발생된 DSB의 복구를 위한 두가지 주요 경로로는 상동 재조합(Homology-directed repair; HDR) 및 NHEJ(nonhomologous end joining)가 있다. 이중 자연적으로 발생하는 DNA 복구 시스템인 HDR은 인간을 포함한 다양한 유기체에서 게놈을 수정하는데 사용될 수 있다. HDR 매개 수선은 주로, 표적 영역 또는 표적 위치에 목적하는 서열을 삽입하거나 특정한 점 돌연변이 등을 유도하는데 사용될 수 있으나, 이에 제한되지 않는다. HDR 매개 수선(HDR mediate reparing)은 DNA 복구 시스템인 HDR 및 HDR 템플릿 (예를 들어, 세포 외부로부터 공급될 수 있는 도너 템플릿)을 통해 수행될 수 있다. NHEJ는 DNA의 DSB를 수선하는 과정을 지칭하며, HDR과는 대조적으로, HDR 템플릿 없이 절단된 말단을 연결한다. 즉, 수선 과정에서 HDR 템플릿을 필요로 하지 않는다. NHEJ는 주로 인델을 유도하기 위해 선택될 수 있는 DNA 수선 매커니즘일 수 있다. 인델(insertion/deletion)은, 유전자 편집 전 핵산의 뉴클레오타이드 배열에서 일부 뉴클레오타이드가 중간에 결실되거나, 임의의 뉴클레오타이드가 삽입되거나, 및/또는 상기 삽입과 결실이 혼입된 변이를 지칭할 수 있다. 표적 유전자에 발생된 인델의 일부는 발생은 해당 유전자를 불활성화시킬 수 있다. DNA 수선 매커니즘인 HDR 및 NHEJ는 문헌 [Sander, Jeffry D., and J. Keith Joung. "CRISPR-Cas systems for editing, regulating and targeting genomes." Nature biotechnology 32.4 (2014): 347-355.]에 상세히 개시되며, 이의 전체 내용은 본 출원에 참조로 포함된다.

지금까지, 기술자의 이해를 돕기 위해, 프라임 에디팅 시스템의 기초가 되는 전통적인 CRISPR/Cas 시스템에 대하여 상세히 설명하였다. 본 출원은 프라임 에디팅 시스템을 이용한 DNA의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 새로운 시스템에 관한 것이다. 이하에서는, 본 출원에 의해 제공되는 프라임 에디팅 시스템의 오프 타겟 예측 시스템을 설명하기에 앞서, 오프 타겟 예측 시스템의 기반이 되는 프라임 에디팅 시스템 및 이를 이용한 DNA 분자의 편집 과정이 상세히 설명된다.

프라임 에디팅 시스템

프라임 에디팅 시스템 개괄

David R. Liu 등에 의해 개발된 프라임 에디팅은 Cas 단백질; 폴리머라아제 (예를 들어, 리버스 트랜스크립타제); 및 DNA 분자의 표적 영역 내로 목적하는 편집을 통합 또는 삽입시키기 위한 DNA 합성 주형을 포함하는 특수화된 가이드 RNA를 사용하는 DNA 분자(예를 들어, 게놈)의 편집을 위한 기술이다. 프라임 에디팅에 대한 설명 및 다양한 실시양태는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 PCT 출원 출원번호 PCT/US2020/023712, 공개번호 WO2020191233A1]에 상세히 개시되며, 이들 각각의 전체 내용은 본 명세서에 참조로 포함된다.

프라임 에디팅은 목적하는 편집(desired edit)을 표적 DNA 분자 내의 표적 영역으로 도입하기 위해 (1) Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함하는 프라임 에디터 단백질(prime editor protein); 및 (2) 프라임 에디팅 가이드 RNA (Prime editing guide RNA; pegRNA)을 사용하여 게놈을 편집한다. 프라임 에디팅의 다양한 실시양태는 본 명세서에 그 전체가 참조로 포함되는 문헌인 PCT 출원 출원번호 PCT/US2020/023712 (공개번호 WO2020191233A1)에 상세히 개시된다.

프라임 에디팅은 Cas 단백질을 포함하는 프라임 에디터 단백질을 사용하여 DNA 분자 (예를 들어, 게놈) 내의 표적 영역 내로 새로운 유전자 정보를 직접 기록하는, 다목적의 정확한 게놈 편집 방법으로, David R. Liu 등에 의해 개발된 새로운 플렛폼의 게놈 편집 방법이다. 프라임 에디팅에는 크게 Cas 단백질, 폴리머라아제 및 pegRNA가 사용되며, 여기서 pegRNA는 전통적인 가이드 RNA 상에 연장 암이 연결된 형태를 갖는다. 이때 연장 암은 연장 영역을 포함한다. 연장 영역은 목적하는 편집을 표적 영역 내로 삽입하기 위한, 목적하는 편집의 주형이 되는 편집 주형을 포함한다. 이때 목적하는 편집의 표적 영역 내로의 삽입은, Cas 단백질과 연결된 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)를 통한 중합을 포함하는 다수의 과정에 의해 수행된다. pegRNA의 연장 영역에 포함된 DNA 합성 주형을 폴리머라이제이션의 주형으로 하여, 폴리머라아제가 중합을 수행하고, 스페이서 비-결합 가닥에 중합을 수행한다.

예를 들어, 프라임 에디팅 버전 2인 PE2 에서는, 스페이서 비-결합 가닥에 닉(PE2 프라임 에디터 단백질에 포함된 Cas 단백질에 의해 유도 및/또는 발생됨)이 발생하고, 스페이서 비-결합 가닥을 기준으로 nick 발생 부위에서부터 5'에서 3' 방향으로 DNA 합성 주형을 바탕으로 리버스 트랜스크립타아제에 의한 중합(역전사)이 수행된다. 상기 역전사는 연장 영역에 포함된 DNA 합성 주형을 역전사의 주형으로 하여 수행된다. 상기 중합 과정에서 DNA 합성 주형의 전부 또는 일부와 상보적인 서열이 스페이서 비-결합 가닥의 nick 발생 부위에 코딩된다. 이렇게 코딩된 서열은 3' DNA 플랩(flap)을 형성한다. 3' DNA 플랩(flap)은 편집을 포함하고, 상기 편집은 DNA 합성 주형에 포함된 편집 주형(edit template)에 상보적인 DNA 서열을 갖는다. 이후, 5' DNA 플랩 클리비지 과정(예를 들어, 5' DNA 플랩 엔도뉴클레아제인 FEN1이 관여될 수 있음)을 통해 5' DNA 플랩이 제거되며, 3' DNA 플랩의 라이게이션, 및 세포 DNA 복구 및/또는 복제 과정을 통해 목적하는 편집(desired edit)이 목적하는 위치에 통합된다. 프라임 에디팅 버전 2 (PE2)를 이용한 DNA 분자의 편집 과정은 본 명세서에 그 전체가 참조로 포함되는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.

프라임 에디팅과 관련되어 사용되는 용어 편집은 프라임 에디팅 시스템의 결과로 DNA 분자 내에 통합된 편집을 지칭하는 것으로 사용된다. 예를 들어, 편집은 스페이서 비-결합 가닥에 통합된 편집, 스페이서 결합 가닥에 통합되는 편집, 및/또는 이중가닥에 통합되는 편집을 지칭하는 것으로 사용될 수 있다. 전술한 바와 같이, 3' 플랩에 설치된 편집은 3' 플랩의 라이게이션, 및 세포 DNA 복구 및/또는 복제를 포함하는 과정을 통해, 결국, 스페이서 비-결합 가닥 및 스페이서 결합 가닥으로 설치되기 때문이다. 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다.

예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다. 프라임 에디팅에 대하여 최초로 개시하는 David R. Liu 등에 의해 보고된 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]은 프라임 에디팅의 스코프(scope)를 "All 4 transition point mutations; All 8 transversion point mutations; Insertions(1 bp to ≥ 44bp); Deletions (1 bp to ≥ 80 bp); combinations of the above"와 같이 설명하는 것처럼, 프라임 에디팅에 의해 DNA 분자에 설치될 수 있는 편집의 태양은 다양하다. 나아가, 프라임 에디팅 기술은 여전히 발전 및 개량되고 있으므로, 프라임 에디팅의 스코프(scope)가 상기 문헌에 개시된 범위 내로 한정되는 것은 아니다. 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]은 프라임 에디팅이 새로운 유전 정보를 특정 DNA 부위에 직접 "작성(write)"하는 다용도 정밀 게놈 편집 방법으로 설명한다. 이에 비추어 볼 때, 프라임 에디팅을 통해 DNA에 삽입 또는 설치할 수 있는 유전적 정보에 대한 본 명세서 내의 기재는 한정적으로 해석되어서는 아니될 것이다.

일부의 경우에, 프라임 에디팅은 "검색-및-대체(search-and-replace)" 게놈 편집 기술로서 생각될 수 있다. 이는 프라임 에디팅을 수행하는 프라임 에디터 (또는 프라임 에디터 복합체)가 편집될 목적하는 표적 부위를 검색하고 위치를 찾아낼 뿐만 아니라, 동시에, 상응하는 표적 부위 내인성 DNA 가닥 대신에 목적하는 편집을 함유하는 대체 가닥을 설치할 수 있기 때문이다. 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 PCT 출원 출원번호 PCT/US2020/023712 (공개번호 WO2020191233A1)에서는, 상기 문헌에 기재된 프라임 에디터가 리버스 트랜스크립타아제로 제한되는 것이 아니라고 개시하며, 리버스 트랜스크립타아제는 프라임 에디팅에 사용될 수 있는 DNA 폴리머라아제의 단지 한 유형인 것으로 개시한다. 따라서, 리버스 트랜스크립타아제가 언급될 때마다, 관련 기술분야의 통상의 기술자는 리버스 트랜스크립타아제 대신에 임의의 적합한 DNA 폴리머라아제가 사용될 수 있다는 것을 인지하여야 한다. 마찬가지로 프라임 에디팅에는 Cas9 또는 nCas9 등 뿐만 아니라 Cas9에 기능적 등가인 단백질 또는 도메인이 사용될 수 있다는 것 또한 관련 기술분야의 통상의 기술자에게 충분히 인지될것이다.

프라임 에디팅에 특수화된 가이드 RNA (즉, pegRNA)는 Cas 단백질과 복합체화되고 (예를 들어, Cas 단백질을 포함하는 융합단백질과 복합체화 됨), 프라임 에디팅 과정을 통해 목적하는 편집을, 결과적으로, DNA 분자(예를 들어, 게놈)의 표적 영역 내의 표적 위치에 설치한다. pegRNA는 목적하는 정보를 표적 DNA로 전달하기 위한 편집 주형을 포함한다. 편집 주형으로부터 편집 주형에 상응하는 서열을 포함하는 대체 가닥이 생성되고, 이 대체 가닥은 상응하는 내인성 DNA 가닥을 대체하는데 사용된다. pegRNA로부터 표적 DNA로 정보를 전달하기 위해, 프라임 에디팅의 메커니즘은 DNA의 한 가닥 내의 표적 부위를 닉킹하여 3'-히드록실 기를 노출시키는 것을 수반할 수 있다. 이어서, 프라임 에디팅의 매커니즘은 노출된 3'-히드록실 기를 사용하여, pegRNA 상의 목적하는 정보를 전달 가능한 서열을 바탕으로 DNA 중합 과정을 통해, 표적 부위 내로 목적하는 정보를 전달함을 포함한다. 다양한 실시양태에서, 편집을 함유하는 대체 가닥의 중합을 위한 주형을 제공하는 연장 영역은 RNA 또는 DNA로부터 형성될 수 있다. RNA 연장 영역의 경우에, 프라임 에디팅에 사용되는 폴리머라아제는 RNA-의존성 DNA 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)일 수 있다. DNA 연장 영역의 경우에, 프라임 에디팅에 사용되는 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있다. 프라임 에디팅에 의해 새로 합성된 가닥 (즉, 목적하는 편집을 함유하는 대체 DNA 가닥)은 목적하는 뉴클레오티드 변화의 포함을 제외하고는 게놈 표적 서열에 상동일 것이다. DNA의 새로 합성된 가닥은 또한 단일 가닥 DNA 플랩 (예를 들어, 3' 단일 가닥 DNA 플랩)으로 지칭될 수 있으며, 이는 상응하는 내인성 가닥을 대체할 것이다.

다양한 실시양태에서, 프라임 에디팅은 표적 DNA 분자를 프라임 에디팅 가이드 RNA(pegRNA)와 복합체화된 Cas 단백질 (여기서, Cas 단백질은 프라임 에디터 단백질에 포함됨)과 접촉시킴으로써 작동한다. 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈) 편집의 하나의 예시는 다음과 같이 설명될 수 있다: nCas9(예를 들어, 프라임 에디터 단백질에 포함될 수 있음)/pegRNA 복합체는 DNA 분자와 접촉하고, pegRNA는 nCas9이 표적 영역에 결합하도록 가이드한다. 표적 영역 내의 DNA 가닥 중 하나의 가닥에 닉을 도입(nCas9에 의해 닉이 도입됨)하여, DNA 가닥 중 하나의 가닥에 이용가능한 3' 말단을 생성한다. 이용가능한 3' 말단은 표적 영역 내에 위치한다. 특정 실시양태에서, 닉은 pegRNA의 일부 서열에 혼성화되지 않는 가닥, 즉 스페이서 비-결합 가닥에서 생성될 수 있다. 다른 특정 실시양태에서, 닉은 pegRNA의 일부 서열에 혼성화되는 가닥, 즉, 스페이서 결합 가닥에 생성될 수 있다. Cas9 닉카제의 닉킹에 의해 형성된 DNA 가닥의 3' 말단에 위치한 영역(닉 부위의 상류에 위치한 영역)은 역전사를 프라이밍 하기 위해 pegRNA의 연장 영역의 일부와 상호작용한다. 특정 실시양태에서, 3' 말단 DNA 가닥은 pegRNA의 연장 영역에 포함된 리버스 트랜스크립타아제 프라이밍 서열 또는 프라이머 결합 부위 (Primer binding site; PBS)에 혼성화된다. 프라이밍된 부위의 3' 단부로부터 pegRNA의 5' 단부를 향한 방향으로 리버스 트랜스크립타아제(예를 들어, 프라임 에디팅 융합 단백질에 포함될 수 있음)에 의해 DNA의 단일 가닥이 합성된다. 즉, 프라이머 바인딩 사이트와 혼성화된 스페이서 비-결합 가닥(PAM 함유 서열)을 기준으로 5'에서 3' 방향으로 DNA의 단일 가닥이 합성된다. 상기 합성된 DNA 단일 가닥은 목적하는 뉴클레오티드 변화(예를 들어, 하나 이상의 염기 변화, 하나 이상의 삽입, 하나 이상의 결실, 또는 이들의 조합)을 포함한다. 상기 합성된 DNA 단일 가닥은 3' 단일 가닥 DNA 플랩으로 지칭될 수 있다. 3' 단일 가닥이 내인성 DNA 내로 침입하였을 때 형성되는 (편집되지 않은) 5' 내인성 DNA 플랩이 제거된다. 상기 5' 내인성 DNA 플랩의 제거는 5' 플랩 절단 과정을 통해 수행될 수 있다. 내인성 DNA 내로 침입한 3' 단일 가닥 DNA 플랩이 라이게이션 된다. DNA 수선이 작동하고 그 결과 목적하는 편집이 표적 영역 내로 완전히 통합된다.

프라임 에디팅 시스템의 목적은 예를 들어 프라임 에디터 단백질 및 pegRNA 등을 포함하는 요소들에 의해 달성될 수 있다. 이하에서, 프라임 에디팅에 사용되는 프라임 에디터 단백질 및 pegRNA에 대하여 설명한다.

프라임 에디터 단백질

프라임 에디터 단백질 개괄

일부 실시양태에서, 프라임 에디터 단백질(또는 프라임 에디팅 구축물)은 Cas 단백질 및 폴리머라아제를 포함하는 융합 단백질 또는 복합체 형태의 구축물을 의미한다. 프라임 에디터 단백질은 프라임 에디팅 단백질, 프라임 에디팅 구축물, 프라임 에디팅 효소, 프라임 에디터 효소, 및 프라임 에디팅 융합단백질 등과 같은 용어로 지칭될 수 있다. 프라임 에디터 단백질은 [Cas]-[P] 또는 [P]-[Cas]과 같이 표현되는 구조를 포함할 수 있으며, 여기서, "P"는 임의의 폴리머라아제 (예를 들어 리버스 트랜스크립타아제) 또는 이로부터 유래된 요소를 지칭하고, "Cas"는 Cas 단백질(예를 들어, 야생형 spCas9, 또는 Cas9 닉카제와 같은 spCas9의 변이체 등) 또는 이로부터 유래된 요소를 지칭한다. "]-[" 또는 "-"은 Cas 단백질과 폴리머라아제가 연결된 것을 나타내며, Cas 단백질과 폴리머라아제를 공유적으로 또는 비공유적으로 연결하는 기능을 갖는 임의적인 링커와 같은 요소를 지칭하거나 결합(bond)을 지칭할 수 있다.

전술한 바와 같이, 프라임 에디터 단백질은 Cas 단백질(예를 들어, Cas9 닉카제) 및 리버스 트랜스크립타아제 (또는 DNA 폴리머라아제)를 포함한다. 프라임 에디터 단백질은 하나의 분자로 구성된 융합단백질의 형태일 수 있으며, 두개 이상의 분자가 형성하는 복합체의 형태일 수 있고, 달리 제한되지 않는다. 프라임 에디터 단백질은 pegRNA의 존재 하에 표적 영역 상에서 프라임 에디팅을 수행할 수 있다. 프라임 에디터 단백질은 pegRNA와 복합체를 형성하며, 이때 상기 복합체는 프라임 에디터 단백질/pegRNA 복합체로 지칭될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 프라임 에디팅 단백질로 지칭될 수 있다.

일부 실시양태에서, 용어 "프라임 에디팅 시스템"은 프라임 에디터 단백질 및 pegRNA, 또는 프라임 에디터 단백질 및 pegRNA를 사용하여 수행되는 DNA 분자의 편집을 지칭할 수 있다. 이처럼, 용어 "프라임 에디팅 시스템"은 프라임 에디팅과 관련된 내용을 기술하기 위해 포괄적인 개념으로 사용될 수 있다. 일부 실시양태에서, 프라임 에디팅 시스템은 프라임 에디터 단백질 및 pegRNA에 더하여, 다른 요소 또는 이의 사용을 더 포함할 수 있다. 예를 들어, 프라임 에디팅 시스템은 비-편집된 가닥에 제2 부위 닉킹을 지시할 수 있는 전통적인 가이드 RNA 또는 이의 사용을 더 포함할 수 있다.

일부 실시양태에서, 프라임 에디터 단백질은 다음을 포함한다:

(i) Cas 단백질; 및

(ii) 폴리머라아제.

이하에서, 프라임 에디터 단백질에 포함되는 Cas 단백질 및 폴리머라아제가 설명된다.

프라임 에디터 단백질의 요소 1 - Cas 단백질

프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제를 포함한다. 프라임 에디터 단백질은 섹션 "CRISPR/Cas 시스템"에서 상세히 설명된 Cas 단백질을 포함할 수 있다. Cas 단백질은 이의 등가물을 포괄하는 것으로 사용된다. Cas 단백질은 CRISPR 효소, 핵산 프로그램가능한 DNA 결합 단백질 (nucleic acid programmable DNA binding protein; napDNAbp), 또는 CRISPR 단백질 등으로 지칭될 수 있다.

일부 실시양태에서, Cas 단백질은 Cas12a, Cas12b1(C2c1), Cas12c(C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (또한 Csn1 및 Csx12로도 공지됨), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, Cas13a(C2c2), Cas13b, Cas13c, Cas13d, Cas14, xCas9, 원형 순열 Cas9, 또는 아르고노트 (Ago) 도메인, 또는 이의 단편, 또는 이의 상동체, 또는 이의 변이체일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 닉카제 활성을 갖는 Cas 단백질일 수 있다. 닉카제 활성을 갖는 Cas 단백질은 Cas9 닉카제, 또는 Cas12 닉카제 (예를 들어, Cas12a 닉카제, 또는 Cas12b1 닉카제 등)일 수 있으나 이에 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas 단백질일 수 있다. 일부 실시양태에서, Cas 단백질은 NHN 도메인 및/또는 RuvC 도메인에 하나 이상의 아미노산 치환 또는 아미노산 변이를 포함할 수 있다. 예를 들어, 변이체는 야생형의 Cas 단백질 또는 모체가 되는 Cas 단백질의 아미노산 서열과 비교하여, 약 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% 또는 99.9%의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다. 예를 들어, 변이체는 야생형의 Cas 단백질 또는 모체가 되는 Cas 단백질의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합을 포함할 수 있다.

예를 들어, Cas 단백질은 SpCas9(Streptococcus pyogenes 유래 Cas9), CjCas9(Campylobacter jejuni 유래 Cas9), SaCas9 (Staphylococcus aureus 유래 Cas9), 또는 이의 변이체일 수 있다. 예를 들어, Cas 단백질은 SpyMac, iSpymac, GeoCas9, xCas9, 원형 순열 Cas9, 또는 이의 변이체일 수 있다. 예를 들어, SpCas9 변이체는 야생형의 SpCas9의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합의 아미노산 잔기의 변이를 포함할 수 있다. 예를 들어, H840A 치환을 포함하는 SpCas9 변이체는 닉카제 활성을 갖는 Cas 단백질을 제공한다. 예를 들어, D10A 치환을 포함하는 SpCas9 변이체는 닉카제 활성을 갖는 Cas 단백질을 제공한다. 예를 들어, SpCas9 변이체는 R221K 및 N394K 치환을 포함할 수 있다. 예를 들어, SpCas9 변이체는 야생형 SpCas9의 D10, R221, L244, N394, H840, K1211, 및 L1245 중 선택되는 어느 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 예를 들어, SpCas9 변이체는, D10A, R221K, L244Q, N394K, H840A, K1211Q, 및 L1245V 중 하나 이상을 포함할 수 있다. 일부 실시양태에서, Cas 단백질은 H840A를 포함하는 닉카제 활성을 갖는 SpCas9 변이체; R221K, N394K, 및 H840A를 포함하는 닉카제 활성을 갖는 SpCas9 변이체 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 참조); 뉴클레아제 활성(즉, DSB를 유도하는)을 갖는 야생형 SpCas9 변이체 (문헌 Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조); 또는 R221K 및 N394K을 포함하는 뉴클레아제 활성을 갖는 SpCas9 변이체일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, Cas 단백질은 코돈 최적화된 것일 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 PAMless Cas 단백질을 포함할 수 있다.

프라임 에디터 단백질에 포함될 수 있는 Cas 단백질에 대한 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

일부 실시양태에서, 야생형 SpCas9은 다음의 서열번호 28의 아미노산 서열을 포함할 수 있다:

일부 실시양태에서, H840A 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 29의 아미노산 서열을 포함할 수 있다:

일부 실시양태에서, R221K 및 N394K 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 30의 아미노산 서열을 포함할 수 있다:

일부 실시양태에서, R221K, N394K, 및 H840A 변이를 포함하는 야생형 SpCas9의 변이체는 다음의 서열번호 31의 아미노산 서열을 포함할 수 있다:

프라임 에디터 단백질의 요소 2 - 폴리머라아제

프라임 에디팅에 사용되는 폴리머라아제 개괄

프라임 에디터 단백질는 Cas 단백질에 및 폴리머라아제(polymerase)를 포함한다. 폴리머라아제는 뉴클레오티드 가닥을 합성하고 본 명세서에 기재된 프라임 에디팅 시스템 또는 프라임 에디팅 기반 시스템과 관련하여 사용될 수 있는 효소 또는 단백질을 지칭한다. 폴리머라아제는 "주형-의존성 폴리머라아제 (즉, 주형 가닥의 뉴클레오티드 염기의 순서에 기초하여 뉴클레오티드 가닥을 합성하는 폴리머라아제)일 수 있다. 폴리머라아제는 또한 "주형-비의존성" 폴리머라아제일 수 있다. 폴리머라아제는 또한 "DNA 폴리머라아제" 또는 "RNA 폴리머라아제"로 추가로 카테고리될 수 있다.

다양한 실시양태에서, 프라임 에디팅 시스템 또는 프라임 에디터 단백질은 DNA 가닥을 합성하는 DNA 폴리머라아제를 포함한다.

일부 실시양태에서, DNA 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있으며, 이러한 경우에, pegRNA는 DNA-의존성 DNA 폴리머라아제에 의한 중합의 주형이 되는 DNA 주형을 포함할 수 있다. 이러한 경우에, pegRNA는 RNA 부분(스페이서 및 gRNA 코어를 포함한 가이드 RNA 성분) 및 DNA 부분(DNA 주형)을 포함하는 키메라 또는 하이브리드 pegRNA로 지칭될 수 있다.

다양한 실시양태에서, DNA 폴리머라아제는 "RNA-의존성 DNA 폴리머라아제"일 수 있다. 이러한 경우에, pegRNA는 RNA-의존성 DNA 폴리머라아제에 의한 중합의 주형이 되는 RNA 주형을 포함할 수 있다. 즉, pegRNA는 RNA 성분으로 구성될 수 있으며, RNA 연장 영역을 포함한다.

폴리머라아제는 또한 뉴클레오티드의 중합을 촉매하는 효소를 지칭할 수 있다. 일반적으로, 폴리머라아제에 의한 중합은 폴리뉴클레오티드 주형 서열에 어닐링된 프라이머 (예를 들어, 프라임 에디팅에서, pegRNA의 프라이머 결합 부위에 어닐링된 프라이머 서열)의 3'-단부에서 개시될 것이고, 주형 가닥의 5' 단부를 향하여 진행될 것이다. DNA 폴리머라아제는 데옥시뉴클레오티드의 중합을 촉매할 수 있다. 본 명세서에서 사용되는 용어 폴리머라아제는 뉴클레오티드의 중합을 촉매 및/또는 수행하는 효소, 단백질, 이의 변이체, 및 이의 단편을 포괄하는 용어로 사용된다. 여기서, 폴리머라아제의 단편은 야생형 폴리머라아제의 전체 미만의 길이의 아미노산 서열을 포함하고, 적어도 하나의 조건 하에 데옥시뉴클레오티드의 중합을 촉매 및/또는 수행하는 능력을 보유하는 야생형 또는 돌연변이체(변이체) DNA 폴리머라아제의 임의의 부분을 지칭한다. 이러한 단편은 별개의 개체로서 존재할 수 있거나 또는 보다 큰 폴리펩티드, 예를 들어 융합 단백질의 구성성분일 수 있다.

폴리머라아제의 예시: 리버스 트랜스크립타아제

예를 들어, 프라임 에디팅에 사용되는 하나의 요소인 폴리머라아제는 리버스 트랜스크립타아제(Reverse transcriptase; RT)일 수 있다. 리버스 트랜스크립타아제는 RNA-의존성 DNA 폴리머라아제로서 특징화되는 폴리머라아제의 부류를 지칭한다. 모든 공지된 리버스 트랜스크립타아제는 RNA 주형으로부터 DNA 전사체를 합성하기 위한 프라이머를 필요로한다. 본 명세서에서 사용되는 용어인 리버스 트랜스크립타아제는 이의 변이체, 및 이의 단편을 포괄하는 용어로 사용될 수 있다. 예를 들어, 변이체는 야생형의 리버스 트랜스크립타아제 또는 모체가 되는 리버스 트랜스크립타아제의 아미노산 서열과 비교하여, 약 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99.5% 또는 99.9%의 서열 동일성을 갖는 아미노산 서열을 포함할 수 있다. 예를 들어, 변이체는 야생형의 리버스 트랜스크립타아제 또는 모체가 되는 리버스 트랜스크립타아제의 아미노산 서열과 비교할 때, 하나 이상의 삽입, 하나 이상의 결실, 하나 이상의 치환, 또는 이들의 조합을 포함할 수 있다.

리버스 트랜스크립타아제는 다수의 상이한 공급원으로부터 유래될 수 있다. 리버스 트랜스크립타아제의 공급원의 예는 몰로니 뮤린 백혈병 바이러스 (Moloney murine leukemia virus; M-MLV 또는 MLVRT); 인간 T-세포 백혈병 바이러스 유형 1 (HTLV-1); 소 백혈병 바이러스 (BLV); 라우스 육종 바이러스 (RSV); 인간 면역결핍 바이러스 (HIV); 효모, 예를 들어, 사카로미세스(Saccharomyces), 뉴로스포라(Neurospora), 드로소필라(Drosophila); 영장류; 및 설치류를 포함하나 이에 제한되지는 않는다.

리버스 트랜스크립타아제는, 예를 들어, 조류 골수모구증 바이러스 (AMV) 리버스 트랜스크립타아제, 몰로니 뮤린 백혈병 바이러스 (Moloney murine leukemia virus; M-MLV)로부터 기원하는 리버스 트랜스크립타아제 (문헌 [GERARD, GARY F., et al. "Influence on stability in Escherichia coli of the carboxy-terminal structure of cloned Moloney murine leukemia virus reverse transcriptase." Dna 5.4 (1986): 271-279.; 및 Kotewicz, Michael L., et al. "Cloning and overexpression of Moloney murine leukemia virus reverse transcriptase in Escherichia coli." Gene 35.3 (1985): 249-258.] 참조), RNase H 활성이 실직적으로 결여된 M-MLV 리버스 트랜스크립타아제(출원번호 US 07/671,156, 공개번호 US5244797A 참조), 인간 면역결핍 바이러스 (HIV) 리버스 트랜스크립타제, 조류 육종-백혈증 바이러스 (ASLV) 리버스 트랜스크립타제, 라우스 육종 바이러스 (RSV) 리버스 트랜스크립타제, 조류 적모구증 바이러스 (AEV) 헬퍼 바이러스 MCAV 리버스 트랜스크립타제, 조류 골수구종증 바이러스 MC29 헬퍼 바이러스 MCAV 리버스 트랜스크립타제, 조류 세망내피증 바이러스 (REV-T) 헬퍼 바이러스 REV-A 리버스 트랜스크립타제, 조류 육종 바이러스 UR2 헬퍼 바이러스 UR2AV 리버스 트랜스크립타제, 조류 육종 바이러스 Y73 헬퍼 바이러스 YAV 리버스 트랜스크립타제, 라우스 연관 바이러스 (RAV) 리버스 트랜스크립타제, 및 골수모구증 연관 바이러스 (MAV) 리버스 트랜스크립타제, 이의 변이체, 또는 이의 단편일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, 리버스 트랜스크립타아제는 레트로바이러스 리버스 트랜스크립타아제일 수 있다. 일부 실시양태에서, 리버스 트랜스크립타아제는 오류-유발 리버스 트랜스크립타아제일 수 있다. "오류-유발 (Error-Prone)" 리버스 트랜스크립타아제 (또는 보다 넓게는, 임의의 폴리머라아제)는 자연 발생하거나 또는 야생형 M-MLV 리버스 트랜스크립타아제의 오류율보다 더 적은 오류율을 갖는 또 다른 리버스 트랜스크립타아제로부터 유래된 리버스 트랜스크립타아제를 지칭한다. 오류-유발 리버스 트랜스크립타아제는 비교되는 야생형 리버스 트랜스크립타아제보다 더 높은 오류율을 가질 수 있다. 예를 들어, 6.7x10^-5, 7.14x10^-5, 7.7x10^-5, 9.1x10^-5, 또는 1x10^-4의 오류율을 가질 수 있다. 오류-유발 리버스 트랜스크립타아제에 대해서는 문헌 [Bebenek, K., et al. "Error-prone polymerization by HIV-1 reverse transcriptase. Contribution of template-primer misalignment, miscoding, and termination probability to mutational hot spots." Journal of Biological Chemistry 268.14 (1993): 10324-10334.; 및 Sebastian-Martin, Alba, Veronica Barrioluengo, and Luis Menendez-Arias. "Transcriptional inaccuracy threshold attenuates differences in RNA-dependent DNA synthesis fidelity between retroviral reverse transcriptases." Scientific Reports 8.1 (2018): 1-13.]이 참고될 수 있으며, 이들 각각의 전체 내용은 본 명세서에 참조로 포함된다.

일부 실시양태에서, 리버스 트랜스크립타아제는 M-MLV 리버스 트랜스크립타아제일 수 있다. 용어 M-MLV 리버스 트랜스크립타아제는 이의 변이체, 및 이의 단편을 포괄하는 것으로 사용될 수 있다. M-MLV 리버스 트랜스크립타아제는 예를 들어, 야생형 M-MLV 리버스 트랜스크립타아제, M-MLV 리버스 트랜스크립타아제 변이체, 야생형 M-MLV 리버스 트랜스크립타아제의 단편 또는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체의 단편일 수 있다. 예를 들어, M-MLV 리버스 트랜스크립타아제 변이체는, 야생형 M-MLV 리버스 트랜스크립타아제 또는 다른 야생형 리버스 트랜스크립타아제의 P51, S67, E69, L139, T197, D200, H204, F209, E302, E302, T306, F309, W313, T330, L345, L435, N454, D524, E562, D583, H594, L603, E607, 및 D653 중 선택되는 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열은 서열번호 26에 개시된다. 예를 들어, M-MLV 리버스 트랜스크립타아제 변이체는 P51L, S67K, E69K, L139P, T197A, D200N, H204R, F209N, E302K, E302R, T306K, F309N, W313F, T330P, L345G, L435G, N454K, D524G, E562Q, D583N, H594Q, L603W, E607K, 및 D653N 중 선택되는 어느 하나 이상의 아미노산 변이를 포함할 수 있다 (여기서, 아미노산 변이의 기준이 되는 서열은 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열임). 특정한 실시양태에서, 리버스 트랜스크립타아제는 D200N, T306K, W313F, T330P, 및 L603W 아미노산 변이를 포함하는 M-MLV 리버스 트랜스크립타아제 변이체 (예를 들어, M-MLV 리버스 트랜스크립타아제 펜타뮤턴트)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 말단 절단된 M-MLV 리버스 트랜스크립타아제일 수 있다. 이때, 말단 절단된 M-MLV 리버스 트랜스크립타아제는 4개의 돌연변이(D200N, T306K, W313F, 및 T330P)를 포함할 수 있다. 여기서, 전술한 M-MLV 리버스 트랜스크립타아제 펜타뮤턴트에 존재하는 L603W 돌연변이는 말단 절단으로 인해 더 이상 존재하지 않는다. 일부 실시양태에서, 폴리머라아제 또는 리버스 트랜스크립타제는 코돈 최적화된 것일 수 있다.

리버스 트랜스크립타제 (RT) 유전자 (또는 그 안에 함유된 유전자 정보)는 다수의 상이한 공급원으로부터 수득될 수 있다. 예를 들어, 유전자는 레트로바이러스로 감염된 진핵 세포로부터, 또는 레트로바이러스 게놈의 부분 또는 전체를 함유하는 다수의 플라스미드로부터 수득될 수 있다. 또한, RT 유전자를 함유하는 메신저 RNA-유사 RNA는 레트로바이러스로부터 수득될 수 있다. 프라임 에디터 단백질에 포함될 수 있는 리버스 트랜스크립타아제에 대한 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

일부 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제는 다음의 서열번호 26의 아미노산 서열을 포함할 수 있다:

일부 실시양태에서, D200N, T306K, W313F, T330P, 및 L603W 변이를 포함하는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는 다음의 서열번호 27의 아미노산 서열을 포함할 수 있다:

프라임 에디터 단백질에 추가적으로 포함될 수 있는 요소

프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 일부 실시양태에서, 프라임 에디터 단백질은 위 두 요소에 더하여, 하나 이상의 링커 (예를 들어, 프라임 에디터 단백질에 포함된 요소를 연결하기 위한 링커) 및 하나 이상의 NLS (nuclear localization sequence) 등과 같은 추가적인 요소를 더 포함할 수 있다.

프라임 에디터 단백질은 하나 이상의 링커를 포함할 수 있다. 예를 들어, 링커는 Cas 단백질을 프라임 에디터 단백질에 포함된 다른 구조와 연결시키기 위해 사용될 수 있다. 링커는 관련 기술분야의 임의의 공지된 링커일 수 있다. 예를 들어, 링커는 폴리머라아제를 프라임 에디터 단백질에 포함된 다른 구조와 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 NLS를 프라임 에디터 단백질에 포함된 다른 구조와 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 Cas 단백질 및 폴리머라아제를 연결하기 위해 사용될 수 있다. 예를 들어, 링커는 링커와 독립적으로 선택된 다른 링커를 연결하기 위해 사용될 수 있다. 일부 실시양태에서, 링커는, 공유 결합, 유기 분자, 그룹, 중합체, 또는 화학적 모이어티일 수 있다. 일부 실시양태에서, 각각의 링커는 독립적으로 선택될 수 있다. 링커는 3 내지 100개의 또는 그 이상의 아미노산 길이를 가질 수 있다. 예를 들어, 링커는 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 또는 200개 아미노산 길이이거나 전술한 값 중 선택되는 두 값에 의해 설정되는 범위의 아미노산 길이일 수 있다. 일부 실시양태에서, 링커는 다음의 아미노산 서열을 포함할 수 있다: 하나 이상의 G, 하나 이상의 XP (여기서, X는 임의의 아미노산임), 하나 이상의 EAAAK (서열번호 35), 하나 이상의 GGS (서열번호 36), 하나 이상의 SGGS (서열번호 37), 또는 하나 이상의 GGGGS (서열번호 38)을 포함할 수 있다. 일부 실시양태에서, 링커는 아미노산 서열 SGSETPGTSESATPES (서열번호 39), 또는 SGGSSGGSSGSETPGTSESATPESSGGSSGGS (서열번호 40)을 포함할 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 링커는 XTEN 링커 (예를 들어, XTEN16 링커)일 수 있다. 전술한 바와 같이, 프라임 에디터 단백질은 하나 이상의 링커를 포함할 수 있으며, 각각의 링커는 독립적으로 선택 또는 결정될 수 있다. 링커의 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

프라임 에디터 단백질은 하나 이상의 NLS를 포함할 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 2개 이상의 NLS를 포함할 수 있다. 프라임 에디터 단백질이 복수의 NLS를 포함하는 경우, 각각의 NLS는 독립적으로 선택 또는 결정될 수 있다. NLS는 관련 기술분야의 임의의 공지된 NLS일 수 있다. NLS는 핵 국재화를 위한 임의의 추후 발견될 NLS일 수 있다. NLS는 임의의 자연 발생 NLS, 또는 임의의 비-자연 발생 (예를 들어, 1개 이상의 돌연변이를 갖는) NLS일 수 있다. 일부 실시양태에서, NLS는 아미노산 서열 PKKKRKV (서열번호 01)를 갖는 SV40 바이러스 대형 T-항원의 NLS; 아미노산 서열 KRTADGSEFESPKKKRKVE (서열번호 18)을 포함하는 이분(bipartite) SV40 NLS (또는 PKKKRKV 이외의 부분에서 하나의 아미노산의 결실을 포함하는 이분 SV40 NLS); 뉴클레오플라스민(nucleoplasmin)으로부터의 NLS(예를 들어, 서열 KRPAATKKAGQAKKKK (서열번호 02)를 갖는 뉴클레오플라스민 이분(bipartite) NLS); 아미노산 서열 PAAKRVKLD (서열번호 03)또는 RQRRNELKRSP (서열번호 04)를 갖는 c-myc NLS; 서열 NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열번호 05)를 갖는 hRNPA1 M9 NLS; 임포틴-알파로부터의 IBB 도메인의 서열 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열번호 06); 마이오마(myoma) T 단백질의 서열 VSRKRPRP (서열번호 07)및 PPKKARED (서열번호 08); 인간 p53의 서열 PQPKKKPL (서열번호 09); 마우스 c-abl IV의 서열 SALIKKKKKMAP (서열번호 10); 인플루엔자 바이러스 NS1의 서열 DRLRR (서열번호 11)및 PKQKKRK (서열번호 12); 간염 바이러스 델타 항원의 서열 RKLKKKIKKL (서열번호 13); 마우스 Mx1 단백질의 서열 REKKKFLKRR (서열번호 14); 인간 폴리(ADP-리보스) 중합효소의 서열 KRKGDEVDGVDEVAKKKSKK (서열번호 15); 또는 스테로이드 호르몬 수용체(인간) 글루코코르티코이드의 서열 RKCLQAGMNLEARKTKK (서열번호 16)로부터 유래된 NLS 서열일 수 있으나, 이에 제한되지 않는다. 일부 실시양태에서, NLS는 코돈 최적화된 것일 수 있다.

NLS의 다양한 예시는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

pegRNA (prime editing guide RNA)

pegRNA 개괄

본 명세서에서 사용되는 용어 "프라임 에디팅 가이드 RNA (prime editing guide RNA)", "pegRNA" 또는 "연장된 가이드 RNA"는 본 명세서에 개시된 프라임 에디팅 방법 및 조성물을 구현하기 위한, 하나 이상의 추가의 서열을 포함하도록 변형된 특수화된 형태의 가이드 RNA를 지칭한다. 프라임 에디팅 시스템에서 pegRNA는 프라임 에디터 단백질과 함께 사용된다. 본 명세서에 기재된 바와 같이, pegRNA는 연장 암 (extension arm) 또는 연장 영역 (extension region)을 포함한다. 연장 암은 단일 가닥 RNA 서열 및/또는 DNA 서열을 포함할 수 있으나, 이에 제한되지 않는다. 전술한 바와 같이, 전통적인 CRISPR/Cas 시스템에 사용되는 가이드 RNA (즉, pegRNA의 연장 암을 포함하지 않는 가이드 RNA)는 전통적인 가이드 RNA로 지칭되어, pegRNA와 구분될 수 있다. 예를 들어, 연장 암은 전통적인 가이드 RNA의 3' 단부에서 발생할 수 있다. 다른 예로, 연장 암은 전통적인 가이드 RNA의 5' 단부에서 발생할 수 있다. 일부 실시양태에서, pegRNA는 스페이서 영역, gRNA 코어, 및 전통적인 가이드 RNA의 3' 단부 또는 5' 단부에서 발생한 연장 암을 포함할 수 있다.

연장 암 (extension arm)

용어 "연장 암"은 폴리머라아제(예를 들어, 리버스 트랜스크립타아제) 대한 프라이머 결합 부위 (Primer binding site; PBS), 및 DNA 합성 주형(예를 들어, 편집 주형을 포함함)을 포함하는, 다양한 기능을 제공하는 pegRNA 뉴클레오티드 서열 부분을 지칭한다. pegRNA에서, 연장 암은 연장 영역으로 설명될 수 있다. 일부 실시양태에서, 연장 암은 가이드 RNA의 3' 단부에 위치할 수 있다. 일부 실시양태에서, 가이드 RNA의 3' 단부에 위치하는 연장 암은 3' 연장 암으로 지칭될 수 있다. 다른 실시양태에서, 연장 암은 가이드 RNA의 5' 단부에 위치할 수 있다. 일부 실시양태에서, 가이드 RNA의 5' 단부에 위치하는 연장 암은 5' 연장 암으로 지칭될 수 있다. 일부 실시양태에서, 연장 암은 상동성 암을 포함할 수 있다. 일부 실시양태에서, 연장 암은 편집 주형을 포함할 수 있다. 일부 실시양태에서, 연장 암은 프라이머 결합 부위를 포함할 수 있다. 다양한 실시양태에서, 연장 암(예를 들어, 3' 연장 암)은 하기 요소를 5'에서 3' 방향으로 포함한다: DNA 합성 주형, 및 프라이머 결합 부위. 즉, pegRNA 전체를 기준으로 설명하면, pegRNA는 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 스페이서, gRNA 코어, DNA 합성 주형, 및 프라이머 결합 부. DNA 합성 주형은 상동성 영역 및 편집 주형을 포함할 수 있다. 다양한 실시양태에서, 연장 암은 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 상동성 영역, 편집 주형, 및 프라이머 결합 부위. 즉, pegRNA 전체를 기준으로 설명하면, pegRNA는 하기 요소를 5'에서 3' 방향으로 포함할 수 있다: 스페이서, gRNA 코어, 상동성 영역, 편집 주형, 및 프라이머 결합 부. 일부 실시양태에서, 5' 연장 암은 하기 요소를 5' 에서 3' 방향으로 포함할 수 있다: DNA 합성 주형, 및 프라이머 결합 부.

폴리머라아제의 예시인 리버스 트랜스크립타아제의 중합 활성은, 주형 가닥과 결과적으로 결합되는 가닥을 기준으로, 5'에서 3' 방향으로 존재한다. 프라이머와 프라이머 결합 부위(PBS)가 어닐링되면, 리버스 트랜스크립타아제가 상보적 주형 가닥 (DNA 합성 주형)을 역전사의 주형으로 사용하여 DNA의 단일 가닥을 중합한다. 프라임 에디팅에 사용되는 연장 암의 다양한 실시양태는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

pegRNA의 연장 암은, 예를 들어, 일반적으로 2개의 영역: 프라이머 결합 부위 (PBS) 및 DNA 합성 주형(예를 들어, 역전사 주형)을 포함하는 것으로 설명될 수 있다. 예를 들어, PE2에서, 프라이머 결합 부위는 프라임 에디터 단백질에 의해 생성된 닉킹 표적 부위의 내인성 DNA 가닥으로부터 형성된 프라이머 서열에 결합하여, 닉킹된 가닥 상의 3' 단부를 노출시킨다. 본 명세서에 설명된 바와 같이, pegRNA의 연장 암 상의 프라이머 결합 부위에 대한 프라이머 서열의 결합은 노출된 3' 단부 (즉, 프라이머 서열의 3' 단부)를 갖는 듀플렉스 영역을 생성하고, 이는 이어서 리버스 트랜스크립타아제가 DNA 합성 주형의 길이를 따라 노출된 3' 단부로부터 DNA의 단일 가닥을 중합시키기 위한 기질을 제공한다. 단일 가닥 DNA 생성물의 서열은 DNA 합성 주형의 상보체이다. 중합은 중합이 종결될 때까지 DNA 합성 주형 (또는 연장 암)의 5'을 향해 계속된다. 따라서, DNA 합성 주형은 프라임 에디터 단백질의 폴리머라아제에 의해 단일 가닥 DNA 생성물 (즉, 목적하는 유전자 편집 정보를 함유하는 3' 단일 가닥 DNA 플랩)로 코딩된다. 결과적으로, PE-유도된 닉(nick) 부위의 바로 하류에 위치하는 표적 부위에 상응하는 내인성 DNA 가닥을 대체하는 3' 단일 가닥 DNA 플랩(예를 들어, DNA 합성 주형에 상보적임)이 형성된다. DNA 합성 주형의 중합은 종결까지 연장 암의 5' 단부를 향해 계속될 수 있으나, 이에 제한되지 않는다. 중합은 (a) pegRNA의 5' 말단에 도달하는 것, (b) 통과할 수 없는 RNA 2차 구조 (예를 들어, 헤어핀 또는 스템/루프)에 도달하는 것, 또는 (c) 복제 종결 신호, 예를 들어 폴리머라아제를 차단 또는 억제하는 특이적 뉴클레오티드 서열, 또는 핵산 위상 신호, 예를 들어 슈퍼코일드 DNA 또는 RNA에 도달하는 것을 포함하나 이에 제한되지 않는 다양한 방식으로 종결될 수 있으나, 이에 제한되지 않는다. 몇몇 프라임 에디팅과 관련된 문헌에서는 pegRNA의 gRNA 코어의 일부와 상동성을 갖는 서열이 3' DNA 플랩 또는 에디팅 위치에서 발견되는 것으로 보고하고 있는 것으로 보아, 전술한 양태는 예시일 뿐이며 중합의 종결은 전술한 양태에 제한되지 않는 것으로 관련 분야의 기술자에게 이해될 것이다.

프라이머 결합 부 (Primer binding site; PBS)

프라임 에디팅 시스템에서, 폴리머라아제에 의한 중합을 통해 pegRNA에 포함된 DNA 합성 주형에 존재하는 정보가 내인성 DNA 가닥으로 전달된다. 폴리머라아제에 의한 폴리머라이제이션이 수행되기 위해서는 프라이머가 주형 가닥에 결합되어야 하며, 프라이머의 결합 또는 어닐링은 DNA 중합을 가능하도록 한다. 프라임 에디팅 시스템에서는 Cas 단백질에의해 유도된 DSB 또는 nick이 발생된 부위의 일부 영역을 프라이머로 이용한다. 예를 들어, PE2를 기초로 설명하면, 프라임 에디터 단백질의 Cas 단백질에 의해 유도된, 스페이서 비-결합 가닥의 nick의 상류에 위치한 일부 영역을 프라이머로 이용한다. 이때, nick의 상류에 위치한 영역의 서열과 상보적으로 결합하도록 디자인된 영역을 프라이머 결합 부로 지칭하며, 프라이머 결합 부는 pegRNA의 연장 영역 상에 위치한다. 이하에서 PE2의 프라임 에디팅 과정에 대해 추가적으로 설명한다. 프라이머 결합 부와 내인성 DNA (예를 들어 게놈)의 프라이머로 사용되는 영역이 결합되면, 프라이머를 역전사의 주형으로 하여 리버스 트랜스크립타아제에의해 역전사가 수행된다. 이때, 역전사의 주형 가닥 (즉, pegRNA)을 기준으로 3' 에서 5' 방향으로 역전사가 수행됨은 관련 분야의 기술자에게 명백할 것이다. 역전사가 수행되면, DNA 주형의 서열과 상보성을 갖는 서열이 게놈 DNA의 3' 플랩에 포함된다. 즉, DNA 주형의 정보가 역전사에 의해 3' 플랩으로 전달된다. 이후, 5' 플랩의 제거와 세포 DNA 복구 및/또는 복제를 포함하는 과정을 통해 DNA 주형의 정보는, 결국, 편집을 목적하는 DNA의 다른 가닥까지 전달된다. 목적하는 프라임 에디팅의 결과는 편집을 목적하는 위치의 제1 가닥 (여기서, 제1 가닥은 스페이서 비-결합 가닥임) 및/또는 제2 가닥 (여기서, 제2 가닥은 스페이서 결합 가닥임)에 DNA 주형의 정보를 전달 또는 설치하는 것이다. 즉, 예시적인 PE2 프라임 에디팅의 결과로, 제1 가닥의 목적하는 위치에는 DNA 주형 가닥의 서열과 상보성을 갖는 DNA 서열이 존재하게 되고, 제2 가닥의 목적하는 위치에는 DNA 주형 가닥의 서열과 동일한 DNA 서열이 존재하게 된다.

일부 실시양태에서, pegRNA의 프라이머 결합 부는 DNA 분자(예를 들어, 게놈 DNA)의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열에 상보성을 갖는 서열로 디자인될 수 있다. 일부 실시양태에서, 프라이머 결합 부는 DNA 분자의 스페이서 비-결합 가닥의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열에 상보성을 갖는 서열로 디자인될 수 있다. 즉, DNA 분자의 스페이서 비-결합 가닥의 DSB 발생 위치 또는 nick 발생 위치의 상류에 위치하는 영역의 서열은 프라임 에디팅 과정에서 프라이머로 기능한다. 전술한 바와 같이, PE2의 예시에서, 닉의 5' 방향에 위치한 서열이 프라이머로 기능하고, 프라이머와 프라이머 결합 부의 결합을 통해 DNA 분자의 nick 단부가 역전사 효소에 노출된다.

일부 실시양태에서, 프라이머는 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt, 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머는 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 또는 25 nt의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다.

일부 실시양태에서, 프라이머 결합 부는 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 25 nt, 26 nt, 27 nt, 28 nt, 29 nt, 30 nt, 31 nt, 32 nt, 33 nt, 34 nt, 35 nt, 36 nt, 37 nt, 38 nt, 39 nt, 40 nt, 41 nt, 42 nt, 43 nt, 44 nt, 45 nt, 46 nt, 47 nt, 48 nt, 49 nt, 50 nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부는 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt, 16 nt, 17 nt, 18 nt, 19 nt, 20 nt, 21 nt, 22 nt, 23 nt, 24 nt, 또는 25 nt의 길이를 갖거나, 전술한 값 중 선택되는 두개의 값으로 형성되는 범위의 길이를 가질 수 있다. 프라이머 결합 부의 길이는 목적에 따라 적절히 선택될 수 있고, 달리 제한되지 않는다.

DNA 합성 주형 (DNA synthesis template)

본 명세서에서 사용되는 용어 "DNA 합성 주형"은, 프라임 에디팅에서, 목적하는 편집(desired edit)을 포함하는 3' 단일 가닥 DNA 플랩(flap)을 코딩하기 위해, 프라임 에디터 단백질의 폴리머라아제에 의해 주형 가닥으로서 이용되는 영역 또는 부분을 지칭한다. 나아가, 프라임 에디팅 매커니즘을 통해, 표적 위치에서 상응하는 내인성 DNA 가닥을 대체하는, pegRNA의 연장 영역(extension region)에 포함된 영역 또는 부분을 지칭한다. PEgRNA의 연장 영역(extension region) 및 DNA 합성 주형의 다양한 실시양태는 본 명세서에 그 전체가 참조로 포함되는 문헌 [미국 특허출원 출원번호 17/219,672]에 상세히 설명된다.

DNA 합성 주형을 포함하는 연장 영역(extension region)은 DNA, RNA, 또는 DNA/RNA 하이브리드로 구성될 수 있다. RNA의 경우에, 프라임 에디터(prime editor) 단백질의 폴리머라아제는 RNA-의존성 DNA 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제, reverse transcriptase)일 수 있다. DNA 합성 주형은 DNA 중합 주형 또는 역전사 주형 (reverse transcription template; RT templat)으로 지칭될 수 있으며, 여기서, RT 주형은 프라임 에디팅 시스템에서 리버스 트랜스크립타아제의 사용을 의도한다. DNA의 경우에, 프라임 에디터의 폴리머라아제는 DNA-의존성 DNA 폴리머라아제일 수 있다. 다양한 실시양태에서, DNA 합성 주형(예를 들어, RT 주형)은 "편집 주형(edit template)" 및 "상동성 영역(homology region)"을 포함할 수 있다.

일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 영역에 더하여 임의적 5' 단부 변형제 영역(optional 5' end modifier region) e2의 모두 또는 부분을 포함할 수 있다. e2 영역의 성질 (예를 들어, 헤어핀, 토루프 또는 스템/루프 2차 구조의 포함 여부 등)에 따라, 폴리머라아제는 e2 영역 중 어느 것도 코딩하지 않을 수 있거나, 일부 또는 모두를 코딩할 수 있다. 일부 실시양태에서, 3' 연장 암의 경우에, DNA 합성 주형은 프라이머 결합 부위 (primer binding site; PBS)의 5' 단부로부터 gRNA 코어의 3' 단부까지 걸쳐 있는 연장 암의 부분을 포함할 수 있다. 다른 실시양태에서, 5' 연장 암의 경우에, DNA 합성 주형은 pegRNA 분자의 5' 단부로부터 프라이머 결합 부위의 3' 단부까지 걸쳐 있는 연장 암의 부분을 포함할 수 있다. 바람직하게는, DNA 합성 주형은 3' 연장 암 또는 5' 연장 암을 갖는 pegRNA의 프라이머 결합 부위(PBS)를 배제한다.

본 명세서에 기재된 특정 실시양태에서는, DNA 합성 주형은 편집 주형 및 상동성 암을 포함하는 "RT 주형(reverse transcription template; RT template)"으로 지칭될 수 있다. RT 주형은 DNA 합성에서 주형으로 사용되는 pegRNA 연장 암의 일부 서열을 지칭할 수 있다. 용어 "RT template"은 DNA 합성 주형과 동등하게 사용될 수 있다.

트랜스 프라임 에디팅의 경우에, 프라이머 결합 부위 (PBS) 및 DNA 합성 주형은 트랜스 프라임 에디팅 RNA 주형 (tPERT)으로 지칭되는 개별 분자로 엔지니어될 수 있다 (문헌 [미국 특허출원 출원번호 17/219,672] 참조).

DNA 합성 주형의 요소 1 - 편집 주형

용어 "편집 주형(edit template)"은 폴리머라아제, 예를 들어 DNA-의존성 DNA 폴리머라아제, RNA-의존성 DNA 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 합성된 단일 가닥 3' DNA 플랩의 목적하는 편집(desired edit)을 코딩하는 연장 암의 부분을 지칭한다. 즉, 편집 주형은 목적하는 편집과 상보성을 가질 수 있다. 일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 암을 포함할 수 있다. 일부 실시양태에서, RT 주형은 편집 주형 및 상동성 암을 포함할 수 있다. 용어 "RT 주형"은 DNA 합성 주형과 동등하지만, 여기서 RT 주형은 리버스 트랜스크립타아제인 폴리머라아제를 갖는 프라임 에디터 단백질의 사용을 반영하고, DNA 합성 주형은 임의의 폴리머라아제를 갖는 프라임 에디터 단백질의 사용을 보다 광범위하게 반영한다.

편집 대상 DNA 분자(예를 들어, 게놈)의 타겟 영역 내에 설치되는 목적하는 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입 및 결실을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다.

DNA 합성 주형의 요소 2 - 상동성 암 (homology arm) (또는 상동성 영역)

용어 "상동성 암"은 내인성 가닥을 대체함을 통해 표적 DNA 부위 내로 통합될 연장 암의 부분을 지칭한다. 예로, PE2의 프라임 에디팅에서, 리버스 트랜스크립타아제에 의해 코딩되는 단일 가닥 DNA 플랩의 일부를 코딩하는 연장 암의 부분을 지칭할 수 있다. 예를 들어, PE2 시스템에서, 상동성 암에 의해 코딩되는 단일 가닥 DNA 플랩의 부분은 표적 DNA의 비-편집 가닥 (예를 들어, 스페이서 결합 가닥)에 상보적이다. 즉, PE2에서는 상동성 암의 서열은 표적 DNA의 스페이서 비결합 가닥에 위치하는 상응하는 서열에 상보성을 갖는 서열을 갖고, 스페이서 결합 가닥에 위치하는 상응하는 DNA 서열과 실질적으로 동일한 서열을 갖는다. 상동성 암은 내인성 가닥을 대체하고 단일 가닥 DNA 플랩의 어닐링을 용이하게 하여, 표적 DNA 분자에 편집을 설치하는데 도움을 준다. 상동성 암은 정의에 의해 본 명세서에 개시된 프라임 편집제의 폴리머라아제에 의해 코딩되기 때문에 DNA 합성 주형의 일부이다.

pegRNA에 추가적으로 포함될 수 있는 요소와 엔지니어된 pegRNA (engineered pegRNA; epegRNA)

엔지니어된 pegRNA(engineered pegRNA; epegRNA)은 문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.]을 참조하여 설명되며, 상기 문헌의 전체 내용은 본 명세서에 참조로 포함된다. epegRNA는 pegRNA의 타입 중 하나로, 개량된 pegRNA를 지칭하는 것으로 사용될 수 있다. 구체적으로, epegRNA는 pegRNA의 3' 또는 5' 단부에 RNA 모티프가 추가된 형태의 pegRNA를 지칭한다. 일부 실시양태에서, epegRNA는 3' 단부에 RNA 모티프 (또는 엔지니어된 RNA 모티프)가 추가된 형태의 pegRNA일 수 있다. epegRNA는 예를 들어, 5' 에서 3' 방향으로 하기의 요소를 포함할 수 있다: 스페이서, gRNA 코어, DNA 합성 주형, 프라이머 결합 부, 및 RNA 모티프.

David R. Liu et al. 은 pegRNA의 안정성을 향상시키고 pegRNA의 3' 연장 영역의 분해를 방지하기 위해 pegRNA의 3' 단부에 RNA 모티프가 추가된 engineered pegRNA (epegRNA)를 개발하였다. 구체적으로 David R. Liu et al. 은 상기 문헌에서 기존의 pegRNA의 3' 단부에 안정성 유사매듭 (pseudoknot)이 추가적으로 통합된 epegRNA를 개시한다. 유사매듭의 예시는 문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.]에 설명된 evopreQ₁ (modified prequeosine1-1 riboswitch aptamer) 및 mpknot(frameshifting pseudoknot from Moloney murine leukemia virus)을 포함하며, 이에 제한되지 않는다.

epegRNA는 프라임 에디터 단백질의 종류에 구애받지 않고 사용될 수 있다. 예를 들어, epegRNA는 프라임 에디팅 버전 2 (PE2)의 spCas9 닉카제를 포함하는 프라임 에디터 단백질과 함께 사용될 수 있다. 다른 예로, epegRNA는 nuclease 활성(즉, DSB 활성)을 갖는 Cas9를 포함하는 PE-nuclease와 함께 DNA 분자 (예를 들어, 게놈)의 편집을 위해 사용될 수 있다. 본 명세서에서 용어 pegRNA는 epegRNA의 양태를 포함하는 개념으로 사용되며, 달리 명시되지 않는 한, pegRNA에 대한 기재는 epegRNA와 관련된 내용을 포함하는 것으로 해석될 것이다.

일부 실시양태에서, pegRNA는 3' 단부에 3' 엔지니어링 영역 (3' engineered region)을 더 포함할 수 있다. 3' 엔지니어링 영역이 포함된 pegRNA는 epegRNA로 지칭될 수 있다. 즉, epegRNA는 pegRNA의 요소에 3' 엔지니어링 영역(3' engineered region)을 더 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프를 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 RNA 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 DNA 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 특정한 실시양태에서, RNA 보호 모티프는 evopreQ1 또는 mpknot를 포함할 수 있으나, 이에 제한되지 않고, RNA의 분해를 방지하고 안정성을 높이기 위한 다른 임의의 구조를 포함할 수 있다.

일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프, 및 RNA 보호 모티프를 연결하기 위한 링커를 포함할 수 있다. 상기 링커는 epegRNA에서 RNA 보호 모티프와 프라이머 결합 부위(primer binding site)를 연결하는 역할을 한다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 RNA 서열을 포함할 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 DNA 서열을 포함할 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40nt, 또는 그 초과의 길이이거나, 전술한 값 중 선택되는 두개의 값으로 설정되는 범위의 길이일 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커는 상기 링커와 PBS 또는 상기 링커와 pegRNA의 스페이서의 base 페어링 상호작용을 피하기 위해 디자인될 수 있다. 일부 실시양태에서, RNA 보호 모티프를 연결하기 위한 링커의 서열은 표적 DNA 분자의 표적 영역 내의 서열이 고려되어 설계될 수 있다.

이하에서, 프라임 에디팅의 기본 요소인 프라임 에디터 단백질 및 pegRNA를 바탕으로 개발된 다양한 버전의 프라임 에디팅을 예시한다. 프라임 에디팅은 하기에 예시된 버전에 의해 제한되는 것은 아니다.

프라임 에디팅 버전의 예시

프라임 에디팅 버전의 예시 개괄

전술한 프라임 에디팅의 코어 매커니즘을 기반으로 다양한 버전의 프라임 에디팅이 개발되었다. 관련 분야의 기술자의 이해를 돕기 위해 프라임 에디팅 버전의 예시를 설명한다. 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 찾기 위한 방법은 하기의 예시된 다양한 프라임 에디팅 버전의 프라임 에디터 단백질, epegRNA를 포함하는 다양한 종류의 pegRNA, 및/또는 dnMLH1과 같은 추가적 요소를 이용할 수 있고, 달리 제한되지 않는다. 나아가, 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 찾기 위한 방법은 하기의 예시된 프라임 에디팅의 버전들과 이후에 개발될 새로운 프라임 에디팅 버전에 또한 적용될 수 있는 바, 하기의 예시된 프라임 에디팅 버전에 본 출원을 통해 제공되는 방법의 적용 범위가 제한되어서는 아니될 것이다.

프라임 에디팅 버전 1 (PE1)

프라임 에디팅 버전 1(PE1)은 다음의 요소의 사용을 포함하는 프라임 에디팅 시스템의 버전을 나타낸다:

spCas9(H840A) 및 야생형 MMLV RT (Moloney murine leukaemia virus reverse transcriptase)를 포함하는 프라임 에디터 단백질; 및

pegRNA.

즉, PE1의 프라임 에디터 단백질은 닉카제 활성을 갖는 Cas 단백질 및 야생형의 MMLV RT를 포함한다. PE1 프라임 에디터 단백질은 Cas 단백질 및 리버스 트랜스크립타아제가 링커를 통해 연결되어 있는 융합 단백질의 형태이다.

PE1 프라임 에디터 단백질과 pegRNA는 복합체를 이루고, 이를 통해 표적 영역에서 DNA 분자의 편집 (예를 들어, 게놈 편집)을 유도 또는 수행한다. PE1은 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.

프라임 에디팅 버전 2 (PE2)

프라임 에디팅 버전 2(PE2)는 다음의 요소의 사용을 포함하는 프라임 에디팅 시스템의 버전을 나타낸다:

spCas9(H840A) 및 MMLV RT (D200N+L603W+T330P+T306K+W313F)을 포함하는 프라임 에디터 단백질; 및

pegRNA.

즉, PE2의 프라임 에디터 단백질은 닉카제 활성을 갖는 Cas 단백질 및 MMLV RT 펜타뮤턴트를 포함한다. PE2의 프라임 에디터 단백질은 Cas 단백질 및 리버스 트랜스크립타아제가 링커를 통해 연결되어 있는 융합 단백질의 형태이다. 구체적으로, PE2의 프라임 에디터 단백질은 하기의 구조를 갖는다:

[bpNLS(SV40)]-[SpCas9 H840A]-[SGGSX2-XTEN16-SGGSX2]-[MMLV RT pentamutant]-[bpNLS(SV40)].

여기서, bpNLS(SV40) 이분 (bipartite) SV40 NLS를 지칭한다. MMLV RT pentamutant는 야생형 MMLV RT와 비교할 때 아미노산 변이 D200N, L603W, T330P, T306K, 및 W313F을 포함하는 MMLV RT 변이체를 지칭한다.

PE2 프라임 에디팅 시스템은 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; 및 Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 에서 상세히 설명된다. 일부 실시양태에서, PE2 프라임 에디터 단백질은 서열번호 32의 아미노산 서열을 포함할 수 있다.

서열번호 32의 아미노산 서열은 다음과 같다:

프라임 에디팅 버전 3 (PE3)

PE3 프라임 에디팅 시스템은 제2 가닥 닉킹 가이드 RNA를 사용하여 비-편집 가닥(즉, pegRNA의 스페이서와 결합하는 가닥)에 닉을 발생시킴을 통해, 프라임 에디팅의 효율을 높이는 것을 목적으로 개발된 프라임 에디팅의 버전을 지칭한다. 제2 가닥 가이드 RNA는 편집 위치 또는 타겟 위치에 비-편집 가닥의 근접한 위치에 nick을 발생시킬 수 있도록, 전통적인 gRNA (예를 들어, sgRNA)의 형태로 디자인될 수 있다. 일부 실시양태에서, PE3는 프라임 에디팅 단백질에 더해, 별도의 Cas9 닉카제의 사용을 포함할 수 있다.

PE3b는 PE3를 지칭하지만, 여기서 제2 가닥 닉킹 가이드 RNA는 제2 가닥 닉이 목적하는 편집이 설치될 때까지 도입되지 않도록 시간적 제어를 위해 설계된다. 이는 단지 편집된 가닥에만 매칭되고 원래 대립유전자에는 매칭되지 않는 스페이서 서열을 갖는 gRNA를 설계함으로써 달성된다. PE3 및 PE3b는 문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.]에서 상세히 설명된다.

프라임 에디팅 버전 4 (PE4)

프라임 에디팅 버전 4(PE4)는 PE2와 동일한 머시너리(machinery)의 사용을 포함하지만, 추가로 우성 음성 MLH1 (dominant negative MLH1)을 암호화하는 플라스미드 또는 dnMLH1의 사용을 더 포함한다. 예를 들어, PE4는 다음의 요소의 사용을 포함하는 것으로 인식될 수 있다:

PE2 프라임 에디팅 단백질;

pegRNA; 및

dnMLH1 (dominant negative MLH1).

문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]은, dominant negative MLH1은 억제에 의해 내인성 MLH1을 녹아웃할 수 있으므로, 세포 MMR 반응을 감소시키고 프라임 에디팅 효율을 증가시킨다고 설명한다.

프라임 에디팅 버전 5 (PE5)

프라임 에디팅 버전 5(PE5)는 PE3와 동일한 머시너리의 사용을 포함하지만, 추가로 우성 음성 MLH1을 암호화하는 플라스미드 또는 dnMLH1의 사용을 더 포함한다. PE5는 문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]에 상세히 개시된다.

PEmax

PEmax는 편집 효율을 증가시키기 위해 개발된 프라임 에디팅의 개량된 버전이다. PEmax 프라임 에디터 단백질은 SpCas9 변이체 및 MMLV RT 변이체를 포함한다. 구체적으로, PEmax 프라임 에디터 단백질은 다음의 구조를 갖는다:

[bpNLS(SV40)]-[SpCas9 R221K N394K H840A]-[SGGSX2-bpNLS(SV40)-SGGSX2]-[MMLV RT pentamutant (codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)]

여기서, bpNLS(SV40) 이분 (bipartite) SV40 NLS를 지칭한다. MMLV RT pentamutant (codon opt.)는 야생형 MMLV RT와 비교할 때 아미노산 변이 D200N, L603W, T330P, T306K, 및 W313F을 포함하는 인간 코돈 최적화된 MMLV RT 변이체를 지칭한다. 'SpCas9 R221K N394K H840A'은 야생형 SpCas9과 비교할 때 아미노산 변이 R221K, N394K, 및 H840A를 포함하는 SpCas9 변이체를 지칭한다. NLS(c-Myc)는 c-Myc NLS를 지칭한다. PEmax는 문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.]에 상세히 설명된다. 나아가, 상기 문헌은 PE2* 프라임 에디터 단백질, CMP-PE-V1 프라임 에디터 단백질, 및 CMP-PEmax 프라임 에디터 단백질 등과 같은 다양한 버전의 프라임 에디터 단백질을 개시하며, 이들 모두는 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟 예측 시스템에 사용될 수 있다.

뉴클라아제 기반 프라임 에디팅

뉴클리에이즈 기반 프라임 에디팅은, 프라임 에디팅의 버전 중 하나로, Cas9(H840A) 닉카제 대신 뉴클리에이즈 활성 (즉, DSB 활성)을 갖는 Cas 단백질 (예를 들어 야생형 SpCas9, 또는 닉카제가 아닌 SpCas9 변이체)을 사용한 것이다. 뉴클레이즈 기반 프라임 에디팅을 위한 프라임 에디터 단백질은 PE 뉴클레아제로 지칭될 수 있다. pegRNA의 스페이서와 결합하는 가닥에 닉을 유발하기 위해 디자인된 PE3와 다르게, 두 종류의 gRNA의 사용이 필수적인 것은 아니다. 한 종류의 pegRNA 및 Cas 뉴클리에이즈(닉카제가 아님)를 포함하는 프라임 에디팅 단백질을 통해 목적하는 위치에 DSB를 생성하여, 편집을 유도한다. 뉴클레이즈 기반 프라임 에디팅은 문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.]에서 상세히 설명되고, 이의 그 전체 내용은 본 명세서에 참조로 포함된다. PE 뉴클레아제의 예시로, PE2-뉴클레아제가 있다. PE2-뉴클레아제는 다음의 구조를 갖는다: [bpNLS(SV40)]-[SpCas9 (WT)]-[SGGSx2-XTEN16-SGGSx2]-[MMLV RT]-[bpNLS(SV40)].

일부 실시양태에서, PE2-뉴클레아제는 서열번호 33의 아미노산 서열을 포함할 수 있다.

서열번호 33의 아미노산 서열은 다음과 같다:

PEmax-뉴클라아제

PEmax-뉴클레아제는 PEmax 프라임 에디터 단백질을 기초로 개발된 뉴클레아제 기반 프라임 에디터 단백질로 (즉, PE-뉴클레아제의 일종), 닉카제 활성이 아닌 뉴클레아제 활성(즉, DSB 활성)을 갖는 Cas 단백질을 포함하는 프라임 에디터 단백질이다. PEmax-뉴클레아제는 다음의 구조를 갖는다:

[bpNLS(SV40)]-[SpCas9 R221K N394K]-[SGGSX2-bpNLS(SV40)-SGGSX2]-[MMLV RT pentamutant (codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)].

일부 실시양태에서, PEmax-뉴클레아제는 서열번호 34의 아미노산 서열을 포함할 수 있다.

서열번호 34의 아미노산 서열은 다음과 같다:

epegRNA의 사용

전술한 바와 같이, epegRNA는 pegRNA의 개량된 버전으로, 전술한 프라임 에디팅 시스템에서 사용되는 pegRNA는 epegRNA 이거나, 또는 epegRNA가 아닌 pegRNA일 수 있으며, 달리 제한되지 않는다.

프라임 에디팅 시스템을 이용한 게놈 편집 과정

관련 분야의 기술자의 이해를 돕기 위해, 프라임 에디팅 시스템을 이용한 세포의 게놈 편집 과정을, PE2의 예시를 통해 설명한다. 세포 내에서 프라임 에디팅 시스템을 통해 세포의 게놈을 편집하는 과정의 예시는 다음과 같다: PE2 프라임 에디터 단백질과 pegRNA는 복합체를 형성한다. 상기 복합체가 세포의 게놈과 접촉한다. pegRNA의 스페이서가 상응하는 표적 부위의 서열에 결합한다. 게놈 DNA의 스페이서가 결합하지 않은 가닥에서 닉이 발생한다. 닉은 PAM 서열의 5' 말단을 기준으로 상류에 위치한 3번째 뉴클레오타이드와 4번째 뉴클레오타이드 사이에 발생한다. 닉 부위의 상류에 위치한 서열이 프라이머로 기능하여 pegRNA의 프라이머 결합 부와 상보적 결합을 형성한다. 이를 통해 절단된 가닥의 3' 말단을 역전사 과정에 노출시킨다. 역전사 효소는 프라이머 결합 부와 상보적 결합을 형성한 프라이머를 기초로 역전사 과정을 수행하여 3' DNA 플랩을 형성한다. 상기 역전사 과정에서 역전사의 주형은 pegRNA의 RT 주형이다. 세포 고유의 매커니즘인 5' 플랩의 제거, 3' 플랩의 라이게이션 및 DNA 미스매치 리페어 과정을 통해 3' 플랩의 정보가 게놈 DNA로 설치된다. 프라임 에디팅의 결과로, 게놈 DNA의 두 가닥 모두에 pegRNA의 RT 주형의 정보가 목적하는 위치로 전달된다. RT 주형은 목적하는 편집에 대한 주형 (즉, 편집 주형)을 포함하고, 편집 주형에 포함된 정보는, 결국, 게놈 DNA의 표적 위치로 전달된다.

이하에서는, 전술한 또는 앞으로 개발될 프라임 에디팅에서 발생 가능한 오프 타겟을 확인할 때 광범위하게 사용 또는 적용될 수 있는, 프라임 에디팅에 표적화되어 개발된, 본 출원에 의해 제공되는 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에 대하여 상세히 설명한다. 이하의 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에는 전술한 다양한 프라임 에디팅 버전의 사용되는 프라임 에디터 단백질이 사용될 수 있으며, 달리 제한되지 않는다. 나아가, 전술한 프라임 에디팅 버전에 사용된 추가적 요소 또한 본 출원의 프라임 에디팅의 오프 타겟을 예측 또는 확인하는 방법에 사용될 수 있다. Cas 단백질 및 폴리머라아제의 사용을 특징으로 하는 프라임 에디팅의 기술적 특징을 기초로 개발된 프라임 에디터 단백질, pegRNA, 및/또는 프라임 에디팅 시스템은 본 출원의 오프 타겟을 예측하는 방법에 사용될 수 있음은 관련 분야의 기술자에게 명백할 것이다.

본 출원에 의해 제공되는 오프 타겟 예측 시스템

오프 타겟 (off-target)

DNA의 편집(예를 들어, 유전자 편집 또는 게놈 편집)의 분야에서, 오프 타겟은 의도되지 않은 위치에서 발생하는 유전적 변형(genetic modification)을 지칭한다. 오프 타겟에 의해 유도되는 유전자 변형은 비특이적일 수 있다. 개발된 게놈 편집의 도구로는 전통적인 CRISPR/Cas 시스템, 베이스 에디팅 시스템, 프라임 에디팅 시스템, transcription activator-like effector nucleases (TALEN), 메가뉴클리에이즈(meganuclease), 및 zinc finger nuclease 등이 있다. 이들 게놈 편집 도구 또는 게놈 편집 시스템은 미리 결정된 서열(예를 들어, 표적 영역 내의 서열)에 결합할 수 있도록 하는 각각의 특수한 매커니즘을 통해 표적 영역 내의 편집을 수행 가능하도록 디자인된다. 예를 들어, CRISPR/Cas 유전자 편집 시스템에서는 가이드 RNA(guide RNA; gRNA)는 Cas/gRNA 복합체의, 의도된, 표적 위치로의 이동을 유도한다. 표적 위치로의 이동에는 게놈 내의 PAM 서열 또한 관여될 수 있다. 그러나, Cas/gRNA 복합체는 여전히 표적 영역 내의 서열이 아닌 의도되지 않은 위치의 서열에 결합할 가능성을 갖는다. 이와 같이, Cas/gRNA 복합체가 의도되지 않은 위치의 서열에 결합하고, 의도되지 않은 위치에서 DSB 또는 닉을 발생시키면, 의도되지 않은 유전적 변형이 발생한다. 오프 타겟 효과는 의도하지 않은 점 돌연변이, 결실, 삽입, 역전, 및 전좌 등의 의도되지 않은 유전적 변형을 유도한다. 이와 유사하게, 프라임 에디팅을 이용한 DNA 분자(예를 들어, 게놈 DNA)의 편집 과정에서도, 적어도 pegRNA의 스페이서 서열과 PAM 서열이 표적화에 관여됨에도 불구하고, 오프 타겟의 문제가 존재한다. 원하지 않는 영역에서의 게놈 편집 도구의 결합은 원하지 않는 영역 내의 타겟 서열에 대한 부분적이지만 충분한 일치(partially sufficient matching)에서 비롯된다고 알려져 있다. 오프 타겟 결합의 매커니즘은 일 공지 문헌 [Lin, Yanni, et al. "CRISPR/Cas9 systems have off-target activity with insertions or deletions between target DNA and guide RNA sequences." Nucleic acids research 42.11 (2014): 7473-7485.]을 참고할 수 있다.

오프 타겟 결합의 매커니즘은 base mismatch tolerance 및 bulge mismatch로 그룹화될 수 있다고 설명된다. 예를 들어, 오프 타겟 부위는 가이드 RNA 서열과 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10, 혹은 그 이상의 미스매치를 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 오프 타겟 부위는 pegRNA의 각 영역의 서열에 상응하는 표적 부위의 서열에서의 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 10, 혹은 그 이상의 미스매치를 포함할 수 있으나, 이에 제한되지 않는다. 즉, 프라임 에디팅에서는, 오프 타겟 부위의 미스매치가 pegRNA의 스페이서 영역과 대응되는 영역, pegRNA의 PBS, pegRNA의 DNA 합성 주형 (예를 들어, 상동성 암), 및 PAM 서열 중 하나 이상에 존재할 수 있다.

오프 타겟의 문제는 암과 같은 심각한 문제를 초래하는 중요한 코딩 영역의 붕괴를 야기할 가능성을 내포한다. 나아가, 오프 타겟의 문제는 생물학적 연구의 변수의 혼동을 유발할 수 있고, 나아가 재현할 수 없는 결과를 초래할 가능성을 내포한다. (문헌 [Eid, Ayman, and Magdy M. Mahfouz. "Genome editing: the road of CRISPR/Cas9 from bench to clinic." Experimental & Molecular Medicine 48.10 (2016): e265-e265.] 참조, 상기 문헌의 전체 내용이 본 출원에 포함됨).

전술한 바와 같이, 오프 타겟에 대한 문제는 CRISPR/Cas 유전자 편집 시스템에서 뿐만 아니라, 이를 바탕으로 개발된 베이스 에디팅 및 프라임 에디팅에도 여전히 존재한다. 본 명세서에서 오프 타겟은 온 타겟과 대응되는 개념으로 사용될 수 있으며, 의도되지 않은 위치에서의 유전적 변형을 지칭하는 것으로 사용될 수 있다.

프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성

프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성 개괄

전술한 바와 같이, 오프 타겟은 다양한 측면에서 강력한 부작용(예를 들면, 발견하기 어려운 부작용, 및/또는 비가역적인 부작용)을 야기한다. 이에 따라, DNA 분자 편집 시스템(예를 들어, 게놈 편집 시스템)의 사용에서 발생할 수 있는 오프 타겟을 확인하는 것은 치료제의 개발에 있어서, 또한 연구에 있어서 매우 중요한 사항이다. 디자인된 편집 시스템 (예를 들어, CRISPR/Cas 시스템 또는 프라임 에디팅 시스템)에서 일어나는 진정한 오프 타겟을 확인하는 것은 많은 비용과 시간을 필요로 한다. 이러한 이유로, 오프 타겟 후보를 확인할 수 있는, 즉, 오프 타겟을 예측할 수 있는 다양한 방법들이 연구 및 개발되어 왔다. 그러나, 본 출원의 출원일 이전까지 개발된, 유전자 편집 과정(예를 들어, 게놈 편집 시스템을 통한 게놈 편집 과정)에서 발생 가능한 오프 타겟을 예측하는 방법들은 전통적인 CRISPR/Cas 시스템을 대상으로 하여 개발되었거나 베이스 에디팅을 대상으로 하여 개발되었다. 프라임 에디팅을 대상으로 하여, 즉, 프라임 에디팅을 이용한 게놈 편집을 표적화하여 개발된 오프 타겟 예측 방법은 아직까지 개발되지 않은 실정이다. 프라임 에디팅은 전통적인 CRISPR/Cas 시스템과는 다른 고유의 편집 매커니즘을 보유하나, 여전히 전통적인 CRISPR/Cas 시스템을 표적으로 개발된 오프 타겟 예측 시스템을 사용하여 프라임 에디팅을 통한 DNA 편집 과정에서 발생 가능한 오프 타겟을 예측하는 실정이다 (문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.; Bae, Sangsu, Jeongbin Park, and Jin-Soo Kim. "Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases." Bioinformatics 30.10 (2014): 1473-1475.; 및 Jin, Shuai, et al. "Genome-wide specificity of prime editors in plants." Nature Biotechnology 39.10 (2021): 1292-1299.] 참조, 각각의 전체 내용이 본 명세서에 참조로 포함됨). 이러한 종래 오프 타겟 예측 시스템의 프라임 에디팅에의 적용은 많은 단점을 보인다. 이하에서, 프라임 에디팅에 적합한 오프 타겟 예측 방법의 필요성에 대하여 보다 구체적으로 설명한다.

전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집에서 오프 타겟을 예측하기 위해 사용되고 있는 오프 타겟 예측 시스템

전술한 바와 같이, CRISPR/Cas 시스템을 이용한 게놈 편집에서 off-target을 예측하기 위한 다양한 방법들이 개발되었다. 기존의 off-target 예측 및/또는 확인 방법(예를 들어, 시스템, 플랫폼 등)은 상기 방법의 MOA(mechanism of action)에 따라 세포 기반(cell based) 오프 타겟 예측 시스템, in vitro 오프 타겟 예측 시스템, 및 in silico 오프 타겟 예측 시스템의 3개의 카테고리로 분류될 수 있으며, 각각의 카테고리에 포함된 예측 시스템의 예시는 다음과 같다:

- 세포 기반 (Cell based) 오프 타겟 예측 시스템: GUIDE-seq, GUIDE-tag, BLISS, BLESS, DISCOVER-seq, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, CReVIS-seq, ITR-seq, TAG-seq, 및 INDUCE-seq 등.

- in vitro 오프 타겟 예측 시스템: Digenome-seq, DIG-seq, CHANGE-seq, CIRCLE-seq, 및 SITE-seq 등.

- in silico 오프 타겟 예측 시스템: Cas-OFFinder, CRISPOR, 및 CHOPCHOP 등.

전술한 각각의 오프 타겟 예측 시스템들은 각각 상이한 장단점을 가지며, 일반적으로 2개 내지 3개의 시스템이 조합되어 CRISPR에 기초한 게놈 편집 시의 전 게놈 오프 타겟 활성을 예측하기 위해 사용되고 있다.

CRISPR/Cas 기반 오프 타겟 예측 시스템의 베이스 에디팅에의 적용

전술한 시스템들은 Cas 단백질을 이용하여 개발된 Base Editor 시스템, 예를 들어, 시티딘 베이스 에디터 (cytidine base editor) 및 아데닌 베이스 에디터 (adenine base editor)의 오프 타겟 활성(off-targets activity)의 예측에도 사용될 수 있을 것으로 예상되었다. 그러나 전술한 시스템들은 CRISPR/Cas 시스템을 이용한 게놈 편집에서 발생할 수 있는 오프 타겟을 예측하기 위한 목적을 갖고 개발된 것으로, 시스템의 작동 매커니즘이 상이한 베이스 에디팅(base editing)에의 적용은 적합하지 않았다. 베이스 에디팅에 보다 적합한 오프 타겟 예측 시스템이 요구되었고, 이에 따라 One-seq (cell-based), CBE Digenome-seq (in vitro), 및 ABE Digenome-seq (in vitro) 등의 베이스 에디팅에 보다 적합하고 정교한 오프 타겟 활성 예측 시스템 또는 방법 들이 개발되었다.

프라임 에디팅에 사용되었던 종래의 오프 타겟 예측 방법

프라임 에디팅, 예를 들어 PE2(프라임 에디팅 버전 2)를 이용한 게놈 편집 매커니즘의 첫 단계는 스페이서 비-결합 가닥에 발생되는 Cas9 유도 닉킹(nicking)이기 때문에, PE2의 오프 타겟 활성은 Cas9 또는 Cas9 닉카제 (Cas9 nickase, nCas9)와 유사할 것으로 예측되었다. 이에 따라, GUIDE-seq, nDignome-seq 및 CAS-OFFinder(in silico) 등과 같은 CRISPR/Cas 게놈 편집의 오프 타겟을 예측 및/또는 확인하는 시스템을 사용하여 프라임 에디팅의 off-target 활성을 예측하려는 시도가 있었다. 그러나, 본 명세서에 개시된 실험에 따르면 프라임 에디팅의 오프 타겟의 예측을 위해 기존의 CRISPR/Cas 게놈 편집의 오프 타겟을 예측 및/또는 확인하기 위한 방법을 이용하는 것은 적합하지 않은 것으로 확인된다.

프라임 에디팅에 적합한 오프 타겟 예측 시스템의 요구

프라임 에디터 단백질 및 pegRNA를 이용한 게놈 편집은 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집과는 다른 매커니즘을 바탕으로 수행된다. 또한, 전통적인 CRISPR/Cas 시스템과는 달리, 프라임 에디팅은 가이드 서열 외에도 다수의 요소 (예를 들어, 프라이머 결합 부, 역전사 주형, 리버스 트랜스크립테이즈 등)가 관여되며 다수의 효소(플랩 엔도뉴클리에이즈, 엑소뉴클리에이즈, 라이게이즈 등)에 의한 과정을 통해 진행된다. 프라임 에디팅은 전통적인 CRISPR/Cas 시스템을 바탕으로 개발되었으나, 프라임 에디팅의 게놈 편집 매커니즘은 전통적인 CRISPR/Cas 게놈 편집 시스템의 매커니즘과 상이한 측면이 다수 존재한다. 따라서, 전통적인 CRISPR/Cas 시스템을 이용한 게놈 편집을 표적하여 개발된 기존의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟을 예측하기에는 적합하지 않다. 나아가, 전술한 바와 같이 다수의 요소가 관여되어 다수의 과정을 통해 수행되기 때문에, 이러한 복잡한 세포 내 과정을 밀접하게 모방할 수 있는 in vitro 기반 오프 타겟 분석 방법을 개발하기 어렵다. 이러한 이유로, 기존의 오프 타겟 예측 방법은 프라임 에디팅에 적용 불가능하거나, 부정확한 결과를 야기할 것으로 추측된다.

실제로, 본 출원의 발명자들은, 실험을 통해, 프라임 에디팅의 오프 타겟에 pegRNA의 스페이서 영역의 미스매치 뿐만 아니라, 프라이머 결합 부, 상동성 암, 및/또는 편집 주형 또한 영향을 미치는 것을 확인하였다 (본 출원의 실험예의 섹션 "검증된 오프 타겟 사이트에서의 에디팅 패턴" 및 "영역 별 미스매치 분석" 참고).

아직까지 프라임 에디팅의 매커니즘을 고려하여 프라임 에디팅을 표적하여 개발된 오프 타겟 활성을 예측하는 방법은 보고된 바 없다. 즉, 아직까지 프라임 에디팅의 오프 타겟 후보를 확인하기 위한 신뢰할 만한 오프 타겟 예측 방법이 존재하지 않는 실정이다.

본 출원에 의해 제공되는 오프 타겟 예측 시스템 개괄

본 출원은 신규한, 프라임 에디팅에 적합한, 오프 타겟 예측 방법을 제공한다. 본 출원의 발명자들은 기존의 CRISPR/Cas 시스템을 표적으로 개발된 오프 타겟 예측 시스템이 프라임 에디팅의 오프 타겟을 확인하기 위해 적용되는 경우, 부정확한 예측 (많은 위양성 및/또는 위음성)을 유발함을 확인하였다. 이에, 본 출원의 발명자들은 신규한 프라임 에디팅의 오프 타겟을 예측하는 방법 또는 시스템을 개발하였다. 본 출원의 발명자들은, 원하는 서열을 원하는 위치에 삽입(설치 또는 작성)할 수 있는 프라임 에디팅의 능력 혹은 효과에 착안하여, 태그 삽입을 위한 태그 주형(tag template)을 포함하는 신규한 pegRNA(prime editing guide RNA)를 이용하여 프라임 에디팅에 적합한 오프 타겟을 예측하는 신규한 시스템 또는 방법을 개발하였다. 나아가, 본 출원의 발명자들은 새로이 개발된 프라임 에디팅의 오프 타겟을 예측하는 시스템의 예측 신뢰도 및/또는 정확도가 기존의 CRISPR/Cas 게놈 편집 시스템을 표적으로 개발된 기존의 오프 타겟 예측 시스템을 사용하는 경우보다 높은 것을 확인하였다.

본 출원에 의해 제공되는, 프라임 에디팅을 표적으로 개발된 (즉, 프라임 에디팅에 적합하게 개발된) 오프 타겟 예측 시스템은 TAPE-seq (TAgmentation of Prime Editor sequencing)으로 지칭될 수 있다. 나아가, TAPE-seq에 사용되는, 태그를 게놈 내로 설치하기 위한 태그 주형을 포함하는 신규한 pegRNA는 태그맨테이션 pegRNA (tagmentation pegRNA; tpegRNA)로 지칭될 수 있다.

본 출원은 프라임 에디팅 시스템을 이용한 DNA 분자의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 또는 시스템을 제공한다. 본 출원은 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법을 제공한다. 오프 타겟을 예측하는 방법은, 예를 들어, 오프 타겟 후보를 확인하는 방법, 오프 타겟에 대한 정보를 확인하는 방법, 및 후보 오프 타겟 위치를 확인하는 방법 등과 같이 지칭될 수 있으며, DNA 분자(예를 들어, 게놈)의 편집 과정에서 발생할 수 있는 오프 타겟을 예측하거나 오프 타겟에 대한 정보를 확인하는 방법 또는 시스템에 대한 서술이라면 제한 없이 사용될 수 있다. 본 명세서에서 사용되는 용어 "오프 타겟"은 오프 타겟 부위(site)에 대한 개념을 포괄한다. 예를 들어, 오프 타겟 부위 또는 위치는 오프 타겟으로 서술될 수 있다. 본 명세서에서, 오프 타겟의 예측은 오프 타겟 후보를 확인함을 의미할 수 있다. 본 명세서에서, 오프 타겟의 예측은 오프 타겟 후보의 위치를 확인함을 의미할 수 있다. 본 명세서에서, '오프 타겟(off-target)', '오프 타겟 예측(off-target prediction)', 및 '오프 타겟 후보(off-target candidate)'에 대한 서술은 제한되어 해석되어서는 아니될 것이다. 즉, 프라임 에디팅의 오프 타겟을 예측하는 방법은 다음과 같이 서술될 수 있으나, 이에 제한되지 않으며, 프라임 에디팅에서 발생할 수 있는 오프 타겟의 예측 또는 확인과 관련된 기재라면 교환적으로 사용 가능하다: 프라임 에디팅에서 발생할 수 있는 오프 타겟의 예측; 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟 후보의 확인(또는 스크리닝); 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟의 확인 (또는 스크리닝); 프라임 에디팅의 (또는 프라임 에디팅에서 발생 가능한) 오프 타겟에 대한 정보의 확인; 오프 타겟이 발생 가능한 위치의 확인; 및 오프 타겟 위치의 확인 등.

오프 타겟 예측과 관련하여, 위양성(false positive) 및/또는 위음성(false negative)의 용어가 사용될 수 있다. 진정한 오프 타겟이 아닌 부위를 오프 타겟 후보로 탐지하는 것은 위양성 결과로 표현될 수 있다. 높은 위양성율은 낮은 검증율 (validation rate)와 연관될 수 있다. 여기서, 진정한 오프 타겟(bona-fide off target)이란, 검증된 오프 타겟(validated off-target)으로, 단순히 예측 시스템에 의해 찾아진 오프 타겟 후보가 아닌, 실제로 발생하는 오프 타겟을 지칭하는 것으로 사용된다. 예를 들어, 프라임 에디팅 시스템을 이용하여 세포의 게놈을 편집하는 경우 발생하는 오프 타겟은 진정한 오프 타겟으로 지칭될 수 있다. 이와 달리, 오프 타겟 예측 시스템을 사용하여 찾아진 오프 타겟과 관련된 부위는 "오프 타겟 후보" 또는 "예측된 오프 타겟" 등과 같이 지칭됨을 통해 진정한 오프 타겟과 구분될 수 있다. 오프 타겟 예측 시스템을 통해 발견된 오프 타겟 후보는 진정한 오프 타겟 일 수도 있고, 아닐 수도 있다. 예를 들어, 각 오프 타겟 후보를 검증함을 통해 진정한 오프 타겟을 찾을 수 있다. 오프 타겟 예측 시스템이 적은 위양성율을 보이는 것은 중요하다. 오프 타겟 예측 시스템으로부터 너무 많은 오프 타겟 후보가 도출되는 경우 진정한 오프 타겟을 찾기 힘들기 때문이다.

다른 측면에서, 오프 타겟 예측 시스템을 통해 발견된 오프 타겟 후보의 집단은 모든 진정한 오프 타겟을 포함하지 않을 수 있다. 이러한 경우는 미스율(miss rate)와 연관된다. 예를 들어, 진정한 오프 타겟 부위를 오프 타겟 후보로 탐지하지 못하는 경우와 같은 결과는 미스율을 높인다.

전술한 바와 같이, 본 출원의 프라임 에디팅의 DNA 분자 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 시스템은, tpegRNA를 이용한 프라임 에디팅 매커니즘 기반 태그맨테이션을 특징으로 한다. 이하에서, 본 출원의 오프 타겟 예측을 위한 도구 (예를 들어, 프라임 에디터 단백질 및 tpegRNA)에 대하여 상세히 설명한다.

프라임 에디팅의 오프 타겟 예측을 위한 도구

프라임 에디팅의 오프 타겟 예측을 위한 도구 개괄 (TAPE-seq에 사용되는 요소)

본 출원의 프라임 에디팅의 오프 타겟을 예측하는 방법은 적어도 다음의 2개의 요소를 요구한다:

프라임 에디터 단백질; 및

태그 주형을 포함하는 tpegRNA (tagmentation pegRNA).

본 출원의 프라임 에디팅의 오프 타겟 예측을 위한 도구는 적어도 프라임 에디터 단백질 및 tpegRNA를 포함할 수 있다.

본 출원의 오프 타겟을 예측하는 방법은 TAPE-seq으로 지칭될 수 있으며, TAPE-seq은 프라임 에디팅의 매커니즘을 기반으로 디자인되고 프라임 에디팅을 표적하여 개발된 오프 타겟을 예측하는 방법에 관한 것으로, 프라임 에디팅의 매커니즘을 이용한다. 이에 따라, 본 출원에 의해 제공되는 오프 타겟을 예측하는 방법은 프라임 에디팅에서 사용되는 프라임 에디터 단백질의 사용을 포함한다. 즉, 전술한 다양한 프라임 에디터 단백질은 본 출원의 오프 타겟 예측 시스템에 사용될 수 있다. 본 출원의 프라임 에디팅의 오프 타겟을 예측하는 시스템에 사용되는 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 다만, 이러한 기재가 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템 (예를 들어, TAPE-seq을 통한 오프 타겟 예측의 대상이 되는 특정한 프라임 시스템)의 프라임 에디터 단백질과 동일한 종류의 프라임 에디터 단백질의 사용을 요구하는 것은 아니다. 본 출원의 오프 타겟 예측 시스템에서는 오프 타겟 예측의 대상이 되는 프라임 에디팅 시스템의 프라임 에디터 단백질과 같은 종류의 프라임 에디터 단백질이 사용되거나 또는 다른 종류의 프라임 에디터 단백질이 사용될 수 있다.

이와 유사하게, 본 출원의 오프 타겟 예측 시스템에서, 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템과 동일한 종류의 pegRNA 사용이 요구되는 것은 아니다. 본 출원의 오프 타겟 예측 시스템에서는 오프 타겟 예측의 대상이 되는 특정한 프라임 에디팅 시스템에서 사용되는 pegRNA와 동일한 종류의 pegRNA 기반 tpegRNA가 사용되거나 또는 일반적인 pegRNA와는 다른 종류의 pegRNA(예를 들어, epegRNA) 기반 tpegRNA가 사용될 수 있다.

예를 들어, 오프 타겟 예측 시스템을 통해 오프 타겟에 대한 정보를 확인하고자 하는 특정한 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템이더라도, 상기 제1 프라임 에디팅 시스템의 오프 타겟에 대한 정보를 확인하기 위해 수행되는 TAPE-seq에서는 뉴클레이즈 활성을 갖는 프라임 에디터 단백질(예를 들어, PE2-뉴클레아제, PEmax-뉴클레아제)이 사용될 수 있다. 다른 예로, 오프 타겟에 대한 정보를 확인하고자 하는 특정한 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템인 경우에, TAPE-seq에서는 PE2 프라임 에디터 단백질이 사용될 수 있다. 이와 유사하게, 오프 타겟 예측의 대상이 되는 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템이더라도, TAPE-seq에서는 etpegRNA (engineered tpegRNA)가 사용될 수 있다. 다른 예로, 오프 타겟 예측의 대상이 되는 제1 프라임 에디팅 시스템이 PE2 프라임 에디팅 시스템인 경우에, TAPE-seq에서는 etpegRNA (engineered tpegRNA)가 아닌 tpegRNA (tagmentation pegRNA)가 사용될 수 있다.

프라임 에디터 단백질

본 출원의 프라임 에디팅의 오프 타겟 예측 시스템은 프라임 에디터 단백질의 사용을 포함한다. 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)를 포함한다. 프라임 에디터 단백질은 본 명세서의 섹션 "프라임 에디팅 시스템"에서 상세히 설명되었다. 본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 프라임 에디터 단백질의 예시는 전술한 프라임 에디터 단백질을 포괄하며, 이에 제한되지 않고, 본 출원의 출원일 이후에 프라임 에디팅의 목적으로 개발되는 (또는 프라임 에디팅의 발명적 사상을 계승하는 발명) 프라임 에디팅을 위한 융합단백질 또는 복합체 또한 본 출원의 오프 타겟 예측 시스템에 사용될 수 있는 것으로 통상의 기술자에게 인식될 것이다.

마찬가지로, 본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 tpegRNA의 예시는 전술한 pegRNA를 바탕으로 개발된 다양한 tpegRNA의 양태들을 포괄하며, 이에 제한되지 않고, 본 출원의 출원일 이후에 프라임 에디팅의 목적으로 개발되는 (또는 프라임 에디팅의 발명적 사상을 계승하는 발명) 프라임 에디팅을 위한 pegRNA를 기초로 하는 tpegRNA 또한 본 출원의 오프 타겟 예측 시스템에 사용될 수 있는 것으로 통상의 기술자에게 인식될 것이다.

일 실시양태에서, 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템에 사용되는 프라임 에디터 단백질은 Cas 단백질 및 폴리머라아제를 포함할 수 있다. 일 실시양태에서, Cas 단백질은 Cas12a, Cas12b1(C2c1), Cas12c(C2c3), Cas12e (CasX), Cas12d (CasY), Cas12g, Cas12h, Cas12i, Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas6, Cas7, Cas8, Cas9 (또한 Csn1 및 Csx12로도 공지됨), Cas10, Csy1, Csy2, Csy3, Cse1, Cse2, Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, Cas13a(C2c2), Cas13b, Cas13c, Cas13d, Cas14, xCas9, 원형 순열 Cas9, 또는 아르고노트 (Ago) 도메인, 또는 이의 단편, 또는 이의 상동체, 또는 이의 변이체일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서 Cas 단백질은 닉카제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 nCas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 닉카제 (nickase)일 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 갖는 Cas9의 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 또는 이의 변이체일 수 있다. 예를 들어, SpCas9 변이체는 야생형 SpCas9의 D10, R221, L244, N394, H840, K1211, 및 L1245 중 선택되는 어느 하나 이상의 아미노산 잔기가 다른 아미노산 잔기로 치환된 것일 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 H840A 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 R221K 및 N394K의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9의 아미노산 서열 (서열번호 28)에서 R221K 및 N394K의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, Cas 단백질은 서열번호 29, 서열번호 30, 또는 서열번호 31의 아미노산 서열을 포함할 수 있다.

특정한 실시양태에서, 폴리머라아제는 리버스 트랜스크립타아제(reverse transcriptase)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 M-MLV 리버스 트랜스크립타아제일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 M-MLV 리버스 트랜스크립타아제의 변이체일 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열(서열번호 26)에서 D200N, T306K, W313F, T330P, 및 L603W 중 선택되는 어느 하나 이상의 아미노산 변이를 포함하는 아미노산 서열을 포함할 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열을 기준으로, D200N, T306K, W313F, T330P, 및 L603W의 아미노산 변이를 포함할 수 있다. 특정한 실시양태에서, 야생형 M-MLV 리버스 트랜스크립타아제의 변이체는, 서열번호 26의 야생형 M-MLV 리버스 트랜스크립타아제의 아미노산 서열을 기준으로, D200N, T306K, W313F, 및 T330P 의 아미노산 변이를 포함할 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 서열번호 26, 또는 서열번호 27의 아미노산 서열을 포함할 수 있다.

전술한 바와 같이, 프라임 에디터 단백질은 하나 이상의 링커 및/또는 하나 이상의 NLS와 같은 추가적인 요소를 더 포함할 수 있다.

본 출원의 오프 타겟 예측 시스템에서 사용될 수 있는 프라임 에디터 단백질의 예시는 전술한 프라임 에디팅 버전(예를 들어, PE1 내지 PE5, PEmax, 뉴클레이즈 기반 프라임 에디팅, PEmax-nuclease 등)의 프라임 에디터 단백질을 포괄한다. 일부 실시양태에서, 프라임 에디터 단백질은 PE2 프라임 에디터 단백질, PE2-뉴클레아제, PEmax 프라임 에디터 단백질, PEmax-뉴클레아제일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax-뉴클레아제일 수 있다.

tpegRNA (tagmentation pegRNA)

tpegRNA 개괄

tpegRNA (tagmentation pegRNA)는 pegRNA로부터 개발된, DNA 분자에 태그 서열을 삽입하기 위해 디자인된, 본 출원에 의해 제공되는 오프 타겟 예측 방법 (즉, 프라임 에디팅의 오프 타겟 예측 방법)에 사용되는 가이드 핵산이다. tpegRNA는 pegRNA로부터 개발된 것으로, pegRNA의 일종으로 지칭될 수 있다. 본 출원에 의해 제공되는 tpegRNA는 태그 주형을 포함하고, 태그 주형에 포함된 정보(예를 들어, 태그 서열)를 프라임 에디팅의 매커니즘에 기초하여 DNA 분자 (예를 들어, 게놈) 내로 전달하기 위한 목적으로 사용될 수 있다.

일부 실시양태에서, tpegRNA는 단일 가닥 핵산 분자 (예를 들어, 단일 가닥 RNA)일 수 있다. 일부 실시양태에서, tpegRNA는 두개 이상의 가닥으로 이루어진 핵산 복합체 (예를 들어, 제1 가닥 RNA 및 제2 가닥 RNA의 복합체)일 수 있다. tpegRNA가 두개의 가닥을 포함하는 형태로 구성된 경우, 상기 두개의 가닥의 일부 서열은 gRNA 코어 부에서 상보적인 결합을 형성하여 두개의 가닥으로 이루어진 tpegRNA를 형성할 수 있다. 특정한 실시양태에서, tpegRNA는 단일 가닥 RNA 분자일 수 있다.

본 출원의 일부 실시양태는 tpegRNA를 제공한다. 이하에서, tpegRNA에 포함되는 요소들에 대하여 개시한다.

tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함한다. 전술한 바와 같이, 프라임 에디팅에 사용되는 pegRNA는 전통적인 gRNA의 3' 또는 5' 말단에 연장 암이 추가된 형태를 갖는다. 일반적으로, pegRNA는 전통적인 gRNA의 3' 말단에 연장 암이 추가된 형태를 갖는다. 이와 유사하게, tpegRNA는 전통적인 gRNA의 3' 말단 또는 5' 말단에 연장 암이 추가된 형태를 가지며, 상기 연장 암은 연장 영역을 포함할 수 있다.

일부 실시양태에서, tpegRNA는 전통적인 gRNA의 3' 말단에 연장 암이 추가된 형태를 갖는다. 일부 실시양태에서, 스페이서, gRNA 코어, 및 연장 영역은, tpegRNA의 5'에서 3' 방향으로, tpegRNA 상에 위치할 수 있다. 일부 실시양태에서, tpegRNA는 5' 말단과 스페이서 사이, 스페이서와 gRNA 코어의 사이, gRNA 코어와 연장 영역 사이, 및 연장 영역과 3' 말단 사이 중에 선택되는 어느 하나 이상의 위치에 독립적으로 선택된 추가의 기능적 요소(예를 들어, 링커, 전사 종결 요소, RNA 보호 모티프 등)를 하나 이상 더 포함할 수 있으나, 이에 제한되지 않는다. 즉, tpegRNA에는 전술한 각 요소 사이에 각각 독립적으로 선택된 추가의 기능적 요소가 존재할 수 있거나, 추가의 기능적 요소가 존재하지 않을 수 있으며, 달리 제한되지 않는다.

일부 실시양태에서, tpegRNA의 연장 영역은 태그 주형을 포함한다. 일부 실시양태에서, 태그 주형은 DNA 합성 주형(예를 들어, RT 주형)과 구분되어 설명될 수 있다. 예를 들어, tpegRNA의 연장 영역은 프라이머 결합 부 (primer binding site; PBS), 태그 주형, 및 DNA 합성 주형을 포함하는 것으로 설명될 수 있다. 여기서, 태그 주형과 DNA 합성 주형은 분리되어 설명되며, 이는 태그 주형을 기존의 pegRNA의 DNA 합성 주형과 구분하여 설명하기 위함이다. 다른 측면에서, 태그 주형은 프라임 에디터 단백질의 리버스 트랜스크립타아제에 의해 편집 DNA 분자 내로 코딩되므로, DNA 합성 주형의 요소 중 하나로 설명될 수 있다. 예를 들어, tpegRNA의 연장 영역은 프라이머 결합 부 및 DNA 합성 주형(여기서, DNA 합성 주형은 태그 주형을 포함함)을 포함하는 것으로 설명될 수 있다. 이후의 기재 에서는, 태그 주형을 DNA 합성 주형과 구분하여 설명한다. 달리 설명되지 않더라도, tpegRNA는 태그 주형을 포함하는 것으로 인식될 것이다.

나아가, tpegRNA의 연장 영역은 PBS, 태그 주형, 및 DNA 합성 주형에 더하여 독립적으로 선택된 하나 이상의 추가의 기능적 영역을 더 포함할 수 있다.

예를 들어, tpegRNA의 연장 영역은 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함할 수 있고, tpegRNA의 연장 영역이 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는 경우 tpegRNA는 etpegRNA(engineered tpegRNA)로 지칭될 수 있다. 예를 들어, RNA 보호 모티프는 서열 CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 41)를 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프에 더하여 RNA 보호 모티프를 연결하기 위한 링커를 더 포함할 수 있다. 이때, 상기 RNA 보호 모티프를 연결하기 위한 링커는 RNA 보호 모티프와 PBS를 연결하는 역할을 할 수 있다. 본 명세서에서 용어 tpegRNA는 etpegRNA의 양태를 포함하는 개념으로 사용되며, 달리 명시되지 않는 한, tpegRNA에 대한 기재는 etpegRNA와 관련된 내용을 포함하는 것으로 해석될 것이다. etpegRNA의 사용에 한정되는 특정 실시양태는 etpegRNA에 관한 내용과 함께 기술될 것이다.

일부 실시양태에서, 3' 엔지니어링 영역은 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값에 의해 설정된 범위 내의 길이를 가질 수 있으나 달리 제한되지 않는다. 특정한 실시양태에서, 3' 엔지니어링 영역은 10 내지 70nt의 길이를 가질 수 있다. 특정한 실시양태에서, 3' 엔지니어링 영역은 20 내지 60nt의 길이를 가질 수 있다.

일부 실시양태에서, tpegRNA는 약 30 nt, 40 nt, 50 nt, 60 nt, 70 nt, 80 nt, 90 nt, 100 nt, 110 nt, 120 nt, 130 nt, 140 nt, 150 nt, 160 nt, 170 nt, 180 nt, 190 nt, 200 nt, 210 nt, 220 nt, 230 nt, 240 nt, 250 nt, 260 nt, 270 nt, 280 nt, 290 nt, 300 nt, 310 nt, 320 nt, 330 nt, 340 nt, 350 nt, 360 nt, 370 nt, 380 nt, 390 nt, 400 nt, 410 nt, 420 nt, 430 nt, 440 nt, 450 nt, 460 nt, 470 nt, 480 nt, 490 nt, 500 nt, 520nt, 540nt, 560nt, 580nt, 600nt 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값에 의해 설정된 범위 내의 길이를 가질 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, tpegRNA는 100 내지 300nt 또는 100 내지 400nt의 길이를 가질 수 있다.

일반적인 pegRNA (태그 주형을 포함하지 않는 pegRNA)와는 달리, 본 출원의 tpegRNA는 태그 서열을 DNA 분자에 삽입하기 위한 태그 주형을 포함하는 것에 주목한다. 관련 분야의 기술자의 이해를 돕기 위해 전통적인 gRNA, pegRNA, 및 tpegRNA에 대한 예시를 도 01에 개시한다. 도 01에 개시된 gRNA, pegRNA, 및 tpegRNA의 예시는 각 가이드 RNA에 포함되는 필수적 요소를 기초로 나타내어진 것이며, 추가의 요소가 각 요소 사이 또는 말단에 더 포함될 수 있음은 관련 분야의 기술자에게 명백할 것이다.

이하에서, tpegRNA의 각 요소에 대하여 상세히 설명한다.

전통적인 gRNA 부분 - 스페이서

전술한 바와 같이, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 여기서, 스페이서 및 gRNA 코어는 전통적인 gRNA로부터 유래된 요소이다. 스페이서 및 gRNA 코어는 본 명세서의 섹션 "CRISPR/Cas 시스템" 및 "프라임 에디팅 시스템"에서 충분히 설명된다. 스페이서는 스페이서 서열을 포함한다. 스페이서 서열은 표적 서열에 따라 자유롭게 디자인될 수 있다. 이때, PAM 서열의 위치가 고려될 수 있다. 스페이서 서열은 게놈 DNA의 스페이서 결합 가닥 상의 표적 서열에 상보적인 서열로 디자인될 수 있다. 스페이서 서열은 게놈 DNA의 스페이서 비결합 가닥 상의 표적 서열과 동일한 (또는 실질적으로 동일한, 또는 상응하는) 서열로 디자인될 수 있다. 스페이서 서열은 RNA 서열, DNA 서열 또는 RNA/DNA 하이브리드 서열일 수 있다. 일반적으로, 스페이서 서열은 RNA 서열이다. 스페이서 서열은 전통적인 gRNA에서와 유사하게, Cas 단백질 (프라임 에디터에 포함된 Cas 단백질)을 표적 부위로 유도하는데 관여한다. 즉, 스페이서 서열과 표적 서열이 상보적 결합을 형성하고, 프라임 에티더 단백질/tpegRNA 복합체는 표적 영역에 위치하게 되며, 프라임 에디터 단백질은 표적 부위에 닉 또는 DSB를 발생시킨다.

일부 실시양태에서, 스페이서 서열은 약 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt 또는 그 초과의 길이를 갖거나, 전술한 값 중 선택되는 두 값의 범위 내의 길이를 가질 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 스페이서 서열은 10 내지 35nt의 길이를 가질 수 있다. 특정한 실시양태에서, 스페이서 서열은 13 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 스페이서 서열은 15 내지 25nt의 길이를 가질 수 있다.

전통적인 gRNA 부분 - gRNA 코어

전술한 바와 같이, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 여기서, 스페이서 및 gRNA 코어는 전통적인 gRNA로부터 유래된 요소이다. gRNA 코어는 Cas 단백질과 상호작용하는 부분으로, Cas 단백질과 결합하여 복합체를 이룰 수 있도록 하는 부분이다. gRNA 코어는 스캐폴드 영역으로 지칭될 수 있다. gRNA 코어 또는 스캐폴드는 사용되는 Cas 단백질의 종류에 따라 달리 디자인될 수 있다. 예를 들어, Cas 단백질의 유래 미생물의 종류 및 CRISPR 시스템의 종류에 따라 다를 수 있다.

일 실시양태에서, gRNA 코어는 스캐폴드 서열을 포함할 수 있다. 스캐폴드 서열은 예를 들어, RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. gRNA 코어의 일부 서열은 gRNA 코어의 다른 일부 서열과 상호작용하여 스템/루프 또는 헤어핀 등의 구조를 형성할 수 있다.

일부 실시양태에서, 스캐폴드 서열의 길이는 약 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 55nt, 60nt, 65nt, 70nt, 75nt, 80nt, 85nt, 90nt, 95nt, 100nt, 110nt, 120nt, 130nt, 140nt, 150nt, 160nt, 170nt, 180nt, 190nt, 200nt, 210nt, 220nt, 230nt, 240nt, 250nt, 260nt, 270nt, 280nt, 290nt, 300nt, 또는 그 초과이거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내일 수 있다. 특정한 실시양태에서, 스캐폴드 서열은 30 내지 200nt의 길이일 수 있으나, 달리 제한되지 않는다. 특정한 실시양태에서, 스캐폴드 서열은 50 내지 150nt의 길이일 수 있다. 특정한 실시양태에서, 스캐폴드 서열은 60 내지 100nt의 길이일 수 있다.

tpegRNA의 연장 영역 개괄

전술한 바와 같이, tpegRNA는 연장 영역(또는 연장 암)을 포함할 수 있다. tpegRNA의 연장 영역은 태그 주형을 포함하는 것을 특징으로 한다. tpegRNA의 연장 영역은 전통적인 gRNA의 3' 말단에 위치할 수 있거나, 5' 말단에 위치할 수 있다. 예를 들어, tpegRNA는 5'에서 3' 방향으로 "[전통적인 gRNA 부]-[연장 영역]" 또는 "[연장 영역]-[전통적인 gRNA 부]"의 구조를 가질 수 있다. 상기 [전통적인 gRNA 부]는 전술한 스페이서 및 스캐폴드(gRNA 코어)를 포함할 수 있다. 바람직하게는, 연장 영역은 전통적인 gRNA 부의 3' 말단에 위치할 수 있다. 예를 들어, tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함할 수 있다. 일부 실시양태에서, 스페이서, gRNA 코어, 및 연장 영역은 5'에서 3' 방향으로 tpegRNA 상에 위치할 수 있다. 일부 실시양태에서, 연장 영역, 스페이서, gRNA 코어는 5'에서 3' 방향으로 tpegRNA 상에 위치할 수 있다.

일부 실시양태에서, tpegRNA의 연장 영역은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 바람직하게는 연장 영역은 RNA 서열을 포함할 수 있으나, 이에 제한되지 않는다.

tpegRNA의 연장 영역은 태그 주형을 포함하는 것을 특징으로 한다. 즉, 연장 영역은 프라이머 결합 부 (PBS), 태그 주형, 및 DNA 합성 주형 (예를 들어, RT 주형)을 포함한다. 연장 영역은 전술한 요소들 사이에 또는 말단에 하나 이상의 독립적으로 선택된 추가의 요소 (예를 들어, 링커 또는 RNA 보호 모티프 등)을 더 포함할 수 있다.

추가적으로 포함될 수 있는 요소

일부 실시양태에서, tpegRNA는 연장 영역, gRNA 코어, 및 스페이서에 더하여 하나 이상의, 독립적으로 선택된 추가의 요소를 포함할 수 있다. 추가의 요소는 예를 들어, 링커, 폴리 U 테일, 폴리 A 테일, 및 RNA 보호 모티프 중 어느 하나일 수 있으나 달리 제한되지 않는다. 예를 들어, tpegRNA는 3' 말단에 U 풍부 (U rich), A 풍부 (A rich), 또는 AU 풍부 (rich) 서열을 포함할 수 있다. 특정한 실시양태에서, tpegRNA는 3' 말단에 (U)n 의 서열을 포함할 수 있고, 이때 n은 3 내지 20의 정수일 수 있다. 특정한 실시양태에서, tpegRNA는 3' 말단에 (U)₇ 의 서열을 포함할 수 있다.

tpegRNA의 연장 영역 (1)

tpegRNA의 연장 영역 (1) 개괄

전술한 바와 같이, tpegRNA는 연장 영역을 포함한다. 연장 영역은 태그 주형, 그리고 pegRNA에서 상세히 설명된 프라이머 결합 부를 포함할 수 있다.

일부 실시양태에서, tpegRNA의 연장 영역은 DNA 합성 주형을 포함하는 제1 영역, 태그 주형을 포함하는 제2 영역, 프라이머 결합 부를 포함하는 제3 영역을 포함하는 것으로 설명될 수 있다. 이때 제1 영역의 전부 또는 일부는 DNA 합성 주형일 수 있다. 이때 제2 영역의 전부 또는 일부는 태그 주형일 수 있다. 이때 제3 영역의 전부 또는 일부는 프라이머 결합 부일 수 있다. 이하에서, 연장 영역에 포함된 요소들에 대하여 상세히 설명한다.

태그 주형

tpegRNA의 연장 영역은 태그 주형을 포함할 수 있다. 태그 주형은 폴리머라아제, 예를 들어 리버스 트랜스크립타아제에 의해 합성된 단일 가닥 DNA 플랩(예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 태그 서열과 상보성을 갖는 연장 영역의 부분을 지칭한다. 태그 주형은 DNA 플랩 (예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 태그 서열과 상보성을 가질 수 있다. 본 출원의 오프 타겟 예측 방법은 DNA 분자에 설치되는 태그 서열 및/또는 태그 서열에 상보적인 서열을 포함하는 태그에 대한 정보(예를 들어, 태그 서열 또는 태그 서열과 상보적인 서열의 존재, 태그 서열이 삽입된 염색체, 및/또는 태그 서열이 삽입된 위치 등에 대한 정보)를 확인하여, 프라임 에디팅의 오프 타겟 예측의 목적을 달성할 수 있다. tpegRNA의 태그 주형에 대응되는 태그 서열에 대한 예시는 본 명세서에 그 전체의 내용이 참조로 포함되는 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.]에서 설명될 수 있다.

tpegRNA의 태그 주형 및 DNA에 삽입되는 태그 서열은 달리 제한되지 않고, tpegRNA의 사용 목적에 따라 적절히 선택될 수 있다. 예를 들어, 태그 주형의 서열은 AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 42), GUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 43), UAUGACAACUCAAUUAAAC (서열번호 44), AUUAACAUAUGAC (서열번호 45), GACAACUCA (서열번호 46), 또는 CUCAAUUA (서열번호 47)의 서열을 포함할 수 있다. 예를 들어, 태그 서열은 GTTTAATTGAGTTGTCATATGTTAATAACGGTAT (서열번호 48), GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 49), 또는 GTTTAATTGAGTTGTCATA (서열번호 50)의 서열을 포함할 수 있다.

일부 실시양태에서, 태그 주형은 RNA 서열, DNA 서열, 또는 RNA/DNA 하이브리드 서열일 수 있다. 바람직하게는, 태그 주형은 RNA 서열일 수 있다.

일부 실시양태에서, 태그 주형은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 태그 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정 실시양태에서, 태그 주형은 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 10 내지 70nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 10 내지 50nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 15 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 25 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 30 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 태그 주형은 약 19, 24, 29, 또는 34nt의 길이를 가질 수 있다.

태그 주형의 길이는, 설치될 태그 서열을 통해 프라임 에디팅의 오프 타겟을 분석하고자 하는 본 출원에 개시된 발명의 목적에 따라 적절히 디자인될 수 있다. 태그 주형의 길이가 너무 짧은 경우, DNA 분자에 삽입된 태그 서열에 대한 정보를 얻기 어려울 수 있다. 태그 주형의 길이가 너무 긴 경우, DNA 분자로의 태그 서열이 설치될 확률이 적어지게 될 수 있고, 이에 따라 오프 타겟 예측의 목적을 달성하지 못할 가능성이 존재할 수 있다.

나아가, 태그 주형은 tpegRNA의 사용 목적에 따라 자유롭게 디자인될 수 있다. 본 출원의 오프 타겟 예측 방법에서 태그 주형은 게놈 DNA 내로 삽입될 태그 서열의 기초가 된다. 즉, 태그 주형을 리버스 역전사의 주형으로 하여 태그 서열이 게놈 DNA 내에 설치된다. 이렇게 게놈 DNA 내로 설치된 태그 서열 또는 태그 서열에 상보적인 서열을 통해, 게놈 DNA 내에서 태그의 위치가 특정될 수 있으며, 태그의 위치를 통해 오프 타겟의 발생 가능성이 있는 부위 (예를 들어, 후보 오프 타겟 부위 또는 오프 타겟 후보)가 찾아질 수 있다. 오프 타겟을 예측하기 위한 목적으로 사용되는 tpegRNA의 태그 주형 또는 태그 서열의 설계에는 동일한 서열이 게놈 DNA 내에 존재하는지 여부가 고려될 수 있다. 예를 들어, 태그 주형의 서열 또는 태그 서열과 동일한 서열이 게놈 DNA 내에 존재하는 경우, 오프 타겟 예측 결과에 영향을 미칠 수 있기 때문이다. 다른 예로, 동일한 서열이 존재하더라도 동일한 서열이 존재하는 위치를 미리 알고 있는 경우에는, 해당 위치를 오프 타겟 예측 결과에서 배제할 수 있을 것이다. 이와 같이, 태그 주형의 서열 또는 태그 서열은 tpegRNA의 사용 계획 또는 사용 목적에 따라 자유롭게 디자인될 수 있다.

프라이머 결합 부 (primer binding site; PBS)

tpegRNA의 연장 영역은 프라이머 결합 부 (primer binding site; PBS)를 포함할 수 있다. tpegRNA의 PBS는 프라임 에디팅의 pegRNA의 프라이머 결합 부와 동일 또는 유사한 역할을 수행한다. 프라임 에디팅 단백질의 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)의 중합 활성은, 주형 가닥과 결합되는 가닥을 기준으로, 5'에서 3' 방향으로 존재한다. 프라이머 (예를 들어, 스페이서 비-결합 가닥에 존재하는 영역)와 프라이머 결합 부위가 어닐링되면, 폴리머라아제(예를 들어, 리버스 트랜스크립타아제)가 주형 가닥을 주형으로 사용하여 DNA 단일 가닥을 중합한다. 예를 들어, 프라임 에디팅 버전 2의 프라임 에디팅 단백질을 사용하는 경우에, tpegRNA의 프라이머 결합 부위(PBS)는 프라임 에디팅 단백질에 의해 생성된 닉킹 표적 부위의 내인성 DNA 가닥으로부터 형성된 프라이머 서열에 결합하여, 닉킹된 가닥 상의 3' 단부를 노출시킨다. tpegRNA의 연장 영역 상의 프라이머 결합 부위와 프라이머 서열의 결합은 리버스 트랜스크립타아제가 DNA 단일 가닥을 중합시키기 위한 기질을 제공한다. 프라이머 결합 부는 스페이서 비결합 가닥 상의 절단 (닉 또는 DSB에 의해 발생됨) 위치의 상류 (Upstream) (5' 방향쪽)에 위치한 프라이머의 서열과 상보성을 갖는 서열을 가질 수 있다. 일부 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -200의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -50의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -30의 영역에 존재하는 일부의 서열일 수 있다. 특정한 실시양태에서, 프라이머 서열은 절단 위치를 기준으로 -0에서 -20의 영역에 존재하는 일부의 서열일 수 있다. 여기서, -는 5'의 방향을 나타내고, 30과 같은 숫자는 뉴클레오타이드의 번호를 나타낸다. 예를 들어, -30은 절단 위치로부터 30번째로 위치하는 뉴클레오타이드를 나타낸다. 단, 0은 절단 위치를 나타낸다.

일부 실시양태에서, 프라이머 결합 부는 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. 바람직하게는, 프라이머 결합 부는 RNA 서열일 수 있다.

일부 실시양태에서, 프라이머 결합 부 또는 프라이머는 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 프라이머 결합 부 또는 프라이머는 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt 또는 그 초과의 길이를 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있으나, 이에 제한되지 않는다. 특정 실시양태에서, 프라이머 결합 부 또는 프라이머는 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 또는 50nt의 길이를 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 3 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 5 내지 20nt의 길이를 가질 수 있다. 특정한 실시양태에서, 프라이머 결합 부 또는 프라이머는 5 내지 15nt의 길이를 가질 수 있다.

DNA 합성 주형

tpegRNA의 연장 영역은 DNA 합성 주형을 포함할 수 있다. DNA 합성 주형은 역전사 주형 (reverse transcription template; RT template)일 수 있다. tpegRNA의 DNA 합성 주형은 프라임 에디팅의 pegRNA의 DNA 합성 주형과 동일 또는 유사한 역할을 수행한다. tpegRNA의 DNA 합성 주형에는 편집 주형(edit template)이 선택적으로 포함될 수 있다. 프라임 에디팅에 사용되는 일반적인 pegRNA는, 프라임 에디팅의 목적이 편집을 수행하는 것이기 때문에 편집 주형을 필수적으로 포함한다. 반면, 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA는 편집의 설치보다 태그의 설치를 우선적인 목적으로 하기 때문에, 편집 주형은 선택적으로 포함될 수 있다. 즉, 일부 실시양태에서, DNA 합성 주형은 편집 주형을 포함하거나 또는 편집 주형을 포함하지 않을 수 있다. 바람직하게는, DNA 합성 주형은 편집 주형을 포함하나, 이에 제한되지 않는다.

일부 실시양태에서, DNA 합성 주형은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열일 수 있다. 바람직하게는, DNA 합성 주형(예를 들어, RT 주형)은 RNA 서열일 수 있다.

일부 실시양태에서, DNA 합성 주형의 서열은 스페이서 비결합 가닥의 절단 위치 (nick 또는 DSB에 의해 발생됨)의 +0 에서 +500 영역에 존재하는 서열의 일부와 대응될 수 있다. 여기서, '+'는 3' 방향을 나타내고, 500과 같은 숫자는 뉴클레오타이드의 절단 위치로부터의 순서를 나타낸다. 예를 들어, 1은 절단 위치로부터 첫번째에 위치한 뉴클레오타이드를 지칭한다. 예를 들어, 500은 절다 위치로부터 500번째에 위치한 뉴클레오타이드를 지칭한다. 단, 0은 절단 위치를 나타낸다. 일부 실시양태에서, DNA 합성 주형의 서열은 스페이서 비결합 가닥의 절단 위치 (nick 또는 DSB에 의해 발생됨)를 기준으로 <+100, <+90, <+80, <+70, <+60, <+50, <+40, <+30, <+20, 또는 <+10 영역의 서열의 일부와 대응될 수 있다. 예를 들어, DNA 합성 주형의 편집 주형을 제외한 서열은 스페이서 비결합 가닥의 절단 위치를 기준으로 <+100, <+90, <+80, <+70, <+60, <+50, <+40, <+30, <+20, 또는 <+10의 영역의 서열의 일부와 상보성을 갖는 서열이거나, 및/또는 전술한 영역의 스페이서 결합 가닥의 서열의 일부와 실질적으로 동일한 서열일 수 있다.

일부 실시양태에서, DNA 합성 주형은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, DNA 합성 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 110nt, 120nt, 130nt, 140nt, 150nt, 160nt, 170nt, 180nt, 190nt, 200nt 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두개의 값에 의해 설정되는 범위 내의 길이를 가질 수 있으나, 이에 제한되지 않는다. 특정한 실시양태에서, DNA 합성 주형은 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 또는 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 3 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 5 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, DNA 합성 주형은 7 내지 30nt의 길이를 가질 수 있다.

일부 실시양태에서, DNA 합성 주형은 편집 주형 및 상동성 영역(또는 상동성 암)을 포함할 수 있다. 일부 실시양태에서, DNA 합성 주형은 상동성 영역을 포함할 수 있다. 이하에서, DNA 합성 주형에 포함되는 상동성 영역에 대하여 설명한다.

상기 상동성 영역은, 프라임 에디팅에서 사용되는 전술한 pegRNA의 상동성 암 또는 상동성 영역과 대응되는 영역이다.

일부 실시양태에서, 상동성 영역은 표적 DNA의 스페이서 비-결합 가닥의 일부 서열에 상보적이다. 일부 실시양태에서, 상동성 영역은 표적 DNA의 스페이서 결합 가닥의 일부 서열과 상동성인 서열을 갖는다.

상동성 영역의 서열은 DNA 분자의 스페이서 비-결합 가닥에 발생된 절단 부위 (DSB 또는 nick에 의해 발생됨)의 하류(downstream) (3' 방향쪽)에 위치한 영역의 일부 서열과 상보성을 갖는다. 예를 들어, 프라임 에디팅 버전 2에서, 상동성 영역은 스페이서 비-결합 가닥의 nick 발생 부위의 하류에 위치하는 서열과 상보성을 갖는 서열을 가질 수 있다. 다른 관점에서, 상기 상동성 영역은, 프라임 에디팅 버전 2에서, 스페이서 결합 가닥의 nick 발생 부위와 대응대는 부위의 상류에 위치하는 일부 서열과 상동성을 갖는 서열을 가질 수 있다.

한편 상동성 영역은 DNA 분자의 내인성 가닥의 서열을 대체하고 단일 가닥 DNA 플랩 (예를 들어, 3' DNA 플랩)의 어닐링을 용이하게 하여, 편집 및/또는 태그 서열을 DNA 분자 내에 설치하는데 도움을 준다. 상동성 영역은 프라임 에디팅 단백질의 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 코딩되기 때문에 DNA 합성 주형의 일부로 설명될 수 있다.

일부 실시양태에서, 상동성 영역은 RNA 서열, DNA 서열, 또는 DNA/RNA 하이브리드 서열을 포함할 수 있다. 바람직하게는, 상동성 영역은 RNA 서열을 포함할 수 있다.

일부 실시양태에서, 상동성 영역은 1nt 내지 500nt의 길이를 가질 수 있다. 일부 실시양태에서, 상동성 영역은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 50nt, 51nt, 52nt, 53nt, 54nt, 55nt, 56nt, 57nt, 58nt, 59nt, 60nt, 61nt, 62nt, 63nt, 64nt, 65nt, 66nt, 67nt, 68nt, 69nt, 70nt, 71nt, 72nt, 73nt, 74nt, 75nt, 76nt, 77nt, 78nt, 79nt, 80nt, 81nt, 82nt, 83nt, 84nt, 85nt, 86nt, 87nt, 88nt, 89nt, 90nt, 91nt, 92nt, 93nt, 94nt, 95nt, 96nt, 97nt, 98nt, 99nt, 100nt, 또는 그 초과의 길이, 또는 전술한 값 중 선택되는 두개의 값에 의해 설정되는 범위 내의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 또는 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 3 내지 40nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 5 내지 30nt의 길이를 가질 수 있다. 특정한 실시양태에서, 상동성 영역은 7 내지 30nt의 길이를 가질 수 있다.

일부 실시양태에서, DNA 합성 주형은 편집 주형을 포함할 수 있다. 편집 주형은 폴리머라아제 (예를 들어, 리버스 트랜스크립타아제)에 의해 합성된 단일 가닥 DNA 플랩(예를 들어, 3' DNA 플랩) 또는 스페이서 비-결합 가닥에 설치될 편집 (edit)을 코딩하는 연장 영역의 부분을 지칭한다.

편집 주형은 DNA 플랩 (예를 들어, 3' DNA 플랩) 또는 DNA 분자의 스페이서 비-결합 가닥에 설치될 편집과 상보성을 가질 수 있다. 예를 들어, 프라임 에디팅의 결과로, 스페이서 비-결합 가닥에 설치되는 편집은 절단이 발생된 위치의 하류에 위치하게 된다.

일부 실시양태에서, RT 주형은 편집 주형 및 상동성 영역 등을 포함할 수 있다. 여기서, RT 주형은 DNA 합성 주형과 동등하지만, 여기서 RT 주형은 리버스 트랜스크립타아제인 폴리머라아제를 갖는 프라임 에디팅 단백질의 사용을 반영하고, DNA 합성 주형은 임의의 폴리머라아제를 갖는 프라임 에디팅 단백질의 사용을 보다 광범위하게 반영한다.

예를 들어, tpegRNA의 편집 주형은 '목적하는 편집 (desired edit)'을 DNA 분자에 코딩하기 위한 목적하는 편집에 상응하는 편집 주형과 동일한 서열을 가질 수 있다. (여기서, 상기 목적하는 편집은 본 출원의 오프 타겟 예측 시스템을 통한 오프 타겟 분석의 대상이 되는 프라임 에디팅의 미리 설계된 목적하는 편집일 수 있다).

예를 들어, tpegRNA의 편집 주형은 DNA 분자(예를 들어, 게놈) 또는 DNA 플랩 (예를 들어, 3' DNA 플랩)에 설치되는 목적하는 편집의 서열에 상보적인 서열을 가질 수 있다. 다른 예로, tpegRNA의 편집 주형은 목적하는 편집을 DNA 분자에 코딩하기 위한 목적하는 편집과 상응하는 편집 주형과는 다른 서열을 가질 수 있다. 다른 예로, tpegRNA의 편집 주형은 DNA 분자(예를 들어, 게놈) 또는 DNA 플랩 (예를 들어, 3' DNA 플랩)에 설치되는 목적하는 편집의 서열과 상보성을 갖는 서열과 일부 또는 전부가 상이한 서열을 가질 수 있다. 일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위해 두 종류의 tpegRNA가 사용될 수 있으며, 이때 각각의 tpegRNA에 포함된 편집 주형의 서열은 목적하는 편집의 편집 주형의 서열과 일부 또는 전부가 상이할 수 있다.

일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위해 한 종류의 tpegRNA가 사용될 수 있으며, 이때 tpegRNA에 포함된 편집 주형의 서열은, 목적하는 편집에 상응하는 편집 주형과 동일한 서열을 가질 수 있다. 일부 실시양태에서, TAPE-seq을 위해 한 종류의 tpegRNA가 사용될 수 있으며, 이때 tpegRNA에 포함된 편집 주형의 서열은, 목적하는 편집에 상응하는 편집 주형과 일부 또는 전부가 다른 서열을 가질 수 있다.

전술한 바와 같이, 프라임 에디팅의 기술은 원하는 서열을 원하는 위치에 삽입하기 위해 디자인된 시스템으로 (즉, 원하는 서열을 '작성'할 수 있도록 디자인된 시스템), 편집은 달리 제한되지 않는다. 예를 들어, 편집은 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 52, 54, 56, 58, 60nt (또는 bp), 또는 그 초과의 길이를 가질 수 있다.

일부 실시양태에서, 편집대상 DNA 분자의 편집에 대응되는 영역에 위치한 오리지날 서열 (즉, 편집 전의 서열)과 비교할 때, 편집 대상 DNA 분자에 설치되는 편집은 하나 이상의 뉴클레오타이드의 삽입, 하나 이상의 뉴클레오타이드의 결실, 및 하나 이상의 뉴클레오타이드의 다른 뉴클레오타이드로의 치환 중 어느 하나 또는 이들의 조합을 포함할 수 있다. 나아가 편집 대상 DNA 분자에 설치되는 편집은 대체되는 내인성 DNA 가닥의 일부 서열과 동일 서열을 삽입하도록 디자인된 영역을 가질 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 삽입을 포함할 수 있고, 이때 상기 삽입되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 결실을 포함할 수 있고, 이때 상기 결실되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 예를 들어, 편집은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 또는 50 이상의 뉴클레오타이드의 치환을 포함할 수 있고, 이때 상기 치환되는 뉴클레오타이드는 핵산 내에서 연속되어 위치할 수 있거나 연속되지 않을 수 있다. 다른 예로, 편집은 전술한 삽입 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 결실 및 치환을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입 및 결실을 포함할 수 있다. 다른 예로, 편집은 전술한 삽입, 결실, 및 치환을 포함할 수 있다. 전술한 삽입, 결실, 및 치환 중 어느 하나 이상은 '편집-대상 DNA' 분자의 편집(edit)이 설치되는 위치와 대응되는 영역에 발생될 수 있다.

나아가 편집 대상 DNA 분자에 설치되는 편집은 대체되는 내인성 DNA 가닥의 일부 서열과 동일 서열을 삽입하도록 디자인된 영역을 가질 수 있고, 이를 코딩하는 편집 주형 내에 존재하는 영역은 '편집 주형의 상동성 영역'으로 지칭될 수 있다. 편집 주형의 상동성 영역은 하나 또는 그 이상 존재할 수 있다. 즉, 편집 주형은 하나 이상의 편집 주형의 상동성 영역을 포함할 수 있다.

관련 분야의 기술자의 이해를 돕기 위해, 편집 주형이 가질 수 있는 구조에 대하여 예시한다. 편집 주형은 목적에 맞게 자유롭게 디자인될 수 있는 바, 편집 주형의 가능한 양태가 하기의 예시에 한정되어 해석되어서는 아니될 것이다. 예를 들어, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[G to T 치환을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]-[A to T 치환을 위한 뉴클레오타이드]-[편집 주형의 제3 상동성 영역]. 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[A to C 치환을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[TAA 삽입을 위한 뉴클레오타이드]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [편집 주형의 제1 상동성 영역]-[TGG 삽입을 위한 뉴클레오타이드]-[편집 주형의 제2 상동성 영역]-[A to G 치환을 위한 뉴클레오타이드]. 또 다른 예로, 편집 주형은 다음의 구조를 가질 수 있다: [AGG 삽입을 위한 뉴클레오타이드]-[편집 주형의 제1 상동성 영역].

일부 실시양태에서, 편집이 발생하는 위치는 스페이서 비결합 가닥의 절단 위치를 기준으로 +0 내지 +100의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +60의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +1 내지 +30의 영역 내일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +20의 영역 내 일 수 있다. 특정한 실시양태에서, 편집이 발생하는 위치는 +0 내지 +10의 영역 내 일 수 있다. 일부 실시양태에서, 태그가 삽입되는 경우 편집이 발생하는 위치는 설치된 태그 서열의 하류에 위치할 수 있다. 예를 들어, 편집은 절단 위치를 기준으로 +10 내지 +50의 영역 내에 발생할 수 있다.

일부 실시양태에서, 편집 주형은 RNA로 구성될 수 있다. 일부 실시양태에서, 편집 주형은 DNA로 구성될 수 있다. 일부 실시양태에서, 편집 주형은 RNA/DNA 하이브리드로 구성될 수 있다. 특정 실시양태에서, 편집 주형은 RNA로 구성될 수 있다.

일부 실시양태에서, 편집 주형은 1nt 내지 200nt의 길이를 가질 수 있다. 일부 실시양태에서, 편집 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt, 20nt, 21nt, 22nt, 23nt, 24nt, 25nt, 26nt, 27nt, 28nt, 29nt, 30nt, 31nt, 32nt, 33nt, 34nt, 35nt, 36nt, 37nt, 38nt, 39nt, 40nt, 41nt, 42nt, 43nt, 44nt, 45nt, 46nt, 47nt, 48nt, 49nt, 또는 50nt 이상의 길이를 가질 수 있다. 특정 실시양태에서, 편집 주형은 1nt, 2nt, 3nt, 4nt, 5nt, 6nt, 7nt, 8nt, 9nt, 10nt, 11nt, 12nt, 13nt, 14nt, 15nt, 16nt, 17nt, 18nt, 19nt 또는 20nt 이상의 길이를 가질 수 있다.

연장 영역 상에서의 상대적 위치 관계

이하에서는, 연장 영역 상에서의 전술한 요소들의 상대적 위치 관계를 설명한다. 태그 주형, PBS, DNA 합성 주형 각각은 다른 요소와 직접적으로 (예를 들어, 공유결합을 통해) 연결될 수 있거나, 또는 링커와 같은 추가적 요소를 통해 연결될 수 있다.

3' 연장 영역의 경우에 (즉, 전통적인 gRNA의 3' 말단에 연장 영역이 추가된 형태의 tpegRNA) 다음과 같은 위치 관계를 가질 수 있다.

일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 상기 요소들은 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부의 순서로 연장 영역 상에 위치할 수 있다. 이 경우, DNA 분자(예를 들어, 게놈 DNA)에서는, 스페이서 비결합 가닥 상의 절단이 발생된 위치를 기준으로 5'에서 3' 방향으로 설명할 때, 태그 주형에 의해 전달된 태그 서열이 첫번째로 위치하고, DNA 합성 주형에 의해 전달된 서열이 두번째로 위치한다. 즉, DNA 분자에 설치된 태그 서열과 DNA 합성 주형에 상보성을 갖는 서열의 스페이서 비-결합 가닥 상에서의 위치 관계는 다음과 같이 구조화될 수 있다: v-[태그 서열]-[DNA 합성 주형에 상보성을 갖는 서열]. 여기서, v는 절단이 발생되었던 위치를 나타낸다.

다른 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 상기 요소들은 태그 주형, DNA 합성 주형, 및 프라이머 결합 부의 순서로 연장 영역 상에 위치할 수 있다. 이 경우, DNA 분자에서는, 스페이서 비결합 가닥 상의 절단이 발생된 위치를 기준으로 5'에서 3' 방향으로 설명할 때, DNA 합성 주형에 의해 전달된 서열이 첫번째로 위치하고, 태그 주형에 의해 전달된 태그 서열이 두번째로 위치한다. 즉, DNA 분자에 설치된 태그 서열과 DNA 합성 주형에 상보성을 갖는 서열의 스페이서 비-결합 가닥 상에서의 위치 관계는 다음과 같이 구조화될 수 있다: v-[DNA 합성 주형에 상보성을 갖는 서열]-[태그 서열]. 여기서, v는 절단이 발생되었던 위치를 나타낸다.

바람직하게는, tpegRNA의 5'에서 3' 방향으로 DNA 합성 주형, 태그 주형, 및 프라이머 결합 부의 순서로 위치할 수 있으나, 이에 제한되지 않는다.

5' 연장 영역의 경우에 (즉, 전통적인 gRNA의 5' 말단에 연장 영역이 추가된 형태의 tpegRNA) 다음과 같은 위치 관계를 가질 수 있다. 일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, 태그 주형, DNA 합성 주형, 및 프라이머 결합 부는 기재 순서대로 위치할 수 있다. 일부 실시양태에서, tpegRNA의 5'에서 3' 방향으로, DNA 합성 주형, 태그 주형, 및 프라이머 결합 부는 기재 순서대로 위치할 수 있다.

일부 실시양태에서, 태그 주형은 DNA 합성 주형 및 프라이머 결합 부 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 gRNA 코어 및 DNA 합성 주형 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 스페이서와 DNA 합성 주형 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형 및 프라이머 결합 부 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형과 gRNA 코어 사이에 위치할 수 있다. 일부 실시양태에서, DNA 합성 주형은 태그 주형과 스페이서 사이에 위치할 수 있다. DNA 합성 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함하는 것으로 설명되는 tpegRNA의 예시적 실시양태는 도 02에 개시된다.

tpegRNA의 연장 영역 (2)

일부 실시양태에서, tpegRNA는 상동성 영역, 편집 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 것으로 설명될 수 있다. 이러한 서술 방식은, 태그 주형이 편집 주형과 상동성 영역 사이에 위치하는 경우를 설명 가능하도록 한다. 일부 실시양태에서, tpegRNA는 상동성 영역을 포함하는 제1 영역, 편집 주형을 포함하는 제2 영역, 태그 주형을 포함하는 제3 영역, 및 프라이머 결합 부를 포함하는 제4 영역을 포함할 수 있다. 이때 제1 영역의 일부 또는 전부는 상동성 영역일 수 있다. 이때 제2 영역의 일부 또는 전부는 편집 주형일 수 있다. 이때 제3 영역의 일부 또는 전부는 태그 주형일 수 있다. 이때 제4 영역의 일부 또는 전부는 프라이머 결합 부일 수 있다.

프라이머 결합 부, 태그 주형, 및 DNA 합성 주형을 기준으로 각 요소들의 연장 영역 상에서의 위치 관계는 이전의 섹션을 통해 상세히 설명된 바, 이하에서는 상동성 영역, 편집 주형, 및 태그 주형의 위치 관계에 대하여 기술한다. 전술한 바와 같이, 태그 주형은 폴리머라아제에 의해 게놈 DNA 내로 설치되므로, DNA 합성 주형의 일부로 설명될 수 있다. 본 섹션 "tpegRNA의 연장 영역 (2)"의 아래의 실시양태를 포함한 몇몇의 실시양태에서는 태그 주형은 DNA 합성 주형에 포함되는 것으로 서술될 수 있으며, 이는 통상의 기술자에게 오해를 유발하지 않을 것이다. 3' 연장 영역을 포함하는 tpegRNA에 대해서 예시된다. 일부 실시양태에서, 태그 주형은 편집 주형의 하류, 즉, 프라이머 결합 부와 편집 주형의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 상동성 영역의 하류, 즉, 상동성 영역과 프라이머 결합 부의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 편집 주형과 상동성 영역 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 상동성 영역의 상류, 즉, 상동성 영역과 gRNA 코어의 사이에 위치할 수 있다. 일부 실시양태에서, 태그 주형은 편집 주형의 상류, 즉, 편집 주형과 gRNA 코어 사이에 위치할 수 있다. 상동성 영역, 편집 주형, 태그 주형, 및 프라이머 결합 부를 포함하는 연장 영역을 포함하는 것으로 설명되는 tpegRNA의 예시적 실시양태는 도 03에 개시된다.

엔진니어된 tpegRNA

본 출원의 일부 실시양태는 엔지니어된 tpegRNA (engineered tpegRNA; etpegRNA)를 제공한다. etpegRNA는 pegRNA, epegRNA, 및 tpegRNA로부터 개발된 것으로, tpegRNA로 지칭될 수 있다. 즉, 본 출원의 용어 "tpegRNA"는 etpegRNA의 양태를 포괄하는 것으로 인식될 것이다. etpegRNA는 tpegRNA의 연장 영역이 epegRNA의 요소인 3' 엔지니어링 영역을 더 포함하는 경우의 pegRNA를 지칭한다. 즉, etpegRNA는 태그 주형, DNA 합성 주형, 프라이머 결합 부, 및 3' 엔지니어링 영역을 포함하는 연장 영역을 포함한다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프를 포함할 수 있다. 일부 실시양태에서, 3' 엔지니어링 영역은 RNA 보호 모티프에 더하여 RNA 보호 모티프를 연결하기 위한 링커를 더 포함할 수 있다. 예를 들어, etpegRNA의 전술한 각 요소는 5'에서 3' 방향으로, DNA 합성 주형, 태그 주형, 프라이머 결합 부, 및 3' 엔지니어링 영역의 순서로 연장 영역 상에 위치할 수 있다.

일반적인 pegRNA (태그 주형을 포함하지 않는 pegRNA)와는 달리, tpegRNA는 태그 서열을 DNA 분자에 삽입하기 위한 태그 주형을 포함하는 것에 주목한다.

프라임 에디팅의 오프 타겟 예측을 위한 도구의 예시

전술한 바와 같이, 본 출원의 프라임 에디팅의 오프 타겟 예측을 위한 도구는 적어도 다음의 두 요소를 포함한다:

프라임 에디터 단백질; 및 tpegRNA.

일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구는 추가의 요소를 더 포함할 수 있다. 예를 들어, dnMLH1(dominant negative MLH1), Cas 단백질, 가이드 RNA (예를 들어, 전통적인 sgRNA), 추가의 프라임 에디팅 단백질, pegRNA, 및 추가의 tpegRNA (예를 들어, 사용되는 tpegRNA와 다른 서열의 편집 주형을 포함하는 tpegRNA) 중 어느 하나 이상이 프라임 에디팅의 오프 타겟 예측을 위한 도구에 더 포함될 수 있으나, 이에 제한되지 않는다. 관련 분야의 기술자는 적절한 추가적인 요소를 사용하여 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템을 개량하거나 최적화할 수 있을 것이다.

프라임 에디팅의 오프 타겟 예측에서 tpegRNA를 이용한 태그 삽입 매커니즘

본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 매커니즘을 바탕으로 설계된, 프라임 에디팅의 오프 타겟에 대한 정보를 확인 또는 분석하는 방법이다. 프라임 에디팅의 매커니즘의 특징은 편집 대상 DNA 분자 내로 목적하는 편집을 설치하기 위하여, 폴리머라이제이션 과정(예를 들어, 리버스 트랜스크립션)에서 주형으로 사용되는 DNA 합성 주형(예를 들어, RT 주형)이 포함된 pegRNA를 이용하는 것이다. 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 특징적인 매커니즘을 바탕으로 태그 서열을 분석 대상 DNA 분자로 삽입하고, 삽입된 태그 서열에 대한 정보를 확인하여 프라임 에디팅의 오프 타겟을 확인 또는 분석한다. 이에, 본 출원의 오프 타겟 예측 방법은 전술한 프라임 에디팅의 특징적인 매커니즘을 태그 서열의 삽입 과정에서 사용한다.

이하에서, 본 출원의 오프 타겟 예측 방법에서, 편집 대상 DNA 분자로의 태그 삽입의 매커니즘의 예시를 개시한다. 이는 본 명세서를 보는 관련 분야의 기술자의 이해를 돕기 위한 개시이며, 본 명세서의 범위가 하기의 기재에 의해 제한되어서는 아니될 것이다.

이하에서는, 프라임 에디팅 버전 2의 프라임 에디터 단백질 및 tpegRNA를 사용하여 태그가 DNA 분자 내로 삽입되는 매커니즘의 예시가 개시된다.

프라임 에디팅 단백질(nCas9 및 리버스트랜스크립타아제인 MMLV_RT(D200N)(T330P)(L603W)(T306K)(W313F)를 포함함)과 tpegRNA는 복합체를 형성한다. tpegRNA의 gRNA 코어는 gRNA 스캐폴드 또는 백본 서열로 지칭될 수 있으며, Cas9 또는 이의 등가물과 결합을 담당하는 gRNA, pegRNA, 또는 tpegRNA 내의 서열을 지칭한다. tpegRNA는 gRNA 코어를 통해 프라임 에디팅 단백질에 포함된 Cas 단백질과 결합할 수 있다.

프라임 에디터 단백질/tpegRNA 복합체는 스페이서 서열 및 PAM 서열에 기초하여 오프 타겟이 발생 가능한 위치로 국재화(localization)된다. tpegRNA의 스페이서 서열은 이와 상보적인 DNA 분자 내의 표적 (온타겟 또는 오프 타겟) 서열에 상보적 결합을 형성한다. 이때 상보적 결합은 미스매치를 포함하지 않거나, 또는 하나 이상의 미스매치를 포함할 수 있다. 미스매치는 오프 타겟의 원인이라고 알려진 염기 불일치 (base mismatch) 및 벌지 불일치 (bulge mismatch) 중에서 선택되는 어느 하나 이상일 수 있으나, 이에 제한되지 않는다. 나아가, 오프 타겟은 연장 영역에 포함된 일부 서열의 게놈 DNA의 서열과의 미스매치에 의해 발생할 수 있다. 나아가, 프라임 에디팅 단백질/tpegRNA 복합체의 국재화되는 위치는 PAM 서열에 제한되지 않을 수 있다. 예측되는 오프 타겟 (예를 들어, 오프 타겟 후보)의 서열은 온타겟의 서열과 비교할 때, 하나 이상의 PAM 미스매치, 하나 이상의 스페이서 미스매치 (즉, 스페이서 서열과 대응되는 서열인 프로토스페이서에 존재하는 미스매치), 하나 이상의 PBS 미스매치 (즉, PBS 서열과 대응되는 서열인 프라이머 서열에 존재하는 미스매치), 및 하나 이상의 DNA 합성 주형의 미스매치 (즉, DNA 합성 주형과 대응되는 서열에 존재하는 미스매치) 중 선택되는 어느 하나 이상의 미스매치를 포함할 수 있다.

프라임 에디터 단백질의 Cas 단백질(PE2에서는, nCas9)에 의해 스페이서 비-결합 가닥의 PAM 서열(5'-NGG-3')의 상류에 위치하는 PAM 서열의 5'을 기준으로 -3 과 -4 뉴클레오타이드 사이에 닉 (nick)이 발생한다. 결과적으로, 태그 서열은 닉 부위를 기준으로 하류에 위치하는 1 내지 100개 뉴클레오타이드의 윈도우에 삽입될 수 있다. 태그 서열은 PAM 서열의 약 -4 내지 +100 의 영역에 삽입될 수 있다. 도 04는 off-target 발생 위치에 닉이 발생한 DNA 분자, 및 닉을 유도한 프라임 에디터 단백질/tpegRNA 복합체의 예시를 나타낸다.

닉 발생 부위의 상류에 PBS가 프라이머로 기능하는 영역(DNA 분자 내의 스페이서 비-결합 가닥 상에 존재하는 일부 영역으로, 프라이머로 지칭될 수 있음)과 어닐링된다. PBS와 프라이머의 어닐링은 도 05에 도시된다.

어닐링 후, 태그 주형 및 DNA 합성 주형을 역전사의 주형으로 하여, 리버스 트랜스크립타아제에 의해 역전사가 수행된다. 역전사는 뉴클레오타이드가 중합되는 가닥을 기준으로 5'에서 3' 방향으로 수행된다. 즉, 스페이서 비-결합 가닥을 기준으로 5'에서 3' 방향으로 수행된다. 역전사에 의해 태그 주형에 상보적인 서열을 갖는 서열(태그 서열)이 내인성 DNA 가닥에 추가되며, 이어서 DNA 합성 주형에 상보적인 서열을 갖는 서열이 내인성 DNA 가닥에 추가된다. 역전사에 의해, 내인성 DNA 가닥(3' DNA 플랩)에 추가된 태그 서열 및 편집 등은 도 06에 도시된다.

내인성 DNA 가닥에 추가된 태그 서열 및 DNA 합성 주형과 대응되는 서열 (편집, 및 상동성 영역에 상보적인 서열 등)은 3' DNA 플랩을 구성한다. 5' 플랩이 제거되고, 수선 시스템을 거쳐 태그 서열 및 편집이 최종적으로 DNA 분자에 통합된다.

전술한 과정을 통해, 프라임 에디팅에 의해 편집(edit)이 삽입될 수 있는 위치에는 태그 서열이 삽입된다. 이에 의하여, 태그 서열은 온 타겟 뿐만 아니라 오프 타겟이 발생 가능한 부위에도 삽입될 수 있다. 이에 따라, 태그 서열의 존재 및/또는 위치 확인을 통해 오프 타겟의 발생 가능성 및/또는 위치 등에 대하여 확인할 수 있게 된다. 이후, 태그-특이적 증폭(tag-specific amplification) 및 시퀀싱 등의 태그 서열을 특이적으로 분석할 수 있는 방법을 이용하여 태그 서열에 대한 분석을 수행한다. 태그 서열에 대한 분석을 통해 태그 서열이 삽입된 DNA 분자의 종류(예를 들어, 염색체의 종류), 태그 서열이 삽입된 위치 (예를 들어, 태그 서열이 삽입된 DNA 분자 내에서의 위치), 및/또는 위치별 태그 서열의 삽입률 등에 관한 태그 서열에 대한 정보를 얻는다. 태그 서열에 대한 정보를 바탕으로, 프라임 에디팅에서 발생 가능한 오프 타겟에 대한 정보를 얻을 수 있다.

대상 DNA 분자 (예를 들어, 게놈 DNA)에 태그 서열 삽입의 시나리오는 달리 제한되지 않는다. 일부 실시양태에서, 태그 삽입은 프라임 에디팅의 나머지 패턴을 교란하지 않을 수 있다. 이 경우, 프라임 에디팅 결과로부터 태그 서열을 제거하는 경우, 태그 서열이 제거된 프라임 에디팅 결과는 태그 주형이 없는 pegRNA에 의해 유도된 프라임 에디팅의 패턴과 동일할 것이다. 예를 들어, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집과 함께 설치될 수 있다. 일부 실시양태에서, 태그 삽입은 프라임 에디팅의 나머지 패턴을 교란할 수 있다. 예를 들어, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집 없이 설치될 수 있다. 다른 예로, 편집은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 태그 서열 없이 설치될 수 있다. 특정한 실시양태에서, 태그 서열은 하나 이상의 오프 타겟 후보 사이트 및/또는 온타겟 사이트에 편집과 함께 설치될 수 있다. 본 출원의 오프 타겟 예측 시스템은 프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉하고, 이후 게놈 DNA를 분석하는 과정을 포함한다. 이하에서, 본 출원의 오프 타겟 예측 시스템의 과정에 대하여 상세히 설명한다.

프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉

게놈 DNA와 접촉 개괄

본 출원의 프라임 에디팅의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 DNA 편집 과정에서 발생할 가능성이 있는 오프 타겟에 대한 정보를 확인하는 것이다. 즉, 본 출원의 프라임 에디팅의 오프 타겟 예측 방법의 결과로, 프라임 에디팅을 이용한 DNA 편집 과정에서 발생 가능한 오프 타겟 후보들에 대한 정보들이 도출될 수 있다. 예를 들어, 오프 타겟 후보들의 존재 여부, 오프 타겟 후보들의 위치, 및/또는 진정한 오프 타겟과 관련되는 오프 타겟 후보들의 점수 등이 본 출원의 오프 타겟 예측 방법을 통해 도출될 수 있다. DNA 편집 과정에서 발생하는 오프 타겟에 대한 정보를 얻기 위해서는, 먼저, 대상 DNA와 프라임 에디터 단백질 및 tpegRNA가 접촉되어야 한다. 대상 DNA와의 접촉이 달성되면 DNA 절단 과정을 포함한 태그 삽입의 매커니즘이 수행될 수 있다. 대상 DNA는 예를 들어 세포의 게놈 DNA일 수 있다. 전술한 바와 같이, 본 출원의 오프 타겟 예측 방법은 세포 기반 오프 타겟 예측 방법의 하나로 분류될 수 있으며, 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA의 접촉은 세포 내에서 수행될 수 있다.

프라임 에디팅의 오프 타겟 예측 방법에 사용되는 세포는 달리 제한되지 않는다. 일부 실시양태에서, 세포는 동물 세포 또는 식물 세포일 수 있다. 일부 실시양태에서, 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 원숭이, 침팬지, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법에 사용되는 세포는 환자로부터 유래된 세포일 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법에 사용되는 세포는 세포주 (예를 들어, 인간, 마우스, 원숭이, 또는 래트 세포주)의 세포일 수 있다. 특정한 실시양태에서, 세포는 인간 세포 또는 인간 세포주일 수 있다. 세포주의 세포는 예를 들어, 3T3 세포, A549 세포, HeLa 세포, HEK 293 세포, K562 세포, Huh7 세포, Jurkat 세포, OK 세포, Ptk2 세포, 또는 Vero 세포일 수 있으나, 이에 제한되지 않는다.

본 출원의 오프 타겟 예측 시스템의 일 실시양태는 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA (또는 프라임 에디터 단백질/tpegRNA 복합체)를 접촉함을 포함할 수 있다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉은 세포 내 또는 세포의 핵 내에서 수행될 수 있으며, 달리 제한되지 않는다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉을 위해서는 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포가 준비되어야 한다. 이하에서, 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포 및 이를 생산하는 방법에 대하여 상세히 설명한다.

프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포

일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟 예측을 위한 도구(Tools for predicting off-targets of prime editing)를 포함하는 세포를 생산함을 포함할 수 있다.

본 출원의 일부 실시양태는 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 제공한다.

프라임 에디팅의 오프 타겟 예측을 위한 도구는 프라임 에디터 단백질 및 tpegRNA를 포함한다. 일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구는 추가의 요소를 더 포함할 수 있다. 예를 들어, dnMLH1(dominant negative MLH1), Cas 단백질, 가이드 RNA (예를 들어, 전통적인 sgRNA), 추가의 프라임 에디팅 단백질, pegRNA, 및 추가의 tpegRNA (예를 들어, 사용되는 tpegRNA와 다른 서열의 편집 주형을 포함하는 tpegRNA) 중 어느 하나 이상이 프라임 에디팅의 오프 타겟 예측을 위한 도구에 더 포함될 수 있으나, 이에 제한되지 않는다.

프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포의 생산 방법

프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 프라임 에디팅 도구의 각 요소를 세포에 도입 (예를 들어, 전기천공법 등으로)하거나, 프라임 에디팅 도구의 각 요소를 암호화하는 핵산을 세포에 도입하여 달성될 수 있다. 이하에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산하는 과정에 대하여 상세히 서술한다.

일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 다음을 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포에 접촉함.

일부 실시양태에서, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 포함하는 세포를 생산함은 다음을 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포에 도입함. 이렇게 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산과 접촉한 세포, 또는 이들이 도입된 세포는 분석 대상 세포로 지칭될 수 있다.

프라임 에디팅의 오프 타겟 예측을 위한 도구의 각 요소의 세포에의 접촉은 동시에 (예를 들어 하나의 조성물 안에서, 또는 올인원 벡터를 이용하여) 수행될 수 있거나, 시간을 두고 수행될 수 있다, 예를 들어, 프라임 에디터 단백질 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물과 세포를 접촉함을 통해 세포로의 도입이 달성될 수 있다. 다른 예로, 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 제1 조성물을 세포와 접촉하고, 이후 (또는 이전에) tpegRNA 또는 이를 암호화하는 핵산을 포함하는 제2 조성물을 세포와 접촉함을 통해 도구들의 세포로의 도입이 달성될 수 있다. 이처럼, 프라임 에디팅의 오프 타겟 예측을 위한 도구를 세포에 도입하는 과정은 달리 제한되지 않는다.

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 벡터 또는 비벡터의 형태로 세포 내로 도입될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질은 하나의 분자로 구성된 융합단백질일 수 있거나, 2개 이상의 분자를 포함하는 복합체의 형태일 수 있다. 예를 들어, 프라임 에디터 단백질이 하나의 분자의 형태인 융합단백질인 경우, 프라임 에디터 단백질 또는 이를 암호화하는 핵산은 세포 내로 도입될 수 있다. 다른 예로, 프라임 에디터 단백질이 2개 이상의 분자를 포함하는 복합체의 형태인 경우, 프라임 에디터 단백질은 이루는 각 요소 또는 각 요소를 암호화하는 각각의 핵산은 동시에 (예를 들어, 조립된 복합체의 형태로, 또는 하나의 벡터에 암호화되어) 또는 별도로 (예를 들어, 분리된 요소의 형태로, 별개의 벡터에 암호화되어, 또는 적당한 시간 간격을 두고) 세포 내에 도입 또는 전달될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산과 tpegRNA 또는 이를 암호화하는 핵산은 동시에 (예를 들어, 조립된 복합체의 형태로, 또는 하나의 벡터에 암호화되어) 또는 별도로 (예를 들어, 분리된 요소의 형태로, 별개의 벡터에 암호화되어, 또는 적당한 시간 간격을 두고) 세포 내로 도입될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 단백질의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질은 이를 암호화하는 핵산의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, tpegRNA는 RNA의 형태로 세포 내로 전달 또는 도입될 수 있다. 일부 실시양태에서, tpegRNA는 이를 암호화하는 핵산의 형태로 세포 내로 전달 또는 도입될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 (예를 들어, 프라임 에디터 단백질을 암호화하는 DNA) 및/또는 tpegRNA 또는 이를 암호화하는 핵산 (예를 들어, tpegRNA를 암호화하는 DNA)은 리포좀, 플라스미드, 바이러스 벡터, 나노파티클, 또는 PTD (protein translocation domain) 형태로 세포 내로 도입될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 전기천공법(electroporation), 리포펙션, 미세주입법, 유전자총법, 비로좀, 리포좀(liposome), 면역 리포좀, 및 지질-매개 형질감염 중 선택되는 어느 하나에 의해 세포 내로 전달 또는 도입될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산(예를 들어, 프라임 에디터 단백질을 암호화하는 DNA, RNA, 또는 DNA 또는 RNA 혼합의 형태) 및/또는 tpegRNA를 암호화하는 핵산 (예를 들어, tpegRNA를 암호화하는 DNA, RNA, 또는 DNA 또는 RNA 혼합의 형태)은 당업계에 공지된 방법에 의해 세포 내로 전달 또는 도입될 수 있다. 또는, 프라임 에디터 단백질을 암호화하는 핵산 및/또는 tpegRNA를 암호화하는 핵산은 벡터, 비벡터 또는 이들의 조합에 의해 대상 내로 전달될 수 있다. 상기 벡터는 바이러스 벡터 또는 비바이러스 벡터(예를 들어, 플라스미드)일 수 있다. 상기 비벡터는 네이키드 DNA, DNA 복합체 또는 mRNA일 수 있다.

벡터 기반 도입

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 벡터의 형태로 세포 내로 도입 또는 전달될 수 있다. 즉, 벡터에 의해 대상 내로 전달 또는 도입될 수 있다.

일부 실시양태에서, 벡터는 프라임 에디터 단백질를 암호화하는 핵산 및/또는 tpegRNA를 암호화하는 핵산을 포함할 수 있다. 일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, 프라임 에디터 단백질을 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 일부 실시양태에서, tpegRNA를 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, tpegRNA를 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 일부 실시양태에서, 프라임 에디터 단백질을 암호화하는 핵산 및 tpegRNA를 암호화하는 핵산은 하나의 벡터에 포함되거나, 분할되어 여러 개의 벡터에 포함될 수 있다. 예를 들어, 프라임 에디터 단백질을 암호화하는 핵산 및 tpegRNA를 암호화하는 핵산은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 벡터를 통해 세포 내로 도입 또는 전달될 수 있다.

일부 실시양태에서, 벡터는 하나 이상의 조절/제어 구성요소를 포함할 수 있다. 이때, 상기 조절/제어 구성요소는 프로모터, 인핸서, 인트론, 폴리아데닐화신호, 코작 공통(Kozak consensus) 서열, 내부 리보솜 유입 부위(internal ribosome entry site, IRES), NLS (Nuclear localization signal) 또는 이를 암호화하는 핵산, Poly A, 스플라이스 억셉터 및 2A 서열 중 선택되는 어느 하나 이상일 수 있다. 상기 프로모터는 RNA 중합효소 II에 의해 인식되는 프로모터일 수 있다. 상기 프로모터는 RNA 중합효소 III에 의해 인식되는 프로모터일 수 있다. 상기 프로모터는 유도성 프로모터일 수 있다. 상기 프로모터는 대상 특이적 프로모터일 수 있다. 상기 프로모터는 바이러스 또는 비바이러스 프로모터일 수 있다. 상기 프로모터는 제어 영역에 따라 적합한 프로모터로 선택될 수 있다.

일부 실시양태에서, 벡터는 바이러스 벡터 또는 재조합 바이러스 벡터일 수 있다. 상기 바이러스는 DNA 바이러스 또는 RNA 바이러스일 수 있다. 이때, 상기 DNA 바이러스는 이중가닥 DNA(dsDNA)바이러스 또는 단일가닥 DNA(ssDNA) 바이러스 일 수 있다. 이때, 상기 RNA 바이러스는 단일가닥 RNA(ssRNA) 바이러스일 수 있다. 상기 바이러스는 레트로바이러스, 렌티바이러스, 아데노바이러스, 아데노-연관 바이러스(adeno-associated virus; AAV), 백시니아 바이러스, 폭스 바이러스 또는 단순포진 바이러스일 수 있으나, 이에 제한되지 않는다. AAV 벡터는 예를 들어, AAV1, AAV2, AAV5, AAV6, AAV8, AAV9, AAVrh.10, AAVrh.74, 및 AAVhu.37 중에서 선택되는 어느 하나일 수 있으나, 이에 제한되지 않는다. 연구 또는 임상에서 사용되는 AAV 벡터의 예시는 문헌 [Wang, Dan, Phillip WL Tai, and Guangping Gao. "Adeno-associated virus vector as a platform for gene therapy delivery." Nature reviews Drug discovery 18.5 (2019): 358-378.]에 상세히 개시되며, 이의 전체 내용은 본 출원에 참조로 포함된다. 일반적으로 바이러스는 숙주(예를 들면, 세포)를 감염시켜 숙주 내에 바이러스의 유전정보를 암호화하는 핵산을 도입시키거나 숙주의 게놈 내로 유전정보를 암호화하는 핵산을 삽입시킬 수 있다. 이러한 특징을 가지는 바이러스를 이용하여 대상(예를 들어, 세포) 내로 목적 서열 또는 목적 단백질을 암호화하는 핵산을 도입시킬 수 있다. 나아가, 목적 서열 목적 단백질을 숙주 내에서 발현시킬 수 있다.

비벡터 기반 도입

일 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산은 비벡터 기반 도입을 통해 세포 내로 도입될 수 있다.

일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 비벡터 기반 도입을 통해 세포 내로 도입될 수 있다.

일부 실시양태에서, 일부 실시양태에서, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 하나 이상의 비벡터를 통해 세포 내로 도입 또는 전달될 수 있다. 예를 들어, 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산 중 하나 이상은 하나, 둘, 셋, 넷, 다섯개, 또는 그 초과의 비벡터를 통해 세포 내로 도입 또는 전달될 수 있다.

비벡터는 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및/또는 tpegRNA 또는 이를 암호화하는 핵산을 포함할 수 있다. 상기 비벡터는 네이키드 DNA, DNA 복합체, mRNA또는 이의 혼합일 수 있다. 상기 비벡터는 전기천공법, 유전자총, 초음파 천공법, 자기 주입법 (magnetofcection), 일시적인 세포 압축 또는 스퀴징 (Lee, et al, (2012) Nano Lett., 12, 6322-6327 에 개시됨), 지질-매개 형질감염, 덴드리머, 나노파티클, 인산칼슘, 실리카, 실리케이트(오르모실) 또는 이의 조합에 의해 대상 내로 전달 또는 도입될 수 있다. 예를 들어, 전기천공법을 통한 전달은 카트리지, 챔버 또는 큐벳 내에서 세포와 목적하는 요소를 암호화하는 핵산을 혼합하고, 정해진 지속시간 및 진폭의 전기적 자극의 적용에 의해 수행될 수 있다. 다른 예로, 상기 비벡터는 나노입자를 이용하여 전달될 수 있다. 상기 나노입자는 무기 나노입자(예를 들어, 자기 나노입자, 실리카 등) 또는 유기 나노입자(예를 들어, 폴리에틸렌 글리콜(PEG)로 코팅된 지질 등)일 수 있다. 상기 나노입자의 외면은 부착을 가능하게 하는 양 전하로 하전된 중합체(예를 들면, 폴리에틸렌이민, 폴리리신, 폴리세린 등)와 컨쥬게이트될 수 있다.

펩타이드, 폴리펩타이드, 단백질, 또는 RNA의 형태로 전달 또는 도입

일 실시양태에서, 프라임 에디터 단백질 및/또는 tpegRNA는 당업계에 공지된 방법에 의해 대상 내로 전달 또는 도입될 수 있다. 펩타이드, 폴리펩타이드, 단백질, 또는 RNA의 형태는 전기천공법, 미량 주사법, 일시적인 세포 압축 또는 스퀴징(Lee, et al, (2012) Nano Lett., 12, 6322-6327 에 개시됨), 지질-매개 형질감염, 나노파티클, 리포솜, 펩타이드-매개 전달 또는 이의 조합에 의해 세포 내로 전달 또는 도입될 수 있다.

전술한 바와 같이, 프라임 에디터 단백질 및 tpegRNA를 포함하는 세포가 얻어진다. 세포 내의 프라임 에디터 단백질 및 tpegRNA (또는 프라임 에디터 단백질/tpegRNA 복합체)는 세포의 게놈 DNA와 접촉 가능하다. 이하에서, 세포의 게놈 DNA와 프라임 에디터 단백질 및 tpegRNA의 접촉에 의해 달성될 수 있는 결과를 상세히 설명한다.

프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과 (태그맨테이션)

프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과로 게놈 DNA 내로 태그 서열 및 태그 서열에 상보성을 갖는 서열이 설치될 수 있다. 즉, 게놈 DNA 내로 태그가 설치될 수 있다. 이렇게 게놈 DNA에 태그가 설치되는 과정은 태그맨테이션(tagmentation)으로 지칭될 수 있다. 접촉의 결과로 오프 타겟 후보 부위 및/또는 온타겟 부위에 태그가 설치될 수 있다. 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA가 접촉 한 후의 게놈 DNA는 분석 대상 게놈 DNA (analyzing-subject genomic DNA)로 지칭될 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA는 태그를 포함하지 않을 수 있다. 이는 오프 타겟 후보가 없거나, 게놈 DNA 내로의 태그 서열 등의 설치가 실패한 경우이다. 일부 실시양태에서, 분석 대상 게놈 DNA는 태그를 포함할 수 있다. 태그를 포함하는 분석 대상 DNA는 태그된 DNA(tagged DNA 또는 tagmented DNA)로 지칭될 수 있다. 태그는 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위) 및/또는 온타겟 부위의 위치에 존재한다. 게놈 DNA 내로 삽입된 태그를 분석함을 통해 진정한 오프 타겟이 될 가능성이 있는 후보 오프 타겟 부위가 찾아질 수 있다. 예를 들어, 분석 대상 게놈 DNA는 하나 이상의 태그를 포함할 수 있다. 각 태그의 존부 및 각 태그의 위치 등을 분석함을 통해 하나 또는 다수의 오프 타겟 후보를 찾아낼 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 방법은 세포 집단을 대상으로 수행될 수 있다. 세포 집단의 몇몇 세포의 분석 대상 게놈 DNA는 하나 이상의 태그를 포함할 수 있다. 세포 집단의 몇몇 세포의 분석 대상 게놈 DNA는 태그를 포함하지 않을 수 있다. 세포 집단에 존재하는 다수의 세포의 각 게놈 DNA를 분석하여, 하나 또는 다수의 오프 타겟 후보를 찾아낼 수 있다. 오프 타겟 후보의 부위로 태그가 삽입되면 각 후보 오프 타겟 부위에 대해 태그맨테이션율이 얻어질 수 있다. 나아가, 온타겟 부위에도 태그가 삽입될 수 있으며, 온타겟 부위에 대해서도 태그맨테이션 율이 얻어질 수 있다. 태그맨테이션율은 예를 들어, 약 0.001, 0.01, 0.1, 0.5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 또는 100% 이거나, 전술한 값 중 선택되는 두 값의 범위 내일 수 있다.

조작된 게놈 DNA를 포함하는 조작된 세포

일부 실시양태에서, 조작된 게놈을 포함하는 조작된 세포가 제공될 수 있다. 예를 들어, 분석 대상 게놈 DNA가 태그를 포함하는 경우, 즉, 태그가 분석 대상 게놈 DNA 내에 성공적으로 설치된 경우의 분석 대상 게놈 DNA는 조작된 게놈으로 지칭될 수 있다. 예를 들어, 분석 대상 게놈 DNA가 편집을 포함하는 경우, 즉, 편집이 분석 대상 게놈 DNA 내에 성공적으로 설치된 경우의 분석 대상 게놈 DNA는 조작된 게놈 DNA로 지칭될 수 있다. 일부 실시양태에서, 조작된 게놈 DNA는 태그 및 편집 중 어느 하나 이상을 포함할 수 있다. 일부 실시양태에서, 조작된 세포를 포함하는 세포 집단이 제공될 수 있다.

분석 대상 DNA를 분석함

분석 대상 DNA의 분석 개괄

본 출원의 프라임 에디팅의 오프 타겟 예측 시스템은 분석 대상 DNA를 분석함을 포함한다. 본 출원의 프라임 에디팅의 오프 타겟 예측 시스템이 세포에 대해서 수행되는 경우, 분석 대상 DNA는 분석 대상 게놈 DNA일 수 있다. 분석 대상 DNA의 분석은 분석 대상 게놈 DNA의 분석을 예시로 하여 설명된다. 분석 대상 게놈 DNA는 하나의 게놈 DNA 또는 복수의 게놈 DNA일 수 있다. 분석 대상 게놈 DNA의 분석은 하나 또는 복수의 분석 대상 게놈 DNA에 대한 분석일 수 있으며 달리 제한되지 않는다. 분석 대상 게놈 DNA를 분석하여, 게놈 DNA의 태그맨테이션에 대한 정보를 얻을 수 있다. 예를 들어, 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA에 태그 서열의 포함 여부; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치 (예를 들어, 태깅 위치); 및 하나 이상의 태깅 위치에서의 태그맨테이션율 등을 포함할 수 있으나, 달리 제한되지 않는다. 태그맨테이션에 대한 정보를 바탕으로 오프 타겟 후보에 대한 정보를 얻을 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟에 대한 정보 및 하나 이상의 오프 타겟 후보에 대한 점수 등을 포함할 수 있으나, 달리 제한되지 않는다.

분석 방법

태그맨테이션에 대한 정보를 얻기 위해, 분석 대상 게놈 DNA가 분석될 수 있다. 분석 대상 게놈 DNA는 조작된 게놈 DNA일 수 있다. 본 출원의 오프 타겟 예측 시스템은 조작된 게놈 내에 통합된 태그 서열을 바탕으로, 오프 타겟이 발생 가능한 위치에 대한 정보를 확인하는 것을 특징으로 한다. 조작된 게놈 내에 포함된 하나 이상의 태그 서열에 대한 정보는 당업계에 공지된 방법 또는 개발될 방법을 통해 확인될 수 있고, 달리 제한되지 않는다. 태그 서열에 대한 정보는 각각의 태그 서열이 삽입 여부, 각각의 태그 서열이 삽입된 염색체, 각각의 태그 서열이 삽입된 위치(예를 들어, 염색체 내에서의 위치), 태그 서열의 삽입률, 및 태그 서열이 삽입된 각각의 위치 별 삽입률 중에 어느 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다. 예를 들어, 태그 서열에 대한 정보는 태그-특이적 증폭 및/또는 시퀀싱 등을 포함하는 태그 서열 분석 방법에 의해 확인될 수 있으나, 달리 제한되지 않는다. 태그 서열에 대한 정보의 분석 방법을 위해 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; Kim, Daesik, et al. "Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells." Nature methods 12.3 (2015): 237-243.; 및 Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 등이 참조될 수 있으며, 각각의 문헌의 전체 내용은 본 명세서에 참조로 포함된다.

일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그-특이적 분석 (예를 들어, 태그가 존재하는 위치를 찾기 위한 분석)일 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석 방법은 태그-특이적 증폭을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석 방법은 시퀀싱을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그-특이적 증폭 및 시퀀싱을 포함할 수 있다.

일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 당업계의 기술자에게 잘 알려진 DNA 분석 방법을 통해 분석될 수 있다. 일부 실시양태에서, 분석 대상 DNA의 분석은 PCR 기반 분석 (문헌 [Cameron, Peter, et al. "Mapping the genomic landscape of CRISPR-Cas9 cleavage." Nature methods 14.6 (2017): 600-606.] 참조) 및 시퀀싱 (sequencing) (문헌 [Metzker, Michael L. "Sequencing technologies-the next generation." Nature reviews genetics 11.1 (2010): 31-46.; 및 Kumar, Kishore R., Mark J. Cowley, and Ryan L. Davis. "Next-generation sequencing and emerging technologies." Seminars in thrombosis and hemostasis. Vol. 45. No. 07. Thieme Medical Publishers, 2019.] 참조) (예를 들어, DNA 시퀀싱) 중 선택되는 어느 하나 이상을 포함하는 과정에 의해 수행될 수 있다.

예를 들어, 시퀀싱은 전체 게놈 시퀀싱(whole-genome sequencing; WGS), 딥 시퀀싱(deep sequencing), 고처리 시퀀싱(High-throughput sequencing; HTS), de-novo 시퀀싱 (de-novo sequencing), 2세대 시퀀싱 (second-generation sequencing), 차세대 시퀀싱(next-generation sequencing), 3세대 시퀀싱 (third generation sequencing), 대용량 시퀀싱(Large-scale sequencing), 샷건 시퀀싱(shotgun sequencing), 롱리드 시퀀싱 (long-read sequencing), 및 숏리드 시퀀싱(short-read sequencing) 중 어느 하나 이상으로 지칭되는 시퀀싱 방법이 사용될 수 있으나, 달리 제한되지 않는다. 예를 들어, Hi-seq 의 시퀀싱 방법이 사용될 수 있다. 예를 들어, Mi-seq의 시퀀싱 방법이 사용될 수 있다. 예를 들어, 분석 대상 DNA를 분석함에 2개 이상의 시퀀싱 방법이 사용될 수 있다. 구체적인 예로, Hi-seq 및 Mi-seq을 포함하는 과정이 분석 대상 DNA를 분석함에 포함될 수 있다. 일 실시양태에서, 분석 대상 게놈 DNA의 분석에 사용되는 시퀀싱 방법의 시퀀싱 깊이 (sequencing depth)는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 또는 1000x 일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 중에 선택되는 두 값의 범위일 수 있다. 일 실시양태에서, 시퀀싱 깊이는 전술한 값 이하이거나, 또는 이상일 수 있다. 특정한 실시양태에서, 분석에 사용되는 시퀀싱의 시퀀싱 깊이는 약 10 내지 40x일 수 있다. 시퀀싱 깊이는 달리 제한되지 않고, 분석 대상 게놈 DNA에서 태그 서열의 존부 및/또는 위치를 확인할 수 있을 정도의 시퀀싱 깊이이면 충분하다.

일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 태그 특이적 증폭 과정을 포함할 수 있다. 태그 특이적 증폭으로 증폭된 태그-특이적 라이브러리가 생성될 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다.

분석 대상 게놈 DNA의 분석을 통해 태그맨테이션에 대한 정보를 수득할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 증폭된 태그-특이적 라이브러리를 생성함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 일부 실시양태에서, 분석 대상 게놈 DNA의 분석은 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱함을 포함할 수 있다. 예를 들어, 태그 특이적 증폭에는 태그-특이적 프라이머 및/또는 어댑터-특이적 프라이머가 사용될 수 있다. 예를 들어, 태그 특이적 증폭은 PCR을 통해 수행될 수 있다.

일부 실시양태에서, 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함은 분석 대상 게놈 DNA를 전단함(shearing), 및 태그-특이적 라이브러리 생성을 위해 전단된 게놈 DNA를 어댑터를 통해 결찰함 중 선택되는 하나 이상의 과정을 포함할 수 있다. 태그-특이적 라이브러리 증폭 과정에 대해서는 문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag." Nature communications 13.1 (2022): 1-14.]이 참조될 수 있다.

일부 실시양태에서, 분석 대상 게놈 DNA를 분석하기 위해, 세포의 파괴, 인큐베이션, RNA 제거, 및 DNA 정제 중 어느 하나 이상의 과정이 추가로 더 수행될 수 있다. 전술한 과정은 예를 들어, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉 이후에 수행될 수 있다.

태그맨테이션에 대한 정보의 수득

전술한 분석 대상 DNA를 분석함을 통해 태그맨테이션에 대한 정보가 수득될 수 있다. 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA에 존재하는 태그 서열 및/또는 태그 서열에 대한 정보를 기초로 얻어진 정보이다. 예를 들어, 태그맨테이션에 대한 정보는 하나의 분석 대상 게놈 DNA에 존재하는 태그 서열에 대한 정보를 기초로 얻어진 정보일 수 있다. 다른 예로, 태그맨테이션에 대한 정보는 복수의 분석 대상 게놈 DNA에 존재하는 태그 서열에 대한 정보를 기초로 얻어진 정보일 수 있다. 분석 대상 게놈 DNA의 분석은 하나 또는 복수의 분석 대상 게놈 DNA의 분석의 양태를 모두 포괄하는 것으로 인식될 것이다.

예를 들어, 태그맨테이션에 대한 정보는 각각의 태그 서열의 삽입 여부, 각각의 태그 서열이 삽입된 염색체, 각각의 태그 서열이 삽입된 위치 (예를 들어, 염색체 내에서의 위치), 태그 서열의 삽입율, 및 태그 서열이 삽입된 각각의 위치 별 삽입율 중에 어느 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

일부 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다:

분석 대상 게놈 DNA에 태그 서열의 포함 여부;

하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및

하나 이상의 태그 서열에 대한 태그맨테이션율 (tagmentation).

예를 들어, 분석 대상 게놈 DNA가 태그 서열을 포함하는 경우 태그 서열의 존재는 온타겟 또는 후보 오프 타겟 부위의 존재와 관련될 수 있다. 전술한 바와 같이, 하나 이상의 태그 서열이 하나의 게놈 DNA에 포함될 수 있거나, 또는 하나 이상의 태그 서열이 복수의 분석 대상 게놈 DNA에 포함되고 분석될 수 있다. 결국, 분석 대상 DNA에 태그 서열의 포함 여부는 분석의 대상이 된 하나 또는 복수의 게놈 DNA에 하나 이상의 태그 서열이 존재하는지 여부에 대한 정보이다. 예를 들어, 복수의 분석 대상 게놈 DNA의 경우, 제1 분석 대상 게놈 DNA는 태그 서열을 포함하지 않더라도, 제2 분석 대상 게놈 DNA가 태그 서열을 포함하는 경우에는, 태그 서열이 분석 대상 게놈 DNA에 존재하는 것으로 판단될 수 있다.

예를 들어, 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치는, 태그 서열이 존재하는 위치의 분석을 통해 도출될 수 있고, 태그된 위치로 지칭될 수 있다. 예를 들어, 복수의 분석 대상 게놈 DNA 중 하나의 분석 대상 게놈 DNA (제1 분석 대상 게놈 DNA)가 제1 태그 서열을 포함하고, 다른 분석 대상 게놈 DNA (제2 분석 대상 게놈 DNA)가 제2 태그 서열을 포함하는 경우, 제1 태그 서열의 위치는 제1 위치로 지칭될 수 있고, 제2 태그 서열의 위치는 제2 위치로 지칭될 수 있다. 다른 예로, 하나의 분석 대상 게놈 DNA에 복수의 태그 서열이 존재하고, 이때 하나의 태그 서열은 제1 태그 서열로 지칭될 수 있고, 다른 태그 서열은 제2 태그 서열로 지칭될 수 있다. 여기서, 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치는 상기 제1 위치 또는 제2 위치, 또는 제1 및 제2 위치 모두를 포함할 수 있다. 여기서, 제1 위치 및 제2 위치는 타겟 위치 (온타겟 위치 및/또는 후보 오프 타겟 위치)와 관련되며, 온타겟 위치가 아닌 경우 상기 제1 및 제2 위치는 둘 다 후보 오프 타겟 위치일 수 있다. 제1 위치와 제2 위치는 동일한 위치를 나타낼 수 있거나, 또는 다른 위치를 나타낼 수 있다. 여기서, 제1 위치 및 제2 위치와 같은 위치 정보는 염색체의 번호에 대한 정보 및 특정 염색체에서의 위치에 대한 정보를 포함한다.

예를 들어, 하나 이상의 태그 서열에 대한 태그맨테이션 율은 태그된 위치 별 발견되는 빈도를 통해 도출될 수 있다. 예를 들어, 분석 대상 게놈 DNA의 분석에서 제1 위치에서 태그 서열이 10번 발견되고, 제2 위치에서 태그 서열이 5번 발견된 경우, 제1 위치의 태그맨테이션율은 제2 위치의 태그맨테이션율보다 2배이다. 태그맨테이션율은 대응되는 오프 타겟 후보가 진정한 오프 타겟일 가능성과 연관될 수 있으나, 달리 제한되지 않는다.

일부 실시양태에서, 분석 대상 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻는 과정은 태그맨테이션에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 등의 과정을 더 포함할 수 있다. 예를 들어, 수득된 절단 정보를 미리 결정된 온타겟에 대한 정보와 비교함 등의 과정을 더 포함할 수 있다. 절단 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.

일부 실시양태에서, 태그맨테이션에 대한 정보는 분석 대상 게놈 DNA의 분석(예를 들어, DNA 시퀀싱)을 통해 수득될 수 있는 다른 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.

오프 타겟에 대한 정보의 수득

태그맨테이션에 대한 정보를 기초로, 오프 타겟에 대한 정보가 수득될 수 있다. 본 출원과 관련된 기술분야의 기술자는 절단에 대한 정보를 기초로 별다른 어려움 없이 오프 타겟에 대한 정보를 수득할 수 있을 것이고, 따라서 본 개시 내용은 본 출원의 오프 타겟 예측 시스템의 과정을 제한하는 것은 아니다. 본 출원과 관련된 기술분야의 기술자는 분석 대상 게놈 DNA를 분석하여 얻은 태그맨테이션에 대한 정보를 이용하여, 적절한 과정을 거치거나 또는 별다른 과정을 거치지 않고, 오프 타겟에 대한 정보를 얻을 수 있을 것이다.

일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 태그맨테이션에 대한 정보로부터 오프 타겟 후보에 대한 정보를 확인하는 과정을 포함할 수 있다.

일부 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidate)의 게놈 DNA 상에서의 위치(location)에 대한 정보를 포함할 수 있다 (예를 들어, 후보 오프 타겟 부위에 대한 정보). 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 모든 오프 타겟 후보의 각 위치(게놈 DNA 상에서의 위치)에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 위치에 대한 정보는 하나 이상의 오프 타겟 후보(off-target candidates)의 각 위치에 대한 정보를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위(candidate off-target site)에 대한 위치 정보가 수득되거나, 또는 모든 후보 오프 타겟 부위(candidate off-target site)는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 위치 정보가 수득될 수 있다. 오프 타겟 후보 중 진정한 오프 타겟(예를 들어, 프라임 에디팅 시스템의 사용에서 발생하는 실제의 오프 타겟)이 존재할 수 있다. 오프 타겟 후보의 위치에 대한 정보는 전술한 태그맨테이션에 대한 정보에 기초하여 수득될 수 있다.

일 실시양태에서, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 오프 타겟 점수 (예를 들어, 오프 타겟 예측 점수)를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 모든 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 예를 들어, 오프 타겟 후보에 대한 정보는 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수를 포함할 수 있다. 즉, 모든 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득되거나, 또는 모든 후보 오프 타겟 부위는 아니지만 하나 이상의 후보 오프 타겟 부위에 대한 오프 타겟 점수가 수득될 수 있다. 오프 타겟 후보의 오프 타겟 점수에 대한 정보는, 전술한 태그맨테이션에 대한 정보 (예를 들어, 태그맨테이션율에 대한 정보)에 기초하여 수득될 수 있다. 일 실시양태에서, 수득된 오프 타겟 점수를 기초로 오프 타겟 후보의 랭크가 계산될 수 있다. 예를 들어, 높은 오프 타겟 점수를 나타내는 오프 타겟 후보(예를 들어, 후보 오프 타겟 부위)는 보다 상위에 랭크될 수 있다. 예를 들어, 가장 높은 오프 타겟 점수를 나타내는 오프 타겟 후보는 1위에 랭크될 수 있다. 예를 들어, 오프 타겟 후보의 높은 오프 타겟 점수는 진정한 오프 타겟과 관련될 수 있으나, 달리 제한되지 않는다.

일 실시양태에서, 오프 타겟 후보에 대한 정보는 오프 타겟 후보의 개수에 대한 정보를 포함할 수 있다. 예를 들어, 오프 타겟 후보의 총 개수가 계산될 수 있다. 예를 들어, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 하나로 카운팅될 수 있다. 다른 예로, 오프 타겟 후보의 개수의 계산에서, 중복되는 위치는 복수로 카운팅될 수 있다. 예를 들어, 후보 오프 타겟 부위 x가 5개 발견된 경우, 이는 1로 카운팅되거나 5로 카운팅될 수 있다. 오프 타겟 후보의 개수에 대한 정보를 통해, 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟 후보의 전체 개수를 확인할 수 있다. 즉, 예측된 오프 타겟의 전체 개수가 확인될 수 있다.

일 실시양태에서, 오프 타겟 또는 오프 타겟 후보에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있으나, 달리 제한되지 않는다:

하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치;

하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 점수; 및

예측된 오프 타겟 후보의 개수.

일부 실시양태에서, 오프 타겟 후보에 대한 정보를 얻는 과정은 오프 타겟 후보에 대한 정보를 얻기 위한 추가적인 과정을 더 포함할 수 있다. 예를 들어, 정보(또는 데이터)의 가공, 및/또는 수득된 정보(또는 데이터)의 정규화 과정을 더 포함할 수 있다. 예를 들어, 얻어진 오프 타겟 후보에 대한 정보를 미리 결정된 온타겟에 대한 정보와 비교함의 과정을 더 포함할 수 있다. 오프 타겟 후보에 대한 정보를 얻는 과정은, 전술한 바와 같이, 추가적인 과정을 더 포함할 수 있으며 달리 제한되지 않는다.

일부 실시양태에서, 오프 타겟 후보에 대한 정보는 프라임 에디팅 시스템의 사용에서 발생 가능한 오프 타겟을 예측하는데 도움이 되는 추가적인 정보를 더 포함할 수 있으나, 달리 제한되지 않는다.

오프 타겟 후보와 tpegRNA의 비교

전술한 바와 같이, 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위)로 태그가 삽입될 수 있다. 전통적인 CRISPR/Cas 시스템에서, 오프 타겟은 가이드 서열과 타겟 서열의 부분적이지만 충분한 일치로부터 비롯될 수 있다고 알려져있다. 이와 유사하게 프라임 에디팅 시스템에서도 tpegRNA의 각 요소의 서열과 표적 서열의 부분적이지만 충분한 일치로부터 비롯될 수 있다고 예상되나, 본 명세서에서는 오프 타겟이 발생하는 이유에 대하여 한정하지 않는다. 일부 실시양태에서, 오프 타겟은 tpegRNA의 서열과 오프 타겟 서열의 하나 이상의 미스매치에 의해 발생할 수 있다. 여기서, 미스매치는 베이스 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 다름), 및 벌지 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 추가 또는 하나 이상의 뉴클레오타이드의 결실)을 포함한다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 서열은 tpegRNA의 대응되는 서열과 비교할 때 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (오프 타겟 후보)의 서열은 tpegRNA의 대응되는 서열과 비교할 때 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 또는 100%의 서열 동일성을 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 서열 동일성을 가질 수 있다. 예를 들어, tpegRNA의 스페이서 서열과 오프 타겟(또는 오프 타겟 후보)의 스페이서에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 다른 예로, 오프 타겟(또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열은 PAM 서열과 1, 2, 3, 4, 5, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 DNA 합성 주형과 오프 타겟(또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 상동성 영역과 오프 타겟(또는 오프 타겟 후보)의 상동성 영역에 대응되는 서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, tpegRNA의 프라이머 결합 부와 오프 타겟(또는 오프 타겟 후보)의 프라이머 결합 부에 대응되는 서열 (예를 들어, 프라이머로 기능하는 서열)은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 또는 그 초과의 미스매치를 포함할 수 있다. 예를 들어, 하나 이상의 미스매치는 오프 타겟(또는 오프 타겟 후보)의 스페이서와 대응되는 서열, 오프 타겟의 PAM 서열과 대응되는 서열, 오프 타겟의 DNA 합성 주형에 대응되는 서열, 오프 타겟의 프라이머 결합 부에 대응되는 서열 중 하나 이상에 존재할 수 있으며, 이에 제한되지 않는다.

오프 타겟 후보와 온타겟의 비교

전술한 바와 같이, 오프 타겟 후보의 위치 (즉, 후보 오프 타겟 부위)로 태그가 삽입될 수 있다. 오프 타겟 후보는 예측 시스템을 통해 예측된 오프 타겟을 지칭하는 것으로, 진정한 오프 타겟일 수 있거나 진정한 오프 타겟이 아닐 수 있다. 일부의 실시양태에서, 오프 타겟 후보의 부위는 어떤 특정된 위치를 지칭하는 것일 수 있다. 일부의 실시양태에서, 온타겟 위치 또는 온타겟 부위, 또는 오프 타겟 후보의 위치 또는 오프 타겟 후보의 부위는 특정한 영역으로 이해될 수 있고, 이때 상기 특정한 영역은 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 220, 240, 260, 280, 300, 320, 340, 360, 380, 400, 450, 500 개의 연속된 뉴클레오타이드로 이루어진 영역을 지칭하는 것일 수 있다. 또는 전술한 값 초과의 개수의 연속된 뉴클레오타이드로 이루어진 영역을 지칭하는 것일 수 있다. 일부의 측면에서는 연속된 뉴클레오타이드의 개수가 많을수록 오프 타겟 또는 온타겟 부위를 정확하게 지칭할 수 있는데, 뉴클레오타이드의 개수가 많을수록 게놈 DNA 상에 동일한 서열 (중복된 서열)이 존재할 확률이 적어지기 때문이다.

오프 타겟 후보 또는 오프 타겟은 온타겟의 서열과 비교될 수 있다. 일부 실시양태에서, 오프 타겟 후보 또는 진정한 오프 타겟은 온타겟 서열과 비교할 때, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 또는 그 초과의 미스매치 (온타겟 미스매치)를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (오프 타겟 후보)의 서열은 온타겟의 대응되는 서열과 비교할 때 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 또는 100%의 서열 동일성을 갖거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 서열 동일성을 가질 수 있다. 오프 타겟과 온타겟의 비교에서 사용되는 미스매치는 오프 타겟과 온타겟의 서열의 다름을 설명하기 위해 사용된다. 나아가, 미스매치는 뉴클레오타이드 미스매치 (예를 들어, 뉴클레오타이드의 다름) 및 벌지 미스매치 (예를 들어, 하나 이상의 뉴클레오타이드의 추가 또는 하나 이상의 뉴클레오타이드의 결실)을 모두 포함하는 것으로 사용된다. 예를 들어, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGaGGgTGGAGGTGG (서열번호 51)이고, 온타겟의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGGTGG (서열번호 52)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 2개의 뉴클레오타이드 미스매치 (소문자로 표시됨)를 갖는 것으로 설명될 수 있다. 다른 예로, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGC--CTGGAGGTGG (서열번호 53)이고 온타겟의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGGTGG (서열번호 54)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 2개의 벌지 미스매치(예를 들어, 2개의 벌지 온타겟 미스매치)를 갖는 것으로 설명될 수 있다. 또 다른 예로, 오프 타겟 후보의 스페이서에 대응되는 서열은 GGCACTGCGGCTGGAGgTGG (서열번호 55) 이고 온타겟의 스페이서에 대응되는 서열은 GGCACT--GGCTGGAGGTGG (서열번호 56)일 때, 오프 타겟 후보의 스페이서에 대응되는 서열은 온타겟의 서열과 비교할 때 1개의 뉴클레오타이드 미스매치 및 2개의 벌지 미스매치 (총 3개의 미스매치)를 갖는 것으로 설명될 수 있다. 이하에서 오프 타겟 (또는 오프 타겟 후보)의 서열을 온타겟의 서열과 비교하여 설명한다.

일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 스페이서에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치(예를 들어, 온타겟 미스매치)를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열은 0, 1, 2, 3, 4, 5, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 상동성 영역에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 (또는 오프 타겟 후보)의 프라이머 결합 부에 대응되는 서열은 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 미스매치를 포함할 수 있다. 일부 실시양태에서, 하나 이상의 미스매치는 오프 타겟(또는 오프 타겟 후보)의 스페이서에 대응되는 서열, 오프 타겟(또는 오프 타겟 후보)의 PAM 서열에 대응되는 서열, 및 오프 타겟(또는 오프 타겟 후보)의 DNA 합성 주형에 대응되는 서열, 및 오프 타겟 (또는 오프 타겟 후보)의 프라이머 결합 부 중 어느 하나 이상에 존재할 수 있다.

일부 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역, PAM에 대응되는 영역, PBS에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역 중 어느 하나 이상에 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 또는 그 초과의 온타겟 미스매치를 포함할 수 있거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 온타겟 미스매치를 포함할 수 있다. 일부 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 또는 그 초과의 온타겟 미스매치를 포함할 수 있거나, 또는 전술한 값 중 선택되는 두 값에 의해 설정되는 범위 내의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 0 내지 20개의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 1 내지 15개의 온타겟 미스매치를 포함할 수 있다. 특정한 실시양태에서, 오프 타겟 후보 (또는 오프 타겟) 부위는 스페이서에 대응되는 영역 및 DNA 합성 주형에 대응되는 영역에 1 내지 10개의 온타겟 미스매치를 포함할 수 있다. 여기서 온타겟 미스매치는 온타겟 부위의 대응되는 영역의 서열과 비교를 통해 결정되는 미스매치를 나타낸다. 상기 온타겟 미스매치는 하나의 가닥에서 카운팅될 수 있거나, 두개의 가닥에서 카운팅될 수 있다. 예를 들어, 오프 타겟 후보 (또는 오프 타겟)의 부위는 스페이서 비-결합 가닥의 (i) 프로토스페이서에 대응되는 영역 및 (ii) 상기 프로토스페이서에 대응되는 영역의 하류에 위치한 5 내지 20개의 뉴클레오타이드로 이루어진 영역에 0 내지 10개의 온타겟 미스매치를 포함할 수 있다. 예를 들어, 오프 타겟 후보 (또는 오프 타겟) 부위는 절단 위치 (nick 또는 DSB)를 기준으로 -30에서 +10 또는 -20에서 +10의 영역에 0 내지 10개의 온타겟 미스매치를 포함할 수 있다.

예측의 대상이 되는 프라임 에디팅 시스템과의 관계

본 출원의 오프 타겟 예측 시스템은 예측의 대상이 되는 프라임 에디팅 시스템과 연관될 수 있다. 여기서, 예측의 대상이 되는 프라임 에디팅 시스템은 연구에 사용되거나 또는 치료제에 사용되는 것으로 결정된 프라임 에디팅 시스템을 지칭할 수 있으나, 달리 제한되지 않는다. 즉, 예측의 대상이 되는 프라임 에디팅 시스템은 오프 타겟이 예측되어야 하는 프라임 에디팅 시스템(또는 프라임 에디팅 시스템을 이용한 게놈 편집 과정)을 지칭하는 것일 수 있다.

예를 들어, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 세포가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서도 상기 특정한 세포가 사용될 수 있다. 다른 예로, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 세포가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 상기 특정한 세포가 아닌 다른 세포가 사용될 수 있다. 예를 들어, 예측이 대상이 되는 프라임 에디팅 시스템에서 사용되는 환자로부터 유래된 세포일 수 있고, 본 출원의 오프 타겟 예측 시스템에서 사용되는 세포는 인간 세포주일 수 있다.

예를 들어, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 서열을 갖는 tpegRNA가 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 동일한 서열을 갖는 tpegRNA가 사용되거나 일부 다른 서열을 갖는 tpegRNA가 사용될 수 있다. 이와 유사하게, 예측의 대상이 되는 프라임 에디팅 시스템에서 특정한 프라임 에디터 단백질이 사용되는 경우, 본 출원의 오프 타겟을 예측하는 방법에서는 동일한 종류의 프라임 에디터 단백질 또는 다른 종류의 프라임 에디터 단백질이 사용될 수 있다. 또 다른 예로, 본 출원의 오프 타겟을 예측하는 방법에는 예측의 대상이 되는 프라임 에디팅 시스템에서의 요소에 더하여 추가적 요소 (예를 들어, dnMLH1, sgRNA, 및/또는 추가의 tpegRNA 등)이 사용될 수 있으며, 달리 제한되지 않는다.

이러한 측면에서, 본 출원의 일 실시양태에 따른 오프 타겟을 예측하는 방법은 예측의 대상이 되는 프라임 에디팅 시스템을 확인함의 과정을 더 포함할 수 있다. 예측의 대상이 되는 프라임 에디팅 시스템은 미리 결정된 프라임 에디팅 시스템으로 지칭될 수 있다. 미리 결정된 프라임 에디팅 시스템은 미리 결정된 세포 (예를 들어, 프라임 에디팅 시스템을 이용한 게놈 편집의 대상이 되는 세포), 미리 결정된 프라임 에디터 단백질, 및 미리 결정된 pegRNA 중 어느 하나 이상 또는 이들의 사용을 포함할 수 있다.

일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함 또는 설계함을 더 포함할 수 있다. 미리 결정된 프라임 에디팅 시스템을 확인하고, 이를 통해 적절히 오프 타겟 예측 시스템에 사용될 요소들을 디자인할 수 있다. 이때, 상기 미리 결정된 유전자 편집 시스템을 확인함의 과정은 프라임 에디터 단백질 및 tpegRNA를 세포의 게놈 DNA와 접촉함의 이전에 수행될 수 있다. 이하에서, 미리 결정된 (즉, 예측 대상이 되는) 프라임 에디팅 시스템을 확인함의 예시를 설명한다.

일 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함을 포함할 수 있다. 이때, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 세포, 미리 결정된 프라임 에디터 단백질, 및 미리 결정된 pegRNA에 대한 정보 중 어느 하나 이상을 확인함을 포함할 수 있다. 미리 결정된 프라임 에디팅 시스템, 미리 결정된 세포, 미리 결정된 프라임 에디터 단백질, 미리 결정된 pegRNA 등은 제1 프라임 에디팅 시스템, 제1 세포, 제1 프라임 에디터 단백질, 제1 pegRNA와 같이 서수적 한정과 함께 사용될 수 있다.

특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 세포를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 동일한 세포가 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 세포와 다른 세포가 사용될 수 있다. 예를 들어, 미리 결정된 세포는 세포주가 아닌 인간 세포일 수 있고, 본 출원의 오프 타겟 예측 시스템에는 인간 세포주가 사용될 수 있다. 일부 실시양태에서, 미리 결정된 세포는 동물 세포 또는 식물 세포일 수 있다. 일부 실시양태에서, 미리 결정된 세포는 인간 세포 또는 비인간 동물(예를 들어, 마우스, 래트, 원숭이, 침팬지, 개, 고양이, 소, 돼지, 말, 및 양 등) 세포일 수 있으나, 달리 제한되지 않는다. 일부 실시양태에서, 미리 결정된 세포는 환자로부터 유래된 세포일 수 있다. 일부 실시양태에서, 미리 결정된 세포는 세포주 (예를 들어, 인간, 마우스, 원숭이, 또는 래트 세포주)의 세포일 수 있다. 세포주의 세포는 예를 들어, 3T3 세포, A549 세포, HeLa 세포, HEK 293 세포, K562 세포, Huh7 세포, Jurkat 세포, OK 세포, Ptk2 세포, 또는 Vero 세포일 수 있으나, 이에 제한되지 않는다.

특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 프라임 에디터 단백질을 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 프라임 에디터 단백질과 동일한 프라임 에디터 단백질이 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 프라임 에디터 단백질과 다른 종류의 프라임 에디터 단백질이 사용될 수 있다. 예를 들어, 미리 결정된 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있으나, 본 출원의 오프 타겟 예측 시스템에 사용되는 프라임 에디터 단백질은 PE2-뉴클레아제 프라임 에디터 단백질 또는 PEmax-뉴클레아제 프라임 에디터 단백질일 수 있다. 다른 종류의 프라임 에디터 단백질은 태그맨테이션 율을 높이기 위해서 사용되는 것일 수 있다.

특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템을 확인함은 미리 결정된 pegRNA를 확인함을 포함할 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 pegRNA와 동일한 tpegRNA (여기서, 미리 결정된 pegRNA와 동일한 tpegRNA는 태그 주형을 제외한 모든 서열이 동일함을 나타냄)가 사용될 수 있다. 특정한 실시양태에서, 본 출원의 오프 타겟 예측 시스템에는 미리 결정된 pegRNA와 다른 tpegRNA가 사용될 수 있다. 이하에서, 미리 결정된 pegRNA와 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA의 관계가 설명된다.

미리 결정된 pegRNA는 제1 pegRNA로 지칭되고, 제1 pegRNA는 제1 스페이서, 제1 DNA 합성 주형, 제1 프라이머 결합 부를 포함한다. 본 출원의 오프 타겟 예측 시스템에 사용되는 tpegRNA는 편의상, 제2 tpegRNA로 지칭된다. 제2 tpegRNA는 제2 스페이서, 제2 DNA 합성 주형, 제2 태그 주형, 제2 프라이머 결합 부를 포함한다. 나아가, 제2 tpegRNA는 3' 엔지니어링 영역을 더 포함할 수 있고, 이 경우, 제1 pegRNA의 종류와 달리 본 출원의 오프 타겟 예측 방법에는 epegRNA를 기초로 개발된 etpegRNA가 사용될 수 있다.

일부 실시양태에서, 제2 스페이서는 제1 스페이서 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.

일부 실시양태에서, 제2 프라이머 결합 부는 제1 프라이머 결합 부의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.

일부 실시양태에서, 제2 DNA 합성 주형은 제1 DNA 합성 주형의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.

일부 실시양태에서, 제2 연장 영역은 태그 주형을 제외하고 제1 연장 영역의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.

일부 실시양태에서, 제1 pegRNA는 epegRNA가 아닌 pegRNA이나, 본 출원의 오프 타겟 예측 방법에 사용되는 tpegRNA는 3' 엔지니어링 영역을 더 포함할 수 있다 (예를 들어, etpegRNA가 사용됨).

일부 실시양태에서, 제1 DNA 합성 주형은 제1 편집 주형을 포함하나, 제2 DNA 합성 주형은 편집 주형을 포함하지 않을 수 있다. 일부 실시양태에서, 제1 합성 주형은 제1 편집 주형을 포함하고, 제2 DNA 합성 주형은 제2 편집 주형을 포함할 수 있다. 이때 제2 편집 주형은 제1 편집 주형의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다. 일부 실시양태에서, 제2 편집 주형은 제1 편집 주형의 서열과 다른 서열을 가질 수 있다.

일부 실시양태에서, 제1 DNA 합성 주형은 제1 상동성 영역을 포함하고, 제2 DNA 합성 주형은 제2 상동성 영역을 포함할 수 있다. 일부 실시양태에서, 제2 상동성 영역은 제1 상동성 영역의 서열과 동일하거나, 약 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 99.9%의 서열 동일성을 갖는 서열을 가질 수 있다.

추가의 오프 타겟 예측 시스템과 함께 사용될 수 있음

일부 실시양태에서, 본 출원의 오프 타겟 시스템은 하나 이상의 추가의 오프 타겟 예측 시스템과 함께 사용될 수 있다. 추가의 오프 타겟 시스템은 예를 들어, 다른 종류의 프라임 에디터 단백질 및/또는 다른 종류의 tpegRNA를 사용하는 프라임 에디팅의 오프 타겟 예측 시스템일 수 있다. 즉, 추가의 오프 타겟 시스템은 다른 종류의 프라임 에디터 단백질 및/또는 다른 종류의 tpegRNA를 사용하는 TAPE-seq일 수 있다. 예를 들어, 제1 프라임 에디터 단백질 및 제1 tpegRNA를 사용하는 제1 오프 타겟 예측 시스템과 제2 프라임 에디터 단백질 및 제2 tpegRNA를 사용하는 제2 오프 타겟 예측 시스템이 함께 사용될 수 있다. 특정한 실시양태에서, 제1 프라임 에디터 단백질은 제2 프라임 에디터 단백질과 동일하거나 다른 종류일 수 있다. 특정한 실시양태에서, 제1 tpegRNA는 제2 tpegRNA와 동일한 서열을 갖거나, 일부 다른 서열을 가질 수 있다. 예를 들어, 제1 tpegRNA의 제1 편집 주형과 제2 tpegRNA의 제2 편집 주형은 다를 수 있다. 예를 들어, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하여 제1 TAPE-seq을 수행하고, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하여 제2 TAPE-seq을 수행하고, 상기 제1 TAPE-seq 결과와 상기 제2 TAPE-seq 결과는 결합되어 오프 타겟을 예측하기 위한 결과로 사용될 수 있다. 여기서, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구에 포함된 요소 중 어느 하나 이상은 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구에 포함된 대응되는 요소와 다를 수 있다. 예를 들어, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구의 tpegRNA의 편집 주형의 서열은 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구의 tpegRNA의 편집 주형의 서열과 다를 수 있다. 다른 예로, 제1 프라임 에디팅의 오프 타겟 예측을 위한 도구는 PEmax-뉴클레아제 및 tepegRNA를 포함하나, 제2 프라임 에디팅의 오프 타겟 예측을 위한 도구는 PE2 및 tepegRNA가 아닌 tpegRNA (즉, 3' 엔지니어링 영역을 포함하지 않는 tpegRNA)를 포함할 수 있다. 다른 예로, 제1 TAPE-seq과 제2 TAPE-seq은 동일한 프라임 에디팅의 오프 타겟 예측을 위한 도구를 사용하나, 각 TAPE-seq에서 태그맨테이션 분석에 사용되는 시퀀싱 플랫폼이 다를 수 있다. 다른 예로, 제1 TAPE-seq, 제2 TAPE-seq, 및 제3 TAPE-seq이 수행되고, 상기 세개의 TAPE-seq 결과가 결합되어 오프 타겟을 예측하는데 사용될 수 있다. 이처럼, 추가로 사용될 수 있는 프라임 에디팅의 오프 타겟 예측 시스템의 개수와 각 오프 타겟 예측 시스템의 구성은 달리 제한되지 않는다.

일부 실시양태에서, 추가의 오프 타겟 예측 시스템은 다른 오프 타겟 예측 시스템일 수 있다. 예를 들어, 본 출원의 오프 타겟 예측 시스템은 Cas-OFFinder, CHOPCHOP, CRISPOR, Digenome-seq, nDigenome-seq, DIG-seq, SITE-seq, CIRCLE-seq, CHANGE-seq, GUIDE-seq, GUIDE-tag, DISCOVER-seq, BLISS, BLESS, integrase-defective lentiviral vector-mediated DNA break capture, HTGTS, ONE-seq, CReVIS-Seq, ITR-seq, 및 TAG-seq 중에 선택되는 어느 하나 이상과 함께 사용될 수 있다. 진정한 오프 타겟 부위를 보다 효율적으로 찾기 위한 목적으로, 본 출원의 오프 타겟 예측 시스템과 다른 오프 타겟 예측 시스템이 함께 사용될 수 있으며, 다른 오프 타겟 예측 시스템은 본 출원의 출원일 이전에 개발된 오프 타겟 예측 시스템이거나 본 출원의 출원일 이후에 개발된 오프 타겟 예측 시스템일 수 있고, 달리 제한되지 않는다.

본 출원의 오프 타겟 예측 시스템의 장점

본 출원의 발명자들은 본 출원에 의해 제공되는 오프 타겟 예측 방법에 대하여 상세히 테스트하였다. 본 출원의 오프 타겟 예측 방법을 다른 오프 타겟 예측 방법과 비교하여, 본 출원의 오프 타겟 예측 방법이 다른 오프 타겟 예측 방법보다 좋은 성능을 보임을 확인하였다 (본 출원의 실험예 참조). 본 출원의 오프 타겟 예측 방법은 프라임 에디팅 시스템의 분자적 매커니즘을 이용하기 때문에, 다른 오프 타겟 예측 방법보다 프라임 에디팅 시스템의 오프 타겟을 예측하는데 다수의 장점을 보인다.

본 출원의 오프 타겟 예측 방법은 위양성율이 알려진 오프 타겟 예측 방법보다 적을 수 있다. 본 출원의 오프 타겟 예측 방법은 미스율(miss rate)이 알려진 오프 타겟 예측 방법보다 적을 수 있다. 미스율은 진정한 오프 타겟을 놓치는 것을 의미할 수 있다. 예를 들어, 진정한 오프 타겟 부위를 오프 타겟 후보로 탐지하지 못하는 경우와 같은 거짓 음성(false negative) 결과는 미스율을 높인다. 예를 들어, 미스율은 오프 타겟 예측 시스템으로 확인된 검증된 오프 타겟 부위의 개수를 전체 검증된 오프 타겟 부위의 개수로 나눈 값일 수 있다. 본 출원의 오프 타겟 예측 방법은 대리 세포를 이용하여 수행될 수 있다. 예를 들어, 프라임 에디팅 시스템을 이용한 게놈 편집은 다양한 세포 고유의 과정이 관여되기 때문에 in vitro 기반 오프 타겟 예측을 통해 오프 타겟을 예측하기는 어렵다. 따라서, 세포 기반 오프 타겟 예측 방법이 이용되어야 한다. 알려진 세포 기반 예측 방법은 대리 세포를 사용하는 경우 부정확한 결과를 야기한다. 그러나, 본 출원의 오프 타겟 예측 방법은 대리 세포 (예를 들어, 인간 세포주)를 사용하더라도 보다 정확한 결과가 도출될 수 있다.

본 출원의 발명자들은 많은 수의 그리고 많은 종류의 실험을 통해 본 출원의 오프 타겟 예측 방법이 프라임 에디팅의 오프 타겟 예측과 관련하여 실제로 작동될 수 있는지 확인하였다. 나아가, 다양한 실험을 통해 본 출원의 오프 타겟 예측 방법의 성능을 테스트하였다. 본 출원의 오프 타겟 예측 방법의 성능의 검증 결과는 본 출원의 실험예를 통해 확인된다.

일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 검증률은 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100% 이상일 수 있으나, 달리 제한되지 않는다. 검증률은 오프 타겟 예측 방법을 통해 예측된 오프 타겟 후보 중 진정한 오프 타겟의 비율을 나타낼 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법을 통해 확인된 오프 타겟 후보를 기초로 계산된 검증율은 전술한 값 중 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 검증율은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류 (예를 들어, 프라임 에디터 단백질 및/또는 tpegRNA의 종류) 및 세포의 종류 등에 영향을 받을 수 있다.

일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 0, 또는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 또는 40% 이하일 수 있으나, 달리 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법의 미스율은 전술한 값 중 선택되는 두 값에 의해 형성되는 범위 내일 수 있으나, 달리 제한되지 않는다. 미스율은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류, 및 세포의 종류 등에 영향을 받을 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법이 놓친 진정한 오프 타겟의 수는 0, 또는 1, 2, 3, 4, 5, 6, 7, 8, 9, 또는 11 이하일 수 있으나 달리 제한되지 않는다.

일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브가 (receiver operating characteristic curve) 그려질 수 있다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 ROC 커브의 아래 면적 (area under receiver operating characteristic curve; AUC)이 계산될 수 있다. ROC 커브 및 ROC 커브의 아래 면적은 이진 분류기(binary classifier system)의 진단 능력을 나타낼 수 있는 강력한 도구이다. ROC 커브는, 일반적으로, TPR (True positive rate)와 FPR (false positive rate)를 대응하여 작성되거나, 또는 민감도 (sensitivity)와 특이도 (specificity)를 대응하여 작성될 수 있다. 예를 들어, TPR (true positive rate)는 y축에 도시되고, FPR(false positive rate)은 x 축에 도시되어 ROC 커브가 작성될 수 있다. 예를 들어, 민감도(sensitivity)는 y 축에 도시되고, 특이도(specificity)는 x 축에 도시되어 ROC 커브가 작성될 수 있다. ROC 커브의 아래 면적이 1에 가까울수록 (즉, AUC의 넓이가 넓을수록) 성능이 좋은 모델임을 나타낸다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대한 ROC 커브의 아래 면적이 계산될 수 있고, 이때 ROC 커브의 아래 면적은 약 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56, 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.75, 0.76, 0.77, 0.78, 0.79, 0.8, 0.81, 0.82, 0.83, 0.84, 0.85, 0.86, 0.87, 0.88, 0.89, 0.9, 0.91, 0.92, 0.93, 0.94, 0.95, 0.96, 0.97, 0.98, 0.99 이상 또는 1 일 수 있으나, 이에 제한되지 않는다. 일 실시양태에서, 본 출원의 오프 타겟 예측 방법에 대해 계산된 ROC 커브의 아래 면적은 전술한 값 중 선택되는 두 값의 범위 내일 수 있으나, 달리 제한되지 않는다. ROC 커브의 아래 면적은 오프 타겟 예측 시스템에 사용되는 프라임 에디팅 시스템의 종류, 및 세포의 종류 등에 영향을 받을 수 있다.

오프 타겟 예측을 위한 조성물

본 출원의 일부 실시양태는 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 제공한다. 본 출원의 일부 실시양태는 tpegRNA 또는 이를 암호화하는 핵산 및 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물을 제공한다. 일부 실시양태에서, 본 출원의 tpegRNA 또는 이를 암호화하는 핵산 및/또는 프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물은 오프 타겟 예측을 위해 사용될 수 있다. 즉, 본 출원의 일부 실시양태는 오프 타겟 예측을 위한 조성물을 제공한다. 오프 타겟 예측을 위한 조성물은 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈 DNA)의 편집 과정에서 발생하는 오프 타겟에 대한 정보를 확인하거나 오프 타겟을 예측하는데 사용될 수 있다. 예를 들어, 본 출원의 오프 타겟 예측을 위한 조성물은 본 출원의 프라임 에디팅 시스템의 오프 타겟 예측 방법에 사용될 수 있다.

본 출원의 오프 타겟 예측 방법의 예시적 실시양태 (1)

이하에서는, 본 출원의 오프 타겟 예측 방법의 예시적 실시양태가 제공된다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅의 오프 타겟 예측 시스템으로 지칭될 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 DNA 분자 (예를 들어, 게놈 DNA)의 편집 과정에서 발생 가능한 오프 타겟에 대한 정보를 확인하는 방법일 수 있다. 일부 실시양태에서, 본 출원의 오프 타겟 예측 방법은 프라임 에디팅을 이용한 게놈 DNA의 편집 과정에서 발생 가능한 오프 타겟을 예측하는 방법 또는 시스템으로 지칭될 수 있다. 프라임 에디팅을 통한 게놈 DNA의 편집 과정에서 발생하는 오프 타겟을 예측하기 위함의 의미의 서술은, 제한 없이 본 출원의 오프 타겟 예측 방법을 설명하는데 사용될 수 있다. 오프 타겟 예측은 오프 타겟의 후보에 대한 정보 또는 후보 오프 타겟 부위에 대한 정보를 얻음으로써 달성될 수 있다.

본 명세서의 전체에 걸쳐, 본 명세서에 사용된 용어는 단수의 형태로 기재되더라도 복수의 개념을 포함하는 것으로 해석될 수 있다. 즉, 단수의 형태로 기재된 용어들은 필요에 따라 복수의 개념을 포함하는 것으로 해석될 수 있는 것으로 인식될 것이다. 분석 대상 게놈 DNA를 분석함과 같이 설명되는 경우, 이는 하나의 분석 대상 게놈 DNA를 분석함 또는 복수의 분석 대상 게놈 DNA를 분석함을 의미하는 것으로 해석될 수 있다.

일부 실시양태에서, 본 출원은 다음을 포함하는 프라임 에디팅 시스템을 이용한 세포의 게놈 DNA 편집 과정에서 발생하는 오프 타겟을 예측하는 방법을 제공한다:

(a) 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉하여 분석 대상 게놈 DNA (analyzing-subject genomic DNA)를 얻음:

이때, 상기 프라임 에디터 단백질은 Cas 단백질 및 역전사 효소(reverse transcriptase)를 포함하고,

이때, 상기 tpegRNA는 스페이서, gRNA 코어, 및 연장 영역을 포함하고, 이때 상기 연장 영역은 RT 주형 (revers transcription template), 태그 주형, 및 프라이머 결합 부(primer binding site; PBS)를 포함함; 및

(b) 상기 분석 대상 게놈 DNA를 분석하여 상기 분석 대상 DNA의 태그맨테이션에 대한 정보를 얻음.

특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉함은 세포 내에서 수행될 수 있다.

특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 세포의 게놈 DNA를 접촉함은 세포의 핵 내에서 수행될 수 있다.

특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA는 프라임 에디터 단백질/tpegRNA 복합체의 형태로 게놈 DNA와 접촉할 수 있다.

특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉 후, 세포 내 게놈 DNA 변형 여부를 확인할 수 있다.

특정한 실시양태에서, 프라임 에디터 단백질 및 tpegRNA와 게놈 DNA의 접촉의 결과로, 상기 게놈 DNA 내로 태그 서열이 삽입될 수 있고, 상기 태그 서열이 포함된 분석 대상 게놈 DNA (analyzing-subject genomic DNA)가 수득될 수 있다.

특정한 실시양태에서, 상기 태그 서열은 tpegRNA의 태그 주형을 주형으로 하여 역전사 효소를 통해 수행된 역전사 과정에 의해 분석 대상 게놈 DNA 내로 삽입될 수 있다.

특정한 실시양태에서, RT 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.

특정한 실시양태에서, 분석 대상 게놈 DNA는 하나 이상의 태그 서열을 포함할 수 있다.

특정한 실시양태에서, 상기 하나 이상의 태그 서열은 역전사 효소에 의한 역전사 과정에 의해, 게놈 DNA 내 각각의 온타겟 및/또는 오프 타겟 후보와 대응되는 위치에 독립적으로 삽입될 수 있다. 이때, 분석 대상 게놈 DNA는 이러한 하나 이상의 태그 서열을 포함하게 된다.

특정한 실시양태에서, 태그 서열은 온타겟 위치로 삽입될 수 있다.

특정한 실시양태에서, 태그 서열은 후보 오프 타겟 위치로 삽입될 수 있다.

특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA를 시퀀싱을 통해 분석함.

특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA를 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.

특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.

특정한 실시양태에서, 상기 분석 대상 게놈 DNA의 분석은 다음을 포함할 수 있다: 분석 대상 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 각 태그된 부위에 대한 태그맨테이션율.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.

특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 태그맨테이션에 대한 정보를 기초로, 오프 타겟에 대한 정보를 확인함.

특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 온타겟에 대한 정보를 확인함.

특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 오프 타겟 후보의 존재 여부. 이때 오프 타겟 후보의 존재 여부는 분석 대상 게놈 DNA에 태그 서열의 포함 여부에 대한 정보로부터 얻어질 수 있다.

특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치 (후보 오프 타겟 부위). 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치는 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치로부터 얻어질 수 있다.

특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수. 이때 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수는 각 태그된 부위에 대한 태그맨테이션율로부터 얻어질 수 있다.

특정한 실시양태에서, 오프 타겟에 대한 정보는 다음을 포함할 수 있다: 예측된 오프 타겟 후보의 개수.

특정한 실시양태에서, 오프 타겟에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 게놈 DNA 상에서의 위치; 하나 이상의 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수; 및 예측된 오프 타겟 후보의 개수.

특정한 실시양태에서, 본 출원의 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 미리 결정된 프라임 에디팅 시스템에 대한 정보를 확인함. 특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템은 제1 pegRNA의 사용을 포함하고, 이때 상기 제1 pegRNA는 제1 프라이머 결합 부, 제1 DNA 합성 주형, 및 제1 스페이서를 포함할 수 있다. 이때 상기 tpegRNA의 DNA 합성 주형의 서열은 제1 DNA 합성 주형의 서열과 동일할 수 있다. 이때 상기 tpegRNA의 프라이머 결합 부의 서열은 제1 프라이머 결합 부의 서열과 동일할 수 있다. 이때 상기 tpegRNA의 스페이서 서열은 제1 스페이서 서열과 동일할 수 있다. 특정한 실시양태에서, 제1 pegRNA는 3' 엔지니어링 영역을 포함하지 않고, tpegRNA는 3' 엔지니어링 영역을 포함할 수 있다. 특정한 실시양태에서, 미리 결정된 프라임 에디팅 시스템은 제1 프라임 에디터 단백질의 사용을 포함하고, 이때 본 출원의 오프 타겟 예측 방법에 사용되는 프라임 에디터 단백질은 제1 프라임 에디터 단백질과 다른 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상기 스페이서 서열은 미리 결정된 pegRNA의 스페이서 서열과 80% 이상의 서열 동일성을 가질 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부의 서열은 미리 결정된 pegRNA의 프라이머 결합 부의 서열과 80% 이상의 서열 동일성을 가질 수 있다. 특정한 실시양태에서, 상기 tpegRNA의 상동성 영역의 서열은 미리 결정된 pegRNA의 상동성 영역의 서열과 80% 이상의 서열 동일성을 가질 수 있다.

특정한 실시양태에서, Cas 단백질은 뉴클레아제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 야생형 SpCas9일 수 있다. 특정한 실시양태에서, Cas 단백질은 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 R221K 및 N394K 변이를 포함하는 SpCas9 변이체일 수 있다.

특정한 실시양태에서, Cas 단백질은 닉카제 활성을 가질 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas9 닉카제일 수 있다. 특정한 실시양태에서, Cas 단백질은 H840A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas 단백질은 R221K, N394K, 및 H840A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 D10A 변이를 포함하는 SpCas9 변이체일 수 있다. 특정한 실시양태에서, Cas 단백질은 Cas 단백질은 R221K, N394K, 및 D10A 변이를 포함하는 SpCas9 변이체일 수 있다.

특정한 실시양태에서, 리버스 트랜스크립타아제는 야생형 MMLV 리버스트랜스크립타아제 (Moloney Murine Leukemia Virus reverse transcriptase)일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 MMLV 리버스트랜스크립타아제 변이체일 수 있다. 특정한 실시양태에서, 리버스 트랜스크립타아제는 D200N, T306K, W313F, T330P, 및 L603W 변이를 포함하는 MMLV 리버스트랜스크립타아제 변이체일 수 있다.

특정한 실시양태에서, Cas 단백질 및/또는 리버스 트랜스크립타아제는 코돈 최적화된 것일 수 있다.

특정한 실시양태에서, 프라임 에디터 단백질은 PE2 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PE2-뉴클레아제 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax 프라임 에디터 단백질일 수 있다. 특정한 실시양태에서, 프라임 에디터 단백질은 PEmax-뉴클레아제 프라임 에디터 단백질일 수 있다.

특정한 실시양태에서, tpegRNA는 3' 엔지니어링 영역을 포함할 수 있다. 특정한 실시양태에서, tpegRNA는 etpegRNA일 수 있다.

특정한 실시양태에서, 분석 대상 DNA를 얻는 과정에서 dnMLH1이 관여될 수 있다.

특정한 실시양태에서, 태그 주형은 프라이머 결합 부와 RT 주형 사이에 위치할 수 있다. 특정한 실시양태에서, tpegRNA의 RT 주형, 태그 주형 및 프라이머 결합 부는, tpegRNA의 5'에서 3' 방향으로 tpegRNA의 연장 영역 상에 위치할 수 있다.

특정한 실시양태에서, tpegRNA는 상기 프라임 에디터 단백질의 상기 역전사 효소를 통해 태그 서열을 상기 게놈 DNA에 삽입 가능하도록 디자인된 pegRNA일 수 있다.

특정한 실시양태에서, 태그 주형의 길이는 5 내지 60nt일 수 있다. 특정한 실시양태에서, 태그 주형의 길이는 15 내지 40nt일 수 있다. 특정한 실시양태에서, 태그 주형의 길이는 약 19nt, 24nt, 29nt, 또는 34nt일 수 있다.

특정한 실시양태에서, 오프 타겟을 예측하는 방법은 다음을 더 포함할 수 있다: 프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.

일부 실시양태에서, 본 출원은 다음을 포함하는 프라임 에디팅 과정에서 발생 가능한 하나 이상의 오프 타겟(off-target)에 대한 정보를 수득하는 방법을 제공한다:

(a) 조작된 세포를 생산함,

이때 상기 조작된 세포를 생산함은 다음을 포함함: Cas 단백질 및 리버스트랜스크립타아제를 포함하는 프라임 에디팅 단백질 및 tpegRNA를 사용하여 세포의 게놈을 조작함,

이때 상기 tpegRNA는 스페이서 영역, gRNA 코어 및 연장 영역을 포함하고,

이때 상기 연장 영역은 역전사 주형, 태그 주형, 및 프라이머 바인딩 부위(PBS)를 포함함,

이때 상기 조작된 세포는 조작된 게놈을 포함하고,

이때 상기 조작된 게놈은 하나 이상의 태그 서열을 포함하고, 이때 각각의 상기 태그 서열은 상기 tpegRNA의 상기 태그 주형을 역전사 과정의 주형으로 사용하여 수행되는 상기 리버스트랜스크립타아제에 의한 역전사 과정을 통해 세포의 게놈으로 삽입됨;

(b) 상기 조작된 세포에 대한 분석 데이터를 얻기 위해 (a)로부터 수득된 상기 조작된 세포를 분석함;

(c) (b)로부터 수득된 상기 분석 데이터에 기초하여, 태그맨테이션 (tagmentation)에 대한 정보를 얻음; 및

(d) (c)로부터 수득된 태그맨테이션(tagmentation)에 대한 정보에 기초하여, 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보를 확인함.

특정한 실시양태에서, 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.

특정한 실시양태에서, 태그 서열은 온타겟 부위로 삽입될 수 있다.

특정한 실시양태에서, 태그 서열은 하나 이상의 후보 오프 타겟 부위로 삽입될 수 있다.

특정 실시양태에서, (c)에서 수득되는 태그맨테이션에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 세포의 게놈 내부로의 태그 서열의 삽입 여부에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체에 대한 정보, 하나 이상의 태그 서열이 삽입된 위치에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 태그 서열이 삽입된 위치 별 삽입률에 대한 정보.

특정 실시양태에서, 상기 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 오프 타겟은 오프 타겟 후보이고, (d)에서 확인되는 상기 프라임 에디팅을 이용한 게놈 편집의 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 위치에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 오프 타겟 후보의 위치 별 발생 가능성에 대한 정보.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 5 내지 60nt일 수 있다.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 15 내지 40nt일 수 있다.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 19nt일 수 있다.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 24nt일 수 있다.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 29nt일 수 있다.

특정 실시양태에서, 이때 상기 태그 주형의 길이는 약 34nt일 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 nick의 발생을 유도할 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 편집 대상 DNA 분자에 DSB를 유도할 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2 프라임 에디팅 단백질일 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 PE2-뉴클레아제일 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax 프라임 에디팅 단백질일 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 PEmax-뉴클레아제일 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 미리 선정된 프라임 에디팅 단백질과 동일하거나 또는 다를 수 있다.

특정 실시양태에서, 상기 tpegRNA는 etpegRNA일 수 있다.

특정 실시양태에서, 상기 tpegRNA의 연장 영역 상에서, 상기 태그 주형은 상기 편집 주형 및 상기 프라이머 결합 부위의 사이에 위치할 수 있다.

특정 실시양태에서, 상기 tpegRNA의 상기 스페이서 영역에 포함된 서열은 미리 결정된 pegRNA의 스페이서 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.

특정 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부위에 포함된 서열은 미리 결정된 pegRNA의 프라이머 결합 부위의 서열과 90% 이상의 서열 동일성을 가질 수 있다.

특정 실시양태에서, 상기 tpegRNA의 상기 상동성 영역에 포함된 서열은 미리 결정된 pegRNA의 상동성 영역의 서열과 90% 이상의 서열 동일성을 가질 수 있다.

특정 실시양태에서, (a)는 다음을 더 포함할 수 있다: 세포 내에서 프라임 에디팅 단백질 및 tpegRNA를 생산함.

특정 실시양태에서, (a)는 다음을 더 포함할 수 있다: 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함. 특정 실시양태에서, 이때 프라임 에디팅 단백질 또는 이의 단편 또는 이를 암호화하는 핵산, 및 tpegRNA 또는 이를 암호화하는 핵산은 하나 또는 그 이상의 벡터를 통해 세포 내로 도입될 수 있다.

특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 조작된 세포를 파괴함. 이때 상기 조작된 세포를 파괴함은 (b) 이전에 수행될 수 있다.

특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 조작된 세포로부터 DNA를 추출함. 이때 상기 조작된 세포로부터 DNA를 추출함은 (b) 이전에 수행될 수 있다.

특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 태그-특이적 증폭을 통해 태그 서열을 포함하는 영역을 증폭함.

특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 상기 조작된 세포를 분석하기 위해 시퀀싱함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈을 시퀀싱을 통해 분석함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈을 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.

본 출원의 일부 실시양태는, 다음을 포함하는 프라임 에디팅 과정에서 발생 가능한 하나 이상의 오프 타겟(off-target)에 대한 정보를 수득하는 방법을 제공한다:

(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생산함,

이때 상기 하나 이상의 조작된 세포를 포함하는 세포 집단을 생산함은 다음을 포함함: 세포 집단에 Cas 단백질 및 리버스트랜스크립타아제를 포함하는 프라임 에디팅 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 처리하여 하나 이상의 세포의 게놈을 조작함,

이때 상기 tpegRNA는 스페이서, gRNA 코어 및 연장 영역을 포함하고,

이때 상기 연장 영역은 역전사 주형 (reverse transcription template; RT template), 태그 주형, 및 프라이머 결합 부 (primer binding site; PBS)를 포함하고,

이때 각각의 상기 조작된 세포는 조작된 게놈을 포함하고,

이때 상기 조작된 게놈은 하나 이상의 태그 서열을 포함하고, 이때 각각의 상기 태그 서열은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 사용하여 수행되는 상기 리버스트랜스크립타아제에 의한 역전사 과정을 통해 세포의 게놈으로 삽입됨;

(b) 하나 이상의 상기 조작된 세포에 대한 분석 데이터를 얻기 위해 (a)로부터 수득된 상기 세포 집단을 분석함;

(c) (b)로부터 수득된 상기 분석 데이터에 기초하여, 하나 이상의 상기 조작된 세포에 대해 태그맨테이션(tagmentation)에 대한 정보를 얻음; 및

특정한 실시양태에서, 이때 상기 태그맨테이션(tagmentation)에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 세포의 게놈 내부로의 태그 서열의 삽입 여부에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체에 대한 정보, 하나 이상의 태그 서열이 삽입된 위치에 대한 정보, 하나 이상의 태그 서열이 삽입된 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 태그 서열이 삽입된 위치 별 삽입률에 대한 정보.

특정한 실시양태에서, 이때 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟은 오프 타겟 후보이고, 이때 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 하나 이상의 오프 타겟에 대한 정보는 다음 중 어느 하나 이상을 포함할 수 있다: 오프 타겟 후보의 존재 여부에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 위치에 대한 정보, 하나 이상의 오프 타겟 후보의 발생 염색체 및 염색체 상에서의 위치에 대한 정보, 및 하나 이상의 오프 타겟 후보의 위치 별 발생 가능성에 대한 정보.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음을 포함할 수 있다: 하나 이상의 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보.

특정한 실시양태에서, 태그맨테이션에 대한 정보는 다음 중 하나 이상을 포함할 수 있다: 하나 이상의 조작된 게놈 DNA에 태그 서열의 포함 여부에 대한 정보; 하나 이상의 태그 서열에 대한 각 태그 서열의 게놈 DNA 상에서의 위치; 및 각 태그된 부위에 대한 태그맨테이션율.

특정 실시양태에서, 이때 상기 역전사 주형은 편집 주형 및 상동성 영역을 포함할 수 있다.

특정 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 미리 결정된 프라임 에디팅 시스템을 확인함을 포함할 수 있다.

특정 실시양태에서, 상기 프라임 에디팅 단백질은 미리 결정된 프라임 에디팅 단백질과 동일하거나 또는 다를 수 있다.

특정 실시양태에서, 상기 tpegRNA는 etpegRNA일 수 있다.

특정 실시양태에서, 상기 tpegRNA의 연장 영역 상에서, 상기 태그 주형은 상기 역전사 주형 및 상기 프라이머 결합 부위의 사이에 위치할 수 있다.

특정 실시양태에서, 상기 tpegRNA의 상기 프라이머 결합 부에 포함된 서열은 미리 결정된 pegRNA의 프라이머 결합 부의 서열과 90% 이상의 서열 동일성을 가질 수 있다.

특정 실시양태에서, (a)는 다음을 포함할 수 있다: 세포 내에서 프라임 에디팅 단백질 및 tpegRNA를 생산함.

특정한 실시양태에서, 오프 타겟에 대한 정보를 수득하는 방법은 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함. 이때 DNA를 추출함은 (b) 이전에 수행될 수 있다.

특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포에 포함된 조작된 게놈에 대해, 태그-특이적 증폭을 통해 태그 서열을 포함하는 영역을 증폭함.

특정 실시양태에서, (b)는 다음을 더 포함할 수 있다: 하나 이상의 조작된 세포에 포함된 조작된 게놈에 대해, 상기 조작된 세포를 분석하기 위해 시퀀싱함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈을 시퀀싱을 통해 분석함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈을 태그-특이적 증폭함을 통해 증폭된 태그-특이적 라이브러리를 생성함; 및 증폭된 태그-특이적 라이브러리를 시퀀싱을 통해 분석함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 및 상기 태그-특이적 라이브러리를 시퀀싱함.

특정한 실시양태에서, (b)는 다음을 포함할 수 있다: 상기 하나 이상의 조작된 게놈으로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.

특정 실시양태에서, 각각의 조작된 세포에 포함된 조작된 게놈은 서로 다르거나 동일할 수 있다.

예시적 실시양태 (2)

이하에서는, 전술한 "본 출원의 오프 타겟 예측 방법의 예시적 실시양태 (1)"과 다른 기재 방식을 통해 예시적 실시양태 (비제한적 실시양태)를 개시한다. 전술한 바와 같이, 본 명세서의 전체에 걸쳐, 발명을 설명하기 위해 사용되는 요소는 단수의 형태로 기재되더라도 복수의 개념을 포함하는 것으로 해석될 수 있다. 즉, 단수의 형태로 기재된 용어들은 필요에 따라 복수의 개념을 포함하는 것으로 해석될 수 있는 것으로 인식될 것이다. 예를 들어, 조작된 게놈 DNA를 분석함과 같이 설명되는 경우, 여기서 조작된 게놈 DNA는 하나의 조작된 게놈 DNA 또는 복수의 조작된 게놈 DNA를 의미하는 것으로 해석될 수 있다.

A01. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:

(a) 조작된 세포를 얻음,

(ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하여 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;

A02. A01의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

A03. A02의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟 후보는 프라임 에디팅 시스템을 이용한 게놈 편집의 과정에서 발생하는 진정한 오프 타겟이 될 가능성이 있는 오프 타겟임.

A04. A01 내지 A03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

A05. A01 내지 A03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

A06. A01 내지 A05 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입됨.

A07. A01 내지 A06 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관됨.

A08. A01 내지 A07 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함함.

A09. A01 내지 A08 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함함.

A10. A01 내지 A09 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그맨테이션에 대한 정보는 다음을 더 포함함:

태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.

A11. A01 내지 A10 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함함:

오프 타겟 후보에 대한 오프 타겟 예측 점수.

A12. A01 내지 A11 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함함:

예측된 오프 타겟 후보의 개수.

A13. A01 내지 A12 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 조작된 세포는 다음을 포함하는 방법에 의해 수득됨:

프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.

A14. A01 내지 A13 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 조작된 세포는 다음을 포함하는 방법에 의해 수득됨:

프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.

A15. A01 내지 A14 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

상기 조작된 세포로부터 DNA를 추출함, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 추출함은 (b) 이전에 수행됨.

A16. A01 내지 A15 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

tpegRNA는 다음을 포함함:

A17. A16의 오프 타겟을 예측하는 방법에 있어서,

상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함함.

A18. A17의 오프 타겟을 예측하는 방법에 있어서,

상기 조작된 게놈 DNA는 편집을 포함함.

A19. A16 내지 A18 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치함.

A20. A16 내지 A19 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치함.

A21. A16 내지 A20 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함함.

A22. A01 내지 A21 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

미리 결정된 프라임 에디팅 시스템을 확인함,

이때 상기 미리 결정된 프라임 에디팅 시스템의 확인은 미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보 중 어느 하나 이상을 확인하는 것임.

A23. A22의 오프 타겟을 예측하는 방법에 있어서,

상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포임.

A24. A22 내지 A23 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,

상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일함.

A25. A22 내지 A24 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고,

상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일함.

A26. A22 내지 A25 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것임.

A27. A01 내지 A26 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 주형의 길이는 5 내지 60nt임.

A28. A01 내지 A27 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 주형의 길이는 10 내지 50nt임.

A29. A01 내지 A28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제임.

A30. A01 내지 A29 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질은 PEmax-뉴클레아제임.

A31. A01 내지 A28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제임.

A32. A01 내지 A28 및 A31 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질임.

A33. A01 내지 A32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여됨.

A34. A01 내지 A33 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

(b)는 다음을 포함함:

상기 조작된 게놈 DNA를 태그-특이적 분석함.

A35. A01 내지 A34 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

(b)는 다음을 포함함:

상기 조작된 게놈 DNA를 시퀀싱함.

A36. A01 내지 A35 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

(b)는 다음을 포함함:

B01. 다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:

이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함.

B02. B01의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.

B03. B02의 오프 타겟을 예측하는 방법에 있어서,

B04. B01 내지 B03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

B05. B01 내지 B03 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교하여, 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 확인함.

B06. B01 내지 B05 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B07. B01 내지 B06 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열이 삽입된 게놈 DNA 내의 각 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관됨.

B08. B01 내지 B07 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열이 삽입된 게놈 DNA 내의 부위 중 어느 하나는 온타겟 부위이고, 다른 모두는 오프 타겟 후보의 부위임.

B09. B01 내지 B08 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 서열이 삽입된 각 부위에 대한 정보는 각각의 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 태그 서열이 존재하는 부위에 대한 정보를 포함함.

B10. B01 내지 B09 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B11. B01 내지 B10 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그맨테이션에 대한 정보는 다음을 더 포함함:

각 태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.

B12. B01 내지 B11 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함함:

각 오프 타겟 후보에 대한 각 오프 타겟 후보의 오프 타겟 예측 점수.

B13. B01 내지 B12 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함함:

예측된 오프 타겟 후보의 전체 개수.

B14. B01 내지 B13 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 하나 이상의 조작된 세포를 포함하는 세포 집단은 다음을 포함하는 방법에 의해 생성됨:

프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 하나 이상의 세포를 포함하는 세포 집단과 접촉함.

B15. B01 내지 B14 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

프라임 에디터 단백질 또는 이를 암호화하는 핵산을 포함하는 조성물 및 tpegRNA 또는 이를 암호화하는 핵산을 포함하는 조성물을 하나 이상의 세포를 포함하는 세포 집단과 접촉함.

B16. B01 내지 B15 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

상기 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함, 이때 상기 하나 이상의 조작된 세포를 포함하는 세포 집단으로부터 DNA를 추출함은 (b) 이전에 수행됨.

B17. B01 내지 B16 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

tpegRNA는 다음을 포함함:

B18. B17의 오프 타겟을 예측하는 방법에 있어서,

B19. B18의 오프 타겟을 예측하는 방법에 있어서,

상기 조작된 게놈 DNA는 하나 이상의 편집을 포함함.

B20. B17 내지 B19 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B21. B17 내지 B20 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B22. B17 내지 B21 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B23. B01 내지 B22 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함함:

미리 결정된 프라임 에디팅 시스템을 확인함,

B24. B23의 오프 타겟을 예측하는 방법에 있어서,

B25. B23 내지 B24 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일하고,

B26. B23 내지 B25 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B27. B01 내지 B26 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 주형의 길이는 5 내지 60nt임.

B28. B01 내지 B27 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 태그 주형의 길이는 10 내지 50nt임.

B29. B01 내지 B28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B30. B01 내지 B29 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질은 PEmax-뉴클레아제임.

B31. B01 내지 B28 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B32. B01 내지 B28 및 B31 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질임.

B33. B01 내지 B32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

B34. B01 내지 B32 중 어느 하나의 오프 타겟을 예측하는 방법에 있어서,

(b)는 다음을 포함함:

C01. 다음을 포함하는 tpegRNA (tagmentation pegRNA):

스페이서; gRNA 코어; 태그 주형을 포함하는 연장 영역.

C02. C01의 tpegRNA에 있어서,

상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 tpegRNA 상에 위치함.

C03. C01 내지 C02 중 어느 하나의 tpegRNA에 있어서,

상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함함.

C04. C01 내지 C03 중 어느 하나의 tpegRNA에 있어서,

상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치함.

C05. C01 내지 C03 중 어느 하나의 tpegRNA에 있어서,

상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치함.

C06. C01 내지 C04 중 어느 하나의 tpegRNA에 있어서,

상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치함.

C07. C01 내지 C06 중 어느 하나의 tpegRNA에 있어서,

상기 역전사 주형은 편집 주형 및 상동성 영역을 포함함.

C08. C01 내지 C07 중 어느 하나의 tpegRNA에 있어서,

상기 태그 주형은 5 내지 60nt의 길이를 가짐.

C09. C01 내지 C08 중 어느 하나의 tpegRNA에 있어서,

상기 태그 주형은 10 내지 50nt의 길이를 가짐.

C10. C01 내지 C09 중 어느 하나의 tpegRNA에 있어서,

C11. C10의 tpegRNA에 있어서,

상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가짐.

C12. C01 내지 C11 중 어느 하나의 tpegRNA에 있어서,

tpegRNA는 100 내지 350nt의 길이를 가짐.

D01. tpegRNA를 포함하는 조성물.

D02. D01의 조성물에 있어서,

상기 tpegRNA는 C01 내지 C12 중 어느 하나의 tpegRNA임.

D03. D01 내지 D02 중 어느 하나의 조성물에 있어서,

상기 조성물은 프라임 에디터 단백질을 더 포함함.

D04. D01 내지 C03 중 어느 하나의 조성물에 있어서,

상기 조성물은 프라임 에디팅 시스템을 이용한 DNA 분자의 편집 과정에서 발생하는 오프 타겟을 예측하는데 사용됨.

D05. D01 내지 D04 중 어느 하나의 조성물에 있어서,

상기 조성물은 A01 내지 A36, 및 B01 내지 B34 중 어느 하나의 오프 타겟 예측 방법에 사용됨.

본 출원의 오프 타겟 예측 방법의 예상 이용태양 (비제한적 기재)

일부 실시양태에서, 본 출원의 오프 타겟 예측 시스템은 TAPE-seq으로 지칭될 수 있다. TAPE-seq은 태그 서열을 프라임 에디팅의 특이적 매커니즘에 기초하여 DNA 분자 내로 삽입하고, 태그 서열에 대한 정보를 분석함을 통해 프라임 에디팅에서 발생 가능한 오프 타겟에 대한 정보를 확인하는 오프 타겟 스크리닝 시스템과 관련된 하나의 새로운 시스템이다. 이에 따라, 전술한 TAPE-seq의 특징을 이용하고, 프라임 에디팅에서 발생 가능한 오프 타겟을 확인함의 목적을 달성하기 위해 수행되는 모든 오프 타겟 확인 방법은 TAPE-seq의 하나의 사용 또는 적용 양태로 포함된다.

예를 들어, TAPE-seq은 세포의 게놈 편집을 위해 프라임 에디팅을 사용하는 기술자 또는 연구자에 의해 이용될 수 있다.

예를 들어, 연구자는 세포의 게놈 편집에 사용할 프라임 에디팅 시스템을 선정한다. 예를 들어, 연구자는 게놈 편집의 대상이 되는 세포를 선택한다. 예를 들어, 연구자는 프라임 에디팅에 사용할 하나의 pegRNA를 선정한다. 세포의 게놈 편집에 사용할 프라임 에디팅 시스템을 선택하는 과정에서, 적절한 pegRNA의 서열의 디자인을 위해 in silico 기반 오프 타겟 예측 방법이 이용될 수 있다. 연구자는 선정된 pegRNA의 사용을 포함하는 치료제를 개발하고자 한다. 치료제의 개발에서는 선정된 pegRNA의 오프 타겟 여부에 대한 정보가 필수로 확인되어야 한다. 선정된 pegRNA 및 선정된 프라임 에디팅 시스템을 기초로, 목적에 맞게 TAPE-seq 시스템의 세부 사항들을 디자인한다. TAPE-seq을 수행하여 선정된 프라임 에디팅 시스템에서 발생 가능한 오프 타겟에 대한 정보를 확인한다. 여기서 확인되는 정보는 오프 타겟 후보(off-target candidate) 또는 후보 오프 타겟 (candidate off-target)에 대한 정보이다. 이후, 확인된 오프 타겟 후보에 대한 정보를 이용하여 선정된 프라임 에디팅에서 문제되는 오프 타겟에 대한 정보를 확인한다. 구체적으로, TAPE-seq을 통해 확인된 오프 타겟 후보에 대한 정보로부터, off-target 후보의 발생 위치 (off-target이 발생하는 염색체, 염색체 내에서의 위치 등)를 확인한다. 이후 선정된 프라임 에디팅 시스템을 이용하여 목적하는 세포에서 게놈 편집을 수행하고, 오프 타겟 후보의 발생 위치를 중심으로, 검증하여, 진정한 오프 타겟을 최종적으로 확인하다. 이러한 과정에서, 알려진 오프 타겟 예측 방법이 진정한 오프 타겟 부위를 찾기 위해 조합되어 사용될 수 있다.

다른 예로, TAPE-seq은 pegRNA의 선정 과정에서 이용될 수 있다. 프라임 에디팅 시스템을 디자인하기 위해, 연구자는 다양한 종류의 pegRNA를 포함하는 pegRNA 라이브러리를 생성한다. pegRNA 라이브러리에 포함된 하나 이상의 pegRNA에 대해 TAPE-seq을 수행한다. 프라임 에디팅 시스템에 사용할 pegRNA를 선정한다. 이때 pegRNA의 선정에는 다음 중 하나 이상을 포함하는 기준이 이용될 수 있다: TAPE-seq을 통해 확인된 off-target 후보가 없거나 적은 pegRNA, 및 목적하는 편집을 수행할 수 있는 pegRNA.

전술한 바와 같이, TAPE-seq은 다양한 장면에서 사용될 수 있으며, TAPE-seq의 사용 양태는 전술한 예시에 제한되지 않는다.

이하, 실험예 또는 실시예를 통해 본 출원이 제공하는 발명에 대해 더욱 상세히 설명한다. 이들 실험예는 오로지 본 출원에 의해 개시되는 내용을 예시하기 위한 것으로, 본 명세서에 의해 개시되는 내용의 범위가 이들 실험예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.

실험예

실험예 개괄

본 출원의 발명자들은, 프라임 에디팅의 분자적 매커니즘에 기초한, 프라임 에디팅과 보다 직접적으로 관련된 오프 타겟 예측 방법인 TAPE-seq을 개발하였다. 나아가, 본 출원의 발명자들은 프라임 에디팅을 이용한 게놈 편집 과정에서 발생 가능한 오프 타겟의 예측 방법으로 새로이 개발된 TAPE-seq의 성능을, 알려진 GUIDE-seq 및 nDigenome-seq 등과 비교함을 통해, 확인하였다. 이하에서, 본 출원의 발명자들이 TAPE-seq을 개발하기 위해 진행된 실험 및 이로부터 도출된 결과들에 대하여 상세히 설명한다. 예시적으로, TAPE-seq에 대한 개략도가 도 07에 개시된다. 구체적으로, 도 07은 PE2를 사용한 TAPE-seq의 일부 과정을 도시한 것이다. Nick이 발생하는 가닥으로 태그 및 편집이 삽입되는 과정, 태그 및 편집이 최종적으로 게놈 DNA에 통합되는 과정, 및 태그를 분석하는 과정에 대한 개략도가 도 07에 개시된다.

실험예에서 사용되는 용어의 설명

본 실험예에 기재된 용어를 설명한다.

본 실험예에서, pegRNA는 일반적인 프라임 에디팅 가이드 RNA 뿐만 아니라, 태그 서열을 포함하는 경우 및/또는 3'말단에 부가적인 엔지니어링 요소를 더 포함하는 경우도 모두 포함하여 pegRNA로 지칭될 수 있다.

즉, 태그 주형을 포함하는 태그맨테이션 pegRNA (tpegRNA)는 pegRNA로 지칭될 수 있다. 통상의 기술자는 관련 단락의 내용이나 관련 데이터를 통해 pegRNA가 태그 서열을 포함하는지 또는 포함하지 않는지 확인할 수 있다. 나아가, 일부 실험예에서는 엔지니어된 pegRNA (engineered pegRNA; epegRNA)가 사용되었으며 (특히, epegRNA는 PEmax-nuclease와 함께 사용됨), 일부 설명 또는 결과에서 epegRNA는 편의상 pegRNA로 지칭되었다. 통상의 기술자는 관련 단락의 내용이나 관련 데이터를 통해 epegRNA의 사용 여부에 대해 확인할 수 있다.

사용된 pegRNA는 예를 들어, HEK4 (+2 G to T) pegRNA, 또는 HEK4 표적화된 (+2 G to T) pegRNA와 같이 지칭된다. 여기서, HEK4는 사용된 pegRNA가 표적하는 유전자를 나타낸다. 즉, HEK4 (+2 G to T) pegRNA는, 온타겟을 기준으로, “HEK4 유전자”의 어느 영역 (구체적으로, 스페이서 서열에 의해 특정되는 온타겟 서열)을 표적한다. 여기서, (+2 G to T)는 pegRNA가 유도하는 편집을 나타낸다. 예를 들어, HEK4 (+2 G to T) pegRNA는 nick 또는 DSB 발생 부위 (또는 DSB 발생 부위)로부터 “2번째 위치에 있는 뉴클레오타이드 G를 T로 치환”하는 편집을 유도할 수 있도록 디자인된 pegRNA를 나타낸다. + 는 nick 또는 DSB 발생 위치를 기준으로 3' 방향을 나타낸다. 더욱 구체적으로, PE2의 예에서, nick 발생 가닥 (즉, 스페이서 비-결합 가닥)을 기준으로 설명할 때, HEK4 (+2 G to T) pegRNA는 nick 발생 위치로부터 3' 방향에 위치한 G (게놈 DNA의 nick 발생 가닥에 존재함)를 T로 치환하는 편집을 유도할 수 있도록 디자인된 pegRNA를 나타낸다. 프라임 에디팅 매커니즘에 따르면, 스페이서 결합 가닥 또한 상기 스페이서 비-결합 가닥의 편집과 상보성을 가지는 편집으로 그 효과가 게놈에 통합된다. 본 실험예에서, 상기 예시 이외의 다른 pegRNA도 동일 또는 유사한 기준을 통해 명명되었다.

실험방법

플라스미드 컨스트럭션

sgRNA를 발현하는 플라스미드 pRG2(addgene #104174)를 pegRNA를 발현하는 플라스미드 (pRG2-pegRNA)를 생성하기 위해 변형하였다. 구체적으로 sgRNA 스캐폴드의 3' 말단에 있는 BsmBI 제한 부위에서 절단 후 깁슨 어셈플리를 수행하였다. 플라스미드는 BsaI 사이트 (스페이서 서열의 통합용) 및 BsmBI 사이트 (pegRNA의 3' 연장부의 통합용)을 포함하도록 변형되었다. PiggyBac PE2 올인원 플라스미드(pAllin1-PE2) (pAllin1-PE2의 예시는 도 93에 도시됨)를 생성하기 위해, piggyBac PE2-발현 플라스미드 DNA를 합성하고 클로닝하여 벡터(piggy-PE2)를 만들었다. 그 다음 이를 Mlu I로 분해하였다. pegRNA를 암호화하는 서열은 PCR에 의해 pRG2-pegRNA로부터 증폭되어 삽입 단편을 생성하였다. 삽입 단편은 깁슨 어셈플리를 통해 분해된 piggyBac PE2 벡터에 클로닝되었다. 다른 PE 올인원 플라스미드(pAllin1-PE4, pAllin1-PE2-nuclease, 및 pAllin1-PEmax-nuclease)는 pAllin1-PE2를 구성하는데 사용된 것과 동일한 절차를 사용하여 구성되었다. pRG2-epegRNA 벡터는 pRG2-pegRNA를 구성하는데 사용된 것과 동일한 절차를 사용하여 구성되었다. 구축된 모든 벡터 (pRG2-pegRNA, pAllin1-PE2, piggy-PE2, pRG2-epegRNA, pAllin1-PE4, pAllin1-PE2-nuclease, 및 pAllin1-PEmax-nuclease)의 DNA 서열은 실험예의 섹션 "벡터 서열"을 통해 개시된다.

인간 세포 배양 및 형질감염(transfection)

HEK293T (ATCC CRL-1268), HeLa (ATCC CCL-2), 및 K562 (Sigma 89121407) 세포를 37℃, 5% CO₂ 하에서, 10% FBS (fetal bovine serum) 및 1% 페니실린-스트렙토마이신(penicillin-streptomycin)을 포함하는 적절한 배지 [HEK293T 및 HeLa 세포주에 대해서는 Dulbecco's Modified Eagle Medium (DMEM); K562 세포주에 대해서는 Roswell Park Memorial Institute 1640 Medium (RPMI 1640)]에서 유지하였다. 1x10⁵ HEK293T 세포 또는 4 x10⁴ HeLa 세포를 24웰 플레이트에 시딩하여 형질감염을 준비하였다. 시딩(seeding) 하루 후, 세포를 적절한 양의 플라스미드(아래 참고) 및 2μl 리포펙타민 2000(Thermo Fisher Scientific)으로 형질감염하였다.

일시적 PE2 발현(transient PE2 expression)의 경우, 500 ng piggy-PE2 및 500ng pRG2-pegRNA가 사용되었다. 안정적 PE2 발현(stable PE2 expression)의 경우 850 ng pAllin1-PE2 및 150 ng piggyBac 트랜스포사제 발현 벡터 (piggyBac Transposase Expression Vector) (System Biosciences)가 사용되었다. 안정적인 PE4 발현(stable PE4 expression)의 경우, 880 ng pAllin1-PE4 및 120 ng piggyBac 트랜스포사제 발현 벡터가 사용되었다. 안정적인 PE2-EGFP 발현의 경우, 865 ng pAllin1-PE2-EGFP 및 135 ng piggyBac 트랜스포사제 발현 벡터가 사용되었다. 일시적 PE2-뉴클레아제 발현(transient PE2-nuclease expression)의 경우, 1000 ng pAllin1-PE2-뉴클레아제가 사용되었다. 일시적 PEmax-뉴클레아제 및 epegRNA 발현 (transient PEmax-nuclease and epegRNA expression)의 경우, 1000 ng pAllin1-PEmax-nuclease-epegRNA 가 사용되었다.

트랜스포존 및 piggybac 플라스미드는 약 2.5:1 (트랜스포존:트랜스포사제 플라스미드)의 몰 비로 사용되었다. 1x10⁵ K562 세포를 Neon 형질감염 시스템을 통해 위에서 언급한 양의 플라스미드로 전기천공하였다 (전기천공 조건: 1450V, 10 ms, 3 pulses). 형질감염 (또는 전기천공) 1일 후, 2mg/ml 농도의 퓨로마이신 (puromycin) (InvivoGen)을 사용하여 항생제 셀렉션(antibiotic selection)을 수행하였다. 퓨로마이신 셀렉션은 2주 (TAPE-seq 및 FACs(fluorescence activated cell sorting)의 경우), 4 주(표적화된 딥시퀀싱의 경우), 또는 2일 (PE2 뉴클레아제 또는 PEmax-뉴클레아제를 사용한 TAPE-seq의 경우; 퓨로마이신 셀렉션 후, 세포를 일반 배지에서 4일동안 추가적으로 배양함) 동안 수행되었다. 게놈 DNA는 제조사의 지침에 따라 Blood Genomic DNA Extraction Mini Kit (Favorgen)로 정제되었다.

TAPE-seq에서의 DNA 분석

TAPE-seq에서의 DNA 분석 방법에 대한 전체 설명은 후술되는 섹션 "TAPE-seq 에서의 DNA 분석: 구체적 방법"에 추가로 개시된다. 게놈 DNA는 Covaris M220 기기로 평균 325 bp의 길이로 전단(shear)되었고 1X AMPure XP beads (Beckman coulter)로 단리되었다. NEBNext® Ultra™ II DNA Library Prep Kit를 사용하여 제조업체의 프로토콜을 기초로 특정 반응 시간을 조금 수정(adaptor ligation, 1 h; treatment with Uracil-Specific Excision Reagent, 30 min)하여 차세대 시퀀싱 (next-generation sequencing; NGS) 라이브러리를 준비하였다. 태그- 및 어댑터-특이적 프라이머를 사용하여 이전에 설명된 GUIDE-seq 방법 (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Liang, Shun-Qing, et al. "Genome-wide detection of CRISPR editing in vivo using GUIDE-tag." Nature communications 13.1 (2022): 1-14.] 참조) 에 따라 태그-특이적 라이브러리 증폭을 수행하였다. 증폭된 라이브러리는 MiSeq 또는 HiSeq 플랫폼 (Illumina)으로 분석되었다.

페어드 엔드 (paired end) FASTQ 파일은 다음의 단계를 사용하여 처리(process)되었다:

1. BBDuk 프로그램을 사용하여 태그를 포함하는 서열을 수집하였다 (센스 라이브러리(+)에 대한 Tag 서열, 5'-GTTTAATTGAGTTGTCATATGT-3' (서열번호 57) 및 5'-ACATATGACAACTCAATTAAAC-3' (서열번호 58); 안티센스 라이브러리(-)에 대한 태그 서열, 5'-TTGAGTTGTCATATGTTAATAACGGTA-3' (서열번호 59)및 5'- TACCGTTATTAACATATGACAACTCAA-3' (서열번호 60)).

2. 필터링된 FASTQ 파일은 참조 게놈 (hg19)에 매핑되었고 리드 뎁스(read depth)는 BWA, Picard tools, 및 SAMtools 프로그램을 사용하여 계산되었다.

3. Cas-OFFinder3 (http://www.rgenome.net)을 사용하여 오프 타겟 후보(온타겟 사이트와 비교할 때 최대 4개의 미스매치 및/또는 2개의 bulges 포함)를 식별하였다.

4. Cas-OFFinder에 의해 식별된 사이트의 리드 뎁스는 사내(in-house) 스크립트를 사용하여 사이트 주변 -150 bp 에서 +150 bp 범위의 영역으로부터 추출되었다.

5. Short mapped sequence(길이가 30 bp 미만) 및 거짓 태그맨테이션 서열 (PE nick 사이트 외부에서 태그맨테이션이 발생한 경우)은 제외되었다.

TAPE-seq 에서의 DNA 분석: 구체적 방법

사용된 시약

Blood Genomic DNA Extraction Mini Kit (Favorgen, Cat No. FABGK 001);

AMPure XP beads (Beckman coulter, Cat No. A63881);

NEBNext^® Ultra™ II DNA Library Prep Kit for Illumina (NEB, Cat No. E7645L);

NEBNext adaptor (from NEBNext Singleplex kit) (NEB, Cat No. E7350);

Ethyl Alcohol 99.9% GR grade (DUKSAN, Cat No. UN1170);

TMAC Buffer, 5M (Sigma Aldrich, Cat No. T3411);

1X TE Buffer (Invitrogen, Cat No. 12090015);

Platinum^® Taq DNA Polymerase (Invitrogen, Cat No. 10966026);

dNTP Mix, 2.5 mM each (Elpis biotech, Cat No. EBN-1006);

Nuclease-Free Water (Ambion, Cat No. AM9932);

Q5 High-Fidelity DNA Polymerase (NEB, Cat No. M0491L);

microTUBE-50 AFA Fiber Screw-Cap (Covaris, Cat No. 520166).

사용된 장비

M220 Focused-ultrasonicator (Covaris);

T100 Thermocycler (Bio rad);

NEBNext^® Magnetic Separation Rack (NEB);

Nanodrop One C (Thermo);

MiSeq (Illumina);

HiSeq (Illumina);

사용된 올리고뉴클레오타이드

GSP1+: ATACCGTTATTAACATATGACA (서열번호 61);

GSP1-: GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 62);

GSP2+: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACATATGACAACTCAATTAAAC (서열번호 63);

GSP2-: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTGAGTTGTCATATGTTAATAACGGTA (서열번호 64);

Index Forward (illumina D501-508 index, N's denote Index sequences): AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGACG (서열번호 65);

Index Reverse (illumina D701-712 index): CAAGCAGAAGACGGCATACGAGATTANNNNNNNNGACTGGAGTTCAGACGTGTGCTC (서열번호 66).

게놈 DNA 전단 (Genomic DNA shearing)

1. Blood Genomic DNA Extraction Mini Kit을 사용하여 게놈 DNA(gDNA)를 분리한 다음, 정제된 gDNA를 1X TE 버퍼로 용출하고 농도를 나노드롭(nanodrop)으로 결정하였다.

2. M220 Focused-ultrasonicator를 사용하여 5μg의 gDNA를 평균 길이 325bp로 전단하였다. 소니케이션 조건에 대한 상세한 조건은 아래에 개시된다:

- Tube: microTUBE-50 AFA Fiber Screw-Cap

- 샘플 볼륨: 55 μl

- 온도 (°C): 20

- Peak Incident Power (W): 75

- Duty Factor (%): 10

- Cycles per Burst (cpb): 200

- 처리 시간 (sec): 90

3. 제조업체의 프로토콜에 따라, 55 μl의 AMPure XP beads (1X ratio)로 전단된 gDNA를 세척하고, 50 μl 1X TE 버퍼에서 용출하였다.

엔드 리페어, A-테일링, 및 NEBNext 어댑터 결찰 (End repair, A-tailing, and NEBNext adaptor ligation)

4. Illumina 용 NEBNext^® Ultra™ II DNA Library Prep Kit를 사용하여 1 μg의 전단된 gDNA를 NEBNext 어댑터로 결찰하였다. (하나의 TAPE-seq 반응에는 +(센스) 및 -(안티센스) 라이브러리 구축을 위한 adaptor-ligated gDNA 바이알 2개가 필요함)

5. 어댑터 연결 및 USER 엔자임 처리 반응 시간이 수정된 것을 제외하고, 모든 단계는 제조업체의 프로토콜을 사용하여 수행되었다 (어댑터 결찰, 1hr / USER 엔자임 처리, 30min).

6. 0.9X AMPure XP 비드로 반응물을 정제하고, 12 μl의 뉴클레아제-프리 워터에서 용출하였다.

태그-특이적 라이브러리 증폭을 위한 PCR (PCRs for Tag-specific library amplification)

Modified GUIDE-seq Discovery PCR이 태그-특이적 라이브러리 증폭에 사용되었다. + (센스) 및 - (안티센스) 라이브러리 구성을 위해, GSP+ 및 GSP- 프라이머가 별도로 각각의 + 및 - PCR 반응에 사용되었다.

7. + 및 - 라이브러리를 위한 1차 PCR 반응의 두개의 바이알을 준비하고 하기의 조건으로 1차 PCR을 수행하였다.

1차 PCR 혼합물의 조건은 하기에 개시된다:

- Nuclease-free water: 10.1 μl

- Buffer for Taq Polymerase, 10X (MgCl2 free): 3.0 μl

- dNTP Mix, 2.5 mM each: 2.4 μl

- MgCl2, 50 mM: 1.2 μl

- Platinum Taq polymerase, 5 U/μl: 0.3 μl

- GSP1+ 또는 GSP1- primer (10uM) (별도의 PCR 반응에 대하여): 0.75 μl

- D5_#(Index forward D501-D508): 0.75 μl

- TMAC (0.5M): 1.5 μl

- DNA 샘플(단계 6으로부터): 10.0 μl

- 총합: 30.0 μl

1차 PCR의 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:

- 95°C, 5 분;

- 15 cycles of [95°C for 30 s, 70°C (-1°C/cycle) for 2 min, 72°C for 30 s];

- 10 cycles of [95°C for 30 s, 55°C for 1 min, 72°C for 30 s];

- 72°C, 5 분; 및

- 4°C 홀드.

8. 0.9X AMPure XP 비드로 PCR 생성물을 세척하고 20 μl 뉴클레아지-프리 워터에 용출하였다.

9. 하기의 조건으로 2차 PCR 바이알을 준비하고 2차 PCR을 수행하였다.

2차 PCR 혼합물의 조건은 하기에 개시된다:

- Nuclease-free water: 3.6 μl

- Buffer for Taq Polymerase, 10X (MgCl2 free): 3.0 μl

- dNTP Mix, 2.5 mM each: 2.4 μl

- MgCl2, 50 mM: 1.2 μl

- Platinum Taq polymerase, 5 U/μl: 0.3 μl

- GSP2+ 또는 GSP2- Primer (10uM) (별도의 PCR 반응에 대하여): 1.5 μl

- D5_#(Index forward D501-D508): 1.5 μl

- TMAC (0.5M): 1.5 μl

- DNA 샘플(단계 8로부터): 15.0 μl

- 총합: 30.0 μl

2차 PCR 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:

- 95°C, 5분;

- 15 cycles of [95°C for 30 s, 70°C (-1°C/cycle) for 2 min, 72°C for 30 s];

- 10 cycles of [95°C for 30 s, 55°C for 1 min, 72°C for 30 s];

- 72°C, 5 분; 및

- 4°C 홀드.

10. 0.7X AMPure XP 비드로 PCR 생성물을 세척하고, 15 μl 뉴클레이즈-프리 워터에서 용출하였다.

11. 하기의 조건으로 3차 PCR 바이알을 준비하고 3차 PCR을 수행하였다.

3차 PCR 혼합물의 조건은 하기에 개시된다:

- Nuclease-free water: 20.5 μl

- 5X Q5 Reaction Buffer: 10.0 μl

- dNTP Mix, 2.5 mM each: 4.0 μl

- Q5 High-Fidelity DNA Polymerase: 0.5 μl

- D7_#(Index reverse D701-712): 2.5 μl

- D5_#(Index forward D501-D508): 2.5 μl

- DNA 샘플(단계 10으로부터): 10.0 μl

- 총합: 50.0 μl

3차 PCR의 열 사이클 조건 (Thermal cycler condition)은 하기에 개시된다:

- 98°C, 30초;

- 30 cycles of [98°C for 10 s, 58°C for 20 s, 72°C for 30 s];

- 72°C, 5 분; 및

- 4°C 홀드.

12. 0.7X AMPure XP 비드로 PCR 생성물을 세척하고 60 μl 뉴클레아제 프리 워터에서 용출하였다.

13. 2x150-bp paired end Mi-seq 또는 Hi-seq으로 정제된 PCR 생성물을 분석하였다.

표적화된 딥시퀀싱(targeted deep sequencing) 및 오프 타겟 부위의 검증

PE2 및 pegRNA의 발현 후, 표적 부위는 표적 딥시퀀싱 (targeted deep sequencing)을 통해 분석되었다. 딥시퀀싱 라이브러리는 PCR에 의해 생성되었다. TruSeq HT Dual Index 프라이머가 각 샘플의 라벨을 위해 사용되었다. 풀링된 라이브러리는 Miseq(Illumina)를 사용한 paired-end 시퀀싱에 적용되었다. Paired-end FASTQ 파일은 PE-Analyzer (http://www.rgenome.net)로 분석되었다.

다음의 두가지 조건을 만족하는 후보들이 '검증된 오프 타겟'으로 지정되었다:

1. 돌연변이, 삽입, 결실, 치환, 또는 주요 편집의 사건 중 적어도 하나의 빈도가 야생형 샘플보다 높음.

2. 프라임 에디팅으로만 생성될 수 있는 변이 서열 (주요 편집된 서열)이 존재함.

NGS의 검출 한계와 PCR 에러에 의해 생성되는 문제를 극복하기 위해, PE2가 4주 동안 안정적으로 발현된 세포를 사용하여 검증 실험을 수행하였고, 생물학적으로 독립적인 게놈 DNA를 사용하여 3회 반복 수행하였다. 검증율은 검증된 표적의 수를 '검증된 표적의 수와 위양성 표적의 수의 합'으로 나누어 계산하였다. 분석되지 않은 표적은 검증율 계산에서 제외되었다.

프라임 에디팅 태그맨테이션 분석

태그 서열의 존재는 태그맨테이션으로 정의되었다. 태그를 포함하는 pegRNA를 통해 게놈 DNA의 편집 가닥(스페이서와 결합하지 않는 가닥)에 통합되는 태그 서열에 대한 정보는 다음과 같다:

34-bp 전체 길이 태그: GTTTAATTGAGTTGTCATATGTTAATAACGGTAT (서열번호 48);

29-bp 태그: GTTTAATTGAGTTGTCATATGTTAATAAC (서열번호 49);

19-bp 태그: GTTTAATTGAGTTGTCATA (서열번호 50).

PE-Analyzer (http://www.rgenome.net)가 태그맨테이션이 발생한 리드를 식별하기 위해 사용되었다 (문헌 [Hwang, Gue-Ho, et al. "PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing." Nucleic acids research 49.W1 (2021): W499-W504.] 참조). 태그맨테이션 케이스 1 및 케이스 2는 서열 분석으로 구분되었다. TAPE-seq 리드가 NGS에 의해 분석된 후, 전체 길이 태그 서열을 포함하는 리드만 선별되었다. 그런 다음, 태그 서열을 분석을 위해 서열으로부터 제거하고, 남은 서열을 태그 서열이 없는 pegRNA로 프라임 에디팅을 거친 세포의 표적화된 딥시퀀싱으로부터의 NGS 리드와 비교하였다.

케이스 1은 태그 서열을 제거한 후의 에디팅 패턴이, 태그 서열이 없는 pegRNA로 생성된 에디팅 패턴과 동일함을 의미한다. 해당 패턴을 찾을 수 없으면, 서열은 케이스 2로 분류되었다.

PiggyBac 카피수(copy number) 분석

통합된 piggyBac 트랜스포존의 평균 복제 수를 정량화하기 위해, piggyBac vector의 5' 역반복(inverted repeat; IR) 방향의 프라이머 세트를 사용하였다. 5' IR을 증폭하기 위해 사용된 정방향 프라이머 및 역방향 프라이머의 서열은 각각 5'-CTAAATAGCGCGAATCCGTC-3' (서열번호 67) 및 5-'TCATTTTGACTCACGCGG-3' (서열번호 68) 이었다. 형질감염되지 않은 HEK293T 게놈 DNA와 카피수가 알려진 연속 희석된 piggyBac 플라스미드의 혼합물을 사용하여 생성된 스탠다드 커브를 사용하여 카피수(copy numbers)가 계산되었다. PowerUp SYBR Green Master Mix (Applied Biosystems)와 함께 QuantStudio 3 Real Time PCR System (Applied Biosystems)을 사용하여 실시간 PCR (Real-time PCR)을 수행하였다.

GFP-발현 세포의 FACS

퓨로마이신 셀렉션 2주 후, 세포를 인산염 완충 식염수(phosphate buffered saline)로 세척하고 트립신-EDTA로 플레이트에서 분리하였다. 세포를 실온에서 5분 동안 500xg에서 원심분리하고, 2% FBS가 포함된 인산염 완충 식염수에 재현탁하였다. GFP 양성 세포는 Attune NxT Acoustic Focusing Cytometer (Thermo Scientific)를 사용하여 분리되었다. Attune NxT software v4.2.0을 사용하여 원시 데이터를 분석하였다.

통계 및 재현성 (Statistics & Reproducibility)

이전 nDigenome-seq 논문 (문헌 [Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조)에서 연구된 10개의 샘플 사이트를 분석하였다. 분석에서 제외된 데이터는 없다. 통계 분석은 Prism (version 9.4.1)으로 수행되었으며, two-sided unpaired student t-test의 결과가 개시된다.

데이터 가용성 (Data availability)

본 연구결과를 뒷받침하는 딥시퀀싱 데이터는 NCBI Bioproject (https://www.ncbi.nlm.nih.gov/bioproject/)에 엑세스 코드 PRJNA802977 (accession codes PRJNA802977)로 기탁되었다. 소스 데이터는 소스 데이터 파일로 제공된다.

코드 가용성 (Code availability)

본 연구 결과를 뒷받침하는 코드는 온라인 기록 보관소에 보관되었다. (https://github.com/PhyzenInc/TAPE-seq_flanking_depth)

분석 데이터

본 실험 방법을 통해 얻어진 분석 데이터들은 표를 통해 이하의 섹션 "결과"의 아래에 개시되는 섹션 "분석 데이터에 대한 표"에서 제공된다.

결과

태그맨테이션율(tagmentation rate)의 최적화

실험적 전 게놈(genome-wide) 오프 타겟 예측 방법은 세포 기반(cell-based) 방법 또는 in vitro 기반 방법으로 구분될 수 있다. 프라임 에디팅은 플랩 엔도뉴클레아제, 엑소뉴클레아제, 및 리가아제 등을 포함하는 다수의 세포 효소가 관여되는 다단계 과정(multi-step process)이기 때문에, 이러한 복잡한 세포 과정을 밀접하게 모방하는 in vitro 기반 방법은 개발되기 어렵다. 반면에 종래의 대부분의 세포 기반 방법은 온타겟(on-target) 및 오프 타겟 (off-target) 유전자좌(loci)에 태그 서열을 도입하여 이후 단계에서 PCR로 증폭시킬 수 있도록 한다. 그러나, 프라임 에디팅 버전 2인 PE2는 DSB(double strand breaks)를 일으키지 않고 표적에 nick을 발생시키기 때문에, 이중 가닥 올리고뉴클레오티드 또는 바이러스 DNA 단편을 태그로 삽입하는 것은 불가능하다.

PE2는 그 자체로 임의의 짧은 서열을 대상 사이트에 삽입할 수 있는 기능을 갖는다. 따라서, 본 출원의 발명자들은 PBS(primer binding site)와 RT 템플릿(reverse transcriptase template) 서열 사이에 태그 주형(tag template)(편의상 태그 서열 또는 태그로 지칭될 수 있음)이 위치하는 pegRNA를 설계하였다. 태그의 경우, GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.] 참조)에서 사용되는 것과 동일한 시퀀스가 선택되었다. 다양한 기원의 세포에서 작동하는 것이 입증되었기 때문이다.

본 출원의 발명자들은 이전 연구의 검증 실험에서 사용된 PBS 및 RT 주형의 서열을 TAPE-seq과 관련된 실험에 사용하였다. 이전 연구에서는 GUIDE-seq 및 nDigenome-seq을 예측 도구로 하여 검증 실험을 진행하였다 (문헌 [Anzalone, Andrew V., et al. "Search-and-replace genome editing without double-strand breaks or donor DNA." Nature 576.7785 (2019): 149-157.; 및 Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조). 이하에서, 본 TAPE-seq의 연구에 사용된 태그를 포함하는 pegRNA 및 pegRNA에 포함된 각 요소의 서열, 및 태그를 포함하는 epegRNA(epegRNA는 PEmax-뉴클레아제와 함께 사용됨)의 서열 및 epegRNA에 포함된 각 요소의 서열이 개시된다.

HEK4 (+2 G to T) pegRNA

- 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCAAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCUUUUUU (서열번호 69)

- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 70)

- RT 주형의 서열: UUAACCCCAA (서열번호 71)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 72)

- PBS: CCUCCAGCC (서열번호 73)

HEK4 　(+3　TAA　ins) pegRNA

- pegRNA의 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCUUACAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCUUUUUU (서열번호 74)

- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 75)

- RT 주형의 서열: UUAACCCCUUACA (서열번호 76)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 77)

- PBS의 서열: CCUCCAGCC (서열번호 78)

HBB 　(+4　A　to　T) pegRNA

- pegRNA의 전체 서열: CAUGGUGCACCUGACUCCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAGACUUCUCCACAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGAGUCAGGUGCACUUUUUU (서열번호 79)

- 스페이서의 서열: CAUGGUGCACCUGACUCCUG (서열번호 80)

- RT 주형의 서열: AGACUUCUCCACAG (서열번호 81)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 82)

- PBS의 서열: GAGUCAGGUGCAC (서열번호 83)

HEK3 　(+1　CTT　ins) pegRNA

- pegRNA의 전체 서열: GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUCUGCCAUCAAAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCGUGCUCAGUCUGUUUUUU (서열번호 84)

- 스페이서의 서열: GGCCCAGACUGAGCACGUGA (서열번호 85)

- RT 주형의 서열: UCUGCCAUCAAAG (서열번호 86)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 87)

- PBS의 서열: CGUGCUCAGUCUG (서열번호 88)

FANCF 　(+6　G　to　C) pegRNA

- pegRNA의 전체 서열: GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGGAAAAGCGAUGCAGGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGCUGCAGAAGGGAUUUUUUU (서열번호 89)

- 스페이서의 서열: GGAAUCCCUUCUGCAGCACC (서열번호 90)

- RT 주형의 서열: GGAAAAGCGAUGCAGGU (서열번호 91)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 92)

- PBS의 서열: GCUGCAGAAGGGAU (서열번호 93)

EMX1 　(+5　G　to　T) pegRNA

- pegRNA의 전체 서열: GAGUCCGAGCAGAAGAAGAAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAUGGGAGCACUUCAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUUCUGCUCGGACUUUUUU (서열번호 94)

- 스페이서의 서열: GAGUCCGAGCAGAAGAAGAA (서열번호 95)

- RT 주형의 서열: AUGGGAGCACUUC (서열번호 96)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 97)

- PBS의 서열: UUCUUCUGCUCGGAC (서열번호 98)

DNMT1 　(+6　G　to　C) pegRNA

- pegRNA의 전체 서열: GAUUCCUGGUGCCAGAAACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGUCACGCCUGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUGGCACCAGGUUUUUU (서열번호 99)

- 스페이서의 서열: GAUUCCUGGUGCCAGAAACA (서열번호 100)

- RT 주형의 서열: GUCACGCCUGU (서열번호 101)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 102)

- PBS의 서열: UUCUGGCACCAGG (서열번호 103)

RUNX1 　(+6　G　to　C) pegRNA

- pegRNA의 전체 서열: GCAUUUUCAGGAGGAAGCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUGUCUGAAGGCAUCGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCUUCCUCCUGAAAAUUUUUUU (서열번호 104)

- 스페이서의 서열: GCAUUUUCAGGAGGAAGCGA (서열번호 105)

- RT 주형의 서열: UGUCUGAAGGCAUCG (서열번호 106)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 107)

- PBS의 서열: CUUCCUCCUGAAAAU (서열번호 108)

VEGFA 　(+5　G　to　T) pegRNA

- pegRNA의 전체 서열: GAUGUCUGCAGGCCAGAUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAAUGUGCCAUCUGGAGCACUCAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUCUGGCCUGCAGAUUUUUU (서열번호 109)

- 스페이서의 서열: GAUGUCUGCAGGCCAGAUGA (서열번호 110)

- RT 주형의 서열: AAUGUGCCAUCUGGAGCACUCA (서열번호 111)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 112)

- PBS의 서열: UCUGGCCUGCAGA (서열번호 113)

RNF2 　(+6　G　to　A) pegRNA

- pegRNA의 전체 서열: GUCAUCUUAGUCAUUACCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAACGAACACCGCAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGUAAUGACUAAGAUGUUUUUU (서열번호 114)

- 스페이서의 서열: GUCAUCUUAGUCAUUACCUG (서열번호 115)

- RT 주형의 서열: AACGAACACCGCAG (서열번호 116)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 117)

- PBS의 서열: GUAAUGACUAAGAUG (서열번호 118)

HEK4 　(+2　G　to　T) epegRNA

- pegRNA의 전체 서열: GGCACUGCGGCUGGAGGUGGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUAACCCCAAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCCUCCAGCCAUCUUAACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 119)

- 스페이서의 서열: GGCACUGCGGCUGGAGGUGG (서열번호 70)

- RT 주형의 서열: UUAACCCCAA (서열번호 71)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 72)

- PBS: CCUCCAGCC (서열번호 73)

- 링커의 서열: AUCUUAAC (서열번호 120)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 121)

HBB 　(+4　A　to　T) epegRNA

- pegRNA의 전체 서열: CAUGGUGCACCUGACUCCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAGACUUCUCCACAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGAGUCAGGUGCACAAAUAAAGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 122)

- 스페이서의 서열: CAUGGUGCACCUGACUCCUG (서열번호 80)

- RT 주형의 서열: AGACUUCUCCACAG (서열번호 81)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 82)

- PBS의 서열: GAGUCAGGUGCAC (서열번호 83)

- 링커의 서열: AAAUAAAG (서열번호 123)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 124)

HEK3 　(+1　CTT　ins) epegRNA

- pegRNA의 전체 서열: GGCCCAGACUGAGCACGUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUCUGCCAUCAAAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCGUGCUCAGUCUGUUAAACUUCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 125)

- 링커의 서열: UUAAACUU (서열번호 126)

- 스페이서의 서열: GGCCCAGACUGAGCACGUGA (서열번호 85)

- RT 주형의 서열: UCUGCCAUCAAAG (서열번호 86)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 87)

- PBS의 서열: CGUGCUCAGUCUG (서열번호 88)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 127)

FANCF 　(+6　G　to　C) epegRNA

- pegRNA의 전체 서열: GGAAUCCCUUCUGCAGCACCGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGGAAAAGCGAUGCAGGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGCUGCAGAAGGGAUAUAGAACGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 128)

- 스페이서의 서열: GGAAUCCCUUCUGCAGCACC (서열번호 90)

- RT 주형의 서열: GGAAAAGCGAUGCAGGU (서열번호 91)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 92)

- PBS의 서열: GCUGCAGAAGGGAU (서열번호 93)

- 링커의 서열: AUAGAACG (서열번호 129)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 130)

EMX1 　(+5　G　to　T) epegRNA

- pegRNA의 전체 서열: GAGUCCGAGCAGAAGAAGAAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAUGGGAGCACUUCAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUUCUGCUCGGACAAUAUUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 131)

- 스페이서의 서열: GAGUCCGAGCAGAAGAAGAA (서열번호 95)

- RT 주형의 서열: AUGGGAGCACUUC (서열번호 96)

- 태그 주형의 서열: AUACCGUUAUUAACAUAUGACAACUCAAUUAAAC (서열번호 97)

- PBS의 서열: UUCUUCUGCUCGGAC (서열번호 98)

- 링커의 서열: AAUAUUAC (서열번호 132)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 133)

DNMT1 　(+6　G　to　C) epegRNA

- pegRNA의 전체 서열: GAUUCCUGGUGCCAGAAACAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCGUCACGCCUGUAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUUCUGGCACCAGGCUAACUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 134)

- 스페이서의 서열: GAUUCCUGGUGCCAGAAACA (서열번호 100)

- RT 주형의 서열: GUCACGCCUGU (서열번호 101)

- PBS의 서열: UUCUGGCACCAGG (서열번호 103)

- 링커의 서열: CUAACUAC (서열번호 135)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 136)

RUNX1 　(+6　G　to　C) epegRNA

- pegRNA의 전체 서열: GCAUUUUCAGGAGGAAGCGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUGUCUGAAGGCAUCGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACCUUCCUCCUGAAAAUAUCCUACCCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 137)

- 스페이서의 서열: GCAUUUUCAGGAGGAAGCGA (서열번호 105)

- RT 주형의 서열: UGUCUGAAGGCAUCG (서열번호 106)

- PBS의 서열: CUUCCUCCUGAAAAU (서열번호 108)

- 링커의 서열: AUCCUACC (서열번호 138)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 139)

VEGFA 　(+5　G　to　T) epegRNA

- pegRNA의 전체 서열: GAUGUCUGCAGGCCAGAUGAGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAAUGUGCCAUCUGGAGCACUCAAUACCGUUAUUAACAUAUGACAACUCAAUUAAACUCUGGCCUGCAGAAAGAAAGGCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 140)

- 스페이서의 서열: GAUGUCUGCAGGCCAGAUGA (서열번호 110)

- RT 주형의 서열: AAUGUGCCAUCUGGAGCACUCA (서열번호 111)

- PBS의 서열: UCUGGCCUGCAGA (서열번호 113)

- 링커의 서열: AAGAAAGG (서열번호 141)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 142)

RNF2 　(+6　G　to　A) epegRNA

- pegRNA의 전체 서열: GUCAUCUUAGUCAUUACCUGGUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCAACGAACACCGCAGAUACCGUUAUUAACAUAUGACAACUCAAUUAAACGUAAUGACUAAGAUGUAAUAUACCGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAAUUUUUU (서열번호 143)

- 스페이서의 서열: GUCAUCUUAGUCAUUACCUG (서열번호 115)

- RT 주형의 서열: AACGAACACCGCAG (서열번호 116)

- PBS의 서열: GUAAUGACUAAGAUG (서열번호 118)

- 링커의 서열: UAAUAUAC (서열번호 145)

- RNA 모티프의 서열: CGCGGUUCUAUCUAGUUACGCGUUAAACCAACUAGAA (서열번호 146)

개발된 오프 타겟 예측 방법의 신호 대 잡음비(signal-to-noise ratio)는 온타겟 및 오프타겟 위치에서 태그 삽입의 효율에 비례할 것이다. 본 출원의 발명자들은, 먼저, 온타겟 위치에의 태그 통합에 대한 실험 조건을 최적화하였다. PE2 및 태그 서열을 포함하는 HEK4-표적화 pegRNA(+2 G to T 편집, 닉에 대하여 번호가 매겨짐)를 암호화하는 플라스미드를 HEK293T 세포에 일시적으로 형질감염(transfection) 시켰을 때, 0.011%의 태그 통합율이 관찰되었다. 이러한 비율을 개선하기 위해서, 본 출원의 발명자들은 piggyBac 시스템 (문헌 [Li, Xianghong, et al. "piggyBac transposase tools for genome engineering." Proceedings of the National Academy of Sciences 110.25 (2013): E2279-E2287.] 참조)에서 PE2 및 pegRNA를 암호화하는 올인원(all-in-one) 벡터를 구성하였다. 이 벡터를 트랜스포사제(transposase)로 형질감염시켜 안정한 세포주를 구축하였다.

이 상황에서, 태그 통합 (태그맨테이션, tagmentation) 비율은 퓨로마이신 셀렉션(puromycin selection) 14일 후에 2% 이상으로 증가하였다. 결과는 도 08에 개시된다. 구체적으로, 2일 또는 14일 이후의 태그맨테이션율이 도 08에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test).

GFP-piggyBac 구축물을 통한 형질감염 후 14일 동안의 퓨로마이신 셀렉션은 녹색 형광 단백질 (GFP) 양성 세포를 성공적으로 농축하였다 (도 09 내지 도 15 참고). 14일 동안의 퓨로마이신 셀렉션은 GFP-piggyBac 구축물로 형질감염된 세포를 풍부하게 하였다. 도 09는 GFP-piggyBac 벡터의 맵을 나타낸다. GFP는 E2A 서열을 통해 PE2에 연결된다.

양성 세포의 농축 결과는 도 10 내지 도 15에 개시된다. 구체적으로, 도 10 내지 도 15는 세가지 다른 형질감염된 세포 집단 (HEK293T, HeLa, K562)에서 GFP 발현을 검출하기 위한 FACS 기반 분석 결과를 나타낸다. 세포 집단은 SSC-A vs. FSC-A으로 게이팅되었고 GFP+ 집단이 SSC-A에 대해 플롯되었다. 실험은 3회 (1차, 2차, 및 3차) 수행되었다.

배양 시간을 2주에서 7주로 연장하더라도 발견된 표적 수의 개수의 향상은 유의미하지 않았다. 배양 시간에 따른 표적 수에 대한 결과는 도 16에 개시된다. 구체적으로, 도 16은 HEK4 (+2G to T) pegRNA를 HEK294T 세포로 형질감염시킨 후의 인큐베이션 시간 별, TAPE-seq에 의해 발견된 후보 오프타겟 부위의 수를 나타낸다.

본 출원의 발명자들은 2주 (5329899), 4주 (5313548), 6주 (2324242), 및 7주 (4021702)의 샘플에 유사한 수의 Mi-seq 리드를 할당하였다 (분석 데이터 3, 표 11 참고). 4주 (2369), 6주 (1060), 및 7주 (1594) 샘플과 비교할 때 2주 샘플(62565)에서 더 많은 수의 온타겟 리드가 나타났고 (분석 데이터 2, 표 02 내지 표 10 참고), 이는 2주 샘플의 TAPE-seq 분석으로부터 얻은 신호 대 잡음비가 다른 샘플보다 높은 것을 나타낸다. 따라서, 후속 연구에서는 2주 동안의 퓨로마이신 셀렉션이 수행되었다.

본 출원의 발명자들은 트랜스포사제 플라스미드로 공동 형질감염(co-transfection)시키기 위한 최적의 piggyBac 벡터의 양을 찾아 태그맨테이션율(tagmentation rate)을 더욱 최적화하였다. 50ng 내지 1000ng의 양이 테스트되었다. 결과는 도 17 내지 도 19에 개시된다. 도 17 내지 도 19에서, PB는 PiggyBac을 나타낸다.

구체적으로, 도 17은 HEK293T 세포를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 정량적 PCR을 통해 세포에서 발견된 piggyBac 구축물의 복제수(copy number)를 도시한 그래프이다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test).

도 18는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 온타겟 위치에서의 태그맨테이션율을 도시한 그래프이다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 여기서, 온타겟 위치는 HEK4 (+2 G to T) pegRNA에 대한 온타겟 위치를 나타낸다.

도 19는 HEK293T를 형질감염시키기 위해 사용된 piggyBac 플라스미드의 양(ng) 별, 오프 타겟 위치 (off-target site 1) 1에서의 태그맨테이션율을 도시한 그래프이다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 여기서, 오프 타겟 위치 1은 HEK4 (+2 G to T) pegRNA에 대한 오프 타겟 위치 중 하나를 나타낸다. PiggyBac 벡터의 복제 수(copy numbers)를 측정하였을 때, 1000ng이 가장 높은 값을 나타냈다. 나아가, 1000 ng은 온타겟 및 오프타겟 부위에서 지속적으로 높은 태그맨테이션 비율을 나타내었다. 따라서, 본 출원의 발명자들은 이후의 TAPE-seq에서 1000ng의 piggyBac 벡터를 형질감염시켰다.

다음으로, 프로브 서열(태그 주형 또는 태그)의 길이 별로 태그맨테이션 비율이 다를 수 있기 때문에, 다양한 길이의 프로브 서열에 대한 테스트가 진행되었다. 19 내지 34 bp 길이의 프로브 서열에 대한 테스트가 진행되었다. 테스트 결과, HEK4 를 타겟하는 pegRNA (+2G to T)의 온타겟 부위에서는, 19-bp 길이의 프로브 서열이 34-bp의 프로브 서열과 비교할 때 더 높은 통합율을 보였다 (도 20 참고). 오프타겟 부위 중 하나에서는 반대의 경향이 관찰되었다 (도 21 참고). 결과는 도 20 내지 도 21에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test).

구체적으로, 프로브 서열의 길이에 따른, HEK4 (+2 G to T) pegRNA의 온타겟 사이트에서의 태그맨테이션율에 대한 그래프가 도 20 에 개시된다. 도 20 (a)는 HEK293T 세포에 대한 결과이다. 도 20 (b)는 HeLa 세포에 대한 결과이다. 도 20 (c)는 K562 세포에 대한 결과이다.

구체적으로, 프로브 서열의 길이에 따른, HEK4 (+2 G to T) pegRNA의 오프 타겟 사이트 1 에서의 태그맨테이션율에 대한 그래프가 도 21에 개시된다. 도 21 (a)는 HEK293T 세포에 대한 결과이다. 도 21 (b)는 HeLa 세포에 대한 결과이다. 도 21 (c)는 K562 세포에 대한 결과이다.

TAPE-seq의 일부 목적이 오프 타겟 사이트의 태그화이고, GUIDE-seq 실험 및 분석이 34-bp 길이의 태그 서열을 사용하여 최적화되었기 때문에, 본 출원의 발명자들은 이후의 분석에서 34bp 길이의 서열을 사용하기로 결정하였다. GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Malinin, Nikolay L., et al. "Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq." Nature Protocols 16.12 (2021): 5592-5615.] 참조) 및 이전 모델인 AMP(anchored multiplex PCR) (문헌 [Zheng, Zongli, et al. "Anchored multiplex PCR for targeted next-generation sequencing." Nature medicine 20.12 (2014): 1479-1484.] 참조) 방법은 높은 특이성을 보장하기 위해 중첩된 PCR 단계를 포함하고, 이는 두개의 단방향 프라이머(unidirectional primers)를 사용하여 달성된다. 프라이머가 AMP 분석을 위해 17개의 다른 타겟에 대해 최적화되었을 때 (문헌 [미국 특허, 등록번호 9,487,828 B2; inv. Iafrate, A.J., et al.] 참조), 두개의 탠덤 프라이머를 사용하면 35bp 내지 71bp 길이의 타겟 프라이밍 사이트가 생성되었으며, 평균은 46bp이고 중앙값은 44bp이었다. 본 출원의 발명자들은 표적 프라이밍 사이트의 길이를 34bp에서 19bp로 줄이면, GUIDE-seq 및 AMP 방법에서 중첩된 PCR(nested PCR)로 얻은 높은 특이성을 제거할 것이라고 추측하였다. 실제로, 프로브 서열의 길이가 34bp에서 19bp로 줄어들었을 때, Nucleotide BLAST (문헌 [Altschul, Stephen F., et al. "Basic local alignment search tool." Journal of molecular biology 215.3 (1990): 403-410.; 및 Zhang, Zheng, et al. "A greedy algorithm for aligning DNA sequences." Journal of Computational biology 7.1-2 (2000): 203-214.] 참조)의 히트 수는 1에서 대략 4000으로 급증하였고, 이는 전 게놈(whole-genome) 미스 프라이밍(mis-priming) 가능성이 4000배 높아졌음을 제안한다. 결과적으로 낮은 신호 대 잡음 비 (signal-to-noise ratio)를 보임을 나타낸다. GUIDE-seq에 사용된 34-bp 프로브 서열은, 6번의 다른 경우에서, GUIDE-seq에서 성공적으로 온 타겟 및 오프타겟 사이트에 태그되었기 때문에, 본 출원의 발명자들은 후속 분석에 34-bp 서열을 사용하기로 결정하였다.

태그 서열을 포함하고 서로 다른 유전자를 표적으로 하는 9개의 서로 다른 각각의 pegRNAs가 있는 최적화된 조건에서 배양된 샘플에 대해, 태그맨테이션 비율을 측정했을 때, 모든 타겟에서 태그맨테이션이 관찰되었다. 결과는 도 22에 개시된다. 구체적으로, 도 22는 9개의 다른 pegRNA의 온타겟 사이트에서의 태그맨테이션율 및 프라임 에디팅 율을 나타낸다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해; Two-sided unpaired student-t test). 태그 서열을 포함하는 pegRNA 및 태그 서열이 없는 상응하는 pegRNA에 대한 각각의 결과가 측정되었다.

나아가, 본 출원의 발명자들은 이전에 nDigenome-seq에 의해 식별된 1개의 온타겟 유전자좌 및 5개의 오프타겟 유전자좌의 태그맨테이션율을 비교하였다. 결과는 도 23에 보여진다. 구체적으로, 도 23은 HEK4 (+2 G to T) 및 HBB (+4 A to T) pegRNAs의 6개의 타겟 사이트 (온타겟 및 오프타겟 사이트)에 대한 태그맨테이션율에 대한 그래프를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해).

오프 타겟 유전자좌 중 하나가 100%에 가까운 태그맨테이션율을 보였기 때문에, 앞서 언급된 태그맨테이션 단계의 조건으로 다음 단계를 진행하였다.

온타겟 및 오프타겟 태그맨테이션의 패턴 분석

본 출원의 발명자들은 태그 서열이 있는 pegRNA를 사용하여 얻은 각 프라임 편집된 샘플에 대한 온타겟 유전자좌에서 프라임 에디팅 패턴을 비교하였다. pegRNA에 태그 서열의 추가는 두가지 대체 통합(integration) 시나리오를 보일 수 있다.

첫번째 케이스(Case 1)는 다음과 같다: 34-bp 태그 서열은 프라임 에디팅의 나머지 패턴을 교란하지 않고 삽입됨; 따라서 34-bp의 프로브 서열을 이 패턴으로부터 제거하면, 태그가 없는 pegRNA에 의해 유도된 프라임 에디팅 패턴과 동일함.

두번째 케이스(Case 2)는 다음과 같다: 태그 통합은 프라임 에디팅의 나머지 패턴을 교란함; 34-bp의 태그 서열을 이 패턴으로부터 제거하면, 태그가 없는 pegRNA에 의해 유도된 프라임 에디팅 패턴과 다름.

9개의 서로 다른 pegRNAs에 대한 온 타겟 및 오프 타겟 유전자좌의 태그 통합 패턴이 표적화된 딥시퀀싱 분석 및 PE-Analyzer (문헌 [Hwang, Gue-Ho, et al. "PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing." Nucleic acids research 49.W1 (2021): W499-W504.] 참조)으로 분석되었다. 대부분의 태깅된 샘플은 Case 1의 시나리오에 대응되었다. 결과는 도 24에 보여진다. 구체적으로, 도 24는 표적화된 딥시퀀싱(targeted deep sequencing) 및 PE-analyzer를 이용하여 결정된 Case 1 및 Case 2 에디팅의 비율을 나타낸다.

나아가, Case 1 샘플의 추가적 분석은 대부분 태그와 프라임 에디팅(편집)이 모두 포함되어 있음을 밝혔다. 단지 작은 일부만이 프라임 에디팅 없이 태깅되었다 (분석 데이터 1, 표 01 참고). 결과는 도 25에 개시된다. 구체적으로, 도 25은 10개의 상이한 온타겟 및 오프타겟 사이트에 대한 분석 결과 나타내며, 프라임 에디팅 편집이 있는 태그맨테이션과 프라임 에디팅 편집이 없는 태그맨테이션에 대한 결과가 개시된다 (에러 바는 표준편자를 나타냄; n=3, 독립적인 형질감염에 대해).

이러한 결과로부터, 본 출원의 발명자들은 태그 서열의 존재가 온타겟 사이트와 오프타겟 사이트에서의 프라임 에디팅 패턴에 최소한의 영향만을 미친다는 것(즉, 영향이 거의 없음)을 확인하였다.

PE2의 전게놈 오프 타겟 효과를 예측하기 위한 태그가 삽입된 (태그된) 게놈 DNA의 분석

본 출원의 발명자들은 태그가 통합된 (즉, 태깅된) 게놈 DNA (즉, tagmented genomic DNA)를 정제하고 TAPE-seq 라이브러리를 생성하기 위한 태그-특이적 증폭을 위해 GUIDE-seq (문헌 [Tsai, Shengdar Q., et al. "GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases." Nature biotechnology 33.2 (2015): 187-197.; 및 Malinin, Nikolay L., et al. "Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq." Nature Protocols 16.12 (2021): 5592-5615.] 참조) 으로부터의 프로토콜을 사용하여 처리하였다. 이전 분석 (문헌 [Kim, Do Yon, et al. "Unbiased investigation of specificities of prime editing systems in human cells." Nucleic acids research 48.18 (2020): 10576-10589.] 참조)에서, HEK4를 표적하는 pegRNAs는 다른 부위를 표적하는 pegRNA들과 비교하였을 때 다수의 검증된 비표적 부위와 관련이 있었다. 이에, 본 출원의 발명자들은 HEK4 부위를 케이스 스터디로써 사용하여 TAPE-seq 프로토콜을 최적화하였다.

먼저, 본 출원의 발명자들은 MiSeq 및 HiSeq으로, PE2 및 HEK4 (+2 G to T) pegRNA 및 PE2를 암호화하는 플라스미드로 세포를 형질감염시킨 후 생성된 동일한 게놈 DNA풀로 만든 TAPE-seq 라이브러리를 분석하였다. 결과는 벤다이어그램 (도 26)을 통해 요약된다. 구체적으로, 도 26은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4-targeted pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타내는 벤다이어그램을 개시한다. 도 26에서, HEK4 (+2 G to T) 의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트; 및 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.

HiSeq (53,771,178 reads)은 더 많은 오프타겟 사이트를 밝혀내지 않았으며, 이는 MiSeq의 리드 수 (2,251,379 reads)가 이 분석에 충분히 크다는 것을 나타낸다.

나아가, 본 출원의 발명자들은 HEK4 (+2 G to T) pegRNA 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 비교하였다. 결과는 도 27 내지 도 28에 개시된다. 구체적으로, 도 27 내지 도 28은 검증된 부위 및 TAPE-seq에 의해 예측된 HEK4-targeted pegRNA의 오프 타겟 사이트에 대한 비교 결과를 나타내는 벤다이어그램을 개시한다.

도 27과 관련하여, HEK4 (+3 TAA ins)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.

도 28과 관련하여, HEK4 (+2 G to T)의 검증된 사이트; Mi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트와 Hi-seq을 사용하여 TAPE-seq에 의해 예측된 HEK4 (+2 G to T)의 오프 타겟 사이트의 결합; 및 TAPE-seq에 의해 예측된 HEK4 (+3 TAA ins) (Mi-seq)의 오프 타겟 사이트에 대한 비교 결과가 개시된다.

벤다이어그램에 요약된 결과는, HEK4 (+2 G to T) pegRNA가 처리된 샘플의 TAPE-seq 분석이 HEK4 (+3 TAA ins) pegRNA의 TAPE-seq 분석에서 놓친 HEK4 (+3 TAA ins) pegRNA에 대한 검증된 오프 타겟을 정확히 예측하였음을 보여준다. 벤다이어그램에 요약된 결과는 또한 HEK4 (+3 TAA ins) pegRNA가 처리된 샘플의 TAPE-seq 분석이 HEK4 (+2 G to T) pegRNA의 TAPE-seq 분석에서 놓친 HEK4 (+2 G to T) pegRNA에 대한 검증된 오프 타겟을 정확히 예측하였음을 보여준다.

본 출원의 발명자들은 HEK4 (+2 G to T) pegRNA의 오프 타겟 프로파일이 HEK4 (+3 TAA ins) pegRNA과 유사할 것이라고 추측하였다. 그래서, 이 두 샘플간의 TAPE-seq 결과의 차이는, HEK4 (+2 G to T) pegRNA 처리 이후의 HiSeq 및 MiSeq 샘플들에서 발견된 동일한 복제 이슈(replication issue) (즉, 오프 타겟 사이트의 낮은 태그맨테이션 율)로부터 야기될 수 있을 것으로 추측하였다. 따라서, 본 출원의 발명자들은 이후 분석을 위해 HEK4 pegRNA에 대한 TAPE-seq 결과의 세가지 세트인 HEK4 (+2 G to T) pegRNA MiSeq TAPE-seq 결과, HEK4 (+2 G to T) pegRNA HiSeq TAPE-seq 결과, 및 HEK4 (+3 TAA ins) pegRNA TAPE-seq 결과를 모두 결합하였다.

TAPE-seq 예측 결과와 GUIDE-seq 및 nDigenome-seq의 비교

TAPE-seq 분석은 10개의 서로 다른 pegRNAs에 대해 최적화된 프로토콜로 수행되었으며, GUIDE-seq 및 nDigenome-seq에 의한 이전(previous) 예측과 비교되었다 (분석 데이터 2 및 분석 데이터 3, 표 01 내지 표 11 참고). 검증 실험은 TAPE-seq을 사용하여 예측된 모든 오프 타겟 후보들에 대해 수행되었다. TAPE-seq은 PE2 및 적절한 pegRNA를 안정적으로 발현하는 HEK293T 세포주에 대해 수행되었다 (분석 데이터 4, 표 12 내지 표 16 참고). 거짓 양성으로 확인된 nDigenome-seq에서 식별된 일부의 표적들은 본 출원에 개시된 실험에서는 검증된 것으로 확인되었다 (분석 데이터 5, 표 17 내지 표 26 참고). 이러한 결과는 nDigineme-seq 검증 실험에서 사용된 일시적인 형질감염(96시간)과 비교되는 본 프로토콜의 연장된 배양 기간 (4주) 때문일 수 있다.

본 출원의 발명자는, TAPE-seq에서 놓친 경우라도, 이전 논문의 방법에 의해 식별된 검증된 표적 유전자좌에 대해서도 검증 실험을 수행하였다. 벤 다이어그램은 TAPE-seq, GUIDE-seq, 및 nDigenome-seq 각각의 방법에 의해 예측된 오프 타겟 부위, 그리고 검증된 부위에 대한 결과를 요약하여 보여준다 (도 29 내지 도 38). TAPE-seq과 다른 오프 타겟 예측 방법의 비교 결과는 도 29 내지 도 38에 개시된다. 구체적으로, 도 29 내지 도 38은 nDigenome-seq, GUIDE-seq, 및 TAPE-seq에 의해 예측된 오프 타겟 사이트, 및 검증된 오프 타겟 사이트에 대한 비교 결과를 벤다이어그램을 통해 나타낸다 (도 29 내지 도 38에서, 몇몇의 숫자는 이웃하는 숫자와 구분하기 위해 밑줄을 통해 표시되었다). 도 29는 HEK4 (+2 G to T) pegRNA에 대한 결과를 나타낸다. 도 30은 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 31은 EMX1 (+5 G to T) pegRNA에 대한 결과를 나타낸다. 도 32는 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 33은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 34는 RNF2 (+6 G to A) pegRNA에 대한 결과를 나타낸다. 도 35는 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 36은 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 37은 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 38은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.

도 29 내지 도 38의 결과와 관련된, 각 예측 방법에서 놓친 검증된 오프 타겟을 나타내는 결과는 도 39에서 그래프를 통해 개시된다. 구체적으로, 도 39는 nDigenome-seq(n=10개, 독립적인 실험), GUIDE-seq (n=6, 독립적인 실험) 및 TAPE-seq(n=10개, 독립적인 실험)에서 놓친 검증된 오프 타겟에 대한 결과를 개시한다 (바는 mean을 나타냄, 에러 바는 표준 편차를 나타냄).

TAPE-seq은 GUIDE-seq 및 nDigenome-seq 보다 훨씬 적은 수의 오프 타겟을 예측하였다. 나아가, TAPE-seq은 다른 방법들보다 검증된 오프 타겟 사이트를 더 적게 놓쳤다. 이는 TAPE-seq을 이용한 예측이 더 높은 정확도를 나타냄을 시사한다.

PE2 및 PE4를 사용한 TAPE-seq 분석, 및 상이한 세포주에서의 TAPE-seq 분석

이후 버전의 PE가 개발되었으며 이전 버전보다 더 높은 프라임 에디팅 효율을 나타내는 것으로 보고되고 있다. PE4는 PE2의 변형된 버전으로, 미스매치 수선을 억제하기 위한 우성 음성 MLH1(dominant negative MLH1)을 암호화하는 플라스미드를 포함함으로 인해 더 높은 프라임 에디팅 효율을 나타내는 것으로 보고되었다 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.] 참조).

본 출원의 발명자들은 HEK293T, HeLa, 및 K562 세포에서 PE2 및 PE4를 사용하여 TAPE-seq을 수행하였다 (분석 데이터 2, 표 02 내지 표 10 참고). 3개의 세포주에서, HEK4 (+2 G to T) pegRNA의 온타겟, 및 오프타겟 유전자좌 중 하나에서 태그맨테이션율에 유의한 차이가 보이지 않았다. 결과는 도 40에 개시된다. 구체적으로, 도 40 (a)는 HeLa, K562, 및 HEK293T 세포 및 HEK4 (+2 G to T) pegRNA을 대상으로 진행된, TAPE-seq에 의해 분석된 온타겟 사이트의 태그맨테이션율을 개시한다 (각각, PE2 사용 및 PE4 사용). 도 40 (b)는 HeLa, K562, 및 HEK293T 세포 및 HEK4 (+2 G to T) pegRNA을 대상으로 진행된, TAPE-seq에 의해 분석된 오프 타겟 사이트 1의 태그맨테이션율을 개시한다 (각각, PE2 사용 및 PE4 사용).

표적화된 딥 시퀀싱 (targeted deep sequencing)을 통해 예측된 오프 타겟 부위에 대한 검증이 수행되었다. 결과는 벤다이어그램으로 표현되었으며 도 41 내지 도 43에 개시된다. 구체적으로, 도 41 내지 도 43는 PE2-형질감염된 세포주에서의 검증된 오프 타겟 사이트, PE2를 사용한 TAPE-seq에 의해 예측된 오프 타겟 사이트, 및 PE4를 사용한 TAPE-seq에 의해 예측된 오프 타겟 사이트에 대한 비교 결과를 개시한다. 도 41 (a)는 HEK4 (+2 G to T) pegRNA 및 HEK293T 세포에 대한 결과이다. 도 41 (b)는 HEK4 (+3 TAA ins) pegRNA 및 HEK293T 세포에 대한 결과이다. 도 42 (a)는 HEK4 (+2 G to T) pegRNA 및 HeLa 세포에 대한 결과이다. 도 42 (b)는 HEK4 (+3 TAA ins) pegRNA 및 HeLa 세포에 대한 결과이다. 도 43 (a)는 HEK4 (+2 G to T) pegRNA 및 K562 세포에 대한 결과이다. 도 43 (b)는 HEK4 (+3 TAA ins) pegRNA 및 K562 세포에 대한 결과이다.

도 44 (a)는, 도 41 내지 도 43과 관련된 각 샘플별 놓친 표적 사이트 수의 요약을 그래프를 통해 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=6, 독립적인 실험에 대해). 즉, 도 44 (a)는 PE2 사용 샘플과 PE4 사용 샘플에 대해 놓친 표적의 수를 나타낸다.

도 44 (b)는, 도 41 내지 도 43과 관련된 각 세포별 놓친 표적 사이트 수의 요약을 그래프를 통해 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=6, 독립적인 실험에 대해). 즉, 도 44 (b)는 HEK293T, HeLa, 및 K562에 대해 놓친 표적의 수를 나타낸다. HEK293T 세포에서 수행된 TAPE-seq은 다른 두 세포주에서의 분석과 비교하여 검증된 오프타겟 위치를 더 적게 놓쳤다.

다음으로, 본 발명자들은 HEK293T, HeLa 및 K562 세포주에서 후보 오프 타겟 위치가 검증될 수 있는지 여부를 결정하고, 검증 결과를 Venn 다이어그램을 사용하여 각 세포주에 대한 TAPE-seq 예측과 비교했다. 결과는 도 45 내지 도 47에 개시된다. 구체적으로, 도 45 내지 도47은 TAPE-seq에 의해 예측된 오프 타겟 사이트와 검증된 사이트를 비교한 결과를 나타낸다. 도 45 (a)는 HEK293T 세포에서의 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 PE2 프라임 에디터 단백질을 사용한 TAPE-seq을 통한 예측 결과를 나타낸다. 도 45 (b)는 HEK293T 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 46 (a)는 HeLa에서 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 46 (b)는 HeLa 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 47 (a)는 K562 세포에서 HEK4 (+2 G to T) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 도 47 (b)는 K562 세포에서 HEK4 (+3 TAA ins) pegRNA에 대한 검증 결과와, 각 세포에서의 TAPE-seq을 통한 예측 결과를 나타낸다. 유효(검증된) 오프타겟 사이트는, HEK293T 세포에 비해 HeLa 및 K562 세포에서 훨씬 적었다.

나아가, 일부 세포주에서 오직 몇 개의 오프타겟 사이트만이 TAPE-seq에 의해 누락되었다. 결과는 도 48에 개시된다. 구체적으로, 도 48은 각 세포 유형 내에서 놓친 오프 타겟 사이트의 수에 대한 결과를 나타낸다 (바는 mean을 나타냄; 에러 바는 표준 편차를 나타냄; n=2, 그래프 내에서 점으로 표시되는 독립적인 실험에 대해).

본 발명자들은 각 세포주의 TAPE-seq 예측이 정확하다고 추측하였다. 또한, HEK293T 세포주를 사용하여 만든 TAPE-seq 예측은 HeLa 및 K562 세포에 대한 모든 검증된 오프타겟 위치를 발견하였다. 따라서 후속 실험에서 HEK293T 세포를 사용했다. 후술되는 실험에서, 세포의 종류에 대해 별도로 언급되지 않는 경우, HEK293T 세포가 사용된 것으로 이해될 것이다.

PE2-뉴클레아제 및 epegRNA를 사용하는 PEmax-뉴클레아제를 이용한 TAPE-seq 분석

Cas9 닉카제 대신 야생형 Cas9 뉴클레아제를 포함하는 프라임 에디터 뉴클레아제 또한 PE2보다 높은 프라임 에디팅 효율을 보이는 것으로 보고되고 있다 (문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조). 본 출원의 발명자들은 이러한 프라임 에디터 뉴클레아제의 사용이 오프 타겟 유전자좌에서 더 높은 태그화 비율을 초래하여, 오프 타겟 유전자좌를 식별하기 위한 TAPE-seq의 성공율을 증가시킬 것이라고 추론하였다. 본 출원의 발명자들은 PE2 프라임 에디터의 개량된 버전인 PE2-뉴클레아제 및 PEmax-뉴클레아제를 사용하여 TAPE-seq을 수행하고 결과를 확인하였다. PEmax-뉴클레아제는 epegRNA와 함께 사용되었다. 이하의 실험에서 사용된 PE2-뉴클레아제 및 PEmax-뉴클레아제는 각각 다음의 구조를 갖는다:

PE2-뉴클레아제:

[bpNLS(SV40)]-[SpCas9 (WT)]-[SGGSx2-XTEN16-SGGSx2]-[MMLV RT]-[bpNLS(SV40)].

PEmax-뉴클레아제:

[bpNLS(SV40)]-[SpCas9 (R221K)(N394K)]-[SGGSx2-bpNLS(SV40)-SGGSx2]-[MMLV RT(codon opt.)]-[bpNLS(SV40)]-[NLS(c-Myc)].

여기서, "bpNLS(SV40)"은 이분 (bipartite) SV40 NLS (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Wu, Jianrong, Anita H. Corbett, and Keith M. Berland. "The intracellular mobility of nuclear import receptors and NLS cargoes." Biophysical journal 96.9 (2009): 3840-3849.] 참조)를 나타내고, "MMLV RT"는 몰로니 뮤린 류케미아 바이러스 RT 펜타뮤턴트 (Moloney murine leukemia virus RT pentamutant) (MMKV RT_D200N, T306K, W313F, T330P, 및 L603W)를 나타내고, "codon opt."는 인간 코돈 최적화되었음을 나타내며, "NLS(c-Myc)"는 c-Myc NLS (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Dang, Chi V., and WMk Lee. "Identification of the human c-myc protein nuclear translocation signal." Molecular and cellular biology 8.10 (1988): 4048-4054.] 참조)를 나타낸다.

최적화 실험은 PE2-뉴클레아제 (문헌 [Adikusuma, Fatwa, et al. "Optimized nickase-and nuclease-based prime editing in human and mouse cells." Nucleic acids research 49.18 (2021): 10785-10795.] 참조) 및 조작된 pegRNA (engineered pegRNA, epegRNA)를 사용하는 PEmax-뉴클레아제 (문헌 [Chen, Peter J., et al. "Enhanced prime editing systems by manipulating cellular determinants of editing outcomes." Cell 184.22 (2021): 5635-5652.; 및 Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.] 참조)에 대해 일시적인 (transient) 형질감염이 충분하다는 것을 보여주었다. 나아가, PE2로 수행된 TAPE-seq에서 확인된 것과 비교하여 더 높은 태그맨테이션율을 보이는 것이 확인되었다. 결과는 도 49에 개시된다. 구체적으로, 도 49는 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용된 PEmax-뉴클레아제를 사용한 TAPE-seq 각각의 태그맨테이션율에 대한 결과를 개시한다. HEK4 온타겟 사이트 및 다양한 오프 타겟 사이트에 대해서 태그맨테이션율이 확인되었다 (two-sided unpaired student t-test; n=3, 독립적인 형질감염에 대해서).

PE2-뉴클레아제, 및 epegRNA를 사용하는 PEmax-뉴클레아제(즉, epegRNA 및 PEmax-뉴클레아제를 사용하는 프라임 에디팅 시스템)의 온타겟 태그맨테이션율이 PE2보다 상당히 높은 것이 확인되었다 (도 49). PE2-뉴클레아제에 대해서는 오직 1110 온타겟 TAPE-seq 리드가 있었으며 epegRNA와 함께하는 PEmax-뉴클레아제에 대해서는 906 온타겟 TAPE-seq 리드가 있었다. 이는 PE2 샘플 (2주) 에서의 62565 리드와 비교된다 (분석 데이터 2, 표 02 내지 표 10 참고). PE2-뉴클레아제 및 epegRNA를 사용하는 PEmax-뉴클레아제는 PE2 (2주) 샘플에서 식별된 8개의 후보에 비해 각각 30개 및 27개의 후보를 식별하였다.

본 출원의 발명자들은 10개의 다른 pegRNA에 대해, PE2-뉴클레아제, 및 epegRNA를 함께 사용하는 PEmax-뉴클레아제 각각을 사용하여 TAPE-seq을 수행하였다. 그리고 PE2를 사용한 TAPE-seq 결과와 벤다이어그램을 통해 비교하였다. 비교 결과는 도 50 내지 도 54에 개시된다. 구체적으로, 도 50 내지 도 54는 PEmax 뉴클레아제 및 epegRNA를 사용하는 프라임 에디팅 시스템을 사용한 TAPE-seq 결과, PE2를 사용하는 TAPE-seq 결과, 및 PE2-뉴클레아제를 사용하는 TAPE-seq 결과, 그리고 검증된 오프 타겟 사이트들을 벤다이어그램을 통해 개시한다. 도 50은 HEK4 (+2 G to T) pegRNA (또는 epegRNA)에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 개시한다. 도 50과 관련하여, PE2 TAPE-seq은 HEK4 (+2 G to T) pegRNA의 PE2 TAPE-seq 결과 및 HEK4 (+3 TAA ins) pegRNA의 PE2 TAPE-seq 결과의 합을 나타낸다. 도 51은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 도 52는 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 개시한다. 도 53은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 개시한다. 도 54는 RNF2 (+6 G to A) pegRNA, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 개시한다.

나아가, 본 출원의 발명자들은 epegRNA를 사용하는 PEmax-뉴클레아제의 TAPE-seq 결과와 GUIDE-seq 및 nDigenome-seq의 예측 결과를 벤다이어그램을 통해 비교하였다. 결과는 도 55 내지 도 59에 개시된다. 구체적으로, 도 55 내지 도 59는 nDigenome-seq, GUIDE-seq, TAPE-seq(PEmax-뉴클레아제 및 epegRNA를 사용함)의 오프 타겟 예측 결과, 및 오프 타겟의 검증 결과를 비교한 결과를 개시한다. 도 55는 HEK4 (+2 G to T) pegRNA에 대한 결과, 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 개시한다. 도 56은 HBB (+4 A to T) pegRNA에 대한 결과, 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 도 57은 VEGFA (+5 G to T) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과를 개시한다. 도 58은 FANCF (+6 G to C) pegRNA에 대한 결과, 및 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 개시한다. 도 59는 RNF2 (+6 G to A) pegRNA에 대한 결과, 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 개시한다. 편의상, epegRNA는, pegRNA의 개량된 버전이기 때문에, pegRNA로 지칭되었다.

본 출원의 발명자들은 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 미스율을 비교하였다. 10개의 다른 pegRNA(도 50 내지 도 59에서 사용된 pegRNA)에 대해 미스율이 비교되었다. 나아가, GUIDE-seq 및 nDigenome-seq의 결과와 비교되었다 (분석 데이터 6, 표 27 내지 표 35 참고) (도 60 참고). 여기서, 미스율은 예측 방법에서 놓친 검증된 오프타겟 사이트의 수를 검증된 오프타겟 사이트의 총 수로 나눈 값으로 정의되었다. 결과는 도 60에 개시된다. 구체적으로, GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA 사용) 각각의 예측 방법의 미스율이 비교되었다 (바는 mean을 나타냄; 에러바는 표준 편차를 나타냄). 도 60에서, 각각의 pegRNA에 대한 결과가 점으로 표시되었다 (GUIDE-seq에서의 n=6, 독립적인 실험에 대해; 나머지에서는 n=10, 독립적인 실험에 대해).

epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용하는 TAPE-seq이 가장 낮은 미스율을 보였다. 도 39의 결과와 비교하여 PE2에 대한 누락된 검증된 오프 타겟 사이트에 대한 결과가 증가했음을 유의해야한다. 이는 PE2-뉴클레아제 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용한 TAPE-seq에서 새로운 검증된 오프 타겟 사이트들이 확인되었기 때문이다.

TAPE-seq의 ROC 커브 분석

ROC 곡선 (receiver operating characteristic curve)은 이진 분류기(binary classifier)의 진단 능력을 보여주는 플롯이다. 본 출원의 발명자들은 PE2, PE2-뉴클레아제, 및 PE2-뉴클레아제 with epegRNAs를 사용한 TAPE-seq 분석에 대한 ROC 커브를 구성하였다. 이는 GUIDE-seq 및 nDigenome-seq과 비교되었다. 본 출원의 발명자들은 ROC 커브에 대한 비교를 통해 각 방법의 진단 능력을 정량적으로 비교할 수 있다고 추론하였다. TAPE-seq의 매트릭(copy number)의 진단 능력이 GUIDE-seq (copy number) 및 nDigenome-seq (DNA cleavage score)과 비교되었다. 각 오프 타겟 예측 방법에 대한 ROC 커브의 분석 결과는 도 61 내지 도 66에 개시된다. 구체적으로, GUIDE-seq, nDigenome-seq, TAPE-seq (PE2), TAPE-seq (PE2-nuclease), 및 TAPE-seq (PEmax-nuclease 및 epegRNA) 예측 방법의 ROC 커브 결과가 도 61 내지 도 66에 개시된다. 도 61은 HEK4 (+2 G to T) pegRNA에 대한 결과 및 HEK4 (+3 TAA ins) pegRNA에 대한 결과를 나타낸다. 도 62는 HBB (+4 A to T) pegRNA에 대한 결과 및 DNMT1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 63은 HEK3 (+1 CTT ins) pegRNA에 대한 결과를 나타낸다. 도 64는 EMX1 (+5 G to T) pegRNA에 대한 결과 및 FANCF (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 65는 RNF2 (+6 G to A) pegRNA에 대한 결과 및 RUNX1 (+6 G to C) pegRNA에 대한 결과를 나타낸다. 도 66은 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다. 편의상 epegRNA 또한 pegRNA로 표현되었다.

ROC 커브 분석 결과를 바탕으로, 각 오프 타겟 예측 방법에 대해 ROC 커브의 아래 면적 (area under the ROC curves, AUC)이 계산되었다. 결과는 도 67에 개시된다 (바는 mean을 나타냄; 에러바는 표준 편차를 나타냄). 도 67에서, 각각의 pegRNA에 대한 결과가 점으로 표시되었다 (GUIDE-seq에서의 n=6, 독립적인 실험에 대해; 나머지에서는 n=10, 독립적인 실험에 대해).

각 오프 타겟 예측 방법에 대한 AUC를 서로 비교했을 때, epegRNA와 함께 사용되는 PEmax-뉴클레아제를 사용한 TAPE-seq 결과가 가장 높은 값을 보였다. 이러한 결과는 TAPE-seq metric이 GUIDE-seq 및 nDigenome-seq에 비해 오프 타겟 부위의 예측에 있어 우수한 진단 능력을 보인다는 것을 시사한다.

검증된 오프 타겟 사이트에서의 에디팅 패턴

표적화된 딥시퀀싱 결과의 비교를 통해 모든 검증된 오프 타겟 사이트의 에디팅 패턴 (편집 패턴)이 분석되었다 (도 68 내지 도 87 참고). pegRNA로 HEK4 (+2 G to T) pegRNA, HEK4 (+3 TAA ins) pegRNA, HBB (+4 A to T) pegRNA, DNMT1 (+6 G to C) pegRNA, VEGFA (+5 G to T) pegRNA 가 사용되었으며, 프라임 에디팅 시스템으로 PE2, PE2-뉴클레아제, 및 epegRNA와 함께 사용되는 PEmax-뉴클레아제가 사용되었다. 나아가, HEK293T, HeLa, 및 K562 세포에서 수행되었다.

TAPE-seq에 의해 예측된 HEK4-off3 사이트에서의 HEK4 (+3 TAA ins) pegRNA에 의해 유도된 편집 패턴은 도 68에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 즉, WT 서열의 소문자는 pegRNA의 스페이서 및 PAM과 대응되는 온타겟의 서열과 비교했을 때의 미스매치를 나타낸다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

TAPE-seq에 의해 예측된 HEK-off7, HEK-off10, 및 HEK-off22 사이트에서의 HEK4 (+2 G to T) pegRNA에 의해 유도된 편집 패턴은 도 69 내지 도 71에 개시된다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 72 내지 도 75는 HEK4 (+2 G to T) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 76은 HBB (+4 A to T) pegRNA과 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 77 내지 도 80은 HEK4 (+3 TAA ins) pegRNA와 관련된 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 81 내지 도 82는 HeLa 세포에서의 결과를 개시한다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 83 내지 도 84는 K562 세포에서의 결과를 개시한다. 구체적으로, HEK4 (+3 TAA ins) pegRNA, 및 HEK4 (+2 G to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 85 내지 도 87은 PEmax-뉴클레아제를 사용하여 수행된 TAPE-seq의 검증된 오프 타겟 사이트에서의 편집 패턴에 대한 결과를 개시한다. 구체적으로, HEK4 (+2 G to T) pegRNA, DNMT1 (+6 G to C) pegRNA, HBB (+4 A to T) pegRNA, 및 VEGFA (+5 to T) pegRNA에 대한 결과를 개시한다 (바는 mean을 나타냄; 에러 바는 표준편차를 나타냄; n=3, 독립적인 형질감염에 대해; two-sided unpaired student t-test). NC는 음성 대조군을 나타낸다. 소문자는 pegRNA와 비교했을 때의 미스매치를 나타낸다. 서열 비교의 편의상, 도면에서 pegRNA로 표시된 pegRNA의 서열은 온타겟 서열을 기준으로 표시되었다. 주 편집된 비율(Major edited rate)은 편집된 서열의 빈도에 대응한다.

도 68 내지 도 87에 개시된 서열과 관련하여, 다음과 같이 서열번호가 할당되었다. 각 서열에서 bulge를 나타내는 "-"가 있는 경우, "-"가 생략된 서열이 서열목록에 개시되었다.

도 68의 WT로 표시된 서열에 서열번호 153, 편집된으로 표시된 서열에 서열번호 154, pegRNA로 표시된 서열에 서열번호 155가 할당되었다.

도 69의 WT로 표시된 서열에 서열번호 156, 편집된으로 표시된 서열에 서열번호 157, pegRNA로 표시된 서열에 서열번호 158가 할당되었다.

도 70의 WT로 표시된 서열에 서열번호 159, 편집된으로 표시된 서열에 서열번호 160, pegRNA로 표시된 서열에 서열번호 161가 할당되었다.

도 71의 WT로 표시된 서열에 서열번호 162, 편집된으로 표시된 서열에 서열번호 163, pegRNA로 표시된 서열에 서열번호 164가 할당되었다.

도 72의 HEK4-off1와 관련하여, WT로 표시된 서열에 서열번호 165, 편집된으로 표시된 서열에 서열번호 166, pegRNA로 표시된 서열에 서열번호 167이 할당되었다.

도 72의 HEK4-off2와 관련하여, WT로 표시된 서열에 서열번호 168, 편집된으로 표시된 서열에 서열번호 169, pegRNA로 표시된 서열에 서열번호 170이 할당되었다.

도 73의 HEK4-off4와 관련하여, WT로 표시된 서열에 서열번호 171, 편집된으로 표시된 서열에 서열번호 172, pegRNA로 표시된 서열에 서열번호 173이 할당되었다.

도 73의 HEK4-off6와 관련하여, WT로 표시된 서열에 서열번호 174, 편집된으로 표시된 서열에 서열번호 175, pegRNA로 표시된 서열에 서열번호 176이 할당되었다.

도 74의 HEK4-off7와 관련하여, WT로 표시된 서열에 서열번호 177, 편집된으로 표시된 서열에 서열번호 178, pegRNA로 표시된 서열에 서열번호 179이 할당되었다.

도 74의 HEK4-off10와 관련하여, WT로 표시된 서열에 서열번호 180, 편집된으로 표시된 서열에 서열번호 181, pegRNA로 표시된 서열에 서열번호 182이 할당되었다.

도 75의 HEK4-off12와 관련하여, WT로 표시된 서열에 서열번호 183, 편집된으로 표시된 서열에 서열번호 184, pegRNA로 표시된 서열에 서열번호 185이 할당되었다.

도 76의 HBB-off1와 관련하여, WT로 표시된 서열에 서열번호 186, 편집된으로 표시된 서열에 서열번호 187, pegRNA로 표시된 서열에 서열번호 188이 할당되었다.

도 77의 HEK4-off1와 관련하여, WT로 표시된 서열에 서열번호 189, 편집된으로 표시된 서열에 서열번호 190, pegRNA로 표시된 서열에 서열번호 191이 할당되었다.

도 78의 HEK4-off2와 관련하여, WT로 표시된 서열에 서열번호 192, 편집된으로 표시된 서열에 서열번호 193, pegRNA로 표시된 서열에 서열번호 194이 할당되었다.

도 78의 HEK4-off3와 관련하여, WT로 표시된 서열에 서열번호 195, 편집된으로 표시된 서열에 서열번호 196, pegRNA로 표시된 서열에 서열번호 197이 할당되었다.

도 79의 HEK4-off4와 관련하여, WT로 표시된 서열에 서열번호 198, 편집된으로 표시된 서열에 서열번호 199, pegRNA로 표시된 서열에 서열번호 200이 할당되었다.

도 79의 HEK4-off6와 관련하여, WT로 표시된 서열에 서열번호 201, 편집된으로 표시된 서열에 서열번호 202, pegRNA로 표시된 서열에 서열번호 203이 할당되었다.

도 80의 HEK4-off12와 관련하여, WT로 표시된 서열에 서열번호 204, 편집된으로 표시된 서열에 서열번호 205, pegRNA로 표시된 서열에 서열번호 206이 할당되었다.

도 81의 HEK4-off2 (+3 TAA ins)와 관련하여, WT로 표시된 서열에 서열번호 207, 편집된으로 표시된 서열에 서열번호 208, pegRNA로 표시된 서열에 서열번호 209이 할당되었다.

도 81의 HEK4-off3 (+3 TAA ins)와 관련하여, WT로 표시된 서열에 서열번호 210, 편집된으로 표시된 서열에 서열번호 211, pegRNA로 표시된 서열에 서열번호 212이 할당되었다.

도 82의 HEK4-off4 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 213, 편집된으로 표시된 서열에 서열번호 214, pegRNA로 표시된 서열에 서열번호 215이 할당되었다.

도 83의 HEK4-off1 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 216, 편집된으로 표시된 서열에 서열번호 217, pegRNA로 표시된 서열에 서열번호 218이 할당되었다.

도 83의 HEK4-off3 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 219, 편집된으로 표시된 서열에 서열번호 220, pegRNA로 표시된 서열에 서열번호 221이 할당되었다.

도 84의 HEK4-off7 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 222, 편집된으로 표시된 서열에 서열번호 223, pegRNA로 표시된 서열에 서열번호 224이 할당되었다.

도 85의 HEK4-off22 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 225, 편집된으로 표시된 서열에 서열번호 226, pegRNA로 표시된 서열에 서열번호 227이 할당되었다.

도 85의 HEK4-off28 (+2 G to T)와 관련하여, WT로 표시된 서열에 서열번호 228, 편집된으로 표시된 서열에 서열번호 229, pegRNA로 표시된 서열에 서열번호 230이 할당되었다.

도 86의 DNMT1-off1 (+6 G to C)와 관련하여, WT로 표시된 서열에 서열번호 231, 편집된으로 표시된 서열에 서열번호 232, pegRNA로 표시된 서열에 서열번호 233이 할당되었다.

도 86의 HBB-off3 (+4 A to T)와 관련하여, WT로 표시된 서열에 서열번호 234, 편집된으로 표시된 서열에 서열번호 235, pegRNA로 표시된 서열에 서열번호 236이 할당되었다.

도 87의 VEGFA-off16 (+5 G to T)와 관련하여, WT로 표시된 서열에 서열번호 237, 편집된으로 표시된 서열에 서열번호 238, pegRNA로 표시된 서열에 서열번호 239이 할당되었다.

도 68 내지 도 71을 참고하면, TAPE-seq에 의해 예측된 HEK4-off3 사이트에서는 HEK4 (+3 TAA ins) pegRNA 만이 편집을 유도한 반면, TAPE-seq에 의해 예측된 HEK4-off7, HEK4-off10, 및 HEK4-off22에 대해서는 HEK4 (+2 G to T) pegRNA만이 오프 타겟 효과를 일으켰다. 이러한 결과는 오프 타겟 효과가 RT 주형 서열에도 의존할 수 있음을 시사한다. 이러한 현상은 GUIDE-seq 또는 nDigenome-seq과 비교하여 TAPE-seq의 ROC 커브 아래 면적이 더 높은 것을 부분적으로 설명 가능하다. 이 두가지 방법은 RT 주형 서열이 없는 단일 가이드 RNA(sgRNA)로 수행되기 때문이다.

영역 별 미스매치 분석

본 출원의 발명자들은 온타겟 및 오프타겟 사이트에 대해, pegRNA의 PBS, RT 주형, 및 스페이서 영역의 미스매치 수를 표로 작성하고, 이를 검증 결과와 함께 나열하였다 (분석 데이터 7, 표 36 내지 표 44 참고).

검증 결과를 이진 분류로 예측하기 위한 매트릭(metric)으로 카피 넘버 (copy number) 대신 불일치 수를 사용하여 ROC 곡선이 구성되었다. 결과는 도 88 내지 도 90에 개시된다 (여기서, RNF2는 샘플이 하나뿐이므로 제외되었음). 구체적으로, PBS 영역, RT 주형 영역 및 타겟 영역의 미스매치에 대한 ROC 커브에 대한 결과가 도 88 내지 도 90에 개시된다. 도 88은 HEK4 (+2 G to T) pegRNA에 대한 결과, HEK4 (+3 TAA ins) pegRNA에 대한 결과, 및 HBB (+4 A to T) pegRNA에 대한 결과를 나타낸다. 도 89는 HEK3 (+1 CTT ins) pegRNA에 대한 결과, FANCF (+6 G to C) pegRNA에 대한 결과, 및 EMX1 (+5 G to T) pegRNA에 대한 결과이다. 도 90은 DNMT1 (+6 G to C) pegRNA에 대한 결과, RUNX1 (+6 G to C) pegRNA에 대한 결과, 및 VEGFA (+5 G to T) pegRNA에 대한 결과를 나타낸다.

도 91는 도 88 내지 도 90으로부터 계산된, 영역의 미스매치 별 ROC 커브의 아래 면적 (AUC)에 대한 결과를 개시한다. 9개의 다른 pegRNA에 대한 결과를 개시하며, 각각의 pegRNA에 대한 결과는 점으로 표시된다 (n=10, 여기서, RNF2는 샘플이 하나뿐이므로 제외되었음)

대부분의 경우에서, RT 주형 영역의 미스매치에 대한 ROC 커브의 아래 면적은 PBS의 미스매치의 면적보다 높았다.

도 92는 TAPE-seq에 의해 예측된 사이트, 위양성 사이트, 및 검증된 사이트들에 대한 미스매치 율을 나타낸다. 위양성 사이트와 관련하여, 타겟 미스매치 및 RT 영역 미스매치는 n=54의 독립적인 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치는 n=47의 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치에 대한 DNA/RNA 팽창이 있는 7개의 유전자좌는 분석에서 제외되었다. 검증된 사이트와 관련하여, 타겟 미스매치 및 RT 영역 미스매치가 n=13의 독립적인 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치는 n=12의 타겟 유전자좌에 대하여 확인되었다. PBS 미스매치에 대한 DNA/RNA 팽창이 있는 1개 유전자좌는 분석에서 제외되었다 (two-sided unpaired student t-test; 바는 mean을 나타냄; 에러 바는 표준편차를 나타냄)

PBS, 타겟, 및 RT 주형 영역에서 거짓(false) 및 검증된 표적(validated target)의 미스매치율을 비교했을 때, 거짓에 대한 비율은, PBS 영역이 아닌 타겟 및 RT 주형 영역에서, 검증된 것에 대한 비율보다 상당히 높았다. 대체로, RT 주형의 미스매치는 잠재적인 오프 타겟 사이트의 유효성을 예측하는데 있어 타겟 미스매치 만큼의 영향을 미치는 것으로 보인다. TAPE-seq과는 달리, GUIDE-seq 및 nDigenome-seq은 프로토콜에 RT와 관련된 매커니즘을 포함하지 않으므로, 오프 타겟 예측 프로세스에서 RT의 분자 매커니즘을 수용하는 능력이 제한된다. GUIDE-seq이나 nDigenome-seq등 기존 Cas9만 사용한 방법들은 리버스 트랜스크립타아제나 pegRNA에 RT서열이 부재한 반면, TAPE-seq은 프라임 에디팅의 분자적 매커니즘 (pegRNA의 사용 및 리버스 트랜스크립타아제의 관여 등)을 반영하기 때문에 위양성 오프타겟 사이트를 효과적으로 제거하여 높은 진단 능력을 보이는것으로 추측된다.

본 출원의 발명자들은, 프라임 에디팅 시스템에 적용하기에 적합한 오프 타겟 예측 방법인, TAPE-seq을 개발하였다. 본 TAPE-seq 시스템은 프라임 에디팅의 특징을 잘 반영하는 오프 타겟 예측 방법으로서, 새로운 플랫폼을 제공한다. 본 출원의 발명자들은 TAPE-seq에 대한 초기 개발자의 입장에서, 다양한 버전의 PE를 사용하여 TAPE-seq에 대한 결과를 확인하였다. 특히, PEmax-뉴클레아제 및 epegRNA를 사용하는 프라임 에디팅 시스템의 적용에서 매우 우수한 효과를 나타냈다. 그럼에도 불구하고, 본 출원에 개시된 실험예가 다른 버전의 PE의 사용을 본 명세서 및 본 명세서에 기초하여 작성되는 청구항으로부터 배제하는 것이 아님은 통상의 기술자에게 명확할 것이다.

나아가, TAPE-seq의 발명적 특징 중 하나는 태그 주형을 포함하는 pegRNA(또는 epegRNA)의 사용에 있는 바, 본 출원 이전에 개발된 버전의 프라임 에디팅 단백질뿐만 아니라 본 출원 이후에 개발될 버전의 프라임 에디팅 단백질 또한 TAPE-seq 방법에 적용될 수 있음은 관련 분야의 기술자에게 명확할 것이다. 또한, TAPE-seq의 발명적 특징을 계승하는 발명은, 예를 들어, 다른 개량된 pegRNA를 사용하는 경우에도, 본 명세서 및 본 명세서를 기초로 작성되는 청구항에 포함됨은 통상의 기술자에게 명확할 것이다.

TAPE-seq은, 동일한 사이트를 대상으로 하는 DSB 유도 Cas9과 관련된 것과 비교하여, PE2에 대한 더 적은 오프 타겟 유전자좌를 식별하였다. 최근 PE2의 효율을 높이기 위한 다양한 기술들이 개발되었으며 개발되고 있는 실정이다. 이들 중 일부의 기술들은 태그맨테이션율을 높이기 위해 TAPE-seq 프로토콜에 적용되었으며, 이는 또한 이전 방법에서 놓친 새로운 오프 타겟 유전자좌를 식별하기 위한 TAPE-seq의 감도를 증가시켰다. 이와 같이, 본 출원의 출원일까지 개발된 프라임 에디팅 시스템의 개량 버전 및/또는 본 출원의 출원일 이후에 개발될 프라임 에디팅 시스템의 개량 버전은 TAPE-seq의 감도와 같은 성능을 개량하는데 적용 가능할 것이라 예상된다. TAPE-seq의 감도를 높이면 이전에 놓쳤던 오프 타겟 유전자좌를 더 많이 식별할 수 있을 것으로 예상된다. 나아가, 태그맨테이션 조건을 최적화하여 TAPE-seq의 감도를 높일 수 있을 것으로 예상된다.

TAPE-seq의 장점은 높은 검증율, 낮은 미스율, 및 높은 ROC 커브 아래 면적으로 세포 유형 특이적 프라임 에디팅 이벤트를 감지할 수 있는 편향되지 않은 세포 기반 방법이라는 점을 포함한다. 본 방법은 Cas9의 닉카제 또는 DSB 활성의 간접적인 측면만 제공하는 nDigenome-seq 및 GUIDE-seq과 같은 다른 방법과 달리, RT 매커니즘을 수용하여 PE 게놈 편집 활성을 직접 측정한다. 나아가, GUIDE-seq의 가장 큰 한계는 일부 dsODN(double-stranded oligodeoxynucleotide) 태그의 형질감염이 필수적이라는 것인데, 이는 일부 불내성 세포에서 독성이 있을 수 있거나 동물 모델에서 불가능할 수 있다. 이와 달리, TAPE-seq 태그 서열은 pegRNA 그 자체에 포함되어 있기 때문에, dsODN으로 인한 독성은 TAPE-seq과 무관하다. 나아가, TAPE-seq 벡터의 in vivo 전달 또한 가능할 것이다.

TAPE-seq의 태그맨테이션 pegRNA의 설계를 위해 다음의 사항들이 고려될 수 있다. pegRNA는 단일 가닥이기 때문에 태그 서열은 인접한 RT 또는 PBS 서열과 함께 2차 구조를 형성할 수 있다. 이러한 발생은 낮은 표적 태그맨테이션 비율에 의해 감지될 수 있으며, 이 경우 최종 TAPE-seq 분석이 수행되기 전에 태그 서열이 수정되어야 한다. 34-bp 태그 서열의 역상보 서열을 사용하거나, 또는 2차 구조를 형성하지 않는 다른 태그 서열이 설계될 수 있다. 이러한 과정에서 pegRNA를 설계하는데 도움이 되는 도구들이 사용될 수 있다. 예를 들어, epegRNA 설계를 위해 Vienna2.0 (문헌 [Lorenz, Ronny, et al. "ViennaRNA Package 2.0." Algorithms for molecular biology 6.1 (2011): 1-14.] 참조)와 같은 예측 도구의 도움을 받을 수 있다 (문헌 [Nelson, James W., et al. "Engineered pegRNAs improve prime editing efficiency." Nature biotechnology 40.3 (2022): 402-410.] 참조).

앞으로 더 많은 PE 기반 치료제가 개발될 것이 예측되며 (문헌 [Liu, Pengpeng, et al. "Improved prime editors enable pathogenic allele correction and cancer modelling in adult mice." Nature communications 12.1 (2021): 1-13.; Jang, Hyewon, et al. "Application of prime editing to the correction of mutations and phenotypes in adult mice with liver and eye diseases." Nature biomedical engineering 6.2 (2022): 181-194.; Kim, Yohan, et al. "Adenine base editing and prime editing of chemically derived hepatic progenitors rescue genetic liver disease." cell stem cell 28.9 (2021): 1614-1624.; Schene, Imre F., et al. "Prime editing for functional repair in patient-derived disease models." Nature communications 11.1 (2020): 1-8.; 및 Petri, Karl, et al. "CRISPR prime editing with ribonucleoprotein complexes in zebrafish and primary human cells." Nature biotechnology 40.2 (2022): 189-193.] 참조), 이에 따라 TAPE-seq은 PE 기반 약물의 안전성을 연구하기 위한 강력한 세포 기반 방법 중 하나가 될 것으로 기대된다.

분석 데이터에 대한 표

이하에서는, 본 출원에 개시된 실험 방법을 통해 얻어진 결과들이 표를 통해 개시된다. 이하에서 제공되는 각각의 표는, 각각의 표와 관련된 결과가 언급되는 부분에서 적절하게 인용되었다.

분석 데이터 1. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석

이하에서는 PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과가 표 1-1 및 표 1-2를 통해 개시된다.

표 1-1과 표 1-2는 연관된 결과를 나타낸다. 표 1-2의 첫번째 열을 통해 표 1-2의 정보를 표 1-1의 대응되는 정보와 연관시킬 수 있다. 표 1-2에서, 퍼센트는 전체 NGS 리드 중 표시된 시퀀스의 백분율을 나타낸다. 항목 "sequence"와 관련하여, "Bold" 표시된 서열은 스페이서 영역과 대응되는 서열을 나타내며, 및 이탤릭체(기울임)로 표시된 서열은 PAM과 대응되는 서열을 나타내며, 밑줄을 통해 표시된 서열은 편집된 서열과 편집 전의 서열 사이의 미스매치를 나타낸다.

표 1-1. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과 (1)

표 1-1에 개시된 서열에 서열번호 240 에서 서열번호 275의 서열번호가 할당되었다. 표 1-1에서 서열의 개시 순서대로, 240에서 275의 서열번호가 할당되었으며, 서열목록에 개시된 각 서열에서 bulge를 나타내는 "-"는 생략되었다.

표 1-2. PE2 TAPE-seq 온타겟 태그맨테이션 서열 분석 결과 (2)

분석 데이터 2. TAPE-seq에 의해 확인된 온타겟 위치 (on-target loci) 및 오프타겟 위치(off-target loci), 그리고 nDigenome-seq 및 GUIDE-seq으로 확인된 같은 부위를 표적하는 sgRNA에 대한 오프 타겟 위치와의 비교

이하에서는 TAPE-seq에 의해 확인된 온타겟 위치 및 오프 타겟 위치에 대한 분석 결과가 개시된다. 나아가, nDigenome-seq 및 GUIDE-seq으로 확인된, 같은 부위를 표적하는 sgRNA 대한 오프 타겟 부위와의 비교 결과가 개시된다. 각각의 표에서, 항목 "Type"은 bulge가 RNA bulge인지 또는 DNA bulge인지를 나타낸 것이다. 연관되는 결과는 표 n-x와 같이 표시된다. 예를 들어, 표 2-1, 표 2-2, 표 2-3, 표 2-4, 및 표 2-5는 연관된 결과이다. 하나의 연관된 표 집단 내에서, 각각의 표의 각각의 정보는 첫번째 열의 정보를 통해 대응되는 다른 연관된 표의 정보와 연관된다. 항목 "Target"과 관련하여, 소문자 및 "-"는 온타겟 및 pegRNA의 대응되는 영역과의 미스매치를 나타낸다.

이하의 표에 개시된 각 서열에 서열번호가 다음과 같이 할당되었다 (서열목록 참고). 서열목록에 개시된 각 서열에서 bulge를 나타내는 "-"는 생략되었다.

HEK4 on-target의 타겟 서열에는 276번의 서열번호가 할당되었다. 예측된 오프 타겟인 HEK4-off1 내지 HEK4-off39의 각 타겟 서열에는 서열번호 277 내지 서열번호 315의 서열번호가 순서대로 할당되었다.

HBB on-target의 타겟 서열에는 316의 서열번호가 할당되었다. 예측된 오프 타겟인 HBB-off1 내지 HBB-off5의 각 타겟 서열에는 서열번호 317 내지 서열번호 321의 서열번호가 순서대로 할당되었다.

EMX1 on-target의 타겟 서열에는 322의 서열번호가 할당되었다. 예측된 오프 타겟인 EMX1-off1 내지 EMX1-off2의 각 타겟 서열에는 서열번호 323 내지 서열번호 324의 서열번호가 순서대로 할당되었다.

FANCF on-target의 타겟 서열에는 325의 서열번호가 할당되었다. 예측된 오프 타겟인 FANCF-off1 내지 FANCF-off2의 각 타겟 서열에는 서열번호 326 내지 서열번호 327의 서열번호가 순서대로 할당되었다.

HEK3 on-target의 타겟 서열에는 328의 서열번호가 할당되었다. 예측된 오프 타겟인 HEK3-off1 내지 HEK3-off2의 각 타겟 서열에는 서열번호 329 내지 서열번호 330의 서열번호가 순서대로 할당되었다.

RNF2 on-target의 타겟 서열에는 331의 서열번호가 할당되었다.

DNMT1 on-target의 타겟 서열에는 332의 서열번호가 할당되었다. 예측된 오프 타겟인 DNMT1-off1 내지 DNMT1-off7의 각 타겟 서열에는 서열번호 333 내지 서열번호 339의 서열번호가 순서대로 할당되었다.

RUNX1 on-target의 타겟 서열에는 340의 서열번호가 할당되었다. 예측된 오프 타겟인 RUNX1-off1의 타겟 서열에는 서열번호 341이 할당되었다.

VEGFA on-target의 타겟 서열에는 342의 서열번호가 할당되었다. 예측된 오프 타겟인 VEGFA-off1 내지 VEGFA-off16의 각 타겟 서열에는 서열번호 343 내지 서열번호 358의 서열번호가 순서대로 할당되었다.

HEK4 on-target의 PBS에 대응되는 서열에는 359의 서열번호가 할당되었다. HEK4-off1 내지 HEK4-off39의 PBS에 대응되는 서열에는 각각 360 내지 398의 서열번호가 순서대로 할당되었다. HEK4 on-target의 RT에 대응되는 서열에는 399의 서열번호가 할당되었다. HEK4-off1 내지 HEK4-off39의 RT에 대응되는 서열에는 각각 400 내지 438의 서열번호가 순서대로 할당되었다. (표 36 참고)

HBB on-target의 PBS에 대응되는 서열에는 439의 서열번호가 할당되었다. HBB-off1 내지 HBB-off5의 PBS에 대응되는 서열에는 각각 440 내지 444의 서열번호가 순서대로 할당되었다. HBB on-target의 RT에 대응되는 서열에는 445의 서열번호가 할당되었다. HBB-off1 내지 HBB-off5의 RT에 대응되는 서열에는 각각 446 내지 450의 서열번호가 순서대로 할당되었다. (표 37 참고)

EMX1 on-target의 PBS에 대응되는 서열에는 451의 서열번호가 할당되었다. EMX1-off1 내지 EMX1-off2의 PBS에 대응되는 서열에는 각각 452 내지 453의 서열번호가 순서대로 할당되었다. EMX1 on-target의 RT에 대응되는 서열에는 454의 서열번호가 할당되었다. EMX1-off1 내지 EMX1-off2의 RT에 대응되는 서열에는 각각 455 내지 456의 서열번호가 순서대로 할당되었다. (표 38 참고)

FANCF on-target의 PBS에 대응되는 서열에는 457의 서열번호가 할당되었다. FANCF-off1 내지 FANCF-off2의 PBS에 대응되는 서열에는 각각 458 내지 459의 서열번호가 순서대로 할당되었다. FANCF on-target의 RT에 대응되는 서열에는 460의 서열번호가 할당되었다. FANCF-off1 내지 FANCF-off2의 RT에 대응되는 서열에는 각각 461 내지 462의 서열번호가 순서대로 할당되었다. (표 39 참고)

HEK3 on-target의 PBS에 대응되는 서열에는 463의 서열번호가 할당되었다. HEK3-off1 내지 HEK3-off2의 PBS에 대응되는 서열에는 각각 464 내지 465의 서열번호가 순서대로 할당되었다. HEK3 on-target의 RT에 대응되는 서열에는 466의 서열번호가 할당되었다. HEK3-off1 내지 HEK3-off2의 RT에 대응되는 서열에는 각각 467 내지 468의 서열번호가 순서대로 할당되었다. (표 40 참고)

RNF2 on-target의 PBS에 대응되는 서열에는 469의 서열번호가 할당되었다. RNF2 on-target의 RT에 대응되는 서열에는 470의 서열번호가 할당되었다. (표 41 참고)

DNMT1 on-target의 PBS에 대응되는 서열에는 471의 서열번호가 할당되었다. DNMT1-off1 내지 DNMT1-off7의 PBS에 대응되는 서열에는 각각 472 내지 478의 서열번호가 순서대로 할당되었다. DNMT1 on-target의 RT에 대응되는 서열에는 479의 서열번호가 할당되었다. DNMT1-off1 내지 DNMT1-off7의 RT에 대응되는 서열에는 각각 480 내지 486의 서열번호가 순서대로 할당되었다. (표 42 참고)

RUNX1 on-target의 PBS에 대응되는 서열에는 487의 서열번호가 할당되었다. RUNX1-off1의 PBS에 대응되는 서열에는 488의 서열번호가 할당되었다. RUNX1 on-target의 RT에 대응되는 서열에는 489의 서열번호가 할당되었다. RUNX1-off1의 RT에 대응되는 서열에는 490의 서열번호가 할당되었다. (표 43 참고)

VEGFA on-target의 PBS에 대응되는 서열에는 491의 서열번호가 할당되었다. VEGFA-off1 내지 VEGFA-off16의 PBS에 대응되는 서열에는 각각 492 내지 507의 서열번호가 순서대로 할당되었다. VEGFA on-target의 RT에 대응되는 서열에는 508의 서열번호가 할당되었다. VEGFA-off1 내지 VEGFA-off16의 RT에 대응되는 서열에는 각각 509 내지 524의 서열번호가 순서대로 할당되었다. (표 44 참고)

표 2-1. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (1)

표 2-2. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (2)

표 2-3. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (3)

표 2-4. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (4)

표 2-5. HEK4 TAPE-seq 평균 리드 깊이 (average read depth) (5)

표 3-1. HBB TAPE-seq 평균 리드 깊이 (1)

표 3-2. HBB TAPE-seq 평균 리드 깊이 (2)

표 4-1. EMX1 TAPE-seq 평균 리드 깊이 (1)

표 4-2. EMX1 TAPE-seq 평균 리드 깊이 (2)

표 5-1. FANCF TAPE-seq 평균 리드 깊이 (1)

표 5-2. FANCF TAPE-seq 평균 리드 깊이 (2)

표 6-1. HEK3 TAPE-seq 평균 리드 깊이 (1)

표 6-2. HEK3 TAPE-seq 평균 리드 깊이 (2)

표 7-1. RNF2 TAPE-seq 평균 리드 깊이 (1)

표 7-2. RNF2 TAPE-seq 평균 리드 깊이 (2)

표 8-1. DNMT1 TAPE-seq 평균 리드 깊이 (1)

표 8-2. DNMT1 TAPE-seq 평균 리드 깊이 (2)

표 9-1. RUNX1 TAPE-seq 평균 리드 깊이 (1)

표 9-2. RUNX1 TAPE-seq 평균 리드 깊이 (2)

표 10-1. VEGFA TAPE-seq 평균 리드 깊이 (1)

표 10-2. VEGFA TAPE-seq 평균 리드 깊이 (2)

분석 데이터 3. 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수

이하에서는 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수에 대한 결과가 개시된다.

표 11. 시퀀싱 플랫폼 및 각각의 TAPE-seq 분석에 대해 생성된 리드 수

분석 데이터 4. TAPE-seq에 의해 확인된 후보 오프 타겟 부위의 표적화된 딮시퀀싱 분석

이하에서는 TAPE-seq에 의해 예측된 온 타겟 및 오프 타겟 부위에 대한 표적화된 딮시퀀싱 분석 결과(편집율, 태그맨테이션율 등)가 개시된다. 연관되는 결과는 표 n-x와 같이 표시된다. 예를 들어, 표 12-1, 및 표 12-2는 연관된 결과이다. 하나의 연관된 표 집단 (예를 들어, 표 12) 내에서, 각각의 표의 정보는 첫번째 열의 정보를 통해, 대응되는 다른 연관된 표의 정보와 연관된다. 항목 "Target"과 관련하여, 소문자 및 "-"는 온타겟 및 pegRNA와의 미스매치를 나타낸다.

표 12-1. 각 pegRNA의 온타겟 부위에 대한 결과 (1)

표 12-2. 각 pegRNA의 온타겟 부위에 대한 결과 (2)

표 13-1. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (1)

표 13-2. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (2)

표 13-3. 각 pegRNA에 대한 PE2 TAPE-seq에 의해 예측된 오프 타겟 부위에 대한 결과 (HEK293T, HeLa, K562) (3)

표 14-1. PE2 TAPE-seq, PE-nuclease TAPE-seq, 및 PEmax nuclease TAPE-seq의 태그맨테이션율 (1)

표 14-2. PE2 TAPE-seq, PE-nuclease TAPE-seq, 및 PEmax nuclease TAPE-seq의 태그맨테이션율 (2)

표 15. PE2 TAPE-seq, 및 PE4 TAPE-seq의 태그맨테이션율

표 16. 태그 길이 별 태그맨테이션 율

분석 데이터 5. TAPE-seq에 의해 생성된 예측에 대한 검증율의 계산

이하에서는 TAPE-seq (PE2, PE2-nuclease, PEmax-nuclease) 및 다른 오프 타겟 예측 방법에 의해 생성된 예측에 대한 검증율의 계산 결과가 개시된다.

표 17. HEK4 (+2 G to T) pegRNA

표 18. HEK4 (+3 TAA ins) pegRNA

표 19. HBB (+4 A to T) pegRNA

표 20. EMX1 (+5 G to T) pegRNA

표 21. FANCF (+6 G to C) pegRNA

표 22. HEK3 (+1 CTT ins) pegRNA

표 23. RNF2 (+6 G to A) pegRNA

표 24. DNMT1 (+6 G to C) pegRNA

표 25. RUNX1 (+6 G to C) pegRNA

표 26. VEGFA (+5 G to T) pegRNA

분석 데이터 6. 검증된 오프 타겟의 미스율

이하에서는, 각 오프 타겟 예측 방법의 미스율에 대한 결과를 개시한다. 검증된 오프 타겟을 오프 타겟 예측 방법으로 예측한 경우 +로 표시된다. 나머지 타겟에 대한 미스율은 0으로 확인되었다. 항목 "Type"은 bulge가 RNA인지, DNA 인지, 또는 존재하지 않는지에 대한 정보를 나타낸다.

표 27. HEK4 (+2 G to T) pegRNA 미스율 (HEK293T)

표 28. HEK4 (+3 TAA ins) pegRNA 미스율 (HEK293T)

표 29. HBB (+4 A to T) pegRNA 미스율 (HEK293T)

표 30. DNMT1 (+6 G to C) pegRNA 미스율 (HEK293T)

표 31. VEGFA (+5 G to T) pegRNA 미스율 (HEK293T)

표 32. HEK4 (+2 G to T) pegRNA 미스율 (HeLa)

표 33. HEK4 (+3 TAA ins) pegRNA 미스율 (HeLa)

표 34. HEK4 (+2 G to T) pegRNA 미스율 (K562)

표 35. HEK4 (+3 TAA ins) pegRNA 미스율 (K562)

분석 데이터 7. 영역(region)별 미스매치 분석

이하에서는, pegRNA의 각 영역에서의 미스매치에 대한 분석 결과를 개시한다. 항목 "Target", "PBS", 및 "RT region"에서 온타겟 서열 및 pegRNA의 대응되는 영역과의 미스매치는 "소문자" 및 "-"로 표시된다. 항목 "Type"은 bulge가 RNA인지, DNA 인지, 또는 존재하지 않는지에 대한 정보를 나타낸다.

표 36-1. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (1)

표 36-2. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (2)

표 36-3. HEK4 온타겟 및 오프 타겟에 대한 분석 결과 (3)

표 37-1. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (1)

표 37-2. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (2)

표 37-3. HBB 온타겟 및 오프 타겟에 대한 분석 결과 (3)

표 38. EMX1 온타겟 및 오프 타겟에 대한 분석 결과

표 39. FANCF 온타겟 및 오프 타겟에 대한 분석 결과

표 40. HEK3 온타겟 및 오프 타겟에 대한 분석 결과

표 41. RNF2 온타겟 및 오프 타겟에 대한 분석 결과

표 42-1. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (1)

표 42-2. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (2)

표 42-3. DNMT1 온타겟 및 오프 타겟에 대한 분석 결과 (3)

표 43. RUNX1 온타겟 및 오프 타겟에 대한 분석 결과

표 44-1. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (1)

표 44-2. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (2)

표 44-3. VEGFA 온타겟 및 오프 타겟에 대한 분석 결과 (3)

벡터 서열

pRG2-pegRNA 전체 서열 및 포함된 각 요소

- 전체 서열

gacgaagactcaattgtcgattagtgaacggatctcgacggtatcgatcacgagactagcctcgagcggccgcccccttcacc⁽¹⁾ gagggcctatttcccatgattccttcatatttgcatatacgatacaaggctgttagagagataattggaattaatttgactgtaaacacaaagatattagtacaaaatacgtgacgtagaaagtaataatttcttgggtagtttgcagttttaaaattatgttttaaaatggactatcatatgcttaccgtaacttgaaagtatttcgatttcttggctttatatatcttgtggaaaggacgaaaca⁽²⁾ ccggagaccacatttccccgaaaagtgccacctgacgtctaagaaaccattattatcatgacattaacctataaaaataggcgtatcacgaggccctttcgtctcgcgcgtttcggtgatgacggtgaaaacctctgacacatgcagctcccggagacggtcacagcttgtctgtaagcggatgccgggagcagacaagcccgtcagggcgcgtcagcgggtgttggcgggtgtcggggctggcttaactatgcggcatcagagcagattgtactgagagtgcaccatatgcggtgtgaaataccgcacagatgcgtaaggagaaaataccgcatcaggcgccattcgccattcaggctgcgcaactgttgggaagggcgatcggtgcgggcctcttcgctattacgccagctggcgaaagggggatgtgctgcaaggcgattaagttgggtaacgccagggttttcccagtcacgacgttgtaaaacgacggccagtgccaagcttgcatgcctgcaggtcgactctagaggatccccgggtaccgagctcgaattcgtaatcatggtcatagctgtttcctgtgtgaaattgttatccgctcacaattccacacaacatacgagccggaagcataaagtgtaaagcctggggtgcctaatagatccggtctcc⁽³⁾ gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcggagacg⁽⁴⁾ tgtctgtaagcggatgccgggagcagacaagcccgtcagggcgcgtcagcgggtgttggcgggtgtcggggctggcttaactatgcggcatcagagcagattgtactgagagtgcaccatatgcggtgtgaaataccgcacagatgcgtaaggagaaaataccgcatcaggcgccattcgccattcaggctgcgcaactgttgggaagggcgatcggtgcgggcctcttcgctattacgccagctggcgaaagggggatgtgctgcaaggcgattaagttgggtaacgccagggttttcccagtcacgacgttgtaaaacgacggccagtgccaagcttgcatgcctgcaggtcgactctagaggatccccgggtaccgagctcgaattcgtaatcatggtcatagctgtttcctgtgtgaaattgttatccgctcacaattccacacaacatacgagccggcgtctccctagattcgcgatgtacgggccagatatacgcgttgacattgattattgactagttgtcttcctgcattaatgaatcggccaacgcgcggggagaggcggtttgcgtattgggcgctcttccgcttcctcgctcactgactcgctgcgctcggtcgttcggctgcggcgagcggtatcagctcactcaaaggcggtaatacggttatccacagaatcaggggataacgcaggaaagaac⁽⁵⁾ atgtgagcaaaaggccagcaaaaggccaggaaccgtaaaaaggccgcgttgctggcgtttttccataggctccgcccccctgacgagcatcacaaaaatcgacgctcaagtcagaggtggcgaaacccgacaggactataaagataccaggcgtttccccctggaagctccctcgtgcgctctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcaatgctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaaggacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgagattatcaaaaaggatcttcacctagatccttttaaattaaaaatgaagttttaaatcaatctaaagtatatatgagtaaacttggtctgacag⁽⁶⁾ ttaccaatgcttaatcagtgaggcacctatctcagcgatctgtctatttcgttcatccatagttgcctgactccccgtcgtgtagataactacgatacgggagggcttaccatctggccccagtgctgcaatgataccgcgagatccacgctcaccggctccagatttatcagcaataaaccagccagccggaagggccgagcgcagaagtggtcctgcaactttatccgcctccatccagtctattaattgttgccgggaagctagagtaagtagttcgccagttaatagtttgcgcaacgttgttgccattgctacaggcatcgtggtgtcacgctcgtcgtttggtatggcttcattcagctccggttcccaacgatcaaggcgagttacatgatcccccatgttgtgcaaaaaagcggttagctccttcggtcctccgatcgttgtcagaagtaagttggccgcagtgttatcactcatggttatggcagcactgcataattctcttactgtcatgccatccgtaagatgcttttctgtgactggtgagtactcaaccaagtcattctgagaatagtgtatgcggcgaccgagttgctcttgcccggcgtcaatacgggataataccgcgccacatagcagaactttaaaagtgctcatcattggaaaacgttcttcggggcgaaaactctcaaggatcttaccgctgttgagatccagttcgatgtaacccactcgtgcacccaactgatcttcagcatcttttactttcaccagcgtttctgggtgagcaaaaacaggaaggcaaaatgccgcaaaaaagggaataagggcgacacggaaatgttgaatactcatactcttcctttttcaatattattgaagcatttatcagggttattgtctcatgagcggatacatatttgaatgtatttagaaaaataaacaaataggggttccgcgcacatttccccgaaaagtgccacctgacgtc (서열번호 146)

- (1) U6 Promoter; (2) Stuffer; (3) sgRNA scaffold; (4) pUC origin; (5) stuffer; (6) Amp resistance

pAllin1-PE2 전체 서열 및 포함된 각 요소

- 전체 서열

cgatgtacgggccagatatacgcgcgtatatctggcccgtacatcgcgaatctag⁽¹⁾ AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNgcaccgactcggtgccactttttcaagttgataacggactagccttattttaacttgctatttctagctctaaaacNNNNNNNNNNNNNNNNNNNcggtgtttc⁽²⁾ gtcctttccacaagatatataaagccaagaaatcgaaatactttcaagttacggtaagcatatgatagtccattttaaaacataattttaaaactgcaaactacccaagaaattattactttctacgtcacgtattttgtactaatatctttgtgtttacagtcaaattaattccaattatctctctaacagccttgtatcgtatatgcaaatatgaaggaatcatgggaaataggccctccgcgtt⁽³⁾ gacattgattattgactagttattaatagtaatcaattacggggtcattagttcatagcccatatatggagttccgcgttacataacttacggtaaatggcccgcctggctgaccgcccaacgacccccgcccattgacgtcaataatgacgtatgttcccatagtaacgccaatagggactttccattgacgtcaatgggtggagtatttacggtaaactgcccacttggcagtacatcaagtgtatcatatgccaagtacgccccctattgacgtcaatgacggtaaatggcccgcctggcattatgcccagtacatgaccttatgggactttcctacttggcagtacatctacgtattagtcatcgctattaccatggtgatgcggttttggcagtacatcaatgggcgtggatagcggtttgactcacggggatttccaagtctccaccccattgacgtcaatgggagtttgttttggcaccaaaatcaacgggactttccaaaatgtcgtaacaactccgccccattgacgcaaatgggcggtaggcgtgtacggtgggaggtctatataagcagagctggtttagtgaaccgtcagatccgctagagatccgcggccgctaatacgactcactatagggagagccgccaccatgaaacggacagccgacggaagcgagttcgagtca⁽⁴⁾ ccaggacatcaaaagggacacagcgccgaggctagaggcaaccggatggctgaccaagcggcccgaaaggcagccatcacagagactccagacacctctaccctcctcatagaaaattcatcaccctctggcggctcaaaaagaaccgccgacggcagcgaattcgagcccaagaagaagaggaaagtctaaccggtcatcatcaccatcaccattgagttttacccctacgacgtgcccgactacgcctaataactcgagcatgcatctagagggccctattctatagtgtcacctaaatgctagagctcgctgatcagcctcgactgtgccttctagttgccagccatctgttgtttgcccctcccccgtgccttccttgaccctggaaggtgccactcccactgtcctttcctaataaaatgaggaaattgcatcgcattgtctgagtaggtgtcattctattctggggggtggggtggggcaggacagcaagggggaggattgggaagacaatagcaggcatgctgggga⁽⁵⁾ ggatctgcgatcgctccggtgcccgtcagtgggcagagcgcacatcgcccacagtccccgagaagttggggggaggggtcggcaattgaacgggtgcctagagaaggtggcgcggggtaaactgggaaagtgatgtcgtgtactggctccgcctttttcccgagggtgggggagaaccgtatataagtgcagtagtcgccgtgaacgttctttttcgcaacgggtttgccgccagaacacagctgaagcttcgaggggctcgcatctctccttcacgcgcccgccgccctacctgaggccgccatccacgccggttgagtcgcgttctgccgcctcccgcctgtggtgcctcctgaactgcgtccgccgtctaggtaagtttaaagctcaggtcgagaccgggcctttgtccggcgctcccttggagcctacctagactcagccggctctccacgctttgcctgaccctgcttgctcaactctacgtctttgtttcgttttctgttctgcgccgttacagatccaagctgtgaccggcgcctac⁽⁶⁾ ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGAccatccgtaagatgcttttctgtgactggtgagtactcaaccaagtcattctgagaatagtgtatgcggcgaccgagttgctcttgcccggcgtcaatacgggataataccgcgccacatagcagaactttaaaagtgctcatcattggaaaacgttcttcggggcgaaaactctcaaggatcttaccgctgttgagatccagttcgatgtaacccactcgtgcacccaactgatcttcagcatcttttactttcaccagcgtttctgggtgagcaaaaacaggaaggcaaaatgccgcaaaaaagggaataagggcgacacggaaatgttgaatactcatactcttcctttttcaatattattgaagcatttatcagggttattgtctcatgagcggatacatatttgaatgtatttagaaaaataaacaaataggggttccgcgaacttgtttattgcagcttataatggttacaaataaagcaatagcatcacaaatttcacaaataaagcatttttttcactgcattctagttgtggtttgtccaaactcatcaatgtatcttatcatgtctgg⁽⁷⁾ ccagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattttattatatattagtcacctcctgttccgaccctgccgcttaccggatacctgtccgcctttctcccttcgggaagcgtggcgctttctcatagctcacgctgtaggtatctcagttcggtgtaggtcgttcgctccaagctgggctgtgtgcacgaaccccccgttcagcccgaccgctgcgccttatccggtaactatcgtcttgagtccaacccggtaagacacgacttatcgccactggcagcagccactggtaacaggattagcagagcgaggtatgtaggcggtgctacagagttcttgaagtggtggcctaactacggctacactagaaggacagtatttggtatctgcgctctgctgaagccagttaccttcggaaaaagagttggtagctcttgatccggcaaacaaaccaccgctggtagcggtggtttttttgtttgcaagcagcagattacgcgcagaaaaaaaggatctcaagaagatcctttgatcttttctacggggtctgacgctcagtggaacgaaaactcacgttaagggattttggtcatgattaaccctagaaagataatcatattgtgacgtacgttaaagataatcatgcgtaaaattgacgcatgtgttttatcggtctgtatatcgaggtttatttattaatttgaatagatattaagttttattatatttacacttacatactaataataaattcaacaaacaatttatttatgtttatttatttattaaaaaaaaacaaaaactcaaaatttcttctataaagtaacaaa⁽⁸⁾ acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 147)

- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE2; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR

piggy-PE2 전체 서열 및 포함된 각 요소

- 전체 서열

CGATGTACGGGCCAGATATACGCGTT⁽¹⁾ GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCA⁽²⁾ CCAGGACATCAAAAGGGACACAGCGCCGAGGCTAGAGGCAACCGGATGGCTGACCAAGCGGCCCGAAAGGCAGCCATCACAGAGACTCCAGACACCTCTACCCTCCTCATAGAAAATTCATCACCCTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA⁽³⁾ GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC⁽⁴⁾ ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGG⁽⁵⁾ CCAGCTAGCCAACAAGCTCGTCATCGCTTTGCAGAAGAGCAGAGAGGATATGCTCATCGTCTAAAGAACTACCCATTTTATTATATATTAGTCACCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA⁽⁶⁾ ACTTTTAAACATTCTCTCTTTTACAAAAATAAACTTATTTTGTACTTTAAAAACAGTCATGTTGTATTATAAAATAAGTAATTAGCTTAACCTATACATAATAGAAACAAATTATACTTATTAGTCAGTCAGAAACAACTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 148)

- (1) CMV Promoter; (2) PE2; (3) EF1alpha Promoter; (4) Puromycin resistance (5) ITR (6) ITR

pRG2-epegRNA 전체 서열 및 포함된 각 요소

- 전체 서열

GACGAAGACTCAATTGTCGATTAGTGAACGGATCTCGACGGTATCGATCACGAGACTAGCCTCGAGCGGCCGCCCCCTTCACC⁽¹⁾ GAGGGCCTATTTCCCATGATTCCTTCATATTTGCATATACGATACAAGGCTGTTAGAGAGATAATTGGAATTAATTTGACTGTAAACACAAAGATATTAGTACAAAATACGTGACGTAGAAAGTAATAATTTCTTGGGTAGTTTGCAGTTTTAAAATTATGTTTTAAAATGGACTATCATATGCTTACCGTAACTTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACA⁽²⁾ CCGGAGACCACATTTCCCCGAAAAGTGCCACCTGACGTCTAAGAAACCATTATTATCATGACATTAACCTATAAAAATAGGCGTATCACGAGGCCCTTTCGTCTCGCGCGTTTCGGTGATGACGGTGAAAACCTCTGACACATGCAGCTCCCGGAGACGGTCACAGCTTGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGAGCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGCATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTGGGGTGCCTAATAGATCCGGTCTCC⁽³⁾ GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCGGAGACG⁽⁴⁾ TGTCTGTAAGCGGATGCCGGGAGCAGACAAGCCCGTCAGGGCGCGTCAGCGGGTGTTGGCGGGTGTCGGGGCTGGCTTAACTATGCGGCATCAGAGCAGATTGTACTGAGAGTGCACCATATGCGGTGTGAAATACCGCACAGATGCGTAAGGAGAAAATACCGCATCAGGCGCCATTCGCCATTCAGGCTGCGCAACTGTTGGGAAGGGCGATCGGTGCGGGCCTCTTCGCTATTACGCCAGCTGGCGAAAGGGGGATGTGCTGCAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCCTGCAGGTCGACTCTAGAGGATCCCCGGGTACCGAGCTCGAATTCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGCGTCTCC⁽⁵⁾ CGCGGTTCTATCTAGTTACGCGTTAAACCAACTAGAATTTTTTAGATATACGCGTTGACATTGATTATTGACTAGTTGTCTTCCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAAC⁽⁶⁾ ATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCAATGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAG⁽⁷⁾ TTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGATCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTC (서열번호 149)

- (1) U6 promoter; (2) Stuffer; (3) sgRNA scaffold; (4) Stuffer; (5) tevopreQ1; (6) pUC origin; (7) Amp resistance

pAllin1-PE4 전체 서열 및 포함된 각 요소

- 전체 서열

CGATGTACGGGCCAGATATACGCGCGTATATCTGGCCCGTACATCGCGAATCTAG⁽¹⁾ AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC⁽²⁾ GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT⁽³⁾ GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC⁽⁴⁾ GGCCATGCTGGCTCTGGATAGCCCAGAAAGCGGCTGGACAGAAGAGGACGGACCTAAAGAGGGGCTGGCTGAATACATCGTGGAGTTCCTGAAGAAAAAGGCCGAGATGCTGGCCGACTACTTTTCTCTGGAAATCGACGAGGAAGGCAACCTGATCGGCCTGCCTCTGCTGATCGATAACTACGTGCCTCCCCTGGAAGGCCTGCCCATCTTCATCCTGAGACTGGCTACAGAGGTGAACTGGGACGAGGAAAAGGAATGCTTCGAGTCTCTGAGCAAGGAGTGCGCCATGTTCTATAGCATCAGAAAACAGTACATCTCTGAAGAGAGCACTCTGTCTGGCCAGCAGAGTGAAGTGCCCGGAAGCATCCCCAACAGCTGGAAGTGGACCGTGGAACACATCGTGTACAAGGCCCTGCGGAGCCACATTCTCCCTCCTAAGCACTTCACCGAGGACGGCAACATCCTGCAGCTGGCCAACCTGCCCGACCTTTATAAGGTTTTCTAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA⁽⁵⁾ GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC⁽⁶⁾ ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGG⁽⁷⁾ cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA⁽⁸⁾ acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 150)

- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE4; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR

pAllin1-PE2-nuclease 전체 서열 및 포함된 각 요소

- 전체 서열

CGATGTACGGGCCAGATATACGCGCGTATATCTGGCCCGTACATCGCGAATCTAG⁽¹⁾ AAAAAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC⁽²⁾ GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT⁽³⁾ GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTCTCTGGCTAACTAGAGAACCCACTGCTTACTGGCTTATCGAAATTTCCCTATCAGTGATAGAGATTGACATCCCTATCAGTGATAGAGATACTGAGCACATCAGCAGGACGCACTGACCAGGGAGACCCAAGCTTGCCACC⁽⁴⁾ GCCCTACTAAAAGCCCTCTTTCTGCCCAAAAGACTTAGCATAATCCATTGTCCAGGACATCAAAAGGGACACAGCGCCGAGGCTAGAGGCAACCGGATGGCTGACCAAGCGGCCCGAAAGGCAGCCATCACAGAGACTCCAGACACCTCTACCCTCCTCATAGAAAATTCATCACCCTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA⁽⁵⁾ GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC⁽⁶⁾ ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGGC⁽⁷⁾ cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA⁽⁸⁾ acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 151)

- (1) pegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PE2-nuclease; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR

pAllin1-PEmax-nuclease 전체 서열 및 포함된 각 요소

- 전체 서열

CGATGTACGGGCCAGATATACGCGCAATGTCAACGCGTATATCT⁽¹⁾ AAAAAATTCTAGTTGGTTTAACGCGTAACTAGATAGAACCGCGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAACNNNNNNNNNNNNNNNNNNNCGGTGTTTC⁽²⁾ GTCCTTTCCACAAGATATATAAAGCCAAGAAATCGAAATACTTTCAAGTTACGGTAAGCATATGATAGTCCATTTTAAAACATAATTTTAAAACTGCAAACTACCCAAGAAATTATTACTTTCTACGTCACGTATTTTGTACTAATATCTTTGTGTTTACAGTCAAATTAATTCCAATTATCTCTCTAACAGCCTTGTATCGTATATGCAAATATGAAGGAATCATGGGAAATAGGCCCTCCGCGTT⁽³⁾ GACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATCATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACC⁽⁴⁾ GCCCTGTTTCTGCCCAAGCGGCTGAGCATCATCCACTGTCCTGGACACCAGAAGGGACACTCCGCCGAGGCAAGGGGCAATCGGATGGCCGACCAGGCCGCCAGAAAGGCTGCTATTACTGAAACTCCCGACACTTCCACTCTGCTGATTGAAAACTCCTCCCCTTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGTCTCCCAAGAAGAAGAGGAAAGTCGGCTCTGGCCCTGCCGCTAAGAGAGTGAAGCTGGACTAACCGGTCATCATCACCATCACCATTGAGTTTTACCCCTACGACGTGCCCGACTACGCCTAATAACTCGAGCATGCATCTAGAGGGCCCTATTCTATAGTGTCACCTAAATGCTAGAGCTCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGA⁽⁵⁾ GGATCTGCGATCGCTCCGGTGCCCGTCAGTGGGCAGAGCGCACATCGCCCACAGTCCCCGAGAAGTTGGGGGGAGGGGTCGGCAATTGAACGGGTGCCTAGAGAAGGTGGCGCGGGGTAAACTGGGAAAGTGATGTCGTGTACTGGCTCCGCCTTTTTCCCGAGGGTGGGGGAGAACCGTATATAAGTGCAGTAGTCGCCGTGAACGTTCTTTTTCGCAACGGGTTTGCCGCCAGAACACAGCTGAAGCTTCGAGGGGCTCGCATCTCTCCTTCACGCGCCCGCCGCCCTACCTGAGGCCGCCATCCACGCCGGTTGAGTCGCGTTCTGCCGCCTCCCGCCTGTGGTGCCTCCTGAACTGCGTCCGCCGTCTAGGTAAGTTTAAAGCTCAGGTCGAGACCGGGCCTTTGTCCGGCGCTCCCTTGGAGCCTACCTAGACTCAGCCGGCTCTCCACGCTTTGCCTGACCCTGCTTGCTCAACTCTACGTCTTTGTTTCGTTTTCTGTTCTGCGCCGTTACAGATCCAAGCTGTGACCGGCGCCTAC⁽⁶⁾ ATGACCGAGTACAAGCCCACGGTGCGCCTCGCCACCCGCGACGACGTCCCCAGGGCCGTACGCACCCTCGCCGCCGCGTTCGCCGACTACCCCGCCACGCGCCACACCGTCGATCCAGACCGCCACATCGAGCGGGTCACCGAGCTGCAAGAACTCTTCCTCACGCGCGTCGGGCTCGACATCGGCAAGGTGTGGGTCGCGGACGACGGCGCCGCGGTGGCGGTCTGGACCACGCCGGAGAGCGTCGAAGCGGGGGCGGTGTTCGCCGAGATCGGCCCGCGCATGGCCGAGTTGAGCGGTTCCCGGCTGGCCGCGCAGCAACAGATGGAAGGTCTCCTGGCGCCGCACCGGCCCAAGGAGCCCGCGTGGTTCCTGGCCACCGTCGGCGTCTCGCCCGACCACCAGGGCAAGGGTCTGGGCAGCGCCGTCGTGCTCCCCGGAGTGGAGGCGGCCGAGCGCGCCGGGGTGCCCGCCTTCCTGGAGACCTCCGCGCCCCGCAACCTCCCCTTCTACGAGCGGCTCGGCTTCACCGTCACCGCCGACGTCGAGGTGCCCGAAGGACCGCGCACCTGGTGCATGACCCGCAAGCCCGGTGCCTGACCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGAACTTGTTTATTGCAGCTTATAATGGTTACAAATAAAGCAATAGCATCACAAATTTCACAAATAAAGCATTTTTTTCACTGCATTCTAGTTGTGGTTTGTCCAAACTCATCAATGTATCTTATCATGTCTGGC⁽⁷⁾ cagctagccaacaagctcgtcatcgctttgcagaagagcagagaggatatgctcatcgtctaaagaactacccattGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGGACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACGCTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGATTAACCCTAGAAAGATAATCATATTGTGACGTACGTTAAAGATAATCATGCGTAAAATTGACGCATGTGTTTTATCGGTCTGTATATCGAGGTTTATTTATTAATTTGAATAGATATTAAGTTTTATTATATTTACACTTACATACTAATAATAAATTCAACAAACAATTTATTTATGTTTATTTATTTATTAAAAAAAAACAAAAACTCAAAATTTCTTCTATAAAGTAACAAA⁽⁸⁾ acttttaaacattctctcttttacaaaaataaacttattttgtactttaaaaacagtcatgttgtattataaaataagtaattagcttaacctatacataatagaaacaaattatacttattagtcagtcagaaacaaCTTTGGCACATATCAATATTATGCTCTCGTTAATTAA (서열번호 152)

- (1) epegRNA; (2) U6 Promoter; (3) CMV Promoter; (4) PEmax-nuclease; (5) EF1alpha Promoter; (6) Puromycin resistance; (7) ITR; (8) ITR

레퍼런스

이하에서는, 본 명세서에서 참조된 레퍼런스 문헌의 일부를 개시한다. 본 명세서에서 참조된 문헌은 해당 참조와 관련된 단락에 언급되었거나, 또는 언급되지 않았을 수 있다.

1. Tsai, S.Q. et al. GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases. Nat Biotechnol 33, 187-197 (2015).

2. Liang, S.Q. et al. Genome-wide detection of CRISPR editing in vivo using GUIDE-tag. Nat Commun 13, 437 (2022).

3. Yan, W.X. et al. BLISS is a versatile and quantitative method for genome-wide profiling of DNA double-strand breaks. Nat Commun 8, 15058 (2017).

4. Crosetto, N. et al. Nucleotide-resolution DNA double-strand break mapping by next-generation sequencing. Nat Methods 10, 361-365 (2013).

5. Wienert, B. et al. Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq. Science 364, 286-289 (2019).

6. Wang, X. et al. Unbiased detection of off-target cleavage by CRISPR-Cas9 and TALENs using integrase-defective lentiviral vectors. Nat Biotechnol 33, 175-178 (2015).

7. Chiarle, R. et al. Genome-wide translocation sequencing reveals mechanisms of chromosome breaks and rearrangements in B cells. Cell 147, 107-119 (2011).

8. Kim, H.S. et al. CReVIS-Seq: A highly accurate and multiplexable method for genome-wide mapping of lentiviral integration sites. Mol Ther Methods Clin Dev 20, 792-800 (2021).

9. Breton, C., Clark, P.M., Wang, L., Greig, J.A. & Wilson, J.M. ITR-Seq, a next-generation sequencing assay, identifies genome-wide DNA editing sites in vivo following adeno-associated viral vector-mediated genome editing. BMC Genomics 21, 239 (2020).

10. Huang, H. et al. Tag-seq: a convenient and scalable method for genome-wide specificity assessment of CRISPR/Cas nucleases. Commun Biol 4, 830 (2021).

11. Dobbs, F.M. et al. Precision digital mapping of endogenous and induced genomic DNA breaks by INDUCE-seq. Nat Commun 13, 3989 (2022).

12. Kim, D. et al. Digenome-seq: genome-wide profiling of CRISPR-Cas9 off-target effects in human cells. Nat Methods 12, 237-243, 231 p following 243 (2015).

13. Kim, D. & Kim, J.S. DIG-seq: a genome-wide CRISPR off-target profiling method using chromatin DNA. Genome Res 28, 1894-1900 (2018).

14. Lazzarotto, C.R. et al. CHANGE-seq reveals genetic and epigenetic effects on CRISPR-Cas9 genome-wide activity. Nat Biotechnol 38, 1317-1327 (2020).

15. Tsai, S.Q. et al. CIRCLE-seq: a highly sensitive in vitro screen for genome-wide CRISPR-Cas9 nuclease off-targets. Nat Methods 14, 607-614 (2017).

16. Cameron, P. et al. Mapping the genomic landscape of CRISPR-Cas9 cleavage. Nat Methods 14, 600-606 (2017).

17. Bae, S., Park, J. & Kim, J.S. Cas-OFFinder: a fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases. Bioinformatics 30, 1473-1475 (2014).

18. Concordet, J.P. & Haeussler, M. CRISPOR: intuitive guide selection for CRISPR/Cas9 genome editing experiments and screens. Nucleic Acids Res 46, W242-W245 (2018).

19. Montague, T.G., Cruz, J.M., Gagnon, J.A., Church, G.M. & Valen, E. CHOPCHOP: a CRISPR/Cas9 and TALEN web tool for genome editing. Nucleic Acids Res 42, W401-407 (2014).

20. Gillmore, J.D. et al. CRISPR-Cas9 In Vivo Gene Editing for Transthyretin Amyloidosis. N Engl J Med 385, 493-502 (2021).

21. Maeder, M.L. et al. Development of a gene-editing approach to restore vision loss in Leber congenital amaurosis type 10. Nat Med 25, 229-233 (2019).

22. Frangoul, H. et al. CRISPR-Cas9 Gene Editing for Sickle Cell Disease and beta-Thalassemia. N Engl J Med 384, 252-260 (2020).

23. Komor, A.C., Kim, Y.B., Packer, M.S., Zuris, J.A. & Liu, D.R. Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage. Nature 533, 420-424 (2016).

24. Gaudelli, N.M. et al. Programmable base editing of A*T to G*C in genomic DNA without DNA cleavage. Nature 551, 464-471 (2017).

25. Petri, K. et al. Global-scale CRISPR gene editor specificity profiling by ONE-seq identifies population-specific, variant off-target effects. bioRxiv, 2021.2004.2005.438458 (2021).

26. Lei, Z. et al. Detect-seq reveals out-of-protospacer editing and target-strand editing by cytosine base editors. Nat Methods 18, 643-651 (2021).

27. Kim, D. et al. Genome-wide target specificities of CRISPR RNA-guided programmable deaminases. Nat Biotechnol 35, 475-480 (2017).

28. Kim, D., Kim, D.E., Lee, G., Cho, S.I. & Kim, J.S. Genome-wide target specificity of CRISPR RNA-guided adenine base editors. Nat Biotechnol 37, 430-435 (2019).

29. Liang, P. et al. Genome-wide profiling of adenine base editor specificity by EndoV-seq. Nat Commun 10, 67 (2019).

30. Anzalone, A.V. et al. Search-and-replace genome editing without double-strand breaks or donor DNA. Nature 576, 149-157 (2019).

31. Kim, D.Y., Moon, S.B., Ko, J.H., Kim, Y.S. & Kim, D. Unbiased investigation of specificities of prime editing systems in human cells. Nucleic Acids Res 48, 10576-10589 (2020).

32. Jin, S. et al. Genome-wide specificity of prime editors in plants. Nat Biotechnol 39, 1292-1299 (2021).

33. Kim, D., Kang, B.C. & Kim, J.S. Identifying genome-wide off-target sites of CRISPR RNA-guided nucleases and deaminases with Digenome-seq. Nat Protoc 16, 1170-1192 (2021).

34. Li, X. et al. piggyBac transposase tools for genome engineering. Proc Natl Acad Sci U S A 110, E2279-2287 (2013).

35. Malinin, N.L. et al. Defining genome-wide CRISPR-Cas genome-editing nuclease activity with GUIDE-seq. Nat Protoc 16, 5592-5615 (2021).

36. Zheng, Z. et al. Anchored multiplex PCR for targeted next-generation sequencing. Nat Med 20, 1479-1484 (2014).

37. Iafrate, A.J., Le, L.P. & Zheng, Z., Vol. US 9.487,828 B2 (The General Hospital Corporation, Boston, MA (US), US; 2016).

38. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. Basic local alignment search tool. J Mol Biol 215, 403-410 (1990).

39. Zhang, Z., Schwartz, S., Wagner, L. & Miller, W. A greedy algorithm for aligning DNA sequences. J Comput Biol 7, 203-214 (2000).

40. Hwang, G.H. et al. PE-Designer and PE-Analyzer: web-based design and analysis tools for CRISPR prime editing. Nucleic Acids Res 49, W499-W504 (2021).

41. Chen, P.J. et al. Enhanced prime editing systems by manipulating cellular determinants of editing outcomes. Cell 184, 5635-5652 e5629 (2021).

42. Adikusuma, F. et al. Optimized nickase- and nuclease-based prime editing in human and mouse cells. Nucleic Acids Res 49, 10785-10795 (2021).

43. Nelson, J.W. et al. Engineered pegRNAs improve prime editing efficiency. Nat Biotechnol (2021).

44. Liu, P. et al. Improved prime editors enable pathogenic allele correction and cancer modelling in adult mice. Nat Commun 12, 2121 (2021).

45. Choi, J. et al. Precise genomic deletions using paired prime editing. Nat Biotechnol (2021).

46. Lin, Q. et al. High-efficiency prime editing with optimized, paired pegRNAs in plants. Nat Biotechnol 39, 923-927 (2021).

47. Song, M. et al. Generation of a more efficient prime editor 2 by addition of the Rad51 DNA-binding domain. Nat Commun 12, 5617 (2021).

48. Lorenz, R. et al. ViennaRNA Package 2.0. Algorithms Mol Biol 6, 26 (2011).

49. Jang, H. et al. Application of prime editing to the correction of mutations and phenotypes in adult mice with liver and eye diseases. Nat Biomed Eng (2021).

50. Kim, Y. et al. Adenine base editing and prime editing of chemically derived hepatic progenitors rescue genetic liver disease. Cell Stem Cell 28, 1614-1624 e1615 (2021).

51. Schene, I.F. et al. Prime editing for functional repair in patient-derived disease models. Nat Commun 11, 5352 (2020).

52. Petri, K. et al. CRISPR prime editing with ribonucleoprotein complexes in zebrafish and primary human cells. Nat Biotechnol 40, 189-193 (2021).

Claims

다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:

(a) 조작된 세포를 얻음,

이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:

(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA(tagmentation pegRNA)를 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,

(ii) 상기 tpegRNA의 상기 태그 주형을 역전사의 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 게놈 DNA 내에 태그 서열이 삽입됨;

(b) 상기 조작된 게놈 DNA를 분석하여 태그맨테이션에 대한 정보를 얻음,

이때 상기 태그멘테이션에 대한 정보는 태그 서열이 삽입된 게놈 DNA의 부위에 대한 정보를 포함함.
제1항에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음, 이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 상기 오프 타겟 후보가 존재하는 경우 상기 오프 타겟 후보의 부위에 대한 정보를 포함함.
제1항에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

온타겟에 대한 정보를 확인함 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함.
제1항에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

온타겟에 대한 정보를 확인하고 및 상기 온타겟에 대한 정보를 상기 태그맨테이션에 대한 정보와 비교함을 통해, 오프 타겟 후보의 존재 여부에 대한 정보를 확인함.
제1항에 있어서,

상기 태그 서열은 상기 tpegRNA의 상기 스페이서에 의해 지정되는 게놈 DNA 내의 영역에 삽입되는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그 서열이 삽입된 부위는 오프 타겟 후보의 부위 또는 온타겟 부위와 연관되는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그 서열이 삽입된 부위에 대한 정보는 상기 태그 서열이 위치하는 염색체 및 상기 염색체 상에서의 상기 태그 서열이 존재하는 부위에 대한 정보를 포함하는, 오프 타겟을 예측하는 방법.
제2항에 있어서,

상기 오프 타겟 후보의 부위에 대한 정보는 각각의 오프 타겟 후보가 위치하는 염색체 및 상기 염색체 상에서의 오프 타겟 후보가 위치하는 부위에 대한 정보를 포함하는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그맨테이션에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

태그 서열의 삽입 부위 별 태그 서열의 삽입율에 대한 정보.
제2항에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

오프 타겟 후보에 대한 오프 타겟 예측 점수.
제2항에 있어서,

상기 오프 타겟에 대한 정보는 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

예측된 오프 타겟 후보의 개수.
제1항에 있어서,

상기 조작된 세포는 다음을 포함하는 방법에 의해 수득되는, 오프 타겟을 예측하는 방법:

프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포와 접촉함.
제1항에 있어서,

상기 조작된 세포는 다음을 포함하는 방법에 의해 수득되는, 오프 타겟을 예측하는 방법:

프라임 에디터 단백질 또는 이를 암호화하는 핵산 및 tpegRNA 또는 이를 암호화하는 핵산을 세포 내로 도입함.
제1항에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

상기 조작된 세포로부터 DNA를 얻음, 이때 상기 하나 이상의 조작된 세포로부터 DNA를 얻음은 (b) 이전에 수행됨.
제1항에 있어서,

tpegRNA는 다음을 포함하는, 오프 타겟을 예측하는 방법:

스페이서; gRNA 코어; 및 프라이머 결합 부, 태그 주형, 및 역전사 주형을 포함하는 연장 영역.
제15항에 있어서,

상기 tpegRNA의 역전사 주형은 편집 주형 및 상동성 영역을 포함하는, 오프 타겟을 예측하는 방법.
제15항에 있어서,

상기 조작된 게놈 DNA는 편집을 포함하는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역은, 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 연장 영역의 순서로 위치하는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그 주형은 상기 연장 영역 상에서 프라이머 결합 부 및 역전사 주형의 사이에 위치하는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 오프 타겟을 예측하는 방법은 다음을 더 포함하는, 오프 타겟을 예측하는 방법:

미리 결정된 프라임 에디팅 시스템을 확인함, 이때 상기 미리 결정된 프라임 에디팅 시스템을 확인함은 다음 중 하나 이상을 포함함:

미리 결정된 세포에 대한 정보, 미리 결정된 pegRNA에 대한 정보, 및 미리 결정된 프라임 에디터 단백질에 대한 정보.
제21항에 있어서,

상기 미리 결정된 세포는 상기 오프 타겟을 예측하는 방법에 사용되는 세포와 다른 세포인, 오프 타겟을 예측하는 방법.
제21항에 있어서,

상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,

상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일한, 오프 타겟을 예측하는 방법.
제21항에 있어서,

상기 tpegRNA의 스페이서의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 스페이서 서열과 동일하고,

상기 tpegRNA의 프라이머 결합 부의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 프라이머 결합 부의 서열과 동일하고,

상기 tpegRNA의 역전사 주형의 서열은 상기 미리 결정된 pegRNA의 미리 결정된 역전사 주형의 서열과 동일한, 오프 타겟을 예측하는 방법.
제21항에 있어서,

상기 오프 타겟을 예측하는 방법에 사용되는 상기 프라임 에디터 단백질은 상기 미리 결정된 프라임 에디터 단백질과 동일하거나 또는 다른 것인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그 주형의 길이는 5 내지 60nt인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 태그 주형의 길이는 10 내지 50nt인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 프라임 에디터 단백질은 DSB(double-strand break) 활성을 갖는 Cas 단백질을 포함하는 PE-뉴클레아제인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 프라임 에디터 단백질은 PEmax-뉴클레아제인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 프라임 에디터 단백질에 포함된 Cas 단백질은 닉카제인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

상기 프라임 에디터 단백질은 PE2 프라임 에디터 단백질인, 오프 타겟을 예측하는 방법.
제1항에 있어서,

게놈 DNA의 조작에는 dnMLH1, gRNA, 및 추가의 Cas 단백질, 및 추가의 프라임 에디터 단백질 중 어느 하나 이상이 추가로 관여되는, 오프 타겟을 예측하는 방법.
제1항에 있어서,

(b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:

상기 조작된 게놈 DNA를 태그-특이적 분석함.
제1항에 있어서,

(b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:

상기 조작된 게놈 DNA를 시퀀싱함.
제1항에 있어서,

(b)는 다음을 포함하는, 오프 타겟을 예측하는 방법:

상기 조작된 게놈 DNA로부터 태그-특이적 라이브러리를 생성함; 태그-특이적 라이브러리를 증폭하여 증폭된 태그-특이적 라이브러리를 생성함; 및 상기 증폭된 태그-특이적 라이브러리를 시퀀싱함.
다음을 포함하는 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하는 방법:

(a) 하나 이상의 조작된 세포를 포함하는 세포 집단을 생성함,

이때 상기 조작된 세포는 조작된 게놈 DNA를 포함하고, 이때 상기 조작된 게놈 DNA는 하나 이상의 태그 서열을 포함하고, 이때 상기 조작된 게놈 DNA는 프라임 에디터 단백질 및 tpegRNA가 관여되는 다음을 포함하는 과정을 통해 생성됨:

(i) Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터 단백질 및 tpegRNA (tagmentation pegRNA)를 세포의 게놈 DNA와 접촉함, 이때 상기 tpegRNA는 스페이서 및 태그 주형을 포함하는 연장 영역을 포함함,

(ii) 게놈 DNA 내에 태그 서열이 삽입됨, 이때 상기 태그 서열의 삽입은 상기 tpegRNA의 상기 태그 주형을 역전사 주형으로 하는 상기 역전사 효소에 의해 수행되는 역전사 과정을 통해 달성됨;

(b) 상기 하나 이상의 조작된 세포의 상기 조작된 게놈 DNA를 시퀀싱을 포함하는 과정을 통해 분석하여, 태그맨테이션에 대한 정보를 얻음,

이때 상기 태그맨테이션에 대한 정보는 하나 이상의 태그 서열이 삽입된 각 부위에 대한 정보를 포함함; 및

(c) 상기 태그맨테이션에 대한 정보에 기초하여 오프 타겟에 대한 정보를 얻음,

이때 상기 오프 타겟에 대한 정보는 오프 타겟 후보의 존재 여부에 대한 정보 및 하나 이상의 오프 타겟 후보의 부위에 대한 정보를 포함함.
다음을 포함하는 tpegRNA (tagmentation pegRNA):

스페이서; gRNA 코어; 태그 주형을 포함하는 연장 영역.
제37항에 있어서,

상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역은 5'에서 3' 방향으로, 상기 스페이서, 상기 gRNA 코어, 및 상기 태그 주형을 포함하는 연장 영역의 순서로 상기 tpegRNA 상에 위치하는 것을 특징으로 하는, tpegRNA.
제37항에 있어서,

상기 연장 영역은 상기 태그 주형, 프라이머 결합 부, 및 역전사 주형을 포함하는 것을 특징으로 하는, tpegRNA.
제39항에 있어서,

상기 태그 주형은 상기 프라이머 결합 부 및 상기 역전사 주형 사이에 위치하는 것을 특징으로 하는, tpegRNA.
제39항에 있어서,

상기 역전사 주형은 상기 태그 주형 및 상기 프라이머 결합 부 사이에 위치하는 것을 특징으로 하는, tpegRNA
제39항에 있어서,

상기 프라이머 결합 부, 상기 태그 주형, 상기 역전사 주형은, 5'에서 3' 방향으로, 상기 역전사 주형, 상기 태그 주형, 및 상기 프라이머 결합 부의 순서로 상기 연장 영역 상에 위치하는 것을 특징으로 하는, tpegRNA.
제39항에 있어서,

상기 역전사 주형은 편집 주형 및 상동성 영역을 포함하는 것을 특징으로 하는, tpegRNA.
제37항에 있어서,

상기 태그 주형은 5 내지 60nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
제37항에 있어서,

상기 태그 주형은 10 내지 50nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
제37항에 있어서,

상기 tpegRNA는 RNA 보호 모티프를 포함하는 3' 엔지니어링 영역을 더 포함하는, tpegRNA.
제46항에 있어서,

상기 RNA 보호 모티프는 10 내지 60nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
제47항에 있어서,

상기 tpegRNA는 100 내지 350nt의 길이를 가지는 것을 특징으로 하는, tpegRNA.
다음을 포함하는, 프라임 에디팅 시스템을 이용한 게놈 편집 과정에서 발생하는 오프 타겟을 예측하기 위한 조성물:

제37항 내지 제48항 중 어느 하나의 tpegRNA; 및

Cas 단백질 및 역전사 효소를 포함하는 프라임 에디터.