KR20230061474A

KR20230061474A - 소형화 시티딘 데아미나아제를 포함하는 이중쇄 dna의 개변용 복합체

Info

Publication number: KR20230061474A
Application number: KR1020237011179A
Authority: KR
Inventors: 케이지 니시다; 앙 리; 히토시 미츠노부
Original assignee: 고쿠리츠다이가쿠호진 고베다이가쿠
Priority date: 2020-09-04
Filing date: 2021-09-06
Publication date: 2023-05-08
Also published as: US20230323335A1; EP4209589A1; AU2021336262A1; CN116134141A; JPWO2022050413A1; CA3194019A1; WO2022050413A1; BR112023003972A2

Abstract

본 개시는, 표적 부위의 개변 효율의 저하를 억제하면서 시티딘 데아미나아제를 소형화하며, 또한 오프 타깃 효과의 억제도 달성할 수 있는 소형화 시티딘 데아미나아제를 포함하는 DNA 개변용 복합체를 제공한다. 핵산 서열 인식 모듈과, 시티딘 데아미나아제가 결합한 복합체이며, 해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고, 해당 시티딘 데아미나아제는, (1) 서열 번호 1로 표시되는 아미노산 서열에 있어서의 30 위치 내지 150 위치의 아미노산 잔기의 영역으로 이루어지는 아미노산 서열, (2) 서열 번호 1로 표시되는 아미노산 서열로 이루어지는 단백질의 오르토로그이며, (1)의 영역에 대응하는 영역으로 이루어지는 아미노산 서열, (3) (1) 또는 (2)의 아미노산 서열에 있어서, 1 또는 수개의 아미노산이 결실, 치환, 삽입 및/또는 부가된 아미노산 서열, 또는 (4) (1) 또는 (2)의 아미노산 서열과 90% 이상의 유사성 또는 동일성을 갖는아미노산 서열, 로 이루어지고, 해당 이중쇄 DNA의 표적화된 부위를 개변하는, 복합체.

Description

소형화 시티딘 데아미나아제를 포함하는 이중쇄 DNA의 개변용 복합체

본 개시는, DNA의 이중쇄 절단을 수반하지 않고, 세포가 갖는 이중쇄 DNA의 표적화된 부위의 개변을 가능하게 하는, 해당 이중쇄 DNA의 개변용 복합체 및 해당 복합체를 사용한 이중쇄 DNA의 개변 방법에 관한 것이다.

근년, 여러 가지 생물종에 있어서 목적으로 하는 유전자·게놈 영역을 개변하는 기술로서 게놈 편집이 주목받고 있다. 예를 들어 징크 핑거 DNA 결합 도메인과 비특이적인 DNA 절단 도메인을 연결한, 징크 핑거 뉴클레아제(ZFN)을 사용하여, 숙주의 식물 세포 또는 곤충 세포에 DNA 중의 표적화된 유전자좌에 있어서 재조합을 행하는 방법(특허문헌 1)이나, 식물 병원균 크산토모나스속이 갖는 DNA 결합 모듈인 전사 활성화 인자양(TAL) 이펙터와, DNA 엔도뉴클레아제를 연결한 TALEN을 사용하여, 특정한 뉴클레오티드 서열 내 또는 거기에 인접하는 부위에서, 표적화된 유전자를 절단·수식하는 방법(특허문헌 2)이 보고되어 있다. 또는, 스트렙토코커스·피오게네스(Streptococcuspyogenes) 유래의 Cas9 뉴클레아제는, DNA 이중쇄 절단(DSB)의 수복 경로를 갖는 진핵 생물에 있어서, 강력한 게놈 편집 툴로서 널리 사용되고 있다(예를 들어 특허문헌 3, 비특허문헌 1 및 2).

또한, 표적 영역에 대한 호몰로지 암을 포함하는 도너 DNA를 사용하지 않고, 표적 유전자좌에서 뉴클레오티드를 직접 편집하는, 시티딘 데아미나아제에 매개되는 표적 염기 편집도 실증되고 있다(예를 들어 비특허문헌 3). 이 기술은, 뉴클레아제에 매개되는 DNA 절단 대신에 DNA 탈아미노화를 이용하기 때문에, 세포에 대한 독성이 낮고, 또한 핀포인트에 변이를 도입하는 것이 가능하다. 그 때문에, 유전자 개변 동물 제작을 위한 분자생물학적 툴로서의 이용뿐만 아니라, 유전자 요법 등의 의료로의 응용도 기대되고 있다.

그러나, 의료로의 응용 시에, 시티딘 데아미나아제를 사용한 게놈 편집에 있어서는, 시티딘 데아미나아제를 필요로 하기 때문에 게놈 편집에 사용하는 복합체의 분자량이 증가하고, 이것이, 효율적인 딜리버리를 저해하는 원인의 하나가 되고 있다. 그래서, 시티딘 데아미나아제의 일부 영역을 결실시킴으로써, 시티딘 데아미나아제의 분자량을 저감시키고자 하는 시도가 이루어지고 있다(비특허문헌 4).

국제 공개 제2003/087341호 국제 공개 제2011/072246호 국제 공개 제2013/176772호

Mali, P. et al., Science 339(6121):823-826(2013) Cong, L. et al., Science 339(6121):819-823(2013) Nishida, K. et al., Science 353(6305):aaf8729(2016) Tan J. et al., Nat Commun. 10(1):439(2019)

그러나, 비특허문헌 4에 개시된 소형화한 시티딘 데아미나아제와 닉카아제 Cas9와의 복합체는, 야생형의 시티딘 데아미나아제로부터 결실되는 부분이 증가함에 따라 표적 부위의 개변 효율이 저하된다는 것이 보고되어 있다. 또한, 해당 복합체에는, 추가로 우라실-DNA 글리코실라아제 저해제(UGI)도 포함되어 있지만, UGI는 DNA 수복에 중요한 우라실 DNA 글리코실라아제의 기능을 저해하기 때문에, 요망되지 않는 오프 타깃 효과가 증강할 것으로 예상된다. 따라서, 본 개시는, 표적 부위의 개변 효율의 저하를 억제하면서 시티딘 데아미나아제를 소형화하며, 또한 오프 타깃 효과의 억제도 달성할 수 있는 소형화 시티딘 데아미나아제를 포함하는 이중쇄 DNA의 개변용 복합체를 제공한다.

본 발명자들은, 상기 비특허문헌 4에 개시된 복합체로부터, UGI를 제거한 복합체를 제작하였다. 또한, 해당 복합체의 N 말단측 영역을 추가로 결실시킨 복합체도 제작하고, 이들의 복합체에서의 표적 부위의 개변 효율을 검증하였다. 그 결과, 예상외로, 비특허문헌 4에 있어서 높은 개변 효율이 인정된, 1 위치 내지 161 위치의 영역으로 이루어지는 CDA1(즉, 야생형 CDA의 말단측 32 아미노산 영역이 결실된 CDA이다. CDA1Δ161이라고도 함)을 사용한 복합체에서마저, UGI를 사용하지 않을 경우에는, 야생형 CDA1을 사용한 복합체와 비교하여 개변 효율이 3분의 2 이하가 되는 것, 또한 종래형의 C 말단에 링커를 개재하여 융합되어 있는 Target-AID와 비교하여 개변 효율이 10분의 1 이하가 되는 것을 발견하였다. 나아가, 이러한 발견으로부터, CDA1Δ161의 N 말단측을 2 아미노산 잔기 이상 결실시킨 CDA1에서는, 개변이 현저하게 저하되는 것을 발견하였다. 이러한 발견으로부터, 본 발명자들은, 비특허문헌 4에 개시한 복합체가 높은 표적 부위의 개변 효율을 달성할 수 있었던 것은, UGI에 의한 DNA 개변 효율의 향상 효과(효모에서는 UGI에 의한 효과가 현저하게 나타나는 것이 알려져 있음)에 의한 면이 크고, UGI를 사용하지 않은 경우나 다른 생물종에 적용하는 경우에는, 단순하게 CDA1의 말단 영역을 결실하는 것만으로는, 원하는 개변 효율을 달성할 수 있는 복합체가 얻어지지 않는다는 결론에 이르렀다.

그래서, 단순하게 시티딘 데아미나아제의 말단 영역을 결실시킨다는 종래의 발상을 전환하여 시티딘 데아미나아제의 구조를 신중하게 확인하고, 해당 구조에 기초하여 구조를 개변함으로써, 표적 부위의 개변 효율의 저하를 막을 수 있지 않을까라는 착상을 얻었다. 해당 착상에 기초하여 연구를 진행시킨 결과, 시티딘 데아미나아제의 내부 상호 작용을 고려하면서 N 말단측과 C 말단측을 동시에 결실시킴으로써, 시티딘 데아미나아제의 입체 구조를 구상으로 근접시키고, 또한 노출한 내부 아미노산 잔기를 소수성으로부터 친수성의 아미노산 잔기로 치환함으로써, 시티딘 데아미나아제의 안정화를 실현하여 효율을 회복시키는데 성공하였다. 또한, 종래는 Cas9의 말단에 융합되어 있던 CDA1을 Cas9의 내부에 매립함으로써도, 복합체로서의 안정성의 향상 및 기질 DNA로의 액세스 향상을 도모하여 종래의 것을 초과할 수 있는 효율을 달성하였다. 오프 타깃 효과에 대해서도 평가를 해 보면, 모두 종래형보다도 오프 타깃 효과를 현저하게 억제할 수 있다는 것이 인정되었다. 또한, Cas9로서 SaCas9를 사용함으로써 AAV 벡터에 탑재 가능한 사이즈의 CRISPR-Cas를 실현하였다. 본 발명자는, 이러한 발견에 기초하여 더욱 연구를 거듭한 결과, 본 개시를 완성하기에 이르렀다.

따라서, 본 개시는 이하를 제공한다.

(항목 1)

핵산 서열 인식 모듈과, 데아미나아제가 결합한 복합체로서,

해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고,

해당 데아미나아제는, 해당 데아미나아제에 대응하는 야생형 데아미나아제보다도 사이즈가 작으며, 또한 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록 개변되어 있고,

해당 이중쇄 DNA의 표적화된 부위를 개변하는 능력을 갖는 복합체.

(항목 2)

상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 상기 항목에 기재된 복합체.

(항목 3)

상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 4)

상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 최소화되도록 개변되는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 5)

상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이 최소화되도록 개변되는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 6)

상기 데아미나아제는, 상기 야생형 데아미나아제의 N 말단측 및 C 말단측이 개변되는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 7)

상기 데아미나아제에 있어서의 노출된 소수성의 내부 아미노산 잔기의 적어도 하나가, 친수성의 아미노산 잔기로 치환되는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 8)

상기 데아미나아제가 시티딘 데아미나아제를 포함하는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 9)

상기 데아미나아제가,

(1) 서열 번호 1로 표시되는 아미노산 서열에 있어서의 30 위치 내지 150 위치의 아미노산 잔기의 영역으로 이루어지는 아미노산 서열,

(2) 서열 번호 1로 표시되는 아미노산 서열로 이루어지는 단백질의 오르토로그이며, (1)의 영역에 대응하는 영역으로 이루어지는 아미노산 서열,

(3) (1) 또는 (2)의 아미노산 서열에 있어서, 1 또는 수개의 아미노산이 결실, 치환, 삽입 및/또는 부가된 아미노산 서열, 또는

(4) (1) 또는 (2)의 아미노산 서열과 90% 이상의 유사성 또는 동일성을 갖는 아미노산 서열

로 이루어지는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 10)

상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치, 126 위치 및 139 위치로 이루어지는 군으로부터 선택되는 위치의 아미노산 잔기 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 1개소 이상의 치환을 포함하는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 11)

상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치의 아미노산 잔기 및 139 위치의 아미노산 잔기, 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 2개소 이상의 치환을 포함하는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 12)

상기 핵산 서열 인식 모듈이, Cas 단백질의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어지는 군으로부터 선택되는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 13)

상기 핵산 서열 인식 모듈이, Cas 단백질의 1개의 DNA 절단능이 실활된 CRISPR-Cas 시스템인, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 14)

상기 Cas 단백질이 Cas9 단백질인, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 15)

핵산 서열 인식 모듈의 N 말단 단편과, 데아미나아제와, 핵산 서열 인식 모듈의 C 말단 단편이 결합한 복합체로서,

해당 핵산 서열 인식 모듈의 N 말단 단편과 C 말단 단편이 리폴딩되었을 경우에, 해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고, 해당 이중쇄 DNA의 표적화된 부위를 개변하는 능력을 갖는 복합체.

(항목 16)

상기 데아미나아제는, 상기 데아미나아제에 대응하는 야생형 데아미나아제보다도 사이즈가 작으며, 또한 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록 개변되어 있는, 상기 항목에 기재된 복합체.

(항목 17)

상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 18)

(항목 19)

(항목 20)

(항목 21)

(항목 22)

(항목 23)

(항목 24)

상기 데아미나아제가,

로 이루어지는, 상기 항목 중 어느 한 항에 기재된 복합체.

(항목 25)

(항목 26)

상기 항목 중 어느 한 항에 기재된 복합체를 코드하는 핵산.

(항목 27)

상기 항목에 기재된 핵산을 포함하는 벡터.

(항목 28)

아데노 수반 바이러스 벡터인, 상기 항목에 기재된 벡터.

(항목 29)

세포가 갖는 이중쇄 DNA의 표적화된 부위를 개변하는 방법으로서, 상기 항목 중 어느 한 항에 기재된 복합체를 해당 이중쇄 DNA와 접촉시키는 공정을 포함하는, 방법.

(항목 30)

이중쇄 DNA와 복합체의 접촉이, 상기 세포로의, 상기 항목 중 어느 한 항에 기재된 핵산 또는 벡터의 도입에 의해 이루어지는, 상기 항목에 기재된 방법.

또한 본 개시는 이하도 제공한다.

[1]

핵산 서열 인식 모듈과, 시티딘 데아미나아제가 결합한 복합체로서,

해당 시티딘 데아미나아제는,

로 이루어지고,

해당 이중쇄 DNA의 표적화된 부위를 개변하는, 복합체.

[2]

상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치, 126 위치 및 139 위치로 이루어지는 군으로부터 선택되는 위치의 아미노산 잔기 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 1개소 이상의 치환을 포함하는, [1]에 기재된 복합체,

[3]

상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치의 아미노산 잔기 및 139 위치의 아미노산 잔기, 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 2개소 이상의 치환을 포함하는, [1] 또는 [2]에 기재된 복합체.

[4]

상기 핵산 서열 인식 모듈이, Cas 단백질의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어지는 군으로부터 선택되는, [1] 내지 [3] 중 어느 것에 기재된 복합체.

[5]

상기 핵산 서열 인식 모듈이, Cas 단백질의 1개의 DNA 절단능이 실활된 CRISPR-Cas 시스템인, [1] 내지 [3] 중 어느 것에 기재된 복합체.

[6]

상기 Cas 단백질이 Cas9 단백질인, [4] 또는 [5]에 기재된 복합체.

[7]

핵산 서열 인식 모듈의 N 말단 단편과, 시티딘 데아미나아제와, 핵산 서열 인식 모듈의 C 말단 단편이 결합한 복합체로서,

해당 핵산 서열 인식 모듈의 N 말단 단편과 C 말단 단편이 리폴딩되었을 경우에, 해당 핵산 서열 인식 모듈은, 해당 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 것을 특징으로 하는, 해당 이중쇄 DNA의 표적화된 부위를 개변하는, 복합체.

[8]

상기 시티딘 데아미나아제가,

(4) (1) 또는 (2)의 아미노산 서열과 90% 이상의 유사성 또는 동일성을 갖는 아미노산 서열,

로 이루어지는, [7]에 기재된 복합체.

[9]

상기 핵산 서열 인식 모듈이, Cas 단백질의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어지는 군으로부터 선택되는, [7] 또는 [8]에 기재된 복합체.

[10]

[1] 내지 [9] 중 어느 것에 기재된 복합체를 코드하는 핵산.

[11]

[10]에 기재된 핵산을 포함하는 벡터.

[12]

아데노 수반 바이러스 벡터인, [11]에 기재된 벡터.

[13]

세포가 갖는 이중쇄 DNA의 표적화된 부위를 개변하는 방법으로서, [1] 내지 [9] 중 어느 것에 기재된 복합체를 해당 이중쇄 DNA와 접촉시키는 공정을 포함하는 방법.

[14]

이중쇄 DNA와 복합체의 접촉이, 해당 세포로의, [10] 내지 [12] 중 어느 것에 기재된 핵산 또는 벡터의 도입에 의해 이루어지는, [13]에 기재된 방법.

본 개시에 의하면, 종래의 것과 비교하여 소형이고, 개변 효율도 높으며, 또한 오프 타깃 효과가 억제된 이중쇄 DNA 개변용 복합체가 제공된다. 해당 복합체를 사용함으로써 이중쇄 DNA를 절단하지 않고, 보다 안전하게 DNA의 표적화된 부위를 개변할 수 있다. 또한, 해당 복합체를 코드하는 핵산은, 아데노 수반 바이러스 벡터에도 탑재하여, 표적 부위에 복합체를 딜리버리하는 것도 용이해지기 때문에, 특히 유전자 치료 등의 응용 국면에서 유용해질 수 있다.

도 1은 인간 AID(HsAID라고 표기), 야생형 PmCDA1 및 본 개시의 데아미나아제의 일 양태(PmCDA1-36)의 서열의 얼라인먼트 결과를 나타낸다. HsAID의 서열을 서열 번호 3, 야생형 PmCDA1의 서열을 서열 번호 1, PmCDA1-36의 서열을 서열 번호 2로서 나타낸다.
도 2는 실시예 1에서 사용한 플라스미드 컨스트럭트의 개략도이다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산 위치를 나타낸다.
도 3은 실시예 1의 결과를 나타낸다. -카나바닌(Canavanine)은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 4는 실시예 1의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 5는 실시예 1의 결과의 그래프를 나타낸다. 종축은 변이 도입률(%)을 나타낸다. 가장 우측의 KN1251은 포지티브 컨트롤이다.
도 6은 CDA1의 입체 구조 해석의 결과를 나타낸다. 좌측 도면은 야생형 CDA1의 입체 구조, 우측 도면은 CDA1Δ161의 입체 구조를 나타낸다.
도 7은 CDA1Δ161의 노출된 내부 아미노산 잔기를 나타낸다(우측 도면의 백색 부분).
도 8은 실시예 2에서 사용한 플라스미드 컨스트럭트의 개략도이다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 9는 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 10은 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 11은 실시예 2의 결과의 그래프를 나타낸다. 종축은 변이 도입률(%)을 나타낸다. 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 12는 실시예 2에서 사용한 플라스미드 컨스트럭트의 개략도이다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 13은 실시예 2의 입체 구조에 있어서의 변이 도입 부분(백색 부분)을 나타낸다.
도 14는 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 15는 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 16은 실시예 2의 결과의 그래프를 나타낸다. 종축은 변이 도입률(%)을 나타낸다. 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 17은 실시예 2에서 사용한 플라스미드 컨스트럭트의 개략도이다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 18은 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 19는 실시예 2의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 20은 실시예 2의 결과의 그래프를 나타낸다. 좌측 도면과 우측 도면에서는, 가이드 RNA의 표적 서열이 다르다. 각 도면의 종축은 변이 도입률(%)을 나타낸다. 각 도면이 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 21은 실시예 3에서 사용한 플라스미드 컨스트럭트의 개략도이다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 22는 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 23은 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 24는 실시예 3의 결과 그래프를 나타낸다. 좌측 도면과 우측 도면에서는, 가이드 RNA의 표적 서열이 다르다. 각 도면의 종축은 변이 도입률(%)을 나타낸다. 각 도면이 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 25는 실시예 3에서 사용한 플라스미드 컨스트럭트의 개략도 및 본 개시의 데아미나아제의 일 양태의 삼차 구조를 나타낸다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 26은 실시예 3에서 사용한 플라스미드 컨스트럭트의 개략도를 나타낸다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 27은 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 28은 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 29는 실시예 3의 결과 그래프를 나타낸다. 좌측 도면과 우측 도면에서는, 가이드 RNA의 표적 서열이 다르다. 각 도면의 종축은 변이 도입률(%)을 나타낸다. 각 도면이 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 30은 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 31은 실시예 3의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 32는 실시예 3의 결과 그래프를 나타낸다. 좌측 도면과 우측 도면에서는, 가이드 RNA의 표적 서열이 다르다. 각 도면의 종축은 변이 도입률(%)을 나타낸다. 각 도면이 가장 우측의 KN1252는 포지티브 컨트롤이다.
도 33은 실시예 4에서 사용한 플라스미드 컨스트럭트의 개략도를 나타낸다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타낸다.
도 34는 실시예 4의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 35는 실시예 4의 결과를 나타낸다. -카나바닌은, 카나바닌 비함유 배지를 나타내고, +카나바닌은 카나바닌 함유 배지를 나타낸다.
도 36은 실시예 5의 결과를 나타낸다.
도 37은 실시예 5의 결과를 나타낸다.
도 38은 실시예 5의 결과를 나타낸다.
도 39는 실시예 5의 결과를 나타낸다.
도 40은 실시예 5의 결과를 나타낸다.
도 41은 실시예 5의 결과를 나타낸다.
도 42는 실시예 6에서 사용한 플라스미드 컨스트럭트의 개략도를 나타낸다. 각 컨스트럭트에 있어서의 숫자는, 각 서열에 코드되는 단백질의 아미노산의 위치를 나타내지만, bp를 붙인 것은 뉴클레오티드 길이를 나타낸다.
도 43은 가이드 RNA를 코드하는 플라스미드의 개략도(상부 도면) 및 실시예 6의 실험 절차의 개략도(하부 도면)이다.
도 44는 실시예 6의 결과를 나타낸다. 서열의 각 뉴클레오티드에 있어서의 변이 후의 뉴클레오티드 및 변이 효율을 나타낸다.
도 45는 실시예 6의 결과 그래프를 나타낸다. 종축은 변이 효율, 횡축은 도 44에 24 well란의 수치 및 Reference란의 서열에 대응한다. 좌측 상단 그래프 중에 기재된 서열을 서열 번호 17, 좌측 하단 그래프 중에 기재된 서열을 서열 번호 18, 우측 상단 그래프 중에 기재된 서열을 서열 번호 19, 우측 하단 그래프 중에 기재된 서열을 서열 번호 20으로서 나타낸다.
도 46a는 인간 AID와 dsDNA의 복합체의 구조를 나타내는 리본 모델이다. 비촉매적인 이중쇄 DNA 결합 도메인을 녹색(N 말단)과 적색(C 말단)으로 나타내고, 그 아미노산 서열을 하부의 PmCDA1의 것과 비교하였다. 도 46a 중, AID에 표시되는 서열을 좌측으로부터 차례로 서열 번호 21 및 서열번호 22로서 나타내고, 또한 PmCDA1에 표시되는 서열을 좌측으로부터 차례로 서열 번호 23 및 서열 번호 24로서 나타낸다. 도 46b는, PmCDA1의 개변 전과 개변 후의 공간 충전 구조의 예측도이다. 직접적인 DNA 결합 부위(녹색과 적색)에 더하여, 청색으로 나타낸 세그먼트를 트리밍하여 단백질의 단면을 최소화하였다. 변이된 아미노산(W122 및 W139)은 황색으로 나타냈다. 도 46c는 효모의 카나바닌 내성 어세이에 있어서의 UGI를 포함하지 않는 Target-AID, AID-2S 및 AID-3S의 온 타깃 편집 효율을 나타내는 그래프이다. CAN1-2(청색 점)과 CAN1-3(주황색 점)을 타깃 부위로서 선택하고, 생물학적 삼중 구조를 플롯하였다. 도 46d는, 본 실시예에서 사용한 CBE 변이체의 도메인 배치를 도시하는 모식도이다. BE의 구조는, rAPOBEC1의 점 변이를 제외하고, YE1, YE2, R33A+K34A와 공통되어 있다. 도 46e 및 도 46f는, HEK293T의 HEK2, HEK3, RNF2, VEGFA 사이트에서 딥 시퀀싱에 의해 해석한 CBE 변이체(variant)의 온 타깃 편집 프로파일을 나타내는 그래프이다. 도 46e에서는, 각 타깃의 C→T 변환 빈도가 가장 높은 뉴클레오티드 위치(타깃 서열의 PAM 서열측에서 5'측을 향하여 번호를 붙였다)를 나타냈다. 도 46f에서는, 4개의 타깃의 평균적인 편집 윈도우를 나타내고 있다. 도 46e, f, h에서는, 평균 스코어(4각 봉)와 표준 편차(에러 바)를 나타내고, n<9의 경우에는 각 생물학적 복제를 도트로 나타냈다. 도 46g는, SaAID 및 SAID-3S의 도메인 구조를 도시하는 모식도이다. gRNA 발현 카세트를 각 이펙터 플라스미드에 결합시켰다. 도 46h는 HEK293T에 있어서의 SaAID 및 SaAID-3S의 온 타깃 편집 빈도를 도 46e와 마찬가지로 나타낸 그래프이다. 형질 감염 효율을 정규화하기 위해서, 플라스미드 백본으로부터 iRFP670 을발현시켜서 세포를 선별하였다.
도 47a는, 효모로 나타내어진 바와 같이 각 컨스트럭트(AID-2S, -3S, rAPOBEC1)를 유도한 후, 온 타깃 변이(카나바닌 내성)아 오프 타깃 변이(티아리신 내성)의 발생률을 측정한 그래프이다. CAN1-2(청색 점)이라고 CAN1-3(주황색 점)의 표적 부위에 대해서, 생물학적 반복의 값을 플롯하였다. 도 47b는, 직교하는 R-루프의 오프 타깃 평가의 모식도이다. 도 47c는 7개의 오프 타깃 R-루프 사이트(1 내지 7)를 선택하여 온 타겟 사이트(HEK2, HEK3, RNF2, VEGFA)의 1개와 공도입하고, 딥 시퀀서로 해석한 결과를 나타내는 그래프이다. 오프 타깃의 빈도는, 변이를 포함하는 리드(reads)의 비율로 나타냈다. 사이트 1, 2 내지 5, 6, 7에 대해서, 각각 n=6, n=4, n=12, n=10의 데이터 세트를 플롯하고, 그 평균 빈도(4각 봉)와 표준 편차(에러 바)를 나타냈다. 도 47d는, 본 실시예의 전체 CBE의 온 타깃 편집 대 평균 오프 타깃 편집 프로파일을 나타내는 그래프이다. y축은 R-루프 어세이에서 사용한 4개의 온 타깃 부위(HEK2, HEK3, RNF2, VEGFA)의 평균 온 타깃 편집을 나타내고, x축은 7개의 직교하는 R-루프 부위의 평균 오프 타깃 편집을 나타내고 있다. 도 47e는, Cas9 의존성 오프 타깃 효과를 평가한 그래프이다. 2개의 HEK2 오프 타깃 부위(1 내지 2)와 4개의 VEGFA 오프 타깃 부위(1 내지 4)를 딥 시퀀싱으로 해석하였다. 데이터 세트는 n=4 이다.
도 48은 PmCDA1의 C 말단을 결실시켰을 경우의 효과를 도시하는 도면이다. 도 48a는, C 말단을 결실시킨 PmCDA1의 일련의 공간 충전 구조의 예측도이다. 촉매 작용이 없는 dsDNA 결합 도메인을, 각각 녹색(N 말단)과 적색(C 말단)으로 나타냈다. 도 48b는, 도 48c에서 검증한 C 말단 절단형 Target-AID 컨스트럭트를 도시하는 모식도이다. 도 48c는 효모에 있어서의 절단형 컨스트럭트의 온 타깃 편집 효율의 추이를 나타내는 그래프이다. 카나바닌 내성 변이체의 출현율은, CAN1 유전자 변이체로서 측정하였다. CAN1-1과 CAN1-2의 표적 부위에 대해서, 다른 데이터 세트(핑크와 그레이의 도트)의 경향선을 플롯하였다.
도 49는 PmCDA1의 N 말단과 C 말단을 결실시켰을 경우의 효과를 도시하는 도면이다. 도 49a는, N 말단과 C 말단을 결실시킨 PmCDA1의 일련의 공간 충전 구조의 예측도이다. 촉매 작용이 없는 dsDNA 결합 도메인을 녹색(N 말단)으로 나타내고, 청색의 세그먼트는, 단백질의 형상을 매끄럽게 하고, 단면을 최소화하기 위하여 절단되는 인접 부위를 나타낸다. 도 49b는, 도 49c에서 시험한 N 말단과 C 말단을 절단한 Target-AID 컨스트럭트를 도시하는 모식도이다. 도 49c는 효모에 있어서의 절단 컨스트럭트의 온 타깃 편집 효율의 경향을 나타내는 그래프이다. Canavanine 내성 변이체의 출현율은, CAN1 유전자 변이체로서 측정하였다. CAN1-1과 CAN1-2의 표적 부위에 대해서, 다른 데이터 세트(핑크와 그레이의 도트)의 경향선을 플롯하였다.
도 50은 절단된 PmCDA1(30-150)에 있어서의 아미노산 치환의 효과를 도시하는 도면이다. 절단 후에 노출한 소수성 잔기를 친수성 잔기로 치환하였다. 온 타깃 편집 효율은, 도 49와 같이 하여 효모 카나바닌 어세이에 의해 측정하고, Target-AID의 평균값으로 정규화하였다. 생물학적 복제는, CAN1-1(적색)과 CAN1-2(청색)의 타깃 사이트에 대하여 플롯하였다. 다른 데이터 세트는 다른 도트 형상으로 나타내어져 있다.
도 51은 도메인 매립형 Target-AID3S를 도시하는 도면이다. 도 51a는 Cas9의 RuvC 도메인의 위치에 도메인 매립형의 AID-3S(1054-tCDA1EQ-1055)를 도시하는 모식도이다. 도 51b는, 효모로 평가한 온 타깃의 편집 효율을 나타낸다. CAN1-2 (청색 점)과 CAN1-3(주황색 점)의 타깃 사이트에 대해서, 생물학적 반복의 값을 플롯하였다.
도 52는 SaCas9-AID 변이체의 온 타깃 편집 프로파일을 도시하는 도면이다. iRFP670 셀 소팅을 사용하여 HEKT293 세포로 평가한 온 타깃 편집 성능을 나타낸다. FANCF와 VEGFA의 표적 부위를 선택하여 각 뉴클레오티드 위치에서의 변이 빈도를 나타냈다. 각 뉴클레오티드 변환의 평균 스코어(4각 봉)와 표준 편차(에러 바)를 나타내고, 각 생물학적 복제를 점으로 플롯하였다(n=3).

이하, 본 개시를 최선의 형태를 나타내면서 설명한다.

본 명세서의 전체에 걸쳐, 단수형의 표현은, 특별히 언급하지 않는 한, 그 복수형의 개념도 포함하는 것이 이해되어야 한다. 따라서, 단수형의 관사(예를 들어 영어의 경우에는 "a", "an", "the" 등)은 특별히 언급하지 않는 한, 그 복수형의 개념도 포함하는 것이 이해되어야 한다. 또한, 본명세서에 있어서 사용되는 용어는, 특별히 언급하지 않는 한, 당해 분야에서 통상 사용되는 의미로 사용되는 것이 이해되어야 한다. 따라서, 달리 정의되지 않는 한, 본 명세서 중에서 사용되는 모든 전문 용어 및 과학 기술 용어는, 본 개시가 속하는 분야의 당업자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 모순될 경우, 본 명세서(정의를 포함하여)가 우선한다.

본 명세서에 있어서, "약"이란, 다음으로 이어지는 수치의 ±10%를 의미한다.

1. 핵산 개변 효소 복합체

본 개시의 일 국면에 있어서, 핵산 서열 인식 모듈과, 데아미나아제가 결합한 복합체이며, 해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고, 해당 데아미나아제는, 해당 데아미나아제에 대응하는 야생형 데아미나아제보다도 사이즈가 작으며, 또한 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록 개변되어 있고, 해당 이중쇄 DNA의 표적화된 부위를 개변하는 능력을 갖는 복합체가 제공된다. 일 실시 형태에 있어서, 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수는, 데아미나아제의 종류에 따라 적절히 설정되는 소정값 이하로 할 수 있고, 예를 들어 그러한 지수로서, 후술하는 노출 단면 지수나 소수성 아미노산 잔기의 수를 사용할 수 있다.

본 개시에 있어서는, 데아미나아제를 소형화함으로써, 단일의 AAV 벡터에 탑재 가능한 염기 편집 시스템을 제공하는 것을 목적으로 한다. 본 발명자들은, 데아미나아제를 소형화할 경우에, 아미노산을 결실 등의 개변을 시켰을 때에 노출하는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록, 더 작고, 바람직하게는 최소화함으로써 구조의 안정화로 이어진다는 것을 발견하였다. 구체적으로 중요하다고 생각되는 요소로서는, 아미노산을 결실 또는 치환시켰을 때에 노출하는 단면에 나타나는 소수성 아미노산의 수를, 소정값 이하로 하고, 예를 들어 다른 개변을 실시했을 경우보다도 감소시키고, 보다 바람직하게는 최소한으로 하는 것이다.

그래서, 본 개시의 일 실시 형태에 있어서, 데아미나아제는, 야생형 데아미나아제의 N 말단측 및 C 말단측이, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 소정값 이하 또는 최소화하도록 개변될 수 있다. 다른 실시 형태에 있어서, 개변되는 데아미나아제의 아미노산 잔기는 N 말단 또는 C 말단으로 한정되는 것은 아니고, 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 소정값 이하 또는 최소화하도록 개변되는 것이라면, 서열 내부(말단이 아님)에 있어서의 아미노산을 개변시킬 수도 있다.

데아미나아제를 개변시킬 때, 단순히 결실이나 치환에 의해 노출되어 버리는 아미노산의 수를 최소화하고자하는 것이라면, 대규모 개변을 실시하지 않으면 된다고 하지만, 데아미나아제를 소형화하며, 또한 아미노산을 개변시켰을 때에 노출되는 단면에 나타나는 소수성 아미노산을 최소한으로 하기 위해서, 개변시킨 아미노산의 수에 대한 노출한 소수성 잔기의 비율을 구하고, 이 수치(본 명세서에 있어서 "노출 단면 지수"라고도 함)를 지표로 할 수도 있다. 따라서, 일 실시 형태에 있어서, 상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수의 비율을 소정 이하로 하거나, 또는 최소화하도록 개변될 수 있다. 또한 개변한 결과 노출되는 단면에 나타나는 소수성 잔기를 친수성 잔기로 치환시킴으로써 그 지표를 저감시킬 수도 있다. 따라서, 일 실시 형태에 있어서, 데아미나아제에 있어서의 노출된 소수성의 내부 아미노산 잔기의 적어도 하나가, 친수성의 아미노산 잔기로 치환될 수 있다.

예를 들어 후술하는 실시예에 있어서 상세하게 설명하는 바와 같이, 소형화 시티딘 데아미나아제인 PmCDA1(30-150)의 경우에는, 14의 소수성 잔기(Y34, L36, F49, W50, Y52, Y78, Y91, L105, W122, L126, Y128, I136, W139, V150)가 나타나는 바, 결실시킨 아미노산의 수(87 잔기)에 대한 노출한 소수성 잔기(14 잔기)의 비율을 산출함으로써, 그 노출 단면 지수를 수치화할 수도 있다.

따라서, 일 실시 형태에 있어서, 개변시킨 아미노산 잔기의 수에 대한, 개변된 결과 노출되는 단면에 나타나는 소수성 잔기의 비율은, 예를 들어 약 3% 이하, 약 4% 이하, 약 5% 이하, 약 6% 이하, 약 7% 이하, 약 8% 이하, 약 9% 이하, 약 10% 이하, 약 12% 이하, 약 14% 이하, 약 16% 이하, 약 18% 이하, 약 20% 이하, 약 22% 이하, 약 24% 이하, 약 26% 이하, 약 28% 이하, 약 30% 이하, 약 35% 이하, 약 40% 이하, 약 45% 이하, 약 50% 이하, 약 55% 이하, 약 60% 이하, 약 65% 이하, 약 70% 이하, 약 75% 이하, 약 80% 이하, 약 85% 이하, 약 90% 이하 또는 약 95% 이하로 할 수 있다.

또한 일 실시 형태에 있어서, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수는, 예를 들어 약 1개 이하, 약 2개 이하, 약 3개 이하, 약 4개 이하, 약 5개 이하, 약 6개 이하, 약 7개 이하, 약 8개 이하, 약 9개 이하, 약 10개 이하, 약 11개 이하, 약 12개 이하, 약 13개 이하, 약 14개 이하, 약 15개 이하, 약 16개 이하, 약 17개 이하, 약 18개 이하, 약 19 개이하, 약 20개 이하, 약 22개 이하, 약 24개 이하, 약 26개 이하, 약 28개 이하, 약 30개 이하, 약 35개 이하, 약 40개 이하, 약 45개 이하, 약 50개 이하, 약 55개 이하, 약 60개 이하, 약 65개 이하, 약 70개 이하, 약 75개 이하, 약 80개 이하, 약 85개 이하, 약 90개 이하, 약 95개 이하 또는 약 100개 이하로 할 수 있다. 다른 실시 형태에 있어서, 상기와 같은 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이 소정값 이하가 되는 개변이라면, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 100개 이상이 되는 개변이어도 된다.

본 명세서에 있어서, "사이즈"란, 단백질 등의 분자의 물리적 또는 화학적인 크기를 의미하고, 분자량, 점유 체적, 질량 등의 크기를 포함한다. 사이즈가 작아진다는 것은, 당해 분자의 분자량, 체적 또는 질량 등이 감소하는 것을 포함한다. 바람직하게는 분자량이 보다 적절한 지표가 될 수 있다.

본 명세서에 있어서, "최소화"란, 개변하기 전과 비교하여, 또는 다른 개변을 실시했을 경우와 비교하여, 어떤 값이 적어도 감소하고 있거나 또는 작은 것을 의미하고, 최소값이 되어 있을 필요는 없다.

본 명세서에 있어서, "개변"이란, 아미노산이 결실 또는 치환되는 것을 포함한다.

개변했을 경우에 어느 단백질(데아미나아제 등) 내의 특정한 아미노산이 노출되는지 여부는, 모델링 등으로 정확하게 계산할 수 있고, 예를 들어 I-TASSER(https://zhanggroup.org/I-TASSER/) 등을 참조하여 단백질의 구조 예측을 행할 수 있다. 또한 그 구조 예측 시에 기초가 되는 단백질의 구조는, 예를 들어 RCSBPDB(https://www.rcsb.org/) 등으로부터 취득할 수 있고, AID라면 5W1C(https://www.rcsb.org/structure/5W1C)를 사용할 수 있다

일 실시 형태에 있어서, 본 개시는, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 핵산 서열 인식 모듈과, 소형화 시티딘 데아미나아제가 결합한, 이중쇄 DNA의 개변용 복합체(이하에서는, "본 개시의 소형화 복합체"라고 하는 경우가 있음)를 제공한다. 하기 3.에서 설명하는 바와 같이, 본 개시의 소형화 복합체와, 목적으로 하는 이중쇄 DNA(예: 게놈 DNA)를 접촉시킴으로써, 해당 이중쇄 DNA의 표적화된 부위를 개변하는 것이 가능해진다.

또한, 하기 실시예에서 나타내는 바와 같이, 종래는 Cas9의 말단에 융합되어 있던 시티딘 데아미나아제를 Cas 이펙터 단백질의 내부에 매립함으로써, 복합체로서의 안정성의 향상 및 기질 DNA로의 액세스 향상을 도모하여 종래의 복합체를 사용한 경우보다도 높은 효율을 달성하였다. 따라서, 본 개시의 다른 양태에 있어서, 핵산 서열 인식 모듈의 N 말단 단편과, 시티딘 데아미나아제와, 핵산 서열 인식 모듈의 C 말단 단편이 결합한 복합체(이하에서는, "본 개시의 복합체(스플릿형)"이라고 하는 경우가 있음)가 제공된다. 본 개시의 복합체(스플릿형)를 구성하는 시티딘 데아미나아제는, 야생형의 것이어도 높은 개변 효율을 발휘하지만, 소형화나 오프 타깃 효과 억제의 관점에서는, 소형화 시티딘 데아미나아제인 것이 바람직하다. 본 개시의 복합체(스플릿형)에서는, 핵산 서열 인식 모듈의 N 말단 단편과 C 말단 단편이 리폴딩함으로써, 해당 핵산 서열 인식 모듈이, 해당 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하는 것이 가능해진다. 이하에서는, "본 개시의 소형화 복합체"와 "본 개시의 복합체(스플릿형)"의 양쪽을 포함하는 용어로서, "본 개시의 복합체"라는 용어를 사용하는 경우가 있다.

본 개시의 복합체(스플릿형)는 핵산 서열 인식 모듈의 N 말단 단편과, 시티딘 데아미나아제와, 핵산 서열 인식 모듈의 C 말단 단편을, N 말단으로부터 C 말단에 걸쳐서, 이 순서로 또는 역순으로 포함하는 융합 단백질로서 제공해도 되고, 이 경우에는, 각 요소간의 적어도 한쪽이, 적당한 링커(예: 3xFlag 링커, GS 링커 등)를 개재하여 연결되어 있어도 되고, 링커를 통하지 않고 결합하고 있어도 된다. 또는, 핵산 서열 인식 모듈과 시티딘 데아미나아제를, 각각 2개의 단편으로 분단하고, 그 한쪽의 단편끼리를 연결하여 2개의 부분적 복합체를 형성시키고, 이것들이 회합하여 기능적인 핵산 서열 인식 모듈이 재구성되어 표적 뉴클레오티드 서열에 결합하면, 기능적인 시티딘 데아미나아제가 재구성되도록 디자인된 스플릿 효소를 사용할 수도 있다. 예를 들어 핵산 서열 인식 모듈 및 시티딘 데아미나아제를, 각각 N 말측 단편과 C 말측 단편으로 분단하고, 예를 들어 N 말측 단편끼리를 연결한 부분적 복합체와, C 말측 단편끼리를 연결한 부분적 복합체를 제작하고, 이것들을 회합시킴으로써 기능적인 핵산 서열 인식 모듈 및 기능적인 시티딘 데아미나아제를 재구성시킬 수 있다. 또한, 2개의 부분적 복합체는, 별개의 분자로서 제공되어도 되거나, 또는 직접 또는 적당한 링커를 개재하여 연결함으로써, 1개의 융합 단백질로서 제공되어도 된다.

아래에 기술한 실시예에서 나타내는 바와 같이, 본 개시의 복합체(스플릿형)에 있어서, 시티딘 데아미나아제를, 핵산 서열 인식 모듈의 아미노산 서열의 복수의 위치에 삽입했더니, 어느 위치에 삽입한 경우에도, 종래의 복합체를 사용한 경우보다도 높거나, 또는 동일 정도의 개변 효율을 달성할 수 있다는 것이 실증되었다. 또한, 삽입하는 위치를 조정함으로써, 변이 도입 부위를 조정할 수 있다는 것이 나타났다. 따라서, 시티딘 데아미나아제를 삽입하는 위치는 특별히 한정되지 않지만, 예를 들어 핵산 서열 인식 모듈로서 CRISPR-SpCas9 시스템을 사용하는 경우에는, SpCas9(서열 번호 4)의 204 위치 내지 1054 위치(예: 204 위치, 535 위치, 1023 위치, 1054 위치) 중 어느 아미노산 잔기와, C 말단측에 위치를 1 아미노 잔기 만큼 어긋나게 한 아미노산 잔기(예: 205 위치, 536 위치, 1024 위치, 1055 위치) 사이에서 SpCas9를 분단하는 것이 바람직하다. 예를 들어 SpCas9에 204 위치와 205 위치의 아미노산 잔기 사이에 시티딘 데아미나아제를 삽입하는 경우에는, SpCas9의 C 말단 단편은, 1 내지 204로 이루어지는 단편이 되고, N 말단 단편은, 205 내지 1368로 이루어지는 단편이 된다. CRISPR-SaCas9 시스템을 사용하는 경우에는, SaCas9(서열 번호 5)의 127 위치 내지 848 위치(예: 127 위치, 538 위치, 614 위치, 690 위치, 735 위치, 848 위치) 중 어느 아미노산 잔기와, C 말단측에 위치를 1 아미노 잔기 만큼 어긋나게 한 아미노산 잔기(예: 128 위치, 539 위치, 615 위치, 691 위치, 736 위치, 849 위치)와의 사이에서 SaCas9를 분단하는 것이 바람직하다. 또한, 시티딘 데아미나아제의 분단 개소는, 분단된 2개의 단편이 기능적인 시티딘 데아미나아제로 재구성될 수 있는 한 특별히 제한은 없고, 1개소에서 분단되어서 N 말측 단편과 C 말측 단편으로 해도 되고, 2개소 이상에서 분단되어 발생하는 3 이상의 단편을 적절히 연결하여 2개의 단편으로 할 수도 있다. 시티딘 데아미나아제의 3차원 구조는 공지이며, 당업자라면 당해 정보에 기초하여 적절히 분단 개소를 선택할 수 있다.

본 명세서에 있어서, "소형화 시티딘 데아미나아제"란, 야생형 시티딘 데아미나아제의 아미노산 잔기의 일부를 결실시킴으로써, 야생형 시티딘 데아미나아제와 비교하여 분자량이 저감한 시티딘 데아미나아제를 의미한다. 이러한 소형화 시티딘 데아미나아제로서, 구체적으로는, 일 실시 형태에 있어서,

로 이루어지는 시티딘 데아미나아제를 들 수 있다. 단, 상기 (3) 및 (4)의 시티딘 데아미나아제로부터는, 야생형의 시티딘 데아미나아제나, 서열 번호 1에 28 위치 내지 161 위치의 영역(134 아미노산 서열로 이루어지는 영역)을 적어도 포함하는, 해당 시티딘 데아미나아제의 단편은 제외되는 것으로 한다. 이하에서는, "소형화 시티딘 데아미나아제"와 "야생형 시티딘 데아미나아제"의 양쪽을 포함하는 용어로서, 단순히 "시티딘 데아미나아제"라는 용어를 사용하는 경우가 있다.

서열 번호 1로 표시되는 아미노산 서열로 이루어지는 시티딘 데아미나아제는, 칠성장어 유래의 PmCDA1(Petromyzon marinus cytosine deaminase 1)이며, 이러한 PmCDA1의 오르토로그로서는, 예를 들어 포유 동물(예, 인간, 돼지, 소, 말, 원숭이 등) 유래의 AID(Activation-inducedcytidine deaminase; AICDA) 등을 들 수 있다. 예를 들어 PmCDA1의 cDNA의 염기 서열 및 아미노산 서열은, GenBank accession No. EF094822 및 ABO15149를, 인간 AID의 cDNA의 염기 서열 및 아미노산 서열은 GenBank accession No.NM_020661 및 NP_065712를, 각각 참조할 수 있다.

상기 (3)에 관하여, 보다 구체적으로는, (i) 서열 번호 1로 표시되는 아미노산 서열 중의 1 내지 50개, 바람직하게는 1 내지 20개, 보다 바람직하게는 1 내지 수(5, 4, 3 또는 2)개의 아미노산이 결실한 아미노산 서열, (ii) 서열 번호 1로 표시되는 아미노산 서열에 1 내지 50개, 바람직하게는 1 내지 20개, 보다 바람직하게는 1 내지 수(5, 4, 3 또는 2)개의 아미노산이 부가한 아미노산 서열, (iii) 서열 번호 1로 표시되는 아미노산 서열에 1 내지 50개, 바람직하게는 1 내지 20개, 보다 바람직하게는 1 내지 수(5, 4, 3 또는 2)개의 아미노산이 삽입된 아미노산 서열, (iv) 서열 번호 1로 표시되는 아미노산 서열 중의 1 내지 50개, 바람직하게는 1 내지 20개, 보다 바람직하게는 1 내지 수(5, 4, 3 또는 2)개의 아미노산이 다른 아미노산으로 치환된 아미노산 서열, 또는 (v) 그것들을 조합한 아미노산 서열을 포함하는 시티딘 데아미나아제를 들 수 있다.

아래에 기술한 실시예에서 나타내는 바와 같이, 시티딘 데아미나아제에 있어서의, 외부에 노출한 소수성 아미노산 잔기를 친수성 아미노산 잔기로 치환함으로써, 단백질의 안정화에 기인한다고 추측되는 시티딘 데아미나아제에 의한 개변 효율의 향상 효과가 실증되었다. 따라서, 상기 시티딘 데아미나아제의 외부에 노출한 소수성 아미노산 잔기를, 친수성 아미노산 잔기로 치환하는 것이 바람직하다. 이러한 외부에 노출한 소수성 아미노산 잔기로서는, PmCDA1을 예로 하면, 예를 들어 34 위치(Y), 36 위치(L), 50 위치(W), 52 위치(Y), 54 위치(V), 74 위치(Y), 94 위치(W), 105 위치(L), 122 위치(W), 126 위치(L), 136 위치(I), 139 위치(W) 및 150 위치(V), 그리고 칠성장어 이외의 동물에서 유래되는 시티딘 데아미나아제에 있어서의, 이것들 아미노산 잔기에 대응하는 위치로부터 선택되는 위치의 아미노산 잔기를 들 수 있다(괄호 쓰기의 알파벳은 아미노산 잔기를 나타냄). 그 중에서도 122 위치, 126 위치 및 139 위치로 이루어지는 군으로부터 선택되는 위치의 아미노산 잔기가 바람직하다. 또한, 친수성 아미노산 잔기로서는, 아르기닌, 아스파라긴, 아스파르트산, 글루탐산, 글루타민, 리신, 세린 및 트레오닌을 들 수 있다.

시티딘 데아미나아제의 아미노산 서열은 척추 동물 사이에서 고도로 보존되어 있고, 원하는 동물 유래의 시티딘 데아미나아제의 아미노산 서열을, PmCDA1의 아미노산 서열과 얼라인함으로써, 대응하는 결실 대상의 부위, 또는 대응하는 변이 부위를 동정할 수 있다. 대응하는 아미노산 잔기가 친수성 아미노산일 경우에는, 치환하지 않아도 되거나, 또는 다른 친수성 아미노산 잔기로 치환해도 된다. 예를들어, 인간 AID의 경우, PmCDA1의 S30에 대응하는 아미노산은, 27번째의 트레오닌이며, PmCDA1의 V150에 대응하는 아미노산은, 138번째의 이소류신이며, PmCDA1의 W122에 대응하는 아미노산은 109번째의 페닐알라닌이며, PmCDA1의 L126에 대응하는 아미노산은, 113번째의 류신이며, PmCDA1의 W139에 대응하는 아미노산은, 127번째의 아르기닌이다. 이러한 아미노산 잔기는, 상기의 임의의 친수성 아미노산 잔기로 치환할 수 있지만, PmCDA1을 예로 하면, 바람직한 양태에 있어서, W122(인간 AID의 F109)를 글루탐산 잔기 또는 글루탐산 잔기에, L126(인간 AID의 L113)을 아스파라긴 잔기에, 및/또는 W139(인간 AID의 R127)를 아르기닌 잔기 또는 글루타민 잔기로 치환하는 것이 바람직하다. 한편, 데아미나아제 활성의 촉매 도메인(PmCDA1의 66-100 위치의 영역, 인간 AID의 56-90 위치의 영역)에 존재하는, β 시트간의 루프를 형성하는, 등의 특정의 아미노산 잔기의 치환은 바람직하지 않고(환언하면, 이러한 아미노산 잔기는 보존되어 있는 것이 바람직하다), 이러한 치환이 바람직하지 않은 아미노산 잔기로서는, PmCDA1을 예로 하면, F49(인간 AID의 D45), I65(인간 AID의 C55), Y78(인간 AID의 W68), Y91(인간 AID의 F81), L112(인간 AID의 L98), Y128(인간 AID의 F115) 및 상기 루프를 형성하는 145-150 위치의 영역(인간 AID의 133-138 위치의 영역), 그리고, 칠성장어 이외의 동물에서 유래되는 시티딘 데아미나아제에 있어서의, 이것들 아미노산 잔기에 대응하는 아미노산 잔기를 들 수 있다.

또한, 상기의 시티딘 데아미나아제의 외부에 노출한 소수성 아미노산 잔기의 2개 이상을 친수성 아미노산 잔기로 치환해도 되고, PmCDA1을 예로 하면, 예를 들어 122 위치, 126 위치 및 139 위치로 이루어지는 군으로부터 선택되는 위치의 아미노산 잔기 중의 2개소 이상(예를 들어 122 위치 및 139 위치) 등을 들 수 있고, 구체적으로는, W122E/W139R, W122E/W139Q, W122Q/W139R, W122Q/W139Q 등의 변이의 조합을 포함하는 치환을 들 수 있다.

본 명세서에 있어서, 아미노산 서열의 "유사성"이란, 당해 기술 분야에 있어서 공지된 수학적 알고리즘을 사용하여 2개의 아미노산 서열을 얼라인시켰을 경우의, 최적의 얼라인먼트(바람직하게는, 해당 알고리즘은 최적의 얼라인먼트를 위하여 서열의 한쪽 또는 양쪽으로의 갭의 도입을 고려할 수 있는 것임)에 있어서의, 오버랩하는 전체 아미노산 잔기에 대한 동일 아미노산 및 유사 아미노산 잔기의 비율(%)을 의미한다. "유사 아미노산"이란 물리 화학적 성질에 있어서 유사한 아미노산을 의미하고, 예를 들어 방향족 아미노산(Phe, Trp, Tyr), 지방족 아미노산(Ala, Leu, Ile, Val), 극성 아미노산(Gln, Asn), 염기성 아미노산(Lys, Arg, His), 산성 아미노산(Glu, Asp), 수산기를 갖는 아미노산(Ser, Thr), 측쇄가 작은 아미노산(Gly, Ala, Ser, Thr, Met) 등의 동일한 그룹으로 분류되는 아미노산을 들 수 있다. 이러한 유사 아미노산에 의한 치환은 단백질의 표현형에 변화를 초래하지 않는다(즉, 보존적 아미노산 치환임)는 것이 예측된다. 보존적 아미노산 치환의 구체예는 당해 기술분야에서 주지이며, 여러가지 문헌에 기재되어 있다(예를 들어 Bowie들, Science, 247: 1306-1310(1990)을 참조). 본 명세서에 있어서의 아미노산 서열의 유사성 또는 동일성은, 상동성 계산 알고리즘 NCBI BLAST(National Center　for Biotechnology Information Basic Local Alignment Search Tool)를 사용하고, 이하의 조건(기댓값=10; 갭을 허용한다; 매트릭스=BLOSUM62; 필터링=OFF)으로 계산할 수 있다.

본 명세서에 있어서, 이중쇄 DNA의 "개변"이란, DNA쇄 상의 어느 뉴클레오티드(예를 들어 dC)가, 다른 뉴클레오티드(예를 들어 dT, dA 또는 dG)로 변환되거나, 결실되는 것, 또는 DNA쇄 상의 어느 뉴클레오티드 사이에 뉴클레오티드 또는 뉴클레오티드 서열이 삽입되는 것을 의미한다. 여기서, 개변되는 이중쇄 DNA는, 숙주 세포 내에 존재하는 이중쇄 DNA라면 특별히 제한되지 않지만, 바람직하게는 게놈 DNA(예: 염색체 DNA, 미토콘드리아 DNA, 엽록체 DNA 등)이다. 따라서, 이중쇄 DNA의 표적화된 부위의 개변은, 해당 표적화된 부위의 1 이상의 뉴클레오티드가 다른 1 이상의 뉴클레오티드로의 변환, 결실, 또는 해당 표적화된 부위로의 1 이상의 뉴클레오티드의 삽입을 의미한다. 또한, 이중쇄 DNA의 "표적화된 부위"란, 핵산 서열 인식 모듈이 특이적으로 인식하여 결합하는 "표적 뉴클레오티드 서열"의 전부 또는 일부, 또는 그것과 해당 표적 뉴클레오티드 서열의 근방(5' 상류 및 3' 하류 중 어느 한쪽 또는 양쪽)을 의미하고, 그 범위는 목적에 따라, 1 염기 내지 수백 염기 길이 사이에서 적절히 조절할 수 있다.

본 명세서에 있어서, "핵산 서열 인식 모듈"이란, DNA쇄 상의 특정한 뉴클레오티드 서열(즉, 표적 뉴클레오티드 서열)을 특이적으로 인식하여 결합하는 능력을 갖는 분자 또는 분자 복합체를 의미한다. 핵산 서열 인식 모듈이 표적 뉴클레오티드 서열에 결합함으로써, 해당 모듈에 연결된 시티딘 데아미나아제가, 이중쇄 DNA의 표적화된 부위에 특이적으로 작용하는 것을 가능하게 한다.

본 개시의 복합체("핵산 개변 효소 복합체" 라고도 함)는, 상기 핵산 서열 인식 모듈과 시티딘 데아미나아제가 연결된 복합체이며, 특정한 뉴클레오티드 서열 인식능이 부여된 탈아미노화 활성을 갖는 분자 복합체를 의미한다. 여기서 "복합체"는, 복수의 분자로 구성되는 것뿐만 아니라, 융합 단백질과 같이, 핵산 서열 인식 모듈과 시티딘 데아미나아제를 단일 분자 내에 갖는 것도 포함된다. 따라서, 핵산 서열 인식 모듈로서 CRISPR-Cas 시스템을 사용하는 경우에는, 가이드 RNA와, Cas 이펙터 단백질(Cas 단백질 또는 Cas 뉴클레아제라고도 함)과, 시티딘 데아미나아제에 의해 구성되는 복합체이어도 되고, 또한 가이드 RNA와, Cas 이펙터 단백질 및 시티딘 데아미나아제의 융합 단백질에 의해 구성되는 복합체이어도 된다.

상술한 바와 같이, 본 개시의 복합체는, 염기 제거 수복의 저해제를 포함하지 않아도, 효율적으로 이중쇄 DNA를 개변할 수 있다. 그러나, 아래에 기술한 실시예에서 나타내는 바와 같이, 소형화 시티딘 데아미나아제를 사용함으로써 우라실 DNA 글리코실라아제의 저해제를 병용해도, 야생형 시티딘 데아미나아제를 사용한 것보다도 오프 타깃 효과를 현저하게 저감할 수 있다는 것이 실증되었다. 이러한 오프 타깃 효과의 억제는, 바라지 않는 DNA로의 친화성을 갖는 시티딘 데아미나아제의 도메인이 제외된 것에 기인한다고 추정된다. 따라서, 본 개시의 복합체는, 추가로 우라실 DNA 글리코실라아제의 저해제가 연결되어 있어도 된다.

본 개시에 사용하는 우라실 DNA 글리코실라아제의 저해제로서는, 고초균(Bacillus subtilis) 박테리오파지인 PBS1 유래의 우라실 DNA 글리코실라아제 저해제(UGI) 또는 고초균 박테리오파지인 PBS2 유래의 우라실 DNA 글리코실라아제 저해제(UGI)를 들 수 있지만(Wang,Z., and Mosbaugh, D. W. (1988) J. Bacteriol. 170, 1082-1091), 이것들로 한정되지 않는다. 특히, PBS2 유래의 UGI는, DNA 상의 C로부터 T 이외의 변이나 절단 및 재조합을 일으키기 어렵게 한다는 효과도 알려져 있으므로, PBS2 유래의 UGI를 사용하는 것이 적합하다.

핵산 서열 인식 모듈에 의해 인식되는, 이중쇄 DNA 중의 표적 뉴클레오티드 서열은, 해당 모듈이 특이적으로 결합할 수 있는 한 특별히 제한되지 않고, 이중쇄 DNA 중의 임의인 서열이어도 된다. 표적 뉴클레오티드 서열의 길이는, 핵산 서열 인식 모듈이 특이적으로 결합하는데 충분하면 되고, 예를 들어 포유 동물의 게놈 DNA 중의 특정한 부위에 변이를 도입할 경우, 그 게놈 사이즈로 따라, 12 뉴클레오티드 이상, 바람직하게는 15 뉴클레오티드 이상, 보다 바람직하게는 17 뉴클레오티드 이상이다. 길이의 상한은 특별히 제한되지 않지만, 바람직하게는 25 뉴클레오티드 이하이다.

이러한 핵산 서열 인식 모듈로서는, 예를 들어 Cas의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템(이하, "CRISPR-변이 Cas 시스템" 이라고도 함), 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프 등 외에, 제한 효소, 전사 인자, RNA 폴리메라아제 등의 DNA와 특이적으로 결합할 수 있는 단백질의 DNA 결합 도메인을 포함하고, DNA 이중쇄 절단능을 갖지 않는 프래그먼트 등이 사용될 수 있지만, 이것들로 한정되지 않는다. 바람직하게는, CRISPR-변이 Cas 시스템, 징크 핑거 모티프, TAL 이펙터, PPR 모티프 등을 들 수 있다.

징크 핑거 모티프는, Cys2His2형의 다른 징크 핑거 유닛(1 핑거가 약 3 염기를 인식함)을 3 내지 6개 연결시킨 것이며, 9 내지 18 염기의 표적 뉴클레오티드 서열을 인식할 수 있다. 징크 핑거 모티프는, Modular assembly법(Nat Biotechnol (2002) 20: 135-141), OPEN법(Mol Cell (2008) 31: 294-301), CoDA법(NatMethods (2011) 8: 67-69), 대장균 one-hybrid법(Nat Biotechnol (2008) 26: 695-701) 등의 공지된 방법에 의해 제작할 수 있다. 징크 핑거 모티프의 제작의 상세에 대해서는, 일본 특허 제4968498호 공보를 참조할 수 있다.

TAL 이펙터는, 약 34 아미노산을 단위로 한 모듈의 반복 구조를 가지고 있고, 1개의 모듈의 12 및 13번째의 아미노산 잔기(RVD라고 함)에 의해, 결합 안정성과 염기 특이성이 결정된다. 각 모듈은 독립성이 높으므로, 모듈을 서로 연결시키는 것만으로, 표적 뉴클레오티드 서열에 특이적인 TAL 이펙터를 제작하는 것이 가능하다. TAL 이펙터는, 오픈 리소스를 이용한 제작 방법(REAL법(CurrProtoc Mol Biol(2012) Chapter 12: Unit 12.15), FLASH법(Nat Biotechnol (2012) 30: 460-465), Golden Gate법(Nucleic Acids Res(2011) 39: e82) 등)이 확립되어 있고, 비교적 간편하게 표적 뉴클레오티드 서열에 대한 TAL 이펙터를 설계할 수 있다. TAL 이펙터의 제작의 상세에 대해서는, 일본 특허 공표 제2013-513389호 공보를 참조할 수 있다.

PPR 모티프는, 35 아미노산으로 이루어지고, 1개의 핵산 염기를 인식하는 PPR 모티프의 연속에 의해, 특정한 뉴클레오티드 서열을 인식하도록 구성되어 있고, 각 모티프의 1, 4 및 ii(-2)번째의 아미노산만으로 표적 염기를 인식한다. 모티프 구성에 의존성은 없고, 양쪽 옆의 모티프로부터의 간섭은 없으므로, TAL 이펙터와 마찬가지로, PPR 모티프를 서로 연결시키는 것만으로, 표적 뉴클레오티드 서열에 특이적인 PPR 단백질을 제작하는 것이 가능하다. PPR 모티프의 제작의 상세에 대해서는, 일본 특허 공개 제2013-128413호 공보를 참조할 수 있다.

또한, 제한 효소, 전사 인자, RNA 폴리메라아제 등의 프래그먼트를 사용하는 경우, 이들 단백질의 DNA 결합 도메인은 주지이므로, 해당 도메인을 포함하며, 또한 DNA 이중쇄 절단능을 갖지 않는 단편을 용이하게 설계하고, 구축할 수 있다.

상기 어느 핵산 서열 인식 모듈은, 시티딘 데아미나아제와의 융합 단백질로서 제공할 수도 있고, 또는, SH3 도메인, PDZ 도메인, GK 도메인, GB 도메인 등의 단백질 결합 도메인과 그것들의 결합 파트너를, 핵산 서열 인식 모듈과, 시티딘 데아미나아제에 각각 융합시켜, 해당 도메인과 그 결합 파트너의 상호 작용을 개재하여 단백질 복합체로서 제공해도 된다. 또는, 핵산 서열 인식 모듈과, 시티딘 데아미나아제에 각각 인테인(intein)을 융합시키고, 각 단백질 합성 후의 라이게이션에 의해 양자를 연결할 수도 있다.

징크 핑거 모티프는, 표적 뉴클레오티드 서열에 특이적으로 결합하는 징크 핑거의 제작 효율이 높지 않고, 또한 결합 특이성이 높은 징크 핑거의 선별이 번잡하기 때문에, 실제로 기능하는 징크 핑거 모티프를 다수 제작하는 것은 용이하지 않다. TAL 이펙터나 PPR 모티프는, 징크 핑거 모티프에 비하여 표적 핵산 서열 인식의 자유도가 높지만, 표적 뉴클레오티드 서열에 따라서 거대한 단백질을 그 때마다 설계하고, 구축할 필요가 있으므로, 효율면에서 문제가 남는다.

이에 비해, CRISPR-Cas 시스템은, 표적 뉴클레오티드 서열에 대하여 상보적인 가이드 RNA에 의해 목적으로 하는 이중쇄 DNA의 서열을 인식하므로, 표적 뉴클레오티드 서열과 특이적으로 하이브리드 형성이 가능한 올리고 DNA를 합성하는 것만으로, 임의의 서열을 표적화할 수 있다.

따라서, 본 개시의 보다 바람직한 실시 양태에 있어서는, 핵산 서열 인식 모듈로서, Cas의 1개만, 또는 양쪽의 DNA 절단능이 실활된 CRISPR-변이 Cas 시스템이 사용된다.

CRISPR-변이 Cas 시스템은, 표적 뉴클레오티드 서열과 상보적인 서열을 포함하는 CRISPR-RNA(crRNA)와, 필요에 따라 변이 Cas 이펙터 단백질의 리크루트에 필요한 trans-activating RNA(tracrRNA)와(tracrRNA가 필요한 경우에는, crRNA와의 키메라 RNA로서 제공될 수 있음), 변이 Cas 이펙터 단백질과의 복합체로서 제공된다. 변이 Cas 이펙터 단백질과 조합하여 핵산 서열 인식 모듈을 구성하는, crRNA 단독 또는 crRNA와 tracrRNA와의 키메라 RNA로 이루어지는 RNA 분자를 "가이드 RNA"라고 총칭한다. 또한, 본 명세서에 있어서, 표적쇄(targeted strand)"란, crRNA와 하이브리드 형성하는 쪽의 쇄를 의미하고, 그 반대 쇄에서 표적쇄와 crRNA와의 하이브리드 형성에 의해 단일쇄상이 되는 쇄를 "비표적쇄(non-targeted strand)"라고 칭하는 것으로 한다. 또한, 표적 뉴클레오티드 서열을 한쪽의 쇄로 표현할 경우(예를 들어 PAM 서열을 표기하는 경우나, 표적 뉴클레오티드 서열과 PAM의 위치 관계를 나타내는 경우 등), 비표적쇄의 서열로 대표시키는 것으로 한다.

본 개시에서 사용되는 Cas 이펙터 단백질은, 가이드 RNA와 복합체를 형성하여, 목적 유전자 중의 표적 뉴클레오티드 서열과 그것과 인접하는 protospacer adjacent motif(PAM)를 인식하여 결합할 수 있는 한, 특별히 제한은 없지만, 바람직하게는 Cas9 또는 Cpf1이다. Cas9로서는, 예를 들어 스트렙토코커스·피오게네스(Streptococcus pyogenes) 유래의 Cas9(SpCas9; PAM 서열 NGG(N은 A, G, T 또는 C. 이하 동일함)), 스트렙토코커스·써모필러스(Streptococcus thermophilus) 유래의 Cas9(StCas9; PAM 서열 NNAGAAW), 나이세리아·메닌기티디스(Neisseria meningitidis) 유래의 Cas9(NmCas9; PAM 서열 NNNNGATT), 스타필로콕커스·아우레우스(Staphylococcus aureus) 유래의 Cas9(SaCas9; PAM 서열: NNGRR(T)), 캄필로박터·제주니(Campylobacter jejuni) 유래의 Cas9(CjCas9; PAM 서열 NNNVRYM(V는 A, G 또는 C; R은 A 또는 G; Y는 T 또는 C; M은 A 또는 C를 나타냄))을 들 수 있지만, 이것들로 한정되지 않는다. PAM에 의한 제약의 관점에서는, SpCas9가 바람직하다(실질 2염기이며, 이론상 게놈 상의 거의 어디에서도 표적화할 수 있음). 또한, 사이즈의 관점에서는, 바람직하게는 SaCas9 또는 CjCas9이다. 또한, Cpf1로서는, 예를 들어 프란시셀라·노비시다(Francisella novicida) 유래의 Cpf1(FnCpf1; PAM 서열 NTT), 아시다미노코카스 sp.(Acidaminococcus sp.) 유래의 Cpf1(AsCpf1; PAM 서열 NTTT), 라쿠노스피라과 세균(Lachnospiraceae bacterium) 유래의 Cpf1(LbCpf1; PAM 서열 NTTT) 등을 들 수 있지만, 그것들로 한정되지 않는다. 본 개시에서 사용되는 변이 Cas 이펙터 단백질로서는, Cas 이펙터 단백질의 이중쇄 DNA의 양쪽의 쇄의 절단능이 실활된 것과, 한쪽의 쇄의 절단능만을 실활한 닉카아제 활성을 갖지만, 모두 사용 가능하다. 예를 들어 SpCas9의 경우, 10번째의 Asp 잔기가 Ala 잔기로 변환한, 가이드 RNA와 상보쇄를 형성하는 쇄(즉, "표적쇄")의 반대쇄(즉, "비표적쇄")의 절단능을 결여하는(따라서, 가이드 RNA와 상보쇄를 형성하는 쇄에 대한 닉카아제 활성을 갖는다) D10A 변이체, 또는, 840번째의 His 잔기가 Ala 잔기로 변환한, 가이드 RNA와 상보쇄를 형성하는 쇄의 절단능을 결여하는(따라서, 가이드 RNA와 상보쇄를 형성하는 쇄의 반대쇄에 대한 닉카아제 활성을 갖는다) H840A 변이체, 나아가 그 이중 변이체(dCas9)를 사용할 수 있다. SaCas9의 경우에는, 10번째의 Asp 잔기를 Ala 잔기로 변환하고, 및/또는 556번째의 Asp 잔기, 557번째의 His잔기 및/또는 580번째의 Asn 잔기를 Ala 잔기로 변환한 변이체를 제작할 수 있다. CjCas9의 경우, 8번째의 Asp 잔기를 Ala 잔기로 변환하고, 및/또는, 559번째의 His 잔기를 Ala 잔기로 변환한 변이체를 사용할 수도 있다. 또한, FnCpf1의 경우, 917번째의 Asp 잔기가 Ala 잔기(D917A)로, 또는 1006번째의 Glu 잔기가 Ala 잔기(E1006A)로 변환한, 양쪽의 쇄의 절단능을 결여하는 변이체를 사용할 수 있다. 이중쇄 DNA의 적어도 한쪽의 쇄의 절단능을 결여하는 한, 다른 변이 Cas 이펙터 단백질도 마찬가지로 사용할 수 있다.

Cas 이펙터 단백질은, 상기 변이의 이외에, 더한층의 결실이나 변이를 포함하고 있어도 된다. 예를 들어 야생형 단백질과 PAM 인식 서열이 다른 변이 Cas 이펙터 단백질도 알려져 있고, 이러한 단백질로서는, 예를 들어 E108G/S217A/A262T/S409I/E480K/E543D/M694I/E1219V의 SpCas9의 변이체(xCas93.6), A262T/R324L/S409I/E480K/E694D/M694I/E1219V의 SpCas9의 변이체(xCas9 3.7) (PAM 서열：NG, GAA 및 GAT)(Hu JH, et al., Nature., 556(7699): 57-63 (2018)), R1335V/L1111R/D1135V/G1218R/E1219F/A1322R/T1337R의 SpCas9의 변이체(SpCas9-NG)(PAM 서열:NGN) (Nishimasu H, et al., Science., 361(6408):1259-1262 (2018)), 이러한 변이를 조합하여 제작된, A262T/R324L/S409I/E480K/E543D/M694I/L1111R/D1135V/G1218R/E1219F/A1322R/R1335V/T1337R의 SpCas9의 변이체(xCas9-NG)(Legut M, et al., Cell Rep, 30(9): 2859-2868 (2020)), D1135L/S1136W/G1218K/E1219Q/R1335Q/T1337R의 SpCas9의 변이체(SpG)(PAM 서열:NGN), D1135L/S1136W/G1218K/E1219Q/R1335Q/T1337R/L1111R/A1322R/A61R/N1317R/R1333P의 SpCas9의 변이체(SpG)(PAM 서열:NRN 및 NYN) (Walton RT, et al., Science, 368(6488):290-296 (2020)), D1135V/R1335Q/T1337R/의 SpCas9의 변이체(SpCas9-VQR)(PAM 서열：NGA), VERE; D1135V/G1218R/R1335E/T1337R의 SpCas9의 변이체(SpCas9-VERE) (PAM 서열：NGCG), E782K/N968K/R1015H의 SaCas9의 변이체(SaCas9-KKH) (PAM 서열：NNRRRT)나, SpCas9-NRRH, SpCas9-NRTH 그리고 SpCas9-NRCH)(PAM 서열：각각 NRRH, NRCH 및 NRTH) (Miller SM, et al., Nat　Biotechnol. 38(4):471-481 (2020)) 등을 들 수 있다.

2. 이중쇄 DNA 개변용 복합체를 코드하는 핵산

또한, 핵산 서열 인식 모듈과 데아미나아제(예를 들어 시티딘 데아미나아제)가 결합한 복합체를 포함하여 이루어지는 본 개시의 복합체와, 이중쇄 DNA와의 접촉은, 목적으로 하는 이중쇄 DNA를 갖는 세포에, 해당 복합체를 코드하는 핵산(이하에서는, "본 개시의 핵산"이라고 하는 경우가 있음)를 도입함으로써, 실시되어도 된다. 또한, 본 개시의 핵산을 사용하여, 분자 생물학적 방법에 의해, 본 개시의 복합체나, 해당 복합체의 각 구성 분자를 제조할 수도 있다. 따라서, 핵산 서열 인식 모듈과, 시티딘 데아미나아제란, 그것들의 융합 단백질을 코드하는 핵산으로서, 또는, 결합 도메인이나 인테인 등을 이용하여 단백질로 번역 후, 숙주 세포 내에서 복합체를 형성할 수 있는 것과 같은 형태로, 그것들을 각각 코드하는 핵산으로서 조제해도 된다. 여기서 핵산은, DNA이어도 RNA이어도 된다. DNA의 경우에는, 바람직하게는 이중쇄 DNA이며, 숙주 세포 내에서 기능적인 프로모터의 제어 하에 배치한 발현 벡터의 형태로, 또는 해당 DNA를 포함하는 발현 벡터의 형태로 제공된다. RNA의 경우에는, 바람직하게는 단일쇄 RNA이다.

본 명세서에 있어서, "복합체를 코드한다"에는, 해당 복합체를 구성하는 분자 각각을 코드하는 것 및 구성하는 2 이상의 분자를 단일 분자 내에 갖는 융합 단백질을 코드하는 것의 양쪽이 포함된다.

징크 핑거 모티프, TAL 이펙터, PPR 모티프 등의 핵산 서열 인식 모듈을 코드하는 DNA는, 각 모듈에 대하여 상기한 어느 방법에 의해 취득할 수 있다. 제한 효소, 전사 인자, RNA 폴리메라아제 등의 서열 인식 모듈을 코드하는 DNA는, 예를 들어 그것들의 cDNA 서열 정보에 기초하여, 당해 단백질이 원하는 부분(DNA 결합 도메인을 포함하는 부분)을 코드하는 영역을 커버하도록, 올리고 DNA 프라이머를 합성하고, 당해 단백질을 생산하는 세포로부터 조제한 전체 RNA 또는 mRNA 분획을 주형으로서 사용하고, RT-PCR법에 의해 증폭함으로써 클로닝할 수 있다.

시티딘 데아미나아제를 코드하는 DNA도, 마찬가지로, 사용하는 시티딘 데아미나아제의 cDNA 서열 정보를 바탕으로, 원하는 아미노산 잔기의 결실을 달성할 수 있도록 올리고 DNA 프라이머를 합성하고, 당해 시티딘 데아미나아제를 생산하는 세포로부터 조제한 전체 RNA 또는 mRNA 분획을 주형으로서 사용하고, RT-PCR법에 의해 증폭함으로써 클로닝할 수 있다. 예를 들어 칠성장어의 소형화 PmCDA1을 코드하는 DNA는, NCBI 데이터베이스에 등록되어 있는 cDNA 서열(accession No. EF094822)을 바탕으로, CDS의 적절한 영역에 대하여 적당한 프라이머를 설계하고, 칠성장어 유래 mRNA로부터 RT-PCR법에 의해 클로닝할 수 있다. 또한, 인간 AID를 코드하는 DNA는, NCBI 데이터베이스에 등록되어 있는 cDNA 서열(accession No. AB040431)을 바탕으로, 마찬가지로 클로닝할 수 있다. 또한, 표적화된 부위의 개변에 도너 DNA를 사용하는 경우에는, 해당 도너 DNA도, 해당 부위의 서열 정보 등에 기초하여 상기와 마찬가지로 클로닝할 수 있다.

클론닝된 DNA는, 그대로, 또는 목적에 따라 제한 효소로 소화하거나, 적당한 링커 및/또는 핵 이행 시그널(목적으로 하는 이중쇄 DNA가 미토콘드리아나 엽록체 DNA인 경우에는, 각 오르가넬라 이행 시그널)을 부가한 후에, 핵산 서열 인식 모듈을 코드하는 DNA와 라이게이션하여 융합 단백질을 코드하는 DNA를 조제할 수 있다. 또는, 핵산 서열 인식 모듈을 코드하는 DNA와, 시티딘 데아미나아제를 코드하는 DNA에, 각각 결합 도메인 또는 그 결합 파트너를 코드하는 DNA를 융합시키거나, 양쪽 DNA에 분리 인테인을 코드하는 DNA를 융합시킴으로써, 핵산 서열 인식 변환 모듈과 시티딘 데아미나아제가 숙주 세포 내에서 번역된 후에 복합체를 형성할 수 있도록 해도 된다. 이러한 경우도, 목적에 따라 한쪽 또는 양쪽 DNA의 적당한 위치에, 링커 및/또는 핵 이행 시그널을 연결할 수 있다. 또한, 표적화된 부위의 개변에 도너 DNA를 사용하는 경우에는, 해당 도너 DNA는, 단일 DNA로서 제작해도 되고, 핵산 서열 인식 모듈 및/또는 시티딘 데아미나아제를 코드하는 핵산을 포함하는 단일 DNA로서 제공되어도 된다.

핵산 서열 인식 모듈을 코드하는 DNA, 시티딘 데아미나아제를 코드하는 DNA, 도너 DNA는, 화학적으로 DNA쇄를 합성하거나, 또는 합성한 일부 오버랩하는 올리고 DNA 단쇄를, PCR법이나 Gibson Assembly법을 이용하여 접속함으로써, 그 전체 길이를 코드하는 DNA를 구축하는 것도 가능하다. 도너 DNA가 단일쇄 핵산의 경우, 화학적으로 DNA쇄를 합성하는 이외의 방법으로서, 예를 들어 해당 DNA를 포함하는 플라스미드 DNA를 제한 효소에 의해 소화하여 단일쇄로 하고, RNA 폴리메라아제에 의해 RNA를 합성한 후, 역전사 효소에 의해 cDNA를 합성하고, RNaseH에 의해 RNA쇄를 분해함으로써 제작할 수 있다. 또는, 닉카아제형 제한 효소에 의해 도너 DNA를 포함하는 플라스미드를 소화하고, 전기 영동에 의한 분리·정제를 거쳐서 제작할 수도 있다. 화학 합성 또는 PCR법 또는 Gibson Assembly법과의 조합으로 전체 길이 DNA를 구축하는 것의 이점은, 해당 DNA를 도입하는 숙주에 맞춰서 사용 코돈을 CDS 전체 길이에 걸쳐 설계할 수 있는 점에 있다. 이종 DNA의 발현 시에, 그 DNA 서열을 숙주 생물에 있어서 사용 빈도가 높은 코돈으로 변환함으로써, 단백질 발현량의 증대를 기대할 수 있다. 사용하는 숙주에 있어서의 코돈 사용 빈도의 데이터는, 예를 들어 (공공재)가즈사 DNA 연구소의 홈페이지에 공개되어 있는 유전 암호 사용 빈도 데이터베이스(http://www.kazusa.or.jp/codon/index.html)를 사용할 수 있고, 또는 각 숙주에 있어서의 코돈 사용 빈도를 기재한 문헌을 참조해도 된다. 입수한 데이터와 도입하고자 하는 DNA 서열을 참조하여 해당 DNA 서열에 사용되고 있는 코돈 중에서 숙주에 있어서 사용 빈도가 낮은 것을, 동일한 아미노산을 코드하여 사용 빈도가 높은 코돈으로 변환하면 된다.

핵산 서열 인식 모듈 및/또는 데아미나아제(예를 들어 시티딘 데아미나아제)를 코드하는 핵산을 포함하는 발현 벡터는, 예를 들어 해당 DNA를 적당한 발현 벡터 중의 프로모터의 하류에 연결함으로써 제조할 수 있다.

발현 벡터로서는, 대장균 유래의 플라스미드(예, pBR322, pBR325, pUC12, pUC13); 고초균 유래의 플라스미드(예, pUB110, pTP5, pC194); 효모 유래 플라스미드(예, pSH19, pSH15); 곤충 세포 발현 플라스미드(예: pFast-Bac); 동물 세포 발현 플라스미드(예: pA1-11, pXT1, pRc/CMV, pRc/RSV, pcDNAI/Neo); λ파지 등의 박테리오파지; 바큘로바이러스 등의 곤충 바이러스 벡터(예: BmNPV, AcNPV); 레트로바이러스, 백시니아 바이러스, 아데노바이러스, 아데노 수반 바이러스(AAV) 등의 동물 바이러스 벡터 등이 사용된다. 유전자 치료에 있어서의 이용을 고려하면, 도입 유전자를 장기간에 걸쳐 발현시킬 수 있다는 점이나 비병원성 바이러스 유래에서 안전성의 점에서는, AAV 벡터가 적합하게 사용된다.

본 개시에 있어서는 여러 가지 데아미나아제를 사용할 수 있고, 예를 들어 시티딘 데아미나아제는, 야생형 시티딘 데아미나아제와 비교하여 분자량이 저감되어 있기 때문에, 필요에 따라 핵산 서열 인식 모듈을 분자량이 낮은 것(예를 들어 SaCas9나 CjCas9 등)을 사용함으로써 핵산 서열 인식 모듈을 코드하는 핵산과, 시티딘 데아미나아제를 코드하는 핵산을, 단일 AAV 벡터에 탑재하는 것이 가능해진다. 또는, 핵산 염기 모듈의 일부를 결실시킴으로써(예를 들어 SpCas9에 1024 위치 내지 1054 위치를 결실시킴으로써), 분자량을 저감시킬 수도 있다. 즉, 핵산 서열 인식 모듈로서 CRISPR-Cas 시스템을 사용하는 경우에는, Cas 이펙터 단백질을 코드하는 핵산과, 가이드 RNA를 코드하는 핵산과, 시티딘 데아미나아제를 코드하는 핵산을, 모두 단일 AAV 벡터에 탑재하는 것도 가능해진다. 또한, 본 명세서에 있어서, "핵산 서열 인식 모듈"에는, 야생형뿐만 아니라, 핵산 서열 인식능을 갖는 그 개변체(예: 상기의 SpCas9의 개변체 등)도 포함되는 것으로 한다.

바이러스 벡터를 발현 벡터로서 사용하는 경우에는, 목적으로 하는 조직이나 장기로의 감염에 적합한 혈청형(serotype)에서 유래되는 벡터를 사용하는 것이 바람직하다. AAV 벡터의 예를 들면, 중추 신경계나 망막을 표적으로 할 경우에는, AAV1, 2, 3, 4, 5, 7, 8, 9 또는 10을 베이스로 한 벡터, 심장을 표적으로 할 경우에는, AAV 1, 3, 4, 6 또는 9를 베이스로 한 벡터, 폐를 표적으로 할 경우에는, AAV1, 5, 6, 9 또는 10을 베이스로 한 벡터, 간장을 표적으로 할 경우에는, AAV 2, 3, 6, 7, 8 또는 9를 베이스로 한 벡터, 골격근을 표적으로 할 경우에는, AAV1, 2, 6, 7, 8, 9를 베이스로 한 벡터를 사용하는 것이 바람직하다. 또한, 암 치료를 위해서는, AAV 2를 사용하는 것이 바람직하다. AAV의 혈청형에 대해서는, 예를 들어 WO2005/033321 A2 등을 참조할 수 있다.

프로모터로서는, 유전자의 발현에 사용하는 숙주에 대응하여 적절한 프로모터라면 어떠한 것이어도 된다. DSB를 수반하는 종래법에서는 독성 때문에 숙주 세포의 생존율이 현저하게 저하되는 경우가 있으므로, 유도 프로모터를 사용하여 유도 개시까지 세포수를 증가시켜 두는 것이 바람직한데, 본 개시의 복합체를 발현시켜도 충분한 세포 증식이 얻어지므로, 구성 프로모터도 제한 없이 사용할 수 있다.

예를 들어 숙주가 동물 세포일 경우, SRα 프로모터, SV40 프로모터, LTR 프로모터, CMV(사이토메갈로 바이러스) 프로모터, RSV(라우스 육종 바이러스) 프로모터, MoMuLV(몰로니 마우스 백혈병 바이러스) LTR, HSV-TK(단순 헤르페스 바이러스 티미딘 키나아제) 프로모터 등이 사용된다. 그 중에서도, CMV 프로모터, SRα 프로모터 등이 바람직하다.

숙주가 대장균일 경우, trp 프로모터, lac 프로모터, recA 프로모터, λP_L프로모터, lpp 프로모터, T7 프로모터 등이 바람직하다.

숙주가 바실러스속균일 경우, SPO1 프로모터, SPO2 프로모터, penP 프로모터 등이 바람직하다.

숙주가 효모일 경우, Gal1/10 프로모터, PHO5 프로모터, PGK 프로모터, GAP 프로모터, ADH 프로모터 등이 바람직하다.

숙주가 곤충 세포일 경우, 폴리헤드린 프로모터, P10 프로모터 등이 바람직하다.

숙주가 식물 세포일 경우, CaMV35S 프로모터, CaMV19S 프로모터, NOS 프로모터 등이 바람직하다.

발현 벡터로서는, 상기 이외에, 목적에 따라 인핸서, 스플라이싱 시그널, 터미네이터, 폴리 A 부가 시그널, 약제 내성 유전자, 영양 요구성 상보 유전자 등의 선택 마커, 복제 기점 등을 함유하고 있는 것을 사용할 수 있다.

핵산 서열 인식 모듈 및/또는 시티딘 데아미나아제를 코드하는 RNA는, 예를 들어 상기한 핵산 서열 인식 모듈 및/또는 시티딘 데아미나아제를 코드하는 DNA를 주형으로 하여 자체 공지된 시험관 내 전사계에서 mRNA에 전사함으로써 조제할 수 있다.

가이드 RNA를 코드하는 DNA는, 표적 뉴클레오티드 서열에 대하여 상보적인 뉴클레오티드 서열(본 명세서 중, "타깃팅 서열(targeting sequence)" 이라고도 함)을 포함하는, crRNA 서열(예를 들어 Cas 이펙터 단백질로서 FnCpf1을 리크루트하는 경우, 타깃팅 서열의 5'측에 서열 번호 2; AAUUUCUACUGUUGUAGAU를 포함하는 crRNA를 사용할 수 있고, 밑줄부의 서열끼리가 염기쌍을 형성하여 스템-루프 구조를 취함)의 코드 서열, 또는, crRNA 코드 서열과 필요에 따라서 공지된 tracrRNA 코드 서열(예를 들어 Cas 이펙터 단백질로서 Cas9를 리크루트하는 경우의 tracrRNA 코드 서열로서, gttttagagctagaaatagcaagttaaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcggtgcttttttt; 서열 번호 6(SpCas9의 경우), 또는 gttttagtactctggaaacagaatctactaaaacaaggcaaaatgccgtgtttatctcgtcaacttgttggcgagattttttt； 서열 번호 7(SaCas9의 경우) 등)을 연결한 올리고 DNA 서열을 설계하고, DNA/RNA 합성기를 사용하여 화학적으로 합성할 수 있다.

타깃팅 서열의 길이는, 표적 뉴클레오티드 서열에 대하여 특이적으로 결합할 수 있는 한 특별히 제한은 없지만, 예를 들어 15 내지 30 뉴클레오티드, 바람직하게는 18 내지 25 뉴클레오티드이다.

타깃팅 서열의 설계는, 예를 들어 Cas 이펙터 단백질로서 Cas9를 사용하는 경우, 공개된 가이드 RNA 설계 웹 사이트(CRISPR DesignTool, CRISPRdirect 등)를 사용하여, 목적 유전자의 CDS 서열 중에서 PAM(예를 들어 SpCas9의 경우, NGG)을 3'측에 인접하는 20mer 서열을 리스트업하고, 그 5' 말단에서 3' 방향으로 7 뉴클레오티드 이내의 C를 T로 변환했을 경우에, 목적 유전자가 코드하는 단백질에 아미노산 변화를 발생시키는 것과 같은 서열을 선택함으로써 행할 수 있다. 또한, 20mer 이외의 타깃팅 서열의 길이를 사용하는 경우에도, 적절히 서열을 선택할 수 있다. 이들 후보 중에서, 목적으로 하는 숙주 게놈 중의 오프 타깃 사이트 수가 적은 후보 서열을 타깃팅 서열로서 사용할 수 있다. 사용하는 가이드 RNA 설계 소프트웨어에 숙주 게놈의 오프 타깃 사이트를 검색하는 기능이 없는 경우, 예를 들어 후보 서열의 3'측의 8 내지 12 뉴클레오티드(표적 뉴클레오티드 서열의 식별능이 높은 seed 서열)에 대해서, 숙주 게놈에 대하여 Blast 검색을 통해 오프 타겟 사이트를 검색할 수 있다.

가이드 RNA를 코드하는 DNA도, 상기와 마찬가지의 발현 벡터에 삽입할 수 있지만, 프로모터로서는, pol III계의 프로모터(예, SNR6, SNR52, SCR1, RPR1, U3, U6, H1 프로모터 등) 및 터미네이터(예, 폴리 T 서열(T₆ 서열 등))를 사용하는 것이 바람직하다.

3. 이중쇄 DNA의 표적화된 부위의 개변 방법

다른 실시 양태에 있어서, 본 개시의 복합체를, 숙주 세포의 이중쇄 DNA와 접촉시키는 공정을 포함하는, 이중쇄 DNA의 표적화된 부위를 개변하는 방법(이하에서는, "본 개시의 개변 방법"이라고 하는 경우가 있음)이 제공된다. 핵산 서열 인식 모듈과 시티딘 데아미나아제가 결합한 복합체(융합 단백질을 포함함)를 포함하여 이루어지는 본 개시의 복합체와, 이중쇄 DNA와의 접촉은, 무세포계의 효소 반응으로서 이루어져도 되지만, 본 개시의 주된 목적을 따르면, 1. 및 2.에 기재한 본 개시의 복합체 또는 핵산 또는 벡터를, 숙주에 도입하여 당해 숙주를 배양함으로써실시되는 것이 바람직하다.

본 발명자들은 이전에, 핵산 서열 인식 모듈과, 시티딘 데아미나아제와의 복합체를 세포에 도입함으로써, 표적 부위에 있어서의 뉴클레오티드의 변환뿐만 아니라, 1 이상의 뉴클레오티드의 결실 또는 삽입이 발생하는 것을 실증하고 있다(국제 공개 제2015/133554호). 따라서, 표적화된 부위의 개변은, 표적화된 부위의 1 이상의 뉴클레오티드의 다른 1 이상의 뉴클레오티드로의 변환뿐만 아니라, 1 이상의 뉴클레오티드의 결실이어도, 표적화된 부위로의 1 이상의 뉴클레오티드의 삽입이어도 된다. 또한, 본 발명자들은 이전에, 외래의 도너 DNA를 추가로 숙주에 도입함으로써, 상동 재조합 기구에 의해, 이중쇄 DNA 중의 표적 부위를 외래의 도너 DNA에 포함되는 삽입 서열로 치환하는 것, 또는, 해당 표적 부위에 해당 삽입 서열을 삽입할 수 있다는 것을 실증하고 있다(국제 공개 제2019/189147호). 따라서, 본 개시의 개변 방법은, 도너 DNA를 세포에 도입하는 공정을 포함하고 있어도 된다.

핵산 서열 인식 모듈 및/또는 데아미나아제(예를 들어 시티딘 데아미나아제)를 코드하는 핵산 또는 해당 핵산을 포함하는 발현 벡터를 숙주 세포에 도입하고, 당해 숙주 세포를 배양함으로써, 핵산 서열 인식 모듈과 데아미나아제(예를 들어 시티딘 데아미나아제)와의 복합체를 세포 내에서 발현시킬 수도 있다. 본 개시의 개변 방법은, DNA 이중쇄 절단(DNA double-strand break: DSB)을 수반하지 않기 때문에 독성이 낮은 게놈 편집이 가능하고, 이러한 방법은 폭넓은 생물 재료에 적용할 수 있다. 따라서, 핵산 서열 인식 모듈 및/또는 시티딘 데아미나아제를 코드하는 핵산이 도입되는 세포는, 원핵 생물인 대장균 등의 세균이나 하등 진핵 생물인 효모 등의 미생물의 세포로부터, 인간 등의 포유 동물을 포함하는 척추 동물, 곤충, 식물 등 고등 진핵 생물의 세포에 이르기까지, 모든 생물종의 세포도 포함할 수 있다.

숙주로서는, 예를 들어 에스케리키아속균, 바실러스속균, 효모, 곤충 세포, 곤충, 동물 세포 등이 사용된다.

에스케리키아 속균으로서는, 예를 들어 에스케리키아·콜리(Escherichia coli）K12·DH1[Proc. Natl. Acad. Sci. USA，60，160(1968)], 에스케리키아·콜리 JM103[Nucleic Acids Research，9，309 (1981)], 에스케리키아·콜리 JA221[Journalof Molecular Biology，120，517 (1978)], 에스케리키아·콜리 HB101[Journal of MolecularBiology，41，459 (1969)], 에스케리키아·콜리 C600[Genetics，39，440 (1954)] 등이 사용된다.

바실러스속균으로서는, 예를 들어 바실러스 서브틸리스(Bacillus subtilis）MI114[Gene，24，255 (1983)], 바실러스 서브틸리스 207-21[Journal of Biochemistry，95，87 (1984)] 등이 사용된다.

효모로서는, 예를 들어 사카로마이세스·세레비시아(Saccharomyces cerevisiae）AH22，AH22R^-，NA87-11A，DKD-5D，20B-12, 시조사카로미세스·폼베(Schizosaccharomyces pombe）NCYC1913，NCYC2036, 피키아·파스토리스(Pichia pastoris）KM71 등이 사용된다

곤충 세포로서는, 예를 들어 바이러스가 AcNPV인 경우, 도둑 나방의 유충 유래 주화 세포(Spodoptera frugiperda cell; Sf 세포), Trichoplusiani의 중장 유래의 MG1 세포, Trichoplusia ni의 알 유래의 High Five^TM 세포, Mamestra brassicae 유래의 세포, Estigmenaacrea 유래의 세포 등이 사용된다. 바이러스가 BmNPV의 경우, 곤충 세포로서는, 누에 유래 주화 세포(Bombyx mori N 세포; BmN 세포) 등이 사용된다. 해당 Sf 세포로서는, 예를 들어 Sf9 세포(ATCCCRL1711), Sf21 세포(이상, In Vivo, 13, 213-217(1977)] 등이 사용된다.

곤충으로서는, 예를 들어 누에의 유충, 초파리, 귀뚜라미 등이 사용된다 [Nature, 315, 592(1985)].

동물 세포로서는, 예를 들어 원숭이 COS-7 세포, 원숭이 Vero 세포, 차이니즈 햄스터 난소(CHO) 세포, dhfr 유전자 결손 CHO 세포, 마우스 L 세포, 마우스 AtT-20 세포, 마우스 미엘로마 세포, 래트 GH3 세포, 인간 FL 세포 등의 세포주, 인간 및 다른 포유 동물의 iPS 세포나 ES 세포 등의 다능성 줄기 세포, 여러 가지 조직으로부터 조제한 초대 배양 세포가 사용된다. 나아가, 제브라피시 배, 아프리카발톱개구리 난모세포 등도 사용할 수 있다.

식물 세포로서는, 여러 가지 식물(예를 들어 벼, 소맥, 옥수수 등의 곡물, 토마토, 오이, 가지 등의 상품 작물, 카네이션, 꽃도라지 등의 원예 식물, 담배, 애기장대 등의 실험 식물 등)로부터 조제한 현탁 배양 세포, 캘러스, 프로토플래스트, 잎 절편, 뿌리 절편 등이 사용된다.

발현 벡터의 도입은, 숙주의 종류에 따라, 공지된 방법(예를 들어 리소자임법, 컴피텐트법, PEG법, CaCl₂ 공침전법, 일렉트로포레이션법, 미세 주입법, 파티클 건법, 리포펙션법, 아그로박테리움법 등)에 따라 실시할 수 있다. 도너 DNA도, 마찬가지 방법에 의해 세포에 도입할 수 있다. 발현 벡터와 도너 DNA를 다른 분자로서 도입할 경우, 발현 벡터와 도너 DNA의 도입은, 동시에 행해도 되고, 다른 타이밍에 행해도 된다.

대장균은, 예를 들어 Proc. Natl. Acad. Sci. USA, 69, 2110(1972)이나 Gene, 17, 107(1982) 등에 기재된 방법에 따라 형질 전환할 수 있다.

바실러스속균은, 예를 들어 Molecular & General Genetics, 168, 111(1979) 등에 기재된 방법에 따라서 벡터 도입할 수 있다.

효모는, 예를 들어 Methods in Enzymology, 194, 182-187(1991), Proc. Natl. Acad. Sci. USA, 75, 1929(1978) 등에 기재된 방법에 따라 벡터 도입할 수 있다.

곤충 세포 및 곤충은, 예를 들어 Bio/Technology, 6, 47-55(1988) 등에 기재된 방법에 따라 벡터 도입할 수 있다.

동물 세포는, 예를 들어 세포 공학 별책 8 신세포 공학 실험 프로토콜, 263-267(1995)(슈쥰샤 발행), Virology, 52, 456(1973)에 기재된 방법에 따라 벡터 도입할 수 있다.

본 개시의 핵산을 도입한 세포의 배양은, 숙주의 종류에 따라, 공지된 방법에 따라 실시할 수 있다.

예를 들어 대장균 또는 바실러스속균을 배양할 경우, 배양에 사용되는 배지로서는 액체 배지가 바람직하다. 또한, 배지는, 형질 전환체의 생육에 필요한 탄소원, 질소원, 무기물 등을 함유하는 것이 바람직하다. 여기서, 탄소원으로서는, 예를 들어 글루코오스, 덱스트린, 가용성 전분, 자당 등이; 질소원으로서는, 예를 들어 암모늄염류, 질산염류, 옥수수 침지액, 펩톤, 카제인, 고기 엑기스, 대두박, 감자 추출액 등의 무기 또는 유기 물질이; 무기물로서는, 예를 들어 염화 칼슘, 인산 이수소 나트륨, 염화 마그네슘 등을 각각 들 수 있다. 또한, 배지에는, 효모 엑기스, 비타민류, 생장 촉진 인자 등을 첨가해도 된다. 배지의 pH는, 바람직하게는 약 5 내지 약 8이다.

대장균을 배양하는 경우의 배지로서는, 예를 들어 글루코오스, 카사미노산을 포함하는 M9 배지[Journal of Experiments in MolecularGenetics, 431-433, Cold Spring Harbor Laboratory, New York 1972]가 바람직하다. 필요에 따라, 프로모터를 효율적으로 작용시키기 위해서, 예를 들어 3β-인돌릴아크릴산과 같은 약제를 배지에 첨가해도 된다. 대장균의 배양은, 통상 약 15 내지 약 43℃에서 이루어진다. 필요에 따라, 통기나 교반을 행해도 된다.

바실러스속균의 배양은, 통상 약 30 내지 약 40℃에서 이루어진다. 필요에 따라, 통기나 교반을 행해도 된다.

효모를 배양하는 경우의 배지로서는, 예를 들어 버크홀더(Burkholder) 최소 배지[Proc. Natl. Acad. Sci. USA, 77, 4505(1980)]나 0.5% 카사미노산을 함유하는 SD 배지[Proc. Natl. Acad. Sci. USA, 81, 5330(1984)] 등을 들 수 있다. 배지의 pH는, 바람직하게는 약 5 내지 약 8이다. 배양은, 통상 약 20℃ 내지 약 35℃에서 이루어진다. 필요에 따라, 통기나 교반을 행해도 된다.

곤충 세포 또는 곤충을 배양하는 경우의 배지로서는, 예를 들어 Grace's Insect Medium [Nature, 195, 788(1962)]에 비동화된 10% 소 혈청 등의 첨가물을 적절히 첨가한 것 등이 사용된다. 배지의 pH는, 바람직하게는 약 6.2 내지 약 6.4 이다. 배양은, 통상 약 27℃에서 이루어진다. 필요에 따라 통기나 교반을 행해도 된다.

동물 세포를 배양하는 경우의 배지로서는, 예를 들어 약 5 내지 약 20%의 태아 소 혈청을 포함하는 최소 필수 배지(MEM)[Science, 122, 501(1952)], 둘베코 개변 이글 배지(DMEM)[Virology, 8, 396(1959)], RPMI 1640 배지[The Journal of the American Medical Association, 199, 519(1967)], 199 배지[Proceeding of the Society for the Biological Medicine, 73, 1(1950)] 등이 사용된다. 배지의 pH는, 바람직하게는 약 6 내지 약 8이다. 배양은, 통상 약 30℃ 내지 약 40℃에서 이루어진다. 필요에 따라 통기나 교반을 행해도 된다.

식물 세포를 배양하는 배지로서는, MS 배지, LS 배지, B5 배지 등이 사용된다. 배지의 pH는 바람직하게는 약 5 내지 약 8이다. 배양은, 통상 약 20℃ 내지 약 30℃에서 이루어진다. 필요에 따라 통기나 교반을 행해도 된다.

이상과 같이 하여, 핵산 서열 인식 모듈과 시티딘 데아미나아제와의 복합체, 즉 본 개시의 복합체를 세포 내에서 발현시킬 수 있다.

핵산 서열 인식 모듈 및/또는 소형화 데아미나아제를 코드하는 RNA의 숙주 세포로의 도입은, 미세 주입법, 리포펙션법 등에 의해 행할 수 있다. RNA 도입은 1회 또는 적당한 간격을 두고 복수회(예를 들어 2 내지 5회) 반복하여 행할 수 있다.

본 개시에 있어서 "도너 DNA"란, 외래의 삽입 서열을 포함하는 DNA를 의미하고, 도너 DNA에는 통상, 표적 부위에 인접하는, 표적 부위의 상류측 및 하류측 2개소의 영역(이하 "인접 영역"이라고도 함)의 서열과 상동인 2종류의 서열(이하 "호몰로지 암" 이라고도 함)을 포함한다. 각 호몰로지 암을 구별할 경우에는, "5' 호몰로지 암"과 "3' 호몰로지 암"으로 구별하는 경우가 있다. 또한, 이중쇄 DNA의 "표적 부위"란, 도너 DNA에 포함되는 삽입 서열로 치환되게 되는 영역, 또는 해당 삽입 서열이 삽입되게 되는 뉴클레오티드 사이를 의미하고, 해당 표적 부위에는, 상기 인접 서열은 포함되지 않는다. 또한, 표적 뉴클레오티드 서열과 PAM 서열 이외의 부위를 표적 부위로 할 경우에는, 개변 후에도 이들 서열이 남고, 시티딘 데아미나아제에 의해 탈아미노화가 발생할 가능성이 있기 때문에, 이들의 서열이 제외되도록 도너 DNA를 설계하거나, 호몰로지 암 상의 표적 뉴클레오티드 서열 또는 PAM 서열에, 사일런트 변이를 도입하는 것이 바람직하다.

표적 부위의 인접 영역과 상동인 서열이란, 완전히 동일한 서열뿐만 아니라, 세포 내에서 상동 재조합이 일어날 수 있는 한, 완전히 동일한 서열에 대하여 바람직하게는 80% 이상(예: 85% 이상, 90% 이상, 95% 이상, 96% 이상, 97% 이상, 98% 이상, 99% 이상)의 동일성을 갖는 서열이어도 된다.

삽입 서열에는, 필요에 따라, 약제 내성 유전자(예: 카나마이신 내성 유전자, 암피실린 내성 유전자, 퓨로마이신 내성 유전자 등), 티미딘 키나아제 유전자, 디프테리아 톡신 유전자 등의 선택 마커 서열, 녹색 형광 단백질(GFP), 적색 형광 단백질, β글루쿠로니다제(GUS), FLAG 등의 리포터 유전자 서열 등을 포함할 수 있다. 또한, 세포의 선별 등이 종료한 후 등에, 이들 유전자를 절제할 수있도록, 그것들의 전후에 LoxP 서열, FRT 서열 또는 트랜스포존 특이성 말단 역위치 서열(PiggyBacTerminal Repeat)을 가져도 된다. 바람직한 트랜스포존으로서는, 예를들어 인시목 곤충 유래의 트랜스포존인 piggyBac 등을 들 수 있다(Kaji, K. et al., Nature, 458: 771-775(2009), Woltjen et al., Nature, 458: 766-770(2009), WO 2010/012077), 또는, Oji A etal., Sci Rep, 6:31666 (2016) 등에 기재된 바와 같이, 상기 약제 내성 유전자를 포함하는 발현 벡터를 공도입하여 일과적인(수일 정도의) 약제 선발을 행해도 된다. 삽입 서열이 표적 부위에 삽입되어 있는 것이나, 표적 부위와 치환되어 있는가는, 서열을 해독하는 것 이외에, 세포로부터 분리 추출한 염색체 DNA를 서던 혼성화 또는 PCR법에 의해 스크리닝하는 것 등에 의해 확인 할 수 있고, 도너 DNA에 상기 약제 내성 유전자 등이 존재하는 경우에는, 그것들의 발현을 지표로 하여 확인할 수도 있다.

도너 DNA는, 직쇄상(예: 합성 이중쇄 DNA)이어도 되고, 환상(예: 플라스미드 DNA)이어도 되고 또한, 단일쇄 DNA(예: 단일쇄 올리고디옥시리보뉴클레오티드(ssODN))이어도 되고, 이중쇄 DNA이어도 된다. 도너 DNA는, 삽입 서열의 염기 길이나, 숙주 세포의 상동 재조합 활성 등에 의해, 적절히 설계할 수 있다. 예를 들어 삽입 서열로서 100 염기 길이 이하인 경우, 통상은 ssODN 또는 합성 이중쇄 DNA가 사용되고, 그것보다 긴 경우, 통상은 합성 이중쇄 DNA 또는 플라스미드 DNA가 사용된다. 도너 DNA의 길이도 특별히 제한은 없고, 삽입 서열의 길이 등에 따라 적절히 설계할 수 있다. 삽입 서열의 길이는, 특별히 제한은 없고, 통상은 1 염기 길이 내지 몇만 염기 길이의 범위(예를 들어 ssODN의 경우에는, 100 염기 길이 이하(예: 70 염기 이하, 50 염기 이하))에서 목적에 따라서 적절히 설계할 수 있다. 또한, 각 호몰로지 암의 길이도 특별히 제한은 없고, 도너 DNA가 ssODN인 경우, 통상은 10 염기 길이 내지 150 염기 길이의 것이 사용되고, 도너 DNA가 합성 이중쇄 DNA의 경우, 통상은 10 내지 5000 염기 길이의 것이 사용되고, 도너 DNA가 플라스미드 DNA인 경우, 통상은 100 염기 길이 내지 5000 염기 길이, 바람직하게는 500 염기 길이 내지 1000 염기 길이의 것이 사용된다. 이러한 도너 DNA는, 공지 문헌 (예: OchiaiH, Int J Mol Sci, 16:21128-21137 (2015), Hockemeyer D et al., Nat Biotefchnol,27:851-857 (2009))을 참작하여 설계할 수 있다.

또한, 본 개시의 개변 방법에서는, 다른 위치의 복수의 표적 뉴클레오티드 서열을 사용하여 표적화된 부위를 개변하는 것도 가능하다. 따라서, 본 개시의 일 실시 형태에 있어서는, 다른 표적 뉴클레오티드 서열과 각각 특이적으로 결합하는, 2종 이상의 핵산 서열 인식 모듈을 사용할 수 있다. 이 경우, 이러한 핵산 서열 인식 모듈의 각각 1개와, 시티딘 데아미나아제가 복합체를 형성한다. 여기서 시티딘 데아미나아제는 공통인 것을 사용할 수 있다. 예를 들어 핵산 서열 인식 모듈로서 CRISPR-변이 Cas 시스템을 사용하는 경우, 변이 Cas 이펙터 단백질과 시티딘 데아미나아제와의 복합체는 공통인 것을 사용하고, 가이드 RNA(crRNA 또는 crRNA-tracrRNA 키메라)로서, 다른 표적 뉴클레오티드 서열과 각각 상보쇄를 형성하는 2 이상의 crRNA, 또는 2 이상의 crRNA의 각각, tracrRNA와의 키메라 RNA를 2종 이상 제작하여 사용할 수 있다. 한편, 핵산 서열 인식 모듈로서 징크 핑거 모티프나 TAL 이펙터 등을 사용하는 경우에는, 예를 들어 다른 표적 뉴클레오티드와 특이적으로 결합하는 각 핵산 서열 인식 모듈에, 시티딘 데아미나아제를 결합시킬 수 있다.

본 개시의 복합체를 숙주 세포 내에서 발현시키기 위해서는, 상술한 바와 같이 해당 복합체를 코드하는 DNA를 포함하는 발현 벡터를 숙주 세포에 도입하는데, 효율적으로 변이를 도입하기 위해서는, 일정 기간 이상, 일정 레벨 이상의 복합체 발현이 유지되는 것이 바람직하다. 이러한 관점에서는, 해당 발현 벡터가 숙주 게놈에 내장되는 것이 확실한데, 복합체의 지속적 발현은 오프 타깃 절단의 리스크를 증대시키므로, 순조롭게 표적 부위의 개변이 달성된 후에는 빠르게 제거되는 것이 바람직하다. 숙주 게놈에 내장된 DNA를 제거하기 위한 수단으로서는, Cre-loxP계나 FLP-FRT계를 사용하는 방법이나 트랜스포존을 사용하는 방법 등을 들 수 있다.

또는, 원하는 시기에 탈아미노화 반응이 일어나고, 표적화된 부위의 개변이 고정되는데도 필요한 기간만큼, 일과적으로 본 개시의 복합체를 숙주 세포 내에서 발현시킴으로써, 오프 타깃 절단의 리스크를 회피하면서 숙주 게놈의 편집을 효율적으로 실현할 수 있다. 당업자는, 사용하는 배양 조건 등에 기초하여, 적합한 발현 유도 기간을 적절히 결정할 수 있다. 예를 들어 출아 효모를 0.02% 갈락토오스 유도 배지 중에서 액체 배양할 경우, 20 내지 40시간의 발현 유도 기간이 예시된다.

본 개시의 복합체를, 원하는 시기에 원하는 기간, 일과적으로 발현시키는 수단으로서는, 해당 복합체를 코드하는 핵산을, 발현 기간을 제어 가능한 형태로 포함하는 컨스트럭트(발현 벡터)를 제작하고, 숙주 내에 도입하는 방법을 들 수 있다. "발현 기간을 제어 가능한 형태"로서는, 구체적으로는, 본 개시의 핵산을, 유도성의 조절 영역의 제어 하에 둔 것을 들 수 있다. "유도성의 조절 영역"은 특별히 제한되지 않지만, 예를 들어 온도 감수성(ts) 변이 리프레서와 이것으로 제어되는 오퍼레이터와의 오페론을 들 수 있다. ts 변이 리프레서로서는, 예를 들어 λ파지 유래의 cI 리프레서의 ts 변이체를 들 수 있지만, 이것으로 한정되지 않는다. λ파지 CI 리프레서(ts)의 경우, 30℃ 이하(예, 28℃)에서는 오퍼레이터에게 결합하여 하류의 유전자 발현을 억제하고 있지만, 37℃ 이상(예, 42℃)의 고온에서는 오퍼레이터로부터 해리되기 때문에 유전자 발현이 유도된다. 따라서, 본 개시의 핵산을 도입한 숙주 세포를, 통상은 30℃ 이하에서 배양하고, 적절한 시기에 온도를 37℃ 이상으로 높여서 일정 기간 배양하고, 탈아미노화 반응을 행하게 하고, 표적 유전자에 변이가 도입된 후에는 빠르게 30℃ 이하로 되돌림으로써, 표적 유전자의 발현이 억제되는 기간을 최단으로 할 수 있어, 숙주 세포에 있어서 필수 유전자를 표적화하는 경우에도, 부작용을 억제하면서 효율적으로 편집할 수 있다.

온도 감수성 변이를 이용하는 경우, 예를 들어 벡터의 자율 복제에 필요한 단백질의 온도 감수성 변이체를 본 개시의 복합체를 코드하는 DNA를 포함하는 벡터에 탑재함으로써, 해당 복합체의 발현 후에 빠르게 자율 복제를 할 수 없게 되어, 세포 분열에 따라 해당 벡터는 자연스럽게 탈락한다. 이러한 온도 감수성 변이 단백질로서는, pSC101ori의 복제에 필요한 Rep101 ori의 온도 감수성 변이체를 들 수 있지만, 이것으로 한정되지 않는다. Rep101 ori(ts)는 30℃ 이하(예, 28℃)에서는, pSC101ori에 작용하여 플라스미드의 자율 복제를 가능하게 하는데, 37℃ 이상(예, 42℃)이 되면 기능을 상실하여 플라스미드는 자율 복제를 할 수 없게 된다. 따라서, 상기 λ파지의 CI 리프레서(ts)와 병용함으로써, 본 개시의 복합체의 일과적 발현과 플라스미드 제거를 동시에 행할 수 있다.

또한, 본 개시의 복합체를 코드하는 DNA를, 유도 프로모터(예: lac 프로모터(IPTG로 유도), cspA 프로모터(콜드 쇼크로 유도), araBAD 프로모터(아라비노오스로 유도) 등)의 제어하에 있어서 숙주 세포 내에 도입하고, 적절한 시기에 배지에 유도 물질을 첨가(또는 배지로부터 제거)하여 해당 복합체의 발현을 유도하고, 일정 기간 배양하고, 핵산 개변 반응을 행하게 하고, 표적 유전자에 변이가 도입된 후 복합체의 일과적 발현을 실현할 수 있다.

이하에, 본 개시를 실시예에 의해 설명한다. 단, 본 개시는 이들 실시예로 한정되는 것은 아니다.

실시예

<세포주·배양·형질 전환·발현 유도>

출아 효모 Saccharomyces cerevisiae BY4741주(류신 및 우라실 요구성)를 사용하고, 표준적인 YPDA 배지 내지 SD 배지의 영양 요구성에 맞춘 Dropout 조성으로 배양하였다. 배양은 25℃에서 30℃ 사이에서, 한천 플레이트에서의 정치 배양 또는 액체 배지에서의 진탕 배양을 행하였다. 형질 전환은 아세트산 리튬법을 사용하고, 적절한 영양 요구성에 맞춘 SD 배지에서 선발을 행하였다. 갈락토오스에 의한 발현 유도에는, 적절한 SD 배지에서 밤새 예비 배양한 후, 탄소원을 2% 글루코오스에서 2% 라피노오스로 바꾼 SR 배지에 계대 배양하여 밤새 배양, 추가로 탄소원을 0.2% 갈락토오스로 바꾼 SGal 배지에 계대 배양하여 3시간부터 이틀 밤 정도 배양하여 발현 유도를 행하였다.

생존 세포수 및 Can1 변이율의 측정에는, 세포 현탁액을 SD 플레이트 배지 및 SD-Arg+60mg/l Canavanine 플레이트 배지 또는 SD+300mg/l Canavanine 플레이트 배지에 적절히 희석하여 도포하고, 3일 후에 출현하는 콜로니수를 생존 세포수로서 카운트하였다. SD 플레이트에서의 생존 콜로니수를 전체 세포수로 하고, Canavanine 플레이트에서의 생존 콜로니수를 내성 변이주수로 하여 변이율을 산출·평가하였다.

오프 타깃 효과를 검증하기 위해서, 세포 현탁액을 SD 플레이트 배지 및 SD+100 mg/l의 S-aminoethyl-L-cysteine(Thialysine)에 적절히 희석하여 도포하고, 3일 후에 출현하는 콜로니수를 생존 세포수로서 카운트하였다. SD 플레이트에서의 생존 콜로니수를 전체 세포수라고 하고, Thialysine 플레이트에서의 생존 콜로니수를 내성 변이주수로 하여 오프 타깃 변이율을 산출·평가하였다.

<핵산 조작>

DNA는, PCR법, 제한 효소 처리, 라이게이션, Gibson Assembly법, 인공 화학 합성 중 어느 것에 의해 가공·구축하였다. 플라스미드는 효모·대장균 셔틀벡터로서 류신 선발용의 pRS415 및 우라실 선발용의 pRS426을 백본으로서 사용하였다. 플라스미드는 대장균주 XL-10gold 내지 DH5α로 증폭하고, 아세트산 리튬법으로 효모에 도입하였다.

<컨스트럭트의 구축>

비특허문헌 3에 기재된 방법 및 plasmid에 준하여 각 도메인의 절단이나 교체, 변이의 도입을 행하였다. 포유 동물 발현용의 SaCas9 함유 벡터로서, Addgene으로부터 SaABEmax(#119814)를 입수하여 개변하였다. Scp1 서열, polyA 시그널은 인공 화학 합성을 행하였다. KN1086, KN1150, KN1025 및 KN1149의 gRNA의 각 표적 서열을, 각각 서열 번호 8 내지 11로서 나타낸다. 또한, 각 컨스트럭트의 대표로서, pAL008, pAL022, V5679, pAL047 및 pAL050의 전체 길이 서열을, 각각 서열 번호 12 내지 16으로서 나타낸다. 또한, 이하의 실시예에서 컨트롤로서 사용한 벡터 1251은, 종래형의 dCas9-dSH3-CDA(UGI는 포함하지 않음)를 코드하는 서열을 포함하고, 벡터 1252는, 종래형의 nCas9-dSH3-CDA(UGI는 포함하지 않음)를 코드하는 서열을 포함한다(dSH3은 링커임). 또한, pAL008은, CDA-nCas9를 코드하는 서열을 포함하고, Cas9의 N 말측에 링커없이 CDA를 융합하고 있다.

<입체 구조 해석>

AID(id: 5W1C)의 입체 구조는 NCBI의 MMDB로부터 입수하고, 소프트웨어(Cn3D) 상에서 해석하였다. 얼라인먼트는 ClustalW에 의해 행하였다.

<HEK293 세포로의 형질 감염 및 변이 유도〉

인간 태아 신장 유래 세포(HEK293T 세포)를 사용하였다. 세포를, 100μg/mL 페니실린-스트렙토마이신(Life Technologies, Carlsbad, CA, USA) 및 10% 태아 소 혈청(FBS)(Biosera, Nuaille, France)을 첨가한 DME-glutamax 배지(ThermoFisher Scientific, USA)를 사용하여, 37℃, 5% CO₂ 조건으로 배양을 행하였다. 세포의 회수에는 5% 트립신을 사용하였다. 초저온 냉동고에서 보존한 HEK293T 세포를 37℃의 워터 배스에서 용해하고, 5x10⁶ cells이 되도록 75T-flask에 파종하였다. 1-3 일간 배양 후에 세포를 회수하고, 0.5x10⁵ cells/well이 되도록 24웰 플레이트의 각 웰에 파종하였다. 1-3일 배양 후에 60-80% 콘플루언트 상태의 각 웰의 세포에 대하여 약 1μg의 상기의 각 플라스미드 DNA를 3μl의 Lipofectamine 2000(Life Technologies, Carlsbad, USA)을 사용하여 형질 감염하였다.

<시퀀싱>

변이 빈도 및 변이 개소의 해석은, 형질 감염 24시간 내지 72시간 후에 배양 세포를 회수하여 DNA를 추출, 표적 영역을 PCR로 증폭 후, 차세대 시퀀서 Miniseq를 사용하여 앰플리콘 해석을 행하였다. 데이터 처리는 CLC workbench로 행하였다. 경우에 따라, 세포 농축을 위하여 GFP 내지 RFP의 형광을 지표로, 컨스트럭트 발현 세포를 셀 소터로 분취를 행하였다.

실시예 1: 말단 영역의 결실에 의한 시티딘 데아미나아제의 소형화 검증

비특허문헌 4에 개시된 소형화 시티딘 데아미나아제를 포함하는 핵산 개변 효소 복합체에는, 우라실-DNA 글리코실라아제 저해제(UGI)도 포함되어 있지만, UGI를 사용하면, 바라지 않는 오프 타깃 효과가 증강할 것으로 예상된다. 또한 데아미나아제 활성을 비교 평가함에 있어서, 효모 세포 내에서는 UGI 존재 하에서는 변이 도입 효율이 포화되어 차이를 보기 어렵다. 그 때문에, 먼저, 상기 비특허문헌 4에 개시된 복합체로부터, UGI를 제외한 복합체를 제작하였다. 또한, 해당 복합체의 N 말단측 영역을 추가로 결실시킨 복합체도 제작하고, 이들 복합체에서의 표적 부위의 개변 효율을 검증하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 2에, 결과를 도 3 내지 도 5에 나타낸다. 도 3 내지 도 5로부터, 예상외로, 비특허문헌 4에 있어서 높은 개변 효율이 인정된, CDA1△161을 사용한 복합체에서마저, UGI를 사용하지 않을 경우에는, 야생형 CDA1을 사용한 복합체와 비교하여 개변 효율이 3분의 2 이하가 되었다. 나아가, CDA1Δ161의 N 말단측을 2 아미노산 잔기 이상 결실시킨 CDA1에서는, 개변이 현저하게 저하되었다. 상기 결과로부터, 본 발명자들은, 비특허문헌에 개시된 복합체가 높은 표적 부위의 개변 효율을 달성할 수 있었던 것은, 효모 세포 내에서의 UGI에 의한 DNA 개변 효율의 향상 효과에 의한 면이 크고, UGI를 사용하지 않을 경우 또는 다른 생물종으로의 적용 시에는, 단순하게 CDA1의 말단 영역을 결실하는 것 만으로는, 원하는 개변 효율을 달성할 수 있는 복합체가 얻어지지 않는다는 결론에 이르렀다.

실시예 2: 입체 구조에 기초하는 시티딘 데아미나아제의 소형화 검증

그래서, 단순하게 시티딘 데아미나아제의 말단 영역을 결실시키는 것이 아니라, 시티딘 데아미나아제의 구조에 기초하여, 시티딘 데아미나아제의 결실 부위를 결정하기로 하였다. 먼저, 입체 구조 해석 소프트를 사용하여, CDA1Δ161의 구조를 해석했더니, 왜곡된 구상의 형상이었다(도 6 좌측 도면). 그래서, 도 6 좌측 도면의 백색 부분(즉, PmCDA1에 30-150 위치의 영역)만을 취출함으로써 형상을 보다 구상에 근접시켰다. 또한, 이하에서는, 아미노산 잔기의 위치는, 야생형 시티딘 데아미나아제의 아미노산 서열(즉, 서열 번호 1로 표시되는 서열)에 기초하여 나타낸다. 이와 같이 하여 제작한 소형화 시티딘 데아미나아제(PmCDA1(30-150)라고 하는 경우가 있음)에 대하여, 추가로 구조 해석에 의해 노출된 내부 아미노산 잔기(여기서는, 91 위치, 122 위치, 126 위치, 128 위치 및 150 위치의 아미노산 잔기)(도 7 우측 도면의 백색 부분)을 소수성에서 친수성의 아미노산 잔기로 치환한 복합체도 제작하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 8에, 결과를 도 9 내지 도 11에 나타낸다. 도 9 내지 도 11로부터, PmCDA1(30~150)에서는, 시티딘 데아미나아제의 분자량이 높은 CDA1Δ161과 비교하여 표적 부위의 개변 효율이 향상된다는 것이 나타났다. 또한, PmCDA1(30-150)에 대해서, 122 위치의 트립토판을 글루탐산으로 치환한 시티딘 데아미나아제(PmCDA1(30-150; W122E)이라고 하는 경우가 있음)에서는, 특히 높은 개변 활성이 인정되었다.

또한, PmCDA1(30-150; W122E)에 대하여, 추가로 소수성 아미노산을 친수성 아미노산으로 치환한 복합체를 사용하여, 표적 부위의 개변 효율을 검증하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 12에, 입체 구조에 있어서의 변이 도입 부분(백색 부분)을 도 13에, 결과를 도 14 내지 도 16에 나타낸다. 도 14 내지 도 16으로부터, PmCDA1(30-150; W122E)에 대해서, 139 위치의 트립토판을 아르기닌으로 치환한 시티딘 데아미나아제(PmCDA1(30~150; W122E; W139R)라고 하는 경우가 있음)에서는, 특히 높은 개변 활성이 인정되었다.

마찬가지로, 변이 개소를 바꾼 복합체를 제작하여 표적 부위의 개변 효율을 검증하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 17에, 결과를 도 18 내지 도 20에 나타낸다. 도 18 내지 도 20으로부터, PmCDA1(30-150; W122E)에 대해서, 139 위치의 트립토판을 글루타민으로 치환한 시티딘 데아미나아제(PmCDA1(30-150; W122E; W139Q)라고 하는 경우가 있음)에서는, 특히 높은 개변 활성이 인정되었다.

실시예 3: 스플릿 SpCas9를 사용한 핵산 개변 효소 복합체의 개변 효율의 검증

또한, 전혀 다른 어프로치에 의해, 핵산 개변 효소 복합체의 개변 효율이 향상되었는지 여부를 검증하였다. 종래의 핵산 개변 효소 복합체에서는, Cas 단백질의 말단에 시티딘 데아미나아제를 융합한 것이 사용되었지만, 시티딘 데아미나아제를 Cas 단백질의 내부에 매립함으로써, 복합체로서의 안정성의 향상 및 기질 DNA 로의 액세스 향상이 되는 것이 아닐까라는 가설 하에, 실증 실험을 행하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 21에, 결과를 도 22 내지 도 24에 나타낸다. 도 22 내지 도 24로부터, 제작한 모든 복합체에 있어서, 높은 개변 효율이 인정되었다.

이어서, 야생형 시티딘 데아미나아제 대신에 실시예 2에서 검증한 것과 동일한 소형화 시티딘 데아미나아제를 사용하여 복합체의 개변 효율을 검증하였다. 본 실험에서는, 소형 시티딘 데아미나아제로서, PmCDA1(30-150; W122Q; W139Q), PmCDA1(30-150; W122E; K133E; W139R), PmCDA1(30-150; W122E; K130E; W139R), 그리고 β시트간의 루프 영역(145-150의 영역)을 결실시킨, PmCDA1(30-144; W122E; W139R)을 사용하였다. 또한, Cas9 단백질의 N 말단 단편 및 C 말단 단편과, 소형화 시티딘 데아미나아제(PmCDA1(30-150; W122E; W139Q)) 사이에 링커를 갖는 복합체, 그리고 링커를 갖지 않는 복합체를 사용하여, 복합체의 개변 효율을 검증하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 25 및 도 26에, 결과를 도 27 내지 도 32에 나타낸다. 도 27 내지 도 32로부터, 시티딘 데아미나아제로서 PmCDA1(30-150; W122E; W139Q)을 가지며, 또한 Cas9 단백질의 N 말단 단편 및 C 말단 단편과, 해당 시티딘 데아미나아제와의 사이에 링커를 갖지 않는 복합체에 있어서, 특히 높은 개변 효율이 인정되었다.

실시예 4: 소형화 시티딘 데아미나아제 및 UGI를 갖는 핵산 개변 효소 복합체의 개변 효율의 검증

상기 실시예 2 및 실시예 3에서 높은 개변 효율이 인정된 복합체에 대해서, UGI를 추가로 병용함으로써, 개변 효율이 향상되는지 여부를 검증하였다. 본 실험에서 사용한 컨스트럭트의 개요를 도 33에, 결과를 도 34 및 도 35에 나타낸다. 도 34 및 도 35로부터, 제작한 모든 복합체에 있어서, 개변 효율이 인정되었다.

실시예 5: 핵산 개변 효소 복합체의 오프 타깃 효과의 검증

상기 실시예에서 높은 개변 효율이 인정된 복합체에 대해서, 오프 타깃 효과를 검증하였다. 결과를 도 36 내지 도 41에 나타낸다. 이러한 결과로부터, 제작한 모든 복합체에 있어서, 컨트롤(KN1252_UG1을 사용한 것)과 비교하여 오프 타깃 효과가 현저하게 억제되어 있었다.

실시예 6: 소형의 Cas9(SaCas9)를 사용한 개변의 검증

이어서, 실시예 3의 SpCas9 대신에 SaCas9를 사용하고, 마찬가지로 개변이 인정되는지 여부를 검증하였다. SaCas9 및 소형화 데아미나아제를 사용함으로써 가이드 RNA 발현 카세트(프로모터, gRNA 코드 서열 및 폴리 T 서열로 이루어짐)를 포함하는 핵산 개변 효소 복합체의 발현 카세트를, AAV 벡터에 탑재 가능한 사이즈(약 4.4kb) 이하로 하는 것이 가능해졌다. 코드하는 본 실험에서 사용한 컨스트럭트의 개요를 도 42(핵산 개변 효소 복합체) 및 도 43 상부 도면(가이드 RNA)을, 실험 절차의 개요를 도 43 하부 도면에, 결과를 도 44 및 45에 나타낸다. 도 44 및 도 45로부터, 제작한 모든 복합체에 있어서, 높은 개변 효율이 인정되었다. 또한, 오프 타깃 효과의 억제도 기대된다. 또한, 흥미 깊게도, 데아미나아제의 Cas9 로의 삽입 부분에 의해, 변이가 도입될 확률이 높은 부위가 변동되는 것이 나타났다. 그 때문에, 상기 삽입 부위를 조정함으로써, 변이 도입 부위의 조정도 가능해진다.

실시예 7: PmCDA1의 DNA 결합 영역의 제거와 데아미나아제 활성의 회복

DNA 데아미나아제는, DNA에 고유의 친화성을 가져 비특이적인 탈아미노화를 일으킨다. PmCDA1의 인간 호몰로그인 hAID의 구조로부터, 촉매 코어와는 다른 영역에서 이중쇄 DNA와 복합체를 형성하는 것이 밝혀지고 있다(도 46a). hAID와 PmCDA1의 아미노산 서열로부터, PmCDA1의 잠재적인 DNA 결합 부위는, 단백질의 전체 길이 208 아미노산 중, 21-27 잔기와 172-192 잔기에 위치하고 있었다(도 46a). 예측되는 DNA 결합 영역을 삭제하기 위해서, 먼저, C 말단으로부터 일련의 절단체(1-201, 1-197, 1-190, 1-183, 1-179, 1-176, 1-161)를 만들고, 효모 Saccharomyces cerevisiae(BY4741) 세포로 염기 편집 활성을 시험했다(도 48). 지금까지의 보고에서는, 47 아미노산을 절단한 PmCDA1(1-161)은 효모에 있어서 완전 길이의 PmCDA1(1-208)과 동등한 편집 효율을 나타내는 것이 보고되어 있지만, nCas9의 C 말단에 융합하고, 우라실 DNA 글리코실라아제 저해제(UGI)를 부가하고 있지 않은 것에서는, 절단이 진행됨에 따라서 활성이 서서히 저하되었다. 이어서, nCas9의 N 말단에 융합시킴으로써, 1-161 잔기의 N 말단으로부터 일련의 절단을 행하였다. CDA1(1-161)의 N 말단 절단체에서는, 먼저 활성이 더 저하되었지만, 그 후, 21 및 28 아미노산까지 절단을 진행시켰더니 회복하였다(도 49). CDA1의 예측 구조로부터, N 말단과 C 말단을 동시에 절단함으로써, 단면적이 최소화되어 소수성 잔기의 노출이 적은 매끄러운 단백질 표면이 얻어진다는 것을 알 수 있었다(도 49). 또한, 효소 코어 도메인을 그대로 남기면서, 소수성 표면의 노출을 최소한으로 억제한 최소의 것이라고 예측되는 CDA1(30-150)로 줄였더니(도 46b, 도 49), 활성이 회복되었다(도 49). 이러한 결과는, 그 편집 활성의 변화가, 단백질의 콘포메이션 안정성에 기인하는 것을 시사하고 있다. 또한 그 활성을 향상시키기 위해서, 절단 후에 노출된 소수성 잔기에 일련의 변이를 도입하였다. 먼저 6개의 변이를 시험했더니, W122E가 CDA1(30-150)에 대하여 유의미하게 활성을 획득하는 것을 알 수 있었다(도 50). 또한 7개의 변이를 W122E와 조합하여 시험했더니, 활성이 더욱 향상되는 W133R/Q가 발견되었다(도 50). 이하, W122E와 W133Q를 포함하는 CDA1(30-150)을 tCDA1EQ라고 한다.

이 개변 데아미나아제는, 오리지날인 PmCDA1보다도 DNA로의 친화성이 낮고, 안정성도 낮다고 생각되기 때문에, nCas9 융합 구조가 그 염기 편집 특성에 커다란 영향을 줄 가능성이 있다. nCas9의 말단에 융합되는 것 이외에도, nCas9 폴리펩티드를 분할하고, 단백질의 양쪽 말단을 분할 부위에 융합시킴으로써, 중간에 데아미나아제를 매립할 수 있다. 구조적으로는, Cas9의 RuvC 도메인의 1054 아미노산의 위치는, 유연성이 있는 단백질 표면에 있고, 탈아미노화의 대상이 되는 비표적 DNA 쇄에 가깝다. N 말단에 융합된 tCDA1EQ는, CAN1 어세이로 평가한 표적 부위의 사이에서 편집 효율에 편차가 보였지만, 매립한 것에서는, 오리지날인 Target-AID와 동등한 일관된 편집 효율을 나타냈다(도 46d, 도 51).

비특이적이고 gRNA에 의존하지 않는 오프 타깃 효과를 평가하기 위해서, UGI와 융합시킨 인공적인 복합체에 대해서, 티아리신 내성 변이체의 발생을 측정했다(LYP1 어세이). N 말단 융합형 및 매립형의 tCDA1EQ 복합체는 모두, 오리지날인 Target-AID에 비하여 변이체의 출현율이 대폭 감소(5 내지 79배)하였고(도 47a), gRNA 비의존의 오프 타깃 효과가 대폭으로 저감되어 있다는 것을 알 수 있었다. 이들 N 말단 융합형 및 매립형의 tCDA1EQ 복합체를, 각각 AID-2S(Small and Specific), AID-3S(Small, Specific and Superior)라고 명명하였다.

실시예 8: 포유류 세포에 있어서의 AID-2S 및 AID-3S의 평가

다음으로, 인간 HEK293T 세포에 있어서의 AID-2S와 AID-3S의 편집 효율과 윈도우를 평가하고, 오프 타깃 효과가 저감되어 있다고 보고되어 있는 기존의 개량형 시토신 염기 편집제 YE1, YE2, R33A+K34A와 비교하였다. 잘 연구되어 있는 4개의 온 타깃 부위(HEK2, HEK3, RNF2, VEGFA)를 플라스미드 DNA 벡터의 형질 감염에 의해 편집하고, 엠플리콘 딥 시퀀스에 의해 해석하였다. Target-AID, AID-2S, YE1은, 시험한 4개의 타깃 사이트 모두에 대하여 일관되게 높은 효율을 나타냈다. AID-3S와 YE2는, 타깃 사이트에 의존하여 중간 정도에서 높은 정도의 효율을 나타냈다. R33A+K34A는 HEK3의 타깃 사이트에서는 효율이 나빴다(도 46e). AID-2S의 평균 편집 윈도우 폭은 Target-AID보다도 좁고, YE1이나 YE2와 동일한 정도였다(도 46f).

gRNA에 의존하지 않는 오프 타깃 효과는, HEK293T 세포를 사용한 직교 SaCas9 R-loop 어세이로 평가했다(도 47b). SaCas9의 오프 타깃인 사이트 1 내지 6은, 지금까지의 연구에 기초하여 선택하고, 추가로 사이트 7(VEGFA 유전자좌)은 그 C-rich한 컨텍스트가 CBE에 의한 탈아미노화에 대하여 높은 감수성을 나타낼 가능성이 있기 때문에 선택하였다. Target-AID는 7개의 사이트 모두에서 검출 가능한 오프 타깃 편집을 나타냈지만(도 47c), AID2S는 사이트 1, 3에서 검출 가능한 오프 타깃의 발생은 없고, 사이트 2, 5, 6, 7에서는 오프 타깃 편집이 대폭 감소하여 YE2나 R33A+K34A와 동등한 결과가 되었다. YE1은 사이트 6, 7에서 약간 높은 오프 타깃 편집을 나타냈다. AID-3S는, 7개의 부위에서 가장 낮아 대부분 검출되지 않았다. 이것은, DNA와의 친화성이 상실된 것에 더하여, Cas9가 결합한 DNA쇄 이외로의 효소의 액세스가 입체적으로 제한되어 있는 것에 기인하고 있다고 생각된다. AID-2S 및 -3S는, 오리지날인 Target-AID와 비교하고, R-루프의 오프 타깃 편집을 평균적으로 약 4.5배 및 13.7배 삭감했지만, 온 타깃 편집의 효율은 거의 유지되었다(도 47c, 47d). 효모 LYP1 어세이과 함께 이러한 결과는, AID-2S 및 -3S에서는, 게놈 전체의, gRNA에 의존하지 않는 오프 타깃 효과가 대폭 경감되어 있다는 것을 일관되게 뒷받침하고 있다. 또한, 보고되어 있는 6개의 부위(HEK2_OF1, 2; VEGFA_OF1, 2, 3, 4)의 딥 시퀀싱을 행하여 gRNA 의존성의 오프 타깃 효과를 조사했다(도 47e). AID-2S 및 AID-3S와, YE2 및 R33A+K34A는, 해석한 모든 부위에서 오프 타깃 편집이 대폭 감소되어 있었다.

실시예 9: 시토신 염기 편집 시스템의 최소화

개변 PmCDA1(tCDA1EQ)은 야생형(208 아미노산)에 비하여 사이즈가 대폭으로 작게(121 아미노산)되어 있다. 게놈 편집 컴포넌트로서 분자 사이즈가 작은 것은, 특히 DNA의 길이가 4 내지 5kb로 제한되어 있는 AAV 벡터와 같은 in vivo 딜리버리 툴에 있어서 유리하다. 소형인 SaCas9 시스템을 사용해도, 염기 편집 컴포넌트를 추가하면, 명백하게 사이즈 제한을 초과해 버린다(도 46g). 그래서, AAV 벡터에 탑재 가능한 사이즈로, 필요한 염기 편집 컴포넌트를 모두 포함하는 SaAID-3S를 개발하기 위해서, tCDA1EQ를 폴리뉴클레오티드 결합 크레프트에 면한 HNH 도메인 내의 nSaCas9의 615-616 잔기의 위치에 혼입하였다. 또한, 소형의 Scp1 프로모터와 SpA 터미네이터를 사용하여, 전체 길이 4036bp와 332bp의 gRNA 발현 카세트를 구성하였다. 비교를 위해서, 종래형의 SaCas9판 Target-AID(SaAID)도 개발하였다. 이 SaAID는, 전체 길이의 PmCDA1에 링커, UGI, CMV 프로모터, SV40 터미네이터를 더하여 전체 길이 5220bp로 하고, gRNA 카세트는 더하지 않았다. 벡터의 사이즈에 따라 다른 형질 감염 효율을 정규화하기 위해서, 벡터 백본으로부터 발현시킨 iRFP670의 형광 시그널로 형질 감염한 세포를 선별하였다. 시험한 2개의 표적 부위에 있어서, 양쪽 컨스트럭트는, 변이 윈도우에 차이는 있지만(도 52), 동등한 편집 효율을 나타냈다(도 46h).

오프 타깃으로의 영향을 최소한으로 억제하여, 온 타깃으로의 편집을 견고하게 함으로써, 식물이나 미생물의 육종으로부터 임상 이용까지 폭넓은 응용이 기대된다. AID-3S는, SaCas9 오르토로그에서도 실증되어 있고, 단일 AAV 벡터에 탑재 가능한 동일 사이즈의 최소의 염기 편집 시스템을 제공하여 보다 안전한 유전자 치료로의 응용을 용이하게 하고 있다.

(주기)

이상과 같이, 본 개시의 바람직한 실시 형태를 사용하여 본 개시를 예시해 왔지만, 본 개시는, 특허청구 범위에 의해서만 그 범위가 해석되어야 하는 것이 이해된다. 본 명세서에 있어서 인용한 특허, 특허 출원 및 다른 문헌은, 그 내용 자체가 구체적으로 본 명세서에 기재되어 있는 것과 마찬가지로 그 내용이 본 명세서에 대한 참고로서 원용되어야 하는 것이 이해된다. 본원은, 일본 특허청에 2020년9월 4일에 출원된 일본 특허 출원 제2020-149419에 대하여 우선권 주장을 하는 것이며, 그 내용은 그 전체가 마치 본원의 내용을 구성하는 것과 마찬가지로 참고로서 원용된다.

본 개시에 의해, 종래의 것과 비교하여 소형이고, 개변 효율도 높으며, 또한 오프 타깃 효과가 억제된 이중쇄 DNA 개변용 복합체가 제공된다. 이러한 복합체를 코드하는 핵산은 아데노 수반 바이러스 벡터에도 탑재하여, 표적 부위에 복합체를 딜리버리하는 것도 용이해지기 때문에, 특히 유전자 치료 등의 응용 국면에서 유용해질 수 있다.

SEQUENCE LISTING <110> NATIONAL UNIVERSITY CORPORATION KOBE UNIVERSITY <120> MINIATURIZED CYTIDINE DEAMINASE-CONTAINING COMPLEX FOR MODIFYING DOUBLE-STRANDED DNA <130> BP012PCT <160> 24 <170> PatentIn version 3.5 <210> 1 <211> 208 <212> PRT <213> Petromyzon marinus <400> 1 Met Thr Asp Ala Glu Tyr Val Arg Ile His Glu Lys Leu Asp Ile Tyr 1 5 10 15 Thr Phe Lys Lys Gln Phe Phe Asn Asn Lys Lys Ser Val Ser His Arg 20 25 30 Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg Arg Ala Cys 35 40 45 Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr Glu Arg Gly 50 55 60 Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu Tyr Leu Arg 65 70 75 80 Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser Trp Ser Pro 85 90 95 Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn Gln Glu Leu 100 105 110 Arg Gly Asn Gly His Thr Leu Lys Ile Trp Ala Cys Lys Leu Tyr Tyr 115 120 125 Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Trp Asn Leu Arg Asp Asn 130 135 140 Gly Val Gly Leu Asn Val Met Val Ser Glu His Tyr Gln Cys Cys Arg 145 150 155 160 Lys Ile Phe Ile Gln Ser Ser His Asn Gln Leu Asn Glu Asn Arg Trp 165 170 175 Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg Arg Ser Glu Leu Ser 180 185 190 Ile Met Ile Gln Val Lys Ile Leu His Thr Thr Lys Ser Pro Ala Val 195 200 205 <210> 2 <211> 121 <212> PRT <213> Petromyzon marinus <400> 2 Ser His Arg Cys Tyr Val Leu Phe Glu Leu Lys Arg Arg Gly Glu Arg 1 5 10 15 Arg Ala Cys Phe Trp Gly Tyr Ala Val Asn Lys Pro Gln Ser Gly Thr 20 25 30 Glu Arg Gly Ile His Ala Glu Ile Phe Ser Ile Arg Lys Val Glu Glu 35 40 45 Tyr Leu Arg Asp Asn Pro Gly Gln Phe Thr Ile Asn Trp Tyr Ser Ser 50 55 60 Trp Ser Pro Cys Ala Asp Cys Ala Glu Lys Ile Leu Glu Trp Tyr Asn 65 70 75 80 Gln Glu Leu Arg Gly Asn Gly His Thr Leu Lys Ile Glu Ala Cys Lys 85 90 95 Leu Tyr Tyr Glu Lys Asn Ala Arg Asn Gln Ile Gly Leu Gln Asn Leu 100 105 110 Arg Asp Asn Gly Val Gly Leu Asn Val 115 120 <210> 3 <211> 198 <212> PRT <213> Homo sapiens <400> 3 Met Asp Ser Leu Leu Met Asn Arg Arg Lys Phe Leu Tyr Gln Phe Lys 1 5 10 15 Asn Val Arg Trp Ala Lys Gly Arg Arg Glu Thr Tyr Leu Cys Tyr Val 20 25 30 Val Lys Arg Arg Asp Ser Ala Thr Ser Phe Ser Leu Asp Phe Gly Tyr 35 40 45 Leu Arg Asn Lys Asn Gly Cys His Val Glu Leu Leu Phe Leu Arg Tyr 50 55 60 Ile Ser Asp Trp Asp Leu Asp Pro Gly Arg Cys Tyr Arg Val Thr Trp 65 70 75 80 Phe Thr Ser Trp Ser Pro Cys Tyr Asp Cys Ala Arg His Val Ala Asp 85 90 95 Phe Leu Arg Gly Asn Pro Asn Leu Ser Leu Arg Ile Phe Thr Ala Arg 100 105 110 Leu Tyr Phe Cys Glu Asp Arg Lys Ala Glu Pro Glu Gly Leu Arg Arg 115 120 125 Leu His Arg Ala Gly Val Gln Ile Ala Ile Met Thr Phe Lys Asp Tyr 130 135 140 Phe Tyr Cys Trp Asn Thr Phe Val Glu Asn His Glu Arg Thr Phe Lys 145 150 155 160 Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln Leu 165 170 175 Arg Arg Ile Leu Leu Pro Leu Tyr Glu Val Asp Asp Leu Arg Asp Ala 180 185 190 Phe Arg Thr Leu Gly Leu 195 <210> 4 <211> 1368 <212> PRT <213> Streptococcus pyogenes <400> 4 Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val 1 5 10 15 Gly Trp Ala Val Ile Thr Asp Asp Tyr Lys Val Pro Ser Lys Lys Phe 20 25 30 Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile 35 40 45 Gly Ala Leu Leu Phe Asp Ser Gly Glu Ile Ala Glu Ala Thr Arg Leu 50 55 60 Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys 65 70 75 80 Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser 85 90 95 Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys 100 105 110 His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr 115 120 125 His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp 130 135 140 Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His 145 150 155 160 Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro 165 170 175 Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr 180 185 190 Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala 195 200 205 Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn 210 215 220 Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn 225 230 235 240 Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe 245 250 255 Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp 260 265 270 Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp 275 280 285 Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp 290 295 300 Ile Leu Arg Leu Asn Ser Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser 305 310 315 320 Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys 325 330 335 Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe 340 345 350 Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser 355 360 365 Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp 370 375 380 Gly Thr Glu Glu Leu Leu Ala Lys Leu Asn Arg Lys Asp Leu Leu Arg 385 390 395 400 Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu 405 410 415 Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe 420 425 430 Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile 435 440 445 Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp 450 455 460 Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu 465 470 475 480 Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr 485 490 495 Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser 500 505 510 Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys 515 520 525 Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln 530 535 540 Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr 545 550 555 560 Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp 565 570 575 Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly 580 585 590 Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp 595 600 605 Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr 610 615 620 Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala 625 630 635 640 His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr 645 650 655 Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 660 665 670 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe 675 680 685 Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe 690 695 700 Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 705 710 715 720 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly 725 730 735 Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly 740 745 750 Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln 755 760 765 Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 770 775 780 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro 785 790 795 800 Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 805 810 815 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg 820 825 830 Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Ile Lys 835 840 845 Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg 850 855 860 Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys 865 870 875 880 Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys 885 890 895 Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 900 905 910 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr 915 920 925 Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 930 935 940 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 945 950 955 960 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg 965 970 975 Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val 980 985 990 Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe 995 1000 1005 Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Leu Ala 1010 1015 1020 Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe 1025 1030 1035 Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala 1040 1045 1050 Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu 1055 1060 1065 Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val 1070 1075 1080 Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr 1085 1090 1095 Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys 1100 1105 1110 Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro 1115 1120 1125 Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val 1130 1135 1140 Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys 1145 1150 1155 Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser 1160 1165 1170 Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys 1175 1180 1185 Glu Val Arg Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu 1190 1195 1200 Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly 1205 1210 1215 Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val 1220 1225 1230 Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser 1235 1240 1245 Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys 1250 1255 1260 His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys 1265 1270 1275 Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala 1280 1285 1290 Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn 1295 1300 1305 Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Thr Ala 1310 1315 1320 Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser 1325 1330 1335 Thr Lys Glu Val Leu Asp Ala Thr Phe Ile His Gln Ser Ile Thr 1340 1345 1350 Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp 1355 1360 1365 <210> 5 <211> 1053 <212> PRT <213> Staphylococcus aureus <400> 5 Met Lys Arg Asn Tyr Ile Leu Gly Leu Asp Ile Gly Ile Thr Ser Val 1 5 10 15 Gly Tyr Gly Ile Ile Asp Tyr Glu Thr Arg Asp Val Ile Asp Ala Gly 20 25 30 Val Arg Leu Phe Lys Glu Ala Asn Val Glu Asn Asn Glu Gly Arg Arg 35 40 45 Ser Lys Arg Gly Ala Arg Arg Leu Lys Arg Arg Arg Arg His Arg Ile 50 55 60 Gln Arg Val Lys Lys Leu Leu Phe Asp Tyr Asn Leu Leu Thr Asp His 65 70 75 80 Ser Glu Leu Ser Gly Ile Asn Pro Tyr Glu Ala Arg Val Lys Gly Leu 85 90 95 Ser Gln Lys Leu Ser Glu Glu Glu Phe Ser Ala Ala Leu Leu His Leu 100 105 110 Ala Lys Arg Arg Gly Val His Asn Val Asn Glu Val Glu Glu Asp Thr 115 120 125 Gly Asn Glu Leu Ser Thr Lys Glu Gln Ile Ser Arg Asn Ser Lys Ala 130 135 140 Leu Glu Glu Lys Tyr Val Ala Glu Leu Gln Leu Glu Arg Leu Lys Lys 145 150 155 160 Asp Gly Glu Val Arg Gly Ser Ile Asn Arg Phe Lys Thr Ser Asp Tyr 165 170 175 Val Lys Glu Ala Lys Gln Leu Leu Lys Val Gln Lys Ala Tyr His Gln 180 185 190 Leu Asp Gln Ser Phe Ile Asp Thr Tyr Ile Asp Leu Leu Glu Thr Arg 195 200 205 Arg Thr Tyr Tyr Glu Gly Pro Gly Glu Gly Ser Pro Phe Gly Trp Lys 210 215 220 Asp Ile Lys Glu Trp Tyr Glu Met Leu Met Gly His Cys Thr Tyr Phe 225 230 235 240 Pro Glu Glu Leu Arg Ser Val Lys Tyr Ala Tyr Asn Ala Asp Leu Tyr 245 250 255 Asn Ala Leu Asn Asp Leu Asn Asn Leu Val Ile Thr Arg Asp Glu Asn 260 265 270 Glu Lys Leu Glu Tyr Tyr Glu Lys Phe Gln Ile Ile Glu Asn Val Phe 275 280 285 Lys Gln Lys Lys Lys Pro Thr Leu Lys Gln Ile Ala Lys Glu Ile Leu 290 295 300 Val Asn Glu Glu Asp Ile Lys Gly Tyr Arg Val Thr Ser Thr Gly Lys 305 310 315 320 Pro Glu Phe Thr Asn Leu Lys Val Tyr His Asp Ile Lys Asp Ile Thr 325 330 335 Ala Arg Lys Glu Ile Ile Glu Asn Ala Glu Leu Leu Asp Gln Ile Ala 340 345 350 Lys Ile Leu Thr Ile Tyr Gln Ser Ser Glu Asp Ile Gln Glu Glu Leu 355 360 365 Thr Asn Leu Asn Ser Glu Leu Thr Gln Glu Glu Ile Glu Gln Ile Ser 370 375 380 Asn Leu Lys Gly Tyr Thr Gly Thr His Asn Leu Ser Leu Lys Ala Ile 385 390 395 400 Asn Leu Ile Leu Asp Glu Leu Trp His Thr Asn Asp Asn Gln Ile Ala 405 410 415 Ile Phe Asn Arg Leu Lys Leu Val Pro Lys Lys Val Asp Leu Ser Gln 420 425 430 Gln Lys Glu Ile Pro Thr Thr Leu Val Asp Asp Phe Ile Leu Ser Pro 435 440 445 Val Val Lys Arg Ser Phe Ile Gln Ser Ile Lys Val Ile Asn Ala Ile 450 455 460 Ile Lys Lys Tyr Gly Leu Pro Asn Asp Ile Ile Ile Glu Leu Ala Arg 465 470 475 480 Glu Lys Asn Ser Lys Asp Ala Gln Lys Met Ile Asn Glu Met Gln Lys 485 490 495 Arg Asn Arg Gln Thr Asn Glu Arg Ile Glu Glu Ile Ile Arg Thr Thr 500 505 510 Gly Lys Glu Asn Ala Lys Tyr Leu Ile Glu Lys Ile Lys Leu His Asp 515 520 525 Met Gln Glu Gly Lys Cys Leu Tyr Ser Leu Glu Ala Ile Pro Leu Glu 530 535 540 Asp Leu Leu Asn Asn Pro Phe Asn Tyr Glu Val Asp His Ile Ile Pro 545 550 555 560 Arg Ser Val Ser Phe Asp Asn Ser Phe Asn Asn Lys Val Leu Val Lys 565 570 575 Gln Glu Glu Asn Ser Lys Lys Gly Asn Arg Thr Pro Phe Gln Tyr Leu 580 585 590 Ser Ser Ser Asp Ser Lys Ile Ser Tyr Glu Thr Phe Lys Lys His Ile 595 600 605 Leu Asn Leu Ala Lys Gly Lys Gly Arg Ile Ser Lys Thr Lys Lys Glu 610 615 620 Tyr Leu Leu Glu Glu Arg Asp Ile Asn Arg Phe Ser Val Gln Lys Asp 625 630 635 640 Phe Ile Asn Arg Asn Leu Val Asp Thr Arg Tyr Ala Thr Arg Gly Leu 645 650 655 Met Asn Leu Leu Arg Ser Tyr Phe Arg Val Asn Asn Leu Asp Val Lys 660 665 670 Val Lys Ser Ile Asn Gly Gly Phe Thr Ser Phe Leu Arg Arg Lys Trp 675 680 685 Lys Phe Lys Lys Glu Arg Asn Lys Gly Tyr Lys His His Ala Glu Asp 690 695 700 Ala Leu Ile Ile Ala Asn Ala Asp Phe Ile Phe Lys Glu Trp Lys Lys 705 710 715 720 Leu Asp Lys Ala Lys Lys Val Met Glu Asn Gln Met Phe Glu Glu Lys 725 730 735 Gln Ala Glu Ser Met Pro Glu Ile Glu Thr Glu Gln Glu Tyr Lys Glu 740 745 750 Ile Phe Ile Thr Pro His Gln Ile Lys His Ile Lys Asp Phe Lys Asp 755 760 765 Tyr Lys Tyr Ser His Arg Val Asp Lys Lys Pro Asn Arg Glu Leu Ile 770 775 780 Asn Asp Thr Leu Tyr Ser Thr Arg Lys Asp Asp Lys Gly Asn Thr Leu 785 790 795 800 Ile Val Asn Asn Leu Asn Gly Leu Tyr Asp Lys Asp Asn Asp Lys Leu 805 810 815 Lys Lys Leu Ile Asn Lys Ser Pro Glu Lys Leu Leu Met Tyr His His 820 825 830 Asp Pro Gln Thr Tyr Gln Lys Leu Lys Leu Ile Met Glu Gln Tyr Gly 835 840 845 Asp Glu Lys Asn Pro Leu Tyr Lys Tyr Tyr Glu Glu Thr Gly Asn Tyr 850 855 860 Leu Thr Lys Tyr Ser Lys Lys Asp Asn Gly Pro Val Ile Lys Lys Ile 865 870 875 880 Lys Tyr Tyr Gly Asn Lys Leu Asn Ala His Leu Asp Ile Thr Asp Asp 885 890 895 Tyr Pro Asn Ser Arg Asn Lys Val Val Lys Leu Ser Leu Lys Pro Tyr 900 905 910 Arg Phe Asp Val Tyr Leu Asp Asn Gly Val Tyr Lys Phe Val Thr Val 915 920 925 Lys Asn Leu Asp Val Ile Lys Lys Glu Asn Tyr Tyr Glu Val Asn Ser 930 935 940 Lys Cys Tyr Glu Glu Ala Lys Lys Leu Lys Lys Ile Ser Asn Gln Ala 945 950 955 960 Glu Phe Ile Ala Ser Phe Tyr Asn Asn Asp Leu Ile Lys Ile Asn Gly 965 970 975 Glu Leu Tyr Arg Val Ile Gly Val Asn Asn Asp Leu Leu Asn Arg Ile 980 985 990 Glu Val Asn Met Ile Asp Ile Thr Tyr Arg Glu Tyr Leu Glu Asn Met 995 1000 1005 Asn Asp Lys Arg Pro Pro Arg Ile Ile Lys Thr Ile Ala Ser Lys 1010 1015 1020 Thr Gln Ser Ile Lys Lys Tyr Ser Thr Asp Ile Leu Gly Asn Leu 1025 1030 1035 Tyr Glu Val Lys Ser Lys Lys His Pro Gln Ile Ile Lys Lys Gly 1040 1045 1050 <210> 6 <211> 83 <212> DNA <213> Streptococcus pyogenes <400> 6 gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60 ggcaccgagt cggtgctttt ttt 83 <210> 7 <211> 83 <212> DNA <213> Staphylococcus aureus <400> 7 gttttagtac tctggaaaca gaatctacta aaacaaggca aaatgccgtg tttatctcgt 60 caacttgttg gcgagatttt ttt 83 <210> 8 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> target sequence of gRNA (vector 1086) <400> 8 gcccagttgg attccgttat 20 <210> 9 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> target sequence of gRNA (vector 1150) <400> 9 ctccaataac ggaatccaac 20 <210> 10 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> target sequence of gRNA (vector 1025) <400> 10 gatacgttct ctatggagga 20 <210> 11 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> target sequence of gRNA (vector 1149) <400> 11 tccaataacg gaatccaact 20 <210> 12 <211> 11741 <212> DNA <213> Artificial Sequence <220> <223> full-length sequence of vector pAL008 <220> <221> rep_origin <222> (70)..(573) <223> CEN/ARS <220> <221> promoter <222> (610)..(714) <223> AmpR promoter <220> <221> gene <222> (715)..(1575) <223> AmpR <220> <221> rep_origin <222> (1746)..(2334) <223> ori <220> <221> promoter <222> (2658)..(2688) <223> lac promoter <220> <221> misc_feature <222> (2696)..(2712) <220> <221> promoter <222> (2853)..(3517) <223> GAL1,10 promoter <220> <221> gene <222> (3527)..(4150) <223> PmCDA1 <220> <221> mutation <222> (3950)..(3955) <223> H130A R131E <220> <221> mutation <222> (3992)..(3994) <223> Y146E for solubility <220> <221> mutation <222> (4010)..(4150) <223> truncated 161 <220> <221> mutation <222> (4055)..(4150) <223> truncated 176 <220> <221> gene <222> (4163)..(8254) <223> Cas9(D10A) <220> <221> sig_peptide <222> (8267)..(8287) <223> SV40 NLS <220> <221> terminator <222> (8321)..(8508) <223> ADH1 terminator <220> <221> rep_origin <222> (8813)..(9268) <223> f1 ori <220> <221> promoter <222> (9568)..(9972) <223> LEU2 promoter <220> <221> gene <222> (9985)..(11079) <223> LEU2 <400> 12 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 60 cttaggacgg atcgcttgcc tgtaacttac acgcgcctcg tatcttttaa tgatggaata 120 atttgggaat ttactctgtg tttatttatt tttatgtttt gtatttggat tttagaaagt 180 aaataaagaa ggtagaagag ttacggaatg aagaaaaaaa aataaacaaa ggtttaaaaa 240 atttcaacaa aaagcgtact ttacatatat atttattaga caagaaaagc agattaaata 300 gatatacatt cgattaacga taagtaaaat gtaaaatcac aggattttcg tgtgtggtct 360 tctacacaga caagatgaaa caattcggca ttaatacctg agagcaggaa gagcaagata 420 aaaggtagta tttgttggcg atccccctag agtcttttac atcttcggaa aacaaaaact 480 attttttctt taatttcttt ttttactttc tatttttaat ttatatattt atattaaaaa 540 atttaaatta taattatttt tatagcacgt gatgaaaagg acccaggtgg cacttttcgg 600 ggaaatgtgc gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg 660 ctcatgagac aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt 720 attcaacatt tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt 780 gctcacccag aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg 840 ggttacatcg aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa 900 cgttttccaa tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt 960 gacgccgggc aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag 1020 tactcaccag tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt 1080 gctgccataa ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga 1140 ccgaaggagc taaccgcttt ttttcacaac atgggggatc atgtaactcg ccttgatcgt 1200 tgggaaccgg agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta 1260 gcaatggcaa caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg 1320 caacaattaa tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc 1380 cttccggctg gctggtttat tgctgataaa tctggagccg gtgagcgtgg gtctcgcggt 1440 atcattgcag cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg 1500 ggcagtcagg caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg 1560 attaagcatt ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa 1620 cttcattttt aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa 1680 atcccttaac gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga 1740 tcttcttgag atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg 1800 ctaccagcgg tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact 1860 ggcttcagca gagcgcagat accaaatact gtccttctag tgtagccgta gttaggccac 1920 cacttcaaga actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg 1980 gctgctgcca gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg 2040 gataaggcgc agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga 2100 acgacctaca ccgaactgag atacctacag cgtgagcatt gagaaagcgc cacgcttccc 2160 gaagggagaa aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg 2220 agggagcttc caggggggaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc 2280 tgacttgagc gtcgattttt gtgatgctcg tcaggggggc cgagcctatg gaaaaacgcc 2340 agcaacgcgg cctttttacg gttcctggcc ttttgctggc cttttgctca catgttcttt 2400 cctgcgttat cccctgattc tgtggataac cgtattaccg cctttgagtg agctgatacc 2460 gctcgccgca gccgaacgac cgagcgcagc gagtcagtga gcgaggaagc ggaagagcgc 2520 ccaatacgca aaccgcctct ccccgcgcgt tggccgattc attaatgcag ctggcacgac 2580 aggtttcccg actggaaagc gggcagtgag cgcaacgcaa ttaatgtgag ttacctcact 2640 cattaggcac cccaggcttt acactttatg cttccggctc ctatgttgtg tggaattgtg 2700 agcggataac aatttcacac aggaaacagc tatgaccatg attacgccaa gctcggaatt 2760 aaccctcact aaagggaaca aaagctgggt accgggcccg aattctctcc ttctcttagg 2820 tggcagagca ggtggagggt cgaccatact agtttcaaaa attcttactt tttttttgga 2880 tggacgcaaa gaagtttaat aatcatatta catggcatta ccaccatata catatccata 2940 tacatatcca tatctaatct tacttatatg ttgtggaaat gtaaagagcc ccattatctt 3000 agcctaaaaa aaccttctct ttggaacttt cagtaatacg cttaactgct cattgctata 3060 ttgaagtacg gattagaagc cgccgagcgg gtgacagccc tccgaaggaa gactctcctc 3120 cgtgcgtcct cgtcttcacc ggtcgcgttc ctgaaacgca gatgtgcctc gcgccgcact 3180 gctccgaaca ataaagattc tacaatacta gcttttatgg ttatgaagag gaaaaattgg 3240 cagtaacctg gccccacaaa ccttcaaatg aacgaatcaa attaacaacc ataggatgat 3300 aatgcgatta gttttttagc cttatttctg gggtaattaa tcagcgaagc gatgattttt 3360 gatctattaa cagatatata aatgcaaaaa ctgcataacc actttaacta atactttcaa 3420 cattttcggt ttgtattact tcttattcaa atgtaataaa agtatcaaca aaaaattgtt 3480 aatatacctc tatactttaa cgtcaaggag aaaaaaccgc tcttcgatga ccgacgctga 3540 gtacgtgaga atccatgaga agttggacat ctacacgttt aagaaacagt ttttcaacaa 3600 caaaaaatcc gtgtcgcata gatgctacgt tctctttgaa ttaaaacgac ggggtgaacg 3660 tagagcgtgt ttttggggct atgctgtgaa taaaccacag agcgggacag aacgtggcat 3720 tcacgccgaa atctttagca ttagaaaagt cgaagaatac ctgcgcgaca accccggaca 3780 attcacgata aattggtact catcctggag tccttgtgca gattgcgctg aaaagatctt 3840 agaatggtat aaccaggagc tgcgggggaa cggccacact ttgaaaatct gggcttgcaa 3900 actctattac gagaaaaatg cgaggaatca aattgggctg tggaacctca gagataacgg 3960 ggttgggttg aatgtaatgg taagtgaaca ctaccaatgt tgcaggaaaa tattcatcca 4020 atcgtcgcac aatcaattga atgagaatag atggcttgag aagactttga agcgagctga 4080 aaaacgacgg agcgagttgt ccattatgat tcaggtaaaa atactccaca ccactaagag 4140 tcctgctgtt atggacaaga agtactccat tgggctcgct atcggcacaa acagcgtcgg 4200 ttgggccgtc attacggacg agtacaaggt gccgagcaaa aaattcaaag ttctgggcaa 4260 taccgatcgc cacagcataa agaagaacct cattggcgcc ctcctgttcg actccgggga 4320 gacggccgaa gccacgcggc tcaaaagaac agcacggcgc agatataccc gcagaaagaa 4380 tcggatctgc tacctgcagg agatctttag taatgagatg gctaaggtgg atgactcttt 4440 cttccatagg ctggaggagt cctttttggt ggaggaggat aaaaagcacg agcgccaccc 4500 aatctttggc aatatcgtgg acgaggtggc gtaccatgaa aagtacccaa ccatatatca 4560 tctgaggaag aagcttgtag acagtactga taaggctgac ttgcggttga tctatctcgc 4620 gctggcgcat atgatcaaat ttcggggaca cttcctcatc gagggggacc tgaacccaga 4680 caacagcgat gtcgacaaac tctttatcca actggttcag acttacaatc agcttttcga 4740 agagaacccg atcaacgcat ccggagttga cgccaaagca atcctgagcg ctaggctgtc 4800 caaatcccgg cggctcgaaa acctcatcgc acagctccct ggggagaaga agaacggcct 4860 gtttggtaat cttatcgccc tgtcactcgg gctgaccccc aactttaaat ctaacttcga 4920 cctggccgaa gatgccaagc ttcaactgag caaagacacc tacgatgatg atctcgacaa 4980 tctgctggcc cagatcggcg accagtacgc agaccttttt ttggcggcaa agaacctgtc 5040 agacgccatt ctgctgagtg atattctgcg agtgaacacg gagatcacca aagctccgct 5100 gagcgctagt atgatcaagc gctatgatga gcaccaccaa gacttgactt tgctgaaggc 5160 ccttgtcaga cagcaactgc ctgagaagta caaggaaatt ttcttcgatc agtctaaaaa 5220 tggctacgcc ggatacattg acggcggagc aagccaggag gaattttaca aatttattaa 5280 gcccatcttg gaaaaaatgg acggcaccga ggagctgctg gtaaagctta acagagaaga 5340 tctgttgcgc aaacagcgca ctttcgacaa tggaagcatc ccccaccaga ttcacctggg 5400 cgaactgcac gctatcctca ggcggcaaga ggatttctac ccctttttga aagataacag 5460 ggaaaagatt gagaaaatcc tcacatttcg gataccctac tatgtaggcc ccctcgcccg 5520 gggaaattcc agattcgcgt ggatgactcg caaatcagaa gagaccatca ctccctggaa 5580 cttcgaggaa gtcgtggata agggggcctc tgcccagtcc ttcatcgaaa ggatgactaa 5640 ctttgataaa aatctgccta acgaaaaggt gcttcctaaa cactctctgc tgtacgagta 5700 cttcacagtt tataacgagc tcaccaaggt caaatacgtc acagaaggga tgagaaagcc 5760 agcattcctg tctggagagc agaagaaagc tatcgtggac ctcctcttca agacgaaccg 5820 gaaagttacc gtgaaacagc tcaaagaaga ctatttcaaa aagattgaat gtttcgactc 5880 tgttgaaatc agcggagtgg aggatcgctt caacgcatcc ctgggaacgt atcacgatct 5940 cctgaaaatc attaaagaca aggacttcct ggacaatgag gagaacgagg acattcttga 6000 ggacattgtc ctcaccctta cgttgtttga agatagggag atgattgaag aacgcttgaa 6060 aacttacgct catctcttcg acgacaaagt catgaaacag ctcaagaggc gccgatatac 6120 aggatggggg cggctgtcaa gaaaactgat caatgggatc cgagacaagc agagtggaaa 6180 gacaatcctg gattttctta agtccgatgg atttgccaac cggaacttca tgcagttgat 6240 ccatgatgac tctctcacct ttaaggagga catccagaaa gcacaagttt ctggccaggg 6300 ggacagtctt cacgagcaca tcgctaatct tgcaggtagc ccagctatca aaaagggaat 6360 actgcagacc gttaaggtcg tggatgaact cgtcaaagta atgggaaggc ataagcccga 6420 gaatatcgtt atcgagatgg cccgagagaa ccaaactacc cagaagggac agaagaacag 6480 tagggaaagg atgaagagga ttgaagaggg tataaaagaa ctggggtccc aaatccttaa 6540 ggaacaccca gttgaaaaca cccagcttca gaatgagaag ctctacctgt actacctgca 6600 gaacggcagg gacatgtacg tggatcagga actggacatc aatcggctct ccgactacga 6660 cgtggatcat atcgtgcccc agtcttttct caaagatgat tctattgata ataaagtgtt 6720 gacaagatcc gataaaaata gagggaagag tgataacgtc ccctcagaag aagttgtcaa 6780 gaaaatgaaa aattattggc ggcagctgct gaacgccaaa ctgatcacac aacggaagtt 6840 cgataatctg actaaggctg aacgaggtgg cctgtctgag ttggataaag ccggcttcat 6900 caaaaggcag cttgttgaga cacgccagat caccaagcac gtggcccaaa ttctcgattc 6960 acgcatgaac accaagtacg atgaaaatga caaactgatt cgagaggtga aagttattac 7020 tctgaagtct aagctggtct cagatttcag aaaggacttt cagttttata aggtgagaga 7080 gatcaacaat taccaccatg cgcatgatgc ctacctgaat gcagtggtag gcactgcact 7140 tatcaaaaaa tatcccaagc ttgaatctga atttgtttac ggagactata aagtgtacga 7200 tgttaggaaa atgatcgcaa agtctgagca ggaaataggc aaggccaccg ctaagtactt 7260 cttttacagc aatattatga attttttcaa gaccgagatt acactggcca atggagagat 7320 tcggaagcga ccacttatcg aaacaaacgg agaaacagga gaaatcgtgt gggacaaggg 7380 tagggatttc gcgacagtcc ggaaggtcct gtccatgccg caggtgaaca tcgttaaaaa 7440 gaccgaagta cagaccggag gcttctccaa ggaaagtatc ctcccgaaaa ggaacagcga 7500 caagctgatc gcacgcaaaa aagattggga ccccaagaaa tacggcggat tcgattctcc 7560 tacagtcgct tacagtgtac tggttgtggc caaagtggag aaagggaagt ctaaaaaact 7620 caaaagcgtc aaggaactgc tgggcatcac aatcatggag cgatcaagct tcgaaaaaaa 7680 ccccatcgac tttctcgagg cgaaaggata taaagaggtc aaaaaagacc tcatcattaa 7740 gcttcccaag tactctctct ttgagcttga aaacggccgg aaacgaatgc tcgctagtgc 7800 gggcgagctg cagaaaggta acgagctggc actgccctct aaatacgtta atttcttgta 7860 tctggccagc cactatgaaa agctcaaagg gtctcccgaa gataatgagc agaagcagct 7920 gttcgtggaa caacacaaac actaccttga tgagatcatc gagcaaataa gcgaattctc 7980 caaaagagtg atcctcgccg acgctaacct cgataaggtg ctttctgctt acaataagca 8040 cagggataag cccatcaggg agcaggcaga aaacattatc cacttgttta ctctgaccaa 8100 cttgggcgcg cctgcagcct tcaagtactt cgacaccacc atagacagaa agcggtacac 8160 ctctacaaag gaggtcctgg acgccacact gattcatcag tcaattacgg ggctctatga 8220 aacaagaatc gacctctctc agctcggtgg agacagcagg gctgacccca agaagaagag 8280 gaaggtgtag tctagaggct ccggataagg atcctaataa gcgaatttct tatgatttat 8340 gatttttatt attaaataag ttataaaaaa aataagtgta tacaaatttt aaagtgactc 8400 ttaggtttta aaacgaaaat tcttattctt gagtaactct ttcctgtagg tcaggttgct 8460 ttctcaggta tagcatgagg tcgctcttat tgaccacacc tctaccggca tgccgagcaa 8520 atgcctgcaa atcgctcccg ggcaaaaaac cccctcaaga cccgtttaga ggccccaagg 8580 ggttatgcta tgcataccaa gcttccgcgg tggagctcca attcgcccta tagtgagtcg 8640 tattacaatt cactggccgt cgttttacaa cgtcgtgact gggaaaaccc tggcgttacc 8700 caacttaatc gccttgcagc acatcccccc ttcgccagct ggcgtaatag cgaagaggcc 8760 cgcaccgatc gcccttccca acagttgcgc agcctgaatg gcgaatggcg cgacgcgccc 8820 tgtagcggcg cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt 8880 gccagcgccc tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc 8940 ggctttcccc gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta 9000 cggcacctcg accccaaaaa acttgattag ggtgatggtt cacgtagtgg gccatcgccc 9060 tgatagacgg tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg 9120 ttccaaactg gaacaacact caaccctatc tcggtctatt cttttgattt ataagggatt 9180 ttgccgattt cggcctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat 9240 tttaacaaaa tattaacgtt tacaatttcc tgatgcggta ttttctcctt acgcatctgt 9300 gcggtatttc acaccgcata tcgaccctcg aggagaactt ctagtatatc cacataccta 9360 atattattgc cttattaaaa atggaatcgg aacaattaca tcaaaatcca cattctcttc 9420 aaaatcaatt gtcctgtact tccttgttca tgtgtgttca aaaacgttat atttatagga 9480 taattatact ctatttctca acaagtaatt ggttgtttgg ccgagcggtc taaggcgcct 9540 gattcaagaa atatcttgac cgcagttaac tgtgggaata ctcaggtatc gtaagatgca 9600 agagttcgaa tctcttagca accattattt ttttcctcaa cataacgaga acacacaggg 9660 gcgctatcgc acagaatcaa attcgatgac tggaaatttt ttgttaattt cagaggtcgc 9720 ctgacgcata tacctttttc aactgaaaaa ttgggagaaa aaggaaaggt gagaggccgg 9780 aaccggcttt tcatatagaa tagagaagcg ttcatgacta aatgcttgca tcacaatact 9840 tgaagttgac aatattattt aaggacctat tgttttttcc aataggtggt tagcaatcgt 9900 cttactttct aacttttctt accttttaca tttcagcaat atatatatat atttcaagga 9960 tataccattc taatgtctgc ccctatgtct gcccctaaga agatcgtcgt tttgccaggt 10020 gaccacgttg gtcaagaaat cacagccgaa gccattaagg ttcttaaagc tatttctgat 10080 gttcgttcca atgtcaagtt cgatttcgaa aatcatttaa ttggtggtgc tgctatcgat 10140 gctacaggtg tcccacttcc agatgaggcg ctggaagcct ccaagaaggt tgatgccgtt 10200 ttgttaggtg ctgtgggtgg tcctaaatgg ggtaccggta gtgttagacc tgaacaaggt 10260 ttactaaaaa tccgtaaaga acttcaattg tacgccaact taagaccatg taactttgca 10320 tccgactctc ttttagactt atctccaatc aagccacaat ttgctaaagg tactgacttc 10380 gttgttgtca gagaattagt gggaggtatt tactttggta agagaaagga agacgatggt 10440 gatggtgtcg cttgggatag tgaacaatac accgttccag aagtgcaaag aatcacaaga 10500 atggccgctt tcatggccct acaacatgag ccaccattgc ctatttggtc cttggataaa 10560 gctaatgttt tggcctcttc aagattatgg agaaaaactg tggaggaaac catcaagaac 10620 gaattcccta cattgaaggt tcaacatcaa ttgattgatt ctgccgccat gatcctagtt 10680 aagaacccaa cccacctaaa tggtattata atcaccagca acatgtttgg tgatatcatc 10740 tccgatgaag cctccgttat cccaggttcc ttgggtttgt tgccatctgc gtccttggcc 10800 tctttgccag acaagaacac cgcatttggt ttgtacgaac catgccacgg ttctgctcca 10860 gatttgccaa agaataaggt tgaccctatc gccactatct tgtctgctgc aatgatgttg 10920 aaattgtcat tgaacttgcc tgaagaaggt aaggccattg aagatgcagt taaaaaggtt 10980 ttggatgcag gtatcagaac tggtgattta ggtggttcca acagtaccac cgaagtcggt 11040 gatgctgtcg ccgaagaagt taagaaaatc cttgcttaaa aagattctct ttttttatga 11100 tatttgtaca taaactttat aaatgaaatt cataatagaa acgacacgaa attacaaaat 11160 ggaatatgtt catagggtag acgaaactat atacgcaatc tacatacatt tatcaagaag 11220 gagaaaaagg aggatagtaa aggaatacag gtaagcaaat tgatactaat ggctcaacgt 11280 gataaggaaa aagaattgca ctttaacatt aatattgaca aggaggaggg caccacacaa 11340 aaagttaggt gtaacagaaa atcatgaaac tacgattcct aatttgatat tggaggattt 11400 tctctaaaaa aaaaaaaata caacaaataa aaaacactca atgacctgac catttgatgg 11460 agtttaagtc aataccttct tgaaccattt cccataatgg tgaaagttcc ctcaagaatt 11520 ttactctgtc agaaacggcc ttacgacgta gtcgatatgg tgcactctca gtacaatctg 11580 ctctgatgcc gcatagttaa gccagccccg acacccgcca acacccgctg acgcgccctg 11640 acgggcttgt ctgctcccgg catccgctta cagacaagct gtgaccgtct ccgggagctg 11700 catgtgtcag aggttttcac cgtcatcacc gaaacgcgcg a 11741 <210> 13 <211> 11575 <212> DNA <213> Artificial Sequence <220> <223> full-length sequence of vector pAL022 <220> <221> rep_origin <222> (70)..(573) <223> CEN/ARS <220> <221> promoter <222> (610)..(714) <223> AmpR promoter <220> <221> gene <222> (715)..(1575) <223> AmpR <220> <221> rep_origin <222> (1746)..(2334) <223> ori <220> <221> promoter <222> (2658)..(2688) <223> lac promoter <220> <221> misc_feature <222> (2696)..(2712) <223> lac operator <220> <221> promoter <222> (2852)..(3516) <223> GAL1,10 promoter <220> <221> misc_feature <222> (3068)..(3185) <223> UAS <220> <221> gene <222> (3532)..(3894) <223> PmCDA1 <220> <221> mutation <222> (3820)..(3822) <223> Expsose N (V150 Y128 interaction) <220> <221> mutation <222> (3826)..(3828) <223> Expose Q (V150 L126 interaction) <220> <221> mutation <222> (3868)..(3873) <223> H130A R131E <220> <221> mutation <222> (3892)..(3894) <223> Expose T (L126 Y128 interaction) <220> <221> misc_feature <222> (3895)..(3984) <223> 6xGS Linker <220> <221> gene <222> (3985)..(8088) <223> Cas9(D10A) <220> <221> mutation <222> (3985)..(3986) <223> truncated 161 <220> <221> sig_peptide <222> (8101)..(8121) <223> SV40 NLS <220> <221> terminator <222> (8155)..(8342) <223> ADH1 terminator <220> <221> rep_origin <222> (8647)..(9102) <223> f1 ori <220> <221> promoter <222> (9402)..(9806) <223> LEU2 promoter <220> <221> gene <222> (9819)..(10913) <223> LEU2 <400> 13 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 60 cttaggacgg atcgcttgcc tgtaacttac acgcgcctcg tatcttttaa tgatggaata 120 atttgggaat ttactctgtg tttatttatt tttatgtttt gtatttggat tttagaaagt 180 aaataaagaa ggtagaagag ttacggaatg aagaaaaaaa aataaacaaa ggtttaaaaa 240 atttcaacaa aaagcgtact ttacatatat atttattaga caagaaaagc agattaaata 300 gatatacatt cgattaacga taagtaaaat gtaaaatcac aggattttcg tgtgtggtct 360 tctacacaga caagatgaaa caattcggca ttaatacctg agagcaggaa gagcaagata 420 aaaggtagta tttgttggcg atccccctag agtcttttac atcttcggaa aacaaaaact 480 attttttctt taatttcttt ttttactttc tatttttaat ttatatattt atattaaaaa 540 atttaaatta taattatttt tatagcacgt gatgaaaagg acccaggtgg cacttttcgg 600 ggaaatgtgc gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg 660 ctcatgagac aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt 720 attcaacatt tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt 780 gctcacccag aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg 840 ggttacatcg aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa 900 cgttttccaa tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt 960 gacgccgggc aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag 1020 tactcaccag tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt 1080 gctgccataa ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga 1140 ccgaaggagc taaccgcttt ttttcacaac atgggggatc atgtaactcg ccttgatcgt 1200 tgggaaccgg agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta 1260 gcaatggcaa caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg 1320 caacaattaa tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc 1380 cttccggctg gctggtttat tgctgataaa tctggagccg gtgagcgtgg gtctcgcggt 1440 atcattgcag cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg 1500 ggcagtcagg caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg 1560 attaagcatt ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa 1620 cttcattttt aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa 1680 atcccttaac gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga 1740 tcttcttgag atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg 1800 ctaccagcgg tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact 1860 ggcttcagca gagcgcagat accaaatact gtccttctag tgtagccgta gttaggccac 1920 cacttcaaga actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg 1980 gctgctgcca gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg 2040 gataaggcgc agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga 2100 acgacctaca ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc 2160 gaagggagaa aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg 2220 agggagcttc cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc 2280 tgacttgagc gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc 2340 agcaacgcgg cctttttacg gttcctggcc ttttgctggc cttttgctca catgttcttt 2400 cctgcgttat cccctgattc tgtggataac cgtattaccg cctttgagtg agctgatacc 2460 gctcgccgca gccgaacgac cgagcgcagc gagtcagtga gcgaggaagc ggaagagcgc 2520 ccaatacgca aaccgcctct ccccgcgcgt tggccgattc attaatgcag ctggcacgac 2580 aggtttcccg actggaaagc gggcagtgag cgcaacgcaa ttaatgtgag ttagctcact 2640 cattaggcac cccaggcttt acactttatg cttccggctc gtatgttgtg tggaattgtg 2700 agcggataac aatttcacac aggaaacagc tatgaccatg attacgccaa gctcgaaatt 2760 aaccctcact aaagggaaca aaagctggta ccgggcccga attctctcct tctcttaggt 2820 ggcagagcag gtggagggtc gaccatacta gtttcaaaaa ttcttacttt ttttttggat 2880 ggacgcaaag aagtttaata atcatattac atggcattac caccatatac atatccatat 2940 acatatccat atctaatctt acttatatgt tgtggaaatg taaagagccc cattatctta 3000 gcctaaaaaa accttctctt tggaactttc agtaatacgc ttaactgctc attgctatat 3060 tgaagtacgg attagaagcc gccgagcggg tgacagccct ccgaaggaag actctcctcc 3120 gtgcgtcctc gtcttcaccg gtcgcgttcc tgaaacgcag atgtgcctcg cgccgcactg 3180 ctccgaacaa taaagattct acaatactag cttttatggt tatgaagagg aaaaattggc 3240 agtaacctgg ccccacaaac cttcaaatga acgaatcaaa ttaacaacca taggatgata 3300 atgcgattag ttttttagcc ttatttctgg ggtaattaat cagcgaagcg atgatttttg 3360 atctattaac agatatataa atgcaaaaac tgcataacca ctttaactaa tactttcaac 3420 attttcggtt tgtattactt cttattcaaa tgtaataaaa gtatcaacaa aaaattgtta 3480 atatacctct atactttaac gtcaaggaga aaaaaccagc gctcttcgat gtcgcataga 3540 tgctacgttc tctttgaatt aaaacgacgg ggtgaacgta gagcgtgttt ttggggctat 3600 gctgtgaata aaccacagag cgggacagaa cgtggcattc acgccgaaat ctttagcatt 3660 agaaaagtcg aagaatacct gcgcgacaac cccggacaat tcacgataaa ttggtactca 3720 tcctggagtc cttgtgcaga ttgcgctgaa aagatcttag aatggtataa ccaggagctg 3780 cgggggaacg gccacacttt gaaaatctgg gcttgcaaac tctattacga gaaaaatgcg 3840 aggaatcaaa ttgggctgtg gaacctcaga gataacgggg ttgggttgaa tgtaggcgga 3900 ggtggcagtg gcgggggtgg ctcgggtggg ggaggcagtg gcggaggtgg cagtggcggg 3960 ggtggctcgg gtgggggagg atccatggac aagaagtact ccattgggct cgctatcggc 4020 acaaacagcg tcggttgggc cgtcattacg gacgagtaca aggtgccgag caaaaaattc 4080 aaagttctgg gcaataccga tcgccacagc ataaagaaga acctcattgg cgccctcctg 4140 ttcgactccg gggagacggc cgaagccacg cggctcaaaa gaacagcacg gcgcagatat 4200 acccgcagaa agaatcggat ctgctacctg caggagatct ttagtaatga gatggctaag 4260 gtggatgact ctttcttcca taggctggag gagtcctttt tggtggagga ggataaaaag 4320 cacgagcgcc acccaatctt tggcaatatc gtggacgagg tggcgtacca tgaaaagtac 4380 ccaaccatat atcatctgag gaagaagctt gtagacagta ctgataaggc tgacttgcgg 4440 ttgatctatc tcgcgctggc gcatatgatc aaatttcggg gacacttcct catcgagggg 4500 gacctgaacc cagacaacag cgatgtcgac aaactcttta tccaactggt tcagacttac 4560 aatcagcttt tcgaagagaa cccgatcaac gcatccggag ttgacgccaa agcaatcctg 4620 agcgctaggc tgtccaaatc ccggcggctc gaaaacctca tcgcacagct ccctggggag 4680 aagaagaacg gcctgtttgg taatcttatc gccctgtcac tcgggctgac ccccaacttt 4740 aaatctaact tcgacctggc cgaagatgcc aagcttcaac tgagcaaaga cacctacgat 4800 gatgatctcg acaatctgct ggcccagatc ggcgaccagt acgcagacct ttttttggcg 4860 gcaaagaacc tgtcagacgc cattctgctg agtgatattc tgcgagtgaa cacggagatc 4920 accaaagctc cgctgagcgc tagtatgatc aagcgctatg atgagcacca ccaagacttg 4980 actttgctga aggcccttgt cagacagcaa ctgcctgaga agtacaagga aattttcttc 5040 gatcagtcta aaaatggcta cgccggatac attgacggcg gagcaagcca ggaggaattt 5100 tacaaattta ttaagcccat cttggaaaaa atggacggca ccgaggagct gctggtaaag 5160 cttaacagag aagatctgtt gcgcaaacag cgcactttcg acaatggaag catcccccac 5220 cagattcacc tgggcgaact gcacgctatc ctcaggcggc aagaggattt ctaccccttt 5280 ttgaaagata acagggaaaa gattgagaaa atcctcacat ttcggatacc ctactatgta 5340 ggccccctcg cccggggaaa ttccagattc gcgtggatga ctcgcaaatc agaagagacc 5400 atcactccct ggaacttcga ggaagtcgtg gataaggggg cctctgccca gtccttcatc 5460 gaaaggatga ctaactttga taaaaatctg cctaacgaaa aggtgcttcc taaacactct 5520 ctgctgtacg agtacttcac agtttataac gagctcacca aggtcaaata cgtcacagaa 5580 gggatgagaa agccagcatt cctgtctgga gagcagaaga aagctatcgt ggacctcctc 5640 ttcaagacga accggaaagt taccgtgaaa cagctcaaag aagactattt caaaaagatt 5700 gaatgtttcg actctgttga aatcagcgga gtggaggatc gcttcaacgc atccctggga 5760 acgtatcacg atctcctgaa aatcattaaa gacaaggact tcctggacaa tgaggagaac 5820 gaggacattc ttgaggacat tgtcctcacc cttacgttgt ttgaagatag ggagatgatt 5880 gaagaacgct tgaaaactta cgctcatctc ttcgacgaca aagtcatgaa acagctcaag 5940 aggcgccgat atacaggatg ggggcggctg tcaagaaaac tgatcaatgg gatccgagac 6000 aagcagagtg gaaagacaat cctggatttt cttaagtccg atggatttgc caaccggaac 6060 ttcatgcagt tgatccatga tgactctctc acctttaagg aggacatcca gaaagcacaa 6120 gtttctggcc agggggacag tcttcacgag cacatcgcta atcttgcagg tagcccagct 6180 atcaaaaagg gaatactgca gaccgttaag gtcgtggatg aactcgtcaa agtaatggga 6240 aggcataagc ccgagaatat cgttatcgag atggcccgag agaaccaaac tacccagaag 6300 ggacagaaga acagtaggga aaggatgaag aggattgaag agggtataaa agaactgggg 6360 tcccaaatcc ttaaggaaca cccagttgaa aacacccagc ttcagaatga gaagctctac 6420 ctgtactacc tgcagaacgg cagggacatg tacgtggatc aggaactgga catcaatcgg 6480 ctctccgact acgacgtgga tcatatcgtg ccccagtctt ttctcaaaga tgattctatt 6540 gataataaag tgttgacaag atccgataaa aatagaggga agagtgataa cgtcccctca 6600 gaagaagttg tcaagaaaat gaaaaattat tggcggcagc tgctgaacgc caaactgatc 6660 acacaacgga agttcgataa tctgactaag gctgaacgag gtggcctgtc tgagttggat 6720 aaagccggct tcatcaaaag gcagcttgtt gagacacgcc agatcaccaa gcacgtggcc 6780 caaattctcg attcacgcat gaacaccaag tacgatgaaa atgacaaact gattcgagag 6840 gtgaaagtta ttactctgaa gtctaagctg gtctcagatt tcagaaagga ctttcagttt 6900 tataaggtga gagagatcaa caattaccac catgcgcatg atgcctacct gaatgcagtg 6960 gtaggcactg cacttatcaa aaaatatccc aagcttgaat ctgaatttgt ttacggagac 7020 tataaagtgt acgatgttag gaaaatgatc gcaaagtctg agcaggaaat aggcaaggcc 7080 accgctaagt acttctttta cagcaatatt atgaattttt tcaagaccga gattacactg 7140 gccaatggag agattcggaa gcgaccactt atcgaaacaa acggagaaac aggagaaatc 7200 gtgtgggaca agggtaggga tttcgcgaca gtccggaagg tcctgtccat gccgcaggtg 7260 aacatcgtta aaaagaccga agtacagacc ggaggcttct ccaaggaaag tatcctcccg 7320 aaaaggaaca gcgacaagct gatcgcacgc aaaaaagatt gggaccccaa gaaatacggc 7380 ggattcgatt ctcctacagt cgcttacagt gtactggttg tggccaaagt ggagaaaggg 7440 aagtctaaaa aactcaaaag cgtcaaggaa ctgctgggca tcacaatcat ggagcgatca 7500 agcttcgaaa aaaaccccat cgactttctc gaggcgaaag gatataaaga ggtcaaaaaa 7560 gacctcatca ttaagcttcc caagtactct ctctttgagc ttgaaaacgg ccggaaacga 7620 atgctcgcta gtgcgggcga gctgcagaaa ggtaacgagc tggcactgcc ctctaaatac 7680 gttaatttct tgtatctggc cagccactat gaaaagctca aagggtctcc cgaagataat 7740 gagcagaagc agctgttcgt ggaacaacac aaacactacc ttgatgagat catcgagcaa 7800 ataagcgaat tctccaaaag agtgatcctc gccgacgcta acctcgataa ggtgctttct 7860 gcttacaata agcacaggga taagcccatc agggagcagg cagaaaacat tatccacttg 7920 tttactctga ccaacttggg cgcgcctgca gccttcaagt acttcgacac caccatagac 7980 agaaagcggt acacctctac aaaggaggtc ctggacgcca cactgattca tcagtcaatt 8040 acggggctct atgaaacaag aatcgacctc tctcagctcg gtggagacag cagggctgac 8100 cccaagaaga agaggaaggt gtagtctaga ggctccggat aaggatccta ataagcgaat 8160 ttcttatgat ttatgatttt tattattaaa taagttataa aaaaaataag tgtatacaaa 8220 ttttaaagtg actcttaggt tttaaaacga aaattcttat tcttgagtaa ctctttcctg 8280 taggtcaggt tgctttctca ggtatagcat gaggtcgctc ttattgacca cacctctacc 8340 ggcatgccga gcaaatgcct gcaaatcgct cccgggcaaa aaaccccctc aagacccgtt 8400 tagaggcccc aaggggttat gctatgcata ccaagcttcc gcggtggagc tccaattcgc 8460 cctatagtga gtcgtattac aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 8520 accctggcgt tacccaactt aatcgccttg cagcacatcc ccccttcgcc agctggcgta 8580 atagcgaaga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 8640 ggcgcgacgc gccctgtagc ggcgcattaa gcgcggcggg tgtggtggtt acgcgcagcg 8700 tgaccgctac acttgccagc gccctagcgc ccgctccttt cgctttcttc ccttcctttc 8760 tcgccacgtt cgccggcttt ccccgtcaag ctctaaatcg ggggctccct ttagggttcc 8820 gatttagtgc tttacggcac ctcgacccca aaaaacttga ttagggtgat ggttcacgta 8880 gtgggccatc gccctgatag acggtttttc gccctttgac gttggagtcc acgttcttta 8940 atagtggact cttgttccaa actggaacaa cactcaaccc tatctcggtc tattcttttg 9000 atttataagg gattttgccg atttcggcct attggttaaa aaatgagctg atttaacaaa 9060 aatttaacgc gaattttaac aaaatattaa cgtttacaat ttcctgatgc ggtattttct 9120 ccttacgcat ctgtgcggta tttcacaccg catatcgacc ctcgaggaga acttctagta 9180 tatccacata cctaatatta ttgccttatt aaaaatggaa tcggaacaat tacatcaaaa 9240 tccacattct cttcaaaatc aattgtcctg tacttccttg ttcatgtgtg ttcaaaaacg 9300 ttatatttat aggataatta tactctattt ctcaacaagt aattggttgt ttggccgagc 9360 ggtctaaggc gcctgattca agaaatatct tgaccgcagt taactgtggg aatactcagg 9420 tatcgtaaga tgcaagagtt cgaatctctt agcaaccatt atttttttcc tcaacataac 9480 gagaacacac aggggcgcta tcgcacagaa tcaaattcga tgactggaaa ttttttgtta 9540 atttcagagg tcgcctgacg catatacctt tttcaactga aaaattggga gaaaaaggaa 9600 aggtgagagg ccggaaccgg cttttcatat agaatagaga agcgttcatg actaaatgct 9660 tgcatcacaa tacttgaagt tgacaatatt atttaaggac ctattgtttt ttccaatagg 9720 tggttagcaa tcgtcttact ttctaacttt tcttaccttt tacatttcag caatatatat 9780 atatatttca aggatatacc attctaatgt ctgcccctat gtctgcccct aagaagatcg 9840 tcgttttgcc aggtgaccac gttggtcaag aaatcacagc cgaagccatt aaggttctta 9900 aagctatttc tgatgttcgt tccaatgtca agttcgattt cgaaaatcat ttaattggtg 9960 gtgctgctat cgatgctaca ggtgtcccac ttccagatga ggcgctggaa gcctccaaga 10020 aggttgatgc cgttttgtta ggtgctgtgg gtggtcctaa atggggtacc ggtagtgtta 10080 gacctgaaca aggtttacta aaaatccgta aagaacttca attgtacgcc aacttaagac 10140 catgtaactt tgcatccgac tctcttttag acttatctcc aatcaagcca caatttgcta 10200 aaggtactga cttcgttgtt gtcagagaat tagtgggagg tatttacttt ggtaagagaa 10260 aggaagacga tggtgatggt gtcgcttggg atagtgaaca atacaccgtt ccagaagtgc 10320 aaagaatcac aagaatggcc gctttcatgg ccctacaaca tgagccacca ttgcctattt 10380 ggtccttgga taaagctaat gttttggcct cttcaagatt atggagaaaa actgtggagg 10440 aaaccatcaa gaacgaattc cctacattga aggttcaaca tcaattgatt gattctgccg 10500 ccatgatcct agttaagaac ccaacccacc taaatggtat tataatcacc agcaacatgt 10560 ttggtgatat catctccgat gaagcctccg ttatcccagg ttccttgggt ttgttgccat 10620 ctgcgtcctt ggcctctttg ccagacaaga acaccgcatt tggtttgtac gaaccatgcc 10680 acggttctgc tccagatttg ccaaagaata aggttgaccc tatcgccact atcttgtctg 10740 ctgcaatgat gttgaaattg tcattgaact tgcctgaaga aggtaaggcc attgaagatg 10800 cagttaaaaa ggttttggat gcaggtatca gaactggtga tttaggtggt tccaacagta 10860 ccaccgaagt cggtgatgct gtcgccgaag aagttaagaa aatccttgct taaaaagatt 10920 ctcttttttt atgatatttg tacataaact ttataaatga aattcataat agaaacgaca 10980 cgaaattaca aaatggaata tgttcatagg gtagacgaaa ctatatacgc aatctacata 11040 catttatcaa gaaggagaaa aaggaggata gtaaaggaat acaggtaagc aaattgatac 11100 taatggctca acgtgataag gaaaaagaat tgcactttaa cattaatatt gacaaggagg 11160 agggcaccac acaaaaagtt aggtgtaaca gaaaatcatg aaactacgat tcctaatttg 11220 atattggagg attttctcta aaaaaaaaaa aatacaacaa ataaaaaaca ctcaatgacc 11280 tgaccatttg atggagttta agtcaatacc ttcttgaacc atttcccata atggtgaaag 11340 ttccctcaag aattttactc tgtcagaaac ggccttacga cgtagtcgat atggtgcact 11400 ctcagtacaa tctgctctga tgccgcatag ttaagccagc cccgacaccc gccaacaccc 11460 gctgacgcgc cctgacgggc ttgtctgctc ccggcatccg cttacagaca agctgtgacc 11520 gtctccggga gctgcatgtg tcagaggttt tcaccgtcat caccgaaacg cgcga 11575 <210> 14 <211> 11801 <212> DNA <213> Artificial Sequence <220> <223> full-length sequence of vector V5679 <220> <221> rep_origin <222> (70)..(573) <223> CEN/ARS <220> <221> promoter <222> (610)..(714) <223> AmpR promoter <220> <221> gene <222> (715)..(1575) <223> AmpR <220> <221> rep_origin <222> (1746)..(2334) <223> ori <220> <221> promoter <222> (2658)..(2688) <223> lac promoter <220> <221> misc_feature <222> (2696)..(2712) <223> lac operator <220> <221> promoter <222> (2853)..(3517) <223> GAL1,10 promoter <220> <221> misc_feature <222> (3069)..(3186) <223> UAS <220> <221> gene <222> (3502)..(6681) <223> nCas9(D10A) <220> <221> mutation <222> (3547)..(3549) <223> D10A for Nuclease deficient <220> <221> misc_feature <222> (6682)..(6688) <223> GS linker insert <220> <221> misc_feature <222> (6689)..(6702) <223> Linker <220> <221> misc_feature <222> (6703)..(6768) <223> 3xFLAG <220> <221> gene <222> (6775)..(7398) <223> PmCDA1 <220> <221> misc_feature <222> (7419)..(7431) <223> GS linker insert <220> <221> gene <222> (7432)..(8409) <223> nCas9(D10A) <220> <221> sig_peptide <222> (8386)..(8406) <223> SV40 NLS <220> <221> terminator <222> (8422)..(8669) <223> CYC1 terminator <220> <221> rep_origin <222> (8873)..(9328) <223> f1 ori <220> <221> promoter <222> (9628)..(10032) <223> LEU2 promoter <220> <221> gene <222> (10045)..(11139) <223> LEU2 <400> 14 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 60 cttaggacgg atcgcttgcc tgtaacttac acgcgcctcg tatcttttaa tgatggaata 120 atttgggaat ttactctgtg tttatttatt tttatgtttt gtatttggat tttagaaagt 180 aaataaagaa ggtagaagag ttacggaatg aagaaaaaaa aataaacaaa ggtttaaaaa 240 atttcaacaa aaagcgtact ttacatatat atttattaga caagaaaagc agattaaata 300 gatatacatt cgattaacga taagtaaaat gtaaaatcac aggattttcg tgtgtggtct 360 tctacacaga caagatgaaa caattcggca ttaatacctg agagcaggaa gagcaagata 420 aaaggtagta tttgttggcg atccccctag agtcttttac atcttcggaa aacaaaaact 480 attttttctt taatttcttt ttttactttc tatttttaat ttatatattt atattaaaaa 540 atttaaatta taattatttt tatagcacgt gatgaaaagg acccaggtgg cacttttcgg 600 ggaaatgtgc gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg 660 ctcatgagac aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt 720 attcaacatt tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt 780 gctcacccag aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg 840 ggttacatcg aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa 900 cgttttccaa tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt 960 gacgccgggc aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag 1020 tactcaccag tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt 1080 gctgccataa ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga 1140 ccgaaggagc taaccgcttt tttgcacaac atgggggatc atgtaactcg ccttgatcgt 1200 tgggaaccgg agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta 1260 gcaatggcaa caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg 1320 caacaattaa tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc 1380 cttccggctg gctggtttat tgctgataaa tctggagccg gtgagcgtgg gtctcgcggt 1440 atcattgcag cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg 1500 gggagtcagg caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg 1560 attaagcatt ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa 1620 cttcattttt aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa 1680 atcccttaac gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga 1740 tcttcttgag atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg 1800 ctaccagcgg tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact 1860 ggcttcagca gagcgcagat accaaatact gtccttctag tgtagccgta gttaggccac 1920 cacttcaaga actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg 1980 gctgctgcca gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg 2040 gataaggcgc agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga 2100 acgacctaca ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc 2160 gaagggagaa aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg 2220 agggagcttc cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc 2280 tgacttgagc gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc 2340 agcaacgcgg cctttttacg gttcctggcc ttttgctggc cttttgctca catgttcttt 2400 cctgcgttat cccctgattc tgtggataac cgtattaccg cctttgagtg agctgatacc 2460 gctcgccgca gccgaacgac cgagcgcagc gagtcagtga gcgaggaagc ggaagagcgc 2520 ccaatacgca aaccgcctct ccccgcgcgt tggccgattc attaatgcag ctggcacgac 2580 aggtttcccg actggaaagc gggcagtgag cgcaacgcaa ttaatgtgag ttacctcact 2640 cattaggcac cccaggcttt acactttatg cttccggctc ctatgttgtg tggaattgtg 2700 agcggataac aatttcacac aggaaacagc tatgaccatg attacgccaa gctcggaatt 2760 aaccctcact aaagggaaca aaagctgggt accgggcccg aattctctcc ttctcttagg 2820 tggcagagca ggtggagggt cgaccatact agtttcaaaa attcttactt tttttttgga 2880 tggacgcaaa gaagtttaat aatcatatta catggcatta ccaccatata catatccata 2940 tacatatcca tatctaatct tacttatatg ttgtggaaat gtaaagagcc ccattatctt 3000 agcctaaaaa aaccttctct ttggaacttt cagtaatacg cttaactgct cattgctata 3060 ttgaagtacg gattagaagc cgccgagcgg gtgacagccc tccgaaggaa gactctcctc 3120 cgtgcgtcct cgtcttcacc ggtcgcgttc ctgaaacgca gatgtgcctc gcgccgcact 3180 gctccgaaca ataaagattc tacaatacta gcttttatgg ttatgaagag gaaaaattgg 3240 cagtaacctg gccccacaaa ccttcaaatg aacgaatcaa attaacaacc ataggatgat 3300 aatgcgatta gttttttagc cttatttctg gggtaattaa tcagcgaagc gatgattttt 3360 gatctattaa cagatatata aatgcaaaaa ctgcataacc actttaacta atactttcaa 3420 cattttcggt ttgtattact tcttattcaa atgtaataaa agtatcaaca aaaaattgtt 3480 aatatacctc tatactttaa cgtcaaggag aaaaaaccca tggacaagaa gtactccatt 3540 gggctcgcta tcggcacaaa cagcgtcggt tgggccgtca ttacggacga gtacaaggtg 3600 ccgagcaaaa aattcaaagt tctgggcaat accgatcgcc acagcataaa gaagaacctc 3660 attggcgccc tcctgttcga ctccggggag acggccgaag ccacgcggct caaaagaaca 3720 gcacggcgca gatatacccg cagaaagaat cggatctgct acctgcagga gatctttagt 3780 aatgagatgg ctaaggtgga tgactctttc ttccataggc tggaggagtc ctttttggtg 3840 gaggaggata aaaagcacga gcgccaccca atctttggca atatcgtgga cgaggtggcg 3900 taccatgaaa agtacccaac catatatcat ctgaggaaga agcttgtaga cagtactgat 3960 aaggctgact tgcggttgat ctatctcgcg ctggcgcata tgatcaaatt tcggggacac 4020 ttcctcatcg agggggacct gaacccagac aacagcgatg tcgacaaact ctttatccaa 4080 ctggttcaga cttacaatca gcttttcgaa gagaacccga tcaacgcatc cggagttgac 4140 gccaaagcaa tcctgagcgc taggctgtcc aaatcccggc ggctcgaaaa cctcatcgca 4200 cagctccctg gggagaagaa gaacggcctg tttggtaatc ttatcgccct gtcactcggg 4260 ctgaccccca actttaaatc taacttcgac ctggccgaag atgccaagct tcaactgagc 4320 aaagacacct acgatgatga tctcgacaat ctgctggccc agatcggcga ccagtacgca 4380 gacctttttt tggcggcaaa gaacctgtca gacgccattc tgctgagtga tattctgcga 4440 gtgaacacgg agatcaccaa agctccgctg agcgctagta tgatcaagcg ctatgatgag 4500 caccaccaag acttgacttt gctgaaggcc cttgtcagac agcaactgcc tgagaagtac 4560 aaggaaattt tcttcgatca gtctaaaaat ggctacgccg gatacattga cggcggagca 4620 agccaggagg aattttacaa atttattaag cccatcttgg aaaaaatgga cggcaccgag 4680 gagctgctgg taaagcttaa cagagaagat ctgttgcgca aacagcgcac tttcgacaat 4740 ggaagcatcc cccaccagat tcacctgggc gaactgcacg ctatcctcag gcggcaagag 4800 gatttctacc cctttttgaa agataacagg gaaaagattg agaaaatcct cacatttcgg 4860 ataccctact atgtaggccc cctcgcccgg ggaaattcca gattcgcgtg gatgactcgc 4920 aaatcagaag agaccatcac tccctggaac ttcgaggaag tcgtggataa gggggcctct 4980 gcccagtcct tcatcgaaag gatgactaac tttgataaaa atctgcctaa cgaaaaggtg 5040 cttcctaaac actctctgct gtacgagtac ttcacagttt ataacgagct caccaaggtc 5100 aaatacgtca cagaagggat gagaaagcca gcattcctgt ctggagagca gaagaaagct 5160 atcgtggacc tcctcttcaa gacgaaccgg aaagttaccg tgaaacagct caaagaagac 5220 tatttcaaaa agattgaatg tttcgactct gttgaaatca gcggagtgga ggatcgcttc 5280 aacgcatccc tgggaacgta tcacgatctc ctgaaaatca ttaaagacaa ggacttcctg 5340 gacaatgagg agaacgagga cattcttgag gacattgtcc tcacccttac gttgtttgaa 5400 gatagggaga tgattgaaga acgcttgaaa acttacgctc atctcttcga cgacaaagtc 5460 atgaaacagc tcaagaggcg ccgatataca ggatgggggc ggctgtcaag aaaactgatc 5520 aatgggatcc gagacaagca gagtggaaag acaatcctgg attttcttaa gtccgatgga 5580 tttgccaacc ggaacttcat gcagttgatc catgatgact ctctcacctt taaggaggac 5640 atccagaaag cacaagtttc tggccagggg gacagtcttc acgagcacat cgctaatctt 5700 gcaggtagcc cagctatcaa aaagggaata ctgcagaccg ttaaggtcgt ggatgaactc 5760 gtcaaagtaa tgggaaggca taagcccgag aatatcgtta tcgagatggc ccgagagaac 5820 caaactaccc agaagggaca gaagaacagt agggaaagga tgaagaggat tgaagagggt 5880 ataaaagaac tggggtccca aatccttaag gaacacccag ttgaaaacac ccagcttcag 5940 aatgagaagc tctacctgta ctacctgcag aacggcaggg acatgtacgt ggatcaggaa 6000 ctggacatca atcggctctc cgactacgac gtggatcata tcgtgcccca gtcttttctc 6060 aaagatgatt ctattgataa taaagtgttg acaagatccg ataaaaatag agggaagagt 6120 gataacgtcc cctcagaaga agttgtcaag aaaatgaaaa attattggcg gcagctgctg 6180 aacgccaaac tgatcacaca acggaagttc gataatctga ctaaggctga acgaggtggc 6240 ctgtctgagt tggataaagc cggcttcatc aaaaggcagc ttgttgagac acgccagatc 6300 accaagcacg tggcccaaat tctcgattca cgcatgaaca ccaagtacga tgaaaatgac 6360 aaactgattc gagaggtgaa agttattact ctgaagtcta agctggtctc agatttcaga 6420 aaggactttc agttttataa ggtgagagag atcaacaatt accaccatgc gcatgatgcc 6480 tacctgaatg cagtggtagg cactgcactt atcaaaaaat atcccaagct tgaatctgaa 6540 tttgtttacg gagactataa agtgtacgat gttaggaaaa tgatcgcaaa gtctgagcag 6600 gaaataggca aggccaccgc taagtacttc ttttacagca atattatgaa ttttttcaag 6660 accgagatta cactggccaa tggtggagct agcggttccg gagactataa ggaccacgac 6720 ggagactaca aggatcatga tattgattac aaagacgatg acgataagtc taggatgacc 6780 gacgctgagt acgtgagaat ccatgagaag ttggacatct acacgtttaa gaaacagttt 6840 ttcaacaaca aaaaatccgt gtcgcataga tgctacgttc tctttgaatt aaaacgacgg 6900 ggtgaacgta gagcgtgttt ttggggctat gctgtgaata aaccacagag cgggacagaa 6960 cgtggcattc acgccgaaat ctttagcatt agaaaagtcg aagaatacct gcgcgacaac 7020 cccggacaat tcacgataaa ttggtactca tcctggagtc cttgtgcaga ttgcgctgaa 7080 aagatcttag aatggtataa ccaggagctg cgggggaacg gccacacttt gaaaatctgg 7140 gcttgcaaac tctattacga gaaaaatgcg aggaatcaaa ttgggctgtg gaacctcaga 7200 gataacgggg ttgggttgaa tgtaatggta agtgaacact accaatgttg caggaaaata 7260 ttcatccaat cgtcgcacaa tcaattgaat gagaatagat ggcttgagaa gactttgaag 7320 cgagctgaaa aacgacggag cgagttgtcc attatgattc aggtaaaaat actccacacc 7380 actaagagtc ctgctgttgg cggaggcggt agcgacgtcg gtggaggttc aggagagatt 7440 cggaagcgac cacttatcga aacaaacgga gaaacaggag aaatcgtgtg ggacaagggt 7500 agggatttcg cgacagtccg gaaggtcctg tccatgccgc aggtgaacat cgttaaaaag 7560 accgaagtac agaccggagg cttctccaag gaaagtatcc tcccgaaaag gaacagcgac 7620 aagctgatcg cacgcaaaaa agattgggac cccaagaaat acggcggatt cgattctcct 7680 acagtcgctt acagtgtact ggttgtggcc aaagtggaga aagggaagtc taaaaaactc 7740 aaaagcgtca aggaactgct gggcatcaca atcatggagc gatcaagctt cgaaaaaaac 7800 cccatcgact ttctcgaggc gaaaggatat aaagaggtca aaaaagacct catcattaag 7860 cttcccaagt actctctctt tgagcttgaa aacggccgga aacgaatgct cgctagtgcg 7920 ggcgagctgc agaaaggtaa cgagctggca ctgccctcta aatacgttaa tttcttgtat 7980 ctggccagcc actatgaaaa gctcaaaggg tctcccgaag ataatgagca gaagcagctg 8040 ttcgtggaac aacacaaaca ctaccttgat gagatcatcg agcaaataag cgaattctcc 8100 aaaagagtga tcctcgccga cgctaacctc gataaggtgc tttctgctta caataagcac 8160 agggataagc ccatcaggga gcaggcagaa aacattatcc acttgtttac tctgaccaac 8220 ttgggcgcgc ctgcagcctt caagtacttc gacaccacca tagacagaaa gcggtacacc 8280 tctacaaagg aggtcctgga cgccacactg attcatcagt caattacggg gctctatgaa 8340 acaagaatcg acctctctca gctcggtgga gacagcaggg ctgaccccaa gaagaagagg 8400 aaggtgtgat ctcttctcga gtcatgtaat tagttatgtc acgcttacat tcacgccctc 8460 cccccacatc cgctctaacc gaaaaggaag gagttagaca acctgaagtc taggtcccta 8520 tttatttttt tatagttatg ttagtattaa gaacgttatt tatatttcaa atttttcttt 8580 tttttctgta cagacgcgtg tacgcatgta acattatact gaaaaccttg cttgagaagg 8640 ttttgggacg ctcgaaggct ttaatttgcg gccggtaccc aattcgccct atagtgagtc 8700 gtattacgcg cgctcactgg ccgtcgtttt acaacgtcgt gactgggaaa accctggcgt 8760 tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta atagcgaaga 8820 ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat ggacgcgccc 8880 tgtagcggcg cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt 8940 gccagcgccc tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc 9000 ggctttcccc gtcaagctct aaatcggggg ctccctttag ggttccgatt tagtgcttta 9060 cggcacctcg accccaaaaa acttgattag ggtgatggtt cacgtagtgg gccatcgccc 9120 tgatagacgg tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg 9180 ttccaaactg gaacaacact caaccctatc tcggtctatt cttttgattt ataagggatt 9240 ttgccgattt cggcctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat 9300 tttaacaaaa tattaacgtt tacaatttcc tgatgcggta ttttctcctt acgcatctgt 9360 gcggtatttc acaccgcata tcgacggtcg aggagaactt ctagtatatc cacataccta 9420 atattattgc cttattaaaa atggaatccc aacaattaca tcaaaatcca cattctcttc 9480 aaaatcaatt gtcctgtact tccttgttca tgtgtgttca aaaacgttat atttatagga 9540 taattatact ctatttctca acaagtaatt ggttgtttgg ccgagcggtc taaggcgcct 9600 gattcaagaa atatcttgac cgcagttaac tgtgggaata ctcaggtatc gtaagatgca 9660 agagttcgaa tctcttagca accattattt ttttcctcaa cataacgaga acacacaggg 9720 gcgctatcgc acagaatcaa attcgatgac tggaaatttt ttgttaattt cagaggtcgc 9780 ctgacgcata tacctttttc aactgaaaaa ttgggagaaa aaggaaaggt gagaggccgg 9840 aaccggcttt tcatatagaa tagagaagcg ttcatgacta aatgcttgca tcacaatact 9900 tgaagttgac aatattattt aaggacctat tgttttttcc aataggtggt tagcaatcgt 9960 cttactttct aacttttctt accttttaca tttcagcaat atatatatat atttcaagga 10020 tataccattc taatgtctgc ccctatgtct gcccctaaga agatcgtcgt tttgccaggt 10080 gaccacgttg gtcaagaaat cacagccgaa gccattaagg ttcttaaagc tatttctgat 10140 gttcgttcca atgtcaagtt cgatttcgaa aatcatttaa ttggtggtgc tgctatcgat 10200 gctacaggtg tcccacttcc agatgaggcg ctggaagcct ccaagaaggt tgatgccgtt 10260 ttgttaggtg ctgtgggtgg tcctaaatgg ggtaccggta gtgttagacc tgaacaaggt 10320 ttactaaaaa tccgtaaaga acttcaattg tacgccaact taagaccatg taactttgca 10380 tccgactctc ttttagactt atctccaatc aagccacaat ttgctaaagg tactgacttc 10440 gttgttgtca gagaattagt gggaggtatt tactttggta agagaaagga agacgatggt 10500 gatggtgtcg cttgggatag tgaacaatac accgttccag aagtgcaaag aatcacaaga 10560 atggccgctt tcatggccct acaacatgag ccaccattgc ctatttggtc cttggataaa 10620 gctaatgttt tggcctcttc aagattatgg agaaaaactg tggaggaaac catcaagaac 10680 gaattcccta cattgaaggt tcaacatcaa ttgattgatt ctgccgccat gatcctagtt 10740 aagaacccaa cccacctaaa tggtattata atcaccagca acatgtttgg tgatatcatc 10800 tccgatgaag cctccgttat cccaggttcc ttgggtttgt tgccatctgc gtccttggcc 10860 tctttgccag acaagaacac cgcatttggt ttgtacgaac catgccacgg ttctgctcca 10920 gatttgccaa agaataaggt caaccctatc gccactatct tgtctgctgc aatgatgttg 10980 aaattgtcat tgaacttgcc tgaagaaggt aaggccattg aagatgcagt taaaaaggtt 11040 ttggatgcag gtatcagaac tggtgattta ggtggttcca acagtaccac cgaagtcggt 11100 gatgctgtcg ccgaagaagt taagaaaatc cttgcttaaa aagattctct ttttttatga 11160 tatttgtaca taaactttat aaatgaaatt cataatagaa acgacacgaa attacaaaat 11220 ggaatatgtt catagggtag acgaaactat atacgcaatc tacatacatt tatcaagaag 11280 gagaaaaagg aggatgtaaa ggaatacagg taagcaaatt gatactaatg gctcaacgtg 11340 ataaggaaaa agaattgcac tttaacatta atattgacaa ggaggagggc accacacaaa 11400 aagttaggtg taacagaaaa tcatgaaact atgattccta atttatatat tggaggattt 11460 tctctaaaaa aaaaaaaata caacaaataa aaaacactca atgacctgac catttgatgg 11520 agtttaagtc aataccttct tgaaccattt cccataatgg tgaaagttcc ctcaagaatt 11580 ttactctgtc agaaacggcc ttacgacgta gtcgatatgg tgcactctca gtacaatctg 11640 ctctgatgcc gcatagttaa gccagccccg acacccgcca acacccgctg acgcgccctg 11700 acgggcttgt ctgctcccgg catccgctta cagacaagct gtgaccgtct ccgggagctg 11760 catgtgtcag aggttttcac cgtcatcacc gaaacgcgcg a 11801 <210> 15 <211> 11447 <212> DNA <213> Artificial Sequence <220> <223> full-length sequence of vector pAL047 <220> <221> rep_origin <222> (70)..(573) <223> CEN/ARS <220> <221> promoter <222> (610)..(714) <223> AmpR promoter <220> <221> gene <222> (715)..(1575) <223> AmpR <220> <221> rep_origin <222> (1746)..(2334) <223> ori <220> <221> promoter <222> (2658)..(2688) <223> lac promoter <220> <221> misc_feature <222> (2696)..(2712) <223> lac operator <220> <221> promoter <222> (2853)..(3517) <223> GAL1,10 promoter <220> <221> gene <222> (3520)..(6681) <223> nCas9(D10A) <220> <221> mutation <222> (3547)..(3549) <223> D10A for Nuclease deficient <220> <221> gene <222> (6682)..(7044) <223> PmCDA1 <220> <221> misc_feature <222> (6790)..(6897) <223> Catalytic Domain <220> <221> mutation <222> (6958)..(6960) <223> W122E <220> <221> mutation <222> (6970)..(6972) <223> Expsose N (V150 Y128 interaction) <220> <221> mutation <222> (6976)..(6978) <223> Expose Q (V150 L126 interaction) <220> <221> mutation <222> (6976)..(6978) <223> Expose Y to D <220> <221> mutation <222> (7000)..(7002) <223> Expose I to E <220> <221> mutation <222> (7009)..(7011) <223> W139Q <220> <221> mutation <222> (7018)..(7023) <223> H130A R131E <220> <221> mutation <222> (7042)..(7044) <223> Expose T (L126 Y128 interaction) <220> <221> misc_feature <222> (7045)..(7070) <223> 6xGS Linker <220> <221> misc_feature <222> (7065)..(7077) <223> GS linker insert <220> <221> gene <222> (7078)..(8055) <223> nCas9(D10A) <220> <221> sig_peptide <222> (8032)..(8052) <223> SV40 NLS <220> <221> terminator <222> (8068)..(8315) <223> CYC1 terminator <220> <221> rep_origin <222> (8519)..(8974) <223> f1 ori <220> <221> promoter <222> (9274)..(9678) <223> LEU2 promoter <220> <221> gene <222> (9691)..(10785) <223> LEU2 <400> 15 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 60 cttaggacgg atcgcttgcc tgtaacttac acgcgcctcg tatcttttaa tgatggaata 120 atttgggaat ttactctgtg tttatttatt tttatgtttt gtatttggat tttagaaagt 180 aaataaagaa ggtagaagag ttacggaatg aagaaaaaaa aataaacaaa ggtttaaaaa 240 atttcaacaa aaagcgtact ttacatatat atttattaga caagaaaagc agattaaata 300 gatatacatt cgattaacga taagtaaaat gtaaaatcac aggattttcg tgtgtggtct 360 tctacacaga caagatgaaa caattcggca ttaatacctg agagcaggaa gagcaagata 420 aaaggtagta tttgttggcg atccccctag agtcttttac atcttcggaa aacaaaaact 480 attttttctt taatttcttt ttttactttc tatttttaat ttatatattt atattaaaaa 540 atttaaatta taattatttt tatagcacgt gatgaaaagg acccaggtgg cacttttcgg 600 ggaaatgtgc gcggaacccc tatttgttta tttttctaaa tacattcaaa tatgtatccg 660 ctcatgagac aataaccctg ataaatgctt caataatatt gaaaaaggaa gagtatgagt 720 attcaacatt tccgtgtcgc ccttattccc ttttttgcgg cattttgcct tcctgttttt 780 gctcacccag aaacgctggt gaaagtaaaa gatgctgaag atcagttggg tgcacgagtg 840 ggttacatcg aactggatct caacagcggt aagatccttg agagttttcg ccccgaagaa 900 cgttttccaa tgatgagcac ttttaaagtt ctgctatgtg gcgcggtatt atcccgtatt 960 gacgccgggc aagagcaact cggtcgccgc atacactatt ctcagaatga cttggttgag 1020 tactcaccag tcacagaaaa gcatcttacg gatggcatga cagtaagaga attatgcagt 1080 gctgccataa ccatgagtga taacactgcg gccaacttac ttctgacaac gatcggagga 1140 ccgaaggagc taaccgcttt tttgcacaac atgggggatc atgtaactcg ccttgatcgt 1200 tgggaaccgg agctgaatga agccatacca aacgacgagc gtgacaccac gatgcctgta 1260 gcaatggcaa caacgttgcg caaactatta actggcgaac tacttactct agcttcccgg 1320 caacaattaa tagactggat ggaggcggat aaagttgcag gaccacttct gcgctcggcc 1380 cttccggctg gctggtttat tgctgataaa tctggagccg gtgagcgtgg gtctcgcggt 1440 atcattgcag cactggggcc agatggtaag ccctcccgta tcgtagttat ctacacgacg 1500 gggagtcagg caactatgga tgaacgaaat agacagatcg ctgagatagg tgcctcactg 1560 attaagcatt ggtaactgtc agaccaagtt tactcatata tactttagat tgatttaaaa 1620 cttcattttt aatttaaaag gatctaggtg aagatccttt ttgataatct catgaccaaa 1680 atcccttaac gtgagttttc gttccactga gcgtcagacc ccgtagaaaa gatcaaagga 1740 tcttcttgag atcctttttt tctgcgcgta atctgctgct tgcaaacaaa aaaaccaccg 1800 ctaccagcgg tggtttgttt gccggatcaa gagctaccaa ctctttttcc gaaggtaact 1860 ggcttcagca gagcgcagat accaaatact gtccttctag tgtagccgta gttaggccac 1920 cacttcaaga actctgtagc accgcctaca tacctcgctc tgctaatcct gttaccagtg 1980 gctgctgcca gtggcgataa gtcgtgtctt accgggttgg actcaagacg atagttaccg 2040 gataaggcgc agcggtcggg ctgaacgggg ggttcgtgca cacagcccag cttggagcga 2100 acgacctaca ccgaactgag atacctacag cgtgagctat gagaaagcgc cacgcttccc 2160 gaagggagaa aggcggacag gtatccggta agcggcaggg tcggaacagg agagcgcacg 2220 agggagcttc cagggggaaa cgcctggtat ctttatagtc ctgtcgggtt tcgccacctc 2280 tgacttgagc gtcgattttt gtgatgctcg tcaggggggc ggagcctatg gaaaaacgcc 2340 agcaacgcgg cctttttacg gttcctggcc ttttgctggc cttttgctca catgttcttt 2400 cctgcgttat cccctgattc tgtggataac cgtattaccg cctttgagtg agctgatacc 2460 gctcgccgca gccgaacgac cgagcgcagc gagtcagtga gcgaggaagc ggaagagcgc 2520 ccaatacgca aaccgcctct ccccgcgcgt tggccgattc attaatgcag ctggcacgac 2580 aggtttcccg actggaaagc gggcagtgag cgcaacgcaa ttaatgtgag ttacctcact 2640 cattaggcac cccaggcttt acactttatg cttccggctc ctatgttgtg tggaattgtg 2700 agcggataac aatttcacac aggaaacagc tatgaccatg attacgccaa gctcggaatt 2760 aaccctcact aaagggaaca aaagctgggt accgggcccg aattctctcc ttctcttagg 2820 tggcagagca ggtggagggt cgaccatact agtttcaaaa attcttactt tttttttgga 2880 tggacgcaaa gaagtttaat aatcatatta catggcatta ccaccatata catatccata 2940 tacatatcca tatctaatct tacttatatg ttgtggaaat gtaaagagcc ccattatctt 3000 agcctaaaaa aaccttctct ttggaacttt cagtaatacg cttaactgct cattgctata 3060 ttgaagtacg gattagaagc cgccgagcgg gtgacagccc tccgaaggaa gactctcctc 3120 cgtgcgtcct cgtcttcacc ggtcgcgttc ctgaaacgca gatgtgcctc gcgccgcact 3180 gctccgaaca ataaagattc tacaatacta gcttttatgg ttatgaagag gaaaaattgg 3240 cagtaacctg gccccacaaa ccttcaaatg aacgaatcaa attaacaacc ataggatgat 3300 aatgcgatta gttttttagc cttatttctg gggtaattaa tcagcgaagc gatgattttt 3360 gatctattaa cagatatata aatgcaaaaa ctgcataacc actttaacta atactttcaa 3420 cattttcggt ttgtattact tcttattcaa atgtaataaa agtatcaaca aaaaattgtt 3480 aatatacctc tatactttaa cgtcaaggag aaaaaaccca tggacaagaa gtactccatt 3540 gggctcgcta tcggcacaaa cagcgtcggt tgggccgtca ttacggacga gtacaaggtg 3600 ccgagcaaaa aattcaaagt tctgggcaat accgatcgcc acagcataaa gaagaacctc 3660 attggcgccc tcctgttcga ctccggggag acggccgaag ccacgcggct caaaagaaca 3720 gcacggcgca gatatacccg cagaaagaat cggatctgct acctgcagga gatctttagt 3780 aatgagatgg ctaaggtgga tgactctttc ttccataggc tggaggagtc ctttttggtg 3840 gaggaggata aaaagcacga gcgccaccca atctttggca atatcgtgga cgaggtggcg 3900 taccatgaaa agtacccaac catatatcat ctgaggaaga agcttgtaga cagtactgat 3960 aaggctgact tgcggttgat ctatctcgcg ctggcgcata tgatcaaatt tcggggacac 4020 ttcctcatcg agggggacct gaacccagac aacagcgatg tcgacaaact ctttatccaa 4080 ctggttcaga cttacaatca gcttttcgaa gagaacccga tcaacgcatc cggagttgac 4140 gccaaagcaa tcctgagcgc taggctgtcc aaatcccggc ggctcgaaaa cctcatcgca 4200 cagctccctg gggagaagaa gaacggcctg tttggtaatc ttatcgccct gtcactcggg 4260 ctgaccccca actttaaatc taacttcgac ctggccgaag atgccaagct tcaactgagc 4320 aaagacacct acgatgatga tctcgacaat ctgctggccc agatcggcga ccagtacgca 4380 gacctttttt tggcggcaaa gaacctgtca gacgccattc tgctgagtga tattctgcga 4440 gtgaacacgg agatcaccaa agctccgctg agcgctagta tgatcaagcg ctatgatgag 4500 caccaccaag acttgacttt gctgaaggcc cttgtcagac agcaactgcc tgagaagtac 4560 aaggaaattt tcttcgatca gtctaaaaat ggctacgccg gatacattga cggcggagca 4620 agccaggagg aattttacaa atttattaag cccatcttgg aaaaaatgga cggcaccgag 4680 gagctgctgg taaagcttaa cagagaagat ctgttgcgca aacagcgcac tttcgacaat 4740 ggaagcatcc cccaccagat tcacctgggc gaactgcacg ctatcctcag gcggcaagag 4800 gatttctacc cctttttgaa agataacagg gaaaagattg agaaaatcct cacatttcgg 4860 ataccctact atgtaggccc cctcgcccgg ggaaattcca gattcgcgtg gatgactcgc 4920 aaatcagaag agaccatcac tccctggaac ttcgaggaag tcgtggataa gggggcctct 4980 gcccagtcct tcatcgaaag gatgactaac tttgataaaa atctgcctaa cgaaaaggtg 5040 cttcctaaac actctctgct gtacgagtac ttcacagttt ataacgagct caccaaggtc 5100 aaatacgtca cagaagggat gagaaagcca gcattcctgt ctggagagca gaagaaagct 5160 atcgtggacc tcctcttcaa gacgaaccgg aaagttaccg tgaaacagct caaagaagac 5220 tatttcaaaa agattgaatg tttcgactct gttgaaatca gcggagtgga ggatcgcttc 5280 aacgcatccc tgggaacgta tcacgatctc ctgaaaatca ttaaagacaa ggacttcctg 5340 gacaatgagg agaacgagga cattcttgag gacattgtcc tcacccttac gttgtttgaa 5400 gatagggaga tgattgaaga acgcttgaaa acttacgctc atctcttcga cgacaaagtc 5460 atgaaacagc tcaagaggcg ccgatataca ggatgggggc ggctgtcaag aaaactgatc 5520 aatgggatcc gagacaagca gagtggaaag acaatcctgg attttcttaa gtccgatgga 5580 tttgccaacc ggaacttcat gcagttgatc catgatgact ctctcacctt taaggaggac 5640 atccagaaag cacaagtttc tggccagggg gacagtcttc acgagcacat cgctaatctt 5700 gcaggtagcc cagctatcaa aaagggaata ctgcagaccg ttaaggtcgt ggatgaactc 5760 gtcaaagtaa tgggaaggca taagcccgag aatatcgtta tcgagatggc ccgagagaac 5820 caaactaccc agaagggaca gaagaacagt agggaaagga tgaagaggat tgaagagggt 5880 ataaaagaac tggggtccca aatccttaag gaacacccag ttgaaaacac ccagcttcag 5940 aatgagaagc tctacctgta ctacctgcag aacggcaggg acatgtacgt ggatcaggaa 6000 ctggacatca atcggctctc cgactacgac gtggatcata tcgtgcccca gtcttttctc 6060 aaagatgatt ctattgataa taaagtgttg acaagatccg ataaaaatag agggaagagt 6120 gataacgtcc cctcagaaga agttgtcaag aaaatgaaaa attattggcg gcagctgctg 6180 aacgccaaac tgatcacaca acggaagttc gataatctga ctaaggctga acgaggtggc 6240 ctgtctgagt tggataaagc cggcttcatc aaaaggcagc ttgttgagac acgccagatc 6300 accaagcacg tggcccaaat tctcgattca cgcatgaaca ccaagtacga tgaaaatgac 6360 aaactgattc gagaggtgaa agttattact ctgaagtcta agctggtctc agatttcaga 6420 aaggactttc agttttataa ggtgagagag atcaacaatt accaccatgc gcatgatgcc 6480 tacctgaatg cagtggtagg cactgcactt atcaaaaaat atcccaagct tgaatctgaa 6540 tttgtttacg gagactataa agtgtacgat gttaggaaaa tgatcgcaaa gtctgagcag 6600 gaaataggca aggccaccgc taagtacttc ttttacagca atattatgaa ttttttcaag 6660 accgagatta cactggccaa ttcgcataga tgctacgttc tctttgaatt aaaacgacgg 6720 ggtgaacgta gagcgtgttt ttggggctat gctgtgaata aaccacagag cgggacagaa 6780 cgtggcattc acgccgaaat ctttagcatt agaaaagtcg aagaatacct gcgcgacaac 6840 cccggacaat tcacgataaa ttggtactca tcctggagtc cttgtgcaga ttgcgctgaa 6900 aagatcttag aatggtataa ccaggagctg cgggggaacg gccacacttt gaaaatcgaa 6960 gcttgcaaac tctattacga gaaaaatgcg aggaatcaaa ttgggctgca aaacctcaga 7020 gataacgggg ttgggttgaa tgtaggcgga ggcggtagcg acgtcggtgg aggttcagga 7080 gagattcgga agcgaccact tatcgaaaca aacggagaaa caggagaaat cgtgtgggac 7140 aagggtaggg atttcgcgac agtccggaag gtcctgtcca tgccgcaggt gaacatcgtt 7200 aaaaagaccg aagtacagac cggaggcttc tccaaggaaa gtatcctccc gaaaaggaac 7260 agcgacaagc tgatcgcacg caaaaaagat tgggacccca agaaatacgg cggattcgat 7320 tctcctacag tcgcttacag tgtactggtt gtggccaaag tggagaaagg gaagtctaaa 7380 aaactcaaaa gcgtcaagga actgctgggc atcacaatca tggagcgatc aagcttcgaa 7440 aaaaacccca tcgactttct cgaggcgaaa ggatataaag aggtcaaaaa agacctcatc 7500 attaagcttc ccaagtactc tctctttgag cttgaaaacg gccggaaacg aatgctcgct 7560 agtgcgggcg agctgcagaa aggtaacgag ctggcactgc cctctaaata cgttaatttc 7620 ttgtatctgg ccagccacta tgaaaagctc aaagggtctc ccgaagataa tgagcagaag 7680 cagctgttcg tggaacaaca caaacactac cttgatgaga tcatcgagca aataagcgaa 7740 ttctccaaaa gagtgatcct cgccgacgct aacctcgata aggtgctttc tgcttacaat 7800 aagcacaggg ataagcccat cagggagcag gcagaaaaca ttatccactt gtttactctg 7860 accaacttgg gcgcgcctgc agccttcaag tacttcgaca ccaccataga cagaaagcgg 7920 tacacctcta caaaggaggt cctggacgcc acactgattc atcagtcaat tacggggctc 7980 tatgaaacaa gaatcgacct ctctcagctc ggtggagaca gcagggctga ccccaagaag 8040 aagaggaagg tgtgatctct tctcgagtca tgtaattagt tatgtcacgc ttacattcac 8100 gccctccccc cacatccgct ctaaccgaaa aggaaggagt tagacaacct gaagtctagg 8160 tccctattta tttttttata gttatgttag tattaagaac gttatttata tttcaaattt 8220 ttcttttttt tctgtacaga cgcgtgtacg catgtaacat tatactgaaa accttgcttg 8280 agaaggtttt gggacgctcg aaggctttaa tttgcggccg gtacccaatt cgccctatag 8340 tgagtcgtat tacgcgcgct cactggccgt cgttttacaa cgtcgtgact gggaaaaccc 8400 tggcgttacc caacttaatc gccttgcagc acatccccct ttcgccagct ggcgtaatag 8460 cgaagaggcc cgcaccgatc gcccttccca acagttgcgc agcctgaatg gcgaatggac 8520 gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct 8580 acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt tctcgccacg 8640 ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt ccgatttagt 8700 gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg tagtgggcca 8760 tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt taatagtgga 8820 ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt tgatttataa 8880 gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca aaaatttaac 8940 gcgaatttta acaaaatatt aacgtttaca atttcctgat gcggtatttt ctccttacgc 9000 atctgtgcgg tatttcacac cgcatatcga cggtcgagga gaacttctag tatatccaca 9060 tacctaatat tattgcctta ttaaaaatgg aatcccaaca attacatcaa aatccacatt 9120 ctcttcaaaa tcaattgtcc tgtacttcct tgttcatgtg tgttcaaaaa cgttatattt 9180 ataggataat tatactctat ttctcaacaa gtaattggtt gtttggccga gcggtctaag 9240 gcgcctgatt caagaaatat cttgaccgca gttaactgtg ggaatactca ggtatcgtaa 9300 gatgcaagag ttcgaatctc ttagcaacca ttattttttt cctcaacata acgagaacac 9360 acaggggcgc tatcgcacag aatcaaattc gatgactgga aattttttgt taatttcaga 9420 ggtcgcctga cgcatatacc tttttcaact gaaaaattgg gagaaaaagg aaaggtgaga 9480 ggccggaacc ggcttttcat atagaataga gaagcgttca tgactaaatg cttgcatcac 9540 aatacttgaa gttgacaata ttatttaagg acctattgtt ttttccaata ggtggttagc 9600 aatcgtctta ctttctaact tttcttacct tttacatttc agcaatatat atatatattt 9660 caaggatata ccattctaat gtctgcccct atgtctgccc ctaagaagat cgtcgttttg 9720 ccaggtgacc acgttggtca agaaatcaca gccgaagcca ttaaggttct taaagctatt 9780 tctgatgttc gttccaatgt caagttcgat ttcgaaaatc atttaattgg tggtgctgct 9840 atcgatgcta caggtgtccc acttccagat gaggcgctgg aagcctccaa gaaggttgat 9900 gccgttttgt taggtgctgt gggtggtcct aaatggggta ccggtagtgt tagacctgaa 9960 caaggtttac taaaaatccg taaagaactt caattgtacg ccaacttaag accatgtaac 10020 tttgcatccg actctctttt agacttatct ccaatcaagc cacaatttgc taaaggtact 10080 gacttcgttg ttgtcagaga attagtggga ggtatttact ttggtaagag aaaggaagac 10140 gatggtgatg gtgtcgcttg ggatagtgaa caatacaccg ttccagaagt gcaaagaatc 10200 acaagaatgg ccgctttcat ggccctacaa catgagccac cattgcctat ttggtccttg 10260 gataaagcta atgttttggc ctcttcaaga ttatggagaa aaactgtgga ggaaaccatc 10320 aagaacgaat tccctacatt gaaggttcaa catcaattga ttgattctgc cgccatgatc 10380 ctagttaaga acccaaccca cctaaatggt attataatca ccagcaacat gtttggtgat 10440 atcatctccg atgaagcctc cgttatccca ggttccttgg gtttgttgcc atctgcgtcc 10500 ttggcctctt tgccagacaa gaacaccgca tttggtttgt acgaaccatg ccacggttct 10560 gctccagatt tgccaaagaa taaggtcaac cctatcgcca ctatcttgtc tgctgcaatg 10620 atgttgaaat tgtcattgaa cttgcctgaa gaaggtaagg ccattgaaga tgcagttaaa 10680 aaggttttgg atgcaggtat cagaactggt gatttaggtg gttccaacag taccaccgaa 10740 gtcggtgatg ctgtcgccga agaagttaag aaaatccttg cttaaaaaga ttctcttttt 10800 ttatgatatt tgtacataaa ctttataaat gaaattcata atagaaacga cacgaaatta 10860 caaaatggaa tatgttcata gggtagacga aactatatac gcaatctaca tacatttatc 10920 aagaaggaga aaaaggagga tgtaaaggaa tacaggtaag caaattgata ctaatggctc 10980 aacgtgataa ggaaaaagaa ttgcacttta acattaatat tgacaaggag gagggcacca 11040 cacaaaaagt taggtgtaac agaaaatcat gaaactatga ttcctaattt atatattgga 11100 ggattttctc taaaaaaaaa aaaatacaac aaataaaaaa cactcaatga cctgaccatt 11160 tgatggagtt taagtcaata ccttcttgaa ccatttccca taatggtgaa agttccctca 11220 agaattttac tctgtcagaa acggccttac gacgtagtcg atatggtgca ctctcagtac 11280 aatctgctct gatgccgcat agttaagcca gccccgacac ccgccaacac ccgctgacgc 11340 gccctgacgg gcttgtctgc tcccggcatc cgcttacaga caagctgtga ccgtctccgg 11400 gagctgcatg tgtcagaggt tttcaccgtc atcaccgaaa cgcgcga 11447 <210> 16 <211> 5860 <212> DNA <213> Artificial Sequence <220> <223> full-length sequence of vector pAL50 <220> <221> rep_origin <222> (11)..(599) <223> ori <220> <221> gene <222> (773)..(1630) <223> AmpR <220> <221> promoter <222> (1631)..(1735) <223> AmpR promoter <220> <221> misc_feature <222> (1751)..(1831) <223> Scp1 <220> <221> misc_feature <222> (1838)..(1847) <223> Kozak sequence <220> <221> misc_feature <222> (1844)..(1894) <223> NLS unit <220> <221> sig_peptide <222> (1850)..(1870) <223> SV40 NLS <220> <221> gene <222> (1895)..(2275) <223> nSaCas9(D10A) <220> <221> mutation <222> (1919)..(1921) <223> D10A <220> <221> gene <222> (2276)..(2638) <223> HsPmCDA1(30E150_W122E_W139Q) <220> <221> mutation <222> (2552)..(2554) <223> W122E <220> <221> misc_feature <222> (2639)..(2671) <223> 6xGS Linker <220> <221> gene <222> (2672)..(5446) <223> nSaCas9(D10A) <220> <221> sig_peptide <222> (5456)..(5476) <223> SV40 NLS <220> <221> gene <222> (5483)..(5734) <223> Ugi <220> <221> polyA_signal <222> (5738)..(5786) <223> polyA signal <220> <221> promoter <222> (5787)..(5791) <223> H1 promoter <220> <221> enhancer <222> (5811)..(5826) <223> CMV enhance <400> 16 tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 60 gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 120 ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 180 cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 240 tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 300 tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 360 cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 420 agtggtggcc taactacggc tacactagaa gaacagtatt tggtatctgc gctctgctga 480 agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 540 gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 600 aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 660 ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 720 gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 780 taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 840 tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 900 tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 960 gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 1020 gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 1080 ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 1140 cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 1200 tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 1260 cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 1320 agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 1380 cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 1440 aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 1500 aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 1560 gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 1620 gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 1680 tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcggtcga 1740 cgtcgctagc gtacttatat aagggggtgg gggcgcgttc gtcctcagtc gcgatcgaac 1800 actcgagccg agcagacgtg cctacggacc gtctagagcc accatggcac cgaagaagaa 1860 gcgtaaagtc ggaatccacg gagttcctgc ggcaaagcga aattacattc tggggctggc 1920 cattggcatt acatcagtgg gctatggcat cattgactac gagacaaggg acgtgatcga 1980 cgccggcgtg agactgttca aggaggccaa cgtggagaac aatgagggcc ggagatccaa 2040 gaggggagca aggcgcctga agcggagaag gcgccacaga atccagagag tgaagaagct 2100 gctgttcgat tacaacctgc tgaccgacca ctccgagctg tctggcatca atccttatga 2160 ggccagagtg aagggcctgt cccagaagct gtctgaggag gagtttagcg ccgccctgct 2220 gcacctggca aagaggagag gcgtgcacaa cgtgaatgag gtggaggagg acacctcaca 2280 ccgctgctac gtgctgtttg agttgaagcg aaggggcgaa agaagggctt gcttttgggg 2340 ctatgccgtc aacaagcccc aaagtggcac cgagagagga atacacgctg agatattcag 2400 tatccgaaag gtggaagagt atcttcggga taatcctggg cagtttacga tcaactggta 2460 ttccagctgg agtccttgcg ctgattgtgc cgagaaaatt ctggaatggt ataatcagga 2520 acttcgggga aacgggcaca cattgaaaat cgaagcctgc aagctgtact acgagaagaa 2580 tgcccggaac cagataggac tccagaatct gagggacaat ggtgtaggcc tgaacgtggg 2640 tggaggtggc agtgatgtcg gcggaggctc cggcaacgag ctgtccacaa aggagcagat 2700 cagccgcaat tccaaggccc tggaggagaa gtatgtggcc gagctgcagc tggagcggct 2760 gaagaaggat ggcgaggtga ggggctccat caatcgcttc aagacctctg actacgtgaa 2820 ggaggccaag cagctgctga aggtgcagaa ggcctaccac cagctggatc agtcctttat 2880 cgatacatat atcgacctgc tggagacaag gcgcacatac tatgagggac caggagaggg 2940 ctctcccttc ggctggaagg acatcaagga gtggtacgag atgctgatgg gccactgcac 3000 ctattttcca gaggagctga gaagcgtgaa gtacgcctat aacgccgatc tgtacaacgc 3060 cctgaatgac ctgaacaacc tggtcatcac cagggatgag aacgagaagc tggagtacta 3120 tgagaagttc cagatcatcg agaacgtgtt caagcagaag aagaagccta cactgaagca 3180 gatcgccaag gagatcctgg tgaacgagga ggacatcaag ggctaccgcg tgacctccac 3240 aggcaagcca gagttcacca atctgaaggt gtatcacgat atcaaggaca tcacagcccg 3300 gaaggagatc atcgagaacg ccgagctgct ggatcagatc gccaagatcc tgaccatcta 3360 tcagagctcc gaggacatcc aggaggagct gaccaacctg aatagcgagc tgacacagga 3420 ggagatcgag cagatcagca atctgaaggg ctacaccggc acacacaacc tgagcctgaa 3480 ggccatcaat ctgatcctgg atgagctgtg gcacacaaac gacaatcaga tcgccatctt 3540 taaccggctg aagctggtgc caaagaaggt ggacctgtcc cagcagaagg agatcccaac 3600 cacactggtg gacgatttca tcctgtctcc cgtggtgaag cggagcttca tccagagcat 3660 caaagtgatc aacgccatca tcaagaagta cggcctgccc aatgatatca tcatcgagct 3720 ggccagggag aagaactcca aggacgccca gaagatgatc aatgagatgc agaagaggaa 3780 ccgccagacc aatgagcgga tcgaggagat catcagaacc acaggcaagg agaacgccaa 3840 gtacctgatc gagaagatca agctgcacga tatgcaggag ggcaagtgtc tgtattctct 3900 ggaggccatc cctctggagg acctgctgaa caatccattc aactacgagg tggatcacat 3960 catcccccgg agcgtgagct tcgacaattc ttttaacaat aaggtgctgg tgaagcagga 4020 ggagaacagc aagaagggca ataggacccc tttccagtac ctgtctagct ccgattctaa 4080 gatcagctac gagacattca agaagcacat cctgaatctg gccaagggca agggccgcat 4140 cagcaagacc aagaaggagt acctgctgga ggagcgggac atcaacagat tctccgtgca 4200 gaaggacttc atcaaccgga atctggtgga caccagatac gccacacgcg gcctgatgaa 4260 tctgctgcgg tcttatttca gagtgaacaa tctggatgtg aaggtgaaga gtatcaacgg 4320 cggcttcacc tcctttctgc ggagaaagtg gaagtttaag aaggagcgca acaagggcta 4380 taagcaccac gccgaggatg ccctgatcat cgccaatgcc gacttcatct ttaaggagtg 4440 gaagaagctg gacaaggcca agaaagtgat ggagaaccag atgttcgagg agaagcaggc 4500 cgagagcatg cccgagatcg agacagagca ggagtacaag gagattttca tcacacctca 4560 ccagatcaag cacatcaagg acttcaagga ctacaagtat tctcacaggg tggataagaa 4620 gcccaaccgc gagctgatca atgacaccct gtatagcaca cggaaggacg ataagggcaa 4680 taccctgatc gtgaacaatc tgaacggcct gtacgacaag gataatgaca agctgaagaa 4740 gctgatcaac aagtctcccg agaagctgct gatgtaccac cacgatcctc agacatatca 4800 gaagctgaag ctgatcatgg agcagtacgg cgacgagaag aacccactgt ataagtacta 4860 tgaggagaca ggcaactacc tgacaaagta tagcaagaag gataatggcc ccgtgatcaa 4920 gaagatcaag tactatggca acaagctgaa tgcccacctg gacatcaccg acgattaccc 4980 taactctcgc aataaggtgg tgaagctgag cctgaagcca taccggttcg acgtgtacct 5040 ggacaacggc gtgtataagt ttgtgacagt gaagaatctg gatgtgatca agaaggagaa 5100 ctactatgag gtgaacagca agtgctacga ggaggccaag aagctgaaga agatcagcaa 5160 ccaggccgag ttcatcgcct ctttttacaa caatgacctg atcaagatca atggcgagct 5220 gtatagagtg atcggcgtga acaatgatct gctgaacaga atcgaagtga atatgatcga 5280 catcacctac agggagtatc tggagaacat gaatgataag aggccccctc gcatcatcaa 5340 gaccatcgcc tctaagacac agagcatcaa gaagtacagc acagacatcc tggggaacct 5400 gtatgaagtc aagagcaaga aacatcctca gattatcaag aaaggcggtg gaggtcccaa 5460 gaagaaaaga aaagtcggta ccatgaccaa cctttccgac atcatagaga aggaaacagg 5520 caaacagttg gtcatccaag agtcgatact catgcttcct gaagaagttg aggaggtcat 5580 tgggaataag ccggaaagtg acattctcgt acacactgcg tatgatgaga gcaccgatga 5640 gaacgtgatg ctgctcacgt cagatgcccc agagtacaaa ccctgggctc tggtgattca 5700 ggactctaat ggagagaaca agatcaagat gctatagaat aaaagatctt tattttcatt 5760 agatctgtgt gttggttttt tgtgtgaatt cactagtggg cccacgcgtt gacattgatt 5820 attgaccagc aaaaggccag gaaccgtaaa aaggccgcgt 5860 <210> 17 <211> 20 <212> DNA <213> Homo sapiens <400> 17 gatgttccaa tcagtacgca 20 <210> 18 <211> 20 <212> DNA <213> Homo sapiens <400> 18 gatgttccaa tcagtacgca 20 <210> 19 <211> 20 <212> DNA <213> Homo sapiens <400> 19 gatgttccaa tcagtacgca 20 <210> 20 <211> 20 <212> DNA <213> Homo sapiens <400> 20 gatgttccaa tcagtacgca 20 <210> 21 <211> 7 <212> PRT <213> Homo sapiens <400> 21 Val Arg Trp Ala Lys Gly Arg 1 5 <210> 22 <211> 22 <212> PRT <213> Homo sapiens <400> 22 Lys Ala Trp Glu Gly Leu His Glu Asn Ser Val Arg Leu Ser Arg Gln 1 5 10 15 Leu Arg Arg Ile Leu Leu 20 <210> 23 <211> 7 <212> PRT <213> Petromyzon marinus <400> 23 Gln Phe Phe Asn Asn Lys Lys 1 5 <210> 24 <211> 21 <212> PRT <213> Petromyzon marinus <400> 24 Asn Glu Asn Arg Trp Leu Glu Lys Thr Leu Lys Arg Ala Glu Lys Arg 1 5 10 15 Arg Ser Glu Leu Ser 20

Claims

핵산 서열 인식 모듈과, 데아미나아제가 결합한 복합체로서,
해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고,
해당 데아미나아제는, 해당 데아미나아제에 대응하는 야생형 데아미나아제보다도 사이즈가 작으며, 또한 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록 개변되어 있고,
해당 이중쇄 DNA의 표적화된 부위를 개변하는 능력을 갖는, 복합체.
제1항에 있어서, 상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 복합체.
제1항 또는 제2항에 있어서, 상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 복합체.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 최소화되도록 개변되는, 복합체.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이 최소화되도록 개변되는, 복합체.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 데아미나아제는, 상기 야생형 데아미나아제의 N 말단측 및 C 말단측이 개변되는, 복합체.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 데아미나아제에 있어서의 노출된 소수성의 내부 아미노산 잔기의 적어도 하나가, 친수성의 아미노산 잔기로 치환되는, 복합체.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 데아미나아제가 시티딘 데아미나아제를 포함하는, 복합체.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 데아미나아제가,
(1) 서열 번호 1로 표시되는 아미노산 서열에 있어서의 30 위치 내지 150 위치의 아미노산 잔기의 영역으로 이루어지는 아미노산 서열,
(2) 서열 번호 1로 표시되는 아미노산 서열로 이루어지는 단백질의 오르토로그이며, (1)의 영역에 대응하는 영역으로 이루어지는 아미노산 서열,
(3) (1) 또는 (2)의 아미노산 서열에 있어서, 1 또는 수개의 아미노산이 결실, 치환, 삽입 및/또는 부가된 아미노산 서열, 또는
(4) (1) 또는 (2)의 아미노산 서열과 90% 이상의 유사성 또는 동일성을 갖는 아미노산 서열
로 이루어지는, 복합체.
제9항에 있어서, 상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치, 126 위치 및 139 위치로 이루어지는 군으로부터 선택되는 위치의 아미노산 잔기 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 1개소 이상의 치환을 포함하는, 복합체
제9항 또는 제10항에 있어서, 상기 (3)의 아미노산 서열이, 서열 번호 1로 표시되는 아미노산 서열에 있어서의 122 위치의 아미노산 잔기 및 139 위치의 아미노산 잔기, 또는 해당 위치에 대응하는 아미노산 잔기의 친수성 아미노산 잔기로의 2개소 이상의 치환을 포함하는, 복합체.
제1항 내지 제11항 중 어느 한 항에 있어서, 상기 핵산 서열 인식 모듈이, Cas 단백질의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어지는 군으로부터 선택되는, 복합체.
제1항 내지 제12항 중 어느 한 항에 있어서, 상기 핵산 서열 인식 모듈이, Cas 단백질의 1개의 DNA 절단능이 실활된 CRISPR-Cas 시스템인, 복합체.
제12항 또는 제13항에 있어서, 상기 Cas 단백질이 Cas9 단백질인, 복합체.
핵산 서열 인식 모듈의 N 말단 단편과, 데아미나아제와, 핵산 서열 인식 모듈의 C 말단 단편이 결합한 복합체로서,
해당 핵산 서열 인식 모듈의 N 말단 단편과 C 말단 단편이 리폴딩되었을 경우에, 해당 핵산 서열 인식 모듈은, 이중쇄 DNA 중의 표적 뉴클레오티드 서열과 특이적으로 결합하고, 해당 이중쇄 DNA의 표적화된 부위를 개변하는 능력을 갖는 복합체.
제15항에 있어서, 상기 데아미나아제는, 상기 데아미나아제에 대응하는 야생형 데아미나아제보다도 사이즈가 작으며, 또한 개변한 결과 노출되는 단면의 면적 또는 해당 면적을 나타내는 지수가 소정값 이하가 되도록 개변되어 있는, 복합체.
제15항 또는 제16항에 있어서, 상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 복합체.
제15항 내지 제17항 중 어느 한 항에 있어서, 상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이, 소정값 이하가 되도록 개변되어 있고, 해당 개변은 결실을 포함하는, 복합체.
제15항 내지 제18항 중 어느 한 항에 있어서, 상기 데아미나아제는, 상기 데아미나아제를 개변한 결과 노출되는 단면에 나타나는 소수성 아미노산 잔기의 수가 최소화되도록 개변되는, 복합체.
제15항 내지 제19항 중 어느 한 항에 있어서, 상기 데아미나아제는, 개변시킨 아미노산 잔기의 수에 대한, 개변한 결과 노출되는 단면에 나타나는 소수성 잔기의 비율이 최소화되도록 개변되는, 복합체.
제15항 내지 제20항 중 어느 한 항에 있어서, 상기 데아미나아제는, 상기 야생형 데아미나아제의 N 말단측 및 C 말단측이 개변되는, 복합체.
제15항 내지 제21항 중 어느 한 항에 있어서, 상기 데아미나아제에 있어서의 노출된 소수성의 내부 아미노산 잔기의 적어도 하나가, 친수성의 아미노산 잔기로 치환되는, 복합체.
제15항 내지 제22항 중 어느 한 항에 있어서, 상기 데아미나아제가 시티딘 데아미나아제를 포함하는, 복합체.
제15항 내지 제23항 중 어느 한 항에 있어서, 상기 데아미나아제가
(1) 서열 번호 1로 표시되는 아미노산 서열에 있어서의 30 위치 내지 150 위치의 아미노산 잔기의 영역으로 이루어지는 아미노산 서열,
(2) 서열 번호 1로 표시되는 아미노산 서열로 이루어지는 단백질의 오르토로그이며, (1)의 영역에 대응하는 영역으로 이루어지는 아미노산 서열,
(3) (1) 또는 (2)의 아미노산 서열에 있어서, 1 또는 수개의 아미노산이 결실, 치환, 삽입 및/또는 부가된 아미노산 서열, 또는
(4) (1) 또는 (2)의 아미노산 서열과 90% 이상의 유사성 또는 동일성을 갖는 아미노산 서열
로 이루어지는, 복합체.
제15항 내지 제24항 중 어느 한 항에 있어서, 상기 핵산 서열 인식 모듈이, Cas 단백질의 적어도 하나의 DNA 절단능이 실활된 CRISPR-Cas 시스템, 징크 핑거 모티프, TAL 이펙터 및 PPR 모티프로 이루어지는 군으로부터 선택되는, 복합체.
제1항 내지 제25항 중 어느 한 항에 기재된 복합체를 코드하는 핵산.
제26항에 기재된 핵산을 포함하는 벡터.
제27항에 있어서, 아데노 수반 바이러스 벡터인, 벡터.
세포가 갖는 이중쇄 DNA의 표적화된 부위를 개변하는 방법으로서, 제1항 내지 제25항 중 어느 한 항에 기재된 복합체를 해당 이중쇄 DNA와 접촉시키는 공정을 포함하는, 방법.
제29항에 있어서, 이중쇄 DNA와 복합체의 접촉이, 상기 세포로의, 제26항 내지 제28항 중 어느 한 항에 기재된 핵산 또는 벡터의 도입에 의해 이루어지는, 방법.