KR20190117536A

KR20190117536A - 식물 세포에서 표적 유전적 변형 방법

Info

Publication number: KR20190117536A
Application number: KR1020197023993A
Authority: KR
Inventors: 파울 본독
Original assignee: 키진 엔.브이.
Priority date: 2017-02-15
Filing date: 2018-02-15
Publication date: 2019-10-16
Also published as: WO2018149915A1; EP3582609A1; JP2020505937A; IL268597A; US20200190527A1

Abstract

본 발명은 세포, 바람직하게는 식물 세포에서 표적화된 유전자 변형 방법뿐만 아니라, 부위-특이적 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질 또는 이를 코딩하는 구조체를 사용하여 수득된 식물 세포 및 식물에 관한 것이다. 상기 방법은 또한 바람직하게는 본 발명의 방법에 사용하기 위한 시토신 디아미나아제 도메인을 포함하는 제1 융합 단백질과 아데닌 디아미나아제 도메인을 포함하는 제2 융합 단백질의 조합을 포함하는 조성물 및 키트를 제공한다. 상기 방법은 효능이 증가된 식물 세포에서 DNA 이중체의 표적화된 변형을 제공한다.

Description

식물 세포에서 표적 유전적 변형 방법

살아있는 세포의 유전 물질에서 의도적으로 변형을 생성하는 과정은 일반적으로 그 세포, 또는 그 세포가 일부분을 형성하거나 재생할 수 있는 유기체의 하나 이상의 유전적으로 코딩된 생물학적 특성을 변경하는 것을 목표로 한다. 이러한 변화는 유전 물질의 일부의 삭제, 외인성 유전 물질의 부가, 또는 유전 물질의 기존 뉴클레오티드 서열의 변화의 형태를 취할 수 있다.

진핵 유기체의 유전 물질을 변경시키는 방법은 20년 넘게 알려져 왔으며, 농업, 인간 건강, 식품 품질 및 환경 보호의 분야에서 개선을 위해 식물, 인간 및 동물 세포 및 미생물에 널리 적용되어온 것으로 밝혀졌다.

가장 일반적인 방법은 세포의 게놈에 외인성 DNA 단편을 추가하는 것으로 구성되며, 이는 그 다음에 그 세포 또는 이의 유기체에 그리고 (기존 유전자의 발현이 이에 의해 억제되는 적용을 포함하여) 이미 존재하는 유전자에 의해 코딩된 특성을 넘어 새로운 특성을 부여할 것이다. 이러한 많은 예가 원하는 특성을 얻는 데 효과적이지만, 그럼에도 불구하고 외인성 DNA 단편이 삽입될 수 있는 게놈 위치에 대한 통제가 없기 때문에 (이에 따라 최종 발현 수준에 대한 통제가 없기 때문에), 그리고 원하는 효과는 원래의 잘 균형 잡힌 게놈에 의해 코딩된 자연적 특성에 대해 그 자체를 나타내어야 하기 때문에, 이러한 방법은 그다지 정확하지 않다.

이와 상반적으로, 미리 정해진, 즉, 표적화된 게놈 좌위(genomic loci)에서 뉴클레오타이드의 부가, 결실 또는 전환을 초래하는 게놈 편집 방법은, 예를 들어 기존 유전자에서 게놈의 정확한 변형을 가능하게 할 것이다.

징크 핑거 뉴클레아제(ZFN), 전사 활성제 유사 이펙터 뉴클레아제(TALEN), 및 크리스퍼(Clustered regularly interspaced short palindromic repeat, CRISPR)와 같은 부위-특이적 뉴클레아제를 사용함으로써, 표적 DNA 변형 기술분야가 급속하게 발전하고 있다. 표적화된 DNA 변형의 메커니즘을 이해하는 데 있어서 최근의 진보에도 불구하고, 식물 물질에서의 표적화된 변형이 여전히 항상 성공적이거나 효율적인 것은 아니다. 사실, 이용 가능한 방법론은 종종 동물, 특히 인간의 세포 물질에 최적화되어 있으며, 식물 세포에 특이적으로 적용될 경우에 항상 성공적이거나 효율적이지 않다. 따라서, 표적화된 변형이 이러한 식물 세포에 특이적으로 고안된 시스템 및 프로토콜로 도입된, 식물 세포를 제공하는 새로운 방법에 대한 요구가 있다. 식물 세포에서 DNA의 표적화된 변형 방법은, 바람직하게, 당해 기술 분야에 공지된 방법과 비교하여 다양한 식물 세포 및 적절한 효율로 성공적으로 적용될 수 있다.

이러한 관점에서, 식물 세포에서 DNA의 표적화된 변형 및 표적화된 변형이 도입된 식물 세포 및 식물을 제공하기 위한 새로운 방법이 매우 바람직할 것이다. 특히, 식물 세포에서 DNA 분자의 효율적인 표적화된 변형을 가능하게 하는, 신뢰성 있고, 효율적이며, 재현가능하며, 특히 표적화된 방법에 대한 당 업계의 명백한 요구가 존재한다. 따라서, 본 발명의 기초가 되는 기술적 문제는 상기 언급된 어느 요구를 충족시키기 위한 방법의 제공에서 찾아볼 수 있다. 기술적인 문제는 청구항 및 이하에서 특징지어지는 구현에 의해 해결된다.

최근에, 프로그램가능한 디아미나아제가 보고된 바 있다(Komor et al., 2016, Nature 533: 420-424, Yang et al., 2016 Nature Communications 7: 13330; Gaudelli et al., 2017 Nature 551: 464-471). 본 발명자들은 프로그램가능한 디아미나아제(의 조합)를 사용한 식물 세포의 효과적인 게놈 편집을 최초로 보고한다.

본 발명은 세포, 바람직하게는 식물 세포에서 표적 뉴클레오티드 편집 방법을 제공하며, 이 방법은 세포 내 DNA를 부위 특이적 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질과 접촉시키는 단계를 포함한다. 바람직하게, 상기 부위 특이적 뉴클레아제 도메인은 CRISPR-뉴클레아제이고, 상기 방법은 DNA를 하나 이상의 가이드 RNAs와 접촉시키는 단계를 추가로 포함하며, 각각의 가이드 RNA는 부위 특이적 뉴클레아제를 DNA 내의 표적 서열로 표적화하기 위한 가이드 서열을 포함한다. 바람직하게, 상기 CRISPR-뉴클레아제는 Cas9 또는 Cpf1이다. 바람직하게, 디아미나아제 도메인은 아포리포프로틴 B mRNA-에디팅 복합체(APOBEC) 패밀리 디아미나아제, 활성화-유도된 시토신 디아미나아제(AID), ACF1/ASE 디아미나아제, 아데닌 디아미나아제 및 ADAT 패밀리 디아미나아제로 구성되는 그룹으로부터 선택된다.

바람직하게, 적어도 하나의 융합 단백질에서 디아미나아제 도메인은 뉴클레아제 도메인의 N-말단에 융합된다.

바람직하게, 본 발명의 방법은 DNA를 적어도 제1 및 제2 융합 단백질과 접촉시키는 단계를 포함하며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함한다.

시토신 디아미나아제를 포함하는 융합 단백질은 우라실 DNA 글리코실라아제 인히비터 도메인을 추가로 포함할 수 있으며, 이는 바람직하게 뉴클레아제 도메인의 C-말단에 융합된다.

선택적으로, 본 발명의 방법에 사용되는 적어도 하나의 융합 단백질 및/또는 하나 이상의 가이드 RNAs는 세포에서 상기 융합 단백질 및/또는 상기 가이드 RNA의 발현을 위한 하나 이상의 DNA 구조체를 세포 내로 도입함으로써 DNA에 접촉된다.

선택적으로, 본 발명의 방법에 사용되는 적어도 하나의 융합 단백질 및/또는 하나 이상의 가이드 RNAs는 상기 융합 단백질 및/또는 상기 가이드 RNA를 세포 내로 도입함으로써 DNA에 접촉된다.

바람직하게, 융합 단백질, 하나 이상의 가이드 RNAs 및/또는 이를 코딩하는 구조체는 폴리에틸렌 글리콜 매개 트랜스포매이션을 사용하여, 바람직하게는 PEG를 포함하는 수성 매질을 사용하여 세포 내로 도입된다. 본 발명의 방법의 세포가 식물 세포인 경우, 본 발명의 방법은 표적화된 변형을 포함하는 식물 또는 이의 자손을 재생하는 단계를 추가로 포함할 수 있다.

본 발명은 또한 본 발명의 방법에 의해 수득된 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포를 제공하며, 여기서 세포는 식물 세포이며, 여기서 식물, 식물 부분, 종자 또는 식물 세포는 컨트롤 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포와 비교하여 도입된 표적화된 변형을 포함함으로써 변경되며, 그리고 여기서 바람직하게 컨트롤 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포는 표적화된 변형이 상기 청구항들 중 어느 방법에 의해 도입되기 전의 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포이다.

본 발명은 또한 세포, 바람직하게는 식물 세포에서 DNA의 표적화된 뉴클레오티드 편집시, 본원에 정의된 바와 같은 적어도 하나의 융합 단백질 또는 이를 코딩하는 구조체의 용도를 제공한다.

본 발명은 또한 본 발명의 제1 및 제2 융합 단백질, 또는 이를 코딩하는 구조체(들)을 포함하는 조성물을 제공하며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함한다.

본 발명은 또한 적어도 하나의 본 발명의 제1 및 제2 융합 단백질을 포함하는 표적 뉴클레오티드 편집용 키트를 제공하며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함한다.

도 1: 디아미나아제-Cas9 융합 구조체의 뉴클레오티드 및 단백질 서열. 뉴클레오티드 서열(SEQ ID NO: 1) 및 단백질 서열(SEQ ID NO: 2) 모두에서 rAPOBEC-Cas9-UGI-NLS 구조체에 대해, rAPOBEC 서열은 이탤릭체로 나타내고, Cas9 서열은 굵게 표시하고, UGI 시퀀스는 밑줄친 이탤릭체로 표시되고, 스페이서는 밑줄이 있는 일반 글꼴로 표시되며, 그리고 NLS 서열은 굵은 이탤릭체로 표시된다. D10 및 H840 아미노산 코돈/잔기는 음영 처리된다. 구조체 KG10098에서 D10A 변경이 도입되었다. 뉴클레오티드 서열(SEQ ID NO: 3) 및 단백질 서열(SEQ ID NO: 4) 모두에서의 TadA-Cas9 D10A-NLS 구조체에 있어서, 디아미나아제 도메인은 이탤릭체로 표시되고, 스페이서는 밑줄친 일반 글꼴로 표시되며, Cas9 D10A 서열은 굵게 표시되고 NLS 서열은 굵은 이탤릭체로 표시된다.
도 2: 사용된 sgRNA 카세트(SEQ ID NO: 5-12). 아라비돕시스(Arabidopsis) U6 프로모터의 서열은 밑줄로 표시되고, 표적 위치와 동일한 sgRNA의 20bps는 굵게 표시되고, sgRNA의 나머지는 이탤릭체로 표시된다.
도 3: 토마토의 LIN5 위치에서의 표적 염기 변화. KG10098(pK2GW7::rAPOBEC1-Cas9 D10A-UGI-NLS), KG10126(pK2GW7::rAPOBEC1-Cas9-UGI-NLS) 또는 KG10436(TadA-Cas9 D10A- NLS)가 LIN5 sgRNA 발현 플라스미드 KG10075(SEQ ID NO: 5) 또는 KG10252(SEQ ID NO: 6)와 조합하여 사용되었다. 20 bps LIN5 표적 부위는 서열 판독의 퍼센트와 함께 레퍼런스(SEQ ID NO: 13-17)로서 표시되며, 이는 특정 서열 변화가 그 서열의 아래에 열거된 것을 나타낸다. 동일한 뉴클레오티드는 도트(.)로 표시되고 누락된 뉴클레오티드는 대시(-)로 표시된다. PAM 서열은 굵게 표시된다.
도 4: 재생된 식물에서 LIN5 위치에서 발견된 돌연변이. KG10075 및 KG10252 표적 서열을 함유하는 LIN5 영역을 상이한 돌연변이 캘리(calli)로부터 재생된 식물로부터 증폭시킨 후 서열 분석하였다. WT 표적 서열이 표시되며(SEQ ID NO: 18),이 아래에 각 식물 라인에서 발견된 서열(SEQ ID NO: 19-24)이 표시된다. 뉴클레오티드 변화는 밑줄이 그어져 있다. Y = (C/T), R = (G/A). 원래의 트랜스펙션에 사용된 LIN5 sgRNA 발현 플라스미드가 또한 표시된다.
도 5: 표적화된 탈아민화를 이용하여 토마토 ALS 위치에서 제초제 내성 생성. 토마토 ALS2 유전자로부터의 표적 부위(이중 스트랜드)의 서열은 굵은 글씨로 나타낸 코돈 P184 및 S640(SEQ ID NO: 25-28)으로 표시된다.
도 6: ALS 코돈 P184 및 S640의 돌연변이 유발. 토마토 ALS2 유전자의 코돈 P184 및 S640을 둘러싼 서열이 표시된다(SEQ ID NO: 29-31). 특정 sgRNA에 의해 도입될 수 있는 돌연변이 및 아미노산 서열에 대한 결과적인 효과가 표시된다. 동일한 뉴클레오티드는 도트(.)로 표시된다.
도 7: ALS 위치에서 C에서 T로의 돌연변이를 갖는 재생된 식물. 돌연변이는 ALS1/ALS2 P186/P184 코돈(A) 및 ALS2 S640 코돈(B)에서 발견되었다. P186/P184 및 S640 코돈에는 밑줄이 표시되어 있고, 각 라인에서 생성되는 돌연변이 및 아미노산 변화가 표시되어 있다.

정의

본 발명의 방법, 조성물, 용도 및 다른 견지에 관한 다양한 용어가 명세서 및 청구범위 전체에 걸쳐 사용된다. 이러한 용어는 달리 지시되지 않는 한 본 발명이 속하는 기술분야에서 통상적인 의미를 부여받는다. 다른 특별히 정의된 용어는 본원에 제공된 정의와 일치하는 방식으로 해석되어야 한다. 본원에 기술된 것과 유사하거나 동등한 임의의 방법 및 물질이 본 발명의 시험을 위해 실제로 사용될 수 있지만, 바람직한 물질 및 방법이 본원에 기술된다.

"하나의(A 및 an)", 및 "상기(the)": 내용이 명확하게 달리 지시하지 않는 한 이러한 단수 형태의 용어에는 복수형이 포함된다. 따라서, 예를 들어, "세포(a cell)"에 대한 언급은 둘 이상의 세포들의 조합 등을 포함한다.

본원에 사용된 바와 같이, 용어 "약(about)"은 작은 변화를 기술하고 설명하는 데 사용된다. 예를 들어, 이 용어는 ±5% 이하, ±4% 이하, ±3% 이하, ±2% 이하, ±1% 이하, ±0.5% 이하, ±0.1% 이하, 또는 ±0.05% 이하와 같이, ±10% 이하를 지칭할 수 있다. 또한, 양, 비율 및 다른 수치 값이 때로는 범위 형식으로 제시된다. 이러한 범위 형식은 편의 및 간결성을 위해 사용되며, 범위의 한계로서 명시적으로 언급된 수치를 포함할 뿐만 아니라 각 숫자 값과 하위 범위가 명시적으로 언급되는 것과 같이 그 범위 내에 포함된 모든 개별 수치 또는 하위 범위를 포함하는 것으로 유연하게 이해되어야 한다. 예를 들어, 약 1 내지 약 200 범위의 비는 명시적으로 언급된 약 1 내지 약 200의 한계를 포함하지만, 약 2, 약 3, 및 약 4, 그리고 약 10 내지 약 50, 약 20 내지 약 100 등과 같은 하위-범위와 같은 개별 비율을 포함하는 것으로 이해되어야 한다.

"및/또는(and/or)": "및/또는"이란 용어는 명시된 경우 중 적어도 하나가 단독으로, 또는 명시된 경우 중 적어도 하나 내지 명시된 경우의 모두와 조합하여 발생할 수 있는 상황을 나타낸다.

"코돈 최적화(codon-optimized)": 이 용어는 제1의 유기체(예, 박테리아)의 핵산의 하나 이상의 코돈이, 제2의 유기체에서 단백질 번역을 적응 및 최적화시키기 위하여, 제2의 상이한 유기체(예, 식물)에서 보다 빈번하게 사용되며 동일한 아미노산을 코딩하는 코돈으로의 치환을 의미한다.

"포함하는(comprising)": 이 용어는 포괄적이고 개방적인 것으로 해석되며 배타적이지 않다. 구체적으로, 이 용어 및 이의 변형은 특정 특징, 단계 또는 구성 요소가 포함됨을 의미한다. 이 용어들은 다른 특징들, 단계들 또는 구성 요소들의 존재를 배제하도록 해석되어서는 안된다.

"구조체(construct)" 또는 "핵산 구조체(nucleic acid construct)" 또는 "벡터(vector)": 재조합 DNA 기술의 사용으로 생겨나는 인공 핵산 분자를 말하며, 종종 구조체 상에 포함되는 DNA 영역의 숙주 세포에서 발현을 목적으로, 외래성 DNA를 숙주 세포에 전달하는 데 사용된다. 구조체의 벡터 백본은 예를 들어 (키메릭) 유전자가 통합된 플라스미드이거나, 또는 적절한 전사 조절 서열이 이미 존재하는 경우(예를 들어 (유도성) 프로모터), 원하는 뉴클레오티드 서열(예를 들어, 코딩 서열)이 전사 조절 서열의 하류에 통합된다. 벡터는 예를 들어 분자 클로닝에서 이들의 사용을 용이하게 하기 위해, 선택가능한 마커, 다중 클로닝 사이트 등과 같은 추가의 유전 요소를 포함할 수 있다.

"예시적인(exemplary)": 이 용어는 "예, 실례, 또는 예시로서 제공되는" 것을 의미하며 본원에 개시된 다른 구성을 배제하는 것으로 해석되어서는 안된다.

"발현(expression)": 이는 적절한 조절 영역, 특히 프로모터에 작동가능하게 연결된 DNA 영역이 RNA로 전사되고, 이어서 단백질 또는 펩티드로 번역되는 과정을 지칭한다.

"가이드 RNA(guide RNA)"는 표적 서열에 대한 CRISPR-뉴클레아제를 표적으로하는 RNA로서 본원에서 이해되어야하고, Cpf1과 조합하여 사용되는 CRISPR RNA(crRNA)이거나, 또는 두 개의 RNA 스트랜드로서 또는 단일 융합체로서 crRNA와 전사촉진(transactivating) crRNA(tracrRNA)의 조합일 수 있으며, 이는 당해 기술분야에서 단일 가이드 RNA(sgRNA)로서 알려져 있다. sgRNA는 crRNA와 전사촉진 CRISPR RNA(tracrRNA)의 적어도 일부 사이의 융합체로서 설계된다. crRNA와 tracrRNA의 조합, 또는 sgRNA는 Cas, 바람직하게는 Cas9와 조합하여 사용될 수 있다.

"가이드 서열(guide sequence)"은 본원에서 sgRNA 또는 crRNA의 섹션으로 이해되어야 하며, 이는 sgRNA 또는 crRNA를 이중 DNA 내의 표적 서열로 표적화하기 위한 것이다.

"식물(plant)": 이는 식물 세포, 식물 원형질체, 식물이 재생될 수 있는 식물 세포 조직 배양물, 식물 캘리, 식물 클럼프, 및 식물 또는 배아, 꽃가루, 밑씨, 종자, 잎, 꽃, 가지, 과일, 커널(kernels), 이삭(ears), 콥(cobs), 껍질, 줄기, 뿌리, 뿌리 끝, 꽃밥, 그레인 등과 같은 식물의 일부 내의 온전한 식물 세포를 포함한다. 식물의 비제한적 예에는 보리, 양배추, 카놀라, 카사바, 콜리플라워, 치커리, 목화, 오이, 가지, 포도, 고추, 상추, 옥수수, 멜론, 유채, 감자, 호박, 벼, 호밀, 수수, 스쿼시, 사탕 수수, 사탕무, 해바라기, 단 고추, 토마토, 수박, 밀 및 주키니와 같은 농작물 및 재배식물이 포함된다.

"핵산 서열(nucleic acid sequence)" 또는 "뉴클레오티드 서열(nucleotide sequence)": 이는 뉴클레오티드의 또는 핵산 내에서의 순서를 지칭한다. 다시 말해서, 핵산에서 임의의 순서의 뉴클레오티드는 핵산 서열의 서열로 지칭될 수 있다. 마찬가지로, "표적 서열(target sequence)"은 표적화될 핵산 내의 뉴클레오티드의 순서, 즉 변형이 도입되는 뉴클레오티드의 순서를 나타내는 것이다. 본 발명의 정황에서, 제1 표적 핵산 서열은 추가의 표적 핵산 서열 내에 포함되거나 그와 중첩될 수 있다. 표적 서열은 DNA 이중체의 제1 스트랜드에 포함된 뉴클레오티드의 순서일 수 있다.

용어 "디아미나아제(deaminase)"는 탈아미노화 반응을 촉매하는 효소를 지칭한다. 일부 구현에서, 디아미나아제는 시토신의 우라실로의 가수분해 탈아미노화를 촉진하는 시토신 디아미나아제이다. 디아미나아제는 또한 아데닌의 탈아미노화를 촉매하여 이에 따라 이를 이노신으로 전환시키는 아데닌 디아미나아제일 수 있다.

본원에 사용된 용어 "유효량(effective amount)"은 원하는 생물학적 반응을 유발하기에 충분한 생물학적으로 활성적인 제제의 양을 지칭한다. 예를 들어, 일부 구현에서, 유효량의 뉴클레아제는 뉴클레아제에 의해 특이적으로 바인딩되고 절단되는 표적 부위의 절단을 유도하기에 충분한 뉴클레아제의 양을 지칭할 수 있다. 일부 구현에서, 본원에 제공된 융합 단백질, 예를 들어 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 융합 단백질의 유효량은 융합 단백질에 의해 특이적으로 바인딩되고 편집되는 표적 부위의 편집을 유도하기에 충분한 융합 단백질의 양을 지칭할 수 있다. 당업자에 의해 이해되는 바와 같이, 제제, 예를 들어 융합 단백질, 뉴클레아제, 디아미나아제, 리콤비나아제, 하이브리드 단백질, 단백질 이량체, 단백질(또는 단백질 이량체)과 폴리뉴클레오티드의 복합체, 또는 폴리뉴클레오티드의 유효량은, 다양한 인자들에 따라, 예를 들어, 원하는 생물학적 반응에 따라, 예를 들어, 편집될 특정 대립 유전자, 게놈 또는 표적 부위에 따라, 표적화 되는 세포 또는 조직에 따라, 그리고 사용되는 제제에 따라 달라질 수 있다.

특정 핵산 또는 폴리펩티드의 뉴클레오티드 또는 폴리펩티드 "변이체(variant)"는 본원에서 특정 뉴클레오티드 또는 폴리펩티드로부터 "유도된(derived)" 뉴클레오티드 또는 폴리펩티드로 이해되어야 한다. 예를 들어, SEQ ID NO: 1 또는 3을 갖는 핵산의 변이체, 또는 SEQ ID NO: 1 또는 3을 갖는 핵산으로부터 유래된 핵산은 바람직하게 각각 SEQ ID NO: 1 또는 3과 적어도 50%, 60%, 70%, 80%, 90, 91, 92, 93, 94, 95, 96, 97, 98 또는 적어도 99% 동일성을 갖는 뉴클레오티드 서열을 포함하거나 이로 구성된다. 추가의 예로서, SEQ ID NO: 2 또는 4를 갖는 폴리펩티드 또는 단백질의 변이체, 또는 SEQ ID NO: 2 또는 4를 갖는 폴리펩티드 또는 단백질로부터 유래된 폴리펩티드 또는 단백질은 바람직하게 각각 SEQ ID NO: 2 또는 4와 적어도 50%, 60%, 70%, 80%, 90, 91, 92, 93, 94, 95, 96, 97, 98 또는 적어도 99% 동일성을 포함하거나 이로 구성되는 아미노산 서열을 포함하거나 이로 구성된다.

상세한 설명

본원에 기재된 어느 방법, 용도 또는 조성물은 본원에 기재된 어느 다른 방법, 용도 또는 조성물과 관련하여 구현될 수 있는 것으로 예상된다. 본 발명의 방법, 용도 및/또는 조성물과 관련하여 논의된 구현은 본원에 기술된 어느 다른 방법, 용도 또는 조성물과 관련하여 사용될 수 있다. 따라서, 하나의 방법, 용도 또는 조성물에 관한 구현은 본 발명의 다른 방법, 용도 및 조성물에도 적용될 수 있다.

본원에 구현되고 광범위하게 기술된 바와 같이, 본 발명은 디아미나아제 도메인에 융합된 부위-특이적 뉴클레아제 도메인을 사용하는 세포, 바람직하게는 식물 세포에서 DNA의 표적화된 편집 방법에 관한 것이다. 보다 특히, 본 발명은 세포에서, 바람직하게는 식물 세포에서 표적화된 뉴클레오티드 편집 방법을 제공하며, 이는 세포 내의 DNA, 바람직하게는 게놈 DNA를 부위-특이적 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질과 접촉시키는 것을 포함한다. 선택적으로, 적어도 2개의 상이한 융합 단백질이 본 발명의 방법에 사용되며, 여기서 바람직하게 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함한다. 본 발명자들은 이 방법을 사용하여 식물 세포의 효과적인 표적화된 뉴클레오티드 편집을 최초로 보고한다. 본 발명에 따른 방법은 식물 세포에 존재하는 이중 DNA에 존재하는 관심 위치에 미리 정의되고 바람직한 변형의 정확한 도입에 특히 적합하지만, 이에 제한되지는 않는다. 본 발명의 방법은 또한 예를 들어, 미생물, 포유 동물 세포, 진핵 세포, 인간 세포 및/또는 동물 세포에 존재하는 이중 DNA에 존재하는 관심 위치에 미리 정의되고 바람직한 변형의 정확한 도입을 위해 사용될 수있다. 바람직하게, 세포가 인간 또는 동물 세포인 경우, 본 발명의 방법은 생체 외(예: 시험관 내) 방법이다. 선택적으로, 본원에 정의된 방법은 인간 또는 동물 신체의 치료 방법이 아니다. 선택적으로, 본원에 정의된 방법은 인간 또는 동물 신체에서 수행되지 않는다. 상기 광범위하게 설명된 예상치 못한 발견에 더하여, 본 발명자들은 또한 본 발명의 방법 내에서, 아래에 상세히 설명되는 바와 같이 몇 가지 다른 인자를 포함함으로써 훨씬 더 최적의 결과가 달성될 수 있음을 발견하였다.

하기 상세한 설명으로부터, 당업자는 세포, 바람직하게는 식물 세포에서 DNA의 표적화된 변형 방법이 또한 그 세포 내의 이중 DNA 분자에서 표적화된 변형 또는 변경을 갖는 세포를 제공하기 위한 방법으로서 사용될 수 있음을 이해할 것이다. 또한, 본 발명의 방법은 그 식물 또는 식물 부분 내의 이중 DNA 분자에서 표적화된 변형 또는 변경을 포함하는, 식물, 및 이의 자손, 또는 식물 부분을 제공할 수 있으며, 여기서 변형 또는 변경은 본 발명에 따른 방법으로 처리되지 않은 식물 또는 식물 부분의 이중 DNA 분자에 대해 상대적이다.

본 발명의 방법으로, 뉴클레오티드에서의 변형(즉, 변화 또는 변경)이 세포의 이중 DNA에 도입되어, 상기 DNA의 서열을 변화시킬 수 있다. 다시 말해서, 표적화된 변형은 이중 DNA에서의 (a) 특정 부위(들)에서 하나 이상의 뉴클레오티드의 특이적이고 선택적인 변형이다.

세포 내의 이중 DNA는 제1 DNA 스트랜드 및 제2 DNA 스트랜드를 포함한다. 제2 DNA 스트랜드는 제1 DNA 스트랜드의 상보체이고, 쌍을 이루어 이중체를 형성한다. 예를 들어, 제1 DNA 스트랜드 서열 ATTT(5'에서 3' 방향으로)의 보체는 TAAA(3'에서 5' 방향으로)이다. 이중 DNA의 DNA는 예를 들어 게놈 DNA, 염색체 DNA, 인공 염색체, 플라스미드 DNA 또는 에피솜 DNA에 내인성 또는 외인성인 어느 유형의 DNA일 수 있다. 이중체는 핵 또는 소기관 DNA일 수 있다. 바람직하게, DNA 이중체는 염색체 DNA, 바람직하게는 세포에 내인성이다. 또한, 용어 "DNA", "이중(duplex) DNA" 및 "DNA 분자"는 단일 스트랜드 DNA 분자가 의도되는 것이 명백한 경우를 제외하고는 본원에서 상호교환적으로 사용될 수 있음을 이해해야 한다.

본 발명의 맥락에서, DNA 이중체의 제1 DNA 스트랜드는 표적 서열을 포함하고, 제2 (상보적인) 스트랜드는 표적 서열에 안티센스이고 표적 서열에 혼성화할 수 있는 뉴클레오티드 서열을 포함한다.

당업자는 "표적 서열"이 표적화될, 즉 변형이 도입될 뉴클레오티드의 순서(즉, 뉴클레오티드 서열)를 나타내는 것임을 이해한다. 다시 말해서, 제1 스트랜드는 본 발명의 방법으로 표적화 되는, 즉 변형이 도입되는 핵산 서열을 포함한다.

표적 서열은 DNA의 특정 부분 또는 섹션으로 제한되지 않는다. 표적 서열은 예를 들어, 인트론 또는 엑손의 일부일 수 있고, 코딩 또는 비코딩 서열의 일부일 수 있고, 그리고/또는 조절 요소의 일부이거나 아닐 수 있다. 따라서, 표적 서열은 제1 스트랜드에 포함된 뉴클레오티드의 순서를 지칭한다. 바람직하게, 표적 서열은 DNA에 1회 또는 2회만 존재한다. 그러나, 표적 서열은 세포의 DNA 내에서 보다 자주, 예를 들어 3, 4, 5, 6, 7, 8, 9 또는 10회 존재할 수 있지만 이에 제한되지는 않는다.

본 발명의 융합 단백질의 부위-특이적 뉴클레아제가 CRISPR-뉴클레아제인 경우, 제1 스트랜드의 표적 서열, 또는 제2 스트랜드의 이의 안티센스 서열은 특정 CRISPR-뉴클레아제가 요구되는 프로토스페이서(protospacer) 인접 모티프(PAM) 서열의 측면에 있거나 이에 뒤 따른다. PAM에 대한 정확한 서열 및 길이 요건은 사용된 CRISPR-뉴클레아제에 따라 다르지만, PAMs은 전형적으로 가이드 RNA의 가이드 서열에 의해 인식되는 서열에 인접한 2-5 개의 염기쌍 서열이다. 당업자는 주어진 CRISPR-뉴클레아제와 함께 사용하기 위한 추가의 PAM 서열을 확인할 수 있을 것이다. 예를 들어, CRISPR 뉴클레아제가 Cas9인 경우, 가이드 서열에 의해 표적화된 서열은 이의 3'말단에서, 예를 들어, 각각 SpCas9 또는 SpCas9 효소(또는 유래된 효소)에 대해 5'-NRG(예, 5'-NGG) 또는 5'-NNGRR와 같이 적절한 PAM에 측면에 있다. 뉴클레아제가 Cpf1인 경우, 가이드 서열에 의해 표적화된 서열은 이의 5'-말단에서 예를 들어, 5'-TTTN과 같이 적절한 PAM에 측면에 있다.

보다 특히 본 발명은 DNA 분자를 부위-특이적 뉴클레아제 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질과 접촉시키는 것을 포함하는, 식물 세포에서 표적화된 뉴클레오티드 편집 방법을 제공한다.

본 발명의 방법에서, 표적화될 DNA를 포함하는 세포, 바람직하게는 식물 세포가 제공되며, 여기서 상기 DNA는 적어도 부위-특이적 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질에 노출된다. 뉴클레아제 도메인이 본원에서 더욱 상세히 설명된 바와 같이 CRISPR-뉴클레아제인 경우, DNA는 융합 단백질을 DNA 스트랜드 내의 표적 서열로 표적화하기 위해 가이드 RNA에 추가로 노출된다. 선택적으로, 융합 단백질 및 임의의 가이드 RNA와 함께, DNA 분자는 본원에 더욱 상세히 설명된 바와 같이 기능성 단백질에 추가로 노출될 수 있다. DNA 분자는 융합 단백질, 및 선택적으로 가이드 RNA 및/또는 추가의 기능성 단백질에 뉴클레오티드 염기의 탈아미노에 적합한 조건 하에서 유효량으로 노출된다. 시토신의 탈아미노화는 우라실로의 직접 전환을 초래하여, 상보적 스트랜드가 표적화되는 경우에 C에서 T로의 치환 또는 G에서 A로의 치환에 영향을 미친다. 아데닌의 탈아민화는 이노신으로의 직접 전환을 초래하여, 상보적 스트랜드가 표적화되는 경우 A에서 G로의 치환 또는 T에서 C로의 치환에 영향을 미친다. 이 방법의 견지는 이하에 더 상세히 설명된다.

식물 세포

본원에 나타낸 바와 같이, 본 발명의 방법은 DNA가 편집되기를 원하는 어느 유형의 세포에 적용될 수 있다. 바람직하게, 세포는 식물 세포이다. 본 발명에 따르면, 식물 세포가 본원에 정의된 바와 같이 (예를 들어, 부위-특이적 뉴클레아제를 포함하는) 융합 단백질에 DNA 이중체의 노출을, 그리고 일부 구현으로 가이드 RNA에 노출을 허용하는 한, 어느 유형의 식물 세포가 상기 방법에 사용될 수 있다. 그러나, 바람직한 구현으로, 식물 세포는 식물 원형질체이다. 당업자는 식물 원형질체를 제조하고 번식시키는 방법 및 프로토콜을 알고 있다(예를 들어, Plant Tissue Culture (ISBN: 978-0-12-415920-4, Roberta H. Smith) 참조). 본 발명의 방법에 사용하기 위한 식물 원형질체는 식물 세포 원형질체의 생성에 사용되는 일반적인 절차(예를 들어, 마세라아제(macerase) 및/또는 셀룰라아제 및 펙티나아제를 사용)를 사용하여 제공될 수 있다.

식물 세포 원형질체 시스템은 예를 들어, 토마토, 담배 및 기타 다수(브라시카 나푸스(Brassies napus), 도커스 카로타(Daucus carota), 락투카 사티 바(Lactuca sativa), 제아 메이스(Zen nrays), 니코티아나 벤타미아나(Nicotianabenthamiana), 피튜니아 하이브리다(Petunia hybrida), 솔라눔 투버로섬(Solanum tuberosum), 오리자 사티바(Oryza sativa))에 대해 기술되어 있다. 본 발명은 일반적으로 하기 참고문헌 중 어느 하나에 기재된 시스템을 포함하는 어느 원형질체 시스템에 적용가능하지만, 이에 제한되지는 않는다: Barsby et al. 1986, Plant Cell Reports 5(2): 101-103; Fischer et al. 1992, Plant Cell Rep. 11(12): 632-636; Hu et al. 1999, Plant Cell, Tissue and Organ Culture 59: 189-196; Niedz et al. 1985, Plant Science 39: 199-204; Prioli and Sφndahl, 1989, Nature Biotechnology 7: 589 - 594; S. Roest and Gilissen 1989, Acta Bot. Neerl. 38(1): 1-23; Shepard and Totten, 1975, Plant Physiol.55: 689-694; Shepard and Totten, 1977, Plant Physiol. 60: 313-316. 이것들은 본원에 참고문헌으로 포함된다.

본원에 설명된 바와 같이, 당업자는 본 발명의 방법이 상이한 유형의 식물 세포, 예를 들어 상이한 식물 종의 식물 세포에 적용될 수 있음을 이해한다. 실제로, 본원에 개시된 본 발명은 광범위한 식물, 모노코트 및 디코트 둘 모두의 식물 세포에 적용될 수 있는 것으로 고려된다. 비제한적인 예는 커커르비타세아에(Cucurbitaceae), 솔라나세아에(Solanaceae) 및 그라미네아에(Gramineae), 메이즈/콘(제아 종(Zea species)), 밀(트리티컴 종(Triticum species)), 보리(예, 호르데움 불가레(Hordeum vulgare)), 오트(예, 아베나 사티바(Avena sativa)), 수수(소르검 비콜로(Sorghum bicolor)), 대두(글리신 spp(Glycine spp), 예, G max), 목화(고시피움 종(Gossypium species), 예, G. hirsutum, G. barbadense), 브라시카 spp.(Brassica spp.)(예, B. napus, B. juncea, B. oleracea, B. rapa 등), 해바라기(Helianthus annus), 잇꽃, 참마, 카사바, 알팔파(Medicago sativa), 벼(Oryza 종, 예, O. sativa indica cultivar-그룹 또는 japonica cultivar-그룹), 목초 풀, 진주 기장(Pennisetum spp. 예, P. glaucum), 나무 종(피누스, 포플라, 전나무, 질경이 등), 차, 커피, 기름 야자, 코코넛, 완두콩, 주키니, 콩(예, Phaseolus 종), 오이, 아티초크, 아스파라거스, 브로콜리, 마늘, 부추, 양상추, 양파, 무, 양상추, 순무, 브뤼셀 콩나물, 당근, 콜리플라워, 치커리, 셀러리, 시금치, 꽃상추, 회향, 비트와 같은 채소 종, 다육 과일 생산 식물(포도, 복숭아, 자두, 딸기, 망고, 사과, 자두, 체리, 살구, 바나나, 블랙베리, 블루베리, 시트러스, 키위, 무화과, 레몬, 라임, 천도 복숭아, 라즈베리, 수박, 오렌지, 자몽 등), 관상용 종(예, 장미, 페추니아, 국화, 백합, 거베라 종), 허브(민트, 파슬리, 바질, 백리향 등), 우디 트리(예, Populus, Salix, Quercus, Eucalyptus의 종), 섬유종, 예, 아마(Linum usitatissimum) 및 대마(Cannabis sativa), 또는 아라비돕시스 탈리아나(Arabidopsis thaliana)와 같은 모델 유기체로부터의 식물 세포를 포함한다.

그러나, 바람직한 구현으로 식물 세포는 감자 또는 토마토와 같은 솔라눔(Solanum) 종(예, Solanum lycopersicum)으로부터 얻어진 식물 세포이다.

당업자는 다양한 식물에 대한 식물 원형질체의 제조를 위해 당업계에서 이용가능한 방법을 사용하여 식물 원형질체를 제공할 수 있다. 예를 들어, 식물 원형질체는 전체 식물, 식물의 일부 또는 식물 세포를 셀룰로오스 또는 펙티나아제와 같은 효소로 처리하거나 세포벽을 제거하기 위한 적절한 기계적 수단에 의해 준비될 수 있다. 이어서, 그 결과물인 식물 원형질체를 삼투압 조절제를 함유한 수용액에 넣어서 안정한 형태로 유지시킨다(예를 들어, Reusink et al. Science(1966) 154(3746): 280-281 DOI: 10.1126/science.154.3746.280 or Muhlbach et al. Planta (1980)148 (1): 89-96 참조).

당업자는 예를 들어, 살아있는 식물 세포를 적합한 배지 및 적합한 온도로 제공함으로써 본 발명의 맥락에서 식물 세포를 제공하는 방법을 이해할 것이다. 당업자는 세포의 수는 어떠한 방식으로도 제한되지 않지만, 일반적으로 식물 세포의 집단이 제공될 것이라는 것을 이해할 것이다. 비제한적인 수의 세포는, 예를 들어, 방법에 사용된 수성 매질 밀리 리터당 10,000 - 2,000,000 개의 식물 세포일 수 있다. 바람직하게는 식물 세포는 동일한 종으로부터 유래하지만, 일부 구현에서 하나 이상의 식물 세포 종이 동일한 실험에 사용될 수 있다.

융합 단백질

본 발명의 방법에 사용된 하나 이상의 융합 단백질은 적어도 하나의의 부위-특이적 뉴클레아제 도메인 및 적어도 하나의 디아미나아제 도메인을 포함한다.

부위-특이적 뉴클레아제 도메인

부위-특이적 뉴클레아제 도메인은 DNA 분자 내의 특정 인식 서열에 바인딩하고이를 인식하는 부위-특이적 뉴클레아제이거나, 이로부터 유래되거나, 또는 이의 변이체이다. 이중 DNA에 바인딩시, 촉매 활성 부위-특이적 뉴클레아제는 엄격하게 결정된 방식으로 DNA 스트랜드 중 하나 또는 둘 모두를 절단할 수 있다. 본원에 정의된 융합 단백질의 뉴클레아제 도메인은 하기 본원에 상세히 기재된 바와 같이 활성적이거나, 부분적으로 또는 전체적으로 촉매적으로 불활성일 수 있다.

뉴클레아제 도메인은 어느 유형의 부위-특이적 뉴클레아제 또는 이의 변이체 또는 단편일 수 있다. 바람직하게, 뉴클레아제 도메인은 Cas9 또는 Cpf1와 같은 CRISPR-뉴클레아제이거나 그 변이체이다. 선택적으로, 뉴클레아제는 징크-핑거 뉴클레아제(ZFN), 메가뉴클레아제 또는 TALE 뉴클레아제이다. TALE 뉴클레아제는 박테리아 뉴클레아제 FokI에 융합된 TALE 바인딩 도메인을 갖는 뉴클레아제이다. CRISPR-뉴클레아제는 뉴클레아제의 하나 이상의 도메인이 불활성화되도록 돌연변이 CRISPR-뉴클레아제일 수 있다. Cas9 및 Cpf1은 각각 DNA 이중체의 단일 스트랜드를 절단하는 2개의 뉴클레아제 도메인을 포함한다. 이들 도메인 중 하나가 불 활성화된 경우, 니카아제(nickase)는 이중 스트랜드 DNA의 하나의 스트랜드를 절단하는 결과를 초래한다. 두 도메인이 모두 불활성화되는 경우, 핵산 절단 활성이 전혀없는 데드 뉴클레아제가 생성된다.

뉴클레아제가 CRISPR-뉴클레아제인 경우, 상기 뉴클레아제는 RNA-가이드된 뉴클레아제이다. RNA-가이드된 뉴클레아제는 뉴클레아제 도메인 및 가이드 RNA와 상호작용하는 적어도 하나의 도메인을 포함한다. RNA-가이드된 뉴클레아제는 가이드 RNA에 의해 특정 핵산 서열로 향하여 진다. 가이드 RNA는 RNA-가이드된 뉴클레아제 및 DNA의 특정 인식 서열과 상호작용하여, 일단 특정 뉴클레오티드 산 서열을 포함하는 부위로 항햐여지면, 뉴클레아제의 하나 또는 둘 모두의 도메인이 각각 촉매적으로 활성적인 경우에, RNA-가이드된 뉴클레아제는 단일 또는 이중 스트랜드 브레이크를 표적 부위에 도입할 수 있다.

이에 따라, 본 발명의 방법은 DNA를 DNA 분자 내의 표적 부위에 부위-특이적 뉴클레아제를 표적화하기 위한 가이드 서열을 포함하는 가이드 RNA에 접촉시키는 단계를 추가로 포함할 수 있다. 바람직하게 DNA와 접촉하는 가이드 RNA는 뉴클레아제 도메인(들)과 동시에 상호작용한다. 당업자는 CRISPR-뉴클레아제를 포함하는 CRISPR-CAS 시스템의 상이한 구성 요소를 제조하는 방법을 알고있다. 종래 기술에서, 이의 디자인 및 사용에 관한 수 많은 보고서가 이용가능하다. 참조 예. 가이드 RNA의 디자인 및 이의 CAS-단백질(S. pyogenes로부터 본래 얻어짐)과 병용 사용에 대한 Haeussler 등에 의한 최신 리뷰(J Genet Genomics. (2016)43(5): 239-50. doi: 10.1016/j.jgg.2016.04.008.), 또는 Lee 등에 의한 최신 리뷰(Plant Biotechnology Journal (2016) 14(2) 448-462). 이것들은 모두 본원에 참고문헌으로 포함된다. 따라서, 당업자는 촉매적으로 활성적인 CRISPR-뉴클레아제와 조합될 때 DNA 분자의 미리 정의된 부위에 스트랜드 브레이크가 도입되는 방식으로 가이드 RNA를 설계하는 방법에 대해 잘 알고 있다.

뉴클레아제 도메인은 박테리아 스트렙토코커스 피오게네스(Streptococcus pyogenes)(SpCas9; NCBI 참조 서열 NC_017053.1; UniProtKB-Q99ZW2)로부터 유래된 Cas9 단백질이거나 이의 변이체일 수 있다. 변이체는 Kleinstiver 등, 2015(Kleinstiver et al, Nature 2015, 523, 481-485)에 기술된 바와 같이 SpCas9 VQR 돌연변이, SpCas9 VRER 돌연변이 및/또는 SpCas9 EQR 돌연변이일 수 있다. 스트렙토코커스 아우레우스(Streptococcus aureus) Cas9 또는 SaCas9(CCK741173.1)와 같은 다른 Cas9 단백질 및 SaCas9 KKH 돌연변이(Kleinstiver et al, Nature Biotechnology 2015, 33, 1293-1298), GeoCas9(Harrington et al, Nature Communications, 2017 Nov 10; 8(1): 1424) 및 ThermoCas9(Mougiakos et al., 2017, Nature Communications 2017 Nov 21; 8(1): 1647), 또는 이의 변이체와 같은 이의 변이체가 유용할 수 있다. CRISPR 관련 단백질의 추가의 유용한 예는, 이에 한정하는 것은 아니나, CAS9, CSY4, dCAS9 및 dCAS9-이펙터 도메인(액티베이터 및/또는 인히비터 도메인) 융합 단백질, 및 Cpf1과 같은 그리고 예를 들어 Zetsche 등(Cell 163, 759?771)에 의해 2015년에 그리고 WO2015/006747에 기술된 예와 같이 다른 예를 포함한다. Cpf1은 예를 들어 AsCpf1(액시다미노코커스(Acidaminococcus)로부터의) 및 LbCpf1(라크노스피라세아(Lachnospiraceae)로부터의), 또는 그의 변이체일 수 있다. Cpf1은 클래스 2 CRISPR-Cas 시스템의 단일 RNA-가이드된 엔도뉴클레아제(참조 예, Cell(2015) 163 (3): 759?771)이다. Cpf1은 tracrRNA가 없는 단일 RNA-가이드된 엔도뉴클레아제이며, T-풍부 프로토스페이서-인접 모티프를 이용한다. Cpf1은 엇갈린 DNA 이중 스트랜드 브레이크를 통해 DNA를 절단한다. Cpf1은 인간 세포에서 효율적인 게놈 편집 활성을 갖는 것으로 나타났다. 따라서, Cpf1은 CRISPR 시스템의 일부로서 대안적인 CAS- 단백질로 사용될 수 있다.

일반적으로, Cas9 단백질과 같은 Cas 단백질은 2개의 뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 단백질은 RuvC-유사 뉴클레아제 도메인 및 HNH-유사 뉴클레아제 도메인을 포함할 수 있다. RuvC 및 HNH 도메인은 단일 스트랜드를 절단하여 DNA에서 이중 스트랜드를 만들기 위해 함께 작동한다. (Jinek et al., Science, 337: 816-821). 정상적으로 DSB를 도입할 수 있는 이러한 Cas 단백질은 하나의 기능성 뉴클레아제 도메인(예를 들어, RuvC-유사 또는 HNH-유사 뉴클레아제 도메인)만을 함유하거나, 또는 기능성 뉴클레아제 도메인을 함유하지 않도록 변형될 수 있다. 뉴클레아제 도메인은 하나 이상의 뉴클레아제 도메인이 더 이상 기능하지 않도록(즉, 뉴클레아제 활성이 없음) 변이되어, CRISPR 니카아제를 생성하는 Cas 단백질의 변이체이거나 변이체일 수 있다. 예는 D10A(예를 들어, Cong 등(Science(2013); 339(6121): 819-23)에 의해 기술된 바와 같은) 또는 H840A와 같은 돌연변이를 갖는 SpCas9 변이체이다. 이러한 CRISPR 니카아제는 따라서 이중 스트랜드 핵산 내로 닉을 도입할 수 있지만, 이중 스트랜드 DNA를 절단할 수는 없다. 두 도메인 모두가 더 이상 기능하지 않도록 돌연변이된 경우, dCas 결과물이다. 예는 돌연변이 D10A 및 H840A를 모두 갖는 SpCas9 변이체이다. 이러한 dCas는 이중 스트랜드 핵산에 바인딩할 수 있지만, 스트랜드 중 하나를 절단하지는 않는다. CRISPR 니카아제 및 dCas는 당업자에게 공지되어 있으며, 이의 예는 본원의 다른 곳에서 제공된다. CRISPR-뉴클레아제의 뉴클레아제 도메인 중 하나 또는 둘 모두는 공지된 방법, 예컨대 부위-지정 돌연변이 유발, PCR-매개 돌연변이 유발, 및 총 유전자 합성, 뿐만 아니라 당업계에 알려진 다른 방법을 이용하여 활성되는 것과 같이 변형될 수 있다.

융합 단백질의 뉴클레아제 도메인은 전체 Cas9 단백질 또는 변이체를 포함하거나 이로 구성될 수 있거나 이의 단편을 포함할 수 있다. 바람직하게 이러한 단편은 crRNA 및 tracrRNA 또는 sgRNA에 바인딩하지만, 뉴클레아제 활성에 필요한 하나 이상의 잔기가 결여될 수 있다. 상기 표시된 바람직한 Cas9 단백질에 더하여, Cas9는 코리네박테리움 울세로우스(Corynebacterium ulcerous)(NCBI Refs: NC_015683.1, NC_017317.1); 코리네박테리움 디프테리아(Corynebacterium diphtheria)(NCBI Refs: NC_016782.1, NC_016786.1); 스피로플라즈마 시르피디콜라(Spiroplasma syrphidicola)(NCBI Ref: NC_021284.1); 프레보텔라 인터메디아(Prevotella intermedia)(NCBI Ref: NC_017861.1); 스피로플라즈마 타이와넨스(Spiroplasma taiwanense)(NCBI Ref: NC_021846.1); 스트렙토코쿠스 이니아에(Streptococcus iniae)(NCBI Ref: NC_021314.1); 벨리엘라 발티카(Belliella baltica)(NCBI Ref: NC_018010.1); 시크로플렉서스 토르퀴슬(Psychroflexus torquisl)(NCBI Ref: NC_018721.1); 스트렙토코커스 서모필러스(Streptococcus thermophilus)(NCBI Ref: YP_820832.1); 리스테리아 이노쿠아(Listeria innocua) (NCBI Ref: NP_472073.1); 캄필로박터 제주니(Campylobacter jejuni)(NCBI 참조: YP_002344900.1); 옥스 네이세리아 미닝지티디스(ox Neisseria, meningitidis)(NCBI Ref: YP_002342100.1)로부터의 Cas9일 수 있다. SpCas9 D10A, SpCas9 H840A 및 SpCas9 D10A/H840A에 대한 불활성화된 HNH 및/또는 RuvC 도메인 상동체를 갖는 이들로부터의 Cas9 변이체가 포함된다.

최근에 발견된 CRISPR-Cas 뉴클레아제 Cpf1은 처음에 RuvC 뉴클레아제 도메인만을 함유하는 것으로 여겨졌지만, 매우 최근에, 구조 및 기능적 연구에 따르면 Cpf1은 모노머로서 작용하고 제2 추정 신규 뉴클레아제(NUC) 도메인을 포함하는 것으로 나타났다(참조 Gao et al. Cell Research (2016) 26:901-913, Yamano et al. Cell (2016) 165(4): 949-962).

바람직한 구현에 따르면, 뉴클레아제 도메인은 Cpf1 단백질 또는 이의 단편 또는 변이체일 수 있다. Cpf1은 액시다미노코커스 sp(Acidaminococcus sp)로부터의 Cpf1; UniProtKB-U2UMQ6일 수 있다. 변이체는 불활성화된 RuvC 및/또는 NUC 도메인을 갖는 Cpf1일 수 있으며, 여기서 RuvC 및/또는 NUC 도메인은 더 이상 뉴클레아제 활성을 갖지 않는다. 당업자는 불활성화 RuvC, NUC 및/또는 HNH 도메인과 같은 불활성화 뉴클레아제를 허용하는 부위-지향적 돌연변이 유발, PCR-매개 돌연변이 유발, 및 전체 유전자 합성과 같은 당업계에서 이용가능한 기술을 잘 알고 있다. 본 발명의 방법의 뉴클레아제 도메인은 또한 불활성화된 NUC 도메인을 갖는 Cpf1의 변이체일 수 있다. 이러한 변이체의 예는 Cpf1 R1226A이다(참조 Gao et al. Cell Research(2016) 26: 901-913, Yamano et al. Cell(2016) 165(4): 949-962). 이 변형에서, NUC-도메인을 불활성화시키는 NUC-도메인에는 아르기닌에서 알라닌(R1226A)으로의 전환이 있다.

다른 구현에서, 부위-특이적 뉴클레아제는 TALE 뉴클레아제의 기능적 단편일 수 있다. 전사 액티베이터-유사 이펙터 뉴클레아제(TALENs)는 게놈 편집 및 표적화된 이중 스트랜드 브레이크(DSBs)를 도입하기위한, 즉 DNA 이중체의 양쪽 스트랜드가 절단되는 ZFNs에 대한 대안으로서 빠르게 등장하였다. TALENs은 ZFNs과 유사하며, 맞춤형 DNA-바인딩 도메인에 융합된 비특이적 FokI 뉴클레아제 도메인을 포함한다. 이 DNA-바인딩 도메인은 숙주 식물 세포에서 유전자의 전사를 변경하기 위해 잔토모나스(Xanthomonas) 박테리아에 의해 분비되는 단백질인 전사 액티베이터-유사 이펙터(TALEs)로부터 유래된 고 보존된 반복체로 구성된다.

보다 상세하게, TALEs은 다수의 반복 단백질 도메인으로 구성되며, 이들 각각은 4 개의 DNA 뉴클레오티드(A, T, G, C)중 하나를 특이적으로 인식하고 이에 바인딩할 수 있다. 각각의 뉴클레오티드에 특이적인 도메인이 확인되었고, 어느 DNA 서열에 대해 높은 바인딩 친화성을 갖는 이들 도메인의 어레이가 생성될 수 있다(Christian, 2010, Genetics 186: 757-761; Cormac et al., 2011, Nucleic Acids Res 39: e82; Bogdanove and Voytas, 2011, Science 333: 1843-1846; Boch, 2011, Nature Biotechnology 29: 135-136). 이어서, 이들 어레이를 FokI의 뉴클레아제 도메인에 융합시켜 TALEN을 생성하고, ZFN과 유사하게, 2개의 TALEN 단백질을 사용하여 표적 DNA 이중체에서 DNA DSB를 유도한다. 몇몇 논문은 표적 서열에서 돌연변이를 생성하기 위해 TALENs의 사용을 기술하였(Curtin(2012) The Plant Genome, 5, 42-50). Joung 등(Nat Rev Mol Cell Biol.(2013) 14(1): 49?55. doi: 10.1038/nrm3486A)은 표적 게놈 편집에서 TALENs을 사용하는 다양한 기술을 검토하고 비교하였다. CRISPR 시스템과 마찬가지로, 전사 액티베이터-유사 이펙터(TALE) 뉴클레아제(TALENs)는 효율적인 게놈 편집 도구이다.

선택적으로, 부위-특이적 뉴클레아제 도메인은 이중 스트랜드 브레이크를 도입하지 않고 단지 스트랜드 중 하나에 닉을 도입하는 TALE 뉴클레아제 또는 이의 기능적 단편이다. 선택적으로, 상기 부위-특이적 뉴클레아제 도메인은 뉴클레아제 활성이 없는 TALE 뉴클레아제 또는 이의 기능적 단편이며, 즉 TALE 뉴클레아제의 도메인 또는 단량체는 모두 비활성이다. 당업자는 TALE 니카아제 또는 뉴클레아제 비활성 TALE의 제공을 허용하는 부위 지향적 돌연변이 유발, PCR-매개 돌연변이 유발, 및 전체 유전자 합성과 같은 당업계에서 이용가능한 기술을 잘 알고 있다. TALE 니카아제의 예는 당업계에 기재되어 있다(참조 예. Wu et al. Biochem Biophys Res Commun.(2014)2014 Mar 28; 446(1): 261-266 and Luo et al. Scientific Reports 6(2016), Article number: 20657 and WO 2015/164748). TALE 단량체의 불활성화는 스트랜드-특이적 닉킹 활성을 갖는 불활성 단량체를 생성하는 FokI 촉매 도메인의 D450 돌연변이를 포함한다(Luo et al. 상기 참조).

디아미나아제 도메인

선택적으로, 본 발명의 방법의 디아미나아제 도메인은 아포리포프로핀 B mRNA-편집 복합체(APOBEC) 패밀리 디아미나아제, 활성화-유도된 시토신 디아미나아제(AID), ACF1/ASE 디아미나아제, 아데닌 디아미나아제 및 ADAT 패밀리 디아미나아제로 구성되는 그룹으로부터 선택된 디아미나아제, 또는 이의 기능성 단편이다. 대안적으로, 디아미나아제 또는 이의 기능적 단편은 ADAR1 또는 ADAR2, 또는 이의 변이체일 수 있다.

시토신 디아미나아제 효소의 아포리포프로틴 B mRNA-편집 복합체(APOBEC) 패밀리는, 조절되고 유익한 방식으로 돌연변이 유발을 개시하는 역할을 하는 11개의 단백질을 포함한다. APOBEC 패밀리의 시토신 디아마나아제는 활성화-유도된 시토신(또는 시티딘) 디아미나아제(AID) 또는 아포리포프로틴 B 편집 복합체 3(APOBEC3)이다. 이들 단백질은 모두 Zn²⁺-코디네이팅 모티프(His-X-Glu-X23-26-Pro-Cys-X2_4-Cys) 및 촉매 활성을 위해 바인딩된 물 분자를 필요로 한다. 바람직하게, 본 발명의 방법에서, 융합 단백질의 디아미나아제 도메인은 APOBEC1 패밀리 디아미나아제이다. 바람직하게, 디아미나아제 도메인은 도 1에 이탤릭체로 나타낸 바와 같은 서열을 갖는 래트 디아미나아제(rAPOBEC1)(SEQ ID NO: 1은 코딩 서열을 제공하고, SEQ ID NO: 2는 아미노산 서열을 제공한다), 또는 이의 변이체이다.

본 발명의 방법의 융합 단백질에 사용하기 위한 다른 예시적인 적합한 유형의 디아미나아제는 아데닌(또는 아데노신) 디아미나아제이다. 예를 들어, ADAT 패밀리 아데닌 디아미나아제는 부위-특이적 뉴클레아제 도메인, 예컨대 뉴클레아제-비활성 Cas9 도메인과 같은 Cas9 도메인에 융합되어 Cas9-ADAT 융합 단백질을 생성할 수 있다. 또한, 아데닌 디아미나아제는 바람직하게 Gaudelli 등, 2017(Gaudelli et al. 2017 Nature 551: 464-471)에 기재된 TadA 또는 그의 변이체일 수 있다. 바람직하게, 디아미나아제 도메인은 도 1에 이탤릭체로 나타낸 바와 같은 서열을 갖는 TadA(SEQ ID NO: 3는 코딩 서열을 제공하고, SEQ ID NO: 4는 아미노산 서열을 제공한다), 또는 그의 변이체이다. 또한, 융합 단백질은 예를 들어, ADAR1 또는 ADAR2로부터 유래된 아데닌 디아미나아제 도메인에 융합된 Cas9 도메인과 같은 부위-특이적 뉴클레아제 도메인을 포함할 수 있다.

본 발명의 디아미나아제 도메인은 촉매 활성을 갖는 전체 디아미나아제 단백질 또는 이의 단편을 포함하거나 이로 구성될 수 있다.

링커

디아미나아제 도메인은 뉴클레아제 도메인의 N- 또는 C-말단에 융합될 수 있다. 바람직하게, 디아미나아제 도메인은 뉴클레아제 도메인의 N-말단에 융합된다. 선택적으로, 본 발명의 방법의 융합 단백질의 디아미나아제 및 뉴클레아제 도메인은 서로 직접 또는 링커(본 명세서에서 스페이서로도 지칭됨)를 통해 융합된다. 링커는 당업계에서 임의의 적합한 링커일 수 있으며, 예를 들어, (GGGGS)n, (GGS)n 및 (G)n 형태의 매우 유연한 링커에서부터 (EAAAK)n 형태의 더욱 강성인 링커(SEQ ID NO: 38), SPKKKRKVEAS(SEQ ID NO: 38), SPKKKRKVEAS(SEQ ID NO: 32), 또는 SGSETPGTSESATPES SEQ ID NO: 33), 또는 KSGSETPGTSESATPES(SEQ ID NO: 34), 또는 이의 어느 변이체에 이르기까지 다양하며, 여기서 n은 바람직하게 1 내지 7, 즉 1, 2, 3, 4, 5, 6, 또는 7이다. 링커는 바람직하게 2 내지 30개 아미노산, 또는 3 내지 23개 아미노산, 또는 3 내지 12개 아미노산의 길이를 갖는다. 링커는 SEQ ID NO: 1 및 3(코딩 서열) 및 SEQ ID NO: 2 및 4(아미노산 서열)에서 밑줄친 일반 글자체로 도 1에 나타낸 바와 같은 서열, 또는 이의 변이체을 가질 수 있다.

우라실 DNA 글리코실라아제 인히비터 도메인

선택적으로, 융합 단백질은 UDG 인히비터(UGI) 도메인을 추가로 포함한다. UGI 도메인은 뉴클레아제 도메인의 N- 또는 C-말단에 융합될 수 있다. 바람직하게, 디아미나아제 도메인은 뉴클레아제 도메인의 C-말단에 융합된다. 융합은 상기 지시된 바와 같이 직접적으로 또는 링커를 통해 이루어질 수 있다. 바람직하게, 융합 단백질은 뉴클레아제 도메인의 N-말단에 융합된 디아미나아제 도메인을 포함하고, UGI 도메인은 뉴클레아제 도메인의 C-말단에 융합된다.

우라실 DNA 글리코실라아제(UDGs)는 DNA에 부주의로(inadvertently) 존재하는 우라실을 인식하고, 우라실과 디옥시리보스당 사이의 N-글리코시드 결합을 절단하여 우라실을 방출시키고 기본 부위(AP-사이트)를 남겨 우라실 절제 복구 경로를 개시한다. 이어서, AP-사이트는 AP-엔도뉴클레아제, dRPase, DNA 폴리머라아제 및 DNA 리가아제 효소의 후속 작용에 의해 처리되고 규범적 염기(canonical base)로 복원된다. 시토신 디아미나아제-뉴클레아제 융합 단백질에 UGI 도메인을 융합시킴으로써, 염기 편집 효율이 증가한다. 바람직하게, UGI 도메인은 B. 서브틸리스(B. substilis) 박테리오파지 PBS1 또는 PBS2(UniProtKB-P14739)로부터의 UGI이거나 변이체이다. UGI 도메인은 SEW ID NO: 1(코딩 서열) 및 2(아미노산 서열)에서 밑줄 친 이탤릭체로 도 1에 나타낸 바와 같은 서열, 또는 그의 변이체를 가질 수 있다.

일 구현으로, UDG 인히비터는 본원에 정의된 바와 같은 융합 단백질에 융합되지 않지만, 추가의 기능성 단백질, 바람직하게는 융합 단백질과 함께 및 선택적으로 가이드 RNA와 함께 편집되도록 DNA에 접촉된다. 이 구현에서, 세포, 바람직하게는 식물 세포는 UDG 인히비터 또는 UDG 인히비터를 코딩하는 구조체를 사용하여 트랜스펙션될 수 있다. 후자의 경우, 상기 구조체는 본 발명의 융합 단백질을 코딩하는 서열을 추가로 포함할 수 있거나, 대안적으로, 본 발명의 UDG 인히비터 및 융합 단백질은 별도의 구조체에서 코딩될 수 있다.

태그

융합 단백질은 정제 및/또는 검출의 용이성을 위해 태그를 추가로 제공할 수 있다. 이러한 태그는 당업계에 잘 알려져 있다. 이러한 태그는 바람직하게 융합 단백질의 N- 또는 C-말단, 바람직하게는 N-말단에 위치한다. 바람직하게, 태그는 His-태그(HHHHHH)(SEQ ID NO: 37)이다.

본 발명의 융합 단백질은 바람직하게 융합 단백질의 N-말단 또는 C-말단, 또는 N-말단 및 C-말단 모두에 하나 이상의 핵 위치화 신호 서열(NLS)을 추가로 포함할 수 있다. NLS는 당업계에 공지된 임의의 적합한 NLS일 수 있으며, 바람직하게 SEQ ID NO: 1 및 3(코딩 서열) 및 SEQ ID NO: 2 및 4(아미노산 서열)에서 도 1의 굵은 이탤릭체로 표시된 서열, 또는 그의 변이체를 갖는 것이다.

본 발명의 방법에 사용된 융합 단백질은 도 1에 나타낸 바와 같은 서열(SEQ ID NO: 1 및 3), 또는 도 1에 나타낸 바와 같은 뉴클레오티드 서열(SEQ ID NO: 1 또는 3)을 갖는 오픈 리딩 프레임(ORF)에 대해 적어도 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98% 또는 99% 서열 동일성과 같이 적어도 70%를 갖는 이의 변이체를 포함하거나 이로 구성된 뉴클레오티드 서열로 코딩된 단백질일 수 있다. 바람직하게 융합 단백질은 도 1에 나타낸 아미노산 서열(SEQ ID NO: 2 및 4), 또는 도 1에 나타낸 바와 같은 아미노산 서열(SEQ ID NO: 2 또는 4)에 대해 적어도 75%, 80%, 85%, 90%, 95%, 96%, 97%, 98% 또는 99% 서열 동일성과 같이 적어도 70%를 갖는 이의 변이체를 포함하거나 이로 구성된다.

가이드 RNA

뉴클레아제 도메인이 CRISPR-뉴클레아제이거나 이의 변이체인 경우, 본 발명의 방법은 DNA 분자를 융합 단백질(들) 및/또는 DNA 분자 내의 상보적인 스트랜드에서 표적 서열 또는 안티센스 서열에 대한 부위-특이적 뉴클레아제 도메인을 표적하기 위한 가이드 서열을 포함하는 가이드 RNA와 접촉시키는 단계를 추가로 포함한다. 가이드 RNA가 특정 크기(길이, 뉴클레오티드)로 특별히 제한되지는 않지만, 바람직한 구현에 따르면, 가이드 서열은 길이가 5-100, 바람직하게는 10-50, 더욱 바람직하게는 15-25, 또는 20 뉴클레오티드이다. 선택적으로, 하나 이상의 유형의 가이드 RNA가 동일한 실험에 사용될 수 있으며, 예를 들어 둘 이상의 상이한 표적 서열을 목표로 하거나, 심지어 동일한 표적 서열을 목표로 할 수 있다.

바람직하게, 가이드 서열은 상보적 스트랜드에서 편집될 주형 상의 표적 서열 또는 그의 안티센스 서열과 동일하다. 다시 말해서, 가이드 RNA는 가이드 서열이 편집될 주형의 서열과 동일하거나 이의 안티센스의 서열과 동일하도록 설계되는 것이 바람직하다. 바람직하게, 가이드 서열은 편집될 뉴클레오티드(들) 또는 이의 서열 안티센스를 포함하는 표적 서열, 즉 탈아미노화될 뉴클레오티드, 또는 이의 서열 안티센스를 포함하는 표적 서열의 5 내지 100, 바람직하게는 10 내지 50, 보다 더 바람직하게는 15 내지 25 뉴클레오티드의 스트레치와 동일한 서열을 포함하거나 이로 구성된다.

표적 서열의 원하는 편집은 융합 단백질(들) 및 가이드 RNA(들)의 조합의 설계를 결정한다. 예를 들어, 표적 서열에서 하나 이상의 C에서 T로(또는 G에서 A로) 전환이 요구되는 경우, 바람직하게는 부위-특이적(예를 들어, CRISPR)-뉴클레아제에 융합된 시토신 디아미나아제를 포함하는 융합 단백질이 본원에 정의된 바와 같이 선택된다. 유사하게, 표적 서열에서 하나 이상의 A에서 G로(또는 T에서 C로) 전환이 요구되는 경우, 바람직하게는 부위-특이적(예를 들어, CRISPR)-뉴클레아제에 융합된 아데닌 디아미나아제를 포함하는 융합 단백질이 본원에 정의된 바와 같이 선택된다.

융합 단백질이 CRISPR-뉴클레아제 도메인을 포함하는 경우, 바람직하게, 뉴클레아제 도메인은 PAM 서열을 포함하는 스트랜드에 상보적인 스트랜드를 닉킹할 수 있는 CRISPR-니카아제이다. 이러한 CRISPR-니카아제는 RuvC 도메인, 예컨대 Cas9-D10A에서 뉴클레아제 비활성화 돌연변이를 함유하는 Cas9, 또는 그의 변이체일 수 있다. 표적 서열의 바람직한 편집은, RuvC 도메인에서 뉴클레아제 비활성화 돌연변이를 함유하는 CRISPR-Cas9 인 뉴클레아제 도메인을 포함하는 융합 도메인이 사용되는 상황에 대해 하기에 예시된 바와 같이, 융합 단백질(들) 및 가이드 RNA(들)의 조합의 설계를 결정한다.

예를 들어, 표적 서열에서 하나 이상의 C에서 T로의 전환이 요구되는 경우, 바람직하게 본 발명의 방법에 사용된 융합 단백질은, 표적 서열을 포함하거나 이로 구성된 가이드 서열을 포함하는 적절한 가이드 RNA가 표적 부위에 융합 단백질-가이드 RNA를 표적하여, 표적 서열을 포함하는 스트랜드에 상보적인 스트랜드의 닉킹을 일으키는 식으로, 표적 서열 측면에 있는 PAM 서열을 요구하는 CRISPR-뉴클레아제에 융합된 시토신 디아미나아제를 포함한다. 어느 이론에 구속되지 않고, 표적 서열에 상보적인 스트랜드의 닉킹(nicking)은 디아미나아제가 손상되지 않은 스트랜드의 하나 이상의 시토신을 전환시킬 수 있는 것으로 생각된다.

표적 서열에서 하나 이상의 A에서 G로의 전환이 요구되는 경우, 바람직하게 본 발명의 방법에 사용된 융합 단백질은, 표적 서열을 포함하거나 이로 구성된 가이드 서열을 포함하는 적절한 가이드 RNA가 표적 부위에 융합 단백질-가이드 RNA를 표적하여, 표적 서열을 포함하는 스트랜드에 상보적인 스트랜드의 닉킹을 일으키는 식으로, 표적 서열 측면에 있는 PAM 서열을 요구하는 CRISPR-뉴클레아제에 융합된 아데닌 디아미나아제를 포함한다. 어느 이론에 구속되지 않고, 표적 서열에 상보적인 스트랜드의 닉킹(nicking)은 디아미나아제가 손상되지 않은 스트랜드의 하나 이상의 아데닌을 전환시킬 수 있는 것으로 생각된다.

표적 서열에서 하나 이상의 G에서 A로의 전환이 요구되는 경우, 바람직하게 본 발명의 방법에 사용된 융합 단백질은, 표적 서열을 포함하거나 이로 구성된 가이드 서열을 포함하는 적절한 가이드 RNA가 표적 부위에 융합 단백질-가이드 RNA를 표적하여, 표적 서열을 포함하는 스트랜드에 상보적인 스트랜드의 닉킹을 일으키는 식으로, 표적 서열 측면에 있는 PAM 서열을 요구하는 CRISPR-뉴클레아제, 바람직하게 Cas9-D10A 변이체에 융합된 시토신 디아미나아제를 포함한다. 손상되지 않고 남아 있는 스트랜드(즉, 안티센스 서열을 포함하는 스트랜드)에서 하나 이상의 시토신의 우라실로의 전환은, 표적 서열에서 하나 이상의 구아닌의 아데닌으로의 전환을 효율적으로 일으킨다.

표적 서열에서 하나 이상의 T에서 C로의 전환이 요구되는 경우, 바람직하게 본 발명의 방법에 사용된 융합 단백질은, 표적 서열에 상보적인 가이드 서열을 포함하는 적절한 가이드 RNA가 표적 부위에 융합 단백질-가이드 RNA를 표적하여, 표적 서열을 포함하는 스트랜드의 닉킹을 일으키는 식으로, 표적 서열의 안티센스 서열에(즉, 표적 서열을 포함하는 스트랜드에 상보적인 스트랜드에) 측면에 있는 PAM 서열을 요구하는 CRISPR-뉴클레아제, 바람직하게 Cas9-D10A 변이체에 융합된 아데닌 디아미나아제를 포함한다. 손상되지 않고 남아 있는 스트랜드(즉, 안티센스 서열을 포함하는 스트랜드)에서 하나 이상의 아데닌의 이노신으의 전환은, 표적 서열에서 하나 이상의 티민의 시토신으로의 전환을 효율적으로 일으킨다.

본원에 상세히 기재된 바와 같이, 본 발명자들은 상이한 융합 단백질들의 조합의 사용이 단일 트랜스펙션 이벤트에서 그리고 단일 세포에서 표적 서열을 효과적으로 편집하는 데 사용될 수 있음을 예상치 못하게 발견하였다. 상이한 융합 단백질 및/또는 상이한 가이드 RNAs를 사용하여 단일 트랜스펙션 이벤트에서 그리고 단일 세포에서 단일 표적 서열을 편집하여, 단일 표적 서열에서 여러 상이한 뉴클레오티드 전환들(예를 들어, 하나 이상의 C에서 T로, 하나 이상의 A에서 G로, 하나 이상의 G에서 A로 그리고/또는 하나 이상의 T에서 C로의 전환들의 조합)을 만드는 것도 가능하다. 따라서, 본 발명의 방법은 특히, 단일 세포에서 그리고 단일 트랜스펙션 이벤트에서 단일 표적 서열 내의 상이한 종류의 뉴클레오티드의 전환, 즉 상이한 뉴클레오티드에서의 돌연변이 도입(즉, 하나 이상의 C에서 T로의 전환, 하나 이상의 G에서 A로의 전환, 하나 이상의 A에서 G로의 전환, 하나 이상의 T에서 C로의 전환, 및 이의 어느 조합)에 적합하다.

접촉

본 발명의 방법에서, 세포, 바람직하게는 식물 세포의 DNA는 적어도 본 발명의 융합 단백질과 접촉된다. 선택적으로, 세포는 바람직하게 각각 상이한 디아미나아제 도메인을 포함하는 본 발명의 적어도 2개의 단백질과 접촉된다. 예를 들어, 융합 단백질 중 하나(제1 융합 단백질)는 시토신 디아미나아제 도메인을 포함할 수 있고, 다른 융합 단백질(제2 융합 단백질)은 아데닌 디아미나아제 도메인을 포함할 수 있다. 상술한 바와 같이, 이것은 단일 세포에서 단일 트랜스펙션 이벤트에서 하나 이상의 C에서 T로(또는 G에서 A로)의 전환 및 하나 이상의 A에서 G로(또는 T에서 C로)의 전환을 가능하게 한다. 본 발명자들은 하나 이상의 C에서 T로(또는 G에서 A로)의 전환 및 하나 이상의 A에서 G로(또는 T에서 C로)의 전환이 세포 내의 단일 표적 부위에서 이 방법을 사용하여, 즉 제1 및 제2 융합 단백질 둘 다를 동일한 표적 서열로 표적화하는 단일 가이드 RNA를 사용하여 이루어질 수 있었다. 따라서, DNA를 시토신 디아미나아제 도메인을 포함하는 융합 단백질 및 아데닌 디아미나아제 도메인을 포함하는 융합 단백질과 접촉시키는 단계를 포함하는 방법이 제공되며, 여기서 상기 접촉은 단일 트랜스펙션 이벤트를 사용하여 도달된다. 다시 말해서, 이 구현에서, 표적화된 뉴클레오티드 편집이 바람직한 세포는 제1 및 제2 융합 단백질 둘 모두, 또는 이를 코딩하는 구조체(들)을 포함하는 트랜스펙션 매체를 사용하여 트랜스펙션된다. 단일 표적 서열에서 융합 단백질 둘 모두가 CRISPR-뉴클레아제를 포함하고, C에서 T로(또는 G에서 A로) 및 A에서 G로(또는 T에서 C로)의 전환 모두가 요구되는 경우, 이러한 트랜스펙션 매체는, 예를 들어, 두 융합 단백질이 동일한 CRISPR-뉴클레아제 도메인을 포함하기 때문에, 상기 제1 및 제2 융합 단백질 둘 모두를 상기 표적 서열에 표적화할 수 있는 단일 가이드 RNA를 추가로 포함할 수 있다.

대안적으로, 적어도 2개의 가이드 RNAs가 사용될 수 있는데, 여기서 제1 및 제2 가이드 RNA는 모두 융합 단백질을 세포의 DNA와 복합체화하고 표적화할 수 있지만, 이들이 세포의 DNA 내의 상이한 부위들에 또는 동일한 부위이지만 각각 이중 DNA의 상이한 스트랜드에 하이브리드할 수 있는 식으로, 이들의 가이드 서열은 상이하다. 후자의 경우에, 제1 가이드 RNA의 가이드 서열은 표적 서열에 안티센스일 수 있고, 제2 가이드 RNA의 가이드 서열은 표적 서열에 감지될 수 있다. 이 경우, 융합 단백질이 시토신 디아미나아제를 포함하는 경우에, 표적 서열에서 C에서 T로의 변화 및 G에서 A로의 변화의 조합이 달성될 수 있다. 마찬가지로, 융합 단백질이 아데닌 디아미나아제를 포함하는 경우, A에서 G로 및 T에서 C로의 전환의 조합이 달성될 수 있다. 세포의 DNA의 첫 번째 표적 서열에서 C에서 T로(또는 G에서 A로)의 전환이 요구되는 경우, 및 상기 DNA의 제2 (상이한) 표적 서열에서 A에서 G로(또는 T에서 C로)의 전환이 요구되는 경우, 본 발명의 방법은 상기 DNA를 적어도 제1 및 제2 가이드 RNA와 접촉시키는 단계를 포함할 수 있으며, 여기서 제1 가이드 RNAs는 제1 융합 단백질을 제1 표적 서열에 표적화할 수 있고, 제2 가이드 RNA는 제2 융합 단백질을 제2 표적 서열에 표적화할 수 있으며, 여기서 바람직하게 제1 가이드 RNA는 제2 융합 단백질을 제1 표적 서열에 표적화할 수 없거나, 또는 적어도 훨씬 더 적은 정도로 표적하며, 그리고 그 반대도 그러하다.

"접촉된(contacted)"은 세포, 바람직하게는 식물 세포 내의 DNA를 본원에 정의된 바와 같은 융합 단백질에 노출시키는 것을 의미하는 것으로 의도된다. 이것은 선택적으로, 융합 단백질 또는 구조체가 세포의 내부에 접근하여, (코딩된) 융합 단백질이 표적 서열을 포함하는 DNA와 상호작용하는 것을 가능하게 하는 방식으로, 가이드 RNA(본원에서는 단백질/RNA 트랜스펙션으로 표시됨)와 조합하여 또는 이를 코딩하는 구조체와 조합하여 상기 융합 단백질(본원에서 단백질로서 표시됨)과 세포를 접촉시킴으로써 도달될 수 있다. 뉴클레아제 도메인이 CRISPR-뉴클레아제인 경우, 시험관 내 전사된 또는 합성 가이드 RNA와 함께 융합 구조체를 코딩하는 구조체와 세포를 동시에 또는 연속적으로 접촉시킴으로써 도달될 수 있다.

바람직하게, 본 발명의 방법은 단일 트랜스펙션 이벤트를 이용하며, 이는 세포가 하나 이상의 융합 단백질, 임의의 가이드 RNA(들) 및 임의의 추가 기능성 단백질(들), 또는 본원에서 더욱 상세히 설명되는 바와 같이 원하는 편입이 일어나는 데 요구되는 이를 코딩하는 구조체를 포함하는 단일 트랜스펙션 매체에 노출되는 단일 세포 배양 단계로서 본원에서 이해된다.

본 발명의 방법은 융합 단백질을 세포 내로 도입하기 위한 특정 방법에 의존하지 않는다. 단백질/RNA 트랜스펙션의 경우, 융합 단백질은 선택적으로 가이드 RNA 및/또는 본원에 정의된 UDG 인히비터 단백질과 같은 추가의 기능성 단백질(들)과 함께 폴리펩티드로서 세포에 제공되며, 이는 세포 내부로 취해진다. 뉴클레오티드 구조체 트랜스펙션의 경우, 세포 또는 원형질체의 DNA가 세포 내에서 이의 발현을 위한 하나 이상의 핵산 구조체를 세포 내로 도입함으로써, 융합 단백질 및 선택적으로 가이드 RNA 및/또는 추가의 기능성 단백질(들)에 노출된다. 이러한 핵산 구조체는 당업계에 공지되어 있고, 구조체 상에 포함된 DNA 영역의 숙주 세포(여기서 융합 단백질 및/또는 가이드 RNA)의 숙주 세포에서의 발현을 목적으로 외인성 DNA를 숙주 세포 내로 전달하는 데 사용되는 어느 적합한 구조체일 수 있다. 융합 단백질, 가이드 RNA 및/또는 추가의 기능성 단백질(들) 또는 이를 코딩하는 핵산 구조체의 도입은 공지된 어느 방법에 의해 달성될 수 있으며, 이는 단백질 또는 핵산 구조물을 세포 내로 성공적으로 도입할 수 있게 하며, 그리고 핵산 구조체의 경우, 도입된 핵산의 발현을 초래한다. 방법은 이에 한정하는 것은 아니나, 트랜스펙션, 마이크로인젝션, 일렉트로포레이션, 뉴클레오펙션 및 리포펙션과 같은 방법을 포함한다. 바람직하게, 하기에 추가로 상세히 설명된 바와 같이 PEG 형질 감염이 사용된다.

핵산 구조체 트랜스펙션의 경우, 융합 단백질, 및 적용 가능한 경우 가이드 RNA 및/또는 추가의 기능성 단백질(들)은 바람직하게는 동일한 핵산 구조체를 사용하여 세포에 도입된다. 즉, 핵산 구조체는 세포에서 융합 단백질 및 가이드 RNA 둘 모두의 발현을 위한 것이다. 선택적으로, 융합 단백질, 하나 이상의 가이드 RNAs 및/또는 추가의 기능성 단백질은 상이한 핵산 구조물을 사용하여 세포에 도입된다. 어느 경우에나, 단백질(즉, 융합 단백질 및/또는 추가 기능성 단백질(들))을 코딩하는 핵산 서열 및 가이드 RNA를 코딩하는 핵산 서열은 상이한 프로모터의 제어 하에 있는 것이 바람직하다. 예를 들어, 가이드 RNA는 바람직하게 조절 하에 있을 수 있다. 즉, 관심있는 세포 유형에서의 발현을 위해 바람직하게 pol III 프로모터(예를 들어 U6 및 H1)에 작동가능하게 연결될 수 있다. 예를 들어, 본 발명의 방법의 세포가 식물 세포인 경우에 식물에서 발현을 위해; U6 및 H1과 같은 RNA pol III 프로모터는 이러한 작은 RNAs를 발현시키기 위해 일반적으로 사용된다(예를 들어, Ma et al. Molecular Therapy Nucleic Acids (2014)3, e161 참조).

예를 들어, 융합 단백질 및/또는 추가의 기능성 단백질(들)은, 바람직하게, 구성적 프로모터의 제어하에, 바람직하게 예를 들어, 본 발명의 방법의 세포가 35S 프로모터와 같은 식물 세포인 경우에 식물 세포에서의 발현을 위해 관심있는 세포 유형에서의 발현을 위해 구성적 프로모터의 제어하에 있을 수 있다(예, 콜리플라워 모자이크 바이러스(CaMV)로부터 프로모팅된 35S; Odell et al. Nature 313: 810-812; 1985). 다른 적합한 구성적 프로모터는 이에 한정하는 것은 아니나, 카사바 정맥 모자이크 바이러스(CsVMV) 프로모터, 및 사탕 수수 바실리폼 바드나바이러스(ScBV) 프로모터를 포함하지만 이에 제한되지는 않는다(예를 들어 Samac et al. Transgenic Res. 2004 Aug; 13 (4): 349-61) 참조). 다른 구성적 프로모터는 예를 들어 Rsyn7 프로모터의 코어 프로모터 및 WO 99/43 838 및 US 6072050에 개시된 다른 구성 프로모터; 유비퀴틴(Christensen et al., Plant Mol. Biol. 12:619-632, 1989 and Christensen et al., Plant Mol. Biol. 18:675- 689, 1992); pEMU(Last et al., Theor. Appl. Genet. 81: 581-588, 1991); AA6 프로모터(WO2007/069894); 등을 포함한다.

핵산 구조체는 또한 전사 종결 영역을 포함할 수 있다. 전사 종결 영역이 사용되는 경우, 어느 종결 영역이 핵산 구조체의 제조에 사용될 수 있다.

바람직한 구현으로, 핵산 구조체는 일시적 발현을 위한 것이다. 다시 말해서, 본 발명의 방법의 세포가 식물 세포인 경우, 핵산 구조체의 비영구적 존재의 결과로서 식물 재료에서의 발현은 일시적이다. 예를 들어 구조체가 숙주 게놈에 통합되지 않은 경우, 발현은 일시적일 수 있다. 예를 들어, 융합 단백질, 가이드 RNA 및/또는 추가의 기능성 단백질(들) 또는 이를 발현하는 구조체(들)은 식물 세포에 일시적으로 제공되고, 이어서 하나 이상의 성분의 양이 감소된다. 이어서, 식물 세포, 식물 세포의 자손, 및 이중 DNA가 변경된 식물 세포를 포함하는 식물은 본 발명의 방법에 사용된 하나 이상의 성분의 감소된 양을 포함하거나, 또는 하나 이상의 성분을 더 이상 함유하지 않는다.

본원에 개시된 어느 방법 및 바람직한 구현과 함께, 핵산 구조체는 트랜스포밍된 세포, 바람직하게는 식물 세포에서의 발현 증가를 위해 최적화될 수 있다. 이 구현에서, 융합 단백질을 코딩하는 핵산 서열은 관심있는 세포 유형에서 발현을 위해, 예를 들어 본 발명의 방법의 세포가 식물 세포인 경우에 식물 세포에서의 발현을 위해, 최적화된 코돈인, 본 발명의 방법이 제공된다. 즉, 융합 단백질을 코딩하는 핵산 구조체는 개선된 발현을 위해 식물 선호 코돈을 사용하여 합성될 수 있다. 숙주 선호 코돈 사용에 대한 논의는 예를 들어 Campbell 및 Gowri(Plant Physiol. 92: 1-11, 1990)를 참조바란다. 식물 선호 유전자를 합성하기 위한 방법이 당업계에 이용가능하다(예를 들어, Murray et al., Nucleic Acids Res.(1989)17:477-498, or Lanza et al.(2014) BMC Systems Biology 8:33-43 참조).

본 발명의 방법의 세포가 식물 세포인 경우, PEG 트랜스포메이션은 본 발명의 방법에서 식물 세포 내로 융합 단백질을, 적용가능한 경우 가이드 RNA 및/또는 추가의 기능성 단백질(들). 또는 이를 코딩하는 핵산 구조체(들)을 도입하기 위해 사용될 수 있다. 폴리에틸렌 글리콜(PEG)은 산업 제조에서 의약품에 이르기까지 많은 응용 분야를 가진 폴리에테르 화합물이다. PEG는 폴리에틸렌 옥사이드(PEO) 또는 폴리옥시에틸렌(POE)으로도 알려져 있다. PEG의 구조는 일반적으로 H-(O-CH2-CH2)n-OH로 표현된다. 바람직하게, 본 발명에 따른 방법에 사용된 PEG는 20,000 g/mol 미만의 분자량을 갖는 올리고머 및/또는 폴리머, 또는 이들의 혼합물이다. PEG-매개 유전자 트랜스포메이션은 1985년부터 알려져 왔다. 식물 원형질체 트랜스포메이션을 위한 첫 번째 방법은 PEG를 사용했다(Krens et al.(1982) Nature 296: 72-74; Potyrykus et al.(1985) Plant MoI. Biol. Rep. 3:117-128; Negrutiu et al.(1987) Plant Mol. Biol. 8: 363-373). 이 기술은 많은 다른 식물의 원형질체에 적용할 수 있다(Rasmussen et al.(1993) Plant Sci. 89:199-207). PEG는 2가 양이온의 존재 하에서, 식물 원형질체 표면 상에 DNA를 침전시켜 트랜스포메이션을 자극하여, 이로부터 내재화되는 것으로 생각된다(Maas & Werr(1989) Plant Cell Rep. 8: 148-151).

바람직하게, 본 발명의 방법은 식물 세포를 수성 매질과 접촉시키는 단계를 포함하며, 여기서 수성 매질은 융합 단백질, 및 선택적으로 가이드 RNA 및/또는 추가의 기능성 단백질(들), 또는 이를 코딩하는 구조체들을 포함하며, 여기서 수성 매질은 폴리에틸렌 글리콜(PEG)을 포함하고 글리세롤이 실질적으로 없다. 글리세롤은 단순한 폴리올 화합물이다. 무색, 무취의 점성 액체로 단 맛이 나며, 일반적으로 무독성으로 간주된다. 글리세롤은 생물학적 과학에 사용되는 버퍼, 배지 등에 일반적으로 사용된다. 글리세롤은 단백질 및 효소가 저온에서 유지될 수 있도록 용액 및/또는 내한제(anti-freeze agent)에서 단백질을 안정화시키는 데 사용된다. 예를 들어, CAS9 단백질은 일반적으로 높은 수준의 글리세롤을 포함하는 저장 용액 형태로 판매된(예, 최대 50%; 예를 들어 www.neb.com/products/m0386-cas9-nuclease-s-pyogenes#pd-description 참조). 따라서, 글리세롤은 용액에서 단백질을 안정화시키는 데 사용되는 반면, 본 발명의 맥락에서, 융합 단백질을 포함하는 수성 매질 내에 이러한 글리세롤의 존재는 방법의 전체 효능을 감소시키는 것으로 밝혀졌다(예를 들어, DNA 분자에서 표적화된 변형을 갖는 식물 세포를 제공하는 데 있어서). 실제로, 수성 매질에서 글리세롤 농도가 너무 높으면, 결과는 DNA 분자에서 표적화된 변형을 갖는 식물 세포가 전혀 수득될 수 없음을 보여주었다.

당업자는 허용가능한 농도의 글리세롤이 어느 정도 실험 설정에 의존할 수 있고, 본 개시 내용에 기초하여, 그러한 최대 허용 농도를 결정하는 데 아무런 문제가 없고, 이를 넘으면 본 발명의 방법의 효능이 감소됨을 이해한다. 바람직한 구현으로, 식물 세포를 포함하는 수성 매질은 0.1%(v/v) 미만의 글리세롤을 포함하고, 바람직하게 수성 매질에는 (검출 가능한) 글리세롤이 없다. 다시 말해서, 식물 세포를 포함하는 수성 매질 중 최종 농도 글리세롤은 바람직하게 0.1%(v/v) 미만, 예를 들어 0.08%, 0.05%, 0.01%, 0.005%, 0.001%(v/v) 미만의 글리세롤이다.

바람직하게, 트랜스펙션을 위해, 수성 매질 밀리리터당 약 10000 - 2 000 000 식물 세포의 식물 세포 또는 원형질체의 수용액이 융합 단백질 및 선택적으로 가이드 RNA 및/또는 추가의 기능성 단백질, 또는 이를 코딩하는 발현 구조체(들), 및 PEG 용액과 접촉된다. 바람직하게, 가이드 RNA 및/또는 추가의 기능성 단백질, 또는 이를 코딩하는 발현 구조체(들)을 밀리리터당 약 1 000 000 식물 세포를 포함하는 수용액의 양으로 첨가하고, 이는 후속적으로 PEG 용액과, 바람직하게는 약 1:1의 비율로 혼합한다.

뉴클레아제 도메인이 CRISPR-뉴클레아제이거나 이로부터 유도된 것이고, 여기서 융합 단백질 또는 가이드 RNA 중 하나를 코딩하는 상이한 구조체를 사용하여 트랜스펙션이 수행되는 구현에서, 가이드 RNA 발현 플라스미드에 대한 융합 단백질 발현 플라스미드의 중량비는 10:1 내지 1:200, 예컨대 2:1 내지 1:10, 또는 1:1 내지 1:5, 보다 바람직하게는 1:1 내지 1:3의 범위, 예컨대 약 1:2의 범위 내이다. 바람직하게, 트랜스펙션 용액(수용액 및 PEG 내의 세포 둘 모두를 포함함) 당 예를 들어, 적어도 0.5㎍, 적어도 1㎍, 적어도 5㎍, 또는 적어도 10㎍, 또는 약 10㎍과 같이 적어도 0.1㎍의 융합 단백질 발현 플라스미드가 사용된다. 일 구현으로, 적어도 0.5μg, 적어도 1μg, 적어도 5μg 또는 적어도 10μg 또는 약 10μg와 같은 상기 적어도 0.1μg의 융합 단백질 발현 플라스미드가 본원에 교시된 바와 같은 적절한 중량 범위로 가이드 RNA 발현 플라스미드와 조합되고, 그리고 융합 단백질 플라스미드와 가이드 RNA 발현 플라스미드의 상기 조합은 10,000-10,000,000, 바람직하게 약 50,000-5,000,000, 보다 바람직하게는 약 100,000-1,000,000, 예를 들어 약 500,000 식물 세포 또는 식물 원형질체와 조합된다.

다른 바람직한 구현으로, 수성 매질이 어느 플라스미드 또는 벡터 물질, 특히 융합 단백질을 코딩하는 어느 플라스미드 물질 또는 벡터 물질을 포함하지 않는 본 발명의 방법이 제공된다. 이러한 벡터가 매질에 존재하면, 식물 또는 식물 세포에서 DNA 분자에 바람직하지 않은 이의 도입이 야기될 수 있다. 융합 단백질, 가이드 RNA 및/또는 추가의 기능성 단백질, 또는 이를 코딩하는 구조체를 이용한 트랜스펙션에 대한 구현에서, 식물 세포 또는 식물 원형질체는 약 500㎕의 부피로 존재할 수 있다. 일 구현으로, 식물 세포/식물 원형질체(융합 단백질/가이드 RNA 포함) 대 PEG 용액, 바람직하게는 400g/L PEG 4000 및 0.1M Ca(NO₃)₂를 포함하는 용액의 부피 비는 2:1 내지 2:3, 바람직하게는 약 1:1의 범위 내이다.

단백질/RNA 트랜스펙션(즉, 융합 단백질, 선택적으로 가이드 RNA 및/또는 추가의 기능성 단백질(들)과 함께 이용한 트랜스펙션)의 경우, 식물 세포를 포함하는 수성 매질 수성 매질이 2-80 나노몰(nM) 융합 단백질을 포함하는 경우에 바람직한 결과가 얻어진다. 따라서, 농도가 예를 들어, 1 내지 200nM로 변할 수 있는 경우, 바람직한 구현으로 농도는 2 내지 80nM, 예를 들어 5-70nM, 10-50nM 또는 20-40nM이다. 수성 매질에서 가이드 RNA의 농도는 본원에 개시된 본 발명의 맥락 내에서, 바람직하게 특정 범위 내이다. 보다 특히 수성 매질에서 30-600 나노몰의 가이드 RNA 농도를 사용하면(예를 들어, DNA 분자에서 표적화된 변형을 갖는 식물 세포를 제공함에 있어서) 수득된 결과가 개선된다는 것이 밝혀졌다. 따라서, 예를 들어, 10-1000nM 가이드 RNA의 농도(하나 이상의 상이한 가이드 RNAs가 본 발명에서 동시에 사용되는 경우의 총 농도)가 사용될 수 있지만, 바람직한 농도는 30-600nM이며, 예를 들어 50-400nM 사이, 예를 들어 100-300nM 사이, 예를 들어 150-250 nM 사이이다. 바람직하게, 수성 매질에서 융합 단백질과 가이드 RNA 사이의 몰비는 1:300 내지 8:3이고, 바람직하게는 몰비는 1:20이다. 예를 들어, 몰비는 1:1-1:50, 또는 1:5-1:30, 또는 1:1 내지 8:3, 및 이들 바람직한 비율 내의 어느 다른 비율일 수 있다. 바람직하게 융합 단백질 및 가이드 RNA의 농도 및 비율은 주어진 농도 범위 및 주어진 몰비 둘 모두 내에 있다.

본 발명의 맥락에서, 바람직하게 핵산 구조체 및 단백질/RNA 트랜스펙션 둘 모두에 대한 PEG의 농도는 특정 범위 내에 있는 것으로 밝혀졌다. 특히, 식물 세포를 포함하는 수성 매질은 100-400mg/ml PEG를 포함한다. 따라서, PEG의 최종 농도는 100-400mg/ml, 예를 들어 150-300mg/ml, 예를 들어 180-250mg/ml이다. 바람직한 PEG는 PEG 4000 Sigma-Aldrich no. 81240이다(즉, 평균 Mn 4000을 가짐(Mn, 평균 분자량은 샘플 내의 모든 폴리머 분자의 총 중량을 샘플 내의 폴리머 분자의 총 수로 나눈 값임). 바람직하게 사용되는 PEG는 약 1000-10,000, 예를 들어 2000-6000의 Mn을 갖는다).

본 명세서에서 이미 상세하게 설명된 바와 같이, 매우 바람직한 구현으로, 단백질/RNA 트랜스펙션은 식물 세포를 포함하는 수성 매질을 사용하여 수행되며, 여기서 상기 매질은

- 2-80 나노몰(nM) 융합 단백질로서, 상기 융합 단백질은 CRISPR-뉴클레아제를 포함하며;

- 30-600 나노몰(nM) 가이드 RNA;

- 0.1%(v/v) 미만의 글리세롤;

- 100-400mg/ml PEG, 및

- 10,000-2,000,000 개의 식물 세포/ml

을 추가로 포함한다.

이러한 파라미터의 조합은 놀랍게도 DNA 분자에서 표적화된 변경을 갖는 식물 세포를 제공하는 데 효과적이라는 것이 밝혀졌다. 실제로, 상기 파라미터의 편차는 효율 및/또는 효능을 감소시킬 수 있는 것으로 밝혀졌다. 또한, 융합 단백질 및 선택적으로 가이드 RNA가 매질에 제공된 후 PEG가 수성 매질에 첨가될 때 본 발명의 방법의 효율 및/또는 효능이 개선되는 것으로 밝혀졌다. 따라서, PEG는 융합 단백질 및 선택적으로 가이드 RNA가 매질에 제공되기 전에 수성 매질에 첨가될 수 있으며, 바람직하게는 수성 매질은 먼저 융합 단백질 및 선택적으로 가이드 RNA와 함께 제공되는 반면에, 이 후에 PEG가 매질에 제공된다. 바람직하게 융합 단백질 및 선택적으로 가이드 RNA 및 PEG의 첨가 사이의 시간은 5초 내지 10분이지만, 원하는 경우 더 짧거나 길 수 있다.

이에 제한되지는 않지만, 식물 세포는 바람직하게 본원에 정의된 바와 같이 단백질(들), RNA 또는 이를 코딩하는 구조체와 적어도 5분의 기간 동안, 예를 들어 5분 내지 24시간 동안 또는 5분 내지 6시간, 또는 5분 내지 60분, 또는 5분 내지 30분, 또는 5분 내지 25분의 기간 동안 접촉된다. 접촉은 어느 적합한 온도, 예를 들어 4℃ 내지 40℃, 바람직하게 10℃ 내지 30℃의 온도, 예를 들어 실온에서 이루어질 수 있다. 또한, 당업자는 매질과 관련하여 본원에 정의된 특정 요구 사항에 이어서, 어느 적합한 매질일 수 있음을 이해할 것이다. 예를 들어, 매질은 바람직하게 5-8, 바람직하게는 6-7.5의 pH 값을 갖는다. 일 구현으로, PEG 트랜스펙션은 10-60분, 예를 들어 15-40분, 바람직하게는 약 20분의 기간 동안 일어날 수 있다.

트랜스펙션 후, 0.2-0.4M 또는 약 0.275M과 같은 0.1-0.6M, Ca(NO₃)₂ 용액을 상기 교시된 트랜스펙션 용액에 첨가할 수 있다. 바람직하게, 추가 재배를 위해 배지에서 원심분리 및 재현탁에 의해 세포 또는 원형질체를 수거하기 전에 상기 교시된 트랜스펙션 용액 부피의 약 10배와 같은 약 8-12배가 사용될 수 있다.

추가의 바람직한 구현에 따르면, 식물 세포가 추가로 재배되는, 즉 본원에 상세히 기재된 바와 같이 피더(feeder) 식물 세포의 존재 하에 수성 매질과 접촉된 후 본 발명의 방법이 제공되며, 바람직하게 여기서 피더 식물 세포는 식물 원형질체이며, 바람직하게 여기서 피더 식물 세포는 편질될 식물 세포와 동일한 식물 종의 것이며, 바람직하게 여기서 피더 식물 세포는 피더 디스크의 형태로, 바람직하게 50000-250000 개의 피더 식물 세포를 함유하는 피더 디스트의 형태로 제공된다.

당업자는 예를 들어, 실시예에 상세히 기재된 바와 같이 피더 세포의 존재 하에서 원형질체를 재배하는 방법을 알고 있다. 식물 세포가 글리세롤이 실질적으로 없지만 융합 단백질 및 선택적으로 가이드 RNA 및 PEG를 포함하는 수성 매질과 접촉한 후, 배양 기간 동안 피더 세포의 존재는 본 발명에 따른 방법의 전체 효능 및/또는 효능을 증가시킬 수 있는 것으로 발견되었다. 이는 특히 피더 세포가 수성 매질에서 융합 단백질 및/또는 가이드 RNA와 접촉된 식물 세포와 동일한 식물 종일 때, 사실이며, 그리고 특히 피더 디스크 당 50000-250000 개의 피더 식물 세포의 양이 사용될 때(일반적으로 실험 당 하나의 피더 디스크가 사용됨) 사실이다.

당업자는, 예를 들어 Plant Science Letters(1984)33(3): 293-302;doi: 10.1016/0304-4211(84)90020-8 또는 Plant Cell and Tissue Culture(ISBN 0-7923-2493-5; Vasil 및 Thorpe에 의해 편집; Kluwer Academic Publishers)를 포함한 다양한 핸드북에 설명되어 있는 바와 같이 피더 세포의 존재 하에서 원형질체를 배양하는 방법에 대한 다른 기술을 알고있다.

개별 원형질체가 식물 세포벽, 식물 캘리 및/또는 식물을 포함하는 식물 세포로 추가로 배양되는 본 발명의 방법이 또한 고려된다.

본 발명의 방법은 DNA 분자 내에 다음 특성 중 하나 이상을 부여하는 뉴클레오티드 서열, 예를 들어 유전자 또는 프로모터를 표적화하는 데 특히 적합하다: 제초제 내성, 가뭄 내성, 수컷 불임, 곤충 내성, 무생물 응력 내성(abiotic stress tolerance), 변형된 지방산 대사, 변형된 탄수화물 대사, 변형된 종자 수율, 변형된 오일 퍼센트, 변형된 단백질 퍼센트 및 박테리아 질병, 곰팡이 질병 또는 바이러스성 질병에 대한 내성. 그럼에도 불구하고 DNA 분자 내에 어느 종류의 서열을 표적하는 데 사용될 수 있다.

다른 선호에 따르면, 본 발명의 방법에서 2개 이상의 가이드 RNAa가 사용된다. 2개 이상의 가이드 RNAs는 본 발명의 방법의 융합 단백질을 (예를 들어, 동일한 스트랜드 내의 또는 어느 다른 스트랜드 내의 하나 이상의 닉을 도입하기 위해) DNA 이중체의 동일한 부위, 또는 다른 부위로 유도할 수 있다.

다른 선호에 따르면, 융합 RNA, 적용 가능한 경우 가이드 RNA 및/또는 이를 코딩하는 구조체는 본원에서 이미 논의된 바와 같이 세포, 바람직하게는 식물 세포에서 일시적으로 발현된다.

본 발명에 따른 방법으로, 변형은 세포, 바람직하게 식물 세포에서 이중 DNA에 도입된다. 바람직하게, 상기 표적화된 변형은 적어도 하나의 염기쌍의 변경을 포함할 수 있다. 예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 또는 그 이상의 염기쌍이 본 발명의 방법으로 변형될 수 있다. 단일 실험에서 하나 이상의 변형이 도입될 수 있고, 그리고/또는 세포에서 이중 DNA에서 후속 변형을 도입하기 위해 실험이 반복될 수 있다. 바람직하게, 본 발명의 방법으로 단일 트랜스펙션 이벤트에서 하나 이상의 염기쌍이 변형된다. 바람직하게, C에서 T로, G에서 A로, A에서 G로 및 T에서 C로의 어느 조합이 단일 트랜스펙션 이벤트에서 이루어진다. 따라서, 본 발명은 또한 바람직하게 본 발명의 방법에 사용하기 위한 혼합물 또는 조성물에서 융합 단백질의 조합을 제공한다. 바람직하게 이러한 혼합물 또는 조성물은 제1 및 제2 융합 단백질 모두를 포함하고, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하는 본원에 정의된 융합 단백질이고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 갖는 본원에 정의된 융합 단백질이다. 상기 제1 융합 단백질은 SEQ ID NO: 2의 서열로 구성되거나 이를 포함하는 융합 단백질, 또는 이의 변이체일 수 있고, 상기 제2 융합 단백질은 SEQ ID: 4의 서열로 구성되거나 이를 포함하는 융합 단백질, 또는 이의 변이체일 수 있다. 상기 제1 융합 단백질은 SEQ ID NO: 1을 포함하거나 이로 구성되는 뉴클레오티드 서열에 의해 코딩된 융합 단백질, 또는 그의 변이체일 수 있고, 상기 제2 융합 단백질은 SEQ ID NO: 3을 포함하거나 이로 구성되는 뉴클레오티드 서열에 의해 코딩된 융합 단백질일 수 있다. 혼합물은 융합 단백질을 단백질 형태로 또는 이를 코딩하는 구조체로 포함할 수 있다. 상기 혼합물은 제1 융합 단백질을 코딩하는 제1 구조체 또는 제2 융합 단백질을 코딩하는 제2 구조체를 포함할 수 있다. 바람직하게, 상기 제1 구조체는 SEQ ID NO: 1, 또는 이의 변이체를 포함하거나, 또는 SEQ ID NO: 2 또는 이의 변이체를 코딩하고, 상기 제2 구조체는 SEQ ID NO: 3 또는 이의 변이체를 포함하거나, SEQ ID NO: 4 또는 이의 변이체를 코딩한다. 대안적으로, 혼합물은 제1 및 제2 융합 단백질을 모두 코딩하는 구조체를 포함할 수 있다. 바람직하게, 상기 구조체는 SEQ ID NO: 1 및 3, 또는 이의 변이체를 포함하거나, SEQ ID NO: 2 및 4, 또는 이의 변이체를 코딩한다. 선택적으로, 상기 표시된 혼합물은 본원에 정의된 바와 같이 하나 이상의 가이드 RNAs, 또는 이를 코딩하는 구조체를 추가로 포함할 수 있다. 선택적으로, 상기 하나 이상의 가이드 RNAs는 본 발명의 방법의 하나 이상의 융합 단백질을 추가로 코딩하는 구조체에 의해 코딩된다. 선택적으로, 상기 구조체는 본원에 정의된 시토신 디아미나아제 도메인을 포함하는 융합 단백질 및 본원에 정의된 아데닌 디아미나아제 도메인을 포함하는 융합 단백질 둘 모두를 추가로 코딩한다.

본 발명의 방법의 세포가 식물 세포인 경우, 상기 방법은 표적화된 변형을 포함하는 식물 또는 이의 자손을 재생하는 단계를 추가로 포함할 수 있다. 당업자는 식물 세포로부터 식물을 재생시키는 방법 및 프로토콜을 잘 알고 있다. 재생된 식물의 자손, 후손, 변이체 및 돌연변이도 본 발명의 범위 내에 포함되며, 이들 부분은 본 발명에 따른 방법으로 도입된 표적 변형을 포함한다.

본원에 상술한 바와 같이 세포, 바람직하게 식물 세포에서 표적화된 뉴클레오티드 편집을 위한 융합 단백질 또는 이를 코딩하는 구조체의 용도가 본원에 제공된다. 본원에 상술된 어느 방법에 의해 수득된 식물, 식물 부분, 종자 또는 식물 세포가 또한 제공되며, 여기서 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포는 컨트롤 식물 세포와 비교하여 표적 변형을 포함함으로써 변경되며, 그리고 여기서 컨트롤 식물 세포는 표적 변형이 상기 본원에 상세히 설명된 어느 방법에 의해 도입되기 전 식물 세포이다. 선택적으로, 상기 식물 생성물(예를 들어, 식물유, 식물 단백질, 식물 탄수화물)은 비번식적일 수 있다.

본 발명은 추가로 바람직하게 본 발명의 방법에 사용하기 위한 키트를 제공한다. 상기 키트는 바람직하게 적어도 2개의 융합 단백질, 즉 적어도 제1 및 제2 융합 단백질, 또는 (a) 본 발명에 따라 이를 코딩하는 구조체(들)을 포함하며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함한다. 즉, 본 발명의 키트는

- 제1 및 제2 융합 단백질,

- 제1 및 제2 융합 단백질을 코딩하는 구조체, 또는

- 제1 융합 단백질을 코딩하는 구조체 및 제2 융합 단백질을 코딩하는 구조체

를 포함하는 제1 바이얼을 포함할 수 있다.

대안적으로, 본 발명의 키트는

- 제1 융합 단백질 또는 제1 융합 단백질을 코딩하는 구조체를 포함하는 제1 바이얼, 및

- 제2 융합 단백질 또는 제2 융합 단백질을 코딩하는 구조체를 포함하는 제2 바이얼

을 포함할 수 있다.

키트는 각각 하나 이상의 가이드 RNAs를 포함하는 하나 이상의 추가 바이얼을 추가로 포함할 수 있다. 선택적으로, 이들 하나 이상의 가이드 RNAs는 상기 정의된 바와 같이 제1 및/또는 제2 바이얼 내에 포함되거나 함유된다. 키트의 바이얼의 부피는 바람직하게 1 내지 5mL 또는 1 내지 10mL 또는 1 내지 25mL이다.

이제 본 발명을 일반적으로 설명하지만, 이는 예시로서 제공되고 본 발명을 제한하려는 것이 아닌 하기 실시예를 참조하여 보다 쉽게 이해될 것이다.

실시예

실시예 1. 식물 세포의 Lin5 위치에서 표적 염기의 프로그램가능한 편집

구조체

래트 APOBEC 디아미나아제(rAPOBEC1), Cas9 단백질 및 UDP-우라실 글리코실라아제 인히비터 단백질 UGI의 3가지 성분을 포함하여 구성된 구조체를 조립하여 융합 단백질을 생성하였다. rAPOBEC1 서열은 솔라눔(Solanum) 종에서의 발현을 위해 코돈 최적화되었고, Cas9의 N 말단에서 클로닝하기 위해 NcoI/KpnI 부위의 측면에 위치하였다. 6x His 태그가 또한 이 서열의 5' 말단에 도입되었다. UGI 서열은 또한 솔라눔(Solanum) 종에 대해 코돈 최적화되었고, 핵 위치화 신호(NLS)와 함께 합성되었고, AgeI/XhoI 부위의 측면에 위치하였다. 그 다음, Cas9 ORF(pET28::Cas9)를 함유하는 벡터를 벡터 백본의 분리를 위해 효소 NcoI 및 XhoI로 다이제션하고, Cas9 ORF의 단편을 분리하기 위해 KpnI/AgeI로 다이제션하였다. 이어서, rAPOBEC1, Cas9, UGI-NLS 및 벡터 단편을 단일 결찰에서 조합하고, 모든 단편으로 구성된 클론을 단리하여, 구조체 pET28::rAPOBEC1-Cas9-UGI-NLS를 제공하였다. 이 구조체는 Cas9 ORF의 D10 또는 H840 아미노산 잔기의 아미노산 알라닌으로의 돌연변이 유발을 위한 주형으로서 사용되어, 오리지널 구조체의 니카아제 버전(D10A 또는 H840A)을 생성하였다. 이어서, pET28::rAPOBEC1-Cas9-UGI-NLS 및 니카아제 유도체를 PCR에 의해 증폭시키고 게이트웨이 호환성 엔트리 벡터 pDONR221내로 클로닝하였다. 이어서, 35S 프로모터를 운반하는 식물 발현 목적지 벡터 pK2GW7로 옮겼다. 구조체 pK2GW7::rAPOBEC1-Cas9-UGI-NLS(KG10012), pK2GW7::rAPOBEC1-Cas9 D10A-UGI-NLS(KG10098) 및 pK2GW7::rAPOBEC1-Cas9 H840A-UGI-NLS(KG10112)의 플라스미드 DNA가 토마토 원형질체 트랜스펙션을 위해 분리되었다. Cas9 니카아제의 N 말단에 융합된 아데닌 디아미나아제를 운반하는 구조체(TadA-Cas9 D10A-NLS)를 pDONR221에서 합성하였다. 이어서, 이 카세트를 식물 발현 벡터 K2GW7로 옮겨, 구조체 KG10436을 제공하고, 원형질체 트랜스펙션을 위해 플라스미드 DNA를 분리하였다. 이러한 구조체의 DNA 및 단백질 서열은 도 1에 나타낸다.

융합 단백질(들)을 토마토 LIN5 위치에 표적화할 수 있는 2개의 sgRNAs를 디자인하고 합성하였다. 이것은 식물 세포에서의 발현을 위해 A. thaliana U6 프로모터에 연결된 sgRNA의 서열을 포함하였다. 이어서, 이들 카세트를 운반하는 플라스미드(KG10075 및 KG10252)를 토마토 원형질체 트랜스펙션을 위해 분리하였다.

단백질 발현 및 정제

pET28::rAPOBEC1-Cas9-UGI-NLS 발현 플라스미드를 함유하는 E. coli 스트레인 BL21 DE3을 카나마이신(50㎍/ml)이 보충된 LB 배지에서 OD600 = 0.6으로 성장시킨 다음, IPTG를 최종 농도 1mM로 첨가하여 단백질 생산을 유도하였다. 이어서, 이들 배양물을 최적 단백질 발현을 위해 22℃에서 쉐이커에서 밤새 성장시켰다. 이어서, 재조합 단백질을 제조사 프로토콜에 따라 Ni-NTA 스핀 키트(Qiagen)를 사용하여 정제하였다. 이어서, 정제된 단백질을 10% 폴리아크릴 아미드 겔(Invitrogen) 상에서 분리한 후 쿠마시 염색에 의해 단백질 생산을 확인하였다. 이어서, 정제된 단백질을 20K Slide-a-Lyzer 투석 카세트(Thermo Scientific)를 사용하여 4℃에서 밤새 20mM HEPES, 150mM KCl, 1mM DTT 및 10% 글리세롤로 구성된 버퍼(G)에 대해 투석하였다. 이어서, 단백질을 카세트로부터 제거하고, Amicon Ultra-4 100K 원심분리 필터(Millipore)에 통과시켰다. 필터 상의 단백질을 1x PBS 버퍼(NaCl, 80g/l; KCl, 2g/l; Na₂HPO₄, 14.4g/l; KH₂PO₄, 2.4g/l; pH7.4)으로 세척한 다음, 200μl 1x PBS 버퍼를 사용하여 필터로부터 최종적으로 세척하였다. Cas9 단백질의 농도를 표준으로서 상용 Cas9 단백질(M0641, New England Biolabs, 166ng/㎕)을 사용하여 10% 폴리아크릴아미드 겔 상에서 정량한 다음 쿠마시 겔 염색하였다.

LIN5 sgRNA 합성

플라스미드 KG10075로부터의 LIN5 sgRNA를 프라이머를 사용하여 증폭시켰으며, 이에 의해 포워드 프라이머는 또한 T7 폴리머라아제 프로모터를 포함하였다. 이어서, PCR 생성물을 Probe Quant G50 Micro column(GE Healthcare) 상에 침전시키고 정제한 다음, Ampliscribe T7 Flash Transcription Kit(Epicentre)를 사용하여 시험관 내 RNA 합성을 위한 주형으로서 사용하였다. ssDNA/RNA Clean and Concentrator kit(ZymoResearch)를 사용하여 sgRNAs를 정제 및 농축하고 Qubit 상에서 정량화하였다.

토마토 원형질체 분리 및 트랜스펙션

Solanum lycopersicon var Moneyberg의 시험관 내 슈트 배양(shoot culture)은 25℃ 및 60-70% RH에서 2000lux의 16/8h 광주기(photoperiod)에서 고 플라스틱 용기에 0.8% 한천을 함유한 MS20 배지에서 유지되었다. 어린 잎들(1g)을 미드 너브(mid nerve)에 수직으로 부드럽게 슬라이스하여 효소 혼합물의 침투를 용이하게한다. 얇게 썬 잎들을 효소 혼합물(CPW9M 중에 2% Cellulase Onozuka RS, 0.4% Macerozyme Onozuka R10)로 옮기고, 25℃에서 어둠에서 밤새 세포벽 다이제션을 진행시켰다. 원형질체를 50㎛ 나일론 체를 통해 여과하고, 800rpm에서 5분 동안 원심분리하여 수거하였다. 원형질체를 CPW9M(Frearson, 1973) 배지에 재현탁시키고, 3mL CPW18S(Frearson, 1973)을 긴 목 유리 파스퇴르 피펫을 사용하여 각 튜브의 바닥에 첨가하였다. 800rpm에서 10분 동안 원심분리하여 수크로오스와 CPW9M 배지 사이의 계면에서 세포 분획으로서 생 원형질체를 수거하였다. 원형질체를 계수하고 mL 당 10⁶의 최종 밀도로 MaMg(Negrutiu, 1987) 배지에 재현탁시켰다.

원형질체 트랜스펙션의 경우, 10㎍의 rAPOBEC1-Cas9-UGI-NLS 발현 플라스미드(또는 니카아제 변이체) 또는 TadA-Cas9 D10A-NLS 발현 플라스미드와 함께 20㎍의 sgRNA 발현 플라스미드 KG10075를 500μL(500000 원형질체)의 원형질체 서스펜션 및 500μL의 PEG 용액(400g/l 폴리(에틸렌 글리콜) 4000, Sigma-Aldrich #81240과 혼합하고; 0.1M Ca(NO₃)₂)을 첨가하고, 트랜스펙션을 20분 동안 실온에서 수행하였다. 다른 실험에서, 5㎍의 rAPOBEC1-Cas9 D10A-UGI-NLS(KG10098) 및 5㎍의 TadA-Cas9 D10A-NLS(KG10436)를 20㎍의 sgRNA 발현 플라스미드 KG10075와 함께 혼합하고, 상기 기재된 바와 같이 토마토 원형질체에 트랜스펙션시켰다. 트랜스펙션으로부터 플라스미드 중 하나 또는 둘 모두를 생략함으로써 컨트롤 샘플을 또한 제조하였다. 정제된 rAPOBEC1-Cas9-UGI-NLS 단백질 및 LIN5 sgRNA를 사용하는 경우, 1x PBS 버퍼에 재현탁된 8pmol의 Cas9 단백질 및 150pmol의 LIN5 sgRNA를 (500000 원형질체)의 원형질체 현탁액 및 500μL의 PEG 용액(400g/l 폴리(에틸렌 글리콜) 4000, Sigma-Aldrich #81240과 혼합하고; 0.1M Ca(NO₃)₂)를 첨가하고, 트랜스펙션을 실온에서 20분 동안 수행하였다.

이어서, 0.275M Ca(NO₃)₂ 용액 10mL를 첨가하고 완전히, 하지만 부드럽게 혼합하였다. 800rpm에서 5분 동안 원심분리하여 원형질체를 수거하고, 9M 배양 배지에 ml 당 0.5 x 10⁶의 밀도로 재현탁시키고, 4cm 직경의 페트리 디쉬로 옮기고, 동일한 부피의 2% 알기네이트 용액(20g/l Alginate-Na(Sigma-Aldrich #A0682), 0.14g/l CaCl₂.2H₂O, 90g/l 만니톨)을 첨가하였다. 이어서, 1ml 분취량(125000 형질 감염된 원형질체)을 Ca-Agar 플레이트(72.5g/l 만니톨, 7.35g/l CaCl₂.2H₂O, 8g/l 한천, pH5.8)에 스프래딩하고, 1시간 동안 중합시켰다. 플라스미드 구조체가 트랜스펙션에 사용되었을 때, 매립된 원형질체는 4ml의 K8p(Kao, 1975) 배양 배지를 함유하는 4cm 조직 배양 접시에서 성장시켰다. 융합 단백질이 트랜스펙션에 사용되었을 때, 본 발명자들은 트랜스펙션되지 않았지만 상기와 동일한 프로토콜을 사용하여 알기네이트에 매립된 200000 토마토 원형질체(Moneyberg 품종)를 함유하는 "피더(feeder)" 디스크를 생성함으로써 원형질체 생존을 개선시켰다. 이어서, 트랜스펙션된 원형질체의 단일 디스크를 4ml의 K8p(Kao, 1975) 배양 배지를 함유하는 4cm 조직 배양 접시에서 원형질체의 단일 피더 디스크와 조합하였다. 토마토 원형질체에서 인델(indels)을 검출하기 위해, 트랜스펙션된 원형질체의 디스크를 48시간 후에 접시에서 제거하고, 알기네이트를 용해시키고, 원형질체를 분리하였다. 캘리의 재생을 위해, 원형질체는 어두운 곳에서 28℃에서 21일 동안 K8p 배지에서 배양되었다. 이 기간 후, 형질감염된 원형질체의 디스크를 1mg.l^-1 제나틴 및 0.2mg.l^-1 GA3가 보충된 고체 GM 배지(Tan, 1987)로 옮기고, 추가 3주 동안 성장시켰으며, 이 시점에서 캘리는 대략 크기가 0.3mm이었다. 이어서, 알기네이트를 용해시키고, 캘리를 GM 배지의 신선한 플레이트에 스프래딩하고, 대략 1.5mm가 될 때까지 자라게 하였고, 이 시점에서 다시 한번 새로운 배지로 옮기고, 추가 14일 후에 제노타입핑되었다.

원형질체 및 캘리 제노타이핑

DNeasy Plant Mini Kit(Qiagen)를 사용하여 토마토 원형질체(트랜스펙션 48시간 후)로부터 총 게놈 DNA를 분리하였다. 이어서, gDNA를 하기 프라이머(Fw: 5'CACTATTGGCATGTATCACAC(SEQ ID NO: 35); Rev: 5'GTGATGCTGAGATCCCTTTAAC(SEQ ID NO: 36))를 사용하여 LIN5 표적 부위를 증폭시키기 위해 PCR 반응에 사용하였다. 이어서, 이 PCR 산물을 각 샘플로부터 라이브러리를 생성하기 위한 주형으로서 사용하고, 이어서 이를 MiSeq 플랫폼(Illumina)에서 시퀀싱하였다. 각 샘플은 고유한 5bp 태그를 사용하여 확인되었습니다. 시퀀싱 후, 각 샘플의 판독 값을 처리하여 표적 부위에 존재하는 서열 변화의 수 및 유형을 확인하였다.

직접 PCR 키트(Phire Plant Direct PCR kit, Thermo Scientific) 및 상기 기재된 유전자 특이적 프라이머를 사용하여 캘리를 직접 제노타이핑하였다. 이어서, 생성된 PCR 생성물을 제노타이핑하여, 표적 부위에 어떤 캘리가 돌연변이를 함유하였는지 확인하였다. 이어서, 이를 2mg.l^-1 제나틴 및 0.1mg.l^-1 IAA 배지가 보충된 MS 배지로 옮긴 후, 재생된 토마토 묘목을 온실으로 옮기기 전에 0.5 mg.l^-1 IBA가 보충된 MS 배지에서 뿌리를 내리게 하였다.

결과

C에서 T로의 전환을 일으키는, 시토신의 표적화된 탈아미노화가 식물 세포에서 실현가능하다는 것을 입증하기 위해, 우리는 먼저 트랜스펙션된 플라스미드 구조체로부터 rAPOBEC1-Cas9-UGI-NLS 융합 단백질 및 LIN5 sgRNA의 발현 후, 또는 융합 단백질 및 시험관 내 전사된 LIN5 sgRNA의 트랜스펙션 후에 이러한 이벤트가 검출될 수 있는지 여부를 시험하였다. APOBEC1 도메인의 디아미나아제 활성은 가이드 RNA 상에 존재하는 표적 부위의 20bps 내에 위치한 시토신에서 활성적일 것이라고 가정하였다. LIN5 가이드 RNA(sgRNA)는 APOBEC1 도메인에 의한 탈아미노화에 이상적으로 위치하는 표적 부위의 5'말단에 위치한 3개의 시토신을 포함하기 때문에, LIN5 가이드 RNA(sgRNA)를 선택하였다. 토마토 원형질체에서 상이한 가이드 RNAs의 효율은 상당히 다양할 수 있으며, 따라서 특정 가이드 RNA 디자인이 식물 세포에서 활성인지, 그리고 어느 정도까지인지 테스트하는 것이 중요하다. 따라서, 우리는 먼저 Cas9 단백질을 발현하는 벡터(35S: Cas9, KG10088)와 함께 토마토 원형질체 내로 벡터(KG10075)에 존재하는 LIN5 sgRNA 발현 카세트를 도입하였다. 48시간 후 세포를 수거하고, 게놈 DNA를 분리하였다. 이어서, LIN5 표적 서열을 샘플의 모든 세포로부터 증폭시키고, 생성된 앰플리콘을 사용하여 MiSeq 플랫폼에서의 시퀀싱을 위한 라이브러리를 제조하였다. 이어서, 생성된 서열 판독을 PAM 부위에서 그리고 그 주변에서의 인델(indel) 돌연변이의 존재에 대해 분석하였다. 우리는 16% 초과의 판독 값이 예상된 위치에 인델(indel)을 운반하였음을 발견하였고, 이는 LIN5 sgRNA가 토마토 원형질체에서 고 활성적이었으며, 이에 따라 탈아미노화 실험에 사용될 수 있음을 보여주었다.

rAPOBEC1의 디아미나아제 활성이 Cas9에 의해 이 LIN5 서열에서 시토신으로 표적화될 수 있는지 시험하기 위해, 먼저 구조체 KG10098(pK2GW7::rAPOBEC1-Cas9 D10A-UGI-NLS) 및 KG10126(pK2GW7::rAPOBEC1-Cas9-UGI-NLS)를 플라스미드 KG10075와 함께 토마토 원형질체에 트랜스펙션시키고, 48시간 후에 세포를 수거하고 트랜스펙션된 세포로부터 LIN5 표적 부위를 증폭시켰다. 유사한 실험에서, 우리는 또한 시험관 내 전사된 LIN5 sgRNA와 함께 정제된 rAPOBEC1-Cas9 D10A-UGI-NLS 단백질을 토마토 원형질체 내로 도입하고, 또한 LIN5 표적 부위에서 C에서 T로의 전이에 대해 이들 원형질체를 분석하였다. LIN5 앰플리콘을 라이브러리 제조에 사용하고, MiSeq 플랫폼에서 시퀀싱했다. LIN5 표적 부위에서 발생할 수 있는 어느 뉴클레오티드 변화를 확인하기 위해 결과 판독을 분석하였다. 도 3에 도시된 바와 같이, 벡터 KG10098이 사용될 때, 표적 부위의 5' 말단으로부터 시토신 6 nt에서 단일 C에서 T로의 전이를 포함하는 다수의 서열 판독(0.8%)을 발견하였다. 또한, 단일 판독에서 다수의 시토신이 티민으로 전환된 더 적은 수의 판독(0.08 %)을 발견하였다. 벡터 KG10098이 닉킹 활성이 인델 형성을 초래하지 않는 Cas9 니카아제를 발현하기 때문에, PAM 부위 내 또는 주위에 인델을 함유하는 어떠한 판독도 검출하지 못하였다. 벡터가 없거나 단 하나의 벡터를 이용한 토마토 원형질체의 트랜스펙션도 수행되었지만, 이러한 샘플은 LIN5 표적 부위에서 돌연변이를 나타내는 판독을 결코 초래하지 않았다. 이러한 C에서 T로의 전이는 또한 표적 부위에서 DNA DSBs를 여전히 도입할 수 있는 구조체 KG10126(pK2GW7::rAPOBEC1-Cas9-UGI-NLS)을 사용할 때 이루어질 수 있다. 이 경우에 우리는 rAPOBEC1-Cas9 D10-UGI-NLS 니카아제가 세포에서 발현될 때 보다 C에서 T로의 전이 효율이 10배 낮다는 것을 발견했다. 그러나, 이는 DSB 유도 활성을 유지한 디아미나아제-Cas9 융합 단백질이 식물 세포에서 활성적이라는 것을 입증하였다. 일부 서열 판독은 또한 때때로 전이와 조합하여 PAM 부위 내 및 주위에 인델 돌연변이를 함유하였다. 이것은 C에서 T로의 전이의 상대적 효율을 인델 형성의 상대적 효율과 비교하는 것을 가능하게 했다. 우리는 KG10098이 사용될 때, 단일 C에서 T로의 전이를 포함하는 판독의 0.8%와 비교하여 KG10126이 사용될 때 대략 0.89%의 판독이 인델 돌연변이를 함유한다는 것을 발견하였다. 따라서, LIN5 표적 서열에서 C에서 T로의 전이의 효율이 인델의 형성만큼 효율적이라는 결론을 내릴 수 있었다.

KG10126을 사용한 인델 효율은 실험에서 변형되지 않은 Cas9 단백질을 사용하는 경우보다 약 16배 낮은 것을 우리는 발견하였다. 이는 Cas9 단백질의 N 및 C 말단에서 APOBEC1 및/또는 UGI 서열의 첨가가 DSB 유도 성능에 부정적인 영향을 미친다는 것을 입증한다. rAPOBEC1-Cas9 D10A-UGI-NLS 단백질 및 LIN5 sgRNA가 토마토 원형질체에 트랜스펙션되었을 때 유사한 결과를 우리는 발견하였다. 이들 원형질체로부터 유도된 판독의 분석은 또한 동일한 단백질이 플라스미드 구조체로부터 발현되었을 때와 거의 동일한 효율로 그리고 LIN5 표적 서열에서의 위치에서 C에서 T로의 전이를 보여주었다.

요약하면, 이 결과는 디아미나아제 단백질이 Cas9 단백질과의 융합에 의해 식물 세포에서 특정 게놈 서열에 대해 표적화될 수 있음을 보여준다. C에서 T로의 전이는 유전자의 코딩 서열에서 생성될 수 있으며, 따라서 코돈을 변형시키고, 변형된 단백질 서열을 초래한다. 따라서, 이 기술은 전체 식물 성능을 향상시킬 수 있는 코딩 서열 내의 개별 아미노산을 변화시키는 데 사용될 수 있다. 구조체 KG10098을 또한 LIN5 sgRNA2를 발현하는 플라스미드(KG10252)와 함께 원형질체에 트랜스펙션시키고, 이러한 대안적인 표적 서열에서 탈아민화 반응의 효율을 결정하기 위해 시퀀싱을 수행하였다. 결과는 도 3에 도시되어 있다. 이 제2 표적 서열에서 단일 또는 다수의 시토신의 티민으로의 효율적인 전환이 다시 관찰되었다.

Cas9의 N 말단에 융합된 변경된 아데닌 디아미나아제(TadA)는 아데닌을 이노신으로 전환시킨 다음, 이는 우선적으로 시토신과 염기쌍을 이룬다. 따라서, 특정 게놈 서열을 표적으로 할 수 있는 A:T에서 G:C로의 전환 활성이 초래된다. pK2GW7::TadA-Cas9 D10A-NLS 구조체(KG10436)을 LIN5 sgRNA1 플라스미드 KG10075와 함께 토마토 원형질체에 트랜스펙션시키고, 원형질체에 대해 시퀀싱을 수행하여, 이 표적 서열에서 A:T에서 C:G로의 전환 효율을 검출하였다. 도 3에서 볼 수 있듯이, 5번과 8번 위치의 아데닌이 구아닌으로 전환된 판독을 검출할 수 있었다. 이는 표적화된 아데닌 탈아미노화가 식물 세포에서 실현가능하다는 것을 입증한다.

이어서, 시토신 및 아데닌 표적화된 디아미나아제 모두의 조합을 식물 세포에서 시험하였다. 구조체 KG10098 및 KG10436을 혼합하고, LIN5 sgRNA1 sgRNA 발현 플라스미드와 함께 토마토 원형질체에 트랜스펙션시켰다. rAPOBEC1-Cas9 D10A-UGI-NLS(KG10098) 및 TadA-Cas9 D10A-NLS(KG10436) 시토신 및 아데닌 디아미나아제는 각각 LIN5 sgRNA1 표적 부위에서 모두 활성화되어 표적화를 위해 동일한 sgRNA를 이용한다. 함께 트랜스펙션되는 경우에, 디아미나아제는 단일 세포 내의 표적 서열에서 C에서 T로의 그리고 A에서 G로의 변환을 생성할 수 있다. 이것은 시퀀싱의 존재에 의해 검출될 수 있고, 디아미나아제가 뉴클레오티드 변화의 신규한 조합을 도입하기 위해 함께 사용될 수 있음을 입증할 수 있다. 이 실험의 결과는 도 3에 도시된다. 이 샘플에서, 판독의 0.35%는 위치 6에서 시토신 디아미나아제(KG10098)에 의해 생성된 C에서 T로의 변화를 포함하고, 판독의 0.15%는 아데닌 디아미나아제(KG10436)에 의해 생성된 위치 5에서의 A에서 G로의 변화를 포함하였다. 흥미롭게도, 6번 위치에서 C에서 T로의 변화와 8번 위치에서 A에서 G로의 변화 둘 모두에서 판독이 발견되었으며, 이는 동일한 위치에서 두 디아미나아제의 활성을 통해서만 생성될 수 있었다. 따라서, 이 접근법은 시토신 및 아데닌 디아미나아제가 동일한 식물 세포(들)에서 발현될 수 있고, 상이한 뉴클레오티드 변화를 생성할 수 있는 동일한 위치를 표적으로 한다는 것을 보여준다. 따라서, 이는 달성될 수 있는 아미노산 변화의 범위를 증가시킨다.

표적화된 C에서 T로의 전이를 갖는 식물을 수득하기 위해서, 이러한 돌연변이를 함유하는 원형질체는 성숙한 식물로 재생되어야 한다. 이어서, 이들은 재생 과정 동안 돌연변이가 소실되지 않음을 나타내기 위해 제노타이핑된다. 토마토 원형질체를 KG10075 또는 KG10252와 조합하여 rAPOBEC-Cas9 D10A-UGI-NLS 벡터(KG10098)로 트랜스펙션시켰다. 대안적으로, rAPOBEC1-Cas9 D10A-UGI-NLS 단백질을 LIN5 sgRNA1과 함께 사용하였다. 이어서, 원형질체는 LIN5 표적 서열에서 C에서 T로의 전이의 존재에 대해 제노타이핑될 수 있는 캘리를 형성할 때까지 성장 배지에서 배양되었다. KG10098 및 KG10075 트랜스펙션으로부터 2000 개 초과의 캘리가 생성되고 제노타이핑되었다. 이들 중 약 1.5%(32 캘리)는 표적 서열에서 위치 6에서 C에서 T로의 전이에 대해 이형접합성(heterozygous)인 것으로 밝혀졌으며, 이는 시퀀싱 후 발견된 이 위치에서의 돌연변이 빈도(0.8 %)와 잘 일치한다. 다른 6개의 칼리는 위치 6에서 C에서 T로의 전이에 대해 동형접합성(homozygous)인 것으로 나타났으며, 이는 이들 시약이 이중대립형질(biallelic) 돌연변이를 생성할 수 있음을 입증한다. 우리는 rAPOBEC1-Cas9 D10A-UGI-NLS 단백질 및 LIN5 sgRNA1이 사용된 경우, LIN5 표적 서열에서 돌연변이를 갖는 유사한 개수의 캘리를 발견하였다. 그런 다음, 캘리를 성숙한 식물로 재생시킨 다음에 제노타이핑하였다(도 4). 3개의 이중대립형질 돌연변이를 함유한 라인 6을 제외하고, 대부분의 라인은 표적 영역에서 여러 이형접합성 C에서 T로의 돌연변이를 보유하였다. 각각의 경우에, 캘러스에서 발견된 돌연변이는 재생된 새싹에 존재하였다. 이들 결과는 표적화된 염기 편집이 식물 원형질체에서 수행될 수 있고, 재생 후 돌연변이 캘리가 (선택의 적용없이) 제노타이핑에 의해 확인된 후 성숙 돌연변이 식물로 재생될 수 있음을 입증한다.

실시예 2. 식물에 제초제 내성을 도입하기 위해 표적화된 디아미나아제의 용도

토마토는 두 카피의 유전자 아세토락테이트 신타아제(ALS1 및 ALS2)를 함유하며, 이의 단백질은 광범위한 제초제의 표적이다. ALS2 위치 P184 및 S640, 및 ALS1 단백질에서 이에 상응하는 아미노산들(P186 및 S642)에서의 특이적 아미노산 변화는 제초제의 활성에 저항성인 단백질을 생성하고, 이러한 단백질을 발현하는 식물 세포는 제초제 적용을 존속시킨다. P184 및 S640 코돈 둘 모두에서의 돌연변이가 지배적이며, 단일 세포 및 식물 수준 둘 모두에 대해 선택될 수 있다. 우리는 rAPOBEC1-Cas9 D10A-UGI-NLS 단백질이 원형질체에서 이들 코돈에 표적화될 수 있으며, 이는 제초제 저항성을 부여하는 돌연변이를 생성하는 것으로 추론하였다. 제초제의 원형질체 성장 배지에의 첨가는 P184 및 S640 코돈 및 그 주변에서 C에서 T로의 전이를 함유한 원형질체를 선택하고, 이어서 제초제 내성 캘리가 생성될 것이다. 그런 다음, 이러한 캘리는 이들 표적 부위에서 생성된 돌연변이를 확인하기 위해 제노타이핑될 수 있다. 이러한 실험은 다른 식물 위치에서 C에서 T로의 전이가 도입될 수 있음을 보여줄 수 있다. 실시예 1에서 입증된 바와 같이, 표적 영역에서 다수의 시토신이 변형될 수 있으며, 그 결과 여러 인접 아미노산이 변형된다. 따라서, 본 발명자들은 ALS 억제 제초제에 대한 개선된 내성을 나타내는, 이전에 확인되지 않은 아미노산 변화의 조합으로 제초제 내성 캘리를 선택할 수 있다. 또한, 두 카피의 ALS가 토마토에 존재하기 때문에, 우리는 디아미나아제-Cas9 단백질이 단일 세포에서 ALS1 및 ALS2 유전자 둘 모두에 동시에 돌연변이를 도입하는 능력을 평가하고자 했다.

표적 코돈 주위의 PAM 서열(NGG)의 위치에 기초하여, 우리는 ALS1 및 ALS2 위치 둘 모두에 대해 3개의 sgRNAs를 디자인하고(도 5), 합성된 이들을 Arabidopsis U6 프로모터에 융합하였다(도 2). 이어서, 이들 sgRNA 발현 벡터를 rAPOBEC1-Cas9 D10A-UGI-NLS 발현 벡터 KG10098과 함께 PEG 트랜스펙션에 의해 토마토 원형질체에 도입하였다. 48시간 후, 하나의 알기네이트 디스크에서 트랜스펙션된 원형질체를 게놈 DNA 분리를 위해 수거하는 한편, 다른 디스크는 P184에서의 돌연변이를 선택하기 위해 클로로설푸론을 또는 S640에서의 돌연변이를 선택하기 위해 이미다졸을 함유하는 성장 배지에서 배양되었다. 트랜스펙션된 원형질체로부터의 게놈 DNA를 ALS1 및 ALS2 위치 둘 모두로부터 표적 코돈을 함유하는 앰플리콘을 생성하기 위한 주형으로서 사용하였고, 이들을 라이브러리를 제조하는데 사용하였고, 이어서 MiSeq 플랫폼에서 시퀀싱하였다. 이어서, 서열 판독을 C에서 T로의 전이의 존재에 대해 분석하였다. 제초제 중 어느 하나에 내성인 캘리가 제노타이핑되었고, ALS1 및/또는 ALS2 위치 둘 모두에 존재하는 돌연변이가 확인되었다.

도 6은 DNA 스트랜드 상의 C에서 T로의 전이로 인해 예상될 수 있는 뉴클레오티드 변화 및 이들 돌연변이에 기인한 아미노산 변화를 보여준다. 도 6에 나타낸 모든 돌연변이들이 서열 판독에서 발견될 수 있었으며, 이는 rAPOBEC1-Cas9 D10A-UGI-NLS 단백질이 ALS1 및 ALS2 위치 둘 모두에서 C에서 T로의 전이를 생성할 수 있음을 입증한다. 그 다음, 제초제 내성 캘리로부터 식물들이 재생되고, 제노타이핑되었다. 도 7에 도시된 바와 같이, 각각 ALS1 및 ALS2의 P186 및/또는 P184 코돈에서 대부분의 이형접합성 돌연변이에 대해 함유된 식물들이 재생되었다. 예를 들어, 도 7, 표 A의 5행은 ALS1 및 ALS2 위치 둘 모두에서 제초제 저항성을 부여하는 돌연변이를 함유하며, 이는 단일 가이드 RNA가 동일한 세포에서 보존된 유전자 패밀리의 구성원에서 돌연변이를 생성하는 데 사용될 수 있음을 나타낸다. 이 경우, 사용된 가이드 RNA와 ALS1 표적 서열 사이에 단일 SNP가 존재하지만, 가이드 RNA는 이 위치에서 여전히 활성적이다. 이마자피르(imazapys)에 내성인 식물의 유전자형이 도 7, 표 B에 도시된다. 이 경우, 가이드 RNA는, ALS1 위치가 이에 상응하는 PAM 부위가 결여되어 있기 때문에, ALS2 위치에서만 활성적이었다. 이종접합성 돌연변이가 발견되었으며, 이는 S640N 이마자피르 내성 돌연변이뿐만 아니라 2개의 추가 이형접합성 돌연변이(S640N, G642N)를 함유하는 라인을 생성하였다.

SEQUENCE LISTING <110> Keygene N.V. <120> Methods of targeted genetic alteration in plant cells <130> P6069740PCT <150> NL 2018381 <151> 2017-02-15 <160> 38 <170> PatentIn version 3.5 <210> 1 <211> 5082 <212> DNA <213> Artificial Sequence <220> <223> DNA sequence encoding the rAPOBEC-Cas9-UGI fusion protein <400> 1 atgggtagca gccatcatca tcaccatcat atgagcagcg aaacaggtcc ggttgcagtt 60 gatccgaccc tgcgtcgtcg tattgaaccg catgaatttg aagttttttt tgatccgcgt 120 gagctgcgta aagaaacctg tctgctgtat gaaattaact ggggtggtcg tcatagcatt 180 tggcgtcata ccagccagaa taccaataaa catgtggaag tgaacttcat cgagaaattt 240 accaccgaac gttatttttg tccgaatacc cgttgtagca ttacctggtt tctgagctgg 300 tcaccgtgtg gtgaatgtag ccgtgcaatt accgaatttc tgagccgtta tccgcatgtt 360 accctgttta tctatattgc ccgtctgtat catcatgcag atccgcgtaa tcgtcagggt 420 ctgcgtgatc tgattagcag cggtgttacc attcagatta tgaccgaaca agaaagcggt 480 tattgctggc gtaattttgt gaattatagc ccgagcaatg aagcacattg gcctcgctat 540 ccgcatctgt gggttcgtct gtatgttctg gaactgtatt gtattattct gggtctgcct 600 ccgtgtctga atattctgcg tcgtaaacag ccgcagctga ccttttttac cattgcactg 660 cagagctgtc attatcagcg tctgccaccg catattctgt gggcaacagg tctgaaaagc 720 ggtagcgaaa caccgggtac aagcgaaagc gcaacaccgg aaagcgacaa aaaatacagc 780 attggtctgg acattggtac caacagcgtg ggctgggccg tgatcaccga cgagtacaag 840 gtgcccagca agaagttcaa ggtgctgggc aacaccgacc gccacagcat caagaagaac 900 ctgatcggcg ccctgctgtt cgacagcggc gagaccgccg aggccacccg cctgaagcgc 960 accgcccgcc gccgctacac ccgccgcaag aaccgcatct gctacctgca ggagatcttc 1020 agcaacgaga tggccaaggt ggacgacagc ttcttccacc gcctggagga gagcttcctg 1080 gtggaggagg acaagaagca cgagcgccac cccatcttcg gcaacatcgt ggacgaggtg 1140 gcctaccacg agaagtaccc caccatctac cacctgcgca agaagctggt ggacagcacc 1200 gacaaggccg acctgcgcct gatctacctg gccctggccc acatgatcaa gttccgcggc 1260 cacttcctga tcgagggcga cctgaacccc gacaacagcg acgtggacaa gctgttcatc 1320 cagctggtgc agacctacaa ccagctgttc gaggagaacc ccatcaacgc cagcggcgtg 1380 gacgccaagg ccatcctgag cgcccgcctg agcaagagcc gccgcctgga gaacctgatc 1440 gcccagctgc ccggcgagaa gaagaacggc ctgttcggca acctgatcgc cctgagcctg 1500 ggcctgaccc ccaacttcaa gagcaacttc gacctggccg aggacgccaa gctgcagctg 1560 agcaaggaca cctacgacga cgacctggac aacctgctgg cccagatcgg cgaccagtac 1620 gccgacctgt tcctggccgc caagaacctg agcgacgcca tcctgctgag cgacatcctg 1680 cgcgtgaaca ccgagatcac caaggccccc ctgagcgcca gcatgatcaa gcgctacgac 1740 gagcaccacc aggacctgac cctgctgaag gccctggtgc gccagcagct gcccgagaag 1800 tacaaggaga tcttcttcga ccagagcaag aacggctacg ccggctacat cgacggcggc 1860 gccagccagg aggagttcta caagttcatc aagcccatcc tggagaagat ggacggcacc 1920 gaggagctgc tggtgaagct gaaccgcgag gacctgctgc gcaagcagcg caccttcgac 1980 aacggcagca tcccccacca gatccacctg ggcgagctgc acgccatcct gcgccgccag 2040 gaggacttct accccttcct gaaggacaac cgcgagaaga tcgagaagat cctgaccttc 2100 cgcatcccct actacgtggg ccccctggcc cgcggcaaca gccgcttcgc ctggatgacc 2160 cgcaagagcg aggagaccat caccccctgg aacttcgagg aggtggtgga caagggcgcc 2220 agcgcccaga gcttcatcga gcgcatgacc aacttcgaca agaacctgcc caacgagaag 2280 gtgctgccca agcacagcct gctgtacgag tacttcaccg tgtacaacga gctgaccaag 2340 gtgaagtacg tgaccgaggg catgcgcaag cccgccttcc tgagcggcga gcagaagaag 2400 gccatcgtgg acctgctgtt caagaccaac cgcaaggtga ccgtgaagca gctgaaggag 2460 gactacttca agaagatcga gtgcttcgac agcgtggaga tcagcggcgt ggaggaccgc 2520 ttcaacgcca gcctgggcac ctaccacgac ctgctgaaga tcatcaagga caaggacttc 2580 ctggacaacg aggagaacga ggacatcctg gaggacatcg tgctgaccct gaccctgttc 2640 gaggaccgcg agatgatcga ggagcgcctg aagacctacg cccacctgtt cgacgacaag 2700 gtgatgaagc agctgaagcg ccgccgctac accggctggg gccgcctgag ccgcaagctt 2760 atcaacggca tccgcgacaa gcagagcggc aagaccatcc tggacttcct gaagagcgac 2820 ggcttcgcca accgcaactt catgcagctg atccacgacg acagcctgac cttcaaggag 2880 gacatccaga aggcccaggt gagcggccag ggcgacagcc tgcacgagca catcgccaac 2940 ctggccggca gccccgccat caagaagggc atcctgcaga ccgtgaaggt ggtggacgag 3000 ctggtgaagg tgatgggccg ccacaagccc gagaacatcg tgatcgagat ggcccgcgag 3060 aaccagacca cccagaaggg ccagaagaac agccgcgagc gcatgaagcg catcgaggag 3120 ggcatcaagg agctgggcag ccagatcctg aaggagcacc ccgtggagaa cacccagctg 3180 cagaacgaga agctgtacct gtactacctg cagaacggcc gcgacatgta cgtggaccag 3240 gagctggaca tcaaccgcct gagcgactac gacgtggacc acatcgtgcc ccagagcttc 3300 ctgaaggacg acagcatcga caacaaggtg ctgacccgca gcgacaagaa ccgcggcaag 3360 agcgacaacg tgcccagcga ggaggtggtg aagaagatga agaactactg gcgccagctg 3420 ctgaacgcca agctgatcac ccagcgcaag ttcgacaacc tgaccaaggc cgagcgcggc 3480 ggcctgagcg agctggacaa ggccggcttc atcaagcgcc agctggtgga gacccgccag 3540 atcaccaagc acgtggccca gatcctggac agccgcatga acaccaagta cgacgagaac 3600 gacaagctga tccgcgaggt gaaggtgatc accctgaaga gcaagctggt gagcgacttc 3660 cgcaaggact tccagttcta caaggtgcgc gagatcaaca actaccacca cgcccacgac 3720 gcctacctga acgccgtggt gggcaccgcc ctgatcaaga agtaccccaa gctggagagc 3780 gagttcgtgt acggcgacta caaggtgtac gacgtgcgca agatgatcgc caagagcgag 3840 caggagatcg gcaaggccac cgccaagtac ttcttctaca gcaacatcat gaacttcttc 3900 aagaccgaga tcaccctggc caacggcgag atccgcaagc gccccctgat cgagaccaac 3960 ggcgagaccg gcgagatcgt gtgggacaag ggccgcgact tcgccaccgt gcgcaaggtg 4020 ctgagcatgc cccaggtgaa catcgtgaag aagaccgagg tgcagaccgg cggcttcagc 4080 aaggagagca tcctgcccaa gcgcaacagc gacaagctga tcgcccgcaa gaaggactgg 4140 gaccccaaga agtacggcgg cttcgacagc cccaccgtgg cctacagcgt gctggtggtg 4200 gccaaggtgg agaagggcaa gagcaagaag ctgaagagcg tgaaggagct gctgggcatc 4260 accatcatgg agcgcagcag cttcgagaag aaccccatcg acttcctgga ggccaagggc 4320 tacaaggagg tgaagaagga cctgatcatc aagctgccca agtacagcct gttcgagctg 4380 gagaacggcc gcaagcgcat gctggccagc gccggcgagc tgcagaaggg caacgagctg 4440 gccctgccca gcaagtacgt gaacttcctg tacctggcca gccactacga gaagctgaag 4500 ggcagccccg aggacaacga gcagaagcag ctgttcgtgg agcagcacaa gcactacctg 4560 gacgagatca tcgagcagat cagcgagttc agcaagcgcg tgatcctggc cgacgccaac 4620 ctggacaagg tgctgagcgc ctacaacaag caccgcgaca agcccatccg cgagcaggcc 4680 gagaacatca tccacctgtt caccctgacc aacctgggcg cccccgccgc cttcaagtac 4740 ttcgacacca ccatcgaccg caagcgctac accagcacca aggaggtgct ggacgccacc 4800 ctgatccacc agagcatcac cggtctgtat gaaacccgta ttgatctgag ccagctgggt 4860 ggtgatagcg gtggtagcac caatctgagc gatatcattg aaaaagaaac cggcaaacag 4920 ctggtgattc aagaaagcat tctgatgctg cctgaagaag tggaagaagt tattggtaat 4980 aaaccggaaa gcgatattct ggttcatacc gcatatgatg aaagcaccga tgaaaatgtt 5040 atgctgagcg gtggttcccc gaaaaaaaaa cgtaaagttt aa 5082 <210> 2 <211> 1693 <212> PRT <213> Artificial Sequence <220> <223> rAPOBEC-Cas9-UGI fusion protein <400> 2 Met Gly Ser Ser His His His His His His Met Ser Ser Glu Thr Gly 1 5 10 15 Pro Val Ala Val Asp Pro Thr Leu Arg Arg Arg Ile Glu Pro His Glu 20 25 30 Phe Glu Val Phe Phe Asp Pro Arg Glu Leu Arg Lys Glu Thr Cys Leu 35 40 45 Leu Tyr Glu Ile Asn Trp Gly Gly Arg His Ser Ile Trp Arg His Thr 50 55 60 Ser Gln Asn Thr Asn Lys His Val Glu Val Asn Phe Ile Glu Lys Phe 65 70 75 80 Thr Thr Glu Arg Tyr Phe Cys Pro Asn Thr Arg Cys Ser Ile Thr Trp 85 90 95 Phe Leu Ser Trp Ser Pro Cys Gly Glu Cys Ser Arg Ala Ile Thr Glu 100 105 110 Phe Leu Ser Arg Tyr Pro His Val Thr Leu Phe Ile Tyr Ile Ala Arg 115 120 125 Leu Tyr His His Ala Asp Pro Arg Asn Arg Gln Gly Leu Arg Asp Leu 130 135 140 Ile Ser Ser Gly Val Thr Ile Gln Ile Met Thr Glu Gln Glu Ser Gly 145 150 155 160 Tyr Cys Trp Arg Asn Phe Val Asn Tyr Ser Pro Ser Asn Glu Ala His 165 170 175 Trp Pro Arg Tyr Pro His Leu Trp Val Arg Leu Tyr Val Leu Glu Leu 180 185 190 Tyr Cys Ile Ile Leu Gly Leu Pro Pro Cys Leu Asn Ile Leu Arg Arg 195 200 205 Lys Gln Pro Gln Leu Thr Phe Phe Thr Ile Ala Leu Gln Ser Cys His 210 215 220 Tyr Gln Arg Leu Pro Pro His Ile Leu Trp Ala Thr Gly Leu Lys Ser 225 230 235 240 Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Asp 245 250 255 Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly Trp 260 265 270 Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val 275 280 285 Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala 290 295 300 Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg 305 310 315 320 Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu 325 330 335 Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe 340 345 350 His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu 355 360 365 Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu 370 375 380 Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr 385 390 395 400 Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile 405 410 415 Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn 420 425 430 Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln 435 440 445 Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala 450 455 460 Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile 465 470 475 480 Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile 485 490 495 Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu 500 505 510 Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp 515 520 525 Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe 530 535 540 Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu 545 550 555 560 Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile 565 570 575 Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu 580 585 590 Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln 595 600 605 Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu 610 615 620 Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr 625 630 635 640 Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln 645 650 655 Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu 660 665 670 Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys 675 680 685 Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr 690 695 700 Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr 705 710 715 720 Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val 725 730 735 Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe 740 745 750 Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu 755 760 765 Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val 770 775 780 Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys 785 790 795 800 Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys 805 810 815 Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val 820 825 830 Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr 835 840 845 His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu 850 855 860 Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe 865 870 875 880 Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu 885 890 895 Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly 900 905 910 Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln 915 920 925 Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn 930 935 940 Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu 945 950 955 960 Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu 965 970 975 His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu 980 985 990 Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His 995 1000 1005 Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr 1010 1015 1020 Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile 1025 1030 1035 Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His 1040 1045 1050 Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr 1055 1060 1065 Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp 1070 1075 1080 Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln 1085 1090 1095 Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg 1100 1105 1110 Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu 1115 1120 1125 Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 1130 1135 1140 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu 1145 1150 1155 Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg 1160 1165 1170 Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile 1175 1180 1185 Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu 1190 1195 1200 Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser 1205 1210 1215 Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn 1220 1225 1230 Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly 1235 1240 1245 Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val 1250 1255 1260 Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys 1265 1270 1275 Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr 1280 1285 1290 Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn 1295 1300 1305 Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr 1310 1315 1320 Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg 1325 1330 1335 Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu 1340 1345 1350 Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg 1355 1360 1365 Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys 1370 1375 1380 Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu 1385 1390 1395 Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser 1400 1405 1410 Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe 1415 1420 1425 Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu 1430 1435 1440 Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe 1445 1450 1455 Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu 1460 1465 1470 Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn 1475 1480 1485 Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro 1490 1495 1500 Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His 1505 1510 1515 Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg 1520 1525 1530 Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr 1535 1540 1545 Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile 1550 1555 1560 Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe 1565 1570 1575 Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr 1580 1585 1590 Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly 1595 1600 1605 Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Ser 1610 1615 1620 Gly Gly Ser Thr Asn Leu Ser Asp Ile Ile Glu Lys Glu Thr Gly 1625 1630 1635 Lys Gln Leu Val Ile Gln Glu Ser Ile Leu Met Leu Pro Glu Glu 1640 1645 1650 Val Glu Glu Val Ile Gly Asn Lys Pro Glu Ser Asp Ile Leu Val 1655 1660 1665 His Thr Ala Tyr Asp Glu Ser Thr Asp Glu Asn Val Met Leu Ser 1670 1675 1680 Gly Gly Ser Pro Lys Lys Lys Arg Lys Val 1685 1690 <210> 3 <211> 5328 <212> DNA <213> Artificial Sequence <220> <223> DNA sequence encoding the TadA-Cas9 D10A-NLS fusion protein <400> 3 atgtccgagg tcgagttctc tcatgagtac tggatgaggc acgctctcac tcttgctaaa 60 agagcttggg acgagagaga ggttccagtt ggagctgttt tggtgcacaa caaccgtgtg 120 attggcgaag gatggaacag gccaattgga aggcatgatc caactgctca cgctgagatt 180 atggccctta gacaaggtgg actcgtgatg cagaactaca ggcttatcga cgccactctc 240 tacgtgacac ttgagccatg tgttatgtgc gctggtgcca tgattcactc caggattgga 300 agggttgtgt tcggagctag agatgctaaa actggcgctg ccggatctct catggatgtg 360 cttcatcatc ctgggatgaa ccacagggtt gagatcactg agggaatcct tgctgatgag 420 tgcgctgctc tcctgtctga ttttttcagg atgaggcgtc aagagatcaa ggcccagaag 480 aaggctcagt cctctactga ttctggcgga tcttctggtg ggtcatctgg atctgaaacc 540 cctggaactt ctgagtccgc tactccagaa tcatccggtg gatctagtgg tggttctagc 600 gaggttgagt tcagccacga atactggatg cgtcacgcac ttactttggc taagagggct 660 cgtgatgaga gggaagttcc tgttggtgca gtgctcgtgc ttaacaacag agtgatcgga 720 gaaggctgga atcgtgctat cggacttcat gatcctaccg cacatgcaga gatcatggct 780 ttgaggcaag gtgggcttgt catgcaaaat taccgtctga tcgacgctac cttgtacgtc 840 acattcgagc cttgcgtgat gtgtgctggg gctatgatcc attctaggat cggtagagtg 900 gtgttcggtg tgaggaatgc taagacaggt gctgctggct cacttatgga tgtgttgcat 960 taccccggca tgaaccaccg tgtggaaatt acagagggca tcttggcaga tgagtgtgcc 1020 gctcttttgt gctacttctt caggatgcca cgtcaggtgt tcaacgctca aaagaaggcc 1080 caatccagca ccgattctgg tggtagtagt ggtggatctt ccggatcaga gactcctggt 1140 actagtgagt ctgctacccc tgaaagtagc ggaggttcaa gtggtgggtc cgacaagaag 1200 tactctatcg gattggctat cgggaccaac tctgttggat gggctgtgat cactgacgag 1260 tacaaggtgc cctccaagaa gttcaaggtt ctcggaaaca ccgacaggca ctccatcaag 1320 aagaacctca tcggggctct gcttttcgat tcaggtgaaa ctgctgaggc caccaggctt 1380 aagagaactg ctagaagaag gtacacccgt aggaagaaca ggatctgcta cctccaagag 1440 atcttctcca acgagatggc taaggtggac gactcattct tccacaggct cgaagagtcc 1500 ttcttggtgg aagaggataa gaagcacgag aggcacccaa tcttcgggaa cattgtggat 1560 gaagtggcct accacgagaa gtacccaacc atctaccacc tgaggaagaa gctcgttgac 1620 tccaccgata aggctgacct gaggcttatc taccttgctc tcgctcacat gatcaagttc 1680 cgtgggcact tccttatcga aggggatctg aacccagaca actccgatgt ggacaagctg 1740 ttcattcagc tcgtgcagac ctacaaccag ctgttcgaag agaacccaat caacgcttct 1800 ggtgtggacg ctaaggctat cctttctgcc aggctttcca agtccagaag gcttgagaac 1860 ctgattgctc agcttcctgg ggagaagaag aacggacttt tcgggaacct gatcgccctc 1920 tctcttggac ttactcccaa cttcaagtcc aacttcgacc tcgctgagga tgccaagctt 1980 cagctctcta aggataccta cgatgacgac ctcgacaacc tccttgctca gattggagat 2040 cagtacgccg accttttcct cgccgctaaa aacctctctg acgccatcct cctgtccgat 2100 attcttaggg tgaacaccga gatcaccaag gcaccacttt ccgcctctat gatcaagcgt 2160 tacgatgagc accaccagga cctcactttg cttaaggctc ttgttaggca gcagctccca 2220 gagaagtaca aagagatttt cttcgaccag tccaagaacg ggtacgccgg ttatattgat 2280 ggtggggctt ctcaagaaga gttctacaag ttcatcaagc ccatcttgga aaagatggac 2340 gggaccgaag agttgctcgt gaagcttaac cgtgaggacc ttcttaggaa gcagcgaact 2400 ttcgacaacg gctctattcc tcaccagatc caccttggag agctgcacgc tattcttcgt 2460 aggcaagagg acttctaccc attcctcaag gacaaccgtg agaagatcga gaagattctc 2520 accttcagga tcccttacta cgtgggacca cttgctaggg gaaattctag gttcgcttgg 2580 atgacccgta agagcgaaga gactatcact ccatggaact tcgaagaggt ggtggacaaa 2640 ggtgctagcg ctcagtcttt catcgagagg atgactaact tcgacaagaa cctgccaaac 2700 gagaaggtgc tcccaaagca ctctctgctc tacgagtact tcaccgtgta caacgagctg 2760 accaaggtca agtatgtgac cgagggaatg cgtaagccag ctttccttag tggtgagcag 2820 aaaaaggcca tcgtggacct cttgttcaag accaatagaa aggtgaccgt gaagcagctc 2880 aaagaggact acttcaaaaa gatcgagtgc ttcgactccg tcgagatctc tggtgttgag 2940 gataggttca acgcctcctt gggaacttac cacgacctcc tcaagatcat caaggataag 3000 gatttcttgg acaacgagga aaacgaggac atcttggagg acatcgtgct cacccttacc 3060 ttgttcgagg atcgagagat gatcgaggaa cgactcaaga cctacgctca cctgttcgat 3120 gacaaggtca tgaagcagtt gaagaggcgt aggtacactg gatggggacg tttgtcccgt 3180 aagctcatta acggaatcag ggacaagcag tccggcaaga ctatcctcga cttcctcaag 3240 tctgatgggt tcgccaaccg taacttcatg cagctcatcc acgacgacag cctgaccttt 3300 aaagaggaca tccaaaaggc ccaggtgtcc ggtcaaggcg attctcttca tgagcacatt 3360 gctaacctcg ctgggtcacc agctatcaag aagggaattc tccagactgt gaaggtcgtg 3420 gacgagttgg ttaaggtgat gggtagacac aagcccgaga acatcgtgat tgagatggct 3480 cgtgagaacc agactactca gaaggggcag aagaactcca gggaacgtat gaagaggatc 3540 gaagagggga tcaaagagct ggggtcccag attcttaaag agcacccagt tgagaacacc 3600 cagctccaga atgagaagct ctacctctac tacctgcaga acggcaggga tatgtacgtg 3660 gaccaagagc tggatatcaa caggctctcc gactacgatg ttgaccacat tgtgccccag 3720 tctttcttga aggacgactc catcgacaac aaggtgctca ccaggtctga taagaaccgt 3780 gggaagtctg acaacgtgcc atctgaagag gtcgtgaaga agatgaagaa ctactggcgt 3840 cagctcctca acgccaagct tattactcag aggaagttcg acaacttgac caaggctgag 3900 cgtggtggac tttccgaact tgataaggcc ggattcatca agaggcagct cgtggaaact 3960 aggcagatca ctaagcacgt ggcccagatc ttggactcta ggatgaacac caagtacgac 4020 gagaacgaca agctcatccg tgaggtgaag gtcatcaccc tcaagagcaa gctggtgtcc 4080 gatttcagaa aggacttcca attctacaag gtgagagaga tcaacaacta ccatcacgct 4140 cacgacgctt accttaacgc tgttgttgga accgctctca tcaaaaagta ccccaagctc 4200 gagtccgagt tcgtgtacgg tgattacaag gtgtacgacg tgcgtaagat gatcgccaag 4260 tcagagcaag agatcggtaa ggctaccgcc aagtatttct tctactccaa catcatgaat 4320 ttcttcaaga ctgagatcac cctcgccaac ggggagatta gaaagaggcc acttatcgag 4380 actaacggcg agactggtga aatcgtgtgg gataagggaa gagacttcgc cactgtgcgt 4440 aaggtgttgt ctatgccaca ggtgaacatc gtcaagaaaa ccgaggttca gaccggcggg 4500 ttctccaaag aatctatcct tccaaagagg aactccgaca agctgatcgc taggaagaag 4560 gattgggacc caaaaaagta cggtgggttc gattctccaa ccgtggctta ctctgttctt 4620 gttgtggcca aggttgagaa ggggaagtct aagaaactca agtccgtgaa agagctgctc 4680 gggatcacta tcatggaaag gtccagcttc gagaagaatc caatcgattt cctcgaggcc 4740 aagggctaca aagaggtgaa gaaggacctt atcatcaagc tccccaagta cagcctcttc 4800 gagttggaga acggacgtaa gaggatgctt gcttctgctg gggaacttca gaagggaaac 4860 gaactcgctc tgccctctaa gtacgtgaac ttcctgtacc tcgcttccca ctacgagaag 4920 cttaagggat ctccagagga taacgagcaa aagcagcttt tcgtcgagca gcacaagcac 4980 tacctcgacg agattatcga gcagatctcc gagttctcca agcgtgtgat tctcgctgat 5040 gccaacttgg acaaggtgtt gagcgcttac aacaagcacc gtgacaagcc aattagagag 5100 caggctgaga acatcatcca cctgttcact ctcaccaacc ttggtgctcc agctgccttt 5160 aagtacttcg ataccaccat cgaccgtaag aggtacacct ccaccaaaga ggttttggac 5220 gctaccctta tccaccagtc catcactgga ctttacgaga ctaggatcga cctctcacag 5280 ctcggtggtg actctggtgg atcaccaaag aagaagagga aggtctaa 5328 <210> 4 <211> 1775 <212> PRT <213> Artificial Sequence <220> <223> TadA-Cas9 D10A-NLS fusion protein <400> 4 Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu 1 5 10 15 Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala 20 25 30 Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro 35 40 45 Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg 50 55 60 Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu 65 70 75 80 Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His 85 90 95 Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly 100 105 110 Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His 115 120 125 Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu 130 135 140 Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys 145 150 155 160 Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser 165 170 175 Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser 180 185 190 Gly Gly Ser Ser Gly Gly Ser Ser Glu Val Glu Phe Ser His Glu Tyr 195 200 205 Trp Met Arg His Ala Leu Thr Leu Ala Lys Arg Ala Arg Asp Glu Arg 210 215 220 Glu Val Pro Val Gly Ala Val Leu Val Leu Asn Asn Arg Val Ile Gly 225 230 235 240 Glu Gly Trp Asn Arg Ala Ile Gly Leu His Asp Pro Thr Ala His Ala 245 250 255 Glu Ile Met Ala Leu Arg Gln Gly Gly Leu Val Met Gln Asn Tyr Arg 260 265 270 Leu Ile Asp Ala Thr Leu Tyr Val Thr Phe Glu Pro Cys Val Met Cys 275 280 285 Ala Gly Ala Met Ile His Ser Arg Ile Gly Arg Val Val Phe Gly Val 290 295 300 Arg Asn Ala Lys Thr Gly Ala Ala Gly Ser Leu Met Asp Val Leu His 305 310 315 320 Tyr Pro Gly Met Asn His Arg Val Glu Ile Thr Glu Gly Ile Leu Ala 325 330 335 Asp Glu Cys Ala Ala Leu Leu Cys Tyr Phe Phe Arg Met Pro Arg Gln 340 345 350 Val Phe Asn Ala Gln Lys Lys Ala Gln Ser Ser Thr Asp Ser Gly Gly 355 360 365 Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser 370 375 380 Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Asp Lys Lys 385 390 395 400 Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly Trp Ala Val 405 410 415 Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly 420 425 430 Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu 435 440 445 Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala 450 455 460 Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu 465 470 475 480 Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg 485 490 495 Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His 500 505 510 Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr 515 520 525 Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys 530 535 540 Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe 545 550 555 560 Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp 565 570 575 Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe 580 585 590 Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu 595 600 605 Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln 610 615 620 Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu 625 630 635 640 Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu 645 650 655 Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp 660 665 670 Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala 675 680 685 Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val 690 695 700 Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg 705 710 715 720 Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg 725 730 735 Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys 740 745 750 Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe 755 760 765 Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu 770 775 780 Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr 785 790 795 800 Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His 805 810 815 Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn 820 825 830 Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val 835 840 845 Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys 850 855 860 Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys 865 870 875 880 Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys 885 890 895 Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu 900 905 910 Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu 915 920 925 Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile 930 935 940 Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu 945 950 955 960 Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile 965 970 975 Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp 980 985 990 Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn 995 1000 1005 Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu 1010 1015 1020 Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu 1025 1030 1035 Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr 1040 1045 1050 Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp 1055 1060 1065 Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly 1070 1075 1080 Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu 1085 1090 1095 Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly 1100 1105 1110 Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala 1115 1120 1125 Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu 1130 1135 1140 Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu 1145 1150 1155 Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 1160 1165 1170 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly 1175 1180 1185 Ser Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln 1190 1195 1200 Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met 1205 1210 1215 Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp 1220 1225 1230 Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile 1235 1240 1245 Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser 1250 1255 1260 Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr 1265 1270 1275 Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe 1280 1285 1290 Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp 1295 1300 1305 Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile 1310 1315 1320 Thr Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys 1325 1330 1335 Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr 1340 1345 1350 Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe 1355 1360 1365 Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala 1370 1375 1380 Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro 1385 1390 1395 Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp 1400 1405 1410 Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala 1415 1420 1425 Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys 1430 1435 1440 Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu 1445 1450 1455 Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly 1460 1465 1470 Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val 1475 1480 1485 Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys 1490 1495 1500 Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg 1505 1510 1515 Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro 1520 1525 1530 Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly 1535 1540 1545 Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr 1550 1555 1560 Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu 1565 1570 1575 Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys 1580 1585 1590 Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg 1595 1600 1605 Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala 1610 1615 1620 Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr 1625 1630 1635 Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu 1640 1645 1650 Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln 1655 1660 1665 Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu 1670 1675 1680 Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile 1685 1690 1695 Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn 1700 1705 1710 Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp 1715 1720 1725 Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu 1730 1735 1740 Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu 1745 1750 1755 Ser Gln Leu Gly Gly Asp Ser Gly Gly Ser Pro Lys Lys Lys Arg 1760 1765 1770 Lys Val 1775 <210> 5 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> LIN5 sgRNA1 <400> 5 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg cctgacgatg aaattaagaa gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 6 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> LIN5 sgRNA2 <400> 6 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg ttcatcgtca ggtaatacat gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 7 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 sgRNA1 <400> 7 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg caagtgccga ggaggatgat gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 8 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 sgRNA2 <400> 8 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg catcctcctc ggcacttgac gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 9 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 sgRNA3 <400> 9 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg ttaccggtca agtgccgagg gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 10 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 S640 sgRNA1 <400> 10 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg gcaccgccac tgggaatcat gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 11 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 S640 sgRNA2 <400> 11 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg tctttgaaag caccgccact gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 12 <211> 183 <212> DNA <213> Artificial Sequence <220> <223> ALS2 S640 sgRNA3 <400> 12 ggagtgatca aaagtcccac atcgatcagg tgatatatag cagcttagtt tatataatga 60 tagagtcgac atagcgattg ctaccgatga ttcccagtgg gttttagagc tagaaatagc 120 aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt ggcaccgagt cggtgctttt 180 ttt 183 <210> 13 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LIN5 target site <400> 13 cctgacgatg aaattaagaa agg 23 <210> 14 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LIN5 target site <400> 14 cctgacgatg aaattaagaa agg 23 <210> 15 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LIN5 target site <400> 15 ccgatgtatt acctgacgat gaa 23 <210> 16 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LIN5 target site <400> 16 cctgacgatg aaattaagaa agg 23 <210> 17 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> LIN5 target site <400> 17 cctgacgatg aaattaagaa agg 23 <210> 18 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> WT target sequence <400> 18 atgtattacc tgacgatgaa 20 <210> 19 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 1 target sequence <400> 19 atgtattayc tgaygatgaa 20 <210> 20 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 2 target sequence <400> 20 atgtattacy tgaygatgaa 20 <210> 21 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 3 target sequence <400> 21 atgtattayy tgaygatgaa 20 <210> 22 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 4 target sequence <400> 22 atgtattacc tgacratraa 20 <210> 23 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 5 target sequence <400> 23 atgtattacc tracratraa 20 <210> 24 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> line 6 target sequence <400> 24 atgtattacc taacaataaa 20 <210> 25 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> target site <400> 25 tgctattacc ggtcaagtgc cgaggaggat gattggtac 39 <210> 26 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> target site <400> 26 acgataatgg ccagttcacg gctcctccta ctaaccatg 39 <210> 27 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> target site <400> 27 tgttctaccg atgattccca gtggcggtgc tttcaaaga 39 <210> 28 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> target site <400> 28 acaagatggc tactaagggt caccgccacg aaagtttct 39 <210> 29 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> P184 ref <400> 29 tgctattacc ggtcaagtgc cgaggaggat gattggtac 39 <210> 30 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> S640 ref <400> 30 tgttctaccg atgattccca gtggcggtgc tttcaaaga 39 <210> 31 <211> 39 <212> DNA <213> Artificial Sequence <220> <223> S640 ref <400> 31 tgttctaccg atgattccca gtggcggtgc tttcaaaga 39 <210> 32 <211> 11 <212> PRT <213> Artificial Sequence <220> <223> linker <400> 32 Ser Pro Lys Lys Lys Arg Lys Val Glu Ala Ser 1 5 10 <210> 33 <211> 16 <212> PRT <213> Artificial Sequence <220> <223> linker <400> 33 Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser 1 5 10 15 <210> 34 <211> 17 <212> PRT <213> Artificial Sequence <220> <223> linker <400> 34 Lys Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro Glu 1 5 10 15 Ser <210> 35 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> forward primer <400> 35 cactattggc atgtatcaca c 21 <210> 36 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> reversed primer <400> 36 gtgatgctga gatcccttta ac 22 <210> 37 <211> 6 <212> PRT <213> Artificial Sequence <220> <223> His-tag <400> 37 His His His His His His 1 5 <210> 38 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> linker <400> 38 Glu Ala Ala Ala Lys 1 5

Claims

세포 내 DNA를 부위 특이적 뉴클레아제 도메인 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질과 접촉시키는 단계를 포함하는, 세포에서 표적 뉴클레오티드 편집 방법.
제1항에 있어서,
부위 특이적 뉴클레아제 도메인은 CRISPR-뉴클레아제이며, 그리고 상기 방법은 상기 DNA를 하나 이상의 가이드 RNAs와 접촉시키는 단계를 추가로 포함하며, 각각의 가이드 RNA는 부위 특이적 뉴클레아제를 DNA 내의 표적 서열로 표적화하기 위한 가이드 서열을 포함하는, 방법.
제2항에 있어서,
CRISPR-뉴클레아제는 Cas9 또는 Cpf1인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
디아미나아제 도메인은 아포리포프로틴 B mRNA-에디팅 복합체(APOBEC) 패밀리 디아미나아제, 활성화-유도된 시토신 디아미나아제(AID), ACF1/ASE 디아미나아제, 아데닌 디아미나아제 및 ADAT 패밀리 디아미나아제로 구성되는 그룹으로부터 선택되는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
적어도 하나의 융합 단백질 내의 디아미나아제 도메인은 뉴클레아제 도메인의 N-말단에 융합되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 DNA는 적어도 제1 및 제2 융합 단백질과 접촉되며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하며, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함하는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
시토신 디아미나아제 도메인을 포함하는 융합 단백질은 우라실 DNA 글리코실라아제 인히비터 도메인을 추가로 포함하는, 방법.
제7항에 있어서,
우라실 DNA 글리코실라아제 인히비터 도메인은 뉴클라아제 도메인의 C-말단에 융합되는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
적어도 하나의 융합 단백질 및/또는 하나 이상의 가이드 RNA는 상기 세포에서 상기 융합 단백질 및/또는 상기 가이드 RNAs의 발현을 위한 하나 이상의 DNA 구조체를 상기 세포에 도입함으로써 상기 DNA에 접촉되는, 방법.
제1항 내지 제9항에 있어서,
적어도 하나의 융합 단백질 및/또는 하나 이상의 가이드 RNAs는 상기 융합 단백질 및/또는 상기 가이드 RNAs를 상기 세포에 도입함으로써 상기 DNA 분자에 접촉되는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
세포는 식물 세포이며, 그리고 여기서 적어도 하나의 융합 단백질, 하나 이상의 가이드 RNAs 및/또는 이를 코딩하는 하나 이상의 구조체는 폴리에틸렌 글리콜 매개 트랜스포메이션을 이용하여, 바람직하게 PEG를 포함하는 수성 매체를 이용하여 식물 세포에 도입되는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
세포는 식물 세포이며, 그리고 여기서 바람직하게 상기 방법은 표적화된 변형을 포함하는 식물 또는 이의 자손을 재생하는 단계를 추가로 포함하는, 방법.
제1항 내지 제12항 중 어느 한 항의 방법에 의해 수득된 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포로서, 여기서 세포는 식물 세포이며, 여기서 식물, 식물 부분, 종자 또는 식물 세포는 컨트롤 식물, 식물 부분, 종자, 또는 식물 세포와 비교하여 표적화된 변형을 포함함으로써 변경되며, 그리고 여기서 바람직하게 컨트롤 식물, 식물 부분, 종자 또는 식물 세포는 표적화된 변형이 제1항 내지 제12항 중 어느 한 항의 방법에 의해 도입되기 전의 식물, 식물 부분, 종자 또는 식물 세포인, 식물, 식물 부분, 식물 생성물, 종자 또는 식물 세포.
세포에서 표적화된 뉴클레오티드 편집시, 부위 특이적 뉴클레아제 및 디아미나아제 도메인을 포함하는 적어도 하나의 융합 단백질, 또는 이를 코딩하는 구조체의 용도.
제1항 내지 제14항 중 어느 한 항에 정의된 제1 융합 단백질 및 제2 융합 단백질, 또는 이를 코딩하는 구조체(들)를 포함하는 조성물로서, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함하는, 조성물.
세포에서 DNA의 표적 뉴클레오티드 편집용 키트로서, 제1항 내지 제15항 중 어느 한 항에 정의된 적어도 하나의 제1 및 제2 융합 단백질을 포함하며, 여기서 제1 융합 단백질은 시토신 디아미나아제 도메인을 포함하고, 제2 융합 단백질은 아데닌 디아미나아제 도메인을 포함하는, 키트.