KR20220017939A

KR20220017939A - 인간화 알부민 좌위를 포함하는 비-인간 동물

Info

Publication number: KR20220017939A
Application number: KR1020217041966A
Authority: KR
Inventors: 칭 팡; 치아-젠 샤오; 단 찰로쏜; 케흐디 라이; 리 사빈; 레이첼 새틀러; 브라이언 잠브로비츠; 로리 모튼
Original assignee: 리제너론 파마슈티칼스 인코포레이티드
Priority date: 2019-06-07
Filing date: 2020-06-05
Publication date: 2022-02-14
Also published as: AU2020289581A1; SG11202111256XA; US20200383304A1; US20230232797A1; CN113939595A; BR112021022722A2; MX2021015122A; EP3796776A1; WO2020247812A1; TW202112229A; JP2022534560A; US11622547B2; IL288606A; CA3137764A1

Abstract

인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물, 및 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물을 제조하는 방법 및 사용하는 방법이 제공된다. 인간화 알부민 좌위를 포함하는 비-인간 동물 세포 또는 비-인간 동물은 인간 알부민 단백질 또는 키메라 알부민 단백질을 발현하며, 이의 단편은 인간 알부민으로부터의 것이다. 인간-알부민-표적화 시약, 예컨대 인간 알부민을 표적화하도록 설계된 뉴클레아제 제제의 생체내 효능을 평가하기 위해 인간화 알부민 좌위를 포함하는 이러한 비-인간 동물을 사용하는 방법이 제공된다.

Description

인간화 알부민 좌위를 포함하는 비-인간 동물

관련 출원의 교차 참조

본 출원은 2019년 6월 7일에 출원된 미국 출원 62/858,589호, 및 2019년 10월 17일에 출원된 미국 출원 62/916,666호의 이익을 주장하며, 이들 각각의 전체내용은 모든 목적을 위해 본 명세서에 참조로서 포함된다.

EFS 웹을 통해 텍스트 파일로 제출된 서열 목록에 대한 참조

파일 548157SEQLIST.txt로 작성된 서열 목록은 158 킬로바이트 크기이고, 2020년 5월 27일에 생성되고, 본 명세서에 참조로서 포함된다.

유전자 치료법은 몇몇 인간 질환에 대한 유망한 치료적 접근법이다. 유전자 치료법으로의 하나의 접근법은 게놈 내 세이프 하버 좌위(safe harbor locus) 내로의 이식유전자(transgene)의 삽입이다. 세이프 하버 좌위는, 이식유전자 또는 다른 외인성 핵산 삽입물이 세포 거동 또는 표현형을 과도하게 변경시키지 않으면서 모든 관심 조직에서 안정하게 그리고 신뢰할 만하게 발현될 수 있는 염색체 좌위를 포함한다. 종종, 세이프 하버 좌위는, 삽입된 유전자 서열의 발현이 이웃 유전자로부터의 임의의 판독-통과(read-through) 발현에 의해 동요되지 않는 것이다. 예를 들어, 세이프 하버 좌위는, 외인성 DNA가 내인성 유전자 구조 또는 발현에 유해한 영향을 미치지 않으면서 예측 가능한 방식으로 통합되고 작용할 수 있는 염색체 좌위를 포함할 수 있다. 세이프 하버 좌위는 예를 들어, 비-본질적이거나, 불필요하거나 명시적인 표현형 결과 없이 교란될 수 있는 유전자 내의 좌위와 같이 유전자외(extragenic) 영역 또는 유전자내(intragenic) 영역을 포함할 수 있다.

세이프 하버 좌위의 일례는 알부민이다. 그러나, 생체내에서 내인성 알부민 좌위에서 인간-알부민-표적화 시약의 진(true) 인간 게놈 DNA 표적의 진 또는 밀접한 근사물(close approximation)을 제공하여, 살아 있는 동물에서 이러한 제제의 효능 및 작용 방식, 뿐만 아니라 인간화 유전자가 존재하는 알부민의 유일한 버전인 설정에서 약물동력학적(pharmacokinetic) 연구 및 약력학적(pharmacodynamics) 연구의 시험을 가능하게 하는 적합한 비-인간 동물에 대한 필요성이 존재한다.

인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물, 뿐만 아니라 이러한 비-인간 동물을 제조하는 방법 및 사용하는 방법이 제공된다. 인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈 또는 세포가 또한 제공된다. 인간화 알부민 유전자가 또한 제공된다.

일 양태에서, 인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물이 제공된다. 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물은, 내인성 알부민 좌위의 분절이 결실되었고 상응하는 인간 알부민 서열로 대체된 인간화 내인성 알부민 좌위를 이의 게놈에 포함할 수 있다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 인간 혈청 알부민 펩타이드를 포함하는 단백질을 인코딩한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 인간 알부민 프로펩타이드를 포함하는 단백질을 인코딩한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 인간 알부민 신호 펩타이드를 포함하는 단백질을 인코딩한다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 코딩 서열과 비-코딩 서열 둘 다 포함하는 내인성 알부민 좌위의 영역은 결실되었고, 코딩 서열과 비-코딩 서열 둘 다 포함하는 상응하는 인간 알부민 서열로 대체되었다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 내인성 알부민 프로모터를 포함하며, 인간 알부민 서열은 내인성 알부민 프로모터에 작동적으로 연결된다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 내인성 알부민 좌위의 적어도 하나의 인트론 및 적어도 하나의 엑손은 결실되었고 상응하는 인간 알부민 서열로 대체되었다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 내인성 알부민 좌위의 전체 알부민 코딩 서열은 결실되었고 상응하는 인간 알부민서열로 대체되었다. 선택적으로, 개시 코돈으로부터 정지 코돈까지의 내인성 알부민 좌위의 영역은 결실되었고 상응하는 인간 알부민 서열로 대체되었다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 인간 알부민 3' 비번역 영역을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 내인성 알부민 5' 비번역 영역은 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않았다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 개시 코돈으로부터 정지 코돈까지의 내인성 알부민 좌위의 영역은 결실되었고 상응하는 인간 알부민 서열을 포함하는 인간 알부민 서열 및 인간 알부민 3' 비번역 영역으로 대체되었으며, 내인성 알부민 5' 비번역 영역은 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않았고, 내인성 알부민 프로모터는 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않았다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위의 인간 알부민 서열은 SEQ ID NO: 35로 표시된 서열과 적어도 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 5로 표시된 서열과 적어도 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하는 단백질을 인코딩한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 13으로 표시된 서열과 적어도 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하는 코딩 서열을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 17 또는 18로 표시된 서열과 적어도 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위의 인간 알부민 서열은 SEQ ID NO: 35로 표시된 서열과 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 5로 표시된 서열과 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하는 단백질을 인코딩한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 13으로 표시된 서열과 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하는 코딩 서열을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 SEQ ID NO: 17 또는 18로 표시된 서열과 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함한다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 인간화 내인성 알부민 좌위는 선택 카세트 또는 리포터 유전자를 포함하지 않는다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 비-인간 동물은 인간화 내인성 알부민 좌위에 대해 동형접합성이다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 비-인간 동물은 이의 생식계열에서 인간화 내인성 알부민 좌위를 포함한다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 비-인간 동물은 포유류이다. 선택적으로, 비-인간 동물은 래트 또는 마우스이다. 선택적으로, 비-인간 동물은 마우스이다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 비-인간 동물은 적어도 약 10 mg/mL의 혈청 알부민 수준을 포함한다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 비-인간 동물에서의 혈청 알부민 수준은 적어도, 야생형 알부민 좌위를 포함하는 대조군 비-인간 동물에서의 혈청 알부민 수준만큼 높다.

일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 게놈, 세포, 또는 동물은 인간화 내인성 알부민 좌위에 대해 이형접합성이다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 게놈, 세포, 또는 동물은 인간화 내인성 알부민 좌위에 대해 동형접합성이다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 게놈, 세포, 또는 동물은 비-인간 동물의 하나 이상의 세포에서 인간화 내인성 알부민 좌위의 적어도 하나의 대립유전자 내로 통합된 외인성 단백질에 대한 코딩 서열을 추가로 포함한다. 선택적으로, 외인성 단백질에 대한 코딩 서열은 인간화 내인성 알부민 좌위(비-인간 동물의 하나 이상의 세포에서)의 적어도 하나의 대립유전자의 인트론 1 내로 통합된다. 일부 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물에서, 게놈, 세포, 또는 동물은 내인성 알부민 좌위가 아닌 비활성화된 내인성 좌위를 추가로 포함한다. 선택적으로, 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물은 인간화 내인성 알부민 좌위(비-인간 동물의 하나 이상의 세포에서)의 적어도 하나의 대립유전자 내로 통합된 외인성 단백질에 대한 코딩 서열을 추가로 포함하며, 상기 외인성 단백질은 비활성화된 내인성 좌위의 기능을 대체한다. 선택적으로, 비활성화된 내인성 좌위는 비활성화된 F9 좌위이다.

또 다른 양태에서, 상기 기재된 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물을 생산하기 위한 표적화 벡터가 제공된다. 이러한 표적화 벡터는 인간화 내인성 알부민 좌위를 생산하기 위한 것일 수 있으며, 상기 내인성 알부민 좌위의 분절은 결실되었고 상응하는 인간 알부민 서열로 대체되었으며, 표적화 벡터는 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암(arm) 및 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹된 상응하는 인간 알부민 서열을 포함하는 삽입물(insert) 핵산을 포함한다.

또 다른 양태에서, 생체내에서 인간-알부민-표적화 시약의 활성을 평가하는 방법이 제공된다. 일부 이러한 방법은 (a) 인간-알부민-표적화 시약을 상기 기재된 임의의 비-인간 동물에게 투여하는 단계; (b) 인간-알부민-표적화 시약의 활성을 상기 비-인간 동물에서 평가하는 단계를 포함한다.

일부 이러한 방법에서, 투여는 아데노-관련 바이러스(AAV)-매개 전달, 지질 나노입자(LNP)-매개 전달, 또는 유체역학적 전달(HDD: hydrodynamic delivery)을 포함한다. 선택적으로, 투여는 LNP-매개 전달을 포함한다. 선택적으로, LNP 용량은 약 0.1 mg/kg 내지 약 2 mg/kg이다. 일부 이러한 방법에서, 투여는 AAV8-매개 전달을 포함한다.

일부 이러한 방법에서, 단계 (b)는 비-인간 동물로부터 간을 단리하는 단계 및 상기 간에서 인간-알부민-표적화 시약의 활성을 평가하는 단계를 포함한다.

일부 이러한 방법에서, 인간-알부민-표적화 시약은 게놈-편집 제제이고, 상기 평가는 인간화 내인성 알부민 좌위의 변형을 평가하는 단계를 포함한다. 선택적으로, 평가는 인간화 내인성 알부민 좌위 내에서 삽입 또는 결실의 빈도를 측정하는 단계를 포함한다.

일부 이러한 방법에서, 평가는 인간화 내인성 알부민 좌위에 의해 인코딩되는 알부민 메신저 RNA의 발현을 측정하는 단계를 포함한다. 일부 이러한 방법에서, 평가는 인간화 내인성 알부민 좌위에 의해 인코딩되는 알부민 단백질의 발현을 측정하는 단계를 포함한다. 선택적으로, 알부민 단백질의 발현을 평가하는 단계는 비-인간 동물에서 알부민 단백질의 혈청 수준을 측정하는 단계를 포함한다. 선택적으로, 알부민 단백질의 발현을 평가하는 단계는 비-인간 동물의 간에서 알부민 단백질의 발현을 측정하는 단계를 포함한다.

일부 이러한 방법에서, 인간-알부민-표적화 시약은 인간 알부민 유전자의 영역을 표적화하도록 설계된 뉴클레아제 제제를 포함한다. 일부 이러한 방법에서, 인간-알부민-표적화 시약은 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산을 포함하며, 상기 뉴클레아제 제제는 인간 알부민 유전자의 영역을 표적화하도록 설계된다. 선택적으로, 뉴클레아제 제제는 Cas 단백질, 및 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계된 가이드 RNA를 포함한다. 선택적으로, 가이드 RNA 표적 서열은 인간 알부민 유전자의 인트론 1에 존재한다. 선택적으로, Cas 단백질은 Cas9 단백질이다.

일부 이러한 방법에서, 인간-알부민-표적화 시약은 외인성 공여자 핵산을 포함하며, 상기 외인성 공여자 핵산은 인간 알부민 유전자를 표적화하도록 설계되고, 선택적으로 상기 외인성 공여자 핵산은 AAV를 통해 전달된다. 선택적으로, 외인성 공여자 핵산은 단일-가닥 올리고데옥시뉴클레오타이드(ssODN)이다. 선택적으로, 외인성 공여자 핵산은 비-상동성 말단 접합에 의해 인간화 알부민 좌위 내로 삽입될 수 있다.

일부 방법에서, 외인성 공여자 핵산은 상동성 아암을 포함하지 않는다. 일부 방법에서, 외인성 공여자 핵산은 인간화 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암 및 인간화 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함한다. 선택적으로, 5' 표적 서열 및 3' 표적 서열은 각각 인간 알부민 유전자의 인트론 1의 분절을 포함한다.

일부 이러한 방법에서, 외인성 공여자 핵산은 외인성 단백질을 인코딩한다. 선택적으로, 외인성 공여자 핵산으로 표적화되었던 인간화 내인성 알부민 좌위에 의해 인코딩되는 단백질은 외인성 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질이다. 선택적으로, 외인성 단백질은 인자 IX 단백질이다. 선택적으로, 평가는 비-인간 동물에서 인자 IX 단백질의 혈청 수준을 측정하는 단계를 포함하고/하거나 활성화된 부분 트롬보플라스틴 시간을 평가하거나 트롬빈 생산 검정을 수행하는 단계를 포함한다. 선택적으로, 비-인간 동물은 비활성화된 F9 좌위를 추가로 포함하고, 평가는 비-인간 동물에서 인자 IX 단백질의 혈청 수준을 측정하는 단계를 포함하고/하거나 활성화된 부분 트롬보플라스틴 시간을 평가하거나 트롬빈 생산 검정을 수행하는 단계를 포함한다. 선택적으로, 인간-알부민-표적화 시약은 (1) 인간 알부민 유전자의 영역을 표적화하도록 설계된 뉴클레아제 제제 및 (2) 외인성 공여자 핵산을 포함하며, 상기 외인성 공여자 핵산은 인간 알부민 유전자를 표적화하도록 설계되며, 외인성 공여자 핵산은 외인성 단백질을 인코딩하고, 외인성 공여자 핵산으로 표적화되었던 인간화 내인성 알부민 좌위에 의해 인코딩되는 단백질은 외인성 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질이다. 선택적으로, 평가는 외인성 공여자 핵산에 의해 인코딩되는 메신저 RNA의 발현을 측정하는 단계를 포함한다. 선택적으로, 평가는 외인성 단백질의 발현을 측정하는 단계를 포함한다. 선택적으로, 이종성 단백질의 발현을 평가하는 단계는 비-인간 동물에서 이종성 단백질의 혈청 수준을 측정하는 단계를 포함한다. 선택적으로, 이종성 단백질의 발현을 평가하는 단계는 비-인간 동물의 간에서 발현을 측정하는 단계를 포함한다.

또 다른 양태에서, 생체내에서 인간-알부민-표적화 시약의 활성을 최적화하는 방법이 제공된다. 일부 이러한 방법은 (I) 첫 번째로 인간화 내인성 알부민 좌위를 제1 비-인간 동물의 게놈에 포함하는 제1 비-인간 동물에서 생체내에서 인간-알부민-표적화 시약의 활성을 평가하는 임의의 상기 방법을 수행하는 단계; (II) 변수를 변화시키고, 두 번째로 인간화 내인성 알부민 좌위를 제2 비-인간 동물의 게놈에 포함하는 제2 비-인간 동물에서 변화된 변수로 상기 단계 (I)의 방법을 수행하는 단계; 및 (III) 상기 단계 (I)에서의 인간-알부민-표적화 시약의 활성을 상기 단계 (II)에서의 인간-알부민-표적화 시약의 활성과 비교하고, 더 높은 활성을 초래하는 방법을 선택하는 단계를 포함한다.

일부 이러한 방법에서, 단계 (II)에서의 변화된 변수는 인간-알부민-표적화 시약을 비-인간 동물 내로 도입하는 전달 방법이다. 선택적으로, 투여는 LNP-매개 전달을 포함하고, 단계 (II)에서의 변화된 변수는 LNP 제형이다. 일부 이러한 방법에서, 단계 (II)에서의 변화된 변수는 인간-알부민-표적화 시약을 비-인간 동물 내로 도입하는 투여 경로이다. 일부 이러한 방법에서, 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약의 농도 또는 양이다. 일부 이러한 방법에서, 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약의 형태이다. 일부 이러한 방법에서, 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약이다.

일부 이러한 방법에서, 인간-알부민-표적화 시약은 Cas 단백질, 및 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계된 가이드 RNA를 포함한다. 일부 이러한 방법에서, 인간-알부민-표적화 시약은 Cas 단백질 또는 상기 Cas 단백질을 인코딩하는 핵산 및 가이드 RNA 또는 상기 가이드 RNA를 인코딩하는 DNA를 포함하며, 상기 가이드 RNA는 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계된다. 선택적으로, 단계 (II)에서의 변화된 변수는 가이드 RNA 서열 또는 가이드 RNA 표적 서열이다. 선택적으로, Cas 단백질 및 가이드 RNA는 각각 RNA 형태로 투여되며, 단계 (II)에서의 변화된 변수는 가이드 RNA에 대한 Cas mRNA의 비(ratio)이다. 선택적으로, 단계 (II)에서의 변화된 변수는 가이드 RNA 변형이다. 선택적으로, 인간-알부민-표적화 시약은 Cas 단백질을 인코딩하는 메신저 RNA(mRNA) 및 가이드 RNA를 포함하며, 단계 (II)에서의 변화된 변수는 가이드 RNA에 대한 Cas mRNA의 비이다.

일부 이러한 방법에서, 인간-알부민-표적화 시약은 외인성 공여자 핵산을 포함한다. 선택적으로, 단계 (II)에서의 변화되는 변수는 외인성 공여자 핵산의 형태이다. 선택적으로, 외인성 공여자 핵산은 인간화 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암 및 인간화 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하고, 단계 (II)에서의 변화된 변수는 5' 상동성 아암의 서열 또는 길이 및/또는 3' 상동성 아암의 서열 또는 길이이다.

또 다른 양태에서, 임의의 상기 비-인간 동물을 제조하는 방법이 제공된다. 일부 이러한 방법은 (a) 비-인간 동물 배아 줄기(ES) 세포 내로 (i) 내인성 알부민 좌위 내 표적 서열을 표적화하는 뉴클레아제 제제; 및 (ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터로서, 상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 비-인간 ES 세포의 게놈에 포함하는 상기 유전적으로 변형된 비-인간 ES 세포를 생성하는, 표적화 벡터를 도입하는 단계; (b) 상기 유전적으로 변형된 비-인간 ES 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및 (c) 상기 비-인간 동물 숙주 배아를 대리모에 임신시키는 단계로서, 상기 대리모는 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 F0 자손 유전적으로 변형된 비-인간 동물의 게놈에 포함하는 상기 F0 자손 유전적으로 변형된 비-인간 동물을 생성하는, 단계를 포함한다. 또 다른 양태에서, 임의의 상기 비-인간 동물을 제조하는 방법이 제공된다. 일부 이러한 방법은 (a) 비-인간 동물 배아 줄기(ES) 세포 내로 (i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내 표적 서열을 표적화하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및 (ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터로서, 상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 비-인간 ES 세포의 게놈에 포함하는 상기 유전적으로 변형된 비-인간 ES 세포를 생성하는, 표적화 벡터를 도입하는 단계; (b) 상기 유전적으로 변형된 비-인간 ES 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및 (c) 상기 비-인간 동물 숙주 배아를 대리모에 임신시키는 단계로서, 상기 대리모는 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 F0 자손 유전적으로 변형된 비-인간 동물의 게놈에 포함하는 상기 F0 자손 유전적으로 변형된 비-인간 동물을 생성하는, 단계를 포함한다. 선택적으로, 표적화 벡터는, 적어도 10 kb 길이이거나 5' 상동성 아암과 3' 상동성 아암의 총 합계가 적어도 10 kb 길이인 큰 표적화 벡터이다.

일부 이러한 방법은 (a) 비-인간 동물 1-세포 단계(cell stage) 배아 내로 (i) 내인성 알부민 좌위 내 표적 서열을 표적화하는 뉴클레아제 제제; 및 (ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터로서, 상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 비-인간 1-세포 단계 배아의 게놈에 포함하는 상기 유전적으로 변형된 비-인간 1-세포 단계 배아를 생성하는, 표적화 벡터를 도입하는 단계; (b) 상기 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 대리모에 임신시켜, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 F0 세대 비-인간 동물의 게놈에 포함하는 상기 유전적으로 변형된 F0 세대 비-인간 동물을 생성하는, 단계를 포함한다. 일부 이러한 방법은 (a) 비-인간 동물 1-세포 단계 배아 내로 (i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내 표적 서열을 표적화하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및 (ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터로서, 상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 비-인간 1-세포 단계 배아의 게놈에 포함하는 상기 유전적으로 변형된 비-인간 1-세포 단계 배아를 생성하는, 표적화 벡터를 도입하는 단계; (b) 상기 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 대리모에 임신시켜, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 유전적으로 변형된 F0 세대 비-인간 동물의 게놈에 포함하는 상기 유전적으로 변형된 F0 세대 비-인간 동물을 생성하는, 단계를 포함한다.

일부 이러한 방법에서, 뉴클레아제 제제는 Cas 단백질 및 가이드 RNA를 포함한다. 선택적으로, Cas 단백질은 Cas9 단백질이다. 선택적으로, 단계 (a)는 내인성 알부민 좌위 내의 제2 표적 서열을 표적화하는 제2 가이드 RNA를 도입하는 단계를 추가로 포함한다.

일부 이러한 방법에서, 비-인간 동물은 마우스 또는 래트이다. 선택적으로, 비-인간 동물은 마우스이다.

또 다른 양태에서, 임의의 상기 비-인간 동물을 제조하는 방법이 제공된다. 일부 이러한 방법은 (a) 인간화 내인성 알부민 좌위를 포함하도록 만능성(pluripotent) 비-인간 동물 세포의 게놈을 변형시키는 단계; (b) 상기 인간화 내인성 알부민을 포함하는 유전적으로 변형된 만능성 비-인간 동물 세포를 식별하거나 선택하는 단계; (c) 상기 유전적으로 변형된 만능성 비-인간 동물 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및 (d) 상기 비-인간 동물 숙주 배아를 대리모에 임신시키는 단계를 포함한다. 일부 이러한 방법은 (a) 인간화 내인성 알부민 좌위를 포함하도록 비-인간 동물 1-세포 단계 배아의 게놈을 변형시키는 단계; (b) 상기 인간화 내인성 알부민 좌위를 포함하는 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 선택하는 단계; 및 (c) 상기 유전적으로 변형된 비-인간 동물 1-세포 단계 배아 세포를 대리모에 임신시키는 단계를 포함한다.

도 1a(척도대로 아님)는 네오마이신 선택 카세트(MAID 7626)와 함께 인간화 마우스 알부민(Alb) 좌위의 개략도를 도시한다. 연접부 A, B, 및 C에 대한 서열은 SEQ ID NO: 19-21로 각각 표시되어 있다.
도 1b(척도대로 아님)는 네오마이신 선택 카세트(MAID 7627)의 제거 후 인간화 마우스 알부민(Alb) 좌위의 개략도를 도시한다. 연접부 A 및 D에 대한 서열은 SEQ ID NO: 19 및 22로 각각 표시되어 있다.
도 2(척도대로 아님)는 마우스 알부민(Alb) 좌위의 인간화를 스크리닝하기 위한 TAQMAN^® 프로브의 국재화를 도시한다. 대립유전자-획득(GOA: gain-of-allele) 프로브는 7626hU 및 7626hD를 포함한다. 대립유전자-소실(LOA: loss-of-allele) 프로브는 7626mTU 및 7626mTD를 포함한다.
도 3a 및 도 3b는 마우스(마우스 Alb), 인간(인간 ALB), 및 인간화(7626 HumIn Prot) 알부민 단백질의 정렬을 도시한다. 박스형 잔기는 신호 펩타이드를 이룬다. 점선은 혈청 알부민 펩타이드 서열을 나타낸다. 굵은 실선은 프로펩타이드 서열을 나타낸다. 인간화 알부민 단백질 내 모든 잔기는 도입된 인간 엑손에 의해 인코딩된다.
도 4는 인간화 알부민 마우스(ALB^hu/hu) 및 야생형(WT) 마우스로부터의 혈장 시료에서의 인간 알부민 수준을 도시한다. 풀링된 정상 인간 혈장(George King-Biomedical Inc.)은 양성 대조군으로서 사용되었다. VelocImmune(VI) 마우스는 음성 대조군으로서 사용되었다.
도 5는 인간화 알부민 마우스(ALB^hu/hu) 및 야생형(WT) 마우스로부터의 혈장 시료에서의 마우스 알부민 수준을 도시한다. 풀링된 정상 인간 혈장(George King-Biomedical Inc.)은 음성 대조군으로서 사용되었다. VI 마우스는 양성 대조군으로서 사용되었다.
도 6a 및 도 6b는 인간화 알부민 마우스에서 AAV-hF9 삽입으로부터의 인간 인자 IX 혈장 수준을 도시한다.
도 7은 BASESCOPE™에 의해 결정된 바와 같이 hALB-hFIX mRNA에 대해 양성인 세포의 백분율에 대해 플롯화된, AAV-hF9 공여자 및 LNP-CRISPR/Cas9의 주사-후 제7주에서 인간 인자 IX 혈장 수준을 도시한다.
도 8은 ALB^m/hux F9^-/- 마우스에서 AAV-hF9 삽입으로부터의 인간 인자 IX 혈장 수준을 도시한다.
도 9는 ALB^m/hux F9^-/- 마우스에서 AAV-hF9 삽입으로부터의 인간 및 마우스 혈장 시료에서 aPTT 효과를 도시한다.
도 10a 및 도 10b는 TGA-EA 프로파일을 도시한다. 도 10a는 인간 정상 및 인자-IX-결핍 혈장 시료의 TGA-EA 프로파일을 도시한다. 도 10b는 ALB^m/hux F9^-/- 마우스에서 AAV-hF9 삽입으로부터의 마우스 혈장의 TGA-EA 프로파일을 도시한다.
도 11은 ALB^m/hux F9^-/- 마우스에서 AAV-hF9 삽입으로부터의 마우스 혈장 시료에서 트롬빈 생산을 도시한다.

정의

본원에서 상호 교환적으로 사용되는 용어인 "단백질", "폴리펩타이드" 및 "펩타이드"는 코딩된 및 비-코딩된 아미노산 및 화학적으로 또는 생화학적으로 변형되거나 유도체화된 아미노산을 비롯한 임의의 길이의 아미노산의 중합체 형태를 포함한다. 상기 용어들은 또한 변형된 펩타이드 백본을 갖는 폴리펩타이드와 같은 변형된 중합체를 포함한다. 용어 "도메인"은 특정 기능 또는 구조를 갖는 단백질 또는 폴리펩타이드의 임의의 파트를 지칭한다.

본원에서 상호교환적으로 사용되는 용어인 "핵산", 및 "폴리뉴클레오타이드"는, 리보뉴클레오타이드, 데옥시리보뉴클레오타이드, 또는 이의 유사체 또는 변형된 버전을 비롯한 임의의 길이의 뉴클레오타이드의 중합체 형태를 포함한다. 이들은, 단일 가닥, 이중 가닥 및 다중 가닥 DNA 또는 RNA, 게놈 DNA, cDNA, DNA-RNA 하이브리드, 및 퓨린 염기, 피리미딘 염기 또는 기타 천연, 화학적으로 변형된, 생화학적으로 변형된, 비천연, 또는 유도체화된 뉴클레오타이드 염기를 포함하는 중합체를 포함한다.

용어 "게놈적으로 통합된"은, 뉴클레오타이드 서열이 세포의 게놈 내로 통합되도록 세포 내로 도입된 핵산을 지칭한다. 임의의 프로토콜은 핵산을 세포의 게놈 내로 안정하게 혼입하는 데 사용될 수 있다.

용어 "표적화 벡터"는 세포의 게놈 내 표적 위치에 상동성 재조합(homologous recombination), 비-상동성-말단-접합-매개 리게이션(non-homologous-end-joining-mediated ligation), 또는 임의의 다른 재조합 수단에 의해 도입될 수 있는 재조합 핵산을 지칭한다.

용어 "바이러스 벡터"는, 바이러스 기원의 적어도 하나의 요소를 포함하고 바이러스 벡터 입자 내로의 포장(packaging)에 충분하거나 이를 허용하는 요소를 포함하는 재조합 핵산을 지칭한다. 벡터 및/또는 입자는 DNA, RNA, 또는 다른 핵산을 시험관내에서, 생체외에서, 또는 생체내에서 세포 내로 이전시키는 목적에 이용될 수 있다. 수많은 형태의 바이러스 벡터가 알려져 있다.

세포, 조직(예를 들어, 간 시료), 단백질, 및 핵산에 관하여 용어 "단리된"은, 상기 세포, 조직(예를 들어, 간 시료), 단백질, 및 핵산의 실질적으로 순수한 조제물까지 그리고 이를 포함하여, 인 시추에서(in situ) 통상 존재할 수 있는 다른 박테리아, 바이러스, 세포, 또는 다른 성분에 관하여 상대적으로 정제된 세포, 조직(예를 들어, 간 시료), 단백질, 및 핵산을 포함한다. 용어 "단리된"은 또한, 어떠한 천연 발생 대응물(counterpart)도 없으며, 화학적으로 합성되었고 따라서 다른 세포, 조직(예를 들어, 간 시료), 단백질, 및 핵산에 의해 실질적으로 오염되지 않거나, 이들이 천연적으로 수반하는 대부분의 다른 성분(예를 들어, 세포성 성분)(예를 들어, 다른 세포성 단백질, 폴리뉴클레오타이드, 또는 세포성 성분)으로부터 분리 또는 정제되었던 세포, 조직(예를 들어, 간 시료), 단백질, 또는 핵산을 포함한다.

용어 "야생형"은 정상(돌연변이체, 질환에 걸린(diseased), 변경된 등과 대조적임) 상태 또는 맥락에서 확인된 바와 같은 구조 및/또는 활성을 갖는 실체(entity)를 포함한다. 야생형 유전자 및 폴리펩타이드는 종종 다수의 상이한 형태(예를 들어, 대립유전자)로 존재한다.

용어 "내인성 서열"은 세포 또는 비-인간 동물 내에서 천연적으로 발생하는 핵산 서열을 지칭한다. 예를 들어, 비-인간 동물의 내인성 알부민 서열은 비-인간 동물 내 알부민 좌위에서 천연적으로 발생하는 네이티브 알부민 서열을 지칭한다.

"외인성" 분자 또는 서열은 통상 해당 형태 또는 위치(예를 들어, 게놈 좌위)로는 세포에 존재하지 않는 분자 또는 서열을 포함한다. 정상적인 존재는, 세포의 특정 발달 단계 및 환경 조건과 관련된 존재를 포함한다. 외인성 분자 또는 서열은 예를 들어, 세포 내의 상응하는 내인성 서열의 돌연변이화된 버전, 예컨대 내인성 서열의 인간화 버전을 포함할 수 있거나, 세포 내의 내인성 서열에 상응하지만 상이한 형태로(즉, 염색체 내에 있지 않음) 존재하는 서열을 포함할 수 있다. 대조적으로, 내인성 분자 또는 서열은, 특정 환경 조건 하에 특정 발단 단계에서 특정 세포에서 해당 형태 및 위치로 통상 존재하는 분자 또는 서열을 포함한다.

용어 "이종성"은 핵산 또는 단백질의 맥락에서 사용될 때, 핵산 또는 단백질이 동일한 분자에서 함께 천연적으로 발생하지 않는 적어도 2개의 분절을 포함함을 나타낸다. 예를 들어, 용어 "이종성"은 핵산의 분절 또는 단백질의 분절과 관련하여 사용될 때, 핵산 또는 단백질이 자연상에서 서로(예를 들어, 함께 접합된) 동일한 관계에서 발견되지 않는 2개 이상의 하위-서열을 포함함을 나타낸다. 일례로, 핵산 벡터의 "이종성" 영역은, 자연상에서 다른 분자와 회합되어 발견되지 않는 또 다른 핵산 분자 내에 있거나 이에 부착된 핵산의 분절이다. 예를 들어, 핵산 벡터의 이종성 영역은, 자연상에서 코딩 서열과 회합되어 발견되지 않는 서열에 의해 플랭킹되는 코딩 서열을 포함할 수 있을 것이다. 마찬가지로, 단백질의 "이종성" 영역은, 자연상에서 다른 펩타이드 분자(예를 들어, 융합 단백질, 또는 태그를 가진 단백질)와 회합되어 발견되지 않는 또 다른 펩타이드 분자 내에 있거나 이에 부착된 아미노산의 분절이다. 유사하게는, 핵산 또는 단백질은 이종성 표지 또는 이종성 분비 또는 국재화 서열을 포함할 수 있다.

"코돈 최적화"는, 아미노산을 명시하는 3-염기 쌍 코돈 조합의 다중도(multiplicity)에 의해 나타난 바와 같이 코돈의 축퇴성(degeneracy)을 이용하고, 일반적으로 네이티브 아미노산 서열을 유지하는 한편 네이티브 서열의 적어도 하나의 코돈을 숙주 세포의 유전자에서 더욱 빈번하게 또는 가장 빈번하게 사용되는 코돈으로 대체함으로써, 특정 숙주 세포에서 증강된 발현을 위해 핵산 서열을 변형시키는 과정을 포함한다. 예를 들어, Cas9 단백질을 인코딩하는 핵산은 천연 발생 핵산 서열과 비교하여, 박테리아 세포, 효모 세포, 인간 세포, 비-인간 세포, 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 햄스터 세포, 또는 임의의 다른 숙주 세포를 포함하여 주어진 원핵 또는 진핵 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하도록 변형될 수 있다. 코돈 사용빈도(codon usage) 표는 일반적으로 예를 들어, "코돈 사용빈도 데이터베이스"에서 입수 가능하다. 이들 표는 많은 방식으로 적응될 수 있다. 예를 들어, 문헌[Nakamura 등 (2000) Nucleic Acids Research 28:292]를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 특정 숙주에서의 발현을 위한 특정 서열의 코돈 최적화에 대한 컴퓨터 알고리즘이 또한 입수 가능하다(예를 들어, Gene Forge 참조).

용어 "좌위"는 유기체의 게놈의 염색체 상의 유전자(또는 유의한 서열), DNA 서열, 폴리펩타이드-인코딩 서열, 또는 장소의 특정 위치를 지칭한다. 예를 들어, "알부민 좌위" 또는 "Alb 좌위"는, 이러한 서열이 체류하는 곳으로서 식별되었던 유기체의 게놈의 염색체 상의 알부민(Alb) 유전자, 알부민 DNA 서열, 알부민-인코딩 서열, 또는 알부민 장소의 특정 위치를 지칭할 수 있다. "알부민 좌위"는 예를 들어, 인핸서, 프로모터, 5' 및/또는 3' 비번역 영역(UTR), 또는 이들의 조합을 포함하여 알부민 유전자의 조절 요소를 포함할 수 있다.

용어 "유전자"는 생성물(예를 들어, RNA 생성물 및/또는 폴리펩타이드 생성물)을 코딩하는 염색체 내의 DNA 서열을 지칭하며, 유전자가 전장 mRNA(5' 및 3' 비번역 서열을 포함함)에 상응하도록 5' 단부와 3' 단부 둘 다 상의 코딩 영역에 인접하게 위치한 비-코딩 인트론 및 서열이 개재되어 있는(interrupted) 코딩 영역을 포함한다. 용어 "유전자"는 또한, 조절 서열(예를 들어, 프로모터, 인핸서, 및 전사 인자 결합 부위), 폴리아데닐화 신호, 내부 리보솜 진입 부위(internal ribosome entry site), 사일런서(silencer), 인설레이션 서열(insulating sequence), 및 기질 부착 영역(matrix attachment region)을 포함한 다른 비-코딩 서열을 포함한다. 이들 서열은 유전자의 코딩 영역에 근접해(예를 들어, 10 kb 내에) 있거나 원거리 부위에 있을 수 있고, 이들은 유전자의 전사 및 번역의 수준 또는 속도에 영향을 미친다.

용어 "대립유전자"는 유전자의 변이체 형태를 지칭한다. 일부 유전자는 여러 가지 상이한 형태를 갖고, 이는 염색체 상의 동일한 위치 또는 유전자 좌위에 위치한다. 이배체(diploid) 유기체는 각각의 유전자 좌위에 2개의 대립유전자를 갖는다. 대립유전자의 각각의 쌍은 특정 유전자 좌위의 유전자형을 나타낸다. 유전자형은, 특정 좌위에 2개의 동일한 대립유전자가 존재한다면 동형접합성(homozygous)으로서 기재되고, 2개의 대립유전자가 상이하다면 이형접합성(heterozygous)으로서 기재된다.

"프로모터"는 특정 폴리뉴클레오타이드 서열에 대해 적절한 전사 개시 부위에서 RNA 합성을 개시하도록 RNA 폴리머라제 II를 지시할 수 있는 TATA 박스를 통상적으로 포함하는 DNA의 조절 영역이다. 프로모터는, 전사 개시 속도에 영향을 미치는 다른 영역을 추가로 포함할 수 있다. 본원에 개시된 프로모터 서열은 작동적으로 연결된 폴리뉴클레오타이드의 전사를 조절한다. 프로모터는 본원에 개시된 하나 이상의 세포 유형(예를 들어, 진핵 세포, 비-인간 포유류 세포, 인간 세포, 설치류 세포, 만능성 세포, 1-세포 단계(one-cell stage) 배아, 분화된 세포, 또는 이들의 조합)에서 활성적일 수 있다. 프로모터는 예를 들어, 구성적 활성(constitutively active) 프로모터, 조건적 프로모터, 유도적 프로모터, 시간적 제약(temporally restricted) 프로모터(예를 들어, 발달적 조절(developmentally regulated) 프로모터), 또는 공간적 제약(spatially restricted) 프로모터(예를 들어, 세포-특이적 또는 조직-특이적 프로모터)일 수 있다. 프로모터의 예는 예를 들어, 국제공개 WO 2013/176772호에서 확인할 수 있으며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

유도적 프로모터의 예는 예를 들어, 화학적으로 조절된 프로모터 및 물리적으로-조절된 프로모터를 포함한다. 화학적으로 조절된 프로모터는 예를 들어, 알코올-조절된 프로모터(예를 들어, 알코올 데하이드로게나제(alcA) 유전자 프로모터), 테트라사이클린-조절된 프로모터(예를 들어, 테트라사이클린-반응적 프로모터, 테트라사이클린 오퍼레이터 서열(tetO), tet-On 프로모터, 또는 tet-Off 프로모터), 스테로이드 조절된 프로모터(예를 들어, 래트 글루코코르티코이드 수용체, 에스트로겐 수용체의 프로모터, 또는 엑디손 수용체의 프로모터), 또는 금속-조절된 프로모터(예를 들어, 메탈로단백질 프로모터)를 포함한다. 물리적으로 조절된 프로모터는 예를 들어 온도-조절된 프로모터(예를 들어, 열 충격 프로모터) 및 광(light)-조절된 프로모터(예를 들어, 광-유도적 프로모터 또는 광-억제적 프로모터)를 포함한다.

조직-특이적 프로모터는 예를 들어, 뉴런-특이적 프로모터, 신경교(glia)-특이적 프로모터, 근육 세포-특이적 프로모터, 심장 세포-특이적 프로모터, 신장 세포-특이적 프로모터, 골 세포(bone cell)-특이적 프로모터, 내피 세포-특이적 프로모터, 또는 면역 세포-특이적 프로모터(예를 들어, B 세포 프로모터 또는 T 세포 프로모터)일 수 있다.

발달적으로 조절된 프로모터는 예를 들어, 발달의 배아기 동안 또는 성체 세포에서만 활성인 프로모터를 포함한다.

"작동 가능한 연결" 또는 "작동 가능하게 연결된"은 성분 둘 다 정상적으로 작용하고 상기 성분 중 적어도 하나가 다른 성분 중 적어도 하나에 발휘되는 기능을 매개할 수 있는 가능성을 가능하게 하는 2개 이상의 성분(예를 들어, 프로모터 및 또 다른 서열 요소)의 병치를 포함한다. 예를 들어, 프로모터가 하나 이상의 전사 조절 인자의 존재 또는 부재에 반응하여 코딩 서열의 전사 수준을 제어한다면, 상기 프로모터는 코딩 서열에 작동 가능하게 연결될 수 있다. 작동 가능한 연결부는 서로 인접하거나 트랜스로 작용하는 이러한 서열을 포함할 수 있다(예를 들어, 조절 서열은 코딩 서열의 전사를 제어하기 위해 거리를 두고 작용할 수 있음).

핵산의 "상보성"은, 핵산의 하나의 가닥의 뉴클레오타이드 서열이 이의 핵염기(nucleobase) 그룹의 배향으로 인해, 반대 핵산 가닥 상의 또 다른 서열과 수소 결합을 형성함을 의미한다. DNA 내 상보적 염기는 전형적으로 A와 T 그리고 C와 G이다. RNA에서, 이들은 전형적으로 C와 G 그리고 U와 A이다. 상보성은 완벽하거나 실질적/충분할 수 있다. 2개 핵산 사이의 완벽한 상보성은, 2개 핵산이 듀플렉스를 형성할 수 있고 상기 듀플렉스 내 모든 염기가 왓슨-크릭 쌍형성(pairing)에 의해 상보적 염기에 결합됨을 의미한다. "실질적인" 또는 "충분한" 상보성은, 하나의 가닥의 서열이 반대 가닥의 서열에 완전히 및/또는 완벽히 상보적이지 않지만, 2개 가닥 상의 염기 사이에서 충분한 결합이 발생하여 혼성화 조건의 세트(예를 들어, 염 농도 및 온도)에서 안정한 하이브리드 복합체를 형성함을 의미한다. 이러한 조건은, 혼성화된 가닥의 Tm(용융 온도)을 예측하기 위해 서열 및 표준 수학적 계산을 사용함으로써, 또는 일상적인 방법을 사용함으로써 Tm의 경험적 결정에 의해 예측될 수 있다. Tm은, 2개의 핵산 가닥 사이에서 형성된 혼성화 복합체의 집단이 50% 변성되는 온도를 포함한다(즉, 이중-가닥 핵산 분자의 집단은 절반이 단일 가닥으로 해리됨). Tm 미만의 온도에서, 혼성화 복합체의 형성이 선호되는 반면, Tm 초과의 온도에서, 혼성화 복합체의 가닥의 용융 또는 분리가 선호된다. Tm은 수성 1 M NaCl 용액에서 기지의 G+C 함량을 갖는 핵산에 대해 예를 들어, Tm=81.5+0.41(% G+C)을 사용함으로써 추정될 수 있지만, 다른 기지의 Tm 컴퓨터화(computation)는 핵산 구조적 특징을 고려한다.

혼성화는 2개의 핵산이 상보적 서열을 함유하는 것으로 필요로 하지만, 염기 사이의 미스매치는 가능하다. 2개의 핵산 사이의 혼성화에 적절한 조건은 핵산의 길이 및 상보적 정도에 의존하고, 이에 대한 변수는 잘 알려져 있다. 2개의 뉴클레오타이드 서열 사이의 상보적 정도가 클수록, 이들 서열을 갖는 핵산의 하이브리드에 대한 용융 온도(Tm)의 값이 커진다. 상보성의 짧은 스트레치(stretch)(예를 들어, 35개 이하, 30개 이하, 25개 이하, 22개 이하, 20개 이하, 또는 18개 이하의 뉴클레오타이드에 걸친 상보성)를 갖는 핵산 사이의 혼성화에 대해, 미스매치의 장소가 중요해진다(상기 문헌[Sambrook 등, 11.7-11.8] 참조). 전형적으로, 혼성화 가능한 핵산에 대한 길이는 적어도 약 10개 뉴클레오타이드이다. 혼성화 가능한 핵산에 예시적인 최소 길이는 적어도 약 15개 뉴클레오타이드, 적어도 약 20개 뉴클레오타이드, 적어도 약 22개 뉴클레오타이드, 적어도 약 25개 뉴클레오타이드, 및 적어도 약 30개 뉴클레오타이드를 포함한다. 더욱이, 온도 및 세척액 염 농도는 상보성 영역 및 상보성 정도(degree)와 같은 인자에 따라 필요한 대로 조정될 수 있다.

폴리뉴클레오타이드의 서열은 특이적으로 혼성화 가능한 이의 표적 핵산과 100% 상보적일 필요는 없다. 더욱이, 폴리뉴클레오타이드는, 개입 또는 인접 분절이 혼성화 사건(예를 들어, 루프 구조 또는 헤어핀 구조)에 관여하지 않도록 하나 이상의 분절에 걸쳐 혼성화할 수 있다. 폴리뉴클레오타이드(예를 들어, gRNA)는, 이것이 표적화되는 표적 핵산 서열 내 표적 영역에 적어도 70%, 적어도 80%, 적어도 90%, 적어도 95%, 적어도 99%, 또는 100%의 서열 상보성을 포함할 수 있다. 예를 들어, 20개 뉴클레오타이드 중 18개가 표적 영역에 상보적이고 따라서 특이적으로 혼성화할 gRNA는 90% 상보성을 나타낼 것이다. 이 예에서, 잔여 비상보적 뉴클레오타이드는 상보적 뉴클레오타이드와 군집화되거나(clustered) 개재될(interspersed) 수 있으며, 서로에 또는 상보적 뉴클레오타이드에 인접할 필요는 없을 수 있다.

핵산 내의 핵산 서열의 특정 스트레치 사이의 상보성 백분율은, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된 문헌[Smith 및 Waterman (1981) Adv. Appl. Math. 2:482-489]의 알고리즘을 사용하는 디폴트 설정(default setting)을 사용하는 BLAST 프로그램(베이직 로컬 정렬 검색 툴(basic local alignment search tools)) 및 PowerBLAST 프로그램(문헌[Altschul 등 (1990) J. Mol. Biol. 215:403-410]; 문헌[Zhang 및 Madden (1997) Genome Res. 7:649-656], 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함됨)을 사용하거나 갭 프로그램(Gap program)(유닉스에 대한 위스콘신 서열 분석 패키지, 버전 8, Genetics Computer Group, University Research Park, Madison Wis.)을 사용함으로써 일상적으로 결정될 수 있다.

본원에 제공된 방법 및 조성물은 여러 가지 상이한 성분을 이용한다. 상세한 설명 전반에 걸쳐 일부 성분은 활성 변이체 및 단편을 가질 수 있다. 이러한 성분은 예를 들어, Cas 단백질, CRISPR RNA, tracrRNA, 및 가이드 RNA를 포함한다. 이들 성분 각각에 대한 생물학적 활성은 본원 어디에서나 기재되어 있다. 용어 "기능적"은, 생물학적 활성 또는 기능을 나타내는 단백질 또는 핵산(또는 이의 단편 또는 변이체)의 선천적인(innate) 능력을 지칭한다. 이러한 생물학적 활성 또는 기능은 예를 들어, 가이드 RNA 및 표적 DNA 서열에 결합하는 Cas 단백질의 능력을 포함할 수 있다. 기능적 단편 또는 변이체의 생물학적 기능은 원래의 분자와의 비교에서 동일할 수 있거나 사실상 분자의 기본적인 생물학적 기능의 보유에 대해서를 제외하고는 변할 수 있다(예를 들어, 이의 특이성 또는 선택성 또는 효능에 관하여).

용어 "변이체"는, 집단에 가장 우세한(prevalent) 서열과 상이한(예를 들어, 1개 뉴클레오타이드만큼) 뉴클레오타이드 서열 또는 집단에 가장 우세한 서열과 상이한(예를 들어, 1개 아미노산만큼) 단백질 서열을 지칭한다.

용어 "단편"은 단백질을 지칭할 때, 전장 단백질보다 더 짧거나 이보다 더 적은 수의 아미노산을 갖는 단백질을 의미한다. 용어 "단편"은 핵산을 지칭할 때, 전장 핵산보다 더 짧거나 이보다 더 적은 수의 뉴클레오타이드를 갖는 핵산을 의미한다. 단편은 예를 들어, 단백질 단편을 지칭할 때, N-말단 단편(즉, 단백질의 C-말단 단부 중 일부의 제거), C-말단 단편(즉, 단백질의 N-말단 단부 중 일부의 제거), 또는 내부 단편(즉, 단백질의 N-말단 단부 및 C-말단 단부 각각의 일부의 제거)일 수 있다. 단편은 예를 들어, 핵산 단편을 지칭할 때, 5' 단편(즉, 핵산의 3' 단부 중 일부의 제거), 3' 단편(즉, 핵산의 5' 단부 중 일부의 제거), 또는 내부 단편(즉, 핵산의 5' 단부 및 3' 단부 각각의 일부의 제거)일 수 있다.

2개의 폴리뉴클레오타이드 또는 폴리펩타이드 서열의 맥락에서, "서열 동일성" 또는 "동일성"은 명시된 비교 범위(comparison window)에 걸쳐 최대 상응도(correspondence)를 위해 정렬될 때 동일한 상기 2개의 서열의 잔기를 지칭한다. 서열 동일성의 백분율이 단백질과 관련하여 사용될 때, 동일하지 않은 잔기 위치는 종종, 아미노산 잔기가 유사한 화학적 특성(예를 들어, 전하 또는 소수성)을 갖는 다른 아미노산 잔기로 치환되므로 분자의 기능적 특성을 변화시키지 않는 보존적 아미노산 치환에 의해 달라진다. 서열이 보존적 치환에 있어 달라질 때, 서열 동일성 백분율은 치환의 보존적 성질에 대해 보정하기 위해 상향 조정될 수 있다. 이러한 보존적 치환에 의해 달라지는 서열은 "서열 유사성" 또는 "유사성"을 갖는 것으로 언급된다. 이러한 조정을 수행하기 위한 수단은 널리 알려져 있다. 전형적으로, 이는 보존적 치환을 완전 미스매치(full mismatch)가 아닌 부분 미스매치로서 채점(scoring)하여, 서열 동일성 백분율을 증가시키는 것을 수반한다. 따라서, 예를 들어, 동일한 아미노산에 1의 점수가 주어지고 비-보존적 치환에 0의 점수가 주어지는 경우, 보존적 치환에는 0과 1 사이의 점수가 주어진다. 보존적 치환의 채점은, 예를 들어, 프로그램 PC/GENE(Intelligenetics, Mountain View, California)에서 구현된 바와 같이 계산된다.

"서열 동일성의 백분율"은 비교 범위에 걸쳐 2개의 최적으로 정렬된 서열(완벽하게 매칭된 잔기의 최대 수)을 비교함으로써 결정된 값을 포함하고, 상기 비교 범위에서의 폴리뉴클레오타이드 서열의 부분은 상기 2개의 서열의 최적 정렬에 대한 기준 서열(첨가 또는 결실(deletion)을 포함하지 않음)과 비교하여 첨가 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 동일한 핵산 염기 또는 아미노산 잔기가 서열 둘 다에서 발생하는 위치의 수를 결정하여 매칭된 위치의 수를 산출하며, 상기 매칭된 위치의 수를 비교 범위 내의 위치의 총 수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산된다. 달리 명시되지 않는 한(예를 들어, 더 짧은 서열은 연결된 이종성 서열을 포함함), 비교 범위는 비교되는 2개의 서열 중 더 짧은 서열의 전체 길이이다.

달리 언급되지 않는 한, 서열 동일성/유사성 값은 하기 매개변수를 사용하는 GAP 버전 10을 사용하여 수득된 값을 포함한다: 50의 GAP 중량 및 3의 길이 중량(Length Weight), 및 nwsgapdna.cmp 채점 매트릭스(scoring matrix)를 사용한 뉴클레오타이드 서열에 대한 동일성 % 및 유사성 %; 8의 GAP 중량 및 2의 길이 중량, 및 BLOSUM62 채점 매트릭스를 사용한 아미노산 서열에 대한 동일성 % 및 유사성 %; 또는 이와 동등한 임의의 프로그램. "동등한 프로그램"은, 대상이 되는 임의의 2개의 서열에 대하여, GAP 버전 10에 의해 발생된 상응하는 정렬과 비교할 때 동일한 뉴클레오타이드 또는 아미노산 잔기 매치 및 동일한 서열 동일성 백분율을 갖는 정렬을 생성하는 임의의 서열 비교 프로그램을 포함한다.

용어 "보존적 아미노산 치환"은 서열에 정상적으로 존재하는 아미노산을 유사한 크기, 전하, 또는 극성의 상이한 아미노산으로 치환하는 것을 지칭한다. 보존적 치환의 예는 비극성(소수성) 잔기, 예컨대 이소류신, 발린, 또는 류신을 또 다른 비극성 잔기로 치환하는 것을 포함한다. 마찬가지로, 보존적 치환의 예는, 아르기닌과 라이신 사이, 글루타민과 아스파라긴 사이, 또는 글리신과 세린 사이의 치환과 같이 하나의 극성(친수성) 잔기를 또 다른 잔기로 치환하는 것을 포함한다. 추가로, 염기성 잔기, 예컨대 라이신, 아르기닌, 또는 히스티딘을 또 다른 잔기로 치환하는 것, 또는 산성 잔기, 예컨대 아스파르트산 또는 글루탐산을 또 다른 산성 잔기로 치환하는 것은 보존적 치환의 추가 예이다. 비-보존적 치환의 예는, 극성(친수성) 잔기, 예컨대 시스테인, 글루타민, 글루탐산 또는 라이신을 비극성(소수성) 아미노산 잔기, 예컨대 이소류신, 발린, 류신, 알라닌, 또는 메티오닌으로 치환하는 것 및/또는 비극성 잔기를 극성 잔기로 치환하는 것을 포함한다. 전형적인 아미노산 분류는 하기 표 1에 요약되어 있다.

"상동성" 서열(예를 들어, 핵산 서열)은, 공지된 기준 서열과 동일하거나 실질적으로 유사하여, 상기 공지된 기준 서열과 예를 들어, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100% 동일한 서열을 포함한다. 상동성 서열은 예를 들어, 이종상동성(orthologous) 서열 및 동종상동성(paralogous) 서열을 포함할 수 있다. 상동성 유전자는 예를 들어 전형적으로, 종분화(speciation) 사건(이종상동성 유전자) 또는 유전적 중복(duplication) 사건(동종상동성 유전자)을 통해 공통의 조상(ancestral) DNA 서열로부터 계통이 이어진다(descend). "이종상동성" 유전자는 종분화에 의해 공통의 조상 유전자로부터 진화한 상이한 종의 유전자를 포함한다. 이종상동체(ortholog)는 전형적으로, 진화 과정에서 동일한 기능을 보유한다. "동종상동성" 유전자는 게놈 내에서 중복에 의해 관련된 유전자를 포함한다. 동종상동체(paralog)는 진화의 과정에서 새로운 기능을 진화시킬 수 있다.

용어 "시험관내"는 인공 환경, 및 인공 환경(예를 들어, 시험관 또는 단리된 세포 또는 세포주) 내에서 발생하는 과정 또는 반응을 포함한다. 용어 "생체내"는 천연 환경(예를 들어, 세포 또는 유기체 또는 신체), 및 천연 환경 내에서 발생하는 과정 또는 반응을 포함한다. 용어 "생체외"는 개체의 신체로부터 제거되었던 세포, 및 이러한 세포 내에서 발생하는 과정 또는 반응을 포함한다.

용어 "리포터 유전자"는, 이종성 프로모터 및/또는 인핸서 요소에 작동적으로 연결된 리포터 유전자 서열을 포함하는 작제물이 상기 프로모터 및/또는 인핸서 요소의 활성화에 필요한 인자를 함유하는(또는 함유하도록 제조될 수 있음) 세포 내로 도입될 때, 쉽게 그리고 정량적으로 검정되는 유전자 생성물(전형적으로 효소)을 인코딩하는 서열을 갖는 핵산을 지칭한다. 리포터 유전자의 예는 베타-갈락토시다제(lacZ)를 인코딩하는 유전자, 박테리아 클로람페니콜 아세틸트랜스퍼라제(cat) 유전자, 반딧불이 루시퍼라제 유전자, 베타-글루쿠로니다제(GUS)를 인코딩하는 유전자, 및 형광 단백질을 인코딩하는 유전자를 포함하지만 이들로 제한되지는 않는다. "리포터 단백질"은 리포터 유전자에 의해 인코딩된 단백질을 지칭한다.

본원에 사용된 바와 같이 용어 "형광 리포터 단백질"은 형광에 기초하여 검출 가능한 리포터 단백질을 의미하며, 상기 형광은 직접적으로 리포터 단백질로부터, 형광원성(fluorogenic) 기질 상에서의 리포터 단백질의 활성으로부터, 또는 형광 태깅된 화합물에 대해 결합 친화도를 갖는 단백질로부터의 것일 수 있다. 형광 단백질의 예는 녹색 형광 단백질(예를 들어, GFP, GFP-2, tagGFP, turboGFP, eGFP, 에메랄드(Emerald), 아자미 그린(Azami Green), 단량체성 아자미 그린(Monomeric Azami Green), CopGFP, AceGFP, 및 ZsGreenl), 황색 형광 단백질(예를 들어, YFP, eYFP, 시트린(Citrine), 비너스(Venus), YPet, PhiYFP, 및 ZsYellowl), 청색 형광 단백질(예를 들어, BFP, eBFP, eBFP2, 아주라이트(Azurite), mKalamal, GFPuv, 사파이어(Sapphire) 및 T-사파이어), 시안색 형광 단백질(예를 들어, CFP, eCFP, 세룰린(Cerulean), CyPet, AmCyanl, 및 미도리이시(Midoriishi)-시안색), 적색 형광 단백질(예를 들어, RFP, mKate, mKate2, mPlum, DsRed 단량체, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-단량체, HcRed-탠덤, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, 및 Jred), 주황색 형광 단백질(예를 들어, mOrange, mKO, 쿠사비라-오렌지(Kusabira-Orange), 단량체성 쿠사비라-오렌지(Monomeric Kusabira-Orange), mTangerine, 및 tdTomato), 및 세포에서의 존재가 유세포분석 방법에 의해 검출될 수 있는 임의의 다른 적합한 형광 단백질을 포함한다.

이중-가닥 절단부(DSB: double-strand break)에 반응한 수선은 원칙적으로 2개의 보존된 DNA 수선 경로를 통해 발생한다: 상동성 재조합(HR) 및 비-상동성 말단 접합(NHEJ: non-homologous end joining). 문헌[Kasparek & Humphrey (2011) Seminars in Cell & Dev. Biol. 22:886-897]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 마찬가지로, 외인성 공여자 핵산에 의해 매개되는 표적 핵산의 수선은 2개의 폴리뉴클레오타이드 사이에서의 유전적 정보의 임의의 교환 과정을 포함할 수 있다.

용어 "재조합"은 2개의 폴리뉴클레오타이드 사이에서의 유전적 정보의 임의의 교환 과정을 포함하고, 임의의 기전에 의해 발생할 수 있다. 재조합은 상동성 지시 수선(HDR: homology directed repair) 또는 상동성 재조합(HR)을 통해 발생할 수 있다. HDR 또는 HR은 뉴클레오타이드 서열 상동성을 필요로 할 수 있는 핵산 수선 형태를 포함하며, "공여자" 분자를 "표적" 분자(즉, 이중-가닥 절단을 경험하였던 분자)의 수선을 위한 주형으로서 사용하고, 공여자로부터 표적으로의 유전적 정보의 이전을 유발한다. 임의의 특정 이론으로 결부시키고자 하는 것은 아니지만, 이러한 이전은, 절단된 표적과 공여자 사이에서 형성되는 헤테로듀플렉스 DNA의 미스매치 보정, 및/또는 표적의 일부가 되게 될 유전적 정보를 재합성하는 데에 공여자가 사용되는 합성-의존적 가닥 어닐링, 및/또는 관련 과정을 수반할 수 있다. 일부 경우, 공여자 폴리뉴클레오타이드, 공여자 폴리뉴클레오타이드의 부분, 공여자 폴리뉴클레오타이드의 복사체, 또는 공여자 폴리뉴클레오타이드의 복사체의 일부가 표적 DNA 내로 통합된다. 문헌[Wang 등 (2013) Cell 153:910-918]; 문헌[Mandalos 등 (2012) PLOS ONE 7:e45768:1-9]; 및 문헌[Wang 등 (2013) Nat Biotechnol. 31:530-532]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

비-상동성 말단 접합(NHEJ)은, 상동성 주형에 대한 필요성 없이 절단 단부를 서로 또는 외인성 서열에 직접 리게이션함으로써 핵산 내 이중-가닥 절단부를 수선하는 것을 포함한다. NHEJ에 의한 비-인접 서열의 리게이션은 종종, 이중-가닥 절단 부위 부근에서 결실, 삽입 또는 전좌를 초래할 수 있다. 예를 들어, NHEJ는 또한, 외인성 공여자 핵산의 단부와의 절단 단부의 직접 리게이션을 통한 외인성 공여자 핵산의 표적화된 통합(즉, NHEJ-기초 캡처(capture))을 초래할 수 있다. 이러한 NHEJ-매개 표적화된 통합은, 상동성 지시 수선(HDR) 경로가 쉽게 사용 가능하지 않을 때(예를 들어, 비-분열 세포, 1차 세포, 및 상동성-기초 DNA 수선을 불량하게 수행하는 세포에서) 외인성 공여자 핵산의 삽입에 바람직할 수 있다. 게다가, 상동성-지시 수선과는 대조적으로, 절단 부위를 플랭킹하는 서열 동일성의 큰(large) 영역에 관한 지식이 필요하지 않으며, 이는 게놈 서열에 대해 제한된 지식이 존재하는 게놈을 갖는 유기체 내로의 표적화된 삽입을 시도할 때 유리할 수 있다. 통합은 외인성 공여자 핵산과 절단된 게놈 서열 사이에서 평활 단부의 리게이션을 통해, 또는 절단된 게놈 서열에서 뉴클레아제 제제에 의해 발생된 것과 융화성(compatible)인 오버행(overhang)에 의해 플랭킹되는 외인성 공여자 핵산을 사용하여 점착성(sticky) 단부(즉, 5' 또는 3' 오버행을 가짐)의 리게이션을 통해 진행될 수 있다. 예를 들어, 미국 특허출원공개 US 2011/020722호, 국제공개 WO 2014/033644호, WO 2014/089290호, 및 문헌[Maresca 등 (2013) Genome Res. 23(3):539-546]을 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 평활 단부가 리게이션된다면, 단편 접합에 필요한 미세상동성의 영역을 발생시키기 위해 표적 및/또는 공여자 절제가 필요할 수 있으며, 이는 표적 서열에서 원치 않는 변경을 생성시킬 수 있다.

하나 이상의 언급된 요소를 "포함하는(comprising)" 또는 "포함하는(including)" 조성물 또는 방법은 구체적으로 언급되지 않은 다른 요소를 포함할 수 있다. 예를 들어, 단백질을 "포함하는(comprise)" 또는 "포함하는(include)" 조성물은 상기 단백질을 단독으로 또는 다른 성분과 조합하여 함유할 수 있다. 과도기적 어구(transitional phrase) "본질적으로 ~로 구성되는"은, 청구항의 범위가 상기 청구항에서 언급된 명시된 요소, 및 청구 발명의 기본적인 그리고 신규 특징(들)에 실제적으로 영향을 미치지 않는 것을 포괄하는 것으로 해석되어야 한다. 그러므로, 용어 "본질적으로 ~로 구성되는"은 본 발명의 청구항에서 사용될 때, "포함하는"과 동등한 것으로 해석되고자 하는 것은 아니다.

"선택적인" 또는 "선택적으로"는, 후속적으로 기재된 사건 또는 상황이 발생할 수 있거나 발생할 수 없으며, 설명은 사건 또는 상황이 발생하는 경우 및 사건 또는 상황이 발생하지 않는 상황을 포함한다는 것을 의미한다.

값의 범위의 표기는 그 범위 내의 또는 그 범위를 정의하는 모든 정수, 및 그 범위 내의 정수에 의해 정의되는 모든 하위범위를 포함한다.

문맥으로부터 다르게 분명해지지 않는 한, 용어 "약"은 언급된 값의 측정의 표준 오차 경계(margin)(예를 들어, SEM) 이내의 값을 포괄한다.

용어 "및/또는"은 관련하여 나열된 항목 중 하나 이상의 임의의 그리고 모든 가능한 조합, 뿐만 아니라 대안적으로("또는") 해석될 때 조합의 결여를 지칭하고 포괄한다.

용어 "또는"은 특정 목록의 임의의 하나의 구성원을 지칭하고, 또한 해당 목록의 구성원들의 임의의 조합을 포함한다.

단수형 형태의 관사("a", "an" 및 "the")는 문맥상 명백하게 다르게 나타내지 않는 한, 복수형 지칭을 포함한다. 예를 들어, 용어 "일 단백질" 또는 "적어도 하나의 단백질"은 복수의 단백질을 이들의 혼합물을 포함하여 포함할 수 있다.

통계학적으로 유의하다는 것은 p ≤0.05를 의미한다.

상세한 설명

I. 개요

인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물, 및 이러한 비-인간 동물 세포 및 비-인간 동물을 사용하는 방법이 개시된다. 인간화 알부민 좌위를 포함하는 비-인간 동물 세포 또는 비-인간 동물은 인간 알부민 단백질, 또는 인간 알부민 단백질의 하나 이상의 단편을 포함하는 키메라 알부민 단백질을 발현한다. 이러한 비-인간 동물 세포 및 비-인간 동물은 시험관내에서, 생체외에서, 또는 생체내에서 인간-알부민-표적화 제제(예를 들어, CRISPR/Cas9 게놈 편집 제제)의 전달 또는 효능을 평가하는 데 사용될 수 있으며, 시험관내에서, 생체외에서, 또는 생체내에서 이러한 제제의 효능의 전달을 최적화하는 방법에 사용될 수 있다.

본원에 개시된 비-인간 동물 세포 및 비-인간 동물 중 일부에서, 인간 알부민 게놈 DNA 중 대부분 또는 모두는 상응하는 이종상동성 비-인간 동물 알부민 좌위 내로 삽입된다. 본원에 개시된 비-인간 동물 세포 및 비-인간 동물 중 일부에서, 비-인간 동물 알부민 게놈 DNA 중 대부분 또는 모두는 상응하는 이종상동성 인간 알부민 게놈 좌위와 일대일 교환된다. cDNA 삽입을 갖는 비-인간 동물과 비교하여, 인트론-엑손 구조 및 스플라이싱 머시너리가 유지될 때 발현 수준은 더 높아야 하는데, 왜냐하면 보존된 조절자 요소가 무손상으로 남아 있을 가능성이 더 크고, RNA 가공을 받는 스플라이싱된 전사물이 cDNA보다 더 안정하기 때문이다. 대조적으로, 비-인간 동물 알부민 좌위 내로의 인간 알부민 cDNA의 삽입은 보존된 조절 요소, 예컨대 비-인간 동물 알부민의 제1 엑손 및 인트론 내에 함유된 것을 무효화시킬 것이다. 비-인간 동물 게놈 서열을 상응하는 이종상동성 인간 게놈 서열로 대체하거나 인간 알부민 게놈 서열을 상응하는 이종상동성 비-인간 알부민 좌위에서 삽입하는 것은 내인성 알부민 좌위로부터의 이식유전자의 충실한(faithful) 발현을 초래할 가능성이 더 크다. 유사하게는, 내인성 비-인간-동물 알부민 좌위보다 무작위 게놈 좌위에서 인간-알부민-코딩 서열의 유전자이식 삽입을 갖는 유전자이식 비-인간 동물은 또한, 알부민 발현의 내인성 조절을 정확하게 반영하지는 않을 것이다. 대부분의 또는 모든 비-인간 동물 게놈 DNA를 상응하는 이종상동성 인간 게놈 DNA와 일대일 대체하거나 인간 알부민 게놈 서열을 상응하는 이종상동성 비-인간 알부민 좌위에 삽입하는 것으로부터 비롯된 인간화 알부민 대립유전자는, 인간-알부민-표적화 시약(예를 들어, 인간 알부민을 표적화하도록 설계된 CRISPR/Cas9 시약)의 진 인간 표적 또는 상기 진 인간 표적의 밀접한 근사물을 제공하여, 살아 있는 동물에서 이러한 제제의 효능 및 작용 방식뿐만 아니라 인간화 단백질 및 인간화 유전자가 존재하는 알부민의 유일한 버전인 설정에서 약물동력학적 연구 및 약력학적 연구의 시험을 가능하게 할 것이다.

II. 인간화 알부민 (ALB) 좌위를 포함하는 비-인간 동물

본원에 개시된 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물은 인간화 알부민(ALB) 좌위를 포함한다. 인간화 알부민 좌위를 포함하는 세포 또는 비-인간 동물은 인간 알부민 단백질, 또는 네이티브 알부민 단백질의 하나 이상의 단편이 인간 알부민으로부터의 상응하는 단편으로 대체된 부분적으로 인간화, 키메라 트랜스티레틴 단백질을 발현한다. 또한, 비-인간 알부민 유전자의 분절이 결실되었고 상응하는 인간 알부민 서열로 대체된 인간화 비-인간 동물 알부민 유전자가 본원에 개시된다.

본원에 개시된 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물은, 알부민 좌위가 아닌 비활성화된(넉아웃된) 내인성 유전자를 추가로 포함할 수 있다. 이러한 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물은 예를 들어, 비활성화된 내인성 유전자를 대체하기 위해 인간화 알부민 좌위 내로 삽입되기 위한 유전자 치료법 시약(예를 들어, 이식유전자)을 스크리닝하는 데 사용될 수 있다. 비활성화된 내인성 유전자를 대체하기 위한 인간화 알부민 좌위 내로의 삽입은 예를 들어, 넉아웃을 구제할 수 있다. 하나의 구체적인 예에서, 본원에 개시된 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물은, 비활성화된(넉아웃된) 내인성 F9 유전자(응고 인자 IX를 인코딩함)를 추가로 포함할 수 있다. 비활성화된(넉아웃된) 내인성 F9 유전자는, 임의의 응고 인자 IX(크리스마스 인자, 혈장 트롬보플라스틴 구성요소, 또는 PTC로도 알려져 있음)를 발현하지 않는 유전자이다. 야생형 인간 응고 인자 IX 단백질은 UniProt 기탁 번호 P00740으로 지정되었고, 인간 F9 유전자는 GeneID 2158로 지정되었다. 야생형 마우스 응고 인자 IX 단백질은 UniProt 기탁 번호 P16294로 지정되었고, 마우스 F9 유전자는 GeneID 14071로 지정되었다. 야생형 래트 응고 인자 IX 단백질은 UniProt 기탁 번호 P16296으로 지정되었고, 래트 F9 유전자는 GeneID 24946으로 지정되었다.

본원에 개시된 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물은 인간화 내인성 알부민 좌위(예를 들어, 비-인간 동물의 하나 이상의 세포에서, 예컨대 비-인간 동물의 하나 이상의 간세포에서)의 적어도 하나의 대립유전자 내로 통합된 외인성 단백질에 대한 코딩 서열을 추가로 포함할 수 있다. 코딩 서열은 예를 들어, 인간화 알부민 좌위의 인트론 1, 인트론 12, 또는 인트론 13에 통합될 수 있다. 일부 경우, 인간화 알부민 좌위로부터의 인간 알부민의 발현은 외인성 단백질에 대한 코딩 서열을 인간화 알부민 좌위(예를 들어, 비-인간 동물의 하나 이상의 세포에서, 예컨대 비-인간 동물의 하나 이상의 간세포에서)의 적어도 하나의 대립유전자 내로 통합한 후 동일한 수준에서 유지된다. 일례에서, 비-인간 동물 게놈, 세포, 또는 동물은, 알부민 좌위가 아닌 비활성화된(넉아웃된) 내인성 유전자를 추가로 포함하고, 외인성 단백질은 비활성화된 내인성 유전자의 기능을 대체한다(예를 들어, 넉아웃을 구제함). 하나의 구체적인 예에서, 외인성 단백질은 응고 인자 IX(예를 들어, 인간 응고 인자 IX)이다.

A. 알부민

본원에 기재된 세포 및 비-인간 동물은 인간화 알부민(ALB) 좌위를 포함한다. 알부민은 ALB 유전자에 의해 인코딩된다(알부민, 혈청 알부민, PRO0883, PRO0903, HSA, GIG20, GIG42, PRO1708, PRO2044, PRO2619, PRO2675, 및 UNQ696/PRO1341로도 알려져 있음). 알부민은 간에서 프리프로알부민(preproalbumin)으로서 합성되며, 이는 발생기 단백질(nascent protein)이 조면소포체로부터 방출되기 전에 제거되는 N-말단 펩타이드를 갖는다. 생성물인 프로알부민은 다시, 골지 소낭에서 절단되어, 분비형 알부민(혈청 알부민)을 생성한다. 인간 혈청 알부민은 인간 혈액에서 발견되는 혈청 알부민이다. 이는 인간 혈액 혈장에서 가장 풍부한 단백질이고, 이는 혈청 단백질의 대략 절반을 이룬다. 이는 간에서 생성된다. 이는 물에서 가용성이고 단량체성이다. 알부민은 다른 기능 중에서도, 호르몬, 지방산, 및 다른 화합물을 수송하며, pH를 완충시키고, 콜로이드삼투압(oncotic pressure)을 유지시킨다. 혈청 중 인간 알부민 농도는 전형적으로 대략 35 내지 50 g/L(3.5 내지 5.0 g/dL)이다. 이는 대략 20일의 혈청 반감기를 갖는다. 이는 66.5 kDa의 분자 질량을 갖는다.

알부민은 다른 조직에 비해 이의 매우 높은 발현 수준 및 유전자 전달을 위한 간에서의 추적성(tractability) 및 생체내 편집때문에 게놈 세이프 하버 좌위인 것으로 여겨진다. 세이프 하버 좌위는, 이식유전자 또는 다른 외인성 핵산 삽입물이 세포 거동 또는 표현형을 과도하게 변경시키지 않으면서 모든 관심 조직에서 안정하게 그리고 신뢰할 만하게 발현될 수 있는 염색체 좌위를 포함한다. 종종, 세이프 하버 좌위는, 삽입된 유전자 서열의 발현이 이웃 유전자로부터의 임의의 판독-통과 발현에 의해 동요되지 않는 것이다. 예를 들어, 세이프 하버 좌위는, 외인성 DNA가 내인성 유전자 구조 또는 발현에 유해한 영향을 미치지 않으면서 예측 가능한 방식으로 통합되고 작용할 수 있는 염색체 좌위를 포함할 수 있다. 세이프 하버 좌위는 예를 들어, 비-본질적이거나, 불필요하거나 명시적인 표현형 결과 없이 교란될 수 있는 유전자 내의 좌위와 같이 유전자외 영역 또는 유전자내 영역을 포함할 수 있다.

알부민 유전자 구조는, 이의 제1 엑손이 최종 단백질 생성물로부터 절단되는 분비 펩타이드(신호 펩타이드)를 인코딩하기 때문에 인트론 서열 내로의 이식유전자 표적화에 적합해진다. 예를 들어, 스플라이스 수용기 및 치료적 이식유전자를 보유하는 프로모터리스 카세트의 통합은 많은 상이한 단백질의 발현 및 분비를 뒷받침할 것이다.

인간 ALB는 염색체 4 상의 인간 4q13.3으로 맵핑된다(NCBI RefSeq 유전자 ID 213; 조립 GRCh38.p12(GCF_000001405.38); 위치 NC_000004.12(73404239..73421484 (+))). 유전자는 15개의 엑손을 갖는 것으로 보고되었다. 이들 중에서, 엑손 중 14개는 코딩 엑손이고, 엑손 15는 3' 비번역 영역(UTR)의 파트인 비-코딩 엑손이다. 야생형 인간 알부민 단백질은 UniProt 기탁 번호 P02768로 지정되었다. 적어도 3개의 이소형이 알려져 있다(P02768-1 내지 P02768-3). 하나의 이소형, P02768-1(NCBI 기탁 번호 NP_000468.1과 동일함)에 대한 서열은 SEQ ID NO: 5로 표시되어 있다. 캐노니컬(canonical) 이소형을 인코딩하는 mRNA(cDNA)는 NCBI 기탁 번호 NM_000477.7로 지정되고 SEQ ID NO: 37로 표시되어 있다. 예시적인 코딩 서열(CDS)은 CCDS ID CCDS3555.1로 지정되고 SEQ ID NO: 13으로 표시되어 있다. SEQ ID NO: 5로 표시된 전장 인간 알부민 단백질은 신호 펩타이드(아미노산 1-18), 프로펩타이드(아미노산 19-24), 및 혈청 알부민(아미노산 25-609)을 포함하여 609개 아미노산을 갖는다. 이들 도메인 사이의 묘사는 UniProt에서 지정된 바와 같다. 인간 알부민에 대한 지칭은 캐노니컬(canonical)(야생형) 형태뿐만 아니라 모든 대립유전자 형태 및 이소형을 포함한다. 임의의 다른 형태의 인간 알부민은 야생형 형태와의 최대 정렬을 위해 숫자매겨진 아미노산을 가지며, 정렬된 아미노산은 동일한 숫자로 지정된다.

마우스 Alb는 염색체 5 상의 마우스 5 E1; 5 44.7 cM으로 맵핑된다(NCBI RefSeq 유전자 ID 11657; 조립 GRCm38.p4(GCF_000001635.24); 위치 NC_000071.6(90,460,870..90,476,602 (+))). 유전자는 15개의 엑손을 갖는 것으로 보고되었다. 이들 중에서, 엑손 중 14개는 코딩 엑손이고, 엑손 15는 3' 비번역 영역(UTR)의 파트인 비-코딩 엑손이다. 야생형 마우스 알부민 단백질은 UniProt 기탁 번호 P07724로 지정되었다. 마우스 알부민(NCBI 기탁 번호 NP_033784.2와 동일함)에 대한 서열은 SEQ ID NO: 1로 표시되어 있다. 캐노니컬 이소형을 인코딩하는 예시적인 mRNA(cDNA) 이소형은 NCBI 기탁 번호 NM_009654.4로 지정되고 SEQ ID NO: 36으로 표시되어 있다. 예시적인 코딩 서열(CDS)(CCDS ID CCDS19412.1)은 SEQ ID NO: 9로 표시되어 있다. SEQ ID NO: 1로 표시된 캐노니컬 전장 마우스 알부민 단백질은 신호 펩타이드(아미노산 1-18), 프로펩타이드(아미노산 19-24), 및 혈청 알부민(아미노산 25-608)을 포함하여 608개 아미노산을 갖는다. 이들 도메인 사이의 묘사는 UniProt에서 지정된 바와 같다. 마우스 알부민에 대한 지칭은 캐노니컬(야생형) 형태뿐만 아니라 모든 대립유전자 형태 및 이소형을 포함한다. 임의의 다른 형태의 마우스 알부민은 야생형 형태와의 최대 정렬을 위해 숫자매겨진 아미노산을 가지며, 정렬된 아미노산은 동일한 숫자로 지정된다.

많은 다른 비-인간 동물에 대한 알부민 서열 또한 알려져 있다. 이들은 예를 들어, 소(UniProt 수납 번호 P02769; NCBI RefSeq 유전자 ID 280717), 래트(UniProt 수납 번호 P02770; NCBI RefSeq 유전자 ID 24186), 닭(UniProt 수납 번호 P19121), 수마트라 오랑우탄(Sumatran orangutan)(UniProt 수납 번호 Q5NVH5; NCBI RefSeq 유전자 ID 100174145), 말(UniProt 수납 번호 P35747; NCBI RefSeq 유전자 ID 100034206), 고양이(UniProt 수납 번호 P49064; NCBI RefSeq 유전자 ID 448843), 토끼(UniProt 수납 번호 P49065; NCBI RefSeq 유전자 ID 100009195), 개(UniProt 수납 번호 P49822; NCBI RefSeq 유전자 ID 403550), 돼지(UniProt 수납 번호 P08835; NCBI RefSeq 유전자 ID 396960), 몽골리안 저빌(Mongolian gerbil)(UniProt 수납 번호 O35090), 레수스 마카크(rhesus macaque)(UniProt 수납 번호 Q28522; NCBI RefSeq 유전자 ID 704892), 당나귀(UniProt 수납 번호 Q5XLE4; NCBI RefSeq 유전자 ID 106835108), 양(UniProt 수납 번호 P14639; NCBI RefSeq 유전자 ID 443393), 미국 황소개구리(UniProt 수납 번호 P21847), 골든 햄스터(UniProt 수납 번호 A6YF56; NCBI RefSeq 유전자 ID 101837229), 및 염소(UniProt 수납 번호 P85295)를 포함한다.

B. 인간화 알부민 좌위

인간화 알부민 좌위는, 내인성 알부민 좌위의 분절이 결실되었고 이종상동성 인간 알부민 서열로 대체된 알부민 좌위이다. 인간화 알부민 좌위는, 전체 알부민 유전자가 상응하는 이종상동성 인간 알부민 서열로 대체되는 알부민 좌위일 수 있거나, 인간화 알부민 좌위는, 알부민 유전자 중 일부만 상응하는 이종상동성 인간 알부민 서열로 대체되는(즉, 인간화되는) 알부민 좌위일 수 있다. 예를 들어, 내인성 알부민 좌위에서의 전체 알부민 코딩 서열은 결실되고, 상응하는 인간 알부민 서열로 대체될 수 있다. 내인성 알부민 서열의 특정 분절에 상응하는 인간 알부민 서열은, 인간 알부민 및 내인성 알부민이 최적으로 정렬될 때 내인성 알부민 서열의 특정 분절과 정렬되는 인간 알부민의 영역을 지칭한다. 최적으로 정렬된다는 것은, 완벽하게 매칭된 잔기의 수가 가장 많음을 지칭한다. 상응하는 이종상동성 인간 서열은 예를 들어, 상보적 DNA(cDNA) 또는 게놈 DNA를 포함할 수 있다. 선택적으로, 상응하는 이종상동성 인간 알부민 서열은 비-인간 동물에서 코돈 용법에 기초하여 코돈-최적화되도록 변형된다. 대체되는 또는 삽입되는(즉, 인간화되는) 영역은 코딩 영역, 예컨대 엑손, 비-코딩 영역, 예컨대 인트론, 비번역 영역, 또는 조절 영역(예를 들어, 프로모터, 인핸서, 또는 전사 억제자-결합 요소), 또는 임의의 이들의 조합을 포함할 수 있다. 일례로, 인간 알부민 유전자의 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 또는 모든 15개 엑손에 상응하는 엑손은 인간화될 수 있다. 예를 들어, 인간 알부민 유전자의 모든 엑손(즉, 엑손 1 내지 15)에 상응하는 엑손은 인간화될 수 있다. 또 다른 예로, 인간 알부민 유전자의 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 또는 모든 14개 코딩 엑손에 상응하는 엑손은 인간화될 수 있다. 예를 들어, 인간 알부민 유전자의 모든 코딩 엑손(즉, 엑손 1 내지 14)에 상응하는 엑손은 인간화될 수 있다. 마찬가지로, 인간 알부민 유전자의 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 또는 모든 14개 인트론에 상응하는 인트론은 인간화될 수 있거나 내인성으로 남아 있을 수 있다. 예를 들어, 인간 알부민 유전자의 모든 인트론(즉, 인트론 1 내지 14)에 상응하는 인트론은 인간화될 수 있다. 마찬가지로, 인간 알부민 유전자의 코딩 엑손 사이의 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 또는 모든 13개 인트론에 상응하는 인트론은 인간화될 수 있거나 내인성으로 남아 있을 수 있다. 예를 들어, 인간 알부민 유전자의 코딩 엑손 사이의 모든 인트론(즉, 인트론 1 내지 13)에 상응하는 인트론은 인간화될 수 있다. 조절 서열을 포함하는 플랭킹 비번역 영역 또한 인간화되거나 내인성으로 남아 있을 수 있다. 예를 들어, 5' 비번역 영역(UTR), 3' UTR, 또는 5' UTR과 3' UTR 둘 다는 인간화될 수 있거나, 5' UTR, 3' UTR, 또는 5' UTR과 3' UTR 둘 다는 내인성으로 남아 있을 수 있다. 인간 5' UTR 및 3' UTR 중 하나 또는 둘 다는 삽입될 수 있고/거나 내인성 5' UTR 및 3' UTR 중 하나 또는 둘 다는 결실될 수 있다. 구체적인 예에서, 5' UTR과3' UTR 둘 다 내인성으로 남아 있다. 또 다른 구체적인 예에서, 5' UTR은 내인성으로 남아 있고, 3' UTR은 인간화된다. 이종상동성 서열에 의한 대체의 규모에 따라, 조절 서열, 예컨대 프로모터는 내인성이거나, 대체형 인간 이종상동성 서열에 의해 공급될 수 있다. 예를 들어, 인간화 알부민 좌위는 내인성 비-인간 동물 알부민 프로모터를 포함할 수 있다(즉, 인간 알부민 서열은 내인성 비-인간 동물 프로모터에 작동적으로 연결될 수 있음).

신호 펩타이드, 프로펩타이드, 또는 혈청 알부민을 인코딩하는 영역 중 하나 이상 또는 모두는 인간화될 수 있거나, 이러한 영역 중 하나 이상은 내인성으로 남아 있을 수 있다. 마우스 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 예시적인 코딩 서열은 SEQ ID NO: 10-12로 각각 표시되어 있다. 인간 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 예시적인 코딩 서열은 SEQ ID NO: 14-16으로 각각 표시되어 있다.

예를 들어, 신호 펩타이드를 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 인간화될 수 있고/거나 프로펩타이드를 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 인간화될 수 있고/거나 혈청 알부민을 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 인간화될 수 있다. 대안적으로 또는 추가로, 신호 펩타이드를 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 내인성으로 남아 있을 수 있고/거나 프로펩타이드를 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 내인성으로 남아 있을 수 있고/거나 혈청 알부민을 인코딩하는 알부민 좌위의 영역 중 모두 또는 부분은 내인성으로 남아 있을 수 있다. 일례에서, 신호 펩타이드, 프로펩타이드, 및 혈청 알부민을 인코딩하는 알부민 좌위의 영역 중 모두 또는 일부는 인간화된다. 선택적으로, 알부민 좌위의 인간화 영역의 CDS는 SEQ ID NO: 13(또는 이의 축퇴물)과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 알부민 좌위의 인간화 영역의 CDS는 SEQ ID NO: 13(또는 이의 축퇴물)과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 알부민 좌위의 인간화 영역은 SEQ ID NO: 35와 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 알부민 좌위의 인간화 영역은 SEQ ID NO: 35와 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 인간화 알부민 좌위는 SEQ ID NO: 5와 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된 단백질을 인코딩한다. 선택적으로, 인간화 알부민 좌위는 SEQ ID NO: 5와 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성되는 단백질을 인코딩한다. 선택적으로, 인간화 알부민 좌위는 SEQ ID NO: 17 또는 18과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 인간화 알부민 좌위는 SEQ ID NO: 17 또는 18과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다.

인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은, 인간 알부민 단백질로부터의 것인 하나 이상의 도메인 및/또는 내인성(즉, 네이티브) 알부민 단백질로부터의 것인 하나 이상의 도메인을 포함할 수 있다. 마우스 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 예시적인 아미노산 서열은 SEQ ID NO: 2-4로 각각 표시되어 있다. 인간 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 예시적인 아미노산 서열은 SEQ ID NO: 6-8로 각각 표시되어 있다.

알부민 단백질은 인간 알부민 신호 펩타이드, 인간 알부민 프로펩타이드, 및 인간 혈청 알부민 중 하나 이상 또는 모두를 포함할 수 있다. 대안적으로 또는 추가로, 알부민 단백질은 내인성(즉, 네이티브) 비-인간 동물 알부민 단백질로부터의 것인 하나 이상의 도메인을 포함할 수 있다. 예를 들어, 알부민 단백질은 내인성(즉, 네이티브) 비-인간 동물 알부민 단백질로부터의 신호 펩타이드 및/또는 내인성(즉, 네이티브) 비-인간 동물 알부민 단백질로부터의 프로펩타이드 및/또는 내인성(즉, 네이티브) 비-인간 동물 알부민 단백질로부터의 혈청 알부민을 포함할 수 있다. 일례로, 알부민 단백질은 인간 신호 펩타이드, 프로펩타이드, 및 혈청 알부민을 포함할 수 있다.

인간 알부민 단백질로부터의 것인 키메라 알부민 단백질 내의 도메인은 완전히 인간화된 서열에 의해 인코딩될 수 있거나(즉, 해당 도메인을 인코딩하는 전체 서열은 이종상동성 인간 알부민 서열로 대체됨), 부분적으로 인간화된 서열에 의해 인코딩될 수 있다(즉, 인코딩되는 도메인이 인간 알부민 단백질 내의 해당 도메인과 동일하도록, 해당 도메인을 인코딩하는 서열 중 일부는 이종상동성 인간 알부민 서열로 대체되고 해당 도메인을 인코딩하는 잔여 내인성(즉, 네이티브) 서열은 이종상동성 인간 알부민 서열과 동일한 아미노산을 인코딩함). 마찬가지로, 내인성 알부민 단백질로부터의 것인 키메라 단백질 내의 도메인은 완전히 내인성인 서열에 의해 인코딩될 수 있거나(즉, 해당 도메인을 인코딩하는 전체 서열은 내인성 알부민 서열임), 부분적으로 인간화된 서열에 의해 인코딩될 수 있다(즉, 인코딩되는 도메인이 내인성 알부민 단백질 내의 해당 도메인과 동일하도록, 해당 도메인을 인코딩하는 서열 중 일부는 이종상동성 인간 알부민 서열로 대체되지만 이종상동성 인간 알부민 서열은 대체되는 내인성 알부민 서열과 동일한 아미노산을 인코딩함).

일례로, 인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은 인간 알부민 신호 펩타이드를 포함할 수 있다. 선택적으로, 인간 알부민 신호 펩타이드는 SEQ ID NO: 6과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 인간 알부민 신호 펩타이드는 SEQ ID NO: 6과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성되는 단백질을 인코딩한다. 또 다른 예로, 인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은 인간 알부민 프로펩타이드를 포함할 수 있다. 선택적으로, 인간 알부민 프로펩타이드는 SEQ ID NO: 7과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 인간 알부민 프로펩타이드는 SEQ ID NO: 7과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성되는 단백질을 인코딩한다. 또 다른 예로, 인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은 인간 혈청 알부민을 포함할 수 있다. 선택적으로, 인간 혈청 알부민은 SEQ ID NO: 8과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 선택적으로, 인간 혈청 알부민은 SEQ ID NO: 8과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성되는 단백질을 인코딩한다. 예를 들어, 인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은 SEQ ID NO: 5와 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다. 예를 들어, 인간화 알부민 좌위에 의해 인코딩되는 알부민 단백질은 SEQ ID NO: 5와 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다. 선택적으로, 인간화 알부민 좌위에 의해 인코딩되는 알부민 CDS는 SEQ ID NO: 13(또는 이의 축퇴물)과 적어도 85%, 90%, 95%, 96%, 97%, 98%, 99%, 또는 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다. 선택적으로, 인간화 알부민 좌위에 의해 인코딩되는 알부민 CDS는 SEQ ID NO: 13(또는 이의 축퇴물)과 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 적어도 약 99%, 또는 약 100% 동일한 서열을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다.

인간화 알부민 단백질은 네이티브 알부민 단백질 및/또는 인간 알부민 단백질의 활성을 보유할 수 있다.

선택적으로, 인간화 알부민 좌위는 다른 요소를 포함할 수 있다. 이러한 요소의 예는 선택 카세트, 리포터 유전자, 재조합효소 인식 부위, 또는 다른 요소를 포함할 수 있다. 대안적으로, 인간화 알부민 좌위는 다른 요소가 결여될 수 있다(예를 들어, 선택 마커 또는 선택 카세트가 결여될 수 있음). 적합한 리포터 유전자 및 리포터 단백질의 예는 본원 어디에서나 개시되어 있다. 적합한 선택 마커의 예는 네오마이신 포스포트랜스퍼라제(neo_r), 하이그로마이신 B 포스포트랜스퍼라제(hyg_r), 퓨로마이신-N-아세틸트랜스퍼라제(puro_r), 블라스티시딘 S 데아미나제(bsr_r), 크산틴/구아닌 포스포리보실 트랜스퍼라제(gpt), 및 단순 포진(herpes simplex) 바이러스 티미딘 키나제(HSV-k)를 포함한다. 리컴비나제의 예는 Cre, Flp, 및 Dre 리컴비나제를 포함한다. Cre 리컴비나제 유전자의 일례는 Crei이며, 여기서 Cre 리컴비나제를 인코딩하는 2개의 엑손은 원핵생물 세포에서 이의 발현을 방지하기 위해 인트론에 의해 분리된다. 이러한 리컴비나제는 핵으로의 위치화를 용이하게 하기 위해 핵 위치화 신호(예를 들어, NLS-Crei)를 추가로 포함할 수 있다. 리컴비나제 인식 부위는, 부위-특이적 리컴비나제에 의해 인식되고 재조합 사건에 대한 기질로서 역할을 할 수 있는 뉴클레오타이드 서열을 포함한다. 리컴비나제 인식 부위의 예는 FRT, FRT11, FRT71, attp, att, rox, 및 lox 부위, 예컨대 loxP, lox511, lox2272, lox66, lox71, loxM2, 및 lox5171을 포함한다.

다른 요소, 예컨대 리포터 유전자 또는 선택 카세트는 재조합효소 인식 부위에 의해 플랭킹되는 자가-결실 카세트일 수 있다. 예를 들어, 미국 특허출원공개 US 8,697,851호 및 US 2013/0312129호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 일례로, 자가-결실 카세트는 마우스 Prm1 프로모터에 작동적으로 연결된 Crei 유전자(인트론에 의해 분리된 Cre 리컴비나제를 인코딩하는 2개의 엑손을 포함함) 및 인간 유비퀴틴 프로모터에 작동적으로 연결된 네오마이신 내성 유전자를 포함할 수 있다. Prm1 프로모터를 이용함으로써, 자가-결실 카세트는 F0 동물의 수컷 생식 세포에서 특이적으로 결실될 수 있다. 선별 마커를 인코딩하는 폴리뉴클레오타이드는 표적화되는 세포에서 활성인 프로모터에 작동적으로 연결될 수 있다. 프로모터의 예는 본원 어디에서나 기재되어 있다. 또 다른 구체적인 예로서, 자가-결실 선택 카세트는 하나 이상의 프로모터(예를 들어, 인간 유비퀴틴 프로모터와 EM7 프로모터 둘 다)에 작동적으로 연결된 하이그로마이신 내성 유전자 코딩 서열, 뒤이어 폴리아데닐화 신호, 뒤이어 하나 이상의 프로모터(예를 들어, mPrm1 프로모터)에 작동적으로 연결된 Crei 코딩 서열, 뒤이어 또 다른 폴리아데닐화 신호를 포함할 수 있으며, 전체 카세트는 loxP 부위에 의해 플랭킹된다.

인간화 알부민 좌위는 또한 조건적 대립유전자일 수 있다. 예를 들어, 조건적 대립유전자는 US 2011/0104799호에 기재된 바와 같은 다기능적 대립유전자일 수 있으며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 예를 들어, 조건적 대립유전자는 (a) 표적 유전자의 전사에 관하여 센스 배향에서의 액추에이팅 서열(actuating sequence); (b) 센스 또는 안티센스 배향에서의 약물 선별 카세트(DSC); (c) 안티센스 배향에서의 관심 뉴클레오타이드 서열(NSI); 및 (d) 역배향에서 인버전 모듈에 의한 조건(COIN: conditional by inversion module, 이는 엑손-분할 인트론 및 역위 가능 유전자-트랩-유사 모듈을 이용함)을 포함할 수 있다. 예를 들어, 미국 특허출원공개 US 2011/0104799호를 참조한다. 조건적 대립유전자는 제1 리컴비나제에 노출 시 재조합되어 (i) 액추에이팅 서열 및 DSC가 결여되고; (ii) 센스 배향에서 NSI 및 안티센스 배향에서 COIN을 함유하는 조건적인 대립유전자를 형성하는 재조합 가능한 단위를 추가로 포함할 수 있다. 예를 들어, 미국 특허출원공개 US 2011/0104799호를 참조한다.

하나의 예시적인 인간화 알부민 좌위(예를 들어, 인간화 마우스 알부민 좌위)는, 출발 코돈으로부터 정지 코돈까지의 영역이 상응하는 인간 서열로 대체되는 것이다. 도 1a와 도 1b 및 SEQ ID NO: 17 및 SEQ ID NO: 18을 참조한다. 구체적인 예에서, ATG 개시 코돈으로부터 정지 코돈까지의 영역(즉, 코딩 엑손 1-14)은 비-인간 동물(예를 들어, 마우스) 알부민(Alb) 좌위로부터 결실될 수 있으며, 결실된 내인성 영역 대신에 ATG 개시 코돈으로부터 정지 코돈의 약 100 bp 다운스트림까지의 인간 알부민(ALB)의 상응하는 영역이 삽입될 수 있다.

C. 인간화 알부민( ALB ) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물

본원 어디에서나 기재된 바와 같은 인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 및 비-인간 동물이 제공된다. 게놈, 세포, 또는 비-인간 동물은 수컷 또는 암컷일 수 있다. 게놈, 세포, 또는 비-인간 동물은 인간화 알부민 좌위에 대해 이형접합성 또는 동형접합성일 수 있다. 이배체(diploid) 유기체는 각각의 유전자 좌위에 2개의 대립유전자를 갖는다. 대립유전자의 각각의 쌍은 특정 유전자 좌위의 유전자형을 나타낸다. 유전자형은, 특정 좌위에 2개의 동일한 대립유전자가 존재한다면 동형접합성으로서 기재되고, 2개의 대립유전자가 상이하다면 이형접합성으로서 기재된다. 인간화 알부민 좌위를 포함하는 비-인간 동물은 인간화 내인성 알부민 좌위를 이의 생식계열에서 포함할 수 있다.

본원에 제공되는 비-인간 동물 게놈 또는 세포는 예를 들어, 인간 알부민 좌위에 상동성인 또는 이종상동성인 알부민 좌위 또는 게놈 좌위를 포함하는 임의의 비-인간 동물 게놈 또는 세포일 수 있다. 게놈은 예를 들어, 진균류 세포(예를 들어, 효모), 식물 세포, 동물 세포, 포유류 세포, 비-인간 포유류 세포, 및 인간 세포를 포함하는 진핵생물 세포로부터의 것일 수 있거나 세포는 이러한 진핵생물 세포일 수 있다. 용어 "동물"은 예를 들어, 포유류, 어류, 파충류, 양서류, 조류, 및 벌레를 포함하여 동물계의 임의의 구성원을 포함한다. 포유류 세포는 예를 들어, 비-인간 포유류 세포, 설치류 세포, 래트 세포, 마우스 세포, 또는 햄스터 세포일 수 있다. 다른 비-인간 포유류는 예를 들어, 비-인간 영장류, 원숭이, 유인원, 오랑우탄, 고양이, 개, 토끼, 말, 황소, 사슴, 들소, 가축(예를 들어, 소 종, 예컨대 젖소 및 거세한 수소 등; 양 종, 예컨대 양 및 염소 등; 및 돼지 종, 예컨대 돼지 및 수퇘지)을 포함한다. 조류는 예를 들어, 닭, 칠면조, 타조, 거위, 오리 등을 포함한다. 사육 동물(domesticated animal) 및 농장 동물 또한 포함된다. 용어 "비-인간"은 인간을 배제한다.

세포는 또한, 임의의 유형의 비분화된 또는 분화된 상태일 수 있다. 예를 들어, 세포는 전능성 세포, 만능성 세포(예를 들어, 인간 만능성 세포 또는 비-인간 만능성 세포, 예컨대 마우스 배아 줄기(ES) 세포 또는 래트 ES 세포), 또는 비-만능성 세포일 수 있다. 전능성 세포는 임의의 세포 유형을 발생시킬 수 있는 미분화된 세포를 포함하고, 만능성 세포는 1개 초과의 분화된 세포 유형으로 발달하는 능력을 소유하는 미분화된 세포를 포함한다. 이러한 만능성 및/또는 전능성 세포는 예를 들어, ES 세포 또는 ES-유사 세포, 예컨대 유도 만능 줄기(iPS: induced pluripotent stem)세포일 수 있다. ES 세포는, 배아 내로의 도입 시 발달중인 배아의 임의의 조직에 기여할 수 있는 배아-유래 전능성 또는 만능성 세포를 포함한다. ES 세포는 배반포의 내부 세포 덩어리로부터 유래될 수 있고, 임의의 3개의 척추동물 배엽층(germ layer)(내배엽, 외배엽 및 중배엽)의 세포로 분화할 수 있다.

본원에 제공된 세포는 또한, 생식 세포(예를 들어, 정자 또는 난모세포(oocyte))일 수 있다. 세포는 유사분열적으로(mitotically) 적격인(competent) 세포 또는 유사분열적으로-불활성 세포, 감수분열적으로(meiotically) 적격인 세포 또는 감수분열적으로-불활성 세포일 수 있다. 유사하게는, 세포는 또한 1차 체세포, 또는 1차 체세포가 아닌 세포일 수 있다. 체세포는 배우자(gamete), 생식 세포, 생식모세포(gametocyte), 또는 미분화된 줄기세포가 아닌 임의의 세포를 포함한다. 예를 들어, 세포는 간 세포, 예컨대 간아세포(hepatoblast) 또는 간세포(hepatocyte)일 수 있다.

본원에 제공된 적합한 세포는 또한 1차 세포를 포함한다. 1차 세포는 유기체, 기관 또는 조직으로부터 직접 단리되었던 세포 또는 세포의 배양물을 포함한다. 1차 세포는 형질전환되지 않거나 불멸이 아닌 세포를 포함한다. 이들은, 조직 배양물에서 이전에 계대배양되지 않았거나 조직 배양물에서 이전에 계대배양되었으나 조직 배양물에서 무한정으로 계대배양될 수 없는 유기체, 기관 또는 조직으로부터 수득된 임의의 세포를 포함한다. 이러한 세포는 종래의 기법에 의해 단리될 수 있으며, 예를 들어, 간세포를 포함할 수 있다.

본원에 제공된 다른 적합한 세포는 불멸화된 세포를 포함한다. 불멸화된 세포는, 통상적으로 무한정 증식하지 않을 것이지만 돌연변이 또는 변경으로 인해 정상적인 세포 노화를 벗어났고 대신에 받고 있는 분열(undergoing division)을 유지시킬 수 있는 다세포 유기체로부터의 세포를 포함한다. 이러한 돌연변이 또는 변경은 천연적으로 발생하거나 의도적으로 유도될 수 있다. 불멸화된 세포주의 구체적인 예는 HepG2 인간 간암 세포주이다. 수많은 유형의 불멸화된 세포는 널리 알려져 있다. 불멸화된 또는 1차 세포는, 재조합 유전자 또는 단백질을 배양하거나 발현시키는 데 전형적으로 사용되는 세포를 포함한다.

본원에 제공된 세포는 또한 1-세포 단계 배아(즉, 수정된 난모세포 또는 접합체)를 포함한다. 이러한 1-세포 단계 배아는 임의의 유전적 배경(예를 들어, BALB/c, C57BL/6, 129, 또는 마우스에 대해 이들의 조합)으로부터의 것일 수 있으며, 신선하거나 냉동된 것일 수 있고, 자연적 번식(natural breeding) 또는 시험관내 수정(fertilization)으로부터 유래될 수 있다.

본원에 제공된 세포는 정상적인 건강한 세포일 수 있거나, 유병(diseased) 또는 돌연변이체-보유 세포일 수 있다.

본원에 기재된 바와 같은 인간화 알부민 좌위를 포함하는 비-인간 동물은 본원 어디에서나 기재된 방법에 의해 만들어질 수 있다. 용어 "동물"은 예를 들어, 포유류, 어류, 파충류, 양서류, 조류, 및 벌레를 포함하여 동물계의 임의의 구성원을 포함한다. 구체적인 예에서, 비-인간 동물은 비-인간 포유류이다. 비-인간 포유류는 예를 들어, 비-인간 영장류, 원숭이, 유인원. 오랑우탄, 고양이, 개, 말, 황소, 사슴, 들소, 양, 토끼, 설치류(예를 들어, 마우스, 래트, 햄스터, 및 기니피그), 및 가축(예를 들어, 소(bovine) 종, 예컨대 젖소 및 거세한 수소(steer); 양(ovine) 종, 예컨대 양(sheep) 및 염소; 및 돼지(porcine) 종, 예컨대 돼지 및 수퇘지)을 포함한다. 조류는 예를 들어, 닭, 칠면조, 타조, 거위 및 오리를 포함한다. 사육 동물(domesticated animal) 및 농장 동물 또한 포함된다. 용어 "비-인간 동물"은 인간을 배제한다. 바람직한 비-인간 동물은 예를 들어, 설치류, 예컨대 마우스 및 래트를 포함한다.

비-인간 동물은 임의의 유전적 배경으로부터의 것일 수 있다. 예를 들어, 적합한 마우스는 129 계통, C57BL/6 계통, 129와 C57BL/6의 혼합체, BALB/c 계통, 또는 스위스 웹스터(Swiss Webster) 계통으로부터의 것일 수 있다. 129 계통의 예는 129P1, 129P2, 129P3, 129X1, 129S1(예를 들어, 129S1/SV, 129S1/Svlm), 129S2, 129S4, 129S5, 129S9/SvEvH, 129S6(129/SvEvTac), 129S7, 129S8, 129T1, 및 129T2를 포함한다. 예를 들어, 문헌[Festing 등 (1999) Mammalian Genome 10:836]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. C57BL 계통의 예는 C57BL/A, C57BL/An, C57BL/GrFa, C57BL/Kal_wN, C57BL/6, C57BL/6J, C57BL/6ByJ, C57BL/6NJ, C57BL/10, C57BL/10ScSn, C57BL/10Cr, 및 C57BL/Ola를 포함한다. 적합한 마우스는 또한, 상기 언급된 129 계통과 상기 언급된 C57BL/6 계통(예를 들어, 50% 129와 50% C57BL/6)의 혼합체로부터의 것일 수 있다. 마찬가지로, 적합한 마우스는 상기 언급된 129 계통의 혼합체 또는 상기 언급된 BL/6 계통의 혼합체(예를 들어, 129S6(129/SvEvTac) 계통)로부터의 것일 수 있다.

유사하게는, 래트는 예를 들어, ACI 래트 계통, 다크 아구티(DA: Dark Agouti) 래트 계통, 위스타(Wistar) 래트 계통, LEA 래트 계통, 스프라그 돌리(SD: Sprague Dawley) 래트 계통, 또는 피셔(Fischer) 래트 계통, 예컨대 피셔 F344 또는 피셔 F6을 포함하여 임의의 래트 계통으로부터의 것일 수 있다. 래트는 또한, 상기 나열된 2개 이상의 계통의 혼합체로부터 유래된 계통으로부터 수득될 수 있다. 예를 들어, 적합한 래트는 DA 계통 또는 ACI 계통으로부터의 것일 수 있다. ACI 래트 계통은 백색의 배(belly)와 발(feet) 및 RT1 ^av1 반수체형(haplotype)과 함께 블랙 아구티(black agouti)를 갖는 것으로서 특징화된다. 이러한 계통은 Harlan Laboratories를 포함하여 여러 가지 공급원으로부터 입수 가능하다. 다크 아구티(DA) 래트 계통은 아구티 코트(agouti coat) 및 RT1 ^av1 반수체형을 갖는 것으로서 특징화된다. 이러한 래트는 Charles River 및 Harlan Laboratories를 포함하여 여러 가지 공급원으로부터 입수 가능하다. 일부 적합한 래트는 동종 교배된(inbred) 래트 계통으로부터의 것일 수 있다. 예를 들어, 미국 특허출원공개 US 2014/0235933호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물(예를 들어, 마우스 또는 래트)은, 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)이 대조군 야생형 비-인간 동물에서의 혈청 알부민 수준과 비슷하도록 인간화 알부민 좌위로부터 알부민을 발현할 수 있다. 일례에서, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물은, 대조군 야생형 비-인간 동물에서의 혈청 알부민 수준의 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 또는 적어도 약 100%인 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 또 다른 예에서, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물은 적어도, 대조군 야생형 비-인간 동물에서의 혈청 알부민 수준만큼 높은 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 또 다른 예에서, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물은, 대조군 야생형 비-인간 동물에서의 혈청 알부민 수준보다 더 높은 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 예를 들어, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물은 적어도 약 1 mg/mL, 적어도 약 2 mg/mL, 적어도 약 3 mg/mL, 적어도 약 4 mg/mL, 적어도 약 5 mg/mL, 적어도 약 6 mg/mL, 적어도 약 7 mg/mL, 적어도 약 8 mg/mL, 적어도 약 9 mg/mL, 적어도 약 10 mg/mL, 적어도 약 11 mg/mL, 적어도 약 12 mg/mL, 적어도 약 13 mg/mL, 적어도 약 14 mg/mL, 또는 적어도 약 15 mg/mL의 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 더 구체적인 예에서, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물은 마우스일 수 있고, 적어도 약 1 mg/mL, 적어도 약 2 mg/mL, 적어도 약 3 mg/mL, 적어도 약 4 mg/mL, 적어도 약 5 mg/mL, 적어도 약 6 mg/mL, 적어도 약 7 mg/mL, 적어도 약 8 mg/mL, 적어도 약 9 mg/mL, 적어도 약 10 mg/mL, 적어도 약 11 mg/mL, 적어도 약 12 mg/mL, 적어도 약 13 mg/mL, 적어도 약 14 mg/mL, 또는 적어도 약 15 mg/mL의 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 구체적인 예에서, 인간화 알부민 좌위(예를 들어, 동형접합성 인간화 알부민 좌위)를 포함하는 비-인간 동물(예를 들어, 마우스)은, 약 10 mg/mL 내지 약 15 mg/mL의 혈청 알부민 수준(예를 들어, 혈청 인간 알부민 수준)을 가질 수 있다. 임의의 상기 예에서, 인간화 알부민 좌위에 의해 인코딩되는 알부민은 예를 들어, 인간 알부민 신호 펩타이드를 포함할 수 있다. 예를 들어, 일례에서, 내인성 알부민 좌위의 전체 알부민 코딩 서열은 결실되었고 상응하는 인간 알부민 서열로 대체되었거나, 개시 코돈으로부터 정지 코돈까지의 내인성 알부민 좌위의 영역은 결실되었고 상응하는 인간 알부민 서열로 대체되었다.

III. 생체내에서 또는 생체외에서 인간-알부민-표적화 시약의 효능을 평가하기 위해 인간화 알부민 좌위를 포함하는 비-인간 동물을 사용하는 방법

생체내에서 또는 생체외에서 인간-알부민-표적화 시약(예를 들어, 치료적 분자 또는 복합체)의 전달 또는 효능을 평가하거나 최적화하기 위해 본원 어디에서나 기재된 바와 같은 인간화 알부민 좌위를 포함하는 비-인간 동물을 사용하기 위한 다양한 방법이 제공된다. 비-인간 동물이 인간화 알부민 좌위를 포함하기 때문에, 상기 비-인간 동물은 인간-알부민-표적화 시약의 효능을 더욱 정확하게 반영할 것이다. 이러한 비-인간 동물은 인간 알부민 유전자를 표적화하도록 설계된 게놈-편집 시약을 시험하는 데 특히 유용한데, 왜냐하면 본원에 개시된 비-인간 동물은 무작위 게놈 좌위에서 인간 알부민 서열의 유전자이식 삽입보다는 인간화 내인성 알부민 좌위를 포함하고, 인간화 내인성 알부민 좌위는 인공 cDNA 서열보다는 코딩 영역과 비-코딩 영역 둘 다로부터의 이종상동성 인간 게놈 알부민 서열을 포함할 수 있기 때문이다.

A. 생체내에서 또는 생체외에서 인간-알부민-표적화 시약의 효능을 시험하는 방법

생체내에서 본원 어디에서나 기재된 바와 같은 인간화 알부민 좌위를 포함하는 비-인간 동물을 사용하여 인간-알부민-표적화 시약의 전달 또는 효능을 평가하기 위한 다양한 방법이 제공된다. 이러한 방법은 (a) 인간-알부민-표적화 시약을 비-인간 동물 내로 도입하는 단계(즉, 인간-알부민-표적화 시약을 비-인간 동물에게 투여하는 단계); 및 (b) 상기 인간-알부민-표적화 시약의 활성을 평가하는 단계를 포함할 수 있다.

인간-알부민-표적화 시약은 인간 알부민 좌위(인간 알부민 유전자), 인간 알부민 mRNA, 또는 인간 알부민 단백질을 표적화하는 임의의 생물학적 또는 화학적 제제일 수 있다. 인간-알부민-표적화 시약의 예는 본원 어디에서나 개시되어 있으며, 예를 들어, 게놈-편집 제제를 포함한다. 예를 들어, 인간-알부민-표적화 시약은 알부민-표적화 핵산(예를 들어, CRISPR/Cas 가이드 RNA, 짧은 헤어핀 RNA(shRNA), 또는 작은 간섭 RNA(siRNA)) 또는 알부민-표적화 단백질(예를 들어, Cas 단백질, 예컨대 Cas9, ZFN, 또는 TALEN)을 인코딩하는 핵산일 수 있다. 대안적으로, 인간-알부민-표적화 시약은 알부민-표적화 항체 또는 항원-결합 단백질, 또는 인간 알부민을 표적화하는 임의의 다른 고분자(large molecule) 또는 저분자일 수 있다. 일례에서, 인간-알부민-표적화 시약은 게놈-편집 제제, 예컨대 뉴클레아제 제제 및/또는 외인성 공여자 핵산(예를 들어, 표적화 벡터)이다. 특정 예에서, 게놈-편집 제제는 인간 알부민 유전자의 인트론 1, 인트론 12, 또는 인트론 13을 표적화할 수 있다. 예를 들어, 게놈-편집 제제는 인간 알부민 유전자의 인트론 1을 표적화할 수 있다.

이러한 인간-알부민-표적화 시약은 본원 어디에서나 더욱 상세히 개시된 바와 같은 임의의 전달 방법(예를 들어, AAV, LNP, 또는 HDD)에 의해 그리고 임의의 투여 경로에 의해 투여될 수 있다. 치료적 복합체 및 분자를 전달하는 수단 및 투여 경로는 본원 어디에서나 더욱 상세히 개시되어 있다. 특정 방법에서, 시약은 AAV-매개 전달을 통해 전달되었다. 예를 들어, AAV8은 간을 표적화하는 데 사용될 수 있다. 다른 특정 방법에서, 시약은 LNP-매개 전달에 의해 전달된다. 다른 특정 방법에서, 시약은 유체역학적 전달(HDD)에 의해 전달된다. 용량은 임의의 적합한 용량일 수 있다. 예를 들어, 시약(예를 들어, Cas9 mRNA 및 gRNA)이 LNP-매개 전달에 의해 전달되는 일부 방법에서, 용량은 약 0.01 내지 약 10 mg/kg, 약 0.01 내지 약 5 mg/kg, 약 0.01 내지 약 4 mg/kg, 약 0.01 내지 약 3 mg/kg, 약 0.01 내지 약 2 mg/kg, 약 0.01 내지 약 1 mg/kg, 약 0.1 내지 약 10 mg/kg, 약 0.1 내지 약 6 mg/kg; 약 0.1 내지 약 5 mg/kg, 약 0.1 내지 약 4 mg/kg, 약 0.1 내지 약 3 mg/kg, 약 0.1 내지 약 2 mg/kg, 약 0.1 내지 약 1 mg/kg, 약 0.3 내지 약 10 mg/kg, 약 0.3 내지 약 6 mg/kg; 약 0.3 내지 약 5 mg/kg, 약 0.3 내지 약 4 mg/kg, 약 0.3 내지 약 3 mg/kg, 약 0.3 내지 약 2 mg/kg, 약 0.3 내지 약 1 mg/kg, 약 0.1 mg/kg, 약 0.3 mg/kg, 약 1 mg/kg, 약 2 mg/kg, 또는 약 3 mg/kg일 수 있다. 구체적인 예에서, 용량은 약 0.1 내지 약 6 mg/kg; 약 0.1 내지 약 3 mg/kg, 또는 약 0.1 내지 약 2 mg/kg이다.

인간-알부민-표적화 시약의 활성을 평가하는 방법은 잘 알려져 있고 본원 어디에서나 제공된다. 활성의 평가는 본원 어디에서나 개시된 바와 같이 임의의 세포 유형, 임의의 조직 유형, 또는 임의의 기관 유형에서 이루어질 수 있다. 일부 방법에서, 활성의 평가는 간세포에서 이루어진다. 알부민-표적화 시약이 게놈 편집 시약(예를 들어, 뉴클레아제 제제)이라면, 이러한 방법은 인간화 알부민 좌위의 변형을 평가하는 단계를 포함할 수 있다. 일례로, 평가는 인간화 알부민 좌위에서 비-상동성 말단 접합(NHEJ) 활성을 측정하는 단계를 포함할 수 있다. 이는 예를 들어, 인간화 알부민 좌위 내에서 삽입 또는 결실의 빈도를 측정하는 단계를 포함할 수 있다. 예를 들어, 평가는 비-인간 동물로부터 단리된 하나 이상의 세포에서 인간화 알부민 좌위를 시퀀싱(예를 들어, 차세대 시퀀싱)하는 단계를 포함할 수 있다. 평가는 비-인간 동물로부터 표적 기관 또는 조직(예를 들어, 간) 또는 조직을 단리하는 단계 및 상기 표적 기관 또는 조직에서 인간화 알부민 좌위의 변형을 평가하는 단계를 포함할 수 있다. 평가는 또한, 표적 기관 또는 조직 내의 2개 이상의 상이한 세포 유형에서 인간화 알부민 좌위의 변형을 평가하는 단계를 포함할 수 있다. 유사하게는, 평가는 비-인간 동물로부터 표적 기관 또는 조직(예를 들어, 2개 이상의 비-표적 기관 또는 조직)을 단리하는 단계 및 상기 비-표적 기관 또는 조직에서 인간화 알부민 좌위의 변형을 평가하는 단계를 포함할 수 있다.

이러한 방법은 또한, 인간화 알부민 좌위에 의해 생성된 mRNA의 발현 수준을 측정하는 단계를 포함할 수 있거나, 인간화 알부민 좌위에 의해 인코딩되는 단백질의 발현 수준을 측정함으로써 이루어질 수 있다. 예를 들어, 단백질 수준은 특정 세포, 조직, 또는 기관 유형(예를 들어, 간)에서 측정될 수 있거나, 분비된 수준은 혈청에서 측정될 수 있다. 인간화 알부민 좌위로부터 발현되는 알부민 mRNA 또는 단백질의 발현을 평가하는 방법은 본원 어디에서나 제공되고 잘 알려져 있다. 일례로서, BASESCOPE™ RNA 인시추 혼성화(ISH) 검정은 예를 들어, 세포-특이적 편집된 전사물을 정량화하는 데 사용될 수 있다.

일부 방법에서, 인간-알부민-표적화 시약은 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 포함한다. 이러한 외인성 공여자 핵산은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 외인성 단백질을 인코딩할 수 있다(예를 들어, 외인성 단백질을 인코딩하는 삽입물 핵산을 포함할 수 있음). 일례에서, 외인성 단백질은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질일 수 있다. 일례에서, 일단 인간화 알부민 좌위 내로 통합된 외인성 공여자 핵산에 의해 인코딩되는 외인성 단백질은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질일 수 있다. 일부 방법에서, 평가는 외인성 공여자 핵산에 의해 인코딩되는 메신저 RNA의 발현을 측정하는 단계를 포함할 수 있다. 평가는 또한 외인성 단백질의 발현을 측정하는 단계를 포함할 수 있다. 예를 들어, 외인성 단백질의 발현은 비-인간 동물의 간에서 측정될 수 있거나, 외인성 단백질의 혈청 수준이 측정될 수 있다.

일부 방법에서, 본원 어디에서나 기재된 바와 같은 인간화 알부민 좌위를 포함하는 비-인간 동물은, 알부민 좌위가 아닌 비활성화된(넉아웃된) 내인성 유전자를 추가로 포함하고, 선택적으로 인간-알부민-표적화 시약은 비활성화된 내인성 유전자의 기능을 대체하기 위해 외인성 단백질을 인코딩하는 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 포함한다. 구체적인 예에서, 비활성화된 내인성 유전자는 F9이고, 외인성 단백질은 응고 인자 IX(예를 들어, 인간 응고 인자 IX)이다.

일부 방법에서, 인간-알부민-표적화 시약은 (1) 인간 알부민 유전자의 영역을 표적화하도록 설계된 뉴클레아제 제제 및 (2) 외인성 공여자 핵산을 포함하며, 상기 외인성 공여자 핵산은 인간 알부민 유전자를 표적화하도록 설계된다. 외인성 공여자 핵산은 예를 들어, 외인성 단백질을 인코딩할 수 있으며, 선택적으로, 외인성 공여자 핵산으로 표적화되었던 인간화 내인성 알부민 좌위에 의해 인코딩되는 단백질은 외인성 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질이다.

하나의 구체적인 예로서, 인간-알부민-표적화 시약이 게놈 편집 시약(예를 들어, 뉴클레아제 제제)이라면, 인간화 알부민 좌위에서의 편집 백분율(percent editing)(예를 들어, 용해된 세포의 풀(pool)로부터의 PCR 반응에서 서열 판독물의 총 수에 걸쳐 관찰된 삽입 또는 결실의 총 수)이 평가될 수 있다(예를 들어, 간 세포에서).

생체내에서 활성을 평가하기 위해 상기 제공된 다양한 방법은 또한, 본원 어디에서나 기재된 바와 같이 생체외에서 인간-알부민-표적화 시약의 활성을 평가하는 데 사용될 수 있다.

일부 방법에서, 인간-알부민-표적화 시약은 인간 알부민 유전자를 표적화하는 뉴클레아제 제제, 예컨대 CRISPR/Cas 뉴클레아제 제제이다. 이러한 방법은 예를 들어, (a) 인간 알부민 유전자를 절단하도록 설계된 뉴클레아제 제제(예를 들어, 인간 알부민 유전자 내 가이드 RNA 표적 서열을 표적화하도록 설계된 Cas 단백질, 예컨대 Cas9 및 가이드 RNA)를 비-인간 동물 내로 도입하는 단계; 및 (b) 인간화 알부민 좌위의 변형을 평가하는 단계를 포함할 수 있다.

CRISPR/Cas 뉴클레아제의 경우, 예를 들어, 인간화 알부민 좌위의 변형은, 가이드 RNA가 Cas 단백질과 복합체를 형성하며 상기 Cas 단백질을 인간화 알부민 좌위로 안내(direct)하고, Cas/가이드 RNA 복합체가 가이드 RNA 표적 서열을 절단하여 세포에 의한 수선(예를 들어, 공여자 서열이 존재하지 않는다면 비-상동성 말단 접합(NHEJ)을 통해)을 촉발할 때 유도될 것이다.

선택적으로, 2개 이상의 가이드 RNA가 도입될 수 있으며, 각각은 인간 알부민 유전자 내의 상이한 가이드 RNA 표적 서열을 표적화하도록 설계된다. 예를 들어, 2개의 가이드 RNA는 2개의 가이드 RNA 표적 서열 사이의 게놈 서열을 절제하도록 설계될 수 있다. 인간화 알부민 좌위의 변형은, 제1 가이드 RNA가 Cas 단백질과 복합체를 형성하며 상기 Cas 단백질을 인간화 알부민 좌위로 안내하고, 제2 가이드 RNA가 Cas 단백질과 복합체를 형성하며 상기 Cas 단백질을 인간화 알부민 좌위로 안내하며, 제1 Cas/가이드 RNA 복합체가 제1 가이드 RNA 표적 서열을 절단하고 제2 Cas/가이드 RNA 복합체가 제2 가이드 RNA 표적 서열을 절단하여 개입 서열의 절제를 초래할 때 유도될 것이다.

추가로 또는 대안적으로, 인간 알부민과 재조합하고 이를 변형시킬 수 있는 외인성 공여자 핵산(예를 들어, 표적화 벡터) 또한 비-인간 동물 내로 도입된다. 선택적으로, 뉴클레아제 제제 또는 Cas 단백질은 본원 어디에서나 기재된 바와 같이 외인성 공여자 핵산에 테터링될 수 있다. 인간화 알부민 좌위의 변형은 예를 들어, 가이드 RNA가 Cas 단백질과 복합체를 형성하며 상기 Cas 단백질을 인간화 알부민 좌위로 안내하고, Cas/가이드 RNA 복합체가 가이드 RNA 표적 서열을 절단하며, 인간화 알부민 좌위가 내인성 공여자 핵산과 재조합되어 인간화 알부민 좌위를 변형할 때 유도될 것이다. 외인성 공여자 핵산은 예를 들어, 상동성-지시 수선(HDR)을 통해 또는 NHEJ-매개 삽입을 통해 인간화 알부민 좌위와 재조합될 수 있다. 임의의 유형의 외인성 공여자 핵산이 사용될 수 있으며, 이의 예는 본원 어디에서나 제공된다.

일부 방법에서, 인간-알부민-표적화 시약은 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 포함한다. 이러한 외인성 공여자 핵산은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 외인성 단백질을 인코딩할 수 있다(예를 들어, 외인성 단백질을 인코딩하는 삽입물 핵산을 포함할 수 있음). 일례에서, 외인성 단백질은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질일 수 있다. 예를 들어, 외인성 공여자 핵산은 스플라이스 수용기를 포함하는 프로모터리스 카세트일 수 있으며, 외인성 공여자 핵산은 인간 알부민의 제1 인트론으로 표적화될 수 있다.

B. 생체내에서 또는 생체외에서 인간-알부민-표적화 시약의 전달 또는 효능을 최적화하는 방법

생체내에서 세포 또는 비-인간 동물로의 인간-알부민-표적화 시약의 전달을 최적화하거나 인간-알부민-표적화 시약의 활성 또는 효능을 최적화하기 위한 다양한 방법이 제공된다. 이러한 방법은 예를 들어, (a) 첫 번째로 인간화 알부민 좌위를 포함하는 제1 비-인간 동물 또는 제1 세포에서 상기 기재된 바와 같은 인간-알부민-표적화 시약의 효능을 시험하는 방법을 수행하는 단계; (b) 변수를 변화시키고, 두 번째로 인간화 알부민 좌위를 포함하는 제2 비-인간 동물(즉, 동일한 종의) 또는 제2 세포에서 변화된 변수로 상기 방법을 수행하는 단계; 및 (c) 상기 단계 (a)에서의 인간-알부민-표적화 시약의 활성을 상기 단계 (b)에서의 인간-알부민-표적화 시약의 활성과 비교하고, 더 높은 활성을 초래하는 방법을 선택하는 단계를 포함할 수 있다.

인간-알부민-표적화 시약의 전달, 효능, 또는 활성을 측정하는 방법은 본원 어디에서나 개시되어 있다. 예를 들어, 이러한 방법은 인간화 알부민 좌위의 변형을 측정하는 단계를 포함할 수 있다. 인간화 알부민 좌위의 더욱 효과적인 변형은 비-인간 동물 또는 세포 내에서의 요망되는 효과에 따라 상이한 것을 의미할 수 있다. 예를 들어, 인간화 알부민 좌위의 더욱 효과적인 변형은 더 높은 수준의 변형, 더 높은 정밀도(precision), 더 높은 일관성(consistency), 또는 더 높은 특이성 중 하나 이상을 의미할 수 있다. 인간화 알부민 좌위의 더 높은 수준의 변형(즉, 더 높은 효능)은, 더 높은 백분율의 세포가 특정 표적 세포 유형 내에서, 특정 표적 조직 내에서, 또는 특정 표적 기관(예를 들어, 간) 내에서 표적화됨을 지칭한다. 더 높은 정밀도는 인간화 알부민 좌위의 더 정밀한 변형(예를 들어, 잉여의 의도치 않은 삽입 및 결실(예를 들어, NHEJ 인델(indel)) 없이 동일한 변형을 갖거나 요망되는 변형을 갖는 표적화된 세포의 더 높은 백분율)을 지칭한다. 더 높은 일관성은, 하나 초과의 유형의 세포, 조직, 또는 기관이 표적화되고 있다면(예를 들어, 간 내에서 더 많은 수의 세포 유형의 변형), 상이한 유형의 표적화된 세포, 조직, 또는 기관 중에서 인간화 알부민 좌위의 더욱 일관된 변형을 지칭한다. 특정 기관이 표적화되고 있다면, 더 높은 일관성은 또한 기관(예를 들어, 간) 내의 모든 장소들 전반에 걸쳐 더욱 일관된 변형을 지칭할 수 있다. 더 높은 특이성은 표적화되는 게놈 좌위 또는 좌위들에 대한 더 높은 특이성, 표적화되는 세포 유형에 대한 더 높은 특이성, 표적화되는 조직 유형에 대한 더 높은 특이성, 또는 표적화되는 기관에 대한 더 높은 특이성을 지칭할 수 있다. 예를 들어, 증가된 게놈 좌위 특이성은 표적-외(off-target) 게놈 좌위의 더 적은 변형(예를 들어, 표적 게놈 좌위의 변형 대신에 또는 이러한 변형에 더하여 의도치 않은 표적-외 게놈 좌위에 변형을 갖는 표적화된 세포의 더 낮은 백분율)을 지칭한다. 마찬가지로, 증가된 세포 유형, 조직, 또는 기관 유형 특이성은, 특정 세포 유형, 조직 유형, 또는 기관 유형이 표적화되고 있다면 표적-외 세포 유형, 조직 유형, 또는 기관 유형의 더 적은 변형을 지칭한다(예를 들어, 특정 기관(예를 들어, 간)이 표적화될 때, 의도치 않은 표적인 기관 또는 조직에서 세포의 더 적은 변형이 존재함).

변화된 변수는 임의의 매개변수일 수 있다. 일례로, 변화된 변수는, 인간-알부민-표적화 시약 또는 시약들이 세포 또는 비-인간 동물 내로 도입되는 패키징 또는 전달 방법일 수 있다. 전달 방법, 예컨대 LNP, HDD, 및 AAV의 예는 본원 어디에서나 개시되어 있다. 예를 들어, 변화된 변수는 AAV 혈청형일 수 있다. 유사하게는, 투여는 LNP-매개 전달을 포함할 수 있고, 변화된 변수는 LNP 제형일 수 있다. 또 다른 예로, 변화된 변수는 세포 또는 비-인간 동물 내로의 인간-알부민-표적화 시약 또는 시약들의 도입을 위한 투여 경로일 수 있다. 투여 경로의 예, 예컨대 정맥내, 유리체내(intravitreal), 실질내(intraparenchymal,), 및 비내 점적(instillation)은 본원 어디에서나 개시된다.

또 다른 예로, 변화된 변수는 도입되는 인간-알부민-표적화 시약 또는 시약들의 농도 또는 양일 수 있다. 또 다른 예로, 변화된 변수는, 도입되는 또 다른 인간-알부민-표적화 시약(예를 들어, 가이드 RNA, Cas 단백질, 또는 외인성 공여자 핵산)의 농도 또는 양에 비해, 도입되는 하나의 인간-알부민-표적화 시약(예를 들어, 가이드 RNA, Cas 단백질, 또는 외인성 공여자 핵산)의 농도 또는 양일 수 있다.

또 다른 예로, 변화된 변수는 시약의 활성 또는 효능을 평가하는 시기에 비해 인간-알부민-표적화 시약 또는 시약들을 도입하는 시기일 수 있다. 또 다른 예로, 변화된 변수는 인간-알부민-표적화 시약 또는 시약들이 도입되는 횟수 또는 빈도일 수 있다. 또 다른 예로, 변화된 변수는, 도입되는 또 다른 인간-알부민-표적화 시약(예를 들어, 가이드 RNA, Cas 단백질, 또는 외인성 공여자 핵산)의 도입 시기에 비해, 도입되는 하나의 인간-알부민-표적화 시약(예를 들어, 가이드 RNA, Cas 단백질, 또는 외인성 공여자 핵산)의 도입 시기일 수 있다.

또 다른 예로, 변화된 변수는 인간-알부민-표적화 시약 또는 시약들이 도입되는 형태일 수 있다. 예를 들어, 가이드 RNA는 DNA의 형태 또는 RNA의 형태로 도입될 수 있다. Cas 단백질(예를 들어, Cas9)은 DNA의 형태, RNA의 형태, 또는 단백질(예를 들어, 가이드 RNA와 복합체화됨)의 형태로 도입될 수 있다. 외인성 공여자 핵산은 DNA, RNA, 단일-가닥, 이중-가닥, 선형, 환식 등일 수 있다. 유사하게는, 각각의 구성요소는 안정성을 위해, 표적-외 효과를 감소시키기 위해, 전달을 용이하게 하기 위해 등과 같이 변형의 다양한 조합을 포함할 수 있다.

또 다른 예로, 변화된 변수는 인간-알부민-표적화 시약 또는 시약들이 도입되는 것일 수 있다. 예를 들어, 인간-알부민-표적화 시약이 가이드 RNA를 포함한다면, 변화된 변수는 상이한 서열을 갖는 상이한 가이드 RNA를 도입하는 것(예를 들어, 상이한 가이드 RNA 표적 서열을 표적화하는 것)일 수 있다. 마찬가지로, 인간-알부민-표적화 시약이 Cas 단백질을 포함한다면, 변화된 변수는 상이한 Cas 단백질을 도입하는 것(예를 들어, 상이한 서열을 갖는 상이한 Cas 단백질, 또는 상이한 서열을 갖지만(예를 들어, 코돈-최적화됨) 동일한 Cas 단백질 아미노산 서열을 인코딩하는 핵산을 도입하는 것)일 수 있다. 마찬가지로, 인간-알부민-표적화 시약이 외인성 공여자 핵산을 포함한다면, 변화된 변수는 상이한 서열을 갖는 상이한 외인성 공여자 핵산(예를 들어, 상이한 삽입물 핵산 또는 상이한 상동성 아암(예를 들어, 더 길거나 더 짧은 상동성 아암 또는 인간 알부민 유전자의 상이한 영역을 표적화하는 상동성 아암))을 도입하는 것일 수 있다.

구체적인 예에서, 인간-알부민-표적화 시약은 Cas 단백질, 및 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계된 가이드 RNA를 포함한다. 이러한 방법에서, 변화된 변수는 가이드 RNA 서열 및/또는 가이드 RNA 표적 서열일 수 있다. 일부 이러한 방법에서, Cas 단백질 및 가이드 RNA는 각각 RNA 형태로 투여될 수 있으며, 변화된 변수는 가이드 RNA(예를 들어, LNP 제형 내)에 대한 Cas mRNA의 비(ratio)일 수 있다. 일부 이러한 방법에서, 변화된 변수는 가이드 RNA 변형(예를 들어, 변형을 갖는 가이드 RNA는 변형을 갖지 않는 가이드 RNA와 비교됨)일 수 있다.

C. 인간-알부민-표적화 시약

인간-알부민-표적화 시약은 인간 알부민 유전자, 인간 알부민 mRNA, 또는 인간 알부민 단백질을 표적화하는 임의의 시약일 수 있다. 예를 들어, 상기 시약은 인간 알부민 유전자 내의 표적 서열 및/또는 인간 알부민 유전자와 재조합되는 외인성 공여자 서열을 절단하는 게놈-편집 시약, 예컨대 뉴클레아제 제제일 수 있거나, 상기 시약은 인간 알부민 mRNA를 표적화하는 안티센스 올리고뉴클레오타이드일 수 있거나, 상기 시약은 인간 알부민 단백질의 에피토프를 표적화하는 항원-결합 단백질일 수 있거나, 상기 시약은 인간 알부민을 표적화하는 저분자일 수 있다. 본원에 개시된 방법에서 인간-알부민-표적화 시약은 기지의 인간-알부민-표적화 시약일 수 있거나, 추정상(putative)-알부민-표적화 시약(예를 들어, 인간 알부민을 표적화하도록 설계된 후보 시약)일 수 있거나, 인간-알부민-표적화 활성에 대해 스크리닝되는 시약일 수 있다.

(1) 인간 알부민 유전자를 표적화하는 뉴클레아제 제제

인간-알부민-표적화 시약은 인간 알부민 유전자 내의 표적 서열을 절단하는 뉴클레아제 제제와 같은 게놈 편집 시약일 수 있다. 뉴클레아제 표적 서열은, 닉 또는 이중-가닥 절단부가 뉴클레아제 제제에 의해 유도되는 DNA 서열을 포함한다. 뉴클레아제 제제에 대한 표적 서열은 세포에 대해 내인성(또는 네이티브)일 수 있거나, 표적 서열은 세포에 대해 외인성일 수 있다. 세포에 대해 외인성인 표적 서열은 세포의 게놈에서 천연 발생하지 않는다. 표적 서열은 또한, 당업자가 표적 좌위에 위치되는 것을 요망하는 관심 폴리뉴클레오타이드에 대해 외인성일 수 있다. 일부 경우, 표적 서열은 숙주 세포의 게놈에서 단지 1회 존재한다. 특정 예에서, 뉴클레아제 표적 서열은 인간 알부민 유전자의 인트론 1, 인트론 12, 또는 인트론 13에 존재할 수 있다. 예를 들어, 뉴클레아제 표적 서열은 인간 알부민 유전자의 인트론 1에 존재할 수 있다.

표적 서열의 길이는 다양할 수 있으며, 예를 들어, 아연 핑거 뉴클레아제(ZFN) 쌍에 대해 약 30-36 bp(즉, 각각의 ZFN에 대해 약 15-18 bp), 전사 활성자-유사 이펙터 뉴클레아제(TALEN)에 대해 약 36 bp, 또는 CRISPR/Cas9 가이드 RNA에 대해 약 20 bp인 표적 서열을 포함한다.

요망되는 표적 서열에서 닉 또는 이중-가닥 절단부를 유도하는 임의의 뉴클레아제 제제는 본원에 개시된 방법 및 조성물에 사용될 수 있다. 천연 발생 또는 네이티브 뉴클레아제 제제는, 상기 뉴클레아제 제제가 요망되는 표적 서열에서 닉 또는 이중-가닥 절단부를 유도하는 한 이용될 수 있다. 대안적으로, 변형된 또는 조작된 뉴클레아제 제제가 이용될 수 있다. "조작된 뉴클레아제 제제"는, 요망되는 표적 서열에서 닉 또는 이중-가닥 절단부를 특이적으로 인식하고 유도하기 위해 이의 네이티브 형태로부터 조작되는(변형되는 또는 유래되는) 뉴클레아제를 포함한다. 그러므로, 조작된 뉴클레아제 제제는 네이티브, 천연 발생 뉴클레아제 제제로부터 유래될 수 있거나, 이는 인공적으로 생성되거나 합성될 수 있다. 조작된 뉴클레아제는 표적 서열에서 닉 또는 이중-가닥 절단부를 유도할 수 있으며, 예를 들어, 상기 표적 서열은 네이티브(비-조작된 또는 비-변형된) 뉴클레아제 제제에 의해 인식되었을 서열이 아니다. 뉴클레아제 제제의 변형은 단백질 절단 제제 내의 하나의 아미노산 또는 핵산 절단 제제 내의 하나의 뉴클레오타이드만큼 작을 수 있다. 표적 서열 또는 다른 DNA에서 닉 또는 이중-가닥 절단부를 생성하는 것은 본원에서 상기 표적 서열 또는 다른 DNA를 "자르는(cutting) 것" 또는 "절단하는(cleaving)" 것으로 지칭될 수 있다.

예시된 표적 서열의 활성 변이체 및 단편이 또한 제공된다. 이러한 활성 변이체는 주어진 표적 서열과 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있으며, 상기 활성 변이체는 생물학적 활성을 보유하므로, 뉴클레아제 제제에 의해 서열-특이적 방식으로 인식되고 절단될 수 있다. 뉴클레아제 제제에 의한 표적 서열의 이중-가닥 절단부를 측정하는 검정은 잘 알려져 있다. 예를 들어, 문헌[Frendewey 등 (2010) Methods in Enzymology 476:295-307]을 참조하며, 이의 전체내용은 모든 목적 참조로서 포함된다.

뉴클레아제 제제의 표적 서열은 알부민 좌위에서 또는 그 부근에서 임의의 곳에 놓일 수 있다. 표적 서열은 알부민 유전자의 코딩 영역 내에, 또는 유전자의 발현에 영향을 미치는 조절 영역 내에 위치할 수 있다. 뉴클레아제 제제의 표적 서열은 인트론, 엑손, 프로모터, 인핸서, 조절 영역, 또는 임의의 비-단백질 코딩 영역에 위치할 수 있다.

일 유형의 뉴클레아제 제제는 전사 활성자-유사 이펙터 뉴클레아제(TALEN)이다. TAL 이펙터 뉴클레아제는, 원핵 또는 진핵 유기체의 게놈 내 특정 표적 서열에서 이중-가닥 절단부를 만드는 데 사용될 수 있는 서열-특이적 뉴클레아제의 클래스이다. TAL 이펙터 뉴클레아제는 네이티브 또는 조작된 전사 활성자-유사(TAL) 이펙터, 또는 이의 기능적 파트를 뉴클레아제의 촉매적 도메인, 예컨대, 예를 들어, FokI에 융합함으로써 생성된다. 독특한 모듈형(modular) TAL 이펙터 DNA 결합 도메인은 잠재적으로 임의의 주어진 DNA 인식 특이성을 갖는 단백질의 설계를 가능하게 한다. 그러므로, TAL 이펙터 뉴클레아제의 DNA 결합 도메인은 특정 DNA 표적 부위를 인식하도록 조작되므로, 요망되는 표적 서열에서 이중-가닥 절단부를 만드는 데 사용될 수 있다. WO 2010/079430호; 문헌[Morbitzer 등 (2010) PNAS 10.1073/pnas.1013133107]; 문헌[Scholze & Boch (2010) Virulence 1:428-432]; 문헌[Christian 등 Genetics (2010) 186:757-761]; 문헌[Li 등 (2010) Nuc. Acids Res. (2010) doi:10.1093/nar/gkq704]; 및 문헌[Miller 등 (2011) Nature Biotechnology 29:143-148]을 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

적합한 TAL 뉴클레아제, 및 적합한 TAL 뉴클레아제의 제조 방법의 예는 예를 들어, US 2011/0239315 A1호, US 2011/0269234 A1호, US 2011/0145940 A1호, US 2003/0232410 A1호, US 2005/0208489 A1호, US 2005/0026157 A1호, US 2005/0064474 A1호, US 2006/0188987 A1호, 및 US 2006/0063231 A1호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 다양한 구현예에서, TAL 이펙터 뉴클레아제는 예를 들어, 관심 좌위 또는 관심 게놈 좌위 내 표적 핵산 서열에서 또는 그 부근에서 자르도록 조작되며, 상기 표적 핵산 서열은 표적화 벡터에 의해 변형될 서열에서 또는 그 부근에 존재한다. 본원에 제공된 다양한 방법 및 조성물로 사용되기에 적합한 TAL 뉴클레아제는, 표적 핵산 서열에서 또는 그 부근에 결합하여 본원에 기재된 바와 같은 벡터를 표적화함으로써 변형되도록 특이적으로 설계된 것을 포함한다.

일부 TALEN에서, TALEN의 각각의 단량체는, 2개의 초가변 잔기를 통해 단일 염기쌍을 인식하는 33 내지 35개의 TAL 반복부를 포함한다. 일부 TALEN에서, 뉴클레아제 제제는, 독립적 뉴클레아제, 예컨대 FokI 엔도뉴클레아제에 작동적으로 연결된 TAL-반복부-기초 DNA 결합 도메인을 포함하는 키메라 단백질이다. 예를 들어, 뉴클레아제 제제는 제1 TAL-반복부-기초 DNA 결합 도메인 및 제2 TAL-반복부-기초 DNA 결합 도메인을 포함할 수 있으며, 상기 제1 TAL-반복부-기초 DNA 결합 도메인 및 제2 TAL-반복부-기초 DNA 결합 도메인은 각각 FokI 뉴클레아제에 작동적으로 연결되고, 상기 제1 TAL-반복부-기초 DNA 결합 도메인 및 제2 TAL-반복부-기초 DNA 결합 도메인은 다양한 길이(12-20 bp)의 스페이서 서열에 의해 분리된 표적 DNA 서열의 각각의 가닥에서 2개의 인접한 표적 DNA 서열을 인식하며, FokI 뉴클레아제 하위단위(subunit)는 이량체화되어, 표적 서열에서 이중 가닥 절단부를 만드는 활성 뉴클레아제를 생성한다.

본원에 개시된 다양한 방법 및 조성물에 이용되는 뉴클레아제 제제는 아연-핑거 뉴클레아제(ZFN)를 추가로 포함할 수 있다. 일부 ZFN에서, ZFN의 각각의 단량체는 3개 이상의 아연 핑거-기초 DNA 결합 도메인을 포함하며, 각각의 아연 핑거-기초 DNA 결합 도메인은 3 bp 하위부위에 결합한다. 다른 ZFN에서, ZFN은, 독립적 뉴클레아제, 예컨대 FokI 엔도뉴클레아제에 작동적으로 연결된 아연 핑거-기초 DNA 결합 도메인을 포함하는 키메라 단백질이다. 예를 들어, 뉴클레아제 제제는 제1 ZFN 및 제2 ZFN을 포함할 수 있으며, 상기 제1 ZFN 및 제2 ZFN은 각각 FokI 뉴클레아제 하위단위에 작동적으로 연결되고, 상기 제1 ZFN 및 제2 ZFN은 약 5-7 bp 스페이서에 의해 분리된 표적 DNA 서열의 각각의 가닥에서 2개의 인접한 표적 DNA 서열을 인식하며, FokI 뉴클레아제 하위단위는 이량체화되어, 이중 가닥 절단부를 만드는 활성 뉴클레아제를 생성한다. 예를 들어, US20060246567호; US20080182332호; US20020081614호; US20030021776호; WO/2002/057308A2호; US20130123484호; US20100291048호; WO/2011/017293A2호; 및 문헌[Gaj 등 (2013) Trends Biotechnology, 31(7):397-405]를 참조하며, 이들 각각은 본원에 참조로서 포함된다.

또 다른 유형의 뉴클레아제 제제는 조작된 메가뉴클레아제이다. 메가뉴클레아제는 보존된 서열 모티프에 기초하여 4개의 패밀리로 분류되었으며, 상기 패밀리는 LAGLIDADG, GIY-YIG, H-N-H, 및 His-Cys 상자 패밀리이다. 이들 모티프는 금속 이온의 배위 및 포스포디에스테르 결합의 가수분해에 참여한다. 메가뉴클레아제는 이의 긴 표적 서열에 있어서, 그리고 이의 DNA 기질에서의 일부 서열 다형성을 관용시키는 데 있어서 주목할 만하다. 메가뉴클레아제 도메인, 구조 및 기능은 알려져 있으며, 예를 들어, 문헌[Guhan 및 Muniyappa (2003) Crit Rev Biochem Mol Biol 38:199-248]; 문헌[Lucas 등, (2001) Nucleic Acids Res 29:960-9]; 문헌[Jurica 및 Stoddard, (1999) Cell Mol Life Sci 55:1304-26]; 문헌[Stoddard, (2006) Q Rev Biophys 38:49-95]; 및 문헌[Moure 등, (2002) Nat Struct Biol 9:764]를 참조한다. 일부 예에서, 천연 발생 변이체 및/또는 조작된 유도체 메가뉴클레아제가 사용된다. 동역학(kinectics), 보조인자 상호작용, 발현, 최적의 조건, 및/또는 표적 서열 특이성을 변형시키고, 활성을 스크리닝하는 방법은 알려져 있다. 예를 들어, 문헌[Epinat 등, (2003) Nucleic Acids Res 31:2952-62]; 문헌[Chevalier 등, (2002) Mol Cell 10:895-905]; 문헌[Gimble 등, (2003) Mol Biol 334:993-1008]; 문헌[Seligman 등, (2002) Nucleic Acids Res 30:3870-9]; 문헌[Sussman 등, (2004) J Mol Biol 342:31-41]; 문헌[Rosen 등, (2006) Nucleic Acids Res 34:4791-800]; 문헌[Chames 등, (2005) Nucleic Acids Res 33:e178]; 문헌[Smith 등, (2006) Nucleic Acids Res 34:e149]; 문헌[Gruen 등, (2002) Nucleic Acids Res 30:e29]; 문헌[Chen 및 Zhao, (2005) Nucleic Acids Res 33:e154]; WO2005105989호; WO2003078619호; WO2006097854호; WO2006097853호; WO2006097784호; 및 WO2004031346호를 참조하며, 이들 각각의 전체내용은 본원에 참조로서 포함된다.

예를 들어, I-SceI, I-SceII, I-SceIII, I-SceIV, I-SceV, I-SceVI, I-SceVII, I-CeuI, I-CeuAIIP, I-CreI, I-CrepsbIP, I-CrepsbIIP, I-CrepsbIIIP, I-CrepsbIVP, I-TliI, I-PpoI, PI-PspI, F-SceI, F-SceII, F-SuvI, F-TevI, F-TevII, I-AmaI, I-AniI, I-ChuI, I-CmoeI, I-CpaI, I-CpaII, I-CsmI, I-CvuI, I-CvuAIP, I-DdiI, I-DdiII, I-DirI, I-DmoI, I-HmuI, I-HmuII, I-HsNIP, I-LlaI, I-MsoI, I-NaaI, I-NanI, I-NcIIP, I-NgrIP, I-NitI, I-NjaI, I-Nsp236IP, I-PakI, I-PboIP, I-PcuIP, I-PcuAI, I-PcuVI, I-PgrIP, I-PobIP, I-PorI, I-PorIIP, I-PbpIP, I-SpBetaIP, I-ScaI, I-SexIP, I-SneIP, I-SpomI, I-SpomCP, I-SpomIP, I-SpomIIP, I-SquIP, I-Ssp6803I, I-SthPhiJP, I-SthPhiST3P, I-SthPhiSTe3bP, I-TdeIP, I-TevI, I-TevII, I-TevIII, I-UarAP, I-UarHGPAIP, I-UarHGPA13P, I-VinIP, I-ZbiIP, PI-MtuI, PI-MtuHIP PI-MtuHIIP, PI-PfuI, PI-PfuII, PI-PkoI, PI-PkoII, PI-Rma43812IP, PI-SpBetaIP, PI-SceI, PI-TfuI, PI-TfuII, PI-ThyI, PI-TliI, PI-TliII, 또는 이들의 임의의 활성 변이체 또는 단편을 포함하여 임의의 메가뉴클레아제가 사용될 수 있다.

메가뉴클레아제는 예를 들어, 12 내지 40개 염기쌍의 이중-가닥 DNA 서열을 인식할 수 있다. 일부 경우, 메가뉴클레아제는 게놈 내의 하나의 완벽하게 매칭되는 표적 서열을 인식한다.

일부 메가뉴클레아제는 호밍(homing) 뉴클레아제이다. 일 유형의 호밍 뉴클레아제는 예를 들어, I-SceI, I-CreI, 및 I-Dmol을 포함하여 호밍 뉴클레아제의 LAGLIDADG 패밀리이다.

뉴클레아제 제제는 하기에 더욱 상세히 기재된 바와 같은 CRISPR/Cas 시스템을 추가로 포함할 수 있다.

뉴클레아제 제제(즉, 조작된 뉴클레아제 제제)의 활성 변이체 및 단편이 또한 제공된다. 이러한 활성 변이체는 네이티브 뉴클레아제 제제와 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있으며, 상기 활성 변이체는 요망되는 표적 서열에서 자르는 능력을 보유하므로, 닉 또는 이중-가닥-절단부-유도 활성을 보유한다. 예를 들어, 본원에 기재된 임의의 뉴클레아제 제제는 네이티브 엔도뉴클레아제 서열로부터 변형되고, 네이티브 뉴클레아제 제제에 의해 인식되지 않은 표적 서열에서 닉 또는 이중-가닥 절단부를 인식하고 유도하도록 설계될 수 있다. 그러므로, 일부 조작된 뉴클레아제는, 상응하는 네이티브 뉴클레아제 제제 표적 서열과 상이한 표적 서열에서 닉 또는 이중-가닥 절단부를 유도하는 특이성을 갖는다. 닉 또는 이중-가닥-절단부-유도 활성에 대한 검정은 알려져 있고, 일반적으로 표적 서열을 함유하는 DNA 기질 상에서의 엔도뉴클레아제의 전체 활성 및 특이성을 측정한다.

뉴클레아제 제제는 세포 또는 비-인간 동물 내로 임의의 기지의 수단에 의해 도입될 수 있다. 뉴클레아제 제제를 인코딩하는 폴리펩타이드는 세포 또는 비-인간 동물 내로 직접적으로 도입될 수 있다. 대안적으로, 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 세포 또는 비-인간 동물 내로 도입될 수 있다. 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드가 도입될 때, 상기 뉴클레아제 제제는 세포 내에서 일시적으로, 조건적으로, 또는 구성적으로 발현될 수 있다. 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 발현 카세트에 함유될 수 있고, 조건적 프로모터, 유도적 프로모터, 구성적 프로모터, 또는 조직-특이적 프로모터에 작동적으로 연결될 수 있다. 프로모터의 예는 본원 어디에서나 더 상세히 논의된다. 대안적으로, 뉴클레아제 제제는, 뉴클레아제 제제를 인코딩하는 mRNA로서 세포 내로 도입될 수 있다.

뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 세포의 게놈에서 안정하게 통합되고 상기 세포에서 활성인 프로모터에 작동적으로 연결될 수 있다. 대안적으로, 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 표적화 벡터에 존재할 수 있다.

뉴클레아제 제제가 상기 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드의 도입을 통해 세포에 제공될 때, 이러한 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 상기 뉴클레아제 제제를 인코딩하는 천연 발생 폴리뉴클레오타이드 서열과 비교하여, 관심 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하도록 변형될 수 있다. 예를 들어, 뉴클레아제 제제를 인코딩하는 폴리뉴클레오타이드는 천연 발생 폴리뉴클레오타이드 서열과 비교하여, 인간 세포, 비-인간 세포, 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 또는 임의의 다른 관심 숙주 세포를 포함하여 주어진 관심 진핵 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하도록 변형될 수 있다.

(2) 인간 알부민 유전자를 표적화하는 CRISPR/Cas 시스템

특정 유형의 인간-알부민-표적화 시약은, 인간 알부민 유전자를 표적화하는 일정한 간격을 두고 주기적으로 분포하는 짧은 회문 반복부(CRISPR: Clustered Regularly Interspersed Short Palindromic Repeats)/CRISPR-관련(Cas) 시스템일 수 있다. CRISPR/Cas 시스템은 Cas 유전자의 발현에 관여하거나 이의 활성을 지시하는(directing) 전사물 및 다른 요소를 포함한다. CRISPR/Cas 시스템은 예를 들어, 유형 I, 유형 II, 유형 III 시스템, 또는 유형 V 시스템(예를 들어, 서브유형 V-A 또는 서브유형 V-B)일 수 있다. 본원에 개시된 조성물 및 방법에 사용되는 CRISPR/Cas 시스템은 비-천연 발생일 수 있다. "비-천연적으로 발생하는" 시스템은 인위적인 관여를 나타내는 임의의 것, 예컨대 이의 천연적으로 발생하는 상태로부터 변경되거나 돌연변이화되거나, 이것이 자연상에서 천연적으로 관련된 적어도 하나의 다른 성분이 적어도 실질적으로 없거나, 이것이 천연적으로 관련이 있지 않는 적어도 하나의 다른 성분과 관련이 있는 시스템의 하나 이상의 성분을 포함한다. 예를 들어, 일부 CRISPR/Cas 시스템은, 천연적으로 함께 발생하지 않는 gRNA 및 Cas 단백질을 포함하는 비-천연 발생 CRISPR 복합체를 이용하거나, 천연적으로 발생하지 않는 Cas 단백질을 이용하거나, 천연적으로 발생하지 않는 gRNA를 이용하지 않는다.

Cas 단백질, 및 Cas 단백질을 인코딩하는 폴리뉴클레오타이드. Cas 단백질은 일반적으로, 가이드 RNA(gRNA)와 상호작용할 수 있는 적어도 하나의 RNA 인식 또는 결합 도메인을 포함한다. Cas 단백질은 또한, 뉴클레아제 도메인(예를 들어, DNase 도메인 또는 RNase 도메인), DNA-결합 도메인, 헬리카제 도메인, 단백질-단백질 상호작용 도메인, 이량체화 도메인, 및 다른 도메인을 포함할 수 있다. 일부 이러한 도메인(예를 들어, DNase 도메인)은 네이티브(native) Cas 단백질로부터의 것일 수 있다. 다른 이러한 도메인이 첨가되어, 변형된 Cas 단백질을 만들 수 있다. 뉴클레아제 도메인은 핵산 절단에 대해 촉매 활성을 소유하며, 이는 핵산 분자의 공유 결합의 절단을 포함한다. 절단은 평활 단부(blund end) 또는 엇갈린 단부(staggered end)를 생성할 수 있으며, 이는 단일-가닥 또는 이중-가닥일 수 있다. 예를 들어, 야생형 Cas9 단백질은 전형적으로, 평활 절단 생성물을 생성할 것이다. 대안적으로, 야생형 Cpf1 단백질(예를 들어, FnCpf1)은 5-뉴클레오타이드 5' 오버행을 갖는 절단 생성물을 초래할 수 있으며, 상기 절단은 비-표적화된 가닥 상의 PAM 서열로부터 18번째 염기쌍 다음에, 그리고 표적화된 가닥 상의 23번째 염기 다음에 발생한다. Cas 단백질은 표적 게놈 좌위에서 이중-가닥 절단부(예를 들어, 평활 단부를 갖는 이중-가닥 절단부)를 생성하기 위해 완전 절단 활성을 가질 수 있거나, Cas 단백질은 표적 게놈 좌위에서 단일-가닥 절단부를 생성하는 닉카제일 수 있다.

Cas 단백질의 예는 Cas1, Cas1B, Cas2, Cas3, Cas4, Cas5, Cas5e(CasD), Cas6, Cas6e, Cas6f, Cas7, Cas8a1, Cas8a2, Cas8b, Cas8c, Cas9(Csn1 또는 Csx12), Cas10, Cas10d, CasF, CasG, CasH, Csy1, Csy2, Csy3, Cse1(CasA), Cse2(CasB), Cse3(CasE), Cse4(CasC), Csc1, Csc2, Csa5, Csn2, Csm2, Csm3, Csm4, Csm5, Csm6, Cmr1, Cmr3, Cmr4, Cmr5, Cmr6, Csb1, Csb2, Csb3, Csx17, Csx14, Csx10, Csx16, CsaX, Csx3, Csx1, Csx15, Csf1, Csf2, Csf3, Csf4, 및 Cu1966, 및 이의 상동체 또는 변형된 버전을 포함한다.

예시적인 Cas 단백질은 Cas9 단백질, 또는 Cas9 단백질로부터 유래된 단백질이다. Cas9 단백질은 II형 CRISPR/Cas 시스템으로부터 것이며, 전형적으로 보존된 구조를 갖는 4개의 주요 모티프를 공유한다. 모티프 1, 2, 및 4는 RuvC-유사 모티프이고, 모티프 3은 HNH 모티프이다. 예시적인 Cas9 단백질은 스트렙토콕커스 피오게네스(Streptococcus pyogenes), 스트렙토콕커스 써모필루스(Streptococcus thermophilus), 스트렙토콕커스 종(Streptococcus sp.), 스타필로콕커스 아우레우스(Staphylococcus aureus), 노카르디옵시스 다쏜빌레이(Nocardiopsis dassonvillei), 스트렙토마이세스 프리스티내스피랄리스(Streptomyces pristinaespiralis), 스트렙토마이세스 비리도크로모게네스(Streptomyces viridochromogenes), 스트렙토마이세스 비리도크로모게네스, 스트렙토스포란기움 로세움(Streptosporangium roseum), 스트렙토스포란기움 로세움, 알리사이클로바실루스 악시도칼다리우스(Alicyclobacillus acidocaldarius), 바실루스 슈도마이코이데스(Bacillus pseudomycoides), 바실루스 셀레니티레두센스(Bacillus selenitireducens), 엑시구오박테리움 시비리쿰(Exiguobacterium sibiricum), 락토바실루스 델브루엑키이(Lactobacillus delbrueckii), 락토바실루스 살리바리우스(Lactobacillus salivarius), 미크로스실라 마리나(Microscilla marina), 부르콜데리알레스 박테리움(Burkholderiales bacterium), 폴라로모나스 나프탈레니보란스(Polaromonas naphthalenivorans), 폴라로모나스 종(Polaromonas sp.), 크로코스패라 와트소니이(Crocosphaera watsonii), 시아노테세 종(Cyanothece sp.), 미크로사이스티스 애루기노사(Microcystis aeruginosa), 사이네코콕커스 종(Synechococcus sp.), 아세토할로비움 아라바티쿰(Acetohalobium arabaticum), 암모니펙스 데겐시이(Ammonifex degensii), 칼디셀룰로시룹토르 벡스치이(Caldicelulosiruptor becscii), 칸디다투스 데술포루디스(Candidatus Desulforudis), 클로스트리디움 보툴리눔(Clostridium botulinum), 클로스트리디움 디피실레(Clostridium difficile), 피네골디아 마그나(Finegoldia magna), 나트라내로비우스 써모필루스(Natranaerobius thermophilus), 펠로토마쿨룸 써모프로피오니쿰(Pelotomaculum thermopropionicum), 악시디티오바실루스 칼두스(Acidithiobacillus caldus), 악시디티오바실루스 페로옥시단스(Acidithiobacillus ferrooxidans), 알로크로마티움 비노숨(Allochromatium vinosum), 마리노박터 종(Marinobacter sp.), 니트로소콕커스 할로필루스(Nitrosococcus halophilus), 니트로소콕커스 와트소니(Nitrosococcus watsoni), 슈도알테로모나스 할로플란크티스(Pseudoalteromonas haloplanktis), 크테도노박터 라세미페르(Ktedonobacter racemifer), 메타노할로비움 에베스티가툼(Methanohalobium evestigatum), 아나배나 바리아빌리스(Anabaena variabilis), 노둘라리아 스푸미게나(Nodularia spumigena), 노스톡 종(Nostoc sp.), 아르쓰로스피라 막시마(Arthrospira maxima), 아르쓰로스피라 플라텐시스(Arthrospira platensis), 아르쓰로스피라 종(Arthrospira sp.), 라인그바이아 종(Lyngbya sp.), 미크로콜레우스 크쏘노플라스테스(Microcoleus chthonoplastes), 오스칠라토리아 종(Oscillatoria sp.), 페트로토가 모빌리스(Petrotoga mobilis), 써모시포 아프리카누스(Thermosipho africanus), 아카라이오클로리스 마리나(Acaryochloris marina), 네이쎄리아 메닌지티디스(Neisseria meningitidis), 또는 캄필로박터 예유니(Campylobacter jejuni)로부터의 것이다. Cas9 패밀리 구성원의 추가 예는 국제공개 WO 2014/131833에 기재되어 있으며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 에스. 피오게네스(S. pyogenes)로부터의 Cas9(SpCas9)(지정된 SwissProt 수탁 번호 Q99ZW2)는 예시적인 Cas9 단백질이다. 에스. 아우레우스(S. aureus)로부터의 Cas9(SaCas9)(지정된 UniProt 수탁 번호 J7RUA5)는 또 다른 예시적인 Cas9 단백질이다. 캄필로박터 예유니로부터의 Cas9(CjCas9)(지정된 UniProt 수탁 번호 Q0P897)는 또 다른 예시적인 Cas9 단백질이다. 예를 들어, 문헌[Kim 등 (2017) Nat. Comm. 8:14500]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. SaCas9는 SpCas9보다 더 작고, CjCas9는 SaCas9와 SpCas9 둘 다보다 작다. 예시적인 Cas9 단백질 서열은 SEQ ID NO: 38을 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다. Cas9 단백질을 인코딩하는 예시적인 DNA는 SEQ ID NO: 39를 포함하거나, 이로 본질적으로 구성되거나, 이로 구성될 수 있다.

Cas 단백질의 또 다른 예는 Cpf1(프레보텔라 및 프란치셀라 1로부터의 CRISPR) 단백질이다. Cpf1은, Cas9의 특징적인 아르기닌-풍부 군집(cluster)에 대한 대응물(counterpart)과 함께 Cas9의 상응하는 도메인에 상동성인 RuvC-유사 뉴클레아제 도메인을 함유하는 큰 단백질(약 1300개 아미노산)이다. 그러나, Cpf1은, Cas9 단백질에 존재하는 HNH 뉴클레아제 도메인이 결여되어 있고, RuvC-유사 도메인은, HNH 도메인을 포함하는 긴 삽입물(insert)을 함유하는 Cas9와 대조적으로 Cpf1 서열에서 인접해 있다. 예를 들어, 문헌[Zetsche 등 (2015) Cell 163(3):759-771]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 예시적인 Cpf1 단백질은 프란치셀라 툴라렌시스(Francisella tularensis) 1, 프란치셀라 툴라렌시스 아종 보디치다(Francisella tularensis subsp. novicida), 프레보텔라 알벤시스(Prevotella albensis), 라흐노스피라세애 박테리움(라흐노스피라세애 박테리움(lachnospiraceae bacterium)) MC2017 1, 부타이리비브리오 프로테오클라스티쿠스(Butyrivibrio proteoclasticus), 페레그리니박테리아 박테리움(Peregrinibacteria bacterium) GW2011_GWA2_33_10, 파르쿠박테리아 박테리움(Parcubacteria bacterium) GW2011_GWC2_44_17, 스미쎌라 종(Smithella sp.) SCADC, 악시다미노콕커스 종(Acidaminococcus sp.) BV3L6, 라흐노스피라세애 박테리움(라흐노스피라세애 박테리움(lachnospiraceae bacterium)) MA2020, 칸디다투스 메타노플라스마 테르미툼(Candidatus Methanoplasma termitum), 유박테리움 엘리겐스(Eubacterium eligens), 모락셀라 보보쿨리(Moraxella bovoculi) 237, 렙토스피라 이나다이(Leptospira inadai), 라흐노스피라세애 박테리움(Lachnospiraceae bacterium) ND2006, 포르파이로모나스 크레비오리카니스(Porphyromonas crevioricanis) 3, 프레보텔라 디시엔스(Prevotella disiens), 및 포르파이로모나스 마카캐(porphyromonas macacae)로부터의 것이다. 프란치셀라 보디치다 U112로부터의 Cpf1(FnCpf1; UniProt 수탁 번호 A0Q7Q2로 지정됨)은 예시적인 Cpf1 단백질이다.

Cas 단백질은 야생형 단백질(즉, 자연에서 발생하는 것), 변형된 Cas 단백질(즉, Cas 단백질 변이체), 또는 야생형 또는 변형된 Cas 단백질의 단편일 수 있다. Cas 단백질은 또한, 야생형 또는 변형된 Cas 단백질의 촉매적 활성에 관하여 활성(active) 변이체 또는 단편일 수 있다. 촉매적 활성에 관하여 활성 변이체 또는 단편은 야생형 또는 변형된 Cas 단백질 또는 이의 부분과 적어도 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있으며, 상기 활성 변이체는 요망되는 절단 부위에서 절단하는 능력을 보유하므로, 닉-유도 또는 이중-가닥-절단부-유도 활성을 보유한다. 닉-유도 또는 이중-가닥-절단부-유도 활성에 대한 검정은 알려져 있고, 일반적으로 절단 부위를 함유하는 DNA 기질 상에서의 Cas 단백질의 전체 활성 및 특이성을 측정한다.

Cas 단백질은 핵산 결합 친화도, 핵산 결합 특이성, 및 효소적 활성 중 하나 이상을 증가시키거나 저하시키도록 변형될 수 있다. Cas 단백질은 또한, 단백질의 임의의 다른 활성 또는 특성, 예컨대 안정성을 변화시키도록 변형될 수 있다. 예를 들어, Cas 단백질의 하나 이상의 뉴클레아제 도메인은 변형, 결실 또는 비활성화될 수 있거나, Cas 단백질은 단백질의 기능에 본질적이지 않은 도메인을 제거하기 위해 또는 Cas 단백질의 활성 또는 특성을 최적화하기 위해(예를 들어, 증강시키거나 감소시키기 위해) 절단될 수 있다.

변형된 Cas 단백질의 일례는 변형된 SpCas9-HF1 단백질이며, 이는 비-특이적 DNA 접촉을 감소시키도록 설계된 변경을 보유하는 스트렙토콕커스 피오게네스 Cas9의 고-충실도(high-fidelity) 변이체이다(N497A/R661A/Q695A/Q926A). 예를 들어, 문헌[Kleinstiver 등 (2016) Nature 529(7587):490-495]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 변형된 Cas 단백질의 또 다른 예는 표적-외(off-target) 효과를 감소시키도록 설계된 변형된 eSpCas9 변이체(K848A/K1003A/R1060A)이다. 예를 들어, 문헌[Slaymaker 등 (2016) Science 351(6268):84-88]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 다른 SpCas9 변이체는 K855A 및 K810A/K1003A/R1060A를 포함한다.

Cas 단백질은 적어도 하나의 뉴클레아제 도메인, 예컨대 DNase 도메인을 포함할 수 있다. 예를 들어, 야생형 Cpf1 단백질은 일반적으로, 아마도 이량체 입체배치(configuration)에서 표적 DNA의 양쪽 가닥을 절단하는 RuvC-유사 도메인을 포함한다. Cas 단백질은 또한 적어도 2개의 뉴클레아제 도메인, 예컨대 DNase 도메인을 포함할 수 있다. 예를 들어, 야생형 Cas9 단백질은 일반적으로 RuvC-유사 뉴클레아제 도메인 및 HNH-유사 뉴클레아제 도메인을 포함한다. RuvC 도메인 및 HNH 도메인은 각각 이중-가닥 DNA의 상이한 가닥을 절단하여, DNA에서 이중-가닥 절단부를 만들 수 있다. 예를 들어, 문헌[Jinek 등 (2012) Science 337:816-821]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

뉴클레아제 도메인 중 하나 이상 또는 모두는 결실되거나 돌연변이화될 수 있어서, 이들은 더 이상 기능적이지 않거나 감소된 뉴클레아제 활성을 갖는다. 예를 들어, 뉴클레아제 도메인 중 하나가 Cas9 단백질에서 결실되거나 돌연변이화된다면, 생성된 Cas9 단백질은 닉카제로 지칭될 수 있고, 이중-가닥 절단부가 아니라 이중-가닥 표적 DNA 내에서 단일-가닥 절단부를 발생시킬 수 있다(즉, 이는 상보적 가닥과 비-상보적 가닥 둘 다가 아니라 둘 중 하나를 절단할 수 있음). 뉴클레아제 도메인 둘 다 결실되거나 돌연변이화된다면, 생성된 Cas 단백질(예를 들어, Cas9)은 이중-가닥 DNA(예를 들어, 뉴클레아제-무효(null) 또는 뉴클레아제-불활성 Cas 단백질, 또는 촉매적으로 사멸된(dead) Cas 단백질(dCas))의 양쪽 가닥을 절단하는 감소된 능력을 가질 것이다. Cas9를 닉카제로 전환시키는 돌연변이의 일례는 에스. 피오게네스로부터의 Cas9의 RuvC 도메인 내의 D10A(Cas9의 위치 10에서 아스파르테이트로부터 알라닌으로의) 돌연변이이다. 마찬가지로, 에스. 피오게네스로부터의 Cas9의 HNH 도메인 내 H939A(아미노산 위치 839에서 히스티딘으로부터 알라닌으로), H840A(아미노산 위치 840에서 히스티딘으로부터 알라닌으로), 또는 N863A(아미노산 위치 N863에서 아스파라긴으로부터 알라닌으로)는 Cas9를 닉카제로 전환시킬 수 있다. Cas9를 닉카제로 전환시키는 돌연변이의 다른 예는 에스. 써모필루스(S. thermophilus)로부터의 Cas9에 대한 상응하는 돌연변이를 포함한다. 예를 들어, 문헌[Sapranauskas 등 (2011) Nucleic Acids Research 39:9275-9282] 및 국제공개 WO 2013/141680호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 이러한 돌연변이는 부위-안내(directed) 돌연변이유발(mutagenesis), PCR-매개 돌연변이유발, 또는 전체 유전자 합성과 같은 방법을 사용하여 발생될 수 있다. 닉카제를 생성하는 다른 돌연변이의 예는 예를 들어, 국제공개 WO 2013/176772호 및 WO 2013/142578호에서 찾을 수 있으며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 모든 뉴클레아제가 Cas 단백질에서 결실되거나 돌연변이화된다면(예를 들어, 뉴클레아제 도메인 Cas9 단백질에서 둘 다 결실되거나 돌연변이화된다면), 생성된 Cas 단백질(예를 들어, Cas9)은 이중-가닥 DNA(예를 들어, 뉴클레아제-무효 또는 뉴클레아제-불활성 Cas 단백질)의 양쪽 가닥을 절단하는 감소된 능력을 가질 것이다. 하나의 구체적인 예는 D10A/H840A 에스. 피오게네스 Cas9 이중 돌연변이체 또는 에스. 피오게네스 Cas9와 최적으로 정렬될 때 또 다른 종으로부터의 Cas9 내의 상응하는 이중 돌연변이체이다. 또 다른 구체적인 예는 D10A/N863A 에스. 피오게네스 Cas9 이중 돌연변이체 또는 에스. 피오게네스 Cas9와 최적으로 정렬될 때 또 다른 종으로부터의 Cas9 내의 상응하는 이중 돌연변이체이다.

스타필로콕커스 아우레우스 Cas9 단백질의 촉매적 도메인에서의 비활성화 돌연변이의 예가 또한 알려져 있다. 예를 들어, 스타필로콕커스 아우레우스 Cas9 효소(SaCas9)는 위치 N580에서 치환(예를 들어, N580A 치환) 및 위치 D10에서 치환(예를 들어, D10A 치환)을 포함하여, 뉴클레아제-불활성 Cas 단백질을 발생시킬 수 있다. 예를 들어, 국제공개 WO 2016/106236호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

Cpf1 단백질의 촉매적 도메인에서의 비활성화 돌연변이의 예가 또한 알려져 있다. 프란치셀라 보디치다 U112(FnCpf1), 악시다미노콕커스 종 BV3L6(AsCpf1), 라흐노스피라세애 박테리움 ND2006(LbCpf1), 및 모락셀라 보보쿨리 237(MbCpf1 Cpf1)로부터의 Cpf1 단백질에 관하여, 이러한 돌연변이는 AsCpf1의 위치 908, 993, 또는 1263 또는 Cpf1 이종상동체 내 상응하는 위치, 또는 LbCpf1의 위치 832, 925, 947, 또는 1180 또는 Cpf1 이종상동체 내 상응하는 위치에서 돌연변이를 포함할 수 있다. 이러한 돌연변이는 예를 들어, AsCpf1의 돌연변이 D908A, E993A, 및 D1263A 또는 Cpf1 이종상동체 내 상응하는 돌연변이, 또는 LbCpf1의 D832A, E925A, D947A, 및 D1180A 또는 Cpf1 이종상동체 내 상응하는 돌연변이 중 하나 이상을 포함할 수 있다. 예를 들어, 미국 특허출원공개 US 2016/0208243을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

Cas 단백질(예를 들어, 뉴클레아제-활성 Cas 단백질 또는 뉴클레아제-불활성 Cas 단백질)은 또한, 이종성 폴리펩타이드에 융합 단백질로서 작동적으로 연결될 수 있다. 예를 들어, Cas 단백질은 절단 도메인 또는 유전외적 변형 도메인에 융합될 수 있다. 국제공개 WO 2014/089290을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. Cas 단백질은 이종성 폴리펩타이드에 융합되어, 증가된 또는 저하된 안정성을 제공할 수 있다. 융합된 도메인 또는 이종성 폴리펩타이드는 Cas 단백질 내의 N-말단, C-말단, 또는 내부적으로 위치할 수 있다.

일례로서, Cas 단백질은 세포내 국재화(subcellular localization)를 제공하는 하나 이상의 이종성 폴리펩타이드에 융합될 수 있다. 이러한 이종성 폴리펩타이드는 예를 들어, 핵으로의 표적화를 위한 하나 이상의 핵 국재화 신호(NLS), 예컨대 단립(monopartite) SV40 NLS 및/또는 이분(bipartite) 알파-임포틴(importin) NLS, 미토콘드리아로의 표적화를 위한 미토콘드리아 국재화 신호, ER 체류 신호 등을 포함할 수 있다. 예를 들어, 문헌[Lange 등 (2007) J. Biol. Chem. 282:5101-5105]를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 이러한 세포 내 국재화 신호는 Cas 단백질 내의 N-말단, C-말단, 또는 어디에서나 위치할 수 있다. NLS는 염기성 아미노산의 스트레치를 포함할 수 있고, 단립 서열 또는 이분 서열일 수 있다. 선택적으로, Cas 단백질은 N-말단에서의 NLS(예를 들어, 알파-임포틴 NLS 또는 단립 NLS) 및 C-말단에서의 NLS(예를 들어, SV40 NLS 또는 이분 NLS)를 포함하여 2개 이상의 NLS를 포함할 수 있다. Cas 단백질은 또한, N-말단에 2개 이상의 NLS 및/또는 C-말단에 2개 이상의 NLS를 포함할 수 있다.

Cas 단백질은 또한, 세포-투과 도메인 또는 단백질 형질도입 도메인에 작동적으로 연결될 수 있다. 예를 들어, 세포-투과 도메인은 HIV-1 TAT 단백질, 인간 B형 간염 바이러스로부터의 TLM 세포-투과 모티프, MPG, Pep-1, VP22, 단순 포진 바이러스로부터의 세포 투과 펩타이드, 또는 폴리아르기닌 펩타이드 신호로부터 유래될 수 있다. 예를 들어, 국제공개 WO 2014/089290호 및 WO 2013/176772호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 세포-투과 도메인은 Cas 단백질 내의 N-말단, C-말단, 또는 어디에서나 위치할 수 있다.

Cas 단백질은 또한, 추적(tracking) 또는 정제의 용이성을 위해 이종성 폴리펩타이드, 예컨대 형광 단백질, 정제 태그, 또는 에피토프 태그에 작동적으로 연결될 수 있다. 형광 단백질의 예는 녹색 형광 단백질(예를 들어, GFP, GFP-2, tagGFP, turboGFP, eGFP, 에메랄드, 아자미 그린, 단량체성 아자미 그린, CopGFP, AceGFP, ZsGreenl), 황색 형광 단백질(예를 들어, YFP, eYFP, 시트린, 비너스, YPet, PhiYFP, ZsYellowl), 청색 형광 단백질(예를 들어, eBFP, eBFP2, 아주라이트, mKalamal, GFPuv, 사파이어, T-사파이어), 시안색 형광 단백질(예를 들어, eCFP, 세룰린, CyPet, AmCyanl, 미도리이시-시안색), 적색 형광 단백질(예를 들어, mKate, mKate2, mPlum, DsRed 단량체, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-단량체, HcRed-탠덤, HcRedl, AsRed2, eqFP611, mRaspberry, mStrawberry, Jred), 주황색 형광 단백질(예를 들어, mOrange, mKO, 쿠사비라-오렌지, 단량체성 쿠사비라-오렌지, mTangerine, tdTomato), 및 임의의 다른 적합한 형광 단백질을 포함한다. 태그의 예는 글루타티온-S-트랜스퍼라제(GST), 키틴 결합 단백질(CBP), 말토스 결합 단백질, 티오레독신(TRX), 폴리(NANP), 탠덤 친화도 정제(TAP: tandem affinity purification) 태그, myc, AcV5, AU1, AU5, E, ECS, E2, FLAG, 헤마글루티닌(HA), nus, Softag 1, Softag 3, Strep, SBP, Glu-Glu, HSV, KT3, S, S1, T7, V5, VSV-G, 히스티딘(His), 비오틴 카르복실 담체 단백질(BCCP), 및 칼모듈린(calmodulin)을 포함한다.

Cas 단백질은 또한, 외인성 공여자 핵산 또는 표지된 핵산에 테터링(tether)될 수 있다. 이러한 테터링(즉, 물리적 연결)은 공유 상호작용 또는 비공유 상호작용을 통해 달성될 수 있으며, 테터링은 직접적일 수 있거나(예를 들어, 단백질 상의 시스테인 또는 라이신 잔기의 변형 또는 인테인(intein) 변형에 의해 달성될 수 있는 직접적 융합 또는 화학적 접합을 통해), 하나 이상의 개입 링커 또는 어댑터 분자, 예컨대 스트렙타비딘 또는 앱타머를 통해 달성될 수 있다. 예를 들어, 문헌[Pierce 등 (2005) Mini Rev. Med. Chem. 5(1):41-55]; 문헌[Duckworth 등 (2007) Angew. Chem. Int. Ed. Engl. 46(46):8819-8822]; 문헌[Schaeffer 및 Dixon (2009) Australian J. Chem. 62(10):1328-1332]; 문헌[Goodman 등 (2009) Chembiochem. 10(9):1551-1557]; 및 문헌[Khatwani 등 (2012) Bioorg. Med. Chem. 20(14):4532-4539]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 참조에 의해 본원에 포함된다. 단백질-핵산 접합체를 합성하기 위한 비공유 전략은 비오틴-스트렙타비딘 및 니켈-히스티딘 방법을 포함한다. 공유 단백질-핵산 접합체는, 적절하게 작용화된 핵산 및 단백질을 광범위하게 다양한 화학을 사용하여 연결함으로써 합성될 수 있다. 이들 화학 중 일부는 단백질 표면 상의 아미노산 잔기(예를 들어, 라이신 아민 또는 시스테인 티올)에의 올리고뉴클레오타이드의 직접적 부착을 수반하는 한편, 다른 더욱 복잡한 계획은 단백질의 번역-후 변형 또는 촉매적 또는 반응성 단백질 도메인의 수반을 필요로 한다. 핵산에의 단백질의 공유 부착 방법은 예를 들어, 단백질 라이신 또는 시스테인 잔기에의 올리고뉴클레오타이드의 화학적 가교, 발현된 단백질-리게이션, 화학효소적 방법, 및 포토앱타머(photoaptamer)의 사용을 포함할 수 있다. 외인성 공여자 핵산 또는 표지된 핵산은 Cas 단백질 내의 C-말단, N-말단에, 또는 내부 영역에 테터링될 수 있다. 일례에서, 외인성 공여자 핵산 또는 표지된 핵산은 Cas 단백질의 C-말단 또는 N-말단에 테터링된다. 마찬가지로, Cas 단백질은 외인성 공여자 핵산 또는 표지된 핵산 내의 5' 단부, 3' 단부에, 또는 내부 영역에 테터링될 수 있다. 다시 말해, 외인성 공여자 핵산 또는 표지된 핵산은 임의의 배향 및 극성으로 테터링될 수 있다. 예를 들어, Cas 단백질은 외인성 공여자 핵산 또는 표지된 핵산 내의 5' 단부 또는 3' 단부에 테터링될 수 있다.

Cas 단백질은 임의의 형태로 제공될 수 있다. 예를 들어, Cas 단백질은 단백질, 예컨대 gRNA와 복합체화된 Cas 단백질의 형태로 제공될 수 있다. 대안적으로, Cas 단백질은 Cas 단백질을 인코딩하는 핵산, 예컨대 RNA(예를 들어, 메신저 RNA(mRNA)) 또는 DNA의 형태로 제공될 수 있다. 선택적으로, Cas 단백질을 인코딩하는 핵산은 특정 세포 또는 유기체에서 단백질로의 효율적인 번역을 위해 코돈 최적화될 수 있다. 예를 들어, Cas 단백질을 인코딩하는 핵산은 천연 발생 폴리뉴클레오타이드 서열과 비교하여, 박테리아 세포, 효모 세포, 인간 세포, 비-인간 세포, 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 또는 임의의 다른 관심 숙주 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하도록 변형될 수 있다. Cas 단백질을 인코딩하는 핵산이 세포 내로 도입될 때, 상기 Cas 단백질은 세포에서 일시적으로, 조건적으로, 또는 구성적으로 발현될 수 있다.

mRNA로서 제공된 Cas 단백질은 향상된 안정성 및/또는 면역원성 특성을 위해 변형될 수 있다. 변형은 mRNA 내의 하나 이상의 뉴클레오사이드에 이루어질 수 있다. mRNA 핵염기(nucleobase)에 대한 화학적 변형의 예는 슈도우리딘, 1-메틸-슈도우리딘, 및 5-메틸-시티딘을 포함한다. 예를 들어, N1-메틸 슈도우리딘을 함유하는 캡핑(capped)되고 폴리아데닐화된 Cas mRNA가 사용될 수 있다. 마찬가지로, Cas mRNA는 동의 코돈을 사용한 우리딘의 결핍에 의해 변형될 수 있다.

Cas 단백질을 인코딩하는 핵산은 세포의 게놈에 안정하게 통합되고 상기 세포에서 활성인 프로모터에 작동적으로 연결될 수 있다. 대안적으로, Cas 단백질을 인코딩하는 핵산은 발현 작제물에서 프로모터에 작동적으로 연결될 수 있다. 발현 작제물은 관심 유전자 또는 다른 핵산 서열(예를 들어, Cas 유전자)의 발현을 지시할 수 있는 임의의 핵산 작제물을 포함하고, 이는 이러한 관심 핵산 서열을 표적 세포로 이전시킬 수 있다. 예를 들어, Cas 단백질을 인코딩하는 핵산은 핵산 삽입물을 포함하는 표적화 벡터 및/또는 gRNA를 인코딩하는 DNA를 포함하는 벡터에 존재할 수 있다. 대안적으로, 이는, 핵산 삽입물을 포함하는 표적화 벡터로부터 별개이고/거나 gRNA를 인코딩하는 DNA를 포함하는 벡터로부터 별개이다. 발현 작제물에 사용될 수 있는 프로모터는 예를 들어, 진핵 세포, 인간 세포, 비-인간 세포, 포유류 세포, 비-인간 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 햄스터 세포, 토끼 세포, 만능성 세포, 배아 줄기(ES) 세포, 또는 접합체(zygote) 중 하나 이상에서 활성인 프로모터를 포함한다. 이러한 프로모터는 예를 들어, 조건적 프로모터, 유도적 프로모터, 구성적 프로모터, 또는 조직-특이적 프로모터일 수 있다. 선택적으로, 프로모터는 하나의 방향에서 Cas 단백질과 다른 방향에서 가이드 RNA 둘 다의 발현을 구동하는 양방향성 프로모터일 수 있다. 이러한 양방향성 프로모터는 (1) 3개의 외부 제어 요소를 함유하는 완전한 종래의 일방향적 Pol III 프로모터: 원위부 서열 요소(DSE), 근위부 서열 요소(PSE), 및 TATA 박스; 및 (2) 역배향에서 DSE의 5' 말단에 융합된 TATA 박스 및 PSE를 포함하는 제2 기본(basic) Pol III 프로모터로 구성될 수 있다. 예를 들어, H1 프로모터에서, DSE는 PSE 및 TATA 박스에 인접하고, 프로모터는, U6 프로모터로부터 유래된 TATA 박스 및 PSE를 부착함으로써 역방향에서의 전사가 제어되는 하이브리드 프로모터를 생성함으로써 양방향성으로 될 수 있다. 예를 들어, 미국 특허출원공개 US 2016/0074535호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. Cas 단백질을 인코딩하는 유전자 및 가이드 RNA를 발현하기 위한 양방향성 프로모터의 사용은 동시에, 전달을 용이하게 하기 위해 컴팩트(compact) 발현 카세트의 발생을 가능하게 한다.

가이드 RNA. "가이드 RNA" 또는 "gRNA"는, Cas 단백질(예를 들어, Cas9 단백질)에 결합하고 상기 Cas 단백질을 표적 DNA 내의 특정 위치로 표적화하는 RNA 분자이다. 가이드 RNA는 2개의 분절을 포함할 수 있다: "DNA-표적화 분절" 및 "단백질-결합 분절". "분절"은 분자의 구획 또는 영역, 예컨대 RNA 내 뉴클레오타이드의 인접 스트레치를 포함한다. 일부 gRNA, 예컨대 Cas9에 대한 gRNA는 2개의 별개의 RNA 분자를 포함할 수 있다: "활성자-RNA"(예를 들어, tracrRNA) 및 "표적자(targeter)-RNA"(예를 들어, CRISPR RNA 또는 crRNA). 다른 gRNA는 단일 RNA 분자(단일 RNA 폴리뉴클레오타이드)이며, 이는 또한 "단일-분자 gRNA", "단일-가이드 RNA", 또는 "sgRNA"라고도 할 수 있다. 예를 들어, 국제공개 WO 2013/176772호, WO 2014/065596호, WO 2014/089290호, WO 2014/093622호, WO 2014/099750호, WO 2013/142578호, 및 WO 2014/131833호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. Cas9의 경우, 예를 들어, 단일-가이드 RNA는 tracrRNA에(예를 들어, 링커를 통해) 융합된 crRNA를 포함할 수 있다. Cpf1의 경우, 예를 들어, 표적 서열에의 결합 및/또는 이의 절단을 달성하기 위해 단지 crRNA가 필요하다. 용어 "가이드 RNA" 및 "gRNA"는 이중-분자(즉, 모듈형) gRNA와 단일-분자 gRNA 둘 다 포함한다.

예시적인 2-분자 gRNA는 crRNA-유사("CRISPR RNA" 또는 "표적자-RNA" 또는 "crRNA" 또는 "crRNA 반복부") 분자 및 상응하는 tracrRNA-유사("trans-작용 CRISPR RNA" 또는 "활성자-RNA" 또는 "tracrRNA") 분자를 포함한다. crRNA는 gRNA의 DNA-표적화 분절(단일-가닥) 및 gRNA의 단백질-결합 분절의 dsRNA 듀플렉스 중 하나의 절반을 형성하는 뉴클레오타이드(즉, crRNA 테일)의 스트레치 둘 다 포함한다. DNA-표적화 분절의 다운스트림(3')에 위치한 crRNA 테일의 일례는 GUUUUAGAGCUAUGCU(SEQ ID NO: 40)를 포함하거나, 본질적으로 이로 구성되거나, 이로 구성된다. 본원에 개시된 임의의 DNA-표적화 분절은 SEQ ID NO: 40의 5' 단부에 접합되어, crRNA를 형성할 수 있다.

상응하는 tracrRNA(활성자-RNA)는, gRNA의 단백질-결합 분절의 dsRNA 듀플렉스 중 다른 절반을 형성하는 뉴클레오타이드의 스트레치를 포함한다. crRNA의 뉴클레오타이드의 스트레치는 tracrRNA의 뉴클레오타이드의 스트레치에 상보적이고 이와 혼성화하여, gRNA의 단백질-결합 도메인의 dsRNA 듀플렉스를 형성한다. 이와 같이, 각각의 crRNA는 상응하는 tracrRNA를 갖고 있다고 할 수 있다. tracrRNA 서열의 일례는 AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU(SEQ ID NO: 41)를 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다.

crRNA와 tracrRNA 둘 다 필요한 시스템에서, crRNA 및 상응하는 tracrRNA는 혼성화하여 gRNA를 형성한다. crRNA만 필요한 시스템에서, crRNA는 gRNA일 수 있다. crRNA는, 표적 DNA의 상보적 가닥에 혼성화하는 단일-가닥 DNA-표적화 분절을 추가로 제공한다. 세포 내에서의 변형에 사용된다면, 주어진 crRNA 또는 tracrRNA 분자의 정확한 서열은, RNA 분자가 사용될 종에 특이적이도록 설계될 수 있다. 예를 들어, 문헌[Mali 등 (2013) Science 339:823-826]; 문헌[Jinek 등 (2012) Science 337:816-821]; 문헌[Hwang 등 (2013) Nat. Biotechnol. 31:227-229]; 문헌[Jiang 등 (2013) Nat. Biotechnol. 31:233-239]; 및 문헌[Cong 등 (2013) Science 339:819-823]을 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

주어진 gRNA의 DNA-표적화 분절(crRNA)은, 하기에서 더욱 상세히 기재된 바와 같이 표적 DNA의 상보적 가닥 상의 서열에 상보적인 뉴클레오타이드 서열을 포함한다. gRNA의 DNA-표적화 분절은 혼성화(즉, 염기쌍 형성(base pairing))을 통해 서열-특이적 방식으로 표적 DNA와 상호작용한다. 이와 같이, DNA-표적화 분절의 뉴클레오타이드 서열은 다양할 수 있고, gRNA 및 표적 DNA가 상호작용할 상기 표적 DNA 내에서의 위치를 결정한다. 대상체 gRNA의 DNA-표적화 분절은 표적 DNA 내의 임의의 요망되는 서열에 혼성화하도록 변형될 수 있다. 천연 발생 crRNA는 CRISPR/Cas 시스템 및 유기체에 따라 상이하지만, 종종 21 내지 46개 뉴클레오타이드 길이의 2개의 직접 반복부(DR: direct repeat)에 의해 플랭킹되는 21 내지 72개 뉴클레오타이드 길이의 표적화 분절을 함유한다(예를 들어, 국제공개 WO 2014/131833호를 참조하며, 이의 전체내용은 모든 목적 참조로서 본원에 포함됨). 에스. 피오게네스의 경우, DR은 36개 뉴클레오타이드 길이이고, 표적화 분절은 30개 뉴클레오타이드 길이이다. 3' 위치한 DR은 상응하는 tracrRNA에 상보적이고 이와 혼성화하며, 이는 다시 Cas 단백질에 결합한다.

DNA-표적화 분절은 예를 들어, 적어도 약 12, 15, 17, 18, 19, 20, 25, 30, 35, 또는 40개 뉴클레오타이드 길이를 가질 수 있다. 이러한 DNA-표적화 분절은 예를 들어, 약 12 내지 약 100개, 약 12 내지 약 80개, 약 12 내지 약 50개, 약 12 내지 약 40개, 약 12 내지 약 30개, 약 12 내지 약 25개, 약 12 내지 약 20개 뉴클레오타이드 길이를 가질 수 있다. 예를 들어, DNA 표적화 분절은 약 15 내지 약 25개 뉴클레오타이드(예를 들어, 약 17 내지 약 20개 뉴클레오타이드, 또는 약 17, 18, 19, 또는 20개 뉴클레오타이드)일 수 있다. 예를 들어, 미국 특허출원공개 US 2016/0024523호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 에스. 피오게네스로부터의 Cas9의 경우, 전형적인 DNA-표적화 분절은 16 내지 20개 뉴클레오타이드 길이 또는 17 내지 20개 뉴클레오타이드 길이이다. 에스. 아우레우스로부터의 Cas9의 경우, 전형적인 DNA-표적화 분절은 21 내지 23개 뉴클레오타이드 길이이다. Cpf1의 경우, 전형적인 DNA-표적화 분절은 적어도 16개 뉴클레오타이드 길이 또는 적어도 18개 뉴클레오타이드 길이이다.

TracrRNA는 임의의 형태(예를 들어, 전장 tracrRNA 또는 활성 부분 tracrRNA) 및 다양한 길이일 수 있다. 이들은 1차 전사물 또는 가공된 형태를 포함할 수 있다. 예를 들어, tracrRNA(단일-가이드 RNA의 파트로서, 또는 2-분자 gRNA의 파트와 별개의 분자로서)는 야생형 tracrRNA 서열 중 모두 또는 부분(예를 들어, 야생형 tracrRNA 서열의 약 20, 26, 32, 45, 48, 54, 63, 67, 85개 이상 또는 약 이를 초과하는 뉴클레오타이드)을 포함하거나, 본질적으로 이로 구성되거나, 이로 구성될 수 있다. 에스. 피오게네스로부터의 야생형 tracrRNA 서열은 171-뉴클레오타이드, 89-뉴클레오타이드, 75-뉴클레오타이드, 및 65-뉴클레오타이드 버전을 포함한다. 예를 들어, 문헌[Deltcheva 등 (2011) Nature 471:602-607]; 국제공개 WO 2014/093661호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 단일-가이드 RNA(sgRNA) 내의 tracrRNA의 예는 sgRNA의 +48, +54, +67, 및 +85 버전 내에서 발견되는 tracrRNA 분절을 포함하며, 여기서, "+n"은 야생형 tracrRNA의 +n개 이하의 뉴클레오타이드가 sgRNA에 포함됨을 나타낸다. 미국 특허 제8,697,359호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

가이드 RNA의 DNA-표적화 분절과 표적 DNA의 상보적 가닥 사이의 상보성 백분율은 적어도 60%(예를 들어, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100%)일 수 있다. DNA-표적화 분절과 표적 DNA의 상보적 가닥 사이의 상보성 백분율은 약 20개 인접(contiguous) 뉴클레오타이드에 걸쳐 적어도 60%일 수 있다. 일례로, DNA-표적화 분절과 표적 DNA의 상보적 가닥 사이의 상보성 백분율은 표적 DNA의 상보적 가닥의 5' 단부에서의 약 14개 인접 뉴클레오타이드에 걸쳐 적어도 100%일 수 있고 나머지에 걸쳐 0%만큼 낮을 수 있다. 이러한 경우, DNA-표적화 분절은 14개 뉴클레오타이드 길이인 것으로 여겨질 수 있다. 또 다른 예로, DNA-표적화 분절과 표적 DNA의 상보적 가닥 사이의 상보성 백분율은 표적 DNA의 상보적 가닥의 5' 단부에서의 7개 인접 뉴클레오타이드에 걸쳐 적어도 100%일 수 있고 나머지에 걸쳐 0%만큼 낮을 수 있다. 이러한 경우, DNA-표적화 분절은 7개 뉴클레오타이드 길이인 것으로 여겨질 수 있다. 일부 가이드 RNA에서, DNA-표적화 분절 내의 적어도 17개 뉴클레오타이드는 표적 DNA의 상보적 가닥에 상보적이다. 예를 들어, DNA-표적화 분절은 20개 뉴클레오타이드 길이일 수 있고, 표적 DNA의 상보적 가닥과 1, 2 또는 3개의 미스매치를 포함할 수 있다. 일례에서, 미스매치는 프로토스페이서 인접 모티프(PAM: protospacer adjacent motif) 서열에 상응하는 상보적 가닥의 영역에 인접해 있지 않다(즉, PAM 서열의 역보체(reverse complement))(예를 들어, 미스매치는 가이드 RNA의 DNA-표적화 분절의 5' 단부에 있거나, 미스매치는 PAM 서열에 상응하는 상보적 가닥의 영역으로부터 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 또는 19개 염기쌍만큼 떨어져 있음).

gRNA의 단백질-결합 분절은, 서로 상보적인 뉴클레오타이드의 2개 스트레치(stretch)를 포함할 수 있다. 단백질-결합 분절의 상보적 뉴클레오타이드는 혼성화하여, 이중-가닥 RNA 듀플렉스(dsRNA)를 형성한다. 대상체 gRNA의 단백질-결합 분절은 Cas 단백질과 상호작용하고, gRNA는 결합된 Cas 단백질을, DNA-표적화 분절을 통해 표적 DNA 내의 특정 뉴클레오타이드 서열로 안내한다.

단일-가이드 RNA는 스캐폴드 서열(즉, 가이드 RNA의 단백질-결합 또는 Cas-결합 서열)에 접합된 DNA-표적화 분절을 포함할 수 있다. 예를 들어, 이러한 가이드 RNA는 5' DNA-표적화 분절 및 3' 스캐폴드 서열을 가질 수 있다. 예시적인 스캐폴드 서열은: GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU(버전 1; SEQ ID NO: 42); GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(버전 2; SEQ ID NO: 43); GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(버전 3; SEQ ID NO: 44); 및 GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(버전 4; SEQ ID NO: 45)를 포함하거나, 이로 본질적으로 구성되거나, 이로 구성된다. 임의의 가이드 RNA 표적 서열을 표적화하는 가이드 RNA는 예를 들어, 가이드 RNA의 3' 단부 상의 임의의 예시적인 가이드 RNA 스캐폴드 서열에 융합된 가이드 RNA의 5' 단부 상에 DNA-표적화 분절을 포함할 수 있다. 즉, 본원에 개시된 임의의 DNA-표적화 분절은 임의의 하나의 SEQ ID NO: 42-45의 5' 단부에 접합되어, 단일 가이드 RNA(키메라 가이드 RNA)를 형성할 수 있다. 본원 어디에서나 개시된 바와 같은 가이드 RNA 버전 1, 2, 3, 및 4는 스캐폴드 버전 1, 2, 3, 및 4 각각과 접합된 DNA-표적화 분절(즉, 가이드 서열 또는 가이드)을 지칭한다.

가이드 RNA는 추가의 바람직한 특질(예를 들어, 변형된 또는 조절된 안정성; 세포 내 표적화; 형광 표지에 의한 추적; 단백질 또는 단백질 복합체에 대한 결합 부위 등)을 제공하는 변형 또는 서열을 포함할 수 있다. 이러한 변형의 예는 예를 들어, 5' 캡(cap)(예를 들어, 7-메틸구아닐레이트 캡(m7G)); 3' 폴리아데닐화된 테일(즉, 3' 폴리(A) 테일); 리보스위치(riboswitch) 서열(예를 들어, 단백질 및/또는 단백질 복합체에 의한 조절된 안정성 및/또는 조절된 접근성을 가능하게 하기 위해); 안정성 제어 서열; dsRNA 듀플렉스(즉, 헤어핀)를 형성하는 서열; RNA를 하위세포 위치(예를 들어, 핵, 미토콘드리아, 엽록체 등)로 표적화하는 서열; 추적을 제공하는 변형 또는 서열(예를 들어, 형광 분자에의 직접 접합, 형광 검출을 용이하게 하는 모이어티에의 접합, 형광 검출을 가능하게 하는 서열 등); 단백질(예를 들어, DNA 메틸트랜스퍼라제, DNA 데메틸라제(demethylase), 히스톤 아세틸트랜스퍼라제, 히스톤 데아세틸라제 등을 포함하여 DNA 상에 작용하는 단백질)에 대한 결합 부위를 제공하는 변형 또는 서열; 및 이들의 조합을 포함한다. 변형의 다른 예는 조작된 스템 루프 듀플렉스 구조, 조작된 벌지(bulge) 영역, 스템 루프 듀플렉스 구조의 조작된 헤어핀 3', 또는 이들의 임의의 조합을 포함한다. 예를 들어, 미국 특허출원공개 US 2015/0376586호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 벌지는 crRNA-유사 영역 및 최소 tracrRNA-유사 영역으로 이루어진 듀플렉스 내의 뉴클레오타이드의 홑(unpaired) 영역일 수 있다. 벌지는, 듀플렉스의 하나의 면(side) 상에, X가 임의의 퓨린이고 Y가 반대 가닥 상의 뉴클레오타이드와 워블 쌍(wobble pair)을 형성할 수 있는 뉴클레오타이드일 수 있는 홑 5'-XXXY-3', 및 듀플렉스의 다른 면 상에 홑 뉴클레오타이드 영역을 포함할 수 있다.

비변형된 핵산은 분해에 취약할 수 있다. 외인성 핵산은 또한 선천적 면역 반응을 유도할 수 있다. 변형은 안정성을 도입하고 면역원성을 감소시키는 것을 도울 수 있다. 가이드 RNA는 예를 들어, 하기 중 하나 이상을 포함한, 변형된 뉴클레오사이드 및 변형된 뉴클레오타이드를 포함할 수 있다: (1) 포스포디에스테르 백본 연결부에서 비-연결 포스페이트 산소 중 하나 또는 둘 다 및/또는 연결 포스페이트 산소 중 하나 이상의 변경 또는 대체; (2) 리보스 당(sugar)의 구성원의 변경 또는 대체, 예컨대 리보스 당 상의 2' 하이드록실의 변경 또는 대체; (3) 데포스포(dephospho) 링커에 의한 포스페이트 모이어티의 대체; (4) 천연 발생 핵염기의 변형 또는 대체; (5) 리보스-포스페이트 백본의 대체 또는 변형; (6) 올리고뉴클레오타이드의 3' 단부 또는 5' 단부의 변형(예를 들어, 말단 포스페이트기의 제거, 변형 또는 대체 또는 모이어티의 접합); 및 (7) 당의 변형. 다른 가능한 가이드 RNA 변형은 우라실 또는 폴리-우라실 트랙트(tract)의 변형 또는 대체를 포함한다. 예를 들어, 국제공개 WO 2015/048577호 및 미국 특허출원공개 US 2016/0237455호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 유사한 변형은 Cas-인코딩 핵산, 예컨대 Cas mRNA에 대해 이루어질 수 있다.

일례로서, 가이드 RNA의 5' 또는 3' 단부에서의 뉴클레오타이드는 포스포로티오에이트 연결부를 포함할 수 있다(예를 들어, 염기는, 포스포로티오에이트기인 변형된 포스페이트기를 가질 수 있음). 예를 들어, 가이드 RNA는 가이드 RNA의 5' 및/또는 3' 단부의 2, 3, 또는 4개 말단 뉴클레오타이드 사이에 포스포로티오에이트 연결부를 포함할 수 있다. 또 다른 예로, 가이드 RNA의 5' 및/또는 3' 단부에서의 뉴클레오타이드는 2'-O-메틸 변형을 가질 수 있다. 예를 들어, 가이드 RNA는 가이드 RNA의 5' 및/또는 3' 단부(예를 들어, 5' 단부)의 2, 3, 또는 4개 말단 뉴클레오타이드에서 2'-O-메틸 변형을 포함할 수 있다. 예를 들어, 국제공개 WO 2017/173054 A1호 및 문헌[Finn 등 (2018) Cell Reports 22:1-9]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 하나의 구체적인 예에서, 가이드 RNA는 처음 3개 5' 및 3' 말단 RNA 잔기에 2'-O-메틸 유사체 및 3' 포스포로티오에이트 뉴클레오타이드간 연결부를 포함한다. 또 다른 구체적인 예에서, 가이드 RNA는, Cas9 단백질과 상호작용하지 않는 모든 2'OH 기가 2'-O-메틸 유사체로 대체되도록 변형되며, Cas9와의 최소 상호작용을 갖는 가이드 RNA의 테일(tail) 영역은 5' 및 3' 포스포로티오에이트 뉴클레오타이드간 연결부로 변형된다. 예를 들어, 문헌[Yin 등 (2017) Nat. Biotech. 35(12):1179-1187]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 변형된 가이드 RNA의 다른 예는 예를 들어, WO 2018/107028 A1호에 제공되어 있으며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

가이드 RNA는 임의의 형태로 제공될 수 있다. 예를 들어, gRNA는 2개의 분자(별개의 crRNA 및 tracrRNA)로서 또는 1개의 분자(sgRNA)로서 RNA의 형태로, 그리고 선택적으로 Cas 단백질과의 복합체의 형태로 제공될 수 있다. gRNA는 또한, 상기 gRNA를 인코딩하는 DNA의 형태로 제공될 수 있다. gRNA를 인코딩하는 DNA는 단일 RNA 분자(sgRNA) 또는 별개의 RNA 분자(예를 들어, 별개의 crRNA 및 tracrRNA)를 인코딩할 수 있다. 후자의 경우, gRNA를 인코딩하는 DNA는 1개의 DNA 분자로서 또는 crRNA 및 tracrRNA를 각각 인코딩하는 별개의 DNA 분자로서 제공될 수 있다.

gRNA가 DNA 형태로 제공될 때, 상기 gRNA는 세포에서 일시적으로, 조건적으로, 또는 구성적으로 발현될 수 있다. gRNA를 인코딩하는 DNA는 세포의 게놈 내로 안정하게 통합되고 상기 세포에서 활성인 프로모터에 작동적으로 연결될 수 있다. 대안적으로, gRNA를 인코딩하는 DNA는 발현 작제물에서 프로모터에 작동적으로 연결될 수 있다. 예를 들어, gRNA를 인코딩하는 DNA는 이종성 핵산, 예컨대 Cas 단백질을 인코딩하는 핵산을 포함하는 벡터에 존재할 수 있다. 대안적으로, 이는, Cas 단백질을 인코딩하는 핵산을 포함하는 벡터로부터 별개인 벡터 또는 플라스미드에 존재할 수 있다. 이러한 발현 작제물에 사용될 수 있는 프로모터는 예를 들어, 진핵 세포, 인간 세포, 비-인간 세포, 포유류 세포, 비-인간 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 햄스터 세포, 토끼 세포, 만능성 세포, 배아 줄기(ES) 세포, 성인 줄기세포, 발달 제약 전구 세포, 유도 만능 줄기(iPS) 세포, 또는 1-세포 단계 배아 중 하나 이상에서 활성인 프로모터를 포함한다. 이러한 프로모터는 예를 들어, 조건적 프로모터, 유도적 프로모터, 구성적 프로모터, 또는 조직-특이적 프로모터일 수 있다. 이러한 프로모터는 또한 예를 들어, 양방향성 프로모터일 수 있다. 적합한 프로모터의 구체적인 예는 RNA 폴리머라제 III 프로모터, 예컨대 인간 U6 프로모터, 래트 U6 폴리머라제 III 프로모터, 또는 마우스 U6 폴리머라제 III 프로모터를 포함한다.

대안적으로, gRNA는 다양한 다른 방법에 의해 제조될 수 있다. 예를 들어, gRNA는 예를 들어, T7 RNA 폴리머라제를 사용하여 시험관내 전사에 의해 제조될 수 있다(예를 들어, 국제공개 WO 2014/089290호 및 WO 2014/065596호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다). 가이드 RNA는 또한, 화학적 합성에 의해 제조된 합성적으로 생성된 분자일 수 있다.

가이드 RNA(또는 가이드 RNA를 인코딩하는 핵산)는 하나 이상의 가이드 RNA(예를 들어, 1, 2, 3, 4개 이상의 가이드 RNA) 및 상기 가이드 RNA의 안정성을 증가시키는(예를 들어, 주어진 저장 조건(예를 들어, -20℃, 4℃ 또는 주위 온도) 하에서 분해 생성물이 역치 미만에, 예컨대 출발 핵산 또는 단백질의 0.5 중량% 미만에서 유지되는 기간을 연장시키거나; 생체내에서의 안정성을 증가시키는) 담체를 포함하는 조성물에 존재할 수 있다. 이러한 담체의 비제한적인 예는 폴리(락트산)(PLA) 미소구체(microsphere), 폴리(D,L-락틱(lactic)-코글리콜(coglycolic)-산)(PLGA) 미소구체, 리포솜, 미쉘(micelle), 인버스 미쉘(inverse micelle), 지질 코킬레에이트(cochleate), 및 지질 미세소관을 포함한다. 이러한 조성물은 Cas 단백질, 예컨대 Cas9 단백질, 또는 Cas 단백질을 인코딩하는 핵산을 추가로 포함할 수 있다.

가이드 RNA 표적 서열. 가이드 RNA에 대한 표적 DNA는, 결합에 대해 충분한 조건이 존재한다면 gRNA의 DNA-표적화 분절이 결합할 DNA에 존재하는 핵산 서열을 포함한다. 적합한 DNA/RNA 결합 조건은 세포에 정상적으로 존재하는 생리학적 조건을 포함한다. 다른 적합한 DNA/RNA 결합 조건(예를 들어, 세포-무함유 시스템에서의 조건)은 당업계에 알려져 있다(예를 들어, 문헌[Molecular Cloning: A Laboratory Manual, 3rd Ed. (Sambrook et al., Harbor Laboratory Press 2001)]을 참조하며, 이의 전체내용은 모든 목적 참조로서 본원에 포함됨). gRNA에 상보적이고 이와 혼성화하는 표적 DNA의 가닥은 "상보적 가닥"이라고 할 수 있으며, "상보적 가닥"에 상보적인(따라서 Cas 단백질 또는 gRNA에 상보적이지 않은) 표적 DNA의 가닥은 "비상보적 가닥" 또는 "주형 가닥"이라고 할 수 있다.

표적 DNA는, 가이드 RNA가 혼성화하는 상보적 가닥 상의 서열과, 비-상보적 가닥 상의 상응하는 서열(예를 들어, 프로토스페이서 인접 모티프(PAM)에 인접함) 둘 다 포함한다. 본원에 사용된 바와 같이 용어 "가이드 RNA 표적 서열"은 구체적으로, 가이드 RNA가 상보적 가닥 상에서 혼성화하는 서열에 상응하는 비-상보적 가닥 상의 서열(즉, 이의 역보체)을 지칭한다. 다시 말해, 가이드 RNA 표적 서열은 PAM에 인접한 비-상보적 가닥 상의 서열을 지칭한다(예를 들어, Cas9의 경우 PAM의 업스트림 또는 5'). 가이드 RNA 표적 서열은 가이드 RNA의 DNA-표적화 분절에 동등하지만, 우라실 대신에 티민을 갖는다. 일례로서, SpCas9 효소에 대한 가이드 RNA 표적 서열은 비-상보적 가닥 상의 5'-NGG-3' PAM의 업스트림 서열을 지칭할 수 있다. 가이드 RNA는 표적 DNA의 상보적 가닥에 대해 상보성을 갖도록 설계되며, 여기서, 가이드 RNA의 DNA-표적화 분절과 표적 DNA의 상보적 가닥 사이의 혼성화는 CRISPR 복합체의 형성을 촉진한다. 혼성화를 야기하고 CRISPR 복합체의 형성을 촉진하기에 충분한 상보성이 존재한다면, 완전 상보성이 본질적으로 필요한 것은 아니다. 가이드 RNA가 본원에서 가이드 RNA 표적 서열을 표적화하는 것으로 지칭된다면, 의미하는 것은, 상기 가이드 RNA가, 비-상보적 가닥 상의 가이드 RNA 표적 서열의 역보체인 표적 DNA의 상보적 가닥 서열에 혼성화한다는 것이다.

표적 DNA 또는 가이드 RNA 표적 서열은 임의의 폴리뉴클레오타이드를 포함할 수 있으며, 예를 들어, 세포의 핵 또는 세포질에 또는 세포의 세포소기관, 예컨대 미토콘드리아 또는 엽록체 내에 위치할 수 있다. 표적 DNA 또는 가이드 RNA 표적 서열은 세포에 대해 내인성 또는 외인성인 임의의 핵산 서열일 수 있다. 가이드 RNA 표적 서열은 유전자 생성물(예를 들어, 단백질)을 코딩하는 서열 또는 비-코딩 서열(예를 들어, 조절 서열)일 수 있거나, 둘 다 포함할 수 있다. 특정 예에서, 가이드 RNA 표적 서열은 인간 알부민 유전자의 인트론 1, 인트론 12, 또는 인트론 13에 존재할 수 있다. 예를 들어, 가이드 RNA 표적 서열은 인간 알부민 유전자의 인트론 1에 존재할 수 있다.

Cas 단백질에 의한 표적 DNA의 부위-안내 결합 및 절단은 (i) 가이드 RNA와 표적 DNA의 상보적 가닥 사이의 염기쌍-형성 상보성, 및 (ii) 표적 DNA의 비-상보적 가닥에서 프로토스페이서 인접 모티프(PAM)라고 하는 짧은 모티프 둘 다에 의해 결정된 위치에서 발생할 수 있다. PAM은 가이드 RNA 표적 서열을 플랭킹할 수 있다. 선택적으로, 가이드 RNA 표적 서열은 3' 단부에서 PAM에 의해 플랭킹될 수 있다(예를 들어, Cas9의 경우). 대안적으로, 가이드 RNA 표적 서열은 5' 단부에서 PAM에 의해 플랭킹될 수 있다(예를 들어, Cpf1의 경우). 예를 들어, Cas 단백질의 절단 부위는 PAM 서열(예를 들어, 가이드 RNA 표적 서열 내)의 약 1 내지 약 10개, 또는 약 2 내지 약 5개 염기쌍(예를 들어, 3개 염기쌍)일 수 있다. SpCas9의 경우, PAM 서열(즉, 비-상보적 가닥 상)은 5'-N₁GG-3'일 수 있으며, 여기서, N₁은 임의의 DNA 뉴클레오타이드이며, PAM은 표적 DNA의 비-상보적 가닥 상의 가이드 RNA 표적 서열의 즉시(immediately) 3'이다. 이와 같이, 상보적 가닥(즉, 역보체) 상의 PAM에 상응하는 서열은 5'-CCN₂-3'일 것이며, 여기서, N₂는 임의의 DNA 뉴클레오타이드이며 가이드 RNA의 DNA-표적화 분절이 표적 DNA의 상보적 가닥 상에서 혼성화하는 서열의 즉시 5'이다. 일부 이러한 경우, N₁ 및 N₂는 상보적일 수 있고, N₁- N₂ 염기쌍은 임의의 염기쌍일 수 있다(예를 들어, N₁=C 및 N₂=G; N₁=G 및 N₂=C; N₁=A 및 N₂=T; 또는 N₁=T, 및 N₂=A). 에스. 아우레우스로부터의 Cas9의 경우, PAM은 NNGRRT 또는 NNGRR일 수 있으며, 여기서, N은 A, G, C, 또는 T일 수 있고, R은 G 또는 A일 수 있다. 씨. 예유니(C. jejuni)로부터의 Cas9의 경우, PAM은 예를 들어, NNNNACAC 또는 NNNNRYAC일 수 있으며, 여기서, N은 A, G, C, 또는 T일 수 있고, R은 G 또는 A일 수 있다. 일부 경우(예를 들어, FnCpf1의 경우), PAM 서열은 5' 단부의 업스트림에 있을 수 있고 서열 5'-TTN-3'를 가질 수 있다.

가이드 RNA 표적 서열의 일례는, SpCas9 단백질에 의해 인식되는 NGG 모티프 바로 앞의 20-뉴클레오타이드 DNA 서열이다. 예를 들어, 가이드 RNA 표적 서열 + PAM의 2개 예는 GN₁₉NGG(SEQ ID NO: 46) 또는 N₂₀NGG(SEQ ID NO: 47)이다. 예를 들어, 국제공개 WO 2014/165825호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 5' 단부에서의 구아닌은 세포에서 RNA 폴리머라제에 의한 전사를 용이하게 할 수 있다. 가이드 RNA 표적 서열 + PAM의 다른 예는 시험관내에서 T7 폴리머라제에 의한 효율적인 전사를 용이하게 하기 위해 5' 단부에 2개의 구아닌 뉴클레오타이드(예를 들어, GGN₂₀NGG; SEQ ID NO: 48)를 포함할 수 있다. 예를 들어, 국제공개 WO 2014/065596호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 다른 가이드 RNA 표적 서열 + PAM은, 5' G 또는 GG 및 3' GG 또는 NGG를 포함하여 SEQ ID NO: 46-48의 4개 내지 22개 뉴클레오타이드 길이를 가질 수 있다. 더욱 다른 가이드 RNA 표적 서열 PAM은 SEQ ID NO: 46-48의 14개 내지 20개 뉴클레오타이드 길이를 가질 수 있다.

표적 DNA에 혼성화된 CRISPR 복합체의 형성은 가이드 RNA 표적 서열에 상응하는 영역 내에서 또는 그 부근에서 표적 DNA의 하나의 가닥 또는 양쪽 가닥의 절단을 초래할 수 있다(즉, 표적 DNA의 비-상보적 가닥 상의 가이드 RNA 표적 서열, 및 가이드 RNA가 혼성화하는 상보적 가닥 상의 역보체). 예를 들어, 절단 부위는 가이드 RNA 표적 서열 내에 있을 수 있다(예를 들어, PAM 서열에 비해 정의된 위치에서). "절단 부위"는, Cas 단백질이 단일-가닥 절단부(break) 또는 이중-가닥 절단부를 생성하는 표적 DNA의 위치를 포함한다. 절단 부위는 이중-가닥 DNA 중 단지 하나의 가닥 상에 존재할 수 있거나(예를 들어, 닉카제(nickase)가 사용될 때) 또는 2개 가닥 모두 상에 존재할 수 있다. 절단 부위는 양쪽 가닥 상의 동일한 위치에 있을 수 있거나(평활 단부를 생성함; 예를 들어, Cas9), 각각의 가닥 상의 상이한 위치에 있을 수 있다(엇갈린 단부(즉, 오버행)를 생성함; 예를 들어, Cpf1). 엇갈린 단부는 예를 들어, 각각이 상이한 가닥 상의 상이한 절단 부위에서 단일-가닥 절단부를 생성하여 이중-가닥 절단부를 생성하는 2개의 Cas 단백질을 사용함으로써 생성될 수 있다. 예를 들어, 제1 닉카제는 이중-가닥 DNA(dsDNA)의 제1 가닥 상에 단일-가닥 절단부를 생성할 수 있고, 제2 닉카제는 오버행 서열이 생성되도록 dsDNA의 제2 가닥 상에 단일-가닥 절단부를 생성할 수 있다. 일부 경우, 제1 가닥 상의 가이드 RNA 표적 서열 또는 닉카제의 절단 부위는 제2 가닥 상의 가이드 RNA 표적 서열 또는 닉카제의 절단 부위로부터 적어도 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 40, 50, 75, 100, 250, 500, 또는 1,000개 염기쌍만큼 분리된다.

(3) 인간 알부민 유전자를 표적화하는 외인성 공여자 핵산

본원에 개시된 방법 및 조성물은 뉴클레아제 제제를 이용한 인간화 알부민 좌위의 절단 후 또는 뉴클레아제 제제를 이용한 인간화 알부민 좌위의 절단과 독립적으로 상기 인간화 알부민 좌위를 변형시키기 위해 외인성 공여자 핵산을 이용할 수 있다. 뉴클레아제 제제를 사용하는 이러한 방법에서, 뉴클레아제 제제 단백질은 인간화 알부민 좌위를 절단하여 단일-가닥 절단부(닉) 또는 이중-가닥 절단부를 생성하고, 외인성 공여자 핵산은 비-상동성 말단 접합(NHEJ)-매개 리게이션을 통해 또는 상동성-지시 수선 사건을 통해 인간화 알부민 좌위와 조합된다. 선택적으로, 외인성 공여자 핵산을 이용한 수선은 뉴클레아제 표적 서열을 제거하거나 교란시켜, 표적화되었던 대립유전자는 뉴클레아제 제제에 의해 재-표적화될 수 없다.

외인성 공여자 핵산은 인간 알부민 유전자 내 임의의 서열을 표적화할 수 있다. 일부 외인성 공여자 핵산은 상동성 아암을 포함한다. 다른 외인성 공여자 핵산은 상동성 아암을 포함하지 않는다. 외인성 공여자 핵산은 상동성-지시 수선에 의해 인간화 알부민 좌위 내로 삽입될 수 있고/거나 외인성 공여자 핵산은 비-상동성 말단 접합에 의해 인간화 알부민 좌위 내로 삽입될 수 있다. 하나의 예에서, 외인성 공여자 핵산(예를 들어, 표적화 벡터)은 인간 알부민 유전자의 인트론 1, 인트론 12, 또는 인트론 13을 표적화할 수 있다. 예를 들어, 외인성 공여자 핵산은 인간 알부민 유전자의 인트론 1을 표적화할 수 있다.

외인성 공여자 핵산은 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함할 수 있으며, 이들 핵산은 단일-가닥 또는 이중-가닥일 수 있고, 이들 핵산은 선형 또는 원형 형태일 수 있다. 예를 들어, 외인성 공여자 핵산은 단일-가닥 올리고데옥시뉴클레오타이드(ssODN)일 수 있다. 예를 들어, 문헌[Yoshimi 등 (2016) Nat. Commun. 7:10431]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 외인성 공여자 핵산은 나상(naked) 핵산일 수 있거나, 바이러스, 예컨대 AAV에 의해 전달될 수 있다. 구체적인 예에서, 외인성 공여자 핵산은 AAV를 통해 전달되고, 비-상동성 말단 접합(예를 들어, 외인성 공여자 핵산은, 상동성 아암을 포함하지 않는 것일 수 있음)을 통해 인간화 알부민 좌위 내로 삽입될 수 있다.

예시적인 외인성 공여자 핵산은 약 50개 뉴클레오타이드 내지 약 5 kb 길이이거나, 약 50개 뉴클레오타이드 내지 약 3 kb 길이이거나, 약 50개 뉴클레오타이드 내지 약 1,000개 뉴클레오타이드 길이이다. 다른 예시적인 외인성 공여자 핵산은 약 40 내지 약 200개 뉴클레오타이드 길이이다. 예를 들어, 외인성 공여자 핵산은 약 50-60, 60-70, 70-80, 80-90, 90-100, 100-110, 110-120, 120-130, 130-140, 140-150, 150-160, 160-170, 170-180, 180-190, 또는 190-200개 뉴클레오타이드 길이일 수 있다. 대안적으로, 외인성 공여자 핵산은 약 50-100, 100-200, 200-300, 300-400, 400-500, 500-600, 600-700, 700-800, 800-900, 또는 900-1000개 뉴클레오타이드 길이일 수 있다. 대안적으로, 외인성 공여자 핵산은 약 1-1.5, 1.5-2, 2-2.5, 2.5-3, 3-3.5, 3.5-4, 4-4.5, 또는 4.5-5 kb 길이일 수 있다. 대안적으로, 외인성 공여자 핵산은 예를 들어, 5 kb, 4.5 kb, 4 kb, 3.5 kb, 3 kb, 2.5 kb, 2 kb, 1.5 kb, 1 kb, 900개 뉴클레오타이드, 800개 뉴클레오타이드, 700개 뉴클레오타이드, 600개 뉴클레오타이드, 500개 뉴클레오타이드, 400개 뉴클레오타이드, 300개 뉴클레오타이드, 200개 뉴클레오타이드, 100개 뉴클레오타이드, 또는 50개 뉴클레오타이드 이하의 길이일 수 있다. 외인성 공여자 핵산(예를 들어, 표적화 벡터)은 또한 더 길 수 있다.

일례에서, 외인성 공여자 핵산은 약 80개 뉴클레오타이드 내지 약 200개 뉴클레오타이드 길이인 ssODN이다. 또 다른 예에서, 외인성 공여자 핵산은 약 80개 뉴클레오타이드 내지 약 3 kb 길이인 ssODN이다. 이러한 ssODN은 예를 들어, 각각 약 40개 뉴클레오타이드 내지 약 60개 뉴클레오타이드 길이인 상동성 아암을 가질 수 있다. 이러한 ssODN은 또한, 예를 들어, 각각 약 30개 뉴클레오타이드 내지 100개 뉴클레오타이드 길이인 상동성 아암을 가질 수 있다. 상동성 아암은 대칭적일 수 있거나(예를 들어, 각각 40개 뉴클레오타이드 또는 각각 60개 뉴클레오타이드 길이), 이들은 비대칭적일 수 있다(예를 들어, 36개 뉴클레오타이드 길이인 하나의 상동성 아암 및 91개 뉴클레오타이드 길이인 하나의 상동성 아암).

외인성 공여자 핵산은 추가의 바람직한 특질(예를 들어, 변형된 또는 조절된 안정성; 형광 표지에 의한 추적 또는 검출; 단백질 또는 단백질 복합체에 대한 결합 부위 등)을 제공하는 변형 또는 서열을 포함할 수 있다. 외인성 공여자 핵산은 하나 이상의 형광 표지, 정제 태그, 에피토프 태그, 또는 이들의 조합을 포함할 수 있다. 예를 들어, 외인성 공여자 핵산은 하나 이상의 형광 표지(예를 들어, 형광 단백질 또는 다른 형광단 또는 염료), 예컨대 적어도 1, 적어도 2, 적어도 3, 적어도 4, 또는 적어도 5개의 형광 표지를 포함할 수 있다. 예시적인 형광 표지는 형광단, 예컨대 플루오레세인(fluorescein)(예를 들어, 6-카르복시플루오레세인(6-FAM)), 텍사스 레드(Texas Red), HEX, Cy3, Cy5, Cy5.5, 퍼시픽 블루(Pacific Blue), 5-(및-6)-카르복시테트라메틸로다민(TAMRA), 및 Cy7을 포함한다. 광범위한 범위의 형광 염료는 올리고뉴클레오타이드를 표지화하기 위해 상업적으로 입수 가능하다(예를 들어, Integrated DNA Technologies로부터). 이러한 형광 표지(예를 들어, 내부 형광 표지)는 예를 들어, 외인성 공여자 핵산의 단부와 상용성인 돌출(protruding) 단부를 갖는 절단된 표적 핵산 내로 직접적으로 통합되었던 외인성 공여자 핵산을 검출하는 데 사용될 수 있다. 표지 또는 태그는 외인성 공여자 핵산 내의 5' 단부, 3' 단부에, 또는 내부 영역에 있을 수 있다. 예를 들어, 외인성 공여자 핵산은 5 단부에서 Integrated DNA Technologies(5'IRDYE^®700)로부터의 IR700 형광단과 접합될 수 있다.

외인성 공여자 핵산은 또한, 인간화 알부민 좌위에 통합될 DNA의 분절을 포함하는 핵산 삽입물을 포함할 수 있다. 인간화 알부민 좌위에서 핵산 삽입물의 통합은 상기 인간화 알부민 좌위에의 관심 핵산 서열의 첨가, 상기 인간화 알부민 좌위에서 관심 핵산 서열의 결실, 또는 상기 인간화 알부민 좌위에서 관심 핵산 서열의 대체(즉, 결실 및 삽입)를 초래할 수 있다. 일부 외인성 공여자 핵산은 인간화 알부민 좌위에서 임의의 상응하는 결실 없이 상기 인간화 알부민 좌위에서의 핵산 삽입물의 삽입을 위해 설계된다. 다른 외인성 공여자 핵산은 핵산 삽입물의 임의의 상응하는 삽입 없이 인간화 알부민 좌위에서 관심 핵산 서열을 결실시키도록 설계된다. 더욱 다른 외인성 공여자 핵산은 인간화 알부민 좌위에서 관심 핵산 서열을 결실시키고 이를 핵산 삽입물로 대체하기 위해 설계된다.

결실되고/거나 대체되는 인간화 알부민 좌위에서 핵산 삽입물 또는 상응하는 핵산은 다양한 길이일 수 있다. 결실되고/거나 대체되는 인간화 알부민 좌위에서 예시적인 핵산 삽입물 또는 상응하는 핵산은 약 1개 뉴클레오타이드 내지 약 5 kb 길이이거나, 약 1개 뉴클레오타이드 내지 약 1,000개 뉴클레오타이드 길이이다. 예를 들어, 결실되고/거나 대체되는 인간화 알부민 좌위에서 핵산 삽입물 또는 상응하는 핵산은 약 1-10, 10-20, 20-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-110, 110-120, 120-130, 130-140, 140-150, 150-160, 160-170, 170-180, 180-190, 또는 190-120개 뉴클레오타이드 길이일 수 있다. 마찬가지로, 결실되고/거나 대체되는 인간화 알부민 좌위에서 핵산 삽입물 또는 상응하는 핵산은 1-100, 100-200, 200-300, 300-400, 400-500, 500-600, 600-700, 700-800, 800-900, 또는 900-1000개 뉴클레오타이드 길이일 수 있다. 마찬가지로, 결실되고/거나 대체되는 인간화 알부민 좌위에서 핵산 삽입물 또는 상응하는 핵산은 약 1-1.5, 1.5-2, 2-2.5, 2.5-3, 3-3.5, 3.5-4, 4-4.5, 또는 4.5-5 kb 길이 이상일 수 있다.

핵산 삽입물은 대체를 위해 표적화된 서열 중 모두 또는 일부에 상동성이거나 이종상동성인 서열을 포함할 수 있다. 예를 들어, 핵산 삽입물은, 인간화 알부민 좌위에서 대체를 위해 표적화된 서열과 비교하여 하나 이상(예를 들어, 1, 2, 3, 4, 5개 이상)의 점 돌연변이를 포함하는 서열을 포함할 수 있다. 선택적으로, 이러한 점 돌연변이는 인코딩된 폴리펩타이드에서 보존적 아미노산 치환(예를 들어, 아스파르트산[Asp, D]을 글루탐산[Glu, E]으로 치환)을 초래할 수 있다.

일부 외인성 공여자 핵산은 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 외인성 단백질을 인코딩할 수 있다(예를 들어, 외인성 단백질을 인코딩하는 삽입물 핵산을 포함할 수 있음). 일례에서, 외인성 공여자 핵산에 의해 표적화되는 인간화 알부민 좌위는 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질을 인코딩할 수 있다. 예를 들어, 외인성 공여자 핵산은 스플라이스 수용기를 포함하는 프로모터리스 카세트일 수 있으며, 외인성 공여자 핵산은 인간 알부민의 제1 인트론으로 표적화될 수 있다.

비-상동성-말단-접합-매개 삽입을 위한 공여자 핵산. 일부 외인성 공여자 핵산은 비-상동성 말단 접합에 의해 인간화 알부민 좌위 내로 삽입될 수 있다. 일부 경우, 이러한 외인성 공여자 핵산은 상동성 아암을 포함하지 않는다. 예를 들어, 이러한 외인성 공여자 핵산은 뉴클레아제 제제를 이용한 절단 후 평활 단부 및 이중-가닥 절단부 내로 삽입될 수 있다. 구체적인 예에서, 외인성 공여자 핵산은 AAV를 통해 전달되고, 비-상동성 말단 접합(예를 들어, 외인성 공여자 핵산은, 상동성 아암을 포함하지 않는 것일 수 있음)을 통해 인간화 알부민 좌위 내로 삽입될 수 있다. 구체적인 예에서, 외인성 공여자 핵산은 상동성-독립적 표적화된 통합을 통해 삽입될 수 있다. 예를 들어, 인간화 알부민 좌위 내로 삽입될 외인성 공여자 핵산 내 삽입물 서열은 각각의 면 상에서 뉴클레아제 제제에 대한 표적 부위에 의해 플랭킹될 수 있다(예를 들어, 인간화 알부민 좌위에서와 동일한 표적 부위, 그리고 동일한 뉴클레아제 제제는 인간화 알부민 좌위 내 표적 부위를 절단하는 데 사용됨). 그 후에, 뉴클레아제 제제는 삽입물 서열을 플랭킹하는 표적 부위를 절단할 수 있다. 구체적인 예에서, 외인성 공여자 핵산은 AAV-매개 전달로 전달되며, 삽입물 서열을 플랭킹하는 표적 부위의 절단은 AAV의 역 말단 반복부(ITR: inverted terminal repeat)를 제거할 수 있다. 일부 방법에서, 인간화 알부민 좌위 내 표적 부위(예를 들어, 플랭킹 프로토스페이서 인접 모티프를 포함하는 gRNA 표적 서열)는 삽입물 서열이 인간화 알부민 좌위 내로 올바른 배향으로 삽입된다면 더 이상 존재하지 않지만, 상기 표적 부위는 삽입물 서열이 인간화 알부민 좌위 내로 반대 배향으로 삽입된다면 개량(reform)된다. 이는, 삽입물 서열이 발현을 위해 올바른 배향으로 삽입되는 것을 보장하는 데 일조할 수 있다.

다른 외인성 공여자 핵산은 인간화 알부민 좌위에서 뉴클레아제-매개 절단에 의해 생성된 하나 이상의 오버행에 상보적인 짧은 단일-가닥 영역을 5' 단부 및/또는 3' 단부에서 가질 수 있다. 이들 오버행은 또한, 5' 및 3' 상동성 아암으로 지칭될 수 있다. 예를 들어, 일부 외인성 공여자 핵산은 인간화 알부민 좌위에서 5' 및/또는 3' 표적 서열에서 뉴클레아제-매개 절단에 의해 생성된 하나 이상의 오버행에 상보적인 짧은 단일-가닥 영역을 5' 단부 및/또는 3' 단부에서 가질 수 있다. 일부 이러한 외인성 공여자 핵산은 5' 단부에서만 또는 3' 단부에서만 상보적 영역을 갖는다. 예를 들어, 일부 이러한 외인성 공여자 핵산은 인간화 알부민 좌위에서 5' 표적 서열에서 생성된 오버행에 상보적인 5' 단부에서만 또는 인간화 알부민 좌위에서 3' 표적 서열에서 생성된 오버행에 상보적인 3' 단부에서만 상보적 영역을 갖는다. 다른 이러한 외인성 공여자 핵산은 5' 단부와 3' 단부 둘 다에서 상보적 영역을 갖는다. 예를 들어, 다른 이러한 외인성 공여자 핵산은 인간화 알부민 좌위에서 뉴클레아제-매개 절단에 의해 생산된, 예를 들어, 각각 제1 오버행 및 제2 오버행에 상보적인 5' 단부와 3' 단부 둘 다에서 상보적 영역을 갖는다. 예를 들어, 외인성 공여자 핵산이 이중-가닥이라면, 단일-가닥 상보적 영역은 공여자 핵산의 상단 가닥의 5' 단부 및 공여자 핵산의 하단 가닥의 5' 단부로부터 연장되어, 각각의 단부 상에서 5' 오버행을 생성할 수 있다. 대안적으로, 단일-가닥 상보적 영역은 공여자 핵산의 상단 가닥의 3' 단부로부터 그리고 주형의 하단 가닥의 3' 단부로부터 연장되어, 3' 오버행을 생성할 수 있다.

상보적 영역은 외인성 공여자 핵산과 표적 핵산 사이에서 리게이션을 촉진하기에 충분한 임의의 길이일 수 있다. 예시적인 상보적 영역은 약 1 내지 약 5개 뉴클레오타이드 길이, 약 1 내지 약 25개 뉴클레오타이드 길이, 또는 약 5 내지 약 150개 뉴클레오타이드 길이이다. 예를 들어, 상보적 영역은 적어도 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 또는 25개 뉴클레오타이드 길이일 수 있다. 대안적으로, 상보적 영역은 약 5-10, 10-20, 20-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-110, 110-120, 120-130, 130-140, 또는 140-150개 뉴클레오타이드 길이 이상일 수 있다.

이러한 상보적 영역은 닉카제의 2개 쌍에 의해 생성된 오버행에 상보적일 수 있다. 스태거드 단부(staggered end)를 갖는 2개의 이중-가닥 절단부는, DNA의 반대 가닥을 절단하여 제1 이중-가닥 절단부를 생성하는 제1 및 제2 닉카제, 및 DNA의 반대 가닥을 절단하여 제2 이중-가닥 절단부를 생성하는 제3 및 제4 닉카제를 사용함으로써 생성될 수 있다. 예를 들어, Cas 단백질은 제1, 제2, 제3 및 제4 가이드 RNA와 상응하는 제1, 제2, 제3 및 제4 가이드 RNA 표적 서열을 닉킹하는 데 사용될 수 있다. 제1 및 제2 가이드 RNA 표적 서열은, DNA의 제1 및 제2 가닥 상의 제1 및 제2 닉카제에 의해 생성된 닉이 이중-가닥 절단부(즉, 제1 절단 부위는 제1 및 제2 가이드 RNA 표적 서열 내에 닉을 포함함)를 생성하도록 놓여서 제1 절단 부위를 생성할 수 있다. 마찬가지로, 제3 및 제4 가이드 RNA 표적 서열은, DNA의 제1 및 제2 가닥 상의 제3 및 제4 닉카제에 의해 생성된 닉이 이중-가닥 절단부(즉, 제2 절단 부위는 제3 및 제4 가이드 RNA 표적 서열 내에 닉을 포함함)를 생성하도록 놓여서 제2 절단 부위를 생성할 수 있다. 바람직하게는, 제1 및 제2 가이드 RNA 표적 서열 및/또는 제3 및 제4 가이드 RNA 표적 서열 내의 닉은, 오버행을 생성하는 닉을 오프셋(off-set)할 수 있다. 오프셋은 예를 들어, 적어도 약 5 bp, 10 bp, 20 bp, 30 bp, 40 bp, 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp 이상일 수 있다. 문헌[Ran 등 (2013) Cell 154:1380-1389]; 문헌[Mali 등 (2013) Nat. Biotech. 31:833-838]; 및 문헌[Shen 등 (2014) Nat. Methods 11:399-404]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 이러한 경우, 이중-가닥 외인성 공여자 핵산은, 제1 및 제2 가이드 RNA 표적 서열 내의 닉에 의해 그리고 제3 및 제4 가이드 RNA 표적 서열 내의 닉에 의해 생성되는 오버행에 상보적인 단일-가닥 상보적 영역과 함께 설계될 수 있다. 그 후에, 이러한 외인성 공여자 핵산은 비-상동성-말단-접합-매개 리게이션에 의해 삽입될 수 있다.

상동성-지시 수선에 의한 삽입을 위한 공여자 핵산. 일부 외인성 공여자 핵산은 상동성 아암을 포함한다. 외인성 공여자 핵산이 또한 핵산 삽입물을 포함한다면, 상동성 아암은 핵산 삽입물을 플랭킹할 수 있다. 기준의 용이성을 위해, 상동성 아암은 본원에서 5' 및 3'(즉, 업스트림 및 다운스트림) 상동성 아암으로 지칭된다. 이 용어는 외인성 공여자 핵산 내의 핵산 삽입물에 대한 상동성 아암의 상대 위치에 관한 것이다. 5' 및 3' 상동성 아암은 인간화 알부민 좌위 내의 영역에 상응하며, 이는 본원에서 각각 "5' 표적 서열" 및 "3' 표적 서열"로 지칭된다.

상동성 아암 및 표적 서열은, 2개의 영역이 서로 충분한 수준의 서열 동일성을 공유하여 상동성 재조합 반응에 대한 기질로서 작용할 때 서로 "상응한다" 또는 "상응하고" 있다. 용어 "상동성"은 상응하는 서열에 대해 동일하거나 서열 동일성을 공유하는 DNA 서열을 포함한다. 주어진 표적 서열과 외인성 공여자 핵산에서 확인된 상응하는 상동성 아암 사이의 서열 동일성은 상동성 재조합이 발생하게 하는, 서열 동일성의 임의의 정도일 수 있다. 예를 들어, 외인성 공여자 핵산(또는 이의 단편)의 상동성 아암 및 표적 서열(또는 이의 단편)에 의해 공유되는 서열 동일성의 양은 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성일 수 있으며, 따라서 서열은 상동성 재조합을 수행한다. 더욱이, 상동성 아암과 상응하는 표적 서열 사이의 상동성의 상응하는 영역은 상동성 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 예시적인 상동성 아암은 약 25개 뉴클레오타이드 내지 약 2.5 kb 길이이거나, 약 25개 뉴클레오타이드 내지 약 1.5 kb 길이이거나, 약 25 내지 약 500개 뉴클레오타이드 길이이다. 예를 들어, 주어진 상동성 아암(또는 상동성 아암 각각) 및/또는 상응하는 표적 서열은 약 25-30, 30-40, 40-50, 50-60, 60-70, 70-80, 80-90, 90-100, 100-150, 150-200, 200-250, 250-300, 300-350, 350-400, 400-450, 또는 450-500개 뉴클레오타이드 길이인 상동성의 상응하는 영역을 포함할 수 있으며, 따라서 상동성 아암은 표적 핵산 내의 상응하는 표적 서열과 상동성 재조합을 수행하기에 충분한 상동성을 갖는다. 대안적으로, 주어진 상동성 아암(또는 상동성 아암 각각) 및/또는 상응하는 표적 서열은 약 0.5 kb 내지 약 1 kb, 약 1 kb 내지 약 1.5 kb, 약 1.5 kb 내지 약 2 kb, 또는 약 2 kb 내지 약 2.5 kb 길이인 상동성의 상응하는 영역을 포함할 수 있다. 예를 들어, 상동성 아암은 각각 약 750개 뉴클레오타이드 길이일 수 있다. 상동성 아암은 대칭적일 수 있거나(각각 약 동일한 길이), 이들 상동성 아암은 비대칭적일 수 있다(다른 것보다 더 긴 하나).

뉴클레아제 제제가 외인성 공여자 핵산과 조합되어 사용될 때, 5' 및 3' 표적 서열은 바람직하게는 뉴클레아제 절단 부위에 충분히 근접하게(예를 들어, 뉴클레아제 표적 서열에 충분한 근접성 내에) 위치하여, 뉴클레아제 절단 부위에서 단일-가닥 절단부(닉) 또는 이중-가닥 절단부 시 표적 서열과 상동성 아암 사이의 상동성 재조합 사건의 발생을 촉진한다. 용어 "뉴클레아제 제제 절단 부위"는, 닉 또는 이중-가닥 절단부가 뉴클레아제 제제(예를 들어, 가이드 RNA와 복합체화된 Cas9 단백질)에 의해 생성되는 DNA 서열을 포함한다. 외인성 공여자 핵산의 5' 및 3' 상동성 아암에 상응하는 표적화된 좌위 내의 표적 서열은, 그 거리가 뉴클레아제 절단 부위에서 단일-가닥 절단부 또는 이중-가닥 절단부 시 5' 및 3' 표적 서열과 상동성 아암 사이의 상동성 재조합 사건의 발생을 촉진하는 정도라면, 뉴클레아제 절단 부위에 "충분한 근접성으로 위치한"다. 그러므로, 외인성 공여자 핵산의 5' 및/또는 3' 상동성 아암에 상응하는 표적 서열은 예를 들어, 주어진 뉴클레아제 절단 부위의 적어도 1개 뉴클레오타이드 내에 또는 주어진 뉴클레아제 절단 부위의 적어도 10개 뉴클레오타이드 내지 약 1,000개 뉴클레오타이드 내에 존재할 수 있다. 일례로, 뉴클레아제 절단 부위는 표적 서열 중 적어도 하나 또는 둘 다에 바로 인접해 있을 수 있다.

외인성 공여자 핵산의 상동성 아암에 상응하는 표적 서열 및 뉴클레아제 절단 부위의 공간적 관계는 다양할 수 있다. 예를 들어, 표적 서열은 뉴클레아제 절단 부위에 대해 5'에 위치할 수 있거나, 표적 서열은 뉴클레아제 절단 부위에 대해 3'에 위치할 수 있거나, 표적 서열은 뉴클레아제 절단 부위를 플랭킹할 수 있다.

(4) 다른 인간-알부민-표적화 시약

임의의 다른 기지의 또는 추정상 인간-알부민-표적화 시약의 활성은 또한, 비-인간 동물을 사용하여 평가될 수 있다. 유사하게는, 임의의 다른 분자는 본원에 개시된 비-인간 동물을 사용하여 인간-알부민-표적화 활성에 대해 스크리닝될 수 있다.

다른 인간-알부민-표적화 시약의 예는, RNA 간섭(RNAi)을 통해 작동하는 안티센스 올리고뉴클레오타이드(예를 들어, siRNA 또는 shRNA)를 포함한다. 안티센스 올리고뉴클레오타이드(ASO) 또는 안티센스 RNA는, 표적화된 단백질을 인코딩하는 RNA에 선택적으로 결합하여 번역을 방지함으로써 표적화된 단백질의 발현을 방지하도록 설계된 뉴클레오타이드의 짧은 합성 스트링(string)이다. 이들 화합물은 양호하게 특징화된 왓슨-크릭 염기쌍 형성(혼성화)을 통해 높은 친화도 및 선택성으로 RNA에 결합한다. RNA 간섭(RNAi)은 유전자 발현을 제어하기 위한 내인성 세포 기전이며, 여기서 RNA-유도 사일런싱 복합체(RISC: RNA-induced silencing complex)에 결합된 작은 간섭 RNA(siRNA)는 표적 메신저 RNA(mRNA)의 절단을 매개한다.

다른 인간-알부민-표적화 시약은 인간 알부민 에피토프에 특이적으로 결합하도록 설계된 항체 또는 항원-결합 단백질을 포함한다. 다른 인간-알부민-표적화 시약은 저분자 시약을 포함한다.

D. 비-인간 동물 또는 세포에게 인간-알부민-표적화 시약의 투여

본원에 개시된 방법은 예를 들어, 핵산, 단백질, 핵산-단백질 복합체, 또는 단백질 복합체를 포함하여 다양한 분자(예를 들어, 인간-알부민-표적화 시약, 예컨대 치료적 분자 또는 복합체)를 비-인간 동물 또는 세포 내로 도입하는 단계를 포함할 수 있다. "도입한다는 것"은 비-인간 동물 분자(예를 들어, 핵산 또는 단백질)이 세포 내부로의 또는 비-인간 동물 내 세포의 내부로의 접근을 획득하는 방식으로 상기 비-인간 동물 분자(예를 들어, 핵산 또는 단백질)을 세포 또는 동물에 제시하는 것을 포함한다. 도입은 임의의 수단에 의해 달성될 수 있으며, 2개 이상의 성분(예를 들어, 성분 중 2개, 또는 모든 성분)은 임의의 조합으로 동시에 또는 순차적으로 세포 또는 비-인간 동물 내로 도입될 수 있다. 예를 들어, Cas 단백질은 가이드 RNA의 도입 전에 세포 또는 비-인간 동물 내로 도입될 수 있거나, Cas 단백질은 가이드 RNA의 도입 후에 도입될 수 있다. 또 다른 예로, 외인성 공여자 핵산은 Cas 단백질 및 가이드 RNA의 도입 전에 도입될 수 있거나, 외인성 공여자 핵산은 Cas 단백질 및 가이드 RNA의 도입 후에 도입될 수 있다(예를 들어, 외인성 공여자 핵산은 Cas 단백질 및 가이드 RNA의 도입 전 또는 도입 후 약 1, 2, 3, 4, 8, 12, 24, 36, 48, 또는 72시간째에 투여될 수 있음). 예를 들어, 미국 특허출원공개 US 2015/0240263호 및 미국 특허출원공개 US 2015/0110762호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 게다가, 2개 이상의 성분은 동일한 전달 방법 또는 상이한 전달 방법에 의해 세포 또는 비-인간 동물 내로 도입될 수 있다. 유사하게는, 2개 이상의 성분은 동일한 투여 경로 또는 상이한 투여 경로에 의해 비-인간 동물 내로 도입될 수 있다.

일부 방법에서, CRISPR/Cas 시스템의 구성요소는 비-인간 동물 또는 세포 내로 도입된다. 가이드 RNA는 RNA(예를 들어, 시험관내 전사된 RNA)의 형태로 또는 가이드 RNA를 인코딩하는 DNA의 형태로 비-인간 동물 또는 세포 내로 도입될 수 있다. DNA의 형태로 도입될 때, 가이드 RNA를 인코딩하는 DNA는 세포 또는 비-인간 동물에서 활성인 프로모터에 작동적으로 연결될 수 있다. 예를 들어, 가이드 RNA는 AAV를 통해 전달되고 U6 프로모터 하에 생체내에서 발현될 수 있다. 이러한 DNA는 하나 이상의 발현 작제물에 존재할 수 있다. 예를 들어, 이러한 발현 작제물은 단일 핵산 분자의 성분일 수 있다. 대안적으로, 이들은 2개 이상의 핵산 분자 중에서 임의의 조합으로 분리될 수 있다(즉, 하나 이상의 CRISPR RNA를 인코딩하는 DNA 및 하나 이상의 tracrRNA를 인코딩하는 DNA는 별개의 핵산 분자의 성분일 수 있음).

마찬가지로, Cas 단백질은 임의의 형태로 제공될 수 있다. 예를 들어, Cas 단백질은 단백질, 예컨대 gRNA와 복합체화된 Cas 단백질의 형태로 제공될 수 있다. 대안적으로, Cas 단백질은 Cas 단백질을 인코딩하는 핵산, 예컨대 RNA(예를 들어, 메신저 RNA(mRNA)) 또는 DNA의 형태로 제공될 수 있다. 선택적으로, Cas 단백질을 인코딩하는 핵산은 특정 세포 또는 유기체에서 단백질로의 효율적인 번역을 위해 코돈 최적화될 수 있다. 예를 들어, Cas 단백질을 인코딩하는 핵산은 천연 발생 폴리뉴클레오타이드 서열과 비교하여, 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 또는 임의의 다른 관심 숙주 세포에서 더 높은 사용 빈도를 갖는 코돈을 치환하도록 변형될 수 있다. Cas 단백질을 인코딩하는 핵산이 비-인간 동물 내로 도입될 때, 상기 Cas 단백질은 상기 비-인간 동물 내 세포에서 일시적으로, 조건적으로, 또는 구성적으로 발현될 수 있다.

Cas 단백질 또는 가이드 RNA를 인코딩하는 핵산은 발현 작제물에서 프로모터에 작동적으로 연결될 수 있다. 발현 작제물은 관심 유전자 또는 다른 핵산 서열(예를 들어, Cas 유전자)의 발현을 지시할 수 있는 임의의 핵산 작제물을 포함하고, 이는 이러한 관심 핵산 서열을 표적 세포로 이전시킬 수 있다. 예를 들어, Cas 단백질을 인코딩하는 핵산은 하나 이상의 gRNA를 인코딩하는 DNA를 포함하는 벡터에 존재할 수 있다. 대안적으로, 이는, 하나 이상의 gRNA를 인코딩하는 DNA를 포함하는 벡터로부터 별개인 벡터 또는 플라스미드에 존재할 수 있다. 발현 작제물에 사용될 수 있는 적합한 프로모터는 예를 들어, 진핵 세포, 인간 세포, 비-인간 세포, 포유류 세포, 비-인간 포유류 세포, 설치류 세포, 마우스 세포, 래트 세포, 햄스터 세포, 토끼 세포, 만능성 세포, 배아 줄기(ES) 세포, 성인 줄기세포, 발달 제약 전구 세포, 유도 만능 줄기(iPS) 세포, 또는 1-세포 단계 배아 중 하나 이상에서 활성인 프로모터를 포함한다. 이러한 프로모터는 예를 들어, 조건적 프로모터, 유도적 프로모터, 구성적 프로모터, 또는 조직-특이적 프로모터일 수 있다. 선택적으로, 프로모터는 하나의 방향에서 Cas 단백질과 다른 방향에서 가이드 RNA 둘 다의 발현을 구동하는 양방향성 프로모터일 수 있다. 이러한 양방향성 프로모터는 (1) 3개의 외부 제어 요소를 함유하는 완전한 종래의 일방향적 Pol III 프로모터: 원위부 서열 요소(DSE), 근위부 서열 요소(PSE), 및 TATA 박스; 및 (2) 역배향에서 DSE의 5' 말단에 융합된 TATA 박스 및 PSE를 포함하는 제2 기본(basic) Pol III 프로모터로 구성될 수 있다. 예를 들어, H1 프로모터에서, DSE는 PSE 및 TATA 박스에 인접하고, 프로모터는, U6 프로모터로부터 유래된 TATA 박스 및 PSE를 부착함으로써 역방향에서의 전사가 제어되는 하이브리드 프로모터를 생성함으로써 양방향성으로 될 수 있다. 예를 들어, 미국 특허출원공개 US 2016/0074535호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. Cas 단백질을 인코딩하는 유전자 및 가이드 RNA를 발현하기 위한 양방향성 프로모터의 사용은 동시에, 전달을 용이하게 하기 위해 컴팩트 발현 카세트의 발생을 가능하게 한다.

비-인간 동물 또는 세포 내로 도입되는 분자(예를 들어, Cas 단백질 또는 가이드 RNA)는 도입되는 분자의 안정성을 증가시키는(예를 들어, 주어진 저장 조건(예를 들어, -20℃, 4℃ 또는 주위 온도) 하에서 분해 생성물이 역치 미만에, 예컨대 출발 핵산 또는 단백질의 0.5 중량% 미만에서 유지되는 기간을 연장시키거나; 생체내에서의 안정성을 증가시키는) 담체를 포함하는 조성물에 제공될 수 있다. 이러한 담체의 비제한적인 예는 폴리(락트산)(PLA) 미소구체, 폴리(D,L-락틱-코글리콜-산)(PLGA) 미소구체, 리포솜, 미쉘, 인버스 미쉘, 지질 코킬레에이트, 및 지질 미세소관을 포함한다.

다양한 방법 및 조성물은 세포 또는 비-인간 동물 내로의 분자(예를 들어, 핵산 또는 단백질)의 도입을 가능하게 하기 위해 본원에 제공된다. 분자를 다양한 세포 유형 내로 도입하는 방법은 알려져 있고, 예를 들어, 안정한 형질주입 방법, 일시적인 형질주입 방법, 및 바이러스-매개 방법을 포함한다.

형질주입 프로토콜, 뿐만 아니라 분자를 세포 내로 도입하는 프로토콜은 다양할 수 있다. 비제한적인 형질주입 방법은 리포솜; 나노입자; 칼슘 포스페이트(문헌[Graham 등 (1973) Virology 52 (2): 456-67], 문헌[Bacchetti 등 (1977) Proc. Natl. Acad. Sci. USA 74 (4): 1590-4], 및 문헌[Kriegler, M (1991). Transfer and Expression: A Laboratory Manual. New York: W. H. Freeman and Company. pp. 96-97]); 덴드리머; 또는 양이온성 중합체, 예컨대 DEAE-덱스트란 또는 폴리에틸렌이민을 사용하는 화학적-기초 형질주입 방법을 포함한다. 비-화학적 방법은 전기천공, 초음파-천공(sonoporation), 및 광학 형질주입을 포함한다. 입자-기초 형질주입은 유전자 총(gene gun), 또는 자기-보조 형질주입(magnet-assisted transfection)의 사용을 포함한다(문헌[Bertram (2006) Current Pharmaceutical Biotechnology 7, 277-28]). 바이러스 방법이 또한 형질주입에 사용될 수 있다.

세포 내로의 분자(예를 들어, 핵산 또는 단백질)의 도입 또한, 전기천공에 의해, 세포질내 주사에 의해, 바이러스 감염에 의해, 아데노바이러스에 의해, 아데노-관련 바이러스에 의해, 렌티바이러스에 의해, 레트로바이러스에 의해, 형질주입에 의해, 지질-매개 형질주입에 의해, 또는 뉴클레오펙션(nucleofection)에 의해 매개될 수 있다. 뉴클레오펙션은, 핵산 기질이 세포질로 전달될 뿐만 아니라 핵막을 통해 핵 내로도 전달되게 할 수 있는 향상된 전기천공 기술이다. 게다가, 본원에 개시된 방법에서 뉴클레오펙션의 사용은 전형적으로, 정기적인 전기천공보다 훨씬 더 적은 세포를 필요로 한다(예를 들어, 정기적인 전기천공에 의해 7백만개와 비교하여 단지 약 2백만개). 일례에서, 뉴클레오펙션은 LONZA^® NUCLEOFECTOR™ 시스템을 사용하여 수행된다.

세포(예를 들어, 접합체) 내로의 분자(예를 들어, 핵산 또는 단백질)의 도입은 또한 현미주사(microinjection)에 의해 달성될 수 있다. 접합체(즉, 1-세포 단계 배아)에서, 현미주사는 모체(maternal) 및/또는 부체(paternal) 전핵 내로 또는 세포질 내로 수행될 수 있다. 현미주사가 단지 하나의 전핵 내로 수행된다면, 부체 전핵이 이의 더 큰 크기로 인해 바람직하다. mRNA의 현미주사는 바람직하게는 세포질 내로 수행되며(예를 들어, mRNA를 번역 머시너리에 직접 전달하기 위해), 한편 Cas 단백질 또는 Cas 단백질을 인코딩하거나 RNA를 인코딩하는 폴리뉴클레오타이드의 현미주사는 바람직하게는 핵/전핵 내로 수행된다. 대안적으로, 현미주사는 핵/전핵(pronucleus)과 세포질 둘 다 내로 주사에 의해 수행될 수 있으며: 우선 바늘이 핵/전핵 내로 도입되고 제1 양이 주사될 수 있으며, 한편 상기 바늘을 1-세포 단계 배아로부터 제거하여 제2 양이 세포질 내로 주사될 수 있다. Cas 단백질이 세포질 내로 주사된다면, Cas 단백질은 바람직하게는 핵/전핵으로의 전달을 보장하기 위해 핵 국재화를 포함한다. 현미주사를 수행하는 방법은 잘 알려져 있다. 예를 들어, 문헌[Nagy 등 (Nagy A, Gertsenstein M, Vintersten K, Behringer R., 2003, Manipulating the 마우스 Embryo. Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press)]를 참조하고; 또한 문헌[Meyer 등 (2010) Proc. Natl. Acad. Sci. USA 107:15022-15026] 및 문헌[Meyer 등 (2012) Proc. Natl. Acad. Sci. USA 109:9354-9359]를 참조한다.

분자(예를 들어, 핵산 또는 단백질)을 세포 또는 비-인간 동물 내로 도입하기 위한 다른 방법은 예를 들어, 벡터 전달, 입자-매개 전달, 엑소좀-매개 전달, 지질-나노입자-매개 전달, 세포-투과-펩타이드-매개 전달, 또는 이식 가능-장치-매개 전달을 포함할 수 있다. 구체적인 예로서, 핵산 또는 단백질은 담체, 예컨대 폴리(락트산)(PLA), 미소구체, 폴리(D,L-락틱-코글리콜-산)(PLGA) 미소구체, 리포좀, 미쉘, 인버스 미셸, 지질 코클레이트, 또는 지질 미세소관과 같은 담체에서 세포 또는 비-인간 동물 내로 도입될 수 있다. 비-인간 동물로의 전달의 일부 구체적인 예는 유체역학적 전달, 바이러스-매개 전달(예를 들어, 아데노-관련 바이러스(AAV)-매개 전달), 및 지질-나노입자-매개 전달을 포함한다.

세포 또는 비-인간 동물 내로의 핵산 및 단백질의 도입은 유체역학적 전달(HDD)에 의해 달성될 수 있다. 실질 세포로의 유전자 전달을 위해, 필수적인 DNA 서열만 선택된 혈관을 통해 주사되어, 현재의 바이러스 및 합성 벡터와 관련된 안전성 염려를 해소할 필요가 있다. 혈류 내로 주사될 때, DNA는 혈액에 접근 가능한 상이한 조직 내의 세포에 도달할 수 있다. 유체역학적 전달은 큰 부피의 용액을 순환중인 비압축성(incompressible) 혈액 내로 신속하게 주사함으로써 발생되는 힘을 이용하여, 크고 막-불투과성인 화합물이 실질 세포에 진입하는 것을 방지하는 내피 및 세포막의 물리적 장벽을 극복한다. DNA의 전달 외에도, 이 방법은 생체내에서 RNA, 단백질, 및 다른 작은 화합물의 효율적인 세포내 전달에 유용하다. 예를 들어, 문헌[Bonamassa 등 (2011) Pharm. Res. 28(4):694-701]을 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

핵산의 도입은 또한, 바이러스-매개 전달, 예컨대 AAV-매개 전달 또는 렌티바이러스-매개 전달에 의해 달성될 수 있다. 다른 예시적인 바이러스/바이러스 벡터는 레트로바이러스, 아데노바이러스, 백시니아 바이러스, 폭스바이러스, 및 단순 포진 바이러스를 포함한다. 바이러스는 분열 세포, 비-분열 세포, 또는 분열 세포와 비-분열 세포 둘 다 감염시킬 수 있다. 바이러스는 숙주 게놈 내로 통합할 수 있거나 대안적으로는 숙주 게놈 내로 통합하지 않는다. 이러한 바이러스는 또한, 감소된 면역력을 갖도록 조작될 수 있다. 바이러스는 복제-적격(competent)일 수 있거나 복제-결함(defective)(예를 들어, 추가 라운드의 비리온 복제 및/또는 패키징에 필요한 하나 이상의 유전자가 결함됨)일 수 있다. 바이러스는 일시적 발현, 장기-지속적 발현(예를 들어, 적어도 1주, 2주, 1개월, 2개월, 또는 3개월), 또는 영구적 발현(예를 들어, Cas9 및/또는 gRNA의)을 야기할 수 있다. 예시적인 바이러스 역가(예를 들어, AAV 역가)는 10¹², 10¹³, 10¹⁴, 10¹⁵, 및 10¹⁶ 벡터 게놈/mL를 포함한다.

ssDNA AAV 게놈은, 상보적 DNA 가닥의 합성을 가능하게 하는 2개의 역 말단 반복부(inverted terminal repeat)에 의해 플랭킹되는 2개의 개방형 리딩 프레임(open reading frame)인 Rep 및 Cap으로 구성된다. AAV 이전 플라스미드를 작제할 때, 이식유전자는 2개의 ITR 사이에 놓이고, Rep 및 Cap는 인트랜스로(in trans) 공급될 수 있다. Rep 및 Cap 외에도, AAV는 아데노바이러스로부터의 유전자를 함유하는 헬퍼 플라스미드를 필요로 할 수 있다. 이들 유전자(E4, E2a, 및 VA)는 AAV 복제를 매개한다. 예를 들어, 이전 플라스미드, Rep/Cap, 및 헬퍼 플라스미드는 아데노바이러스 유전자 E1+를 함유하는 HEK293 세포 내로 형질주입되어, 감염성 AAV 입자를 생성할 수 있다. 대안적으로, Rep, Cap, 및 아데노바이러스 헬퍼 유전자는 단일 플라스미드 내로 조합될 수 있다. 유사한 패키징 세포 및 방법은 다른 바이러스, 예컨대 레트로바이러스에 사용될 수 있다.

AAV의 다수의 혈청형이 식별되었다. 이들 혈청형은, 이들이 감염시키는 세포의 유형이 상이하여(즉, 이의 향성(tropism)), 특정 세포 유형의 선호적인 형질도입을 가능하게 한다. CNS 조직에 대한 혈청형은 AAV1, AAV2, AAV4, AAV5, AAV8, 및 AAV9를 포함한다. 심장 조직에 대한 혈청형은 AAV1, AAV8, 및 AAV9를 포함한다. 신장 조직에 대한 혈청형은 AAV2를 포함한다. 폐 조직에 대한 혈청형은 AAV4, AAV5, AAV6, 및 AAV9를 포함한다. 췌장 조직에 대한 혈청형은 AAV8를 포함한다. 광수용기 세포에 대한 혈청형은 AAV2, AAV5, 및 AAV8을 포함한다. 망막 색소 상피 조직에 대한 혈청형은 AAV1, AAV2, AAV4, AAV5, 및 AAV8을 포함한다. 골격근 조직에 대한 혈청형은 AAV1, AAV6, AAV7, AAV8, 및 AAV9를 포함한다. 간 조직에 대한 혈청형은 AAV7, AAV8, 및 AAV9, 특히 AAV8을 포함한다.

향성은 위형화(pseudotyping)을 통해 추가로 정제(refined)될 수 있으며, 이는 상이한 바이러스 혈청형으로부터의 캡시드 및 게놈의 혼합이다. 예를 들어 AAV2/5는 혈청형 5로부터의 캡시드에 패키징된 혈청형 2의 게놈을 함유하는 바이러스를 나타낸다. 위형화된 바이러스의 사용은 형질도입 효율을 향상시킬 뿐만 아니라, 향성을 변경시킬 수 있다. 상이한 혈청형으로부터 유래된 하이브리드 캡시드는 또한, 바이러스 향성을 변경시키는 데 사용될 수 있다. 예를 들어, AAV-DJ는 8개의 혈청형으로부터의 하이브리드 캡시드를 함유하고, 생체내에서 광범위한 세포 유형에 걸쳐 높은 감염성을 나타낸다. AAV-DJ8은 AAV-DJ의 특성을 나타내지만 증강된 뇌 흡수(uptake)를 갖는 또 다른 예이다. AAV 혈청형은 또한, 돌연변이를 통해 변형될 수 있다. AAV2의 돌연변이적 변형의 예는 Y444F, Y500F, Y730F, 및 S662V를 포함한다. AAV3의 돌연변이적 변형의 예는 Y705F, Y731F, 및 T492V를 포함한다. AAV6의 돌연변이적 변형의 예는 S663V 및 T492V를 포함한다. 다른 위형화된(pseudotyped)/변형된 AAV 변이체는 AAV2/1, AAV2/6, AAV2/7, AAV2/8, AAV2/9, AAV2.5, AAV8.2, 및 AAV/SASTG를 포함한다.

이식유전자 발현을 가속화하기 위해, 자가-상보적 AAV(scAAV) 변이체가 사용될 수 있다. AAV는 AAV의 단일-가닥 DNA 게놈의 상보적 가닥을 합성하기 위해 세포의 DNA 복제 머시너리에 의존하기 때문에, 이식유전자 발현이 지연될 수 있다. 이러한 지연을 해결하기 위해, 감염 시 자발적으로 어닐링할 수 있는 상보적 서열을 함유하는 scAAV가 사용되어, 숙주 세포 DNA 합성을 위한 요건을 배제할 수 있다. 그러나, 단일-가닥 AAV(ssAAV) 벡터가 또한 사용될 수 있다.

패키징 용량(capacity)을 증가시키기 위해, 더 긴 이식전자는 2개의 AAV 이전 플라스미드 사이에서 분할될 수 있으며, 제1 AAV는 3' 스플라이스 공여자이고 제2 AAV는 5' 스플라이스 수용기이다. 세포의 공동-감염 시, 이들 바이러스는 콘카테머(concatemer)를 형성하며, 함께 스플라이싱되고, 전장 이식유전자는 발현될 수 있다. 이는 더 장기적인 이식유전자 발현을 가능하게 하지만, 발현은 덜 효율적이다. 용량(capacity)을 증가시키기 위한 유사한 방법은 상동성 재조합을 이용한다. 예를 들어, 이식유전자는, 공동-발현이 전장 이식유전자의 상동성 재조합 및 발현을 유도하도록 2개의 이전 플라스미드 사이에서 그러나 실질적인 서열 중첩을 갖고 나눠질 수 있다.

핵산 및 단백질의 도입은 또한, 지질 나노입자(LNP)-매개 전달에 의해 달성될 수 있다. 예를 들어, LNP-매개 전달은 Cas mRNA와 가이드 RNA의 조합 또는 Cas 단백질과 가이드 RNA의 조합을 전달하는 데 사용될 수 있다. 이러한 방법을 통한 전달은 일시적인 Cas 발현을 초래하며, 생분해성 지질은 청소율(clearance)을 향상시키며, 내약성(tolerability)을 향상시키고, 면역원성을 저하시킨다. 지질 제형은 생물학적 분자의 세포 흡수를 향상시키는 한편, 이들 분자를 분해로부터 보호할 수 있다. 지질 나노입자는 분자간 힘에 의해 서로 물리적으로 관련되어 있는 복수의 지질 분자를 포함하는 입자이다. 이들은 미소구체(microsphere)(유니라멜라(unilamellar) 및 멀티라멜라(multilamella) 소낭(vesicle), 예를 들어, 리포좀을 포함함), 에멀젼 중 분산상, 미쉘, 또는 현탁액 중 내부상(internal pahse)을 포함한다. 이러한 지질 나노입자는 전달을 위해 하나 이상의 핵산 또는 단백질을 캡슐화하는 데 사용될 수 있다. 양이온성 지질을 함유하는 제형은 다가음이온(polyanion), 예컨대 핵산을 전달하는 데 유용하다. 포함될 수 있는 다른 지질은 중성 지질(즉, 비하전된 또는 쌍성이온성(zwitterionic) 지질), 음이온성 지질, 형질주입을 증강시키는 헬퍼 지질, 및 나노입자가 생체내에서 존재할 수 있는 시간의 길이를 증가시키는 스텔스(stealth) 지질이다. 적합한 양이온성 지질, 중성 지질, 음이온성 지질, 헬퍼 지질, 및 스텔스 지질의 예는 예를 들어, 국제공개 WO 2016/010840 A1호에서 찾을 수 있으며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 예시적인 지질 나노입자는 양이온성 지질 및 하나 이상의 다른 성분을 포함할 수 있다. 일례에서, 다른 성분은 헬퍼 지질, 예컨대 콜레스테롤을 포함할 수 있다. 또 다른 예에서, 다른 성분은 헬퍼 지질, 예컨대 콜레스테롤 및 중성 지질, 예컨대 DSPC를 포함할 수 있다. 또 다른 예에서, 다른 성분은 헬퍼 지질, 예컨대 콜레스테롤, 선택적인 중성 지질, 예컨대 DSPC, 및 스텔스 지질, 예컨대 S010, S024, S027, S031, 또는 S033을 포함할 수 있다.

LNP는 하기 중 하나 이상 또는 모두를 함유할 수 있다: (i) 캡슐화를 위한 그리고 엔도솜 탈출(endosomal escape)을 위한 지질; (ii) 안정화를 위한 중성 지질; (iii) 안정화를 위한 헬퍼 지질; 및 (iv) 스텔스 지질. 예를 들어, 문헌[Finn 등 (2018) Cell Reports 22:1-9] 및 국제공개 WO 2017/173054 A1호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 소정의 LNP에서, 카고는 가이드 RNA, 또는 가이드 RNA를 인코딩하는 핵산을 포함할 수 있다. 소정의 LNP에서, 카고는 Cas 뉴클레아제, 예컨대 Cas9를 인코딩하는 mRNA, 및 가이드 RNA, 또는 가이드 RNA를 인코딩하는 핵산을 포함할 수 있다.

캡슐화 및 엔도솜 탈출을 위한 지질은 양이온성 지질일 수 있다. 지질은 또한, 생분해성 지질, 예컨대 생분해성 이온화 가능한 지질일 수 있다. 적합한 지질의 일례는 지질 A 또는 LP01이며, 이는 3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 (9Z,12Z)-옥타데카-9,12-디에노에이트라고도 하는 (9Z,12Z)-3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 옥타데카-9,12-디에노에이트이다. 예를 들어, 문헌[Finn 등 (2018) Cell Reports 22:1-9] 및 국제공개 WO 2017/173054 A1호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 적합한 지질의 또 다른 예는 지질 B이며, 이는 ((5-((디메틸아미노)메틸)-1,3-페닐렌)비스(옥시))비스(옥탄-8,1-디일)비스(데카노에이트)라고도 하는 ((5-((디메틸아미노)메틸)-1,3-페닐렌)비스(옥시))비스(옥탄-8,1-디일)비스(데카노에이트)이다. 적합한 지질의 또 다른 예는 지질 C이며, 이는 2-((4-(((3-(디메틸아미노)프로폭시)카르보닐)옥시)헥사데카노일)옥시)프로판-1,3-디일(9Z,9'Z,12Z,12'Z)-비스(옥타데카-9,12-디에노에이트)이다. 적합한 지질의 또 다른 예는 지질 D이며, 이는 3-(((3-(디메틸아미노)프로폭시)카르보닐)옥시)-13-(옥타노일옥시)트리데실 3-옥틸운데카노에이트이다. 다른 적합한 지질은 헵타트리아콘타-6,9,28,31-테트라엔-19-일 4-(디메틸아미노)부타노에이트(Dlin-MC3-DMA(MC3)로도 알려져 있음)를 포함한다.

본원에 기재된 LNP에서 사용하기에 적합한 일부 이러한 지질은 생체내에서 생분해성이다. 예를 들어, 이러한 지질을 포함하는 LNP는 적어도 75%의 지질이 8, 10, 12, 24 또는 48시간, 또는 3, 4, 5, 6, 7 또는 10일 내에 혈장으로부터 청소되는 것을 포함한다. 또 다른 예로, 적어도 50%의 LNP는 8, 10, 12, 24 또는 48시간, 또는 3, 4, 5, 6, 7 또는 10일 내에 혈장으로부터 청소된다.

이러한 지질은 이것이 존재하는 배지의 pH에 따라 이온화 가능할 수 있다. 예를 들어, 약간의 산성 배지에서, 지질은 양성자화(protonate)되어서 양전하를 보유할 수 있다. 대조적으로, 예를 들어, pH가 대략 7.35인 혈액과 같은 약간의 염기성 배지에서, 지질은 양성화되지 않으므로 전하를 보유하지 않을 수 있다. 일부 구현예에서, 지질은 적어도 약 9, 9.5, 또는 10의 pH에서 양성자화될 수 있다. 전하를 보유하는 이러한 지질의 능력은 이의 내재성(intrinsic) pKa와 관련이 있다. 예를 들어, 지질은 독립적으로, 약 5.8 내지 약 6.2 범위의 pKa를 가질 수 있다.

중성 지질은 LNP의 가공을 안정화시키고 향상시키는 작용을 한다. 적합한 중성 지질의 예는 여러 가지 중성, 비하전된 또는 쌍성이온성(zwitterionic) 지질을 포함한다. 본 개시내용에 사용하기에 적합한 중성 인지질의 예는 5- 헵타데실벤젠-1,3-디올(레조르시놀), 디팔미토일포스파티딜콜린(DPPC), 디스테아로일포스파티딜콜린(DSPC), 포스포콜린(DOPC), 디미리스토일포스파티딜콜린(DMPC), 포스파티딜콜린(PLPC), 1,2-디스테아로일-sn-글리세로-3-포스포콜린(DAPC), 포스파티딜에탄올아민(PE), 달걀(egg) 포스파티딜콜린(EPC), 디라우릴로일포스파티딜콜린(DLPC), 디미리스토일포스파티딜콜린(DMPC), 1-미리스토일-2-팔미토일 포스파티딜콜린(MPPC), 1-팔미토일-2-미리스토일 포스파티딜콜린(PMPC), 1-팔미토일-2-스테아로일 포스파티딜콜린(PSPC), 1,2-디아라키도일-sn-글리세로-3-포스포콜린(DBPC), 1-스테아로일-2-팔미토일 포스파티딜콜린(SPPC), 1,2-디에이코세노일-sn-글리세로-3-포스포콜린(DEPC), 팔미토일올레오일 포스파티딜콜린(POPC), 리소포스파티딜 콜린, 디올레오일 포스파티딜에탄올아민(DOPE), 디리놀레오일포스파티딜콜린 디스테아로일포스파티딜에탄올아민(DSPE), 디미리스토일 포스파티딜에탄올아민(DMPE), 디팔미토일 포스파티딜에탄올아민(DPPE), 팔미토일올레오일 포스파티딜에탄올아민(POPE), 리소포스파티딜에탄올아민, 및 이들의 조합을 포함하지만 이들로 제한되지는 않는다. 예를 들어, 중성 인지질은 디스테아로일포스파티딜콜린(DSPC) 및 디미리스토일 포스파티딜 에탄올아민(DMPE)으로 이루어진 군으로부터 선택될 수 있다.

헬퍼 지질은 형질주입을 증강시키는 지질을 포함한다. 헬퍼 지질이 형질주입을 증강시키는 기전은 입자 안정성을 증강시키는 단계를 포함할 수 있다. 소정의 경우, 헬퍼 지질은 막 융합원성(fusogenicity)을 증강시킬 수 있다. 헬퍼 지질은 스테로이드, 스테롤, 및 알킬 레조르시놀을 포함한다. 적합한 헬퍼 지질의 예는 적합한 콜레스테롤, 5-헵타데실레조르시놀, 및 콜레스테롤 헤미숙시네이트를 포함한다. 일례에서, 헬퍼 지질은 콜레스테롤 또는 콜레스테롤 헤미숙시네이트일 수 있다.

스텔스 지질은, 나노입자가 생체내에서 존재할 수 있는 시간의 길이를 변경시키는 지질을 포함한다. 스텔스 지질은 예를 들어, 입자 응집을 감소시키고 입자 크기를 제어함으로써 제형 과정에 일조할 수 있다. 스텔스 지질은 LNP의 약물동력학적 특성을 조절할 수 있다. 적합한 스텔스 지질은 지질 모이어티에 연결된 친수성 헤드 기(head group)를 갖는 지질을 포함한다.

스텔스 지질의 친수성 헤드 기는 예를 들어, PEG(이따금 폴리(에틸렌 옥사이드)로 지칭됨), 폴리(옥사졸린), 폴리(비닐 알코올), 폴리(글리세롤), 폴리(N- 비닐피롤리돈), 폴리아미노산, 및 폴리 N-(2-하이드록시프로필)메타크릴아미드에 기초한 중합체로부터 선택되는 중합체 모이어티를 포함할 수 있다. 용어 PEG는 임의의 폴리에틸렌 글리콜 또는 다른 폴리알킬렌 에테르 중합체를 의미한다. 소정의 LNP 제형에서, PEG는 PEG 2000이라고도 하는 PEG-2K이며, 이는 약 2,000 달톤의 평균 분자량을 갖는다. 예를 들어, WO 2017/173054 A1호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

스텔스 지질의 지질 모이어티는 예를 들어, 독립적으로 약 C4 내지 약 C40 포화된 또는 불포화된 탄소 원자를 포함하는 알킬 사슬 길이를 갖는 디알킬글리세롤 또는 디알킬글리카미드 기를 포함하는 것을 포함하여 디아실글리세롤 또는 디아실글리카미드로부터 유래될 수 있으며, 상기 사슬은 예를 들어, 아미드 또는 에스테르와 같은 하나 이상의 작용기를 포함할 수 있다. 디알킬글리세롤 또는 디알킬글리카미드 기는 하나 이상의 치환된 알킬기를 추가로 포함할 수 있다.

일례로서, 스텔스 지질은 PEG-디라우로일글리세롤, PEG-디미리스토일글리세롤(PEG-DMG), PEG-디팔미토일글리세롤, PEG-디스테아로일글리세롤(PEG-DSPE), PEG-디라우일글리카미드, PEG-디미리스틸글리카미드, PEG-디팔미토일글리카미드, 및 PEG-디스테아로일글리카미드, PEG-콜레스테롤(l-[8'-(콜레스트-5-엔-3[베타]-옥시)카르복사미도-3',6'-디옥사옥타닐]카르바모일-[오메가]-메틸-폴리(에틸렌 글리콜), PEG-DMB(3,4-디테트라데콕실벤질-[오메가]-메틸-폴리(에틸렌 글리콜)에테르), 1,2-디미리스토일-sn- 글리세로-3-포스포에탄올아민-N-[메톡시(폴리에틸렌 글리콜)-2000](PEG2k-DMG), 1,2-디스테아로일-sn-글리세로-3-포스포에탄올아민-N-[메톡시(폴리에틸렌 글리콜)-2000](PEG2k-DSPE), 1,2-디스테아로일-sn-글리세롤, 메톡시폴리에틸렌 글리콜(PEG2k-DSG), 폴리(에틸렌 글리콜)-2000-디메타크릴레이트(PEG2k-DMA), 및 1,2-디스테아릴옥시프로필-3-아민-N-[메톡시(폴리에틸렌 글리콜)-2000](PEG2k-DSA)으로부터 선택될 수 있다. 하나의 특정 예에서, 스텔스 지질은 PEG2k-DMG일 수 있다.

LNP는 상이한 각각의 몰비의 성분 지질을 제형에 포함할 수 있다. CCD 지질의 몰%는 예를 들어, 약 30 몰% 내지 약 60 몰%, 약 35 몰% 내지 약 55 몰%, 약 40 몰% 내지 약 50 몰%, 약 42 몰% 내지 약 47 몰%, 또는 약 45%일 수 있다. 헬퍼 지질의 몰%는 예를 들어, 약 30 몰% 내지 약 60 몰%, 약 35 몰% 내지 약 55 몰%, 약 40 몰% 내지 약 50 몰%, 약 41 몰% 내지 약 46 몰%, 또는 약 44 몰%일 수 있다. 중성 지질의 몰%는 예를 들어, 약 1 몰% 내지 약 20 몰%, 약 5 몰% 내지 약 15 몰%, 약 7 몰% 내지 약 12 몰%, 또는 약 9 몰%일 수 있다. 스텔스 지질의 몰%는 예를 들어, 약 1 몰% 내지 약 10 몰%, 약 1 몰% 내지 약 5 몰%, 약 1 몰% 내지 약 3 몰%, 약 2 몰%, 또는 약 1 몰%일 수 있다.

LNP는, 캡슐화되는 생분해성 지질의 양으로 하전된 아민기(N)와 핵산의 음으로 하전된 포스페이트기(P) 사이에서 상이한 비를 가질 수 있다. 이는 방정식 N/P에 의해 수학적으로 표시될 수 있다. 예를 들어, N/P 비는 약 0.5 내지 약 100, 약 1 내지 약 50, 약 1 내지 약 25, 약 1 내지 약 10, 약 1 내지 약 7, 약 3 내지 약 5, 약 4 내지 약 5, 약 4, 약 4.5, 또는 약 5일 수 있다. N/P 비는 또한, 약 4 내지 약 7, 또는 약 4.5 내지 약 6일 수 있다. 구체적인 예에서, N/P 비는 4.5일 수 있거나 6일 수 있다.

일부 LNP에서, 카고는 Cas mRNA 및 gRNA를 포함할 수 있다. Cas mRNA 및 gRNA는 상이한 비로 존재할 수 있다. 예를 들어, LNP 제형은 약 25:1 내지 약 1:25 범위, 약 10:1 내지 약 1:10 범위, 약 5:1 내지 약 1:5 범위, 또는 약 1:1의 Cas mRNA : gRNA 핵산의 비를 포함할 수 있다. 대안적으로, LNP 제형은 약 1:1 내지 약 1:5, 또는 약 10:1의 Cas mRNA : gRNA 핵산의 비를 포함할 수 있다. 대안적으로, LNP 제형은 약 1:10, 25:1, 10:1, 5:1, 3:1, 1:1, 1:3, 1:5, 1:10, 또는 1:25의 Cas mRNA : gRNA 핵산의 비를 포함할 수 있다. 대안적으로, LNP 제형은 약 1:1 내지 약 1:2의 Cas mRNA : gRNA 핵산의 비를 포함할 수 있다. 구체적인 예에서, Cas mRNA : gRNA의 비는 약 1:1 또는 약 1:2일 수 있다.

일부 LNP에서, 카고는 외인성 공여자 핵산 및 gRNA를 포함할 수 있다. 외인성 공여자 핵산 및 gRNA는 상이한 비로 존재할 수 있다. 예를 들어, LNP 제형은 약 25:1 내지 약 1:25 범위, 약 10:1 내지 약 1:10 범위, 약 5:1 내지 약 1:5 범위, 또는 약 1:1의 외인성 공여자 핵산 : gRNA 핵산의 비를 포함할 수 있다. 대안적으로, LNP 제형은 약 1:1 내지 약 1:5, 약 5:1 내지 약 1:1, 약 10:1, 또는 약 1:10의 외인성 공여자 핵산 : gRNA 핵산의 비를 포함할 수 있다. 대안적으로, LNP 제형은 약 1:10, 25:1, 10:1, 5:1, 3:1, 1:1, 1:3, 1:5, 1:10, 또는 1:25의 외인성 공여자 핵산 : gRNA 핵산의 비를 포함할 수 있다.

적합한 LNP의 구체적인 예는 4.5의 질소-대-포스페이트(N/P) 비를 가지며, 45:44:9:2 몰비의 생분해성 양이온성 지질, 콜레스테롤, DSPC, 및 PEG2k-DMG를 함유한다. 생분해성 양이온성 지질은 3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 (9Z,12Z)-옥타데카-9,12-디에노에이트라고도 하는 (9Z,12Z)-3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 옥타데카-9,12-디에노에이트일 수 있다. 예를 들어, 문헌[Finn 등 (2018) Cell Reports 22:1-9]를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. Cas9 mRNA는 가이드 RNA에 대해 1:1의 중량비로 존재할 수 있다. 적합한 LNP의 또 다른 구체적인 예는 Dlin-MC3-DMA(MC3), 콜레스테롤, DSPC, 및 PEG-DMG를 50:38.5:10:1.5 몰비로 함유한다.

적합한 LNP의 구체적인 또 다른 예는 6의 질소-대-포스페이트(N/P) 비를 가지며, 50:38:9:3 몰비의 생분해성 양이온성 지질, 콜레스테롤, DSPC, 및 PEG2k-DMG를 함유한다. 생분해성 양이온성 지질은 3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 (9Z,12Z)-옥타데카-9,12-디에노에이트라고도 하는 (9Z,12Z)-3-((4,4-비스(옥틸옥시)부타노일)옥시)-2-((((3-(디에틸아미노)프로폭시)카르보닐)옥시)메틸)프로필 옥타데카-9,12-디에노에이트일 수 있다. Cas9 mRNA는 가이드 RNA에 대해 1:2의 중량비로 존재할 수 있다.

전달 모드는 면역원성을 저하시키도록 선택될 수 있다. 예를 들어, Cas 단백질 및 gRNA는 상이한 모드에 의해 전달될 수 있다(예를 들어, 쌍봉형(bi-modal) 전달). 이들 상이한 모드는 대상체에게 전달되는 분자(예를 들어, Cas 또는 핵산 인코딩, gRNA 또는 핵산 인코딩, 또는 외인성 공여자 핵산/수선 주형)에게 상이한 약물역학적(pharmacodynamic) 또는 약물동력학적 특성을 부여할 수 있다. 예를 들어, 상이한 모드는 상이한 조직 분포, 상이한 반감기, 또는 상이한 시간적(temporal) 분포를 초래할 수 있다. 일부 전달 모드(예를 들어, 세포에서 자율 복제(autonomous replication) 또는 게놈 통합에 의해 지속되는 핵산 벡터의 전달)는 분자의 더욱 지속적인 발현 및 존재를 초래하는 반면, 다른 모드의 전달은 일시적이고 덜 지속적이다(예를 들어, RNA 또는 단백질의 전달). 예를 들어, Cas 단백질의 더욱 일시적인 방식, mRNA 또는 단백질로서의 전달은, Cas/gRNA 복합체가 단지 단기간 동안 존재하고 활성임을 보장할 수 있고, MHC 분자에 의해 세포의 표면 상에 제시되는 박테리아-유래 Cas 효소로부터의 펩타이드에 의해 야기되는 면역원성을 감소시킬 수 있다. 이러한 일시적인 전달은 또한, 표적-외(off-target) 변형의 가능성을 감소시킬 수 있다.

생체내 투여는 예를 들어, 비경구, 정맥내, 경구, 피하, 동맥내, 두개내, 수막공간내, 복강내, 국소, 비내(intranasal), 또는 근육내를 포함하여 임의의 적합한 경로에 의한 것일 수 있다. 전신 투여 모드는 예를 들어, 경구 및 비경구 경로를 포함한다. 비경구 경로의 예는 정맥내, 동맥내, 골내(intraosseous), 근육내, 피내, 피하, 비내, 및 복강내 경로를 포함한다. 구체적인 예는 정맥내 주입이다. 비내 점적 및 유리체내 주사는 다른 구체적인 예이다. 국소 투여 모드는 예를 들어, 수막공간내, 뇌실내(intracerebroventricular), 실질내(예를 들어, 선조체(striatum)로의 실질내 전달(예를 들어, 미상핵(caudate) 내로 또는 조가비핵(putamen) 내로), 대뇌 피질(cerebral cortex), 중심전회(precentral gyrus), 해마(hippocampus)(예를 들어, 치상회(dentate gyrus) 또는 CA3 영역 내로), 측두 피질(temporal cortex), 편도체(amygdala), 전두 피질(frontal cortex), 시상(thalamus), 소뇌(cerebellum), 수질(medulla), 시상하부(hypothalamus), 덮개(tectum), 중뇌피개(tegmentum), 또는 흑색질), 안내(intraocular), 안와내(intraorbital), 결막하(subconjuctival), 유리체내(intravitreal), 망막하(subretinal), 및 경공막(transscleral) 경로를 포함한다. 유의하게 더 소량의 성분(전신 접근법과 비교하여)은 전신적으로(예를 들어, 정맥내로) 전달될 때와 비교하여 국소로(예를 들어, 실질내 또는 유리체내) 투여될 때 효과를 발휘할 수 있다. 국소 투여 모드는 또한, 치료적 유효량의 성분이 전신 투여될 때 발생할 수 있는 잠재적으로 독성 부작용의 발생을 감소시키거나 해소시킬 수 있다.

생체내 투여는 예를 들어, 비경구, 정맥내, 경구, 피하, 동맥내, 두개내, 수막공간내, 복강내, 국소, 비내(intranasal), 또는 근육내를 포함하여 임의의 적합한 경로에 의한 것일 수 있다. 구체적인 예는 정맥내 주입이다. 가이드 RNA 및/또는 Cas 단백질을 포함하는 조성물(또는 가이드 RNA 및/또는 Cas 단백질을 인코딩하는 핵산)은 하나 이상의 생리학적으로 그리고 약학적으로 허용 가능한 담체, 희석제, 부형제 또는 보조제를 사용하여 제형화될 수 있다. 제형은 선택된 투여 경로에 의존할 수 있다. 용어 "약학적으로 허용 가능한"은, 담체, 희석제, 부형제, 또는 보조제가 제형의 다른 성분과 상용성이고 이의 수혜자에게 실질적으로 유해하지 않음을 의미한다.

투여 빈도 및 투약 수는 인성 공여자 핵산, 가이드 RNA, 또는 Cas 단백질(또는 가이드 RNA 또는 Cas 단백질을 인코딩하는 핵산)의 반감기 및 다른 인자 중에서도 투여 경로에 의존할 수 있다. 세포 또는 비-인간 동물 내로의 핵산 또는 단백질의 도입은 기간에 걸쳐 1회 또는 다회 수행될 수 있다. 예를 들어, 도입은 기간에 걸쳐 적어도 2회, 기간에 걸쳐 적어도 3회, 기간에 걸쳐 적어도 4회, 기간에 걸쳐 적어도 5회, 기간에 걸쳐 적어도 6회, 기간에 걸쳐 적어도 7회, 기간에 걸쳐 적어도 8회, 기간에 걸쳐 적어도 9회, 기간에 걸쳐 적어도 10회, 적어도 11회, 기간에 걸쳐 적어도 12회, 기간에 걸쳐 적어도 13회, 기간에 걸쳐 적어도 14회, 기간에 걸쳐 적어도 15회, 기간에 걸쳐 적어도 16회, 기간에 걸쳐 적어도 17회, 기간에 걸쳐 적어도 18회, 기간에 걸쳐 적어도 19회, 또는 기간에 걸쳐 적어도 20회 수행될 수 있다.

E. 생체내에서 또는 생체외에서 인간-알부민-표적화 시약의 전달, 활성, 또는 효능의 측정

본원에 개시된 방법은 인간-알부민-표적화 시약의 활성을 검출하거나 측정하는 단계를 추가로 포함할 수 있다. 예를 들어, 인간-알부민-표적화 시약이 게놈 편집 시약(예를 들어, 인간 알부민 좌위를 표적화하도록 설계된 CRISPR/Cas)이라면, 측정은 변형을 위해 인간화 알부민 좌위를 평가하는 단계를 포함할 수 있다.

다양한 방법은 표적화된 유전적 변형을 갖는 세포를 식별하는 데 사용될 수 있다. 스크리닝은 부모(parental) 염색체의 대립유전자의 변형(MOA: modification-of-allele)을 평가하기 위한 정량적 검정을 포함할 수 있다. 예를 들어, 미국 특허출원공개 US 2004/0018626호; 미국 특허출원공개 US 2014/0178879호; 미국 특허출원공개 US 2016/0145646호; 국제공개 WO 2016/081923호; 및 문헌[Frendewey 등 (2010) Methods Enzymol. 476:295-307]을 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 예를 들어, 정량적 검정은 정량적 PCR, 예컨대 실시간 PCR(qPCR)을 통해 수행될 수 있다. 실시간 PCR은, 표적 좌위를 인식하는 제1 프라이머 세트 및 비-표적화된 기준 좌위를 인식하는 제2 프라이머 세트를 이용할 수 있다. 프라이머 세트는 증폭된 서열을 인식하는 형광 프로브를 포함할 수 있다. 적합한 정량적 검정의 다른 예는 형광-매개 인 시추 혼성화(FISH: fluorescence-mediated in situ hybridization), 비교 게놈 혼성화(comparative genomic hybridization), 등온 DNA 증폭(isothermic DNA amplication), 고정된 프로브(들)에의 정량적 혼성화, INVADER^® 프로브, TAQMAN^® Molecular Beacon 프로브, 또는 ECLIPSE™ 프로브 기술(예를 들어, US 2005/0144655를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함됨)을 포함한다.

차세대 시퀀싱(NGS: next-generation sequencing)이 또한 스크리닝에 사용될 수 있다. 차세대 시퀀싱은 또한 "NGS" 또는 "대규모 병렬 시퀀싱(massively parallel sequencing)" 또는 "고 처리량 시퀀싱(high throughput sequencing)"으로 지칭될 수 있다. NGS는, 표적화된 유전적 변형의 정확한 성질, 그리고 이것이 세포 유형 또는 조직 유형 또는 기관 유형에 걸쳐 일관되는지의 여부를 정의하기 위해 MOA 검정 외에도 스크리닝 툴로서 사용될 수 있다.

비-인간 동물에서 인간화 알부민 좌위의 변형을 평가하는 것은 임의의 조직 또는 기관으로부터의 임의의 세포 유형에 있을 수 있다. 예를 들어, 평가는 동일한 조직 또는 기관으로부터의 다수의 세포 유형에서 또는 조직 또는 기관 내의 다수의 위치로부터의 세포에서 수행될 수 있다. 이는, 표적 조직 또는 기관 내의 어떤 세포 유형이 표적화되고 있는지 또는 조직 또는 기관의 어떤 선택이 인간-알부민-표적화 시약에 의해 도달되고 있는지에 대한 정보를 제공할 수 있다. 또 다른 예로서, 평가는 다수의 유형의 조직에서 또는 다수의 기관에서 수행될 수 있다. 특정 조직, 기관, 또는 세포 유형이 표적화되는 방법에서, 이는 해당 조직 또는 기관이 얼마나 효과적으로 표적화되는지 그리고 다른 조직 또는 기관에서 표적-외 효과가 존재하는지의 여부에 대한 정보를 제공할 수 있다.

시약이 인간화 알부민 좌위를 비활성화시키거나, 인간화 알부민 좌위의 발현에 영향을 미치거나, 인간화 알부민 mRNA의 번역을 방지하거나, 인간화 알부민 단백질을 청소(clear)하도록 설계된다면, 측정은 인간화 알부민 mRNA 또는 단백질 발현을 평가하는 단계를 포함할 수 있다. 이러한 측정은 간 또는 간 내의 특정 세포 유형 또는 영역 내에서 수행될 수 있거나, 측정은 분비된 인간화 알부민 단백질의 혈청 수준을 측정하는 단계를 수반할 수 있다.

시약이 야생형 내인성 알부민 좌위에 의해 인코딩되지 않거나 발현되지 않는 외인성 단백질을 인코딩하는 외인성 공여자 핵산이라면, 측정은 외인성 공여자 핵산에 의해 인코딩되는 mRNA의 발현을 평가하거나 외인성 단백질의 발현을 평가하는 단계를 포함할 수 있다. 이러한 측정은 간 또는 간 내의 특정 세포 유형 또는 영역 내에서 수행될 수 있거나, 측정은 분비된 외인성 단백질의 혈청 수준을 측정하는 단계를 수반할 수 있다. 구체적인 예에서, 외인성 단백질은 인자 IX 단백질이다. 선택적으로, 평가는 비-인간 동물에서 인자 IX 단백질의 혈청 수준을 측정하는 단계를 포함하고/하거나 활성화된 부분 트롬보플라스틴 시간을 평가하거나 트롬빈 생산 검정을 수행하는 단계를 포함한다. 선택적으로, 비-인간 동물은 비활성화된 F9 좌위를 추가로 포함하고, 평가는 비-인간 동물에서 인자 IX 단백질의 혈청 수준을 측정하는 단계를 포함하고/하거나 활성화된 부분 트롬보플라스틴 시간(aPTT)을 평가하거나 트롬빈 생산 검정(TGA)을 수행하는 단계를 포함한다. 이들 검정은 실시예에 더 상세히 기재되어 있다.

사용될 수 있는 검정의 일례는 BASESCOPE™ RNA 인시추 혼성화(ISH) 검정이며, 이는 무손상 고정된 조직의 맥락에서 단일 뉴클레오타이드 변화를 포함하여 세포-특이적 편집된 전사물을 정량화할 수 있는 방법이다. BASESCOPE™ RNA ISH 검정은 유전자 편집의 특징화에서 NGS 및 qPCR을 보완할 수 있다. NGS/qPCR이 야생형 서열 및 편집된 서열의 정량적 평균 값을 제공할 수 있는 반면, 이들은 조직 내의 편집된 세포의 이종성(heterogeneity) 또는 백분율에 대한 어떠한 정보도 제공하지 않는다. BASESCOPE™ ISH 검정은 전체 조직의 랜드스케이프 뷰(landscape view) 및 단일-세포 분해능(resolution)을 이용한 야생형 대(versus) 편집된 전사물의 정량화를 제공할 수 있으며, 여기서, 편집된 mRNA 전사물을 함유하는 표적 조직 내의 세포의 실제 수가 정량화될 수 있다. BASESCOPE™ 검정은, 쌍형성된(paired) 올리고("ZZ") 프로브를 사용한 단일-분자 RNA 검출을 달성하여, 비-특이적 배경 없이 신호를 증폭시킨다. 그러나, BASESCOPE™ 프로브 설계 및 신호 증폭 시스템은 ZZ 프로브를 이용한 단일-분자 RNA 검출을 가능하게 하고, 이는 무손상 고정된 조직에서 단일 뉴클레오타이드 편집 및 돌연변이를 차별적으로 검출할 수 있다.

인간화 알부민 단백질 또는 외인성 단백질의 생성 및 분비는 임의의 기지의 수단에 의해 평가될 수 있다. 예를 들어, 발현은 인코딩된 mRNA의 수준을 비-인간 동물의 간에서 또는 인코딩된 단백질의 수준을 비-인간 동물의 간에서 기지의 방법을 사용하여 측정함으로써 평가될 수 있다. 인간화 알부민 단백질 또는 외인성 단백질의 분비는 인코딩된 인간화 알부민 단백질 또는 외인성 단백질의 혈장 수준 또는 혈청 수준을 비-인간 동물에서 기지의 검정을 사용하여 측정함으로써 평가될 수 있다.

IV. 인간화 알부민 좌위를 포함하는 비-인간 동물을 제조하는 방법

다양한 방법은 본원 어디에서나 개시된 바와 같은 인간화 알부민(ALB) 좌위를 포함하는 비-인간 동물 게놈, 비-인간 동물 세포, 또는 비-인간 동물의 제조를 위해 제공된다. 유전적으로 변형된 유기체를 생성하기 위한 임의의 편리한 방법 또는 프로토콜은 이러한 유전적으로 변형된 비-인간 동물을 생성하는 데 적합하다. 예를 들어, 문헌[Cho 등 (2009) Current Protocols in Cell Biology 42:19.11:19.11.1-19.11.22] 및 문헌[Gama Sosa 등 (2010) Brain Struct. Funct. 214(2-3):91-109]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 이러한 유전적으로 변형된 비-인간 동물은 예를 들어, 표적화된 알부민 좌위에서 유전자 넉인(gene knock-in)을 통해 생산될 수 있다.

예를 들어, 인간화 알부민 좌위를 포함하는 비-인간 동물을 생성하는 방법은 (1) 인간화 알부민 좌위를 포함하도록 만능성 세포의 게놈을 변형시키는 단계; (2) 상기 인간화 알부민 좌위를 포함하는 유전적으로 변형된 만능성 세포를 식별하거나 선택하는 단계; (3) 상기 유전적으로 변형된 만능성 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및 (4) 상기 숙주 배아를 대리모에 착상시키고 임신시키는 단계를 포함할 수 있다. 예를 들어, 인간화 알부민 좌위를 포함하는 비-인간 동물을 생성하는 방법은 (1) 인간화 알부민 좌위를 포함하도록 만능성 세포의 게놈을 변형시키는 단계; (2) 상기 인간화 알부민 좌위를 포함하는 유전적으로 변형된 만능성 세포를 식별하거나 선택하는 단계; (3) 상기 유전적으로 변형된 만능성 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및 (4) 상기 숙주 배아를 대리모에 임신시키는 단계를 포함할 수 있다. 선택적으로, 변형된 만능성 세포(예를 들어, 비-인간 ES 세포)를 포함하는 숙주 배아는, F0 비-인간 동물을 생성하기 위해 대리모 내로 착상되고 임신되기 전에 배반포 단계까지 인큐베이션될 수 있다. 그 후에, 대리모는 인간화 알부민 좌위를 포함하는 F0 세대 비-인간 동물을 생성할 수 있다.

상기 방법은 변형된 표적 게놈 좌위를 갖는 세포 또는 동물을 식별하는 단계를 추가로 포함할 수 있다. 다양한 방법은 표적화된 유전적 변형을 갖는 세포 및 동물을 식별하는 데 사용될 수 있다.

게놈을 변형시키는 단계는 예를 들어, 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 이용하여, 본원에 개시된 인간화 알부민 좌위를 포함하도록 알부민 좌위를 변형시킬 수 있다. 일례로서, 표적화 벡터는 내인성 알부민 좌위(예를 들어, 내인성 비-인간 동물 알부민 좌위)에서 인간화 알부민 유전자를 생산하기 위한 것일 수 있으며, 상기 표적화 벡터는 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암 및 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암을 포함한다. 외인성 공여자 핵산은 또한, 알부민 좌위에 통합될 DNA의 분절을 포함하는 핵산 삽입물을 포함할 수 있다. 알부민 좌위에서 핵산 삽입물의 통합은 상기 알부민 좌위에의 관심 핵산 서열의 첨가, 상기 알부민 좌위에서 관심 핵산 서열의 결실, 또는 상기 알부민 좌위에서 관심 핵산 서열의 대체(즉, 결실 및 삽입)를 초래할 수 있다. 상동성 아암은 인간 알부민 서열을 포함하는 삽입물 핵산을 플랭킹하여 인간화 알부민 좌위를 생산할 수 있다(예를 들어, 내인성 알부민 좌위의 분절을 결실시키고 이종상동성 인간 알부민 서열을 대체하기 위함).

외인성 공여자 핵산은 비-상동성-말단-접합-매개 삽입 또는 상동성 재조합을 위한 것일 수 있다. 외인성 공여자 핵산은 데옥시리보핵산(DNA) 또는 리보핵산(RNA)을 포함할 수 있으며, 이들 핵산은 단일-가닥 또는 이중-가닥일 수 있고, 이들 핵산은 선형 또는 원형 형태일 수 있다. 예를 들어, 수선 주형은 단일-가닥 올리고데옥시뉴클레오타이드(ssODN)일 수 있다.

외인성 공여자 핵산은 또한, 비표적화된 내인성 알부민 좌위에 존재하지 않는 이종성 서열을 포함할 수 있다. 예를 들어, 외인성 공여자 핵산은 선택 카세트, 예컨대 재조합효소 인식 부위에 의해 플랭킹되는 선택 카세트를 포함할 수 있다.

일부 외인성 공여자 핵산은 상동성 아암을 포함한다. 외인성 공여자 핵산이 또한 핵산 삽입물을 포함한다면, 상동성 아암은 핵산 삽입물을 플랭킹할 수 있다. 기준의 용이성을 위해, 상동성 아암은 본원에서 5' 및 3'(즉, 업스트림 및 다운스트림) 상동성 아암으로 지칭된다. 이 용어는 외인성 공여자 핵산 내의 핵산 삽입물에 대한 상동성 아암의 상대 위치에 관한 것이다. 5' 및 3' 상동성 아암은 알부민 좌위 내의 영역에 상응하며, 이는 본원에서 각각 "5' 표적 서열" 및 "3' 표적 서열"로 지칭된다.

상동성 아암 및 표적 서열은, 2개의 영역이 서로 충분한 수준의 서열 동일성을 공유하여 상동성 재조합 반응에 대한 기질로서 작용할 때 서로 "상응한다" 또는 "상응하고" 있다. 용어 "상동성"은 상응하는 서열에 대해 동일하거나 서열 동일성을 공유하는 DNA 서열을 포함한다. 주어진 표적 서열과 외인성 공여자 핵산에서 확인된 상응하는 상동성 아암 사이의 서열 동일성은 상동성 재조합이 발생하게 하는, 서열 동일성의 임의의 정도일 수 있다. 예를 들어, 외인성 공여자 핵산(또는 이의 단편)의 상동성 아암 및 표적 서열(또는 이의 단편)에 의해 공유되는 서열 동일성의 양은 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 서열 동일성일 수 있으며, 따라서 서열은 상동성 재조합을 수행한다. 더욱이, 상동성 아암과 상응하는 표적 서열 사이의 상동성의 상응하는 영역은 상동성 재조합을 촉진하기에 충분한 임의의 길이일 수 있다. 일부 표적화 벡터에서, 내인성 알부민 좌위에서의 의도된 돌연변이는 상동성 아암에 의해 플랭킹된 삽입물 핵산에 포함된다.

1-세포 단계 배아 이외의 세포에서, 외인성 공여자 핵산은 "큰 표적화 벡터" 또는 "LTVEC"일 수 있으며, 이러한 벡터는, 세포에서 상동성 재조합을 수행하도록 의도된 다른 접근법에 의해 전형적으로 사용되는 것보다 더 큰 핵산 서열에 상응하고 이로부터 유래되는 상동성 아암을 포함하는 표적화 벡터를 포함한다. LTVEC는 또한, 세포에서 상동성 재조합을 수행하도록 의도된 다른 접근법에 의해 전형적으로 사용되는 것보다 더 큰 핵산 서열을 갖는 핵산 삽입물을 포함하는 표적화 벡터를 포함한다. 예를 들어, LTVEC는 이의 크기 제한때문에 전형적인 플라스미드-기초 표적화 벡터에 의해 수용될 수 없는 큰 좌위의 변형을 가능하게 한다. 예를 들어, 표적화된 좌위는, 종래의 방법을 사용하여 표적화 가능하지 않거나 뉴클레아제 제제(예를 들어, Cas 단백질)에 의해 유도되는 닉 또는 이중-가닥 절단부의 부재 하에 단지 올바르지 않게 또는 단지 유의하게 낮은 효율로 표적화될 수 있는 세포의 좌위일 수 있다(즉, 5' 상동성 아암 및 3' 상동성 아암은 이에 상응할 수 있음). LTVEC는 임의의 길이일 수 있고, 전형적으로 적어도 10 kb 길이이다. LTVEC 내 5' 상동성 아암 및 3' 상동성 아암의 총 합계는 전형적으로 적어도 10 kb이다.

스크리닝 단계는 예를 들어, 부모 염색체의 대립유전자의 변형(MOA)을 평가하기 위한 정량적 검정을 포함할 수 있다. 예를 들어, 정량적 검정은 정량적 PCR, 예컨대 실시간 PCR(qPCR)을 통해 수행될 수 있다. 실시간 PCR은, 표적 좌위를 인식하는 제1 프라이머 세트 및 비-표적화된 기준 좌위를 인식하는 제2 프라이머 세트를 이용할 수 있다. 프라이머 세트는 증폭된 서열을 인식하는 형광 프로브를 포함할 수 있다.

적합한 정량적 검정의 다른 예는 형광-매개 인 시추 혼성화(FISH), 비교 게놈 혼성화, 등온 DNA 증폭, 고정된 프로브(들)에의 정량적 혼성화, INVADER^® 프로브, TAQMAN^® Molecular Beacon 프로브, 또는 ECLIPSE™ 프로브 기술(예를 들어, US 2005/0144655를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함됨)을 포함한다.

적합한 만능성 세포의 일례는 배아 줄기(ES)세포(예를 들어, 마우스 ES 세포 또는 래트 ES 세포)이다. 변형된 만능성 세포는 예를 들어, (a) 예를 들어, 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹된 삽입물 핵산을 포함하는 하나 이상의 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간 알부민 서열을 포함하여 인간화 알부민 좌위를 생성하는, 단계; 및 (b) 내인성 알부민 좌위에 통합된 삽입물 핵산을 세포의 게놈에 포함하는 적어도 하나의 세포를 식별하는 단계(즉, 인간화 알부민 좌위를 포함하는 적어도 하나의 세포를 식별하는 단계)에 의한 재조합을 통해 생산될 수 있다. 변형된 만능성 세포는 예를 들어, (a) 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하는 하나 이상의 표적화 벡터를 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간화 알부민 좌위를 포함하는, 단계; 및 (b) 표적 게놈 좌위에 통합된 삽입물 핵산을 세포의 게놈에 포함하는 적어도 하나의 세포를 식별하는 단계에 의한 재조합을 통해 생산될 수 있다.

대안적으로, 변형된 만능성 세포는 (a) (i) 뉴클레아제 제제로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내의 표적 부위에서 닉 또는 이중-가닥 절단부를 유도하는, 뉴클레아제 제제; 및 (ii) 예를 들어, 뉴클레아제 표적 부위에 충분히 근접하게 놓이는 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 선택적으로 포함하는 하나 이상의 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간 알부민 서열을 포함하여 인간화 알부민 좌위를 생산하는, 단계; 및 (c) 내인성 알부민 좌위에 통합된 삽입물 핵산을 세포의 게놈에 포함하는 적어도 하나의 세포를 식별하는 단계(즉, 인간화 알부민 좌위를 포함하는 적어도 하나의 세포를 식별하는 단계)에 의해 생산될 수 있다. 대안적으로, 변형된 만능성 세포는 (a) (i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내의 표적 부위에서 닉 또는 이중-가닥 절단부를 유도하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및 (ii) 예를 들어, 뉴클레아제 표적 부위에 충분히 근접하게 놓이는 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 선택적으로 포함하는 하나 이상의 외인성 공여자 핵산(예를 들어, 표적화 벡터)을 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간 알부민 서열을 포함하여 인간화 알부민 좌위를 생산하는, 단계; 및 (c) 내인성 알부민 좌위에 통합된 삽입물 핵산을 세포의 게놈에 포함하는 적어도 하나의 세포를 식별하는 단계(즉, 인간화 알부민 좌위를 포함하는 적어도 하나의 세포를 식별하는 단계)에 의해 생산될 수 있다. 대안적으로, 변형된 만능성 세포는 (a) (i) 뉴클레아제 제제로서, 상기 뉴클레아제 제제는 표적 게놈 좌위 내의 인식 부위에서 닉 또는 이중-가닥 절단부를 유도하는, 뉴클레아제 제제; 및 (ii) 상기 인식 부위에 충분히 근접하게 놓이는 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하는 하나 이상의 표적화 벡터를 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간화 알부민 좌위를 포함하는, 단계; 및 (c) 표적 게놈 좌위에 변형(예를 들어, 삽입물 핵산의 통합)을 포함하는 적어도 하나의 세포를 식별하는 단계에 의해 생산될 수 있다. 닉 또는 이중-가닥 절단부를 요망되는 인식 부위 내로 유도하는 임의의 뉴클레아제 제제가 사용될 수 있다. 대안적으로, 변형된 만능성 세포는 (a) (i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 표적 게놈 좌위 내의 인식 부위에서 닉 또는 이중-가닥 절단부를 유도하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및 (ii) 상기 인식 부위에 충분히 근접하게 놓이는 5' 및 3' 표적 부위에 상응하는 5' 및 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하는 하나 이상의 표적화 벡터를 세포 내로 도입하는 단계로서, 상기 삽입물 핵산은 인간화 알부민 좌위를 포함하는, 단계; 및 (c) 표적 게놈 좌위에 변형(예를 들어, 삽입물 핵산의 통합)을 포함하는 적어도 하나의 세포를 식별하는 단계에 의해 생산될 수 있다. 닉 또는 이중-가닥 절단부를 요망되는 인식 부위 내로 유도하는 임의의 뉴클레아제 제제가 사용될 수 있다. 적합한 뉴클레아제의 예는 전사 활성자-유사 이펙터 뉴클레아제(TALEN), 아연-핑거 뉴클레아제(ZFN), 메가뉴클레아제, 및 일정한 간격을 두고 주기적으로 분포하는 짧은 회문 반복부(CRISPR)/CRISPR-관련(Cas) 시스템(예를 들어, CRISPR/Cas9 시스템) 또는 이러한 시스템의 구성요소(예를 들어, CRISPR/Cas9)를 포함한다. 예를 들어, 미국 특허출원공개 US 2013/0309670호 및 미국 특허출원공개 US 2015/0159175호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

공여자 세포는 임의의 단계, 예컨대 배반포 단계 또는 상실배-전 단계(즉, 4-세포 단계 또는 8-세포 단계)의 숙주 배아 내로 도입될 수 있다. 생식세포계를 통해 유전적 변형을 전할 수 있는 자손이 생산된다. 예를 들어, 미국 특허 제7,294,754호를 참조하며, 이의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

대안적으로, 본원 어디에서나 기재된 비-인간 동물을 생성하는 방법은 (1) 만능성 세포를 변형시키기 위해 상기 기재된 방법을 사용하여, 인간화 알부민 좌위를 포함하도록 1-세포 단계 배아의 게놈을 변형시키는 단계; (2) 유전적으로 변형된 배아를 선택하는 단계; 및 (3) 상기 유전적으로 변형된 배아를 대리모 내로 착상시키고 임신시키는 단계를 포함할 수 있다. 대안적으로, 본원 어디에서나 기재된 비-인간 동물을 생성하는 방법은 (1) 만능성 세포를 변형시키기 위해 상기 기재된 방법을 사용하여, 인간화 알부민 좌위를 포함하도록 1-세포 단계 배아의 게놈을 변형시키는 단계; (2) 유전적으로 변형된 배아를 선택하는 단계; 및 (3) 상기 유전적으로 변형된 배아를 대리모에 임신시키는 단계를 포함할 수 있다. 생식세포계를 통해 유전적 변형을 전할 수 있는 자손이 생산된다.

핵 이전 기법은 또한 비-인간 포유류 동물을 생산하는 데 사용될 수 있다. 간략하게는, 핵 이전 방법은 (1) 난모세포를 제핵화시키거나 제핵된 난모세포를 제공하는 단계; (2) 제핵된 난모세포와 조합될 공여자 세포 또는 핵을 단리하거나 제공하는 단계; (3) 상기 세포 또는 핵을 제핵된 난모세포 내로 삽입하여, 재구성된 세포를 형성하는 단계; (4) 상기 재구성된 세포를 동물의 자궁 내로 착상시켜, 배아를 형성하는 단계; 및 (5) 상기 배아를 발달시키는 단계를 포함할 수 있다. 이러한 방법에서, 난모세포는 일반적으로 사망한 동물로부터 회수되지만, 이들 난모세포는 또한 살아 있는 동물의 난관 및/또는 난소로부터 단리될 수 있다. 난모세포는 제핵 전에 여러 가지 잘 알려진 배지에서 성숙화될 수 있다. 난모세포의 제핵은 많은 잘 알려진 방식으로 수행될 수 있다. 재구성된 세포를 형성하기 위한, 제핵된 난모세포 내로의 공여자 세포 또는 핵의 삽입은 융합 전 투명대 하에 공여자 세포의 현미주사에 의해 수행될 수 있다. 융합은 접촉/융합 평면에 걸친 DC 전기 펄스의 적용(전기융합)에 의해, 융합-촉진 화학물질, 예컨대 폴리에틸렌 글리콜에의 세포의 노출에 의해, 또는 비활성화된 바이러스, 예컨대 센다이 바이러스에 의해 유도될 수 있다. 재구성된 세포는 핵 공여자와 수혜자 난모세포의 융합 전에, 동안에, 및/또는 후에 전기적 수단 및/또는 비-전기적 수단에 의해 활성화될 수 있다. 활성화 방법은 전기적 펄스, 화학적으로 유도된 충격, 정자에 의한 침투, 난모세포에서 2가 양이온의 수준 증가, 및 난모세포에서 세포 단백질의 인산화의 감소(키나제 저해제에 의함)를 포함한다. 활성화된 재구성된 세포, 또는 배아는 잘 알려진 배지에서 배양된 다음, 동물의 자궁으로 이전될 수 있다. 예를 들어, 미국 특허출원공개 US 2008/0092249호, 국제공개 WO 1999/005266호, 미국 특허출원공개 US 2004/0177390호, 국제공개 WO 2008/017234호, 및 미국 특허 제7,612,250호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

본원에 제공된 다양한 방법은 유전적으로 변형된 비-인간 F0 동물의 생산을 가능하게 하며, 상기 유전적으로 변형된 F0 동물의 세포는 인간화 알부민 좌위를 포함한다. F0 동물을 생산하기 위해 사용되는 방법에 따라, 인간화 알부민 좌위를 갖는 F0 동물 내의 세포의 수는 다양할 것으로 인식된다. VELOCIMOUSE^® 방법을 통한 예를 들어, 상응하는 유기체로부터의 상실배-전 단계 배아(예를 들어, 8-세포 단계 마우스 배아) 내로의 공여자 ES 세포의 도입은 F0 동물의 더 큰 백분율의 세포 집단이 표적화된 유전적 변형을 포함하는 관심 뉴클레오타이드 서열을 갖는 세포를 포함하는 것을 가능하게 한다. 예를 들어, 적어도 50%, 60%, 65%, 70%, 75%, 85%, 86%, 87%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의, 비-인간 F0 동물의 세포적 기여(cellular contribution)는 표적화된 변형을 갖는 세포 집단을 포함할 수 있다.

유전적으로 변형된 F0 동물의 세포는 인간화 알부민 좌위에 대해 이형접합성일 수 있거나 인간화 알부민 좌위에 대해 동형접합성일 수 있다.

상기 또는 아래에 인용된 모든 특허출원, 웹사이트, 기타 간행물, 수탁 번호 등은 각 개별 항목이 구체적으로 및 개별적으로 참조로서 그렇게 포함되는 것으로 표시된 것과 동일한 정도로 모든 목적을 위해 그 전체내용이 참조로서 본원에 포함된다. 상이한 버전들의 서열이 다양한 시점에서 특정 수탁 번호와 연관되는 경우, 본원의 유효 출원일에서의 수탁 번호와 연관된 버전을 의미한다. 유효 출원일은, 해당되는 경우 수탁 번호를 언급하는 우선권 출원의 출원일 또는 실제 출원일 중 더 빠른 날짜를 의미한다. 마찬가지로 상이한 버전들의 간행물, 웹사이트 등이 다양한 시점에서 공개된 경우, 달리 지시되지 않는 한, 본원의 유효 출원일에서 가장 최근에 공개된 버전을 의미한다. 본 발명의 임의의 특징, 단계, 요소, 구현예, 또는 양태는 달리 구체적으로 표시되지 않는 한 임의의 다른 것과 조합하여 사용될 수 있다. 명확성과 이해의 목적을 위해 예시 및 실시예를 통해 상기 구현예는 어느 정도 상세하게 기재되었지만, 첨부된 청구범위의 범위 내에서 특정 변경 및 변형이 실시될 수 있다는 것이 당업자에게 명백할 것이다.

서열의 간단한 설명

첨부된 서열 목록에서 나열된 뉴클레오타이드 서열 및 아미노산 서열은 뉴클레오타이드 염기에 대해서는 표준 글자 약어, 및 아미노산에 대해서는 3-글자 코드를 사용하여 제시된다. 뉴클레오타이드 서열은 서열의 5' 단부에서 시작하여 3' 단부까지 포워드로(즉, 각각의 선(line)에서 좌측으로부터 우측으로) 진행되는 표준 관계를 따른다. 각각의 뉴클레오타이드 서열의 단지 1개 가닥만 제시되지만, 상보적 가닥은 표시된 가닥에 대한 임의의 참조에 의해 포함되어 있는 것으로 이해된다. 아미노산 서열을 인코딩하는 뉴클레오타이드 서열이 제공될 때, 동일한 아미노산 서열을 인코딩하는 이의 코돈 축퇴(codon degenerate) 변이체가 또한 제공되는 것으로 이해된다. 아미노산 서열은 서열의 아미노 말단에서 시작하여 카르복시 말단까지 포워드로(즉, 각각의 선에서 좌측으로부터 우측으로) 진행되는 표준 관계를 따른다.

실시예

실시예 1. 인간화 알부민( ALB ) 좌위를 포함하는 마우스의 생산

마우스 알부민(Alb) 유전자로부터의 14.4 kb(14,376 bp)의 영역을 17.3 kb(17,335 bp)의 알부민(ALB)의 상응하는 인간 서열(RP11-31P12로부터)로 대체하기 위해 20 kb의 마우스 알부민(Alb) 좌위(bMQ-127G8로부터)를 포함하는 5' 상동성 아암 및 127 kb의 마우스 알부민(Alb) 좌위(bMQ-127G8로부터)를 포함하는 3' 상동성 아암을 포함하는 큰 표적화 벡터(LTVEC)를 생산하였다. 마우스 및 인간 알부민에 대한 정보는 표 3에 제공된다. VELOCIGENE^® 유전적 조작 기술을 사용하는 박테리아 상동성 재조합(BHR) 반응을 통해 박테리아 인공 염색체(BAC) DNA로부터 유래된 큰 표적화 벡터(LTVEC)의 생산 및 용도는 예를 들어, 미국 특허 제6,586,251호 및 문헌[Valenzuela 등 (2003) Nat. Biotechnol. 21(6):652-659]에 기재되어 있으며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 시험관내 어셈블리 방법을 통한 LTVEC의 생산은 예를 들어, 미국 특허출원공개 US 2015/0376628호 및 국제공개 WO 2015/200334호에 기재되어 있으며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다.

구체적으로, ATG 개시 코돈으로부터 정지 코돈을 통한 영역(즉, 코딩 엑손 1-14)을 마우스 알부민(Alb) 좌위로부터 결실시켰다. 결실된 마우스 영역 대신에 ATG 개시 코돈으로부터 정지 코돈의 100 bp 다운스트림까지의 인간 알부민(ALB)의 상응하는 영역을 삽입하였다. loxP-mPrm1-Crei-pA-hUb1-em7-Neo-pA-loxP 카세트(4,766 bp)를, 3' UTR 다음이고 카세트 바로 앞의 3' 인간 서열의 약 100 bp의 완충제와 함께 인간 3' UTR의 다운스트림에 삽입하였다. 이는 MAID 7626 대립유전자이다. 도 1a를 참조한다. 카세트 결실 후, loxP 및 클로닝 부위(38 bp)는, 3' UTR 다음이고 잔여 loxP 부위 바로 앞의 3' 인간 서열의 100 bp의 완충제와 함께 인간 3' UTR의 다운스트림에 남아 있었다. 이는 MAID 7627 대립유전자이다. 도 1b를 참조한다.

마우스 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 서열은 SEQ ID NO: 2-4로 각각 표시되어 있으며, 상응하는 코딩 서열은 SEQ ID NO: 10-12로 각각 표시되어 있다. 인간 알부민 신호 펩타이드, 프로펩타이드, 및 혈청 알부민에 대한 서열은 SEQ ID NO: 6-8로 각각 표시되어 있으며, 상응하는 코딩 서열은 SEQ ID NO: 14-16으로 각각 표시되어 있다. 예상되는 인코딩된 인간화 알부민 단백질은 인간 알부민 단백질과 동일하다. 도 1a 및 도 1b를 참조한다. 인간화 알부민 단백질과 함께 마우스 및 인간 알부민 단백질의 정렬은 도 3a 내지 도 3b에 제공된다. 마우스 및 인간 Alb/ALB 코딩 서열은 SEQ ID NO: 9 및 13으로 각각 표시되어 있다. 마우스 및 인간 알부민 단백질 서열은 SEQ ID NO: 1 및 5로 각각 표시되어 있다. 예상된 인간화 ALB 코딩 서열 및 예상된 인간화 알부민 단백질에 대한 서열은 SEQ ID NO: 13 및 5로 각각 표시되어 있다.

돌연변이체 대립유전자를 생산하기 위해, 상기 기재된 큰 표적화 벡터를 F1H4 마우스 배아 줄기세포 내로 도입하였다. F1H4 마우스 ES 세포는 암컷 C57BL/6NTac 마우스를 수컷 12956/SvEvTac 마우스와 교배함으로써 생성된 하이브리드 배아로부터 유래되었다. 예를 들어, 미국 특허출원공개 US 2015-0376651호 및 국제공개 WO 2015/200805호를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 항생제 선택 후, 콜로니를 선별(pick)하며, 확장(expand)시키고, TAQMAN^®에 의해 스크리닝하였다. 도 2를 참조한다. 표 4에 표시된 프라이머 및 프로브를 사용하여 대립유전자-소실 검정을 수행하여 내인성 마우스 대립유전자의 결실을 검출하였고, 대립유전자-획득 검정을 수행하여 인간화 대립유전자의 획득을 검출하였다.

대립유전자-소실(LOA) 검정 및 대립유전자-획득(GOA) 검정을 포함하는 대립유전자-변형(MOA: modification-of-allele) 검정은 예를 들어, 미국 특허출원공개 US 2014/0178879호; 미국 특허출원공개 US 2016/0145646호; 국제공개 WO 2016/081923호; 및 문헌[Frendewey 등 (2010) Methods Enzymol. 476:295-307]에 기재되어 있으며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. 대립유전자-소실(LOA) 검정은 종래의 스크리닝 논리를 뒤집고, 돌연변이가 안내된(directed) 네이티브 좌위의 게놈 DNA 시료에서 복사체의 수를 정량화한다. 올바르게 표적화된 이형접합성 세포 클론에서, LOA 검정은 2개의 네이티브 대립유전자(X 또는 Y 염색체 상에 존재하지 않는 유전자에 대해) 중 하나를 검출하며, 다른 대립유전자는 표적화된 변형에 의해 교란된다. 동일한 원리를 대립유전자-획득(GOA) 검정과 역순으로(in reverse) 적용하여, 게놈 DNA 시료 내 삽입된 표적화 벡터의 복사체 수를 정량화할 수 있다.

VELOCIMOUSE^® 방법을 사용하여, 변형된 ES 세포로부터 F0 마우스를 생산하였다. 구체적으로, VELOCIMOUSE^® 방법을 사용하여, 상기 기재된 MOA 검정에 의해 선택된 상기 기재된 인간화 알부민 좌위를 포함하는 마우스 ES 세포 클론을 8-세포 단계 배아 내로 주사하였다. 예를 들어, 미국 특허 제7,576,259호; 미국 특허 제7,659,442호; 미국 특허 제7,294,754호; 미국 특허출원공개 US 2008/0078000호; 및 문헌[Poueymirou 등 (2007) Nat. Biotechnol. 25(1):91-99]를 참조하며, 이들 각각의 전체내용은 모든 목적을 위해 본원에 참조로서 포함된다. VELOCIMOUSE^® 방법에서, 표적화된 마우스 배아 줄기(ES) 세포를 레이저-보조 주사를 통해 상실배-전 단계 배아, 예를 들어, 8-세포-단계 배아 내로 주사하며, 이는 완전히 ES-세포-유래되는 F0 세대 마우스를 효율적으로 산출한다. VELOCIMOUSE^® 방법에서, 주사된 상실배-전 단계 배아를 배반포 단계로 배양하고, 배반포-단계 배아를 대리모 내로 착상시키고 임신시켜 F0 세대 마우스를 생성하였다. 표적화된 변형에 대해 동형접합성인 마우스 ES 세포 클론으로 시작할 때, 표적화된 변형에 대해 동형접합성인 F0 마우스가 생성된다. 표적화된 변형에 대해 이형접합성인 마우스 ES 세포 클론으로 시작할 때, 후속적인 번식을 수행하여, 표적화된 변형에 대해 동형접합성인 마우스를 생성할 수 있다.

실시예 2. 인간화 알부민( ALB ) 좌위를 포함하는 마우스의 확증

인간화 알부민 마우스를 확증하기 위해, 마우스 및 인간 알부민 수준을, 인간 및 마우스 혈청 알부민 ELISA 키트(각각 Abcam ab179887 및 ab207620)를 사용하여 혈장 시료에서 측정하였다. 확증에 사용된 인간화 마우스는, 자가-결실 선택 카세트가 자가-결실된 F1 마우스였다. 인간 알부민 단백질은 정상적인 인간 혈장 및 인간화 알부민 마우스 혈장 시료에서 검출되었으나, 야생형(WT) 마우스 또는 VelocImmune(VI) 마우스 혈장 시료에서는 검출되지 않았다. 도 4를 참조한다. 마우스 알부민 단백질은 야생형 마우스 혈장 시료 및 VI 마우스 혈장 시료에서 검출되었으나, 인간화 알부민 마우스 혈장 시료에서는 검출되지 않았다. 도 5를 참조한다. 특히, 풀링된 정상적인 인간 혈장(George King-Biomedical Inc.로부터 구매됨)은 약 30 내지 40 mg/mL의 인간 알부민을 가졌다. 인간화 알부민 마우스 혈장은 약 10 내지 15 mg/mL의 인간 알부민을 가졌으나, 마우스 알부민은 검출 불가능하였다. 정상적인 VI 및 WT 마우스 혈장은 약 7 내지 13 mg/mL의 마우스 알부민을 가졌다.

실시예 3. 인간화 알부민( ALB ) 좌위를 포함하는 마우스의 확증 - F9 삽입을 위해 인간 알부민을 표적화하는 가이드 RNA

인간화 알부민 마우스를 추가로 확증하기 위해, 인간화 알부민 마우스를 사용하여, F9 이식유전자를 알부민 좌위 내로 통합하기 위한 CRISPR/Cas9 기술의 용도를 평가하였다. 구체적으로, 본 발명자들은 통합된 인간 F9 파두아 변이체(Padua variant)(hF9-R338L)의 통합 및 발현을 동형접합성 인간화 알부민 마우스에서 시험하였다. 다양한 가이드 RNA를 인간 알부민 좌위의 인트론 1에 대해 설계하였다. ALB^hu/hu 마우스를 사용하여 2개의 별도의 마우스 실험을 설정하여, 총 11개의 가이드 RNA를 스크리닝하였으며, 각각의 가이드 RNA는 인간 알부민 좌위의 제1 인트론을 표적화하였다. 모든 마우스를 칭량하고, 실험의 제0일에 꼬리 정맥을 통해 주사하였다. 혈액을 제1주, 제3주, 제4주, 및 제6주에 꼬리 채혈을 통해 수집하고, 혈장을 분리하였다. 마우스를 제7주에서 종료시켰다. 혈액을 대정맥을 통해 수집하고, 혈장을 분리하였다. 간 및 비장을 마찬가지로 절제하였다. 이들 가이드 RNA의 가이드 서열(DNA-표적화 분절)은 표 5에 제공된다.

제1 실험에서, Cas9 mRNA 및 하기 6개의 가이드 RNA 중 각각을 포함하는 LNP를 시험하였다: G009852, G009859, G009860, G009864, G009874, 및 G012764. LNP를 0.3 mg/kg(30 그램의 평균 중량을 사용함)으로 희석시키고, 양방향성 hF9 삽입 주형으로 패키징된 AAV8(SEQ ID NO: 63; ITR-스플라이스 수용기-hF9(엑손 2-8)-bGH-SV40 polyA-코돈 최적화된 hF9-pLac-pMB-스플라이스 수용기-Kan 내성)과 함께 마우스당 3E11 바이러스 게놈의 용량으로 공동-주사하였다. 5마리의 12주령 내지 14주령의 ALB^hu/hu수컷 마우스를 군(group)당 주사하였다. hF9에 작동적으로 연결된 CAGG 프로모터로 패키징된 AAV8(SEQ ID NO: 64; CAGG-ITR-hF9-WPRE-bGH-ITR-pLac-pMB-Amp 내성)을 동일한 코호트로부터의 5마리의 마우스에게 주사하였으며, 이는 hF9(마우스당 3E11 바이러스 게놈에서)의 에피솜 발현을 유발한다. 완충제 단독, 양방향성 hF9 삽입 주형 단독으로 패키징된 AAV8, 또는 LNP-G009874 단독을 주사한, 군당 3마리의 마우스를 갖는 3개의 음성 대조군이 존재하였다.

제2 실험에서, Cas9 mRNA 및 하기 6개의 가이드 RNA 중 각각을 포함하는 LNP를 시험하였다: G009860, G012764, G009844, G009857, G012752, G012753, 및 G012761. LNP를 0.3 mg/kg(40 그램의 평균 중량을 사용함)으로 희석시키고, 양방향성 hF9 삽입 주형으로 패키징된 AAV8(SEQ ID NO: 63)과 함께 마우스당 3E11 바이러스 게놈의 용량으로 공동-주사하였다. 5마리의 30주령의 ALB^hu/hu수컷 마우스를 군당 주사하였다. hF9에 작동적으로 연결된 CAGG 프로모터로 패키징된 AAV8(SEQ ID NO: 64)을 동일한 코호트로부터의 5마리의 마우스에게 주사하였으며, 이는 hF9(마우스당 3E11 바이러스 게놈에서)의 에피솜 발현을 유발한다. 완충제 단독, 양방향성 hF9 삽입 주형 단독으로 패키징된 AAV8, 또는 LNP-G009874 단독을 주사한, 군당 3마리의 마우스를 갖는 3개의 음성 대조군이 존재하였다.

분석을 위해, ELISA를 수행하여, 각각의 시점에서 마우스에서 순환하는 hFIX의 수준을 측정하였다. 인간 인자 IX ELISA 키트(ab188393)를 이 목적에 사용하였으며, 모든 플레이트를 양성 검정 대조군으로서 George King Bio-Medical로부터의 인간 풀링된 정상 혈장과 함께 진행시켰다. 주사-후 제6주에서 각각의 군에서 혈장 시료 내 인간 인자 IX 발현 수준을 도 6a 및 도 6b에 도시한다. 시험관내 삽입 데이터와 일관되게, 가이드 RNA G009852를 사용하였을 때, 낮은 인자 IX 혈청 수준 내지 무(no) 인자 IX 혈청 수준은 검출되지 않았다. 인간 알부민에서 인접 PAM 서열의 결여와 일관되게, 가이드 RNA G009864를 사용하였을 때, 인자 IX 혈청 수준은 검출 불가능하였다. G009864의 가이드 서열(DNA-표적화 분절)은 UACUUUGCACUUUCCUUAGU(SEQ ID NO: 61)이고, 이는 시노(cyno) 게놈 좌표(mf5) chr5:61199187-61199207을 표적화한다. 혈청 내 인자 IX 발현은 G009857, G009859, G009860, G009874, 및 G0012764를 포함하여 몇몇의 다른 가이드 RNA에 대해 관찰되었다.

비장 및 모든 간의 좌측엽(left lateral lobe) 중 일부를 차세대 시퀀싱(NGS) 분석을 위해 제출하였다. NGS를 사용하여, AAV-hF9 공여자 및 LNP-CRISPR/Cas9의 주사-후 제7주에서 인간화 알부민 좌위에 삽입/결실(인델)을 갖는 간세포의 백분율을 평가하였다. 인간 알부민에서 인접 PAM 서열의 결여와 일관되게, 가이드 RNA G009864를 사용하였을 때, 간에서 어떠한 편집도 검출 불가능하였다. 간에서의 편집을, 가이드 RNA G009859, G009860, G009874, 및 G012764를 사용하여 군에 대해 관찰하였다(데이터는 도시되지 않음).

잔여 간을 10% 중성 완충된 포르말린에서 24시간 동안 고정시킨 다음, 70% 에탄올로 이전시켰다. 별도의 엽으로부터의 4개 내지 5개 시료를 자르고, HistoWisz로 운송하고, 가공하고, 파라핀 블록에 포매시켰다. 그 후에, 5-미크론 절편을 각각의 파라핀 블록으로부터 자르고, 성공적인 통합 및 전사가 달성될 때 ALB^hu/hu 알부민 좌위의 제1 인트론으로부터의 인간 알부민 신호 서열과 hF9 이식유전자 사이에서 형성된 독특한 mRNA 연접부를 표적화하는 커스텀 설계된 프로브 및 Advanced Cell Diagnostics에 의한 시약 및 유니버셜 BASESCOPE™ 절차를 사용하여 Ventana Ultra Discovery(Roche) 상에서 BASESCOPE™을 수행하였다. 다음, HALO 이미징 소프트웨어(Indica Labs)를 사용하여, 각각의 시료에서 양성 세포의 백분율을 정량화하였다. 다음, 각각의 동물에 대해 다수의 엽에 걸쳐 양성 세포의 백분율의 평균은 제7주에서 혈청 내 hFIX 수준과 상관관계가 있었다. 결과를 도 7 및 표 6에 나타낸다. 제7주 혈청 수준 및 hALB-hFIX mRNA에 대한 양성 세포의 %는 강한 상관관계가 있었다(r = 0.89; R² = 0.79).

실시예 4. 인간화 알부민( ALB ) 좌위를 포함하는 마우스의 확증 - F9 KO 마우스에서 F9 삽입

인간화 알부민 마우스를 추가로 확증하기 위해, 인간화 알부민 마우스를 F9 넉아웃 마우스와 교배시켜, ALB^m/hu x F9^-/- 마우스(알부민 좌위의 인간화에 대해 이형접합성이고 F9 넉아웃에 대해 동형접합성임)를 생산하였으며, 이 마우스를 사용하여, F9 이식유전자를 알부민 좌위 내로 통합하기 위한 CRISPR/Cas9 기술의 용도를 평가하였다.

그 후에, 인간화 알부민 F9 KO 마우스를 사용하여, 인간화 알부민 좌위의 인트론 1 내로의 인간 F9 파우다 변이체(hF9-R338L) 이식유전자의 삽입을 시험하였다. 모든 마우스를 칭량하고, 실험의 제0일에 꼬리 정맥을 통해 주사하였다. 혈액을 제1주 및 제3주에 꼬리 채혈을 통해 수집하고, 혈장을 분리하였다. 마우스를 제4주에서 종료시켰다. 혈액을 대정맥을 통해 수집하고, 혈장을 분리하였다. 간 및 비장을 마찬가지로 절제하였다.

Cas9 mRNA 및 하기 2개의 가이드 RNA를 별도로 포함하는 LNP를 시험하였다: G009860(인간 알부민 좌위의 제1 인트론을 표적화함) 및 G000666(마우스 알부민 좌위의 제1 인트론을 표적화함). G009860의 가이드 서열(DNA-표적화 분절)은 표 5에 제공된다. G000666의 가이드 서열은 CACUCUUGUCUGUGGAAACA(SEQ ID NO: 62)이고, 이는 마우스 게놈 좌표(mm10) chr5:90461709-90461729를 표적화한다. G009860을 0.3 mg/kg으로 희석시키고, G000666을 1.0 mg/kg(31.2 그램의 평균 중량을 사용함)으로 희석시켰고, 둘 다를 양방향성 hF9 삽입 주형으로 패키징된 AAV8(SEQ ID NO: 63)과 함께 마우스당 3E11 바이러스 게놈의 용량으로 공동-주사하였다. 5마리의 ALB^ms/hux F9 ^-/- 수컷 마우스(16주령)를 군(group)당 주사하였다. hF9에 작동적으로 연결된 CAGG 프로모터로 패키징된 AAV8(SEQ ID NO: 64)을 동일한 코호트로부터의 5마리의 마우스에게 주사하였으며, 이는 hF9(마우스당 3E11 바이러스 게놈에서)의 에피솜 발현을 유발한다. 완충제 단독 또는 양방향성 hF9 삽입 주형 단독으로 패키징된 AAV8을 주사한 군당 1마리의 마우스를 갖는 6마리의 음성 대조군 동물, 및 LNP-G009860 또는 LNP-G000666 단독을 각각 0.3 mg/kg 및 1.0 mg/kg으로 주사한 군당 2마리의 마우스가 존재하였다.

분석을 위해, ELISA를 수행하여, 각각의 시점에서 마우스에서 순환하는 hFIX의 수준을 측정하였다. 인간 인자 IX ELISA 키트(ab188393)를 이 목적에 사용하였으며, 모든 플레이트를 양성 검정 대조군으로서 George King Bio-Medical로부터의 인간 풀링된 정상 혈장과 함께 진행시켰다. 비장 및 모든 간의 좌측엽 중 일부를 NGS 분석을 위해 제출하였다.

주사-후 제1주, 제2주, 및 제4주에서 각각의 군에서 혈장 시료 내 인간 인자 IX 발현 수준을 도 8 및 표 7에 나타낸다. 게다가, 간 및 비장에서 알부민 수준에서의 삽입 및 결실(인델)을 보여주는 NGS 결과를 표 7에 나타낸다. 도 8 및 표 7에 도시된 바와 같이, hFIX는 제1주, 제3주, 및 제4주에서 치료된 Alb ^+/hu /F9 ^-/- 마우스의 혈장에서 검출되었으며, ELISA는 제1주, 제3주 및 제4주에서 0.5 내지 10 μg/mL의 발현 값을 보여주었다.

잔여 간을 10% 중성 완충된 포르말린에서 24시간 동안 고정시킨 다음, 70% 에탄올로 이전시켰다. 별도의 엽으로부터의 4개 내지 5개 시료를 자르고, HistoWiz로 운송하고, 가공하고, 파라핀 블록에 포매시켰다. 그 후에, 성공적인 통합 및 전사가 달성될 때 ALB^ms/hu 마우스에서 각각의 제각기 알부민 좌위의 제1 인트론으로부터의 마우스 알부민 신호 서열과 hF9 이식유전자 사이에서 형성된 독특한 mRNA 연접부를 표적화하는 커스텀 설계된 프로브 및 Advanced Cell Diagnostics에 의한 시약 및 유니버셜 BASESCOPE™ 절차를 사용하여 Ventana Ultra Discovery(Roche) 상에서 BASESCOPE™을 통한 분석을 위해 5-미크론 절편을 각각의 파라핀 블록으로부터 잘랐다. HALO 이미징 소프트웨어(Indica Labs)를 사용하여, 각각의 시료에서 양성 세포의 백분율을 정량화한다.

다음으로, 말단 혈액(terminal blood)을, 활성화된 부분 트롬보플라스틴 시간(aPTT) 및 트롬빈 생산 검정(TGA)에 의한 기능적 응고 활성의 평가에 사용하였다. 활성화된 부분 트롬보플라스틴 시간(aPTT)은 혈장에서 내재성 경로 응혈 활성의 임상적 측정이다. 혈장은 엘라그산 또는 카올린의 첨가에 의해 응혈하도록 유도되며, 엘라그산과 카올린은 둘 다 응고의 내재성 경로(접촉 경로라고도 알려져 있음)에서 응고 인자 XII를 활성화시키고, 후속적으로 트롬빈이 일단 활성화되면 상기 응고 인자 XII는 피브리노겐으로부터 피브린의 생산을 초래한다. aPTT 검정은 응혈을 생산하는 개체의 능력의 추정치를 제공하며, 이러한 정보는 출혈 또는 혈전증의 위험을 결정하는 데 사용될 수 있다. aPTT를 시험하기 위해, 전기-기계적 응혈 검출 방법을 이용한 반자동 벤치탑 시스템(Diagnostica Stago STart 4)(점도-기초 검출 시스템)을 사용하여, 혈장에서 응혈을 평가하였다. 강철 볼이 있는 각각의 큐벳에, 50 μL의 시트레이트화된 혈장을 첨가하고, 37℃에서 5분 동안 인큐베이션한 다음, 50 μL의 엘라그산(30 μM의 최종 농도)의 첨가로 37℃에서 300초 동안 응혈을 촉발하였다. 50 μL의 0.025 M 칼슘 클로라이드(8 mM의 최종 농도)를 각각의 큐벳에 첨가함으로써 응혈의 최종 활성화 후, 강철 볼은 2개의 드라이브 코일(drive coil) 사이에서 앞뒤로 진동하기 시작하였다. 볼의 움직임을 리시버 코일(receiver coil)에 의해 검출하였다. 볼이 움직이는 것을 중단할 때까지 피브린의 생산은 혈장 점도를 증가시켰으며, 이를 응혈 시간으로서 기록하였다. 측정되는 유일한 매개변수는 응혈 시간이었다. 진행을 2벌로 시행하였다.

트롬빈 생산 검정(TGA)은 활성화된 혈장에서 트롬빈 생산의 동역학(kinetics)의 비-임상 평가이다. 트롬빈이 다른 응고 인자의 활성화 및 피브리노겐으로부터 피브린으로의 전환을 위한 추가 트롬빈의 전파(FXI 활성화를 통함)를 담당하기 때문에, 트롬빈 생산은 응고의 필수적인 과정이다. 트롬빈 생산 검정은 트롬빈을 생산하는 개체의 능력의 추정치를 제공하며, 이러한 정보는 출혈 또는 혈전증의 위험을 결정하는 데 사용될 수 있다. TGA를 수행하기 위해, 보정된 자동화 트롬보그램(thrombogram)을 사용하여, 분광광도계(Thrombinograph™, Thermo Scientific)에서 트롬빈 생산 수준을 평가하였다. 고출력 실험을 위해, 96-웰 플레이트(Immulon II HB)를 사용하였다. 각각의 웰에, 55 μL의 시트레이트화된 혈장(마우스 혈장용 식염수로 4x 희석됨)을 첨가하고, 37℃에서 30분 동안 인큐베이션하였다. 트롬빈 생산을 37℃에서 45분 동안 15 μL의 2 μM 엘라그산(0.33 μM의 최종 농도)의 첨가로 촉발한다. 15 μL의 형광원성 기질을 16 mM CaCl₂(FluCa; Thrombinoscope BV)와 함께 각각의 웰 내로 자동화 주사 후, 트롬빈 생산을 결정하였다. 형광원성 기질은 생산된 트롬빈과 반응하였으며, 이를 460 nm에서 90분 동안 33초마다 혈장에서 계속 측정하였다. 형광 강도는 트롬빈의 단백분해성 활성에 비례하였다. 트레이싱(tracing)에서 측정된 주요 매개변수는 지체 시간(lag time), 피크 트롬빈 생산, 피크 트롬빈 생산까지의 시간, 및 내인성 트롬빈 전위(ETP)였다. 지체 시간은 혈장에서 트롬빈의 초기 검출에 필요한 시간의 추정치를 제공한다. 피크는 활성화 후 주어진 시간에서 생산된 트롬빈의 최대 양이다. 피크 트롬빈 생산까지의 시간은, 응고 캐스케이드의 개시로부터 트롬빈의 피크 생산까지의 시간이다. ETP는 측정된 60분 동안 생산된 트롬빈의 총 양이다. 진행을 2벌로 시행하였다.

도 9 및 표 8에 도시된 바와 같이, 마우스 알부민 gRNA 또는 인간 알부민 gRNA를 사용한 hF9 이식유전자의 삽입은 aPTT 검정에서 회복된 응고 기능을 보여주었다. 식염수, AAV 단독, 및 LNP 단독 음성 대조군 시료는 45초 내지 60초의 연장된 aPTT 시간을 보여주었다. 양성 대조군 CAGG 및 시험 시료(AAV8+LNP)는 28초 내지 34초의 정상적인 인간 aPTT에 더 근접하였다.

도 10a, 도 10b, 및 도 11 및 표 8에 도시된 바와 같이, 마우스 알부민 gRNA 또는 인간 알부민 gRNA를 사용한 hF9 이식유전자의 삽입은 TGA-EA 분석에서 증가된 트롬빈 생산을 보여주었다. 트롬빈 농도는 음성 대조군 시료와 비교하여 양성 대조군 CAGG 및 AAV8+LNP에서 더 높았다.

결론적으로, hFIX는 1주, 3주, 및 4주에서 Alb ^+/hu /F9 ^-/- 마우스의 혈장에서 검출되었고, 발현된 hFIX-R338L은, 트롬빈이 TGA 검정에서 생산되고 aPTT 응혈 시간이 향상되었기 때문에 기능적인 것으로 밝혀졌다.

SEQUENCE LISTING <110> Regeneron Pharmaceuticals, Inc. <120> NON-HUMAN ANIMALS COMPRISING A HUMANIZED ALBUMIN LOCUS <130> 057766/548157 <150> US 62/858,589 <151> 2019-06-07 <150> US 62/916,666 <151> 2019-10-17 <160> 64 <170> PatentIn version 3.5 <210> 1 <211> 608 <212> PRT <213> Mus musculus <220> <221> MISC_FEATURE <222> (1)..(18) <223> Signal Peptide <220> <221> MISC_FEATURE <222> (19)..(24) <223> Propeptide <220> <221> MISC_FEATURE <222> (25)..(608) <223> Serum Albumin <400> 1 Met Lys Trp Val Thr Phe Leu Leu Leu Leu Phe Val Ser Gly Ser Ala 1 5 10 15 Phe Ser Arg Gly Val Phe Arg Arg Glu Ala His Lys Ser Glu Ile Ala 20 25 30 His Arg Tyr Asn Asp Leu Gly Glu Gln His Phe Lys Gly Leu Val Leu 35 40 45 Ile Ala Phe Ser Gln Tyr Leu Gln Lys Cys Ser Tyr Asp Glu His Ala 50 55 60 Lys Leu Val Gln Glu Val Thr Asp Phe Ala Lys Thr Cys Val Ala Asp 65 70 75 80 Glu Ser Ala Ala Asn Cys Asp Lys Ser Leu His Thr Leu Phe Gly Asp 85 90 95 Lys Leu Cys Ala Ile Pro Asn Leu Arg Glu Asn Tyr Gly Glu Leu Ala 100 105 110 Asp Cys Cys Thr Lys Gln Glu Pro Glu Arg Asn Glu Cys Phe Leu Gln 115 120 125 His Lys Asp Asp Asn Pro Ser Leu Pro Pro Phe Glu Arg Pro Glu Ala 130 135 140 Glu Ala Met Cys Thr Ser Phe Lys Glu Asn Pro Thr Thr Phe Met Gly 145 150 155 160 His Tyr Leu His Glu Val Ala Arg Arg His Pro Tyr Phe Tyr Ala Pro 165 170 175 Glu Leu Leu Tyr Tyr Ala Glu Gln Tyr Asn Glu Ile Leu Thr Gln Cys 180 185 190 Cys Ala Glu Ala Asp Lys Glu Ser Cys Leu Thr Pro Lys Leu Asp Gly 195 200 205 Val Lys Glu Lys Ala Leu Val Ser Ser Val Arg Gln Arg Met Lys Cys 210 215 220 Ser Ser Met Gln Lys Phe Gly Glu Arg Ala Phe Lys Ala Trp Ala Val 225 230 235 240 Ala Arg Leu Ser Gln Thr Phe Pro Asn Ala Asp Phe Ala Glu Ile Thr 245 250 255 Lys Leu Ala Thr Asp Leu Thr Lys Val Asn Lys Glu Cys Cys His Gly 260 265 270 Asp Leu Leu Glu Cys Ala Asp Asp Arg Ala Glu Leu Ala Lys Tyr Met 275 280 285 Cys Glu Asn Gln Ala Thr Ile Ser Ser Lys Leu Gln Thr Cys Cys Asp 290 295 300 Lys Pro Leu Leu Lys Lys Ala His Cys Leu Ser Glu Val Glu His Asp 305 310 315 320 Thr Met Pro Ala Asp Leu Pro Ala Ile Ala Ala Asp Phe Val Glu Asp 325 330 335 Gln Glu Val Cys Lys Asn Tyr Ala Glu Ala Lys Asp Val Phe Leu Gly 340 345 350 Thr Phe Leu Tyr Glu Tyr Ser Arg Arg His Pro Asp Tyr Ser Val Ser 355 360 365 Leu Leu Leu Arg Leu Ala Lys Lys Tyr Glu Ala Thr Leu Glu Lys Cys 370 375 380 Cys Ala Glu Ala Asn Pro Pro Ala Cys Tyr Gly Thr Val Leu Ala Glu 385 390 395 400 Phe Gln Pro Leu Val Glu Glu Pro Lys Asn Leu Val Lys Thr Asn Cys 405 410 415 Asp Leu Tyr Glu Lys Leu Gly Glu Tyr Gly Phe Gln Asn Ala Ile Leu 420 425 430 Val Arg Tyr Thr Gln Lys Ala Pro Gln Val Ser Thr Pro Thr Leu Val 435 440 445 Glu Ala Ala Arg Asn Leu Gly Arg Val Gly Thr Lys Cys Cys Thr Leu 450 455 460 Pro Glu Asp Gln Arg Leu Pro Cys Val Glu Asp Tyr Leu Ser Ala Ile 465 470 475 480 Leu Asn Arg Val Cys Leu Leu His Glu Lys Thr Pro Val Ser Glu His 485 490 495 Val Thr Lys Cys Cys Ser Gly Ser Leu Val Glu Arg Arg Pro Cys Phe 500 505 510 Ser Ala Leu Thr Val Asp Glu Thr Tyr Val Pro Lys Glu Phe Lys Ala 515 520 525 Glu Thr Phe Thr Phe His Ser Asp Ile Cys Thr Leu Pro Glu Lys Glu 530 535 540 Lys Gln Ile Lys Lys Gln Thr Ala Leu Ala Glu Leu Val Lys His Lys 545 550 555 560 Pro Lys Ala Thr Ala Glu Gln Leu Lys Thr Val Met Asp Asp Phe Ala 565 570 575 Gln Phe Leu Asp Thr Cys Cys Lys Ala Ala Asp Lys Asp Thr Cys Phe 580 585 590 Ser Thr Glu Gly Pro Asn Leu Val Thr Arg Cys Lys Asp Ala Leu Ala 595 600 605 <210> 2 <211> 18 <212> PRT <213> Mus musculus <400> 2 Met Lys Trp Val Thr Phe Leu Leu Leu Leu Phe Val Ser Gly Ser Ala 1 5 10 15 Phe Ser <210> 3 <211> 6 <212> PRT <213> Mus musculus <400> 3 Arg Gly Val Phe Arg Arg 1 5 <210> 4 <211> 584 <212> PRT <213> Mus musculus <400> 4 Glu Ala His Lys Ser Glu Ile Ala His Arg Tyr Asn Asp Leu Gly Glu 1 5 10 15 Gln His Phe Lys Gly Leu Val Leu Ile Ala Phe Ser Gln Tyr Leu Gln 20 25 30 Lys Cys Ser Tyr Asp Glu His Ala Lys Leu Val Gln Glu Val Thr Asp 35 40 45 Phe Ala Lys Thr Cys Val Ala Asp Glu Ser Ala Ala Asn Cys Asp Lys 50 55 60 Ser Leu His Thr Leu Phe Gly Asp Lys Leu Cys Ala Ile Pro Asn Leu 65 70 75 80 Arg Glu Asn Tyr Gly Glu Leu Ala Asp Cys Cys Thr Lys Gln Glu Pro 85 90 95 Glu Arg Asn Glu Cys Phe Leu Gln His Lys Asp Asp Asn Pro Ser Leu 100 105 110 Pro Pro Phe Glu Arg Pro Glu Ala Glu Ala Met Cys Thr Ser Phe Lys 115 120 125 Glu Asn Pro Thr Thr Phe Met Gly His Tyr Leu His Glu Val Ala Arg 130 135 140 Arg His Pro Tyr Phe Tyr Ala Pro Glu Leu Leu Tyr Tyr Ala Glu Gln 145 150 155 160 Tyr Asn Glu Ile Leu Thr Gln Cys Cys Ala Glu Ala Asp Lys Glu Ser 165 170 175 Cys Leu Thr Pro Lys Leu Asp Gly Val Lys Glu Lys Ala Leu Val Ser 180 185 190 Ser Val Arg Gln Arg Met Lys Cys Ser Ser Met Gln Lys Phe Gly Glu 195 200 205 Arg Ala Phe Lys Ala Trp Ala Val Ala Arg Leu Ser Gln Thr Phe Pro 210 215 220 Asn Ala Asp Phe Ala Glu Ile Thr Lys Leu Ala Thr Asp Leu Thr Lys 225 230 235 240 Val Asn Lys Glu Cys Cys His Gly Asp Leu Leu Glu Cys Ala Asp Asp 245 250 255 Arg Ala Glu Leu Ala Lys Tyr Met Cys Glu Asn Gln Ala Thr Ile Ser 260 265 270 Ser Lys Leu Gln Thr Cys Cys Asp Lys Pro Leu Leu Lys Lys Ala His 275 280 285 Cys Leu Ser Glu Val Glu His Asp Thr Met Pro Ala Asp Leu Pro Ala 290 295 300 Ile Ala Ala Asp Phe Val Glu Asp Gln Glu Val Cys Lys Asn Tyr Ala 305 310 315 320 Glu Ala Lys Asp Val Phe Leu Gly Thr Phe Leu Tyr Glu Tyr Ser Arg 325 330 335 Arg His Pro Asp Tyr Ser Val Ser Leu Leu Leu Arg Leu Ala Lys Lys 340 345 350 Tyr Glu Ala Thr Leu Glu Lys Cys Cys Ala Glu Ala Asn Pro Pro Ala 355 360 365 Cys Tyr Gly Thr Val Leu Ala Glu Phe Gln Pro Leu Val Glu Glu Pro 370 375 380 Lys Asn Leu Val Lys Thr Asn Cys Asp Leu Tyr Glu Lys Leu Gly Glu 385 390 395 400 Tyr Gly Phe Gln Asn Ala Ile Leu Val Arg Tyr Thr Gln Lys Ala Pro 405 410 415 Gln Val Ser Thr Pro Thr Leu Val Glu Ala Ala Arg Asn Leu Gly Arg 420 425 430 Val Gly Thr Lys Cys Cys Thr Leu Pro Glu Asp Gln Arg Leu Pro Cys 435 440 445 Val Glu Asp Tyr Leu Ser Ala Ile Leu Asn Arg Val Cys Leu Leu His 450 455 460 Glu Lys Thr Pro Val Ser Glu His Val Thr Lys Cys Cys Ser Gly Ser 465 470 475 480 Leu Val Glu Arg Arg Pro Cys Phe Ser Ala Leu Thr Val Asp Glu Thr 485 490 495 Tyr Val Pro Lys Glu Phe Lys Ala Glu Thr Phe Thr Phe His Ser Asp 500 505 510 Ile Cys Thr Leu Pro Glu Lys Glu Lys Gln Ile Lys Lys Gln Thr Ala 515 520 525 Leu Ala Glu Leu Val Lys His Lys Pro Lys Ala Thr Ala Glu Gln Leu 530 535 540 Lys Thr Val Met Asp Asp Phe Ala Gln Phe Leu Asp Thr Cys Cys Lys 545 550 555 560 Ala Ala Asp Lys Asp Thr Cys Phe Ser Thr Glu Gly Pro Asn Leu Val 565 570 575 Thr Arg Cys Lys Asp Ala Leu Ala 580 <210> 5 <211> 609 <212> PRT <213> Homo sapiens <220> <221> MISC_FEATURE <222> (1)..(18) <223> Signal Peptide <220> <221> MISC_FEATURE <222> (19)..(24) <223> Propeptide <220> <221> MISC_FEATURE <222> (25)..(609) <223> Serum Albumin <400> 5 Met Lys Trp Val Thr Phe Ile Ser Leu Leu Phe Leu Phe Ser Ser Ala 1 5 10 15 Tyr Ser Arg Gly Val Phe Arg Arg Asp Ala His Lys Ser Glu Val Ala 20 25 30 His Arg Phe Lys Asp Leu Gly Glu Glu Asn Phe Lys Ala Leu Val Leu 35 40 45 Ile Ala Phe Ala Gln Tyr Leu Gln Gln Cys Pro Phe Glu Asp His Val 50 55 60 Lys Leu Val Asn Glu Val Thr Glu Phe Ala Lys Thr Cys Val Ala Asp 65 70 75 80 Glu Ser Ala Glu Asn Cys Asp Lys Ser Leu His Thr Leu Phe Gly Asp 85 90 95 Lys Leu Cys Thr Val Ala Thr Leu Arg Glu Thr Tyr Gly Glu Met Ala 100 105 110 Asp Cys Cys Ala Lys Gln Glu Pro Glu Arg Asn Glu Cys Phe Leu Gln 115 120 125 His Lys Asp Asp Asn Pro Asn Leu Pro Arg Leu Val Arg Pro Glu Val 130 135 140 Asp Val Met Cys Thr Ala Phe His Asp Asn Glu Glu Thr Phe Leu Lys 145 150 155 160 Lys Tyr Leu Tyr Glu Ile Ala Arg Arg His Pro Tyr Phe Tyr Ala Pro 165 170 175 Glu Leu Leu Phe Phe Ala Lys Arg Tyr Lys Ala Ala Phe Thr Glu Cys 180 185 190 Cys Gln Ala Ala Asp Lys Ala Ala Cys Leu Leu Pro Lys Leu Asp Glu 195 200 205 Leu Arg Asp Glu Gly Lys Ala Ser Ser Ala Lys Gln Arg Leu Lys Cys 210 215 220 Ala Ser Leu Gln Lys Phe Gly Glu Arg Ala Phe Lys Ala Trp Ala Val 225 230 235 240 Ala Arg Leu Ser Gln Arg Phe Pro Lys Ala Glu Phe Ala Glu Val Ser 245 250 255 Lys Leu Val Thr Asp Leu Thr Lys Val His Thr Glu Cys Cys His Gly 260 265 270 Asp Leu Leu Glu Cys Ala Asp Asp Arg Ala Asp Leu Ala Lys Tyr Ile 275 280 285 Cys Glu Asn Gln Asp Ser Ile Ser Ser Lys Leu Lys Glu Cys Cys Glu 290 295 300 Lys Pro Leu Leu Glu Lys Ser His Cys Ile Ala Glu Val Glu Asn Asp 305 310 315 320 Glu Met Pro Ala Asp Leu Pro Ser Leu Ala Ala Asp Phe Val Glu Ser 325 330 335 Lys Asp Val Cys Lys Asn Tyr Ala Glu Ala Lys Asp Val Phe Leu Gly 340 345 350 Met Phe Leu Tyr Glu Tyr Ala Arg Arg His Pro Asp Tyr Ser Val Val 355 360 365 Leu Leu Leu Arg Leu Ala Lys Thr Tyr Glu Thr Thr Leu Glu Lys Cys 370 375 380 Cys Ala Ala Ala Asp Pro His Glu Cys Tyr Ala Lys Val Phe Asp Glu 385 390 395 400 Phe Lys Pro Leu Val Glu Glu Pro Gln Asn Leu Ile Lys Gln Asn Cys 405 410 415 Glu Leu Phe Glu Gln Leu Gly Glu Tyr Lys Phe Gln Asn Ala Leu Leu 420 425 430 Val Arg Tyr Thr Lys Lys Val Pro Gln Val Ser Thr Pro Thr Leu Val 435 440 445 Glu Val Ser Arg Asn Leu Gly Lys Val Gly Ser Lys Cys Cys Lys His 450 455 460 Pro Glu Ala Lys Arg Met Pro Cys Ala Glu Asp Tyr Leu Ser Val Val 465 470 475 480 Leu Asn Gln Leu Cys Val Leu His Glu Lys Thr Pro Val Ser Asp Arg 485 490 495 Val Thr Lys Cys Cys Thr Glu Ser Leu Val Asn Arg Arg Pro Cys Phe 500 505 510 Ser Ala Leu Glu Val Asp Glu Thr Tyr Val Pro Lys Glu Phe Asn Ala 515 520 525 Glu Thr Phe Thr Phe His Ala Asp Ile Cys Thr Leu Ser Glu Lys Glu 530 535 540 Arg Gln Ile Lys Lys Gln Thr Ala Leu Val Glu Leu Val Lys His Lys 545 550 555 560 Pro Lys Ala Thr Lys Glu Gln Leu Lys Ala Val Met Asp Asp Phe Ala 565 570 575 Ala Phe Val Glu Lys Cys Cys Lys Ala Asp Asp Lys Glu Thr Cys Phe 580 585 590 Ala Glu Glu Gly Lys Lys Leu Val Ala Ala Ser Gln Ala Ala Leu Gly 595 600 605 Leu <210> 6 <211> 18 <212> PRT <213> Homo sapiens <400> 6 Met Lys Trp Val Thr Phe Ile Ser Leu Leu Phe Leu Phe Ser Ser Ala 1 5 10 15 Tyr Ser <210> 7 <211> 6 <212> PRT <213> Homo sapiens <400> 7 Arg Gly Val Phe Arg Arg 1 5 <210> 8 <211> 585 <212> PRT <213> Homo sapiens <400> 8 Asp Ala His Lys Ser Glu Val Ala His Arg Phe Lys Asp Leu Gly Glu 1 5 10 15 Glu Asn Phe Lys Ala Leu Val Leu Ile Ala Phe Ala Gln Tyr Leu Gln 20 25 30 Gln Cys Pro Phe Glu Asp His Val Lys Leu Val Asn Glu Val Thr Glu 35 40 45 Phe Ala Lys Thr Cys Val Ala Asp Glu Ser Ala Glu Asn Cys Asp Lys 50 55 60 Ser Leu His Thr Leu Phe Gly Asp Lys Leu Cys Thr Val Ala Thr Leu 65 70 75 80 Arg Glu Thr Tyr Gly Glu Met Ala Asp Cys Cys Ala Lys Gln Glu Pro 85 90 95 Glu Arg Asn Glu Cys Phe Leu Gln His Lys Asp Asp Asn Pro Asn Leu 100 105 110 Pro Arg Leu Val Arg Pro Glu Val Asp Val Met Cys Thr Ala Phe His 115 120 125 Asp Asn Glu Glu Thr Phe Leu Lys Lys Tyr Leu Tyr Glu Ile Ala Arg 130 135 140 Arg His Pro Tyr Phe Tyr Ala Pro Glu Leu Leu Phe Phe Ala Lys Arg 145 150 155 160 Tyr Lys Ala Ala Phe Thr Glu Cys Cys Gln Ala Ala Asp Lys Ala Ala 165 170 175 Cys Leu Leu Pro Lys Leu Asp Glu Leu Arg Asp Glu Gly Lys Ala Ser 180 185 190 Ser Ala Lys Gln Arg Leu Lys Cys Ala Ser Leu Gln Lys Phe Gly Glu 195 200 205 Arg Ala Phe Lys Ala Trp Ala Val Ala Arg Leu Ser Gln Arg Phe Pro 210 215 220 Lys Ala Glu Phe Ala Glu Val Ser Lys Leu Val Thr Asp Leu Thr Lys 225 230 235 240 Val His Thr Glu Cys Cys His Gly Asp Leu Leu Glu Cys Ala Asp Asp 245 250 255 Arg Ala Asp Leu Ala Lys Tyr Ile Cys Glu Asn Gln Asp Ser Ile Ser 260 265 270 Ser Lys Leu Lys Glu Cys Cys Glu Lys Pro Leu Leu Glu Lys Ser His 275 280 285 Cys Ile Ala Glu Val Glu Asn Asp Glu Met Pro Ala Asp Leu Pro Ser 290 295 300 Leu Ala Ala Asp Phe Val Glu Ser Lys Asp Val Cys Lys Asn Tyr Ala 305 310 315 320 Glu Ala Lys Asp Val Phe Leu Gly Met Phe Leu Tyr Glu Tyr Ala Arg 325 330 335 Arg His Pro Asp Tyr Ser Val Val Leu Leu Leu Arg Leu Ala Lys Thr 340 345 350 Tyr Glu Thr Thr Leu Glu Lys Cys Cys Ala Ala Ala Asp Pro His Glu 355 360 365 Cys Tyr Ala Lys Val Phe Asp Glu Phe Lys Pro Leu Val Glu Glu Pro 370 375 380 Gln Asn Leu Ile Lys Gln Asn Cys Glu Leu Phe Glu Gln Leu Gly Glu 385 390 395 400 Tyr Lys Phe Gln Asn Ala Leu Leu Val Arg Tyr Thr Lys Lys Val Pro 405 410 415 Gln Val Ser Thr Pro Thr Leu Val Glu Val Ser Arg Asn Leu Gly Lys 420 425 430 Val Gly Ser Lys Cys Cys Lys His Pro Glu Ala Lys Arg Met Pro Cys 435 440 445 Ala Glu Asp Tyr Leu Ser Val Val Leu Asn Gln Leu Cys Val Leu His 450 455 460 Glu Lys Thr Pro Val Ser Asp Arg Val Thr Lys Cys Cys Thr Glu Ser 465 470 475 480 Leu Val Asn Arg Arg Pro Cys Phe Ser Ala Leu Glu Val Asp Glu Thr 485 490 495 Tyr Val Pro Lys Glu Phe Asn Ala Glu Thr Phe Thr Phe His Ala Asp 500 505 510 Ile Cys Thr Leu Ser Glu Lys Glu Arg Gln Ile Lys Lys Gln Thr Ala 515 520 525 Leu Val Glu Leu Val Lys His Lys Pro Lys Ala Thr Lys Glu Gln Leu 530 535 540 Lys Ala Val Met Asp Asp Phe Ala Ala Phe Val Glu Lys Cys Cys Lys 545 550 555 560 Ala Asp Asp Lys Glu Thr Cys Phe Ala Glu Glu Gly Lys Lys Leu Val 565 570 575 Ala Ala Ser Gln Ala Ala Leu Gly Leu 580 585 <210> 9 <211> 1827 <212> DNA <213> Mus musculus <220> <221> misc_feature <222> (1)..(72) <223> Signal Peptide <220> <221> misc_feature <222> (73)..(90) <223> Propeptide <220> <221> misc_feature <222> (91)..(1824) <223> Serum Albumin <400> 9 atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60 gtgtttcgcc gagaagcaca caagagtgag atcgcccatc ggtataatga tttgggagaa 120 caacatttca aaggcctagt cctgattgcc ttttcccagt atctccagaa atgctcatac 180 gatgagcatg ccaaattagt gcaggaagta acagactttg caaagacgtg tgttgccgat 240 gagtctgccg ccaactgtga caaatccctt cacactcttt ttggagataa gttgtgtgcc 300 attccaaacc tccgtgaaaa ctatggtgaa ctggctgact gctgtacaaa acaagagccc 360 gaaagaaacg aatgtttcct gcaacacaaa gatgacaacc ccagcctgcc accatttgaa 420 aggccagagg ctgaggccat gtgcacctcc tttaaggaaa acccaaccac ctttatggga 480 cactatttgc atgaagttgc cagaagacat ccttatttct atgccccaga acttctttac 540 tatgctgagc agtacaatga gattctgacc cagtgttgtg cagaggctga caaggaaagc 600 tgcctgaccc cgaagcttga tggtgtgaag gagaaagcat tggtctcatc tgtccgtcag 660 agaatgaagt gctccagtat gcagaagttt ggagagagag cttttaaagc atgggcagta 720 gctcgtctga gccagacatt ccccaatgct gactttgcag aaatcaccaa attggcaaca 780 gacctgacca aagtcaacaa ggagtgctgc catggtgacc tgctggaatg cgcagatgac 840 agggcggaac ttgccaagta catgtgtgaa aaccaggcga ctatctccag caaactgcag 900 acttgctgcg ataaaccact gttgaagaaa gcccactgtc ttagtgaggt ggagcatgac 960 accatgcctg ctgatctgcc tgccattgct gctgattttg ttgaggacca ggaagtgtgc 1020 aagaactatg ctgaggccaa ggatgtcttc ctgggcacgt tcttgtatga atattcaaga 1080 agacaccctg attactctgt atccctgttg ctgagacttg ctaagaaata tgaagccact 1140 ctggaaaagt gctgcgctga agccaatcct cccgcatgct acggcacagt gcttgctgaa 1200 tttcagcctc ttgtagaaga gcctaagaac ttggtcaaaa ccaactgtga tctttacgag 1260 aagcttggag aatatggatt ccaaaatgcc attctagttc gctacaccca gaaagcacct 1320 caggtgtcaa ccccaactct cgtggaggct gcaagaaacc taggaagagt gggcaccaag 1380 tgttgtacac ttcctgaaga tcagagactg ccttgtgtgg aagactatct gtctgcaatc 1440 ctgaaccgtg tgtgtctgct gcatgagaag accccagtga gtgagcatgt taccaagtgc 1500 tgtagtggat ccctggtgga aaggcggcca tgcttctctg ctctgacagt tgatgaaaca 1560 tatgtcccca aagagtttaa agctgagacc ttcaccttcc actctgatat ctgcacactt 1620 ccagagaagg agaagcagat taagaaacaa acggctcttg ctgagctggt gaagcacaag 1680 cccaaggcta cagcggagca actgaagact gtcatggatg actttgcaca gttcctggat 1740 acatgttgca aggctgctga caaggacacc tgcttctcga ctgagggtcc aaaccttgtc 1800 actagatgca aagacgcctt agcctaa 1827 <210> 10 <211> 72 <212> DNA <213> Mus musculus <400> 10 atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60 gtgtttcgcc ga 72 <210> 11 <211> 18 <212> DNA <213> Mus musculus <400> 11 gaagcacaca agagtgag 18 <210> 12 <211> 1734 <212> DNA <213> Mus musculus <400> 12 atcgcccatc ggtataatga tttgggagaa caacatttca aaggcctagt cctgattgcc 60 ttttcccagt atctccagaa atgctcatac gatgagcatg ccaaattagt gcaggaagta 120 acagactttg caaagacgtg tgttgccgat gagtctgccg ccaactgtga caaatccctt 180 cacactcttt ttggagataa gttgtgtgcc attccaaacc tccgtgaaaa ctatggtgaa 240 ctggctgact gctgtacaaa acaagagccc gaaagaaacg aatgtttcct gcaacacaaa 300 gatgacaacc ccagcctgcc accatttgaa aggccagagg ctgaggccat gtgcacctcc 360 tttaaggaaa acccaaccac ctttatggga cactatttgc atgaagttgc cagaagacat 420 ccttatttct atgccccaga acttctttac tatgctgagc agtacaatga gattctgacc 480 cagtgttgtg cagaggctga caaggaaagc tgcctgaccc cgaagcttga tggtgtgaag 540 gagaaagcat tggtctcatc tgtccgtcag agaatgaagt gctccagtat gcagaagttt 600 ggagagagag cttttaaagc atgggcagta gctcgtctga gccagacatt ccccaatgct 660 gactttgcag aaatcaccaa attggcaaca gacctgacca aagtcaacaa ggagtgctgc 720 catggtgacc tgctggaatg cgcagatgac agggcggaac ttgccaagta catgtgtgaa 780 aaccaggcga ctatctccag caaactgcag acttgctgcg ataaaccact gttgaagaaa 840 gcccactgtc ttagtgaggt ggagcatgac accatgcctg ctgatctgcc tgccattgct 900 gctgattttg ttgaggacca ggaagtgtgc aagaactatg ctgaggccaa ggatgtcttc 960 ctgggcacgt tcttgtatga atattcaaga agacaccctg attactctgt atccctgttg 1020 ctgagacttg ctaagaaata tgaagccact ctggaaaagt gctgcgctga agccaatcct 1080 cccgcatgct acggcacagt gcttgctgaa tttcagcctc ttgtagaaga gcctaagaac 1140 ttggtcaaaa ccaactgtga tctttacgag aagcttggag aatatggatt ccaaaatgcc 1200 attctagttc gctacaccca gaaagcacct caggtgtcaa ccccaactct cgtggaggct 1260 gcaagaaacc taggaagagt gggcaccaag tgttgtacac ttcctgaaga tcagagactg 1320 ccttgtgtgg aagactatct gtctgcaatc ctgaaccgtg tgtgtctgct gcatgagaag 1380 accccagtga gtgagcatgt taccaagtgc tgtagtggat ccctggtgga aaggcggcca 1440 tgcttctctg ctctgacagt tgatgaaaca tatgtcccca aagagtttaa agctgagacc 1500 ttcaccttcc actctgatat ctgcacactt ccagagaagg agaagcagat taagaaacaa 1560 acggctcttg ctgagctggt gaagcacaag cccaaggcta cagcggagca actgaagact 1620 gtcatggatg actttgcaca gttcctggat acatgttgca aggctgctga caaggacacc 1680 tgcttctcga ctgagggtcc aaaccttgtc actagatgca aagacgcctt agcc 1734 <210> 13 <211> 1830 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (1)..(72) <223> Signal Peptide <220> <221> misc_feature <222> (73)..(90) <223> Propeptide <220> <221> misc_feature <222> (91)..(1827) <223> Serum albumin <400> 13 atgaagtggg taacctttat ttcccttctt tttctcttta gctcggctta ttccaggggt 60 gtgtttcgtc gagatgcaca caagagtgag gttgctcatc ggtttaaaga tttgggagaa 120 gaaaatttca aagccttggt gttgattgcc tttgctcagt atcttcagca gtgtccattt 180 gaagatcatg taaaattagt gaatgaagta actgaatttg caaaaacatg tgttgctgat 240 gagtcagctg aaaattgtga caaatcactt catacccttt ttggagacaa attatgcaca 300 gttgcaactc ttcgtgaaac ctatggtgaa atggctgact gctgtgcaaa acaagaacct 360 gagagaaatg aatgcttctt gcaacacaaa gatgacaacc caaacctccc ccgattggtg 420 agaccagagg ttgatgtgat gtgcactgct tttcatgaca atgaagagac atttttgaaa 480 aaatacttat atgaaattgc cagaagacat ccttactttt atgccccgga actccttttc 540 tttgctaaaa ggtataaagc tgcttttaca gaatgttgcc aagctgctga taaagctgcc 600 tgcctgttgc caaagctcga tgaacttcgg gatgaaggga aggcttcgtc tgccaaacag 660 agactcaagt gtgccagtct ccaaaaattt ggagaaagag ctttcaaagc atgggcagta 720 gctcgcctga gccagagatt tcccaaagct gagtttgcag aagtttccaa gttagtgaca 780 gatcttacca aagtccacac ggaatgctgc catggagatc tgcttgaatg tgctgatgac 840 agggcggacc ttgccaagta tatctgtgaa aatcaagatt cgatctccag taaactgaag 900 gaatgctgtg aaaaacctct gttggaaaaa tcccactgca ttgccgaagt ggaaaatgat 960 gagatgcctg ctgacttgcc ttcattagct gctgattttg ttgaaagtaa ggatgtttgc 1020 aaaaactatg ctgaggcaaa ggatgtcttc ctgggcatgt ttttgtatga atatgcaaga 1080 aggcatcctg attactctgt cgtgctgctg ctgagacttg ccaagacata tgaaaccact 1140 ctagagaagt gctgtgccgc tgcagatcct catgaatgct atgccaaagt gttcgatgaa 1200 tttaaacctc ttgtggaaga gcctcagaat ttaatcaaac aaaattgtga gctttttgag 1260 cagcttggag agtacaaatt ccagaatgcg ctattagttc gttacaccaa gaaagtaccc 1320 caagtgtcaa ctccaactct tgtagaggtc tcaagaaacc taggaaaagt gggcagcaaa 1380 tgttgtaaac atcctgaagc aaaaagaatg ccctgtgcag aagactatct atccgtggtc 1440 ctgaaccagt tatgtgtgtt gcatgagaaa acgccagtaa gtgacagagt caccaaatgc 1500 tgcacagaat ccttggtgaa caggcgacca tgcttttcag ctctggaagt cgatgaaaca 1560 tacgttccca aagagtttaa tgctgaaaca ttcaccttcc atgcagatat atgcacactt 1620 tctgagaagg agagacaaat caagaaacaa actgcacttg ttgagctcgt gaaacacaag 1680 cccaaggcaa caaaagagca actgaaagct gttatggatg atttcgcagc ttttgtagag 1740 aagtgctgca aggctgacga taaggagacc tgctttgccg aggagggtaa aaaacttgtt 1800 gctgcaagtc aagctgcctt aggcttataa 1830 <210> 14 <211> 72 <212> DNA <213> Homo sapiens <400> 14 atgaagtggg taacctttat ttcccttctt tttctcttta gctcggctta ttccaggggt 60 gtgtttcgtc ga 72 <210> 15 <211> 18 <212> DNA <213> Homo sapiens <400> 15 gatgcacaca agagtgag 18 <210> 16 <211> 1737 <212> DNA <213> Homo sapiens <400> 16 gttgctcatc ggtttaaaga tttgggagaa gaaaatttca aagccttggt gttgattgcc 60 tttgctcagt atcttcagca gtgtccattt gaagatcatg taaaattagt gaatgaagta 120 actgaatttg caaaaacatg tgttgctgat gagtcagctg aaaattgtga caaatcactt 180 catacccttt ttggagacaa attatgcaca gttgcaactc ttcgtgaaac ctatggtgaa 240 atggctgact gctgtgcaaa acaagaacct gagagaaatg aatgcttctt gcaacacaaa 300 gatgacaacc caaacctccc ccgattggtg agaccagagg ttgatgtgat gtgcactgct 360 tttcatgaca atgaagagac atttttgaaa aaatacttat atgaaattgc cagaagacat 420 ccttactttt atgccccgga actccttttc tttgctaaaa ggtataaagc tgcttttaca 480 gaatgttgcc aagctgctga taaagctgcc tgcctgttgc caaagctcga tgaacttcgg 540 gatgaaggga aggcttcgtc tgccaaacag agactcaagt gtgccagtct ccaaaaattt 600 ggagaaagag ctttcaaagc atgggcagta gctcgcctga gccagagatt tcccaaagct 660 gagtttgcag aagtttccaa gttagtgaca gatcttacca aagtccacac ggaatgctgc 720 catggagatc tgcttgaatg tgctgatgac agggcggacc ttgccaagta tatctgtgaa 780 aatcaagatt cgatctccag taaactgaag gaatgctgtg aaaaacctct gttggaaaaa 840 tcccactgca ttgccgaagt ggaaaatgat gagatgcctg ctgacttgcc ttcattagct 900 gctgattttg ttgaaagtaa ggatgtttgc aaaaactatg ctgaggcaaa ggatgtcttc 960 ctgggcatgt ttttgtatga atatgcaaga aggcatcctg attactctgt cgtgctgctg 1020 ctgagacttg ccaagacata tgaaaccact ctagagaagt gctgtgccgc tgcagatcct 1080 catgaatgct atgccaaagt gttcgatgaa tttaaacctc ttgtggaaga gcctcagaat 1140 ttaatcaaac aaaattgtga gctttttgag cagcttggag agtacaaatt ccagaatgcg 1200 ctattagttc gttacaccaa gaaagtaccc caagtgtcaa ctccaactct tgtagaggtc 1260 tcaagaaacc taggaaaagt gggcagcaaa tgttgtaaac atcctgaagc aaaaagaatg 1320 ccctgtgcag aagactatct atccgtggtc ctgaaccagt tatgtgtgtt gcatgagaaa 1380 acgccagtaa gtgacagagt caccaaatgc tgcacagaat ccttggtgaa caggcgacca 1440 tgcttttcag ctctggaagt cgatgaaaca tacgttccca aagagtttaa tgctgaaaca 1500 ttcaccttcc atgcagatat atgcacactt tctgagaagg agagacaaat caagaaacaa 1560 actgcacttg ttgagctcgt gaaacacaag cccaaggcaa caaaagagca actgaaagct 1620 gttatggatg atttcgcagc ttttgtagag aagtgctgca aggctgacga taaggagacc 1680 tgctttgccg aggagggtaa aaaacttgtt gctgcaagtc aagctgcctt aggctta 1737 <210> 17 <211> 23484 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(46) <223> Mouse Sequence <220> <221> misc_feature <222> (47)..(17381) <223> Human Sequence <220> <221> misc_feature <222> (17382)..(17387) <223> XhoI <220> <221> misc_feature <222> (17388)..(17421) <223> LoxP <220> <221> misc_feature <222> (17422)..(18108) <223> Prm1 <220> <221> misc_feature <222> (18109)..(19249) <223> Crei <220> <221> misc_feature <222> (19250)..(19545) <223> SV40 PolyA <220> <221> misc_feature <222> (19546)..(20758) <223> hUbi <220> <221> misc_feature <222> (20759)..(20825) <223> em7 <220> <221> misc_feature <222> (20826)..(21629) <223> Neo <220> <221> misc_feature <222> (21630)..(22119) <223> PGK PolyA <220> <221> misc_feature <222> (22120)..(22153) <223> LoxP <220> <221> misc_feature <222> (22160)..(22185) <223> I-CeuI <220> <221> misc_feature <222> (22186)..(22191) <223> NheI <220> <221> misc_feature <222> (22192)..(23484) <223> Mouse Sequence <400> 17 tgcacacaga tcacctttcc tatcaacccc actagcctct ggcaaaatga agtgggtaac 60 ctttatttcc cttctttttc tctttagctc ggcttattcc aggggtgtgt ttcgtcgaga 120 tgcacgtaag aaatccattt ttctattgtt caacttttat tctattttcc cagtaaaata 180 aagttttagt aaactctgca tctttaaaga attattttgg catttatttc taaaatggca 240 tagtattttg tatttgtgaa gtcttacaag gttatcttat taataaaatt caaacatcct 300 aggtaaaaaa aaaaaaaggt cagaattgtt tagtgactgt aattttcttt tgcgcactaa 360 ggaaagtgca aagtaactta gagtgactga aacttcacag aatagggttg aagattgaat 420 tcataactat cccaaagacc tatccattgc actatgcttt atttaaaaac cacaaaacct 480 gtgctgttga tctcataaat agaacttgta tttatattta ttttcatttt agtctgtctt 540 cttggttgct gttgatagac actaaaagag tattagatat tatctaagtt tgaatataag 600 gctataaata tttaataatt tttaaaatag tattcttggt aattgaatta ttcttctgtt 660 taaaggcaga agaaataatt gaacatcatc ctgagttttt ctgtaggaat cagagcccaa 720 tattttgaaa caaatgcata atctaagtca aatggaaaga aatataaaaa gtaacattat 780 tacttcttgt tttcttcagt atttaacaat cctttttttt cttcccttgc ccagacaaga 840 gtgaggttgc tcatcggttt aaagatttgg gagaagaaaa tttcaaagcc ttgtaagtta 900 aaatattgat gaatcaaatt taatgtttct aatagtgttg tttattattc taaagtgctt 960 atatttcctt gtcatcaggg ttcagattct aaaacagtgc tgcctcgtag agttttctgc 1020 gttgaggaag atattctgta tctgggctat ccaataaggt agtcactggt cacatggcta 1080 ttgagtactt caaatatgac aagtgcaact gagaaacaaa aacttaaatt gtatttaatt 1140 gtagttaatt tgaatgtata tagtcacatg tggctaatgg ctactgtatt ggacagtaca 1200 gctctggaac ttgcttggtg gaaaggactt taatataggt ttcctttggt ggcttaccca 1260 ctaaatcttc tttacatagc aagcattcct gtgcttagtt gggaatattt aatttttttt 1320 tttttttaag acagggtctc gctctgtcgc ccaggctgga gtgcagtggc gcaatctcgg 1380 ctcactgcaa actccgcctc ccgggttcac gccattctcc tgcctcagcc tcccgagtag 1440 ctgggactac aggcgcccgc catcacgccc ggctaatctt ttgtattttt agtagagatg 1500 gggtttcacc gtgtgccagg atggtctcaa tctcctgaca tcgtgatctg cccacctcgg 1560 cctcccaaag tgctgggatt acaggagtga gccaccgcgc ccggcctatt taaatgtttt 1620 ttaatctagt aaaaaatgag aaaattgttt ttttaaaagt ctacctaatc ctacaggcta 1680 attaaagacg tgtgtgggga tcaggtgcgg tggttcacac ctgtaatccc agcactttgg 1740 aaggctgatg caggaggatt gcttgagccc aggagttcaa gaccagcctg ggcaagtctc 1800 tttaaaaaaa acaaaacaaa caaacaaaaa aattaggcat ggtggcacat gcctgtagtc 1860 ctagctactt aggaggctga cgtaggagga tcgtttggac ctgagaggtc aaggctacag 1920 tgagccatga ttgtgccact gcactccagc ctgggtgaca gagtgagact ctgtctcaaa 1980 aaagaaaaag gaaatctgtg gggtttgttt tagttttaag taattctaag gactttaaaa 2040 atgcctagtc ttgacaatta gatctatttg gcatacaatt tgcttgctta atctatgtgt 2100 gtgcatagat ctactgacac acgcatacat ataaacatta gggaactacc attctctttg 2160 cgtaggaagc cacatatgcc tatctaggcc tcagatcata cctgatatga ataggctttc 2220 tggataatgg tgaagaagat gtataaaaga tagaacctat acccatacat gatttgttct 2280 ctagcgtagc aacctgttac atattaaagt tttattatac tacatttttc tacatccttt 2340 gtttcagggt gttgattgcc tttgctcagt atcttcagca gtgtccattt gaagatcatg 2400 taaaattagt gaatgaagta actgaatttg caaaaacatg tgttgctgat gagtcagctg 2460 aaaattgtga caaatcactt gtaagtacat tctaattgtg gagattcttt cttctgtttg 2520 aagtaatccc aagcatttca aaggaatttt ttttaagttt tctcaattat tattaagtgt 2580 cctgatttgt aagaaacact aaaaagttgc tcatagactg ataagccatt gtttcttttg 2640 tgatagagat gctttagcta tgtccacagt tttaaaatca tttctttatt gagaccaaac 2700 acaacagtca tggtgtattt aaatggcaat ttgtcattta taaacacctc tttttaaaat 2760 ttgaggtttg gtttcttttt gtagaggcta atagggatat gatagcatgt atttatttat 2820 ttatttatct tattttatta tagtaagaac ccttaacatg agatctaccc tgttatattt 2880 ttaagtgtac aatccattat tgttaactac gggtacactg ttgtatagct tactcatctt 2940 gctgtattaa aactttgtgc ccattgatta gtaacccctc gtttcgtcct cccccagcca 3000 ctggcaacca gcattatact ctttgattct atgagtttga ctactttagc taccttatat 3060 aagtggtatt atgtactgtt tatcttttta tgactgactt atttccctta gcatagtgca 3120 ttcaaagtcc aaccatgttg ttgcctattg cagaatttcc ttcttttcaa ggctgaataa 3180 tattccagtg catgtgtgta ccacattttc tttatccatt aatttgttga ttgatagaca 3240 tttaggttgg ttttctacat cttgactatc atgaatagtg ttgcaatgaa cacaggagag 3300 ctactatctc ttagagatga tatcatggtt tttatcatca gaaaacaccc actgatttct 3360 atgctaattt tgttacctgg gtggaataat agtacagcta tatattcctc attttagata 3420 tctttgtatt tctacataca ataaaaaagc agagtactta gtcatgttga agaactttaa 3480 acttttagta tttccagatc aatcttcaaa acaaggacag gtttatcttt ctctcaccac 3540 tcaatctata tatacctctt gtgggcaagg ccagttttta tcactggagc ctttcccctt 3600 tttattatgt acctctccct cacagcagag tcaggacttt aactttacac aatactatgg 3660 ctctacatat gaaatcttaa aaatacataa aaattaataa attctgtcta gagtagtata 3720 ttttccctgg ggttacagtt actttcataa taaaaattag agataaggaa aggactcatt 3780 tattggaaag tgattttagg taacatttct ggaagaaaaa tgtctatatc ttaatagtca 3840 cttaatatat gatggattgt gttactcctc agttttcaat ggcatatact aaaacatggc 3900 cctctaaaaa gggggcaaat gaaatgagaa actctctgaa tgtttttctc ccctaggtga 3960 attcacctgc tgcttagaag cttattttct cttgatttct gttataatga ttgctcttac 4020 cctttagttt taagtttcaa aataggagtc atataacttt ccttaaagct attgactgtc 4080 tttttgtcct gttttattca ccatgagtta tagtgtgaca gttaattctt atgaaaatta 4140 tatagagatg gttaaatcat cagaaactgt aaacctcgat tgggagggga agcggatttt 4200 taaatgattt cctgaccaag cttaaccagt atattaaatc ctttgtactg ttctttggct 4260 ataaagaaaa aaggtactgt ccagcaactg aaacctgctt tcttccattt agcataccct 4320 ttttggagac aaattatgca cagttgcaac tcttcgtgaa acctatggtg aaatggctga 4380 ctgctgtgca aaacaagaac ctgagagaaa tgaatgcttc ttgcaacaca aagatgacaa 4440 cccaaacctc ccccgattgg tgagaccaga ggttgatgtg atgtgcactg cttttcatga 4500 caatgaagag acatttttga aaaagtaagt aatcagatgt ttatagttca aaattaaaaa 4560 gcatggagta actccatagg ccaacactct ataaaaatta ccataacaaa aatattttca 4620 acattaagac ttggaagttt tgttatgatg attttttaaa gaagtagtat ttgataccac 4680 aaaattctac acagcaaaaa atatgatcaa agatattttg aagtttattg aaacaggata 4740 caatctttct gaaaaattta agatagacaa attatttaat gtattacgaa gatatgtata 4800 tatggttgtt ataattgatt tcgttttagt cagcaacatt atattgccaa aatttaacca 4860 tttatgcaca cacacacaca cacacacaca cttaaccctt ttttccacat acttaaagaa 4920 tgacagagac aagaccatca tgtgcaaatt gagcttaatt ggttaattag atatctttgg 4980 aatttggagg ttctggggag aatgtcgatt acaattattt ctgtaatatt gtctgctata 5040 gaaaagtgac tgtttttctt tttcaaaatt tagatactta tatgaaattg ccagaagaca 5100 tccttacttt tatgccccgg aactcctttt ctttgctaaa aggtataaag ctgcttttac 5160 agaatgttgc caagctgctg ataaagctgc ctgcctgttg ccaaaggtat tatgcaaaag 5220 aatagaaaaa aagagttcat tatccaacct gattttgtcc attttgtggc tagatttagg 5280 gaacctgagt gtctgataca aactttccga catggtcaaa aaagccttcc ttttatctgt 5340 cttgaaaatc tttcatcttt gaaggcctac actctcgttt cttcttttaa gatttgccaa 5400 tgatgatctg tcagaggtaa tcactgtgca tgtgtttaaa gatttcacca ctttttatgg 5460 tggtgatcac tatagtgaaa tactgaaact tgtttgtcaa attgcacagc aaggggccac 5520 agttcttgtt tatcttttca tgataatttt tagtagggag ggaattcaaa gtagagaatt 5580 ttactgcatc tagatgcctg agttcatgca ttcattccat aaatatatat tatggaatgc 5640 tttattttct tttctgagga gtttactgat gttggtggag gagagactga aatgaattat 5700 acacaaaatt taaaaattag caaaattgca gcccctggga tattagcgta ctctttctct 5760 gacttttctc ccacttttaa ggctcttttt cctggcaatg tttccagttg gtttctaact 5820 acatagggaa ttccgctgtg accagaatga tcgaatgatc tttccttttc ttagagagca 5880 aaatcattat tcgctaaagg gagtacttgg gaatttaggc ataaattatg ccttcaaaat 5940 ttaatttggc acagtctcat ctgagcttat ggaggggtgt ttcatgtaga atttttcttc 6000 taattttcat caaattattc ctttttgtag ctcgatgaac ttcgggatga agggaaggct 6060 tcgtctgcca aacagagact caagtgtgcc agtctccaaa aatttggaga aagagctttc 6120 aaagcatggt aaatactttt aaacatagtt ggcatcttta taacgatgta aatgataatg 6180 cttcagtgac aaattgtaca tttttatgta ttttgcaaag tgctgtcaaa tacatttctt 6240 tggttgtcta acaggtagaa ctctaataga ggtaaaaatc agaatatcaa tgacaatttg 6300 acattatttt taatcttttc ttttctaaat agttgaataa tttagaggac gctgtccttt 6360 ttgtcctaaa aaaagggaca gatatttaag ttctatttat ttataaaatc ttggactctt 6420 attctaatgg ttcattattt ttatagagct gtaggcatgg ttctttattt aattttttaa 6480 agttattttt aatttttgtg gatacagagt aggtatacat atttacgggg tatatgagat 6540 attttgatat aagtatacaa catatataat ccctttattt aattttatct tccccccaat 6600 gatctaaaac tatttgcttg tccttttatg tcttatagtt aaattcagtc accaactaag 6660 ttgaagttac ttcttatttt tgcatagctc cagctctgat cttcatctca tgtttttgcc 6720 tgagcctctg ttttcatatt acttagttgg ttctgggagc atactttaat agccgagtca 6780 agaaaaatac tagctgcccc gtcacccaca ctcctcacct gctagtcaac agcaaatcaa 6840 cacaacagga aataaaatga aaataataga cattatgcat gctctctaga aactgtcaat 6900 tgaactgtat ttgctcatca ttcctaccat ctacaccacc aaaatcaacc aaatttatga 6960 aaaaaaacag ccccaacata aaattataca cagataaaca ggctatgatt ggttttggga 7020 aagaagtcac ctttacctga tttaggcaac tgtgaaatga ctagagaatg aagaaaatta 7080 gacgtttaca tcttgtcata gagtttgaag atagtgctgg atctttcttt ttataagtaa 7140 gatcaataaa aactccctca ttctgtagaa gttatgattt cttttctaag agacctttag 7200 aagtcagaaa aaatgtgttt caattgagaa aaaagataac tggagtttgt gtagtacttc 7260 ccagattata aaatgctttt gtatgtatta tctaatttaa tcctcaaaac ttcttcaatt 7320 tagcatgttg tcatgacact gcagaggctg aagctcagag aggctgagcc ctctgctaac 7380 aagtcctact gctaacaagt gataaagcca gagctggaag tcacatctgg actccaaacc 7440 tgatgcttct cagcctgttg ccccttttag agttcctttt taatttctgc ttttatgact 7500 tgctagattt ctacctacca cacacactct taaatggata attctgccct aaggataagt 7560 gattaccatt tggttcagaa ctagaactaa tgaattttaa aaattatttc tgtatgtcca 7620 ttttgaattt tcttatgaga aatagtattt gcctagtgtt ttcatataaa atatcgcatg 7680 ataataccat tttgattggc gattttcttt ttagggcagt agctcgcctg agccagagat 7740 ttcccaaagc tgagtttgca gaagtttcca agttagtgac agatcttacc aaagtccaca 7800 cggaatgctg ccatggagat ctgcttgaat gtgctgatga cagggtaaag agtcgtcgat 7860 atgctttttg gtagcttgca tgctcaagtt ggtagaatgg atgcgtttgg tatcattggt 7920 gatagctgac agtgggttga gattgtcttc tgtgctttcg tctgtcctat cttcaatctt 7980 tccctgccta tggtggtggt acctttctgt ttttaacctg gctataaatt accagataaa 8040 cccattcact gatttgtaac tcctttcagt catgctctaa ctgtaaatga aggcttaaac 8100 tgaagtagaa cagttacaag gttttacttg gcagaacatc ttgcaaggta gatgtctaag 8160 aagatttttt tttctttttt taagacagag tttcgctctt gtttcccagg ctggggtgca 8220 atggtgtgat cttggctcag cgcaacctct gcctcctggg ttcaagtgat tctcatgcct 8280 cagcctccca agtagctggg attacaggca tgcgccacca cacctggcta attttgtatt 8340 tttagtagag gcggggtttc accatattgt ccagactggt ctcgaactcc tgacctcagg 8400 tgatccaccc gccttggcct cccaaagtgc tgggattaca ggcatgagcc accttgccca 8460 gcctaagaag attttttgag ggaggtaggt ggacttggag aaggtcacta cttgaagaga 8520 tttttggaaa tgatgtattt ttcttctcta tattccttcc cttaattaac tctgtttgtt 8580 agatgtgcaa atatttggaa tgatatctct tttctcaaaa cttataatat tttctttctc 8640 cctttcttca agattaaact tatgggcaaa tactagaatc ctaatctctc atggcacttt 8700 ctggaaaatt taaggcggtt attttatata tgtaagcagg gcctatgact atgatcttga 8760 ctcatttttc aaaaatcttc tatattttat ttagttattt ggtttcaaaa ggcctgcact 8820 taattttggg ggattatttg gaaaaacagc attgagtttt aatgaaaaaa acttaaatgc 8880 cctaacagta gaaacataaa attaataaat aactgagctg agcacctgct actgattagt 8940 ctattttaat taagtgggaa tgtttttgta gtcctatcta catctccagg tttaggagca 9000 aacagagtat gttcatagaa ggaatatgtg tatggtctta gaatacaatg aatatgttct 9060 gccaacttaa taaaggtctg aggagaaagt gtagcaatgt caattcgtgt tgaacaattt 9120 ccaccaactt acttataggc ggaccttgcc aagtatatct gtgaaaatca agattcgatc 9180 tccagtaaac tgaaggaatg ctgtgaaaaa cctctgttgg aaaaatccca ctgcattgcc 9240 gaagtggaaa atgatgagat gcctgctgac ttgccttcat tagctgctga ttttgttgaa 9300 agtaaggatg tttgcaaaaa ctatgctgag gcaaaggatg tcttcctggg catgtaagta 9360 gataagaaat tattctttta tagctttggc atgacctcac aacttaggag gatagcctag 9420 gcttttctgt ggagttgcta caatttccct gctgcccaga atgtttcttc atccttccct 9480 ttcccaggct ttaacaattt ttgaaatagt taattagttg aatacattgt cataaaataa 9540 tacatgttca tggcaaagct caacattcct tactccttag gggtatttct gaaaatacgt 9600 ctagaaacat tttgtgtata tataaattat gtatacttca gtcattcatt ccaagtgtat 9660 ttcttgaaca tctataatat atgtgtgtga ctatgtattg cctgtctatc taactaatct 9720 aatctaatct agtctatcta tctaatctat gcaatgatag caaagaagta taaaaagaaa 9780 tatagagtct gacaccaggt gctttatatt tggtgaaaag accagaagtt cagtataatg 9840 gcaatatggt aggcaactca attacaaaat aaatgtttac atattgtcag aagttgtggt 9900 gataaactgc atttttgttg ttggattatg ataatgcact aaataatatt tcctaaaatt 9960 atgtacccta caagatttca ctcatacaga gaagaaagag aatattttaa gaacatatct 10020 ctgcccatct atttatcaga atccttttga gatgtagttt aaatcaaaca aaatgttaat 10080 aaaaataaca agtatcattc atcaaagact tcatatgtgc caagcagtgt gtgctttgtg 10140 tagattatgt catatagttc tcataatcca ccttccgaga cagatactat ttattttttg 10200 agacagagtt ttactcttgt tgcccaggct ggagtgcaat ggtgccatct cggctcacca 10260 caacctccgc ctcccaggtt caagcgattc tcctgcctca gcctcctggg attacaggca 10320 tgcaccacca tgcctggcta attttgtatt tttagtagag atggggtttc accatgttgg 10380 tcagactggt ctcaaactcc tgacctctgg tgatatgcct gcctcagcct cctaaagtgc 10440 tgggattaca ggcatgagcc actgtgccca gccgacagat actattatta tttccattct 10500 accgagaagg agactaaggc tctgatcatt taaataagtt gcctaaggtg atgcagtgat 10560 ataagtagca gagctaggaa ttgagccttg gtaactttaa ctctggaccc caagtcctta 10620 gctactaagc tttactgcat ggggtttagt caaattaaga cttttggaat atgagttact 10680 tttgagatta gctttgtgat attttttgtg ctcatttgtc caacaaagtc tattttattt 10740 tcatcttaat taggtttttg tatgaatatg caagaaggca tcctgattac tctgtcgtgc 10800 tgctgctgag acttgccaag acatatgaaa ccactctaga gaagtgctgt gccgctgcag 10860 atcctcatga atgctatgcc aaagtggtag gtttattgtt ggaaaaaaat gtagttcttt 10920 gactgatgat tccaataatg agaaagaaaa ataatgcaag aatgtaaaat gatatacagt 10980 gcaatttaga tcttttcttg agatggtttc aattctggaa tcttaaacat gaaagaaaaa 11040 gtagccttag aatgattaac aaaatttaga ctagttagaa tagaaagatc tgaatagagc 11100 aatctctaaa aaattttgat ctttttttct ctttttcaca atcctgagaa caaaaaaaaa 11160 ttaaatttaa atgttaatta gaagatattt aacttagatg taaagtgagt taacctgatt 11220 ccaggattaa tcaagtacta gaattagtat cttatggcaa attatagaac ctatcccttt 11280 agaatatttt caaatctttt tgaggatgtt taggaatagt tttacaagaa attaagttag 11340 gagaggaaat ctgttctgga ggatttttag ggttcccact agcatatgta atggtttctg 11400 aactattcag aatcagagaa aactcatttt tcctgctttc aagaagctac tgtatgccag 11460 gcaccatgca caaacaatga ccaacgtaaa atctctcatt ttggagagcc tggaatctaa 11520 ctggaaaggt gaactaataa taataatatg tacaatcata gccatcattt attaaacttt 11580 tattatatgc aaggcactgt ttaatttcat tagcttacct ggtttacaga gcagctctat 11640 gagatgagtg ccatctttgc ccctatttta gggataagga ttctgaaatg tggagatggt 11700 aagtaaaatt gcacaactga agaatgagtt acatgacttg gctcaaatac tggtcattga 11760 actccagagc ctgaatattc ttaaccactt acatgatgca agctcaccaa ataaatagtt 11820 cgaatgtatt gtgacagagc ggcattgata ttcatctatt catgtggctt tgagtaggaa 11880 gaagaaagga tatcattctg accagagggg tgaaaaacaa cctgcatctg atcctgaggc 11940 ataatactat taacacaatt cttttatgtt tcagttcgat gaatttaaac ctcttgtgga 12000 agagcctcag aatttaatca aacaaaattg tgagcttttt gagcagcttg gagagtacaa 12060 attccagaat gcgtaagtaa tttttattga ctgatttttt ttatcaattt gtaattattt 12120 aagacttaat atatgagcca cctagcatag aacttttaag aatgaaaata cattgcatat 12180 ttctaatcac tctttgtcaa gaaagatagg agaggagaga taaaatagtt gatggggtgg 12240 agaggtctat atttgaatgt agtctaaaaa ttgttctctt aagattggaa gtatgtaggc 12300 tgggagggta aataccaaat cttggtatat cagaactgag catgtccctt gaaggttaag 12360 aaatagttaa tgggcaaata gagcatggca atattttgta gagcagcaag tagtaggcct 12420 tgaatagatg tcgctcaaaa agtaatatgt aagctgaaca caaaaatgta acaaatgaat 12480 ttagatacat atttgaatat taaattcagg ttgtttggga gatgcaccta gtctttgatg 12540 gttaaacctt tccctccata gaagagacag agacagaatg gcttgctgga ctaatgtccc 12600 aattcaatag agtcttatct atgaaggtta aaaacaagaa gagacatatt atacagtaga 12660 tatttattgt gtggctcata cacatggtgc tcttctgatt atggatttta gagataataa 12720 cagtgaacaa gacatagttt ctttcctcga gtagattaaa gtcatacatt gacttttaat 12780 ggtgactggc attcttaata catgattatt atatattagg taccatgtca gattaattat 12840 aatactttac tacttttaat ttaacccttg aactatccct attgagtcag atatatttcc 12900 ttccattttc tacttgtatc tttcaagttt agcatatgct gatacatatg aagctctctc 12960 caggttttat tgaaagaaga aattaataaa tttattaatg tcactgaatt aggcaactca 13020 ctttcccaag attatgcaag tggtacaggt ggaactcaaa gccaagttta actagttgtt 13080 caggagaatg ttttctaccc tccactaacc cactactctg cagatggaga taatatgatg 13140 aatggaacat agcaacatct tagttgattc cggccaagtg ttctctgttt tatctactat 13200 gttagacagt ttcttgcctt gctgaaaaca catgacttct ttttttcagg ctattagttc 13260 gttacaccaa gaaagtaccc caagtgtcaa ctccaactct tgtagaggtc tcaagaaacc 13320 taggaaaagt gggcagcaaa tgttgtaaac atcctgaagc aaaaagaatg ccctgtgcag 13380 aagactatgt gagtctttaa aaaaatataa taaattaata atgaaaaaat tttaccttta 13440 gatattgata atgctagctt tcataagcag aaggaagtaa tgtgtgtgtg tgcatgtttg 13500 tgtgcatgtg tgtgtgcatg cacgtgtgtg tatgtgtgat attggcagtc aaggccccga 13560 ggatgataat tttttttttt tttttgagac ggagtctcgc tttgttgtcc aggctggagt 13620 gcagtggtgc catctcggct cactgcaacc tccgcctccc aggttcaagc cattctcctg 13680 cctcagcctc ccaagtagct gggactacag gtgcatgcca ccatgcctgg ctaatttttt 13740 gtatttttag tagaaaattt tcagcttcac ctcttttgaa tttctgctct cctgcctgtt 13800 ctttagctat ccgtggtcct gaaccagtta tgtgtgttgc atgagaaaac gccagtaagt 13860 gacagagtca ccaaatgctg cacagaatcc ttggtgaaca ggcgaccatg cttttcagct 13920 ctggaagtcg atgaaacata cgttcccaaa gagtttaatg ctgaaacatt caccttccat 13980 gcagatatat gcacactttc tgagaaggag agacaaatca agaaacaaac gtgaggagta 14040 tttcattact gcatgtgttt gtagtcttga tagcaagaac tgtcaattca agctagcaac 14100 tttttcctga agtagtgatt atatttctta gaggaaagta ttggagtgtt gcccttatta 14160 tgctgataag agtacccaga ataaaatgaa taacttttta aagacaaaat cctctgttat 14220 aatattgcta aaattattca gagtaatatt gtggattaaa gccacaatag aataacatgt 14280 taggccatat tcagtagaaa aagatgaaca attaactgat aaatttgtgc acatggcaaa 14340 ttagttaatg ggaaccatag gagaatttat ttctagatgt aaataattat tttaagtttg 14400 ccctatggtg gccccacaca tgagacaaac ccccaagatg tgacttttga gaatgagact 14460 tggataaaaa acatgtagaa atgcaagccc tgaagctcaa ctccctattg ctatcacagg 14520 ggttataatt gcataaaatt tagctataga aagttgctgt catctcttgt gggctgtaat 14580 catcgtctag gcttaagagt aatattgcaa aacctgtcat gcccacacaa atctctccct 14640 ggcattgttg tctttgcaga tgtcagtgaa agagaaccag cagctcccat gagtttggat 14700 agccttattt tctatagcct ccccactatt agctttgaag ggagcaaagt ttaagaacca 14760 aatataaagt ttctcatctt tatagatgag aaaaatttta aataaagtcc aagataatta 14820 aatttttaag gatcattttt agctctttaa tagcaataaa actcaatatg acataatatg 14880 gcacttccaa aatctgaata atatataatt gcaatgacat acttcttttc agagatttac 14940 tgaaaagaaa tttgttgaca ctacataacg tgatgagtgg tttatactga ttgtttcagt 15000 tggtcttccc accaactcca tgaaagtgga ttttattatc ctcatcatgc agatgagaat 15060 attgagactt atagcggtat gcctgagccc caaagtactc agagttgcct ggctccaaga 15120 tttataatct taaatgatgg gactaccatc cttactctct ccatttttct atacgtgagt 15180 aatgtttttt ctgttttttt tttttctttt tccattcaaa ctcagtgcac ttgttgagct 15240 cgtgaaacac aagcccaagg caacaaaaga gcaactgaaa gctgttatgg atgatttcgc 15300 agcttttgta gagaagtgct gcaaggctga cgataaggag acctgctttg ccgaggaggt 15360 actacagttc tcttcatttt aatatgtcca gtattcattt ttgcatgttt ggttaggcta 15420 gggcttaggg atttatatat caaaggaggc tttgtacatg tgggacaggg atcttatttt 15480 acaaacaatt gtcttacaaa atgaataaaa cagcactttg tttttatctc ctgctctatt 15540 gtgccatact gttaaatgtt tataatgcct gttctgtttc caaatttgtg atgcttatga 15600 atattaatag gaatatttgt aaggcctgaa atattttgat catgaaatca aaacattaat 15660 ttatttaaac atttacttga aatgtggtgg tttgtgattt agttgatttt ataggctagt 15720 gggagaattt acattcaaat gtctaaatca cttaaaattg ccctttatgg cctgacagta 15780 actttttttt attcatttgg ggacaactat gtccgtgagc ttccgtccag agattatagt 15840 agtaaattgt aattaaagga tatgatgcac gtgaaatcac tttgcaatca tcaatagctt 15900 cataaatgtt aattttgtat cctaatagta atgctaatat tttcctaaca tctgtcatgt 15960 ctttgtgttc agggtaaaaa acttgttgct gcaagtcaag ctgccttagg cttataacat 16020 cacatttaaa agcatctcag gtaactatat tttgaatttt ttaaaaaagt aactataata 16080 gttattatta aaatagcaaa gattgaccat ttccaagagc catatagacc agcaccgacc 16140 actattctaa actatttatg tatgtaaata ttagctttta aaattctcaa aatagttgct 16200 gagttgggaa ccactattat ttctattttg tagatgagaa aatgaagata aacatcaaag 16260 catagattaa gtaattttcc aaagggtcaa aattcaaaat tgaaaccaaa gtttcagtgt 16320 tgcccattgt cctgttctga cttatatgat gcggtacaca gagccatcca agtaagtgat 16380 ggctcagcag tggaatactc tgggaattag gctgaaccac atgaaagagt gctttatagg 16440 gcaaaaacag ttgaatatca gtgatttcac atggttcaac ctaatagttc aactcatcct 16500 ttccattgga gaatatgatg gatctacctt ctgtgaactt tatagtgaag aatctgctat 16560 tacatttcca atttgtcaac atgctgagct ttaataggac ttatcttctt atgacaacat 16620 ttattggtgt gtccccttgc ctagcccaac agaagaattc agcagccgta agtctaggac 16680 aggcttaaat tgttttcact ggtgtaaatt gcagaaagat gatctaagta atttggcatt 16740 tattttaata ggtttgaaaa acacatgcca ttttacaaat aagacttata tttgtccttt 16800 tgtttttcag cctaccatga gaataagaga aagaaaatga agatcaaaag cttattcatc 16860 tgtttttctt tttcgttggt gtaaagccaa caccctgtct aaaaaacata aatttcttta 16920 atcattttgc ctcttttctc tgtgcttcaa ttaataaaaa atggaaagaa tctaatagag 16980 tggtacagca ctgttatttt tcaaagatgt gttgctatcc tgaaaattct gtaggttctg 17040 tggaagttcc agtgttctct cttattccac ttcggtagag gatttctagt ttcttgtggg 17100 ctaattaaat aaatcattaa tactcttcta agttatggat tataaacatt caaaataata 17160 ttttgacatt atgataattc tgaataaaag aacaaaaacc atggtatagg taaggaatat 17220 aaaacatggc ttttacctta gaaaaaacaa ttctaaaatt catatggaat caaaaaagag 17280 cctgcagaac caaagtaaga ctaagcaaaa agaacaaatt acctgatttc aaactacact 17340 ataaggccat agtcaccgaa acagcaaggt actggtataa actcgagata acttcgtata 17400 atgtatgcta tacgaagtta tatgcatgcc agtagcagca cccacgtcca ccttctgtct 17460 agtaatgtcc aacacctccc tcagtccaaa cactgctctg catccatgtg gctcccattt 17520 atacctgaag cacttgatgg ggcctcaatg ttttactaga gcccaccccc ctgcaactct 17580 gagaccctct ggatttgtct gtcagtgcct cactggggcg ttggataatt tcttaaaagg 17640 tcaagttccc tcagcagcat tctctgagca gtctgaagat gtgtgctttt cacagttcaa 17700 atccatgtgg ctgtttcacc cacctgcctg gccttgggtt atctatcagg acctagccta 17760 gaagcaggtg tgtggcactt aacacctaag ctgagtgact aactgaacac tcaagtggat 17820 gccatctttg tcacttcttg actgtgacac aagcaactcc tgatgccaaa gccctgccca 17880 cccctctcat gcccatattt ggacatggta caggtcctca ctggccatgg tctgtgaggt 17940 cctggtcctc tttgacttca taattcctag gggccactag tatctataag aggaagaggg 18000 tgctggctcc caggccacag cccacaaaat tccacctgct cacaggttgg ctggctcgac 18060 ccaggtggtg tcccctgctc tgagccagct cccggccaag ccagcaccat gggaaccccc 18120 aagaagaaga ggaaggtgcg taccgattta aattccaatt tactgaccgt acaccaaaat 18180 ttgcctgcat taccggtcga tgcaacgagt gatgaggttc gcaagaacct gatggacatg 18240 ttcagggatc gccaggcgtt ttctgagcat acctggaaaa tgcttctgtc cgtttgccgg 18300 tcgtgggcgg catggtgcaa gttgaataac cggaaatggt ttcccgcaga acctgaagat 18360 gttcgcgatt atcttctata tcttcaggcg cgcggtctgg cagtaaaaac tatccagcaa 18420 catttgggcc agctaaacat gcttcatcgt cggtccgggc tgccacgacc aagtgacagc 18480 aatgctgttt cactggttat gcggcggatc cgaaaagaaa acgttgatgc cggtgaacgt 18540 gcaaaacagg taaatataaa atttttaagt gtataatgat gttaaactac tgattctaat 18600 tgtttgtgta ttttaggctc tagcgttcga acgcactgat ttcgaccagg ttcgttcact 18660 catggaaaat agcgatcgct gccaggatat acgtaatctg gcatttctgg ggattgctta 18720 taacaccctg ttacgtatag ccgaaattgc caggatcagg gttaaagata tctcacgtac 18780 tgacggtggg agaatgttaa tccatattgg cagaacgaaa acgctggtta gcaccgcagg 18840 tgtagagaag gcacttagcc tgggggtaac taaactggtc gagcgatgga tttccgtctc 18900 tggtgtagct gatgatccga ataactacct gttttgccgg gtcagaaaaa atggtgttgc 18960 cgcgccatct gccaccagcc agctatcaac tcgcgccctg gaagggattt ttgaagcaac 19020 tcatcgattg atttacggcg ctaaggatga ctctggtcag agatacctgg cctggtctgg 19080 acacagtgcc cgtgtcggag ccgcgcgaga tatggcccgc gctggagttt caataccgga 19140 gatcatgcaa gctggtggct ggaccaatgt aaatattgtc atgaactata tccgtaacct 19200 ggatagtgaa acaggggcaa tggtgcgcct gctggaagat ggcgattagg cggccggccg 19260 ctaatcagcc ataccacatt tgtagaggtt ttacttgctt taaaaaacct cccacacctc 19320 cccctgaacc tgaaacataa aatgaatgca attgttgttg ttaacttgtt tattgcagct 19380 tataatggtt acaaataaag caatagcatc acaaatttca caaataaagc atttttttca 19440 ctgcattcta gttgtggttt gtccaaactc atcaatgtat cttatcatgt ctggatcccc 19500 cggctagagt ttaaacacta gaactagtgg atcccccggg atcatggcct ccgcgccggg 19560 ttttggcgcc tcccgcgggc gcccccctcc tcacggcgag cgctgccacg tcagacgaag 19620 ggcgcagcga gcgtcctgat ccttccgccc ggacgctcag gacagcggcc cgctgctcat 19680 aagactcggc cttagaaccc cagtatcagc agaaggacat tttaggacgg gacttgggtg 19740 actctagggc actggttttc tttccagaga gcggaacagg cgaggaaaag tagtcccttc 19800 tcggcgattc tgcggaggga tctccgtggg gcggtgaacg ccgatgatta tataaggacg 19860 cgccgggtgt ggcacagcta gttccgtcgc agccgggatt tgggtcgcgg ttcttgtttg 19920 tggatcgctg tgatcgtcac ttggtgagta gcgggctgct gggctggccg gggctttcgt 19980 ggccgccggg ccgctcggtg ggacggaagc gtgtggagag accgccaagg gctgtagtct 20040 gggtccgcga gcaaggttgc cctgaactgg gggttggggg gagcgcagca aaatggcggc 20100 tgttcccgag tcttgaatgg aagacgcttg tgaggcgggc tgtgaggtcg ttgaaacaag 20160 gtggggggca tggtgggcgg caagaaccca aggtcttgag gccttcgcta atgcgggaaa 20220 gctcttattc gggtgagatg ggctggggca ccatctgggg accctgacgt gaagtttgtc 20280 actgactgga gaactcggtt tgtcgtctgt tgcgggggcg gcagttatgg cggtgccgtt 20340 gggcagtgca cccgtacctt tgggagcgcg cgccctcgtc gtgtcgtgac gtcacccgtt 20400 ctgttggctt ataatgcagg gtggggccac ctgccggtag gtgtgcggta ggcttttctc 20460 cgtcgcagga cgcagggttc gggcctaggg taggctctcc tgaatcgaca ggcgccggac 20520 ctctggtgag gggagggata agtgaggcgt cagtttcttt ggtcggtttt atgtacctat 20580 cttcttaagt agctgaagct ccggttttga actatgcgct cggggttggc gagtgtgttt 20640 tgtgaagttt tttaggcacc ttttgaaatg taatcatttg ggtcaatatg taattttcag 20700 tgttagacta gtaaattgtc cgctaaattc tggccgtttt tggctttttt gttagacgtg 20760 ttgacaatta atcatcggca tagtatatcg gcatagtata atacgacaag gtgaggaact 20820 aaaccatggg atcggccatt gaacaagatg gattgcacgc aggttctccg gccgcttggg 20880 tggagaggct attcggctat gactgggcac aacagacaat cggctgctct gatgccgccg 20940 tgttccggct gtcagcgcag gggcgcccgg ttctttttgt caagaccgac ctgtccggtg 21000 ccctgaatga actgcaggac gaggcagcgc ggctatcgtg gctggccacg acgggcgttc 21060 cttgcgcagc tgtgctcgac gttgtcactg aagcgggaag ggactggctg ctattgggcg 21120 aagtgccggg gcaggatctc ctgtcatctc accttgctcc tgccgagaaa gtatccatca 21180 tggctgatgc aatgcggcgg ctgcatacgc ttgatccggc tacctgccca ttcgaccacc 21240 aagcgaaaca tcgcatcgag cgagcacgta ctcggatgga agccggtctt gtcgatcagg 21300 atgatctgga cgaagagcat caggggctcg cgccagccga actgttcgcc aggctcaagg 21360 cgcgcatgcc cgacggcgat gatctcgtcg tgacccatgg cgatgcctgc ttgccgaata 21420 tcatggtgga aaatggccgc ttttctggat tcatcgactg tggccggctg ggtgtggcgg 21480 accgctatca ggacatagcg ttggctaccc gtgatattgc tgaagagctt ggcggcgaat 21540 gggctgaccg cttcctcgtg ctttacggta tcgccgctcc cgattcgcag cgcatcgcct 21600 tctatcgcct tcttgacgag ttcttctgag gggatccgct gtaagtctgc agaaattgat 21660 gatctattaa acaataaaga tgtccactaa aatggaagtt tttcctgtca tactttgtta 21720 agaagggtga gaacagagta cctacatttt gaatggaagg attggagcta cgggggtggg 21780 ggtggggtgg gattagataa atgcctgctc tttactgaag gctctttact attgctttat 21840 gataatgttt catagttgga tatcataatt taaacaagca aaaccaaatt aagggccagc 21900 tcattcctcc cactcatgat ctatagatct atagatctct cgtgggatca ttgtttttct 21960 cttgattccc actttgtggt tctaagtact gtggtttcca aatgtgtcag tttcatagcc 22020 tgaagaacga gatcagcagc ctctgttcca catacacttc attctcagta ttgttttgcc 22080 aagttctaat tccatcagac ctcgacctgc agcccctaga taacttcgta taatgtatgc 22140 tatacgaagt tatgctaggt aactataacg gtcctaaggt agcgagctag cacacatcac 22200 aaccacaacc ttctcaggta actatacttg ggacttaaaa aacataatca taatcatttt 22260 tcctaaaacg atcaagactg ataaccattt gacaagagcc atacagacaa gcaccagctg 22320 gcactcttag gtcttcacgt atggtcatca gtttgggttc catttgtaga taagaaactg 22380 aacatataaa ggtctaggtt aatgcaattt acacaaaagg agaccaaacc agggagagaa 22440 ggaaccaaaa ttaaaaattc aaaccagagc aaaggagtta gccctggttt tgctctgact 22500 tacatgaacc actatgtgga gtcctccatg ttagcctagt caagcttatc ctctggatga 22560 agttgaaacc atatgaagga atatttgggg ggtgggtcaa aacagttgtg tatcaatgat 22620 tccatgtggt ttgacccaat cattctgtga atccatttca acagaagata caacgggttc 22680 tgtttcataa taagtgatcc acttccaaat ttctgatgtg ccccatgcta agctttaaca 22740 gaatttatct tcttatgaca aagcagcctc ctttgaaaat atagccaact gcacacagct 22800 atgttgatca attttgttta taatcttgca gaagagaatt ttttaaaata gggcaataat 22860 ggaaggcttt ggcaaaaaaa ttgtttctcc atatgaaaac aaaaaactta tttttttatt 22920 caagcaaaga acctatagac ataaggctat ttcaaaatta tttcagtttt agaaagaatt 22980 gaaagttttg tagcattctg agaagacagc tttcatttgt aatcataggt aatatgtagg 23040 tcctcagaaa tggtgagacc cctgactttg acacttgggg actctgaggg accagtgatg 23100 aagagggcac aacttatatc acacatgcac gagttggggt gagagggtgt cacaacatct 23160 atcagtgtgt catctgccca ccaagtaaca gatgtcagct aagactaggt catgtgtagg 23220 ctgtctacac cagtgaaaat cgcaaaaaga atctaagaaa ttccacattt ctagaaaata 23280 ggtttggaaa ccgtattcca ttttacaaag gacacttaca tttctctttt tgttttccag 23340 gctaccctga gaaaaaaaga catgaagact caggactcat cttttctgtt ggtgtaaaat 23400 caacacccta aggaacacaa atttctttaa acatttgact tcttgtctct gtgctgcaat 23460 taataaaaaa tggaaagaat ctac 23484 <210> 18 <211> 17768 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(46) <223> Mouse Sequence <220> <221> misc_feature <222> (47)..(17381) <223> Human Sequence <220> <221> misc_feature <222> (17382)..(17387) <223> XhoI <220> <221> misc_feature <222> (17388)..(17421) <223> LoxP <220> <221> misc_feature <222> (17428)..(17453) <223> I-CeuI <220> <221> misc_feature <222> (17454)..(17459) <223> NheI <220> <221> misc_feature <222> (17460)..(17768) <223> Mouse Sequence <400> 18 tgcacacaga tcacctttcc tatcaacccc actagcctct ggcaaaatga agtgggtaac 60 ctttatttcc cttctttttc tctttagctc ggcttattcc aggggtgtgt ttcgtcgaga 120 tgcacgtaag aaatccattt ttctattgtt caacttttat tctattttcc cagtaaaata 180 aagttttagt aaactctgca tctttaaaga attattttgg catttatttc taaaatggca 240 tagtattttg tatttgtgaa gtcttacaag gttatcttat taataaaatt caaacatcct 300 aggtaaaaaa aaaaaaaggt cagaattgtt tagtgactgt aattttcttt tgcgcactaa 360 ggaaagtgca aagtaactta gagtgactga aacttcacag aatagggttg aagattgaat 420 tcataactat cccaaagacc tatccattgc actatgcttt atttaaaaac cacaaaacct 480 gtgctgttga tctcataaat agaacttgta tttatattta ttttcatttt agtctgtctt 540 cttggttgct gttgatagac actaaaagag tattagatat tatctaagtt tgaatataag 600 gctataaata tttaataatt tttaaaatag tattcttggt aattgaatta ttcttctgtt 660 taaaggcaga agaaataatt gaacatcatc ctgagttttt ctgtaggaat cagagcccaa 720 tattttgaaa caaatgcata atctaagtca aatggaaaga aatataaaaa gtaacattat 780 tacttcttgt tttcttcagt atttaacaat cctttttttt cttcccttgc ccagacaaga 840 gtgaggttgc tcatcggttt aaagatttgg gagaagaaaa tttcaaagcc ttgtaagtta 900 aaatattgat gaatcaaatt taatgtttct aatagtgttg tttattattc taaagtgctt 960 atatttcctt gtcatcaggg ttcagattct aaaacagtgc tgcctcgtag agttttctgc 1020 gttgaggaag atattctgta tctgggctat ccaataaggt agtcactggt cacatggcta 1080 ttgagtactt caaatatgac aagtgcaact gagaaacaaa aacttaaatt gtatttaatt 1140 gtagttaatt tgaatgtata tagtcacatg tggctaatgg ctactgtatt ggacagtaca 1200 gctctggaac ttgcttggtg gaaaggactt taatataggt ttcctttggt ggcttaccca 1260 ctaaatcttc tttacatagc aagcattcct gtgcttagtt gggaatattt aatttttttt 1320 tttttttaag acagggtctc gctctgtcgc ccaggctgga gtgcagtggc gcaatctcgg 1380 ctcactgcaa actccgcctc ccgggttcac gccattctcc tgcctcagcc tcccgagtag 1440 ctgggactac aggcgcccgc catcacgccc ggctaatctt ttgtattttt agtagagatg 1500 gggtttcacc gtgtgccagg atggtctcaa tctcctgaca tcgtgatctg cccacctcgg 1560 cctcccaaag tgctgggatt acaggagtga gccaccgcgc ccggcctatt taaatgtttt 1620 ttaatctagt aaaaaatgag aaaattgttt ttttaaaagt ctacctaatc ctacaggcta 1680 attaaagacg tgtgtgggga tcaggtgcgg tggttcacac ctgtaatccc agcactttgg 1740 aaggctgatg caggaggatt gcttgagccc aggagttcaa gaccagcctg ggcaagtctc 1800 tttaaaaaaa acaaaacaaa caaacaaaaa aattaggcat ggtggcacat gcctgtagtc 1860 ctagctactt aggaggctga cgtaggagga tcgtttggac ctgagaggtc aaggctacag 1920 tgagccatga ttgtgccact gcactccagc ctgggtgaca gagtgagact ctgtctcaaa 1980 aaagaaaaag gaaatctgtg gggtttgttt tagttttaag taattctaag gactttaaaa 2040 atgcctagtc ttgacaatta gatctatttg gcatacaatt tgcttgctta atctatgtgt 2100 gtgcatagat ctactgacac acgcatacat ataaacatta gggaactacc attctctttg 2160 cgtaggaagc cacatatgcc tatctaggcc tcagatcata cctgatatga ataggctttc 2220 tggataatgg tgaagaagat gtataaaaga tagaacctat acccatacat gatttgttct 2280 ctagcgtagc aacctgttac atattaaagt tttattatac tacatttttc tacatccttt 2340 gtttcagggt gttgattgcc tttgctcagt atcttcagca gtgtccattt gaagatcatg 2400 taaaattagt gaatgaagta actgaatttg caaaaacatg tgttgctgat gagtcagctg 2460 aaaattgtga caaatcactt gtaagtacat tctaattgtg gagattcttt cttctgtttg 2520 aagtaatccc aagcatttca aaggaatttt ttttaagttt tctcaattat tattaagtgt 2580 cctgatttgt aagaaacact aaaaagttgc tcatagactg ataagccatt gtttcttttg 2640 tgatagagat gctttagcta tgtccacagt tttaaaatca tttctttatt gagaccaaac 2700 acaacagtca tggtgtattt aaatggcaat ttgtcattta taaacacctc tttttaaaat 2760 ttgaggtttg gtttcttttt gtagaggcta atagggatat gatagcatgt atttatttat 2820 ttatttatct tattttatta tagtaagaac ccttaacatg agatctaccc tgttatattt 2880 ttaagtgtac aatccattat tgttaactac gggtacactg ttgtatagct tactcatctt 2940 gctgtattaa aactttgtgc ccattgatta gtaacccctc gtttcgtcct cccccagcca 3000 ctggcaacca gcattatact ctttgattct atgagtttga ctactttagc taccttatat 3060 aagtggtatt atgtactgtt tatcttttta tgactgactt atttccctta gcatagtgca 3120 ttcaaagtcc aaccatgttg ttgcctattg cagaatttcc ttcttttcaa ggctgaataa 3180 tattccagtg catgtgtgta ccacattttc tttatccatt aatttgttga ttgatagaca 3240 tttaggttgg ttttctacat cttgactatc atgaatagtg ttgcaatgaa cacaggagag 3300 ctactatctc ttagagatga tatcatggtt tttatcatca gaaaacaccc actgatttct 3360 atgctaattt tgttacctgg gtggaataat agtacagcta tatattcctc attttagata 3420 tctttgtatt tctacataca ataaaaaagc agagtactta gtcatgttga agaactttaa 3480 acttttagta tttccagatc aatcttcaaa acaaggacag gtttatcttt ctctcaccac 3540 tcaatctata tatacctctt gtgggcaagg ccagttttta tcactggagc ctttcccctt 3600 tttattatgt acctctccct cacagcagag tcaggacttt aactttacac aatactatgg 3660 ctctacatat gaaatcttaa aaatacataa aaattaataa attctgtcta gagtagtata 3720 ttttccctgg ggttacagtt actttcataa taaaaattag agataaggaa aggactcatt 3780 tattggaaag tgattttagg taacatttct ggaagaaaaa tgtctatatc ttaatagtca 3840 cttaatatat gatggattgt gttactcctc agttttcaat ggcatatact aaaacatggc 3900 cctctaaaaa gggggcaaat gaaatgagaa actctctgaa tgtttttctc ccctaggtga 3960 attcacctgc tgcttagaag cttattttct cttgatttct gttataatga ttgctcttac 4020 cctttagttt taagtttcaa aataggagtc atataacttt ccttaaagct attgactgtc 4080 tttttgtcct gttttattca ccatgagtta tagtgtgaca gttaattctt atgaaaatta 4140 tatagagatg gttaaatcat cagaaactgt aaacctcgat tgggagggga agcggatttt 4200 taaatgattt cctgaccaag cttaaccagt atattaaatc ctttgtactg ttctttggct 4260 ataaagaaaa aaggtactgt ccagcaactg aaacctgctt tcttccattt agcataccct 4320 ttttggagac aaattatgca cagttgcaac tcttcgtgaa acctatggtg aaatggctga 4380 ctgctgtgca aaacaagaac ctgagagaaa tgaatgcttc ttgcaacaca aagatgacaa 4440 cccaaacctc ccccgattgg tgagaccaga ggttgatgtg atgtgcactg cttttcatga 4500 caatgaagag acatttttga aaaagtaagt aatcagatgt ttatagttca aaattaaaaa 4560 gcatggagta actccatagg ccaacactct ataaaaatta ccataacaaa aatattttca 4620 acattaagac ttggaagttt tgttatgatg attttttaaa gaagtagtat ttgataccac 4680 aaaattctac acagcaaaaa atatgatcaa agatattttg aagtttattg aaacaggata 4740 caatctttct gaaaaattta agatagacaa attatttaat gtattacgaa gatatgtata 4800 tatggttgtt ataattgatt tcgttttagt cagcaacatt atattgccaa aatttaacca 4860 tttatgcaca cacacacaca cacacacaca cttaaccctt ttttccacat acttaaagaa 4920 tgacagagac aagaccatca tgtgcaaatt gagcttaatt ggttaattag atatctttgg 4980 aatttggagg ttctggggag aatgtcgatt acaattattt ctgtaatatt gtctgctata 5040 gaaaagtgac tgtttttctt tttcaaaatt tagatactta tatgaaattg ccagaagaca 5100 tccttacttt tatgccccgg aactcctttt ctttgctaaa aggtataaag ctgcttttac 5160 agaatgttgc caagctgctg ataaagctgc ctgcctgttg ccaaaggtat tatgcaaaag 5220 aatagaaaaa aagagttcat tatccaacct gattttgtcc attttgtggc tagatttagg 5280 gaacctgagt gtctgataca aactttccga catggtcaaa aaagccttcc ttttatctgt 5340 cttgaaaatc tttcatcttt gaaggcctac actctcgttt cttcttttaa gatttgccaa 5400 tgatgatctg tcagaggtaa tcactgtgca tgtgtttaaa gatttcacca ctttttatgg 5460 tggtgatcac tatagtgaaa tactgaaact tgtttgtcaa attgcacagc aaggggccac 5520 agttcttgtt tatcttttca tgataatttt tagtagggag ggaattcaaa gtagagaatt 5580 ttactgcatc tagatgcctg agttcatgca ttcattccat aaatatatat tatggaatgc 5640 tttattttct tttctgagga gtttactgat gttggtggag gagagactga aatgaattat 5700 acacaaaatt taaaaattag caaaattgca gcccctggga tattagcgta ctctttctct 5760 gacttttctc ccacttttaa ggctcttttt cctggcaatg tttccagttg gtttctaact 5820 acatagggaa ttccgctgtg accagaatga tcgaatgatc tttccttttc ttagagagca 5880 aaatcattat tcgctaaagg gagtacttgg gaatttaggc ataaattatg ccttcaaaat 5940 ttaatttggc acagtctcat ctgagcttat ggaggggtgt ttcatgtaga atttttcttc 6000 taattttcat caaattattc ctttttgtag ctcgatgaac ttcgggatga agggaaggct 6060 tcgtctgcca aacagagact caagtgtgcc agtctccaaa aatttggaga aagagctttc 6120 aaagcatggt aaatactttt aaacatagtt ggcatcttta taacgatgta aatgataatg 6180 cttcagtgac aaattgtaca tttttatgta ttttgcaaag tgctgtcaaa tacatttctt 6240 tggttgtcta acaggtagaa ctctaataga ggtaaaaatc agaatatcaa tgacaatttg 6300 acattatttt taatcttttc ttttctaaat agttgaataa tttagaggac gctgtccttt 6360 ttgtcctaaa aaaagggaca gatatttaag ttctatttat ttataaaatc ttggactctt 6420 attctaatgg ttcattattt ttatagagct gtaggcatgg ttctttattt aattttttaa 6480 agttattttt aatttttgtg gatacagagt aggtatacat atttacgggg tatatgagat 6540 attttgatat aagtatacaa catatataat ccctttattt aattttatct tccccccaat 6600 gatctaaaac tatttgcttg tccttttatg tcttatagtt aaattcagtc accaactaag 6660 ttgaagttac ttcttatttt tgcatagctc cagctctgat cttcatctca tgtttttgcc 6720 tgagcctctg ttttcatatt acttagttgg ttctgggagc atactttaat agccgagtca 6780 agaaaaatac tagctgcccc gtcacccaca ctcctcacct gctagtcaac agcaaatcaa 6840 cacaacagga aataaaatga aaataataga cattatgcat gctctctaga aactgtcaat 6900 tgaactgtat ttgctcatca ttcctaccat ctacaccacc aaaatcaacc aaatttatga 6960 aaaaaaacag ccccaacata aaattataca cagataaaca ggctatgatt ggttttggga 7020 aagaagtcac ctttacctga tttaggcaac tgtgaaatga ctagagaatg aagaaaatta 7080 gacgtttaca tcttgtcata gagtttgaag atagtgctgg atctttcttt ttataagtaa 7140 gatcaataaa aactccctca ttctgtagaa gttatgattt cttttctaag agacctttag 7200 aagtcagaaa aaatgtgttt caattgagaa aaaagataac tggagtttgt gtagtacttc 7260 ccagattata aaatgctttt gtatgtatta tctaatttaa tcctcaaaac ttcttcaatt 7320 tagcatgttg tcatgacact gcagaggctg aagctcagag aggctgagcc ctctgctaac 7380 aagtcctact gctaacaagt gataaagcca gagctggaag tcacatctgg actccaaacc 7440 tgatgcttct cagcctgttg ccccttttag agttcctttt taatttctgc ttttatgact 7500 tgctagattt ctacctacca cacacactct taaatggata attctgccct aaggataagt 7560 gattaccatt tggttcagaa ctagaactaa tgaattttaa aaattatttc tgtatgtcca 7620 ttttgaattt tcttatgaga aatagtattt gcctagtgtt ttcatataaa atatcgcatg 7680 ataataccat tttgattggc gattttcttt ttagggcagt agctcgcctg agccagagat 7740 ttcccaaagc tgagtttgca gaagtttcca agttagtgac agatcttacc aaagtccaca 7800 cggaatgctg ccatggagat ctgcttgaat gtgctgatga cagggtaaag agtcgtcgat 7860 atgctttttg gtagcttgca tgctcaagtt ggtagaatgg atgcgtttgg tatcattggt 7920 gatagctgac agtgggttga gattgtcttc tgtgctttcg tctgtcctat cttcaatctt 7980 tccctgccta tggtggtggt acctttctgt ttttaacctg gctataaatt accagataaa 8040 cccattcact gatttgtaac tcctttcagt catgctctaa ctgtaaatga aggcttaaac 8100 tgaagtagaa cagttacaag gttttacttg gcagaacatc ttgcaaggta gatgtctaag 8160 aagatttttt tttctttttt taagacagag tttcgctctt gtttcccagg ctggggtgca 8220 atggtgtgat cttggctcag cgcaacctct gcctcctggg ttcaagtgat tctcatgcct 8280 cagcctccca agtagctggg attacaggca tgcgccacca cacctggcta attttgtatt 8340 tttagtagag gcggggtttc accatattgt ccagactggt ctcgaactcc tgacctcagg 8400 tgatccaccc gccttggcct cccaaagtgc tgggattaca ggcatgagcc accttgccca 8460 gcctaagaag attttttgag ggaggtaggt ggacttggag aaggtcacta cttgaagaga 8520 tttttggaaa tgatgtattt ttcttctcta tattccttcc cttaattaac tctgtttgtt 8580 agatgtgcaa atatttggaa tgatatctct tttctcaaaa cttataatat tttctttctc 8640 cctttcttca agattaaact tatgggcaaa tactagaatc ctaatctctc atggcacttt 8700 ctggaaaatt taaggcggtt attttatata tgtaagcagg gcctatgact atgatcttga 8760 ctcatttttc aaaaatcttc tatattttat ttagttattt ggtttcaaaa ggcctgcact 8820 taattttggg ggattatttg gaaaaacagc attgagtttt aatgaaaaaa acttaaatgc 8880 cctaacagta gaaacataaa attaataaat aactgagctg agcacctgct actgattagt 8940 ctattttaat taagtgggaa tgtttttgta gtcctatcta catctccagg tttaggagca 9000 aacagagtat gttcatagaa ggaatatgtg tatggtctta gaatacaatg aatatgttct 9060 gccaacttaa taaaggtctg aggagaaagt gtagcaatgt caattcgtgt tgaacaattt 9120 ccaccaactt acttataggc ggaccttgcc aagtatatct gtgaaaatca agattcgatc 9180 tccagtaaac tgaaggaatg ctgtgaaaaa cctctgttgg aaaaatccca ctgcattgcc 9240 gaagtggaaa atgatgagat gcctgctgac ttgccttcat tagctgctga ttttgttgaa 9300 agtaaggatg tttgcaaaaa ctatgctgag gcaaaggatg tcttcctggg catgtaagta 9360 gataagaaat tattctttta tagctttggc atgacctcac aacttaggag gatagcctag 9420 gcttttctgt ggagttgcta caatttccct gctgcccaga atgtttcttc atccttccct 9480 ttcccaggct ttaacaattt ttgaaatagt taattagttg aatacattgt cataaaataa 9540 tacatgttca tggcaaagct caacattcct tactccttag gggtatttct gaaaatacgt 9600 ctagaaacat tttgtgtata tataaattat gtatacttca gtcattcatt ccaagtgtat 9660 ttcttgaaca tctataatat atgtgtgtga ctatgtattg cctgtctatc taactaatct 9720 aatctaatct agtctatcta tctaatctat gcaatgatag caaagaagta taaaaagaaa 9780 tatagagtct gacaccaggt gctttatatt tggtgaaaag accagaagtt cagtataatg 9840 gcaatatggt aggcaactca attacaaaat aaatgtttac atattgtcag aagttgtggt 9900 gataaactgc atttttgttg ttggattatg ataatgcact aaataatatt tcctaaaatt 9960 atgtacccta caagatttca ctcatacaga gaagaaagag aatattttaa gaacatatct 10020 ctgcccatct atttatcaga atccttttga gatgtagttt aaatcaaaca aaatgttaat 10080 aaaaataaca agtatcattc atcaaagact tcatatgtgc caagcagtgt gtgctttgtg 10140 tagattatgt catatagttc tcataatcca ccttccgaga cagatactat ttattttttg 10200 agacagagtt ttactcttgt tgcccaggct ggagtgcaat ggtgccatct cggctcacca 10260 caacctccgc ctcccaggtt caagcgattc tcctgcctca gcctcctggg attacaggca 10320 tgcaccacca tgcctggcta attttgtatt tttagtagag atggggtttc accatgttgg 10380 tcagactggt ctcaaactcc tgacctctgg tgatatgcct gcctcagcct cctaaagtgc 10440 tgggattaca ggcatgagcc actgtgccca gccgacagat actattatta tttccattct 10500 accgagaagg agactaaggc tctgatcatt taaataagtt gcctaaggtg atgcagtgat 10560 ataagtagca gagctaggaa ttgagccttg gtaactttaa ctctggaccc caagtcctta 10620 gctactaagc tttactgcat ggggtttagt caaattaaga cttttggaat atgagttact 10680 tttgagatta gctttgtgat attttttgtg ctcatttgtc caacaaagtc tattttattt 10740 tcatcttaat taggtttttg tatgaatatg caagaaggca tcctgattac tctgtcgtgc 10800 tgctgctgag acttgccaag acatatgaaa ccactctaga gaagtgctgt gccgctgcag 10860 atcctcatga atgctatgcc aaagtggtag gtttattgtt ggaaaaaaat gtagttcttt 10920 gactgatgat tccaataatg agaaagaaaa ataatgcaag aatgtaaaat gatatacagt 10980 gcaatttaga tcttttcttg agatggtttc aattctggaa tcttaaacat gaaagaaaaa 11040 gtagccttag aatgattaac aaaatttaga ctagttagaa tagaaagatc tgaatagagc 11100 aatctctaaa aaattttgat ctttttttct ctttttcaca atcctgagaa caaaaaaaaa 11160 ttaaatttaa atgttaatta gaagatattt aacttagatg taaagtgagt taacctgatt 11220 ccaggattaa tcaagtacta gaattagtat cttatggcaa attatagaac ctatcccttt 11280 agaatatttt caaatctttt tgaggatgtt taggaatagt tttacaagaa attaagttag 11340 gagaggaaat ctgttctgga ggatttttag ggttcccact agcatatgta atggtttctg 11400 aactattcag aatcagagaa aactcatttt tcctgctttc aagaagctac tgtatgccag 11460 gcaccatgca caaacaatga ccaacgtaaa atctctcatt ttggagagcc tggaatctaa 11520 ctggaaaggt gaactaataa taataatatg tacaatcata gccatcattt attaaacttt 11580 tattatatgc aaggcactgt ttaatttcat tagcttacct ggtttacaga gcagctctat 11640 gagatgagtg ccatctttgc ccctatttta gggataagga ttctgaaatg tggagatggt 11700 aagtaaaatt gcacaactga agaatgagtt acatgacttg gctcaaatac tggtcattga 11760 actccagagc ctgaatattc ttaaccactt acatgatgca agctcaccaa ataaatagtt 11820 cgaatgtatt gtgacagagc ggcattgata ttcatctatt catgtggctt tgagtaggaa 11880 gaagaaagga tatcattctg accagagggg tgaaaaacaa cctgcatctg atcctgaggc 11940 ataatactat taacacaatt cttttatgtt tcagttcgat gaatttaaac ctcttgtgga 12000 agagcctcag aatttaatca aacaaaattg tgagcttttt gagcagcttg gagagtacaa 12060 attccagaat gcgtaagtaa tttttattga ctgatttttt ttatcaattt gtaattattt 12120 aagacttaat atatgagcca cctagcatag aacttttaag aatgaaaata cattgcatat 12180 ttctaatcac tctttgtcaa gaaagatagg agaggagaga taaaatagtt gatggggtgg 12240 agaggtctat atttgaatgt agtctaaaaa ttgttctctt aagattggaa gtatgtaggc 12300 tgggagggta aataccaaat cttggtatat cagaactgag catgtccctt gaaggttaag 12360 aaatagttaa tgggcaaata gagcatggca atattttgta gagcagcaag tagtaggcct 12420 tgaatagatg tcgctcaaaa agtaatatgt aagctgaaca caaaaatgta acaaatgaat 12480 ttagatacat atttgaatat taaattcagg ttgtttggga gatgcaccta gtctttgatg 12540 gttaaacctt tccctccata gaagagacag agacagaatg gcttgctgga ctaatgtccc 12600 aattcaatag agtcttatct atgaaggtta aaaacaagaa gagacatatt atacagtaga 12660 tatttattgt gtggctcata cacatggtgc tcttctgatt atggatttta gagataataa 12720 cagtgaacaa gacatagttt ctttcctcga gtagattaaa gtcatacatt gacttttaat 12780 ggtgactggc attcttaata catgattatt atatattagg taccatgtca gattaattat 12840 aatactttac tacttttaat ttaacccttg aactatccct attgagtcag atatatttcc 12900 ttccattttc tacttgtatc tttcaagttt agcatatgct gatacatatg aagctctctc 12960 caggttttat tgaaagaaga aattaataaa tttattaatg tcactgaatt aggcaactca 13020 ctttcccaag attatgcaag tggtacaggt ggaactcaaa gccaagttta actagttgtt 13080 caggagaatg ttttctaccc tccactaacc cactactctg cagatggaga taatatgatg 13140 aatggaacat agcaacatct tagttgattc cggccaagtg ttctctgttt tatctactat 13200 gttagacagt ttcttgcctt gctgaaaaca catgacttct ttttttcagg ctattagttc 13260 gttacaccaa gaaagtaccc caagtgtcaa ctccaactct tgtagaggtc tcaagaaacc 13320 taggaaaagt gggcagcaaa tgttgtaaac atcctgaagc aaaaagaatg ccctgtgcag 13380 aagactatgt gagtctttaa aaaaatataa taaattaata atgaaaaaat tttaccttta 13440 gatattgata atgctagctt tcataagcag aaggaagtaa tgtgtgtgtg tgcatgtttg 13500 tgtgcatgtg tgtgtgcatg cacgtgtgtg tatgtgtgat attggcagtc aaggccccga 13560 ggatgataat tttttttttt tttttgagac ggagtctcgc tttgttgtcc aggctggagt 13620 gcagtggtgc catctcggct cactgcaacc tccgcctccc aggttcaagc cattctcctg 13680 cctcagcctc ccaagtagct gggactacag gtgcatgcca ccatgcctgg ctaatttttt 13740 gtatttttag tagaaaattt tcagcttcac ctcttttgaa tttctgctct cctgcctgtt 13800 ctttagctat ccgtggtcct gaaccagtta tgtgtgttgc atgagaaaac gccagtaagt 13860 gacagagtca ccaaatgctg cacagaatcc ttggtgaaca ggcgaccatg cttttcagct 13920 ctggaagtcg atgaaacata cgttcccaaa gagtttaatg ctgaaacatt caccttccat 13980 gcagatatat gcacactttc tgagaaggag agacaaatca agaaacaaac gtgaggagta 14040 tttcattact gcatgtgttt gtagtcttga tagcaagaac tgtcaattca agctagcaac 14100 tttttcctga agtagtgatt atatttctta gaggaaagta ttggagtgtt gcccttatta 14160 tgctgataag agtacccaga ataaaatgaa taacttttta aagacaaaat cctctgttat 14220 aatattgcta aaattattca gagtaatatt gtggattaaa gccacaatag aataacatgt 14280 taggccatat tcagtagaaa aagatgaaca attaactgat aaatttgtgc acatggcaaa 14340 ttagttaatg ggaaccatag gagaatttat ttctagatgt aaataattat tttaagtttg 14400 ccctatggtg gccccacaca tgagacaaac ccccaagatg tgacttttga gaatgagact 14460 tggataaaaa acatgtagaa atgcaagccc tgaagctcaa ctccctattg ctatcacagg 14520 ggttataatt gcataaaatt tagctataga aagttgctgt catctcttgt gggctgtaat 14580 catcgtctag gcttaagagt aatattgcaa aacctgtcat gcccacacaa atctctccct 14640 ggcattgttg tctttgcaga tgtcagtgaa agagaaccag cagctcccat gagtttggat 14700 agccttattt tctatagcct ccccactatt agctttgaag ggagcaaagt ttaagaacca 14760 aatataaagt ttctcatctt tatagatgag aaaaatttta aataaagtcc aagataatta 14820 aatttttaag gatcattttt agctctttaa tagcaataaa actcaatatg acataatatg 14880 gcacttccaa aatctgaata atatataatt gcaatgacat acttcttttc agagatttac 14940 tgaaaagaaa tttgttgaca ctacataacg tgatgagtgg tttatactga ttgtttcagt 15000 tggtcttccc accaactcca tgaaagtgga ttttattatc ctcatcatgc agatgagaat 15060 attgagactt atagcggtat gcctgagccc caaagtactc agagttgcct ggctccaaga 15120 tttataatct taaatgatgg gactaccatc cttactctct ccatttttct atacgtgagt 15180 aatgtttttt ctgttttttt tttttctttt tccattcaaa ctcagtgcac ttgttgagct 15240 cgtgaaacac aagcccaagg caacaaaaga gcaactgaaa gctgttatgg atgatttcgc 15300 agcttttgta gagaagtgct gcaaggctga cgataaggag acctgctttg ccgaggaggt 15360 actacagttc tcttcatttt aatatgtcca gtattcattt ttgcatgttt ggttaggcta 15420 gggcttaggg atttatatat caaaggaggc tttgtacatg tgggacaggg atcttatttt 15480 acaaacaatt gtcttacaaa atgaataaaa cagcactttg tttttatctc ctgctctatt 15540 gtgccatact gttaaatgtt tataatgcct gttctgtttc caaatttgtg atgcttatga 15600 atattaatag gaatatttgt aaggcctgaa atattttgat catgaaatca aaacattaat 15660 ttatttaaac atttacttga aatgtggtgg tttgtgattt agttgatttt ataggctagt 15720 gggagaattt acattcaaat gtctaaatca cttaaaattg ccctttatgg cctgacagta 15780 actttttttt attcatttgg ggacaactat gtccgtgagc ttccgtccag agattatagt 15840 agtaaattgt aattaaagga tatgatgcac gtgaaatcac tttgcaatca tcaatagctt 15900 cataaatgtt aattttgtat cctaatagta atgctaatat tttcctaaca tctgtcatgt 15960 ctttgtgttc agggtaaaaa acttgttgct gcaagtcaag ctgccttagg cttataacat 16020 cacatttaaa agcatctcag gtaactatat tttgaatttt ttaaaaaagt aactataata 16080 gttattatta aaatagcaaa gattgaccat ttccaagagc catatagacc agcaccgacc 16140 actattctaa actatttatg tatgtaaata ttagctttta aaattctcaa aatagttgct 16200 gagttgggaa ccactattat ttctattttg tagatgagaa aatgaagata aacatcaaag 16260 catagattaa gtaattttcc aaagggtcaa aattcaaaat tgaaaccaaa gtttcagtgt 16320 tgcccattgt cctgttctga cttatatgat gcggtacaca gagccatcca agtaagtgat 16380 ggctcagcag tggaatactc tgggaattag gctgaaccac atgaaagagt gctttatagg 16440 gcaaaaacag ttgaatatca gtgatttcac atggttcaac ctaatagttc aactcatcct 16500 ttccattgga gaatatgatg gatctacctt ctgtgaactt tatagtgaag aatctgctat 16560 tacatttcca atttgtcaac atgctgagct ttaataggac ttatcttctt atgacaacat 16620 ttattggtgt gtccccttgc ctagcccaac agaagaattc agcagccgta agtctaggac 16680 aggcttaaat tgttttcact ggtgtaaatt gcagaaagat gatctaagta atttggcatt 16740 tattttaata ggtttgaaaa acacatgcca ttttacaaat aagacttata tttgtccttt 16800 tgtttttcag cctaccatga gaataagaga aagaaaatga agatcaaaag cttattcatc 16860 tgtttttctt tttcgttggt gtaaagccaa caccctgtct aaaaaacata aatttcttta 16920 atcattttgc ctcttttctc tgtgcttcaa ttaataaaaa atggaaagaa tctaatagag 16980 tggtacagca ctgttatttt tcaaagatgt gttgctatcc tgaaaattct gtaggttctg 17040 tggaagttcc agtgttctct cttattccac ttcggtagag gatttctagt ttcttgtggg 17100 ctaattaaat aaatcattaa tactcttcta agttatggat tataaacatt caaaataata 17160 ttttgacatt atgataattc tgaataaaag aacaaaaacc atggtatagg taaggaatat 17220 aaaacatggc ttttacctta gaaaaaacaa ttctaaaatt catatggaat caaaaaagag 17280 cctgcagaac caaagtaaga ctaagcaaaa agaacaaatt acctgatttc aaactacact 17340 ataaggccat agtcaccgaa acagcaaggt actggtataa actcgagata acttcgtata 17400 atgtatgcta tacgaagtta tgctaggtaa ctataacggt cctaaggtag cgagctagca 17460 cacatcacaa ccacaacctt ctcaggtaac tatacttggg acttaaaaaa cataatcata 17520 atcatttttc ctaaaacgat caagactgat aaccatttga caagagccat acagacaagc 17580 accagctggc actcttaggt cttcacgtat ggtcatcagt ttgggttcca tttgtagata 17640 agaaactgaa catataaagg tctaggttaa tgcaatttac acaaaaggag accaaaccag 17700 ggagagaagg aaccaaaatt aaaaattcaa accagagcaa aggagttagc cctggttttg 17760 ctctgact 17768 <210> 19 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(60) <223> Mouse Sequence <220> <221> misc_feature <222> (61)..(120) <223> Human Sequence <400> 19 agagcgagtc tttctgcaca cagatcacct ttcctatcaa ccccactagc ctctggcaaa 60 atgaagtggg taacctttat ttcccttctt tttctcttta gctcggctta ttccaggggt 120 <210> 20 <211> 160 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(60) <223> Human Sequence <220> <221> misc_feature <222> (61)..(66) <223> XhoI <220> <221> misc_feature <222> (67)..(100) <223> LoxP <220> <221> misc_feature <222> (101)..(160) <223> Cassette <400> 20 cctgatttca aactacacta taaggccata gtcaccgaaa cagcaaggta ctggtataaa 60 ctcgagataa cttcgtataa tgtatgctat acgaagttat atgcatgcca gtagcagcac 120 ccacgtccac cttctgtcta gtaatgtcca acacctccct 160 <210> 21 <211> 192 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(60) <223> Cassette <220> <221> misc_feature <222> (61)..(94) <223> LoxP <220> <221> misc_feature <222> (101)..(126) <223> I-CeuI <220> <221> misc_feature <222> (127)..(132) <223> NheI <220> <221> misc_feature <222> (133)..(192) <223> Mouse Sequence <400> 21 cattctcagt attgttttgc caagttctaa ttccatcaga cctcgacctg cagcccctag 60 ataacttcgt ataatgtatg ctatacgaag ttatgctagg taactataac ggtcctaagg 120 tagcgagcta gcacacatca caaccacaac cttctcaggt aactatactt gggacttaaa 180 aaacataatc at 192 <210> 22 <211> 198 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(60) <223> Human Sequence <220> <221> misc_feature <222> (61)..(66) <223> XhoI <220> <221> misc_feature <222> (67)..(100) <223> LoxP <220> <221> misc_feature <222> (107)..(132) <223> I-CeuI <220> <221> misc_feature <222> (133)..(138) <223> NheI <220> <221> misc_feature <222> (139)..(198) <223> Mouse Sequence <400> 22 cctgatttca aactacacta taaggccata gtcaccgaaa cagcaaggta ctggtataaa 60 ctcgagataa cttcgtataa tgtatgctat acgaagttat gctaggtaac tataacggtc 120 ctaaggtagc gagctagcac acatcacaac cacaaccttc tcaggtaact atacttggga 180 cttaaaaaac ataatcat 198 <210> 23 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 23 gtaaccttta tttcccttct ttttctctt 29 <210> 24 <211> 14 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 24 agctcggctt attc 14 <210> 25 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 25 cgtgcatctc gacgaaacac 20 <210> 26 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 26 gcagaaccaa agtaagacta agcaaa 26 <210> 27 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 27 agaacaaatt acctgatttc 20 <210> 28 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 28 tgtttcggtg actatggcct tat 23 <210> 29 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 29 gccgagaagc acgtaagagt tt 22 <210> 30 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 30 atgttttttc atctctgctt gt 22 <210> 31 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 31 aataccaggc ttccattact agaaaaa 27 <210> 32 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 32 ccctcccatg gcctaacaac 20 <210> 33 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 33 ttgggcacaa cagatgtcag agagc 25 <210> 34 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 34 acgtgccttg cattgctta 19 <210> 35 <211> 17335 <212> DNA <213> Homo sapiens <400> 35 atgaagtggg taacctttat ttcccttctt tttctcttta gctcggctta ttccaggggt 60 gtgtttcgtc gagatgcacg taagaaatcc atttttctat tgttcaactt ttattctatt 120 ttcccagtaa aataaagttt tagtaaactc tgcatcttta aagaattatt ttggcattta 180 tttctaaaat ggcatagtat tttgtatttg tgaagtctta caaggttatc ttattaataa 240 aattcaaaca tcctaggtaa aaaaaaaaaa aggtcagaat tgtttagtga ctgtaatttt 300 cttttgcgca ctaaggaaag tgcaaagtaa cttagagtga ctgaaacttc acagaatagg 360 gttgaagatt gaattcataa ctatcccaaa gacctatcca ttgcactatg ctttatttaa 420 aaaccacaaa acctgtgctg ttgatctcat aaatagaact tgtatttata tttattttca 480 ttttagtctg tcttcttggt tgctgttgat agacactaaa agagtattag atattatcta 540 agtttgaata taaggctata aatatttaat aatttttaaa atagtattct tggtaattga 600 attattcttc tgtttaaagg cagaagaaat aattgaacat catcctgagt ttttctgtag 660 gaatcagagc ccaatatttt gaaacaaatg cataatctaa gtcaaatgga aagaaatata 720 aaaagtaaca ttattacttc ttgttttctt cagtatttaa caatcctttt ttttcttccc 780 ttgcccagac aagagtgagg ttgctcatcg gtttaaagat ttgggagaag aaaatttcaa 840 agccttgtaa gttaaaatat tgatgaatca aatttaatgt ttctaatagt gttgtttatt 900 attctaaagt gcttatattt ccttgtcatc agggttcaga ttctaaaaca gtgctgcctc 960 gtagagtttt ctgcgttgag gaagatattc tgtatctggg ctatccaata aggtagtcac 1020 tggtcacatg gctattgagt acttcaaata tgacaagtgc aactgagaaa caaaaactta 1080 aattgtattt aattgtagtt aatttgaatg tatatagtca catgtggcta atggctactg 1140 tattggacag tacagctctg gaacttgctt ggtggaaagg actttaatat aggtttcctt 1200 tggtggctta cccactaaat cttctttaca tagcaagcat tcctgtgctt agttgggaat 1260 atttaatttt tttttttttt taagacaggg tctcgctctg tcgcccaggc tggagtgcag 1320 tggcgcaatc tcggctcact gcaaactccg cctcccgggt tcacgccatt ctcctgcctc 1380 agcctcccga gtagctggga ctacaggcgc ccgccatcac gcccggctaa tcttttgtat 1440 ttttagtaga gatggggttt caccgtgtgc caggatggtc tcaatctcct gacatcgtga 1500 tctgcccacc tcggcctccc aaagtgctgg gattacagga gtgagccacc gcgcccggcc 1560 tatttaaatg ttttttaatc tagtaaaaaa tgagaaaatt gtttttttaa aagtctacct 1620 aatcctacag gctaattaaa gacgtgtgtg gggatcaggt gcggtggttc acacctgtaa 1680 tcccagcact ttggaaggct gatgcaggag gattgcttga gcccaggagt tcaagaccag 1740 cctgggcaag tctctttaaa aaaaacaaaa caaacaaaca aaaaaattag gcatggtggc 1800 acatgcctgt agtcctagct acttaggagg ctgacgtagg aggatcgttt ggacctgaga 1860 ggtcaaggct acagtgagcc atgattgtgc cactgcactc cagcctgggt gacagagtga 1920 gactctgtct caaaaaagaa aaaggaaatc tgtggggttt gttttagttt taagtaattc 1980 taaggacttt aaaaatgcct agtcttgaca attagatcta tttggcatac aatttgcttg 2040 cttaatctat gtgtgtgcat agatctactg acacacgcat acatataaac attagggaac 2100 taccattctc tttgcgtagg aagccacata tgcctatcta ggcctcagat catacctgat 2160 atgaataggc tttctggata atggtgaaga agatgtataa aagatagaac ctatacccat 2220 acatgatttg ttctctagcg tagcaacctg ttacatatta aagttttatt atactacatt 2280 tttctacatc ctttgtttca gggtgttgat tgcctttgct cagtatcttc agcagtgtcc 2340 atttgaagat catgtaaaat tagtgaatga agtaactgaa tttgcaaaaa catgtgttgc 2400 tgatgagtca gctgaaaatt gtgacaaatc acttgtaagt acattctaat tgtggagatt 2460 ctttcttctg tttgaagtaa tcccaagcat ttcaaaggaa ttttttttaa gttttctcaa 2520 ttattattaa gtgtcctgat ttgtaagaaa cactaaaaag ttgctcatag actgataagc 2580 cattgtttct tttgtgatag agatgcttta gctatgtcca cagttttaaa atcatttctt 2640 tattgagacc aaacacaaca gtcatggtgt atttaaatgg caatttgtca tttataaaca 2700 cctcttttta aaatttgagg tttggtttct ttttgtagag gctaataggg atatgatagc 2760 atgtatttat ttatttattt atcttatttt attatagtaa gaacccttaa catgagatct 2820 accctgttat atttttaagt gtacaatcca ttattgttaa ctacgggtac actgttgtat 2880 agcttactca tcttgctgta ttaaaacttt gtgcccattg attagtaacc cctcgtttcg 2940 tcctccccca gccactggca accagcatta tactctttga ttctatgagt ttgactactt 3000 tagctacctt atataagtgg tattatgtac tgtttatctt tttatgactg acttatttcc 3060 cttagcatag tgcattcaaa gtccaaccat gttgttgcct attgcagaat ttccttcttt 3120 tcaaggctga ataatattcc agtgcatgtg tgtaccacat tttctttatc cattaatttg 3180 ttgattgata gacatttagg ttggttttct acatcttgac tatcatgaat agtgttgcaa 3240 tgaacacagg agagctacta tctcttagag atgatatcat ggtttttatc atcagaaaac 3300 acccactgat ttctatgcta attttgttac ctgggtggaa taatagtaca gctatatatt 3360 cctcatttta gatatctttg tatttctaca tacaataaaa aagcagagta cttagtcatg 3420 ttgaagaact ttaaactttt agtatttcca gatcaatctt caaaacaagg acaggtttat 3480 ctttctctca ccactcaatc tatatatacc tcttgtgggc aaggccagtt tttatcactg 3540 gagcctttcc cctttttatt atgtacctct ccctcacagc agagtcagga ctttaacttt 3600 acacaatact atggctctac atatgaaatc ttaaaaatac ataaaaatta ataaattctg 3660 tctagagtag tatattttcc ctggggttac agttactttc ataataaaaa ttagagataa 3720 ggaaaggact catttattgg aaagtgattt taggtaacat ttctggaaga aaaatgtcta 3780 tatcttaata gtcacttaat atatgatgga ttgtgttact cctcagtttt caatggcata 3840 tactaaaaca tggccctcta aaaagggggc aaatgaaatg agaaactctc tgaatgtttt 3900 tctcccctag gtgaattcac ctgctgctta gaagcttatt ttctcttgat ttctgttata 3960 atgattgctc ttacccttta gttttaagtt tcaaaatagg agtcatataa ctttccttaa 4020 agctattgac tgtctttttg tcctgtttta ttcaccatga gttatagtgt gacagttaat 4080 tcttatgaaa attatataga gatggttaaa tcatcagaaa ctgtaaacct cgattgggag 4140 gggaagcgga tttttaaatg atttcctgac caagcttaac cagtatatta aatcctttgt 4200 actgttcttt ggctataaag aaaaaaggta ctgtccagca actgaaacct gctttcttcc 4260 atttagcata ccctttttgg agacaaatta tgcacagttg caactcttcg tgaaacctat 4320 ggtgaaatgg ctgactgctg tgcaaaacaa gaacctgaga gaaatgaatg cttcttgcaa 4380 cacaaagatg acaacccaaa cctcccccga ttggtgagac cagaggttga tgtgatgtgc 4440 actgcttttc atgacaatga agagacattt ttgaaaaagt aagtaatcag atgtttatag 4500 ttcaaaatta aaaagcatgg agtaactcca taggccaaca ctctataaaa attaccataa 4560 caaaaatatt ttcaacatta agacttggaa gttttgttat gatgattttt taaagaagta 4620 gtatttgata ccacaaaatt ctacacagca aaaaatatga tcaaagatat tttgaagttt 4680 attgaaacag gatacaatct ttctgaaaaa tttaagatag acaaattatt taatgtatta 4740 cgaagatatg tatatatggt tgttataatt gatttcgttt tagtcagcaa cattatattg 4800 ccaaaattta accatttatg cacacacaca cacacacaca cacacttaac ccttttttcc 4860 acatacttaa agaatgacag agacaagacc atcatgtgca aattgagctt aattggttaa 4920 ttagatatct ttggaatttg gaggttctgg ggagaatgtc gattacaatt atttctgtaa 4980 tattgtctgc tatagaaaag tgactgtttt tctttttcaa aatttagata cttatatgaa 5040 attgccagaa gacatcctta cttttatgcc ccggaactcc ttttctttgc taaaaggtat 5100 aaagctgctt ttacagaatg ttgccaagct gctgataaag ctgcctgcct gttgccaaag 5160 gtattatgca aaagaataga aaaaaagagt tcattatcca acctgatttt gtccattttg 5220 tggctagatt tagggaacct gagtgtctga tacaaacttt ccgacatggt caaaaaagcc 5280 ttccttttat ctgtcttgaa aatctttcat ctttgaaggc ctacactctc gtttcttctt 5340 ttaagatttg ccaatgatga tctgtcagag gtaatcactg tgcatgtgtt taaagatttc 5400 accacttttt atggtggtga tcactatagt gaaatactga aacttgtttg tcaaattgca 5460 cagcaagggg ccacagttct tgtttatctt ttcatgataa tttttagtag ggagggaatt 5520 caaagtagag aattttactg catctagatg cctgagttca tgcattcatt ccataaatat 5580 atattatgga atgctttatt ttcttttctg aggagtttac tgatgttggt ggaggagaga 5640 ctgaaatgaa ttatacacaa aatttaaaaa ttagcaaaat tgcagcccct gggatattag 5700 cgtactcttt ctctgacttt tctcccactt ttaaggctct ttttcctggc aatgtttcca 5760 gttggtttct aactacatag ggaattccgc tgtgaccaga atgatcgaat gatctttcct 5820 tttcttagag agcaaaatca ttattcgcta aagggagtac ttgggaattt aggcataaat 5880 tatgccttca aaatttaatt tggcacagtc tcatctgagc ttatggaggg gtgtttcatg 5940 tagaattttt cttctaattt tcatcaaatt attccttttt gtagctcgat gaacttcggg 6000 atgaagggaa ggcttcgtct gccaaacaga gactcaagtg tgccagtctc caaaaatttg 6060 gagaaagagc tttcaaagca tggtaaatac ttttaaacat agttggcatc tttataacga 6120 tgtaaatgat aatgcttcag tgacaaattg tacattttta tgtattttgc aaagtgctgt 6180 caaatacatt tctttggttg tctaacaggt agaactctaa tagaggtaaa aatcagaata 6240 tcaatgacaa tttgacatta tttttaatct tttcttttct aaatagttga ataatttaga 6300 ggacgctgtc ctttttgtcc taaaaaaagg gacagatatt taagttctat ttatttataa 6360 aatcttggac tcttattcta atggttcatt atttttatag agctgtaggc atggttcttt 6420 atttaatttt ttaaagttat ttttaatttt tgtggataca gagtaggtat acatatttac 6480 ggggtatatg agatattttg atataagtat acaacatata taatcccttt atttaatttt 6540 atcttccccc caatgatcta aaactatttg cttgtccttt tatgtcttat agttaaattc 6600 agtcaccaac taagttgaag ttacttctta tttttgcata gctccagctc tgatcttcat 6660 ctcatgtttt tgcctgagcc tctgttttca tattacttag ttggttctgg gagcatactt 6720 taatagccga gtcaagaaaa atactagctg ccccgtcacc cacactcctc acctgctagt 6780 caacagcaaa tcaacacaac aggaaataaa atgaaaataa tagacattat gcatgctctc 6840 tagaaactgt caattgaact gtatttgctc atcattccta ccatctacac caccaaaatc 6900 aaccaaattt atgaaaaaaa acagccccaa cataaaatta tacacagata aacaggctat 6960 gattggtttt gggaaagaag tcacctttac ctgatttagg caactgtgaa atgactagag 7020 aatgaagaaa attagacgtt tacatcttgt catagagttt gaagatagtg ctggatcttt 7080 ctttttataa gtaagatcaa taaaaactcc ctcattctgt agaagttatg atttcttttc 7140 taagagacct ttagaagtca gaaaaaatgt gtttcaattg agaaaaaaga taactggagt 7200 ttgtgtagta cttcccagat tataaaatgc ttttgtatgt attatctaat ttaatcctca 7260 aaacttcttc aatttagcat gttgtcatga cactgcagag gctgaagctc agagaggctg 7320 agccctctgc taacaagtcc tactgctaac aagtgataaa gccagagctg gaagtcacat 7380 ctggactcca aacctgatgc ttctcagcct gttgcccctt ttagagttcc tttttaattt 7440 ctgcttttat gacttgctag atttctacct accacacaca ctcttaaatg gataattctg 7500 ccctaaggat aagtgattac catttggttc agaactagaa ctaatgaatt ttaaaaatta 7560 tttctgtatg tccattttga attttcttat gagaaatagt atttgcctag tgttttcata 7620 taaaatatcg catgataata ccattttgat tggcgatttt ctttttaggg cagtagctcg 7680 cctgagccag agatttccca aagctgagtt tgcagaagtt tccaagttag tgacagatct 7740 taccaaagtc cacacggaat gctgccatgg agatctgctt gaatgtgctg atgacagggt 7800 aaagagtcgt cgatatgctt tttggtagct tgcatgctca agttggtaga atggatgcgt 7860 ttggtatcat tggtgatagc tgacagtggg ttgagattgt cttctgtgct ttcgtctgtc 7920 ctatcttcaa tctttccctg cctatggtgg tggtaccttt ctgtttttaa cctggctata 7980 aattaccaga taaacccatt cactgatttg taactccttt cagtcatgct ctaactgtaa 8040 atgaaggctt aaactgaagt agaacagtta caaggtttta cttggcagaa catcttgcaa 8100 ggtagatgtc taagaagatt tttttttctt tttttaagac agagtttcgc tcttgtttcc 8160 caggctgggg tgcaatggtg tgatcttggc tcagcgcaac ctctgcctcc tgggttcaag 8220 tgattctcat gcctcagcct cccaagtagc tgggattaca ggcatgcgcc accacacctg 8280 gctaattttg tatttttagt agaggcgggg tttcaccata ttgtccagac tggtctcgaa 8340 ctcctgacct caggtgatcc acccgccttg gcctcccaaa gtgctgggat tacaggcatg 8400 agccaccttg cccagcctaa gaagattttt tgagggaggt aggtggactt ggagaaggtc 8460 actacttgaa gagatttttg gaaatgatgt atttttcttc tctatattcc ttcccttaat 8520 taactctgtt tgttagatgt gcaaatattt ggaatgatat ctcttttctc aaaacttata 8580 atattttctt tctccctttc ttcaagatta aacttatggg caaatactag aatcctaatc 8640 tctcatggca ctttctggaa aatttaaggc ggttatttta tatatgtaag cagggcctat 8700 gactatgatc ttgactcatt tttcaaaaat cttctatatt ttatttagtt atttggtttc 8760 aaaaggcctg cacttaattt tgggggatta tttggaaaaa cagcattgag ttttaatgaa 8820 aaaaacttaa atgccctaac agtagaaaca taaaattaat aaataactga gctgagcacc 8880 tgctactgat tagtctattt taattaagtg ggaatgtttt tgtagtccta tctacatctc 8940 caggtttagg agcaaacaga gtatgttcat agaaggaata tgtgtatggt cttagaatac 9000 aatgaatatg ttctgccaac ttaataaagg tctgaggaga aagtgtagca atgtcaattc 9060 gtgttgaaca atttccacca acttacttat aggcggacct tgccaagtat atctgtgaaa 9120 atcaagattc gatctccagt aaactgaagg aatgctgtga aaaacctctg ttggaaaaat 9180 cccactgcat tgccgaagtg gaaaatgatg agatgcctgc tgacttgcct tcattagctg 9240 ctgattttgt tgaaagtaag gatgtttgca aaaactatgc tgaggcaaag gatgtcttcc 9300 tgggcatgta agtagataag aaattattct tttatagctt tggcatgacc tcacaactta 9360 ggaggatagc ctaggctttt ctgtggagtt gctacaattt ccctgctgcc cagaatgttt 9420 cttcatcctt ccctttccca ggctttaaca atttttgaaa tagttaatta gttgaataca 9480 ttgtcataaa ataatacatg ttcatggcaa agctcaacat tccttactcc ttaggggtat 9540 ttctgaaaat acgtctagaa acattttgtg tatatataaa ttatgtatac ttcagtcatt 9600 cattccaagt gtatttcttg aacatctata atatatgtgt gtgactatgt attgcctgtc 9660 tatctaacta atctaatcta atctagtcta tctatctaat ctatgcaatg atagcaaaga 9720 agtataaaaa gaaatataga gtctgacacc aggtgcttta tatttggtga aaagaccaga 9780 agttcagtat aatggcaata tggtaggcaa ctcaattaca aaataaatgt ttacatattg 9840 tcagaagttg tggtgataaa ctgcattttt gttgttggat tatgataatg cactaaataa 9900 tatttcctaa aattatgtac cctacaagat ttcactcata cagagaagaa agagaatatt 9960 ttaagaacat atctctgccc atctatttat cagaatcctt ttgagatgta gtttaaatca 10020 aacaaaatgt taataaaaat aacaagtatc attcatcaaa gacttcatat gtgccaagca 10080 gtgtgtgctt tgtgtagatt atgtcatata gttctcataa tccaccttcc gagacagata 10140 ctatttattt tttgagacag agttttactc ttgttgccca ggctggagtg caatggtgcc 10200 atctcggctc accacaacct ccgcctccca ggttcaagcg attctcctgc ctcagcctcc 10260 tgggattaca ggcatgcacc accatgcctg gctaattttg tatttttagt agagatgggg 10320 tttcaccatg ttggtcagac tggtctcaaa ctcctgacct ctggtgatat gcctgcctca 10380 gcctcctaaa gtgctgggat tacaggcatg agccactgtg cccagccgac agatactatt 10440 attatttcca ttctaccgag aaggagacta aggctctgat catttaaata agttgcctaa 10500 ggtgatgcag tgatataagt agcagagcta ggaattgagc cttggtaact ttaactctgg 10560 accccaagtc cttagctact aagctttact gcatggggtt tagtcaaatt aagacttttg 10620 gaatatgagt tacttttgag attagctttg tgatattttt tgtgctcatt tgtccaacaa 10680 agtctatttt attttcatct taattaggtt tttgtatgaa tatgcaagaa ggcatcctga 10740 ttactctgtc gtgctgctgc tgagacttgc caagacatat gaaaccactc tagagaagtg 10800 ctgtgccgct gcagatcctc atgaatgcta tgccaaagtg gtaggtttat tgttggaaaa 10860 aaatgtagtt ctttgactga tgattccaat aatgagaaag aaaaataatg caagaatgta 10920 aaatgatata cagtgcaatt tagatctttt cttgagatgg tttcaattct ggaatcttaa 10980 acatgaaaga aaaagtagcc ttagaatgat taacaaaatt tagactagtt agaatagaaa 11040 gatctgaata gagcaatctc taaaaaattt tgatcttttt ttctcttttt cacaatcctg 11100 agaacaaaaa aaaattaaat ttaaatgtta attagaagat atttaactta gatgtaaagt 11160 gagttaacct gattccagga ttaatcaagt actagaatta gtatcttatg gcaaattata 11220 gaacctatcc ctttagaata ttttcaaatc tttttgagga tgtttaggaa tagttttaca 11280 agaaattaag ttaggagagg aaatctgttc tggaggattt ttagggttcc cactagcata 11340 tgtaatggtt tctgaactat tcagaatcag agaaaactca tttttcctgc tttcaagaag 11400 ctactgtatg ccaggcacca tgcacaaaca atgaccaacg taaaatctct cattttggag 11460 agcctggaat ctaactggaa aggtgaacta ataataataa tatgtacaat catagccatc 11520 atttattaaa cttttattat atgcaaggca ctgtttaatt tcattagctt acctggttta 11580 cagagcagct ctatgagatg agtgccatct ttgcccctat tttagggata aggattctga 11640 aatgtggaga tggtaagtaa aattgcacaa ctgaagaatg agttacatga cttggctcaa 11700 atactggtca ttgaactcca gagcctgaat attcttaacc acttacatga tgcaagctca 11760 ccaaataaat agttcgaatg tattgtgaca gagcggcatt gatattcatc tattcatgtg 11820 gctttgagta ggaagaagaa aggatatcat tctgaccaga ggggtgaaaa acaacctgca 11880 tctgatcctg aggcataata ctattaacac aattctttta tgtttcagtt cgatgaattt 11940 aaacctcttg tggaagagcc tcagaattta atcaaacaaa attgtgagct ttttgagcag 12000 cttggagagt acaaattcca gaatgcgtaa gtaattttta ttgactgatt ttttttatca 12060 atttgtaatt atttaagact taatatatga gccacctagc atagaacttt taagaatgaa 12120 aatacattgc atatttctaa tcactctttg tcaagaaaga taggagagga gagataaaat 12180 agttgatggg gtggagaggt ctatatttga atgtagtcta aaaattgttc tcttaagatt 12240 ggaagtatgt aggctgggag ggtaaatacc aaatcttggt atatcagaac tgagcatgtc 12300 ccttgaaggt taagaaatag ttaatgggca aatagagcat ggcaatattt tgtagagcag 12360 caagtagtag gccttgaata gatgtcgctc aaaaagtaat atgtaagctg aacacaaaaa 12420 tgtaacaaat gaatttagat acatatttga atattaaatt caggttgttt gggagatgca 12480 cctagtcttt gatggttaaa cctttccctc catagaagag acagagacag aatggcttgc 12540 tggactaatg tcccaattca atagagtctt atctatgaag gttaaaaaca agaagagaca 12600 tattatacag tagatattta ttgtgtggct catacacatg gtgctcttct gattatggat 12660 tttagagata ataacagtga acaagacata gtttctttcc tcgagtagat taaagtcata 12720 cattgacttt taatggtgac tggcattctt aatacatgat tattatatat taggtaccat 12780 gtcagattaa ttataatact ttactacttt taatttaacc cttgaactat ccctattgag 12840 tcagatatat ttccttccat tttctacttg tatctttcaa gtttagcata tgctgataca 12900 tatgaagctc tctccaggtt ttattgaaag aagaaattaa taaatttatt aatgtcactg 12960 aattaggcaa ctcactttcc caagattatg caagtggtac aggtggaact caaagccaag 13020 tttaactagt tgttcaggag aatgttttct accctccact aacccactac tctgcagatg 13080 gagataatat gatgaatgga acatagcaac atcttagttg attccggcca agtgttctct 13140 gttttatcta ctatgttaga cagtttcttg ccttgctgaa aacacatgac ttcttttttt 13200 caggctatta gttcgttaca ccaagaaagt accccaagtg tcaactccaa ctcttgtaga 13260 ggtctcaaga aacctaggaa aagtgggcag caaatgttgt aaacatcctg aagcaaaaag 13320 aatgccctgt gcagaagact atgtgagtct ttaaaaaaat ataataaatt aataatgaaa 13380 aaattttacc tttagatatt gataatgcta gctttcataa gcagaaggaa gtaatgtgtg 13440 tgtgtgcatg tttgtgtgca tgtgtgtgtg catgcacgtg tgtgtatgtg tgatattggc 13500 agtcaaggcc ccgaggatga taattttttt tttttttttg agacggagtc tcgctttgtt 13560 gtccaggctg gagtgcagtg gtgccatctc ggctcactgc aacctccgcc tcccaggttc 13620 aagccattct cctgcctcag cctcccaagt agctgggact acaggtgcat gccaccatgc 13680 ctggctaatt ttttgtattt ttagtagaaa attttcagct tcacctcttt tgaatttctg 13740 ctctcctgcc tgttctttag ctatccgtgg tcctgaacca gttatgtgtg ttgcatgaga 13800 aaacgccagt aagtgacaga gtcaccaaat gctgcacaga atccttggtg aacaggcgac 13860 catgcttttc agctctggaa gtcgatgaaa catacgttcc caaagagttt aatgctgaaa 13920 cattcacctt ccatgcagat atatgcacac tttctgagaa ggagagacaa atcaagaaac 13980 aaacgtgagg agtatttcat tactgcatgt gtttgtagtc ttgatagcaa gaactgtcaa 14040 ttcaagctag caactttttc ctgaagtagt gattatattt cttagaggaa agtattggag 14100 tgttgccctt attatgctga taagagtacc cagaataaaa tgaataactt tttaaagaca 14160 aaatcctctg ttataatatt gctaaaatta ttcagagtaa tattgtggat taaagccaca 14220 atagaataac atgttaggcc atattcagta gaaaaagatg aacaattaac tgataaattt 14280 gtgcacatgg caaattagtt aatgggaacc ataggagaat ttatttctag atgtaaataa 14340 ttattttaag tttgccctat ggtggcccca cacatgagac aaacccccaa gatgtgactt 14400 ttgagaatga gacttggata aaaaacatgt agaaatgcaa gccctgaagc tcaactccct 14460 attgctatca caggggttat aattgcataa aatttagcta tagaaagttg ctgtcatctc 14520 ttgtgggctg taatcatcgt ctaggcttaa gagtaatatt gcaaaacctg tcatgcccac 14580 acaaatctct ccctggcatt gttgtctttg cagatgtcag tgaaagagaa ccagcagctc 14640 ccatgagttt ggatagcctt attttctata gcctccccac tattagcttt gaagggagca 14700 aagtttaaga accaaatata aagtttctca tctttataga tgagaaaaat tttaaataaa 14760 gtccaagata attaaatttt taaggatcat ttttagctct ttaatagcaa taaaactcaa 14820 tatgacataa tatggcactt ccaaaatctg aataatatat aattgcaatg acatacttct 14880 tttcagagat ttactgaaaa gaaatttgtt gacactacat aacgtgatga gtggtttata 14940 ctgattgttt cagttggtct tcccaccaac tccatgaaag tggattttat tatcctcatc 15000 atgcagatga gaatattgag acttatagcg gtatgcctga gccccaaagt actcagagtt 15060 gcctggctcc aagatttata atcttaaatg atgggactac catccttact ctctccattt 15120 ttctatacgt gagtaatgtt ttttctgttt tttttttttc tttttccatt caaactcagt 15180 gcacttgttg agctcgtgaa acacaagccc aaggcaacaa aagagcaact gaaagctgtt 15240 atggatgatt tcgcagcttt tgtagagaag tgctgcaagg ctgacgataa ggagacctgc 15300 tttgccgagg aggtactaca gttctcttca ttttaatatg tccagtattc atttttgcat 15360 gtttggttag gctagggctt agggatttat atatcaaagg aggctttgta catgtgggac 15420 agggatctta ttttacaaac aattgtctta caaaatgaat aaaacagcac tttgttttta 15480 tctcctgctc tattgtgcca tactgttaaa tgtttataat gcctgttctg tttccaaatt 15540 tgtgatgctt atgaatatta ataggaatat ttgtaaggcc tgaaatattt tgatcatgaa 15600 atcaaaacat taatttattt aaacatttac ttgaaatgtg gtggtttgtg atttagttga 15660 ttttataggc tagtgggaga atttacattc aaatgtctaa atcacttaaa attgcccttt 15720 atggcctgac agtaactttt ttttattcat ttggggacaa ctatgtccgt gagcttccgt 15780 ccagagatta tagtagtaaa ttgtaattaa aggatatgat gcacgtgaaa tcactttgca 15840 atcatcaata gcttcataaa tgttaatttt gtatcctaat agtaatgcta atattttcct 15900 aacatctgtc atgtctttgt gttcagggta aaaaacttgt tgctgcaagt caagctgcct 15960 taggcttata acatcacatt taaaagcatc tcaggtaact atattttgaa ttttttaaaa 16020 aagtaactat aatagttatt attaaaatag caaagattga ccatttccaa gagccatata 16080 gaccagcacc gaccactatt ctaaactatt tatgtatgta aatattagct tttaaaattc 16140 tcaaaatagt tgctgagttg ggaaccacta ttatttctat tttgtagatg agaaaatgaa 16200 gataaacatc aaagcataga ttaagtaatt ttccaaaggg tcaaaattca aaattgaaac 16260 caaagtttca gtgttgccca ttgtcctgtt ctgacttata tgatgcggta cacagagcca 16320 tccaagtaag tgatggctca gcagtggaat actctgggaa ttaggctgaa ccacatgaaa 16380 gagtgcttta tagggcaaaa acagttgaat atcagtgatt tcacatggtt caacctaata 16440 gttcaactca tcctttccat tggagaatat gatggatcta ccttctgtga actttatagt 16500 gaagaatctg ctattacatt tccaatttgt caacatgctg agctttaata ggacttatct 16560 tcttatgaca acatttattg gtgtgtcccc ttgcctagcc caacagaaga attcagcagc 16620 cgtaagtcta ggacaggctt aaattgtttt cactggtgta aattgcagaa agatgatcta 16680 agtaatttgg catttatttt aataggtttg aaaaacacat gccattttac aaataagact 16740 tatatttgtc cttttgtttt tcagcctacc atgagaataa gagaaagaaa atgaagatca 16800 aaagcttatt catctgtttt tctttttcgt tggtgtaaag ccaacaccct gtctaaaaaa 16860 cataaatttc tttaatcatt ttgcctcttt tctctgtgct tcaattaata aaaaatggaa 16920 agaatctaat agagtggtac agcactgtta tttttcaaag atgtgttgct atcctgaaaa 16980 ttctgtaggt tctgtggaag ttccagtgtt ctctcttatt ccacttcggt agaggatttc 17040 tagtttcttg tgggctaatt aaataaatca ttaatactct tctaagttat ggattataaa 17100 cattcaaaat aatattttga cattatgata attctgaata aaagaacaaa aaccatggta 17160 taggtaagga atataaaaca tggcttttac cttagaaaaa acaattctaa aattcatatg 17220 gaatcaaaaa agagcctgca gaaccaaagt aagactaagc aaaaagaaca aattacctga 17280 tttcaaacta cactataagg ccatagtcac cgaaacagca aggtactggt ataaa 17335 <210> 36 <211> 2076 <212> DNA <213> Mus musculus <400> 36 atattagagc gagtctttct gcacacagat cacctttcct atcaacccca ctagcctctg 60 gcaaaatgaa gtgggtaacc tttctcctcc tcctcttcgt ctccggctct gctttttcca 120 ggggtgtgtt tcgccgagaa gcacacaaga gtgagatcgc ccatcggtat aatgatttgg 180 gagaacaaca tttcaaaggc ctagtcctga ttgccttttc ccagtatctc cagaaatgct 240 catacgatga gcatgccaaa ttagtgcagg aagtaacaga ctttgcaaag acgtgtgttg 300 ccgatgagtc tgccgccaac tgtgacaaat cccttcacac tctttttgga gataagttgt 360 gtgccattcc aaacctccgt gaaaactatg gtgaactggc tgactgctgt acaaaacaag 420 agcccgaaag aaacgaatgt ttcctgcaac acaaagatga caaccccagc ctgccaccat 480 ttgaaaggcc agaggctgag gccatgtgca cctcctttaa ggaaaaccca accaccttta 540 tgggacacta tttgcatgaa gttgccagaa gacatcctta tttctatgcc ccagaacttc 600 tttactatgc tgagcagtac aatgagattc tgacccagtg ttgtgcagag gctgacaagg 660 aaagctgcct gaccccgaag cttgatggtg tgaaggagaa agcattggtc tcatctgtcc 720 gtcagagaat gaagtgctcc agtatgcaga agtttggaga gagagctttt aaagcatggg 780 cagtagctcg tctgagccag acattcccca atgctgactt tgcagaaatc accaaattgg 840 caacagacct gaccaaagtc aacaaggagt gctgccatgg tgacctgctg gaatgcgcag 900 atgacagggc ggaacttgcc aagtacatgt gtgaaaacca ggcgactatc tccagcaaac 960 tgcagacttg ctgcgataaa ccactgttga agaaagccca ctgtcttagt gaggtggagc 1020 atgacaccat gcctgctgat ctgcctgcca ttgctgctga ttttgttgag gaccaggaag 1080 tgtgcaagaa ctatgctgag gccaaggatg tcttcctggg cacgttcttg tatgaatatt 1140 caagaagaca ccctgattac tctgtatccc tgttgctgag acttgctaag aaatatgaag 1200 ccactctgga aaagtgctgc gctgaagcca atcctcccgc atgctacggc acagtgcttg 1260 ctgaatttca gcctcttgta gaagagccta agaacttggt caaaaccaac tgtgatcttt 1320 acgagaagct tggagaatat ggattccaaa atgccattct agttcgctac acccagaaag 1380 cacctcaggt gtcaacccca actctcgtgg aggctgcaag aaacctagga agagtgggca 1440 ccaagtgttg tacacttcct gaagatcaga gactgccttg tgtggaagac tatctgtctg 1500 caatcctgaa ccgtgtgtgt ctgctgcatg agaagacccc agtgagtgag catgttacca 1560 agtgctgtag tggatccctg gtggaaaggc ggccatgctt ctctgctctg acagttgatg 1620 aaacatatgt ccccaaagag tttaaagctg agaccttcac cttccactct gatatctgca 1680 cacttccaga gaaggagaag cagattaaga aacaaacggc tcttgctgag ctggtgaagc 1740 acaagcccaa ggctacagcg gagcaactga agactgtcat ggatgacttt gcacagttcc 1800 tggatacatg ttgcaaggct gctgacaagg acacctgctt ctcgactgag ggtccaaacc 1860 ttgtcactag atgcaaagac gccttagcct aaacacatca caaccacaac cttctcaggc 1920 taccctgaga aaaaaagaca tgaagactca ggactcatct tttctgttgg tgtaaaatca 1980 acaccctaag gaacacaaat ttctttaaac atttgacttc ttgtctctgt gctgcaatta 2040 ataaaaaatg gaaagaatct aaaaaaaaaa aaaaaa 2076 <210> 37 <211> 2285 <212> DNA <213> Homo sapiens <400> 37 ctagcttttc tcttctgtca accccacacg cctttggcac aatgaagtgg gtaaccttta 60 tttcccttct ttttctcttt agctcggctt attccagggg tgtgtttcgt cgagatgcac 120 acaagagtga ggttgctcat cggtttaaag atttgggaga agaaaatttc aaagccttgg 180 tgttgattgc ctttgctcag tatcttcagc agtgtccatt tgaagatcat gtaaaattag 240 tgaatgaagt aactgaattt gcaaaaacat gtgttgctga tgagtcagct gaaaattgtg 300 acaaatcact tcataccctt tttggagaca aattatgcac agttgcaact cttcgtgaaa 360 cctatggtga aatggctgac tgctgtgcaa aacaagaacc tgagagaaat gaatgcttct 420 tgcaacacaa agatgacaac ccaaacctcc cccgattggt gagaccagag gttgatgtga 480 tgtgcactgc ttttcatgac aatgaagaga catttttgaa aaaatactta tatgaaattg 540 ccagaagaca tccttacttt tatgccccgg aactcctttt ctttgctaaa aggtataaag 600 ctgcttttac agaatgttgc caagctgctg ataaagctgc ctgcctgttg ccaaagctcg 660 atgaacttcg ggatgaaggg aaggcttcgt ctgccaaaca gagactcaag tgtgccagtc 720 tccaaaaatt tggagaaaga gctttcaaag catgggcagt agctcgcctg agccagagat 780 ttcccaaagc tgagtttgca gaagtttcca agttagtgac agatcttacc aaagtccaca 840 cggaatgctg ccatggagat ctgcttgaat gtgctgatga cagggcggac cttgccaagt 900 atatctgtga aaatcaagat tcgatctcca gtaaactgaa ggaatgctgt gaaaaacctc 960 tgttggaaaa atcccactgc attgccgaag tggaaaatga tgagatgcct gctgacttgc 1020 cttcattagc tgctgatttt gttgaaagta aggatgtttg caaaaactat gctgaggcaa 1080 aggatgtctt cctgggcatg tttttgtatg aatatgcaag aaggcatcct gattactctg 1140 tcgtgctgct gctgagactt gccaagacat atgaaaccac tctagagaag tgctgtgccg 1200 ctgcagatcc tcatgaatgc tatgccaaag tgttcgatga atttaaacct cttgtggaag 1260 agcctcagaa tttaatcaaa caaaattgtg agctttttga gcagcttgga gagtacaaat 1320 tccagaatgc gctattagtt cgttacacca agaaagtacc ccaagtgtca actccaactc 1380 ttgtagaggt ctcaagaaac ctaggaaaag tgggcagcaa atgttgtaaa catcctgaag 1440 caaaaagaat gccctgtgca gaagactatc tatccgtggt cctgaaccag ttatgtgtgt 1500 tgcatgagaa aacgccagta agtgacagag tcaccaaatg ctgcacagaa tccttggtga 1560 acaggcgacc atgcttttca gctctggaag tcgatgaaac atacgttccc aaagagttta 1620 atgctgaaac attcaccttc catgcagata tatgcacact ttctgagaag gagagacaaa 1680 tcaagaaaca aactgcactt gttgagctcg tgaaacacaa gcccaaggca acaaaagagc 1740 aactgaaagc tgttatggat gatttcgcag cttttgtaga gaagtgctgc aaggctgacg 1800 ataaggagac ctgctttgcc gaggagggta aaaaacttgt tgctgcaagt caagctgcct 1860 taggcttata acatcacatt taaaagcatc tcagcctacc atgagaataa gagaaagaaa 1920 atgaagatca aaagcttatt catctgtttt tctttttcgt tggtgtaaag ccaacaccct 1980 gtctaaaaaa cataaatttc tttaatcatt ttgcctcttt tctctgtgct tcaattaata 2040 aaaaatggaa agaatctaat agagtggtac agcactgtta tttttcaaag atgtgttgct 2100 atcctgaaaa ttctgtaggt tctgtggaag ttccagtgtt ctctcttatt ccacttcggt 2160 agaggatttc tagtttcttg tgggctaatt aaataaatca ttaatactct tctaagttat 2220 ggattataaa cattcaaaat aatattttga cattatgata attctgaata aaagaacaaa 2280 aacca 2285 <210> 38 <211> 1391 <212> PRT <213> Artificial Sequence <220> <223> Synthetic <220> <221> MISC_FEATURE <222> (4)..(10) <223> 5' NLS <220> <221> MISC_FEATURE <222> (1376)..(1391) <223> 3' NLS <400> 38 Met Asp Lys Pro Lys Lys Lys Arg Lys Val Lys Tyr Ser Ile Gly Leu 1 5 10 15 Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr 20 25 30 Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His 35 40 45 Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu 50 55 60 Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr 65 70 75 80 Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu 85 90 95 Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe 100 105 110 Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn 115 120 125 Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His 130 135 140 Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu 145 150 155 160 Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu 165 170 175 Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe 180 185 190 Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile 195 200 205 Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser 210 215 220 Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys 225 230 235 240 Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr 245 250 255 Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln 260 265 270 Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln 275 280 285 Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser 290 295 300 Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr 305 310 315 320 Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His 325 330 335 Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu 340 345 350 Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly 355 360 365 Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys 370 375 380 Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu 385 390 395 400 Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser 405 410 415 Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg 420 425 430 Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu 435 440 445 Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg 450 455 460 Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile 465 470 475 480 Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln 485 490 495 Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu 500 505 510 Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr 515 520 525 Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro 530 535 540 Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe 545 550 555 560 Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe 565 570 575 Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp 580 585 590 Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile 595 600 605 Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu 610 615 620 Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu 625 630 635 640 Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys 645 650 655 Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys 660 665 670 Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp 675 680 685 Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile 690 695 700 His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val 705 710 715 720 Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly 725 730 735 Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp 740 745 750 Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile 755 760 765 Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser 770 775 780 Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser 785 790 795 800 Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 805 810 815 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 820 825 830 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile 835 840 845 Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu 850 855 860 Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu 865 870 875 880 Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala 885 890 895 Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg 900 905 910 Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 915 920 925 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser 930 935 940 Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val 945 950 955 960 Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp 965 970 975 Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His 980 985 990 Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr 995 1000 1005 Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr 1010 1015 1020 Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys 1025 1030 1035 Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe 1040 1045 1050 Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro 1055 1060 1065 Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys 1070 1075 1080 Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln 1085 1090 1095 Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser 1100 1105 1110 Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala 1115 1120 1125 Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser 1130 1135 1140 Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys 1145 1150 1155 Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile 1160 1165 1170 Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe 1175 1180 1185 Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile 1190 1195 1200 Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys 1205 1210 1215 Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu 1220 1225 1230 Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His 1235 1240 1245 Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln 1250 1255 1260 Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu 1265 1270 1275 Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn 1280 1285 1290 Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro 1295 1300 1305 Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr 1310 1315 1320 Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile 1325 1330 1335 Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr 1340 1345 1350 Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp 1355 1360 1365 Leu Ser Gln Leu Gly Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys 1370 1375 1380 Ala Gly Gln Ala Lys Lys Lys Lys 1385 1390 <210> 39 <211> 4176 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(3) <223> Start Codon <220> <221> misc_feature <222> (10)..(30) <223> 5' NLS <220> <221> misc_feature <222> (4126)..(4173) <223> 3' NLS <220> <221> misc_feature <222> (4174)..(4176) <223> Stop Codon <400> 39 atggacaagc ccaagaaaaa gcggaaagtg aagtacagca tcggcctgga catcggcacc 60 aactctgtgg gctgggccgt gatcaccgac gagtacaagg tgcccagcaa gaaattcaag 120 gtgctgggca acaccgacag gcacagcatc aagaagaacc tgatcggcgc cctgctgttc 180 gacagcggcg aaacagccga ggccaccaga ctgaagagaa ccgccagaag aagatacacc 240 aggcggaaga acaggatctg ctatctgcaa gagatcttca gcaacgagat ggccaaggtg 300 gacgacagct tcttccacag actggaagag tccttcctgg tggaagagga caagaagcac 360 gagagacacc ccatcttcgg caacatcgtg gacgaggtgg cctaccacga gaagtacccc 420 accatctacc acctgagaaa gaaactggtg gacagcaccg acaaggccga cctgagactg 480 atctacctgg ccctggccca catgatcaag ttcagaggcc acttcctgat cgagggcgac 540 ctgaaccccg acaacagcga cgtggacaag ctgttcatcc agctggtgca gacctacaac 600 cagctgttcg aggaaaaccc catcaacgcc agcggcgtgg acgccaaggc tatcctgtct 660 gccagactga gcaagagcag aaggctggaa aatctgatcg cccagctgcc cggcgagaag 720 aagaacggcc tgttcggcaa cctgattgcc ctgagcctgg gcctgacccc caacttcaag 780 agcaacttcg acctggccga ggatgccaaa ctgcagctga gcaaggacac ctacgacgac 840 gacctggaca acctgctggc ccagatcggc gaccagtacg ccgacctgtt cctggccgcc 900 aagaacctgt ctgacgccat cctgctgagc gacatcctga gagtgaacac cgagatcacc 960 aaggcccccc tgagcgcctc tatgatcaag agatacgacg agcaccacca ggacctgacc 1020 ctgctgaaag ctctcgtgcg gcagcagctg cctgagaagt acaaagaaat cttcttcgac 1080 cagagcaaga acggctacgc cggctacatc gatggcggcg ctagccagga agagttctac 1140 aagttcatca agcccatcct ggaaaagatg gacggcaccg aggaactgct cgtgaagctg 1200 aacagagagg acctgctgag aaagcagaga accttcgaca acggcagcat cccccaccag 1260 atccacctgg gagagctgca cgctatcctg agaaggcagg aagattttta cccattcctg 1320 aaggacaacc gggaaaagat cgagaagatc ctgaccttca ggatccccta ctacgtgggc 1380 cccctggcca gaggcaacag cagattcgcc tggatgacca gaaagagcga ggaaaccatc 1440 accccctgga acttcgagga agtggtggac aagggcgcca gcgcccagag cttcatcgag 1500 agaatgacaa acttcgataa gaacctgccc aacgagaagg tgctgcccaa gcacagcctg 1560 ctgtacgagt acttcaccgt gtacaacgag ctgaccaaag tgaaatacgt gaccgaggga 1620 atgagaaagc ccgccttcct gagcggcgag cagaaaaagg ccatcgtgga cctgctgttc 1680 aagaccaaca gaaaagtgac cgtgaagcag ctgaaagagg actacttcaa gaaaatcgag 1740 tgcttcgact ccgtggaaat ctccggcgtg gaagatagat tcaacgcctc cctgggcaca 1800 taccacgatc tgctgaaaat tatcaaggac aaggacttcc tggataacga agagaacgag 1860 gacattctgg aagatatcgt gctgaccctg acactgtttg aggaccgcga gatgatcgag 1920 gaaaggctga aaacctacgc tcacctgttc gacgacaaag tgatgaagca gctgaagaga 1980 aggcggtaca ccggctgggg caggctgagc agaaagctga tcaacggcat cagagacaag 2040 cagagcggca agacaatcct ggatttcctg aagtccgacg gcttcgccaa ccggaacttc 2100 atgcagctga tccacgacga cagcctgaca ttcaaagagg acatccagaa agcccaggtg 2160 tccggccagg gcgactctct gcacgagcat atcgctaacc tggccggcag ccccgctatc 2220 aagaagggca tcctgcagac agtgaaggtg gtggacgagc tcgtgaaagt gatgggcaga 2280 cacaagcccg agaacatcgt gatcgagatg gctagagaga accagaccac ccagaaggga 2340 cagaagaact cccgcgagag gatgaagaga atcgaagagg gcatcaaaga gctgggcagc 2400 cagatcctga aagaacaccc cgtggaaaac acccagctgc agaacgagaa gctgtacctg 2460 tactacctgc agaatggccg ggatatgtac gtggaccagg aactggacat caacagactg 2520 tccgactacg atgtggacca tatcgtgcct cagagctttc tgaaggacga ctccatcgat 2580 aacaaagtgc tgactcggag cgacaagaac agaggcaaga gcgacaacgt gccctccgaa 2640 gaggtcgtga agaagatgaa gaactactgg cgacagctgc tgaacgccaa gctgattacc 2700 cagaggaagt tcgataacct gaccaaggcc gagagaggcg gcctgagcga gctggataag 2760 gccggcttca tcaagaggca gctggtggaa accagacaga tcacaaagca cgtggcacag 2820 atcctggact cccggatgaa cactaagtac gacgaaaacg ataagctgat ccgggaagtg 2880 aaagtgatca ccctgaagtc caagctggtg tccgatttcc ggaaggattt ccagttttac 2940 aaagtgcgcg agatcaacaa ctaccaccac gcccacgacg cctacctgaa cgccgtcgtg 3000 ggaaccgccc tgatcaaaaa gtaccctaag ctggaaagcg agttcgtgta cggcgactac 3060 aaggtgtacg acgtgcggaa gatgatcgcc aagagcgagc aggaaatcgg caaggctacc 3120 gccaagtact tcttctacag caacatcatg aactttttca agaccgaaat caccctggcc 3180 aacggcgaga tcagaaagcg ccctctgatc gagacaaacg gcgaaaccgg ggagatcgtg 3240 tgggataagg gcagagactt cgccacagtg cgaaaggtgc tgagcatgcc ccaagtgaat 3300 atcgtgaaaa agaccgaggt gcagacaggc ggcttcagca aagagtctat cctgcccaag 3360 aggaacagcg acaagctgat cgccagaaag aaggactggg accccaagaa gtacggcggc 3420 ttcgacagcc ctaccgtggc ctactctgtg ctggtggtgg ctaaggtgga aaagggcaag 3480 tccaagaaac tgaagagtgt gaaagagctg ctggggatca ccatcatgga aagaagcagc 3540 tttgagaaga accctatcga ctttctggaa gccaagggct acaaagaagt gaaaaaggac 3600 ctgatcatca agctgcctaa gtactccctg ttcgagctgg aaaacggcag aaagagaatg 3660 ctggcctctg ccggcgaact gcagaaggga aacgagctgg ccctgcctag caaatatgtg 3720 aacttcctgt acctggcctc ccactatgag aagctgaagg gcagccctga ggacaacgaa 3780 cagaaacagc tgtttgtgga acagcataag cactacctgg acgagatcat cgagcagatc 3840 agcgagttct ccaagagagt gatcctggcc gacgccaatc tggacaaggt gctgtctgcc 3900 tacaacaagc acagggacaa gcctatcaga gagcaggccg agaatatcat ccacctgttc 3960 accctgacaa acctgggcgc tcctgccgcc ttcaagtact ttgacaccac catcgaccgg 4020 aagaggtaca ccagcaccaa agaggtgctg gacgccaccc tgatccacca gagcatcacc 4080 ggcctgtacg agacaagaat cgacctgtct cagctgggag gcgacaagag acctgccgcc 4140 actaagaagg ccggacaggc caaaaagaag aagtga 4176 <210> 40 <211> 16 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 40 guuuuagagc uaugcu 16 <210> 41 <211> 67 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 41 agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60 gugcuuu 67 <210> 42 <211> 77 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 42 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugcu 77 <210> 43 <211> 82 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 43 guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60 aaaaguggca ccgagucggu gc 82 <210> 44 <211> 76 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 44 guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60 ggcaccgagu cggugc 76 <210> 45 <211> 86 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 45 guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60 uugaaaaagu ggcaccgagu cggugc 86 <210> 46 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (2)..(21) <223> n is a, c, g, or t <400> 46 gnnnnnnnnn nnnnnnnnnn ngg 23 <210> 47 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (1)..(21) <223> n is a, c, g, or t <400> 47 nnnnnnnnnn nnnnnnnnnn ngg 23 <210> 48 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <220> <221> misc_feature <222> (3)..(23) <223> n is a, c, g, or t <400> 48 ggnnnnnnnn nnnnnnnnnn nnngg 25 <210> 49 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 49 gagcaaccuc acucuugucu 20 <210> 50 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 50 ugcauuuguu ucaaaauauu 20 <210> 51 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 51 auuuaugaga ucaacagcac 20 <210> 52 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 52 uuaaauaaag cauagugcaa 20 <210> 53 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 53 uaaagcauag ugcaauggau 20 <210> 54 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 54 uaauaaaauu caaacauccu 20 <210> 55 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 55 ugacugaaac uucacagaau 20 <210> 56 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 56 gacugaaacu ucacagaaua 20 <210> 57 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 57 agugcaaugg auaggucuuu 20 <210> 58 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 58 ccucacucuu gucugggcaa 20 <210> 59 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 59 accucacucu ugucugggca 20 <210> 60 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 60 ugagcaaccu cacucuuguc 20 <210> 61 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 61 uacuuugcac uuuccuuagu 20 <210> 62 <211> 20 <212> RNA <213> Artificial Sequence <220> <223> Synthetic <400> 62 cacucuuguc uguggaaaca 20 <210> 63 <211> 6150 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 63 aacacccctt gtattactgt ttatgtaagc agacagtttt attgttcatg atgatatatt 60 tttatcttgt gcaatgtaac atcagagatt ttgagacacg ggccagagct gcatcgcgcg 120 tttcggtgat gacggtgaaa acctctgaca catgcagctc ccggagacgg tcacagcttg 180 tctgtaagcg gatgccggga gcagacaagc ccgtcagggc gcgtcagcgg gtgttggcgg 240 gtgtcggggc tggcttaact atgcggcatc agagcagatt gtactgagag tgcaccatat 300 gcggtgtgaa ataccgcaca gatgcgtaag gagaaaatac cgcatcaggc gccattcgcc 360 attcaggctg cgcaactgtt gggaagggcg atcggtgcgg gcctcttcgc tattacgcca 420 gctggcgaaa gggggatgtg ctgcaaggcg attaagttgg gtaacgccag ggttttccca 480 gtcacgacgt tgtaaaacga cggccagaga attcgagctc ggtacctcgc gaatacatct 540 agataggaac ccctagtgat ggagttggcc actccctctc tgcgcgctcg ctcgctcact 600 gaggccgccc gggcaaagcc cgggcgtcgg gcgacctttg gtcgcccggc ctcagtgagc 660 gagcgagcgc gcagagaggg agtggccaaa gatctcttag gtcagtgaag agaagaacaa 720 aaagcagcat attacagtta gttgtcttca tcaatcttta aatatgttgt gtggtttttc 780 tctccctgtt tccacagttt ttcttgatca tgaaaacgcc aacaaaattc tgaatcggcc 840 aaagaggtat aattcaggta aattggaaga gtttgttcaa gggaaccttg agagagaatg 900 tatggaagaa aagtgtagtt ttgaagaagc acgagaagtt tttgaaaaca ctgaaagaac 960 aactgaattt tggaagcagt atgttgatgg agatcagtgt gagtccaatc catgtttaaa 1020 tggcggcagt tgcaaggatg acattaattc ctatgaatgt tggtgtccct ttggatttga 1080 aggaaagaac tgtgaattag atgtaacatg taacattaag aatggcagat gcgagcagtt 1140 ttgtaaaaat agtgctgata acaaggtggt ttgctcctgt actgagggat atcgacttgc 1200 agaaaaccag aagtcctgtg aaccagcagt gccatttcca tgtggaagag tttctgtttc 1260 acaaacttct aagctcaccc gtgctgagac tgtttttcct gatgtggact atgtaaattc 1320 tactgaagct gaaaccattt tggataacat cactcaaagc acccaatcat ttaatgactt 1380 cactcgggtt gttggtggag aagatgccaa accaggtcaa ttcccttggc aggttgtttt 1440 gaatggtaaa gttgatgcat tctgtggagg ctctatcgtt aatgaaaaat ggattgtaac 1500 tgctgcccac tgtgttgaaa ctggtgttaa aattacagtt gtcgcaggtg aacataatat 1560 tgaggagaca gaacatacag agcaaaagcg aaatgtgatt cgaattattc ctcaccacaa 1620 ctacaatgca gctattaata agtacaacca tgacattgcc cttctggaac tggacgaacc 1680 cttagtgcta aacagctacg ttacacctat ttgcattgct gacaaggaat acacgaacat 1740 cttcctcaaa tttggatctg gctatgtaag tggctgggga agagtcttcc acaaagggag 1800 atcagcttta gttcttcagt accttagagt tccacttgtt gaccgagcca catgtcttct 1860 atctacaaag ttcaccatct ataacaacat gttctgtgct ggcttccatg aaggaggtag 1920 agattcatgt caaggagata gtgggggacc ccatgttact gaagtggaag ggaccagttt 1980 cttaactgga attattagct ggggtgaaga gtgtgcaatg aaaggcaaat atggaatata 2040 taccaaggta tcccggtatg tcaactggat taaggaaaaa acaaagctca cttaacctcg 2100 actgtgcctt ctagttgcca gccatctgtt gtttgcccct cccccgtgcc ttccttgacc 2160 ctggaaggtg ccactcccac tgtcctttcc taataaaatg aggaaattgc atcgcattgt 2220 ctgagtaggt gtcattctat tctggggggt ggggtggggc aggacagcaa gggggaggat 2280 tgggaagaca atagcaggca tgctggggat gcggtgggct ctatggcttc tgaggcggaa 2340 agaaccagct ggggctctag ggggtatccc caaaaaacct cccacacctc cccctgaacc 2400 tgaaacataa aatgaatgca attgttgttg ttaacttgtt tattgcagct tataatggtt 2460 acaaataaag caatagcatc acaaatttca caaataaagc atttttttca ctgcattcta 2520 gttgtggttt gtccaaactc atcaatgtat cttatcatgt ctgttaggtg agcttagtct 2580 tttcttttat ccaattcacg tagcgagaga ccttcgtata gatgccatat ttccccttca 2640 tcgcacattc ctccccccaa cttattatcc cggtcaagaa acttgttcct tcgacttcag 2700 tgacgtgtgg tccacctgaa tcaccttggc atgagtcgcg accgccctcg tgaaacccag 2760 cacaaaacat gttattgtaa atcgtaaatt tcgtggacag aagacaggtc gctctatcga 2820 ccaacgggac gcgcaaatat tgcagaacga gggctgatcg acctttgtgg aagacccgcc 2880 cccacccact cacatatccg ctcccaaatt tcaagaagat atttgtatat tctttatcgg 2940 ctatacaaat cggggtaaca taggagttaa gtacgagtgg ctcgtccagc tccaggaggg 3000 ctatatcatg gttgtacttg tttatagcgg cattataatt gtgatggggt atgatcctga 3060 taacattcct tttctgttca gtatgctcag tttcttcaat gttgtgttcg ccagccacga 3120 ccgtaatctt aacccccgtc tcgacacagt gtgcggccgt tacaatccac ttttcattga 3180 ctatggagcc cccacaaaac gcgtcgactt ttccgttgag caccacctgc catggaaatt 3240 ggccaggttt agcgtcctcg cccccgacaa ccctagtaaa gtcattaaat gactgtgtgg 3300 attgtgttat attatcaaga atcgtttcgg cttcagtaga gttaacgtag tccacatcgg 3360 gaaaaactgt ctcggccctt gtcaactttg atgtctggga cacacttacc cgaccgcacg 3420 ggaagggcac cgccggttca cagctctttt gattctcagc gagccggtag ccctcagtgc 3480 aactacacac aactttgttg tcggcggaat ttttacagaa ttgctcgcat cgtccatttt 3540 taatgttgca ggtgacgtcc aactcgcagt tttttccttc aaaaccaaaa gggcaccaac 3600 actcgtagga atttatatcg tctttacaac tccccccatt cagacatgga ttagattcgc 3660 attggtcccc atcgacatat tgcttccaga actcagtggt ccgttctgta ttctcaaaca 3720 cctcgcgcgc ttcttcaaaa ctgcattttt cctccataca ctctcgctcc aagttccctt 3780 gcacgaattc ttcaagcttt cctgagttat accttttagg ccggttaagt atcttattcg 3840 cgttttcgtg gtccagaaaa actgtggaaa cagggagaga aaaaccacac aacatattta 3900 aagattgatg aagacaacta actgtaatat gctgcttttt gttcttctct tcactgacct 3960 aagagatcta ggaaccccta gtgatggagt tggccactcc ctctctgcgc gctcgctcgc 4020 tcactgaggc cgcccgggca aagcccgggc gtcgggcgac ctttggtcgc ccggcctcag 4080 tgagcgagcg agcgcgcaga gagggagtgg ccaaactcgg atcccgggcc cgtcgactgc 4140 agaggcctgc atgcaagcgt ggtgtaatca tggtcatagc tgtttcctgt gtgaaattgt 4200 tatccgctca caattccaca caacatacga gccggaagca taaagtgtaa agcctggggt 4260 gcctaatgag tgagctaact cacattaatt gcgttgcgct cactgcccgc tttccagtcg 4320 ggaaacctgt cgtgccagct gcattaatga atcggccaac gcgcggggag aggcggtttg 4380 cgtattgggc gctcttccgc ttcctcgctc actgactcgc tgcgctcggt cgttcggctg 4440 cggcgagcgg tatcagctca ctcaaaggcg gtaatacggt tatccacaga atcaggggat 4500 aacgcaggaa agaacatgtg agcaaaaggc cagcaaaagg ccaggaaccg taaaaaggcc 4560 gcgttgctgg cgtttttcca taggctccgc ccccctgacg agcatcacaa aaatcgacgc 4620 tcaagtcaga ggtggcgaaa cccgacagga ctataaagat accaggcgtt tccccctgga 4680 agctccctcg tgcgctctcc tgttccgacc ctgccgctta ccggatacct gtccgccttt 4740 ctcccttcgg gaagcgtggc gctttctcat agctcacgct gtaggtatct cagttcggtg 4800 taggtcgttc gctccaagct gggctgtgtg cacgaacccc ccgttcagcc cgaccgctgc 4860 gccttatccg gtaactatcg tcttgagtcc aacccggtaa gacacgactt atcgccactg 4920 gcagcagcca ctggtaacag gattagcaga gcgaggtatg taggcggtgc tacagagttc 4980 ttgaagtggt ggcctaacta cggctacact agaagaacag tatttggtat ctgcgctctg 5040 ctgaagccag ttaccttcgg aaaaagagtt ggtagctctt gatccggcaa acaaaccacc 5100 gctggtagcg gtggtttttt tgtttgcaag cagcagatta cgcgcagaaa aaaaggatct 5160 caagaagatc ctttgatctt ttctacgggg tctgacgctc agtggaacga aaactcacgt 5220 taagggattt tggtcatgag attatcaaaa aggatcttca cctagatcct tttaaattaa 5280 aaatgaagtt ttaaatcaag cccaatctga ataatgttac aaccaattaa ccaattctga 5340 ttagaaaaac tcatcgagca tcaaatgaaa ctgcaattta ttcatatcag gattatcaat 5400 accatatttt tgaaaaagcc gtttctgtaa tgaaggagaa aactcaccga ggcagttcca 5460 taggatggca agatcctggt atcggtctgc gattccgact cgtccaacat caatacaacc 5520 tattaatttc ccctcgtcaa aaataaggtt atcaagtgag aaatcaccat gagtgacgac 5580 tgaatccggt gagaatggca aaagtttatg catttctttc cagacttgtt caacaggcca 5640 gccattacgc tcgtcatcaa aatcactcgc atcaaccaaa ccgttattca ttcgtgattg 5700 cgcctgagcg agacgaaata cgcgatcgct gttaaaagga caattacaaa caggaatcga 5760 atgcaaccgg cgcaggaaca ctgccagcgc atcaacaata ttttcacctg aatcaggata 5820 ttcttctaat acctggaatg ctgtttttcc ggggatcgca gtggtgagta accatgcatc 5880 atcaggagta cggataaaat gcttgatggt cggaagaggc ataaattccg tcagccagtt 5940 tagtctgacc atctcatctg taacatcatt ggcaacgcta cctttgccat gtttcagaaa 6000 caactctggc gcatcgggct tcccatacaa gcgatagatt gtcgcacctg attgcccgac 6060 attatcgcga gcccatttat acccatataa atcagcatcc atgttggaat ttaatcgcgg 6120 cctcgacgtt tcccgttgaa tatggctcat 6150 <210> 64 <211> 6901 <212> DNA <213> Artificial Sequence <220> <223> Synthetic <400> 64 gaggcccttt cgtctcgcgc gtttcggtga tgacggtgaa aacctctgac acatgcagct 60 cccggagacg gtcacagctt gtctgtaagc ggatgccggg agcagacaag cccgtcaggg 120 cgcgtcagcg ggtgttggcg ggtgtcgggg ctggcttaac tatgcggcat cagagcagat 180 tgtactgaga gtgcaccata tgcggtgtga aataccgcac agatgcgtaa ggagaaaata 240 ccgcatcagg cgccattcgc cattcaggct gcgcaactgt tgggaagggc gatcggtgcg 300 ggcctcttcg ctattacgcc agctggcgaa agggggatgt gctgcaaggc gattaagttg 360 ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg acggccagtg aattcgagct 420 cggtacccct gcaggcagct gcgcgctcgc tcgctcactg aggccgcccg ggcaaagccc 480 gggcgtcggg cgacctttgg tcgcccggcc tcagtgagcg agcgagcgcg cagagaggga 540 gtggccaact ccatcactag gggttcctcg ggcaaagcca cgcgtactag ttattaatag 600 taatcaatta cggggtcatt agttcatagc ccatatatgg agttccgcgt tacataactt 660 acggtaaatg gcccgcctgg ctgaccgccc aacgaccccc gcccattgac gtcaataatg 720 acgtatgttc ccatagtaac gccaataggg actttccatt gacgtcaatg ggtggagtat 780 ttacggtaaa ctgcccactt ggcagtacat caagtgtatc atatgccaag tacgccccct 840 attgacgtca atgacggtaa atggcccgcc tggcattatg cccagtacat gaccttatgg 900 gactttccta cttggcagta catctacgta ttagtcatcg ctattaccat ggtcgaggtg 960 agccccacgt tctgcttcac tctccccatc tcccccccct ccccaccccc aattttgtat 1020 ttatttattt tttaattatt ttgtgcagcg atgggggcgg gggggggggg ggggcgcgcg 1080 ccaggcgggg cggggcgggg cgaggggcgg ggcggggcga ggcggagagg tgcggcggca 1140 gccaatcaga gcggcgcgct ccgaaagttt ccttttatgg cgaggcggcg gcggcggcgg 1200 ccctataaaa agcgaagcgc gcggcgggcg gggagtcgct gcgacgctgc cttcgccccg 1260 tgccccgctc cgccgccgcc tcgcgccgcc cgccccggct ctgactgacc gcgttactcc 1320 cacaggtgag cgggcgggac ggcccttctc ctccgggctg taattagcgc ttggtttaat 1380 gacggcttgt ttcttttctg tggctgcgtg aaagccttga ggggctccgg gagggccctt 1440 tgtgcggggg gagcggctcg gggggtgcgt gcgtgtgtgt gtgcgtgggg agcgccgcgt 1500 gcggctccgc gctgcccggc ggctgtgagc gctgcgggcg cggcgcgggg ctttgtgcgc 1560 tccgcagtgt gcgcgagggg agcgcggccg ggggcggtgc cccgcggtgc ggggggggct 1620 gcgaggggaa caaaggctgc gtgcggggtg tgtgcgtggg ggggtgagca gggggtgtgg 1680 gcgcgtcggt cgggctgcaa ccccccctgc acccccctcc ccgagttgct gagcacggcc 1740 cggcttcggg tgcggggctc cgtacggggc gtggcgcggg gctcgccgtg ccgggcgggg 1800 ggtggcggca ggtgggggtg ccgggcgggg cggggccgcc tcgggccggg gagggctcgg 1860 gggaggggcg cggcggcccc cggagcgccg gcggctgtcg aggcgcggcg agccgcagcc 1920 attgcctttt atggtaatcg tgcgagaggg cgcagggact tcctttgtcc caaatctgtg 1980 cggagccgaa atctgggagg cgccgccgca ccccctctag cgggcgcggg gcgaagcggt 2040 gcggcgccgg caggaaggaa atgggcgggg agggccttcg tgcgtcgccg cgccgccgtc 2100 cccttctccc tctccagcct cggggctgtc cgcgggggga cggctgcctt cgggggggac 2160 ggggcagggc ggggttcggc ttctggcgtg tgaccggcgg ctctagagcc tctgctaacc 2220 atgttcatgc cttcttcttt ttcctacagc tcctgggcaa cgtgctggtt attgtgctgt 2280 ctcatcattt tggcaaagaa ttcctcgaga tgcagcgcgt gaacatgatc atggcagaat 2340 caccaggcct catcaccatc tgccttttag gatatctact cagtgctgaa tgtacagttt 2400 ttcttgatca tgaaaacgcc aacaaaattc tgaatcggcc aaagaggtat aattcaggta 2460 aattggaaga gtttgttcaa gggaaccttg agagagaatg tatggaagaa aagtgtagtt 2520 ttgaagaagc acgagaagtt tttgaaaaca ctgaaagaac aactgaattt tggaagcagt 2580 atgttgatgg agatcagtgt gagtccaatc catgtttaaa tggcggcagt tgcaaggatg 2640 acattaattc ctatgaatgt tggtgtccct ttggatttga aggaaagaac tgtgaattag 2700 atgtaacatg taacattaag aatggcagat gcgagcagtt ttgtaaaaat agtgctgata 2760 acaaggtggt ttgctcctgt actgagggat atcgacttgc agaaaaccag aagtcctgtg 2820 aaccagcagt gccatttcca tgtggaagag tttctgtttc acaaacttct aagctcaccc 2880 gtgctgagac tgtttttcct gatgtggact atgtaaattc tactgaagct gaaaccattt 2940 tggataacat cactcaaagc acccaatcat ttaatgactt cactcgggtt gttggtggag 3000 aagatgccaa accaggtcaa ttcccttggc aggttgtttt gaatggtaaa gttgatgcat 3060 tctgtggagg ctctatcgtt aatgaaaaat ggattgtaac tgctgcccac tgtgttgaaa 3120 ctggtgttaa aattacagtt gtcgcaggtg aacataatat tgaggagaca gaacatacag 3180 agcaaaagcg aaatgtgatt cgaattattc ctcaccacaa ctacaatgca gctattaata 3240 agtacaacca tgacattgcc cttctggaac tggacgaacc cttagtgcta aacagctacg 3300 ttacacctat ttgcattgct gacaaggaat acacgaacat cttcctcaaa tttggatctg 3360 gctatgtaag tggctgggga agagtcttcc acaaagggag atcagcttta gttcttcagt 3420 accttagagt tccacttgtt gaccgagcca catgtcttcg atctacaaag ttcaccatct 3480 ataacaacat gttctgtgct ggcttccatg aaggaggtag agattcatgt caaggagata 3540 gtgggggacc ccatgttact gaagtggaag ggaccagttt cttaactgga attattagct 3600 ggggtgaaga gtgtgcaatg aaaggcaaat atggaatata taccaaggta tcccggtatg 3660 tcaactggat taaggaaaaa acaaagctca cttaagcggc cgcgtttaaa ctcaacctct 3720 ggattacaaa atttgtgaaa gattgactgg tattcttaac tatgttgctc cttttacgct 3780 atgtggatac gctgctttaa tgcctttgta tcatgctatt gcttcccgta tggctttcat 3840 tttctcctcc ttgtataaat cctggttgct gtctctttat gaggagttgt ggcccgttgt 3900 caggcaacgt ggcgtggtgt gcactgtgtt tgctgacgca acccccactg gttggggcat 3960 tgccaccacc tgtcagctcc tttccgggac tttcgctttc cccctcccta ttgccacggc 4020 ggaactcatc gccgcctgcc ttgcccgctg ctggacaggg gctcggctgt tgggcactga 4080 caattccgtg gtgttgtcgg ggaaatcatc gtcctttcct tggctgctcg cctgtgttgc 4140 cacctggatt ctgcgcggga cgtccttctg ctacgtccct tcggccctca atccagcgga 4200 ccttccttcc cgcggcctgc tgccggctct gcggcctctt ccgcgtcttc gccttcgccc 4260 tcagacgagt cggatctccc tttgggccgc ctccccgcag aattcctgca gctagttgcc 4320 agccatctgt tgtttgcccc tcccccgtgc cttccttgac cctggaaggt gccactccca 4380 ctgtcctttc ctaataaaat gaggaaattg catcgcattg tctgagtagg tgtcattcta 4440 ttctgggggg tggggtgggg caggacagca agggggagga ttgggaagac aatagcaggc 4500 atgctgggga tgcggtgggc tctatggggt aaccaggaac ccctagtgat ggagttggcc 4560 actccctctc tgcgcgctcg ctcgctcact gaggccgggc gaccaaaggt cgcccgacgc 4620 ccgggctttg cccgggcggc ctcagtgagc gagcgagcgc gcagctgcct gcaggaagct 4680 tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 4740 acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 4800 tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 4860 tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 4920 cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 4980 actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 5040 gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 5100 ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 5160 acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 5220 ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 5280 cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 5340 tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 5400 gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 5460 ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 5520 acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 5580 gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 5640 ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 5700 tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 5760 gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 5820 tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 5880 ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 5940 taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 6000 cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 6060 gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 6120 gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 6180 tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 6240 gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 6300 ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 6360 ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 6420 cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 6480 ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 6540 gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 6600 ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 6660 ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 6720 tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 6780 ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 6840 cacctgacgt ctaagaaacc attattatca tgacattaac ctataaaaat aggcgtatca 6900 c 6901

Claims

인간화(humanized) 내인성(endogenous) 알부민 좌위(locus)를 동물의 게놈에 포함하는 비-인간 동물로서, 상기 내인성 알부민 좌위의 분절(segment)은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물.
제1항에 있어서, 상기 인간화 내인성 알부민 좌위는 인간 혈청 알부민 펩타이드를 포함하는 단백질을 인코딩하는, 비-인간 동물.
제1항 또는 제2항에 있어서, 상기 인간화 내인성 알부민 좌위는 인간 알부민 프로펩타이드를 포함하는 단백질을 인코딩하는, 비-인간 동물.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 인간화 내인성 알부민 좌위는 인간 알부민 신호 펩타이드를 포함하는 단백질을 인코딩하는, 비-인간 동물.
제1항 내지 제4항 중 어느 한 항에 있어서, 코딩 서열과 비-코딩 서열을 둘 다 포함하는 내인성 알부민 좌위의 영역은 결실되었고, 코딩 서열과 비-코딩 서열을 둘 다 포함하는 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 인간화 내인성 알부민 좌위는 내인성 알부민 프로모터를 포함하며, 인간 알부민 서열은 내인성 알부민 프로모터에 작동적으로 연결되는, 비-인간 동물.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 내인성 알부민 좌위의 적어도 하나의 인트론 및 적어도 하나의 엑손은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 내인성 알부민 좌위의 전체 알부민 코딩 서열은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물.
제8항에 있어서, 개시 코돈으로부터 정지 코돈까지의 내인성 알부민 좌위의 영역은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 인간화 내인성 알부민 좌위는 인간 알부민 3' 비번역 영역을 포함하는, 비-인간 동물.
제1항 내지 제10항 중 어느 한 항에 있어서, 내인성 알부민 5' 비번역 영역은 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않은 것인, 비-인간 동물.
제1항 내지 제11항 중 어느 한 항에 있어서, 개시 코돈으로부터 정지 코돈까지의 내인성 알부민 좌위의 영역은 결실되었고 상응하는 인간 알부민 서열 및 인간 알부민 3' 비번역 영역을 포함하는 인간 알부민 서열로 대체되었으며,
상기 내인성 알부민 5' 비번역 영역은 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않았고,
내인성 알부민 프로모터는 결실되지 않았고 상응하는 인간 알부민 서열로 대체되지 않은 것인, 비-인간 동물.
제1항 내지 제12항 중 어느 한 항에 있어서,
(i) 상기 인간화 내인성 알부민 좌위의 인간 알부민 서열은 SEQ ID NO: 35로 표시된 서열과 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100% 동일한 서열을 포함하거나;
(ii) 상기 인간화 내인성 알부민 좌위는 SEQ ID NO: 5로 표시된 서열과 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 적어도 100% 동일한 서열을 포함하는 단백질을 인코딩하며;
(iii) 상기 인간화 내인성 알부민 좌위는 SEQ ID NO: 13으로 표시된 서열과 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100% 동일한 서열을 포함하는 코딩 서열을 포함하거나;
(iv) 상기 인간화 내인성 알부민 좌위는 SEQ ID NO: 17 또는 18로 표시된 서열과 적어도 90%, 적어도 95%, 적어도 96%, 적어도 97%, 적어도 98%, 적어도 99%, 또는 100% 동일한 서열을 포함하는, 비-인간 동물.
제1항 내지 제13항 중 어느 한 항에 있어서, 상기 인간화 내인성 알부민 좌위는 선택 카세트 또는 리포터 유전자를 포함하지 않는, 비-인간 동물.
제1항 내지 제14항 중 어느 한 항에 있어서, 상기 비-인간 동물은 인간화 내인성 알부민 좌위에 대해 동형접합성인, 비-인간 동물.
제1항 내지 제15항 중 어느 한 항에 있어서, 상기 비-인간 동물은 인간화 내인성 알부민 좌위를 이의 생식세포계(germline)에 포함하는, 비-인간 동물.
제1항 내지 제16항 중 어느 한 항에 있어서, 상기 비-인간 동물은 포유류인, 비-인간 동물.
제17항에 있어서, 상기 비-인간 동물은 래트 또는 마우스인, 비-인간 동물.
제18항에 있어서, 상기 비-인간 동물은 마우스인, 비-인간 동물.
제1항 내지 제19항 중 어느 한 항에 있어서, 상기 비-인간 동물은 인간화 내인성 알부민 좌위에 대해 동형접합성인, 비-인간 동물.
제1항 내지 제19항 중 어느 한 항에 있어서, 상기 비-인간 동물은 인간화 내인성 알부민 좌위에 대해 이형접합성인, 비-인간 동물.
제1항 내지 제21항 중 어느 한 항에 있어서, 상기 비-인간 동물은 적어도 약 10 mg/mL의 혈청 알부민 수준을 포함하는, 비-인간 동물.
제1항 내지 제22항 중 어느 한 항에 있어서, 상기 비-인간 동물에서의 혈청 알부민 수준은 적어도, 야생형 알부민 좌위를 포함하는 대조군 비-인간 동물에서의 혈청 알부민 수준만큼 높은 것인, 비-인간 동물.
제1항 내지 제23항 중 어느 한 항에 있어서, 상기 비-인간 동물은 비-인간 동물의 하나 이상의 세포에서 인간화 내인성 알부민 좌위의 적어도 하나의 대립유전자 내로 통합된 외인성 단백질에 대한 코딩 서열을 추가로 포함하는, 비-인간 동물.
제24항에 있어서, 상기 외인성 단백질에 대한 코딩 서열은 비-인간 동물의 하나 이상의 세포에서 인간화 내인성 알부민 좌위의 적어도 하나의 대립유전자의 인트론 1 내로 통합되는, 비-인간 동물.
제1항 내지 제25항 중 어느 한 항에 있어서, 상기 비-인간 동물은, 내인성 알부민 좌위가 아닌 비활성화된 내인성 좌위를 추가로 포함하는, 비-인간 동물.
제26항에 있어서, 상기 비-인간 동물은 비-인간 동물의 하나 이상의 세포에서 인간화 내인성 알부민 좌위의 적어도 하나의 대립유전자 내로 통합된 외인성 단백질에 대한 코딩 서열을 추가로 포함하며, 상기 외인성 단백질은 비활성화된 내인성 좌위의 기능을 대체하는, 비-인간 동물.
제26항 또는 제27항에 있어서, 상기 비활성화된 내인성 좌위는 비활성화된 F9 좌위인, 비-인간 동물.
인간화 내인성 알부민 좌위를 동물의 게놈에 포함하는 비-인간 동물 세포로서, 상기 내인성 알부민 좌위의 분절은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물 세포.
인간화 내인성 알부민 좌위를 포함하는 비-인간 동물 게놈으로서, 상기 내인성 알부민 좌위의 분절은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 비-인간 동물 게놈.
인간화 비-인간 동물 알부민 유전자로서, 상기 비-인간 알부민 유전자의 분절은 결실되었고 상응하는 인간 알부민 서열로 대체된 것인, 인간화 비-인간 동물 알부민 유전자.
인간화 내인성 알부민 좌위를 생산하기 위한 표적화 벡터로서, 상기 내인성 알부민 좌위의 분절은 결실되었고 상응하는 인간 알부민 서열로 대체되었으며, 상기 표적화 벡터는 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암(arm) 및 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹된(flanked) 상응하는 인간 알부민 서열을 포함하는 삽입물(insert) 핵산을 포함하는, 표적화 벡터.
생체내에서 인간-알부민-표적화 시약의 활성을 평가하는 방법으로서, 상기 방법은
(a) 인간-알부민-표적화 시약을 제1항 내지 제28항 중 어느 한 항의 비-인간 동물에게 투여하는 단계; 및
(b) 상기 인간-알부민-표적화 시약의 활성을 상기 비-인간 동물에서 평가하는 단계를 포함하는, 방법.
제33항에 있어서, 상기 투여는 아데노-관련 바이러스(AAV: adeno-associated virus)-매개 전달, 지질 나노입자(LNP: lipid nanoparticle)-매개 전달, 또는 유체역학적 전달(HDD: hydrodynamic delivery)을 포함하는, 방법.
제34항에 있어서, 상기 투여는 LNP-매개 전달을 포함하는, 방법.
제35항에 있어서, LNP 용량은 약 0.1 mg/kg 내지 약 2 mg/kg인, 방법.
제34항에 있어서, 상기 투여는 AAV8-매개 전달을 포함하는, 방법.
제33항 내지 제37항 중 어느 한 항에 있어서, 상기 단계 (b)는 비-인간 동물로부터 간을 단리하는 단계 및 상기 간에서 인간-알부민-표적화 시약의 활성을 평가하는 단계를 포함하는, 방법.
제33항 내지 제38항 중 어느 한 항에 있어서, 상기 인간-알부민-표적화 시약은 게놈-편집 제제이고, 상기 평가는 인간화 내인성 알부민 좌위의 변형을 평가하는 단계를 포함하는, 방법.
제39항에 있어서, 상기 평가는 인간화 내인성 알부민 좌위 내에서 삽입 또는 결실의 빈도를 측정하는 단계를 포함하는, 방법.
제33항 내지 제40항 중 어느 한 항에 있어서, 상기 평가는 인간화 내인성 알부민 좌위에 의해 인코딩되는 알부민 메신저 RNA의 발현을 측정하는 단계를 포함하는, 방법.
제33항 내지 제41항 중 어느 한 항에 있어서, 상기 평가는 인간화 내인성 알부민 좌위에 의해 인코딩되는 알부민 단백질의 발현을 측정하는 단계를 포함하는, 방법.
제42항에 있어서, 상기 알부민 단백질의 발현을 평가하는 단계는 비-인간 동물에서 알부민 단백질의 혈청 수준을 측정하는 단계를 포함하는, 방법.
제42항에 있어서, 상기 알부민 단백질의 발현을 평가하는 단계는 비-인간 동물의 간에서 알부민 단백질의 발현을 측정하는 단계를 포함하는, 방법.
제33항 내지 제43항 중 어느 한 항에 있어서, 상기 인간-알부민-표적화 시약은 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산을 포함하며, 상기 뉴클레아제 제제는 인간 알부민 유전자의 영역을 표적화하도록 설계되는, 방법.
제45항에 있어서, 상기 뉴클레아제 제제는 Cas 단백질, 및 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계된 가이드 RNA를 포함하는, 방법.
제46항에 있어서, 상기 가이드 RNA 표적 서열은 인간 알부민 유전자의 인트론 1에 존재하는, 방법.
제46항 또는 제47항에 있어서, 상기 Cas 단백질은 Cas9 단백질인, 방법.
제33항 내지 제48항 중 어느 한 항에 있어서, 상기 인간-알부민-표적화 시약은 외인성 공여자 핵산을 포함하며, 상기 외인성 공여자 핵산은 인간 알부민 유전자를 표적화하도록 설계되고, 선택적으로 상기 외인성 공여자 핵산은 AAV를 통해 전달되는, 방법.
제49항에 있어서, 상기 외인성 공여자 핵산은 단일-가닥 올리고데옥시뉴클레오타이드(ssODN)인, 방법.
제49항 또는 제50항에 있어서, 상기 외인성 공여자 핵산은 상동성 아암을 포함하지 않는, 방법.
제49항 또는 제50항에 있어서, 상기 외인성 공여자 핵산은 인간화 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암 및 인간화 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하는, 방법.
제52항에 있어서, 상기 5' 표적 서열 및 3' 표적 서열은 각각 인간 알부민 유전자의 인트론 1의 분절을 포함하는, 방법.
제49항 내지 제53항 중 어느 한 항에 있어서, 상기 외인성 공여자 핵산은 외인성 단백질을 인코딩하는, 방법.
제54항에 있어서, 상기 외인성 공여자 핵산으로 표적화되었던 인간화 내인성 알부민 좌위에 의해 인코딩되는 단백질은 외인성 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질인, 방법.
제54항 또는 제55항에 있어서, 상기 외인성 단백질은 인자 IX 단백질인, 방법.
제56항에 있어서, 상기 평가는 비-인간 동물에서 인자 IX 단백질의 혈청 수준을 측정하는 단계를 포함하고/하거나 활성화된 부분 트롬보플라스틴 시간을 평가하거나 트롬빈 생산 검정을 수행하는 단계를 포함하는, 방법.
제33항 내지 제57항 중 어느 한 항에 있어서, 인간-알부민-표적화 시약은 (1) 인간 알부민 유전자의 영역을 표적화하도록 설계된 뉴클레아제 제제 및 (2) 외인성 공여자 핵산을 포함하며,
상기 외인성 공여자 핵산은 인간 알부민 유전자를 표적화하도록 설계되고,
상기 외인성 공여자 핵산은 외인성 단백질을 인코딩하며,
상기 외인성 공여자 핵산으로 표적화되었던 인간화 내인성 알부민 좌위에 의해 인코딩되는 단백질은 외인성 단백질에 융합된 인간 알부민 신호 펩타이드를 포함하는 이종성 단백질인, 방법.
제54항 내지 제58항 중 어느 한 항에 있어서, 상기 평가는 외인성 공여자 핵산에 의해 인코딩되는 메신저 RNA의 발현을 측정하는 단계를 포함하는, 방법.
제59항에 있어서, 상기 평가는 단일-세포 분해능(resolution)에서 외인성 공여자 핵산에 의해 인코딩되는 메신저 RNA의 발현을 정량화하기 위해 인시추(in situ) 혼성화 검정을 포함하는, 방법.
제59항 또는 제60항에 있어서, 상기 평가는 비-인간 동물의 간으로부터의 다수의 엽(multiple lobe)에서 외인성 공여자 핵산에 의해 인코딩되는 메신저 RNA의 발현을 측정하는 단계를 포함하는, 방법.
제54항 내지 제61항 중 어느 한 항에 있어서, 상기 평가는 외인성 단백질의 발현을 측정하는 단계를 포함하는, 방법.
제62항에 있어서, 상기 이종성 단백질의 발현을 평가하는 단계는 비-인간 동물에서 이종성 단백질의 혈청 수준을 측정하는 단계를 포함하는, 방법.
제62항에 있어서, 상기 이종성 단백질의 발현을 평가하는 단계는 비-인간 동물의 간에서 발현을 측정하는 단계를 포함하는, 방법.
생체내에서 인간-알부민-표적화 시약의 활성을 최적화하는 방법으로서, 상기 방법은
(I) 첫 번째로, 인간화 내인성 알부민 좌위를 제1 비-인간 동물의 게놈에 포함하는 제1 비-인간 동물에서 제33항 내지 제64항 중 어느 한 항의 방법을 수행하는 단계;
(II) 변수(variable)를 변화시키고, 두 번째로, 인간화 내인성 알부민 좌위를 제2 비-인간 동물의 게놈에 포함하는 제2 비-인간 동물에서 변화된 변수로 상기 단계 (I)의 방법을 수행하는 단계; 및
(III) 상기 단계 (I)에서의 인간-알부민-표적화 시약의 활성을 상기 단계 (II)에서의 인간-알부민-표적화 시약의 활성과 비교하고, 더 높은 활성을 초래하는 방법을 선택하는 단계를 포함하는, 방법.
제65항에 있어서, 상기 단계 (II)에서의 변화된 변수는 인간-알부민-표적화 시약을 비-인간 동물 내로 도입하는 전달 방법인, 방법.
제66항에 있어서, 투여는 LNP-매개 전달을 포함하고, 단계 (II)에서의 변화된 변수는 LNP 제형인, 방법.
제65항에 있어서, 상기 단계 (II)에서의 변화된 변수는 인간-알부민-표적화 시약을 비-인간 동물 내로 도입하는 투여 경로인, 방법.
제65항에 있어서, 상기 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약의 농도 또는 양인, 방법.
제65항에 있어서, 상기 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약의 형태인, 방법.
제65항에 있어서, 상기 단계 (II)에서의 변화된 변수는 비-인간 동물 내로 도입된 인간-알부민-표적화 시약인, 방법.
제65항에 있어서, 상기 인간-알부민-표적화 시약은 Cas 단백질 또는 상기 Cas 단백질을 인코딩하는 핵산 및 가이드 RNA 또는 상기 가이드 RNA를 인코딩하는 DNA를 포함하며, 상기 가이드 RNA는 인간 알부민 유전자 내의 가이드 RNA 표적 서열을 표적화하도록 설계되는, 방법.
제72항에 있어서, 상기 단계 (II)에서의 변화된 변수는 가이드 RNA 서열 또는 가이드 RNA 표적 서열인, 방법.
제72항에 있어서, 상기 인간-알부민-표적화 시약은 Cas 단백질을 인코딩하는 메신저 RNA(mRNA) 및 가이드 RNA를 포함하며, 단계 (II)에서의 변화된 변수는 가이드 RNA에 대한 Cas mRNA의 비인, 방법.
제72항에 있어서, 상기 단계 (II)에서의 변화된 변수는 가이드 RNA 변형인, 방법.
제65항에 있어서, 상기 인간-알부민-표적화 시약은 외인성 공여자 핵산을 포함하는, 방법.
제76항에 있어서, 상기 단계 (II)에서의 변화된 변수는 외인성 공여자 핵산의 형태인, 방법.
제76항에 있어서, 상기 외인성 공여자 핵산은 인간화 내인성 알부민 좌위에서 5' 표적 서열을 표적화하는 5' 상동성 아암 및 인간화 내인성 알부민 좌위에서 3' 표적 서열을 표적화하는 3' 상동성 아암에 의해 플랭킹되는 삽입물 핵산을 포함하고, 단계 (II)에서의 변화된 변수는 5' 상동성 아암의 서열 또는 길이 및/또는 3' 상동성 아암의 서열 또는 길이인, 방법.
제1항 내지 제28항 중 어느 한 항의 비-인간 동물을 제조하는 방법으로서, 상기 방법은
(a) 비-인간 동물 배아 줄기(ES: embryonic stem) 세포 내로,
(i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내의 표적 서열을 표적화하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및
(ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터를 도입하는 단계로서,
상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 세포의 게놈에 포함하는 유전적으로 변형된 비-인간 ES 세포를 생성하는, 단계;
(b) 상기 유전적으로 변형된 비-인간 ES 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및
(c) 상기 비-인간 동물 숙주 배아를 대리모에 임신시키는 단계로서, 상기 대리모는 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 동물의 게놈에 포함하는 F0 자손 유전적으로 변형된 비-인간 동물을 생성하는 단계를 포함하는, 방법.
제79항에 있어서, 상기 표적화 벡터는, 적어도 10 kb 길이이거나 5' 상동성 아암과 3' 상동성 아암의 총 합계가 적어도 10 kb 길이인 큰 표적화 벡터인, 방법.
제1항 내지 제28항 중 어느 한 항의 비-인간 동물을 제조하는 방법으로서, 상기 방법은
(a) 비-인간 동물 1-세포 단계(one-cell stage) 배아 내로,
(i) 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산으로서, 상기 뉴클레아제 제제는 내인성 알부민 좌위 내의 표적 서열을 표적화하는, 뉴클레아제 제제 또는 상기 뉴클레아제 제제를 인코딩하는 핵산; 및
(ii) 내인성 알부민 좌위 내 5' 표적 서열에 상응하는 5' 상동성 아암 및 내인성 알부민 좌위 내 3' 표적 서열에 상응하는 3' 상동성 아암에 의해 플랭킹되는 인간 알부민 서열을 포함하는 핵산 삽입물을 포함하는 표적화 벡터를 도입하는 단계로서,
상기 표적화 벡터는 내인성 알부민 좌위와 재조합되어, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 세포의 게놈에 포함하는 유전적으로 변형된 비-인간 1-세포 단계 배아를 생성하는, 단계;
(b) 상기 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 대리모에 임신시켜, 인간 알부민 서열을 포함하는 인간화 내인성 알부민 좌위를 동물의 게놈에 포함하는 유전적으로 변형된 F0 세대 비-인간 동물을 생성하는 단계를 포함하는, 방법.
제79항 내지 제81항 중 어느 한 항에 있어서, 상기 뉴클레아제 제제는 Cas 단백질 및 가이드 RNA를 포함하는, 방법.
제82항에 있어서, 상기 Cas 단백질은 Cas9 단백질인, 방법.
제82항에 있어서, 상기 단계 (a)는 내인성 알부민 좌위 내의 제2 표적 서열을 표적화하는 제2 가이드 RNA를 도입하는 단계를 추가로 포함하는, 방법.
제79항 내지 제84항 중 어느 한 항에 있어서, 상기 비-인간 동물은 마우스 또는 래트인, 방법.
제85항에 있어서, 상기 비-인간 동물은 마우스인, 방법.
제1항 내지 제28항 중 어느 한 항의 비-인간 동물을 제조하는 방법으로서, 상기 방법은
(I) (a) 인간화 내인성 알부민 좌위를 포함하도록 만능성(pluripotent) 비-인간 동물 세포의 게놈을 변형시키는 단계;
(b) 상기 인간화 내인성 알부민 좌위를 포함하는 유전적으로 변형된 만능성 비-인간 동물 세포를 식별하거나 선택하는 단계;
(c) 상기 유전적으로 변형된 만능성 비-인간 동물 세포를 비-인간 동물 숙주 배아 내로 도입하는 단계; 및
(d) 비-인간 동물 숙주 배아를 대리모에 임신시키는 단계; 또는
(II) (a) 인간화 내인성 알부민 좌위를 포함하도록 비-인간 동물 1-세포 단계 배아의 게놈을 변형시키는 단계;
(b) 상기 인간화 내인성 알부민 좌위를 포함하는 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 선택하는 단계; 및
(c) 상기 유전적으로 변형된 비-인간 동물 1-세포 단계 배아를 대리모에 임신시키는 단계를 포함하는, 방법.