KR20210139271A - Crispr/cas 융합 단백질 및 시스템 - Google Patents

Crispr/cas 융합 단백질 및 시스템 Download PDF

Info

Publication number
KR20210139271A
KR20210139271A KR1020217029732A KR20217029732A KR20210139271A KR 20210139271 A KR20210139271 A KR 20210139271A KR 1020217029732 A KR1020217029732 A KR 1020217029732A KR 20217029732 A KR20217029732 A KR 20217029732A KR 20210139271 A KR20210139271 A KR 20210139271A
Authority
KR
South Korea
Prior art keywords
lys
leu
glu
gly
ala
Prior art date
Application number
KR1020217029732A
Other languages
English (en)
Inventor
푸치앙 첸
Original Assignee
시그마-알드리치 컴퍼니., 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시그마-알드리치 컴퍼니., 엘엘씨 filed Critical 시그마-알드리치 컴퍼니., 엘엘씨
Publication of KR20210139271A publication Critical patent/KR20210139271A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/205Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Campylobacter (G)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/305Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Micrococcaceae (F)
    • C07K14/31Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Micrococcaceae (F) from Staphylococcus (G)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/315Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Streptococcus (G), e.g. Enterococci
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/60Fusion polypeptide containing spectroscopic/fluorescent detection, e.g. green fluorescent protein [GFP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

조작된 Cas9 시스템들이 본원에 개시되어 있다.

Description

CRISPR/CAS 융합 단백질 및 시스템
관련 출원
본 출원은 2019년 2월 15일 출원된 미국 가특허출원 제 62/806,708호의 우선권의 이익을 주장하며, 이 문헌은 본 명세서에 그 전문이 참고문헌으로 포함된다.
기술분야
본 발명은 조작된 Cas9 시스템, 이러한 시스템을 인코딩하는 핵산, 및 게놈 변형을 위해 이러한 시스템을 사용하는 방법에 관한 것이다.
배경
GFP를 Cas9에 융합하기 위해 다양한 유형의 펩티드 링커가 테스트되었지만 통상적으로 기본 Cas9의 활성을 더 낮춘다.
발명의 요약
본 개시내용의 다양한 양상들 중에는 조작된 Cas9 시스템이 포함된다.
본 발명의 다른 양상들 및 특징들을 이하에서 상세히 설명한다.
도면의 간단한 설명
도 1은 본 명세서에 개시된 Cas9 융합 단백질이 각각 SpCas9 단백질 수준과 유사한 편집 활성을 유지함을 보여준다.
도 2A도 2B는 본원에 공개된 Cas9 융합 단백질의 편집 효율이 모든 표적에서 시판 단백질의 편집 효율보다 몇 배 더 높았음을 보여준다.
서열 목록
본원은 ASCII 형식으로 전자적으로 제출된 서열 목록을 포함하며, 이러한 서열 목록은 본원에 그 전문이 참조로 포함된다. 2020년 2월 13일 생성된 상기 ASCII 사본 파일명은 P19-027_WO-PCT_SL.txt이며 87,735 바이트 크기이다.
상세한 설명
CRISPR 단백질에 대한 부속 단백질의 융합은 다양한 단백질 기능을 세포 내의 정의된 위치에 국소화시킬 수 있는 광범위한 기회를 생성한다. 무엇보다도, CRISPR 기능을 보존하는 방식으로 CRISPR 단백질에 이종 단백질의 융합을 가능하게 하는 펩티드 링커가 개시되어 있다.
(I) 조작된 Cas9 시스템
본 발명의 한 양상은 조작된 Cas9 단백질 및 시스템을 제공한다. 예를 들어, Cas9-마커 융합 단백질이 개시되어 있다. 일부 양상에서, 시스템은 조작된 Cas9 단백질 및 조작된 가이드 RNA를 포함하며, 여기서 각각의 조작된 가이드 RNA는 특이적으로 조작된 Cas9 단백질과 복합체를 형성하도록 설계된다. 이러한 조작된 Cas9 시스템은 자연적으로 발생하지 않는다.
(a) 조작된 Cas9 단백질
Cas9 단백질은 다양한 박테리아에 존재하는 II형 CRISPR 시스템의 단일 이펙터 단백질이다. 본원에 개시된 조작된 Cas9 단백질은 아카리오클로리스 종 (Acaryochloris sp.), 아세토할로비움 종 (Acetohalobium sp.), 아시다미노코쿠스 종 (Acidaminococcus sp.), 아시디티오바실루스 종 (Acidithiobacillus sp.), 아시도테르무스 종 (Acidothermus sp.), 아커만시아 종 (Akkermansia sp.), 알리사이클로바실루스 종 (Alicyclobacillus sp.), 알로크로마티움 종 (Allochromatium sp.), 암모니펙스 종 (Ammonifex sp.), 아나바에나 종 (Anabaena sp.), 아르트로스피라 종 (Arthrospira sp.), 바실루스 종 (Bacillus sp.), 비피도박테릴움 종 (Bifidobacterium sp.), 부르크홀데리알레스 종 (Burkholderiales sp.), 칼디셀룰로시룹터 종 (Caldicelulosiruptor sp.), 캄필로박터 종 (Campylobacter sp.), 칸디다투스 종 (Candidatus sp.), 클로스트리디움 종 (Clostridium sp.), 코리네박테리움 종 (Corynebacterium sp.), 크로코스파에라 종 (Crocosphaera sp.), 시아노테세 종 (Cyanothece sp.), 엑시구오박테리움 종 (Exiguobacterium sp.), 피브로박터 종 (Fibrobacter sp.), 피네골디아 종 (Finegoldia sp.), 프란시셀라 종 (Francisella sp.), 크테도노박터 종 (Ktedonobacter sp.), 라크노스피라세아에 종 (Lachnospiraceae sp.), 락토바실루스 종 (Lactobacillus sp.), 리스테리아 종 (Listeria sp.), 린그비아 종 (Lyngbya sp.), 마리노박터 종 (Marinobacter sp.), 메타노할로비움 종 (Methanohalobium sp.), 미크로실라 종 (Microscilla sp.), 미크로콜레우스 종 (Microcoleus sp.), 미크로시스티스 종 (Microcystis sp.), 마이코플라즈마 종 (Mycoplasma sp.), 나트라나에로비우스 종 (Natranaerobius sp.), 네이세리아 종 (Neisseria sp.), 니트라티프락터 종 (Nitratifractor sp.), 니트로소코쿠스 종 (Nitrosococcus sp.), 노카르디옵시스 종 (Nocardiopsis sp.), 노둘라리아 종 (Nodularia sp.), 노스톡 종 (Nostoc sp.), 오에노코쿠스 종 (Oenococcus sp.), 오실라토리아 종 (Oscillatoria sp.), 파라수테렐라 종 (Parasutterella sp.), 파스퇴렐라 종 (Pasteurella sp.), 파르비바쿨룸 종 (Parvibaculum sp.), 펠로토마쿨룸 종 (Pelotomaculum sp.), 페트로로가 종 (Petrotoga sp.), 폴라로모나스 종 (Polaromonas sp.), 프레보텔라 종 (Prevotella sp.), 수도알테로모나스 종 (Pseudoalteromonas sp.), 랄스토니아 종 (Ralstonia sp.), 로도스피릴룸 종 (Rhodospirillum sp.), 스타필로코쿠스 종 (Staphylococcus sp.), 스트렙토코쿠스 종 (Streptococcus sp.), 스트렙토마이세스 종 (Streptomyces sp.), 스트렙토스포란지움 종 (Streptosporangium sp.), 시네코코쿠스 종 (Synechococcus sp.), 테르모시포 종 (Thermosipho sp.), 트레포네마 종 (Treponema sp.), 베루코미크로비아 종 (Verrucomicrobia sp)., 및 올리넬라 종 (Wolinella sp.)에서 유래할 수 있다.
Cas9 단백질 또는 다른 구성성분들이 유래 또는 유도될 수 있는 예시적인 종들에는 아카리오클로리스 종 (예를 들어, 아카리오클로리스 마리나), 아세토할로비움 종 (예컨대, 아세토할로비움 아라바티쿰), 아시다미노코쿠스 종, 아시디티오바실루스 종 (예를 들어, 아시디티오바실루스 칼두스, 아시디티오바실루스 페로옥시단스), 아시도테르무스 종, 아케르만시아 종, 알리사이클로바실루스 종 (예를 들어, 알리사이클로바실루스 아시도칼다리우스), 알로크로마티움 종 (예를 들어, 알로크로마티움 비노숨), 암모니펙스 종 (예를 들어, 암모니펙스 데겐시이), 아나바에나 종 (예를 들어, 아나바에나 바리아빌리스), 아르트로스피라 종 (예를 들어, 아르트로스피라 맥시마, 아르트로스피라 플라텐시스), 바실루스 종 (예를 들어, 바실루스 수도마이코이데스, 바실루스 셀레니티레두센스), 비피도박테리움 종, 벌크홀데리알레스 종 (예를 들어, 벌크홀데리알레스 박테리움), 칼디셀룰로시럽터 종 (예를 들어, 칼디셀룰로시럽터 벡시이), 캄필로박터 종 (예를 들어, 캄필로박터 제주니, 캄필로박터 라리), 칸디다투스 종, (예를 들어, 칸디다투스 데술포루디스), 클로스트리디움 종 (예를 들어, 클로스트리디움 보툴리눔, 클로스트리디움 디피실레), 코리네박테리움 종 (예를 들어, 코리네박테리움 디프테리아), 크로코스파에라 종 (예를 들어, 크로코스파에라 왓소니이), 시아노테세 종, 델타프로테오박테리움 종, 엑시구오박테리움 종 (예를 들어, 엑시구오박테리움 시비리쿰), (피브로박터 종 (예를 들어, 피브로박터 숙시노겐), 피네골디아 종 (예를 들어, 피네골디아 마그나), 프란시셀라 종 (예를 들어, 프란시셀라 노비시다), 감마프로테오박테리움, 크테도노박터 종 (예를 들어, 크테도노박터 라세미페르), 라크노스피라세아에 종, 락토바실루스 종 (예를 들어, 락토바실루스 부크네리, 락토바실루스 델브루엑키이, 락토바실루스 가세리, 락토바실루스 살리바리우스), 리스테리아 종 (예를 들어, 리스테리아 이노쿠아), 렙토트리키아 종, 린그비아 종, 마리노박터 종, 메타노할로비움 종 (예를 들어, 메타노할로비움 에베스티가툼), 마이크로콜레우스 종 (예를 들어, 마이크로콜레우스 크토노플라스테스), 마이크로실라 종 (예를 들어, 마이크로실라 마리나), 마이크로시스티스 종 (예를 들어, 마이크로시스티스 아에루기노사), 마이코플라스마 종, 나트라나에로비우스 종 (예를 들어, 나트라나에로비우스 써모필루스), 네이세리아 종 (예를 들어, 네이세리아 시네레아, 네이세리아 메닝기티디스), 니트라티프락터 종, 니트로소코쿠스 종 (예를 들어, 니트로소모무스 할로필루스, 니트로소코쿠스 왓소니), 노카르디옵시스 종 (예를 들어, 노카르디옵시스 다쏜빌레이), 노둘라리아 종 (예를 들어, 노둘라리아 스푸미게나), 노스톡 종, 오에노코쿠스 종, 오실라토리아 종, 파라수테렐라 종, 파비바쿨럼 종 (예를 들어, 파비바쿨럼 라바멘티보란스), 파스퇴렐라 종 (예를 들어, 파스퇴렐라 파스퇴렐라 멀토시다), 펠로토마쿨럼 종, (예를 들어, 펠로토마쿨럼 써모프로피오니쿰), 페트로토가 종 (예를 들어, 페트로토가 모빌리스), 플랑크토마이세스 종, 폴라로모나스 종 (예를 들어, 폴라로모나스 나프탈레니보란스), 프레보텔라 종, 수도알테로모나스 종 (예를 들어, 수도알테로모나스 할로플랑크티스), 랄스토니아 종, 루미노코쿠스 종, 로도스피릴룸 종 (예를 들어, 로도스피릴룸 루브룸), 스타필로코쿠스 종 (예를 들어, 스타필로코쿠스 아우레우스), 스트렙토코쿠스 종 (예를 들어, 스트렙토코쿠스 파스퇴리아누스, 스트렙토코쿠스 피오게네스, 스트렙토코쿠스 써모필루스), 수테렐라 종 (예를 들어, 수테렐라 와즈워텐시스), 스트렙토마이세스 종 (예를 들어, 스트렙토마이세스 프리스티나에스피랄리스, 스트렙토마이세스 비리도크로모게네스, 스트렙토마이세스 비리도크로모게네스), 스트렙토스포란기움 종 (예를 들어, 스트렙토스포란기움 로세움, 스트렙토스포란기움 로세움), 시네코코쿠스 종, 써모시포 종 (예를 들어, 써모시포 아프리카누스), 트레포네마 종 (예를 들어, 트레포네마 덴티콜라), 및 베루코마이크로비아 종, 월리넬라 종 (예를 들어, 월리넬라 숙시노게네스), 및/또는 게놈 데이터베이스의 생물정보학 조사에 기술된 종들, 가령, Makarova, Kira S., 등 "An updated evolutionary classification of CRISPR-Cas systems." Nature Reviews Microbiology 13.11 (2015): 722 and Koonin, Eugene V., Kira S. Makarova, and Feng Zhang. "Diversity, classification and evolution of CRISPR-Cas systems." Current opinion in microbiology 37 (2017): 67-78에 개시된 것들이 포함되며, 이들 각각은 본원에 그 전문이 참고로 포함된다.
일부 구체예에서, 조작된 Cas9 단백질은 스트렙토코쿠스 피오게네스로부터 유래할 수 있다. 일부 구체예에서, 조작된 Cas9 단백질은 스트렙토코쿠스 써모필루스로부터 유래할 수 있다. 일부 구체예에서, 조작된 Cas9 단백질은 네이세리아 메닝기티디스로부터 유래할 수 있다. 일부 구체예에서, 조작된 Cas9 단백질은 스타필로코쿠스 아우레우스로부터 유래할 수 있다. 일부 구체예에서, 조작된 Cas9 단백질은 캄필로박터 제주니로부터 유래할 수 있다.
야생형 Cas9 단백질은 두 개의 뉴클레아제 도메인, 즉, RuvC 및 HNH 도메인을 포함하며, 이들 각각은 이중 가닥 서열의 한 가닥을 절단한다. Cas9 단백질은 또한 가이드 RNA (예컨대, REC1, REC2) 또는 RNA/DNA 이종이중체 (예컨대, REC3)와 상호작용하는 REC 도메인들, 및 프로토스페이서-인접 모티프 (PAM)와 상호작용하는 도메인 (, PAM-상호작용 도메인)을 포함한다.
Cas9 단백질은 Cas9 단백질은 변경된 활성, 특이성 및/또는 안정성을 가지도록 하는 하나 이상의 변형 (즉, 하나 이상의 아미노산의 치환, 하나 이상의 아미노산의 결실, 하나 이상의 아미노산의 삽입)을 포함하도록 조작될 수 있다.
예를 들어, Cas9 단백질은 뉴클레아제 도메인 중 하나 또는 둘 모두를 비활성화하기 위한 하나 이상의 돌연변이 및/또는 결실에 의해 조작 될 수 있다. 하나의 뉴클레아제 도메인의 비활성화는 이중 가닥 서열의 한 가닥을 절단하는 Cas9 단백질 (즉, Cas9 니카아제)을 생성한다. RuvC 도메인은 D10A, D8A, E762A 및/또는 D986A와 같은 돌연변이에 의해 비활성화 될 수 있으며, HNH 도메인은 H840A, H559A, N854A, N856A 및/또는 N863A와 같은 돌연변이에 의해 비활성화 될 수 있다 (스트렙토코쿠스 피오게네스 Cas9, SpyCas9의 넘버링 시스템 참고). 두 뉴클레아제 도메인의 비활성화는 절단 활성이 없는 Cas9 단백질을 생성한다 (, 촉매적으로 비활성이거나 죽은 Cas9).
Cas9 단백질은 또한, 개선된 표적화 특이성, 개선된 충실도, 변경된 PAM 특이성, 감소된 오프-타겟 효과 및/또는 증가된 안정성을 가지도록 하는 하나 이상의 아미노산 치환, 결실 및/또는 삽입에 의해 조작될 수 있다. 표적화 특이성을 개선하고, 충실도를 개선하고, 및/또는 오프-타겟 효과를 감소시키는 하나 이상의 돌연변이의 비-제한적인 예는 N497A, R661A, Q695A, K810A, K848A, K855A, Q926A, K1003A, R1060A 및/또는 D1135E를 포함한다 (SpyCas9의 넘버링 체계 참고).
대안적인 구체예들에서, Cas 단백질은 유형 I CRISPR/Cas 시스템으로부터 유래할 수 있다. 일부 구체예들에서, Cas 단백질은 유형-I CRISPR/Cas 시스템의 캐스케이드 복합체의 구성성분일 수 있다. 예를 들어, Cas 단백질은 Cas3 단백질일 수 있다. 일부 구체예들에서, Cas 단백질은 유형 III CRISPR/Cas 시스템으로부터 유래할 수 있다. 일부 구체예들에서, Cas 단백질은 유형 IV CRISPR/Cas 시스템으로부터 유래할 수 있다. 일부 구체예들에서, Cas 단백질은 유형 V CRISPR/Cas 시스템으로부터 유래할 수 있다. 일부 구체예들에서, Cas 단백질은 유형 VI CRISPR/Cas 시스템으로부터 유래할 수 있다. 일부 구체예들에서, Cas 단백질은 RNA 절단 활성을 가질 수 있다. 다양한 구체예들에서, Cas 단백질은 Cas9, Cas12a (일명 Cpf1), Cas12b, Cas12c, Cas12d, Cas12e (일명 CasX), Cas13a, 또는 Cas13b로 분류될 수 있다.
(i) 이종 도메인
Cas9 단백질은 하나 이상의 이종 도메인을 포함하도록 조작 될 수 있다, 즉, Cas9는 하나 이상의 이종 도메인에 융합된다. 둘 이상의 이종 도메인이 Cas9와 융합되는 상황에서, 둘 이상의 이종 도메인은 동일하거나 다를 수 있다. 하나 이상의 이종 도메인은 N 말단 단부, C 말단 단부, 내부 위치 또는 이들의 조합에 융합 될 수 있다. 융합은 화학적 결합을 통한 직접 일 수 있으며, 또는 연결은 하나 이상의 링커를 통한 간접 일 수 있다.
특정 바람직한 구체예에서, 본원에 기재된 조작된 Cas9 단백질은 하나 이상의 핵 위치화 신호(NLS)를 포함한다. 핵 위치화 신호의 비-제한적 예들은 PKKKRKV (서열 번호: 1), PKKKRRV (서열 번호: 2), KRPAATKKAGQAKKKK (서열 번호: 3), YGRKKRRQRRR (서열 번호: 4), RKKRRQRRR (서열 번호: 5), PAAKRVKLD (서열 번호: 6), RQRRNELKRSP (서열 번호: 7), VSRKRPRP (서열 번호: 8), PPKKARED (서열 번호: 9), PQPKKKPL (서열 번호: 10), SALIKKKKKMAP (서열 번호: 11), PKQKKRK (서열 번호: 12), RKLKKKIKKL (서열 번호: 13), REKKKFLKRR (서열 번호: 14), KRKGDEVDGVDEVAKKKSKK (서열 번호: 15), RKCLQAGMNLEARKTKK (서열 번호: 16), NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY (서열 번호: 17), 및 RMRIZFKNKGKDTAELRRRRVEVSVELRKAKKDEQILKRRNV (서열 번호: 18)를 포함한다.
한 특정 구체예에서, 핵 위치화 신호는 PKKKRKV (서열 번호: 1) 및 PAAKRVKLD (서열 번호: 6)에서 선택된다. 또 다른 특정 구체예에서, 조작된 Cas9 단백질은 PKKKRKV (서열 번호: 1) 및 PAAKRVKLD (서열 번호: 6)를 모두 포함한다. 또 다른 특정 구체예에서, 조작된 Cas9 단백질은 적어도 2개의 PKKKRKV (서열 번호: 1) 및 적어도 하나의 PAAKRVKLD (서열 번호: 6)를 포함한다. 또 다른 특정 구체예에서, 조작된 Cas9 단백질은 2개의 PKKKRKV (서열 번호: 1) 및 하나의 PAAKRVKLD (서열 번호: 6)를 포함한다.
이들 및 다른 바람직한 실시형태에서, 조작된 Cas9 단백질은 하나 이상의 마커 도메인을 포함한다. 마커 도메인은 형광 단백질 및 정제 또는 에피토프 태그를 포함한다. 적합한 형광 단백질들에는, 제한 없이, 녹색 형광 단백질 (예컨대, GFP, eGFP, GFP-2, tagGFP, turboGFP, Emerald, Azami Green, Monomeric Azami Green, CopGFP, AceGFP, ZsGreen1), 황색 형광 단백질 (예컨대, YFP, EYFP, Citrine, Venus, YPet, PhiYFP, ZsYellow1), 청색 형광 단백질 (예컨대, BFP, EBFP, EBFP2, Azurite, mKalama1, GFPuv, Sapphire, T-sapphire), 시안 형광 단백질 (예컨대, ECFP, Cerulean, CyPet, AmCyan1, Midoriishi-Cyan), 적색 형광 단백질 (예컨대, mKate, mKate2, mPlum, DsRed 단량체, mCherry, mRFP1, DsRed-Express, DsRed2, DsRed-Monomer, HcRed-Tandem, HcRed1, AsRed2, eqFP611, mRasberry, mStrawberry, Jred), 오렌지색 형광 단백질 (예컨대, mOrange, mKO, Kusabira-Orange, Monomeric Kusabira-Orange, mTangerine, tdTomato), 및 이의 조합이 포함된다. 마커 도메인은 하나 이상의 형광 단백질 (예컨대, Suntag)의 일렬 반복을 포함 할 수 있다.
한 구체예에서, 마커 단백질은 다음에서 선택된다:
Figure pct00001
적합한 정제 또는 에피토프 태그의 비-제한적 예들에는 6xHis (서열 번호: 22), FLAG® (예를 들어, 서열 번호: 21), HA, GST, Myc, SAM, 등이 포함된다. CRISPR 복합체의 검출 또는 농축을 용이하게 하는 이종 융합의 비-제한적 예들은 스트렙타비딘 (Kipriyanov 외, 인간 Antibodies, 1995, 6(3):93-101.), 아비딘 (Airenne 외, Biomolecular Engineering, 1999, 16(1-4):87-92), 아비딘의 단량체 형태 (Laitinen 외, Journal of Biological Chemistry, 2003, 278(6):4010-4014), 재조합 생산 동안 비오티닐화를 용이하게 하는 펩티드 태그 (Cull 외, Methods in Enzymology, 2000, 326:430-440)를 포함한다.
핵 위치화 신호(들) 및 마커 단백질(들) 이외에도, 다양한 구체예들에서 조작된 Cas9 단백질은 또한 하나 이상의 이종 도메인, 예를 들어, 세포-침투 도메인, 마커 도메인, 염색질 파괴 도메인, 후성 변형 도메인 (예를 들어, 시티딘 탈아미노효소 도메인, 히스톤 아세틸트랜스퍼라제 도메인 등), 전사 조절 도메인, RNA 압타머 결합 도메인, 또는 비-Cas9 뉴클레아제 도메인을 포함할 수 있다.
일부 구체예에서, 하나 이상의 이종 도메인은 세포-침투 도메인 일 수 있다. 적합한 세포-침투 도메인들의 예들은, 제한없이, GRKKRRQRRRPPQPKKKRKV (서열 번호: 23), PLSSIFSRIGDPPKKKRKV (서열 번호: 24), GALFLGWLGAAGSTMGAPKKKRKV (서열 번호: 25), GALFLGFLGAAGSTMGAWSQPKKKRKV (서열 번호: 26), KETWWETWWTEWSQPKKKRKV (서열 번호: 27), YARAAARQARA (서열 번호: 28), THRLPRRRRRR (서열 번호: 29), GGRRARRRRRR (서열 번호: 30), RRQRRTSKLMKR (서열 번호: 31), GWTLNSAGYLLGKINLKALAALAKKIL (서열 번호: 32), KALAWEAKLAKALAKALAKHLAKALAKALKCEA (서열 번호: 33), 및 RQIKIWFQNRRMKWKK (서열 번호: 34)를 포함한다.
또한 다른 구체예들에서, 하나 이상의 이종 도메인은 염색질 조절 모티프 (CMM) 일 수 있다. CMM들의 비-제한적 예들은 고 이동성 그룹 (HMG) 단백질들 (예컨대, HMGB1, HMGB2, HMGB3, HMGN1, HMGN2, HMGN3a, HMGN3b, HMGN4, 및 HMGN5 단백질), 히스톤 H1 변이체들 (예컨대, 히스톤 H1.0, H1.1, H1.2, H1.3, H1.4, H1.5, H1.6, H1.7, H1.8, H1.9, 및 H.1.10)의 중심 구상 도메인, 또는 염색질 재형성 복합체의 DNA 결합 도메인 (예컨대, SWI/SNF (스위치/수크로스 비-발효성, SWItch/Sucrose Non-Fermentable), ISWI (모방 스위치, Imitation SWItch), CHD (크로모도메인-헬리카제-DNA 결합, Chromo도메인-헬리카제-DNA binding), Mi-2/NuRD (뉴클레오솜 재형성 및 탈아세틸화효소, Nucleosome Remodeling and 탈아세틸화효소), INO80, SWR1, 및 RSC 복합체에서 유래한 뉴클레오솜 상호작용 펩티드를 포함한다. 다른 구체예들에서, CMM들은 또한 토포아이소머라제, 헬리카제, 또는 바이러스 단백질에서 유래될 수 있다. CMM의 공급원은 변화할 수 있으며 변화할 것이다. CMM들은 인간, 동물 (즉, 척추동물 및 무척추동물), 식물, 조류, 또는 효모에서 유래할 수 있다. 특정 CMM의 비 제한적인 예가 아래 표에 나열되어 있다. 당업자는 다른 종들의 상동체 및/또는 그 내부의 관련 융합 모티프를 용이하게 확인할 수 있다.
Figure pct00002
또 다른 구체예에서, 하나 이상의 이종 도메인은 후성 변형 도메인 일 수 있다. 적합한 후성 변형 도메인의 비-제한적 예들은 DNA 탈아미노화 (예컨대, 시티딘 탈아미노효소, 아데노신 탈아미노효소, 구아닌 탈아미노효소), DNA 메틸전이효소 활성 (예컨대, 시토신 메틸전이효소), DNA 탈메틸효소 활성, DNA 아미노화, DNA 산화 활성, DNA 헬리카제 활성, 히스티딘 아세틸전이효소 (HAT) 활성 (예컨대, E1A 결합 단백질 p300에서 유래한 HAT 도메인), 히스티딘 탈아세틸화효소 활성, 히스티딘 메틸전이효소 활성, 히스티딘 탈메틸효소 활성, 히스티딘 키나제 활성, 히스티딘 포스파타제 활성, 히스티딘 유비퀴틴 리가제 활성, 히스티딘 틸유비퀴틴화 활성, 히스티딘 아데닐화 활성, 히스티딘 탈아데닐화 활성, 히스티딘 SUMO일화 활성, 히스티딘 탈SUMOy일화 활성, 히스티딘 리보실화 활성, 히스티딘 탈리보실화 (deribosylation) 활성, 히스티딘 미리스토일화 활성, 히스티딘 탈미리스토일화 활성, 히스티딘 시트룰린화 활성, 히스티딘 알킬화 활성, 히스티딘 탈알킬화 활성, 또는 히스티딘 산화 활성을 가지진 것을 포함한다. 특정 구체예들에서, 후성 변형 도메인은 시티딘 탈아미노효소 활성, 아데노신 탈아미노효소 활성, 히스톤 아세틸전이효소 활성, 또는 DNA 메틸전이효소 활성을 포함할 수 있다.
다른 구체예에서, 하나 이상의 이종 도메인은 전사 조절 도메인 (즉, 전사 활성화 도메인 또는 전사 억제 도메인) 일 수 있다. 적합한 전사 활성화 도메인은 제한없이 단순 헤르페스 바이러스 VP16 도메인, VP64 (즉, VP16의 4개의 탠덤 사본), VP160 (즉, VP16의 10개의 탠덤 사본), NFκp65 활성화 도메인 (p65), 엡스타인-바 바이러스 R 트랜스활성화인자 (Rta) 도메인, VPR (즉, VP64+p65+Rta), p300-의존성 전사 활성화 도메인, p53 활성화 도메인 1 및 2, 열 충격 인자 1 (HSF1) 활성화 도메인, Smad4 활성화 도메인 (SAD), cAMP 반응 요소 결합 단백질 (CREB) 활성화 도메인, E2A 활성화 도메인, 활성화된 T 세포의 핵 인자 (NFAT) 활성화 도메인, 또는 이들의 조합을 포함한다. 적합한 전사 억제자 도메인의 비 제한적인 예는 크루펠-관련 박스 (KRAB) 억제자 도메인, Mxi 억제자 도메인, 유도성 cAMP 조기 억제자 (ICER) 도메인, YY1 글리신 풍부 억제자 도메인, Sp1-유사 억제자, E(spl) 억제자를 포함하며, Iκ억제자, Sin3 억제자, 메틸-CpG 결합 단백질 2 (MeCP2) 억제자, 또는 이들의 조합을 포함한다. 전사 활성화 또는 전사 억제인자 도메인은 Cas9 단백질에 유전적으로 융합되거나 비공유 단백질-단백질, 단백질-RNA, 또는 단백질-DNA 상호작용에 의해 결합될 수 있다.
추가 구체예에서, 하나 이상의 이종 도메인은 RNA 압타머 결합 도메인 일 수 있다 (Konermann , Nature, 2015, 517(7536):583-588; Zalatan , Cell, 2015, 160(1-2):339-50). 적합한 RNA 압타머 단백질 도메인의 예들에는 MS2 외피 단백질 (MCP), PP7 박테리오파지 외피 단백질 (PCP), Mu 박테리오파지 Com 단백질, 람다 박테리오파지 N22 단백질, 스템-루프 결합 단백질 (SLBP), 취약 X 정신 지체 증후군-관련 단백질 1 (FXR1), 박테리오파지로부터 유래한 단백질, 가령, AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP-β, TW18, TW19 및 VK, 이의 단편, 또는 이의 유도체가 포함된다.
또 다른 구체예에서, 하나 이상의 이종 도메인은 비-Cas9 뉴클레아제 도메인 일 수 있다. 적합한 뉴클레아제 도메인은 임의의 엔도뉴클레아제 또는 엑소뉴클레아제로부터 얻을 수 있다. 뉴클레아제 도메인이 유도될 수 있는 엔도뉴클레아제의 비-제한적 예들은, 제한 엔도뉴클레아제 및 호밍 엔도뉴클레아제를 포함하나 이에 제한되는 것은 아니다. 일부 구체예들에서, 뉴클레아제 도메인은 유형 II-S 제한 엔도뉴클레아제로부터 유래될 수 있다. 유형 II-S 엔도뉴클레아제는 인식/결합 부위로부터 전형적으로 여러 개 염기쌍 떨어져있는 부위들의 DNA를 절단하고, 그리하여 분리가능한 결합 및 절단 도메인을 가진다. 이들 효소들은 일반적으로 엇갈린 위치들에서 DNA 각 가닥을 절단하기 위해 일시적으로 결합하여 이량체를 형성하는 단량체이다. 적합한 유형 II-S 엔도뉴클레아제의 비-제한적 예들에는 BfiI, BpmI, BsaI, BsgI, BsmBI, BsmI, BspMI, FokI, MboII, 및 SapI가 포함된다. 일부 구체예들에서, 뉴클레아제 도메인은 FokI 뉴클레아제 도메인 또는 이의 유도체일 수 있다. 유형 II-S 뉴클레아제 도메인은 2개의 상이한 뉴클레아제 도메인의 이량체화를 용이하게 하도록 변형될 수 있다. 예를 들면, FokI의 절단 도메인은 특정 아미노산 잔기들을 돌연변이시킴으로써 변형될 수 있다. 비-제한적 예로서, FokI 뉴클레아제 도메인의 위치 446, 447, 479, 483, 484, 486, 487, 490, 491, 496, 498, 499, 500, 531, 534, 537, 및 538의 아미노산 잔기들은 변형을 위한 표적이다. 특정 구체예들에서, FokI 뉴클레아제 도메인은 Q486E, I499L, 및/또는 N496D 돌연변이들을 포함하는 제 1 FokI 절반-도메인, 및 E490K, I538K, 및/또는 H537R 돌연변이들을 포함하는 제 2 FokI 절반-도메인을 포함할 수 있다.
하나 이상의 이종 도메인은 하나 이상의 화학적 결합 (예를 들어, 공유 결합)을 통해 Cas9 단백질에 직접 연결될 수 있거나, 하나 이상의 이종 도메인이 하나 이상의 링커를 통해 Cas9 단백질에 간접적으로 연결될 수 있다.
링커는 최소한 하나의 공유 결합에 의해 하나 이상의 다른 화학적 작용기를 연결시키는 화학적 작용기이다. 적합한 링커들에는 아미노산, 펩티드, 뉴클레오티드, 핵산, 유기 링커 분자들 (예컨대, 말레이미드 유도체, N-에톡시벤질이미다졸, 바이페닐-3,4′트라이카르복시산, p-아미노벤질옥시카르보닐, 등), 다이설파이드 링커, 및 폴리머 링커 (예컨대, PEG)가 포함된다. 링커는 알킬렌, 알켄일렌, 알킨일렌, 알킬, 알켄일, 알킨일, 알콕시, 아릴, 헤테로아릴, 아랄킬, 아랄켄일, 아랄킨일 등을 비롯한 (그러나 이에 제한되는 것은 아님) 하나 이상의 스페이싱 작용기들을 포함할 수 있다. 링커는 중성일 수 있거나, 양 또는 음 전하를 지닐 수 있다. 추가적으로, 링커는 절단가능할 수 있어서, 링커를 또 다른 화학적 작용기에 연결시키는 링커의 공유 결합이, pH, 온도, 염 농도, 빛, 촉매 또는 효소를 포함한 특정 조건하에서 파열되거나 절단될 수 있다. 일부 구체예들에서, 링커는 펩티드 링커일 수 있다. 펩티드 링커는 가요성 아미노산 링커 (예컨대, 소형, 비-극성 또는 극성 아미노산을 포함) 일 수 있다.
특정 구체예에서, 링커는 다음에서 선택된다:
Figure pct00003
가요성 링커의 다른 비-제한적 예들은 LEGGGS (서열 번호: 37), TGSG (서열 번호: 38), GGSGGGSG (서열 번호: 39), (GGGGS)1-4 (서열 번호: 40), 및 (Gly)6-8 (서열 번호: 41)을 포함한다. 대안적으로, 펩티드 링커는 단단한 아미노산 링커일 수 있다. 이러한 링커들은 (EAAAK)1-4 (서열 번호: 42), A(EAAAK)2-5A (서열 번호: 43), PAPAP (서열 번호: 44), 및 (AP)6-8 (서열 번호: 45)을 포함한다. 적합한 링커들의 또 다른 예는 해당 분야에 잘 공지되어 있으며 링커들을 설계하는 프로그램들은 용이하게 이용가능하다 (Crasto ., Protein Eng., 2000, 13(5):309-312).
일부 구체예에서, 조작된 Cas9 단백질은 무세포 시스템, 박테리아 세포 또는 진핵 세포에서 재조합적으로 생산 될 수 있고 표준 정제 수단을 사용하여 정제될 수 있다. 다른 구체예들에서, 조작된 Cas9 단백질은 조작된 Cas9 단백질을 인코딩하는 핵산으로부터 관심 진핵 세포의 생체내에서 생산된다 (아래 섹션 (II) 참고).
조작된 Cas9 단백질이 뉴클레아제 또는 니카아제 활성을 포함하는 구체예에서, 조작된 Cas9 단백질은 적어도 하나의 세포-침투 도메인, 뿐만 아니라 적어도 하나의 염색질 파괴 도메인을 추가로 포함 할 수 있다. 조작된 Cas9 단백질이 후성 변형 도메인에 연결되는 구체예에서, 조작된 Cas9 단백질은 적어도 하나의 세포-침투 도메인, 뿐만 아니라 적어도 하나의 염색질 파괴 도메인을 추가로 포함 할 수 있다. 또한, 조작된 Cas9 단백질이 전사 조절 도메인에 연결되는 구체예에서, 조작된 Cas9 단백질은 적어도 하나의 세포-침투 도메인, 뿐만 아니라 적어도 하나의 염색질 파괴 도메인 및/또는 적어도 하나의 RNA 압타머 결합 도메인을 추가로 포함 할 수 있다.
다양한 융합 단백질 성분은 N-말단에서 C-말단까지 임의의 순서로 조합될 수 있다. 예를 들어, A가 마커 단백질을 나타내고, B가 핵 위치화 신호를 나타내고, C가 Cas9 단백질을 나타내는 경우, 융합 단백질은 다음 방식으로 N-말단에서 C-말단으로 배열될 수 있다: A-B-C; A-C-B; B-A-C; B-C-A; C-A-B; 또는 C-B-A, 이때 링커 (“-L-”)는 임의의 2개 항목들 사이에 배치될 수 있다 (예를 들어, A-L-B-C; A-B-L-C; A-L-B-L-C; 등).
(b) 조작된 가이드 RNA
조작된 가이드 RNA는 특정 조작된 Cas9 단백질과 복합체를 형성하도록 설계된다. 가이드 RNA는 (i) 표적 서열과 혼성화하는, 5' 단부에 가이드 서열을 내포하는 CRISPR RNA (crRNA) 및 (ii) Cas9 단백질을 동원하는 트랜스작용 crRNA (tracrRNA) 서열을 포함한다. 각 가이드 RNA의 crRNA 가이드 서열은 상이하다 (, 서열 특이적이다). tracrRNA 서열은 일반적으로 특정 박테리아 종들의 Cas9 단백질과 복합체를 형성하도록 설계된 가이드 RNA에서 동일하다.
crRNA 가이드 서열은 이중 가닥 서열에서 표적 서열 (즉, 프로토스페이서)과 혼성화하도록 설계된다. 일반적으로, crRNA와 표적 서열 간의 상보성은 최소한 80%, 최소한 85%, 최소한 90%, 최소한 95%, 또는 최소한 99%이다. 특정 구체예들에서, 상보성은 완전하다 (, 100%). 다양한 구체예들에서, crRNA 가이드 서열의 길이는 약 15개 뉴클레오티드 내지 약 25개 뉴클레오티드 범위일 수 있다. 예를 들면, crRNA 가이드 서열은 약 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 또는 25개 뉴클레오티드 길이일 수 있다. 특정 구체예들에서, crRNA는 약 19, 20, 또는 21개 뉴클레오티드 길이이다. 한 구체예에서, crRNA 가이드 서열은 20개 뉴클레오티드의 길이를 가진다.
가이드 RNA는 Cas9 단백질과 상호작용하는 하나 이상의 스템 루프 구조를 형성하는 반복 서열 및 단일 가닥으로 남아있는 3' 서열을 포함한다. 각 루프와 스템의 길이는 다를 수 있습니다. 예를 들면, 루프는 약 3 내지 약 10개 뉴클레오티드 길이 범위일 수 있으며, 스템은 약 6개 내지 약 20개 염기쌍 길이 범위일 수 있다. 스템은 하나 이상의 1 내지 약 10개 뉴클레오티드 팽창부를 포함할 수 있다. 단일 가닥 3' 영역의 길이는 다를 수 있다. 조작된 가이드 RNA에서 tracrRNA 서열은 일반적으로 관심 박테리아 종들에서의 야생형 tracrRNA의 코딩 서열에 기초한다. 야생형 서열은 2차 구조 형성을 촉진, 2차 구조 안정성을 증가, 진핵 세포에서 발현을 촉진하도록 변형 될 수 있다. 예를 들면, 하나 이상의 뉴클레오티드 변화가 가이드 RNA 코딩 서열에 도입될 수 있다 (아래 실시예 3 참고). tracrRNA 서열은 약 50개 뉴클레오티드 내지 약 300개 뉴클레오티드 길이 범위일 수 있다. 다양한 구체예들에서, tracrRNA는 약 50 내지 약 90개 뉴클레오티드, 약 90 내지 약 110개 뉴클레오티드, 약 110 내지 약 130개 뉴클레오티드, 약 130 내지 약 150개 뉴클레오티드, 약 150 내지 약 170개 뉴클레오티드, 약 170 내지 약 200개 뉴클레오티드, 약 200 내지 약 250개 뉴클레오티드, 또는 약 250 내지 약 300개 뉴클레오티드 길이 범위일 수 있다.
일반적으로, 조작된 가이드 RNA는 단일 분자 (, 단일 가이드 RNA 또는 sgRNA)이며, 이 때 crRNA 서열은 tracrRNA 서열에 연결된다. 그러나 일부 구체예들에서, 조작된 가이드 RNA는 2개의 별도 분자들 일 수 있다. 제 1 분자는 제 2 분자의 5' 단부와 염기쌍을 이룰 수 있는 3' 서열 (약 6 내지 약 20개 뉴클레오티드를 포함)을 함유하는 crRNA를 포함하고, 이 때 제 2 분자는 제 1 분자의 3' 단부와 염기쌍을 이룰 수 있는 5' 서열 (약 6 내지 약 20개 뉴클레오티드를 포함)을 함유하는 tracrRNA를 포함한다.
일부 구체예들에서, 조작된 가이드 RNA의 tracrRNA 서열은 하나 이상의 압타머 서열들을 포함하도록 변형될 수 있다 (Konermann 외., Nature, 2015, 517(7536):583-588; Zalatan 외., Cell, 2015, 160(1-2):339-50). 적합한 압타머 서열들은 MCP, PCP, Com, SLBP, FXR1, AP205, BZ13, f1, f2, fd, fr, ID2, JP34/GA, JP501, JP34, JP500, KU1, M11, M12, MX1, NL95, PP7, φCb5, φCb8r, φCb12r, φCb23r, Qβ, R17, SP-β, TW18, TW19, VK, 이의 단편, 또는 이의 유도체에서 선택된 압타머 단백질들에 결합하는 서열들을 포함한다. 당업자는 압타머 길이가 달라질 수 있음을 이해한다.
다른 구체예들에서, 가이드 RNA는 최소한 하나의 탐지가능한 표지를 추가로 포함할 수 있다. 탐지가능한 표지는 형광단 (예컨대, FAM, TMR, Cy3, Cy5, 텍사스 레드, 오레곤 그린, 알렉사 플루오르, 할로 태그, 또는 적합한 형광 염료), 탐지 태그 (예컨대, 비오틴, 디곡시제닌, 등), 양자 점, 또는 금 입자들 일 수 있다.
가이드 RNA는 표준 리보뉴클레오티드 및/또는 변형된 리보뉴클레오티드를 포함 할 수 있다. 일부 구체예에서, 가이드 RNA는 표준 또는 변형된 데옥시리보뉴클레오티드를 포함할 수 있다. 가이드 RNA가 효소적으로 합성되는 (즉, 생체내 또는 시험관내) 구체예에서, 가이드 RNA는 일반적으로 표준 리보뉴클레오티드를 포함한다. 가이드 RNA가 화학적으로 합성되는 구체예들에서, 가이드 RNA는 표준 또는 변형된 리보뉴클레오티드 및/또는 데옥시리보뉴클레오티드를 포함할 수 있다. 변형된 리보뉴클레오티드 및/또는 데옥시리보뉴클레오티드는 염기 변형 (예컨대, 슈도우리딘, 2-티오우리딘, N6-메틸아데노신 등) 및/또는 당 변형 (예컨대, 2'-O-메틸, 2'-플루오로, 2'-아미노, 잠금 핵산 (LNA) 등)을 포함한다. 가이드 RNA의 골격은 또한 포스포로티오에이트 링키지, 보라노포스페이트 링키지 또는 펩티드 핵산을 포함하도록 변형 될 수 있다.
(c) PAM 서열
일부 구체예에서, 표적 서열은 CRISPR/Cas9 복합체에 의해 인식되는 짧은 서열인 프로토스페이서 인접 모티프(PAM)에 인접할 수 있다. 일부 구체예에서, PAM은 표적 서열의 3' 말단의 1, 2, 3 또는 4개의 뉴클레오티드에 인접하거나 그 내부에 존재할 수 있다. PAM의 길이와 서열은 사용된 Cas9 단백질에 따라 달라질 수 있다. 예를 들어, PAM은 Ran 등, Nature, 520: 186-191(2015) 본원에 참고로 포함됨)의 도 1에 도시된 것들을 포함하는 특정 Cas9 단백질 또는 Cas9 오르토로그에 대한 공통 또는 특정 PAM 서열로부터 선택될 수 있다. 일부 구체예들에서, PAM은 2, 3, 4, 5, 6, 7, 8, 9, 또는 10개 뉴클레오티드 길이를 포함할 수 있다. 비-제한적인 예시적 PAM 서열들은 NGG, NGGNG, NG, NAAAAN, NNAAAAW, NNNNACA, GNNNCNNA, 및 NNNNGATT를 포함한다 (이때 N은 임의의 뉴클레오티드로 정의되고, W는 A 또는 T로 정의됨). 일부 구체예들에서, PAM 서열은 NGG 일 수 있다. 일부 구체예들에서, PAM 서열은 NGGNG 일 수 있다. 일부 구체예들에서, PAM 서열은 NNAAAAW 일 수 있다. 
상이한 CRISPR 단백질이 상이한 PAM 서열을 인식한다는 것이 이해될 것이다. 예를 들어, Cas9 단백질들에 대한 PAM 서열들은 5'-NGG, 5'-NGGNG, 5'-NNAGAAW, 5'-NNNNGATT, 5-NNNNRYAC, 5'-NNNNCAAA, 5'-NGAAA, 5'-NNAAT, 5'-NNNRTA, 5'-NNGG, 5'-NNNRTA, 5'-MMACCA, 5'-NNNNGRY, 5'-NRGNK, 5'-GGGRG, 5'-NNAMMMC, 및 5'-NNG를 포함하고, 및 Cas12a 단백질들에 대한 PAM 서열들은 5'-TTN 및 5'-TTTV를 포함하고, 이때 N은 임의의 뉴클레오티드로 정의되고, R은 G 또는 A로 정의되고, W는 A 또는 T로 정의되고, Y는 C 또는 T로 정의되고, 그리고 V는 A, C, 또는 G로 정의된다. 일반적으로, Cas9 PAM들은 표적 서열의 3'에 위치하고, 그리고 Cas12a PAM들은 표적 서열의 5'에 위치한다. 다양한 PAM 서열 및 이를 인식하는 CRISPR 단백질은 당업계,예를 들어, 미국 특허출원 공개공보 2019/0249200; Leenay, Ryan T., 등 "Identifying and visualizing functional PAM diversity across CRISPR-Cas systems." Molecular cell 62.1 (2016): 137-147; and Kleinstiver, Benjamin P., 등 "Engineered CRISPR-Cas9 nucleases with altered PAM specificities." Nature 523.7561 (2015): 481에 공지되어 있으며, 이들 각각은 본원에 그 전문이 참고로 포함된다.
추가적으로 또는 대안적으로, 본 명세서에 개시된 조작된 Cas9 시스템 각각에 대한 PAM이 하기에 제시되어 있다.
Figure pct00004
예를 들어, 미국 특허출원 공개공보 제 2019/0249200 (본원에 그 전문이 참고로 포함됨)을 참조하라.
(II) 핵산
본 발명의 또 다른 양상은 섹션 (I)에 상기 기재된 조작된 Cas9 시스템을 인코딩하는 핵산을 제공한다. 상기 시스템은 단일 핵산 또는 복수의 핵산들에 의해 인코딩 될 수 있다. 핵산은 DNA 또는 RNA, 선형 또는 원형, 단일-가닥 또는 이중-가닥 일 수 있다. RNA 또는 DNA는 관심 진핵 세포에서 단백질로의 효율적인 번역을 위해 코돈 최적화될 수 있다. 코돈 최적화 프로그램은 프리웨어로서 또는 상업적 공급업체들로부터 이용가능하다.
일부 구체예들에서, 핵산은 서열 번호: 48, 49, 또는 50의 아미노산 서열에 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95% 또는 적어도 약 99% 서열 동일성을 가지는 단백질을 인코딩한다. 특정 구체예들에서, 조작된 Cas9 단백질을 인코딩하는 핵산은 서열 번호: 48, 49, 또는 50의 DNA 서열에 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95% 또는 적어도 약 99% 서열 동일성을 가질 수 있다. 특정 구체예에서, 조작된 Cas9 단백질을 인코딩하는 DNA는 서열 번호: 48, 49, 또는 50의 DNA 서열을 가진다. 추가 구체예들에서, 핵산은 서열 번호: 48, 49, 또는 50의 아미노산 서열에 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95% 또는 적어도 약 99% 서열 동일성을 가지는 단백질을 인코딩한다.
일부 구체예에서, 조작된 Cas9 단백질을 인코딩하는 핵산은 RNA일 수 있다. RNA는 시험관내에서 효소적으로 합성될 수 있다. 이를 위하여, 조작된 Cas9 단백질을 인코딩하는 DNA는 시험관내 RNA 합성을 위해 파지 RNA 중합효소에 의해 인식되는 프로모터 서열에 작동적으로 연결될 수 있다. 예를 들면, 프로모터 서열은 T7, T3, 또는 SP6 프로모터 서열 또는 T7, T3, 또는 SP6 프로모터 서열의 변이 일 수 있다. 조작된 단백질을 인코딩하는 DNA는 아래 상세히 설명된 벡터의 일부 일 수 있다. 이러한 구체예들에서, 시험관내-전사된 RNA는 정제, 캡핑, 및/또는 폴리아데닐화 될 수 있다. 다른 구체예들에서, 조작된 Cas9 단백질을 인코딩하는 RNA는 자가-복제 RNA의 일부 일 수 있다 (Yoshioka ., Cell Stem Cell, 2013, 13:246-254). 자가-복제 RNA는 비감염성, 자가-복제 Venezuelan 말 뇌염 (VEE) 바이러스 RNA 레플리콘으로부터 유래될 수 있는데, 이는 제한된 세포 분열수를 위하여 자가-복제할 수 있는 양성-센스, 단일-가닥 RNA로서, 관심 단백질들을 코드화하기 위해 변형될 수 있다 (Yoshioka ., Cell Stem Cell, 2013, 13:246-254).
다른 구체예에서, 조작된 Cas9 단백질을 인코딩하는 핵산은 DNA 일 수 있다. DNA 코딩 서열은 관심 세포에서 발현하기 위해 최소한 하나의 프로모터 제어 서열에 작동적으로 연결될 수 있다. 특정 구체예들에서, DNA 코딩 서열은 박테리아 (예컨대, 대장균) 세포 또는 진핵생물 (예컨대, 효모, 곤충, 또는 포유동물) 세포에서 조작된 Cas9 단백질의 발현을 위해 프로모터 서열에 작동적으로 연결될 수 있다. 적합한 박테리아 프로모터에는, 제한 없이, T7 프로모터, lac 오페론 프로모터, trp 프로모터, tac 프로모터 (이들은 trplac 프로모터의 하이브리드임), 전술한 것들 중 어느 하나의 변이형, 및 전술한 것들의 임의의 조합이 포함된다. 적합한 진핵생물 프로모터의 비-제한적 예들에는 항시성의, 조절된 또는 세포- 또는 조직-특이적 프로모터가 포함된다. 적합한 진핵생물 항시적 프로모터 제어 서열에는, 거대세포바이러스 즉시 초기 프로모터 (CMV), 원숭이 바이러스 (SV40) 프로모터, 아데노바이러스 주요 후기 프로모터, 라우스 육종 바이러스 (RSV) 프로모터, 마우스 젖 종양 바이러스 (MMTV) 프로모터, 포스포글리세레이트 키나제 (PGK) 프로모터, 연장 인자 (ED1)-알파 프로모터, 유비퀴틴 프로모터, 액틴 프로모터, 튜불린 프로모터, 면역글로불린 프로모터, 이의 단편, 또는 전술한 것들의 임의의 조합이 포함되나, 이에 제한되는 것은 아니다. 적합한 진핵생물 조절된 프로모터 제어 서열의 예들에는 제한 없이 열 충격, 금속, 스테로이드, 항생제, 또는 알콜에 의해 조절되는 것들이 포함된다. 조직-특이적 프로모터의 비-제한적 예들에는 B29 프로모터, CD14 프로모터, CD43 프로모터, CD45 프로모터, CD68 프로모터, 데스민 프로모터, 엘라스타제-1 프로모터, 엔도글린 프로모터, 피브로넥틴 프로모터, Flt-1 프로모터, GFAP 프로모터, GPIIb 프로모터, ICAM-2 프로모터, INF-β 프로모터, Mb 프로모터, NphsI 프로모터, OG-2 프로모터, SP-B 프로모터, SYN1 프로모터, 및 WASP 프로모터가 포함된다. 프로모터 서열은 야생형 일 수 있거나 보다 효율적인 또는 효과적인 발현을 위해 변형될 수 있다. 일부 구체예들에서, DNA 코딩 서열은 또한 폴리아데닐화 신호 (예컨대, SV40 폴리A 신호, 소 성장 호르몬 (BGH) 폴리A 신호, ) 및/또는 최소한 하나의 전사 종결 서열에 연결될 수 있다. 어떤 상황에서는 조작된 Cas9 단백질이 박테리아 또는 진핵 세포에서 정제 될 수 있다.
또 다른 구체예에서, 조작된 가이드 RNA는 DNA에 의해 인코딩 될 수 있다. 일부 예들에서, 조작된 가이드 RNA를 인코딩하는 DNA는 시험관내 RNA 합성을 위해 파지 RNA 중합효소에 의해 인식되는 프로모터 서열에 작동적으로 연결될 수 있다. 예를 들면, 프로모터 서열은 T7, T3, 또는 SP6 프로모터 서열 또는 T7, T3, 또는 SP6 프로모터 서열의 변이 일 수 있다. 다른 예에서, 조작된 가이드 RNA를 인코딩하는 DNA는 관심 진핵 세포에서의 발현을 위해 RNA 중합효소 III (Pol III)에 의해 인식되는 프로모터 서열에 작동가능하게 연결될 수 있다. 적합한 Pol III 프로모터의 예들에는, 포유동물 U6, U3, H1, 및 7SL RNA 프로모터가 포함되나, 이에 제한되는 것은 아니다.
다양한 구체예에서, 조작된 Cas9 단백질을 인코딩하는 핵산은 벡터에 존재할 수 있다. 일부 구체예에서, 벡터는 조작된 가이드 RNA를 인코딩하는 핵산을 추가로 포함 할 수 있다. 적합한 벡터들에는 플라스미드 벡터, 바이러스 벡터, 및 자가-복제 RNA가 포함된다 (Yoshioka ., Cell Stem Cell, 2013, 13:246-254). 일부 구체예들에서, 복합체 또는 융합 단백질을 인코딩하는 핵산은 플라스미드 벡터에 존재할 수 있다. 적합한 플라스미드 벡터의 비-제한적 예들에는 pUC, pBR322, pET, pBluescript, 및 이의 변이체들이 포함된다. 다른 구체예들에서, 복합체 또는 융합 단백질을 인코딩하는 핵산은 바이러스 벡터의 일부 일 수 있다 (예컨대, 렌티바이러스 벡터, 아데노-연관 바이러스 벡터, 아데노바이러스 벡터, 등). 플라스미드 또는 바이러스 벡터는 또 다른 발현 제어 서열 (예컨대, 인핸서 서열, 코작 서열, 폴리아데닐화 서열, 전사 종결 서열, .), 선별 마커 서열 (예컨대, 항생제 내성 유전자), 복제 원점, 등을 포함할 수 있다. 벡터 및 이의 용도에 관한 추가 정보는 “Current Protocols in Molecular Biology” Ausubel 외., John Wiley & Sons, New York, 2003 or “Molecular Cloning: A Laboratory Manual” Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3rd edition, 2001에서 찾을 수 있다.
(III) 진핵 세포
본 발명의 또 다른 양상은 상기 섹션 (I)에 설명된 적어도 하나의 조작된 Cas9 시스템 및/또는 상기 섹션 (II)에 설명된 조작된 Cas9 단백질 및/또는 조작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산을 포함하는 진핵 세포를 포함한다.
진핵 세포는 인간 세포, 비-인간 포유동물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 식물 세포, 또는 단세포 진핵 유기체일 수 있다. 적합한 진핵 세포들의 예들은 상기 섹션 (IV)(c)에 설명된다. 진핵 세포는 시험관내, 세포외, 또는 세포내 일 수 있다.
예로서, 일부 구체예들에서, 진핵 세포 또는 진핵 세포 집단은 T 세포, CD8+ T 세포, CD8+ 나이브 T 세포, 중추 기억 T 세포, 효과기 기억 T 세포, CD4+ T 세포, 줄기 세포 기억 T 세포, 보조 T 세포, 조절 T 세포, 세포독성 T 세포, 자연 살해 T 세포, 조혈 줄기 세포, 장기 조혈 줄기 세포, 단기 조혈 줄기 세포, 다분화능 전구 세포, 계통 제한 전구 세포, 림프 전구 세포, 췌장 전구 세포, 내분비 전구 세포, 외분비 전구 세포, 골수 전구 세포, 일반 골수 전구 세포, 적혈구 전구 세포, 거핵 세포 적혈구 전구 세포, 단핵구 전구 세포, 내분비 전구 세포, 외분비 세포, 섬유아세포, 간모세포, 근모세포, 대식세포, 섬 베타 세포, 심근세포, 혈액 세포, 관 세포, 포상 세포, 알파 세포, 베타 세포, 델타 세포, PP 세포, 담관 세포, 망막 세포, 광수용기 세포, 간상 세포, 원추 세포, 망막 색소 상피 세포, 섬유주 세포, 와우 세포, 외유모 세포, 내유모 세포, 폐 상피 세포, 기관지 상피 세포, 폐포 상피 세포, 폐 상피 전구 세포, 횡문근 세포, 심장 근육 세포, 근육 위성 세포, 근세포, 뉴런, 뉴런 줄기 세포, 중간엽 줄기 세포, 유도 만능 줄기 세포(iPS) 세포 , 배아줄기세포, 단핵구, 거핵구, 호중구, 호산구, 호염기구, 비만세포, 망상적혈구, B 세포, 예를 들어, 전구 B 세포, 예를 들어, Pre B 세포, Pro B 세포, 기억 B 세포, 혈장 B 세포, 위장 상피 세포, 담도 상피 세포, 췌관 상피 세포, 장 줄기 세포, 간세포, 간 성상 세포, 쿠퍼 세포, 조골 세포, 파골 세포, 지방세포(예를 들어, 갈색 지방세포 또는 백색 지방세포), 전지방세포, 췌장 반응성 전구체 세포, 췌장 섬 세포, 췌장 베타 세포, 췌장 알파 세포, 췌장 델타 세포, 췌장 외분비 세포, 슈반 세포 또는 희돌기아교세포, 또는 이러한 세포의 집단이다. 
(IV) 염색체 서열 변형 방법
본 발명의 추가 양상은 진핵 세포에서 염색체 서열을 변형하는 방법을 포함한다. 일반적으로, 이 방법은 섹션 (I)에서 상술한 적어도 하나의 조작된 Cas9 시스템 및/또는 섹션 (II)에서 상술한 상기 조작된 Cas9 시스템을 인코딩하는 적어도 하나의 핵산을 관심 진핵 세포에 도입하는 것을 포함한다.
조작된 Cas9 단백질이 뉴클레아제 또는 니카아제 활성을 포함하는 구체예에서, 염색체 서열 변형은 적어도 하나의 뉴클레오티드의 치환, 적어도 하나의 뉴클레오티드의 결실, 적어도 하나의 뉴클레오티드의 삽입을 포함 할 수 있다. 일부 구체예들에서, 상기 방법은 뉴클레아제 활성을 포함하는 하나의 조작된 Cas9 시스템 또는 니카아제 활성을 포함하고 공여체 폴리뉴클레오티드가 없는 2개의 조작된 Cas9 시스템을 진핵 세포에 도입하는 것을 포함하고, 이로써 조작된 Cas9 시스템 또는 시스템들은 염색체 서열의 표적 부위에 이중-가닥 절단을 도입하고 세포 DNA 복구 과정에 의한 이중-가닥 절단의 복구는 적어도 하나의 뉴클레오티드 변화 (즉, 삽입결실)를 도입함으로써, 염색체 서열을 비활성화 (즉, 유전자 녹아웃) 시킨다. 다른 구체예들에서, 상기 방법은 뉴클레아제 활성을 포함하는 하나의 조작된 Cas9 시스템 또는 니카아제 활성, 그리고 공여체 폴리뉴클레오티드를 포함하는 2개의 조작된 Cas9 시스템을 진핵 세포에 도입하는 것을 포함하고, 이로써 조작된 Cas9 시스템 또는 시스템들은 염색체 서열의 표적 부위에 이중-가닥 절단을 도입하고 세포 DNA 복구 과정에 의한 이중-가닥 절단의 복구는 공여체 폴리뉴클레오티드 서열을 염색체 서열의 표적 부위 내부에 삽입 또는 교환하는 결과를 가져온다.
조작된 Cas9 단백질이 후성 변형 활성 또는 전사 조절 활성을 포함하는 구체예들에서, 염색체 서열 변형은 염색체 서열의 표적 부위에서 또는 근방에서 적어도 하나의 뉴클레오티드의 전환, 표적 부위에서 또는 근방에서 적어도 하나의 뉴클레오티드의 변형, 표적 부위에서 또는 근방에서 적어도 하나의 히스티딘의 변형, 및/또는 표적 부위에서 또는 근방에서 전사의 변화를 포함할 수 있다.
(a) 세포로의 도입
상기 언급한 바와 같이, 상기 방법은 적어도 하나의 조작된 Cas9 시스템 및/또는 상기 시스템을 인코딩하는 핵산 (및 선택적인 공여체 폴리뉴클레오티드)을 진핵 세포에 도입하는 것을 포함한다. 적어도 하나의 시스템 및/또는 핵산/공여체 폴리뉴클레오티드는 다양한 수단에 의해 관심 세포 내부에 도입될 수 있다.
일부 구체예들에서, 상기 세포는 적절한 분자들 (, 단백질, DNA, 및/또는 RNA)로 형질감염 될 수 있다. 적합한 형질감염 방법들에는 뉴클레오펙션 (또는 전기천공), 칼슘 포스페이트-매개된 형질감염, 양이온 폴리머 형질감염 (예컨대, DEAE-덱스트란 또는 폴리에틸렌이민), 바이러스 형질도입, 비로좀 형질감염, 비리온 형질감염, 리포좀 형질감염, 양이온 리포좀 형질감염, 면역리포좀 형질감염, 비리포좀 지질 형질감염, 덴드리머 형질감염, 열 충격 형질감염, 자기주입법, 리포펙션, 유전자 총 전달, 임팔레펙션, 초음파천공법, 광학 형질감염, 및 특정상표 제제 (proprietary agent)-개선된 핵산의 흡수가 포함된다. 형질감염 방법들은 해당 분야에 잘 공지되어 있다 (예컨대, “Current Protocols in Molecular Biology” Ausubel 외., John Wiley & Sons, New York, 2003 or “Molecular Cloning: A Laboratory Manual” Sambrook & Russell, Cold Spring Harbor Press, Cold Spring Harbor, NY, 3rd edition, 2001 참고). 다른 구체예들에서, 상기 분자들은 미세주입에 의하여 세포 내부에 도입될 수 있다. 예를 들면, 상기 분자들은 관심 세포들의 세포질 또는 핵 내부에 주사될 수 있다. 세포 내부에 도입되는 각 분자의 양은 변화할 수 있으나, 해당 분야의 당업자는 적절한 양을 결정하는 수단을 잘 알고 있다.
다양한 분자들은 동시에 또는 순차적으로 세포 내부에 도입될 수 있다. 예를 들어, 조작된 Cas9 시스템 (또는 이의 인코딩 핵산)과 공여체 폴리뉴클레오티드는 동시에 도입 될 수 있다. 대안적으로, 하나를 먼저 도입한 다음 다른 하나를 차후에 세포 내에 도입할 수 있다.
일반적으로, 세포는 세포 성장 및/또는 유지에 적절한 조건하에서 유지된다. 적합한 세포 배양 조건들은 해당 분야에 널리 공지이며, 예를 들면, Santiago ., Proc. Natl. Acad. Sci. USA, 2008, 105:5809-5814; Moehle . Proc. Natl. Acad. Sci. USA, 2007, 104:3055-3060; Urnov ., Nature, 2005, 435:646-651; 및 Lombardo ., Nat. Biotechnol., 2007, 25:1298-1306에 기재되어 있다. 해당 분야의 당업자들은 세포의 배양 방법들이 해당 분야에 공지이며 세포 유형에 따라 달라질 것임을 이해하고 있을 것이다. 모든 사례에서, 특정 세포 유형에 대한 가장 우수한 기술들을 결정하기 위해 관례적인 최적화가 사용될 수 있다.
(b) 선택적 공여체 폴리뉴클레오티드
조작된 Cas9 단백질이 뉴클레아제 또는 니카아제 활성을 포함하는 구체예들에서, 상기 방법은 최소한 하나의 공여체 폴리뉴클레오티드를 세포에 도입하는 단계를 추가로 포함할 수 있다. 공여체 폴리뉴클레오티드는 단일-가닥 또는 이중-가닥, 선형 또는 원형, 및/또는 RNA 또는 DNA 일 수 있다. 일부 구체예들에서, 공여체 폴리뉴클레오티드는 벡터, 예컨대, 플라스미드 벡터일 수 있다.
공여체 폴리뉴클레오티드는 최소한 하나의 공여체 서열을 포함한다. 일부 양상들에서, 공여체 폴리뉴클레오티드의 공여체 서열은 내인성 또는 고유 염색체 서열의 변형된 형태일 수 있다. 예를 들면, 공여체 서열은 조작된 Cas9 시스템에 의해 표적되는 서열의 또는 서열 근방의 염색체 서열의 일부분과 실질적으로 동일할 수 있지만, 이는 최소한 하나의 뉴클레오티드 변화를 포함한다. 그러므로, 고유 서열과 통합 또는 교환시, 표적된 염색체 위치의 서열은 최소한 하나의 뉴클레오티드 변화를 포함한다. 예를 들면, 이러한 변화는 하나 이상의 뉴클레오티드 삽입, 하나 이상의 뉴클레오티드 결실, 하나 이상의 뉴클레오티드 치환, 또는 이의 조합일 수 있다. 변형된 서열의 “유전자 교정” 통합의 결과로서, 세포는 표적된 염색체 서열로부터 변형된 유전자 생성물을 생성할 수 있다.
다른 양상들에서, 공여체 폴리뉴클레오티드의 공여체 서열은 외인성 서열일 수 있다. 본 명세서에서 사용되는, “외인성” 서열은 세포에 대해 고유적이지 않은 서열, 또는 그 고유 위치가 세포의 게놈에서 상이한 위치에 존재하는 서열을 지칭한다. 예를 들면, 외인성 서열은 단백질 코딩 서열을 포함할 수 있는데, 이는 외인성 프로모터 제어 서열에 작동적으로 연결될 수 있으므로, 게놈에 통합시, 세포는 통합된 서열에 의해 코드되는 단백질을 발현할 수 있다. 대안적으로, 외인성 서열은 염색체 서열에 통합될 수 있으며, 그리하여 그 발현은 내인성 프로모터 제어 서열에 의해 조절된다. 다른 반복들에서, 외인성 서열은 전사 제어 서열, 또 다른 발현 제어 서열, RNA 코딩 서열, 등일 수 있다. 상기 언급한 바와 같이, 외인성 서열의 염색체 서열로의 통합은 “녹인”이라 명명한다.
해당 분야의 당업자가 이해할 수 있는 바와 같이, 공여체 서열의 길이는 달라질 수 있으며 달라질 것이다. 예를 들면, 공여체 서열은 수개의 뉴클레오티드에서 수백개의 뉴클레오티드까지의 길이에서 수십만개 뉴클레오티드까지 변화할 수 있다.
전형적으로, 공여체 폴리뉴클레오티드의 공여체 서열은 상류 서열 및 하류 서열에 의해 연접되고, 이는 각각 조작된 Cas9 시스템에 의해 표적되는 서열의 상류 및 하류에 위치한 서열들과 실질적 서열 동일성을 가진다. 이들 서열 유사성으로 인해, 공여체 폴리뉴클레오티드의 상류 및 하류 서열들은 공여체 폴리뉴클레오티드와 표적되는 염색체 서열 간의 상동 재조합을 가능하게 하여 공여체 서열이 염색체 서열 내에 통합 (또는 염색체 서열과 교환) 될 수 있다.
본 명세서에서 사용되는 상류 서열은, 조작된 Cas9 시스템에 의해 표적되는 서열의 상류 염색체 서열과 실질적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 유사하게, 하류 서열은 조작된 Cas9 시스템에 의해 표적되는 서열의 하류 염색체 서열과 실질적인 서열 동일성을 공유하는 핵산 서열을 지칭한다. 본 명세서에서 사용되는, 어구 “실질적 서열 동일성”은 최소한 약 75% 서열 동일성을 가지는 서열들을 지칭한다. 그러므로, 공여체 폴리뉴클레오티드 내 상류 및 하류 서열들은 표적 서열에 대한 상류 또는 하류 서열과 약 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 서열 동일성을 가질 수 있다. 한 예시적 구체예에서, 공여체 폴리뉴클레오티드 내 상류 및 하류 서열들은 조작된 Cas9 시스템에 의해 표적되는 서열에 대한 상류 또는 하류 염색체 서열과 약 95% 또는 100% 서열 동일성을 가질 수 있다.
일부 구체예들에서, 상류 서열은 조작된 Cas9 시스템에 의해 표적되는 서열의 바로 상류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 다른 구체예들에서, 상류 서열은 표적 서열로부터 약 백 (100)개 뉴클레오티드 상류 이내에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 그러므로, 예를 들면, 상류 서열은 표적 서열로부터 약 1 내지 약 20, 약 21 내지 약 40, 약 41 내지 약 60, 약 61 내지 약 80, 또는 약 81 내지 약 100 뉴클레오티드 상류에 위치한 염색체 서열과 실질적 서열 동일성을 공유할 수 있다. 일부 구체예들에서, 하류 서열은 조작된 Cas9 시스템에 의해 표적되는 서열의 바로 하류에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 다른 구체예들에서, 하류 서열은 표적 서열로부터 약 백 (100)개 뉴클레오티드 하류 이내에 위치한 염색체 서열과 실질적 서열 동일성을 공유한다. 그러므로, 예를 들면, 하류 서열은 표적 서열로부터 약 1 내지 약 20, 약 21 내지 약 40, 약 41 내지 약 60, 약 61 내지 약 80, 또는 약 81 내지 약 100 뉴클레오티드 하류에 위치한 염색체 서열과 실질적 서열 동일성을 공유할 수 있다.
각 상류 또는 하류 서열은 약 20개 뉴클레오티드 내지 약 5000개 뉴클레오티드 길이 범위일 수 있다. 일부 구체예들에서, 상류 및 하류 서열들은 약 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400, 2500, 2600, 2800, 3000, 3200, 3400, 3600, 3800, 4000, 4200, 4400, 4600, 4800, 또는 5000개 뉴클레오티드를 포함할 수 있다. 특정 구체예들에서, 상류 및 하류 서열들은 약 50 내지 약 1500개 뉴클레오티드 길이 범위일 수 있다.
(c) 세포 유형
다양한 진핵 세포들이 본 발명에 개시된 방법에서 사용하기에 적합하다. 예를 들면, 세포는 인간 세포, 비-인간 포유동물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 곤충 세포, 식물 세포, 효모 세포, 또는 단세포 진핵생물 기관일 수 있다. 일부 구체예들에서, 세포는 하나의 세포 배아 일 수도 있다. 예를 들면, 비-인간 포유동물 배아는 쥐, 햄스터, 설치류, 토끼, 고양이, 개, 양, 돼지, 소, 말, 및 영장류 배아를 포함한다. 또 다른 구체예들에서, 세포는 줄기 세포, 가령, 배아 줄기 세포, ES-유사 줄기 세포, 태아 줄기 세포, 성체 줄기 세포, 등일 수 있다. 한 구체예에서, 줄기 세포는 인간 배아 줄기 세포가 아니다. 더욱이, 줄기 세포들은 그 전문이 본 명세서에 포함되는 WO2003/046141, 또는 Chung . (Cell 줄기 세포, 2008, 2:113-117)에 개시된 기술들에 의해 제조되는 것들을 포함할 수 있다. 세포는 시험관내 (즉, 배양물 내), 생체외 (즉, 유기체로부터 분리된 조직 내) 또는 생체내 (즉, 유기체내) 존재할 수 있다. 예시적 구체예들에서, 세포는 포유동물 세포 또는 포유동물 세포주이다. 특정 구체예들에서, 세포는 인간 세포 또는 인간 세포주이다.
예로서, 일부 구체예들에서, 진핵 세포 또는 진핵 세포 집단은 T 세포, CD8+ T 세포, CD8+ 나이브 T 세포, 중추 기억 T 세포, 효과기 기억 T 세포, CD4+ T 세포, 줄기 세포 기억 T 세포, 보조 T 세포, 조절 T 세포, 세포독성 T 세포, 자연 살해 T 세포, 조혈 줄기 세포, 장기 조혈 줄기 세포, 단기 조혈 줄기 세포, 다분화능 전구 세포, 계통 제한 전구 세포, 림프 전구 세포, 췌장 전구 세포, 내분비 전구 세포, 외분비 전구 세포, 골수 전구 세포, 일반 골수 전구 세포, 적혈구 전구 세포, 거핵 세포 적혈구 전구 세포, 단핵구 전구 세포, 내분비 전구 세포, 외분비 세포, 섬유아세포, 간모세포, 근모세포, 대식세포, 섬 베타 세포, 심근세포, 혈액 세포, 관 세포, 포상 세포, 알파 세포, 베타 세포, 델타 세포, PP 세포, 담관 세포, 망막 세포, 광수용기 세포, 간상 세포, 원추 세포, 망막 색소 상피 세포, 섬유주 세포, 와우 세포, 외유모 세포, 내유모 세포, 폐 상피 세포, 기관지 상피 세포, 폐포 상피 세포, 폐 상피 전구 세포, 횡문근 세포, 심장 근육 세포, 근육 위성 세포, 근세포, 뉴런, 뉴런 줄기 세포, 중간엽 줄기 세포, 유도 만능 줄기 세포(iPS) 세포 , 배아줄기세포, 단핵구, 거핵구, 호중구, 호산구, 호염기구, 비만세포, 망상적혈구, B 세포, 예를 들어, 전구 B 세포, 예를 들어, Pre B 세포, Pro B 세포, 기억 B 세포, 혈장 B 세포, 위장 상피 세포, 담도 상피 세포, 췌관 상피 세포, 장 줄기 세포, 간세포, 간 성상 세포, 쿠퍼 세포, 조골 세포, 파골 세포, 지방세포(예를 들어, 갈색 지방세포 또는 백색 지방세포), 전지방세포, 췌장 반응성 전구체 세포, 췌장 섬 세포, 췌장 베타 세포, 췌장 알파 세포, 췌장 델타 세포, 췌장 외분비 세포, 슈반 세포 또는 희돌기아교세포, 또는 이러한 세포의 집단이다. 
적합한 포유동물 세포 또는 세포주들의 비-제한적 예들에는 인간 배아 신장 세포 (HEK293, HEK293T); 인간 자궁경부 암종 세포 (HELA); 인간 폐 세포 (W138); 인간 간 세포 (Hep G2); 인간 U2-OS 골육종 세포, 인간 A549 세포, 인간 A-431 세포, 및 인간 K562 세포; 중국 햄스터 난소 (CHO) 세포, 새끼 햄스터 신장 (BHK) 세포; 생쥐 골수종 NS0 세포, 생쥐 배아 섬유모세포 3T3 세포 (NIH3T3), 생쥐 B 림프종 A20 세포; 생쥐 흑색종 B16 세포; 생쥐 근육모세포 C2C12 세포; 생쥐 골수종 SP2/0 세포; 생쥐 배아 중간엽 C3H-10T1/2 세포; 생쥐 암종 CT26 세포, 생쥐 전립선 DuCuP 세포; 생쥐 유방 EMT6 세포; 생쥐 간암 Hepa1c1c7 세포; 생쥐 골수종 J5582 세포; 생쥐 상피 MTD-1A 세포; 생쥐 심근 MyEnd 세포; 생쥐 신장 RenCa 세포; 생쥐 이자 RIN-5F 세포; 생쥐 흑색종 X64 세포; 생쥐 림프종 YAC-1 세포; 쥐 교모세포종 9L 세포; 쥐 B 림프종 RBL 세포; 쥐 신경모세포종 B35 세포; 쥐 간암 세포 (HTC); 버팔로 쥐 간 BRL 3A 세포; 개 신장 세포 (MDCK); 개 유선 (CMT) 세포; 쥐 골육종 D17 세포; 쥐 단핵구/대식세포 DH82 세포; 원숭이 신장 SV-40 형질전환된 섬유모세포 (COS7) 세포; 원숭이 신장 CVI-76 세포; 아프리카 녹색 원숭이 신장 (VERO-76) 세포가 포함된다. 포유동물 세포주의 보다 많은 목록은 미국 표준 균주 카탈로그 (ATCC, Manassas, VA)에서 찾을 수 있다.
(V) 응용
본 명세서에 개시된 조성물 및 방법들은 다양한 치료, 진단, 산업 및 연구 분야에서 사용될 수 있다. 일부 구체예들에서, 본 발명은 유전자 기능을 모형화 및/또는 연구하기 위해, 관심의 유전적 또는 후성 조건들을 연구하기 위해, 또는 다양한 질병 또는 장애들에 관여하는 생화학적 경로들을 연구하기 위해 세포, 동물, 또는 식물에서 임의의 관심 염색체 서열을 변형하기 위해 사용될 수 있다. 예를 들면, 질병 또는 장애들을 모형화하는 유전자삽입 유기체가 생성될 수 있으며, 여기서 질병 또는 장애와 연관된 하나 이상의 핵산 서열들의 발현은 변화되어 있다. 질병 모델은 유기체에 대한 돌연변이들의 효과를 연구하기 위해, 질병의 발병 및/또는 진행을 연구하기 위해, 질병에 대한 제약학적 활성 화합물의 효과를 연구하기 위해, 및/또는 잠재적인 유전자 치료 전략의 효능을 평가하기 위해 사용될 수 있다.
다른 구체예들에서, 상기 조성물 및 방법들은 효율적인 그리고 비용 효과적인 기능적 게놈 선별을 실시하기 위해 사용될 수 있으며, 특정 생물학적 과정에 관여하는 유전자들의 기능 그리고 유전자 발현에서 임의의 변형이 생물학적 과정에 어떻게 영향을 줄 수 있는지를 연구하기 위해, 또는 세포 표현형과 관련된 게놈 좌위의 포화 또는 딥 스캐닝 돌연변이생성을 실시하기 위해 사용될 수 있다. 예를 들면, 유전자 발현, 약물 내성, 및 질병의 역전에 필요한 기능적 요소들에 관한 중요한 최소 특징들 및 별개의 취약성들을 결정하기 위하여 포화 또는 딥 스캐닝 돌연변이생성이 사용될 수 있다.
추가 구체예들에서, 본 명세서에 개시된 조성물 및 방법들은 질병 또는 장애의 존재를 확인하기 위한 진단 테스트에 및/또는 치료 옵션 결정에 사용하기 위해 사용될 수 있다. 적합한 진단 테스트들의 예는 암 세포에서 특정 돌연변이들 (예컨대, EGFR, HER2, 등에서 특정 돌연변이)의 탐지, 특정 질병들과 관련된 특정 돌연변이들의 탐지 (예컨대, 트라이뉴클레오티드 반복, 낫 적혈구병과 연관된 β-글로빈의 돌연변이들, 특정 SNP, ), 간염의 탐지, 바이러스 (예컨대, Zika)의 탐지, 등을 포함한다.
추가 구체예들에서, 본 명세서에 개시된 조성물 및 방법들은 특정 질병 또는 장애와 연관된 유전자 돌연변이들을 교정, 가령, 예컨대, 낫 적혈구병 또는 지중해빈혈과 연관된 글로빈 유전자 돌연변이들을 교정, 중증 복합성 면역 결핍증 (SCID)과 연관된 아데노신 탈아미노효소 유전자에서 돌연변이들을 교정, 헌팅턴 병의 질병-유발 유전자인 HTT의 발현을 감소, 또는 망막 색소변성의 치료를 위해 로돕신 유전자에서의 돌연변이들을 교정함에 사용될 수 있다. 이러한 변형들은 생체외 세포에서 이루어질 수 있다.
또 다른 구체예들에서, 본 명세서에 개시된 조성물 및 방법들은 환경적 스트레스에 대한 내성이 증가된 또는 개선된 형질들을 가지는 작물들을 생성하기 위해 사용될 수 있다. 본 발명은 또한 개선된 형질을 가진 농장 동물 또는 생산 동물을 생성하기 위해 사용될 수도 있다. 예를 들면, 돼지는 생의학 모델, 특히, 재생 의학 또는 이종이식에서의 모델로서 매력적이게 하는 많은 특징들을 가진다.
또 다른 구체예에서, 본원에 개시된 조성물 및 방법을 사용하여 살아있는 세포 또는 화학적으로 고정된 세포 (포르말린-고정 파라핀 포매 임상 샘플에 사용되는 포르말린 고정) 내의 염색체 동일성 및 위치를 결정할 수 있다. 예를 들어, 본원에 개시된 펩티드 서열을 통해 형광성 단백질에 연결된 CRIPSR 복합체는 단일 또는 다중 사본으로 유전자 좌위에 표적화될 수 있고, 이러한 복합체는 염색체 좌위 사본 수 및/또는 위치를 결정하기 위해 현미경으로 탐지될 수 있다. 추적을 위한 예시적인 유전자 좌위는 중심체 영역, 텔로머 영역, 또는 단일의 동일한 CRISPR 복합체의 다중 사본이 결합할 수 있는 게놈의 기타 반복 영역을 포함할 수 있다.
정의
달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술 및 과학 용어는 본 발명이 속하는 해당 분야의 기술자에 의해 일반적으로 이해되는 의미를 가진다. 다음 참고문헌들은 본 발명에서 사용되는 많은 용어들의 일반적인 정의를 당업자에게 제공한다: Singleton , Dictionary of Microbiology and Molecular Biology (2nd Ed. 1994); The Cambridge Dictionary of Science and Technology (Walker ed., 1988); The Glossary of Genetics, 5th Ed., R. Rieger (eds.), Springer Verlag (1991); 및 Hale & Marham, The Harper Collins Dictionary of Biology (1991). 본 출원에서 사용되는, 하기 용어들은 달리 특정한 언급이 없는 한 하기 의미들을 가진다.
본 발명 또는 바람직한 구체예(들)의 구성요소들을 소개할 때, 관사 “하나 (a, an)", “그것” 및 “상기"는 하나 이상의 구성요소들이 존재함을 의미하는 것이다. 용어 “포함하는", “비롯한” 및 “가지는"은 포함적인 의미이며 나열된 구성요소들 이외에 추가 구성요소들이 존재할 수 있음을 의미한다.
수치값과 관련하여 사용될 때 용어 “약” x는, 예를 들면 x ± 5%를 의미한다.
본 명세서에서 사용되는 용어 “상보적인” 또는 “상보성”은 특정 수소 결합을 통한 염기 페어링에 의한 이중-가닥 핵산들의 결합을 지칭한다. 염기 페어링은 표준 왓슨-크릭 염기 페어링일 수 있다 (예컨대, 5'-A G T C-3'은 상보적 서열 3'-T C A G-5'과 쌍을 이룬다). 염기 페어링은 또한 후그스틴 또는 역 후그스틴 수소 결합 일 수 있다. 상보성은 일반적으로 이중나선 영역에 대해 측정되므로, 예를 들면, 오버행은 제외된다. 이중나선 영역의 두 개 가닥들 간의 상보성은 부분적일 수 있으며 염기들 중 일부만 (예컨대, 70%) 상보적인 경우 백분율로 표현된다 (예컨대, 70%). 상보적이지 않은 염기들은 “미스매치”된다. 상보성은 또한 이중나선 영역의 모든 염기들이 상보적인 경우 완전할 수도 있다 (, 100%).
본 명세서에서 사용되는 용어 “CRISPR/Cas 시스템” 또는 "Cas9 시스템"은 Cas9 단백질 (, 뉴클레아제, 니카아제, 또는 촉매적 사멸 단백질) 및 가이드 RNA를 포함하는 복합체를 지칭한다.
본 명세서에서 사용되는 용어 “내인성 서열”은 세포에 대해 고유한 염색체 서열을 지칭한다.
본 명세서에서 사용되는 용어 “외인성”은 세포에 대해 고유하지 않은 서열 또는 세포의 게놈에서 그 고유 위치가 상이한 염색체 위치에 존재하는 염색체 서열을 지칭한다.
본 명세서에서 사용되는 “유전자”는 유전자 생성물을 인코딩하는 DNA 영역 (엑손과 인트론 포함), 뿐만 아니라 조절 서열들이 코딩 및/또는 전사된 서열들에 인접하는지와 관계없이 유전자 생성물의 생성을 조절하는 모든 DNA 영역을 지칭한다. 따라서, 유전자는 프로모터 서열, 터미네이터, 번역 조절 서열, 가령, 리보솜 결합 부위 및 내부 리보솜 진입 부위, 인핸서, 슬라이서, 절연체, 경계 요소, 복제 원점, 기질 부착 부위 및 좌위 제어 영역을 포함하나 이에 제한되는 것은 아니다.
용어 “이종”은 관심 세포에 대해 내인성이 아닌 또는 고유하지 않은 엔터티를 지칭한다. 예를 들면, 이종 단백질은 외인성 출처, 가령, 외인적으로 도입된 핵산 서열로부터 유래한 또는 본래 유래하였던 단백질을 지칭한다. 일부 사례들에서, 이종 단백질은 관심 세포에 의하여 일반적으로 생성되지 않는다.
용어 “니카아제”는 이중-가닥 핵산 서열 중 한 가닥을 절단하는 (, 이중-가닥 서열을 절단시키는) 효소를 지칭한다. 예를 들면, 이중 가닥 절단 활성을 가지는 뉴클레아제는 니카아제로서 기능하여 이중-가닥 서열 중 한 가닥만을 절단하도록 하기 위한 돌연변이 및/또는 결실에 의해 변형될 수 있다.
본 명세서에서 사용되는 용어 “뉴클레아제”는 이중-가닥 핵산 서열 두 가닥 모두를 절단하는 효소를 지칭한다.
용어 “핵산” 및 “폴리뉴클레오티드”는 선형 또는 원형 입체형태의, 그리고 단일- 또는 이중-가닥 형태의 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 폴리머를 지칭한다. 본 출원의 목적에서, 이들 용어들은 폴리머의 길이에 대한 제한으로 해석되어서는 안된다. 이 용어들은 자연 뉴클레오티드, 뿐만 아니라 염기, 당 및/또는 포스페이트 모이어티 (예컨대, 포스포로티오에이트 골격)에서 변형되어 있는 뉴클레오티드의 공지된 유사체를 포함할 수 있다. 일반적으로, 특정 뉴클레오티드의 유사체는 동일한 염기-쌍 특이성을 가진다; 즉, A의 유사체는 T와 염기-쌍을 이루게 될 것이다.
용어 "뉴클레오티드”는 데옥시리보뉴클레오티드 또는 리보뉴클레오티드를 지칭한다. 뉴클레오티드는 표준 뉴클레오티드 (, 아데노신, 구아노신, 시티딘, 티미딘, 및 우리딘), 뉴클레오티드 이성질체, 또는 뉴클레오티드 유사체일 수 있다. 뉴클레오티드 유사체는 변형된 퓨린 또는 피리미딘 염기 또는 변형된 리보오스 모이어티를 가지는 뉴클레오티드를 지칭한다. 뉴클레오티드 유사체는 자연 발생 뉴클레오티드 (예컨대, 이노신, 수도우리딘, 등) 또는 비-자연 발생 뉴클레오티드 일 수 있다. 뉴클레오티드의 당 또는 염기 모이어티에 대한 변형의 비-제한적 예들에는 아세틸 그룹, 아미노 그룹, 카르복실 그룹, 카르복시메틸 그룹, 하이드록실 그룹, 메틸 그룹, 포스포릴 그룹, 및 싸이올 그룹의 부가 (또는 제거), 뿐만 아니라 염기의 탄소 및 질소 원자들의 다른 원자들로의 치환 (예컨대, 7-데아자 퓨린)이 포함된다. 뉴클레오티드 유사체에는 또한 다이데옥시 뉴클레오티드, 2'-O-메틸 뉴클레오티드, 잠금 핵산 (LNA), 펩티드 핵산 (PNA), 및 모르포린이 포함된다.
용어 “폴리펩티드” 및 “단백질”은 호환적으로 사용되어 아미노산 잔기들의 폴리머를 지칭한다.
용어 “표적 서열”, “표적 염색체 서열” 및 “표적 부위”는 호환적으로 사용되어 조작된 Cas9 시스템이 표적되는 염색체 DNA 내 특정 서열, 및 조작된 Cas9 시스템이 DNA 또는 DNA와 관련된 단백질(들)을 변형시키는 부위를 지칭한다.
핵산 및 아미노산 서열 동일성을 결정하는 기술들은 해당 분야에 공지되어 있다. 전형적으로, 이러한 기술들은 유전자에 대한 mRNA의 뉴클레오티드 서열을 결정하는 단계 및/또는 이에 의해 인코딩되는 아미노산 서열을 결정하는 단계, 및 이들 서열들을 제 2 뉴클레오티드 또는 아미노산 서열과 비교하는 단계를 포함한다. 또한 게놈 서열들을 결정하고 이러한 방식으로 비교할 수 있다. 일반적으로, 동일성은 두 개의 폴리뉴클레오티드 또는 폴리펩티드 서열 각각의 정확한 뉴클레오티드-대-뉴클레오티드 또는 아미노산-대-아미노산 상응성을 지칭한다. 둘 이상의 서열들 (폴리뉴클레오티드 또는 아미노산)은 그 퍼센트 동일성을 결정함으로써 비교될 수 있다. 2개 서열들, 핵산 또는 아미노산 서열들의 동일성 백분율은, 2개의 정렬된 서열들 간의 일치 정합수(exact matches)를 더 짧은 서열들의 길이로 나누고 100을 곱한 것이다. 핵산 서열들에 대한 대략적인 정렬은 Smith 및 Waterman의 국소적 상동성 알고리즘, Advances in Applied Mathematics 2:482-489 (1981)에 의해 제공된다. 이 알고리즘은 미국 Washington, D.C.의 National Biomedical Research Foundation이 펴낸 Dayhoff, Atlas of Atlas of Protein Sequences and Structure, M. O. Dayhoff ed., 5 suppl. 3:353-358에 의해 개발되고, Gribskov, Nucl. Acids Res. 14(6):6745-6763 (1986)에 의해 정규화된 점수 행렬을 사용함으로써 아미노산 서열들에 적용될 수 있다. 서열의 동일성 백분율을 결정하기 위한 이러한 알고리즘의 예시적인 실행은 “BestFit” 유틸리티 응용 프로그램에서 Genetics Computer Group (Madison, Wis.)에 의해 제공된다. 서열들 간의 동일성 또는 유사성 백분율을 계산하는 그 외 적합한 프로그램들은 일반적으로 해당 기술분야에 공지이며, 예를 들어, 또다른 정렬 프로그램은 기본 매개변수와 함께 사용되는 BLAST가 있다. 예를 들어, BLASTN 및 BLASTP는 다음 기본 매개변수를 사용하여 이용될 수 있다: 유전 부호=표준; 필터=없음; 가닥=모두; 컷오프=60; 기대값=10; 매트릭스=BLOSUM62; 디스크립션=50 서열들; 분류=HIGH SCORE; 데이터베이스=비다중(non-redundant), GenBank+EMBL+DDBJ+PDB+ GenBank CDS translations+Swiss protein+Spupdate+PIR. 이들 프로그램들의 상세내용은 GenBank 웹사이트에서 찾을 수 있다.
본 발명의 범위에서 벗어나지 않고 상기 세포 및 방법들에서 다양한 변화가 이루어질 수 있으므로, 상기 상세한 설명 및 하기 제공되는 실시예에 포함된 모든 주제들은 설명적으로 해석되어야 하며 제한적 의미로 해석되어서는 안된다.
실시예
다음 실시예들은 본 발명의 특정 양상들을 설명한다.
실시예 1: GFP-SpCas9 및 RFP-SpCas9 융합 단백질을 사용한 인간 세포 유전자 편집
인간 K562 세포 (0.35 x 106)는 60 pmol의 SpCas9, GFP-SpCas9 또는 RFP-SpCas9 재조합 단백질 및 가이드 서열 5'-GCUCCCAUCACAUCAACCGG-3'을 가지는 인간 EMX1 좌위를 표적하는 180 pmol의 시험관내 전사된 단일 가이드 RNA(sgRNA)로 형질감염되었다. Nucleofection Solution V 및 Amaxa 기기를 사용하여 형질감염을 수행했다. 세포는 유전자 편집 분석을 위해 수확하기 전 3일 동안 37oC 및 5% CO2에서 유지되었다. QuickExtract DNA 추출 용액을 사용하여 게놈 DNA를 준비했다. 표적 EMX1 영역은 표적 특이적 서열과 차세대 시퀀싱(NGS) 어댑터로 구성된 프라이머를 사용하여 PCR 증폭되었다. 정방향 프라이머는 5'- TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGNNNNNNAGTCTTCCCATCAGGCTCTCA-3' (서열 번호: 46)이고 역방향 프라이머는 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGNNNNNNAGAGTCCAGCTTGGGCC-3' (서열 번호: 47)이고, 이때 표적 특이적 서열은 밑줄표시 되고 N은 A, T, G 또는 C를 나타낸다. PCR 앰플리콘들을 Illumina MiSeq를 사용하는 NGS로 분석하여, 각 Cas9 단백질의 편집 효율을 결정하였다. 도 1에 도시된 결과는 GFP-SpCas9 및 RFP-SpCas9 융합 단백질 각각이 SpCas9 단백질에 의한 수준과 유사한 편집 활성을 유지함을 보여준다.
표 1은 조작된 Cas9/NLS 단백질의 인간 코돈 최적화된 DNA 및 단백질 서열을 제시하며, 여기서 NLS 서열은 볼드체 텍스트로 제시되고 마커 단백질과 Cas9 사이의 링커는 밑줄친 텍스트로 제시된다.
Figure pct00005
Figure pct00006
Figure pct00007
세 가지 단백질을 제조하는 데 사용되는 인간 코돈 최적화 DNA 서열은 다음과 같다:
Figure pct00008
Figure pct00009
Figure pct00010
Figure pct00011
Figure pct00012
Figure pct00013
실시예 2: 시판 제품들과 편집 효율성 비교
두 가지 시판 GFP-SpCas9 융합 단백질 제품들, GenCrispr NLS-Cas9-EGFP 뉴클레아제 및 ArciTect Cas9-eGFP 뉴클레아제를 각각 GenScript (Piscataway, NJ) 및 Stemcell Technologies (Vancouver, Canada)사로부터 구입하였다. 인간 U2OS 세포 (0.2 x 106) 및 HEK293 세포 (0.3 x 106)를, 각각 인간 EMX1, HEKSite4, VEGFA3, HPRT 유전자좌를 표적으로 하는 4개의 화학적으로 합성된 sgRNA 150 pmol와 조합하여, 50 pmol의 GenCrispr NLS-Cas9-EGFP 뉴클레아제 또는 ArciTect Cas9-eGFP 뉴클레아제 또는 본 발명의 GFP-SpCas9 단백질로 형질감염시켰다. 가이드 서열들은 다음과 같다: 5'-GAGUCCGAGCAGAAGAAGAA-3' (EMX1) (서열 번호: 51), 5'-GGCACUGCGGCUGGAGGUGG-3' (HEKSite4) (서열 번호: 52), 5'GGUGAGUGAGUGUGUGCGUG-3' (VEGFA3), 및 5'-GGUCACUUUUAACACACCCA-3' (HPRT) (서열 번호: 53). Nucleofection Solution V 및 Amaxa 기기를 사용하여 형질감염을 수행했다. 세포는 유전자 편집 분석을 위해 수확하기 전 3일 동안 37oC 및 5% CO2에서 유지되었다. QuickExtract DNA 추출 용액을 사용하여 게놈 DNA를 준비했다. 각각의 표적된 게놈 영역은 표적 특이적 서열과 차세대 시퀀싱(NGS) 어댑터로 구성된 한 쌍의 프라이머를 사용하여 PCR 증폭되었다. 프라이머들을 다음 표에 열거한다:
Figure pct00014
PCR 앰플리콘들을 Illumina MiSeq를 사용하는 NGS로 분석하여, 각 Cas9 단백질의 편집 효율을 결정하였다. 도 2A도 2B의 결과는 본 발명의 GFP-SpCas9 단백질에 의한 편집 효율이 모든 표적에서 시판 단백질의 편집 효율보다 몇 배 더 높았음을 보여준다.
SEQUENCE LISTING <110> SIGMA-ALDRICH CO. LLC <120> CRISPR/CAS FUSION PROTEINS AND SYSTEMS <130> P19-027 WO-PCT <140> <141> <150> 62/806,708 <151> 2019-02-15 <160> 66 <170> PatentIn version 3.5 <210> 1 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 1 Pro Lys Lys Lys Arg Lys Val 1 5 <210> 2 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 2 Pro Lys Lys Lys Arg Arg Val 1 5 <210> 3 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 3 Lys Arg Pro Ala Ala Thr Lys Lys Ala Gly Gln Ala Lys Lys Lys Lys 1 5 10 15 <210> 4 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 4 Tyr Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 10 <210> 5 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 5 Arg Lys Lys Arg Arg Gln Arg Arg Arg 1 5 <210> 6 <211> 9 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 6 Pro Ala Ala Lys Arg Val Lys Leu Asp 1 5 <210> 7 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 7 Arg Gln Arg Arg Asn Glu Leu Lys Arg Ser Pro 1 5 10 <210> 8 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 8 Val Ser Arg Lys Arg Pro Arg Pro 1 5 <210> 9 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 9 Pro Pro Lys Lys Ala Arg Glu Asp 1 5 <210> 10 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 10 Pro Gln Pro Lys Lys Lys Pro Leu 1 5 <210> 11 <211> 12 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 11 Ser Ala Leu Ile Lys Lys Lys Lys Lys Met Ala Pro 1 5 10 <210> 12 <211> 7 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 12 Pro Lys Gln Lys Lys Arg Lys 1 5 <210> 13 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 13 Arg Lys Leu Lys Lys Lys Ile Lys Lys Leu 1 5 10 <210> 14 <211> 10 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 14 Arg Glu Lys Lys Lys Phe Leu Lys Arg Arg 1 5 10 <210> 15 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 15 Lys Arg Lys Gly Asp Glu Val Asp Gly Val Asp Glu Val Ala Lys Lys 1 5 10 15 Lys Ser Lys Lys 20 <210> 16 <211> 17 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 16 Arg Lys Cys Leu Gln Ala Gly Met Asn Leu Glu Ala Arg Lys Thr Lys 1 5 10 15 Lys <210> 17 <211> 38 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 17 Asn Gln Ser Ser Asn Phe Gly Pro Met Lys Gly Gly Asn Phe Gly Gly 1 5 10 15 Arg Ser Ser Gly Pro Tyr Gly Gly Gly Gly Gln Tyr Phe Ala Lys Pro 20 25 30 Arg Asn Gln Gly Gly Tyr 35 <210> 18 <211> 42 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 18 Arg Met Arg Ile Glx Phe Lys Asn Lys Gly Lys Asp Thr Ala Glu Leu 1 5 10 15 Arg Arg Arg Arg Val Glu Val Ser Val Glu Leu Arg Lys Ala Lys Lys 20 25 30 Asp Glu Gln Ile Leu Lys Arg Arg Asn Val 35 40 <210> 19 <211> 239 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 19 Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu 1 5 10 15 Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly 20 25 30 Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile 35 40 45 Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 50 55 60 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys 65 70 75 80 Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu 85 90 95 Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu 100 105 110 Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly 115 120 125 Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr 130 135 140 Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn 145 150 155 160 Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser 165 170 175 Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly 180 185 190 Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Lys Leu 195 200 205 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe 210 215 220 Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys 225 230 235 <210> 20 <211> 232 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 20 Met Val Ser Lys Gly Glu Ala Val Ile Lys Glu Phe Met Arg Phe Lys 1 5 10 15 Val His Met Glu Gly Ser Met Asn Gly His Glu Phe Glu Ile Glu Gly 20 25 30 Glu Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr Ala Lys Leu Lys 35 40 45 Val Thr Lys Gly Gly Pro Leu Pro Phe Ser Trp Asp Ile Leu Ser Pro 50 55 60 Gln Phe Met Tyr Gly Ser Arg Ala Phe Thr Lys His Pro Ala Asp Ile 65 70 75 80 Pro Asp Tyr Tyr Lys Gln Ser Phe Pro Glu Gly Phe Lys Trp Glu Arg 85 90 95 Val Met Asn Phe Glu Asp Gly Gly Ala Val Thr Val Thr Gln Asp Thr 100 105 110 Ser Leu Glu Asp Gly Thr Leu Ile Tyr Lys Val Lys Leu Arg Gly Thr 115 120 125 Asn Phe Pro Pro Asp Gly Pro Val Met Gln Lys Lys Thr Met Gly Trp 130 135 140 Glu Ala Ser Thr Glu Arg Leu Tyr Pro Glu Asp Gly Val Leu Lys Gly 145 150 155 160 Asp Ile Lys Met Ala Leu Arg Leu Lys Asp Gly Gly Arg Tyr Leu Ala 165 170 175 Asp Phe Lys Thr Thr Tyr Lys Ala Lys Lys Pro Val Gln Met Pro Gly 180 185 190 Ala Tyr Asn Val Asp Arg Lys Leu Asp Ile Thr Ser His Asn Glu Asp 195 200 205 Tyr Thr Val Val Glu Gln Tyr Glu Arg Ser Glu Gly Arg His Ser Thr 210 215 220 Gly Gly Met Asp Glu Leu Tyr Lys 225 230 <210> 21 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 21 Asp Tyr Lys Asp Asp Asp Asp Lys 1 5 <210> 22 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic 6xHis tag" <400> 22 His His His His His His 1 5 <210> 23 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 23 Gly Arg Lys Lys Arg Arg Gln Arg Arg Arg Pro Pro Gln Pro Lys Lys 1 5 10 15 Lys Arg Lys Val 20 <210> 24 <211> 19 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 24 Pro Leu Ser Ser Ile Phe Ser Arg Ile Gly Asp Pro Pro Lys Lys Lys 1 5 10 15 Arg Lys Val <210> 25 <211> 24 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 25 Gly Ala Leu Phe Leu Gly Trp Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Pro Lys Lys Lys Arg Lys Val 20 <210> 26 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 26 Gly Ala Leu Phe Leu Gly Phe Leu Gly Ala Ala Gly Ser Thr Met Gly 1 5 10 15 Ala Trp Ser Gln Pro Lys Lys Lys Arg Lys Val 20 25 <210> 27 <211> 21 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 27 Lys Glu Thr Trp Trp Glu Thr Trp Trp Thr Glu Trp Ser Gln Pro Lys 1 5 10 15 Lys Lys Arg Lys Val 20 <210> 28 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 28 Tyr Ala Arg Ala Ala Ala Arg Gln Ala Arg Ala 1 5 10 <210> 29 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 29 Thr His Arg Leu Pro Arg Arg Arg Arg Arg Arg 1 5 10 <210> 30 <211> 11 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 30 Gly Gly Arg Arg Ala Arg Arg Arg Arg Arg Arg 1 5 10 <210> 31 <211> 12 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 31 Arg Arg Gln Arg Arg Thr Ser Lys Leu Met Lys Arg 1 5 10 <210> 32 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 32 Gly Trp Thr Leu Asn Ser Ala Gly Tyr Leu Leu Gly Lys Ile Asn Leu 1 5 10 15 Lys Ala Leu Ala Ala Leu Ala Lys Lys Ile Leu 20 25 <210> 33 <211> 33 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 33 Lys Ala Leu Ala Trp Glu Ala Lys Leu Ala Lys Ala Leu Ala Lys Ala 1 5 10 15 Leu Ala Lys His Leu Ala Lys Ala Leu Ala Lys Ala Leu Lys Cys Glu 20 25 30 Ala <210> 34 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 34 Arg Gln Ile Lys Ile Trp Phe Gln Asn Arg Arg Met Lys Trp Lys Lys 1 5 10 15 <210> 35 <211> 46 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 35 Ala Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys 1 5 10 15 Glu Ala Ala Ala Lys Ala Leu Glu Ala Glu Ala Ala Ala Lys Glu Ala 20 25 30 Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Ala 35 40 45 <210> 36 <211> 32 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 36 Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr 1 5 10 15 Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser 20 25 30 <210> 37 <211> 6 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 37 Leu Glu Gly Gly Gly Ser 1 5 <210> 38 <211> 4 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 38 Thr Gly Ser Gly 1 <210> 39 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 39 Gly Gly Ser Gly Gly Gly Ser Gly 1 5 <210> 40 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(20) <223> /note="This sequence may encompass 1-4 'Gly Gly Gly Gly Ser' repeating units" <400> 40 Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly Gly Gly Gly Ser Gly 1 5 10 15 Gly Gly Gly Ser 20 <210> 41 <211> 8 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(8) <223> /note="This sequence may encompass 6-8 residues" <400> 41 Gly Gly Gly Gly Gly Gly Gly Gly 1 5 <210> 42 <211> 20 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(20) <223> /note="This sequence may encompass 1-4 'Glu Ala Ala Ala Lys' repeating units" <400> 42 Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu 1 5 10 15 Ala Ala Ala Lys 20 <210> 43 <211> 27 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (2)..(26) <223> /note="This region may encompass 2-5 'Glu Ala Ala Ala Lys' repeating units" <400> 43 Ala Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys 1 5 10 15 Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Ala 20 25 <210> 44 <211> 5 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <400> 44 Pro Ala Pro Ala Pro 1 5 <210> 45 <211> 16 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic peptide" <220> <221> SITE <222> (1)..(16) <223> /note="This sequence may encompass 6-8 'Ala Pro' repeating units" <400> 45 Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro Ala Pro 1 5 10 15 <210> 46 <211> 60 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, t, g or c <400> 46 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnna gtcttcccat caggctctca 60 <210> 47 <211> 57 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, t, g or c <400> 47 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn agagtccagc ttgggcc 57 <210> 48 <211> 1692 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 48 Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu 1 5 10 15 Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly 20 25 30 Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile 35 40 45 Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 50 55 60 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys 65 70 75 80 Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu 85 90 95 Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu 100 105 110 Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly 115 120 125 Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr 130 135 140 Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn 145 150 155 160 Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser 165 170 175 Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly 180 185 190 Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Lys Leu 195 200 205 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe 210 215 220 Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys Val 225 230 235 240 Asp Ala Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala 245 250 255 Lys Glu Ala Ala Ala Lys Ala Leu Glu Ala Glu Ala Ala Ala Lys Glu 260 265 270 Ala Ala Ala Lys Glu Ala Ala Ala Lys Glu Ala Ala Ala Lys Ala Pro 275 280 285 Ala Ala Lys Arg Val Lys Leu Asp Gly Gly Gly Gly Ser Thr Gly Met 290 295 300 Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly 305 310 315 320 Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys 325 330 335 Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly 340 345 350 Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys 355 360 365 Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr 370 375 380 Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe 385 390 395 400 Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His 405 410 415 Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His 420 425 430 Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser 435 440 445 Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met 450 455 460 Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp 465 470 475 480 Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn 485 490 495 Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys 500 505 510 Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu 515 520 525 Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu 530 535 540 Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp 545 550 555 560 Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp 565 570 575 Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu 580 585 590 Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile 595 600 605 Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met 610 615 620 Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala 625 630 635 640 Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp 645 650 655 Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln 660 665 670 Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly 675 680 685 Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys 690 695 700 Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly 705 710 715 720 Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu 725 730 735 Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro 740 745 750 Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met 755 760 765 Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val 770 775 780 Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn 785 790 795 800 Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu 805 810 815 Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr 820 825 830 Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys 835 840 845 Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val 850 855 860 Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser 865 870 875 880 Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr 885 890 895 Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn 900 905 910 Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu 915 920 925 Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His 930 935 940 Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr 945 950 955 960 Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys 965 970 975 Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala 980 985 990 Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys 995 1000 1005 Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu 1010 1015 1020 His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys 1025 1030 1035 Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val 1040 1045 1050 Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg 1055 1060 1065 Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg 1070 1075 1080 Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile 1085 1090 1095 Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys 1100 1105 1110 Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp 1115 1120 1125 Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His 1130 1135 1140 Ile Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys 1145 1150 1155 Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val 1160 1165 1170 Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln 1175 1180 1185 Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu 1190 1195 1200 Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly 1205 1210 1215 Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His 1220 1225 1230 Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu 1235 1240 1245 Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser 1250 1255 1260 Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val 1265 1270 1275 Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn 1280 1285 1290 Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu 1295 1300 1305 Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys 1310 1315 1320 Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys 1325 1330 1335 Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile 1340 1345 1350 Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr 1355 1360 1365 Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe 1370 1375 1380 Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val 1385 1390 1395 Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile 1400 1405 1410 Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp 1415 1420 1425 Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala 1430 1435 1440 Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys 1445 1450 1455 Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu 1460 1465 1470 Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys 1475 1480 1485 Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys 1490 1495 1500 Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala 1505 1510 1515 Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser 1520 1525 1530 Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu 1535 1540 1545 Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu 1550 1555 1560 Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu 1565 1570 1575 Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val 1580 1585 1590 Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln 1595 1600 1605 Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala 1610 1615 1620 Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg 1625 1630 1635 Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln 1640 1645 1650 Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu 1655 1660 1665 Gly Gly Asp Glu Phe Pro Lys Lys Lys Arg Lys Val Gly Gly Gly 1670 1675 1680 Gly Ser Pro Lys Lys Lys Arg Lys Val 1685 1690 <210> 49 <211> 1671 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 49 Met Val Ser Lys Gly Glu Ala Val Ile Lys Glu Phe Met Arg Phe Lys 1 5 10 15 Val His Met Glu Gly Ser Met Asn Gly His Glu Phe Glu Ile Glu Gly 20 25 30 Glu Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr Ala Lys Leu Lys 35 40 45 Val Thr Lys Gly Gly Pro Leu Pro Phe Ser Trp Asp Ile Leu Ser Pro 50 55 60 Gln Phe Met Tyr Gly Ser Arg Ala Phe Thr Lys His Pro Ala Asp Ile 65 70 75 80 Pro Asp Tyr Tyr Lys Gln Ser Phe Pro Glu Gly Phe Lys Trp Glu Arg 85 90 95 Val Met Asn Phe Glu Asp Gly Gly Ala Val Thr Val Thr Gln Asp Thr 100 105 110 Ser Leu Glu Asp Gly Thr Leu Ile Tyr Lys Val Lys Leu Arg Gly Thr 115 120 125 Asn Phe Pro Pro Asp Gly Pro Val Met Gln Lys Lys Thr Met Gly Trp 130 135 140 Glu Ala Ser Thr Glu Arg Leu Tyr Pro Glu Asp Gly Val Leu Lys Gly 145 150 155 160 Asp Ile Lys Met Ala Leu Arg Leu Lys Asp Gly Gly Arg Tyr Leu Ala 165 170 175 Asp Phe Lys Thr Thr Tyr Lys Ala Lys Lys Pro Val Gln Met Pro Gly 180 185 190 Ala Tyr Asn Val Asp Arg Lys Leu Asp Ile Thr Ser His Asn Glu Asp 195 200 205 Tyr Thr Val Val Glu Gln Tyr Glu Arg Ser Glu Gly Arg His Ser Thr 210 215 220 Gly Gly Met Asp Glu Leu Tyr Lys Val Asp Ser Gly Gly Ser Ser Gly 225 230 235 240 Gly Ser Ser Gly Ser Glu Thr Pro Gly Thr Ser Glu Ser Ala Thr Pro 245 250 255 Glu Ser Ser Gly Gly Ser Ser Gly Gly Ser Pro Ala Ala Lys Arg Val 260 265 270 Lys Leu Asp Gly Gly Gly Gly Ser Thr Gly Met Asp Lys Lys Tyr Ser 275 280 285 Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr 290 295 300 Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr 305 310 315 320 Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp 325 330 335 Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg 340 345 350 Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe 355 360 365 Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu 370 375 380 Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile 385 390 395 400 Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr 405 410 415 Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp 420 425 430 Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly 435 440 445 His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp 450 455 460 Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu 465 470 475 480 Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala 485 490 495 Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro 500 505 510 Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu 515 520 525 Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala 530 535 540 Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu 545 550 555 560 Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys 565 570 575 Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr 580 585 590 Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp 595 600 605 Glu His His Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln 610 615 620 Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly 625 630 635 640 Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys 645 650 655 Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu 660 665 670 Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp 675 680 685 Asn Gly Ser Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile 690 695 700 Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu 705 710 715 720 Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro 725 730 735 Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu 740 745 750 Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala 755 760 765 Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu 770 775 780 Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe 785 790 795 800 Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met 805 810 815 Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp 820 825 830 Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu 835 840 845 Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly 850 855 860 Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu 865 870 875 880 Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp 885 890 895 Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu 900 905 910 Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys 915 920 925 Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu 930 935 940 Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr 945 950 955 960 Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met 965 970 975 Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys 980 985 990 Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn 995 1000 1005 Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val 1010 1015 1020 Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg His Lys Pro 1025 1030 1035 Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr Thr Gln 1040 1045 1050 Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu Glu 1055 1060 1065 Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val 1070 1075 1080 Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu 1085 1090 1095 Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn 1100 1105 1110 Arg Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe 1115 1120 1125 Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp 1130 1135 1140 Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val 1145 1150 1155 Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu 1160 1165 1170 Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly 1175 1180 1185 Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu 1190 1195 1200 Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp 1205 1210 1215 Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg 1220 1225 1230 Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe 1235 1240 1245 Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr 1250 1255 1260 His His Ala His Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala 1265 1270 1275 Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly 1280 1285 1290 Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys Ser Glu 1295 1300 1305 Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn 1310 1315 1320 Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu 1325 1330 1335 Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu 1340 1345 1350 Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val 1355 1360 1365 Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln 1370 1375 1380 Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser 1385 1390 1395 Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr 1400 1405 1410 Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu Val Val 1415 1420 1425 Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser Val Lys 1430 1435 1440 Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe Glu Lys 1445 1450 1455 Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys 1460 1465 1470 Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu 1475 1480 1485 Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu Leu Gln 1490 1495 1500 Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu 1505 1510 1515 Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp 1520 1525 1530 Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His Tyr Leu 1535 1540 1545 Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg Val Ile 1550 1555 1560 Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys 1565 1570 1575 His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile Ile His 1580 1585 1590 Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr 1595 1600 1605 Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu 1610 1615 1620 Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly Leu Tyr 1625 1630 1635 Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp Glu Phe Pro 1640 1645 1650 Lys Lys Lys Arg Lys Val Gly Gly Gly Gly Ser Pro Lys Lys Lys 1655 1660 1665 Arg Lys Val 1670 <210> 50 <211> 1678 <212> PRT <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polypeptide" <400> 50 Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu 1 5 10 15 Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly 20 25 30 Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile 35 40 45 Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 50 55 60 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys 65 70 75 80 Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu 85 90 95 Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu 100 105 110 Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly 115 120 125 Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr 130 135 140 Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn 145 150 155 160 Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser 165 170 175 Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly 180 185 190 Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Lys Leu 195 200 205 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe 210 215 220 Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys Val 225 230 235 240 Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro Gly 245 250 255 Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser Gly Gly 260 265 270 Ser Pro Ala Ala Lys Arg Val Lys Leu Asp Gly Gly Gly Gly Ser Thr 275 280 285 Gly Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser 290 295 300 Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys 305 310 315 320 Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu 325 330 335 Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg 340 345 350 Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile 355 360 365 Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp 370 375 380 Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys 385 390 395 400 Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala 405 410 415 Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val 420 425 430 Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala 435 440 445 His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn 450 455 460 Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr 465 470 475 480 Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp 485 490 495 Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu 500 505 510 Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly 515 520 525 Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn 530 535 540 Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr 545 550 555 560 Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala 565 570 575 Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser 580 585 590 Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala 595 600 605 Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu 610 615 620 Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe 625 630 635 640 Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala 645 650 655 Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met 660 665 670 Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu 675 680 685 Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His 690 695 700 Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro 705 710 715 720 Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg 725 730 735 Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala 740 745 750 Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu 755 760 765 Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met 770 775 780 Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His 785 790 795 800 Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val 805 810 815 Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu 820 825 830 Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val 835 840 845 Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe 850 855 860 Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu 865 870 875 880 Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu 885 890 895 Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu 900 905 910 Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr 915 920 925 Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg 930 935 940 Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg 945 950 955 960 Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly 965 970 975 Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr 980 985 990 Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser 995 1000 1005 Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys 1010 1015 1020 Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys 1025 1030 1035 Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala 1040 1045 1050 Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu 1055 1060 1065 Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln 1070 1075 1080 Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu 1085 1090 1095 Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val 1100 1105 1110 Asp Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp 1115 1120 1125 His Ile Val Pro Gln Ser Phe Leu Ala Asp Asp Ser Ile Asp Asn 1130 1135 1140 Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn 1145 1150 1155 Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg 1160 1165 1170 Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn 1175 1180 1185 Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala 1190 1195 1200 Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys 1205 1210 1215 His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp 1220 1225 1230 Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys 1235 1240 1245 Ser Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys 1250 1255 1260 Val Arg Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu 1265 1270 1275 Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Ala Leu 1280 1285 1290 Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg 1295 1300 1305 Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala 1310 1315 1320 Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu 1325 1330 1335 Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Ala Pro Leu Ile Glu 1340 1345 1350 Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp 1355 1360 1365 Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile 1370 1375 1380 Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser 1385 1390 1395 Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys 1400 1405 1410 Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val 1415 1420 1425 Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser 1430 1435 1440 Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met 1445 1450 1455 Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala 1460 1465 1470 Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro 1475 1480 1485 Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu 1490 1495 1500 Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro 1505 1510 1515 Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys 1520 1525 1530 Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val 1535 1540 1545 Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser 1550 1555 1560 Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys 1565 1570 1575 Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu 1580 1585 1590 Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly 1595 1600 1605 Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys 1610 1615 1620 Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His 1625 1630 1635 Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln 1640 1645 1650 Leu Gly Gly Asp Glu Phe Pro Lys Lys Lys Arg Lys Val Gly Gly 1655 1660 1665 Gly Gly Ser Pro Lys Lys Lys Arg Lys Val 1670 1675 <210> 51 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 51 gaguccgagc agaagaagaa 20 <210> 52 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 52 ggcacugcgg cuggaggugg 20 <210> 53 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 53 ggucacuuuu aacacaccca 20 <210> 54 <211> 55 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, t, g or c <400> 54 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnnc cccagtggct gctct 55 <210> 55 <211> 57 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, t, g or c <400> 55 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ccaggcctcc ccaaagc 57 <210> 56 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, t, g or c <400> 56 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnng gaacccaggt agccagaga 59 <210> 57 <211> 57 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, t, g or c <400> 57 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ggggtggggt cagacgt 57 <210> 58 <211> 59 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, t, g or c <400> 58 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnng cccattccct ctttagcca 59 <210> 59 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, t, g or c <400> 59 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ggagcaggaa agtgaggtta 60 c 61 <210> 60 <211> 61 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (34)..(39) <223> a, t, g or c <400> 60 tcgtcggcag cgtcagatgt gtataagaga cagnnnnnna atggacacat gggtagtcag 60 g 61 <210> 61 <211> 64 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <220> <221> modified_base <222> (35)..(40) <223> a, t, g or c <400> 61 gtctcgtggg ctcggagatg tgtataagag acagnnnnnn ggcttatatc caacacttcg 60 tggg 64 <210> 62 <211> 5076 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 62 atggttagca aaggtgaaga actgtttaca ggtgttgttc cgattctggt tgaactggat 60 ggtgatgtta atggccacaa attttcagtt agcggtgaag gcgaaggtga tgcaacctat 120 ggtaaactga ccctgaaatt tatctgtacc accggcaaac tgccggttcc gtggccgaca 180 ctggttacca cactgaccta tggtgttcag tgttttagcc gttatccgga tcacatgaaa 240 cagcacgatt ttttcaaaag cgcaatgccg gaaggttatg ttcaagaacg taccatcttc 300 ttcaaagatg acggcaacta taaaacccgt gccgaagtta aatttgaagg tgataccctg 360 gtgaatcgca ttgaactgaa aggcatcgat tttaaagagg atggtaatat cctgggccac 420 aaactggaat ataattataa tagccacaac gtgtacatca tggccgacaa acagaaaaat 480 ggcatcaaag tgaacttcaa gatccgccat aatattgaag atggttcagt tcagctggcc 540 gatcattatc agcagaatac cccgattggt gatggtccgg ttctgctgcc ggataatcat 600 tatctgagca cccagagcaa actgagcaaa gatccgaatg aaaaacgtga tcacatggtg 660 ctgctggaat ttgttaccgc agcaggtatt accttaggta tggatgaact gtataaagtc 720 gacgcagaag cagcagcaaa agaagccgct gccaaagaag cggcagcgaa agaggcagcc 780 gcaaaagcac tggaagccga ggctgcggct aaagaggctg ctgcaaaaga agcagccgct 840 aaagaagctg cggctaaggc accggcagca aaacgtgtta aactggacgg tggtggtggt 900 agcaccggta tggacaagaa atacagcatc ggtttggata ttggcacgaa tagcgtgggt 960 tgggccgtta ttaccgacga gtacaaagtg ccgtccaaga aattcaaagt gctgggcaat 1020 accgatcgcc atagcatcaa gaaaaatctg attggcgcac tgctgttcga cagcggtgag 1080 actgccgaag ctacgcgtct gaagcgtacg gcgcgtcgtc gctacacccg ccgtaagaac 1140 cgtatttgct atctgcaaga aatcttcagc aacgaaatgg ccaaagttga tgatagcttt 1200 tttcaccgcc tggaagagag ctttctggtg gaagaggata agaaacacga gcgccatccg 1260 atttttggta acattgtcga tgaagtggca taccatgaga agtacccgac catctaccac 1320 cttcgtaaga aactggtgga cagcaccgat aaagctgatc tgcgtctgat ttacctggcg 1380 ctggcccaca tgattaagtt tcgcggtcat tttctgatcg agggcgatct gaatccggac 1440 aattctgatg ttgacaagct gtttattcaa cttgtacaga cctacaacca gttgttcgaa 1500 gagaacccga tcaatgcgag cggtgttgat gccaaagcaa ttctgagcgc acgcctgagc 1560 aaatctcgcc gtttggagaa cctgattgca cagctgccgg gtgagaagaa aaacggtctg 1620 ttcggcaatc tgattgcact gtccctgggc ttgaccccga attttaagag caacttcgac 1680 ctggccgaag atgcgaagct ccaattgagc aaagacacct acgacgatga cctggacaat 1740 ctgctggccc agattggcga ccagtacgca gatctgttct tggctgcgaa aaacctgagc 1800 gatgcaattc tgctgtcgga catcctgcgc gtgaatacgg aaatcacgaa agcgcctctg 1860 agcgcgtcta tgatcaagcg ctatgacgag caccaccaag atctgaccct gctgaaagct 1920 ctggtgagac aacaattgcc agagaagtat aaagaaattt tctttgacca gagcaaaaac 1980 ggctatgcgg gttacattga cggtggcgcc agccaagaag agttctacaa attcattaag 2040 cctatcctgg agaaaatgga tggcaccgaa gaactgctgg taaagctgaa tcgtgaagat 2100 ctgctgcgca aacagcgcac ttttgataac ggtagcattc cgcaccagat ccatctgggt 2160 gagttgcacg cgattttgcg tcgccaggaa gatttttatc cgttcttgaa agacaaccgt 2220 gagaaaatcg agaaaattct gacgttccgt atcccgtatt atgtcggccc gctggcgcgt 2280 ggtaatagcc gcttcgcgtg gatgacccgc aaatcagagg aaacgattac cccgtggaat 2340 tttgaggaag ttgttgataa gggtgcaagc gcgcagtcgt tcattgagcg tatgaccaac 2400 tttgacaaga atttgccgaa tgaaaaagtc ttgccgaagc actctctgct gtacgagtat 2460 tttaccgttt acaacgaatt gaccaaggtt aaatacgtca ccgaaggcat gcgcaaaccg 2520 gccttcctga gcggcgagca gaaaaaagca atcgttgacc tcttgtttaa gaccaaccgc 2580 aaggttacgg tcaaacaact gaaagaggac tatttcaaga aaattgaatg ttttgactcc 2640 gtagagatct ccggtgttga ggaccgtttc aacgcgagcc tgggcaccta ccatgatctg 2700 ctgaaaatta ttaaagacaa agattttctg gacaacgaag agaacgaaga tattctggaa 2760 gatatcgttc tgaccctgac gctgttcgaa gatcgtgaga tgattgagga acgtctgaaa 2820 acctacgcac acttgttcga tgacaaagtt atgaaacagc tgaagcgtcg tcgttacaca 2880 ggttggggcc gtctgagccg taagcttatc aatggtatcc gtgacaaaca gagcggtaag 2940 acgattctgg actttctgaa gtcagatggc ttcgccaatc gcaactttat gcaactgatt 3000 catgacgact ctctgacgtt caaggaagat atccaaaagg cacaggtgag cggtcagggt 3060 gatagcctgc atgagcatat cgcgaacctg gcgggtagcc cggctatcaa aaagggtatc 3120 ttacagactg tgaaagttgt ggatgaattg gttaaggtta tgggtcgtca caaaccggaa 3180 aatattgtga tcgagatggc acgtgaaaat cagacgacgc aaaagggtca aaaaaattct 3240 cgtgagcgca tgaaacgtat tgaagagggt atcaaagaat tgggcagcca aattctgaaa 3300 gaacacccgg tcgagaacac ccagctgcaa aacgaaaaac tgtatttata ctatctgcag 3360 aacggtcgtg acatgtacgt ggatcaagaa ctggacatca atcgtttgag cgattacgat 3420 gttgatcata ttgtgcctca gagctttctg aaagacgatt cgatcgacaa caaagtgctg 3480 acccgtagcg acaagaatcg tggtaagagc gataacgtgc cgagcgaaga agtcgttaag 3540 aaaatgaaaa actactggcg tcagctgctg aacgccaagc tgattaccca gcgtaagttc 3600 gataacctga cgaaagccga gcgtggaggc ctgagcgagc tggacaaggc cggctttatc 3660 aagcgtcaac tggtggaaac ccgtcagatc actaaacatg tggcacagat cctggactcc 3720 cgcatgaata cgaaatatga cgagaatgac aagttgatcc gtgaagtcaa agttattacg 3780 ctgaaaagca aactggtgtc cgatttccgt aaagacttcc agttctataa agtccgtgaa 3840 atcaacaact atcatcacgc ccacgatgcg tacttgaacg ctgttgtggg caccgcactg 3900 atcaagaaat accctaagct cgaaagcgag tttgtctatg gtgactataa agtttacgac 3960 gtgcgtaaga tgatcgccaa gagcgagcaa gaaattggta aggctaccgc aaagtacttt 4020 ttctacagca acatcatgaa cttcttcaaa accgagatta ccctggcgaa cggtgagatc 4080 cgtaaacggc cgctgattga gactaatggc gaaacgggcg agattgtgtg ggacaagggt 4140 cgcgatttcg ctacggttcg taaggtcctg agcatgccgc aagttaacat tgtcaagaaa 4200 actgaagtgc agacgggtgg ctttagcaaa gaatccatcc tgccgaagcg taatagcgat 4260 aaacttatcg cgcgtaaaaa agactgggac ccaaagaaat atggcggctt tgatagcccg 4320 accgtcgcgt atagcgtgtt agtggtcgcg aaagttgaaa agggcaagag caagaaactg 4380 aagtccgtca aagaacttct gggtatcacc atcatggaac gtagctcctt tgagaagaac 4440 ccgattgact tcttagaggc gaagggttat aaagaagtca aaaaagacct gattatcaag 4500 ctgccgaagt acagcctgtt tgagttggag aatggtcgta agcgcatgct ggcgagcgcg 4560 ggtgagctgc aaaagggcaa cgaactggcg ctgccgtcga aatacgtcaa ttttctgtac 4620 ctggccagcc actacgaaaa gctgaagggt tctccggaag ataacgaaca aaagcaactg 4680 ttcgttgagc aacataaaca ctacttggac gaaatcatcg agcaaattag cgaatttagc 4740 aaacgtgtca tcctggcgga cgcgaatctg gacaaggtcc tgtctgcata caataagcat 4800 cgcgacaaac caattcgtga gcaagcggag aatatcatcc acctgtttac gctgaccaac 4860 ctaggtgcgc cggcggcatt caagtatttc gatacgacca tcgaccgcaa gcgctatacc 4920 agcaccaaag aggtcctgga cgcgaccctg atccaccaga gcattaccgg cttatacgaa 4980 acccgtattg atttgagcca actgggtggc gatgaattcc cgaaaaaaaa gcgcaaagtt 5040 ggtggcggtg gtagcccgaa aaagaaacgt aaagtg 5076 <210> 63 <211> 5013 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 63 atggttagca aaggtgaagc cgtgattaaa gaatttatgc gctttaaggt tcacatggaa 60 ggtagcatga atggccatga atttgaaatt gaaggtgaag gcgaaggtcg tccgtatgaa 120 ggcacccaga ccgcaaaact gaaagttacc aaaggtggtc cgctgccgtt tagctgggat 180 attctgagtc cgcagtttat gtatggtagc cgtgcattta ccaaacatcc ggcagatatt 240 ccggattatt acaaacagag ctttccggaa ggttttaaat gggaacgtgt gatgaatttt 300 gaagatggtg gtgcagttac cgttacacag gataccagcc tggaagatgg caccctgatc 360 tataaagtta aactgcgtgg caccaatttt ccgcctgatg gtccggttat gcagaaaaaa 420 acaatgggtt gggaagcaag caccgaacgt ctgtatcctg aagatggcgt tctgaaaggt 480 gatatcaaaa tggcactgcg tctgaaagat ggcggtcgtt atctggcaga tttcaaaacc 540 acctataaag ccaaaaaacc tgttcagatg cctggtgcct ataatgttga tcgtaaactg 600 gatattacca gccacaacga agattatacc gttgtggaac agtatgaacg tagcgaaggc 660 cgtcatagca caggtggtat ggatgaactg tataaagtcg acagcggtgg tagcagcggt 720 ggttcaagcg gtagcgaaac accgggtaca agcgaaagcg caacaccgga aagcagtggt 780 ggtagttcag gtggtagtcc ggcagcaaaa cgtgtgaaac tggatggcgg tggcggtagc 840 accggtatgg acaagaaata cagcatcggt ttggatattg gcacgaatag cgtgggttgg 900 gccgttatta ccgacgagta caaagtgccg tccaagaaat tcaaagtgct gggcaatacc 960 gatcgccata gcatcaagaa aaatctgatt ggcgcactgc tgttcgacag cggtgagact 1020 gccgaagcta cgcgtctgaa gcgtacggcg cgtcgtcgct acacccgccg taagaaccgt 1080 atttgctatc tgcaagaaat cttcagcaac gaaatggcca aagttgatga tagctttttt 1140 caccgcctgg aagagagctt tctggtggaa gaggataaga aacacgagcg ccatccgatt 1200 tttggtaaca ttgtcgatga agtggcatac catgagaagt acccgaccat ctaccacctt 1260 cgtaagaaac tggtggacag caccgataaa gctgatctgc gtctgattta cctggcgctg 1320 gcccacatga ttaagtttcg cggtcatttt ctgatcgagg gcgatctgaa tccggacaat 1380 tctgatgttg acaagctgtt tattcaactt gtacagacct acaaccagtt gttcgaagag 1440 aacccgatca atgcgagcgg tgttgatgcc aaagcaattc tgagcgcacg cctgagcaaa 1500 tctcgccgtt tggagaacct gattgcacag ctgccgggtg agaagaaaaa cggtctgttc 1560 ggcaatctga ttgcactgtc cctgggcttg accccgaatt ttaagagcaa cttcgacctg 1620 gccgaagatg cgaagctcca attgagcaaa gacacctacg acgatgacct ggacaatctg 1680 ctggcccaga ttggcgacca gtacgcagat ctgttcttgg ctgcgaaaaa cctgagcgat 1740 gcaattctgc tgtcggacat cctgcgcgtg aatacggaaa tcacgaaagc gcctctgagc 1800 gcgtctatga tcaagcgcta tgacgagcac caccaagatc tgaccctgct gaaagctctg 1860 gtgagacaac aattgccaga gaagtataaa gaaattttct ttgaccagag caaaaacggc 1920 tatgcgggtt acattgacgg tggcgccagc caagaagagt tctacaaatt cattaagcct 1980 atcctggaga aaatggatgg caccgaagaa ctgctggtaa agctgaatcg tgaagatctg 2040 ctgcgcaaac agcgcacttt tgataacggt agcattccgc accagatcca tctgggtgag 2100 ttgcacgcga ttttgcgtcg ccaggaagat ttttatccgt tcttgaaaga caaccgtgag 2160 aaaatcgaga aaattctgac gttccgtatc ccgtattatg tcggcccgct ggcgcgtggt 2220 aatagccgct tcgcgtggat gacccgcaaa tcagaggaaa cgattacccc gtggaatttt 2280 gaggaagttg ttgataaggg tgcaagcgcg cagtcgttca ttgagcgtat gaccaacttt 2340 gacaagaatt tgccgaatga aaaagtcttg ccgaagcact ctctgctgta cgagtatttt 2400 accgtttaca acgaattgac caaggttaaa tacgtcaccg aaggcatgcg caaaccggcc 2460 ttcctgagcg gcgagcagaa aaaagcaatc gttgacctct tgtttaagac caaccgcaag 2520 gttacggtca aacaactgaa agaggactat ttcaagaaaa ttgaatgttt tgactccgta 2580 gagatctccg gtgttgagga ccgtttcaac gcgagcctgg gcacctacca tgatctgctg 2640 aaaattatta aagacaaaga ttttctggac aacgaagaga acgaagatat tctggaagat 2700 atcgttctga ccctgacgct gttcgaagat cgtgagatga ttgaggaacg tctgaaaacc 2760 tacgcacact tgttcgatga caaagttatg aaacagctga agcgtcgtcg ttacacaggt 2820 tggggccgtc tgagccgtaa gcttatcaat ggtatccgtg acaaacagag cggtaagacg 2880 attctggact ttctgaagtc agatggcttc gccaatcgca actttatgca actgattcat 2940 gacgactctc tgacgttcaa ggaagatatc caaaaggcac aggtgagcgg tcagggtgat 3000 agcctgcatg agcatatcgc gaacctggcg ggtagcccgg ctatcaaaaa gggtatctta 3060 cagactgtga aagttgtgga tgaattggtt aaggttatgg gtcgtcacaa accggaaaat 3120 attgtgatcg agatggcacg tgaaaatcag acgacgcaaa agggtcaaaa aaattctcgt 3180 gagcgcatga aacgtattga agagggtatc aaagaattgg gcagccaaat tctgaaagaa 3240 cacccggtcg agaacaccca gctgcaaaac gaaaaactgt atttatacta tctgcagaac 3300 ggtcgtgaca tgtacgtgga tcaagaactg gacatcaatc gtttgagcga ttacgatgtt 3360 gatcatattg tgcctcagag ctttctgaaa gacgattcga tcgacaacaa agtgctgacc 3420 cgtagcgaca agaatcgtgg taagagcgat aacgtgccga gcgaagaagt cgttaagaaa 3480 atgaaaaact actggcgtca gctgctgaac gccaagctga ttacccagcg taagttcgat 3540 aacctgacga aagccgagcg tggaggcctg agcgagctgg acaaggccgg ctttatcaag 3600 cgtcaactgg tggaaacccg tcagatcact aaacatgtgg cacagatcct ggactcccgc 3660 atgaatacga aatatgacga gaatgacaag ttgatccgtg aagtcaaagt tattacgctg 3720 aaaagcaaac tggtgtccga tttccgtaaa gacttccagt tctataaagt ccgtgaaatc 3780 aacaactatc atcacgccca cgatgcgtac ttgaacgctg ttgtgggcac cgcactgatc 3840 aagaaatacc ctaagctcga aagcgagttt gtctatggtg actataaagt ttacgacgtg 3900 cgtaagatga tcgccaagag cgagcaagaa attggtaagg ctaccgcaaa gtactttttc 3960 tacagcaaca tcatgaactt cttcaaaacc gagattaccc tggcgaacgg tgagatccgt 4020 aaacggccgc tgattgagac taatggcgaa acgggcgaga ttgtgtggga caagggtcgc 4080 gatttcgcta cggttcgtaa ggtcctgagc atgccgcaag ttaacattgt caagaaaact 4140 gaagtgcaga cgggtggctt tagcaaagaa tccatcctgc cgaagcgtaa tagcgataaa 4200 cttatcgcgc gtaaaaaaga ctgggaccca aagaaatatg gcggctttga tagcccgacc 4260 gtcgcgtata gcgtgttagt ggtcgcgaaa gttgaaaagg gcaagagcaa gaaactgaag 4320 tccgtcaaag aacttctggg tatcaccatc atggaacgta gctcctttga gaagaacccg 4380 attgacttct tagaggcgaa gggttataaa gaagtcaaaa aagacctgat tatcaagctg 4440 ccgaagtaca gcctgtttga gttggagaat ggtcgtaagc gcatgctggc gagcgcgggt 4500 gagctgcaaa agggcaacga actggcgctg ccgtcgaaat acgtcaattt tctgtacctg 4560 gccagccact acgaaaagct gaagggttct ccggaagata acgaacaaaa gcaactgttc 4620 gttgagcaac ataaacacta cttggacgaa atcatcgagc aaattagcga atttagcaaa 4680 cgtgtcatcc tggcggacgc gaatctggac aaggtcctgt ctgcatacaa taagcatcgc 4740 gacaaaccaa ttcgtgagca agcggagaat atcatccacc tgtttacgct gaccaaccta 4800 ggtgcgccgg cggcattcaa gtatttcgat acgaccatcg accgcaagcg ctataccagc 4860 accaaagagg tcctggacgc gaccctgatc caccagagca ttaccggctt atacgaaacc 4920 cgtattgatt tgagccaact gggtggcgat gaattcccga aaaaaaagcg caaagttggt 4980 ggcggtggta gcccgaaaaa gaaacgtaaa gtg 5013 <210> 64 <211> 5034 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic polynucleotide" <400> 64 atggttagca aaggtgaaga actgtttaca ggtgttgttc cgattctggt tgaactggat 60 ggtgatgtta atggccacaa attttcagtt agcggtgaag gcgaaggtga tgcaacctat 120 ggtaaactga ccctgaaatt tatctgtacc accggcaaac tgccggttcc gtggccgaca 180 ctggttacca cactgaccta tggtgttcag tgttttagcc gttatccgga tcacatgaaa 240 cagcacgatt ttttcaaaag cgcaatgccg gaaggttatg ttcaagaacg taccatcttc 300 ttcaaagatg acggcaacta taaaacccgt gccgaagtta aatttgaagg tgataccctg 360 gtgaatcgca ttgaactgaa aggcatcgat tttaaagagg atggtaatat cctgggccac 420 aaactggaat ataattataa tagccacaac gtgtacatca tggccgacaa acagaaaaat 480 ggcatcaaag tgaacttcaa gatccgccat aatattgaag atggttcagt tcagctggcc 540 gatcattatc agcagaatac cccgattggt gatggtccgg ttctgctgcc ggataatcat 600 tatctgagca cccagagcaa actgagcaaa gatccgaatg aaaaacgtga tcacatggtg 660 ctgctggaat ttgttaccgc agcaggtatt accttaggta tggatgaact gtataaagtc 720 gacagcggtg gtagcagcgg tggttcaagc ggtagcgaaa caccgggtac aagcgaaagc 780 gcaacaccgg aaagcagtgg tggtagctca ggtggtagtc cggcagcaaa acgtgttaaa 840 ctggacggtg gtggtggtag caccggtatg gacaagaaat acagcatcgg tttggatatt 900 ggcacgaata gcgtgggttg ggccgttatt accgacgagt acaaagtgcc gtccaagaaa 960 ttcaaagtgc tgggcaatac cgatcgccat agcatcaaga aaaatctgat tggcgcactg 1020 ctgttcgaca gcggtgagac tgccgaagct acgcgtctga agcgtacggc gcgtcgtcgc 1080 tacacccgcc gtaagaaccg tatttgctat ctgcaagaaa tcttcagcaa cgaaatggcc 1140 aaagttgatg atagcttttt tcaccgcctg gaagagagct ttctggtgga agaggataag 1200 aaacacgagc gccatccgat ttttggtaac attgtcgatg aagtggcata ccatgagaag 1260 tacccgacca tctaccacct tcgtaagaaa ctggtggaca gcaccgataa agctgatctg 1320 cgtctgattt acctggcgct ggcccacatg attaagtttc gcggtcattt tctgatcgag 1380 ggcgatctga atccggacaa ttctgatgtt gacaagctgt ttattcaact tgtacagacc 1440 tacaaccagt tgttcgaaga gaacccgatc aatgcgagcg gtgttgatgc caaagcaatt 1500 ctgagcgcac gcctgagcaa atctcgccgt ttggagaacc tgattgcaca gctgccgggt 1560 gagaagaaaa acggtctgtt cggcaatctg attgcactgt ccctgggctt gaccccgaat 1620 tttaagagca acttcgacct ggccgaagat gcgaagctcc aattgagcaa agacacctac 1680 gacgatgacc tggacaatct gctggcccag attggcgacc agtacgcaga tctgttcttg 1740 gctgcgaaaa acctgagcga tgcaattctg ctgtcggaca tcctgcgcgt gaatacggaa 1800 atcacgaaag cgcctctgag cgcgtctatg atcaagcgct atgacgagca ccaccaagat 1860 ctgaccctgc tgaaagctct ggtgagacaa caattgccag agaagtataa agaaattttc 1920 tttgaccaga gcaaaaacgg ctatgcgggt tacattgacg gtggcgccag ccaagaagag 1980 ttctacaaat tcattaagcc tatcctggag aaaatggatg gcaccgaaga actgctggta 2040 aagctgaatc gtgaagatct gctgcgcaaa cagcgcactt ttgataacgg tagcattccg 2100 caccagatcc atctgggtga gttgcacgcg attttgcgtc gccaggaaga tttttatccg 2160 ttcttgaaag acaaccgtga gaaaatcgag aaaattctga cgttccgtat cccgtattat 2220 gtcggcccgc tggcgcgtgg taatagccgc ttcgcgtgga tgacccgcaa atcagaggaa 2280 acgattaccc cgtggaattt tgaggaagtt gttgataagg gtgcaagcgc gcagtcgttc 2340 attgagcgta tgaccaactt tgacaagaat ttgccgaatg aaaaagtctt gccgaagcac 2400 tctctgctgt acgagtattt taccgtttac aacgaattga ccaaggttaa atacgtcacc 2460 gaaggcatgc gcaaaccggc cttcctgagc ggcgagcaga aaaaagcaat cgttgacctc 2520 ttgtttaaga ccaaccgcaa ggttacggtc aaacaactga aagaggacta tttcaagaaa 2580 attgaatgtt ttgactccgt agagatctcc ggtgttgagg accgtttcaa cgcgagcctg 2640 ggcacctacc atgatctgct gaaaattatt aaagacaaag attttctgga caacgaagag 2700 aacgaagata ttctggaaga tatcgttctg accctgacgc tgttcgaaga tcgtgagatg 2760 attgaggaac gtctgaaaac ctacgcacac ttgttcgatg acaaagttat gaaacagctg 2820 aagcgtcgtc gttacacagg ttggggccgt ctgagccgta agcttatcaa tggtatccgt 2880 gacaaacaga gcggtaagac gattctggac tttctgaagt cagatggctt cgccaatcgc 2940 aactttatgc aactgattca tgacgactct ctgacgttca aggaagatat ccaaaaggca 3000 caggtgagcg gtcagggtga tagcctgcat gagcatatcg cgaacctggc gggtagcccg 3060 gctatcaaaa agggtatctt acagactgtg aaagttgtgg atgaattggt taaggttatg 3120 ggtcgtcaca aaccggaaaa tattgtgatc gagatggcac gtgaaaatca gacgacgcaa 3180 aagggtcaaa aaaattctcg tgagcgcatg aaacgtattg aagagggtat caaagaattg 3240 ggcagccaaa ttctgaaaga acacccggtc gagaacaccc agctgcaaaa cgaaaaactg 3300 tatttatact atctgcagaa cggtcgtgac atgtacgtgg atcaagaact ggacatcaat 3360 cgtttgagcg attacgatgt tgatcatatt gtgcctcaga gctttctggc ggacgattcg 3420 atcgacaaca aagtgctgac ccgtagcgac aagaatcgtg gtaagagcga taacgtgccg 3480 agcgaagaag tcgttaagaa aatgaaaaac tactggcgtc agctgctgaa cgccaagctg 3540 attacccagc gtaagttcga taacctgacg aaagccgagc gtggaggcct gagcgagctg 3600 gacaaggccg gctttatcaa gcgtcaactg gtggaaaccc gtcagatcac taaacatgtg 3660 gcacagatcc tggactcccg catgaatacg aaatatgacg agaatgacaa gttgatccgt 3720 gaagtcaaag ttattacgct gaaaagcaaa ctggtgtccg atttccgtaa agacttccag 3780 ttctataaag tccgtgaaat caacaactat catcacgccc acgatgcgta cttgaacgct 3840 gttgtgggca ccgcactgat caagaaatac cctgcactcg aaagcgagtt tgtctatggt 3900 gactataaag tttacgacgt gcgtaagatg atcgccaaga gcgagcaaga aattggtaag 3960 gctaccgcaa agtacttttt ctacagcaac atcatgaact tcttcaaaac cgagattacc 4020 ctggcgaacg gtgagatccg taaagcgccg ctgattgaga ctaatggcga aacgggcgag 4080 attgtgtggg acaagggtcg cgatttcgct acggttcgta aggtcctgag catgccgcaa 4140 gttaacattg tcaagaaaac tgaagtgcag acgggtggct ttagcaaaga atccatcctg 4200 ccgaagcgta atagcgataa acttatcgcg cgtaaaaaag actgggaccc aaagaaatat 4260 ggcggctttg atagcccgac cgtcgcgtat agcgtgttag tggtcgcgaa agttgaaaag 4320 ggcaagagca agaaactgaa gtccgtcaaa gaacttctgg gtatcaccat catggaacgt 4380 agctcctttg agaagaaccc gattgacttc ttagaggcga agggttataa agaagtcaaa 4440 aaagacctga ttatcaagct gccgaagtac agcctgtttg agttggagaa tggtcgtaag 4500 cgcatgctgg cgagcgcggg tgagctgcaa aagggcaacg aactggcgct gccgtcgaaa 4560 tacgtcaatt ttctgtacct ggccagccac tacgaaaagc tgaagggttc tccggaagat 4620 aacgaacaaa agcaactgtt cgttgagcaa cataaacact acttggacga aatcatcgag 4680 caaattagcg aatttagcaa acgtgtcatc ctggcggacg cgaatctgga caaggtcctg 4740 tctgcataca ataagcatcg cgacaaacca attcgtgagc aagcggagaa tatcatccac 4800 ctgtttacgc tgaccaacct aggtgcgccg gcggcattca agtatttcga tacgaccatc 4860 gaccgcaagc gctataccag caccaaagag gtcctggacg cgaccctgat ccaccagagc 4920 attaccggct tatacgaaac ccgtattgat ttgagccaac tgggtggcga tgaattcccg 4980 aaaaaaaagc gcaaagttgg tggcggtggt agcccgaaaa agaaacgtaa agtg 5034 <210> 65 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 65 gcucccauca caucaaccgg 20 <210> 66 <211> 20 <212> RNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 66 ggugagugag ugugugcgug 20

Claims (37)

  1. 적어도 하나의 마커 단백질에 연결된 Cas9 단백질을 포함하는 융합 단백질.
  2. 청구항 1에 있어서, 적어도 하나의 마커 단백질은 화학 결합에 의해 직접적으로, 링커에 의해 간접적으로, 또는 이의 조합으로 Cas9 단백질에 연결되는, 융합 단백질.
  3. 청구항 1에 있어서, 적어도 하나의 마커 단백질은 직접적으로 또는 링커에 의해 간접적으로 Cas9 단백질에 연결되는, 융합 단백질.
  4. 청구항 1 내지 3 중 어느 한 항에 있어서, 적어도 하나의 마커 단백질은 N-말단, C-말단, 내부 위치, 또는 이의 조합에서 Cas9 단백질에 연결되는, 융합 단백질.
  5. 청구항 1 내지 4 중 어느 한 항에 있어서, 적어도 하나의 핵 위치화 신호를 추가로 포함하는, 융합 단백질.
  6. 청구항 5에 있어서, 핵 위치화 신호, 마커 단백질, 링커 및 Cas9 단백질은 (N-말단에서 C-말단으로) 다음 순서로 배열되는, 융합 단백질:
    마커 단백질 - 링커 - 핵 위치화 신호 - Cas9 단백질;
    마커 단백질 - 핵 위치화 신호 - 링커 - Cas9 단백질;
    핵 위치화 신호 - 링커 - 마커 단백질 - Cas9 단백질;
    핵 위치화 신호 - 마커 단백질 - 링커 - Cas9 단백질;
    마커 단백질 - 링커 - 핵 위치화 신호 - 링커 - Cas9 단백질; 또는
    핵 위치화 신호 - 링커 - 마커 단백질 - 링커 - Cas9 단백질.
  7. 청구항 6에 있어서, 핵 위치화 신호, 마커 단백질, 링커 및 Cas9 단백질은 (N-말단에서 C-말단으로) 다음 순서로 배열되는, 융합 단백질:
    마커 단백질 - 링커 - 핵 위치화 신호 - Cas9 단백질.
  8. 청구항 1 내지 7 중 어느 한 항에 있어서, 적어도 하나의 이종 도메인을 추가로 포함하는, 융합 단백질.
  9. 청구항 8에 있어서, 적어도 하나의 이종 도메인은 세포-침투 도메인, 염색질 조절 모티프, 후성 변형 도메인, 전사 조절 도메인, RNA 압타머 결합 도메인, 또는 이의 조합인, 융합 단백질.
  10. 청구항 1 내지 9중 어느 한 항에 있어서, 융합 단백질은, 뉴클레아제이고 이중 가닥 서열의 두 가닥 모두를 절단하거나, 니카아제이고 이중 가닥 서열 중 한 가닥을 절단하거나, 뉴클레아제 또는 니카아제 활성을 가지지 않는, 융합 단백질.
  11. 청구항 1 내지 10 중 어느 한 항에 있어서, cas9 단백질은 스트렙토코쿠스 피오게네스 (Streptococcus pyogenes), 스트렙토코쿠스 써모필루스 (Streptococcus thermophilus), 네이세리아 메닝기티디스 (Neisseria meningitidis), 스타필로코쿠스 아우레우스 (Staphylococcus aureus), 또는 캄필로박터 제주니 (Campylobacter jejuni)에서 유래하는, 융합 단백질.
  12. 청구항 1 내지 11 중 어느 한 항에 있어서, 마커 단백질은 서열 번호: 19 또는 20과 적어도 90% 서열 동일성을 가지는 아미노산 서열을 가지는, 융합 단백질.
  13. 청구항 1 내지 11 중 어느 한 항에 있어서, 마커 단백질은 서열 번호: 19 또는 20에 제시된 아미노산 서열을 가지는, 융합 단백질.
  14. 청구항 3 내지 13 중 어느 한 항에 있어서, 링커는 서열 번호: 35 또는 36과 적어도 90% 서열 동일성을 가지는 아미노산 서열을 가지는, 융합 단백질.
  15. 청구항 3 내지 13 중 어느 한 항에 있어서, 링커는 서열 번호: 35 또는 36에 제시된 아미노산 서열을 가지는, 융합 단백질.
  16. 청구항 3 내지 15 중 어느 한 항에 있어서, 융합 단백질은 서열 번호: 48, 49, 또는 50과 적어도 90% 서열 동일성을 가지는 아미노산 서열을 가지는, 융합 단백질.
  17. 청구항 3 내지 15 중 어느 한 항에 있어서, 융합 단백질은 서열 번호: 48, 49, 또는 50에 제시된 아미노산 서열을 가지는, 융합 단백질.
  18. 청구항 1 내지 17 중 어느 한 항의 융합 단백질 및 조작된 가이드 RNA를 포함하는 시스템.
  19. 청구항 18에 있어서, 조작된 가이드 RNA는 단일 분자인, 시스템.
  20. 청구항 18 내지 19 중 어느 한 항에 있어서, 조작된 가이드 RNA 서열은 진핵 세포내의 조작된 가이드 RNA 내부에서 염기 페어링을 촉진하거나, 조작된 가이드 RNA 내부에서 염기 페어링을 최소화하거나, 조작된 가이드 RNA의 안정성을 증가시키거나, 조작된 가이드 RNA의 전사를 촉진하거나, 또는 이의 조합인, 시스템.
  21. 청구항 1 내지 17 중 어느 한 항의 융합 단백질을 인코딩하는 복수의 핵산.
  22. 청구항 18 내지 20 중 어느 한 항의 시스템을 인코딩하는 복수의 핵산으로서, 이러한 복수의 핵산은 융합 단백질을 인코딩하는 적어도 하나의 핵산, 및 조작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산을 포함하는, 복수의 핵산.
  23. 청구항 14에 있어서, 융합 단백질을 인코딩하는 적어도 하나의 핵산은 RNA인, 복수의 핵산.
  24. 청구항 14에 있어서, 융합 단백질을 인코딩하는 적어도 하나의 핵산은 DNA인, 복수의 핵산.
  25. 청구항 21 내지 24 중 어느 한 항에 있어서, 융합 단백질을 인코딩하는 적어도 하나의 핵산은 진핵 세포에서의 발현에 코돈 최적화되는, 복수의 핵산.
  26. 청구항 25에 있어서, 진핵 세포는 인간 세포, 비-인간 포유동물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 식물 세포, 또는 단세포 진핵 유기체인, 복수의 핵산.
  27. 청구항 22 내지 26 중 어느 한 항에 있어서, 조작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 DNA인, 복수의 핵산.
  28. 청구항 22내지 27 중 어느 한 항에 있어서, 융합 단백질을 인코딩하는 적어도 하나의 핵산은 시험관내 RNA 합성 또는 박테리아 세포에서 단백질 발현을 위해 파지 프로모터 서열에 작동가능하게 연결되고, 상기 조작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 시험관내 RNA 합성을 위해 파지 프로모터 서열에 작동가능하게 연결되는, 복수의 핵산.
  29. 청구항 22 내지 27 중 어느 한 항에 있어서, 융합 단백질을 인코딩하는 적어도 하나의 핵산은 진핵 세포에서 발현을 위해 진핵 프로모터 서열에 작동가능하게 연결되고, 상기 조작된 가이드 RNA를 인코딩하는 적어도 하나의 핵산은 진핵 세포에서 발현을 위해 진핵 프로모터 서열에 작동가능하게 연결되는, 복수의 핵산.
  30. 청구항 21 내지 29 중 어느 한 항의 복수의 핵산을 포함하는 적어도 하나의 벡터.
  31. 청구항 30에 있어서, 플라스미드 벡터, 바이러스 벡터, 또는 자가-복제 바이러스 RNA 레플리콘인, 적어도 하나의 벡터.
  32. 청구항 1 내지 17에 정의된 융합 단백질, 청구항 18 내지 20에 정의된 시스템, 청구항 21 내지 29에 정의된 복수의 핵산, 또는 청구항 30 내지 31에 정의된 적어도 하나의 벡터를 포함하는 적어도 하나의 시스템을 포함하는 진핵 세포.
  33. 청구항 32에 있어서, 인간 세포, 비-인간 포유동물 세포, 식물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 또는 단세포 진핵 유기체인, 진핵 세포.
  34. 청구항 32 내지 33 중 어느 한 항에 있어서, 생체내, 생체외, 또는 시험관내인, 진핵 세포.
  35. 청구항 1 내지 31 중 어느 한 항의 융합 단백질, 시스템, 복수의 핵산, 또는 벡터를 살아있는 또는 화학적으로 고정된 진핵 세포에 도입하는 단계 및 마커 단백질로부터의 신호를 탐지하는 단계를 포함하는, 살아있는 진핵 세포 또는 화학적으로 고정된 진핵 세포 내에서 염색체 동일성 및 위치를 결정하는 방법.
  36. 청구항 35에 있어서, 진핵 세포는 인간 세포, 비-인간 포유동물 세포, 식물 세포, 비-포유동물 척추동물 세포, 무척추동물 세포, 또는 단세포 진핵 유기체인, 방법.
  37. 청구항 35 내지 36 중 어느 한 항에 있어서, 진핵 세포는 생체내, 생체외 또는 시험관내에 존재하는, 방법.
KR1020217029732A 2019-02-15 2020-02-13 Crispr/cas 융합 단백질 및 시스템 KR20210139271A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962806708P 2019-02-15 2019-02-15
US62/806,708 2019-02-15
PCT/US2020/018145 WO2020168102A1 (en) 2019-02-15 2020-02-13 Crispr/cas fusion proteins and systems

Publications (1)

Publication Number Publication Date
KR20210139271A true KR20210139271A (ko) 2021-11-22

Family

ID=70166116

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217029732A KR20210139271A (ko) 2019-02-15 2020-02-13 Crispr/cas 융합 단백질 및 시스템

Country Status (11)

Country Link
US (3) US10947517B2 (ko)
EP (1) EP3924475A1 (ko)
JP (2) JP2022520104A (ko)
KR (1) KR20210139271A (ko)
CN (1) CN113728099A (ko)
AU (2) AU2020221274B2 (ko)
BR (1) BR112021016019A2 (ko)
CA (1) CA3129835A1 (ko)
IL (1) IL285300A (ko)
SG (1) SG11202108812SA (ko)
WO (1) WO2020168102A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3129835A1 (en) 2019-02-15 2020-08-20 Sigma-Aldrich Co. Llc Crispr/cas fusion proteins and systems
WO2023039424A2 (en) * 2021-09-08 2023-03-16 Flagship Pioneering Innovations Vi, Llc Methods and compositions for modulating a genome
US20230265405A1 (en) * 2022-02-22 2023-08-24 Massachusetts Institute Of Technology Engineered nucleases and methods of use thereof

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002360424A1 (en) 2001-11-26 2003-06-10 Advanced Cell Technology, Inc. Methods for making and using reprogrammed human somatic cell nuclei and autologous and isogenic human stem cells
ES2728782T3 (es) 2012-05-25 2019-10-28 Univ California Métodos y composiciones para la modificación de ADN objetivo dirigida por ARN y para la modulación de la transcripción dirigida por ARN
KR102243092B1 (ko) * 2012-12-06 2021-04-22 시그마-알드리치 컴퍼니., 엘엘씨 Crispr-기초된 유전체 변형과 조절
WO2014186686A2 (en) * 2013-05-17 2014-11-20 Two Blades Foundation Targeted mutagenesis and genome engineering in plants using rna-guided cas nucleases
US10301629B2 (en) * 2013-06-11 2019-05-28 Portage Pharmaceuticals Ltd. Structure, manufacturing and uses of human-derived cell-permeable peptides conjugated with specific biologically active cargo peptides
WO2015089486A2 (en) 2013-12-12 2015-06-18 The Broad Institute Inc. Systems, methods and compositions for sequence manipulation with optimized functional crispr-cas systems
JP6605482B2 (ja) * 2014-02-19 2019-11-13 バイオアシス テクノロジーズ インコーポレイテッド P97−ids融合タンパク質
US11242525B2 (en) 2014-03-26 2022-02-08 Editas Medicine, Inc. CRISPR/CAS-related methods and compositions for treating sickle cell disease
IL287561B2 (en) 2014-10-01 2024-03-01 Massachusetts Gen Hospital Methods for increasing the efficiency of nuclease-induced homology-directed repair
WO2016210271A1 (en) 2015-06-24 2016-12-29 Sigma-Aldrich Co. Llc Cell cycle dependent genome regulation and modification
WO2017131150A1 (ja) * 2016-01-29 2017-08-03 国立大学法人東京大学 Cas9-gRNA複合体の製造方法、Cas9-gRNA複合体の細胞核内への導入方法、及び細胞内における標的遺伝子の改変方法
WO2017173004A1 (en) * 2016-03-30 2017-10-05 Mikuni Takayasu A method for in vivo precise genome editing
US11236313B2 (en) 2016-04-13 2022-02-01 Editas Medicine, Inc. Cas9 fusion molecules, gene editing systems, and methods of use thereof
CN107579793A (zh) * 2016-07-04 2018-01-12 中兴通讯股份有限公司 一种通信网络设备间时间同步的优化方法、装置及设备
JP7231935B2 (ja) * 2016-08-03 2023-03-08 プレジデント アンド フェローズ オブ ハーバード カレッジ アデノシン核酸塩基編集因子およびそれらの使用
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
KR20240007715A (ko) * 2016-10-14 2024-01-16 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 핵염기 에디터의 aav 전달
KR20190104342A (ko) 2016-12-14 2019-09-09 바게닝겐 유니버시테이트 열안정성 cas9 뉴클레아제
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
GB201710973D0 (en) 2017-07-07 2017-08-23 Avacta Life Sciences Ltd Scaffold proteins
MX2020001340A (es) 2017-07-31 2020-08-31 Reflection Biotechnologies Ltd Modelos celulares y terapias para enfermedades oculares.
US11071791B2 (en) * 2018-01-26 2021-07-27 Wisconsin Alumni Research Foundation Vector for gene silencing and replacement and methods of use thereof
SG11202007382TA (en) 2018-02-15 2020-08-28 Sigma Aldrich Co Llc Engineered cas9 systems for eukaryotic genome modification
SI3765615T1 (sl) * 2018-03-14 2023-10-30 Arbor Biotechnologies, Inc. Nova crispr dnk cilja na encime in sisteme
CA3129835A1 (en) 2019-02-15 2020-08-20 Sigma-Aldrich Co. Llc Crispr/cas fusion proteins and systems

Also Published As

Publication number Publication date
JP2023156365A (ja) 2023-10-24
US20210163910A1 (en) 2021-06-03
US10947517B2 (en) 2021-03-16
IL285300A (en) 2021-09-30
EP3924475A1 (en) 2021-12-22
US11965184B2 (en) 2024-04-23
WO2020168102A1 (en) 2020-08-20
CN113728099A (zh) 2021-11-30
CA3129835A1 (en) 2020-08-20
SG11202108812SA (en) 2021-09-29
BR112021016019A2 (pt) 2021-10-05
US20230287377A1 (en) 2023-09-14
AU2020221274A1 (en) 2021-08-26
JP2022520104A (ja) 2022-03-28
US20200263155A1 (en) 2020-08-20
AU2020221274B2 (en) 2024-02-08
AU2024202275A1 (en) 2024-05-23

Similar Documents

Publication Publication Date Title
KR102458395B1 (ko) 프로그램가능한 dna 결합 단백질을 사용한, 표적화된 게놈 변형의 개선
KR102655021B1 (ko) 표적된 게놈 변형을 개선하기 위한 뉴클레오솜 상호작용 단백질 도메인 사용
KR102494449B1 (ko) 진핵 게놈 변형을 위한 조작된 cas9 시스템
EP3138909A1 (en) Crispr-based genome modification and regulation
US11965184B2 (en) CRISPR/Cas fusion proteins and systems
JP2020530992A (ja) Crispr/casアクチベーターシステムのための合成ガイドrna
US20230058352A1 (en) High Fidelity SpCas9 Nucleases for Genome Modification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal