KR100961722B1 - 징크 핑거 도메인 라이브러리 - Google Patents

징크 핑거 도메인 라이브러리 Download PDF

Info

Publication number
KR100961722B1
KR100961722B1 KR1020047002305A KR20047002305A KR100961722B1 KR 100961722 B1 KR100961722 B1 KR 100961722B1 KR 1020047002305 A KR1020047002305 A KR 1020047002305A KR 20047002305 A KR20047002305 A KR 20047002305A KR 100961722 B1 KR100961722 B1 KR 100961722B1
Authority
KR
South Korea
Prior art keywords
zinc finger
domain
domains
library
dna
Prior art date
Application number
KR1020047002305A
Other languages
English (en)
Other versions
KR20040030133A (ko
Inventor
김진수
배광희
박경순
권영도
류은현
황문선
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Publication of KR20040030133A publication Critical patent/KR20040030133A/ko
Application granted granted Critical
Publication of KR100961722B1 publication Critical patent/KR100961722B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/435Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • C07K14/46Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates
    • C07K14/47Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals
    • C07K14/4701Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans from vertebrates from mammals not used
    • C07K14/4702Regulators; Modulating activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Toxicology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

키메라 징크 핑거 도메인의 라이브러리가 개시되었다. 라이브러리는 천연형 단백질, 예를 들어 포유류 단백질 및 인간 단백질로부터 유래하는 두 개 이상의 징크 핑거 도메인을 포함할 수 있다. 유용한 키메라 징크 핑거 도메인이 이 라이브러리로부터 동정될 수 있다. 특정 부위를 인식하는 징크 핑거 도메인의 아미노산 서열이 역시 개시되었다.

Description

징크 핑거 도메인 라이브러리 {ZINC FINGER DOMAIN LIBRARIES}
본 발명은 전사 인자와 같은 DNA-결합 단백질에 관한 것이다.
대부분의 유전자는, 보통 프로모터 또는 인핸서 영역 내에 있는 그 유전자 내 특정 DNA 부위에 결합하는 폴리펩타이드 전사 인자에 의해 전사 수준에서 조절된다. 이 단백질들은 프로모터 부위에서 RNA 폴리머라제에 의한 전사 개시를 활성화 또는 억제함으로써 표적 유전자의 발현을 조절한다. 활성화 인자(activator)든 억제 인자(repressor)든 많은 전사 인자는 구조적으로 모듈(module)성을 갖는다. 그러한 모듈은 구조적으로 별개의 도메인으로 폴딩이 가능하며, DNA 결합, 이량체화(dimerization) 또는 전사 기구(transcriptional machinery)와의 상호작용과 같은 특정 기능을 가진다. 활성화 도메인 또는 억제 도메인과 같은 효과기(effector) 도메인들은 이종 전사 인자의 DNA-결합 도메인에 연결되어도 그 기능을 유지한다(Brent 및 Ptashne, (1985) Cell 43:729-36; Dawson et al., (1995) Mol. Cell Biol. 15:6923-31). 징크 핑거 도메인(zinc finger domain), 호메오도메인(homeodomain) 및 헬릭스-턴-헬릭스(helix-turn-helix) 도메인을 포함 하는 많은 DNA-결합 도메인의 3차 구조가 NMR 및 X-선 결정 데이터로 결정되어 있다.
발명의 요약
본 발명은 신속하고 대규모적으로 키메라 단백질, 예를 들어, 전사 인자를 동정하고 제조하기 위한 세포적 방법을 제공한다. 그러한 전사 인자는, 예를 들어, 생물의학 및 생물공학적 응용에서 내생 유전자의 발현을 변화시키기 위해 사용될 수 있다. 위 전사 인자는 생체 내, 즉, 배양 중인 손상되지 않고 살아 있는 세포 내에서 분석된다. 분석 결과로부터 데이터베이스를 구축할 수 있다. 이 데이터베이스를 다른 키메라 전사 인자를 고안하기 위하여 이용할 수 있다. 키메라 전사 인자 라이브러리를 만들어서 검색(screening)할 수 있다. 키메라 단백질은 DNA가 아닌 분자, 예를 들어, 단백질 및 RNA, 특히 작은 비코딩 RNA(ncRNAs)에 결합하여 조절할 수도 있다.
한 태양으로, 본 발명은 키메라 징크 핑거 단백질을 코딩(encode)하는 핵산 라이브러리를 특징으로 한다. "라이브러리"라는 용어는 비슷하지만 동일하지는 않은 생물분자의 물리적인 집합(collection)을 의미한다. 이 집합은 예를 들면, 한 용기에 함께 있거나 별도의 용기에 또는 고체 지지체 상의 별도의 위치에(그룹으로 또는 개별적으로) 물리적으로 분리되어 있을 수 있다. 라이브러리의 각 구성체가 반복되어 그 집합에 존재할 수도 있다.
첫번째 라이브러리는 적어도 제1, 제2 및 제3 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 다수 포함한다. 본 명세서에 사용된 "제1, 제2 및 제3"이라는 용어는 폴리펩타이드에 임의의 순서로 존재하는 3개의 분리된 도메인을 나타내며, 각 도메인은 다른 도메인들 중 어느 하나 또는 양쪽에 대해 N-말단 또는 C-말단에 존재할 수 있다. 제1 징크 핑거 도메인은 다수의 핵산에서 다양하게 나타난다. 제2 징크 핑거 도메인은 다수의 핵산에서 다양하게 나타난다. 10개 이상의 상이한 제1 징크 핑거 도메인이 라이브러리에 있다. 한 실시태양에서, 라이브러리 구성원의 0.5, 1, 2, 5, 10 또는 25% 이상은 다음의 성질 중 하나 또는 둘 다를 갖고 있다: (1) 각각은 한 개 이상의 p1G 리포터 플라스미드의 전사를 생체 내에서 1.25배 이상 억제한다; 그리고 (2) 각각은 한 개 이상의 표적 부위(target site)에 7, 5, 3, 2, 1, 0.5 또는 0.05 nM 이하의 해리 상수로 결합한다. 제1 및 제2 징크 핑거 도메인은 상이한 천연형 단백질에서 유래하거나, 천연형 단백질에서의 그들의 상대적인 위치와 다른 배열로 위치할 수 있다. 예를 들면, 제1 및 제2 징크 핑거 도메인은 폴리펩타이드에서 인접해 있을 수 있지만, 천연형 단백질에서는 하나 이상의 개재(intervening) 징크 핑거 도메인에 의해 분리되어 있을 수 있다.
본 명세서에 사용된, "해리 상수(dissociation constant)"는 하나의 9-염기쌍 표적 부위를 포함하는 28-염기쌍의 이중가닥 DNA에 결합하기 위한 폴리펩타이드의 평형(equilibrium) 해리 상수를 의미한다. 해리 상수는 20 mM Tris pH 7.7, 120 mM NaCl, 5 mM MgCl2, 20 μM ZnSO4, 10% 글리세롤, 0.1% 노니뎃(Nonidet) P-40, 5 mM DTT, 및 0.10 mg/mL BSA(bovine serum albumin), 실온의 조건에서 결합하는 정제된 단백질을 사용한 겔 이동 분석(gel shift analysis)에 의해 결정된다. 더 자세한 것은 실시예 10 및 레바와 파보의 논문(Rebar and Pabo(1994) Science 263:671-673)에서 제공된다.
본 명세서에 사용된, "p1G 리포터 플라스미드의 전사 억제"는 도 12에 묘사된대로 TATA 박스의 하류에 위치한 주어진 9-염기쌍 표적 부위를 가진 p1G 리포터 플라스미드의 루시퍼라제 리포터 유전자의 억제 배수(fold repression)를 의미한다. 억제 배수는 적절한 발현 플라스미드 및 리포터 플라스미드로 HEK293 세포를 형질감염시키는 것을 필요로 하는, 실시예 68에 나타낸 분석법에 의해 결정된다.
제1 및 제2 징크 핑거 도메인은 예를 들어 아래 설명한대로 천연형 도메인일 수 있다.
두 번째 특징적 라이브러리는 적어도 제1 및 제2 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 다수 포함한다. 각 폴리펩타이드의 제1 및 제2 징크 핑거 도메인은 (1) 상이한 천연형 단백질의 징크 핑거 도메인과 동일하거나 (그리고 동일한 천연형 단백질에는 일반적으로 존재하지 않거나, 천연형 단백질에서의 그들의 상대적인 위치와 다른 배열로 위치함), (2) 천연형 단백질의 도메인과 4, 3, 2 또는 1개 이하의 아미노산이 다르거나, (3) 천연형 단백질 유래의 비-인접 징크 핑거 도메인이다. 동일한 징크 핑거 도메인은 첫번째 금속 배위 잔 기(metal coordinating residue) (주로 시스테인)로부터 마지막 금속 배위 잔기(주로 히스티딘)까지의 각 아미노산이 동일한 징크 핑거 도메인을 지칭한다. 제1 징크 핑거 도메인은 다수의 핵산에서 다양하고, 제2 징크 핑거 도메인은 다수의 핵산에서 다양하다. 천연형 단백질은 임의의 진핵생물 징크 핑거 도메인, 예를 들면, 균류(예: 효모), 식물, 또는 동물(예: 인간 또는 생쥐 단백질과 같은 포유류 단백질)일 수 있다. 각 폴리펩타이드는 제3, 제4, 제5 및/또는 제6 징크 핑거 도메인을 추가로 포함할 수 있다. 각 징크 핑거 도메인은 포유류, 예를 들어 인간의 징크 핑거 도메인일 수 있다. 통상적으로 제1 및 제2 징크 핑거 도메인이 동일한 천연형 단백질로부터 유래한 경우, 이들은 예를 들어 전에는 N-말단이었던 것이 지금은 C-말단이 되거나 전에는 인접하지 않았던 도메인이 지금은 인접해 있는 등 인공적인 배열로 존재한다.
상술한 첫번째 및 두번째의 특징적 라이브러리를 위해, 각 폴리펩타이드의 제1 및/또는 제2 징크 핑거 도메인은 표 5, 6 및 7로부터 선택될 수 있다. 다른 예로, 하나 이상의 폴리펩타이드의 제1 및/또는 제2 징크 핑거 도메인은 표 5, 6 및 7로부터 선택될 수 있다. 한 실시태양에서, 표 5, 6 및 7에 기재된 징크 핑거 도메인의 1%, 5%, 10%, 25%, 50%, 75% 이상, 또는 모두가 다수(the plurality)중 하나 이상의 핵산에 의해 코딩될 수 있다. 다수의 핵산의 각 구성원에 의해 코딩되는 다수의 제1 징크 핑거 도메인은 10, 20, 30, 40 또는 50개 이상의 상이한 3-염기쌍 DNA 부위에 특이적으로 결합하기에 충분한 수의 상이한 징크 핑거 도메인을 포함한다.
Zif268의 핑거 1 및 2와 어떤 특정 징크 핑거 도메인을 포함하는 키메라 단백질이 Zif268의 핑거 1 및 2가 인식하는 5'-GGGCG-3'의 5-염기쌍 서열과 특정 3-염기쌍 DNA 부위를 모두 포함하는 표적 서열에 5nM 이하의 친화도를 가지면, 그 특정 징크 핑거 도메인은 특정 3-염기쌍 DNA 부위에 "특이적으로 결합한다"고 언급된다. Zif268의 핑거 1 및 2는 폴리펩타이드 서열ERPYACPVESCDRRFSRSDELTRHIRIHTGQKPFQCRICMRNFSRSDHLTTHIRTH(서열번호: 198)를 가진다. "인식한다"와 "특이적으로 결합한다"는 용어는 상호 교환적으로 사용되며, 상기 zif268 융합 분석에서 징크 핑거 도메인의 결합 부위(binding site)에 대한 구별을 의미한다.
임의로, 다수의 핵산은 10, 20, 30, 40 또는 50개 이상의 상이한 3-염기쌍 DNA 부위를 인식하기에 충분한 수의 상이한 징크 핑거 도메인을 집합적으로 코딩한다. 한 실시태양에서, 다수의 핵산은 40, 30, 20, 10, 또는 5개 이하의 상이한 3-염기쌍 DNA 부위를 인식하기에 충분한 수의 상이한 징크 핑거 도메인을 집합적으로 코딩한다.
다수의 핵산은 5, 10, 20, 30, 또는 40개 이상의 상이한 제1 징크 핑거 도메인, 및/또는 5, 10, 20, 30, 또는 40개 이상의 상이한 제2 징크 핑거 도메인을 집합적으로 코딩할 수 있다. 다수의 핵산은 10, 50, 200, 500, 1000, 5000, 10000, 20000, 25000, 또는 40000개 이상의 상이한 핵산(즉, 상이한 서열을 가짐)을 포함할 수 있다. 어떤 경우에, 다수의 핵산은 100, 500, 2000, 5000, 15000, 30000, 또는 50000 이하의 핵산을 포함할 수 있다. 다수의 핵산은 몰비(molar ratio)로 라이브러리의 20%, 50%, 70%, 80%, 90%, 95% 이상, 또는 100%를 구성할 수 있다.
한 실시태양에서, 다수의 핵산에 의해 코딩되는 폴리펩타이드는 상이한 수의 징크 핑거 도메인을 포함한다. 예를 들면, 첫번째 서브세트(subset)에 의해 코딩되는 폴리펩타이드는 4개의 징크 핑거 도메인을 포함하고 두번째 서브세트(subset)에 의해 코딩되는 폴리펩타이드는 5개의 징크 핑거 도메인을 포함할 수 있다. 다른 조합은 3, 4 및 5개의 도메인 또는 4, 5 및 6개의 도메인으로 이루어진다.
한 실시태양에서, 다수의 핵산에 의해 코딩되는 폴리펩타이드는 다른 타입의 전사 조절 도메인을 포함한다. 예를 들면, 첫번째 서브세트에 의해 코딩되는 폴리펩타이드는 전사 활성화 도메인을, 두번째 서브세트에 의해 코딩되는 폴리펩타이드는 전사 억제 도메인을 포함할 수 있다. 다른 서브세트는 전사 조절 도메인이 없을 수도 있다. 이런 예는 전사 인자의 특정 타입에 대한 치우침(bias) 없이 라이브러리를 스크리닝할 수 있게 한다.
한 실시태양에서, 각 핵산은 고체 지지체에 고정화된다. 다른 실시태양에서, 각 핵산은 그것이 코딩하는 폴리펩타이드에 부착되어 있다. 이 부착은 공유 또는 비공유 결합일 수 있다. 예를 들면, 각 핵산에 의해 코딩된 폴리펩타이드는 바이러스 또는 바이러스 입자의 표면에 부착될 수 있고, 핵산은 바이러스 또는 바이러스 입자 내에 포장된다(packaged). "바이러스"는 숙주 세포를 감염시키고, 자신이 복제할 수 있는 유전물질을 말한다. "바이러스 입자"란 숙주세포를 감염시킬 수는 있지만, 자신이 복제할 수는 없는 유전물질을 말한다. 바이러스 입자의 한 예는 파지미드 핵산을 포함하는 필라멘터스 파아지 코트 팩키지(filamentous phage coat package)이다. 바이러스 또는 바이러스 입자는 포유동물 세포(예: 레트로바이러스 및 아데노바이러스) 또는 세균 세포(예: 박테리오파아지)를 감염시킬 수 있다. 다른 예에서, 폴리펩타이드는 핵산에 퓨로마이신 연결 등에 의해 공유결합으로 연결되어 있다.
다른 실시태양에서, 각 폴리펩타이드는 활성화 또는 억제 도메인을 추가로 포함한다. 각 폴리펩타이드의 제1 및 제2 징크 핑거 도메인은 서로 인접하거나, 예를 들어 개재 도메인 또는 링커(linker)에 의해 분리되어 있을 수도 있다.
한 실시태양에서, 라이브러리의 각 핵산은 세포 내에 있다. 핵산은 세포 내에서 발현될 수 있다. 세포는 또한 리포터 유전자에 작동가능하게 연결된 표적 DNA 부위를 포함하는 이종 리포터 구조물을 포함할 수 있다. 세포는 효모세포; 포유류, 새, 곤충의 세포와 같은 동물 세포; 세균 세포; 또는 식물 세포일 수 있다.
라이브러리의 모든 핵산은 하나의 용기(container)내에 또는 단일 표면 위에 위치할 수 있다. 다른 실시태양에서, 다수의 핵산의 서브세트들은 별도의 용기에, 별도의 표면에, 또는 동일한 표면의 별도의 부분들에 위치할 수 있다. 또 다른 실시태양에서, 라이브러리의 각 핵산은 주소로, 예를 들면 하나뿐인 주소로 지정된다(uniquely addressable). "어드레서블(addressable)" 요소는 주소가 정해진 요소를 되찾아내는 적당한 조건에서 접근할 수 있는 한정된 공간적 위치에 위치한다. 예를 들면 각 핵산은 마이크로타이터 플레이트의 한 웰에, 평면 어레이 위에, 또는 세포 동결시료 안에 위치할 수 있다.
라이브러리의 각 핵산은 그 핵산에 의해 코딩되는 폴리펩타이드의 표적 부위 를 인식하는 능력에 대한 정보와 연관된 지시자(pointer)에 의해 기계로 판독가능한 매체(machine-readable medium)를 참조하여 확인할 수 있다. 이러한 정보는, 예를 들어, 표적부위에 대한 폴리펩타이드의 결합 친화도(affinity)를 표시하는 값, 표적부위를 인식하는 폴리펩타이드의 능력을 예보하는(predictive) 값, 또는 세포(예: 인간세포) 내에서 내재 유전자의 발현에 대한 폴리펩타이드의 효과를 반영하는 값의 모임(set)을 포함한다.
유사하게, 본 발명은 폴리펩타이드의 라이브러리를 제공한다. 라이브러리는 본 명세서에 특징지워진 핵산 라이브러리의 핵산에 의해 각각 코딩되는 폴리펩타이드 다수를 포함한다. 폴리펩타이드 라이브러리는 그 특징이 단백질 수준에서 나타난다는 것 외에는, 본 명세서에 기술된 핵산 라이브러리의 적절한 어떤 특징도 포함할 수 있다.
본 발명은 또한 표적 DNA 부위를 인식하는 폴리펩타이드의 능력에 대한 정보가 암호화되어 포함되어 있는 기계로 판독가능한 매체와 본 명세서에 기술한 라이브러리를 포함하는 키트를 제공하는데, 여기에서, 라이브러리의 각 핵산 또는 폴리펩타이드는 상기 핵산에 의해 코딩되는 각 폴리펩타이드의 표적 DNA 부위를 인식하는 능력에 대한 정보와 연관된 지시자에 의해 기계로 판독가능한 매체를 참조하여 확인할 수 있다. 예를 들면, 상기 정보는 표적 부위에 대한 폴리펩타이드의 결합 친화도를 표시하는 값 또는 표적 부위를 인식하는 폴리펩타이드의 능력을 예보하는 값을 포함한다. 키트는 사용자가 상기 정보에 대해 인터페이스로 접속할 수 있도록 하는 컴퓨터로 판독가능한 지시(instruction)를 추가로 포함할 수 있다.
다른 한 태양으로, 본 발명은 제1 및 제2 징크 핑거 도메인을 포함하는 폴리펩타이드를 특징으로 한다. 각 징크 핑거 도메인은 표 5, 6 및 7에서 선택되는 서열을 가진다. 제1 및 제2 징크 핑거 도메인은 상이한 천연형 단백질로부터 유래한다. 폴리펩타이드는 제3, 제4 및 제5 징크 핑거 도메인을 추가로 포함할 수 있다. 이 도메인들 각각은 또한 표 5, 6 및 7에서 선택된 서열을 가질 수 있다. 전형적으로, 징크 핑거 도메인들은 서로 인접하게 위치하여 징크 핑거 도메인의 어레이(array)를 형성한다. 이러한 어레이는 다른 타입의 구조적 또는 기능적 단백질 도메인이 중간에 끼어있지 않은 폴리펩타이드 단위이다.
본 발명은 또한 제1, 제2 및 제3 징크 핑거 도메인을 포함하는 폴리펩타이드를 특징으로 한다. 각 도메인은 천연형(naturally occurring)이다. 그 도메인 중 둘 이상은 상이한 천연형 폴리펩타이드에 존재한다. 나아가서, 이 폴리펩타이드는 다음의 특징 중 하나 또는 두 가지 모두를 지닌다: (1) 각각은 생체 내에서 하나 이상의 p1G 리포터 플라스미드의 전사를 1.25, 1.5, 1.7, 1.9, 2.0, 또는 2.5배 억제하고; (2) 각각은 하나 이상의 표적 핵산 부위에 7, 5, 3, 2, 1, 0.5, 또는 0.05 nM 이하의 해리 상수로 결합한다. 표적 부위는 DNA 이거나 RNA일 수 있다. 제1, 제2 및/또는 제3 핑거는 표 5, 6 및 7로부터 선택될 수 있다. 한 실시태양에서, 각 주어진 폴리펩타이드의 제1, 제2 및 제3 징크 핑거 도메인은 표 10의 한 줄, 예를 들어 줄 113 위의 줄, 예를 들어 모든 인간 징크 핑거 도메인을 포함한 줄에 함께 기재된 도메인으로 표시된다. 한 실시태양에서, 폴리펩타이드는 천연형 폴리펩타이드(예, 포유류, 예, 인간 폴리펩타이드)로부터 유래하는 도메인만을 포 함한다.
한 실시태양에서, 제1 도메인은 제2 도메인에 대해 N-말단에 있고, 제2 도메인은 제3 도메인에 대해 N-말단에 있고, 제2 도메인은 제1 도메인과는 다른 천연형 폴리펩타이드에 존재한다. 제1, 제2 및 제3 도메인의 각각은 다른 둘과는 상이한 천연형 폴리펩타이드에 존재할 수 있다.
임의의 특징적 폴리펩타이드와 관련하여 폴리펩타이드는 이종 서열, 예를 들어, 핵 위치 시그날(nuclear localization signal), 소분자 결합 도메인(예, 스테로이드 결합 도메인), 에피토프 태그(tag) 또는 정제 도구, 촉매 도메인(예, 핵산 수정 도메인, 핵산 절단 도메인, 또는 DNA 복구 촉매 도메인), 전사기능 도메인(예, 활성화 도메인, 억제 도메인 등), 단백질 전달(transduction) 도메인(예, HIV tat으로부터) 및/또는 조절부위(예, 인산화 부위, 유비퀴티네이션 부위 또는 단백질 절단 부위)를 추가로 포함할 수 있다.
폴리펩타이드는 비드, 매트릭스 또는 평면 어레이 등의 고체 지지체에(공유 또는 비공유 결합으로) 결합될 수 있다. 폴리펩타이드는 또한 방사성 화합물, 형광화합물, 다른 감지 가능한 물질, 또는 감지시스템의 성분(예, 화학발광 시약)과 같은 표지에 결합될 수 있다.
본 발명은 전술한 폴리펩타이드의 하나를 코딩하는 분리된 핵산 서열을 또한 포함한다. 핵산은 작동 가능하게 연결된 조절 서열, 예를 들어, 프로모터, 전사 인핸서, 5' 비번역 영역, 3' 비번역 영역, 바이러스 팩키징 서열, 및/또는 선택 마커 등을 추가로 포함할 수 있다. 핵산은 랜티바이러스, 레트로바이러스, 폭스바이 러스 또는 아데노바이러스 등 포유류 세포를 감염시킬 수 있는 바이러스 등의 바이러스 내에 포장될 수 있다.
본 발명은 핵산을 포함하는 세포를 추가로 제공한다. 세포는 대상 생물체의 조직에 있거나 배양체일 수 있다. 세포는 동물(예, 포유류), 식물, 또는 미생물(예, 균류 또는 세균) 세포일 수 있다. 본 발명은 또한 생쥐, 래트, 돼지, 토끼, 젖소, 염소나 양 같은 사람이 아닌 유전자이식(transgenic) 포유류를 추가로 포함할 수 있다. 유전자이식 포유류의 유전적 보완물은 전술하거나 본 명세서의 다른 곳에서 설명한 키메라 징크 핑거 폴리펩타이드를 코딩하는 핵산 서열을 포함한다. 본 발명은 또한 예를 들어 핵산을 발현하여 폴리펩타이드를 생산하는 방법 및, 예를 들어 세포 내의 내재 유전자 또는 바이러스 유전자를 조절하기 위해 폴리펩타이드를 사용하는 방법을 포함한다.
또 다른 태양에서, 본 발명의 특징은 핵산 라이브러리에 의해 코딩되는 하나 이상의 폴리펩타이드를 평가하는 방법이다. 이 방법은 다음을 포함한다: 다수의 라이브러리 핵산 각각이 하나의 세포 내에 있는 라이브러리를 제공하는 단계(특정한 세포 내에 라이브러리 구성체의 전부는 아니지만 하나 이상이 있을 수 있음); 다수의 핵산 각각이 있는 세포 내에서 핵산을 발현시키는 단계; 및 라이브러리 구성체가 없는 세포에 비해 리포터 유전자의 발현이 변한 세포의 동정을 통해 표적 DNA 부위를 인식하는 폴리펩타이드를 코딩하는 핵산을 동정하는 단계.
다른 한 태양에서, 본 발명은 키메라 징크 핑거 단백질의 라이브러리를 구성하는 방법을 특징으로 한다. 이 방법은 다음을 포함한다: 표 5, 6 및 7로부터 선 택된 징크 핑거 도메인을 코딩하는 서열을 각각 포함하는 핵산의 세트를 제공하는 단계; 및 세트의 각 핵산을 세트의 하나 이상, 바람직하게는 둘, 셋 또는 네 개의 다른 핵산에 연결시켜 다수의 키메라 핵산을 형성하는 단계. 각 키메라 핵산은 포유류 발현 벡터와 같은 벡터 내에 위치할 수 있다.
한 실시태양에서, 상기 방법은 핵산의 연결 후에, 다수의 키메라 핵산 중 하나 이상을 세포에 도입하고 하나 이상의 키메라 핵산을 발현시키는 것을 추가로 포함한다. 다른 실시태양에서, 상기 방법은 하나 이상의 키메라 핵산을 포유류 세포와 같은 세포에 각각 도입하고, 키메라 핵산을 발현시키고, 세포 내에서 유전자 또는 단백질의 발현을 감시하는 것을 추가로 포함한다. 세포는 키메라 핵산에 의하여 코딩되는 폴리펩타이드가 표적 부위에 결합하여 리포터 유전자의 발현을 촉진하거나 억제하도록, 상기 폴리펩타이드에 의해 인식될 것으로 예측되는 표적 부위를 포함하는 구조물과 같은 리포터 구조물을 포함할 수 있다.
다른 한 태양에서, 본 발명은 본 명세서에서 설명된 징크 핑거 단백질과 같은 키메라 징크 핑거 단백질의 특징을 구명하는(characterizing) 방법을 특징으로 한다. 이 방법은 다음을 포함한다: 단백질을 코딩하는 핵산을 세포 내로 도입하는 단계; 핵산의 발현단계; 및 세포 내의 내재 유전자의 발현 프로필을 결정하는 단계. 이러한 발현 프로필은 다수의 값을 포함하는데, 각 값은 상이한 유전자, 또는 한 유전자의 스플라이싱 또는 대립유전자(allelic) 변이체의 발현(즉, mRNA 수준)이나 번역산물의 양(즉, 단백질 수준)에 대응한다. 그 값은 유전자의 발현수준 또는 유전자의 번역산물의 질적 또는 양적 평가, 즉 1) 유전자로부터 전사된 mRNA 또 는 2) 유전자로부터 코딩된 폴리펩타이드의 양의 평가일 수 있다.
상기 방법은 결정된 발현 프로필을 하나 이상의 대조용 발현 프로필과 비교함으로써, 키메라 징크 핑거 단백질의 특징을 나타내는 것을 포함할 수 있다. 대조용 프로필은 이종의 키메라 징크 핑거 단백질을 포함하지 않거나 대조용 벡터를 포함하는 관련 세포의 발현 프로필일 수 있다. 이 비교로 키메라 징크 핑거 단백질에 의해 변경된 하나 이상의 유전자의 조절을 확인할 수 있다. 한 실시태양에서, 표본 발현 프로필을 대조 프로필과 비교하여 다른 프로필을 만들기도 한다. 표본 발현 프로필은 또한 대조 프로필의 집합과 다차원적으로 비교될 수도 있다. 한 실시태양에서, 표본 발현 프로필은 핵산 어레이를 이용하여 결정된다. 다른 실시태양에서, 표본 발현 프로필은 어레이를 필요로 하지 않는 방법 및/또는 기구(예, SAGE 또는 다수의 프라이머를 사용하는 정량적 PCR)를 이용하여 결정된다.
상기 방법은 폴리펩타이드의 표적 결합 부위를 결정하거나 추정하고, 폴리펩타이드에 의해 그 조절이 바뀌는 유전자의 조절부위의 핵산 서열 내에 표적 결합 부위가 존재하는지를 확인하는 것을 추가로 포함한다. 이 방법은 직접적인 표적과 간접적인 표적을 구별하는 데 사용될 수 있다.
다른 태양에서, 본 발명은 다음의 단계를 포함하는 방법을 특징으로 한다: 각각 제1 및 제2 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 다수의 핵산을 제공하는 단계(이때, 다수의 각 핵산에 의해 코딩되는 폴리펩타이드의 제1 및 제2 징크 핑거 도메인은 상이한 천연형 포유류 단백질의 징크 핑거 도메인과 동일하며, 제1 징크 핑거 도메인은 다수의 핵산에서 다양하게 나타나고, 제2 징크 핑거 도메인도 다수의 핵산에서 다양하게 나타남); 도입 전에 지정된 특성(trait)을 갖는 세포에 다수의 각 핵산을 도입하여 다수의 세포를 제공하는 단계; 다수 세포의 각각에 삽입된 핵산을 발현시키는 단계; 지정된 특성이 바뀐 세포를 다수의 세포로부터 동정하는 단계. 그 방법은 본 명세서에 기술된 다른 특징들을 포함한다. 예시적인 특성은 스트레스와 같은 상태에 대한 증강된 민감성 또는 저항성, 변경된 증식 능력, 변경된 병원성, 및 변경된 산물 생산(예, 대사 산물 생산)을 포함한다.
또 다른 태양에서, 본 발명은 특정 표적 부위에 결합할 수 있는 키메라 징크 핑거 단백질을 동정하는 방법을 특징으로 한다. 이 방법은 다음의 단계들을 포함한다: 천연형 인간 징크 핑거 도메인에 대한 식별자(identifier)를, 그 식별자에 의해 대조되는 징크 핑거 도메인에 의해 인식되는 3- 또는 4-염기쌍 하위 부위(subsite)와 연결시키는 각 기록을 포함하는 자료 기록의 제공 단계; 표적 부위를 두 개 이상의 3- 또는 4-염기쌍 하위 부위로 분해하는 단계; 각 하위 부위에 대해 그를 인식하는 징크 핑거 도메인에 대한 식별자를 포함하는 한 세트의 식별자를 자료 기록으로부터 검색하는 단계; 및, 각 하위 부위에 대한 세트로부터 식별자에 의해 대조되는, 각 하위 부위에 대한 징크 핑거 도메인을 포함하는 폴리펩타이드의 고안 단계.
자료 기록은 표 5, 6 및 7로부터 선택된 인간 징크 핑거 도메인을 확인시키는 기록을 포함할 수 있다. 상기 방법은 시험관 내(in vitro)에서 폴리펩타이드를 코딩하는 핵산의 합성 및/또는 폴리펩타이드의 합성 단계를 추가로 포함할 수 있다. 이 방법은 또한, 예를 들어 시험관 내 결합 분석 또는 리포터 유전자 발현에 대한 분석과 같은 생체 내(in viro) 분석을 이용하여 표적 부위에 대한 폴리펩타이드의 결합을 평가하는 단계를 포함할 수 있다. 합성된 폴리펩타이드는 억제 또는 활성화 도메인을 추가로 포함할 수 있다.
한 실시태양에서, 상기 방법은 하나 이상의 내생 유전자의 발현을 변경시키는 폴리펩타이드의 능력을 평가하는 것을 추가로 포함한다. 상기 평가는, 예를 들어 핵산 마이크로어레이를 사용하여 복수의 내생 유전자의 발현을 조사하는 것을 포함할 수 있다. 이 방법은 또한 예를 들어 시험관 내에서 폴리펩타이드를 표적 부위를 포함하는 DNA와 접촉시키는 것을 추가로 포함한다.
다른 실시태양에서, 이 방법은 제1 및 제2 징크 핑거 도메인을 코딩하는 서열을 포함하는 각 핵산을 포함하는 어드레스(address) 지정된 핵산 라이브러리로부터 폴리펩타이드를 코딩하는 핵산을 검색하는 것을 추가로 포함한다.
본 발명은 또한 다음의 단계를 포함하는 방법을 특징으로 한다: 징크 핑거 도메인 식별자를, 그 식별자에 의해 대조되는 징크 핑거 도메인에 의해 인식되는 한 개 이상의 3- 또는 4-염기쌍 하위 부위와 연결시키는 각 기록을 포함하는 자료 기록을 기계로 판독 가능한 매체에 저장하는 단계; 관심있는 하위 부위와 연관된 하나 이상의 식별자를 저장된 기록으로부터 검색하는 단계; 및 (a) 하나 이상의 검색된 식별자 중 하나에 의해 대조되는 징크 핑거 도메인 및 (b) 징크 핑거 도메인일 수 있는 제2 DNA 결합도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 제조하는 단계.
상기 제조는 검색된 식별자에 의해 대조되는 징크 핑거 도메인을 코딩하는 서열을 포함하는 각 핵산으로 이루어진 다수의 핵산을 제조하는 것을 포함할 수 있다. 이 방법은 각 핵산에 대해 그 핵산을 세포 내에서 발현시키고, 그 핵산 발현시의 특정 유전자의 전사 수준의 변화를 그 핵산의 부재 또는 비-발현시의 그 유전자의 전사 수준에 대해 평가하는 것을 추가로 포함할 수 있다. 상기 평가는 나아가서 예를 들어 프로필링(profiling)에 의해 복수 유전자의 전사 수준을 평가하는 것을 추가로 포함할 수 있다.
또 다른 태양으로, 본 발명은 다음의 단계를 포함하는, 컴퓨터를 이용한 방법을 특징으로 한다: (a) 표 5, 6 및 7에 언급된 다수의 천연형 징크 핑거 도메인 각각과 (b) 그 도메인에 의해 인식되는 하나 이상의 하위 부위 사이의 연관성을 포함하는 정보를 저장하는 단계; 표적 핵산 서열을 지정하는 스트링(string)을 포함하는 사용자 질문을 접수하는 단계; 및 표적 핵산 서열 내의 한 부위를 인식하는 것으로 예측되는 징크 핑거 도메인의 조합을 동정하기 위하여 정보를 여과(filtering)하는 단계.
상기 방법은 나아가 사용자에게 그 조합을 보여주거나, 핵산 또는 폴리펩타이드의 어드레스 지정된 라이브러리로부터 동정된 징크 핑거 도메인 조합의 하나를 포함하는 라이브러리 핵산 또는 폴리펩타이드를 물리적으로 위치 지정하는 것을 포함할 수 있다.
또 다른 태양에서, 본 발명은 기계로 판독 가능한매체에 저장된 데이터베이스를 특징으로 한다. 데이터베이스는 (i) (a) 각각의 천연형 징크 핑거 도메인, (b) 핵산 부위, 및 (c) 다수의 천연형 징크 핑거 도메인을 포함하는 키메라 폴리펩 타이드를 나타내는 데이터; 및 (ii) (1) 개별 징크 핑커 도메인과 각각의 개별 도메인에 의해 인식되는 핵산 부위, (2) 키메라 폴리펩타이드와 이들의 각 구성 징크 핑거 도메인, 및 (3) 키메라 폴리펩타이드와 각각의 키메라 폴리펩타이드에 의해 인식되는 핵산 부위를 연관시키는 결합을 포함한다. 상기 데이터베이스는 사용자가 표적 핵산 서열 내의 부위를 인식할 것으로 예측되는 징크 핑거 도메인의 조합을 동정할 수 있도록 할 수 있다.
상기 데이터는 (d) 어레이된 폴리펩타이드 라이브러리에 있는 키메라 폴리펩타이드와 관련된, 어드레스가 지정될 수 있는 위치, 또는 (e) 상술한 발현 프로필을 추가로 나타낼 수 있다. 각 발현 프로필은 키메라 폴리펩타이드와 연관될 수 있다.
본 발명은 또한 다수의 폴리펩타이드를 포함하는 라이브러리를 특징으로 하는데, 각 폴리펩타이드는 제1 및 제2 징크 핑거 도메인을 포함하고, 각 폴리펩타이드의 제1 및 제2 징크 핑거 도메인은 상이한 천연형 폴리펩타이드로부터 유래하는 포유류의 징크 핑거 도메인과 동일하며, 제1 징크 핑거 도메인은 다수의 폴리펩타이드에서 다양하게 나타나고, 제2 징크 핑거 도메인은 다수의 폴리펩타이드에서 다양하게 나타난다. 라이브러리의 각 폴리펩타이드는 고체 지지체(예, 비드, 매트릭스 또는 평면 어레이)에 부착될 수 있다.
본 발명은 시험 핵산의 프로필링 방법을 추가로 제공한다. 이 방법은 다음의 단계를 포함한다: 시험 핵산을 본 명세서에 기술한 라이브러리의 폴리펩타이드와 접촉시키는 단계; 및 시험 핵산에 특이적으로 결합하는 하나 이상의 폴리펩타이드 를 동정하는 단계. 폴리펩타이드는 주소를 지정할 수 있는 어레이에 고정화되거나 바이러스 입자에 부착될 수 있다.
본 발명은 DNA 상의 표적 부위를 인식하는 펩타이드 도메인을 동정하는 방법을 특징으로 한다. 이 방법은 본 명세서에서 때때로 "도메인 선별법" 또는 "생체내 스크리닝법"으로 지칭된다. 상기 방법은 (1) 리포터 구조물(reporter construct)을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 단계를 포함한다. 리포터 구조물은 소집 부위(recruitment site) 및 표적 부위(target site)를 갖는 프로모터에 작동가능하게 연결된 리포터 유전자를 갖는다. 리포터 유전자는 전사 인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정의 수준을 초과하여 발현되지만, 전사 인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산 각각은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연적인 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산들 간에 서로 상이하다. 상기 방법은 다음의 단계들을 추가로 포함한다: 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건 하에서 다수의 핵산을 세포와 접촉시키는 단계; 세포 내에서 하이브리드 핵산의 발현을 허용하는 조건 하에 세포를 유지하는 단계; 및 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함한다는 표시로서 리포터 유전자를 소정 수준 이상으로 발현하는 세포를 동정하는 단계.
DNA 결합 도메인, 즉, 소집 부위를 인식하고 다수의 하이브리드 구성원 사이에서 변하지 않는 도메인은 예를 들면, 한 개, 두 개, 세 개, 또는 그 이상의 징크 핑거 도메인을 포함할 수 있다. 상기 방법에 이용되는 세포는 원핵 또는 진핵세포일 수 있다. 진핵세포의 예로는 사카로미세스 세레비지에(Saccharomyces cerevisiae), 쉬조사카로미세스 폼베(Schizosaccharomyces pombe), 또는, 피치아 파스테우리스(Pichia pasteuris)와 같은 효모 세포; Sf9 세포와 같은 곤충 세포; 및 섬유아세포 또는 림프구와 같은 포유류 세포를 들 수 있다.
여기서 "소정 수준(given level)"은 전사 인자가 소집 부위는 인식하지만, 표적 부위는 인식하지 않을 경우에 관찰되는 발현 양이다. 어떤 경우에 "소정 수준"은 0일 수 있다(적어도 사용되는 분석법의 검출 한도 내에서).
상기 방법은, 예를 들어 게놈 DNA, mRNA 혼합물, 또는 cDNA 혼합물과 같은 핵산으로부터 시험 징크 핑거 도메인을 코딩하는 핵산원(source nucleic acid)을 증폭하여 증폭된 단편을 생산하는 부가적인 단계를 포함할 수 있다. 핵산원은 올리고뉴클레오티드 프라이머를 사용하여 증폭할 수 있다. 올리고뉴클레오티드 프라이머는 보존된 도메인 경계부를 코딩하는 핵산에 어닐링(annealing)하는 한 세트의 축중 올리고뉴클레오티드(예를 들면, 상이한 핵산 서열을 갖는 특정 올리고뉴클레오티드, 또는 이노신과 같은 비천연적 염기를 갖는 특정 올리고뉴클레오티드의 풀) 중 하나일 수 있다. 한편, 상기 프라이머는 특정 올리고뉴클레오티드일 수 있다. 증폭된 단편은 상기 언급한 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 생산하기 위해 이용된다.
상기 방법은 다음의 단계를 더 포함할 수 있다: (i) 후보 징크 핑거 도메인의 아미노산 서열을 서열 데이타베이스에서 확인하는 단계; (ii) 후보 징크 핑거 도메인의 아미노산 서열을 코딩하는 후보 핵산을 제공하는 단계; 및 (iii) 후보 핵산을 이용하여 전술한 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 제조하는 단계. 상기 데이타베이스는, 공지 및/또는 예측되는 단백질과 같은 다수의 아미노산 서열에 관한 기록 뿐만 아니라 cDNA, ESTs, 게놈 DNA, 또는 예측되는 인트론을 제거하기 위해 컴퓨터 처리된 게놈 DNA와 같은 다수의 핵산 서열에 대한 기록도 포함할 수 있다.
원한다면, 상기 방법은 제2 표적 부위(예를 들면, 제1 시험 징크 핑거 도메인에 의해 인식되는 것과 다른 부위)를 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위해 반복될 수 있다. 후속적으로, 동정된 제1 및 제2의 동정된 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있다. 코딩된 하이브리드 단백질은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 징크 핑거 도메인의 표적 부위를 포함하는 표적 부위를 특이적으로 인식할 수 있을 것이다.
본 발명은 또한 시험 징크 핑거 도메인이 프로모터 상의 표적 부위를 인식하는지를 결정하는 방법에 관한 것이다. 본 명세서에서는 이 방법을 때때로 "부위 선별법"이라고 지칭한다. 상기 방법은 리포터 구조물 및 하이브리드 핵산을 제공하는 단계를 포함한다. 리포터 유전자는 소집 부위 및 표적 부위를 포함하는 프로모터에 작동가능하게 연결되고, 전사 인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되나, 전사 인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인 요소들을 포함하는 비천연형 단백질을 코딩한다. 상기 방법은 다음과 같은 단계를 더 포함한다: 리포터 구조물이 세포 내로 들어갈 수 있게 하는 조건 하에서 리포터 구조물을 세포와 접촉시키는 단계; 상기 단계 이전, 이후, 또는 상기 단계와 동시에, 하이브리드 핵산이 세포 내에 들어갈 수 있게 하는 조건 하에서 하이브리드 핵산을 세포와 접촉시키는 단계; 상기 세포를 하이브리드 핵산이 세포 내에서 발현될 수 있게 하는 조건 하에서 유지하는 단계; 및 세포 내 리포터 유전자의 발현을 검출하는 단계. 리포터 유전자의 발현 수준이 소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식한다는 지표이다.
상기 리포터 구조물 및 하이브리드 핵산은 별도의 플라스미드에 포함될 수 있다. 두 개의 플라스미드는 세포 내에 동시에 또는 연속적으로 도입될 수 있다. 하나의 플라스미드 또는 두 플라스미드 모두는 선별 마커를 포함할 수 있다. 또한, 리포터 구조물과 하이브리드 핵산이 동일한 플라스미드 내에 포함될 수 있으며, 이 경우에는 두 가지 핵산을 세포 내로 도입하기 위해 단지 한 번의 접촉 단계만이 필요하다. 또 다른 실시 태양에서는, 두 가지 핵산 중 하나 또는 양자 모두가 세포의 게놈 내로 안전하게 삽입된다. 상기 방법의 경우, 본 명세서에 기술된 임의의 생체 내 방법에 있어서, 전사 활성화 도메인은 전사 억제 도메인으로 대체될 수 있으며, 이 경우에는 리포터 유전자의 발현 수준이 소정 수준 미만으로 감소하는 세포를 동정하게 된다.
본 발명의 또 다른 방법에 의하면, 두 세포의 융합에 의해 시험 징크 핑거 도메인의 결합 선호도의 신속한 결정이 용이하게 된다. 이 방법은 다음의 단계를 포함한다: 리포터 유전자를 함유하는 제1 세포를 제공하는 단계; 하이브리드 핵산을 함유하는 제2 세포를 제공하는 단계; 제1 세포 및 제2 세포를 융합시켜 융합 세포를 제조하는 단계; 융합 세포 내에서 하이브리드 핵산의 발현을 가능하게 하는 조건 하에서 융합 세포를 유지하는 단계; 및 융합 세포 내 리포터 유전자의 발현을 검출하는 단계(여기에서, 리포터 유전자의 발현 수준이 소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타내는 지표임). 예를 들어, 제1 세포 및 제2 세포는 조직 배양 세포 또는 균류 세포일 수 있다. 상기 방법의 예시적인 한 실시태양에서는 에스. 세레비지애(S. cerevisiae) 세포를 이용한다. 제1 세포는 제1 교배형(예를 들면, MATa)를 가지고, 제2 세포는 제1 교배형과 다른 제2 교배형(예를 들면, MATα)를 가진다. 두 세포를 상호 접촉시키면, 효모 교배(yeast mating)에 의해 제1 세포 및 제2 세포 모두의 게놈을 함유하는 핵을 갖는 단일 세포(예를 들면, MATa/α)가 만들어진다. 본 방법은 각 제1 세포가 모두 동일한 제1 교배형이고 상이한 표적 부위를 가진 리포터 구조물을 갖는 다수의 제1 세포를 제공하는 단계를 포함할 수 있다. 모두 동일한 제2 교배형이고 각각 상이한 시험 징크 핑거 도메인을 갖는 다수의 제2 세포도 역시 제공된다. 모든 가능한 쌍 교배(pair-wise mating)와 같은 다수의 쌍 교배로 매트릭스를 만든다. 이러한 방법은 다수의 결합 부위(예를 들면, 가능한 표적 부위의 완전한 집합)에 대한 다수의 시험 징크 핑거 도메인의 결합 선호도를 결정하는데 이용된다.
본 발명은 또한 시험 징크 핑거 도메인의 결합 선호도를 분석하는 방법을 제공한다. 본 방법은, (1) 본질적으로 모든 세포가 하이브리드 핵산을 함유하는 세포, 및 (2) 다수의 리포터 구조물을 제공하는 단계를 포함한다. 다수의 리포터 구조물 각각은 소집 부위 및 표적 부위를 가진 프로모터에 작동 가능하게 연결된 리포터 유전자를 갖는다. 리포터 유전자는 전사 인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식할 경우에는 소정 수준을 초과하여 발현되지만, 전사 인자가 프로모터의 소집 부위에만 결합하는 경우는 그러하지 아니하다. 제2 표적부위는 다수의 리포터 구조물의 구성원 사이에서 다양하게 나타난다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 갖는 하이브리드 단백질을 코딩한다. 본 방법은 다음 단계를 추가로 포함한다: 다수의 리포터 구조물 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건 하에서 다수의 리포터 구조물을 세포와 접촉시키는 단계; 세포 내에서 핵산의 발현을 허용하는 조건 하에서 세포를 유지하는 단계; 세포 내에 리포터 구조물을 함유하고, 세포 내 리포터 구조물이 징크 핑거 도메인에 의해 인식되는 표적 부위를 갖는다는 것을 나타내는 지표로서 소정 수준 이상으로 리포터 구조물을 발현시키는 세포를 동정하는 단계.
시험 징크 핑거 도메인이 하나 이상의 표적 부위에 대하여 결합 선호도를 가질 때, 각각 상이한 표적 부위를 갖는 다수의 세포를 상기 방법에 의해 동정할 수 있다. 상기 방법은 최고 수준의 리포터 유전자 발현을 보이는 세포를 동정하는 것을 추가로 포함할 수 있다. 별법으로, 리포터 유전자 발현의 임계 수준(예를 들면, 리포터 유전자 발현이 2, 4, 8, 20, 50, 100, 1000 배 또는 그 이상 증가하는 수준)을 결정하고, 임계 수준을 넘어서는 리포터 유전자 발현을 나타내는 모든 세포를 선택하기도 한다.
표적 결합 부위는 예를 들어, 2 내지 6 뉴클레오티드의 길이일 수 있다. 다수의 리포터 구조물은 표적 결합 부위의 2, 3, 또는 4 또는 그 이상 위치에 A, T, G 및 C 뉴클레오티드의 모든 가능한 조합을 포함할 수 있다.
다른 태양에서, 본 발명은 다수의 징크 핑거 도메인들을 동정하는 방법을 특징으로 한다. 이 방법은 제1 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 수행하고, 제1 시험 징크 핑거 도메인의 표적 부위와는 다른 표적 부위를 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 재수행하는 것을 포함한다. 또 다른 특징은 키메라 징크 핑거 단백질을 코딩하는 핵산을 생성하는 방법이며, 이 방법은 제1 및 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 2회 수행하고, 제1 및 제2 시험 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 제작하는 것을 포함한다. 이 핵산은 두 개의 하위 부위(subsite)로 이루어진 부위를 특이적으로 인식하는 두 개의 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다. 상기 하위 부위들은 각각 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위이다. 추가의 징크 핑거 도메인을 동정하고, 예를 들어 핵산 결합 부위를 특이적으로 인식하도록 제3, 제4, 제5, 제6 또는 그 이상의 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 제작하기 위해 상기 방법을 반복할 수 있다.
또 다른 태양에서, 본 발명은 징크 핑거 도메인들에 의해 인식되는 DNA 서열을 동정하는 방법에 관한 것이다. 본 방법은 제1 시험 징크 핑거 도메인에 대한 제1 결합 선호도를 동정하기 위한 부위 선별법의 수행, 및 제2 시험 징크 핑거 도메인에 대한 제2 결합 선호도를 동정하기 위한 부위 선별법의 재수행을 포함한다. 동정된 제1 및 제2 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있다. 이 핵산은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위를 포함하는 부위를 특이적으로 인식하는 두 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다. 추가의 징크 핑거 도메인을 동정하고, 예를 들어 핵산 결합 부위를 특이적으로 인식하도록 제3, 제4, 제5, 제6 또는 그 이상의 징크 핑거 도메인을 포함하는 폴리펩타이드를 코딩하는 핵산을 제작하기 위해 상기 방법을 반복할 수 있다.
본 발명은 또한 DNA 상의 표적 부위를 인식하는 펩타이드 도메인을 동정하는 방법을 특징으로 한다. 이 방법은 (1) 리포터 구조물(reporter construct)을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 것을 포함한다. 리포터 구조물은 소집 부위 및 표적 부위를 갖는 프로모터에 작동 가능하게 연결된 리포터 유전자를 갖는다. 리포터 유전자는 전사 인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정 수준 미만으로 발현되지만, 전사 인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산 각각은, (i) 전사 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연형 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 상이하다. 상기 방법은 다음 단계를 추가로 포함한다: 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건 하에서 다수의 핵산을 세포와 접촉시키는 단계; 세포 내에서 하이브리드 핵산의 발현을 허용하는 조건하에서 세포를 유지하는 단계; 및 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는 지표로서, 리포터 유전자를 소정 수준 미만으로 발현시키는 세포를 동정하는 단계. 본 방법의 추가 실시태양도 전사 활성화 도메인을 이용하는 유사방법에 대한 것과 같다. 마찬가지로, 본 명세서에 기술된 임의의 다른 선별법도 전사 활성화 도메인 대신에 전사 억제 도메인을 이용하여 수행할 수 있다.
또 다른 태양에서, 본 발명은 특정의 정제된 폴리펩타이드 및 단리된 핵산을 특징으로 한다. 본 발명의 정제된 폴리펩타이드는 하기의 아미노산 서열을 하나 이상 갖는 폴리펩타이드를 포함할 수 있다:
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Cys-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His(서열번호: 68),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-His-X-Ser-Asn-Xb-X-Lys-His-X 3-5-His (서열번호: 69),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Ser-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 70),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Thr-Xb-X-Val-His-X 3-5-His (서열번호: 71),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Val-X-Ser-Xc-Xb -X-Arg-His-X3-5-His (서열번호: 72),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Arg-His-X 3-5-His (서열번호: 73),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Val-His-X 3-5-His (서열번호: 74),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Xc-Xb -X-Arg-His-X3-5-His (서열번호: 75),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ala-His-Xb-X-Arg-His-X 3-5-His (서열번호: 150),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Phe-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 151),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Thr-His-X 3-5-His (서열번호: 152),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Val-His-X 3-5-His (서열번호: 153),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Ile-His-X 3-5-His (서열번호: 154),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 155),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Gln-His-X 3-5-His (서열번호: 156),
Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Arg-His-X3-5 -His (서열번호: 157),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Lys-Xb-X-Ile-His-X 3-5-His (서열번호: 158),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 159),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Gly-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 161),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Glu-Xb-X-Arg-His-X 3-5-His (서열번호: 162),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-His-Xb-X-Arg-His-X 3-5-His (서열번호: 163),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-His-Xb-X-Thr-His-X 3-5-His (서열번호: 164),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Lys-Xb-X-Arg-His-X 3-5-His (서열번호: 165),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Ser-His-Xb-X-Arg-His-X 3-5-His (서열번호: 166),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Thr-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 160),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-His-X-Ser-Ser-Xb-X-Arg-His-X 3-5-His (서열번호: 167),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Ile-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 168),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Lys-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 169),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Lys-His-X 3-5-His (서열번호: 170),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Thr-His-X 3-5-His (서열번호: 171),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Val-X-Ser-Asn-Xb-X-Val-His-X 3-5-His (서열번호: 172),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Asp-X-Ser-Cys-Xb-X-Arg-His-X 3-5-His (서열번호: 193),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Ile-X-Ser-Asn-Xb-X-Val-His-X 3-5-His (서열번호: 194),
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Trp-X-Ser-Asn-Xb-X-Arg-His-X 3-5-His (서열번호: 195), 또는
Xa-X-Cys-X2-5-Cys-X3-Xa-X-Asp-X-Ser-Ala-Xb-X-Arg-His-X 3-5-His (서열번호: 196),
(여기에서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기이며, Xc는 세린 또는 트레오닌이다.) 본 발명의 핵산은 상기의 폴리펩타이드를 코딩하는 핵산을 포함한다. 한 실시태양에서 상기한 아미노산 서열은 천연형 서열이다.
또한, 본 발명의 정제된 폴리펩타이드는 서열번호: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 173, 175, 177, 179, 181, 183, 185, 187, 189, 또는 191과 적어도 50%, 60%, 70%, 80%, 90%, 93%, 95%, 96%, 98%, 99%, 또는 100% 동일한 아미노산 서열을 가질 수 있다. 상기 폴리펩타이드는 폴리펩타이드의 핵산 접촉 잔기에 상응하는 아미노산 위치에서 서열번호: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 173, 175, 177, 179, 181, 183, 185, 187, 189, 또는 191 과 동일할 수 있다. 또는, 상기 폴리펩타이드는 폴리펩타이드의 핵산 접촉 잔기에 상응하는 잔기들 중 하나 이상의 잔기가 서열번호: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 173, 175, 177, 179, 181, 183, 185, 187, 189, 또는 191과 다를 수 있다. 상기 폴리펩타이드는 또한 DNA 접촉 잔기외의 하나 이상의 잔 기가 다를 수도 있다. (하기 설명 참조). 예를 들면, 소정의 징크 핑거 도메인에서 폴리펩타이드는 상기 언급된 아미노산 서열과 하나의 아미노산이 다르거나, 둘, 셋 또는 네 개의 아미노산이 다를 수도 있다. 이 차이는 본 명세서에서 정의한 보존적 대체 (conservative substitution)때문일 수 있다. 한 예에서, 상기 참조한 서열과 다른 아미노산은 두번째 징크 배위 시스테인과 -1 DNA 접촉부위(아래에 설명한 DNA 접촉부위의 숫자 부여 제도 참조) 사이에 위치한다. 두 서열의 비교 및 두 서열간의 동일성의 백분율의 결정은 수학적 알고리즘을 사용하여 수행할 수 있다. 특히, 두 아미노산 서열 사이의 동일성의 백분율은, 블러섬 62 스코어링 매트릭스(Blossum 62 scoring matrix)를 12 갭 벌칙(gap penalty), 4 갭 확장 벌칙(gap extend penalty) 및, 5 프레임시프트 갭 벌칙(frameshift gap penalty) 조건에서 사용하여, GCG 소프트웨어 패키지의 GAP 프로그램에 포함되어 있는 니들만과 운쉬(Needleman and Wunsch, (1970) J. Mol. Biol. 48:444-453) 알고리즘을 이용하여 결정된다.
상기 정제된 폴리펩타이드는 또한, 이종 DNA 결합 도메인, 핵 위치 시그날, 소분자 결합 도메인(예, 스테로이드 결합 도메인), 에피토프 태그 또는 정제 도구, 촉매 도메인(예, 핵산 개질 도메인, 핵산 절단 도메인, 또는 DNA 복구 촉매 도메인) 및/또는 전사 기능 도메인(예, 활성화 도메인, 억제 도메인 등) 중 하나 이상을 포함할 수 있다. 한 예에서, 상기 폴리펩타이드는 제2 도메인,예를 들어 본 명세서에 기술된 서열을 갖는 제2 도메인을 추가로 포함할 수 있다. 예를 들면, 상기 폴리펩타이드는 둘 이상의 징크 핑거 도메인을 포함하는 징크 핑거의 어레이를 포함할 수 있다. 각 도메인은 서열 번호: 68-75, 150-172와 193-196이나 그의 서브세트로 구성된 그룹에서 선택된 서열을 가질 수 있다. 나아가, 각 도메인은 서열번호: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 173, 175, 177, 179, 181, 183, 185, 187, 189 및 191, 및 그의 서브세트로 구성된 그룹에서 선택된 서열을 가질 수 있다.
본 명세서에 기술한대로, 상기 폴리펩타이드는 세포 내에서 생산되어, 각 징크 핑거 도메인이 인식하는 하위 부위를 포함하는 부위와 같은 표적 위치에 결합하여, 세포 내에서 내재 유전자와 같은 유전자를 조절할 수 있다. 예를 들어, 표 5, 6 및 7을 참조하시오.
본 발명은 또한 상기 폴리펩타이드를 코딩하는 단리된 핵산 서열, 및 서열번호: 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 102, 104, 106, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 140, 142, 144, 146, 148, 150, 174, 176, 178, 180, 182, 184, 186, 188, 190, 192의 서열 또는 이들의 상보물들로 구성된 그룹에서 선택된 서열을 갖는 단일 가닥 프로브에 매우 엄격한 조건 하에서 혼성화하는 단리된 핵산 서열을 포함한다. 본 발명은 본 발명의 폴리펩타이드를 이종 핵산 결합 도메인에 융합시켜 세포 내에서 발현시키는 방법을 추가로 포함한다. 이 방법은 상기 융합 단백질을 코딩하는 핵산을 세포 내로 도입하는 것을 포함한다. 본 발명의 핵산은 유도성 프로모터(예, 스테로이드 호르몬 조절성 프로모터, 소분자 조절성 프로모터, 또는 테트라사이클린 Tet-On 및 Tet-Off 시스템과 같은 조작된 유도성 시스템)와 같은 이종 핵산 서열에 의해 작동 가능하게 조절될 수 있다.
"염기 접촉 위치", "DNA 접촉 위치", 또는 "핵산 접촉 위치"라는 용어는, 서열번호: 21에서 아르기닌 73, 아스파르트산 75, 글루탐산 76, 및 아르기닌 79의 위치에 구조적으로 대응되는 징크 핑거 도메인의 네 아미노산 위치를 지칭한다. 이들 위치는 또한 -1, 2, 3, 및 6번 위치로 지칭되기도 한다. 의문 서열내에서 염기 접촉 위치에 상응하는 위치를 동정하기 위해서는, 의문 서열의 시스테인 및 히스티딘 잔기가 Zif268의 핑거 3의 시스테인 및 히스티딘 잔기와 정렬되도록 의문 서열을 관심 징크 핑거 도메인과 정렬시킨다. 유럽 생물정보 연구소(European Bioinformatics Institute)의 ClustalW WWW 서비스(http://www2.ebi.ac.uk/clustalw; Thompson et al. (1994) Nucleic Acids Res. 22:4673-4680)은 간편한 서열 정렬 방법을 제공한다.
보존적 아미노산 치환(conservative amino acid substitution)은 유사한 측쇄를 갖는 잔기의 상호 교환 가능성을 지칭한다. 예를 들면, 지방족 측쇄를 지닌 아미노산 그룹은 글라이신, 알라닌, 발린, 루이신, 및 이소루이신; 지방족-하이드록실 측쇄를 갖는 아미노산 그룹은 세린 및 트레오닌; 아마이드-함유 측쇄를 갖는 아미노산 그룹은 아스파라긴 및 글루타민; 방향족 측쇄를 갖는 아미노산 그룹은 페닐알라닌, 타이로신 및 트립토판; 염기성 측쇄를 갖는 아미노산 그룹은 라이신, 아르기닌 및 히스티딘; 산성 측쇄를 갖는 아미노산 그룹은 아스파르트산 및 글루탐 산; 그리고 황-함유 측쇄를 갖는 아미노산 그룹은 시스테인 및 메티오닌이다. 상황에 따라, 동일 그룹 내의 아미노산들은 상호 교환될 수 있다. 몇몇 추가적인 보존적 아미노산 치환 그룹은 다음과 같다: 발린-루이신-이소루이신; 페닐알라닌-타이로신; 라이신-아르기닌; 알라닌-발린; 아스파르트산-글루탐산; 및 아스파라진-글루타민.
"이종 (heterologous) 폴리펩타이드"라는 용어는 비-천연형 서열을 갖는 폴리펩타이드(예, 하이브리드 폴리펩타이드), 또는 천연형 폴리펩타이드와 동일하나 자연적으로는 존재하지 않는 방식으로 존재하는 서열을 갖는 폴리펩타이드를 지칭한다.
"하이브리드"라는 용어는 (i) 두 개 이상의 상이한 천연형 존재하는 서열; (ii) 하나 이상의 인공 서열(즉, 비-천연형 서열) 및 하나 이상의 천연형 서열; 또는 (iii) 두 개 이상의 인공 서열(동일 또는 상이함) 중 어느 하나에서 유래하는 아미노산 서열을 함유하는 비-천연형 폴리펩타이드를 지칭한다. 인공 서열의 예로는 천연형 서열의 돌연변이 및 새로이 설계된 서열이 있다.
본 명세서에서 사용된 "엄격한 조건하의 혼성화"라는 용어는, 45℃에서 6X 염화 나트륨/구연산 나트륨(SSC) 중에서 혼성화시키고, 이어서 65℃에서 0.2 X SSC, 0.1% SDS로 2회 세척하는 조건을 지칭한다.
"결합 선호도(binding preference)"이라는 용어는 폴리펩타이드가 다른 결합 부위에 비해 하나의 핵산 결합 부위를 선택하는 식별력을 지칭한다. 예를 들어, 두 개의 상이한 핵산 결합 부위에 비해 폴리펩타이드가 양적으로 제한적일 때, 본 명세서에 기술된 생체 내 또는 생체 외 분석법에서 다른 부위에 비해 선호되는 부위에 더 많은 양의 폴리펩타이드가 결합할 것이다.
본 명세서에서 사용된 "축중 올리고뉴클레오티드"란 (a) 각각 특정 아미노산 서열을 코딩하는 상이한 올리고뉴클레오티드들의 집단, 및 (b) 하나 이상의 서열에 어닐링할 수 있는 단일 종의 올리고뉴클레오티드, 예를 들면, 이노신과 같은 비-천연형 뉴클레오티드를 갖는 올리고뉴클레오티드, 둘 다를 의미한다.
본 발명은 무수한 잇점을 제공한다. 특정 서열을 인식하는 DNA 결합 도메인을 선별하는 능력은 DNA의 특정 부위에 결합하는 신규 폴리펩타이드의 디자인을 가능케 한다. 따라서, 본 발명은 선택된 표적의 발현을 조절할 수 있는(예를 들어, 병원체가 필요로 하는 유전자의 억제, 암 증식에 필요한 유전자의 억제, 또는 발현이 잘 안되거나 불안정 단백질을 코딩하는 유전자의 활성화 또는 과다발현 등) 신규 폴리펩타이드의 주문 생산을 용이하게 한다.
징크 핑거 도메인을 이용하는 것은 특히 유리하다. 첫째로, 징크 핑거 모티프는 매우 다양한 DNA 서열을 인식한다. 둘째로, 천연형 징크 핑거 단백질의 구조는 모듈성이다. 예를 들면, "Egr-1"으로도 불리는 Zif268 징크 핑거 단백질은 세 개의 징크 핑거 도메인이 직렬로 구성되어 있다. 도 1은 DNA와 복합체를 이룬 세 개의 핑거로 구성된 Zif268 징크 핑거 단백질의 X-선 결정 구조이다(Pavletich 및 Pabo, (1991) Science 252:809-817). 각 핑거는 DNA 인식 부위의 3-4 염기쌍과 독립적으로 접촉한다. 동일한 폴리펩타이드 사슬 내에서 여러 개의 징크 핑거 모듈이 협동 효과를 발휘함으로써 고 친화도 결합이 달성된다.
세포 내에서 작동하는 DNA 결합 폴리펩타이드를 얻는 것은 종종 최종 목표이다. 유리하게, 생체 내 선별법은 세포 내의 특정 DNA 부위에서 작용하는 중요한 DNA 결합 폴리펩타이드를 동정한다. 세포 특히 진핵 세포 내에서의 인식과 연관된 인자들은 시험관 내 선별 시나리오 중에 존재하는 인자들과는 크게 다를 수 있다. 예를 들면, 진핵세포 핵 내에서, 폴리펩타이드는 특정 핵산 결합 부위에 대해 무수히 많은 다른 핵 단백질들과 경쟁해야만 한다. 뉴클레오좀(nucleosome) 또는 기타 크로마틴 단백질이 결합 부위를 차지하거나, 폐쇄하거나, 또는 이 결합 부위에 경쟁적으로 작용할 수 있다. 비록 다른 단백질들과 결합되어 있지 않다고 하더라도, 세포 내에서 핵산의 구조는 구부러짐, 슈퍼코일링, 비틀림, 및 풀림을 겪게 된다. 폴리펩타이드 자체는 기타 인자들 중에서 프로테아제 및 샤파론(chaperone)에 노출되어 있다. 더욱이, 폴리펩타이드는 전체 게놈의 결합 가능한 부위와 직면하게 되고, 그리하여 선별 과정에서 선별되기 위하여는 원하는 부위에 대해 높은 특이성이 있어야만 한다. 생체 내 선별과는 대조적으로, 생체 외 선별은 최고의 특이성을 갖는 결합물보다는 최고의 친화도를 갖는 결합물을 선택할 수 있다.
발현되는 키메라 폴리펩타이드의 결합 능력을 보여주기 위해 리포터 유전자를 사용하는 것은 효과적이고 간단할 뿐 아니라, 단백질-핵산 계면의 에너지학, 및 주변 잔기 및 결합 계면에 영향을 주는 뉴클레오티드와 같은 수많은 주변 인자들을 설명하는 복잡한 상호작용 코드를 개발할 필요가 없어서 유리하다(Segal et al. (1999) Proc. Natl. Acad. Sci. USA 96:2758-2763).
본 발명은 인간 게놈, 또는 임의의 다른 게놈에 존재하는 모든 징크 핑거 도 메인을 이용한다. 징크 핑거 도메인의 구조적 폴딩이 점유하는 서열 공간을 이와 같이 다양하게 선택하는 것은 오랜 옛날부터의 자연 선택에 본질적인 부가적 잇점을 가질 수 있다. 게다가, 숙주 종으로부터 유래한 도메인을 이용함으로써, 본 명세서에 기술된 방법에 따라 유전자 치료에 적용되도록 설계된 DNA 결합 단백질은 숙주 면역계에 의해 외부적인 것으로 취급될 가능성이 감소된다.
본 명세서에 기술된 방법에 의해 동정된 DNA 결합 단백질은 다양한 적용분야에 사용될 수 있다. 예를 들면, DNA 결합 단백질은 배양세포 또는 숙주 생명체 내의 세포 내에서 내재 유전자의 발현을 변경시킬 수 있다. DNA 결합 단백질은 일정 조건(예, 스트레스)에 대한 감수성 또는 저항성의 증진, 증식능력의 변화, 병원성의 변화 및 산물 생산(예, 대사산물 생산)의 변화와 같은 세포의 표현형을 변화시키는데 사용될 수 있다.
본 명세서에 언급된 모든 특허, 특허출원, 및 참고문헌은 모든 목적을 위해 그 전부가 참고문헌으로 삽입된다. 하나 이상의 본 발명의 실시태양의 구체적인 내용은 첨부 도면 및 하기 설명에 나타나 있다. 본 발명의 다른 특징, 목적 및 잇점은 이 설명 및 도면, 및 청구항으로부터 명백해질 것이다.
도 1은 3개의 징크 핑거 도메인으로 구성되고 DNA 서열 5'-GCG TGG GCG T-3' (서열번호: 197)과 결합하는 zif268 징크 핑거 단백질의 3차 구조를 나타낸다. 검은 원은 징크 이온의 위치이다.
도 2는 Zif268의 아미노산 잔기와 DNA 염기 사이의 수소 결합 상호작용을 나 타낸다. α-헬릭스를 따라 -1, 2, 3 및 6 위치의 아미노산 잔기들은 특정 위치의 염기들과 상호작용한다. 굵은 선은 이상적인 수소 결합을 나타내며, 점선은 잠재적인 수소 결합을 나타낸다.
도 3은 DNA 염기와 징크 핑거 도메인의 α-헬릭스를 따라 -1, 2, 3 및 6번 위치의 아미노산 잔기 사이의 상호작용을 요약한 인식 코드(recognition code) 표이다.
도 4는 아미노산 잔기 및 이들의 상응하는 3 염기 트리플릿(3 base triplet)의 위치를 나타내는 도면이다. 굵은 선은 관찰되는 주요 상호작용을 나타내고, 점선은 보조 상호작용을 나타낸다.
도 5는 본 명세서에 개시된 생체 내 (in vivo) 선별 시스템의 원리를 설명하는 모식도이다. 다양한 징크 핑거 돌연변이 중, 징크 핑거 도메인 A는 표적 서열(XXX X 로 표시)을 인식하고 HIS3 리포터 유전자의 전사를 활성화시킨다. 결과적으로, 효모 콜로니는 히스티딘이 결핍된 배지에서 자란다. 이와 대조적으로, 징크 핑거 도메인 B는 표적 서열을 인식하지 않으므로 리포터 유전자는 억제된 채로 있게 된다. 그 결과, 히스티딘이 결핍된 배지에서 콜로니가 자라지 않는다. AD는 전사 활성화 도메인을 나타낸다.
도 6은 HIV의 긴 말단 반복부위(Long Terminal Repeat; LTR)에서 및 HIV-1의 공수용체(coreceptor)를 코딩하는 인간 유전자인 CCR5의 프로모터 부위에서 발견되는 10-bp 서열의 목록이다(각각 서열번호: 1-5). 밑줄 친 부분은 본 발명의 선별에서 사용된 4-bp 표적 서열을 나타낸다.
도 7은 리포터 유전자에 연결된 결합 부위의 염기 서열을 나타낸다 (각각 서열번호: 6-17). 각각의 결합 부위는 4개의 복합 결합 서열이 직렬로 배치되어 구성된다. 각각의 복합 결합 서열은 Zif268의 핑거 1 및 핑거 2에 의해 인식되는 절단된 결합 서열 5'-GG GCG-3'을 4-bp 표적 서열에 연결시켜 제조하였다.
도 8은 하이브리드 플라스미드의 라이브러리 제조에 사용 가능한 플라스미드인 pPCFMS-Zif의 모식도이다(서열번호: 18 및 19).
도 9는 pPCFMS-Zif에 삽입된 Zif268 징크 핑거 단백질을 코딩하는 유전자에 대한 염기 서열 및 상응하는 번역된 아미노산 서열을 나타낸다 (각각 서열번호: 20 및 21). 제한 효소에 의해 인식되는 부위는 밑줄로 표시되어 있다.
도 10은 생체 내 선별 시스템에 의해 선택된 징크 핑거 단백질을 사용한 재형질전환(retransformation) 및 교차 형질전환(cross-transformation)으로부터 얻은 효모 세포를 가지는 배양 플레이트의 사진이다.
도 11A는 P3 벡터의 폴리링커 영역의 핵산 서열이다(서열번호: 251). 이 영역 외의 서열은 모 벡터 pcDNA3(Invitrogen)와 동일하다. 각 효소 절단부위가 이탤릭체로 표시되어 있으며 HA 태그는 밑줄로 표시되어 있다. 전사 개시 부위와 종결 부위는 굵은 글씨로 표시하였다. 또한 핵 위치 시그날(NLS) 역시 표시하였다.
도 11B는 징크 핑거 단백질 라이브러리를 제조하기 위한 하나의 예시적 방법을 도식화한 것이다.
도 12는 리포터 구조물들 및 이들의 전사 개시 영역의 서열의 단편을 나타낸 도면이다. 5XGal4는 5개의 GAL4 결합 부위를, TATA는 TATA 박스를, Inr는 전사개 시 부위를 가리킨다. NNNNNNNNN는 특정 ZFP에 대한 동종의 결합 부위를 나타낸다. 각 위치는 전사 개시점(+1)을 기준으로 하여 숫자를 부여하였으며, 동일한 뉴클레오티드는 "-"로 표기하였다. ">"는 해당 뉴클레오티드의 결실을 의미한다.
본 발명은 시험 징크 핑거 도메인의 핵산 결합 선호도를 결정하기 위한 새로운 스크리닝법에 관한 것이다. 이 방법에서는 다양한 단백질 도메인, 이들 도메인의 다양한 원천들, 및 수많은 설계된 라이브러리, 리포터 유전자, 및 선별 및 스크리닝 시스템이 이용될 수 있다. 이 스크리닝 방법은 많은 작업 처리량을 기반으로 하여 수행될 수 있다. 이 스크리닝 방법으로부터 얻은 정보는 인위적 핵산 결합 단백질을 디자인하는 방법에 쉽게 이용될 수 있으며, 상기 핵산 결합 단백질은 통상적으로 DNA 결합 단백질이지만 어떤 경우에는 RNA 결합 단백질이며, 다른 단백질과 상호작용하는 단백질이기도 하다. 상기 디자인 방법은 시험 징크 핑거 도메인의 결합 선호도를 이용하여 키메라 핵산 결합 단백질의 단위체적 조립을 가능하게 한다. 디자인된 단백질은 상기 스크리닝 방법으로 더욱 최적화되거나 또는 변형될 수 있다.
DNA 결합 도메인
본 발명은 상이한 결합 특이성을 갖는 핵산 결합 도메인의 집합체를 이용한다. 높은 친화성 및 높은 특이성을 가지고 핵산에 결합하는 다양한 단백질 구조가 알려져 있다. 이들 구조는 수많은 상이한 단백질에 반복적으로 사용되어 핵산의 기능을 특이적으로 제어한다 (이중 가닥 DNA를 인식하는 구조적 모티프의 검토를 위해, 예를 들어 문헌[Pabo and Sauer (1992) Annu. Rev. Biochem. 61:1053-95; Patikoglou and Burley (1997) Annu. Rev. Biophys. Biomol. Struct. 26: 289-325; 및 Nelson (1995) Curr Opin Genet Dev. 5:180-9] 참조). 핵산 결합 도메인에 대한 몇 가지 비제한적인 예는 다음을 포함한다.
징크 핑거. 징크 핑거는 대략 30 개의 아미노산 잔기로 된 작은 폴리펩타이드 도메인으로서, 그 중 시스테인 또는 히스티딘인 4 개의 아미노산 잔기가 적절히 배치되어 아연 이온과 배위 결합을 할 수 있다(도 1 참조; 검토를 위해, 예를 들어 문헌 [Klug and Rhodes (1987) Trends Biochem. Sci. 12: 464-469 (1987); Evans and Hollenberg, (1988) Cell 52: 1-3; Payre and Vincent (1988) FEBS Lett. 234: 245-250; Miller et al., (1985) EMBO J. 4:1609-1614; Berg (1988) Proc. Natl. Acad. Sci. U.S.A. 85:99-102; 및 Rosenfeld and Margalit, (1993) J. Biomol. Struct. Dyn. 11: 557-570] 참조). 따라서, 징크 핑거 도메인은 아연 이온과 배위결합을 하는 잔기의 종류에 따라, 예를 들어 Cys2-His2 류, Cys2-Cys2 류, Cys2-CysHis 류 등으로 분류할 수 있다. Cys2-His2 징크 핑거에서 아연과 배위결합하는 잔기는 전형적으로 다음과 같이 배치되어 있다:
Xa-X-C-X2-5-C-X3-Xa-X5-Ψ-X2-H-X3-5-H
여기에서 Ψ(프사이)는 소수성 잔기이고(Wolfe et al., (1999) Annu. Rev. Biophys. Biomol. Struct. 3:183-212)(서열번호: 76), "X"는 임의의 아미노산을 나 타내고, Xa는 페닐알라닌 또는 티로신이며, 아래 첨자는 아미노산의 개수를 가리키고, 하이픈으로 연결된 두 개의 아래 첨자는 개입하는 아미노산의 전형적인 범위를 가리킨다. 비록 역평행(anti-parallel) β-시트는 짧고 비이상적이고 존재하지 않을 수 있지만, 전형적으로, 개입하는 아미노산은 폴딩되어 α-헬릭스에 대하여 충전되는 역평행 β-시트를 형성한다. 폴딩으로 인해, 아연과 배위 결합하는 측쇄가 아연 이온과 배위결합하기에 적합한 사면체 구조를 갖도록 배치된다. 염기 접촉 잔기는 핑거의 N-말단에 위치하고, 선행하는 루프 영역 내에 있다(도 2).
편의를 위해, 징크 핑거 도메인의 주요 DNA 접촉 잔기는 다음 예에 의거하여, -1, 2, 3 및 6으로 번호를 매겼다.
-1 1 2 3 4 5 6
Xa-X-C-X2-5-C-X3-Xa-X-C-X-S-N-Xb-X-R-H-X3-5 -H (서열번호: 68),
상기 예에 명기한대로, DNA 접촉 잔기는 시스테인(C), 세린(S), 아스파라긴 (N) 및 아르기닌(R)이다. 상기 모티프는 CSNR로 줄여서 표기할 수 있다. 본 명세서에 사용된대로, 그러한 생략 표기는 첫번째 시스테인의 두 개 앞의 잔기(위의 Xa, 서열번호: 68의 시작 잔기)로부터 금속을 잡고있는 마지막 히스티딘(서열번호: 68의 마지막 잔기)까지의 특정 폴리펩타이드 서열의 압축형이다. 두 개의 상이한 서열이 같은 모티프를 가질 때에는 각 서열을 구별하기 위해 숫자를 사용할 수 있다(예, CSNR1, CSNR2). 문맥에서 분명하게 알 수 있는 경우에 네 글자 압축형은 일반적인 모티프를 지칭한다.
징크 핑거 DNA-결합 단백질은 통상적으로 직렬로 배치된 세 개 이상의 징크 핑거 도메인으로 구성될 수 있다.
징크 핑거 도메인("ZFD")는 가장 흔한 진핵생물 DNA-결합 모티프 중 하나로서, 효모로부터 고등 식물 및 인간에 이르는 다양한 종에서 발견된다. 인간 게놈에만도 수 천가지 이상, 아마도 4,500가지 이상의 징크 핑거 도메인이 존재할 것으로 추측된다. 징크 핑거 도메인은 징크 핑거 단백질에서 동정되거나 그로부터 단리될 수 있다. 징크 핑거 단백질의 비제한적인 예로는 CF2-II; 크룹펠(Kruppel); WT1; 바소누클린(basonuclin); BCL-6/LAZ-3; 적혈구 크룹펠-유사 전사 인자; 전사 인자 Sp1, Sp2, Sp3 및 Sp4; 전사 억제제 YY1; EGR1/Krox24; EGR2/Krox20; EGR3/Pilot; EGR4/AT133; Evi-1; GLI1; GLI2; GLI3; HIV-EP1/ZNF40; HIV-EP2; KR1; ZfX; ZfY; 및 ZNF7 등이 있다.
하기 전산화 방법을 사용하여 서열이 밝혀진 게놈 중에 또는 핵산 데이터베이스 중에 코딩된 모든 징크 핑거 도메인을 동정할 수 있다. 임의의 그러한 징크 핑거 도메인을 이용할 수 있다. 또한, 인위적인 징크 핑거 도메인이 예를 들어 전산화 방법에 의해 디자인되었다(예. Dahiyat and Mayo, (1997) Science 278:82-7).
많은 징크 핑거 도메인이 DNA 부위에 결합하지만, 몇몇 징크 핑거 도메인은 RNA 부위 및 다른 단백질과 같은 다른 리간드에 결합할 수 있다. 어떤 실시태양에서는, 키메라 징크 핑거 단백질이 표적 단백질 또는 표적 RNA 부위와 같은 비-DNA 리간드에 결합하도록 만들어진다. 표적 RNA 부위는 천연의 ncRNA와 같은 ncRNA 상의 부위일 수 있다.
호메오도메인. 호메오도메인은 DNA의 부된(minor) 그루브(groove)와 접촉하는 N-말단 가지(arm) 및 뒤이어 오는 주된(major) 그루브와 접촉하는 3 개의 α-헬릭스로 구성된 단순한 진핵생물 도메인이다(예를 들어, Laughon, (1991) Biochemistry 30: 11357-67 참고). 세 번째 α-헬릭스는 주된 그루브에 위치하며 결정적인 DNA-접촉 측쇄를 함유한다. 호메오도메인은 세 번째 α-헬릭스에 이르는 전환점(turn)에 존재하는 고도로 보존된 특징적인 모티프를 가진다. 이 모티프는 도메인의 소수성 코어 내로 충전되는 불변 트립토판을 포함한다. 이 모티프는 프로사이트(Prosite) 데이터베이스 (Falquet et al. (2002) Nucleic Acids Res. 30:235-238 참조)에 PDOC00027([L/I/V/M/F/Y/G]-[A/S/L/V/R]-X(2)-[L/I/V/M/S/T/A/C/N]-X-[L/I/V/M]-X(4)-[L/I/V]-[R/K/N/Q/E/S/T/A/I/Y]-[L/I/V/F/S/T/N/K/H]-W-[F/Y/V/C]-X-[N/D/Q/T/A/H]-X(5)-[R/K/N/A/I/M/W]; 서열번호: 77)로서 공지되어 있다. 호메오도메인은 세포 동일성을 결정하고 유기체의 발생 과정에서 위치적인 정보를 제공하는 전사 인자에서 흔히 발견된다. 그러한 고전적인 호메오도메인은, 게놈 상에 무리(cluster)지어 존재하는데, 무리 중의 호메오도메인의 순서는 바디축(body axis)을 따라 그들의 발현 패턴에 근사적으로 상응한다. 호메오도메인은 예를 들어 Hox-1과 같은 호메오도메인과의 정렬에 의해, 또는 호메오도메인 프로필 또는 호메오도메인 히든 마르코프 모델(hidden Markov Model; HMM; 하기 참조), 예를 들어 Pfam 데이터베이스의 PF00046 또는 SMART 데이터베이스의 "HOX"와의 정렬에 의해, 또는 상기한 프로사이트 모티프 PDOC00027에 의해 동정될 수 있다.
헬릭스-턴-헬릭스 단백질. 이 DNA 결합 모티프는 많은 원핵 생물 전사 인자 중에서 흔히 발견된다. 예를 들어 LacI 족, AraC 족 등 많은 아족이 있다. 명칭에서 두 개의 헬릭스는, 두 번째 α-헬릭스에 대해 충전되고 이를 DNA의 주된 그루브 내로 배치하는 첫 번째 α-헬릭스 및 상기 두 번째 α-헬릭스를 말한다. 이들 도메인은 HMM, 예를 들어 SMART 데이터베이스에서 얻을 수 있는 HTH_ARAC, HTH_ARSR, HTH_ASNC, HTH_CRP, HTH_DEOR, HTH_DTXR, HTH_GNTR, HTH_ICLR, HTH_LACI, HTH_LUXR, HTH_MARR, HTH_MERR 및 HTH_XRE 프로필과의 정렬에 의해 동정될 수 있다.
헬릭스-루프-헬릭스 단백질. 이 DNA 결합 도메인은 예를 들어 MyoD, fos, jun, E11 및 미오제닌과 같은 호모- 및 헤테로-이량체 전사 인자들 사이에서 공통적으로 발견된다. 이 도메인은 이량체 및 그 사이의 루프로 이루어지며, 각 단량체는 두 개의 α-헬릭스에 기여한다. 이 도메인은 예를 들어 SMART 데이터베이스에서 이용 가능한 "HLH" 프로필과 같은 HMM과의 정렬에 의해 동정될 수 있다. 비록 헬릭스-루프-헬릭스 단백질은 전형적으로 이량체성이지만, 폴리펩타이드 링커를 두 개의 서브유닛 사이에 설계하여 단일 오픈 리딩 프레임(open reading frame)이 두 개의 서브유닛 및 링커를 코딩하도록 함으로써 단량체성 버젼을 구축할 수 있다.
DNA-결합 도메인의 동정
다양한 방법을 사용하여 구조 도메인을 동정할 수 있다.
전산화 방법(Computational Method). 본 명세서에 기술된 방법에 의해 단리 된 DNA 결합 도메인의 아미노산 서열을 공지 서열의 데이터베이스, 예를 들어 단백질 서열의 주석을 단 데이터베이스 또는 핵산 결합 도메인에 대한 기입을 포함하는 주석을 단 데이터베이스와 비교할 수 있다. 또 다른 실시태양에서는, 비특성화된 서열, 예를 들어 주석을 달지 않은 게놈 서열, EST 또는 전장 cDNA 서열의 데이터베이스; 특성화된 서열의 데이터베이스, 예를 들어 SwissProt 또는 PDB; 및 도메인의 데이터베이스, 예를 들어 Pfam, ProDom (Corpet et al. (2000) Nucleic Acids Res. 28:267-269), 및 SMART (Simple Modular Architecture Research Tool, Letunic et al. (2002) Nucleic Acids Res 30, 242-244)가 핵산 결합 도메인 서열의 공급원(source)을 제공할 수 있다. 의문 아미노산 서열과 비교하기 위하여, 핵산 서열 데이터베이스를 모든 6개의 해독 프레임(reading frame)으로 번역할 수 있다. 후보 핵산 결합 도메인을 코딩하는 것으로 표식된 핵산 서열을 적합한 핵산 공급원, 예를 들어 게놈 DNA 또는 세포 RNA로부터 증폭할 수 있다. 그러한 핵산 서열을 발현 벡터에 클로닝할 수 있다. 컴퓨터에 기초한 도메인 동정의 상기 과정을 올리고뉴클레오티드 합성기 및 로보트 시스템과 연계시켜 높은 작업처리량으로 도메인을 코딩하는 핵산을 생산할 수 있다. 후보 도메인을 코딩하는 클로닝된 핵산을 숙주 발현 벡터에 저장하고 제한 효소-매개 서브클로닝 또는 부위-특이적 재조합효소-매개 서브클로닝(미국 특허 제5,888,732호 참조)에 의해 Zif268 핑거 1 및 2와 함께 발현 벡터, 예를 들어 번역 융합 벡터에 쉽게 도입시킬 수 있다. 높은 작업 처리량으로, 상이한 후보 핵산 결합 도메인을 코딩하는 핵산을 함유하는 다수의 마이크로타이터 플레이트를 생성할 수 있다.
출발 서열 또는 프로필로부터 도메인을 동정하는 상세한 방법은 당업계에 주지되어 있다. 예를 들어 프로사이트([Hofmann et al., (1999) Nucleic Acids Res. 27:215-219] 참조), FASTA, BLAST([Altschul et al., (1990) J. Mol. Biol. 215:403-10] 참조) 등 참조. 간단한 스트링 검색을 수행하여 의문 서열 또는 의문 프로필에 대한 동일성을 가지는 아미노산 서열을 찾을 수 있으며, 예를 들어 Perl을 사용하여 텍스트 파일을 스캐닝할 수 있다. 이렇게 동정된 서열은 초기 입력 서열에 대해 약 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 그 이상의 동일성을 나타낼 수 있다.
의문 도메인과 유사한 도메인을 공용 데이터베이스, 예를 들어 문헌 [Altschul et al., (1990) J. Mol. Biol. 215:403-10]의 XBLAST 프로그램(버젼 2.0)을 사용하여 동정할 수 있다. 예를 들어, 스코어 = 50, 단어 길이 = 3의 XBLAST 변수를 사용하여 BLAST 단백질 검색을 수행할 수 있다. 문헌[Altschul et al., (1997) Nucleic Acids Res. 25(17):3389-3402]에 기술된 바와 같이 의문 서열 또는 검색된 서열에 간격을 도입할 수 있다. XBLAST 및 Gapped BLAST 프로그램에 대한 디폴트 변수는 미국 메릴랜드주 베데스다에 있는 국립보건원내의 국립생물공학정보센타(NCBI)에서 구할 수 있다.
프로사이트 프로필 PS00028 및 PS50157을 사용하여 징크 핑거 도메인을 동정할 수 있다. 80,000개 단백질 서열의 SWISSPROT 방출 중, 이들 프로필은 각각 3189 및 2316 개의 징크 핑거 도메인을 검색하였다. 다양한 상이한 기법을 사용하여 관련 단백질의 다중 서열 정렬로부터 프로필을 구축할 수 있다. 그리브스코프(Gribskov) 및 그의 동료들[Gribskov et al., (1990) Meth. Enzymol. 183:146-159]은 심벌 비교 표를 이용하여 잔기 빈도 분포가 제공된 다중 서열 정렬을 각 위치에 대한 가중치로 전환하였다. 예를 들어 PROSITE 데이터베이스 및 문헌 [Luethy et al., (1994) Protein Sci. 3:139-1465]의 작업 참조.
관심있는 DNA 결합 도메인을 대표하는 히든 마르코프 모델(Hidden Markov Models; HMM's)은 예를 들어 Pfam 데이터베이스, 릴리스 2.1과 같은 그러한 모델의 데이터베이스로부터 생성하거나 얻을 수 있다. 추가적인 도메인을 찾기 위해 예를 들어 상기 디폴트 변수를 사용하여 HMM으로 데이터베이스를 검색할 수 있다(예. Bateman et al. (2002) Nucleic Acids Research 30:276-280 참조). 또는, 사용자는 상기 변수들을 최적화시킬 수 있다. 경계 스코어(threshold score)를 선택하여 서열 데이터베이스를 여과함으로써 경계 이상의 스코어를 가지는 서열이 후보 도메인으로서 표시되도록 할 수 있다. Pfam 데이터베이스의 설명은 문헌[Sonhammer et al., (1997) Proteins 28(3):405-420]에서 찾을 수 있으며, HMM에 관한 상세한 설명은 예를 들어 문헌[Gribskov et al., (1990) Meth. Enzymol. 183:146-159; Gribskov et al,. (1987) Proc. Natl. Acad. Sci. USA 84:4355-4358; Krogh et al., (1994) J. Mol. Biol. 235:1501-1531; 및 Stultz et al., (1993) Protein Sci. 2:305-314]에서 찾을 수 있다.
HMM의 SMART 데이터베이스(Simple Modular Architecture Research Tool; Schultz et al., (1998) Proc. Natl. Acad. Sci. USA 95:5857; 및 Schultz et al., (2000) Nucl. Acids Res 28:231)는, HMMer2 검색 프로그램(Durbin et al., (1998) Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press.)의 히든 마르코프 모델로 프로필함으로써 동정된 징크 핑거 도메인의 카탈로그(ZnF_C2H2; ZnF_C2C2; ZnF_C2HC; ZnF_C3H1; ZnF_C4; ZnF_CHCC; ZnF_GATA; 및 ZnF_NFX)를 제공한다.
혼성화에 기초한 방법. 다양한 형태의 DNA 결합 도메인을 코딩하는 핵산 집합체를 분석하여 아미노 말단 및 카르복시 말단의 보존된 경계부 서열을 코딩하는 서열 프로필을 얻을 수 있다. 그러한 보존된 경계부 서열을 코딩하는 서열에 혼성화할 수 있는 축중 올리고뉴클레오티드를 디자인할 수 있다. 또한, 그러한 축중 올리고뉴클레오티드의 유효성은 그들의 조성과 공지된 게놈 서열 상의 가능한 어닐링 부위의 빈도를 비교함으로써 평가될 수 있다. 다수 반복된 디자인에 의해 축중 올리고뉴클레오티드를 최적화할 수 있다. 예를 들어, 공지의 Cys2-His2 징크 핑거들을 비교함으로써 천연형 서열 중의 인접 핑거들 사이의 링커 영역의 공통 서열을 밝혀내었다 (문헌 [Agata et al., (1998) Gene 213:55-64] 참조). 그러한 축중 올리고뉴클레오티드는 다수의 DNA 결합 도메인을 증폭시키는데 사용된다. 증폭된 도메인을 시험 징크 핑거 도메인으로서 하이브리드 핵산 중에 삽입하고, 후속적으로 본 명세서에 기술된 방법에 따라 표적 부위에 대한 결합을 분석한다.
핵산 결합도메인의 집합체
이 방법은 DNA 결합 도메인을 코딩하는 핵산의 집합체(예를 들어 플라스미 드, 파지미드 또는 파지 라이브러리의 형태)를 기능적 핵산 결합 특성을 확인하기 위해 스크리닝할 수 있도록 한다. 상기 집합체는 다양한 군의 DNA 결합 도메인을 코딩할 수 있으며, 심지어 상이한 폴딩 구조를 갖는 도메인도 코딩할 수 있다. 한 예로, 상기 집합체는 징크 핑거 도메인과 같은 단일 폴딩 구조의 도메인을 코딩한다. 비록 하기 방법은 징크 핑거 도메인에 관하여 기술되었지만, 당업계의 숙련가라면 이를 다른 유형의 핵산 결합 도메인에 응용할 수 있을 것이다.
돌연변이 도메인. 한 예에서, 상기 집합체는, 축중 패턴화 라이브러리로부터 조립되는 구조 도메인을 코딩하는 핵산으로 구성된다. 예를 들어, 징크 핑거의 경우, 공지 징크 핑거의 정렬을 통하여 각 위치에서의 최적 아미노산을 동정할 수 있다. 별법으로, 구조적 연구 및 돌연변이유발(mutagenesis) 실험을 통하여 각 위치에서 아미노산의 바람직한 특성을 결정할 수 있다. 임의의 핵산 결합 도메인도 돌연변이를 도입하기 위한 구조적 기반으로 사용될 수 있다. 특히, 핵산 결합 계면에 매우 근접한 위치 또는 그러한 위치에 인접한 위치가 돌연변이 유발을 위한 표적이 될 수 있다. 패턴화된 축중 라이브러리를 사용함으로써, 돌연변이된 시험 징크 핑거 도메인의 임의의 돌연변이 위치에서 가능한 아미노산을 일정한 종류로 한정시킬 수 있다. 각 위치에 상기 프로필을 코딩하기 위하여 축중 코돈 세트를 사용할 수 있다. 예를 들어, 소수성 잔기만, 지방족 잔기만 또는 친수성 잔기만을 코딩하는 코돈 세트를 이용할 수 있다. 폴딩된 폴리펩타이드를 코딩하는 전장 클론을 위하여 상기 라이브러리를 선별할 수 있다. 문헌 [Cho et al., (2000) J. Mol. Biol. 297(2):309-19]에서는 축중 올리고뉴클레오티드를 사용하여 그러한 축 중 라이브러리를 제조하는 방법을 제공하며, 또한 전장 폴리펩타이드를 코딩하는 라이브러리 핵산을 선별하는 방법을 제공한다. 이러한 핵산을 본 명세서에 기재된 선별법에 사용하기 위하여, 간편한 제한 효소 절단 부위 또는 전위효소(transposase) 또는 재조합효소(recombinase) 인식 부위를 사용하여 발현 플라스미드 내로 쉽게 삽입할 수 있다.
적합한 코돈 및 소정 위치에서의 각 뉴클레오티드의 상대 비율의 선택은, 유전자 코드를 나타내는 표를 간단히 조사하거나 또는 전산화 알고리즘에 의해 결정할 수 있다. 예를 들어, 상기 조(Cho) 등의 문헌에서는 단백질 서열의 요망 프로필을 입력하고 그 프로필의 서열을 코딩하는 바람직한 올리고뉴클레오티드 디자인을 출력하는 전산 프로그램이 기재되어 있다. 예를 들면, 이 디자인은 올리고뉴클레오티드 집단에 대한 축중 위치를 포함할 수도 있다.
도메인의 천연적 종류의 단리. 도메인의 라이브러리를 인간과 같은 진핵 생물의 게놈 DNA 또는 cDNA로부터 구축할 수 있다. 이를 위해 다수의 방법을 이용할 수 있다. 예를 들어, 상기한 바와 같이, 이용가능한 아미노산 서열의 전산 검색으로 도메인을 동정할 수 있다. 각 도메인을 코딩하는 핵산을 단리하고, 예를 들어 프로모터, 활성화 도메인 및 선별 마커를 함유하는 벡터와 같은, 세포 내 발현에 적합한 벡터 내로 삽입할 수 있다. 또 다른 예에서, 보존된 모티프에 혼성화하는 축중 올리고뉴클레오티드를 사용하여, 예를 들어 PCR에 의해 이 모티프를 함유하는 다수의 연관 도메인을 증폭시킨다. 예를 들어, 크룹펠-유사 Cys2His2 징크 핑거를 문헌[Agata et al., (1998) Gene 213:55-64]의 방법에 의해 증폭시킬 수 있다. 이 방법은 또한, 예를 들어 Thr-Gly-(Glu/Gln)-(Lys/Arg)-Pro-(Tyr/Phe)(서열번호: 78)의 패턴을 갖는 서열인, 천연형 징크 핑거 도메인 링커 펩타이드 서열을 보유한다. 또한, 비선별적 게놈 라이브러리 또는 cDNA 서열의 라이브러리를 스크리닝하는 것과 달리, 관심있는 도메인에 국한된 집합체를 스크리닝하는 것은, 라이브러리 복잡성이 매우 감소하고, 대규모 라이브러리를 완전히 스크리닝하는 것이 갖는 내재적인 어려움으로 인해 목적하는 서열을 놓칠 가능성을 감소시킨다.
인간 게놈은 다수의 징크 핑거 도메인을 함유하며, 이 중 다수는 특성화되지 않고 동정되지 않았다. 징크 핑거 도메인을 갖는 단백질을 코딩하는 수천 개의 유전자가 있을 것으로 추정된다[Pellegrino and Berg, (1991) Proc. Natl. Acad. Sci. USA 88:671-675]. 이들 인간 징크 핑거 도메인은, 신규한 DNA-결합 단백질이 구축될 수 있는 다양한 도메인의 광범위한 집합체이다. 각 징크 핑거 도메인이 독특한 3- 내지 4-bp 서열을 인식하는 경우, 모든 가능한 3- 내지 4-bp 서열에 결합하는 데 필요한 도메인의 총 수는 단지 64 내지 256 (43 내지 44)개이다. 인간 게놈의 천연적 종류가 모든 가능한 인식 부위를 특이적으로 인식할 수 있는 충분한 수의 독특한 징크 핑거 도메인을 함유할 수 있다. 이들 징크 핑거 도메인은 인위적 키메라 DNA 결합 단백질을 구축하기 위한 귀중한 공급원이다. 천연형 징크 핑거 도메인은, 인간 게놈에서 유래하는 인위적 돌연변이와는 달리, 자연 선택 압력 하에서 진화된 것이며, 따라서 특정 DNA 서열에의 결합 및 생체내 기능을 위하여 자연적으로 최적화된 것일 수 있다.
인간 징크 핑거 도메인은, 예를 들어 유전자 치료에 응용되는 경우, 인체내에 도입될 때 면역부작용을 유도할 가능성이 훨씬 희박하다.
특정 DNA 결합 특성을 가지는 징크 핑거 도메인의 생체 내 선별
원하는 DNA 인식 특성을 가지는 징크 핑거 도메인을 다음과 같은 생체내 스크리닝 시스템을 사용하여 동정할 수 있다. 관심있는 복합 결합 부위를 리포터 유전자의 상류에 삽입하여, 복합 결합 부위로 전사 활성화 도메인을 유인 소집함으로써 리포터 유전자 전사가 소정 수준 이상으로 증가하도록 한다. 고정 DNA 결합 도메인에 융합된 시험 징크 핑거 도메인 및 전사 활성화 도메인으로 구성된 하이브리드 단백질을 코딩하는 발현 플라스미드를 구축한다.
복합 결합 부위는 둘 이상의 요소, 즉 소집 부위 및 표적 부위로 이루어진다. 이 시스템은 고정 DNA 결합 도메인이 소집 부위를 인식하도록 설계된다. 그러나, 소집 부위에 대한 고정 DNA 결합 도메인의 결합 친화도는, 생체 내에서 단독으로는 리포터 유전자를 전사 활성화시키기에 불충분하다. 이것은 대조군 실험으로 확인할 수 있다.
예를 들어, 세포 내에서 발현되었을 때, 고정 DNA 결합 도메인은 (시험 징크 핑거 도메인의 부재, 또는 비기능적이라고 알려졌거나 또는 공지된 DNA 접촉 잔기가 알라닌과 같은 대체 아미노산으로 치환된 시험 징크 핑거 도메인의 존재 하에서는) 리포터 유전자의 전사를 명목상의 수준 이상으로 활성화시킬 수 있어서는 안 된다. 다른 수단에 의해서(예를 들어, 리포터에 대한 경쟁적 억제제의 사용에 의해) 시스템의 민감도를 증가시킬 수 있으므로, 약간의 누출 또는 저수준의 활성화는 허용된다. 고정 DNA 결합 도메인은 소집 부위에 안정적으로 결합하지 않을 것으로 예상된다. 예를 들어, 고정 DNA 결합 도메인은 약 0.1 nM, 1 nM, 1 μM, 10 μM, 100 μM 또는 그 이상의 해리 상수(Kd)를 가지고 소집 부위에 결합할 수 있다.(또한, Kd는 100 μM 또는 10 μM 미만일 수 있다.) 표적 부위에 대한 DNA 결합 도메인의 Kd는, 시험 징크 핑거 도메인의 부재 하에, 또는 제2 표적 부위에 대한 특이성을 지닌 시험 징크 핑거 도메인의 부재 하에, 전기영동 이동 검정법(electrophoretic mobility shift assay; EMSA)에 의해 시험관 내에서 측정할 수 있다.
따라서, 하이브리드 단백질이 세포 내 복합 결합 부위에 안정적으로 결합하고 이로써 리포터 유전자를 활성화시키기 위해서는, 예를 들어 복합 결합 부위의 가변 부위와 같은 표적 부위를 인식하는 기능적 시험 징크 핑거 도메인의 부착이 필요하다. 표적 부위에 대한 시험 징크 핑거 도메인의 결합 선호도로 인해 리포터 유전자 발현이 소정 수준에 비해 증가한다. 예를 들어, 관찰된 발현 수준을 소정 수준으로 나누어 얻어지는 리포터 유전자 발현의 증가 배수는 약 2, 4, 8, 20, 50, 100, 1000 배 또는 그 이상일 수 있다. 시험 징크 핑거 도메인이 표적 부위를 인식하는 경우, DNA 결합 도메인 및 시험 징크 핑거 도메인을 포함하는 전사 인자의 Kd는, 예를 들어 표적 부위에 대한 특이성을 가진 시험 징크 핑거 도메인이 결여된 전사 인자에 비해 감소한다. 예를 들어, 특이성을 가진 표적 부위와 복합체를 이룬 전사 인자의 해리 상수(Kd)는 약 50 nM, 10 nM, 1 nM, 0.1 nM, 0.01 nM 또는 그 미만일 수 있다. Kd는 시험관내 EMSA에 의해 결정될 수 있다.
고정 DNA 결합 도메인의 생체 내 결합 친화성을 증대시키는 시험 징크 핑거 도메인의 능력을 측정함으로써 민감하고 정확하게 DNA 결합 특이성을 분석할 수 있다는 이러한 발견은 인간 게놈으로부터 신규 징크 핑거 도메인의 신속한 단리 및 특성화를 가능하게 하였다.
고정 DNA 결합 도메인은 천연형 DNA-결합 단백질, 예를 들어 다수의 도메인을 가지거나 올리고머인 천연형 DNA-결합 단백질로부터 단리된 모듈적 도메인을 포함한다. 예를 들어, Zif268의 핑거 1 및 2와 같은 두 개의 공지된 징크 핑거를 포함하는 아미노산 서열을 고정 DNA 결합 도메인으로서 사용할 수 있다. 숙련가라면 수많은 핵산 결합 도메인들(예. 호메오도메인, 헬릭스-턴-헬릭스 도메인 또는 헬릭스-루프-헬릭스 도메인과 같은 본 명세서에 기재된 도메인 족, 또는 당업계에서 특성이 잘 알려진 핵산 결합 도메인)로부터 시스템에 적합한 고정 DNA 결합 도메인을 동정할 수 있을 것이다. 고정 DNA 결합 도메인에 의해 인식되는 소집 부위의 적절한 선택이 또한 요구된다. 소집 부위는, 고정 DNA 결합 도메인이 얻어지는 천연형 DNA 결합 단백질에 대한 천연적 결합 부위 내의 하위 부위일 수 있다. 필요에 따라, 고정 도메인 또는 소집 부위 내에 돌연변이를 도입하여 시스템의 민감성을 증가시킬 수 있다.
생체내 스크리닝 시스템에 적합한 세포는 진핵 세포 및 원핵 세포 모두를 포함한다. 예시적인 진핵 세포는 예를 들어 사카로미세스 세레비지애 (Saccharomyces cerevisiae), 사카로미세스 폼베(Saccharomyces pombe) 및 피치아 파스토리스(Pichia pastoris) 세포와 같은 효모 세포를 포함한다.
상기 스크리닝 시스템을 사용하여 징크 핑거 도메인을 선별하기 위하여, 사카로미세스 세레비지애를 사용하는 효모 원-하이브리드 시스템(yeast one-hybrid system)을 변형시켰다. 먼저, HIS3 리포터 유전자를 코딩하는 리포터 플라스미드를 제조하였다. 예정된 4-bp 표적 DNA 서열을 절단된 결합 서열에 연결시켜 DNA-결합 도메인을 위한 복합 결합 서열을 제공하였으며, 각각의 복합 결합 서열을 별개의 플라스미드 상의 리포터 유전자에 작동 가능하게 연결시켰다.
하이브리드 핵산 서열은 절단된 DNA 결합 도메인 및 징크 핑거 도메인을 포함하는 DNA 결합 도메인에 연결된 전사 활성화 도메인을 코딩한다.
본 명세서에서 사용된 결합 부위는 인접한 부위가 자주 사용되지만 반드시 인접할 필요는 없다. 인접하지 않은 부위를 인식하는 단백질을 제조하기 위해서는 핵산 결합 도메인 사이에 신축성 및/또는 신장성의 링커를 사용할 수 있다.
본 발명의 한 태양에 따르면, Zif268의 핑거 1 및 핑거 2로 구성되고 핑거 3이 결여된 폴리펩타이드를 고정된 DNA 결합 도메인으로 사용할 수 있다(Zif268의 3 개의 징크 핑거 중에서, 핑거 1은 N-말단, 핑거 2는 가운데, 핑거 3는 C-말단에 위치하는 징크 핑거 도메인을 각각 지칭한다). 한편, 결합 부위의 특성이 밝혀진 임의의 두 징크 핑거 도메인이 고정 DNA 결합 도메인으로 사용될 수 있다.
기타 다른 유용한 고정 DNA 결합 도메인은 Sp1, CF2-II, YY1, 크룹펠, WT1, Egr2과 같은 다른 징크 핑거 단백질들, 또는 Oct1, Oct2, 및 Pit1과 같은 POU-도메인 단백질들로부터 유래할 수 있다. 그러나, 이들은 예로서 제공된 것이며 본 발명은 이들에 의해 한정되지 않는다.
본 발명의 한 구체적인 실시태양에 따르면, 최적의 Zif268 인식 서열(5'-GCG TGG GCG-3')의 5' 말단으로부터 4-bp을 결손시켜 생성된 5'-GGGCG-3' 염기 서열이 소집 부위로 사용될 수 있다. 3 내지 4 bp의 어떠한 표적 서열이라도 이들 소집 부위에 연결되어 복합 결합 서열을 생성할 수 있다.
활성화 도메인. 본 발명에서 사용될 수 있는 전사 활성화 도메인은 효모의 Gal4 활성화 도메인 및 헤르페스 심플렉스 바이러스의 VP16 도메인을 포함하지만 이에 한정되지는 않는다. 박테리아에서, 활성화 도메인의 기능은 야생형 RNA 중합효소 알파 서브유닛 C-말단 도메인 또는 돌연변이 알파 서브유닛 C-말단 도메인을 소집할 수 있는 도메인, 예를 들면 단백질 상호작용 도메인에 융합된 C-말단 도메인을 융합시킴으로써 모방될 수 있다.
억제 도메인. 원한다면, 활성화 도메인 대신에 억제 도메인이 DNA 결합 도메인에 융합될 수 있다. 진핵세포 억제 도메인의 예로는 오렌지(ORANGE), 그로우초(groucho), 및 WRPW[Dawson et al (1995) Mol. Cell Biol. 15:6923-31]가 포함된다. 억제 도메인이 사용될 때, 독성 리포터 유전자 및/또는 비선택성 마커가 감소된 발현을 스크리닝하는데 사용될 수 있다.
다른 기능적 도메인. 단백질 전이(transduction) 도메인이 예를 들어, 키메 라 징크 핑거 단백질의 것과 같은 DNA 결합 도메인에 융합될 수 있다. 단백질 전이 도메인은 전이 도메인과 그에 부착된 폴리펩타이드를 세포내로 들어가게 한다. 단백질 전이 도메인의 한 예는 HIV tat 단백질이다.
리포터 유전자. 리포터 유전자는 예를 들어 약물 내성을 부여하는 유전자 또는 영양요구성 마커와 같은 선택성 마커일 수 있다. 약물 내성 유전자의 예로는 사카로미세스 세레비지에(S.cerevisiae) 시클로헥사미드 내성 유전자(CYH), 사카로미세스 세레비지에 카나바닌 내성 유전자(CAN1), 및 하이그로마이신 내성 유전자 등이 있다. 사카로미세스 세레비지에 영양요구성 마커로는 URA3, HIS3, LEU2, ADE2TRP1 유전자 등이 있다. 영양요구성 마커가 리포터 유전자일 때는, 영양요구성 유전자의 기능적 카피가 결여되어 있어서 특정 대사물질을 생산할 수 있는 능력이 결여된 세포가 사용된다. 대사물질이 결여된 배지에서 세포를 유지시킴으로써 표적 부위에 결합하는 시험 징크 핑거 도메인을 코딩하는 구조물의 선별이 가능하다. 예를 들어, HIS3 유전자는 his3 - 효모 균주와 함께 선택성 마커로서 사용될 수 있다. 하이브리드 전사 인자를 코딩하는 구조물의 도입 후에, 세포를 히스티딘의 부재 하에 성장시킨다. 포유류 세포에서 사용하기 위한 선택성 마커인 티미딘 키나제, 네오마이신 내성, 및 HPRT 등 역시 숙련된 기술자들에게 잘 알려져 있다.
한편, 리포터 유전자는 존재 여부를 용이하게 검출 및/또는 정량할 수 있는 단백질을 코딩한다. 그러한 리포터 유전자의 예로는 lacZ, 클로람페니콜 아세틸 트랜스퍼라제(CAT), 루시퍼라제, 녹색 형광 단백질(GFP), 베타-글루쿠로니다제(GUS), 청색 형광 단백질(BFP), 및 예를 들면 변경되거나 향상된 형광 특성을 갖는 GFP 유도체(Clontech Laboratories, Inc., CA) 등이 있다. lacZ를 발현하는 세포의 콜로니는 비색 기질 X-gal을 포함하는 플레이트에서 콜로니를 성장시킴으로써 쉽게 검출할 수 있다. GFP 발현은 여기 후 형광 방출을 측정하여 검출할 수 있다. 개개의 GFP 발현 세포는 형광 활성화 세포 분류기(FACS)를 사용하여 동정 및 단리될 수 있다.
두 종류의 리포터 유전자, 예를 들어 선택성 리포터 유전자 및 비선택성 리포터 유전자를 이용하여 상기 시스템을 구축할 수 있다. 적당한 성장 조건 하에서는 원하는 도메인을 가진 세포만이 성장하므로, 선택성 마커는 원하는 도메인의 신속한 동정을 용이하게 한다. 비선택성 리포터는 예를 들어 위 양성 결과를 구별해내기 위한 확인수단 및 결합 정도를 정량화하는 수단을 제공한다. 상기 두 개의 리포터는 게놈의 서로 다른 위치에 삽입될 수 있고, 게놈에 일렬로 삽입될 수도 있으며, 동일한 염색체외 요소(예를 들어 플라스미드)에 포함되거나 또는 서로 다른 염색체외 요소에 포함될 수도 있다.
도 5는 원하는 징크 핑거 도메인을 선별하기 위해 사용된 변형된 원-하이브리드 시스템의 원리를 보여준다. 하이브리드 전사 인자의 DNA 결합 부위는 (a) Zif268의 핑거 1 및 핑거 2로 구성된 절단된 DNA 결합 부위 및 (b) 징크 핑거 도메인 A 또는 B로 구성된다. 리포터 유전자의 프로모터 영역에 위치한 결합 부위의 염기 서열은 4-bp 표적 서열(뉴클레오티드 1 내지 4, 5'-XXXX-3') 및 절단된 결합 서열(뉴클레오티드 5 내지 9, 5'-GGGCG-3')로 이루어진 복합 결합 서열(5'-XXXXGGGCG-3')이다.
하이브리드 전사 인자 내 시험 징크 핑거 도메인(도 5의 A)이 표적 서열을 인식한다면, 하이브리드 전사 인자는 복합 결합 서열에 안정하게 결합할 수 있다. 이러한 안정된 결합은 하이브리드 전사 인자의 활성화 도메인(도 5의 AD)의 작용을 통해 리포터 유전자의 발현을 가져온다. 그 결과, HIS3가 리포터 유전자로 사용될 때, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장한다. 한편, lacZ가 리포터 유전자로 사용될 때, 형질전환된 효모는 lacZ 단백질의 기질인 X-gal을 포함한 배지에서 청색 콜로니로 자란다. 그렇지만, 하이브리드 전사 인자의 징크 핑거 도메인(도 5의 B)이 표적 서열을 인식하지 못한다면, 리포터 유전자의 발현은 유도되지 않는다. 그 결과, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장할 수 없거나(HIS3가 리포터 유전자로 사용된 경우), X-gal을 포함한 배지에서 흰색 콜로니로 성장하게 된다(lacZ가 리포터 유전자로 사용된 경우).
변형된 원-하이브리드 시스템을 이용하는 상기 선별법은 이 과정을 통하여 선별된 징크 핑거 도메인이 세포내 환경에서 기능적인 것으로 입증되었으므로 유익하다. 따라서, 이 도메인들은 아마도 폴딩되어 핵으로 들어갈 수 있으며, 세포내 프로테아제 및 손상을 줄 수 있는 다른 세포내 물질들에 대해 견딜 수 있다고 추측된다. 게다가, 본 명세서에서 개시된 변형된 원-하이브리드 시스템은 쉽고 빠르게 원하는 징크 핑거 도메인을 단리할 수 있게 한다. 변형된 원-하이브리드 시스템에서는 원하는 징크 핑거 도메인을 단리하기 위해 오직 1 회의 효모 형질전환만을 필 요로 한다.
본 명세서에 기술된 선별법은, 예를 들어 식물 또는 동물 종(예를 들어 포유류, 예를 들어 인간)의 게놈과 같은 게놈으로부터 징크 핑거 도메인을 동정하는데 사용될 수 있다. 또한 본 방법은 예를 들어 무작위 돌연변이법에 의해 제조된 돌연변이 징크 핑거 도메인의 라이브러리부터 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 또한, 상기 두 방법은 함께 사용될 수 있다. 예를 들어, 특정 3-bp 또는 4-bp DNA 서열에 대한 징크 핑거 도메인이 사람 게놈에서 단리될 수 없다면, 무작위 또는 부위 특이적 돌연변이 유도에 의해 제조된 징크 핑거 도메인의 라이브러리를 스크리닝하여 그러한 도메인을 찾을 수 있다.
비록 효모에서의 변형된 원-하이브리드 시스템이 소정의 표적 서열을 인식하고 결합하는 징크 핑거 도메인을 선별하기 위해 바람직한 수단이지만, 이 기술 분야의 숙련된 기술자라면 효모 원-하이브리드 선별법 외의 다른 시스템이 사용될 수 있음을 잘 알 수 있을 것이다. 예를 들어, 진핵 생물체의 게놈으로부터 유래한 천연형 징크 핑거 도메인의 라이브러리를 스크리닝하는데 파지 디스플레이 선별법이 사용될 수도 있다.
본 발명은 다양한 종류의 배양 세포에 원-하이브리드법을 사용하는 것을 포함한다. 예를 들어, 표적 서열에 작동가능하게 연결된 리포터 유전자를 배양 중의 원핵 세포 또는 동물 또는 식물 세포 내로 도입할 수 있으며, 그 후 배양 세포를 징크 핑거 도메인의 라이브러리를 코딩하는 플라스미드, 파지, 또는 바이러스로 형질감염시킬 수 있다. 이어서, 리포터 유전자가 활성화된 단리된 세포로부터 표적 서열을 인식하는 원하는 징크 핑거 도메인을 얻을 수 있다.
하기 개시된 실시예는 상기 방법이 관심있는 결합 부위에 대한 징크 핑거 도메인을 동정할 수 있음을 증명한다. 핑거 3에 위치한 다양한 징크 핑거 도메인을 가진 하이브리드 전사 인자의 라이브러리를 제조하였다. 상기 라이브러리에서 선별된 신규 징크 핑거 도메인들(예를 들어, HSNK, QSTV 및 VSTR 징크 핑거; 하기 참조) 중에서, 어느 것도 상응하는 부모 징크 핑거 단백질에서는 C-말단에 자연적으로 위치하지 않았다. 이는 징크 핑거 도메인이 모듈성이라는 것과 적절한 징크 핑거 도메인들을 혼합 및 조립하여 신규 DNA 결합 도메인을 구성할 수 있다는 것을 명백히 증명한다.
본 발명의 방법에 의해 선별된 징크 핑거 도메인은 적절한 재배열 및 재조합에 의해 신규한 DNA 결합 단백질을 만들기 위한 조립 단위로 사용될 수 있다. 예를 들어, HIV-1의 공수용체인 사람 CCR5의 프로모터 영역을 인식하는 신규한 DNA 결합 단백질을 다음과 같이 제조할 수 있다. 사람 CCR5의 프로모터 영역은, 5'-AGG GTG GAG T-3'(서열번호: 4)의 10-bp 서열을 포함한다. 본 명세서에서 개시된 변형된 원-하이브리드 시스템을 사용하여, 각각 5'-AGGG-3', 5'-GTGG-3', 및 5'-GAGT-3'의 4-bp 표적 서열 중 하나를 특이적으로 인식하는 3 개의 징크 핑거 도메인을 단리할 수 있다. 이들 표적 서열은 CCR5 표적 서열의 중첩되는 4-bp 단편이다. 이들 3 개의 징크 핑거 도메인을 적절한 링커로 연결하고, VP16 도메인 및 GAL4 도메인과 같은 조절 도메인 또는 KRAB 도메인과 같은 억제 도메인에 부착시켜, CCR5 프로모터에 특이적으로 결합하는 신규한 전사 인자를 생성할 수 있다. 비슷하게 징크 핑거는 하기 서열을 인식하도록 고안될 수 있다:
HIV-1 LTR (-124/-115): 5'-GAC ATC GAG C-3' (서열번호: 1)
HIV-1 LTR (-23/-14): 5'-GCA GCT GCT T-3' (서열번호: 2)
HIV-1 LTR (-95/-86): 5'-GCT GGG GAC T-3' (서열번호: 3)
사람 CCR5 (-70/-79): 5'-AGG GTG GAG T-3' (서열번호: 4)
사람 CCR5 (+7/+16): 5'-GCT GAG ACA T-3' (서열번호: 5)
이들 징크 핑거 단백질은 HIV-1의 증식을 방지하기 위해 유전자 치료에 사용될 수 있다.
높은 작업처리량 스크리닝
하기 방법은 다수의 가능한 DNA 결합 부위들 또는 심지어 모든 가능한 DNA 결합 부위에 대한 집합체내의 각 도메인의 상대적인 생체내 결합 친화도의 신속한 측정을 가능케한다. 핵산 결합 도메인을 코딩하는 핵산의 대규모 집합체를 제조한다. 각 핵산 결합 도메인은 하이브리드 핵산 구조물에서 시험 징크 핑거 도메인으로서 코딩되며, 한 교배형의 효모 균주에서 발현된다. 이에 따라, 모든 가능한 또는 원하는 도메인을 발현하는 제1 세트의 효모 균주가 제조된다. 리포터 구조물 내에 상기 도메인들의 추정 표적 부위를 포함하는 리포터 구조물을 함유하는 효모 균주의 제2 세트를 반대의 교배형에서 제조한다. 각각 상이한 시험 징크 핑거 도메인 및 상이한 표적 부위 리포터 구조물을 갖는, 융합된 세포의 매트릭스를 생성하기 위해 본 방법은 다수의 또는 모든 가능한 짝짓기 교배의 수행을 요구한다. 각각의 융합된 세포에서 리포터 유전자의 발현 여부를 분석한다. 이에 의해 본 방 법은 시험되는 도메인들의 결합 선호도를 신속하고 쉽게 결정한다.
예를 들어 주어진 프로파일에 일치하는 추정 도메인에 대하여 게놈 데이터베이스를 검사함으로써, 도메인들의 집합체가 동정된다. 상기 집합체는 예를 들어 10 내지 20개의 도메인, 또는 모든 동정된 도메인, 가능하게는 수천 개 또는 그 이상을 포함할 수 있다. 데이터베이스에서 확인된 도메인을 코딩하는 핵산은 새로 합성되거나 합성 올리고뉴클레오티드를 사용하여 게놈 DNA의 시료로부터 증폭될 수 있다. 상기 합성 올리고뉴클레오티드를 디자인하는 수동적 또는 자동화된 방법은 본 기술 분야에서 통상적인 것이다. 추가적인 도메인을 코딩하는 핵산은 유사하게 합성되거나 축중 프라이머를 사용하여 증폭될 수 있다. 상기 집합체의 도메인들을 코딩하는 핵산을 상기 기술된 효모 발현 플라스미드 내로 클로닝함으로써, 이 도메인과 Zif268의 처음 두 개의 핑거 및 전사 활성화 도메인의 융합 단백질을 생성할 수 있다. 다수의 도메인을 코딩하는 핵산을 클로닝하기 위해, 증폭 및 클로닝 단계는 마이크로타이터 플레이트 형식으로 행해질 수 있다.
한편, 효모 발현 벡터 내로 상기 도메인들을 코딩하는 다수의 증폭된 핵산을 신속하게 삽입하기 위해 재조합 클로닝 방법을 사용할 수 있다. 미국 특허 제5,888,732 호 및 "게이트웨이(Gateway)" 매뉴얼(Life Technologies-Invitrogen, CA, USA)에 기술되어 있는 상기 방법은 증폭 프라이머의 말단에 부위-특이적 재조합효소(recombinase)를 위한 주문형 부위를 포함시키는 것을 필요로 한다. 발현 벡터는 도메인을 코딩하는 증폭된 핵산이 삽입될 위치에 추가적인 부위(들)를 포함한다. 이 부위들은 종결 코돈이 결여되도록 고안되었다. 재조합 반응에 증폭 산 물, 발현 벡터, 및 부위-특이적 재조합효소를 부가함으로써 증폭된 서열이 벡터 내로 삽입된다. 예를 들어 성공적인 삽입시 독성 유전자가 치환되는 것과 같은 추가적인 특징을 이용하면, 이 방법은 고효율적이며 높은 작업처리량의 클로닝에 적합하게 된다.
제한효소 매개성 및/또는 재조합 클로닝은 각각의 확인된 도메인을 코딩하는 핵산을 발현 벡터로 삽입하는 데 사용된다. 이 벡터들은 박테리아에서 증식할 수 있으며, 각 웰이 서로 다른, 유일한 DNA 결합 도메인 중 하나를 코딩하는 핵산을 가지고 있는 하나의 세로플 포함하도록 색인된 마이크로타이터 플레이트에 동결될 수 있다.
각각의 도메인에 대해 단리된 플라스미드 DNA를 얻고, 효모 세포, 예를 들어 사카로미세스 세레비지에 MATa 세포를 형질전환시킨다. 발현 벡터가 선별 마커를 포함하므로, 형질전환된 세포는 마커를 선별할 수 있는 영양 조건의 최소 배지에서 자란다. 그러한 세포들을 후에 사용하기 위해 예를 들어 마이크로타이터 플레이트에서 동결 저장시킬 수 있다.
제2 세트의 효모 균주를 예를 들어 사카로미세스 세레비지에 MATα 세포에서 구축한다. 이 효모 균주 세트는 다양한 상이한 리포터 벡터를 포함한다. 그 다음, 유일한 DNA 결합 도메인을 갖는 발현 벡터를 함유하는 각 효모 균주를 상기 리포터 유전자 세트의 각 효모 균주와 교배시킨다. 이들 두 균주는 반대되는 교배형이고 상이한 영양요구성을 갖도록 조작되었으므로, 이배체를 쉽게 선별할 수 있다. 상기 이배체는 리포터 및 발현 벡터 모두를 가진다. 이 세포들은 리포터 및 발현 플라스미드 양쪽 모두를 선별할 수 있는 영양 조건 하에서 또한 유지될 수 있다. 유에츠 등(2000, Nature 403:623-7)은 이러한 효모 교배의 매트릭스를 생성함으로써 모든 효모 단백질의 완벽한 2-하이브리드 지도를 기술하고 있다.
리포터 유전자 발현은 대용량의 형식, 예를 들어 마이크로타이터 플레이트에서도 검출될 수 있다. 예를 들면, GFP를 리포터로 사용할 때, 교배된 세포들의 매트릭스를 포함하는 플레이트를 형광에 대해 스캔할 수 있다.
신규한 DNA 결합 단백질의 고안
적절한 징크 핑거 도메인들을 혼합 및 배합하여 표적 9-bp 또는 보다 긴 DNA 서열을 인식하는 새로운 DNA 결합 단백질을 합리적으로 제조할 수 있다. 징크 핑거 도메인들의 모듈적 구조는 새로운 DNA 결합 단백질을 제조하기 위한 이들의 재배열을 용이하게 한다. 도 1a에 도시되어 있듯이, 천연형 Zif268 단백질에 있는 징크 핑거 도메인은 DNA 이중 나선을 따라서 일렬로 위치한다. 각 도메인은 상이한 3-4 bp DNA 단편을 독립적으로 인식한다.
징크 핑거 도메인의 데이터베이스. 상기에서 기술된 원-하이브리드 선별 시스템은 가능한 3- 또는 4-염기쌍 결합 부위 각각에 대하여 또는 대표적인 수의 상기 결합 부위에 대하여 하나 이상의 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 이 과정의 결과는 징크 핑거 도메인과 그의 선호되는 3- 또는 4-염기쌍 결합부위(들) 사이의 일련의 연관성으로서 축적될 수 있다. 그러한 연관성의 예는 표 3 내지 6에 나타나 있다.
그 결과는 예를 들어 상관적인 데이터베이스, 스프레드시트, 또는 텍스트 파일 등의 데이터베이스로 기계에 저장될 수 있다. 그러한 데이터베이스의 각 기록은 징크 핑거 도메인의 표시를 그 도메인의 하나 이상의 선호되는 결합부위의 서열을 표시하는 스트링과 연관시킨다. 데이터베이스의 기록은 각 부위에 결합하는 징크 핑거 도메인의 상대적인 친화성의 표시를 포함할 수 있다. 어떤 실시태양에서, 데이터베이스의 기록은 특정 징크 핑거 도메인을 코딩하는 핵산의 실제 위치를 가리키는 정보를 포함할 수 있다. 그러한 실제 위치는, 예를 들어 냉동고에 저장된 마이크로플레이트의 특정 웰(well)일 수 있다.
데이터베이스는 SQL 작동 환경(PERL 또는 Microsoft ExcelR macro와 같은) 스크립팅 언어, 또는 프로그래밍 언어를 이용하여 질문하거나 필터할 수 있도록 배열될 수 있다. 그러한 데이터베이스는 사용자가 특정 3- 또는 4-염기쌍 결합 부위를 인식하는 하나 이상의 징크 핑거 도메인을 동정할 수 있게 한다. 데이터베이스, 및 데이터베이스 서버에 저장될 수 있는 것과 같은 다른 정보는 어떤 장치에 의해 번역될 수 있는 명령 또는 다른 시그날을 이용하여 각 장치와 의사소통이 되도록 역시 배열될 수 있다. 이 시스템의 컴퓨터에 기초한 태양은 디지털 전자회로로 또는, 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 이들의 조합으로 이행될 수 있다. 본 발명의 데이터베이스 서버 등의 기구는 프로그램 가능한 프로세서에 의해 실행하기 위해 기계로 판독가능한 저장장치에 명백하게 구체화된 컴퓨터 프로그램 산물에 의해 실행될 수 있으며; 방법 동작들은 입력 데이타에 작동하여 출력 을 생성함으로써 본 발명의 기능을 수행하기 위해 지시 프로그램을 실행하는 프로그램 가능한 프로세서에 의해 수행될 수 있다. 실행환경의 비제한적 예의 하나는 윈도우 XP 또는 윈도우 NT4.0(Microsoft) 또는 그 이상, 또는 솔라리스 (Solaris) 2.6 또는 그 이상(Sun Microsystems)의 오퍼레이팅 시스템에 의해 작동되는 컴퓨터를 포함한다.
또한 상기 징크 핑거 도메인들의 특이성을 입증하기 위하여 이들을 다수의 상이한 융합 단백질 내에 융합된 상황에서 시험할 수 있다. 더욱이, 소량의 도메인이 이용 가능한 특정 결합 부위는 추가적인 선별 스크리닝의 표적이 될 수 있다. 그러한 선별을 위한 라이브러리는, 유사하지만 뚜렷이 구별되는 부위에 결합하는 징크 핑거 도메인을 돌연변이시킴으로써 제조할 수 있다. 이용가능한 도메인을 최대한 활용하기 위해 표적 결합 부위에 대해서 도메인을 엇갈리게 할 수 있으므로, 각각의 가능한 결합 부위에 대한 징크 핑거 도메인의 완전한 매트릭스가 필수적인 것은 아니다. 이러한 엇갈림은 가장 유용한 3 또는 4 염기쌍 결합 부위들에서 결합 부위를 분해하고, 또한 징크 핑거 도메인들 사이의 링커의 길이를 변화시킴으로써 달성될 수 있다. 디자인된 폴리펩타이드가 선택성 및 높은 친화도를 모두 갖게 하기 위하여는, 원하는 부위에 대해 높은 특이성을 가진 징크 핑거 도메인의 양 옆에 더 높은 친화도를 가지면서도 특이성이 떨어지는 다른 도메인을 연결시킬 수 있다. 본 명세서에서 기술된 생체 내 스크리닝 방법은 인위적으로 조립된 징크 핑거 단백질 및 이들의 유도체의 생체 내 기능, 친화도, 및 특이성을 시험하는 데 이용될 수 있다. 유사하게, 본 방법은 예를 들어 다양화된 링커 조성, 징크 핑거 도메 인 모듈, 징크 핑거 도메인 조성 등의 라이브러리를 제조함으로써 그러한 조립된 단백질을 최적화하는 데 사용될 수 있다.
표적 부위의 분해. 표적 9-bp 또는 보다 긴 DNA 서열은 3- 또는 4-bp 단편으로 분해된다. 각각의 분해된 3- 또는 4-bp 단편을 인식하는 징크 핑거 도메인을(예를 들어, 상기에서 언급한 데이터베이스로부터) 동정한다. 더 긴 표적 서열, 예를 들어 20 bp 내지 500 bp 서열은 그 안에서 9 bp, 12 bp, 및 15 bp 하위서열을 동정할 수 있으므로, 표적 서열로서 역시 적합하다. 구체적으로, 데이터베이스에 잘 나타나 있는 부위로 분해될 수 있는 하위서열은 최초 디자인 표적으로서 기능할 수 있다.
고안된 특정 키메라 징크 핑거 단백질이 세포 내에서 표적 부위를 인식할 가능성을 추정할 수 있도록 점수제를 사용할 수 있다. 이 점수는 상기 고안된 단백질에서 각 구성 핑거의 선호되는 하위 부위에 대한 친화성, 그 특이성 및 그 성공도의 함수일 수 있다.
컴퓨터 프로그램. 전술한 기계로 판독 가능한데이터베이스를 사용하기 위해, 표적 부위를 분해하기 위해, 그리고 하나 이상의 키메라 징크 핑거 단백질의 고안을 출력하기 위하여 컴퓨터 시스템과 소프트웨어가 사용될 수 있다.
상기 기술들은 이동 또는 고정 컴퓨터와 같은 프로그램 가능한 기계와, 프로세서, 그 프로세서에 의해 판독 가능한 저장 매체 및 하나 이상의 출력 기구를 포함하는 유사한 기구 상에서 실행되는 프로그램으로 이행될 수 있다. 각 프로그램은 기계 시스템과 의사소통하기 위해 고도의 과정 또는 목적지향적 프로그래밍 언 어에 의해 이행될 수 있다. 컴퓨터 언어의 몇 가지 비제한적 예는 C, C++, 자바, 포트란, 및 비주얼 베이직(Visual Basic)이다.
이러한 각 프로그램은 CD-ROM(compact disc read only memory), 하드 디스크, 자기 디스켓, 또는 그와 유사한 매체 또는 기구 등의 저장매체 또는 기구에 의해 저장될 수 있는데, 이들은 본 명세서에 기술된 과정을 수행하기 위하여 컴퓨터가 저장매체 또는 기구를 판독할 때 기계를 배치하고 작동시키기 위하여 일반적이거나 특정한 목적의 프로그램 가능한 기계에 의해 판독될 수 있다. 이 시스템은 프로그램과 함께 배치된 기계로 판독가능한 저장매체로 이행될 수 있는데, 이렇게 배치된 저장매체가 기계를 특정적이고 예정된 방식으로 작동하도록 한다.
컴퓨터 시스템은 내부 또는 외부 네트워크에 연결될 수 있다. 예를 들면, 컴퓨터 시스템은 HTTP, HTTPS, 또는 XML 프로토콜을 이용하여 멀리 떨어진 고객 시스템으로부터 요구를 받을 수 있다. 이러한 요구는 알려진 표적 유전자, 또는 표적 핵산의 서열을 대표하는 스트링에 대한 식별자(identifier)일 수 있다. 전자의 경우에는 컴퓨터 시스템이 진뱅크와 같은 서열 데이터베이스에 들어가서 표적 유전자의 조절 영역의 핵산 서열을 검색할 수 있다. 이어서, 조절 영역의 서열 또는 직접 받은 표적 핵산 서열은 하위 부위로 분해되고, 전술한대로 키메라 징크 핑거 단백질을 고안한다.
시스템은 멀리 떨어진 고객에게 결과를 통보할 수 있다. 한편, 시스템은 고안된 키메라 징크 핑거 단백질을 코딩하는 핵산을 실제로 검색하도록 로봇을 조정할 수도 있다. 이 실시태양에서는, 키메라 징크 핑거 단백질을 코딩하는 핵산의 라이브러리가 제조되어 냉동 정제 DNA, 또는 핵산을 포함하는 냉동 세균 균주로 저장된다. 로봇은 라이브러리의 특정 어드레스를 찾아냄으로써 컴퓨터 시스템의 시그날에 반응한다. 이어서, 검색된 핵산은 프로세스되고 포장되어 고객에게 배달될 수 있다. 한편, 검색된 핵산을 세포에 삽입하여 분석할 수 있다, 컴퓨터 시스템은 네트워크를 통해 고객에게 분석 결과를 통보할 수 있다.
선택된 모듈로부터 단백질의 제조. 다수의 징크 핑거 도메인들을 포함하는 키메라 폴리펩타이드 서열을 일단 디자인하면, 디자인된 폴리펩타이드 서열을 코딩하는 핵산 서열을 합성할 수 있다. 합성 유전자를 제조하는 방법은 이 기술분야에서는 일상적인 것이다. 상기 방법은 주문 합성된 올리고뉴클레오티드, PCR 매개된 클로닝, 및 메가-프라이머 PCR로부터의 유전자 제조를 포함한다. 하기 실시예 66은 선택된 징크 핑거 도메인들을 코딩하는 핵산들을 연속적으로 연결하여 키메라 폴리펩타이드를 코딩하는 핵산을 형성하는 방법을 제공한다. 추가 서열이 고안된 폴리펩타이드 서열을 코딩하는 핵산에 덧붙여질 수 있다. 추가 서열은 조절기능 또는 원하는 기능의 아미노산 서열을 코딩하는 서열을 제공할 수 있다. 이러한 추가 서열의 예가 본 명세서에 기술된다.
키메라 징크 핑거 단백질의 라이브러리 제조
키메라 징크 핑거 단백질을 코딩하는 다수의 핵산 서열이 합성되어 예를 들면 라이브러리를 형성할 수 있다. 다양한 키메라 징크 핑거 단백질을 코딩하는 핵산의 라이브러리는 실시예 67에 기술된 것처럼 연속적인 연결에 의해 형성될 수 있다. 각 핵산이 셋, 넷 또는 다섯 개 이상의 징크 핑거 도메인을 가지는 단백질을 코딩하도록 라이브러리가 제조될 수 있다. 몇몇 실시태양에서는, 특별히 큰 규모의 라이브러리를 만들기 위해 각 징크 핑거 단백질이 징크 핑거 도메인의 세트 중 어느 하나를 무작위로 포함하도록 고안될 수 있다. 징크 핑거 도메인의 세트는 예를 들어 64개의 가능한 3-염기쌍 하위 부위 중 30, 40, 50 또는 그 이상을 커버하는 범위의 특이성을 갖는 도메인들을 나타내도록 선택될 수 있다. 이 세트는 약, 12, 15, 20, 25, 30, 40 또는 50개 이상의 상이한 징크 핑거 도메인을 포함할 수 있다. 이들 도메인의 몇몇 또는 모두는 천연형 단백질로부터 분리된 도메인일 수 있다.
하나의 예시적인 라이브러리는 각 핑거마다 3개의 징크 핑거 및 30개의 가능한 도메인을 갖는 키메라 징크 핑거 단백질을 코딩하는 핵산을 포함한다. 완전하게 표시된 형태일 때 이 라이브러리는 303의 결과인 27,000개의 서열을 포함한다. 이 라이브러리는 30개의 가능한 모든 도메인을 코딩하는 핵산의 풀(pool)이 각 단계에서 부가되는 연속적인 연결에 의해 제조할 수 있다. 최종 라이브러리는 풀로서 저장할 수 있다.
한편, 각 구성원을 분리하고 주소화가 가능한 위치에 저장하고(예를 들어, 배열하고) 서열을 분석한다. 40,000-50,000 개의 제조된 라이브러리 구성원의 고효율 서열분석(high throughput sequencing) 후에, 완전한 범위를 얻기 위해 누락된 키메라 조합을 개별적으로 조립할 수 있다. 예를 들어 마이크로타이터 플레이트 등에 일단 배열되면, 각 구성체는 추가 분석 또는 특정 응용을 위해 나중에 다 시 회수할 수 있다. 특히, 각 개별 구성원은 실시예 68에 기술된 p1G 리포터 분석법을 이용하여 생체내 전사를 억제할 수 있는지를 결정함으로써 확인될 수 있다. 만약 확인된다면, 그 라이브러리 구성원은 핵산 마이크로어레이를 이용하여 프로필을 얻어 내재 유전자를 조절하는 능력을 결정할 수 있다(아래의 "키메라 징크 단백질의 조절 능력 프로필화" 참조).
약 6 내지 200개 또는 50 내지 2000개의 구성운을 가진 작은 라이브러리는 표적 부위에 결합하는 최적 키메라 단백질을 동정하는 데 사용될 수 있다. 이 라이브러리들은 키메라 폴리펩타이드 산물 내에서 각 위치의 징크 핑거에 대해 특정 징크 핑거 도메인을 코딩하는 핵산의 조합을 적절하게 선택함으로써 고안할 수 있다. 예를 들면, 특정 위치를 코딩하는 핵산은, 인식 특이성이 그 위치에 맞는 상이한 징크 핑거 도메인들을 코딩하도록 다양하게 선택될 수 있다.
이렇게 고안된 작은 라이브러리는 연속적인 연결에 의해 합성하거나 미리 만들어 배열한 큰 라이브러리로부터 특정 구성원을 모음으로써 제작할 수 있다. 추가적인 다양성을 부여하기 위하여, 후속 단계들(예를 들어, 섹슈얼 PCR 및 "DNA 셔플링TM"(Maxygen, Inc., CA))이 사용될 수 있다.
키메라 징크 핑거 단백질 라이브러리의 스크리닝
라이브러리는 특별한 목적의 스크리닝 응용을 위해 고안될 수 있는데, 그 경우에 필요한 조절 및 기능 서열들이 포함되도록 모벡터를 조작할 수 있다. 한 구체적 예에서, 키메라 징크 핑거 단백질을 코딩하는 핵산이 부위-특이적 재조합 부 위 사이에 위치하도록 라이브러리가 고안될 수 있다. 그러면, 예를 들어 미국 특허 제5,888,732호 및 "게이트웨이(Gateway)" 매뉴얼(Life Technologies-Invitrogen, CA, USA)에 서술된 바와 같은 재조합에 의한 클로닝으로 각 서열이 모벡터로부터 정확하게 잘려서 특정 응용 목적의 벡터에 삽입된다. 그러므로, 일단 완전한 라이브러리가 모벡터에 만들어지면 이는 다양한 스크리닝과 선택과정에 이용될 수 있다.
크거나 작은 라이브러리로부터의 라이브러리 구성원이 세포 내의 표적 유전자를 조절할 수 있는지를 확인하기 위해 생체 내에서 스크리닝할 수 있다. 세포는 배양되거나 대상(a subject) 내에 존재할 수 있다. 표적 유전자는 실시예 64에 기술된 것처럼 이종 리포터 유전자에 작동 가능하게 연결된 관심있는 조절 영역을 포함하는 리포터 구조물일 수 있다. 한편, 표적 유전자는 내재 유전자일 수 있다. 라이브러리 구성원에 의해 코딩되는 하나 이상의 단백질이 정상적인 염색체 환경에서 내재 유전자의 조절에 미치는 영향을 평가한다. 스크리닝은 또한 라이브러리 구성원이 코딩하는 키메라 단백질이 다른 유전자의 전사를 변화시키는 지를 평가하는 것을 포함할 수 있다. 핵산 배열이 아래 기술한 많은 유전자의 발현을 모니터하는 데 사용될 수 있다.
라이브러리는 그 구성체가 코딩하는 키메라 단백질을 생화학적으로 시험하기 위해 디스플레이 포맷을 사용하여 스크리닝될 수 있다. 예를 들면, 라이브러리가 코딩하는 폴리펩타이드는 예를 들어 미국 특허 제5,223,409호 및 문헌[Rebar et al., (1996) Methods Enzymol. 267:129-49.]에 기재된 바와 같이, 박테리오파아지 표면에 디스플레이될 수 있다. 라이브러리는 또한 예를 들어 WO 00/32823에 기재된 방법을 사용하여 라이브러리의 각 핵산을 그 핵산이 코딩하는 폴리펩타이드에 공유결합으로 연결하여 디스플레이될 수도 있다. 디스플레이된 라이브러리를 고체 지지체에 고정시킨 표적 DNA 부위와 접촉시키고, 지지체를 세척하고, 붙어 있는 라이브러리 구성원을 회수함으로써 특정 결합 특성을 가진 개별 라이브러리 구성원을 단리할 수 있다. 이 방법은 예를 들어 표적 RNA 부위 또는 표적 단백질 등의 다른 리간드에 결합하는 키메라 폴리펩타이드를 동정하는데도 적용될 수 있다.
한 예에서, 각 라이브러리 구성원이 코딩하는 키메라 단백질은 평면 어레이의 한 주소에서 생산되어 분리된다. 폴리펩타이드 어레이를 제조하는 방법은 예를 들어 문헌[De Wildt et al., (2000) Nature Biotech. 18:989-994; Lueking et al., (1999) Anal. Biochem. 270:103-111; Ge, H. (2000) Nucleic Acids Res. 28:e3, I-VII; MacBeath and Schreiber, (2000) Science 289, 1760-1763; Haab et al., (2001) Genome Biology 2(2):research0004.1; 및 WO 99/51773A1]에 기술되어 있다. 이러한 어레이는 특정 표적 DNA 부위에 결합하는 라이브러리 구성원을 동정하는데 이용될 수 있다. 표적 부위를 포함하는 DNA를 표지(label)하여 어레이에 접촉시킨다. 어레이의 각 주소에 있는 표지의 양을 측정하여 표적 부위에 결합하는 라이브러리 구성원을 동정한다. 선택의 엄격성을 증가시키기 위해 비특이적 DNA 또는 경쟁적 DNA를 이 분석에 포함시킬 수 있다. 이 방법은 예를 들어 표지된 표적 RNA 부위 또는 표지된 표적 단백질을 이용하여 DNA 외의 표적에 결합하는 키메라 단백질을 동정하는데도 적용될 수 있다.
징크 핑거 단백질의 어레이가 복잡한 핵산 표본의 프로필을 만드는 데 사용될 수 있다. 이 표본을 표지하여 어레이에 접촉시킨다. 각 주소에 대한 결합을 정량하여 표본의 프로필을 얻을 수 있다. 이 프로필은 표본의 특성을 확인하기 위해 대조 프로필과 비교할 수 있다.
키메라 징크 핑거 단백질의 조절 특성의 프로필링
키메라 징크 핑거 단백질의 특성을 확인하여 이 단백질이 포유류 세포와 같은 세포의 내재 유전자를 조절할 수 있는지를 결정할 수 있다. 키메라 징크 핑거 단백질을 코딩하는 핵산을 우선 억제 또는 활성화 도메인에 연결한 후, 대상 세포 내로 도입할 수 있다. 적당한 배양 및 코딩 핵산의 발현 유도 후, 세포로부터 mRNA를 추출하고 핵산 마이크로어레이를 통해 분석한다.
핵산 마이크로어레이는 예를 들어 포토리토그래픽 방법(예, 미국 특허 제5,510,270호 참조), 기계적 방법(예, 미국 특허 제5,384,261호에 기재된 직접 흐름 [directed flow] 방법) 또는 핀 기반(pin based) 방법(미국 특허 제5,288,514호에 기재됨) 등의 다양한 방법에 의해 제작될 수 있다. 이 어레이는 발현된 특정 유전자에 대한 핵산을 검출하기에 적합한 특별한 캡쳐 프로브(capture probe)를 각 주소에 갖도록 제작된다.
mRNA는 예를 들어 문헌[Current Protocols in Molecular Biology, John Wiley & Sons, N.Y]에 기술된대로 DNase를 처리하며 게놈 DNA를 제거하고, 올리고-dT를 붙인 고체 기질에 혼성화하는 것을 포함하는 일반적인 방법으로 분리할 수 있다. 기질을 세척한 다음, mRNA를 용출시킨다. 분리된 mRNA를 미국 특허 제4,683,202호에 기재된대로 rtPCR 등에 의해 역전사시키고 임의로 증식시킨다. 증식 또는 역전사과정 동안 표지된 뉴클레오타이드의 삽입에 의해 핵산을 표지시킬 수 있다. 바람직한 표지의 예는 적색 형광염료 Cy5(Amersham) 또는 녹색 형광염료 Cy3(Amersham)과 같은 형광 표지를 포함한다. 한편, 핵산을 바이오틴으로 표지하고, 스트렙타비딘-파이코에리트린(Molecular Probes) 등의 표지된 스트렙타비딘과의 혼성화로 검출할 수 있다.
이어서 표지된 핵산을 어레이에 접촉시킬 수 있다. 추가로, 대조 핵산 또는 참고 핵산을 동일한 어레이에 접촉시킬 수 있다. 대조 핵산 또는 참고 핵산을 표본 핵산의 표지와는 다른 표지, 예를 들어 상이한 최대 방출(emission) 파장을 가진 표지로 표지할 수 있다. 표지된 핵산을 혼성화 조건에서 어레이와 접촉시킨다. 어레이를 세척한 후, 어레이의 각 주소에서 형광을 검출하기 위해 영상화한다.
프로필을 만들고 평가하는 일반적 방법은 어레이의 각 주소에서 혼성화를 검출하는 것을 포함한다. 각 주소의 혼성화 정도는 숫자로 표시하여 벡터, 일차원 매트릭스, 또는 일차원 어레이에 저장한다. 벡터 x는 어레이의 각 주소에 대한 값을 갖는다. 예를 들면, 특정 주소에서 혼성화 정도에 대한 수치는 xa라는 변수로 저장된다. 이 수치는 각 지역의 배경 수준, 표본량 및 다른 변이조건에 맞춰 조정될 수 있다. 대조 표본으로부터 핵산을 역시 준비하고, 동일하거나 상이한 어레이에 혼성화시킬 수 있다. 벡터 y는 벡터 x와 동일하도록 만든다. 예를 들어, 두 벡터의 함수인 수학식을 사용하여 표본 발현 프로필을 대조 프로필과 비교할 수 있 다. 이 비교는 두 프로필의 유사성을 나타내는 점수등의 스칼라(scalar) 값으로 평가할 수 있다. 어레이에 의해 검출되는 상이한 유전자들에 가중치를 부가하기 위하여 상기 벡터들 중 어느 하나 또는 모두는 매트릭스에 의해 변환될 수 있다.
발현 데이터는 데이터베이스, 예를 들어 SQL 데이터베이스(예, 오라클(Oracle) 또는 사이베이스(Sybase) 데이터베이스 환경)와 같은 연관 데이터베이스에 저장될 수 있다. 데이터베이스는 여러 개의 표를 가질 수 있다. 예를 들어, 처리되지 않은(raw) 발현 데이터를, 각 세로줄은 분석되는 유전자(예, 주소 또는 어레이)에 해당하고, 각 가로줄은 표본에 해당하는 하나의 표에 저장할 수 있다. 별도의 표는 식별자, 및 사용한 어레이의 뱃치(batch) 숫자, 날짜 및 다른 품질 관리 정보 등의 표본 정보를 저장할 수 있다.
유사하게 조절되는 유전자들은 함께 조절되는 유전자들을 동정하기 위해 발현 데이터를 클러스터화(clustering) 함으로써 동정할 수 있다. 이러한 클러스터는 키메라 징크 핑거 단백질에 의해 대등하게 조절되는 유전자 세트를 표시한다. 유전자는 위계적 클러스터화(hierarchical clustering) [예, Sokal and Michener (1958) Univ. Kans. Sci. Bull. 38:1409 참조], 베이시언 클러스터화(Bayesian clustering), 카파 평균 클러스터화(k-means clustering), 및 자체조직 지도(self-organizing maps) [Tamayo et al. (1999) Proc. Natl. Acad. Sci. USA 96:2907 참조]를 사용하여 클러스터화될 수 있다.
표본 발현 프로필의 대조 발현 프로필(예, 대조 세포)과의 유사성은 예를 들어 표본 발현 수준의 로그를 프리딕터(predictor) 또는 대조 발현 값의 로그와 비 교하고, 이 비교 결과를 프로필 내의 예시값의 모든 유전자에 대한 중요도에 의해 조정함으로써 결정할 수 있다.
고안된 전사 인자의 추가적인 특징
펩타이드 링커. DNA 결합 도메인들은 다양한 링커에 의해 연결될 수 있다. 링커의 유용성과 디자인은 이 기술 분야에서 잘 알려져 있다. 특히 유용한 링커는 핵산에 의해 코딩되는 펩타이드 링커이다. 따라서, 제1 DNA 결합 도메인, 펩타이드 링커, 및 제2 DNA 결합 도메인을 코딩하는 합성 유전자를 제조할 수 있다. 이러한 디자인은 대규모의 합성 다수-도메인 DNA 결합 단백질을 제조하기 위해 반복될 수 있다. PCT WO 99/45132 및 김 및 파보(Kim and Pabo, 1998, Proc. Natl. Acad. Sci. USA 95:2812-7)는 징크 핑거 도메인들을 연결하는 데 적합한 펩타이드 링커의 디자인을 기술하고 있다.
무작위 코일, α-나선 또는 β-주름의 3차 구조을 형성하는 추가적인 펩타이드 링커를 사용할 수 있다. 적합한 유연성 있는 링커를 형성하는 폴리펩타이드는 이 기술 분야에서 잘 알려져 있다(Robinson and Sauer (1998) Proc. Natl. Acad. Sci. USA. 95:5929-34 참조). 유연성 있는 링커는 전형적으로 글리신을 포함하는데, 이는 글리신이 측쇄가 결여되어 있어서 회전 자유도가 있는 유일한 아미노산이기 때문이다. 친수성을 증가시키기 위하여 세린 또는 트레오닌을 링커에 삽입할 수 있다. 아울러, 결합 친화도를 증가시키기 위해 DNA의 인산 골격과 상호작용할 수 있는 아미노산이 사용될 수 있다. 이러한 아미노산들의 현명한 사용으로 친화 도의 증가와 서열 특이성의 감소 사이의 균형을 잡을 수 있다. 만약, 링커가 엄격한 신장성을 요구한다면 문헌[Pantoliano et al. (1991) Biochem. 30:10117-10125]에 기술된 나선형 링커와 같은 α-나선 링커를 사용할 수 있다. 또한 링커는 컴퓨터 모델링에 의해 디자인될 수 있다(미국 특허 제4,946,778호 참조). 분자 모델링을 위한 소프트웨어는 상업적으로 입수할 수 있다(예를 들어 Molecular Simulation, Inc., San Diego, CA). 이러한 링커는, 단백질 공학 분야에서 실시되는 표준적인 돌연변이 유도 기술 및 적절한 생물리학적 테스트, 및 본 명세서에 기술된 기능적 분석법을 사용하여, 예를 들어, 항원성을 감소시키고/시키거나 안정성을 증가시키기 위해 임의로 최적화된다.
징크 핑거 도메인을 활용한 실시를 위해, 징크 핑거 사이에서 자연적으로 발견되는 펩타이드를 핑거들을 함께 연결하기 위한 링커로서 사용할 수 있다. 그러한 자연적으로 발견되는 링커로 전형적인 것은 Thr-Gly-(Glu-Gln)-(Lys-Arg)-Pro-(Tyr-Phe)(서열번호: 78)이다 (아가타 등, 상기 참조).
이량체화 도메인. DNA 결합 도메인들을 연결하는 또 다른 방법은 이량체화 도메인, 특히 이종이량체화 도메인(Pomerantz et al. (1998) Biochemistry 37:965-970 참조)을 사용하는 것이다. 이 실시태양에서는 DNA 결합 도메인이 별개의 폴리펩타이드 사슬로 존재한다. 예를 들어, 첫 번째 폴리펩타이드는 DNA 결합 도메인 A, 링커 및 도메인 B를 코딩하는 반면, 두 번째 폴리펩타이드는 도메인 C, 링커 및 도메인 D를 코딩한다. 당업자는 특성이 밝혀진 많은 이량체화 도메인들로부터 하나의 이량체화 도메인을 선별할 수 있다. 동종이량체가 바람직하지 않다면 이종이 량체화를 선호하는 도메인이 사용될 수 있다. 특히 적용가능한 이량체화 도메인은 코일화된 코일 모티프, 예를 들어 이량체 평행 또는 역평행 코일화된 코일이다. 우선적으로 이종이량체를 형성하는 코일화된 코일 서열을 또한 이용할 수 있다(Lumb and Kim, (1995) Biochemistry 34:8642-8648). 이량체화 도메인의 또 다른 종류로 이량체화가 소분자에 의해 또는 신호전달 경로를 통해 유발되는 것이 있다. 예를 들어, FK506의 이량체 형태는 두 개의 FK506 결합 단백질(FKBP) 도메인들을 이량체화하는 데 사용될 수 있다. 이러한 이량체화 도메인은 추가적인 조절 단계를 제공하기 위해 이용될 수 있다.
기능성 분석(Functional Assays) 및 용도
생화학적 분석 외에, 핵산 결합 도메인 또는 본 명세서에서 기술된 방법, 예를 들어 단위체 조립에 의해 디자인된 단백질의 기능성을 생체 내에서 분석할 수 있다. 예를 들면, 표적 부위, 예를 들어 세포 증식에 필요한 유전자의 프로모터 부위에 결합하는 도메인이 선택될 수 있다. 단위체 조립에 의해, (1) 표적 프로모터 부위에 걸친 하위부위에 각각 결합하도록 선택된 도메인들 및 (2) DNA 억제 도메인, 예를 들어 WRPW 도메인을 포함하는 단백질을 디자인할 수 있다.
디자인된 단백질을 코딩하는 핵산 서열은 예를 들어 강 및 김의 문헌[Kang and Kim, 2000, J. Biol. Chem. 275:8742]에 기재된 유도성 발현 벡터 등의 발현 벡터 내에 클로닝될 수 있다. 유도성 발현 벡터는 유도가능한 프로모터 또는 조절 서열을 포함할 수 있다. 유도가능한 프로모터의 비제한적 예는 스테로이드-호르몬 반응성 프로모터(예, 엑다이존-반응성, 에스트로겐-반응성 및 글루타코티코이드-반응성 프로모터), 테트라싸이클린 "테트-온(Tet-On)" 및 "테트-오프(Tet-Off)" 체계, 및 금속-반응성 프로모터를 포함한다. 이러한 구조물을 조직 배양 세포 또는 배아 간 세포에 형질감염시킴으로써 대상 모델로서의 유전자이식 생물체를 생성할 수 있다. 유전자이식 동물 모델에서 단백질의 발현을 유도하고, 조직 배양 세포의 세포 증식을 조사하거나 발생학적 변화 및/또는 종양 성장을 분석함으로써 디자인된 단백질의 효율을 결정할 수 있다. 아울러, 표적으로 삼은 유전자의 발현 정도는 예를 들어 RT-PCR 또는 노던 블롯과 같은 mRNA를 검출하는 일반적인 방법에 의해 분석할 수 있다. 더욱 완벽한 측정을 위하여는 디자인된 단백질을 발현하는 세포와 발현하지 않는 세포에서 mRNA를 정제한다. 이러한 mRNA의 두 개의 풀을 이용하여 대규모의 유전자 집합물, 예를 들어 관심 있는 질환(예를 들어, 암)에 관계된 유전자들의 집합물 또는 생물체의 게놈에서 동정된 유전자들의 집합물에 대한 프로브를 함유하는 마이크로어레이를 탐지한다. 이러한 분석은 디자인된 단백질의 특이성을 결정하는데 특히 유용하다. 만일 단백질이 높은 친화도를 가지나 낮은 특이성을 가지고 결합한다면, 예상되는 표적 유전자 이외에 유전자의 발현에도 영향을 주어 다면적이고 바람직하지 않은 효과를 가져올 수 있다. 이러한 효과는 전사물의 전체적인 분석에 의해 밝혀진다.
추가로, 고안된 단백질은 내재 유전자를 조절하기 위해 대상 세포 또는 대상 생물체에서 생산될 수 있다. 고안된 단백질은 전술한대로 내재유전자의 한 영역에 결합하여 전사 활성화 또는 억제를 초래하도록 배열된다. 강 및 김의 상기 문헌에 기술된 대로, 고안된 단백질을 코딩하는 핵산의 발현은 유도성 프로모터에 작동가능하게 연결될 수 있다. 프로모터에 대한 유도체의 농도를 변화시킴으로써 내재 유전자의 발현을 농도 의존적 방식으로 조절할 수 있다.
결합 부위 선호도 분석
각 도메인의 결합 부위 선호도는 EMSA, DNase 풋프린팅(footprinting), 표면 플라스몬 공명법, 또는 컬럼 결합과 같은 생화학적 분석법에 의해 확인할 수 있다. 결합을 위한 기질로는 표적 부위를 포함하는 합성 올리고뉴클레오티드를 사용할 수 있다. 상기 분석은 비특정 DNA를 경쟁체로서 또는 특정 DNA 서열을 경쟁체로서 포함할 수 있다. 특정 경쟁체 DNA는 하나, 둘, 또는 세 개의 뉴클레오티드 돌연변이를 가진 인식 부위를 포함할 수 있다. 따라서, 생화학적 분석으로 소정 부위에 대한 도메인의 친화도 뿐만 아니라 다른 부위에 대한 소정 부위의 상대적 친화도도 측정할 수 있다. 레바 및 파보(Rebar and Pabo, 1994, Science 263:671-673)는 EMSA로부터 징크 핑거 도메인에 대한 겉보기(apparent) Kd 상수를 얻는 방법을 기술하고 있다.
본 발명은 하기 실제적인 실시예를 통해 더욱 구체적으로 기술될 것이다. 그러나, 이들 실시예는 본 발명의 범위를 제한하려는 의도로 제공된 것이 아님에 유의하여야 한다.
실시예 1: 하이브리드 전사 인자 발현을 위한 플라스미드의 제조
징크 핑거 전사 인자를 발현하는 발현 플라스미드는 pPC86[Chevray & Nathans (1991) Proc. Natl. Acad. Sci. USA 89, 5789-5793]을 변형시켜 제조되었다. DNA의 조작은 문헌[Ausubel et al. (1998), Current Protocols in Molecular Biology, John Wiley & Sons, Inc.]에 기재된 일반적인 방법에 따라 수행되었다. pPC86의 SalI 및 EcoRI 인식부위 사이에 Zif268 징크 핑거 단백질을 코딩하는 DNA 단편을 삽입하여 pPCFM-Zif를 만들었다. 이 클로닝 단계의 결과는 효모 Gal4 전사 활성화 도메인에 세 개의 Zif268 징크 핑거가 연결된 융합 단백질이다. pPCFM-Zif를 효소 숙주 내로 형질전환시키면, Gal4 활성화 도메인과 Zif268 징크 핑거를 포함하는 하이브리드 전사 인자가 발현된다. pPCFM-Zif 내에 클로닝된 Zif268 징크 핑거 단백질을 코딩하는 DNA 서열이 도 9에 나타나 있다.
징크 핑거 도메인들의 라이브러리를 구축하기 위한 벡터로서 pPCFMS-Zif 플라스미드를 이용하였다(도 8). pPCFMS-Zif는 pPCFM-Zif의 핑거 3 코딩 영역 앞에 정지 코돈(stop codon) 및 PstI 인식부위를 포함하는 올리고뉴클레오티드 카셋트를 삽입하여 제조하였다. 상기 올리고뉴클레오티드 카셋트는 두개의 합성 올리고뉴클레오티드, 즉 5'-TGCCTGCAGCATTTGTGGGAGGAAGTTTG-3' (서열번호: 79) 및 5'-ATGCTGCAGGCTTAAGGCTTCTCGCCGGTG-3' (서열번호: 80)을 어닐링하여 형성하였다. 정지 코돈의 삽입은 Zif268의 핑거 3을 코딩하는 라이브러리 플라스미드의 생성을 방지한다.
상기 플라스미드는 하기 "실시예 2"에 기술된 바와 같이 징크 핑거 도메인의 제조를 위한 벡터로서 사용되었다.
또한, 개별 징크 핑거 도메인을 코딩하는 DNA 서열의 갭 복구(gap repair) 클로닝은 허드슨 등에 의해 기재된 방법(Hudson et al., (1997) Genome Research 7:1169-1173)을 약간 변형하여 실시하였다.
개별 징크 핑거 단백질을 클로닝하기 위해, 두 개의 중첩되는 올리고뉴클레오티드를 합성하였다. 각 올리고뉴클레오티드는 그의 5' 말단에 2회차 PCR (rePCR)을 위한 21-뉴클레오티드 길이의 공통 꼬리(tail) 및 개별 징크 핑거 도메인을 코딩하는 핵산에 어닐링된 특정 서열을 포함한다. 전방향 및 역방향 프라이머의 서열은 각각 5'-ACCCACACTGGCCAGAAACCCN48-51-3' (서열번호: 108) 및 5'-GATCTGAATTCATTCACCGGTN42-45-3' (서열번호: 109)이고, 여기에서 N48-51 및 N42-45 는 징크 핑거 도메인을 코딩하는 핵산에 어닐링하기 위한 맞춤 서열에 해당한다. 이중 가닥 DNA는 주형 핵산을 두 올리고뉴클레오티드의 동몰(equimolar) 혼합물로 증폭시킴으로써 제조하였다. PCR 조건은 94℃에서 3분간의 첫번째 사이클 후, 94℃에서 1 분, 50℃에서 1 분, 및 72℃에서 30 초의 5 사이클로 구성되었다.
이어서 각 징크 핑거 도메인을 코딩하는 이중 가닥 DNA를 2회차 PCR에서 주형으로서 사용하였다. rePCR 프라이머는 효모 벡터 pPCFM-Zif와 동일한 제1 영역과 상기한 21-뉴클레오티드 길이의 공통 꼬리 서열과 동일한 제2 영역의 두 영역을 가지고 있다. 전방향 프라이머의 서열은 5'- TGTCGAATCTGCATGCGTAACTTCAGTCGTAGTGACCACCTTACCACCCACATCCGGACCCACACTGGCCAGAAACCC-3' (서열번호: 138)이고, 역방향 프라이머의 서열은 5'-GGTGGCGGCCGTTACTTACTTAGAGCTCGACGTCTTACTTACTTAGCGGCCGCACTAGTAGATCTGAATTCATTCACCGGT-3' (서열번호: 139)이었다. 반응 혼합물은 25 ul 중에 2.5 pmole의 각 프라이머, 1.5 mM Mg2+, 2 단위의 Taq 폴리머라제 및 0.01 단위의 Pfu 폴리머라제를 포함하였다. 반응은 94℃에서 3 분간 실시한 후, 94℃에서 1분, 65℃에서 1분, 및 72℃에서 30초 또는 94℃에서 3분의 20 사이클을 통해 순환시킨 다음, 94℃에서 30초 및 72℃에서 30초의 25 사이클을 통해 순환시켰다.
갭 복구 클로닝은 rePCR 산물 및 MscI과 EcoRI로 절단되어 선형화된 pPCFM-Zif 벡터의 혼합물로 효모 YW1 세포들을 형질전환시킴으로써 수행하였다. 효모 벡터 pPCFM-Zif과 동일한 영역이 효모 세포 내의 벡터와의 동종 재조합을 가능하게 한다. 이렇게 형성된 모든 구조물은 DNA 서열 분석으로 확인하였다.
실시예 2: 개별 징크 핑거 도메인을 분석하기 위한 라이브러리의 제조
천연형 징크 핑거 도메인들의 플라스미드 라이브러리를 인간 게놈으로부터 징크 핑거 도메인들을 클로닝함으로써 제조하였다. PCR 및 축중 올리고뉴클레오티드 프라이머를 이용하여 주형 인간 게놈 DNA(Promega Corporation(미국 위스콘신주 매디슨)으로부터 구입)로부터 징크 핑거 도메인들을 코딩하는 DNA 단편들을 증폭하였다. 인간 징크 핑거 도메인들을 클로닝하기 위하여 사용된 축중 PCR 프라이머의 DNA 서열은 다음과 같다.
5'-GCGTCCGGACNCAYACNGGNSARA-3' (서열번호: 81) 및
5'-CGGAATTCANNBRWANGGYYTYTC-3' (서열번호: 82)
(여기서, R은 G 및 A를 나타내고, B는 G, C 및 T를 나타내며, S는 G 및 C를 나타내고, W는 A 및 T를 나타내며, Y는 C 및 T를 나타내고 N은 A, C, G 및 T를 나타낸다).
상기 축중 PCR 프라이머는 많은 천연형 징크 핑거 단백질들에서 징크 핑거 도메인들 사이의 연결 부위(junction)에서 발견되는 아미노산 서열 His-Thr-Gly-Glu/Gln-Lys/Arg-Pro-Tyr/Phe (서열번호: 83)을 코딩하는 핵산 서열에 어닐링한다[Agata et al (1998) Gene 213:55-64].
PCR의 완충액 조성은 50 mM KCl, 3 mM MgCl2, 10 mM Tris (pH 8.3)이다. 택(Taq) DNA 폴리머라제를 반응 혼합물에 가하고, 94℃에서 30초, 42℃에서 60초, 72℃에서 30초 반응시켰다. 이 사이클을 35회 반복한 후, 마지막으로 72℃에서 10분간 반응시켰다.
상기 PCR 산물을 다음과 같이 pPCFMS-Zif 내로 클로닝하였다. PCR 산물을 전기영동하여 약 120 bp에 해당하는 DNA 단편을 분리하였다. 이를 BspEII 및 EcoRI으로 절단한 후, pPCFMS-Zif에 연결하였다. 결과적으로, 이 플라스미드 라이브러리가 코딩하는 하이브리드 전사 인자의 DNA-결합 도메인은 Zif268의 핑거 1 및 핑거 2와 인간 게놈으로부터 유래한 징크 핑거 도메인으로 이루어진다. 총 106 개 의 대장균 형질전환체로부터 플라스미드 라이브러리를 제조하였다. 상기 라이브러리 제조방법에 의하면 징크 핑거 도메인들 사이에서 발견되는 천연형 링커 서열이 유지된다.
실시예 3: 개별 징크 핑거 도메인을 분석하기 위한 라이브러리의 제조
무작위 돌연변이에 의해 돌연변이 징크 핑거 도메인의 라이브러리를 제조하였다. Zif268의 핑거 3을 폴리펩타이드 골격(framework)으로 사용하였다. 무작위 돌연변이는 서열번호: 21(Zif268의 핑거 3)의 73번 위치(아르기닌), 75번 위치(아스파르트산), 76번 위치(글루탐산), 77번 위치(아르기닌), 78번 위치(라이신) 및 79번 위치(아르기닌)에 각각 해당하는, 알파 헬릭스를 따라 -1, 2, 3, 4, 5, 6 번 위치에 도입하였다.
이들 아미노산을 코딩하는 핵산 서열 위치의 각각에 무작위화 코돈, 즉, 5'-(G/A/C)(G/A/C/T)(G/C)-3'을 도입하였다. 이 무작위화 코돈은 트립토판, 티로신, 시스테인 및 페닐알라닌의 4개 아미노산을 제외한 16 개의 아미노산 중 어느 하나를 코딩한다. 가능한 정지코돈 3 가지도 역시 제외된다. 상기 무작위화 코돈은 하기 두 개의 올리고뉴클레오티드로부터 제조된 올리고뉴클레오티드 카셋트를 이용하여 도입된다:
5'-GGGCCCGGGGAGAAGCCTTACGCATGTCCAGTCGAATCTTGTGATAGAAGATTC-3' (서열번호: 84); 및
5'- CTCCCCGCGGTTCGCCGGTGTGGATTCTGATATGSNBSNBAAGSNBSNBSNBSNBTGAGAATCTTCTATCACAAG-3' (서열번호: 85) (여기에서, B는 G, T 및 C를 나타내고, S는 G 및 C를 나타내며, N은 A, G, C 및 T를 나타낸다.)
상기 두 개의 올리고뉴클레오티드를 어닐링한 후 30분간 클레나우 폴리머라제(Klenow polymerase)와 반응시켜 DNA 듀플렉스 카세트를 합성하였다. 이를 AvaI과 SacII로 절단한 후, SgrAI 및 SacII로 절단한 pPCFMS-Zif에 연결하였다. 약 109 개의 대장균 형질전환체로부터 플라스미드를 분리하였다.
실시예 4: 리포터 플라스미드의 제조
HIS3 유전자를 포함하는 리포터 플라스미드를 pRS315His(Wang & Reed (1993), Nature 364, 121-126)를 변형하여 제조하였다. 상기 리포터 플라스미드는 또한 이 플라스미드를 갖는 형질전환체의 선별을 위한 목적으로 LEU2 마커를 그의 천연적 프로모터 아래에 포함하였다. 먼저, pRS315His를 SalI 및 BamHI으로 절단하여 얻은 작은 단편과, 같은 플라스미드를 BamHI 및 XhoI으로 절단하여 얻은 큰 단편을 결합시킴으로써 pRS315His 내의 SalI 인식서열을 제거하여 pRS315HisΔSal을 제조하였다. 그 다음, 올리고뉴클레오티드 듀플렉스를 pRS315HisΔSal의 BamHI 및 SmaI 부위 사이에 삽입하여 HIS3 유전자의 프로모터 영역 내에 새로운 SalI 인식부위를 도입하였다. 서로 어닐링되어 상기에서 삽입된 듀플렉스를 형성하는 두 올리고뉴클레오티드 서열은 다음과 같다:
5'-CTAGACCCGGGAATTCGTCGACG-3' (서열번호: 86); 및
5'-GATCCGTCGACGAATTCCCGGGT-3' (서열번호: 87).
그 결과 생성된 플라스미드를 pRS315HisMCS로 명명하였다.
pRS315HisMCS에 원하는 복합 서열을 삽입하여 다수의 리포터 플라스미드를 제조하였다. 상기 복합 서열은 복합 서열의 4 카피를 포함하는 직렬 어레이(tandem array)로서 삽입된다. 상기 표적 서열들은 HIV-1의 LTR 영역에서 발견되는 하기의 10-bp DNA 서열:
5'-GAC ATC GAG C-3' (서열번호: 1) HIV-1 LTR (-124/-115)
5'-GCA GCT GCT T-3' (서열번호: 2) HIV-1 LTR (-23/-14)
5'-GCT GGG GAC T-3' (서열번호: 3) HIV-1 LTR (-95/-86))
및 인간유전자 CCR5의 프로모터에 존재하는 하기의 10-bp DNA 서열에서 유래한 것이다.
5'-AGG GTG GAG T-3' (서열번호: 4) 인간 CCR5 (-70/-79)
5'-GCT GAG ACA T-3' (서열번호: 5) 인간 CCR5 (+7/+16)).
이들 각각의 10-bp DNA 서열을 4-bp 표적 부위 성분으로 분해함으로써, 이 부위의 각 영역을 인식하는 징크 핑거 도메인을 동정할 수 있다. 모듈 조립 방법을 이용하여 이러한 징크 핑거 도메인을 커플링함으로써 생체 내에서 상기 부위를 인식하는 DNA 결합 단백질을 제조할 수 있다.
위의 밑줄 그은 부분은 4-bp의 표적 서열의 예를 나타낸다. 이들 각각의 4-bp 표적 서열을 Zif268의 핑거 1 및 2에 의해 인식되는 5'-GGGCG-3'의 5-bp 소집 서열에 연결하였다. 생성된 9-bp 서열은 복합 결합 서열을 구성하였다. 각각의 복합 결합 서열은 5'-XXXXGGGCG-3'의 형식을 갖는데, 여기서 XXXX는 4-bp 표적 서열이고, 인접한 5'-GGGCG-3'는 소집 서열이다.
도 7은 pRS315HisMCS 내 리포터 유전자에 작동 가능하게 연결된, 삽입된 복합 결합 부위 직렬 어레이의 DNA 서열을 보여준다. 각각의 직렬 어레이는 4 카피의 복합 결합 서열을 포함한다. 각각의 결합 부위에 대하여, 두 개의 올리고뉴클레오티드를 합성하고, 어닐링한 후, pRS315HisMCS의 SalI 및 XmaI 절단 부위에 연결하여 리포터 플라스미드를 제조하였다.
실시예 5: 리포터 플라스미드의 제조
각각의 3 염기쌍 하위 부위에 대하여 한 쌍의 리포터(하나는 lacZ를 갖고, 다른 하나는 HIS3를 가짐)를 포함하는 리포터 플라스미드 한 세트를 다음과 같이 제조하였다. 리포터 플라스미드는 원하는 표적 서열을 pRS315HisMCS 및 pLacZi내로 삽입하여 제조하였다. 각각의 3 염기쌍 표적 부위에 대하여, 두 개의 올리고뉴클레오티드를 합성하고, 어닐링하고, pRS315HisMCS 및 pLacZi의 SalI 및 XmaI 부위 내로 삽입하여 리포터 플라스미드를 제조하였다. 상기 올리고뉴클레오티드의 DNA 서열은 다음과 같다: 5'-CCGGT NNNTGGGCG TAC NNNTGGGCG TCA NNNTGGGCG-3'(서열번호: 88) 및 5'-TCGA CGCCCANNN TGA CGCCCANNN GTA CGCCCANNN A-3'(서열번호: 89). 총 64쌍의 올리고뉴클레오티드를 합성하여 상기 두 개의 리포터 플라스미드 내로 삽입하였다.
실시예 6: 원하는 DNA-결합 특이성을 갖는 징크 핑거 도메인의 선택
주어진 표적 서열에 특이적으로 결합하는 징크 핑거 도메인을 선택하기 위하여, 효모 세포를 리포터 플라스미드로 형질전환시킨 후, 하이브리드 전사 인자를 코딩하는 하이브리드 플라스미드의 라이브러리로 형질전환시켰다. 효모의 형질전환 및 스크리닝 방법은 문헌[Ausubel et al. Current Protocols in Molecular Biology (1998), John Wiley & Sons, Inc.]에 기재된 방법에 따라 수행하였다. 효모 균주로는 yWAM2(MATαΔgal4 Δgal80 URA3::GAL1-lacZ lys2801 his3-Δ200 trp1-Δ63 leu2 ade2-101CYH2)를 사용하였다.
한 예로서, 먼저 리포터 유전자에 작동가능하게 연결된 복합 결합 서열 5'-GAGCGGGCG-3'(4-bp 표적 서열을 밑줄로 표시함)을 포함하는 리포터 플라스미드로 효모 세포를 형질전환시켰다. 그 다음, 무작위 돌연변이법으로 제조된 돌연변이 징크 핑거 도메인의 플라스미드 라이브러리를 상기 형질전환된 효모내로 도입하였다. 약 106 개 정도의 콜로니들을 루이신 및 트립토판이 모두 결여된 배지에서 얻었다. 리포터 플라스미드 및 징크 핑거 도메인 발현 플라스미드는 마커(marker)로서 LEU2 유전자와 TRP1 유전자를 각각 포함하므로, 리포터 및 징크 핑거 도메인 발현 플라스미드를 모두 포함하는 세포를 선택하기 위해서 표모 세포를 루이신과 트립토판이 모두 결여된 배지에서 성장시켰다.
한 실시태양에서, 인간 게놈에서 유래하는 징크 핑거 도메인의 라이브러리를 리포터 플라스미드를 함유하는 세포 내로 형질전환시켰다. 이러한 형질전환은 리 포터 유전자에 작동가능하게 연결된 상이한 5종류의 표적 서열 중 하나를 함유하는 다섯 종류의 상이한 숙주 세포 균주에 대하여 이루어졌다. 루이신 및 트립토판이 모두 결여된 배지에서 각 형질전환에 대하여 약 105 개의 콜로니들을 얻었다. 형질전환체를 루이신 및 트립토판이 결여된 합성 배지를 함유하는 페트리 플레이트 상에서 성장시켰다. 배양 후, 플레이트에 10% 멸균 글리세롤 용액을 가하고, 콜로니들을 용액으로 긁어낸 후, 용액을 수거하였다. 세포는 글리세롤 용액 중에 분주하여, 동결 보관하였다. 한 개의 분주액을 루이신, 트립토판 및 히스티딘이 결핍된 배지에 도말하였다. 3-아미노트리아졸(AT)을 각각 0, 0.03, 0.1 및 0.3 mM의 최종 농도로 성장 배지에 첨가하였다. AT는 His3의 경쟁적 저해제로 HIS3 선택 시스템의 감수성을 적정한다. AT는 His3의 기본 활성을 억제하였다. 이러한 기본 활성은 리포터 플라스미드의 HIS3 유전자의 누출성(leaky) 발현으로부터 초래된다. 배지에 도말된 약 107 개의 효모 세포 중, 수 백 개의 콜로니가 AT가 결핍된 선택 배지에서 성장하였다. AT의 농도가 증가할수록 콜로니 숫자는 점점 감소하였다. 0.3 mM의 AT를 포함하는 선택배지에서는 수십 개의 콜로니가 자라났다. AT가 결핍된 배지와 0.3 mM의 AT를 첨가한 배지에서 각각 몇 개씩의 콜로니를 임의로 선정하였다. 이들 효모 세포로부터 플라스미드를 분리하여 대장균 균주 KC8(pyrF leuB600 trpC hisB463)을 형질전환시켰다. 이로부터 징크 핑거 전사 인자를 코딩하는 플라스미드를 분리하여 선택된 징크 핑거 도메인의 DNA 서열을 결정하였다.
각 선택된 징크 핑거 도메인의 아미노산 서열을 상기 결정된 DNA 서열로부터 연역하였다. 각 징크 핑거 도메인은 그들의 염기-접촉 위치, 즉, 알파-헬릭스를 따라 -1, 2, 3 및 6 번째 위치의 4개 아미노산 잔기에 따라 명명하였다. 그 결과를 표 1에 나타내었다. 동정된 징크 핑거 도메인은 염기-접촉 위치에서 발견되는 4개의 아미노산에 의해 명명된다. 염기서열을 분석한 결과, 어떤 경우에는 동일한 징크 핑거 도메인이 반복적으로 얻어졌음을 알 수 있었다. 표 1에서 괄호 안의 숫자는 동일한 징크 핑거 도메인이 반복되어 얻어진 횟수를 나타낸다. 예를 들어, 4개의 염기 접촉 위치에 CSNR을 갖는 두 개의 징크 핑거가 GAGC 핵산 부위에 결합하는 것으로 동정되었다(칼럼 3의 "GAGC/인간 게놈" 참조).
표적 서열 GAGC GAGC GCTT GACT GAGT ACAT
징크 핑거 도메인
라이브러리의 기원
무작위 돌연변이 인간게놈 인간게놈 인간게놈 인간게놈 인간게놈
염기 접촉 위치에서의
아미노산 잔기*
KTNR(2)
RTTR
RPNR
HSNR
RLKP
TRQR
TALH
RQKA
PARV
RTFR
RNNR
DPLH
RGNR
RTNR(2)
RTNR
CSNR(2)
SSNR(3)
RSTV
SSGE
VSTR(9)

HSNK(2)
CSNR(7)
RDER(2)
SSNR(5)
QSTV(3)
* 오른쪽 여섯 개의 칼럼에 나타낸 4-문자 식별자는 각 표적 서열에 대하여 단리된 징크 핑거 도메인을 나타낸다. 이 명칭들은 염기 접촉 위치에서의 아미노산 잔기를 나타내지만, 이들이 폴리펩타이드의 서열은 아니다.

선택된 인간 징크 핑거 도메인들을 코딩하는 전장 DNA 서열과 이를 번역해서 얻은 아미노산 서열을 도 11에 나타내었다. 인간 게놈에서 징크 핑거 도메인을 코 딩하는 DNA 단편을 증폭시키기 위하여 사용하였던 축중 PCR 프라이머에 상보적인 DNA 서열에 밑줄을 그었다. 이 서열은 증식과정 중 도입된 대립유전자(allele)의 차이 또는 변이로 인해 보고된 인간 게놈 서열의 원래 염기 서열과 다를 수 있다.
본 발명에 따른 스크리닝에 의해 동정된 대부분의 인간 징크 핑거 도메인은 신규 폴리펩타이드이거나 이름이 밝혀지지 않은 ORF(open reading frame)에 해당하였다. 예를 들어, HSNK(진뱅크 등록 번호 AF155100에 보고된 서열 내에 존재) 및 VSTR(진뱅크 등록 번호 AF025772에 보고된 서열 내에 존재)로 명명된 징크 핑거 도메인은 그 기능이 아직 알려지지 않은 단백질 내에 존재한다. 본 명세서에 기재된 결과는 이들 징크 핑거 도메인들이 서열-특이적 DNA 결합 도메인으로 기능할 수 있음을 나타낼 뿐만 아니라, 키메라 단백질 상태에서의 이들의 바람직한 결합 부위 선호도에 대한 기록을 제공한다.
또한, 본 발명은 인간 게놈에서 얻은 상기 징크 핑거 도메인들이 신규의 DNA-결합 단백질을 제조하기 위한 모듈성 구성 블록으로서 사용될 수 있음을 보여 준다. 본 발명의 인간 징크 핑거 도메인은 이를 Zif268의 핑거 1 및 핑거 2의 C-말단에 연결하였을 때의 생체 내 기능성의 결과로서 얻어졌다. 따라서, 동정된 징크 핑거 도메인은 인위적인 환경에서 특정 서열을 인식할 수 있고, 합성 전사 인자를 디자인하기 위한 모듈성 구성 블록으로서 적합하다.
실시예 7: 쌍 교배 (pairwise mating)
각각의 3 염기쌍 표적 부위에 결합하는 징크 핑거 도메인의 동정을 용이하게 하기 위하여, 효모 세포를 반복적으로 형질전환시킬 필요성을 없애고, 한 번의 형질전환으로 64개의 리포터 구조물 각각에 결합하는 양성 형질전환체를 찾기 위해 효모의 교배를 이용하였다. YW1(MATα 교배형) 및 YPH499(MATa 교배형)의 두 종류의 효모 균주를 사용하였다. YW1은 yWAM2의 ura3-유도체를 생성하기 위해 5-플루오로오로틱 액시드(FOA)에 내성인 클론을 선택함으로써 yWAM2로부터 유래된 것이다.
징크 핑거 도메인의 플라스미드 라이브러리를 효모 형질전환에 의해 YW1 세포 내로 도입하였다. 10% 글리세롤 용액으로 플레이트를 긁어서 약 106개의 독립적으로 형질전환된 콜로니로부터 세포를 수집하였다. 이 용액을 소분획으로 나누어 냉동시켰다. 64개의 리포터 플라스미드(pLacZi 또는 pRS315His로부터 유래)의 각 쌍을 효모 균주 YPH499에 역시 공동 형질감염시켰다. 두 가지 리포터 플라스미드를 함유하는 형질전환체를 수거하여 냉동시켰다.
해동 후, 이들 효모 세포들을 최소배지에서 중간-로그기(mid-log phase)까지 성장시켰다. 이어서, 이 두 세포 유형을 혼합하고 YPD에서 5시간 동안 교배하도록 두었다. X-gal 및 AT(1 mM)을 함유하고, 트립토판, 루이신, 우라실 및 히스티딘이 결여된 최소 배지에서 이배체 세포를 선택하였다. 수일 후, 선택용 플레이트에서 성장한 청색 콜로니를 단리하였다. 청색 콜로니로부터 징크 핑거 도메인을 코딩하는 플라스미드를 단리하고, 선택된 징크 핑거 도메인의 DNA 서열을 결정하였다.
청색 콜로니로부터 단리된 핵산을 YW1 세포에 개별적으로 재형질전환시켰다. 각각의 단리된 핵산에 대하여, 재형질전환된 YW1 세포를 64 LacZ 리포터 플라스미드 각각을 함유하는 YPH499 세포와 96웰 플레이트에서 교배시키고, X-gal을 함유하고 트립토판 및 우라실이 결여된 최소 배지 상에 도말하였다. 64개의 표적 서열에 대한 징크 핑거 도메인의 DNA 결합 친화도 및 특이성은 청색의 강도에 의해 결정하였다. Zif268 징크 핑거 도메인들을 이용한 대조 실험 결과, 징크 핑거 도메인과 결합 부위 사이의 양성 상호작용은 진한 청색 내지 연한 청색 콜로니(여기서 청색의 강도는 결합 친화도에 비례함)를 만들고 음성 상호작용은 흰색 콜로니를 만든다는 것을 알 수 있다.
실시예 8: 동정된 징크 핑거 도메인과 상호작용 코드의 비교
선택된 징크 핑거 도메인들의 중요한 염기-접촉 위치의 아미노산 잔기들을 징크 핑거 도메인-DNA 상호작용 코드(도 3)로부터 예측되는 아미노산 잔기들과 비교하였다. 대부분의 징크 핑거 도메인은 예상된 패턴을 보였는데, 즉 중요한 위치의 아미노산 잔기가 그 코드로부터 예상되는 것들과 잘 일치하였다.
예를 들어, 무작위 돌연변이를 통해 제조된 라이브러리로부터 선택된 징크 핑거 도메인 내 공통적 아미노산 잔기는, -1 번 위치에서는 R(아르기닌; 14개 중에서 7개) 또는 K(라이신; 14개 중에서 2개), 3 번 위치에서는 N(아스파라긴; 14개 중에서 6개), 및 6 번 위치에서는 R(14개 중에서 9개)이었다 (표 1). 상기 징크 핑거 도메인들은 GAGC 플라스미드로 선택되었다. (리포터 유전자에 작동가능하게 연결된 복합 결합 서열 5'-GAGCGGGCG-3'을 갖는 리포터 플라스미드를 GAGC 플라스미드로 언급한다. 유사하게, 리포터 유전자에 작동가능하게 연결된 복합 결합 서 열 5'-XXXXGGGCG-3'을 갖는 리포터 플라스미드를 XXXX 플라스미드로 언급한다). 중요한 염기 접촉 위치의 이들 아미노산 잔기는 그 코드에 의해 예상되는 것과 정확하게 일치한다.
또한, 일반적으로 2번 위치의 아미노산 잔기는 염기 인식에 보조적인 역할만을 하는 것으로 알려져 있다(Pavletich 및 Pabo(1991) Science 252, 809-817). 하지만 어떤 경우에는 2번 위치가 더 중요할 수도 있다.
인간 게놈에서 유래한 징크 핑거 도메인의 아미노산 잔기들도 코드로부터 예상되는 것들과 상당히 잘 일치하였다. 예를 들어, GAGC 플라스미드를 사용하여 얻은 징크 핑거 도메인 내 -1, 3 및 6 번 위치의 공통 아미노산 잔기들은 각각 R, N 및 R이었다(표 1, 칼럼 3). 이 아미노산들은 코드로부터 예상되는 것과 정확히 일치하였다.
GCTT 플라스미드를 사용하여 얻은 징크 핑거 도메인 내 -1, 3 및 6 번 위치의 아미노산 잔기들은 각각 V, T 및 R이었다(표 1, 칼럼 4). T 및 R 잔기는 코드로부터 예상되는 것과 일치하였다. GCTT 부위의 밑줄친 염기 T와 상호작용을 할 것으로 기대되는 -1 번 위치의 코드로부터 예상되는 아미노산 잔기는 L, T 및 N이다. GCTT 플라스미드로 선택된 VSTR 징크 핑거 도메인은 이 위치에 L(루이신)과 유사한 소수성 아미노산인 V(발린)을 포함하였다.
전체적으로, 선택된 징크 핑거 도메인들 내 아미노산 잔기들은 3 개의 중요 위치 중 2 개 이상의 위치에서 코드로부터 예상되는 아미노산과 일치하였다. 표 1에서 코드로부터 예상되는 선택된 징크 핑거 도메인 내 아미노산 잔기에 밑줄을 그 어 표시하였다. 이러한 결과는 본 명세서에 기재된 생체내 선택 시스템이 예상대로 작동하고 있다는 것을 강력히 암시하고 있다. 하지만, 생체내 선택 및 분석 시스템이 세포 내에서의 징크 핑거 단백질의 실제 기능을 측정하므로, 이론적인 기대치와 일치하지 않는 유용한 기능 및 DNA 결합 특이성을 지닌 핑거를 동정할 수도 있다(예, 도 3에 묘사된 관계).
실시예 9: 재형질전환 및 교차형질전환 (cross-transformation)
위 양성(false positive) 결과를 배제하고, 상기 징크 핑거 단백질들의 서열 특이성을 조사하기 위하여, 단리된 플라스미드를 이용한 효모 세포의 재형질전환 및 교차형질전환을 수행하였다.
먼저 리포터 플라스미드와 징크 핑거 도메인을 코딩하는 하이브리드 전사 인자 플라스미드로 효모 세포를 공동-형질전환시켰다. 효모 형질전환체를 루이신 및 트립토판이 결여된 최소배지에 접종하고 36시간동안 배양시켰다. 성장 배지 중의 세포 약 1,000 개를 루이신, 트립토판 및 히스티딘이 결여된 고체 배지(도 10에서 - 히스티딘으로 표기)와 루이신 및 트립토판이 결여된 고체 배지(도 10에서 + 히스티딘으로 표기) 상에 직접 스팟팅(spotting)한 후, 50시간 동안 30℃에서 배양하였다. 그 결과를 도 10에 도시하였다.
하이브리드 전사 인자의 징크 핑거 부분이 복합 결합 서열에 결합하여 하이브리드 전사 인자가 HIS3 리포터 유전자의 발현을 활성화시키도록 한다면, 콜로니들은 히스티딘이 결여된 배지에서 성장할 수 있다. 전사 인자의 징크 핑거 부분이 이 복합 결합 서열에 결합하지 못한다면, 콜로니들은 히스티딘이 결여된 배지에서 성장할 수 없다.
도 10에 도시된 바와 같이, 단리된 징크 핑거 도메인들은 상응하는 표적 서열에 결합할 수 있었고, Zif268의 도메인과는 뚜렷이 구별되는 서열 특이성을 보였다. Zif268은 다른 5개 플라스미드에 비해서 GCGT 플라스미드와 가장 높은 활성을 보였고, GAGT 플라스미드와도 비교적 높은 활성을 보였다. 그러나 그 밖의 다른 결합 서열을 포함하는 리포터를 갖고 Zif268 단백질을 발현시키는 균주는 콜로니를 형성하지 못했다.
무작위 돌연변이 라이브러리로부터 단리된 KTNR 징크 핑거 도메인은 원래 GAGC 리포터 플라스미드로 선택된 것이다. 예상대로 오직 GAGC 플라스미드와만 콜로니를 형성하였다. 인간 게놈으로부터 유래된 라이브러리에서 얻은 징크 핑거 도메인들도 기대했던 대로의 특이성을 보였다. 예를 들어, GACT 플라스미드로 선택된 HSNK는 오직 GACT 플라스미드와 함께 효모 세포를 형질전환 시켰을 때에만 세포 성장을 보였다. GCTT 플라스미드로 선택된 VSTR은 GCTT 플라스미드와 가장 높은 활성을 보였다. GAGT 플라스미드로 선택된 RDER은 4 염기-접촉 위치에서 Zif268의 핑거 3과 동일한 아미노산 잔기를 갖는다. 예상대로, 이 징크 핑거 도메인은 Zif268의 핑거 3와 유사한 서열 특이성을 보였다. GAGC와 GAGT 플라스미드로 선택된 SSNR은 히스티딘 결핍배지에서 GAGC 플라스미드와는 세포 성장을 나타내었으나, GAGT 플라스미드와는 세포 성장을 나타내지 못했다. ACAT 플라스미드로 얻은 QSTV는 이 분석법에서 시험된 어떠한 플라스미드와도 세포 성장을 나타내지 못했다. 그러나, 이 징크 핑거 도메인은 하기에서 입증된 바와 같이 시험관내에서 ACAT 서열과 강하게 결합할 수 있었다.
실시예 10: 겔 이동 분석 (gel shift assay)
변형된 원-하이브리드 시스템을 이용하여 선택된 징크 핑거 도메인을 포함하는 징크 핑거 단백질을 대장균 내에서 발현시키고, 정제하여 겔 이동 분석에 사용하였다. 하이브리드 플라스미드에 삽입되어 있는 징크 핑거 단백질을 코딩하는 DNA 단편을 SalI 및 NotI으로 절단하여 단리하고, 이를 pGEX-4T2(Pharmacia Biotech)의 SalI 및 NotI 부위 사이에 클로닝하였다. 징크 핑거 단백질은 대장균 균주 BL21에서 GST(Glutathione-S-transferase)에 연결된 융합 단백질로 발현되었다. 융합 단백질을 글루타티온 친화성 크로마토그래피(Pharmacia Biotech, Piscataway, NJ)를 이용하여 정제한 후, 트롬빈을 사용하여 GST 부분과 징크 핑거 단백질 사이의 연결부위를 절단하였다. 정제된 징크 핑거 단백질들은 Zif268의 핑거 1 및 핑거 2, 및 C-말단에 연결된 선택된 징크 핑거 도메인을 포함하였다.
하기의 프로브 DNA를 합성하고, 어닐링하고, T4 폴리뉴클레오타이드 키나제로 32P 표지하여, 겔 이동 분석에 사용하였다.
GCGT; 5'-CCGGGTCGCGCGTGGGCGGTACCG-3' (서열번호: 90)
3'-CAGCGCGCACCCGCCATGGCAGCT-5' (서열번호: 91)
GAGC; 5'-CCGGGTCGCGAGCGGGCGGTACCG-3' (서열번호: 92)
3'-CAGCGCTCGCCCGCCATGGCAGCT-5' (서열번호: 93)
GCTT; 5'-CCGGGTCGTGCTTGGGCGGTACCG-3' (서열번호: 94)
3'-CAGCACGAACCCGCCATGGCAGCT-5' (서열번호: 95)
GACT; 5'-CCGGGTCGGGACTGGGCGGTACCG-3' (서열번호: 96)
3'-CAGCCCTGACCCGCCATGGCAGCT-5' (서열번호: 97)
GAGT; 5'-CCGGGTCGGGAGTGGGCGGTACCG-3' (서열번호: 98)
3'-CAGCCCTCACCCGCCATGGCAGCT-5' (서열번호: 99)
ACAT; 5'-CCGGGTCGGACATGGGCGGTACCG-3' (서열번호: 100)
3'-CAGCCTGTACCCGCCATGGCAGCT-5' (서열번호: 101)
다양한 양의 징크 핑거 단백질을, 20 mM Tris (pH 7.7), 120 mM NaCl, 5 mM MgCl2, 20 μM ZnSO4, 10% 글리세롤, 0.1% 노니뎃 P-40, 5 mM DTT, 및 0.10 mg/ml BSA(소혈청 알부민) 중에서 표지된 프로브 DNA와 함께 실온에서 한 시간 동안 반응시킨 후, 이 반응 혼합물을 겔 전기영동시켰다. 방사능 활성을 포스포이메이저 분석기(PhosphorImagerTM analysis, Molecular Dynamics)를 사용하여 정량한 다음, 문헌[Rebar and Pabo (1994) Science 263:671-673]에 기재된 바에 따라 해리 상수(K d )를 계산하였다. 그 결과는 표 2에 기재하였다. 2회 이상의 별도의 실험으로 모든 상수를 결정하였고, 평균 및 표준 편차를 표시하였다. 표 2에는 히스티딘 결핍 최소 배지에서의 효소 형질전환체의 세포 성장(도 10)도 역시 나타내었다.
Figure 112004006358864-pct00001

히스티딘 결핍 배지에서 세포 성장을 가능하게 하는 징크 핑거 단백질들은 해당하는 프로브 DNA와 강하게 결합하였다. 예를 들어, 대조군으로서 사용한 Zif268 단백질은 GCGT 및 GAGT 리포터 플라스미드와 함께 세포 성장을 가능하게 했는데, 상응하는 프로브 DNA를 이용하여 시험관 내에서 측정한 해리 상수는 각각 0.024 nM 및 0.17 nM이었다. 대조적으로, Zif268 단백질은 다른 플라스미드와는 세포 성장을 가능하게 하지 않았고, 상응하는 프로브 DNA로 측정한 해리 상수는 1 nM 이상이었다.
신규 징크 핑거 도메인들을 포함하는 징크 핑거 단백질도 유사한 결과를 보였다. 예를 들어, KTNR 단백질은 GAGC 프로브 DNA에 대해서 0.17 nM의 해리 상수로 높은 친화도를 보이는 반면, GCGT 및 GACT 프로브 DNA에 대해서는 각각 5.5 nM 및 30 nM의 해리 상수로 낮은 친화도를 나타내었다. 이 단백질은 GAGC 플라스미드의 경우에만 세포 성장을 가능하게 하였다. HSNK 단백질은 GACT 프로브 DNA와는 강하게 결합하나(K d =0.32 nM), GCGT 또는 GAGT 프로브 DNA와는 결합하지 않았고, 예상대로 이 HSNK 단백질은 오직 GACT 플라스미드의 경우에만 세포성장을 보였다.
ACAT 리포터 플라스미드로 선택된 QSTV 단백질은 어떠한 기타의 리포터 플라스미드와도 효모에 형질전환시켰을 때 세포 성장을 촉진시키지 못했다. 겔 이동 분석으로 이 단백질이 다른 프로브 DNA에 비해 ACAT 프로브 DNA에 보다 강하게 결합함이 증명되었다. 즉, QSTV는 GCTT 또는 GCGT 프로브 DNA의 경우에 비해, 각각 13 배 및 4.3 배 더 강하게 ACAT 프로브 DNA와 결합하였다.
일반적으로, 예를 들어 세 개의 징크 핑거 도메인을 갖는 징크 핑거 단백질은 1 nM 미만의 해리 상수로 DNA 서열에 결합하여 세포 성장을 가능하게 하는 반 면, 징크 핑거 단백질이 1 nM 이상의 해리 상수로 DNA 서열에 결합하는 경우에는 세포 성장을 가능하게 하지 못했다. 1 nM 이상 5 nM 미만의 해리 상수로 결합하는 징크 핑거 단백질 역시, 예를 들어 4개의 징크 핑거 도메인을 갖는 키메라 징크 핑거 단백질인 경우에 유용할 수 있다.
실시예 11 : TG-ZFD-001 "CSNR1"
TG-ZFD-001 "CSNR1"은 인간 게놈 서열로부터 생체 내(in vivo) 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCKQCGKAFGCPSNLRRHGRTH(서열번호: 23)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAATGTAAGCAATGTGGGAAAGCTTTTGGATGTCCCTCAAACCTTCGAAGGCATGGAAGGACTCAC-3'(서열번호: 22).
Zif268의 핑거 1 및 2와의 폴리펩타이드 융합 시, TG-ZFD-001 "CSNR1"은 3-bp 표적 서열 GAA, GAC 및 GAG들에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체내 스크리닝 결과와 EMSA에 의해 결정된 바와 같이 GAA > GAC > GAG > GCG이다. EMSA에서, TG-ZFD-001 "CSNR1"과 Zif268의 핑거 1 및 핑거 2, 및 GST 정제 핸들의 융합은, GAC 함유 부위에 대해서는 0.17 nM, GAG 함유 부위에 대해서는 0.46 nM, 그리고 GCG 함유 부위에 대해서는 2.7 nM의 겉보기 Kd를 가진다.
TG-ZFD-001 "CSNR1"은 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부 위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 12 : TG-ZFD-002 "HSNK"
TG-ZFD-002 "HSNK"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCKECGKAFNHSSNFNKHHRIH(서열번호: 25)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAGTGTAAGGAGTGTGGGAAAGCCTTCAACCACAGCTCCAACTTCAATAAACACCACAGAATCCAC-3'(서열번호: 24).
Zif268의 핑거 1 및 2와의 폴리펩타이드 융합 시, TG-ZFD-002 "HSNK"는 3-bp 표적 서열 GAC에 대한 인식 특이성을 나타낸다. 이 결합 부위 선호도는 생체내 스크리닝 결과와 EMSA에 의해 결정된 바와 같이 GAC > GAG > GCG이다. EMSA에서, TG-ZFD-002 "HNSK"과 Zif268의 핑거 1 및 2, 및 GST 정제 핸들의 융합은, GAC 함유 부위에 대해서는 0.32 nM, GAG 함유 부위에 대해서는 3.5 nM, 그리고 GCG 함유 부위에 대해서는 42 nM의 겉보기 Kd를 가진다.
TG-ZFD-002 "HSNK"는 예를 들면 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 13 : TG-ZFD-003 "SSNR"
TG-ZFD-003 "SSNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECKECGKAFSSGSNFTRHQRIH(서열번호: 27)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAATGTAAGGAATGTGGGAAAGCCTTTAGTAGTGGTTCAAACTTCACTCGACATCAGAGAATTCAC-3'(서열번호: 26).
Zif268의 핑거 1 및 2와의 폴리펩타이드 융합 시, TG-ZFD-003 "SSNR"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체내 스크리닝 결과와 EMSA에 의해 결합된 바와 같이 GAG > GAC > GCG이다. EMSA에서, TG-ZFD-003 "SSNR"과 Zif268의 핑거 1 및 핑거 2, 및 GST 정제 핸들의 융합은, GAG 함유 부위에 대해서는 0.45 nM, GAC 함유 부위에 대해서는 0.61 nM, 그리고 GCG 함유 부위에 대해서는 3.8 nM의 겉보기 Kd를 가진다.
TG-ZFD-003 "SSNR"은 예를 들면 GAG 또는 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 14 : TG-ZFD-004 "RDER1"
TG-ZFD-004 "RDER1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCDVEGCTWKFARSDELNRHKKRH(서열번호: 29)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATGAGCTCAACAGACACAAGAAAAGGCAC-3'(서열번호: 28).
Zif268의 핑거 1 및 2와 폴리펩타이드 융합 시 TG-ZFD-004 "RDER1"은 3-bp 표적 서열 GCG에 대한 인식 특이성을 나타낸다. 이 결합 선호도는 생체내 스크리닝 결과와 EMSA에 의해 결정된 바와 같이 GCG > GTG, GAG > GAC이다. EMSA에서, TG-ZFD-004 "RDER1"과 Zif268의 핑거 1 및 2, 및 GST 정제 핸들의 융합은, GCG 함유 부위에 대해서는 0.027 nM, GAG 함유 부위에 대해서는 0.18 nM, 그리고 GAC 함유 부위에 대해서는 28 nM의 겉보기 Kd를 가진다.
TG-ZFD-004 "RDER1"은 예를 들면 GCG, GTG 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 15 : TG-ZFD-005 "QSTV"
TG-ZFD-005 "QSTV"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNECGKAFAQNSTLRVHQRIH(서열번호: 31)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGTAATGAATGCGGGAAAGCTTTTGCCCAAAATTCAACTCTCAGAGTACACCAGAGAATTCAC-3'(서열번호: 30).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-005 "QSTV"는 3-bp 표적 서열 ACA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과와 EMSA에 의해 결정된 바와 같이 ACA > GCG > GCT이다. EMSA에서, TG-ZFD-005 "QSTV"와 Zif268의 핑거 1 및 2, 및 GST 정제 핸들의 융합은, ACA 함유 부위에 대해서는 2.3 nM, GCG 함유 부위에 대해서는 9.8 nM, 그리고 GCT 함유 부위에 대해서는 29 nM의 겉보기 Kd를 가진다.
TG-ZFD-005 "QSTV"는 예를 들면 ACA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 16 : TG-ZFD-006 "VSTR"
TG-ZFD-006 "VSTR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNYCGKTFSVSSTLIRHQRIH(서열번호: 33)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGTAATTACTGTGGAAAAACCTTTAGTGTGAGCTCAACCCTTATTAGACATCAGAGAATCCAC-3'(서열번호: 32).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-006 "VSTR"은 3-bp 표적 서열 GCT에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과와 EMSA에 의해 결정된 바와 같이 GCT > GCG > GAG이다. EMSA에서, TG-ZFD-006 "VSTR"과 Zif268의 핑거 1 및 2, 및 GST 정제 핸들의 융합은, GCT 함유 부위에 대해서는 0.53 nM, GCG 함유 부위에 대해서는 0.76 nM, 그리고 GAG 함유 부위에 대해서는 1.4 nM의 겉보기 Kd 를 가진다.
TG-ZFD-006 "VSTR"은 예를 들면 GCT 또는 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 17 : TG-ZFD-007 "CSNR2"
TG-ZFD-007 "CSNR2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YQCNICGKCFSCNSNLHRHQRTH(서열번호: 35)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATCAGTGCAACATTTGCGGAAAATGTTTCTCCTGCAACTCCAACCTCCACAGGCACCAGAGAACGCAC-3'(서열번호: 34).
Zif268의 핑거 1 및 핑거 2와 폴리펩타이드 융합 시, TG-ZFD-007 "CSNR2"는 3-bp 표적 서열 GAA, GAC 및 GAG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GAA > GAC > GAG이다.
TG-ZFD-007 "CSNR2"는 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 18 : TG-ZFD-008 "QSHR1"
TG-ZFD-008 "QSHR1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQSSHLRRHEKTH(서열번호: 37)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGAGTTCTCACCTTAGAAGACATGAGAAAACTCAC-3'(서열번호: 36).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-008 "QSHR1"은 3-bp 표적 서열 GGA, GAA 및 AGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGA > GAA > AGA이다.
TG-ZFD-008 "QSHR1"은 예를 들면 GGA, GAA 또는 AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 19 : TG-ZFD-009 "QSHR2"
TG-ZFD-009 "QSHR2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCGQCGKFYSQVSHLTRHQKIH(서열번호: 39)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAATGCGGCCAGTGTGGGAAGTTCTACTCGCAGGTCTCCCACCTCACCCGCCACCAGAAAATCCAC-3'(서열번호: 38).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-009 "QSHR2"는 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.
TG-ZFD-009 "QSHR2"는 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 20 : TG-ZFD-010 "QSHR3"
TG-ZFD-010 "QSHR3"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQCSHLRRHEKTH(서열번호: 41)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGTGTTCTCACCTTAGAAGACATGAGAAAACTCAC-3'(서열번호: 40).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-010 "QSHR3"는 3-bp 표적 서열 GGA 및 GAA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGA > GAA이다.
TG-ZFD-010 "QSHR3"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 21 : TG-ZFD-011 "QSHR4"
TG-ZFD-011 "QSHR4"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCAKAFIQCSHLRRHEKTH(서열번호: 43)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGCATGTCATCTATGTGCAAAAGCCTTCATTCAGTGTTCTCACCTTAGAAGACATGAGAAAACTCAC-3'(서열번호: 42).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-011 "QSHR4"는 3-bp 표적 서열 GGA 및 GAA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGA > GAA이다.
TG-ZFD-011 "QSHR4"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 22 : TG-ZFD-012 "QSHR5"
TG-ZFD-012 "QSHR5"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECGRGFRQHSHLVRHKRTH(서열번호: 45)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGTTTGCAGGGAATGTGGGCGTGGCTTTCGCCAGCATTCACACCTGGTCAGACACAAGAGGACACAT-3'(서열번호: 44).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-012 "QSHR5"는 3-bp 표적 서열 GGA, AGA, GAA 및 CGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGA > AGA > GAA > CGA이다.
TG-ZFD-012 "QSHR5"는 예를 들면 GGA, AGA, GAA 또는 CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 23 : TG-ZFD-013 "QSNR1"
TG-ZFD-013 "QSNR1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FECKDCGKAFIQKSNLIRHQRTH(서열번호: 47)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'- TTTGAGTGTAAAGATTGCGGGAAAGCTTTCATTCAGAAGTCAAACCTCATCAGACACCAGAGAACTCAC-3'(서열번호: 46).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-013 "QSNR1"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-013 "QSNR1"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하 위한 모듈로 이용될 수 있다.
실시예 24 : TG-ZFD-014 "QSNR2"
TG-ZFD-014 "QSNR2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECRRGFSQKSNLIRHQRTH(서열번호: 49)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGTCTGCAGGGAGTGTAGGCGAGGTTTTAGCCAGAAGTCAAATCTCATCAGACACCAGAGGACGCAC-3'(서열번호: 48).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-014 "QSNR2"는 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-014 "QSNR2"는 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 25 : TG-ZFD-015 "QSNV1"
TG-ZFD-015 "QSNV1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNTCRKTFSQKSNLIVHQRTH(서열번호: 51)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAATGTAACACATGCAGGAAAACCTTCTCTCAAAAGTCAAATCTCATTGTACATCAGAGAACACAC-3'(서열번호: 50).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-015 "QSNV1"은 3-bp 표적 서열 AAA 및 CAA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 AAA > CAA이다.
TG-ZFD-015 "QSNV1"은 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 26 : TG-ZFD-016 "QSNV2"
TG-ZFD-016 "QSNV2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCSKCGKAFTQSSNLTVHQKIH(서열번호: 53)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGTTTGCTCAAAATGTGGGAAAGCCTTCACTCAGAGTTCAAATCTGACTGTACATCAAAAAATCCAC-3'(서열 번호: 52).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-016 "QSNV2"는 3-bp 표적 서열 AAA 및 CAA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체내 스크리닝 결과에 의해 결정된 바와 같이 AAA > CAA이다.
TG-ZFD-016 "QSNV2"는 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다
실시예 27 : TG-ZFD-017 "QSNV3"
TG-ZFD-017 "QSNV3"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCDECGKNFTQSSNLIVHKRIH(서열번호: 55)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAAATGTGACGAATGTGGAAAAAACTTTACCCAGTCCTCCAACCTTATTGTACATAAGAGAATTCAT-3'(서열번호: 54).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-017 "QSNV3"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-017 "QSNV3"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 28 : TG-ZFD-018 "QSNV4"
TG-ZFD-018 "QSNV4"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDVCGKTFTQKSNLGVHQRTH(서열번호: 57)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다.
5'-TATGAATGTGATGTGTGTGGAAAAACCTTCACGCAAAAGTCAAACCTTGGTGTACATCAGAGAACTCAT-3'(서열번호: 56).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-018 "QSNV4"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-018 "QSNV4"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 29 : TG-ZFD-019 "QSSR1"
TG-ZFD-019 "QSSR1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCPDCGKSFSQSSSLIRHQRTH(서열번호: 59)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAGTGCCCTGATTGTGGGAAGAGTTTTAGTCAGAGTTCCAGCCTCATTCGCCACCAGCGGACACAC-3'(서열번호: 58).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-019 "QSSR1"은 3-bp 표적 서열 GTA 및 GCA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GTA > GCA이다.
TG-ZFD-019 "QSSR1"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 30 : TG-ZFD-020 "QSSR2"
TG-ZFD-020 "QSSR2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECQDCGRAFNQNSSLGRHKRTH(서열번호: 61)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGTCAGGACTGTGGGAGGGCCTTCAACCAGAACTCCTCCCTGGGGCGGCACAAGAGGACACAC-3'(서열번호: 60).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-020 "QSSR2"는 3-bp 표적 서열 GTA에 대한 인식 특이성을 나타낸다.
TG-ZFD-020 "QSSR2"는 예를 들면 GTA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 31 : TG-ZFD-021 "QSTR"
TG-ZFD-021 "QSTR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFNQSSTLTRHKIVH(서열번호: 63)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAAATGTGAAGAATGTGGCAAAGCTTTTAACCAGTCCTCAACCCTTACTAGACATAAGATAGTTCAT-3'(서열번호: 62).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-021 "QSTR"은 3-bp 표적 서열 GTA 및 GCA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GTA > GCA이다.
TG-ZFD-021 "QSTR"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 32 : TG-ZFD-022 "RSHR"
TG-ZFD-022 "RSHR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCMECGKAFNRRSHLTRHQRIH(서열번호: 65)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAGTGCATGGAGTGTGGGAAGGCTTTTAACCGCAGGTCACACCTCACACGGCACCAGCGGATTCAC-3'(서열 번호: 64).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-022 "RSHR"은 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.
TG-ZFD-022 "RSHR"은 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 33 : TG-ZFD-023 "VSSR"
TG-ZFD-023 "VSSR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YTCKQCGKAFSVSSSLRRHETTH(서열번호: 67)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATACATGTAAACAGTGTGGGAAAGCCTTCAGTGTTTCCAGTTCCCTTCGAAGACATGAAACCACTCAC-3'(서열번호: 66).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-023 "VSSR"은 3-bp 표적 서열 GTT, GTG 및 GTA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GTT > GTG > GTA이다.
TG-ZFD-023 "VSSR"은 예를 들면 GTT, GTG 또는 GTA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 34 : TG-ZFD-024 "QAHR"
TG-ZFD-024 "QAHR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCKECGQAFRQRAHLIRHHKLH(서열번호: 103)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAGTGTAAGGAATGTGGGCAGGCCTTTAGACAGCGTGCACATCTTATTCGACATCACAAACTTCAC-3'(서열번호: 102).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-024 "QAHR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.
TG-ZFD-024 "QAHR"은 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 35 : TG-ZFD-025 "QFNR"
TG-ZFD-025 "QFNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCHQCGKAFIQSFNLRRHERTH(서열번호: 105)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATAAGTGTCATCAATGTGTGGGAAAGCCTTTATTCAATCCTTTAACCTTCGAAGACATGAGAGAA
CTCAC-3'(서열번호: 104).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-025 "QFNR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다.
TG-ZFD-025 "QFNR"은 예를 들면 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 36 : TG-ZFD-026 "QGNR"
TG-ZFD-026 "QGNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCNQCGASFTQKGNLLRHIKLH(서열번호: 107)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCCAGTGTAATCAGTGTGGGGCATCTTTTACTCAGAAAGGTAACCTCCTCCGCCACATTAAACTGCAC-3'(서열번호: 106).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-026 "QGNR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-026 "QGNR"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 37 : TG-ZFD-028 "QSHT"
TG-ZFD-028 "QSHT"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFRQSSHLTTHKIIH(서열번호: 111)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAAATGTGAAGAATGTGGCAAAGCCTTTAGGCAGTCCTCACACCTTACTACACATAAGATAATTCAT-3'(서열번호: 110).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-028 "QSHT"는 3-bp 표적 서열 AGA, CGA, TGA 및 GGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 (AGA 및 CGA) > TGA > GGA이다.
TG-ZFD-028 "QSHT"는 예를 들면 AGA, CGA, TGA 또는 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 38 : TG-ZFD-029 "QSHV"
TG-ZFD-029 "QSHV"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDHCGKSFSQSSHLNVHKRTH(서열번호: 113)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'- TATGAGTGTGATCACTGTGGAAAATCCTTTAGCCAGAGCTCTCATCTGAATGTGCACAAAAGAACTCAC-3'(서열번호: 112).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-029 "QSHV"은 3-bp 표적 서열 CGA, AGA 및 TGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 CGA > AGA > TGA이다.
TG-ZFD-029 "QSHV"는 예를 들면 CGA, AGA 또는 TGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 39 : TG-ZFD-030 "QSNI"
TG-ZFD-030 "QSNI"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YMCSECGRGFSQKSNLIIHQRTH(서열번호: 115)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACATGTGCAGTGAGTGTGGGCGAGGCTTCAGCCAGAAGTCAAACCTCATCATACACCAGAGGACACAC-3'(서열번호: 114).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-030 "QSNI"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 AAA 및 CAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-030 "QSNI"는 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 40 : TG-ZFD-031 "QSNR3"
TG-ZFD-031 "QSNR3"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECEKCGKAFNQSSNLTRHKKSH(서열번호: 117)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAATGTGAAAAATGTGGCAAAGCTTTTAACCAGTCCTCAAATCTTACTAGACATAAGAAAAGTCAT-3'(서열번호: 116).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-031 "QSNR3"은 생체내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.
TG-ZFD-031 "QSNR3"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 41 : TG-ZFD-032 "QSSR3"
TG-ZFD-032 "QSSR3"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNECGKFFSQSSSLIRHRRSH(서열번호: 119)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGCAATGAATGTGGGAAGTTTTTTAGCCAGAGCTCCAGCCTCATTAGACATAGGAGAAGTCAC-3'(서열번호: 118).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-032 "QSSR3"은 3-bp 표적 서열 GTA 및 GCA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GTA > GCA이다.
TG-ZFD-032 "QSSR3"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 42 : TG-ZFD-033 "QTHQ"
TG-ZFD-033 "QTHQ"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTQHRRIH(서열번호: 121)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCAGCACCGGAGGATCCAC-3'(서열번호: 120).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-033 "QTHQ"는 3-bp 표적 서열 AGA, TGA 및 CGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 AGA > (TGA 및 CGA)이다.
TG-ZFD-033 "QTHQ"는 예를 들면 AGA, TGA 또는 CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 43 : TG-ZFD-034 "QTHR1"
TG-ZFD-034 "QTHR1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTRHRRIH(서열번호: 123)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCGGCACCGGAGGATCCAC-3'(서열번호: 122).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-034 "QTHR1"은 3-bp 표적 서열 GGA, GAA 및 AGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 방와 같이 GGA > (GAA 및 AGA)이다.
TG-ZFD-034 "QTHR1"은 예를 들면 GGA, GAA 및 AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 44 : TG-ZFD-035 "QTHR2"
TG-ZFD-035 "QTHR2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 HKCLECGKCFSQNTHLTRHQRT(서열번호: 125)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-CACAAGTGCCTTGAATGTGGGAAATGCTTCAGTCAGAACACCCATCTGACTCGCCACCAACGCACCCAC-3'(서열번호: 124).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-035 "QTHR2"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.
TG-ZFD-035 "QTHR2"는 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 45 : TG-ZFD-036 "RDER2"
TG-ZFD-036 "RDER2"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCDWDGCGWKFARSDELTRHYRKH(서열번호: 127)이다. 이는 인간 핵산 서열에 의해 코딩된다:
5'-TACCACTGTGACTGGGACGGCTGTGGATGGAAATTCGCCCGCTCAGATGAACTGACCAGGCACTACCGTAAACAC- 3'(서열번호: 126).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-036 "RDER2"는 3-bp 표적 서열 GCG 및 GTG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GCG > GTG이다.
TG-ZFD-036 "RDER2"는 예를 들면 GCG 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 46 : TG-ZFD-037 "RDER3"
TG-ZFD-037 "RDER3"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YRCSWEGCEWRFARSDELTRHFRKH(서열번호: 129)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAGATGCTCATGGGAAGGGTGTGAGTGGCGTTTTGCAAGAAGTGATGAGTTAACCAGGCACTTCCGAAAGCAC-3'(서열번호: 128).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-037 "RDER3"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GCG 및 GTG에 대한 인식 특이성을 나타낸다.
TG-ZFD-037 "RDER3"은 예를 들면 GCG 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결 합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 47 : TG-ZFD-038 "RDER4"
TG-ZFD-038 "RDER4"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FSCSWKGCERRFARSDELSRHRRTH(서열번호: 131)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCAGCTGTAGCTGGAAAGGTTGTGAAAGGAGGTTTGCCCGTTCTGATGAACTGTCCAGACACAGGCGAACCCAC-3'(서열번호: 130).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-038 "RDER4"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GCG 및 GTG에 대한 인식 특이성을 나타낸다.
TG-ZFD-038 "RDER4"는 예를 들면 GCG 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 48 : TG-ZFD-039 "RDER5"
TG-ZFD-039 "RDER5"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACSWQDCNKKFARSDELARHYRTH(서열번호: 133)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCGCCTGCAGCTGGCAGGACTGCAACAAGAAGTTCGCGCGCTCCGACGAGCTGGCGCGGCACTAC
CGCACACAC-3'(서열번호: 132).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-039 "RDER5"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GCG에 대한 인식 특이성을 나타낸다.
TG-ZFD-039 "RDER5"는 예를 들면 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 49 : TG-ZFD-040 "RDER6"
TG-ZFD-040 "RDER6"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCNWDGCGWKFARSDELTRHYRKH(서열번호: 135)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACCACTGCAACTGGGACGGCTGCGGCTGGAAGTTTGCGCGCTCAGACGAGCTCACGCGCCACTACCGAAAGCAC-3'(서열번호: 134).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-040 "RDER6"은 3-bp 표적 서열 GCG 및 GTG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GCG > GTG이다.
TG-ZFD-040 "RDER6"은 예를 들면 GCG 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결 합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 50 : TG-ZFD-041 "RDHR1"
TG-ZFD-041 "RDHR1"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FLCQYCAQRFGRKDHLTRHMKKSH(서열번호: 137)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCCTCTGTCAGTATTGTGCACAGAGATTTGGGCGAAAGGATCACCTGACTCGACATATGAAGAAGAGTCAC-3'(서열번호: 136).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-041 "RDHR1"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAG 및 GGG에 대한 인식 특이성을 나타낸다.
TG-ZFD-041 "RDHR1"은 예를 들면 GAG 또는 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 51 : TG-ZFD-043 "RDHT"
TG-ZFD-043 "RDHT"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCKTCQRKFSRSDHLKTHTRTH(서열번호: 141)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCCAGTGTAAAACTTGTCAGCGAAAGTTCTCCCGGTCCGACCACCTGAAGACCCACACCAGGACTCAT-3'(서열번호: 140).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-043 "RDHT"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 TGG, AGG, CGG 및 GGG에 대한 인식 특이성을 나타낸다.
TG-ZFD-043 "RDHT"는 예를 들면 TGG, AGG, CGG 또는 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 52 : TG-ZFD-044 "RDKI"
TG-ZFD-044 "RDKI"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACEVCGVRFTRNDKLKIHMRKH(서열번호: 143)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTTGCCTGCGAGGTCTGCGGTGTTCGATTCACCAGGAACGACAAGCTGAAGATCCACATGCGGAAGCAC-3'(서열번호: 142).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-044 "RDKI"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.
TG-ZFD-044 "RDKI"는 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 53 : TG-ZFD-045 "RDKR"
TG-ZFD-045 "RDKR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCDVEGCTWKFARSDKLNRHKKRH (서열번호: 145)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATAAGCTCAACAGACACAAGAAAAGGCAC-3'(서열번호: 144).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-045 "RDKR"은 3-bp 표적 서열 GGG 및 AGG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGG > AGG이다.
TG-ZFD-045 "RDKR"은 예를 들면 GGG 또는 AGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 54 : TG-ZFD-046 "RSNR"
TG-ZFD-046 "RSNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되 었다. 그 아미노산 서열은 YICRKCGRGFSRKSNLIRHQRTH (서열번호: 147)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATATTTGCAGAAAGTGTGGACGGGGCTTTAGTCGGAAGTCCAACCTTATCAGACATCAGAGGACACAC-3'(서열번호: 146).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-046 "RSNR"은 3-bp 표적 서열 GAG, GTG에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GAG > GTG이다.
TG-ZFD-046 "RSNR"은 예를 들면 GAG 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 55 : TG-ZFD-047 "RTNR"
TG-ZFD-047 "RTNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YLCSECDKCFSRSTNLIRHRRTH (서열번호: 149)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATCTATGTAGTGAGTGTGACAAATGCTTCAGTAGAAGTACAAACCTCATAAGGCATCGAAGAACTCAC-3'(서열번호: 148).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-047 "RTNR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다.
TG-ZFD-047 "RTNR"은 예를 들면 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 56 : TG-ZFD-048 "HSSR"
TG-ZFD-048 "HSSR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FKCPVCGKAFRHSSSLVRHQRTH (서열번호: 173)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TTCAAGTGCCCAGTGTGCGGCAAGGCCTTCCGGCATAGCTCCTCGCTGGTGCGGCACCAGCGCACGCAC-3' (서열번호: 174).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-048 "HSSR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GTT에 대한 인식 특이성을 나타낸다.
TG-ZFD-048 "HSSR"은 예를 들면 GTT 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 57 : TG-ZFD-049 "ISNR"
TG-ZFD-049 "ISNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YRCKYCDRSFSISSNLQRHVRNIH (서열번호: 175)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAGGTGTAAGTACTGCGACCGCTCCTTCAGCATCTCTTCGAACCTCCAGCGGCACGTCCGGAACATCCAC -3' (서열번호: 176).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-049 "ISNR"은 3-bp 표적 서열 GAA, GAT 및 GAC에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GAA > GAT > GAC 이다.
TG-ZFD-049 "ISNR"은 예를 들면 GAA, GAT 또는 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 58 : TG-ZFD-050 "KSNR"
TG-ZFD-050 "KSNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YGCHLCGKAFSKSSNLRRHEMIH (서열번호: 177)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TATGGATGTCATCTATGTGGGAAAGCCTTCAGTAAAAGTTCTAACCTTAGACGACATGAGATGATTCAC -3' (서열번호: 178).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-050 "KSNR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다.
TG-ZFD-050 "KSNR"은 예를 들면 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 59 : TG-ZFD-051 "QSNK"
TG-ZFD-051 "QSNK"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFTQSSNLTKHKKIH (서열번호: 179)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAAGTGTGAAGAATGTGGCAAAGCTTTTACCCAATCCTCAAACCTTACTAAACATAAGAAAATTCAT -3' (서열번호: 180).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-051 "QSNK"는 3-bp 표적 서열 AAA, GAA 및 TAA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체내 스크리닝 결과에 의해 결정된 바와 같이 GAA > TAA > AAA 이다.
TG-ZFD-051 "QSNK"는 예를 들면 AAA, GAA, TAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조 위한 모듈로 이용될 수 있다.
실시예 60 : TG-ZFD-052 "QSNT"
TG-ZFD-052 "QSNT"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECVQCGKGFTQSSNLITHQRVH (서열번호: 181)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACGAGTGTGTGCAGTGTGGGAAAGGTTTCACCCAGAGCTCCAACCTCATCACACATCAAAGAGTTCAC -3' (서열번호: 182).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-052 "QSNT"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다. 그의 인식 특이성은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 AAA이다.
TG-ZFD-052 "QSNT"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 61 : TG-ZFD-053 "VSNV"
TG-ZFD-053 "VSNV"는 인간 게놈 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDHCGKAFSVSSNLNVHRRIH (서열번호: 183)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'- TATGAATGCGATCACTGTGGGAAAGCCTTCAGCGTCAGCTCCAACCTGAACGTGCACAGAAGGATCCAC -3' (서열번호: 184).
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-053 "VSNV"는 3-bp 표적 서열 AAT, CAT 및 TAT에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바왁 같이 AAT > CAT > TAT 이다.
TG-ZFD-053 "VSNV"는 예를 들면 AAT, CAT 또는 TAT 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 62 : TG-ZFD-054 "DSCR"
TG-ZFD-054 "DSCR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YTCSDCGKAFRDKSCLNRHRRTH (서열번호: 185)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACACATGCAGTGACTGTGGGAAAGCTTTCAGAGATAAATCATGTCTCAACAGACATCGGAGAACTCAT -3' (서열번호: 186)
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-054 "DSCR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GCC에 대한 인식 특이성을 나타낸다.
TG-ZFD-054 "DSCR"은 예를 들면 GCC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 63 : TG-ZFD-055 "ISNV"
TG-ZFD-055 "ISNV"는 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDHCGKAFSIGSNLNVHRRIH (서열번호: 187)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACGAATGTGATCACTGTGGGAAGGCCTTCAGCATAGGCTCCAACCTGAATGTGCACAGGCGGATCCAT -3' (서열번호: 188)
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-055 "ISNV"는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 AAT에 대한 인식 특이성을 나타낸다.
TG-ZFD-055 "ISNV"는 예를 들면 AAT 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 64 : TG-ZFD-056 "WSNR"
TG-ZFD-056 "WSNR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YRCEECGKAFRWPSNLTRHKRIH (서열번호: 189)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACAGATGTGAGGAATGTGGCAAAGCCTTTAGGTGGCCCTCAAACCTTACTAGACATAAGAGAATTCAC-3' (서열번호: 190)
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-056 "WSNR"은 3-bp 표적 서열 GGT 및 GGA에 대한 인식 특이성을 나타낸다. 이의 결합 부위 선호도는 생체 내 스크리닝 결과에 의해 결정된 바와 같이 GGT > GGA 이다.
TG-ZFD-056 "WSNR"은 예를 들면 GGT 및 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
실시예 65 : TG-ZFD-057 "DSAR"
TG-ZFD-057 "DSAR"은 인간 게놈 서열로부터 생체 내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FMCTWSYCGKRFTDRSALARHKRTH (서열번호: 191)이다. 이는 하기 인간 핵산 서열에 의해 코딩된다:
5'-TACTCCTGTGGCATTTGTGGCAAATCCTTCTCTGACTCCAGTGCCAAAAGGAGACACTGCATTCTACAC -3' (서열번호: 192)
Zif268의 핑거 1 및 핑거 2와의 폴리펩타이드 융합 시, TG-ZFD-057 "DSAR"은 생체 내 스크리닝 결과에 의해 결정된 바와 같이 3-bp 표적 서열 GTC에 대한 인식 특이성을 나타낸다.
TG-ZFD-057 "DSAR"은 예를 들면 GTC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크 핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 제조하기 위한 모듈로 이용될 수 있다.
이상에 언급한 징크 핑거 도메인과 그들의 특이성을 하기 표에 요약하였다.
결합 부위 ZFD 명칭 (서열번호)
AAA QSNI(115), QSNV1(51), QSNV2(53), QSNV3(55), QSNV4(57)
ACA QSTV(31)
AGA QSHR1(37), QSHR5(45), QSHT(111), QSHV(113), QTHQ(121),
QTHR1(123)
AGG RDHT(141), RDKR(145)
CAA QSNI(51), QSNV1(51), QSNV2(53)
CGA QTHQ(121), QSHR5(45), QSHT(111), QSHV(113)
CGG RDHT(141)
GAA CSNR1(23), CSNR2(35), QGNR(107), QSHR1(37), QSHR3(41),
QSHR4(43), QSHR5(45), QSNR1(47), QSNR2(49), QSNR3(117),
QTHR1(123)
GAC CSNR1(23), CSNR2(35), HSNK(25), SSNR(27)
GAG CSNR1(23), CSNR2(35), RDER1(29), RDHR1(137), RSNR(147),
RTNR(149), SSNR(27), QFNR(105),
GCA QSSR1(59), QSSR3(119), QSTR(63)
GCG RDER1(29), RDER2(127), REDR3(129), RDER4(131), RDER5(133),
RDER6(135), VSTR(33)
GCT VSTR(33)
GGA QAHR(103), QSHR1(37), QSHR2(39), QSHR3(41), QSHR4(43),
QSHR5(45), QSHT(111), QTHR1(123), QTHR2(125)
GGG RDKI(143), RDHR1(137), RDHT(141), RDKR(143), RSHR(65),
GTA QSSR1(59), QSSR2(61), QSSR3(119), QSTR(63), VSSR(67)
GTG RSNR(147), RDER1(29), RDER2(127), RDER3(129), RDER4(131),
RDER6(135), VSSR(67)
GTT VSSR(67)
TGA QSHT(111), QSHV(113), QTHQ(121)
TGG RDHT(141)



결합 부위 ZFD 명칭 (서열번호)
AAA QSNK(179), QSNT(181)
AAT VSNV(183)
CAT VSNV(183)
GAA ISNR(175), QSNK(179)
GAC ISNR(175)
GAG KSNR(177)
GAT ISNR(175)
GTT HSSR(173)
TAA QSNK(179)
TAT VSNV(183)

결합 부위 ZFD 명칭 (서열번호)
AAT ISNV (187)
GCC DSCR (185)
GGT WSNR (189)
GGA WSNR (189)
GTC DSAR (191)
Figure 112004006358864-pct00002

ZFD 명칭 결합 부위 폴리펩타이드 서열번호 핵산 서열번호**
HSSR GTT 173 174
ISNR GAA>GAT>GAC 175 176
KSNR GAG 177 178
QSNK GAA>TAA>AAA 179 180
QSNT AAA 181 182
VSNV AAT>CAT>TAT 183 184
**표지한 핵산 서열번호는 징크 핑거 도메인을 코딩하는 핵산을 지칭한다.

ZFD 명칭 결합 부위 폴리펩타이드 서열번호 핵산 서열번호**
DSCR GCC 185 186
ISNV AAT 187 188
WSNR GGT>GGA 189 190
DSAR GTC 191 192
**표지한 핵산 서열번호는 징크 핑거 도메인을 코딩하는 핵산을 지칭한다.

실시예 66 : 개별 3-핑거 단백질의 제조
포유류세포에서 키메라 징크 핑거 단백질을 발현 시키기 위해서 벡터 P3를 사용하였다. P3는 pcDNA3 벡터(Invitrogen, San Diego CA)의 변형을 통해서 만들었다. 연결이 가능한 돌출 말단(overhang)을 가진 합성 올리고뉴클레오티드 이중가닥을 HindIII 및 XhoI으로 자른 pcDNA3에 연결시켰다. 이 이중가닥은 헤마글루티닌(HA) 태그와 핵 위치 시그날을 암호화하는 핵산을 포함한다. 또한 상기 이중가닥은 BamHI, EcoRI, NotI 및 BglII 절단 부위 및, 정지 코돈을 포함한다(도 11A). 더욱이, 상기에서 생성된 벡터를 XmaI으로 처리하고, 절단 부위의 돌출말단을 메운 후, 양 말단을 재연결함으로써, 이 벡터의 SV40 복제개시부위의 XmaI 절단 부위를 제거하였다.
세 개의 특정 징크 핑거 도메인을 포함하는 징크 핑거 단백질을 제조하기 위해서, 제1 징크 핑거를 코드하는 핵산을 P3 벡터에 연결하였다. 제2 및 제3 징크 핑거 도메인을 코딩하는 핵산을 아래와 같이 다이나비드(Dynabeads™)와 MPC-S(Dyna1)를 사용하여 함께 연결시켰다. 제2 및 제3 징크 핑거 도메인을 코딩하는 핵산을 XmaI 절단부위를 가지고 있는 전방향 프라이머(forward primer) 및 AgeI과 NotI 절단부위를 가지는 역방향 프라이머(reverse primer)를 이용하여 합성하였다. 제2 징크 핑거 도메인의 전방향 프라이머는 바이오틴으로 표지되었다. 제2 징크 핑거 도메인을 코딩하는 핵산을 AgeI으로 절단한 후, 제3 징크 핑거 도메인을 코딩하는 핵산을 XmaI으로 절단한 것과 연결하였다. 상온에서 한 시간동안 연결시킨 후, 반응 시료를 다이나비드 M-280 스트렙타비딘(Dynal)에 상온에서 15분간 결합시켰다. 비드(bead)를 TE 완충액(10 mM Tris HCl 0.1 mM EDTA, pH 8.0)로 3회 세척하였다. 비드에 붙어 있는 연결 시료를 37℃ 에서 세시간 동안 XmaI 및 NotI으로 절단시켰다. XmaI 및 NotI 절단에 의해 용출되는 핵산을 PCR 정제 키트(Qiagen)를 사용하여 정제하고, 제1 징크 핑거를 코딩하는 핵산을 포함하는 P3 벡터와 연결시켰다. 이 산물을 대장균에 형질전환시킨 다음, P3 벡터 내에 정확한 크기의 삽입체를 포함하는 클론을 동정하였다. 결과적으로 만들어진 3-핑거 ZFP를 코딩하는 핵산을 DNA서열 확인에 의해 확인하였다.
실시예 67 : 3-핑거 단백질 라이브러리의 제조
도 11B는 다양한 3-핑거 라이브러리를 제조하는 한 방법을 도시한다. 우선, P3 벡터에 각각의 징크 핑거 도메인을 코딩하는 핵산을 클로닝하여 "단일 핑거" 벡터를 만들었다. 동량의 각 "단일 핑거" 벡터를 혼합하여 풀(pool)을 만들었다. 이 풀을 두 개로 나누어 AgeI 및 XhoI과, XmaI 및 XhoI의 두 세트의 효소로 각각 절단하였다. 30분간의 포스파타제(phosphatase)처리 후에, AgeI 및 XhoI으로 절단한 풀의 절단된 벡터 핵산을, XmaI 및 XhoI 절단에 의해 벡터로부터 나온 핵산 단편과 연결시켰다. 이 단편들은 각각 하나의 징크 핑거 도메인을 코딩한다. 절단된 벡터 핵산을 핵산 단편에 연결시킴으로써 두 개의 징크 핑거 도메인을 코딩하는 벡터를 제조한다. 이 연결 산물을 대장균에 형질전환 시켜, 약 1.4 x 104개의 형질전환체를 얻을 수 있었으며, 이들은 2-핑거 라이브러리를 이루게 된다. 40개의 콜로니들에 대한 콜로니 PCR 분석에 의해 상기 2-핑거 라이브러리의 삽입체 크기를 확인하였다. 라이브러리의 95%에 정확한 크기의 삽입체가 존재하였다.
다음, 이 2-핑거 라이브러리를 AgeI-XhoI으로 절단하였다. 두 개의 징크 핑거 도메인을 코딩하는 핵산 서열을 가지고 있는 절단된 벡터를 XmaI 및 XhoI으로 절단하여 제조된 1-핑거 단편의 풀에 연결시켰다. 이렇게 연결된 산물을 대장균에 형질전환시켜, 약 2.4 x 105 의 독립적인 형질전환체를 얻었다. 삽입체 영역의 확인 결과 라이브러리 구성원의 대부분이 정확하게 제조되었음을, 즉, 각각이 세 개의 징크 핑거 도메인을 코딩함을 확인하였다.
실시예 68 : 3-핑거 단백질의 생체내 분석법
김 및 파보(Kim and Pabo (1997) J Biol Chem 272:29795-29800)는 Zif268 단백질이 표적 유전자의 전사 개시 부위 근처에 결합시, VP16으로 활성화된 표적 유전자의 전사를 효과적으로 억제함을 보여주었다. 이러한 결합 징크 핑거 단백질이 RNA 중합효소 II 복합체와 같은 기본적 전사 기구의 프로모터에 대한 결합 또는 TFIID의 전사 개시 부위 또는 TATA 박스에 대한 결합을 방해하는 것으로 추정되었다.
유사한 생체내 억제 분석법이 새로운 3-핑거 단백질이 생체 내에서 기능하는지를 확인하기 위해 사용되었다. 이 분석법에서는 전술한 김 및 파보의 구조물에서 Zif268 부위의 위치에 필적하는 위치에 표적 부위가 존재하는 루시퍼라제 리포터 구조물을 사용하였다.
이 루시퍼라제 리포터 플라스미드는 pGL3-TATA/Inr (Kim and Pabo, 상기 문헌 참조)의 변형벡터인 pΔS-modi로부터 제조하였다. 이 리포터는 리포터 단백질로 개똥벌레 루시퍼라제를 사용하였다. TATA 박스 상류의 SacI 부위는 pΔS-modi에서 제거하였다. 새로운 SacI 부위를 전사 개시 부위 다음에 삽입하였다. 각 ZFP가 결합하는 특이적 9 염기쌍 결합 부위를 포함하는 올리고머를 SacI 및 HindIII로 절단한 pΔS-modi의 전사 개시 부위의 12 bp 하류에 위치한 14 bp와 교체하였다. 결과적으로 얻은 리포터 플라스미드를 p1G-ZFP ID (여기서 ZFP ID는 특정 리포터의 결합 위치에 의해 결정된다)라 명명하였다. pΔS-modi 및 p1G의 염기서열이 도 12에 나타나있다.
특정한 3-핑거 단백질의 생체내 활성을 아래와 같이 측정하였다. HEK 293 세포를 다음의 네 가지 플라스미드로 형질감염(transfection)시켰다: 특정 3-핑거 단백질을 발현시키는 플라스미드 14 ng, 전술한 리포터 플라스미드 14 ng, GAL4-VP16을 발현시키는 플라스미드 70 ng, 및 레닐라(Renillar) 루시퍼라제를 발현시키는 플라스미드 1.4 ng. GAL4-VP16은 리포터에 있는 최소 합성 프로모터의 전사를 활성화 시키므로, 특정 3-핑거 단백질에 의한 억제를 명확하게 검출하고 다른 3-핑거 단백질과 비교할 수 있다. 레닐라 루시퍼라제를 발현시키는 플라스미드는 형질감염 효율의 대조군을 제공하였다.
리포펙타민(Gibco-BRL)이 형질감염을 위해서 사용되었다. 세포들을 96-웰 플레이트의 웰에서 30-50%의 현탁도(confluency)일 때 형질감염시키고, 2일 동안 배양한 후 루시퍼라제 분석을 위해 수확하였다. 루시퍼라제 활성을 듀얼-루시퍼라제 리포터 분석 시스템(Dual-LuciferaseTM Reporter Assay System, Promega)를 사용하여 측정하였다. 관찰된 개똥벌레 루시퍼라제 활성을 관찰된 레닐라 루시퍼라제 활성을 이용하여 보정하였다. 억제 정도 혹은 억제 배수는 징크 핑거 단백질 부재시의 보정된 리포터 발현 값을 징크 핑거 단백질 존재시의 보정된 리포터 발현 값으로 나누어 산출하였다.
징크 핑거 단백질들은 형질감염 분석에서 2배 이상의 전사 억제를 나타내면 높은 엄격성의 컷오프(cut-off)치를 만족하는 것으로, 또는 1.5 내지 2배의 전사 억제를 나타내면 낮은 엄격성의 컷오프치를 만족하는 것으로 분류하였다.
실시예 69 : 징크 핑거 단밸질과 이의 특이적 리포터의 결합 분석결과
생체 내 분석에서 관찰된 활성을 결합 친화도와 연관시키기 위해서 겔 이동 분석을 사용하였다. 겔 이동 분석을 통해 얻은 해리 상수와 상술한 형질감염 분석에서의 전사 억제 수준 사이에 양호한 상호 관련성이 확인되었다. 표 8은 다양한 DNA 부위에 대한 Zif268의 결합 친화도와 상기 형질감염 분석을 이용한 상응하는 생체내 억제 데이터를 보여준다.
일반적으로, 형질감염 분석에서 2배 이상의 억제(즉, 50%의 억제)를 나타내는 징크 핑거 단백질은, 겔 이동 분석을 통해 측정된 바와 같이 1 nM이하의 해리 상수를 보였다.
Figure 112004006358864-pct00003

실시예 70 : 3-핑거 단백질의 특성 확인
두 가지 종류의 3-핑거 키메라 징크 핑거 단백질을 제조하였다. 한 종류는, 천연형 징크 핑거 도메인과 동일한 인간 징크 핑거 도메인들로만 구성된 키메라 단백질을 포함한다. 다른 종류는, 천연형 징크 핑거 도메인과 동일하지 않은 징크 핑거 도메인을 포함하는 키메라 단백질을 포함한다. 후자의 징크 핑거 도메인은 천연형 킹크 핑거 도메인을 시험관 내에서 파아지 디스플레이 선택에 의해 동정하였다. 그러한 도메인들은 자연 진화의 엄격성을 피한 것이다.
구성 징크 핑거 도메인들이 표 9에 기재되어 있다. 총 36개의 징크 핑거 도메인(18개의 인간의 징크 핑거 도메인과 18개의 돌연변이된 징크 핑거 도메인)이 일단의 시험 3-핑거 단백질을 조립하는데 사용되었다. 돌연변이 징크 핑거 도메인은 문헌[Choo and Klug. (1994) Proc. Natl. Acad. Sci. USA 91:11168-11172; Desjarlais and Berg (1994) Proc. Natl. Acad. Sci. USA. 91:11099-11103; Dreier et al. (2001) J Biol Chem. 276:29466-29478; Dreier et al. (2000) J Mol Biol. 303:489-502; Fairall et al. (1993) Nature 366:483-487; Greisman and Pabo. (1997) Science. 275:657-661; Kim and Pabo (1997) J. Biol. Chem. 272:29795-29800; and Segal et al. (1999) Proc. Natl. Acad. Sci. USA 96:2758-2763 등]에 기술되어 있다.
Figure 112004006358864-pct00004

각 36개의 도메인들을 코딩하는 핵산을 EcoRI 및 NotI으로 절단한 P3 벡터에 각각 서브클로닝한 후, 생성된 플라스미드들을 키메라 징크 핑거 단백질의 제조를 위한 출발물질로 사용하였다.
3-핑거 단백질을 코딩하는 핵산은 두가지 상이한 방법으로 제조하였다.
첫번째 방법에서는, 모든 징크 핑거 도메인을 코딩하는 핵산을 실시예 68에 기재된 바와 같이 무작위로 섞은 후, 3-핑거 구조물들을 무작위로 선택하여 이후의 분석을 하였다. 각 구조물의 염기서열을 분석하여 그것이 코딩하는 폴리펩티드 중의 구성 징크 핑거 도메인들을 결정하였다. 이후, 무작위로 분류된 각각의 3-핑거 단백질들에 대해 표적 DNA 서열을 합성하였다. 표적 DNA 서열은 예상되는 선호 염기서열에 기반을 둔다. 표적을 위에 기술한 루시퍼라제 리포터 벡터에 클로닝하였다. 이러한 접근 방식을 "징크 핑거 단백질-우선" 접근방식이라 한다.
두번째 방법에서, 실시예 66에 기재된 바와 같이 키메라 3-핑거 단백질을 코딩하는 핵산을 소정의 표적 DNA 서열에 기초하여 조립하였다. 징크 핑거 도메인의 인식부위와 표적 DNA 서열을 연결해주기 위해 컴퓨터 알고리즘이 사용되었다. 알려진 유전자의 프로모터 서열을 입력 표적 DNA 서열로 사용하였다. 프로모터 서열을 스캐닝하여, 9개 뉴클레오티드 길이이고 사용 가능한 징크 핑거 도메인의 집합으로 이루어진 키메라 3-핑거 단백질이 인식하는 표적인 단편을 동정하였다. 일단 동정되면, 이 키메라 3-핑거 단백질을 코딩하는 핵산을 제조하였다. 이러한 접근 방식을 "표적 부위-우선" 접근방식이라 한다.
염기 접촉 잔기의 2번 위치에 아스파르트산 잔기를 포함하는 징크 핑거 도메인을 특별히 고려하여 분석하였다. 그러한 징크 핑거 도메인으로는 RDER1, RDHT, RDNR, RDKR, RDTN, TDKR 및 NDTR이 있다. DNA에 결합하고 있는 Zif268의 X-선 공-결정 구조(X-ray co-crystal structure)는 2번 위치의 아스파르트산이 징크 핑거가 인식하는 3-bp 하위부위 밖의 한 염기와 수소결합을 형성할 수 있음을 보여준다. 그 결과, 2번 위치에 아스파르트산을 가지는 RDER 핑거는 4-염기 부위인 5'-GCG(G/T)-3'를 선호하였다. 컴퓨터 알고리즘은 이와 같은 부가적인 특이성도 고려하였다. 유사하게, 2번 위치에 아스파르트산을 갖는 핑거를 포함하고 위와 같은 4-bp 부위에 대한 규칙을 위반한 무작위로 조립된 3-핑거 단백질을 본 명세서에 기재된 다른 분석에서 제외하였다.
총 153개의 3-핑거 키메라 단백질을 "징크 핑거 단백질-우선" 접근방식과 "표적 부위-우선" 접근방식으로 제조하였다. 이들 단백질을 실시예 68에 기술된 일시적 공동형질감염 분석법으로 시험하였다. 결과는 아래 표 10에 나타나 있다.
Figure 112004006358864-pct00005
Figure 112004006358864-pct00006
Figure 112004006358864-pct00007
Figure 112004006358864-pct00008

높은 엄격성 기준과 낮은 엄격성 기준과 관련한 결과의 분포를 표 11 및 12에 나타내었다. 표 11에서 보듯이, 153개의 키메라 징크 핑거 단백질 중에서 31개 가 높은 엄격성 기준인 2배 억제(RF 2; RF=억제 배수) 이상을 나타내었다. 표 12에서 보듯이, 전적으로 천연형 인간 징크 핑거 도메인으로 구성된 단백질의 경우, 28.1%(96개 중 27개)가 높은 엄격성 기준을 통과하였으며, 59.4%는 낮은 엄격성 기준(RF 1.5)을 통과하였다. 두 개의 천연형 징크 핑거 도메인과 한 개의 돌연변이 도메인으로 구성된 단백질의 경우, 33.3%가 낮은 엄경성 기준을 통과하였으며, 20%만이 높은 엄격성 기준을 통과하였다.
대조적으로, 하나의 인간 도메인과 두 개의 돌연변이 도메인으로 구성된 17개의 단백질의 경우, 단지 하나의 단백질(5.9%)만이 높은 엄격성 기준을 통과하였으며, 두 개의 단백질(11.8%)만이 낮은 엄격성 기준을 통과하였다. 놀랍게도, 전적으로 돌연변이 도메인만으로 구성된 징크 핑거 단백질 중 어느 것도 억제 분석법에서 높은 엄격성 기준을 만족시키지 못했다. 그러한 단백질 중 단지 하나(4%)만이 낮은 엄격성 기준을 만족시켰다. 이 결과들은 천연형 인간 징크 핑거 도메인들이 새로운 DNA-결합 단백질을 제조하는데 있어서 돌연변이 도메인보다 일반적으로 훨씬 좋은 빌딩 블록임을 보여 준다.
시험 ZFP의 수 (A) 활성 ZFP의 수 (B) B/A (%)
RF > 1.5 RF> 2.0 RF> 1.5 RF>2.0
153 65 31 42.5 20.3
ZFP의 구성 시험 ZFP의 수 (A) 활성 ZFP의 수 (B) B/A (%)
인간 도메인 변이 도메인 RF>1.5 RF>2.0 RF> 1.5 RF>2.0
3 0 96 57 27 59.4 28.1
2 1 15 5 3 33.3 20
1 2 17 2 1 11.8 5.9
0 3 25 1 0 4.0 0

본 발명에 관한 많은 실시 태양을 기술하였다. 그럼에도 불구하고, 본 발명의 지의 및 범위를 벗어나지 않는 다양한 변형이 가능함을 이해할 것이다. 따라서, 다른 실시 태양들도 후술하는 청구항의 범위에 포함된다.
SEQUENCE LISTING <110> ToolGen, Inc. <120> ZINC FINGER DOMAIN LIBRARIES <130> A20952/TGI <150> US60/374,355 <151> 2002-04-22 <150> US60/313,402 <151> 2001-08-17 <160> 305 <170> FastSEQ for Windows Version 4.0 <210> 1 <211> 10 <212> DNA <213> HIV-1 <400> 1 gacatcgagc 10 <210> 2 <211> 10 <212> DNA <213> HIV-1 <400> 2 gcagctgctt 10 <210> 3 <211> 10 <212> DNA <213> HIV-1 <400> 3 gctggggact 10 <210> 4 <211> 10 <212> DNA <213> Homo sapiens <400> 4 agggtggagt 10 <210> 5 <211> 10 <212> DNA <213> Homo sapiens <400> 5 gctgagacat 10 <210> 6 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 6 ccggcgtgggcggctgcgtgggcgtgcgtgggcggactgc gtgggcg 47 <210> 7 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 7 tcgacgcccacgcagtccgcccacgcacgcccacgcagccgcccacg 47 <210> 8 <211> 49 <212> DNA <213> HIV-1 <400> 8 ccggcgagcgggcggtcgagcgggcgtgagcgggcggatcgagcgggcg 49 <210> 9 <211> 49 <212> DNA <213> HIV-1 <400> 9 tcgacgcccgctcgatccgcccgctcacgcccgctcgaccgcccgctcg 49 <210> 10 <211> 50 <212> DNA <213> HIV-1 <400> 10 ccggctgcttgggcggctgcttgggcgtgcttgggcgggctgcttgggcg 50 <210> 11 <211> 50 <212> DNA <213> HIV-1 <400> 11 tcgacgcccaagcagcccgcccaagcacgcccaagcagccgcccaagcag 50 <210> 12 <211> 47 <212> DNA <213> HIV-1 <400> 12 ccggactgggcgggggactgggcgtgactgggcggagggactgggcg 47 <210> 13 <211> 47 <212> DNA <213> HIV-1 <400> 13 tcgacgcccagtccctccgcccagtcacgcccagtcccccgcccagt 47 <210> 14 <211> 47 <212> DNA <213> Homo sapiens <400> 14 ccggagtgggcggtggagtgggcgtgagtgggcggatggagtgggcg 47 <210> 15 <211> 47 <212> DNA <213> Homo sapiens <400> 15 tcgacgcccactccatccgcccactcacgcccactccaccgcccact 47 <210> 16 <211> 48 <212> DNA <213> Homo sapiens <400> 16 ccggacatgggcggagacatgggcgtacatgggcggaagacatgggcg 48 <210> 17 <211> 48 <212> DNA <213> Homo sapiens <400> 17 tcgacgcccatgtcttccgcccatgtacgcccatgtctccgcccatgt 48 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (1)...(81) <400> 18 aaa gag ggt ggg tcg acc ttc cgg act ggc cag gaa cgc cca gat ccg 48 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 cgg gaa ttc aga tct act agt gcg gcc gct aag taagtaagac gtcgagctcg 101 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 ccatcgcggtggaagcttt 120 <210> 19 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 19 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 <210> 20 <211> 303 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (25)...(291) <400> 20 gggtcgacct tccggactgg ccag gaa cgc cca tat gct tgc cct gtc gag 51 Glu Arg Pro Tyr Ala Cys Pro Val Glu 1 5 tcc tgc gat cgc cgc ttt tct cgc tcg gat gag ctt acc cgc cat atc 99 Ser Cys Asp Arg Arg Phe Ser Arg Ser Asp Glu Leu Thr Arg His Ile 10 15 20 25 cgc atc cac act ggc cag aag ccc ttc cag tgt cga atc tgc atg cgt 147 Arg Ile His Thr Gly Gln Lys Pro Phe Gln Cys Arg Ile Cys Met Arg 30 35 40 aac ttc agt cgt agt gac cac ctt acc acc cac atc cgg acc cac acc 195 Asn Phe Ser Arg Ser Asp His Leu Thr Thr His Ile Arg Thr His Thr 45 50 55 ggc gag aag cct ttt gcc tgt gac att tgt ggg agg aag ttt gcc agg 243 Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg 60 65 70 agt gat gaa cgc aag agg cat acc aaa atc cat tta aga cag aag gat 291 Ser Asp Glu Arg Lys Arg His Thr Lys Ile His Leu Arg Gln Lys Asp 75 80 85 ccgcgggaat cc 303 <210> 21 <211> 89 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 21 Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser 1 5 10 15 Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys 20 25 30 Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His 35 40 45 Leu Thr Thr His Ile Arg Thr His Thr Gly Glu Lys Pro Phe Ala Cys 50 55 60 Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Asp Glu Arg Lys Arg His 65 70 75 80 Thr Lys Ile His Leu Arg Gln Lys Asp 85 <210> 22 <211> 69 <212> DNA <213> Homo sapiens <400> 22 tataaatgta agcaatgtgg gaaagctttt ggatgtccct caaaccttcg aaggcatgga 60 aggactcac 69 <210> 23 <211> 23 <212> PRT <213> Homo sapiens <400> 23 Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly Cys Pro Ser Asn Leu 1 5 10 15 Arg Arg His Gly Arg Thr His 20 <210> 24 <211> 69 <212> DNA <213> Homo sapiens <400> 24 tataagtgta aggagtgtgg gaaagccttc aaccacagct ccaacttcaa taaacaccac 60 agaatccac 69 <210> 25 <211> 23 <212> PRT <213> Homo sapiens <400> 25 Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn His Ser Ser Asn Phe 1 5 10 15 Asn Lys His His Arg Ile His 20 <210> 26 <211> 69 <212> DNA <213> Homo sapiens <400> 26 tatgaatgta aggaatgtgg gaaagccttt agtagtggtt caaacttcac tcgacatcag 60 agaattcac 69 <210> 27 <211> 23 <212> PRT <213> Homo sapiens <400> 27 Tyr Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser Ser Gly Ser Asn Phe 1 5 10 15 Thr Arg His Gln Arg Ile His 20 <210> 28 <211> 75 <212> DNA <213> Homo sapiens <400> 28 tatgtatgcg atgtagaggg atgtacgtgg aaatttgccc gctcagatga gctcaacaga 60 cacaagaaaaggcac 75 <210> 29 <211> 25 <212> PRT <213> Homo sapiens <400> 29 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Asn Arg His Lys Lys Arg His 20 25 <210> 30 <211> 69 <212> DNA <213> Homo sapiens <400> 30 tatgagtgta atgaatgcgg gaaagctttt gcccaaaatt caactctcag agtacaccag 60 agaattcac 69 <210> 31 <211> 23 <212> PRT <213> Homo sapiens <400> 31 Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala Gln Asn Ser Thr Leu 1 5 10 15 Arg Val His Gln Arg Ile His 20 <210> 32 <211> 69 <212> DNA <213> Homo sapiens <400> 32 tatgagtgta attactgtgg aaaaaccttt agtgtgagct caacccttat tagacatcag 60 agaatccac 69 <210> 33 <211> 23 <212> PRT <213> Homo sapiens <400> 33 Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser Val Ser Ser Thr Leu 1 5 10 15 Ile Arg His Gln Arg Ile His 20 <210> 34 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 34 tat cag tgc aac att tgc gga aaa tgt ttc tcc tgc aac tcc aac ctc 48 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 cac agg cac cag aga acg cac 69 His Arg His Gln Arg Thr His 20 <210> 35 <211> 23 <212> PRT <213> Homo sapiens <400> 35 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 His Arg His Gln Arg Thr His 20 <210> 36 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 36 tat gca tgt cat cta tgt gga aaa gcc ttc act cag agt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 37 <211> 23 <212> PRT <213> Homo sapiens <400> 37 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 38 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 38 tat aaa tgc ggc cag tgt ggg aag ttc tac tcg cag gtc tcc cac ctc 48 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 acc cgc cac cag aaa atc cac 69 Thr Arg His Gln Lys Ile His 20 <210> 39 <211> 23 <212> PRT <213> Homo sapiens <400> 39 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 Thr Arg His Gln Lys Ile His 20 <210> 40 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 40 tat gca tgt cat cta tgt gga aaa gcc ttc act cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 41 <211> 23 <212> PRT <213> Homo sapiens <400> 41 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 42 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 42 tat gca tgt cat cta tgt gca aaa gcc ttc att cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 43 <211> 23 <212> PRT <213> Homo sapiens <400> 43 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 44 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 44 tat gtt tgc agg gaa tgt ggg cgt ggc ttt cgc cag cat tca cac ctg 48 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 gtc aga cac aag agg aca cat 69 Val Arg His Lys Arg Thr His 20 <210> 45 <211> 23 <212> PRT <213> Homo sapiens <400> 45 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 Val Arg His Lys Arg Thr His 20 <210> 46 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 46 ttt gag tgt aaa gat tgc ggg aaa gct ttc att cag aag tca aac ctc 48 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag aga act cac 69 Ile Arg His Gln Arg Thr His 20 <210> 47 <211> 23 <212> PRT <213> Homo sapiens <400> 47 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 48 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 48 tat gtc tgc agg gag tgt agg cga ggt ttt agc cag aag tca aat ctc 48 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag agg acg cac 69 Ile Arg His Gln Arg Thr His 20 <210> 49 <211> 23 <212> PRT <213> Homo sapiens <400> 49 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 50 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 50 tat gaa tgt aac aca tgc agg aaa acc ttc tct caa aag tca aat ctc 48 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 att gta cat cag aga aca cac 69 Ile Val His Gln Arg Thr His 20 <210> 51 <211> 23 <212> PRT <213> Homo sapiens <400> 51 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Val His Gln Arg Thr His 20 <210> 52 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 52 tat gtt tgc tca aaa tgt ggg aaa gcc ttc act cag agt tca aat ctg 48 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 act gta cat caa aaa atc cac 69 Thr Val His Gln Lys Ile His 20 <210> 53 <211> 23 <212> PRT <213> Homo sapiens <400> 53 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Thr Val His Gln Lys Ile His 20 <210> 54 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 54 tac aaa tgt gac gaa tgt gga aaa aac ttt acc cag tcc tcc aac ctt 48 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 att gta cat aag aga att cat 69 Ile Val His Lys Arg Ile His 20 <210> 55 <211> 23 <212> PRT <213> Homo sapiens <400> 55 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Ile Val His Lys Arg Ile His 20 <210> 56 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 56 tat gaa tgt gat gtg tgt gga aaa acc ttc acg caa aag tca aac ctt 48 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 ggt gta cat cag aga act cat 69 Gly Val His Gln Arg Thr His 20 <210> 57 <211> 23 <212> PRT <213> Homo sapiens <400> 57 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 Gly Val His Gln Arg Thr His 20 <210> 58 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 58 tat aag tgc cct gat tgt ggg aag agt ttt agt cag agt tcc agc ctc 48 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att cgc cac cag cgg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 59 <211> 23 <212> PRT <213> Homo sapiens <400> 59 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 60 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 60 tat gag tgt cag gac tgt ggg agg gcc ttc aac cag aac tcc tcc ctg 48 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 ggg cgg cac aag agg aca cac 69 Gly Arg His Lys Arg Thr His 20 <210> 61 <211> 23 <212> PRT <213> Homo sapiens <400> 61 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 Gly Arg His Lys Arg Thr His 20 <210> 62 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 62 tac aaa tgt gaa gaa tgt ggc aaa gct ttt aac cag tcc tca acc ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 act aga cat aag ata gtt cat 69 Thr Arg His Lys Ile Val His 20 <210> 63 <211> 23 <212> PRT <213> Homo sapiens <400> 63 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 Thr Arg His Lys Ile Val His 20 <210> 64 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 64 tat aag tgc atg gag tgt ggg aag gct ttt aac cgc agg tca cac ctc 48 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 aca cgg cac cag cgg att cac 69 Thr Arg His Gln Arg Ile His 20 <210> 65 <211> 23 <212> PRT <213> Homo sapiens <400> 65 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 Thr Arg His Gln Arg Ile His 20 <210> 66 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 66 tat aca tgt aaa cag tgt ggg aaa gcc ttc agt gtt tcc agt tcc ctt 48 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 cga aga cat gaa acc act cac 69 Arg Arg His Glu Thr Thr His 20 <210> 67 <211> 23 <212> PRT <213> Homo sapiens <400> 67 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 Arg Arg His Glu Thr Thr His 20 <210> 68 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 68 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 69 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 69 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa His Xaa 1 5 10 15 Ser Asn Xaa Xaa Lys His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 70 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 70 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Ser Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 71 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 71 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Thr Xaa Xaa Val His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 72 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 18 <223> Xaa = Ser or Thr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 72 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Val Xaa 1 5 10 15 Ser Xaa Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 73 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 73 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser His Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 74 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 74 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Asn Xaa Xaa Val His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 75 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 18 <223> Xaa = Ser or Thr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 75 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Xaa Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 76 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> coordinating residue <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 76 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 Xaa Xaa Xaa Xaa Xaa His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 77 <211> 24 <212> PRT <213> Artificial Sequence <220> <223> polypeptide motif <221> VARIANT <222> 1 <223> Xaa = Leu, Ile, Val, Met, Phe, Tyr, or Gly <221> VARIANT <222> 2 <223> Xaa = Ala, Ser, Leu, Val, or Arg <221> VARIANT <222> 3-4, 6, 8-11, 17, 19-23 <223> Xaa = any amino acid <221> VARIANT <222> 5 <223> Xaa = Leu, Ile, Val, Met, Ser, Thr, Ala, Cys, or Asn <221> VARIANT <222> 7 <223> Xaa = Leu, Ile, Val, or Met <221> VARIANT <222> 12 <223> Xaa = Leu, Ile, or Val <221> VARIANT <222> 13 <223> Xaa = Arg, Lys, Asn, Gln, Glu, Ser, Thr, Ala, Ile, or Tyr <221> VARIANT <222> 14 <223> Xaa = Leu, Ile, Val, Phe, Ser, Thr, Asn, Lys, or His <221> VARIANT <222> 16 <223> Xaa = Phe, Tyr, Val, or Cys <221> VARIANT <222> 18 <223> Xaa = Asn, Asp, Gln, Thr, Ala, or His <221> VARIANT <222> 24 <223> Xaa = Arg, Lys, Asn, Ala, Ile, Met, or Trp <400> 77 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Trp Xaa 1 5 10 15 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 20 <210> 78 <211> 6 <212> PRT <213> Eukaryote <220> <221> VARIANT <222> 3 <223> Xaa = Glu or Gln <221> VARIANT <222> 4 <223> Xaa = Lys or Arg <221> VARIANT <222> 6 <223> Xaa = Tyr or Phe <400> 78 Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 79 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 79 tgcctgcagc atttgtggga ggaagtttg 29 <210> 80 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 80 atgctgcagg cttaaggctt ctcgccggtg 30 <210> 81 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> 11, 17, 20 <223> n = A, T, G, or C; <400> 81 gcgtccggac ncayacnggn sara 24 <210> 82 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> 10-11, 16, <223> n = A, T, G, or C; <400> 82 cggaattcan nbrwanggyy tytc 24 <210> 83 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif <221> VARIANT <222> 4 <223> Xaa = Glu or Gln <221> VARIANT <222> 5 <223> Xaa = Lys or Arg <221> VARIANT <222> 3 <223> Xaa = Tyr or Phe <400> 83 His Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 84 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 84 gggcccgggg agaagcctta cgcatgtcca gtcgaatctt gtgatagaag attc 54 <210> 85 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> 36, 39, 45, 51, 54, <223> n = A, T, G, or C; <400> 85 ctccccgcgg ttcgccggtg tggattctga tatgsnbsnb aagsnbsnbs nbsnbtgaga 60 atcttctatc acaag 75 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 86 ctagacccgg gaattcgtcg acg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 87 gatccgtcga cgaattcccg ggt 23 <210> 88 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> 6-8, 18-20, 30-32 <223> n = A, T, G, or C <400> 88 ccggtnnntg ggcgtacnnn tgggcgtcan nntgggcg 38 <210> 89 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> 11-13, 23-25, 35-37 <223> n = A, T, G, or C <400> 89 tcgacgccca nnntgacgcc cannngtacg cccannna 38 <210> 90 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 90 ccgggtcgcg cgtgggcggt accg 24 <210> 91 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 91 tcgacggtac cgcccacgcg cgac 24 <210> 92 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 92 ccgggtcgcg agcgggcggt accg 24 <210> 93 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 93 tcgacggtac cgcccgctcg cgac 24 <210> 94 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 94 ccgggtcgtg cttgggcggt accg 24 <210> 95 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 95 tcgacggtac cgcccaagca cgac 24 <210> 96 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 96 ccgggtcggg actgggcggt accg 24 <210> 97 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 97 tcgacggtac cgcccagtcc cgac 24 <210> 98 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 98 ccgggtcggg agtgggcggt accg 24 <210> 99 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 99 tcgacggtac cgcccactcc cgac 24 <210> 100 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 100 ccgggtcgga catgggcggt accg 24 <210> 101 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 101 tcgacggtac cgcccatgtc cgac 24 <210> 102 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 102 tat aag tgt aag gaa tgt ggg cag gcc ttt aga cag cgt gca cat ctt 48 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 att cga cat cac aaa ctt cac 69 Ile Arg His His Lys Leu His 20 <210> 103 <211> 23 <212> PRT <213> Homo sapiens <400> 103 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 Ile Arg His His Lys Leu His 20 <210> 104 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 104 tat aag tgt cat caa tgt ggg aaa gcc ttt att caa tcc ttt aac ctt 48 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 cga aga cat gag aga act cac 69 Arg Arg His Glu Arg Thr His 20 <210> 105 <211> 23 <212> PRT <213> Homo sapiens <400> 105 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 Arg Arg His Glu Arg Thr His 20 <210> 106 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 106 ttc cag tgt aat cag tgt ggg gca tct ttt act cag aaa ggt aac ctc 48 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 ctc cgc cac att aaa ctg cac 69 Leu Arg His Ile Lys Leu His 20 <210> 107 <211> 23 <212> PRT <213> Homo sapiens <400> 107 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 Leu Arg His Ile Lys Leu His 20 <210> 108 <211> 72 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> 22-72 <223> n =A, T, G, or C <400> 108 acccacactg gccagaaacc cnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnnnnnn nn 72 <210> 109 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> 22-66 <223> n = A, T, G, or C <400> 109 gatctgaatt cattcaccgg tnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60 nnnnnn 66 <210> 110 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 110 tac aaa tgt gaa gaa tgt ggc aaa gcc ttt agg cag tcc tca cac ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 act aca cat aag ata att cat 69 Thr Thr His Lys Ile Ile His 20 <210> 111 <211> 23 <212> PRT <213> Homo sapiens <400> 111 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 Thr Thr His Lys Ile Ile His 20 <210> 112 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 112 tat gag tgt gat cac tgt gga aaa tcc ttt agc cag agc tct cat ctg 48 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 aat gtg cac aaa aga act cac 69 Asn Val His Lys Arg Thr His 20 <210> 113 <211> 23 <212> PRT <213> Homo sapiens <400> 113 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 Asn Val His Lys Arg Thr His 20 <210> 114 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 114 tac atg tgc agt gag tgt ggg cga ggc ttc agc cag aag tca aac ctc 48 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc ata cac cag agg aca cac 69 Ile Ile His Gln Arg Thr His 20 <210> 115 <211> 23 <212> PRT <213> Homo sapiens <400> 115 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Ile His Gln Arg Thr His 20 <210> 116 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 116 tat gaa tgt gaa aaa tgt ggc aaa gct ttt aac cag tcc tca aat ctt 48 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 act aga cat aag aaa agt cat 69 Thr Arg His Lys Lys Ser His 20 <210> 117 <211> 23 <212> PRT <213> Homo sapiens <400> 117 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 Thr Arg His Lys Lys Ser His 20 <210> 118 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 118 tat gag tgc aat gaa tgt ggg aag ttt ttt agc cag agc tcc agc ctc 48 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att aga cat agg aga agt cac 69 Ile Arg His Arg Arg Ser His 20 <210> 119 <211> 23 <212> PRT <213> Homo sapiens <400> 119 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Arg Arg Ser His 20 <210> 120 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 120 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cag cac cgg agg atc cac 69 Thr Gln His Arg Arg Ile His 20 <210> 121 <211> 23 <212> PRT <213> Homo sapiens <400> 121 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Gln His Arg Arg Ile His 20 <210> 122 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 122 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cgg cac cgg agg atc cac 69 Thr Arg His Arg Arg Ile His 20 <210> 123 <211> 23 <212> PRT <213> Homo sapiens <400> 123 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Arg His Arg Arg Ile His 20 <210> 124 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 124 cac aag tgc ctt gaa tgt ggg aaa tgc ttc agt cag aac acc cat ctg 48 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 act cgc cac caa cgc acc cac 69 Thr Arg His Gln Arg Thr His 20 <210> 125 <211> 23 <212> PRT <213> Homo sapiens <400> 125 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 Thr Arg His Gln Arg Thr His 20 <210> 126 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 126 tac cac tgt gac tgg gac ggc tgt gga tgg aaa ttc gcc cgc tca gat 48 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg acc agg cac tac cgt aaa cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 127 <211> 25 <212> PRT <213> Homo sapiens <400> 127 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 128 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 128 tac aga tgc tca tgg gaa ggg tgt gag tgg cgt ttt gca aga agt gat 48 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 gag tta acc agg cac ttc cga aag cac 75 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 129 <211> 25 <212> PRT <213> Homo sapiens <400> 129 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 130 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 130 ttc agc tgt agc tgg aaa ggt tgt gaa agg agg ttt gcc cgt tct gat 48 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg tcc aga cac agg cga acc cac 75 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 131 <211> 25 <212> PRT <213> Homo sapiens <400> 131 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 132 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 132 ttc gcc tgc agc tgg cag gac tgc aac aag aag ttc gcg cgc tcc gac 48 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctg gcg cgg cac tac cgc aca cac 75 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 133 <211> 25 <212> PRT <213> Homo sapiens <400> 133 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 134 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 134 tac cac tgc aac tgg gac ggc tgc ggc tgg aag ttt gcg cgc tca gac 48 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctc acg cgc cac tac cga aag cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 135 <211> 25 <212> PRT <213> Homo sapiens <400> 135 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 136 <211> 72 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(72) <400> 136 ttc ctc tgt cag tat tgt gca cag aga ttt ggg cga aag gat cac ctg 48 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 act cga cat atg aag aag agt cac 72 Thr Arg His Met Lys Lys Ser His 20 <210> 137 <211> 24 <212> PRT <213> Homo sapiens <400> 137 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 Thr Arg His Met Lys Lys Ser His 20 <210> 138 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 138 tgtcgaatct gcatgcgtaa cttcagtcgt agtgaccacc ttaccaccca catccggacc 60 cacactggcc agaaaccc 78 <210> 139 <211> 81 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 139 ggtggcggcc gttacttact tagagctcga cgtcttactt acttagcggc cgcactagta 60 gatctgaatt cattcaccgg t 81 <210> 140 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 140 ttc cag tgt aaa act tgt cag cga aag ttc tcc cgg tcc gac cac ctg 48 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 aag acc cac acc agg act cat 69 Lys Thr His Thr Arg Thr His 20 <210> 141 <211> 23 <212> PRT <213> Homo sapiens <400> 141 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 Lys Thr His Thr Arg Thr His 20 <210> 142 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 142 ttt gcc tgc gag gtc tgc ggt gtt cga ttc acc agg aac gac aag ctg 48 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 aag atc cac atg cgg aag cac 69 Lys Ile His Met Arg Lys His 20 <210> 143 <211> 23 <212> PRT <213> Homo sapiens <400> 143 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 Lys Ile His Met Arg Lys His 20 <210> 144 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 144 tat gta tgc gat gta gag gga tgt acg tgg aaa ttt gcc cgc tca gat 48 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 aag ctc aac aga cac aag aaa agg cac 75 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 145 <211> 25 <212> PRT <213> Homo sapiens <400> 145 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 146 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 146 tat att tgc aga aag tgt gga cgg ggc ttt agt cgg aag tcc aac ctt 48 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 atc aga cat cag agg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 147 <211> 23 <212> PRT <213> Homo sapiens <400> 147 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 148 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 148 tat cta tgt agt gag tgt gac aaa tgc ttc agt aga agt aca aac ctc 48 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 ata agg cat cga aga act cac 69 Ile Arg His Arg Arg Thr His 20 <210> 149 <211> 23 <212> PRT <213> Homo sapiens <400> 149 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 Ile Arg His Arg Arg Thr His 20 <210> 150 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 150 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ala His Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 151 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 151 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Phe Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 152 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 152 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser His Xaa Xaa Thr His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 153 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 153 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser His Xaa Xaa Val His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 154 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 154 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Asn Xaa Xaa Ile His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 155 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 155 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 156 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 156 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Thr His Xaa Xaa Gln His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 157 <211> 26 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2-6, 12, 14, 18, 21-26 <223> Xaa = any amino acid <221> VARIANT <222> 11 <223> Xaa = Phe or Tyr <221> VARIANT <222> 17 <223> Xaa = hydrophobic residue <400> 157 Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His 1 5 10 15 Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 158 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 158 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Asp Lys Xaa Xaa Ile His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 159 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 159 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 160 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 160 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Thr Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 161 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 161 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Gly Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 162 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 162 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Asp Glu Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 163 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 163 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Asp His Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 164 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 164 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Asp His Xaa Xaa Thr His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 165 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 165 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Asp Lys Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 166 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27) <223> Xaa = any amino acid <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <400> 166 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa 1 5 10 15 Ser His Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 167 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 167 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa His Xaa 1 5 10 15 Ser Ser Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 168 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8 ,10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 168 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Ile Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 169 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4 -8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 169 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Lys Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 170 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 170 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser Asn Xaa Xaa Lys His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 171 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 171 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa 1 5 10 15 Ser His Xaa Xaa Thr His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 172 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 172 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Val Xaa 1 5 10 15 Ser Asn Xaa Xaa Val His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 173 <211> 23 <212> PRT <213> Homo sapiens <400> 173 Phe Lys Cys Pro Val Cys Gly Lys Ala Phe Arg His Ser Ser Ser Leu 1 5 10 15 Val Arg His Gln Arg Thr His 20 <210> 174 <211> 69 <212> DNA <213> Homo sapiens <400> 174 ttcaagtgcc cagtgtgcgg caaggccttc cggcatagct cctcgctggt gcggcaccag 60 cgcacgcac 69 <210> 175 <211> 24 <212> PRT <213> Homo sapiens <400> 175 Tyr Arg Cys Lys Tyr Cys Asp Arg Ser Phe Ser Ile Ser Ser Asn Leu 1 5 10 15 Gln Arg His Val Arg Asn Ile His 20 <210> 176 <211> 72 <212> DNA <213> Homo sapiens <400> 176 tacaggtgta agtactgcga ccgctccttc agcatctctt cgaacctcca gcggcacgtc 60 cggaacatcc ac 72 <210> 177 <211> 23 <212> PRT <213> Homo sapiens <400> 177 Tyr Gly Cys His Leu Cys Gly Lys Ala Phe Ser Lys Ser Ser Asn Leu 1 5 10 15 Arg Arg His Glu Met Ile His 20 <210> 178 <211> 69 <212> DNA <213> Homo sapiens <400> 178 tatggatgtc atctatgtgg gaaagccttc agtaaaagtt ctaaccttag acgacatgag 60 atgattcac 69 <210> 179 <211> 23 <212> PRT <213> Homo sapiens <400> 179 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Thr Lys His Lys Lys Ile His 20 <210> 180 <211> 69 <212> DNA <213> Homo sapiens <400> 180 tacaagtgtg aagaatgtgg caaagctttt acccaatcct caaaccttac taaacataag 60 aaaattcat 69 <210> 181 <211> 23 <212> PRT <213> Homo sapiens <400> 181 Tyr Glu Cys Val Gln Cys Gly Lys Gly Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Ile Thr His Gln Arg Val His 20 <210> 182 <211> 69 <212> DNA <213> Homo sapiens <400> 182 tacgagtgtg tgcagtgtgg gaaaggtttc acccagagct ccaacctcat cacacatcaa 60 agagttcac 69 <210> 183 <211> 23 <212> PRT <213> Homo sapiens <400> 183 Tyr Glu Cys Asp His Cys Gly Lys Ala Phe Ser Val Ser Ser Asn Leu 1 5 10 15 Asn Val His Arg Arg Ile His 20 <210> 184 <211> 69 <212> DNA <213> Homo sapiens <400> 184 tatgaatgcg atcactgtgg gaaagccttc agcgtcagct ccaacctgaa cgtgcacaga 60 aggatccac 69 <210> 185 <211> 23 <212> PRT <213> Homo sapiens <400> 185 Tyr Thr Cys Ser Asp Cys Gly Lys Ala Phe Arg Asp Lys Ser Cys Leu 1 5 10 15 Asn Arg His Arg Arg Thr His 20 <210> 186 <211> 69 <212> DNA <213> Homo sapiens <400> 186 tacacatgca gtgactgtgg gaaagctttc agagataaat catgtctcaa cagacatcgg 60 agaactcat 69 <210> 187 <211> 23 <212> PRT <213> Homo sapiens <400> 187 Tyr Glu Cys Asp His Cys Gly Lys Ala Phe Ser Ile Gly Ser Asn Leu 1 5 10 15 Asn Val His Arg Arg Ile His 20 <210> 188 <211> 69 <212> DNA <213> Homo sapiens <400> 188 tacgaatgcg atcactgtgg gaaggccttc agcataggct ccaacctgaa tgtgcacagg 60 cggatccat 69 <210> 189 <211> 23 <212> PRT <213> Homo sapiens <400> 189 Tyr Arg Cys Glu Glu Cys Gly Lys Ala Phe Arg Trp Pro Ser Asn Leu 1 5 10 15 Thr Arg His Lys Arg Ile His 20 <210> 190 <211> 69 <212> DNA <213> Homo sapiens <400> 190 tacagatgtg aggaatgtgg caaagccttt aggtggccct caaaccttac tagacataag 60 agaattcac 69 <210> 191 <211> 25 <212> PRT <213> Homo sapiens <400> 191 Phe Met Cys Thr Trp Ser Tyr Cys Gly Lys Arg Phe Thr Asp Arg Ser 1 5 10 15 Ala Leu Ala Arg His Lys Arg Thr His 20 25 <210> 192 <211> 69 <212> DNA <213> Homo sapiens <400> 192 tactcctgtg gcatttgtgg caaatccttc tctgactcca gtgccaaaag gagacactgc 60 attctacac 69 <210> 193 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1,13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 193 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Asp Xaa 1 5 10 15 Ser Cys Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 194 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 194 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Ile Xaa 1 5 10 15 Ser Asn Xaa Xaa Val His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 195 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 195 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Trp Xaa 1 5 10 15 Ser Asn Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 196 <211> 28 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 13 <223> Xaa = Phe or Tyr <221> VARIANT <222> 19 <223> Xaa = hydrophobic residue <221> VARIANT <222> 2, 4-8, 10-12, 14, 16, 20, 23-27 <223> Xaa = any amino acid <400> 196 Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Xaa Xaa Xaa Xaa Asp Xaa 1 5 10 15 Ser Ala Xaa Xaa Arg His Xaa Xaa Xaa Xaa Xaa His 20 25 <210> 197 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 197 gcgtgggcgt 10 <210> 198 <211> 56 <212> PRT <213> Homo sapiens <400> 198 Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser 1 5 10 15 Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys 20 25 30 Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His 35 40 45 Leu Thr Thr His Ile Arg Thr His 50 55 <210> 199 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 199 gagagggagc 10 <210> 200 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 200 tggggggaca 10 <210> 201 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 201 gcggcggggc 10 <210> 202 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 202 gtaggaggat 10 <210> 203 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 203 agggcggggc 10 <210> 204 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 204 gggaaacggg 10 <210> 205 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 205 gtaggagagt 10 <210> 206 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 206 ggaagggctt 10 <210> 207 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 207 gagcaagtag 10 <210> 208 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 208 gaggtgggag 10 <210> 209 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 209 gaggacaatg 10 <210> 210 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 210 ggggcgggat 10 <210> 211 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 211 gagggagaag 10 <210> 212 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 212 gaagagaggt 10 <210> 213 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 213 gagtgagacc 10 <210> 214 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 214 gaggcggaaa 10 <210> 215 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 215 gggaaagaac 10 <210> 216 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 216 gcggaagttc 10 <210> 217 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 217 gagtgggaaa 10 <210> 218 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 218 ggaggggggc 10 <210> 219 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 219 tgggaggatc 10 <210> 220 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 220 gtggggaaaa 10 <210> 221 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 221 gaggttgagg 10 <210> 222 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 222 agagaaggag 10 <210> 223 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 223 tgagatgagc 10 <210> 224 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 224 ggagaggctc 10 <210> 225 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 225 agggctgatt 10 <210> 226 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 226 ggggaggaaa 10 <210> 227 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 227 agaggaaggt 10 <210> 228 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 228 ggagaagtag 10 <210> 229 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 229 ggtggcaggt 10 <210> 230 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 230 gctggagggg 10 <210> 231 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 231 gcggggaggg 10 <210> 232 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 232 aaagtgggga 10 <210> 233 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 233 agaaaaaata 10 <210> 234 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 234 gacaggggag 10 <210> 235 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 235 tgagttggga 10 <210> 236 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 236 gaaggaaaat 10 <210> 237 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 237 ggggctgagg 10 <210> 238 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 238 tgagacggag 10 <210> 239 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 239 gctggaaatt 10 <210> 240 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 240 caagtagaag 10 <210> 241 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 241 gaggcggaaa 10 <210> 242 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 242 gctgcagcgt 10 <210> 243 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 243 gatggggttt 10 <210> 244 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 244 gaagcggagg 10 <210> 245 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 245 gtggcggaag 10 <210> 246 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 246 aaaggaaaag 10 <210> 247 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 247 cgggttaaaa 10 <210> 248 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 248 gtagctggga 10 <210> 249 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 249 ggacaagcgg 10 <210> 250 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 250 aaaagaaaaa 10 <210> 251 <211> 131 <212> DNA <213> Artificial Sequence <220> <223> vector sequence <400> 251 gacccaagct tgccaccatg gtgtacccct acgacgtgcc cgactacgcc gaattgcctc 60 caaaaaagaa gagaaaggta gggatccgaa ttcaagcggc cgcatgagat ctcgagcatg 120 catctagagg g 131 <210> 252 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 252 agagtagaat 10 <210> 253 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 253 aaagtaaaaa 10 <210> 254 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 254 agggagggag 10 <210> 255 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 255 aaaaatgagc 10 <210> 256 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 256 cgggaaagaa 10 <210> 257 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 257 gtagcaagac 10 <210> 258 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 258 aatgtaaaaa 10 <210> 259 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 259 cggggagggg 10 <210> 260 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 260 caaagagact 10 <210> 261 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 261 gaagatgcgt 10 <210> 262 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 262 cgagcatggg 10 <210> 263 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 263 acaacagggg 10 <210> 264 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 264 gttggggggc 10 <210> 265 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 265 agggaggtgt 10 <210> 266 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 266 tgagacgggg 10 <210> 267 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 267 gaagttggaa 10 <210> 268 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 268 agaaaagaaa 10 <210> 269 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 269 gactgacaat 10 <210> 270 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 270 gctgaggatg 10 <210> 271 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 271 ggggagaaat 10 <210> 272 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 272 tgatgagaaa 10 <210> 273 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 273 gcaggagact 10 <210> 274 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 274 tggggagatt 10 <210> 275 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 275 gcggaatgga 10 <210> 276 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 276 gtctggggac 10 <210> 277 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 277 gagggggcgt 10 <210> 278 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 278 gacgctgctt 10 <210> 279 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 279 ggggcaggcg 10 <210> 280 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 280 aaaaaaaaag 10 <210> 281 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 281 ggaagagagg 10 <210> 282 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 282 caagggaaaa 10 <210> 283 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 283 ggtgatgcac 10 <210> 284 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 284 aaggtcgcgg 10 <210> 285 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 285 ggggctggag 10 <210> 286 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 286 gggggtgtac 10 <210> 287 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 287 ggtgatgctc 10 <210> 288 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 288 gtttgagaca 10 <210> 289 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 289 gctaaaaatc 10 <210> 290 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 290 agaggagctt 10 <210> 291 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 291 tgagatgggg 10 <210> 292 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 292 gcttggggct 10 <210> 293 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 293 gttggggcgg 10 <210> 294 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 294 ggagctgctt 10 <210> 295 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 295 gatgcaggac 10 <210> 296 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 296 ggccgggtcg 10 <210> 297 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 297 gatggtggtt 10 <210> 298 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 298 gccggggcgg 10 <210> 299 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 299 gctggggact 10 <210> 300 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 300 gtagctgtaa 10 <210> 301 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 301 gggggcggtt 10 <210> 302 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 302 ggtgctgatt 10 <210> 303 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 303 gcagtaggag 10 <210> 304 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 304 gacgaagggg 10 <210> 305 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> synthetically generated oligonucleotide <400> 305 gacgacgctt 10 1

Claims (43)

  1. 다수의 폴리펩타이드를 포함하는 라이브러리로서, 각각의 폴리펩타이드가 서열번호: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 173, 175, 177, 179, 181, 183, 185, 187, 189 및 191로 나타내어지는 아미노산 서열들로 이루어진 군으로부터 각각 독립적으로 선택된 아미노산 서열로 이루어진 제1 및 제2 징크 핑거 도메인을 포함하고, (1) 상기 제1 및 제2 징크 핑거 도메인들이 (i) 천연형 단백질에는 함께 존재하지 않거나 (ii) 천연형 단백질에 함께 존재하는 경우, 상기 각각의 폴리펩타이드에서의 배열과는 다른 배열로 존재하고, (2) 상기 제1 징크 핑거 도메인이 상기 다수의 폴리펩타이드에서 서로 상이하며, (3) 상기 제2 징크 핑거 도메인이 상기 다수의 폴리펩타이드에서 서로 상이한, 라이브러리.
  2. 제1항에 있어서,
    상기 다수의 폴리펩타이드 중 각각의 폴리펩타이드가 5 nM 이하의 해리 상수(Kd)로 표적 DNA 부위에 결합하는 라이브러리.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    천연형 단백질이 진핵세포의 단백질인 라이브러리.
  7. 제6항에 있어서,
    천연형 단백질이 포유류의 단백질인 라이브러리.
  8. 제7항에 있어서,
    천연형 단백질이 인간 단백질인 라이브러리.
  9. 제1항에 있어서,
    상기 다수의 폴리펩타이드 중 각각의 폴리펩타이드가 고체 지지체에 고정화된 라이 브러리.
  10. 제1항에 있어서,
    상기 다수의 폴리펩타이드 중 각각의 폴리펩타이드가 바이러스 또는 바이러스 입자의 표면에 디스플레이된 라이브러리.
  11. 제1항에 있어서,
    상기 다수의 폴리펩타이드 중 각각의 폴리펩타이드가 제3 징크 핑거 도메인을 추가로 포함하는 라이브러리.
  12. 제11항에 있어서,
    제3 징크 핑거 도메인이 천연형 단백질의 도메인인 라이브러리.
  13. 제11항에 있어서,
    제3 징크 핑거 도메인이 천연형 단백질의 도메인이 아닌 라이브러리.
  14. 제13항에 있어서,
    제3 징크 핑거 도메인이 6개 이하의 아미노산의 삽입, 결실 또는 치환에 의해 천연형 단백질의 도메인과 구별되는 라이브러리.
  15. 제1항에 있어서,
    상기 다수의 폴리펩타이드 중 각각의 펩타이드들이 전사 조절 도메인을 추가로 포함하는 라이브러리.
  16. 제1항에 있어서,
    상기 다수의 폴리펩타이드가 100개 이상의 상이한 폴리펩타이드를 포함하는 라이브러리.
  17. 다수의 폴리뉴클레오타이드를 포함하는 라이브러리로서, 각각의 폴리뉴클레오타이드가 제1항, 제2항, 제6항 내지 제8항 및 제11항 내지 제16항 중 어느 한 항의 라이브러리의 상이한 폴리펩타이드를 코딩하는 라이브러리.
  18. 제17항에 있어서,
    각각의 폴리뉴클레오타이드가 플라스미드 또는 파지미드의 단편인 라이브러리.
  19. 제17항에 있어서,
    각각의 폴리뉴클레오타이드가 세포 내에 존재하는 라이브러리.
  20. 제19항에 있어서,
    세포가 진핵세포인 라이브러리.
  21. 제20항에 있어서,
    세포가 효모 세포인 라이브러리.
  22. 제19항에 있어서,
    세포가 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 이종 리포터 구조물을 포함하는 라이브러리.
  23. 제17항에 있어서,
    각 폴리뉴클레오타이드가 바이러스 또는 바이러스 입자 내에 포장된 라이브러리.
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 제1항의 폴리펩타이드 라이브러리를 제공하는 단계;
    표적 DNA 부위를 상기 라이브러리의 폴리펩타이드와 접촉시키는 단계; 및
    상기 표적 DNA 부위에 특이적으로 결합하는 하나 이상의 폴리펩타이드를 동정하는 단계를 포함하는,
    표적 DNA 부위에 특이적으로 결합하는 인공 징크 핑거 폴리펩타이드의 생성 방법.
  31. 제30항에 있어서,
    라이브러리의 폴리펩타이드가 고체 지지체에 고정화된 방법.
  32. 제30항에 있어서,
    라이브러리의 각 폴리펩타이드가 바이러스 또는 바이러스 입자의 표면에 디스플레이된 방법.
  33. 제17항의 폴리뉴클레오타이드 라이브러리를 제공하는 단계;
    표적 DNA 부위에 작동가능하게 연결된 리포터 유전자를 함유하는 세포를 제공하는 단계;
    상기 세포에서 다수의 폴리뉴클레오타이드를 발현시키는 단계;
    표적 DNA 부위를 인식하는 폴리펩타이드의 부재시의 발현수준과 비교하여 리포터 유전자의 발현수준이 변화된 세포를 동정하는 단계; 및
    다수의 폴리뉴클레오타이드 중 상기 세포에서 발현된 폴리뉴클레오타이드를 동정함으로써, 표적 DNA 부위를 특이적으로 인식하는 폴리펩타이드를 코딩하는 폴리뉴클레오타이드를 동정하는 단계를 포함하는,
    표적 DNA 부위를 특이적으로 인식하는 징크 핑거 폴리펩타이드를 코딩하는 핵산의 동정 방법.
  34. 삭제
  35. 제33항에 있어서,
    표적 부위가 6개 이상의 미리 결정된 뉴클레오타이드를 포함하는 방법.
  36. 제33항에 있어서,
    세포가 효모 세포인 방법.
  37. 제33항에 있어서,
    폴리뉴클레오타이드를 각 세포로 도입하는 단계를 추가로 포함하는 방법.
  38. 제33항에 있어서,
    리포터 유전자를 함유하는 세포와 폴리뉴클레오타이드 라이브러리를 포함하는 세포를 융합시키는 단계를 추가로 포함하는 방법.
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
KR1020047002305A 2001-08-17 2002-08-17 징크 핑거 도메인 라이브러리 KR100961722B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US31340201P 2001-08-17 2001-08-17
US60/313,402 2001-08-17
US37435502P 2002-04-22 2002-04-22
US60/374,355 2002-04-22

Publications (2)

Publication Number Publication Date
KR20040030133A KR20040030133A (ko) 2004-04-08
KR100961722B1 true KR100961722B1 (ko) 2010-06-10

Family

ID=26978841

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047002305A KR100961722B1 (ko) 2001-08-17 2002-08-17 징크 핑거 도메인 라이브러리

Country Status (9)

Country Link
US (2) US20030165997A1 (ko)
EP (1) EP1417344B1 (ko)
JP (1) JP4128955B2 (ko)
KR (1) KR100961722B1 (ko)
CN (1) CN1289522C (ko)
AT (1) ATE513040T1 (ko)
AU (1) AU2002324352B2 (ko)
CA (1) CA2457095A1 (ko)
WO (1) WO2003016571A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002365796A1 (en) * 2001-12-07 2003-06-17 Toolgen, Inc. Phenotypic screen of chimeric proteins
US20050032186A1 (en) * 2002-12-09 2005-02-10 Kim Jin-Soo Regulatory zinc finger proteins
WO2004108883A2 (en) * 2003-06-10 2004-12-16 Toolgen, Inc. Transducible dna-binding proteins
EP1720911A1 (en) * 2004-01-20 2006-11-15 Man-Wook Hur Fusion protein comprising tatdmt polypeptide
US8618054B2 (en) * 2004-05-05 2013-12-31 Valorisation-Rechereche Société en Commandite Interleukin-1 receptor antagonists, compositions, and methods of treatment
KR100812110B1 (ko) * 2006-10-24 2008-03-12 한국과학기술원 징크 핑거 단백질과 원핵 생물의 전사 인자를 포함하는인공 전사 인자의 제조 및 이의 이용
US11235026B2 (en) 2007-09-27 2022-02-01 Sangamo Therapeutics, Inc. Methods and compositions for modulating PD1
WO2009042163A2 (en) 2007-09-27 2009-04-02 Sangamo Biosciences, Inc. Rapid in vivo identification of biologically active nucleases
US8563314B2 (en) 2007-09-27 2013-10-22 Sangamo Biosciences, Inc. Methods and compositions for modulating PD1
KR101896518B1 (ko) * 2011-03-30 2018-10-24 주식회사 툴젠 Cmah 유전자를 표적으로 하는 징크 핑거 뉴클레아제 및 이의 용도
WO2018071672A1 (en) * 2016-10-12 2018-04-19 The Regents Of The University Of Colorado Novel engineered and chimeric nucleases
CN107012174A (zh) * 2017-05-04 2017-08-04 昆明理工大学 CRISPR/Cas9技术在获得家蚕锌指蛋白基因突变体中的应用
US10011849B1 (en) 2017-06-23 2018-07-03 Inscripta, Inc. Nucleic acid-guided nucleases
US9982279B1 (en) 2017-06-23 2018-05-29 Inscripta, Inc. Nucleic acid-guided nucleases
GB201710620D0 (en) 2017-07-03 2017-08-16 Glaxosmithkline Intellectual Property Ltd Targeted protein degradation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US567973A (en) * 1896-09-22 Island
US5763209A (en) * 1988-09-26 1998-06-09 Arch Development Corporation Methods and materials relating to the functional domains of DNA binding proteins
US6107059A (en) * 1992-04-29 2000-08-22 Affymax Technologies N.V. Peptide library and screening method
JP3537141B2 (ja) * 1992-10-30 2004-06-14 ザ ゼネラル ホスピタル コーポレーション 新種蛋白質分離のための相互作用を用いる補捉システム
US6140466A (en) * 1994-01-18 2000-10-31 The Scripps Research Institute Zinc finger protein derivatives and methods therefor
US6242568B1 (en) * 1994-01-18 2001-06-05 The Scripps Research Institute Zinc finger protein derivatives and methods therefor
US5882941A (en) * 1994-05-04 1999-03-16 Massachusette Institute Of Technology Programmable genotoxic agents and uses therefor
ATE407205T1 (de) * 1994-08-20 2008-09-15 Gendaq Ltd Verbesserung in bezug auf bindungsproteine bei der erkennung von dna
US6326166B1 (en) * 1995-12-29 2001-12-04 Massachusetts Institute Of Technology Chimeric DNA-binding proteins
US5789538A (en) * 1995-02-03 1998-08-04 Massachusetts Institute Of Technology Zinc finger proteins with high affinity new DNA binding specificities
US5869250A (en) * 1996-12-02 1999-02-09 The University Of North Carolina At Chapel Hill Method for the identification of peptides that recognize specific DNA sequences
GB9710809D0 (en) * 1997-05-23 1997-07-23 Medical Res Council Nucleic acid binding proteins
US6410248B1 (en) * 1998-01-30 2002-06-25 Massachusetts Institute Of Technology General strategy for selecting high-affinity zinc finger proteins for diverse DNA target sites
EP1060261B1 (en) * 1998-03-02 2010-05-05 Massachusetts Institute of Technology Poly zinc finger proteins with improved linkers
WO2000015777A1 (en) * 1998-09-14 2000-03-23 Aston University Gene and protein libraries and methods relating thereto
US6503717B2 (en) * 1999-12-06 2003-01-07 Sangamo Biosciences, Inc. Methods of using randomized libraries of zinc finger proteins for the identification of gene function
EP1230355A2 (en) * 1999-10-01 2002-08-14 Sangamo Biosciences Inc. Dna library and its use in methods of selecting and designing polypeptides
ATE355368T1 (de) * 2000-01-24 2006-03-15 Gendaq Ltd Nucleinsäure bindende polypeptide gekennzeichnet durch flexible linker verbundene nucleinsäuredomäne
US20030050231A1 (en) * 2000-01-31 2003-03-13 Rosen Craig A. Nucleic acids, proteins, and antibodies
US20020061512A1 (en) * 2000-02-18 2002-05-23 Kim Jin-Soo Zinc finger domains and methods of identifying same
AU2002365796A1 (en) * 2001-12-07 2003-06-17 Toolgen, Inc. Phenotypic screen of chimeric proteins
US20040259258A1 (en) * 2001-12-07 2004-12-23 Kim Jin-Soo Regulation of prokaryotic gene expression with zinc finger proteins

Also Published As

Publication number Publication date
AU2002324352B2 (en) 2006-06-15
US20030165997A1 (en) 2003-09-04
EP1417344A1 (en) 2004-05-12
CA2457095A1 (en) 2003-02-27
EP1417344B1 (en) 2011-06-15
US20090176653A1 (en) 2009-07-09
JP4128955B2 (ja) 2008-07-30
ATE513040T1 (de) 2011-07-15
CN1543510A (zh) 2004-11-03
CN1289522C (zh) 2006-12-13
JP2005500068A (ja) 2005-01-06
WO2003016571A1 (en) 2003-02-27
KR20040030133A (ko) 2004-04-08
EP1417344A4 (en) 2005-01-26

Similar Documents

Publication Publication Date Title
JP4156840B2 (ja) ジンクフィンガードメイン及びその同定方法
US20090176653A1 (en) Zinc finger domain libraries
Lehner et al. Analysis of a high-throughput yeast two-hybrid system and its use to predict the function of intracellular proteins encoded within the human MHC class III region
US5885779A (en) Repressed trans-activator system for characterization of protein-protein interactions
CA2429555C (en) Position dependent recognition of gnn nucleotide triplets by zinc fingers
KR20040065235A (ko) 키메라 단백질의 표현형질 스크리닝
Raho et al. The gas 5 gene shows four alternative splicing patterns without coding for a protein
AU2002324352A1 (en) Zinc finger domain libraries
KR100766952B1 (ko) 조절성 징크 핑거 단백질
EP1017802B1 (en) A potential effector for the grb7 family of signalling proteins
AU2003215094A1 (en) Zinc finger libraries
KR100436869B1 (ko) 징크 핑거 도메인 및 그 동정 방법
WO1998049284A1 (fr) Procede servant a detecter et a isoler des proteines de transport nucleaire
KR20060123382A (ko) 징크 핑거 단백질을 이용한 원핵세포의 유전자 발현 조절
US20040259258A1 (en) Regulation of prokaryotic gene expression with zinc finger proteins
WO2004022575A2 (en) Bioinformatics analysis of cellular effects of artificial transcription factors
Huysman et al. Characterization of the Rb-mediated pathway for G1-S phase transition in the diatom Phaeodactylum tricornutum
Chitikila Genomic, Genetic and Biochemical Characterization of Repression of the TATA-Box Binding Protein

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140524

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150521

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160527

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170518

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180528

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190528

Year of fee payment: 10