KR100436869B1 - Zinc Finger Domains and Method of Identifying Same - Google Patents

Zinc Finger Domains and Method of Identifying Same Download PDF

Info

Publication number
KR100436869B1
KR100436869B1 KR10-2001-0008021A KR20010008021A KR100436869B1 KR 100436869 B1 KR100436869 B1 KR 100436869B1 KR 20010008021 A KR20010008021 A KR 20010008021A KR 100436869 B1 KR100436869 B1 KR 100436869B1
Authority
KR
South Korea
Prior art keywords
nucleic acid
cys
zinc finger
sequence
arg
Prior art date
Application number
KR10-2001-0008021A
Other languages
Korean (ko)
Other versions
KR20010084880A (en
Inventor
김진수
권영도
김현원
류은현
황문선
Original Assignee
주식회사 툴젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 툴젠 filed Critical 주식회사 툴젠
Priority to KR10-2001-0008021A priority Critical patent/KR100436869B1/en
Publication of KR20010084880A publication Critical patent/KR20010084880A/en
Application granted granted Critical
Publication of KR100436869B1 publication Critical patent/KR100436869B1/en

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1079Screening libraries by altering the phenotype or phenotypic trait of the host
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/02Preparation of hybrid cells by fusion of two or more cells, e.g. protoplast fusion
    • C12N15/04Fungi
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1048SELEX
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • C07K2319/81Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor containing a Zn-finger domain for DNA binding

Abstract

임의의 주어진 표적 부위를 인식하는 징크핑거 도메인을 동정하는 생체내 선별법을 공개한다. 또한, 특정 부위를 인식하는 징크핑거 도메인의 아미노산 서열을 공개한다.In vivo screening methods for identifying zinc finger domains that recognize any given target site are disclosed. In addition, the amino acid sequence of the zinc finger domain that recognizes a specific site is disclosed.

Description

징크 핑거 도메인 및 그 동정 방법{Zinc Finger Domains and Method of Identifying Same}Zinc Finger Domains and Method of Identifying Same

본 발명은 전사인자와 같은 DNA-결합 단백질에 관한 것이다.The present invention relates to DNA-binding proteins such as transcription factors.

대부분의 유전자는 보통 프로모터 또는 인핸서 영역 내에 있는 특정 DNA 부위에 결합하는 폴리펩티드 전사인자에 의해 전사 수준에서 조절된다. 이들 단백질들은 프로모터 부위에서 RNA 폴리머라제에 의해 전사 개시를 활성화 또는 억제함으로써 표적 유전자의 발현을 조절한다. 활성화 인자든 억제 인자든 모두 전사인자는 구조적으로 단위모듈성(module)을 갖는다. 그러한 단위모듈은 구조적으로 별개의 도메인으로 폴딩 가능하며, DNA 결합, 이량체화(dimerization) 또는 전사 기구(transcriptional machinary)와의 상호작용과 같은 특수 기능을 가진다. 활성화 도메인 또는 억제 도메인과 같은 효과 도메인들은 이질적 전사인자의 DNA-결합 도메인과 연결되어도 그 기능을 유지한다[Brent 및 Ptashne, (1985)Cell43:729-36; Dawsonet al., (1995)Mol. Cell Biol.15:6923-31]. 징크 핑거 도메인(zinc finger domain), 호메오도메인(homeodomain), 및 헬릭스-턴-헬릭스(helix-turn-helix) 도메인을 포함하는 많은 DNA-결합 도메인의 3차 구조가 NMR 및 X-레이 결정 데이타로 결정되어 있다.Most genes are usually regulated at the transcription level by polypeptide transcription factors that bind to specific DNA sites within the promoter or enhancer region. These proteins regulate expression of the target gene by activating or inhibiting transcription initiation by RNA polymerase at the promoter site. Transcription factors, both activating and inhibitory, are structurally modular. Such unit modules are foldable into structurally distinct domains and have special functions such as DNA binding, dimerization or interaction with transcriptional machinary. Effect domains such as activation domains or inhibitory domains retain their function when linked to the DNA-binding domain of heterologous transcription factors [Brent and Ptashne, (1985) Cell 43: 729-36; Dawson et al. , (1995) Mol. Cell Biol. 15: 6923-31. The tertiary structure of many DNA-binding domains, including zinc finger domains, homeodomains, and helix-turn-helix domains, provides NMR and X-ray determination data. Is determined.

본 발명은 신속하고 대규모적으로 키메라 전사인자를 동정하고 제조하기 위한 세포적 방법을 제공한다. 그러한 키메라 전사인자는 생물의학 및 생물공학적 응용에서 내생 유전자의 발현을 변화시키기 위해 사용될 수 있다. 위 전사인자는 생체 내, 즉, 손상되지 않고 살아 있는 세포내에서 검사된다. 또한 본 발명은 본 발명의 방법을 유전체 서열(genomic sequence)의 스크리닝에 적용함으로써 발견될 수 있는 신규 핵산 결합 도메인을 포함한다.The present invention provides a cellular method for identifying and preparing chimeric transcription factors quickly and on a large scale. Such chimeric transcription factors can be used to alter the expression of endogenous genes in biomedical and biotechnological applications. Gastric transcription factors are examined in vivo, ie, intact and living cells. The invention also encompasses novel nucleic acid binding domains that can be found by applying the methods of the invention to the screening of genomic sequences.

본 발명은 DNA 상의 표적 부위를 인식하는 펩티드 도메인을 동정하는 방법에 관한 것이다. 이러한 동정 방법을 본원에서 때때로 "도메인 선별법" 또는 "생체내 스크리닝법"으로 지칭된다. 상기 방법은 (1) 리포터 구조물(reporter construct)을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 것을 포함한다. 리포터 구조물은 프로모터에 작용가능하게 연결된 리포터 유전자를 갖고, 프로모터는 소집 부위(recruitment site) 및 표적 부위(target site)를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정의 수준을 초과하여 발현되지만, 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연적인 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이하다. 상기 선택 방법은 다음을 더 포함한다: (3) 다수의 하이브리드 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 핵산을 세포와 접촉시키기; (4) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건으로 세포를 유지하기; (5) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는, 리포터 유전자를 소정 수준 이상으로 발현시키는 세포를 동정하기.The present invention relates to a method for identifying a peptide domain that recognizes a target site on DNA. Such identification methods are sometimes referred to herein as "domain screening methods" or "in vivo screening methods." The method comprises (1) providing a cell containing a reporter construct and (2) a plurality of hybrid nucleic acids. The reporter construct has a reporter gene operably linked to a promoter, and the promoter has a recruitment site and a target site. The reporter gene is expressed beyond a predetermined level when the transcription factor recognizes both the recruitment site and the target site of the promoter (that is, when binding beyond the standard), but the transcription factor recognizes only the recruitment site of the promoter Not so. Many hybrid nucleic acids encode non-natural proteins comprising elements such as (i) a transcriptional activation domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain. The amino acid sequences of the test zinc finger domains differ from one another in a plurality of hybrid nucleic acids. The method of selection further comprises: (3) contacting the plurality of nucleic acids with the cell under conditions that allow one or more of the plurality of hybrid nucleic acids to enter the one or more cells; (4) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; (5) Identifying cells expressing reporter genes above a predetermined level, indicating that the cells comprise a hybrid nucleic acid encoding a test zinc finger domain that recognizes a target site.

DNA 결합 도메인, 즉, 소집 부위를 인식하고 다수의 하이브리드 구성원 중에서 변하지 않는 도메인은 예를 들면, 한 개, 두 개, 세 개, 또는 그 이상의 징크 핑거 도메인을 포함할 수 있다. 상기 방법에 이용되는 세포는 원핵 또는 진핵세포일 수 있다. 진핵세포의 예로는 사카로미세스 세레비지에(Saccharomyces cerevisiae), 쉬조사카로미세스 폼베(Schizosaccharomyces pombe), 또는, 피치아 파스테우리스(Pichia pasteuris)와 같은 효모 세포; Sf9 세포와 같은 곤충 세포; 및 섬유아세포 또는 림프구와 같은 포유동물 세포를 들 수 있다.A DNA binding domain, ie, a domain that recognizes a recruitment site and does not change among multiple hybrid members, may include, for example, one, two, three, or more zinc finger domains. The cells used in the method may be prokaryotic or eukaryotic. Examples of eukaryotic cells include yeast cells such as Saccharomyces cerevisiae , Schizosaccharomyces pombe , or Pichia pasteuris ; Insect cells such as Sf9 cells; And mammalian cells such as fibroblasts or lymphocytes.

여기서 "소정 수준(given level)"은 전사인자가 소집 부위는 인식하지만, 표적 부위는 인식하지 않을 경우에 관찰되는 발현양이다. 어떤 경우에는 "소정 수준"은 0일 수 있다(적어도 사용되는 검정법의 검출 한도 내에서).Here "given level" is the amount of expression observed when the transcription factor recognizes the recruitment site but not the target site. In some cases, the “predetermined level” may be zero (at least within the detection limits of the assay used).

상기 방법은, 예를 들어 유전체 DNA, mRNA 혼합물, 또는 cDNA 혼합물과 같은 핵산으로부터 시험 징크 핑거 도메인을 코딩하는 핵산원(source nucleic acid)을 증폭하여 증폭된 단편을 생산하는 부가적인 단계를 포함할 수 있다. 핵산원은 올리고뉴클레오티드 프라이머를 사용하여 증폭할 수 있다. 올리고뉴클레오티드 프라이머는 도메인의 보존된 경계를 코딩하는 핵산에 결찰되는(annealing) 축중 올리고뉴클레오티드(예를 들면, 상이한 핵산 서열을 갖는 특정 올리고뉴클레오티드의 풀, 또는 이노신과 같은 비천연적 염기를 갖는 특정 올리고뉴클레오티드)의 세트 중 하나 일 수 있다. 또한, 상기 프라이머는 특정 올리고뉴클레오티드일 수 있다. 증폭된 단편은 상기 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 생산하기 위해 이용된다.The method may comprise the additional step of amplifying a source nucleic acid encoding a test zinc finger domain from a nucleic acid such as, for example, genomic DNA, mRNA mixture, or cDNA mixture to produce amplified fragments. have. Nucleic acid sources can be amplified using oligonucleotide primers. Oligonucleotide primers are degenerate oligonucleotides (eg, pools of specific oligonucleotides with different nucleic acid sequences, or specific oligonucleotides with non-natural bases such as inosine) that are annealed to a nucleic acid encoding a conserved boundary of the domain. ) May be one of a set. In addition, the primer may be a specific oligonucleotide. The amplified fragments are used to produce hybrid nucleic acids that are included in the multiple hybrid nucleic acids used in the method.

상기 방법은 다음의 단계를 더 포함할 수 있다: (i) 후보 징크 핑거 도메인의 아미노산 서열을 서열 데이타베이스에서 확인하기; (ii) 후보 징크 핑거 도메인의 아미노산 서열을 코딩하는 후보 핵산을 제공하기; 및 (iii) 후보 핵산을 이용하여 전술한 방법에 사용된 다수의 하이브리드 핵산에 포함되는 하이브리드 핵산을 제작하기. 상기 데이타베이스는, 공지 및(또는) 예측되는 단백질과 같은 다수의 아미노산 서열에 관한 기록 뿐만 아니라 cDNA, ESTs, 유전체 DNA, 또는 예측되는 인트론을 제거하기 위해 컴퓨터 처리된 유전체 DNA와 같은 다수의 핵산 서열에 대한 기록을 포함할 수 있다.The method may further comprise the following steps: (i) identifying the amino acid sequence of the candidate zinc finger domain in a sequence database; (ii) providing a candidate nucleic acid encoding the amino acid sequence of the candidate zinc finger domain; And (iii) using a candidate nucleic acid to produce a hybrid nucleic acid that is comprised in a plurality of hybrid nucleic acids used in the methods described above. The database includes a plurality of nucleic acid sequences such as cDNA, ESTs, genomic DNA, or genomic DNA computerized to remove predicted introns, as well as records relating to multiple amino acid sequences such as known and / or predicted proteins. May include a record of

원한다면, 상기 방법은 제2 표적 부위(예를 들면, 제1 시험 징크 핑거 도메인에 의해 인식되는 서열과 다른 서열)을 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위해 반복될 수 있다. 후속적으로, 동정된 제1 및 제2 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있다. 생성되는 하이브리드 단백질은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 징크 핑거 도메인의 표적 부위를 모두 포함하는 표적 부위를 특이적으로 인식할 수 있을 것이다.If desired, the method may be repeated to identify a second test zinc finger domain that recognizes a second target site (eg, a sequence that is different from the sequence recognized by the first test zinc finger domain). Subsequently, nucleic acids can be constructed that encode both the identified first and second test zinc finger domains. The resulting hybrid protein will be able to specifically recognize a target site that includes both the target site of the first test zinc finger domain and the target site of the second zinc finger domain.

본 발명은 또한 시험 징크 핑거 도메인이 프로모터 내 표적 부위를 인식하는지를 결정하는 방법에 관한 것이다. 본원에서는 이 방법을 때때로 "부위 선별법"이라고 지칭한다. 상기 방법은 리포터 구조물 및 하이브리드 핵산을 제공하는 단계를 포함한다. 리포터 유전자는 소집 부위 및 표적 부위를 포함하는 프로모터에 작용가능하게 연결되고, 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우 소정 수준을 초과하는 수준으로 리포터 유전자를 발현시키나 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인으로 이루어진 요소를 포함하는 비천연적 단백질을 코딩한다. 상기 방법은 다음과 같은 단계를 더 포함한다: 리포터 구조물이 세포 내에 들어갈 수 있게 하는 조건하에서 리포터 구조물을 세포와 접촉시키는 단계; 상기 단계 이전, 이후, 또는 상기 단계와 동시에, 하이브리드 핵산이 세포 내에 들어갈 수 있게 하는 조건하에서 하이브리드 핵산을 세포와 접촉시키는 단계; 상기 세포를 하이브리드 핵산이 세포내에서 발현될 수 있게 하는 조건 하에서 유지하는 단계; 및 세포 내 리포터 유전자의 발현을 검출하는 단계. 리포터 유전자의 발현이소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식한다는 지표이다.The invention also relates to a method for determining whether a test zinc finger domain recognizes a target site in a promoter. This method is sometimes referred to herein as "site screening". The method includes providing a reporter construct and a hybrid nucleic acid. The reporter gene is operably linked to a promoter including a recruitment site and a target site, and when the transcription factor recognizes both the recruitment site and the target site of the promoter, the reporter gene is expressed to a level exceeding a predetermined level, but the transcription factor is expressed by the promoter This is not the case if only the site of call is recognized. The hybrid nucleic acid encodes a non-natural protein comprising elements comprising (i) a transcriptional activation domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain. The method further includes the steps of: contacting the reporter construct with the cell under conditions that allow the reporter construct to enter the cell; Contacting the hybrid nucleic acid with the cell under conditions that allow the hybrid nucleic acid to enter the cell before, after, or concurrently with the step; Maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; And detecting the expression of the reporter gene in the cell. The expression of the reporter gene above the predetermined level is an indication that the test zinc finger domain recognizes the target site.

상기 리포터 구조물 및 하이브리드 핵산은 별도의 플라스미드에 각각 포함될 수 있다. 두 개의 플라스미드는 세포 내에 동시에 또는 연속적으로 도입될 수 있다. 하나의 플라스미드 또는 두 플라스미드 모두는 선별 마커를 포함할 수 있다. 또한, 리포터 구조물과 하이브리드 핵산이 동일한 플라스미드 내에 포함될 수 있으며, 이 경우에는 리포터 구조물과 하이브리드 핵산을 세포 내로 도입하기 위해 단지 한 번의 접촉 단계만이 필요하다. 또다른 실시 태양에서는, 리포터 구조물 및 하이브리드 핵산 중 하나 또는 양자 모두가 세포의 유전체 내로 안전하게 삽입된다. 상기 방법의 경우, 본원에 기술된 임의의 생체내 방법에 있어서, 전사 활성화 도메인은 전사 억제 도메인으로 대체될 수 있으며, 이 경우에는 리포터 유전자의 발현 수준이 소정 수준 미만으로 감소하는 세포를 동정하게 된다.The reporter construct and the hybrid nucleic acid may be included in separate plasmids, respectively. Two plasmids can be introduced simultaneously or sequentially into cells. One plasmid or both plasmids may comprise a selection marker. In addition, the reporter construct and the hybrid nucleic acid may be included in the same plasmid, in which case only one contacting step is necessary to introduce the reporter construct and the hybrid nucleic acid into the cell. In another embodiment, one or both of the reporter construct and the hybrid nucleic acid are safely inserted into the genome of the cell. For this method, in any of the in vivo methods described herein, the transcriptional activation domain may be replaced with a transcriptional repression domain, in which case the cells will be identified in which the expression level of the reporter gene decreases below a certain level. .

본 발명의 또다른 방법에 의하면, 두 세포의 융합이 시험 징크 핑거 도메인의 결합 우선성의 신속한 결정을 용이하게 한다. 이 방법은, 리포터 유전자를 함유하는 제1 세포를 제공하는 단계; 하이브리드 핵산을 함유하는 제2 세포를 제공하는 단계; 제1 세포 및 제2 세포를 융합시켜 융합 세포를 제조하는 단계; 융합 세포를 융합 세포내에서 하이브리드 핵산의 발현을 가능하게 하는 조건하에서 유지하는 단계; 및 융합 세포 내 리포터 유전자의 발현을 검출하는 단계를 포함한다. 여기서 리포터 유전자의 발현 수준이 소정 수준보다 높다는 것은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타내는 지표이다. 예를 들어, 제1 세포 및 제2 세포는 조직 배양 세포 또는 진균 세포일 수 있다. 본 방법의 예시적인 일 실시 태양에서는 에스. 세레비지애(S. cerevisiae) 세포가 이용된다. 제1 세포는 제1 교배형(예를 들면, MATa)를 가지고, 제2 세포는 제1 교배형과 다른 교배형(예를 들면, MATα)를 가진다. 두 세포를 상호 접촉시키면, 효모 교배(yeast mating)에 의해 제1 세포 및 제2 세포 모두의 유전체를 함유하는 핵을 갖는 단일 세포(예를 들면, MATa/α)가 만들어진다. 본 방법에서는 각 제1 세포가 모두 동일한 제1 교배형이나 서로 다른 표적 부위를 가지는 리포터 구조물을 갖도록 제공된다. 다수의 제2 세포도 모두 동일한 제2 교배형이고 각각 서로 다른 시험 징크 핑거 도메인을 갖도록 제공된다. 모든 가능한 쌍 교배(pair-wise mating)와 같은 다수의 쌍 교배로 매트릭스를 만든다. 이러한 방법은 다수의 결합 부위(예를 들면, 가능한 표적 부위의 모든 완전한 집합)에 대한 다수의 시험 징크 핑거 도메인의 결합 우선성을 결정하는데 이용된다.According to another method of the invention, the fusion of two cells facilitates the rapid determination of the binding priority of the test zinc finger domain. The method comprises providing a first cell containing a reporter gene; Providing a second cell containing the hybrid nucleic acid; Fusing the first cell and the second cell to produce a fusion cell; Maintaining the fusion cell under conditions that allow expression of the hybrid nucleic acid in the fusion cell; And detecting the expression of the reporter gene in the fusion cell. Here, the expression level of the reporter gene is higher than the predetermined level is an indication that the test zinc finger domain recognizes the target site. For example, the first and second cells can be tissue culture cells or fungal cells. In one exemplary embodiment of the method S. S. cerevisiae cells are used. The first cell has a first mating type (eg MAT a ) and the second cell has a mating type different from the first mating type (eg MATα). Upon contacting the two cells, yeast mating results in a single cell (eg, MAT a / α) having a nucleus containing the genome of both the first and second cells. In this method, each of the first cells is provided so as to have a reporter construct having all of the same first hybrid type or different target sites. Multiple second cells are also provided such that they are all of the same second hybrid and each have a different test zinc finger domain. Create a matrix with multiple pairs of crossings, such as all possible pair-wise matings. This method is used to determine the binding priority of multiple test zinc finger domains for multiple binding sites (e.g., a complete set of possible target sites).

본 발명은 또한 시험 징크 핑거 도메인의 결합 우선성을 검사하는 방법을 제공한다. 본 방법은, (1) 본질적으로 모든 세포가 하이브리드 핵산을 함유하는 세포를 제공하는 단계 및 (2) 다수의 리포터 구조물을 제공하는 단계를 포함한다. 다수의 리포터 구조물 각각은 소집 부위 및 표적 부위를 포함하는 프로모터에 작용가능하게 결합된 리포터 유전자를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식할 경우에는 소정 수준을 초과하여 발현되지만, 전사인자가 단지 프로모터의 소집 부위에만 결합하는 경우는 그러하지 아니하다. 다수의 리포터 구조물 중 표적 부위는 다양하게 변화된다. 하이브리드 핵산은, (i) 전사 활성화 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 갖는 하이브리드 단백질을 코딩한다. 본 방법은 다음 단계를 더 포함한다: 다수의 리포터 구조물 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건 하에서 다수의 리포터 구조물을 세포와 접촉시키는 단계; 세포 내 핵산 발현이 가능한 조건에서 세포를 유지하는 단계; 세포 내에 리포터 구조물을 함유하고 소정 수준 이상으로 리포터 구조물을 발현시키는 세포(리포터 구조물이 소정 수준 이상으로 발현된다는 것은 세포 내 리포터 구조물이 징크 핑거 도메인에 의해 인식되는 표적 부위를 갖는다는 것을 나타낸다)를 동정하는 단계.The invention also provides a method for testing the binding priority of a test zinc finger domain. The method includes the steps of (1) providing a cell in which essentially all cells contain a hybrid nucleic acid and (2) providing a plurality of reporter constructs. Each of the plurality of reporter constructs has a reporter gene operably linked to a promoter comprising a recruitment site and a target site. The reporter gene is expressed beyond a certain level when the transcription factor recognizes both the recruitment site and the target site of the promoter, but not when the transcription factor binds only to the recruitment site of the promoter. Among the many reporter constructs, the target site varies widely. The hybrid nucleic acid encodes a hybrid protein having elements such as (i) a transcriptional activation domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain. The method further includes the steps of: contacting the plurality of reporter constructs with the cells under conditions such that one or more of the plurality of reporter constructs can enter the one or more cells; Maintaining the cell under conditions permitting intracellular nucleic acid expression; Identifying cells containing a reporter construct in the cell and expressing the reporter construct at or above a predetermined level (the expression of the reporter construct at or above a predetermined level indicates that the reporter construct in the cell has a target site recognized by the zinc finger domain). Steps.

시험 징크 핑거 도메인이 하나 이상의 표적 부위에 대하여 결합 우선성을 가질때, 각각 다른 표적 부위를 갖는 다수의 세포를 상기 방법에 의해 동정할 수 있다. 상기 방법은 최고 수준의 리포터 유전자 발현을 보이는 세포를 동정하는 것을 더 포함할 수 있다. 별법으로, 리포터 유전자 발현의 임계 수준(예를 들면, 리포터 유전자 발현이 2, 4, 8, 20, 50, 100, 1000배 또는 그 이상 증가하는 수준)을 결정하고, 임계 수준을 넘어서 리포터 유전자를 발현시키는 모든 세포를 선택하기도 한다.When the test zinc finger domain has binding priority for one or more target sites, multiple cells, each with a different target site, can be identified by this method. The method may further comprise identifying cells that exhibit the highest level of reporter gene expression. Alternatively, determine a threshold level of reporter gene expression (e.g., a level at which reporter gene expression increases by 2, 4, 8, 20, 50, 100, 1000 fold or more), and reporter gene beyond the threshold level. Some cells may be selected for expression.

표적 결합 부위는 예를 들어, 2 내지 6 뉴클레오티드의 길이일 수 있다. 다수의 리포터 구조물은 표적 결합 부위의 2, 3, 또는 4 또는 그 이상 위치에 A, T, G 및 C 뉴클레오티드의 모든 가능한 조합을 포함할 수 있다.The target binding site can be, for example, 2 to 6 nucleotides in length. Multiple reporter constructs may include all possible combinations of A, T, G, and C nucleotides at two, three, or four or more positions of the target binding site.

또다른 측면에서, 본 발명은 다수의 징크 핑거 도메인들을 동정하는 방법임을 그 특징으로 한다. 이 방법은 제1 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 수행하고 다시 제1 시험 징크 핑거 도메인의 표적 부위와는 다른 표적 부위를 인식하는 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 재수행하는 것을 포함한다. 또다른 특징은 키메라 징크 핑거 단백질을 코딩하는 핵산을 생성하는 방법이며, 이 방법은 제1 및 제2 시험 징크 핑거 도메인을 동정하기 위하여 도메인 선별법을 두 번 수행하고, 제1 및 제2 시험 징크 핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산을 제작하는 것을 포함한다. 이렇게 제작된 핵산은 두 개의 하위 부위(subsite)로 이루어진 부위를 특이적으로 인식하는 두 개의 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다. 상기 두 개의 하위 부위는 각각 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위이다.In another aspect, the invention features a method for identifying a plurality of zinc finger domains. This method performs domain screening to identify the first test zinc finger domain and then re-examines the domain screening method to identify a second test zinc finger domain that recognizes a target site that is different from the target site of the first test zinc finger domain. It includes doing. Another feature is a method of generating a nucleic acid encoding a chimeric zinc finger protein, which method performs two domain screening methods to identify first and second test zinc finger domains, and first and second test zinc finger. Constructing a nucleic acid encoding a polypeptide comprising a domain. The nucleic acid thus produced may encode a hybrid protein including two domains that specifically recognize a site consisting of two subsites. The two subsites are the target site of the first test zinc finger domain and the target site of the second test zinc finger domain, respectively.

역시 또다른 측면에서, 본 발명은 징크 핑거 도메인들에 의해 인식되는 DNA 서열을 동정하는 방법에 관한 것이다. 본 방법은 제1 시험 징크 핑거 도메인에 대한 제1 결합 우선 서열을 동정하기 위한 부위 선별법의 수행, 및 제2 시험 징크 핑거 도메인에 대한 제2 결합 우선 서열을 동정하기 위한 부위 선별법의 재수행을 포함한다. 동정된 제1 및 제2 시험 징크 핑거 도메인을 모두 코딩하는 핵산을 제작할 수 있고, 이 핵산은 제1 시험 징크 핑거 도메인의 표적 부위 및 제2 시험 징크 핑거 도메인의 표적 부위를 포함하는 부위를 특이적으로 인식하는 두 도메인을 포함하는 하이브리드 단백질을 코딩할 수 있다.In yet another aspect, the present invention relates to a method for identifying a DNA sequence recognized by zinc finger domains. The method includes performing site selection to identify a first binding priority sequence for the first test zinc finger domain, and re-executing site selection to identify a second binding priority sequence for the second test zinc finger domain. do. Nucleic acids encoding both the identified first and second test zinc finger domains can be constructed, the nucleic acids specific for a site comprising a target site of the first test zinc finger domain and a target site of the second test zinc finger domain. It can encode a hybrid protein containing two domains recognized as.

본 발명은 또한 DNA 상의 표적 부위를 인식하는 펩티드 도메인을 동정하는방법을 제공한다. 이 방법은 (1) 리포터 구조물을 함유하는 세포 및 (2) 다수의 하이브리드 핵산을 제공하는 것을 포함한다. 리포터 구조물은 프로모터에 작용가능하게 연결된 리포터 유전자를 갖고, 프로모터는 소집 부위 및 표적 부위를 갖는다. 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우(즉, 기준을 넘는 정도의 결합시)에는 소정 수준 미만으로 발현되지만, 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니하다. 다수의 하이브리드 핵산 각각은, (i) 전사 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인과 같은 요소를 포함하는 비천연적인 단백질을 코딩한다. 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이하다. 상기 선택 방법은 다음 단계를 더 포함한다: (3) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 핵산을 세포와 접촉시키는 단계; (4) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건으로 세포를 유지하는 단계; (5) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는, 리포터 유전자를 소정 수준 미만으로 발현시키는 세포를 동정하는 단계. 본 방법의 추가 실시태양도 전사 활성화 도메인을 이용하는 방법과 유사하다. 마찬가지로, 본원에 기술된 임의의 다른 선별법도 전사 활성화 도메인 대신에 전사 억제 도메인을 이용하여 수행할 수 있다.The invention also provides a method for identifying a peptide domain that recognizes a target site on DNA. The method includes (1) providing a cell containing a reporter construct and (2) a plurality of hybrid nucleic acids. The reporter construct has a reporter gene operably linked to a promoter, and the promoter has a recruitment site and a target site. The reporter gene is expressed below a certain level when the transcription factor recognizes both the recruitment site and the target site of the promoter (i.e., when binding beyond the standard), but not when the transcription factor recognizes only the recruitment site of the promoter. No Each of the plurality of hybrid nucleic acids encodes a non-natural protein comprising elements such as (i) a transcription repression domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain. The amino acid sequences of the test zinc finger domains differ from one another in a plurality of hybrid nucleic acids. The selection method further comprises the following steps: (3) contacting the plurality of nucleic acids with the cell under conditions that allow one or more of the plurality of nucleic acids to enter the one or more cells; (4) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; (5) Identifying cells expressing reporter genes below a predetermined level, indicating that the cells comprise a hybrid nucleic acid encoding a test zinc finger domain that recognizes a target site. Further embodiments of the method are similar to those using a transcriptional activation domain. Likewise, any other screening method described herein can be performed using a transcriptional repression domain instead of a transcriptional activation domain.

또다른 측면에서, 본 발명의 특징은 특정의 정제된 폴리펩티드 및 단리된 핵산이다. 본 발명의 정제된 폴리펩티드는 하기의 아미노산 서열을 갖는 폴리펩티드를 포함한다:In another aspect, features of the present invention are certain purified polypeptides and isolated nucleic acids. Purified polypeptides of the invention include polypeptides having the following amino acid sequences:

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Cys-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:68)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Cys-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 68)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-His-X-Ser-Asn-Xb-X-Lys-His-X3-5-His (SEQ ID NO:69)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-His-X-Ser-Asn-X b -X-Lys-His-X 3-5 -His (SEQ ID NO: 69)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Ser-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:70)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Ser-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 70)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Thr-Xb-X-Val-His-X3-5-His (SEQ ID NO:71)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Thr-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 71)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Val-X-Ser-Xc-Xb-X-Arg-His-X3-5-His (SEQ ID NO:72)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Val-X-Ser-X c -X b -X-Arg-His-X 3-5 -His (SEQ ID NO : 72)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:73)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 73)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Val-His-X3-5-His (SEQ ID NO:74)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 74)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Xc-Xb-X-Arg-His-X3-5-His (SEQ ID NO:75)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-X c -X b -X-Arg-His-X 3-5 -His (SEQ ID NO : 75)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ala-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:150)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ala-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 150)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Phe-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:151)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Phe-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 151)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Thr-His-X3-5-His (SEQ ID NO:152)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Thr-His-X 3-5 -His (SEQ ID NO: 152)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Val-His-X3-5-His (SEQ ID NO:153)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 153)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Ile-His-X3-5-His (SEQ ID NO:154)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Ile-His-X 3-5 -His (SEQ ID NO: 154)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:155)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 155)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Gln-His-X3-5-His (SEQ ID NO:156)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Thr-His-X b -X-Gln-His-X 3-5 -His (SEQ ID NO: 156)

Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:157)Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Thr-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 157)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Lys-Xb-X-Ile-His-X3-5-His (SEQ ID NO:158)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-Lys-X b -X-Ile-His-X 3-5 -His (SEQ ID NO: 158)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:159)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 159)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Gly-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:161)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Gly-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 161)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Glu-Xb-X-Arg-His-X3-5-His (SEQ ID NO:162)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-Glu-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 162)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:163)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 163)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-His-Xb-X-Thr-His-X3-5-His (SEQ ID NO:164)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-His-X b -X-Thr-His-X 3-5 -His (SEQ ID NO: 164)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Lys-Xb-X-Arg-His-X3-5-His (SEQ ID NO:165)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-Lys-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 165)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Ser-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:166)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Ser-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 166)

Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Thr-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:167)X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Thr-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 167)

(여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는소수성 잔기이며, Xc는 세린 또는 트레오닌이다.) 본 발명의 핵산은 상기의 폴리펩티드를 코딩하는 핵산을 포함한다.Wherein X a is phenylalanine or tyrosine, X b is a hydrophobic residue, and X c is serine or threonine. The nucleic acid of the present invention includes a nucleic acid encoding the polypeptide.

또한, 본 발명의 정제된 폴리펩티드는 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 50%, 60%, 70%, 80%, 90%, 93%, 95%, 96%,98%, 99%, 또는 100% 동일한 아미노산 서열을 가질 수 있다. 상기 폴리펩티드는 폴리펩티드의 핵산 접촉 잔기에 상응하는 아미노산 위치에서 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 동일할 수 있다. 또는, 상기 폴리펩티드는 폴리펩티드의 핵산 접촉 잔기에 상응하는 잔기들 중 적어도 하나 이상의 잔기가 SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147, 149, 또는 151과 다를 수 있다. 상기 정제된 폴리펩티드는 또한, 이질적 DNA 결합 도메인, 핵으로의 위치지정 신호, 소분자 결합 도메인(예, 스테로이드 결합 도메인), 에피토프 태그 또는 정제를 위한 서열(정제 핸들), 촉매 도메인(예, 핵산 개질 도메인, 핵산 절단 도메인, 또는 DNA 복구 촉매 도메인) 및(또는) 전사에서 기능적 도메인(예, 활성화 도메인, 억제 도메인 등등) 중 하나 이상을 포함할 수 있다. 본 발명은 또한 상기 폴리펩티드를 코딩하는 단리된 핵산 서열, 및 SEQ ID NOs: 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 60, 62, 64, 66, 102, 104, 106, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 140, 142, 144, 146, 148 또는 150, 또는 이들의 상보물들로 이루어진 프로브 서열의 단일 가닥 프로브에 엄격한 조건하에서 혼성화하는 단리된 핵산 서열을 포함한다. 본 발명은 본 발명의 폴리펩티드를 이질적 핵산 결합 도메인에 융합시켜 세포 내에서 발현시키는 방법을 더 포함한다. 이 방법은 상기 융합 단백질을 코딩하는 핵산을 세포 내로 도입하는 것을 포함한다. 이러한 본 발명의 핵산은 유도성 프로모터(예, 스테로이드 호르몬 조절성 프로모터, 소분자 조절성 프로모터, 또는 테트라사이클린 Tet-On 및 Tet-Off 시스템과 같은 조작된 유도성 시스템)와 같은 이질적 핵산 서열에 의해 조작가능하게 조절될 수 있다.In addition, the purified polypeptides of the invention include SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, 55, 57, 59 , 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, 143, 145, 147 , 149, or 151, 50%, 60%, 70%, 80%, 90%, 93%, 95%, 96%, 98%, 99%, or 100% identical amino acid sequence. Said polypeptide may comprise SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47, 49, 51, 53, at amino acid positions corresponding to nucleic acid contact residues of the polypeptide. 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133, 135, 137, 141, It may be the same as 143, 145, 147, 149, or 151. Or wherein the polypeptide has at least one of the residues corresponding to the nucleic acid contact residues of the polypeptide in SEQ ID NOs: 23, 25, 27, 29, 31, 33, 35, 37, 39, 41, 43, 45, 47 , 49, 51, 53, 55, 57, 59, 61, 63, 65, 67, 103, 105, 107, 111, 113, 115, 117, 119, 121, 123, 125, 127, 129, 131, 133 , 135, 137, 141, 143, 145, 147, 149, or 151. The purified polypeptide may also contain heterologous DNA binding domains, positioning signals to the nucleus, small molecule binding domains (e.g. steroid binding domains), epitope tags or sequences (purification handles) for purification, catalytic domains (e.g. nucleic acid modification domains). , Nucleic acid cleavage domains, or DNA repair catalytic domains) and / or functional domains in transcription (eg, activation domains, inhibitory domains, etc.). The invention also provides an isolated nucleic acid sequence encoding said polypeptide, and SEQ ID NOs: 22, 24, 26, 28, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52 , 54, 56, 58, 60, 62, 64, 66, 102, 104, 106, 110, 112, 114, 116, 118, 120, 122, 124, 126, 128, 130, 132, 134, 136, 140 , 142, 144, 146, 148 or 150, or an isolated nucleic acid sequence that hybridizes under stringent conditions to a single stranded probe of a probe sequence consisting of complements thereof. The invention further includes a method of fusion of a polypeptide of the invention to a heterologous nucleic acid binding domain for expression in a cell. The method includes introducing a nucleic acid encoding the fusion protein into the cell. Such nucleic acids of the invention are engineered by heterologous nucleic acid sequences such as inducible promoters (e.g., steroid hormone regulating promoters, small molecule regulatory promoters, or engineered inducible systems such as the tetracycline Tet-On and Tet-Off systems). It can possibly be adjusted.

"염기 접촉 위치"라는 용어는, SEQ ID NO:21에서 아르기닌 73, 아스파르트산 75, 글루탐산 76, 및 아르기닌 79 아미노산에 구조적으로 대응되는 징크 핑거 도메인의 네(4) 아미노산들의 위치를 지칭한다. 이들 위치는 또한 -1, 2, 3, 및 6번 위치로 지칭되기도 한다. 의문 서열내 염기 접촉 위치에 상응하는 위치를 동정하기 위해서는, 의문 서열의 시스테인 및 히스티딘 잔기가 Zif268의 핑거 3의 시스테인 및 히스티딘 잔기와 나란이 오도록 의문 서열을 관심 징크 핑거 도메인과 정렬시킨다. 유럽 생물정보 연구소(European Bioinformatics Institute)의 ClustalW WWW 서비스(http://www2.ebi.ac.uk/clustalw; Thompsonet al.(1994)Nucleic Acids Res.22:4673-4680)은 서열 정열의 한 간단한 방법을 제공한다.The term "base contact position" refers to the position of the four (4) amino acids of the zinc finger domain that structurally correspond to arginine 73, aspartic acid 75, glutamic acid 76, and arginine 79 amino acids in SEQ ID NO: 21. These positions are also referred to as positions -1, 2, 3, and 6. To identify the position corresponding to the base contact position in the interrogative sequence, the interrogative sequence is aligned with the zinc finger domain of interest such that the cysteine and histidine residues of the interrogative sequence align with the cysteine and histidine residues of finger 3 of Zif268. The ClustalW WWW service of the European Bioinformatics Institute (http://www2.ebi.ac.uk/clustalw; Thompson et al. (1994) Nucleic Acids Res. 22: 4673-4680) is one of the sequences Provide a simple way.

"이질적(heterologous)"이라는 용어는 인위적으로 문맥 중에 도입된 폴리펩티드로, 동일 문맥에 천연적으로는 존재하지 않는 폴리펩티드를 말한다. "하이브리드"라는 용어는 (i) 두 개 이상의 천연적으로 존재하는 서열; (ii) 적어도 하나의 인공 서열(즉, 천연적으로 존재하지 않는 서열) 및 하나의 천연적으로 존재하는 서열; 또는 (iii) 두 개 이상의 인공 서열 중 어느 하나에서 유래하는 아미노산 서열을 함유하는 폴리펩티드를 지칭한다. 인공 서열의 예로는 천연적으로 존재하는서열의 돌연변이 및 새로이 설계된 서열이 있다.The term "heterologous" refers to a polypeptide that is artificially introduced into a context and does not naturally exist in the same context. The term "hybrid" includes (i) two or more naturally occurring sequences; (ii) at least one artificial sequence (ie, a sequence not naturally occurring) and one naturally occurring sequence; Or (iii) a polypeptide containing an amino acid sequence derived from any one of two or more artificial sequences. Examples of artificial sequences are mutations in naturally occurring sequences and newly designed sequences.

본원에서 사용된 "엄격한 조건하에서 혼성화"라는 용어는, 45℃에서 6X 염화 나트륨/구연산 나트륨(SSC) 중에서 혼성화시키고, 이어서 65℃에서 0.2 X SSC, 0.1% SDS로 2회 세척하는 조건을 지칭한다.As used herein, the term “hybridization under stringent conditions” refers to conditions that hybridize in 6 × sodium chloride / sodium citrate (SSC) at 45 ° C. and then wash twice with 0.2 × SSC, 0.1% SDS at 65 ° C. .

"결합 우선성(binding preference)"라는 용어는 폴리펩티드가 다른 결합 부위에 비해 하나의 핵산 결합 부위를 선별적으로 선택하는 식별력을 지칭한다. 예를 들어, 핵산 결합 부위에 비해 폴리펩티드가 양적으로 제한적일 때, 본원에 기술된 생체 내 또는 생체 외 검사법에서 선호되지 않는 부위보다 선호되는 부위에 더 많은 양의 폴리펩티드가 결합할 것이다.The term "binding preference" refers to the discriminative power of a polypeptide to selectively select one nucleic acid binding site over another. For example, when the polypeptide is quantitatively limited relative to the nucleic acid binding site, more polypeptide will bind to the preferred site than sites that are not preferred in the in vivo or ex vivo assays described herein.

본원에서 사용된 "인식(하다)"라는 용어는 하나의 핵산 결합 부위를 제2의 경쟁 부위와 식별하는 폴리펩티드의 능력을 지칭하며, 따라서, 예를 들어, 본원에 기술된 검사에서는 제2의 경쟁 부위의 과잉 존재하에서도 폴리펩티드는 제1의 결합 부위에 결합한 채로 남아있게 된다. 이 폴리펩티드는 혼자서는 제1의 결합 부위에 대하여 충분한 친화도를 갖지 않을 수도 있지만, 인접하는 소집 부위에 결합하는 또다른 핵산 결합 도메인과 본 발명의 하이브리드 폴리펩티드로 융합될 경우에는 제1 결합 부위에 대한 결합여부를 검사할 수 있다.As used herein, the term “recognize” refers to the polypeptide's ability to identify one nucleic acid binding site with a second competition site, and thus, for example, in a test described herein, a second competition Even in the presence of excess of site, the polypeptide remains bound to the first binding site. This polypeptide may not have sufficient affinity for the first binding site alone, but when fused to another hybrid binding domain of the invention with another nucleic acid binding domain that binds to an adjacent recruitment site, Can be checked for binding.

본원에서 "축중 올리고뉴클레오티드"란 (a) 상이한 올리고뉴클레오티드들의 집단, 및 (b) 하나 이상의 서열에 어닐링할 수 있는 단일 종의 올리고뉴클레오티드 (예를 들면, 이노신과 같은 비자연적 뉴클레오티드를 갖는 올리고뉴클레오티드) 둘 다를 의미한다.A "condensed oligonucleotide" as used herein refers to (a) a population of different oligonucleotides, and (b) a single species of oligonucleotide capable of annealing one or more sequences (eg, oligonucleotides having unnatural nucleotides such as inosine). Both mean.

본 발명은 다양한 잇점을 제공한다. 특정 서열을 인식하는 DNA 결합 도메인을 선별할 수 있는 능력은 DNA의 특정 부위에 결합하는 신규 폴리펩티드의 디자인을 가능케 한다. 따라서, 본 발명은 선택된 표적의 발현을 조절할 수 있는(예를 들어, 병원체가 필요로 하는 유전자의 억제, 암 증식에 필요한 유전자의 억제, 또는 발현이 잘 안되는 유전자 또는 변이 단백질을 코딩하는 유전자의 활성화 또는 과다발현 등등) 신규 폴리펩티드의 통상적인 생산을 용이하게 한다.The present invention provides various advantages. The ability to select DNA binding domains that recognize specific sequences enables the design of novel polypeptides that bind to specific sites of DNA. Accordingly, the present invention is directed to the activation of genes capable of modulating the expression of selected targets (e.g., inhibition of genes required by pathogens, inhibition of genes required for cancer proliferation, or genes encoding poorly expressed or variant proteins). Or overexpression, etc.) to facilitate the conventional production of new polypeptides.

징크 핑거 도메인을 이용하는 것은 특히 유리하다. 첫째로, 징크 핑거 모티브는 매우 다양한 DNA 서열을 인식한다. 둘째로, 자연 발생적 징크 핑거 단백질의 구조는 단위모듈성이다. 예를 들면, "Egr-1"으로도 불리는 Zif268 징크 핑거 단백질은 세 개의 징크 핑거 도메인이 직렬로 구성되어 있다. 도1은 DNA와 복합체를 이룬 세 개의 핑거로 이루어진 Zif268 징크 핑거 단백질의 X-선 결정 구조이다[Pavletich 및 Pabo, (1991) Science 252:809-817]. 각 핑거는 DNA 인식 부위의 3-4 염기쌍과 독립적으로 접촉한다. 따라서, 각각의 핑거와 하위 부위(subsite)의 접촉은 독립적인 분자적 인식으로 여겨질 수 있다. 동일한 폴리펩티드 사슬 내에 여러 개의 징크 핑거 단위모듈이 협동 효과를 발휘함으로써 고 친화도 결합이 달성된다.It is particularly advantageous to use zinc finger domains. First, zinc finger motifs recognize a wide variety of DNA sequences. Second, the structure of naturally occurring zinc finger proteins is modular. For example, the Zif268 zinc finger protein, also called "Egr-1", consists of three zinc finger domains in series. 1 is an X-ray crystal structure of a Zif268 zinc finger protein consisting of three fingers complexed with DNA (Pavletich and Pabo, (1991) Science 252: 809-817). Each finger contacts with 3-4 base pairs independently of the DNA recognition site. Thus, contact of each finger and subsite can be considered as independent molecular recognition. High affinity binding is achieved by the cooperative effect of several zinc finger unit modules within the same polypeptide chain.

생체내 선별법의 사용은 세포내 환경에서 DNA의 특정 부위에 결합하는 폴리펩티드의 직접적 동정을 가능하게 한다. 세포 내, 특히 진핵 세포 내 인식과 연관된 인자들은 시험관 내 선별 시나리오 중에 존재하는 인자들과는 크게 다르다. 예를 들면, 진핵세포 핵 내에서, 폴리펩티드는 특정 핵산 결합 부위를 놓고 무수히많은 다른 핵 단백질들과 경쟁해야만 한다. 뉴클레오좀(nucleosome) 또는 기타 크로마틴 단백질이 결합 부위를 차지하거나 폐쇄하거나, 또는 이 결합 부위에 경쟁적으로 작용할 수 있다. 비록 다른 단백질들과 결합되어 있지 않다 하더라도, 세포 내의 핵산 구조는 구부러짐, 슈퍼코일링, 비틀림, 및 풀릴 필요가 있다. 반면, 폴리펩티드 자체도 프로테아제 및 챠페론(chaperone), 기타 인자들 중에 노출되어 있다. 게다가, 폴리펩티드는 전체 유전자라는 결합 가능한 부위와 직면하게 되고, 그리하여 선별 과정에서 선별되기 위하여는 원하는 부위로의 높은 특이성이 있어야만 한다. 생체 내 선별과는 대조적으로, 생체 외 선별은 높은 특이성을 갖는 결합물 보다는 높은 친화도를 갖는 결합물을 선택할 수 있다.The use of in vivo selection allows for the direct identification of polypeptides that bind to specific sites of DNA in the intracellular environment. Factors associated with intracellular, in particular eukaryotic, recognition are significantly different from those present during in vitro selection scenarios. For example, within a eukaryotic nucleus, a polypeptide must compete with a myriad of other nuclear proteins for specific nucleic acid binding sites. Nucleosomes or other chromatin proteins may occupy or close the binding site, or competitively act on this binding site. Although not associated with other proteins, nucleic acid structures in cells need to bend, supercoil, torsion, and unwind. Polypeptides themselves, on the other hand, are also exposed to proteases and chaperones and other factors. In addition, the polypeptide is confronted with a bindable site called the whole gene, and therefore must be of high specificity to the desired site in order to be selected during the selection process. In contrast to in vivo selection, in vitro selection can select a binding with a high affinity rather than a binding with high specificity.

발현되는 키메라 폴리펩티드의 결합 능력을 보여주기 위해 리포터 유전자를 사용하는 것은 효과적이고 간단할 뿐 아니라, 단백질-핵산 접경의 에너지학, 주변 잔기 및 결합에 영향을 주는 뉴클레오티드와 같은 수 많은 주변 인자들을 계산에 넣어 작성하는 복잡한 상호작용 코드를 만들 필요가 없어서 유리하다[Segalet al.(1999)Proc. Natl. Acad. Sci. USA 96:2758-2763].Using reporter genes to demonstrate the binding capacity of expressed chimeric polypeptides is not only effective and simple, but also involves calculation of numerous peripheral factors such as energy, protein residues and nucleotides that affect binding. This is advantageous because there is no need to create complex interactive code that you write . (1999) Proc. Natl. Acad. Sci . USA 96: 2758-2763.

본 발명은 그 자체로 인간 유전체, 또는 임의의 다른 종의 유전체에 존재하는 모든 징크 핑거 도메인을 유용하게 한다. 이러한 다양한 표본으로부터 징크 핑거 도메인의 구조적 폴딩이 점유하는 서열 공간을 선택함은 오랜 옛날부터 자연적으로 선택되게 된 잇점을 본래적으로 가질 수 있다. 게다가, 본원에 기술된 방법에 따라 유전자 치료에 적용되도록 설계된 DNA 결합 단백질은 숙주 종으로부터 얻은 도메인을 이용하기 때문에 숙주 면역계에 의해 외부적인 것으로 취급될 가능성이 감소된다.The present invention makes itself useful for all zinc finger domains present in the human genome, or any other species of genome. Selecting the sequence space occupied by the structural folding of the zinc finger domain from these various samples can inherently take advantage of the natural selection of the ancient times. In addition, DNA binding proteins designed to be applied to gene therapy according to the methods described herein utilize a domain obtained from a host species, thereby reducing the likelihood of being treated externally by the host immune system.

하나 이상의 본 발명의 상세한 실시태양을 첨부 도면 및 하기 설명으로 제시한다. 본 발명의 다른 특징, 목적, 및 잇점은 이 설명 및 도면, 및 청구항으로부터 명백해질 것이다.One or more detailed embodiments of the invention are set forth in the accompanying drawings and the description below. Other features, objects, and advantages of the invention will be apparent from the description and drawings, and from the claims.

도 1은 3개의 징크 핑거 도메인으로 구성된 Zif268 징크 핑거 단백질이 DNA 서열 5'-GCG TGG GCG T-3'와 결합하고 있는 모습을 보여 주는 3차 구조를 나타내는 도면이다.1 is a diagram showing a tertiary structure showing that the Zif268 zinc finger protein consisting of three zinc finger domains binds to a DNA sequence 5'-GCG TGG GCG T-3 '.

도 2는 Zif268의 아미노산 잔기와 DNA 염기 사이의 수소 결합 상호작용을 나타낸다. 알파헬릭스를 따라 -1, 2, 3 및 6 위치의 아미노산 잔기들은 특정 위치의 염기들과 상호작용한다. 굵은 선은 이상적인 수소 결합을 나타내며, 점선은 잠재적인 수소 결합을 나타낸다.2 shows the hydrogen bond interactions between the amino acid residues of Zif268 and the DNA base. Along the alpha helix, amino acid residues at positions -1, 2, 3, and 6 interact with bases at specific positions. The thick line represents the ideal hydrogen bond and the dashed line represents the potential hydrogen bond.

도 3은 징크 핑거 도메인의 알파헬릭스를 따라 -1, 2, 3 및 6번 위치의 아미노산 잔기와 DNA 염기 사이의 상호작용을 요약한 인식 코드(recognition code) 표를 나타낸다.3 shows a table of recognition codes summarizing the interaction between amino acid residues at positions -1, 2, 3, and 6 and the DNA base along the alpha helix of the zinc finger domain.

도 4는 아미노산 잔기 및 이들의 상응하는 3 염기 세트(3 base triplet)의 위치를 나타내는 도면이다. 굵은 선은 관찰되는 주요 상호작용을 나타내고 점선은 보조 상호작용을 나타낸다.4 is a diagram showing the positions of amino acid residues and their corresponding three base triplet. The thick line represents the major interaction observed and the dashed line represents the secondary interaction.

도 5는 본 명세서에 개시된 생체 내 (in vivo) 선별 시스템의 원리를 설명하는 도면이다. 다양한 징크 핑거 돌연변이 중, 징크 핑거 도메인 A는 표적서열(XXXX 로 표시)을 인식하고HIS3리포터 유전자의 전사를 활성화시킨다. 결과적으로, 효모 콜로니는 히스티딘이 결핍된 배지에서 자란다. 이와 대조적으로, 징크 핑거 도메인 B는 표적 서열을 인식하지 않으며 따라서 리포터 유전자는 억압되어 있게 된다. 그 결과, 히스티딘이 결핍된 배지에서 콜로니가 자라지 않는다. AD는 전사 활성화 도메인을 나타낸다.5 is a diagram illustrating the principle of the in vivo selection system disclosed herein. Among various zinc finger mutations, zinc finger domain A recognizes the target sequence (denoted by XXXX) and activates transcription of the HIS3 reporter gene. As a result, yeast colonies grow in histidine deficient media. In contrast, zinc finger domain B does not recognize the target sequence and thus the reporter gene remains suppressed. As a result, colonies do not grow in histidine-deficient media. AD represents a transcriptional activation domain.

도 6은 HIV의 긴말단반복부위(Long Terminal Repeat; LTR)에서 및 HIV-1의 공수용체(coreceptor)를 코딩하는 인간 유전자인 CCR5의 프로모터 부위에서 발견되는 10-bp 서열의 목록이다(각각 SEQ ID NOs: 1-5). 밑줄친 부분은 본 발명의 선별에서 사용된 4-bp 표적 서열을 나타낸다.FIG. 6 is a list of 10-bp sequences found in the Long Terminal Repeat (LTR) of HIV and in the promoter region of CCR5, the human gene encoding the coreceptor of HIV-1 (SEQ ID NO: 1) ID NOs: 1-5). The underlined portions represent 4-bp target sequences used in the selection of the present invention.

도 7은 리포터 유전자에 연결된 결합 부위의 염기 서열을 나타낸다 (각각 SEQ ID NOs: 6-17). 각각의 결합 부위는 복합 결합 서열 4 카피가 직렬로 배치되어 구성되어 있다. 각각의 복합 결합 서열은 Zif268의 핑거 1 및 핑거 2에 의해 인식되는 절단된 결합 서열 5'-GG GCG-3'을 4-bp 표적 서열에 연결시켜 제조되었다.Figure 7 shows the nucleotide sequence of the binding site linked to the reporter gene (SEQ ID NOs: 6-17, respectively). Each binding site consists of four copies of the complex binding sequence arranged in series. Each complex binding sequence was prepared by linking the truncated binding sequence 5'-GG GCG-3 'recognized by Finger 1 and Finger 2 of Zif268 to the 4-bp target sequence.

도 8은 하이브리드 플라스미드의 라이브러리 제조에 사용 가능한 플라스미드인 pPCFMS-Zif의 도면이다(SEQ ID NO: 18 및 19).8 is a diagram of pPCFMS-Zif, a plasmid that can be used for library preparation of hybrid plasmids (SEQ ID NOs: 18 and 19).

도 9는 pPCFMS-Zif에 삽입된 Zif268 징크 핑거 단백질을 코딩하는 유전자에 대한 염기 서열 및 상응하는 번역된 아미노산 서열을 나타낸다 (각각 SEQ ID NOs: 20 및 21). 제한 효소에 의해 인식되는 부위에 밑줄을 그었다.Figure 9 shows the base sequence for the gene encoding Zif268 zinc finger protein inserted in pPCFMS-Zif and the corresponding translated amino acid sequence (SEQ ID NOs: 20 and 21, respectively). The sites recognized by restriction enzymes are underlined.

도 10은 생체 내 선별 시스템에 의해 선택된 징크 핑거 단백질을 사용하여재형질전환(retransformation) 및 교차 형질전환(cross-transformation)으로부터 얻은 효모 세포를 가지는 배양 플레이트의 사진이다.10 is a photograph of culture plates with yeast cells obtained from retransformation and cross-transformation using zinc finger proteins selected by an in vivo selection system.

도 11은 인간 유전체로부터 제조된 징크 핑거 라이브러리로부터 생체 내 시스템에 의해 선택된 징크 핑거 도메인의 특정 DNA 서열 및 이 DNA 서열에 의해 코딩되는 아미노산 서열의 목록이다 (SEQ ID NOs: 22-33). 인간 유전체로부터 징크 핑거 도메인을 코딩하는 DNA 세그먼트를 증폭시키는 데 사용되는 축중(degenerate) PCR 프라이머에 상응하는 DNA 서열에 밑줄을 그었다. 4개의 잠재적인 염기-접촉 위치를 표시하였으며, 아미노산 잔기를 굵게 나타내었다. 아연 이온과 배위결합할 것으로 예상되는 두 개의 Cys 잔기 및 두 개의 His 잔기를 이탤릭체로 나타내었다.FIG. 11 is a list of specific DNA sequences of the zinc finger domains selected by the in vivo system from zinc finger libraries prepared from the human genome and the amino acid sequences encoded by these DNA sequences (SEQ ID NOs: 22-33). DNA sequences corresponding to degenerate PCR primers used to amplify DNA segments encoding zinc finger domains from the human genome were underlined. Four potential base-contacting positions are indicated and amino acid residues are shown in bold. Two Cys residues and two His residues that are expected to coordinate with zinc ions are shown in italics.

본 발명은 시험 징크 핑거 도메인의 핵산 결합 우선성을 결정하기 위한 새로운 스크리닝법에 관한 것이다. 이 방법에서는 다양한 종류의 DNA 결합 도메인, 이들 도메인의 다양한 원천들 및 수 많은 설계된 라이브러리, 수 많은 리포터 유전자, 및 수 많은 선별 및 스크리닝 시스템이 이용될 수 있다. 이 스크리닝 방법은 많은 작업처리량을 기반으로 하여 수행될 수 있다. 이 스크리닝 방법으로부터 얻은 정보는 인위적 핵산 결합 단백질을 디자인하는 방법에 즉시 이용될 수 있다. 상기 인위적 핵산 결합 단백질을 디자인하는 방법은 시험 징크 핑거 도메인의 결합 우선성를 이용하여 키메라 핵산 결합 단백질의 단위체적 조립을 가능하게 한다. 디자인된 단백질은 상기 스크리닝 방법으로 더욱 최적화되거나 또는 변형될 수 있다.The present invention relates to a novel screening method for determining the nucleic acid binding priority of a test zinc finger domain. In this method, various kinds of DNA binding domains, various sources of these domains, and many designed libraries, numerous reporter genes, and numerous screening and screening systems can be used. This screening method can be performed based on high throughput. The information obtained from this screening method can be used immediately for methods of designing artificial nucleic acid binding proteins. The method of designing the artificial nucleic acid binding protein enables the unitary assembly of the chimeric nucleic acid binding protein using the binding priority of the test zinc finger domain. The designed protein can be further optimized or modified by the above screening method.

DNA 결합 도메인DNA binding domain

본 발명은 상이한 결합 특이성을 갖는 핵산 결합 도메인의 집합체를 이용한다. 높은 친화성 및 높은 특이성을 가지고 핵산에 결합하는 다양한 단백질 구조가 알려져 있다. 수 많은 상이한 단백질들은 이들 구조를 반복적으로 포함하여 핵산의 기능을 특이적으로 제어한다 (이중 나선 DNA를 인식하는 구조적 모티브 검토를 위해, 예를 들어 문헌 [Pabo and Sauer (1992)Annu. Rev. Biochem. 61:1053-95; Patikoglou and Burley (1997)Annu. Rev. Biophys. Biomol. Struct. 26: 289-325; 및 Nelson (1995)Curr Opin Genet Dev. 5:180-9] 참조). 핵산 결합 도메인에 대한 몇 가지 비제한적인 예는 다음과 같다.The present invention utilizes aggregates of nucleic acid binding domains with different binding specificities. Various protein structures are known that bind to nucleic acids with high affinity and high specificity. Numerous different proteins include these structures repeatedly to specifically control the function of nucleic acids (For review of structural motifs recognizing double helix DNA, see, eg, Pabo and Sauer (1992) Annu. Rev. Biochem 61: 1053-95; Patikoglou and Burley (1997) Annu. Rev. Biophys. Biomol. Struct . 26: 289-325; and Nelson (1995) Curr Opin Genet Dev . 5: 180-9). Some non-limiting examples of nucleic acid binding domains are as follows.

징크 핑거.징크 핑거는 대략 30 개의 아미노산 잔기로 된 작은 폴리펩티드 도메인으로서, 그 중 시스테인 또는 히스티딘으로 된 4 개의 아미노산이 적절히 배치되어 아연 이온과 배위결합을 할 수 있다(도 1 참조; 검토를 위해 예를 들어 문헌 [Klug and Rhodes (1987)Trends Biochem. Sci.12: 464-469 (1987); Evans and Hollenberg (1988)Cell52: 1-3; Payre and Vincent (1988)FEBS Lett.234: 245-250; Miller et al. (1985)EMBO J.4:1609-1614; Berg (1988)Proc. Natl. Acad. Sci. U.S.A.85:99-102; 및 Rosenfeld and Margalit (1993)J. Biomol. Struct. Dyn.11: 557-570] 참조). 따라서, 징크 핑거 도메인은 아연 이온과 배위결합을 하는 잔기의 종류에 따라 예를 들어 Cys2-His2류, Cys2-Cys2류, Cys2-CysHis류 등으로 분류할 수 있다. Cys2-His2징크 핑거에서 아연과 배위결합하는 잔기는 전형적으로 Xa-X-C-X2-5-C-X3-Xa-X5-ψ-X2-H-X3-5-H (여기서 ψ(프사이)는 소수성 잔기임)과 같이 배치되어 있으며[Wolfe et al., (1999)Annu. Rev. Biophys. Biomol. Struct. 3:183-212](SEQ ID NO:76), 여기서 "X"는 임의의 아미노산을 나타내고 Xa는 페닐알라닌 또는 티로신이며, 아래첨자는 아미노산의 개수를 가리키고 두 개의 아래첨자는 개입하는 아미노산의 전형적인 범위를 가리킨다. 비록 역평행 (anti-parallel) 베타시트는 짧고 비이상적이고 존재하지 않을 수 있지만, 개입하는 아미노산은 폴딩되어 전형적으로 알파헬릭스에 대하여 충전되는 역평행 베타시트를 형성한다. 폴딩으로 아연과 배위결합하는 면의 사슬이 아연 이온과 배위결합하기에 적합한 사면체 구조를 갖도록 배치된다. 염기 접촉 잔기는 핑거의 N-말단에 위치하고 선행하는 루프 지역에 위치한다(도 2). 징크 핑거 DNA-결합 단백질은 통상적으로 직렬로 배치된 세 개 이상의 징크 핑거 도메인으로 구성된다. Zinc finger. Zinc fingers are small polypeptide domains of approximately 30 amino acid residues, of which four amino acids of cysteine or histidine can be appropriately arranged to coordinate with zinc ions (see FIG. 1; Klug and Rhodes (1987) Trends Biochem. Sci. 12: 464-469 (1987); Evans and Hollenberg (1988) Cell 52: 1-3; Payre and Vincent (1988) FEBS Lett. 234: 245-250; Miller. et al. (1985) EMBO J. 4: 1609-1614; Berg (1988) Proc. Natl. Acad. Sci. USA 85: 99-102; and Rosenfeld and Margalit (1993) J. Biomol. Struct. Dyn. 11 : 557-570). Thus, zinc finger domains can be categorized into the zinc ion and example Cys 2 -His depending on the type of residue a coordination bond minor, Cys 2 -Cys minor, Cys 2 -CysHis and the like. The residues that coordinate with zinc in the Cys 2 -His 2 zinc finger are typically X a -XCX 2-5 -CX 3 -X a -X 5 -ψ-X 2 -HX 3-5 -H (where ψ ( Are hydrophobic residues) (Wolfe et al., (1999) Annu. Rev. Biophys. Biomol. Struct . 3: 183-212] (SEQ ID NO: 76), wherein "X" represents any amino acid and X a is phenylalanine or tyrosine, the subscript indicates the number of amino acids and the two subscripts are typical of intervening amino acids. Point to a range. Although anti-parallel betasheets are short, non-ideal, and may not exist, intervening amino acids are folded to form antiparallel betasheets, which are typically filled for alpha helix. The side chains that coordinate with zinc by folding are arranged to have a tetrahedral structure suitable for coordinating with zinc ions. Base contact residues are located at the N-terminus of the finger and in the preceding loop region (FIG. 2). Zinc finger DNA-binding proteins typically consist of three or more zinc finger domains arranged in series.

징크 핑거 도메인("ZFD")는 가장 흔한 진핵생물 DNA-결합 모티브 중 하나로서 효모로부터 고등 식물 및 인간에 이르는 다양한 종에서 발견된다. 인간 유전체에만도 수 천가지 이상의 징크 핑거 도메인이 존재할 것으로 추측된다. 징크 핑거 도메인은 징크 핑거 단백질로부터 단리될 수 있다. 징크 핑거 단백질의 비제한적인 예로는 CF2-II, 크룹펠(Kruppel), WT1, 바소누클린(basonuclin), BCL-6/LAZ-3, 적혈구 크룹펠-유사 전사인자, 전사인자 Sp1, Sp2, Sp3 및 Sp4, 전사 억제제 YY1, EGR1/Krox24, EGR2/Krox20, EGR3/Pilot, EGR4/AT133, Evi-1, GLI1, GLI2, GLI3, HIV-EP1/ZNF40, HIV-EP2, KR1, ZfX, ZfY 및 ZNF7 등이 있다.Zinc finger domains (“ZFDs”) are one of the most common eukaryotic DNA-binding motifs and are found in a variety of species, from yeast to higher plants and humans. It is estimated that there are thousands of zinc finger domains in the human genome alone. Zinc finger domains can be isolated from zinc finger proteins. Non-limiting examples of zinc finger proteins include CF2-II, Kruppel, WT1, basonuclin, BCL-6 / LAZ-3, red blood cell Kruppel-like transcription factor, transcription factors Sp1, Sp2, Sp3 and Sp4, transcription inhibitors YY1, EGR1 / Krox24, EGR2 / Krox20, EGR3 / Pilot, EGR4 / AT133, Evi-1, GLI1, GLI2, GLI3, HIV-EP1 / ZNF40, HIV-EP2, KR1, ZfX, ZfY and ZNF7 and the like.

하기 전산화 방법을 사용하여 서열이 밝혀진 유전체 중에서 또는 핵산 데이터베이스 중에서 모든 징크 핑거 도메인을 동정할 수 있다. 임의의 그러한 징크 핑거 도메인을 이용할 수 있다. 또한, 인위적인 징크 핑거 도메인이 예를 들어 전산화 방법에 의해 디자인되었다[예를 들어, Dahiyat and Mayo (1997)Science278:82-7]. 상기 문헌의 징크 핑거는 징크 핑거 폴딩은 채택하지만 그 중앙 코어에 아연 이온을 함유하지는 않는다. 따라서, 이는 아연 이온과 배위결합한다는 기능 면에서라기보다, 그 폴리펩티드 골격이 천연 징크 핑거 폴딩과 구조적으로 유사하다는 점에서의 징크 핑거이다.The following computerization methods can be used to identify all zinc finger domains in sequenced genomes or in nucleic acid databases. Any such zinc finger domain can be used. In addition, artificial zinc finger domains have been designed by, for example, computerized methods (eg, Dahiyat and Mayo (1997) Science 278: 82-7). The zinc finger of this document adopts zinc finger folding but does not contain zinc ions in its central core. Thus, it is a zinc finger in that its polypeptide backbone is structurally similar to natural zinc finger folding, rather than in terms of coordination with zinc ions.

호메오도메인.호메오도메인은 DNA의 부된(minor) 그루브(groove)와 접촉하는 N-말단 가지 및 이어 주된(major) 그루브와 접촉하는 3 개의 알파헬릭스로 구성되는 단순한 진핵생물 도메인이다[예를 들어, Laughon, (1991)Biochemistry30: 11357-67 참고]. 세 번째 알파헬릭스는 주된 그루브 중에 위치하며 결정적인 DNA-접촉 측쇄를 함유한다. 호메오도메인은 세 번째 알파헬릭스로 인도하는 전환점에 존재하는 고도로 보존된 특징적인 모티브를 가진다. 이 모티브는 도메인의 소수성 코어 내에 존재하는 불변 트립토판을 포함한다. 이 모티브는 프로사이트(Prosite) 데이터베이스 (http://www.expasy.ch/ 참고)에 PDOC00027로서 공지되어 있다 ([L/I/V/M/F/Y/G]-[A/S/L/V/R]-X(2)-[L/I/V/M/S/T/A/C/N]-X-[L/I/V/M]-X(4)-[L/I/V]-[R/K/N/Q/E/S/T/A/I/Y]-[L/I/V/F/S/T/N/K/H]-W-[F/Y/V/C]-X-[N/D/Q/T/A/H]-X(5)-[R/K/N/A/I/M/W]; SEQ ID NO:77). 호메오도메인은 세포 동일성을 결정하고 유기체의 발생 과정에서 위치적인 정보를 제공하는 전사인자에서 흔히 발견된다. 그러한 고전적인 호메오도메인은, 유전체상에 무리(cluster)지어 존재하는데, 호메오도메인의 발현 패턴이 바디축(body axis)을 따라 근사적으로 상응하도록 유전체 무리(cluster) 중에서 발견될 수 있다. 호메오도메인은 예를 들어 Hox-1과 같은 호메오도메인과의 정렬에 의해, 또는 호메오도메인 프로필 또는 호메오도메인 히든 마르코프 모델(hidden Markov Model; HMM; 하기 참조), 예를 들어Pfarm 데이터베이스의 PF00046 또는 SMART 데이터베이스의 "HOX"와의 정렬에 의해 (http://smart.embl-heidelberg.de/), 또는 상기한 프로사이트 모티브 PDOC00027에 의해 동정 가능하다. Homeo domain. Homeodomains are simple eukaryotic domains consisting of N-terminal branches in contact with minor grooves of DNA followed by three alpha helices in contact with major grooves (eg, Laughon, (1991) Biochemistry 30: 11357-67. The third alpha helix is located in the main groove and contains the crucial DNA-contact side chain. Homeodomains have a highly conserved characteristic motif that exists at the turning point leading to the third alpha helix. This motif includes the constant tryptophan present in the hydrophobic core of the domain. This motif is known as PDOC00027 in the Prosite database (see http://www.expasy.ch/) ([L / I / V / M / F / Y / G]-[A / S / L / V / R] -X (2)-[L / I / V / M / S / T / A / C / N] -X- [L / I / V / M] -X (4)-[ L / I / V]-[R / K / N / Q / E / S / T / A / I / Y]-[L / I / V / F / S / T / N / K / H] -W -[F / Y / V / C] -X- [N / D / Q / T / A / H] -X (5)-[R / K / N / A / I / M / W]; SEQ ID NO: 77). Homeodomains are commonly found in transcription factors that determine cell identity and provide positional information in the development of an organism. Such classical homeodomains are clustered on the genome, and can be found in the genome cluster so that the expression pattern of the homeodomain approximately corresponds along the body axis. Homeodomains are for example by alignment with a homeodomain such as Hox-1, or by a homeodomain profile or homeodomain Hidden Markov Model (HMM; see below), for example in the Pfarm database. (Http://smart.embl-heidelberg.de/) by alignment with " HOX " in the PF00046 or SMART database, or by the above-mentioned prosite motif PDOC00027.

헬릭스-턴-헬릭스 단백질.이 DNA 결합 모티브는 많은 원핵 생물 전사인자 중에서 흔히 발견된다. 예를 들어 LacI 족, AraC 족 등 많은 아족이 있다. 명칭에서 두 개의 헬릭스는 DNA의 주된 그루브에 대항하여 위치하고 두 번째 알파헬릭스를 DNA의 주된 그루브 내로 배치하는 첫번째 알파헬릭스 및 이렇게 DNA의 주된 그루브에 위치하는 두 번째 알파헬릭스이다. 이들 도메인은 HMM, 예를 들어 SMART 데이터베이스에서 얻을 수 있는 HTH_ARAC, HTH_ARSR, HTH_ASNC, HTH_CRP, HTH_DEOR, HTH_DTXR, HTH_GNTR, HTH_ICLR, HTH_LACI, HTH_LUXR, HTH_MARR, HTH_MERR 및 HTH_XRE 프로필과의 정렬에 의해 동정된다 (http://smart.embl-heidelberg.de/). Helix-Turn-Helix Protein. This DNA binding motif is commonly found among many prokaryotic transcription factors. For example, there are many subs, including LacI and AraC. The two helixes in the designation are the first alpha helix that is located against the major groove of the DNA and the second alpha helix is placed into the major groove of the DNA and so the second alpha helix located in the major groove of the DNA. These domains are ordered by HMM, e.g., HTH_ARAC, HTH_ARSR, HTH_ASNC, HTH_CRP, HTH_DEOR, HTH_DTXR, HTH_GNTR, HTH_ICLR, HTH_LACI, HTH_LUXR, HTH_MARR, HTH_MERR and HTH_MARR and HTH_MERR //smart.embl-heidelberg.de/).

헬릭스-루프-헬릭스 단백질.이 DNA 결합 도메인은 예를 들어 MyoD, fos, jun, E11 및 미오제닌과 같은 호모- 및 헤테로-이량체 전사인자들 사이에 공통적으로 발견된다. 이 도메인은 이량체 및 그 사이의 루프로 이루어지며, 각 단량체는 두 개의 알파헬릭스에 걸쳐 결합한다. 이 도메인은 예를 들어 SMART 데이터베이스(http://smart.embl-heidelberg.de/)에서 이용 가능한 "HLH" 프로필과 같은 HMM과의 정렬에 의해 동정될 수 있다. 비록 헬릭스-루프-헬릭스 단백질은 전형적으로 이량체성이지만, 폴리펩티드 링커를 두 개의 서브유닛 사이에 설계하여 단일 오픈 리딩 프레임(open reading frame)이 두 개의 서브유닛 및 링커를 코딩하도록 함으로써 단량체성 버젼을 구축할 수 있다. Helix-loop-helix protein. This DNA binding domain is commonly found among homo- and hetero-dimeric transcription factors such as, for example, MyoD, fos, jun, E11 and myogenin. This domain consists of a dimer and a loop in between, with each monomer binding across two alpha helices. This domain can be identified by alignment with HMM, such as for example the "HLH" profile available in the SMART database (http://smart.embl-heidelberg.de/). Although helix-loop-helix proteins are typically dimeric, constructing monomeric versions by designing a polypeptide linker between two subunits such that a single open reading frame encodes the two subunits and the linker can do.

DNA-결합 도메인의 동정Identification of DNA-Binding Domains

다양한 방법을 사용하여 구조 도메인을 동정할 수 있다.Various methods can be used to identify structural domains.

전산화 방법(Computational Method).본 명세서에 기술된 방법에 의해 단리된 DNA 결합 도메인의 아미노산 서열을 공지 서열의 데이터베이스, 예를 들어 단백질 서열의 주석을 단 데이터베이스 또는 핵산 결합 도메인에 대한 기입을 포함하는 주석을 단 데이터베이스와 비교할 수 있다. 또다른 실시면에서는, 비특성화된 서열, 예를 들어 주석을 달지 않은 유전체 서열, EST 또는 전장 cDNA 서열; 특성화된 서열, 예를 들어 SwissProt 또는 PDB; 및 도메인, 예를 들어 Pfarm, ProDom (http://www.tooulouse.inra.fr/), 및 SMART (Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/)의 데이터베이스가 핵산 결합 도메인 서열의 원천을 제공할 수 있다. 의문 아미노산 서열과 비교하기 위하여 핵산 서열 데이터베이스를 모든 6개의 해독 프레임(reading frame)으로 번역할 수 있다. 후보 핵산 결합 도메인을 코딩하는 것으로 표식된 핵산 서열을 적합한 핵산 원, 예를 들어 유전체 DNA 또는 세포 RNA로부터 증폭할 수 있다. 그러한 핵산 서열을 발현 벡터 중으로 클로닝할 수 있다. 컴퓨터에 기초한 도메인 동정의 상기 과정을 올리고뉴클레오티드 합성기 및 로보트 시스템과 연계시켜 높은 작업처리량으로 도메인을 코딩하는 핵산을 생산할 수 있다. 후보 도메인을 코딩하는 클로닝된 핵산을 숙주 발현 벡터 중에 저장하고 제한 효소 매개 서브클로닝 또는 부위-특이적 재조합효소 매개 서브클로닝(미국특허 제5,888,732호 참조)에 의해 Zif268 핑거 1 및 2와 함께 발현 벡터, 예를 들어 번역 융합 벡터 중으로 도입시킬 수 있다. 높은 작업 처리량을 위하여, 상이한 후보 핵산 결합 도메인을 코딩하는 핵산을 함유하는 다수의 마이크로타이터 플레이트를 생성할 수 있다. Computational Method. The amino acid sequence of the DNA binding domain isolated by the methods described herein can be compared to a database of known sequences, such as an annotated database comprising an annotated database or an entry for a nucleic acid binding domain. . In another embodiment, non-characterized sequences, such as annotated genomic sequences, EST or full length cDNA sequences; Characterized sequences, eg SwissProt or PDB; And databases of domains such as Pfarm, ProDom (http://www.tooulouse.inra.fr/), and SMART (Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/) Sources of binding domain sequences can be provided. The nucleic acid sequence database can be translated into all six reading frames for comparison with questionable amino acid sequences. Nucleic acid sequences labeled as encoding the candidate nucleic acid binding domains can be amplified from suitable nucleic acid sources such as genomic DNA or cellular RNA. Such nucleic acid sequences can be cloned into expression vectors. The above process of computer-based domain identification can be combined with oligonucleotide synthesizers and robotic systems to produce nucleic acids encoding domains with high throughput. Cloned nucleic acid encoding the candidate domains is stored in a host expression vector and expression vectors with Zif268 fingers 1 and 2, by restriction enzyme mediated subcloning or site-specific recombinase mediated subcloning (see US Pat. No. 5,888,732), For example, it can be introduced into a translational fusion vector. For high throughput, multiple microtiter plates containing nucleic acids encoding different candidate nucleic acid binding domains can be generated.

출발 서열 또는 프로필로부터 도메인을 동정하는 세부 방법은 당업계에 주지되어 있다. 예를 들어 프로사이트([Hofmann et al., (1999)Nucleic Acids Res.27:215-219] 참조), FASTA, BLAST([Altschul et al., (1990)J. Mol. Biol.215:403-10] 참조) 등을 참조할 수 있다. 간단한 스트링 검색을 수행하여 의문 서열 또는 의문 프로필에 대한 동일성을 가지는 아미노산 서열을 찾을 수 있으며, 예를 들어 Perl(http://bio.perl.org/)을 사용하여 텍스트 화일을 스캐닝할 수 있다. 이렇게 동정된 서열은 초기 입력 서열에 대해 약 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 그 이상의 일치성을 나타낼 수 있다.Detailed methods of identifying domains from the starting sequence or profile are well known in the art. See, eg, Prosite (Hofmann et al., (1999) Nucleic Acids Res. 27: 215-219), FASTA, BLAST (Altschul et al., (1990) J. Mol. Biol. 215: 403 -10], etc.). A simple string search can be performed to find amino acid sequences with identity to question sequences or question profiles, for example using Perl (http://bio.perl.org/) to scan text files. Such identified sequences may exhibit about 30%, 40%, 50%, 60%, 70%, 80%, 90% or more identity to the initial input sequence.

의문 도메인과 유사한 도메인을 공용 데이터베이스, 예를 들어 문헌 [Altschul et al., (1990)J. Mol. Biol.215:403-10]의 XBLAST 프로그램(버젼 2.0)을 사용하여 동정할 수 있다. 예를 들어, 스코어 = 50, 단어 길이 = 3의 XBLAST 변수를 사용하여 BLAST 단백질 검색을 수행할 수 있다. 문헌 [Altschul et al., (1997)Nucleic Acids Res.25(17):3389-3402]에 기술된 바와 같이 의문 서열 또는 검색된 서열에 간격을 도입할 수 있다. XBLAST 및 Gapped BLAST 프로그램에 대한 디폴트 변수는 http://www.ncbi.nlm.nih.gov 사이트에서 구할 수 있다.Domains similar to questionable domains can be found in public databases, for example in Altschul et al . Biol. 215: 403-10] can be identified using the XBLAST program (version 2.0). For example, a BLAST protein search can be performed using the XBLAST variable with score = 50, word length = 3. Altschul et al., (1997) Nucleic Acids Res. 25 (17): 3389-3402 may introduce gaps in the questionable or retrieved sequence. Default variables for the XBLAST and Gapped BLAST programs are available at http://www.ncbi.nlm.nih.gov.

프로사이트 프로필 PS00028 및 PS50157을 사용하여 징크 핑거 도메인을 동정할 수 있다. 80,000개 단백질 서열의 SWISSPROT 방출 중, 이들 프로필은 각각 3189 및 2316 개의 징크 핑거 도메인을 찾아내었다. 다양한 상이한 기법을 사용하여 관련된 단백질의 다중 서열 정렬로부터 프로필을 구축할 수 있다. 그리브스코프(Gribskov) 및 그의 동료들[Gribskov et al., (1990)Meth. Enzymol.183:146-159]은 심벌 비교 표를 이용하여 잔기 빈도 분포가 제공된 다중 서열 정렬을 각 위치에 대한 무게로 전환하였다. 예를 들어 프로사이트 데이터베이스 및 문헌 [Luethy et al., (1994)Protein Sci.3:139-1465]의 작업을 참조할 수 있다.Procise profiles PS00028 and PS50157 can be used to identify zinc finger domains. During SWISSPROT release of 80,000 protein sequences, these profiles found 3189 and 2316 zinc finger domains, respectively. A variety of different techniques can be used to construct profiles from multiple sequence alignments of related proteins. Gribskov and his colleagues [Gribskov et al., (1990) Meth. Enzymol. 183: 146-159 converted the multiple sequence alignments given the residue frequency distribution to the weight for each position using a symbol comparison table. See, for example, ProSite Database and Luethy et al., (1994) Protein Sci. 3: 139-1465.

관심있는 DNA 결합 도메인을 대표하는 히든 마르코프 모델(Hidden Markov Models; HMM's)은 예를 들어 팜(Pfarm) 데이터베이스, 릴리스 2.1과 같은 그러한 모델의 데이터베이스로부터 생성되거나 얻을 수 있다. 추가적인 도메인을 찾기 위해 예를 들어 상기 디폴트 변수를 사용하여 HMM으로 데이터베이스를 검색할 수 있다(예. 디폴트 변수를 위해 http://www.sanger.ac.uk/Software/Pfam/HMM_search 참조). 또는, 사용자는 상기 변수들을 최적화시킬 수 있다. 경계 스코어를 선택하여 서열 데이터베이스를 여과함으로써 경계 이상의 스코어를 가지는 서열이 후보 도메인으로서 표시되도록 할 수 있다. Pfam 데이터베이스의 설명은 문헌[Sonhammer et al., (1997)Proteins28(3):405-420]에서 찾을 수 있으며, HMM에 관한 상세한 설명은 예를 들어 문헌[Gribskov et al., (1990)Meth. Enzymol.183:146-159; Gribskov et al,. (1987)Proc. Natl. Acad. Sci. USA84:4355-4358; Krogh et al., (1994)J. Mol. Biol.235:1501-1531; 및 Stultz et al., (1993)Protein Sci.2:305-314]에서 찾을 수 있다.Hidden Markov Models (HMM's) representing the DNA binding domains of interest can be generated or obtained from databases of such models, such as, for example, Pfarm databases, Release 2.1. To find additional domains, for example, the default variables can be used to search the database with HMM (eg see http://www.sanger.ac.uk/Software/Pfam/HMM_search for default variables). Alternatively, the user can optimize the variables. Boundary scores can be selected to filter the sequence database so that sequences with scores above the boundary are displayed as candidate domains. A description of the Pfam database can be found in Sonhammer et al., (1997) Proteins 28 (3): 405-420, and a detailed description of HMM can be found in, for example, Gribskov et al., (1990) Meth. . Enzymol. 183: 146-159; Gribskov et al ,. (1987) Proc. Natl. Acad. Sci. USA 84: 4355-4358; Krogh et al., (1994) J. Mol. Biol. 235: 1501-1531; And Stultz et al., (1993) Protein Sci. 2: 305-314.

HMM의 SMART 데이터베이스(Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/; 문헌[Schultz et al., (1998)Proc. Natl. Acad. Sci. USA95:5857; 및 Schultz et al., (2000)Nucl. Acids Res28:231])는, HMMer2 검색 프로그램(문헌[Durbin et al., (1998)Biological sequence analysis: probabilistic models of proteins and nucleic acids.Cambridge University Press.]; http://hmmer.wustl.edu/)의 히든 마르코프 모델로 프로필함으로써 동정된 징크 핑거 도메인의 카탈로그(ZnF_C2H2; ZnF_C2C2; ZnF_C2HC; ZnF_C3H1; ZnF_C4; ZnF_CHCC; ZnF_GATA; 및 ZnF_NFX)를 제공한다.SMART databases of HMM (Simple Modular Architecture Research Tool, http://smart.embl-heidelberg.de/; Schultz et al., (1998) Proc. Natl. Acad. Sci. USA 95: 5857; and Schultz et al., (2000) Nucl.Acids Res 28: 231), HMMer2 search program (Durbin et al., (1998) Biological sequence analysis: probabilistic models of proteins and nucleic acids.Cambridge University Press.); http ZnF_C2H2; ZnF_C2C2; ZnF_C2HC; ZnF_C3H1; ZnF_C4; ZnF_CHCC; ZnF_GATA; and ZnF_NFX).

혼성화에 기초한 방법.다양한 형태의 DNA 결합 도메인을 코딩하는 핵산 집합체를 분석하여 아미노 말단 및 카르복시 말단의 보존적 경계 서열을 코딩하는 서열 프로필을 얻을 수 있다. 그러한 보존적 경계 서열을 코딩하는 핵산 서열에 혼성화할 수 있는 축중 올리고뉴클레오티드를 디자인할 수 있다. 또한, 그러한 축중 올리고뉴클레오티드의 유효성은 그들의 조성과 공지된 유전체 서열 상의 가능한 어닐링 부위의 빈도를 비교함으로써 평가될 수 있다. 다수 반복된 디자인에 의해 축중 올리고뉴클레오티드를 최적화할 수 있다. 예를 들어, 공지의 Cys2-His2징크 핑거들을 비교함으로써 천연 서열 중의 인접 핑거들 사이의 링커 지역의 공통 서열을 밝혀내었다 (문헌 [Agata et al., (1998)Gene213:55-64] 참조). 그러한 축중 올리고뉴클레오티드는 다수의 DNA 결합 도메인을 증폭시키는데 사용된다. 증폭된 도메인을 시험 징크 핑거 도메인으로서 하이브리드 핵산 중에 삽입하고 후속적으로본 명세서에 기술된 방법에 따라 표적 부위에의 결합을 분석한다. Method based on hybridization. Nucleic acid aggregates encoding various forms of DNA binding domains can be analyzed to obtain sequence profiles encoding conservative border sequences at the amino and carboxy termini. Degenerate oligonucleotides can be designed that can hybridize to nucleic acid sequences encoding such conservative border sequences. In addition, the effectiveness of such degenerate oligonucleotides can be assessed by comparing their composition with the frequency of possible annealing sites on known genomic sequences. Multiple repeated designs can optimize degenerate oligonucleotides. For example, by comparing known Cys 2 -His 2 zinc fingers, a consensus sequence of linker regions between adjacent fingers in the native sequence was found (Agata et al., (1998) Gene 213: 55-64). Reference). Such degenerate oligonucleotides are used to amplify multiple DNA binding domains. The amplified domain is inserted into the hybrid nucleic acid as the test zinc finger domain and subsequently analyzed for binding to the target site according to the methods described herein.

라이브러리 디자인Library design

이 방법은 DNA 결합 도메인을 코딩하는 핵산의 집합체(예를 들어 플라스미드, 파지미드 또는 파지 라이브러리의 형태) 중에서 기능적 핵산 결합 특성의 스크리닝을 가능하게 한다. 상기 핵산 집합체는 다양한 군의 DNA 결합 도메인을 코딩할 수 있으며, 심지어 상이한 폴딩 구조를 갖는 도메인도 코딩할 수 있다. 일 예로, 상기 집합체는 징크 핑거 도메인과 같은 단일 폴딩 구조의 도메인을 코딩한다. 비록 하기 방법은 징크 핑거 도메인에 관하여 기술되었지만, 당업계의 숙련가라면 이를 다른 유형의 핵산 결합 도메인에 응용할 수 있을 것이다.This method allows for the screening of functional nucleic acid binding properties in a collection of nucleic acids encoding a DNA binding domain (eg in the form of a plasmid, phagemid or phage library). The nucleic acid aggregates can encode various groups of DNA binding domains, and even domains with different folding structures. In one example, the aggregate codes for a domain of a single folding structure, such as a zinc finger domain. Although the method below has been described with respect to zinc finger domains, one skilled in the art will be able to apply it to other types of nucleic acid binding domains.

도메인 돌연변이.일 예에서, 상기 핵산 집합체는, 축중 패턴화 라이브러리로부터 조립되는 구조 도메인을 코딩하는 핵산으로 구성된다. 예를 들어, 징크 핑거의 경우, 공지 징크 핑거의 정렬을 통하여 각 위치에서의 가장 적합한 아미노산을 동정할 수 있다. 별법으로, 구조적 연구 및 돌연변이유발(mutagenesis) 실험을 통하여 각 위치 아미노산의 바람직한 특성을 결정할 수 있다. 임의의 핵산 결합 도메인도 돌연변이를 도입하기 위한 구조적 기반으로 사용될 수 있다. 특히, 핵산과 결합하는 부위에 매우 근접한 위치 또는 그러한 위치 옆을 돌연변이 유발을 위한 표적으로 삼을 수 있다. 패턴화된 축중 라이브러리를 사용함으로써, 돌연변이된 시험 징크 핑거 도메인의 돌연변이 위치에 가능한 아미노산을 일정한 종류로 한정시킬 수 있다. 각 위치에 상기 프로필을 코딩하기 위하여 축중 코돈 세트를 사용할 수 있다. 예를 들어, 소수성 잔기만, 지방족 잔기만 또는 친수성 잔기만을 코딩하는 코돈 세트가 이용가능하다. 폴딩된 폴리펩티드를 코딩하는 전장 클론을 위하여 상기 라이브러리를 선별할 수 있다. 문헌 [Cho et al., (2000)J. Mol. Biol.297(2):309-19]에서는 축중 올리고뉴클레오티드를 사용하여 그러한 축중 라이브러리를 제조하는 방법을 제공하며, 또한 전장 폴리펩티드를 코딩하는 라이브러리 핵산을 선별하는 방법을 제공한다. 이러한 핵산은 본 명세서에 기재된 선별법에 사용되기 위하여 편리한 제한 효소 절단 부위 또는 전위효소(transposase) 또는 재조합효소(recombinase) 인식 부위를 사용하여 발현 플라스미드 내로 쉽게 삽입할 수 있다. Domain mutations. In one embodiment, the nucleic acid aggregate consists of nucleic acids encoding structural domains assembled from degenerate patterned libraries. For example, in the case of zinc fingers, the alignment of known zinc fingers can identify the most suitable amino acid at each position. Alternatively, structural studies and mutagenesis experiments can determine the desired properties of each position amino acid. Any nucleic acid binding domain can also be used as the structural basis for introducing mutations. In particular, a site in close proximity to, or next to, the site that binds the nucleic acid can be targeted for mutagenesis. By using a patterned degenerate library, it is possible to limit to a certain kind the possible amino acids at the mutation site of the mutated test zinc finger domain. A set of degenerate codons can be used to code the profile at each location. For example, a codon set is available that encodes only hydrophobic residues, only aliphatic residues, or only hydrophilic residues. The library can be selected for full length clones encoding the folded polypeptide. Cho et al., (2000) J. Mol. Biol. 297 (2): 309-19, provides a method for preparing such a degenerate library using degenerate oligonucleotides, and also provides a method for selecting a library nucleic acid encoding a full-length polypeptide. Such nucleic acids can be readily inserted into expression plasmids using convenient restriction enzyme cleavage sites or transposase or recombinase recognition sites for use in the screening methods described herein.

적합한 코돈 및 주어진 위치에서의 각 뉴클레오티드의 상대 비율의 선택은, 유전자 코드를 나타내는 표를 간단히 조사하거나 또는 전산화 알고리즘에 의해 결정할 수 있다. 예를 들어, 상기 조(Cho) 등의 문헌에서는 요망되는 축중 단백질 서열을 입력하고 그 서열을 코딩하는 바람직한 올리고뉴클레오티드 디자인을 출력하는 전산 프로그램이 기재되어 있다.The selection of the appropriate codons and the relative proportions of each nucleotide at a given position can be determined by simply examining the table representing the genetic code or by computerization algorithms. For example, Cho et al. Describe a computational program that inputs a desired degenerate protein sequence and outputs a desired oligonucleotide design that encodes the sequence.

도메인의 천연적 종류의 단리.도메인 라이브러리를 인간과 같은 진핵 생물의 유전체 DNA 또는 cDNA로부터 구축할 수 있다. 이를 위해 다수의 방법이 가능하다. 예를 들어, 상기한 바와 같이 이용가능한 아미노산 서열의 전산 검색으로 도메인을 동정할 수 있다. 각 도메인을 코딩하는 핵산을 단리하고, 예를 들어 프로모터, 활성화 도메인 및 선별 마커를 함유하는 벡터와 같은, 세포 내 발현에 적합한 벡터 내로 삽입할 수 있다. 또다른 예에서, 보존적 모티브에 혼성화하는 축중 올리고뉴클레오티드를 사용하여 예를 들어 PCR에 의해 이 모티브를 함유하는 다수의 연관 도메인을 증폭시킨다. 예를 들어, 크룹펠-유사 Cys2His2징크 핑거를 문헌 [Agata et al., (1998)Gene213:55-64]의 방법에 의해 증폭시킬 수 있다. 이 방법은 또한, 예를 들어 Thr-Gly-(Glu/Gln)-(Lys/Arg)-Pro-(Tyr/Phe)(SEQ ID NO:78)과 같은 패턴의 서열인, 징크 핑거 도메인의 자연 발생적 링커 펩티드 서열을 보유한다. 또한, 이 방법은 관심있는 도메인에 국한된 집합체의 스크리닝이기 때문에, 비선별적 유전체 라이브러리 또는 cDNA 서열의 라이브러리의 스크리닝과 달리, 라이브러리 복잡성이 매우 감소하고, 대규모 라이브러리를 완전히 스크리닝하는 것이 갖는 내재적인 어려움으로 인해 목적하는 서열을 놓칠 가능성을 감소시킨다. Isolation of Natural Kinds of Domains. Domain libraries can be constructed from genomic DNA or cDNA of eukaryotic organisms such as humans. Many methods are possible for this. For example, domains can be identified by computational search of available amino acid sequences as described above. Nucleic acids encoding each domain can be isolated and inserted into a vector suitable for intracellular expression, such as, for example, a vector containing a promoter, an activating domain and a selection marker. In another example, degenerate oligonucleotides that hybridize to conservative motifs are used to amplify multiple associated domains containing this motif, for example by PCR. For example, a Kruppel-like Cys 2 His 2 zinc finger can be amplified by the method of Agata et al., (1998) Gene 213: 55-64. This method is also a natural of the zinc finger domain, which is a sequence of patterns such as, for example, Thr-Gly- (Glu / Gln)-(Lys / Arg) -Pro- (Tyr / Phe) (SEQ ID NO: 78). Retain the developmental linker peptide sequence. In addition, because this method is screening aggregates localized to the domain of interest, unlike screening of non-selective genomic libraries or libraries of cDNA sequences, the library complexity is greatly reduced and due to the inherent difficulty of fully screening large libraries Reduces the likelihood of missing the desired sequence.

인간 유전체는 다양한 징크 핑거 도메인을 함유하며, 이 중 다수는 특성화되지 않고 동정되지 않았다. 징크 핑거 도메인을 갖는 단백질은 코딩하는 수 천개의 유전자가 있을 것으로 생각된다[Pellegrino and Berg, (1991)Proc. Natl. Acad. Sci. USA88:671-675]. 이들 인간 징크 핑거 도메인은, 신규한 DNA-결합 단백질이 구축될 수 있는 다양한 도메인의 광범위한 집합체이다. 각 징크 핑거 도메인이 독특한 3- 내지 4-bp 서열을 인식하는 경우, 모든 가능한 3- 내지 4-bp 서열에 결합하는 데 필요한 도메인의 총 수는 단지 64 내지 256 (43내지 44)개이다. 천연 인간 유전체 라이브러리가 모든 가능한 인식 부위를 특이적으로 인식할 수 있는 충분한 수의 독특한 징크 핑거 도메인을 함유할 수 있다. 이들 징크 핑거 도메인은 인위적 키메라 DNA 결합 단백질을 구축하기 위하여 귀중하게 사용될 수 있다. 자연 발생적 징크 핑거 도메인은, 인간 유전체에서 유래하는 인위적 돌연변이와는 달리, 자연 선택 압력 하에서 진화된 것이며, 따라서 특정 DNA 서열에의 결합 및 생체내 기능을 위하여 자연적으로 최적화된 것일 수 있다.The human genome contains various zinc finger domains, many of which have not been characterized and identified. Proteins with zinc finger domains are thought to have thousands of genes encoding [Pellegrino and Berg, (1991) Proc. Natl. Acad. Sci. USA 88: 671-675. These human zinc finger domains are a broad collection of various domains on which novel DNA-binding proteins can be constructed. If each zinc finger domain recognizes a unique 3- to 4-bp sequence, the total number of domains required to bind to all possible 3- to 4-bp sequences is only 64 to 256 (4 3 to 4 4 ). Natural human genome libraries may contain sufficient numbers of unique zinc finger domains to specifically recognize all possible recognition sites. These zinc finger domains can be valuablely used to construct artificial chimeric DNA binding proteins. Naturally occurring zinc finger domains, unlike artificial mutations derived from the human genome, have evolved under natural selection pressure and thus may be naturally optimized for binding to specific DNA sequences and in vivo function.

인간 징크 핑거 도메인은, 예를 들어 유전자 치료에 응용되는 경우, 인체내에 도입될 때 면역부작용을 유도할 가능성이 훨씬 희박하다.Human zinc finger domains, for example, when applied to gene therapy, are much less likely to induce immune side effects when introduced into the human body.

특정 DNA 결합 특성을 가지는 징크 핑거 도메인의 생체 내 선별In vivo selection of zinc finger domains with specific DNA binding properties

원하는 DNA 인식 특성을 가지는 징크 핑거 도메인을 다음과 같은 생체내 스크리닝 시스템을 사용하여 동정할 수 있다. 관심있는 복합 결합 부위를 리포터 유전자의 상류에 삽입하여, 복합 결합 부위로 전사 활성화 도메인을 유인 소집함으로써 리포터 유전자 전사가 일정 수준 이상으로 증가하도록 한다. 고정된 DNA 결합 도메인에 융합된 시험 징크 핑거 도메인 및 전사 활성화 도메인으로 구성된 하이브리드 단백질을 코딩하는 발현 플라스미드를 구축한다.Zinc finger domains with desired DNA recognition properties can be identified using the following in vivo screening system. The complex binding site of interest is inserted upstream of the reporter gene to attract reporter gene transcription above a certain level by attracting the transcriptional activation domain to the complex binding site. An expression plasmid encoding a hybrid protein consisting of a test zinc finger domain and a transcriptional activation domain fused to an immobilized DNA binding domain is constructed.

복합 결합 부위는 둘 이상의 요소, 즉 소집 부위 및 표적 부위로 이루어진다. 이 시스템에서 고정된 DNA 결합 도메인이 소집 부위를 인식하도록 설계된다. 그러나, 소집 부위에 대한 고정된 DNA 결합 도메인의 결합 친화도는, 생체 내에서 단독으로는 리포터 유전자를 전사 활성화시키기에 불충분한 정도이다. 이것은 대조군 실험으로 확인할 수 있다.The complex binding site consists of two or more elements, namely a recruitment site and a target site. In this system, an immobilized DNA binding domain is designed to recognize the recruitment site. However, the binding affinity of the immobilized DNA binding domain for the recruitment site is insufficient to transcriptionally activate the reporter gene alone in vivo. This can be confirmed by a control experiment.

예를 들어, 세포 내에서 발현되었을 때 고정된 DNA 결합 도메인은 (시험 징크 핑거 도메인의 부재, 또는 비기능적이라고 알려졌거나 또는 공지된 DNA 접촉 잔기가 알라닌과 같은 대체 아미노산으로 치환된 시험 징크 핑거 도메인의 존재 하에서는) 리포터 유전자의 전사를 명목상의 수준 이상으로 활성화시킬 수 있어서는 안 된다. 다른 수단에 의해서(예를 들어, 리포터에 대한 경쟁적 억제제의 사용에 의해) 시스템의 민감도를 증가시킬 수 있으므로, 약간의 누출 또는 낮은 수준의 활성화는 허용된다. 고정된 DNA 결합 도메인은 소집 부위에 안정적으로 결합하지 않을 것으로 예상된다. 예를 들어, 고정된 DNA 결합 도메인은 약 0.1 nM, 1 nM, 1 μM, 10 μM, 100 μM 또는 그 이상의 해리 상수(Kd)를 가지고 소집 부위에 결합할 수 있다. 표적 부위에 대한 DNA 결합 도메인의 Kd는, 시험 징크 핑거 도메인의 부재 하에 또는 제2 표적 부위에 대한 특이성을 지닌 시험 징크 핑거 도메인의 부재 하에, 전기영동 이동 검정(electrophoretic mobility shift assay; EMSA)에 의해 시험관내에서 측정 가능하다.For example, when expressed in a cell, the immobilized DNA binding domain may be either (in the absence of the test zinc finger domain, or of a test zinc finger domain that is known to be nonfunctional or that a known DNA contact residue is substituted with a replacement amino acid such as alanine). In the presence of the gene, the transcription of the reporter gene should not be activated beyond the nominal level. Slight leakage or low levels of activation are allowed, as the sensitivity of the system can be increased by other means (eg, by the use of competitive inhibitors for reporters). It is expected that the immobilized DNA binding domain will not stably bind to the recruitment site. For example, the immobilized DNA binding domain can bind to the recruitment site with a dissociation constant (K d ) of about 0.1 nM, 1 nM, 1 μM, 10 μM, 100 μM or more. The K d of the DNA binding domain to the target site is subjected to electrophoretic mobility shift assay (EMSA) in the absence of the test zinc finger domain or in the absence of the test zinc finger domain with specificity for the second target site. Can be measured in vitro.

따라서, 하이브리드 단백질이 세포 내 복합 결합 부위에 안정적으로 결합하고 이로써 리포터 유전자를 활성화시키기 위해서는, 예를 들어 복합 결합 부위에서 다양성을 갖는 부위인 표적 부위를 인식하는 기능적(functional) 시험 징크 핑거 도메인의 부착이 필요하다. 표적 부위에 대한 시험 징크 핑거 도메인의 결합 우선도에 따라 소정 수준에 비해 증가된 리포터 유전자 발현을 가져올 것이다. 예를 들어, 관찰된 발현 수준을 소정 수준으로 나누어 얻어지는 리포터 유전자 발현의 증가 배수는 약 2, 4, 8, 20, 50, 100, 1000 배 또는 그 이상일 수 있다. 시험 징크 핑거 도메인이 표적 부위를 인식하는 경우, DNA 결합 도메인 및 시험 징크 핑거 도메인을 포함하는 전사인자의 Kd는, 예를 들어 표적 부위에 대한 특이성을 가진 시험 징크 핑거 도메인을 결여한 전사인자에 비해 증가한다. 예를 들어, 특이성을 가진 표적 부위와 복합체를 이룬 전사인자의 해리 상수(Kd)는 약 50 nM, 10 nM, 1 nM, 0.1 nM, 0.01 nM 또는 그 미만일 수 있다. Kd는 시험관내 EMSA에 의해 결정될 수 있다.Thus, in order for the hybrid protein to stably bind to the intracellular complex binding site and thereby activate the reporter gene, for example, the attachment of a functional test zinc finger domain that recognizes a target site that is a site with diversity in the complex binding site This is necessary. Depending on the binding priority of the test zinc finger domain to the target site, this will result in increased reporter gene expression compared to a predetermined level. For example, the increased fold of reporter gene expression obtained by dividing the observed expression level by a predetermined level may be about 2, 4, 8, 20, 50, 100, 1000 times or more. When the test zinc finger domain recognizes a target site, the K d of the transcription factor comprising the DNA binding domain and the test zinc finger domain is for example transferred to a transcription factor lacking a test zinc finger domain with specificity for the target site. Increase compared to For example, the dissociation constant (K d ) of the transcription factor complexed with the specific target site may be about 50 nM, 10 nM, 1 nM, 0.1 nM, 0.01 nM or less. K d can be determined by in vitro EMSA.

시험 징크 핑거 도메인이 고정 DNA 결합 도메인의 생체 내 결합 친화성을 증대시킬 수 있는 능력을 측정함으로써 민감하고 정확하게 DNA 결합 특이성을 검사할 수 있는 이러한 발견은 인간 유전체로부터 신규 징크 핑거 도메인의 신속한 단리 및 특성화를 가능하게 한다.These findings, which allow sensitive and accurate screening of DNA binding specificities by measuring the ability of the test zinc finger domains to increase the in vivo binding affinity of the fixed DNA binding domains, provide rapid isolation and characterization of novel zinc finger domains from the human genome. To make it possible.

고정 DNA 결합 도메인은, 자연 발생적 DNA-결합 단백질, 즉 예를 들어 다수의 도메인을 가지거나 또는 올리고머인 자연 발생적 DNA-결합 단백질로부터 단리된 단위적 도메인을 포함한다. 예를 들어, Zif268의 핑거 1 및 2와 같은 두 개의 공지된 징크 핑거 모두를 고정된 DNA 결합 도메인으로서 사용할 수 있다. 숙련가라면 수 많은 핵산 결합 도메인들(예. 호메오도메인, 헬릭스-턴-헬릭스 도메인 또는 헬릭스-루프-헬릭스 도메인과 같은 본 명세서에 기재된 도메인 족, 또는 당업계에서 특성이 알려진 핵산 결합 도메인)로부터 시스템에 적합한 고정 DNA 결합 도메인을 동정할 수 있을 것이다. 고정 DNA 결합 도메인에 의해 인식되는 소집 부위의 적절한 선택이 또한 요구된다. 소집 부위는, 고정 DNA 결합 도메인이 얻어진 자연발생적 DNA 결합 단백질에 대한 천연적 결합 부위 내의 하위부위(subsite)일 수 있다. 필요에 따라, 고정 도메인 또는 소집 부위 내에 돌연변이를 도입하여 시스템을 민감성을 증가시킬 수 있다.Fixed DNA binding domains include naturally occurring DNA-binding proteins, ie, unitary domains isolated from naturally occurring DNA-binding proteins that have multiple domains or are oligomers. For example, two known zinc fingers, such as fingers 1 and 2 of Zif268, can be used as immobilized DNA binding domains. Those skilled in the art will appreciate the system from numerous nucleic acid binding domains (e.g., a family of domains described herein, such as a homeodomain, a helix-turn-helix domain, or a helix-loop-helix domain, or a nucleic acid binding domain known in the art). A fixed DNA binding domain suitable for may be identified. Appropriate selection of recruitment sites recognized by the fixed DNA binding domain is also required. The recruitment site may be a subsite within the naturally occurring binding site for the naturally occurring DNA binding protein from which the fixed DNA binding domain is obtained. If desired, mutations can be introduced into the fixation domain or recruitment site to increase the sensitivity of the system.

생체내 스크리닝 시스템에 적합한 세포에는 진핵 세포 및 원핵 세포 모두가 포함된다. 예시적인 진핵 세포로는 예를 들어 사카로미세스 세레비지애 (Saccharomyces cerevisiae), 사카로미세스 폼베(Saccharomyces pombe) 및 피치아 파스토리스(Pichia pastoris) 세포와 같은 호모 세포 등이 있다.Suitable cells for in vivo screening systems include both eukaryotic and prokaryotic cells. Exemplary eukaryotic cells include, for example, homo cells such as Saccharomyces cerevisiae , Saccharomyces pombe and Pichia pastoris cells.

상기 생체내 스크리닝 시스템을 사용하여 징크 핑거 도메인을 선별하기 위하여, 사카로미세스 세레비지애를 사용하는 효모 원-하이브리드 시스템을 변형시켰다. 먼저,HIS3리포터 유전자를 코딩하는 리포터 플라스미드를 제조하였다. 예정된 4-bp 표적 DNA 서열을 절단된 결합 서열에 연결시켜 DNA-결합 도메인을 위한 복합 결합 서열을 제공하였으며, 각각의 복합 결합 서열을 별개의 플라스미드 상의 리포터 유전자에 작동가능하게 연결시켰다.To screen for zinc finger domains using the in vivo screening system, a yeast one-hybrid system using Saccharomyces cerevisiae was modified. First, a reporter plasmid encoding the HIS3 reporter gene was prepared. The predetermined 4-bp target DNA sequence was linked to the cleaved binding sequence to provide a complex binding sequence for the DNA-binding domain, with each complex binding sequence operably linked to a reporter gene on a separate plasmid.

하이브리드 핵산 서열은 절단된 DNA 결합 도메인 및 징크 핑거 도메인으로 구성된 DNA 결합 도메인에 연결된 전사 활성화 도메인을 코딩한다.The hybrid nucleic acid sequence encodes a transcriptional activation domain linked to a DNA binding domain consisting of a truncated DNA binding domain and a zinc finger domain.

본원에서 사용된 결합 부위는 인접한(연속적인) 부위가 자주 사용되지만 반드시 인접할 필요는 없다. 인접하지 않은 부위를 인식할 수 있는 단백질을 제조하기 위해서는 핵산 결합 도메인 사이에 신축성이 있고(또는) 신장성이 있는 링커를 사용할 수 있다.As used herein, binding sites are frequently used but do not necessarily need to be contiguous. In order to produce a protein capable of recognizing non-contiguous sites, linkers that are stretchable and / or stretchable between nucleic acid binding domains can be used.

본 발명의 일 태양에 따르면, Zif268의 핑거 1 및 핑거 2로 구성되고 핑거 3이 결여된 폴리펩티드를 고정된 DNA 결합 도메인으로 사용할 수 있다 (Zif268의 3 개의 징크 핑거 중에서, 핑거 1은 N-말단, 핑거 2는 가운데, 핑거 3는 C-말단에 위치하는 징크 핑거 도메인을 지칭한다). 또한, 결합 부위가 밝혀진 어떠한 2개의 징크 핑거 도메인이라도 고정된 DNA 결합 도메인으로 사용될 수 있다.According to one aspect of the invention, a polypeptide consisting of Finger 1 and Finger 2 of Zif268 and lacking Finger 3 can be used as an immobilized DNA binding domain (of the three zinc fingers of Zif268, Finger 1 is the N-terminal, Finger 2 refers to the zinc finger domain located in the middle and Finger 3) at the C-terminus). In addition, any two zinc finger domains with known binding sites can be used as immobilized DNA binding domains.

기타 다른 유용한 고정된 DNA 결합 도메인은 다른 징크 핑거 단백질, 이를테면 Sp1, CF2-II, YY1, 크룹펠(Kruppel), WT1, Egr2, 또는 POU-도메인 단백질들, 이를테면 Oct1, Oct2, 및 Pit1으로부터 유래될 수 있다. 그러나, 이들은 예로서 제공된 것이며 본 발명은 이들에 의해 한정되지 않는다.Other useful fixed DNA binding domains may be derived from other zinc finger proteins such as Sp1, CF2-II, YY1, Kruppel, WT1, Egr2, or POU-domain proteins such as Oct1, Oct2, and Pit1. Can be. However, these are provided as examples and the present invention is not limited thereto.

본 발명의 한 구체적인 실시예에 따르면, 최적의 Zif268 인식 서열(5'-GCG TGG GCG-3')의 5' 말단으로부터 4-bp을 결손시켜 생성된 5'-GGGCG-3' 염기 서열이 소집 부위로 사용될 수 있다. 3 내지 4 bp의 어떠한 표적 서열이라도 이들 소집 부위에 연결되어 복합 결합 서열을 생성할 수 있다.According to one specific embodiment of the present invention, a 5'-GGGCG-3 'base sequence generated by deleting 4-bp from the 5' end of an optimal Zif268 recognition sequence (5'-GCG TGG GCG-3 ') is assembled. Can be used as a site. Any target sequence of 3 to 4 bp can be linked to these recruiting sites to generate a complex binding sequence.

활성화 도메인.본 발명에서 사용될 수 있는 전사 활성화 도메인은 효모의 Gal4 활성화 도메인 및 헤르페스 심플렉스 바이러스의 VP16 도메인을 포함하지만 이에 한정되지는 않는다. 박테리아에서 활성화 도메인의 기능은, 야생형 RNA 중합효소 알파 서브유니트 C-말단 도메인 또는 돌연변이체 알파 서브유니트 C-말단 도메인을 소집할 수 있는 융합 도메인(예를 들면 단백질 상호작용 도메인에 융합된 C-말단 도메인)에 의해 모방될 수 있다. Activation domain. Transcriptional activation domains that can be used in the present invention include, but are not limited to, the Gal4 activation domain of yeast and the VP16 domain of herpes simplex virus. The function of the activating domain in bacteria is a fusion domain (e.g., a C-terminal fused to a protein interaction domain) capable of recruiting a wild type RNA polymerase alpha subunit C-terminal domain or a mutant alpha subunit C-terminal domain. Domain).

억제 도메인.원한다면, 활성화 도메인 대신에 억제 도메인이 DNA 결합 도메인에 융합될 수 있다. 진핵세포 억제 도메인의 예로는 오렌지(ORANGE), 그로우초(groucho), 및 WRPW[Dawson et al (1995)Mol. Cell Biol.15:6923-31]이 포함된다. 억제 도메인을 사용할 때는, 독성 리포터 유전자 및(또는) 비선택성 마커를 사용하여 감소된 발현을 보이는 개체를 스크리닝할 수 있다. Inhibitory domain. If desired, an inhibitory domain may be fused to the DNA binding domain instead of the activation domain. Examples of eukaryotic inhibitory domains include ORANGE, groucho, and WRPW [Dawson et al (1995) Mol. Cell Biol. 15: 6923-31. When using an inhibitory domain, toxic reporter genes and / or non-selective markers can be used to screen for individuals with reduced expression.

리포터 유전자.리포터 유전자는 예를 들어 약물 내성을 부여하거나 또는 영양요구성 마커와 같은 선택성 마커일 수 있다. 약물 내성 유전자의 예로는 사카로미세스 세레비지에(S.cerevisiae) 시클로헥사미드 내성 유전자(CYH), 사카로미세스 세레비지에 카나바닌 내성 유전자(CAN1), 및 하이그로마이신 내성 유전자 등이 있다. 사카로미세스 세레비지에 영양요구성 마커로는URA3, HIS3, LEU2, ADE2TRP1유전자 등이 있다. 영양요구성 마커가 리포터 유전자일 때는, 영양요구성 유전자의 기능적 카피를 결하고 있어서 특정 대사물질을 생산할 수 있는 능력이 결여된 세포가 사용된다. 대사물질이 결여된 배지에서 세포를 성장시킴으로써 표적 부위에 결합하는 시험 징크 핑거 도메인을 코딩하는 구조물의 선별이 가능하다. 예를 들어,HIS3유전자는his3 -효모 균주와 함께 선택성 마커로써 사용될 수 있다. 하이브리드 전사인자를 코딩하는 구조물의 도입 후에, 세포를 히스티딘 결핍 배지 상에서 성장시킨다. 포유류 세포의 선택성 마커로는 이를테면 티미딘 키나제, 네오마이신 내성, 및 HPRT가 숙련된 기술자들에게 또한 잘 알려져 있다. Reporter gene. The reporter gene may be, for example, confer drug resistance or be a selectable marker such as a trophic marker. Examples of drug resistance genes include S. cerevisiae cyclohexamide resistance gene ( CYH ), saccharomyces cerevisiae cannabanin resistance gene ( CAN1 ), and hygromycin resistance genes. Nutritional markers of Saccharomyces cerevisiae include URA3, HIS3, LEU2, ADE2 and TRP1 genes. When the nutritional marker is a reporter gene, cells that lack a functional copy of the nutritional gene and lack the ability to produce specific metabolites are used. Growth of cells in media lacking metabolites allows for the selection of constructs encoding test zinc finger domains that bind to target sites. For example, the HIS3 gene can be used as a selectable marker with the his3 - yeast strain. After introduction of the construct encoding the hybrid transcription factor, cells are grown on histidine deficient media. Selective markers of mammalian cells are also well known to those skilled in the art, such as thymidine kinase, neomycin resistance, and HPRT.

별법으로, 리포터 유전자가 코딩하는 단백질의 존재를 용이하게 확인하고(또는) 정량화할 수 있다. 그러한 리포터 유전자의 예로는lacZ, 클로람페니콜 아세틸 트랜스퍼라제(CAT), 루시퍼라제, 녹색 형광 단백질(GFP),베타-글루쿠로니다제(GUS), 청색 형광 단백질(BFP) 및 예를 들면 변경되거나 향상된 형광 특성을 갖는 GFP 유도체[Clontech Laboratories, Inc., CA] 등이 있다. lacZ을 발현하는 세포의 콜로니는 비색 기질 X-gal을 포함하는 플레이트에서 콜로니를 성장시킴으로써 검출할 수 있다. GFP 발현은 여기 후 형광 방출을 측정하여 검출할 수 있다. 개개의 GFP 발현 세포는 형광 활성화 세포 분류기(FACS)을 사용하여 동정되고 분리될 수 있다.Alternatively, the presence of the protein encoded by the reporter gene can be readily identified and / or quantified. Examples of such reporter genes include lacZ , chloramphenicol acetyl transferase (CAT), luciferase, green fluorescent protein (GFP), beta-glucuronidase (GUS), blue fluorescent protein (BFP) and for example altered or enhanced GFP derivatives with fluorescent properties [Clontech Laboratories, Inc., CA]. Colonies of cells expressing lacZ can be detected by growing colonies on a plate containing colorimetric substrate X-gal. GFP expression can be detected by measuring fluorescence emission after excitation. Individual GFP expressing cells can be identified and separated using a fluorescence activated cell sorter (FACS).

본 발명의 시스템에서는 두 종류의 리포터 유전자(예를 들어 선택성 리포터 유전자 및 비선택성 리포터 유전자)를 이용하여 시스템을 구축할 수 있다. 선택성 마커는 적당한 성장 조건하에서 원하는 도메인을 가진 세포만이 성장하게 하므로 원하는 도메인의 신속한 동정을 용이하게 한다. 비선택성 리포터는 예를 들어 거짓 양성 결과를 구별해냄으로써 확인수단 및 및 결합 정도를 정량화하는 수단을 제공한다. 상기 두 개의 리포터는 유전체의 서로 다른 위치에 삽입될 수 있으며, 유전체에 일렬로 삽입될 수도 있으며, 동일한 염색체외 요소(예를 들어 플라스미드)에 포함되거나 또는 서로 다른 염색체외 요소에 포함될 수도 있다.In the system of the present invention, a system can be constructed using two kinds of reporter genes (for example, a selective reporter gene and a non-selective reporter gene). Selective markers allow only cells with the desired domains to grow under appropriate growth conditions, thereby facilitating rapid identification of the desired domains. Non-selective reporters provide means for identifying and quantifying the extent of binding, for example by distinguishing between false positive results. The two reporters may be inserted at different positions of the genome, may be inserted in a line in the genome, may be included in the same extrachromosomal element (for example, a plasmid) or may be included in different extrachromosomal elements.

도 5는 원하는 징크핑거 도메인을 선별하기 위해 사용된 변형된 원 하이브리드 시스템의 원리를 보여준다. 하이브리드 전사인자의 DNA 결합 부위는 (a) Zif268의 핑거 1 및 핑거 2로 구성된 절단된 DNA 결합 부위와 (b) 징크 핑거 도메인 A 또는 B로 구성된다. 리포터 유전자의 프로모터 영역에 위치한 결합 부위의 염기 서열은 4 bp의 표적 서열(뉴클레오티드1-4, 5'-XXXX-3') 및 절단된 결합 서열 (뉴클레오티드 5-9, 5'-GGGCG-3')로 이루어진 복합 결합 서열(5'-XXXXGGGCG-3')이다.5 shows the principle of a modified one hybrid system used to screen for the desired zincfinger domain. The DNA binding site of the hybrid transcription factor consists of (a) a truncated DNA binding site consisting of Finger 1 and Finger 2 of Zif268 and (b) Zinc Finger Domain A or B. The base sequence of the binding site located in the promoter region of the reporter gene is 4 bp of the target sequence (nucleotides 1-4, 5'-XXXX-3 ') and the cleaved binding sequence (nucleotides 5-9, 5'-GGGCG-3' ) Is a complex binding sequence (5'-XXXXGGGCG-3 ').

하이브리드 전사인자 내 시험 징크 핑거 도메인(도 5의 A)이 표적 서열을 인식한다면, 하이브리드 전사인자는 복합 결합 서열에 안정하게 결합할 수 있다. 이러한 안정된 결합은 하이브리드 전사인자의 활성화 도메인의 작용(도 5의 AD)을 통해 리포터 유전자의 발현을 가져온다. 그 결과, HIS3가 리포터 유전자로 사용되었을 때, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장한다. 또는,lacZ가 리포터 유전자로 사용되었을 때에는, 형질전환된 효모는lacZ단백질의 기질인 X-gal을 포함한 배지에서 청색 콜로니로 자란다. 그렇지만, 하이브리드 전사인자의 징크 핑거 도메인(도 5의 B)이 표적 서열을 인식하는 데 실패한다면, 리포터 유전자의 발현은 유도되지 않는다. 그 결과, 형질전환된 효모는 히스티딘이 결여된 배지에서 성장할 수 없으며(HIS3가 리포터 유전자로 사용되었을 때), 또는 X-gal을 포함한 배지에서 흰색 콜로니로 성장하게 된다(lacZ가 리포터 유전자로 사용되었을 때).If the test zinc finger domain (A in FIG. 5) in the hybrid transcription factor recognizes the target sequence, the hybrid transcription factor can stably bind to the complex binding sequence. This stable binding leads to expression of the reporter gene through the action of the activation domain of the hybrid transcription factor (AD in FIG. 5). As a result, when HIS3 was used as the reporter gene, the transformed yeast grows in medium lacking histidine. Alternatively, when lacZ is used as a reporter gene, the transformed yeast grows into blue colonies in a medium containing X-gal, which is a substrate of lacZ protein. However, if the zinc finger domain (B of Figure 5) of the hybrid transcription factor fails to recognize the target sequence, expression of the reporter gene is not induced. As a result, the transformed yeast could not grow in histidine-deficient media (when HIS3 was used as a reporter gene), or it would grow as white colonies in media containing X-gal ( lacZ might have been used as a reporter gene). time).

변형된 원 하이브리드 시스템을 이용하는 이 선별법은 이 과정을 통하여 선별된 징크 핑거 도메인은 세포내 환경에서 기능적인 것으로 입증되었으므로 유익하다. 따라서, 이 도메인들은 아마도 폴딩되어 핵으로 들어갈 수 있으며, 세포내 프로티아제 및 손상을 줄 수 있는 다른 가능한 세포내 물질들에 대해 견딜 수 있다고 추측된다. 게다가, 본원에서 개시된 변형된 원 하이브리드 시스템은 쉽고 빠르게 원하는 징크 핑거 도메인의 단리를 가능하게 한다. 본원의 변형된 원 하이브리드 시스템에서는 원하는 징크핑거 도메인을 단리하기 위해 오직 1 회의 효모 형질전환만을 필요로 한다.This screening method using a modified one hybrid system is beneficial because the zinc finger domains selected through this process have proven to be functional in the intracellular environment. Thus, it is presumed that these domains could possibly be folded into the nucleus and tolerate intracellular proteases and other possible intracellular materials that can cause damage. In addition, the modified one hybrid system disclosed herein enables the isolation of the desired zinc finger domains easily and quickly. The modified original hybrid system herein requires only one yeast transformation to isolate the desired zinc finger domain.

본원에서 기술된 선별법은, 예를 들어 식물 또는 동물(예를 들어 포유류, 예를 들어 사람) 종의 유전체일 수 있는 다양한 유전체로부터의 징크 핑거 도메인을 동정하는데 사용할 수 있다. 또한 본 방법은 예를 들어 무작위 돌연변이법에 의해 제조된 돌연변이 징크 핑거 도메인의 라이브러리부터 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 또한, 상기 두 방법은 함께 사용될 수 있다. 예를 들어, 특정 3-bp 또는 4-bp DNA 서열에 대한 징크 핑거 도메인이 사람 유전체에서 단리되지 않았다면, 무작위 또는 부위 지시적 돌연변이 유도에 의해 제조된 징크 핑거 도메인의 라이브러리를 스크리닝하여 상기 도메인을 찾을 수 있다.The screening methods described herein can be used to identify zinc finger domains from various genomes, which may be, for example, genomes of plant or animal (eg mammal, eg, human) species. The method can also be used to identify zinc finger domains from a library of mutant zinc finger domains produced by, for example, random mutagenesis. In addition, the two methods can be used together. For example, if zinc finger domains for a particular 3-bp or 4-bp DNA sequence were not isolated in the human genome, the domain could be found by screening a library of zinc finger domains prepared by random or site directed mutagenesis. have.

비록 효모에서의 변형된 원 하이브리드 시스템이 주어진 표적 서열을 인식하고 결합하는 징크 핑거 도메인을 선별하기 위해 바람직한 방법이지만, 이 기술 분야의 숙련된 기술자라면 효모 원 하이브리드 선별법 이외에 다른 시스템이 사용될 수 있음을 잘 알 수 있을 것이다. 예를 들어, 진핵 생물체의 유전체로부터 유래한 자연적으로 발견되는 징크 핑거 도메인의 라이브러리를 스크리닝하는데 파지 전시 선별법이 사용될 수도 있다.Although modified original hybrid systems in yeast are a preferred method for screening zinc finger domains that recognize and bind a given target sequence, those skilled in the art will recognize that other systems besides yeast one hybrid screening may be used. You will know. For example, phage display screening may be used to screen libraries of naturally occurring zinc finger domains derived from the genomes of eukaryotic organisms.

본 발명은 다양한 종류의 배양 세포에 원 하이브리드법을 사용하는 것을 포함한다. 예를 들어, 표적 서열에 작동가능하게 연결된 리포터 유전자를 배양중의 원핵 세포 또는 동물 또는 식물 세포 내로 도입할 수 있으며, 그 후 배양 세포를 징크 핑거 도메인의 라이브러리를 코딩하는 플라스미드, 파지, 또는 바이러스로 형질감염시킬 수 있다. 그 다음 리포터 유전자가 활성화된 세포를 분리하여 이로부터 표적 서열을 인식하는 원하는 징크 핑거 도메인을 얻을 수 있다.The present invention includes the use of the original hybrid method for various kinds of cultured cells. For example, a reporter gene operably linked to a target sequence can be introduced into a prokaryotic cell or animal or plant cell in culture, and then the cultured cell is plasmid, phage, or virus encoding a library of zinc finger domains. Can be transfected. The reporter gene-activated cells can then be isolated to obtain the desired zinc finger domain from which the target sequence is recognized.

하기 개시된 실시예는 상기 방법이 관심있는 결합 부위를 인식하는 징크 핑거 도메인을 동정할 수 있음을 증명한다. 핑거 3에 위치한 다양한 징크 핑거 도메인을 가진 하이브리드 전사인자의 라이브러리를 제조하였다. 상기 라이브러리에서 선별된 신규 징크 핑거 도메인(예를 들어 HSNK, QSTV, 및 VSTR 징크 핑거;후술함)중에서, 어느 것도 해당 부모 핑거 단백질에서는 C-말단에 자연적으로 위치하지 않았다. 이는 징크 핑거 도메인은 단위적(모듈성)이라는 것과 징크 핑거 도메인들을 적절히 혼합하고 배열하여 신규 DNA 결합 도메인을 구성될 수 있다는 것을 명백히 증명한다.The examples disclosed below demonstrate that the method can identify zinc finger domains that recognize binding sites of interest. A library of hybrid transcription factors with various zinc finger domains located at finger 3 was prepared. Of the novel zinc finger domains (eg HSNK, QSTV, and VSTR zinc fingers; described below) selected from the library, none were naturally located at the C-terminus in the corresponding parent finger protein. This clearly demonstrates that zinc finger domains are modular (modular) and that new DNA binding domains can be constructed by properly mixing and arranging zinc finger domains.

본 발명의 방법에 의해 선별된 징크 핑거 도메인은 적절한 재배열 및 재조합에 의해 신규한 DNA 결합 단백질을 만들기 위한 조립 단위로 사용될 수 있다. 예를 들어, HIV-1의 공수용체인 사람 CCR5의 프로모터 영역을 인식하는 신규한 DNA 결합 단백질을 다음과 같이 제조할 수 있다. 사람 CCR5의 프로모터 영역은, 5'-AGG GTG GAG T-3'(SEQ ID NO:4)(도 6)의 10-bp 서열을 포함한다:. 본원에서 개시된 변형된 원 하이브리드 시스템을 사용하여, 특이적으로 각각 5'-AGGG-3', 5'-GTGG-3', 및 5'-GAGT-3'의 4-bp 표적 서열 중 하나를 인식하는 3 개의 징크 핑거 도메인을 단리할 수 있다. 이들 표적 서열은 CCR5 표적 서열 중 중첩되는 4-bp 단편이다. 이들 3 개의 징크 핑거 도메인을 적절한 링커로 연결하고, 조절 도메인(이를테면 VP16 도메인 및 GAL4) 또는 억제 도메인(이를테면 KRAB)에 부착시켜, CCR5 프로모터에 특이적으로 결합하는 신규한 전사인자를 생성할 수 있다. 이들징크 핑거 단백질은 HIV-1 증식의 방지를 돕기 위해 유전자 치료에 사용될 수 있다.The zinc finger domains selected by the methods of the present invention can be used as assembly units to make novel DNA binding proteins by appropriate rearrangement and recombination. For example, a novel DNA binding protein that recognizes a promoter region of human CCR5, a co-receptor of HIV-1, can be prepared as follows. The promoter region of human CCR5 comprises the 10-bp sequence of 5'-AGG GTG GAG T-3 '(SEQ ID NO: 4) (Figure 6). Using the modified original hybrid system disclosed herein, one specifically recognizes one of the 4-bp target sequences of 5'-AGGG-3 ', 5'-GTGG-3', and 5'-GAGT-3 ', respectively. Three zinc finger domains can be isolated. These target sequences are 4-bp fragments that overlap in the CCR5 target sequence. These three zinc finger domains can be linked with appropriate linkers and attached to regulatory domains (such as the VP16 domain and GAL4) or inhibitory domains (such as KRAB) to generate novel transcription factors that specifically bind to the CCR5 promoter. . These zinc finger proteins can be used for gene therapy to help prevent HIV-1 proliferation.

높은 작업처리량 스크리닝High Throughput Screening

하기 방법은 다수의 가능한 DNA 결합 부위들이나 또는 심지어 모든 가능한 DNA 결합 부위에 대한 집합체내 각 도메인의 상대적인 생체내 결합 친화도의 신속한 측정을 허용한다. 핵산 결합 도메인을 코딩하는 핵산의 대규모 집합체을 제조하였다. 각 핵산 결합 도메인은 하이브리드 핵산 구조물에서 시험 징크 핑거 도메인으로 코딩되며, 한 교배형의 효모 균주에서 발현된다. 이에 따라, 모든 가능한 또는 원하는 도메인을 발현하는 제1 세트의 효모 균주가 제조된다. 리포터 구조물 안에 상기 도메인들의 추정 표적 부위를 포함하는 리포터 구조물을 함유하는 효모 균주의 제2 세트를 반대의 교배형에서 제조한다. 각각 다른 시험 징크 핑거 도메인과 다른 표적 부위 리포터 구조물을 갖는, 융합된 세포의 매트릭스를 생성하기 위해 본 방법은 다수의 또는 모든 가능한 짝짓기 교배의 수행을 요구한다. 각각의 융합된 세포에서 리포터 유전자의 발현 여부가 측정된다. 이에 의해 본 방법은 신속하고 힘들지 않게 시험되는 도메인들의 결합 우선성을 결정한다.The following method allows for the rapid determination of the relative in vivo binding affinity of each domain in the aggregate for a number of possible DNA binding sites or even all possible DNA binding sites. Large collections of nucleic acids encoding nucleic acid binding domains were prepared. Each nucleic acid binding domain is encoded with a test zinc finger domain in a hybrid nucleic acid construct and expressed in one hybrid yeast strain. Thus, a first set of yeast strains is produced that expresses all possible or desired domains. A second set of yeast strains containing a reporter construct comprising a putative target site of the domains in the reporter construct is prepared in the opposite hybrid. To generate a matrix of fused cells, each with a different test zinc finger domain and a different target site reporter construct, the method requires performing multiple or all possible mating crosses. The expression of the reporter gene in each fused cell is measured. The method thereby determines the binding priority of domains that are tested quickly and effortlessly.

예를 들어 주어진 프로파일에 일치하는 추정 도메인을 유전체 데이터베이스 에서 조사하여, 도메인들의 집합체가 동정되었다. 상기 집합체는 예를 들어 10 내지 20개의 도메인, 또는 모든 동정된 도메인, 가능하게는 수천개 또는 그 이상을 포함한다. 데이터베이스에서 확인된 도메인을 코딩하는 핵산은 합성 올리고뉴클레오티드를 사용하여 증폭될 수 있다. 상기 합성 올리고뉴클레오티드를 디자인하는 수동적 또는 자동화된 방법은 본 기술 분야에서 통상적인 것이다. 추가적인 도메인을 코딩하는 핵산은 축중 프라이머로 증폭될 수 있다. 상기 집합체의 도메인들을 코딩하는 핵산을 상기 기술된 효모 발현 플라스미드안으로 클로닝함으로써, 이 도메인과 Zif268의 처음 두 개의 핑거 및 전사 활성 도메인의 융합 단백질을 생성할 수 있다. 다수의 도메인을 코딩하는 핵산을 클로닝하기 위해 증폭 및 클로닝 단계는 마이크로타이터 플레이트 형식으로 행해질 수 있다.For example, a collection of domains was identified by investigating estimated domains in a genomic database that match a given profile. Such aggregates include, for example, 10-20 domains, or all identified domains, possibly thousands or more. Nucleic acids encoding domains identified in a database can be amplified using synthetic oligonucleotides. Manual or automated methods of designing such synthetic oligonucleotides are conventional in the art. Nucleic acids encoding additional domains can be amplified with degenerate primers. By cloning the nucleic acid encoding the domains of the aggregate into the yeast expression plasmid described above, a fusion protein of this domain and the first two fingers of the Zif268 and the transcriptional active domain can be generated. Amplification and cloning steps can be done in microtiter plate format to clone nucleic acids encoding multiple domains.

또는, 효모 발현 벡터 안으로 상기 도메인들을 코딩하는 다수의 증폭된 핵산을 신속하게 삽입하기 위해 재조합 클로닝 방법을 사용할 수 있다. 이 방법은 미국 특허 제 5,888,732 및 "게이트웨이" 메뉴얼(Life Technologies-Invitrogen, CA, USA)에 기술되어 있으며, 증폭 프라이머 끝에 위치-특이적 재조합 효소(recombinase)를 위한 관습적인 부위를 포함시키는 것을 필요로 한다. 발현 벡터는 도메인을 코딩하는 증폭된 핵산이 삽입될 위치에 추가적인 부위(들)을 포함한다. 이 부위들은 종결 코돈이 결여되도록 고안되었다. 증폭 산물, 발현 벡터, 및 위치 특이적인 재조합효소의 첨가는 재조합 반응으로 인한 증폭된 서열의 벡터안으로의 삽입을 가져온다. 예를 들어 성공적인 삽입시 독성 유전자가 치환되는 것과 같은 추가적인 특징을 이용하면, 이 방법은 고효율이며 높은 작업처리량의 생체내 스크리닝에 적합하게 된다.Alternatively, recombinant cloning methods can be used to rapidly insert multiple amplified nucleic acids encoding these domains into yeast expression vectors. This method is described in US Pat. No. 5,888,732 and the "Gateway" manual (Life Technologies-Invitrogen, CA, USA), which requires the inclusion of customary sites for site-specific recombinases at the end of amplification primers. do. The expression vector contains additional site (s) at the position where the amplified nucleic acid encoding the domain will be inserted. These sites were designed to lack a stop codon. The addition of amplification products, expression vectors, and position specific recombinases result in insertion of the amplified sequences into the vectors due to the recombinant reaction. Using additional features, such as the substitution of virulence genes upon successful insertion, for example, the method is well suited for high efficiency and high throughput in vivo screening.

제한효소 매개성 및(또는) 재조합 클로닝은 각각의 확인된 도메인을 코딩하는 핵산을 발현 벡터로 삽입하는 데 사용된다. 이 벡터들은 박테리아에서 증식할수 있으며, 색인된 마이크로타이터 플레이트에서 동결될 수 있어서, 각각의 웰이 서로 다른, 유일무이한 DNA 결합 도메인의 하나를 코딩하는 하나의 핵산을 가지고 있는 하나의 세포를 포함하게 할 수 있다.Restriction mediated and / or recombinant cloning is used to insert a nucleic acid encoding each identified domain into an expression vector. These vectors can grow in bacteria and can be frozen in indexed microtiter plates, so that each well contains one cell with one nucleic acid encoding one of the different, unique DNA binding domains. can do.

각각의 도메인에 대해 단리된 플라스미드 DNA를 얻고 하나의 효모 세포, 예를 들어 사카로미세스 세레비지에MATa세포로 형질전환시킨다. 발현 벡터가 선별 마커를 갖고 있으므로, 형질 전환된 세포는 마커를 선별할 수 있는 영양 조건의 최소 배지 안에서 자랄 수 있다. 상기 세포들을 나중의 사용을 위해 예를 들어 마이크로타이터 플레이트 중에서 동결 저장시킬 수 있다.Isolated plasmid DNA for each domain is obtained and transformed into one yeast cell, for example Saccharomyces cerevisiae, with MATa cells. Since the expression vector has a selection marker, the transformed cells can grow in minimal medium of nutrient conditions capable of selecting the marker. The cells can be stored frozen, for example in microtiter plates, for later use.

제2 세트의 효모 균주를 예를 들어 사카로미세스 세레비지에MATα세포에 구축한다. 이 효모 균주 세트는 다양한 상이한 리포터 벡터를 포함한다. 그 다음, 유일한 DNA 결합 도메인을 갖는 발현 벡터를 함유하는 각각의 효모 균주를 상기 리포터 유전자 세트의 각각의 효모 균주와 교배시킨다. 이들 두 균주는 서로 반대되는 교배형이고 서로 다른 영양요구성을 갖도록 유전자 조작되었으므로, 이배체를 쉽게 선별할 수 있다. 상기 이배체는 리포터 및 발현 벡터 모두를 가진다. 이 세포들은 리포터 및 발현 플라스미드 양쪽 모두를 선별할 수 있는 영양 조건하에서 또한 유지될 수 있다. 유에츠 등(2000,Nature403:623-7)은 이러한 효모 교배의 매트릭스를 생성하여 모든 효모 단백질의 완벽한 2-하이브리드 지도를 기술하고 있다.A second set of yeast strains is constructed in MATα cells, for example in Saccharomyces cerevisiae. This yeast strain set includes a variety of different reporter vectors. Then, each yeast strain containing an expression vector with a unique DNA binding domain is crossed with each yeast strain of the reporter gene set. These two strains are crossed to each other and genetically engineered to have different nutritional components, so diploids can be easily selected. The diploid has both a reporter and an expression vector. These cells can also be maintained under nutrient conditions capable of selecting both the reporter and expression plasmid. Yuets et al. (2000, Nature 403: 623-7) produce a matrix of these yeast crosses to describe a complete two-hybrid map of all yeast proteins.

리포터 유전자 발현은 많은 볼륨의 형식(예를 들어 마이크로타이터 플레이트)에서도 감지될 수 있다. 예를 들면, GFP을 리포터로 사용할 때, 교배된 세포들의 매트릭스를 포함하는 플레이트는 형광여부로 스캔할 수 있다.Reporter gene expression can also be detected in large volumes of format (eg microtiter plates). For example, when using GFP as a reporter, a plate containing a matrix of crossed cells can be scanned with fluorescence.

신규한 DNA 결합 단백질의 단위체적 조립Monolithic Assembly of Novel DNA Binding Proteins

적절한 징크 핑거 도메인들을 혼합하고 배합하여 목적 9-bp 또는 그 이상의 DNA 서열을 인식하는 새로운 DNA 결합 단백질을 합리적으로 제조할 수 있다. 징크 핑거 도메인들은 단위체적 구조로 인하여 새로운 DNA 결합 단백질을 제조하기 위한 이들의 재조합이 용이하다. 도 1에 도시되듯이, 자연적으로 발견되는 Zif268 단백질에서의 징크 핑거 도메인은 DNA 이중 나선을 따라서 일렬로 위치한다. 각각의 도메인은 상이한 3-4 bp DNA 세그먼트를 독립적으로 인식한다.Appropriate zinc finger domains can be mixed and combined to rationally prepare new DNA binding proteins that recognize the desired 9-bp or more DNA sequence. Zinc finger domains facilitate their recombination to prepare new DNA binding proteins due to their unitary structure. As shown in FIG. 1, the zinc finger domains in the naturally occurring Zif268 protein are located in line along the DNA double helix. Each domain independently recognizes different 3-4 bp DNA segments.

징크 핑거 도메인의 데이터베이스.상기에서 기술된 원 하이브리드 선별 시스템은 가능한 3-4 염기쌍 결합 부위 각각에 대하여 하나 이상의 징크 핑거 도메인을 동정하는 데 사용될 수 있다. 그 결과는 매트릭스 또는 데이터베이스(예를 들어 상관적인 테이터베이스)로 저장될 수 있다. 데이터베이스는 각각의 부위에 결합하는 징크 핑거 도메인의 상대적인 친화도에 대한 지시사항을 포함할 수 있다. Database of zinc finger domains. The original hybrid selection system described above can be used to identify one or more zinc finger domains for each of the possible 3-4 base pair binding sites. The results can be stored in a matrix or a database (eg, a correlated database). The database may include instructions for the relative affinity of the zinc finger domains for binding to each site.

또한 상기 징크 핑거 도메인들의 표적 서열 특이성을 입증하기 위하여 이들을 다수의 상이한 융합 단백질내에 융합된 상황에서 검사할 수 있다. 더욱이, 소량의 도메인만이 이용가능한 특정 결합 부위에 대하여는 추가적인 선별 스크리닝을 할 수 있다. 이러한 추가적 선별을 위한 라이브러리는, 유사하지만 뚜렷이 구별되는 결합 부위에 결합하는 징크 핑거 도메인에 돌연변이를 유도하여 제조할 수 있다. 가능한 도메인을 최대한 활용하기 위해 표적 결합 부위에 대해서 도메인을 엇갈리게 할 수 있으므로, 각각의 가능한 결합 부위에 대한 징크 핑거 도메인의 완전한 매트릭스가 필수적인 것은 아니다. 이러한 엇갈림은 가장 유용한 3-4 염기쌍 결합 부위에서의 결합 부위를 분석하고 또한 징크 핑거 도메인들 사이의 링커의 길이를 변화시킴으로써 달성될 수 있다. 디자인된 폴리펩타이드가 부위 선택성 및 높은 친화도를 모두 갖게 하기 위하여는, 원하는 부위에 대해 높은 특이성을 가진 징크 핑거 도메인의 양 옆을 더 높은 친화도를 가졌으나 특이성이 떨어지는 다른 도메인과 접하게 연결시킬 수 있다. 본원에서 기술된 생체 내 스크리닝 방법은 인위적으로 조립된 징크 핑거 단백질 및 이들의 유도체의 생체 내 기능, 친화도, 및 특이성을 시험하는 데 이용될 수 있다. 유사하게 본 방법은, 예를 들어 다양한 링커 조성의 라이브러리, 징크 핑거 도메인 단위체의 라이브러리, 징크 핑거 도메인 조성의 라이브러리 등의 라이브러리를 제조하여, 조립된 단백질을 최적화하는 데 사용될 수 있다.In addition, they can be tested in the context of fusion into many different fusion proteins to demonstrate target sequence specificity of the zinc finger domains. Moreover, additional screening can be done for certain binding sites where only a small amount of domain is available. Libraries for such further selection can be made by inducing mutations in zinc finger domains that bind to similar but distinctly distinct binding sites. The full matrix of zinc finger domains for each possible binding site is not essential, as the domains can be staggered relative to the target binding site to make the best use of the possible domains. This stagger can be achieved by analyzing the binding site at the most useful 3-4 base pair binding site and also changing the length of the linker between the zinc finger domains. In order for the designed polypeptide to have both site selectivity and high affinity, the sides of the zinc finger domain with high specificity for the desired site can be linked to other domains with higher affinity but less specificity. have. The in vivo screening methods described herein can be used to test the in vivo function, affinity, and specificity of artificially assembled zinc finger proteins and their derivatives. Similarly, the method can be used to optimize libraries assembled by, for example, preparing libraries of various linker compositions, libraries of zinc finger domain units, libraries of zinc finger domain compositions, and the like.

표적 부위의 분해.표적 9-bp 또는 그 이상의 DNA 서열은 3-4 bp 세그먼트로 분해된다. 각각의 분해된 3-4 bp 세그먼트를 인식하는 징크 핑거 도메인을 동정한다 (예를 들어 상기에서 언급한 데이터베이스로부터). 예를 들어 20 bp 내지 500 bp 서열의 더 길이가 긴 표적 서열도, 그 서열 안에서 9 bp, 12 bp, 및 15 bp 하위서열을 찾을 수 있으므로, 표적 서열로서 적합하다. 구체적으로는, 데이터베이스에 잘 나타나 있는 부위로 분해될 수 있는 하위서열은 처음 디자인을 위한 표적으로서 기능할 수 있다. Degradation of the target site. Target 9-bp or more DNA sequence is digested into 3-4 bp segments. Identify the zinc finger domain that recognizes each digested 3-4 bp segment (eg from the database mentioned above). Longer target sequences, for example 20 bp to 500 bp sequences, are also suitable as target sequences because 9 bp, 12 bp, and 15 bp subsequences can be found in the sequences. Specifically, subsequences that can be broken down into sites well represented in the database can serve as targets for the initial design.

조립된 단위체의 제조.인접한 3-4 bp 하위부위들 또는 근처의 하위부위들을 인식하는 다수의 징크 핑거 도메인들을 포함하는 폴리펩티드를 디자인한다. 디자인된 폴리펩티드 서열을 코딩하는 핵산 서열을 합성할 수 있다. 합성 유전자를 제조하는 것은 이 기술분야에서는 일상적인 것이다. 상기 방법으로는 상용 합성된 올리고뉴클레오티드, PCR 매개된 클로닝, 및 메가프라이머 PCR로부터의 유전자 제조 등이 있다. 다수의 핵산 서열이 합성되어 예를 들면 라이브러리를 형성할 수 있다. 핵산 라이브러리는 임의의 주어진 위치에서 변화하는 도메인을 코딩하고, 그 상이한 징크핑거 도메인들의 인식 특이성은 상기 위치에 적합하도록 디자인할 수 있다. 각 위치에서 징크 핑거 도메인의 동일성을 변화시키 위하여는 섹슈얼(Sexual) PCR 및 "DNA 셔플링TM"(Maxygen, Inc., CA)이 사용될 수 있다. Preparation of Assembled Monomers. A polypeptide is designed that includes a plurality of zinc finger domains that recognize adjacent 3-4 bp subsites or subsites nearby. Nucleic acid sequences encoding the designed polypeptide sequences can be synthesized. Preparation of synthetic genes is routine in the art. Such methods include commercially synthesized oligonucleotides, PCR mediated cloning, and gene production from megaprimer PCR. Multiple nucleic acid sequences can be synthesized to form a library, for example. Nucleic acid libraries can be designed to encode domains that change at any given location, and the recognition specificity of those different zinc finger domains is appropriate for that location. In order to change the identity of the zinc finger domain at each position, Sexual PCR and “DNA Shuffling ” (Maxygen, Inc., CA) can be used.

펩티드 링커.DNA 결합 도메인들은 다양한 링커에 의해 연결될 수 있다. 링커의 유용성과 디자인은 이 기술 분야에서 잘 알려져 있다. 특히 유용한 링커는 핵산에 의해 코딩되는 펩티드 링커이다. 따라서, 첫 번째 DNA 결합 도메인, 펩티드 링커, 및 두 번째 DNA 결합 도메인을 코딩하는 합성 유전자를 제조할 수 있다. 이러한 디자인은 대규모의 인위적인 다수-도메인 DNA 결합 단백질을 제조하기 위해 반복될 수 있다. PCT WO 99/45132 및 김 및 파보(1998,Proc. Natl. Acad. Sci. USA95:2812-7)는 징크 핑거 도메인들을 연결하는 데 적합한 펩티드 링커의 디자인을 기술하고 있다. Peptide linker. DNA binding domains can be linked by various linkers. The usefulness and design of linkers is well known in the art. Particularly useful linkers are peptide linkers encoded by nucleic acids. Thus, synthetic genes encoding the first DNA binding domain, the peptide linker, and the second DNA binding domain can be prepared. This design can be repeated to produce large scale artificial, multi-domain DNA binding proteins. PCT WO 99/45132 and Kim and Parvo (1998, Proc. Natl. Acad. Sci. USA 95: 2812-7) describe the design of peptide linkers suitable for linking zinc finger domains.

무작위 코일, α-나선, β-주름의 3차 구조을 형성하는 추가적인 펩티드 링커를 사용할 수 있다. 적합한 유연성 있는 링커를 형성하는 폴리펩티드는 이 기술분야에서 잘 알려져 있다[예를 들어 Robinson and Sauer (1998)Proc. Natl. Acad. Sci. USA.95:5929-34 참조]. 유연성 있는 링커는 전형적으로 글리신을 포함하는데, 이는 글리신 아미노산이 측쇄가 결여되어 있어서 회전 자유도가 있는 유일한 아미노산이기 때문이다. 친수성을 증가시키기 위하여 세린 또는 트레오닌을 링커에 삽입할 수 있다. 아울러, 결합 친화도를 증가시키기 위해 DNA의 인산 골격과 상호작용할 수 있는 아미노산이 사용될 수 있다. 상기 아미노산들의 현명한 사용으로 친화도를 높이는 것과 서열 특이성이 감소하는 것 사이의 균형을 잡을 수 있을 것이다. 만약, 링커가 엄격한 신장성을 요구한다면 문헌[Pantoliano et al. (1991)Biochem.30:10117-10125]에서 기술된 나선 링커와 같은 α-나선 링커를 사용할 수 있다. 또한 링커는 컴퓨터 모델링에 의해 디자인될 수 있다(미국 특허 제4,946,778참조). 분자 모델링을 위한 소프트웨어는 구입해서 사용할 수 있다[예를 들어 Molecular Simulation, Inc., San Diego, CA 참조]. 이러한 링커는, 표준적인 돌연변이 유도 기술 및 단백질 공학의 기술 분야에서 쓰이는 생물리학적 테스트를 이용하고, 본원에 기술된 기능적 분석을 사용하여, 임의로 최적화, 즉, 예를 들어, 항원성을 감소시키고(또는) 안정성을 증가시킬 수 있다.Additional peptide linkers can be used that form a tertiary structure of random coils, α-helices, β-wrinkles. Polypeptides that form suitable flexible linkers are well known in the art. See, for example, Robinson and Sauer (1998) Proc. Natl. Acad. Sci. USA. 95: 5929-34. Flexible linkers typically include glycine, since glycine amino acids are the only amino acids with rotational freedom because they lack a side chain. Serine or threonine can be inserted into the linker to increase hydrophilicity. In addition, amino acids that can interact with the phosphate backbone of DNA can be used to increase binding affinity. Smart use of these amino acids may strike a balance between increasing affinity and decreasing sequence specificity. If the linker requires strict extensibility, Pantoliano et al. (1991) Biochem. 30: 10117-10125 can be used α-helical linkers such as the spiral linker described. Linkers can also be designed by computer modeling (see US Pat. No. 4,946,778). Software for molecular modeling can be purchased and used (see, eg, Molecular Simulation, Inc., San Diego, CA). Such linkers utilize standard mutagenesis techniques and biophysical tests used in the art of protein engineering, and use the functional assays described herein to optionally optimize, ie, reduce antigenicity, Or) increase stability.

징크 핑거 도메인을 활용한 실시를 위해, 징크 핑거 사이에서 자연적으로 발견되는 단백질을 핑거들을 서로 함께 연결하는 데 사용할 수 있다. 상기 자연적으로 발견되는 링커로 전형적인 것은 Thr-Gly-(Glu-Gln)-(Lys-Arg)-Pro-(Tyr-Phe)(SEQ ID NO:78)이다 (아가타 등. 상기 참조).For implementations utilizing zinc finger domains, proteins naturally found between zinc fingers can be used to connect the fingers together. Typical of such naturally found linkers are Thr-Gly- (Glu-Gln)-(Lys-Arg) -Pro- (Tyr-Phe) (SEQ ID NO: 78) (Agata et al., Supra).

이량체화 도메인.DNA 결합 도메인들을 연결하는 또다른 방법은 이량체화도메인, 특히 이종이량체화 도메인[Pomerantz et al. (1998)Biochemistry37:965-970 참조]을 사용하는 것이다. 이 실시태양에서는 DNA 결합 도메인이 별개의 폴리펩티드 사슬로 존재한다. 예를 들어, 첫 번째 폴리펩타이드는 DNA 결합 도메인 A, 링커 및 도메인 B를 코딩하는 반면, 두 번째 폴리펩타이드는 도메인 C, 링커 및 도메인 D을 코딩한다. 당업자는 특성이 밝혀진 많은 이량체화 도메인들으로부터 하나의 이량체화 도메인을 선별할 수 있다. 동종이량체가 바람직하지 않다면 이종이량체화을 선호하는 도메인이 사용될 수 있다. 특히 적용가능한 이량체화 도메인은 코일화된 코일 모티브(예를 들어 이량체 평행 또는 역평행 코일화된 코일)이다. 우선적으로 이종이량체를 형성하는 코일화된 코일을 또한 이용할 수 있다[Lumb and Kim, (1995) Biochemistry 34:8642-8648]. 이량체화 도메인의 또다른 종류로 이량체화가 소분자에 의해 또는 신호전달 경로를 통해 유발되는 것이 있다. 예를 들어, FK506의 이량화 형태는 두 개의 FK506 결합 단백질(FKBP) 도메인들을 이량체화하는 데 사용될 수 있다. 이러한 이량체화 도메인은 추가적인 조절 단계를 제공하기 위해 이용될 수 있다. Dimerization Domain. Another method of linking DNA binding domains is dimerization domains, in particular heterodimerization domains [Pomerantz et al. (1998) Biochemistry 37: 965-970. In this embodiment, the DNA binding domains are in separate polypeptide chains. For example, the first polypeptide encodes DNA binding domain A, linker and domain B, while the second polypeptide encodes domain C, linker and domain D. One skilled in the art can select one dimerization domain from many dimerization domains that have been characterized. If homodimers are not preferred, domains that favor heterodimerization can be used. Particularly applicable dimerization domains are coiled coil motifs (eg dimer parallel or antiparallel coiled coils). Coiled coils that preferentially form heterodimers can also be used (Lumb and Kim, (1995) Biochemistry 34: 8642-8648). Another class of dimerization domains is that dimerization is induced by small molecules or through signaling pathways. For example, a dimerized form of FK506 can be used to dimerize two FK506 binding protein (FKBP) domains. Such dimerization domains can be used to provide additional regulatory steps.

기능성 검사(Functional Assays) 및 용도Functional assays and uses

생화학적 검사 외에, 핵산 결합 도메인 또는 본원에서 기술된 방법(예를 들어 단위체 조립)에 의해 디자인된 단백질의 기능성을 생체 내에서 검사할 수 있다. 예를 들어, 표적 부위(예를 들어 세포 증식에 필요한 유전자의 프로모터 부위)에 결합하는 도메인이 선택될 수 있다. 단위체 조립에 의해, (1)표적 프로모터 부위에 걸친 하위부위에 각각 결합하도록 선택된 도메인들 및 (2)DNA 억제 도메인(예를 들어 WRPW 도메인)을 포함하는 단백질을 디자인할 수 있다.In addition to biochemical tests, the functionality of proteins designed by nucleic acid binding domains or the methods described herein (eg, monomer assembly) can be examined in vivo. For example, a domain can be selected that binds to a target site (eg, the promoter site of a gene required for cell proliferation). By unit assembly, one can design a protein comprising (1) domains selected to bind to subsites across the target promoter site, and (2) DNA inhibitory domains (eg, WRPW domains).

디자인된 단백질을 코딩하는 핵산 서열은 예를 들어 Kang 및 Kim의 문헌[2000,J. Biol. Chem.275:8742]에 의해 기술된 유도성 발현 벡터 등의 발현 벡터내에 클로닝될 수 있다. 이러한 구조체를 조직 배양 세포 또는 배아 간 세포에 형질감염시킴으로써 대상 모델로서의 트랜스제닉 유기체를 생성할 수 있다. 이러한 트랜스제닉 동물 모델에서 단백질의 발현을 유도하고, 조직 배양 세포의 세포 증식을 조사하거나 또는 발생학적 변화 및(또는) 종양 성장을 조사하여 디자인된 단백질의 효율을 결정할 수 있다. 아울러, 표적으로 삼은 유전자의 발현 정도는 예를 들어 RT-PCR 또는 노던 블롯과 같은 mRNA을 검출하는 일반적인 방법에 의해 검사할 수 있다. 더욱 완벽한 측정을 위하여는 디자인된 단백질을 발현하는 세포와 발현하지 않는 세포에서 mRNA을 정제한다. 이러한 mRNA의 두 개의 풀을 이용하여 대규모의 유전자 집합물(예를 들어 관심 있는 조건(예를 들어 암)에 관계된 유전자들의 집합물 또는 생물체의 유전체에서 동정된 유전자들의 집합물)에 대한 프로브를 함유하는 마이크로어레이을 탐지한다. 이러한 검사는 디자인된 단백질의 특이성을 결정하는데 특히 유용하다. 만일 디자인된 단백질이 높은 친화도를 가지나 낮은 특이성을 가진다면, 예상되는 표적 유전자 이외에 유전자의 발현에도 영향을 주어 다면적이고 바람직하지 않은 효과를 가져올 수 있다. 이러한 효과는 전사물의 전체적인 분석에 의해 밝혀진다.Nucleic acid sequences encoding the designed proteins are described, for example, in Kang and Kim, 2000, J. Biol. Chem. 275: 8742 can be cloned into expression vectors, such as inducible expression vectors described by. Such constructs can be transfected into tissue culture cells or embryonic liver cells to generate transgenic organisms as a subject model. In this transgenic animal model, the efficiency of the designed protein can be determined by inducing the expression of the protein, investigating cell proliferation of tissue culture cells or investigating developmental changes and / or tumor growth. In addition, the expression level of the targeted gene can be examined by a general method of detecting mRNA such as, for example, RT-PCR or Northern blot. For more complete measurements, mRNA is purified from cells expressing the designed protein and cells not expressing it. Two pools of these mRNAs are used to contain probes for large gene aggregates (eg, a collection of genes related to a condition of interest (eg cancer) or a collection of genes identified in an organism's genome). Detect microarrays. Such tests are particularly useful for determining the specificity of the designed protein. If the designed protein has high affinity but low specificity, it may affect the expression of the gene in addition to the expected target gene, which may have a multi- and undesirable effect. This effect is revealed by the overall analysis of the transcript.

결합 부위 우선성 검사Binding site priority test

각 도메인의 결합 부위 우선성은 EMSA, DNase 발자국법(footprinting), 표면 플라스마 공명법, 또는 컬럼 결합과 같은 생화학적 검사에 의해 확인할 수 있다. 결합에 필요한 기질로는 표적 부위를 포함하는 합성 올리고뉴클레오티드를 사용할 수 있다. 이러한 검사는 비특정 DNA을 경쟁체로서 또는 특정 DNA 서열을 경쟁체로서 포함할 수 있다. 특정 경쟁체 DNA로는 하나, 둘, 또는 세 개의 핵산 돌연변이를 가진 인식 부위가 사용될 수 있다. 따라서, 생화학적 검사로 소정 부위에 대한 도메인의 친화도 뿐만 아니라 다른 부위에 대한 소정 부위의 상대적 친화도도 측정할 수 있다. 레바 및 파보[Rebar and Pabo, 1994,Science263:671-673]는 EMSA로부터 징크 핑거 도메인에 대한 절대 Kd상수를 얻는 방법을 기술하고 있다.The binding site priority of each domain can be confirmed by biochemical tests such as EMSA, DNase footprinting, surface plasma resonance, or column binding. As the substrate for binding, synthetic oligonucleotides containing a target site may be used. Such testing may include non-specific DNA as a competitor or specific DNA sequences as a competitor. Recognition sites with one, two, or three nucleic acid mutations can be used as specific competitor DNAs. Thus, biochemical tests can determine the affinity of a domain for a site as well as the relative affinity of a site for another site. Rebar and Pabo, 1994, Science 263: 671-673 describe a method for obtaining the absolute K d constant for the zinc finger domain from EMSA.

본 발명은 하기 실제적인 실시예를 통해 더욱 구체적으로 기술될 것이다. 그러나, 이들 실시예는 본 발명의 범위를 제한하려는 의도로 제공된 것이 아님에 유의하여야 한다.The invention will be described in more detail through the following practical examples. However, it should be noted that these examples are not intended to limit the scope of the present invention.

실시예 1: 하이브리드 전사인자 발현을 위한 플라스미드의 제조Example 1 Preparation of Plasmids for Hybrid Transcription Factor Expression

징크 핑거 전사인자를 발현하는 발현 플라스미드는 pPC86[Chevray & Nathans (1991)Proc. Natl. Acad. Sci. USA 89, 5789-5793]을 변형시켜 제조하였다. 이하 기술되는 DNA 조작은 문헌[Current Protocols in Molecular Biology, Ausubeletal.(1998), John Wiley & Sons, Inc.]에 제시된 일반적인 방법에 따라 수행하였다. pPC86 내의SalI과EcoRI 인식장소 사이에 Zif268 징크 핑거 단백질을 지정하는 DNA 단편을 삽입하여 pPCFM-Zif를 만들었다. 이 클로닝 결과는 효모 Gal4 전사 활성화 도메인에 Zif268 징크 핑거 단백질이 연결된 융합단백질의 번역을 가져온다. pPCFM-Zif를 효소 숙주내로 형질전환시키면, Gal4 활성화 도메인과 Zif268 징크 핑거를 포함하는 하이브리드 전사인자가 발현된다. pPCFM-Zif내에 클로닝된 Zif268 징크핑거 단백질을 코딩하는 DNA 서열을 도9에 나타내었다.Expression plasmids expressing zinc finger transcription factors are described in pPC86 [Chevray & Nathans (1991) Proc. Natl. Acad. Sci. USA 89 , 5789-5793]. DNA manipulations described below are described in Current Protocols in Molecular Biology, Ausubel et al. (1998), John Wiley & Sons, Inc.]. pPCFM-Zif was made by inserting a DNA fragment designating a Zif268 zinc finger protein between Sal I and Eco RI recognition sites in pPC86. This cloning results in translation of the fusion protein with the Zif268 zinc finger protein linked to the yeast Gal4 transcriptional activation domain. Transformation of pPCFM-Zif into an enzyme host results in the expression of a hybrid transcription factor comprising a Gal4 activation domain and a Zif268 zinc finger. The DNA sequence encoding Zif268 zincfinger protein cloned in pPCFM-Zif is shown in FIG. 9.

징크 핑거 도메인들의 라이브러리를 구축하기 위한 벡터로서 pPCFMS-Zif 플라스미드를 이용하였다. pPCFMS-Zif는 pPCFM-Zif의 핑거3 코딩 부위 앞에 정지 코돈(stop codon)과PstI 인식서열을 포함하는 올리고뉴클레오티드 카셋트의 삽입에 의해 제조된다. 상기 올리고뉴클레오티드 카셋트는 두개의 합성 올리고뉴클레오티드, 즉 5'-TGCCTGCAGCATTTGTGGGAGGAAGTTTG-3' (SEQ ID NO 79) 및 5'-ATGCTGCAGGCTTAAGGCTTCTCGCCGGTG-3' (SEQ ID NO 80)을 결찰하여 형성된다. 정지코돈의 삽입은 Zif268의 핑거3을 코딩하는 플라스미드 라이브러리의 생성을 방지한다.The pPCFMS-Zif plasmid was used as a vector to build a library of zinc finger domains. pPCFMS-Zif is prepared by insertion of an oligonucleotide cassette comprising a stop codon and a Pst I recognition sequence before the Finger3 coding region of pPCFM-Zif. The oligonucleotide cassette is formed by ligation of two synthetic oligonucleotides, 5'-TGCCTGCAGCATTTGTGGGAGGAAGTTTG-3 '(SEQ ID NO 79) and 5'-ATGCTGCAGGCTTAAGGCTTCTCGCCGGTG-3' (SEQ ID NO 80). Insertion of stop codons prevents the creation of a plasmid library encoding Zif268's Finger3.

실시예 2:Example 2: 징크 핑거 도메인 라이브러리의 제조Preparation of Zinc Finger Domain Library

천연적으로 존재하는 징크핑거 도메인들의 플라스미드 라이브러리를 인간의 유전체로부터 징크 핑거 도메인들을 클로닝함으로써 제조하였다. 축중 프라이머(degenerate primer) 및 PCR을 이용하여 인간의 유전체 DNA(PromegaCorporation; 미국 위스콘신주 매디슨)로부터 징크 핑거 도메인들을 코딩하는 DNA 단편들을 증폭하였다. 인간 징크 핑거 도메인들을 클로닝하기 위하여 사용된 축중 DNA 프라이머의 DNA 서열은 다음의 두 종류이다.A plasmid library of naturally occurring zinc finger domains was prepared by cloning zinc finger domains from the human genome. Degenerate primers and PCR were used to amplify DNA fragments encoding zinc finger domains from human genomic DNA (Promega Corporation, Madison, Wisconsin). DNA sequences of degenerate DNA primers used for cloning human zinc finger domains are of the following two types.

제1군First group

5'-TCCCCCGGGSARARRCCNTWY-3' 및 5'-ATCCCCGCGGYYTYTCRCCGGTGTG-3'5'-TCCCCCGGGSARARRCCNTWY-3 'and 5'-ATCCCCGCGGYYTYTCRCCGGTGTG-3'

제2군2nd group

5'-GCGTCCGGACNCAYACNGGNSARA-3' (SEQ ID NO:81) 및5'-GCGTCCGGACNCAYACNGGNSARA-3 '(SEQ ID NO: 81) and

5'-CGGAATTCANNBRWANGGYYTYTC-3' (SEQ ID NO:82)5'-CGGAATTCANNBRWANGGYYTYTC-3 '(SEQ ID NO: 82)

(여기서, R은 G 및 A를 나타내고, B는 G, C 및 T를 나타내며, S는 G 및 C를 나타내고, W는 A 및 T를 나타내며, Y는 C 및 T를 나타내고 N은 A, C, G 및 T를 나타낸다).Wherein R represents G and A, B represents G, C and T, S represents G and C, W represents A and T, Y represents C and T and N represents A, C, G and T).

위의 염기서열은 많은 징크핑거 단백질들에서 자연적으로 발견되는 징크핑거 도메인들 사이의 링커(linker) 부위에서 발견되는 아미노산 서열 His-Thr-Gly-Glu/Gln-Lys/Arg-Pro-Tyr/Phe (SEQ ID NO 83)을 코딩하는 핵산 서열에 어닐링한다[아가타 등 (1998) Gene 213:55-64].The above sequence shows the amino acid sequence His-Thr-Gly-Glu / Gln-Lys / Arg-Pro-Tyr / Phe found at the linker site between the zinc finger domains naturally found in many zinc finger proteins. Anneal to a nucleic acid sequence encoding (SEQ ID NO 83) (Agatha et al. (1998) Gene 213: 55-64).

PCR의 버퍼 조성은 50 mM KCl, 3 mM MgCl2, 10 mM Tris (pH 8.3)이고 택 DNA 폴리머라제(Taq DNA polymerase)를 사용하여, 제1군 프라이머쌍의 경우 94℃에서 3분간 가열한 다음 94℃에서 30초, 37℃에서 30초, 74℃에서 1분씩 20회 반복한 후 94℃에서 30초, 45℃에서 30초, 74℃에서 1분씩 15회 반복하고 마지막으로 74℃에서 4분간 더 반응시켰다. 제2군 프라이머쌍의 경우에는 94℃에서 30초, 42℃에서 60초, 72℃에서 30초씩 35회 반복한 후 72℃에서 10분간 반응시켰다. 두 종류의 프라이머쌍을 사용한 결과 실질적인 차이가 없었다.The buffer composition of the PCR is 50 mM KCl, 3 mM MgCl 2 , 10 mM Tris (pH 8.3), and using Taq DNA polymerase, heated at 94 ° C. for 3 minutes for Group 1 primer pairs. Repeat 20 times at 94 ° C for 30 seconds, at 37 ° C for 30 seconds, at 74 ° C for 20 minutes, then at 94 ° C for 30 seconds, at 45 ° C for 30 seconds, at 74 ° C for 15 minutes, and at 74 ° C for 4 minutes Reacted further. In the case of the second group primer pairs, the reaction was repeated for 30 seconds at 94 ° C., 60 seconds at 42 ° C., and 30 seconds at 72 ° C., followed by reaction at 72 ° C. for 10 minutes. There was no substantial difference between the two primer pairs.

상기 PCR 산물을 다음과 같이 pPCFMS-Zif내로 클로닝하였다. PCR 산물을 전기영동하여 100 bp에 해당하는 단편을 분리한 다음,SacII와AvaI으로 처리한 후, 이를SgrAI,PstI,SacII로 처리한 pPCFMS-Zif(실시예1 참조)에 연결하였다. 결과적으로, 이 플라스미드 라이브러리가 코딩하는 하이브리드 전사인자의 DNA-결합 도메인은 Zif268의 핑거1 및 핑거2와 인간 유전체로부터 유래한 징크핑거 도메인으로 이루어진다. 총 106개의 대장균 형질전환체로부터 플라스미드 라이브러리를 제조하였다. 상기 라이브러리 제조방법에 의하면 징크핑거 도메인들 사이에서 발견되는 자연적으로 존재하는 링커 서열이 유지된다.The PCR product was cloned into pPCFMS-Zif as follows. PCR products were electrophoresed to isolate fragments corresponding to 100 bp, treated with Sac II and Ava I, and then linked to pPCFMS-Zif (see Example 1) treated with Sgr AI, Pst I, Sac II. It was. As a result, the DNA-binding domain of the hybrid transcription factor encoded by this plasmid library consists of Finger1 and Finger2 of Zif268 and a zinc finger domain derived from the human genome. A plasmid library was prepared from a total of 10 6 E. coli transformants. The library preparation method maintains naturally occurring linker sequences found between zincfinger domains.

실시예 3:Example 3: 징크 핑거 도메인 라이브러리의 제조Preparation of Zinc Finger Domain Library

무작위 돌연변이에 의해 돌연변이 징크 핑거 도메인의 라이브러리를 제조하였다. Zif268의 핑거3을 폴리펩티드 골격(framework)으로 사용하였다. 무작위 돌연변이는 SEQ ID NO 21(Zif268의 핑거3)의 73번 위치(아르기닌), 75번 위치(아스파르트산), 76번 위치(글루탐산), 77번 위치(아르기닌), 78번 위치(라이신) 및 79번 위치(아르기닌)에 각각 해당하는, 알파헬릭스를 따라 -1, 2, 3, 4, 5, 6 번째 위치의 아미노산에 무작위 돌연변이를 도입하였다. 이들 아미노산을 코딩하는 핵산 서열 위치의 각각에 무작위화 코돈, 즉, 5'-(G/A/C)(G/A/C/T)(G/C)-3'의 코돈을 도입하였다. 이 무작위화 코돈은 20 개의 아미노산 중에서 트립토판, 티로신, 시스테인, 페닐알라닌을 제외한 16 개의 아미노산 중 하나를 코딩한다. 상기 무작위화 코돈은 가능한 정지코돈 3 가지를 제외시킨다. 돌연변이가 삽입된 위치를 제외한 나머지 부분은 Zif268 징크 핑거 단백질의 핑거3과 동일하다. 상기 무작위화 코돈은 하기 두 개의 올리고뉴클레오티드로부터 제조된 올리고뉴클레오티드 카셋트로서 도입된다.A library of mutant zinc finger domains was prepared by random mutation. Finger3 of Zif268 was used as the polypeptide framework. Random mutations include position 73 (arginine), position 75 (aspartic acid), position 76 (glutamic acid), position 77 (arginine), position 78 (lysine) of SEQ ID NO 21 (finger 3 of Zif268), and Random mutations were introduced at amino acids at positions -1, 2, 3, 4, 5, and 6 along alpha helix, corresponding to position 79 (arginine), respectively. In each of the nucleic acid sequence positions encoding these amino acids, a codon of randomization codons, ie 5 '-(G / A / C) (G / A / C / T) (G / C) -3', was introduced. This randomized codon encodes one of 16 amino acids out of 20 amino acids except tryptophan, tyrosine, cysteine, phenylalanine. The randomized codon excludes three possible stop codons. Except for the position where the mutation was inserted, it is identical to Finger 3 of the Zif268 zinc finger protein. The randomized codons are introduced as oligonucleotide cassettes prepared from the following two oligonucleotides.

5'-GGGCCCGGGGAGAAGCCTTACGCATGTCCAGTCGAATCTTGTGATAGAAGATTC-3' (SEQ ID NO 84)5'-GGGCCCGGGGAGAAGCCTTACGCATGTCCAGTCGAATCTTGTGATAGAAGATTC-3 '(SEQ ID NO 84)

5'-CTCCCCGCGGTTCGCCGGTGTGGATTCTGATATGSNBSNBAAGSNBSNBSNBSNB5'-CTCCCCGCGGTTCGCCGGTGTGGATTCTGATATGSNBSNBAAGSNBSNBSNBSNB

TGAGAATCTTCTATCACAAG-3' (SEQ ID NO 85) (여기서, B는 G, T 및 C를 나타내고, S는 G 및 C를 나타내며, N은 A, G, C 및 T를 나타낸다.)TGAGAATCTTCTATCACAAG-3 '(SEQ ID NO 85) (where B represents G, T and C, S represents G and C, and N represents A, G, C and T.)

상기 두 개의 올리고누클레오티드를 결찰한 후 상온에서 30분간 클레노우 폴리머라제(Klenow polymerase)를 사용하여 이중가닥으로 만든 후AvaI과SacII로 처리하고 이를SgrAI,PstI,SacII로 처리한 pPCFMS-Zif(실시예 1 참조)에 삽입하였다. 총 109개의 형질전환된 균주로부터 플라스미드를 분리하여 징크 핑거 전사인자를 지정하는 플라스미드의 라이브러리를 제조하였다.After ligation of the two oligonucleotides, they were double-stranded using Klenow polymerase for 30 minutes at room temperature, treated with Ava I and Sac II, and then treated with Sgr AI, Pst I, and Sac II pPCFMS. Inserted in -Zif (see Example 1). A plasmid was prepared from a total of 10 9 transformed strains to prepare a library of plasmids designating zinc finger transcription factors.

실시예 4: 리포터 플라스미드의 제조Example 4: Preparation of Reporter Plasmid

HIS3유전자를 포함하는 리포터 플라스미드를 pRS315His(Wang & Reed (1993),Nature 364, 121-126)를 변형하여 제조하였다. 상기 리포터 플라스미드는 또한 이 플라스미드를 갖는 형질전환체의 선별을 위한 목적으로LEU2마커를 그의 천연적 프로모터 아래에 포함한다. 먼저 pRS315His 내의SalI 인식서열을 제거하기 위해 pRS315His를SalI과BamHI으로 처리한 후 얻은 작은 단편과, 같은 플라스미드를BamHI과XhoI으로 처리한 후 얻은 큰 단편을 결합시켜 pRS315HisΔSal을 만들었다. 그 다음, 올리고누클레오티드 듀플렉스를BamHI과XmaI 사이의 pRS315HisΔSal에 삽입하여HIS3유전자의 프로모터 부위에SalI 인식서열을 도입하였다. 서로 결찰되어 삽입되는 듀플렉스를 형성하는 두 올리고뉴클레오티드 서열은 다음과 같다.A reporter plasmid containing the HIS3 gene was prepared by modifying pRS315His (Wang & Reed (1993), Nature 364 , 121-126). The reporter plasmid also contains an LEU2 marker below its natural promoter for the purpose of selecting transformants with this plasmid. First, a small fragment, such as a plasmid obtained after processing the pRS315His with Sal I and Bam HI to remove the Sal I recognition sequence in the pRS315His treated with Bam HI and Xho I to combine the large fragment obtained made pRS315HisΔSal. The oligonucleotide duplex was then inserted into pRS315HisΔSal between Bam HI and Xma I to introduce Sal I recognition sequences into the promoter region of the HIS3 gene. Two oligonucleotide sequences that form a duplex that are ligated into each other are as follows.

5'-CTAGACCCGGGAATTCGTCGACG-3' (SEQ ID NO: 86)5'-CTAGACCCGGGAATTCGTCGACG-3 '(SEQ ID NO: 86)

5'-GATCCGTCGACGAATTCCCGGGT-3' (SEQ ID NO: 87)5'-GATCCGTCGACGAATTCCCGGGT-3 '(SEQ ID NO: 87)

그 결과 생성된 플라스미드를 pRS315HisMCS라고 명명하였다.The resulting plasmid was named pRS315HisMCS.

pRS315HisMCS에 원하는 복합 서열을 삽입하여 다양한 리포터 플라스미드를 만들었다. 상기 복합 서열은 복합 서열의 4 복제를 포함하는 직렬배열(tandem array)로서 삽입된다. 상기 표적 서열들은 HIV-1의 LTR에서 발견되는 10-bp DNA 서열 및 인간유전자CCR5의 프로모터에 존재하는 10 bp 서열(도6 참조)에서 유래한 것이다.Various reporter plasmids were made by inserting the desired complex sequence into pRS315HisMCS. The complex sequence is inserted as a tandem array containing 4 copies of the complex sequence. The target sequences are derived from the 10-bp DNA sequence found in the LTR of HIV-1 and the 10 bp sequence present in the promoter of human gene CCR5 (see Figure 6).

이들 각각의 10-bp DNA 서열 중 4-bp 표적 부위 성분을 분석함으로써, 이 부위를 인식하는 징크핑거 도메인을 동정하였다. 모듈성 조합 방법을 이용하여 이러한 징크핑거 도메인을 커플링함으로써 생체내에서 상기 부위를 인식할 수 있는 DNA 결합 단백질을 제조할 수 있다.A zinc finger domain that recognizes this site was identified by analyzing the 4-bp target site component of each of these 10-bp DNA sequences. Modular combinatorial methods can be used to couple these zincfinger domains to produce DNA binding proteins capable of recognizing such sites in vivo.

도 6에서 밑줄 그은 부분은 4-bp의 표적 염기서열의 예를 나타낸다. 이들 각각의 4-bp 표적 서열은 Zif268의 핑거 1 및 2에 의해 인식되는 염기서열인 5'-GGGCG-3'의 5-bp 소집 서열에 연결된다. 이렇게 생성된 9-bp 서열은 복합 결합 서열을 구성한다. 각각의 복합 결합 서열은 5'-XXXXGGGCG-3'의 형식을 갖는데, 여기서 XXXX는 4-bp 표적 서열이고, 인접한 5'-GGGCG-3'는 소집 서열이다.Underlined in Figure 6 shows an example of the target sequence of 4-bp. Each of these 4-bp target sequences is linked to the 5-bp recruiting sequence of 5'-GGGCG-3 ', which is the nucleotide sequence recognized by fingers 1 and 2 of Zif268. The 9-bp sequence thus produced constitutes a complex binding sequence. Each complex binding sequence has the format 5'-XXXXGGGCG-3 ', where XXXX is a 4-bp target sequence and adjacent 5'-GGGCG-3' is a recruiting sequence.

도7은 pRS315HisMCS 내 리포터 유전자에 작동가능하게 연결된, 복합 결합 부위의 직렬 배열이 삽입된 염기서열을 보여준다. 각각의 직렬 배열은 복합 결합부위의 염기서열의 4 카피가 배치되어 있다. 각각의 결합 부위에 대하여 두개의 올리고뉴클레오티드를 합성하여 결찰한 후, pRS315HisMCS의SalI과XmaI 장소에 연결하여 리포터 플라스미드들을 만들었다.FIG. 7 shows a nucleotide sequence into which a serial arrangement of complex binding sites is inserted, operably linked to a reporter gene in pRS315HisMCS. Each serial sequence is arranged four copies of the base sequence of the complex binding site. Two oligonucleotides were synthesized and ligated for each binding site, and then linked to Sal I and Xma I sites of pRS315HisMCS to generate reporter plasmids.

실시예 5: 구체적 리포터 플라스미드의 제조Example 5: Preparation of Specific Reporter Plasmids

3 염기쌍의 핑거3 표적 부위에 대하여 각각 한 쌍의 리포터(즉, 하나는lacZ, 다른 하나는HIS3)를 포함하는 리포터 플라스미드 한 세트를 다음과 같이 제조하였다. 리포터 플라스미드는 원하는 표적 서열을 pRS315HisMCS 및 pLacZi내로 삽입하여 제조하였다. 각각의 3 염기쌍의 표적 부위에 대하여 두 개의 올리고뉴클레오티드를 합성하고, 서로 결찰시켜 이중가닥으로 한 후, 이를 pRS315HisMCS 및 pLacZi의 SalI 및 XmaI 부위 사이로 삽입하여 리포터 플라스미드를 제조하였다.상기 올리고뉴클레오티드의 DNA 서열은 다음과 같다: 5'-CCGGT NNNTGGGCGTAC NNNTGGGCG TCA NNNTGGGCG-3'(SEQ ID NO 88) 및 5'-TCGACGCCCANNN TGA CGCCCANNN GTACGCCCANNN A3'(SEQ ID NO 89). 총 64쌍의 올리고뉴클레오티드를 합성하여 상기 두 개의 리포터 플라스미드내로 삽입하였다.A set of reporter plasmids containing a pair of reporters (ie, one lacZ and one HIS3 ) for each of the three base pairs of Finger3 target sites was prepared as follows. Reporter plasmids were prepared by inserting the desired target sequences into pRS315HisMCS and pLacZi. Two oligonucleotides were synthesized for each of the three base pair target sites, ligated together to double strand, and inserted between the SalI and XmaI sites of pRS315HisMCS and pLacZi to prepare a reporter plasmid. Is as follows: 5'-CCGGT NNNTGGGCGTAC NNNTGGGCG TCA NNNTGGGCG-3 '(SEQ ID NO 88) and 5'-TCGACGCCCANNN TGA CGCCCANNN GTACGCCCANNN A3' (SEQ ID NO 89). A total of 64 pairs of oligonucleotides were synthesized and inserted into the two reporter plasmids.

실시예6: 원하는 DNA-결합 특이성을 갖는 징크 핑거 도메인의 선택.Example 6: Selection of zinc finger domains with desired DNA-binding specificities.

주어진 표적 염기서열에 특이적으로 결합하는 징크 핑거 도메인을 선택하기 위하여, 효모를 리포터 플라스미드와 하이브리드 전사인자를 발현하는 징크 핑거 라이브러리 플라스미드로 형질전환시켰다. 이하 기술되는 효모의 형질전환 방법과 생체내 스크리닝 방법은 문헌[Current Protocols in Molecular Biology, Ausubelet al.(1998), John Wiley & Sons, Inc., 미국 뉴저지주 잉글우드]에 제시된 일반적인 방법에 따라 수행되었다. 효모 균주로는 yWAM2(MATα Δgal4Δgal80 URA3::GAL1-lacZ lys2801 his3-Δ200 trp1-Δ63 leu2 ade2-101CYH2)를 사용하였다.To select zinc finger domains that specifically bind to a given target sequence, yeast was transformed with zinc finger library plasmids expressing reporter plasmids and hybrid transcription factors. Transformation methods and yeast screening methods for yeast described below are described in Current Protocols in Molecular Biology, Ausubel et al. (1998), John Wiley & Sons, Inc., Inglewood, NJ, USA. As the yeast strain yWAM2 (MATα Δ gal4 Δ gal80 URA3 :: GAL1-lacZ lys2801 his3- Δ 200 trp1- Δ 63 leu2 ade2-101CYH2) was used.

일 예로서, 먼저 리포터 유전자에 작동가능하게 연결된 염기서열 5'-GAGCGGGCG-3'(찾고자 하는 핑거3가 결합할 염기서열을 밑줄로 표시함)의 복합 결합부위를 포함하는 리포터 플라스미드를 효모에게 형질전환시켰다. 그 다음, 무작위 돌연변이법으로 제조된 돌연변이 징크 핑거 도메인의 플라스미드 라이브러리를 상기 형질전환된 효모내로 도입하였다. 약 106개 정도의 콜로니들을 류신 및 트립토판이 모두 결여된 배지에서 얻었다. 리포터 플라스미드 및 징크 핑거 도메인 발현플라스미드는 마커(marker)로서 각각LEU2유전자와TRP1유전자를 갖고 있어서 두 종류의 플라스미드로 모두 형질전환된 효모는 류신과 트립토판이 결여된 배지에서 자랄 수 있다.As an example, first, a reporter plasmid comprising a complex binding site of nucleotide sequence 5'- GAGC GGGCG-3 '(underlined base sequence to which Finger 3 is to be bound) is operably linked to the reporter gene. Transformed. A plasmid library of mutated zinc finger domains prepared by random mutagenesis was then introduced into the transformed yeast. About 10 6 colonies were obtained in media lacking both leucine and tryptophan. The reporter plasmid and zinc finger domain expression plasmids have the LEU2 gene and the TRP1 gene as markers, respectively, so that yeast transformed with both plasmids can be grown in media lacking leucine and tryptophan.

완성적인 측면에서, 인간 유전체에서 유래하는 징크 핑거 도메인의 라이브러리를 리포터 플라스미드를 함유하는 세포내로 형질전환시켰다. 이러한 형질전환은 리포터 유전자에 작동가능하게 연결된 상이한 5종류의 표적 서열 중 하나를 함유하는 다섯 종류의 상이한 숙주 세포 균주에 대하여 이루어졌다. 류신 및 트립토판이 모두 결여된 배지에서 각 형질전환으로부터 약 105개 정도의 콜로니들을 얻었다.In a complete aspect, a library of zinc finger domains derived from the human genome was transformed into cells containing the reporter plasmid. This transformation was done for five different host cell strains containing one of five different target sequences operably linked to the reporter gene. About 10 5 colonies were obtained from each transformation in media lacking both leucine and tryptophan.

형질전환체를 류신 및 트립토판이 결여된 합성 배지를 함유하는 페트리 디쉬상에서 성장시켰다. 인큐베이션 후, 플레이트에 10% 글리세롤 용액을 가한 후 세포들을 긁어모아 글리세롤 용액중에 동결 보관하였다. 그 중 일부를 류신, 트립토판, 및 히스티딘이 결핍된 배지에 뿌렸다. 징크 핑거 전사인자의 작용이 없이도 미세한 양의HIS3이 발현될 수 있기 때문에 이로 인한 세포 성장을 억제하기 위해 일부 성장 배지에는HIS3의 억제제인 3-아미노트리아졸(AT)을 각각 0, 0.03 mM, 0.1 mM, 0.3 mM 첨가하였다. 각 배지마다 약 107개의 효모 세포를 뿌렸을 때, AT를 첨가하지 않은 배지에서는 수 백 개의 콜로니가 자라났고, AT의 농도가 증가할수록 콜로니 숫자가 줄어들어 0.3 mM에서는 10 개의 콜로니가 자라났다. AT를 첨가하지 않은 배지와 0.3 mM를 첨가한 배지에서 각각 7 개씩의 콜로니를 임의로 선정하여 이들을 배양한 후 플라스미드를 분리하였다. 이 플라스미드를 이용하여 대장균 균주 KC8(pyrF leuB600 trpC hisB463)을 형질전환시켰다. 이로부터 징크 핑거 전사인자를 코딩하는 플라스미드만을 분리하여 DNA 염기서열을 결정하였다.Transformants were grown on Petri dishes containing synthetic media lacking leucine and tryptophan. After incubation, 10% glycerol solution was added to the plates and the cells were scraped and stored frozen in glycerol solution. Some of them were sprayed on medium lacking leucine, tryptophan, and histidine. Because small amounts of HIS3 can be expressed without the action of zinc finger transcription factors, some growth media contain 3-aminotriazole (AT), an inhibitor of HIS3 , at 0, 0.03 mM, and 0.1 to suppress cell growth. mM, 0.3 mM was added. When about 10 7 yeast cells were sprayed in each medium, hundreds of colonies grew in the medium without adding AT, and as the concentration of AT increased, the number of colonies decreased, resulting in 10 colonies growing at 0.3 mM. Seven colonies were randomly selected from the medium without AT and the medium with 0.3 mM, and the plasmids were isolated after culturing them. E. coli strain KC8 ( pyrF leuB600 trpC hisB463 ) was transformed using this plasmid. DNA sequencing was determined by separating only the plasmid encoding the zinc finger transcription factor.

각 선택된 징크핑거 도메인의 아미노산 서열을 상기 결정된 DNA 염기서열로부터 연역적으로 유도하였다. 각 징크핑거 도메인은 그들의 표적 염기-접촉 부위에서의 아미노산 잔기, 즉, 알파헬릭스를 따라 -1, 2, 3, 6 번째 위치의 아미노산 잔기의 약칭을 따서 명명하였다. 이를 표1에 나타내었다. 동정된 징크핑거 도메인은 표적 염기-접촉 부위에서 발견되는 4개의 아미노산으로 명명된다. 염기서열을 분석한 결과, 동일한 징크핑거 도메인이 반복적으로 얻어졌음을 알 수 있다. 표1에서 괄호안의 숫자는 동일한 징크핑거 도메인이 반복되어 얻어진 횟수를 나타낸다. 예를 들어, 4 염기 접촉 부위에 CSNR을 갖는 두 개의 징크 핑거가 GAGC 핵산 부위에 결합하는 것으로 동정되었다(칼럼3의 "GAGC/인간 유전체" 참조).The amino acid sequence of each selected zinc finger domain was deduced from the DNA sequences determined above. Each zinc finger domain is named after the amino acid residues at their target base-contacting sites, ie amino acid residues at the -1, 2, 3, 6 positions along the alpha helix. This is shown in Table 1. The identified zinc finger domains are named four amino acids found at the target base-contacting site. As a result of analyzing the sequence, it can be seen that the same zinc finger domain was repeatedly obtained. The numbers in parentheses in Table 1 indicate the number of times the same zinc finger domain was obtained repeatedly. For example, two zinc fingers with CSNR at the 4 base contact site were identified as binding to the GAGC nucleic acid site (see “GAGC / Human Genome” in column 3).

표적 서열Target sequence GAGCGAGC GAGCGAGC GCTTGCTT GACTGACT GAGTGAGT ACATACAT 징크핑거 도메인 라이브러리의 원천Source of the Zinc Finger Domain Library 무작위돌연변이Random mutation 인간유전체Human genome 인간유전체Human genome 인간유전체Human genome 인간유전체Human genome 인간유전체Human genome 염기 접촉 부위에서의아미노산 잔기*Amino acid residues at base contact sites * KTNR(2)RTTRRPNRHSNRRLKPTRQRTALHRQKAPARVRTFRRNNRDPLHRGNR K T NR (2) RTTRRPNRHSNRRLKPTRQRTALHRQKAPARVRTFRRNNRDPLHRGNR RTNR(2)RTNRCSNR (2)SSNR (3)RSTVSSGE R T NR (2) RTNRCSNR (2) SSNR (3) RSTVSSGE VSTR(9)VS TR (9) HSNK(2)CSNR (7)HS NK (2) CSNR (7) RDER(2)SSNR (5) R DE R (2) SSNR (5) QSTV (3) Q S T V (3)

* 오른쪽 여섯개의 칼럼에 나타낸 4개 영문 식별자는 각 표적 서열에 대하여 단리된 징크핑거 도메인을 나타낸다. 이들 명명은 염기 접촉 부위에서의 아미노산 잔기를 나타내지만, 이들이 폴리펩티드의 서열은 아니다.The four English identifiers shown in the right six columns represent the zinc finger domains isolated for each target sequence. These nomenclatures refer to amino acid residues at base contact sites, but they are not sequences of polypeptides.

선택된 인간 징크 핑거 도메인들을 코딩하는 전장 DNA 서열과 이를 번역해서 얻은 아미노산 서열을 도 11에 나타내었다. 인간 유전체에서 징크핑거 도메인을 코딩하는 DNA 세그먼트를 증폭시키기 위하여 사용하였던 축중 PCR 프라이머에 상보적인 서열을 밑줄을 그어 표시하였다. 이 부분의 염기서열은 보고된 인간 유전체 서열의 원래 염기서열과 다를 수 있다. 표적 서열의 염기와 상호작용할 것으로 기대되는 결합 부위의 아미노산 잔기들을 굵은체로 표시하였고 아연 이온과 배위결합을 하는 두 개의 시스테인 잔기와 히스티딘 잔기들을 이탤릭체로 나타내었다.The full length DNA sequence encoding the selected human zinc finger domains and the amino acid sequence obtained by translation thereof are shown in FIG. 11. Sequences complementary to the degenerate PCR primers used to amplify the DNA segments encoding the zinc finger domains in the human genome were underlined. The base sequence of this portion may differ from the original base sequence of the reported human genome sequence. The amino acid residues of the binding site that are expected to interact with the base of the target sequence are shown in bold, and the two cysteine and histidine residues in coordination with zinc ions are shown in italics.

진 뱅크(GenBank) 데이타베이스를 검색한 결과, 본 발명에 따른 생체내 스크리닝으로 동정된 인간 징크 핑거 도메인들 가운데 일부는 데이타베이스에 존재하는 것으로 확인되었고 일부는 본 발명에서 처음 발견된 신규 폴리펩티드인 것으로 확인되었다. 예를 들어, HSNK(진뱅크 억세션 번호 AF155100), QSTV(진뱅크 억세션 번호 AL110217), VSTR(진뱅크 억세션 번호 AF025772)의 경우에는 각각의 염기서열과 동일한 염기서열을 포함하고 있는 유전자들이 이미 데이터베이스에 존재하고 있었고 그 밖의 CSNR, SSNR, RDER의 경우에는 본원 발명에서 처음 발견된 것으로 확인되었다. 그러나 진뱅크 데이터베이스에 수록된 경우에도 그 유전자의 염기서열만 보고되어 있을 뿐 이들 징크 핑거 도메인의 기능이나 유용성에 대해서는 전혀 알려지지 않았다. 즉, 이들 징크 핑거 도메인들이 어떠한 염기서열을 인식하는지알 수 없는 것은 물론 DNA결합도메인으로 기능할 수 있는지의 여부도 알려지지 않았다. 자연계에 존재하는 많은 징크 핑거 도메인들 가운데에는 DNA에 결합하지 못하고 RNA에 결합하거나 다른 단백질에 결합하는 것들도 있고 이와는 달리 어떠한 것과도 결합하지 못하는 것들도 상당수 있다. DNA에 결합하는 징크 핑거의 경우에도 서열특이적으로 특정한 염기서열을 인식할 수도 있고 비특이적으로 DNA에 결합할 수도 있다. 본원발명에서는 상기 징크 핑거 도메인들이 각각 특정한 DNA 염기서열을 특이적으로 인식하는 DNA결합도메인이라는 사실을 최초로 보여줌으로써 이들의 용도 및 기능을 비로서 밝히게 된 것이다.A search of the GenBank database revealed that some of the human zinc finger domains identified by in vivo screening according to the present invention were present in the database and some were new polypeptides first discovered in the present invention. Confirmed. For example, in the case of HSNK (GenBank Accession No. AF155100), QSTV (GenBank Accession No. AL110217), and VSTR (GenBank Accession No. AF025772), genes containing the same nucleotide sequence as each base sequence are It was already present in the database and for other CSNRs, SSNRs, and RDERs, it was confirmed that it was first discovered in the present invention. However, even in the GenBank database, only the nucleotide sequence of the gene is reported, and the function and usefulness of these zinc finger domains are not known at all. In other words, it is not known what nucleotide sequence these zinc finger domains recognize and whether it can function as a DNA binding domain. Many of the zinc finger domains in nature can't bind to DNA, bind to RNA or bind to other proteins, and many can't bind to anything else. In the case of a zinc finger that binds to DNA, a specific base sequence may be recognized specifically or may be nonspecifically bound to DNA. In the present invention, the use of the zinc finger domains are the DNA binding domains that specifically recognize specific DNA sequences.

또한, 본원 발명에서는 인간 유전체에서 유래한 상기 징크 핑거 도메인들이 조립식으로 작용하여 신규의 DNA-결합 단백질을 제조하기 위한 구성 블록으로서 사용될 수 있음을 밝혔다. 본원 발명의 인간 징크핑거 도메인은 이를 Zif268의 핑거 1 및 핑거 2에 이어서 C 말단에 배치하였을 때 생체내에서 이들이 특정의 표적 서열을 인식하는 능력에 기초하여 선택되었다. 따라서, 동정된 징크핑거 도메인은 인위적인 문맥에서 특정 서열을 인식할 수 있고, 합성 전사인자를 디자인하기 위한 모듈성 구성 블록으로서 적합하다.In addition, the present invention has revealed that the zinc finger domains derived from the human genome can be used as building blocks to prefabricate and produce novel DNA-binding proteins. The human zinc finger domains of the present invention were selected based on their ability to recognize a particular target sequence in vivo when placed at Finger 1 and Finger 2, followed by the C terminus of Zif268. Thus, the identified zinc finger domains can recognize specific sequences in an artificial context and are suitable as modular building blocks for designing synthetic transcription factors.

실시예 7: 효모의 쌍 교배 (pairwise mating)Example 7 Pairwise Mating of Yeast

3 염기쌍의 표적 서열에 결합하는 징크핑거 도메인의 동정을 용이하게 하기 위하여, 효모 세포의 반복적인 형질전환을 피하고, 한 번의 형질전환으로 64개의 리포터 구조물의 각각에 대하여 결합하는 양성 결합 형질전환체를 찾기 위하여, 효모의 교배를 이용하였다. YW1(MATα교배형) 및 YPH499(MATa교배형)의 두 종류의 효모 균주를 사용하였다. YW1은 yWAM2로부터 유래된 것으로 5-플루오로오로틱 에시드(FOA) 내성인 클론을 선택함으로써 yWAM2의ura3-유도체를 생성하였다.To facilitate the identification of zinc finger domains that bind to three base pairs of target sequences, a positive binding transformant that binds to each of the 64 reporter constructs in one transformation is avoided, avoiding repetitive transformation of the yeast cells. To find out, we used yeast crosses. Two types of yeast strains of the YW1 (MATα mating types) and YPH499 (MATa mating types) were used. YW1 was derived from yWAM2 and produced a ura3 -derivative of yWAM2 by selecting a clone that was 5-fluoroorotic acid (FOA) resistant.

징크핑거 도메인의 플라스미드 라이브러리를 효모 형질전환에 의해 YW1내로 도입하였다. 약 106개의 형질전환된 콜로니로부터 10% 글리세롤 용액으로 플레이트를 긁어서 세포를 수집하여, 소분획으로 냉동시켰다. 64개의 리포터 플라스미드의 각 쌍(pLacZi 또는 pRS315His로부터 유래)을 효모 균주 YPH499에 또한 공동 형질감염시켰다. 각각의 리포터 플라스미드 쌍을 함유하는 형질전환체를 수거하여 냉동시켰다.A plasmid library of zinc finger domains was introduced into YW1 by yeast transformation. Cells were collected by scraping the plate with 10% glycerol solution from about 10 6 transformed colonies and frozen in small fractions. Each pair of 64 reporter plasmids (derived from pLacZi or pRS315His) were also cotransfected into yeast strain YPH499. Transformants containing each reporter plasmid pair were harvested and frozen.

냉동시킨 세포들을 녹인 후, 이들 효모 세포들은 최소배지에서 중간-로그 성장기까지 성장시켰다. 이어서, 이 두 세포 유형을 혼합하고 YPD에서 5시간 동안 교배되도록 두었다. X-gal 및 AT(1 mM)을 함유하고, 트립토판, 류신, 우라실 및 히스티딘이 결여된 최소 배지에서 이배체 세포를 선택하였다. 수일 후, 선택용 플레이트에서 성장한 파란색 콜로니를 단리하고, 이로부터 징크핑거 도메인을 코딩하는 플라스미드를 단리하고, 선택된 징크핑거 도메인의 DNA 서열을 결정하였다.After thawing frozen cells, these yeast cells were grown from minimal medium to mid-log growth phase. These two cell types were then mixed and allowed to cross for 5 hours in YPD. Diploid cells were selected in minimal medium containing X-gal and AT (1 mM) and lacking tryptophan, leucine, uracil and histidine. After several days, blue colonies grown on selection plates were isolated, from which plasmids encoding zinc finger domains were isolated, and DNA sequences of the selected zinc finger domains were determined.

파란색 콜로니로부터 단리된 핵산을 YW1 세포에 개별적으로 재형질전환시켰다. 각각의 단리된 핵산에 대하여, 재형질전환된 YW1 세포를 64 LacZ 리포터 플라스미드를 각각 함유하는 YPH499 세포와 96웰 플레이트에서 교배시키고, X-gal을 함유하고 트립토판 및 우라실을 결한 최소 배지상에 뿌렸다. 64개의 표적 서열에 대한 징크핑거 도메인의 DNA 결합의 친화도 및 특이성은 파란 색상의 강도에 의해 결정되었다. Zif268 징크핑거 도메인과의 대조군 실험결과, 징크핑거 도메인과 결합 부위 사이의 친화적(양성) 상호작용은 진파랑 내지 연파랑 콜로니를 만들고(여기서 파랑색의 강도는 결합 친화도에 비례한다) 비친화적(음성) 상호작용은 흰색 콜로니를 만든다는 것을 알 수 있다.Nucleic acids isolated from blue colonies were individually retransformed into YW1 cells. For each isolated nucleic acid, retransformed YW1 cells were crossed in 96-well plates with YPH499 cells containing 64 LacZ reporter plasmids, respectively, and sprinkled on minimal medium containing X-gal and tryptophan and uracil. The affinity and specificity of the DNA binding of the zinc finger domains for 64 target sequences was determined by the intensity of the blue color. In a control experiment with Zif268 zincfinger domain, the friendly (positive) interaction between the zincfinger domain and the binding site resulted in deep blue to light blue colonies where the intensity of blue is proportional to binding affinity. Negative) interaction produces white colonies.

실시예 8: 동정된 징크핑거 도메인과 상호작용 코드의 비교Example 8 Comparison of Interaction Codes with Identifyed Zinc Finger Domains

선택된 징크 핑거 도메인들의 아미노산서열로부터 염기와 상호작용을 할 것으로 예상되는 아미노산 잔기들과 지금까지 밝혀진 징크 핑거-DNA 상호작용 코드표(도3)에서 예측할 수 있는 아미노산 잔기와의 동일성 및 유사성을 비교, 분석하였다.Comparing the amino acid residues expected to interact with the base from the amino acid sequences of the selected zinc finger domains and the identity and similarity with the amino acid residues predictable in the zinc finger-DNA interaction code table (Fig. 3) thus far identified, Analyzed.

예를 들어, 무작위 돌연변이를 통해 제조된 라이브러리로부터 선택된 징크 핑거 도메인 내 공통적 아미노산 잔기는, -1 번 위치에서는 R(아르기닌)(14 개 중에서 7 개) 또는 K(라이신)(14 개 중에서 2 개), 3 번 위치에서는 N(아스파라긴)(14 개 중에서 6 개) 및 6 번 위치에서는 R(14 개 중에서 9 개)이었다(표1 참조). 상기 징크핑거 도메인들은 GAGC 플라스미드로부터 선택되었다. (리포터 유전자에 작동가능하게 연결된 복합 결합서열 5'-GAGCGGGCG-3'을 갖는 리포터 플라스미드를 GAGC 플라스미드로 부르기로 한다. 이하 유사하게, 리포터 유전자에 작동가능하게 연결된 복합 결합서열 5'-XXXXGGGCG-3'을 포함하는 리포터 플라스미드를 XXXX 플라스미드라 부른다). 상기 결과는 세 위치에서 모두 도 3에 제시된코드를 통해 예상할 수 있는 아미노산과 정확히 일치한다. [인간 유전체내 대부분의 징크핑거 도메인들은 2 번 위치에 S(세린)을 갖고 있고, 세린은 4개의 염기중 어느 것과도 수소 결합을 형성할 수 있기 때문에, 2번 위치에서의 영향은 이하 분석 과정에서 고려하지 않기로 한다. 또한, 일반적으로 2번 위치의 잔기는 염기 인식에 보조적인 역할을 하는 것으로 알려져 있다(Pavletich 및 Pabo(1991)Science252, 809-817].For example, a common amino acid residue in a zinc finger domain selected from a library prepared via random mutations may be R (arginine) (7 out of 14) or K (lysine) (2 out of 14) at position -1. , N (asparagine) at position 3 (6 of 14) and R (9 of 14) at position 6 (see Table 1). The zinc finger domains were selected from GAGC plasmids. (Reporter plasmid having a complex binding sequence 5'- GAGC GGGCG-3 'operably linked to the reporter gene will be referred to as a GAGC plasmid. Similarly, the complex binding sequence 5'- XXXX GGGCG operably linked to the reporter gene Reporter plasmids comprising −3 ′ are termed XXXX plasmids). The results correspond exactly to the amino acids that can be expected from the code shown in FIG. 3 at all three positions. [Most zinc finger domains in the human genome have S (serine) at position 2, and since serine can form hydrogen bonds with any of the four bases, the effect at position 2 is Will not be considered. In addition, residues at position 2 are generally known to play an auxiliary role in base recognition (Pavletich and Pabo (1991) Science 252, 809-817).

인간의 유전체에서 유래한 징크 핑거 도메인들의 경우에도 코드로부터 예상되는 아미노산과 실제 관찰된 아미노산 잔기들이 대부분 일치하였다. 예를 들어, GAGC 플라스미드를 사용하여 얻은 징크 핑거 도메인내 -1, 3, 6 번 공통 아미노산잔기들은 각각 R, N, R로서(표1 칼럼3 참조) 이는 무작위 돌연변이를 통해 만든 라이브러리로부터 얻은 징크 핑거 도메인의 경우와 동일했고, 또한 코드에서 예상할 수 있는 아미노산과 정확히 일치하였다. GCTT 플라스미드를 사용하여 얻은 징크 핑거 도메인은 -1, 3, 6 번째 아미노산들이 각각 V, T, R로 나타났다(표1 칼럼4). 이 중에서 T와 R은 코드의 예상과 일치한다. 3 bp의 염기서열에서 3' 말단에 위치하는 T와 상호작용을 할 것으로 기대되는 -1 번째 위치의 아미노산은 코드에 의하면 L, T, N 등으로 예상되는데, 본원발명에서 GCTT 플라스미드로 얻은 VSTR 징크 핑거 도메인은 이 위치에 L(류신)과 유사한 소수성 아미노산인 V(발린)을 포함하고 있었다.In the case of the zinc finger domains derived from the human genome, most of the amino acids expected from the code and the amino acid residues actually observed coincide. For example, the common amino acid residues -1, 3, and 6 in the zinc finger domain obtained using the GAGC plasmid are R, N, and R, respectively (see Table 1, column 3), which are zinc fingers obtained from a library made through random mutations. Same as for the domain, and also exactly matches the amino acid expected in the code. The zinc finger domain obtained using the GCTT plasmid showed -1, 3, 6th amino acids as V, T, and R, respectively (Table 1 column 4). Of these, T and R match the expected code. The amino acid at position -1 expected to interact with T located at the 3 'end in the 3 bp sequence is expected to be L, T, N, etc. according to the code. VSTR zinc obtained by GCTT plasmid according to the present invention The finger domain contained V (valine), a hydrophobic amino acid similar to L (leucine) at this position.

전체적으로, 선택된 징크 핑거 도메인들내 아미노산 잔기들은 3 개의 위치 중 적어도 2 개의 위치에서는 코드로부터 예상되는 아미노산과 일치하였다. 표 1에서 각각의 표적 결합 서열에 대하여 선택된 징크 핑거 도메인의 중요 아미노산에서 코드와 부합하는 아미노산에 밑줄을 그어 표시하였다. 본원발명에 따라 선택된 징크 핑거 도메인들이 기존의 징크 핑거-DNA 상호작용 코드와 부합하는 아미노산 잔기들을 핵심 위치에 가지고 있다는 사실은 본원발명의 시스템이 제대로 작동하고 있다는 것을 강력히 암시하고 있다.Overall, the amino acid residues in the selected zinc finger domains matched the amino acid expected from the code at at least two of the three positions. The amino acids corresponding to the codes in the key amino acids of the zinc finger domain selected for each target binding sequence in Table 1 are underlined. The fact that the zinc finger domains selected in accordance with the present invention have amino acid residues at key positions consistent with existing zinc finger-DNA interaction codes strongly suggests that the system of the present invention is functioning properly.

실시예9: 재형질전환(retransformation) 및 상호형질전환(cross-transformation)Example 9 Retransformation and Cross-transformation

상기의 징크핑거 단백질들이 잘못 얻어진 양성 결과일 가능성을 배제하고, 또한 상기 징크핑거 단백질들의 서열 특이성을 조사하기 위하여, 단리된 플라스미드를 이용해 효모의 재형질전환(retransformation) 및 상호형질전환(cross-transformation)을 수행하였다.In order to exclude the possibility that the zinc finger proteins are incorrectly obtained positive results, and also to investigate the sequence specificity of the zinc finger proteins, the isolated plasmid is used for retransformation and cross-transformation of yeast. ) Was performed.

먼저 리포터 플라스미드와 징크핑거 도메인을 코딩하는 하이브리드 전사인자 플라스미드를 한 쌍으로 하여 효모를 공동-형질전환시켰다. 효모 형질전환체를 류신 및 트립토판이 결여된 최소배지에 접종하고 36시간동안 배양시켰다. 성장 배지중의 세포 약 1,000 개를 류신, 트립토판, 히스티딘이 결여된 고체 배지(도10에서 - 히스티딘으로 표기)와 류신, 트립토판이 결여된 고체 배지(도10에서 + 히스티딘으로 표기)상에 뿌린 후 50시간 동안 30℃에서 배양하였다. 그 결과를 도10에 도시하였다.First, the yeasts were co-transformed by pairing the reporter plasmid and the hybrid transcription factor plasmid encoding the zinc finger domain. Yeast transformants were inoculated in minimal medium lacking leucine and tryptophan and incubated for 36 hours. About 1000 cells in the growth medium are sown on solid medium lacking leucine, tryptophan, histidine (in Figure 10-histidine) and solid medium lacking leucine, tryptophan (in Figure 10 + histidine). Incubated at 30 ° C. for 50 hours. The results are shown in FIG.

하이브리드 전사인자의 징크 핑거 부분이 리포터 유전자HIS3의 프로모터에배치된 복합 결합 서열에 결합한다면, 하이브리드 전사인자가HIS3리포터 유전자의 발현을 활성화시켜 히스티딘이 결여된 배지에서 콜로니를 형성할 것이다. 징크 핑거 부분이 이 복합 결합 서열에 결합하지 못한다면 히스티딘이 결여된 배지에서 자라나지 못할 것이다.If the zinc finger portion of the hybrid transcription factor binds to the complex binding sequence placed on the promoter of the reporter gene HIS3 , the hybrid transcription factor will activate the expression of the HIS3 reporter gene to form colonies in a medium lacking histidine. If the zinc finger portion fails to bind this complex binding sequence, it will not grow in media lacking histidine.

도10에 도시된 바와 같이, 단리된 징크핑거 도메인들은 서열 특이적으로 상응하는 표적 서열에 결합하여 리포터 유전자를 활성화시켰다. 이들 징크핑거 도메인들은 원래의 징크 핑거 단백질 Zif268과 비교할 때 뚜렷이 구별되는 서열 특이성을 보였다. Zif268은 6개의 표적 서열을 갖는 플라스미드 중에서 GCGT 플라스미드와 가장 큰 활성을 보였고 이와 유사한 GAGT 플라스미드와도 비교적 높은 활성을 보였다. 그러나 그 밖의 다른 플라스미드를 갖고 Zif268 단백질을 발현시키는 균주는 콜로니를 형성하지 못했다.As shown in FIG. 10, the isolated zinc finger domains bind sequence specific corresponding target sequences to activate the reporter gene. These zinc finger domains showed distinct sequence specificity when compared to the original zinc finger protein Zif268. Zif268 showed the highest activity with GCGT plasmid among the plasmids with six target sequences and relatively high activity with similar GAGT plasmid. However, strains expressing Zif268 protein with other plasmids did not form colonies.

무작위 돌연변이를 이용해 만든 라이브러리로부터 얻은 징크 핑거 도메인 KTNR은 결합장소 GAGC가 배치된 리포터 플라스미드를 사용했을 때 선택된 것인데 예상대로 오직 GAGC에서만 콜로니를 형성하였다. 인간의 유전체로부터 만든 라이브러리에서 얻은 징크 핑거 도메인들도 대부분 기대했던 대로의 특이성을 보였다. 예를 들어, GACT 플라스미드로 선택된 HSNK 징크 핑거 도메인은 예상했던 대로 오직 GACT 플라스미드와의 재형질전환에서만 세포 성장을 보였다. VSTR은 GCTT 플라스미드로 선택된 것으로서 예상했던 대로 GCTT 플라스미드에서 가장 큰 활성을 보였다. GAGT 플라스미드로 선택된 RDER은 Zif268의 핑거3와 동일한 염기-접촉 부위의 아미노산 잔기 서열을 갖는다. 예상대로, RDER은 Zif268의 핑거 3와 동일한 서열 특이성을 보였다. GAGC와 GAGT 플라스미드로 선택된 SSNR은 기대했던 대로 GAGC 플라스미드와는 히스티딘 결핍배지에서 콜로니를 형성하였으나, GAGT 플라스미드와는 콜로니를 형성하지 못했다. ACAT 플라스미드로 얻은 QSTV는 ACAT를 포함한 모든 플라스미드에 대하여 활성을 보이지 못했다. 그러나, 후술하는 바와 같이 시험관내 실험에서는 이 징크핑거 도메인이 ACAT 서열과 강하게 결합하였다.The zinc finger domain KTNR obtained from a library made using random mutations was selected when using a reporter plasmid with a binding site GAGC, which, as expected, formed colonies only in GAGC. The zinc finger domains obtained from libraries made from the human genome also showed the specificity as most expected. For example, the HSNK zinc finger domain selected as the GACT plasmid showed cell growth only in retransformation with the GACT plasmid as expected. VSTR showed the highest activity in the GCTT plasmid as expected as selected as the GCTT plasmid. The RDER selected as the GAGT plasmid has the amino acid residue sequence of the same base-contacting site as Finger3 of Zif268. As expected, RDER showed the same sequence specificity as finger 3 of Zif268. SSNR selected as GAGC and GAGT plasmids formed colonies in histidine deficient media with GAGC plasmids as expected, but not with GAGT plasmids. QSTV obtained with the ACAT plasmid showed no activity against all plasmids including ACAT. However, as described below, in vitro experiments, this zinc finger domain strongly bound the ACAT sequence.

실시예 10: 겔 이동 분석 (gel shift assay)Example 10 Gel Shift Assay

선택된 징크 핑거 도메인들이 표적 결합 서열에 제대로 결합하는지를 확인하기 위하여 징크핑거 도메인을 포함하는 징크 핑거 단백질들을 분리한 후 겔이동 분석(gel shift assay)를 실시하였다. 이를 위해, 변형된 원-하이브리드 시스템을 이용하여 선택된 징크핑거 도메인을 포함하는 징크핑거 단백질을 대장균내에서 발현시키고, 정제하여 겔이동분석에 사용하였다. pPC86 플라스미드에 삽입되어 있는 징크 핑거 단백질을 코딩하는 DNA를SalI 및NotI으로 처리하여 단리하고, 이를 동일 효소로 처리된 pGEX-4T2(Pharmacia Biotech)내에 클로닝하였다. 이러한 과정을 통해 만든 플라스미드를 이용해 대장균 균주 BL21를 형질전환시키면, 징크 핑거 단백질이 글루타티온-S-전달효소(Glutathione-S-transferase)(GST)에 연결된 융합단백질의 형태로 발현된다. 발현된 단백질을 글루타티온에 대한 친화성(glutathione affinity) 크로마토그래피를 이용하여 단일 정제한 후 트롬빈을 가해 GST와 징크 핑거 단백질의 연결부위를 절단하였다. 분리 정제된 징크 핑거 단백질들은 효모에서 발현되었을 때와 마찬가지로 Zif268의 핑거 1, 핑거 2의 C-말단에 선택된 징크핑거 도메인이 연결된 형태로 존재한다.In order to confirm whether the selected zinc finger domains properly bind to the target binding sequence, the zinc finger proteins including the zinc finger domains were separated and then subjected to a gel shift assay. To this end, a modified one-hybrid system was used to express a zinc finger protein containing the selected zinc finger domain in E. coli, purify it, and use it for gel transfer analysis. DNA encoding the zinc finger protein inserted in the pPC86 plasmid was isolated by treatment with Sal I and Not I and cloned into pGEX-4T2 (Pharmacia Biotech) treated with the same enzyme. When the E. coli strain BL21 is transformed using the plasmid prepared through this process, the zinc finger protein is expressed in the form of a fusion protein linked to glutathione-S-transferase (GST). The expressed protein was single purified using glutathione affinity chromatography, and thrombin was added to cleave the junction between GST and zinc finger protein. The isolated and purified zinc finger proteins are present in the form of linking the zinc finger domains selected at the C-terminus of Finger 1 and Finger 2 of Zif268 as they are expressed in yeast.

하기 서열의 프로브 DNA를 합성하고, 결찰시키고, T4 폴리뉴클레오티드 키나제로32P 표지하여, 겔이동 분석에 사용하였다.Probe DNA of the following sequence was synthesized, ligated, 32 P labeled with T4 polynucleotide kinase and used for gel transfer analysis.

GCGT; 5'-CCGGGTCGCGCGTGGGCG GTACCG-3' (SEQ ID NO 90)GCGT; 5'-CCGGGTCGC GCGT GGGCG GTACCG-3 '(SEQ ID NO 90)

3'-CAGCG CGCACCCGC CATGGCAGCT-5' (SEQ ID NO 91)3'-CAGCG CGCACCCGC CATGGCAGCT-5 '(SEQ ID NO 91)

GAGC; 5'-CCGGGTCGCGAGCGGGCG GTACCG-3' (SEQ ID NO 92)GAGC; 5'-CCGGGTCGC GAGC GGGCG GTACCG-3 '(SEQ ID NO 92)

3'-CAGCG CTCGCCCGC CATGGCAGCT-5' (SEQ ID NO 93)3'-CAGCG CTCGCCCGC CATGGCAGCT-5 '(SEQ ID NO 93)

GCTT; 5'-CCGGGTCGTGCTTGGGCG GTACCG-3' (SEQ ID NO 94)GCTT; 5'-CCGGGTCGT GCTT GGGCG GTACCG-3 '(SEQ ID NO 94)

3'-CAGCA CGAACCCGC CATGGCAGCT-5' (SEQ ID NO 95)3'-CAGCA CGAACCCGC CATGGCAGCT-5 '(SEQ ID NO 95)

GACT; 5'-CCGGGTCGGGACTGGGCG GTACCG-3' (SEQ ID NO 96)GACT; 5'-CCGGGTCGG GACT GGGCG GTACCG-3 '(SEQ ID NO 96)

3'-CAGCC CTGACCCGC CATGGCAGCT-5' (SEQ ID NO 97)3'-CAGCC CTGACCCGC CATGGCAGCT-5 '(SEQ ID NO 97)

GAGT; 5'-CCGGGTCGGGAGTGGGCG GTACCG-3' (SEQ ID NO 98)GAGT; 5'-CCGGGTCGG GAGT GGGCG GTACCG-3 '(SEQ ID NO 98)

3'-CAGCC CTCACCCGC CATGGCAGCT-5' (SEQ ID NO 99)3'-CAGCC CTCACCCGC CATGGCAGCT-5 '(SEQ ID NO 99)

ACAT; 5'-CCGGGTCGGACATGGGCG GTACCG-3' (SEQ ID NO 100)ACAT; 5'-CCGGGTCGG ACAT GGGCG GTACCG-3 '(SEQ ID NO 100)

3'-CAGCC TGTACCCGC CATGGCAGCT-5' (SEQ ID NO 101)3'-CAGCC TGTACCCGC CATGGCAGCT-5 '(SEQ ID NO 101)

다양한 양의 징크핑거 단백질을, 20 mM Tris (pH 7.7), 120 mM NaCl, 5 mM MgCl2, 20 μM ZnSO4, 10% 글리세롤, 0.1% Nonidet P-40, 5 mM DTT, 및 0.10 mg/ml BSA(소혈청 알부민) 중에서 표지된 프로브 DNA와 실온에서 한 시간 동안 배양시킨 후, 이 반응 혼합물을 겔 전기영동시켰다. 단백질과 결합한 프로브 DNA의 양과 결합하지 않은 양은 방사능 활성을 포스포이메이저(PhosphorImager)를 사용하여 정량화한 다음, 문헌[Rebar and Pabo (1994) Science 263:671-673]에 기재된 바에 따라 해리상수(dissociation constant)를 계산하였다. 표 2는 그 결과를 정리한 것이다. 2회 이상의 별도의 실험으로 모든 상수를 결정하였고, 평균 및 표준편자를 표시하였다. 표2에는 히스티딘 결핍 배지에서의 효소 형질전환체의 세포 성장(도10)도 나타내었다.Various amounts of zinc finger protein were added: 20 mM Tris (pH 7.7), 120 mM NaCl, 5 mM MgCl 2 , 20 μM ZnSO 4 , 10% Glycerol, 0.1% Nonidet P-40, 5 mM DTT, and 0.10 mg / ml After incubation with labeled probe DNA in BSA (bovine serum albumin) for 1 hour at room temperature, the reaction mixture was subjected to gel electrophoresis. The amount not bound to the amount of probe DNA bound to the protein is quantified for radioactivity using a PhosphorImager, followed by dissociation as described in Rebar and Pabo (1994) Science 263: 671-673. constant) was calculated. Table 2 summarizes the results. All constants were determined by two or more separate experiments and mean and standard deviations were indicated. Table 2 also shows the cell growth of enzyme transformants in histidine deficient medium (FIG. 10).

zinc 핑거 단백질zinc finger protein probe DNAprobe DNA 해리상수 (nM)Dissociation constant (nM) 효모 성장Yeast growth Zif268Zif268 GCTTGCTT 2.1±0.32.1 ± 0.3 -- GCGTGCGT 0.024±0.0040.024 ± 0.004 ++++++ GAGTGAGT 0.17±0.040.17 ± 0.04 ++++ GAGCGAGC 2.3±0.92.3 ± 0.9 -- GACTGACT 4.9±0.64.9 ± 0.6 -- ACATACAT 1.3±0.31.3 ± 0.3 -- KTNRKTNR GCGTGCGT 5.5±0.75.5 ± 0.7 -- GAGCGAGC 0.17±0.010.17 ± 0.01 ++++ GACTGACT 30±130 ± 1 -- CSNRCSNR GCGTGCGT 2.7±0.32.7 ± 0.3 -- GAGTGAGT 0.46±0.040.46 ± 0.04 ++++++ GAGCGAGC 1.2±0.11.2 ± 0.1 ++++ GACTGACT 0.17±0.010.17 ± 0.01 ++++++ HSNKHSNK GCGTGCGT 42±1442 ± 14 -- GAGTGAGT 3.5±0.13.5 ± 0.1 -- GACTGACT 0.32±0.080.32 ± 0.08 ++++ RDERRDER GCGTGCGT 0.027±0.0020.027 ± 0.002 ++++++ GAGTGAGT 0.18±0.010.18 ± 0.01 ++++ GACTGACT 28±928 ± 9 -- SSNRSSNR GCGTGCGT 3.8±1.33.8 ± 1.3 -- GAGCGAGC 0.45±0.090.45 ± 0.09 ++++ GACTGACT 0.61±0.210.61 ± 0.21 ++ VSTRVSTR GCTTGCTT 0.53±0.070.53 ± 0.07 ++++ GCGTGCGT 0.76±0.220.76 ± 0.22 -- GAGTGAGT 1.4±0.21.4 ± 0.2 -- QSTVQSTV GCTTGCTT 29±329 ± 3 -- GCGTGCGT 9.8±3.49.8 ± 3.4 -- ACATACAT 2.3±0.42.3 ± 0.4 --

* +++: 20 내지 100% 성장; ++: 5 내지 20% 성장; +: 1 내지 5% 성장;* ++: 20 to 100% growth; ++: 5-20% growth; +: 1-5% growth;

-: 1% 미만의 성장-: Less than 1% growth

히스티딘 결핍 배지에서 세포 성장을 가능하게 하는 징크 핑거 단백질들은 해당하는 프로브 DNA와 강하게 결합하였다. 예를 들어 대조군으로서 사용한 Zif268 단백질의 경우, 이는 GCGT 및 GAGT 리포터 플라스미드와 함께 재형질전환시킬 경우에만 효모의 성장을 가능하게 했는데, 이들 리포터 플라스미드에 상응하는 DNA 프로브를 이용하여 측정한 시험관 해리상수는 각각 24 pM, 170 pM이었다. 대조적으로, 다른 리포터 플라스미드와는 세포성장이 가능하지 않았고, 상응하는 DNA 프로브로 측정한 해리상수도 1 nM 이상으로 높았다.Zinc finger proteins that allow cell growth in histidine deficient media strongly bound the corresponding probe DNA. For example, for the Zif268 protein used as a control, it enabled yeast growth only when retransformed with the GCGT and GAGT reporter plasmids, in vitro dissociation constants measured using DNA probes corresponding to these reporter plasmids 24 pM and 170 pM, respectively. In contrast, cell growth was not possible with other reporter plasmids, and the dissociation constants measured with the corresponding DNA probes were also higher than 1 nM.

신규 징크 핑거 도메인들을 포함하는 징크핑거 단백질에서도 유사한 결과를 보였다. 예를 들어, KTNR 단백질은 GAGC 프로브 DNA에 대해서 170 pM의 낮은 해리상수를 갖는 높은 친화도를 보이는 반면, GCGT 및 GACT 프로브 DNA에 대해서는 이보다 각각 32 배, 176 배 높은 해리상수를 나타내었다. KTNR 단백질의 재형질전환 실험은 GAGC 플라스미드의 경우에만 세포 성장을 가능하게 하였다. HSNK 단백질은 GACT 프로브 DNA와는 강하게 결합하나(Kd=0.32 nM), GCGT 또는 GAGT 프로브 DNA와는 친화도를 보이지 않았고, 예상대로 이 HSNK 단백질의 재형질전환 실험에서도 오직 GACT 플라스미드의 경우에만 세포성장이 가능하였다.Similar results were observed for zincfinger proteins containing novel zinc finger domains. For example, the KTNR protein showed a high affinity with a low dissociation constant of 170 pM for GAGC probe DNA, while 32 and 176 times higher dissociation constants for GCGT and GACT probe DNA, respectively. Retransformation experiments of KTNR protein enabled cell growth only for the GAGC plasmid. HSNK protein binds strongly to GACT probe DNA ( Kd = 0.32 nM), but does not show affinity with GCGT or GAGT probe DNA, and as expected, cell growth is only possible with GACT plasmid in retransformation experiments of this HSNK protein. It was.

ACAT 리포터 플라스미드로 선택된 QSTV 단백질은 재형질전환 실험에서는 어떤 리포터 플라스미드로도 효모의 성장을 가능하게 하지 못했었다. 그러나, 겔이동 분석으로 ACAT 프로브 DNA에 가장 강하게 결합함이 증명되었다. 즉, QSTV는 GCTT 프로브 DNA 및 GCGT 프로브 DNA와 비교시, 각각 13 배 및 4.3 배 강하게 ACAT프로브 DNA와 결합하였다.The QSTV protein selected as the ACAT reporter plasmid did not allow yeast growth with any reporter plasmid in retransformation experiments. However, gel transfer assays demonstrated the strongest binding to ACAT probe DNA. That is, QSTV bound 13 times and 4.3 times stronger with ACAT probe DNA, respectively, compared with GCTT probe DNA and GCGT probe DNA.

해리상수와 효모 성장의 상관관계를 분석해 볼 때, 일반적으로, 1 nM 미만의 해리상수로 DNA 서열에 결합하는 징크핑거 단백질인 경우 효모의 성장을 가능하게 했으며 그 이상인 경우 효모가 자라지 못한다는 사실을 알 수 있었다. 1 nM 이상 5 nM 미만의 해리상수로 DNA 서열에 결합하는 징크핑거 단백질인 경우도 예를 들어 4개의 징크핑거 도메인을 갖는 키메라 징크핑거 단백질의 문맥에서 유용할 수도 있다.Analysis of the correlation between dissociation constant and yeast growth generally indicates that zinc finger proteins that bind to DNA sequences with dissociation constants of less than 1 nM enable yeast growth and above that yeast cannot grow. Could know. A zinc finger protein that binds to a DNA sequence with a dissociation constant of at least 1 nM but less than 5 nM may also be useful in the context of a chimeric zinc finger protein having, for example, four zinc finger domains.

실시예 11 : TG-ZFD-001 "CSNR1"Example 11 TG-ZFD-001 "CSNR1"

TG-ZFD-001 "CSNR1"은 인간 유전체 서열로부터 생체내(in vivo) 스크리닝에 의해 동정되었다. 그 아미노산 서열은 KCKQCGKAFGCPSNLRRHGRTH(SEQ ID NO:23)이다. 그것은 하기 인간 핵산 서열에 의해 코딩된다.TG-ZFD-001 "CSNR1" was identified by in vivo screening from human genome sequences. The amino acid sequence is KCKQCGKAFGCPSNLRRHGRTH (SEQ ID NO: 23). It is encoded by the following human nucleic acid sequence.

5'-AAATGTAAGCAATGTGGGAAAGCTTTTGGATGTCCCTCAAACCTTCGAAGGCATGGAAGGACT5'-AAATGTAAGCAATGTGGGAAAGCTTTTGGATGTCCCTCAAACCTTCGAAGGCATGGAAGGACT

CAC-3'(SEQ ID NO:22).CAC-3 '(SEQ ID NO: 22).

TG-ZFD-001 "CSNR1"은 Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 3-bp 표적 서열 GAA, GAC, GAG 들을 특이하게 인식한다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-001 "CSNR"의 결합부위 서열에 대한 우선성는 GAA > GAC > GAG > GCG이다. EMSA에서, TG-ZFD-001 "CSNR"과 Zif268의 핑거1, 핑거2, 및 GST 정제 핸들과의 융합은, GAC를 포함하는 부위에 대해서는 0.17 nM, GAG를 포함하는 부위에대해서는 0.46 nM, 그리고 GCG를 포함하는 부위에 대해서는 2.7 nM의 해리상수(Kd)를 보인다.TG-ZFD-001 “CSNR1” specifically recognizes 3-bp target sequences GAA, GAC, GAGs upon polypeptide fusion with fingers 1 and 2 of Zif268. According to in vivo screening results and EMSA, the priority for the binding site sequence of TG-ZFD-001 "CSNR" is GAA>GAC>GAG> GCG. In EMSA, the fusion of TG-ZFD-001 "CSNR" with Zif268's Finger1, Finger2, and GST tablet handles is 0.17 nM for the site containing GAC, 0.46 nM for the site containing GAG, and Sites containing GCG show a dissociation constant (K d ) of 2.7 nM.

TG-ZFD-001 "CSNR1"은 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크 핑거 도메인들을 포함하는 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-001 "CSNR1" can be used as a unit for making chimeric DNA binding proteins comprising several zinc finger domains, for example for the purpose of recognizing DNA sites comprising GAA, GAC or GAG sequences. .

실시예 12 : TG-ZFD-002 "HSNK"Example 12: TG-ZFD-002 "HSNK"

TG-ZFD-002 "HSNK"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 KCKECGKAFNHSSNFNKHHRIH(SEQ ID NO:25)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-002 "HSNK" was identified by in vivo screening from human genome sequences. The amino acid sequence is KCKECGKAFNHSSNFNKHHRIH (SEQ ID NO: 25). It is encoded by the following human nucleic acid sequence.

5'-AAGTGTAAGGAGTGTGGGAAAGCCTTCAACCACAGCTCCAACTTCAATAAACACCACAGAATC5'-AAGTGTAAGGAGTGTGGGAAAGCCTTCAACCACAGCTCCAACTTCAATAAACACCACAGAATC

CAC-3'(SEQ ID NO:24).CAC-3 '(SEQ ID NO: 24).

TG-ZFD-002 "HSNK"는 Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 3-bp 표적 서열 GAC를 특이하게 인식한다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-002 "HSNK"의 결합부위 서열에 대한 선호도는 GAC > GAG > GCG이다. EMSA에서, Zif268의 핑거 1 및 2, 그리고 GST 정제 핸들과 TG-ZFD-002 "HNSK" 융합은, GAC를 포함하는 자리에 대해서는 0.32 nM, GAG를 포함하는 자리에 대해서는 3.5 nM, 그리고 GCG를 포함하는 자리에 대해서는 42 nM의 해리상수(Kd)를 가진다.TG-ZFD-002 "HSNK" specifically recognizes 3-bp target sequence GAC upon polypeptide fusion with fingers 1 and 2 of Zif268. According to in vivo screening results and EMSA, the preference for the binding site sequence of TG-ZFD-002 "HSNK" is GAC>GAG> GCG. In EMSA, fingers 1 and 2 of Zif268 and the TG-ZFD-002 "HNSK" fusion with the GST tablet handle included 0.32 nM for sites containing GAC, 3.5 nM for sites containing GAG, and GCG It has a dissociation constant (K d ) of 42 nM.

TG-ZFD-002 "HSNK"는 예를 들면 GAC 서열을 포함하는 DNA 부위를 인식하기위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 사용될 수 있다.TG-ZFD-002 "HSNK" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAC sequences.

실시예 13 : TG-ZFD-003 "SSNR"Example 13: TG-ZFD-003 "SSNR"

TG-ZFD-003 "SSNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 ECKECGKAFSSGSNFTRHQRIH(SEQ ID NO:27)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-003 "SSNR" was identified by in vivo screening from human genome sequences. The amino acid sequence is ECKECGKAFSSGSNFTRHQRIH (SEQ ID NO: 27). It is encoded by the following human nucleic acid sequence.

5'-GAATGTAAGGAATGTGGGAAAGCCTTTAGTAGTGGTTCAAACTTCACTCGACATCAGAGAATT5'-GAATGTAAGGAATGTGGGAAAGCCTTTAGTAGTGGTTCAAACTTCACTCGACATCAGAGAATT

CAC-3'(SEQ ID NO:26).CAC-3 '(SEQ ID NO: 26).

Zif268의 핑거 1 및 2와의 폴리펩티드 융합시 TG-ZFD-003 "SSNR"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-003 "SSNR"의 결합부위 서열에 대한 선호도는 GAG > GAC > GCG이다. EMSA에서, Zif268의 핑거 1, 핑거 2, 및 GST 정제 핸들과 TG-ZFD-003 "SSNR"과의 융합은, GAG를 포함하는 자리에 대해서는 0.45 nM, GAC를 포함하는 자리에 대해서는 0.61 nM, 그리고 GCG를 포함하는 자리에 대해서는 3.8 nM의 해리상수 Kd를 보인다.The TG-ZFD-003 "SSNR" upon polypeptide fusion with Zif268 with Fingers 1 and 2 indicates recognition specificity for 3-bp target sequence GAG. According to in vivo screening results and EMSA, the preference for the binding site sequence of TG-ZFD-003 "SSNR" is GAG>GAC> GCG. In EMSA, the fusion of Zif268's Finger 1, Finger 2, and GST tablet handle with TG-ZFD-003 "SSNR" results in 0.45 nM for sites containing GAG, 0.61 nM for sites containing GAC, and For sites containing GCG, the dissociation constant K d is 3.8 nM.

TG-ZFD-003 "SSNR"은 예를 들면 GAG 또는 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-003 "SSNR" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAG or GAC sequences.

실시예 14 : TG-ZFD-004 "RDER1"Example 14 TG-ZFD-004 "RDER1"

TG-ZFD-004 "RDER"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 VCDVEGCTWKFARSDELNRHKKRH(SEQ ID NO:29)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-004 "RDER" was identified by in vivo screening from human genome sequences. The amino acid sequence is VCDVEGCTWKFARSDELNRHKKRH (SEQ ID NO: 29). It is encoded by the following human nucleic acid sequence.

5'-GTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATGAGCTCAACAGACACAAGAAA5'-GTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATGAGCTCAACAGACACAAGAAA

AGGCAC-3'(SEQ ID NO:28).AGGCAC-3 '(SEQ ID NO: 28).

Zif268의 핑거 1 및 2와 폴리펩티드 융합시 TG-ZFD-004 "RDER"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-004 "RDER"의 결합부위 서열에 대한 선호도는 GCG > GAG > GAC이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-004 "RDER"와의 융합은, GCG를 포함하는 자리에 대해서는 0.027 nM, GAG를 포함하는 자리에 대해서는 0.18 nM, 그리고 GAC를 포함하는 자리에 대해서는 28 nM의 해리상수 Kd를 가진다.TG-ZFD-004 "RDER" upon polypeptide fusion with fingers 1 and 2 of Zif268 shows recognition specificity for 3-bp target sequence GAG. According to in vivo screening results and EMSA, the preference for the binding site sequence of TG-ZFD-004 "RDER" is GCG>GAG> GAC. In EMSA, fusions of fingers 1 and 2 of Zif268 and GST tablet handle with TG-ZFD-004 "RDER" resulted in 0.027 nM for sites containing GCG, 0.18 nM for sites containing GAG, and GAC. The containing site has a dissociation constant K d of 28 nM.

TG-ZFD-004 "RDER"은 예를 들면 GCG 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-004 "RDER" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG or GAG sequences.

실시예 15 : TG-ZFD-005 "QSTV"Example 15 TG-ZFD-005 "QSTV"

TG-ZFD-005 "QSTV"은 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 ECNECGKAFAQNSTLRVHQRIH(SEQ ID NO:31)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-005 “QSTV” has been identified by in vivo screening from human genome sequences. The amino acid sequence is ECNECGKAFAQNSTLRVHQRIH (SEQ ID NO: 31). It is encoded by the following human nucleic acid sequence.

5'-GAGTGTAATGAATGCGGGAAAGCTTTTGCCCAAAATTCAACTCTCAGAGTACACCAGAGAATT5'-GAGTGTAATGAATGCGGGAAAGCTTTTGCCCAAAATTCAACTCTCAGAGTACACCAGAGAATT

CAC-3'(SEQ ID NO:30).CAC-3 '(SEQ ID NO: 30).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-005 "QSTV"은 3-bp 표적 서열 ACA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-005 "QSTV"의 결합부위 서열에 대한 선호도는 ACA > GCG > GCT이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-005 "QSTV"와의 융합은, ACA를 포함하는 자리에 대해서는 2.3 nM, GCG를 포함하는 자리에 대해서는 9.8 nM, 그리고 GCT를 포함하는 자리에 대해서는 29 nM의 해리상수 Kd를 가진다.TG-ZFD-005 “QSTV” upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence ACA. According to in vivo screening results and EMSA, the preference for the binding site sequence of TG-ZFD-005 "QSTV" is ACA>GCG> GCT. In EMSA, the fusion of the fingers 1 and 2 of Zif268 and the GST tablet handle with TG-ZFD-005 "QSTV" resulted in 2.3 nM for sites containing ACA, 9.8 nM for sites containing GCG, and GCT. For containing sites, it has a dissociation constant K d of 29 nM.

TG-ZFD-005 "QSTV"는 예를 들면 ACA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.TG-ZFD-005 "QSTV" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising ACA sequences.

실시예 16 : TG-ZFD-006 "VSTR"Example 16: TG-ZFD-006 "VSTR"

TG-ZFD-006 "VSTR"은 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 ECNYCGKTFSVSSTLIRHQRIH(SEQ ID NO:33)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-006 "VSTR" has been identified by in vivo screening from human genome sequences. Its amino acid sequence is ECNYCGKTFSVSSTLIRHQRIH (SEQ ID NO: 33). It is encoded by the following human nucleic acid sequence.

5'-GAGTGTAATTACTGTGGAAAAACCTTTAGTGTGAGCTCAACCCTTATTAGACATCAGAGAATC5'-GAGTGTAATTACTGTGGAAAAACCTTTAGTGTGAGCTCAACCCTTATTAGACATCAGAGAATC

CAC-3'(SEQ ID NO:32).CAC-3 '(SEQ ID NO: 32).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-006 "VSTR"은 3-bp 표적 서열 GCT에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과와 EMSA에 의하면 TG-ZFD-006 "VSTR"의 결합부위 서열에 대한 선호도는 GCT > GCG > GAG이다. EMSA에서, Zif268의 핑거 1과 2, 및 GST 정제 핸들과 TG-ZFD-006 "VSTR"과의 융합은, GCT를 포함하는 자리에 대해서는 0.53 nM, GCG를 포함하는 자리에 대해서는 0.76 nM, 그리고 GAG를 포함하는 자리에 대해서는 1.4 nM의 해리상수 Kd를 가진다.TG-ZFD-006 "VSTR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GCT. According to in vivo screening results and EMSA, the preference for the binding site sequence of TG-ZFD-006 "VSTR" is GCT>GCG> GAG. In EMSA, the fusion of fingers 1 and 2 of Zif268 and the GST tablet handle and TG-ZFD-006 "VSTR" resulted in 0.53 nM for sites containing GCT, 0.76 nM for sites containing GCG, and GAG For sites containing, have a dissociation constant K d of 1.4 nM.

TG-ZFD-006 "VSTR"은 예를 들면 GCT 또는 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.TG-ZFD-006 "VSTR" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCT or GCG sequences.

실시예 17 : TG-ZFD-007 "CSNR2"Example 17 TG-ZFD-007 "CSNR2"

TG-ZFD-007 "CSNR2"는 인간 유전체 서열로부터 생체내 스크리닝으로 동정되었다. 그 아미노산 서열은 YQCNICGKCFSCNSNLHRHQRTH(SEQ ID NO:35)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-007 "CSNR2" has been identified by in vivo screening from human genome sequences. Its amino acid sequence is YQCNICGKCFSCNSNLHRHQRTH (SEQ ID NO: 35). It is encoded by the following human nucleic acid sequence.

5'-TATCAGTGCAACATTTGCGGAAAATGTTTCTCCTGCAACTCCAACCTCCACAGGCACCAGAGAACG5'-TATCAGTGCAACATTTGCGGAAAATGTTTCTCCTGCAACTCCAACCTCCACAGGCACCAGAGAACAC

CAC-3'(SEQ ID NO:34).CAC-3 '(SEQ ID NO: 34).

Zif268의 핑거 1 및 핑거 2와 폴리펩티드 융합시 TG-ZFD-007 "CSNR2"는 3-bp표적 서열 GAA, GAC, GAG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-007 "CSNR2"의 결합부위 서열에 대한 선호도는 GAA > GAC > GAG이다.TG-ZFD-007 "CSNR2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences GAA, GAC, GAG. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-007 "CSNR2" is GAA> GAC> GAG.

TG-ZFD-007 "CSNR2"는 예를 들면 GAA, GAC 또는 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-007 "CSNR2" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAA, GAC or GAG sequences. .

실시예 18 : TG-ZFD-008 "QSHR1"Example 18 TG-ZFD-008 "QSHR1"

TG-ZFD-008 "QSHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQSSHLRRHEKTH(SEQ ID NO:37)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-008 "QSHR1" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YACHLCGKAFTQSSHLRRHEKTH (SEQ ID NO: 37). It is encoded by the following human nucleic acid sequence.

5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGAGTTCTCACCTTAGAAGACATGAGAAAACT5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGAGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:36).CAC-3 '(SEQ ID NO: 36).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-008 "QSHR1"은 3-bp 표적 서열 GGA, GAA, AGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-008 "QSHR1"의 결합부위 서열에 대한 선호도는 GGA > GAA > AGA이다.TG-ZFD-008 "QSHR1" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences GGA, GAA, AGA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-008 "QSHR1" is GGA> GAA> AGA.

TG-ZFD-008 "QSHR1"는 예를 들면 GGA, GAA 또는 AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-008 "QSHR1" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA, GAA or AGA sequences. .

실시예 19 : TG-ZFD-009 "QSHR2"Example 19 TG-ZFD-009 "QSHR2"

TG-ZFD-009 "QSHR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCGQCGKFYSQVSHLTRHQKIH(SEQ ID NO:39)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-009 "QSHR2" was identified by in vivo screening from human genomic sequences. The amino acid sequence is YKCGQCGKFYSQVSHLTRHQKIH (SEQ ID NO: 39). It is encoded by the following human nucleic acid sequence.

5'-TATAAATGCGGCCAGTGTGGGAAGTTCTACTCGCAGGTCTCCCACCTCACCCGCCACCAGAAAATC5'-TATAAATGCGGCCAGTGTGGGAAGTTCTACTCGCAGGTCTCCCACCTCACCCGCCACCAGAAAATC

CAC-3'(SEQ ID NO:38).CAC-3 '(SEQ ID NO: 38).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-009 "QSHR2"는 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.TG-ZFD-009 "QSHR2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGA.

TG-ZFD-009 "QSHR2"는 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-009 "QSHR2" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA sequences.

실시예 20 : TG-ZFD-010 "QSHR3"Example 20 TG-ZFD-010 "QSHR3"

TG-ZFD-010 "QSHR3"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCGKAFTQCSHLRRHEKTH(SEQ ID NO:41)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-010 "QSHR3" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YACHLCGKAFTQCSHLRRHEKTH (SEQ ID NO: 41). It is encoded by the following human nucleic acid sequence.

5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT5'-TATGCATGTCATCTATGTGGAAAAGCCTTCACTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:40).CAC-3 '(SEQ ID NO: 40).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-010 "QSHR3"는 3-bp 표적 서열 GGA, GAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-010 "QSHR3"의 결합부위 서열에 대한 선호도는 GGA > GAA이다.TG-ZFD-010 "QSHR3" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGA, GAA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-010 "QSHR3" is GGA> GAA.

TG-ZFD-010 "QSHR3"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-010 "QSHR3" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA or GAA sequences.

실시예 21 : TG-ZFD-011 "QSHR4"Example 21 TG-ZFD-011 "QSHR4"

TG-ZFD-011 "QSHR4"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YACHLCAKAFIQCSHLRRHEKTH(SEQ ID NO:43)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-011 "QSHR4" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YACHLCAKAFIQCSHLRRHEKTH (SEQ ID NO: 43). It is encoded by the following human nucleic acid sequence.

5'-TATGCATGTCATCTATGTGCAAAAGCCTTCATTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT5'-TATGCATGTCATCTATGTGCAAAAGCCTTCATTCAGTGTTCTCACCTTAGAAGACATGAGAAAACT

CAC-3'(SEQ ID NO:42).CAC-3 '(SEQ ID NO: 42).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-011 "QSHR4"는 3-bp 표적 서열 GGA, GAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-011 "QSHR4"의 결합부위 서열에 대한 선호도는 GGA > GAA이다.TG-ZFD-011 "QSHR4" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGA, GAA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-011 "QSHR4" is GGA> GAA.

TG-ZFD-011 "QSHR4"는 예를 들면 GGA 또는 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로, 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.TG-ZFD-011 "QSHR4" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA or GAA sequences.

실시예 22 : TG-ZFD-012 "QSHR5"Example 22 TG-ZFD-012 "QSHR5"

TG-ZFD-012 "QSHR5"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECGRGFRQHSHLVRHKRTH(SEQ ID NO:45)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-012 "QSHR5" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YVCRECGRGFRQHSHLVRHKRTH (SEQ ID NO: 45). It is encoded by the following human nucleic acid sequence.

5'-TATGTTTGCAGGGAATGTGGGCGTGGCTTTCGCCAGCATTCACACCTGGTCAGACACAAGAGGACA5'-TATGTTTGCAGGGAATGTGGGCGTGGCTTTCGCCAGCATTCACACCTGGTCAGACACAAGAGGACA

CAT-3'(SEQ ID NO:44).CAT-3 '(SEQ ID NO: 44).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-012 "QSHR5"는 3-bp 표적 서열 GGA, AGA, GAA, CGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-012 "QSHR5"의 결합부위 서열에 대한 선호도는 GGA > AGA > GAA > CGA이다.TG-ZFD-012 "QSHR5" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences GGA, AGA, GAA, CGA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-012 "QSHR5" is GGA> AGA> GAA> CGA.

TG-ZFD-012 "QSHR5"는 예를 들면 GGA, AGA, GAA 또는 CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-012 "QSHR5" can be used as a unit for making chimeric DNA binding proteins consisting of several zinc finger domains, for example for the purpose of recognizing DNA sites comprising GGA, AGA, GAA or CGA sequences. Can be.

실시예 23 : TG-ZFD-013 "QSNR1"Example 23 TG-ZFD-013 "QSNR1"

TG-ZFD-013 "QSNR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FECKDCGKAFIQKSNLIRHQRTH(SEQ ID NO:47)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-013 “QSNR1” was identified by in vivo screening from human genomic sequences. Its amino acid sequence is FECKDCGKAFIQKSNLIRHQRTH (SEQ ID NO: 47). It is encoded by the following human nucleic acid sequence.

5'-TTTGAGTGTAAAGATTGCGGGAAAGCTTTCATTCAGAAGTCAAACCTCATCAGACACCAGAGAACT5'-TTTGAGTGTAAAGATTGCGGGAAAGCTTTCATTCAGAAGTCAAACCTCATCAGACACCAGAGAACT

CAC-3'(SEQ ID NO:46).CAC-3 '(SEQ ID NO: 46).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-013 "QSNR1"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.TG-ZFD-013 "QSNR1" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GAA.

TG-ZFD-013 "QSNR1"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용할 수 있다.TG-ZFD-013 “QSNR1” can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAA sequences.

실시예 24 : TG-ZFD-014 "QSNR2"Example 24 TG-ZFD-014 "QSNR2"

TG-ZFD-014 "QSNR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCRECRRGFSQKSNLIRHQRTH(SEQ ID NO:49)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-014 "QSNR2" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YVCRECRRGFSQKSNLIRHQRTH (SEQ ID NO: 49). It is encoded by the following human nucleic acid sequence.

5'-TATGTCTGCAGGGAGTGTAGGCGAGGTTTTAGCCAGAAGTCAAATCTCATCAGACACCAGAGGACG5'-TATGTCTGCAGGGAGTGTAGGCGAGGTTTTAGCCAGAAGTCAAATCTCATCAGACACCAGAGGACG

CAC-3'(SEQ ID NO:48).CAC-3 '(SEQ ID NO: 48).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-014 "QSNR2"는 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.TG-ZFD-014 "QSNR2" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequence GAA.

TG-ZFD-014 "QSNR2"는 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-014 "QSNR2" can be used as a unit to make chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAA sequences.

실시예 25 : TG-ZFD-015 "QSNV1"Example 25 TG-ZFD-015 "QSNV1"

TG-ZFD-015 "QSNV1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNTCRKTFSQKSNLIVHQRTH(SEQ ID NO:51)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-015 "QSNV1" was identified by in vivo screening from human genomic sequences. The amino acid sequence is YECNTCRKTFSQKSNLIVHQRTH (SEQ ID NO: 51). It is encoded by the following human nucleic acid sequence.

5'-TATGAATGTAACACATGCAGGAAAACCTTCTCTCAAAAGTCAAATCTCATTGTACATCAGAGAACA5'-TATGAATGTAACACATGCAGGAAAACCTTCTCTCAAAAGTCAAATCTCATTGTACATCAGAGAACA

CAC-3'(SEQ ID NO:50).CAC-3 '(SEQ ID NO: 50).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-015 "QSNV1"은 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-015 "QSNV1"의 결합부위 서열에 대한 선호도는 AAA > CAA이다.TG-ZFD-015 "QSNV1" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence AAA, CAA. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-015 "QSNV1" is AAA> CAA.

TG-ZFD-015 "QSNV1"은 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-015 "QSNV1" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AAA or CAA sequences.

실시예 26 : TG-ZFD-016 "QSNV2"Example 26 TG-ZFD-016 "QSNV2"

TG-ZFD-016 "QSNV2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCSKCGKAFTQSSNLTVHQKIH(SEQ ID NO:53)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-016 "QSNV2" was identified by in vivo screening from human genomic sequences. Its amino acid sequence is YVCSKCGKAFTQSSNLTVHQKIH (SEQ ID NO: 53). It is encoded by the following human nucleic acid sequence.

5'-TATGTTTGCTCAAAATGTGGGAAAGCCTTCACTCAGAGTTCAAATCTGACTGTACATCAAAAAATC5'-TATGTTTGCTCAAAATGTGGGAAAGCCTTCACTCAGAGTTCAAATCTGACTGTACATCAAAAAATC

CAC-3'(SEQ ID NO:52).CAC-3 '(SEQ ID NO: 52).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-016 "QSNV2"는 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-016 "QSNV2"의 결합부위 서열에 대한 선호도는 AAA > CAA이다.TG-ZFD-016 "QSNV2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence AAA, CAA. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-016 "QSNV2" is AAA> CAA.

TG-ZFD-016 "QSNV2"는 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다TG-ZFD-016 "QSNV2" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AAA or CAA sequences.

실시예 27 : TG-ZFD-017 "QSNV3"Example 27 TG-ZFD-017 "QSNV3"

TG-ZFD-017 "QSNV3"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCDECGKNFTQSSNLIVHKRIH(SEQ ID NO:55)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-017 “QSNV3” was identified by in vivo screening from human genome sequences. Its amino acid sequence is YKCDECGKNFTQSSNLIVHKRIH (SEQ ID NO: 55). It is encoded by the following human nucleic acid sequence.

5'-TACAAATGTGACGAATGTGGAAAAAACTTTACCCAGTCCTCCAACCTTATTGTACATAAGAGAATT5'-TACAAATGTGACGAATGTGGAAAAAACTTTACCCAGTCCTCCAACCTTATTGTACATAAGAGAATT

CAT-3'(SEQ ID NO:54).CAT-3 '(SEQ ID NO: 54).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-017 "QSNV3"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.TG-ZFD-017 “QSNV3” upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence AAA.

TG-ZFD-017 "QSNV3"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-017 "QSNV3" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AAA sequences.

실시예 28 : TG-ZFD-018 "QSNV4"Example 28 TG-ZFD-018 "QSNV4"

TG-ZFD-018 "QSNV4"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDVCGKTFTQKSNLGVHQRTH(SEQ ID NO:57)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-018 "QSNV4" was identified by in vivo screening from human genomic sequences. Its amino acid sequence is YECDVCGKTFTQKSNLGVHQRTH (SEQ ID NO: 57). It is encoded by the following human nucleic acid sequence.

5'-TATGAATGTGATGTGTGTGGAAAAACCTTCACGCAAAAGTCAAACCTTGGTGTACATCAGAGAACT5'-TATGAATGTGATGTGTGTGGAAAAACCTTCACGCAAAAGTCAAACCTTGGTGTACATCAGAGAACT

CAT-3'(SEQ ID NO:56).CAT-3 '(SEQ ID NO: 56).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-018 "QSNV4"는 3-bp 표적 서열 AAA에 대한 인식 특이성을 나타낸다.TG-ZFD-018 "QSNV4" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequence AAA.

TG-ZFD-018 "QSNV4"는 예를 들면 AAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-018 "QSNV4" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AAA sequences.

실시예 29 : TG-ZFD-019 "QSSR1"Example 29 TG-ZFD-019 "QSSR1"

TG-ZFD-019 "QSSR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCPDCGKSFSQSSSLIRHQRTH(SEQ ID NO:59)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-019 “QSSR1” was identified by in vivo screening from human genomic sequences. Its amino acid sequence is YKCPDCGKSFSQSSSLIRHQRTH (SEQ ID NO: 59). It is encoded by the following human nucleic acid sequence.

5'-TATAAGTGCCCTGATTGTGGGAAGAGTTTTAGTCAGAGTTCCAGCCTCATTCGCCACCAGCGGACA5'-TATAAGTGCCCTGATTGTGGGAAGAGTTTTAGTCAGAGTTCCAGCCTCATTCGCCACCAGCGGACA

CAC-3'(SEQ ID NO:58).CAC-3 '(SEQ ID NO: 58).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-019 "QSSR1"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-019 "QSSR1"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.TG-ZFD-019 “QSSR1” upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GTA, GCA. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-019 “QSSR1” is GTA> GCA.

TG-ZFD-019 "QSSR1"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-019 "QSSR1" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GTA or GCA sequences.

실시예 30 : TG-ZFD-020 "QSSR2"Example 30 TG-ZFD-020 "QSSR2"

TG-ZFD-020 "QSSR2"는 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECQDCGRAFNQNSSLGRHKRTH(SEQ ID NO:61)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-020 "QSSR2" was identified by in vivo screening from human genome sequences. The amino acid sequence is YECQDCGRAFNQNSSLGRHKRTH (SEQ ID NO: 61). It is encoded by the following human nucleic acid sequence.

5'-TATGAGTGTCAGGACTGTGGGAGGGCCTTCAACCAGAACTCCTCCCTGGGGCGGCACAAGAGGACA5'-TATGAGTGTCAGGACTGTGGGAGGGCCTTCAACCAGAACTCCTCCCTGGGGCGGCACAAGAGGACA

CAC-3'(SEQ ID NO:60).CAC-3 '(SEQ ID NO: 60).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-020 "QSSR2"는 3-bp 표적 서열 GTA에 대한 인식 특이성을 나타낸다.TG-ZFD-020 "QSSR2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GTA.

TG-ZFD-020 "QSSR2"는 예를 들면 GTA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-020 "QSSR2" can be used as a unit for making a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GTA sequence.

실시예 31 : TG-ZFD-021 "QSTR"Example 31: TG-ZFD-021 "QSTR"

TG-ZFD-021 "QSTR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFNQSSTLTRHKIVH(SEQ ID NO:63)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-021 "QSTR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YKCEECGKAFNQSSTLTRHKIVH (SEQ ID NO: 63). It is encoded by the following human nucleic acid sequence.

5'-TACAAATGTGAAGAATGTGGCAAAGCTTTTAACCAGTCCTCAACCCTTACTAGACATAAGATAGTT5'-TACAAATGTGAAGAATGTGGCAAAGCTTTTAACCAGTCCTCAACCCTTACTAGACATAAGATAGTT

CAT-3'(SEQ ID NO:62).CAT-3 '(SEQ ID NO: 62).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-021 "QSTR"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에의하면 TG-ZFD-021 "QSTR"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.TG-ZFD-021 "QSTR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GTA, GCA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-021 "QSTR" is GTA> GCA.

TG-ZFD-021 "QSTR"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-021 "QSTR" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GTA or GCA sequences.

실시예 32 : TG-ZFD-022 "RSHR"Example 32 TG-ZFD-022 "RSHR"

TG-ZFD-022 "RSHR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCMECGKAFNRRSHLTRHQRIH(SEQ ID NO:65)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-022 "RSHR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YKCMECGKAFNRRSHLTRHQRIH (SEQ ID NO: 65). It is encoded by the following human nucleic acid sequence.

5'-TATAAGTGCATGGAGTGTGGGAAGGCTTTTAACCGCAGGTCACACCTCACACGGCACCAGCGGATT5'-TATAAGTGCATGGAGTGTGGGAAGGCTTTTAACCGCAGGTCACACCTCACACGGCACCAGCGGATT

CAC-3'(SEQ ID NO:64).CAC-3 '(SEQ ID NO: 64).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-022 "RSHR"은 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.TG-ZFD-022 "RSHR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGG.

TG-ZFD-022 "RSHR"은 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-022 "RSHR" can be used as a unit for making a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GGG sequence.

실시예 33 : TG-ZFD-023 "VSSR"Example 33 TG-ZFD-023 "VSSR"

TG-ZFD-023 "VSSR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YTCKQCGKAFSVSSSLRRHETTH(SEQ ID NO:67)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-023 "VSSR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YTCKQCGKAFSVSSSLRRHETTH (SEQ ID NO: 67). It is encoded by the following human nucleic acid sequence.

5'-TATACATGTAAACAGTGTGGGAAAGCCTTCAGTGTTTCCAGTTCCCTTCGAAGACATGAAACCACT5'-TATACATGTAAACAGTGTGGGAAAGCCTTCAGTGTTTCCAGTTCCCTTCGAAGACATGAAACCACT

CAC-3'(SEQ ID NO:66).CAC-3 '(SEQ ID NO: 66).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-023 "VSSR"은 3-bp 표적 서열 GTT, GCT, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-023 "VSSR"의 결합부위 서열에 대한 선호도는 GTT > GCT > GTG이다.TG-ZFD-023 "VSSR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences GTT, GCT, GTG. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-023 "VSSR" is GTT> GCT> GTG.

TG-ZFD-023 "VSSR"은 예를 들면 GTT, GCT 또는 GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-023 "VSSR" can be used as a unit to make chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GTT, GCT or GTG sequences. .

실시예 34 : TG-ZFD-024 "QAHR"Example 34 TG-ZFD-024 "QAHR"

TG-ZFD-024 "QAHR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCKECGQAFRQRAHLIRHHKLH(SEQ ID NO:103)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-024 "QAHR" was identified by in vivo screening from human genome sequences. The amino acid sequence is YKCKECGQAFRQRAHLIRHHKLH (SEQ ID NO: 103). It is encoded by the following human nucleic acid sequence.

5'-TATAAGTGTAAGGAATGTGGGCAGGCCTTTAGACAGCGTGCACATCTTATTCGACATCACAAACT5'-TATAAGTGTAAGGAATGTGGGCAGGCCTTTAGACAGCGTGCACATCTTATTCGACATCACAAACT

TCAC-3'(SEQ ID NO:102).TCAC-3 '(SEQ ID NO: 102).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-024 "QAHR"은 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.TG-ZFD-024 "QAHR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GGA.

TG-ZFD-024 "QAHR"은 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-024 "QAHR" can be used as a unit for making a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GGA sequence.

실시예 35 : TG-ZFD-025 "QFNR"Example 35 TG-ZFD-025 "QFNR"

TG-ZFD-025 "QFNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCHQCGKAFIQSFNLRRHERTH(SEQ ID NO:105)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-025 "QFNR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YKCHQCGKAFIQSFNLRRHERTH (SEQ ID NO: 105). It is encoded by the following human nucleic acid sequence.

5'-TATAAGTGTCATCAATGTGTGGGAAAGCCTTTATTCAATCCTTTAACCTTCGAAGACATGAGAGAA5'-TATAAGTGTCATCAATGTGTGGGAAAGCCTTTATTCAATCCTTTAACCTTCGAAGACATGAGAGAA

CTCAC-3'(SEQ ID NO:104).CTCAC-3 '(SEQ ID NO: 104).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-025 "QFNR"은 3-bp 표적 서열 GAC에 대한 인식 특이성을 나타낸다.TG-ZFD-025 "QFNR" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequence GAC.

TG-ZFD-025 "QFNR"은 예를 들면 GAC 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-025 "QFNR" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAC sequences.

실시예 36 : TG-ZFD-026 "QGNR"Example 36: TG-ZFD-026 "QGNR"

TG-ZFD-026 "QGNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCNQCGASFTQKGNLLRHIKLH(SEQ ID NO:107)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-026 "QGNR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is FQCNQCGASFTQKGNLLRHIKLH (SEQ ID NO: 107). It is encoded by the following human nucleic acid sequence.

5'-TTCCAGTGTAATCAGTGTGGGGCATCTTTTACTCAGAAAGGTAACCTCCTCCGCCACATTAAACTG5'-TTCCAGTGTAATCAGTGTGGGGCATCTTTTACTCAGAAAGGTAACCTCCTCCGCCACATTAAACTG

CAC-3'(SEQ ID NO:106).CAC-3 '(SEQ ID NO: 106).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-026 "QGNR"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.The TG-ZFD-026 "QGNR" upon polypeptide fusion with Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequence GAA.

TG-ZFD-026 "QGNR"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-026 "QGNR" can be used as a unit to make a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GAA sequence.

실시예 37 : TG-ZFD-028 "QSHT"Example 37 TG-ZFD-028 "QSHT"

TG-ZFD-028 "QSHT"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YKCEECGKAFRQSSHLTTHKIIH(SEQ ID NO:111)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-028 "QSHT" was identified by in vivo screening from human genome sequences. The amino acid sequence is YKCEECGKAFRQSSHLTTHKIIH (SEQ ID NO: 111). It is encoded by the following human nucleic acid sequence.

5'-TACAAATGTGAAGAATGTGGCAAAGCCTTTAGGCAGTCCTCACACCTTACTACACATAAGATAATT5'-TACAAATGTGAAGAATGTGGCAAAGCCTTTAGGCAGTCCTCACACCTTACTACACATAAGATAATT

CAT-3'(SEQ ID NO:110).CAT-3 '(SEQ ID NO: 110).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-028 "QSHT"은 3-bp 표적 서열 AGA, CGA, TGA, GGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-028 "QSHT"의 결합부위 서열에 대한 선호도는 (AGA, CGA) TGA > GGA이다.TG-ZFD-028 "QSHT" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequences AGA, CGA, TGA, GGA. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-028 "QSHT" is (AGA, CGA) TGA> GGA.

TG-ZFD-028 "QSHT"은 예를 들면 AGA, CGA, TGA 또는 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-028 "QSHT" can be used as a unit to make chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AGA, CGA, TGA or GGA sequences. Can be.

실시예 38 : TG-ZFD-029 "QSHV"Example 38: TG-ZFD-029 "QSHV"

TG-ZFD-029 "QSHV"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECDHCGKSFSQSSHLNVHKRTH(SEQ ID NO:113)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-029 "QSHV" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YECDHCGKSFSQSSHLNVHKRTH (SEQ ID NO: 113). It is encoded by the following human nucleic acid sequence.

5'-TATGAGTGTGATCACTGTGGAAAATCCTTTAGCCAGAGCTCTCATCTGAATGTGCACAAAAGAACT5'-TATGAGTGTGATCACTGTGGAAAATCCTTTAGCCAGAGCTCTCATCTGAATGTGCACAAAAGAACT

CAC-3'(SEQ ID NO:112).CAC-3 '(SEQ ID NO: 112).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-029 "QSHV"은 3-bp 표적 서열 CGA, AGA, TGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-029 "QSHV"의 결합부위 서열에 대한 선호도는 CGA > AGA > TGA이다.TG-ZFD-029 "QSHV" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequences CGA, AGA, TGA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-029 "QSHV" is CGA> AGA> TGA.

TG-ZFD-029 "QSHV"은 예를 들면 CGA, AGA, TGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-029 "QSHV" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising CGA, AGA, TGA sequences. .

실시예 39 : TG-ZFD-030 "QSNI"Example 39 TG-ZFD-030 "QSNI"

TG-ZFD-030 "QSNI"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YMCSECGRGFSQKSNLIIHQRTH(SEQ ID NO:115)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-030 "QSNI" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YMCSECGRGFSQKSNLIIHQRTH (SEQ ID NO: 115). It is encoded by the following human nucleic acid sequence.

5'-TACATGTGCAGTGAGTGTGGGCGAGGCTTCAGCCAGAAGTCAAACCTCATCATACACCAGAGGACA5'-TACATGTGCAGTGAGTGTGGGCGAGGCTTCAGCCAGAAGTCAAACCTCATCATACACCAGAGGACA

CAC-3'(SEQ ID NO:114).CAC-3 '(SEQ ID NO: 114).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-030 "QSNI"은 3-bp 표적 서열 AAA, CAA에 대한 인식 특이성을 나타낸다.The TG-ZFD-030 "QSNI" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence AAA, CAA.

TG-ZFD-030 "QSNI"은 예를 들면 AAA 또는 CAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-030 "QSNI" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AAA or CAA sequences.

실시예 40 : TG-ZFD-031 "QSNR3"Example 40 TG-ZFD-031 "QSNR3"

TG-ZFD-031 "QSNR3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECEKCGKAFNQSSNLTRHKKSH(SEQ ID NO:117)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-031 "QSNR3" was identified by in vivo screening from human genomic sequences. Its amino acid sequence is YECEKCGKAFNQSSNLTRHKKSH (SEQ ID NO: 117). It is encoded by the following human nucleic acid sequence.

5'-TATGAATGTGAAAAATGTGGCAAAGCTTTTAACCAGTCCTCAAATCTTACTAGACATAAGAAAAGT5'-TATGAATGTGAAAAATGTGGCAAAGCTTTTAACCAGTCCTCAAATCTTACTAGACATAAGAAAAGT

CAT-3'(SEQ ID NO:116).CAT-3 '(SEQ ID NO: 116).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-031 "QSNR3"은 3-bp 표적 서열 GAA에 대한 인식 특이성을 나타낸다.TG-ZFD-031 "QSNR3" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GAA.

TG-ZFD-031 "QSNR3"은 예를 들면 GAA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-031 "QSNR3" can be used as a unit to make a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GAA sequence.

실시예 41 : TG-ZFD-032 "QSSR3"Example 41 TG-ZFD-032 "QSSR3"

TG-ZFD-032 "QSSR3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECNECGKFFSQSSSLIRHRRSH(SEQ ID NO:119)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-032 "QSSR3" was identified by in vivo screening from human genome sequences. The amino acid sequence is YECNECGKFFSQSSSLIRHRRSH (SEQ ID NO: 119). It is encoded by the following human nucleic acid sequence.

5'-TATGAGTGCAATGAATGTGGGAAGTTTTTTAGCCAGAGCTCCAGCCTCATTAGACATAGGAGAAGT5'-TATGAGTGCAATGAATGTGGGAAGTTTTTTAGCCAGAGCTCCAGCCTCATTAGACATAGGAGAAGT

CAC-3'(SEQ ID NO:118).CAC-3 '(SEQ ID NO: 118).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-032 "QSSR3"은 3-bp 표적 서열 GTA, GCA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-032 "QSSR3"의 결합부위 서열에 대한 선호도는 GTA > GCA이다.TG-ZFD-032 "QSSR3" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GTA, GCA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-032 "QSSR3" is GTA> GCA.

TG-ZFD-032 "QSSR3"은 예를 들면 GTA 또는 GCA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-032 "QSSR3" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GTA or GCA sequences.

실시예 42 : TG-ZFD-033 "QTHQ"Example 42 TG-ZFD-033 "QTHQ"

TG-ZFD-033 "QTHQ"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTQHRRIH(SEQ ID NO:121)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-033 "QTHQ" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YECHDCGKSFRQSTHLTQHRRIH (SEQ ID NO: 121). It is encoded by the following human nucleic acid sequence.

5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCAGCACCGGAGGATC5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCAGCACCGGAGGATC

CAC-3'(SEQ ID NO:120).CAC-3 '(SEQ ID NO: 120).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-033 "QTHQ"은 3-bp 표적 서열 AGA, TGA, CGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-033 "QTHQ"의 결합부위 서열에 대한 선호도는 AGA > (TGA, CGA)이다.TG-ZFD-033 "QTHQ" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequences AGA, TGA, CGA. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-033 "QTHQ" is AGA> (TGA, CGA).

TG-ZFD-033 "QTHQ"은 예를 들면 AGA, TGA, CGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-033 "QTHQ" can be used as a unit to make chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising AGA, TGA, CGA sequences. .

실시예 43 : TG-ZFD-034 "QTHR1"Example 43 TG-ZFD-034 "QTHR1"

TG-ZFD-034 "QTHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YECHDCGKSFRQSTHLTRHRRIH(SEQ ID NO:123)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-034 "QTHR1" was identified by in vivo screening from human genomic sequences. The amino acid sequence is YECHDCGKSFRQSTHLTRHRRIH (SEQ ID NO: 123). It is encoded by the following human nucleic acid sequence.

5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCGGCACCGGAGGATC5'-TATGAGTGTCACGATTGCGGAAAGTCCTTTAGGCAGAGCACCCACCTCACTCGGCACCGGAGGATC

CAC-3'(SEQ ID NO:122).CAC-3 '(SEQ ID NO: 122).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-034 "QTHR1"은 3-bp 표적 서열 GGA, GAA, AGA에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-034 "QTHR1"의 결합부위 서열에 대한 선호도는 GGA > (GAA, AGA)이다.TG-ZFD-034 "QTHR1" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences GGA, GAA, AGA. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-034 "QTHR1" is GGA> (GAA, AGA).

TG-ZFD-034 "QTHR1"은 예를 들면 GGA, GAA, AGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-034 "QTHR1" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA, GAA, AGA sequences. .

실시예 44 : TG-ZFD-035 "QTHR2"Example 44 TG-ZFD-035 "QTHR2"

TG-ZFD-035 "QTHR2"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 HKCLECGKCFSQNTHLTRHQRT(SEQ ID NO:125)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-035 "QTHR2" was identified by in vivo screening from human genomic sequences. Its amino acid sequence is HKCLECGKCFSQNTHLTRHQRT (SEQ ID NO: 125). It is encoded by the following human nucleic acid sequence.

5'-CACAAGTGCCTTGAATGTGGGAAATGCTTCAGTCAGAACACCCATCTGACTCGCCACCAACGCACC5'-CACAAGTGCCTTGAATGTGGGAAATGCTTCAGTCAGAACACCCATCTGACTCGCCACCAACGCACC

CAC-3'(SEQ ID NO:124).CAC-3 '(SEQ ID NO: 124).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-035 "QTHR2"은 3-bp 표적 서열 GGA에 대한 인식 특이성을 나타낸다.TG-ZFD-035 "QTHR2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GGA.

TG-ZFD-035 "QTHR2"은 예를 들면 GGA 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-035 "QTHR2" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGA sequences.

실시예 45 : TG-ZFD-036 "RDER2"Example 45 TG-ZFD-036 "RDER2"

TG-ZFD-036 "RDER2"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCDWDGCGWKFARSDELTRHYRKH(SEQ ID NO:127)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-036 "RDER2" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YHCDWDGCGWKFARSDELTRHYRKH (SEQ ID NO: 127). It is encoded by the following human nucleic acid sequence.

5'-TACCACTGTGACTGGGACGGCTGTGGATGGAAATTCGCCCGCTCAGATGAACTGACCAGGCACTACC5'-TACCACTGTGACTGGGACGGCTGTGGATGGAAATTCGCCCGCTCAGATGAACTGACCAGGCACTACC

GTAAACAC-3'(SEQ ID NO:126).GTAAACAC-3 '(SEQ ID NO: 126).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-036 "RDER2"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에의하면 TG-ZFD-036 "RDER2"의 결합부위 서열에 대한 선호도는 GCG > GTG이다.TG-ZFD-036 "RDER2" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GCG, GTG. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-036 "RDER2" is GCG> GTG.

TG-ZFD-036 "RDER2"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-036 "RDER2" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG, GTG sequences.

실시예 46 : TG-ZFD-037 "RDER3"Example 46: TG-ZFD-037 "RDER3"

TG-ZFD-037 "RDER3"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YRCSWEGCEWRFARSDELTRHFRKH(SEQ ID NO:129)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-037 "RDER3" was identified by in vivo screening from human genome sequences. The amino acid sequence is YRCSWEGCEWRFARSDELTRHFRKH (SEQ ID NO: 129). It is encoded by the following human nucleic acid sequence.

5'-TACAGATGCTCATGGGAAGGGTGTGAGTGGCGTTTTGCAAGAAGTGATGAGTTAACCAGGCACTTCCG5'-TACAGATGCTCATGGGAAGGGTGTGAGTGGCGTTTTGCAAGAAGTGATGAGTTAACCAGGCACTTCCG

AAAGCAC-3'(SEQ ID NO:128).AAAGCAC-3 '(SEQ ID NO: 128).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-037 "RDER3"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다.TG-ZFD-037 "RDER3" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GCG, GTG.

TG-ZFD-037 "RDER3"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-037 "RDER3" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG, GTG sequences.

실시예 47 : TG-ZFD-038 "RDER4"Example 47 TG-ZFD-038 "RDER4"

TG-ZFD-038 "RDER4"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FSCSWKGCERRFARSDELSRHRRTH(SEQ ID NO:131)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-038 "RDER4" was identified by in vivo screening from human genome sequences. The amino acid sequence is FSCSWKGCERRFARSDELSRHRRTH (SEQ ID NO: 131). It is encoded by the following human nucleic acid sequence.

5'-TTCAGCTGTAGCTGGAAAGGTTGTGAAAGGAGGTTTGCCCGTTCTGATGAACTGTCCAGACACAGGCG5'-TTCAGCTGTAGCTGGAAAGGTTGTGAAAGGAGGTTTGCCCGTTCTGATGAACTGTCCAGACACAGGCG

AACCCAC-3'(SEQ ID NO:130).AACCCAC-3 '(SEQ ID NO: 130).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-038 "RDER4"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다.TG-ZFD-038 "RDER4" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GCG, GTG.

TG-ZFD-038 "RDER4"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-038 "RDER4" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG, GTG sequences.

실시예 48 : TG-ZFD-039 "RDER5"Example 48 TG-ZFD-039 "RDER5"

TG-ZFD-039 "RDER5"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACSWQDCNKKFARSDELARHYRTH(SEQ ID NO:133)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-039 "RDER5" was identified by in vivo screening from human genome sequences. Its amino acid sequence is FACSWQDCNKKFARSDELARHYRTH (SEQ ID NO: 133). It is encoded by the following human nucleic acid sequence.

5'-TTCGCCTGCAGCTGGCAGGACTGCAACAAGAAGTTCGCGCGCTCCGACGAGCTGGCGCGGCACTAC5'-TTCGCCTGCAGCTGGCAGGACTGCAACAAGAAGTTCGCGCGCTCCGACGAGCTGGCGCGGCACTAC

CGCACACAC-3'(SEQ ID NO:132).CGCACACAC-3 '(SEQ ID NO: 132).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-039 "RDER5"은 3-bp 표적 서열 GCG에 대한 인식 특이성을 나타낸다.TG-ZFD-039 "RDER5" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 shows recognition specificity for 3-bp target sequence GCG.

TG-ZFD-039 "RDER5"은 예를 들면 GCG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-039 "RDER5" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG sequences.

실시예 49 : TG-ZFD-040 "RDER6"Example 49 TG-ZFD-040 "RDER6"

TG-ZFD-040 "RDER6"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YHCNWDGCGWKFARSDELTRHYRKH(SEQ ID NO:135)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-040 "RDER6" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YHCNWDGCGWKFARSDELTRHYRKH (SEQ ID NO: 135). It is encoded by the following human nucleic acid sequence.

5'-TACCACTGCAACTGGGACGGCTGCGGCTGGAAGTTTGCGCGCTCAGACGAGCTCACGCGCCACTACC5'-TACCACTGCAACTGGGACGGCTGCGGCTGGAAGTTTGCGCGCTCAGACGAGCTCACGCGCCACTACC

GAAAGCAC-3'(SEQ ID NO:134).GAAAGCAC-3 '(SEQ ID NO: 134).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-040 "RDER6"은 3-bp 표적 서열 GCG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-040 "RDER6"의 결합부위 서열에 대한 선호도는 GCG > GTG이다.TG-ZFD-040 "RDER6" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GCG, GTG. In vivo screening results show that the preference for the binding site sequence of TG-ZFD-040 "RDER6" is GCG> GTG.

TG-ZFD-040 "RDER6"은 예를 들면 GCG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-040 "RDER6" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GCG, GTG sequences.

실시예 50 : TG-ZFD-041 "RDHR1"Example 50: TG-ZFD-041 "RDHR1"

TG-ZFD-041 "RDHR1"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FLCQYCAQRFGRKDHLTRHMKKSH(SEQ ID NO:137)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-041 "RDHR1" was identified by in vivo screening from human genome sequences. The amino acid sequence is FLCQYCAQRFGRKDHLTRHMKKSH (SEQ ID NO: 137). It is encoded by the following human nucleic acid sequence.

5'-TTCCTCTGTCAGTATTGTGCACAGAGATTTGGGCGAAAGGATCACCTGACTCGACATATGAAGAAGA5'-TTCCTCTGTCAGTATTGTGCACAGAGATTTGGGCGAAAGGATCACCTGACTCGACATATGAAGAAGA

GTCAC-3'(SEQ ID NO:136).GTCAC-3 '(SEQ ID NO: 136).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-041 "RDHR1"은 3-bp 표적 서열 GAG, GGG에 대한 인식 특이성을 나타낸다.TG-ZFD-041 “RDHR1” upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GAG, GGG.

TG-ZFD-041 "RDHR1"은 예를 들면 GAG, GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-041 "RDHR1" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAG, GGG sequences.

실시예 51 : TG-ZFD-043 "RDHT"Example 51 TG-ZFD-043 "RDHT"

TG-ZFD-043 "RDHT"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FQCKTCQRKFSRSDHLKTHTRTH(SEQ ID NO:141)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-043 "RDHT" was identified by in vivo screening from human genome sequences. Its amino acid sequence is FQCKTCQRKFSRSDHLKTHTRTH (SEQ ID NO: 141). It is encoded by the following human nucleic acid sequence.

5'-TTCCAGTGTAAAACTTGTCAGCGAAAGTTCTCCCGGTCCGACCACCTGAAGACCCACACCAGGAC5'-TTCCAGTGTAAAACTTGTCAGCGAAAGTTCTCCCGGTCCGACCACCTGAAGACCCACACCAGGAC

TCAT-3'(SEQ ID NO:140).TCAT-3 '(SEQ ID NO: 140).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-043 "RDHT"은 3-bp 표적 서열 TGG, AGG, CGG에 대한 인식 특이성을 나타낸다.TG-ZFD-043 "RDHT" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequences TGG, AGG, CGG.

TG-ZFD-043 "RDHT"은 예를 들면 TGG, AGG, CGG, GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-043 "RDHT" is to be used as a unit for making chimeric DNA binding proteins consisting of several zinc finger domains, for example for the purpose of recognizing DNA sites comprising TGG, AGG, CGG, GGG sequences. Can be.

실시예 52 : TG-ZFD-044 "RDKI"Example 52 TG-ZFD-044 "RDKI"

TG-ZFD-044 "RDKI"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 FACEVCGVRFTRNDKLKIHMRKH(SEQ ID NO:143)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-044 "RDKI" was identified by in vivo screening from human genome sequences. Its amino acid sequence is FACEVCGVRFTRNDKLKIHMRKH (SEQ ID NO: 143). It is encoded by the following human nucleic acid sequence.

5'-TTTGCCTGCGAGGTCTGCGGTGTTCGATTCACCAGGAACGACAAGCTGAAGATCCACATGCGGA5'-TTTGCCTGCGAGGTCTGCGGTGTTCGATTCACCAGGAACGACAAGCTGAAGATCCACATGCGGA

AGCAC-3'(SEQ ID NO:142).AGCAC-3 '(SEQ ID NO: 142).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-044 "RDKI"은 3-bp 표적 서열 GGG에 대한 인식 특이성을 나타낸다.TG-ZFD-044 "RDKI" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGG.

TG-ZFD-044 "RDKI"은 예를 들면 GGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-044 "RDKI" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGG sequences.

실시예 53 : TG-ZFD-045 "RDKR"Example 53 TG-ZFD-045 "RDKR"

TG-ZFD-045 "RDKR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YVCDVEGCTWKFARSDKLNRHKKRH (SEQ ID NO:145)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-045 "RDKR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YVCDVEGCTWKFARSDKLNRHKKRH (SEQ ID NO: 145). It is encoded by the following human nucleic acid sequence.

5'-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATAAGCTCAACAGACACAAG5'-TATGTATGCGATGTAGAGGGATGTACGTGGAAATTTGCCCGCTCAGATAAGCTCAACAGACACAAG

AAAAGGCAC-3'(SEQ ID NO:144).AAAAGGCAC-3 '(SEQ ID NO: 144).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-045 "RDKR"은 3-bp 표적 서열 GGG, AGG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-045 "RDKR"의 결합부위 서열에 대한 선호도는 GGG > AGG이다.TG-ZFD-045 "RDKR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 shows recognition specificity for 3-bp target sequence GGG, AGG. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-045 "RDKR" is GGG> AGG.

TG-ZFD-045 "RDKR"은 예를 들면 GGG, AGG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-045 "RDKR" can be used as a unit for making chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GGG, AGG sequences.

실시예 54 : TG-ZFD-046 "RSNR"Example 54 TG-ZFD-046 "RSNR"

TG-ZFD-046 "RSNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YICRKCGRGFSRKSNLIRHQRTH (SEQ ID NO:147)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-046 "RSNR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YICRKCGRGFSRKSNLIRHQRTH (SEQ ID NO: 147). It is encoded by the following human nucleic acid sequence.

5'-TATATTTGCAGAAAGTGTGGACGGGGCTTTAGTCGGAAGTCCAACCTTATCAGACATCAGAGGACA5'-TATATTTGCAGAAAGTGTGGACGGGGCTTTAGTCGGAAGTCCAACCTTATCAGACATCAGAGGACA

CAC-3'(SEQ ID NO:146).CAC-3 '(SEQ ID NO: 146).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-046 "RSNR"은 3-bp 표적 서열 GAG, GTG에 대한 인식 특이성을 나타낸다. 생체내 스크리닝 결과에 의하면 TG-ZFD-046 "RSNR"의 결합부위 서열에 대한 선호도는 GAG > GTG이다.TG-ZFD-046 "RSNR" upon polypeptide fusion of Zif268 with Finger 1 and Finger 2 indicates recognition specificity for 3-bp target sequence GAG, GTG. In vivo screening results show that the affinity for the binding site sequence of TG-ZFD-046 "RSNR" is GAG> GTG.

TG-ZFD-046 "RSNR"은 예를 들면 GAG, GTG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-046 "RSNR" can be used as a unit to make chimeric DNA binding proteins consisting of several zincfinger domains, for example for the purpose of recognizing DNA sites comprising GAG, GTG sequences.

실시예 55 : TG-ZFD-047 "RTNR"Example 55 TG-ZFD-047 "RTNR"

TG-ZFD-047 "RTNR"은 인간 유전체 서열로부터 생체내 스크리닝에 의해 동정되었다. 그 아미노산 서열은 YLCSECDKCFSRSTNLIRHRRTH (SEQ ID NO:149)이다. 그것은 다음의 인간 핵산 서열에 의해 코딩된다.TG-ZFD-047 "RTNR" was identified by in vivo screening from human genome sequences. Its amino acid sequence is YLCSECDKCFSRSTNLIRHRRTH (SEQ ID NO: 149). It is encoded by the following human nucleic acid sequence.

5'-TATCTATGTAGTGAGTGTGACAAATGCTTCAGTAGAAGTACAAACCTCATAAGGCATCGAAGAACT5'-TATCTATGTAGTGAGTGTGACAAATGCTTCAGTAGAAGTACAAACCTCATAAGGCATCGAAGAACT

CAC-3'(SEQ ID NO:148).CAC-3 '(SEQ ID NO: 148).

Zif268의 핑거 1 및 핑거 2와의 폴리펩티드 융합시 TG-ZFD-047 "RTNR"은 3-bp 표적 서열 GAG에 대한 인식 특이성을 나타낸다.TG-ZFD-047 "RTNR" upon polypeptide fusion with Finger 1 and Finger 2 of Zif268 indicates recognition specificity for 3-bp target sequence GAG.

TG-ZFD-047 "RTNR"은 예를 들면 GAG 서열을 포함하는 DNA 부위를 인식하기 위한 목적으로 여러 개의 징크핑거 도메인들로 이루어진 키메라 DNA 결합 단백질을 만들기 위한 단위로 이용될 수 있다.TG-ZFD-047 "RTNR" can be used as a unit for making a chimeric DNA binding protein consisting of several zincfinger domains, for example for the purpose of recognizing a DNA site comprising a GAG sequence.

본 발명에 관한 많은 실시 태양을 기술하였다. 그럼에도 불구하고, 본 발명의 정신과 범위를 벗어나지 않는 많은 다양한 변형이 가능함을 이해할 것이다. 따라서 다른 실시 태양들도 후술하는 청구항의 범위에 포함된다.Many embodiments of the invention have been described. Nevertheless, it will be understood that many various modifications are possible without departing from the spirit and scope of the invention. Accordingly, other embodiments are also within the scope of the following claims.

본 발명은 다양한 잇점을 제공한다. 특정 서열을 인식하는 DNA 결합 도메인을 선별할 수 있는 능력은 DNA의 특정 부위에 결합하는 신규 폴리펩티드의 디자인을 가능케 한다. 따라서, 본 발명은 선택된 표적의 발현을 조절할 수 있는(예를 들어, 병원체가 필요로 하는 유전자의 억제, 암 증식에 필요한 유전자의 억제, 또는 발현이 잘 안되는 유전자 또는 변이 단백질을 코딩하는 유전자의 활성화 또는 과다발현 등등) 신규 폴리펩티드의 통상적인 생산을 용이하게 한다.The present invention provides various advantages. The ability to select DNA binding domains that recognize specific sequences enables the design of novel polypeptides that bind to specific sites of DNA. Accordingly, the present invention is directed to the activation of genes capable of modulating the expression of selected targets (e.g., inhibition of genes required by pathogens, inhibition of genes required for cancer proliferation, or genes encoding poorly expressed or variant proteins). Or overexpression, etc.) to facilitate the conventional production of new polypeptides.

징크 핑거 도메인을 이용하는 것은 특히 유리하다. 첫째로, 징크 핑거 모티브는 매우 다양한 DNA 서열을 인식한다. 두번째로, 자연 발생적 징크 핑거 단백질의 구조는 단위모듈성이다. 예를 들면, "Egr-1"으로도 불리는 Zif268 징크 핑거 단백질은 세 개의 징크 핑거 도메인이 직렬로 구성되어 있다. 도1은 DNA와 복합체를 이룬 세 개의 핑거로 이루어진 Zif268 징크 핑거 단백질의 X-선 결정 구조이다[Pavletich 및 Pabo, (1991) Science 252:809-817]. 각 핑거는 DNA 인식 부위의 3-4 염기쌍과 독립적으로 접촉한다. 따라서, 각각의 핑거와 하위 부위(subsite)의 접촉은 독립적인 분자적 인식으로 여겨질 수 있다. 동일한 폴리펩티드 사슬 내 여러 개의 징크 핑거 단위모듈이 협동 효과를 발휘함으로써 고 친화도 결합이 달성된다.It is particularly advantageous to use zinc finger domains. First, zinc finger motifs recognize a wide variety of DNA sequences. Second, the structure of naturally occurring zinc finger proteins is modular. For example, the Zif268 zinc finger protein, also called "Egr-1", consists of three zinc finger domains in series. 1 is an X-ray crystal structure of a Zif268 zinc finger protein consisting of three fingers complexed with DNA (Pavletich and Pabo, (1991) Science 252: 809-817). Each finger contacts with 3-4 base pairs independently of the DNA recognition site. Thus, contact of each finger and subsite can be considered as independent molecular recognition. High affinity binding is achieved by the cooperative effect of several zinc finger unit modules in the same polypeptide chain.

생체 내 선별법의 사용은 세포내 환경에서 DNA의 특정 부위에 결합하는 폴리펩티드의 직접적 동정을 가능하게 한다. 세포 내, 특히 진핵 세포 내 인식과 연관된 인자들은 시험관내 선별 시나리오 중에 존재하는 인자들과는 크게 다르다. 예를 들면, 진핵 세포 핵 내에서, 폴리펩티드는 특정 핵산 결합 부위를 놓고 무수히 많은 다른 핵 단백질들과 경쟁해야만 한다. 뉴클레오좀(nucleosome) 또는 기타 크로마틴 단백질이 결합 부위를 차지하거나 폐쇄하거나, 또는 이 결합 부위에 경쟁적으로 작용할 수 있다. 비록 다른 단백질들과 결합되어 있지 않다 하더라도, 세포 내의 핵산 구조는 구부러짐, 슈퍼코일링, 비틀림, 및 풀릴 필요가 있다. 한편, 폴리펩티드 자체도 프로테아제 및 챠페론(chaperone), 기타 인자들 중에 노출되어 있다. 게다가, 폴리펩티드는 전체 유전자라는 결합 가능한 부위와 직면하게 되고, 그리하여 선택 과정에서 선택되기 위하여 원하는 부위로의 높은 특이성이 있어야만 한다. 생체 내 선택과는 대조적으로, 생체 외 선택은 높은 특이성을 갖는 결합물보다는 높은 친화도를 갖는 결합물을 선택할 수 있다.The use of in vivo selection allows for the direct identification of polypeptides that bind to specific sites of DNA in the intracellular environment. Factors associated with intracellular, in particular, eukaryotic, recognition are significantly different from those present during in vitro selection scenarios. For example, within a eukaryotic cell nucleus, a polypeptide must compete with a myriad of other nuclear proteins for specific nucleic acid binding sites. Nucleosomes or other chromatin proteins may occupy or close the binding site, or competitively act on this binding site. Although not associated with other proteins, nucleic acid structures in cells need to bend, supercoil, torsion, and unwind. Meanwhile, the polypeptide itself is also exposed to proteases, chaperones and other factors. In addition, the polypeptide is confronted with a bindable site called the entire gene, and therefore must have high specificity to the desired site to be selected in the selection process. In contrast to in vivo selection, in vitro selection can select a binding with a high affinity rather than a binding with high specificity.

발현되는 키메라 폴리펩티드의 결합 능력을 보여주기 위해 리포터 유전자를 사용하는 것은 효과적이고 간단할 뿐 아니라, 단백질-핵산 접경의 에너지학, 주변 잔기 및 결합에 영향을 주는 뉴클레오티드와 같은 수 많은 주변 인자들을 계산에 넣어 작성하는 복잡한 상호작용 코드를 만들 필요가 없어서 유리하다[Segalet al.(1999)Proc. Natl. Acad. Sci. USA 96:2758-2793].Using reporter genes to demonstrate the binding capacity of expressed chimeric polypeptides is not only effective and simple, but also involves calculation of numerous peripheral factors such as energy, protein residues and nucleotides that affect binding. This is advantageous because you don't have to create complex interactive code that you put in [Segal et al. (1999) Proc. Natl. Acad. Sci . USA 96: 2758-2793.

본 발명은 그 자체로 인간 유전체, 또는 임의의 다른 종의 유전체에 존재하는 모든 징크 핑거 도메인을 유용하게 한다. 이러한 다양한 표본으로부터 징크 핑거 도메인의 구조적 폴딩이 점유하는 서열 공간을 선택함은 오랜 옛날부터 자연적 선택이 이루어지게 된 잇점을 본래적으로 가질 것이다. 게다가, 본원에 기술된 방법에 따라 유전자 치료에 적용되도록 설계된 DNA 결합 단백질은 숙주 종으로부터 얻은 도메인을 이용하기 때문에 숙주 면역계에 의해 외부적인 것으로 취급될 가능성이 감소된다.The present invention makes itself useful for all zinc finger domains present in the human genome, or any other species of genome. Selecting the sequence space occupied by the structural folding of the zinc finger domain from these various samples will inherently have the advantage that natural selection has long been made. In addition, DNA binding proteins designed to be applied to gene therapy according to the methods described herein utilize a domain obtained from a host species, thereby reducing the likelihood of being treated externally by the host immune system.

<110> Kim, Jin-Soo Kwon, Young Do Kim, Hyun-Won Ryu, Eun-Hyun Hwang, Moon-Sun <120> SELECTION OF TARGET-SPECIFIC ZINC FINGER DOMAINS <130> 12279-002001 <160> 167 <170> FastSEQ for Windows Version 4.0 <210> 1 <211> 10 <212> DNA <213> HIV-1 <400> 1 gacatcgagc 10 <210> 2 <211> 10 <212> DNA <213> HIV-1 <400> 2 gcagctgctt 10 <210> 3 <211> 10 <212> DNA <213> HIV-1 <400> 3 gctggggact 10 <210> 4 <211> 10 <212> DNA <213> Homo sapiens <400> 4 agggtggagt 10 <210> 5 <211> 10 <212> DNA <213> Homo sapiens <400> 5 gctgagacat 10 <210> 6 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 6 ccggcgtggg cggctgcgtg ggcgtgcgtg ggcggactgc gtgggcg 47 <210> 7 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 7 tcgacgccca cgcagtccgc ccacgcacgc ccacgcagcc gcccacg 47 <210> 8 <211> 49 <212> DNA <213> HIV-1 <400> 8 ccggcgagcg ggcggtcgag cgggcgtgag cgggcggatc gagcgggcg 49 <210> 9 <211> 49 <212> DNA <213> HIV-1 <400> 9 tcgacgcccg ctcgatccgc ccgctcacgc ccgctcgacc gcccgctcg 49 <210> 10 <211> 50 <212> DNA <213> HIV-1 <400> 10 ccggctgctt gggcggctgc ttgggcgtgc ttgggcgggc tgcttgggcg 50 <210> 11 <211> 50 <212> DNA <213> HIV-1 <400> 11 tcgacgccca agcagcccgc ccaagcacgc ccaagcagcc gcccaagcag 50 <210> 12 <211> 47 <212> DNA <213> HIV-1 <400> 12 ccggactggg cgggggactg ggcgtgactg ggcggaggga ctgggcg 47 <210> 13 <211> 47 <212> DNA <213> HIV-1 <400> 13 tcgacgccca gtccctccgc ccagtcacgc ccagtccccc gcccagt 47 <210> 14 <211> 47 <212> DNA <213> Homo sapiens <400> 14 ccggagtggg cggtggagtg ggcgtgagtg ggcggatgga gtgggcg 47 <210> 15 <211> 47 <212> DNA <213> Homo sapiens <400> 15 tcgacgccca ctccatccgc ccactcacgc ccactccacc gcccact 47 <210> 16 <211> 48 <212> DNA <213> Homo sapiens <400> 16 ccggacatgg gcggagacat gggcgtacat gggcggaaga catgggcg 48 <210> 17 <211> 48 <212> DNA <213> Homo sapiens <400> 17 tcgacgccca tgtcttccgc ccatgtacgc ccatgtctcc gcccatgt 48 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (1)...(81) <400> 18 aaa gag ggt ggg tcg acc ttc cgg act ggc cag gaa cgc cca gat ccg 48 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 cgg gaa ttc aga tct act agt gcg gcc gct aag taagtaagac gtcgagctcg 101 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 ccatcgcggt ggaagcttt 120 <210> 19 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 19 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 <210> 20 <211> 303 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (25)...(291) <400> 20 gggtcgacct tccggactgg ccag gaa cgc cca tat gct tgc cct gtc gag 51 Glu Arg Pro Tyr Ala Cys Pro Val Glu 1 5 tcc tgc gat cgc cgc ttt tct cgc tcg gat gag ctt acc cgc cat atc 99 Ser Cys Asp Arg Arg Phe Ser Arg Ser Asp Glu Leu Thr Arg His Ile 10 15 20 25 cgc atc cac act ggc cag aag ccc ttc cag tgt cga atc tgc atg cgt 147 Arg Ile His Thr Gly Gln Lys Pro Phe Gln Cys Arg Ile Cys Met Arg 30 35 40 aac ttc agt cgt agt gac cac ctt acc acc cac atc cgg acc cac acc 195 Asn Phe Ser Arg Ser Asp His Leu Thr Thr His Ile Arg Thr His Thr 45 50 55 ggc gag aag cct ttt gcc tgt gac att tgt ggg agg aag ttt gcc agg 243 Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg 60 65 70 agt gat gaa cgc aag agg cat acc aaa atc cat tta aga cag aag gat 291 Ser Asp Glu Arg Lys Arg His Thr Lys Ile His Leu Arg Gln Lys Asp 75 80 85 ccgcgggaat cc 303 <210> 21 <211> 89 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 21 Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser 1 5 10 15 Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys 20 25 30 Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His 35 40 45 Leu Thr Thr His Ile Arg Thr His Thr Gly Glu Lys Pro Phe Ala Cys 50 55 60 Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Asp Glu Arg Lys Arg His 65 70 75 80 Thr Lys Ile His Leu Arg Gln Lys Asp 85 <210> 22 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 22 acc ggg cag aaa ccg tac aaa tgt aag caa tgt ggg aaa gct ttt gga 48 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 tgt ccc tca aac ctt cga agg cat gga agg act cac acc ggc gag aaa 96 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 23 <211> 34 <212> PRT <213> Homo sapiens <400> 23 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 24 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 24 acc ggg gag aag cca tac aag tgt aag gag tgt ggg aaa gcc ttc aac 48 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 cac agc tcc aac ttc aat aaa cac cac aga atc cac acc ggc gaa aag 96 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 25 <211> 34 <212> PRT <213> Homo sapiens <400> 25 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 26 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 26 acc ggg gag agg cca ttt gaa tgt aag gaa tgt ggg aaa gcc ttt agt 48 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 agt ggt tca aac ttc act cga cat cag aga att cac acc ggt gaa aag 96 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 27 <211> 34 <212> PRT <213> Homo sapiens <400> 27 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 28 <211> 108 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(108) <400> 28 acc ggg cag aag cca tac gta tgc gat gta gag gga tgt acg tgg aaa 48 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 ttt gcc cgc tca gat gag ctc aac aga cac aag aaa agg cac acc ggc 96 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 gaa aga ccg cgg 108 Glu Arg Pro Arg 35 <210> 29 <211> 36 <212> PRT <213> Homo sapiens <400> 29 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 Glu Arg Pro Arg 35 <210> 30 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 30 acc ggg gag aga cct tac gag tgt aat gaa tgc ggg aaa gct ttt gcc 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 caa aat tca act ctc aga gta cac cag aga att cac acc ggc gaa aag 96 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 31 <211> 34 <212> PRT <213> Homo sapiens <400> 31 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 32 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(102) <400> 32 acc ggg gag agg cct tat gag tgt aat tac tgt gga aaa acc ttt agt 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 gtg agc tca acc ctt att aga cat cag aga atc cac acc ggc gag aga 96 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 ccg cgg 102 Pro Arg <210> 33 <211> 34 <212> PRT <213> Homo sapiens <400> 33 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 Pro Arg <210> 34 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 34 tat cag tgc aac att tgc gga aaa tgt ttc tcc tgc aac tcc aac ctc 48 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 cac agg cac cag aga acg cac 69 His Arg His Gln Arg Thr His 20 <210> 35 <211> 23 <212> PRT <213> Homo sapiens <400> 35 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 His Arg His Gln Arg Thr His 20 <210> 36 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 36 tat gca tgt cat cta tgt gga aaa gcc ttc act cag agt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 37 <211> 23 <212> PRT <213> Homo sapiens <400> 37 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 38 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 38 tat aaa tgc ggc cag tgt ggg aag ttc tac tcg cag gtc tcc cac ctc 48 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 acc cgc cac cag aaa atc cac 69 Thr Arg His Gln Lys Ile His 20 <210> 39 <211> 23 <212> PRT <213> Homo sapiens <400> 39 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 Thr Arg His Gln Lys Ile His 20 <210> 40 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 40 tat gca tgt cat cta tgt gga aaa gcc ttc act cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 41 <211> 23 <212> PRT <213> Homo sapiens <400> 41 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 42 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 42 tat gca tgt cat cta tgt gca aaa gcc ttc att cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 43 <211> 23 <212> PRT <213> Homo sapiens <400> 43 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 44 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 44 tat gtt tgc agg gaa tgt ggg cgt ggc ttt cgc cag cat tca cac ctg 48 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 gtc aga cac aag agg aca cat 69 Val Arg His Lys Arg Thr His 20 <210> 45 <211> 23 <212> PRT <213> Homo sapiens <400> 45 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 Val Arg His Lys Arg Thr His 20 <210> 46 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 46 ttt gag tgt aaa gat tgc ggg aaa gct ttc att cag aag tca aac ctc 48 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag aga act cac 69 Ile Arg His Gln Arg Thr His 20 <210> 47 <211> 23 <212> PRT <213> Homo sapiens <400> 47 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 48 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 48 tat gtc tgc agg gag tgt agg cga ggt ttt agc cag aag tca aat ctc 48 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag agg acg cac 69 Ile Arg His Gln Arg Thr His 20 <210> 49 <211> 23 <212> PRT <213> Homo sapiens <400> 49 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 50 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 50 tat gaa tgt aac aca tgc agg aaa acc ttc tct caa aag tca aat ctc 48 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 att gta cat cag aga aca cac 69 Ile Val His Gln Arg Thr His 20 <210> 51 <211> 23 <212> PRT <213> Homo sapiens <400> 51 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Val His Gln Arg Thr His 20 <210> 52 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 52 tat gtt tgc tca aaa tgt ggg aaa gcc ttc act cag agt tca aat ctg 48 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 act gta cat caa aaa atc cac 69 Thr Val His Gln Lys Ile His 20 <210> 53 <211> 23 <212> PRT <213> Homo sapiens <400> 53 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Thr Val His Gln Lys Ile His 20 <210> 54 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 54 tac aaa tgt gac gaa tgt gga aaa aac ttt acc cag tcc tcc aac ctt 48 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 att gta cat aag aga att cat 69 Ile Val His Lys Arg Ile His 20 <210> 55 <211> 23 <212> PRT <213> Homo sapiens <400> 55 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Ile Val His Lys Arg Ile His 20 <210> 56 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 56 tat gaa tgt gat gtg tgt gga aaa acc ttc acg caa aag tca aac ctt 48 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 ggt gta cat cag aga act cat 69 Gly Val His Gln Arg Thr His 20 <210> 57 <211> 23 <212> PRT <213> Homo sapiens <400> 57 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 Gly Val His Gln Arg Thr His 20 <210> 58 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 58 tat aag tgc cct gat tgt ggg aag agt ttt agt cag agt tcc agc ctc 48 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att cgc cac cag cgg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 59 <211> 23 <212> PRT <213> Homo sapiens <400> 59 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 60 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 60 tat gag tgt cag gac tgt ggg agg gcc ttc aac cag aac tcc tcc ctg 48 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 ggg cgg cac aag agg aca cac 69 Gly Arg His Lys Arg Thr His 20 <210> 61 <211> 23 <212> PRT <213> Homo sapiens <400> 61 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 Gly Arg His Lys Arg Thr His 20 <210> 62 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 62 tac aaa tgt gaa gaa tgt ggc aaa gct ttt aac cag tcc tca acc ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 act aga cat aag ata gtt cat 69 Thr Arg His Lys Ile Val His 20 <210> 63 <211> 23 <212> PRT <213> Homo sapiens <400> 63 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 Thr Arg His Lys Ile Val His 20 <210> 64 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 64 tat aag tgc atg gag tgt ggg aag gct ttt aac cgc agg tca cac ctc 48 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 aca cgg cac cag cgg att cac 69 Thr Arg His Gln Arg Ile His 20 <210> 65 <211> 23 <212> PRT <213> Homo sapiens <400> 65 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 Thr Arg His Gln Arg Ile His 20 <210> 66 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 66 tat aca tgt aaa cag tgt ggg aaa gcc ttc agt gtt tcc agt tcc ctt 48 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 cga aga cat gaa acc act cac 69 Arg Arg His Glu Thr Thr His 20 <210> 67 <211> 23 <212> PRT <213> Homo sapiens <400> 67 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 Arg Arg His Glu Thr Thr His 20 <210> 68 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 68 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Cys Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 69 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 69 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa His Xaa Ser Asn Xaa Xaa 1 5 10 15 Lys His Xaa His 20 <210> 70 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 70 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Ser Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 71 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 71 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Thr Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 72 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> (19)...(19) <223> Xaa = any amino acid; 3-5 amino acids in length <400> 72 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Val Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 73 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 73 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 74 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 74 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 75 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> (19)...(19) <223> Xaa = any amino acid; 3-5 amino acids in length <400> 75 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 76 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> coordinating residue <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10-14, 16, 17 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 76 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 Xaa His Xaa His 20 <210> 77 <211> 24 <212> PRT <213> Artificial Sequence <220> <223> polypeptide motif <221> VARIANT <222> 1 <223> Xaa = Leu, Ile, Val, Met, Phe, Tyr, or Gly <221> VARIANT <222> 2 <223> Xaa = Ala, Ser, Leu, Val, or Arg <221> VARIANT <222> 3-4, 6, 8-11, 17, 19-23 <223> Xaa = any amino acid <221> VARIANT <222> 5 <223> Xaa = Leu, Ile, Val, Met, Ser, Thr, Ala, Cys, or Asn <221> VARIANT <222> 7 <223> Xaa = Leu, Ile, Val, or Met <221> VARIANT <222> (12)...(12) <223> Xaa = Leu, Ile, or Val <221> VARIANT <222> (13)...(13) <223> Xaa = Arg, Lys, Asn, Gln, Glu, Ser, Thr, Ala, Ile, or Tyr <221> VARIANT <222> (14)...(14) <223> Xaa = Leu, Ile, Val, Phe, Ser, Thr, Asn, Lys, or His <221> VARIANT <222> (16)...(16) <223> Xaa = Phe, Tyr, Val, or Cys <221> VARIANT <222> (18)...(18) <223> Xaa = Asn, Asp, Gln, Thr, Ala, or His <221> VARIANT <222> (24)...(24) <223> Xaa = Arg, Lys, Asn, Ala, Ile, Met, or Trp <400> 77 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Trp Xaa 1 5 10 15 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 20 <210> 78 <211> 6 <212> PRT <213> Eukaryote <220> <221> VARIANT <222> 3 <223> Xaa = Glu or Gln <221> VARIANT <222> 4 <223> Xaa = Lys or Arg <221> VARIANT <222> 6 <223> Xaa = Tyr or Phe <400> 78 Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 79 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 79 tgcctgcagc atttgtggga ggaagtttg 29 <210> 80 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 80 atgctgcagg cttaaggctt ctcgccggtg 30 <210> 81 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; y = T or C; s = G or C; r = G or A <400> 81 gcgtccggac ncayacnggn sara 24 <210> 82 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; b = G, C, or T; r = G or A; w = A or T; y = T or C <400> 82 cggaattcan nbrwanggyy tytc 24 <210> 83 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif <221> VARIANT <222> 4 <223> Xaa = Glu or Gln <221> VARIANT <222> 5 <223> Xaa = Lys or Arg <221> VARIANT <222> 3 <223> Xaa = Tyr or Phe <400> 83 His Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 84 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 84 gggcccgggg agaagcctta cgcatgtcca gtcgaatctt gtgatagaag attc 54 <210> 85 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; b = G, C, or T; s = G or C <400> 85 ctccccgcgg ttcgccggtg tggattctga tatgsnbsnb aagsnbsnbs nbsnbtgaga 60 atcttctatc acaag 75 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 86 ctagacccgg gaattcgtcg acg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 87 gatccgtcga cgaattcccg ggt 23 <210> 88 <211> 38 <212> DNA <213> syArtificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C <400> 88 ccggtnnntg ggcgtacnnn tgggcgtcan nntgggcg 38 <210> 89 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C <400> 89 tcgacgccca nnntgacgcc cannngtacg cccannna 38 <210> 90 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 90 ccgggtcgcg cgtgggcggt accg 24 <210> 91 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 91 tcgacggtac cgcccacgcg cgac 24 <210> 92 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 92 ccgggtcgcg agcgggcggt accg 24 <210> 93 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 93 tcgacggtac cgcccgctcg cgac 24 <210> 94 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 94 ccgggtcgtg cttgggcggt accg 24 <210> 95 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 95 tcgacggtac cgcccaagca cgac 24 <210> 96 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 96 ccgggtcggg actgggcggt accg 24 <210> 97 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 97 tcgacggtac cgcccagtcc cgac 24 <210> 98 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 98 ccgggtcggg agtgggcggt accg 24 <210> 99 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 99 tcgacggtac cgcccactcc cgac 24 <210> 100 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 100 ccgggtcgga catgggcggt accg 24 <210> 101 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 101 tcgacggtac cgcccatgtc cgac 24 <210> 102 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 102 tat aag tgt aag gaa tgt ggg cag gcc ttt aga cag cgt gca cat ctt 48 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 att cga cat cac aaa ctt cac 69 Ile Arg His His Lys Leu His 20 <210> 103 <211> 23 <212> PRT <213> Homo sapiens <400> 103 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 Ile Arg His His Lys Leu His 20 <210> 104 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 104 tat aag tgt cat caa tgt ggg aaa gcc ttt att caa tcc ttt aac ctt 48 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 cga aga cat gag aga act cac 69 Arg Arg His Glu Arg Thr His 20 <210> 105 <211> 23 <212> PRT <213> Homo sapiens <400> 105 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 Arg Arg His Glu Arg Thr His 20 <210> 106 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 106 ttc cag tgt aat cag tgt ggg gca tct ttt act cag aaa ggt aac ctc 48 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 ctc cgc cac att aaa ctg cac 69 Leu Arg His Ile Lys Leu His 20 <210> 107 <211> 23 <212> PRT <213> Homo sapiens <400> 107 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 Leu Arg His Ile Lys Leu His 20 <210> 108 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n =A, T, G, or C; 48-51 nucleotides in length <400> 108 acccacactg gccagaaacc cn 22 <210> 109 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0)...(0) <223> n = A, T, G, or C; 42-45 nucleotides in length <400> 109 gatctgaatt cattcaccgg tn 22 <210> 110 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 110 tac aaa tgt gaa gaa tgt ggc aaa gcc ttt agg cag tcc tca cac ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 act aca cat aag ata att cat 69 Thr Thr His Lys Ile Ile His 20 <210> 111 <211> 23 <212> PRT <213> Homo sapiens <400> 111 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 Thr Thr His Lys Ile Ile His 20 <210> 112 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 112 tat gag tgt gat cac tgt gga aaa tcc ttt agc cag agc tct cat ctg 48 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 aat gtg cac aaa aga act cac 69 Asn Val His Lys Arg Thr His 20 <210> 113 <211> 23 <212> PRT <213> Homo sapiens <400> 113 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 Asn Val His Lys Arg Thr His 20 <210> 114 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 114 tac atg tgc agt gag tgt ggg cga ggc ttc agc cag aag tca aac ctc 48 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc ata cac cag agg aca cac 69 Ile Ile His Gln Arg Thr His 20 <210> 115 <211> 23 <212> PRT <213> Homo sapiens <400> 115 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Ile His Gln Arg Thr His 20 <210> 116 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 116 tat gaa tgt gaa aaa tgt ggc aaa gct ttt aac cag tcc tca aat ctt 48 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 act aga cat aag aaa agt cat 69 Thr Arg His Lys Lys Ser His 20 <210> 117 <211> 23 <212> PRT <213> Homo sapiens <400> 117 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 Thr Arg His Lys Lys Ser His 20 <210> 118 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 118 tat gag tgc aat gaa tgt ggg aag ttt ttt agc cag agc tcc agc ctc 48 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 att aga cat agg aga agt cac 69 Ile Arg His Arg Arg Ser His 20 <210> 119 <211> 23 <212> PRT <213> Homo sapiens <400> 119 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Arg Arg Ser His 20 <210> 120 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 120 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cag cac cgg agg atc cac 69 Thr Gln His Arg Arg Ile His 20 <210> 121 <211> 23 <212> PRT <213> Homo sapiens <400> 121 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Gln His Arg Arg Ile His 20 <210> 122 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 122 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cgg cac cgg agg atc cac 69 Thr Arg His Arg Arg Ile His 20 <210> 123 <211> 23 <212> PRT <213> Homo sapiens <400> 123 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Arg His Arg Arg Ile His 20 <210> 124 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 124 cac aag tgc ctt gaa tgt ggg aaa tgc ttc agt cag aac acc cat ctg 48 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 act cgc cac caa cgc acc cac 69 Thr Arg His Gln Arg Thr His 20 <210> 125 <211> 23 <212> PRT <213> Homo sapiens <400> 125 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 Thr Arg His Gln Arg Thr His 20 <210> 126 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 126 tac cac tgt gac tgg gac ggc tgt gga tgg aaa ttc gcc cgc tca gat 48 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg acc agg cac tac cgt aaa cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 127 <211> 25 <212> PRT <213> Homo sapiens <400> 127 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 128 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 128 tac aga tgc tca tgg gaa ggg tgt gag tgg cgt ttt gca aga agt gat 48 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 gag tta acc agg cac ttc cga aag cac 75 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 129 <211> 25 <212> PRT <213> Homo sapiens <400> 129 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 130 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 130 ttc agc tgt agc tgg aaa ggt tgt gaa agg agg ttt gcc cgt tct gat 48 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg tcc aga cac agg cga acc cac 75 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 131 <211> 25 <212> PRT <213> Homo sapiens <400> 131 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 132 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 132 ttc gcc tgc agc tgg cag gac tgc aac aag aag ttc gcg cgc tcc gac 48 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctg gcg cgg cac tac cgc aca cac 75 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 133 <211> 25 <212> PRT <213> Homo sapiens <400> 133 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 134 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 134 tac cac tgc aac tgg gac ggc tgc ggc tgg aag ttt gcg cgc tca gac 48 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctc acg cgc cac tac cga aag cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 135 <211> 25 <212> PRT <213> Homo sapiens <400> 135 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 136 <211> 72 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(72) <400> 136 ttc ctc tgt cag tat tgt gca cag aga ttt ggg cga aag gat cac ctg 48 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 act cga cat atg aag aag agt cac 72 Thr Arg His Met Lys Lys Ser His 20 <210> 137 <211> 24 <212> PRT <213> Homo sapiens <400> 137 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 Thr Arg His Met Lys Lys Ser His 20 <210> 138 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 138 tgtcgaatct gcatgcgtaa cttcagtcgt agtgaccacc ttaccaccca catccggacc 60 cacactggcc agaaaccc 78 <210> 139 <211> 81 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 139 ggtggcggcc gttacttact tagagctcga cgtcttactt acttagcggc cgcactagta 60 gatctgaatt cattcaccgg t 81 <210> 140 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 140 ttc cag tgt aaa act tgt cag cga aag ttc tcc cgg tcc gac cac ctg 48 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 aag acc cac acc agg act cat 69 Lys Thr His Thr Arg Thr His 20 <210> 141 <211> 23 <212> PRT <213> Homo sapiens <400> 141 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 Lys Thr His Thr Arg Thr His 20 <210> 142 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 142 ttt gcc tgc gag gtc tgc ggt gtt cga ttc acc agg aac gac aag ctg 48 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 aag atc cac atg cgg aag cac 69 Lys Ile His Met Arg Lys His 20 <210> 143 <211> 23 <212> PRT <213> Homo sapiens <400> 143 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 Lys Ile His Met Arg Lys His 20 <210> 144 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(75) <400> 144 tat gta tgc gat gta gag gga tgt acg tgg aaa ttt gcc cgc tca gat 48 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 aag ctc aac aga cac aag aaa agg cac 75 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 145 <211> 25 <212> PRT <213> Homo sapiens <400> 145 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 146 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 146 tat att tgc aga aag tgt gga cgg ggc ttt agt cgg aag tcc aac ctt 48 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 atc aga cat cag agg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 147 <211> 23 <212> PRT <213> Homo sapiens <400> 147 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 148 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1)...(69) <400> 148 tat cta tgt agt gag tgt gac aaa tgc ttc agt aga agt aca aac ctc 48 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 ata agg cat cga aga act cac 69 Ile Arg His Arg Arg Thr His 20 <210> 149 <211> 23 <212> PRT <213> Homo sapiens <400> 149 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 Ile Arg His Arg Arg Thr His 20 <210> 150 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 150 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ala His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 151 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 151 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Phe Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 152 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 152 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 153 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 153 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 154 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 154 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 155 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> CONFLICT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 155 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 156 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 156 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa 1 5 10 15 Gln His Xaa His 20 <210> 157 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 4-6, 8, 10, 14 <223> Xaa = any amino acid <221> VARIANT <222> 7 <223> Xaa = Phe or Tyr <221> VARIANT <222> 13 <223> Xaa = hydrophobic residue <221> VARIANT <222> 17 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 157 Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa Arg His 1 5 10 15 Xaa His <210> 158 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 158 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 159 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 159 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 160 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 160 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Thr Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 161 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 161 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 162 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 162 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Glu Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 163 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 163 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 164 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 164 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 165 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 165 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 166 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 166 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 167 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 <223> Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 <223> Xaa = any amino acid <221> VARIANT <222> 4 <223> Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 <223> Xaa = hydrophobic residue <221> VARIANT <222> 19 <223> Xaa = any amino acid; 3-5 amino acids in length <400> 167 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Thr Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 1<110> Kim, Jin-Soo Kwon, Young Do Kim, Hyun-Won Ryu, Eun-Hyun Hwang, Moon-Sun <120> SELECTION OF TARGET-SPECIFIC ZINC FINGER DOMAINS <130> 12279-002001 <160> 167 FastSEQ for Windows Version 4.0 <210> 1 <211> 10 <212> DNA <213> HIV-1 <400> 1 gacatcgagc 10 <210> 2 <211> 10 <212> DNA <213> HIV-1 <400> 2 gcagctgctt 10 <210> 3 <211> 10 <212> DNA <213> HIV-1 <400> 3 gctggggact 10 <210> 4 <211> 10 <212> DNA <213> Homo sapiens <400> 4 agggtggagt 10 <210> 5 <211> 10 <212> DNA <213> Homo sapiens <400> 5 gctgagacat 10 <210> 6 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 6 ccggcgtggg cggctgcgtg ggcgtgcgtg ggcggactgc gtgggcg 47 <210> 7 <211> 47 <212> DNA <213> Artificial Sequence <220> <223> optimal binding site <400> 7 tcgacgccca cgcagtccgc ccacgcacgc ccacgcagcc gcccacg 47 <210> 8 <211> 49 <212> DNA <213> HIV-1 <400> 8 ccggcgagcg ggcggtcgag cgggcgtgag cgggcggatc gagcgggcg 49 <210> 9 <211> 49 <212> DNA <213> HIV-1 <400> 9 tcgacgcccg ctcgatccgc ccgctcacgc ccgctcgacc gcccgctcg 49 <210> 10 <211> 50 <212> DNA <213> HIV-1 <400> 10 ccggctgctt gggcggctgc ttgggcgtgc ttgggcgggc tgcttgggcg 50 <210> 11 <211> 50 <212> DNA <213> HIV-1 <400> 11 tcgacgccca agcagcccgc ccaagcacgc ccaagcagcc gcccaagcag 50 <210> 12 <211> 47 <212> DNA <213> HIV-1 <400> 12 ccggactggg cgggggactg ggcgtgactg ggcggaggga ctgggcg 47 <210> 13 <211> 47 <212> DNA <213> HIV-1 <400> 13 tcgacgccca gtccctccgc ccagtcacgc ccagtccccc gcccagt 47 <210> 14 <211> 47 <212> DNA <213> Homo sapiens <400> 14 ccggagtggg cggtggagtg ggcgtgagtg ggcggatgga gtgggcg 47 <210> 15 <211> 47 <212> DNA <213> Homo sapiens <400> 15 tcgacgccca ctccatccgc ccactcacgc ccactccacc gcccact 47 <210> 16 <211> 48 <212> DNA <213> Homo sapiens <400> 16 ccggacatgg gcggagacat gggcgtacat gggcggaaga catgggcg 48 <210> 17 <211> 48 <212> DNA <213> Homo sapiens <400> 17 tcgacgccca tgtcttccgc ccatgtacgc ccatgtctcc gcccatgt 48 <210> 18 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (1) ... (81) <400> 18 aaa gag ggt ggg tcg acc ttc cgg act ggc cag gaa cgc cca gat ccg 48 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 cgg gaa ttc aga tct act agt gcg gcc gct aag taagtaagac gtcgagctcg 101 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 ccatcgcggt ggaagcttt 120 <210> 19 <211> 27 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 19 Lys Glu Gly Gly Ser Thr Phe Arg Thr Gly Gln Glu Arg Pro Asp Pro 1 5 10 15 Arg Glu Phe Arg Ser Thr Ser Ala Ala Ala Lys 20 25 <210> 20 <211> 303 <212> DNA <213> Artificial Sequence <220> <223> plasmid sequence <221> CDS <222> (25) ... (291) <400> 20 gggtcgacct tccggactgg ccag gaa cgc cca tat gct tgc cct gtc gag 51 Glu Arg Pro Tyr Ala Cys Pro Val Glu 1 5 tcc tgc gat cgc cgc ttt tct cgc tcg gat gag ctt acc cgc cat atc 99 Ser Cyg Asp Arsp Phe Ser Arg Ser Asp Glu Leu Thr Arg His Ile 10 15 20 25 cgc atc cac act ggc cag aag ccc ttc cag tgt cga atc tgc atg cgt 147 Arg Ile His Thr Gly Gln Lys Pro Phe Gln Cys Arg Ile Cys Met Arg 30 35 40 aac ttc agt cgt agt gac cac ctt acc acc cac atc cgg acc cac acc 195 Asn Phe Ser Arg Ser Asp His Leu Thr Thr His Ile Arg Thr His Thr 45 50 55 55 ggc gag aag cct ttt gcc tgt gac att tgt ggg agg aag ttt gcc agg 243 Gly Glu Lys Pro Phe Ala Cys Asp Ile Cys Gly Arg Lys Phe Ala Arg 60 65 70 agt gat gaa cgc aag agg cat acc aaa atc cat tta aga cag aag gat 291 Ser Asp Glu Arg Lys Arg His Thr Lys Ile His Leu Arg Gln Lys Asp 75 80 85 ccgcgggaat cc 303 <210> 21 <211> 89 <212> PRT <213> Artificial Sequence <220> <223> plasmid sequence <400> 21 Glu Arg Pro Tyr Ala Cys Pro Val Glu Ser Cys Asp Arg Arg Phe Ser 1 5 10 15 Arg Ser Asp Glu Leu Thr Arg His Ile Arg Ile His Thr Gly Gln Lys 20 25 30 Pro Phe Gln Cys Arg Ile Cys Met Arg Asn Phe Ser Arg Ser Asp His 35 40 45 Leu Thr Thr His Ile Arg Thr His Thr Gly Glu Lys Pro Phe Ala Cys 50 55 60 Asp Ile Cys Gly Arg Lys Phe Ala Arg Ser Asp Glu Arg Lys Arg His 65 70 75 80 Thr Lys Ile His Leu Arg Gln Lys Asp 85 <210> 22 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (102) <400> 22 acc ggg cag aaa ccg tac aaa tgt aag caa tgt ggg aaa gct ttt gga 48 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 tgt ccc tca aac ctt cga agg cat gga agg act cac acc ggc gag aaa 96 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 23 <211> 34 <212> PRT <213> Homo sapiens <400> 23 Thr Gly Gln Lys Pro Tyr Lys Cys Lys Gln Cys Gly Lys Ala Phe Gly 1 5 10 15 Cys Pro Ser Asn Leu Arg Arg His Gly Arg Thr His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 24 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (102) <400> 24 acc ggg gag aag cca tac aag tgt aag gag tgt ggg aaa gcc ttc aac 48 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 cac agc tcc aac ttc aat aaa cac cac aga atc cac acc ggc gaa aag 96 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 25 <211> 34 <212> PRT <213> Homo sapiens <400> 25 Thr Gly Glu Lys Pro Tyr Lys Cys Lys Glu Cys Gly Lys Ala Phe Asn 1 5 10 15 His Ser Ser Asn Phe Asn Lys His His Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 26 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (102) <400> 26 acc ggg gag agg cca ttt gaa tgt aag gaa tgt ggg aaa gcc ttt agt 48 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 agt ggt tca aac ttc act cga cat cag aga att cac acc ggt gaa aag 96 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 27 <211> 34 <212> PRT <213> Homo sapiens <400> 27 Thr Gly Glu Arg Pro Phe Glu Cys Lys Glu Cys Gly Lys Ala Phe Ser 1 5 10 15 Ser Gly Ser Asn Phe Thr Arg His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 28 <211> 108 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (108) <400> 28 acc ggg cag aag cca tac gta tgc gat gta gag gga tgt acg tgg aaa 48 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 ttt gcc cgc tca gat gag ctc aac aga cac aag aaa agg cac acc ggc 96 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 gaa aga ccg cgg 108 Glu Arg Pro Arg 35 <210> 29 <211> 36 <212> PRT <213> Homo sapiens <400> 29 Thr Gly Gln Lys Pro Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys 1 5 10 15 Phe Ala Arg Ser Asp Glu Leu Asn Arg His Lys Lys Arg His Thr Gly 20 25 30 Glu Arg Pro Arg 35 <210> 30 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (102) <400> 30 acc ggg gag aga cct tac gag tgt aat gaa tgc ggg aaa gct ttt gcc 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 caa aat tca act ctc aga gta cac cag aga att cac acc ggc gaa aag 96 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 ccg cgg 102 Pro Arg <210> 31 <211> 34 <212> PRT <213> Homo sapiens <400> 31 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Glu Cys Gly Lys Ala Phe Ala 1 5 10 15 Gln Asn Ser Thr Leu Arg Val His Gln Arg Ile His Thr Gly Glu Lys 20 25 30 Pro Arg <210> 32 <211> 102 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (102) <400> 32 acc ggg gag agg cct tat gag tgt aat tac tgt gga aaa acc ttt agt 48 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 gtg agc tca acc ctt att aga cat cag aga atc cac acc ggc gag aga 96 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 ccg cgg 102 Pro Arg <210> 33 <211> 34 <212> PRT <213> Homo sapiens <400> 33 Thr Gly Glu Arg Pro Tyr Glu Cys Asn Tyr Cys Gly Lys Thr Phe Ser 1 5 10 15 Val Ser Ser Thr Leu Ile Arg His Gln Arg Ile His Thr Gly Glu Arg 20 25 30 Pro Arg <210> 34 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 34 tat cag tgc aac att tgc gga aaa tgt ttc tcc tgc aac tcc aac ctc 48 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 cac agg cac cag aga acg cac 69 His Arg His Gln Arg Thr His 20 <210> 35 <211> 23 <212> PRT <213> Homo sapiens <400> 35 Tyr Gln Cys Asn Ile Cys Gly Lys Cys Phe Ser Cys Asn Ser Asn Leu 1 5 10 15 His Arg His Gln Arg Thr His 20 <210> 36 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 36 tat gca tgt cat cta tgt gga aaa gcc ttc act cag agt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 37 <211> 23 <212> PRT <213> Homo sapiens <400> 37 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Ser Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 38 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 38 tat aaa tgc ggc cag tgt ggg aag ttc tac tcg cag gtc tcc cac ctc 48 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 acc cgc cac cag aaa atc cac 69 Thr Arg His Gln Lys Ile His 20 <210> 39 <211> 23 <212> PRT <213> Homo sapiens <400> 39 Tyr Lys Cys Gly Gln Cys Gly Lys Phe Tyr Ser Gln Val Ser His Leu 1 5 10 15 Thr Arg His Gln Lys Ile His 20 <210> 40 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 40 tat gca tgt cat cta tgt gga aaa gcc ttc act cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 41 <211> 23 <212> PRT <213> Homo sapiens <400> 41 Tyr Ala Cys His Leu Cys Gly Lys Ala Phe Thr Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 42 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 42 tat gca tgt cat cta tgt gca aaa gcc ttc att cag tgt tct cac ctt 48 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 aga aga cat gag aaa act cac 69 Arg Arg His Glu Lys Thr His 20 <210> 43 <211> 23 <212> PRT <213> Homo sapiens <400> 43 Tyr Ala Cys His Leu Cys Ala Lys Ala Phe Ile Gln Cys Ser His Leu 1 5 10 15 Arg Arg His Glu Lys Thr His 20 <210> 44 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 44 tat gtt tgc agg gaa tgt ggg cgt ggc ttt cgc cag cat tca cac ctg 48 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 gtc aga cac aag agg aca cat 69 Val Arg His Lys Arg Thr His 20 <210> 45 <211> 23 <212> PRT <213> Homo sapiens <400> 45 Tyr Val Cys Arg Glu Cys Gly Arg Gly Phe Arg Gln His Ser His Leu 1 5 10 15 Val Arg His Lys Arg Thr His 20 <210> 46 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 46 ttt gag tgt aaa gat tgc ggg aaa gct ttc att cag aag tca aac ctc 48 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag aga act cac 69 Ile Arg His Gln Arg Thr His 20 <210> 47 <211> 23 <212> PRT <213> Homo sapiens <400> 47 Phe Glu Cys Lys Asp Cys Gly Lys Ala Phe Ile Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 48 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 48 tat gtc tgc agg gag tgt agg cga ggt ttt agc cag aag tca aat ctc 48 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc aga cac cag agg acg cac 69 Ile Arg His Gln Arg Thr His 20 <210> 49 <211> 23 <212> PRT <213> Homo sapiens <400> 49 Tyr Val Cys Arg Glu Cys Arg Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 50 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 50 tat gaa tgt aac aca tgc agg aaa acc ttc tct caa aag tca aat ctc 48 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 att gta cat cag aga aca cac 69 Ile Val His Gln Arg Thr His 20 <210> 51 <211> 23 <212> PRT <213> Homo sapiens <400> 51 Tyr Glu Cys Asn Thr Cys Arg Lys Thr Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Val His Gln Arg Thr His 20 <210> 52 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 52 tat gtt tgc tca aaa tgt ggg aaa gcc ttc act cag agt tca aat ctg 48 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 act gta cat caa aaa atc cac 69 Thr Val His Gln Lys Ile His 20 <210> 53 <211> 23 <212> PRT <213> Homo sapiens <400> 53 Tyr Val Cys Ser Lys Cys Gly Lys Ala Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Thr Val His Gln Lys Ile His 20 <210> 54 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 54 tac aaa tgt gac gaa tgt gga aaa aac ttt acc cag tcc tcc aac ctt 48 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 att gta cat aag aga att cat 69 Ile Val His Lys Arg Ile His 20 <210> 55 <211> 23 <212> PRT <213> Homo sapiens <400> 55 Tyr Lys Cys Asp Glu Cys Gly Lys Asn Phe Thr Gln Ser Ser Asn Leu 1 5 10 15 Ile Val His Lys Arg Ile His 20 <210> 56 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 56 tat gaa tgt gat gtg tgt gga aaa acc ttc acg caa aag tca aac ctt 48 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 ggt gta cat cag aga act cat 69 Gly Val His Gln Arg Thr His 20 <210> 57 <211> 23 <212> PRT <213> Homo sapiens <400> 57 Tyr Glu Cys Asp Val Cys Gly Lys Thr Phe Thr Gln Lys Ser Asn Leu 1 5 10 15 Gly Val His Gln Arg Thr His 20 <210> 58 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 58 tat aag tgc cct gat tgt ggg aag agt ttt agt cag agt tcc agc ctc 48 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Le Le 1 5 10 15 att cgc cac cag cgg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 59 <211> 23 <212> PRT <213> Homo sapiens <400> 59 Tyr Lys Cys Pro Asp Cys Gly Lys Ser Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 60 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 60 tat gag tgt cag gac tgt ggg agg gcc ttc aac cag aac tcc tcc ctg 48 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 ggg cgg cac aag agg aca cac 69 Gly Arg His Lys Arg Thr His 20 <210> 61 <211> 23 <212> PRT <213> Homo sapiens <400> 61 Tyr Glu Cys Gln Asp Cys Gly Arg Ala Phe Asn Gln Asn Ser Ser Leu 1 5 10 15 Gly Arg His Lys Arg Thr His 20 <210> 62 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 62 tac aaa tgt gaa gaa tgt ggc aaa gct ttt aac cag tcc tca acc ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 act aga cat aag ata gtt cat 69 Thr Arg His Lys Ile Val His 20 <210> 63 <211> 23 <212> PRT <213> Homo sapiens <400> 63 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Asn Gln Ser Ser Thr Leu 1 5 10 15 Thr Arg His Lys Ile Val His 20 <210> 64 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 64 tat aag tgc atg gag tgt ggg aag gct ttt aac cgc agg tca cac ctc 48 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 aca cgg cac cag cgg att cac 69 Thr Arg His Gln Arg Ile His 20 <210> 65 <211> 23 <212> PRT <213> Homo sapiens <400> 65 Tyr Lys Cys Met Glu Cys Gly Lys Ala Phe Asn Arg Arg Ser His Leu 1 5 10 15 Thr Arg His Gln Arg Ile His 20 <210> 66 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 66 tat aca tgt aaa cag tgt ggg aaa gcc ttc agt gtt tcc agt tcc ctt 48 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 cga aga cat gaa acc act cac 69 Arg Arg His Glu Thr Thr His 20 <210> 67 <211> 23 <212> PRT <213> Homo sapiens <400> 67 Tyr Thr Cys Lys Gln Cys Gly Lys Ala Phe Ser Val Ser Ser Ser Leu 1 5 10 15 Arg Arg His Glu Thr Thr His 20 <210> 68 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 68 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Cys Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 69 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 69 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa His Xaa Ser Asn Xaa Xaa 1 5 10 15 Lys His Xaa His 20 <210> 70 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 70 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Ser Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 71 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 71 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Thr Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 72 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT (222) (19) ... (19) Xaa = any amino acid; 3-5 amino acids in length <400> 72 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Val Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 73 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 73 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 74 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 74 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 75 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 14 <223> Xaa = Ser or Thr <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT (222) (19) ... (19) Xaa = any amino acid; 3-5 amino acids in length <400> 75 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Gln Xaa Ser Xaa Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 76 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> coordinating residue <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10-14, 16, 17 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 76 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 1 5 10 15 Xaa His Xaa His 20 <210> 77 <211> 24 <212> PRT <213> Artificial Sequence <220> <223> polypeptide motif <221> VARIANT <222> 1 Xaa = Leu, Ile, Val, Met, Phe, Tyr, or Gly <221> VARIANT <222> 2 Xaa = Ala, Ser, Leu, Val, or Arg <221> VARIANT <222> 3-4, 6, 8-11, 17, 19-23 X223 = any amino acid <221> VARIANT <222> 5 Xaa = Leu, Ile, Val, Met, Ser, Thr, Ala, Cys, or Asn <221> VARIANT <222> 7 <223> Xaa = Leu, Ile, Val, or Met <221> VARIANT <222> (12) ... (12) <223> Xaa = Leu, Ile, or Val <221> VARIANT <222> (13) ... (13) Xaa = Arg, Lys, Asn, Gln, Glu, Ser, Thr, Ala, Ile, or Tyr <221> VARIANT <222> (14) ... (14) Xaa = Leu, Ile, Val, Phe, Ser, Thr, Asn, Lys, or His <221> VARIANT <222> (16) ... (16) Xaa = Phe, Tyr, Val, or Cys <221> VARIANT (222) (18) ... (18) Xaa = Asn, Asp, Gln, Thr, Ala, or His <221> VARIANT <222> (24) ... (24) Xaa = Arg, Lys, Asn, Ala, Ile, Met, or Trp <400> 77 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Trp Xaa 1 5 10 15 Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa Xaa 20 <210> 78 <211> 6 <212> PRT <213> Eukaryote <220> <221> VARIANT <222> 3 Xaa = Glu or Gln <221> VARIANT <222> 4 <223> Xaa = Lys or Arg <221> VARIANT <222> 6 Xaa = Tyr or Phe <400> 78 Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 79 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 79 tgcctgcagc atttgtggga ggaagtttg 29 <210> 80 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 80 atgctgcagg cttaaggctt ctcgccggtg 30 <210> 81 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0) ... (0) N = A, T, G, or C; y = T or C; s = G or C; r = G or A <400> 81 gcgtccggac ncayacnggn sara 24 <210> 82 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0) ... (0) N = A, T, G, or C; b = G, C, or T; r = G or A; w = A or T; y = T or C <400> 82 cggaattcan nbrwanggyy tytc 24 <210> 83 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> amino acid motif <221> VARIANT <222> 4 Xaa = Glu or Gln <221> VARIANT <222> 5 <223> Xaa = Lys or Arg <221> VARIANT <222> 3 Xaa = Tyr or Phe <400> 83 His Thr Gly Xaa Xaa Pro Xaa 1 5 <210> 84 <211> 54 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 84 gggcccgggg agaagcctta cgcatgtcca gtcgaatctt gtgatagaag attc 54 <210> 85 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0) ... (0) N = A, T, G, or C; b = G, C, or T; s = G or C <400> 85 ctccccgcgg ttcgccggtg tggattctga tatgsnbsnb aagsnbsnbs nbsnbtgaga 60 atcttctatc acaag 75 <210> 86 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 86 ctagacccgg gaattcgtcg acg 23 <210> 87 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <400> 87 gatccgtcga cgaattcccg ggt 23 <210> 88 <211> 38 <212> DNA <213> syArtificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0) ... (0) N = A, T, G, or C <400> 88 ccggtnnntg ggcgtacnnn tgggcgtcan nntgggcg 38 <210> 89 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> synthetic oligonucleotide <221> misc_feature <222> (0) ... (0) N = A, T, G, or C <400> 89 tcgacgccca nnntgacgcc cannngtacg cccannna 38 <210> 90 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 90 ccgggtcgcg cgtgggcggt accg 24 <210> 91 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 91 tcgacggtac cgcccacgcg cgac 24 <210> 92 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 92 ccgggtcgcg agcgggcggt accg 24 <210> 93 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 93 tcgacggtac cgcccgctcg cgac 24 <210> 94 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 94 ccgggtcgtg cttgggcggt accg 24 <210> 95 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 95 tcgacggtac cgcccaagca cgac 24 <210> 96 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 96 ccgggtcggg actgggcggt accg 24 <210> 97 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 97 tcgacggtac cgcccagtcc cgac 24 <210> 98 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 98 ccgggtcggg agtgggcggt accg 24 <210> 99 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 99 tcgacggtac cgcccactcc cgac 24 <210> 100 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 100 ccgggtcgga catgggcggt accg 24 <210> 101 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> synthetic probe for gel shift assay <400> 101 tcgacggtac cgcccatgtc cgac 24 <210> 102 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 102 tat aag tgt aag gaa tgt ggg cag gcc ttt aga cag cgt gca cat ctt 48 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 att cga cat cac aaa ctt cac 69 Ile Arg His His Lys Leu His 20 <210> 103 <211> 23 <212> PRT <213> Homo sapiens <400> 103 Tyr Lys Cys Lys Glu Cys Gly Gln Ala Phe Arg Gln Arg Ala His Leu 1 5 10 15 Ile Arg His His Lys Leu His 20 <210> 104 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 104 tat aag tgt cat caa tgt ggg aaa gcc ttt att caa tcc ttt aac ctt 48 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 cga aga cat gag aga act cac 69 Arg Arg His Glu Arg Thr His 20 <210> 105 <211> 23 <212> PRT <213> Homo sapiens <400> 105 Tyr Lys Cys His Gln Cys Gly Lys Ala Phe Ile Gln Ser Phe Asn Leu 1 5 10 15 Arg Arg His Glu Arg Thr His 20 <210> 106 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 106 ttc cag tgt aat cag tgt ggg gca tct ttt act cag aaa ggt aac ctc 48 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 ctc cgc cac att aaa ctg cac 69 Leu Arg His Ile Lys Leu His 20 <210> 107 <211> 23 <212> PRT <213> Homo sapiens <400> 107 Phe Gln Cys Asn Gln Cys Gly Ala Ser Phe Thr Gln Lys Gly Asn Leu 1 5 10 15 Leu Arg His Ile Lys Leu His 20 <210> 108 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0) ... (0) N = A, T, G, or C; 48-51 nucleotides in length <400> 108 acccacactg gccagaaacc cn 22 <210> 109 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <221> misc_feature <222> (0) ... (0) N = A, T, G, or C; 42-45 nucleotides in length <400> 109 gatctgaatt cattcaccgg tn 22 <210> 110 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 110 tac aaa tgt gaa gaa tgt ggc aaa gcc ttt agg cag tcc tca cac ctt 48 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 act aca cat aag ata att cat 69 Thr Thr His Lys Ile Ile His 20 <210> 111 <211> 23 <212> PRT <213> Homo sapiens <400> 111 Tyr Lys Cys Glu Glu Cys Gly Lys Ala Phe Arg Gln Ser Ser His Leu 1 5 10 15 Thr Thr His Lys Ile Ile His 20 <210> 112 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 112 tat gag tgt gat cac tgt gga aaa tcc ttt agc cag agc tct cat ctg 48 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 aat gtg cac aaa aga act cac 69 Asn Val His Lys Arg Thr His 20 <210> 113 <211> 23 <212> PRT <213> Homo sapiens <400> 113 Tyr Glu Cys Asp His Cys Gly Lys Ser Phe Ser Gln Ser Ser His Leu 1 5 10 15 Asn Val His Lys Arg Thr His 20 <210> 114 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 114 tac atg tgc agt gag tgt ggg cga ggc ttc agc cag aag tca aac ctc 48 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 atc ata cac cag agg aca cac 69 Ile Ile His Gln Arg Thr His 20 <210> 115 <211> 23 <212> PRT <213> Homo sapiens <400> 115 Tyr Met Cys Ser Glu Cys Gly Arg Gly Phe Ser Gln Lys Ser Asn Leu 1 5 10 15 Ile Ile His Gln Arg Thr His 20 <210> 116 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 116 tat gaa tgt gaa aaa tgt ggc aaa gct ttt aac cag tcc tca aat ctt 48 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 act aga cat aag aaa agt cat 69 Thr Arg His Lys Lys Ser His 20 <210> 117 <211> 23 <212> PRT <213> Homo sapiens <400> 117 Tyr Glu Cys Glu Lys Cys Gly Lys Ala Phe Asn Gln Ser Ser Asn Leu 1 5 10 15 Thr Arg His Lys Lys Ser His 20 <210> 118 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 118 tat gag tgc aat gaa tgt ggg aag ttt ttt agc cag agc tcc agc ctc 48 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Le Le 1 5 10 15 att aga cat agg aga agt cac 69 Ile Arg His Arg Arg Ser His 20 <210> 119 <211> 23 <212> PRT <213> Homo sapiens <400> 119 Tyr Glu Cys Asn Glu Cys Gly Lys Phe Phe Ser Gln Ser Ser Ser Leu 1 5 10 15 Ile Arg His Arg Arg Ser His 20 <210> 120 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 120 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cag cac cgg agg atc cac 69 Thr Gln His Arg Arg Ile His 20 <210> 121 <211> 23 <212> PRT <213> Homo sapiens <400> 121 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Gln His Arg Arg Ile His 20 <210> 122 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 122 tat gag tgt cac gat tgc gga aag tcc ttt agg cag agc acc cac ctc 48 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 act cgg cac cgg agg atc cac 69 Thr Arg His Arg Arg Ile His 20 <210> 123 <211> 23 <212> PRT <213> Homo sapiens <400> 123 Tyr Glu Cys His Asp Cys Gly Lys Ser Phe Arg Gln Ser Thr His Leu 1 5 10 15 Thr Arg His Arg Arg Ile His 20 <210> 124 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 124 cac aag tgc ctt gaa tgt ggg aaa tgc ttc agt cag aac acc cat ctg 48 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 act cgc cac caa cgc acc cac 69 Thr Arg His Gln Arg Thr His 20 <210> 125 <211> 23 <212> PRT <213> Homo sapiens <400> 125 His Lys Cys Leu Glu Cys Gly Lys Cys Phe Ser Gln Asn Thr His Leu 1 5 10 15 Thr Arg His Gln Arg Thr His 20 <210> 126 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 126 tac cac tgt gac tgg gac ggc tgt gga tgg aaa ttc gcc cgc tca gat 48 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg acc agg cac tac cgt aaa cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 127 <211> 25 <212> PRT <213> Homo sapiens <400> 127 Tyr His Cys Asp Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 128 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 128 tac aga tgc tca tgg gaa ggg tgt gag tgg cgt ttt gca aga agt gat 48 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 gag tta acc agg cac ttc cga aag cac 75 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 129 <211> 25 <212> PRT <213> Homo sapiens <400> 129 Tyr Arg Cys Ser Trp Glu Gly Cys Glu Trp Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Phe Arg Lys His 20 25 <210> 130 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 130 ttc agc tgt agc tgg aaa ggt tgt gaa agg agg ttt gcc cgt tct gat 48 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 gaa ctg tcc aga cac agg cga acc cac 75 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 131 <211> 25 <212> PRT <213> Homo sapiens <400> 131 Phe Ser Cys Ser Trp Lys Gly Cys Glu Arg Arg Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ser Arg His Arg Arg Thr His 20 25 <210> 132 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 132 ttc gcc tgc agc tgg cag gac tgc aac aag aag ttc gcg cgc tcc gac 48 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctg gcg cgg cac tac cgc aca cac 75 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 133 <211> 25 <212> PRT <213> Homo sapiens <400> 133 Phe Ala Cys Ser Trp Gln Asp Cys Asn Lys Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Ala Arg His Tyr Arg Thr His 20 25 <210> 134 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 134 tac cac tgc aac tgg gac ggc tgc ggc tgg aag ttt gcg cgc tca gac 48 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 gag ctc acg cgc cac tac cga aag cac 75 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 135 <211> 25 <212> PRT <213> Homo sapiens <400> 135 Tyr His Cys Asn Trp Asp Gly Cys Gly Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Glu Leu Thr Arg His Tyr Arg Lys His 20 25 <210> 136 <211> 72 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (72) <400> 136 ttc ctc tgt cag tat tgt gca cag aga ttt ggg cga aag gat cac ctg 48 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 act cga cat atg aag aag agt cac 72 Thr Arg His Met Lys Lys Ser His 20 <210> 137 <211> 24 <212> PRT <213> Homo sapiens <400> 137 Phe Leu Cys Gln Tyr Cys Ala Gln Arg Phe Gly Arg Lys Asp His Leu 1 5 10 15 Thr Arg His Met Lys Lys Ser His 20 <210> 138 <211> 78 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 138 tgtcgaatct gcatgcgtaa cttcagtcgt agtgaccacc ttaccaccca catccggacc 60 cacactggcc agaaaccc 78 <139> <211> 81 <212> DNA <213> Artificial Sequence <220> <223> primer for PCR <400> 139 ggtggcggcc gttacttact tagagctcga cgtcttactt acttagcggc cgcactagta 60 gatctgaatt cattcaccgg t 81 <210> 140 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 140 ttc cag tgt aaa act tgt cag cga aag ttc tcc cgg tcc gac cac ctg 48 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 aag acc cac acc agg act cat 69 Lys Thr His Thr Arg Thr His 20 <210> 141 <211> 23 <212> PRT <213> Homo sapiens <400> 141 Phe Gln Cys Lys Thr Cys Gln Arg Lys Phe Ser Arg Ser Asp His Leu 1 5 10 15 Lys Thr His Thr Arg Thr His 20 <210> 142 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 142 ttt gcc tgc gag gtc tgc ggt gtt cga ttc acc agg aac gac aag ctg 48 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 aag atc cac atg cgg aag cac 69 Lys Ile His Met Arg Lys His 20 <210> 143 <211> 23 <212> PRT <213> Homo sapiens <400> 143 Phe Ala Cys Glu Val Cys Gly Val Arg Phe Thr Arg Asn Asp Lys Leu 1 5 10 15 Lys Ile His Met Arg Lys His 20 <210> 144 <211> 75 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (75) <400> 144 tat gta tgc gat gta gag gga tgt acg tgg aaa ttt gcc cgc tca gat 48 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 aag ctc aac aga cac aag aaa agg cac 75 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 145 <211> 25 <212> PRT <213> Homo sapiens <400> 145 Tyr Val Cys Asp Val Glu Gly Cys Thr Trp Lys Phe Ala Arg Ser Asp 1 5 10 15 Lys Leu Asn Arg His Lys Lys Arg His 20 25 <210> 146 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 146 tat att tgc aga aag tgt gga cgg ggc ttt agt cgg aag tcc aac ctt 48 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 atc aga cat cag agg aca cac 69 Ile Arg His Gln Arg Thr His 20 <210> 147 <211> 23 <212> PRT <213> Homo sapiens <400> 147 Tyr Ile Cys Arg Lys Cys Gly Arg Gly Phe Ser Arg Lys Ser Asn Leu 1 5 10 15 Ile Arg His Gln Arg Thr His 20 <210> 148 <211> 69 <212> DNA <213> Homo sapiens <220> <221> CDS <222> (1) ... (69) <400> 148 tat cta tgt agt gag tgt gac aaa tgc ttc agt aga agt aca aac ctc 48 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 ata agg cat cga aga act cac 69 Ile Arg His Arg Arg Thr His 20 <210> 149 <211> 23 <212> PRT <213> Homo sapiens <400> 149 Tyr Leu Cys Ser Glu Cys Asp Lys Cys Phe Ser Arg Ser Thr Asn Leu 1 5 10 15 Ile Arg His Arg Arg Thr His 20 <210> 150 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 150 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ala His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 151 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 151 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Phe Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 152 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 152 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 153 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 153 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser His Xaa Xaa 1 5 10 15 Val His Xaa His 20 <210> 154 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 154 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 155 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> CONFLICT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 155 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 156 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 156 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa 1 5 10 15 Gln His Xaa His 20 <210> 157 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 2 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 4-6, 8, 10, 14 X223 = any amino acid <221> VARIANT <222> 7 Xaa = Phe or Tyr <221> VARIANT <222> 13 X223 = hydrophobic residue <221> VARIANT <222> 17 Xaa = any amino acid; 3-5 amino acids in length <400> 157 Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Thr His Xaa Xaa Arg His 1 5 10 15 Xaa His <210> 158 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 158 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Ile His Xaa His 20 <210> 159 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 159 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 160 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 160 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Thr Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 161 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 161 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Gln Xaa Gly Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 162 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 162 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Glu Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 163 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 163 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 164 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 164 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp His Xaa Xaa 1 5 10 15 Thr His Xaa His 20 <210> 165 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 165 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Asp Lys Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 166 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 166 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Ser His Xaa Xaa 1 5 10 15 Arg His Xaa His 20 <210> 167 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> purified polypeptide <221> VARIANT <222> 1, 9 Xaa = Phe or Tyr <221> VARIANT <222> 2, 6-8, 10, 12, 16 X223 = any amino acid <221> VARIANT <222> 4 Xaa = any amino acid; 2-5 amino acids in length <221> VARIANT <222> 15 X223 = hydrophobic residue <221> VARIANT <222> 19 Xaa = any amino acid; 3-5 amino acids in length <400> 167 Xaa Xaa Cys Xaa Cys Xaa Xaa Xaa Xaa Xaa Arg Xaa Thr Asn Xaa Xaa 1 5 10 15 Arg His Xaa His 20 1

Claims (85)

(a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;(a) providing a cell containing a reporter construct comprising a reporter gene operably linked to a promoter, wherein the reporter gene exceeds a predetermined level if the transcription factor recognizes both the recruitment site and the target site of the promoter Expressed or below a certain level but not if the transcription factor recognizes only the recruitment site of the promoter; (b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 다수의 하이브리드 핵산을 제공하는 단계, 여기서 시험 징크 핑거 도메인의 아미노산 서열은 다수의 하이브리드 핵산 서로간에 서로 상이함;(b) providing a plurality of hybrid nucleic acids encoding a non-natural protein comprising (i) a transcriptional activation or inhibition domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain, Wherein the amino acid sequences of the test zinc finger domains differ from each other in a plurality of hybrid nucleic acids; (c) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 하이브리드 핵산을 상기 세포와 접촉시키는 단계;(c) contacting the plurality of hybrid nucleic acids with the cells under conditions such that one or more of the plurality of nucleic acids can enter one or more cells; (d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및(d) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; And (e) 세포가 표적 부위를 인식하는 시험 징크 핑거 도메인을 코딩하는 하이브리드 핵산을 포함함을 나타내는 지표로서, 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, DNA 상의 표적 서열을 인식하는 징크핑거 도메인을 동정하는 방법.(e) an indicator that the cell comprises a hybrid nucleic acid encoding a test zinc finger domain that recognizes a target site, the method comprising identifying a cell that expresses a reporter gene above or below a predetermined level To identify a zinc finger domain that recognizes a target sequence on DNA. 제1항에 있어서, 상기 세포가 진핵 세포인 방법.The method of claim 1, wherein said cells are eukaryotic cells. 제2항에 있어서, 상기 세포가 효모 세포인 방법.The method of claim 2, wherein said cells are yeast cells. 제3항에 있어서, 상기 세포가 사카로미세스 세레비지에(Saccharomyces cerevisiae) 세포인 방법.4. The method of claim 3, wherein said cells are Saccharomyces cerevisiae cells. 제1항에 있어서, 상기 리포터 유전자가 선택성 마커인 방법.The method of claim 1, wherein the reporter gene is a selectable marker. 제5항에 있어서, 상기 선택성 마커가URA3, HIS3, LEU2, ADE2, TRP1으로 이루어진 군에서 선택되는 것인 방법.The method of claim 5, wherein the selectable marker is selected from the group consisting of URA3, HIS3, LEU2, ADE2, TRP1 . 제1항에 있어서, 상기 리포터 유전자가lacZ, CAT, 루시퍼라제, GUS 및 GFP로 이루어진 군에서 선택되는 것인 방법.The method of claim 1, wherein the reporter gene is selected from the group consisting of lacZ , CAT, luciferase, GUS, and GFP. 제1항에 있어서, 상기 DNA 결합 도메인이 징크핑거 도메인을 포함하는 방법.The method of claim 1, wherein the DNA binding domain comprises a zinc finger domain. 제8항에 있어서, 상기 DNA 결합 도메인이 두 개의 징크핑거 도메인을 포함하는 방법.The method of claim 8, wherein said DNA binding domain comprises two zincfinger domains. 제9항에 있어서, 상기 DNA 결합 도메인이 세 개의 징크핑거 도메인을 포함하는 방법.The method of claim 9, wherein the DNA binding domain comprises three zinc finger domains. 제1항에 있어서,The method of claim 1, (i) 도메인의 보존된 경계부분을 코딩하는 서열에 결찰하는 올리고뉴클레오티드 프라이머를 이용하여, 유전체 핵산, 전령 RNA(mRNA) 혼합물, 또는 상보적 DNA(cDNA) 혼합물로부터 시험 징크핑거 도메인을 코딩하는 핵산 원을 증폭하여 증폭된 단편을 제조하는 단계; 및(i) a nucleic acid encoding a test zinc finger domain from a genomic nucleic acid, messenger RNA (mRNA) mixture, or complementary DNA (cDNA) mixture, using an oligonucleotide primer that ligates to a sequence encoding a conserved boundary of the domain Amplifying the source to prepare amplified fragments; And (ii) 증폭된 단편을 이용하여 제1항의 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.(ii) using the amplified fragment to construct a hybrid nucleic acid to be included in the plurality of hybrid nucleic acids of step (b) of claim 1. 제1항에 있어서,The method of claim 1, (i) 서열 데이터베이스에서 후보 징크핑거 도메인의 아미노산 서열을 동정하는 단계;(i) identifying the amino acid sequence of the candidate zincfinger domain in the sequence database; (ii) 상기 후보 징크핑거 도메인의 아미노산을 코딩하는 후보 핵산을 제공하는 단계; 및(ii) providing a candidate nucleic acid encoding an amino acid of said candidate zinc finger domain; And (iii) 상기 후보 핵산을 이용하여 제1항의 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.(iii) using the candidate nucleic acid to construct a hybrid nucleic acid to be included in the plurality of hybrid nucleic acids of step (b) of claim 1. 제5항에 있어서, 상기 선택성 마커가 대사산물의 합성에 필요한 영양요구성유전자(auxotrophy gene)이고, 상기 세포의 유전체는 이 영양요구성 유전자에 대한 기능적 카피를 갖고 있지 않으며, 상기 (d) 단계에서 상기 세포는 상기 대사산물이 결핍된 배지에서 유지되는 방법.6. The method of claim 5, wherein the selectable marker is an auxotrophy gene required for the synthesis of metabolites, and the genome of the cell does not have a functional copy of the auxotrophic gene, step (d). Wherein said cells are maintained in a medium deficient of said metabolite. 제1항에 있어서, 제2 표적 부위를 인식하는 제2 시험 징크핑거 도메인을 동정하기 위하여 (a) 내지 (e) 단계가 반복되는 방법.The method of claim 1, wherein steps (a) to (e) are repeated to identify a second test zinc finger domain that recognizes a second target site. 제14항에 있어서, 제1 시험 징크핑거 도메인 및 제2 시험 징크핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산의 구축을 더 포함하는 방법.The method of claim 14, further comprising the construction of a nucleic acid encoding a polypeptide comprising a first test zinc finger domain and a second test zinc finger domain. (a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;(a) providing a cell containing a reporter construct comprising a reporter gene operably linked to a promoter, wherein the reporter gene exceeds a predetermined level if the transcription factor recognizes both the recruitment site and the target site of the promoter Expressed or below a certain level but not if the transcription factor recognizes only the recruitment site of the promoter; (b) 도메인 보존된 경계부분을 코딩하는 핵산에 결찰되는 올리고뉴클레오티드 프라이머를 이용하여, 각각 시험 징크핑거 도메인을 코딩하는 다수의 핵산 서열을 증폭시키는 단계;(b) amplifying a plurality of nucleic acid sequences, each encoding a test zincfinger domain, using oligonucleotide primers ligated to nucleic acids encoding domain conserved boundaries; (c) (b)의 각 핵산 서열을 (i) 전사 활성화 또는 억제 도메인을 코딩하는 핵산서열 및 (ii) 소집 부위를 인식하는 DNA 결합 도메인을 코딩하는 핵산 서열에 연결하여 다수의 하이브리드 핵산을 형성하는 단계;(c) each nucleic acid sequence of (b) is linked to (i) a nucleic acid sequence encoding a transcriptional activation or inhibition domain and (ii) a nucleic acid sequence encoding a DNA binding domain that recognizes a recruitment site to form a plurality of hybrid nucleic acids. Doing; (d) 다수의 핵산 중 하나 이상이 하나 이상의 세포에 들어갈 수 있게 하는 조건하에서 다수의 하이브리드 핵산 (c)를 상기 세포 (a)와 접촉시키는 단계;(d) contacting the plurality of hybrid nucleic acids (c) with the cells (a) under conditions that allow one or more of the plurality of nucleic acids to enter one or more cells; (e) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및(e) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; And (f) 세포가 하이브리드 핵산 (c)을 포함하고 또한 이 하이브리드 핵산이 DNA 상의 표적 부위를 인식하는 징크 핑거 도메인을 코딩함을 나타내는 지표로서, 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, DNA 상의 표적 서열을 인식하는 징크핑거 도메인을 동정하는 방법.(f) an indicator that the cell comprises a hybrid nucleic acid (c) and that the hybrid nucleic acid encodes a zinc finger domain that recognizes a target site on the DNA, wherein the reporter gene is expressed above or below a predetermined level A method of identifying a zinc finger domain that recognizes a target sequence on DNA, the method comprising identifying cells that express. 제16항에 있어서, 상기 세포가 효모 세포인 방법.The method of claim 16, wherein said cells are yeast cells. 제16항에 있어서, 상기 리포터 유전자가lacZ, CAT, 루시퍼라제, GUS 및 GFP로 이루어진 군에서 선택되는 것인 방법.The method of claim 16, wherein the reporter gene is selected from the group consisting of lacZ , CAT, luciferase, GUS, and GFP. 제16항에 있어서, 상기 DNA 결합 도메인이 징크핑거 도메인을 포함하는 방법.The method of claim 16, wherein said DNA binding domain comprises a zinc finger domain. 제19항에 있어서, 상기 DNA 결합 도메인이 두 개의 징크핑거 도메인을 포함하는 방법.The method of claim 19, wherein said DNA binding domain comprises two zincfinger domains. (a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;(a) providing a reporter construct comprising a reporter gene operably linked to a promoter, wherein the reporter gene is expressed above a predetermined level or at a predetermined level if the transcription factor recognizes both the recruitment site and the target site of the promoter Is less than expressed if the transcription factor recognizes only the recruitment site of the promoter; (b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 다수의 하이브리드 핵산을 제공하는 단계;(b) providing a plurality of hybrid nucleic acids encoding a non-natural protein comprising (i) a transcriptional activation or inhibition domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain; (c) 리포터 구조물이 세포 내로 들어갈 수 있게 하는 조건하에서 리포터 구조물을 세포와 접촉시키는 단계;(c) contacting the reporter construct with the cell under conditions that allow the reporter construct to enter the cell; (d) (c)단계의 이전, 이후 또는 (c) 단계와 동시에, 하이브리드 핵산이 세포내로 들어갈 수 있게 하는 조건하에서 상기 하이브리드 핵산을 상기 세포와 접촉시키는 단계;(d) contacting said hybrid nucleic acid with said cell under conditions that permit hybrid nucleic acid to enter said cell before, after (c) or concurrently with step (c); (e) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및(e) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; And (f) 세포 내 리포터 유전자의 발현량의 변화를 검출하는 단계(이 때 소정 수준을 초과하는 리포터 유전자의 발현 또는 소정 수준 미만의 발현은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타냄)를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.(f) detecting a change in the amount of expression of the reporter gene in the cell, wherein expression of the reporter gene above or below the predetermined level indicates that the test zinc finger domain recognizes the target site. To determine whether the test zincfinger domain recognizes a target site on the promoter. 제21항에 있어서,The method of claim 21, 도메인의 보존된 경계부위를 코딩하는 서열에 결찰하는 올리고뉴클레오티드 프라이머를 이용하여, 유전체 핵산, 전령 RNA(mRNA) 혼합물, 또는 상보적 DNA(cDNA) 혼합물로부터 시험 징크핑거 도메인을 코딩하는 핵산을 증폭하는 단계를 더 포함하는 방법.Amplifying a nucleic acid encoding a test zinc finger domain from a genomic nucleic acid, messenger RNA (mRNA) mixture, or complementary DNA (cDNA) mixture, using oligonucleotide primers that lignate to sequences encoding the conserved boundaries of the domain. The method further comprises a step. 제21항에 있어서,The method of claim 21, (i) 서열 데이터베이스에서 후보 징크핑거 도메인의 아미노산 서열을 동정하는 단계;(i) identifying the amino acid sequence of the candidate zincfinger domain in the sequence database; (ii) 상기 후보 징크핑거 도메인의 아미노산을 코딩하는 후보 핵산을 제공하는 단계; 및(ii) providing a candidate nucleic acid encoding an amino acid of said candidate zinc finger domain; And (iii) 상기 후보 핵산을 이용하여 단계(b)의 다수의 하이브리드 핵산 내에 포함될 하이브리드 핵산을 구축하는 단계를 더 포함하는 방법.(iii) using the candidate nucleic acid to construct a hybrid nucleic acid to be included in the plurality of hybrid nucleic acids of step (b). (a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 리포터 구조물을 함유하는 제1 세포를 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;(a) providing a first cell containing a reporter construct comprising a reporter gene operably linked to a promoter, wherein the reporter gene has a predetermined level if the transcription factor recognizes both the recruitment site and the target site of the promoter Overexpressed or below a certain level but not if the transcription factor recognizes only the recruitment site of the promoter; (b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 단백질을 코딩하는 하이브리드 핵산을 함유하는 제2 세포를 제공하는 단계;providing a second cell comprising a hybrid nucleic acid encoding a protein comprising (b) a (i) transcriptional activation or repression domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain step; (c) 상기 제1 세포 및 제2 세포를 융합하여 융합된 세포를 형성하는 단계;(c) fusing the first cell and the second cell to form a fused cell; (d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 융합된 세포를 유지하는 단계; 및(d) maintaining the fused cell under conditions such that hybrid nucleic acid can be expressed in the cell; And (e) 융합 세포 내 리포터 유전자의 발현량의 변화를 검출하는 단계(이 때 소정 수준을 초과하는 리포터 유전자의 발현 또는 소정 수준 미만의 발현은 시험 징크 핑거 도메인이 표적 부위를 인식함을 나타냄)를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.(e) detecting a change in the amount of reporter gene expression in the fusion cell, wherein expression of the reporter gene above or below the predetermined level indicates that the test zinc finger domain recognizes the target site; Comprising a test zinc finger domain that recognizes a target site on a promoter. 제24항에 있어서, 상기 제1 및 제2 세포가 서로 상반되는 교배형의 효모 세포인 방법.The method of claim 24, wherein said first and second cells are hybrid yeast cells that are opposite to each other. (a) 프로모터에 작동가능하게 연결된 리포터 유전자를 포함하는 다수의 리포터 구조물을 제공하는 단계, 여기서 리포터 유전자는 전사인자가 프로모터의 소집 부위 및 표적 부위를 모두 인식하는 경우에는 소정 수준을 초과하여 발현되거나 소정 수준 미만으로 발현되지만 전사인자가 프로모터의 소집 부위만을 인식하는 경우에는 그러하지 아니함;(a) providing a plurality of reporter constructs comprising a reporter gene operably linked to a promoter, wherein the reporter gene is expressed above a predetermined level if the transcription factor recognizes both the recruitment site and the target site of the promoter Expressed below a predetermined level but not if the transcription factor recognizes only the recruitment site of the promoter; (b) (i) 전사 활성화 또는 억제 도메인, (ii) 소집 부위를 인식하는 DNA 결합 도메인, 및 (iii) 시험 징크 핑거 도메인을 포함하는 비천연적 단백질을 코딩하는 하이브리드 핵산을 함유하는 세포를 제공하는 단계;providing a cell containing a hybrid nucleic acid encoding a non-natural protein comprising (b) a (i) transcriptional activation or repression domain, (ii) a DNA binding domain that recognizes a recruitment site, and (iii) a test zinc finger domain step; (c) 다수의 리포터 구조물 중 하나 이상이 세포 내로 들어갈 수 있는 조건하에서 다수의 리포터 구조물을 세포와 접촉시키는 단계;(c) contacting the plurality of reporter constructs with the cell under conditions such that one or more of the plurality of reporter constructs can enter the cell; (d) 세포 내에서 하이브리드 핵산이 발현될 수 있게 하는 조건에서 상기 세포를 유지하는 단계; 및(d) maintaining the cell under conditions such that hybrid nucleic acid can be expressed in the cell; And (e) 세포가 상기 (a)의 리포터 유전자를 포함하고 세포 내 리포터 구조물이 시험 징크핑거 도메인에 의해 인식되는 표적 부위를 포함함을 나타내는 지표로서 리포터 유전자를 소정 수준을 초과하여 발현하거나 소정 수준 미만으로 발현하는 세포를 동정하는 단계를 포함하는, 시험 징크핑거 도메인이 프로모터 상의 표적 부위를 인식하는지 여부를 결정하는 방법.(e) the expression of a reporter gene above or below a predetermined level as an indicator that the cell comprises the reporter gene of (a) above and the reporter construct in the cell comprises a target site recognized by the test zinc finger domain A method for determining whether a test zinc finger domain recognizes a target site on a promoter, comprising identifying a cell that is expressing the gene. 제26항에 있어서, 상기 표적 결합 부위가 2 내지 6개의 뉴클레오티드 길이인 방법.27. The method of claim 26, wherein said target binding site is 2 to 6 nucleotides in length. 제27항에 있어서, 다수의 리포터 구조물이 그 표적 결합 부위의 둘 이상의 위치에 A, T, G, C의 모든 가능한 조합을 포함하는 방법.The method of claim 27, wherein the plurality of reporter constructs comprises all possible combinations of A, T, G, C at two or more positions of the target binding site. 제28항에 있어서, 다수의 리포터 구조물이 그 표적 결합 부위의 셋 이상의 위치에 A, T, G, C의 모든 가능한 조합을 포함하는 방법.The method of claim 28, wherein the plurality of reporter constructs comprises all possible combinations of A, T, G, C at three or more positions of the target binding site. 제26항에 있어서, 제2 시험 징크핑거 도메인에 대하여 제2 결합 부위를 동정하기 위하여 상기 단계(a) 내지 (e)를 반복하는 방법.The method of claim 26, wherein the steps (a) to (e) are repeated to identify a second binding site for the second test zinc finger domain. 제30항에 있어서, 제1 및 제2 시험 징크핑거 도메인을 포함하는 폴리펩티드를 코딩하는 핵산을 구축하는 단계를 더 포함하는 방법.The method of claim 30, further comprising constructing a nucleic acid encoding a polypeptide comprising a first and second test zinc finger domains. 제1 시험 징크핑거 도메인을 동정하기 위하여 청구항 제1항의 방법을 수행하고, 제1 시험 징크핑거 도메인이 인식하는 표적 부위와 상이한 표적 서열을 인식하는 제2 시험 징크핑거 도메인을 동정하기 위하여 청구항 제1항의 방법을 재수행하는 것을 포함하는 다수의 징크핑거 도메인의 동정 방법.The method of claim 1 to identify a first test zinc finger domain, and the first test zinc finger domain to identify a second test zinc finger domain that recognizes a different target sequence than the target site recognized by the first test zinc finger domain. A method of identifying multiple zinc finger domains, including re-implementing the method of protest. 제32항의 방법을 수행하고, 제1 및 제2 시험 징크핑거 도메인을 함유하는 폴리펩티드를 코딩하는 핵산을 구축하는 것을 포함하는, 키메라 징크핑거 단백질을 코딩하는 핵산을 제조하는 방법.33. A method of making a nucleic acid encoding a chimeric zinc finger protein, comprising performing the method of claim 32 and constructing a nucleic acid encoding a polypeptide containing the first and second test zinc finger domains. 제1 시험 징크핑거 도메인에 의해 인식되는 제1 표적 서열을 동정하기 위하여 청구항 제24항의 방법을 수행하고,Performing the method of claim 24 to identify a first target sequence recognized by the first test zinc finger domain, 제2 시험 징크핑거 도메인에 의해 인식되는 제2 표적 서열을 동정하기 위하여 청구항 제24항의 방법을 재수행하는 것을 포함하는, 징크핑거 도메인들에 의해 인식되는 DNA 서열들을 동정하는 방법.A method of identifying DNA sequences recognized by zinc finger domains, comprising re-implementing the method of claim 24 to identify a second target sequence recognized by a second test zinc finger domain. 제34항의 방법을 수행하고, 제1 및 제2 시험 징크핑거 도메인을 함유하는 폴리펩티드를 코딩하는 핵산을 구축하는 것을 포함하는, 키메라 징크핑거 단백질을 코딩하는 핵산의 제조방법.The method of preparing a nucleic acid encoding a chimeric zinc finger protein, comprising performing the method of claim 34 and constructing a nucleic acid encoding a polypeptide containing the first and second test zinc finger domains. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Cys-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:68) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Cys-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 68), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제36항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 36. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-His-X-Ser-Asn-Xb-X-Lys-His-X3-5-His (SEQ ID NO:69) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-His-X-Ser-Asn-X b -X-Lys-His-X 3-5 -His (SEQ ID NO: 69), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제38항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 38. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Ser-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:70) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Ser-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 70), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제40항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 40. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Thr-Xb-X-Val-His-X3-5-His (SEQ ID NO:71) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Thr-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 71), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제42항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 42. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Val-X-Ser-Xc-Xb-X-Arg-His-X3-5-His (SEQ ID NO:72) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기이며, Xc는 세린 또는 트레오닌)를 함유하는 정제된 폴리펩티드.Amino acid sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Val-X-Ser-X c -X b -X-Arg-His-X 3-5 -His ( SEQ ID NO: 72) wherein X a is phenylalanine or tyrosine, X b is a hydrophobic residue, and X c is serine or threonine. 제44항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 44. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:73) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 73), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제46항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 46. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Val-His-X3-5-His (SEQ ID NO:74) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 74), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제48항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 48. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Xc-Xb-X-Arg-His-X3-5-His (SEQ ID NO:75) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino acid sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-X c -X b -X-Arg-His-X 3-5 -His ( A purified polypeptide containing SEQ ID NO: 75), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제50항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 50. 서열 SEQ ID NO:65(RSHR 서열)과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 65 (RSHR sequence). 제52항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 52. 서열 SEQ ID NOs:29, 127, 129, 131, 133 및 135로 이루어진 군에서 선택된 아미노산 서열과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with an amino acid sequence selected from the group consisting of SEQ ID NOs: 29, 127, 129, 131, 133, and 135. 제54항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 54. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ala-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:150) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ala-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 150), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제56항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 56. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Phe-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:151) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Phe-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 151), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제58항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 58. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Thr-His-X3-5-His (SEQ ID NO:152) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Thr-His-X 3-5 -His (SEQ ID NO: 152), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제60항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 60. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-His-Xb-X-Val-His-X3-5-His (SEQ ID NO:153) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-His-X b -X-Val-His-X 3-5 -His (SEQ ID NO: 153), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제62항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 62. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Ile-His-X3-5-His (SEQ ID NO:154) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Ile-His-X 3-5 -His (SEQ ID NO: 154), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제64항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 64. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:155) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 155), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제66항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 66. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Gln-His-X3-5-His (SEQ ID NO:156) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Thr-His-X b -X-Gln-His-X 3-5 -His (SEQ ID NO: 156), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제68항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 68. 아미노산 서열, Cys-X2-5-Cys-X3-Xa-X-Gln-X-Thr-His-Xb-X-Arg-His-X3-5-His (SEQ ID NO:157) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, Cys-X 2-5 -Cys-X 3 -X a -X-Gln-X-Thr-His-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 157) A purified polypeptide containing wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제70항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 70. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Asp-Lys-Xb-X-Ile-His-X3-5-His (SEQ ID NO:158) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Asp-Lys-X b -X-Ile-His-X 3-5 -His (SEQ ID NO: 158), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제72항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 72. 아미노산 서열, Xa-X-Cys-X2-5-Cys-X3-Xa-X-Arg-X-Ser-Asn-Xb-X-Arg-His-X3-5-His (SEQ ID NO:159) (여기서 Xa는 페닐알라닌 또는 티로신이고, Xb는 소수성 잔기)를 함유하는 정제된 폴리펩티드.Amino Acid Sequence, X a -X-Cys-X 2-5 -Cys-X 3 -X a -X-Arg-X-Ser-Asn-X b -X-Arg-His-X 3-5 -His (SEQ ID NO: 159), wherein X a is phenylalanine or tyrosine and X b is a hydrophobic residue. 제74항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 74. 서열 SEQ ID NO:107과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 107. 제76항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 76. 서열 SEQ ID NO:137과 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 137. 제78항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 78. 서열 SEQ ID NO:145와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 145. 제80항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding a polypeptide of claim 80. 서열 SEQ ID NO:149와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 149. 제82항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 82. 서열 SEQ ID NO:141와 60% 상동성을 갖는 아미노산 서열을 함유하는 정제된 폴리펩티드.A purified polypeptide containing an amino acid sequence having 60% homology with the sequence SEQ ID NO: 141. 제84항의 폴리펩티드를 코딩하는 서열을 함유하는 핵산.A nucleic acid containing a sequence encoding the polypeptide of claim 84.
KR10-2001-0008021A 2000-02-18 2001-02-17 Zinc Finger Domains and Method of Identifying Same KR100436869B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0008021A KR100436869B1 (en) 2000-02-18 2001-02-17 Zinc Finger Domains and Method of Identifying Same

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20000007730 2000-02-18
KR1020000007730 2000-02-18
KR10-2001-0008021A KR100436869B1 (en) 2000-02-18 2001-02-17 Zinc Finger Domains and Method of Identifying Same

Publications (2)

Publication Number Publication Date
KR20010084880A KR20010084880A (en) 2001-09-06
KR100436869B1 true KR100436869B1 (en) 2004-06-23

Family

ID=26637161

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0008021A KR100436869B1 (en) 2000-02-18 2001-02-17 Zinc Finger Domains and Method of Identifying Same

Country Status (1)

Country Link
KR (1) KR100436869B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496124B1 (en) * 2001-12-24 2005-06-20 주식회사 툴젠 Vector containing multiple domains and method for cloning a protein by using same

Also Published As

Publication number Publication date
KR20010084880A (en) 2001-09-06

Similar Documents

Publication Publication Date Title
JP4156840B2 (en) Zinc finger domain and identification method thereof
Lehner et al. Analysis of a high-throughput yeast two-hybrid system and its use to predict the function of intracellular proteins encoded within the human MHC class III region
US20090176653A1 (en) Zinc finger domain libraries
Ge et al. Purification, cloning, and characterization of a human coactivator, PC4, that mediates transcriptional activation of class II genes
US5885779A (en) Repressed trans-activator system for characterization of protein-protein interactions
WO1996032475A2 (en) Methods for preparing dna-binding proteins
Raho et al. The gas 5 gene shows four alternative splicing patterns without coding for a protein
AU2002324352A1 (en) Zinc finger domain libraries
KR100766952B1 (en) Regulatory zinc finger proteins
AU2003215094A1 (en) Zinc finger libraries
KR100436869B1 (en) Zinc Finger Domains and Method of Identifying Same
Schuermann The Fos family: gene and protein structure, homologies, and differences
US20070042378A1 (en) Regulation of prokaryotic gene expression with zinc finger proteins
US20040259258A1 (en) Regulation of prokaryotic gene expression with zinc finger proteins
Yamashita et al. A comprehensive collection of mouse zinc finger motifs compiled by molecular indexing
JP2000226400A (en) Protein having apoptosis controlling ability, its gene and use thereof
WO2004022575A2 (en) Bioinformatics analysis of cellular effects of artificial transcription factors
Sullivan Regulation of gene expression programs by serum response factor and megakaryoblastic leukemia 1/2 in macrophages
WO2003082917A1 (en) Novel polypeptide and nucleic acid encoding the same

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130607

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140607

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150603

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160607

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20170609

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20180528

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20190610

Year of fee payment: 16