SK19242000A3 - Izolovaná molekula nukleovej kyseliny kódujúca polypeptid zúčastňujúci sa biosyntézy epotilónov, chimérický gén, rekombinantný vektor a rekombinantná hostiteľská bunka obsahujúce túto nukleovú kyselinu, spôsob prípravy epotilónu a izolovaný polypeptid obsahujúci epotilónsyntázovú doménu - Google Patents

Izolovaná molekula nukleovej kyseliny kódujúca polypeptid zúčastňujúci sa biosyntézy epotilónov, chimérický gén, rekombinantný vektor a rekombinantná hostiteľská bunka obsahujúce túto nukleovú kyselinu, spôsob prípravy epotilónu a izolovaný polypeptid obsahujúci epotilónsyntázovú doménu Download PDF

Info

Publication number
SK19242000A3
SK19242000A3 SK1924-2000A SK19242000A SK19242000A3 SK 19242000 A3 SK19242000 A3 SK 19242000A3 SK 19242000 A SK19242000 A SK 19242000A SK 19242000 A3 SK19242000 A3 SK 19242000A3
Authority
SK
Slovakia
Prior art keywords
seq
nucleotides
amino acids
nucleic acid
amino
Prior art date
Application number
SK1924-2000A
Other languages
English (en)
Inventor
Thomas Schupp
James Madison Ligon
Istvan Molnar
Ross Zirkle
J�Rn G�Rlach
Devon Cyr
Original Assignee
Novartis Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Novartis Ag filed Critical Novartis Ag
Publication of SK19242000A3 publication Critical patent/SK19242000A3/sk

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P17/00Preparation of heterocyclic carbon compounds with only O, N, S, Se or Te as ring hetero atoms
    • C12P17/18Preparation of heterocyclic carbon compounds with only O, N, S, Se or Te as ring hetero atoms containing at least two hetero rings condensed among themselves or condensed with a common carbocyclic ring system, e.g. rifamycin
    • C12P17/181Heterocyclic compounds containing oxygen atoms as the only ring heteroatoms in the condensed system, e.g. Salinomycin, Septamycin
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • A61P35/04Antineoplastic agents specific for metastasis
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Oncology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)

Description

Oblasť techniky
Predložený vynález sa všeobecne týka polyketidov a génov na ich syntézu. Vynález sa týka najmä izolácie a charakterizácie génu novej polyketidsyntázy a neribozómovej peptidsyntetázy so Sorangium cellulosum, ktoré sú nevyhnutné v biosyntéze epothilonov A a B.
Doterajší stav techniky
Polyketidy sú zlúčeniny syntetizované zo stavebných blokov obsahujúcich dva atómy uhlíka, z ktorých β-uhlík vždy nesie ketoskupinu, preto je názov polyketidy. K týmto zlúčeninám patria početné dôležité antibiotiká, imunosupresíva, protirakovinové chemoterapeutiká a celý rad látok vykazujúcich najrôznejšie biologické vlastnosti. Mimoriadna štruktúrna diverzita týchto látok je spôsobená rôznou dĺžkou polyketidového reťazca, rôznymi vnesenými vedľajšími postrannými reťazcami (či už ako súčasť stavebných blokov s dvoma uhlíkmi alebo po vytvorení polyketidovej kostry) a stereochémiou takýchto skupín. Ketoskupiny sa môžu redukovať na hydroxylové alebo enoylové skupiny a alebo celkom odstrániť. Každý ďalší cyklus adície bloku s dvoma atómami uhlíka je uskutočnený enzýmovým komplexom nazývaným polyketidsyntáza (PKS), a síce spôsobom, ktorý je podobný biosyntéze mastných kyselín.
Gény zúčastňujúce sa biosyntézy pre rastúci počet polyketidov sa izolovali a sekvenovali. Pozri napríklad patenty USA č.
639 949, 5 693 774 a 5 716 849, ktoré sú vložené formou odka···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · · ·· ···· ·· ··· zu, ktoré opisujú gény pre biosyntézu soraphenu. Pozri tiež publikáciu Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1998) a Medzinárodnú patentovú prihlášku WO 98/07868, ktoré opisujú gény pre biosyntézu rifamycinu, a prihlášku USA č.
876 991 opisujúcu gény pre biosyntézu tylactonu, všetky tieto dokumenty sú formou odkazu súčasťou predloženého opisu vynálezu. Proteíny kódované týmito génmi všeobecne patria do dvoch skupín: typ I a typ II. Proteíny typu I sú polyfunkčné proteíny s niekoľkými katalytickými doménami uskutočňujúcimi rôzne enzymatické kroky pri vzájomnej kovalentnej väzbe (napr. PKS pre erytromycin, soraphen, rifamycín a avermectin (pozri MacNeil a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed. : Baltz a kol.), Američan Society for Microbiology, Washington D.C. pp. 245-256 (1993)), zatiaľ čo proteíny typu II sú monofunkčné (Hutchinson a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz a kol.), Američan Society for Microbiology, Washington D.C. pp. 203-216 (1993)) .
Pre jednoduchšie polyketidy ako je napríklad actinorhodin (produkovaný Streptomyces coelicolor) je uskutočňované opakovane niekolko krokov adíciou dvojuhlíkového bloku enzýmom PKS, ktorý je kódovaný jedným súborom PKS génov. Oproti tomu syntéza zložitejších zlúčenín ako je napríklad erytromycín a soraphen, vyžaduje enzým PKS, ktorý je organizovaný do modulov, pričom každý modul uskutočňuje jeden cyklus adície dvoj uhlíkového bloku (prehľad pozri Hopwood a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz a kol.) Američan Society for Microbiology, Washington D.C., pp. 267-275 (1993)) .
KompLexné polyketidy a sekundárne metabolity všeobecne môžu obsahovať čiastkové štruktúry, ktoré sú odvodené z aminokyselín namiesto jednoduchých karboxylových kyselín. Inkorporácia týchto stavebných blokov je zabezpečená neribozómovými (to znamená inými ako ribozómovými) polypeptidsyntetázami (NRPS). NRPS
9999 ·· ·· ·· ·· · · · · · ·· • ··· · · · f · • · · · · · ·« «··· 99 patria k multienzýmom, ktoré sú organizované v moduloch. Každý modul je zodpovedný za adíciu (a ďalšie spracovanie, ak je potrebné) jedného aminokyselinového stavebného bloku. NRPS aktivujú aminokyseliny tým, že vytvárajú aminoacyladenyláty a zachytávajú aktivované aminokyseliny na tiolovej skupine fosfopanteteinylovej prostetickej skupiny na peptidylovej doméne nosičového proteínu. epimerizáciou, potrebné, aminokyselinami biosyntézu cyklosporín, reťazca ako
Ďalej NRPS N-metyláciou alebo a katalyzujú vytvorenie naviazanými na peptidových môžu poskytnúť terminačnú to pri rapamycíne alebo pri biosyntéze yersiniabactinu.
modifikujú cyklizáciou, peptidových enzým.
sekundárnych
NRPS sú s PKS ako je je to aminokyseliny ak je to väzieb medzi zodpovedné za metabolitov ako je jednotku polyketidového vytvára zmiešané systémy
Epothilony A a B sú 16-členné makrocyklické polyketidy s počiatočnou jednotkou odvodenou z acylcysteínu, ktoré sa tvoria v Sorangium cellulosum kmeňa Soce90 (Gerth a kol., J. Antibiotics 49: 560-563 (1996)). Štruktúra epothilonu A a B, keď R znamená atóm vodíka (epothilon A) alebo metylovú skupinu (epothilon B), je vyjadrená nasledujúcim vzorcom:
Epothilony majú úzke spektrum protihubového účinku a vykazujú najmä vysokú toxicitu v kultúrach živočíšnych buniek (pozri Hofle a kol., Patent DE 4138042 (1993), vložený formou odkazu). Významné je tiež to, že epothilony napodobňujú biologické účinky taxolu, ako in vivo tak aj v kultivovaných bunkách (Bollag a kol., Cancer Research 55: 2325-2333 (1995), vložené formou odkazu) . Taxol a taxoter, ktoré stabilizujú bunkové mikrotubuly, sú protirakovinové chemoterapeutické činidlá s významným účinkom ···· ·· ·· ·· • ···· · · · ··· · · · · · » Μ · · · · • · ···· ·· ··· proti rôznym tuhým nádorom u ľudí (Rowinsky a kol., J. Natl. Cancer Inst. 83: 1778-1781 (1991)). Kompetičné štúdie ukázali, že epothilony pôsobia ako kompetitivne inhibítory väzby taxolu na mikrotubuly, čo je v súlade s vysvetlením, že zdieľajú zhodné väzbové miesto k mikrotubule a majú podobnú afinitu k mikrotubulom ako taxol. Avšak epothilony majú významnú výhodu oproti taxolu, a síce epothilony vykazujú v porovnaní s taxolom oveľa menši pokles v účinku proti bunkovým líniám s multiliekovou rezistenciou (MDR) (Bollag a kol. (1995)). Okrem toho epothilony sú so značne menšou účinnosťou exportované z buniek prostredníctvom P-glykoproteinov ako taxol (Gerth a kol. (1996)). Naviac sa syntetizovalo niekoľko analógov epothilonu, ktoré majú vyššiu cytotoxickú aktivitu ako epothilon A alebo epothilon B, ako to dokazuje ich zvýšená schopnosť indukovať polymerizáciu a stabilizáciu mikrotubulov (pozri medzinárodná patentová prihláška WO 98/25929, vložená formou odkazu).
Napriek sľubnému použitiu epothilonov ako protirakovinových agens, pretrvávajúce problémy výroby týchto zlúčenín obmedzujú silne ich potenciálne komerčné využitie. Zlúčeniny sú veľmi zložité na to, aby sa mohli vyrábať chemickou syntézou v priemyselnom meradle a musia sa teda vyrábať fermentáciou. Spôsoby genetickej manipulácie myxobaktérií ako je napríklad Sorangium cellulosura sú opísané v patente USA 5 686 295, ktorý je vložený formou odkazu. Avšak Sorangium cellulosum je známe tým, že ho je možné veľmi ťažko fermentovať a produkčné hladiny epothilonov sú tak veľmi nízke. Tento problém by však mohla vyriešiť rekombinantná produkcia epothilonov v heterológnom hostiteľovi, ktorý by bol vhodnejší na fermentáciu. Avšak gény, ktoré kódujú polypeptidy, zodpovedné za biosyntézu epothilonov sa doteraz neizolovali. Okrem toho aj kmeň, ktorý produkuje epothilony, to znamená So ce90, produkuje tiež aspoň jeden polyketid, sporangien, ktorý značne komplikuje izoláciu, zvlášť zodpovedných za biosyntézu epothilonov.
Vzhľadom na už uvedené skutočnosti, cieľom predloženého ···« ···
• e «· • · · • · • · · ·· ···· vynálezu je izolovať gény, ktoré sa zúčastňujú biosyntézy epothilonov, najmä gény zúčastňujúce sa syntézy epothilonu A a B v myxobaktériách skupiny Sorangium/Polyangium, to znamená kmeň So ce90 Sorangium cellulosum.
Ďalším predmetom predloženého vynálezu je spôsob rekombinantnej produkcie epothilonov na použitie ako farmaceutické prípravky proti rakovine.
Podstata vynálezu
Predložený vynález prekvapujúco prekonáva skôr uvedené problémy tým, že poskytuje prvý raz molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu. Vo výhodnom uskutočnení vynálezu je nukleová kyselina izolovaná z druhu patriaceho k rodu Myxobacteria, najvýhodnejšie ide o Sorangium cellulosum.
V ďalšom výhodnom uskutočnení predkladaný vynález poskytuje izolovanú molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu, pričom polypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny: SEQ ID NO: 2, aminokyseliny 11437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, amino kyseliny 815-821 sekvencie SEQ ID NO:3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID ···· ·· ·· • ···· ··· ··· · · · · · · · · · · ··· ·· ···· ·· ·
NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, amino kyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 9731256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie
SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie
NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4,
SEQ ID amino1439kyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny
1684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie
SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ
ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie
SEQ ID NO: 5, aminokyseliny 14341506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie
SEQ ID NO: 5, aminokyseliny
2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ
ID NO: 5, aminokyseliny
2932-3005 sekvencie
SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO:
5, aminokyseliny 3555-3876 sekvencie SEQ ID
NO: 5, aminokyseliny
3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie
SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie
SEQ ID NO: 5, aminokyseliny
5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ
ID NO: 5, aminokyseliny
5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie
SEQ ID
NO: 5, aminokyseliny 7140-7211 sekvencie
SEQ ID NO: 5,
SEQ ID
NO: 6, aminokyseliny 35-454 sekvencie
SEQ ID NO: 6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID
NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie
SEQ ID NO: 6, aminokyseliny 23832551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie
SEQ ID NO: 6,
3392-3636 sekvencie SEQ aminokyseliny aminokyseliny
3673-3745 sekvencie SEQ ID
NO: 6, SEQ
ID NO: 6,
ID NO: 7, aminokyseliny
32-450 sekvencie SEQ ID NO:
7, aminokyseliny 556877 sekvencie
SEQ ID NO: 7, aminokyseliny
887-1051 sekvencie SEQ
ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, amino kyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093Ί
2164 sekvencie SEQ ID NO: 7, aminokyseliny
SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, ···· ···· • · ·· · ··· ··
99999 ·· • · • · · ···· ·· ·
2165-2439 sekvencie
SEQ ID NO:
a SEQ
ID NO: 22.
Vo výhodnejšom uskutočnení poskytuje molekulu izolovanej nukleovej sekvenciu, ktorá kóduje aspoň predkladaný vynález kyseliny obsahujúcu nukleotidovú jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom polypeptid obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID
NO: 2, amino kyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ
NO: 2, SEQ ID
ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID
NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny
118-125 sekvencie SEQ ID NO:
3, aminokyseliny 199212 sekvencie
SEQ ID NO: 3, aminokyseliny
353-363 sekvencie SEQ
ID NO: 3, aminokyseliny 549-565 sekvencie
SEQ ID NO: 3, aminokyseliny aminokyseliny
669-684 sekvencie
SEQ ID NO: 3, aminokyseliny 815-821 sekvencie
SEQ ID
NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny
918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie
SEQ ID
NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3, aminokyseliny 13441351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID
NO: 4, aminokyseliny 869-1037 sekvencie
SEQ ID NO: 4, aminokyseliny 1439-1684 sekvencie SEQ ID NO:
4, aminokyseliny 17221792 sekvencie SEQ ID
NO: 4, SEQ ID NO:
5, aminokyseliny
39-457 sekvencie SEQ ID NO:
5, aminokyseliny 563-884 sekvencie
SEQ ID
NO: 5, aminokyseliny
1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434-1506 sekvencie
SEQ ID NO: 5, aminokyseliny 15241950 sekvencie SEQ ID NO: 5,
SEQ ID NO: 5, aminokyseliny aminokyseliny 2932-3005 sekvencie SEQ aminokyseliny 2056-2377 sekvencie sekvencie SEQ ID NO: 5,
2645-2895
ID NO: 5, aminokyseliny
3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 ·· sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 50105082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, amino kyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 14301503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO: 7, amino kyseliny 556-877 sekvencie SEQ ID NO:7, amino kyseliny 887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 14781790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.
Vo výhodnejšom uskutočnení poskytuje predkladaný vynález molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom nukleotidové sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy ··«« ·· ·· ·· • ···· · · · ·· · · · · · • · · · · · «· ···· ·· ···
11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO:1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID ···· ·· ·· ·· • ···· · · * ··· · · · · · • · · · · · • · ···· · · · · ·
NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.
Vo zvlášť výhodnom uskutočnení poskytuje predkladaný vynález molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 ···· ·· ·· ·· • · · · · · · · ··· · · · · J • * · · · · ··· ·· ···· ·· · sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy ···· ···
61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.
V ešte ďalšom výhodnom poskytuje izolovanú molekulu nukleotidovú sekvenciu, ktorá uskutočnení nukleovej kóduje zúčastňujúci sekvencia (výhodne sekvenčne alebo predkladaný vynález kyseliny obsahujúcu aspoň jeden polypeptid sa biosyntézy epothilonov, pričom obsahuje úsek veľkosti 20, 25, 30, 35, 40, 20) bázových párov po sebe idúcich identický so zodpovedajúcim úsekom 20, 25, (výhodne sekvencie nukleotidová alebo 50 nukleotidov sekvenciu
20) po sebe vybranej zo k nukleotidom
30, 35, 40, idúcich bázových párov skupiny obsahujúcej: 1900-3171 sekvencie SEQ
3415-5556 sekvencie SEQ ID NO: 1, nukleotidovej kômp1ement á rnu ID NO: 1, nukleotidy nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 76438920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie
SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056513 ·· · ···· ·«· • ·
21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.
• · · ·· ···· ·· • 9 · • · • e ··
Predkladaný vynález ďalej poskytuje chimérický gén, ktorý obsahuje sekvenciu heterológneho promótora, operatívne spojenú s molekulou nukleovej kyseliny podľa vynálezu. Ďalej vynález poskytuje rekombinantný vektor, ktorý obsahuje chimérický gén, pričom vektor je schopný byť trvalo transformovaný do hostiteľskej bunky. A ešte ďalej vynález poskytuje rekombinantné hostiteľské bunky, ktoré obsahujú chimérický gén, pričom hostiteľská bunka je schopná exprimovať nukleotidovú sekvenciu kódujúcu aspoň jeden polypeptid nevyhnutný pre biosyntézu epothilonov. Vo výhodnom uskutočnení je rekombinantnou hostiteľskou bunkou baktéria, patriaca do radu Actinomycetales, vo výhodnejšom uskutočnení sú hostiteľské bunky kmeň Streptomyces. V inom uskutočnení vynálezu je hostiteľskou bunkou akákoľvek baktéria schopná fermentácie, ako je Pseudomonas alebo E. coli. Ďalej predložený vynález poskytuje Bac kloň, ktorý obsahuje molekulu nukleovej kyseliny podľa vynálezu, najmä Bac kloň pEP015.
Ďalší aspekt predkladaného vynálezu poskytuje molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje doménu epothilonsyntázy.
V jednom uskutočnení vynálezu je epothilonsyntázovou doménou β-ketoacylsyntázová (KS) doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7. Podía tohto uskutočnenia vynálezu je tiež výhodná nukleotidové sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, amino99
9 9 ·
···· ·· ·· • · · · ·
999 9 9 ·
9 9 9
9999
999 kyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 30243449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
Podlá tohto uskutočnenia vynálezu je tiež výhodná nukleotidová sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek po sebe nasledujúcich nukleotidov veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupir.y obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
Naviac podľa tohto uskutočnenia vynálezu je nukleotidová sekvencia najvýhodnejšie vybraná zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie ·· • · · • · • ···· ·· ·· ·· · · · · · • ··· · · · • · · · ·· ···· • · · ·· · · *
SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 543864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 35553876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
V tomto uskutočnení vynálezu AT doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, amino kyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
Taktiež, v tomto uskutočnení vynálezu je výhodná nukleotidová sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy • ··· ·· ·· ·· ·· · ···· ··· • ··· · · · · · • · · · · · ·· ···· ·· ·
49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
Naviac, podľa tohto uskutočnenia je najvýhodnejšie nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
Podľa ešte ďalšieho uskutočnenia predkladaného epothilonsyntázová doména je enoylreduktázová (ER) vynálezu doména obsahujúca aminokyselinovú aminokyselinovou sekvenciou aminokyseliny 974-1273 sekvencie SEQ 4433-4719 sekvenciu vybranou zo
ID podstate skupiny NO: 2, sekvencie sekvencie SEQ ID NO: 5,
SEQ ID NO: 5 a aminokyseliny podobnú s obsahujúcej: aminokyseliny aminokyseliny 6542-6837 1478-1790 sekvencie SEQ
ID NO: 7.
Podľa tohto uskutočnenia vynálezu výhodne ER doména obsahuje
• ···· ·· ·· ··
·· · • · · · • ·
• ··· • · ·
• · • · ·
··· ··· ·· ···· ·· ·
aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 44334719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.
Taktiež, podlá tohto uskutočnenia vynálezu je nukleotidová sekvencia v podstate podobná sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidv 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
Podlá tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
Ďalej je v tomto uskutočnení nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je doména proteínového nosiča acylovej skupiny (ACP) obsahujúcej aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, amino19 • ···· ·· ·· ·· · ··· ···· ···· • ··· · · · · · · • ···· · · · · · • ···· · · · ··· ··· ·· ···· ·· ··· kyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 36733745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
Podlá tohto uskutočnenia ACP doména obsahuje výhodne aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
Taktiež podlá tohto uskutočnenia je nukleotidové sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 4781148032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.
Podlá tohto uskutočnenia vynálezu nukleotidové sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1154911764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy • ···· ·· ·· ·· · ··· ···· · · ·· • ··· · · · 9 · · • · · · · · · · · · • ···· · · · ··· ··· ·· ···· ·· ··♦
61211-61426 sekvencie SEQ ID NO: 1.
Naviac, v tomto uskutočnení je najvýhodnejšia nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.
Podlá iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je dehydratázová (DH) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: amino kyseliny 8691037 sekvencie SEQ ID NO:4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny
887-1051 sekvencie SEQ ID NO: 7.
Podľa tohto uskutočnenia DH doména výhodne obsahuje
aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: amino-
kyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-
4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.
Taktiež, podľa tohto uskutočnenia vynálezu nukleotidová sekvencia je výhodne v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia
···· ·· ·· ·· ·
• · • · • · • · • ·
··· • · • ·
• · · • · • ·
• · • ·
·· ···· ·· ···
výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1885519361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
Naviac, podľa tohto uskutočnenia je najvýhodnejšia nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 3340133889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
Podľa ešte iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je β-ketoreduktázová (KR) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
Podľa tohto uskutočnenia KR doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 11471399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ • ··· ·· ·· ·· ··· ···· ··· • ··· · · · · · * 9 9 9 9 9 9 9 9
9 9 9 9 9 9
ID NO: 7.
Taktiež, podľa tohto uskutočnenia výhodná nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35,
40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvencčne identický s neprerušeným úsekom 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 4231443048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
Naviac, v tomto uskutočnení nukleotidová sekvencia je najvýhodnejšie vybraná zo skupiny obsahujúcej: nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 4231443048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je metyltransferázová (MT) doména obsahujúca sekvenciu aminokyselín 2671-3045 SEQ ID NO: 6. V tomto • ···· ·· ·· ·· · ··· ···· · · ·· • ·· 9 9 · · ·· • ···· · · · · · • · e · · · ·· ··· ··· ·· ···· ··999 uskutočnení MT doména výhodne obsahuje aminokyseliny 2671-3045 SEQ ID NO: 6. Podľa tohto uskutočnenia je výhodná nukleotidová sekvencia v podstate podobná nukleotidom 51534-52657 SEQ ID NO: 1. Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) párov báz z nukleotidovej sekvencie 51534-52657 SEQ ID NO: 1. Naviac podľa tohto uskutočnenia je nukleotidová sekvencia najvýhodnejšie sekvencia nukleotidov 51534-52657 SEQ ID NO: 1.
Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je tioesterázová (TE) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7. Podľa tohto uskutočnenia TE doména výhodne obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7. Taktiež podľa tohto uskutočnenia je výhodne nukleotidová sekvencia v podstate podobná nukleotidom 61427-62254 sekvencie SEQ ID NO: 1. Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidov 61427-62254 sekvencie SEQ ID NO: 1. Naviac, podľa tohto uskutočnenia vynálezu nukleotidová sekvencia najvýhodnejšie obsahuje nukleotidy 61427-62254 of SEQ ID NO: 1.
Ďalší aspekt predkladaného vynálezu poskytuje izolovanú molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje neribozómovú peptidsyntetázu, pričom táto neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO:3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 35324
• ···· ·· ·· ·» ·
·· · • · • · • · ··
• ··· • ·
• · · • · • · • ·
• · • ·
··· ··· ·· ···· ·· ···
363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.
Podľa tohto uskutočnenia vynálezu neribozómová peptidsyntetáza výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO:3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO:3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.
Tiež podľa tohto uskutočnenia vynálezu výhodná nukleotidovú sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 ···· ·· ·· ·· • ···· · ♦ · ··· · · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· * sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
Podľa tohto uskutočnenia vynálezu nukleotidové sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35,
40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30,
35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
Naviac, podľa tohto uskutočnenia najvýhodnejšia je nukleotidové sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · · ·· ···· ·· ···
15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
Predkladaný vynález ďalej poskytuje molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje polypeptid obsahujúci aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej SEQ ID NO: 2 až 23.
Ďalší aspekt predloženého vynálezu poskytuje spôsob rekombinantnej produkcie polyketidov ako sú epothilony v množstve, ktoré je dostatočné na to, aby bola možná ich purifikácia a ich použitie vo farmaceutických prípravkoch, napríklad na liečenie rakoviny. Špecifickou výhodou spôsobu podľa vynálezu je chiralita produkovaných molekúl, lebo produkcia v transgénnom organizme bráni tvorbe racemickej zmesi, kde niektorý enantiomér môže mať nižšiu aktivitu. Predložený vynález poskytuje najmä spôsob heterológnej expresie epothilonu v rekombinantnom hostiteľovi, a tento spôsob obsahuje kroky: a) do hostiteľa sa vnesie chimérický gén, ktorý obsahuje sekvenciu heterológneho promótora operatívne spojenú s molekulou nukleovej kyseliny podľa vynálezu obsahujúcu nukleotidovú sekvenciu kódujúcu aspoň jeden polypeptid, a b) hostiteľ sa pestuje v podmienkach, ktoré umožňujú biosyntézu epothilonu v hostiteľovi. Vynález poskytuje tiež spôsob prípravy epothilonu, ktorý obsahuje kroky, keď sa: a) exprimuje epothilon v rekombinantnom hostiteľovi, predtým uvedeným spôsobom, a b) epothilon extrahuje z rekombinantného hostiteľa.
Ďalší aspekt predloženého vynálezu poskytuje izolovaný polypeptid obsahujúci aminokyselinovú sekvenciu, ktorá predstavuje epothilonsyntázovú doménu.
Podľa jedného uskutočnenia doména je β-ketoacylsyntázová aminokyselinovú sekvencií vybranej sekvencie SEQ ID vynálezu epothilonsyntázová (KS) doména obsahujúca sekvenciu v podstate podobnú aminokyselinovej zo skupiny obsahujúcej: aminokyseliny 11-437
NO: 2, aminokyseliny 7-432 sekvencie SEQ ID ··
NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 30243449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32450 sekvencie SEQ ID NO: 7.
V tomto uskutočnení KS doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 51035525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahujúca aminokysleinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
V tomto uskutočnení AT doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ···· ·· ·· ·· • · · · · · · ··· · · · · J • * · · · · · ··· ·· ···· ··
ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a ami nokyseliny 556-877 sekvencie SEQ ID NO: 7.
V ešte ďalšom uskutočnení vynálezu epothilonsyntázová doména je enoylreduktázová (ER) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.
Podlá tohto uskutočnenia ER doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 44334719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.
V ďalšom uskutočnení vynálezu epothilonsyntázová doména je doména proteínu prenášajúca acylovú skupinu (ACP), kde polypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
V tomto uskutočnení ACP doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 ···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · ··· ·· ···· ·· · sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
Podía ďalšieho uskutočnenia predkladaného vynálezu epothilonsyntázová doména je dehydratázová doména (DH) obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinou sekvenciou v podstate podobnou aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 8691037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny
887-1051 sekvencie SEQ ID NO: 7.
Podía tohto uskutočnenia DH doména výhodne obsahuje
aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: amino-
kyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-
4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.
V ešte ďalšom uskutočnení epothilonsyntázová doména je βketoredukázová (KR) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej:
aminokyseliny 1439-1684 sekvencie SEQ ID
NO: 4, aminokyseliny
1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
Podlá tohto uskutočnenia KR doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 11471399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, ···· β· ·· ·· • ···· · · · ··· · · · · · • · · · · · ·· · · ·· · · · · · aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
Podľa ďalšieho uskutočnenia predloženého vynálezu epothilonsyntázová doména je metyltransferázová (MT) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú sekvencií aminokyselín 2671-3045 SEQ ID NO: 6. Podľa tohto uskutočnenia MT doména výhodne obsahuje aminokyseliny 2671-3045 SEQ ID NO: 6.
Podľa ďalšieho uskutočnenia predloženého vynálezu epothilonsyntázová doména je tioesterázová (TE) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú sekvencií aminokyselín 2165-2439 SEQ ID NO: 7. Podľa tohto uskutočnenia TE doména obsahuje výhodne aminokyseliny 2165-2439 SEQ ID NO: 7.
Ďalšie aspekty a výhody predloženého vynálezu sú odborníkovi zrejmé na základe nasledujúceho podrobného opisu vynálezu a príkladov, ktoré vynález nijako neobmedzujú.
Definície
V opise predloženého vynálezu sú použité termíny, ktoré majú nasledujúci význam.
Asociovaný s/operatívne spojený: Týka sa dvoch sekvencií DNA, ktoré sú spojené fyzicky alebo funkčne. Napríklad promótor alebo regulačná sekvencia je asociovaná so sekvenciou DNA kódujúcou RNA alebo proteín, ak sú sekvencie operatívne spojené, to znamená situované tak, že regulačná sekvencia ovplyvňuje hladinu expresie štruktúrnej alebo kódujúcej sekvencie DNA.
Chimérický gén: Rekombinantná sekvencia DNA, kde promótor alebo regulačná sekvencia je operatívne spojená alebo asociovaná so sekvenciou DNA, ktorá kóduje mRNA alebo je exprimovaná v podobe proteínu, takže regulačná sekvencia DNA je schopná ria31 diť transkripciu alebo expresiu asociovanej sekvencie DNA. Regulačná sekvencia DNA chimérického génu nie je normálne v tej podobe, ako sa nachádza v prírode, operatívne spojená s asociova nou sekvenciou DNA.
Kódujúca sekvencia DNA: Sekvencia DNA, ktorá je v organizme translatovaná a vytvára proteín.
Doména: Časť enzýmu polyketidsyntázy nevyhnutná pre určitú danú aktivitu. Príklady domén sú doména proteínu prenášajúceho acylovú skupinu (ACP), β-ketosyntázová (KS), acyltransferázová (AT), β-ketoreduktázová (KR), dehydratázová (DH) , enoylreduktázová (ER) a tioesterázová (TE) doména.
Epothilony: 16-členné makrocyklické polyketidy prirodzene produkované baktériou Sorangium cellulosum kmeň SO ce90, ktoré napodobňujú biologické účinky taxolu. V tomto opise termín epothilon označuje triedu polyketidov, do ktorej patrí epothilon A a epothilon B vrátane ich analógov, ako je opísané v medzinárodnej patentovej prihláške WO 98/25929.
Epothilonsyntáza: Polyketidsyntáza zodpovedná za biosyntézu epothilonu.
Gén: Definovaný úsek lokalizovaný v genóme obsahujúci okrem uvedenej kódujúcej sekvencie tiež ďalšie, najmä regulačné sekvencie DNA, ktoré sú zodpovedné za riadenie expresie, čo je transkripcia a translácia kódujúceho úseku.
Heterológna sekvencia DNA: Sekvencia DNA ktorá nie je v prírodnom stave asociovaná s hostiteľskou bunkou, do ktorej je vnesená, patria sem aj viacnásobné, v prírode nevyskytujúce sa kópie DNA, ktorá sa v prírode vyskytuje.
Homológna sekvencia DNA: Sekvencia DNA, ktorá je v prírodnom stave asociovaná s hostiteľskou bunkou, do ktorej je vnesená.
Homológna rekombinácia: vzájomná výmena fragmentov DNA medzi ···· ·· ·· ·· • · · · · · · ··· · · · · J • * · · · · · ··· ·· ···· ·· homológnyni molekulami DNA.
Izolovaný: V kontexte opisu predloženého vynálezu je izolovaná molekula nukleovej kyseliny alebo izolovaný enzým, taká molekula nukleovej kyseliny alebo enzým, ktoré existujú vďaka činnosti človeka nezávisle na svojom prirodzenom prostredí, a teda už nie sú výtvorom prírody. Izolovaná molekula nukleovej kyseliny alebo izolovaný enzým existujú v purifikovanom stave alebo existujú v inom ako prirodzenom prostredí, napríklad v rekombinantnej hostiteľskej bunke.
Modul: Genetický element kódujúci všetky rôzne aktivity, ktoré sú potrebné na to, aby prebehol jeden cyklus biosyntézy polyketidov, to znamená jeden krok kondenzácie a všetky s ním spojené kroky spracovania β-karbonylu. Každý modul kóduje ACP, KS a AT aktivitu na uskutočnenie kondenzačnej časti biosyntézy, a vybranej postkondenzačnej aktivity ovplyvňujúcej spracovanie β-karbonylu.
NRPS: Neribozómová polypeptidsyntetáza, ktorou je komplex enzymatických aktivít zodpovedný za inkorporáciu aminokyselín do sekundárnych metabolitov, vrátane napríklad adenylácie, epimerizácie, N-metylácie, cyklizácie aminokyselín, do peptidylového nosičového proteínu a kondenzačných domén. Funkčná NRPS je komplex katalyzujúci inkorporáciu aminokyselín do sekundárnych metabolitov.
Gén NRPS: Jeden alebo niekoľko génov, ktoré kódujú enzýmy NRPS pre tvorbu funkčných sekundárnych metabolitov, napríklad epothilonu A a B, riadené jedným alebo niekoľkými kompatibilnými regulačnými elementmi.
Molekula nukleovej kyseliny: Lineárny segment jedno- alebo dvojreťazcovej DNA alebo RNA, ktorý sa môže izolovať z ľubovoľného organizmu. V kontexte predloženého opisu je nukleová kyselina výhodne segment DNA.
···· ·· ·· ·· • · · · · · · ··· · · · · · ···· · · · · • · · · · · ··· ·· ···· ··
ORF: Otvorený čítací rámec.
PKS: Polyketidsyntáza, ktorou je komplex enzymatických aktivít (domén) zodpovedný za biosyntézu polyketidov zahŕňajúci doménu proteínu prenášajúceho acylovú skupinu (ACP), β-ketosyntázovú (KS), acyltransferázovú (AT), β-ketoreduktázovú (KR) , dehydratázovú (DH), enoylreduktázovú (ER) a tioesterázovú (TE) doménu. Funkčný PKS je taký komplex, ktorý katalyzuje syntézu polyketidov.
Gény PKS: Jeden alebo niekolko génov kódujúcich rôzne polypeptidy potrebné na syntézu funkčných polyketidov, napríklad epothilonu A a epothilonu B, keď sú riadené jedným alebo niekoľkými kompatibilnými regulačnými elementmi.
V podstate podobný: Tento výraz vo vzťahu k nukleovým kyselinám znamená nukleovú kyselinu, ktorá vykazuje aspoň 60% sekvenčnú identitu s nukleovou kyselinou, na ktorú sa odkazuje. Vo výhodnom uskutočnení sú v podstate podobné sekvencie DNA identické aspoň na 80%, vo výhodnejšom uskutočnení aspoň na 90% a v najvýhodnejšom uskutočnení sú v podstate podobné sekvencie DNA identické aspoň na 95%. V podstate podobná sekvencia DNA kóduje proteín alebo peptid, ktorý má v podstate rovnakú aktivitu ako proteín alebo peptid kódovaný porovnávanou DNA. V podstate podobná nukleotidová sekvencia typicky hybridizuje s porovnávanou molekulou nukleovej kyseliny alebo jej fragmentom za nasledujúcich podmienok: hybridizácia v 7% dodecylsulfáte sodnom (SDS) , 0,5 M NaPO4, pH 7,0, 1 mM EDTA pri 50°C; premytie 2x SSC, 1% SDS, pri 50°C. Ak ide o proteíny alebo peptidy, v podstate podobná aminokyselinová sekvencia je sekvencia aspoň na 90% identická s porovnávanou sekvenciou a má v podstate zhodnú aktivitu ako porovnávaný proteín alebo peptid.
Transformácia: Proces vnášania heterológnej nukleovej kyseliny do hostiteľskej bunky alebo organizmu.
Transformovaný/transgénny/rekombinantný sa týka hostiteľské-
·· ·· ·· • · · · · · • · · · • · · · · • · · · ·· · ho organizmu ako je napríklad baktéria, do ktorého sa vniesla heterológna nukleová kyselina. Táto nukleová kyselina je buď stabilne integrovaná v genóme hostiteľa, alebo je prítomná ako extrachromozomálna molekula nukleovej kyseliny. Taká extrachromozomálna molekula môže byť autoreplikujúca sa molekula. Transformované bunky, tkanivá alebo rastliny nezahŕňajú len výsledný produkt transformačného procesu, ale tiež jeho ďalšie transgénne potomstvo.
Netransformovaný, netransgénny alebo nerekombinantný hostiteľ znamená organizmus divého typu, napríklad baktériu, ktorý neobsahuje heterológnu nukleovú kyselinu.
Nukleotidy sú označované štandardnými skratkami zásad: adenín (A), cytozín (C), tymín (T) a guanín (G).
Aminokyseliny sú podobne označované štandardnými skratkami: alanín (ala; A) , arginín (Arg; R), aspargín (Asn; N) , asparágová kyselina (Asp; D) , cysteín (Cys; C), glutamín (Gin; Q) , glutámová kyselina (Glu; E) , glycín (Gly; G) , histidín (His; H) , izoleucín (íle; I), leucín (Leu; L), lyzín (lyz; K), metionín (Met; M), fenylalanín (Phe; F), prolín (Pro; P), serín (Ser; S), treonín (Thr; T), tryptofán (Trp; W), tyrozín (Tyr; Y) a valín (Val; V). Naviac (Xaa; X) predstavuje ľubovoľnú aminokyselinu.
Opis sekvencií uvedených v zozname sekvencií
SEQ ID NO: 1 je nukleotidová sekvencia kontigu veľkosti 68750 bp obsahujúca 22 otvorených čítacích rámcov (ORF), ktoré obsahujú gény biosyntézy epothilonov.
SEQ ID NO: 2 je proteínová sekvencia polyketidsyntázy typu I (EPOS A) kódovaná génom epoA (nukleotidy 7610-11875 SEQ ID NO:1).
SEQ ID NO: 3 je proteínová sekvencia neribozomálnej peptidsyntetázy (EPOS P) kódovaná epoP (nukleotidy 11872-16104 SEQ ID ···· ·· ·· ·· • ···· · · · ··· · · · · j • * · · · · · ·· ·· ···· ·· ·
NO: 1) .
SEQ ID NO: 4 je proteínová sekvencia polyketidsyntázy typu I (EPOS B) kódovaná epoB (nukleotidy 16251-21749 SEQ ID NO: 1).
SEQ ID NO: 5 je proteínová sekvencia polyketidsyntázy typu I (EPOS C) kódovaná epoC (nukleotidy 21746-43519) SEQ ID NO: 1).
SEQ ID NO: 6 je proteínová sekvencia polyketidsyntázy typu I (EPOS D) kódovaná epoD (nukleotidy 43524-54920 SEQ ID NO: 1).
SEQ ID NO: 7 je proteínová sekvencia polyketidsyntázy typu I (EPOS E) kódovaná epoE (nukleotidy 54935-62254 SEQ ID NO: 1).
SEQ ID NO: 8 je proteínová sekvencia homológa cytochro-P450-oxygenázy (EPOS F) kódovaná epoF (nukleotidy 62369-63628 SEQ ID NO: 1).
SEQ ID NO: 9 je čiastočná Orf 1) kódovaná orfl (nukleotidy
SEQ ID NO: 10 je proteínová (nukleotidy 3171-1900 reverzného NO: 1).
SEQ ID NO: 11 je proteínová (nukleotidy 3415-5556 SEQ ID NO:
proteínová sekvencia (čiastočný
1-1826 SEQ ID NO: 1).
sekvencia (Orf 2) kódovaná orf2 komplementárneho reťazca SEQ ID sekvencia (Orf 3) kódovaná orf3 D .
SEQ ID NO:
je proteínová sekvencia (Orf 4) kódovaná orf 4 (nukleotidy 5992-5612 reverzného komplementárneho reťazca SEQ ID
NO: 1) .
SEQ ID NO: 13 je proteínová sekvencia (Orf 5) kódovaná orf5 (nukleotidy 6226-6675 SEQ ID NO: 1).
SEQ ID NO: 14 je proteínová sekvencia (Orf 6) kódovaná orf6 (nukleotidy 63779-64333 SEQ ID NO: 1).
SEQ ID NO: 15 je proteínová sekvencia (Orf 7) kódovaná orfl (nukleotidy 64290-63853 reverzného komplementárneho reťazca SEQ
ID NO: 1).
SEQ ID
NO: 16 je proteínová sekvencia (nukleotidy
64363-64920 SEQ ID NO: 1).
SEQ ID
NO: 17 je proteínová sekvencia (nukleotidy ···· ··· ·· •· · · •· · •· · • ·· ·· ···· ·· • · · •· •· •· ·· · (Orf 8) (Orf 9) kódovaná kódovaná
64727-64287 reverzného komplementárneho reťazca orf8 orŕ9
SEQ
SEQ ID NO: 18 je proteínová sekvencia (Orf 10) kódovaná orŕlO (nukleotidy 65063-65767 SEQ ID NO: 1).
SEQ ID NO: 19 je proteínová sekvencia (Orf 11) kódovaná orfll (nukleotidy 65874-65008 reverzného komplementárneho reťazca SEQ ID NO: 1).
SEQ ID NO: 20 je proteínová sekvencia (Orf 12) kódovaná orfl2 (nukleotidy 66338-65871 reverzného komplementárneho reťazca SEQ ID NO: 1).
SEQ ID NO: 21 je proteínová sekvencia (Orf 13) kódovaná orfl3 (nu<leotidy 66667-67137 SEQ ID NO: 1).
SEQ ID NO: 22 je proteínová sekvencia (Orf 14) kódovaná orfl4 (nu.<leotidy 67334-68251 SEQ ID NO: 1) .
SEQ ID NO: 23 je čiastočná proteínová sekvencia (čiastočný Orf 15) kódovaná orfl5 (nukleotidy 68346-68750 SEQ ID NO: 1).
SEQ ID NO: 24 je sekvencia univerzálneho reverzného oligonukleotidového priméra pre PCR.
SEQ ID NO: 25 je sekvencia univerzálneho priameho oligonukleotidového priméra pre PCR.
SEQ ID NO: 26 je sekvencia PCR priméra NH24 konca
SEQ ID NO: 27 je sekvencia PCR priméra NH2 konca
SEQ ID NO: 28 je sekvencia PCR priméra NH2 konca
SEQ ID ΝΟ: 29 je sekvencia PCR priméra pEPO15-NH6 konca B.
···· φφ ·· ·· · • φ · φ φ · · ·· • ΦΦ · · · · · · ···· φ φ φ φ · φ φ φ φ φ φ φ ··· ·· ·ΦΦ· ·· ·ΦΦ
SEQ ID NO: 30 je sekvencia PCR priméra pEPO15-H2.7 konca
A
Informácie o uložení vzoriek
Nasledujúci materiál je v súlade s Budapeštianskou zmluvou, uložený v zbierke patentových kultúr Agricultural Research Service, Patent Culture Collection (NRRL), 1815 North University
Street, Peoria, vzoriek budú zrušené
Deponovaný materiál: pEPO15 pEPO32
Illinois po
61604. Všetky udelení patentu.
Číslo vzorky:
NRRL B-30033
NRRL B-30119 obmedzenia prístupnosti
Dátum uloženia:
11. júna 1998
16. apríla 1999
Detailný opis vynálezu
Gény zúčastňujúce sa biosyntézy epothilonov môžu sa izolovať spôsobmi podľa predloženého vynálezu. Výhodný spôsob izolácie génov biosyntézy epothilonu vyžaduje izoláciu genómovej DNA z organizmu, ktorý sa identifikoval ako organizmus produkujúci epothilony A a B, a prenos izolovanej DNA vo vhodnom plazmide alebo vektore do hostiteľského organizmu, ktorý normálne netvorí polyketidy, a potom identifikáciu transformovaných kolónií hostiteľských buniek, ktoré získali schopnosť produkovať epothilony. Použitím metód ako je napríklad mutagenéza pomocou transpozónu λ::Τη5 (de Bruijn & Lupski, Gene 27: 131-149 (1984)) je možné presne definovať transformujúci úsek DNA kódujúci epothilon. Alternatívne alebo naviac, transformujúci úsek DNA kódujúci epothilon môže byť naštiepený na menšie fragmenty a najmenší fragment, ktorý si stále ešte uchováva schopnosť kódovať epothilon sa potom ďalej podrobnejšie charakterizuje. Zatiaľ čo hostiteľský organizmus bez schopnosti produkovať epothilon môže byť rôzny (biologický druh) od organizmu, z ktorého pochádza ···· ··· ·· ·· ·· • · · · · · · • · · · · • · · · · · • · · · · ·· ···· ·· · polyketid, variácie hostiteľskú DNA do tejto metódy rovnakého transformovať umožňujú hostiteľa, ktorého vlastná schopnosť produkovať tejto metóde je a izolujú sa mutanty, epothilon je narušená mutagenézou. Pri organizmus produkujúci epothilon mutovaný ktoré neprodukujú epothilon. Tie sú potom komplementované genómovou DNA izolovanou z rodičovského kmeňa produkujúceho epothilon.
Ďalším príkladom metódy, ktorú je možné použiť na izoláciu génov potrebných na biosyntézu epothilonov, je použitie transpozónovej mutagenézy na vytvorenie mutantov z organizmu produkujúceho epothilon, ktorý po mutagenéze nie je schopný produkovať polyketid. Takže úsek hostiteľského genómu, zodpovedný za syntézu epothilonu je označený pomocou transpozónu
a môže sa izolovať a použiť ako
génov z rodičovského kmeňa. PKS
syntézu polyketidov, a ktoré
môžu sa izolovať využitím
s biosyntetickými génmi, sonda na izoláciu natívnych gény, ktoré sú potrebné na podobné už známym PKS génom, ich sekvenčnej homológie ktorých sekvencia je známa, ako sú napríklad gény biosyntézy rifamycinu alebo soraphenu. K metódam vhodným na izoláciu na základe homológie patria štandardné metódy skriningu knižníc pomocou DNA hybridizácie.
Fragment DNA použiteľný ako sonda je fragment, ktorý je možné získať z génu alebo inej sekvencie DNA, ktoré sa podieľajú na syntéze známeho polyketidu. Výhodná molekula vhodná ako sonda obsahuje Smal fragment DNA veľkosti 1,2 kb kódujúci ketosyntázovú doménu štvrtého modulu soraphen-PKS (patent USA č. 5 716 849), výhodnejšia molekula vhodná ako sonda obsahuje β-ketoacylsyntázovú doménu z prvého a druhého modulu rifamycin-PKS (Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1988)). Tieto fragmenty sa môžu použiť ako sondy pre skríning génovej knižnice z mikroorganizmu produkujúceho epothilon na izoláciu génov PKS zodpovedných za biosyntézu epothilonu.
···· ·· ·· ·· · ··· ···· · · ·· __ · ··· · · · · í !
ζ ·*···**·· · ····· ·· ···· ·· ···
Napriek známym ťažkostiam pri izolácii PKS génov všeobecne, a napriek ťažkostiam, ktoré je možné očakávať pri izolácii génov biosyntézy epothilonu zvlášť, použitím spôsobov podlá predloženého vynálezu, môžu byť gény pre epothilon A a B prekvapujúco klonované z mikroorganizmu, ktorý produkuje tieto polyketidy. Použitím metód génových manipulácií a rekombinantnéj produkcie podía predloženého vynálezu, môžu sa klonované gény PKS modifikovať a exprimovať v transgénnom hostiteľskom organizme.
Izolované gény biosyntézy epothilonu sa môžu exprimovať v heterológnom hostiteľovi, aby bola možná produkcia polyketidu s vyššou účinnosťou, než aká je možná u natívneho hostiteľa. Metódy pre tieto génové manipulácie sú špecifické pre rôznych dostupných hostiteľov a odborníkom sú známe. Napríklad heterológne gény sa môžu exprimovať v Streptomyces a iných aktinomycetách spôsobmi, ktoré sú opísané v publikáciách McDaniel a kol., Science 262: 1546-1550 (1993) a Kao a kol., Science 265: 509-512 (1994), ktoré sú zahrnuté formou odkazu. Pozri tiež ďalšie publikácie Rowe a kol., Gene 216: 215-223 (1998); Holmes a kol., EMBO Journal 12(8): 3183-3191 (1993) a Bibb a kol., Gene 38: 215-226 (1985), ktoré sú taktiež zahrnuté formou odkazu.
Alternatívne gény zodpovedné za biosyntézu polyketidov, to znamená gény biosyntézy epothilonu, sa môžu exprimovať v inom hostiteľskom organizme ako je napríklad Pseudomonas alebo E. coli. Metódy pre tieto génové manipulácie sú špecifické pre rôznych dostupných hostiteľov a odborníkom sú známe. Napríklad PKS gény sa úspešne exprimovali v E. coli pomocou vektora pT7-7, ktorý používa promótor T7 (pozri Tábor a kol., Proc. Natl. Acad. Sci. USA 82: 1074-1078 (1985), súčasťou prihlášky formou odkazu) . Okrem toho na expresiu heterológnych génov v E. coli sa môžu použiť expresné vektory pKK223-3 a pKK223-2, buď s transkripčnou alebo translačnou fúziou za tac alebo trc promótorom. Na expresiu operónov kódujúcich viaceré ORF je najjednoduchšou metódou vložiť operón do vektora, ako je napríklad pKK223-3 v transkripčnej fúzii, ktorá umožňuje, že sa môže použiť podobné ···
···· ·· ·· ··
• · • · • · • ·
··· • ·
• · • · ·
• ·
·· ··· ··
ribozómové väzbové miesto heterológneho génu. Metódy pre nadmernú expresiu (overexpression) u grampozitivnych mikroorganizmov, ako je napríklad Bacillus, sú tiež odborníkom známe, a môžu sa použiť na realizáciu predloženého vynálezu (Quax a kol., in: Industrial Microorganisms: Basic and Applied Molecular Genetics, Eds. Baltz a kol., Američan Society for Microbiology, Washington (1993)) .
Použiť sa môžu tiež ďalšie expresné systémy s génmi biosyntézy epothilonu podľa vynálezu vrátane kvasinkových alebo baculovírusových expresných systémov, pozri napríklad publikácie The Expression of Recombinant Proteins in Yeasts, Sudbery, P.E., Curr. Opin. Biotechnol. 7(5): 517-524 (1996); Methods for Expressing Recombinant Proteins in Yeast, Mackay, a kol., Editor (s): Carey, Paul R., Proteín Eng. Des. 105-153, Publisher: Academic, San Diego, Calif (1996) ; Expression of heterologous gene products in yeast, Pichuantes a kol., Editor(s): Cleland, J.L., Craik, C.S., Proteín Eng. 129-161, Publisher: Wiley-Liss, New York, N. Y (1996); WO 98/27203; Kealey a kol., Proc. Natl. Acad. Sci. USA 95: 505-509 (1998); Insect Celí Culture: Recent Advances, Bioengineering Challenges And Implications In Protein Production, Palomares a kol., Editor(s): Galindo, Enrique; Ramirez, Octavio T., Adv. Bioprocess Eng. Vol. II, Invited Pap. Int. Symp., 2nd (1998) 25-52, Publisher: Kluwer, Dordrecht, Neth; Baculovirus Expression Vectors, Jarvis, Donald L., Editor(s): Miller, Lois K., Baculoviruses 389-431, Publisher: Plénum, New York, N. Y. (1997); Production of Heterologous Proteins Using The Baculovirus/Insect Expression Systém, Grittiths, a kol., Methods Mol. Biol. (Totowa, N. J.) 75 (Basic Celí Culture Protocols (2nd Edition)) 427-440 (1997); a Insect Celí Expression Technology, Luckow, Verne A., Protein Eng. 183-218, Publisher: Wiley-Liss, New York, N. Y. (1996); ktoré sú všetky formou odkazu súčasťou predloženej prihlášky.
Ďalším aspektom, ktorý je potrebné vziať do úvahy pri expresii PKS génov v heterológnom hostiteľovi, je potreba enzý···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ·*··· ·· · ··· ·· ···· ·· ··· ako môžu syntetizovať polyketidy. modifikáciu PKS enzýmov (P-pant-transferázy) nie ako napríklad v bunkách typu I, sú však mov na posttranslačnú modifikáciu PKS enzýmov, to znamená fosfopanteteinyláciu, pred tým, Enzýmy uskutočňujúce túto fosfopanteteinyltransferázy prítomné v mnohých hostiteľoch,
Problém je možné vyriešiť súčasnou expresiou (koexpresiou) génu P-pant-transferázy spoločne s PKS génmi v heterológnom hostiteľovi, ako je to opísané v publikácii Kealey a kol., Proc. Natl.
je formou odkazu
Acad. Sci. USA 95: 505-509 (1998), ktorá
E. coli.
súčasťou opisu.
Významným kritériom výberu hostiteľského organizmu na účely produkcie polyketidov je preto jednoduchosť jeho génovej manipulácie, rýchlosť rastu (to znamená fermentácia) , obsah vhodných molekulárnych mechanizmov pre procesy ako je postranslačná modifikácia a neprítomnosť náchylnosti k nadprodukcii polyketidov. Najvýhodnejšími hostiteľskými organizmami sú aktinomycéty ako napríklad kmene rodu Streptomyces. Ďalšími vhodnými organizmami sú Pseudomonas a E. coli. Skôr opísané spôsoby produkcie polyketidov majú významné výhody v porovnaní so v súčasnosti používanou technológiou na výrobu týchto zlúčenín. K hlavným výhodám patrí lacná produkcia, možnosť produkovať vo veľkom meradle a možnosť produkovať požadovaný biologický enantiomér, na rozdiel chemických hostiteľovi od racemických zmesí syntézach. Zlúčeniny je možné použiť na rakoviny v prípade epothilonu) a nevyhnutne vznikajúcich pri produkované v heterológnom lekárske (napríklad liečenie poľnohospodárske aplikácie.
Príklady uskutočnenia vynálezu
Vynález je ďalej opísaný naseledujúcimi príkladmi. Tieto príklady poskytujú podrobnejšie vysvetlenie a ilustrujú vynález, pritom predmet vynálezu nijako neobmedzujú. Štandardné postupy klonovania a rekombinantnej DNA sú odborníkom známe a sú opísané napríklad v nasledujúcich publikáciách: Ausubel (ed.), Current Protocols in Molecular Biology, John Wiley and Sons, ľne.
• ···· ·· ·· ·· · ··· ···· · · ·· • ··· · · · · · ·
Σ · · · · · · · · · • · · · · ··· ··· ··· ·· ···· ·· ··· (1994); T. Maniatis, E.F. Fritsch and J. Sambrook, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor laboratory, Cold Spring Harbor, NY (1989); T.J. Silhavy, M.L. Berman, and L.W. Enquist, Experimente with Gene Fusions, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY (1984).
Príklad 1
Kultivácia kmeňa Sorangium cellulosum produkujúceho epothilon
Sorangium cellulosum kmeň 90 (DSM 6773, Deutsche Sammlung von Mikroorganismen und Zellkulturen, Braunschweig) sa naočkoval na agarovú platňu s médiom SolE (0,35% glukóza, 0,05% trypton, 0,15% MgSO4 x 7H2O, 0,05% síran amónny, 0,1% CaCl2, 0, 006% K2HPO4, 0,01% ditioničitan sodný, 0,0008% Fe-EDTA, 1,2% HEPES, 3,5% [obj./obj.] supernatant sterilizovanej stacionárnej kultúry S. cellulosum} s pH 7,4 a kultivoval v 30°C. Bunky asi z 1 cm2 sa odobrali a preniesli do 5 ml tekutého média G51t (0,2% glukóza, 0,5% škrob, 0,2% trypton, 0,1% probion S, 0,05% CaCl2x2H2O, 0,05% MgSO4x7H2O, 1,2% HEPES, pH 7,4) a inkubovali v 30°C s trepaním 225 rpm. Po štyroch dňoch sa kultúra preniesla do 50 ml G51t a inkubovala rovnako ako predtým 5 dní. Kultúra sa potom použila na inokuláciu 500 ml G51t a inkubovala sa rovnakým spôsobom 6 dní. Kultúra sa potom centrifugovala 10 minút pri 4000 rpm a bunkový sediment sa resuspendoval v 50 ml G51t.
Príklad 2
Príprava knižnice bakteriálneho umelého chromozómu (Bac knižnica)
Na vytvorenie Bac knižnice sa bunky S. cellulosum opísané v príklade 1 zaliali do agarózového bloku, lyžovali a uvoľnená genómová DNA sa čiastočne naštiepila reštrikčným enzýmom Hindlll. Naštiepená DNA sa rozdelila na agarózovom géli elektroforézou v pulznom poli. Velké fragmenty DNA (asi 90 až 150 kb) sa izolovali z agarózového gélu a ligovali do vektora • · • · · • ·
·· ·· pBelobacII. Vektor pBelobacII obsahuje gén kódujúci rezistenciu proti chloramfenikolu, viacpočetné klonovacie miesto v géne lacZ, umožňujúce modro/bielu selekciu na vhodnom médiu a tiež gény potrebné na replikáciu a udržiavanie plazmidu v jednej až dvoch kópiách na bunku. Ligačná zmes sa použila na transformáciu elektrokompetentných buniek Escherichia coli DH10B. Rekombinantná kolónia rezistetná proti chloramfenikolu (biele mutanty lacZ) sa preniesli na pozitívne nabité nylonové membránové filtre v 384 mriežkach 3x3. Klony sa lyžovali a DNA sa fixovala k filtrom zosietením (crosslinking). Tie isté klony sa zakonzervovali v stave tekutej kultúry v -80°C.
Príklad 3
Skríning Bac knižnice Sorangium cellulosum 90 na prítomnosť sekvencií príbuzných s polyketidsyntázou typu I
Filtre s Bac knižnicou sa testovali so sondou štandardným postupom Southernovej hybridizácie. Použité DNA sondy kódovali β-ketoacylsyntázové domény z prvého a druhého modulu rifamycinovej polyketidsyntázy (Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1998)). DNA sondy sa pripravili pomocou PCR s primármi obklopujúcimi každú ketosyntázovú doménu a použitím plazmidu pNE95 ako templátu (pNE95 je kozmid 2 podľa Schupp a kol. (1998)). 25 ng DNA amplifikovanej v PCR sa izolovalo z 0,5% agarózového gélu a označilo 32P-dCTP použitím značiacej súpravy s náhodnými primérmi (Gibco-BRL, Bethesda MD, USA) postupom podľa pokynov výrobcu. Hybridizácia pri 65°C trvala 36 hodín a potom sa membrány 3x opláchli v roztoku s vysokou stringenciou (0,lxSSC a 0,5% SDS, 20 minút v 65°C). Membrána (blot) sa potom exponovala na fosforescenčnom tienidle a signál sa detegoval zariadením Phospholmager 445SI (Molecular Dynamics). Výsledkom je, že niektoré Bac klony silno hybridizovali so sondami. Tieto klony sa vybrali a kultivovali cez noc v 5 ml Luriovho média (LB) pri 37°C. Z vybraných Bac klonov sa izolovala Bac DNA typickým postupom minipreparácie. Bunky sa ···· ·· ·· ·· • ···· ··· ·«· · · · · · • · · · · · · ·· ···· ·· ··· resuspendovali v 200 μΐ lyzozýmového roztoku (50 mM glukóza, 10 mM EDTA, 25 mM Tris-HCl, 5 mg/ml lyzozým) , lyžovali v 400 μΐ lyzovacieho roztoku (0,2 N NaOH a 2% SDS), proteíny sa precipitovali (3,0M octan sodný, pH nastavené na 5,2 kyselinou octovou) a nakoniec Bac DNA sa precipitovala izopropanolom. DNA sa resuspendovala v 20 μΐ destilovanej vody bez nukleáz, naštiepila BamHI (New England Biolabs, Inc.) a separovala na 0,7% agarózovorn géli. Gél sa preniesol na filter a analyzoval Southernovou hybridizáciou už opísaným spôsobom a testoval, rovnako ako už bolo opísané, so sondou, ktorou bol Smal fragment DNA veľkosti 1,2 kb kódujúci ketosyntázovú doménu štvrtého modulu soraphenovej polyketidsyntázy (pozri Patent USA č. 5 716 849). Pozorovalo sa päť rôznych hybridizačných vzorcov. Jeden kloň reprezentujúci každý z piatich vzorcov sa vybral a klony sa označili pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33.
Príklad 4
Subklonovanie BamHI fragmentov z pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33
DNA z piatich vybraných Bac klonov sa naštiepila BamHI a náhodne vybrané fragmenty sa subklonovali do miesta BamHI vektora pBluescript II SK+ (Stratagene). Subklony nesúce inzerty veľkosti 2 až 10 kb sa vybrali na sekvenovanie úsekov lemujúcich inzert a tiež pre testy so sondou Smal 1,2 kb opísanou skôr. Subklony vykazujúce vysoký stupeň sekvenčnej homológie so známou polyketidsyntázou a/alebo silnou hybridizáciou so soraphenovou ketosyntázovou doménou sa použili na ďalšie pokusy s prerušením génu.
Príklad 5
Príprava spontánnych mutantov Sorangium cellulosum, kmeň Soce90, rezistentných proti streptomycínu • e·· · · · · · • ···· ···· • · · · · · · ····· ·· ···· ··
0,1 ml trojdennej kultúry Sorangium cellulosum kmeň Soce90 v tekutom médiu G52-H (0,2% kvasinkový extrakt, 0,2% sójový proteín, 0,8% zemiakový škrob, 0,2% glukóza, x 7H2O, 0,1% CaCl2 x 2H2O, 0,008% Fe-EDTA, pH upravené na pestovanej odtučnený
0,1% MgSO.]
7,4 pomocou KOH) sa vysialo na agarové platne s médiom SolE so
100 μg/ml streptomycínu. Platne sa inkubovali v 30°C 2 týždKolónie, ktoré rástli v tomto médiu, boli zistentné proti streptomycínu, ktoré sa mutanty repreočkovali a kultivovali ešte raz na rovnakom médiu so purifikáciu. Jeden streptomycínom na rezistentných proti streptomycínu sa vybral agarovom z týchto mutantov a označil BCE28/2.
Príklad 6
Prerušenie génu v Sorangium cellulosum BCE28/2 použitím subklonovaných BamHI fragmentov
BamHI inzerty subklonov vytvorených z piatich vybraných Bac klonov, ako je opísané skôr, sa izolovali a ligovali do jedinečného miesta BamHI plazmidu pCIB132 (pozri patent USA č. 5 716 849) . pCIB132 deriváty nesúce inzerty sa transformovali do buniek E. coli ED8767 obsahujúcich pomocný plazmid pUZ8 (Hedges and Matthew, Plasmid 2: 269-278 (1979). Transformanty sa použili ako donory v konjugačných pokusoch so Sorangium cellulosum BCE28/2 ako recipientom. Na konjugáciu sa 5 až 10 x 109 buniek Sorangium cellulosum BCE28/2 z kultúry skorej stacionárnej fázy (dosahujúcej 5 x 108 buniek/ml) kultivovalo pri 30°C v tekutom médiu G51b (G51b je zhodné s médiom G51t až na to, že trypton sa nahradil oeptónom) a miešalo v pomere buniek 1:1 s kultúrou E. coli ED8767 v neskorej logaritmickej fáze (v tekutom LB médiu) obsahujúcej deriváty pCIB132 nesúce subklonované fragmenty BamHI a pomocný plazmid pUZ8. Zmes buniek sa potom centrifugovala 10 minút pri 4000 rpm a bunky sa resuspendovali v 0,5 ml média G51b. Suspenzia sa potom naniesla ako kvapka do stredu misky so SolE agarom obsahujúcim 50 mg/1 kanamycín. Po 24 hodinovej inkubácii v 30°C sa bunky odobrali a resuspendovali v 0,8 ml ···· ·· ·· ·· · • ···· ···· ··· · · · · · · ···· · · · · · • · · · · · ··· ·· ···· ·· ··· média G51b. 0,1 až 0,3 ml suspenzie buniek sa potom nanieslo na selektívne tuhé médium SolE obsahujúce fleomycín (30 mg/1), streptomycín (300 mg/1) a kanamycin (50 mg/1). Protiselekcia donorového kmeňa E. coli sa uskutočňovala pomocou streptomycínu. Kolónie, ktoré rástli na tomto selektívnom médiu po inkubačnom čase 8 až 12 dní pri teplote 30°C sa izolovali pomocou plastovej očkovacej slučky a naočkovali na rovnaké agarové médium ako pre druhý cyklus selekcie a purifikácie a potom kultivovali. Kultúry odvodené z kolónii, ktoré rástli na tomto selektívnom agarovom médiu po 7 dňoch pri teplote 30°C boli transkonjugáty Sorangium cellulosum BCE28/2, ktoré získali rezistenciu proti fleomycinu konjugačným prenosom pCIB132 derivátov nesúcich subklonované BamHI fragmenty.
Integrácia plazmidov odvodených z pCIB132 do chromozómu Sorangium cellulosum BCE28/2 homológnou rekombináciou sa overila Southernovou hybridizáciou. Pre tento pokus sa kompletná DNA z 5 až 10 transkonjugantov pre každý prenesený BamHI fragment izolovala (z 10 ml kultúry pestovanej v médiu G52-H tri dni) metódou podľa publikácie Pospiech a Neumann, Trends Genet. 11: 217 (1995). Pre Southernovu hybridizáciu sa izolovala DNA naštiepená buď reštrikčným enzýmom BglII, Clal alebo Nôti a príslušné BamHI inzerty označené 32P sa použili ako sondy.
Príklad 7
Analýza účinku integrovaných BamHI fragmentov na syntézu epothilonu Sorangium cellulosum po prerušení génu
Transkonjugované bunky pestované na asi 1 cm2 povrchu selektívnych misiek SolE v druhom kole selekcie (pozri príklad 6) sú prenesené sterilnou plastovou slučkou do 10 ml média G52-H v 50 ml Erlenmeyerovej banke. Po inkubácii v 30°C a 18 0 rpm počas 3 dní, je tkanivová kultúra prenesená do 50 ml média G52-H do 200 ml Erlenmeyerovej banky. Po inkubácii v 30°C a 180 rpm počas
4-5 dní, je 10 ml tejto kultúry prenesených do 50 ml média 23B3 ··· · · · · · • · · · · · ··· ······ ·· · (0,2% glukóza, 2% zemiakový škrob, 1,6% odtučnený sójový proteín, 0,0008% sodná soľ Fe-EDTA, 0,5% HEPES (kyselina 4-(2-hydroxyetyl)-piperazín-1-etán-sulfónová), 2% (objem.) polysterolová živica XAD16 (Rohm & Haas), pH upravené na 7,8 s NaOH) v 200 ml
Erlenmeyerovej banke.
Kvantitatívne stanovenie vytvoreného epothilonu sa uskutočňuje po inkubácii kultúr v 30°C a 180 rpm počas 7 dni. Kompletné tkanivové médium sa filtruje saním cez 150 μιη nylonový filter. Živica zostávajúca na filtri sa potom resuspenduje v 10 ml izopropanolu a extrahuje trepaním suspenzie pri 180 rpm počas 1 hodiny. Z tejto suspenzie sa odoberie 1 ml a centrifuguje sa v 12,000 rpm mikrocentrifúge (Eppendorff) . Množstvo epothilonov A a B je určované pomocou HPLC a detekcie v 250 nm s detektorom UV-DAD (HPLC s kolónou Waters-Symetry C18 a 0,02% gradientom 60%-0% kyseliny fosforečnej a 40%-100% acetonitrilu).
Transkonjuganty s troma rôznymi integrovanými fragmentárni BaznHI subklonovanými z pEPO15, najmä transkonjuganty s fragmentom BaiaHI plazmidu pEPO15-21, transkonjuganty s fragmentom BaznHI plazmidu pEPO15-4-5 a transkonjuganty s fragmentom BaznHI plazmidu pEPO15-4-l, sú testované spôsobom, ktorý už bol opísaný skôr. Analýza HPLC zistila, že všetky transkonjuganty už neprodukujú epothilon A alebo B. Na rozdiel od toho sú epothilony A a B detegovateľné v koncentrácii 2-4 mg/1 v transkonjugantoch s integrovanými fragmentárni BaznHI, ktoré pochádzajú z pEPO20, pEPO30, pEPO31, pEPO33 a v parentálnom kmeni BCE28/2.
Príklad 8
Stanovenie nukleotidovej sekvencie klonovaných fragmentov a konštrukcia kontigov
A. Inzert BaznHI plazmidu pEPO15-21
Plazmidová DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-21] a určí sa nukleotidové sekvencia inzertu BaznHI ···· ·· ·· ·· · ···· ···· ··· · · · · · · ···· · 9 · · ·
9 9 9 9 9 9
999 99 9999 99 999 s veľkosťou 2,3 kb v pEPO15-21. Na dvojvláknovom templáte DNA sa uskutočňuje automatizované sekvenovanie DNA pomocou metódy s ukončením reťazcov dideoxynukleotidmi, s použitím automatického sekvenčného prístroja Applied Biosystems modelu 377. Použitými primérmi sú univerzálny reverzný primér (5' GGA AAC AGC TAT GAC CAT G 3' (SEQ ID NO: 24) a univerzálny priamy primér (5' GTA AAA CGA CGG CCA GT 3' (SEQ ID NO: 25)). V ďalších kolách sekvenčnej reakcie sa použili oligonukleotidy syntetizované na objednávku, navrhnuté pre 3' konce vopred určených sekvencií tak, aby predĺžili a spojili kontigy. Obidve vlákna sú kompletne sekvenované, každý nukleotid je sekvenovaný prinajmenšom dvakrát. Nukleotidová sekvencia sa spracuje použitím programu Sequencher verzia 3,0 (Gene Codes Corporation) a analyzuje použitím programov GCG, University of Wisconsin Genetics Computer Group. Nukleotidová sekvencia inzertu s veľkosťou 2213 bp zodpovedá nukleotidom 20779-22991 SEQ ID NO: 1.
B. Inzert BamHI plazmidu pEPO15-4-l
Plazmidová DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-4-l] a určí sa nukleotidová sekvencia inzertu BamHI s veľkosťou 3,9 kb v pEPO15-4-l tak, ako je opísané v kroku A. Nukleotidová sekvencia inzertu s veľkosťou 3909 bp zodpovedá nukleotidom 16876-20784 SEQ ID NO: 1.
C. Inzert BamHI Plazmidu pEPO15-4-5
Plazmid DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-4-5] a určí sa nukleotidová sekvencia inzertu BamHI s veľkosťou 2,3 kb v pEPO15-4-5 tak, ako je opísané v kroku A. Nukleotidová sekvencia inzertu s veľkosťou 2233 bp zodpovedá nukleotidom 42528-44760 SEQ ID NO: 1.
Príklad 9
Subklonovanie a usporiadanie fragmentov DNA z pEPO15 obsahujúcich gény pre biosyntézu epothilonu ···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · · ·· ···· ·· ··· pEP015 je kompletne štiepený reštrikčným enzýmom HindlII a výsledné fragmenty sú subklonované do pBluescript II SK- alebo pNEB193 (New England Biolabs), ktorý sa štiepil HindlII a defosforyloval alkalickou fosfatázou z teľacích čriev. Vytvorilo sa šesť rôznych klonov, ktoré sa pomenovali pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24 (všetky založené na pNEB193) a pEPO15-H2.7 a pEPO15-H3.0 (obidva založené na pBluescript II SK-) .
Inzert BamHI z pEPO15-21 je izolovaný a označený DIG (pomocou súpravy Non-radioactive DNA labeling and detection systém, Boehringer Mannheim) a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH24 sa detegoval silný hybridizačný signál, čo ukazuje, že v pEPO15-NH24 je obsiahnutý pEPO15-21.
Inzert BamHI z pEPO15-4-l je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH24 a pEPO15-H2.7 sa detegovali silné hybridizačné signály. Údaje o nukleotidových sekvenciách získané z jedného konca každého z pEPO15-NH24 a pEPO15-H2.7 sú tiež celkom zhodné s vopred určenou sekvenciou inzertu BamHI z pEPO15-4-l. Tieto pokusy dokazujú, že pEPO15-4-l (ktorý obsahuje jedno vnútorné miesto HindlII) prekrýva pEPO15-H2.7 a pEPO15-NH24, a že pEPO15-H2.7 a pEPO15-NH24, v tomto poradí, sú susediace.
Inzert BamHI z pEPO15-4-5 sa izoloval a označil DIG ako je uvedené skôr a použil sa ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, ΡΕΡΟ15-ΝΗ6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH2 sa detegoval silný hybridizačný signál, čo ukazuje, že v pEPO15-NH2 je obsiahnutý pEPO15-21.
Získali sa údaje o nukleotidových sekvenciách z obidvoch ···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ···· ···· · • · · · · · · ··· ·· ···· ·· ··· koncov pEPO15-NH2 a z konca pEPO15-NH24, ktorý sa neprekrýva s pEPO15-4-l. Na základe týchto sekvencií sa navrhli PCR priméry NH24 s koncom B: GTGACTGGCGCCTGGAATCTGCATGAGC (SEQ ID NO: 26), NH2 S koncom A: AGCGGGAGCTTGCTAGACATTCTGTTTC (SEQ ID NO: 27), a NH2 s koncom B: GACGCGCCTCGGGCAGCGCCCCAA (SEQ ID NO: 28), smerujúce k miestam HindlII a sú použité v aplikačných reakciách s pEPO15 a, v samostatných pokusoch, s genómovou DNA Sorangium cellulosum Soce90 ako templát. Špecifická amplifikácia je nájdená s párom primérov NH24 s koncom B a NH2 s koncom A u obidvoch templátov. Ampliméry sú klonované do pBluescript II SK- a v plnom rozsahu sekvenované. Sekvencie amplimérov sú totožné a tiež celkom súhlasia s koncovými sekvenciami pEPO15-NH24 a pEPO15-NH2, fúzovanými v mieste HindlII, čo potvrdzuje, že fragmenty HindlII z pEPO15-NH2 a pEPO15-NH24 sú susediace v tomto poradí.
Inzert HindlII z pEPO15-H2.7 je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15 štiepenému Nôti. Fragment Nôti s veľkosťou asi 9 kb silne hybridizuje a je ďalej subklonovaný do pBluescript II SK-, ktorý sa štiepil Nôti a defosforyloval alkalickou fosfatázou z teľacích čriev pričom vzniká pEPO15-N9-16. Inzert Nôti z pEPO15-N9-16 je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Detegovali sa silné hybridizačné signály pre pEPO15-NH6, a tiež pre očakávané klony pEPO15-H2.7 a pEPO15-NH24. Získali sa údaje o nukleotidových sekvenciách z obidvoch koncov pEPO15-NH6 a z konca pEPO15-H2.7, ktorý sa neprekrýva s pEPO15-4-l. Potom sa navrhli PCR priméry smerujúce k miestam HindlII a použili sa v amplifikačných reakciách s pEPO15 a v samostatných pokusoch, s genómovou DNA Scrangium cellulosum Soce90 ako templát. K špecifickej amplifikácii došlo s párom primérov pEPO15-NH6 s koncom B: CACCGAAGCGTCGATCTGGTCCATC (SEQ ID NO: 29) a pEPO15-H2.7 s koncom ···· ·· ·· • ···· ··· ··· · · · · · ·· • · · · · · ·· ···· ·· ·
A: CGGTCAGATCGACGACGGGCTTTCC (SEQ ID NO: 30) u obidvoch templátov. Ampliméry sú klonované do pBluescript II SK- a úplne sekvenované. Sekvencie amplimérov sú totožné a tiež celkom súhlasia s koncovými sekvenciami pEPO15-NH6 a pEPO15-H2.7, fúzovanými v mieste HindlII, čo potvrdzuje, že fragmenty HindlII z pEPO15-NH6 a pEPO15-H2.7 sú susediace v tomto poradí.
Všetky tieto pokusy zhrnuté dohromady vytvorili kontig fragmentov HindlII pokrývajúci oblasť asi 55 kb a skladajúci sa z inzertov HindlII z pEPO15-NH6, pEPO15-H2.7, pEPO15-NH24 a pEPO15-NH2, v tomto poradí. Nezistilo sa, že inzerty zostávajúcich dvoch subklonov HindlII, najmä pEPO15-NHl a pEPO15-H3.0, sú časťou kontigu.
Príklad 10
Ďalšie rozšírenie kontigu subklonov pokrývajúceho gény pre biosyntézu epothilonu
Fragment BamHI-HindlII s veľkosťou asi 2,2 kb pochádzajúci z inzertu pEPO15-NH2, z jeho downstream konca, a teda predstavujúci downstream koniec kontigu subklonov opísaného v príklade 9, sa izoluje, označí DIG a použije v experimentoch so Southernovou hybridizáciou proti DNA z pEPO15-NH2 štiepenej rôznymi enzýmami. Vždy sa zistilo, že silne hybridizujúce pásy majú rovnakú veľkosť medzi dvoma cieľovými DNA, čo ukazuje, že fragment cenómovej DNA Sorangium cellulosum So ce90 klonovaný do pEPO15 končí miestom HindlII na konci po smere pEPO15-NH2.
Vytvorí sa kozmidová DNA knižnica Sorangium cellulosum So ce90 s použitím zavedených postupov v pScosTriplex-II (Ji, a kol., Genomics, 31, 185-192, 1996). V krátkosti, genómová DNA s vysokou molekulovou hmotnosťou so Sorangium cellulosum So ce90 je čiastočne štiepená reštrikčným enzýmom Sau3AI, aby vznikli fragmenty s priemernou veľkosťou asi 40 kb a ligovali sa do pScosTriplex-II naštiepeného BamHI a Xbal. Ligačná zmes je zbalená pomocou Gigapack III XL (Stratagene) a použitá na • ···· ·· ·· ·· ··· ···· ··· • ··· · · · · ·
9 9 9 9 9 9
9999 99 999 transfekciu buniek E. coli XL1 Blue MR.
Kozmídová knižnica sa skríningovala fragmentom BamHI-HindlII s veľkosťou asi 2,2 kb pochádzajúceho z downstream konca inzertu z pEPO15-NH2, ktorý sa použil ako sonda v hybridizácii kolónií. Vybraný je silne hybridizujúci kmeň, nazvaný pEPO4E7.
DNA pEPO4E7 sa izolovala, štiepila niekoľkými reštrikčnými endonukleázami a analyzovala Southernovou hybridizáciou fragmentom BamHI-HindlII s veľkosťou 2,2 kb. Vybraný bol silne hybridizujúci fragment Notl s veľkosťou asi 9 kb, ktorý bol subklonovaný do pBluescript II SK- a vzniká pEPO4E7-N9-8. Ďalšie experimenty so Southernovou hybridizáciou ukázali, že inzert Notl z pEPO4E7-N9-8 s veľkosťou asi 9 kb prekrýva pEPO15-NH2 po 6 kb vo fragmente Notl-HindlII, zatiaľ čo zostávajúce asi 3 kb fragmentu HindlII-Notl rozširujú kontig subklonov opísaný v príklade 9. Koncové sekvenovanie ale zistilo, že downstream koniec inzertu z pEPO4E7-N9-8 obsahuje polylinker BamHI-Notl z pScosTriplex-II, a teda ukazuje, že inzert genómovej DNA z pEPO4E7 končí v mieste Sau3AI, v predĺženom fragmente HindlII-NotI, a že namiesto Notl pochádza z pScosTriplex-II.
Fragment Pstl-Sall s veľkosťou asi 1,6 kb pochádzajúci z predĺženého subfragmentu Hindlll-Notl z pEPO4E7-N9-8 s veľkosťou asi 3 kb, obsahujúci len sekvenciu pochádzajúcu zo Sorangium cellulosum So ce90 bez vektora, je použitý ako sonda proti knižnici umelého bakteriálneho chromozómu (Bac knižnici) opísanej v príklade 2. Naviac sa zistilo, že so sondou silne hybridizuje skôr izolovaný EPO15, kloň Bac, nazvaný EPO32. pEPO32 sa izoloval, štiepil s niekoľkými reštrikčnými endonukleázami a hybridizoval so sondou Pstl-Sall s veľkosťou asi 1,6 kb. Zistilo sa, že so sondou silne hybridizuje fragment HindlII-EcoRV s veľkosťou asi 13 kb a subklonoval sa do pBluescript II SK- naštiepeného s HindlII a HincII a vzniká pEPO32-HEV15.
Navrhli sa oligonukleotidové priméry založené na koncovej sekvencií po smere z pEPO15-NH2 a na koncovej sekvencií v proti-
• 9 · · ·· ···· smere (HíndlII) pochádzajúcej z pEPO32-HEV15 a použili v sekvenčných reakciách s pEPO4E7-N9-8 ako templát. Sekvencie odkryli existenciu malého fragmentu HindlII (EPO4E7-HO.02) s veľkosťou 24 bp, nezistiteľného štandardnou reštrikčnou analýzou, oddeľujúceho miesto HindlII na konci po smere z pEPO15-NH2 od miesta HindlII na konci v protismere z pEPO32-HEV15.
Kontig subklonov opísaný v príklade 9 je teda rozšírený zahrnutím fragmentu HindlII z EPO4E7-HO.02 a inzert z pEPO32-HEV15 a predstavuje inzerty z: pEPO15-NH6, pEPO15-H2.7, pEPO15-NH24, pEPO15-NH2, ΕΡΟ4Ε7-ΗΘ.02 a pEPO32-HEV15, v tomto poradí.
Príklad 11
Stanovenie nukleotidovej sekvencie kontigu subklonov pokrývajúceho gény pre biosyntézu epothilonu
Nukleotidová sekvencia kontigu subklonov opísaného v príklade 10 sa stanovila takto.
pEPO15-H2.7, Plazmidová DNA sa izolovala z kmeňa Escherichia coli DH10B [pEPO15-H2.7] a určila sa nukleotidová sekvencia inzertu BamHI v pEPO15-H2.7 s veľkosťou 2,7 kb. Na dvojvláknovom templáte DNA sa uskutočňuje automatizované sekvenovanie DNA pomocou metódy s ukončením reťazcov dideoxynukleotidmi, s použitím sekvenačného prístroja Applied Biosystems modelu 377. Použitými primármi sú univerzálny reverzný primér (5' GGA AAC AGC TAT GAC CAT G 3' (SEQ ID NO: 24)) a univerzálny priamy primér (5' GTA AAA CGA CGG CCA GT 3' (SEQ ID NO: 25)). V ďalších kolách sekvenačnej reakcie sú použité oligonukleotidy syntetizované na objednávku, navrhnuté pre 3' konce vopred určených sekvencii tak, aby predĺžili a spojili kontigy.
pEPO15-NH6, pEPO15-NH24 a pEPO15-NH2. Inzerty HindlII týchto plazmidov sú izolované a podrobené náhodnej fragmentácii s použitím prístroja Hydroshear (Genomic Instrumentation Services,
Inc.) a za vzniku priemernej veľkosti fragmentov 1-2 kb. Frag54 ···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · ·· ·· ···· ·· · menty sú koncovo opravené s použitím enzýmov T4 DNA polymerázy a Klenowovej DNA polymerázy v prítomnosti deoxynukleotidtrifosfátov a fosforylované T4 DNA kinázou v prítomnosti ribo-ATP. Fragmenty s veľkosťou v rozsahu 1,5-2,2 kb sú izolované z agarózových gélov a ligované do pBluescript II SK-, ktorý sa štiepil s EcoRV a defosforyloval. Náhodné subklony sú sekvenované s použitím univerzálneho reverzného a univerzálneho priameho priméra.
pEPO32-HEV15. pEPO32-HEV15 je štiepený s HindlII a Sspľ, je izolovaný fragment s veľkosťou asi 13,3 kb obsahujúci asi 13 kb inzert ŕfindl II-EcoRV zo So. celí ul os um So ce90 a fragment HincIISspI s veľkosťou 0,3 kb z pBluescript II SK-, tento fragment je čiastočne štiepený HaelII a vznikajú fragmenty s priemernou veľkosťou 1-2 kb. Fragmenty s veľkosťou v rozsahu 1,5-2,2 kb sú izolované z agarózových gélov a ligované do pBluescript II SK-, ktorý sa štiepil s EcoRV a defosforyloval. Náhodné subklony sú sekvenované s použitím univerzálneho reverzného a univerzálneho priameho priméra.
Chromatogramy sa analyzovali a spojili do kontigov pomocou programov Phred, Phrap a Consed (Ewing a kol., Genome Res., 8(3), 175-185, 1998, Ewing a kol., Genome Res., 8(3)
186-194, 1998, Gordon a kol., Genome Res., 8(3), 195-202, 1998). Medzery v kontigu sa vyplnili, nezrovnalosti v sekvenciách sa vyriešili, oblasti s nízkou kvalitou sa znova sekvenovali s použitím oligonukleotidov navrhnutých na objednávku na sekvenovanie buď originálnych subklonov alebo vybraných subklonov z náhodných knižníc subklonov. Obidve vlákna sa teda kompletne sekvenovali a pre každý pár zásad je minimálne agregované skóre podía Phred aspoň 40 (hladina spoľahlivosti 99,99%).
Nukleotidová sekvencia kontigu s veľkosťou 68750 bp je tu uvedená ako SEQ ID NO: 1.
···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ···· · · · · · • · · · · · · ·· ·· ···· ·· ···
Príklad 12
Analýza nukleotidovej sekvencie génov pre biosyntézu epothilonu
Zistilo sa, že SEQ ID NO: 1 obsahuje 22 otvorených čítacích rámcov (ORF), ako je podrobne uvedené ďalej v tabulke 1:
Tabulka 1
ORF Štart kodón Stop kodón Homológia dedukovaného proteínu Predpokladaná funkcia dedukovaného proteínu
orfl mimo sekvenovanú oblasť 1826
or f2* 3171 1900 hypotetický proteín SP: Q11037; DD-peptidáza SP:P15555
orf3 3415 5556 Na/H prenášač PID: Dl017724 prenos
or f4* 5992 5612
orf5 6226 6675
epoh. 7610 11875 polyketidsyntáza typ I epothilonsyntáza: tvorba tiazolového kruhu
epoP 11872 16104 neribozómová peptidsyntetáza epothilonsyntáza: tvorba tiazolového kruhu
epoQ 16251 21749 polyketidsyntáza type I epothilonsyntáza: tvorba polyketidovej kostry
epoC 217 4 6 43519 polyketidsyntáza type I epothilonsyntáza: tvorba polyketidovej kostry
epoD 43524 54920 polyketidsyntáza type I epothilonsyntáza: tvorba polyketidovej kostry
epoE 54935 62254 polyketidsyntáza type I epothilonsyntáza: tvorba polyketidovej kostry
epoF 62369 63628 cytochróm P450 epothilonmakrolaktónoxidáza
or f 6 63779 64333
orfl* 64290 63853
or f 8 64363 64920
or f 9* 64727 64287
orflO 65063 65767
orfl1* 65874 65008
orf12* 66338 65871
·· ·· ·· • · · · · · · • · · · · • · · Λ · · · · · ·
orf 13 66667 67137
orf 14 67334 68251 hypotetický proteín GI:3293544; proteínový prenášač katiónov GI:2623026 prenos
orf 15 68346 mimo sekvenovanú oblasť
* na reverznom komplementárnom vlákne. Číslovanie podľa SEQ ID NO: 1.
epoA (nukleotidy 7610-11875 SEQ ID NO: 1) kóduje EPOS A (SEQ ID NO: 2), polyketidsyntázu typu I skladajúcu sa z jedného modulu a obsahujúcu nasledujúce domény: β-ketoacylsyntázu (KS) (nukleotidy 7643-8920 SEQ ID NO: 1, aminokyseliny 11-437 SEQ ID NO: 2), acyltransferázu (AT) (nukleotidy 9236-10201 SEQ ID NO: 1, aminokyseliny 543-864 SEQ ID NO: 2), enoylreduktázu (ER) (nukleotidy 10529-11428 SEQ ID NO: 1, aminokyseliny 974-1273 SEQ ID NO: 2) a homológnu doménu proteínu prenášajúceho acylovú skupinu (ACP) (nukleotidy 11549-11764 SEQ ID NO: 1, aminokyseliny 13141385 SEQ ID NO: 2) . Porovnanie sekvencii a analýza motívov (Haydock a kol., FEBS Lett., 374, 246-248, 1995, Táng a kol., Gene, 216, 255-265, 1998) zistili, že AT kódovaná EPOS A je špecifická pre malonyl-CoA. EPOS A by sa mohol zapojiť do iniciácie biosyntézy epothilonu zavedením acetátovej jednotky do multienzýmového komplexu, ktorý neskôr tvorí časť 2-metyltiazolového kruhu (C26 a C20) .
epoP (nukleotidy 11872-16104 SEQ ID NO: 1) kóduje EPOS P (SEQ ID NO: 3) neribozómovú peptidsyntetázu obsahujúcu jeden modul. EPOS P obsahuje nasledujúce domény:
- doménu vytvárania peptidovej väzby, ako je znázornené motívom K (aminokyseliny 72-81 [FPLTDIQESY] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 12085-12114 SEQ ID NO: 1) , motív
L (aminokyseliny 118-125 [VVARHDML] SEQ ID NO: 3, zodpovedajúce
9 ···· ·· ·· • ·
• · e · • · • · 9 9
··· • · • ·
• · • ·
• · ···· ·· • · ·
nukleotidovým pozíciám 12223-12246 SEQ ID NO: 1), motív M (aminokyseliny 199-212 [SIDLINVDLGSLSI] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 12466-12507 SEQ ID NO: 1) a motív O (aminokyseliny 353-363 [GDFTSMVLLDI] SEQ ID NO: 3, zodpovedajúcu nukleotidovým pozíciám 12928-12960 SEQ ID NO: 1) ,
- doménu vytvárania aminoacyladenylátu, ako je znázornené motívom A (aminokyseliny 549-565 [LTYEELSRRSRRLGARL] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13516-13566 SEQ ID NO: 1), motív B (aminokyseliny 588-603 [VAVLAVLESGAAYVPI] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13633-13680 SEQ ID NO: 1), motív C (aminokyseliny 669-684 [AYVIYTSGSTGLPKGV] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13876-13923 SEQ ID NO: 1), motív D (aminokyseliny 815-821 [SLGGATE] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14313-14334 SEQ ID NO: 1) , motív E (aminokyseliny 868-892 [GQLYIGGVGLALGYWRDEEKTRKSF] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14473-14547 SEQ ID NO: 1) , motív F (aminokyseliny 903-912 [YKTGDLGRYL] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14578-14607 SEQ ID NO: 1), motív G (aminokyseliny 918-940 [EFMGREDNQIKLRGYRVELGEIE] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14623-14692 SEQ ID NO: 1), motív H (aminokyseliny 1268-1274 [LPEYMVP] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15673-15693 SEQ ID NO: 1) a motív I (aminokyseliny 1285-1297 [LTSNGKVDRKALR] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15724-15762 SEQ ID NO: 1),
- neznámu doménu, vloženú medzi motívy G a H domény vytvárania aminoacyladenylátu (aminokyseliny 973-1256 SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14788-15639 SEQ ID NO: 1), a
- homológnu doménu proteínu prenášajúceho peptidylovú skupinu (PCP), znázornenú motívom J (aminokyseliny 1344-1351 [GATSIHIV] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15901-15924 SEQ ID NO: 1).
···· ·· ·· ·· • · · · · · · ··· · · · · · • · · · · · ·· ···· · ·
Predpokladá sa, že EPOS P je zapojený do aktivácie cysteínu prostredníctvom adenylácie, väzbou aktivovaného cysteínu ako aminoacyl-S-PCP, tvorením peptidovej väzby medzi cysteínom s naviazaným enzýmom a acetyl-S-ACP dodávaným EPOS A, a do tvorby počiatočného tiazolínového kruhu prostredníctvom intramolekulovej heterocyklizácie. Neznáma doména EPOS P prejavuje velmi slabú homológiu s NAD(P)H oxidázami a reduktázami z druhu Bacillus. Táto neznáma doména a/alebo doména ER z EPOS A môžu byť teda zapojené do oxidácie počiatočného 2-metyltiazolínového kruhu na 2-metyltiazol.
epoB (nukleotidy 16251-21749 SEQ ID NO: 1) kóduje EPOS B (SEQ ID NO: 4), polyketidsyntázu typu I skladajúcu sa z jedného modulu a obsahujúcu nasledujúce domény: KS (nukleotidy 16269— 17546 SEQ ID NO: 1, aminokyseliny 7-432 SEQ ID NO: 4), AT (nukleotidy 17865-18827 SEQ ID NO: 1, aminokyseliny 539-859 SEQ ID NO: 4), dehydratázu (DH) (nukleotidy 18855-19361 SEQ ID NO: 1, aminokyseliny 869-1037 SEQ ID NO: 4), β-ketoreduktázu (KR) (nukleotidy 20565-21302 SEQ ID NO: 1, aminokyseliny 1439-1684 SEQ ID NO: 4) a ACP (nukleotidy 21414-21626 SEQ ID NO: 1, aminokyseliny 1722-1792 SEQ ID NO: 4). Porovnanie sekvencií a analýza motívov ukázali, že AT kódovaná EPOS B je špecifická pre metylmalonyl-CoA. EPOS A by sa mohol zapojiť do extenzie prvého polyketidového reťazca katalýzou kondenzácie podobnej Claisenovej kondenzácii 2-metyl-4-tiazolkarboxyl-S-PCP spúšťacej skupiny s metylmalonylom-S-ACP, a sprievodnou redukciou b-ketoskupiny C17 na enoylovú skupinu.
epoC (nukleotidy 21746-43519 SEQ ID NO: 1) kóduje EPOS C (SEQ ID NO: 5), polyketidsyntázu typu I skladajúcu sa zo 4 modulov. Prvý modul obsahuje KS (nukleotidy 21860-23116 SEQ ID NO: 1, aminokyseliny 39-457 SEQ ID NO: 5), malonyl-CoA (malonylkoenzým A) špecifickú AT (nukleotidy 23431-24397 SEQ ID NO: 1, aminokyseliny 563-884 SEQ ID NO: 5), KR (nukleotidy 25184-25942 SEQ ID NO: 1, aminokyseliny 1147-1399 SEQ ID NO: 5) a ACP (nukleotidy 26045-26263 SEQ ID NO: 1, aminokyseliny 1434-1506 SEQ ID NO:
• · • ···· ··· ··· · · · · · • · · · 9 9 ··· ·· ···· ·· ·
5). Tento modul inkorporuje acetátovú predlžovaciu jednotku (C14-C13) a redukuje β-ketoskupinu na C15 na hydroxylovú skupinu, ktorá sa zúčastní výslednej laktonizácie epothilonmakrolaktónového kruhu. Druhý modul EPOS C obsahuje KS (nukleotidy 26318— 27595 SEQ ID NO: 1, aminokyseliny 1524-1950 SEQ ID NO: 5), malonyl-CoA špecifickú AT (nukleotidy 27911-28876 SEQ ID NO: 1, aminokyseliny 2056-2377 SEQ ID NO: 5), KR (nukleotidy 29678-30429 SEQ ID NO: 1, aminokyseliny 2645-2895 SEQ ID NO: 5) a ACP (nukleotidy 30539-30759 SEQ ID NO: 1, aminokyseliny 2932-3005 SEQ ID NO: 5) . Tento modul inkorporuje acetátovú predlžovaciu jednotku (C12-C11) a redukuje β-ketoskupinu na C13 na hydroxylovú skupinu. Vznikajúci polyketidový reťazec epothilonu teda zodpovedá epothilonu A a inkorporácia metylového postranného reťazca na C12 v epothilone B by vyžadovala post-PKS C-metyltransferázovú aktivitu. Tvorba epoxykruhu v C13-C12 by tiež vyžadovala post-PKS oxidačný krok. Tretí modul EPOS C obsahuje KS (nukleotidy 30815-32092 SEQ ID NO: 1, aminokyseliny 3024-3449 SEQ ID NO: 5) , malonyl-CoA špecifickú AT (nukleotidy 32408-33373 SEQ ID NO: 1, aminokyseliny 3555-3876 SEQ ID NO: 5) , DH (nukleotidy 33401-33889 SEQ ID NO: 1, aminokyseliny 3886-4048 SEQ ID NO: 5), ER (nukleotidy 35042-35902 SEQ ID NO: 1, aminokyseliny 4433-4719 SEQ ID NO: 5), KR (nukleotidy 35930-36667 SEQ ID NO: 1, aminokyseliny 4729-4974 SEQ ID NO: 5) a ACP (nukleotidy 36773-36991 SEQ ID NO: 1, aminokyseliny 5010-5082 SEQ ID NO: 5) . Tento modul inkorporuje acetátovú predlžovaciu jednotku (C10-C9) a úplne redukuje β-ketoskupinu na Cll. Štvrtý modul EPOS C obsahuje KS (nukleotidy 37052-38320 SEQ ID NO: 1, aminokyseliny 5103-5525 SEQ ID NO: 5) , metylmalonyl-CoA špecifickú AT (nukleotidy 38636-39598 SEQ ID NO: 1, aminokyseliny 5631-5951 SEQ ID NO: 5), DH (nukleotidy 39635-40141 SEQ ID NO: 1, aminokyseliny 5964-6132 SEQ ID NO: 5), ER (nukleotidy 41369-42256 SEQ ID NO: 1, aminokyseliny 6542-6837 SEQ ID NO: 5), KR (nukleotidy 42314-43048 SEQ ID NO: 1, aminokyseliny 6857-7101 SEQ ID NO: 5) a ACP (nukleotidy 43163-43378 SEQ ID NO: 1, aminokyseliny 7140-7211 SEQ ID NO:
• ···· ·· ·· ·· ··· ···· ··· • ··· · · · · · • · · · · ···· • · · · · · · ··· ··· ·· ···· ·· ·
5) . Tento modul inkorporuje propionátovú predlžovaciu jednotku (C24 a C8-C7) a úplne redukuje β-ketoskupinu na C9.
epoD (nukleotidy 43524-54920 SEQ ID NO: 1) kóduje EPOS D (SEQ ID NO: 6) , polyketidsyntázu typu I skladajúcu sa z 2 modulov. Prvý modul obsahuje KS (nukleotidy 43626-44885 SEQ ID NO: 1, aminokyseliny 35-454 SEQ ID NO: 6), metylmalonyl CoA-špecifickú AT (nukleotidy 45204-46166 SEQ ID NO: 1, aminokyseliny 561-881 SEQ ID NO: 6), KR (nukleotidy 46950-47702 SEQ ID NO: 1, aminokyseliny 1143-1393 SEQ ID NO: 6) a ACP (nukleotidy 47811-48032 SEQ ID NO: 1, aminokyseliny 1430-1503 SEQ ID NO: 6). Tento modul inkorporuje propionátovú predlžovaciu jednotku (C23 a C6-C5) a redukuje β-ketoskupinu na C7 na hydroxylovú skupinu. Druhý modul obsahuje KS (nukleotidy 48087-49361 SEQ ID NO: 1, aminokyseliny 1522-1946 SEQ ID NO: 6), metylmalonyl-CoA špecifickú AT (nukleotidy 49680-50642 SEQ ID NO: 1, aminokyseliny 2053-2373 SEQ ID NO: 6), DH (nukleotidy 50670-51176 SEQ ID NO: 1, aminokyseliny 2383-2551 SEQ ID NO: 6), metyltransferázu (MT, nukleotidy 51534-52657 SEQ ID NO: 1, aminokyseliny 2671-3045 SEQ ID NO: 6), KR (nukleotidy 53697-54431 SEQ ID NO: 1, aminokyseliny 3392-3636 SEQ ID NO: 6) a ACP (nukleotidy 54540-54758 SEQ ID NO: 1, aminokyseliny 3673-3745 SEQ ID NO: 6). Tento modul inkorporuje propionátovú predlžovaciu jednotku (C21 alebo C22 a C4-C3) a redukuje β-ketoskupinu na C5 na hydroxylovú skupinu. Táto redukcia je neočakávaná, pretože epothilony obsahujú ketoskupinu na C5. Nezrovnalosti tohto druhu medzi dedukovanou redukujúcou schopnosťou PKS modulov a redoxným stavom zospovedajúcich pozícií vo výsledných polyketidových produktoch sú publikované v literatúre (pozri napríklad Schwecke a kol., Proc. Natl. Acad. Sci. USA, 92, 7839-7843, 1995, a Schupp a kol., FEMS Microbiology Letters, 159, 201-207, 1998). Dôležitý charakteristický rys epothilonov je prítomnosť gem-metylových postranných skupín na
C4 (C21 a C22) . Predpokladá sa, že druhý modul EPOS D inkorporuje propionátovú jednotku do rastúceho polyketidového reťazca, s poskytnutím jedného metylového postranného reťazca na C4. Ten• ···· ·· ·· ·· «· · ···· ··· • ··· · · · · · • · · · 9 9 9 999 999 99 9999 99 999 to modul obsahuje tiež metyltransferázovú doménu integrovanú do PKS medzi domény DH a KR, v usporiadaní podobnom usporiadaniu, ktoré sa pozorovalo u HMWP1 yersiniabactinsyntázy (Gehring,
A.M., DeMoll, E., Fetherston, J.D., Mori, I., Mayhew, G.F., Blattner, F.R., Walsh, C.T. a Perry, R.D.: Iron acquisition in plague: modular logic in enzymatic biogenesis of yersiniabactin by Yersinia pestis. Chem. Biol., 5, 573-586, 1998). Predpokladá sa, že táto MT doména v EPOS D je zodpovedná za inkorporáciu druhej metylovej postrannej skupiny (C21 alebo C22) na C4.
epoE (nukleotidy 54935-62254 SEQ ID NO: 1) kóduje EPOS E (SEQ ID NO: 7), polyketidsyntázu typu I skladajúcu sa z 1 modulu, obsahujúcu KS (nukleotidy 55028-56284 SEQ ID NO: 1, aminokyseliny 32-450 SEQ ID NO: 7), malonyl-CoA špecifickú AT (nukleotidy 56600-57565 SEQ ID NO: 1, aminokyseliny 556-877 SEQ ID NO: 7), DH (nukleotidy 57593-58087 SEQ ID NO: 1, aminokyseliny 887-1051 SEQ ID NO: 7), pravdepodobne nefunkčnú ER (nukleotidy 59366-60304 SEQ ID NO: 1, aminokyseliny 1478-1790 SEQ ID NO: 7), KR (nukleotidy 60362-61099 SEQ ID NO: 1, aminokyseliny 1810-2055 SEQ ID NO: 7), ACP (nukleotidy 61211-61426 SEQ ID NO: 1, aminokyseliny 2093-2164 SEQ ID NO: 7) a tioesterázu (TE) (nukleotidy 61427-62254 SEQ ID NO: 1, aminokyseliny 2165-2439 SEQ ID NO: 7). ER doména v tomto module obsahuje motív aktívneho miesta s niektorými vysoko neobvyklými substitúciami aminokyselín, ktoré pravdepodobne robia túto doménu neaktívnou. Modul inkorporuje acetátovú predlžovaciu jednotku (C2-C1) a redukuje β-ketoskupinu na C3 na enoylovú skupinu. Epothilony obsahujú hydroxylovú skupinu na C3, takže táto redukcia sa tiež javí nadmerná, ako je opísané pri druhom module EPOS D. TE doména EPOS E sa zúčastňuje uvoľnenia a cyklizácie vytvoreného polyketidového reťazca prostredníctvom laktonizácie medzi karboxylovou skupinou Cl a hydroxylovou skupinou C15.
Päť ORF sa detegovalo upstream od epoA v sekvenovanej oblasti. Čiastočne sekvenovaný orŕl nemá žiadne homológy v databázach sekvencii. Dedukovaný proteínový produkt (Orf 2, • ···· ·· ·· ·· ··· ···· · · · • ··· 9 9999
9 9 9 9 99
9999 99999
SEQ ID NO: 10) orf2 (nukleotidy 3171-1900 na reverznom komplementárnom vlákne SEQ ID NO: 1) vykazuje výraznú podobnosť s hypotetickými ORF z Mycobacterium a Streptomyces coelicolor, a vzdialenejšiu podobnosť s karboxypeptidázami a DD-peptidázami rôznych baktérii. Dedukovaný proteínový produkt orf3 (nukleotidy 3415-5556 SEQ ID NO: 1), Orf 3 (SEQ ID NO: 11), vykazuje homológiu k Na/H prenášačom z rôznych baktérií. Orf 3 sa možno zúčastňuje exportu epothilonov z produkujúceho kmeňa. or f 4 a orf5 namajú žiadne homológy v databázach sekvencií.
Jedenásť ORF sa našlo downstream od epoE v sekvenovanej oblasti. epoF (nukleotidy 62369-63628 SEQ ID NO: 1) kóduje EPOS F (SEQ ID NO: 8), dedukovaný proteín s výraznou podobnosťou sekvencie s oxygenázami cytochrómu P450. EPOS F sa môže zúčastniť regulácie redoxného stavu atómov uhlíka C12, C5 a/alebo C3. Dedukovaný proteínový produkt orf!4 (nukleotidy 67334-68251 SEQ ID NO: 1), Orf 14 (SEQ ID NO: 22) vykazuje výraznú podobnosť s GI:3293544, hypotetickým proteínom bez predpovedanej funkcie zo Sreptomyces coelicolor, a tiež s GI:2654559, ľudským embryonálnym pľúcnym proteínom. Je tiež vzdialenejšie príbuzný s proteínovými prenášačmi katiónov ako je GI:2623026 z Methanobacterium thermoautotrophicum, takže sa môže tiež zúčastniť exportu epothilonov z produkujúcich buniek. Zvyšné ORF (orf6-orŕl3 a orfl5) neukazujú žiadne homológie s položkami v databázach sekvencií.
Príklad 13
Rekombinar.tná expresia génov pre biosyntézu epothilonu
Gény epothilonsyntázy podľa predloženého vynálezu sa exprimovali v heterológnych organizmoch s cieľom produkcie epothilonu vo väčšom množstve ako sa môže dosiahnuť fermentáciou Sorangium cellulosum. Výhodný hostiteľ pre heterológnu expresiu je Streptomyces, napríklad Streptomyces coelicolor, ktorá prirodzene produkuje polyketid aktinorhodin. Techniky pre rekombinantnú PKS ···· ·· ·· ·· • · · · · · · ··· · · · e · • · · e · · ··· ·· ···· ·· · génovú expresiu v hostiteľovi sú opísané autormi McDaniel a kol. (Science, 262, 1546-1550, 1993) a Kao a kol. (Science, 265, 509-512, 1994). (Pozri tiež Holmes a kol., EMBO Journal, 12(8),
3183-3191, 1993, a Bibb a kol., Gene, 38, 215-226, 1985, a tiež v patentoch USA č. 5 521 077, 5 672 491 a 5 712 146, ktoré sú tu zahrnuté formou odkazu.
je heterológny hostitelský kmeň upravený metódami genetického inžinierstva tak, aby obsahoval chromozómovú deléciu aktinorhodinového (act) génového klustera. Expresné gény epothilonsyntázy podľa vynálezu sú plazmidu citlivého na do E. coli (McDaniel
Podlá jednej metódy plazmidy obsahujúce konštruované prenosom DNA z donorového teplotu na recipientný kyvadlový vektor a kol., 1993 a Kao a kol. 1994) tak, zabudované homológnou rekombináciou do kluster epothilonsyntázy fragmentu. Po (1994), je DNA coelicolor podľa protokolov kol. (Genetic Manipulation že gény syntázy sú vektora. Alebo génový do vektora ligáciou reštrikčného v Kao a kol.
je vložený selekcii, napríklad ako je opísaná z vektora vnesená do kmeňa act-mínus
Streptomyces Hopwood a
Manual, John Innes Foundation, uvedených v práci of Streptomyces.
Norwich, Veľká
Bri, zahrnutej tu formou odkazu.
Rekombinantný kmeň
Streptomyces a produkuje podľa predloženého organizmoch, ako sú zu a/alebo E. coli.
(Hopwood a kol., gény epothilonsyntázy v iných hostiteľských
1985)
Gény PKS a NRPS coli s použitím vektora pT7-7, ktorý Tábor a kol., Proc. Natl. Acad. Sci.
je pestovaný na médiu R2YE epothilony. Alternatívne sú vynálezu exprimované pseudomonády, Bacillus, kvasinky, bunky hmysú výhodne exprimované v E. používa promótor T7. (Pozri
USA, 82,
1074-1078, 1985).
V inom uskutočnení sa použili a pKK223-2 na expresiu génov PKS a kripčnej alebo translačnej fúzii, Expresie génov PKS a NRPS expresné vektory pKK223-3
NRPS v E.
coli, buď v transza promótorom tac alebo trc.
v heterológnych hostiteľoch, ktorí nemajú prirodzene fosfopanteteinyl (P-pant) potrebný na posttranslačnú modifikáciu PKS enzýmov, vyžadujú spoločnú expresiu ···· ·· ·· ·· · • ···· ···· ··· · · · · · · ··· · ··· · · • · · · · · · ··· ·· ···· ·· ··· (koexpresiu) P-pant transferázy v hostiteľovi, ako je opísané autormi Kealey a kol. (Proc. Natl. Acad. Sci. USA, 95, 505-509, 1998) .
Príklad 14
Izolácia epothilonov z produkčných kmeňov
Príklady postupov kultivácie, fermentácie a extrakcie polyketidov, ktoré sú vhodné na prípravu epothilonov ako z natívneho tak rekombinantného hostiteľa podľa predloženého vynálezu sú opísané napríklad v dokumentoch WO 93/10121, Patent USA č. 5 639 949, príklad 57, Gerth a kol., J. Antibiotics 49: 560— 563 (1996), švajčiarska patentová prihláška č. 396/98 podaná
19.februára 1998, patentová prihláška USA č. 09/248 910, opisujúca tiež mutovaný kmeň Sorangium cellulosum, pričom všetky tieto dokumenty sú zahrnuté formou odkazu. Nasledujúce postupy sa použili na izoláciu epothilonov z kultúr Sorangium cellulosum kmeňa So ce90 a môžu sa použiť tiež na izoláciu epothilonov z rekombinantného hostiteľa.
A. Kultivácia kmeňov produkujúcich epothilon
Kmeň: Sorangium cellulosum Soce-90 alebo rekombinantný hostiteľský kmeň podľa predloženého vynálezu
Uchovávanie kmeňa: v kvapalnom N2.
Kultivačné médiá: Predkultúry a medzikultúry: G52
Hlavná kultúra: 1B12 ·· • ···· ·· ·· ··· ···· · · · • ··· · · · · · • · · · · ···· • · · · · · · ··· ··· ·· ···· ·· ·
Médium G52:
extrakt z kvasiniek, nízky obsah solí (Springer, Maison Alfort, Francúzsko)
MgSO4 (7 H20)
CaCl2 (2 H20) odtučnená sója Soyamine 50 T (Lucas Meyer, Hamburg, Nemecko) zemiakový škrob Noredux A-150 (Blattmann, Wadenswil, Švajčiarsko) bezvodá glukóza
Na soľ Fe(III)-EDTA (8 g/1) g/1 g/1 g/1 g/1 g/1 g/1 g/1 pH 7,4, korigované KOH
Sterilizácia: 20 minút, 120°C
Médium 1B12:
zemiakový škrob Noredux A-150 (Blattmann, Wadenswil, 20 g/i
Švajčiarsko)
odtučnená sója Soyamine 50 T (Lucas Meyer, Hamburg, 11 g/i
SRN)
Na-soľ EDTA-Fe(III) 8 g/i
pH 7,4, korigované KOH
Sterilizácia: 20 minút, 120°C
Pridanie cyklodextrínov a derivátov cyklodextrínu:
Cyklodextríny (Fluka, Buchs, Švajčiarsko, alebo Wacker Chemie, Mníchov, SRN) v rôznych koncentráciách sa sterilizovali samostatne a pridali k médiu 1B12 pred zaočkovaním.
Kultivácia ml suspenzie Sorangium cellulosum Soce-90 z ampulky uchovávanej v kvapalnom dusíku sa preniesol do 10 ml média G52 (v 50 ml Erlenmeyerovej banke) a inkuboval 3 dni na trepačke pri 180 rpm v 30°C, posun 25 mm. 5 ml tejto kultúry sa potom pridalo k 45 ml média G52 (v 200 ml Erlenmeyerovej banke) a inkubovalo 3 dni pri trepaní 180 rpm v 30°C, posun 25 mm. 50 ml tejto kultúry sa potom pridalo k 450 ml média G52 (v Erlenmeyerovej banke s objemom 2 1) a inkubovalo 3 dni pri trepaní 180 rpm v 30°C, posun 50 mm.
Udržiavacia kultúra
Kultúra sa preočkovala každé 3 až 4 dni, a to tak, že 50 ml kultúry sa pridalo k 450 ml média G52 (v 2 1 Erlenmeyerovej banke) . Všetky experimenty a fermentácie sa uskutočňovali vždy tak, že sa začalo touto udržiavacou kultúrou.
Testy v kultivačných fľaškách
I) Predkultúra v pretrepávanej kultivačnej fľaške
Kultivácia sa zahájila z 500 ml udržiavacej kultúry, 1 x 450 ml média G52 sa zaočkovalo 50 ml udržiavacej kultúry a inkubovalo počas 4 dní na trepačke so 180 rpm v 30°C pri 50 mm posune.
II) Hlavná kultúra v pretrepávanej kultivačnej fľaške ml média 1B12 s 5 g/1 4-morfolínpropánsulfónovej kyseliny (MOPS) v prášku (v 200 ml Erlenmeyerovej banke) sa zmiešalo s 5 ml lOx koncentrovaného roztoku cyklodextrínu, inokulovalo 10 ml predkultúry a inkubovalo 5 dní na trepačke pri 180 rpm v 30°C s posunom 50 mm.
Fermentácia
Fermentácie sa uskutočnili v meradle 10 litrov, 100 litrov a 500 litrov. Fermentácie s objemami 20 1 a 100 1 slúžili ako medzistupne pri kultivácii. Zatiaľ čo predkultúry a medzikultúry sa ako udržiavacie kultúry inokulovali 10% (objem.), hlavné kultúry sa inokulovali 20% (objem.) medzikultúry. Dôležité je, že na rozdiel od kultúr, ktoré sa trepali, zložky kultivačného média pre fermentáciu sú vypočítané vzhľadom na výsledný objem kultúry, vrátane inokula. Takže napríklad ak sa zmiešalo 18 1 média a 2 1 inokula, odvážili sa zložky média pre 20 1, aj keď sa namiešali do 18 litrov.
Predkultúra v pretrepávanej kultivačnej fľaške • ···· ·· ·· ·· · • 9 9 9 9 9 9 9 9 99
999 999999
9 9 9 9 9 9 9 99
9 9 9 9 9 99
999 999 99 9999 99999
Kultivácia sa zahájila z 500 ml udržiavacej kultúry, 4 x 450 ml média G52 (v 2 litrových Erlenmeyerových bankách) sa inokulovalo 50 ml udržiavacej kultúry a inkubovalo počas 4 dní na trepačke so 180 rpm v 30°C pri 50 mm posune.
Medzikultúry s objemom 20 alebo 100 litrov litrová kultúra: 18 1 média G52 vo fermentore s celkovým objemom 30 1 sa inokulovalo 2 1 predkultúry. Kultivácia prebiehala 3 až 4 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), bez kontroly pH.
100 litrová kultúra: 90 1 média G52 vo fermentore s celkovým objemom 150 1 sa inokulovalo 20 1 medzikultúry. Kultivácia prebiehala 3 až 4 dni v nasledujúcich podmienkach: 30°C, 150 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), bez kontroly pH.
Hlavné kultúry s objemom 10, 100 a 500 litrov litrová kultúra: Zložky pre 10 1 média 1B12 sa sterilizovali v 7 1 vody, potom sa pridal 1 1 sterilného roztoku 10%
2-hydroxypropyl-p-cyklodextrínu a médium sa inokulovalo 2 1 z 20 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dní v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H2SO4/KOH na hodnotu pH 7,6 ± 0,5 (to znamená, žiadna regulácia pre pH 7,1 až 8,1).
100 litrová kultúra: Zložky pre 100 1 média 1B12 sa sterilizovali v 70 1 vody, potom sa pridalo 10 1 sterilného roztoku 10% 2-hydroxypropyl-p-cyklodextrinu a médium sa inokulovalo 20 1 z 20 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H2SO4/KOH na hodnotu pH 7,6 + 0,5. Celý postup inokulácií pre výslednú 100 litrovú fermentáciu je znázornený ···· ·· ·· ·· • ···· · · · ··· · · ·e ·
9 9 999 • 9 9999 99· ďalej uvedenou schémou.
500 litrová kultúra: Zložky pre 500 1 média 1B12 sa sterilizovali v 350 1 vody, potom sa pridalo 50 1 sterilného roztoku 10% 2-hydroxypropyl^-cyklodextrinu a médium sa inokulovalo 100 1 zo 100 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H2SO4/KOH na hodnotu pH 7,6 ± 0,5.
udržovacia kultúra (500 ml) médium G52
predkultúra (4 x 500 ml) médium G52
10% medzikultúra (napr. 20 1) médium G52 udržovacia kultúra (500 ml) médium G52
20% hlavná kultúra (napr. 100 1) médium + ΗΡ-β-CD
Analýza produktov
Príprava vzoriek:
ml vzorky sa zmiešalo s 2 ml polystyrénovej živice Amberlite XAD-16 (Rohm & Haas, Frankfurt, SRN) a trepalo pri 180 rpm 1 hodinu v 30°C. Živica sa potom odfiltrovala použitím 150 pm nylonového sita, opláchla malým množstvom vody a potom vložila aj s filtrom do 15 ml skúmavky Nunc.
···· ··· · · · · · · · • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ···
Elúcia produktu zo živice ml izopropanolu (>99%) sa pridalo do skúmavky s filtrom a živicou. Potom sa zatvorená skúmavka trepala 30 minút pri teplote miestnosti na zariadení Rota-Mixer (Labinco BV, Holandsko). 2 ml tejto tekutiny sa centrifugovali a supernatant sa pipetou naniesol do HPLC skúmaviek.
HPLC analýza:
Kolóna: Waters-Symetry C18, 100 x 4 mm, 3,5 μιη
WATO66220 + predkolóna 3,9 x 20 mm
WATO54225
Rozpúšťadlá: A: 0,02% kyselina fosforečná
B: acetonitril (kvalita pre HPLC)
Gradient: 41% B od 0. do 7. minúty
100% B v intervale od 7,2 do 7,8 minúty
41% B od 8. do 12. minúty
Teplota: 30°C
Detekcia: 250 nm, UV-DAD detekcia
Injikovaný objem: 10 μΐ
Retenčný čas: Epo A: 4,30 minúty, Epo B: 5,38 minúty
B. Účinok pridania cyklodextrínu a derivátov cyklodextrínu na dosiahnuté koncentrácie epothilonov
Cyklodextríny sú cyklické oligosacharidy a-D-glukopyranózy spojené (a-1,4)väzbou obsahujúcou relatívne hydrofóbnu centrálnu dutinu a hydrofilnú oblasť vonkajšieho povrchu.
Rozoznávajú sa najmä nasledujúce (v zátvorke je uvedený počet glukózových jednotiek v jednej molekule):
a-cyklodextrín (6), δ-cyklodextrín (9), β-cyklodextrín (7), γ-cyklodextrín (8), ε-cyklodextrín (10), ξ-cyklodextrín (11), η-cyklodextrín (12) a θ-cyklodextrín (13) .
Zvlášť výhodný je ·· • · · • · ···· ··· ·· ·· φ · · · • · · • · ·· ···· • · ·· δ-cyklodextrín a najmä α-cyklodextrin, β-cyklodextrin alebo γ-cyklodextrin alebo ich zmesi.
Cyklodextrinové deriváty sú najmä deriváty skôr uvedených cyklodextrínov, najmä a-cyklodextrín, β-cyklodextrin, γ-cyklodextrín, hlavne také, kde jeden alebo niekoľko až všetky hydroxylové skupiny (3 v jednej glukózovej jednotke) sú éterifikované alebo esterifikované. Étery sú hlavne alkylétery, najmä nižších alkylov ako je napríklad metyléter alebo etyléter, a tiež propyl- alebo butyléter, ďalej arylhydroxyalkylétery, ako je fenylhydroxy(nižší)alkyl, hydroxyalkylétery, najmä hydroxy(nižší)alkylétery ako hlavne hydroxypropyl- alebo hydroxybutylétery ako je 2-hydroxybutyléter, karboxylalkylétery, najmä karboxy(nižší)alkylétery, ako karboxymetyl- alebo karboxyetyléter, derivatizované karboxyalkylétery, najmä derivatizované karboxy(nižší)alkylétery, kde derivatizované karboxylová skupina je éterifikovaná alebo amidovaná karboxylová skupina (najmä napríklad aminokarbonylová, mono- alebo di(nižší)alkylaminokarbonylová skupina, morfolino-, piperidino-, pyrolidino- alebo piperazínkarbonylová alebo alkyloxykarbonylová skupina), najmä (nižší)alkoxykarbonyl(nižší)alkyléter, napríklad metyloxykarbonylpropyléter alebo etyloxykarbonylpropyléter, sulfoalkylétery, najmä sulo(nižší)alkylétery, najmä sulfobutyléter, cyklodextríny, kde jedna alebo niekoľko skupín OH je éterifikovaná radikálom podľa vzorca:
-O-[alk-O-]n-H kde alk je alkylová skupina, najmä nižšia alkylová skupina a n je celé čílo od 2 do 12, zvlášť 2 až 5, ešte výhodnejšie 2 alebo 3, cyklodextríny, kde jedna alebo niekoľko skupín OH je éterifikovaná(ných) radikálom podľa vzorca:
(Alk-O)Alk----O • ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ·· ···· ·· ··· kde R je vodík, hydroxylovú skupina, -O-(alk-O) 2-H, -O-(alk(-R)-O-)p-H alebo -O-(alk(-R)-O-)q-alk-CO-y, pričom alk znamená alkylovú skupinu, najmä nižšiu alkylovú skupinu am, n, p, q a z sú celé čísla 1 až 12, výhodne 1 až 5, zvlášť výhodne 1 až 3 a Y je OR1 alebo NR2R3, kde R1, R2 a R3 navzájom nezávisle sú atómy vodíka alebo nižšie alkylové skupiny, alebo R2 a R3 kombinované spolu s väzbovým atómom dusíka sú morfolínová, piperidínová, pyrolidínová alebo piperazinová skupina, alebo rozvetvené cyklodextríny, kde je prítomná éterifikácia alebo sa vyskytujú acetálové väzby s inými molekulami cukru, najmä glukozyl-, diglukozyl-(G2-[β-cyklodextrin), maltozyl- alebo dimaltozylcyklodextrin alebo Ν-acetylglukozaminyl-, glukozaminyl, N-acetylgalaktozaminyl- alebo galaktozaminylcyklodextrín.
Estery sú najmä alkanoylestery, zvlášť nižšie alkanoylestery ako napríklad acetylestery cyklodextrínov.
Je mcžné tiež použiť cyklodextríny, kde sú súčasne prítomné dve alebo viac odličných éterových alebo esterových skupín.
Tiež môžu existovať zmesi dvoch alebo viacerých cyklodextrínov a/alebo derivátov cyklodextrínov.
Výhodné sú a-cyklodextrín, β-cyklodextrín, y-cyklodextrín alebo ich nižšie alkylétery, ako je napríklad metyl^-cyklodextrín alebo najmä 2,6-di-0-metyl^-cyklodextrín, alebo najmä ich hydroxy(nižší)alkylétery ako je 2-hydroxypropyl-a-cyklodextrín, 2-hydroxypropyl^-cyklodextrín alebo 2-hydroxypropyl-y-cyklodextrín.
Cyklodextríny alebo deriváty cyklodextrínov sú pridávané do kultivačného média výhodne v koncentráciách 0,02 až 10, výhodne 0,05 až 5, zvlášť výhodne 0,1 až 4, napríklad 0,1 až 2% (hmotnosť /objem) .
Cyklodextríny alebo deriváty cyklodextrínov sú známe a je ich možné pripraviť známymi spôsobmi (pozri napríklad patentové • ···· ·· ·· ·· ··· ···· · · · • ··· · · · · · • ···· ···· • · · · · · · ··· ··· ·· ···· ·· · dokumenty US 3 459 731,US 4 383 992, US 4 535 152, US 4 659 696, EP 0 094 157, EP 0 149 197, EP 0 197 571, EP 0 300 526, EP 0 320 032, EP 0 499 322, EP 0 503 710, EP 0 818 469, WO 90/12035, WO 91/11200, WO 93/19061, WO 95/08993, WO 96/14090, GB 2 189 245, DE 3 118 218, DE 3 317 064 a tu citované dokumenty, ktoré sa týkajú syntézy cyklodextrinov, a tiež: T. Loftsson a M.E. Brewster (1996): Pharmaceutical Applications of Cyclodex trins: Drug Solubilization and Stabilisation: Journal of Pharmaceutical Science 85 (10):1017-1025; R.A. Rajewski a V.J.
Stella (1996): Pharmaceutical Applications of Cyclodextrins: In
Vivo Drug Delivery: Journal of Pharmaceutical Science 85 (11):
1142-1169).
Všetky tu testované deriváty cyklodextrinu pochádzali od firmy Fluka, Buchs, Švajčiarsko. Testy sa uskutočňovali v 200 ml pretrepávaných fľaškách s kultúrou s objemom 50 ml. Ako kontroly slúžili fľašky s adsorpčnou živicou Amberlite XAD-16 (Rohm & Haas, Frankfurt, SRN) a bez prídavku živice. Po 5 dennej kultivácii sa pomocou HPLC stanovili titre epothilonov uvedené v nasledujúcej tabuľke 2:
Tabuľka 2
Prídavok poradové číslo koncentrácia [%]x Epo A [mg/1] Epo B [mg/1]
Amberlite XAD-16 (obj./obj.) 2.0 9.2 3.8
2-hydroxypropyl-p- -cyklodextrín 56332 0.1 2.7 1.7
2-hydroxypropyl-p- -cyklodextrín U 0.5 4.7 3.3
2-hydroxypropyl~3- -cyklodextrín w 1.0 4.7 3.4
2-hydroxypropyl-3~ -cyklodextrín u 2.0 4.7 4.1
• ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ·· ···· ·· ···
2-hydroxypropyl-p- -cyklodextrin 5,0 1,7 0,5
2-hydroxypropyl- a-cyklodextrin 56330 0,5 1,2 1,2
2-hydroxypropyl- a-cyklodextrin W 1,0 1,2 1,2
2-hydroxypropyl- a- -cyklodextrín w 5,0 2,5 2,3
β-cyklodextrin 28707 0,1 1,6 1,3
β-cyklodextrín W 0,5 3,6 2,5
β-cyklodextrin w 1,0 4,8 3,7
β-cyklodextrin 2,0 4,8 2,9
β-cyklodextrin \> 5,0 1,1 0,4
metyΙ-β-cyklodextrin 66292 0,5 0,8 <0,3
metyl^-cyklodextrín W 1,0 <0,3 <0,3
metyl^-cyklodextrín u 2,0 <0,3 <0,3
2,6 di-o-metyl-β- -cyklodextrin 39915 1,0 <0,3 <0,3
2-hydroxypropyl-y- -cyklodextrin 56334 0,1 0,3 <0,3
2-hydroxypropyl-y- -cyklodextrin W 0,5 0,9 0,8
2-hydroxypropyl-y- -cyklodextrin \A 1,0 1,1 0,7
2-hydroxypropyl-y- -cyklodextrin W 2,0 2,6 0,7
2-hydroxypropyl-y-cyklodextrin W 5,0 5,0 1,1
bez prídavku 0, 5 0, 5
ostatné údaje v hmotnostných % (hmotnosť/objem).
okrem Amberlitu, kde sú údaje v objemových % (objem/objem) sú
···· ·· ·· ·· ·
• · ··
···
·· ···· ·· ··
Niekoľko testovaných cyklodextrinov neprejavilo žiadny účinok (2,6-di-o-metyl-p-cyklodextrín, metyl-p-cyklodextrín) alebo negatívny účinok na produkciu epothilonov pri použitých koncentráciách. 1% až 2% 2-hydroxypropyl-p-cyklodextrín a β-cyklodextrin zvýšili v príkladoch produkciu epothilonu 6 až 8 krát v porovnaní s kontrolou bez prídavku cyklodextrinov.
C. 10 litrová fermentácia s 1% 2-hydroxypropyl-p-cyklodextrínom
Fermentácia sa uskutočňovala v 15 litrovom sklenenom fermentore. Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrínu od firmy Wacker Chemie, Mníchov, SRN. Postup fermentácie je ilustrovaný v tabuľke 3. Fermentácia sa skončila po 6 dňoch a uskutočnilo sa spracovanie produktu.
Tabuľka 3
Postup fermentácie v objeme 10 1
trvanie kultúry [dni] Epothilon A [mg/1] Epothilon B [mg/1]
0 0 0
1 0 0
2 0,5 0,3
3 1,8 2,5
4 3,0 5,1
5 3,7 5,9
6 3,6 5,7
D. Fermentácia s 1% 2-hydroxypropyl-P-cyklodextrínom v objeme 100 1
Fermentácia sa uskutočňovala v 150 litrovom fermentore.
Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrínu. Postup • ···· ·· ·· · · ··· ···· ··· • ··· · · · · · • · · · · · ·· ···· ·· · fermentácie je ilustrovaný v tabuľke 4. Fermentácia sa skončila po 7 dňoch a uskutočnilo sa spracovanie produktu.
Tabuľka 4
Postup fermentácie v objeme 100 1
trvanie kultúry [dni] Epothilon A [mg/1] Epothilon B [mg/1]
0 0 0
1 0 0
2 0,3 0
3 0,9 1,1
4 1,5 2,3
5 1,6 3,3
6 1,8 3,7
7 1,8 3, 5
E. Fermentácia s 1% 2-hydroxypropyl-3-cyklodextrinom v objeme 500 1
Fermentácia sa uskutočňovala v 750 litrovom fermentore. Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrinu. Postup fermentácie je ilustrovaný v tabuľke 5. Fermentácia sa skončila po 7 dňoch a uskutočnilo sa spracovanie produktu.
• ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ·
Tabulka 5
Postup fermentácie v objeme 100 1
trvanie kultúry [dni] Epothilon A [mg/l] Epothilon B [mg/l]
0 0 0
1 0 0
2 0 0
3 0,6 0,6
4 1,7 2,2
5 3,1 4,5
6 3,1 5,1
F. Porovnanie 10 litrovej fermentácie bez prídavku adsorpčného činidla
Fermentácia sa uskutočňovala v 15 litrovom sklenenom fermentore. Médium neobsahovalo žiadny cyklodextrín ani iné adsorpčné činidlo. Postup fermentácie je ilustrovaný v tabuľke 6. Fermentácia nebola odobraná a spracovaná na produkt.
Tabuľka 6
Postup fermentácie v objeme 10 1 bez prídavku adsorpčného činid la
trvanie kultúry [dni] Epothilon A [mg/l] Epothilon B [mg/l]
0 0 0
1 0 0
2 0 0
3 0 0
• • · • ···· • ··· ·· • · • · ·· • · • • · • · • · • • · •
• • • · ·· • ···· • · ·· • • · ·
4 0,7 0,7
5 0,7 1,0
6 o OO | 1,3
G. Spracovanie epothilonov: Izolácia z 500 litrovej hlavnej kultúry
Objem odobranej kultúry z 500 litrovej fermentácie opísanej v príklade D bol 450 1 a separoval sa pomocou čistiaceho separátora Westfalia SA-20-06 (rpm = 6500) na tekutú fázu (supernatant + preplachovacia voda = 650 1) a pevnú fázu (bunky = asi 15 kg) . Hlavná časť epothilonov sa nachádzala v supernatante. Bunková kaša po centrifugácii obsahovala menej ako 15% stanovených epothilonov a nebola ďalej spracovávaná. 650 1 centrifugátu sa prenieslo do 4000 litrovej miešacej nádoby, zmiešalo s 10 1 živice Amberlit XAD-16 (objem centrifugát:živica = 65:1) a premiešalo. Po kontaktnom čase asi 2 hodiny sa živica odstránila použitím Heineho prietokovej centrifúgy (objem koša 40 1, rpm = = 2800). Živica sa potom vybrala z centrifúgy a opláchla 10 až 15 1 deionizovanej vody. Desorpcia sa uskutočnila dvakrát, vždy po častiach s 30 1 izopropanolu v 30 litrovej sklenenej miešacej nádobe počas 30 minút. Oddelenie izopropanolovej fázy od živice sa uskutočnilo sacím filtrom. Izopropanol sa potom odstránil zo zmiešaných izopropanolových fáz prídavkom 15 až 20 1 vody vo vákuovom cirkulačnom evaporátore (Schmid-Verdampfer) a výsledná vodná fáza s objemom asi 10 1 sa extrahovala 3 x vždy 10 1 etylacetátu. Extrakcia prebiehala v sklenenej miešacej nádobe s objemom 30 1. Etylacetátové extrakty sa koncentrovali na objem 3 až 5 1 vo vákuovom cirkulačnom evaporátore (Schmid-Verdampfer) a potom koncentrovali do sucha v rotačnom evaporátore (typ Buchi) pod vákuom. Získal sa etylacetátový extrakt s hmotnosťou
50,2 g. Tento etylacetátový extrakt sa rozpustil v 500 ml metanolu, nerozpustný podiel sa odfiltroval pomocou skladaného filtra a roztok sa naniesol na kolónu s 10 kg Sephadexu LH 20 ·· • ···· ·· ·· ··· ···· · · · : ···..: : .: :
• · · · · · · ··· ··· ·· ···· ·· · (Pharmacia, Sweden) (kolóna s priemerom 20 cm, hladina plnenia asi 1,2 m). Na elúciu sa použil metanol ako elučné činidlo. Epothilony A a B boli prítomné hlavne vo frakciách 21 až 23 (veľkosť frakcie je 1 liter). Tieto frakcie sa koncentrovali do sucha v rotačnom evaporátore vo vákuu (celková hmotnosť 9,0 g). Potom tieto vrcholové Sephadexové frakcie (9,0 g) sa rozpustili v 92 ml zmesi acetonitril:voda:metylénchlorid = 50:40:2, roztok sa filtroval cez skladaný filter a potom naniesol na kolónu RP (zariadenie Prepbar 200, Merck, 2,0 kg LiChrospher RP-18 Merck, zrnitosť 12 μιη, priemer kolóny 10 cm, hladina plnenia 42 cm, Merck, Darmstadt, SRN). Elúcia sa uskutočnila zmesou acetonitril:voda = 3:7 (prietok = 500 ml/min., retenčný čas epothilonu A = asi 51 až 59 minút, retenčný čas epothilonu B = asi 60 až 69 minút). Frakcionácia sa monitorovala UV detektorom pri 250 nm. Frakcie sa koncentrovali do sucha v rotačnom evaporátore typu Buchi. Hmotnosť vrcholovej frakcie epothilonu A bola 700 mg a podľa analýzy HPLC (vonkajší štandard) a obsahovala ho 75,1%. Hmotnosť vrcholovej frakcie epothilonu B bola 1980 mg a podľa analýzy HPLC (vonkajší štandard) ho obsahovala 86,6%. Nakoniec sa frakcia epothilonu A (700 mg) kryštalizovala zo zmesi etylacetát:toluén = 2:3 a výťažok bol 170 mg čistej kryštálovej formy typu A (obsah podľa HPLC (% plochy) = 94,3%)). Kryštalizácia frakcie epothilonu B (1980 mg) sa uskutočnila z 18 ml metanolu a výťažok bol 1440 mg čistej kryštálovej formy epothilonu B (obsah podľa HPLC (% plochy) = 99,2%)). Teplota topenia epothilonu B je 124°C-125°C, 1H-NMR dáta pre epothilon B sú nasledujúce:
500 Mhz-NMR, rozpúšťadlo: DMSO-d6, chemický posun δ v ppm vzhľadom na TMS, s = singlet, d = dublet, m = multiplet.
δ (multiplicita) Integrál (počet H)
7,34 (s) 1
6,50 (s) 1
9999 99 99 99
9 9 9 9 9 9 9 9
999 99 999
Ί3
9 9 9 9 9 9
9999 99 999
5,28 (d) 1
5,08 (d) 1
4,46 (d) 1
4,08 (m) 1
3, 47 (m) 1
3, 11 (m) 1
2,83 (dd) 1
2, 64 (s) 3
2,36 (m) 2
2,09 (s) 3
2,04 (m) 1
1,83 (m) 1
1, 61 (m) 1
1,47 - 1,24 (m) 4
1,18 (s) 6
1,13 (m) 2
1,06 (d) 3
0,89 (d + s, prekryv) 6
Σ = 41
Príklad 15
Lekárske použitie rekombinantné pripravených epothilonov
Farmaceutické prípravky obsahujúce epothilony sa používajú napríklad na liečenie rakovinových ochorení, ako sú napríklad ľudské tuhé tumory. Také farmaceutické prípravky obsahujú účinné množstvo epothilonu spoločne alebo v zmesi s významným množstvom jednej alebo niekoľkých organických alebo anorganických,
·· ·· ·· • · ·· · kvapalných alebo tuhých, farmaceutický prijateľných látok vo funkcii nosiča. Farmaceutické prípravky podľa predloženého vynálezu sú určené na enterálne, nazálne, rektálne, perorálne alebo parenterálne podávanie. Dávka účinnej látky závisí od druhu liečeného živočícha, telesnej hmotnosti, veku a individuálneho stavu, individuálnej farmakokinetickej situácii, ochorenia, ktoré sa lieči, a ďalej najmä od spôsobu podávania. Pozri napríklad patenty USA č. 5 496 804, 5 556 478 a 5 641 803, ktoré sú zahrnuté formou odkazu.
Ako prípravok na liečenie sa epothilon B dodáva v samostatných 2 ml sklenených fiolkách formulovaný do číreho, bezfarebného intravenózneho koncentrátu 1 mg/ml. Látka je formulovaná v polyetylénglykole 300 (PEG300) a zriedená 50 alebo 100 ml 0,9% roztoku NaCI (podľa liekopisu) , aby sa dosiahla výsledná požadovaná koncentrácia liečiva na infúziu. Podáva sa ako jednorazová 30 minútová intravenózna infúzia jedenkrát za 21 dni (liečba lx za tri týždne) po 6 cykloch alebo ako jednorazová 30 minútová intravenózna infúzia každých 7 dní (liečba lx za týždeň).
Výhodne sú dávky na liečbu lx za týždeň 0,1 až 6 mg/m2, výhodne 0,1 až 5 mg/m2, výhodnejšie 0,1 až 3 mg/m2, ešte výhodnejšie 0,1 až 1,7 mg/m2, a najvýhodnejšie 0,3 až 1 mg/m2. Na liečbu lx za tri týždne (lx každé tri týždne) sú dávky 0,3 až 18 mg/m2, výhodne 0,3 až 15 mg/m2, výhodnejšie 0,3 až 12 mg/m2, ešte výhodnejšie 0,3 až 5 mg/m2, a najvýhodnejšie 1 až 3 mg/m2. Tieto dávky sú ľuďom výhodne podávané intravenózne (i.v.) v priebehu 2 až 180 minút, výhodne 2 až 120 minút, výhodnejšie 5 až 30 minút a najvýhodnejšie 10 až 30 minút, napríklad 30 minút.
Aj keď sa predložený vynález opísal vzhľadom na špecifické príklady uskutočnenia vynálezu, odborníkovi je zrejmé, že sú možné viaceré variácie a modifikácie uskutočnenia vynálezu, ktoré sú tiež predmetom predloženého vynálezu.
···· ··
Zoznam sekvencií <110> Novartis AG <120> Gény biosyntézy epothilonov <130> 4-30582A <140>
<141>
<160> 30 <170> Patentln Ver. 2.0 <210> 1 <211> 68750 <212> DNA <213> Sorangium cellulosum <400> 1 ttcgcccgcg catgtgctcg atccaggaag ctcgcgcacg cccgactgga gcgcgcggcg gcgcaggagg ccccgcttcg gaggccgagc ctcgcctggc ccagagaatc ggcacatcgg tcgagcaaga atcgtccgcg gcggcggagg gcggtcgctg ttgtactccg gtgctgctcg ttcgtcgcgc atcgtgatgg gcgtgggtca cgctcgacca agcgctttct cggctcgagc ctcggcgagc gtgctgtggg gagcccatcg gacatcttcg tccggcgcct gtgctcaatc agctgacatc gccgctggcg gctcgagagc cgcggcccgg gcacctccga aagcttcgct acggccgggc ccctccgaga gcgacctgac atgcccgcag cgctcgtccg agcgcgagcg cctgcttcgc cgatgtcgcc agctcgcctg atcccgccta tcgccgcggc tcgcctcctg tgtgggagcg tcgagcgcgc tcgcggcggg tcgtgaccga ccggccggat cgcccctcag tgacggaagg tccacgctcg gcgcgccctt gtctccacga ggtgcgagct ccccgagccg tcaccctcaa tcgacaagcg acgtcgtgtc ggcacgtcga tatgggaccg gcatcctgac ccggaccgag gtagacgctg catcacgatc gtcccaccca cgacgccctc cacggagcgg gcacctccgc ggtggagctc cctgaggcac gtggctcgcc agcccgaacc gcccgatctg tgaagtcgcc tgccgcgctg cgagatgctg ctccgcgccc ggaggtcgta gctccggacg cgaggcgatc cgccggcctg cggagacgca ctcgccggtc ccagatgctc cagccccctc cgggttcatg cgtcgtccag gcccgccggc ttcggctggc cttcgcgtac tgcgacccac caccggcgta cgaggaccgg gcacatccgc ccctgacatg gctcgcccgc ctggcgaccc cgccagaaac ccgatcagct tagcgcccgg ccacctctgc ccgtgtgctc gatgatggcc 60 ccgaggcgcg cgggatcgag gacctccgcg 120 gggggccgtc ctttcactgc atgtgcctcg 180 accagcccct cgcgtccatc agcttccacc 240 cctcggacgc gatgctcgtc gacggccccg 300 cgccgggtcc cctccgcgag tacgaagagg 360 cgaggcgcct gtggctcgcg gccgcgccgc 420 aggacgacgc caacgggctg ccgctcggcc 480 ggcgcctccg cgcctcgtac gcgactcctg 540 tcgggacggg cgcgggtccc tggtccggat 600 tgctcctcgg gtttggcctc ccgaccgcga 660 aggccgctct ccgcggcgca gcgcggctgt 720 agagccagct cggcaacatc cccgaagccc 780 cgatgggcaa tgccgacaac ctctctcgct 840 tgcgccgcct gcgcgcacag ccggcgccct 900 gggtctcctc gagcggccgg ctctcgggcc 960 gcgacggcaa cgacatcgtc atgttccaac 1020 ccggaaccga tcccttcttc gagctcgcac 1080 acgccaacgc gggcaccatc tccaaggtcc 1140 caagaaacca ggcgcgaccg atgagcctcg 1200 accaggccat ggtgcccgac cccgagcggg 1260 tcatggaatt cgagcacccc acgcctcgtt 1320 ccctcgcctg cgacgaggag cacctctact 1380 tatggcgcca cccgcaccac cgccccggcg 1440 accccattgc ggcgacctgg tacccctcgc 1500 ccgaccctga tcgcagggcc atcctcgggg 1560 tcctcgcgga gacgcgccat cccccggcgc 1620 cgcttaccgg acagcccgac tcccgcgact 1680 ccaccgtcgt ggccgactac cagcgccagc 1740 ggcgcggcct cttcttcacg acgaacgacc 1800 gctcgacgcc gggccgctca tcgagggcgc 1860 ggccgcagct catgccgatt cggtggcgac 1920 ccccgagaac aggaagccgg cggattgtgt 1980 atcattgatc caggacgtcc cgaacccgcc 2040 gaccgcgtcc ggcgccgtga ccacggccat 2100
• ···· ·· ·· ··
• · · • · • · • ·
• ···
• · · • · • · • ·
• ·
··· ··· • · ···· ·· • · ·
cccataaccc ggccggcgtg gccctcgtgc cgacacgagc cccgtcgcga cgcgaaccga cgcgaggatg caccccctgc cggcagcgtc ctgcgcgttg cgagattccg gggcaccgtc cggcaaccat caccgccgtc catgggcgcg gcgcgcgacc ctcgcgcgcg ggccccaccc ccttctcatg actgcccgcg gcccggccgc gcacgccgct ggcctcaccg gcgcgcgcct ttcggcggcg gccctcttcc ctcctcctgc cgccccgggg ttctcggcgc tcggtgacgg agctatgcgc gtcgcgatga ctcctggcga gcgatgcgct gtcctcacgt gcgttcgcgc ggcgtgcaga cgcgtcgacg gcgaccgcga aggggcagcg atcgtcgcga gccgtcgtcg agggcgcctc gcgtacatcc ttcgccacgg gacatcacgg gcgagccggg cgcgagctgc gtgatcggcg gcgatcgtcc gagcgcgcct gccgccgatc agcgcgcaga gcggtggcgc gtctcgtcgc cgcgccccgt tacctcggca gtcgcgcatg ggaagcgagc tgagcagcgc cgtccgattc gatcgttgaa cggggtcgcg cagccgtgcg aggtgatcgg acaccgccgt ccggcggcgc tccatgcgcg gcgagcttgt cgctcgcgca accaggctcc ccgagccgcc acgagcccga aagcccatcg tcgtcgatcg cggtcgacgg gcggtgaccg ctgccgccga agccagaccg ggcgccagcg aacgcgcacc accgtcgatg cccgaaaaaa ccgctcgggc tgccatgtcc agcggcaggt ccggcgagct tcgtgctggg aggagccggc tgctgatggc cgctctcggc tcgtgctcga cggtcagcgt aggtgacgct cgtcgtcgag gcggattctt gggtggccga tcctggccgc tcggcgtgct cgctcgtggc tgtcgcagct cggcggcgaa aggcggcgct tcgtcggcgt cgctggtcac cgacgcagga ccggggtcga acatcgtgga agctctccgt ggctcgcgag gcggctcgat cgcgatcgcc agcgggccga ccgcgcggcg tcgcggccca ccgatccggg ggagcgtcgt gcgtgcacgt acgatctgct gcacggtcga gagggactcg gcccggctct cttctccgcc catcacgctg ccggacgtgc gtcgctgaag tctcgaagaa ccgtcatctc tcatgagcat ccgaagggaa tcttctcccc ccgccgggac cgaacgcatc ccgtgttgta ggatccactc gctcgtcgat tgaacgtcat gaccatcgat gggagtcgag ccttcgtcat gctcggtcac ctcccggcat cgccggcccc ccggcgccgc cctctccgag tcatcggtgc gcccgcccct ggcctgcacc cctgctctcg cgcgcggcgg cccctccgtc ggtcggggtc gggcatcgag gctcggcgcg tcggcccctt gatcgcgaag cgcggcgggg ctacggcgcg gctgttcatg cgcgacgcgc ggcgctgacg gctcaacagc gggcctcttc gcgcacgccg ggtcgtcccc cgtggcggtg cgagctcggg ggtgaccgcc ggagtcggct gcggatcctc gagcatcgtc ggagcagcag gctcggcgcg ccaggcgatc ggcgcgcgcg gtccaacgtg gatcctcgtc cgtggcgctg cgcggtcgtc cgacgaggcg gggcgcgcac cgtgctcgga gtcggtggtg agagcaggtg gccgacgatc tgacgcgagt gcatagtccg cgggtgcgcc taaacggtga gcccgggaaa gcgcaccgag gcgcgcgaac cgccggcggg cgtctgctcg gtgaaagtcg gaagccctgg catccactgc gtctggcccg ggcccgctgg caggtcgcgc gcgcgccagc gtcgagcttg cgaggcgatc gcccaccgcg ctgccccgcc cgcgtcctgc cacgctgatc cgggggcgcc cccgtcacga ggacgagcaa cacaccgagg ctcgtcaccc ctgcgccagc gtcggcgcgc gtgctctcgg gtcgacgtgg atcgcgcccc ccgagcggcc gtgctgatcg gtggtcagcg tcgcccgcgc gtgctcgtcg gtctccaagg cagcggctcg gctcctcgca gcgcctgtgt gcggcgtggg gccgcgctcg ggcctgaaca ctcctctcca tcacccgcgc cgcctcgagc gtcccgatcg gcctccaagc gcgcccggcc cgcctccgcg ctgcgcgcct cgcggaatgt ctcgtcgtgg ccgatcatcg gcgtgggacg tggcgcgatc gtcttccggg ccgagcgacg tgctacgacc gtccggagcc aggtgaggct gtcactcccg cgagccgggt tatcgcgcgg tcgctggaac tggcgacctg aacgaggacg gcggcgctca aggaggtagt ctggcatagg tcggtgaagt gtgtcccgca tcggccgcgc gcccccggct tgcggcgtca atcggcgacg accgtgatcg accttccggt ccttcctcga cggaagatcg tccacgtgca gccacctccg cctggctgcc aaagctccca tgcccctgcc tcgccgccgg agctcgcccg agccacccac tcgcgctcat ccgaggtgct tcgcgcccgg gcatctcctg gcatcctgcg cgctcgcggc tcttcctcgg agcgcgagtc aggtcgctgc tggcggtcgc ggcggcggct gacaggtgtc gcctgcaccc ccaaccgccc tcttcgtcct ggacggtcgc gcgcgcggct tgaagggcgg acgaggctta tcctcatctg gcgaggaggc tggcgcacgc gaaagctcgg catcgcgcgc tcggcatctg cgcgggatca cgttcggtcg tgggcgaccc gcctcgagta ccgagctcgt gcgagccatc ggcgccggct agataacgcg atgggccgct gggtgccggt tccaccgcgc gtccgtgtag atgctgcacg gatcggctcg ggtcacccgg cgcgtcccgg ccgccttctg agagccgccg cgtccaccgt cgctctcggc aaccgcagcc tcccgagcgg gccccacgag gatgcatgag tcggcaccgg atgcgtcgaa gccgctccgc tcgcgagctc cgagcatcat tgtcccgccg cgtcgtcgcc ccgccatcac cctcctcctc taaactcccg gagagcactg gcgtggctcc cccgcgctca cctgatgcac cctcgtgacc cggggagctc gttccatcga gataggcgcg caaggaggcg gggcgccgcc gatcgtgctc gatgcgccgc ctgggtgctc ccggagcgcg cacccacctc gctcgtcctc gctgctcggc tctcctcgac cgcgggcatg gttgctgctg cggcgggctc cacggacctc tacgatgtac gctcgagaaa cgcgaggcgc cctgcccggg cgagacggtc cgcgggggag gcggcaaagg cgatctgctc cctgcaggac tccggcggcg ctccttcgcc gctgctcagc ccgggtgcgc cggcgtgcgc ggagctcgcg cggccggctc cgcgttgctc tcgcccgtga gcgatcgtgc acgatggggg ggttcggtca taaggcccgg tccgacgcat
2160 2220 2280 2340 2400 2460 2520 2580 2640 2700 2760 2820 2880 2940 3000 3060 3120 3180 3240 3300 3360 3420 3480 3540 3600 3660 3720 3780 3840 3900 3960 4020 4080 4140 4200 4260 4320 4380 4440 4500 4560 4 620 4680 4740 4800 4860 4920 4980 5040 5100 5160 5220 5280 5340 5400 5460 5520 5580 5640 5700 5760 5820 5880 ···· ·· ·· • · · ·· ··· · ·· • · · · · · • ·· · • ··· ·· ···· ·· •· •· •· •· ·· tcaacaggca ggatgtagcc cctcctggct gacgcgctcg ccgagcgccg gacagtgggt acgggccgac ctcgccggct gccgatgcgc gacgtcgttc tggcagcgtc gacagccgaa atcaccgccg acgtctgtcg cctgcctcga acggccgcgt cctggcgcgg cgcgatcttt cgccgtgacc ctctacgaca cccacgctgc cgcggcaacg aacgtcgtcg ggggctggcc aaaatttgtc ctcgagcgag ctcaggaagc gggattagat aggacgatcg tcccatcgag cggtggcgtg cgggcgagtc cccggggaag ctccttcttc gctggaggtg tacggaaacg agcgacggcg agcgggccga ctattcgtcc ctccacggcc ctcgaagacc tgggttcgga cgcggacggc gagcagcggt ggcggacgca gacgcttggt tgtcgccacg gtcggggatc gcacctccac cacgcgcgcc gttcggcatg cacaccgccg agccctggat tctgggcgat ggtggcggcg gacgtcgccc cttcaccgga cgcgttccgc gctccgcgag agccttcacc gtggggtgta cgtggcgggc gatgcaggcg ggccgtctca ctctgcgatt cctctttggc gggatccatg acgggctttg ccgccgtgaa gattcggccg gcggcggtcc gcgtcaccgc acctctcgcc cgagccccga gaggcaagct agaagcagag ggtgacatcg tcgccttccc ccaagcaacc cctgcgcatc gttgccatcg ggcagctcgg acctcaagag tggctctgtc agaagggccg taaccgccca ggggtcgacg atagatcgta ttctctcgga ctgatcggga cgagtgagac acgtccgcga cgcgcagccg atcgatctga cccgccgaac acgcccgtta ggcatctcgc tgctgggagg ggagtgttca tccgcagaga arctcgtatg tcgctggtgg ctggctggtg cgggcgctgg cgaggcgaag gatcggatat ctgaccgtgc ggctgcgccg gaccccatcg ccgctgctga actgggctgc gcgcaggcgc cggacaccgt agcgggacca gcgccggagc gcacaggcgg gtggcgttca acgtcgaggg ggtgcggtgc cagggggcgc gaggcgttcg gtgatgtggg cagccggcgc gagccggagt gtgttctcgc ctgccggccg tggctcgtca gcacagcgcg agcctccctc gctgaggatc aaagcgcgcg gcagagaggc ccggataggg gagcgagaaa cgacgtcgac gcccgagcgg gtccccgtgg ggccgagacg cagccctcag cgctatcagc catcacccct gccgtgccgg gctggaagga cagccaacgt cgaggcgttt cgccgtcgtc ggcgcattac cgtccagcgc gcaatgtcat atatcgcgcg agctgtgata taactttcaa cgagctaatt agttcttttg gcgggtcagc aagatccgat gcgggttctg gctgggatgc cgcgcgcatc ctcgcgaagc cgctggagaa tcgggatcgg tcgacgctca ccctcgggct ccgttcatct gggtatcgct ccagggacgg ggtgcgccgt tggcggtgat cgaacgggag cgtcttcggt aaatccaagc tcgggtcggt tgaaggtcgt tgaacccccg ggccggactg acgcgcacgt gaccggcaga cgcggctgcg gtctggcgac aggggctgcg gcagtatcgc agacgctggg acctgtgcgt ccgaaccggc tgttcacctt tggtcgccgg ttgaggacgc gcggggcgat tctgcggctc tccgcccgat tgctgtccag ctcgccgagc accggccagc gatcgaggtg cacacgctcg accgtgcagg cccgacgccg ctcgaggccg cgacgggtcg accgtgccgt tcgccatcgt agcgctgagc gcgcactcct cgcggctcca tcggcggagc ggcgatcgcg gccgacttcg gagcgccacg cgcttcgagc gccatcacgg gggaatggcc atctccccgt gtggtctgtc tttttccgag cccatccatt cagtgcgcga cgctgaggat tgcgatcgtc gacgctcctc agcagcgtgg tttcctgagc gctgcggatg cgccgcgatc cccgtccgaa tggcgggctg gcgagggccg ggcctgtcag gatgttgtcg tcgctgcaag cgtggtcctc tcgaggatcc ctcccaagaa gggttatgtc tctgaatgcg gaagaccaac cttgtccctt gatctcatgg gaatacgccg ggtgctggaa gctgctggtg cgaccatctg gacgcgcagc ggcagccctg cgattcctca catgggccgt gaggctgttc cagcgtcgac cgaatatgcg ccatagcatc ggtgttcctg ggtgtcgatc aggtccgttg cggcttgtcc gagcgatggc gctccctgcc ccggacgcgg gtgagatgaa gtcttctcgc gcacgcggct cgaccacgcg gcagcgagcg gagtgctcga atgccaactt ctgccgccgt ccgccagcag ccagcgacgg cgcgcgcgac atggatagag gcggtcaagt gcggcgtccc gcgacgcgat cgcgccccgt cgtggacgac ccttgaaatg caattcccga ttacgttgcg gggggcttgg tttttgaggc agaacctggg gtgcccgtcg ggagcgagtt gagggctcgc tttgatcccg gacgtagcct gaccctgcac gctccatcgg tatgaggccg gggacgatgc tgtgtcgcgg agcttgcgct ccgagcaccc gcattttcgg aagcggctca gcgatcaatc atcgtgctga gaggcacacg gtatacggcc cttggccatc cagcacgggc ggtgatcttc cgacgggcgg gaggcgccgg ctgtcggcaa gagacctacc gcgatggagc gacgctgcgg cgcggcaagc gggctgtacg aaccaggagc gccgcgctgc ctcgccgcgc ggtgagctgg gtggctgcgc gaggcgccgg ctcccgcctg atgtgtcctc ctcttcgctc gaccggcgcg gcccgagagg acacgtcgac gagcatggcg cgcgcccggc gctggcggtg gttcgtcgtc ctacaatgct cgagctgctc catcgggccg gccccagggc ccgcgcagcg aggcgagcgt aatcgaggat tcatcgccgc gcgcgtgctg ccggttccac cgccgtcgcc atggcgcgga gccccttgag tggtaaaaga tcttccgcac tctctggttc tctgctcaaa cctcgaccgg tggcggatcg gccgtctgcc gcgacaccgt accccgatgc gcttcgacgc atcgactctt cgctcgtcgg cgctgccgca ccagcgtcgg tggatacggc ccggggaatg tcgtgtggct cggaggccga gtggagcccg acgacggtgc aacgggccct gcacgggcac tcgggcgaga ctgagtatgc agattcctgc ggctgaccgt gggtgagctc cggcgacgtg ggaccgcgtc cttcgcagtg accggctcgc cgcagggaca tcgcctttct atgtatggtc tcgaccggcc tcgaccagac tgtggcggtc tggctgcctg gcgggcgcct aggccgatgt
5940 6000 6060 6120 6180 6240 6300 6360 6420 6480 6540 6600 6660 6720 6780 6840 6900 6960 7020 7080 7140 7200 7260 7320 7380 7440 7500 7560 7620 7680 7740 7800 7860 7 920 7980 8040 8100 8160 8220 8280 8340 8400 8460 8520 8580 8640 8700 8760 8820 8880 8940 9000 9060 9120 9180 9240 9300 9360 9420 9480 9540 9600 9660
• ···· ·· ·· ··
• · · • · • · • ·
• ··· • ·
• · • · · • ·
• · • ·
······ ·· ···· ·· ···
ggctgctgcg ccaggtggtc gcgcggggcg cccgatgctg cgtcctggtc ttgggtgcgc ggccggtgcg tgcctgcatg gccggcgacc ggccggcctc cgagcgctac gggagcgggt cgctcggctc cgaccgtccg ggtcacggag gctcagcttc gcccaaccct gggcgtgaac tacccacgtc cgaggcggcc ccgccttcag cgcggtgcag gaaacgcgcc gttcgtcgcc gctctcgggc ggagctcggc caatctctcc ccgtgcgctc catcgcgacg gcatcttggg ccacgcaggc tgcgccggcc gctgcgcacg ctcgctcatg gacgacgttc tctcgccaca aaacgacttc aatcagcttc ctccagatac cacaaaagca gccccagccg ggccggacag acggatctcg atgcttcggg gacatcgaga tcgttgcgag gtcgtcgccg aacgttgacc cccgagacct tctcgcaaga gagctcccac cgcttccggc gtcggggagc gggcgctgga gtccatccgc gacaccactc gaagcgatgg ctggggatcc gtcgttggtg cctcagctgc gacatcgtcg gtttttctcc cctgcccagc gtggcgccgc atcgcgggcg cgaaccaagg gaggcgttcg agcaatctga cacgcgcgag ggcaccttcg ccggacgccc gtgctcgagg ttcccctcag tggatcgaca cacgacgagg gaccatccgc ttccggctcg cggcgcgccc aatgatgtcc ccgctgctgc ggcctcgtgg accacgtcgg gccatgcccg ccgggggagc tgggcgcagc tacctggagt gacgtgcgcg gagctgatcg aagcgcgact tzctcgctgg tTggaggagc ctcccgatcg aagctcgtac gccggcccgt gogcgcgcgg czcgaaatca gccgtggagc ctgtccacgt gctctctcct gtctcatcgg tgaacgagct aggcccccaa cgatcctgac agcggcacgc gagcgtttac acgtgccgag cccacacgct tcatcgatct atgcgatgtc ttcggctgga taggcagcct ctctccctgt agtctgaggc ctccgccgac acacggagca ccgggctgac acgcgagccc gcgtgaacga gcgacaagag atcactgcga aacgaggcgc tcacctcgtt tgctggatca acggagtgtt ggcggctcac tagaagcgcg acgcagcgtc ccgggcaacc cgctccacgt ggcgtgtggc gcgggaaggc aggtggtgcg tcgaggtcgg ggccggcgct cgctcggcgg gggggcggcg cgaaagccga tcgaggaggg cgcccgagag agatcgatga ctggtctggg agctcgcgct tcggaggcga tgggccaacc ctgcgctggt tcgcgtacct gggtgctgat acgtgggagc cgctgggcgt cgtggacggg acaagagttt gttacgcgga tggatctccg tcctcggcct cccgtgtcgc tcacgctggg ccaccgggga cggcgctgga aggtcggcgc tgcgcaatcg cccccaatat tggagcgggt gcgcagatca cgagcaccag gaacgccctg gatgctccgt tccgtttcct ggtccccagc gctgagccgc gcccgacatg gcgcgggctc gcaccgcatc cgagcggcaa gtccatcatc cctggagctc gcatcaacga gcttccgatg atggctgccg cccgacgggc ccggtttacg tatcaccggg cttcgaacag cgtaagcggt attgttcccc gcagaggctc tcagctctac cccgcccgac tgaggaacca ggcgagcgca ggtgtcgatc cgtgcatgcg ctcgcatgcg cgagtcggtg ttgcacagac cttcgcggat tccgaaatcg gctcgcatcg gctctgggcc ggtgccgctg cgacgcggcg gggcgcggtg cggacgccgg gccaggcgtg cgaggtcgag gggcatggtg gtgcgccggg ggtcatcgcc gctgcctcgg gacggcatgg ccatgcggcg cgaggtccat gcggtatgtg cggcgaggga caatctcctg taaccagctc ggggatgatg gatcgcggca cgatgcgttc tgacccggag tcgggacctg ggcgttcctc ggaggcgctg tatcgaggcg cgccttgttg ggcggcggag agactgggaa ggtatcaagc aacccgaacc cagagactcc ctcacagaca gggatccacg gcctttcgga atgcaggtga gaccggagca tatgacaccg acccgtctcg ttcaaggact tcgtaccgcg tcgatggatt aaggccgatc tcggactcct gtcatcctgg ctcaacataa gacttcacgt cgcgctaagc atcgaggtcc gtggtgctca ggaactccgg gagcacgatg cttctggacg tggggtgaac aacgcgacca gccgcggtca atcgcggcgg ttccactcac agctaccggc gaggtgagct ggagtgaagg acgctgctcg tcgcgcgctg gtcggtggcc cccacgtacc cgtggcgacc cgcggcggcg gagaaggtcg cttgatcacc atcgccgtcg cccgacgacc cgcatcgtcg ctttcggcgg cctcaggcgc tacgcgctcg accggcgggg gcgacggccg agcgattccc gtagacgtcg cgatcgcacg gggctgcggc ctcgagcggc ggcgtgttca cggagcatgg gtccagatcc ctcgacaggc cgtacgcagg ttcacccgcc agcctcaagc gcccaaaacc aacctacggg atcattgccc tggcggccga tgctcgctcg ccgcagaatc tccaagaatc cctatcgcga aagtcgtcgc tcgagcctaa cacgggaagc agcgccctcc tgctcagtat ggctcagctt attatgtact actggaagcg catctaccct ggggtcgatt ctgcattttc cgctcttcaa cgatggtcct gtattcaaga agcgagaggc cgagcgcgct tgtacaccag gggacctcgt acatgctcga aggtgcgctg acgcgctgct acgctccgga cgatggccgc cgctcatggc ggccgtcgat cgccgggcta cgctgcacgc gcctggtgcc ggcgtgacga tggtctcctg cttggcagcg gccgtgctcc accggcgcag aggccgccgg tcgtgcttcg acgcggcggg tgccgggaaa ccgtgggcga gagcgtttgc tctcggcgat acagaatagc tcggtctcgc gcacgcccga gctcggaccg tgctcaactc gccggtttgt cgttcctgcg cggcgcgggt cccctccccc cgcaggcgca gtattccaac tcgcgtcagc tctcgcaggt tcggcatgga tgaagctgtc tgttggatgc caggcgtgca tatgacgatc tggagagcgc aatctccgag catcgtgccc ctactggctg atacgactgt gcggcacgac agtcgacgcc gaggctcgtg gctctatcac cgatctcatt ctacgaagat cgcgctggag gcgcatcgcc gaaggagatc gaagcggcgt cgaggtgatc ccggctcccc cctggacatc gcagctgtgg cgcccgggtc taaccagcaa cacgcagact cctcgcgtgg agcgtacgtc ttcgcttccg gagcgagcat
9720 9780 9840 9900 9960 10020 10080 10140 10200 10260 10320 10380 10440 10500 10560 10620 10680 10740 10800 10860 10920 10980 11040 11100 11160 11220 11280 11340 11400 11460 11520 11580 11640 11700 11760 11820 11880 11940 12000 12060 12120 12180 12240 12300 12360 12420 12480 12540 12600 12660 12720 12780 12840 12900 12960 13020 13080 13140 13200 13260 13320 13380 13440
• ···· ·· ·· ··
• · · • · • ·
• III
• · · • ·
• · • ·
··· ··· • e ···· ·· • · ·
acgctgcacg tcggcgcgca cggctgcgcg tgggagcagg gatgccgacc gtgctgacgc ctcgtgagcg acaccttcgg gtgatgatcg atagggcccg gatgtgttcg cgcgatccgg gtgccggcgc aggtctctgc ctccaggcca atctggtcca ggccgtccgc gtctgggttc gatgaagaga aagaccggcg gacaaccaaa aagtcgcatc aagctccttc gcgagcctca agcgacggcg ggaaagcccg gcgcgtcgcc cgattcctga tatccatcgg atcgagggcg ctctccgatc gaagcggcgt tcgtcgtcgc caggcgcctt cggccggttc gtagacccgc acgacgcgcg ttgaggacca ccgctgacgt tcgccgcggc gtcgtacggg ggtgcgacat gagatcgcca cgccgagact cgcaagggca gccgcaagcc gggtgtgcgc aagagtcctc tggacgaatt aggagctcgc cgggcagcgt gcgaggcaga tggagaacgc ccaacatgag ccggctggtt acaggctgaa tggcggttca gcgggattac tctctcccga acggctgcgg tccgcgcggt ctgcgcccag tcgaggcccg gcctgttcgc agacgctcac agcagggggc ttgtcgcggt taccggcgga agccatggct aggccggcgt atctcgcgta atcatcgggg gagacagggt ggatcctggc cgcattgggc tgatgcggat ggctttcgct tcaggcccgg tcgggtaccc tccgcaacca ccgggcaact acacgcgcaa atctgggccg tcaagcttcg cgaacgtacg tagcctatgt agaccgagcg agagggtgca tcgtcgatct gtagcgtccg gctgcttgag cgggcagcac tggacgaggg acgggatcga tcaacctcct gagaattttg cctgcaacat tcgacctgcg ggcagttcca gcgcccctcc aactacccga ccaacggcaa attcggggca aggtgctcgg cgattcacat tcaccgagtt cgagagatct ggagacgtag cgcctgcgtc gttgagccgt cgctatcgca ctggaggaac ggcgtccgga gctggaagac gctcatggat cggatacgac ctcgtacttg tcagacgttg tctgagaggg cttggcgtgc cgtccggatc cggccattgc cgttgtcctc tatccttggg tgaggtgggc ctccatccaa ggcgcgggtc gtacgaagag acgcccgaac tctcgcggtg gcgtatccac ggatggcaaa cgaaggcgac tgtcatctac tgccgtcaac gctggcgctc ggcgggcggt agagttgatc gctcgtcgag gctgagcggc cgtgtcggtg cgtgaggaac gacgttccac ctacattggc gagcttcctc ctacctgccc cggataccgc cgacgcggtg ggtcccggag gatcgacgcg gttcaagctc gaccgggcag aacgttcctt cagcgtggag gtacccggtg cttctattat gcgcggagcg gttcgtgggc cctgctggag cggcgtctgt acattcggac ggtctgtacg cggccgcgag gtacatggtg ggtcgatcgt cacggcgcca gctggaggtg cgttcgcatg gttccagtac agatcagcgg ctaagagcgc accctgggac gttgttcgaa gtcatcggca cttcgagacg gtcgaccccg gtcgaccggt ccgcagcacc ccgacggctt acgtcgaacc atcggcaacg ccgagcatct atgagcctcc ccccatcgag cgggccttcg ctgaagccgc tctgccacaa caggcgcaag tacatcgaga gagcagctgc ctttcgcgcc acattggtcg ctcgagtcag tacctcctcg ctgtcatggc ggcgaccagc acctcgggat accatcctgg tcctcgctga acgatcgtgg gaacgagaga cattttgagg gactggatcc atcagcctgg gtcgacctat gtgctcgatg ggggtcgggc gtgcaccccg gatggaaaca gttgagctcg attgtgcccg ggcacacgga agagcacacg gctcgacacg gatccgcggg gaggccccga cccgacggcg caaacctacg taccacccgt cacgttcggc aggatcgacg gccggatata ccggtggggc gtttacgtgc ctcggtcagg cagcacttcg cctacagtct aaggccctgc cgggacgcct gtcgggctcc aggagcctgt ccgaacctcg ccgaacatgc cgaacaaaac tcatctgatc cgctgaggaa tgtcgggccg gcacggaggc cgctggtgct tcgacgctgc ggatcttcat acgagggctc tccacgagca acaaggatta ccgttcaaac tggaccgcga ccggctatgt acgccaaggc tggaccgggc acaacgacgg cgatcatgga cccacgggac ccatgcagct gttcgcggcg cggtggtgat gcgcggccta atcatggtga cgccggggat ctccgatgat ccacagggtt acatcaacga gcttcgatct tgccggacgc aggtgacggt gtcgccccga cggtgggcct gcggggccac cgtgggcgag aggcgctcga tggcactggg agaccgggga tcgagttcat gggaaatcga tcgggaacga gacgcgctgc ccgccgaagc gactccggag aggcggggct ttccgtttgt cgacccttcc cgtatgtcaa tcgagcaccg aaaacttcga ccatcgagtc tggcgcagct aattcaattt acggcatgct attcctcacc ccgatatgct tcgtggagct gcgagcggaa tggaggagat agcagagctt tgcagaagag gctcgctggc aggaccgagt caggccgagc tgatcgcggg cggtgagctc ttttccgggg cgtgcagcgc ggacccgagc tttcttcggc ggaatgcgcc tatcggcgtg cccagcgatg cctcgcgacc tgcctgctcc gtgcgacatg atatgctgag gaacggcacg gctctccgat agcgaggaag ggcgctggcg cggcacgctg cgccgtggtg acttggcgcg ggagaaaggc cgtgccgatc ggtaaagctc ccagcggctg gcccattcag gcccaagggg gcgcttcgaa ctcggtctat gtccaagctg gtggaactcg ttcgctcgct gcctggcgag cgaagcgtcg catcccctac accgcgcccg ctactggcgc gcgcctctac ggggcgtgag ggaaacgctc cgcggcgaac cgagcaggac ggacggcttg ggacctggac ggacgtctac tgagtttggt caaattccgt atccggccgc tttgctgaag cgtgttcgat gctgtatgga cctgatggag tgaacaggtt gggcgggcgg gaggcgcgcc tcgcgacttc cgatgcgttg ggatacctcg cctcgtcgcg cgtcgatctt gctggatagg gtccggtttg ggaggttcgg gggccgatga tacgcgtcgc atggaagaac gcgcgggatc ttctccgagc tacgtccggg atcagcccgc tgggaggcgc tacgccggcg atgcggtggc cacgtctcct acctcgctcg gcgctggccg gggggcatct atcatgggca ggtgatcccg atcgggttca ctggcagggg ctcggagacg
13500 13560 13620 13680 13740 13800 13860 13920 13980 14040 14100 14160 14220 14280 14340 14400 14460 14520 14580 14640 14700 14760 14820 14880 14940 15000 15060 15120 15180 15240 15300 15360 15420 15480 15540 15600 15660 15720 15780 15840 15900 15960 16020 16080 16140 16200 16260 16320 16380 16440 16500 16560 16620 16680 16740 16800 16860 16920 16980 17040 17100 17160 17220
• ···· ·· ·· ··
• · · • · • · • · • ·
• ··· • · • ·
• · • · · • · • ·
• · • · • ·
······ ·· ···· ·· • · ·
ccatcgagac gcgcgatcgg gtttgatcaa agtctcctaa aggattggaa gcaccaacgc cggcgcgctc cggcggcacg ccttcagcct cgcgcgaggc ccgtgcgtgg agggctctca cggcgctttc agctcgccgc tgttcgccct tcgtgatcgg tcgaggatgc agggcgagat acgaggatcg agccggcagc gggtgaaggt tggcagccct cgggcgccat agccagtgcg tggagatgag agcgggcggg tggaggcgct ccgcgggggg tcgaagcgcc cgctcctcgg cgctggatct ttccgggcgc gccctttgca cggtgttggt cgagccgggc tccgagtgga tccaggccag acggccctgc gggtacgcct tggacgcgtg gggtgcccgt gccatgcgcg gggtggtcga ttccgggagg ccgcagcggt gtgggctcgg cggcagagaa gccaggctcc cagggctcgg ccctcgatcc ccggcatggg tcggcgccgg ccatggagca gggagctcgc tgcgcggtgg gggggaggat ttgtgaccgg gcgctggtca ccgtcgcggc atcgggcgca gcgtcgtcca ggtttcgtaa gcgaagcgcc ggcggcgctg ctzcgtgaag gacggtcttg cccatcgatc taccggctcg ccatgtcgtg tgccgagctc gctacgagat ggcgacgacg gttgcgagag ccgctgctcc gtgggtcggc ggcgtgcgac cgacgaaggg cccggtggca ccacagcatg ggtggcgatc ggcggtgacc ggtgagcgtg gatcggcgag ggatgtcgcc gggcgggctc ggtagcgggc cttcgccgag cccgcatccg cgcagcggtg gggcacgctg gcggcgggta ggccaagagc tgaaatgcag caagcggctg ggcgtacctg gataactgac ccaggtggtg gccgggcgct gcgcaccgag catacccgcc cttccagggg gcccgacgcg cttccagatc ggagttgggc cgtcgtgaac cagctcgggt ggtgcgccgg cggcacagcc cgccgcgttg caacacgagc gacggcggtg ggcgcaaggc ggcgctggta ctttcgagac cgacgtctcc cgcggatctg tgccctgctg cgagcgatgc cgagagctgc cggtctgggt cctggtgctg cctcgaggcc cctcgagcgg tgcggccggc ggtgatggcg gctttccttc cggcgggtgt accggcatcg gcgctggagc gatttcgcga actccgcggc ctggaggaag ttcgtcgtct catctgcagg cgcagcccca gggctcgacg ccaggcaacg atgggccggc cgggccatcc tcctcccagc tttgcggcgc ggcgaggtag atctgccggc gagctgtcgc gccgtgagca gtgctgtcgt agccacagcc cggccgggtg ccggagctcg gtagtccagg atcctaacga ggctcgctgc tgggcgcagg ccgctgccga gccgcgggcg accctgtcaa ccgtggctcg gagatggcga gtggtgctcg acgacggagc ggccacgcgt gtcccggctg gcggccacct attgctgagc gccggctcgg gtcggcagcc tcgctgcggc catgggcacc gcagtggtcg cgcgaagaag aaggtcaacg cgcgcgatgc gctgccggcg gtgcacctcg gcattggacg cgtggctgcg gccccgcgat gtgacacagg cgctgcgctc gccgagctgc gtcgctcgga gttccgaccg gggctcggtc gtgggccgct cgcggcgcgc atcctccgcg atcttggacg cccaaggtcc ttcgtgctgt tcggtcgcga gacacctcga accggcagct gcagcccgtt gggccggcgt cgcccgcggc cggccaagag cgcaccaggg tggagcaccg cagcggcgcg tgccgaaggt agctcctggc aggccgaagc tcgagcgcat tgtggcggtc ccgccgcgca gcagccggct tggccgaggc acagcccgcg ccctgaacgc cgcaggtcga cggctgcggt gagcgaatta cgcagctcca cttcggtcga ggcgggggca gctaccctgt cctatccctg atcgccgcgg cccagacgag gcgaccaccg tttcgtcggg ccgaggcgct agccgtcggg ccttccgggt ggcttacgct acgcggagct tatggcgggg cagcggagta tcttcgcccg tcttgcagcg aaacccccga ccgaagtttg acgattggtt cgggccggtg tggaggccgg tacgcgcgct gcagcctcga cgccccggag acagcgtgct tgtggctttt caccgctgct gggtcgacct tggccgacga tcgtccgccg acgtcaccat tgagcgtggc ccggcgcggc gcgtcaccgt aggttaccac acgggctgct agggggcctt acgcttcggg cgcttcggcc atcggcggct gccgcccagc ctacgtcaat cagctcgttc gaagcttcca cgcagcggcg gatttcgttg gctcgcgatg aggccagacc ggtcttcgtc tgaggaaccc tggttggtcg cgacgtggtg gtggggtgtc tgtggccggg gctccggcgc cgaggcggcg ctcgacggtg gaagggggtg cccgctgcgc gccgatgcgc ctggatgaac aggcggccac ggagatgcgg ggacgagcgc accctggggg gcagcgcgag cgtgcgtgcg cacgcggctg ggtgcaggga ggccgaggct ggccttcgcg gcggctgcag ccacgctcgc ttccgctgtg gaccgagatg tgaaggcgag tcggttgcat cagtggcgag gccttcgggg tcggcagggc cgggctcgtg cctggagctc gctgctcctc cggccatgcc cctggcaaag tgggggtggc cgccgacgtc ctggaccgtg gacccgcggc ggggctgggc cgatccagcc cgccgaagcg gcagcccgag ccgcgcggac cggatggctg gagcgtggag ggcgaaggcg gtcggggatg gatgcagcag gcacctgcac agtagggctc cggaggtctt ggcatcgccg ctgaacttcg acctctctta gggatcggcg gccgcggcgc ctggatgccg ggcgacgtcg gcggcgccgt ccgccgggcg tttcccggcc gtcttccacg ctgctcgcgg cagccggtgc gcgcccgacg gcgctgtcgc atcagcggtc ctccgaggct ctctcgggcg ttctgccgtc gaggacctct tcgacggtga aacctcaggc ggtctgttcg cgcgcggccc ccggcgatgc cggctgtttc cggtactgga ggcggtcacc tgggagacga gcggtcgtgt ttgggcgatg ggcgacgcgg ttccagatcg ggcgcgttgc cgcgcgcggc gggctgcagt gcgctgggac cctgcgctgc gcgacgccgt gagctgtggt gccgactttt gcgcagcggc gagtgggaac ggcggcggcg gtcgtgcatg gcctttgacg gagctcgacc agtcccgatg caggccctgg gcacaggccg cgcgtcatcg cggcccgagg gaagtcgcgt acccggcccc agcacctacc gccgagcgcg caacgggcag gatgtcgccg ccgctgcggg actcccgcgc gcgttgacgc ttgggctcgc
17280 17340 17400 17460 17520 17580 17640 17700 17760 17820 17880 17940 18000 18060 18120 18180 18240 18300 18360 18420 18480 18540 18600 18660 18720 18780 18840 18900 18960 19020 19080 19140 19200 19260 19320 19380 19440 19500 19560 19620 19680 19740 19800 19860 19920 19980 20040 20100 20160 20220 20280 20340 20400 20460 20520 20580 20640 20700 20760 20820 20880 20940 21000 ···· cgggccaggg gggcgcaggg □ggccgcgca ccgacgaggg tgatgccggt tgttgtcgcg acctgctccg tcctccgcgc ccccgctcac aggccatgct cgctgagcgg ccaccgccga tcgcagcaaa gctgaaacaa ggcggagctg cggtgcggac gccgctcgac ggcggggctg tcgggaggcg gctcgaggac cggcgctttc cgcgtacagc ggggttgcag tcacctcgcc cagcgcgctc cgatggtcgt tggcctggtc gctgatccgg cgtgctggct ggccgtcgat cgaggcgctg cgcggtgaag ggcagcgctt tccgcggatc gcgcacggac gcatgtggtg ggcggagctt gctgcgcgag ggcgacgacg gctgctggcg catcgcgagc gccgggcatg gtgcgtggcg ggcggggagc cgcggtggag ggttgggcat agatggggtg cgcgatggtg ggcgtcggtg gcaagcggtg gcatgtctcg ggtggcggcg gaaggtggtc ggtgcgcttc agtgggcccg gacgctgctg gggcaggctg gcggcgggtg ggccgaaggg ctggcccgag ggtgctggcc atgttcgtgc ccaggccctc caactacgcc gctgccagcg ggaagatcgc gctgtccgct gaacccgcgg cctggtgacg ccgcctcgcc gcagatctcg gagcctgggc gggcatcacc gcatctggcg ctctgccgtc attcaaggcg gcggccatca gaacggaccg gctccggaag atgcgctggg ctcaccgagc ccatcgctcg gccggtatcc acggcggact gccaccggca ggaccttgcc tgccgcagcc ctctcccccg tgccggacct gtcctcaaac ggctcggcca caggagacgg tacgtcgaga cgggcgacgg accaacatcg tcgctgacgc cggctcgagg cgcccgcgct ctggaagagg ttggtgctgt cacctggaca cgcagcgcga gcgctctcgg tcctcgcgcg ggccgggggc ctgttcgacc gccgagtcgt tacgcgctga agcatcgggg aggctcgtgg tcgctcggag tcgatcgcgg caggcgatcg cacgcgttcc tcggtgacgt acggacgagc gcggacgggg aagccgacgc gcgtcgttgc tgggccgccg ccgctgccga ctcggagcca atgcctcgct gaccggggtg gccgtgctcc ggtggccgca gcggccaaca ttgagcgtcg ggcgcgcggc ctggcacggc ctgtgggtgg gcgcatcgcg gctgccgagc caggtgctgc atgaactcgc gtaccggcaa cgggaggcat gagatcgagg cttacatgac tcattcagcg agccgatcgc cgttttggga cgctggtggg cgatagattg acccgcagca cgccccggtc acgcgcgcac acatgctcag tgaccgtcga tgcgcgcagg acatgatgga tcgatgcttc ggctctccga tcaaccatga tcttgcgcga cccacggaac tggggccggc gccatctcga acgagcgcat gcagcgcgct tcgcgggggt cgccggcggt cgggcaagag tgcacccgga tgagccaccg ccgtggcgca gcaagctggc tttgcgcggc gggagctgga tgttgctcga cggcgctgtg agctggtggc cggcgcgcgg cgccggaggc cggtcaatgg cggcggggtt actcgccgct accggcggcc tgagcgcgcc tgaaggcgct tgctcgggct gcgccgggcg gcggctcggt cctatccgtg cggccgccga catccgtgga gagtcgggga atgcgcccgc acgactggca cgttcctcga actggggcct tggtctcccg tgctcgaaag agctctaccc cgagcgccgg cgagcgcgcg gcctccccga tgatggggct cgctgttgtg gcgaagccgc agatgtcgca tactcgcggt gctggaggag catcgtcggt gctgctcgac tgtcgctccc cttcgatgct tcgtctgttg catcgacggg ggtcgctcgg catcgccgcc cacggcgtgc agagagcgat agccgcggcg ggccaacggg cgcgcaacgg tggccggtcg ggcgctgcgg agggacctcg gcgctccgac ggccgcggca cccgagaaac cgcgttggcg gagctcgttc ggagctgtgg cgagggggcg gctcgggctc gctcgcggtg ggggcagacg gttcctgttc gtggccagcg ccgcccgctg ccagacggcg gcggtcgtgg ggcgtgcgtg gcggctgatg ggaggtggcg gccggagcag cgcggcgcgc gatggaaccg aagcgtttcg ggggtactgg gcacgaagcc gttgccagcc cgaggaggct cagctggccg gcagcggcag tgcgctggcg ttcgcggcga ggcggccgcg cgaggcctcc gggggtgctg cgctctggcg gttcgcggag cggaatgcgg cggccgcgct cgcggcggcg cgggccagcc gagcgcgctc gggcaagatc cgagctgcgc gacctatccc tcctgtggag ggacgatctg cctacggcac cggctcgctg atcggctgcc gcggagcgcg gtcgaggccg gcgttcttcg ctggaggtcg agccgcaccg ctgccgcgcg ggacggctgt tcgtcatcgc ctcgcgttgg cgcacgcaag ttcgtccgtg gatggcgacc accgggttga agcgcccacg ctgggcgatc ggcacacgct ggcgtagcgg ctcaacttcc accgagccgg gggatgagcg cctgccgcgc ctcgatgcgc ggggacgtgg gcggtgacgt ccggcggggg accggacagg ttccgggagg cgcgaggtga ttcacccagc ggcgtagagc gcgggggtgt caggggctct gcggcggtgg gtggtgatcg ggcgcgcgca atgctggagg ctggtgagca gtgcggcacg ggcgcgggga tgcctgccgg gcgggggtgc ggcgtcttcc cggtactgga cagtggttct gcccggtccg gcggcgcttt gcggttgccg tacctgtggg caccaccgga gtgggcatgg agcctcaccc caggtggggg tcttcgcgaa ggggacgggg ctggagccgc gaggtggacg aaccgcatcg acggtggcgg tcaccgcaca acgcagttga agcagaatcc ggctcgcaca gcttccctgg acgcggtcca tgccgcactg gcatctcgcc cttgggaggg gtgtgttcgt aggagcgaga cgtacacgct tggtggcgat cgggaggggt cgctgtcgcc gcgagggctg gcatctgggc ccgcgcccaa tcgaagctgg ccatcgaggt gcgtgctggg gcctgatcaa gcacgctcaa tgccgtggcc gaacgaacgc cggagcgctc aggcggcgcg cgttcagcct cgcgcgaggg cggcgcgctg gcgcgcagac cgttcgaccg tgtgggcgga ccgcgctctt cggagctcct tctcgctgga cggcgggcgg cgccgcacgc cgggcgtgga ccaagcggct agttcgggcg acctgagcgg tgcgggaggc cgttcgtcga aggcggagcc tcgaggcgct ccacggctgg tcgaggcgcc accgggtgga gcgggtggct cgtcgcaggg agcaggtgac gtctggacgc
21060 21120 21180 21240 21300 21360 21420 21480 21540 21600 21660 21720 21780 21840 21900 21960 22020 22080 22140 22200 22260 22320 22380 22440 22500 22560 22620 22680 22740 22800 22860 22920 22980 23040 23100 23160 23220 23280 23340 23400 23460 23520 23580 23640 23700 23760 23820 23880 23940 24000 24060 24120 24180 24240 24300 24360 24420 24480 24540 24600 24660 24720 24780
• ···· ·· ·· ·· ·
• · · • · • · • ·
• ··· • ·
• · · • · ·
• · ······ • • e • ···· • · ·· • • · ·
cgtcgtggag gccggtgctc cgtgacccga gctgtggggt ggacctggat gccggacgcc ggccgcccca ggtgacgggt ggcggggcac agatcagccg cgcgcgggtc ggcggccgtc gctgctggcc ggcatgggtg ctcggcgtcg tttggacgcg gggcctgtgg gggaatctgg gcgcgcgacg cgacgcgagc ctcggccgtg gctctacgag gctcgacgtg ccgcaaacgg tccgaccgtg caccgacgtg cgcctgccgc gggcgtggtg ccccggctcg ggtggagacg cccgcaacag cccgtcggcg tgccgagcgg catgctcagc ggctgtggat gcgacggggc gaccttcgcg ctcggccgac gctctccgac caatcatgat gttacgccag ccacgggacc cgggcaagcc gcacatggag agagcaaata gctgccggtg cgcgggggtg gccggcggtg gggcaagagc gcacccggag gaaccaccgg cgtggcgcag caagctggcg ttgcgcggcg ggagctggac gttgctcgac ggcgctgtgg gctggtggcg ggcgcgcggg gccggaggcg ggtcaatggg ggcggggttc ctcgccgctg gcgggggcat gcgctgattc ggggcctgca atgggccggg ccggaggaga gaggatcagc ccggagggaa gggctgggcg cttgtgctga ccagaggtgc accgtggcgg gagccgccgc caccaggacg ctgcacaccc ggcgtcttcg ctggcggacc gcggaggggg gcgatgccga cagcgcgtgg ccaggccgct ccagctgtgg cttgtgcgcg cgacgaggct cttcagggtg gagcggctgg cggagcgttc ttcccgggcg gtcagcaccg ggagaggcac ttcgatgcgg cggctgctgc ctgcgcgaga gtgcaggaac gttgcggcgg acggcgtgct gagtgcgacc ctgctctcac gcggacggct gcgcagcgcg ggcccgagca gcgctggcgc gggacggcgc cgccctgcgg cccgcggcgg ccagcccagc gcggtggccc agctcgttcg gagctgtggc gagggggcgc ctcgggctcg ctcgcggtgg gggcagacgc ttcctgttca tggccagcgt cgcccgctgc cagacggcgt cggtcgtggg gcgtgcgtgg cggctgatgc gaggtggcgg ccggagcagg gcggcgcgcg atggaaccga cggccgaaga aggcgctcgg cggtgggcgg tcgcggcgct gcccgacgga tggcattccg acgcagcgcc cccttggcct tcagccggca gcgcgcgcat cggtcgacgt tgcggggggt ctggtcggct ttacccgcga gctcgatcgg tccgccgaac ggatgggctc cgagtcgggc tcatccagat tctgggatcg agcgctggcg gcgtggtcgc tcgccgagca agctgggtat tggaatactt ggttgccggc gggtcgagga aggtgccggc agagacagac cgttcttcca tggaagtgag gccccacggg tcgccgatga gacggctatc cctcgtcgct aagccctggt ggatgcacgc acgcgcgggc accgcgaccc gcgggctgac acgcaggggt tgggcgaccc accgaccgct gcctggccgg cggagctggg gcgcagcggt ggatgagcgg ctgccgcgcc tcgatgcgca gggacgtggc cggtgacgtc cgccgggggc ccggacaggg tccgggaggc gcgaggtgat tcacccagcc gcgtagagcc cgggggtgtt aggggctctc cggcggtggc tggtgatcgc gcgcgcgcac tgctggagga ggtcgccaaa cacggggccg cgagcctgac agagcatccc ggtcgaggcc ccaggggcgc ggtgtcgctg cctcgttgcg cggattgccc tgcggcgatc ggccgatgcc agtgcacgcc cgcccgggtg gcagccgctg ccagggcagc gcaggggctc gcaggcgcag cctggcggcg ggattgggcc gctggtaact caacgcgtct cggggtgatg gggcctcgac gccgctgtcg gctgagccag gacagaggac cctggagtcc cgaccggtgg ctacgtgccc catctcgcct ctgggaggcg cgtgttcgtg ggcggcgggg atttttcctg ggtggcgctg tggcggggtc actttcgccc cgagggctgc catcctggcg agtgcccagc ggttccggcc gatcgaggtg gatcctggga cttgctcaag cgagctcaac gccgtggccg aacgaacgcg ggagcgctcg ggcggcgcgg gttcagcctg gcgcgagggg ggcgcgctgc cgcgcagacg gttcgaccgg gtgggcggag cgcgctcttc ggagctggtg ctcgctggaa ggcgggcggc gccgcacgcg gggcgtggag caagcggctg gttcgggcgg gtcacccatc cgctcacccc gctgccccct ggctcctggg ctggtggccg cggcgcgcag tctgcggagg cggtggttgg gaccgcgagg gaggcgctgg gaaggcatgg gcgggtctgc ttgcgcccca gacctcttcg tacgcggcag gccgccctga cgccgggaac atggaatggc catgcgggag gccacgaaag gttgtggaga ggctttaccg tccctgatgg gcgacgctag gcgctggagc ccgatcgcca tactggcagc aatggggcag aggggtggct cgggaggcga atcgagcgcg ggcgcgggcc ctctacagcg ggcctgcacg cacctcggct aacatgctgc ggcgggcggt gccgtggtgg gtgatccggg ggccctgccc gacgtcgatt cgtgcgctga gccgccaagg gcggtgctcg ccgctcttgc cgcacggacc catgtggtgc gcggagcttt ctgcgcgagc gcgacgacgc ctgctggcgg atcgcgagct ccgggcatgg tgcgtggcgc ccggggagcg acggtggagt gctgggcata gatggggtga gcgatggtgt gcgtcggtgt caagcggtgc catgtctcgc gtggcggcgt ttgccgcggc ggctctggat gtcaggcggc gcgggctcgt agctgctttc cgcggcttgt ggagttactt tggagcgcgg aatggggccg aggcgcaggg cggcgctctt tcgacgacgg aggtggaggg tactgttttc gcaatgcctt gcatcgcctg acgaggcatc tgctcggtac cggcgccgcg aggcctcctc cccgctcggc accagggcac ccgtggagat cgttcgacca tgcaggaccg tcgtgggtgc tgttgaccga acgggcgcgt ttctgcgcga tgagcctgga cgggccagga ccaacgaata gcaccggcaa ggccgaccct gccagagctt tctcgccgaa gcaagacgtt tgctcaagcg gtacggcgat aggaggcgct tcgtggaatg gcgacgtgta ccaaccttgg cgctggggca cgtgggaggc gcccgcgctt tggaagaggc tggtgctgtc acctggacat gcagcgcgat cgctttcggc cgtcgcgcgg gccgggggct tgttcgaccg ccgagtcgtt acgcgctgac gcgccgggga ggctcgtggc cgctcggagc cgatcgcggc aggcgatcgc acgcgtccca cggtgacgta
24840 24900 24960 25020 25080 25140 25200 25260 25320 25380 25440 25500 25560 25620 25680 25740 25800 25860 25920 25980 26040 26100 26160 26220 26280 26340 26400 26460 26520 26580 26640 26700 26760 26820 26880 26940 27000 27060 27120 27180 27240 27300 27360 27420 27480 27540 27600 27660 27720 27780 27840 27900 27960 28020 28080 28140 28200 28260 28320 28380 28440 28500 28560
• ···· ·· ·· ··
·· · • · • · • · ··
• ··· • ·
• · • · · • · • ·
• · • ·
··· ··· ·· ···· ·· ··
ccggcggcca gagcgcgccg gaaggcgctg gctcgggctg cgccgggcgc cggctcggtc ctatccgtgg agccgcggat cctccagaaa agtcggcgag tgcgccggca cgattggcag gatcgatgag gtttctgagc cgttggcgac ggcggcgctc cccgccccaa gaccgaggat cccgccacag gggaggcctc gcacttggtg gccgcctgag ggtgaccgtg ggtcgagccc ggcggagacg gctgctgcac cgcagcggtg cgggctcgcg gtgggccgag tctgcccatg ggctcagcgc agggcgtcgc tccggcggca gcacgagatc cgatcctggg caacctcctt gacggtacag cgacacccag ctgccgcttc cgtggtggtc tgatccggag gagattggat gcagcggttg tacgctgcga gcagcggctg gctcagcgtt catggatacg actgggcgag cttcgtgctg ggccgacgcg gcgcgatgcg ccacgacggc gcgccaggcg cgggacaggg tccagggcgc tctggaggcg gcagatcccg gccggtggcg cggcgtgagc ggaggtggag caagagcgcg cccggagctg gcaccggctc agcgtttcgc gggtactggg cacgaagccg ttgccagcct gaggaggctg agctggccgg cagcggcagc ccgacccaag tcagaggagg gcggtcgctg gagacatccg gtagtgctct atcggcgacg accgtgtctt gagcctgcga gsgcatcccg gccagcccga cagctcgcct gggcaagcgg ggtgggctgg ctgaccagcc atccgcgcgc gcagcggtgg ccgctgcgag gacgagaccc cggctgctgc tggggtagcc catcttcggc ggaggcatgg tcgacgtcgg acggtgaccc aacctgcttt gcaacccgga gtccatgggg aTggggttca caggctgagc cggctggtgg catgttcggt ccgggcgggg agcgccgagg atcccaggcc gcgaccttct ctcctggagg gatagcccca cgaggcttca acggctggac gcgtgctcgt tgcgatcaag ctctcacgga gacggctacg cagcgcgccg ccgagcagcg ctttcgcaag acggcgctgg tccggggacc gcatctggct gcccagccgg gtgccacgta gcgttcgggt ccggcgcccg ccggcgctgg agcctcggcg gccatcgcga tggtgagcaa tgcggcacgt gtgcgggcac gcctgccgga cgggggtgct gcgtcttccc ggtactggcc gctggttcta cgagccgcgg cagcgctgtc cgaccgccga acctgtgggg cgacccgtcg gttcgccccg tcgccccttg gggcctgggg tcgacggcga tccgccatgg caccggtgtc gcctgatcgt ggcgcgggtt ggatcgcagc acgtggccga gggtggtgca tgctcgagtc acggccggcc atagccaggg gttcgcaatc cggacgcgga cagcgttgtc ggatggactg cggcgctggt actggcgtgg ccgtcgctcg atgagcaggg tggacgtgcg agcatctgct cgttggcgtc tggaggacct tgccggccga ggacttacgt tccgcatctc taagctggga ccggggtgtt ccgacggagc ggctgtcgtt catccctggt cgctggttgg tgcgcgcgct cgcggggcga gcgactccat ggctgaccgt caggcgtgtc gcgacccgat gaccgctggt tggccagcct agctggggga aggcggtgcc tgagcggaac cggcgccggc acgccgcggc acgtggcgtt cgacctcgcg cctgagcggg gcgggaggcg gttcgtcgaa ggcggagccg cgaggcgctg cacggctggg cgacatcgag tcgcgtggac gagctggctg gacacgtgga gctggtgacc tctggacgcc tgctaccgcg actctgggtc tcaggcggcg cgggctcgtg gatgctcgtc gcgccggcac gctgtctgcg ggcccagtgg gcccgaccgg ggtcgaggcg cgtcgaaccg cgccgctggc ggtgctccgt tctcgacctg tgcgtacgcg gctgcctgcg ggctcatgca ggcgctccag ggcgcgcttc cgcagggcgc cctgtccgtt ggtgctgggc cctcgactcg gctttcgacg cgtcgatgta agacgagccc ggagtcctac ccggtgggat gaccaaaggc gcctcgcgag agcgctcgag cgtgggtgcg ggcagggttg tttcctgggt cgcgctgcac cggggtcaac ttcgcccgac ggggtgcgcc cctggcgctg acccaacgga tccggtcgac cgaggtgcag gctgggggcc gctcaaggcc gctcaacccg gtgggggcgc caacgtgcat gcgaccggtg ggcacggctc cagcctggcg cgaggccctg aaggtggtcg gtgcgcttcg gtgggcccga acgctgctgg ggcaggctgt cggcgggtgc cctgacagcc tggccggaga gtattggcgg cttccatgcg gaggctgccg gtcgtcggtg ccggtgctcg gtgacccggg ttatggggca gacctggatc accgagctat gcggcacggc gaggcgagct ctggtggagc caggcgtggt ctggaggcgc atgacagcgc gtcagcgtca cccaaggtgg ttcgtgctgt gcggccaacg ttgagcgtcg cgtctgagcg cgcctggtgg gcgccggtgt gacatcatcg gcggaagccc ttcctcgacc ttgatggcgg acgctggcct ctgaagctgg atcgccatcg tggcagctat gcggcggact gccttcctgc gcgatgagcc agcgcgggta gggcccaatg tacggcggca ctgcacggcc ctcgcctgcc gtgctgctcg gggcggtgca gtggtggtgc atccggggaa cccgcccagc gttgattttg gcgctgagcg gccaaggcca gtgcttgcgc cacttgccgt ggcgcacgcc gtcgtgctgg gagctggtcg tcggcgcacc acgacgcgca cgaggcgcgc cggacgagct cggacggggt agccgacgct cgtcgttgcg gggccgccgg cgctgccgac gtcgccacgc tacctcgcag ataagggtgg tcgtgctcca gcggtcgaag cggaggcgtc gcttggctcg gggcatgcat tgggccgggt cccgagcgag tgtcgcagga tggtggccgc acctggtgac tgggagcgcg gcgagcagca ggggtgcacg tggtttcgtc tgcgtccact ccgggagctg tctcgtcggg ctttcctcga cgtggggtct acatcggggt agaccggcgc acaccgctcg cgccttcccc gcgtggctct cgagcgcgct tggagatccg ttgatcatcc aggatcgcag tgggagccgc tggccgaggg ggtacgaccc gcgatttgca tcgacccgca tcgctccgga agtactacac ccgggaacat cgacgctggc agagcctgcg cgccggagac agacgttctc tcaagcggct gcgcggtgaa aagcattgct tggagtgtca aggtgtatgg acgtcgcgca tgcggcacga ggaacacgct cgcgtcgggc aggaggcacc tgctatcggc tgtccgcgca gcccgatgga tggacgccgc
28620 28680 28740 28800 28860 28920 28980 29040 29100 29160 29220 29280 29340 29400 294 60 29520 29580 29640 29700 29760 29820 29880 29940 30000 30060 30120 30180 30240 30300 30360 30420 30480 30540 30600 30660 30720 30780 30840 30900 30960 31020 31080 31140 31200 31260 31320 31380 31440 31500 31560 31620 31680 31740 31800 31860 31920 31980 32040 32100 32160 32220 32280 32340 ···· • · ·· • · ·· · · · · · · · · • ··· » · · · · • ···· · · · · • · · · · · · ··· ··· ·· ···· ·· · ggcgcagcaa gctggctttc cgaaacgtgg gatcgaccag gctcgatcag cctgtggcgt ggtcgccgcc gcgcgggcgg cgaggccgag caacggtcct gacgttcgcg gccgctcatg cgcgccagac cacgcccgag ggcgttgcat cgggctgttg ggaccgctcg tgcgctcgac tccatggcag gatcgcaggt ccacgtgctc caaggtggtg ctggcccgag gcccgaccag cctgttcgag ccgcggtcgg ggaggaccgc gcggatcggc ctcgcttgcc gatcctgctg cgacgggacg tggaagggtg gctggtcgac gccgcgagag cgactggccc cgtggtggca cgtcctcgcc gatctgcctc gaccgagggc gaccatgggc atggggcctc tttggagccg cgctgacgac caaagcgacg tgggcagaag cccgggcgag tgtgctggga cacggcggtg gacgttgcat gactcccgcg cgacctgggg gggcatggcc cccgtccaag gcggacgctg ggtgctcaac cgggcggttc gcatcccggt agagatcctc gcatgcgttc tcagggcaag cgtactgctg gcagggcgtg caaagccgtc aagacgccgc ctgttcaccg cccgcgttcc cczctgcgcg accgcgtacg tcgtggggcg tgcgtggcgg ctgatgcagg gtggccgcct gacgccgtcg gcgcgtggga gatccgatgc cgcccggtgg tattgggtcc gccgcgggtg ccagcgtgcc gaatgcgagg tggaagggcg cgtgagcgcc cgctggccgc tcgatcggac gtgcccggcg ccggcgatcg gaggtcgagc ctggcgaccc gtgcagccga gcgatccagc tggggtccgc accctcgtgc gacaacggct cccccgctgc cggtgtggcg gaaactggcg gtgttcctgc gaagcgccct gcacctggct gaacccaaag tgggaggctg ctctcggtgg gcagtggccg ggccggacag gaggccgatg gagacacagg acccccgaag ggcacattgg gtcgagatca atgtatccgg ggccaggggg cgattcgtca caggcagcta aatctgcggc gcggtgcaaa tgggcagcgg gagtttgctg gcgctggccg ctcgagatgg gttcgctatc gagcgcgtgg gcgatcacca gtcgtgctgc accggtgggc ccgcacatgg gcggagatcg agggcgcggt gacagggcgc gggaggcgtt aggtgatgtg cgcagccggc tggagccgca gcgtgttctc cgctacccgc ccgtggcgcc tgatcgccgg tacgcacgaa tggaagactt tgtcgaatgt ggcatgtgcg ccgccacgtt tcggggaagc tggtcctcgc tgttccccga attggatgga tggctggtgt cacgccatca cctttcatgt agctgacagg tccacgccgt tggcggcgcc cagacggcgc ccctcgactt tttggcgatg cgacctatcc ttgcggtgag cgttcgccgt gcgtgccgcg aggtggtcgc ggcaggagtc tgcccgatgc cggagatggc gcctcgaggc gagcccacga tgcaggcgct tcgaggccgg tgatgcagga cagcgcgctc tggctttccg ggctcctggt accagctccg aggtaaccgc gcgacgccgg tgcgccacgt cggtcgacgc cggtgccggt gcggcgagcg tcgcccgatg ttcaggccat agacgttccg gcgagttcgt gcaagaccga gggtattcga tcgagggctt aggccgaggc tgccggcgcc tgggagcgtt tgctcacagg aagcgctcgg gcgcggcaag gcaaatgccg cgaccggtgc ggctgcgccg tctctttgcg cgtactgctc gctcgaagat cggcggtgcc ccacgccgcc cgccgaggta gaggctcgcc ccagcgggtc caccggccac aagcgccgtg cgtcgaggtt ggacgcggtc ggcgctcggg tggcgcgcgc cctcaccccg cgggctctgc gcccttcctc cgcggtgatc cgtggagttc gctcaccccc ggagaccgaa gcccggcgcg cgccggattc gctgcaggac gaacgcccac cctgctgtca ggaacgggtg gtcgcaggca cgaggtggag gggcgcgtcg gcctgcggaa cgcggcgctc ggccctcgcg ggaagctccg cagggaccgc tgagcgggtg gcgcccggag agctgacgtt ttccggaaag ccctgacgca cctcgcgccg ctcggggctc gccgatgggc cgcggtcggc gcggctggtg cgcgttcctg ggtgctgatc gataggggcc gggcgtgccg gcaggtcacc ggacgcgagc catacgggat catcctggag tgctgcggga agcgtttcgg ctccgcagcg ggggctccac tcggcggggc cgctcgggtg gccgtgtcct ggcatgggcc gtggcgctct ggcctcgctc ctggagtacg ggtcatagca gcggtgaggt atggtagcca acggtgtcga caggtgctcg gtctcccatg gctgcgacga gtcgcaggcc cgcttcggcg ggcccgaagc ctcgtgccgt gcttggtatg cgcgtggctc cgaagcgccg atgcccggcg ggtgatcacc ctcagcatcg ctgaaggcca gaagccgccg cgccgatgga ttgccgcgcc ctcgacaggt gggcgcgtcg gacgtggcgc acccggagcg cggtggtggc ttcggtgtct ggatttgttt actgcagcct cggatcgagg gcaacacggc ggggtgtctc gcggcggcgc gcggtgcgcc caggtcgcca ctcagctgca ctgttgcggg cgccgcgtag gagtcctatc gcacagcgcc aacttccgga ggagattgtg gatgctgtca gtccggcagc acggcctggc catgctgcgg gaggtgttcg cgcacgcaca ggcggccggg ctgtccctgc cgagccgcgg ctcgctccgg catctgcgcg ttcatggcgc cccttggcgc gtggcccgct ctggatacgc acgatcgcgg cacgcggtaa gtgggctgta tcgatcggga aggcggcgcg cgctggctgc tcggcgagct tggtggccgc tcgcagcgtc tcgccgcggt ccctcggcgc cgttccactc tcgcgtaccg ccgagatcgc acggggcaaa cggtcctgct cgctacgcgc cctggggggg tgcccatgta cgcctgcagg ctgtgttgca tcgtgtttgg ccgccgagcg tcgcgatgga gggatggcta cgacccacgc tcgaggtgct tatcggcggt gcgacgaggc ccttgcaccc agccggagga gggcgccggt cgagcttcgt gccgccgggc tgtaccgcct agagctgggt tcaaccgctg ccgcaggtgt agcgtgtggc tgtggtgggt cagcgccggt ctctggtgga agctcggtcg cgcggctggt gactggaggc gggcacctgg ccgtcctcgc ccggtgtcgc tgacgctggg ctgcagggct tcgctctgca ccggcggtgt ccacggcgag tcgccagctc gcgtggacgt tgtcgacggg tcgcggcggc atcgaactcg cattgccggt aagcgcggca cgacgggcac ggctcgccca cgggcgctgc cgtcggatgt
32400 32460 32520 32580 32640 32700 32760 32820 32880 32940 33000 33060 33120 33180 33240 33300 33360 33420 33480 33540 33600 33660 33720 33780 33840 33900 33960 34020 34080 34140 34200 34260 34320 34380 34440 34500 34560 34620 34680 34740 34800 34860 34920 34980 35040 35100 35160 35220 35280 35340 35400 35460 35520 35580 35640 35700 35760 35820 35880 35940 36000 36060 36120 ···· cgccgatcgg gggcgtgatc ccgcttctcg ggcgggcaac ggccgggcag gcgggccgaa ggcagcgggg gtcgccggct cggggcgatg tgtgtggcgc attggccgcg cgtgcaggcc tcggccgctg cggccagcgg cgcgctcacg cgcaaagtcg ccgtttccca cgatgccgtc tccggatgtg gttcgatccg gcggctgctc gctgatgggc cgccggcggc ctcgggcagg gtgctcctcg ttcggtggcg cagccggctg cggcgtgggg gcgcgatggg cagcaacggg ggagcaggcg gacgttgggc ctcggaccgg ggcgggcgtg gagcctgcat ggccgccaaa gtttggcgtc cgcgcccgcg gctggacgcg cggcgacctg ggcggcgacc gccgcccgca ctttcctggc cgtcttccgc gctgctcgcc gcagccggcg cgagccggat cgccctgtcg gatcagcggc gctcctgggc gctggcgggc gttctgccgt cgacgagcta ctcgacggtg caacgttcga tgggctgttc acgggcgacg cctgtccatg gcggctgttc gcagcgcgag tgctcatgcg cacgcgcgtg ggtgcagggg aatgcgctgg catgcagccg cgggtgctgg gatctcgctt tccaactatg ggcctggcgg ctcagcgcgg cagggcaccg tcgctcgacg gcgttggtgc cgtcttgggg gagatcgcgc tcggacttgg gtgggtgcga cgctggctgc tcgccgcagg ggcggcgtgg gtcgaggtgc cgcggcaaga gccttcttcg ctggagacga agcgataccg atcgaggcgt atctcttatg tcgctggtcg ctggccggcg cgaggcctgg tggagcgaag gatccgatcc ctgacggcgc gggctggctc gaccccatcg ccgctcgtga gccggtgtca trcgacgcgc cccgtcgaat agcgggacca gcggcgcgtt caggcggcgc gcgttcagcc tcgcgcgagg gcggctcgcg cagggctccc gacgcgctct gagctcgcgg ctgttcgcga gcagtggtag ctcgaggatg caaggcgaga tacgaagacc gagccggcag cgagtcaagg ttggcagcat acgagcacga cagccggtgc gtggagatga aagcgggagg ttggaggcgc tccgcgggcg cggtactggg cgcagtcacc tgggagacga gcggtcgtgt aggctgtgct gagcgctcga caccgaaggt tcttcgtgct cggcggccaa cgcagagcct cgctgcaggc cgctgctcgg tgcgtgcggc gcgcggaggc cgctgcccga gcgtgctttc gcctcgactc cgctgccggc tcgataaggt tcgccctcga ccgatccgga cgcatgagcg tgacgacacg gcatctcgcc gctgggaggc gcgtgttcgt tcgatggcta tgctcgggct cggtgcacct gcgtggcgct ctcccgacgg gctgcgccat tggcggtgat ccaacgggtc cggcggacgt aagtgcaggc tcgggtcggt tcaaggtggc ccaatccgca ggacgagaaa acgcgcacgt cagcggagct ggctttcggc tggcgacgac cgctgtctgc gccacgcttc agtggctggg cggcgtgtga ccgatgagac tcgaggtcgc gccacagcat ctgtagcgat tggcggtcgt ggctcagcgt cgctcgcaga tggacgtcgc tgggcgagct tcatggcggg gcttcgccga gcccgcatcc gagtcgcggt tgggagcgct gcgcgggcct tcgatgcgcc cgctcctggg cgctggatct tcccgggcgc ccaggccatt tgatggtgtg gactggcgcc gttctcctcc caccttcctc cgcgtggggc gcggctcgct gcaggcgctg aagccaagct gcgccatacg ggcgcgtcgc atggagcgcc gctcacggcg gacgctggca cctggccgtg cgagcccatt gtcgttttgg atgggacatc ctttggcggc gcgcgaagcg gttcgagcgc ggggctcttc tctaggcacc aaaggggccg ggcctgccag gatgctcacg acggtgcaag gctcctgctc ccgcggcacc gtcgcagcaa cagctacgtc cctgggcgcc gaagtccaat gctggcgctc cattccgtgg cggcgtgccg ggtgctggag tttcgtgctg gcacgtcgtt ccgcagcccg cgcgctcgac cacaggcagc catgggccaa ccgagcgatt cacctcgcag gctgtcggcg gggcgaagtg catctgccgg cgagctttcc ggcggtgagc ggtgctggcg cagccacagc cgagccgcga cccggagctc agcggtgcaa gatcctgacg gggctcgttg ctgggtacac ccgtcgcgtg gaccggcggc tgaaatgcag caaacggctg ggcgtacctg ccggcggagt cttgatgagc tggaatctgc atgtcggggc gacgcgctgg ccatggtcgg cggcatggga gctcggccgg tcgggagcgg gcggctgggg gccgacgagg gcgagcgccg gtggagctgc ttcgatcacc gccgagccga gccatcatcg cggctgctcg gacgcgttct ttcctgtccg acgaccatgg gccgggattt taccaggagt ggcaccacgg agcctgacgg gcgctgcggc ccggcgacgt agcttctcgg aaaccgcttc gcggtgaacc gaggtgatcc gagtgccacg gtgctggcac atcggacata gagcgcgggc tcggagctcg cgacgagccg gaggcgccag tcggcgaaga gcgcacccgg atgacgtacc acagcggcgc gccccaaagg aagctcctct caggccgaag ctcggccgca ctgtggcggt gcggccgcgc cgcagcctgc ctggccgagg aacagcccgc atccttgcgg ccacagatcg caagcgaccg gtggcgagct tcgttgatgg acatcggtcg cggcgtggac ggccaggcgg ccgctgccga gcggcgggcg accctgtcga ccgtggctcg gagatggcgc ggccgttaca agaccaccga atgagctcac tcttgggctc ccgcgcatcg acggaggcat tgggagctct aaacgcagct cagtgccgcc cgcagggggc tgcgcaaggt tgcccgtcga gcaacgtgct cgacggtcga gcgtatcgtc gcatcggctg aagagggcag atgatccgga atatcgaccg atccgcagca tgcccgagcg acgctgcgct ccagcgtcgc tggacaccgc ggggcgagtg tcgtggagtt ccgcagccga gcgatgcgca aggatgggcg gtcgggccct gcaccggcac aggggcgacc cgcaggctgc ttatcccgag ccgtgcaggt gggtgagctc cggcggcgtt gcgccgcggc agctcggcct ggctcgcggt aggggcaggc tggttttcgt cggaggagcc ccggctggtc tcgacgtggt cgtggggcgt acgtcgccgg tgctgcggcg ccgaggcagc gctcgacggt caaagggggt acccgctgcg tgtcgatgcg actgggcgga aagacggtca aggagatccg aggacgagcg tgggctggga cctatccctg gcagccgctt cccagaggag gcgatcaccg tttcgtccgg
36180 36240 36300 36360 36420 36480 36540 36600 36660 36720 36780 36840 36900 36960 37020 37080 37140 37200 37260 37320 37380 37440 37500 37560 37620 37680 37740 37800 37860 37920 37980 38040 38100 38160 38220 38280 38340 38400 38460 38520 38580 38640 38700 38760 38820 38880 38940 39000 39060 39120 39180 39240 39300 39360 39420 39480 39540 39600 39660 39720 39780 39840 39900 • · · · ggccgaggcc ttgggtgacg gtccgctcca ggtcagcgat gtggtgctcg ccgaggcgct 39960 ggccttcgcg gatgatacgc cggcggcggt gcaggtcatg gcgaccgagg agcgaccagg 40020 ccgcctgcaa ttccacgttg cgagccgggt gccgggccac ggcggtgctg cctttcgaag 40080 ccatgcccgc ggggtgctgc gccagatcga gcgcgccgag gtcccggcga ggctggatct 40140 ggccgcgctt cgzgcccggc ttcaggccag cgcacccgct gcggctacct atgcggcgct 40200 ggccgagatg gggctcgagt acggcccagc gttccagggg cttgtcgagc tgtggcgggg 40260 ggagggcgag gcgctgggac gtgtgcggct ccccgaggcc gccggctccc cagccgcgtg 40320 ccggctccac cccgcgctct tggatgcgtg cttccacgtg agcagcgcct tcgctgaccg 40380 cggcgaggcg acgccatggg tacccgtgga aatcggctcg ctgcggtggt tccagcggcc 40440 gtcgggggag ctgtggtgtc atgcgcggag tgtgagccac ggaaagccaa cacccgaccg 40500 gcggagtacc gacttctggg tggtcgacag cacgggcgcg atcgtcgccg agatctccgg 40560 gctcgtggcg cagcggctcg cgggaggtgt acgccggcgc gaagaagacg actggttcat 40620 ggagccggct tgggaaccga ccgcggtccc cggatccgag gtcatggcgg gccggtggct 40680 gctcatcggc tcgggcggcg ggctcggcgc tgcgctccac tcggcgctga cggaagctgg 40740 ccattccgtc gtccacgcga cagggcgcgg cacgagcgcc gccgggttgc aggcactctt 40800 gacggcgtcc ttcgacggcc aggccccgac gtcggtggtg cacctcggca gcctcgatga 40860 gcgtggcgtg ctcgacgcgg atgccccctt cgacgccgat gcgcttgagg agtcgctggt 40920 gcgcggctgc gacagcgtgc tctggaccgt gcaggccgtg gccggggcgg gcttccgaga 40980 tcctccgcgg ttgtggctcg tgacacgcgg cgctcaggcc atcggcgccg gcgacgtctc 41040 tgtggcgcaa gcgccgctcc tggggctggg ccgcgttatc gccttggagc acgccgagct 41100 gcgctgcgct cggatcgacc tcgatccagc gcggcgcgac ggagaagtcg atgagctgct 41160 tgccgagctg ttggccgacg acgccgagga ggaagtcgcg tttcgcggcg gtgagcggcg 41220 cgtggcccgg ctcgtccgaa ggctgcccga gaccgactgc cgagagaaaa tcgagcccgc 41280 ggaaggccgg ccgttccggc tggagatcga tgggtccggc gtgctcgacg acctggtgct 41340 ccgagccacg gagcggcgcc ctcctggccc gggcgaggtc gagatcgccg tcgaggcggc 41400 ggggctcaac tttctcgacg tgatgagggc catggggatc taccctgggc ccggggacgg 41460 tccggttgcg ctgggcgccg agtgctccgg ccgaattgtc gcgatgggcg aaggtgtcga 41520 gagccttcgt atcggccagg acgtcgtggc cgtcgcgccc ttcagtttcg gcacccacgt 41580 caccatcgac gcccggatgc tcgcacctcg ccccgcggcg ctgacggccg cgcaggcagc 41640 cgcgctgccc gtcgcattca tgacggcctg gtacggtctc gtccatctgg ggaggctccg 41700 ggccggcgag cgcgtgctca tccactcggc gacggggggc accgggctcg ctgctgtgca 41760 gatcgcccgc cacctcggcg cggagatatt tgcgaccgct ggtacaccgg agaagcgggc 41820 gtggctgcgc gagcagggga tcgcgcacgt gatggactcg cggtcgctgg acttcgccga 41880 gcaagtgctg gccgcgacga agggcgaggg ggtcgacgtc gtgttgaact cgctgtctgg 41940 cgccgcgatc gacgcgagcc tttcgaccct cgtgccggac ggccgcttca tcgagctcgg 42000 caagacggac atctatgcag atcgctcgct ggggctcgct cacttcagga agagcctgtc 42060 ctacagcgcc gtcgatcttg cgggcttggc cgtgcgtcgg cccgagcgcg tcgcagcgct 42120 gctggcggag gtggtggacc tgctcgcacg gggagcgctg cagccgcttc cggtagagat 42180 cttccccctc tcgcgggccg cggacgcgtt ccggaaaatg gcgcaagcgc agcatctcgg 42240 gaagctcgtg ctcgcgctgg aggacccgga cgtgcggatc cgcgttccgg gcgaatccgg 42300 cgtcgccatc cgcgcggacg gcgcctacct cgtgaccggc ggtctggggg ggctcggtct 42360 gagcgtggct ggatggctgg ccgagcaggg ggctgggcat ctggtgctgg tgggccgctc 42420 cggcgcggtg agcgcggagc agcagacggc tgtcgccgcg ctcgaggcgc acggcgcgcg 42480 tgtcacggta gcgagggcag acgtcgccga tcgggcgcag atggagcgga tcctccgcga 42540 ggttaccgcg tcggggatgc cgctccgcgg cgtcgttcat gcggccggaa tcctggacga 42600 cgggctgctg atgcagcaaa cccccgcgcg gttccgcgcg gtcatggcgc ccaaggtccg 42660 aggggccttg cacctgcatg cgttgacacg cgaagcgccg ctctccttct tcgtgctgta 42720 cgcttcggga gcagggctct tgggctcgcc gggccagggc aactacgccg cggccaacac 42780 gttcctcgac gcactggcac accaccggag ggcgcagggg ctgccagcat tgagcatcga 42840 ctggggcctg ttcgcggacg tgggtttggc cgccgggcag caaaatcgcg gcgcacggct 42900 ggtcacccgc gggacgcgga gcctcacccc cgacgaaggg ctgtgggcgc tcgagcgcct 42960 gctcgacggc gatcgcaccc aggccggggt catgccgttc gacgtgcggc agtgggtgga 43020 gttctacccg gcggcggcat cttcgcggag gttgtcgcgg ctcatgacgg cacggcgcgt 43080 ggcttccggt cggctcgccg gggatcggga cctgctcgaa cggctcgcca ccgccgaggc 43140 gggcgcgcgg gcagggatgc tgcaggaggt cgtgcgcgcg caggtctcgc aggtgctgcg 43200 cctctccgaa ggcaagctcg acgtggatgc gccgctcacg agcctgggaa tggactcgct 43260 gatggggcta gagctgcgca accgcatcga ggccgtgctc ggcatcacca tgccggcgac 43320 cctgctgtgg acctacccca cggtggcagc gctgagtgcg catctggctt ctcatgtcgt 43380 ctctacgggg gatggggaat ccgcgcgccc gccggataca gggagcgtgg ctccaacgac 43440 ccacgaagtc gcttcgctcg acgaagacgg gttgttcgcg ttgattgatg agtcactcgc 43500 gcgcgcggga aagaggtgat tgcgtgacag accgagaagg ccagctcctg gagcgcttgc 43560 gtgaggttac tctggccctt cgcaagacgc tgaacgagcg cgataccctg gagctcgaga 43620 agaccgagcc gatcgccatc gtggggatcg gctgccgctt ccccggcgga gcgggcactc 43680 cggaggcgtt gctgggcgct ccgaggccat cgctcgaccc gcatcccgcc cggagtacct ccaccggcaa gaccttgcct gccgcagcct tctcccccga gccagacctt tgctcaagcg gatcggccat agggggcgct acatcgagac gcgctgtggt ccaacctcgg cgctacatca ggatcgaggg ggacgcgctt tggaggaggc tcgtcctgtc acctggagaa gcagcgcgat cgctttcggc gcggcagcgc tgggccgaaa gggccatcga cctcgcagct tttctgcgct gcgaggttgc tctgccggcg agctgtcgct cggtgagcaa tgctggcggc gccatagccc ggccgcgagc cggagctcgg cggcgcaagc tcctggtgcc gctcgctgcg gggcgtccgg cgctgccgac gccgcctcgc tgccccgcgc ggggtggggt tgcttcatgc gccgaaacga gggcatcggc tggttcgatt catgcacggt cgcgcgtcgc agaagagccc atcaactggc agggcgacgt tgggtggcct tgctcaccag aggcccgcgc tggcagcggt ccccgttgcg cggacgaggc accggctgct tgtggggtgg ctgggagctg cgtaggtgtc cgacggcttc gcagcatcgc caggtccctc ccacgccgcc catgctcagc gaccgtcgat gcgcgctcga cacgatgcga cgacgcgtcg attgagcgac caatcaggac cttgcgcgag ccacggggcg ggggccggcg ccacctggag ccagcgcatc gaccgcgctc cgcgggagtg gccggcggtg ggcgaagagc gcacgtcgag ggagcaccgg cgcagcgcag gccgaaggtg gctcatggcc ggcggaagcg cgggcgcatc gtggcggtcg ggcggcgcac cagccggctg ggaggaggcc cagcccgcgc gctgacggcc gcaggtcgac ggctgcggtg tgcgagctac gctgctggag gcccctggac gcgagggcag cĽatccggtg cĽatccctgg cgcagccgac cgccccgaaa cggtgaggcg gtcggctgac ctggcaggga cgacgaagtc cctgagcgct gggcggcgag ggcgctggag gacggagatc gttccgcagc cgcaccgata tggtctgctc ccggcacggg gcgcatcgca ggatgtcgcc cggggtggtg cctgctggag gcgcgaccgg caaaggccaa ctcgacgacg gacccaggcg gacgccgcgt ctgctgctgg gtcgggagcc gtcgcgcacc atcgccgccg acggcgtgct gagagcgatc gctctggcgc gccaacgggt gcgcggcggg ggccggtcga gcgctgcgga gcaacctcgc cgagccgacg ggcgctgccg ccgaggaacc gcgttggcga agctcgttcg gagcctgagg gcggcggcgc cttggcctcg ctggcggtgg gggcacacgc gtcttcgtgt gaagagccgg ggctggtcgc gacgtggttc tggggagtgg gtggccggcg ctgcggcgga gaggcggcgc tcgaccgtgc aagggggtgt ccgctgcgcg ccgatgcgct tgggcggaca ggtggccccg gagatccaga gacgagcgcg agctgggctc cagcacgagc cccaccaagg tcggagacag gtcgctgcag gcctccaccg gtcctctacc agcgaggcta gcgccccatc ccagaggcct caccccgctg gagcccctgg ggtcgcaggc tcgctgtccg gtggctcggt ctgccagagc gcggtcgagg gaggccgatc cacgccgccg tcggtgctcc cctctcgacc ggcgcatacg ggcgcgacgc acgacgtacc tcttcggtat aggtcgcctg gcaccggcgt agccgcgcga gacggctatc cgtcatcgct tcgcgctggc gcacccaggc tcgtccgtgg atggggaccg cggggttgac acgccggcgt tgggcgaccc gagcgcgctg gcgtggcggg tcaactttcg ccgaaccggt ggatgagcgg ccgcggcccc tggatgcgca gcgatgtggc ccgcgagctc cgccgggagc ttcccggtca tcttccgggc tgctcgggga agccggtgct agccggaagc cgctgtcgct tcagcggtca tgcgtggcca tcgccggcga tctggcggca aagagctgat cgacggtgac accttcggca cgctgttcat cggcggccga cgacgctgct ggctgttccc ggtgctggat actggttcta ctcatgggag cgctgtcgac tcgccgagca tgtggggcct cccgccgtgc ctcctcgctt ctctttgcca cctggggtgg tggccgagct acgcagcacg cggaggggag ggctggtgga gacaggcgtc ggctggaagc ccatgacggc gcgtcttccc gtcccaaggt tgttcgtgct ccgcggccaa gatccggccg gcgctgggcg cgccccccgg ggaggggttc gttcgtcggc agagcgggac gtacacgctg ggtggccatt gggaggggtc gctgtcgccc ggagggctgc gatctgggcg ggcgcccaac cgaggccgag catcgagatc cgtgctgggc cctgatcaag tacgctcaat gccctggccg gaccaacgcg cgagcgcgca ggcagcccgg gttcagcctg gcgcgaggcg cgtgcgtggg gggctcgcag ggcgctggag gctctccgcc cttcgccatg ggtggtgggc cgaggacgcg gggggagatg tgagggtcgg gccggcggcg ggtgaaggtg cgcggcgctg gggcggggtg gccggtgcgc cgagatgagc gcaagggggc ggaggcgctg cgcgggcggc cgaggtcgag ccgaacggac ctggctgctg gcgcggactt ggtatccgaa cgacgccgtc caccgcaccc ctgggtggtg agcggcgttg cctcgtggac gctttcgccg ccttgtagcc ctacctggtg gcggggagct gggcggagag gcagggcgcg gctgctggcc cgtgcgtcac ggccgggagc gttctcgtcg tgcgttcctc ctcgaggagc gggctgctca gaggcacggt gaagacgccg gtctgcgcca gcgtacagca gggctgcagg cacctcgcct aacatgcttc aatggccgtt ggtctgatcg ctgatccgag gtgctcgccc gccatcggtt gaagcgctgc gcggtgaaga gcgacgcttt ccgcggatcc cggacgggcc catgtggtgt gcggagctgt ctgcgggacc gcgacgacgc ctgcgagggg cgggcctcgg tgggtgggca ggttgcgacc gacgaggccg gaagtagcgc cacagcatgg gtggcgatca gcgctggtcg ctgagcgtgg ctctcggagg gacgtcgcca ggagcgatcc atcgcgggtc ttcgctgcgg ccgcacccga gctgcggtgg gggacgctgt aggcgggttc cctgacgccc tggcccgagg ttggccgaca tcctgcaccg gctgccagtc gtcgatgctg gtccttgggc acccgcgggg tggggcctcg ctggatcctc gacgccgagg gccccgccgg acgggcgggc cgacatctgg cagccgccgg cgggtgaccg gccatcgagc ctggcggaga tggctgctgc ggcgcggcgg gacgggctcg
43740 43800 43860 43920 43980 44040 44100 44160 44220 44280 44340 44400 44460 44520 44580 44640 44700 44760 44820 44880 44940 45000 45060 45120 45180 45240 45300 45360 45420 45480 45540 45600 45660 45720 45780 45840 45900 45960 4 6020 46080 46140 46200 46260 46320 46380 46440 46500 4 6560 46620 46680 46740 46800 46860 46920 46980 47040 47100 47160 47220 47280 47340 47400 47460 ·· cgcaccatcg agggaggcat tggccacggg gttcggtcac gcaacttgct cggcaaaccg tcgttcgcgg gccgaggctt ttcagcgcga agcggctggt ggcacatccg tcccaggtgg tcagcaccga aggttccggg atgcggcgtt tgttgctgga gcgagagcgc agggcctcga ccgctggacg cctgctcgtc gcgaccaggc cgtcgcgcat acggctttgc agcgcgaccg cgagcagcgg tggcgcaagc cagcgctggg ccgcggagcg cggcgggctt ctcaaccgga ttgtccgcag ctttcggcct ctgtggccgc cggcgctgga gcctcggcga cggtggccgc acacgccgcc tcgtgtttcc agccggtctt ggtcgctgct tggttcagcc gagtggagcc ccggcgcgct ggcggatcag cggcgctgcg ccgtgctcgc gggtgttctg tgcgcgaaga tgcgctcgac cggacaacct gccccgcgct tccagacggc agcgcgcgac gggctcggct acgagcggta agcttcgcaa gacccggagc aacatagggt ccgccggcgt gagccctcgc gtcccggtcg ggcacgccac ctccgtggga ccgcgcgcac ggttgatgca gccggccttg acggatggac ttcggctctg gatctggcgc catcgtcgcc cgccgagcag gctgggcgaa ggcgcatctc gtcggtggcg ggatgagggc ggtgccagcc ccggacctat cttcgccatt ggtgagctgg cacgggcgtg cgacgacgcg gctgtcgttc gtcgctggtg cctggccggc gcgtttgctt gcgggccgag cgaccccatc gctcacggtg gggcgtggcg tgacccgatc gccgctctgg ggccggcgtg gctcgacgag ggcggtcccc gagcgggacc ggcccccgag tgcgcaggca tgtggcgttc gagctcgcgc gggagccgtg cggccagggc ccgggcggcg cggggagctc ggtgctgttc ggaagcggtg gĽcgctcgag cggtcagggg tggccatgag cggcgagccg gcggcaggtg gctgatcgcg ggtgacgggc tcggcagccg gttcatcgag ggccgagcaa gctgctggag gttccccgcg ctggatcgag cggcgccacg tcacttgtgg ccatggcgaa agatctctat cgtgccctcc ggcctcattc ggggcacgtg gattcaacgg tcgctgccgg aaggctcatg tcggcgctgg tgggcgcgct gtcgcggagg ggcctgtccg cgggtgctgg gggctcgact cggctgtcgg ctcaccgacg gcggatgacg ctggagacat gaccggtggc gtggccaagg tcccctcgtg gaggcgatcg ttcgtgggca gcgttgctgt ttcctgggtc gcgttgcacc gggtccagcg tcgccagatg ggctgcgccg ctggcggtgg cccagcggtc ccggccgagg gaggtgcagg ctgggcgctg ctcaaggtgc ctcaacccgc tggccgcgcg aacgcgcatg cgcgcagcgg gcccggctgc agcctggcga gaggcgctgc cgtgggcggg tcgcagtggg ctggagggtt tccgccgacg gccatggaag gtgggccaca gacgcggtgg gagatggcgc ggtcggctga gcggcgctct aaggtggacg gcgctgggag ggggtgatcg gtgcgcttcg atgagcccgc gggggcgctg gcgctgggga ggcggcaggc gacagcgtgc gaccatccgc gagcaagcgc gccgtgttgc ggcacggcga gaaggcggac caggtatcga tgtagcggcc cgatgtccga cgttgagcct cacgtctgag agcgcctggt tcgcgccggt acgagcgcgc ttgcggagag gcttctccga ccctgatggc cgactctggc tgctgaagct acatcgccat actggcggca gcgcggcgga gtgccttcct aggcgatgag agcgcgctgg tgatcgggag acggcaccac tgcacggccc tcgcctgcca tgcttttgtc ggcggtgcaa tggtggtgct tcaggagcac ctgcccagca tcgatttcgt cgctgggcgc tcaaggccaa tcttggcgct acatcccgtg gcgcgcgccc tggtgttgga agctgttcgt gggaccacct cgacgcgcag gaggggcgct cctcgggcgg tgggcatggg gcgaccgggc aggccgcctc tagcgctttc gcatgggcga cgatcatctg tggtcgagct gcgtggcggt cggaggtgct tcgccagcca cgatccggcc cgggtccgga ctgcggcggc acccgatcct cggtgggctc cgctgtgggc gggttccgct atgggtcgaa tgctcggggc tgagcgacga ccagcgcggc cgctggtgct gcatcgtgca gtcgtgagga agagctcagc gcgtcctgtc cgcctggggc cgacatcggg gaacaccagc ctatgccgcg tgcgtctccc ccgctcagcc cccgggcgcg tctggagatc cttcgaccac ggaggaccgg cgtcggtgcc tctggccgag ctggtacgac ccgcgatgtg cctggacccg ccaggacccg cgagcacgcc cggcaacctg gacgatgacg gagcctgcga gccgcggtca gacgttctcg caagcggctc ggcgatcaac ggcgttgcta ggagtgccac ggtgtacggg cctcggccac ggagcacgag ggcagagctg gcgtcgtgca ggaggcgccg cctgtcggcg ggagaagcat cgcgatggag ttcggccgca cagcgcgccg ccgaaagctc catcgaggcg gcagctcggg tgcgctgtgg ggttgcggcg ccggcgcagc gtcgctggag gagcaacagc ggcggcgctg tagcccgcag gcgagcggct gctcggtgcg gcaagcgctg ggtgccgccc gctgcggcga gtccggctat gccgacctat gccctcgctg tccattgctc gaggctatcc gtatgtagag ggagcagctg agtggccctc ggcaggtagg ggtgggagcg gtcggaggcg ttatgggccg gtcctgccca gctgtccagc cgagggcggc ccggtgccga ctctacgagc ctcgacgtcg cgtaaccgcc ccgacggtgg agcgacaccc gcctgccggt ggcatggtgg cccgatccgg cgcagcttgg caacagcggc atggcgctgc gagcgggtgc ctcagcgtcg gtggacaccg ttgggcgagt ttcgtcgcgg gccgctgcag cgtgacgcgc cacgatggcc cgccaggcgc gggacgggga cggggccgcc ctggaggccg cagattccgg ccagtggccg ggcgtaagcg gcggtggagc aagagcgcgg gtcgagcttg caccggctgg gcgcaggggc aaggtggtct atggccgaag gaagcgggct cgcatcgacg cggtcgtggg gcgcacgtgg cggctgctgc gaggccgagg ccgcgctcga acggccaagg gtcgacccgc gcggtgccga agctactggg ctggagggtg ctggacgaga gggcaggacg ccggtgagct ccctggcagc cggcttcggc gtctcggcgc tacctttcgg atggcgctcg gcgctcgagc agcgaagaag agctgggtgc ttgaaggaag ctctatccgc
47520 47580 47640 47700 47760 47820 47880 47940 48000 48060 48120 48180 48240 48300 48360 48420 48480 48540 48600 48660 48720 48780 48840 48900 48960 4 9020 49080 49140 49200 49260 49320 49380 49440 4 9500 49560 49620 49680 49740 49800 49860 49920 49980 50040 50100 50160 50220 50280 50340 50400 50460 50520 50580 50640 50700 50760 50820 50880 50940 51000 51060 51120 51180 51240 ···· ·· ·· xgctcaacga tcggcacggg gcgcctaccg tcaccacgcc tcccgcggtc cgctggacgg tccatgcgaa gcatatggaa ggcttcaaat cgatcggcat ctgatttggc ttgagtggtg cgctcgagat cgcccatcgc tggtagcacc ccgccgccgt ctccgctctt gcattctgga tcatcgtcgc tcctgtcgtt tctggttcga gtatcgacca ttgcggacgc tgatcctctc cgaccgaatc tcgtccatcg gggtccacgg tgctcctgtt agctcgaggc aatggcagcg gggcttggct aagggcgagg cggggctgta cattcggcga cagcagggga gcgcgctttc ggctcttgac aggcgccggt cgctcgtgga tcggggcgag gcctcgtgcg gcagctatgt tgatgcaggg gggatgccct tggctcggcg ttcgggggat atgcccgtcg cgctgaccag tgggcttgcc atcaccggtg catcatcgcc gcctcacgct aggtaggggt gattggcgct acgcgtcgaa tggagaagca agcggcacgt accgcatcga acgtagcagc acgctccggc tgcggggcat cgcagatcgt tgagcatgcc gcacgccctc ggaggtgctc gattcatccc ggaatccatc cagggctccg tggacggcgc gtgggaggtc cgtcttctgc ctctgtcgtc ccttgtaggg ggcggtgctc caagtttgcc cctcttccct ccgttactcg gtcgggaatg cctcccggtg ccttgctcgc tgtcgaccag ggccaatgtc gctcgcgccc tatcaccacg tccgctcctg cgtgagtctg gcgcgcgccg gccggccgcg gatggcgttg tcgattgcgt cgaagacacc ttctgctttc caaagaccct cgtgctgatg cgaggcgtgc tcaagtcgat ggaccggatt gagggcgaca tctggtgcag ccgcgccgtg gtggggcctc cgtgaacccg cgacagagag gagctccttt gatcaccgat ggcccgccat ccggtccatg cgacgatgtc cgtgtacgtg cttcaaggag ggatagatcg aggacagggg caaggtgggc ggcgaccccg ggagcaggga gatgcggctg gtgggcggag cctgcgcgag cttgagcgag gccgttcagc ggccgcgctc tctgagcggg caccgagcgg gacggacgag tggtgagtaa cttctgctca gactatggtc ggccgggtac gccttgttgg gagattcgga gtgaatcaag cagagcgcga atggagcgcc gctgctggag tacaggaagg gacggagagc gaggaggccg ggggaacggc ggtggctcgt aacggcatcg ttcagcatct ttgctgcctg gcggagcaaa gagccagctg atccatgcga ggaggccttc ggattgattg cctgctcgga ccaggcgacg ggcatagcag cgtgcagtac gagaggatgt accggtggag gggcaggtcg gcgccgcggg ataccagagg gaccagggcg gtgcgcgtca ccggcgcagc tgtcgcgcgg gcggagtcgc gcgctggtgc catgcggtgg ggtcggacgc gcgccgtctc gaccaggtcg tccggcaagc ggcatgggga gtggtgctcg gccgaggctg gctcggctcc gacgggacct tggatgtatc ctggacttct agccgcgccg cttacagcga aacgacggcg gcggcggcgc aatctgcgcc ctgctgaagg gcgctgcaga ctgttggggc aatctcggca ggcatcaccg agcttgctag gagaagagct cagaaggacg gggaccgagg tggacaagct cctgcttcca gcttgccagg atgcatgttt ggcggctgac cggtgagtga gcgtgcccgt tcgcgcaggc agcgtcacac tcatcaagcg attttgtgag ggagggtgtt tcgcggacgt tcgatatggc tgcgcggtgt tggagatcgg accggacgga gatttcgaga gccagggata cccgcgatat tggtgctggt aggggtggca cctggtgtga gatctccggc gagccgcttg ggcaggaatg acttccaccg gcgcgttcac tggcagaggt acccgcggga ctccggcagc ggacaggcgc tcgcgggtac cagatggctt tagtgcatat ttcaggccga gccggaggtg gcgcggagga tcgcgctcga cagaggacgc cattgcgctc ctgctacgga gagtggggct tggatcgcgg gcgcggaggt tctcgaagat tccagggcga ccaaggtgct tcgtcctgta ccggtgacgc tgagcatcaa gagcacggct tcgggcgctt agtggttgga agcgtgaccg gcgccaggcc gggggctgcg tggactcgct tgccggcgac acattctgtt tcgagaacga cgttgctcgc gagtatggcg tgcgaaaaag gggcgtggag agacatggca tcaggtgctg ggatctccac cacctggctg cgacctggtg gtacatcatc gatagacgag atggatggaa ctctcagccg cgccgacctc attgaccggt ggagcgaatc cgtcgagtcg agcagggacg gtaccatttc ttatccattc cgcacatcag aagagccacg cgagggcaca gaagtacgaa cgtcctgcgc ggggatcctc tgacagctcc ggccgatggc ccggccgggc gaaggcgctc tcaggggctc agagtggttg cgcgtcttct tgcgctcgta ggcatacgcc tcataccctg gtggagcctt tcaactcctg gcgcaacatg cgcagcggcc gcatccagag agccgcactg ggatggccgc ttgcggcatc ctcggtcgcg cggcgcttcc gcagatcgtg cgaaccgtcg ctcctcgatg cggagcgtgg ttcctcgggc cttcttggac ctggggattg cgaataccgg gctcgcacga gttctatccc cgccgaccga cgaagatcgt ccttccgccg gataggcctg cctgctatgg tccgaatgcc tgccgcagat cgaaaagctg accacgaatg aacgcgtctt caggtgtggc tcctcaagtg acagcgctgc gaaccggatc tgggacgccg ctcggcagct ggcactctcc ttgctcgtca caccttgtcg ctgccggagc ccagtcctat aagacgctcg tatcgagatt gcggcgcggg ggcgcgacca accgatgttt ctgaagtatg aggtttgacg gcgaagcgtc gggcatccga gatgatcttc cgggtaggct ggacagcacg ggtgagtcgg tccgctgacg cggcaggttt gctggagatc cgcctgccgc tacgctttgg tcctccgcgg tcgctgctgg tgcctcgcgc ctccgcgatg gatgcgacgg gggagcctga ccgcggcttt tcggtggcgc ctgcggtgca gcggtggagc tacgtggcgc cgggcggacg caatggatgg gaggcatccc gaggccgacg atgccgccgc ctggagctgg aacctgcacg acctcgcttc gccatcgcgc ctctccgaag gggatggaag cccagggcgc aacgcggccc ggcgcgtcga cagttgattc gagaggatcg gagctccgca acctacccta ggcgcgaccc ctcgaggctc gcgcagctcg ccgggaagct tggagcaaga
51300 51360 51420 51480 51540 51600 51660 51720 51780 51840 51900 51960 52020 52080 52140 52200 52260 52320 52380 52440 52500 52560 52620 52680 52740 52800 52860 52920 52980 53040 53100 53160 53220 53280 53340 53400 53460 53520 53580 53640 53700 53760 53820 53880 53940 54000 54060 54120 54180 54240 54300 54360 54420 54480 54540 54600 54660 54720 54780 54840 54900 54960 55020 • ···· ·· gcggaccgag tccggaggca gcgctgggcg caccgaggcg gtcgctcgat cggcatcgca cagcgactac caccggcaat accctgcctg ccgcagcctg ttcgtccaag ccggacattc gctcaaacgg ttcggccatg ggaggcgctc tgtcgagacc tgccgtgttg aaacctcggc tctgcaccac gatcgagggg accgcgcttc ggaggaggcg ggtgctgtcg catcgccgcg tagcccgatg gctggaggtt ctcgcccggc ccgtgggttg cttcgaccgg caggtcgtcg cgcgctggcc cctcggcgag cttggtggtc gatcgccgcg gatcgcggca gcagatcgcg cgcgttccac ggtgacgtac cgatgaggtg ggacggagtg gccgacgctg agcgtcgcgc ggtcgtcggt gctgccaacc ggcggacggc cgtgtcgacc gtggctcggc gatggcgctg ggtgctcatc gaccgaggag tcgcgcgccc cccggcgagg ggctatctat cgccgagctg cggctccgcg tgttggcgcg ggtgcggctg tggtcaacag ggtggtcgcc cgacgcagac gatcacagcc ctcggcgctg tgcaggaatg ccgatcgcca ttctgggagc ctggtcggcg gtggacggct cctcagcaac ccccagtccc tcgcataccg acgctcagcg accgtcgaca cgcgctcgcg acgatgataa gacgcctcgg ctctccgacg aatcaggatg ttgcgcgagg cacggaacgg gggccggcgc cacctggagg gaactgatcc accgcgctcg gcgggggtga ccggccacgg gcgaagagcg tacccggagc gagcaccggc gcggcgcagg aagctcgcct tgggaggcgt gagctccatc ttgctggacc gcgctcttcc ctggtggccg gcgcgcggcc ccggaggccg gccaatgggc gcggcgttcg tcgccgctca cggcggcctt agcgcgccgg aaggcgctgc ctcggccttg gccgggcgtg ggatcggtca tatccctggc accggccgtg catgccggtc gagcaccggg tcgtcggggg gagacgctga cgaccgggac ttccggatcc tcgaacctcg ggtgcgctcg tggcggggtg acagcctacc ttcgccgatc ttccagcggt gcctccagcc gagatctccc gactggttcc cgccggtggc aaggccgccg cgcgcgctcc tcgtaggcat tgctcgactc tccatcccag tcgacgccgc gcctgctgct tcgacggcag ttgcgcaaca tcgccgccgg cggcctgctc agagcgatct tgctggggcg ccaacgggtt cccagcgaca gccggtcgac cgctgcagag ggacctcgct gggccgatgg gcgctgcagg cgcgaaacct cgctggcgac gcgcgttcgg tgctcgcacc ccgccgcgct agggtctcgg tcgcggtggc ggcagacccc tcctgttcgc ggccggcgtt agccgctctg agacggcgtt ggtcgtgggg cctgcgtggc ggttgatgca acgtggctgc cggagcaggt cggcgcgggg tggatccgat cgatcgcgct gttactgggt acgcggccgg tgccggcctg acgaggctgc cctggtcggg agcgcgagcg ctcgggcggg tgcgcctgtg cgcaggggga ccgagatctt ccttcgcggg ggctgcggtt acgcccgcgg ccgccctgcg ccgagatggg agggcgaggc agctgcatcc gcgatgaggc ctcctgggga ggtggagcgc ggctggtggt tggagctgga tgctgctcgg gccatgtcgt tggccaacgc tggctgccgc aggccgagac cgaggaggtg gttctttggc ggaggtcacc ccgcaccggg gcggcgcgag acggttgtct gtcgtcgctc cgcgctggcg catccaggcg cgtccgtggg cggcgatcgg agggttgatg cgctcgcgtc cggcgacccg gagccgctgc cgtggcgggt ccatttccac ggagccggtg cctcagcggc ggcgacgccg ggacgcacag agacgtcgcg ggcgacctcg ggcaggcgcg cgggcagggc ccgcgagacc cgaggtgatg cacccagccg cgtggagccg gggtgtgttc ggcgctgccg cgcggtggcg ggtgatcgcg ggcgcgaacc gctggaggcg ggtgagcaac gcgtcacgcg tgcgggcctc cctgccggat gagcgcgcta tgtcttccct ttactggatc gggccacccc ggagacgacg ggtcgtgttt gggcgatgga cgatacggcg ccaggtagcg cgtgctgcgc cgcccggctt gcttcaatac gctgggcagg ggtgctgctg gacgccgtgg gctatggtgc cgactttgag ggagcggctt ttgggagccc cgagggtggt cgtccacgcc gttcgacggc ttccccggcg gcggtccagc ccgcgctggg acctcgcctc tgggaagggc gtgttcctgg gagcaggacg tatacgctag gtggccatcc ggaggcgtca ctgtcgcccg gagggctgcg atctgggctc gcacccaatg gacgccgggg atcgaggtcg gtgctgggcg ttgatcaagg acgctcaatc ccgtggccgc accaacgtcc gggcgctcag gcggcgcggc ttcagcctgg cgcgaggcgc gcgcgcggca gcgcaggtgc ttcgaccggt tgggccgagc gcgctctttg gagctcgtcg tccctcgagg gccggcggcg ccgcacgcag ggcgccgaga aaaccgctgc ttccggcggg ctgagcggga cgagaggcgg ttcgtcgagg gccaggccgg gaggcgctgg tcgggcggac gaagcgccgg cttctgggtg ctggaccgaa cctggcgccg ccgatccagg gtaccggtcc agtcgggagc cggatcgggc catgccgccg ggcccggcgt gtgagactgc gacgcgtgcg gcgccggtgg catgcgcgcg ttgatggacg gcgagcggtg gcggcgctcg gggctcgggc gcgggggacg caggccccga gagcggacac cgctcgaccg ccggactgct gggaggcgcg tcgaggacgc gcgcatgcag catacgacat ggctgcaggg accttgcctg acatgctcct atggccactg gtatggtcgt tgatccgggg tgctcgctca ccatcggtta aggcgctgcg cagtgaagac cggcgctggc cgcggatccg gggcgggccg atgtcgtgct cggagctttt tctcagcgca tatcgacgcg tgcgaagcgc gggccgcttc cgggcatggg gcgtcacgct cgggcagcag cgctggagta ctggccatag acgccgtgcg cgatggtatc cgttggtgtc aattcgtgca atgtctcgca tgactgagtc agccctgcac tgcgcttcgc tggggccgaa tgctgctccc gtgggttctg ggcgggtacc tcgatcgtga aagtcttttc agcggctgcc ggtacctgga tcacggatgt aggtggtgac cgggggaacg gcgtcgagac tgcccgctgc tgcgggggct ctgaggccgc tccaaatgat aggtgggctc tcgtgagcga gtacgggcgc tacgccggcg gtgggcccaa gctcgttgtg acacgagcac cggccgtggt
55080 55140 55200 55260 55320 55380 55440 55500 55560 55620 55680 55740 55800 55860 55920 55980 56040 56100 56160 56220 56280 56340 56400 56460 56520 56580 56640 56700 56760 56820 56880 56940 57000 57060 57120 57180 57240 57300 57360 57420 57480 57540 57600 57660 57720 57780 57840 57900 57960 58020 58080 58140 58200 58260 58320 58380 58440 58500 58560 58620 58680 58740 58800 ···· ·· ·· gcacctcagc gctcgacgcg ^ggttgcgac gccgcggctg ggtgcaagcg ctgtatcagc cgagctactt tgcgcggctc tgacaggccg agccacgggg gctcgactcc agaaatcgag gggcgtgaac tacccatgtc cgaggcggcc ccacctgcag cgcggtgcga gaaccgtgcc gttcgtcaca gctttcgggc gaagctgggc gaatttttcc ccgtgcgctc gtcggggttg tcgcgcagcc cacgctggac cgcggacggc atggctggcc cgcagagcag gaaagcggac ggggatgccg gcagcagact cttgcacacg tgggcttttc cctttcgcat cacggaggtg gatgcggggc tcgcgtgcag aacagcggcc gaccgccggg ggggctgctg caagatcgag gctgcgcaac gtacccaacg tggcggcggg ccgctttcgt ctcgcccgag ggccatgtgg agaggcggcc cctgggtgtc ggctccgctg ggagatggag atccacccaa ggctccggcc catcgccggc caccacggag agggcgcgag gacgtcgtca tggttgggag cctggacgtt gaagcctgct gatcgagcgc cctcacccga agcctcgacg ccccggagcc agcgtgctct tggctcttga ccgctgttgg gtcgacctcg gcagatgatg gtccaccggc ttccggctag cggcgcgctc atcgacatcc ccgttggtgc ggccttgtgg accacgtcgg gcgatgcccc gcgggggagc tgggcgcagc tacctggagt gacgtgcatg gagcgcatcg aggcgcgacg ttctcgcagg ctcgacgagc cgcgttggcg gaggcattcc gacccggagg acctaccttg gagcggggcg cgagccgccg gtcgccgatc ctgcggggtg ccggcgcggt ctgacacgcg ggctcgccag caccgaaggg gggatggccg atcacccccg acgggggtga tcacggaggt gatcgggacc caggacgtcg gtggatgccc cgcatcgagg gtagcagcga tcggacacgg cctgtcgtca ggcttccgtt cacgatcgca tcgctgattc cggttcgtca gccgtcttca accgatataa caagtccagg cccggggact tcggacgatg cgcttctata atcatgcaca ggccccgcgt cagcgtgggc tgcagtatag ttcgacttca ctgagagagg taccacgacg ggggcggcca cagatgtcga ccctggtgca cccgcggggc ggctgggccg atccagccga ccgaggagga tgcccgacgc agatcgatga ctggtccggg agctggcgtt tcggaagcga tgggccagcc ccacgctggt tcgcgtattt gggtgctgat gcgtgggcgc cgctgggcgt catggacgga acaagagcct actgcgccga tggacttgcg tgttcgggtt gatccctcac ggaggatggc tgcggatccg tgaccggcgg cggggcaact tggcggcgct ggtcacagat tcgtgcatgc tccgcacggt aagcgcctct gccagggcaa cgcagggcct ttgcgcaaga atgagggtct taccgatcac tgtcgcggct tgctcgaaca tgcgcgtgca cgctctcgag ctgcgctggg taacgcgctg acgaatcgac agccgcgggc cctggtcgga gcctcgcctc agcactatgc tggggacagc cgttgggcgg tagccaagct ccgatgctcg cgaaggagcc tgatcgtgcc tgcatctcct tcgtcgactc tcgaggcaaa gctggcggcc gagattttat agccgttcgc caacccccat tgtcggcggt gctcggcccg tgccgatgcc agcgctggtc tcaggcggcc caccatcgcc gcctgaaggg ggtcgcgctg tcagcgccgg acccggcgcg cgaggtcgag gggcgttgct gtgcgccggg ggtgatcgcc gttgcctcgg gacggcctgg ccatgcggag cgaggtgtat gcggtacgtg cggcgagggt catggtcctg cacgcagcct gggaatgatg ggtcgcagcc gccaccgccg gcaaggacag cgctccggcc tctgggtggc ggtgctggtg ggaggcccac cgagcgggtc ggcaggtctc gatgggacct ttccttcttc ctatgccgca gccggcgctg aaaccgtggc gtcagctctg tccgcggcag ggtgaccacg gcttgcgtcg ggtctcgcat catgggcatg cgtcgccgcg gctgctcgac ggcgagcgcc tcgtctcttc gaagtctgag cgaggacgcg agacgcaccg cgtggagctc cagcttgatc cttcttccga cgcagacaag gcccgtgaag tccgagcgac tcccggagat gcatctcaat atgatggcag ggcggcaggc gacacaggag gcctgggtac cttctactgg gttccgcgac gggctcgggg ctcgaatcgg ggcatggacc gccgccggcg ttggagcacg gaagccgatg cgcggtggcg gagaaggtcg ctggaccaac atctccgtcg cccaatgatc cgcatcgtcg cttgcggcgg cctctggggc tacgccctcg gccggtggtg gcgaccgccg agcgattccc gtggacgtcg cgcgcctgtg gggctgccgc ctcgatcaac ggtgccatca gtcgagacct catctcggga gaatccagcg ctcggtctgc ggccgctccg ggcgcgcgcg ctccgcgagg gtggatgacg aaggtccagg gtgctgtacg gccaacgcgt agcatcgact gcgcggcaga gcgcgcttgc tgggtggagt cagcgcgcgg gctgagccga gtgctgcgtc gactcgctga cctgcagcct gacgccctcg ggttcgttcg tgttttcacg tggagcgatc cctggtaaga tttgcgttag gccagtcgtt tcttcttcag aatgccgcgg gtcatcacag atcgcggtcc gttcaggatc cacgaatttc ccgctgctcg cctccctcgg cgcggaggcg caagcgaatc gcggaggacc gatgaaggcc gaacgcttcg cgcagggcgc cgctgatgcg tccgaaacgc atgtctccgt ccgagctgcg ctttgctggc accggctcgt agcccgccgg tggtgctccg aagcggcggg tgcctggaga ctgtgggcga gagtatttgc tctcggcgac acaaggtcgc tcggtctttg acacgcccga gctcgggccg tgctcgactc gtcgccttgt cgctcctacg cggcgaggat gcccactggg tcccgatctc agctcgtgct tcgccgtccg gcgtggccgg gtgcggcgag tcacggtggc ttaccgcgtc ggctgctgat gggccttgca cttctgcagc tcctcgacgc ggggcatgtt tctctcgcgg tcgagggtga tctacccggc tcgctgatcg gcgcgcgggc tccctgaaga tgagcctgga tggggtggac tcgtccggct tccacgtcct gttctggcgg tggaaatcgt agtacgtcca tagggttcag ccggcgcacc agatcacccc gtttcgtgcg acaccatggt ctatcgtcgc tacaatctcg tcgtcgatcg ccgcgaggac gcgcgcgaga catgagcctt agagtgagac cgttccccgc gctcctgggt cggtcagtcg
58860 58920 58980 59040 59100 59160 59220 59280 59340 59400 59460 59520 59580 59640 59700 59760 59820 59880 59940 60000 60060 60120 60180 60240 60300 60360 60420 60480 60540 60600 60660 60720 60780 60840 60900 60960 61020 61080 61140 61200 61260 61320 61380 61440 61500 61560 61620 61680 61740 61800 61860 61920 61980 62040 62100 62160 62220 62280 62340 62400 62460 62520 62580 ···· agaagagtgg gaagtacgga cccgtcgttt ccagctgctc gggaatcccg gttccgtcgc cgatgaggag cgtcctcgat ggccgaggcc tatcgctgct gcggtcgccc cgatgaggtg ggacctggag gagcgccctg cacgggcgcg tcgcctcgag gaaagaaact catcttgaag cctcatgata caagcccatt gacgtcggaa gcacgccgct cggcctcacc cgcgcgcgcc cttcggcggc agtcctcttc gctcgtcctg gcgccccggg gctggtgcag tgcgcaagcc gacatccggc gaggccgacg cggtgggcgg cggctgggca atcgccggca ttccgcgcgg gccggcccgt gcggcgcgcc ctgcgcgcag gcctctctcg cggagccgcg acaggcgacg ctccagacac ctcgtcgcgc gtcttgtccg gacggcgctg cccgcctgac caggcccacg cacatcagag accgtccccg gactagcgtg atcggccggg aatgtgctgc ggggtgacgc caccaccgtg tccgtgtagg tgctgcacga atcggctcgg gtcacccggt gcgtcccggt ggtccgttgc ggcttctcca agcgacggcc gaatcgagcg ttgttcgggc acgtcacgcg gatgctcgct atgcgcgcga ttcggctcgg accaagaccc gagcggcgca gacggcagca ggcaccgata gaggcgctcg ctccgcttcg tactgcgggg agagatggga agcctcgcgt gcggagatcg cecgtgtttg ccctccaaag cagctcgcgc gtcagcgcgc gaagtgccgg cgtcatgtcc gagcggcagg ttcggcgagc gtggtgctgg caggatccgg ctgctcatgg gcgctctcgg cgcatgcagg tgagcctcgg cgcccgccgc aggcgctccg aggcggcgca aggcgctcga gactccagaa cgacggagca accgcggatc t“caccccgc ccgagcgggc ggcgcagccg ctcggtccgc acccgcccga tcgttcagct cactcggatc atgttgttgc ccgactggca cgcttttcgc accagcttcc actctccgct accagaacag cctccgctcg caggaggtac ggcaggcgcc cgcaaacggg cgcactcgtg cgatcgtgct caatgggaac gttcggtcag acggcccggc ccgacgcatt tccggcctgg tatgtcctcc tcttctcccg cggagtactc tgccgccgga ccatcgacct ccggacaaga tcagcgctct cgactgcgcg tggtcgcgtc ggaacccgct ggctgagcac ccacgatcta agctggtgaa acaatatcct catcgatcaa ctgtattctc acggtagagg ccgtgggcac gataccaccc ctggatagct gcgggtgctg gaagatcgaa gcgccgccct ggccctgcac ttctgctctc tcgcgcggcg gcccgtccgt cggtcggggt cgggtatcga cgctcggcgc gcgcgttcac cgcctgctcg ggcccagctc cccgttccgc gcggccgcgg caaggtccct cgatgcggtc cgcgctccgc gagccgcgtg ggaccgtgta gctcatcgcg agcggcggcg gcagcggcta gggtgtcgaa gcttggcgtc ggatcttgtt accgcgcctc ccggcgcctc cgccgcacgc cagcaatctt cggctcgtcg ccgcatgcgg tgccgagatc cgacacgggc tccatgcccg agatgctccc agctccagct gatcagcgcg gtccgattcg atcgttgaac ggggtcgcgg caacaggcag gatgtagccc ctgctggctc acgcgctcgg gtcggccatt ggatcacgct gctgcgcgcc ggagttcgac gttgaaggtt cgcgctcggc cgtcaccgag cgaaaatgac gaaggagctg ccttatcgcg ggccgagccc cagaatagga gaaaggggag caggccagac cccccatgtc catcttccgt cgcgttccgg cgcgggggta tctgccgcgg tccacggccc gggagcgcaa ccgcgccgag gctcgtcgcc gctgcgccag cgtcggcgcg cgtgctctcc ggtcgatgtg gatcgcgccc gtgggatctc tacacctcgc gagccggact gacgcgatcg ctggagagcc ttcgcgcaca tggttcgatg gacgcggcgt tccgctgccg cccgcgtccg ctctacactg tgccggtggt gcgcgcgtcg cggattgccg gatgccgcct cgagcacgcg gcggtcgcac gccctgcgcg cgcgagcagg ttgcatggct gttcgacagc gtttctcgca ggctgtcctg gccgggcggg cagccgggaa ggagaggcgc cctcggcata ttctccgcct atcacgctgg cggacgtgcc tcgctgaagt gccgtctcat tctgcgattg ctctttggct ggatccatgg cccgagctca cgggtccgca gaaatacagc gttgtgcggg ccggccgagt gtgggtttgg gggctcgcgc gtcttgacga gtcgcgctcg ttcgctgtgc gggctcatga actgtgcgtt atggtctttc gtgtttgatg tgccccgggg aggttccccg aacatcgaat tcgcttcccg gtgcgattcg ggagaagagc agctcgctcg gagccgcccg ctcgcgctcg cccgaggtgc ctcgctcctg ggcatctcct agcatcctgc ccgctgcgca gacgtctcgc cggtgctcgc cgccggatga ccgcgtactc tcgtgcggct cgacggccgg tcgccgcccg cggccatgga taggggagtt accagcagat cgttcgcccg tccctcttcg cggcagagat cagccctcat gggcactcgc tccttgctcg cgcgccgcca ccacccgggg ctcattcccg tcccctccct cggcgacggc acatgccccg tgcgacggca aggtgccgcc cgcggcgccc cgggcacagc gaagagaccg gacgcgagtc catagtccgt gggtgcgcct agacggtgat ggctcgtcat cccagcgcgt gcctccctct ctgaggatcc gcgatatgaa agctcgtcaa gcaccgtcga attacgcgga gtgacgagaa tgccccaggt tgctccatga tgctgcttca tgggtgcgat tcaacctgct ggaacgcgct tcgccaggca tcctgatccc tgcgacggga tgtcccttgc agatgaagct cactcaacgt aacctcattc atccagcgga ccgtccgggt ttcgcgctca ccctgatgca tcctcctgac tcggcgagct ggttccatcg ggataggcgc gcaaggaggc cgccggggcc cgcgacgctc tccgcccgcg cgaggccgac ggaggccgtt cgcgatcgtg cgtctcccag gtacgcgagc ggcgctcgcg tcggggggag cctgaccgcg tgaggagtga caaccatgac cgctggagcg tgcggatccc cgaaggtcag aatactcccg cgatgctatc tttgcgcctc acaccgagat cacgacacgt cacgagcaga acatccttgc atatcctgcg acgggctcga ggccagcctc cgagcgccgt tcactcccgg gagccgggta atcgcgcggg cgctgggacg ggcgacctgc ctgcggctcg ccgcccgatc gctgtccagg tcgccgagcg
62640 62700 62760 62820 62880 62940 63000 63060 63120 63180 63240 63300 63360 63420 63480 63540 63600 63660 63720 63780 63840 63900 63960 64020 64080 64140 64200 64260 64320 64380 64440 64500 64560 64620 64680 64740 64800 64860 64920 64980 65040 65100 65160 65220 65280 65340 65400 65460 65520 65580 65640 65700 65760 65820 65880 65940 66000 66060 66120 66180 66240 66300 66360 ···· ·· ·· otccttgccg gatgccggcg cggcgcctct acccgccgat ggcggctgtg gaagcagtga cgccggatag ccgagcgaga gccgacgtcg ccgcccgagc gagtccccgt ctggccgaga agcagccctc cgcgctatca tccatcatat cggcgcggct ggatcggcgg cgtggcgatc ctccgagggc gcaccggagc tttctggacg cgaagggatc cgtcctcggc caagaagaag gttcacgatc cgtctggctc cggcctcgtg gggggagagc tggcgtgtcg cgtgctgcgc gcgcatcgag caggtcgctc cgccatcctc aaaccgtgca tcgcgaggtc caggcttcga ggcgagatga agcgcggtcg gcggcgccag atcctccgct accggcgcgc cgacgaggcc gcaggccggc tcacatccca gtaccggcca ggcgatcgag ggctcacgct aaatcgtgca accccgacgc gcatcgaggc ggcaacgggt cgaccgtgcc agtctccatc gcagcgctga catccctgcg ctacgtgcgc agcatggaga gcggcggtca gtgcactccc gcacgcccgc ctgatcgtcg ttgcacctct gcagcggccg gacggacagg gtcctggagg gggcaccgcc ctcgccgcgg gcggacaggg gcggtggggc atcgagttcg acccggatac caccagcgcg cgcggcgccc gacgtcgtcc cggcagcgcc ggggggcgac cggctggcgt ctcgcgcgat catggcggtc tccagggttc cgagcgccga gccccgcgtc ctgagcgttg ccgcggcacg gcccggacgc gtggcagatg cggtctcctc gggcacgcgg cgcgaccacg cggcagcgag cggagtgctc gcatgccaac ttctgccgcc gcccgccagc tactcctcca gacaggagag aagaatcgag agttcatcgc tcgtcgatac ccgacgccga ccatcatgat tgcacccgcg tcttcgaggg gctacctcgc actccgcggc tgggaaaccc tcgcggtctt agctcctcgc ggcccctgac acgccgcgct ggagcgagcg cgagggcgtg gggctcaggt ttcgacgcga ggagcccggg gtcatgagga cgcggcctcc ctcgcccggc gtctcgctgt gattcggcca cgggctttga tgatcccgat cgcggtcatg acgcttgctc gaggcccgag aaacacgttg gcgagcatgg ctcgcgcccg cggctggcgg cggttcgtcg gactacaacg ttcgagctgc gtcatcgggc aggccccaga gcgacggccg cgtcctggcg gatcgcgatc cgccgccgtg tgcagacggg gcatccgttc cttcgccgcg ccagatcgag gacgtcgctc ggcgatgcgg gctcgccggg ctacctcgac cctcgccagc cgcgatccgc gatgcacttc cacggcgtcc acccgacgtg acgcgccgtg ggccctcgca ggtacgctgg cgggccgggc aggccagggc ccggcgccgg gccggctcat tccagctcgg aggtgacgag aagcacgcga cgtgacatcg gtcgtcctcg aaaccgcggc agggacagtg acacgggccg cgctcgccgg gcgccgatgc tggacgtcgt tctggcagcg ctgccagccg tcatcaccgt cgacgtccgt gccctgcctc cgtcgaagca cggcctgcgc tacggcgcca accggcagct ctcctcctcc ggccacggca ggcggcggcg gatccgacgt atcatctcga tccagcaagg ctcaccatcg ggcgcggcgt cagagccgtg gcgctcgcca ggtccgcacg ggggtcgcgg aagcacatct gagagaccgc gcagggcgcg ttgcaagtcg gcacgaaggc gcatggggcg cgcgcttcgc cgcctccgtg gatcatcgag ctccgatatc ccggacacgt cgacgtccgc cgtcaccgcc gagacggccg ggtccgccgt acgagtcggc ctgtggcggc gcacgtcgcc tcacctctcg tccgagctcc aagaggcaag cgagaagcag cgggtaacat gatcgccttc accgccgtgc atcgctggaa tcgcagccaa cggcgatgct tgctcggcaa aggagctcta tctcgatcta ggaactacgt tccacgagtt acccgacgac ccttcctcgg cgatcggcat ggctcctcgt gcgcagatcc aagtcctggt aggcgatcga acgtcgaggc gcgcggcctc cctggcgggc tcacgccgta gcggcgagcg atgctcggcg gccgcgctcc tccctcgccg cgcctgcccg
66420 66480 66540 66600 66660 66720 66780 66840 66900 66960 67020 67080 67140 67200 67260 67320 67380 67440 67500 67560 67620 67680 67740 67800 67860 67920 67980 68040 68100 68160 68220 68280 68340 68400 68460 68520 68580 68640 68700 68750 <210> 2 <211> 1421 <212> PRT <213> Sorangium cellulosum <400> 2
Val Ala Asp Arg Pro íle Glu Arg Ala Ala Glu Asp Pro íle Ala íle
1 5 10 15
Val Gly Ala Ser Cys Arg Leu Pro Gly Gly Val íle Asp Leu Ser Gly
20 25 30
Phe Trp Thr Leu Leu Glu Gly Ser Arg Asp Thr Val Gly Arg Val Pro
35 40 45
Ala Glu Arg Trp Asp Ala Ala Ala Trp Phe Asp Pro Asp Pro Asp Ala
50 55 60
Pro Gly Lys Thr Pro Val Thr Arg Ala Ser Phe Leu Ser Asp Val Ala
65 70 75 80
100
• ···· ·· ·· ··
• · · • · · · • ·
• ··· • · ·
• · • · · · ·
• · • · ·
··· ··· ·· ···· ·· • · ·
Cys Phe Asp Ala Ser Phe Phe Gly íle Ser Pro Arg Glu Ala Leu Arg
85 90 95
Met Asp Pro Ala His Arg Leu Leu Leu Glu Val Cys Trp Glu Ala Leu
100 105 110
Glu Asn Ala Ala íle Ala Pro Ser Ala Leu Val Gly Thr Glu Thr Gly
115 120 125
Val Phe íle Gly íle Gly Pro Ser Glu Tyr Glu Ala Ala Leu Pro Gin
130 135 140
Ala Thr Ala Ser Ala Glu íle Asp Ala His Gly Gly Leu Gly Thr Met
145 150 155 160
Pro Ser Val Gly Ala Gly Arg íle Ser Tyr Ala Leu Gly Leu Arg Gly
165 170 175
Pro Cys Val Ala Val Asp Thr Ala Tyr Ser Ser Ser Leu Val Ala Val
180 185 190
His Leu Ala Cys Gin Ser Leu Arg Ser Gly Glu Cys Ser Thr Ala Leu
195 200 205
Ala Gly Gly Val Ser Leu Met Leu Ser Pro Ser Thr Leu Val Trp Leu
210 215 220
Ser Lys Thr Arg Ala Leu Ala Arg Asp Gly Arg Cys Lys Ala Phe Ser
225 230 235 240
Ala Glu Ala Asp Gly Phe Gly Arg Gly Glu Gly Cys Ala Val Val Val
245 250 255
Leu Lys Arg Leu Ser Gly Ala Arg Ala Asp Gly Asp Arg íle Leu Ala
260 265 270
Val íle Arg Gly Ser Ala íle Asn His Asp Gly Ala Ser Ser Gly Leu
275 280 285
Thr Val Pro Asn Gly Ser Ser Gin Glu íle Val Leu Lys Arg Ala Leu
290 295 300
Ala Asp Ala Gly Cys Ala Ala Ser Ser Val Gly Tyr Val Glu Ala His
305 310 315 320
Gly Thr Gly Thr Thr Leu Gly Asp Pro íle Glu íle Gin Ala Leu Asn
325 330 335
Ala Val Tyr Gly Leu Gly Arg Asp Val Ala Thr Pro Leu Leu íle Gly
340 345 350
Ser Val Lys Thr Asn Leu Gly His Pro Glu Tyr Ala Ser Gly íle Thr
355 360 365
Gly Leu Leu Lys Val Val Leu Ser Leu Gin His Gly Gin íle Pro Ala
370 375 380
His Leu His Ala Gin Ala Leu Asn Pro Arg íle Ser Trp Gly Asp Leu
385 390 395 400
Arg Leu Thr Val Thr Arg Ala Arg Thr Pro Trp Pro Asp Trp Asn Thr
405 410 415
···· ··
101
Pro Arg Arg Ala Gly Val Ser Ser Phe Gly Met Ser Gly Thr Asn Ala
420 425 430
His Val Val Leu Glu Glu Ala Pro Ala Ala Thr Cys Thr Pro Pro Ala
435 440 445
Pro Glu Arg Pro Ala Glu Leu Leu Val Leu Ser Ala Arg Thr Ala Ser
450 455 460
Ala Leu Asp Ala Gin Ala Ala Arg Leu Arg Asp His Leu Glu Thr Tyr
465 470 475 480
Pro Ser Gin Cys Leu Gly Asp Val Ala Phe Ser Leu Ala Thr Thr Arg
485 490 495
Ser Ala Met Glu His Arg Leu Ala Val Ala Ala Thr Ser Arg Glu Gly
500 505 510
Leu Arg Ala Ala Leu Asp Ala Ala Ala Gin Gly Gin Thr Ser Pro Gly
515 520 525
Ala Val Arg Ser íle Ala Asp Ser Ser Arg Gly Lys Leu Ala Phe Leu
530 535 540
Phe Thr Gly Gin Gly Ala Gin Thr Leu Gly Met Gly Arg Gly Leu Tyr
545 550 555 560
Asp Val Trp Ser Ala Phe Arg Glu Ala Phe Asp Leu Cys Val Arg Leu
565 570 575
Phe Asn Gin Glu Leu Asp Arg Pro Leu Arg Glu Val Met Trp Ala Glu
580 585 590
Pro Ala Ser Val Asp Ala Ala Leu Leu Asp Gin Thr Ala Phe Thr Gin
595 600 605
Pro Ala Leu Phe Thr Phe Glu Tyr Ala Leu Ala Ala Leu Trp Arg Ser
610 615 620
Trp Gly Val Glu Pro Glu Leu Val Ala Gly His Ser íle Gly Glu Leu
625 630 635 640
Val Ala Ala Cys Val Ala Gly Val Phe Ser Leu Glu Asp Ala Val Phe
645 650 655
Leu Val Ala Ala Arg Gly Arg Leu Met Gin Ala Leu Pro Ala Gly Gly
660 665 670
Ala Met Val Ser íle Glu Ala Pro Glu Ala Asp Val Ala Ala Ala Val
675 680 685
Ala Pro His Ala Ala Ser Val Ser íle Ala Ala Val Asn Ala Pro Asp
690 695 700
Gin Val Val íle Ala Gly Ala Gly Gin Pro Val His Ala íle Ala Ala
705 710 715 720
Ala Met Ala Ala Arg Gly Ala Arg Thr Lys Ala Leu His Val Ser His
725 730 735
Ala Phe His Ser Pro Leu Met Ala Pro Met Leu Glu Ala Phe Gly Arg
740 745 750
102
• ···· ·· ·· • ·
• · · • · • ·
• ···
• · • · • ·
• · • ·
··· ··· ·· ·· · · ··
Val Ala Glu 755 Ser Val Ser Tyr Arg Arg 760 Pro Ser íle Val 765 Leu Val Ser
Asn Leu Ser Gly Lys Ala Cys Thr Asp Glu Val Ser Ser Pro Gly Tyr
770 775 780
Trp Val Arg His Ala Arg Glu Val Val Arg Phe Ala Asp Gly Val Lys
785 790 795 800
Ala Leu His Ala Ala Gly Ala Gly Thr Phe Val Glu Val Gly Pro Lys
805 810 815
Ser Thr Leu Leu Gly Leu Val Pro Ala Cys Met Pro Asp Ala Arg Pro
820 825 830
Ala Leu Leu Ala Ser Ser Arg Ala Gly Arg Asp Glu Pro Ala Thr Val
835 840 845
Leu Glu Ala Leu Gly Gly Leu Trp Ala Val Gly Gly Leu Val Ser Trp
850 855 860
Ala Gly Leu Phe Pro Ser Gly Gly Arg Arg Val Pro Leu Pro Thr Tyr
865 870 875 880
Pro Trp Gin Arg Glu Arg Tyr Trp íle Asp Thr Lys Ala Asp Asp Ala
885 890 895
Ala Arg Gly Asp Arg Arg Ala Pro Gly Ala Gly His Asp Glu Val Glu
900 905 910
Glu Gly Gly Ala Val Arg Gly Gly Asp Arg Arg Ser Ala Arg Leu Asp
915 920 925
His Pro Pro Pro Glu Ser Gly Arg Arg Glu Lys Val Glu Ala Ala Gly
930 935 940
Asp Arg Pro Phe Arg Leu Glu íle Asp Glu Pro Gly Val Leu Asp His
945 950 955 960
Leu Val Leu Arg Val Thr Glu Arg Arg Ala Pro Gly Leu Gly Glu Val
965 970 975
Glu íle Ala Val Asp Ala Ala Gly Leu Ser Phe Asn Asp Val Gin Leu
980 985 990
Ala Leu Gly Met Val Pro Asp Asp Leu Pro Gly Lys Pro Asn Pro Pro
995 1000 1005
Leu Leu Leu Gly Gly Glu Cys Ala Gly Arg íle Val Ala Val Gly Glu
1010 1015 1020
Gly Val Asn Gly Leu Val Val Gly Gin Pro Val íle Ala Leu Ser Ala
1025 1030 1035 1040
Gly Ala Phe Ala Thr His Val Thr Thr Ser Ala Ala Leu Val Leu Pro
1045 1050 1055
Arg Pro Gin Ala Leu Ser Ala íle Glu Ala Ala Ala Met Pro Val Ala
1060 1065 1070
Tyr Leu Thr Ala Trp Tyr Ala Leu Asp Arg íle Ala Arg Leu Gin Pro 1075 1080 1085
103
• ···· ·· ·· ··
·· · • · • · • · • ·
• ··· • ·
• · • · • · ·
• · • ·
··· ··· ·· ···· «· ···
Gly Glu 1090 Arg Val Leu íle His Ala Ala Thr Gly Gly Val Gly Leu Ala
1095 1100
Ala Val Gin Trp Ala Gin His Val Gly Ala Glu Val His Ala Thr Ala
1105 1110 1115 1120
Gly Thr Pro Glu Lys Arg Ala Tyr Leu Glu Ser Leu Gly Val Arg Tyr
1125 1130 1135
Val Ser Asp Ser Arg Ser Asp Arg Phe Val Ala Asp Val Arg Ala Trp
1140 1145 1150
Thr Gly Gly Glu Gly Val Asp Val Val Leu Asn Ser Leu Ser Gly Glu
1155 1160 1165
Leu íle Asp Lys Ser Phe Asn Leu Leu Arg Ser His Gly Arg Phe Val
1170 1175 1180
Glu Leu Gly Lys Arg Asp Cys Tyr Ala Asp Asn Gin Leu Gly Leu Arg
1185 1190 1195 1200
Pro Phe Leu Arg Asn Leu Ser Phe Ser Leu Val Asp Leu Arg Gly Met
1205 1210 1215
Met Leu Glu Arg Pro Ala Arg Val Arg Ala Leu Leu Glu Glu Leu Leu
1220 1225 1230
Gly Leu íle Ala Ala Gly Val Phe Thr Pro Pro Pro íle Ala Thr Leu
1235 1240 1245
Pro íle Ala Arg Val Ala Asp Ala Phe Arg Ser Met Ala Gin Ala Gin
1250 1255 1260
His Leu Gly Lys Leu Val Leu Thr Leu Gly Asp Pro Glu Val Gin íle
1265 1270 1275 1280
Arg íle Pro Thr His Ala Gly Ala Gly Pro Ser Thr Gly Asp Arg Asp
1285 1290 1295
Leu Leu Asp Arg Leu Ala Ser Ala Ala Pro Ala Ala Arg Ala Ala Ala
1300 1305 1310
Leu Glu Ala Phe Leu Arg Thr Gin Val Ser Gin Val Leu Arg Thr Pro
1315 1320 1325
Glu íle Lys Val Gly Ala Glu Ala Leu Phe Thr Arg Leu Gly Met Asp
1330 1335 1340
Ser Leu Met Ala Val Glu Leu Arg Asn Arg íle Glu Ala Ser Leu Lys
1345 1350 1.355 1360
Leu Lys Leu Ser Thr Thr Phe Leu Ser Thr Ser Pro Asn íle Ala Leu
1365 1370 1375
Leu Ala Gin Asn Leu Leu Asp Ala Leu Ala Thr Ala Leu Ser Leu Glu
1380 1385 1390
Arg Val Ala Ala Glu Asn Leu Arg Ala Gly Val Gin Asn Asp Phe Val
1395 1400 1405
Ser Ser Gly Ala Asp Gin Asp Trp Glu íle íle Ala Leu 1410 1415 1420 • ·
104 <210> 3 <211> 1410 <212> PRT <213> Sorangium cellulosum <400> 3
Met Thr íle Asn Gin Leu Leu Asn Glu Leu Glu His Gin Gly íle Lys
1 5 10 15
Leu Ala Ala Asp Gly Glu Arg Leu Gin íle Gin Ala Pro Lys Asn Ala
20 25 30
Leu Asn Pro Asn Leu Leu Ala Arg íle Ser Glu His Lys Ser Thr íle
35 40 45
Leu Thr Met Leu Arg Gin Arg Leu Pro Ala Glu Ser íle Val Pro Ala
50 55 60
Pro Ala Glu Arg His Ala Pro Phe Pro Leu Thr Asp íle Gin Glu Ser
65 70 75 80
Tyr Trp Leu Gly Arg Thr Gly Ala Phe Thr Val Pro Ser Gly íle His
85 90 95
Ala Tyr Arg Glu Tyr Asp Cys Thr Asp Leu Asp Val Pro Arg Leu Ser
_oo 105 110
Arg Ala Phe Arg Lys Val Val Ala Arg His Asp Met Leu Arg Ala His
115 120 125
Thr Leu Pro Asp Met Met Gin Val íle Glu Pro Lys Val Asp Ala Asp
130 135 140
íle Glu íle íle Asp Leu Arg Gly Leu Asp Arg Ser Thr Arg Glu Ala
145 150 155 160
Arg Leu Val Ser Leu Arg Asp Ala Met Ser His Arg íle Tyr Asp Thr
165 170 175
Glu Arg Pro Pro Leu Tyr His Val Val Ala Val Arg Leu Asp Glu Arg
180 185 190
Gin Thr Arg Leu Val Leu Ser íle Asp Leu íle Asn Val Asp Leu Gly
195 200 205
Ser Leu Ser íle íle Phe Lys Asp Trp Leu Ser Phe Tyr Glu Asp Pro
210 215 220
Glu Thr Ser Leu Pro Val Leu Glu Leu Ser Tyr Arg Asp Tyr Val Leu
225 230 235 240
Ala Leu Glu Ser Arg Lys Lys Ser Glu Ala His Gin Arg Ser Met Asp
245 250 255
Tyr Trp Lys Arg Arg íle Ala Glu Leu Pro Pro Pro Pro Thr Leu Pro
260 265 270
Met Lys Ala Asp Pro Ser Thr Leu Lys Glu íle Arg Phe Arg His Thr
275 280 285
Glu Gin Trp Leu Pro Ser Asp Ser Trp Gly Arg Leu Lys Arg Arg Val
290 295 300 ···· ···
105 ·· ·· ·· · • · · · · · · · • · · · · · ··· · · · · · • · · · · · ·· ···· ·· ···
Gly Glu 305 Arg Gly Leu Thr Pro Thr 310 Gly Val íle 315 Leu Ala Ala Phe Ser 320
Glu Val íle Gly Arg Trp Ser Ala Ser Pro Arg Phe Thr Leu Asn íle
325 330 335
Thr Leu Phe Asn Arg Leu Pro Val His Pro Arg Val Asn Asp íle Thr
340 345 350
Gly Asp Phe Thr Ser Met Val Leu Leu Asp íle Asp Thr Thr Arg Asp
355 360 365
Lys Ser Phe Glu Gin Arg Ala Lys Arg íle Gin Glu Gin Leu Trp Glu
370 375 380
Ala Met Asp His Cys Asp Val Ser Gly íle Glu Val Gin Arg Glu Ala
385 390 395 400
Ala Arg Val Leu Gly íle Gin Arg Gly Ala Leu Phe Pro Val Val Leu
405 410 415
Thr Ser Ala Leu Asn Gin Gin Val Val Gly Val Thr Ser Leu Gin Arg
420 425 430
Leu Gly Thr Pro Val Tyr Thr Ser Thr Gin Thr Pro Gin Leu Leu Leu
435 440 445
Asp His Gin Leu Tyr Glu His Asp Gly Asp Leu Val Leu Ala Trp Asp
450 455 460
íle Val Asp Gly Val Phe Pro Pro Asp Leu Leu Asp Asp Met Leu Glu
465 470 475 480
Ala Tyr Val Val Phe Leu Arg Arg Leu Thr Glu Glu Pro Trp Gly Glu
485 490 495
Gin Val Arg Cys Ser Leu Pro Pro Ala Gin Leu Glu Ala Arg Ala Ser
500 505 510
Ala Asn Ala Thr Asn Ala Leu Leu Ser Glu His Thr Leu His Gly Leu
515 520 525
Phe Ala Ala Arg Val Glu Gin Leu Pro Met Gin Leu Ala Val Val Ser
530 535 540
Ala Arg Lys Thr Leu Thr Tyr Glu Glu Leu Ser Arg Arg Ser Arg Arg
545 550 555 560
Leu Gly Ala Arg Leu Arg Glu Gin Gly Ala Arg Pro Asn Thr Leu Val
565 570 575
Ala Val Val Met Glu Lys Gly Trp Glu Gin Val Val Ala Val Leu Ala
580 585 590
Val Leu Glu Ser Gly Ala Ala Tyr Val Pro íle Asp Ala Asp Leu Pro
595 600 605
Ala Glu Arg íle His Tyr Leu Leu Asp His Gly Glu Val Lys Leu Val
610 615 620
Leu Thr Gin Pro Trp Leu Asp Gly Lys Leu Ser Trp Pro Pro Gly íle
625 630 635 640
···· ·· ·· ·· • ···· · · · ··· · · · · ·
106 • · · · · · · ·· ···· ·· ···
Gin Arg Leu Leu Val Ser Glu Ala Gly Val Glu Gly Asp Gly Asp 655 Gin
64 5 650
Pro Pro Met Met Pro íle Gin Thr Pro Ser Asp Leu Ala Tyr Val íle
660 665 670
Tyr Thr Ser Gly Ser Thr Gly Leu Pro Lys Gly Val Met íle Asp His
675 680 685
Arg Gly Ala Val Asn Thr íle Leu Asp íle Asn Glu Arg Phe Glu íle
690 695 700
Gly Pro Gly Asp Arg Val Leu Ala Leu Ser Ser Leu Ser Phe Asp Leu
705 710 715 720
Ser Val Tyr Asp Val Phe Gly íle Leu Ala Ala Gly Gly Thr íle Val
725 730 735
Val Pro Asp Ala Ser Lys Leu Arg Asp Pro Ala His Trp Ala Glu Leu
740 745 750
íle Glu Arg Glu Lys Val Thr Val Trp Asn Ser Val Pro Ala Leu Met
755 760 765
Arg Met Leu Val Glu His Phe Glu Gly Arg Pro Asp Ser Leu Ala Arg
770 775 780
Ser Leu Arg Leu Ser Leu Leu Ser Gly Asp Trp íle Pro Val Gly Leu
785 790 795 800
Pro Gly Glu Leu Gin Ala íle Arg Pro Gly Val Ser Val íle Ser Leu
805 810 815
Gly Gly Ala Thr Glu Ala Ser íle Trp Ser íle Gly Tyr Pro Val Arg
820 825 830
Asn Val Asp Leu Ser Trp Ala Ser íle Pro Tyr Gly Arg Pro Leu Arg
835 840 845
Asn Gin Thr Phe His Val Leu Asp Glu Ala Leu Glu Pro Arg Pro Val
850 855 860
Trp Val Pro Gly Gin Leu Tyr íle Gly Gly Val Gly Leu Ala Leu Gly
865 870 875 880
Tyr Trp Arg Asp Glu Glu Lys Thr Arg Lys Ser Phe Leu Val His Pro
885 890 895
Glu Thr Gly Glu Arg Leu Tyr Lys Thr Gly Asp Leu Gly Arg Tyr Leu
900 905 910
Pro Asp Gly Asn íle Glu Phe Met Gly Arg Glu Asp Asn Gin íle Lys
915 920 925
Leu Arg Gly Tyr Arg Val Glu Leu Gly Glu íle Glu Glu Thr Leu Lys
930 935 940
Ser His Pro Asn Val Arg Asp Ala Val íle Val Pro Val Gly Asn Asp
945 950 955 960
Ala Ala Asn Lys Leu Leu Leu Ala Tyr Val Val Pro Glu Gly Thr Arg
965 970 975
···· • ·
107
Arg Arg Ala Ala Glu Gin Asp Ala Ser Leu Lys Thr Glu Arg íle Asp
980 985 990
Ala Arg Ala His Ala Ala Glu Ala Asp Gly Leu Ser Asp Gly Glu Arg
995 1000 1005
Val Gin Phe Lys Leu Ala Arg His Gly Leu Arg Arg Asp Leu Asp Gly
1010 1015 1020
Lys Pro Val Val Asp Leu Thr Gly Gin Asp Pro Arg Glu Ala Gly Leu
1025 1030 1035 1040
Asp Val Tyr Ala Arg Arg Arg Ser Val Arg Thr Phe Leu Glu Ala Pro
1045 1050 1055
íle Pro Phe Val Glu Phe Gly Arg Phe Leu Ser Cys Leu Ser Ser Val
1060 1065 1070
Glu Pro Asp Gly Ala Thr Leu Pro Lys Phe Arg Tyr Pro Ser Ala Gly
1075 1080 1085
Ser Thr Tyr Pro Val Gin Thr Tyr Ala Tyr Val Lys Ser Gly Arg íle
1090 1095 1100
Glu Gly Val Asp Glu Gly Phe Tyr Tyr Tyr His Pro Phe Glu His Arg
1105 1110 1115 1120
Leu Leu Lys Leu Ser Asp His Gly íle Glu Arg Gly Ala His Val Arg
1125 1130 1135
Gin Asn Phe Asp Val Phe Asp Glu Ala Ala Phe Asn Leu Leu Phe Val
1140 1145 1150
Gly Arg íle Asp Ala íle Glu Ser Leu Tyr Gly Ser Ser Ser Arg Glu
1155 1160 1165
Phe Cys Leu Leu Glu Ala Gly Tyr Met Ala Gin Leu Leu Met Glu Gin
1170 1175 1180
Ala Pro Ser Cys Asn íle Gly Val Cys Pro Val Gly Gin Phe Asn Phe
1185 1190 1195 1200
Glu Gin Val Arg Pro Val Leu Asp Leu Arg His Ser Asp Val Tyr Val
1205 1210 1215
His Gly Met Leu Gly Gly Arg Val Asp Pro Arg Gin Phe Gin Val Cys
1220 1225 1230
Thr Leu Gly Gin Asp Ser Ser Pro Arg Arg Ala Thr Thr Arg Gly Ala
1235 1240 1245
Pro Pro Gly Arg Glu Gin His Phe Ala Asp Met Leu Arg Asp Phe Leu
1250 1255 1260
Arg Thr Lys Leu Pro Glu Tyr Met Val Pro Thr Val Phe Val Glu Leu
1265 1270 1275 1280
Asp Ala Leu Pro Leu Thr Ser Asn Gly Lys Val Asp Arg Lys Ala Leu
1285 1290 1295
Arg Glu Arg Lys Asp Thr Ser Ser Pro Arg His Ser Gly His Thr Ala 1300 1305 1310 ···· • β
108
Pro Arg Asp Ala Leu Glu Glu íle Leu Val Ala Val Val Arg Glu Val
1315 1320 1325
Leu Gly Leu Glu Val Val Gly Leu Gin Gin Ser Phe Val Asp Leu Gly
1330 1335 1340
Ala Thr Ser íle His íle Val Arg Met Arg Ser Leu Leu Gin Lys Arg
1345 1350 1355 1360
Leu Asp Arg Glu íle Ala íle Thr Glu Leu Phe Gin Tyr Pro Asn Leu
1365 1370 1375
Gly Ser Leu Ala Ser Gly Leu Arg Arg Asp Ser Arg Asp Leu Asp Gin
1380 1385 1390
Arg Pro Asn Met Gin Asp Arg Val Glu Val Arg Arg Lys Gly Arg Arg
1395 1400 1405
Arg Ser
1410 <210> 4 <211> 1832 <212> PRT <213> Sorangium cellulosum <400> 4
Met 1 Glu Glu Gin Glu Ser Ser Ala íle Ala Val íle Gly Met Ser Gly 15
5 10
Arg Phe Pro Gly Ala Arg Asp Leu Asp Glu Phe Trp Arg Asn Leu Arg
20 25 30
Asp Gly Thr Glu Ala Val Gin Arg Phe Ser Glu Gin Glu Leu Ala Ala
35 40 45
Ser Gly Val Asp Pro Ala Leu Val Leu Asp Pro Ser Tyr Val Arg Ala
50 55 60
Gly Ser Val Leu Glu Asp Val Asp Arg Phe Asp Ala Ala Phe Phe Gly
65 70 75 80
íle Ser Pro Arg Glu Ala Glu Leu Met Asp Pro Gin His Arg íle Phe
85 90 95
Met Glu Cys Ala Trp Glu Ala Leu Glu Asn Ala Gly Tyr Asp Pro Thr
100 105 110
Ala Tyr Glu Gly Ser íle Gly Val Tyr Ala Gly Ala Asn Met Ser Ser
115 120 125
Tyr Leu Thr Ser Asn Leu His Glu His Pro Ala Met Met Arg Trp Pro
130 135 140
Gly Trp Phe Gin Thr Leu íle Gly Asn Asp Lys Asp Tyr Leu Ala Thr
145 150 155 160
His Val Ser Tyr Arg Leu Asn Leu Arg Gly Pro Ser íle Ser Val Gin
165 170 175
···· • ·
109 ····
Thr Ala Cys Ser Thr Ser Leu Val Ala Val His Leu Ala Cys Met Ser
180 185 190
Leu Leu Asp Arg Glu Cys Asp Met Ala Leu Ala Gly Gly íle Thr Val
195 200 205
Arg íle Pro His Arg Ala Gly Tyr Val Tyr Ala Glu Gly Gly íle Phe
210 215 220
Ser Pro Asp Gly His Cys Arg Ala Phe Asp Ala Lys Ala Asn Gly Thr
225 230 235 240
íle Met Gly Asn Gly Cys Gly Val Val Leu Leu Lys Pro Leu Asp Arg
245 250 255
Ala Leu Ser Asp Gly Asp Pro Val Arg Ala Val íle Leu Gly Ser Ala
260 265 270
Thr Asn Asn Asp Gly Ala Arg Lys íle Gly Phe Thr Ala Pro Ser Glu
275 280 285
Val Gly Gin Ala Gin Ala íle Met Glu Ala Leu Ala Leu Ala Gly Val
290 295 300
Glu Ala Arg Ser íle Gin Tyr íle Glu Thr His Gly Thr Gly Thr Leu
305 310 315 320
Leu Gly Asp Ala íle Glu Thr Ala Ala Leu Arg Arg Val Phe Gly Arg
325 330 335
Asp Ala Ser Ala Arg Arg Ser Cys Ala íle Gly Ser Val Lys Thr Gly
340 345 350
íle Gly His Leu Glu Ser Ala Ala Gly íle Ala Gly Leu íle Lys Thr
355 360 365
Val Leu Ala Leu Glu His Arg Gin Leu Pro Pro Ser Leu Asn Phe Glu
370 375 380
Ser Pro Asn Pro Ser íle Asp Phe Ala Ser Ser Pro Phe Tyr Val Asn
385 390 395 400
Thr Ser Leu Lys Asp Trp Asn Thr Gly Ser Thr Pro Arg Arg Ala Gly
405 410 415
Val Ser Ser Phe Gly íle Gly Gly Thr Asn Ala His Val Val Leu Glu
420 425 430
Glu Ala Pro Ala Ala Lys Leu Pro Ala Ala Ala Pro Ala Arg Ser Ala
435 440 445
Glu Leu Phe Val Val Ser Ala Lys Ser Ala Ala Ala Leu Asp Ala Ala
450 455 460
Ala Ala Arg Leu Arg Asp His Leu Gin Ala His Gin Gly íle Ser Leu
465 470 475 480
Gly Asp Val Ala Phe Ser Leu Ala Thr Thr Arg Ser Pro Met Glu His
485 490 495
Arg Leu Ala Met Ala Ala Pro Ser Arg Glu Ala Leu Arg Glu Gly Leu
500 505 510 ····
110
Asp Ala Ala 515 Ala Arg Gly Gin Thr Pro Pro Gly Ala Val Arg Gly Arg
520 525
Cys Ser Pro Gly Asn Val Pro Lys Val Val Phe Val Phe Pro Gly Gin
530 535 540
Gly Ser Gin Trp Val Gly Met Gly Arg Gin Leu Leu Ala Glu Glu Pro
545 550 555 560
Val Phe His Ala Ala Leu Ser Ala Cys Asp Arg Ala íle Gin Ala Glu
565 570 575
Ala Gly Trp Ser Leu Leu Ala Glu Leu Ala Ala Asp Glu Gly Ser Ser
580 585 590
Gin Leu Glu Arg íle Asp Val Val Gin Pro Val Leu Phe Ala Leu Ala
595 600 605
Val Ala Phe Ala Ala Leu Trp Arg Ser Trp Gly Val Ala Pro Asp Val
610 615 620
Val íle Gly His Ser Met Gly Glu Val Ala Ala Ala His Val Ala Gly
625 630 635 640
Ala Leu Ser Leu Glu Asp Ala Val Ala íle íle Cys Arg Arg Ser Arg
64 5 650 655
Leu Leu Arg Arg íle Ser Gly Gin Gly Glu Met Ala Val Thr Glu Leu
660 665 670
Ser Leu Ala Glu Ala Glu Ala Ala Leu Arg Gly Tyr Glu Asp Arg Val
675 680 685
Ser Val Ala Val Ser Asn Ser Pro Arg Ser Thr Val Leu Ser Gly Glu
690 695 700
Pro Ala Ala íle Gly Glu Val Leu Ser Ser Leu Asn Ala Lys Gly Val
705 710 715 720
Phe Cys Arg Arg Val Lys Val Asp Val Ala Ser His Ser Pro Gin Val
725 730 735
Asp Pro Leu Arg Glu Asp Leu Leu Ala Ala Leu Gly Gly Leu Arg Pro
740 745 750
Gly Ala Ala Ala Val Pro Met Arg Ser Thr Val Thr Gly Ala Met Val
755 760 765
Ala Gly Pro Glu Leu Gly Ala Asn Tyr Trp Met Asn Asn Leu Arg Gin
770 775 780
Pro Val Arg Phe Ala Glu Val Val Gin Ala Gin Leu Gin Gly Gly His
785 790 795 800
Gly Leu Phe Val Glu Met Ser Pro His Pro íle Leu Thr Thr Ser Val
805 810 815
Glu Glu Met Arg Arg Ala Ala Gin Arg Ala Gly Ala Ala Val Gly Ser
820 825 830
Leu Arg Arg Gly Gin Asp Glu Arg Pro Ala Met Leu Glu Ala Leu Gly
835 840 845
···· ···
111 ·· ·· ·· • · · · · · · • · 9 99
9 9 9 9 99
9 9 99
9999 999
999
Thr Leu Trp Ala 850 Gin Gly Tyr Pro Val Pro Trp Gly Arg Leu Phe Pro
855 860
Ala Gly Gly Arg Arg Val Pro Leu Pro Thr Tyr Pro Trp Gin Arg Glu
865 870 875 880
Arg Tyr Trp íle Glu Ala Pro Ala Lys Ser Ala Ala Gly Asp Arg Arg
885 890 895
Gly Val Arg Ala Gly Gly His Pro Leu Leu Gly Glu Met Gin Thr Leu
900 905 910
Ser Thr Gin Thr Ser Thr Arg Leu Trp Glu Thr Thr Leu Asp Leu Lys
915 920 925
Arg Leu Pro Trp Leu Gly Asp His Arg Val Gin Gly Ala Val Val Phe
930 935 940
Pro Gly Ala Ala Tyr Leu Glu Met Ala íle Ser Ser Gly Ala Glu Ala
945 950 955 960
Leu Gly Asp Gly Pro Leu Gin íle Thr Asp Val Val Leu Ala Glu Ala
965 970 975
Leu Ala Phe Ala Gly Asp Ala Ala Val Leu Val Gin Val Val Thr Thr
980 985 990
Glu Gin Pro Ser Gly Arg Leu Gin Phe Gin íle Ala Ser Arg Ala Pro
995 1000 1005
Gly Ala Gly His Ala Ser Phe Arg Val His Ala Arg Gly Ala Leu Leu
1010 1015 1020
Arg Val Glu Arg Thr Glu Val Pro Ala Gly Leu Thr Leu Ser Ala Val
1025 1030 1035 1040
Arg Ala Arg Leu Gin Ala Ser íle Pro Ala Ala Ala Thr Tyr Ala Glu
1045 1050 1055
Leu Thr Glu Met Gly Leu Gin Tyr Gly Pro Ala Phe Gin Gly íle Ala
1060 1065 1070
Glu Leu Trp Arg Gly Glu Gly Glu Ala Leu Gly Arg Val Arg Leu Pro
1075 1080 1085
Asp Ala Ala Gly Ser Ala Ala Glu Tyr Arg Leu His Pro Ala Leu Leu
1090 1095 1100
Asp Ala Cys Phe Gin íle Val Gly Ser Leu Phe Ala Arg Ser Gly Glu
1105 1110 1115 1120
Ala Thr Pro Trp Val Pro Val Glu Leu Gly Ser Leu Arg Leu Leu Gin
1125 1130 1135
Arg Pro Ser Gly Glu Leu Trp Cys His Ala Arg Val Val Asn His Gly
1140 1145 1150
His Gin Thr Pro Asp Arg Gin Gly Ala Asp Phe Trp Val Val Asp Ser
1155 1160 1165
Ser Gly Ala Val Val Ala Glu Val Cys Gly Leu Val Ala Gin Arg Leu 1170 1175 1180 ··
112
Pro Gly Gly 1185 Val Arg Arg 1190 Arg Glu Glu Asp Asp Trp 1195 Phe Leu Glu Leu 1200
Glu Trp Glu Pro Ala Ala Val Gly Thr Ala Lys Val Asn Ala Gly Arg
1205 1210 1215
Trp Leu Leu Leu Gly Gly Gly Gly Gly Leu Gly Ala Ala Leu Arg Ala
1.220 1225 1230
Met Leu Glu Ala Gly Gly His Ala Val Val His Ala Ala Glu Asn Asn
1235 1240 1245
Thr Ser Ala Ala Gly Val Arg Ala Leu Leu Ala Lys Ala Phe Asp Gly
1250 1255 1260
Gin Ala Pro Thr Ala Val Val His Leu Gly Ser Leu Asp Gly Gly Gly
1265 1270 1275 1280
Glu Leu Asp Pro Gly Leu Gly Ala Gin Gly Ala Leu Asp Ala Pro Arg
1285 1290 1295
Ser Ala Asp Val Ser Pro Asp Ala Leu Asp Pro Ala Leu Val Arg Gly
1300 1305 1310
Cys Asp Ser Val Leu Trp Thr Val Gin Ala Leu Ala Gly Met Gly Phe
1315 1320 1325
Arg Asp Ala Pro Arg Leu Trp Leu Leu Thr Arg Gly Ala Gin Ala Val
1330 1335 1340
Gly Ala Gly Asp Val Ser Val Thr Gin Ala Pro Leu Leu Gly Leu Gly
1345 1350 1355 1360
Arg Val íle Ala Met Glu His Ala Asp Leu Arg Cys Ala Arg Val Asp
1365 1370 1375
Leu Asp Pro Ala Arg Pro Glu Gly Glu Leu Ala Ala Leu Leu Ala Glu
1380 1385 1390
Leu Leu Ala Asp Asp Ala Glu Ala Glu Val Ala Leu Arg Gly Gly Glu
1395 1400 1405
Arg Cys Val Ala Arg íle Val Arg Arg Gin Pro Glu Thr Arg Pro Arg
1410 1415 1420
Gly Arg íle Glu Ser Cys Val Pro Thr Asp Val Thr íle Arg Ala Asp
1425 1430 1435 1440
Ser Thr Tyr Leu Val Thr Gly Gly Leu Gly Gly Leu Gly Leu Ser Val
1445 1450 1455
Ala Gly Trp Leu Ala Glu Arg Gly Ala Gly His Leu Val Leu Val Gly
14 60 1465 1470
Arg Ser Gly Ala Ala Ser Val Glu Gin Arg Ala Ala Val Ala Ala Leu
1475 1480 1485
Glu Ala Arg Gly Ala Arg Val Thr Val Ala Lys Ala Asp Val Ala Asp
1490 1495 1500
Arg Ala Gin Leu Glu Arg íle Leu Arg Glu Val Thr Thr Ser Gly Met 1505 1510 1515 1520 ····
113
Pro Leu Arg Gly Val Val His Ala Ala Gly 1530 íle Leu Asp Asp Gly 1535 Leu
1525
Leu Met Gin Gin Thr Pro Ala Arg Phe Arg Lys Val Met Ala Pro Lys
1540 1545 1550
Val Gin Gly Ala Leu His Leu His Ala Leu Thr Arg Glu Ala Pro Leu
1555 1560 1565
Ser Phe Phe Val Leu Tyr Ala Ser Gly Val Gly Leu Leu Gly Ser Pro
1570 1575 1580
Gly Gin Gly Asn Tyr Ala Ala Ala Asn Thr Phe Leu Asp Ala Leu Ala
1585 1590 1595 1600
His His Arg Arg Ala Gin Gly Leu Pro Ala Leu Ser Val Asp Trp Gly
1605 1610 1615
Leu Phe Ala Glu Val Gly Met Ala Ala Ala Gin Glu Asp Arg Gly Ala
1620 1625 1630
Arg Leu Val Ser Arg Gly Met Arg Ser Leu Thr Pro Asp Glu Gly Leu
1635 1640 1645
Ser Ala Leu Ala Arg Leu Leu Glu Ser Gly Arg Ala Gin Val Gly Val
1650 1655 1660
Met Pro Val Asn Pro Arg Leu Trp Val Glu Leu Tyr Pro Ala Ala Ala
1665 1670 1675 1680
Ser Ser Arg Met Leu Ser Arg Leu Val Thr Ala His Arg Ala Ser Ala
1685 1690 1695
Gly Gly Pro Ala Gly Asp Gly Asp Leu Leu Arg Arg Leu Ala Ala Ala
1700 1705 1710
Glu Pro Ser Ala Arg Ser Ala Leu Leu Glu Pro Leu Leu Arg Ala Gin
1715 1720 1725
íle Ser Gin Val Leu Arg Leu Pro Glu Gly Lys íle Glu Val Asp Ala
1730 1735 1740
Pro Leu Thr Ser Leu Gly Met Asn Ser Leu Met Gly Leu Glu Leu Arg
1745 1750 1755 1760
Asn Arg íle Glu Ala Met Leu Gly íle Thr Val Pro Ala Thr Leu Leu
1765 1770 1775
Trp Thr Tyr Pro Thr Val Ala Ala Leu Ser Gly His Leu Ala Arg Glu
1780 1785 1790
Ala Cys Glu Ala Ala Pro Val Glu Ser Pro His Thr Thr Ala Asp Ser
1795 1800 1805
Ala Val Glu íle Glu Glu Met Ser Gin Asp Asp Leu Thr Gin Leu íle
1810 1815 1820
Ala Ala Lys Phe Lys Ala Leu Thr
1825 1830 ··
114 <210> 5 <211> 7257 <212> PRT <213> Sorangium cellulosum <400> 5
Met Thr Thr Arg Gly Pro Thr Ala Gin Gin Asn Pro Leu Lys Gin Ala
1 5 10 15
Ala íle íle íle Gin Arg Leu Glu Glu Arg Leu Ala Gly Leu Ala Gin
20 25 30
Ala Glu Leu Glu Arg Thr Glu Pro íle Ala íle Val Gly íle Gly Cys
35 40 45
Arg Phe Pro Gly Gly Ala Asp Ala Pro Glu Ala Phe Trp Glu Leu Leu
50 55 60
Asp Ala Glu Arg Asp Ala Val Gin Pro Leu Asp Met Arg Trp Ala Leu
65 70 75 80
Val Gly Val Ala Pro Val Glu Ala Val Pro His Trp Ala Gly Leu Leu
85 90 95
Thr Glu Pro íle Asp Cys Phe Asp Ala Ala Phe Phe Gly íle Ser Pro
100 105 110
Arg Glu Ala Arg Ser Leu Asp Pro Gin His Arg Leu Leu Leu Glu Val
115 120 125
Ala Trp Glu Gly Leu Glu Asp Ala Gly íle Pro Pro Arg Ser íle Asp
130 135 140
Gly Ser Arg Thr Gly Val Phe Val Gly Ala Phe Thr Ala Asp Tyr Ala
145 150 155 160
Arg Thr Val Ala Arg Leu Pro Arg Glu Glu Arg Asp Ala Tyr Ser Ala
165 170 175
Thr Gly Asn Met Leu Ser íle Ala Ala Gly Arg Leu Ser Tyr Thr Leu
180 185 190
Gly Leu Gin Gly Pro Cys Leu Thr Val Asp Thr Ala Cys Ser Ser Ser
195 200 205
Leu Val Ala íle His Leu Ala Cys Arg Ser Leu Arg Ala Gly Glu Ser
210 215 220
Asp Leu Ala Leu Ala Gly Gly Val Ser Ala Leu Leu Ser Pro Asp Met
225 230 235 240
Met Glu Ala Ala Ala Arg Thr Gin Ala Leu Ser Pro Asp Gly Arg Cys
245 250 255
Arg Thr Phe Asp Ala Ser Ala Asn Gly Phe Val Arg Gly Glu Gly Cys
260 265 270
Gly Leu Val Val Leu Lys Arg Leu Ser Asp Ala Gin Arg Asp Gly Asp
275 280 285
Arg íle Trp Ala Leu íle Arg Gly Ser Ala íle Asn His Asp Gly Arg
290 295 300
115
• ···· ·· ·· ··
• · · • · · · • ·
• ··· • · ·
• · • · · · • ·
• · • · ·
······ ·· ···· ·· ···
Ser Thr Gly Leu Thr Ala Pro Asn Val Leu Ala Gin Glu Thr Val Leu
305 310 315 320
Arg Glu Ala Leu Arg Ser Ala His Val Glu Ala Gly Ala Val Asp Tyr
325 330 335
Val Glu Thr His Gly Thr Gly Thr Ser Leu Gly Asp Pro íle Glu Val
340 345 350
Glu Ala Leu Arg Ala Thr Val Gly Pro Ala Arg Ser Asp Gly Thr Arg
355 360 365
Cys Val Leu Gly Ala Val Lys Thr Asn íle Gly His Leu Glu Ala Ala
370 375 380
Ala Gly Val Ala Gly Leu íle Lys Ala Ala Leu Ser Leu Thr His Glu
385 390 395 400
Arg íle Pro Arg Asn Leu Asn Phe Arg Thr Leu Asn Pro Arg íle Arg
405 410 415
Leu Glu Gly Ser Ala Leu Ala Leu Ala Thr Glu Pro Val Pro Trp Pro
420 425 430
Arg Thr Asp Arg Pro Arg Phe Ala Gly Val Ser Ser Phe Gly Met Ser
435 440 445
Gly Thr Asn Ala His Val Val Leu Glu Glu Ala Pro Ala Val Glu Leu
450 455 460
Trp Pro Ala Ala Pro Glu Arg Ser Ala Glu Leu Leu Val Leu Ser Gly
465 470 475 480
Lys Ser Glu Gly Ala Leu Asp Ala Gin Ala Ala Arg Leu Arg Glu His
485 490 495
Leu Asp Met His Pro Glu Leu Gly Leu Gly Asp Val Ala Phe Ser Leu
500 505 510
Ala Thr Thr Arg Ser Ala Met Ser His Arg Leu Ala Val Ala Val Thr
515 520 525
Ser Arg Glu Gly Leu Leu Ala Ala Leu Ser Ala Val Ala Gin Gly Gin
530 535 540
Thr Pro Ala Gly Ala Ala Arg Cys íle Ala Ser Ser Ser Arg Gly Lys
545 550 555 560
Leu Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Thr Pro Gly Met Gly
565 570 575
Arg Gly Leu Cys Ala Ala Trp Pro Ala Phe Arg Glu Ala Phe Asp Arg
580 585 590
Cys Val Ala Leu Phe Asp Arg Glu Leu Asp Arg Pro Leu Arg Glu Val
595 600 605
Met Trp Ala Glu Ala Gly Ser Ala Glu Ser Leu Leu Leu Asp Gin Thr
610 615 620
Ala Phe Thr Gin Pro Ala Leu Phe Ala Val Glu Tyr Ala Leu Thr Ala
625 630 635 640
116
···· ·· ·· ··
• · • · • ·
·· • ·
• · • ·
• ·
• · ···· ·· ···
Leu Trp Arg Ser Trp Gly Val Glu Pro Glu Leu Leu Val Gly His Ser
645 650 655
íle Gly Glu Leu Val Ala Ala Cys Val Ala Gly Val Phe Ser Leu Glu
660 665 670
Asp Gly Val Arg Leu Val Ala Ala Arg Gly Arg Leu Met Gin Gly Leu
675 680 685
Ser Ala Gly Gly Ala Met Val Ser Leu Gly Ala Pro Glu Ala Glu Val
690 695 700
Ala Ala Ala Val Ala Pro His Ala Ala Ser Val Ser íle Ala Ala Val
705 710 715 720
Asn Gly Pro Glu Gin Val Val íle Ala Gly Val Glu Gin Ala Val Gin
725 730 735
Ala íle Ala Ala Gly Phe Ala Ala Arg Gly Ala Arg Thr Lys Arg Leu
740 745 750
His Val Ser His Ala Phe His Ser Pro Leu Met Glu Pro Met Leu Glu
755 760 765
Glu Phe Gly Arg Val Ala Ala Ser Val Thr Tyr Arg Arg Pro Ser Val
770 775 780
Ser Leu Val Ser Asn Leu Ser Gly Lys Val Val Thr Asp Glu Leu Ser
785 790 795 800
Ala Pro Gly Tyr Trp Val Arg His Val Arg Glu Ala Val Arg Phe Ala
805 810 815
Asp Gly Val Lys Ala Leu His Glu Ala Gly Ala Gly Thr Phe Val Glu
820 825 830
Val Gly Pro Lys Pro Thr Leu Leu Gly Leu Leu Pro Ala Cys Leu Pro
835 840 845
Glu Ala Glu Pro Thr Leu Leu Ala Ser Leu Arg Ala Gly Arg Glu Glu
850 855 860
Ala Ala Gly Val Leu Glu Ala Leu Gly Arg Leu Trp Ala Ala Gly Gly
865 870 875 880
Ser Val Ser Trp Pro Gly Val Phe Pro Thr Ala Gly Arg Arg Val Pro
885 890 895
Leu Pro Thr Tyr Pro Trp Gin Arg Gin Arg Tyr Trp íle Glu Ala Pro
900 905 910
Ala Glu Gly Leu Gly Ala Thr Ala Ala Asp Ala Leu Ala Gin Trp Phe
915 920 925
Tyr Arg Val Asp Trp Pro Glu Met Pro Arg Ser Ser Val Asp Ser Arg
930 935 940
Arg Ala Arg Ser Gly Gly Trp Leu Val Leu Ala Asp Arg Gly Gly Val
945 950 955 960
Gly Glu Ala Ala Ala Ala Ala Leu Ser Ser Gin Gly Cys Ser Cys Ala
965 970 975 ····
117
Val Leu His Ala Pro Ala Glu Ala Ser Ala Val Ala Glu Gin Val Thr
980 985 990
Gin Ala Leu C-ly Gly Arg Asn Asp Trp Gin Gly Val Leu Tyr Leu Trp
995 1000 1005
Gly Leu Asp Ala Val Val Glu Ala Gly Ala Ser Ala Glu Glu Val Ala
1010 1015 1020
Lys Val Thr His Leu Ala Ala Ala Pro Val Leu Ala Leu íle Gin Ala
1025 1030 1035 1040
Leu Gly Thr Gly Pro Arg Ser Pro Arg Leu Trp íle Val Thr Arg Gly
1045 1050 1055
Ala Cys Thr Val Gly Gly Glu Pro Asp Ala Ala Pro Cys Gin Ala Ala
1060 1065 1070
Leu Trp Gly Met Gly Arg Val Ala Ala Leu Glu His Pro Gly Ser Trp
1075 1080 1085
Gly Gly Leu Val Asp Leu Asp Pro Glu Glu Ser Pro Thr Glu Val Glu
1090 1095 1100
Ala Leu Val Ala Glu Leu Leu Ser Pro Asp Ala Glu Asp Gin Leu Ala
1105 1110 1115 1120
Phe Arg Gin Gly Arg Arg Arg Ala Ala Arg Leu Val Ala Ala Pro Pro
1125 L130 1135
Glu Gly Asn Ala Ala Pro Val Ser Leu Ser Ala Glu Gly Ser Tyr Leu
1140 1145 1150
Val Thr Gly Gly Leu Gly Ala Leu Gly Leu Leu Val Ala Arg Trp Leu
1155 1160 1165
Val Glu Arg Gly Ala Gly His Leu Val Leu íle Ser Arg His Gly Leu
1170 1175 1180
Pro Asp Arg Glu Glu Trp Gly Arg Asp Gin Pro Pro Glu Val Arg Ala
1185 1190 1195 1200
Arg íle Ala Ala íle Glu Ala Leu Glu Ala Gin Gly Ala Arg Val Thr
1205 1210 1215
Val Ala Ala Val Asp Val Ala Asp Ala Glu Gly Met Ala Ala Leu Leu
1220 1225 1230
Ala Ala Val Glu Pro Pro Leu Arg Gly Val Val His Ala Ala Gly Leu
1235 1240 1245
Leu Asp Asp Gly Leu Leu Ala His Gin Asp Ala Gly Arg Leu Ala Arg
1250 1255 1260
Val Leu Arg Pro Lys Val Glu Gly Ala Trp Val Leu His Thr Leu Thr
1265 1270 1275 1280
Arg Glu Gin Pro Leu Asp Leu Phe Val Leu Phe Ser Ser Ala Ser Gly
1285 1290 1295
Val Phe Gly Ser íle Gly Gin Gly Ser Tyr Ala Ala Gly Asn Ala Phe
1300 1305 1310
118
···· ·· ·· ··
• · • · • · • ·
··· • · • ·
• · · • · ·
• · • ·
··· ·· ···· ·· ···
Leu Asp Ala 1315 Leu Ala Asp Leu Arg Arg Thr 1320 Gin Gly Leu 1325 Ala Ala Leu
Ser íle Ala Trp Gly Leu Trp Ala Glu Gly Gly Met Gly Ser Gin Ala
1330 1335 1340
Gin Arg Arg Glu His Glu Ala Ser Gly íle Trp Ala Met Pro Thr Ser
1345 1350 1355 1360
Arg Ala Leu Ala Ala Met Glu Trp Leu Leu Gly Thr Arg Ala Thr Gin
1365 1370 1375
Arg Val Val íle Gin Met Asp Trp Ala His Ala Gly Ala Ala Pro Arg
1380 1385 1390
Asp Ala Ser Arg Gly Arg Phe Trp Asp Arg Leu Val Thr Ala Thr Lys
1395 1400 1405
Glu Ala Ser Ser Ser Ala Val Pro Ala Val Glu Arg Trp Arg Asn Ala
1410 1415 1420
Ser Val Val Glu Thr Arg Ser Ala Leu Tyr Glu Leu Val Arg Gly Val
1425 1430 1435 1440
Val Ala Gly Val Met Gly Phe Thr Asp Gin Gly Thr Leu Asp Val Arg
1445 1450 1455
Arg Gly Phe Ala Glu Gin Gly Leu Asp Ser Leu Met Ala Val Glu íle
14 60 1465 1470
Arg Lys Arg Leu Gin Gly Glu Leu Gly Met Pro Leu Ser Ala Thr Leu
1475 1480 1485
Ala Phe Asp His Pro Thr Val Glu Arg Leu Val Glu Tyr Leu Leu Ser
1490 1495 1500
Gin Ala Leu Glu Leu Gin Asp Arg Thr Asp Val Arg Ser Val Arg Leu
1505 1510 1515 1520
Pro Ala Thr Glu Asp Pro íle Ala íle Val Gly Ala Ala Cys Arg Phe
1525 1530 1535
Pro Gly Gly Val Glu Asp Leu Glu Ser Tyr Trp Gin Leu Leu Thr Glu
1540 1545 1550
Gly Val Val Val Ser Thr Glu Val Pro Ala Asp Arg Trp Asn Gly Ala
1555 1560 1565
Asp Gly Arg Val Pro Gly Ser Gly Glu Ala Gin Arg Gin Thr Tyr Val
1570 1575 1580
Pro Arg Gly Gly Phe Leu Arg Glu Val Glu Thr Phe Asp Ala Ala Phe
1585 1590 1595 1600
Phe His íle Ser Pro Arg Glu Ala Met Ser Leu Asp Pro Gin Gin Arg
1605 1610 1615
Leu Leu Leu Glu Val Ser Trp Glu Ala íle Glu Arg Ala Gly Gin Asp
1620 1625 1630
Pro Ser Ala Leu Arg Glu Ser Pro Thr Gly Val Phe Val Gly Ala Gly 1635 1640 1645 ····
119
Pro Asn 1650 Glu Tyr Ala Glu Arg Val 1655 Gin Glu Leu Ala 1660 Asp Glu Ala Ala
Gly Leu Tyr Ser Gly Thr Gly Asn Met Leu Ser Val Ala Ala Gly Arg
1665 1670 1675 1680
Leu Ser Phe Phe Leu Gly Leu His Gly Pro Thr Leu Ala Val Asp Thr
1685 1690 1695
Ala Cys Ser Ser Ser Leu Val Ala Leu His Leu Gly Cys Gin Ser Leu
1700 1705 1710
Arg Arg Gly Glu Cys Asp Gin Ala Leu Val Gly Gly Val Asn Met Leu
1715 1720 1725
Leu Ser Pro Lys Thr Phe Ala Leu Leu Ser Arg Met His Ala Leu Ser
1730 1735 1740
Pro Gly Gly Arg Cys Lys Thr Phe Ser Ala Asp Ala Asp Gly Tyr Ala
1745 1750 1755 1760
Arg Ala Glu Gly Cys Ala Val Val Val Leu Lys Arg Leu Ser Asp Ala
1765 1770 1775
Gin Arg Asp Arg Asp Pro íle Leu Ala Val íle Arg Gly Thr Ala íle
1780 1785 1790
Asn His Asp Gly Pro Ser Ser Gly Leu Thr Val Pro Ser Gly Pro Ala
17 95 1800 1805
Gin Glu Ala Leu Leu Arg Gin Ala Leu Ala His Ala Gly Val Val Pro
1810 1815 1820
Ala Asp Val Asp Phe Val Glu Cys His Gly Thr Gly Thr Ala Leu Gly
1825 1830 1835 1840
Asp Pro íle Glu Val Arg Ala Leu Ser Asp Val Tyr Gly Gin Ala Arg
1845 1850 1855
Pro Ala Asp Arg Pro Leu íle Leu Gly Ala Ala Lys Ala Asn Leu Gly
1860 1865 1870
His Met Glu Pro Ala Ala Gly Leu Ala Gly Leu Leu Lys Ala Val Leu
1875 1880 1885
Ala Leu Gly Gin Glu Gin íle Pro Ala Gin Pro Glu Leu Gly Glu Leu
1890 1895 1900
Asn Pro Leu Leu Pro Trp Glu Ala Leu Pro Val Ala Val Ala Arg Ala
1905 1910 1915 1920
Ala Val Pro Trp Pro Arg Thr Asp Arg Pro Arg Phe Ala Gly Val Ser
1925 1930 1935
Ser Phe Gly Met Ser Gly Thr Asn Ala His Val Val Leu Glu Glu Ala
1940 1945 1950
Pro Ala Val Glu Leu Trp Pro Ala Ala Pro Glu Arg Ser Ala Glu Leu
1955 1960 1965
Leu Val Leu Ser Gly Lys Ser Glu Gly Ala Leu Asp Ala Gin Ala Ala 1970 1975 1980 ····
120
Arg Leu 1985 Arg Glu His Leu 1990 Asp Met His Pro Glu 1995 Leu Gly Leu Gly Asp 2000
Val Ala Phe Ser Leu Ala Thr Thr Arg Ser Ala Met Asn His Arg Leu
2005 2010 2015
Ala Val Ala Val Thr Ser Arg Glu Gly Leu Leu Ala Ala Leu Ser Ala
2020 2025 2030
Val Ala Gin Gly Gin Thr Pro Pro Gly Ala Ala Arg Cys íle Ala Ser
2035 2040 2045
Ser Ser Arg Gly Lys Leu Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin
2050 2055 2060
Thr Pro Gly Met Gly Arg Gly Leu Cys Ala Ala Trp Pro Ala Phe Arg
2065 2070 2075 2080
Glu Ala Phe Asp Arg Cys Val Ala Leu Phe Asp Arg Glu Leu Asp Arg
2085 2090 2095
Pro Leu Arg Glu Val Met Trp Ala Glu Pro Gly Ser Ala Glu Ser Leu
2100 2105 2110
Leu Leu Asp Gin Thr Ala Phe Thr Gin Pro Ala Leu Phe Thr Val Glu
2115 2120 2125
Tyr Ala Leu Thr Ala Leu Trp Arg Ser Trp Gly Val Glu Pro Glu Leu
2130 2135 2140
Val Ala Gly His Ser Ala Gly Glu Leu Val Ala Ala Cys Val Ala Gly
2145 2150 2155 2160
Val Phe Ser Leu Glu Asp Gly Val Arg Leu Val Ala Ala Arg Gly Arg
2165 2170 2175
Leu Met Gin Gly Leu Ser Ala Gly Gly Ala Met Val Ser Leu Gly Ala
2180 2185 2190
Pro Glu Ala Glu Val Ala Ala Ala Val Ala Pro His Ala Ala Ser Val
2195 2200 2205
Ser íle Ala Ala Val Asn Gly Pro Glu Gin Val Val íle Ala Gly Val
2210 2215 2220
Glu Gin Ala Val Gin Ala íle Ala Ala Gly Phe Ala Ala Arg Gly Ala
2225 2230 2235 2240
Arg Thr Lys Arg Leu His Val Ser His Ala Ser His Ser Pro Leu Met
2245 2250 2255
Glu Pro Met Leu Glu Glu Phe Gly Arg Val Ala Ala Ser Val Thr Tyr
2260 2265 2270
Arg Arg Pro Ser Val Ser Leu Val Ser Asn Leu Ser Gly Lys Val Val
2275 2280 2285
Ala Asp Glu Leu Ser Ala Pro Gly Tyr Trp Val Arg His Val Arg Glu
2290 2295 2300
Ala Val Arg Phe Ala Asp Gly Val Lys Ala Leu His Glu Ala Gly Ala 2305 2310 2315 2320
121
Gly Thr Phe Val Glu Val Gly Pro Lys Pro Thr Leu Leu Gly Leu Leu
2325 ; 2330 ; 2335
Pro Ala Cys Leu 2340 Pro Glu Ala Glu Pro 2345 Thr Leu Leu Ala Ser 2350 Leu Arg
Ala Gly Arg Glu 2355 Glu Ala Ala Gly Val 2360 Leu Glu Ala Leu Gly 2365 Arg Leu
Trp Ala Ala Gly 2370 Gly Ser Val Ser Trp 2375 Pro Gly Val Phe Pro 2380 Thr Ala
Gly Arg Arg Val Pro Leu Pro Thr Tyr Pro Trp Gin Arg Gin Arg Tyr
2385 2390 2395 2400
Trp Pro Asp Íle Glu Pro Asp Ser Arg Arg His Ala Ala Ala Asp Pro
2405 2410 2415
Thr Gin Gly Trp 2420 Phe Tyr Arg Val Asp 2425 Trp Pro Glu íle Pro 2430 Arg Ser
Leu Gin Lys Ser 2435 Glu Glu Ala Ser Arg 2440 Gly Ser Trp Leu Val 2445 Leu Ala
Asp Lys Gly Gly 2450 Val Gly Glu Ala Val 2455 Ala Ala Ala Leu Ser 2460 Thr Arg
Gly Leu Pro Cys Val Val Leu His Ala Pro Ala Glu Thr Ser Ala Thr
2465 2470 2475 2480
Ala Glu Leu Val Thr Glu Ala Ala Gly Gly Arg Ser Asp Trp Gin Val
2485 2490 2495
Val Leu Tyr Leu 2500 Trp Gly Leu Asp Ala 2505 Val Val Gly Ala Glu 2510 Ala Ser
íle Asp Glu íle 2515 Gly Asp Ala Thr Arg 2520 Arg Ala Thr Ala Pro 2525 Val Leu
Gly Leu Ala Arg 2530 Phe Leu Ser Thr Val 2535 Ser Cys Ser Pro Arg 2540 Leu Trp
Val Val Thr Arg Gly Ala Cys íle Val Gly Asp Glu Pro Ala íle Ala
2545 2550 2555 2560
Pro Cys Gin Ala Ala Leu Trp Gly Met Gly Arg Val Ala Ala Leu Glu
2565 2570 2575
His Pro Gly Ala 2580 Trp Gly Gly Leu Val 2585 Asp Leu Asp Pro Arg 2590 Ala Ser
Pro Pro Gin Ala 2595 Ser Pro íle Asp Gly 2600 Glu Met Leu Val Thr 2605 Glu Leu
Leu Ser Gin Glu 2610 Thr Glu Asp Gin Leu 2615 Ala Phe Arg His Gly 2620 Arg Arg
His Ala Ala Arg Leu Val Ala Ala Pro Pro Gin Gly Gin Ala Ala Pro
2625 2630 2635 2640
Val Ser Leu Ser Ala Glu Ala Ser Tyr Leu Val Thr Gly Gly Leu Gly
2645 2650 2655 ···· • ·
122
Gly Leu Gly Leu íle Val Ala Gin Trp 2665 Leu Val Glu Leu Gly 2670 Ala Arg
2660
His Leu Val Leu Thr Ser Arg Arg Gly Leu Pro Asp Arg Gin Ala Trp
2675 2680 2685
Cys Glu Gin Gin Pro Pro Glu íle Arg Ala Arg íle Ala Ala Val Glu
2690 2695 2700
Ala Leu Glu Ala Arg Gly Ala Arg Val Thr Val Ala Ala Val Asp Val
2705 2710 2715 2720
Ala Asp Val Glu Pro Met Thr Ala Leu Val Ser Ser Val Glu Pro Pro
2725 2730 2735
Leu Arg Gly Val Val His Ala Ala Gly Val Ser Val Met Arg Pro Leu
2740 2745 2750
Ala Glu Thr Asp Glu Thr Leu Leu Glu Ser Val Leu Arg Pro Lys Val
2755 2760 2765
Ala Gly Ser Trp Leu Leu His Arg Leu Leu His Gly Arg Pro Leu Asp
2770 2775 2780
Leu Phe Val Leu Phe Ser Ser Gly Ala Ala Val Trp Gly Ser His Ser
2785 2790 2795 2800
Gin Gly Ala Tyr Ala Ala Ala Asn Ala Phe Leu Asp Gly Leu Ala His
2805 2810 2815
Leu Arg Arg Ser Gin Ser Leu Pro Ala Leu Ser Val Ala Trp Gly Leu
2320 2825 2830
Trp Ala Glu Gly Gly Met Ala Asp Ala Glu Ala His Ala Arg Leu Ser
2835 2840 2845
Asp íle Gly Val Leu Pro Met Ser Thr Ser Ala Ala Leu Ser Ala Leu
2850 2855 2860
Gin Arg Leu Val Glu Thr Gly Ala Ala Gin Arg Thr Val Thr Arg Met
2865 2870 2875 2880
Asp Trp Ala Arg Phe Ala Pro Val Tyr Thr Ala Arg Gly Arg Arg Asn
2885 2890 2895
Leu Leu Ser Ala Leu Val Ala Gly Arg Asp íle íle Ala Pro Ser Pro
2900 2905 2910
Pro Ala Ala Ala Thr Arg Asn Trp Arg Gly Leu Ser Val Ala Glu Ala
2915 2920 2925
Arg Val Ala Leu His Glu íle Val His Gly Ala Val Ala Arg Val Leu
2930 2935 2940
Gly Phe Leu Asp Pro Ser Ala Leu Asp Pro Gly Met Gly Phe Asn Glu
2945 2950 2955 2960
Gin Gly Leu Asp Ser Leu Met Ala Val Glu íle Arg Asn Leu Leu Gin
2965 2970 2975
Ala Glu Leu Asp Val Arg Leu Ser Thr Thr Leu Ala Phe Asp His Pro 2980 2985 2990 ····
123
Thr Val Gin Arg Leu Val Glu His Leu Leu Val Asp Val Leu Lys Leu
2995 3000 3005
Glu Asp Arg Ser Asp Thr Gin His Val Arg Ser Leu Ala Ser Asp Glu
3010 3015 3020
Pro íle Ala íle Val Gly Ala Ala Cys Arg Phe Pro Gly Gly Val Glu
3025 3030 : 3035 3040
Asp Leu Glu Ser Tyr Trp Gin Leu Leu Ala Glu Gly Val Val Val Ser
3045 3050 3055
Ala Glu Val Pro Ala Asp Arg Trp Asp Ala Ala Asp Trp Tyr Asp Pro
3060 3065 3070
Asp Pro Glu íle Pro Gly Arg Thr Tyr Val Thr Lys Gly Ala Phe Leu
3075 3080 3085
Arg Asp Leu Gin Arg Leu Asp Ala Thr Phe Phe Arg íle Ser Pro Arg
3090 3095 3100
Glu Ala Met Ser Leu Asp Pro Gin Gin Arg Leu Leu Leu Glu Val Ser
3105 3110 3115 3120
Trp Glu Ala Leu Glu Ser Ala Gly íle Ala Pro Asp Thr Leu Arg Asp
3125 3130 3135
Ser Pro Thr Gly Val Phe Val Gly Ala Gly Pro Asn Glu Tyr Tyr Thr
3140 3145 3150
Gin Arg Leu Arg Gly Phe Thr Asp Gly Ala Ala Gly Leu Tyr Gly Gly
3155 3160 3165
Thr Gly Asn Met Leu Ser Val Thr Ala Gly Arg Leu Ser Phe Phe Leu
3170 3175 3180
Gly Leu His Gly Pro Thr Leu Ala Met Asp Thr Ala Cys Ser Ser Ser
3185 3190 3195 3200
Leu Val Ala Leu His Leu Ala Cys Gin Ser Leu Arg Leu Gly Glu Cys
3205 3210 3215
Asp Gin Ala Leu Val Gly Gly Val Asn Val Leu Leu Ala Pro Glu Thr
3220 3225 3230
Phe Val Leu Leu Ser Arg Met Arg Ala Leu Ser Pro Asp Gly Arg Cys
3235 3240 3245
Lys Thr Phe Ser Ala Asp Ala Asp Gly Tyr Ala Arg Gly Glu Gly Cys
3250 3255 3260
Ala Val Val Val Leu Lys Arg Leu Arg Asp Ala Gin Arg Ala Gly Asp
3265 3270 ; 3275 3280
Ser íle Leu Ala Leu íle Arg Gly Ser Ala Val Asn His Asp Gly Pro
3285 3290 3295
Ser Ser Gly Leu Thr Val Pro Asn Gly Pro Ala Gin Gin Ala Leu Leu
3300 3305 3310
Arg Gin Ala Leu Ser Gin Ala Gly Val Ser Pro Val Asp Val Asp Phe 3315 3320 3325 ···· • 9
124
Val Glu 3330 Cys His Gly Thr Gly Thr 3335 Ala Leu Gly Asp 3340 Pro íle Glu Val
Gin Ala Leu Ser Glu Val Tyr Gly Pro Gly Arg Ser Gly Asp Arg Pro
3345 3350 3355 3360
Leu Val Leu Gly Ala Ala Lys Ala Asn Val Ala His Leu Glu Ala Ala
3365 3370 3375
Ser Gly Leu Ala Ser Leu Leu Lys Ala Val Leu Ala Leu Arg His Glu
3380 3385 3390
Gin íle Pro Ala Gin Pro Glu Leu Gly Glu Leu Asn Pro His Leu Pro
3395 3400 3405
Trp Asn Thr Leu Pro Val Ala Val Pro Arg Lys Ala Val Pro Trp Gly
3410 3415 3420
Arg Gly Ala Arg Pro Arg Arg Ala Gly Val Ser Ala Phe Gly Leu Ser
3425 3430 3435 3440
Gly Thr Asn Val His Val Val Leu Glu Glu Ala Pro Glu Val Glu Pro
3445 3450 3455
Ala Pro Ala Ala Pro Ala Arg Pro Val Glu Leu Val Val Leu Ser Ala
34 60 34 65 3470
Lys Ser Ala Ala Ala Leu Asp Ala Ala Ala Ala Arg Leu Ser Ala His
3475 3480 3485
Leu Ser Ala His Pro Glu Leu Ser Leu Gly Asp Val Ala Phe Ser Leu
3490 3495 3500
Ala Thr Thr Arg Ser Pro Met Glu His Arg Leu Ala íle Ala Thr Thr
3505 3510 3515 3520
Ser Arg Glu Ala Leu Arg Gly Ala Leu Asp Ala Ala Ala Gin Gin Lys
3525 3530 3535
Thr Pro Gin Gly Ala Val Arg Gly Lys Ala Val Ser Ser Arg Gly Lys
3540 3545 3550
Leu Ala Phe Leu Phe Thr Gly Gin Gly Ala Gin Met Pro Gly Met Gly
3555 3560 3565
Arg Gly Leu Tyr Glu Thr Trp Pro Ala Phe Arg Glu Ala Phe Asp Arg
3570 3575 3580
Cys Val Ala Leu Phe Asp Arg Glu íle Asp Gin Pro Leu Arg Glu Val
3585 3590 3595 3600
Met Trp Ala Ua Pro Gly Leu Ala Gin Ala Ala Arg Leu Asp Gin Thr
3605 3610 3615
Ala Tyr Ala Gin Pro Ala Leu Phe Ala Leu Glu Tyr Ala Leu Ala Ala
3620 3625 3630
Leu Trp Arg Ser Trp Gly Val Glu Pro His Val Leu Leu Gly His Ser
3635 3640 3645
íle Gly Glu Leu Val Ala Ala Cys Val Ala Gly Val Phe Ser Leu Glu 3650 3655 3660 ····
125
Asp Ala Val 3665 Arg Leu Val Ala Ala Arg Gly Arg Leu Met Gin Ala Leu
3670 3675 3680
Pro Ala Gly Gly Ala Met Val Ala íle Ala Ala Ser Glu Ala Glu Val
3685 3690 3695
Ala Ala Ser Val Ala Pro His Ala Ala Thr Val Ser íle Ala Ala Val
3700 3705 3710
Asn Gly Pro Asp Ala Val Val íle Ala Gly Ala Glu Val Gin Val Leu
3715 3720 3725
Ala Leu Gly Ala Thr Phe Ala Ala Arg Gly íle Arg Thr Lys Arg Leu
3730 3735 3740
Ala Val Ser His Ala Phe His Ser Pro Leu Met Asp Pro Met Leu Glu
3745 3750 3755 3760
Asp Phe Gin Arg Val Ala Ala Thr íle Ala Tyr Arg Ala Pro Asp Arg
3765 3770 3775
Pro Val Val Ser Asn Val Thr Gly His Val Ala Gly Pro Glu íle Ala
3780 3785 3790
Thr Pro Glu Tyr Trp Val Arg His Val Arg Ser Ala Val Arg Phe Gly
3795 3800 3805
Asp Gly Ala Lys Ala Leu His Ala Ala Gly Ala Ala Thr Phe Val Glu
3810 3815 3820
Val Gly Pro Lys Pro Val Leu Leu Gly Leu Leu Pro Ala Cys Leu Gly
3825 3830 3835 3840
Glu Ala Asp Ala Val Leu Val Pro Ser Leu Arg Ala Asp Arg Ser Glu
3845 3850 3855
Cys Glu Val Val Leu Ala Ala Leu Gly Ala Trp Tyr Ala Trp Gly Gly
3360 3865 3870
Ala Leu Asp Trp Lys Gly Val Phe Pro Asp Gly Ala Arg Arg Val Ala
3875 3880 3885
Leu Pro Met Tyr Pro Trp Gin Arg Glu Arg His Trp Met Asp Leu Thr
3890 3895 3900
Pro Arg Ser Ala Ala Pro Ala Gly íle Ala Gly Arg Trp Pro Leu Ala
3905 3910 3915 3920
Gly Val Gly Leu Cys Met Pro Gly Ala Val Leu His His Val Leu Ser
3925 3930 3935
íle Gly Pro Arg His Gin Pro Phe Leu Gly Asp His Leu Val Phe Gly
3940 3945 3950
Lys Val Val Val Pro Gly Ala Phe His Val Ala Val íle Leu Ser íle
3955 3960 3965
Ala Ala Glu Arg Trp Pro Glu Arg Ala íle Glu Leu Thr Gly Val Glu
3970 3975 3980
Phe Leu Lys Ala íle Ala Met Glu Pro Asp Gin Glu Val Glu Leu His
3985 3990 3995 4000
126
• ···· • · ·· • · ·
• · · • · • · • · • v
• ··· • · • ·
• · • · · • · ·
• · • · • ·
··· ··· • · ···· ·· • · ·
Ala Val Leu Thr Pro 4005 Glu Ala Ala Gly Asp Gly Tyr Leu Phe Glu Leu
4010 4015
Ala Thr Leu Ala Ala Pro Glu Thr Glu Arg Arg Trp Thr Thr His Ala
4020 4025 4030
Arg Gly Arg Val Gin Pro Thr Asp Gly Ala Pro Gly Ala Leu Pro Arg
4035 4040 4045
Leu Glu Val Leu Glu Asp Arg Ala íle Gin Pro Leu Asp Phe Ala Gly
4050 4055 4060
Phe Leu Asp Arg Leu Ser Ala Val Arg íle Gly Trp Gly Pro Leu Trp
4065 4070 4075 4080
Arg Trp Leu Gin Asp Gly Arg Val Gly Asp Glu Ala Ser Leu Ala Thr
4085 4090 4095
Leu Val Pro Thr Tyr Pro Asn Ala His Asp Val Ala Pro Leu His Pro
4100 4105 4110
íle Leu Leu Asp Asn Gly Phe Ala Val Ser Leu Leu Ser Thr Arg Ser
4115 4120 4125
Glu Pro Glu Asp Asp Gly Thr Pro Pro Leu Pro Phe Ala Val Glu Arg
4130 4135 4140
Val Arg Trp Trp Arg Ala Pro Val Gly Arg Val Arg Cys Gly Gly Val
4145 4150 4155 4160
Pro Arg Ser Gin Ala 4165 Phe Gly Val Ser Ser Phe Val Leu Val Asp Glu
1 j 1170 4175
Thr Gly Glu Val 4180 Val Ala Glu Val Glu 4185 Gly Phe Val Cys Arg 4190 Arg Ala
Pro Arg Glu Val 4195 Phe Leu Arg Gin Glu 4200 Ser Gly Ala Ser Thr 4205 Ala Ala
Leu Tyr Arg Leu 4210 Asp Trp Pro Glu Ala 4215 Pro Leu Pro Asp Ala 4220 Pro Ala
Glu Arg íle Glu Glu Ser Trp Val Val Val Ala Ala Pro Gly Ser Glu
4225 4230 4235 4240
Met Ala Ala Ala Leu Ala Thr Arg Leu Asn Arg Cys Val Leu Ala Glu
4245 4250 4255
Pro Lys Gly Leu 4260 Glu Ala Ala Leu Ala 4265 Gly Val Ser Pro Ala 4270 Gly Val
íle Cys Leu Trp 4275 Glu Ala Gly Ala His 4280 Glu Glu Ala Pro Ala 4285 Ala Ala
Gin Arg Val Ala 4290 Thr Glu Gly Leu Ser 4295 Val Val Gin Ala Leu 4300 Arg Asp
Arg Ala Val Arg Leu Trp Trp Val Thr Met Gly Ala Val Ala Val Glu
4305 4310 4315 4320
Ala Gly Glu Arg Val Gin Val Ala Thr Ala Pro Val Trp Gly Leu Gly 4325 4330 4335 ···· ··
127
Arg Thr Val Met 4340 Gin Glu Arg Pro Glu Leu 4345 Ser Cys Thr Leu 4350 Val Asp
Leu Glu Pro Glu Ala Asp Ala Ala Arg Ser Ala Asp Val Leu Leu Arg
4355 4360 4365
Glu Leu Gly Arg Ala Asp Asp Glu Thr Gin Val Ala Phe Arg Ser Gly
4370 4375 4380
Lys Arg Arg Val Ala Arg Leu Val Lys Ala Thr Thr Pro Glu Gly Leu
4385 4390 4395 4400
Leu Val Pro Asp Ala Glu Ser Tyr Arg Leu Glu Ala Gly Gin Lys Gly
4405 4410 4415
Thr Leu Asp Gin Leu Arg Leu Ala Pro Ala Gin Arg Arg Ala Pro Gly
4420 4425 4430
Pro Gly Glu Val Glu íle Lys Val Thr Ala Ser Gly Leu Asn Phe Arg
4435 4440 4445
Thr Val Leu Ala Val Leu Gly Met Tyr Pro Gly Asp Ala Gly Pro Met
4450 4455 4 4 60
Gly Gly Asp Cys Ala Gly Val Ala Thr Ala Val Gly Gin Gly Val Arg
4465 4470 4475 4480
His Val Ala Val Gly Asp Ala Val Met Thr Leu Gly Thr Leu His Arg
4485 4490 4495
Phe Val Thr Val Asp Ala Arg Leu Val Val Arg Gin Pro Ala Gly Leu
4500 4505 4510
Thr Pro Ala Gin Ala Ala Thr Val Pro Val Ala Phe Leu Thr Ala Trp
4515 4520 4525
Leu Ala Leu His Asp Leu Gly Asn Leu Arg Arg Gly Glu Arg Val Leu
4530 4535 4540
íle His Ala Ala Ala Gly Gly Val Gly Met Ala Ala Val Gin íle Ala
4545 4550 4555 4560
Arg Trp íle Gly Ala Glu Val Phe Ala Thr Ala Ser Pro Ser Lys Trp
4565 4570 4575
Ala Ala Val Gin Ala Met Gly Val Pro Arg Thr His íle Ala Ser Ser
4580 4585 4590
Arg Thr Leu Glu Phe Ala Glu Thr Phe Arg Gin Val Thr Gly Gly Arg
4595 4600 4605
Gly Val Asp Val Val Leu Asn Ala Leu Ala Gly Glu Phe Val Asp Ala
4610 4615 4620
Ser Leu Ser Leu Leu Ser Thr Gly Gly Arg Phe Leu Glu Met Gly Lys
4625 4630 4635 4640
Thr Asp íle Arg Asp Arg Ala Ala Val Ala Ala Ala His Pro Gly Val
4645 4650 4655
Arg Tyr Arg Val Phe Asp íle Leu Glu Leu Ala Pro Asp Arg Thr Arg
4660 4665 4670 ···· ··
128 ····
Glu íle Leu Glu Arg Val Val Glu Gly Phe Ala Ala Gly His Leu Arg
4675 4680 4685
Ala Leu Pro Val His Ala Phe Ala íle Thr Lys Ala Glu Ala Ala Phe
4690 4 695 4700
Arg Phe Met Ala Gin Ala Arg His Gin Gly Lys Val Val Leu Leu Pro
4705 4710 4715 4720
Ala Pro Ser Ala Ala Pro Leu Ala Pro Thr Gly Thr Val Leu Leu Thr
4725 4730 4735
Gly Gly Leu Gly Ala Leu Gly Leu His Val Ala Arg Trp Leu Ala Gin
4740 4745 4750
Gin Gly Val Pro His Met Val Leu Thr Gly Arg Arg Gly Leu Asp Thr
4755 4760 4765
Pro Gly Ala Ala Lys Ala Val Ala Glu íle Glu Ala Leu Gly Ala Arg
4770 4775 4780
Val Thr íle Ala Ala Ser Asp Val Ala Asp Arg Asn Ala Leu Glu Ala
4785 4790 4795 4800
Val Leu Gin Ala íle Pro Ala Glu Trp Pro Leu Gin Gly Val íle His
4805 4810 4815
Ala Ala Gly Ala Leu Asp Asp Gly Val Leu Asp Glu Gin Thr Thr Asp
4820 4825 4830
Arg Phe Ser Arg Val Leu Ala Pro Lys Val Thr Gly Ala Trp Asn Leu
4835 4840 4845
His Glu Leu Thr Ala Gly Asn Asp Leu Ala Phe Phe Val Leu Phe Ser
4850 4855 4860
Ser Met Ser Gly Leu Leu Gly Ser Ala Gly Gin Ser Asn Tyr Ala Ala
4865 4870 4875 4880
Ala Asn Thr Phe Leu Asp Ala Leu Ala Ala His Arg Arg Ala Glu Gly
4885 4890 4895
Leu Ala Ala Gin Ser Leu Ala Trp Gly Pro Trp Ser Asp Gly Gly Met
4900 4905 4910
Ala Ala Gly Leu Ser Ala Ala Leu Gin Ala Arg Leu Ala Arg His Gly
4915 4920 4925
Met Gly Ala Leu Ser Pro Ala Gin Gly Thr Ala Leu Leu Gly Gin Ala
4930 4935 4940
Leu Ala Arg Pro Glu Thr Gin Leu Gly Ala Met Ser Leu Asp Val Arg
4945 4950 4955 4960
Ala Ala Ser Gin Ala Ser Gly Ala Ala Val Pro Pro Val Trp Arg Ala
4965 4970 4975
Leu Val Arg Ala Glu Ala Arg His Thr Ala Ala Gly Ala Gin Gly Ala
4980 4985 4990
Leu Ala Ala Arg Leu Gly Ala Leu Pro Glu Ala Arg Arg Ala Asp Glu 4995 5000 5005
129
···· ·· ·· ·· ·
• · • · • · • * V ·
··· Φ • ·
• · • · ·
Λ • ·
··· ·♦· ·· ···· ·· • · ·
Val Arg 5010 Lys Val Val Gin Ala Glu íle Ala Arg Val Leu Ser Trp Ser
5015 5020
Ala Ala Ser Ala Val Pro Val Asp Arg Pro Leu Ser Asp Leu Gly Leu
5025 5030 5035 5040
Asp Ser Leu Thr Ala Val Glu Leu Arg Asn Val Leu Gly Gin Arg Val
5045 5050 5055
Gly Ala Thr Leu Pro Ala Thr Leu Ala Phe Asp His Pro Thr Val Asp
5060 5065 5070
Ala Leu Thr Arg Trp Leu Leu Asp Lys Val Leu Ala Val Ala Glu Pro
5075 5080 5085
Ser Val Ser Ser Ala Lys Ser Ser Pro Gin Val Ala Leu Asp Glu Pro
5090 5095 5100
íle Ala íle íle Gly íle Gly Cys Arg Phe Pro Gly Gly Val Ala Asp
5105 5110 ! 5115 5120
Pro Glu Ser Phe Trp Arg Leu Leu Glu Glu Gly Ser Asp Ala Val Val
5125 5130 5135
Glu Val Pro His Glu Arg Trp Asp íle Asp Ala Phe Tyr Asp Pro Asp
5Í40 5145 5150
Pro Asp Val Arg Gly Lys Met Thr Thr Arg Phe Gly Gly Phe Leu Ser
5155 5160 5165
Asp íle Asp Arg Phe Asp Pro Ala Phe Phe Gly íle Ser Pro Arg Glu
5170 5175 5180
Ala Thr Thr Met Asp Pro Gin Gin Arg Leu Leu Leu Glu Thr Ser Trp
5185 5190 ! 5195 5200
Glu Ala Phe Glu Arg Ala Gly íle Leu Pro Glu Arg Leu Met Gly Ser
5205 5210 í 5215
Asp Thr Gly Val Phe Val Gly Leu Phe Tyr Gin Glu Tyr Ala Ala Leu
5220 5225 5230
Ala Gly Gly íle Glu Ala Phe Asp Gly Tyr Leu Gly Thr Gly Thr Thr
5235 5240 5245
Ala Ser Val Ala Ser Gly Arg íle Ser Tyr Val Leu Gly Leu Lys Gly
5250 5255 5260
Pro Ser Leu Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala Val
5265 5270 ! 5275 5280
His Leu Ala Cys Gin Ala Leu Arg Arg Gly Glu Cys Ser Val Ala Leu
5285 5290 5295
Ala Gly Gly Val Ala Leu Met Leu Thr Pro Ala Thr Phe Val Glu Phe
5300 5305 5310
Ser Arg Leu Arg Gly Leu Ala Pro Asp Gly Arg Cys Lys Ser Phe Ser
5315 5320 5325
Ala Ala Ala Asp Gly Val Gly Trp Ser Glu Gly Cys Ala Met Leu Leu 5330 5335 5340
130
• ···· ·· ·· ··
• · · • · · · · · • ·
• ··· • · · · ·
• · • · · · · · ·
• · Φ · · · ·
··· ··· ·· ···· ·· • · ·
Leu Lys 5345 Pro Leu Arg Asp 5350 Ala Gin Arg Asp Gly Asp Pro 5355 íle Leu Ala 5360
Val íle Arg Gly Thr Ala Val Asn Gin Asp Gly Arg Ser Asn Gly Leu
5365 5370 5375
Thr Ala Pro Asn Gly Ser Ser Gin Gin Glu Val íle Arg Arg Ala Leu
5380 5385 1 5390
Glu Gin Ala Gly Leu Ala Pro Ala Asp Val Ser Tyr Val Glu Cys His
5395 5400 5405
Gly Thr Gly Thr Thr Leu Gly Asp Pro íle Glu Val Gin Ala Leu Gly
5410 5415 5420
Ala Val Leu Ala Gin Gly Arg Pro Ser Asp Arg Pro Leu Val íle Gly
5425 5430 5435 5440
Ser Val Lys Ser Asn íle Gly His Thr Gin Ala Ala Ala Gly Val Ala
5445 5450 5455
Gly Val íle Lys Val Ala Leu Ala Leu Glu Arg Gly Leu íle Pro Arg
54 60 5465 ' 5470
Ser Leu His Phe Asp Ala Pro Asn Pro His íle Pro Trp Ser Glu Leu
5475 5480 5485
Ala Val Gin Val Ala Ala Lys Pro Val Glu Trp Thr Arg Asn Gly Val
5490 5495 5500
Pro Arg Arg Ala Gly Val Ser Ser Phe Gly Val Ser Gly Thr Asn Ala
5505 5510 5515 5520
His Val Val Leu Glu Glu Ala Pro Ala Ala Ala Phe Ala Pro Ala Ala
5525 5530 5535
Ala Arg Ser Ala Glu Leu Phe Val Leu Ser Ala Lys Ser Ala Ala Ala
5540 5545 5550
Leu Asp Ala Gin Ala Ala Arg Leu Ser Ala His Val Val Ala His Pro
5555 5560 5565
Glu Leu Gly Leu Gly Asp Leu Ala Phe Ser Leu Ala Thr Thr Arg Ser
5570 5575 5580
Pro Met Thr Tyr Arg Leu Ala Val Ala Ala Thr Ser Arg Glu Ala Leu
5585 5590 5595 5600
Ser Ala Ala Leu Asp Thr Ala Ala Gin Gly Gin Ala Pro Pro Ala Ala
5605 5610 5615
Ala Arg Gly His Ala Ser Thr Gly Ser Ala Pro Lys Val Val Phe Val
5620 5625 ! 5630
Phe Pro Gly Gin Gly Ser Gin Trp Leu Gly Met Gly Gin Lys Leu Leu
5635 5640 5645
Ser Glu Glu Pro Val Phe Arg Asp Ala Leu Ser Ala Cys Asp Arg Ala
5650 5655 5660 íle Gin Ala Glu Ala Gly Trp Ser Leu Leu Ala Glu Leu Ala Ala Asp 5665 5670 5675 5680
131 ···· ·· ····
Glu Thr Thr Ser Gin Leu Gly 5685 Arg íle Asp 5690 Val Val Gin Pro Ala 5695 Leu
Phe Ala íle Glu Val Ala Leu Ser Ala Leu Trp Arg Ser Trp Gly Val
5700 5705 5710
Glu Pro Asp Ala Val Val Gly His Ser Met Gly Glu Val Ala Ala Ala
5715 ! 5720 5725
His Val Ala Gly Ala Leu Ser Leu Glu Asp Ala Val Ala íle íle Cys
5730 5735 5740
Arg Arg Ser Leu Leu Leu Arg Arg íle Ser Gly Gin Gly Glu Met Ala
5745 5750 5755 5760
Val Val Glu Leu Ser Leu Ala Glu Ala Glu Ala Ala Leu Leu Gly Tyr
5765 5770 5775
Glu Asp Arg Leu Ser Val Ala Val Ser Asn Ser Pro Arg Ser Thr Val
5780 5785 5790
Leu Ala Gly Glu Pro Ala Ala Leu Ala Glu Val Leu Ala íle Leu Ala
5795 I 5800 5805
Ala Lys Gly Val Phe Cys Arg Arg Val Lys Val Asp Val Ala Ser His
5810 5815 5820
Ser Pro Gin íle Asp Pro Leu Arg Asp Glu Leu Leu Ala Ala Leu Gly
5825 5830 5835 5840
Glu Leu Glu Pro Arg Gin Ala Thr Val Ser Met Arg Ser Thr Val Thr
5845 5850 5855
Ser Thr íle Met Ala Gly Pro Glu Leu Val Ala Ser Tyr Trp Ala Asp
5860 5865 5870
Asn Val Arg Gin Pro Val Arg Phe Ala Glu Ala Val Gin Ser Leu Met
5875 1 5880 5885
Glu Asp Gly His Gly Leu Phe Val Glu Met Ser Pro His Pro íle Leu
5890 5895 5900
Thr Thr Ser Val Glu Glu íle Arg Arg Ala Thr Lys Arg Glu Gly Val
5905 5910 5915 5920
Ala Val Gly Ser Leu Arg Arg Gly Gin Asp Glu Arg Leu Ser Met Leu
5925 5930 5935
Glu Ala Leu Gly Ala Leu Trp Val His Gly Gin Ala Val Gly Trp Glu
5940 5945 5950
Arg Leu Phe Ser Ala Gly Gly Ala Gly Leu Arg Arg Val Pro Leu Pro
5955 ! 5960 5965
Thr Tyr Pro Trp Gin Arg Glu Arg Tyr Trp Val Asp Ala Pro Thr Gly
5970 5975 5980
Gly Ala Ala Gly Gly Ser Arg Phe Ala His Ala Gly Ser His Pro Leu
5985 5990 5995 6000
Leu Gly Glu Met Gin Thr Leu Ser Thr Gin Arg Ser Thr Arg Val Trp 6005 6010 6015
132
• v··· ·· ·· • 4
• · · • · · · • · • ·
• ··· • · · 9 ·
• · • · · · • · ·
• · • · · • ·
··· ··· ·· ···· ·· ♦ · ·
Glu Thr Thr Leu 6020 Asp Leu Lys Arg Leu 6025 Pro Trp Leu Gly Asp His 6030 Arg
Val Gin Gly Ala Val Val Phe Pro Gly Ala Ala Tyr Leu Glu Met Ala
6035 6040 6045
Leu Ser Ser Gly Ala Glu Ala Leu Gly Asp Gly Pro Leu Gin Val Ser
6050 6055 6060
Asp Val Val Leu Ala Glu Ala Leu Ala Phe Ala Asp Asp Thr Pro Ala
6065 6070 6075 6080
Ala Val Gin Val Met Ala Thr Glu Glu Arg Pro Gly Arg Leu Gin Phe
6085 l 5090 6095
His Val Ala Ser Arg Val Pro Gly His Gly Gly Ala Ala Phe Arg Ser
6100 6105 6110
His Ala Arg Gly Val Leu Arg Gin íle Glu Arg Ala Glu Val Pro Ala
6115 6120 6125
Arg Leu Asp Leu Ala Ala Leu Arg Ala Arg Leu Gin Ala Ser Ala Pro
6130 6135 6140
Ala Ala Ala Thr Tyr Ala Ala Leu Ala Glu Met Gly Leu Glu Tyr Gly
6145 6150 6155 6160
Pro Ala Phe Gin Gly Leu Val Glu Leu Trp Arg Gly Glu Gly Glu Ala
6165 ( 5170 6175
Leu Gly Arg Val Arg Leu Pro Glu Ala Ala Gly Ser Pro Ala Ala Cys
6180 6185 6190
Arg Leu His Pro Ala Leu Leu Asp Ala Cys Phe His Val Ser Ser Ala
6195 6200 6205
Phe Ala Asp Arg Gly Glu Ala Thr Pro Trp Val Pro Val Glu íle Gly
6210 6215 6220
Ser Leu Arg Trp Phe Gin Arg Pro Ser Gly Glu Leu Trp Cys His Ala
6225 6230 6235 6240
Arg Ser Val Ser His Gly Lys Pro Thr Pro Asp Arg Arg Ser Thr Asp
6245 ( 5250 6255
Phe Trp Val Val Asp Ser Thr Gly Ala íle Val Ala Glu íle Ser Gly
6260 6265 6270
Leu Val Ala Gin Arg Leu Ala Gly Gly Val Arg Arg Arg Glu Glu Asp
627 5 6280 6285
Asp Trp Phe Met Glu Pro Ala Trp Glu Pro Thr Ala Val Pro Gly Ser
6290 6295 6300
Glu Val Met Ala Gly Arg Trp Leu Leu íle Gly Ser Gly Gly Gly Leu
6305 6310 6315 6320
Gly Ala Ala Leu His Ser Ala Leu Thr Glu Ala Gly His Ser Val Val
6325 6330 6335
His Ala Thr Gly Arg Gly Thr Ser Ala Ala Gly Leu Gin Ala Leu Leu 6340 6345 6350
133
• ···· • · · ·· • · ·· ·· • · · · • ··
• ··· • · • · ·
• · • · · • · · ·
• · ··· ··· • · ·· • · · ···· ·· • ···
Thr Ala Ser Phe Asp Gly Gin Ala Pro Thr Ser Val Val His Leu Gly
6355 6360 6365
Ser Leu Asp Glu Arg Gly Val Leu Asp Ala Asp Ala Pro Phe Asp Ala
6370 6375 6380
Asp Ala Leu Glu Glu Ser Leu Val Arg Gly Cys Asp Ser Val Leu Trp
6385 6390 í 5395 6400
Thr Val Gin Ala Val Ala Gly Ala Gly Phe Arg Asp Pro Pro Arg Leu
6405 6410 6415
Trp Leu Val Thr Arg Gly Ala Gin Ala íle Gly Ala Gly Asp Val Ser
6420 6425 6430
Val Ala Gin Ala Pro Leu Leu Gly Leu Gly Arg Val íle Ala Leu Glu
6435 6440 6445
His Ala Glu Leu Arg Cys Ala Arg íle Asp Leu Asp Pro Ala Arg Arg
6450 6455 6460
Asp Gly Glu Val Asp Glu Leu Leu Ala Glu Leu Leu Ala Asp Asp Ala
6465 6470 i 5475 6480
Glu Glu Glu Val Ala Phe Arg Gly Gly Glu Arg Arg Val Ala Arg Leu
6485 6490 6495
Val Arg Arg Leu Pro Glu Thr Asp Cys Arg Glu Lys íle Glu Pro Ala
6500 6505 6510
Glu Gly Arg Pro Phe Arg Leu Glu íle Asp Gly Ser Gly Val Leu Asp
6515 6520 6525
Asp Leu Val Leu Arg Ala Thr Glu Arg Arg Pro Pro Gly Pro Gly Glu
6530 6535 6540
Val Glu íle Ala Val Glu Ala Ala Gly Leu Asn Phe Leu Asp Val Met
6545 6550 l 5555 6560
Arg Ala Met Gly íle Tyr Pro Gly Pro Gly Asp Gly Pro Val Ala Leu
6565 6570 6575
Gly Ala Glu Cys Ser Gly Arg íle Val Ala Met Gly Glu Gly Val Glu
6580 6585 6590
Ser Leu Arg íle Gly Gin Asp Val Val Ala Val Ala Pro Phe Ser Phe
6595 6600 6605
Gly Thr His Val Thr íle Asp Ala Arg Met Leu Ala Pro Arg Pro Ala
6610 6615 6620
Ala Leu Thr Ala Ala Gin Ala Ala Ala Leu Pro Val Ala Phe Met Thr
6625 6630 ( 5635 6640
Ala Trp Tyr Gly Leu Val His Leu Gly Arg Leu Arg Ala Gly Glu Arg
6645 6650 6655
Val Leu íle His Ser Ala Thr Gly Gly Thr Gly Leu Ala Ala Val Gin
6660 6665 6670
íle Ala Arg His Leu Gly Ala Glu íle Phe Ala Thr Ala Gly Thr Pro 6675 6680 6685 ···· • ·
134
Glu Lys 6690 Arg Ala Trp Leu Arg Glu Gin Gly íle Ala His Val Met Asp
6695 6700
Ser Arg Ser Leu Asp Phe Ala Glu Gin Val Leu Ala Ala Thr Lys Gly
6705 6710 ( 5715 6720
Glu Gly Val Asp Val Val Leu Asn Ser Leu Ser Gly Ala Ala íle Asp
6725 6730 6735
Ala Ser Leu Ser Thr Leu Val Pro Asp Gly Arg Phe íle Glu Leu Gly
( 5740 6745 6750
Lys Thr Asp íle Tyr Ala Asp Arg Ser Leu Gly Leu Ala His Phe Arg
6755 6760 6765
Lys Ser Leu Ser Tyr Ser Ala Val Asp Leu Ala Gly Leu Ala Val Arg
6770 6775 6780
Arg Pro Glu Arg Val Ala Ala Leu Leu Ala Glu Val Val Asp Leu Leu
6785 6790 i 5795 6800
Ala Arg Gly Ala Leu Gin Pro Leu Pro Val Glu íle Phe Pro Leu Ser
6805 6810 6815
Arg Ala Ala Asp Ala Phe Arg Lys Met Ala Gin Ala Gin His Leu Gly
6820 6825 6830
Lys Leu Val Leu Ala Leu Glu Asp Pro Asp Val Arg íle Arg Val Pro
6835 6840 6845
Gly Glu Ser Gly Val Ala íle Arg Ala Asp Gly Ala Tyr Leu Val Thr
6850 6855 6860
Gly Gly Leu Gly Gly Leu Gly Leu Ser Val Ala Gly Trp Leu Ala Glu
6865 6870 i 5875 6880
Gin Gly Ala Gly His Leu Val Leu Val Gly Arg Ser Gly Ala Val Ser
6885 6890 6895
Ala Glu Gin Gin Thr Ala Val Ala Ala Leu Glu Ala His Gly Ala Arg
6900 6905 6910
Val Thr Val Ala Arg Ala Asp Val Ala Asp Arg Ala Gin Met Glu Arg
6915 6920 6925
íle Leu Arg Glu Val Thr Ala Ser Gly Met Pro Leu Arg Gly Val Val
6930 6935 6940
His Ala Ala Gly íle Leu Asp Asp Gly Leu Leu Met Gin Gin Thr Pro
6945 6950 i 5955 6960
Ala Arg Phe Arg Ala Val Met Ala Pro Lys Val Arg Gly Ala Leu His
6965 6970 6975
Leu His Ala Leu Thr Arg Glu Ala Pro Leu Ser Phe Phe Val Leu Tyr
6980 6985 6990
Ala Ser Gly Ala Gly Leu Leu Gly Ser Pro Gly Gin Gly Asn Tyr Ala
6995 7000 7005
Ala Ala Asn Thr Phe Leu Asp Ala Leu Ala His His Arg Arg Ala Gin 7010 7015 7020
135 ·· ····
Gly Leu Pro 7025 Ala Leu Ser íle Asp Trp Gly Leu Phe Ala Asp Val Gly
7030 7035 7040
Leu Ala Ala Gly Gin Gin Asn Arg Gly Ala Arg Leu Val Thr Arg Gly
7045 7050 7055
Thr Arg Ser Leu Thr Pro Asp Glu Gly Leu Trp Ala Leu Glu Arg Leu
7060 7065 7070
Leu Asp Gly Asp Arg Thr Gin Ala Gly Val Met Pro Phe Asp Val Arg
7075 7080 7085
Gin Trp Val Glu Phe Tyr Pro Ala Ala Ala Ser Ser Arg Arg Leu Ser
7090 7095 7100
Arg Leu Met Thr Ala Arg Arg Val Ala Ser Gly Arg Leu Ala Gly Asp
7105 7110 7115 7120
Arg Asp Leu Leu Glu Arg Leu Ala Thr Ala Glu Ala Gly Ala Arg Ala
7125 7130 7135
Gly Met Leu Gin Glu Val Val Arg Ala Gin Val Ser Gin Val Leu Arg
7140 7145 7150
Leu Ser Glu Gly Lys Leu Asp Val Asp Ala Pro Leu Thr Ser Leu Gly
7155 7160 7165
Met Asp Ser Leu Met Gly Leu Glu Leu Arg Asn Arg íle Glu Ala Val
7170 7175 7180
Leu Gly íle Thr Met Pro Ala Thr Leu Leu Trp Thr Tyr Pro Thr Val
7185 7190 7195 7200
Ala Ala Leu Ser Ala His Leu Ala Ser His Val Val Ser Thr Gly Asp
7205 7210 7215
Gly Glu Ser Ala Arg Pro Pro Asp Thr Gly Ser Val Ala Pro Thr Thr
7220 7225 7230
His Glu Val Ala Ser Leu Asp Glu Asp Gly Leu Phe Ala Leu íle Asp
7235 7240 7245
Glu Ser Leu Ala Arg Ala Gly Lys Arg
7250 7255 <210> 6 <211> 3798 <212> PRT <213> Sorangium cellulosum <400> 6
Val Thr Asp Arg Glu Gly Gin Leu Leu Glu Arg Leu Arg Glu Val Thr
1 5 10 15
Leu Ala Leu Arg Lys Thr Leu Asn Glu Arg Asp Thr Leu Glu Leu Glu
20 25 30
Lys Thr Glu Pro íle Ala íle Val Gly íle Gly Cys Arg Phe Pro Gly
40 45
Gly Ala Gly Thr Pro Glu Ala Phe Trp Glu Leu Leu Asp Asp Gly Arg 50 55 60
136 ···· ·· ·· ·· · • ···· ···· · · · · · · • · · · · · · · · • · · · · · · ··· ·· ···· ·· ···
Asp 65 Ala íle Arg Pro Leu Glu Glu Arg Trp Ala Leu Val Gly Val Asp
70 75 80
Pro Gly Asp Asp Val Pro Arg Trp Ala Gly Leu Leu Thr Glu Ala íle
85 90 95
Asp Gly Phe Asp Ala Ala Phe Phe Gly íle Ala Pro Arg Glu Ala Arg
100 105 110
Ser Leu Asp Pro Gin His Arg Leu Leu Leu Glu Val Ala Trp Glu Gly
115 120 125
Phe Glu Asp Ala Gly íle Pro Pro Arg Ser Leu Val Gly Ser Arg Thr
130 135 140
Gly Val Phe Val Gly Val Cys Ala Thr Glu Tyr Leu His Ala Ala Val
145 150 155 160
Ala His Gin Pro Arg Glu Glu Arg Asp Ala Tyr Ser Thr Thr Gly Asn
165 170 175
Met Leu Ser íle Ala Ala Gly Arg Leu Ser Tyr Thr Leu Gly Leu Gin
180 185 190
Gly Pro Cys Leu Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala
195 200 205
íle His Leu Ala Cys Arg Ser Leu Arg Ala Arg Glu Ser Asp Leu Ala
210 215 220
Leu Ala Gly Gly Val Asn Met Leu Leu Ser Pro Asp Thr Met Arg Ala
225 230 235 240
Leu Ala Arg Thr Gin Ala Leu Ser Pro Asn Gly Arg Cys Gin Thr Phe
245 250 255
Asp Ala Ser Ala Asn Gly Phe Val Arg Gly Glu Gly Cys Gly Leu íle
260 265 270
Val Leu Lys Arg Leu Ser Asp Ala Arg Arg Asp Gly Asp Arg íle Trp
275 280 285
Ala Leu íle Arg Gly Ser Ala íle Asn Gin Asp Gly Arg Ser Thr Gly
290 295 300
Leu Thr Ala Pro Asn Val Leu Ala Gin Gly Ala Leu Leu Arg Glu Ala
305 310 315 320
Leu Arg Asn Ala Gly Val Glu Ala Glu Ala íle Gly Tyr íle Glu Thr
325 330 335
His Gly Ala Ala Thr Ser Leu Gly Asp Pro íle Glu íle Glu Ala Leu
340 345 350
Arg Ala Val Val Gly Pro Ala Arg Ala Asp Gly Ala Arg Cys Val Leu
355 360 365
Gly Ala Val Lys Thr Asn Leu Gly His Leu Glu Gly Ala Ala Gly Val
370 375 380
Ala Gly Leu íle Lys Ala Thr Leu Ser Leu His His Glu Arg íle Pro
385 390 395 400 • ·
137
Arg Asn Leu Asn Phe Arg Thr Leu Asn Pro Arg íle Arg íle Glu Gly
405 410 415
Thr Ala Leu Ala Leu Ala Thr Glu Pro Val Pro Trp Pro Arg Thr Gly
420 425 430
Arg Thr Arg Phe Ala Gly Val Ser Ser Phe Gly Met Ser Gly Thr Asn
435 440 445
Ala His Val Val Leu Glu Glu Ala Pro Ala Val Glu Pro Glu Ala Ala
450 455 4 60
Ala Pro Glu Arg Ala Ala Glu Leu Phe Val Leu Ser Ala Lys Ser Ala
465 470 475 480
Ala Ala Leu Asp Ala Gin Ala Ala Arg Leu Arg Asp His Leu Glu Lys
485 490 495
His Val Glu Leu Gly Leu Gly Asp Val Ala Phe Ser Leu Ala Thr Thr
500 505 510
Arg Ser Ala Met Glu His Arg Leu Ala Val Ala Ala Ser Ser Arg Glu
515 520 525
Ala Leu Arg Gly Ala Leu Ser Ala Ala Ala Gin Gly His Thr Pro Pro
530 535 540
Gly Ala Val Arg Gly Arg Ala Ser Gly Gly Ser Ala Pro Lys Val Val
545 550 555 560
Phe Val Phe Pro Gly Gin Gly Ser Gin Trp Val Gly Met Gly Arg Lys
565 570 575
Leu Met Ala Glu Glu Pro Val Phe Arg Ala Ala Leu Glu Gly Cys Asp
580 585 590
Arg Ala íle Glu Ala Glu Ala Gly Trp Ser Leu Leu Gly Glu Leu Ser
595 600 605
Ala Asp Glu Ala Ala Ser Gin Leu Gly Arg íle Asp Val Val Gin Pro
610 615 620
Val Leu Phe Ala Met Glu Val Ala Leu Ser Ala Leu Trp Arg Ser Trp
625 630 635 640
Gly Val Glu Pro Glu Ala Val Val Gly His Ser Met Gly Glu Val Ala
645 650 655
Ala Ala His Val Ala Gly Ala Leu Ser Leu Glu Asp Ala Val Ala íle
660 665 670
íle Cys Arg Arg Ser Arg Leu Leu Arg Arg íle Ser Gly Gin Gly Glu
675 680 685
Met Ala Leu Val Glu Leu Ser Leu Glu Glu Ala Glu Ala Ala Leu Arg
690 695 700
Gly His Glu Gly Arg Leu Ser Val Ala Val Ser Asn Ser Pro Arg Ser
705 710 715 720
Thr Val Leu Ala Gly Glu Pro Ala Ala Leu Ser Glu Val Leu Ala Ala
725 730 735
···· • · • ·
138
Leu Thr Ala Lys Gly Val Phe Trp Arg Gin Val Lys Val Asp Val Ala
740 745 750
Ser His Ser Pro Gin Val Asp Pro Leu Arg Glu Glu Leu íle Ala Ala
755 760 765
Leu Gly Ala íle Arg Pro Arg Ala Ala Ala Val Pro Met Arg Ser Thr
770 775 780
Val Thr Gly Gly Val íle Ala Gly Pro Glu Leu Gly Ala Ser Tyr Trp
785 790 795 800
Ala Asp Asn Leu Arg Gin Pro Val Arg Phe Ala Ala Ala Ala Gin Ala
805 810 815
Leu Leu Glu Gly Gly Pro Ala Leu Phe íle Glu Met Ser Pro His Pro
820 825 830
íle Leu Val Pro Pro Leu Asp Glu íle Gin Thr Ala Ala Glu Gin Gly
835 840 845
Gly Ala Ala Val Gly Ser Leu Arg Arg Gly Gin Asp Glu Arg Ala Thr
850 855 860
Leu Leu Glu Ala Leu Gly Thr Leu Trp Ala Ser Gly Tyr Pro Val Ser
865 870 875 880
Trp Ala Arg Leu Phe Pro Ala Gly Gly Arg Arg Val Pro Leu Pro Thr
885 890 895
Tyr Pro Trp Gin His Glu Arg Cys Trp íle Glu Val Glu Pro Asp Ala
900 905 910
Arg Arg Leu Ala Ala Ala Asp Pro Thr Lys Asp Trp Phe Tyr Arg Thr
915 920 925
Asp Trp Pro Glu Val Pro Arg Ala Ala Pro Lys Ser Glu Thr Ala His
930 935 940
Gly Ser Trp Leu Leu Leu Ala Asp Arg Gly Gly Val Gly Glu Ala Val
945 950 955 960
Ala Ala Ala Leu Ser Thr Arg Gly Leu Ser Cys Thr Val Leu His Ala
965 970 975
Ser Ala Asp Ala Ser Thr Val Ala Glu Gin Val Ser Glu Ala Ala Ser
980 985 990
Arg Arg Asn Asp Trp Gin Gly Val Leu Tyr Leu Trp Gly Leu Asp Ala
995 1000 1005
Val Val Asp Ala Gly Ala Ser Ala Asp Glu Val Ser Glu Ala Thr Arg
1010 1015 1020
Arg Ala Thr Ala Pro Val Leu Gly Leu Val Arg Phe Leu Ser Ala Ala
1025 1030 1035 1040
Pro His Pro Pro Arg Phe Trp Val Val Thr Arg Gly Ala Cys Thr Val
1045 1050 1055
Gly Gly Glu Pro Glu Ala Ser Leu Cys Gin Ala Ala Leu Trp Gly Leu 1060 1065 1070 ·· • ·
139
Ala Arg Val Ala Ala Leu Glu His Pro Ala Ala Trp Gly Gly Leu Val
1075 1080 1085
Asp Leu Asp Pro Gin Lys Ser Pro Thr Glu íle Glu Pro Leu Val Ala
1090 1095 1100
Glu Leu Leu Ser Pro Asp Ala Glu Asp Gin Leu Ala Phe Arg Ser Gly
1105 1110 1115 1120
Arg Arg His Ala Ala Arg Leu Val Ala Ala Pro Pro Glu Gly Asp Val
1125 1130 1135
Ala Pro íle Ser Leu Ser Ala Glu Gly Ser Tyr Leu Val Thr Gly Gly
L140 1145 1150
Leu Gly Gly Leu Gly Leu Leu Val Ala Arg Trp Leu Val Glu Arg Gly
1155 1160 1165
Ala Arg His Leu Val Leu Thr Ser Arg His Gly Leu Pro Glu Arg Gin
1170 1175 1180
Ala Ser Gly Gly Glu Gin Pro Pro Glu Ala Arg Ala Arg íle Ala Ala
1185 1190 1195 1200
Val Glu Gly Leu Glu Ala Gin Gly Ala Arg Val Thr Val Ala Ala Val
1205 1210 1215
Asp Val Ala Glu Ala Asp Pro Met Thr Ala Leu Leu Ala Ala íle Glu
1220 1225 1230
Pro Pro Leu Arg Gly Val Val His Ala Ala Gly Val Phe Pro Val Arg
1235 1240 1245
His Leu Ala Glu Thr Asp Glu Ala Leu Leu Glu Ser Val Leu Arg Pro
1250 1255 1260
Lys Val Ala Gly Ser Trp Leu Leu His Arg Leu Leu Arg Asp Arg Pro
1265 1270 1275 1280
Leu Asp Leu Phe Val Leu Phe Ser Ser Gly Ala Ala Val Trp Gly Gly
1285 L290 1295
Lys Gly Gin Gly Ala Tyr Ala Ala Ala Asn Ala Phe Leu Asp Gly Leu
1300 1305 1310
Ala His His Arg Arg Ala His Ser Leu Pro Ala Leu Ser Leu Ala Trp
1315 1320 1325
Gly Leu Trp Ala Glu Gly Gly Met Val Asp Ala Lys Ala His Ala Arg
1330 1335 1340
Leu Ser Asp íle Gly Val Leu Pro Met Ala Thr Gly Pro Ala Leu Ser
1345 1350 1355 1360
Ala Leu Glu Arg Leu Val Asn Thr Ser Ala Val Gin Arg Ser Val Thr
1365 1370 1375
Arg Met Asp Trp Ala Arg Phe Ala Pro Val Tyr Ala Ala Arg Gly Arg
1380 1385 1390
Arg Asn Leu Leu Ser Ala Leu Val Ala Glu Asp Glu Arg Ala Ala Ser 1395 1400 1405 • ·
140
Pro Pro 1410 Val Pro Thr Ala Asn Arg íle Trp Arg Gly Leu Ser Val Ala
1415 1420
Glu Ser Arg Ser Ala Leu Tyr Glu Leu Val Arg Gly íle Val Ala Arg
1425 1430 1435 1440
Val Leu Gly Phe Ser Asp Pro Gly Ala Leu Asp Val Gly Arg Gly Phe
1445 1450 1455
Ala Glu Gin Gly Leu Asp Ser Leu Met Ala Leu Glu íle Arg Asn Arg
1460 1465 1470
Leu Gin Arg Glu Leu Gly Glu Arg Leu Ser Ala Thr Leu Ala Phe Asp
1475 1480 1485
His Pro Thr Val Glu Arg Leu Val Ala His Leu Leu Thr Asp Val Leu
1490 1495 1500
Lys Leu Glu Asp Arg Ser Asp Thr Arg His íle Arg Ser Val Ala Ala
1505 1510 1515 1520
Asp Asp Asp Zle Ala íle Val Gly Ala Ala Cys Arg Phe Pro Gly Gly
1525 1530 1535
Asp Glu Gly Leu Glu Thr Tyr Trp Arg His Leu Ala Glu Gly Met Val
1540 1545 1550
Val Ser Thr Glu Val Pro Ala Asp Arg Trp Arg Ala Ala Asp Trp Tyr
1555 1560 1565
Asp Pro Asp Pro Glu Val Pro Gly Arg Thr Tyr Val Ala Lys Gly Ala
1570 1575 1580
Phe Leu Arg Asp Val Arg Ser Leu Asp Ala Ala Phe Phe Ala íle Ser
1585 1590 1595 1600
Pro Arg Glu Ala Met Ser Leu Asp Pro Gin Gin Arg Leu Leu Leu Glu
1605 1610 1615
Val Ser Trp Glu Ala íle Glu Arg Ala Gly Gin Asp Pro Met Ala Leu
1620 1625 1630
Arg Glu Ser Ala Thr Gly Val Phe Val Gly Met íle Gly Ser Glu His
1635 1640 1645
Ala Glu Arg Val Gin Gly Leu Asp Asp Asp Ala Ala Leu Leu Tyr Gly
1650 1655 1660
Thr Thr Gly Asn Leu Leu Ser Val Ala Ala Gly Arg Leu Ser Phe Phe
1665 1670 1675 1680
Leu Gly Leu His Gly Pro Thr Met Thr Val Asp Thr Ala Cys Ser Ser
1685 1690 1695
Ser Leu Val Ala Leu His Leu Ala Cys Gin Ser Leu Arg Leu Gly Glu
1700 1705 1710
Cys Asp Gin Ala Leu Ala Gly Gly Ser Ser Val Leu Leu Ser Pro Arg
1715 1720 1725
Ser Phe Val Ala Ala Ser Arg Met Arg Leu Leu Ser Pro Asp Gly Arg
1730 1735 1740
141 • ·
Cys Lys Thr Phe Ser Ala Ala Ala Asp Gly Phe Ala Arg Ala Glu Gly
1745 1750 1755 1760
Cys Ala Val Val Val Leu Lys Arg Leu Arg Asp Ala Gin Arg Asp Arg
1765 1770 1775
Asp Pro íle Leu Ala Val Val Arg Ser Thr Ala íle Asn His Asp Gly
1780 1785 1790
Pro Ser Ser Gly Leu Thr Val Pro Ser Gly Pro Ala Gin Gin Ala Leu
1795 1800 1805
Leu Arg Gin Ala Leu Ala Gin Ala Gly Val Ala Pro Ala Glu Val Asp
1810 1815 1820
Phe Val Glu Cys His Gly Thr Gly Thr Ala Leu Gly Asp Pro íle Glu
1825 1830 1835 1840
Val Gin Ala Leu Gly Ala Val Tyr Gly Arg Gly Arg Pro Ala Glu Arg
1845 1850 1855
Pro Leu Trp Leu Gly Ala Val Lys Ala Asn Leu Gly His Leu Glu Ala
1860 1865 1870
Ala Ala Gly Leu Ala Gly Val Leu Lys Val Leu Leu Ala Leu Glu His
1875 1880 1885
Glu Gin íle Pro Ala Gin Pro Glu Leu Asp Glu Leu Asn Pro His íle
1890 1895 1900
Pro Trp Ala Glu Leu Pro Val Ala Val Val Arg Arg Ala Val Pro Trp
1905 1910 1915 1920
Pro Arg Gly Ala Arg Pro Arg Arg Ala Gly Val Ser Ala Phe Gly Leu
1925 1930 1935
Ser Gly Thr Asn Ala His Val Val Leu Glu Glu Ala Pro Ala Val Glu
1940 1945 1950
Pro Val Ala Ala Ala Pro Glu Arg Ala Ala Glu Leu Phe Val Leu Ser
1955 1960 1965
Ala Lys Ser Ala Ala Ala Leu Asp Ala Gin Ala Ala Arg Leu Arg Asp
1970 1975 1980
His Leu Glu Lys His Val Glu Leu Gly Leu Gly Asp Val Ala Phe Ser
1985 1990 1995 2000
Leu Ala Thr Thr Arg Ser Ala Met Glu His Arg Leu Ala Val Ala Ala
2005 2010 2015
Ser Ser Arg Glu Ala Leu Arg Gly Ala Leu Ser Ala Ala Ala Gin Gly
2020 2025 2030
His Thr Pro Pro Gly Ala Val Arg Gly Arg Ala Ser Gly Gly Ser Ala
2035 2040 2045
Pro Lys Val Val Phe Val Phe Pro Gly Gin Gly Ser Gin Trp Val Gly
2050 2055 2060
Met Gly Arg Lys Leu Met Ala Glu Glu Pro Val Phe Arg Ala Ala Leu 2065 2070 2075 2080
142
···· • · • · ·· ·
• · • · ··
··· • t
• · • · ·
• ·
·· ···· ·· ·· ·
Glu Gly Cys Asp Arg Ala íle Glu Ala Glu Ala Gly Trp Ser Leu Leu
2085 2090 2095
Gly Glu Leu Ser Ala Asp Glu Ala Ala Ser Gin Leu Gly Arg íle Asp
2100 2105 2110
Val Val Gin Pro Val Leu Phe Ala Met Glu Val Ala Leu Ser Ala Leu
2115 2120 2125
Trp Arg Ser Trp Gly Val Glu Pro Glu Ala Val Val Gly His Ser Met
2130 2135 2140
Gly Glu Val Ala Ala Ala His Val Ala Gly Ala Leu Ser Leu Glu Asp
2145 2150 2155 2160
Ala Val Ala íle íle Cys Arg Arg Ser Arg Leu Leu Arg Arg íle Ser
2165 2170 2175
Gly Gin Gly Glu Met Ala Leu Val Glu Leu Ser Leu Glu Glu Ala Glu
2180 2185 2190
Ala Ala Leu Arg Gly His Glu Gly Arg Leu Ser Val Ala Val Ser Asn
2195 2200 2205
Ser Pro Arg Ser Thr Val Leu Ala Gly Glu Pro Ala Ala Leu Ser Glu
2210 2215 2220
Val Leu Ala Ala Leu Thr Ala Lys Gly Val Phe Trp Arg Gin Val Lys
2225 2230 2235 2240
Val Asp Val Ala Ser His Ser Pro Gin Val Asp Pro Leu Arg Glu Glu
2245 2250 2255
Leu íle Ala Ala Leu Gly Ala íle Arg Pro Arg Ala Ala Ala Val Pro
2260 2265 2270
Met Arg Ser Thr Val Thr Gly Gly Val íle Ala Gly Pro Glu Leu Gly
2275 2280 2285
Ala Ser Tyr Trp Ala Asp Asn Leu Arg Gin Pro Val Arg Phe Ala Ala
2290 2295 2300
Ala Ala Gin Ala Leu Leu Glu Gly Gly Pro Ala Leu Phe íle Glu Met
2305 2310 : 2315 2320
Ser Pro His Pro íle Leu Val Pro Pro Leu Asp Glu íle Gin Thr Ala
2325 2330 2335
Ala Glu Gin Gly Gly Ala Ala Val Gly Ser Leu Arg Arg Gly Gin Asp
2340 2345 2350
Glu Arg Ala Thr Leu Leu Glu Ala Leu Gly Thr Leu Trp Ala Ser Gly
2355 2360 2365
Tyr Pro Val Ser Trp Ala Arg Leu Phe Pro Ala Gly Gly Arg Arg Val
2370 2375 2380
Pro Leu Pro Thr Tyr Pro Trp Gin His Glu Arg Tyr Trp íle Glu Asp
2385 2390 ; 2395 I 2400
Ser Val His Gly Ser Lys Pro Ser Leu Arg Leu Arg Gin Leu Arg Asn 2405 2410 2415
143
···· ·· ·· ··
• · • ·
··· e
• · t ·
• · • ·
• ··· ·· ···· ··
Gly Ala Thr Asp 2420 His Pro Leu Leu Gly Ala 2425 Pro Leu Leu Val 2430 Ser Ala
Arg Pro Gly Ala His Leu Trp Glu Gin Ala Leu Ser Asp Glu Arg Leu
2435 2440 2445
Ser Tyr Leu Ser Glu His Arg Val His Gly Glu Ala Val Leu Pro Ser
2450 2455 2460
Ala Ala Tyr Val Glu Met Ala Leu Ala Ala Gly Val Asp Leu Tyr Gly
2465 2470 2475 2480
Thr Ala Thr Leu Val Leu Glu Gin Leu Ala Leu Glu Arg Ala Leu Ala
2485 2490 2495
Val Pro Ser Glu Gly Gly Arg íle Val Gin Val Ala Leu Ser Glu Glu
2500 2505 2510
Gly Pro Gly Arg Ala Ser Phe Gin Val Ser Ser Arg Glu Glu Ala Gly
2515 2520 2525
Arg Ser Trp Val Arg His Ala Thr Gly His Val Cys Ser Gly Gin Ser
2530 2535 2540
Ser Ala Val Gly Ala Leu Lys Glu Ala Pro Trp Glu íle Gin Arg Arg
2545 2550 2555 2560
Cys Pro Ser Val Leu Ser Ser Glu Ala Leu Tyr Pro Leu Leu Asn Glu
2565 2570 2575
His Ala Leu Asp Tyr Gly Pro Cys Phe Gin Gly Val Glu Gin Val Trp
2580 2585 2590
Leu Gly Thr Gly Glu Val Leu Gly Arg Val Arg Leu Pro Gly Asp Met
2595 2600 2605
Ala Ser Ser Ser Gly Ala Tyr Arg íle His Pro Ala Leu Leu Asp Ala
2610 2615 2620
Cys Phe Gin Val Leu Thr Ala Leu Leu Thr Thr Pro Glu Ser íle Glu
2625 2630 2635 2640
íle Arg Arg Arg Leu Thr Asp Leu His Glu Pro Asp Leu Pro Arg Ser
2645 2650 2655
Arg Ala Pro Val Asn Gin Ala Val Ser Asp Thr Trp Leu Trp Asp Ala
2660 2665 2670
Ala Leu Asp Gly Gly Arg Arg Gin Ser Ala Ser Val Pro Val Asp Leu
2675 2680 2685
Val Leu Gly Ser Phe His Ala Lys Trp Glu Val Met Glu Arg Leu Ala
2690 2695 2700
Gin Ala Tyr íle íle Gly Thr Leu Arg íle Trp Asn Val Phe Cys Ala
2705 2710 2715 2720
Ala Gly Glu Arg His Thr íle Asp Glu Leu Leu Val Arg Leu Gin íle
2725 2730 2735
Ser Val Val Tyr Arg Lys Val íle Lys Arg Trp Met Glu His Leu Val
2740 2745 2750 ···· • · ··
144
Ala íle Gly íle Leu Val Gly Asp 2760 Gly Glu His Phe Val Ser 2765 Ser Gin
2755
Pro Leu Pro Glu Pro Asp Leu Ala Ala Val Leu Glu Glu Ala Gly Arg
2770 2775 2780
Val Phe Ala Asp Leu Pro Val Leu Phe Glu Trp Cys Lys Phe Ala Gly
2785 2790 2795 2800
Glu Arg Leu Ala Asp Val Leu Thr Gly Lys Thr Leu Ala Leu Glu íle
2805 2810 2815
Leu Phe Pro Gly Gly Ser Phe Asp Met Ala Glu Arg íle Tyr Arg Asp
2820 2825 2830
Ser Pro íle Ala Arg Tyr Ser Asn Gly íle Val Arg Gly Val Val Glu
2835 2840 2845
Ser Ala Ala Arg Val Val Ala Pro Ser Gly Met Phe Ser íle Leu Glu
2850 2855 2860
íle Gly Ala Gly Thr Gly Ala Thr Thr Ala Ala Val Leu Pro Val Leu
2865 2870 2875 2880
Leu Pro Asp Arg Thr Glu Tyr His Phe Thr Asp Val Ser Pro Leu Phe
2885 2890 2895
Leu Ala Arg Ala Glu Gin Arg Phe Arg Asp Tyr Pro Phe Leu Lys Tyr
2900 2905 2910
Gly íle Leu Asp Val Asp Gin Glu Pro Ala Gly Gin Gly Tyr Ala His
2915 2920 2925
Gin Arg Phe Asp Val íle Val Ala Ala Asn Val íle His Ala Thr Arg
2930 2935 2940
Asp íle Arg Ala Thr Ala Lys Arg Leu Leu Ser Leu Leu Ala Pro Gly
2945 2950 2955 2960
Gly Leu Leu Val Leu Val Glu Gly Thr Gly His Pro íle Trp Phe Asp
2965 2970 2975
íle Thr Thr Gly Leu íle Glu Gly Trp Gin Lys Tyr Glu Asp Asp Leu
2980 2985 2990
Arg íle Asp His Pro Leu Leu Pro Ala Arg Thr Trp Cys Asp Val Leu
2995 3000 3005
Arg Arg Val Gly Phe Ala Asp Ala Val Ser Leu Pro Gly Asp Gly Ser
3010 3015 3020
Pro Ala Gly íle Leu Gly Gin His Val íle Leu Ser Arg Ala Pro Gly
3025 3030 3035 3040
íle Ala Gly Ala Ala Cys Asp Ser Ser Gly Glu Ser Ala Thr Glu Ser
3045 3050 3055
Pro Ala Ala Arg Ala Val Arg Gin Glu Trp Ala Asp Gly Ser Ala Asp
Val Val His Arg Met Ala Leu Glu Arg Met Tyr Phe His Arg Arg Pro 3075 3080 3085
3360 3065 3070
145
• ··· ·· · • ·· · • · • · • · • · • · • • · • · • · • • · •
• · • · · • · ·
• · ··· ··· • · ·· • ···· • · • · • · ·
Gly Arg 3090 Gin Val Trp Val His Gly Arg Leu Arg Thr Gly Gly Gly Ala
3095 3100
Phe Thr Lys Ala Leu Ala Gly Asp Leu Leu Leu Phe Glu Asp Thr Gly
3105 3110 3115 3120
Gin Val Val Ala Glu Val Gin Gly Leu Arg Leu Pro Gin Leu Glu Ala
3125 3130 3135
Ser Ala Phe Ala Pro Arg Asp Pro Arg Glu Glu Trp Leu Tyr Ala Leu
3140 3145 3150
Glu Trp Gin Arg Lys Asp Pro íle Pro Glu Ala Pro Ala Ala Ala Ser
3155 3160 3165
Ser Ser Ser Ala Gly Ala Trp Leu Val Leu Met Asp Gin Gly Gly Thr
3170 3175 3180
Gly Ala Ala Leu Val Ser Leu Leu Glu Gly Arg Gly Glu Ala Cys Val
3185 3190 3195 3200
Arg Val íle Ala Gly Thr Ala Tyr Ala Cys Leu Ala Pro Gly Leu Tyr
3205 3210 3215
Gin Val Asp Pro Ala Gin Pro Asp Gly Phe His Thr Leu Leu Arg Asp
3220 3225 3230
Ala Phe Gly Glu Asp Arg íle Cys Arg Ala Val Val His Met Trp Ser
3235 3240 3245
Leu Asp Ala Thr Ala Ala Gly Glu Arg Ala Thr Ala Glu Ser Leu Gin
3250 3255 3260
Ala Asp Gin Leu Leu Gly Ser Leu Ser Ala Leu Ser Leu Val Gin Ala
3265 3270 3275 3280
Leu Val Arg Arg Arg Trp Arg Asn Met Pro Arg Leu Trp Leu Leu Thr
3285 3290 3295
Arg Ala Val His Ala Val Gly Ala Glu Asp Ala Ala Ala Ser Val Ala
3300 3305 3310
Gin Ala Pro Val Trp Gly Leu Gly Arg Thr Leu Ala Leu Glu His Pro
3315 3320 3325
Glu Leu Arg Cys Thr Leu Val Asp Val Asn Pro Ala Pro Ser Pro Glu
3330 3335 3340
Asp Ala Ala Ala Leu Ala Val Glu Leu Gly Ala Ser Asp Arg Glu Asp
3345 3350 3355 3360
Gin Val Ala Leu Arg Ser Asp Gly Arg Tyr Val Ala Arg Leu Val Arg
3365 3370 3375
Ser Ser Phe Ser Gly Lys Pro Ala Thr Asp Cys Gly íle Arg Ala Asp
3380 3385 3390
Gly Ser Tyr Val íle Thr Asp Gly Met Gly Arg Val Gly Leu Ser Val
3395 3400 3405
Ala Gin Trp Met Val Met Gin Gly Ala Arg His Val Val Leu Val Asp 3410 3415 3420 ···· • ·
146
Arg Gly Gly 3425 Ala Ser Glu 3430 Ala Ser Arg Asp Ala 3435 Leu Arg Ser Met Ala 3440
Glu Ala Gly Ala Glu Val Gin íle Val Glu Ala Asp Val Ala Arg Arg
3445 3450 3455
Asp Asp Val Ala Arg Leu Leu Ser Lys íle Glu Pro Ser Met Pro Pro
3460 3465 3470
Leu Arg Gly íle Val Tyr Val Asp Gly Thr Phe Gin Gly Asp Ser Ser
3475 3480 3485
Met Leu Glu Leu Asp Ala Arg Arg Phe Lys Glu Trp Met Tyr Pro Lys
3490 3495 3500
Val Leu Gly Ala Trp Asn Leu His Ala Leu Thr Arg Asp Arg Ser Leu
3505 3510 3515 3520
Asp Phe Phe Val Leu Tyr Ser Ser Gly Thr Ser Leu Leu Gly Leu Pro
3525 3530 3535
Gly Gin Gly Ser Arg Ala Ala Gly Asp Ala Phe Leu Asp Ala íle Ala
3540 3545 3550
His His Arg Cys Lys Val Gly Leu Thr Ala Met Ser íle Asn Trp Gly
3555 3560 3565
Leu Leu Ser Glu Ala Ser Ser Pro Ala Thr Pro Asn Asp Gly Gly Ala
3570 3575 3580
Arg Leu Glu Tyr Arg Gly Met Glu Gly Leu Thr Leu Glu Gin Gly Ala
3585 3590 3595 3600
Ala Ala Leu Gly Arg Leu Leu Ala Arg Pro Arg Ala Gin Val Gly Val
3605 3610 3615
Met Arg Leu Asn Leu Arg Gin Trp Leu Glu Phe Tyr Pro Asn Ala Ala
3620 3625 3630
Arg Leu Ala Leu Trp Ala Glu Leu Leu Lys Glu Arg Asp Arg Ala Asp
3635 3640 3645
Arg Gly Ala Ser Asn Ala Ser Asn Leu Arg Glu Ala Leu Gin Ser Ala
3650 3655 3660
Arg Pro Glu Asp Arg Gin Leu íle Leu Glu Lys His Leu Ser Glu Leu
3665 3670 3675 3680
Leu Gly Arg Gly Leu Arg Leu Pro Pro Glu Arg íle Glu Arg His Val
3685 3690 3695
Pro Phe Ser Asn Leu Gly Met Asp Ser Leu íle Gly Leu Glu Leu Arg
3700 3705 3710
Asn Arg íle Glu Ala Ala Leu Gly íle Thr Val Pro Ala Thr Leu Leu
3715 3720 3725
Trp Thr Tyr Pro Asn Val Ala Ala Leu Ser Gly Ser Leu Leu Asp íle
3730 3735 3740
Leu Phe Pro Asn Ala Gly Ala Thr His Ala Pro Ala Thr Glu Arg Glu 3745 3750 3755 3760 ····
147
Lys Ser
Phe Glu Asn Asp Ala Ala Asp Leu Glu Ala 3765 3770
Thr Asp Glu Gin Lys Asp Ala Leu Leu Ala Glu Lys
3780 3785
Leu Arg Gly Met 3775
Leu Ala Gin Leu 3790
Ala Gin íle Val Gly Glu 3795 <210> 7 <211> 2439 <212> PRT <213> Sorangium cellulosum <400> 7
Met Ala Thr Thr Asn Ala Gly Lys Leu Glu His Ala Leu 10 Leu Leu 15 Met
1 5
Asp Lys Leu Ala Lys Lys Asn Ala Ser Leu Glu Gin Glu Arg Thr Glu
20 25 30
Pro íle Ala íle Val Gly íle Gly Cys Arg Phe Pro Gly Gly Ala Asp
35 40 45
Thr Pro Glu Ala Phe Trp Glu Leu Leu Asp Ser Gly Arg Asp Ala Val
50 55 60
Gin Pro Leu Asp Arg Arg Trp Ala Leu Val Gly Val His Pro Ser Glu
65 70 75 80
Glu Val Pro Arg Trp Ala Gly Leu Leu Thr Glu Ala Val Asp Gly Phe
85 90 95
Asp Ala Ala Phe Phe Gly Thr Ser Pro Arg Glu Ala Arg Ser Leu Asp
L00 105 110
Pro Gin Gin Arg Leu Leu Leu Glu Val Thr Trp Glu Gly Leu Glu Asp
115 120 125
Ala Gly íle Ala Pro Gin Ser Leu Asp Gly Ser Arg Thr Gly Val Phe
130 135 140
Leu Gly Ala Cys Ser Ser Asp Tyr Ser His Thr Val Ala Gin Gin Arg
145 150 155 160
Arg Glu Glu Gin Asp Ala Tyr Asp íle Thr Gly Asn Thr Leu Ser Val
165 170 175
Ala Ala Gly Arg Leu Ser Tyr Thr Leu Gly Leu Gin Gly Pro Cys Leu
180 185 190
Thr Val Asp Thr Ala Cys Ser Ser Ser Leu Val Ala íle His Leu Ala
195 200 205
Cys Arg Ser Leu Arg Ala Arg Glu Ser Asp Leu Ala Leu Ala Gly Gly
210 215 220
Val Asn Met Leu Leu Ser Ser Lys Thr Met íle Met Leu Gly Arg íle
225 230 235 240
····
148
Gin Ala Leu Ser Pro Asp Gly His Cys Arg Thr Phe Asp Ala Ser Ala
245 250 255
Asn Gly Phe Val Arg Gly Glu Gly Cys Gly Met Val Val Leu Lys Arg
260 265 270
Leu Ser Asp Ala Gin Arg His Gly Asp Arg íle Trp Ala Leu íle Arg
275 280 285
Gly Ser Ala Met Asn Gin Asp Gly Arg Ser Thr Gly Leu Met Ala Pro
290 295 300
Asn Val Leu Ala Gin Glu Ala Leu Leu Arg Glu Ala Leu Gin Ser Ala
305 310 315 320
Arg Val Asp Ala Gly Ala íle Gly Tyr Val Glu Thr His Gly Thr Gly
325 330 335
Thr Ser Leu Gly Asp Pro íle Glu Val Glu Ala Leu Arg Ala Val Leu
340 345 350
Gly Pro Ala Arg Ala Asp Gly Ser Arg Cys Val Leu Gly Ala Val Lys
355 360 365
Thr Asn Leu Gly His Leu Glu Gly Ala Ala Gly Val Ala Gly Leu íle
370 375 380
Lys Ala Ala Leu Ala Leu His His Glu Leu íle Pro Arg Asn Leu His
385 390 395 400
Phe His Thr Leu Asn Pro Arg íle Arg íle Glu Gly Thr Ala Leu Ala
405 410 415
Leu Ala Thr Glu Pro Val Pro Trp Pro Arg Ala Gly Arg Pro Arg Phe
420 425 430
Ala Gly Val Ser Ala Phe Gly Leu Ser Gly Thr Asn Val His Val Val
435 440 445
Leu Glu Glu Ala Pro Ala Thr Val Leu Ala Pro Ala Thr Pro Gly Arg
450 455 4 60
Ser Ala Glu Leu Leu Val Leu Ser Ala Lys Ser Ala Ala Ala Leu Asp
4 65 470 475 480
Ala Gin Ala Ala Arg Leu Ser Ala His íle Ala Ala Tyr Pro Glu Gin
485 490 4 95
Gly Leu Gly Asp Val Ala Phe Ser Leu Val Ser Thr Arg Ser Pro Met
500 505 510
Glu His Arg Leu Ala Val Ala Ala Thr Ser Arg Glu Ala Leu Arg Ser
515 520 525
Ala Leu Glu Val Ala Ala Gin Gly Gin Thr Pro Ala Gly Ala Ala Arg
530 535 540
Gly Arg Ala Ala Ser Ser Pro Gly Lys Leu Ala Phe Leu Phe Ala Gly
545 550 555 560
Gin Gly Ala Gin Val Pro Gly Met Gly Arg Gly Leu Trp Glu Ala Trp
565 570 575 ···· • ·
149
Pro Ala Phe Arg 580 Glu Thr Phe Asp Arg Cys Val Thr Leu Phe Asp Arg
585 590
Glu Leu His Gin Pro Leu Cys Glu Val Met Trp Ala Glu Pro Gly Ser
595 600 605
Ser Arg Ser Ser Leu Leu Asp Gin Thr Ala Phe Thr Gin Pro Ala Leu
610 615 620
Phe Ala Leu Glu Tyr Ala Leu Ala Ala Leu Phe Arg Ser Trp Gly Val
625 630 635 640
Glu Pro Glu Leu Val Ala Gly His Ser Leu Gly Glu Leu Val Ala Ala
645 650 655
Cys Val Ala Gly Val Phe Ser Leu Glu Asp Ala Val Arg Leu Val Val
660 665 670
Ala Arg Gly Arg Leu Met Gin Ala Leu Pro Ala Gly Gly Ala Met Val
67 5 680 685
Ser íle Ala Ala Pro Glu Ala Asp Val Ala Ala Ala Val Ala Pro His
690 695 700
Ala Ala Leu Val Ser íle Ala Ala Val Asn Gly Pro Glu Gin Val Val
705 710 715 720
íle Ala Gly Ala Glu Lys Phe Val Gin Gin íle Ala Ala Ala Phe Ala
725 730 735
Ala Arg Gly Ala Arg Thr Lys Pro Leu His Val Ser His Ala Phe His
740 745 750
Ser Pro Leu Met Asp Pro Met Leu Glu Ala Phe Arg Arg Val Thr Glu
755 760 765
Ser Val Thr Tyr Arg Arg Pro Ser íle Ala Leu Val Ser Asn Leu Ser
770 775 780
Gly Lys Pro Cys Thr Asp Glu Val Ser Ala Pro Gly Tyr Trp Val Arg
785 790 795 800
His Ala Arg Glu Ala Val Arg Phe Ala Asp Gly Val Lys Ala Leu His
805 810 815
Ala Ala Gly Ala Gly Leu Phe Val Glu Val Gly Pro Lys Pro Thr Leu
820 825 830
Leu Gly Leu Val Pro Ala Cys Leu Pro Asp Ala Arg Pro Val Leu Leu
835 840 845
Pro Ala Ser Arg Ala Gly Arg Asp Glu Ala Ala Ser Ala Leu Glu Ala
850 855 860
Leu Gly Gly Phe Trp Val Val Gly Gly Ser Val Thr Trp Ser Gly Val
865 870 875 880
Phe Pro Ser Gly Gly Arg Arg Val Pro Leu Pro Thr Tyr Pro Trp Gin
885 890 895
Arg Glu Arg Tyr Trp íle Glu Ala Pro Val Asp Arg Glu Ala Asp Gly
900 905 910 ····
150
Thr Gly Arg Ala Arg Ala Gly Gly 920 His Pro Leu Leu Gly 925 Glu Val Phe
915
Ser Val Ser Thr His Ala Gly Leu Arg Leu Trp Glu Thr Thr Leu Asp
930 935 940
Arg Lys Arg Leu Pro Trp Leu Gly Glu His Arg Ala Gin Gly Glu Val
945 950 955 960
Val Phe Pro Gly Ala Gly Tyr Leu Glu Met Ala Leu Ser Ser Gly Ala
965 970 975
Glu íle Leu Gly Asp Gly Pro íle Gin Val Thr Asp Val Val Leu íle
980 985 990
Glu Thr Leu Thr Phe Ala Gly Asp Thr Ala Val Pro Val Gin Val Val
995 1000 1005
Thr Thr Glu Glu Arg Pro Gly Arg Leu Arg Phe Gin Val Ala Ser Arg
1010 1015 1020
Glu Pro Gly Glu Arg Arg Ala Pro Phe Arg íle His Ala Arg Gly Val
1025 1030 1035 1040
Leu Arg Arg íle Gly Arg Val Glu Thr Pro Ala Arg Ser Asn Leu Ala
1045 1050 1055
Ala Leu Arg Ala Arg Leu His Ala Ala Val Pro Ala Ala Ala íle Tyr
1060 1065 1070
Gly Ala Leu Ala Glu Met Gly Leu Gin Tyr Gly Pro Ala Leu Arg Gly
1075 1080 1085
Leu Ala Glu Leu Trp Arg Gly Glu Gly Glu Ala Leu Gly Arg Val Arg
1090 1095 1100
Leu Pro Glu Ala Ala Gly Ser Ala Thr Ala Tyr Gin Leu His Pro Val
1105 1110 1115 1120
Leu Leu Asp Ala Cys Val Gin Met íle Val Gly Ala Phe Ala Asp Arg
1125 1130 1135
Asp Glu Ala Thr Pro Trp Ala Pro Val Glu Val Gly Ser Val Arg Leu
1140 1145 1150
Phe Gin Arg Ser Pro Gly Glu Leu Trp Cys His Ala Arg Val Val Ser
1155 1160 1165
Asp Gly Gin Gin Ala Ser Ser Arg Trp Ser Ala Asp Phe Glu Leu Met
1170 1175 1180
Asp Gly Thr Gly Ala Val Val Ala Glu íle Ser Arg Leu Val Val Glu
1185 1190 1195 1200
Arg Leu Ala Ser Gly Val Arg Arg Arg Asp Ala Asp Asp Trp Phe Leu
1205 1210 1215
Glu Leu Asp Trp Glu Pro Ala Ala Leu Gly Gly Pro Lys íle Thr Ala
1220 1225 1230
Gly Arg Trp Leu Leu Leu Gly Glu Gly Gly Gly Leu Gly Arg Ser Leu 1235 1240 1245
151
• • · • • ···· • ··· • • • · ·· • · · · • · · • · · · · • · · ·· • · • · • · • · • 9Λ • • •
··· ··· ·· ···· • · • · ·
Cys Ser 1250 Ala Leu Lys Ala Ala Gly His Val Val Val His Ala Ala Gly
1255 1260
Asp Asp Thr Ser Thr Ala Gly Met Arg Ala Leu Leu Ala Asn Ala Phe
1265 1270 : L275 1280
Asp Gly Gin Ala Pro Thr Ala Val Val His Leu Ser Ser Leu Asp Gly
1285 1290 1295
Gly Gly Gin Leu Gly Pro Gly Leu Gly Ala Gin Gly Ala Leu Asp Ala
1300 1305 1310
Pro Arg Ser Pro Asp Val Asp Ala Asp Ala Leu Glu Ser Ala Leu Met
1315 1320 1325
Arg Gly Cys Asp Ser Val Leu Ser Leu Val Gin Ala Leu Val Gly Met
1330 1335 1340
Asp Leu Arg Asn Ala Pro Arg Leu Trp Leu Leu Thr Arg Gly Ala Gin
1345 1350 1355 1360
Ala Ala Ala Ala Gly Asp Val Ser Val Val Gin Ala Pro Leu Leu Gly
1365 1370 1375
Leu Gly Arg Thr íle Ala Leu Glu His Ala Glu Leu Arg Cys íle Ser
1380 1385 1390
Val Asp Leu Asp Pro Ala Glu Pro Glu Gly Glu Ala Asp Ala Leu Leu
1395 1400 1405
Ala Glu Leu Leu Ala Asp Asp Ala Glu Glu Glu Val Ala Leu Arg Gly
1410 1415 1420
Gly Asp Arg Leu Val Ala Arg Leu Val His Arg Leu Pro Asp Ala Gin
1425 1430 1435 1440
Arg Arg Glu Lys Val Glu Pro Ala Gly Asp Arg Pro Phe Arg Leu Glu
1445 1450 1455
íle Asp Glu Pro Gly Ala Leu Asp Gin Leu Val Leu Arg Ala Thr Gly
K60 1465 1470
Arg Arg Ala Pro Gly Pro Gly Glu Val Glu íle Ser Val Glu Ala Ala
1475 1480 1485
Gly Leu Asp Ser íle Asp íle Gin Leu Ala Leu Gly Val Ala Pro Asn
1490 1495 1500
Asp Leu Pro Gly Glu Glu íle Glu Pro Leu Val Leu Gly Ser Glu Cys
1505 1510 1515 1520
Ala Gly Arg íle Val Ala Val Gly Glu Gly Val Asn Gly Leu Val Val
1525 1530 1535
Gly Gin Pro Val íle Ala Leu Ala Ala Gly Val Phe Ala Thr His Val
1540 1545 1550
Thr Thr Ser Ala Thr Leu Val Leu Pro Arg Pro Leu Gly Leu Ser Ala
1555 1560 1565
Thr Glu Ala Ala Ala Met Pro Leu Ala Tyr Leu Thr Ala Trp Tyr Ala 1570 1575 1580
152
···· ·· • · ·· • · • · • · • ··
··· • • • · • • • • • · • · · • •
e • ·
• ··· ·· ···· ·· • ·
Leu Asp Lys 1585 Val Ala His 1590 Leu Gin Ala Gly Glu Arg 1595 Val Leu íle His 1600
Ala Glu Ala Gly Gly Val Gly Leu Cys Ala Val Arg Trp Ala Gin Arg
1605 1610 1615
Val Gly Ala Glu Val Tyr Ala Thr Ala Asp Thr Pro Glu Asn Arg Ala
1620 1625 1630
Tyr Leu Glu Ser Leu Gly Val Arg Tyr Val Ser Asp Ser Arg Ser Gly
1635 1640 1645
Arg Phe Val Thr Asp Val His Ala Trp Thr Asp Gly Glu Gly Val Asp
1650 1655 1660
Val Val Leu Asp Ser Leu Ser Gly Glu Arg íle Asp Lys Ser Leu Met
1665 1670 1675 1680
Val Leu Arg Ala Cys Gly Arg Leu Val Lys Leu Gly Arg Arg Asp Asp
1685 1690 1695
Cys Ala Asp Thr Gin Pro Gly Leu Pro Pro Leu Leu Arg Asn Phe Ser
1700 1705 1710
Phe Ser Gin Val Asp Leu Arg Gly Met Met Leu Asp Gin Pro Ala Arg
1715 1720 1725
íle Arg Ala Leu Leu Asp Glu Leu Phe Gly Leu Val Ala Ala Gly Ala
1730 1735 1740
íle Ser Pro Leu Gly Ser Gly Leu Arg Val Gly Gly Ser Leu Thr Pro
1745 1750 1755 1760
Pro Pro Val Glu Thr Phe Pro íle Ser Arg Ala Ala Glu Ala Phe Arg
1765 1770 1775
Arg Met Ala Gin Gly Gin His Leu Gly Lys Leu Val Leu Thr Leu Asp
1780 1785 1790
Asp Pro Glu Val Arg íle Arg Ala Pro Ala Glu Ser Ser Val Ala Val
1795 1800 1805
Arg Ala Asp Gly Thr Tyr Leu Val Thr Gly Gly Leu Gly Gly Leu Gly
1810 1815 1820
Leu Arg Val Ala Gly Trp Leu Ala Glu Arg Gly Ala Gly Gin Leu Val
1825 1830 1835 1840
Leu Val Gly Arg Ser Gly Ala Ala Ser Ala Glu Gin Arg Ala Ala Val
1845 1850 1855
Ala Ala Leu Glu Ala His Gly Ala Arg Val Thr Val Ala Lys Ala Asp
1860 1865 1870
Val Ala Asp Arg Ser Gin íle Glu Arg Val Leu Arg Glu Val Thr Ala
1875 1880 1885
Ser Gly Met Pro Leu Arg Gly Val Val His Ala Ala Gly Leu Val Asp
1890 1895 1900
Asp Gly Leu Leu Met Gin Gin Thr Pro Ala Arg Phe Arg Thr Val Met 1905 1910 1915 1920 ·· ··
153
Gly Pro Lys Val Gin Gly Ala Leu His Leu His Thr Leu Thr Arg 1935 Glu
1925 1930
Ala Pro Leu Ser Phe Phe Val Leu Tyr Ala Ser Ala Ala Gly Leu Phe
1940 1945 1950
Gly Ser Pro Gly Gin Gly Asn Tyr Ala Ala Ala Asn Ala Phe Leu Asp
1955 1960 1965
Ala Leu Ser His His Arg Arg Ala Gin Gly Leu Pro Ala Leu Ser íle
1970 1975 1980
Asp Trp Gly Met Phe Thr Glu Val Gly Met Ala Val Ala Gin Glu Asn
1985 1990 1995 2000
Arg Gly Ala Arg Gin íle Ser Arg Gly Met Arg Gly íle Thr Pro Asp
2005 2010 2015
Glu Gly Leu Ser Ala Leu Ala Arg Leu Leu Glu Gly Asp Arg Val Gin
2020 2025 2030
Thr Gly Val [le Pro íle Thr Pro Arg Gin Trp Val Glu Phe Tyr Pro
2035 2040 2045
Ala Thr Ala Ala Ser Arg Arg Leu Ser Arg Leu Val Thr Thr Gin Arg
2050 2055 : 2060
Ala Val Ala Asp Arg Thr Ala Gly Asp Arg Asp Leu Leu Glu Gin Leu
2065 2070 2075 2080
Ala Ser Ala Glu Pro Ser Ala Arg Ala Gly Leu Leu Gin Asp Val Val
2085 2090 2095
Arg Val Gin Val Ser His Val Leu Arg Leu Pro Glu Asp Lys íle Glu
2100 2105 2110
Val Asp Ala Pro Leu Ser Ser Met Gly Met Asp Ser Leu Met Ser Leu
2115 2120 2125
Glu Leu Arg Asn Arg íle Glu Ala Ala Leu Gly Val Ala Ala Pro Ala
2130 2135 ; 2140
Ala Leu Gly Trp Thr Tyr Pro Thr Val Ala Ala íle Thr Arg Trp Leu
2145 2150 2155 2160
Leu Asp Asp Ala Leu Val Val Arg Leu Gly Gly Gly Ser Asp Thr Asp
2165 2170 2175
Glu Ser Thr Ala Ser Ala Gly Ser Phe Val His Val Leu Arg Phe Arg
2180 2185 2190
Pro Val Val Lys Pro Arg Ala Arg Leu Phe Cys Phe His Gly Ser Gly
2195 2200 2205
Gly Ser Pro Glu Gly Phe Arg Ser Trp Ser Glu Lys Ser Glu Trp Ser
2210 2215 : 2220
Asp Leu Glu íle Val Ala Met Trp His Asp Arg Ser Leu Ala Ser Glu
2225 2230 2235 2240
Asp Ala Pro Gly Lys Lys Tyr Val Gin Glu Ala Ala Ser Leu íle Gin 2245 2250 2255 ····
154 · · ·· ····
99
• · ··
• ·
• ·
• ·
·· ···
·· · • 9·· • · · • · ······
His Tyr Ala Asp Ala Pro Phe Ala Leu Val Gly Phe Ser Leu Gly Val
2260 2265 2270
Arg Phe Val Met Gly Thr Ala Val Glu Leu Ala Ser Arg Ser Gly Ala
2275 2280 2285
Pro Ala Pro Leu Ala Val Phe Thr Leu Gly Gly Ser Leu íle Ser Ser
2290 2295 2300
Ser Glu íle Thr Pro Glu Met Glu Thr Asp íle íle Ala Lys Leu Phe
2305 2310 2315 2320
Phe Arg Asn Ala Ala Gly Phe Val Arg Ser Thr Gin Gin Val Gin Ala
2325 2330 2335
Asp Ala Arg Ala Asp Lys Val íle Thr Asp Thr Met Val Ala Pro Ala
2340 2345 2350
Pro Gly Asp Ser Lys Glu Pro Pro Val Lys íle Ala Val Pro íle Val
2355 2360 2365
Ala íle Ala Gly Ser Asp Asp Val íle Val Pro Pro Ser Asp Val Gin
2370 2375 2380
Asp Leu Gin Ser Arg Thr Thr Glu Arg Phe Tyr Met His Leu Leu Pro
2385 2390 2395 2400
Gly Asp His Glu Phe Leu Val Asp Arg Gly Arg Glu íle Met His íle
2405 2410 2415
Val Asp Ser His Leu Asn Pro Leu Leu Ala Ala Arg Thr Thr Ser Ser
2420 2425 2430
Gly Pro Ala Phe Glu Ala Lys 2435 <210> 8 <211> 419 <212> PRT <213> Sorangium cellulosum
<400> 8 Met Thr Gin Glu Gin Ala Asn Gin Ser Glu Thr 10 Lys Pro Ala Phe 15 Asp
1 5
Phe Lys Pro Phe Ala Pro Gly Tyr Ala Glu Asp Pro Phe Pro Ala íle
20 25 30
Glu Arg Leu Arg Glu Ala Thr Pro íle Phe Tyr Trp Asp Glu Gly Arg
35 40 45
Ser Trp Val Leu Thr Arg Tyr His Asp Val Ser Ala Val Phe Arg Asp
50 55 60
Glu Arg Phe Ala Val Ser Arg Glu Glu Trp Glu Ser Ser Ala Glu Tyr
65 70 75 80
Ser Ser Ala íle Pro Glu Leu Ser Asp Met Lys Lys Tyr Gly Leu Phe
85 90 95
Gly Leu Pro Pro Glu Asp His Ala Arg Val Arg Lys Leu Val Asn Pro
100 105 110
155
• ···· ·· · • ··· Q · ·· ·· • · · · • · · • · · ·· • · • · • · · • ·· • •
φ · ··· ··· • · · ·· ···· • · ·· • ···
Ser Phe Thr Ser Arg Ala íle Asp Leu Leu Arg Ala Glu íle Gin Arg
115 120 125
Thr Val Asp Gin Leu Leu Asp Ala Arg Ser Gly Gin Glu Glu Phe Asp
130 135 140
Val Val Arg Asp Tyr Ala Glu Gly íle Pro Met Arg Ala íle Ser Ala
145 150 155 160
Leu Leu Lys Val Pro Ala Glu Cys Asp Glu Lys Phe Arg Arg Phe Gly
165 170 175
Ser Ala Thr Ala Arg Ala Leu Gly Val Gly Leu Val Pro Gin Val Asp
180 185 190
Glu Glu Thr Lys Thr Leu Val Ala Ser Val Thr Glu Gly Leu Ala Leu
195 200 205
Leu His Asp Val Leu Asp Glu Arg Arg Arg Asn Pro Leu Glu Asn Asp
210 215 220
Val Leu Thr Met Leu Leu Gin Ala Glu Ala Asp Gly Ser Arg Leu Ser
225 230 235 240
Thr Lys Glu Leu Val Ala Leu Val Gly Ala íle íle Ala Ala Gly Thr
245 250 255
Asp Thr Thr íle Tyr Leu íle Ala Phe Ala Val Leu Asn Leu Leu Arg
260 265 270
Ser Pro Glu Ala Leu Glu Leu Val Lys Ala Glu Pro Gly Leu Met Arg
275 280 285
Asn Ala Leu Asp Glu Val Leu Arg Phe Asp Asn íle Leu Arg íle Gly
290 295 300
Thr Val Arg Phe Ala Arg Gin Asp Leu Glu Tyr Cys Gly Ala Ser íle
305 310 315 320
Lys Lys Gly Glu Met Val Phe Leu Leu íle Pro Ser Ala Leu Arg Asp
325 330 335
Gly Thr Val Phe Ser Arg Pro Asp Val Phe Asp Val Arg Arg Asp Thr
340 345 350
Gly Ala Ser Leu Ala Tyr Gly Arg Gly Pro His Val Cys Pro Gly Val
355 360 365
Ser Leu Ala Arg Leu Glu Ala Glu íle Ala Val Gly Thr íle Phe Arg
370 375 380
Arg Phe Pro Glu Met Lys Leu Lys Glu Thr Pro Val Phe Gly Tyr His
385 390 395 400
Pro Ala Phe Arg Asn íle Glu Ser Leu Asn Val íle Leu Lys Pro Ser
405 410 415
Lys Ala Gly ·· ···· ·· · • ··· • · · • · ······
156 ·· ·· • · · · • · · • · · • · · ·· ····
• · • · ·· •
• · ·
• ·
·· ·· ·
<210> 9 <211> 607 <212> PRT <213> Sorangium cellulosum <400> 9
Ala Ser Leu Asp Ala Leu Phe Ala Arg Ala Thr Ser Ala Arg Val Leu
1 5 10 15
Asp Asp Gly His Gly Arg Ala Thr Glu Arg His Val Leu Ala Glu Ala
20 25 30
Arg Gly íle Glu Asp Leu Arg Ala Leu Arg Glu His Leu Arg íle Gin
35 40 45
Glu Gly Gly Pro Ser Phe His Cys Met Cys Leu Gly Asp Leu Thr Val
50 55 60
Glu Leu Leu Ala His Asp Gin Pro Leu Ala Ser íle Ser Phe His His
65 70 75 80
Ala Arg Ser Leu Arg His Pro Asp Trp Thr Ser Asp Ala Met Leu Val
85 90 95
Asp Gly Pro Ala Leu Val Arg Trp Leu Ala Ala Arg Gly Ala Pro Gly
100 105 110
Pro Leu Arg Glu Tyr Glu Glu Glu Arg Glu Arg Ala Arg Thr Ala Gin
115 120 125
Glu Ala Arg Arg Leu Trp Leu Ala Ala Ala Pro Pro Cys Phe Ala Pro
130 135 140
Asp Leu Pro Arg Phe Glu Asp Asp Ala Asn Gly Leu Pro Leu Gly Pro
145 150 155 160
Met Ser Pro Glu Val Ala Glu Ala Glu Arg Arg Leu Arg Ala Ser Tyr
165 170 175
Ala Thr Pro Glu Leu Ala Cys Ala Ala Leu Leu Ala Trp Leu Gly Thr
180 185 190
Gly Ala Gly Pro Trp Ser Gly Tyr Pro Ala Tyr Glu Met Leu Pro Glu
195 200 205
Asn Leu Leu Leu Gly Phe Gly Leu Pro Thr Ala íle Ala Ala Ala Ser
210 215 220
Ala Pro Gly Thr Ser Glu Ala Ala Leu Arg Gly Ala Ala Arg Leu Phe
225 230 235 240
Ala Ser Trp Glu Val Val Ser Ser Lys Lys Ser Gin Leu Gly Asn íle
245 250 255
Pro Glu Ala Leu Trp Glu Arg Leu Arg Thr íle Val Arg Ala Met Gly
2 60 265 270
Asn Ala Asp Asn Leu Ser Arg Phe Glu Arg Ala Glu Ala íle Ala Ala
275 280 285
Glu Val Arg Arg Leu Arg Ala Gin Pro Ala Pro Phe Ala Ala Gly Ala
290 295 300
·· • ···· ·· · • ···
157
Gly Leu 305 Ala Val Ala Gly 310 Val Ser Ser Ser Gly 315 Arg Leu Ser Gly Leu 320
Val Thr Asp Gly Asp Ala Leu Tyr Ser Gly Asp Gly Asn Asp íle Val
325 330 335
Met Phe Gin Pro Gly Arg íle Ser Pro Val Val Leu Leu Ala Gly Thr
340 345 350
Asp Pro Phe Phe Glu Leu Ala Pro Pro Leu Ser Gin Met Leu Phe Val
355 360 365
Ala His Ala Asn Ala Gly Thr íle Ser Lys Val Leu Thr Glu Gly Ser
370 375 380
Pro Leu íle Val Met Ala Arg Asn Gin Ala Arg Pro Met Ser Leu Val
385 390 395 400
His Ala Arg Gly Phe Met Ala Trp Val Asn Gin Ala Met Val Pro Asp
405 410 415
Pro Glu Arg Gly Ala Pro Phe Val Val Gin Arg Ser Thr íle Met Glu
420 425 430
Phe Glu His Pro Thr Pro Arg Cys Leu His Glu Pro Ala Gly Ser Ala
435 440 445
Phe Ser Leu Ala Cys Asp Glu Glu His Leu Tyr Trp Cys Glu Leu Ser
450 455 460
Ala Gly Arg Leu Glu Leu Trp Arg His Pro His His Arg Pro Gly Ala
465 470 475 480
Pro Ser Arg Phe Ala Tyr Leu Gly Glu His Pro íle Ala Ala Thr Trp
485 490 4 95
Tyr Pro Ser Leu Thr Leu Asn Ala Thr His Val Leu Trp Ala Asp Pro
500 505 510
Asp Arg Arg Ala íle Leu Gly Val Asp Lys Arg Thr Gly Val Glu Pro
515 520 525
íle Val Leu Ala Glu Thr Arg His Pro Pro Ala His Val Val Ser Glu
530 535 540
Asp Arg Asp íle Phe Ala Leu Thr Gly Gin Pro Asp Ser Arg Asp Trp
545 550 555 560
His Val Glu His íle Arg Ser Gly Ala Ser Thr Val Val Ala Asp Tyr
565 570 575
Gin Arg Gin Leu Trp Asp Arg Pro Asp Met Val Leu Asn Arg Arg Gly
580 585 590
Leu Phe Phe Thr Thr Asn Asp Arg íle Leu Thr Leu Ala Arg Ser
595 600 605
<210> 10 <211> 423 <212> PRT <213> Sorangium cellulosum
158
• ···· ·· ·· ··
·· · • · · · v v
• ··· • · · • v
• · • · · · v · w
• · • · · B ·
··· ··· ·· ···· ··
·· ··· <400> 10
Met 1 Gly Ala Leu íle 5 Ser Val Ala Ala Pro Gly Cys Ala Leu Gly Gly
10 15
Ala Glu Glu Glu Gly Gin Pro Gly Gin Asp Ala Gly Ala Gly Ala Leu
20 25 30
Ala Pro Ala Arg Glu Val Met Ala Ala Glu Val Ala Ala Gly Gin Met
35 40 45
Pro Gly Ala V al Trp Leu Val Ala Arg Gly Asp Asp Val His Val Asp
50 55 60
Ala Val Gly Val Thr Glu Leu Gly Gly Ser Ala Pro Met Arg Arg Asp
65 70 75 80
Thr íle Phe Arg íle Ala Ser Met Thr Lys Ala Val Thr Ala Thr Ala
85 90 95
Val Met Met Leu Val Glu Glu Gly Lys Leu Asp Leu Asp Ser Pro Val
100 105 110
Asp Arg Trp Leu Pro Glu Leu Ala Asn Arg Lys Val Leu Ala Arg íle
115 120 125
Asp Gly Pro íle Asp Glu Thr Val Pro Ala Glu Arg Pro íle Thr Val
130 135 140
Arg Asp Leu Met Thr Phe Thr Met Gly Phe Gly íle Ser Phe Asp Ala
145 150 155 160
Ser Ser Pro íle Gin Arg Ala íle Asp Glu Leu Gly Leu Val Asn Ala
165 170 175
Gin Pro Val Pro Met Thr Pro His Gly Pro Asp Glu Trp íle Arg Arg
180 185 190
Leu Gly Thr Leu Pro Leu Met His Gin Pro Gly Ala Gin Trp Met Tyr
195 200 205
Asn Thr Gly Ser Leu Val Gin Gly Val Leu Val Gly Arg Ala Ala Asp
210 215 220
Gin Gly Phe Asp Ala Phe Val Arg Glu Arg íle Leu Ala Pro Leu Gly
225 230 235 240
Met Arg Asp Thr Asp Phe His Val Pro Ala Asp Lys Leu Ala Arg Phe
245 250 255
Ala Gly Cys Gly Tyr Phe Thr Asp Glu Gin Thr Gly Glu Lys Thr Arg
260 265 270
Met Asp Arg Asp Gly Ala Glu Ser Ala Tyr Ala Ser Pro Pro Ala Phe
275 280 285
Pro Ser Gly Ala Ala Gly Leu Val Ser Thr Val Asp Asp Tyr Leu Leu
290 295 300
Phe Ala Arg Met Leu Met Asn Gly Gly Val His Glu Gly Arg Arg Leu
305 310 315 320
Leu Ser Ala Ala Ser Val Arg Glu Met Thr Ala Asp His Leu Thr Pro
325 330 335
159
Ala Gin Lys Ala Ala Ser Ser Phe Phe Pro Gly Phe Phe Glu Thr His
340 345 350
Gly Trp Gly Tyr Gly Met Ala Val Val Thr Ala Pro Asp Ala Val Ser
355 360 365
Glu Val Pro Gly Arg Tyr Gly Trp Asp Gly Gly Phe Gly Thr Ser Trp
370 375 380
íle Asn Asp Pro Gly Arg Glu Leu íle Gly íle Val Met Thr Gin Ser
385 390 395 400
Ala Gly Phe Leu Phe Ser Gly Ala Leu Glu Arg Phe Trp Arg Ser Val
405 410 415
Tyr Val Ala Thr Glu Ser Ala
420 <210> 11 <211> 713 <212> PRT <213> Sorangium cellulosum <400> 11
Met His Gly Leu Thr Glu Arg Gin Val Leu Leu Ser Leu Val Thr Leu
1 5 10 15
Ala Leu íle Leu Val Thr Ala Arg Ala Ser Gly Glu Leu Ala Arg Arg
20 25 30
Leu Arg Gin Pro Glu Val Leu Gly Glu Leu Phe Gly Gly Val Val Leu
35 40 45
Gly Pro Ser Val Val Gly Ala Leu Ala Pro Gly Phe His Arg Ala Leu
50 55 60
Phe Gin Glu Pro Ala Val Gly Val Val Leu Ser Gly íle Ser Trp íle
65 70 75 80
Gly Ala Leu Leu Leu Leu Leu Met Ala Gly íle Glu Val Asp Val Gly
85 90 95
íle Leu Arg Lys Glu Ala Arg Pro Gly Ala Leu Ser Ala Leu Gly Ala
100 105 110
íle Ala Pro Pro Leu Ala Ala Gly Ala Ala Phe Ser Ala Leu Val Leu
115 120 125
Asp Arg Pro Leu Pro Ser Gly Leu Phe Leu Gly íle Val Leu Ser Val
130 135 140
Thr Ala Val Ser Val íle Ala Lys Val Leu íle Glu Arg Glu Ser Met
145 150 155 160
Arg Arg Ser Tyr Ala Gin Val Thr Leu Ala Ala Gly Val Val Ser Glu
165 170 175
Val Ala Ala Trp Val Leu Val Ala Met Thr Ser Ser Ser Tyr Gly Ala
180 185 190
160
Ser Pro Ala Leu Ala Val Ala Arg Ser Ala Leu Leu Ala Ser Gly Phe
195 200 205
Leu Leu Phe Met Val Leu Val Gly Arg Arg Leu Thr His Leu Ala Met
210 215 220
Arg Trp Val Ala Asp Ala Thr Arg Val Ser Lys Gly Gin Val Ser Leu
225 230 235 240
Val Leu Val Leu Thr Phe Leu Ala Ala Ala Leu Thr Gin Arg Leu Gly
245 250 255
Leu His Pro Leu Leu Gly Ala Phe Ala Leu Gly Val Leu Leu Asn Ser
260 265 270
Ala Pro Arg Thr Asn Arg Pro Leu Leu Asp Gly Val Gin Thr Leu Val
275 280 285
Ala Gly Leu Phe Ala Pro Val Phe Phe Val Leu Ala Gly Met Arg Val
290 295 300
Asp Val Ser Gin Leu Arg Thr Pro Ala Ala Trp Gly Thr Val Ala Leu
305 310 315 320
Leu Leu Ala Thr Ala Thr Ala Ala Lys Val Val Pro Ala Ala Leu Gly
325 330 335
Ala Arg Leu Gly Gly Leu Arg Gly Ser Glu Ala Ala Leu Val Ala Val
340 345 350
Gly Leu Asn Met Lys Gly Gly Thr Asp Leu íle Val Ala íle Val Gly
355 360 365
Val Glu Leu Gly Leu Leu Ser Asn Glu Ala Tyr Thr Met Tyr Ala Val
370 375 380
Val Ala Leu Val Thr Val Thr Ala Ser Pro Ala Leu Leu íle Trp Leu
385 390 395 400
Glu Lys Arg Ala Pro Pro Thr Gin Glu Glu Ser Ala Arg Leu Glu Arg
405 410 415
Glu Glu Ala Ala Arg Arg Ala Tyr íle Pro Gly Val Glu Arg íle Leu
420 425 430
Val Pro íle Val Ala His Ala Leu Pro Gly Phe Ala Thr Asp íle Val
435 440 445
Glu Ser íle Val Ala Ser Lys Arg Lys Leu Gly Glu Thr Val Asp íle
450 455 460
Thr Glu Leu Ser Val Glu Gin Gin Ala Pro Gly Pro Ser Arg Ala Ala
465 470 475 480
Gly Glu Ala Ser Arg Gly Leu Ala Arg Leu Gly Ala Arg Leu Arg Val
485 490 4 95
Gly íle Trp Arg Gin Arg Arg Glu Leu Arg Gly Ser íle Gin Ala íle
500 505 510
Leu Arg Ala Ser Arg Asp His Asp Leu Leu Val íle Gly Ala Arg Ser
515 520 525 ·· • ·
161
Pro Ala 530 Arg Ala Arg Gly Met Ser 535 Phe Gly Arg Leu Gin Asp 540 Ala íle
Val Gin Arg Ala Glu Ser Asn Val Leu Val Val Val Gly Asp Pro Pro
545 550 555 560
Ala Ala Glu Arg Ala Ser Ala Arg Arg íle Leu Val Pro íle íle Gly
565 570 575
Leu Glu Tyr Ser Phe Ala Ala Ala Asp Leu Ala Ala His Val Ala Leu
580 585 590
Ala Trp Asp Ala Glu Leu Val Leu Leu Ser Ser Ala Gin Thr Asp Pro
595 600 605
Gly Ala Val Val Trp Arg Asp Arg Glu Pro Ser Arg Val Arg Ala Val
610 615 620
Ala Arg Ser Val Val Asp Glu Ala Val Phe Arg Gly Arg Arg Leu Gly
625 630 635 640
Val Arg Val Ser Ser Arg Val His Val Gly Ala His Pro Ser Asp Glu
64 5 650 655
íle Thr Arg Glu Leu Ala Arg Ala Pro Tyr Asp Leu Leu Val Leu Gly
660 665 670
Cys Tyr Asp His Gly Pro Leu Gly Arg Leu Tyr Leu Gly Ser Thr Val
675 680 685
Glu Ser Val Val Val Arg Ser Arg Val Pro Val Ala Leu Leu Val Ala
690 695 700
His Gly Gly Thr Arg Glu Gin Val Arg
705 710 <210> 12 <211> 126 <212> PRT <213> Sorangium cellulosum <400> 12
Met Asp 1 Lys Pro íle Gly Arg Thr Arg Cys Ala íle Ala Glu Gly Tyr
5 10 15
íle Pro Gly Gly Ser Asn Gly Pro Glu Pro Gin Met Thr Ser His Glu
20 25 30
Thr Ala Cys Leu Leu Asn Ala Ser Asp Arg Asp Ala Gin Val Ala íle
35 40 45
Thr Val Tyr Phe Ser Asp Arg Asp Pro Ala Gly Pro Tyr Arg Val Thr
50 55 60
Val Pro Ala Arg Arg Thr Arg His Val Arg Phe Asn Asp Leu Thr Glu
65 70 75 80
Pro Glu Pro íle Pro Arg Asp Thr Asp Tyr Ala Ser Val íle Glu Ser
85 90 95
Asp Ala Pro íle Val Val Gin His Thr Arg Leu Asp Ser Arg Gin Ala
100 105 110
• · φφφ
162 v
φφ • ΦΦΦ φ φ
J φφ
Glu Asn Ala Leu 115 Leu Ser Thr íle Ala Tyr Thr Asp Arg Glu
120 125
<210> 13
<211> 149
<212> PRT
<213> Sorangium cellulosum
<400> 13
Met Lys His Val Asp Thr Gly Arg Arg Phe Gly Arg Arg íle Gly His
1 5 10 15
Thr Leu Gly Leu Leu Ala Ser Met Ala Leu Ala Gly Cys Gly Gly Pro
20 25 30
Ser Glu Lys Thr Val Gin Gly Thr Arg Leu Ala Pro Gly Ala Asp Ala
35 40 45
Arg Val Thr Ala Asp Val Asp Pro Asp Ala Ala Thr Thr Arg Leu Ala
50 55 60
Val Asp Val Val His Leu Ser Pro Pro Glu Arg Leu Glu Ala Gly Ser
65 70 75 80
Glu Arg Phe Val Val Trp Gin Arg Pro Ser Pro Glu Ser Pro Trp Arg
85 90 95
Arg Val Gly Val Leu Asp Tyr Asn Ala Asp Ser Arg Arg Gly Lys Leu
L00 105 110
Ala Glu Thr Thr Val Pro Tyr Ala Asn Phe Glu Leu Leu íle Thr Ala
115 120 125
Glu Lys Gin Ser Ser Pro Gin Ser Pro Ser Ser Ala Ala Val íle Gly
130 135 140
Pro Thr Ser Val Gly
145 <210> 14 <211> 184 <212> PRT <213> Sorangium cellulosum
<400> 14
Val 1 Thr Ser Glu Glu 5 Val Pro Gly Ala Ala 10 Leu Gly Ala Gin Ser Ser 15
Leu Val Arg Ala Gin His Ala Ala Arg His Val Arg Pro Cys Thr Arg
20 25 30
Ala Glu Glu Pro Pro Ala Leu Met His Gly Leu Thr Glu Arg Gin Val
35 40 45
Leu Leu Ser Leu Val Ala Leu Ala Leu Val Leu Leu Thr Ala Arg Ala
50 55 60
Phe Gly Glu Leu Ala Arg Arg Leu Arg Gin Pro Glu Val Leu Gly Glu
65 70 75 80
163 ·· ···· ·
·
Leu Phe Gly Gly Val Val Leu Gly Pro Ser Val Val Gly Ala Leu Ala
85 90 95
Pro Gly Phe His Arg Val Leu Phe Gin Asp Pro Ala Val Gly Val Val
100 105 110
Leu Ser Gly íle Ser Trp íle Gly Ala Leu Val Leu Leu Leu Met Ala
115 120 125
Gly íle Glu Val Asp Val Ser íle Leu Arg Lys Glu Ala Arg Pro Gly
130 135 140
Ala Leu Ser Ala Leu Gly Ala íle Ala Pro Pro Leu Arg Thr Pro Gly
145 150 155 160
Pro Leu Val Gin Arg Met Gin Gly Ala Phe Thr Trp Asp Leu Asp Val
165 170 175
Ser Pro Arg Arg Ser Ala Gin Ala
L80 <210> 15 <211> 145 <212> PRT <213> Sorangium cellulosum <400> 15
Val 1 Asn Ala Pro Cys Met Arg Cys Thr Ser Gly Pro Gly Val Arg Ser
5 10 15
Gly Gly Ala íle Ala Pro Ser Ala Glu Ser Ala Pro Gly Arg Ala Ser
20 25 30
Leu Arg Arg Met Leu Thr Ser Thr Ser íle Pro Ala Met Ser Ser Arg
35 40 45
Thr Ser Ala Pro íle Gin Glu Met Pro Glu Ser Thr Thr Pro Thr Ala
50 55 60
Gly Ser Trp Lys Arg Thr Arg Trp Asn Pro Gly Ala Ser Ala Pro Thr
65 70 75 80
Thr Asp Gly Pro Ser Thr Thr Pro Pro Lys Ser Ser Pro Ser Thr Ser
85 90 95
Gly Trp Arg Ser Arg Arg Ala Ser Ser Pro Lys Ala Arg Ala Val Arg
100 105 110
Arg Thr Ser Ala Arg Ala Thr Ser Glu Ser Arg Thr Cys Arg Ser Val
115 120 125
Arg Pro Cys íle Arg Ala Gly Gly Ser Ser Ala Arg Val Gin Gly Arg
130 135 140
Thr <210> 16 <211> 185 <212> PRT <213> Sorangium cellulosum
145
164 ···· ·· ·· ·· · • · · · · · · ·· ··· · · · 4· • · · · · · · *· • · · · · ·« ·· ·· ···· ·· ··· <400> 16
Val Leu Ala Pro Pro Ala Asp íle Arg Pro Pro Ala Ala Ala Gin Leu
1 5 10 15
Glu Pro Asp Ser Pro Asp Asp Glu Ala Asp Glu Ala Asp Glu Ala Leu
20 25 30
Arg Pro Phe Arg Asp Ala íle Ala Ala Tyr Ser Glu Ala Val Arg Trp
35 40 45
Ala Glu Ala Ala Gin Arg Pro Arg Leu Glu Ser Leu Val Arg Leu Ala
50 55 60
íle Val Arg Leu Gly Lys Ala Leu Asp Lys Val Pro Phe Ala His Thr
65 70 75 80
Thr Ala Gly Val Ser Gin íle Ala Gly Arg Leu Gin Asn Asp Ala Val
85 90 95
Trp Phe Asp Val Ala Ala Arg Tyr Ala Ser Phe Arg Ala Ala Thr Glu
100 105 110
His Ala Leu Arg Asp Ala Ala Ser Ala Met Glu Ala Leu Ala Ala Gly
115 120 125
Pro Tyr Arg Gly Ser Ser Arg Val Ser Ala Ala Val Gly Glu Phe Arg
130 135 140
Gly Glu Ala Ala Arg Leu His Pro Ala Asp Arg Val Pro Ala Ser Asp
145 150 155 160
Gin Gin íle Leu Thr Ala Leu Arg Ala Ala Glu Arg Ala Leu íle Ala
165 170 175
Leu Tyr Thr Ala Phe Ala Arg Glu Glu
180 185
<210> 17 <211> 146 <212> PRT <213> Sorangium cellulosum <400> 17
Met Ala Asp Ala Ala Ser Arg Ser Ala Cys Ser Val Ala Ala Arg Lys
1 5 10 15
Leu Ala Tyr Arg Ala Ala Thr Ser Asn Gin Thr Ala Ser Phe Trp Ser
20 25 30
Leu Pro Ala íle Trp Glu Thr Pro Ala Val Val Cys Ala Lys Gly Thr
35 40 45
Leu Ser Ser Ala Leu Pro Ser Arg Thr íle Ala Ser Arg Thr Arg Leu
50 55 60
Ser Ser Arg Gly Arg Cys Ala Ala Ser Ala His Arg Thr Ala Ser Glu
65 70 75 80
Tyr Ala Ala íle Ala Ser Arg Asn Gly Arg Ser Ala Ser Ser Ala Ser
85 90 95
• · • ·
165
Ser Ala Ser Ser Ser Gly Glu Ser Gly Ser Ser Trp Ala Ala Ala Gly
100 105 110
Gly Arg Met Ser Ala Gly Gly Ala Ser Thr Gly Glu Val Tyr Glu Gin
115 120 125
Ala Pro Arg Leu Arg Leu Ala Gin Ser Val Ala Ala Arg Arg Arg Asp
130 135 140
Pro Thr
145 <210> 18 <211> 288 <212> PRT <213> Sorangium cellulosum
<400> 18 Met Pro Arg Ser Trp Ser Ser Arg Val Arg Thr
Val 1 Thr Val Ser Ser 5
10 15
Val Val Thr Ala Leu Gly Cys Ala Arg Arg Leu Ser Gly Ser íle Ser
20 25 30
Arg Leu Arg Arg His Pro Glu Ala Gly Arg Ala Pro Arg Ser Arg Leu
35 40 45
Arg Ala Trp Arg Arg Leu Pro Gin His íle Ser Ser Pro Trp Arg His
50 55 60
Leu Pro Pro Gly Ala Arg Val Gly Thr Ser Cys Pro Ala Asp Arg Arg
65 70 75 80
íle Leu Pro Ser His Arg Thr Ala Asp Leu Gly Thr Ser Gly Gly Thr
85 90 95
Leu Val Ala Arg Met Ser Gly His Val Ala Arg Asn Pro His Ala Ala
100 105 110
Val Leu Val Gly Asp Gly Ser Ala Arg Gly Arg Arg Arg Leu Ser Asn
115 120 125
Arg Arg Ala Glu Arg Arg Val Ser Asp Val Thr Cys Arg Glu Gly Gly
130 135 140
Glu Ala Met Gin Lys íle Ala Gly Lys Leu Val Val Gly Leu íle Ser
145 150 155 160
Val Ser Gly Met Ser Leu Leu Ala Ala Cys Gly Gly Glu Lys Arg Ser
165 170 175
Gly Gly Glu Ala Gin Thr Pro Gly Gly Ala Gin Gly Glu Ala Pro Val
180 185 190
Pro Val Gly Ser Ala Val Asp Ser íle Val Ala Ala Arg Cys Asp Arg
195 200 205
Glu Ala Arg Cys Asn Asn íle Gly Gin Asp Arg Glu Tyr Ser Ser Lys
210 215 220
Asp Ala Cys Ser Asn Lys íle Arg Ser Glu Trp Arg Asp Glu Leu Thr
225 230 235 240
• B
166
Phe Gly Glu Cys Pro Gly Gly íle Asp Ala Lys Gin Leu Asn Glu Cys
245 250 255
Leu Glu Gly íle Arg Asn Glu Gly Cys Gly Asn Pro Phe Asp Thr Leu
260 265 270
Gly Arg Val Val Ala Cys Arg Ser Ser Asp Leu Cys Arg Asp Ala Arg
275 280 285 <210> 19 <211> 288 <212> PRT <213> Sorangium cellulosum
<400> 19 Met Pro Arg Ser Trp Ser Ser Arg Val Arg Thr
Val 1 Thr Val Ser Ser 5
10 15
Val Val Thr Ala Leu Gly Cys Ala Arg Arg Leu Ser Gly Ser íle Ser
20 25 30
Arg Leu Arg Arg His Pro Glu Ala Gly Arg Ala Pro Arg Ser Arg Leu
35 40 45
Arg Ala Trp Arg Arg Leu Pro Gin His íle Ser Ser Pro Trp Arg His
50 55 60
Leu Pro Pro Gly Ala Arg Val Gly Thr Ser Cys Pro Ala Asp Arg Arg
65 70 75 80
íle Leu Pro Ser His Arg Thr Ala Asp Leu Gly Thr Ser Gly Gly Thr
85 90 95
Leu Val Ala Arg Met Ser Gly His Val Ala Arg Asn Pro His Ala Ala
100 105 110
Val Leu Val Gly Asp Gly Ser Ala Arg Gly Arg Arg Arg Leu Ser Asn
115 120 125
Arg Arg Ala Glu Arg Arg Val Ser Asp Val Thr Cys Arg Glu Gly Gly
130 135 140
Glu Ala Met Gin Lys íle Ala Gly Lys Leu Val Val Gly Leu íle Ser
145 150 155 160
Val Ser Gly Met Ser Leu Leu Ala Ala Cys Gly Gly Glu Lys Arg Ser
165 170 175
Gly Gly Glu Ala Gin Thr Pro Gly Gly Ala Gin Gly Glu Ala Pro Val
180 185 190
Pro Val Gly Ser Ala Val Asp Ser íle Val Ala Ala Arg Cys Asp Arg
195 200 205
Glu Ala Arg Cys Asn Asn íle Gly Gin Asp Arg Glu Tyr Ser Ser Lys
210 215 220
Asp Ala Cys Ser Asn Lys íle Arg Ser Glu Trp Arg Asp Glu Leu Thr
225 230 235 240
167
Phe Gly Glu Cys Pro 245 Gly Gly íle Asp Ala 250 Lys Gin Leu Asn Glu 255 Cys
Leu Glu Gly íle 260 Arg Asn Glu Gly Cys 265 Gly Asn Pro Phe Asp 270 Thr Leu
Gly Arg Val 275 Val Ala Cys Arg Ser 280 Ser Asp Leu Cys Arg 285 Asp Ala Arg
<210> 20 <211> 155 <212> PRT <213> Sorangium cellulosum
<400> 20 Arg Arg Glu Lys Arg Pro Ser Leu Leu Asp Ser
Met Asp 1 Pro Arg Ala 5
10 15
Arg Gly Arg Gin Pro Lys Arg Ser Gin Gin Gly Gly His Met Glu Lys
20 25 30
Pro íle Gly Arg Thr Arg Trp Ala íle Ala Glu Gly Tyr íle Pro Gly
35 40 45
Arg Ser Asn Gly Pro Glu Pro Gin Met Thr Ser His Glu Thr Ala Cys
50 55 60
Leu Leu Asn Ala Ser Asp Arg Asp Ala Gin Val Ala íle Thr Val Tyr
65 70 75 80
Phe Ser Asp Arg Asp Pro Ala Gly Pro Tyr Arg Val Thr Val Pro Ala
85 90 95
Arg Arg Thr Arg His Val Arg Phe Asn Asp Leu Thr Glu Pro Glu Pro
100 105 110
íle Pro Arg Asp Thr Asp Tyr Ala Ser Val íle Glu Ser Asp Val Pro
115 120 125
íle Val Val Gin His Thr Arg Leu Asp Ser Arg Gin Ala Glu Asn Ala
130 135 140
Leu íle Ser Thr íle Ala Tyr Thr Asp Arg Glu
145 150 155
<210> 21 <211> 156 <212> PRT <213> Sorangium cellulosum <400> 21
Val Arg Arg Ser Arg Trp Gin Met Lys His Val Asp Thr Gly Arg Arg
1 5 10 15
Val Gly Arg Arg íle Gly Leu Thr Leu Gly Leu Leu Ala Ser Met Ala
20 25 30
Leu Ala Gly Cys Gly Gly Pro Ser Glu Lys íle Val Gin Gly Thr Arg
35 40 45
• · • B ·
ΒΒΒ • B • e
168 • · e 9 •
• ••B •
B • B
Leu Ala 50 Pro Gly Ala Asp Ala His Val Ala Ala Asp Val Asp Pro Asp
55 60
Ala Ala Thr Thr Arg Leu Ala Val Asp Val Val His Leu Ser Pro Pro
65 70 75 80
Glu Arg íle Glu Ala Gly Ser Glu Arg Phe Val Val Trp Gin Arg Pro
85 90 95
Ser Ser Glu Ser Pro Trp Gin Arg Val Gly Val Leu Asp Tyr Asn Ala
100 105 110
Ala Ser Arg Arg Gly Lys Leu Ala Glu Thr Thr Val Pro His Ala Asn
115 120 125
Phe Glu Leu Leu íle Thr Val Glu Lys Gin Ser Ser Pro Gin Ser Pro
130 135 140
Ser Ser Ala Ala Val íle Gly Pro Thr Ser Val Gly
145 150 155 <210> 22 <211> 305 <212> PRT <213> Sorangium cellulosum
<400> 22
Met 1 Glu Lys Glu Ser Arg íle Ala 5 íle Tyr 10 Gly Ala íle Ala Ala Asn 15
Val Ala íle Ala Ala Val Lys Phe íle Ala Ala Ala Val Thr Gly Ser
20 25 30
Ser Ala Met Leu Ser Glu Gly Val His Ser Leu Val Asp Thr Ala Asp
35 40 45
Gly Leu Leu Leu Leu Leu Gly Lys His Arg Ser Ala Arg Pro Pro Asp
50 55 60
Ala Glu His Pro Phe Gly His Gly Lys Glu Leu Tyr Phe Trp Thr Leu
65 70 75 80
íle Val Ala íle Met íle Phe Ala Ala Gly Gly Gly Val Ser íle Tyr
85 90 95
Glu Gly íle Leu His Leu Leu His Pro Arg Gin íle Glu Asp Pro Thr
100 105 110
Trp Asn Tyr Val Val Leu Gly Ala Ala Ala Val Phe Glu Gly Thr Ser
115 120 125
Leu íle íle Ser íle His Glu Phe Lys Lys Lys Asp Gly Gin Gly Tyr
130 135 140
Leu Ala Ala Met Arg Ser Ser Lys Asp Pro Thr Thr Phe Thr íle Val
145 150 155 160
Leu Glu Asp Ser Ala Ala Leu Ala Gly Leu Thr íle Ala Phe Leu Gly
165 170 175
Val Trp Leu Gly His Arg Leu Gly Asn Pro Tyr Leu Asp Gly Ala Ala
180 185 190
• · 9 ·
999
169 • · ·· ··
9999
Ser íle Gly íle Gly Leu Val Leu Ala Ala Val Ala Val Phe Leu Ala
195 200 205
Ser Gin Ser Arg Gly Leu Leu Val Gly Glu Ser Ala Asp Arg Glu Leu
210 215 220
Leu Ala Ala íle Arg Ala Leu Ala Ser Ala Asp Pro Gly Val Ser Ala
225 230 235 240
Val Gly Arg Pro Leu Thr Met His Phe Gly Pro His Glu Val Leu Val
245 250 255
Val Leu Arg íle Glu Phe Asp Ala Ala Leu Thr Ala Ser Gly Val Ala
260 265 270
Glu Ala íle Glu Arg íle Glu Thr Arg íle Arg Ser Glu Arg Pro Asp
275 280 285
Val Lys His íle Tyr Val Glu Ala Arg Ser Leu His Gin Arg Ala Arg
290 295 300
Ala
305 <210> 23 <211> 135 <212> PRT <213> Sorangium cellulosum <400> 23
Val Gin Thr 1 Ser Ser Phe Asp Ala 5 Arg Tyr Ala Gly Cys Lys Ser Ser
10 15
Arg Arg íle Ala Arg Ser Gly Ser Ala Gly Ala Arg Ala Gly Arg Ala
20 25 30
His Glu Gly Ala Ala Ser Ala Gly Phe Glu Gly Gly Asp Val Met Arg
35 40 45
Lys Ala Arg Ala His Gly Ala Met Leu Gly Gly Arg Asp Asp Gly Trp
50 55 60
Arg Arg Gly Leu Pro Gly Ala Gly Ala Leu Arg Ala Ala Leu Gin Arg
65 70 75 80
Gly Arg Ser Arg Asp Leu Ala Arg Arg Arg Leu íle Ala Ser Val Ser
85 90 95
Leu Ala Gly Gly Ala Ser Met Ala Val Val Ser Leu Phe Gin Leu Gly
100 105 110
íle íle Glu Arg Leu Pro Asp Pro Pro Leu Pro Gly Phe Asp Ser Ala
115 120 125
Lys Val Thr Ser Ser Asp íle
130 135
<210> 24 <211> 19 <212> DNA
170 • ···· ·· 9999 ·· · · · · · Λ 9·
999 9 9999 • 9 · · · 9 9 99
9 9 9 9 99
999 999 99 9999 99· <213> Syntetická sekvencia <220>
<223> Opis syntetickej sekvencie: univerzálny reverzný primár <400> 24 ggaaacagct atgaccatg <210> 25 <211> 17 <212> DNA <213> Syntetická sekvencia <220>
<223> Opis syntetickej sekvencie: univerzálny priamy primár <400> 25 gtaaaacgac ggccagt 17 <210> 26 <211> 28 <212> DNA <213> Syntetická sekvencia <220>
<223> Opis syntetickej sekvencie: NH24 koniec B PCR primár
<400> 26
gtgactggcg cctggaatct gcatgagc 28
<210> 27
<211> 28
<212> DNA
<213> Syntetická sekvencia
<220> <223> Opis syntetickej sekvencie: koniec A PCR primár NH2
<400> 27
agcgggagct tgctagacat tctgtttc 28
<210> 28
<211> 24
<212> DNA
<213> Syntetická sekvencia
<220> <223> Opis syntetickej sekvencie: koniec B PCR primár NH2
<400> 28
gacgcgcctc gggcagcgcc ccaa 24
<210> 29 <211> 25 <212> DNA <213> Syntetická sekvencia
171 ···· <220>
<223> Opis syntetickej sekvencie: PCR primér pEPO15-NH6 koniec B <400> 29 caccgaagcg tcgatctggt ccatc <210> 30 <211> 25 <212> DNA <213> Syntetická sekvencia <220>
<223> Opis syntetickej sekvencie: PCR primér pEPO15H2.7 koniec A <400> 30 cggtcagatc gacgacgggc tttcc • · ···· ···
172 ·· •· •· •· ·· ····

Claims (9)

1. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu.
2. Izolovaná molekula nukleovej kyseliny podlá nároku 1, pričom nukleotidová sekvencia je izolovaná z myxobaktérie.
3. Izolovaná molekula nukleovej kyseliny podľa nároku 2, pričom myxobaktéria je Sorangium cellulosum.
4. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 1.
5.
Rekombinantný vektor obsahujúci chimérický gén podľa nároku
4.
6. Rekombinantná podľa nároku 4. hostiteľská bunka obsahujúca chimérický gén 7. Rekombinantná baktéria. hostiteľská bunka podľa nároku 6, ktorou je 8. Rekombinantná aktinomycéta. hostiteľská bunka podľa nároku 7, ktorou je 9. Rekombinantná hostiteľská bunka podľa nároku 8, ktorou je
Streptomyces.
10. Kloň Bac obsahujúci molekulu nukleovej kyseliny podľa ···· ···
173
11. Kloň Bac podľa nároku 10, ktorým je pEPO15.
·· ·· • · · · • · · • · · ·· ···· • · •· •· •· ·· nároku 1.
12. Izolovaná molekula nukleovej kyseliny podľa nároku 1, pričom poplypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO: 2, aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 13141385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 12851297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 8691037 sekvencie SEQ ID NO: 4, aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, amino174 ·· • ···· ·· · ··· · · · · · · • ··· · · · · · • · · · · · ·· ···· ·· kyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 23832551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO: 7, aminokyseliny 556877 sekvencie SEQ ID NO: 7, aminokyseliny 887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.
13. Izolovaná molekula nukleovej kyseliny podlá nároku 12, pričom polypeptid obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO: 2, aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, amino···· ···
175 ·· ·· • · · • · • · · ·· ···· • · ·· · kyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 9731256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434— 1506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO:
6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO:
7, aminokyseliny 556-877 sekvencie SEQ ID NO: 7, aminokyseliny • ···· ·· ·· ·· ··· · · · · ··· • ··· · · · · ·
176 • · · · · · · ·· ···· ·· ···
887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO:
8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.
14. Izolovaná molekula nukleovej pričom nukleotidová sekvencia kyseliny podľa nároku 12, je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej:
komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ
ID NO: 1, nukleotidy
3415-5556 sekvencie
SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 76438920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872
16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie
SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, • ···· ·· ·· ·· ··· 9 9 9 9 9 9 9
9 999 99 999
177
9 9 9 9 99 9999 99 9 nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.
15. Izolovaná molekula nukleovej kyseliny podľa nároku 12, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej:
komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ
ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643···· ··· ···· · · · • ··· · · · · ·
Τ78 · ···· · · · · ·*· ' ° ····· ·· ··· ··· ·· ···· ·· ·
8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1,
179 ···· ·· ·· ·· • · · · · · · ··· · · · · · *·· · · · · · • · · · · · • •β ·· ···· ·· nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.
16. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 12.
17. Rekombinantný vektor obsahujúci chimérický gén podľa nároku 16.
18.
Rekombinantné hostiteľská bunka obsahujúca chimérický gén podľa nároku 16.
19.
Rekombinantné hostiteľská bunka podľa nároku 18, ktorou je baktéria.
20. Rekombinantné hostiteľská bunka podľa nároku 19, ktorou je aktinomycéta.
• ···· «· ·· ·· ··· ···· · · · • ··· · · * · ·
180 • · · · · · · ·· ··♦· ·· ···
21. Rekombinantná hostiteľská bunka podľa nároku 20, ktorou je Streptomyces.
22. Izolovaná molekula nukleovej kyseliny podľa nároku 1, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 34155556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1052911428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 1222312246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 1363313680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 1457814607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 1478815639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2174643519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1,
181 ···· ··· ·· ·· •· · •· •· · •· · ·· ···· ·· • · · • · • · • · ·· β nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 3053930759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 5067051176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekver.cie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 5493562254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 5936660304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 6236963628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.
23. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 22.
24. Rekombinantný vektor obsahujúci chimérický gén podľa nároku
23.
···· ·· ·· • ···· ··· ··
182 9 9 9 • • v • · Λ Λ Λ • · · * a λ λ 25. Rekombinantná podía nároku 23. hostiteiská bunka obsahujúca chimérický gén 26. Rekombinantná baktéria. hostiteiská bunka podlá nároku 25, ktorou je 27. Rekombinantná aktinomycéta. hostiteiská bunka podía nároku 26, ktorou je 28. Rekombinantná hostiteiská bunka podlá nároku 27, ktorou je
Streptomyces.
29. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu, ktorá kóduje aspoň jednu doménu epothilonsyntázy.
30. Izolovaná molekula nukleovej kyseliny podía nároku 29, pričom doména epothilonsyntázy je β-ketoacylsyntázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 51035525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO:6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
31. Izolovaná molekula nukleovej kyseliny podía nároku 30, pričom β-ketoacylsyntázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024
183 ···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · ··· ·· ···· ·· ·
3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
32. Izolovaná molekula nukleovej kyseliny podía nároku 30, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
33. Izolovaná molekula nukleovej kyseliny podľa nároku 30, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2631827595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087— 49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
34. Izolovaná molekula nukleovej kyseliny podľa nároku 30, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, ···· ·· ·· ·· • ···· ··· φφφ φ · · · ·
184 • · · φ φ · φφ φφφφ ·· φ nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.
35. Izolovaná molekula nukleovej kyseliny podlá nároku 29, pričom acyltransferázová doména obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
36. Izolovaná molekula nukleovej kyseliny podlá nároku 35, pričom acyltransferázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
37. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1,
185 ···· ·· ·· ·· • · · · · · · ··· · · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
38. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID N0:l, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
39. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.
40. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je enoylreduktázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 • ·
186 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ
ID NO: 7.
41. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom enoylreduktázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.
42. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
43. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1052911428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
44. Izolovaná molekula nukleovej kyseliny podľa nároku 40, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.
45. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je doména proteínového prenášača
187 ···· ·· ·· ·· • · · · · ··· ··· · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· · acylovej skupiny, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 36733745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
46. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom doména proteínového prenášača acylovej skupiny obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 14301503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
47. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom nukleotidové sekvencia je v podstate podobná nukleotidovéj sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 2141421626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.
48. Izolovaná molekula nukleovej kyseliny podlá nároku 45, kde ···· ·· ·· 99 • · · · · · · ··· · · 9 9 ·
188 nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 4781148032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.
49. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 2141421626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.
50. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je dehydratázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.
51. Izolovaná molekula nukleovej kyseliny podľa nároku 50, pričom dehydratázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, • ···· ·· ·· ·· ·· · ···· ··· • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ·
189 aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny
2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.
52. Izolovaná molekula nukleovej pričom nukleotidová sekvencia nukleotidovéj sekvencii vybranej nukleotidy 18855-19361 sekvencie SEQ 33889 sekvencie SEQ ID NO: 1, kyseliny podlá nároku 50, je v podstate podobná zo skupiny obsahujúcej:
ID NO: 1, nukleotidy 33401nukleotidy 39635-40141 sekvencie
SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
53. Izolcvaná molekula nukleovej kyseliny podlá nároku 50, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1885519361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
54. Izolovaná molekula nukleovej kyseliny podľa nároku 50, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 3340133889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.
55. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je β-ketoreduktázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny • · • ·
190
1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
56. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom β-ketoreduktázová doména obsahuje aminokyselinová sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
57. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom nukleotidové sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 2518425942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
58. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 2967830429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie
191 ···· ·· ·· ·· • · · · · · · ··· · · · · · • · · · · · ··· ·· ···· ··
SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
59. Izolovaná molekula nukleovej kyseliny podía nároku 55, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184— 25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.
60. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je metyltransferázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2671-3045 sekvencie SEQ ID NO: 6.
61. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom metyltransferázová doména obsahuje aminokyseliny 26713045 sekvencie SEQ ID NO: 6.
62. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom nukleotidová sekvencia je v podstate podobná nukleotidom 51534-52657 sekvencie SEQ ID NO: 1.
63. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidov 5153452657 sekvencie SEQ ID NO:1.
64. Izolovaná molekula nukleovej kyseliny podľa nároku 60, ··
192 pričom nukleotidovou sekvenciou sú 51534-52657 sekvencie SEQ ID
NO: 1.
65. Izolovaná molekula nukleovej kyseliny podía nároku 29, pričom doménou epothilonsyntázy je tioesterázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7.
66. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom tioesterázová doména obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7.
67. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidová sekvencia je v podstate podobná nukleotidom 61427-62254 sekvencie SEQ ID NO: 1.
68. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidov 6142762254 sekvencie SEQ ID NO: 1.
69.
Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidovou sekvenciou sú nukleotidy
61427-62254 sekvencie SEQ ID NO: 1.
70. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu kódujúcu neribozómovú peptidsyntetázu, pričom neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549
193
565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.
71. Izolovaná molekula nukleovej kyseliny podía nároku 70, pričom neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.
72. Izolovaná molekula nukleovej kyseliny podľa nároku 70, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, • ·
194 nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie
SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 1572415762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie
SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
73. Izolovaná molekula nukleovej kyseliny podía nároku 70, pričom nukleotidové sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
74. Izolovaná molekula nukleovej kyseliny podľa nároku 70, pričom nukleotidové sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie • ···· ·· ·· ·· ··· ···· ··· • ··· · · · · ·
195
SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 1572415762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.
75. Spôsob heterológnej expresie epothilonu v rekombinantnom hostitelovi, vyznačujúci sa tým, že obsahuje kroky:
a) vnesenie chimérického génu podlá nároku 4 do hostiteľa, a
b) rast hostiteľa v podmienkach, ktoré umožňujú biosyntézu epothilonu v hostitelovi.
76. Spôsob prípravy epothilonu, vyznačujúci sa tým, že obsahuje kroky:
a) expresiu epothilonu v rekombinantnom hostitelovi spôsobom podľa náreku 75, a
b) extrakciu epothilonu z rekombinantného hostiteľa.
77. Izolovaný polypeptid obsahujúci aminokyselinovú sekvenciu, ktorá tvorí epothilonsyntázovú doménu.
78. Izolovaný polypeptid podlá nároku 77, pričom epothilonsyntázovou doménou je β-ketoacylsyntázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
• ···· ·· ·· ·· ··· ···· · · · • ··· · · · · ·
196 • · · · · · · ·· ···· ·· ···
79. Izolovaný polypeptid podlá nároku 78, pričom β-ketoacylsyntázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.
80. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je acyltransferázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
81. Izolovaný polypeptid podľa nároku 80, pričom acyltransdoména obsahuje aminokyselinovú sekvenciu vybranú obsahujúcej: aminokyseliny ferázová skupiny
NO: 2, aminokyseliny 543-864 sekvencie SEQ sekvencie SEQ ID NO:
539-859 zo
ID
4, aminokyseliny 563-884
2056-2377 sekvencie sekvencie
SEQ ID NO:
SEQ
ID NO: 5, aminokyseliny
5, aminokyseliny 3555-3876 sekvencie SEQ ID NO:
aminokyseliny
5631-5951 sekvencie SEQ ID
561-881 sekvencie SEQ ID NO: 6, aminokyseNO: 5, aminokyseliny liny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.
82. Izolovaný polypeptid podľa nároku 77, pričom epothilon···· ·· ·· ·· • · · · · · · · ··· · · 9 9 9
9 9 9 9 9 9
999 99 9999 99 ·
197 syntázovou doménou je enoylreduktázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 9741273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO:
7.
83. Izolovaný polypeptid podľa nároku reduktázová doména obsahuje aminokyselinovú skupiny obsahujúcej:
NO: 2, aminokyseliny aminokyseliny 6542-6837 1478-1790 sekvencie SEQ
82, pričom enoylsekvenciu vybranú aminokyseliny 974-1273 sekvencie SEQ 4433-4719 sekvencie SEQ ID NO:
zo
ID
5, sekvencie SEQ ID NO: 5 a aminokyseliny
ID NO: 7.
84. Izolovaný pclypetid podľa nároku 77, syntázovou doménou je doména proteínového skupiny obsahujúca aminokyselinovú sekvenciu aminokyselinovéj sekvencii vybranej aminokyseliny 1314-1385 sekvencie SEQ 1722-1792 sekvencie
SEQ ID NO: 4, sekvencie SEQ ID NO:
NO: 5, aminokyseliny kyseliny 7140-7211 sekvencie SEQ ID NO:
1503 sekvencie pričom epothilonprenášača acylovej v podstate podobnú zo skupiny obsahujúcej: ID NO: 2, aminokyseliny aminokyseliny 1434-1506
5, aminokyseliny 2932-3005 sekvencie SEQ ID 5010-5082 sekvencie SEQ ID NO: 5, aminoSEQ ID NO: 6 a
5, aminokyseliny 1430—
SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.
85. Izolovaný podľa nároku 84, pričom doména acylovej skupiny obsahuje aminokyselinovú skupiny obsahujúcej: aminokyseliny 1314NO: 2, aminokyseliny 1722-1792 sekvencie
SEQ ID NO: 4, aminokyseliny 1434-1506 aminokyseliny 2932-3005 sekvencie SEQ 5010-5082 sekvencie SEQ ID NO: 5, polypeptid proteínového prenášača sekvenciu vybranú zo 1385 sekvencie SEQ ID sekvencie SEQ ID NO: 5,
ID NO: 5, aminokyseliny aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID
198 ···· ··· ·· ·· • · · · • · · • · · ·· ···« ·· • · · *· • ·· •· ·· ·
NO: 6, aminokyseliny 3673-3745 aminokyseliny 2093-2164 sekvencie sekvencie SEQ
SEQ ID NO: 7.
ID
NO:
nároku 77, pričom doména epothilonobsahujúca podľa dehydratázová v podstate podobnú aminokyselinovej aminokyseliny 86986. Izolovaný polypeptid syntázovou doménou je aminokyselinovú sekvenciu sekvencii vybranej zo skupiny obsahujúcej: 1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 aminokyseliny 2383-2551 sekvencie SEQ 887-1051 sekvencie SEQ ID NO: 7.
sekvencie SEQ ID NO: 5,
ID NO: 6 a aminokyseliny
87. Izolovaný polypeptid podľa nároku 86, pričom dehydratázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.
88. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je β-ketoreduktázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
89. Izolovaný polypeptid podľa nároku 88, pričom β-ketoreduktázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID
199 • ···· ·· ·· ·· ··· ···· · · · • ··· · · · · · • · · · · · · · · • · · · · · · ··· ··· ·· ···· ·· ·
NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.
90. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je metyltransferázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2671-3045 sekvencie SEQ ID NO: 6.
91. Izolovaný polypeptid podľa nároku 90, pričom metyltransferázová doména obsahuje aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6.
92. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je tioesterázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7.
93. Izolovaný polypeptid podľa nároku 77, pričom tioesterázová doména obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7.
SK1924-2000A 1998-06-18 1999-06-16 Izolovaná molekula nukleovej kyseliny kódujúca polypeptid zúčastňujúci sa biosyntézy epotilónov, chimérický gén, rekombinantný vektor a rekombinantná hostiteľská bunka obsahujúce túto nukleovú kyselinu, spôsob prípravy epotilónu a izolovaný polypeptid obsahujúci epotilónsyntázovú doménu SK19242000A3 (sk)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US9950498A 1998-06-18 1998-06-18
US10163198P 1998-09-24 1998-09-24
US11890699P 1999-02-05 1999-02-05
PCT/EP1999/004171 WO1999066028A2 (en) 1998-06-18 1999-06-16 Genes for the biosynthesis of epothilones

Publications (1)

Publication Number Publication Date
SK19242000A3 true SK19242000A3 (sk) 2001-07-10

Family

ID=27378840

Family Applications (1)

Application Number Title Priority Date Filing Date
SK1924-2000A SK19242000A3 (sk) 1998-06-18 1999-06-16 Izolovaná molekula nukleovej kyseliny kódujúca polypeptid zúčastňujúci sa biosyntézy epotilónov, chimérický gén, rekombinantný vektor a rekombinantná hostiteľská bunka obsahujúce túto nukleovú kyselinu, spôsob prípravy epotilónu a izolovaný polypeptid obsahujúci epotilónsyntázovú doménu

Country Status (16)

Country Link
EP (1) EP1088078A2 (sk)
JP (3) JP2002518004A (sk)
KR (1) KR100511233B1 (sk)
CN (1) CN100374565C (sk)
AU (1) AU753567B2 (sk)
BR (1) BR9911349A (sk)
CA (1) CA2329774A1 (sk)
HU (1) HUP0102186A3 (sk)
ID (1) ID29128A (sk)
IL (3) IL139735A0 (sk)
NO (2) NO20006195L (sk)
NZ (1) NZ508326A (sk)
PL (1) PL200157B1 (sk)
SK (1) SK19242000A3 (sk)
TR (1) TR200003759T2 (sk)
WO (1) WO1999066028A2 (sk)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69734362T2 (de) 1996-12-03 2006-07-20 Sloan-Kettering Institute For Cancer Research Synthese von epothilonen, zwischenprodukte dazu, analoga und verwendungen davon
FR2775187B1 (fr) 1998-02-25 2003-02-21 Novartis Ag Utilisation de l'epothilone b pour la fabrication d'une preparation pharmaceutique antiproliferative et d'une composition comprenant l'epothilone b comme agent antiproliferatif in vivo
DE19846493A1 (de) * 1998-10-09 2000-04-13 Biotechnolog Forschung Gmbh DNA-Sequenzen für die enzymatische Synthese von Polyketid- oder Heteropolyketidverbindungen
US6410301B1 (en) 1998-11-20 2002-06-25 Kosan Biosciences, Inc. Myxococcus host cells for the production of epothilones
NZ511722A (en) * 1998-11-20 2004-05-28 Kosan Biosciences Inc Recombinant methods and materials for producing epothilone and epothilone derivatives
WO2001053533A2 (en) * 2000-01-21 2001-07-26 Kosan Biosciences, Inc. Method for cloning polyketide synthase genes
KR20070092334A (ko) * 2000-04-28 2007-09-12 코산 바이오사이언시즈, 인코포레이티드 폴리케타이드의 제조방법
US6998256B2 (en) 2000-04-28 2006-02-14 Kosan Biosciences, Inc. Methods of obtaining epothilone D using crystallization and /or by the culture of cells in the presence of methyl oleate
JP2005500974A (ja) 2000-10-13 2005-01-13 ザ ユニバーシテイ オブ ミシシッピー エポシロン類及び関連類似体の合成
US7257562B2 (en) 2000-10-13 2007-08-14 Thallion Pharmaceuticals Inc. High throughput method for discovery of gene clusters
DK1483251T3 (da) 2002-03-12 2010-04-12 Bristol Myers Squibb Co C3-cyano-epothilon-derivater
CA2595594C (en) * 2005-01-31 2012-05-01 Merck & Co., Inc. Upstream and a downstream purification process for large scale production of plasmid dna
WO2012103516A1 (en) 2011-01-28 2012-08-02 Amyris, Inc. Gel-encapsulated microcolony screening
SG194785A1 (en) 2011-05-13 2013-12-30 Amyris Inc Methods and compositions for detecting microbial production of water-immiscible compounds
BR112015002724B1 (pt) 2012-08-07 2022-02-01 Total Marketing Services Método para produzir um composto não catabólico heterólogo, e, composição de fermentação
EP2971027B1 (en) 2013-03-15 2019-01-30 Amyris, Inc. Use of phosphoketolase and phosphotransacetylase for production of acetyl-coenzyme a derived compounds
BR112016002526B1 (pt) 2013-08-07 2021-11-23 Total Marketing Services Método para produção de um composto heterólogo não catabólico, e, composição de fermentação
WO2016210350A1 (en) 2015-06-25 2016-12-29 Amyris, Inc. Maltose dependent degrons, maltose-responsive promoters, stabilization constructs, and their use in production of non-catabolic compounds
CN106916834B (zh) * 2015-12-24 2022-08-05 武汉合生科技有限公司 化合物的生物合成基因簇及其应用
CN111138444B (zh) * 2020-01-08 2022-05-03 山东大学 一组埃博霉素b葡萄糖苷类化合物及其酶法制备与应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HU229833B1 (en) * 1996-11-18 2014-09-29 Biotechnolog Forschung Gmbh Epothilone d production process, and its use as cytostatic as well as phytosanitary agents

Also Published As

Publication number Publication date
BR9911349A (pt) 2001-03-13
JP2006061166A (ja) 2006-03-09
WO1999066028A2 (en) 1999-12-23
EP1088078A2 (en) 2001-04-04
IL139735A (en) 2009-06-15
NO20006195L (no) 2001-02-16
KR20010052962A (ko) 2001-06-25
IL190391A0 (en) 2008-11-03
WO1999066028A3 (en) 2000-06-29
HUP0102186A2 (hu) 2001-10-28
JP2008092958A (ja) 2008-04-24
NZ508326A (en) 2003-10-31
HUP0102186A3 (en) 2005-10-28
ID29128A (id) 2001-08-02
NO20091055L (no) 2001-02-16
NO20006195D0 (no) 2000-12-06
CA2329774A1 (en) 1999-12-23
PL345579A1 (en) 2001-12-17
KR100511233B1 (ko) 2005-08-31
JP2002518004A (ja) 2002-06-25
AU753567B2 (en) 2002-10-24
PL200157B1 (pl) 2008-12-31
IL139735A0 (en) 2002-02-10
CN100374565C (zh) 2008-03-12
TR200003759T2 (tr) 2001-06-21
CN1305530A (zh) 2001-07-25
AU4611699A (en) 2000-01-05

Similar Documents

Publication Publication Date Title
US6355458B1 (en) Genes for the biosynthesis of epothilones
KR100511233B1 (ko) 에포틸론 생합성 유전자
AU753546B2 (en) Epothilone C, D, E and F, production process, and their use as cytostatic as well as phytosanitary agents
US7172884B2 (en) Methods for the preparation, isolation and purification of epothilone B, and x-ray crystal structures of epothilone B
IL138241A (en) Biosynthetic genes for the production of the insecticide Spinosine
KR20100049580A (ko) 티오펩티드 전구체 단백질, 그를 코딩하는 유전자 및 그의 용도
CN100374566C (zh) 用于epothilone生物合成的基因
CZ20004693A3 (cs) Izolovaná nukleová kyselina kódující polypeptid účastnící se biosyntézy epothilonu, chimérický gen, vektor a hostitelské buňky obsahující tuto nukleovou kyselinu
TWI770070B (zh) 經修飾之抗真菌鏈黴菌(streptomyces fungicidicus)分離株及其用途
MXPA00012342A (en) Genes for the biosynthesis of epothilones
AU779756B2 (en) Streptomyces avermitilis gene directing the ratio of B2:B1 avermectins
RU2265054C2 (ru) Рекомбинантная клетка-хозяин (варианты) и клон вас
RU2234532C2 (ru) Нуклеиновая кислота (варианты), ее использование для экспрессии эпотилонов, полипептид (варианты), клон бактерий е.coli
CN100359014C (zh) 一类新型埃坡霉素化合物及其制备方法和用途
CN1031948C (zh) 抗生素ge2270的制备方法
RU2773311C2 (ru) Модифицированные изоляты streptomyces fungicidicus и их применение
CZ279196B6 (cs) Protinádorové antibiotikum kedarcidin

Legal Events

Date Code Title Description
FC9A Refused patent application