SK19242000A3

SK19242000A3 - Izolovaná molekula nukleovej kyseliny kódujúca polypeptid zúčastňujúci sa biosyntézy epotilónov, chimérický gén, rekombinantný vektor a rekombinantná hostiteľská bunka obsahujúce túto nukleovú kyselinu, spôsob prípravy epotilónu a izolovaný polypeptid obsahujúci epotilónsyntázovú doménu

Info

Publication number: SK19242000A3
Application number: SK1924-2000A
Authority: SK
Inventors: Thomas Schupp; James Madison Ligon; Istvan Molnar; Ross Zirkle; J�Rn G�Rlach; Devon Cyr
Original assignee: Novartis Ag
Priority date: 1998-06-18
Filing date: 1999-06-16
Publication date: 2001-07-10
Also published as: BR9911349A; JP2006061166A; WO1999066028A2; EP1088078A2; IL139735A; NO20006195L; KR20010052962A; IL190391A0; WO1999066028A3; HUP0102186A2; JP2008092958A; NZ508326A; HUP0102186A3; ID29128A; NO20091055L; NO20006195D0; CA2329774A1; PL345579A1; KR100511233B1; JP2002518004A

Description

Oblasť techniky

Predložený vynález sa všeobecne týka polyketidov a génov na ich syntézu. Vynález sa týka najmä izolácie a charakterizácie génu novej polyketidsyntázy a neribozómovej peptidsyntetázy so Sorangium cellulosum, ktoré sú nevyhnutné v biosyntéze epothilonov A a B.

Doterajší stav techniky

Polyketidy sú zlúčeniny syntetizované zo stavebných blokov obsahujúcich dva atómy uhlíka, z ktorých β-uhlík vždy nesie ketoskupinu, preto je názov polyketidy. K týmto zlúčeninám patria početné dôležité antibiotiká, imunosupresíva, protirakovinové chemoterapeutiká a celý rad látok vykazujúcich najrôznejšie biologické vlastnosti. Mimoriadna štruktúrna diverzita týchto látok je spôsobená rôznou dĺžkou polyketidového reťazca, rôznymi vnesenými vedľajšími postrannými reťazcami (či už ako súčasť stavebných blokov s dvoma uhlíkmi alebo po vytvorení polyketidovej kostry) a stereochémiou takýchto skupín. Ketoskupiny sa môžu redukovať na hydroxylové alebo enoylové skupiny a alebo celkom odstrániť. Každý ďalší cyklus adície bloku s dvoma atómami uhlíka je uskutočnený enzýmovým komplexom nazývaným polyketidsyntáza (PKS), a síce spôsobom, ktorý je podobný biosyntéze mastných kyselín.

Gény zúčastňujúce sa biosyntézy pre rastúci počet polyketidov sa izolovali a sekvenovali. Pozri napríklad patenty USA č.

639 949, 5 693 774 a 5 716 849, ktoré sú vložené formou odka···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · · ·· ···· ·· ··· zu, ktoré opisujú gény pre biosyntézu soraphenu. Pozri tiež publikáciu Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1998) a Medzinárodnú patentovú prihlášku WO 98/07868, ktoré opisujú gény pre biosyntézu rifamycinu, a prihlášku USA č.

876 991 opisujúcu gény pre biosyntézu tylactonu, všetky tieto dokumenty sú formou odkazu súčasťou predloženého opisu vynálezu. Proteíny kódované týmito génmi všeobecne patria do dvoch skupín: typ I a typ II. Proteíny typu I sú polyfunkčné proteíny s niekoľkými katalytickými doménami uskutočňujúcimi rôzne enzymatické kroky pri vzájomnej kovalentnej väzbe (napr. PKS pre erytromycin, soraphen, rifamycín a avermectin (pozri MacNeil a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed. : Baltz a kol.), Američan Society for Microbiology, Washington D.C. pp. 245-256 (1993)), zatiaľ čo proteíny typu II sú monofunkčné (Hutchinson a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz a kol.), Američan Society for Microbiology, Washington D.C. pp. 203-216 (1993)) .

Pre jednoduchšie polyketidy ako je napríklad actinorhodin (produkovaný Streptomyces coelicolor) je uskutočňované opakovane niekolko krokov adíciou dvojuhlíkového bloku enzýmom PKS, ktorý je kódovaný jedným súborom PKS génov. Oproti tomu syntéza zložitejších zlúčenín ako je napríklad erytromycín a soraphen, vyžaduje enzým PKS, ktorý je organizovaný do modulov, pričom každý modul uskutočňuje jeden cyklus adície dvoj uhlíkového bloku (prehľad pozri Hopwood a kol., In Industrial Microorganisms: Basic and Applied Molecular Genetics, (ed.: Baltz a kol.) Američan Society for Microbiology, Washington D.C., pp. 267-275 (1993)) .

KompLexné polyketidy a sekundárne metabolity všeobecne môžu obsahovať čiastkové štruktúry, ktoré sú odvodené z aminokyselín namiesto jednoduchých karboxylových kyselín. Inkorporácia týchto stavebných blokov je zabezpečená neribozómovými (to znamená inými ako ribozómovými) polypeptidsyntetázami (NRPS). NRPS

9999 ·· ·· ·· ·· · · · · · ·· • ··· · · · f · • · · · · · ·« «··· 99 patria k multienzýmom, ktoré sú organizované v moduloch. Každý modul je zodpovedný za adíciu (a ďalšie spracovanie, ak je potrebné) jedného aminokyselinového stavebného bloku. NRPS aktivujú aminokyseliny tým, že vytvárajú aminoacyladenyláty a zachytávajú aktivované aminokyseliny na tiolovej skupine fosfopanteteinylovej prostetickej skupiny na peptidylovej doméne nosičového proteínu. epimerizáciou, potrebné, aminokyselinami biosyntézu cyklosporín, reťazca ako

Ďalej NRPS N-metyláciou alebo a katalyzujú vytvorenie naviazanými na peptidových môžu poskytnúť terminačnú to pri rapamycíne alebo pri biosyntéze yersiniabactinu.

modifikujú cyklizáciou, peptidových enzým.

sekundárnych

NRPS sú s PKS ako je je to aminokyseliny ak je to väzieb medzi zodpovedné za metabolitov ako je jednotku polyketidového vytvára zmiešané systémy

Epothilony A a B sú 16-členné makrocyklické polyketidy s počiatočnou jednotkou odvodenou z acylcysteínu, ktoré sa tvoria v Sorangium cellulosum kmeňa Soce90 (Gerth a kol., J. Antibiotics 49: 560-563 (1996)). Štruktúra epothilonu A a B, keď R znamená atóm vodíka (epothilon A) alebo metylovú skupinu (epothilon B), je vyjadrená nasledujúcim vzorcom:

Epothilony majú úzke spektrum protihubového účinku a vykazujú najmä vysokú toxicitu v kultúrach živočíšnych buniek (pozri Hofle a kol., Patent DE 4138042 (1993), vložený formou odkazu). Významné je tiež to, že epothilony napodobňujú biologické účinky taxolu, ako in vivo tak aj v kultivovaných bunkách (Bollag a kol., Cancer Research 55: 2325-2333 (1995), vložené formou odkazu) . Taxol a taxoter, ktoré stabilizujú bunkové mikrotubuly, sú protirakovinové chemoterapeutické činidlá s významným účinkom ···· ·· ·· ·· • ···· · · · ··· · · · · · » Μ · · · · • · ···· ·· ··· proti rôznym tuhým nádorom u ľudí (Rowinsky a kol., J. Natl. Cancer Inst. 83: 1778-1781 (1991)). Kompetičné štúdie ukázali, že epothilony pôsobia ako kompetitivne inhibítory väzby taxolu na mikrotubuly, čo je v súlade s vysvetlením, že zdieľajú zhodné väzbové miesto k mikrotubule a majú podobnú afinitu k mikrotubulom ako taxol. Avšak epothilony majú významnú výhodu oproti taxolu, a síce epothilony vykazujú v porovnaní s taxolom oveľa menši pokles v účinku proti bunkovým líniám s multiliekovou rezistenciou (MDR) (Bollag a kol. (1995)). Okrem toho epothilony sú so značne menšou účinnosťou exportované z buniek prostredníctvom P-glykoproteinov ako taxol (Gerth a kol. (1996)). Naviac sa syntetizovalo niekoľko analógov epothilonu, ktoré majú vyššiu cytotoxickú aktivitu ako epothilon A alebo epothilon B, ako to dokazuje ich zvýšená schopnosť indukovať polymerizáciu a stabilizáciu mikrotubulov (pozri medzinárodná patentová prihláška WO 98/25929, vložená formou odkazu).

Napriek sľubnému použitiu epothilonov ako protirakovinových agens, pretrvávajúce problémy výroby týchto zlúčenín obmedzujú silne ich potenciálne komerčné využitie. Zlúčeniny sú veľmi zložité na to, aby sa mohli vyrábať chemickou syntézou v priemyselnom meradle a musia sa teda vyrábať fermentáciou. Spôsoby genetickej manipulácie myxobaktérií ako je napríklad Sorangium cellulosura sú opísané v patente USA 5 686 295, ktorý je vložený formou odkazu. Avšak Sorangium cellulosum je známe tým, že ho je možné veľmi ťažko fermentovať a produkčné hladiny epothilonov sú tak veľmi nízke. Tento problém by však mohla vyriešiť rekombinantná produkcia epothilonov v heterológnom hostiteľovi, ktorý by bol vhodnejší na fermentáciu. Avšak gény, ktoré kódujú polypeptidy, zodpovedné za biosyntézu epothilonov sa doteraz neizolovali. Okrem toho aj kmeň, ktorý produkuje epothilony, to znamená So ce90, produkuje tiež aspoň jeden polyketid, sporangien, ktorý značne komplikuje izoláciu, zvlášť zodpovedných za biosyntézu epothilonov.

Vzhľadom na už uvedené skutočnosti, cieľom predloženého ···« ···

• e «· • · · • · • · · ·· ···· vynálezu je izolovať gény, ktoré sa zúčastňujú biosyntézy epothilonov, najmä gény zúčastňujúce sa syntézy epothilonu A a B v myxobaktériách skupiny Sorangium/Polyangium, to znamená kmeň So ce90 Sorangium cellulosum.

Ďalším predmetom predloženého vynálezu je spôsob rekombinantnej produkcie epothilonov na použitie ako farmaceutické prípravky proti rakovine.

Podstata vynálezu

Predložený vynález prekvapujúco prekonáva skôr uvedené problémy tým, že poskytuje prvý raz molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu. Vo výhodnom uskutočnení vynálezu je nukleová kyselina izolovaná z druhu patriaceho k rodu Myxobacteria, najvýhodnejšie ide o Sorangium cellulosum.

V ďalšom výhodnom uskutočnení predkladaný vynález poskytuje izolovanú molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu, pričom polypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny: SEQ ID NO: 2, aminokyseliny 11437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, amino kyseliny 815-821 sekvencie SEQ ID NO:3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID ···· ·· ·· • ···· ··· ··· · · · · · · · · · · ··· ·· ···· ·· ·

NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, amino kyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 9731256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie

SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie

NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4,

SEQ ID amino1439kyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny

1684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie

SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ

ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie

SEQ ID NO: 5, aminokyseliny 14341506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie

SEQ ID NO: 5, aminokyseliny

2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ

ID NO: 5, aminokyseliny

2932-3005 sekvencie

SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO:

5, aminokyseliny 3555-3876 sekvencie SEQ ID

NO: 5, aminokyseliny

3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie

SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie

SEQ ID NO: 5, aminokyseliny

5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ

ID NO: 5, aminokyseliny

5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie

SEQ ID

NO: 5, aminokyseliny 7140-7211 sekvencie

SEQ ID NO: 5,

SEQ ID

NO: 6, aminokyseliny 35-454 sekvencie

SEQ ID NO: 6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID

NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie

SEQ ID NO: 6, aminokyseliny 23832551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie

SEQ ID NO: 6,

3392-3636 sekvencie SEQ aminokyseliny aminokyseliny

3673-3745 sekvencie SEQ ID

NO: 6, SEQ

ID NO: 6,

ID NO: 7, aminokyseliny

32-450 sekvencie SEQ ID NO:

7, aminokyseliny 556877 sekvencie

SEQ ID NO: 7, aminokyseliny

887-1051 sekvencie SEQ

ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, amino kyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093Ί

2164 sekvencie SEQ ID NO: 7, aminokyseliny

SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, ···· ···· • · ·· · ··· ··

99999 ·· • · • · · ···· ·· ·

2165-2439 sekvencie

SEQ ID NO:

a SEQ

ID NO: 22.

Vo výhodnejšom uskutočnení poskytuje molekulu izolovanej nukleovej sekvenciu, ktorá kóduje aspoň predkladaný vynález kyseliny obsahujúcu nukleotidovú jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom polypeptid obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID

NO: 2, amino kyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ

NO: 2, SEQ ID

ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID

NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny

118-125 sekvencie SEQ ID NO:

3, aminokyseliny 199212 sekvencie

SEQ ID NO: 3, aminokyseliny

353-363 sekvencie SEQ

ID NO: 3, aminokyseliny 549-565 sekvencie

SEQ ID NO: 3, aminokyseliny aminokyseliny

669-684 sekvencie

SEQ ID NO: 3, aminokyseliny 815-821 sekvencie

SEQ ID

NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny

918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie

SEQ ID

NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3, aminokyseliny 13441351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID

NO: 4, aminokyseliny 869-1037 sekvencie

SEQ ID NO: 4, aminokyseliny 1439-1684 sekvencie SEQ ID NO:

4, aminokyseliny 17221792 sekvencie SEQ ID

NO: 4, SEQ ID NO:

5, aminokyseliny

39-457 sekvencie SEQ ID NO:

5, aminokyseliny 563-884 sekvencie

SEQ ID

NO: 5, aminokyseliny

1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434-1506 sekvencie

SEQ ID NO: 5, aminokyseliny 15241950 sekvencie SEQ ID NO: 5,

SEQ ID NO: 5, aminokyseliny aminokyseliny 2932-3005 sekvencie SEQ aminokyseliny 2056-2377 sekvencie sekvencie SEQ ID NO: 5,

2645-2895

ID NO: 5, aminokyseliny

3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 ·· sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 50105082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, amino kyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 14301503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO: 7, amino kyseliny 556-877 sekvencie SEQ ID NO:7, amino kyseliny 887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 14781790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.

Vo výhodnejšom uskutočnení poskytuje predkladaný vynález molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom nukleotidové sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy ··«« ·· ·· ·· • ···· · · · ·· · · · · · • · · · · · «· ···· ·· ···

11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO:1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID ···· ·· ·· ·· • ···· · · * ··· · · · · · • · · · · · • · ···· · · · · ·

NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.

Vo zvlášť výhodnom uskutočnení poskytuje predkladaný vynález molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonov, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 ···· ·· ·· ·· • · · · · · · · ··· · · · · J • * · · · · ··· ·· ···· ·· · sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy ···· ···

61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.

V ešte ďalšom výhodnom poskytuje izolovanú molekulu nukleotidovú sekvenciu, ktorá uskutočnení nukleovej kóduje zúčastňujúci sekvencia (výhodne sekvenčne alebo predkladaný vynález kyseliny obsahujúcu aspoň jeden polypeptid sa biosyntézy epothilonov, pričom obsahuje úsek veľkosti 20, 25, 30, 35, 40, 20) bázových párov po sebe idúcich identický so zodpovedajúcim úsekom 20, 25, (výhodne sekvencie nukleotidová alebo 50 nukleotidov sekvenciu

20) po sebe vybranej zo k nukleotidom

30, 35, 40, idúcich bázových párov skupiny obsahujúcej: 1900-3171 sekvencie SEQ

3415-5556 sekvencie SEQ ID NO: 1, nukleotidovej kômp1ement á rnu ID NO: 1, nukleotidy nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 76438920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie

SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056513 ·· · ···· ·«· • ·

21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.

• · · ·· ···· ·· • 9 · • · • e ··

Predkladaný vynález ďalej poskytuje chimérický gén, ktorý obsahuje sekvenciu heterológneho promótora, operatívne spojenú s molekulou nukleovej kyseliny podľa vynálezu. Ďalej vynález poskytuje rekombinantný vektor, ktorý obsahuje chimérický gén, pričom vektor je schopný byť trvalo transformovaný do hostiteľskej bunky. A ešte ďalej vynález poskytuje rekombinantné hostiteľské bunky, ktoré obsahujú chimérický gén, pričom hostiteľská bunka je schopná exprimovať nukleotidovú sekvenciu kódujúcu aspoň jeden polypeptid nevyhnutný pre biosyntézu epothilonov. Vo výhodnom uskutočnení je rekombinantnou hostiteľskou bunkou baktéria, patriaca do radu Actinomycetales, vo výhodnejšom uskutočnení sú hostiteľské bunky kmeň Streptomyces. V inom uskutočnení vynálezu je hostiteľskou bunkou akákoľvek baktéria schopná fermentácie, ako je Pseudomonas alebo E. coli. Ďalej predložený vynález poskytuje Bac kloň, ktorý obsahuje molekulu nukleovej kyseliny podľa vynálezu, najmä Bac kloň pEP015.

Ďalší aspekt predkladaného vynálezu poskytuje molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje doménu epothilonsyntázy.

V jednom uskutočnení vynálezu je epothilonsyntázovou doménou β-ketoacylsyntázová (KS) doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7. Podía tohto uskutočnenia vynálezu je tiež výhodná nukleotidové sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, amino99

9 9 ·

···· ·· ·· • · · · ·

999 9 9 ·

9 9 9

9999

9·

999 kyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 30243449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

Podlá tohto uskutočnenia vynálezu je tiež výhodná nukleotidová sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek po sebe nasledujúcich nukleotidov veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupir.y obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

Naviac podľa tohto uskutočnenia vynálezu je nukleotidová sekvencia najvýhodnejšie vybraná zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie ·· • · · • · • ···· ·· ·· ·· · · · · · • ··· · · · • · · · ·· ···· • · · ·· · · *

SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 543864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 35553876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

V tomto uskutočnení vynálezu AT doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, amino kyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

Taktiež, v tomto uskutočnení vynálezu je výhodná nukleotidová sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy • ··· ·· ·· ·· ·· · ···· ··· • ··· · · · · · • · · · · · ·· ···· ·· ·

49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

Naviac, podľa tohto uskutočnenia je najvýhodnejšie nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

Podľa ešte ďalšieho uskutočnenia predkladaného epothilonsyntázová doména je enoylreduktázová (ER) vynálezu doména obsahujúca aminokyselinovú aminokyselinovou sekvenciou aminokyseliny 974-1273 sekvencie SEQ 4433-4719 sekvenciu vybranou zo

ID podstate skupiny NO: 2, sekvencie sekvencie SEQ ID NO: 5,

SEQ ID NO: 5 a aminokyseliny podobnú s obsahujúcej: aminokyseliny aminokyseliny 6542-6837 1478-1790 sekvencie SEQ

ID NO: 7.

Podľa tohto uskutočnenia vynálezu výhodne ER doména obsahuje

• ····	·· ··	··
·· ·	• · · ·	•	• ·
• ···	• · ·	•
• ·	• · ·	•	•
··· ···	·· ····		·· ·

aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 44334719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.

Taktiež, podlá tohto uskutočnenia vynálezu je nukleotidová sekvencia v podstate podobná sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidv 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

Podlá tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

Ďalej je v tomto uskutočnení nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je doména proteínového nosiča acylovej skupiny (ACP) obsahujúcej aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, amino19 • ···· ·· ·· ·· · ··· ···· ···· • ··· · · · · · · • ···· · · · · · • ···· · · · ··· ··· ·· ···· ·· ··· kyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 36733745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

Podlá tohto uskutočnenia ACP doména obsahuje výhodne aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

Taktiež podlá tohto uskutočnenia je nukleotidové sekvencia v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 4781148032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.

Podlá tohto uskutočnenia vynálezu nukleotidové sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1154911764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy • ···· ·· ·· ·· · ··· ···· · · ·· • ··· · · · 9 · · • · · · · · · · · · • ···· · · · ··· ··· ·· ···· ·· ··♦

61211-61426 sekvencie SEQ ID NO: 1.

Naviac, v tomto uskutočnení je najvýhodnejšia nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.

Podlá iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je dehydratázová (DH) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: amino kyseliny 8691037 sekvencie SEQ ID NO:4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny

887-1051 sekvencie	SEQ ID NO: 7.
Podľa tohto	uskutočnenia	DH	doména	výhodne obsahuje
aminokyselinovú sekvenciu vybranú	zo	skupiny	obsahujúcej:	amino-
kyseliny 869-1037	sekvencie SEQ	ID	NO: 4,	aminokyseliny	3886-

4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.

Taktiež, podľa tohto uskutočnenia vynálezu nukleotidová sekvencia je výhodne v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia

•	····	··	··	·· ·
• ·	•	• ·	• ·	• ·	• ·
•	···	• ·	•	• ·	•
•	•	• · ·	• ·	• ·	•
•	•	• ·	•	• ·	•
		··	····	··	···

výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1885519361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

Naviac, podľa tohto uskutočnenia je najvýhodnejšia nukleotidová sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 3340133889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

Podľa ešte iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je β-ketoreduktázová (KR) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinovou sekvenciou vybranou zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

Podľa tohto uskutočnenia KR doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 11471399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ • ··· ·· ·· ·· ··· ···· ··· • ··· · · · · · * 9 9 9 9 9 9 9 9

9 9 9 9 9 9

ID NO: 7.

Taktiež, podľa tohto uskutočnenia výhodná nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35,

40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvencčne identický s neprerušeným úsekom 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 4231443048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

Naviac, v tomto uskutočnení nukleotidová sekvencia je najvýhodnejšie vybraná zo skupiny obsahujúcej: nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 4231443048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je metyltransferázová (MT) doména obsahujúca sekvenciu aminokyselín 2671-3045 SEQ ID NO: 6. V tomto • ···· ·· ·· ·· · ··· ···· · · ·· • ·· 9 9 · · ·· • ···· · · · · · • · e · · · ·· ··· ··· ·· ···· ··999 uskutočnení MT doména výhodne obsahuje aminokyseliny 2671-3045 SEQ ID NO: 6. Podľa tohto uskutočnenia je výhodná nukleotidová sekvencia v podstate podobná nukleotidom 51534-52657 SEQ ID NO: 1. Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) párov báz z nukleotidovej sekvencie 51534-52657 SEQ ID NO: 1. Naviac podľa tohto uskutočnenia je nukleotidová sekvencia najvýhodnejšie sekvencia nukleotidov 51534-52657 SEQ ID NO: 1.

Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je tioesterázová (TE) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7. Podľa tohto uskutočnenia TE doména výhodne obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7. Taktiež podľa tohto uskutočnenia je výhodne nukleotidová sekvencia v podstate podobná nukleotidom 61427-62254 sekvencie SEQ ID NO: 1. Podľa tohto uskutočnenia vynálezu nukleotidová sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30, 35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidov 61427-62254 sekvencie SEQ ID NO: 1. Naviac, podľa tohto uskutočnenia vynálezu nukleotidová sekvencia najvýhodnejšie obsahuje nukleotidy 61427-62254 of SEQ ID NO: 1.

Ďalší aspekt predkladaného vynálezu poskytuje izolovanú molekulu nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje neribozómovú peptidsyntetázu, pričom táto neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO:3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 35324

• ····	··	··	·» ·
·· ·	• ·	• ·	• ·	··
• ···	•	•	•	• ·	•
• · ·	• ·	• ·	• ·	•
• ·	•	•	•	• ·	•
··· ···	··	····	··	···

363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.

Podľa tohto uskutočnenia vynálezu neribozómová peptidsyntetáza výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO:3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO:3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.

Tiež podľa tohto uskutočnenia vynálezu výhodná nukleotidovú sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 ···· ·· ·· ·· • ···· · ♦ · ··· · · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· * sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

Podľa tohto uskutočnenia vynálezu nukleotidové sekvencia výhodnejšie obsahuje neprerušený úsek veľkosti 20, 25, 30, 35,

40, 45 alebo 50 (výhodne 20) bázových párov nukleotidov sekvenčne identický s neprerušeným úsekom veľkosti 20, 25, 30,

35, 40, 45 alebo 50 (výhodne 20) bázových párov z nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

Naviac, podľa tohto uskutočnenia najvýhodnejšia je nukleotidové sekvencia vybraná zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · · ·· ···· ·· ···

15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

Predkladaný vynález ďalej poskytuje molekulu izolovanej nukleovej kyseliny obsahujúcu nukleotidovú sekvenciu, ktorá kóduje polypeptid obsahujúci aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej SEQ ID NO: 2 až 23.

Ďalší aspekt predloženého vynálezu poskytuje spôsob rekombinantnej produkcie polyketidov ako sú epothilony v množstve, ktoré je dostatočné na to, aby bola možná ich purifikácia a ich použitie vo farmaceutických prípravkoch, napríklad na liečenie rakoviny. Špecifickou výhodou spôsobu podľa vynálezu je chiralita produkovaných molekúl, lebo produkcia v transgénnom organizme bráni tvorbe racemickej zmesi, kde niektorý enantiomér môže mať nižšiu aktivitu. Predložený vynález poskytuje najmä spôsob heterológnej expresie epothilonu v rekombinantnom hostiteľovi, a tento spôsob obsahuje kroky: a) do hostiteľa sa vnesie chimérický gén, ktorý obsahuje sekvenciu heterológneho promótora operatívne spojenú s molekulou nukleovej kyseliny podľa vynálezu obsahujúcu nukleotidovú sekvenciu kódujúcu aspoň jeden polypeptid, a b) hostiteľ sa pestuje v podmienkach, ktoré umožňujú biosyntézu epothilonu v hostiteľovi. Vynález poskytuje tiež spôsob prípravy epothilonu, ktorý obsahuje kroky, keď sa: a) exprimuje epothilon v rekombinantnom hostiteľovi, predtým uvedeným spôsobom, a b) epothilon extrahuje z rekombinantného hostiteľa.

Ďalší aspekt predloženého vynálezu poskytuje izolovaný polypeptid obsahujúci aminokyselinovú sekvenciu, ktorá predstavuje epothilonsyntázovú doménu.

Podľa jedného uskutočnenia doména je β-ketoacylsyntázová aminokyselinovú sekvencií vybranej sekvencie SEQ ID vynálezu epothilonsyntázová (KS) doména obsahujúca sekvenciu v podstate podobnú aminokyselinovej zo skupiny obsahujúcej: aminokyseliny 11-437

NO: 2, aminokyseliny 7-432 sekvencie SEQ ID ··

NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 30243449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32450 sekvencie SEQ ID NO: 7.

V tomto uskutočnení KS doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 51035525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

Podľa iného uskutočnenia predkladaného vynálezu epothilonsyntázová doména je acyltransferázová (AT) doména obsahujúca aminokysleinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

V tomto uskutočnení AT doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 56315951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ···· ·· ·· ·· • · · · · · · ··· · · · · J • * · · · · · ··· ·· ···· ··

ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a ami nokyseliny 556-877 sekvencie SEQ ID NO: 7.

V ešte ďalšom uskutočnení vynálezu epothilonsyntázová doména je enoylreduktázová (ER) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.

Podlá tohto uskutočnenia ER doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 44334719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.

V ďalšom uskutočnení vynálezu epothilonsyntázová doména je doména proteínu prenášajúca acylovú skupinu (ACP), kde polypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

V tomto uskutočnení ACP doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 17221792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 ···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · ··· ·· ···· ·· · sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

Podía ďalšieho uskutočnenia predkladaného vynálezu epothilonsyntázová doména je dehydratázová doména (DH) obsahujúca aminokyselinovú sekvenciu v podstate podobnú s aminokyselinou sekvenciou v podstate podobnou aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 8691037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny

887-1051 sekvencie	SEQ ID NO: 7.
Podía tohto	uskutočnenia	DH	doména	výhodne obsahuje
aminokyselinovú sekvenciu vybranú	zo	skupiny	obsahujúcej:	amino-
kyseliny 869-1037	sekvencie SEQ	ID	NO: 4,	aminokyseliny	3886-

V ešte ďalšom uskutočnení epothilonsyntázová doména je βketoredukázová (KR) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej:

aminokyseliny 1439-1684 sekvencie SEQ ID

NO: 4, aminokyseliny

1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

Podlá tohto uskutočnenia KR doména výhodne obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 11471399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, ···· β· ·· ·· • ···· · · · ··· · · · · · • · · · · · ·· · · ·· · · · · · aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

Podľa ďalšieho uskutočnenia predloženého vynálezu epothilonsyntázová doména je metyltransferázová (MT) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú sekvencií aminokyselín 2671-3045 SEQ ID NO: 6. Podľa tohto uskutočnenia MT doména výhodne obsahuje aminokyseliny 2671-3045 SEQ ID NO: 6.

Podľa ďalšieho uskutočnenia predloženého vynálezu epothilonsyntázová doména je tioesterázová (TE) doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú sekvencií aminokyselín 2165-2439 SEQ ID NO: 7. Podľa tohto uskutočnenia TE doména obsahuje výhodne aminokyseliny 2165-2439 SEQ ID NO: 7.

Ďalšie aspekty a výhody predloženého vynálezu sú odborníkovi zrejmé na základe nasledujúceho podrobného opisu vynálezu a príkladov, ktoré vynález nijako neobmedzujú.

Definície

V opise predloženého vynálezu sú použité termíny, ktoré majú nasledujúci význam.

Asociovaný s/operatívne spojený: Týka sa dvoch sekvencií DNA, ktoré sú spojené fyzicky alebo funkčne. Napríklad promótor alebo regulačná sekvencia je asociovaná so sekvenciou DNA kódujúcou RNA alebo proteín, ak sú sekvencie operatívne spojené, to znamená situované tak, že regulačná sekvencia ovplyvňuje hladinu expresie štruktúrnej alebo kódujúcej sekvencie DNA.

Chimérický gén: Rekombinantná sekvencia DNA, kde promótor alebo regulačná sekvencia je operatívne spojená alebo asociovaná so sekvenciou DNA, ktorá kóduje mRNA alebo je exprimovaná v podobe proteínu, takže regulačná sekvencia DNA je schopná ria31 diť transkripciu alebo expresiu asociovanej sekvencie DNA. Regulačná sekvencia DNA chimérického génu nie je normálne v tej podobe, ako sa nachádza v prírode, operatívne spojená s asociova nou sekvenciou DNA.

Kódujúca sekvencia DNA: Sekvencia DNA, ktorá je v organizme translatovaná a vytvára proteín.

Doména: Časť enzýmu polyketidsyntázy nevyhnutná pre určitú danú aktivitu. Príklady domén sú doména proteínu prenášajúceho acylovú skupinu (ACP), β-ketosyntázová (KS), acyltransferázová (AT), β-ketoreduktázová (KR), dehydratázová (DH) , enoylreduktázová (ER) a tioesterázová (TE) doména.

Epothilony: 16-členné makrocyklické polyketidy prirodzene produkované baktériou Sorangium cellulosum kmeň SO ce90, ktoré napodobňujú biologické účinky taxolu. V tomto opise termín epothilon označuje triedu polyketidov, do ktorej patrí epothilon A a epothilon B vrátane ich analógov, ako je opísané v medzinárodnej patentovej prihláške WO 98/25929.

Epothilonsyntáza: Polyketidsyntáza zodpovedná za biosyntézu epothilonu.

Gén: Definovaný úsek lokalizovaný v genóme obsahujúci okrem uvedenej kódujúcej sekvencie tiež ďalšie, najmä regulačné sekvencie DNA, ktoré sú zodpovedné za riadenie expresie, čo je transkripcia a translácia kódujúceho úseku.

Heterológna sekvencia DNA: Sekvencia DNA ktorá nie je v prírodnom stave asociovaná s hostiteľskou bunkou, do ktorej je vnesená, patria sem aj viacnásobné, v prírode nevyskytujúce sa kópie DNA, ktorá sa v prírode vyskytuje.

Homológna sekvencia DNA: Sekvencia DNA, ktorá je v prírodnom stave asociovaná s hostiteľskou bunkou, do ktorej je vnesená.

Homológna rekombinácia: vzájomná výmena fragmentov DNA medzi ···· ·· ·· ·· • · · · · · · ··· · · · · J • * · · · · · ··· ·· ···· ·· homológnyni molekulami DNA.

Izolovaný: V kontexte opisu predloženého vynálezu je izolovaná molekula nukleovej kyseliny alebo izolovaný enzým, taká molekula nukleovej kyseliny alebo enzým, ktoré existujú vďaka činnosti človeka nezávisle na svojom prirodzenom prostredí, a teda už nie sú výtvorom prírody. Izolovaná molekula nukleovej kyseliny alebo izolovaný enzým existujú v purifikovanom stave alebo existujú v inom ako prirodzenom prostredí, napríklad v rekombinantnej hostiteľskej bunke.

Modul: Genetický element kódujúci všetky rôzne aktivity, ktoré sú potrebné na to, aby prebehol jeden cyklus biosyntézy polyketidov, to znamená jeden krok kondenzácie a všetky s ním spojené kroky spracovania β-karbonylu. Každý modul kóduje ACP, KS a AT aktivitu na uskutočnenie kondenzačnej časti biosyntézy, a vybranej postkondenzačnej aktivity ovplyvňujúcej spracovanie β-karbonylu.

NRPS: Neribozómová polypeptidsyntetáza, ktorou je komplex enzymatických aktivít zodpovedný za inkorporáciu aminokyselín do sekundárnych metabolitov, vrátane napríklad adenylácie, epimerizácie, N-metylácie, cyklizácie aminokyselín, do peptidylového nosičového proteínu a kondenzačných domén. Funkčná NRPS je komplex katalyzujúci inkorporáciu aminokyselín do sekundárnych metabolitov.

Gén NRPS: Jeden alebo niekoľko génov, ktoré kódujú enzýmy NRPS pre tvorbu funkčných sekundárnych metabolitov, napríklad epothilonu A a B, riadené jedným alebo niekoľkými kompatibilnými regulačnými elementmi.

Molekula nukleovej kyseliny: Lineárny segment jedno- alebo dvojreťazcovej DNA alebo RNA, ktorý sa môže izolovať z ľubovoľného organizmu. V kontexte predloženého opisu je nukleová kyselina výhodne segment DNA.

···· ·· ·· ·· • · · · · · · ··· · · · · · ···· · · · · • · · · · · ··· ·· ···· ··

ORF: Otvorený čítací rámec.

PKS: Polyketidsyntáza, ktorou je komplex enzymatických aktivít (domén) zodpovedný za biosyntézu polyketidov zahŕňajúci doménu proteínu prenášajúceho acylovú skupinu (ACP), β-ketosyntázovú (KS), acyltransferázovú (AT), β-ketoreduktázovú (KR) , dehydratázovú (DH), enoylreduktázovú (ER) a tioesterázovú (TE) doménu. Funkčný PKS je taký komplex, ktorý katalyzuje syntézu polyketidov.

Gény PKS: Jeden alebo niekolko génov kódujúcich rôzne polypeptidy potrebné na syntézu funkčných polyketidov, napríklad epothilonu A a epothilonu B, keď sú riadené jedným alebo niekoľkými kompatibilnými regulačnými elementmi.

V podstate podobný: Tento výraz vo vzťahu k nukleovým kyselinám znamená nukleovú kyselinu, ktorá vykazuje aspoň 60% sekvenčnú identitu s nukleovou kyselinou, na ktorú sa odkazuje. Vo výhodnom uskutočnení sú v podstate podobné sekvencie DNA identické aspoň na 80%, vo výhodnejšom uskutočnení aspoň na 90% a v najvýhodnejšom uskutočnení sú v podstate podobné sekvencie DNA identické aspoň na 95%. V podstate podobná sekvencia DNA kóduje proteín alebo peptid, ktorý má v podstate rovnakú aktivitu ako proteín alebo peptid kódovaný porovnávanou DNA. V podstate podobná nukleotidová sekvencia typicky hybridizuje s porovnávanou molekulou nukleovej kyseliny alebo jej fragmentom za nasledujúcich podmienok: hybridizácia v 7% dodecylsulfáte sodnom (SDS) , 0,5 M NaPO₄, pH 7,0, 1 mM EDTA pri 50°C; premytie 2x SSC, 1% SDS, pri 50°C. Ak ide o proteíny alebo peptidy, v podstate podobná aminokyselinová sekvencia je sekvencia aspoň na 90% identická s porovnávanou sekvenciou a má v podstate zhodnú aktivitu ako porovnávaný proteín alebo peptid.

Transformácia: Proces vnášania heterológnej nukleovej kyseliny do hostiteľskej bunky alebo organizmu.

Transformovaný/transgénny/rekombinantný sa týka hostiteľské-

·· ·· ·· • · · · · · • · · · • · · · · • · · · ·· · ho organizmu ako je napríklad baktéria, do ktorého sa vniesla heterológna nukleová kyselina. Táto nukleová kyselina je buď stabilne integrovaná v genóme hostiteľa, alebo je prítomná ako extrachromozomálna molekula nukleovej kyseliny. Taká extrachromozomálna molekula môže byť autoreplikujúca sa molekula. Transformované bunky, tkanivá alebo rastliny nezahŕňajú len výsledný produkt transformačného procesu, ale tiež jeho ďalšie transgénne potomstvo.

Netransformovaný, netransgénny alebo nerekombinantný hostiteľ znamená organizmus divého typu, napríklad baktériu, ktorý neobsahuje heterológnu nukleovú kyselinu.

Nukleotidy sú označované štandardnými skratkami zásad: adenín (A), cytozín (C), tymín (T) a guanín (G).

Aminokyseliny sú podobne označované štandardnými skratkami: alanín (ala; A) , arginín (Arg; R), aspargín (Asn; N) , asparágová kyselina (Asp; D) , cysteín (Cys; C), glutamín (Gin; Q) , glutámová kyselina (Glu; E) , glycín (Gly; G) , histidín (His; H) , izoleucín (íle; I), leucín (Leu; L), lyzín (lyz; K), metionín (Met; M), fenylalanín (Phe; F), prolín (Pro; P), serín (Ser; S), treonín (Thr; T), tryptofán (Trp; W), tyrozín (Tyr; Y) a valín (Val; V). Naviac (Xaa; X) predstavuje ľubovoľnú aminokyselinu.

Opis sekvencií uvedených v zozname sekvencií

SEQ ID NO: 1 je nukleotidová sekvencia kontigu veľkosti 68750 bp obsahujúca 22 otvorených čítacích rámcov (ORF), ktoré obsahujú gény biosyntézy epothilonov.

SEQ ID NO: 2 je proteínová sekvencia polyketidsyntázy typu I (EPOS A) kódovaná génom epoA (nukleotidy 7610-11875 SEQ ID NO:1).

SEQ ID NO: 3 je proteínová sekvencia neribozomálnej peptidsyntetázy (EPOS P) kódovaná epoP (nukleotidy 11872-16104 SEQ ID ···· ·· ·· ·· • ···· · · · ··· · · · · j • * · · · · · ·· ·· ···· ·· ·

NO: 1) .

SEQ ID NO: 4 je proteínová sekvencia polyketidsyntázy typu I (EPOS B) kódovaná epoB (nukleotidy 16251-21749 SEQ ID NO: 1).

SEQ ID NO: 5 je proteínová sekvencia polyketidsyntázy typu I (EPOS C) kódovaná epoC (nukleotidy 21746-43519) SEQ ID NO: 1).

SEQ ID NO: 6 je proteínová sekvencia polyketidsyntázy typu I (EPOS D) kódovaná epoD (nukleotidy 43524-54920 SEQ ID NO: 1).

SEQ ID NO: 7 je proteínová sekvencia polyketidsyntázy typu I (EPOS E) kódovaná epoE (nukleotidy 54935-62254 SEQ ID NO: 1).

SEQ ID NO: 8 je proteínová sekvencia homológa cytochro-P450-oxygenázy (EPOS F) kódovaná epoF (nukleotidy 62369-63628 SEQ ID NO: 1).

SEQ ID NO: 9 je čiastočná Orf 1) kódovaná orfl (nukleotidy

SEQ ID NO: 10 je proteínová (nukleotidy 3171-1900 reverzného NO: 1).

SEQ ID NO: 11 je proteínová (nukleotidy 3415-5556 SEQ ID NO:

proteínová sekvencia (čiastočný

1-1826 SEQ ID NO: 1).

sekvencia (Orf 2) kódovaná orf2 komplementárneho reťazca SEQ ID sekvencia (Orf 3) kódovaná orf3 D .

SEQ ID NO:

je proteínová sekvencia (Orf 4) kódovaná orf 4 (nukleotidy 5992-5612 reverzného komplementárneho reťazca SEQ ID

NO: 1) .

SEQ ID NO: 13 je proteínová sekvencia (Orf 5) kódovaná orf5 (nukleotidy 6226-6675 SEQ ID NO: 1).

SEQ ID NO: 14 je proteínová sekvencia (Orf 6) kódovaná orf6 (nukleotidy 63779-64333 SEQ ID NO: 1).

SEQ ID NO: 15 je proteínová sekvencia (Orf 7) kódovaná orfl (nukleotidy 64290-63853 reverzného komplementárneho reťazca SEQ

ID NO: 1).

SEQ ID

NO: 16 je proteínová sekvencia (nukleotidy

64363-64920 SEQ ID NO: 1).

SEQ ID

NO: 17 je proteínová sekvencia (nukleotidy ···· ··· ·· •· · · •· · •· · • ·· ·· ···· ·· • · · •· •· •· ·· · (Orf 8) (Orf 9) kódovaná kódovaná

64727-64287 reverzného komplementárneho reťazca orf8 orŕ9

SEQ

SEQ ID NO: 18 je proteínová sekvencia (Orf 10) kódovaná orŕlO (nukleotidy 65063-65767 SEQ ID NO: 1).

SEQ ID NO: 19 je proteínová sekvencia (Orf 11) kódovaná orfll (nukleotidy 65874-65008 reverzného komplementárneho reťazca SEQ ID NO: 1).

SEQ ID NO: 20 je proteínová sekvencia (Orf 12) kódovaná orfl2 (nukleotidy 66338-65871 reverzného komplementárneho reťazca SEQ ID NO: 1).

SEQ ID NO: 21 je proteínová sekvencia (Orf 13) kódovaná orfl3 (nu<leotidy 66667-67137 SEQ ID NO: 1).

SEQ ID NO: 22 je proteínová sekvencia (Orf 14) kódovaná orfl4 (nu.<leotidy 67334-68251 SEQ ID NO: 1) .

SEQ ID NO: 23 je čiastočná proteínová sekvencia (čiastočný Orf 15) kódovaná orfl5 (nukleotidy 68346-68750 SEQ ID NO: 1).

SEQ ID NO: 24 je sekvencia univerzálneho reverzného oligonukleotidového priméra pre PCR.

SEQ ID NO: 25 je sekvencia univerzálneho priameho oligonukleotidového priméra pre PCR.

SEQ	ID	NO:	26	je	sekvencia	PCR	priméra	NH24	konca
SEQ	ID	NO:	27	je	sekvencia	PCR	priméra	NH2	konca
SEQ	ID	NO:	28	je	sekvencia	PCR	priméra	NH2	konca

SEQ ID ΝΟ: 29 je sekvencia PCR priméra pEPO15-NH6 konca B.

···· φφ ·· ·· · • φ · φ φ · · ·· • ΦΦ · · · · · · ···· φ φ φ φ · φ φ φ φ φ φ φ ··· ·· ·ΦΦ· ·· ·ΦΦ

SEQ ID NO: 30 je sekvencia PCR priméra pEPO15-H2.7 konca

A

Informácie o uložení vzoriek

Nasledujúci materiál je v súlade s Budapeštianskou zmluvou, uložený v zbierke patentových kultúr Agricultural Research Service, Patent Culture Collection (NRRL), 1815 North University

Street, Peoria, vzoriek budú zrušené

Deponovaný materiál: pEPO15 pEPO32

Illinois po

61604. Všetky udelení patentu.

Číslo vzorky:

NRRL B-30033

NRRL B-30119 obmedzenia prístupnosti

Dátum uloženia:

11. júna 1998

16. apríla 1999

Detailný opis vynálezu

Gény zúčastňujúce sa biosyntézy epothilonov môžu sa izolovať spôsobmi podľa predloženého vynálezu. Výhodný spôsob izolácie génov biosyntézy epothilonu vyžaduje izoláciu genómovej DNA z organizmu, ktorý sa identifikoval ako organizmus produkujúci epothilony A a B, a prenos izolovanej DNA vo vhodnom plazmide alebo vektore do hostiteľského organizmu, ktorý normálne netvorí polyketidy, a potom identifikáciu transformovaných kolónií hostiteľských buniek, ktoré získali schopnosť produkovať epothilony. Použitím metód ako je napríklad mutagenéza pomocou transpozónu λ::Τη5 (de Bruijn & Lupski, Gene 27: 131-149 (1984)) je možné presne definovať transformujúci úsek DNA kódujúci epothilon. Alternatívne alebo naviac, transformujúci úsek DNA kódujúci epothilon môže byť naštiepený na menšie fragmenty a najmenší fragment, ktorý si stále ešte uchováva schopnosť kódovať epothilon sa potom ďalej podrobnejšie charakterizuje. Zatiaľ čo hostiteľský organizmus bez schopnosti produkovať epothilon môže byť rôzny (biologický druh) od organizmu, z ktorého pochádza ···· ··· ·· ·· ·· • · · · · · · • · · · · • · · · · · • · · · · ·· ···· ·· · polyketid, variácie hostiteľskú DNA do tejto metódy rovnakého transformovať umožňujú hostiteľa, ktorého vlastná schopnosť produkovať tejto metóde je a izolujú sa mutanty, epothilon je narušená mutagenézou. Pri organizmus produkujúci epothilon mutovaný ktoré neprodukujú epothilon. Tie sú potom komplementované genómovou DNA izolovanou z rodičovského kmeňa produkujúceho epothilon.

Ďalším príkladom metódy, ktorú je možné použiť na izoláciu génov potrebných na biosyntézu epothilonov, je použitie transpozónovej mutagenézy na vytvorenie mutantov z organizmu produkujúceho epothilon, ktorý po mutagenéze nie je schopný produkovať polyketid. Takže úsek hostiteľského genómu, zodpovedný za syntézu epothilonu je označený pomocou transpozónu

a môže	sa izolovať	a použiť	ako
génov	z rodičovského	kmeňa.	PKS
syntézu	polyketidov,	a ktoré	sú
môžu	sa izolovať	využitím

s biosyntetickými génmi, sonda na izoláciu natívnych gény, ktoré sú potrebné na podobné už známym PKS génom, ich sekvenčnej homológie ktorých sekvencia je známa, ako sú napríklad gény biosyntézy rifamycinu alebo soraphenu. K metódam vhodným na izoláciu na základe homológie patria štandardné metódy skriningu knižníc pomocou DNA hybridizácie.

Fragment DNA použiteľný ako sonda je fragment, ktorý je možné získať z génu alebo inej sekvencie DNA, ktoré sa podieľajú na syntéze známeho polyketidu. Výhodná molekula vhodná ako sonda obsahuje Smal fragment DNA veľkosti 1,2 kb kódujúci ketosyntázovú doménu štvrtého modulu soraphen-PKS (patent USA č. 5 716 849), výhodnejšia molekula vhodná ako sonda obsahuje β-ketoacylsyntázovú doménu z prvého a druhého modulu rifamycin-PKS (Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1988)). Tieto fragmenty sa môžu použiť ako sondy pre skríning génovej knižnice z mikroorganizmu produkujúceho epothilon na izoláciu génov PKS zodpovedných za biosyntézu epothilonu.

···· ·· ·· ·· · ··· ···· · · ·· __ · ··· · · · · í !

ζ ·*···**·· · ····· ·· ···· ·· ···

Napriek známym ťažkostiam pri izolácii PKS génov všeobecne, a napriek ťažkostiam, ktoré je možné očakávať pri izolácii génov biosyntézy epothilonu zvlášť, použitím spôsobov podlá predloženého vynálezu, môžu byť gény pre epothilon A a B prekvapujúco klonované z mikroorganizmu, ktorý produkuje tieto polyketidy. Použitím metód génových manipulácií a rekombinantnéj produkcie podía predloženého vynálezu, môžu sa klonované gény PKS modifikovať a exprimovať v transgénnom hostiteľskom organizme.

Izolované gény biosyntézy epothilonu sa môžu exprimovať v heterológnom hostiteľovi, aby bola možná produkcia polyketidu s vyššou účinnosťou, než aká je možná u natívneho hostiteľa. Metódy pre tieto génové manipulácie sú špecifické pre rôznych dostupných hostiteľov a odborníkom sú známe. Napríklad heterológne gény sa môžu exprimovať v Streptomyces a iných aktinomycetách spôsobmi, ktoré sú opísané v publikáciách McDaniel a kol., Science 262: 1546-1550 (1993) a Kao a kol., Science 265: 509-512 (1994), ktoré sú zahrnuté formou odkazu. Pozri tiež ďalšie publikácie Rowe a kol., Gene 216: 215-223 (1998); Holmes a kol., EMBO Journal 12(8): 3183-3191 (1993) a Bibb a kol., Gene 38: 215-226 (1985), ktoré sú taktiež zahrnuté formou odkazu.

Alternatívne gény zodpovedné za biosyntézu polyketidov, to znamená gény biosyntézy epothilonu, sa môžu exprimovať v inom hostiteľskom organizme ako je napríklad Pseudomonas alebo E. coli. Metódy pre tieto génové manipulácie sú špecifické pre rôznych dostupných hostiteľov a odborníkom sú známe. Napríklad PKS gény sa úspešne exprimovali v E. coli pomocou vektora pT7-7, ktorý používa promótor T7 (pozri Tábor a kol., Proc. Natl. Acad. Sci. USA 82: 1074-1078 (1985), súčasťou prihlášky formou odkazu) . Okrem toho na expresiu heterológnych génov v E. coli sa môžu použiť expresné vektory pKK223-3 a pKK223-2, buď s transkripčnou alebo translačnou fúziou za tac alebo trc promótorom. Na expresiu operónov kódujúcich viaceré ORF je najjednoduchšou metódou vložiť operón do vektora, ako je napríklad pKK223-3 v transkripčnej fúzii, ktorá umožňuje, že sa môže použiť podobné ···

•	····	··	··	··
• ·	•	• ·	• ·	• ·
•	···	•	•	•	• ·
•	•	• ·	•	•	• · ·
•	•	•	•	•	• ·
		··	···	··

ribozómové väzbové miesto heterológneho génu. Metódy pre nadmernú expresiu (overexpression) u grampozitivnych mikroorganizmov, ako je napríklad Bacillus, sú tiež odborníkom známe, a môžu sa použiť na realizáciu predloženého vynálezu (Quax a kol., in: Industrial Microorganisms: Basic and Applied Molecular Genetics, Eds. Baltz a kol., Američan Society for Microbiology, Washington (1993)) .

Použiť sa môžu tiež ďalšie expresné systémy s génmi biosyntézy epothilonu podľa vynálezu vrátane kvasinkových alebo baculovírusových expresných systémov, pozri napríklad publikácie The Expression of Recombinant Proteins in Yeasts, Sudbery, P.E., Curr. Opin. Biotechnol. 7(5): 517-524 (1996); Methods for Expressing Recombinant Proteins in Yeast, Mackay, a kol., Editor (s): Carey, Paul R., Proteín Eng. Des. 105-153, Publisher: Academic, San Diego, Calif (1996) ; Expression of heterologous gene products in yeast, Pichuantes a kol., Editor(s): Cleland, J.L., Craik, C.S., Proteín Eng. 129-161, Publisher: Wiley-Liss, New York, N. Y (1996); WO 98/27203; Kealey a kol., Proc. Natl. Acad. Sci. USA 95: 505-509 (1998); Insect Celí Culture: Recent Advances, Bioengineering Challenges And Implications In Protein Production, Palomares a kol., Editor(s): Galindo, Enrique; Ramirez, Octavio T., Adv. Bioprocess Eng. Vol. II, Invited Pap. Int. Symp., 2nd (1998) 25-52, Publisher: Kluwer, Dordrecht, Neth; Baculovirus Expression Vectors, Jarvis, Donald L., Editor(s): Miller, Lois K., Baculoviruses 389-431, Publisher: Plénum, New York, N. Y. (1997); Production of Heterologous Proteins Using The Baculovirus/Insect Expression Systém, Grittiths, a kol., Methods Mol. Biol. (Totowa, N. J.) 75 (Basic Celí Culture Protocols (2^nd Edition)) 427-440 (1997); a Insect Celí Expression Technology, Luckow, Verne A., Protein Eng. 183-218, Publisher: Wiley-Liss, New York, N. Y. (1996); ktoré sú všetky formou odkazu súčasťou predloženej prihlášky.

Ďalším aspektom, ktorý je potrebné vziať do úvahy pri expresii PKS génov v heterológnom hostiteľovi, je potreba enzý···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ·*··· ·· · ··· ·· ···· ·· ··· ako môžu syntetizovať polyketidy. modifikáciu PKS enzýmov (P-pant-transferázy) nie ako napríklad v bunkách typu I, sú však mov na posttranslačnú modifikáciu PKS enzýmov, to znamená fosfopanteteinyláciu, pred tým, Enzýmy uskutočňujúce túto fosfopanteteinyltransferázy prítomné v mnohých hostiteľoch,

Problém je možné vyriešiť súčasnou expresiou (koexpresiou) génu P-pant-transferázy spoločne s PKS génmi v heterológnom hostiteľovi, ako je to opísané v publikácii Kealey a kol., Proc. Natl.

je formou odkazu

Acad. Sci. USA 95: 505-509 (1998), ktorá

E. coli.

súčasťou opisu.

Významným kritériom výberu hostiteľského organizmu na účely produkcie polyketidov je preto jednoduchosť jeho génovej manipulácie, rýchlosť rastu (to znamená fermentácia) , obsah vhodných molekulárnych mechanizmov pre procesy ako je postranslačná modifikácia a neprítomnosť náchylnosti k nadprodukcii polyketidov. Najvýhodnejšími hostiteľskými organizmami sú aktinomycéty ako napríklad kmene rodu Streptomyces. Ďalšími vhodnými organizmami sú Pseudomonas a E. coli. Skôr opísané spôsoby produkcie polyketidov majú významné výhody v porovnaní so v súčasnosti používanou technológiou na výrobu týchto zlúčenín. K hlavným výhodám patrí lacná produkcia, možnosť produkovať vo veľkom meradle a možnosť produkovať požadovaný biologický enantiomér, na rozdiel chemických hostiteľovi od racemických zmesí syntézach. Zlúčeniny je možné použiť na rakoviny v prípade epothilonu) a nevyhnutne vznikajúcich pri produkované v heterológnom lekárske (napríklad liečenie poľnohospodárske aplikácie.

Príklady uskutočnenia vynálezu

Vynález je ďalej opísaný naseledujúcimi príkladmi. Tieto príklady poskytujú podrobnejšie vysvetlenie a ilustrujú vynález, pritom predmet vynálezu nijako neobmedzujú. Štandardné postupy klonovania a rekombinantnej DNA sú odborníkom známe a sú opísané napríklad v nasledujúcich publikáciách: Ausubel (ed.), Current Protocols in Molecular Biology, John Wiley and Sons, ľne.

• ···· ·· ·· ·· · ··· ···· · · ·· • ··· · · · · · ·

Σ · · · · · · · · · • · · · · ··· ··· ··· ·· ···· ·· ··· (1994); T. Maniatis, E.F. Fritsch and J. Sambrook, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor laboratory, Cold Spring Harbor, NY (1989); T.J. Silhavy, M.L. Berman, and L.W. Enquist, Experimente with Gene Fusions, Cold Spring Harbor Laboratory, Cold Spring Harbor, NY (1984).

Príklad 1

Kultivácia kmeňa Sorangium cellulosum produkujúceho epothilon

Sorangium cellulosum kmeň 90 (DSM 6773, Deutsche Sammlung von Mikroorganismen und Zellkulturen, Braunschweig) sa naočkoval na agarovú platňu s médiom SolE (0,35% glukóza, 0,05% trypton, 0,15% MgSO₄ x 7H₂O, 0,05% síran amónny, 0,1% CaCl₂, 0, 006% K₂HPO₄, 0,01% ditioničitan sodný, 0,0008% Fe-EDTA, 1,2% HEPES, 3,5% [obj./obj.] supernatant sterilizovanej stacionárnej kultúry S. cellulosum} s pH 7,4 a kultivoval v 30°C. Bunky asi z 1 cm² sa odobrali a preniesli do 5 ml tekutého média G51t (0,2% glukóza, 0,5% škrob, 0,2% trypton, 0,1% probion S, 0,05% CaCl₂x2H₂O, 0,05% MgSO₄x7H₂O, 1,2% HEPES, pH 7,4) a inkubovali v 30°C s trepaním 225 rpm. Po štyroch dňoch sa kultúra preniesla do 50 ml G51t a inkubovala rovnako ako predtým 5 dní. Kultúra sa potom použila na inokuláciu 500 ml G51t a inkubovala sa rovnakým spôsobom 6 dní. Kultúra sa potom centrifugovala 10 minút pri 4000 rpm a bunkový sediment sa resuspendoval v 50 ml G51t.

Príklad 2

Príprava knižnice bakteriálneho umelého chromozómu (Bac knižnica)

Na vytvorenie Bac knižnice sa bunky S. cellulosum opísané v príklade 1 zaliali do agarózového bloku, lyžovali a uvoľnená genómová DNA sa čiastočne naštiepila reštrikčným enzýmom Hindlll. Naštiepená DNA sa rozdelila na agarózovom géli elektroforézou v pulznom poli. Velké fragmenty DNA (asi 90 až 150 kb) sa izolovali z agarózového gélu a ligovali do vektora • · • · · • ·

·· ·· pBelobacII. Vektor pBelobacII obsahuje gén kódujúci rezistenciu proti chloramfenikolu, viacpočetné klonovacie miesto v géne lacZ, umožňujúce modro/bielu selekciu na vhodnom médiu a tiež gény potrebné na replikáciu a udržiavanie plazmidu v jednej až dvoch kópiách na bunku. Ligačná zmes sa použila na transformáciu elektrokompetentných buniek Escherichia coli DH10B. Rekombinantná kolónia rezistetná proti chloramfenikolu (biele mutanty lacZ) sa preniesli na pozitívne nabité nylonové membránové filtre v 384 mriežkach 3x3. Klony sa lyžovali a DNA sa fixovala k filtrom zosietením (crosslinking). Tie isté klony sa zakonzervovali v stave tekutej kultúry v -80°C.

Príklad 3

Skríning Bac knižnice Sorangium cellulosum 90 na prítomnosť sekvencií príbuzných s polyketidsyntázou typu I

Filtre s Bac knižnicou sa testovali so sondou štandardným postupom Southernovej hybridizácie. Použité DNA sondy kódovali β-ketoacylsyntázové domény z prvého a druhého modulu rifamycinovej polyketidsyntázy (Schupp a kol., FEMS Microbiology Letters 159: 201-207 (1998)). DNA sondy sa pripravili pomocou PCR s primármi obklopujúcimi každú ketosyntázovú doménu a použitím plazmidu pNE95 ako templátu (pNE95 je kozmid 2 podľa Schupp a kol. (1998)). 25 ng DNA amplifikovanej v PCR sa izolovalo z 0,5% agarózového gélu a označilo ³²P-dCTP použitím značiacej súpravy s náhodnými primérmi (Gibco-BRL, Bethesda MD, USA) postupom podľa pokynov výrobcu. Hybridizácia pri 65°C trvala 36 hodín a potom sa membrány 3x opláchli v roztoku s vysokou stringenciou (0,lxSSC a 0,5% SDS, 20 minút v 65°C). Membrána (blot) sa potom exponovala na fosforescenčnom tienidle a signál sa detegoval zariadením Phospholmager 445SI (Molecular Dynamics). Výsledkom je, že niektoré Bac klony silno hybridizovali so sondami. Tieto klony sa vybrali a kultivovali cez noc v 5 ml Luriovho média (LB) pri 37°C. Z vybraných Bac klonov sa izolovala Bac DNA typickým postupom minipreparácie. Bunky sa ···· ·· ·· ·· • ···· ··· ·«· · · · · · • · · · · · · ·· ···· ·· ··· resuspendovali v 200 μΐ lyzozýmového roztoku (50 mM glukóza, 10 mM EDTA, 25 mM Tris-HCl, 5 mg/ml lyzozým) , lyžovali v 400 μΐ lyzovacieho roztoku (0,2 N NaOH a 2% SDS), proteíny sa precipitovali (3,0M octan sodný, pH nastavené na 5,2 kyselinou octovou) a nakoniec Bac DNA sa precipitovala izopropanolom. DNA sa resuspendovala v 20 μΐ destilovanej vody bez nukleáz, naštiepila BamHI (New England Biolabs, Inc.) a separovala na 0,7% agarózovorn géli. Gél sa preniesol na filter a analyzoval Southernovou hybridizáciou už opísaným spôsobom a testoval, rovnako ako už bolo opísané, so sondou, ktorou bol Smal fragment DNA veľkosti 1,2 kb kódujúci ketosyntázovú doménu štvrtého modulu soraphenovej polyketidsyntázy (pozri Patent USA č. 5 716 849). Pozorovalo sa päť rôznych hybridizačných vzorcov. Jeden kloň reprezentujúci každý z piatich vzorcov sa vybral a klony sa označili pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33.

Príklad 4

Subklonovanie BamHI fragmentov z pEPO15, pEPO20, pEPO30, pEPO31 a pEPO33

DNA z piatich vybraných Bac klonov sa naštiepila BamHI a náhodne vybrané fragmenty sa subklonovali do miesta BamHI vektora pBluescript II SK+ (Stratagene). Subklony nesúce inzerty veľkosti 2 až 10 kb sa vybrali na sekvenovanie úsekov lemujúcich inzert a tiež pre testy so sondou Smal 1,2 kb opísanou skôr. Subklony vykazujúce vysoký stupeň sekvenčnej homológie so známou polyketidsyntázou a/alebo silnou hybridizáciou so soraphenovou ketosyntázovou doménou sa použili na ďalšie pokusy s prerušením génu.

Príklad 5

Príprava spontánnych mutantov Sorangium cellulosum, kmeň Soce90, rezistentných proti streptomycínu • e·· · · · · · • ···· ···· • · · · · · · ····· ·· ···· ··

0,1 ml trojdennej kultúry Sorangium cellulosum kmeň Soce90 v tekutom médiu G52-H (0,2% kvasinkový extrakt, 0,2% sójový proteín, 0,8% zemiakový škrob, 0,2% glukóza, x 7H₂O, 0,1% CaCl₂ x 2H₂O, 0,008% Fe-EDTA, pH upravené na pestovanej odtučnený

0,1% MgSO.]

7,4 pomocou KOH) sa vysialo na agarové platne s médiom SolE so

100 μg/ml streptomycínu. Platne sa inkubovali v 30°C 2 týždKolónie, ktoré rástli v tomto médiu, boli zistentné proti streptomycínu, ktoré sa mutanty repreočkovali a kultivovali ešte raz na rovnakom médiu so purifikáciu. Jeden streptomycínom na rezistentných proti streptomycínu sa vybral agarovom z týchto mutantov a označil BCE28/2.

Príklad 6

Prerušenie génu v Sorangium cellulosum BCE28/2 použitím subklonovaných BamHI fragmentov

BamHI inzerty subklonov vytvorených z piatich vybraných Bac klonov, ako je opísané skôr, sa izolovali a ligovali do jedinečného miesta BamHI plazmidu pCIB132 (pozri patent USA č. 5 716 849) . pCIB132 deriváty nesúce inzerty sa transformovali do buniek E. coli ED8767 obsahujúcich pomocný plazmid pUZ8 (Hedges and Matthew, Plasmid 2: 269-278 (1979). Transformanty sa použili ako donory v konjugačných pokusoch so Sorangium cellulosum BCE28/2 ako recipientom. Na konjugáciu sa 5 až 10 x 10⁹ buniek Sorangium cellulosum BCE28/2 z kultúry skorej stacionárnej fázy (dosahujúcej 5 x 10⁸ buniek/ml) kultivovalo pri 30°C v tekutom médiu G51b (G51b je zhodné s médiom G51t až na to, že trypton sa nahradil oeptónom) a miešalo v pomere buniek 1:1 s kultúrou E. coli ED8767 v neskorej logaritmickej fáze (v tekutom LB médiu) obsahujúcej deriváty pCIB132 nesúce subklonované fragmenty BamHI a pomocný plazmid pUZ8. Zmes buniek sa potom centrifugovala 10 minút pri 4000 rpm a bunky sa resuspendovali v 0,5 ml média G51b. Suspenzia sa potom naniesla ako kvapka do stredu misky so SolE agarom obsahujúcim 50 mg/1 kanamycín. Po 24 hodinovej inkubácii v 30°C sa bunky odobrali a resuspendovali v 0,8 ml ···· ·· ·· ·· · • ···· ···· ··· · · · · · · ···· · · · · · • · · · · · ··· ·· ···· ·· ··· média G51b. 0,1 až 0,3 ml suspenzie buniek sa potom nanieslo na selektívne tuhé médium SolE obsahujúce fleomycín (30 mg/1), streptomycín (300 mg/1) a kanamycin (50 mg/1). Protiselekcia donorového kmeňa E. coli sa uskutočňovala pomocou streptomycínu. Kolónie, ktoré rástli na tomto selektívnom médiu po inkubačnom čase 8 až 12 dní pri teplote 30°C sa izolovali pomocou plastovej očkovacej slučky a naočkovali na rovnaké agarové médium ako pre druhý cyklus selekcie a purifikácie a potom kultivovali. Kultúry odvodené z kolónii, ktoré rástli na tomto selektívnom agarovom médiu po 7 dňoch pri teplote 30°C boli transkonjugáty Sorangium cellulosum BCE28/2, ktoré získali rezistenciu proti fleomycinu konjugačným prenosom pCIB132 derivátov nesúcich subklonované BamHI fragmenty.

Integrácia plazmidov odvodených z pCIB132 do chromozómu Sorangium cellulosum BCE28/2 homológnou rekombináciou sa overila Southernovou hybridizáciou. Pre tento pokus sa kompletná DNA z 5 až 10 transkonjugantov pre každý prenesený BamHI fragment izolovala (z 10 ml kultúry pestovanej v médiu G52-H tri dni) metódou podľa publikácie Pospiech a Neumann, Trends Genet. 11: 217 (1995). Pre Southernovu hybridizáciu sa izolovala DNA naštiepená buď reštrikčným enzýmom BglII, Clal alebo Nôti a príslušné BamHI inzerty označené ³²P sa použili ako sondy.

Príklad 7

Analýza účinku integrovaných BamHI fragmentov na syntézu epothilonu Sorangium cellulosum po prerušení génu

Transkonjugované bunky pestované na asi 1 cm² povrchu selektívnych misiek SolE v druhom kole selekcie (pozri príklad 6) sú prenesené sterilnou plastovou slučkou do 10 ml média G52-H v 50 ml Erlenmeyerovej banke. Po inkubácii v 30°C a 18 0 rpm počas 3 dní, je tkanivová kultúra prenesená do 50 ml média G52-H do 200 ml Erlenmeyerovej banky. Po inkubácii v 30°C a 180 rpm počas

4-5 dní, je 10 ml tejto kultúry prenesených do 50 ml média 23B3 ··· · · · · · • · · · · · ··· ······ ·· · (0,2% glukóza, 2% zemiakový škrob, 1,6% odtučnený sójový proteín, 0,0008% sodná soľ Fe-EDTA, 0,5% HEPES (kyselina 4-(2-hydroxyetyl)-piperazín-1-etán-sulfónová), 2% (objem.) polysterolová živica XAD16 (Rohm & Haas), pH upravené na 7,8 s NaOH) v 200 ml

Erlenmeyerovej banke.

Kvantitatívne stanovenie vytvoreného epothilonu sa uskutočňuje po inkubácii kultúr v 30°C a 180 rpm počas 7 dni. Kompletné tkanivové médium sa filtruje saním cez 150 μιη nylonový filter. Živica zostávajúca na filtri sa potom resuspenduje v 10 ml izopropanolu a extrahuje trepaním suspenzie pri 180 rpm počas 1 hodiny. Z tejto suspenzie sa odoberie 1 ml a centrifuguje sa v 12,000 rpm mikrocentrifúge (Eppendorff) . Množstvo epothilonov A a B je určované pomocou HPLC a detekcie v 250 nm s detektorom UV-DAD (HPLC s kolónou Waters-Symetry C18 a 0,02% gradientom 60%-0% kyseliny fosforečnej a 40%-100% acetonitrilu).

Transkonjuganty s troma rôznymi integrovanými fragmentárni BaznHI subklonovanými z pEPO15, najmä transkonjuganty s fragmentom BaiaHI plazmidu pEPO15-21, transkonjuganty s fragmentom BaznHI plazmidu pEPO15-4-5 a transkonjuganty s fragmentom BaznHI plazmidu pEPO15-4-l, sú testované spôsobom, ktorý už bol opísaný skôr. Analýza HPLC zistila, že všetky transkonjuganty už neprodukujú epothilon A alebo B. Na rozdiel od toho sú epothilony A a B detegovateľné v koncentrácii 2-4 mg/1 v transkonjugantoch s integrovanými fragmentárni BaznHI, ktoré pochádzajú z pEPO20, pEPO30, pEPO31, pEPO33 a v parentálnom kmeni BCE28/2.

Príklad 8

Stanovenie nukleotidovej sekvencie klonovaných fragmentov a konštrukcia kontigov

A. Inzert BaznHI plazmidu pEPO15-21

Plazmidová DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-21] a určí sa nukleotidové sekvencia inzertu BaznHI ···· ·· ·· ·· · ···· ···· ··· · · · · · · ···· · 9 · · ·

9 9 9 9 9 9

999 99 9999 99 999 s veľkosťou 2,3 kb v pEPO15-21. Na dvojvláknovom templáte DNA sa uskutočňuje automatizované sekvenovanie DNA pomocou metódy s ukončením reťazcov dideoxynukleotidmi, s použitím automatického sekvenčného prístroja Applied Biosystems modelu 377. Použitými primérmi sú univerzálny reverzný primér (5' GGA AAC AGC TAT GAC CAT G 3' (SEQ ID NO: 24) a univerzálny priamy primér (5' GTA AAA CGA CGG CCA GT 3' (SEQ ID NO: 25)). V ďalších kolách sekvenčnej reakcie sa použili oligonukleotidy syntetizované na objednávku, navrhnuté pre 3' konce vopred určených sekvencií tak, aby predĺžili a spojili kontigy. Obidve vlákna sú kompletne sekvenované, každý nukleotid je sekvenovaný prinajmenšom dvakrát. Nukleotidová sekvencia sa spracuje použitím programu Sequencher verzia 3,0 (Gene Codes Corporation) a analyzuje použitím programov GCG, University of Wisconsin Genetics Computer Group. Nukleotidová sekvencia inzertu s veľkosťou 2213 bp zodpovedá nukleotidom 20779-22991 SEQ ID NO: 1.

B. Inzert BamHI plazmidu pEPO15-4-l

Plazmidová DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-4-l] a určí sa nukleotidová sekvencia inzertu BamHI s veľkosťou 3,9 kb v pEPO15-4-l tak, ako je opísané v kroku A. Nukleotidová sekvencia inzertu s veľkosťou 3909 bp zodpovedá nukleotidom 16876-20784 SEQ ID NO: 1.

C. Inzert BamHI Plazmidu pEPO15-4-5

Plazmid DNA sa izoluje z kmeňa Escherichia coli DH10B [pEPO15-4-5] a určí sa nukleotidová sekvencia inzertu BamHI s veľkosťou 2,3 kb v pEPO15-4-5 tak, ako je opísané v kroku A. Nukleotidová sekvencia inzertu s veľkosťou 2233 bp zodpovedá nukleotidom 42528-44760 SEQ ID NO: 1.

Príklad 9

Subklonovanie a usporiadanie fragmentov DNA z pEPO15 obsahujúcich gény pre biosyntézu epothilonu ···· ·· ·· ·· • ···· · · · ··· · · · · · • · · · · · · ·· ···· ·· ··· pEP015 je kompletne štiepený reštrikčným enzýmom HindlII a výsledné fragmenty sú subklonované do pBluescript II SK- alebo pNEB193 (New England Biolabs), ktorý sa štiepil HindlII a defosforyloval alkalickou fosfatázou z teľacích čriev. Vytvorilo sa šesť rôznych klonov, ktoré sa pomenovali pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24 (všetky založené na pNEB193) a pEPO15-H2.7 a pEPO15-H3.0 (obidva založené na pBluescript II SK-) .

Inzert BamHI z pEPO15-21 je izolovaný a označený DIG (pomocou súpravy Non-radioactive DNA labeling and detection systém, Boehringer Mannheim) a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH24 sa detegoval silný hybridizačný signál, čo ukazuje, že v pEPO15-NH24 je obsiahnutý pEPO15-21.

Inzert BamHI z pEPO15-4-l je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH24 a pEPO15-H2.7 sa detegovali silné hybridizačné signály. Údaje o nukleotidových sekvenciách získané z jedného konca každého z pEPO15-NH24 a pEPO15-H2.7 sú tiež celkom zhodné s vopred určenou sekvenciou inzertu BamHI z pEPO15-4-l. Tieto pokusy dokazujú, že pEPO15-4-l (ktorý obsahuje jedno vnútorné miesto HindlII) prekrýva pEPO15-H2.7 a pEPO15-NH24, a že pEPO15-H2.7 a pEPO15-NH24, v tomto poradí, sú susediace.

Inzert BamHI z pEPO15-4-5 sa izoloval a označil DIG ako je uvedené skôr a použil sa ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, ΡΕΡΟ15-ΝΗ6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Pre pEPO15-NH2 sa detegoval silný hybridizačný signál, čo ukazuje, že v pEPO15-NH2 je obsiahnutý pEPO15-21.

Získali sa údaje o nukleotidových sekvenciách z obidvoch ···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ···· ···· · • · · · · · · ··· ·· ···· ·· ··· koncov pEPO15-NH2 a z konca pEPO15-NH24, ktorý sa neprekrýva s pEPO15-4-l. Na základe týchto sekvencií sa navrhli PCR priméry NH24 s koncom B: GTGACTGGCGCCTGGAATCTGCATGAGC (SEQ ID NO: 26), NH2 S koncom A: AGCGGGAGCTTGCTAGACATTCTGTTTC (SEQ ID NO: 27), a NH2 s koncom B: GACGCGCCTCGGGCAGCGCCCCAA (SEQ ID NO: 28), smerujúce k miestam HindlII a sú použité v aplikačných reakciách s pEPO15 a, v samostatných pokusoch, s genómovou DNA Sorangium cellulosum Soce90 ako templát. Špecifická amplifikácia je nájdená s párom primérov NH24 s koncom B a NH2 s koncom A u obidvoch templátov. Ampliméry sú klonované do pBluescript II SK- a v plnom rozsahu sekvenované. Sekvencie amplimérov sú totožné a tiež celkom súhlasia s koncovými sekvenciami pEPO15-NH24 a pEPO15-NH2, fúzovanými v mieste HindlII, čo potvrdzuje, že fragmenty HindlII z pEPO15-NH2 a pEPO15-NH24 sú susediace v tomto poradí.

Inzert HindlII z pEPO15-H2.7 je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15 štiepenému Nôti. Fragment Nôti s veľkosťou asi 9 kb silne hybridizuje a je ďalej subklonovaný do pBluescript II SK-, ktorý sa štiepil Nôti a defosforyloval alkalickou fosfatázou z teľacích čriev pričom vzniká pEPO15-N9-16. Inzert Nôti z pEPO15-N9-16 je izolovaný a označený DIG ako je uvedené skôr a použitý ako sonda vo vysoko stringentných DNA hybridizačných pokusoch proti pEPO15-NHl, pEPO15-NH2, pEPO15-NH6, pEPO15-NH24, pEPO15-H2.7 a pEPO15-H3.0. Detegovali sa silné hybridizačné signály pre pEPO15-NH6, a tiež pre očakávané klony pEPO15-H2.7 a pEPO15-NH24. Získali sa údaje o nukleotidových sekvenciách z obidvoch koncov pEPO15-NH6 a z konca pEPO15-H2.7, ktorý sa neprekrýva s pEPO15-4-l. Potom sa navrhli PCR priméry smerujúce k miestam HindlII a použili sa v amplifikačných reakciách s pEPO15 a v samostatných pokusoch, s genómovou DNA Scrangium cellulosum Soce90 ako templát. K špecifickej amplifikácii došlo s párom primérov pEPO15-NH6 s koncom B: CACCGAAGCGTCGATCTGGTCCATC (SEQ ID NO: 29) a pEPO15-H2.7 s koncom ···· ·· ·· • ···· ··· ··· · · · · · ·· • · · · · · ·· ···· ·· ·

A: CGGTCAGATCGACGACGGGCTTTCC (SEQ ID NO: 30) u obidvoch templátov. Ampliméry sú klonované do pBluescript II SK- a úplne sekvenované. Sekvencie amplimérov sú totožné a tiež celkom súhlasia s koncovými sekvenciami pEPO15-NH6 a pEPO15-H2.7, fúzovanými v mieste HindlII, čo potvrdzuje, že fragmenty HindlII z pEPO15-NH6 a pEPO15-H2.7 sú susediace v tomto poradí.

Všetky tieto pokusy zhrnuté dohromady vytvorili kontig fragmentov HindlII pokrývajúci oblasť asi 55 kb a skladajúci sa z inzertov HindlII z pEPO15-NH6, pEPO15-H2.7, pEPO15-NH24 a pEPO15-NH2, v tomto poradí. Nezistilo sa, že inzerty zostávajúcich dvoch subklonov HindlII, najmä pEPO15-NHl a pEPO15-H3.0, sú časťou kontigu.

Príklad 10

Ďalšie rozšírenie kontigu subklonov pokrývajúceho gény pre biosyntézu epothilonu

Fragment BamHI-HindlII s veľkosťou asi 2,2 kb pochádzajúci z inzertu pEPO15-NH2, z jeho downstream konca, a teda predstavujúci downstream koniec kontigu subklonov opísaného v príklade 9, sa izoluje, označí DIG a použije v experimentoch so Southernovou hybridizáciou proti DNA z pEPO15-NH2 štiepenej rôznymi enzýmami. Vždy sa zistilo, že silne hybridizujúce pásy majú rovnakú veľkosť medzi dvoma cieľovými DNA, čo ukazuje, že fragment cenómovej DNA Sorangium cellulosum So ce90 klonovaný do pEPO15 končí miestom HindlII na konci po smere pEPO15-NH2.

Vytvorí sa kozmidová DNA knižnica Sorangium cellulosum So ce90 s použitím zavedených postupov v pScosTriplex-II (Ji, a kol., Genomics, 31, 185-192, 1996). V krátkosti, genómová DNA s vysokou molekulovou hmotnosťou so Sorangium cellulosum So ce90 je čiastočne štiepená reštrikčným enzýmom Sau3AI, aby vznikli fragmenty s priemernou veľkosťou asi 40 kb a ligovali sa do pScosTriplex-II naštiepeného BamHI a Xbal. Ligačná zmes je zbalená pomocou Gigapack III XL (Stratagene) a použitá na • ···· ·· ·· ·· ··· ···· ··· • ··· · · · · ·

9 9 9 9 9 9

9999 99 999 transfekciu buniek E. coli XL1 Blue MR.

Kozmídová knižnica sa skríningovala fragmentom BamHI-HindlII s veľkosťou asi 2,2 kb pochádzajúceho z downstream konca inzertu z pEPO15-NH2, ktorý sa použil ako sonda v hybridizácii kolónií. Vybraný je silne hybridizujúci kmeň, nazvaný pEPO4E7.

DNA pEPO4E7 sa izolovala, štiepila niekoľkými reštrikčnými endonukleázami a analyzovala Southernovou hybridizáciou fragmentom BamHI-HindlII s veľkosťou 2,2 kb. Vybraný bol silne hybridizujúci fragment Notl s veľkosťou asi 9 kb, ktorý bol subklonovaný do pBluescript II SK- a vzniká pEPO4E7-N9-8. Ďalšie experimenty so Southernovou hybridizáciou ukázali, že inzert Notl z pEPO4E7-N9-8 s veľkosťou asi 9 kb prekrýva pEPO15-NH2 po 6 kb vo fragmente Notl-HindlII, zatiaľ čo zostávajúce asi 3 kb fragmentu HindlII-Notl rozširujú kontig subklonov opísaný v príklade 9. Koncové sekvenovanie ale zistilo, že downstream koniec inzertu z pEPO4E7-N9-8 obsahuje polylinker BamHI-Notl z pScosTriplex-II, a teda ukazuje, že inzert genómovej DNA z pEPO4E7 končí v mieste Sau3AI, v predĺženom fragmente HindlII-NotI, a že namiesto Notl pochádza z pScosTriplex-II.

Fragment Pstl-Sall s veľkosťou asi 1,6 kb pochádzajúci z predĺženého subfragmentu Hindlll-Notl z pEPO4E7-N9-8 s veľkosťou asi 3 kb, obsahujúci len sekvenciu pochádzajúcu zo Sorangium cellulosum So ce90 bez vektora, je použitý ako sonda proti knižnici umelého bakteriálneho chromozómu (Bac knižnici) opísanej v príklade 2. Naviac sa zistilo, že so sondou silne hybridizuje skôr izolovaný EPO15, kloň Bac, nazvaný EPO32. pEPO32 sa izoloval, štiepil s niekoľkými reštrikčnými endonukleázami a hybridizoval so sondou Pstl-Sall s veľkosťou asi 1,6 kb. Zistilo sa, že so sondou silne hybridizuje fragment HindlII-EcoRV s veľkosťou asi 13 kb a subklonoval sa do pBluescript II SK- naštiepeného s HindlII a HincII a vzniká pEPO32-HEV15.

Navrhli sa oligonukleotidové priméry založené na koncovej sekvencií po smere z pEPO15-NH2 a na koncovej sekvencií v proti-

• 9 · · ·· ···· smere (HíndlII) pochádzajúcej z pEPO32-HEV15 a použili v sekvenčných reakciách s pEPO4E7-N9-8 ako templát. Sekvencie odkryli existenciu malého fragmentu HindlII (EPO4E7-HO.02) s veľkosťou 24 bp, nezistiteľného štandardnou reštrikčnou analýzou, oddeľujúceho miesto HindlII na konci po smere z pEPO15-NH2 od miesta HindlII na konci v protismere z pEPO32-HEV15.

Kontig subklonov opísaný v príklade 9 je teda rozšírený zahrnutím fragmentu HindlII z EPO4E7-HO.02 a inzert z pEPO32-HEV15 a predstavuje inzerty z: pEPO15-NH6, pEPO15-H2.7, pEPO15-NH24, pEPO15-NH2, ΕΡΟ4Ε7-ΗΘ.02 a pEPO32-HEV15, v tomto poradí.

Príklad 11

Stanovenie nukleotidovej sekvencie kontigu subklonov pokrývajúceho gény pre biosyntézu epothilonu

Nukleotidová sekvencia kontigu subklonov opísaného v príklade 10 sa stanovila takto.

pEPO15-H2.7, Plazmidová DNA sa izolovala z kmeňa Escherichia coli DH10B [pEPO15-H2.7] a určila sa nukleotidová sekvencia inzertu BamHI v pEPO15-H2.7 s veľkosťou 2,7 kb. Na dvojvláknovom templáte DNA sa uskutočňuje automatizované sekvenovanie DNA pomocou metódy s ukončením reťazcov dideoxynukleotidmi, s použitím sekvenačného prístroja Applied Biosystems modelu 377. Použitými primármi sú univerzálny reverzný primér (5' GGA AAC AGC TAT GAC CAT G 3' (SEQ ID NO: 24)) a univerzálny priamy primér (5' GTA AAA CGA CGG CCA GT 3' (SEQ ID NO: 25)). V ďalších kolách sekvenačnej reakcie sú použité oligonukleotidy syntetizované na objednávku, navrhnuté pre 3' konce vopred určených sekvencii tak, aby predĺžili a spojili kontigy.

pEPO15-NH6, pEPO15-NH24 a pEPO15-NH2. Inzerty HindlII týchto plazmidov sú izolované a podrobené náhodnej fragmentácii s použitím prístroja Hydroshear (Genomic Instrumentation Services,

Inc.) a za vzniku priemernej veľkosti fragmentov 1-2 kb. Frag54 ···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · ·· ·· ···· ·· · menty sú koncovo opravené s použitím enzýmov T4 DNA polymerázy a Klenowovej DNA polymerázy v prítomnosti deoxynukleotidtrifosfátov a fosforylované T4 DNA kinázou v prítomnosti ribo-ATP. Fragmenty s veľkosťou v rozsahu 1,5-2,2 kb sú izolované z agarózových gélov a ligované do pBluescript II SK-, ktorý sa štiepil s EcoRV a defosforyloval. Náhodné subklony sú sekvenované s použitím univerzálneho reverzného a univerzálneho priameho priméra.

pEPO32-HEV15. pEPO32-HEV15 je štiepený s HindlII a Sspľ, je izolovaný fragment s veľkosťou asi 13,3 kb obsahujúci asi 13 kb inzert ŕfindl II-EcoRV zo So. celí ul os um So ce90 a fragment HincIISspI s veľkosťou 0,3 kb z pBluescript II SK-, tento fragment je čiastočne štiepený HaelII a vznikajú fragmenty s priemernou veľkosťou 1-2 kb. Fragmenty s veľkosťou v rozsahu 1,5-2,2 kb sú izolované z agarózových gélov a ligované do pBluescript II SK-, ktorý sa štiepil s EcoRV a defosforyloval. Náhodné subklony sú sekvenované s použitím univerzálneho reverzného a univerzálneho priameho priméra.

Chromatogramy sa analyzovali a spojili do kontigov pomocou programov Phred, Phrap a Consed (Ewing a kol., Genome Res., 8(3), 175-185, 1998, Ewing a kol., Genome Res., 8(3)

186-194, 1998, Gordon a kol., Genome Res., 8(3), 195-202, 1998). Medzery v kontigu sa vyplnili, nezrovnalosti v sekvenciách sa vyriešili, oblasti s nízkou kvalitou sa znova sekvenovali s použitím oligonukleotidov navrhnutých na objednávku na sekvenovanie buď originálnych subklonov alebo vybraných subklonov z náhodných knižníc subklonov. Obidve vlákna sa teda kompletne sekvenovali a pre každý pár zásad je minimálne agregované skóre podía Phred aspoň 40 (hladina spoľahlivosti 99,99%).

Nukleotidová sekvencia kontigu s veľkosťou 68750 bp je tu uvedená ako SEQ ID NO: 1.

···· ·· ·· ·· · • · · · · · · ·· ··· · · · · · · ···· · · · · · • · · · · · · ·· ·· ···· ·· ···

Príklad 12

Analýza nukleotidovej sekvencie génov pre biosyntézu epothilonu

Zistilo sa, že SEQ ID NO: 1 obsahuje 22 otvorených čítacích rámcov (ORF), ako je podrobne uvedené ďalej v tabulke 1:

Tabulka 1

ORF	Štart kodón	Stop kodón	Homológia dedukovaného proteínu	Predpokladaná funkcia dedukovaného proteínu
orfl	mimo sekvenovanú oblasť	1826
or f2*	3171	1900	hypotetický proteín SP: Q11037; DD-peptidáza SP:P15555
orf3	3415	5556	Na/H prenášač PID: Dl017724	prenos
or f4*	5992	5612
orf5	6226	6675
epoh.	7610	11875	polyketidsyntáza typ I	epothilonsyntáza: tvorba tiazolového kruhu
epoP	11872	16104	neribozómová peptidsyntetáza	epothilonsyntáza: tvorba tiazolového kruhu
epoQ	16251	21749	polyketidsyntáza type I	epothilonsyntáza: tvorba polyketidovej kostry
epoC	217 4 6	43519	polyketidsyntáza type I	epothilonsyntáza: tvorba polyketidovej kostry
epoD	43524	54920	polyketidsyntáza type I	epothilonsyntáza: tvorba polyketidovej kostry
epoE	54935	62254	polyketidsyntáza type I	epothilonsyntáza: tvorba polyketidovej kostry
epoF	62369	63628	cytochróm P450	epothilonmakrolaktónoxidáza
or f 6	63779	64333
orfl*	64290	63853
or f 8	64363	64920
or f 9*	64727	64287
orflO	65063	65767
orfl1*	65874	65008
orf12*	66338	65871

·· ·· ·· • · · · · · · • · · · · • · · Λ · · · · · ·

orf 13	66667	67137
orf 14	67334	68251	hypotetický proteín GI:3293544; proteínový prenášač katiónov GI:2623026	prenos
orf 15	68346	mimo sekvenovanú oblasť

* na reverznom komplementárnom vlákne. Číslovanie podľa SEQ ID NO: 1.

epoA (nukleotidy 7610-11875 SEQ ID NO: 1) kóduje EPOS A (SEQ ID NO: 2), polyketidsyntázu typu I skladajúcu sa z jedného modulu a obsahujúcu nasledujúce domény: β-ketoacylsyntázu (KS) (nukleotidy 7643-8920 SEQ ID NO: 1, aminokyseliny 11-437 SEQ ID NO: 2), acyltransferázu (AT) (nukleotidy 9236-10201 SEQ ID NO: 1, aminokyseliny 543-864 SEQ ID NO: 2), enoylreduktázu (ER) (nukleotidy 10529-11428 SEQ ID NO: 1, aminokyseliny 974-1273 SEQ ID NO: 2) a homológnu doménu proteínu prenášajúceho acylovú skupinu (ACP) (nukleotidy 11549-11764 SEQ ID NO: 1, aminokyseliny 13141385 SEQ ID NO: 2) . Porovnanie sekvencii a analýza motívov (Haydock a kol., FEBS Lett., 374, 246-248, 1995, Táng a kol., Gene, 216, 255-265, 1998) zistili, že AT kódovaná EPOS A je špecifická pre malonyl-CoA. EPOS A by sa mohol zapojiť do iniciácie biosyntézy epothilonu zavedením acetátovej jednotky do multienzýmového komplexu, ktorý neskôr tvorí časť 2-metyltiazolového kruhu (C26 a C20) .

epoP (nukleotidy 11872-16104 SEQ ID NO: 1) kóduje EPOS P (SEQ ID NO: 3) neribozómovú peptidsyntetázu obsahujúcu jeden modul. EPOS P obsahuje nasledujúce domény:

- doménu vytvárania peptidovej väzby, ako je znázornené motívom K (aminokyseliny 72-81 [FPLTDIQESY] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 12085-12114 SEQ ID NO: 1) , motív

L (aminokyseliny 118-125 [VVARHDML] SEQ ID NO: 3, zodpovedajúce

9	····	··	··	• ·	•
• ·	•	e ·	• ·	• ·	9 9
•	···	• ·	•	• ·	•
•	•	• ·	•	• ·	•
		• ·	····	··	• · ·

nukleotidovým pozíciám 12223-12246 SEQ ID NO: 1), motív M (aminokyseliny 199-212 [SIDLINVDLGSLSI] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 12466-12507 SEQ ID NO: 1) a motív O (aminokyseliny 353-363 [GDFTSMVLLDI] SEQ ID NO: 3, zodpovedajúcu nukleotidovým pozíciám 12928-12960 SEQ ID NO: 1) ,

- doménu vytvárania aminoacyladenylátu, ako je znázornené motívom A (aminokyseliny 549-565 [LTYEELSRRSRRLGARL] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13516-13566 SEQ ID NO: 1), motív B (aminokyseliny 588-603 [VAVLAVLESGAAYVPI] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13633-13680 SEQ ID NO: 1), motív C (aminokyseliny 669-684 [AYVIYTSGSTGLPKGV] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 13876-13923 SEQ ID NO: 1), motív D (aminokyseliny 815-821 [SLGGATE] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14313-14334 SEQ ID NO: 1) , motív E (aminokyseliny 868-892 [GQLYIGGVGLALGYWRDEEKTRKSF] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14473-14547 SEQ ID NO: 1) , motív F (aminokyseliny 903-912 [YKTGDLGRYL] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14578-14607 SEQ ID NO: 1), motív G (aminokyseliny 918-940 [EFMGREDNQIKLRGYRVELGEIE] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14623-14692 SEQ ID NO: 1), motív H (aminokyseliny 1268-1274 [LPEYMVP] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15673-15693 SEQ ID NO: 1) a motív I (aminokyseliny 1285-1297 [LTSNGKVDRKALR] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15724-15762 SEQ ID NO: 1),

- neznámu doménu, vloženú medzi motívy G a H domény vytvárania aminoacyladenylátu (aminokyseliny 973-1256 SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 14788-15639 SEQ ID NO: 1), a

- homológnu doménu proteínu prenášajúceho peptidylovú skupinu (PCP), znázornenú motívom J (aminokyseliny 1344-1351 [GATSIHIV] SEQ ID NO: 3, zodpovedajúce nukleotidovým pozíciám 15901-15924 SEQ ID NO: 1).

···· ·· ·· ·· • · · · · · · ··· · · · · · • · · · · · ·· ···· · ·

Predpokladá sa, že EPOS P je zapojený do aktivácie cysteínu prostredníctvom adenylácie, väzbou aktivovaného cysteínu ako aminoacyl-S-PCP, tvorením peptidovej väzby medzi cysteínom s naviazaným enzýmom a acetyl-S-ACP dodávaným EPOS A, a do tvorby počiatočného tiazolínového kruhu prostredníctvom intramolekulovej heterocyklizácie. Neznáma doména EPOS P prejavuje velmi slabú homológiu s NAD(P)H oxidázami a reduktázami z druhu Bacillus. Táto neznáma doména a/alebo doména ER z EPOS A môžu byť teda zapojené do oxidácie počiatočného 2-metyltiazolínového kruhu na 2-metyltiazol.

epoB (nukleotidy 16251-21749 SEQ ID NO: 1) kóduje EPOS B (SEQ ID NO: 4), polyketidsyntázu typu I skladajúcu sa z jedného modulu a obsahujúcu nasledujúce domény: KS (nukleotidy 16269— 17546 SEQ ID NO: 1, aminokyseliny 7-432 SEQ ID NO: 4), AT (nukleotidy 17865-18827 SEQ ID NO: 1, aminokyseliny 539-859 SEQ ID NO: 4), dehydratázu (DH) (nukleotidy 18855-19361 SEQ ID NO: 1, aminokyseliny 869-1037 SEQ ID NO: 4), β-ketoreduktázu (KR) (nukleotidy 20565-21302 SEQ ID NO: 1, aminokyseliny 1439-1684 SEQ ID NO: 4) a ACP (nukleotidy 21414-21626 SEQ ID NO: 1, aminokyseliny 1722-1792 SEQ ID NO: 4). Porovnanie sekvencií a analýza motívov ukázali, že AT kódovaná EPOS B je špecifická pre metylmalonyl-CoA. EPOS A by sa mohol zapojiť do extenzie prvého polyketidového reťazca katalýzou kondenzácie podobnej Claisenovej kondenzácii 2-metyl-4-tiazolkarboxyl-S-PCP spúšťacej skupiny s metylmalonylom-S-ACP, a sprievodnou redukciou b-ketoskupiny C17 na enoylovú skupinu.

epoC (nukleotidy 21746-43519 SEQ ID NO: 1) kóduje EPOS C (SEQ ID NO: 5), polyketidsyntázu typu I skladajúcu sa zo 4 modulov. Prvý modul obsahuje KS (nukleotidy 21860-23116 SEQ ID NO: 1, aminokyseliny 39-457 SEQ ID NO: 5), malonyl-CoA (malonylkoenzým A) špecifickú AT (nukleotidy 23431-24397 SEQ ID NO: 1, aminokyseliny 563-884 SEQ ID NO: 5), KR (nukleotidy 25184-25942 SEQ ID NO: 1, aminokyseliny 1147-1399 SEQ ID NO: 5) a ACP (nukleotidy 26045-26263 SEQ ID NO: 1, aminokyseliny 1434-1506 SEQ ID NO:

• · • ···· ··· ··· · · · · · • · · · 9 9 ··· ·· ···· ·· ·

5). Tento modul inkorporuje acetátovú predlžovaciu jednotku (C14-C13) a redukuje β-ketoskupinu na C15 na hydroxylovú skupinu, ktorá sa zúčastní výslednej laktonizácie epothilonmakrolaktónového kruhu. Druhý modul EPOS C obsahuje KS (nukleotidy 26318— 27595 SEQ ID NO: 1, aminokyseliny 1524-1950 SEQ ID NO: 5), malonyl-CoA špecifickú AT (nukleotidy 27911-28876 SEQ ID NO: 1, aminokyseliny 2056-2377 SEQ ID NO: 5), KR (nukleotidy 29678-30429 SEQ ID NO: 1, aminokyseliny 2645-2895 SEQ ID NO: 5) a ACP (nukleotidy 30539-30759 SEQ ID NO: 1, aminokyseliny 2932-3005 SEQ ID NO: 5) . Tento modul inkorporuje acetátovú predlžovaciu jednotku (C12-C11) a redukuje β-ketoskupinu na C13 na hydroxylovú skupinu. Vznikajúci polyketidový reťazec epothilonu teda zodpovedá epothilonu A a inkorporácia metylového postranného reťazca na C12 v epothilone B by vyžadovala post-PKS C-metyltransferázovú aktivitu. Tvorba epoxykruhu v C13-C12 by tiež vyžadovala post-PKS oxidačný krok. Tretí modul EPOS C obsahuje KS (nukleotidy 30815-32092 SEQ ID NO: 1, aminokyseliny 3024-3449 SEQ ID NO: 5) , malonyl-CoA špecifickú AT (nukleotidy 32408-33373 SEQ ID NO: 1, aminokyseliny 3555-3876 SEQ ID NO: 5) , DH (nukleotidy 33401-33889 SEQ ID NO: 1, aminokyseliny 3886-4048 SEQ ID NO: 5), ER (nukleotidy 35042-35902 SEQ ID NO: 1, aminokyseliny 4433-4719 SEQ ID NO: 5), KR (nukleotidy 35930-36667 SEQ ID NO: 1, aminokyseliny 4729-4974 SEQ ID NO: 5) a ACP (nukleotidy 36773-36991 SEQ ID NO: 1, aminokyseliny 5010-5082 SEQ ID NO: 5) . Tento modul inkorporuje acetátovú predlžovaciu jednotku (C10-C9) a úplne redukuje β-ketoskupinu na Cll. Štvrtý modul EPOS C obsahuje KS (nukleotidy 37052-38320 SEQ ID NO: 1, aminokyseliny 5103-5525 SEQ ID NO: 5) , metylmalonyl-CoA špecifickú AT (nukleotidy 38636-39598 SEQ ID NO: 1, aminokyseliny 5631-5951 SEQ ID NO: 5), DH (nukleotidy 39635-40141 SEQ ID NO: 1, aminokyseliny 5964-6132 SEQ ID NO: 5), ER (nukleotidy 41369-42256 SEQ ID NO: 1, aminokyseliny 6542-6837 SEQ ID NO: 5), KR (nukleotidy 42314-43048 SEQ ID NO: 1, aminokyseliny 6857-7101 SEQ ID NO: 5) a ACP (nukleotidy 43163-43378 SEQ ID NO: 1, aminokyseliny 7140-7211 SEQ ID NO:

• ···· ·· ·· ·· ··· ···· ··· • ··· · · · · · • · · · · ···· • · · · · · · ··· ··· ·· ···· ·· ·

5) . Tento modul inkorporuje propionátovú predlžovaciu jednotku (C24 a C8-C7) a úplne redukuje β-ketoskupinu na C9.

epoD (nukleotidy 43524-54920 SEQ ID NO: 1) kóduje EPOS D (SEQ ID NO: 6) , polyketidsyntázu typu I skladajúcu sa z 2 modulov. Prvý modul obsahuje KS (nukleotidy 43626-44885 SEQ ID NO: 1, aminokyseliny 35-454 SEQ ID NO: 6), metylmalonyl CoA-špecifickú AT (nukleotidy 45204-46166 SEQ ID NO: 1, aminokyseliny 561-881 SEQ ID NO: 6), KR (nukleotidy 46950-47702 SEQ ID NO: 1, aminokyseliny 1143-1393 SEQ ID NO: 6) a ACP (nukleotidy 47811-48032 SEQ ID NO: 1, aminokyseliny 1430-1503 SEQ ID NO: 6). Tento modul inkorporuje propionátovú predlžovaciu jednotku (C23 a C6-C5) a redukuje β-ketoskupinu na C7 na hydroxylovú skupinu. Druhý modul obsahuje KS (nukleotidy 48087-49361 SEQ ID NO: 1, aminokyseliny 1522-1946 SEQ ID NO: 6), metylmalonyl-CoA špecifickú AT (nukleotidy 49680-50642 SEQ ID NO: 1, aminokyseliny 2053-2373 SEQ ID NO: 6), DH (nukleotidy 50670-51176 SEQ ID NO: 1, aminokyseliny 2383-2551 SEQ ID NO: 6), metyltransferázu (MT, nukleotidy 51534-52657 SEQ ID NO: 1, aminokyseliny 2671-3045 SEQ ID NO: 6), KR (nukleotidy 53697-54431 SEQ ID NO: 1, aminokyseliny 3392-3636 SEQ ID NO: 6) a ACP (nukleotidy 54540-54758 SEQ ID NO: 1, aminokyseliny 3673-3745 SEQ ID NO: 6). Tento modul inkorporuje propionátovú predlžovaciu jednotku (C21 alebo C22 a C4-C3) a redukuje β-ketoskupinu na C5 na hydroxylovú skupinu. Táto redukcia je neočakávaná, pretože epothilony obsahujú ketoskupinu na C5. Nezrovnalosti tohto druhu medzi dedukovanou redukujúcou schopnosťou PKS modulov a redoxným stavom zospovedajúcich pozícií vo výsledných polyketidových produktoch sú publikované v literatúre (pozri napríklad Schwecke a kol., Proc. Natl. Acad. Sci. USA, 92, 7839-7843, 1995, a Schupp a kol., FEMS Microbiology Letters, 159, 201-207, 1998). Dôležitý charakteristický rys epothilonov je prítomnosť gem-metylových postranných skupín na

C4 (C21 a C22) . Predpokladá sa, že druhý modul EPOS D inkorporuje propionátovú jednotku do rastúceho polyketidového reťazca, s poskytnutím jedného metylového postranného reťazca na C4. Ten• ···· ·· ·· ·· «· · ···· ··· • ··· · · · · · • · · · 9 9 9 999 999 99 9999 99 999 to modul obsahuje tiež metyltransferázovú doménu integrovanú do PKS medzi domény DH a KR, v usporiadaní podobnom usporiadaniu, ktoré sa pozorovalo u HMWP1 yersiniabactinsyntázy (Gehring,

A.M., DeMoll, E., Fetherston, J.D., Mori, I., Mayhew, G.F., Blattner, F.R., Walsh, C.T. a Perry, R.D.: Iron acquisition in plague: modular logic in enzymatic biogenesis of yersiniabactin by Yersinia pestis. Chem. Biol., 5, 573-586, 1998). Predpokladá sa, že táto MT doména v EPOS D je zodpovedná za inkorporáciu druhej metylovej postrannej skupiny (C21 alebo C22) na C4.

epoE (nukleotidy 54935-62254 SEQ ID NO: 1) kóduje EPOS E (SEQ ID NO: 7), polyketidsyntázu typu I skladajúcu sa z 1 modulu, obsahujúcu KS (nukleotidy 55028-56284 SEQ ID NO: 1, aminokyseliny 32-450 SEQ ID NO: 7), malonyl-CoA špecifickú AT (nukleotidy 56600-57565 SEQ ID NO: 1, aminokyseliny 556-877 SEQ ID NO: 7), DH (nukleotidy 57593-58087 SEQ ID NO: 1, aminokyseliny 887-1051 SEQ ID NO: 7), pravdepodobne nefunkčnú ER (nukleotidy 59366-60304 SEQ ID NO: 1, aminokyseliny 1478-1790 SEQ ID NO: 7), KR (nukleotidy 60362-61099 SEQ ID NO: 1, aminokyseliny 1810-2055 SEQ ID NO: 7), ACP (nukleotidy 61211-61426 SEQ ID NO: 1, aminokyseliny 2093-2164 SEQ ID NO: 7) a tioesterázu (TE) (nukleotidy 61427-62254 SEQ ID NO: 1, aminokyseliny 2165-2439 SEQ ID NO: 7). ER doména v tomto module obsahuje motív aktívneho miesta s niektorými vysoko neobvyklými substitúciami aminokyselín, ktoré pravdepodobne robia túto doménu neaktívnou. Modul inkorporuje acetátovú predlžovaciu jednotku (C2-C1) a redukuje β-ketoskupinu na C3 na enoylovú skupinu. Epothilony obsahujú hydroxylovú skupinu na C3, takže táto redukcia sa tiež javí nadmerná, ako je opísané pri druhom module EPOS D. TE doména EPOS E sa zúčastňuje uvoľnenia a cyklizácie vytvoreného polyketidového reťazca prostredníctvom laktonizácie medzi karboxylovou skupinou Cl a hydroxylovou skupinou C15.

Päť ORF sa detegovalo upstream od epoA v sekvenovanej oblasti. Čiastočne sekvenovaný orŕl nemá žiadne homológy v databázach sekvencii. Dedukovaný proteínový produkt (Orf 2, • ···· ·· ·· ·· ··· ···· · · · • ··· 9 9999

9 9 9 9 99

9999 99999

SEQ ID NO: 10) orf2 (nukleotidy 3171-1900 na reverznom komplementárnom vlákne SEQ ID NO: 1) vykazuje výraznú podobnosť s hypotetickými ORF z Mycobacterium a Streptomyces coelicolor, a vzdialenejšiu podobnosť s karboxypeptidázami a DD-peptidázami rôznych baktérii. Dedukovaný proteínový produkt orf3 (nukleotidy 3415-5556 SEQ ID NO: 1), Orf 3 (SEQ ID NO: 11), vykazuje homológiu k Na/H prenášačom z rôznych baktérií. Orf 3 sa možno zúčastňuje exportu epothilonov z produkujúceho kmeňa. or f 4 a orf5 namajú žiadne homológy v databázach sekvencií.

Jedenásť ORF sa našlo downstream od epoE v sekvenovanej oblasti. epoF (nukleotidy 62369-63628 SEQ ID NO: 1) kóduje EPOS F (SEQ ID NO: 8), dedukovaný proteín s výraznou podobnosťou sekvencie s oxygenázami cytochrómu P450. EPOS F sa môže zúčastniť regulácie redoxného stavu atómov uhlíka C12, C5 a/alebo C3. Dedukovaný proteínový produkt orf!4 (nukleotidy 67334-68251 SEQ ID NO: 1), Orf 14 (SEQ ID NO: 22) vykazuje výraznú podobnosť s GI:3293544, hypotetickým proteínom bez predpovedanej funkcie zo Sreptomyces coelicolor, a tiež s GI:2654559, ľudským embryonálnym pľúcnym proteínom. Je tiež vzdialenejšie príbuzný s proteínovými prenášačmi katiónov ako je GI:2623026 z Methanobacterium thermoautotrophicum, takže sa môže tiež zúčastniť exportu epothilonov z produkujúcich buniek. Zvyšné ORF (orf6-orŕl3 a orfl5) neukazujú žiadne homológie s položkami v databázach sekvencií.

Príklad 13

Rekombinar.tná expresia génov pre biosyntézu epothilonu

Gény epothilonsyntázy podľa predloženého vynálezu sa exprimovali v heterológnych organizmoch s cieľom produkcie epothilonu vo väčšom množstve ako sa môže dosiahnuť fermentáciou Sorangium cellulosum. Výhodný hostiteľ pre heterológnu expresiu je Streptomyces, napríklad Streptomyces coelicolor, ktorá prirodzene produkuje polyketid aktinorhodin. Techniky pre rekombinantnú PKS ···· ·· ·· ·· • · · · · · · ··· · · · e · • · · e · · ··· ·· ···· ·· · génovú expresiu v hostiteľovi sú opísané autormi McDaniel a kol. (Science, 262, 1546-1550, 1993) a Kao a kol. (Science, 265, 509-512, 1994). (Pozri tiež Holmes a kol., EMBO Journal, 12(8),

3183-3191, 1993, a Bibb a kol., Gene, 38, 215-226, 1985, a tiež v patentoch USA č. 5 521 077, 5 672 491 a 5 712 146, ktoré sú tu zahrnuté formou odkazu.

je heterológny hostitelský kmeň upravený metódami genetického inžinierstva tak, aby obsahoval chromozómovú deléciu aktinorhodinového (act) génového klustera. Expresné gény epothilonsyntázy podľa vynálezu sú plazmidu citlivého na do E. coli (McDaniel

Podlá jednej metódy plazmidy obsahujúce konštruované prenosom DNA z donorového teplotu na recipientný kyvadlový vektor a kol., 1993 a Kao a kol. 1994) tak, zabudované homológnou rekombináciou do kluster epothilonsyntázy fragmentu. Po (1994), je DNA coelicolor podľa protokolov kol. (Genetic Manipulation že gény syntázy sú vektora. Alebo génový do vektora ligáciou reštrikčného v Kao a kol.

je vložený selekcii, napríklad ako je opísaná z vektora vnesená do kmeňa act-mínus

Streptomyces Hopwood a

Manual, John Innes Foundation, uvedených v práci of Streptomyces.

Norwich, Veľká

Bri, zahrnutej tu formou odkazu.

Rekombinantný kmeň

Streptomyces a produkuje podľa predloženého organizmoch, ako sú zu a/alebo E. coli.

(Hopwood a kol., gény epothilonsyntázy v iných hostiteľských

1985)

Gény PKS a NRPS coli s použitím vektora pT7-7, ktorý Tábor a kol., Proc. Natl. Acad. Sci.

je pestovaný na médiu R2YE epothilony. Alternatívne sú vynálezu exprimované pseudomonády, Bacillus, kvasinky, bunky hmysú výhodne exprimované v E. používa promótor T7. (Pozri

USA, 82,

1074-1078, 1985).

V inom uskutočnení sa použili a pKK223-2 na expresiu génov PKS a kripčnej alebo translačnej fúzii, Expresie génov PKS a NRPS expresné vektory pKK223-3

NRPS v E.

coli, buď v transza promótorom tac alebo trc.

v heterológnych hostiteľoch, ktorí nemajú prirodzene fosfopanteteinyl (P-pant) potrebný na posttranslačnú modifikáciu PKS enzýmov, vyžadujú spoločnú expresiu ···· ·· ·· ·· · • ···· ···· ··· · · · · · · ··· · ··· · · • · · · · · · ··· ·· ···· ·· ··· (koexpresiu) P-pant transferázy v hostiteľovi, ako je opísané autormi Kealey a kol. (Proc. Natl. Acad. Sci. USA, 95, 505-509, 1998) .

Príklad 14

Izolácia epothilonov z produkčných kmeňov

Príklady postupov kultivácie, fermentácie a extrakcie polyketidov, ktoré sú vhodné na prípravu epothilonov ako z natívneho tak rekombinantného hostiteľa podľa predloženého vynálezu sú opísané napríklad v dokumentoch WO 93/10121, Patent USA č. 5 639 949, príklad 57, Gerth a kol., J. Antibiotics 49: 560— 563 (1996), švajčiarska patentová prihláška č. 396/98 podaná

19.februára 1998, patentová prihláška USA č. 09/248 910, opisujúca tiež mutovaný kmeň Sorangium cellulosum, pričom všetky tieto dokumenty sú zahrnuté formou odkazu. Nasledujúce postupy sa použili na izoláciu epothilonov z kultúr Sorangium cellulosum kmeňa So ce90 a môžu sa použiť tiež na izoláciu epothilonov z rekombinantného hostiteľa.

A. Kultivácia kmeňov produkujúcich epothilon

Kmeň: Sorangium cellulosum Soce-90 alebo rekombinantný hostiteľský kmeň podľa predloženého vynálezu

Uchovávanie kmeňa: v kvapalnom N₂.

Kultivačné médiá: Predkultúry a medzikultúry: G52

Hlavná kultúra: 1B12 ·· • ···· ·· ·· ··· ···· · · · • ··· · · · · · • · · · · ···· • · · · · · · ··· ··· ·· ···· ·· ·

Médium G52:

extrakt z kvasiniek, nízky obsah solí (Springer, Maison Alfort, Francúzsko)

MgSO₄ (7 H₂0)

CaCl₂ (2 H₂0) odtučnená sója Soyamine 50 T (Lucas Meyer, Hamburg, Nemecko) zemiakový škrob Noredux A-150 (Blattmann, Wadenswil, Švajčiarsko) bezvodá glukóza

Na soľ Fe(III)-EDTA (8 g/1) g/1 g/1 g/1 g/1 g/1 g/1 g/1 pH 7,4, korigované KOH

Sterilizácia: 20 minút, 120°C

Médium 1B12:

zemiakový škrob Noredux A-150	(Blattmann, Wadenswil,	20	g/i
Švajčiarsko)
odtučnená sója Soyamine 50 T	(Lucas Meyer, Hamburg,	11	g/i
SRN)
Na-soľ EDTA-Fe(III)		8	g/i

pH 7,4, korigované KOH

Sterilizácia: 20 minút, 120°C

Pridanie cyklodextrínov a derivátov cyklodextrínu:

Cyklodextríny (Fluka, Buchs, Švajčiarsko, alebo Wacker Chemie, Mníchov, SRN) v rôznych koncentráciách sa sterilizovali samostatne a pridali k médiu 1B12 pred zaočkovaním.

Kultivácia ml suspenzie Sorangium cellulosum Soce-90 z ampulky uchovávanej v kvapalnom dusíku sa preniesol do 10 ml média G52 (v 50 ml Erlenmeyerovej banke) a inkuboval 3 dni na trepačke pri 180 rpm v 30°C, posun 25 mm. 5 ml tejto kultúry sa potom pridalo k 45 ml média G52 (v 200 ml Erlenmeyerovej banke) a inkubovalo 3 dni pri trepaní 180 rpm v 30°C, posun 25 mm. 50 ml tejto kultúry sa potom pridalo k 450 ml média G52 (v Erlenmeyerovej banke s objemom 2 1) a inkubovalo 3 dni pri trepaní 180 rpm v 30°C, posun 50 mm.

Udržiavacia kultúra

Kultúra sa preočkovala každé 3 až 4 dni, a to tak, že 50 ml kultúry sa pridalo k 450 ml média G52 (v 2 1 Erlenmeyerovej banke) . Všetky experimenty a fermentácie sa uskutočňovali vždy tak, že sa začalo touto udržiavacou kultúrou.

Testy v kultivačných fľaškách

I) Predkultúra v pretrepávanej kultivačnej fľaške

Kultivácia sa zahájila z 500 ml udržiavacej kultúry, 1 x 450 ml média G52 sa zaočkovalo 50 ml udržiavacej kultúry a inkubovalo počas 4 dní na trepačke so 180 rpm v 30°C pri 50 mm posune.

II) Hlavná kultúra v pretrepávanej kultivačnej fľaške ml média 1B12 s 5 g/1 4-morfolínpropánsulfónovej kyseliny (MOPS) v prášku (v 200 ml Erlenmeyerovej banke) sa zmiešalo s 5 ml lOx koncentrovaného roztoku cyklodextrínu, inokulovalo 10 ml predkultúry a inkubovalo 5 dní na trepačke pri 180 rpm v 30°C s posunom 50 mm.

Fermentácia

Fermentácie sa uskutočnili v meradle 10 litrov, 100 litrov a 500 litrov. Fermentácie s objemami 20 1 a 100 1 slúžili ako medzistupne pri kultivácii. Zatiaľ čo predkultúry a medzikultúry sa ako udržiavacie kultúry inokulovali 10% (objem.), hlavné kultúry sa inokulovali 20% (objem.) medzikultúry. Dôležité je, že na rozdiel od kultúr, ktoré sa trepali, zložky kultivačného média pre fermentáciu sú vypočítané vzhľadom na výsledný objem kultúry, vrátane inokula. Takže napríklad ak sa zmiešalo 18 1 média a 2 1 inokula, odvážili sa zložky média pre 20 1, aj keď sa namiešali do 18 litrov.

Predkultúra v pretrepávanej kultivačnej fľaške • ···· ·· ·· ·· · • 9 9 9 9 9 9 9 9 99

999 999999

9 9 9 9 9 9 9 99

9 9 9 9 9 99

999 999 99 9999 99999

Kultivácia sa zahájila z 500 ml udržiavacej kultúry, 4 x 450 ml média G52 (v 2 litrových Erlenmeyerových bankách) sa inokulovalo 50 ml udržiavacej kultúry a inkubovalo počas 4 dní na trepačke so 180 rpm v 30°C pri 50 mm posune.

Medzikultúry s objemom 20 alebo 100 litrov litrová kultúra: 18 1 média G52 vo fermentore s celkovým objemom 30 1 sa inokulovalo 2 1 predkultúry. Kultivácia prebiehala 3 až 4 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), bez kontroly pH.

100 litrová kultúra: 90 1 média G52 vo fermentore s celkovým objemom 150 1 sa inokulovalo 20 1 medzikultúry. Kultivácia prebiehala 3 až 4 dni v nasledujúcich podmienkach: 30°C, 150 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), bez kontroly pH.

Hlavné kultúry s objemom 10, 100 a 500 litrov litrová kultúra: Zložky pre 10 1 média 1B12 sa sterilizovali v 7 1 vody, potom sa pridal 1 1 sterilného roztoku 10%

2-hydroxypropyl-p-cyklodextrínu a médium sa inokulovalo 2 1 z 20 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dní v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H₂SO₄/KOH na hodnotu pH 7,6 ± 0,5 (to znamená, žiadna regulácia pre pH 7,1 až 8,1).

100 litrová kultúra: Zložky pre 100 1 média 1B12 sa sterilizovali v 70 1 vody, potom sa pridalo 10 1 sterilného roztoku 10% 2-hydroxypropyl-p-cyklodextrinu a médium sa inokulovalo 20 1 z 20 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H2SO4/KOH na hodnotu pH 7,6 + 0,5. Celý postup inokulácií pre výslednú 100 litrovú fermentáciu je znázornený ···· ·· ·· ·· • ···· · · · ··· · · ·e ·

9 9 999 • 9 9999 99· ďalej uvedenou schémou.

500 litrová kultúra: Zložky pre 500 1 média 1B12 sa sterilizovali v 350 1 vody, potom sa pridalo 50 1 sterilného roztoku 10% 2-hydroxypropyl^-cyklodextrinu a médium sa inokulovalo 100 1 zo 100 litrovej medzikultúry. Kultivácia hlavnej kultúry trvala 6 až 7 dni v nasledujúcich podmienkach: 30°C, 250 rpm, 0,5 1 vzduchu na 1 1 média za minútu, pretlak 500 kPa (0,5 bar), pH sa regulovalo pomocou H₂SO₄/KOH na hodnotu pH 7,6 ± 0,5.

udržovacia kultúra (500 ml) médium G52

predkultúra (4 x 500 ml) médium G52

10% medzikultúra (napr. 20 1) médium G52 udržovacia kultúra (500 ml) médium G52

20% hlavná kultúra (napr. 100 1) médium + ΗΡ-β-CD

Analýza produktov

Príprava vzoriek:

ml vzorky sa zmiešalo s 2 ml polystyrénovej živice Amberlite XAD-16 (Rohm & Haas, Frankfurt, SRN) a trepalo pri 180 rpm 1 hodinu v 30°C. Živica sa potom odfiltrovala použitím 150 pm nylonového sita, opláchla malým množstvom vody a potom vložila aj s filtrom do 15 ml skúmavky Nunc.

···· ··· · · · · · · · • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ···

Elúcia produktu zo živice ml izopropanolu (>99%) sa pridalo do skúmavky s filtrom a živicou. Potom sa zatvorená skúmavka trepala 30 minút pri teplote miestnosti na zariadení Rota-Mixer (Labinco BV, Holandsko). 2 ml tejto tekutiny sa centrifugovali a supernatant sa pipetou naniesol do HPLC skúmaviek.

HPLC analýza:

Kolóna: Waters-Symetry C18, 100 x 4 mm, 3,5 μιη

WATO66220 + predkolóna 3,9 x 20 mm

WATO54225

Rozpúšťadlá: A: 0,02% kyselina fosforečná

B: acetonitril (kvalita pre HPLC)

Gradient: 41% B od 0. do 7. minúty

100% B v intervale od 7,2 do 7,8 minúty

41% B od 8. do 12. minúty

Teplota: 30°C

Detekcia: 250 nm, UV-DAD detekcia

Injikovaný objem: 10 μΐ

Retenčný čas: Epo A: 4,30 minúty, Epo B: 5,38 minúty

B. Účinok pridania cyklodextrínu a derivátov cyklodextrínu na dosiahnuté koncentrácie epothilonov

Cyklodextríny sú cyklické oligosacharidy a-D-glukopyranózy spojené (a-1,4)väzbou obsahujúcou relatívne hydrofóbnu centrálnu dutinu a hydrofilnú oblasť vonkajšieho povrchu.

Rozoznávajú sa najmä nasledujúce (v zátvorke je uvedený počet glukózových jednotiek v jednej molekule):

a-cyklodextrín (6), δ-cyklodextrín (9), β-cyklodextrín (7), γ-cyklodextrín (8), ε-cyklodextrín (10), ξ-cyklodextrín (11), η-cyklodextrín (12) a θ-cyklodextrín (13) .

Zvlášť výhodný je ·· • · · • · ···· ··· ·· ·· φ · · · • · · • · ·· ···· • · ·· δ-cyklodextrín a najmä α-cyklodextrin, β-cyklodextrin alebo γ-cyklodextrin alebo ich zmesi.

Cyklodextrinové deriváty sú najmä deriváty skôr uvedených cyklodextrínov, najmä a-cyklodextrín, β-cyklodextrin, γ-cyklodextrín, hlavne také, kde jeden alebo niekoľko až všetky hydroxylové skupiny (3 v jednej glukózovej jednotke) sú éterifikované alebo esterifikované. Étery sú hlavne alkylétery, najmä nižších alkylov ako je napríklad metyléter alebo etyléter, a tiež propyl- alebo butyléter, ďalej arylhydroxyalkylétery, ako je fenylhydroxy(nižší)alkyl, hydroxyalkylétery, najmä hydroxy(nižší)alkylétery ako hlavne hydroxypropyl- alebo hydroxybutylétery ako je 2-hydroxybutyléter, karboxylalkylétery, najmä karboxy(nižší)alkylétery, ako karboxymetyl- alebo karboxyetyléter, derivatizované karboxyalkylétery, najmä derivatizované karboxy(nižší)alkylétery, kde derivatizované karboxylová skupina je éterifikovaná alebo amidovaná karboxylová skupina (najmä napríklad aminokarbonylová, mono- alebo di(nižší)alkylaminokarbonylová skupina, morfolino-, piperidino-, pyrolidino- alebo piperazínkarbonylová alebo alkyloxykarbonylová skupina), najmä (nižší)alkoxykarbonyl(nižší)alkyléter, napríklad metyloxykarbonylpropyléter alebo etyloxykarbonylpropyléter, sulfoalkylétery, najmä sulo(nižší)alkylétery, najmä sulfobutyléter, cyklodextríny, kde jedna alebo niekoľko skupín OH je éterifikovaná radikálom podľa vzorca:

-O-[alk-O-]n-H kde alk je alkylová skupina, najmä nižšia alkylová skupina a n je celé čílo od 2 do 12, zvlášť 2 až 5, ešte výhodnejšie 2 alebo 3, cyklodextríny, kde jedna alebo niekoľko skupín OH je éterifikovaná(ných) radikálom podľa vzorca:

(Alk-O)Alk----O • ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ·· ···· ·· ··· kde R je vodík, hydroxylovú skupina, -O-(alk-O) ₂-H, -O-(alk(-R)-O-)_p-H alebo -O-(alk(-R)-O-)_q-alk-CO-y, pričom alk znamená alkylovú skupinu, najmä nižšiu alkylovú skupinu am, n, p, q a z sú celé čísla 1 až 12, výhodne 1 až 5, zvlášť výhodne 1 až 3 a Y je OR¹ alebo NR²R³, kde R¹, R² a R³ navzájom nezávisle sú atómy vodíka alebo nižšie alkylové skupiny, alebo R² a R³ kombinované spolu s väzbovým atómom dusíka sú morfolínová, piperidínová, pyrolidínová alebo piperazinová skupina, alebo rozvetvené cyklodextríny, kde je prítomná éterifikácia alebo sa vyskytujú acetálové väzby s inými molekulami cukru, najmä glukozyl-, diglukozyl-(G₂-[β-cyklodextrin), maltozyl- alebo dimaltozylcyklodextrin alebo Ν-acetylglukozaminyl-, glukozaminyl, N-acetylgalaktozaminyl- alebo galaktozaminylcyklodextrín.

Estery sú najmä alkanoylestery, zvlášť nižšie alkanoylestery ako napríklad acetylestery cyklodextrínov.

Je mcžné tiež použiť cyklodextríny, kde sú súčasne prítomné dve alebo viac odličných éterových alebo esterových skupín.

Tiež môžu existovať zmesi dvoch alebo viacerých cyklodextrínov a/alebo derivátov cyklodextrínov.

Výhodné sú a-cyklodextrín, β-cyklodextrín, y-cyklodextrín alebo ich nižšie alkylétery, ako je napríklad metyl^-cyklodextrín alebo najmä 2,6-di-0-metyl^-cyklodextrín, alebo najmä ich hydroxy(nižší)alkylétery ako je 2-hydroxypropyl-a-cyklodextrín, 2-hydroxypropyl^-cyklodextrín alebo 2-hydroxypropyl-y-cyklodextrín.

Cyklodextríny alebo deriváty cyklodextrínov sú pridávané do kultivačného média výhodne v koncentráciách 0,02 až 10, výhodne 0,05 až 5, zvlášť výhodne 0,1 až 4, napríklad 0,1 až 2% (hmotnosť /objem) .

Cyklodextríny alebo deriváty cyklodextrínov sú známe a je ich možné pripraviť známymi spôsobmi (pozri napríklad patentové • ···· ·· ·· ·· ··· ···· · · · • ··· · · · · · • ···· ···· • · · · · · · ··· ··· ·· ···· ·· · dokumenty US 3 459 731,US 4 383 992, US 4 535 152, US 4 659 696, EP 0 094 157, EP 0 149 197, EP 0 197 571, EP 0 300 526, EP 0 320 032, EP 0 499 322, EP 0 503 710, EP 0 818 469, WO 90/12035, WO 91/11200, WO 93/19061, WO 95/08993, WO 96/14090, GB 2 189 245, DE 3 118 218, DE 3 317 064 a tu citované dokumenty, ktoré sa týkajú syntézy cyklodextrinov, a tiež: T. Loftsson a M.E. Brewster (1996): Pharmaceutical Applications of Cyclodex trins: Drug Solubilization and Stabilisation: Journal of Pharmaceutical Science 85 (10):1017-1025; R.A. Rajewski a V.J.

Stella (1996): Pharmaceutical Applications of Cyclodextrins: In

Vivo Drug Delivery: Journal of Pharmaceutical Science 85 (11):

1142-1169).

Všetky tu testované deriváty cyklodextrinu pochádzali od firmy Fluka, Buchs, Švajčiarsko. Testy sa uskutočňovali v 200 ml pretrepávaných fľaškách s kultúrou s objemom 50 ml. Ako kontroly slúžili fľašky s adsorpčnou živicou Amberlite XAD-16 (Rohm & Haas, Frankfurt, SRN) a bez prídavku živice. Po 5 dennej kultivácii sa pomocou HPLC stanovili titre epothilonov uvedené v nasledujúcej tabuľke 2:

Tabuľka 2

Prídavok	poradové číslo	koncentrácia [%]^x	Epo A [mg/1]	Epo B [mg/1]
Amberlite XAD-16 (obj./obj.)		2.0	9.2	3.8
2-hydroxypropyl-p- -cyklodextrín	56332	0.1	2.7	1.7
2-hydroxypropyl-p- -cyklodextrín	U	0.5	4.7	3.3
2-hydroxypropyl~3- -cyklodextrín	w	1.0	4.7	3.4
2-hydroxypropyl-3~ -cyklodextrín	u	2.0	4.7	4.1

• ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ·· ···· ·· ···

2-hydroxypropyl-p- -cyklodextrin		5,0	1,7	0,5
2-hydroxypropyl- a-cyklodextrin	56330	0,5	1,2	1,2
2-hydroxypropyl- a-cyklodextrin	W	1,0	1,2	1,2
2-hydroxypropyl- a- -cyklodextrín	w	5,0	2,5	2,3
β-cyklodextrin	28707	0,1	1,6	1,3
β-cyklodextrín	W	0,5	3,6	2,5
β-cyklodextrin	w	1,0	4,8	3,7
β-cyklodextrin		2,0	4,8	2,9
β-cyklodextrin	\>	5,0	1,1	0,4
metyΙ-β-cyklodextrin	66292	0,5	0,8	<0,3
metyl^-cyklodextrín	W	1,0	<0,3	<0,3
metyl^-cyklodextrín	u	2,0	<0,3	<0,3
2,6 di-o-metyl-β- -cyklodextrin	39915	1,0	<0,3	<0,3
2-hydroxypropyl-y- -cyklodextrin	56334	0,1	0,3	<0,3
2-hydroxypropyl-y- -cyklodextrin	W	0,5	0,9	0,8
2-hydroxypropyl-y- -cyklodextrin	\A	1,0	1,1	0,7
2-hydroxypropyl-y- -cyklodextrin	W	2,0	2,6	0,7
2-hydroxypropyl-y-cyklodextrin	W	5,0	5,0	1,1
bez prídavku			0, 5	0, 5

ostatné údaje v hmotnostných % (hmotnosť/objem).

okrem Amberlitu, kde sú údaje v objemových % (objem/objem) sú

····	··	··	·· ·
•	•		•	• ·	•	•	··
···	•		•	•	•	•
•	•		•	•	•	•
		··		····	··		··

Niekoľko testovaných cyklodextrinov neprejavilo žiadny účinok (2,6-di-o-metyl-p-cyklodextrín, metyl-p-cyklodextrín) alebo negatívny účinok na produkciu epothilonov pri použitých koncentráciách. 1% až 2% 2-hydroxypropyl-p-cyklodextrín a β-cyklodextrin zvýšili v príkladoch produkciu epothilonu 6 až 8 krát v porovnaní s kontrolou bez prídavku cyklodextrinov.

C. 10 litrová fermentácia s 1% 2-hydroxypropyl-p-cyklodextrínom

Fermentácia sa uskutočňovala v 15 litrovom sklenenom fermentore. Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrínu od firmy Wacker Chemie, Mníchov, SRN. Postup fermentácie je ilustrovaný v tabuľke 3. Fermentácia sa skončila po 6 dňoch a uskutočnilo sa spracovanie produktu.

Tabuľka 3

Postup fermentácie v objeme 10 1

trvanie kultúry [dni]	Epothilon A [mg/1]	Epothilon B [mg/1]
0	0	0
1	0	0
2	0,5	0,3
3	1,8	2,5
4	3,0	5,1
5	3,7	5,9
6	3,6	5,7

D. Fermentácia s 1% 2-hydroxypropyl-P-cyklodextrínom v objeme 100 1

Fermentácia sa uskutočňovala v 150 litrovom fermentore.

Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrínu. Postup • ···· ·· ·· · · ··· ···· ··· • ··· · · · · · • · · · · · ·· ···· ·· · fermentácie je ilustrovaný v tabuľke 4. Fermentácia sa skončila po 7 dňoch a uskutočnilo sa spracovanie produktu.

Tabuľka 4

Postup fermentácie v objeme 100 1

trvanie kultúry [dni]	Epothilon A [mg/1]	Epothilon B [mg/1]
0	0	0
1	0	0
2	0,3	0
3	0,9	1,1
4	1,5	2,3
5	1,6	3,3
6	1,8	3,7
7	1,8	3, 5

E. Fermentácia s 1% 2-hydroxypropyl-3-cyklodextrinom v objeme 500 1

Fermentácia sa uskutočňovala v 750 litrovom fermentore. Médium obsahovalo 10 g/1 2-hydroxypropyl-p-cyklodextrinu. Postup fermentácie je ilustrovaný v tabuľke 5. Fermentácia sa skončila po 7 dňoch a uskutočnilo sa spracovanie produktu.

• ···· ·· ·· ·· ··· · · · · · · · • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ·

Tabulka 5

Postup fermentácie v objeme 100 1

trvanie kultúry [dni]	Epothilon A [mg/l]	Epothilon B [mg/l]
0	0	0
1	0	0
2	0	0
3	0,6	0,6
4	1,7	2,2
5	3,1	4,5
6	3,1	5,1

F. Porovnanie 10 litrovej fermentácie bez prídavku adsorpčného činidla

Fermentácia sa uskutočňovala v 15 litrovom sklenenom fermentore. Médium neobsahovalo žiadny cyklodextrín ani iné adsorpčné činidlo. Postup fermentácie je ilustrovaný v tabuľke 6. Fermentácia nebola odobraná a spracovaná na produkt.

Tabuľka 6

Postup fermentácie v objeme 10 1 bez prídavku adsorpčného činid la

trvanie kultúry [dni]	Epothilon A [mg/l]	Epothilon B [mg/l]
0	0	0
1	0	0
2	0	0
3	0	0

• • · •	···· • ···	·· • · • ·	·· • · •	• · • · • ·	• • · •
• •	•	• · ··	• ····	• · ··	• • · ·

4	0,7	0,7
5	0,7	1,0
6	o OO \|	1,3

G. Spracovanie epothilonov: Izolácia z 500 litrovej hlavnej kultúry

Objem odobranej kultúry z 500 litrovej fermentácie opísanej v príklade D bol 450 1 a separoval sa pomocou čistiaceho separátora Westfalia SA-20-06 (rpm = 6500) na tekutú fázu (supernatant + preplachovacia voda = 650 1) a pevnú fázu (bunky = asi 15 kg) . Hlavná časť epothilonov sa nachádzala v supernatante. Bunková kaša po centrifugácii obsahovala menej ako 15% stanovených epothilonov a nebola ďalej spracovávaná. 650 1 centrifugátu sa prenieslo do 4000 litrovej miešacej nádoby, zmiešalo s 10 1 živice Amberlit XAD-16 (objem centrifugát:živica = 65:1) a premiešalo. Po kontaktnom čase asi 2 hodiny sa živica odstránila použitím Heineho prietokovej centrifúgy (objem koša 40 1, rpm = = 2800). Živica sa potom vybrala z centrifúgy a opláchla 10 až 15 1 deionizovanej vody. Desorpcia sa uskutočnila dvakrát, vždy po častiach s 30 1 izopropanolu v 30 litrovej sklenenej miešacej nádobe počas 30 minút. Oddelenie izopropanolovej fázy od živice sa uskutočnilo sacím filtrom. Izopropanol sa potom odstránil zo zmiešaných izopropanolových fáz prídavkom 15 až 20 1 vody vo vákuovom cirkulačnom evaporátore (Schmid-Verdampfer) a výsledná vodná fáza s objemom asi 10 1 sa extrahovala 3 x vždy 10 1 etylacetátu. Extrakcia prebiehala v sklenenej miešacej nádobe s objemom 30 1. Etylacetátové extrakty sa koncentrovali na objem 3 až 5 1 vo vákuovom cirkulačnom evaporátore (Schmid-Verdampfer) a potom koncentrovali do sucha v rotačnom evaporátore (typ Buchi) pod vákuom. Získal sa etylacetátový extrakt s hmotnosťou

50,2 g. Tento etylacetátový extrakt sa rozpustil v 500 ml metanolu, nerozpustný podiel sa odfiltroval pomocou skladaného filtra a roztok sa naniesol na kolónu s 10 kg Sephadexu LH 20 ·· • ···· ·· ·· ··· ···· · · · : ···..: : .: :

• · · · · · · ··· ··· ·· ···· ·· · (Pharmacia, Sweden) (kolóna s priemerom 20 cm, hladina plnenia asi 1,2 m). Na elúciu sa použil metanol ako elučné činidlo. Epothilony A a B boli prítomné hlavne vo frakciách 21 až 23 (veľkosť frakcie je 1 liter). Tieto frakcie sa koncentrovali do sucha v rotačnom evaporátore vo vákuu (celková hmotnosť 9,0 g). Potom tieto vrcholové Sephadexové frakcie (9,0 g) sa rozpustili v 92 ml zmesi acetonitril:voda:metylénchlorid = 50:40:2, roztok sa filtroval cez skladaný filter a potom naniesol na kolónu RP (zariadenie Prepbar 200, Merck, 2,0 kg LiChrospher RP-18 Merck, zrnitosť 12 μιη, priemer kolóny 10 cm, hladina plnenia 42 cm, Merck, Darmstadt, SRN). Elúcia sa uskutočnila zmesou acetonitril:voda = 3:7 (prietok = 500 ml/min., retenčný čas epothilonu A = asi 51 až 59 minút, retenčný čas epothilonu B = asi 60 až 69 minút). Frakcionácia sa monitorovala UV detektorom pri 250 nm. Frakcie sa koncentrovali do sucha v rotačnom evaporátore typu Buchi. Hmotnosť vrcholovej frakcie epothilonu A bola 700 mg a podľa analýzy HPLC (vonkajší štandard) a obsahovala ho 75,1%. Hmotnosť vrcholovej frakcie epothilonu B bola 1980 mg a podľa analýzy HPLC (vonkajší štandard) ho obsahovala 86,6%. Nakoniec sa frakcia epothilonu A (700 mg) kryštalizovala zo zmesi etylacetát:toluén = 2:3 a výťažok bol 170 mg čistej kryštálovej formy typu A (obsah podľa HPLC (% plochy) = 94,3%)). Kryštalizácia frakcie epothilonu B (1980 mg) sa uskutočnila z 18 ml metanolu a výťažok bol 1440 mg čistej kryštálovej formy epothilonu B (obsah podľa HPLC (% plochy) = 99,2%)). Teplota topenia epothilonu B je 124°C-125°C, 1H-NMR dáta pre epothilon B sú nasledujúce:

500 Mhz-NMR, rozpúšťadlo: DMSO-d6, chemický posun δ v ppm vzhľadom na TMS, s = singlet, d = dublet, m = multiplet.

δ (multiplicita)	Integrál (počet H)
7,34 (s)	1
6,50 (s)	1

9999 99 99 99

9 9 9 9 9 9 9 9

999 99 999

Ί3

9 9 9 9 9 9

9999 99 999

5,28	(d)	1
5,08	(d)	1
4,46	(d)	1
4,08	(m)	1
3, 47	(m)	1
3, 11	(m)	1
2,83	(dd)	1
2, 64	(s)	3
2,36	(m)	2
2,09	(s)	3
2,04	(m)	1
1,83	(m)	1
1, 61	(m)	1
1,47 - 1,24 (m)	4
1,18	(s)	6
1,13	(m)	2
1,06	(d)	3
0,89 (d + s,	prekryv)	6
	Σ = 41

Príklad 15

Lekárske použitie rekombinantné pripravených epothilonov

Farmaceutické prípravky obsahujúce epothilony sa používajú napríklad na liečenie rakovinových ochorení, ako sú napríklad ľudské tuhé tumory. Také farmaceutické prípravky obsahujú účinné množstvo epothilonu spoločne alebo v zmesi s významným množstvom jednej alebo niekoľkých organických alebo anorganických,

·· ·· ·· • · ·· · kvapalných alebo tuhých, farmaceutický prijateľných látok vo funkcii nosiča. Farmaceutické prípravky podľa predloženého vynálezu sú určené na enterálne, nazálne, rektálne, perorálne alebo parenterálne podávanie. Dávka účinnej látky závisí od druhu liečeného živočícha, telesnej hmotnosti, veku a individuálneho stavu, individuálnej farmakokinetickej situácii, ochorenia, ktoré sa lieči, a ďalej najmä od spôsobu podávania. Pozri napríklad patenty USA č. 5 496 804, 5 556 478 a 5 641 803, ktoré sú zahrnuté formou odkazu.

Ako prípravok na liečenie sa epothilon B dodáva v samostatných 2 ml sklenených fiolkách formulovaný do číreho, bezfarebného intravenózneho koncentrátu 1 mg/ml. Látka je formulovaná v polyetylénglykole 300 (PEG300) a zriedená 50 alebo 100 ml 0,9% roztoku NaCI (podľa liekopisu) , aby sa dosiahla výsledná požadovaná koncentrácia liečiva na infúziu. Podáva sa ako jednorazová 30 minútová intravenózna infúzia jedenkrát za 21 dni (liečba lx za tri týždne) po 6 cykloch alebo ako jednorazová 30 minútová intravenózna infúzia každých 7 dní (liečba lx za týždeň).

Výhodne sú dávky na liečbu lx za týždeň 0,1 až 6 mg/m², výhodne 0,1 až 5 mg/m², výhodnejšie 0,1 až 3 mg/m², ešte výhodnejšie 0,1 až 1,7 mg/m², a najvýhodnejšie 0,3 až 1 mg/m². Na liečbu lx za tri týždne (lx každé tri týždne) sú dávky 0,3 až 18 mg/m², výhodne 0,3 až 15 mg/m², výhodnejšie 0,3 až 12 mg/m², ešte výhodnejšie 0,3 až 5 mg/m², a najvýhodnejšie 1 až 3 mg/m². Tieto dávky sú ľuďom výhodne podávané intravenózne (i.v.) v priebehu 2 až 180 minút, výhodne 2 až 120 minút, výhodnejšie 5 až 30 minút a najvýhodnejšie 10 až 30 minút, napríklad 30 minút.

Aj keď sa predložený vynález opísal vzhľadom na špecifické príklady uskutočnenia vynálezu, odborníkovi je zrejmé, že sú možné viaceré variácie a modifikácie uskutočnenia vynálezu, ktoré sú tiež predmetom predloženého vynálezu.

···· ··

Zoznam sekvencií <110> Novartis AG <120> Gény biosyntézy epothilonov <130> 4-30582A <140>

<141>

<160> 30 <170> Patentln Ver. 2.0 <210> 1 <211> 68750 <212> DNA <213> Sorangium cellulosum <400> 1 ttcgcccgcg catgtgctcg atccaggaag ctcgcgcacg cccgactgga gcgcgcggcg gcgcaggagg ccccgcttcg gaggccgagc ctcgcctggc ccagagaatc ggcacatcgg tcgagcaaga atcgtccgcg gcggcggagg gcggtcgctg ttgtactccg gtgctgctcg ttcgtcgcgc atcgtgatgg gcgtgggtca cgctcgacca agcgctttct cggctcgagc ctcggcgagc gtgctgtggg gagcccatcg gacatcttcg tccggcgcct gtgctcaatc agctgacatc gccgctggcg gctcgagagc cgcggcccgg gcacctccga aagcttcgct acggccgggc ccctccgaga gcgacctgac atgcccgcag cgctcgtccg agcgcgagcg cctgcttcgc cgatgtcgcc agctcgcctg atcccgccta tcgccgcggc tcgcctcctg tgtgggagcg tcgagcgcgc tcgcggcggg tcgtgaccga ccggccggat cgcccctcag tgacggaagg tccacgctcg gcgcgccctt gtctccacga ggtgcgagct ccccgagccg tcaccctcaa tcgacaagcg acgtcgtgtc ggcacgtcga tatgggaccg gcatcctgac ccggaccgag gtagacgctg catcacgatc gtcccaccca cgacgccctc cacggagcgg gcacctccgc ggtggagctc cctgaggcac gtggctcgcc agcccgaacc gcccgatctg tgaagtcgcc tgccgcgctg cgagatgctg ctccgcgccc ggaggtcgta gctccggacg cgaggcgatc cgccggcctg cggagacgca ctcgccggtc ccagatgctc cagccccctc cgggttcatg cgtcgtccag gcccgccggc ttcggctggc cttcgcgtac tgcgacccac caccggcgta cgaggaccgg gcacatccgc ccctgacatg gctcgcccgc ctggcgaccc cgccagaaac ccgatcagct tagcgcccgg ccacctctgc ccgtgtgctc gatgatggcc 60 ccgaggcgcg cgggatcgag gacctccgcg 120 gggggccgtc ctttcactgc atgtgcctcg 180 accagcccct cgcgtccatc agcttccacc 240 cctcggacgc gatgctcgtc gacggccccg 300 cgccgggtcc cctccgcgag tacgaagagg 360 cgaggcgcct gtggctcgcg gccgcgccgc 420 aggacgacgc caacgggctg ccgctcggcc 480 ggcgcctccg cgcctcgtac gcgactcctg 540 tcgggacggg cgcgggtccc tggtccggat 600 tgctcctcgg gtttggcctc ccgaccgcga 660 aggccgctct ccgcggcgca gcgcggctgt 720 agagccagct cggcaacatc cccgaagccc 780 cgatgggcaa tgccgacaac ctctctcgct 840 tgcgccgcct gcgcgcacag ccggcgccct 900 gggtctcctc gagcggccgg ctctcgggcc 960 gcgacggcaa cgacatcgtc atgttccaac 1020 ccggaaccga tcccttcttc gagctcgcac 1080 acgccaacgc gggcaccatc tccaaggtcc 1140 caagaaacca ggcgcgaccg atgagcctcg 1200 accaggccat ggtgcccgac cccgagcggg 1260 tcatggaatt cgagcacccc acgcctcgtt 1320 ccctcgcctg cgacgaggag cacctctact 1380 tatggcgcca cccgcaccac cgccccggcg 1440 accccattgc ggcgacctgg tacccctcgc 1500 ccgaccctga tcgcagggcc atcctcgggg 1560 tcctcgcgga gacgcgccat cccccggcgc 1620 cgcttaccgg acagcccgac tcccgcgact 1680 ccaccgtcgt ggccgactac cagcgccagc 1740 ggcgcggcct cttcttcacg acgaacgacc 1800 gctcgacgcc gggccgctca tcgagggcgc 1860 ggccgcagct catgccgatt cggtggcgac 1920 ccccgagaac aggaagccgg cggattgtgt 1980 atcattgatc caggacgtcc cgaacccgcc 2040 gaccgcgtcc ggcgccgtga ccacggccat 2100

• ····	··	··	··	•
• · ·	• ·	• ·	•	•	• ·
• ···	•	•	•	•	•	•
• · ·	• ·	• ·	• ·	•
• ·	•	•	•	•	•	•
··· ···	• ·	····	··	• · ·

cccataaccc ggccggcgtg gccctcgtgc cgacacgagc cccgtcgcga cgcgaaccga cgcgaggatg caccccctgc cggcagcgtc ctgcgcgttg cgagattccg gggcaccgtc cggcaaccat caccgccgtc catgggcgcg gcgcgcgacc ctcgcgcgcg ggccccaccc ccttctcatg actgcccgcg gcccggccgc gcacgccgct ggcctcaccg gcgcgcgcct ttcggcggcg gccctcttcc ctcctcctgc cgccccgggg ttctcggcgc tcggtgacgg agctatgcgc gtcgcgatga ctcctggcga gcgatgcgct gtcctcacgt gcgttcgcgc ggcgtgcaga cgcgtcgacg gcgaccgcga aggggcagcg atcgtcgcga gccgtcgtcg agggcgcctc gcgtacatcc ttcgccacgg gacatcacgg gcgagccggg cgcgagctgc gtgatcggcg gcgatcgtcc gagcgcgcct gccgccgatc agcgcgcaga gcggtggcgc gtctcgtcgc cgcgccccgt tacctcggca gtcgcgcatg ggaagcgagc tgagcagcgc cgtccgattc gatcgttgaa cggggtcgcg cagccgtgcg aggtgatcgg acaccgccgt ccggcggcgc tccatgcgcg gcgagcttgt cgctcgcgca accaggctcc ccgagccgcc acgagcccga aagcccatcg tcgtcgatcg cggtcgacgg gcggtgaccg ctgccgccga agccagaccg ggcgccagcg aacgcgcacc accgtcgatg cccgaaaaaa ccgctcgggc tgccatgtcc agcggcaggt ccggcgagct tcgtgctggg aggagccggc tgctgatggc cgctctcggc tcgtgctcga cggtcagcgt aggtgacgct cgtcgtcgag gcggattctt gggtggccga tcctggccgc tcggcgtgct cgctcgtggc tgtcgcagct cggcggcgaa aggcggcgct tcgtcggcgt cgctggtcac cgacgcagga ccggggtcga acatcgtgga agctctccgt ggctcgcgag gcggctcgat cgcgatcgcc agcgggccga ccgcgcggcg tcgcggccca ccgatccggg ggagcgtcgt gcgtgcacgt acgatctgct gcacggtcga gagggactcg gcccggctct cttctccgcc catcacgctg ccggacgtgc gtcgctgaag tctcgaagaa ccgtcatctc tcatgagcat ccgaagggaa tcttctcccc ccgccgggac cgaacgcatc ccgtgttgta ggatccactc gctcgtcgat tgaacgtcat gaccatcgat gggagtcgag ccttcgtcat gctcggtcac ctcccggcat cgccggcccc ccggcgccgc cctctccgag tcatcggtgc gcccgcccct ggcctgcacc cctgctctcg cgcgcggcgg cccctccgtc ggtcggggtc gggcatcgag gctcggcgcg tcggcccctt gatcgcgaag cgcggcgggg ctacggcgcg gctgttcatg cgcgacgcgc ggcgctgacg gctcaacagc gggcctcttc gcgcacgccg ggtcgtcccc cgtggcggtg cgagctcggg ggtgaccgcc ggagtcggct gcggatcctc gagcatcgtc ggagcagcag gctcggcgcg ccaggcgatc ggcgcgcgcg gtccaacgtg gatcctcgtc cgtggcgctg cgcggtcgtc cgacgaggcg gggcgcgcac cgtgctcgga gtcggtggtg agagcaggtg gccgacgatc tgacgcgagt gcatagtccg cgggtgcgcc taaacggtga gcccgggaaa gcgcaccgag gcgcgcgaac cgccggcggg cgtctgctcg gtgaaagtcg gaagccctgg catccactgc gtctggcccg ggcccgctgg caggtcgcgc gcgcgccagc gtcgagcttg cgaggcgatc gcccaccgcg ctgccccgcc cgcgtcctgc cacgctgatc cgggggcgcc cccgtcacga ggacgagcaa cacaccgagg ctcgtcaccc ctgcgccagc gtcggcgcgc gtgctctcgg gtcgacgtgg atcgcgcccc ccgagcggcc gtgctgatcg gtggtcagcg tcgcccgcgc gtgctcgtcg gtctccaagg cagcggctcg gctcctcgca gcgcctgtgt gcggcgtggg gccgcgctcg ggcctgaaca ctcctctcca tcacccgcgc cgcctcgagc gtcccgatcg gcctccaagc gcgcccggcc cgcctccgcg ctgcgcgcct cgcggaatgt ctcgtcgtgg ccgatcatcg gcgtgggacg tggcgcgatc gtcttccggg ccgagcgacg tgctacgacc gtccggagcc aggtgaggct gtcactcccg cgagccgggt tatcgcgcgg tcgctggaac tggcgacctg aacgaggacg gcggcgctca aggaggtagt ctggcatagg tcggtgaagt gtgtcccgca tcggccgcgc gcccccggct tgcggcgtca atcggcgacg accgtgatcg accttccggt ccttcctcga cggaagatcg tccacgtgca gccacctccg cctggctgcc aaagctccca tgcccctgcc tcgccgccgg agctcgcccg agccacccac tcgcgctcat ccgaggtgct tcgcgcccgg gcatctcctg gcatcctgcg cgctcgcggc tcttcctcgg agcgcgagtc aggtcgctgc tggcggtcgc ggcggcggct gacaggtgtc gcctgcaccc ccaaccgccc tcttcgtcct ggacggtcgc gcgcgcggct tgaagggcgg acgaggctta tcctcatctg gcgaggaggc tggcgcacgc gaaagctcgg catcgcgcgc tcggcatctg cgcgggatca cgttcggtcg tgggcgaccc gcctcgagta ccgagctcgt gcgagccatc ggcgccggct agataacgcg atgggccgct gggtgccggt tccaccgcgc gtccgtgtag atgctgcacg gatcggctcg ggtcacccgg cgcgtcccgg ccgccttctg agagccgccg cgtccaccgt cgctctcggc aaccgcagcc tcccgagcgg gccccacgag gatgcatgag tcggcaccgg atgcgtcgaa gccgctccgc tcgcgagctc cgagcatcat tgtcccgccg cgtcgtcgcc ccgccatcac cctcctcctc taaactcccg gagagcactg gcgtggctcc cccgcgctca cctgatgcac cctcgtgacc cggggagctc gttccatcga gataggcgcg caaggaggcg gggcgccgcc gatcgtgctc gatgcgccgc ctgggtgctc ccggagcgcg cacccacctc gctcgtcctc gctgctcggc tctcctcgac cgcgggcatg gttgctgctg cggcgggctc cacggacctc tacgatgtac gctcgagaaa cgcgaggcgc cctgcccggg cgagacggtc cgcgggggag gcggcaaagg cgatctgctc cctgcaggac tccggcggcg ctccttcgcc gctgctcagc ccgggtgcgc cggcgtgcgc ggagctcgcg cggccggctc cgcgttgctc tcgcccgtga gcgatcgtgc acgatggggg ggttcggtca taaggcccgg tccgacgcat

2160 2220 2280 2340 2400 2460 2520 2580 2640 2700 2760 2820 2880 2940 3000 3060 3120 3180 3240 3300 3360 3420 3480 3540 3600 3660 3720 3780 3840 3900 3960 4020 4080 4140 4200 4260 4320 4380 4440 4500 4560 4 620 4680 4740 4800 4860 4920 4980 5040 5100 5160 5220 5280 5340 5400 5460 5520 5580 5640 5700 5760 5820 5880 ···· ·· ·· • · · ·· ··· · ·· • · · · · · • ·· · • ··· ·· ···· ·· •· •· •· •· ·· tcaacaggca ggatgtagcc cctcctggct gacgcgctcg ccgagcgccg gacagtgggt acgggccgac ctcgccggct gccgatgcgc gacgtcgttc tggcagcgtc gacagccgaa atcaccgccg acgtctgtcg cctgcctcga acggccgcgt cctggcgcgg cgcgatcttt cgccgtgacc ctctacgaca cccacgctgc cgcggcaacg aacgtcgtcg ggggctggcc aaaatttgtc ctcgagcgag ctcaggaagc gggattagat aggacgatcg tcccatcgag cggtggcgtg cgggcgagtc cccggggaag ctccttcttc gctggaggtg tacggaaacg agcgacggcg agcgggccga ctattcgtcc ctccacggcc ctcgaagacc tgggttcgga cgcggacggc gagcagcggt ggcggacgca gacgcttggt tgtcgccacg gtcggggatc gcacctccac cacgcgcgcc gttcggcatg cacaccgccg agccctggat tctgggcgat ggtggcggcg gacgtcgccc cttcaccgga cgcgttccgc gctccgcgag agccttcacc gtggggtgta cgtggcgggc gatgcaggcg ggccgtctca ctctgcgatt cctctttggc gggatccatg acgggctttg ccgccgtgaa gattcggccg gcggcggtcc gcgtcaccgc acctctcgcc cgagccccga gaggcaagct agaagcagag ggtgacatcg tcgccttccc ccaagcaacc cctgcgcatc gttgccatcg ggcagctcgg acctcaagag tggctctgtc agaagggccg taaccgccca ggggtcgacg atagatcgta ttctctcgga ctgatcggga cgagtgagac acgtccgcga cgcgcagccg atcgatctga cccgccgaac acgcccgtta ggcatctcgc tgctgggagg ggagtgttca tccgcagaga arctcgtatg tcgctggtgg ctggctggtg cgggcgctgg cgaggcgaag gatcggatat ctgaccgtgc ggctgcgccg gaccccatcg ccgctgctga actgggctgc gcgcaggcgc cggacaccgt agcgggacca gcgccggagc gcacaggcgg gtggcgttca acgtcgaggg ggtgcggtgc cagggggcgc gaggcgttcg gtgatgtggg cagccggcgc gagccggagt gtgttctcgc ctgccggccg tggctcgtca gcacagcgcg agcctccctc gctgaggatc aaagcgcgcg gcagagaggc ccggataggg gagcgagaaa cgacgtcgac gcccgagcgg gtccccgtgg ggccgagacg cagccctcag cgctatcagc catcacccct gccgtgccgg gctggaagga cagccaacgt cgaggcgttt cgccgtcgtc ggcgcattac cgtccagcgc gcaatgtcat atatcgcgcg agctgtgata taactttcaa cgagctaatt agttcttttg gcgggtcagc aagatccgat gcgggttctg gctgggatgc cgcgcgcatc ctcgcgaagc cgctggagaa tcgggatcgg tcgacgctca ccctcgggct ccgttcatct gggtatcgct ccagggacgg ggtgcgccgt tggcggtgat cgaacgggag cgtcttcggt aaatccaagc tcgggtcggt tgaaggtcgt tgaacccccg ggccggactg acgcgcacgt gaccggcaga cgcggctgcg gtctggcgac aggggctgcg gcagtatcgc agacgctggg acctgtgcgt ccgaaccggc tgttcacctt tggtcgccgg ttgaggacgc gcggggcgat tctgcggctc tccgcccgat tgctgtccag ctcgccgagc accggccagc gatcgaggtg cacacgctcg accgtgcagg cccgacgccg ctcgaggccg cgacgggtcg accgtgccgt tcgccatcgt agcgctgagc gcgcactcct cgcggctcca tcggcggagc ggcgatcgcg gccgacttcg gagcgccacg cgcttcgagc gccatcacgg gggaatggcc atctccccgt gtggtctgtc tttttccgag cccatccatt cagtgcgcga cgctgaggat tgcgatcgtc gacgctcctc agcagcgtgg tttcctgagc gctgcggatg cgccgcgatc cccgtccgaa tggcgggctg gcgagggccg ggcctgtcag gatgttgtcg tcgctgcaag cgtggtcctc tcgaggatcc ctcccaagaa gggttatgtc tctgaatgcg gaagaccaac cttgtccctt gatctcatgg gaatacgccg ggtgctggaa gctgctggtg cgaccatctg gacgcgcagc ggcagccctg cgattcctca catgggccgt gaggctgttc cagcgtcgac cgaatatgcg ccatagcatc ggtgttcctg ggtgtcgatc aggtccgttg cggcttgtcc gagcgatggc gctccctgcc ccggacgcgg gtgagatgaa gtcttctcgc gcacgcggct cgaccacgcg gcagcgagcg gagtgctcga atgccaactt ctgccgccgt ccgccagcag ccagcgacgg cgcgcgcgac atggatagag gcggtcaagt gcggcgtccc gcgacgcgat cgcgccccgt cgtggacgac ccttgaaatg caattcccga ttacgttgcg gggggcttgg tttttgaggc agaacctggg gtgcccgtcg ggagcgagtt gagggctcgc tttgatcccg gacgtagcct gaccctgcac gctccatcgg tatgaggccg gggacgatgc tgtgtcgcgg agcttgcgct ccgagcaccc gcattttcgg aagcggctca gcgatcaatc atcgtgctga gaggcacacg gtatacggcc cttggccatc cagcacgggc ggtgatcttc cgacgggcgg gaggcgccgg ctgtcggcaa gagacctacc gcgatggagc gacgctgcgg cgcggcaagc gggctgtacg aaccaggagc gccgcgctgc ctcgccgcgc ggtgagctgg gtggctgcgc gaggcgccgg ctcccgcctg atgtgtcctc ctcttcgctc gaccggcgcg gcccgagagg acacgtcgac gagcatggcg cgcgcccggc gctggcggtg gttcgtcgtc ctacaatgct cgagctgctc catcgggccg gccccagggc ccgcgcagcg aggcgagcgt aatcgaggat tcatcgccgc gcgcgtgctg ccggttccac cgccgtcgcc atggcgcgga gccccttgag tggtaaaaga tcttccgcac tctctggttc tctgctcaaa cctcgaccgg tggcggatcg gccgtctgcc gcgacaccgt accccgatgc gcttcgacgc atcgactctt cgctcgtcgg cgctgccgca ccagcgtcgg tggatacggc ccggggaatg tcgtgtggct cggaggccga gtggagcccg acgacggtgc aacgggccct gcacgggcac tcgggcgaga ctgagtatgc agattcctgc ggctgaccgt gggtgagctc cggcgacgtg ggaccgcgtc cttcgcagtg accggctcgc cgcagggaca tcgcctttct atgtatggtc tcgaccggcc tcgaccagac tgtggcggtc tggctgcctg gcgggcgcct aggccgatgt

5940 6000 6060 6120 6180 6240 6300 6360 6420 6480 6540 6600 6660 6720 6780 6840 6900 6960 7020 7080 7140 7200 7260 7320 7380 7440 7500 7560 7620 7680 7740 7800 7860 7 920 7980 8040 8100 8160 8220 8280 8340 8400 8460 8520 8580 8640 8700 8760 8820 8880 8940 9000 9060 9120 9180 9240 9300 9360 9420 9480 9540 9600 9660

• ····	··	··	··	•
• · ·	• ·	• ·	•	•	• ·
• ···	• ·	•	•	•	•
• ·	• · ·	•	• ·	•	•
• ·	• ·	•	•	•	•
······	··	····	··	···

ggctgctgcg ccaggtggtc gcgcggggcg cccgatgctg cgtcctggtc ttgggtgcgc ggccggtgcg tgcctgcatg gccggcgacc ggccggcctc cgagcgctac gggagcgggt cgctcggctc cgaccgtccg ggtcacggag gctcagcttc gcccaaccct gggcgtgaac tacccacgtc cgaggcggcc ccgccttcag cgcggtgcag gaaacgcgcc gttcgtcgcc gctctcgggc ggagctcggc caatctctcc ccgtgcgctc catcgcgacg gcatcttggg ccacgcaggc tgcgccggcc gctgcgcacg ctcgctcatg gacgacgttc tctcgccaca aaacgacttc aatcagcttc ctccagatac cacaaaagca gccccagccg ggccggacag acggatctcg atgcttcggg gacatcgaga tcgttgcgag gtcgtcgccg aacgttgacc cccgagacct tctcgcaaga gagctcccac cgcttccggc gtcggggagc gggcgctgga gtccatccgc gacaccactc gaagcgatgg ctggggatcc gtcgttggtg cctcagctgc gacatcgtcg gtttttctcc cctgcccagc gtggcgccgc atcgcgggcg cgaaccaagg gaggcgttcg agcaatctga cacgcgcgag ggcaccttcg ccggacgccc gtgctcgagg ttcccctcag tggatcgaca cacgacgagg gaccatccgc ttccggctcg cggcgcgccc aatgatgtcc ccgctgctgc ggcctcgtgg accacgtcgg gccatgcccg ccgggggagc tgggcgcagc tacctggagt gacgtgcgcg gagctgatcg aagcgcgact tzctcgctgg tTggaggagc ctcccgatcg aagctcgtac gccggcccgt gogcgcgcgg czcgaaatca gccgtggagc ctgtccacgt gctctctcct gtctcatcgg tgaacgagct aggcccccaa cgatcctgac agcggcacgc gagcgtttac acgtgccgag cccacacgct tcatcgatct atgcgatgtc ttcggctgga taggcagcct ctctccctgt agtctgaggc ctccgccgac acacggagca ccgggctgac acgcgagccc gcgtgaacga gcgacaagag atcactgcga aacgaggcgc tcacctcgtt tgctggatca acggagtgtt ggcggctcac tagaagcgcg acgcagcgtc ccgggcaacc cgctccacgt ggcgtgtggc gcgggaaggc aggtggtgcg tcgaggtcgg ggccggcgct cgctcggcgg gggggcggcg cgaaagccga tcgaggaggg cgcccgagag agatcgatga ctggtctggg agctcgcgct tcggaggcga tgggccaacc ctgcgctggt tcgcgtacct gggtgctgat acgtgggagc cgctgggcgt cgtggacggg acaagagttt gttacgcgga tggatctccg tcctcggcct cccgtgtcgc tcacgctggg ccaccgggga cggcgctgga aggtcggcgc tgcgcaatcg cccccaatat tggagcgggt gcgcagatca cgagcaccag gaacgccctg gatgctccgt tccgtttcct ggtccccagc gctgagccgc gcccgacatg gcgcgggctc gcaccgcatc cgagcggcaa gtccatcatc cctggagctc gcatcaacga gcttccgatg atggctgccg cccgacgggc ccggtttacg tatcaccggg cttcgaacag cgtaagcggt attgttcccc gcagaggctc tcagctctac cccgcccgac tgaggaacca ggcgagcgca ggtgtcgatc cgtgcatgcg ctcgcatgcg cgagtcggtg ttgcacagac cttcgcggat tccgaaatcg gctcgcatcg gctctgggcc ggtgccgctg cgacgcggcg gggcgcggtg cggacgccgg gccaggcgtg cgaggtcgag gggcatggtg gtgcgccggg ggtcatcgcc gctgcctcgg gacggcatgg ccatgcggcg cgaggtccat gcggtatgtg cggcgaggga caatctcctg taaccagctc ggggatgatg gatcgcggca cgatgcgttc tgacccggag tcgggacctg ggcgttcctc ggaggcgctg tatcgaggcg cgccttgttg ggcggcggag agactgggaa ggtatcaagc aacccgaacc cagagactcc ctcacagaca gggatccacg gcctttcgga atgcaggtga gaccggagca tatgacaccg acccgtctcg ttcaaggact tcgtaccgcg tcgatggatt aaggccgatc tcggactcct gtcatcctgg ctcaacataa gacttcacgt cgcgctaagc atcgaggtcc gtggtgctca ggaactccgg gagcacgatg cttctggacg tggggtgaac aacgcgacca gccgcggtca atcgcggcgg ttccactcac agctaccggc gaggtgagct ggagtgaagg acgctgctcg tcgcgcgctg gtcggtggcc cccacgtacc cgtggcgacc cgcggcggcg gagaaggtcg cttgatcacc atcgccgtcg cccgacgacc cgcatcgtcg ctttcggcgg cctcaggcgc tacgcgctcg accggcgggg gcgacggccg agcgattccc gtagacgtcg cgatcgcacg gggctgcggc ctcgagcggc ggcgtgttca cggagcatgg gtccagatcc ctcgacaggc cgtacgcagg ttcacccgcc agcctcaagc gcccaaaacc aacctacggg atcattgccc tggcggccga tgctcgctcg ccgcagaatc tccaagaatc cctatcgcga aagtcgtcgc tcgagcctaa cacgggaagc agcgccctcc tgctcagtat ggctcagctt attatgtact actggaagcg catctaccct ggggtcgatt ctgcattttc cgctcttcaa cgatggtcct gtattcaaga agcgagaggc cgagcgcgct tgtacaccag gggacctcgt acatgctcga aggtgcgctg acgcgctgct acgctccgga cgatggccgc cgctcatggc ggccgtcgat cgccgggcta cgctgcacgc gcctggtgcc ggcgtgacga tggtctcctg cttggcagcg gccgtgctcc accggcgcag aggccgccgg tcgtgcttcg acgcggcggg tgccgggaaa ccgtgggcga gagcgtttgc tctcggcgat acagaatagc tcggtctcgc gcacgcccga gctcggaccg tgctcaactc gccggtttgt cgttcctgcg cggcgcgggt cccctccccc cgcaggcgca gtattccaac tcgcgtcagc tctcgcaggt tcggcatgga tgaagctgtc tgttggatgc caggcgtgca tatgacgatc tggagagcgc aatctccgag catcgtgccc ctactggctg atacgactgt gcggcacgac agtcgacgcc gaggctcgtg gctctatcac cgatctcatt ctacgaagat cgcgctggag gcgcatcgcc gaaggagatc gaagcggcgt cgaggtgatc ccggctcccc cctggacatc gcagctgtgg cgcccgggtc taaccagcaa cacgcagact cctcgcgtgg agcgtacgtc ttcgcttccg gagcgagcat

9720 9780 9840 9900 9960 10020 10080 10140 10200 10260 10320 10380 10440 10500 10560 10620 10680 10740 10800 10860 10920 10980 11040 11100 11160 11220 11280 11340 11400 11460 11520 11580 11640 11700 11760 11820 11880 11940 12000 12060 12120 12180 12240 12300 12360 12420 12480 12540 12600 12660 12720 12780 12840 12900 12960 13020 13080 13140 13200 13260 13320 13380 13440

• ····	··	··	··	•
• · ·	•	•	• ·	•	•	• ·
• III	•	•	•	•	•	•
• · ·	•	•	• ·	•	•	•
• ·	•	•	•	• ·	•
··· ···	• e	····	··	• · ·

acgctgcacg tcggcgcgca cggctgcgcg tgggagcagg gatgccgacc gtgctgacgc ctcgtgagcg acaccttcgg gtgatgatcg atagggcccg gatgtgttcg cgcgatccgg gtgccggcgc aggtctctgc ctccaggcca atctggtcca ggccgtccgc gtctgggttc gatgaagaga aagaccggcg gacaaccaaa aagtcgcatc aagctccttc gcgagcctca agcgacggcg ggaaagcccg gcgcgtcgcc cgattcctga tatccatcgg atcgagggcg ctctccgatc gaagcggcgt tcgtcgtcgc caggcgcctt cggccggttc gtagacccgc acgacgcgcg ttgaggacca ccgctgacgt tcgccgcggc gtcgtacggg ggtgcgacat gagatcgcca cgccgagact cgcaagggca gccgcaagcc gggtgtgcgc aagagtcctc tggacgaatt aggagctcgc cgggcagcgt gcgaggcaga tggagaacgc ccaacatgag ccggctggtt acaggctgaa tggcggttca gcgggattac tctctcccga acggctgcgg tccgcgcggt ctgcgcccag tcgaggcccg gcctgttcgc agacgctcac agcagggggc ttgtcgcggt taccggcgga agccatggct aggccggcgt atctcgcgta atcatcgggg gagacagggt ggatcctggc cgcattgggc tgatgcggat ggctttcgct tcaggcccgg tcgggtaccc tccgcaacca ccgggcaact acacgcgcaa atctgggccg tcaagcttcg cgaacgtacg tagcctatgt agaccgagcg agagggtgca tcgtcgatct gtagcgtccg gctgcttgag cgggcagcac tggacgaggg acgggatcga tcaacctcct gagaattttg cctgcaacat tcgacctgcg ggcagttcca gcgcccctcc aactacccga ccaacggcaa attcggggca aggtgctcgg cgattcacat tcaccgagtt cgagagatct ggagacgtag cgcctgcgtc gttgagccgt cgctatcgca ctggaggaac ggcgtccgga gctggaagac gctcatggat cggatacgac ctcgtacttg tcagacgttg tctgagaggg cttggcgtgc cgtccggatc cggccattgc cgttgtcctc tatccttggg tgaggtgggc ctccatccaa ggcgcgggtc gtacgaagag acgcccgaac tctcgcggtg gcgtatccac ggatggcaaa cgaaggcgac tgtcatctac tgccgtcaac gctggcgctc ggcgggcggt agagttgatc gctcgtcgag gctgagcggc cgtgtcggtg cgtgaggaac gacgttccac ctacattggc gagcttcctc ctacctgccc cggataccgc cgacgcggtg ggtcccggag gatcgacgcg gttcaagctc gaccgggcag aacgttcctt cagcgtggag gtacccggtg cttctattat gcgcggagcg gttcgtgggc cctgctggag cggcgtctgt acattcggac ggtctgtacg cggccgcgag gtacatggtg ggtcgatcgt cacggcgcca gctggaggtg cgttcgcatg gttccagtac agatcagcgg ctaagagcgc accctgggac gttgttcgaa gtcatcggca cttcgagacg gtcgaccccg gtcgaccggt ccgcagcacc ccgacggctt acgtcgaacc atcggcaacg ccgagcatct atgagcctcc ccccatcgag cgggccttcg ctgaagccgc tctgccacaa caggcgcaag tacatcgaga gagcagctgc ctttcgcgcc acattggtcg ctcgagtcag tacctcctcg ctgtcatggc ggcgaccagc acctcgggat accatcctgg tcctcgctga acgatcgtgg gaacgagaga cattttgagg gactggatcc atcagcctgg gtcgacctat gtgctcgatg ggggtcgggc gtgcaccccg gatggaaaca gttgagctcg attgtgcccg ggcacacgga agagcacacg gctcgacacg gatccgcggg gaggccccga cccgacggcg caaacctacg taccacccgt cacgttcggc aggatcgacg gccggatata ccggtggggc gtttacgtgc ctcggtcagg cagcacttcg cctacagtct aaggccctgc cgggacgcct gtcgggctcc aggagcctgt ccgaacctcg ccgaacatgc cgaacaaaac tcatctgatc cgctgaggaa tgtcgggccg gcacggaggc cgctggtgct tcgacgctgc ggatcttcat acgagggctc tccacgagca acaaggatta ccgttcaaac tggaccgcga ccggctatgt acgccaaggc tggaccgggc acaacgacgg cgatcatgga cccacgggac ccatgcagct gttcgcggcg cggtggtgat gcgcggccta atcatggtga cgccggggat ctccgatgat ccacagggtt acatcaacga gcttcgatct tgccggacgc aggtgacggt gtcgccccga cggtgggcct gcggggccac cgtgggcgag aggcgctcga tggcactggg agaccgggga tcgagttcat gggaaatcga tcgggaacga gacgcgctgc ccgccgaagc gactccggag aggcggggct ttccgtttgt cgacccttcc cgtatgtcaa tcgagcaccg aaaacttcga ccatcgagtc tggcgcagct aattcaattt acggcatgct attcctcacc ccgatatgct tcgtggagct gcgagcggaa tggaggagat agcagagctt tgcagaagag gctcgctggc aggaccgagt caggccgagc tgatcgcggg cggtgagctc ttttccgggg cgtgcagcgc ggacccgagc tttcttcggc ggaatgcgcc tatcggcgtg cccagcgatg cctcgcgacc tgcctgctcc gtgcgacatg atatgctgag gaacggcacg gctctccgat agcgaggaag ggcgctggcg cggcacgctg cgccgtggtg acttggcgcg ggagaaaggc cgtgccgatc ggtaaagctc ccagcggctg gcccattcag gcccaagggg gcgcttcgaa ctcggtctat gtccaagctg gtggaactcg ttcgctcgct gcctggcgag cgaagcgtcg catcccctac accgcgcccg ctactggcgc gcgcctctac ggggcgtgag ggaaacgctc cgcggcgaac cgagcaggac ggacggcttg ggacctggac ggacgtctac tgagtttggt caaattccgt atccggccgc tttgctgaag cgtgttcgat gctgtatgga cctgatggag tgaacaggtt gggcgggcgg gaggcgcgcc tcgcgacttc cgatgcgttg ggatacctcg cctcgtcgcg cgtcgatctt gctggatagg gtccggtttg ggaggttcgg gggccgatga tacgcgtcgc atggaagaac gcgcgggatc ttctccgagc tacgtccggg atcagcccgc tgggaggcgc tacgccggcg atgcggtggc cacgtctcct acctcgctcg gcgctggccg gggggcatct atcatgggca ggtgatcccg atcgggttca ctggcagggg ctcggagacg

13500 13560 13620 13680 13740 13800 13860 13920 13980 14040 14100 14160 14220 14280 14340 14400 14460 14520 14580 14640 14700 14760 14820 14880 14940 15000 15060 15120 15180 15240 15300 15360 15420 15480 15540 15600 15660 15720 15780 15840 15900 15960 16020 16080 16140 16200 16260 16320 16380 16440 16500 16560 16620 16680 16740 16800 16860 16920 16980 17040 17100 17160 17220

• ····	··	··	··	•
• · ·	• ·	• ·	• ·	• ·
• ···	• ·	•	• ·	•
• ·	• · ·	• ·	• ·	•
• ·	• ·	•	• ·	•
······	··	····	··	• · ·

ccatcgagac gcgcgatcgg gtttgatcaa agtctcctaa aggattggaa gcaccaacgc cggcgcgctc cggcggcacg ccttcagcct cgcgcgaggc ccgtgcgtgg agggctctca cggcgctttc agctcgccgc tgttcgccct tcgtgatcgg tcgaggatgc agggcgagat acgaggatcg agccggcagc gggtgaaggt tggcagccct cgggcgccat agccagtgcg tggagatgag agcgggcggg tggaggcgct ccgcgggggg tcgaagcgcc cgctcctcgg cgctggatct ttccgggcgc gccctttgca cggtgttggt cgagccgggc tccgagtgga tccaggccag acggccctgc gggtacgcct tggacgcgtg gggtgcccgt gccatgcgcg gggtggtcga ttccgggagg ccgcagcggt gtgggctcgg cggcagagaa gccaggctcc cagggctcgg ccctcgatcc ccggcatggg tcggcgccgg ccatggagca gggagctcgc tgcgcggtgg gggggaggat ttgtgaccgg gcgctggtca ccgtcgcggc atcgggcgca gcgtcgtcca ggtttcgtaa gcgaagcgcc ggcggcgctg ctzcgtgaag gacggtcttg cccatcgatc taccggctcg ccatgtcgtg tgccgagctc gctacgagat ggcgacgacg gttgcgagag ccgctgctcc gtgggtcggc ggcgtgcgac cgacgaaggg cccggtggca ccacagcatg ggtggcgatc ggcggtgacc ggtgagcgtg gatcggcgag ggatgtcgcc gggcgggctc ggtagcgggc cttcgccgag cccgcatccg cgcagcggtg gggcacgctg gcggcgggta ggccaagagc tgaaatgcag caagcggctg ggcgtacctg gataactgac ccaggtggtg gccgggcgct gcgcaccgag catacccgcc cttccagggg gcccgacgcg cttccagatc ggagttgggc cgtcgtgaac cagctcgggt ggtgcgccgg cggcacagcc cgccgcgttg caacacgagc gacggcggtg ggcgcaaggc ggcgctggta ctttcgagac cgacgtctcc cgcggatctg tgccctgctg cgagcgatgc cgagagctgc cggtctgggt cctggtgctg cctcgaggcc cctcgagcgg tgcggccggc ggtgatggcg gctttccttc cggcgggtgt accggcatcg gcgctggagc gatttcgcga actccgcggc ctggaggaag ttcgtcgtct catctgcagg cgcagcccca gggctcgacg ccaggcaacg atgggccggc cgggccatcc tcctcccagc tttgcggcgc ggcgaggtag atctgccggc gagctgtcgc gccgtgagca gtgctgtcgt agccacagcc cggccgggtg ccggagctcg gtagtccagg atcctaacga ggctcgctgc tgggcgcagg ccgctgccga gccgcgggcg accctgtcaa ccgtggctcg gagatggcga gtggtgctcg acgacggagc ggccacgcgt gtcccggctg gcggccacct attgctgagc gccggctcgg gtcggcagcc tcgctgcggc catgggcacc gcagtggtcg cgcgaagaag aaggtcaacg cgcgcgatgc gctgccggcg gtgcacctcg gcattggacg cgtggctgcg gccccgcgat gtgacacagg cgctgcgctc gccgagctgc gtcgctcgga gttccgaccg gggctcggtc gtgggccgct cgcggcgcgc atcctccgcg atcttggacg cccaaggtcc ttcgtgctgt tcggtcgcga gacacctcga accggcagct gcagcccgtt gggccggcgt cgcccgcggc cggccaagag cgcaccaggg tggagcaccg cagcggcgcg tgccgaaggt agctcctggc aggccgaagc tcgagcgcat tgtggcggtc ccgccgcgca gcagccggct tggccgaggc acagcccgcg ccctgaacgc cgcaggtcga cggctgcggt gagcgaatta cgcagctcca cttcggtcga ggcgggggca gctaccctgt cctatccctg atcgccgcgg cccagacgag gcgaccaccg tttcgtcggg ccgaggcgct agccgtcggg ccttccgggt ggcttacgct acgcggagct tatggcgggg cagcggagta tcttcgcccg tcttgcagcg aaacccccga ccgaagtttg acgattggtt cgggccggtg tggaggccgg tacgcgcgct gcagcctcga cgccccggag acagcgtgct tgtggctttt caccgctgct gggtcgacct tggccgacga tcgtccgccg acgtcaccat tgagcgtggc ccggcgcggc gcgtcaccgt aggttaccac acgggctgct agggggcctt acgcttcggg cgcttcggcc atcggcggct gccgcccagc ctacgtcaat cagctcgttc gaagcttcca cgcagcggcg gatttcgttg gctcgcgatg aggccagacc ggtcttcgtc tgaggaaccc tggttggtcg cgacgtggtg gtggggtgtc tgtggccggg gctccggcgc cgaggcggcg ctcgacggtg gaagggggtg cccgctgcgc gccgatgcgc ctggatgaac aggcggccac ggagatgcgg ggacgagcgc accctggggg gcagcgcgag cgtgcgtgcg cacgcggctg ggtgcaggga ggccgaggct ggccttcgcg gcggctgcag ccacgctcgc ttccgctgtg gaccgagatg tgaaggcgag tcggttgcat cagtggcgag gccttcgggg tcggcagggc cgggctcgtg cctggagctc gctgctcctc cggccatgcc cctggcaaag tgggggtggc cgccgacgtc ctggaccgtg gacccgcggc ggggctgggc cgatccagcc cgccgaagcg gcagcccgag ccgcgcggac cggatggctg gagcgtggag ggcgaaggcg gtcggggatg gatgcagcag gcacctgcac agtagggctc cggaggtctt ggcatcgccg ctgaacttcg acctctctta gggatcggcg gccgcggcgc ctggatgccg ggcgacgtcg gcggcgccgt ccgccgggcg tttcccggcc gtcttccacg ctgctcgcgg cagccggtgc gcgcccgacg gcgctgtcgc atcagcggtc ctccgaggct ctctcgggcg ttctgccgtc gaggacctct tcgacggtga aacctcaggc ggtctgttcg cgcgcggccc ccggcgatgc cggctgtttc cggtactgga ggcggtcacc tgggagacga gcggtcgtgt ttgggcgatg ggcgacgcgg ttccagatcg ggcgcgttgc cgcgcgcggc gggctgcagt gcgctgggac cctgcgctgc gcgacgccgt gagctgtggt gccgactttt gcgcagcggc gagtgggaac ggcggcggcg gtcgtgcatg gcctttgacg gagctcgacc agtcccgatg caggccctgg gcacaggccg cgcgtcatcg cggcccgagg gaagtcgcgt acccggcccc agcacctacc gccgagcgcg caacgggcag gatgtcgccg ccgctgcggg actcccgcgc gcgttgacgc ttgggctcgc

17280 17340 17400 17460 17520 17580 17640 17700 17760 17820 17880 17940 18000 18060 18120 18180 18240 18300 18360 18420 18480 18540 18600 18660 18720 18780 18840 18900 18960 19020 19080 19140 19200 19260 19320 19380 19440 19500 19560 19620 19680 19740 19800 19860 19920 19980 20040 20100 20160 20220 20280 20340 20400 20460 20520 20580 20640 20700 20760 20820 20880 20940 21000 ···· cgggccaggg gggcgcaggg □ggccgcgca ccgacgaggg tgatgccggt tgttgtcgcg acctgctccg tcctccgcgc ccccgctcac aggccatgct cgctgagcgg ccaccgccga tcgcagcaaa gctgaaacaa ggcggagctg cggtgcggac gccgctcgac ggcggggctg tcgggaggcg gctcgaggac cggcgctttc cgcgtacagc ggggttgcag tcacctcgcc cagcgcgctc cgatggtcgt tggcctggtc gctgatccgg cgtgctggct ggccgtcgat cgaggcgctg cgcggtgaag ggcagcgctt tccgcggatc gcgcacggac gcatgtggtg ggcggagctt gctgcgcgag ggcgacgacg gctgctggcg catcgcgagc gccgggcatg gtgcgtggcg ggcggggagc cgcggtggag ggttgggcat agatggggtg cgcgatggtg ggcgtcggtg gcaagcggtg gcatgtctcg ggtggcggcg gaaggtggtc ggtgcgcttc agtgggcccg gacgctgctg gggcaggctg gcggcgggtg ggccgaaggg ctggcccgag ggtgctggcc atgttcgtgc ccaggccctc caactacgcc gctgccagcg ggaagatcgc gctgtccgct gaacccgcgg cctggtgacg ccgcctcgcc gcagatctcg gagcctgggc gggcatcacc gcatctggcg ctctgccgtc attcaaggcg gcggccatca gaacggaccg gctccggaag atgcgctggg ctcaccgagc ccatcgctcg gccggtatcc acggcggact gccaccggca ggaccttgcc tgccgcagcc ctctcccccg tgccggacct gtcctcaaac ggctcggcca caggagacgg tacgtcgaga cgggcgacgg accaacatcg tcgctgacgc cggctcgagg cgcccgcgct ctggaagagg ttggtgctgt cacctggaca cgcagcgcga gcgctctcgg tcctcgcgcg ggccgggggc ctgttcgacc gccgagtcgt tacgcgctga agcatcgggg aggctcgtgg tcgctcggag tcgatcgcgg caggcgatcg cacgcgttcc tcggtgacgt acggacgagc gcggacgggg aagccgacgc gcgtcgttgc tgggccgccg ccgctgccga ctcggagcca atgcctcgct gaccggggtg gccgtgctcc ggtggccgca gcggccaaca ttgagcgtcg ggcgcgcggc ctggcacggc ctgtgggtgg gcgcatcgcg gctgccgagc caggtgctgc atgaactcgc gtaccggcaa cgggaggcat gagatcgagg cttacatgac tcattcagcg agccgatcgc cgttttggga cgctggtggg cgatagattg acccgcagca cgccccggtc acgcgcgcac acatgctcag tgaccgtcga tgcgcgcagg acatgatgga tcgatgcttc ggctctccga tcaaccatga tcttgcgcga cccacggaac tggggccggc gccatctcga acgagcgcat gcagcgcgct tcgcgggggt cgccggcggt cgggcaagag tgcacccgga tgagccaccg ccgtggcgca gcaagctggc tttgcgcggc gggagctgga tgttgctcga cggcgctgtg agctggtggc cggcgcgcgg cgccggaggc cggtcaatgg cggcggggtt actcgccgct accggcggcc tgagcgcgcc tgaaggcgct tgctcgggct gcgccgggcg gcggctcggt cctatccgtg cggccgccga catccgtgga gagtcgggga atgcgcccgc acgactggca cgttcctcga actggggcct tggtctcccg tgctcgaaag agctctaccc cgagcgccgg cgagcgcgcg gcctccccga tgatggggct cgctgttgtg gcgaagccgc agatgtcgca tactcgcggt gctggaggag catcgtcggt gctgctcgac tgtcgctccc cttcgatgct tcgtctgttg catcgacggg ggtcgctcgg catcgccgcc cacggcgtgc agagagcgat agccgcggcg ggccaacggg cgcgcaacgg tggccggtcg ggcgctgcgg agggacctcg gcgctccgac ggccgcggca cccgagaaac cgcgttggcg gagctcgttc ggagctgtgg cgagggggcg gctcgggctc gctcgcggtg ggggcagacg gttcctgttc gtggccagcg ccgcccgctg ccagacggcg gcggtcgtgg ggcgtgcgtg gcggctgatg ggaggtggcg gccggagcag cgcggcgcgc gatggaaccg aagcgtttcg ggggtactgg gcacgaagcc gttgccagcc cgaggaggct cagctggccg gcagcggcag tgcgctggcg ttcgcggcga ggcggccgcg cgaggcctcc gggggtgctg cgctctggcg gttcgcggag cggaatgcgg cggccgcgct cgcggcggcg cgggccagcc gagcgcgctc gggcaagatc cgagctgcgc gacctatccc tcctgtggag ggacgatctg cctacggcac cggctcgctg atcggctgcc gcggagcgcg gtcgaggccg gcgttcttcg ctggaggtcg agccgcaccg ctgccgcgcg ggacggctgt tcgtcatcgc ctcgcgttgg cgcacgcaag ttcgtccgtg gatggcgacc accgggttga agcgcccacg ctgggcgatc ggcacacgct ggcgtagcgg ctcaacttcc accgagccgg gggatgagcg cctgccgcgc ctcgatgcgc ggggacgtgg gcggtgacgt ccggcggggg accggacagg ttccgggagg cgcgaggtga ttcacccagc ggcgtagagc gcgggggtgt caggggctct gcggcggtgg gtggtgatcg ggcgcgcgca atgctggagg ctggtgagca gtgcggcacg ggcgcgggga tgcctgccgg gcgggggtgc ggcgtcttcc cggtactgga cagtggttct gcccggtccg gcggcgcttt gcggttgccg tacctgtggg caccaccgga gtgggcatgg agcctcaccc caggtggggg tcttcgcgaa ggggacgggg ctggagccgc gaggtggacg aaccgcatcg acggtggcgg tcaccgcaca acgcagttga agcagaatcc ggctcgcaca gcttccctgg acgcggtcca tgccgcactg gcatctcgcc cttgggaggg gtgtgttcgt aggagcgaga cgtacacgct tggtggcgat cgggaggggt cgctgtcgcc gcgagggctg gcatctgggc ccgcgcccaa tcgaagctgg ccatcgaggt gcgtgctggg gcctgatcaa gcacgctcaa tgccgtggcc gaacgaacgc cggagcgctc aggcggcgcg cgttcagcct cgcgcgaggg cggcgcgctg gcgcgcagac cgttcgaccg tgtgggcgga ccgcgctctt cggagctcct tctcgctgga cggcgggcgg cgccgcacgc cgggcgtgga ccaagcggct agttcgggcg acctgagcgg tgcgggaggc cgttcgtcga aggcggagcc tcgaggcgct ccacggctgg tcgaggcgcc accgggtgga gcgggtggct cgtcgcaggg agcaggtgac gtctggacgc

21060 21120 21180 21240 21300 21360 21420 21480 21540 21600 21660 21720 21780 21840 21900 21960 22020 22080 22140 22200 22260 22320 22380 22440 22500 22560 22620 22680 22740 22800 22860 22920 22980 23040 23100 23160 23220 23280 23340 23400 23460 23520 23580 23640 23700 23760 23820 23880 23940 24000 24060 24120 24180 24240 24300 24360 24420 24480 24540 24600 24660 24720 24780

• ····	··	··	·· ·
• · ·	•	•	• ·	• ·	• ·
• ···	•	•	•	• ·	•
• · ·	•	•	•	• · ·	•
• · ······	•	• • e	• ····	• · ··	• • · ·

cgtcgtggag gccggtgctc cgtgacccga gctgtggggt ggacctggat gccggacgcc ggccgcccca ggtgacgggt ggcggggcac agatcagccg cgcgcgggtc ggcggccgtc gctgctggcc ggcatgggtg ctcggcgtcg tttggacgcg gggcctgtgg gggaatctgg gcgcgcgacg cgacgcgagc ctcggccgtg gctctacgag gctcgacgtg ccgcaaacgg tccgaccgtg caccgacgtg cgcctgccgc gggcgtggtg ccccggctcg ggtggagacg cccgcaacag cccgtcggcg tgccgagcgg catgctcagc ggctgtggat gcgacggggc gaccttcgcg ctcggccgac gctctccgac caatcatgat gttacgccag ccacgggacc cgggcaagcc gcacatggag agagcaaata gctgccggtg cgcgggggtg gccggcggtg gggcaagagc gcacccggag gaaccaccgg cgtggcgcag caagctggcg ttgcgcggcg ggagctggac gttgctcgac ggcgctgtgg gctggtggcg ggcgcgcggg gccggaggcg ggtcaatggg ggcggggttc ctcgccgctg gcgggggcat gcgctgattc ggggcctgca atgggccggg ccggaggaga gaggatcagc ccggagggaa gggctgggcg cttgtgctga ccagaggtgc accgtggcgg gagccgccgc caccaggacg ctgcacaccc ggcgtcttcg ctggcggacc gcggaggggg gcgatgccga cagcgcgtgg ccaggccgct ccagctgtgg cttgtgcgcg cgacgaggct cttcagggtg gagcggctgg cggagcgttc ttcccgggcg gtcagcaccg ggagaggcac ttcgatgcgg cggctgctgc ctgcgcgaga gtgcaggaac gttgcggcgg acggcgtgct gagtgcgacc ctgctctcac gcggacggct gcgcagcgcg ggcccgagca gcgctggcgc gggacggcgc cgccctgcgg cccgcggcgg ccagcccagc gcggtggccc agctcgttcg gagctgtggc gagggggcgc ctcgggctcg ctcgcggtgg gggcagacgc ttcctgttca tggccagcgt cgcccgctgc cagacggcgt cggtcgtggg gcgtgcgtgg cggctgatgc gaggtggcgg ccggagcagg gcggcgcgcg atggaaccga cggccgaaga aggcgctcgg cggtgggcgg tcgcggcgct gcccgacgga tggcattccg acgcagcgcc cccttggcct tcagccggca gcgcgcgcat cggtcgacgt tgcggggggt ctggtcggct ttacccgcga gctcgatcgg tccgccgaac ggatgggctc cgagtcgggc tcatccagat tctgggatcg agcgctggcg gcgtggtcgc tcgccgagca agctgggtat tggaatactt ggttgccggc gggtcgagga aggtgccggc agagacagac cgttcttcca tggaagtgag gccccacggg tcgccgatga gacggctatc cctcgtcgct aagccctggt ggatgcacgc acgcgcgggc accgcgaccc gcgggctgac acgcaggggt tgggcgaccc accgaccgct gcctggccgg cggagctggg gcgcagcggt ggatgagcgg ctgccgcgcc tcgatgcgca gggacgtggc cggtgacgtc cgccgggggc ccggacaggg tccgggaggc gcgaggtgat tcacccagcc gcgtagagcc cgggggtgtt aggggctctc cggcggtggc tggtgatcgc gcgcgcgcac tgctggagga ggtcgccaaa cacggggccg cgagcctgac agagcatccc ggtcgaggcc ccaggggcgc ggtgtcgctg cctcgttgcg cggattgccc tgcggcgatc ggccgatgcc agtgcacgcc cgcccgggtg gcagccgctg ccagggcagc gcaggggctc gcaggcgcag cctggcggcg ggattgggcc gctggtaact caacgcgtct cggggtgatg gggcctcgac gccgctgtcg gctgagccag gacagaggac cctggagtcc cgaccggtgg ctacgtgccc catctcgcct ctgggaggcg cgtgttcgtg ggcggcgggg atttttcctg ggtggcgctg tggcggggtc actttcgccc cgagggctgc catcctggcg agtgcccagc ggttccggcc gatcgaggtg gatcctggga cttgctcaag cgagctcaac gccgtggccg aacgaacgcg ggagcgctcg ggcggcgcgg gttcagcctg gcgcgagggg ggcgcgctgc cgcgcagacg gttcgaccgg gtgggcggag cgcgctcttc ggagctggtg ctcgctggaa ggcgggcggc gccgcacgcg gggcgtggag caagcggctg gttcgggcgg gtcacccatc cgctcacccc gctgccccct ggctcctggg ctggtggccg cggcgcgcag tctgcggagg cggtggttgg gaccgcgagg gaggcgctgg gaaggcatgg gcgggtctgc ttgcgcccca gacctcttcg tacgcggcag gccgccctga cgccgggaac atggaatggc catgcgggag gccacgaaag gttgtggaga ggctttaccg tccctgatgg gcgacgctag gcgctggagc ccgatcgcca tactggcagc aatggggcag aggggtggct cgggaggcga atcgagcgcg ggcgcgggcc ctctacagcg ggcctgcacg cacctcggct aacatgctgc ggcgggcggt gccgtggtgg gtgatccggg ggccctgccc gacgtcgatt cgtgcgctga gccgccaagg gcggtgctcg ccgctcttgc cgcacggacc catgtggtgc gcggagcttt ctgcgcgagc gcgacgacgc ctgctggcgg atcgcgagct ccgggcatgg tgcgtggcgc ccggggagcg acggtggagt gctgggcata gatggggtga gcgatggtgt gcgtcggtgt caagcggtgc catgtctcgc gtggcggcgt ttgccgcggc ggctctggat gtcaggcggc gcgggctcgt agctgctttc cgcggcttgt ggagttactt tggagcgcgg aatggggccg aggcgcaggg cggcgctctt tcgacgacgg aggtggaggg tactgttttc gcaatgcctt gcatcgcctg acgaggcatc tgctcggtac cggcgccgcg aggcctcctc cccgctcggc accagggcac ccgtggagat cgttcgacca tgcaggaccg tcgtgggtgc tgttgaccga acgggcgcgt ttctgcgcga tgagcctgga cgggccagga ccaacgaata gcaccggcaa ggccgaccct gccagagctt tctcgccgaa gcaagacgtt tgctcaagcg gtacggcgat aggaggcgct tcgtggaatg gcgacgtgta ccaaccttgg cgctggggca cgtgggaggc gcccgcgctt tggaagaggc tggtgctgtc acctggacat gcagcgcgat cgctttcggc cgtcgcgcgg gccgggggct tgttcgaccg ccgagtcgtt acgcgctgac gcgccgggga ggctcgtggc cgctcggagc cgatcgcggc aggcgatcgc acgcgtccca cggtgacgta

24840 24900 24960 25020 25080 25140 25200 25260 25320 25380 25440 25500 25560 25620 25680 25740 25800 25860 25920 25980 26040 26100 26160 26220 26280 26340 26400 26460 26520 26580 26640 26700 26760 26820 26880 26940 27000 27060 27120 27180 27240 27300 27360 27420 27480 27540 27600 27660 27720 27780 27840 27900 27960 28020 28080 28140 28200 28260 28320 28380 28440 28500 28560

• ····	··	··	··	•
·· ·	• ·	• ·	• ·	··
• ···	• ·	•	•	•	•
• ·	• · ·	• ·	• ·	•
• ·	• ·	•	•	•	•
··· ···	··	····	··	··

ccggcggcca gagcgcgccg gaaggcgctg gctcgggctg cgccgggcgc cggctcggtc ctatccgtgg agccgcggat cctccagaaa agtcggcgag tgcgccggca cgattggcag gatcgatgag gtttctgagc cgttggcgac ggcggcgctc cccgccccaa gaccgaggat cccgccacag gggaggcctc gcacttggtg gccgcctgag ggtgaccgtg ggtcgagccc ggcggagacg gctgctgcac cgcagcggtg cgggctcgcg gtgggccgag tctgcccatg ggctcagcgc agggcgtcgc tccggcggca gcacgagatc cgatcctggg caacctcctt gacggtacag cgacacccag ctgccgcttc cgtggtggtc tgatccggag gagattggat gcagcggttg tacgctgcga gcagcggctg gctcagcgtt catggatacg actgggcgag cttcgtgctg ggccgacgcg gcgcgatgcg ccacgacggc gcgccaggcg cgggacaggg tccagggcgc tctggaggcg gcagatcccg gccggtggcg cggcgtgagc ggaggtggag caagagcgcg cccggagctg gcaccggctc agcgtttcgc gggtactggg cacgaagccg ttgccagcct gaggaggctg agctggccgg cagcggcagc ccgacccaag tcagaggagg gcggtcgctg gagacatccg gtagtgctct atcggcgacg accgtgtctt gagcctgcga gsgcatcccg gccagcccga cagctcgcct gggcaagcgg ggtgggctgg ctgaccagcc atccgcgcgc gcagcggtgg ccgctgcgag gacgagaccc cggctgctgc tggggtagcc catcttcggc ggaggcatgg tcgacgtcgg acggtgaccc aacctgcttt gcaacccgga gtccatgggg aTggggttca caggctgagc cggctggtgg catgttcggt ccgggcgggg agcgccgagg atcccaggcc gcgaccttct ctcctggagg gatagcccca cgaggcttca acggctggac gcgtgctcgt tgcgatcaag ctctcacgga gacggctacg cagcgcgccg ccgagcagcg ctttcgcaag acggcgctgg tccggggacc gcatctggct gcccagccgg gtgccacgta gcgttcgggt ccggcgcccg ccggcgctgg agcctcggcg gccatcgcga tggtgagcaa tgcggcacgt gtgcgggcac gcctgccgga cgggggtgct gcgtcttccc ggtactggcc gctggttcta cgagccgcgg cagcgctgtc cgaccgccga acctgtgggg cgacccgtcg gttcgccccg tcgccccttg gggcctgggg tcgacggcga tccgccatgg caccggtgtc gcctgatcgt ggcgcgggtt ggatcgcagc acgtggccga gggtggtgca tgctcgagtc acggccggcc atagccaggg gttcgcaatc cggacgcgga cagcgttgtc ggatggactg cggcgctggt actggcgtgg ccgtcgctcg atgagcaggg tggacgtgcg agcatctgct cgttggcgtc tggaggacct tgccggccga ggacttacgt tccgcatctc taagctggga ccggggtgtt ccgacggagc ggctgtcgtt catccctggt cgctggttgg tgcgcgcgct cgcggggcga gcgactccat ggctgaccgt caggcgtgtc gcgacccgat gaccgctggt tggccagcct agctggggga aggcggtgcc tgagcggaac cggcgccggc acgccgcggc acgtggcgtt cgacctcgcg cctgagcggg gcgggaggcg gttcgtcgaa ggcggagccg cgaggcgctg cacggctggg cgacatcgag tcgcgtggac gagctggctg gacacgtgga gctggtgacc tctggacgcc tgctaccgcg actctgggtc tcaggcggcg cgggctcgtg gatgctcgtc gcgccggcac gctgtctgcg ggcccagtgg gcccgaccgg ggtcgaggcg cgtcgaaccg cgccgctggc ggtgctccgt tctcgacctg tgcgtacgcg gctgcctgcg ggctcatgca ggcgctccag ggcgcgcttc cgcagggcgc cctgtccgtt ggtgctgggc cctcgactcg gctttcgacg cgtcgatgta agacgagccc ggagtcctac ccggtgggat gaccaaaggc gcctcgcgag agcgctcgag cgtgggtgcg ggcagggttg tttcctgggt cgcgctgcac cggggtcaac ttcgcccgac ggggtgcgcc cctggcgctg acccaacgga tccggtcgac cgaggtgcag gctgggggcc gctcaaggcc gctcaacccg gtgggggcgc caacgtgcat gcgaccggtg ggcacggctc cagcctggcg cgaggccctg aaggtggtcg gtgcgcttcg gtgggcccga acgctgctgg ggcaggctgt cggcgggtgc cctgacagcc tggccggaga gtattggcgg cttccatgcg gaggctgccg gtcgtcggtg ccggtgctcg gtgacccggg ttatggggca gacctggatc accgagctat gcggcacggc gaggcgagct ctggtggagc caggcgtggt ctggaggcgc atgacagcgc gtcagcgtca cccaaggtgg ttcgtgctgt gcggccaacg ttgagcgtcg cgtctgagcg cgcctggtgg gcgccggtgt gacatcatcg gcggaagccc ttcctcgacc ttgatggcgg acgctggcct ctgaagctgg atcgccatcg tggcagctat gcggcggact gccttcctgc gcgatgagcc agcgcgggta gggcccaatg tacggcggca ctgcacggcc ctcgcctgcc gtgctgctcg gggcggtgca gtggtggtgc atccggggaa cccgcccagc gttgattttg gcgctgagcg gccaaggcca gtgcttgcgc cacttgccgt ggcgcacgcc gtcgtgctgg gagctggtcg tcggcgcacc acgacgcgca cgaggcgcgc cggacgagct cggacggggt agccgacgct cgtcgttgcg gggccgccgg cgctgccgac gtcgccacgc tacctcgcag ataagggtgg tcgtgctcca gcggtcgaag cggaggcgtc gcttggctcg gggcatgcat tgggccgggt cccgagcgag tgtcgcagga tggtggccgc acctggtgac tgggagcgcg gcgagcagca ggggtgcacg tggtttcgtc tgcgtccact ccgggagctg tctcgtcggg ctttcctcga cgtggggtct acatcggggt agaccggcgc acaccgctcg cgccttcccc gcgtggctct cgagcgcgct tggagatccg ttgatcatcc aggatcgcag tgggagccgc tggccgaggg ggtacgaccc gcgatttgca tcgacccgca tcgctccgga agtactacac ccgggaacat cgacgctggc agagcctgcg cgccggagac agacgttctc tcaagcggct gcgcggtgaa aagcattgct tggagtgtca aggtgtatgg acgtcgcgca tgcggcacga ggaacacgct cgcgtcgggc aggaggcacc tgctatcggc tgtccgcgca gcccgatgga tggacgccgc

28620 28680 28740 28800 28860 28920 28980 29040 29100 29160 29220 29280 29340 29400 294 60 29520 29580 29640 29700 29760 29820 29880 29940 30000 30060 30120 30180 30240 30300 30360 30420 30480 30540 30600 30660 30720 30780 30840 30900 30960 31020 31080 31140 31200 31260 31320 31380 31440 31500 31560 31620 31680 31740 31800 31860 31920 31980 32040 32100 32160 32220 32280 32340 ···· • · ·· • · ·· · · · · · · · · • ··· » · · · · • ···· · · · · • · · · · · · ··· ··· ·· ···· ·· · ggcgcagcaa gctggctttc cgaaacgtgg gatcgaccag gctcgatcag cctgtggcgt ggtcgccgcc gcgcgggcgg cgaggccgag caacggtcct gacgttcgcg gccgctcatg cgcgccagac cacgcccgag ggcgttgcat cgggctgttg ggaccgctcg tgcgctcgac tccatggcag gatcgcaggt ccacgtgctc caaggtggtg ctggcccgag gcccgaccag cctgttcgag ccgcggtcgg ggaggaccgc gcggatcggc ctcgcttgcc gatcctgctg cgacgggacg tggaagggtg gctggtcgac gccgcgagag cgactggccc cgtggtggca cgtcctcgcc gatctgcctc gaccgagggc gaccatgggc atggggcctc tttggagccg cgctgacgac caaagcgacg tgggcagaag cccgggcgag tgtgctggga cacggcggtg gacgttgcat gactcccgcg cgacctgggg gggcatggcc cccgtccaag gcggacgctg ggtgctcaac cgggcggttc gcatcccggt agagatcctc gcatgcgttc tcagggcaag cgtactgctg gcagggcgtg caaagccgtc aagacgccgc ctgttcaccg cccgcgttcc cczctgcgcg accgcgtacg tcgtggggcg tgcgtggcgg ctgatgcagg gtggccgcct gacgccgtcg gcgcgtggga gatccgatgc cgcccggtgg tattgggtcc gccgcgggtg ccagcgtgcc gaatgcgagg tggaagggcg cgtgagcgcc cgctggccgc tcgatcggac gtgcccggcg ccggcgatcg gaggtcgagc ctggcgaccc gtgcagccga gcgatccagc tggggtccgc accctcgtgc gacaacggct cccccgctgc cggtgtggcg gaaactggcg gtgttcctgc gaagcgccct gcacctggct gaacccaaag tgggaggctg ctctcggtgg gcagtggccg ggccggacag gaggccgatg gagacacagg acccccgaag ggcacattgg gtcgagatca atgtatccgg ggccaggggg cgattcgtca caggcagcta aatctgcggc gcggtgcaaa tgggcagcgg gagtttgctg gcgctggccg ctcgagatgg gttcgctatc gagcgcgtgg gcgatcacca gtcgtgctgc accggtgggc ccgcacatgg gcggagatcg agggcgcggt gacagggcgc gggaggcgtt aggtgatgtg cgcagccggc tggagccgca gcgtgttctc cgctacccgc ccgtggcgcc tgatcgccgg tacgcacgaa tggaagactt tgtcgaatgt ggcatgtgcg ccgccacgtt tcggggaagc tggtcctcgc tgttccccga attggatgga tggctggtgt cacgccatca cctttcatgt agctgacagg tccacgccgt tggcggcgcc cagacggcgc ccctcgactt tttggcgatg cgacctatcc ttgcggtgag cgttcgccgt gcgtgccgcg aggtggtcgc ggcaggagtc tgcccgatgc cggagatggc gcctcgaggc gagcccacga tgcaggcgct tcgaggccgg tgatgcagga cagcgcgctc tggctttccg ggctcctggt accagctccg aggtaaccgc gcgacgccgg tgcgccacgt cggtcgacgc cggtgccggt gcggcgagcg tcgcccgatg ttcaggccat agacgttccg gcgagttcgt gcaagaccga gggtattcga tcgagggctt aggccgaggc tgccggcgcc tgggagcgtt tgctcacagg aagcgctcgg gcgcggcaag gcaaatgccg cgaccggtgc ggctgcgccg tctctttgcg cgtactgctc gctcgaagat cggcggtgcc ccacgccgcc cgccgaggta gaggctcgcc ccagcgggtc caccggccac aagcgccgtg cgtcgaggtt ggacgcggtc ggcgctcggg tggcgcgcgc cctcaccccg cgggctctgc gcccttcctc cgcggtgatc cgtggagttc gctcaccccc ggagaccgaa gcccggcgcg cgccggattc gctgcaggac gaacgcccac cctgctgtca ggaacgggtg gtcgcaggca cgaggtggag gggcgcgtcg gcctgcggaa cgcggcgctc ggccctcgcg ggaagctccg cagggaccgc tgagcgggtg gcgcccggag agctgacgtt ttccggaaag ccctgacgca cctcgcgccg ctcggggctc gccgatgggc cgcggtcggc gcggctggtg cgcgttcctg ggtgctgatc gataggggcc gggcgtgccg gcaggtcacc ggacgcgagc catacgggat catcctggag tgctgcggga agcgtttcgg ctccgcagcg ggggctccac tcggcggggc cgctcgggtg gccgtgtcct ggcatgggcc gtggcgctct ggcctcgctc ctggagtacg ggtcatagca gcggtgaggt atggtagcca acggtgtcga caggtgctcg gtctcccatg gctgcgacga gtcgcaggcc cgcttcggcg ggcccgaagc ctcgtgccgt gcttggtatg cgcgtggctc cgaagcgccg atgcccggcg ggtgatcacc ctcagcatcg ctgaaggcca gaagccgccg cgccgatgga ttgccgcgcc ctcgacaggt gggcgcgtcg gacgtggcgc acccggagcg cggtggtggc ttcggtgtct ggatttgttt actgcagcct cggatcgagg gcaacacggc ggggtgtctc gcggcggcgc gcggtgcgcc caggtcgcca ctcagctgca ctgttgcggg cgccgcgtag gagtcctatc gcacagcgcc aacttccgga ggagattgtg gatgctgtca gtccggcagc acggcctggc catgctgcgg gaggtgttcg cgcacgcaca ggcggccggg ctgtccctgc cgagccgcgg ctcgctccgg catctgcgcg ttcatggcgc cccttggcgc gtggcccgct ctggatacgc acgatcgcgg cacgcggtaa gtgggctgta tcgatcggga aggcggcgcg cgctggctgc tcggcgagct tggtggccgc tcgcagcgtc tcgccgcggt ccctcggcgc cgttccactc tcgcgtaccg ccgagatcgc acggggcaaa cggtcctgct cgctacgcgc cctggggggg tgcccatgta cgcctgcagg ctgtgttgca tcgtgtttgg ccgccgagcg tcgcgatgga gggatggcta cgacccacgc tcgaggtgct tatcggcggt gcgacgaggc ccttgcaccc agccggagga gggcgccggt cgagcttcgt gccgccgggc tgtaccgcct agagctgggt tcaaccgctg ccgcaggtgt agcgtgtggc tgtggtgggt cagcgccggt ctctggtgga agctcggtcg cgcggctggt gactggaggc gggcacctgg ccgtcctcgc ccggtgtcgc tgacgctggg ctgcagggct tcgctctgca ccggcggtgt ccacggcgag tcgccagctc gcgtggacgt tgtcgacggg tcgcggcggc atcgaactcg cattgccggt aagcgcggca cgacgggcac ggctcgccca cgggcgctgc cgtcggatgt

32400 32460 32520 32580 32640 32700 32760 32820 32880 32940 33000 33060 33120 33180 33240 33300 33360 33420 33480 33540 33600 33660 33720 33780 33840 33900 33960 34020 34080 34140 34200 34260 34320 34380 34440 34500 34560 34620 34680 34740 34800 34860 34920 34980 35040 35100 35160 35220 35280 35340 35400 35460 35520 35580 35640 35700 35760 35820 35880 35940 36000 36060 36120 ···· cgccgatcgg gggcgtgatc ccgcttctcg ggcgggcaac ggccgggcag gcgggccgaa ggcagcgggg gtcgccggct cggggcgatg tgtgtggcgc attggccgcg cgtgcaggcc tcggccgctg cggccagcgg cgcgctcacg cgcaaagtcg ccgtttccca cgatgccgtc tccggatgtg gttcgatccg gcggctgctc gctgatgggc cgccggcggc ctcgggcagg gtgctcctcg ttcggtggcg cagccggctg cggcgtgggg gcgcgatggg cagcaacggg ggagcaggcg gacgttgggc ctcggaccgg ggcgggcgtg gagcctgcat ggccgccaaa gtttggcgtc cgcgcccgcg gctggacgcg cggcgacctg ggcggcgacc gccgcccgca ctttcctggc cgtcttccgc gctgctcgcc gcagccggcg cgagccggat cgccctgtcg gatcagcggc gctcctgggc gctggcgggc gttctgccgt cgacgagcta ctcgacggtg caacgttcga tgggctgttc acgggcgacg cctgtccatg gcggctgttc gcagcgcgag tgctcatgcg cacgcgcgtg ggtgcagggg aatgcgctgg catgcagccg cgggtgctgg gatctcgctt tccaactatg ggcctggcgg ctcagcgcgg cagggcaccg tcgctcgacg gcgttggtgc cgtcttgggg gagatcgcgc tcggacttgg gtgggtgcga cgctggctgc tcgccgcagg ggcggcgtgg gtcgaggtgc cgcggcaaga gccttcttcg ctggagacga agcgataccg atcgaggcgt atctcttatg tcgctggtcg ctggccggcg cgaggcctgg tggagcgaag gatccgatcc ctgacggcgc gggctggctc gaccccatcg ccgctcgtga gccggtgtca trcgacgcgc cccgtcgaat agcgggacca gcggcgcgtt caggcggcgc gcgttcagcc tcgcgcgagg gcggctcgcg cagggctccc gacgcgctct gagctcgcgg ctgttcgcga gcagtggtag ctcgaggatg caaggcgaga tacgaagacc gagccggcag cgagtcaagg ttggcagcat acgagcacga cagccggtgc gtggagatga aagcgggagg ttggaggcgc tccgcgggcg cggtactggg cgcagtcacc tgggagacga gcggtcgtgt aggctgtgct gagcgctcga caccgaaggt tcttcgtgct cggcggccaa cgcagagcct cgctgcaggc cgctgctcgg tgcgtgcggc gcgcggaggc cgctgcccga gcgtgctttc gcctcgactc cgctgccggc tcgataaggt tcgccctcga ccgatccgga cgcatgagcg tgacgacacg gcatctcgcc gctgggaggc gcgtgttcgt tcgatggcta tgctcgggct cggtgcacct gcgtggcgct ctcccgacgg gctgcgccat tggcggtgat ccaacgggtc cggcggacgt aagtgcaggc tcgggtcggt tcaaggtggc ccaatccgca ggacgagaaa acgcgcacgt cagcggagct ggctttcggc tggcgacgac cgctgtctgc gccacgcttc agtggctggg cggcgtgtga ccgatgagac tcgaggtcgc gccacagcat ctgtagcgat tggcggtcgt ggctcagcgt cgctcgcaga tggacgtcgc tgggcgagct tcatggcggg gcttcgccga gcccgcatcc gagtcgcggt tgggagcgct gcgcgggcct tcgatgcgcc cgctcctggg cgctggatct tcccgggcgc ccaggccatt tgatggtgtg gactggcgcc gttctcctcc caccttcctc cgcgtggggc gcggctcgct gcaggcgctg aagccaagct gcgccatacg ggcgcgtcgc atggagcgcc gctcacggcg gacgctggca cctggccgtg cgagcccatt gtcgttttgg atgggacatc ctttggcggc gcgcgaagcg gttcgagcgc ggggctcttc tctaggcacc aaaggggccg ggcctgccag gatgctcacg acggtgcaag gctcctgctc ccgcggcacc gtcgcagcaa cagctacgtc cctgggcgcc gaagtccaat gctggcgctc cattccgtgg cggcgtgccg ggtgctggag tttcgtgctg gcacgtcgtt ccgcagcccg cgcgctcgac cacaggcagc catgggccaa ccgagcgatt cacctcgcag gctgtcggcg gggcgaagtg catctgccgg cgagctttcc ggcggtgagc ggtgctggcg cagccacagc cgagccgcga cccggagctc agcggtgcaa gatcctgacg gggctcgttg ctgggtacac ccgtcgcgtg gaccggcggc tgaaatgcag caaacggctg ggcgtacctg ccggcggagt cttgatgagc tggaatctgc atgtcggggc gacgcgctgg ccatggtcgg cggcatggga gctcggccgg tcgggagcgg gcggctgggg gccgacgagg gcgagcgccg gtggagctgc ttcgatcacc gccgagccga gccatcatcg cggctgctcg gacgcgttct ttcctgtccg acgaccatgg gccgggattt taccaggagt ggcaccacgg agcctgacgg gcgctgcggc ccggcgacgt agcttctcgg aaaccgcttc gcggtgaacc gaggtgatcc gagtgccacg gtgctggcac atcggacata gagcgcgggc tcggagctcg cgacgagccg gaggcgccag tcggcgaaga gcgcacccgg atgacgtacc acagcggcgc gccccaaagg aagctcctct caggccgaag ctcggccgca ctgtggcggt gcggccgcgc cgcagcctgc ctggccgagg aacagcccgc atccttgcgg ccacagatcg caagcgaccg gtggcgagct tcgttgatgg acatcggtcg cggcgtggac ggccaggcgg ccgctgccga gcggcgggcg accctgtcga ccgtggctcg gagatggcgc ggccgttaca agaccaccga atgagctcac tcttgggctc ccgcgcatcg acggaggcat tgggagctct aaacgcagct cagtgccgcc cgcagggggc tgcgcaaggt tgcccgtcga gcaacgtgct cgacggtcga gcgtatcgtc gcatcggctg aagagggcag atgatccgga atatcgaccg atccgcagca tgcccgagcg acgctgcgct ccagcgtcgc tggacaccgc ggggcgagtg tcgtggagtt ccgcagccga gcgatgcgca aggatgggcg gtcgggccct gcaccggcac aggggcgacc cgcaggctgc ttatcccgag ccgtgcaggt gggtgagctc cggcggcgtt gcgccgcggc agctcggcct ggctcgcggt aggggcaggc tggttttcgt cggaggagcc ccggctggtc tcgacgtggt cgtggggcgt acgtcgccgg tgctgcggcg ccgaggcagc gctcgacggt caaagggggt acccgctgcg tgtcgatgcg actgggcgga aagacggtca aggagatccg aggacgagcg tgggctggga cctatccctg gcagccgctt cccagaggag gcgatcaccg tttcgtccgg

36180 36240 36300 36360 36420 36480 36540 36600 36660 36720 36780 36840 36900 36960 37020 37080 37140 37200 37260 37320 37380 37440 37500 37560 37620 37680 37740 37800 37860 37920 37980 38040 38100 38160 38220 38280 38340 38400 38460 38520 38580 38640 38700 38760 38820 38880 38940 39000 39060 39120 39180 39240 39300 39360 39420 39480 39540 39600 39660 39720 39780 39840 39900 • · · · ggccgaggcc ttgggtgacg gtccgctcca ggtcagcgat gtggtgctcg ccgaggcgct 39960 ggccttcgcg gatgatacgc cggcggcggt gcaggtcatg gcgaccgagg agcgaccagg 40020 ccgcctgcaa ttccacgttg cgagccgggt gccgggccac ggcggtgctg cctttcgaag 40080 ccatgcccgc ggggtgctgc gccagatcga gcgcgccgag gtcccggcga ggctggatct 40140 ggccgcgctt cgzgcccggc ttcaggccag cgcacccgct gcggctacct atgcggcgct 40200 ggccgagatg gggctcgagt acggcccagc gttccagggg cttgtcgagc tgtggcgggg 40260 ggagggcgag gcgctgggac gtgtgcggct ccccgaggcc gccggctccc cagccgcgtg 40320 ccggctccac cccgcgctct tggatgcgtg cttccacgtg agcagcgcct tcgctgaccg 40380 cggcgaggcg acgccatggg tacccgtgga aatcggctcg ctgcggtggt tccagcggcc 40440 gtcgggggag ctgtggtgtc atgcgcggag tgtgagccac ggaaagccaa cacccgaccg 40500 gcggagtacc gacttctggg tggtcgacag cacgggcgcg atcgtcgccg agatctccgg 40560 gctcgtggcg cagcggctcg cgggaggtgt acgccggcgc gaagaagacg actggttcat 40620 ggagccggct tgggaaccga ccgcggtccc cggatccgag gtcatggcgg gccggtggct 40680 gctcatcggc tcgggcggcg ggctcggcgc tgcgctccac tcggcgctga cggaagctgg 40740 ccattccgtc gtccacgcga cagggcgcgg cacgagcgcc gccgggttgc aggcactctt 40800 gacggcgtcc ttcgacggcc aggccccgac gtcggtggtg cacctcggca gcctcgatga 40860 gcgtggcgtg ctcgacgcgg atgccccctt cgacgccgat gcgcttgagg agtcgctggt 40920 gcgcggctgc gacagcgtgc tctggaccgt gcaggccgtg gccggggcgg gcttccgaga 40980 tcctccgcgg ttgtggctcg tgacacgcgg cgctcaggcc atcggcgccg gcgacgtctc 41040 tgtggcgcaa gcgccgctcc tggggctggg ccgcgttatc gccttggagc acgccgagct 41100 gcgctgcgct cggatcgacc tcgatccagc gcggcgcgac ggagaagtcg atgagctgct 41160 tgccgagctg ttggccgacg acgccgagga ggaagtcgcg tttcgcggcg gtgagcggcg 41220 cgtggcccgg ctcgtccgaa ggctgcccga gaccgactgc cgagagaaaa tcgagcccgc 41280 ggaaggccgg ccgttccggc tggagatcga tgggtccggc gtgctcgacg acctggtgct 41340 ccgagccacg gagcggcgcc ctcctggccc gggcgaggtc gagatcgccg tcgaggcggc 41400 ggggctcaac tttctcgacg tgatgagggc catggggatc taccctgggc ccggggacgg 41460 tccggttgcg ctgggcgccg agtgctccgg ccgaattgtc gcgatgggcg aaggtgtcga 41520 gagccttcgt atcggccagg acgtcgtggc cgtcgcgccc ttcagtttcg gcacccacgt 41580 caccatcgac gcccggatgc tcgcacctcg ccccgcggcg ctgacggccg cgcaggcagc 41640 cgcgctgccc gtcgcattca tgacggcctg gtacggtctc gtccatctgg ggaggctccg 41700 ggccggcgag cgcgtgctca tccactcggc gacggggggc accgggctcg ctgctgtgca 41760 gatcgcccgc cacctcggcg cggagatatt tgcgaccgct ggtacaccgg agaagcgggc 41820 gtggctgcgc gagcagggga tcgcgcacgt gatggactcg cggtcgctgg acttcgccga 41880 gcaagtgctg gccgcgacga agggcgaggg ggtcgacgtc gtgttgaact cgctgtctgg 41940 cgccgcgatc gacgcgagcc tttcgaccct cgtgccggac ggccgcttca tcgagctcgg 42000 caagacggac atctatgcag atcgctcgct ggggctcgct cacttcagga agagcctgtc 42060 ctacagcgcc gtcgatcttg cgggcttggc cgtgcgtcgg cccgagcgcg tcgcagcgct 42120 gctggcggag gtggtggacc tgctcgcacg gggagcgctg cagccgcttc cggtagagat 42180 cttccccctc tcgcgggccg cggacgcgtt ccggaaaatg gcgcaagcgc agcatctcgg 42240 gaagctcgtg ctcgcgctgg aggacccgga cgtgcggatc cgcgttccgg gcgaatccgg 42300 cgtcgccatc cgcgcggacg gcgcctacct cgtgaccggc ggtctggggg ggctcggtct 42360 gagcgtggct ggatggctgg ccgagcaggg ggctgggcat ctggtgctgg tgggccgctc 42420 cggcgcggtg agcgcggagc agcagacggc tgtcgccgcg ctcgaggcgc acggcgcgcg 42480 tgtcacggta gcgagggcag acgtcgccga tcgggcgcag atggagcgga tcctccgcga 42540 ggttaccgcg tcggggatgc cgctccgcgg cgtcgttcat gcggccggaa tcctggacga 42600 cgggctgctg atgcagcaaa cccccgcgcg gttccgcgcg gtcatggcgc ccaaggtccg 42660 aggggccttg cacctgcatg cgttgacacg cgaagcgccg ctctccttct tcgtgctgta 42720 cgcttcggga gcagggctct tgggctcgcc gggccagggc aactacgccg cggccaacac 42780 gttcctcgac gcactggcac accaccggag ggcgcagggg ctgccagcat tgagcatcga 42840 ctggggcctg ttcgcggacg tgggtttggc cgccgggcag caaaatcgcg gcgcacggct 42900 ggtcacccgc gggacgcgga gcctcacccc cgacgaaggg ctgtgggcgc tcgagcgcct 42960 gctcgacggc gatcgcaccc aggccggggt catgccgttc gacgtgcggc agtgggtgga 43020 gttctacccg gcggcggcat cttcgcggag gttgtcgcgg ctcatgacgg cacggcgcgt 43080 ggcttccggt cggctcgccg gggatcggga cctgctcgaa cggctcgcca ccgccgaggc 43140 gggcgcgcgg gcagggatgc tgcaggaggt cgtgcgcgcg caggtctcgc aggtgctgcg 43200 cctctccgaa ggcaagctcg acgtggatgc gccgctcacg agcctgggaa tggactcgct 43260 gatggggcta gagctgcgca accgcatcga ggccgtgctc ggcatcacca tgccggcgac 43320 cctgctgtgg acctacccca cggtggcagc gctgagtgcg catctggctt ctcatgtcgt 43380 ctctacgggg gatggggaat ccgcgcgccc gccggataca gggagcgtgg ctccaacgac 43440 ccacgaagtc gcttcgctcg acgaagacgg gttgttcgcg ttgattgatg agtcactcgc 43500 gcgcgcggga aagaggtgat tgcgtgacag accgagaagg ccagctcctg gagcgcttgc 43560 gtgaggttac tctggccctt cgcaagacgc tgaacgagcg cgataccctg gagctcgaga 43620 agaccgagcc gatcgccatc gtggggatcg gctgccgctt ccccggcgga gcgggcactc 43680 cggaggcgtt gctgggcgct ccgaggccat cgctcgaccc gcatcccgcc cggagtacct ccaccggcaa gaccttgcct gccgcagcct tctcccccga gccagacctt tgctcaagcg gatcggccat agggggcgct acatcgagac gcgctgtggt ccaacctcgg cgctacatca ggatcgaggg ggacgcgctt tggaggaggc tcgtcctgtc acctggagaa gcagcgcgat cgctttcggc gcggcagcgc tgggccgaaa gggccatcga cctcgcagct tttctgcgct gcgaggttgc tctgccggcg agctgtcgct cggtgagcaa tgctggcggc gccatagccc ggccgcgagc cggagctcgg cggcgcaagc tcctggtgcc gctcgctgcg gggcgtccgg cgctgccgac gccgcctcgc tgccccgcgc ggggtggggt tgcttcatgc gccgaaacga gggcatcggc tggttcgatt catgcacggt cgcgcgtcgc agaagagccc atcaactggc agggcgacgt tgggtggcct tgctcaccag aggcccgcgc tggcagcggt ccccgttgcg cggacgaggc accggctgct tgtggggtgg ctgggagctg cgtaggtgtc cgacggcttc gcagcatcgc caggtccctc ccacgccgcc catgctcagc gaccgtcgat gcgcgctcga cacgatgcga cgacgcgtcg attgagcgac caatcaggac cttgcgcgag ccacggggcg ggggccggcg ccacctggag ccagcgcatc gaccgcgctc cgcgggagtg gccggcggtg ggcgaagagc gcacgtcgag ggagcaccgg cgcagcgcag gccgaaggtg gctcatggcc ggcggaagcg cgggcgcatc gtggcggtcg ggcggcgcac cagccggctg ggaggaggcc cagcccgcgc gctgacggcc gcaggtcgac ggctgcggtg tgcgagctac gctgctggag gcccctggac gcgagggcag cĽatccggtg cĽatccctgg cgcagccgac cgccccgaaa cggtgaggcg gtcggctgac ctggcaggga cgacgaagtc cctgagcgct gggcggcgag ggcgctggag gacggagatc gttccgcagc cgcaccgata tggtctgctc ccggcacggg gcgcatcgca ggatgtcgcc cggggtggtg cctgctggag gcgcgaccgg caaaggccaa ctcgacgacg gacccaggcg gacgccgcgt ctgctgctgg gtcgggagcc gtcgcgcacc atcgccgccg acggcgtgct gagagcgatc gctctggcgc gccaacgggt gcgcggcggg ggccggtcga gcgctgcgga gcaacctcgc cgagccgacg ggcgctgccg ccgaggaacc gcgttggcga agctcgttcg gagcctgagg gcggcggcgc cttggcctcg ctggcggtgg gggcacacgc gtcttcgtgt gaagagccgg ggctggtcgc gacgtggttc tggggagtgg gtggccggcg ctgcggcgga gaggcggcgc tcgaccgtgc aagggggtgt ccgctgcgcg ccgatgcgct tgggcggaca ggtggccccg gagatccaga gacgagcgcg agctgggctc cagcacgagc cccaccaagg tcggagacag gtcgctgcag gcctccaccg gtcctctacc agcgaggcta gcgccccatc ccagaggcct caccccgctg gagcccctgg ggtcgcaggc tcgctgtccg gtggctcggt ctgccagagc gcggtcgagg gaggccgatc cacgccgccg tcggtgctcc cctctcgacc ggcgcatacg ggcgcgacgc acgacgtacc tcttcggtat aggtcgcctg gcaccggcgt agccgcgcga gacggctatc cgtcatcgct tcgcgctggc gcacccaggc tcgtccgtgg atggggaccg cggggttgac acgccggcgt tgggcgaccc gagcgcgctg gcgtggcggg tcaactttcg ccgaaccggt ggatgagcgg ccgcggcccc tggatgcgca gcgatgtggc ccgcgagctc cgccgggagc ttcccggtca tcttccgggc tgctcgggga agccggtgct agccggaagc cgctgtcgct tcagcggtca tgcgtggcca tcgccggcga tctggcggca aagagctgat cgacggtgac accttcggca cgctgttcat cggcggccga cgacgctgct ggctgttccc ggtgctggat actggttcta ctcatgggag cgctgtcgac tcgccgagca tgtggggcct cccgccgtgc ctcctcgctt ctctttgcca cctggggtgg tggccgagct acgcagcacg cggaggggag ggctggtgga gacaggcgtc ggctggaagc ccatgacggc gcgtcttccc gtcccaaggt tgttcgtgct ccgcggccaa gatccggccg gcgctgggcg cgccccccgg ggaggggttc gttcgtcggc agagcgggac gtacacgctg ggtggccatt gggaggggtc gctgtcgccc ggagggctgc gatctgggcg ggcgcccaac cgaggccgag catcgagatc cgtgctgggc cctgatcaag tacgctcaat gccctggccg gaccaacgcg cgagcgcgca ggcagcccgg gttcagcctg gcgcgaggcg cgtgcgtggg gggctcgcag ggcgctggag gctctccgcc cttcgccatg ggtggtgggc cgaggacgcg gggggagatg tgagggtcgg gccggcggcg ggtgaaggtg cgcggcgctg gggcggggtg gccggtgcgc cgagatgagc gcaagggggc ggaggcgctg cgcgggcggc cgaggtcgag ccgaacggac ctggctgctg gcgcggactt ggtatccgaa cgacgccgtc caccgcaccc ctgggtggtg agcggcgttg cctcgtggac gctttcgccg ccttgtagcc ctacctggtg gcggggagct gggcggagag gcagggcgcg gctgctggcc cgtgcgtcac ggccgggagc gttctcgtcg tgcgttcctc ctcgaggagc gggctgctca gaggcacggt gaagacgccg gtctgcgcca gcgtacagca gggctgcagg cacctcgcct aacatgcttc aatggccgtt ggtctgatcg ctgatccgag gtgctcgccc gccatcggtt gaagcgctgc gcggtgaaga gcgacgcttt ccgcggatcc cggacgggcc catgtggtgt gcggagctgt ctgcgggacc gcgacgacgc ctgcgagggg cgggcctcgg tgggtgggca ggttgcgacc gacgaggccg gaagtagcgc cacagcatgg gtggcgatca gcgctggtcg ctgagcgtgg ctctcggagg gacgtcgcca ggagcgatcc atcgcgggtc ttcgctgcgg ccgcacccga gctgcggtgg gggacgctgt aggcgggttc cctgacgccc tggcccgagg ttggccgaca tcctgcaccg gctgccagtc gtcgatgctg gtccttgggc acccgcgggg tggggcctcg ctggatcctc gacgccgagg gccccgccgg acgggcgggc cgacatctgg cagccgccgg cgggtgaccg gccatcgagc ctggcggaga tggctgctgc ggcgcggcgg gacgggctcg

43740 43800 43860 43920 43980 44040 44100 44160 44220 44280 44340 44400 44460 44520 44580 44640 44700 44760 44820 44880 44940 45000 45060 45120 45180 45240 45300 45360 45420 45480 45540 45600 45660 45720 45780 45840 45900 45960 4 6020 46080 46140 46200 46260 46320 46380 46440 46500 4 6560 46620 46680 46740 46800 46860 46920 46980 47040 47100 47160 47220 47280 47340 47400 47460 ·· cgcaccatcg agggaggcat tggccacggg gttcggtcac gcaacttgct cggcaaaccg tcgttcgcgg gccgaggctt ttcagcgcga agcggctggt ggcacatccg tcccaggtgg tcagcaccga aggttccggg atgcggcgtt tgttgctgga gcgagagcgc agggcctcga ccgctggacg cctgctcgtc gcgaccaggc cgtcgcgcat acggctttgc agcgcgaccg cgagcagcgg tggcgcaagc cagcgctggg ccgcggagcg cggcgggctt ctcaaccgga ttgtccgcag ctttcggcct ctgtggccgc cggcgctgga gcctcggcga cggtggccgc acacgccgcc tcgtgtttcc agccggtctt ggtcgctgct tggttcagcc gagtggagcc ccggcgcgct ggcggatcag cggcgctgcg ccgtgctcgc gggtgttctg tgcgcgaaga tgcgctcgac cggacaacct gccccgcgct tccagacggc agcgcgcgac gggctcggct acgagcggta agcttcgcaa gacccggagc aacatagggt ccgccggcgt gagccctcgc gtcccggtcg ggcacgccac ctccgtggga ccgcgcgcac ggttgatgca gccggccttg acggatggac ttcggctctg gatctggcgc catcgtcgcc cgccgagcag gctgggcgaa ggcgcatctc gtcggtggcg ggatgagggc ggtgccagcc ccggacctat cttcgccatt ggtgagctgg cacgggcgtg cgacgacgcg gctgtcgttc gtcgctggtg cctggccggc gcgtttgctt gcgggccgag cgaccccatc gctcacggtg gggcgtggcg tgacccgatc gccgctctgg ggccggcgtg gctcgacgag ggcggtcccc gagcgggacc ggcccccgag tgcgcaggca tgtggcgttc gagctcgcgc gggagccgtg cggccagggc ccgggcggcg cggggagctc ggtgctgttc ggaagcggtg gĽcgctcgag cggtcagggg tggccatgag cggcgagccg gcggcaggtg gctgatcgcg ggtgacgggc tcggcagccg gttcatcgag ggccgagcaa gctgctggag gttccccgcg ctggatcgag cggcgccacg tcacttgtgg ccatggcgaa agatctctat cgtgccctcc ggcctcattc ggggcacgtg gattcaacgg tcgctgccgg aaggctcatg tcggcgctgg tgggcgcgct gtcgcggagg ggcctgtccg cgggtgctgg gggctcgact cggctgtcgg ctcaccgacg gcggatgacg ctggagacat gaccggtggc gtggccaagg tcccctcgtg gaggcgatcg ttcgtgggca gcgttgctgt ttcctgggtc gcgttgcacc gggtccagcg tcgccagatg ggctgcgccg ctggcggtgg cccagcggtc ccggccgagg gaggtgcagg ctgggcgctg ctcaaggtgc ctcaacccgc tggccgcgcg aacgcgcatg cgcgcagcgg gcccggctgc agcctggcga gaggcgctgc cgtgggcggg tcgcagtggg ctggagggtt tccgccgacg gccatggaag gtgggccaca gacgcggtgg gagatggcgc ggtcggctga gcggcgctct aaggtggacg gcgctgggag ggggtgatcg gtgcgcttcg atgagcccgc gggggcgctg gcgctgggga ggcggcaggc gacagcgtgc gaccatccgc gagcaagcgc gccgtgttgc ggcacggcga gaaggcggac caggtatcga tgtagcggcc cgatgtccga cgttgagcct cacgtctgag agcgcctggt tcgcgccggt acgagcgcgc ttgcggagag gcttctccga ccctgatggc cgactctggc tgctgaagct acatcgccat actggcggca gcgcggcgga gtgccttcct aggcgatgag agcgcgctgg tgatcgggag acggcaccac tgcacggccc tcgcctgcca tgcttttgtc ggcggtgcaa tggtggtgct tcaggagcac ctgcccagca tcgatttcgt cgctgggcgc tcaaggccaa tcttggcgct acatcccgtg gcgcgcgccc tggtgttgga agctgttcgt gggaccacct cgacgcgcag gaggggcgct cctcgggcgg tgggcatggg gcgaccgggc aggccgcctc tagcgctttc gcatgggcga cgatcatctg tggtcgagct gcgtggcggt cggaggtgct tcgccagcca cgatccggcc cgggtccgga ctgcggcggc acccgatcct cggtgggctc cgctgtgggc gggttccgct atgggtcgaa tgctcggggc tgagcgacga ccagcgcggc cgctggtgct gcatcgtgca gtcgtgagga agagctcagc gcgtcctgtc cgcctggggc cgacatcggg gaacaccagc ctatgccgcg tgcgtctccc ccgctcagcc cccgggcgcg tctggagatc cttcgaccac ggaggaccgg cgtcggtgcc tctggccgag ctggtacgac ccgcgatgtg cctggacccg ccaggacccg cgagcacgcc cggcaacctg gacgatgacg gagcctgcga gccgcggtca gacgttctcg caagcggctc ggcgatcaac ggcgttgcta ggagtgccac ggtgtacggg cctcggccac ggagcacgag ggcagagctg gcgtcgtgca ggaggcgccg cctgtcggcg ggagaagcat cgcgatggag ttcggccgca cagcgcgccg ccgaaagctc catcgaggcg gcagctcggg tgcgctgtgg ggttgcggcg ccggcgcagc gtcgctggag gagcaacagc ggcggcgctg tagcccgcag gcgagcggct gctcggtgcg gcaagcgctg ggtgccgccc gctgcggcga gtccggctat gccgacctat gccctcgctg tccattgctc gaggctatcc gtatgtagag ggagcagctg agtggccctc ggcaggtagg ggtgggagcg gtcggaggcg ttatgggccg gtcctgccca gctgtccagc cgagggcggc ccggtgccga ctctacgagc ctcgacgtcg cgtaaccgcc ccgacggtgg agcgacaccc gcctgccggt ggcatggtgg cccgatccgg cgcagcttgg caacagcggc atggcgctgc gagcgggtgc ctcagcgtcg gtggacaccg ttgggcgagt ttcgtcgcgg gccgctgcag cgtgacgcgc cacgatggcc cgccaggcgc gggacgggga cggggccgcc ctggaggccg cagattccgg ccagtggccg ggcgtaagcg gcggtggagc aagagcgcgg gtcgagcttg caccggctgg gcgcaggggc aaggtggtct atggccgaag gaagcgggct cgcatcgacg cggtcgtggg gcgcacgtgg cggctgctgc gaggccgagg ccgcgctcga acggccaagg gtcgacccgc gcggtgccga agctactggg ctggagggtg ctggacgaga gggcaggacg ccggtgagct ccctggcagc cggcttcggc gtctcggcgc tacctttcgg atggcgctcg gcgctcgagc agcgaagaag agctgggtgc ttgaaggaag ctctatccgc

47520 47580 47640 47700 47760 47820 47880 47940 48000 48060 48120 48180 48240 48300 48360 48420 48480 48540 48600 48660 48720 48780 48840 48900 48960 4 9020 49080 49140 49200 49260 49320 49380 49440 4 9500 49560 49620 49680 49740 49800 49860 49920 49980 50040 50100 50160 50220 50280 50340 50400 50460 50520 50580 50640 50700 50760 50820 50880 50940 51000 51060 51120 51180 51240 ···· ·· ·· xgctcaacga tcggcacggg gcgcctaccg tcaccacgcc tcccgcggtc cgctggacgg tccatgcgaa gcatatggaa ggcttcaaat cgatcggcat ctgatttggc ttgagtggtg cgctcgagat cgcccatcgc tggtagcacc ccgccgccgt ctccgctctt gcattctgga tcatcgtcgc tcctgtcgtt tctggttcga gtatcgacca ttgcggacgc tgatcctctc cgaccgaatc tcgtccatcg gggtccacgg tgctcctgtt agctcgaggc aatggcagcg gggcttggct aagggcgagg cggggctgta cattcggcga cagcagggga gcgcgctttc ggctcttgac aggcgccggt cgctcgtgga tcggggcgag gcctcgtgcg gcagctatgt tgatgcaggg gggatgccct tggctcggcg ttcgggggat atgcccgtcg cgctgaccag tgggcttgcc atcaccggtg catcatcgcc gcctcacgct aggtaggggt gattggcgct acgcgtcgaa tggagaagca agcggcacgt accgcatcga acgtagcagc acgctccggc tgcggggcat cgcagatcgt tgagcatgcc gcacgccctc ggaggtgctc gattcatccc ggaatccatc cagggctccg tggacggcgc gtgggaggtc cgtcttctgc ctctgtcgtc ccttgtaggg ggcggtgctc caagtttgcc cctcttccct ccgttactcg gtcgggaatg cctcccggtg ccttgctcgc tgtcgaccag ggccaatgtc gctcgcgccc tatcaccacg tccgctcctg cgtgagtctg gcgcgcgccg gccggccgcg gatggcgttg tcgattgcgt cgaagacacc ttctgctttc caaagaccct cgtgctgatg cgaggcgtgc tcaagtcgat ggaccggatt gagggcgaca tctggtgcag ccgcgccgtg gtggggcctc cgtgaacccg cgacagagag gagctccttt gatcaccgat ggcccgccat ccggtccatg cgacgatgtc cgtgtacgtg cttcaaggag ggatagatcg aggacagggg caaggtgggc ggcgaccccg ggagcaggga gatgcggctg gtgggcggag cctgcgcgag cttgagcgag gccgttcagc ggccgcgctc tctgagcggg caccgagcgg gacggacgag tggtgagtaa cttctgctca gactatggtc ggccgggtac gccttgttgg gagattcgga gtgaatcaag cagagcgcga atggagcgcc gctgctggag tacaggaagg gacggagagc gaggaggccg ggggaacggc ggtggctcgt aacggcatcg ttcagcatct ttgctgcctg gcggagcaaa gagccagctg atccatgcga ggaggccttc ggattgattg cctgctcgga ccaggcgacg ggcatagcag cgtgcagtac gagaggatgt accggtggag gggcaggtcg gcgccgcggg ataccagagg gaccagggcg gtgcgcgtca ccggcgcagc tgtcgcgcgg gcggagtcgc gcgctggtgc catgcggtgg ggtcggacgc gcgccgtctc gaccaggtcg tccggcaagc ggcatgggga gtggtgctcg gccgaggctg gctcggctcc gacgggacct tggatgtatc ctggacttct agccgcgccg cttacagcga aacgacggcg gcggcggcgc aatctgcgcc ctgctgaagg gcgctgcaga ctgttggggc aatctcggca ggcatcaccg agcttgctag gagaagagct cagaaggacg gggaccgagg tggacaagct cctgcttcca gcttgccagg atgcatgttt ggcggctgac cggtgagtga gcgtgcccgt tcgcgcaggc agcgtcacac tcatcaagcg attttgtgag ggagggtgtt tcgcggacgt tcgatatggc tgcgcggtgt tggagatcgg accggacgga gatttcgaga gccagggata cccgcgatat tggtgctggt aggggtggca cctggtgtga gatctccggc gagccgcttg ggcaggaatg acttccaccg gcgcgttcac tggcagaggt acccgcggga ctccggcagc ggacaggcgc tcgcgggtac cagatggctt tagtgcatat ttcaggccga gccggaggtg gcgcggagga tcgcgctcga cagaggacgc cattgcgctc ctgctacgga gagtggggct tggatcgcgg gcgcggaggt tctcgaagat tccagggcga ccaaggtgct tcgtcctgta ccggtgacgc tgagcatcaa gagcacggct tcgggcgctt agtggttgga agcgtgaccg gcgccaggcc gggggctgcg tggactcgct tgccggcgac acattctgtt tcgagaacga cgttgctcgc gagtatggcg tgcgaaaaag gggcgtggag agacatggca tcaggtgctg ggatctccac cacctggctg cgacctggtg gtacatcatc gatagacgag atggatggaa ctctcagccg cgccgacctc attgaccggt ggagcgaatc cgtcgagtcg agcagggacg gtaccatttc ttatccattc cgcacatcag aagagccacg cgagggcaca gaagtacgaa cgtcctgcgc ggggatcctc tgacagctcc ggccgatggc ccggccgggc gaaggcgctc tcaggggctc agagtggttg cgcgtcttct tgcgctcgta ggcatacgcc tcataccctg gtggagcctt tcaactcctg gcgcaacatg cgcagcggcc gcatccagag agccgcactg ggatggccgc ttgcggcatc ctcggtcgcg cggcgcttcc gcagatcgtg cgaaccgtcg ctcctcgatg cggagcgtgg ttcctcgggc cttcttggac ctggggattg cgaataccgg gctcgcacga gttctatccc cgccgaccga cgaagatcgt ccttccgccg gataggcctg cctgctatgg tccgaatgcc tgccgcagat cgaaaagctg accacgaatg aacgcgtctt caggtgtggc tcctcaagtg acagcgctgc gaaccggatc tgggacgccg ctcggcagct ggcactctcc ttgctcgtca caccttgtcg ctgccggagc ccagtcctat aagacgctcg tatcgagatt gcggcgcggg ggcgcgacca accgatgttt ctgaagtatg aggtttgacg gcgaagcgtc gggcatccga gatgatcttc cgggtaggct ggacagcacg ggtgagtcgg tccgctgacg cggcaggttt gctggagatc cgcctgccgc tacgctttgg tcctccgcgg tcgctgctgg tgcctcgcgc ctccgcgatg gatgcgacgg gggagcctga ccgcggcttt tcggtggcgc ctgcggtgca gcggtggagc tacgtggcgc cgggcggacg caatggatgg gaggcatccc gaggccgacg atgccgccgc ctggagctgg aacctgcacg acctcgcttc gccatcgcgc ctctccgaag gggatggaag cccagggcgc aacgcggccc ggcgcgtcga cagttgattc gagaggatcg gagctccgca acctacccta ggcgcgaccc ctcgaggctc gcgcagctcg ccgggaagct tggagcaaga

51300 51360 51420 51480 51540 51600 51660 51720 51780 51840 51900 51960 52020 52080 52140 52200 52260 52320 52380 52440 52500 52560 52620 52680 52740 52800 52860 52920 52980 53040 53100 53160 53220 53280 53340 53400 53460 53520 53580 53640 53700 53760 53820 53880 53940 54000 54060 54120 54180 54240 54300 54360 54420 54480 54540 54600 54660 54720 54780 54840 54900 54960 55020 • ···· ·· gcggaccgag tccggaggca gcgctgggcg caccgaggcg gtcgctcgat cggcatcgca cagcgactac caccggcaat accctgcctg ccgcagcctg ttcgtccaag ccggacattc gctcaaacgg ttcggccatg ggaggcgctc tgtcgagacc tgccgtgttg aaacctcggc tctgcaccac gatcgagggg accgcgcttc ggaggaggcg ggtgctgtcg catcgccgcg tagcccgatg gctggaggtt ctcgcccggc ccgtgggttg cttcgaccgg caggtcgtcg cgcgctggcc cctcggcgag cttggtggtc gatcgccgcg gatcgcggca gcagatcgcg cgcgttccac ggtgacgtac cgatgaggtg ggacggagtg gccgacgctg agcgtcgcgc ggtcgtcggt gctgccaacc ggcggacggc cgtgtcgacc gtggctcggc gatggcgctg ggtgctcatc gaccgaggag tcgcgcgccc cccggcgagg ggctatctat cgccgagctg cggctccgcg tgttggcgcg ggtgcggctg tggtcaacag ggtggtcgcc cgacgcagac gatcacagcc ctcggcgctg tgcaggaatg ccgatcgcca ttctgggagc ctggtcggcg gtggacggct cctcagcaac ccccagtccc tcgcataccg acgctcagcg accgtcgaca cgcgctcgcg acgatgataa gacgcctcgg ctctccgacg aatcaggatg ttgcgcgagg cacggaacgg gggccggcgc cacctggagg gaactgatcc accgcgctcg gcgggggtga ccggccacgg gcgaagagcg tacccggagc gagcaccggc gcggcgcagg aagctcgcct tgggaggcgt gagctccatc ttgctggacc gcgctcttcc ctggtggccg gcgcgcggcc ccggaggccg gccaatgggc gcggcgttcg tcgccgctca cggcggcctt agcgcgccgg aaggcgctgc ctcggccttg gccgggcgtg ggatcggtca tatccctggc accggccgtg catgccggtc gagcaccggg tcgtcggggg gagacgctga cgaccgggac ttccggatcc tcgaacctcg ggtgcgctcg tggcggggtg acagcctacc ttcgccgatc ttccagcggt gcctccagcc gagatctccc gactggttcc cgccggtggc aaggccgccg cgcgcgctcc tcgtaggcat tgctcgactc tccatcccag tcgacgccgc gcctgctgct tcgacggcag ttgcgcaaca tcgccgccgg cggcctgctc agagcgatct tgctggggcg ccaacgggtt cccagcgaca gccggtcgac cgctgcagag ggacctcgct gggccgatgg gcgctgcagg cgcgaaacct cgctggcgac gcgcgttcgg tgctcgcacc ccgccgcgct agggtctcgg tcgcggtggc ggcagacccc tcctgttcgc ggccggcgtt agccgctctg agacggcgtt ggtcgtgggg cctgcgtggc ggttgatgca acgtggctgc cggagcaggt cggcgcgggg tggatccgat cgatcgcgct gttactgggt acgcggccgg tgccggcctg acgaggctgc cctggtcggg agcgcgagcg ctcgggcggg tgcgcctgtg cgcaggggga ccgagatctt ccttcgcggg ggctgcggtt acgcccgcgg ccgccctgcg ccgagatggg agggcgaggc agctgcatcc gcgatgaggc ctcctgggga ggtggagcgc ggctggtggt tggagctgga tgctgctcgg gccatgtcgt tggccaacgc tggctgccgc aggccgagac cgaggaggtg gttctttggc ggaggtcacc ccgcaccggg gcggcgcgag acggttgtct gtcgtcgctc cgcgctggcg catccaggcg cgtccgtggg cggcgatcgg agggttgatg cgctcgcgtc cggcgacccg gagccgctgc cgtggcgggt ccatttccac ggagccggtg cctcagcggc ggcgacgccg ggacgcacag agacgtcgcg ggcgacctcg ggcaggcgcg cgggcagggc ccgcgagacc cgaggtgatg cacccagccg cgtggagccg gggtgtgttc ggcgctgccg cgcggtggcg ggtgatcgcg ggcgcgaacc gctggaggcg ggtgagcaac gcgtcacgcg tgcgggcctc cctgccggat gagcgcgcta tgtcttccct ttactggatc gggccacccc ggagacgacg ggtcgtgttt gggcgatgga cgatacggcg ccaggtagcg cgtgctgcgc cgcccggctt gcttcaatac gctgggcagg ggtgctgctg gacgccgtgg gctatggtgc cgactttgag ggagcggctt ttgggagccc cgagggtggt cgtccacgcc gttcgacggc ttccccggcg gcggtccagc ccgcgctggg acctcgcctc tgggaagggc gtgttcctgg gagcaggacg tatacgctag gtggccatcc ggaggcgtca ctgtcgcccg gagggctgcg atctgggctc gcacccaatg gacgccgggg atcgaggtcg gtgctgggcg ttgatcaagg acgctcaatc ccgtggccgc accaacgtcc gggcgctcag gcggcgcggc ttcagcctgg cgcgaggcgc gcgcgcggca gcgcaggtgc ttcgaccggt tgggccgagc gcgctctttg gagctcgtcg tccctcgagg gccggcggcg ccgcacgcag ggcgccgaga aaaccgctgc ttccggcggg ctgagcggga cgagaggcgg ttcgtcgagg gccaggccgg gaggcgctgg tcgggcggac gaagcgccgg cttctgggtg ctggaccgaa cctggcgccg ccgatccagg gtaccggtcc agtcgggagc cggatcgggc catgccgccg ggcccggcgt gtgagactgc gacgcgtgcg gcgccggtgg catgcgcgcg ttgatggacg gcgagcggtg gcggcgctcg gggctcgggc gcgggggacg caggccccga gagcggacac cgctcgaccg ccggactgct gggaggcgcg tcgaggacgc gcgcatgcag catacgacat ggctgcaggg accttgcctg acatgctcct atggccactg gtatggtcgt tgatccgggg tgctcgctca ccatcggtta aggcgctgcg cagtgaagac cggcgctggc cgcggatccg gggcgggccg atgtcgtgct cggagctttt tctcagcgca tatcgacgcg tgcgaagcgc gggccgcttc cgggcatggg gcgtcacgct cgggcagcag cgctggagta ctggccatag acgccgtgcg cgatggtatc cgttggtgtc aattcgtgca atgtctcgca tgactgagtc agccctgcac tgcgcttcgc tggggccgaa tgctgctccc gtgggttctg ggcgggtacc tcgatcgtga aagtcttttc agcggctgcc ggtacctgga tcacggatgt aggtggtgac cgggggaacg gcgtcgagac tgcccgctgc tgcgggggct ctgaggccgc tccaaatgat aggtgggctc tcgtgagcga gtacgggcgc tacgccggcg gtgggcccaa gctcgttgtg acacgagcac cggccgtggt

55080 55140 55200 55260 55320 55380 55440 55500 55560 55620 55680 55740 55800 55860 55920 55980 56040 56100 56160 56220 56280 56340 56400 56460 56520 56580 56640 56700 56760 56820 56880 56940 57000 57060 57120 57180 57240 57300 57360 57420 57480 57540 57600 57660 57720 57780 57840 57900 57960 58020 58080 58140 58200 58260 58320 58380 58440 58500 58560 58620 58680 58740 58800 ···· ·· ·· gcacctcagc gctcgacgcg ^ggttgcgac gccgcggctg ggtgcaagcg ctgtatcagc cgagctactt tgcgcggctc tgacaggccg agccacgggg gctcgactcc agaaatcgag gggcgtgaac tacccatgtc cgaggcggcc ccacctgcag cgcggtgcga gaaccgtgcc gttcgtcaca gctttcgggc gaagctgggc gaatttttcc ccgtgcgctc gtcggggttg tcgcgcagcc cacgctggac cgcggacggc atggctggcc cgcagagcag gaaagcggac ggggatgccg gcagcagact cttgcacacg tgggcttttc cctttcgcat cacggaggtg gatgcggggc tcgcgtgcag aacagcggcc gaccgccggg ggggctgctg caagatcgag gctgcgcaac gtacccaacg tggcggcggg ccgctttcgt ctcgcccgag ggccatgtgg agaggcggcc cctgggtgtc ggctccgctg ggagatggag atccacccaa ggctccggcc catcgccggc caccacggag agggcgcgag gacgtcgtca tggttgggag cctggacgtt gaagcctgct gatcgagcgc cctcacccga agcctcgacg ccccggagcc agcgtgctct tggctcttga ccgctgttgg gtcgacctcg gcagatgatg gtccaccggc ttccggctag cggcgcgctc atcgacatcc ccgttggtgc ggccttgtgg accacgtcgg gcgatgcccc gcgggggagc tgggcgcagc tacctggagt gacgtgcatg gagcgcatcg aggcgcgacg ttctcgcagg ctcgacgagc cgcgttggcg gaggcattcc gacccggagg acctaccttg gagcggggcg cgagccgccg gtcgccgatc ctgcggggtg ccggcgcggt ctgacacgcg ggctcgccag caccgaaggg gggatggccg atcacccccg acgggggtga tcacggaggt gatcgggacc caggacgtcg gtggatgccc cgcatcgagg gtagcagcga tcggacacgg cctgtcgtca ggcttccgtt cacgatcgca tcgctgattc cggttcgtca gccgtcttca accgatataa caagtccagg cccggggact tcggacgatg cgcttctata atcatgcaca ggccccgcgt cagcgtgggc tgcagtatag ttcgacttca ctgagagagg taccacgacg ggggcggcca cagatgtcga ccctggtgca cccgcggggc ggctgggccg atccagccga ccgaggagga tgcccgacgc agatcgatga ctggtccggg agctggcgtt tcggaagcga tgggccagcc ccacgctggt tcgcgtattt gggtgctgat gcgtgggcgc cgctgggcgt catggacgga acaagagcct actgcgccga tggacttgcg tgttcgggtt gatccctcac ggaggatggc tgcggatccg tgaccggcgg cggggcaact tggcggcgct ggtcacagat tcgtgcatgc tccgcacggt aagcgcctct gccagggcaa cgcagggcct ttgcgcaaga atgagggtct taccgatcac tgtcgcggct tgctcgaaca tgcgcgtgca cgctctcgag ctgcgctggg taacgcgctg acgaatcgac agccgcgggc cctggtcgga gcctcgcctc agcactatgc tggggacagc cgttgggcgg tagccaagct ccgatgctcg cgaaggagcc tgatcgtgcc tgcatctcct tcgtcgactc tcgaggcaaa gctggcggcc gagattttat agccgttcgc caacccccat tgtcggcggt gctcggcccg tgccgatgcc agcgctggtc tcaggcggcc caccatcgcc gcctgaaggg ggtcgcgctg tcagcgccgg acccggcgcg cgaggtcgag gggcgttgct gtgcgccggg ggtgatcgcc gttgcctcgg gacggcctgg ccatgcggag cgaggtgtat gcggtacgtg cggcgagggt catggtcctg cacgcagcct gggaatgatg ggtcgcagcc gccaccgccg gcaaggacag cgctccggcc tctgggtggc ggtgctggtg ggaggcccac cgagcgggtc ggcaggtctc gatgggacct ttccttcttc ctatgccgca gccggcgctg aaaccgtggc gtcagctctg tccgcggcag ggtgaccacg gcttgcgtcg ggtctcgcat catgggcatg cgtcgccgcg gctgctcgac ggcgagcgcc tcgtctcttc gaagtctgag cgaggacgcg agacgcaccg cgtggagctc cagcttgatc cttcttccga cgcagacaag gcccgtgaag tccgagcgac tcccggagat gcatctcaat atgatggcag ggcggcaggc gacacaggag gcctgggtac cttctactgg gttccgcgac gggctcgggg ctcgaatcgg ggcatggacc gccgccggcg ttggagcacg gaagccgatg cgcggtggcg gagaaggtcg ctggaccaac atctccgtcg cccaatgatc cgcatcgtcg cttgcggcgg cctctggggc tacgccctcg gccggtggtg gcgaccgccg agcgattccc gtggacgtcg cgcgcctgtg gggctgccgc ctcgatcaac ggtgccatca gtcgagacct catctcggga gaatccagcg ctcggtctgc ggccgctccg ggcgcgcgcg ctccgcgagg gtggatgacg aaggtccagg gtgctgtacg gccaacgcgt agcatcgact gcgcggcaga gcgcgcttgc tgggtggagt cagcgcgcgg gctgagccga gtgctgcgtc gactcgctga cctgcagcct gacgccctcg ggttcgttcg tgttttcacg tggagcgatc cctggtaaga tttgcgttag gccagtcgtt tcttcttcag aatgccgcgg gtcatcacag atcgcggtcc gttcaggatc cacgaatttc ccgctgctcg cctccctcgg cgcggaggcg caagcgaatc gcggaggacc gatgaaggcc gaacgcttcg cgcagggcgc cgctgatgcg tccgaaacgc atgtctccgt ccgagctgcg ctttgctggc accggctcgt agcccgccgg tggtgctccg aagcggcggg tgcctggaga ctgtgggcga gagtatttgc tctcggcgac acaaggtcgc tcggtctttg acacgcccga gctcgggccg tgctcgactc gtcgccttgt cgctcctacg cggcgaggat gcccactggg tcccgatctc agctcgtgct tcgccgtccg gcgtggccgg gtgcggcgag tcacggtggc ttaccgcgtc ggctgctgat gggccttgca cttctgcagc tcctcgacgc ggggcatgtt tctctcgcgg tcgagggtga tctacccggc tcgctgatcg gcgcgcgggc tccctgaaga tgagcctgga tggggtggac tcgtccggct tccacgtcct gttctggcgg tggaaatcgt agtacgtcca tagggttcag ccggcgcacc agatcacccc gtttcgtgcg acaccatggt ctatcgtcgc tacaatctcg tcgtcgatcg ccgcgaggac gcgcgcgaga catgagcctt agagtgagac cgttccccgc gctcctgggt cggtcagtcg

58860 58920 58980 59040 59100 59160 59220 59280 59340 59400 59460 59520 59580 59640 59700 59760 59820 59880 59940 60000 60060 60120 60180 60240 60300 60360 60420 60480 60540 60600 60660 60720 60780 60840 60900 60960 61020 61080 61140 61200 61260 61320 61380 61440 61500 61560 61620 61680 61740 61800 61860 61920 61980 62040 62100 62160 62220 62280 62340 62400 62460 62520 62580 ···· agaagagtgg gaagtacgga cccgtcgttt ccagctgctc gggaatcccg gttccgtcgc cgatgaggag cgtcctcgat ggccgaggcc tatcgctgct gcggtcgccc cgatgaggtg ggacctggag gagcgccctg cacgggcgcg tcgcctcgag gaaagaaact catcttgaag cctcatgata caagcccatt gacgtcggaa gcacgccgct cggcctcacc cgcgcgcgcc cttcggcggc agtcctcttc gctcgtcctg gcgccccggg gctggtgcag tgcgcaagcc gacatccggc gaggccgacg cggtgggcgg cggctgggca atcgccggca ttccgcgcgg gccggcccgt gcggcgcgcc ctgcgcgcag gcctctctcg cggagccgcg acaggcgacg ctccagacac ctcgtcgcgc gtcttgtccg gacggcgctg cccgcctgac caggcccacg cacatcagag accgtccccg gactagcgtg atcggccggg aatgtgctgc ggggtgacgc caccaccgtg tccgtgtagg tgctgcacga atcggctcgg gtcacccggt gcgtcccggt ggtccgttgc ggcttctcca agcgacggcc gaatcgagcg ttgttcgggc acgtcacgcg gatgctcgct atgcgcgcga ttcggctcgg accaagaccc gagcggcgca gacggcagca ggcaccgata gaggcgctcg ctccgcttcg tactgcgggg agagatggga agcctcgcgt gcggagatcg cecgtgtttg ccctccaaag cagctcgcgc gtcagcgcgc gaagtgccgg cgtcatgtcc gagcggcagg ttcggcgagc gtggtgctgg caggatccgg ctgctcatgg gcgctctcgg cgcatgcagg tgagcctcgg cgcccgccgc aggcgctccg aggcggcgca aggcgctcga gactccagaa cgacggagca accgcggatc t“caccccgc ccgagcgggc ggcgcagccg ctcggtccgc acccgcccga tcgttcagct cactcggatc atgttgttgc ccgactggca cgcttttcgc accagcttcc actctccgct accagaacag cctccgctcg caggaggtac ggcaggcgcc cgcaaacggg cgcactcgtg cgatcgtgct caatgggaac gttcggtcag acggcccggc ccgacgcatt tccggcctgg tatgtcctcc tcttctcccg cggagtactc tgccgccgga ccatcgacct ccggacaaga tcagcgctct cgactgcgcg tggtcgcgtc ggaacccgct ggctgagcac ccacgatcta agctggtgaa acaatatcct catcgatcaa ctgtattctc acggtagagg ccgtgggcac gataccaccc ctggatagct gcgggtgctg gaagatcgaa gcgccgccct ggccctgcac ttctgctctc tcgcgcggcg gcccgtccgt cggtcggggt cgggtatcga cgctcggcgc gcgcgttcac cgcctgctcg ggcccagctc cccgttccgc gcggccgcgg caaggtccct cgatgcggtc cgcgctccgc gagccgcgtg ggaccgtgta gctcatcgcg agcggcggcg gcagcggcta gggtgtcgaa gcttggcgtc ggatcttgtt accgcgcctc ccggcgcctc cgccgcacgc cagcaatctt cggctcgtcg ccgcatgcgg tgccgagatc cgacacgggc tccatgcccg agatgctccc agctccagct gatcagcgcg gtccgattcg atcgttgaac ggggtcgcgg caacaggcag gatgtagccc ctgctggctc acgcgctcgg gtcggccatt ggatcacgct gctgcgcgcc ggagttcgac gttgaaggtt cgcgctcggc cgtcaccgag cgaaaatgac gaaggagctg ccttatcgcg ggccgagccc cagaatagga gaaaggggag caggccagac cccccatgtc catcttccgt cgcgttccgg cgcgggggta tctgccgcgg tccacggccc gggagcgcaa ccgcgccgag gctcgtcgcc gctgcgccag cgtcggcgcg cgtgctctcc ggtcgatgtg gatcgcgccc gtgggatctc tacacctcgc gagccggact gacgcgatcg ctggagagcc ttcgcgcaca tggttcgatg gacgcggcgt tccgctgccg cccgcgtccg ctctacactg tgccggtggt gcgcgcgtcg cggattgccg gatgccgcct cgagcacgcg gcggtcgcac gccctgcgcg cgcgagcagg ttgcatggct gttcgacagc gtttctcgca ggctgtcctg gccgggcggg cagccgggaa ggagaggcgc cctcggcata ttctccgcct atcacgctgg cggacgtgcc tcgctgaagt gccgtctcat tctgcgattg ctctttggct ggatccatgg cccgagctca cgggtccgca gaaatacagc gttgtgcggg ccggccgagt gtgggtttgg gggctcgcgc gtcttgacga gtcgcgctcg ttcgctgtgc gggctcatga actgtgcgtt atggtctttc gtgtttgatg tgccccgggg aggttccccg aacatcgaat tcgcttcccg gtgcgattcg ggagaagagc agctcgctcg gagccgcccg ctcgcgctcg cccgaggtgc ctcgctcctg ggcatctcct agcatcctgc ccgctgcgca gacgtctcgc cggtgctcgc cgccggatga ccgcgtactc tcgtgcggct cgacggccgg tcgccgcccg cggccatgga taggggagtt accagcagat cgttcgcccg tccctcttcg cggcagagat cagccctcat gggcactcgc tccttgctcg cgcgccgcca ccacccgggg ctcattcccg tcccctccct cggcgacggc acatgccccg tgcgacggca aggtgccgcc cgcggcgccc cgggcacagc gaagagaccg gacgcgagtc catagtccgt gggtgcgcct agacggtgat ggctcgtcat cccagcgcgt gcctccctct ctgaggatcc gcgatatgaa agctcgtcaa gcaccgtcga attacgcgga gtgacgagaa tgccccaggt tgctccatga tgctgcttca tgggtgcgat tcaacctgct ggaacgcgct tcgccaggca tcctgatccc tgcgacggga tgtcccttgc agatgaagct cactcaacgt aacctcattc atccagcgga ccgtccgggt ttcgcgctca ccctgatgca tcctcctgac tcggcgagct ggttccatcg ggataggcgc gcaaggaggc cgccggggcc cgcgacgctc tccgcccgcg cgaggccgac ggaggccgtt cgcgatcgtg cgtctcccag gtacgcgagc ggcgctcgcg tcggggggag cctgaccgcg tgaggagtga caaccatgac cgctggagcg tgcggatccc cgaaggtcag aatactcccg cgatgctatc tttgcgcctc acaccgagat cacgacacgt cacgagcaga acatccttgc atatcctgcg acgggctcga ggccagcctc cgagcgccgt tcactcccgg gagccgggta atcgcgcggg cgctgggacg ggcgacctgc ctgcggctcg ccgcccgatc gctgtccagg tcgccgagcg

62640 62700 62760 62820 62880 62940 63000 63060 63120 63180 63240 63300 63360 63420 63480 63540 63600 63660 63720 63780 63840 63900 63960 64020 64080 64140 64200 64260 64320 64380 64440 64500 64560 64620 64680 64740 64800 64860 64920 64980 65040 65100 65160 65220 65280 65340 65400 65460 65520 65580 65640 65700 65760 65820 65880 65940 66000 66060 66120 66180 66240 66300 66360 ···· ·· ·· otccttgccg gatgccggcg cggcgcctct acccgccgat ggcggctgtg gaagcagtga cgccggatag ccgagcgaga gccgacgtcg ccgcccgagc gagtccccgt ctggccgaga agcagccctc cgcgctatca tccatcatat cggcgcggct ggatcggcgg cgtggcgatc ctccgagggc gcaccggagc tttctggacg cgaagggatc cgtcctcggc caagaagaag gttcacgatc cgtctggctc cggcctcgtg gggggagagc tggcgtgtcg cgtgctgcgc gcgcatcgag caggtcgctc cgccatcctc aaaccgtgca tcgcgaggtc caggcttcga ggcgagatga agcgcggtcg gcggcgccag atcctccgct accggcgcgc cgacgaggcc gcaggccggc tcacatccca gtaccggcca ggcgatcgag ggctcacgct aaatcgtgca accccgacgc gcatcgaggc ggcaacgggt cgaccgtgcc agtctccatc gcagcgctga catccctgcg ctacgtgcgc agcatggaga gcggcggtca gtgcactccc gcacgcccgc ctgatcgtcg ttgcacctct gcagcggccg gacggacagg gtcctggagg gggcaccgcc ctcgccgcgg gcggacaggg gcggtggggc atcgagttcg acccggatac caccagcgcg cgcggcgccc gacgtcgtcc cggcagcgcc ggggggcgac cggctggcgt ctcgcgcgat catggcggtc tccagggttc cgagcgccga gccccgcgtc ctgagcgttg ccgcggcacg gcccggacgc gtggcagatg cggtctcctc gggcacgcgg cgcgaccacg cggcagcgag cggagtgctc gcatgccaac ttctgccgcc gcccgccagc tactcctcca gacaggagag aagaatcgag agttcatcgc tcgtcgatac ccgacgccga ccatcatgat tgcacccgcg tcttcgaggg gctacctcgc actccgcggc tgggaaaccc tcgcggtctt agctcctcgc ggcccctgac acgccgcgct ggagcgagcg cgagggcgtg gggctcaggt ttcgacgcga ggagcccggg gtcatgagga cgcggcctcc ctcgcccggc gtctcgctgt gattcggcca cgggctttga tgatcccgat cgcggtcatg acgcttgctc gaggcccgag aaacacgttg gcgagcatgg ctcgcgcccg cggctggcgg cggttcgtcg gactacaacg ttcgagctgc gtcatcgggc aggccccaga gcgacggccg cgtcctggcg gatcgcgatc cgccgccgtg tgcagacggg gcatccgttc cttcgccgcg ccagatcgag gacgtcgctc ggcgatgcgg gctcgccggg ctacctcgac cctcgccagc cgcgatccgc gatgcacttc cacggcgtcc acccgacgtg acgcgccgtg ggccctcgca ggtacgctgg cgggccgggc aggccagggc ccggcgccgg gccggctcat tccagctcgg aggtgacgag aagcacgcga cgtgacatcg gtcgtcctcg aaaccgcggc agggacagtg acacgggccg cgctcgccgg gcgccgatgc tggacgtcgt tctggcagcg ctgccagccg tcatcaccgt cgacgtccgt gccctgcctc cgtcgaagca cggcctgcgc tacggcgcca accggcagct ctcctcctcc ggccacggca ggcggcggcg gatccgacgt atcatctcga tccagcaagg ctcaccatcg ggcgcggcgt cagagccgtg gcgctcgcca ggtccgcacg ggggtcgcgg aagcacatct gagagaccgc gcagggcgcg ttgcaagtcg gcacgaaggc gcatggggcg cgcgcttcgc cgcctccgtg gatcatcgag ctccgatatc ccggacacgt cgacgtccgc cgtcaccgcc gagacggccg ggtccgccgt acgagtcggc ctgtggcggc gcacgtcgcc tcacctctcg tccgagctcc aagaggcaag cgagaagcag cgggtaacat gatcgccttc accgccgtgc atcgctggaa tcgcagccaa cggcgatgct tgctcggcaa aggagctcta tctcgatcta ggaactacgt tccacgagtt acccgacgac ccttcctcgg cgatcggcat ggctcctcgt gcgcagatcc aagtcctggt aggcgatcga acgtcgaggc gcgcggcctc cctggcgggc tcacgccgta gcggcgagcg atgctcggcg gccgcgctcc tccctcgccg cgcctgcccg

66420 66480 66540 66600 66660 66720 66780 66840 66900 66960 67020 67080 67140 67200 67260 67320 67380 67440 67500 67560 67620 67680 67740 67800 67860 67920 67980 68040 68100 68160 68220 68280 68340 68400 68460 68520 68580 68640 68700 68750 <210> 2 <211> 1421 <212> PRT <213> Sorangium cellulosum <400> 2

Val Ala Asp Arg Pro íle Glu Arg Ala Ala Glu Asp Pro íle Ala íle

1

5

10

15

Val

Gly

Ala

Ser

Cys

Arg

Leu

Pro

Gly

Val

íle

Asp

Leu

Ser

Gly

20

25

30

Phe

Trp

Thr

Leu

Glu

Gly

Ser

Arg

Asp

Thr

Val

Gly

Arg

Val

Pro

35

40

45

Ala

Glu

Arg

Trp

Asp

Ala

Trp

Phe

Asp

Pro

Asp

Pro

Asp

Ala

50

55

60

Pro

Gly

Lys

Thr

Pro

Val

Thr

Arg

Ala

Ser

Phe

Leu

Ser

Asp

Val

Ala

65

70

75

80

100

• ····	·· ··	··	•
• · ·	• · · ·	•	•	• ·
• ···	• · ·	•	•	•
• ·	• · · · ·	•	•	•
• ·	• · ·	•	•	•
··· ···	·· ····	··	• · ·

Cys

Phe Asp Ala

Ser Phe Phe Gly íle Ser Pro Arg Glu Ala Leu Arg

85

90

95

Met

Asp

Pro

Ala

His

Arg

Leu

Glu

Val

Cys

Trp

Glu

Ala

Leu

100

105

110

Glu

Asn

Ala

íle

Ala

Pro

Ser

Ala

Leu

Val

Gly

Thr

Glu

Thr

Gly

115

120

125

Val

Phe

íle

Gly

íle

Gly

Pro

Ser

Glu

Tyr

Glu

Ala

Leu

Pro

Gin

130

135

140

Ala

Thr

Ala

Ser

Ala

Glu

íle

Asp

Ala

His

Gly

Leu

Gly

Thr

Met

145

150

155

160

Pro

Ser

Val

Gly

Ala

Gly

Arg

íle

Ser

Tyr

Ala

Leu

Gly

Leu

Arg

Gly

165

170

175

Pro

Cys

Val

Ala

Val

Asp

Thr

Ala

Tyr

Ser

Leu

Val

Ala

Val

180

185

190

His

Leu

Ala

Cys

Gin

Ser

Leu

Arg

Ser

Gly

Glu

Cys

Ser

Thr

Ala

Leu

195

200

205

Ala

Gly Gly

Val

Ser

Leu

Met

Leu

Ser

Pro

Ser

Thr

Leu

Val

Trp

Leu

210

215

220

Ser

Lys

Thr

Arg

Ala

Leu

Ala

Arg

Asp

Gly

Arg

Cys

Lys

Ala

Phe

Ser

225

230

235

240

Ala

Glu

Ala

Asp

Gly

Phe

Gly

Arg

Gly

Glu

Gly

Cys

Ala

Val

245

250

255

Leu

Lys

Arg

Leu

Ser

Gly

Ala

Arg

Ala

Asp

Gly

Asp

Arg

íle

Leu

Ala

260

265

270

Val

íle

Arg

Gly

Ser

Ala

íle

Asn

His

Asp

Gly

Ala

Ser

Gly

Leu

275

280

285

Thr

Val

Pro

Asn

Gly

Ser

Gin

Glu

íle

Val

Leu

Lys

Arg

Ala

Leu

290

295

300

Ala

Asp

Ala

Gly

Cys

Ala

Ser

Val

Gly

Tyr

Val

Glu

Ala

His

305

310

315

320

Gly

Thr

Gly

Thr

Leu

Gly

Asp

Pro

íle

Glu

íle

Gin

Ala

Leu

Asn

325

330

335

Ala

Val

Tyr

Gly

Leu

Gly

Arg

Asp

Val

Ala

Thr

Pro

Leu

íle

Gly

340

345

350

Ser

Val

Lys

Thr

Asn

Leu

Gly

His

Pro

Glu

Tyr

Ala

Ser

Gly

íle

Thr

355

360

365

Gly

Leu

Lys

Val

Leu

Ser

Leu

Gin

His

Gly

Gin

íle

Pro

Ala

370

375

380

His

Leu

His

Ala

Gin

Ala

Leu

Asn

Pro

Arg

íle

Ser

Trp

Gly

Asp

Leu

385

390

395

400

Arg

Leu

Thr

Val

Thr

Arg

Ala

Arg

Thr

Pro

Trp

Pro

Asp

Trp

Asn

Thr

405

410

415

···· ··

101

Pro

Arg

Ala

Gly

Val

Ser

Phe

Gly

Met

Ser

Gly

Thr

Asn

Ala

420

425

430

His

Val

Leu

Glu

Ala

Pro

Ala

Thr

Cys

Thr

Pro

Ala

435

440

445

Pro

Glu

Arg

Pro

Ala

Glu

Leu

Val

Leu

Ser

Ala

Arg

Thr

Ala

Ser

450

455

460

Ala

Leu

Asp

Ala

Gin

Ala

Arg

Leu

Arg

Asp

His

Leu

Glu

Thr

Tyr

465

470

475

480

Pro

Ser

Gin

Cys

Leu

Gly

Asp

Val

Ala

Phe

Ser

Leu

Ala

Thr

Arg

485

490

495

Ser

Ala

Met

Glu

His

Arg

Leu

Ala

Val

Ala

Thr

Ser

Arg

Glu

Gly

500

505

510

Leu

Arg

Ala

Leu

Asp

Ala

Gin

Gly

Gin

Thr

Ser

Pro

Gly

515

520

525

Ala

Val

Arg

Ser

íle

Ala

Asp

Ser

Arg

Gly

Lys

Leu

Ala

Phe

Leu

530

535

540

Phe

Thr

Gly

Gin

Gly

Ala

Gin

Thr

Leu

Gly

Met

Gly

Arg

Gly

Leu

Tyr

545

550

555

560

Asp

Val

Trp

Ser

Ala

Phe

Arg

Glu

Ala

Phe

Asp

Leu

Cys

Val

Arg

Leu

565

570

575

Phe

Asn

Gin

Glu

Leu

Asp

Arg

Pro

Leu

Arg

Glu

Val

Met

Trp

Ala

Glu

580

585

590

Pro

Ala

Ser

Val

Asp

Ala

Leu

Asp

Gin

Thr

Ala

Phe

Thr

Gin

595

600

605

Pro

Ala

Leu

Phe

Thr

Phe

Glu

Tyr

Ala

Leu

Ala

Leu

Trp

Arg

Ser

610

615

620

Trp

Gly

Val

Glu

Pro

Glu

Leu

Val

Ala

Gly

His

Ser

íle

Gly

Glu

Leu

625

630

635

640

Val

Ala

Cys

Val

Ala

Gly

Val

Phe

Ser

Leu

Glu

Asp

Ala

Val

Phe

645

650

655

Leu

Val

Ala

Arg

Gly

Arg

Leu

Met

Gin

Ala

Leu

Pro

Ala

Gly

660

665

670

Ala

Met

Val

Ser

íle

Glu

Ala

Pro

Glu

Ala

Asp

Val

Ala

Val

675

680

685

Ala

Pro

His

Ala

Ser

Val

Ser

íle

Ala

Val

Asn

Ala

Pro

Asp

690

695

700

Gin

Val

íle

Ala

Gly

Ala

Gly

Gin

Pro

Val

His

Ala

íle

Ala

705

710

715

720

Ala

Met

Ala

Arg

Gly

Ala

Arg

Thr

Lys

Ala

Leu

His

Val

Ser

His

725

730

735

Ala

Phe

His

Ser

Pro

Leu

Met

Ala

Pro

Met

Leu

Glu

Ala

Phe

Gly

Arg

740 745 750

102

• ····	··	··	• ·
• · ·	• ·	• ·	•	•
• ···	•	•	•	•	•
• ·	• ·	•	•	• ·	•
• ·	• ·	•	•	•
··· ···	··	·· · ·	··

Val

Ala

Glu 755

Ser Val Ser Tyr

Arg Arg 760

Pro Ser

íle

Val 765

Leu

Val Ser

Asn

Leu

Ser

Gly

Lys

Ala

Cys

Thr

Asp

Glu

Val

Ser

Pro

Gly

Tyr

770

775

780

Trp

Val

Arg

His

Ala

Arg

Glu

Val

Arg

Phe

Ala

Asp

Gly

Val

Lys

785

790

795

800

Ala

Leu

His

Ala

Gly

Ala

Gly

Thr

Phe

Val

Glu

Val

Gly

Pro

Lys

805

810

815

Ser

Thr

Leu

Gly

Leu

Val

Pro

Ala

Cys

Met

Pro

Asp

Ala

Arg

Pro

820

825

830

Ala

Leu

Ala

Ser

Arg

Ala

Gly

Arg

Asp

Glu

Pro

Ala

Thr

Val

835

840

845

Leu

Glu

Ala

Leu

Gly Gly

Leu

Trp

Ala

Val

Gly

Leu

Val

Ser

Trp

850

855

860

Ala

Gly

Leu

Phe

Pro

Ser

Gly

Arg

Val

Pro

Leu

Pro

Thr

Tyr

865

870

875

880

Pro

Trp

Gin

Arg

Glu

Arg

Tyr

Trp

íle

Asp

Thr

Lys

Ala

Asp

Ala

885

890

895

Ala

Arg

Gly Asp

Arg

Ala

Pro

Gly

Ala

Gly

His

Asp

Glu

Val

Glu

900

905

910

Glu

Gly Gly

Ala

Val

Arg

Gly

Gly Asp

Arg

Ser

Ala

Arg

Leu

Asp

915

920

925

His

Pro

Glu

Ser

Gly

Arg

Glu

Lys

Val

Glu

Ala

Gly

930

935

940

Asp

Arg

Pro

Phe

Arg

Leu

Glu

íle

Asp

Glu

Pro

Gly

Val

Leu

Asp

His

945

950

955

960

Leu

Val

Leu

Arg

Val

Thr

Glu

Arg

Ala

Pro

Gly

Leu

Gly

Glu

Val

965

970

975

Glu

íle

Ala

Val

Asp

Ala

Gly

Leu

Ser

Phe

Asn

Asp

Val

Gin

Leu

980

985

990

Ala

Leu

Gly

Met

Val

Pro

Asp

Leu

Pro

Gly

Lys

Pro

Asn

Pro

995

1000

1005

Leu

Gly

Glu

Cys

Ala

Gly

Arg

íle

Val

Ala

Val

Gly

Glu

1010

1015

1020

Gly Val

Asn

Gly

Leu

Val

Gly

Gin

Pro

Val

íle

Ala

Leu

Ser

Ala

1025

1030

1035

1040

Gly

Ala

Phe

Ala

Thr

His

Val

Thr

Ser

Ala

Leu

Val

Leu

Pro

1045

1050

1055

Arg

Pro

Gin

Ala

Leu

Ser

Ala

íle

Glu

Ala

Met

Pro

Val

Ala

1060 1065 1070

Tyr Leu Thr Ala Trp Tyr Ala Leu Asp Arg íle Ala Arg Leu Gin Pro 1075 1080 1085

103

• ····	··	··	··	•
·· ·	• ·	• ·	• ·	• ·
• ···	•	•	•	• ·	•
• ·	• ·	•	•	• · ·	•
• ·	•	•	•	• ·	•
··· ···	··	····	«·	···

Gly Glu 1090	Arg	Val Leu íle His Ala Ala Thr Gly Gly	Val	Gly	Leu	Ala
1095	1100
Ala Val	Gin	Trp Ala Gin His Val Gly Ala	Glu Val	His	Ala	Thr	Ala
1105		1110	1115			1120
Gly Thr	Pro	Glu Lys Arg Ala Tyr Leu Glu	Ser Leu	Gly	Val	Arg	Tyr
		1125 1130			1135
Val Ser	Asp	Ser Arg Ser Asp Arg Phe Val	Ala Asp	Val	Arg	Ala	Trp
	1140 1145		1150
Thr Gly	Gly	Glu Gly Val Asp Val Val Leu	Asn Ser	Leu	Ser	Gly	Glu
1155	1160	1165
Leu íle	Asp	Lys Ser Phe Asn Leu Leu Arg	Ser His	Gly	Arg	Phe	Val
1170		1175	1180
Glu Leu	Gly	Lys Arg Asp Cys Tyr Ala Asp	Asn Gin	Leu	Gly	Leu	Arg
1185		1190	1195			1200
Pro Phe	Leu	Arg Asn Leu Ser Phe Ser Leu	Val Asp	Leu	Arg	Gly	Met
		1205 1210			1215
Met Leu	Glu	Arg Pro Ala Arg Val Arg Ala	Leu Leu	Glu	Glu	Leu	Leu
	1220 1225		1230
Gly Leu	íle	Ala Ala Gly Val Phe Thr Pro	Pro Pro	íle	Ala	Thr	Leu
1235	1240	1245
Pro íle	Ala	Arg Val Ala Asp Ala Phe Arg	Ser Met	Ala	Gin	Ala	Gin
1250		1255	1260
His Leu	Gly	Lys Leu Val Leu Thr Leu Gly	Asp Pro	Glu	Val	Gin	íle
1265		1270	1275			1280
Arg íle	Pro	Thr His Ala Gly Ala Gly Pro	Ser Thr	Gly	Asp	Arg	Asp
		1285 1290			1295
Leu Leu	Asp	Arg Leu Ala Ser Ala Ala Pro	Ala Ala	Arg	Ala	Ala	Ala
	1300 1305		1310
Leu Glu	Ala	Phe Leu Arg Thr Gin Val Ser	Gin Val	Leu	Arg	Thr	Pro
1315	1320	1325
Glu íle	Lys	Val Gly Ala Glu Ala Leu Phe	Thr Arg	Leu	Gly	Met	Asp
1330		1335	1340
Ser Leu	Met	Ala Val Glu Leu Arg Asn Arg	íle Glu	Ala	Ser	Leu	Lys
1345		1350	1.355			1360
Leu Lys	Leu	Ser Thr Thr Phe Leu Ser Thr	Ser Pro	Asn	íle	Ala	Leu
		1365 1370			1375
Leu Ala	Gin	Asn Leu Leu Asp Ala Leu Ala	Thr Ala	Leu	Ser	Leu	Glu
	1380 1385		1390
Arg Val	Ala	Ala Glu Asn Leu Arg Ala Gly	Val Gin	Asn Asp	Phe	Val

1395 1400 1405

Ser Ser Gly Ala Asp Gin Asp Trp Glu íle íle Ala Leu 1410 1415 1420 • ·

104 <210> 3 <211> 1410 <212> PRT <213> Sorangium cellulosum <400> 3

Met Thr íle Asn Gin Leu Leu Asn Glu Leu Glu His Gin Gly íle Lys

1

5

10

15

Leu

Ala

Asp

Gly

Glu

Arg

Leu

Gin

íle

Gin

Ala

Pro

Lys

Asn

Ala

20

25

30

Leu

Asn

Pro

Asn

Leu

Ala

Arg

íle

Ser

Glu

His

Lys

Ser

Thr

íle

35

40

45

Leu

Thr

Met

Leu

Arg

Gin

Arg

Leu

Pro

Ala

Glu

Ser

íle

Val

Pro

Ala

50

55

60

Pro

Ala

Glu

Arg

His

Ala

Pro

Phe

Pro

Leu

Thr

Asp

íle

Gin

Glu

Ser

65

70

75

80

Tyr

Trp

Leu

Gly

Arg

Thr

Gly

Ala

Phe

Thr

Val

Pro

Ser

Gly

íle

His

85

90

95

Ala

Tyr

Arg

Glu

Tyr

Asp

Cys

Thr

Asp

Leu

Asp

Val

Pro

Arg

Leu

Ser

_oo

105

110

Arg

Ala

Phe

Arg

Lys

Val

Ala

Arg

His

Asp

Met

Leu

Arg

Ala

His

115

120

125

Thr

Leu

Pro

Asp

Met

Gin

Val

íle

Glu

Pro

Lys

Val

Asp

Ala

Asp

130

135

140

íle

Glu

íle

Asp

Leu

Arg

Gly

Leu

Asp

Arg

Ser

Thr

Arg

Glu

Ala

145

150

155

160

Arg

Leu

Val

Ser

Leu

Arg

Asp

Ala

Met

Ser

His

Arg

íle

Tyr

Asp

Thr

165

170

175

Glu

Arg

Pro

Leu

Tyr

His

Val

Ala

Val

Arg

Leu

Asp

Glu

Arg

180

185

190

Gin

Thr

Arg

Leu

Val

Leu

Ser

íle

Asp

Leu

íle

Asn

Val

Asp

Leu

Gly

195

200

205

Ser

Leu

Ser

íle

Phe

Lys

Asp

Trp

Leu

Ser

Phe

Tyr

Glu

Asp

Pro

210

215

220

Glu

Thr

Ser

Leu

Pro

Val

Leu

Glu

Leu

Ser

Tyr

Arg

Asp

Tyr

Val

Leu

225

230

235

240

Ala

Leu

Glu

Ser

Arg

Lys

Ser

Glu

Ala

His

Gin

Arg

Ser

Met

Asp

245

250

255

Tyr

Trp

Lys

Arg

íle

Ala

Glu

Leu

Pro

Thr

Leu

Pro

260

265

270

Met

Lys

Ala

Asp

Pro

Ser

Thr

Leu

Lys

Glu

íle

Arg

Phe

Arg

His

Thr

275

280

285

Glu

Gin

Trp

Leu

Pro

Ser

Asp

Ser

Trp

Gly

Arg

Leu

Lys

Arg

Val

290 295 300 ···· ···

105 ·· ·· ·· · • · · · · · · · • · · · · · ··· · · · · · • · · · · · ·· ···· ·· ···

Gly Glu 305

Arg

Gly Leu

Thr Pro Thr 310

Gly Val

íle 315

Leu Ala Ala Phe

Ser 320

Glu

Val

íle

Gly

Arg

Trp

Ser

Ala

Ser

Pro

Arg

Phe

Thr

Leu

Asn

íle

325

330

335

Thr

Leu

Phe

Asn

Arg

Leu

Pro

Val

His

Pro

Arg

Val

Asn

Asp

íle

Thr

340

345

350

Gly

Asp

Phe

Thr

Ser

Met

Val

Leu

Asp

íle

Asp

Thr

Arg

Asp

355

360

365

Lys

Ser

Phe

Glu

Gin

Arg

Ala

Lys

Arg

íle

Gin

Glu

Gin

Leu

Trp

Glu

370

375

380

Ala

Met

Asp

His

Cys

Asp

Val

Ser

Gly

íle

Glu

Val

Gin

Arg

Glu

Ala

385

390

395

400

Ala

Arg

Val

Leu

Gly

íle

Gin

Arg

Gly

Ala

Leu

Phe

Pro

Val

Leu

405

410

415

Thr

Ser

Ala

Leu

Asn

Gin

Val

Gly

Val

Thr

Ser

Leu

Gin

Arg

420

425

430

Leu

Gly

Thr

Pro

Val

Tyr

Thr

Ser

Thr

Gin

Thr

Pro

Gin

Leu

435

440

445

Asp

His

Gin

Leu

Tyr

Glu

His

Asp

Gly Asp

Leu

Val

Leu

Ala

Trp

Asp

450

455

460

íle

Val

Asp

Gly

Val

Phe

Pro

Asp

Leu

Asp

Met

Leu

Glu

465

470

475

480

Ala

Tyr

Val

Phe

Leu

Arg

Leu

Thr

Glu

Pro

Trp

Gly

Glu

485

490

495

Gin

Val

Arg

Cys

Ser

Leu

Pro

Ala

Gin

Leu

Glu

Ala

Arg

Ala

Ser

500

505

510

Ala

Asn

Ala

Thr

Asn

Ala

Leu

Ser

Glu

His

Thr

Leu

His

Gly

Leu

515

520

525

Phe

Ala

Arg

Val

Glu

Gin

Leu

Pro

Met

Gin

Leu

Ala

Val

Ser

530

535

540

Ala

Arg

Lys

Thr

Leu

Thr

Tyr

Glu

Leu

Ser

Arg

Ser

Arg

545

550

555

560

Leu

Gly

Ala

Arg

Leu

Arg

Glu

Gin

Gly

Ala

Arg

Pro

Asn

Thr

Leu

Val

565

570

575

Ala

Val

Met

Glu

Lys

Gly

Trp

Glu

Gin

Val

Ala

Val

Leu

Ala

580

585

590

Val

Leu

Glu

Ser

Gly

Ala

Tyr

Val

Pro

íle

Asp

Ala

Asp

Leu

Pro

595

600

605

Ala

Glu

Arg

íle

His

Tyr

Leu

Asp

His

Gly

Glu

Val

Lys

Leu

Val

610

615

620

Leu

Thr

Gin

Pro

Trp

Leu

Asp

Gly

Lys

Leu

Ser

Trp

Pro

Gly

íle

625

630

635

640

···· ·· ·· ·· • ···· · · · ··· · · · · ·

106 • · · · · · · ·· ···· ·· ···

Gin Arg

Leu Leu

Val Ser Glu Ala Gly Val

Glu Gly Asp

Gly

Asp 655

Gin

64 5

650

Pro

Met

Pro

íle

Gin

Thr

Pro

Ser

Asp

Leu

Ala

Tyr

Val

íle

660

665

670

Tyr

Thr

Ser

Gly

Ser

Thr

Gly

Leu

Pro

Lys

Gly

Val

Met

íle

Asp

His

675

680

685

Arg

Gly

Ala

Val

Asn

Thr

íle

Leu

Asp

íle

Asn

Glu

Arg

Phe

Glu

íle

690

695

700

Gly

Pro

Gly Asp

Arg

Val

Leu

Ala

Leu

Ser

Leu

Ser

Phe

Asp

Leu

705

710

715

720

Ser

Val

Tyr

Asp

Val

Phe

Gly

íle

Leu

Ala

Gly Gly

Thr

íle

Val

725

730

735

Val

Pro

Asp

Ala

Ser

Lys

Leu

Arg

Asp

Pro

Ala

His

Trp

Ala

Glu

Leu

740

745

750

íle

Glu

Arg

Glu

Lys

Val

Thr

Val

Trp

Asn

Ser

Val

Pro

Ala

Leu

Met

755

760

765

Arg

Met

Leu

Val

Glu

His

Phe

Glu

Gly

Arg

Pro

Asp

Ser

Leu

Ala

Arg

770

775

780

Ser

Leu

Arg

Leu

Ser

Leu

Ser

Gly

Asp

Trp

íle

Pro

Val

Gly

Leu

785

790

795

800

Pro

Gly

Glu

Leu

Gin

Ala

íle

Arg

Pro

Gly

Val

Ser

Val

íle

Ser

Leu

805

810

815

Gly

Ala

Thr

Glu

Ala

Ser

íle

Trp

Ser

íle

Gly

Tyr

Pro

Val

Arg

820

825

830

Asn

Val

Asp

Leu

Ser

Trp

Ala

Ser

íle

Pro

Tyr

Gly Arg

Pro

Leu

Arg

835

840

845

Asn

Gin

Thr

Phe

His

Val

Leu

Asp

Glu

Ala

Leu

Glu

Pro

Arg

Pro

Val

850

855

860

Trp

Val

Pro

Gly

Gin

Leu

Tyr

íle

Gly

Val

Gly

Leu

Ala

Leu

Gly

865

870

875

880

Tyr

Trp

Arg

Asp

Glu

Lys

Thr

Arg

Lys

Ser

Phe

Leu

Val

His

Pro

885

890

895

Glu

Thr

Gly

Glu

Arg

Leu

Tyr

Lys

Thr

Gly

Asp

Leu

Gly Arg

Tyr

Leu

900

905

910

Pro

Asp

Gly

Asn

íle

Glu

Phe

Met

Gly Arg

Glu

Asp

Asn

Gin

íle

Lys

915

920

925

Leu

Arg

Gly

Tyr

Arg

Val

Glu

Leu

Gly

Glu

íle

Glu

Thr

Leu

Lys

930

935

940

Ser

His

Pro

Asn

Val

Arg

Asp

Ala

Val

íle

Val

Pro

Val

Gly

Asn

Asp

945

950

955

960

Ala

Asn

Lys

Leu

Ala

Tyr

Val

Pro

Glu

Gly

Thr

Arg

965

970

975

···· • ·

107

Arg Arg Ala Ala Glu Gin Asp Ala Ser Leu Lys Thr Glu Arg íle Asp
	980	985	990
Ala Arg Ala	His Ala Ala	Glu Ala Asp	Gly Leu Ser Asp Gly Glu Arg
995		1000	1005
Val Gin Phe	Lys Leu Ala	Arg His Gly	Leu Arg Arg Asp Leu Asp Gly
1010	1015	1020
Lys Pro Val	Val Asp Leu	Thr Gly Gin	Asp Pro Arg Glu Ala Gly Leu
1025	1030		1035 1040
Asp Val Tyr	Ala Arg Arg	Arg Ser Val	Arg Thr Phe Leu Glu Ala Pro
	1045	1050 1055
íle Pro Phe	Val Glu Phe	Gly Arg Phe	Leu Ser Cys Leu Ser Ser Val
1060	1065	1070
Glu Pro Asp	Gly Ala Thr	Leu Pro Lys	Phe Arg Tyr Pro Ser Ala Gly
1075		1080	1085
Ser Thr Tyr	Pro Val Gin	Thr Tyr Ala	Tyr Val Lys Ser Gly Arg íle
1090	1095	1100
Glu Gly Val	Asp Glu Gly	Phe Tyr Tyr	Tyr His Pro Phe Glu His Arg
1105	1110		1115 1120
Leu Leu Lys	Leu Ser Asp	His Gly íle	Glu Arg Gly Ala His Val Arg
	1125	1130 1135
Gin Asn Phe	Asp Val Phe	Asp Glu Ala	Ala Phe Asn Leu Leu Phe Val
1140	1145	1150
Gly Arg íle	Asp Ala íle	Glu Ser Leu	Tyr Gly Ser Ser Ser Arg Glu
1155		1160	1165
Phe Cys Leu	Leu Glu Ala	Gly Tyr Met	Ala Gin Leu Leu Met Glu Gin
1170	1175	1180
Ala Pro Ser	Cys Asn íle	Gly Val Cys	Pro Val Gly Gin Phe Asn Phe
1185	1190		1195 1200
Glu Gin Val	Arg Pro Val	Leu Asp Leu	Arg His Ser Asp Val Tyr Val
	1205	1210 1215
His Gly Met	Leu Gly Gly	Arg Val Asp	Pro Arg Gin Phe Gin Val Cys
1220	1225	1230
Thr Leu Gly	Gin Asp Ser	Ser Pro Arg	Arg Ala Thr Thr Arg Gly Ala
1235		1240	1245
Pro Pro Gly	Arg Glu Gin	His Phe Ala	Asp Met Leu Arg Asp Phe Leu
1250	1255	1260
Arg Thr Lys	Leu Pro Glu	Tyr Met Val	Pro Thr Val Phe Val Glu Leu
1265	1270		1275 1280
Asp Ala Leu	Pro Leu Thr	Ser Asn Gly	Lys Val Asp Arg Lys Ala Leu
	1285	1290 1295

Arg Glu Arg Lys Asp Thr Ser Ser Pro Arg His Ser Gly His Thr Ala 1300 1305 1310 ···· • β

108

Pro Arg Asp

Ala

Leu

Glu

íle

Leu

Val

Ala

Val

Arg

Glu

Val

1315

1320

1325

Leu Gly

Leu

Glu

Val

Gly

Leu

Gin

Ser

Phe

Val

Asp

Leu

Gly

1330

1335

1340

Ala Thr

Ser

íle

His

íle

Val

Arg

Met

Arg

Ser

Leu

Gin

Lys

Arg

1345

1350

1355

1360

Leu Asp

Arg

Glu

íle

Ala

íle

Thr

Glu

Leu

Phe

Gin

Tyr

Pro

Asn

Leu

1365

1370

1375

Gly Ser

Leu

Ala

Ser

Gly

Leu

Arg

Asp

Ser

Arg

Asp

Leu Asp

Gin

1380

1385

1390

Arg Pro

Asn

Met

Gin

Asp

Arg

Val

Glu

Val

Arg

Lys

Gly Arg

Arg

1395 1400 1405

Arg Ser

1410 <210> 4 <211> 1832 <212> PRT <213> Sorangium cellulosum <400> 4

Met 1

Glu

Glu Gin Glu Ser Ser Ala íle Ala Val

íle Gly Met Ser Gly 15

5

10

Arg

Phe

Pro

Gly

Ala

Arg

Asp

Leu

Asp

Glu

Phe

Trp

Arg

Asn

Leu

Arg

20

25

30

Asp

Gly

Thr

Glu

Ala

Val

Gin

Arg

Phe

Ser

Glu

Gin

Glu

Leu

Ala

35

40

45

Ser

Gly

Val

Asp

Pro

Ala

Leu

Val

Leu

Asp

Pro

Ser

Tyr

Val

Arg

Ala

50

55

60

Gly

Ser

Val

Leu

Glu

Asp

Val

Asp

Arg

Phe

Asp

Ala

Phe

Gly

65

70

75

80

íle

Ser

Pro

Arg

Glu

Ala

Glu

Leu

Met

Asp

Pro

Gin

His

Arg

íle

Phe

85

90

95

Met

Glu

Cys

Ala

Trp

Glu

Ala

Leu

Glu

Asn

Ala

Gly

Tyr

Asp

Pro

Thr

100

105

110

Ala

Tyr

Glu

Gly

Ser

íle

Gly

Val

Tyr

Ala

Gly

Ala

Asn

Met

Ser

115

120

125

Tyr

Leu

Thr

Ser

Asn

Leu

His

Glu

His

Pro

Ala

Met

Arg

Trp

Pro

130

135

140

Gly

Trp

Phe

Gin

Thr

Leu

íle

Gly

Asn

Asp

Lys

Asp

Tyr

Leu

Ala

Thr

145

150

155

160

His

Val

Ser

Tyr

Arg

Leu

Asn

Leu

Arg

Gly

Pro

Ser

íle

Ser

Val

Gin

165

170

175

···· • ·

109 ····

Thr

Ala Cys

Ser Thr Ser Leu Val Ala Val His Leu Ala Cys

Met Ser

180

185

190

Leu

Asp

Arg

Glu

Cys

Asp

Met

Ala

Leu

Ala

Gly

íle

Thr

Val

195

200

205

Arg

íle

Pro

His

Arg

Ala

Gly

Tyr

Val

Tyr

Ala

Glu

Gly

íle

Phe

210

215

220

Ser

Pro

Asp

Gly

His

Cys

Arg

Ala

Phe

Asp

Ala

Lys

Ala

Asn

Gly

Thr

225

230

235

240

íle

Met

Gly

Asn

Gly

Cys

Gly

Val

Leu

Lys

Pro

Leu

Asp

Arg

245

250

255

Ala

Leu

Ser

Asp

Gly Asp

Pro

Val

Arg

Ala

Val

íle

Leu

Gly

Ser

Ala

260

265

270

Thr

Asn

Asp

Gly

Ala

Arg

Lys

íle

Gly

Phe

Thr

Ala

Pro

Ser

Glu

275

280

285

Val

Gly

Gin

Ala

Gin

Ala

íle

Met

Glu

Ala

Leu

Ala

Leu

Ala

Gly

Val

290

295

300

Glu

Ala

Arg

Ser

íle

Gin

Tyr

íle

Glu

Thr

His

Gly

Thr

Gly

Thr

Leu

305

310

315

320

Leu

Gly

Asp

Ala

íle

Glu

Thr

Ala

Leu

Arg

Val

Phe

Gly

Arg

325

330

335

Asp

Ala

Ser

Ala

Arg

Ser

Cys

Ala

íle

Gly

Ser

Val

Lys

Thr

Gly

340

345

350

íle

Gly

His

Leu

Glu

Ser

Ala

Gly

íle

Ala

Gly

Leu

íle

Lys

Thr

355

360

365

Val

Leu

Ala

Leu

Glu

His

Arg

Gin

Leu

Pro

Ser

Leu

Asn

Phe

Glu

370

375

380

Ser

Pro

Asn

Pro

Ser

íle

Asp

Phe

Ala

Ser

Pro

Phe

Tyr

Val

Asn

385

390

395

400

Thr

Ser

Leu

Lys

Asp

Trp

Asn

Thr

Gly

Ser

Thr

Pro

Arg

Ala

Gly

405

410

415

Val

Ser

Phe

Gly

íle

Gly Gly

Thr

Asn

Ala

His

Val

Leu

Glu

420

425

430

Glu

Ala

Pro

Ala

Lys

Leu

Pro

Ala

Pro

Ala

Arg

Ser

Ala

435

440

445

Glu

Leu

Phe

Val

Ser

Ala

Lys

Ser

Ala

Leu

Asp

Ala

450

455

460

Ala

Arg

Leu

Arg

Asp

His

Leu

Gin

Ala

His

Gin

Gly

íle

Ser

Leu

465

470

475

480

Gly

Asp

Val

Ala

Phe

Ser

Leu

Ala

Thr

Arg

Ser

Pro

Met

Glu

His

485

490

495

Arg

Leu

Ala

Met

Ala

Pro

Ser

Arg

Glu

Ala

Leu

Arg

Glu

Gly

Leu

500 505 510 ····

110

Asp Ala

Ala 515

Ala Arg Gly

Gin Thr Pro Pro Gly Ala Val

Arg

Gly

Arg

520

525

Cys

Ser

Pro

Gly

Asn

Val

Pro

Lys

Val

Phe

Val

Phe

Pro

Gly

Gin

530

535

540

Gly

Ser

Gin

Trp

Val

Gly

Met

Gly

Arg

Gin

Leu

Ala

Glu

Pro

545

550

555

560

Val

Phe

His

Ala

Leu

Ser

Ala

Cys

Asp

Arg

Ala

íle

Gin

Ala

Glu

565

570

575

Ala

Gly

Trp

Ser

Leu

Ala

Glu

Leu

Ala

Asp

Glu

Gly

Ser

580

585

590

Gin

Leu

Glu

Arg

íle

Asp

Val

Gin

Pro

Val

Leu

Phe

Ala

Leu

Ala

595

600

605

Val

Ala

Phe

Ala

Leu

Trp

Arg

Ser

Trp

Gly

Val

Ala

Pro

Asp

Val

610

615

620

Val

íle

Gly

His

Ser

Met

Gly

Glu

Val

Ala

His

Val

Ala

Gly

625

630

635

640

Ala

Leu

Ser

Leu

Glu

Asp

Ala

Val

Ala

íle

Cys

Arg

Ser

Arg

64 5

650

655

Leu

Arg

íle

Ser

Gly

Gin

Gly

Glu

Met

Ala

Val

Thr

Glu

Leu

660

665

670

Ser

Leu

Ala

Glu

Ala

Glu

Ala

Leu

Arg

Gly

Tyr

Glu

Asp

Arg

Val

675

680

685

Ser

Val

Ala

Val

Ser

Asn

Ser

Pro

Arg

Ser

Thr

Val

Leu

Ser

Gly

Glu

690

695

700

Pro

Ala

íle

Gly

Glu

Val

Leu

Ser

Leu

Asn

Ala

Lys

Gly

Val

705

710

715

720

Phe

Cys

Arg

Val

Lys

Val

Asp

Val

Ala

Ser

His

Ser

Pro

Gin

Val

725

730

735

Asp

Pro

Leu

Arg

Glu

Asp

Leu

Ala

Leu

Gly

Leu

Arg

Pro

740

745

750

Gly

Ala

Val

Pro

Met

Arg

Ser

Thr

Val

Thr

Gly

Ala

Met

Val

755

760

765

Ala

Gly

Pro

Glu

Leu

Gly

Ala

Asn

Tyr

Trp

Met

Asn

Leu

Arg

Gin

770

775

780

Pro

Val

Arg

Phe

Ala

Glu

Val

Gin

Ala

Gin

Leu

Gin

Gly

His

785

790

795

800

Gly

Leu

Phe

Val

Glu

Met

Ser

Pro

His

Pro

íle

Leu

Thr

Ser

Val

805

810

815

Glu

Met

Arg

Ala

Gin

Arg

Ala

Gly

Ala

Val

Gly

Ser

820

825

830

Leu

Arg

Gly

Gin

Asp

Glu

Arg

Pro

Ala

Met

Leu

Glu

Ala

Leu

Gly

835

840

845

···· ···

111 ·· ·· ·· • · · · · · · • · 9 99

9 9 9 9 99

9 9 99

9999 999

999

Thr Leu Trp Ala 850

Gin

Gly Tyr Pro Val Pro Trp Gly Arg Leu Phe

Pro

855

860

Ala

Gly

Arg

Val

Pro

Leu

Pro

Thr

Tyr

Pro

Trp

Gin

Arg

Glu

865

870

875

880

Arg

Tyr

Trp

íle

Glu

Ala

Pro

Ala

Lys

Ser

Ala

Gly

Asp

Arg

885

890

895

Gly

Val

Arg

Ala

Gly

His

Pro

Leu

Gly

Glu

Met

Gin

Thr

Leu

900

905

910

Ser

Thr

Gin

Thr

Ser

Thr

Arg

Leu

Trp

Glu

Thr

Leu

Asp

Leu

Lys

915

920

925

Arg

Leu

Pro

Trp

Leu

Gly

Asp

His

Arg

Val

Gin

Gly

Ala

Val

Phe

930

935

940

Pro

Gly

Ala

Tyr

Leu

Glu

Met

Ala

íle

Ser

Gly

Ala

Glu

Ala

945

950

955

960

Leu

Gly

Asp

Gly

Pro

Leu

Gin

íle

Thr

Asp

Val

Leu

Ala

Glu

Ala

965

970

975

Leu

Ala

Phe

Ala

Gly Asp

Ala

Val

Leu

Val

Gin

Val

Thr

980

985

990

Glu

Gin

Pro

Ser

Gly

Arg

Leu

Gin

Phe

Gin

íle

Ala

Ser

Arg

Ala

Pro

995

1000

1005

Gly

Ala

Gly

His

Ala

Ser

Phe

Arg

Val

His

Ala

Arg

Gly

Ala

Leu

1010

1015

1020

Arg Val

Glu

Arg

Thr

Glu

Val

Pro

Ala

Gly

Leu

Thr

Leu

Ser

Ala

Val

1025

1030

1035

1040

Arg

Ala

Arg

Leu

Gin

Ala

Ser

íle

Pro

Ala

Thr

Tyr

Ala

Glu

1045

1050

1055

Leu

Thr

Glu

Met

Gly

Leu

Gin

Tyr

Gly

Pro

Ala

Phe

Gin

Gly

íle

Ala

1060

1065

1070

Glu

Leu

Trp

Arg

Gly

Glu

Gly

Glu

Ala

Leu

Gly

Arg

Val

Arg

Leu

Pro

1075

1080

1085

Asp

Ala

Gly

Ser

Ala

Glu

Tyr

Arg

Leu

His

Pro

Ala

Leu

1090

1095

1100

Asp Ala

Cys

Phe

Gin

íle

Val

Gly

Ser

Leu

Phe

Ala

Arg

Ser

Gly

Glu

1105

1110

1115

1120

Ala

Thr

Pro

Trp

Val

Pro

Val

Glu

Leu

Gly

Ser

Leu

Arg

Leu

Gin

1125

1130

1135

Arg

Pro

Ser

Gly

Glu

Leu

Trp

Cys

His

Ala

Arg

Val

Asn

His

Gly

1140

1145

1150

His

Gin

Thr

Pro

Asp

Arg

Gin

Gly Ala

Asp

Phe

Trp

Val

Asp

Ser

1155 1160 1165

Ser Gly Ala Val Val Ala Glu Val Cys Gly Leu Val Ala Gin Arg Leu 1170 1175 1180 ··

112

Pro Gly Gly 1185	Val	Arg Arg 1190	Arg	Glu Glu	Asp Asp Trp 1195	Phe	Leu	Glu Leu 1200
Glu Trp Glu	Pro	Ala Ala	Val	Gly Thr	Ala Lys Val	Asn	Ala	Gly Arg
	1205		1210		1215
Trp Leu Leu	Leu	Gly Gly	Gly	Gly Gly	Leu Gly Ala	Ala	Leu	Arg Ala
	1.220			1225		1230
Met Leu Glu	Ala	Gly Gly	His	Ala Val	Val His Ala	Ala	Glu	Asn Asn
1235			1240	1245
Thr Ser Ala	Ala	Gly Val	Arg	Ala Leu	Leu Ala Lys	Ala	Phe	Asp Gly
1250		1255		1260
Gin Ala Pro	Thr	Ala Val	Val	His Leu	Gly Ser Leu	Asp	Gly	Gly Gly
1265		1270			1275			1280
Glu Leu Asp	Pro	Gly Leu	Gly	Ala Gin	Gly Ala Leu	Asp	Ala	Pro Arg
	1285		1290		1295
Ser Ala Asp	Val	Ser Pro	Asp	Ala Leu	Asp Pro Ala	Leu	Val	Arg Gly
1300			1305		1310
Cys Asp Ser	Val	Leu Trp	Thr	Val Gin	Ala Leu Ala	Gly	Met	Gly Phe
1315			1320	1325
Arg Asp Ala	Pro	Arg Leu	Trp	Leu Leu	Thr Arg Gly	Ala	Gin	Ala Val
1330		1335		1340
Gly Ala Gly	Asp	Val Ser	Val	Thr Gin	Ala Pro Leu	Leu	Gly	Leu Gly
1345		1350			1355			1360
Arg Val íle	Ala	Met Glu	His	Ala Asp	Leu Arg Cys	Ala	Arg	Val Asp
	1365		1370		1375
Leu Asp Pro	Ala	Arg Pro	Glu	Gly Glu	Leu Ala Ala	Leu	Leu	Ala Glu
1380			1385		1390
Leu Leu Ala	Asp	Asp Ala	Glu	Ala Glu	Val Ala Leu	Arg	Gly	Gly Glu
1395			1400	1405
Arg Cys Val	Ala	Arg íle	Val	Arg Arg	Gin Pro Glu	Thr	Arg	Pro Arg
1410		1415		1420
Gly Arg íle	Glu	Ser Cys	Val	Pro Thr	Asp Val Thr	íle	Arg	Ala Asp
1425		1430			1435			1440
Ser Thr Tyr	Leu	Val Thr	Gly	Gly Leu	Gly Gly Leu	Gly	Leu	Ser Val
	1445		1450		1455
Ala Gly Trp	Leu	Ala Glu	Arg	Gly Ala	Gly His Leu	Val	Leu	Val Gly
14 60			1465		1470
Arg Ser Gly	Ala	Ala Ser	Val	Glu Gin	Arg Ala Ala	Val	Ala	Ala Leu
1475			1480	1485
Glu Ala Arg	Gly	Ala Arg	Val	Thr Val	Ala Lys Ala Asp	Val	Ala Asp

1490 1495 1500

Arg Ala Gin Leu Glu Arg íle Leu Arg Glu Val Thr Thr Ser Gly Met 1505 1510 1515 1520 ····

113

Pro Leu Arg Gly Val	Val His	Ala	Ala Gly 1530	íle Leu	Asp	Asp Gly 1535	Leu
	1525
Leu Met	Gin Gin Thr	Pro Ala	Arg	Phe Arg	Lys Val	Met	Ala Pro	Lys
	1540		1545		1550
Val Gin	Gly Ala Leu	His Leu	His	Ala Leu	Thr Arg	Glu	Ala Pro	Leu
1555	1560		1565
Ser Phe	Phe Val Leu	Tyr Ala	Ser	Gly Val	Gly Leu	Leu	Gly Ser	Pro
1570		1575			1580
Gly Gin	Gly Asn Tyr	Ala Ala	Ala	Asn Thr	Phe Leu	Asp	Ala Leu	Ala
1585	1590		1595		1600
His His	Arg Arg Ala	Gin Gly	Leu	Pro Ala	Leu Ser	Val	Asp Trp	Gly
	1605			1610			1615
Leu Phe	Ala Glu Val	Gly Met	Ala	Ala Ala	Gin Glu	Asp	Arg Gly	Ala
	1620		1625		1630
Arg Leu	Val Ser Arg	Gly Met	Arg	Ser Leu	Thr Pro	Asp	Glu Gly	Leu
1635	1640		1645
Ser Ala	Leu Ala Arg	Leu Leu	Glu	Ser Gly	Arg Ala	Gin	Val Gly	Val
1650		1655			1660
Met Pro	Val Asn Pro	Arg Leu	Trp	Val Glu	Leu Tyr	Pro	Ala Ala	Ala
1665	1670		1675		1680
Ser Ser	Arg Met Leu	Ser Arg	Leu	Val Thr	Ala His	Arg	Ala Ser	Ala
	1685			1690			1695
Gly Gly	Pro Ala Gly	Asp Gly	Asp	Leu Leu	Arg Arg	Leu	Ala Ala	Ala
	1700		1705		1710
Glu Pro	Ser Ala Arg	Ser Ala	Leu	Leu Glu	Pro Leu	Leu	Arg Ala	Gin
1715	1720		1725
íle Ser	Gin Val Leu	Arg Leu	Pro	Glu Gly	Lys íle	Glu	Val Asp	Ala
1730		1735			1740
Pro Leu	Thr Ser Leu	Gly Met	Asn	Ser Leu	Met Gly	Leu	Glu Leu	Arg
1745	1750		1755		1760
Asn Arg	íle Glu Ala	Met Leu	Gly	íle Thr	Val Pro	Ala	Thr Leu	Leu
	1765			1770			1775
Trp Thr	Tyr Pro Thr	Val Ala	Ala	Leu Ser	Gly His	Leu	Ala Arg	Glu
	1780		1785		1790
Ala Cys	Glu Ala Ala	Pro Val	Glu	Ser Pro	His Thr	Thr	Ala Asp	Ser
1795	1800		1805
Ala Val	Glu íle Glu	Glu Met	Ser	Gin Asp	Asp Leu	Thr	Gin Leu	íle

1810 1815 1820

Ala Ala Lys Phe Lys Ala Leu Thr

1825 1830 ··

114 <210> 5 <211> 7257 <212> PRT <213> Sorangium cellulosum <400> 5

Met Thr Thr Arg Gly Pro

Thr Ala

Gin Gin Asn Pro Leu Lys Gin Ala

1

5

10

15

Ala

íle

Gin

Arg

Leu

Glu

Arg

Leu

Ala

Gly

Leu

Ala

Gin

20

25

30

Ala

Glu

Leu

Glu

Arg

Thr

Glu

Pro

íle

Ala

íle

Val

Gly

íle

Gly

Cys

35

40

45

Arg

Phe

Pro

Gly

Ala

Asp

Ala

Pro

Glu

Ala

Phe

Trp

Glu

Leu

50

55

60

Asp

Ala

Glu

Arg

Asp

Ala

Val

Gin

Pro

Leu

Asp

Met

Arg

Trp

Ala

Leu

65

70

75

80

Val

Gly

Val

Ala

Pro

Val

Glu

Ala

Val

Pro

His

Trp

Ala

Gly

Leu

85

90

95

Thr

Glu

Pro

íle

Asp

Cys

Phe

Asp

Ala

Phe

Gly

íle

Ser

Pro

100

105

110

Arg

Glu

Ala

Arg

Ser

Leu

Asp

Pro

Gin

His

Arg

Leu

Glu

Val

115

120

125

Ala

Trp

Glu

Gly

Leu

Glu

Asp

Ala

Gly

íle

Pro

Arg

Ser

íle

Asp

130

135

140

Gly

Ser

Arg

Thr

Gly

Val

Phe

Val

Gly

Ala

Phe

Thr

Ala

Asp

Tyr

Ala

145

150

155

160

Arg

Thr

Val

Ala

Arg

Leu

Pro

Arg

Glu

Arg

Asp

Ala

Tyr

Ser

Ala

165

170

175

Thr

Gly

Asn

Met

Leu

Ser

íle

Ala

Gly

Arg

Leu

Ser

Tyr

Thr

Leu

180

185

190

Gly

Leu

Gin

Gly

Pro

Cys

Leu

Thr

Val

Asp

Thr

Ala

Cys

Ser

195

200

205

Leu

Val

Ala

íle

His

Leu

Ala

Cys

Arg

Ser

Leu

Arg

Ala

Gly

Glu

Ser

210

215

220

Asp

Leu

Ala

Leu

Ala

Gly

Val

Ser

Ala

Leu

Ser

Pro

Asp

Met

225

230

235

240

Met

Glu

Ala

Arg

Thr

Gin

Ala

Leu

Ser

Pro

Asp

Gly

Arg

Cys

245

250

255

Arg

Thr

Phe

Asp

Ala

Ser

Ala

Asn

Gly

Phe

Val

Arg

Gly

Glu

Gly

Cys

260

265

270

Gly

Leu

Val

Leu

Lys

Arg

Leu

Ser

Asp

Ala

Gin

Arg

Asp

Gly

Asp

275

280

285

Arg

íle

Trp

Ala

Leu

íle

Arg

Gly

Ser

Ala

íle

Asn

His

Asp

Gly

Arg

290

295

300

115

• ····	·· ··	··	•
• · ·	• · · ·	•	•	• ·
• ···	• · ·	•	•	•
• ·	• · · ·	• ·	•	•
• ·	• · ·	•	•	•
······	·· ····	··	···

Ser Thr Gly Leu Thr Ala

Pro Asn

Val Leu

Ala Gin Glu Thr Val Leu

305

310

315

320

Arg

Glu

Ala

Leu

Arg

Ser

Ala

His

Val

Glu

Ala

Gly

Ala

Val

Asp

Tyr

325

330

335

Val

Glu

Thr

His

Gly

Thr

Gly

Thr

Ser

Leu

Gly

Asp

Pro

íle

Glu

Val

340

345

350

Glu

Ala

Leu

Arg

Ala

Thr

Val

Gly

Pro

Ala

Arg

Ser

Asp

Gly

Thr

Arg

355

360

365

Cys

Val

Leu

Gly

Ala

Val

Lys

Thr

Asn

íle

Gly

His

Leu

Glu

Ala

370

375

380

Ala

Gly

Val

Ala

Gly

Leu

íle

Lys

Ala

Leu

Ser

Leu

Thr

His

Glu

385

390

395

400

Arg

íle

Pro

Arg

Asn

Leu

Asn

Phe

Arg

Thr

Leu

Asn

Pro

Arg

íle

Arg

405

410

415

Leu

Glu

Gly

Ser

Ala

Leu

Ala

Leu

Ala

Thr

Glu

Pro

Val

Pro

Trp

Pro

420

425

430

Arg

Thr

Asp

Arg

Pro

Arg

Phe

Ala

Gly

Val

Ser

Phe

Gly

Met

Ser

435

440

445

Gly

Thr

Asn

Ala

His

Val

Leu

Glu

Ala

Pro

Ala

Val

Glu

Leu

450

455

460

Trp

Pro

Ala

Pro

Glu

Arg

Ser

Ala

Glu

Leu

Val

Leu

Ser

Gly

465

470

475

480

Lys

Ser

Glu

Gly

Ala

Leu

Asp

Ala

Gin

Ala

Arg

Leu

Arg

Glu

His

485

490

495

Leu

Asp

Met

His

Pro

Glu

Leu

Gly

Leu

Gly

Asp

Val

Ala

Phe

Ser

Leu

500

505

510

Ala

Thr

Arg

Ser

Ala

Met

Ser

His

Arg

Leu

Ala

Val

Ala

Val

Thr

515

520

525

Ser

Arg

Glu

Gly

Leu

Ala

Leu

Ser

Ala

Val

Ala

Gin

Gly

Gin

530

535

540

Thr

Pro

Ala

Gly

Ala

Arg

Cys

íle

Ala

Ser

Arg

Gly

Lys

545

550

555

560

Leu

Ala

Phe

Leu

Phe

Thr

Gly

Gin

Gly

Ala

Gin

Thr

Pro

Gly

Met

Gly

565

570

575

Arg

Gly

Leu

Cys

Ala

Trp

Pro

Ala

Phe

Arg

Glu

Ala

Phe

Asp

Arg

580

585

590

Cys

Val

Ala

Leu

Phe

Asp

Arg

Glu

Leu

Asp

Arg

Pro

Leu

Arg

Glu

Val

595

600

605

Met

Trp

Ala

Glu

Ala

Gly

Ser

Ala

Glu

Ser

Leu

Asp

Gin

Thr

610

615

620

Ala

Phe

Thr

Gin

Pro

Ala

Leu

Phe

Ala

Val

Glu

Tyr

Ala

Leu

Thr

Ala

625

630

635

640

116

•	····	··	··	··	•
• ·	•	•	•	• ·	•	•	• ·
•	··	• ·	•	•	•	•
•	•	• ·	•	• ·	•	•	•
•	•	• ·	•	•	•	•
		• ·	····	··	···

Leu

Trp

Arg Ser Trp Gly Val Glu Pro Glu Leu Leu Val Gly His Ser

645

650

655

íle

Gly

Glu

Leu

Val

Ala

Cys

Val

Ala

Gly

Val

Phe

Ser

Leu

Glu

660

665

670

Asp

Gly

Val

Arg

Leu

Val

Ala

Arg

Gly

Arg

Leu

Met

Gin

Gly

Leu

675

680

685

Ser

Ala

Gly

Ala

Met

Val

Ser

Leu

Gly

Ala

Pro

Glu

Ala

Glu

Val

690

695

700

Ala

Val

Ala

Pro

His

Ala

Ser

Val

Ser

íle

Ala

Val

705

710

715

720

Asn

Gly

Pro

Glu

Gin

Val

íle

Ala

Gly

Val

Glu

Gin

Ala

Val

Gin

725

730

735

Ala

íle

Ala

Gly

Phe

Ala

Arg

Gly

Ala

Arg

Thr

Lys

Arg

Leu

740

745

750

His

Val

Ser

His

Ala

Phe

His

Ser

Pro

Leu

Met

Glu

Pro

Met

Leu

Glu

755

760

765

Glu

Phe

Gly

Arg

Val

Ala

Ser

Val

Thr

Tyr

Arg

Pro

Ser

Val

770

775

780

Ser

Leu

Val

Ser

Asn

Leu

Ser

Gly

Lys

Val

Thr

Asp

Glu

Leu

Ser

785

790

795

800

Ala

Pro

Gly

Tyr

Trp

Val

Arg

His

Val

Arg

Glu

Ala

Val

Arg

Phe

Ala

805

810

815

Asp

Gly

Val

Lys

Ala

Leu

His

Glu

Ala

Gly

Ala

Gly

Thr

Phe

Val

Glu

820

825

830

Val

Gly

Pro

Lys

Pro

Thr

Leu

Gly

Leu

Pro

Ala

Cys

Leu

Pro

835

840

845

Glu

Ala

Glu

Pro

Thr

Leu

Ala

Ser

Leu

Arg

Ala

Gly

Arg

Glu

850

855

860

Ala

Gly

Val

Leu

Glu

Ala

Leu

Gly

Arg

Leu

Trp

Ala

Gly

865

870

875

880

Ser

Val

Ser

Trp

Pro

Gly

Val

Phe

Pro

Thr

Ala

Gly

Arg

Val

Pro

885

890

895

Leu

Pro

Thr

Tyr

Pro

Trp

Gin

Arg

Gin

Arg

Tyr

Trp

íle

Glu

Ala

Pro

900

905

910

Ala

Glu

Gly

Leu

Gly

Ala

Thr

Ala

Asp

Ala

Leu

Ala

Gin

Trp

Phe

915

920

925

Tyr

Arg

Val

Asp

Trp

Pro

Glu

Met

Pro

Arg

Ser

Val

Asp

Ser

Arg

930

935

940

Arg

Ala

Arg

Ser

Gly

Trp

Leu

Val

Leu

Ala

Asp

Arg

Gly

Val

945

950

955

960

Gly

Glu

Ala

Leu

Ser

Gin

Gly

Cys

Ser

Cys

Ala

965 970 975 ····

117

Val Leu His Ala	Pro Ala Glu Ala Ser Ala Val Ala Glu Gin Val Thr
	980	985	990
Gin Ala	Leu C-ly	Gly Arg Asn Asp Trp	Gin Gly Val Leu Tyr Leu Trp
	995	1000	1005
Gly Leu	Asp Ala	Val Val Glu Ala Gly	Ala Ser Ala Glu Glu Val Ala
1010		1015	1020
Lys Val	Thr His	Leu Ala Ala Ala Pro	Val Leu Ala Leu íle Gin Ala
1025		1030	1035 1040
Leu Gly	Thr Gly	Pro Arg Ser Pro Arg	Leu Trp íle Val Thr Arg Gly
	1045 1050 1055
Ala Cys	Thr Val	Gly Gly Glu Pro Asp	Ala Ala Pro Cys Gin Ala Ala
	1060	1065	1070
Leu Trp	Gly Met	Gly Arg Val Ala Ala	Leu Glu His Pro Gly Ser Trp
1075	1080	1085
Gly Gly	Leu Val	Asp Leu Asp Pro Glu	Glu Ser Pro Thr Glu Val Glu
1090		1095	1100
Ala Leu	Val Ala	Glu Leu Leu Ser Pro	Asp Ala Glu Asp Gin Leu Ala
1105		1110	1115 1120
Phe Arg	Gin Gly	Arg Arg Arg Ala Ala	Arg Leu Val Ala Ala Pro Pro
	1125	L130 1135
Glu Gly	Asn Ala	Ala Pro Val Ser Leu	Ser Ala Glu Gly Ser Tyr Leu
	1140	1145	1150
Val Thr	Gly Gly	Leu Gly Ala Leu Gly	Leu Leu Val Ala Arg Trp Leu
1155	1160	1165
Val Glu	Arg Gly	Ala Gly His Leu Val	Leu íle Ser Arg His Gly Leu
1170		1175	1180
Pro Asp	Arg Glu	Glu Trp Gly Arg Asp	Gin Pro Pro Glu Val Arg Ala
1185		1190	1195 1200
Arg íle	Ala Ala	íle Glu Ala Leu Glu	Ala Gin Gly Ala Arg Val Thr
	1205 1210 1215
Val Ala	Ala Val	Asp Val Ala Asp Ala	Glu Gly Met Ala Ala Leu Leu
	1220	1225	1230
Ala Ala	Val Glu	Pro Pro Leu Arg Gly	Val Val His Ala Ala Gly Leu
1235	1240	1245
Leu Asp	Asp Gly	Leu Leu Ala His Gin	Asp Ala Gly Arg Leu Ala Arg
1250		1255	1260
Val Leu	Arg Pro	Lys Val Glu Gly Ala	Trp Val Leu His Thr Leu Thr
1265		1270	1275 1280
Arg Glu	Gin Pro	Leu Asp Leu Phe Val	Leu Phe Ser Ser Ala Ser Gly

1285 1290 1295

Val Phe Gly Ser íle Gly Gin Gly Ser Tyr Ala Ala Gly Asn Ala Phe

1300 1305 1310

118

····	··	··	··	•
•	• ·	• ·	• ·	• ·
···	• ·	•	• ·	•
•	• · ·	•	• · ·	•
•	• ·	•	• ·	•
···	··	····	··	···

Leu	Asp Ala 1315	Leu	Ala	Asp	Leu Arg Arg Thr 1320	Gin Gly Leu 1325	Ala Ala	Leu
Ser	íle Ala	Trp	Gly	Leu	Trp Ala Glu Gly	Gly Met Gly	Ser Gin	Ala
1330			1335	1340
Gin	Arg Arg	Glu	His	Glu	Ala Ser Gly íle	Trp Ala Met	Pro Thr	Ser
1345		1350	1355	1360
Arg	Ala Leu	Ala	Ala	Met	Glu Trp Leu Leu	Gly Thr Arg	Ala Thr	Gin
		1365		1370		1375
Arg	Val Val	íle	Gin	Met	Asp Trp Ala His	Ala Gly Ala	Ala Pro	Arg
	1380			1385	1390
Asp	Ala Ser	Arg	Gly	Arg	Phe Trp Asp Arg	Leu Val Thr	Ala Thr	Lys
	1395				1400	1405
Glu	Ala Ser	Ser	Ser	Ala	Val Pro Ala Val	Glu Arg Trp	Arg Asn	Ala
1410			1415	1420
Ser	Val Val	Glu	Thr	Arg	Ser Ala Leu Tyr	Glu Leu Val	Arg Gly	Val
1425		1430	1435	1440
Val	Ala Gly	Val	Met	Gly	Phe Thr Asp Gin	Gly Thr Leu	Asp Val	Arg
		1445		1450		1455
Arg	Gly Phe	Ala	Glu	Gin	Gly Leu Asp Ser	Leu Met Ala	Val Glu	íle
	14 60			1465	1470
Arg	Lys Arg	Leu	Gin	Gly	Glu Leu Gly Met	Pro Leu Ser	Ala Thr	Leu
	1475				1480	1485
Ala	Phe Asp	His	Pro	Thr	Val Glu Arg Leu	Val Glu Tyr	Leu Leu	Ser
1490			1495	1500
Gin	Ala Leu	Glu	Leu	Gin	Asp Arg Thr Asp	Val Arg Ser	Val Arg	Leu
1505		1510	1515	1520
Pro	Ala Thr	Glu	Asp	Pro	íle Ala íle Val	Gly Ala Ala	Cys Arg	Phe
		1525		1530		1535
Pro	Gly Gly	Val	Glu	Asp	Leu Glu Ser Tyr	Trp Gin Leu	Leu Thr	Glu
	1540			1545	1550
Gly	Val Val	Val	Ser	Thr	Glu Val Pro Ala	Asp Arg Trp	Asn Gly	Ala
	1555				1560	1565
Asp	Gly Arg	Val	Pro	Gly	Ser Gly Glu Ala	Gin Arg Gin	Thr Tyr	Val
1570			1575	1580
Pro	Arg Gly	Gly	Phe	Leu	Arg Glu Val Glu	Thr Phe Asp	Ala Ala	Phe
1585		1590	1595	1600
Phe	His íle	Ser	Pro	Arg	Glu Ala Met Ser	Leu Asp Pro	Gin Gin	Arg
		1605		1610		1615
Leu	Leu Leu	Glu	Val	Ser	Trp Glu Ala íle	Glu Arg Ala	Gly Gin	Asp

1620 1625 1630

Pro Ser Ala Leu Arg Glu Ser Pro Thr Gly Val Phe Val Gly Ala Gly 1635 1640 1645 ····

119

Pro Asn 1650	Glu	Tyr Ala	Glu Arg Val 1655	Gin	Glu Leu Ala 1660	Asp	Glu Ala	Ala
Gly Leu	Tyr	Ser Gly	Thr Gly Asn	Met	Leu Ser Val	Ala	Ala Gly	Arg
1665			1670		1675			1680
Leu Ser	Phe	Phe Leu	Gly Leu His	Gly	Pro Thr Leu	Ala	Val Asp	Thr
		1685			1690		1695
Ala Cys	Ser	Ser Ser	Leu Val Ala	Leu	His Leu Gly	Cys	Gin Ser	Leu
	1700	1705			1710
Arg Arg	Gly	Glu Cys	Asp Gin Ala	Leu	Val Gly Gly	Val	Asn Met	Leu
	1715		1720			1725
Leu Ser	Pro	Lys Thr	Phe Ala Leu	Leu	Ser Arg Met	His	Ala Leu	Ser
1730			1735		1740
Pro Gly	Gly	Arg Cys	Lys Thr Phe	Ser	Ala Asp Ala	Asp	Gly Tyr	Ala
1745			1750		1755			1760
Arg Ala	Glu	Gly Cys	Ala Val Val	Val	Leu Lys Arg	Leu	Ser Asp	Ala
		1765			1770		1775
Gin Arg	Asp	Arg Asp	Pro íle Leu	Ala	Val íle Arg	Gly	Thr Ala	íle
	1780	1785		1790
Asn His	Asp	Gly Pro	Ser Ser Gly	Leu	Thr Val Pro	Ser	Gly Pro	Ala
	17 95		1800		1805
Gin Glu	Ala	Leu Leu	Arg Gin Ala	Leu	Ala His Ala	Gly	Val Val	Pro
1810			1815		1820
Ala Asp	Val	Asp Phe	Val Glu Cys	His	Gly Thr Gly	Thr	Ala Leu	Gly
1825		1830		1835			1840
Asp Pro	íle	Glu Val	Arg Ala Leu	Ser	Asp Val Tyr	Gly	Gin Ala	Arg
		1845		1850		1855
Pro Ala	Asp	Arg Pro	Leu íle Leu	Gly	Ala Ala Lys	Ala	Asn Leu	Gly
	1860	1865		1870
His Met	Glu	Pro Ala	Ala Gly Leu	Ala	Gly Leu Leu	Lys	Ala Val	Leu
1875		1880		1885
Ala Leu	Gly	Gin Glu	Gin íle Pro	Ala	Gin Pro Glu	Leu	Gly Glu	Leu
1890			1895		1900
Asn Pro	Leu	Leu Pro	Trp Glu Ala	Leu	Pro Val Ala	Val	Ala Arg	Ala
1905		1910		1915		1920
Ala Val	Pro	Trp Pro	Arg Thr Asp	Arg	Pro Arg Phe	Ala	Gly Val	Ser
		1925		1930		1935
Ser Phe	Gly	Met Ser	Gly Thr Asn	Ala	His Val Val	Leu	Glu Glu	Ala
		1940	1945		1950
Pro Ala	Val	Glu Leu	Trp Pro Ala	Ala	Pro Glu Arg	Ser	Ala Glu	Leu
1955		1960		1965

Leu Val Leu Ser Gly Lys Ser Glu Gly Ala Leu Asp Ala Gin Ala Ala 1970 1975 1980 ····

120

Arg Leu 1985	Arg	Glu His Leu 1990	Asp Met	His	Pro Glu 1995	Leu Gly	Leu	Gly Asp 2000
Val Ala	Phe	Ser Leu Ala	Thr Thr	Arg	Ser Ala	Met Asn	His	Arg Leu
		2005		2010		2015
Ala Val	Ala	Val Thr Ser	Arg Glu	Gly	Leu Leu	Ala Ala	Leu	Ser Ala
	2020	2025		2030
Val Ala	Gin	Gly Gin Thr	Pro Pro	Gly	Ala Ala	Arg Cys	íle	Ala Ser
2035		2040			2045
Ser Ser	Arg	Gly Lys Leu	Ala Phe	Leu	Phe Thr	Gly Gin	Gly	Ala Gin
2050		2055		2060
Thr Pro	Gly	Met Gly Arg	Gly Leu	Cys	Ala Ala	Trp Pro	Ala	Phe Arg
2065		2070			2075			2080
Glu Ala	Phe	Asp Arg Cys	Val Ala	Leu	Phe Asp	Arg Glu	Leu	Asp Arg
		2085		2090		2095
Pro Leu	Arg	Glu Val Met	Trp Ala	Glu	Pro Gly	Ser Ala	Glu	Ser Leu
	2100	2105		2110
Leu Leu	Asp	Gin Thr Ala	Phe Thr	Gin	Pro Ala	Leu Phe	Thr	Val Glu
2115		2120			2125
Tyr Ala	Leu	Thr Ala Leu	Trp Arg	Ser	Trp Gly	Val Glu	Pro	Glu Leu
2130		2135		2140
Val Ala	Gly	His Ser Ala	Gly Glu	Leu	Val Ala	Ala Cys	Val	Ala Gly
2145		2150			2155			2160
Val Phe	Ser	Leu Glu Asp	Gly Val	Arg	Leu Val	Ala Ala	Arg	Gly Arg
		2165		2170		2175
Leu Met	Gin	Gly Leu Ser	Ala Gly	Gly	Ala Met	Val Ser	Leu	Gly Ala
	2180	2185		2190
Pro Glu	Ala	Glu Val Ala	Ala Ala	Val	Ala Pro	His Ala	Ala	Ser Val
2195		2200			2205
Ser íle	Ala	Ala Val Asn	Gly Pro	Glu	Gin Val	Val íle	Ala	Gly Val
2210		2215		2220
Glu Gin	Ala	Val Gin Ala	íle Ala	Ala	Gly Phe	Ala Ala	Arg	Gly Ala
2225		2230			2235			2240
Arg Thr	Lys	Arg Leu His	Val Ser	His	Ala Ser	His Ser	Pro	Leu Met
		2245		2250		2255
Glu Pro	Met	Leu Glu Glu	Phe Gly	Arg	Val Ala	Ala Ser	Val	Thr Tyr
	2260	2265		2270
Arg Arg	Pro	Ser Val Ser	Leu Val	Ser	Asn Leu	Ser Gly	Lys	Val Val
2275		2280			2285
Ala Asp Glu	Leu Ser Ala	Pro Gly	Tyr	Trp Val	Arg His	Val	Arg Glu

2290 2295 2300

Ala Val Arg Phe Ala Asp Gly Val Lys Ala Leu His Glu Ala Gly Ala 2305 2310 2315 2320

121

Gly Thr Phe Val	Glu Val Gly Pro Lys	Pro Thr Leu Leu Gly	Leu Leu
	2325 ;	2330 ;	2335
Pro Ala Cys Leu 2340	Pro Glu Ala Glu Pro 2345	Thr Leu Leu Ala Ser 2350	Leu Arg
Ala Gly Arg Glu 2355	Glu Ala Ala Gly Val 2360	Leu Glu Ala Leu Gly 2365	Arg Leu
Trp Ala Ala Gly 2370	Gly Ser Val Ser Trp 2375	Pro Gly Val Phe Pro 2380	Thr Ala
Gly Arg Arg Val	Pro Leu Pro Thr Tyr	Pro Trp Gin Arg Gin	Arg Tyr
2385	2390	2395	2400
Trp Pro Asp Íle	Glu Pro Asp Ser Arg	Arg His Ala Ala Ala	Asp Pro
2405 2410 2415
Thr Gin Gly Trp 2420	Phe Tyr Arg Val Asp 2425	Trp Pro Glu íle Pro 2430	Arg Ser
Leu Gin Lys Ser 2435	Glu Glu Ala Ser Arg 2440	Gly Ser Trp Leu Val 2445	Leu Ala
Asp Lys Gly Gly 2450	Val Gly Glu Ala Val 2455	Ala Ala Ala Leu Ser 2460	Thr Arg
Gly Leu Pro Cys	Val Val Leu His Ala	Pro Ala Glu Thr Ser	Ala Thr
2465	2470	2475	2480
Ala Glu Leu Val	Thr Glu Ala Ala Gly	Gly Arg Ser Asp Trp	Gin Val
2485 2490 2495
Val Leu Tyr Leu 2500	Trp Gly Leu Asp Ala 2505	Val Val Gly Ala Glu 2510	Ala Ser
íle Asp Glu íle 2515	Gly Asp Ala Thr Arg 2520	Arg Ala Thr Ala Pro 2525	Val Leu
Gly Leu Ala Arg 2530	Phe Leu Ser Thr Val 2535	Ser Cys Ser Pro Arg 2540	Leu Trp
Val Val Thr Arg	Gly Ala Cys íle Val	Gly Asp Glu Pro Ala	íle Ala
2545	2550	2555	2560
Pro Cys Gin Ala	Ala Leu Trp Gly Met	Gly Arg Val Ala Ala	Leu Glu
2565 2570 2575
His Pro Gly Ala 2580	Trp Gly Gly Leu Val 2585	Asp Leu Asp Pro Arg 2590	Ala Ser
Pro Pro Gin Ala 2595	Ser Pro íle Asp Gly 2600	Glu Met Leu Val Thr 2605	Glu Leu
Leu Ser Gin Glu 2610	Thr Glu Asp Gin Leu 2615	Ala Phe Arg His Gly 2620	Arg Arg
His Ala Ala Arg	Leu Val Ala Ala Pro	Pro Gin Gly Gin Ala	Ala Pro
2625	2630	2635	2640
Val Ser Leu Ser	Ala Glu Ala Ser Tyr	Leu Val Thr Gly Gly	Leu Gly

2645 2650 2655 ···· • ·

122

Gly Leu Gly Leu	íle Val	Ala Gin Trp 2665	Leu Val Glu	Leu Gly 2670	Ala	Arg
	2660
His Leu	Val Leu	Thr Ser	Arg Arg Gly	Leu Pro Asp	Arg Gin	Ala	Trp
2675		2680	2685
Cys Glu	Gin Gin	Pro Pro	Glu íle Arg	Ala Arg íle	Ala Ala	Val	Glu
2690		2695	2700
Ala Leu	Glu Ala	Arg Gly	Ala Arg Val	Thr Val Ala	Ala Val	Asp	Val
2705		2710		2715		2720
Ala Asp	Val Glu	Pro Met	Thr Ala Leu	Val Ser Ser	Val Glu	Pro	Pro
	2725	2730	2735
Leu Arg	Gly Val	Val His	Ala Ala Gly	Val Ser Val	Met Arg	Pro	Leu
	2740		2745		2750
Ala Glu	Thr Asp	Glu Thr	Leu Leu Glu	Ser Val Leu	Arg Pro	Lys	Val
2755		2760	2765
Ala Gly	Ser Trp	Leu Leu	His Arg Leu	Leu His Gly	Arg Pro	Leu	Asp
2770		2775	2780
Leu Phe	Val Leu	Phe Ser	Ser Gly Ala	Ala Val Trp	Gly Ser	His	Ser
2785		2790		2795		2800
Gin Gly	Ala Tyr	Ala Ala	Ala Asn Ala	Phe Leu Asp	Gly Leu	Ala	His
	2805	2810	2815
Leu Arg	Arg Ser	Gin Ser	Leu Pro Ala	Leu Ser Val	Ala Trp	Gly	Leu
	2320		2825		2830
Trp Ala	Glu Gly	Gly Met	Ala Asp Ala	Glu Ala His	Ala Arg	Leu	Ser
2835		2840	2845
Asp íle	Gly Val	Leu Pro	Met Ser Thr	Ser Ala Ala	Leu Ser	Ala	Leu
2850		2855	2860
Gin Arg	Leu Val	Glu Thr	Gly Ala Ala	Gin Arg Thr	Val Thr	Arg	Met
2865		2870		2875		2880
Asp Trp	Ala Arg	Phe Ala	Pro Val Tyr	Thr Ala Arg	Gly Arg	Arg	Asn
	2885	2890	2895
Leu Leu	Ser Ala	Leu Val	Ala Gly Arg	Asp íle íle	Ala Pro	Ser	Pro
	2900		2905		2910
Pro Ala	Ala Ala	Thr Arg	Asn Trp Arg	Gly Leu Ser	Val Ala	Glu	Ala
2915		2920	2925
Arg Val	Ala Leu	His Glu	íle Val His	Gly Ala Val	Ala Arg	Val	Leu
2930		2935	2940
Gly Phe	Leu Asp	Pro Ser	Ala Leu Asp	Pro Gly Met	Gly Phe	Asn	Glu
2945		2950		2955		2960
Gin Gly	Leu Asp	Ser Leu	Met Ala Val	Glu íle Arg	Asn Leu	Leu	Gin
	2965	2970	2975

Ala Glu Leu Asp Val Arg Leu Ser Thr Thr Leu Ala Phe Asp His Pro 2980 2985 2990 ····

123

Thr Val Gin Arg	Leu	Val Glu His Leu Leu Val Asp Val	Leu	Lys	Leu
	2995	3000	3005
Glu	Asp Arg Ser	Asp	Thr Gin His Val Arg	Ser Leu Ala	Ser	Asp	Glu
3010		3015	3020
Pro	íle Ala íle	Val	Gly Ala Ala Cys Arg	Phe Pro Gly	Gly	Val	Glu
3025	3030 :	3035		3040
Asp	Leu Glu Ser	Tyr	Trp Gin Leu Leu Ala	Glu Gly Val	Val	Val	Ser
	3045	3050		3055
Ala	Glu Val Pro	Ala	Asp Arg Trp Asp Ala	Ala Asp Trp	Tyr	Asp	Pro
	3060		3065	3070
Asp	Pro Glu íle	Pro	Gly Arg Thr Tyr Val	Thr Lys Gly	Ala	Phe	Leu
	3075		3080	3085
Arg	Asp Leu Gin	Arg	Leu Asp Ala Thr Phe	Phe Arg íle	Ser	Pro	Arg
3090		3095	3100
Glu	Ala Met Ser	Leu	Asp Pro Gin Gin Arg	Leu Leu Leu	Glu	Val	Ser
3105	3110	3115		3120
Trp	Glu Ala Leu	Glu	Ser Ala Gly íle Ala	Pro Asp Thr	Leu	Arg	Asp
	3125	3130		3135
Ser	Pro Thr Gly	Val	Phe Val Gly Ala Gly	Pro Asn Glu	Tyr	Tyr	Thr
	3140		3145	3150
Gin	Arg Leu Arg	Gly	Phe Thr Asp Gly Ala	Ala Gly Leu	Tyr	Gly	Gly
	3155		3160	3165
Thr	Gly Asn Met	Leu	Ser Val Thr Ala Gly	Arg Leu Ser	Phe	Phe	Leu
3170		3175	3180
Gly	Leu His Gly	Pro	Thr Leu Ala Met Asp	Thr Ala Cys	Ser	Ser	Ser
3185	3190	3195		3200
Leu	Val Ala Leu	His	Leu Ala Cys Gin Ser	Leu Arg Leu	Gly	Glu	Cys
	3205	3210		3215
Asp	Gin Ala Leu	Val	Gly Gly Val Asn Val	Leu Leu Ala	Pro	Glu	Thr
	3220		3225	3230
Phe	Val Leu Leu	Ser	Arg Met Arg Ala Leu	Ser Pro Asp	Gly	Arg	Cys
	3235		3240	3245
Lys	Thr Phe Ser	Ala	Asp Ala Asp Gly Tyr	Ala Arg Gly	Glu	Gly	Cys
3250		3255	3260
Ala	Val Val Val	Leu	Lys Arg Leu Arg Asp	Ala Gin Arg	Ala	Gly	Asp
3265	3270 ;	3275		3280
Ser	íle Leu Ala	Leu	íle Arg Gly Ser Ala	Val Asn His	Asp	Gly	Pro
	3285	3290		3295
Ser	Ser Gly Leu	Thr	Val Pro Asn Gly Pro	Ala Gin Gin	Ala	Leu	Leu
	3300		3305	3310

Arg Gin Ala Leu Ser Gin Ala Gly Val Ser Pro Val Asp Val Asp Phe 3315 3320 3325 ···· • 9

124

Val Glu 3330	Cys	His	Gly Thr Gly Thr 3335	Ala Leu	Gly Asp 3340	Pro íle	Glu	Val
Gin Ala	Leu	Ser	Glu Val Tyr Gly	Pro Gly	Arg Ser	Gly Asp	Arg	Pro
3345			3350	3355		3360
Leu Val	Leu	Gly	Ala Ala Lys Ala	Asn Val	Ala His	Leu Glu	Ala	Ala
		3365	3370		3375
Ser Gly	Leu	Ala	Ser Leu Leu Lys	Ala Val	Leu Ala	Leu Arg	His	Glu
	3380	3385		3390
Gin íle	Pro	Ala	Gin Pro Glu Leu	Gly Glu	Leu Asn	Pro His	Leu	Pro
3395		3400		3405
Trp Asn	Thr	Leu	Pro Val Ala Val	Pro Arg	Lys Ala	Val Pro	Trp	Gly
3410			3415		3420
Arg Gly	Ala	Arg	Pro Arg Arg Ala	Gly Val	Ser Ala	Phe Gly	Leu	Ser
3425			3430	3435		3440
Gly Thr	Asn	Val	His Val Val Leu	Glu Glu	Ala Pro	Glu Val	Glu	Pro
		3445	3450		3455
Ala Pro	Ala	Ala	Pro Ala Arg Pro	Val Glu	Leu Val	Val Leu	Ser	Ala
	34 60	34 65		3470
Lys Ser	Ala	Ala	Ala Leu Asp Ala	Ala Ala	Ala Arg	Leu Ser	Ala	His
3475		3480		3485
Leu Ser	Ala	His	Pro Glu Leu Ser	Leu Gly	Asp Val	Ala Phe	Ser	Leu
3490			3495		3500
Ala Thr	Thr	Arg	Ser Pro Met Glu	His Arg	Leu Ala	íle Ala	Thr	Thr
3505			3510	3515		3520
Ser Arg	Glu	Ala	Leu Arg Gly Ala	Leu Asp	Ala Ala	Ala Gin	Gin	Lys
		3525	3530		3535
Thr Pro	Gin	Gly	Ala Val Arg Gly	Lys Ala	Val Ser	Ser Arg	Gly	Lys
	3540	3545		3550
Leu Ala	Phe	Leu	Phe Thr Gly Gin	Gly Ala	Gin Met	Pro Gly	Met	Gly
3555		3560		3565
Arg Gly	Leu	Tyr	Glu Thr Trp Pro	Ala Phe	Arg Glu	Ala Phe	Asp	Arg
3570			3575		3580
Cys Val	Ala	Leu	Phe Asp Arg Glu	íle Asp	Gin Pro	Leu Arg	Glu	Val
3585			3590	3595		3600
Met Trp	Ala	Ua	Pro Gly Leu Ala	Gin Ala	Ala Arg	Leu Asp	Gin	Thr
		3605	3610		3615
Ala Tyr	Ala	Gin	Pro Ala Leu Phe	Ala Leu	Glu Tyr	Ala Leu	Ala	Ala
	3620	3625		3630
Leu Trp	Arg	Ser	Trp Gly Val Glu	Pro His	Val Leu	Leu Gly	His	Ser
3635		3640		3645

íle Gly Glu Leu Val Ala Ala Cys Val Ala Gly Val Phe Ser Leu Glu 3650 3655 3660 ····

125

Asp Ala Val 3665	Arg Leu Val Ala Ala Arg Gly Arg Leu Met Gin Ala Leu
3670	3675	3680
Pro Ala Gly	Gly Ala Met Val	Ala íle Ala Ala	Ser Glu Ala Glu Val
	3685	3690	3695
Ala Ala Ser	Val Ala Pro His	Ala Ala Thr Val	Ser íle Ala Ala Val
	3700	3705	3710
Asn Gly Pro	Asp Ala Val Val	íle Ala Gly Ala	Glu Val Gin Val Leu
3715	3720	3725
Ala Leu Gly	Ala Thr Phe Ala	Ala Arg Gly íle	Arg Thr Lys Arg Leu
3730	3735	3740
Ala Val Ser	His Ala Phe His	Ser Pro Leu Met	Asp Pro Met Leu Glu
3745	3750	3755	3760
Asp Phe Gin	Arg Val Ala Ala	Thr íle Ala Tyr	Arg Ala Pro Asp Arg
	3765	3770	3775
Pro Val Val	Ser Asn Val Thr	Gly His Val Ala	Gly Pro Glu íle Ala
3780	3785	3790
Thr Pro Glu	Tyr Trp Val Arg	His Val Arg Ser	Ala Val Arg Phe Gly
3795	3800	3805
Asp Gly Ala	Lys Ala Leu His	Ala Ala Gly Ala	Ala Thr Phe Val Glu
3810	3815	3820
Val Gly Pro	Lys Pro Val Leu	Leu Gly Leu Leu	Pro Ala Cys Leu Gly
3825	3830	3835	3840
Glu Ala Asp	Ala Val Leu Val	Pro Ser Leu Arg	Ala Asp Arg Ser Glu
	3845	3850	3855
Cys Glu Val	Val Leu Ala Ala	Leu Gly Ala Trp	Tyr Ala Trp Gly Gly
3360	3865	3870
Ala Leu Asp	Trp Lys Gly Val	Phe Pro Asp Gly	Ala Arg Arg Val Ala
3875	3880	3885
Leu Pro Met	Tyr Pro Trp Gin	Arg Glu Arg His	Trp Met Asp Leu Thr
3890	3895	3900
Pro Arg Ser	Ala Ala Pro Ala	Gly íle Ala Gly	Arg Trp Pro Leu Ala
3905	3910	3915	3920
Gly Val Gly	Leu Cys Met Pro	Gly Ala Val Leu	His His Val Leu Ser
	3925	3930	3935
íle Gly Pro	Arg His Gin Pro	Phe Leu Gly Asp	His Leu Val Phe Gly
3940	3945	3950
Lys Val Val	Val Pro Gly Ala	Phe His Val Ala	Val íle Leu Ser íle
3955	3960	3965
Ala Ala Glu	Arg Trp Pro Glu	Arg Ala íle Glu	Leu Thr Gly Val Glu
3970	3975	3980
Phe Leu Lys	Ala íle Ala Met	Glu Pro Asp Gin	Glu Val Glu Leu His

3985 3990 3995 4000

126

• ····	• ·	··	• · ·
• · ·	• ·	• ·	• ·	• v
• ···	• ·	•	• ·	•
• ·	• · ·	•	• · ·	•
• ·	• ·	•	• ·	•
··· ···	• ·	····	··	• · ·

Ala	Val	Leu Thr Pro 4005	Glu Ala	Ala	Gly Asp Gly Tyr Leu Phe Glu Leu
4010	4015
Ala	Thr	Leu Ala Ala	Pro Glu	Thr	Glu Arg Arg Trp	Thr Thr His Ala
		4020		4025	4030
Arg	Gly	Arg Val Gin	Pro Thr	Asp	Gly Ala Pro Gly	Ala Leu Pro Arg
	4035	4040	4045
Leu	Glu	Val Leu Glu	Asp Arg	Ala	íle Gin Pro Leu	Asp Phe Ala Gly
4050		4055		4060
Phe	Leu	Asp Arg Leu	Ser Ala	Val	Arg íle Gly Trp	Gly Pro Leu Trp
4065	4070		4075	4080
Arg	Trp	Leu Gin Asp	Gly Arg	Val	Gly Asp Glu Ala	Ser Leu Ala Thr
		4085			4090	4095
Leu	Val	Pro Thr Tyr	Pro Asn	Ala	His Asp Val Ala	Pro Leu His Pro
		4100		4105	4110
íle	Leu	Leu Asp Asn	Gly Phe	Ala	Val Ser Leu Leu	Ser Thr Arg Ser
	4115	4120	4125
Glu	Pro	Glu Asp Asp	Gly Thr	Pro	Pro Leu Pro Phe	Ala Val Glu Arg
4130		4135		4140
Val	Arg	Trp Trp Arg	Ala Pro	Val	Gly Arg Val Arg	Cys Gly Gly Val
4145	4150		4155	4160

Pro Arg Ser Gin	Ala 4165	Phe Gly Val Ser	Ser Phe Val Leu Val Asp	Glu
1	j	1170	4175
Thr Gly Glu Val 4180	Val	Ala Glu Val Glu 4185	Gly	Phe Val Cys Arg 4190	Arg	Ala
Pro Arg Glu Val 4195	Phe	Leu Arg Gin Glu 4200	Ser	Gly Ala Ser Thr 4205	Ala	Ala
Leu Tyr Arg Leu 4210	Asp	Trp Pro Glu Ala 4215	Pro	Leu Pro Asp Ala 4220	Pro	Ala
Glu Arg íle Glu	Glu	Ser Trp Val Val	Val	Ala Ala Pro Gly	Ser	Glu
4225	4230	4235	4240
Met Ala Ala Ala	Leu	Ala Thr Arg Leu	Asn	Arg Cys Val Leu	Ala	Glu
4245	4250	4255
Pro Lys Gly Leu 4260	Glu	Ala Ala Leu Ala 4265	Gly	Val Ser Pro Ala 4270	Gly	Val
íle Cys Leu Trp 4275	Glu	Ala Gly Ala His 4280	Glu	Glu Ala Pro Ala 4285	Ala	Ala
Gin Arg Val Ala 4290	Thr	Glu Gly Leu Ser 4295	Val	Val Gin Ala Leu 4300	Arg	Asp
Arg Ala Val Arg	Leu	Trp Trp Val Thr	Met	Gly Ala Val Ala	Val	Glu
4305	4310	4315	4320

Ala Gly Glu Arg Val Gin Val Ala Thr Ala Pro Val Trp Gly Leu Gly 4325 4330 4335 ···· ··

127

Arg	Thr Val Met 4340	Gin Glu Arg	Pro Glu Leu 4345	Ser	Cys Thr Leu 4350	Val	Asp
Leu	Glu Pro Glu	Ala Asp Ala	Ala Arg Ser	Ala	Asp Val Leu	Leu	Arg
	4355	4360		4365
Glu	Leu Gly Arg	Ala Asp Asp	Glu Thr Gin	Val	Ala Phe Arg	Ser	Gly
4370	4375		4380
Lys	Arg Arg Val	Ala Arg Leu	Val Lys Ala	Thr	Thr Pro Glu	Gly	Leu
4385	4390	4395		4400
Leu	Val Pro Asp	Ala Glu Ser	Tyr Arg Leu	Glu	Ala Gly Gin	Lys	Gly
	4405	4410		4415
Thr	Leu Asp Gin	Leu Arg Leu	Ala Pro Ala	Gin	Arg Arg Ala	Pro	Gly
	4420		4425		4430
Pro	Gly Glu Val	Glu íle Lys	Val Thr Ala	Ser	Gly Leu Asn	Phe	Arg
	4435	4440		4445
Thr	Val Leu Ala	Val Leu Gly	Met Tyr Pro	Gly	Asp Ala Gly	Pro	Met
4450	4455		4 4 60
Gly	Gly Asp Cys	Ala Gly Val	Ala Thr Ala	Val	Gly Gin Gly	Val	Arg
4465	4470	4475		4480
His	Val Ala Val	Gly Asp Ala	Val Met Thr	Leu	Gly Thr Leu	His	Arg
	4485	4490		4495
Phe	Val Thr Val	Asp Ala Arg	Leu Val Val	Arg	Gin Pro Ala	Gly	Leu
	4500		4505		4510
Thr	Pro Ala Gin	Ala Ala Thr	Val Pro Val	Ala	Phe Leu Thr	Ala	Trp
	4515	4520		4525
Leu	Ala Leu His	Asp Leu Gly	Asn Leu Arg	Arg	Gly Glu Arg	Val	Leu
4530	4535		4540
íle	His Ala Ala	Ala Gly Gly	Val Gly Met	Ala	Ala Val Gin	íle	Ala
4545	4550	4555		4560
Arg	Trp íle Gly	Ala Glu Val	Phe Ala Thr	Ala	Ser Pro Ser	Lys	Trp
	4565	4570		4575
Ala	Ala Val Gin	Ala Met Gly	Val Pro Arg	Thr	His íle Ala	Ser	Ser
	4580		4585		4590
Arg	Thr Leu Glu	Phe Ala Glu	Thr Phe Arg	Gin	Val Thr Gly	Gly	Arg
	4595	4600		4605
Gly	Val Asp Val	Val Leu Asn	Ala Leu Ala	Gly	Glu Phe Val	Asp	Ala
4610	4615		4620
Ser	Leu Ser Leu	Leu Ser Thr	Gly Gly Arg	Phe	Leu Glu Met	Gly	Lys
4625	4630	4635		4640
Thr	Asp íle Arg	Asp Arg Ala	Ala Val Ala	Ala	Ala His Pro	Gly Val
	4645	4650		4655
Arg	Tyr Arg Val	Phe Asp íle	Leu Glu Leu	Ala	Pro Asp Arg	Thr	Arg

4660 4665 4670 ···· ··

128 ····

Glu íle Leu	Glu	Arg	Val Val Glu Gly Phe Ala Ala Gly	His	Leu	Arg
	4675	4680	4685
Ala	Leu Pro	Val	His	Ala Phe Ala íle Thr Lys	Ala Glu	Ala	Ala	Phe
4690			4 695	4700
Arg	Phe Met	Ala	Gin	Ala Arg His Gin Gly Lys	Val Val	Leu	Leu	Pro
4705			4710 4715				4720
Ala	Pro Ser	Ala	Ala	Pro Leu Ala Pro Thr Gly	Thr Val	Leu	Leu	Thr
		4725	4730		4735
Gly	Gly Leu	Gly	Ala	Leu Gly Leu His Val Ala	Arg Trp	Leu	Ala	Gin
	4740		4745	4750
Gin	Gly Val	Pro	His	Met Val Leu Thr Gly Arg	Arg Gly	Leu	Asp	Thr
	4755			4760	4765
Pro	Gly Ala	Ala	Lys	Ala Val Ala Glu íle Glu	Ala Leu	Gly	Ala	Arg
4770			4775	4780
Val	Thr íle	Ala	Ala	Ser Asp Val Ala Asp Arg	Asn Ala	Leu	Glu	Ala
4785		4790 4795			4800
Val	Leu Gin	Ala	íle	Pro Ala Glu Trp Pro Leu	Gin Gly	Val	íle	His
		4805	4810		4815
Ala	Ala Gly	Ala	Leu	Asp Asp Gly Val Leu Asp	Glu Gin	Thr	Thr	Asp
	4820		4825	4830
Arg	Phe Ser	Arg	Val	Leu Ala Pro Lys Val Thr	Gly Ala	Trp	Asn	Leu
	4835			4840	4845
His	Glu Leu	Thr	Ala	Gly Asn Asp Leu Ala Phe	Phe Val	Leu	Phe	Ser
4850			4855	4860
Ser	Met Ser	Gly	Leu	Leu Gly Ser Ala Gly Gin	Ser Asn	Tyr	Ala	Ala
4865		4870 4875			4880
Ala	Asn Thr	Phe	Leu	Asp Ala Leu Ala Ala His	Arg Arg	Ala	Glu	Gly
		4885	4890		4895
Leu	Ala Ala	Gin	Ser	Leu Ala Trp Gly Pro Trp	Ser Asp	Gly	Gly	Met
	4900		4905	4910
Ala	Ala Gly	Leu	Ser	Ala Ala Leu Gin Ala Arg	Leu Ala	Arg	His	Gly
	4915			4920	4925
Met	Gly Ala	Leu	Ser	Pro Ala Gin Gly Thr Ala	Leu Leu	Gly	Gin	Ala
4930			4935 4940
Leu	Ala Arg	Pro	Glu	Thr Gin Leu Gly Ala Met	Ser Leu	Asp	Val	Arg
4945		4950 4955			4960
Ala	Ala Ser	Gin	Ala	Ser Gly Ala Ala Val Pro	Pro Val	Trp	Arg	Ala
		4965	4970		4975
Leu	Val Arg	Ala	Glu	Ala Arg His Thr Ala Ala	Gly Ala	Gin	Gly	Ala

4980 4985 4990

Leu Ala Ala Arg Leu Gly Ala Leu Pro Glu Ala Arg Arg Ala Asp Glu 4995 5000 5005

129

•	····	··	··	·· ·
• ·	•	• ·	• ·	• *	V ·
•	···	•	•	Φ	• ·	•
•	•	• ·	•	•	• · ·	•
Λ	•	•	•	•	• ·	•
··· ·♦·	··	····	··	• · ·

Val Arg 5010	Lys	Val Val Gin Ala Glu íle Ala Arg Val	Leu	Ser	Trp	Ser
5015	5020
Ala Ala	Ser	Ala Val Pro Val Asp Arg Pro	Leu Ser	Asp	Leu	Gly	Leu
5025		5030 5035			5040
Asp Ser	Leu	Thr Ala Val Glu Leu Arg Asn	Val Leu	Gly	Gin	Arg	Val
		5045 5050			5055
Gly Ala	Thr	Leu Pro Ala Thr Leu Ala Phe	Asp His	Pro	Thr	Val	Asp
	5060 5065		5070
Ala Leu	Thr	Arg Trp Leu Leu Asp Lys Val	Leu Ala	Val	Ala	Glu	Pro
5075	5080	5085
Ser Val	Ser	Ser Ala Lys Ser Ser Pro Gin	Val Ala	Leu	Asp	Glu	Pro
5090		5095	5100
íle Ala	íle	íle Gly íle Gly Cys Arg Phe	Pro Gly	Gly	Val	Ala	Asp
5105		5110 !	5115			5120
Pro Glu	Ser	Phe Trp Arg Leu Leu Glu Glu	Gly Ser	Asp	Ala	Val	Val
		5125 5130			5135
Glu Val	Pro	His Glu Arg Trp Asp íle Asp	Ala Phe	Tyr	Asp	Pro	Asp
	5Í40 5145		5150
Pro Asp	Val	Arg Gly Lys Met Thr Thr Arg	Phe Gly	Gly	Phe	Leu	Ser
5155	5160	5165
Asp íle	Asp	Arg Phe Asp Pro Ala Phe Phe	Gly íle	Ser	Pro	Arg	Glu
5170		5175	5180
Ala Thr	Thr	Met Asp Pro Gin Gin Arg Leu	Leu Leu	Glu	Thr	Ser	Trp
5185		5190 !	5195			5200
Glu Ala	Phe	Glu Arg Ala Gly íle Leu Pro	Glu Arg	Leu	Met	Gly	Ser
		5205 5210			í	5215
Asp Thr	Gly	Val Phe Val Gly Leu Phe Tyr	Gin Glu	Tyr	Ala	Ala	Leu
	5220 5225		5230
Ala Gly	Gly	íle Glu Ala Phe Asp Gly Tyr	Leu Gly	Thr	Gly	Thr	Thr
5235	5240	5245
Ala Ser	Val	Ala Ser Gly Arg íle Ser Tyr	Val Leu	Gly	Leu	Lys	Gly
5250		5255	5260
Pro Ser	Leu	Thr Val Asp Thr Ala Cys Ser	Ser Ser	Leu	Val	Ala	Val
5265		5270 !	5275			5280
His Leu	Ala	Cys Gin Ala Leu Arg Arg Gly	Glu Cys	Ser	Val	Ala	Leu
		5285 5290			5295
Ala Gly	Gly	Val Ala Leu Met Leu Thr Pro	Ala Thr	Phe	Val	Glu	Phe
	5300 5305		5310
Ser Arg	Leu	Arg Gly Leu Ala Pro Asp Gly	Arg Cys	Lys	Ser	Phe	Ser

5315 5320 5325

Ala Ala Ala Asp Gly Val Gly Trp Ser Glu Gly Cys Ala Met Leu Leu 5330 5335 5340

130

• ····	·· ·· ··	•
• · ·	• · · · · ·	• ·
• ···	• · · · ·	•
• ·	• · · · · · ·	•
• ·	Φ · · · ·	•
··· ···	·· ···· ··	• · ·

Leu Lys 5345	Pro	Leu	Arg Asp 5350	Ala	Gin Arg Asp Gly Asp Pro 5355	íle Leu Ala 5360
Val íle	Arg	Gly	Thr Ala	Val	Asn Gin Asp Gly Arg Ser	Asn Gly Leu
		5365		5370	5375
Thr Ala	Pro	Asn	Gly Ser	Ser	Gin Gin Glu Val íle Arg	Arg Ala Leu
	5380			5385 1	5390
Glu Gin	Ala	Gly	Leu Ala	Pro	Ala Asp Val Ser Tyr Val	Glu Cys His
5395			5400 5405
Gly Thr	Gly	Thr	Thr Leu	Gly	Asp Pro íle Glu Val Gin	Ala Leu Gly
5410			5415	5420
Ala Val	Leu	Ala	Gin Gly	Arg	Pro Ser Asp Arg Pro Leu	Val íle Gly
5425			5430		5435	5440
Ser Val	Lys	Ser	Asn íle	Gly	His Thr Gin Ala Ala Ala	Gly Val Ala
			5445		5450	5455
Gly Val	íle	Lys	Val Ala	Leu	Ala Leu Glu Arg Gly Leu	íle Pro Arg
	54 60			5465 '	5470
Ser Leu	His	Phe	Asp Ala	Pro	Asn Pro His íle Pro Trp	Ser Glu Leu
	5475			5480 5485
Ala Val	Gin	Val	Ala Ala	Lys	Pro Val Glu Trp Thr Arg	Asn Gly Val
5490			5495	5500
Pro Arg	Arg	Ala	Gly Val	Ser	Ser Phe Gly Val Ser Gly	Thr Asn Ala
5505			5510		5515	5520
His Val	Val	Leu	Glu Glu	Ala	Pro Ala Ala Ala Phe Ala	Pro Ala Ala
		5525		5530	5535
Ala Arg	Ser	Ala	Glu Leu	Phe	Val Leu Ser Ala Lys Ser	Ala Ala Ala
	5540			5545	5550
Leu Asp	Ala	Gin	Ala Ala	Arg	Leu Ser Ala His Val Val	Ala His Pro
5555			5560 5565
Glu Leu	Gly	Leu	Gly Asp	Leu	Ala Phe Ser Leu Ala Thr	Thr Arg Ser
5570			5575	5580
Pro Met	Thr	Tyr	Arg Leu	Ala	Val Ala Ala Thr Ser Arg	Glu Ala Leu
5585			5590		5595	5600
Ser Ala	Ala	Leu	Asp Thr	Ala	Ala Gin Gly Gin Ala Pro	Pro Ala Ala
		5605		5610	5615
Ala Arg	Gly	His	Ala Ser	Thr	Gly Ser Ala Pro Lys Val	Val Phe Val
	5620			5625 !	5630
Phe Pro	Gly	Gin	Gly Ser	Gin	Trp Leu Gly Met Gly Gin	Lys Leu Leu
5635			5640 5645
Ser Glu	Glu	Pro	Val Phe	Arg	Asp Ala Leu Ser Ala Cys	Asp Arg Ala

5650 5655 5660 íle Gin Ala Glu Ala Gly Trp Ser Leu Leu Ala Glu Leu Ala Ala Asp 5665 5670 5675 5680

131 ···· ·· ····

Glu Thr Thr Ser Gin Leu Gly 5685	Arg íle Asp 5690	Val Val	Gin	Pro Ala 5695	Leu
Phe Ala íle Glu Val Ala Leu	Ser Ala Leu	Trp Arg	Ser	Trp Gly	Val
5700	5705		5710
Glu Pro Asp Ala Val Val Gly	His Ser Met	Gly Glu	Val	Ala Ala	Ala
5715 !	5720	5725
His Val Ala Gly Ala Leu Ser	Leu Glu Asp	Ala Val	Ala	íle íle	Cys
5730 5735		5740
Arg Arg Ser Leu Leu Leu Arg	Arg íle Ser	Gly Gin	Gly	Glu Met	Ala
5745 5750	5755		5760
Val Val Glu Leu Ser Leu Ala	Glu Ala Glu	Ala Ala	Leu	Leu Gly	Tyr
5765	5770			5775
Glu Asp Arg Leu Ser Val Ala	Val Ser Asn	Ser Pro	Arg	Ser Thr	Val
5780	5785		5790
Leu Ala Gly Glu Pro Ala Ala	Leu Ala Glu	Val Leu	Ala	íle Leu	Ala
5795 I	5800	5805
Ala Lys Gly Val Phe Cys Arg	Arg Val Lys	Val Asp	Val	Ala Ser	His
5810 5815		5820
Ser Pro Gin íle Asp Pro Leu	Arg Asp Glu	Leu Leu	Ala	Ala Leu	Gly
5825 5830		5835		5840
Glu Leu Glu Pro Arg Gin Ala	Thr Val Ser	Met Arg	Ser	Thr Val	Thr
5845	5850			5855
Ser Thr íle Met Ala Gly Pro	Glu Leu Val	Ala Ser	Tyr	Trp Ala	Asp
5860	5865		5870
Asn Val Arg Gin Pro Val Arg	Phe Ala Glu	Ala Val	Gin	Ser Leu	Met
5875 1	5880	5885
Glu Asp Gly His Gly Leu Phe	Val Glu Met	Ser Pro	His	Pro íle	Leu
5890 5895		5900
Thr Thr Ser Val Glu Glu íle	Arg Arg Ala	Thr Lys	Arg	Glu Gly	Val
5905 5910	5915		5920
Ala Val Gly Ser Leu Arg Arg	Gly Gin Asp	Glu Arg	Leu	Ser Met	Leu
5925	5930			5935
Glu Ala Leu Gly Ala Leu Trp	Val His Gly	Gin Ala	Val	Gly Trp	Glu
5940	5945		5950
Arg Leu Phe Ser Ala Gly Gly	Ala Gly Leu	Arg Arg	Val	Pro Leu	Pro
5955 !	5960	5965
Thr Tyr Pro Trp Gin Arg Glu	Arg Tyr Trp	Val Asp	Ala	Pro Thr	Gly
5970 5975		5980
Gly Ala Ala Gly Gly Ser Arg	Phe Ala His	Ala Gly	Ser	His Pro	Leu

5985 5990 5995 6000

Leu Gly Glu Met Gin Thr Leu Ser Thr Gin Arg Ser Thr Arg Val Trp 6005 6010 6015

132

• v···	·· ··	• 4	•
• · ·	• · · ·	• ·	• ·
• ···	• · ·	9 ·	•
• ·	• · · ·	• · ·	•
• ·	• · ·	• ·	•
··· ···	·· ····	··	♦ · ·

Glu	Thr	Thr Leu 6020	Asp Leu Lys Arg Leu 6025	Pro	Trp Leu	Gly Asp His 6030	Arg
Val	Gin	Gly Ala	Val Val Phe Pro Gly	Ala	Ala Tyr	Leu Glu Met	Ala
	6035	6040		6045
Leu	Ser	Ser Gly	Ala Glu Ala Leu Gly	Asp	Gly Pro	Leu Gin Val	Ser
6050		6055		6060
Asp Val	Val Leu	Ala Glu Ala Leu Ala	Phe	Ala Asp	Asp Thr Pro	Ala
6065		6070	6075	6080
Ala	Val	Gin Val	Met Ala Thr Glu Glu	Arg	Pro Gly	Arg Leu Gin	Phe
		6085 l	5090		6095
His	Val	Ala Ser	Arg Val Pro Gly His	Gly	Gly Ala	Ala Phe Arg	Ser
		6100	6105			6110
His	Ala	Arg Gly	Val Leu Arg Gin íle	Glu	Arg Ala	Glu Val Pro	Ala
	6115	6120		6125
Arg	Leu	Asp Leu	Ala Ala Leu Arg Ala	Arg	Leu Gin	Ala Ser Ala	Pro
6130		6135		6140
Ala	Ala	Ala Thr	Tyr Ala Ala Leu Ala	Glu	Met Gly	Leu Glu Tyr	Gly
6145		6150	6155	6160
Pro	Ala	Phe Gin	Gly Leu Val Glu Leu	Trp	Arg Gly	Glu Gly Glu	Ala
		6165 (	5170		6175
Leu	Gly	Arg Val	Arg Leu Pro Glu Ala	Ala	Gly Ser	Pro Ala Ala	Cys
		6180	6185			6190
Arg	Leu	His Pro	Ala Leu Leu Asp Ala	Cys	Phe His	Val Ser Ser	Ala
	6195	6200		6205
Phe	Ala	Asp Arg	Gly Glu Ala Thr Pro	Trp	Val Pro	Val Glu íle	Gly
6210		6215		6220
Ser	Leu	Arg Trp	Phe Gin Arg Pro Ser	Gly	Glu Leu	Trp Cys His	Ala
6225		6230	6235	6240
Arg	Ser	Val Ser	His Gly Lys Pro Thr	Pro	Asp Arg	Arg Ser Thr	Asp
		6245 (	5250		6255
Phe	Trp	Val Val	Asp Ser Thr Gly Ala	íle	Val Ala	Glu íle Ser	Gly
		6260	6265			6270
Leu	Val	Ala Gin	Arg Leu Ala Gly Gly	Val	Arg Arg	Arg Glu Glu	Asp
	627 5	6280		6285
Asp	Trp	Phe Met	Glu Pro Ala Trp Glu	Pro	Thr Ala	Val Pro Gly	Ser
6290		6295		6300
Glu	Val	Met Ala	Gly Arg Trp Leu Leu	íle	Gly Ser	Gly Gly Gly	Leu
6305		6310	6315	6320
Gly Ala	Ala Leu	His Ser Ala Leu Thr	Glu	Ala Gly	His Ser Val	Val
		6325 6330		6335

His Ala Thr Gly Arg Gly Thr Ser Ala Ala Gly Leu Gin Ala Leu Leu 6340 6345 6350

133

• ···· • · ·	·· • ·	·· ·· • · · ·	• ··
• ···	• ·	• · ·	•
• ·	• · ·	• · · ·	•
• · ··· ···	• · ··	• · · ···· ··	• ···

Thr Ala Ser Phe	Asp	Gly Gin Ala Pro Thr Ser Val Val	His	Leu	Gly
	6355	6360	6365
Ser	Leu Asp Glu	Arg	Gly Val Leu Asp Ala	Asp Ala Pro	Phe	Asp	Ala
6370		6375	6380
Asp	Ala Leu Glu	Glu	Ser Leu Val Arg Gly	Cys Asp Ser	Val	Leu	Trp
6385	6390 í	5395		6400
Thr	Val Gin Ala	Val	Ala Gly Ala Gly Phe	Arg Asp Pro	Pro	Arg	Leu
	6405	6410		6415
Trp	Leu Val Thr	Arg	Gly Ala Gin Ala íle	Gly Ala Gly	Asp	Val	Ser
	6420		6425	6430
Val	Ala Gin Ala	Pro	Leu Leu Gly Leu Gly	Arg Val íle	Ala	Leu	Glu
	6435		6440	6445
His	Ala Glu Leu	Arg	Cys Ala Arg íle Asp	Leu Asp Pro	Ala	Arg	Arg
6450		6455	6460
Asp	Gly Glu Val	Asp	Glu Leu Leu Ala Glu	Leu Leu Ala	Asp	Asp	Ala
6465	6470 i	5475		6480
Glu	Glu Glu Val	Ala	Phe Arg Gly Gly Glu	Arg Arg Val	Ala	Arg	Leu
	6485	6490		6495
Val	Arg Arg Leu	Pro	Glu Thr Asp Cys Arg	Glu Lys íle	Glu	Pro	Ala
	6500		6505	6510
Glu	Gly Arg Pro	Phe	Arg Leu Glu íle Asp	Gly Ser Gly	Val	Leu	Asp
	6515		6520	6525
Asp	Leu Val Leu	Arg	Ala Thr Glu Arg Arg	Pro Pro Gly	Pro	Gly	Glu
6530		6535	6540
Val	Glu íle Ala	Val	Glu Ala Ala Gly Leu	Asn Phe Leu	Asp	Val	Met
6545	6550 l	5555		6560
Arg	Ala Met Gly	íle	Tyr Pro Gly Pro Gly	Asp Gly Pro	Val	Ala	Leu
	6565	6570		6575
Gly	Ala Glu Cys	Ser	Gly Arg íle Val Ala	Met Gly Glu	Gly	Val	Glu
	6580		6585	6590
Ser	Leu Arg íle	Gly	Gin Asp Val Val Ala	Val Ala Pro	Phe	Ser	Phe
	6595		6600	6605
Gly	Thr His Val	Thr	íle Asp Ala Arg Met	Leu Ala Pro	Arg	Pro	Ala
6610		6615	6620
Ala	Leu Thr Ala	Ala	Gin Ala Ala Ala Leu	Pro Val Ala	Phe	Met	Thr
6625	6630 (	5635		6640
Ala	Trp Tyr Gly	Leu	Val His Leu Gly Arg	Leu Arg Ala	Gly	Glu	Arg
	6645	6650		6655
Val	Leu íle His	Ser	Ala Thr Gly Gly Thr	Gly Leu Ala	Ala	Val	Gin
	6660		6665	6670

íle Ala Arg His Leu Gly Ala Glu íle Phe Ala Thr Ala Gly Thr Pro 6675 6680 6685 ···· • ·

134

Glu Lys 6690	Arg	Ala Trp	Leu Arg Glu Gin Gly íle Ala His Val Met Asp
6695	6700
Ser Arg	Ser	Leu Asp	Phe Ala Glu Gin Val	Leu Ala Ala Thr Lys Gly
6705		6710 (	5715 6720
Glu Gly	Val	Asp Val	Val Leu Asn Ser Leu	Ser Gly Ala Ala íle Asp
		6725	6730	6735
Ala Ser	Leu	Ser Thr	Leu Val Pro Asp Gly	Arg Phe íle Glu Leu Gly
	(	5740	6745	6750
Lys Thr	Asp	íle Tyr	Ala Asp Arg Ser Leu	Gly Leu Ala His Phe Arg
6755		6760	6765
Lys Ser	Leu	Ser Tyr	Ser Ala Val Asp Leu	Ala Gly Leu Ala Val Arg
6770			6775	6780
Arg Pro	Glu	Arg Val	Ala Ala Leu Leu Ala	Glu Val Val Asp Leu Leu
6785		6790 i	5795 6800
Ala Arg	Gly	Ala Leu	Gin Pro Leu Pro Val	Glu íle Phe Pro Leu Ser
		6805	6810	6815
Arg Ala	Ala	Asp Ala	Phe Arg Lys Met Ala	Gin Ala Gin His Leu Gly
	6820	6825	6830
Lys Leu	Val	Leu Ala	Leu Glu Asp Pro Asp	Val Arg íle Arg Val Pro
6835		6840	6845
Gly Glu	Ser	Gly Val	Ala íle Arg Ala Asp	Gly Ala Tyr Leu Val Thr
6850			6855	6860
Gly Gly	Leu	Gly Gly	Leu Gly Leu Ser Val	Ala Gly Trp Leu Ala Glu
6865		6870 i	5875 6880
Gin Gly	Ala	Gly His	Leu Val Leu Val Gly	Arg Ser Gly Ala Val Ser
		6885	6890	6895
Ala Glu	Gin	Gin Thr	Ala Val Ala Ala Leu	Glu Ala His Gly Ala Arg
	6900	6905	6910
Val Thr	Val	Ala Arg	Ala Asp Val Ala Asp	Arg Ala Gin Met Glu Arg
6915		6920	6925
íle Leu	Arg	Glu Val	Thr Ala Ser Gly Met	Pro Leu Arg Gly Val Val
6930			6935	6940
His Ala	Ala	Gly íle	Leu Asp Asp Gly Leu	Leu Met Gin Gin Thr Pro
6945		6950 i	5955 6960
Ala Arg	Phe	Arg Ala	Val Met Ala Pro Lys	Val Arg Gly Ala Leu His
		6965	6970	6975
Leu His	Ala	Leu Thr	Arg Glu Ala Pro Leu	Ser Phe Phe Val Leu Tyr
	6980	6985	6990
Ala Ser	Gly	Ala Gly	Leu Leu Gly Ser Pro	Gly Gin Gly Asn Tyr Ala
6995		7000	7005

Ala Ala Asn Thr Phe Leu Asp Ala Leu Ala His His Arg Arg Ala Gin 7010 7015 7020

135 ·· ····

Gly Leu Pro 7025	Ala Leu Ser íle Asp Trp Gly Leu Phe Ala Asp Val Gly
7030	7035	7040
Leu Ala Ala	Gly Gin Gin	Asn Arg Gly Ala Arg	Leu Val Thr Arg Gly
	7045	7050	7055
Thr Arg Ser	Leu Thr Pro	Asp Glu Gly Leu Trp	Ala Leu Glu Arg Leu
7060	7065	7070
Leu Asp Gly	Asp Arg Thr	Gin Ala Gly Val Met	Pro Phe Asp Val Arg
7075		7080	7085
Gin Trp Val	Glu Phe Tyr	Pro Ala Ala Ala Ser	Ser Arg Arg Leu Ser
7090	7095 7100
Arg Leu Met	Thr Ala Arg	Arg Val Ala Ser Gly	Arg Leu Ala Gly Asp
7105	7110	7115	7120
Arg Asp Leu	Leu Glu Arg	Leu Ala Thr Ala Glu	Ala Gly Ala Arg Ala
	7125	7130	7135
Gly Met Leu	Gin Glu Val	Val Arg Ala Gin Val	Ser Gin Val Leu Arg
7140	7145	7150
Leu Ser Glu	Gly Lys Leu	Asp Val Asp Ala Pro	Leu Thr Ser Leu Gly
7155		7160	7165
Met Asp Ser	Leu Met Gly	Leu Glu Leu Arg Asn	Arg íle Glu Ala Val
7170	7175 7180
Leu Gly íle	Thr Met Pro	Ala Thr Leu Leu Trp	Thr Tyr Pro Thr Val
7185	7190	7195	7200
Ala Ala Leu	Ser Ala His	Leu Ala Ser His Val	Val Ser Thr Gly Asp
	7205	7210	7215
Gly Glu Ser	Ala Arg Pro	Pro Asp Thr Gly Ser	Val Ala Pro Thr Thr
7220	7225	7230
His Glu Val	Ala Ser Leu	Asp Glu Asp Gly Leu	Phe Ala Leu íle Asp
7235		7240	7245
Glu Ser Leu	Ala Arg Ala	Gly Lys Arg

7250 7255 <210> 6 <211> 3798 <212> PRT <213> Sorangium cellulosum <400> 6

Val

Thr

Asp

Arg

Glu

Gly

Gin

Leu

Glu

Arg

Leu

Arg

Glu

Val

Thr

1

5

10

15

Leu

Ala

Leu

Arg

Lys

Thr

Leu

Asn

Glu

Arg

Asp

Thr

Leu

Glu

Leu

Glu

20

25

30

Lys

Thr

Glu

Pro

íle

Ala

íle

Val

Gly

íle

Gly

Cys

Arg

Phe

Pro

Gly

40 45

Gly Ala Gly Thr Pro Glu Ala Phe Trp Glu Leu Leu Asp Asp Gly Arg 50 55 60

136 ···· ·· ·· ·· · • ···· ···· · · · · · · • · · · · · · · · • · · · · · · ··· ·· ···· ·· ···

Asp 65

Ala

íle

Arg Pro

Leu Glu Glu Arg Trp Ala Leu Val Gly Val Asp

70

75

80

Pro

Gly

Asp

Val

Pro

Arg

Trp

Ala

Gly

Leu

Thr

Glu

Ala

íle

85

90

95

Asp

Gly

Phe

Asp

Ala

Phe

Gly

íle

Ala

Pro

Arg

Glu

Ala

Arg

100

105

110

Ser

Leu

Asp

Pro

Gin

His

Arg

Leu

Glu

Val

Ala

Trp

Glu

Gly

115

120

125

Phe

Glu

Asp

Ala

Gly

íle

Pro

Arg

Ser

Leu

Val

Gly

Ser

Arg

Thr

130

135

140

Gly

Val

Phe

Val

Gly

Val

Cys

Ala

Thr

Glu

Tyr

Leu

His

Ala

Val

145

150

155

160

Ala

His

Gin

Pro

Arg

Glu

Arg

Asp

Ala

Tyr

Ser

Thr

Gly

Asn

165

170

175

Met

Leu

Ser

íle

Ala

Gly

Arg

Leu

Ser

Tyr

Thr

Leu

Gly

Leu

Gin

180

185

190

Gly

Pro

Cys

Leu

Thr

Val

Asp

Thr

Ala

Cys

Ser

Leu

Val

Ala

195

200

205

íle

His

Leu

Ala

Cys

Arg

Ser

Leu

Arg

Ala

Arg

Glu

Ser

Asp

Leu

Ala

210

215

220

Leu

Ala

Gly

Val

Asn

Met

Leu

Ser

Pro

Asp

Thr

Met

Arg

Ala

225

230

235

240

Leu

Ala

Arg

Thr

Gin

Ala

Leu

Ser

Pro

Asn

Gly

Arg

Cys

Gin

Thr

Phe

245

250

255

Asp

Ala

Ser

Ala

Asn

Gly

Phe

Val

Arg

Gly

Glu

Gly

Cys

Gly

Leu

íle

260

265

270

Val

Leu

Lys

Arg

Leu

Ser

Asp

Ala

Arg

Asp

Gly

Asp

Arg

íle

Trp

275

280

285

Ala

Leu

íle

Arg

Gly

Ser

Ala

íle

Asn

Gin

Asp

Gly

Arg

Ser

Thr

Gly

290

295

300

Leu

Thr

Ala

Pro

Asn

Val

Leu

Ala

Gin

Gly

Ala

Leu

Arg

Glu

Ala

305

310

315

320

Leu

Arg

Asn

Ala

Gly

Val

Glu

Ala

Glu

Ala

íle

Gly

Tyr

íle

Glu

Thr

325

330

335

His

Gly

Ala

Thr

Ser

Leu

Gly

Asp

Pro

íle

Glu

íle

Glu

Ala

Leu

340

345

350

Arg

Ala

Val

Gly

Pro

Ala

Arg

Ala

Asp

Gly

Ala

Arg

Cys

Val

Leu

355

360

365

Gly

Ala

Val

Lys

Thr

Asn

Leu

Gly

His

Leu

Glu

Gly

Ala

Gly

Val

370

375

380

Ala

Gly

Leu

íle

Lys

Ala

Thr

Leu

Ser

Leu

His

Glu

Arg

íle

Pro

385 390 395 400 • ·

137

Arg Asn Leu Asn Phe Arg Thr Leu Asn Pro Arg íle Arg íle Glu Gly

405

410

415

Thr

Ala

Leu

Ala

Leu

Ala

Thr

Glu

Pro

Val

Pro

Trp

Pro

Arg

Thr

Gly

420

425

430

Arg

Thr

Arg

Phe

Ala

Gly

Val

Ser

Phe

Gly

Met

Ser

Gly

Thr

Asn

435

440

445

Ala

His

Val

Leu

Glu

Ala

Pro

Ala

Val

Glu

Pro

Glu

Ala

450

455

4 60

Ala

Pro

Glu

Arg

Ala

Glu

Leu

Phe

Val

Leu

Ser

Ala

Lys

Ser

Ala

465

470

475

480

Ala

Leu

Asp

Ala

Gin

Ala

Arg

Leu

Arg

Asp

His

Leu

Glu

Lys

485

490

495

His

Val

Glu

Leu

Gly

Leu

Gly

Asp

Val

Ala

Phe

Ser

Leu

Ala

Thr

500

505

510

Arg

Ser

Ala

Met

Glu

His

Arg

Leu

Ala

Val

Ala

Ser

Arg

Glu

515

520

525

Ala

Leu

Arg

Gly

Ala

Leu

Ser

Ala

Gin

Gly

His

Thr

Pro

530

535

540

Gly

Ala

Val

Arg

Gly Arg

Ala

Ser

Gly

Ser

Ala

Pro

Lys

Val

545

550

555

560

Phe

Val

Phe

Pro

Gly

Gin

Gly

Ser

Gin

Trp

Val

Gly

Met

Gly

Arg

Lys

565

570

575

Leu

Met

Ala

Glu

Pro

Val

Phe

Arg

Ala

Leu

Glu

Gly

Cys

Asp

580

585

590

Arg

Ala

íle

Glu

Ala

Glu

Ala

Gly

Trp

Ser

Leu

Gly

Glu

Leu

Ser

595

600

605

Ala

Asp

Glu

Ala

Ser

Gin

Leu

Gly

Arg

íle

Asp

Val

Gin

Pro

610

615

620

Val

Leu

Phe

Ala

Met

Glu

Val

Ala

Leu

Ser

Ala

Leu

Trp

Arg

Ser

Trp

625

630

635

640

Gly

Val

Glu

Pro

Glu

Ala

Val

Gly

His

Ser

Met

Gly

Glu

Val

Ala

645

650

655

Ala

His

Val

Ala

Gly

Ala

Leu

Ser

Leu

Glu

Asp

Ala

Val

Ala

íle

660

665

670

íle

Cys

Arg

Ser

Arg

Leu

Arg

íle

Ser

Gly

Gin

Gly

Glu

675

680

685

Met

Ala

Leu

Val

Glu

Leu

Ser

Leu

Glu

Ala

Glu

Ala

Leu

Arg

690

695

700

Gly

His

Glu

Gly

Arg

Leu

Ser

Val

Ala

Val

Ser

Asn

Ser

Pro

Arg

Ser

705

710

715

720

Thr

Val

Leu

Ala

Gly

Glu

Pro

Ala

Leu

Ser

Glu

Val

Leu

Ala

725

730

735

···· • · • ·

138

Leu Thr Ala Lys Gly Val Phe Trp Arg Gin Val Lys Val Asp Val Ala

740

745

750

Ser

His

Ser

Pro

Gin

Val

Asp

Pro

Leu

Arg

Glu

Leu

íle

Ala

755

760

765

Leu

Gly

Ala

íle

Arg

Pro

Arg

Ala

Val

Pro

Met

Arg

Ser

Thr

770

775

780

Val

Thr

Gly

Val

íle

Ala

Gly

Pro

Glu

Leu

Gly

Ala

Ser

Tyr

Trp

785

790

795

800

Ala

Asp

Asn

Leu

Arg

Gin

Pro

Val

Arg

Phe

Ala

Gin

Ala

805

810

815

Leu

Glu

Gly

Pro

Ala

Leu

Phe

íle

Glu

Met

Ser

Pro

His

Pro

820

825

830

íle

Leu

Val

Pro

Leu

Asp

Glu

íle

Gin

Thr

Ala

Glu

Gin

Gly

835

840

845

Gly

Ala

Val

Gly

Ser

Leu

Arg

Gly

Gin

Asp

Glu

Arg

Ala

Thr

850

855

860

Leu

Glu

Ala

Leu

Gly

Thr

Leu

Trp

Ala

Ser

Gly

Tyr

Pro

Val

Ser

865

870

875

880

Trp

Ala

Arg

Leu

Phe

Pro

Ala

Gly Gly

Arg

Val

Pro

Leu

Pro

Thr

885

890

895

Tyr

Pro

Trp

Gin

His

Glu

Arg

Cys

Trp

íle

Glu

Val

Glu

Pro

Asp

Ala

900

905

910

Arg

Leu

Ala

Asp

Pro

Thr

Lys

Asp

Trp

Phe

Tyr

Arg

Thr

915

920

925

Asp

Trp

Pro

Glu

Val

Pro

Arg

Ala

Pro

Lys

Ser

Glu

Thr

Ala

His

930

935

940

Gly

Ser

Trp

Leu

Ala

Asp Arg

Gly Gly

Val

Gly

Glu

Ala

Val

945

950

955

960

Ala

Leu

Ser

Thr

Arg

Gly

Leu

Ser

Cys

Thr

Val

Leu

His

Ala

965

970

975

Ser

Ala

Asp

Ala

Ser

Thr

Val

Ala

Glu

Gin

Val

Ser

Glu

Ala

Ser

980

985

990

Arg

Asn

Asp

Trp

Gin

Gly

Val

Leu

Tyr

Leu

Trp

Gly

Leu

Asp

Ala

995

1000

1005

Val

Asp

Ala

Gly

Ala

Ser

Ala

Asp

Glu

Val

Ser

Glu

Ala

Thr

Arg

1010

1015

1020

Arg Ala

Thr

Ala

Pro

Val

Leu

Gly

Leu

Val

Arg

Phe

Leu

Ser

Ala

1025

1030

1035

1040

Pro

His

Pro

Arg

Phe

Trp

Val

Thr Arg

Gly

Ala

Cys

Thr

Val

1045

1050

1055

Gly Gly Glu Pro Glu Ala Ser Leu Cys Gin Ala Ala Leu Trp Gly Leu 1060 1065 1070 ·· • ·

139

Ala Arg Val	Ala	Ala Leu Glu His Pro Ala Ala Trp Gly Gly Leu Val
	1075	1080	1085
Asp	Leu Asp	Pro	Gin Lys Ser Pro Thr	Glu íle Glu Pro Leu Val Ala
1090		1095	1100
Glu	Leu Leu	Ser	Pro Asp Ala Glu Asp	Gin Leu Ala Phe Arg Ser Gly
1105		1110	1115 1120
Arg	Arg His	Ala	Ala Arg Leu Val Ala	Ala Pro Pro Glu Gly Asp Val
		1125	1130 1135
Ala	Pro íle	Ser	Leu Ser Ala Glu Gly	Ser Tyr Leu Val Thr Gly Gly
		L140	1145	1150
Leu	Gly Gly	Leu	Gly Leu Leu Val Ala	Arg Trp Leu Val Glu Arg Gly
	1155		1160	1165
Ala	Arg His	Leu	Val Leu Thr Ser Arg	His Gly Leu Pro Glu Arg Gin
1170		1175	1180
Ala	Ser Gly	Gly	Glu Gin Pro Pro Glu	Ala Arg Ala Arg íle Ala Ala
1185		1190	1195 1200
Val	Glu Gly	Leu	Glu Ala Gin Gly Ala	Arg Val Thr Val Ala Ala Val
		1205	1210 1215
Asp	Val Ala	Glu	Ala Asp Pro Met Thr	Ala Leu Leu Ala Ala íle Glu
	1220	1225	1230
Pro	Pro Leu	Arg	Gly Val Val His Ala	Ala Gly Val Phe Pro Val Arg
	1235		1240	1245
His	Leu Ala	Glu	Thr Asp Glu Ala Leu	Leu Glu Ser Val Leu Arg Pro
1250		1255	1260
Lys	Val Ala	Gly	Ser Trp Leu Leu His	Arg Leu Leu Arg Asp Arg Pro
1265		1270	1275 1280
Leu	Asp Leu	Phe	Val Leu Phe Ser Ser	Gly Ala Ala Val Trp Gly Gly
		1285	L290 1295
Lys	Gly Gin	Gly	Ala Tyr Ala Ala Ala	Asn Ala Phe Leu Asp Gly Leu
	1300	1305	1310
Ala	His His	Arg	Arg Ala His Ser Leu	Pro Ala Leu Ser Leu Ala Trp
	1315		1320	1325
Gly	Leu Trp	Ala	Glu Gly Gly Met Val	Asp Ala Lys Ala His Ala Arg
1330		1335	1340
Leu	Ser Asp	íle	Gly Val Leu Pro Met	Ala Thr Gly Pro Ala Leu Ser
1345		1350	1355 1360
Ala	Leu Glu	Arg	Leu Val Asn Thr Ser	Ala Val Gin Arg Ser Val Thr
		1365 1370 1375
Arg	Met Asp	Trp	Ala Arg Phe Ala Pro	Val Tyr Ala Ala Arg Gly Arg

1380 1385 1390

Arg Asn Leu Leu Ser Ala Leu Val Ala Glu Asp Glu Arg Ala Ala Ser 1395 1400 1405 • ·

140

Pro Pro 1410	Val Pro	Thr Ala Asn Arg íle Trp Arg Gly	Leu	Ser	Val	Ala
1415	1420
Glu Ser	Arg Ser	Ala Leu Tyr Glu	Leu Val Arg Gly	íle	Val	Ala	Arg
1425		1430	1435			1440
Val Leu	Gly Phe	Ser Asp Pro Gly	Ala Leu Asp Val	Gly	Arg	Gly	Phe
	1445	1450		1455
Ala Glu	Gin Gly	Leu Asp Ser Leu	Met Ala Leu Glu	íle	Arg	Asn	Arg
	1460	1465	1470
Leu Gin	Arg Glu	Leu Gly Glu Arg	Leu Ser Ala Thr	Leu	Ala	Phe	Asp
1475	1480	1485
His Pro	Thr Val	Glu Arg Leu Val	Ala His Leu Leu	Thr	Asp	Val	Leu
1490		1495	1500
Lys Leu	Glu Asp	Arg Ser Asp Thr	Arg His íle Arg	Ser	Val	Ala	Ala
1505		1510	1515			1520
Asp Asp	Asp Zle	Ala íle Val Gly	Ala Ala Cys Arg	Phe	Pro	Gly	Gly
	1525	1530		1535
Asp Glu	Gly Leu	Glu Thr Tyr Trp	Arg His Leu Ala	Glu	Gly	Met	Val
	1540	1545	1550
Val Ser	Thr Glu	Val Pro Ala Asp	Arg Trp Arg Ala	Ala	Asp	Trp	Tyr
1555	1560	1565
Asp Pro	Asp Pro	Glu Val Pro Gly	Arg Thr Tyr Val	Ala	Lys	Gly	Ala
1570		1575	1580
Phe Leu	Arg Asp	Val Arg Ser Leu	Asp Ala Ala Phe	Phe	Ala	íle	Ser
1585		1590	1595			1600
Pro Arg	Glu Ala	Met Ser Leu Asp	Pro Gin Gin Arg	Leu	Leu	Leu	Glu
	1605	1610		1615
Val Ser	Trp Glu	Ala íle Glu Arg	Ala Gly Gin Asp	Pro	Met	Ala	Leu
	1620	1625	1630
Arg Glu	Ser Ala	Thr Gly Val Phe	Val Gly Met íle	Gly	Ser	Glu	His
1635	1640	1645
Ala Glu	Arg Val	Gin Gly Leu Asp	Asp Asp Ala Ala	Leu	Leu	Tyr	Gly
1650		1655	1660
Thr Thr	Gly Asn	Leu Leu Ser Val	Ala Ala Gly Arg	Leu	Ser	Phe	Phe
1665		1670	1675			1680
Leu Gly	Leu His	Gly Pro Thr Met	Thr Val Asp Thr	Ala	Cys	Ser	Ser
	1685	1690		1695
Ser Leu	Val Ala	Leu His Leu Ala	Cys Gin Ser Leu	Arg	Leu	Gly	Glu
	1700	1705	1710
Cys Asp	Gin Ala	Leu Ala Gly Gly	Ser Ser Val Leu	Leu	Ser	Pro	Arg
1715	1720	1725
Ser Phe	Val Ala	Ala Ser Arg Met	Arg Leu Leu Ser	Pro Asp	Gly	Arg
1730		1735	1740

141 • ·

Cys Lys Thr Phe Ser Ala Ala	Ala	Asp	Gly Phe Ala Arg Ala Glu Gly
1745	1750	1755	1760
Cys Ala Val Val	Val Leu Lys	Arg	Leu	Arg Asp	Ala Gin Arg Asp Arg
1765		1770	1775
Asp Pro íle Leu	Ala Val Val	Arg	Ser	Thr Ala	íle Asn His Asp Gly
1780		1785		1790
Pro Ser Ser Gly	Leu Thr Val	Pro	Ser	Gly Pro	Ala Gin Gin Ala Leu
1795	1800			1805
Leu Arg Gin Ala	Leu Ala Gin	Ala	Gly	Val Ala	Pro Ala Glu Val Asp
1810	1815			1820
Phe Val Glu Cys	His Gly Thr	Gly	Thr	Ala Leu	Gly Asp Pro íle Glu
1825	1830			1835	1840
Val Gin Ala Leu	Gly Ala Val	Tyr	Gly	Arg Gly	Arg Pro Ala Glu Arg
1845		1850	1855
Pro Leu Trp Leu	Gly Ala Val	Lys	Ala	Asn Leu	Gly His Leu Glu Ala
1860		1865		1870
Ala Ala Gly Leu	Ala Gly Val	Leu	Lys	Val Leu	Leu Ala Leu Glu His
1875	1880			1885
Glu Gin íle Pro	Ala Gin Pro	Glu	Leu	Asp Glu	Leu Asn Pro His íle
1890	1895			1900
Pro Trp Ala Glu	Leu Pro Val	Ala	Val	Val Arg	Arg Ala Val Pro Trp
1905	1910			1915	1920
Pro Arg Gly Ala	Arg Pro Arg	Arg	Ala	Gly Val	Ser Ala Phe Gly Leu
1925		1930	1935
Ser Gly Thr Asn	Ala His Val	Val	Leu	Glu Glu	Ala Pro Ala Val Glu
1940		1945		1950
Pro Val Ala Ala	Ala Pro Glu	Arg	Ala	Ala Glu	Leu Phe Val Leu Ser
1955	1960			1965
Ala Lys Ser Ala	Ala Ala Leu	Asp	Ala	Gin Ala	Ala Arg Leu Arg Asp
1970	1975			1980
His Leu Glu Lys	His Val Glu	Leu	Gly	Leu Gly	Asp Val Ala Phe Ser
1985	1990			1995	2000
Leu Ala Thr Thr	Arg Ser Ala	Met	Glu	His Arg	Leu Ala Val Ala Ala
2005		2010	2015
Ser Ser Arg Glu	Ala Leu Arg	Gly	Ala	Leu Ser	Ala Ala Ala Gin Gly
2020		2025		2030
His Thr Pro Pro	Gly Ala Val	Arg	Gly	Arg Ala	Ser Gly Gly Ser Ala
2035	2040			2045
Pro Lys Val Val	Phe Val Phe	Pro	Gly	Gin Gly	Ser Gin Trp Val Gly

2050 2055 2060

Met Gly Arg Lys Leu Met Ala Glu Glu Pro Val Phe Arg Ala Ala Leu 2065 2070 2075 2080

142

····	• ·	• ·	·· ·
•	•	•	• ·	• ·	··
···	•	•	•	• t	•
• ·	•	•	•	• · ·	•
•	•	•	•	• ·	•
	··	····	··	·· ·

Glu	Gly Cys	Asp Arg Ala íle Glu Ala Glu Ala Gly Trp Ser Leu	Leu
2085	2090	2095
Gly	Glu Leu	Ser Ala	Asp Glu Ala Ala Ser	Gin Leu Gly Arg íle	Asp
	2100	2105	2110
Val	Val Gin	Pro Val	Leu Phe Ala Met Glu	Val Ala Leu Ser Ala	Leu
	2115		2120	2125
Trp	Arg Ser	Trp Gly	Val Glu Pro Glu Ala	Val Val Gly His Ser	Met
2130		2135	2140
Gly	Glu Val	Ala Ala	Ala His Val Ala Gly	Ala Leu Ser Leu Glu	Asp
2145	2150 2155 2160
Ala	Val Ala	íle íle	Cys Arg Arg Ser Arg	Leu Leu Arg Arg íle	Ser
		2165	2170	2175
Gly	Gin Gly	Glu Met	Ala Leu Val Glu Leu	Ser Leu Glu Glu Ala	Glu
	2180	2185	2190
Ala	Ala Leu	Arg Gly	His Glu Gly Arg Leu	Ser Val Ala Val Ser	Asn
	2195		2200	2205
Ser	Pro Arg	Ser Thr	Val Leu Ala Gly Glu	Pro Ala Ala Leu Ser	Glu
2210		2215	2220
Val	Leu Ala	Ala Leu	Thr Ala Lys Gly Val	Phe Trp Arg Gin Val	Lys
2225	2230 2235 2240
Val	Asp Val	Ala Ser	His Ser Pro Gin Val	Asp Pro Leu Arg Glu	Glu
		2245	2250	2255
Leu	íle Ala	Ala Leu	Gly Ala íle Arg Pro	Arg Ala Ala Ala Val	Pro
		2260	2265	2270
Met	Arg Ser	Thr Val	Thr Gly Gly Val íle	Ala Gly Pro Glu Leu	Gly
	2275		2280	2285
Ala	Ser Tyr	Trp Ala	Asp Asn Leu Arg Gin	Pro Val Arg Phe Ala	Ala
2290		2295	2300
Ala	Ala Gin	Ala Leu	Leu Glu Gly Gly Pro	Ala Leu Phe íle Glu	Met
2305	2310 :	2315 2320
Ser	Pro His	Pro íle	Leu Val Pro Pro Leu	Asp Glu íle Gin Thr	Ala
		2325	2330	2335
Ala	Glu Gin	Gly Gly	Ala Ala Val Gly Ser	Leu Arg Arg Gly Gin	Asp
	2340	2345	2350
Glu	Arg Ala	Thr Leu	Leu Glu Ala Leu Gly	Thr Leu Trp Ala Ser	Gly
	2355		2360	2365
Tyr	Pro Val	Ser Trp	Ala Arg Leu Phe Pro	Ala Gly Gly Arg Arg	Val
2370		2375	2380
Pro	Leu Pro	Thr Tyr	Pro Trp Gin His Glu	Arg Tyr Trp íle Glu	Asp
2385	2390 ;	2395 I	2400

Ser Val His Gly Ser Lys Pro Ser Leu Arg Leu Arg Gin Leu Arg Asn 2405 2410 2415

143

····	··	··	··
•	•	•	• ·	• ·
···	•	•	•	e	•
•	• ·	•	t ·	•	•
•	• ·	•	• ·
• ···	··	····	··

Gly	Ala Thr Asp 2420	His Pro Leu	Leu Gly Ala 2425	Pro	Leu Leu Val 2430	Ser	Ala
Arg	Pro Gly Ala	His Leu Trp	Glu Gin Ala	Leu	Ser Asp Glu	Arg	Leu
	2435	2440		2445
Ser	Tyr Leu Ser	Glu His Arg	Val His Gly	Glu	Ala Val Leu	Pro	Ser
2450	2455		2460
Ala	Ala Tyr Val	Glu Met Ala	Leu Ala Ala	Gly	Val Asp Leu	Tyr	Gly
2465	2470	2475		2480
Thr	Ala Thr Leu	Val Leu Glu	Gin Leu Ala	Leu	Glu Arg Ala	Leu	Ala
	2485	2490		2495
Val	Pro Ser Glu	Gly Gly Arg	íle Val Gin	Val	Ala Leu Ser	Glu	Glu
	2500		2505		2510
Gly	Pro Gly Arg	Ala Ser Phe	Gin Val Ser	Ser	Arg Glu Glu	Ala	Gly
	2515	2520		2525
Arg	Ser Trp Val	Arg His Ala	Thr Gly His	Val	Cys Ser Gly	Gin	Ser
2530	2535		2540
Ser	Ala Val Gly	Ala Leu Lys	Glu Ala Pro	Trp	Glu íle Gin	Arg	Arg
2545	2550	2555		2560
Cys	Pro Ser Val	Leu Ser Ser	Glu Ala Leu	Tyr	Pro Leu Leu	Asn	Glu
	2565	2570		2575
His	Ala Leu Asp	Tyr Gly Pro	Cys Phe Gin	Gly	Val Glu Gin	Val	Trp
	2580		2585		2590
Leu	Gly Thr Gly	Glu Val Leu	Gly Arg Val	Arg	Leu Pro Gly	Asp	Met
	2595	2600		2605
Ala	Ser Ser Ser	Gly Ala Tyr	Arg íle His	Pro	Ala Leu Leu	Asp	Ala
2610	2615		2620
Cys	Phe Gin Val	Leu Thr Ala	Leu Leu Thr	Thr	Pro Glu Ser	íle	Glu
2625	2630	2635		2640
íle	Arg Arg Arg	Leu Thr Asp	Leu His Glu	Pro	Asp Leu Pro	Arg	Ser
	2645	2650		2655
Arg	Ala Pro Val	Asn Gin Ala	Val Ser Asp	Thr	Trp Leu Trp	Asp	Ala
	2660		2665		2670
Ala	Leu Asp Gly	Gly Arg Arg	Gin Ser Ala	Ser	Val Pro Val	Asp	Leu
	2675	2680		2685
Val	Leu Gly Ser	Phe His Ala	Lys Trp Glu	Val	Met Glu Arg	Leu	Ala
2690	2695		2700
Gin	Ala Tyr íle	íle Gly Thr	Leu Arg íle	Trp	Asn Val Phe	Cys	Ala
2705	2710	2715		2720
Ala	Gly Glu Arg	His Thr íle	Asp Glu Leu	Leu	Val Arg Leu	Gin	íle
	2725	2730		2735
Ser	Val Val Tyr	Arg Lys Val	íle Lys Arg	Trp	Met Glu His	Leu	Val

2740 2745 2750 ···· • · ··

144

Ala íle Gly	íle Leu	Val	Gly Asp 2760	Gly Glu His	Phe Val Ser 2765	Ser Gin
	2755
Pro	Leu Pro	Glu Pro	Asp	Leu Ala	Ala Val Leu	Glu Glu Ala	Gly Arg
2770		2775	2780
Val	Phe Ala	Asp Leu	Pro	Val Leu	Phe Glu Trp	Cys Lys Phe	Ala Gly
2785	2790		2795		2800
Glu	Arg Leu	Ala Asp	Val	Leu Thr	Gly Lys Thr	Leu Ala Leu	Glu íle
		2805			2810	2815
Leu	Phe Pro	Gly Gly	Ser	Phe Asp	Met Ala Glu	Arg íle Tyr	Arg Asp
	2820		2825	2830
Ser	Pro íle	Ala Arg	Tyr	Ser Asn	Gly íle Val	Arg Gly Val	Val Glu
	2835			2840		2845
Ser	Ala Ala	Arg Val	Val	Ala Pro	Ser Gly Met	Phe Ser íle	Leu Glu
2850		2855	2860
íle	Gly Ala	Gly Thr	Gly	Ala Thr	Thr Ala Ala	Val Leu Pro	Val Leu
2865	2870		2875		2880
Leu	Pro Asp	Arg Thr	Glu	Tyr His	Phe Thr Asp	Val Ser Pro	Leu Phe
		2885			2890	2895
Leu	Ala Arg	Ala Glu	Gin	Arg Phe	Arg Asp Tyr	Pro Phe Leu	Lys Tyr
	2900		2905	2910
Gly	íle Leu	Asp Val	Asp	Gin Glu	Pro Ala Gly	Gin Gly Tyr	Ala His
	2915			2920		2925
Gin	Arg Phe	Asp Val	íle	Val Ala	Ala Asn Val	íle His Ala	Thr Arg
2930		2935	2940
Asp	íle Arg	Ala Thr	Ala	Lys Arg	Leu Leu Ser	Leu Leu Ala	Pro Gly
2945	2950		2955		2960
Gly	Leu Leu	Val Leu	Val	Glu Gly	Thr Gly His	Pro íle Trp	Phe Asp
		2965			2970	2975
íle	Thr Thr	Gly Leu	íle	Glu Gly	Trp Gin Lys	Tyr Glu Asp	Asp Leu
	2980		2985	2990
Arg	íle Asp	His Pro	Leu	Leu Pro	Ala Arg Thr	Trp Cys Asp	Val Leu
	2995			3000		3005
Arg	Arg Val	Gly Phe	Ala	Asp Ala	Val Ser Leu	Pro Gly Asp	Gly Ser
3010		3015	3020
Pro	Ala Gly	íle Leu	Gly	Gin His	Val íle Leu	Ser Arg Ala	Pro Gly
3025	3030		3035		3040
íle	Ala Gly	Ala Ala	Cys	Asp Ser	Ser Gly Glu	Ser Ala Thr	Glu Ser
		3045			3050	3055
Pro	Ala Ala	Arg Ala	Val	Arg Gin	Glu Trp Ala	Asp Gly Ser	Ala Asp

Val Val His Arg Met Ala Leu Glu Arg Met Tyr Phe His Arg Arg Pro 3075 3080 3085

3360 3065 3070

145

• ··· ·· · • ·· ·	• · • · • ·	• · • · •	• · • · • ·	• • · •
• ·	• · ·	•	• · ·
• · ··· ···	• · ··	• ····	• · • ·	• · ·

Gly Arg 3090	Gin	Val Trp	Val His Gly Arg Leu Arg Thr Gly Gly Gly Ala
3095	3100
Phe Thr	Lys	Ala Leu	Ala Gly Asp Leu Leu	Leu Phe Glu Asp Thr Gly
3105		3110	3115 3120
Gin Val	Val	Ala Glu	Val Gin Gly Leu Arg	Leu Pro Gin Leu Glu Ala
		3125	3130	3135
Ser Ala	Phe	Ala Pro	Arg Asp Pro Arg Glu	Glu Trp Leu Tyr Ala Leu
	3140	3145	3150
Glu Trp	Gin	Arg Lys	Asp Pro íle Pro Glu	Ala Pro Ala Ala Ala Ser
3155		3160	3165
Ser Ser	Ser	Ala Gly	Ala Trp Leu Val Leu	Met Asp Gin Gly Gly Thr
3170			3175	3180
Gly Ala	Ala	Leu Val	Ser Leu Leu Glu Gly	Arg Gly Glu Ala Cys Val
3185		3190	3195 3200
Arg Val	íle	Ala Gly	Thr Ala Tyr Ala Cys	Leu Ala Pro Gly Leu Tyr
		3205	3210	3215
Gin Val	Asp	Pro Ala	Gin Pro Asp Gly Phe	His Thr Leu Leu Arg Asp
	3220	3225	3230
Ala Phe	Gly	Glu Asp	Arg íle Cys Arg Ala	Val Val His Met Trp Ser
3235		3240	3245
Leu Asp	Ala	Thr Ala	Ala Gly Glu Arg Ala	Thr Ala Glu Ser Leu Gin
3250			3255	3260
Ala Asp	Gin	Leu Leu	Gly Ser Leu Ser Ala	Leu Ser Leu Val Gin Ala
3265		3270	3275 3280
Leu Val	Arg	Arg Arg	Trp Arg Asn Met Pro	Arg Leu Trp Leu Leu Thr
		3285	3290	3295
Arg Ala	Val	His Ala	Val Gly Ala Glu Asp	Ala Ala Ala Ser Val Ala
	3300	3305	3310
Gin Ala	Pro	Val Trp	Gly Leu Gly Arg Thr	Leu Ala Leu Glu His Pro
3315		3320	3325
Glu Leu	Arg	Cys Thr	Leu Val Asp Val Asn	Pro Ala Pro Ser Pro Glu
3330			3335	3340
Asp Ala	Ala	Ala Leu	Ala Val Glu Leu Gly	Ala Ser Asp Arg Glu Asp
3345		3350	3355 3360
Gin Val	Ala	Leu Arg	Ser Asp Gly Arg Tyr	Val Ala Arg Leu Val Arg
		3365	3370	3375
Ser Ser	Phe	Ser Gly	Lys Pro Ala Thr Asp	Cys Gly íle Arg Ala Asp
	3380	3385	3390
Gly Ser	Tyr	Val íle	Thr Asp Gly Met Gly	Arg Val Gly Leu Ser Val
3395		3400	3405

Ala Gin Trp Met Val Met Gin Gly Ala Arg His Val Val Leu Val Asp 3410 3415 3420 ···· • ·

146

Arg Gly Gly 3425	Ala	Ser Glu 3430	Ala	Ser Arg	Asp Ala 3435	Leu Arg	Ser	Met Ala 3440
Glu Ala Gly	Ala	Glu Val	Gin	íle Val	Glu Ala	Asp Val	Ala	Arg Arg
	3445		3450		3455
Asp Asp Val	Ala	Arg Leu	Leu	Ser Lys	íle Glu	Pro Ser	Met	Pro Pro
3460			3465		3470
Leu Arg Gly	íle	Val Tyr	Val	Asp Gly	Thr Phe	Gin Gly	Asp	Ser Ser
3475			3480		3485
Met Leu Glu	Leu	Asp Ala	Arg	Arg Phe	Lys Glu	Trp Met	Tyr	Pro Lys
3490		3495		3500
Val Leu Gly	Ala	Trp Asn	Leu	His Ala	Leu Thr	Arg Asp	Arg	Ser Leu
3505		3510			3515			3520
Asp Phe Phe	Val	Leu Tyr	Ser	Ser Gly	Thr Ser	Leu Leu	Gly	Leu Pro
	3525		3530		3535
Gly Gin Gly	Ser	Arg Ala	Ala	Gly Asp	Ala Phe	Leu Asp	Ala	íle Ala
3540			3545		3550
His His Arg	Cys	Lys Val	Gly	Leu Thr	Ala Met	Ser íle	Asn	Trp Gly
3555			3560		3565
Leu Leu Ser	Glu	Ala Ser	Ser	Pro Ala	Thr Pro	Asn Asp	Gly	Gly Ala
3570		3575		3580
Arg Leu Glu	Tyr	Arg Gly	Met	Glu Gly	Leu Thr	Leu Glu	Gin	Gly Ala
3585		3590			3595			3600
Ala Ala Leu	Gly	Arg Leu	Leu	Ala Arg	Pro Arg	Ala Gin	Val	Gly Val
	3605		3610		3615
Met Arg Leu	Asn	Leu Arg	Gin	Trp Leu	Glu Phe	Tyr Pro	Asn	Ala Ala
	3620			3625		3630
Arg Leu Ala	Leu	Trp Ala	Glu	Leu Leu	Lys Glu	Arg Asp	Arg	Ala Asp
3635			3640		3645
Arg Gly Ala	Ser	Asn Ala	Ser	Asn Leu	Arg Glu	Ala Leu	Gin	Ser Ala
3650		3655		3660
Arg Pro Glu	Asp	Arg Gin	Leu	íle Leu	Glu Lys	His Leu	Ser	Glu Leu
3665		3670			3675			3680
Leu Gly Arg	Gly	Leu Arg	Leu	Pro Pro	Glu Arg	íle Glu	Arg	His Val
	3685		3690		3695
Pro Phe Ser	Asn	Leu Gly	Met	Asp Ser	Leu íle	Gly Leu	Glu	Leu Arg
3700			3705		3710
Asn Arg íle	Glu	Ala Ala	Leu	Gly íle	Thr Val	Pro Ala	Thr	Leu Leu
3715			3720		3725
Trp Thr Tyr	Pro	Asn Val	Ala	Ala Leu	Ser Gly	Ser Leu	Leu	Asp íle

3730 3735 3740

Leu Phe Pro Asn Ala Gly Ala Thr His Ala Pro Ala Thr Glu Arg Glu 3745 3750 3755 3760 ····

147

Lys Ser

Phe Glu Asn Asp Ala Ala Asp Leu Glu Ala 3765 3770

Thr Asp Glu Gin Lys Asp Ala Leu Leu Ala Glu Lys

3780 3785

Leu Arg Gly Met 3775

Leu Ala Gin Leu 3790

Ala Gin íle Val Gly Glu 3795 <210> 7 <211> 2439 <212> PRT <213> Sorangium cellulosum <400> 7

Met Ala Thr Thr Asn

Ala Gly

Lys

Leu Glu His Ala Leu 10

Leu

Leu 15

Met

1

5

Asp

Lys

Leu

Ala

Lys

Asn

Ala

Ser

Leu

Glu

Gin

Glu

Arg

Thr

Glu

20

25

30

Pro

íle

Ala

íle

Val

Gly

íle

Gly

Cys

Arg

Phe

Pro

Gly

Ala

Asp

35

40

45

Thr

Pro

Glu

Ala

Phe

Trp

Glu

Leu

Asp

Ser

Gly

Arg

Asp

Ala

Val

50

55

60

Gin

Pro

Leu

Asp

Arg

Trp

Ala

Leu

Val

Gly

Val

His

Pro

Ser

Glu

65

70

75

80

Glu

Val

Pro

Arg

Trp

Ala

Gly

Leu

Thr

Glu

Ala

Val

Asp

Gly

Phe

85

90

95

Asp

Ala

Phe

Gly

Thr

Ser

Pro

Arg

Glu

Ala

Arg

Ser

Leu

Asp

L00

105

110

Pro

Gin

Arg

Leu

Glu

Val

Thr

Trp

Glu

Gly

Leu

Glu

Asp

115

120

125

Ala

Gly

íle

Ala

Pro

Gin

Ser

Leu

Asp

Gly

Ser

Arg

Thr

Gly

Val

Phe

130

135

140

Leu

Gly

Ala

Cys

Ser

Asp

Tyr

Ser

His

Thr

Val

Ala

Gin

Arg

145

150

155

160

Arg

Glu

Gin

Asp

Ala

Tyr

Asp

íle

Thr

Gly

Asn

Thr

Leu

Ser

Val

165

170

175

Ala

Gly

Arg

Leu

Ser

Tyr

Thr

Leu

Gly

Leu

Gin

Gly

Pro

Cys

Leu

180

185

190

Thr

Val

Asp

Thr

Ala

Cys

Ser

Leu

Val

Ala

íle

His

Leu

Ala

195

200

205

Cys

Arg

Ser

Leu

Arg

Ala

Arg

Glu

Ser

Asp

Leu

Ala

Leu

Ala

Gly

210

215

220

Val

Asn

Met

Leu

Ser

Lys

Thr

Met

íle

Met

Leu

Gly Arg

íle

225

230

235

240

····

148

Gin

Ala

Leu Ser Pro Asp Gly His Cys Arg Thr Phe Asp Ala Ser Ala

245

250

255

Asn

Gly

Phe

Val

Arg

Gly

Glu

Gly

Cys

Gly

Met

Val

Leu

Lys

Arg

260

265

270

Leu

Ser

Asp

Ala

Gin

Arg

His

Gly

Asp

Arg

íle

Trp

Ala

Leu

íle

Arg

275

280

285

Gly

Ser

Ala

Met

Asn

Gin

Asp

Gly

Arg

Ser

Thr

Gly

Leu

Met

Ala

Pro

290

295

300

Asn

Val

Leu

Ala

Gin

Glu

Ala

Leu

Arg

Glu

Ala

Leu

Gin

Ser

Ala

305

310

315

320

Arg

Val

Asp

Ala

Gly

Ala

íle

Gly

Tyr

Val

Glu

Thr

His

Gly

Thr

Gly

325

330

335

Thr

Ser

Leu

Gly

Asp

Pro

íle

Glu

Val

Glu

Ala

Leu

Arg

Ala

Val

Leu

340

345

350

Gly

Pro

Ala

Arg

Ala

Asp

Gly

Ser

Arg

Cys

Val

Leu

Gly

Ala

Val

Lys

355

360

365

Thr

Asn

Leu

Gly

His

Leu

Glu

Gly

Ala

Gly

Val

Ala

Gly

Leu

íle

370

375

380

Lys

Ala

Leu

Ala

Leu

His

Glu

Leu

íle

Pro

Arg

Asn

Leu

His

385

390

395

400

Phe

His

Thr

Leu

Asn

Pro

Arg

íle

Arg

íle

Glu

Gly

Thr

Ala

Leu

Ala

405

410

415

Leu

Ala

Thr

Glu

Pro

Val

Pro

Trp

Pro

Arg

Ala

Gly Arg

Pro

Arg

Phe

420

425

430

Ala

Gly

Val

Ser

Ala

Phe

Gly

Leu

Ser

Gly

Thr

Asn

Val

His

Val

435

440

445

Leu

Glu

Ala

Pro

Ala

Thr

Val

Leu

Ala

Pro

Ala

Thr

Pro

Gly

Arg

450

455

4 60

Ser

Ala

Glu

Leu

Val

Leu

Ser

Ala

Lys

Ser

Ala

Leu

Asp

4 65

470

475

480

Ala

Gin

Ala

Arg

Leu

Ser

Ala

His

íle

Ala

Tyr

Pro

Glu

Gin

485

490

4 95

Gly

Leu

Gly

Asp

Val

Ala

Phe

Ser

Leu

Val

Ser

Thr

Arg

Ser

Pro

Met

500

505

510

Glu

His

Arg

Leu

Ala

Val

Ala

Thr

Ser

Arg

Glu

Ala

Leu

Arg

Ser

515

520

525

Ala

Leu

Glu

Val

Ala

Gin

Gly

Gin

Thr

Pro

Ala

Gly

Ala

Arg

530

535

540

Gly

Arg

Ala

Ser

Pro

Gly

Lys

Leu

Ala

Phe

Leu

Phe

Ala

Gly

545

550

555

560

Gin

Gly

Ala

Gin

Val

Pro

Gly

Met

Gly

Arg

Gly

Leu

Trp

Glu

Ala

Trp

565 570 575 ···· • ·

149

Pro Ala Phe Arg 580

Glu

Thr Phe

Asp

Arg Cys Val Thr Leu Phe

Asp

Arg

585

590

Glu

Leu

His

Gin

Pro

Leu

Cys

Glu

Val

Met

Trp

Ala

Glu

Pro

Gly

Ser

595

600

605

Ser

Arg

Ser

Leu

Asp

Gin

Thr

Ala

Phe

Thr

Gin

Pro

Ala

Leu

610

615

620

Phe

Ala

Leu

Glu

Tyr

Ala

Leu

Ala

Leu

Phe

Arg

Ser

Trp

Gly

Val

625

630

635

640

Glu

Pro

Glu

Leu

Val

Ala

Gly

His

Ser

Leu

Gly

Glu

Leu

Val

Ala

645

650

655

Cys

Val

Ala

Gly

Val

Phe

Ser

Leu

Glu

Asp

Ala

Val

Arg

Leu

Val

660

665

670

Ala

Arg

Gly

Arg

Leu

Met

Gin

Ala

Leu

Pro

Ala

Gly

Ala

Met

Val

67 5

680

685

Ser

íle

Ala

Pro

Glu

Ala

Asp

Val

Ala

Val

Ala

Pro

His

690

695

700

Ala

Leu

Val

Ser

íle

Ala

Val

Asn

Gly

Pro

Glu

Gin

Val

705

710

715

720

íle

Ala

Gly

Ala

Glu

Lys

Phe

Val

Gin

íle

Ala

Phe

Ala

725

730

735

Ala

Arg

Gly

Ala

Arg

Thr

Lys

Pro

Leu

His

Val

Ser

His

Ala

Phe

His

740

745

750

Ser

Pro

Leu

Met

Asp

Pro

Met

Leu

Glu

Ala

Phe

Arg

Val

Thr

Glu

755

760

765

Ser

Val

Thr

Tyr

Arg

Pro

Ser

íle

Ala

Leu

Val

Ser

Asn

Leu

Ser

770

775

780

Gly

Lys

Pro

Cys

Thr

Asp

Glu

Val

Ser

Ala

Pro

Gly

Tyr

Trp

Val

Arg

785

790

795

800

His

Ala

Arg

Glu

Ala

Val

Arg

Phe

Ala

Asp

Gly

Val

Lys

Ala

Leu

His

805

810

815

Ala

Gly

Ala

Gly

Leu

Phe

Val

Glu

Val

Gly

Pro

Lys

Pro

Thr

Leu

820

825

830

Leu

Gly

Leu

Val

Pro

Ala

Cys

Leu

Pro

Asp

Ala

Arg

Pro

Val

Leu

835

840

845

Pro

Ala

Ser

Arg

Ala

Gly

Arg

Asp

Glu

Ala

Ser

Ala

Leu

Glu

Ala

850

855

860

Leu

Gly

Phe

Trp

Val

Gly

Ser

Val

Thr

Trp

Ser

Gly

Val

865

870

875

880

Phe

Pro

Ser

Gly

Gly Arg

Arg

Val

Pro

Leu

Pro

Thr

Tyr

Pro

Trp

Gin

885

890

895

Arg

Glu

Arg

Tyr

Trp

íle

Glu

Ala

Pro

Val

Asp

Arg

Glu

Ala

Asp

Gly

900 905 910 ····

150

Thr Gly Arg	Ala Arg	Ala Gly Gly 920	His Pro Leu Leu	Gly 925	Glu	Val	Phe
	915
Ser Val	Ser	Thr His	Ala Gly Leu	Arg Leu Trp Glu	Thr	Thr	Leu	Asp
930			935	940
Arg Lys	Arg	Leu Pro	Trp Leu Gly	Glu His Arg Ala	Gin	Gly	Glu	Val
945			950	955				960
Val Phe	Pro	Gly Ala	Gly Tyr Leu	Glu Met Ala Leu	Ser	Ser	Gly	Ala
		965		970			975
Glu íle	Leu	Gly Asp	Gly Pro íle	Gin Val Thr Asp	Val	Val	Leu	íle
		980		985		990
Glu Thr	Leu	Thr Phe	Ala Gly Asp	Thr Ala Val Pro	Val	Gin	Val	Val
	995		1000	1005
Thr Thr	Glu	Glu Arg	Pro Gly Arg	Leu Arg Phe Gin	Val	Ala	Ser	Arg
1010			1015	1020
Glu Pro	Gly	Glu Arg	Arg Ala Pro	Phe Arg íle His	Ala	Arg	Gly	Val
1025		1030	1035			1040
Leu Arg	Arg	íle Gly	Arg Val Glu	Thr Pro Ala Arg	Ser	Asn	Leu	Ala
		1045		1050		1055
Ala Leu	Arg	Ala Arg	Leu His Ala	Ala Val Pro Ala	Ala	Ala	íle	Tyr
	1060	1065	1070
Gly Ala	Leu	Ala Glu	Met Gly Leu	Gin Tyr Gly Pro	Ala	Leu	Arg	Gly
1075		1080	1085
Leu Ala	Glu	Leu Trp	Arg Gly Glu	Gly Glu Ala Leu	Gly	Arg	Val	Arg
1090			1095	1100
Leu Pro	Glu	Ala Ala	Gly Ser Ala	Thr Ala Tyr Gin	Leu	His	Pro	Val
1105		1110	1115			1120
Leu Leu	Asp	Ala Cys	Val Gin Met	íle Val Gly Ala	Phe	Ala	Asp	Arg
		1125		1130		1135
Asp Glu	Ala	Thr Pro	Trp Ala Pro	Val Glu Val Gly	Ser	Val	Arg	Leu
	1140	1145	1150
Phe Gin	Arg	Ser Pro	Gly Glu Leu	Trp Cys His Ala	Arg	Val	Val	Ser
1155		1160	1165
Asp Gly	Gin	Gin Ala	Ser Ser Arg	Trp Ser Ala Asp	Phe	Glu	Leu	Met
1170			1175	1180
Asp Gly	Thr	Gly Ala	Val Val Ala	Glu íle Ser Arg	Leu	Val	Val	Glu
1185		1190	1195			1200
Arg Leu	Ala	Ser Gly	Val Arg Arg	Arg Asp Ala Asp	Asp	Trp	Phe	Leu
		1205		1210		1215
Glu Leu	Asp	Trp Glu	Pro Ala Ala	Leu Gly Gly Pro	Lys	íle	Thr	Ala
	1220	1225	1230

Gly Arg Trp Leu Leu Leu Gly Glu Gly Gly Gly Leu Gly Arg Ser Leu 1235 1240 1245

151

• • · • •	···· • ··· • •	• · ·· • · · · • · · • · · · · • · ·	·· • · • · • · • ·	• 9Λ • • •
···	···	·· ····	• ·	• · ·

Cys Ser 1250	Ala	Leu	Lys Ala Ala Gly His Val Val Val	His	Ala	Ala	Gly
1255	1260
Asp Asp	Thr	Ser	Thr Ala Gly Met Arg Ala	Leu Leu	Ala	Asn	Ala	Phe
1265			1270 :	L275			1280
Asp Gly	Gin	Ala	Pro Thr Ala Val Val His	Leu Ser	Ser	Leu	Asp	Gly
		1285 1290			1295
Gly Gly	Gin	Leu	Gly Pro Gly Leu Gly Ala	Gin Gly	Ala	Leu	Asp	Ala
	1300	1305		1310
Pro Arg	Ser	Pro	Asp Val Asp Ala Asp Ala	Leu Glu	Ser	Ala	Leu	Met
1315		1320	1325
Arg Gly	Cys	Asp	Ser Val Leu Ser Leu Val	Gin Ala	Leu	Val	Gly	Met
1330			1335	1340
Asp Leu	Arg	Asn	Ala Pro Arg Leu Trp Leu	Leu Thr	Arg	Gly	Ala	Gin
1345			1350	1355			1360
Ala Ala	Ala	Ala	Gly Asp Val Ser Val Val	Gin Ala	Pro	Leu	Leu	Gly
		1365 1370			1375
Leu Gly	Arg	Thr	íle Ala Leu Glu His Ala	Glu Leu	Arg	Cys	íle	Ser
	1380	1385		1390
Val Asp	Leu	Asp	Pro Ala Glu Pro Glu Gly	Glu Ala	Asp	Ala	Leu	Leu
1395		1400	1405
Ala Glu	Leu	Leu	Ala Asp Asp Ala Glu Glu	Glu Val	Ala	Leu	Arg	Gly
1410			1415	1420
Gly Asp	Arg	Leu	Val Ala Arg Leu Val His	Arg Leu	Pro	Asp	Ala	Gin
1425			1430	1435			1440
Arg Arg	Glu	Lys	Val Glu Pro Ala Gly Asp	Arg Pro	Phe	Arg	Leu	Glu
		1445 1450			1455
íle Asp	Glu	Pro	Gly Ala Leu Asp Gin Leu	Val Leu	Arg	Ala	Thr	Gly
	K60	1465		1470
Arg Arg	Ala	Pro	Gly Pro Gly Glu Val Glu	íle Ser	Val	Glu	Ala	Ala
1475		1480	1485
Gly Leu	Asp	Ser	íle Asp íle Gin Leu Ala	Leu Gly	Val	Ala	Pro	Asn
1490			1495	1500
Asp Leu	Pro	Gly	Glu Glu íle Glu Pro Leu	Val Leu	Gly	Ser	Glu	Cys
1505			1510	1515			1520
Ala Gly	Arg	íle	Val Ala Val Gly Glu Gly	Val Asn	Gly	Leu	Val	Val
		1525 1530			1535
Gly Gin	Pro	Val	íle Ala Leu Ala Ala Gly	Val Phe	Ala	Thr	His	Val
		1540	1545		1550
Thr Thr	Ser	Ala	Thr Leu Val Leu Pro Arg	Pro Leu	Gly Leu	Ser	Ala

1555 1560 1565

Thr Glu Ala Ala Ala Met Pro Leu Ala Tyr Leu Thr Ala Trp Tyr Ala 1570 1575 1580

152

····	·· • ·	·· • ·	• · • ·	• ··
··· •	• • ·	• •	• •	• · • · ·	• •
•	e	•	•	• ·	•
• ···	··	····	··	• ·

Leu Asp Lys 1585	Val	Ala His 1590	Leu	Gin Ala	Gly Glu Arg 1595	Val	Leu	íle His 1600
Ala Glu Ala	Gly	Gly Val	Gly	Leu Cys	Ala Val Arg	Trp	Ala	Gin Arg
	1605		1610		1615
Val Gly Ala	Glu	Val Tyr	Ala	Thr Ala	Asp Thr Pro	Glu	Asn	Arg Ala
1620			1625		1630
Tyr Leu Glu	Ser	Leu Gly	Val	Arg Tyr	Val Ser Asp	Ser	Arg	Ser Gly
1635			1640	1645
Arg Phe Val	Thr	Asp Val	His	Ala Trp	Thr Asp Gly	Glu	Gly	Val Asp
1650		1655		1660
Val Val Leu	Asp	Ser Leu	Ser	Gly Glu	Arg íle Asp	Lys	Ser	Leu Met
1665		1670			1675			1680
Val Leu Arg	Ala	Cys Gly	Arg	Leu Val	Lys Leu Gly	Arg	Arg	Asp Asp
	1685		1690		1695
Cys Ala Asp	Thr	Gin Pro	Gly	Leu Pro	Pro Leu Leu	Arg	Asn	Phe Ser
1700			1705		1710
Phe Ser Gin	Val	Asp Leu	Arg	Gly Met	Met Leu Asp	Gin	Pro	Ala Arg
1715			1720	1725
íle Arg Ala	Leu	Leu Asp	Glu	Leu Phe	Gly Leu Val	Ala	Ala	Gly Ala
1730		1735		1740
íle Ser Pro	Leu	Gly Ser	Gly	Leu Arg	Val Gly Gly	Ser	Leu	Thr Pro
1745		1750			1755			1760
Pro Pro Val	Glu	Thr Phe	Pro	íle Ser	Arg Ala Ala	Glu	Ala	Phe Arg
	1765		1770		1775
Arg Met Ala	Gin	Gly Gin	His	Leu Gly	Lys Leu Val	Leu	Thr	Leu Asp
1780			1785		1790
Asp Pro Glu	Val	Arg íle	Arg	Ala Pro	Ala Glu Ser	Ser	Val	Ala Val
1795			1800	1805
Arg Ala Asp	Gly	Thr Tyr	Leu	Val Thr	Gly Gly Leu	Gly	Gly	Leu Gly
1810		1815		1820
Leu Arg Val	Ala	Gly Trp	Leu	Ala Glu	Arg Gly Ala	Gly	Gin	Leu Val
1825		1830			1835			1840
Leu Val Gly	Arg	Ser Gly	Ala	Ala Ser	Ala Glu Gin	Arg	Ala	Ala Val
	1845		1850		1855
Ala Ala Leu	Glu	Ala His	Gly	Ala Arg	Val Thr Val	Ala	Lys	Ala Asp
1860			1865		1870
Val Ala Asp	Arg	Ser Gin	íle	Glu Arg	Val Leu Arg	Glu	Val	Thr Ala
1875			1880	1885
Ser Gly Met	Pro	Leu Arg	Gly	Val Val	His Ala Ala Gly	Leu	Val Asp

1890 1895 1900

Asp Gly Leu Leu Met Gin Gin Thr Pro Ala Arg Phe Arg Thr Val Met 1905 1910 1915 1920 ·· ··

153

Gly Pro Lys	Val Gin Gly Ala Leu His Leu His	Thr Leu Thr Arg 1935	Glu
1925	1930
Ala Pro Leu	Ser Phe Phe	Val Leu Tyr Ala Ser	Ala Ala Gly Leu	Phe
1940	1945	1950
Gly Ser Pro	Gly Gin Gly	Asn Tyr Ala Ala Ala	Asn Ala Phe Leu	Asp
1955		1960	1965
Ala Leu Ser	His His Arg	Arg Ala Gin Gly Leu	Pro Ala Leu Ser	íle
1970	1975	1980
Asp Trp Gly	Met Phe Thr	Glu Val Gly Met Ala	Val Ala Gin Glu	Asn
1985	1990	1995	2000
Arg Gly Ala	Arg Gin íle	Ser Arg Gly Met Arg	Gly íle Thr Pro	Asp
	2005	2010	2015
Glu Gly Leu	Ser Ala Leu	Ala Arg Leu Leu Glu	Gly Asp Arg Val	Gin
2020	2025	2030
Thr Gly Val	[le Pro íle	Thr Pro Arg Gin Trp	Val Glu Phe Tyr	Pro
2035		2040	2045
Ala Thr Ala	Ala Ser Arg	Arg Leu Ser Arg Leu	Val Thr Thr Gin	Arg
2050	2055 :	2060
Ala Val Ala	Asp Arg Thr	Ala Gly Asp Arg Asp	Leu Leu Glu Gin	Leu
2065	2070	2075	2080
Ala Ser Ala	Glu Pro Ser	Ala Arg Ala Gly Leu	Leu Gin Asp Val	Val
	2085	2090	2095
Arg Val Gin	Val Ser His	Val Leu Arg Leu Pro	Glu Asp Lys íle	Glu
2100	2105	2110
Val Asp Ala	Pro Leu Ser	Ser Met Gly Met Asp	Ser Leu Met Ser	Leu
2115		2120	2125
Glu Leu Arg	Asn Arg íle	Glu Ala Ala Leu Gly	Val Ala Ala Pro	Ala
2130	2135 ;	2140
Ala Leu Gly	Trp Thr Tyr	Pro Thr Val Ala Ala	íle Thr Arg Trp	Leu
2145	2150	2155	2160
Leu Asp Asp	Ala Leu Val	Val Arg Leu Gly Gly	Gly Ser Asp Thr	Asp
	2165	2170	2175
Glu Ser Thr	Ala Ser Ala	Gly Ser Phe Val His	Val Leu Arg Phe	Arg
2180	2185	2190
Pro Val Val	Lys Pro Arg	Ala Arg Leu Phe Cys	Phe His Gly Ser	Gly
2195		2200	2205
Gly Ser Pro	Glu Gly Phe	Arg Ser Trp Ser Glu	Lys Ser Glu Trp	Ser
2210	2215 :	2220
Asp Leu Glu	íle Val Ala	Met Trp His Asp Arg	Ser Leu Ala Ser	Glu

2225 2230 2235 2240

Asp Ala Pro Gly Lys Lys Tyr Val Gin Glu Ala Ala Ser Leu íle Gin 2245 2250 2255 ····

154 · · ·· ····

99	•
• ·	··
• ·	•
• ·	•
• ·	•
··	···

·· · • 9·· • · · • · ······

His Tyr

Ala Asp Ala Pro Phe Ala Leu Val Gly Phe Ser Leu Gly Val

2260

2265

2270

Arg

Phe

Val

Met

Gly

Thr

Ala

Val

Glu

Leu

Ala

Ser

Arg

Ser

Gly

Ala

2275

2280

2285

Pro

Ala

Pro

Leu

Ala

Val

Phe

Thr

Leu

Gly

Ser

Leu

íle

Ser

2290

2295

2300

Ser

Glu

íle

Thr

Pro

Glu

Met

Glu

Thr

Asp

íle

Ala

Lys

Leu

Phe

2305

2310

2315

2320

Phe

Arg

Asn

Ala

Gly

Phe

Val

Arg

Ser

Thr

Gin

Val

Gin

Ala

2325

2330

2335

Asp

Ala

Arg

Ala

Asp

Lys

Val

íle

Thr

Asp

Thr

Met

Val

Ala

Pro

Ala

2340

2345

2350

Pro

Gly

Asp

Ser

Lys

Glu

Pro

Val

Lys

íle

Ala

Val

Pro

íle

Val

2355

2360

2365

Ala

íle

Ala

Gly

Ser

Asp

Val

íle

Val

Pro

Ser

Asp

Val

Gin

2370

2375

2380

Asp

Leu

Gin

Ser

Arg

Thr

Glu

Arg

Phe

Tyr

Met

His

Leu

Pro

2385

2390

2395

2400

Gly

Asp

His

Glu

Phe

Leu

Val

Asp

Arg

Gly

Arg

Glu

íle

Met

His

íle

2405

2410

2415

Val

Asp

Ser

His

Leu

Asn

Pro

Leu

Ala

Arg

Thr

Ser

2420 2425 2430

Gly Pro Ala Phe Glu Ala Lys 2435 <210> 8 <211> 419 <212> PRT <213> Sorangium cellulosum

<400> 8 Met Thr Gin Glu Gin

Ala Asn Gin

Ser

Glu Thr 10

Lys

Pro

Ala

Phe 15

Asp

1

5

Phe

Lys

Pro

Phe

Ala

Pro

Gly

Tyr

Ala

Glu

Asp

Pro

Phe

Pro

Ala

íle

20

25

30

Glu

Arg

Leu

Arg

Glu

Ala

Thr

Pro

íle

Phe

Tyr

Trp

Asp

Glu

Gly

Arg

35

40

45

Ser

Trp

Val

Leu

Thr

Arg

Tyr

His

Asp

Val

Ser

Ala

Val

Phe

Arg

Asp

50

55

60

Glu

Arg

Phe

Ala

Val

Ser

Arg

Glu

Trp

Glu

Ser

Ala

Glu

Tyr

65

70

75

80

Ser

Ala

íle

Pro

Glu

Leu

Ser

Asp

Met

Lys

Tyr

Gly

Leu

Phe

85

90

95

Gly

Leu

Pro

Glu

Asp

His

Ala

Arg

Val

Arg

Lys

Leu

Val

Asn

Pro

100

105

110

155

• ···· ·· · • ··· Q ·	·· ·· • · · · • · · • · ·	·· • · • · • · ·	• ·· • •
φ · ··· ···	• · · ·· ····	• · ··	• ···

Ser

Phe

Thr

Ser

Arg

Ala

íle

Asp

Leu

Arg

Ala

Glu

íle

Gin

Arg

115

120

125

Thr

Val

Asp

Gin

Leu

Asp

Ala

Arg

Ser

Gly

Gin

Glu

Phe

Asp

130

135

140

Val

Arg Asp

Tyr

Ala

Glu

Gly

íle

Pro

Met

Arg

Ala

íle

Ser

Ala

145

150

155

160

Leu

Lys

Val

Pro

Ala

Glu

Cys

Asp

Glu

Lys

Phe

Arg

Phe

Gly

165

170

175

Ser

Ala

Thr

Ala

Arg

Ala

Leu

Gly

Val

Gly

Leu

Val

Pro

Gin

Val

Asp

180

185

190

Glu

Thr

Lys

Thr

Leu

Val

Ala

Ser

Val

Thr

Glu

Gly

Leu

Ala

Leu

195

200

205

Leu

His

Asp

Val

Leu

Asp

Glu

Arg

Asn

Pro

Leu

Glu

Asn

Asp

210

215

220

Val

Leu

Thr

Met

Leu

Gin

Ala

Glu

Ala

Asp

Gly

Ser

Arg

Leu

Ser

225

230

235

240

Thr

Lys

Glu

Leu

Val

Ala

Leu

Val

Gly

Ala

íle

Ala

Gly

Thr

245

250

255

Asp

Thr

íle

Tyr

Leu

íle

Ala

Phe

Ala

Val

Leu

Asn

Leu

Arg

260

265

270

Ser

Pro

Glu

Ala

Leu

Glu

Leu

Val

Lys

Ala

Glu

Pro

Gly

Leu

Met

Arg

275

280

285

Asn

Ala

Leu

Asp

Glu

Val

Leu

Arg

Phe

Asp

Asn

íle

Leu

Arg

íle

Gly

290

295

300

Thr

Val

Arg

Phe

Ala

Arg

Gin

Asp

Leu

Glu

Tyr

Cys

Gly

Ala

Ser

íle

305

310

315

320

Lys

Gly

Glu

Met

Val

Phe

Leu

íle

Pro

Ser

Ala

Leu

Arg

Asp

325

330

335

Gly

Thr

Val

Phe

Ser

Arg

Pro

Asp

Val

Phe

Asp

Val

Arg

Asp

Thr

340

345

350

Gly

Ala

Ser

Leu

Ala

Tyr

Gly

Arg

Gly

Pro

His

Val

Cys

Pro

Gly

Val

355

360

365

Ser

Leu

Ala

Arg

Leu

Glu

Ala

Glu

íle

Ala

Val

Gly

Thr

íle

Phe

Arg

370

375

380

Arg

Phe

Pro

Glu

Met

Lys

Leu

Lys

Glu

Thr

Pro

Val

Phe

Gly

Tyr

His

385

390

395

400

Pro

Ala

Phe

Arg

Asn

íle

Glu

Ser

Leu

Asn

Val

íle

Leu

Lys

Pro

Ser

405 410 415

Lys Ala Gly ·· ···· ·· · • ··· • · · • · ······

156 ·· ·· • · · · • · · • · · • · · ·· ····

• · • ·	·· •
• · ·	•
• ·	•
··	·· ·

<210> 9 <211> 607 <212> PRT <213> Sorangium cellulosum <400> 9

Ala Ser Leu Asp Ala Leu

Phe Ala

Arg Ala Thr Ser Ala Arg Val Leu

1

5

10

15

Asp

Gly

His

Gly

Arg

Ala

Thr

Glu

Arg

His

Val

Leu

Ala

Glu

Ala

20

25

30

Arg

Gly

íle

Glu

Asp

Leu

Arg

Ala

Leu

Arg

Glu

His

Leu

Arg

íle

Gin

35

40

45

Glu

Gly

Pro

Ser

Phe

His

Cys

Met

Cys

Leu

Gly

Asp

Leu

Thr

Val

50

55

60

Glu

Leu

Ala

His

Asp

Gin

Pro

Leu

Ala

Ser

íle

Ser

Phe

His

65

70

75

80

Ala

Arg

Ser

Leu

Arg

His

Pro

Asp

Trp

Thr

Ser

Asp

Ala

Met

Leu

Val

85

90

95

Asp

Gly

Pro

Ala

Leu

Val

Arg

Trp

Leu

Ala

Arg

Gly

Ala

Pro

Gly

100

105

110

Pro

Leu

Arg

Glu

Tyr

Glu

Arg

Glu

Arg

Ala

Arg

Thr

Ala

Gin

115

120

125

Glu

Ala

Arg

Leu

Trp

Leu

Ala

Pro

Cys

Phe

Ala

Pro

130

135

140

Asp

Leu

Pro

Arg

Phe

Glu

Asp

Ala

Asn

Gly

Leu

Pro

Leu

Gly

Pro

145

150

155

160

Met

Ser

Pro

Glu

Val

Ala

Glu

Ala

Glu

Arg

Leu

Arg

Ala

Ser

Tyr

165

170

175

Ala

Thr

Pro

Glu

Leu

Ala

Cys

Ala

Leu

Ala

Trp

Leu

Gly

Thr

180

185

190

Gly

Ala

Gly

Pro

Trp

Ser

Gly

Tyr

Pro

Ala

Tyr

Glu

Met

Leu

Pro

Glu

195

200

205

Asn

Leu

Gly

Phe

Gly

Leu

Pro

Thr

Ala

íle

Ala

Ser

210

215

220

Ala

Pro

Gly

Thr

Ser

Glu

Ala

Leu

Arg

Gly

Ala

Arg

Leu

Phe

225

230

235

240

Ala

Ser

Trp

Glu

Val

Ser

Lys

Ser

Gin

Leu

Gly

Asn

íle

245

250

255

Pro

Glu

Ala

Leu

Trp

Glu

Arg

Leu

Arg

Thr

íle

Val

Arg

Ala

Met

Gly

2 60

265

270

Asn

Ala

Asp

Asn

Leu

Ser

Arg

Phe

Glu

Arg

Ala

Glu

Ala

íle

Ala

275

280

285

Glu

Val

Arg

Leu

Arg

Ala

Gin

Pro

Ala

Pro

Phe

Ala

Gly

Ala

290

295

300

·· • ···· ·· · • ···

157

Gly Leu 305

Ala

Val

Ala Gly 310

Val Ser Ser

Ser Gly 315

Arg Leu Ser

Gly

Leu 320

Val

Thr

Asp

Gly

Asp

Ala

Leu

Tyr

Ser

Gly

Asp

Gly

Asn

Asp

íle

Val

325

330

335

Met

Phe

Gin

Pro

Gly

Arg

íle

Ser

Pro

Val

Leu

Ala

Gly

Thr

340

345

350

Asp

Pro

Phe

Glu

Leu

Ala

Pro

Leu

Ser

Gin

Met

Leu

Phe

Val

355

360

365

Ala

His

Ala

Asn

Ala

Gly

Thr

íle

Ser

Lys

Val

Leu

Thr

Glu

Gly

Ser

370

375

380

Pro

Leu

íle

Val

Met

Ala

Arg

Asn

Gin

Ala

Arg

Pro

Met

Ser

Leu

Val

385

390

395

400

His

Ala

Arg

Gly

Phe

Met

Ala

Trp

Val

Asn

Gin

Ala

Met

Val

Pro

Asp

405

410

415

Pro

Glu

Arg

Gly

Ala

Pro

Phe

Val

Gin

Arg

Ser

Thr

íle

Met

Glu

420

425

430

Phe

Glu

His

Pro

Thr

Pro

Arg

Cys

Leu

His

Glu

Pro

Ala

Gly

Ser

Ala

435

440

445

Phe

Ser

Leu

Ala

Cys

Asp

Glu

His

Leu

Tyr

Trp

Cys

Glu

Leu

Ser

450

455

460

Ala

Gly

Arg

Leu

Glu

Leu

Trp

Arg

His

Pro

His

Arg

Pro

Gly

Ala

465

470

475

480

Pro

Ser

Arg

Phe

Ala

Tyr

Leu

Gly

Glu

His

Pro

íle

Ala

Thr

Trp

485

490

4 95

Tyr

Pro

Ser

Leu

Thr

Leu

Asn

Ala

Thr

His

Val

Leu

Trp

Ala

Asp

Pro

500

505

510

Asp

Arg

Ala

íle

Leu

Gly

Val

Asp

Lys

Arg

Thr

Gly

Val

Glu

Pro

515

520

525

íle

Val

Leu

Ala

Glu

Thr

Arg

His

Pro

Ala

His

Val

Ser

Glu

530

535

540

Asp

Arg

Asp

íle

Phe

Ala

Leu

Thr

Gly

Gin

Pro

Asp

Ser

Arg

Asp

Trp

545

550

555

560

His

Val

Glu

His

íle

Arg

Ser

Gly

Ala

Ser

Thr

Val

Ala

Asp

Tyr

565

570

575

Gin

Arg

Gin

Leu

Trp

Asp

Arg

Pro

Asp

Met

Val

Leu

Asn

Arg

Gly

580

585

590

Leu

Phe

Thr

Asn

Asp

Arg

íle

Leu

Thr

Leu

Ala

Arg

Ser

595

600

605

<210> 10 <211> 423 <212> PRT <213> Sorangium cellulosum

158

• ····	·· ··	··
·· ·	• · · ·	v	v
• ···	• · ·	• v
• ·	• · · ·	v ·	w
• ·	• · ·	B ·
··· ···	·· ····	··

·· ··· <400> 10

Met 1

Gly

Ala

Leu

íle 5

Ser Val Ala Ala

Pro Gly Cys Ala Leu Gly Gly

10

15

Ala

Glu

Gly

Gin

Pro

Gly

Gin

Asp

Ala

Gly

Ala

Gly

Ala

Leu

20

25

30

Ala

Pro

Ala

Arg

Glu

Val

Met

Ala

Glu

Val

Ala

Gly

Gin

Met

35

40

45

Pro

Gly

Ala

V al

Trp

Leu

Val

Ala

Arg

Gly

Asp

Val

His

Val

Asp

50

55

60

Ala

Val

Gly

Val

Thr

Glu

Leu

Gly Gly

Ser

Ala

Pro

Met

Arg

Asp

65

70

75

80

Thr

íle

Phe

Arg

íle

Ala

Ser

Met

Thr

Lys

Ala

Val

Thr

Ala

Thr

Ala

85

90

95

Val

Met

Leu

Val

Glu

Gly

Lys

Leu

Asp

Leu

Asp

Ser

Pro

Val

100

105

110

Asp

Arg

Trp

Leu

Pro

Glu

Leu

Ala

Asn

Arg

Lys

Val

Leu

Ala

Arg

íle

115

120

125

Asp

Gly

Pro

íle

Asp

Glu

Thr

Val

Pro

Ala

Glu

Arg

Pro

íle

Thr

Val

130

135

140

Arg

Asp

Leu

Met

Thr

Phe

Thr

Met

Gly

Phe

Gly

íle

Ser

Phe

Asp

Ala

145

150

155

160

Ser

Pro

íle

Gin

Arg

Ala

íle

Asp

Glu

Leu

Gly

Leu

Val

Asn

Ala

165

170

175

Gin

Pro

Val

Pro

Met

Thr

Pro

His

Gly

Pro

Asp

Glu

Trp

íle

Arg

180

185

190

Leu

Gly

Thr

Leu

Pro

Leu

Met

His

Gin

Pro

Gly

Ala

Gin

Trp

Met

Tyr

195

200

205

Asn

Thr

Gly

Ser

Leu

Val

Gin

Gly

Val

Leu

Val

Gly

Arg

Ala

Asp

210

215

220

Gin

Gly

Phe

Asp

Ala

Phe

Val

Arg

Glu

Arg

íle

Leu

Ala

Pro

Leu

Gly

225

230

235

240

Met

Arg

Asp

Thr

Asp

Phe

His

Val

Pro

Ala

Asp

Lys

Leu

Ala

Arg

Phe

245

250

255

Ala

Gly

Cys

Gly

Tyr

Phe

Thr

Asp

Glu

Gin

Thr

Gly

Glu

Lys

Thr

Arg

260

265

270

Met

Asp

Arg

Asp

Gly

Ala

Glu

Ser

Ala

Tyr

Ala

Ser

Pro

Ala

Phe

275

280

285

Pro

Ser

Gly

Ala

Gly

Leu

Val

Ser

Thr

Val

Asp

Tyr

Leu

290

295

300

Phe

Ala

Arg

Met

Leu

Met

Asn

Gly

Val

His

Glu

Gly

Arg

Leu

305

310

315

320

Leu

Ser

Ala

Ser

Val

Arg

Glu

Met

Thr

Ala

Asp

His

Leu

Thr

Pro

325

330

335

159

Ala

Gin

Lys

Ala

Ser

Phe

Pro

Gly

Phe

Glu

Thr

His

340

345

350

Gly

Trp

Gly

Tyr

Gly

Met

Ala

Val

Thr

Ala

Pro

Asp

Ala

Val

Ser

355

360

365

Glu

Val

Pro

Gly

Arg

Tyr

Gly

Trp

Asp

Gly

Phe

Gly

Thr

Ser

Trp

370

375

380

íle

Asn

Asp

Pro

Gly

Arg

Glu

Leu

íle

Gly

íle

Val

Met

Thr

Gin

Ser

385

390

395

400

Ala

Gly

Phe

Leu

Phe

Ser

Gly

Ala

Leu

Glu

Arg

Phe

Trp

Arg

Ser

Val

405

410

415

Tyr

Val

Ala

Thr

Glu

Ser

Ala

420 <210> 11 <211> 713 <212> PRT <213> Sorangium cellulosum <400> 11

Met His Gly Leu Thr

Glu

Arg

Gin Val Leu Leu Ser Leu Val Thr Leu

1

5

10

15

Ala

Leu

íle

Leu

Val

Thr

Ala

Arg

Ala

Ser

Gly

Glu

Leu

Ala

Arg

20

25

30

Leu

Arg

Gin

Pro

Glu

Val

Leu

Gly

Glu

Leu

Phe

Gly

Val

Leu

35

40

45

Gly

Pro

Ser

Val

Gly

Ala

Leu

Ala

Pro

Gly

Phe

His

Arg

Ala

Leu

50

55

60

Phe

Gin

Glu

Pro

Ala

Val

Gly

Val

Leu

Ser

Gly

íle

Ser

Trp

íle

65

70

75

80

Gly

Ala

Leu

Met

Ala

Gly

íle

Glu

Val

Asp

Val

Gly

85

90

95

íle

Leu

Arg

Lys

Glu

Ala

Arg

Pro

Gly

Ala

Leu

Ser

Ala

Leu

Gly

Ala

100

105

110

íle

Ala

Pro

Leu

Ala

Gly

Ala

Phe

Ser

Ala

Leu

Val

Leu

115

120

125

Asp

Arg

Pro

Leu

Pro

Ser

Gly

Leu

Phe

Leu

Gly

íle

Val

Leu

Ser

Val

130

135

140

Thr

Ala

Val

Ser

Val

íle

Ala

Lys

Val

Leu

íle

Glu

Arg

Glu

Ser

Met

145

150

155

160

Arg

Ser

Tyr

Ala

Gin

Val

Thr

Leu

Ala

Gly

Val

Ser

Glu

165

170

175

Val

Ala

Trp

Val

Leu

Val

Ala

Met

Thr

Ser

Tyr

Gly

Ala

180

185

190

160

Ser Pro Ala

Leu

Ala Val Ala Arg Ser Ala Leu Leu Ala Ser Gly Phe

195

200

205

Leu

Phe

Met

Val

Leu

Val

Gly

Arg

Leu

Thr

His

Leu

Ala

Met

210

215

220

Arg

Trp

Val

Ala

Asp

Ala

Thr

Arg

Val

Ser

Lys

Gly

Gin

Val

Ser

Leu

225

230

235

240

Val

Leu

Val

Leu

Thr

Phe

Leu

Ala

Leu

Thr

Gin

Arg

Leu

Gly

245

250

255

Leu

His

Pro

Leu

Gly

Ala

Phe

Ala

Leu

Gly

Val

Leu

Asn

Ser

260

265

270

Ala

Pro

Arg

Thr

Asn

Arg

Pro

Leu

Asp

Gly

Val

Gin

Thr

Leu

Val

275

280

285

Ala

Gly

Leu

Phe

Ala

Pro

Val

Phe

Val

Leu

Ala

Gly

Met

Arg

Val

290

295

300

Asp

Val

Ser

Gin

Leu

Arg

Thr

Pro

Ala

Trp

Gly

Thr

Val

Ala

Leu

305

310

315

320

Leu

Ala

Thr

Ala

Thr

Ala

Lys

Val

Pro

Ala

Leu

Gly

325

330

335

Ala

Arg

Leu

Gly

Leu

Arg

Gly

Ser

Glu

Ala

Leu

Val

Ala

Val

340

345

350

Gly

Leu

Asn

Met

Lys

Gly

Thr

Asp

Leu

íle

Val

Ala

íle

Val

Gly

355

360

365

Val

Glu

Leu

Gly

Leu

Ser

Asn

Glu

Ala

Tyr

Thr

Met

Tyr

Ala

Val

370

375

380

Val

Ala

Leu

Val

Thr

Val

Thr

Ala

Ser

Pro

Ala

Leu

íle

Trp

Leu

385

390

395

400

Glu

Lys

Arg

Ala

Pro

Thr

Gin

Glu

Ser

Ala

Arg

Leu

Glu

Arg

405

410

415

Glu

Ala

Arg

Ala

Tyr

íle

Pro

Gly

Val

Glu

Arg

íle

Leu

420

425

430

Val

Pro

íle

Val

Ala

His

Ala

Leu

Pro

Gly

Phe

Ala

Thr

Asp

íle

Val

435

440

445

Glu

Ser

íle

Val

Ala

Ser

Lys

Arg

Lys

Leu

Gly

Glu

Thr

Val

Asp

íle

450

455

460

Thr

Glu

Leu

Ser

Val

Glu

Gin

Ala

Pro

Gly

Pro

Ser

Arg

Ala

465

470

475

480

Gly

Glu

Ala

Ser

Arg

Gly

Leu

Ala

Arg

Leu

Gly

Ala

Arg

Leu

Arg

Val

485

490

4 95

Gly

íle

Trp

Arg

Gin

Arg

Glu

Leu

Arg

Gly

Ser

íle

Gin

Ala

íle

500 505 510

Leu Arg Ala Ser Arg Asp His Asp Leu Leu Val íle Gly Ala Arg Ser

515 520 525 ·· • ·

161

Pro

Ala 530

Arg Ala

Arg

Gly

Met Ser 535

Phe Gly Arg Leu Gin Asp 540

Ala íle

Val

Gin

Arg

Ala

Glu

Ser

Asn

Val

Leu

Val

Gly

Asp

Pro

545

550

555

560

Ala

Glu

Arg

Ala

Ser

Ala

Arg

íle

Leu

Val

Pro

íle

Gly

565

570

575

Leu

Glu

Tyr

Ser

Phe

Ala

Asp

Leu

Ala

His

Val

Ala

Leu

580

585

590

Ala

Trp

Asp

Ala

Glu

Leu

Val

Leu

Ser

Ala

Gin

Thr

Asp

Pro

595

600

605

Gly

Ala

Val

Trp

Arg

Asp

Arg

Glu

Pro

Ser

Arg

Val

Arg

Ala

Val

610

615

620

Ala

Arg

Ser

Val

Asp

Glu

Ala

Val

Phe

Arg

Gly Arg

Arg

Leu

Gly

625

630

635

640

Val

Arg

Val

Ser

Arg

Val

His

Val

Gly

Ala

His

Pro

Ser

Asp

Glu

64 5

650

655

íle

Thr

Arg

Glu

Leu

Ala

Arg

Ala

Pro

Tyr

Asp

Leu

Val

Leu

Gly

660

665

670

Cys

Tyr

Asp

His

Gly

Pro

Leu

Gly

Arg

Leu

Tyr

Leu

Gly

Ser

Thr

Val

675

680

685

Glu

Ser

Val

Arg

Ser

Arg

Val

Pro

Val

Ala

Leu

Val

Ala

690

695

700

His

Gly

Thr

Arg

Glu

Gin

Val

Arg

705 710 <210> 12 <211> 126 <212> PRT <213> Sorangium cellulosum <400> 12

Met Asp 1

Lys

Pro

íle Gly Arg Thr Arg Cys Ala íle Ala Glu Gly

Tyr

5

10

15

íle

Pro

Gly

Ser

Asn

Gly

Pro

Glu

Pro

Gin

Met

Thr

Ser

His

Glu

20

25

30

Thr

Ala

Cys

Leu

Asn

Ala

Ser

Asp

Arg

Asp

Ala

Gin

Val

Ala

íle

35

40

45

Thr

Val

Tyr

Phe

Ser

Asp

Arg

Asp

Pro

Ala

Gly

Pro

Tyr

Arg

Val

Thr

50

55

60

Val

Pro

Ala

Arg

Thr

Arg

His

Val

Arg

Phe

Asn

Asp

Leu

Thr

Glu

65

70

75

80

Pro

Glu

Pro

íle

Pro

Arg

Asp

Thr

Asp

Tyr

Ala

Ser

Val

íle

Glu

Ser

85

90

95

Asp

Ala

Pro

íle

Val

Gin

His

Thr

Arg

Leu

Asp

Ser

Arg

Gin

Ala

100

105

110

• · φφφ

162 v

φφ • ΦΦΦ φ φ

J φφ

Glu Asn

Ala Leu 115

Leu Ser

Thr íle Ala Tyr Thr Asp Arg Glu

120

125

<210> 13

<211> 149

<212> PRT

<213> Sorangium

cellulosum

<400> 13

Met

Lys

His

Val

Asp

Thr

Gly

Arg

Phe

Gly

Arg

íle

Gly

His

1

5

10

15

Thr

Leu

Gly

Leu

Ala

Ser

Met

Ala

Leu

Ala

Gly

Cys

Gly

Pro

20

25

30

Ser

Glu

Lys

Thr

Val

Gin

Gly

Thr

Arg

Leu

Ala

Pro

Gly

Ala

Asp

Ala

35

40

45

Arg

Val

Thr

Ala

Asp

Val

Asp

Pro

Asp

Ala

Thr

Arg

Leu

Ala

50

55

60

Val

Asp

Val

His

Leu

Ser

Pro

Glu

Arg

Leu

Glu

Ala

Gly

Ser

65

70

75

80

Glu

Arg

Phe

Val

Trp

Gin

Arg

Pro

Ser

Pro

Glu

Ser

Pro

Trp

Arg

85

90

95

Arg

Val

Gly

Val

Leu

Asp

Tyr

Asn

Ala

Asp

Ser

Arg

Gly

Lys

Leu

L00

105

110

Ala

Glu

Thr

Val

Pro

Tyr

Ala

Asn

Phe

Glu

Leu

íle

Thr

Ala

115

120

125

Glu

Lys

Gin

Ser

Pro

Gin

Ser

Pro

Ser

Ala

Val

íle

Gly

130

135

140

Pro

Thr

Ser

Val

Gly

145 <210> 14 <211> 184 <212> PRT <213> Sorangium cellulosum

<400> 14

Val 1

Thr Ser

Glu Glu 5

Val

Pro Gly

Ala

Ala 10

Leu

Gly

Ala Gin Ser Ser 15

Leu

Val

Arg

Ala

Gin

His

Ala

Arg

His

Val

Arg

Pro

Cys

Thr

Arg

20

25

30

Ala

Glu

Pro

Ala

Leu

Met

His

Gly

Leu

Thr

Glu

Arg

Gin

Val

35

40

45

Leu

Ser

Leu

Val

Ala

Leu

Ala

Leu

Val

Leu

Thr

Ala

Arg

Ala

50

55

60

Phe

Gly

Glu

Leu

Ala

Arg

Leu

Arg

Gin

Pro

Glu

Val

Leu

Gly

Glu

65

70

75

80

163 ·· ···· ·

·

Leu Phe Gly Gly Val Val Leu Gly Pro Ser Val Val Gly Ala Leu Ala

85

90

95

Pro

Gly

Phe

His

Arg

Val

Leu

Phe

Gin

Asp

Pro

Ala

Val

Gly

Val

100

105

110

Leu

Ser

Gly

íle

Ser

Trp

íle

Gly

Ala

Leu

Val

Leu

Met

Ala

115

120

125

Gly

íle

Glu

Val

Asp

Val

Ser

íle

Leu

Arg

Lys

Glu

Ala

Arg

Pro

Gly

130

135

140

Ala

Leu

Ser

Ala

Leu

Gly

Ala

íle

Ala

Pro

Leu

Arg

Thr

Pro

Gly

145

150

155

160

Pro

Leu

Val

Gin

Arg

Met

Gin

Gly

Ala

Phe

Thr

Trp

Asp

Leu

Asp

Val

165

170

175

Ser

Pro

Arg

Ser

Ala

Gin

Ala

L80 <210> 15 <211> 145 <212> PRT <213> Sorangium cellulosum <400> 15

Val 1

Asn

Ala

Pro Cys Met Arg Cys Thr Ser Gly Pro Gly Val Arg Ser

5

10

15

Gly

Ala

íle

Ala

Pro

Ser

Ala

Glu

Ser

Ala

Pro

Gly

Arg

Ala

Ser

20

25

30

Leu

Arg

Met

Leu

Thr

Ser

Thr

Ser

íle

Pro

Ala

Met

Ser

Arg

35

40

45

Thr

Ser

Ala

Pro

íle

Gin

Glu

Met

Pro

Glu

Ser

Thr

Pro

Thr

Ala

50

55

60

Gly

Ser

Trp

Lys

Arg

Thr

Arg

Trp

Asn

Pro

Gly

Ala

Ser

Ala

Pro

Thr

65

70

75

80

Thr

Asp

Gly

Pro

Ser

Thr

Pro

Lys

Ser

Pro

Ser

Thr

Ser

85

90

95

Gly

Trp

Arg

Ser

Arg

Ala

Ser

Pro

Lys

Ala

Arg

Ala

Val

Arg

100

105

110

Arg

Thr

Ser

Ala

Arg

Ala

Thr

Ser

Glu

Ser

Arg

Thr

Cys

Arg

Ser

Val

115

120

125

Arg

Pro

Cys

íle

Arg

Ala

Gly

Ser

Ala

Arg

Val

Gin

Gly

Arg

130 135 140

Thr <210> 16 <211> 185 <212> PRT <213> Sorangium cellulosum

145

164 ···· ·· ·· ·· · • · · · · · · ·· ··· · · · 4· • · · · · · · *· • · · · · ·« ·· ·· ···· ·· ··· <400> 16

Val Leu Ala Pro Pro

Ala

Asp

íle Arg Pro Pro Ala Ala Ala Gin Leu

1

5

10

15

Glu

Pro

Asp

Ser

Pro

Asp

Glu

Ala

Asp

Glu

Ala

Asp

Glu

Ala

Leu

20

25

30

Arg

Pro

Phe

Arg

Asp

Ala

íle

Ala

Tyr

Ser

Glu

Ala

Val

Arg

Trp

35

40

45

Ala

Glu

Ala

Gin

Arg

Pro

Arg

Leu

Glu

Ser

Leu

Val

Arg

Leu

Ala

50

55

60

íle

Val

Arg

Leu

Gly

Lys

Ala

Leu

Asp

Lys

Val

Pro

Phe

Ala

His

Thr

65

70

75

80

Thr

Ala

Gly

Val

Ser

Gin

íle

Ala

Gly

Arg

Leu

Gin

Asn

Asp

Ala

Val

85

90

95

Trp

Phe

Asp

Val

Ala

Arg

Tyr

Ala

Ser

Phe

Arg

Ala

Thr

Glu

100

105

110

His

Ala

Leu

Arg

Asp

Ala

Ser

Ala

Met

Glu

Ala

Leu

Ala

Gly

115

120

125

Pro

Tyr

Arg

Gly

Ser

Arg

Val

Ser

Ala

Val

Gly

Glu

Phe

Arg

130

135

140

Gly

Glu

Ala

Arg

Leu

His

Pro

Ala

Asp

Arg

Val

Pro

Ala

Ser

Asp

145

150

155

160

Gin

íle

Leu

Thr

Ala

Leu

Arg

Ala

Glu

Arg

Ala

Leu

íle

Ala

165

170

175

Leu

Tyr

Thr

Ala

Phe

Ala

Arg

Glu

180

185

<210> 17 <211> 146 <212> PRT <213> Sorangium cellulosum <400> 17

Met

Ala

Asp

Ala

Ser

Arg

Ser

Ala

Cys

Ser

Val

Ala

Arg

Lys

1

5

10

15

Leu

Ala

Tyr

Arg

Ala

Thr

Ser

Asn

Gin

Thr

Ala

Ser

Phe

Trp

Ser

20

25

30

Leu

Pro

Ala

íle

Trp

Glu

Thr

Pro

Ala

Val

Cys

Ala

Lys

Gly

Thr

35

40

45

Leu

Ser

Ala

Leu

Pro

Ser

Arg

Thr

íle

Ala

Ser

Arg

Thr

Arg

Leu

50

55

60

Ser

Arg

Gly

Arg

Cys

Ala

Ser

Ala

His

Arg

Thr

Ala

Ser

Glu

65

70

75

80

Tyr

Ala

íle

Ala

Ser

Arg

Asn

Gly

Arg

Ser

Ala

Ser

Ala

Ser

85

90

95

• · • ·

165

Ser

Ala

Ser

Gly

Glu

Ser

Gly

Ser

Trp

Ala

Gly

100

105

110

Gly

Arg

Met

Ser

Ala

Gly

Ala

Ser

Thr

Gly

Glu

Val

Tyr

Glu

Gin

115

120

125

Ala

Pro

Arg

Leu

Arg

Leu

Ala

Gin

Ser

Val

Ala

Arg

Asp

130 135 140

Pro Thr

145 <210> 18 <211> 288 <212> PRT <213> Sorangium cellulosum

<400> 18

Met

Pro

Arg

Ser Trp Ser Ser Arg Val Arg Thr

Val 1

Thr

Val

Ser Ser 5

10

15

Val

Thr

Ala

Leu

Gly

Cys

Ala

Arg

Leu

Ser

Gly

Ser

íle

Ser

20

25

30

Arg

Leu

Arg

His

Pro

Glu

Ala

Gly

Arg

Ala

Pro

Arg

Ser

Arg

Leu

35

40

45

Arg

Ala

Trp

Arg

Leu

Pro

Gin

His

íle

Ser

Pro

Trp

Arg

His

50

55

60

Leu

Pro

Gly

Ala

Arg

Val

Gly

Thr

Ser

Cys

Pro

Ala

Asp

Arg

65

70

75

80

íle

Leu

Pro

Ser

His

Arg

Thr

Ala

Asp

Leu

Gly

Thr

Ser

Gly

Thr

85

90

95

Leu

Val

Ala

Arg

Met

Ser

Gly

His

Val

Ala

Arg

Asn

Pro

His

Ala

100

105

110

Val

Leu

Val

Gly

Asp

Gly

Ser

Ala

Arg

Gly Arg

Arg

Leu

Ser

Asn

115

120

125

Arg

Ala

Glu

Arg

Val

Ser

Asp

Val

Thr

Cys

Arg

Glu

Gly Gly

130

135

140

Glu

Ala

Met

Gin

Lys

íle

Ala

Gly

Lys

Leu

Val

Gly

Leu

íle

Ser

145

150

155

160

Val

Ser

Gly

Met

Ser

Leu

Ala

Cys

Gly

Glu

Lys

Arg

Ser

165

170

175

Gly

Glu

Ala

Gin

Thr

Pro

Gly

Ala

Gin

Gly

Glu

Ala

Pro

Val

180

185

190

Pro

Val

Gly

Ser

Ala

Val

Asp

Ser

íle

Val

Ala

Arg

Cys

Asp

Arg

195

200

205

Glu

Ala

Arg

Cys

Asn

íle

Gly

Gin

Asp

Arg

Glu

Tyr

Ser

Lys

210

215

220

Asp

Ala

Cys

Ser

Asn

Lys

íle

Arg

Ser

Glu

Trp

Arg

Asp

Glu

Leu

Thr

225

230

235

240

• B

166

Phe

Gly

Glu

Cys

Pro

Gly

íle

Asp

Ala

Lys

Gin

Leu

Asn

Glu

Cys

245

250

255

Leu

Glu

Gly

íle

Arg

Asn

Glu

Gly

Cys

Gly

Asn

Pro

Phe

Asp

Thr

Leu

260

265

270

Gly

Arg

Val

Ala

Cys

Arg

Ser

Asp

Leu

Cys

Arg

Asp

Ala

Arg

275 280 285 <210> 19 <211> 288 <212> PRT <213> Sorangium cellulosum

<400> 19

Met

Pro

Arg

Ser

Trp Ser Ser Arg Val Arg Thr

Val 1

Thr

Val

Ser

Ser 5

10

15

Val

Thr

Ala

Leu

Gly

Cys

Ala

Arg

Leu

Ser

Gly

Ser

íle

Ser

20

25

30

Arg

Leu

Arg

His

Pro

Glu

Ala

Gly

Arg

Ala

Pro

Arg

Ser

Arg

Leu

35

40

45

Arg

Ala

Trp

Arg

Leu

Pro

Gin

His

íle

Ser

Pro

Trp

Arg

His

50

55

60

Leu

Pro

Gly

Ala

Arg

Val

Gly

Thr

Ser

Cys

Pro

Ala

Asp

Arg

65

70

75

80

íle

Leu

Pro

Ser

His

Arg

Thr

Ala

Asp

Leu

Gly

Thr

Ser

Gly Gly

Thr

85

90

95

Leu

Val

Ala

Arg

Met

Ser

Gly

His

Val

Ala

Arg

Asn

Pro

His

Ala

100

105

110

Val

Leu

Val

Gly

Asp

Gly

Ser

Ala

Arg

Gly

Arg

Leu

Ser

Asn

115

120

125

Arg

Ala

Glu

Arg

Val

Ser

Asp

Val

Thr

Cys

Arg

Glu

Gly

130

135

140

Glu

Ala

Met

Gin

Lys

íle

Ala

Gly

Lys

Leu

Val

Gly

Leu

íle

Ser

145

150

155

160

Val

Ser

Gly

Met

Ser

Leu

Ala

Cys

Gly

Glu

Lys

Arg

Ser

165

170

175

Gly

Glu

Ala

Gin

Thr

Pro

Gly

Ala

Gin

Gly

Glu

Ala

Pro

Val

180

185

190

Pro

Val

Gly

Ser

Ala

Val

Asp

Ser

íle

Val

Ala

Arg

Cys

Asp

Arg

195

200

205

Glu

Ala

Arg

Cys

Asn

íle

Gly

Gin

Asp

Arg

Glu

Tyr

Ser

Lys

210

215

220

Asp

Ala

Cys

Ser

Asn

Lys

íle

Arg

Ser

Glu

Trp

Arg

Asp

Glu

Leu

Thr

225

230

235

240

167

Phe

Gly

Glu

Cys

Pro 245

Gly

íle

Asp

Ala 250

Lys

Gin

Leu

Asn

Glu 255

Cys

Leu

Glu

Gly

íle 260

Arg

Asn

Glu

Gly

Cys 265

Gly

Asn

Pro

Phe

Asp 270

Thr

Leu

Gly

Arg

Val 275

Val

Ala

Cys

Arg

Ser 280

Ser

Asp

Leu

Cys

Arg 285

Asp

Ala

Arg

<210> 20 <211> 155 <212> PRT <213> Sorangium cellulosum

<400> 20

Arg Arg

Glu Lys Arg Pro Ser Leu Leu Asp Ser

Met Asp 1

Pro

Arg Ala 5

10

15

Arg

Gly

Arg

Gin

Pro

Lys

Arg

Ser

Gin

Gly

His

Met

Glu

Lys

20

25

30

Pro

íle

Gly

Arg

Thr

Arg

Trp

Ala

íle

Ala

Glu

Gly

Tyr

íle

Pro

Gly

35

40

45

Arg

Ser

Asn

Gly

Pro

Glu

Pro

Gin

Met

Thr

Ser

His

Glu

Thr

Ala

Cys

50

55

60

Leu

Asn

Ala

Ser

Asp

Arg

Asp

Ala

Gin

Val

Ala

íle

Thr

Val

Tyr

65

70

75

80

Phe

Ser

Asp

Arg

Asp

Pro

Ala

Gly

Pro

Tyr

Arg

Val

Thr

Val

Pro

Ala

85

90

95

Arg

Thr

Arg

His

Val

Arg

Phe

Asn

Asp

Leu

Thr

Glu

Pro

Glu

Pro

100

105

110

íle

Pro

Arg

Asp

Thr

Asp

Tyr

Ala

Ser

Val

íle

Glu

Ser

Asp

Val

Pro

115

120

125

íle

Val

Gin

His

Thr

Arg

Leu

Asp

Ser

Arg

Gin

Ala

Glu

Asn

Ala

130

135

140

Leu

íle

Ser

Thr

íle

Ala

Tyr

Thr

Asp

Arg

Glu

145

150

155

<210> 21 <211> 156 <212> PRT <213> Sorangium cellulosum <400> 21

Val

Arg

Ser

Arg

Trp

Gin

Met

Lys

His

Val

Asp

Thr

Gly

Arg

1

5

10

15

Val

Gly

Arg

íle

Gly

Leu

Thr

Leu

Gly

Leu

Ala

Ser

Met

Ala

20

25

30

Leu

Ala

Gly

Cys

Gly

Pro

Ser

Glu

Lys

íle

Val

Gin

Gly

Thr

Arg

35

40

45

• · • B ·

ΒΒΒ • B • e

168 • · e 9 •

• ••B •

B • B

Leu Ala 50

Pro Gly

Ala Asp Ala His Val Ala Ala Asp Val Asp Pro Asp

55

60

Ala

Thr

Arg

Leu

Ala

Val

Asp

Val

His

Leu

Ser

Pro

65

70

75

80

Glu

Arg

íle

Glu

Ala

Gly

Ser

Glu

Arg

Phe

Val

Trp

Gin

Arg

Pro

85

90

95

Ser

Glu

Ser

Pro

Trp

Gin

Arg

Val

Gly

Val

Leu

Asp

Tyr

Asn

Ala

100

105

110

Ala

Ser

Arg

Gly

Lys

Leu

Ala

Glu

Thr

Val

Pro

His

Ala

Asn

115

120

125

Phe

Glu

Leu

íle

Thr

Val

Glu

Lys

Gin

Ser

Pro

Gin

Ser

Pro

130

135

140

Ser

Ala

Val

íle

Gly

Pro

Thr

Ser

Val

Gly

145 150 155 <210> 22 <211> 305 <212> PRT <213> Sorangium cellulosum

<400> 22

Met 1

Glu

Lys Glu Ser Arg íle Ala 5

íle

Tyr 10

Gly Ala íle

Ala Ala Asn 15

Val

Ala

íle

Ala

Val

Lys

Phe

íle

Ala

Val

Thr

Gly

Ser

20

25

30

Ser

Ala

Met

Leu

Ser

Glu

Gly

Val

His

Ser

Leu

Val

Asp

Thr

Ala

Asp

35

40

45

Gly

Leu

Gly

Lys

His

Arg

Ser

Ala

Arg

Pro

Asp

50

55

60

Ala

Glu

His

Pro

Phe

Gly

His

Gly

Lys

Glu

Leu

Tyr

Phe

Trp

Thr

Leu

65

70

75

80

íle

Val

Ala

íle

Met

íle

Phe

Ala

Gly

Gly Gly

Val

Ser

íle

Tyr

85

90

95

Glu

Gly

íle

Leu

His

Leu

His

Pro

Arg

Gin

íle

Glu

Asp

Pro

Thr

100

105

110

Trp

Asn

Tyr

Val

Leu

Gly

Ala

Val

Phe

Glu

Gly

Thr

Ser

115

120

125

Leu

íle

Ser

íle

His

Glu

Phe

Lys

Asp

Gly

Gin

Gly

Tyr

130

135

140

Leu

Ala

Met

Arg

Ser

Lys

Asp

Pro

Thr

Phe

Thr

íle

Val

145

150

155

160

Leu

Glu

Asp

Ser

Ala

Leu

Ala

Gly

Leu

Thr

íle

Ala

Phe

Leu

Gly

165

170

175

Val

Trp

Leu

Gly

His

Arg

Leu

Gly

Asn

Pro

Tyr

Leu

Asp

Gly

Ala

180

185

190

• · 9 ·

999

169 • · ·· ··

9999

Ser íle Gly íle

Gly

Leu

Val

Leu Ala Ala Val Ala Val

Phe Leu

Ala

195

200

205

Ser

Gin

Ser

Arg

Gly

Leu

Val

Gly

Glu

Ser

Ala

Asp

Arg

Glu

Leu

210

215

220

Leu

Ala

íle

Arg

Ala

Leu

Ala

Ser

Ala

Asp

Pro

Gly

Val

Ser

Ala

225

230

235

240

Val

Gly

Arg

Pro

Leu

Thr

Met

His

Phe

Gly

Pro

His

Glu

Val

Leu

Val

245

250

255

Val

Leu

Arg

íle

Glu

Phe

Asp

Ala

Leu

Thr

Ala

Ser

Gly

Val

Ala

260

265

270

Glu

Ala

íle

Glu

Arg

íle

Glu

Thr

Arg

íle

Arg

Ser

Glu

Arg

Pro

Asp

275

280

285

Val

Lys

His

íle

Tyr

Val

Glu

Ala

Arg

Ser

Leu

His

Gin

Arg

Ala

Arg

290 295 300

Ala

305 <210> 23 <211> 135 <212> PRT <213> Sorangium cellulosum <400> 23

Val Gin Thr 1

Ser

Ser Phe Asp Ala 5

Arg Tyr Ala Gly Cys Lys Ser Ser

10

15

Arg

íle

Ala

Arg

Ser

Gly

Ser

Ala

Gly

Ala

Arg

Ala

Gly

Arg

Ala

20

25

30

His

Glu

Gly

Ala

Ser

Ala

Gly

Phe

Glu

Gly

Asp

Val

Met

Arg

35

40

45

Lys

Ala

Arg

Ala

His

Gly

Ala

Met

Leu

Gly

Arg

Asp

Gly

Trp

50

55

60

Arg

Gly

Leu

Pro

Gly

Ala

Gly

Ala

Leu

Arg

Ala

Leu

Gin

Arg

65

70

75

80

Gly

Arg

Ser

Arg

Asp

Leu

Ala

Arg

Leu

íle

Ala

Ser

Val

Ser

85

90

95

Leu

Ala

Gly

Ala

Ser

Met

Ala

Val

Ser

Leu

Phe

Gin

Leu

Gly

100

105

110

íle

Glu

Arg

Leu

Pro

Asp

Pro

Leu

Pro

Gly

Phe

Asp

Ser

Ala

115

120

125

Lys

Val

Thr

Ser

Asp

íle

130

135

<210> 24 <211> 19 <212> DNA

170 • ···· ·· 9999 ·· · · · · · Λ 9·

999 9 9999 • 9 · · · 9 9 99

9 9 9 9 99

999 999 99 9999 99· <213> Syntetická sekvencia <220>

<223> Opis syntetickej sekvencie: univerzálny reverzný primár <400> 24 ggaaacagct atgaccatg <210> 25 <211> 17 <212> DNA <213> Syntetická sekvencia <220>

<223> Opis syntetickej sekvencie: univerzálny priamy primár <400> 25 gtaaaacgac ggccagt 17 <210> 26 <211> 28 <212> DNA <213> Syntetická sekvencia <220>

<223>	Opis syntetickej sekvencie: NH24 koniec B	PCR	primár
<400>	26
gtgactggcg cctggaatct gcatgagc				28
<210>	27
<211>	28
<212>	DNA
<213>	Syntetická sekvencia
<220> <223>	Opis syntetickej sekvencie: koniec A	PCR	primár	NH2
<400>	27
agcgggagct tgctagacat tctgtttc				28
<210>	28
<211>	24
<212>	DNA
<213>	Syntetická sekvencia
<220> <223>	Opis syntetickej sekvencie: koniec B	PCR	primár	NH2
<400>	28
gacgcgcctc gggcagcgcc ccaa				24

<210> 29 <211> 25 <212> DNA <213> Syntetická sekvencia

171 ···· <220>

<223> Opis syntetickej sekvencie: PCR primér pEPO15-NH6 koniec B <400> 29 caccgaagcg tcgatctggt ccatc <210> 30 <211> 25 <212> DNA <213> Syntetická sekvencia <220>

<223> Opis syntetickej sekvencie: PCR primér pEPO15H2.7 koniec A <400> 30 cggtcagatc gacgacgggc tttcc • · ···· ···

172 ·· •· •· •· ·· ····

Claims

1. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu, ktorá kóduje aspoň jeden polypeptid zúčastňujúci sa biosyntézy epothilonu.

2. Izolovaná molekula nukleovej kyseliny podlá nároku 1, pričom nukleotidová sekvencia je izolovaná z myxobaktérie.

3. Izolovaná molekula nukleovej kyseliny podľa nároku 2, pričom myxobaktéria je Sorangium cellulosum.

4. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 1.

5.

Rekombinantný vektor obsahujúci chimérický gén podľa nároku

4.

6. Rekombinantná podľa nároku 4. hostiteľská bunka obsahujúca chimérický gén 7. Rekombinantná baktéria. hostiteľská bunka podľa nároku 6, ktorou je 8. Rekombinantná aktinomycéta. hostiteľská bunka podľa nároku 7, ktorou je 9. Rekombinantná hostiteľská bunka podľa nároku 8, ktorou je

Streptomyces.

10. Kloň Bac obsahujúci molekulu nukleovej kyseliny podľa ···· ···

173

11. Kloň Bac podľa nároku 10, ktorým je pEPO15.

·· ·· • · · · • · · • · · ·· ···· • · •· •· •· ·· nároku 1.

12. Izolovaná molekula nukleovej kyseliny podľa nároku 1, pričom poplypeptid obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO: 2, aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 13141385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 12851297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 8691037 sekvencie SEQ ID NO: 4, aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, amino174 ·· • ···· ·· · ··· · · · · · · • ··· · · · · · • · · · · · ·· ···· ·· kyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 23832551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO: 7, aminokyseliny 556877 sekvencie SEQ ID NO: 7, aminokyseliny 887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO: 8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.

13. Izolovaná molekula nukleovej kyseliny podlá nároku 12, pričom polypeptid obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO: 2, aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, amino···· ···

175 ·· ·· • · · • · • · · ·· ···· • · ·· · kyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 9731256 sekvencie SEQ ID NO: 3, aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3, SEQ ID NO: 4, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, SEQ ID NO: 5, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 1434— 1506 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, SEQ ID NO: 6, aminokyseliny 35-454 sekvencie SEQ ID NO:

6, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6, aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6, SEQ ID NO: 7, aminokyseliny 32-450 sekvencie SEQ ID NO:

7, aminokyseliny 556-877 sekvencie SEQ ID NO: 7, aminokyseliny • ···· ·· ·· ·· ··· · · · · ··· • ··· · · · · ·

176 • · · · · · · ·· ···· ·· ···

887-1051 sekvencie SEQ ID NO: 7, aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7, aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7, aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7, aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7, SEQ ID NO:

8, SEQ ID NO: 10, SEQ ID NO: 11 a SEQ ID NO: 22.

14. Izolovaná molekula nukleovej pričom nukleotidová sekvencia kyseliny podľa nároku 12, je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej:

komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ

ID NO: 1, nukleotidy

3415-5556 sekvencie

SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 76438920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872

16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie

SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, • ···· ·· ·· ·· ··· 9 9 9 9 9 9 9

9 999 99 999

177

9 9 9 9 99 9999 99 9 nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.

15. Izolovaná molekula nukleovej kyseliny podľa nároku 12, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej:

komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ

ID NO: 1, nukleotidy 3415-5556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643···· ··· ···· · · · • ··· · · · · ·

Τ78 · ···· · · · · ·*· ' ° ····· ·· ··· ··· ·· ···· ·· ·

8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 1625121749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 2056521302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 21746-43519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2343124397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 2791128876 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3240833373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 3677336991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 4136942256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1,

179 ···· ·· ·· ·· • · · · · · · ··· · · · · · *·· · · · · · • · · · · · • •β ·· ···· ·· nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 4362644885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 4808749361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 54935-62254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 5660057565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 59366-60304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 6121161426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 62369-63628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 168750 SEQ ID NO: 1.

16. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 12.

17. Rekombinantný vektor obsahujúci chimérický gén podľa nároku 16.

18.

Rekombinantné hostiteľská bunka obsahujúca chimérický gén podľa nároku 16.

19.

Rekombinantné hostiteľská bunka podľa nároku 18, ktorou je baktéria.

20. Rekombinantné hostiteľská bunka podľa nároku 19, ktorou je aktinomycéta.

• ···· «· ·· ·· ··· ···· · · · • ··· · · * · ·

180 • · · · · · · ·· ··♦· ·· ···

21. Rekombinantná hostiteľská bunka podľa nároku 20, ktorou je Streptomyces.

22. Izolovaná molekula nukleovej kyseliny podľa nároku 1, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: komplementárnu sekvenciu k nukleotidom 1900-3171 sekvencie SEQ ID NO: 1, nukleotidy 34155556 sekvencie SEQ ID NO: 1, nukleotidy 7610-11875 sekvencie SEQ ID NO: 1, nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1052911428 sekvencie SEQ ID NO: 1, nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 1222312246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 1363313680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 1457814607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 1478815639 sekvencie SEQ ID NO: 1, nukleotidy 15901-15924 sekvencie SEQ ID NO: 1, nukleotidy 16251-21749 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2174643519 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1,

181 ···· ··· ·· ·· •· · •· •· · •· · ·· ···· ·· • · · • · • · • · ·· β nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 3053930759 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 43524-54920 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1, nukleotidy 5067051176 sekvencie SEQ ID NO: 1, nukleotidy 51534-52657 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekver.cie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1, nukleotidy 5493562254 sekvencie SEQ ID NO: 1, nukleotidy 55028-56284 sekvencie SEQ ID NO: 1, nukleotidy 56600-57565 sekvencie SEQ ID NO: 1, nukleotidy 57593-58087 sekvencie SEQ ID NO: 1, nukleotidy 5936660304 sekvencie SEQ ID NO: 1, nukleotidy 60362-61099 sekvencie SEQ ID NO: 1, nukleotidy 61211-61426 sekvencie SEQ ID NO: 1, nukleotidy 61427-62254 sekvencie SEQ ID NO: 1, nukleotidy 6236963628 sekvencie SEQ ID NO: 1, nukleotidy 67334-68251 sekvencie SEQ ID NO: 1 a nukleotidy 1-68750 SEQ ID NO: 1.

23. Chimérický gén obsahujúci heterológnu promótorovú sekvenciu operatívne spojenú s molekulou nukleovej kyseliny podľa nároku 22.

24. Rekombinantný vektor obsahujúci chimérický gén podľa nároku

23.

···· ·· ·· • ···· ··· ··

182 9 9 9 • • v • · Λ Λ Λ • · · * a λ λ • 25. Rekombinantná podía nároku 23. hostiteiská bunka obsahujúca chimérický gén 26. Rekombinantná baktéria. hostiteiská bunka podlá nároku 25, ktorou je 27. Rekombinantná aktinomycéta. hostiteiská bunka podía nároku 26, ktorou je 28. Rekombinantná hostiteiská bunka podlá nároku 27, ktorou je

Streptomyces.

29. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu, ktorá kóduje aspoň jednu doménu epothilonsyntázy.

30. Izolovaná molekula nukleovej kyseliny podía nároku 29, pričom doména epothilonsyntázy je β-ketoacylsyntázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 51035525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO:6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

31. Izolovaná molekula nukleovej kyseliny podía nároku 30, pričom β-ketoacylsyntázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024

183 ···· ·· ·· ·· • ···· ··· ··· · · · · · • · · · · · ··· ·· ···· ·· ·

3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

32. Izolovaná molekula nukleovej kyseliny podía nároku 30, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

33. Izolovaná molekula nukleovej kyseliny podľa nároku 30, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 16269-17546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 2631827595 sekvencie SEQ ID NO: 1, nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 37052-38320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087— 49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

34. Izolovaná molekula nukleovej kyseliny podľa nároku 30, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 7643-8920 sekvencie SEQ ID NO: 1, nukleotidy 1626917546 sekvencie SEQ ID NO: 1, nukleotidy 21860-23116 sekvencie SEQ ID NO: 1, nukleotidy 26318-27595 sekvencie SEQ ID NO: 1, ···· ·· ·· ·· • ···· ··· φφφ φ · · · ·

184 • · · φ φ · φφ φφφφ ·· φ nukleotidy 30815-32092 sekvencie SEQ ID NO: 1, nukleotidy 3705238320 sekvencie SEQ ID NO: 1, nukleotidy 43626-44885 sekvencie SEQ ID NO: 1, nukleotidy 48087-49361 sekvencie SEQ ID NO: 1 a nukleotidy 55028-56284 sekvencie SEQ ID NO: 1.

35. Izolovaná molekula nukleovej kyseliny podlá nároku 29, pričom acyltransferázová doména obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

36. Izolovaná molekula nukleovej kyseliny podlá nároku 35, pričom acyltransferázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

37. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1,

185 ···· ·· ·· ·· • · · · · · · ··· · · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

38. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID N0:l, nukleotidy 17865-18827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 38636-39598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

39. Izolovaná molekula nukleovej kyseliny podľa nároku 35, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 9236-10201 sekvencie SEQ ID NO: 1, nukleotidy 1786518827 sekvencie SEQ ID NO: 1, nukleotidy 23431-24397 sekvencie SEQ ID NO: 1, nukleotidy 27911-28876 sekvencie SEQ ID NO: 1, nukleotidy 32408-33373 sekvencie SEQ ID NO: 1, nukleotidy 3863639598 sekvencie SEQ ID NO: 1, nukleotidy 45204-46166 sekvencie SEQ ID NO: 1, nukleotidy 49680-50642 sekvencie SEQ ID NO: 1 a nukleotidy 56600-57565 sekvencie SEQ ID NO: 1.

40. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je enoylreduktázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 • ·

186 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ

ID NO: 7.

41. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom enoylreduktázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 974-1273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO: 7.

42. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

43. Izolovaná molekula nukleovej kyseliny podlá nároku 40, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1052911428 sekvencie SEQ ID NO: 1, nukleotidy 35042-35902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

44. Izolovaná molekula nukleovej kyseliny podľa nároku 40, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 10529-11428 sekvencie SEQ ID NO: 1, nukleotidy 3504235902 sekvencie SEQ ID NO: 1, nukleotidy 41369-42256 sekvencie SEQ ID NO: 1 a nukleotidy 59366-60304 sekvencie SEQ ID NO: 1.

45. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je doména proteínového prenášača

187 ···· ·· ·· ·· • · · · · ··· ··· · · · · ··· · · ·· · • · · · · · ··· ·· ···· ·· · acylovej skupiny, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID NO: 6, aminokyseliny 36733745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

46. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom doména proteínového prenášača acylovej skupiny obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1314-1385 sekvencie SEQ ID NO: 2, aminokyseliny 1722-1792 sekvencie SEQ ID NO: 4, aminokyseliny 1434-1506 sekvencie SEQ ID NO: 5, aminokyseliny 2932-3005 sekvencie SEQ ID NO: 5, aminokyseliny 5010-5082 sekvencie SEQ ID NO: 5, aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 14301503 sekvencie SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie SEQ ID NO: 6 a aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

47. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom nukleotidové sekvencia je v podstate podobná nukleotidovéj sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 2141421626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.

48. Izolovaná molekula nukleovej kyseliny podlá nároku 45, kde ···· ·· ·· 99 • · · · · · · ··· · · 9 9 ·

188 nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 21414-21626 sekvencie SEQ ID NO: 1, nukleotidy 2604526263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 43163-43378 sekvencie SEQ ID NO: 1, nukleotidy 4781148032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.

49. Izolovaná molekula nukleovej kyseliny podľa nároku 45, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 11549-11764 sekvencie SEQ ID NO: 1, nukleotidy 2141421626 sekvencie SEQ ID NO: 1, nukleotidy 26045-26263 sekvencie SEQ ID NO: 1, nukleotidy 30539-30759 sekvencie SEQ ID NO: 1, nukleotidy 36773-36991 sekvencie SEQ ID NO: 1, nukleotidy 4316343378 sekvencie SEQ ID NO: 1, nukleotidy 47811-48032 sekvencie SEQ ID NO: 1, nukleotidy 54540-54758 sekvencie SEQ ID NO: 1 a nukleotidy 61211-61426 sekvencie SEQ ID NO: 1.

50. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je dehydratázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.

51. Izolovaná molekula nukleovej kyseliny podľa nároku 50, pričom dehydratázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, • ···· ·· ·· ·· ·· · ···· ··· • ··· · · · · · • · · · · · · ··· ··· ·· ···· ·· ·

189 aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny

2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.

52. Izolovaná molekula nukleovej pričom nukleotidová sekvencia nukleotidovéj sekvencii vybranej nukleotidy 18855-19361 sekvencie SEQ 33889 sekvencie SEQ ID NO: 1, kyseliny podlá nároku 50, je v podstate podobná zo skupiny obsahujúcej:

ID NO: 1, nukleotidy 33401nukleotidy 39635-40141 sekvencie

SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

53. Izolcvaná molekula nukleovej kyseliny podlá nároku 50, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1885519361 sekvencie SEQ ID NO: 1, nukleotidy 33401-33889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

54. Izolovaná molekula nukleovej kyseliny podľa nároku 50, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 18855-19361 sekvencie SEQ ID NO: 1, nukleotidy 3340133889 sekvencie SEQ ID NO: 1, nukleotidy 39635-40141 sekvencie SEQ ID NO: 1, nukleotidy 50670-51176 sekvencie SEQ ID NO: 1 a nukleotidy 57593-58087 sekvencie SEQ ID NO: 1.

55. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je β-ketoreduktázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID NO: 4, aminokyseliny • · • ·

190

1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

56. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom β-ketoreduktázová doména obsahuje aminokyselinová sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

57. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom nukleotidové sekvencia je v podstate podobná nukleotidovej sekvencií vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 2518425942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

58. Izolovaná molekula nukleovej kyseliny podľa nároku 55, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich nukleotidov sekvenčne identický s úsekom veľkosti 20 bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184-25942 sekvencie SEQ ID NO: 1, nukleotidy 2967830429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie

191 ···· ·· ·· ·· • · · · · · · ··· · · · · · • · · · · · ··· ·· ···· ··

SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 46950-47702 sekvencie SEQ ID NO: 1, nukleotidy 5369754431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

59. Izolovaná molekula nukleovej kyseliny podía nároku 55, pričom nukleotidová sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 20565-21302 sekvencie SEQ ID NO: 1, nukleotidy 25184— 25942 sekvencie SEQ ID NO: 1, nukleotidy 29678-30429 sekvencie SEQ ID NO: 1, nukleotidy 35930-36667 sekvencie SEQ ID NO: 1, nukleotidy 42314-43048 sekvencie SEQ ID NO: 1, nukleotidy 4695047702 sekvencie SEQ ID NO: 1, nukleotidy 53697-54431 sekvencie SEQ ID NO: 1 a nukleotidy 60362-61099 sekvencie SEQ ID NO: 1.

60. Izolovaná molekula nukleovej kyseliny podľa nároku 29, pričom doménou epothilonsyntázy je metyltransferázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2671-3045 sekvencie SEQ ID NO: 6.

61. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom metyltransferázová doména obsahuje aminokyseliny 26713045 sekvencie SEQ ID NO: 6.

62. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom nukleotidová sekvencia je v podstate podobná nukleotidom 51534-52657 sekvencie SEQ ID NO: 1.

63. Izolovaná molekula nukleovej kyseliny podľa nároku 60, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidov 5153452657 sekvencie SEQ ID NO:1.

64. Izolovaná molekula nukleovej kyseliny podľa nároku 60, ··

192 pričom nukleotidovou sekvenciou sú 51534-52657 sekvencie SEQ ID

NO: 1.

65. Izolovaná molekula nukleovej kyseliny podía nároku 29, pričom doménou epothilonsyntázy je tioesterázová doména, ktorá obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7.

66. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom tioesterázová doména obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7.

67. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidová sekvencia je v podstate podobná nukleotidom 61427-62254 sekvencie SEQ ID NO: 1.

68. Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidová sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidov 6142762254 sekvencie SEQ ID NO: 1.

69.

Izolovaná molekula nukleovej kyseliny podľa nároku 65, pričom nukleotidovou sekvenciou sú nukleotidy

61427-62254 sekvencie SEQ ID NO: 1.

70. Izolovaná molekula nukleovej kyseliny obsahujúca nukleotidovú sekvenciu kódujúcu neribozómovú peptidsyntetázu, pričom neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencií vybranej zo skupiny obsahujúcej: SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549

193

565 sekvencie SEQ ID NO: 3, aminokyseliny 588-603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868892 sekvencie SEQ ID NO: 3, aminokyseliny 903-912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.

71. Izolovaná molekula nukleovej kyseliny podía nároku 70, pričom neribozómová peptidsyntetáza obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: SEQ ID NO: 3, aminokyseliny 72-81 sekvencie SEQ ID NO: 3, aminokyseliny 118-125 sekvencie SEQ ID NO: 3, aminokyseliny 199-212 sekvencie SEQ ID NO: 3, aminokyseliny 353-363 sekvencie SEQ ID NO: 3, aminokyseliny 549-565 sekvencie SEQ ID NO: 3, aminokyseliny 588603 sekvencie SEQ ID NO: 3, aminokyseliny 669-684 sekvencie SEQ ID NO: 3, aminokyseliny 815-821 sekvencie SEQ ID NO: 3, aminokyseliny 868-892 sekvencie SEQ ID NO: 3, aminokyseliny 903912 sekvencie SEQ ID NO: 3, aminokyseliny 918-940 sekvencie SEQ ID NO: 3, aminokyseliny 1268-1274 sekvencie SEQ ID NO: 3, aminokyseliny 1285-1297 sekvencie SEQ ID NO: 3, aminokyseliny 973-1256 sekvencie SEQ ID NO: 3 a aminokyseliny 1344-1351 sekvencie SEQ ID NO: 3.

72. Izolovaná molekula nukleovej kyseliny podľa nároku 70, pričom nukleotidová sekvencia je v podstate podobná nukleotidovej sekvencii vybranej zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, • ·

194 nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie

SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 1572415762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie

SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

73. Izolovaná molekula nukleovej kyseliny podía nároku 70, pričom nukleotidové sekvencia obsahuje úsek veľkosti 20 po sebe idúcich bázových párov nukleotidov sekvenčne identický s úsekom veľkosti 20 po sebe idúcich bázových párov nukleotidovej sekvencie vybranej zo skupiny obsahujúcej: nukleotidy 1187216104 sekvencie SEQ ID NO: 1, nukleotidy 12085-12114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 1292812960 sekvencie SEQ ID NO: 1, nukleotidy 13516-13566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 1431314334 sekvencie SEQ ID NO: 1, nukleotidy 14473-14547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 1567315693 sekvencie SEQ ID NO: 1, nukleotidy 15724-15762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

74. Izolovaná molekula nukleovej kyseliny podľa nároku 70, pričom nukleotidové sekvencia je vybraná zo skupiny obsahujúcej: nukleotidy 11872-16104 sekvencie SEQ ID NO: 1, nukleotidy 1208512114 sekvencie SEQ ID NO: 1, nukleotidy 12223-12246 sekvencie SEQ ID NO: 1, nukleotidy 12466-12507 sekvencie SEQ ID NO: 1, nukleotidy 12928-12960 sekvencie SEQ ID NO: 1, nukleotidy 1351613566 sekvencie SEQ ID NO: 1, nukleotidy 13633-13680 sekvencie SEQ ID NO: 1, nukleotidy 13876-13923 sekvencie SEQ ID NO: 1, nukleotidy 14313-14334 sekvencie SEQ ID NO: 1, nukleotidy 1447314547 sekvencie SEQ ID NO: 1, nukleotidy 14578-14607 sekvencie • ···· ·· ·· ·· ··· ···· ··· • ··· · · · · ·

195

SEQ ID NO: 1, nukleotidy 14623-14692 sekvencie SEQ ID NO: 1, nukleotidy 15673-15693 sekvencie SEQ ID NO: 1, nukleotidy 1572415762 sekvencie SEQ ID NO: 1, nukleotidy 14788-15639 sekvencie SEQ ID NO: 1 a nukleotidy 15901-15924 sekvencie SEQ ID NO: 1.

75. Spôsob heterológnej expresie epothilonu v rekombinantnom hostitelovi, vyznačujúci sa tým, že obsahuje kroky:

a) vnesenie chimérického génu podlá nároku 4 do hostiteľa, a

b) rast hostiteľa v podmienkach, ktoré umožňujú biosyntézu epothilonu v hostitelovi.

76. Spôsob prípravy epothilonu, vyznačujúci sa tým, že obsahuje kroky:

a) expresiu epothilonu v rekombinantnom hostitelovi spôsobom podľa náreku 75, a

b) extrakciu epothilonu z rekombinantného hostiteľa.

77. Izolovaný polypeptid obsahujúci aminokyselinovú sekvenciu, ktorá tvorí epothilonsyntázovú doménu.

78. Izolovaný polypeptid podlá nároku 77, pričom epothilonsyntázovou doménou je β-ketoacylsyntázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencií vybranej zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

• ···· ·· ·· ·· ··· ···· · · · • ··· · · · · ·

196 • · · · · · · ·· ···· ·· ···

79. Izolovaný polypeptid podlá nároku 78, pričom β-ketoacylsyntázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 11-437 sekvencie SEQ ID NO: 2, aminokyseliny 7-432 sekvencie SEQ ID NO: 4, aminokyseliny 39-457 sekvencie SEQ ID NO: 5, aminokyseliny 1524-1950 sekvencie SEQ ID NO: 5, aminokyseliny 3024-3449 sekvencie SEQ ID NO: 5, aminokyseliny 5103-5525 sekvencie SEQ ID NO: 5, aminokyseliny 35-454 sekvencie SEQ ID NO: 6, aminokyseliny 1522-1946 sekvencie SEQ ID NO: 6 a aminokyseliny 32-450 sekvencie SEQ ID NO: 7.

80. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je acyltransferázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 543-864 sekvencie SEQ ID NO: 2, aminokyseliny 539-859 sekvencie SEQ ID NO: 4, aminokyseliny 563-884 sekvencie SEQ ID NO: 5, aminokyseliny 2056-2377 sekvencie SEQ ID NO: 5, aminokyseliny 3555-3876 sekvencie SEQ ID NO: 5, aminokyseliny 5631-5951 sekvencie SEQ ID NO: 5, aminokyseliny 561-881 sekvencie SEQ ID NO: 6, aminokyseliny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

81. Izolovaný polypeptid podľa nároku 80, pričom acyltransdoména obsahuje aminokyselinovú sekvenciu vybranú obsahujúcej: aminokyseliny ferázová skupiny

NO: 2, aminokyseliny 543-864 sekvencie SEQ sekvencie SEQ ID NO:

539-859 zo

ID

4, aminokyseliny 563-884

2056-2377 sekvencie sekvencie

SEQ ID NO:

SEQ

ID NO: 5, aminokyseliny

5, aminokyseliny 3555-3876 sekvencie SEQ ID NO:

aminokyseliny

5631-5951 sekvencie SEQ ID

561-881 sekvencie SEQ ID NO: 6, aminokyseNO: 5, aminokyseliny liny 2053-2373 sekvencie SEQ ID NO: 6 a aminokyseliny 556-877 sekvencie SEQ ID NO: 7.

82. Izolovaný polypeptid podľa nároku 77, pričom epothilon···· ·· ·· ·· • · · · · · · · ··· · · 9 9 9

9 9 9 9 9 9

999 99 9999 99 ·

197 syntázovou doménou je enoylreduktázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovéj sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 9741273 sekvencie SEQ ID NO: 2, aminokyseliny 4433-4719 sekvencie SEQ ID NO: 5, aminokyseliny 6542-6837 sekvencie SEQ ID NO: 5 a aminokyseliny 1478-1790 sekvencie SEQ ID NO:

7.

83. Izolovaný polypeptid podľa nároku reduktázová doména obsahuje aminokyselinovú skupiny obsahujúcej:

NO: 2, aminokyseliny aminokyseliny 6542-6837 1478-1790 sekvencie SEQ

82, pričom enoylsekvenciu vybranú aminokyseliny 974-1273 sekvencie SEQ 4433-4719 sekvencie SEQ ID NO:

zo

ID

5, sekvencie SEQ ID NO: 5 a aminokyseliny

ID NO: 7.

84. Izolovaný pclypetid podľa nároku 77, syntázovou doménou je doména proteínového skupiny obsahujúca aminokyselinovú sekvenciu aminokyselinovéj sekvencii vybranej aminokyseliny 1314-1385 sekvencie SEQ 1722-1792 sekvencie

SEQ ID NO: 4, sekvencie SEQ ID NO:

NO: 5, aminokyseliny kyseliny 7140-7211 sekvencie SEQ ID NO:

1503 sekvencie pričom epothilonprenášača acylovej v podstate podobnú zo skupiny obsahujúcej: ID NO: 2, aminokyseliny aminokyseliny 1434-1506

5, aminokyseliny 2932-3005 sekvencie SEQ ID 5010-5082 sekvencie SEQ ID NO: 5, aminoSEQ ID NO: 6 a

5, aminokyseliny 1430—

SEQ ID NO: 6, aminokyseliny 3673-3745 sekvencie aminokyseliny 2093-2164 sekvencie SEQ ID NO: 7.

85. Izolovaný podľa nároku 84, pričom doména acylovej skupiny obsahuje aminokyselinovú skupiny obsahujúcej: aminokyseliny 1314NO: 2, aminokyseliny 1722-1792 sekvencie

SEQ ID NO: 4, aminokyseliny 1434-1506 aminokyseliny 2932-3005 sekvencie SEQ 5010-5082 sekvencie SEQ ID NO: 5, polypeptid proteínového prenášača sekvenciu vybranú zo 1385 sekvencie SEQ ID sekvencie SEQ ID NO: 5,

ID NO: 5, aminokyseliny aminokyseliny 7140-7211 sekvencie SEQ ID NO: 5, aminokyseliny 1430-1503 sekvencie SEQ ID

198 ···· ··· ·· ·· • · · · • · · • · · ·· ···« ·· • · · *· • ·· •· ·· ·

NO: 6, aminokyseliny 3673-3745 aminokyseliny 2093-2164 sekvencie sekvencie SEQ

SEQ ID NO: 7.

ID

NO:

nároku 77, pričom doména epothilonobsahujúca podľa dehydratázová v podstate podobnú aminokyselinovej aminokyseliny 86986. Izolovaný polypeptid syntázovou doménou je aminokyselinovú sekvenciu sekvencii vybranej zo skupiny obsahujúcej: 1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 aminokyseliny 2383-2551 sekvencie SEQ 887-1051 sekvencie SEQ ID NO: 7.

sekvencie SEQ ID NO: 5,

ID NO: 6 a aminokyseliny

87. Izolovaný polypeptid podľa nároku 86, pričom dehydratázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 869-1037 sekvencie SEQ ID NO: 4, aminokyseliny 3886-4048 sekvencie SEQ ID NO: 5, aminokyseliny 5964-6132 sekvencie SEQ ID NO: 5, aminokyseliny 2383-2551 sekvencie SEQ ID NO: 6 a aminokyseliny 887-1051 sekvencie SEQ ID NO: 7.

88. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je β-ketoreduktázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinovej sekvencii vybranej zo skupiny obsahujúcej: aminokyseliny 14391684 sekvencie SEQ ID NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 4729-4974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

89. Izolovaný polypeptid podľa nároku 88, pričom β-ketoreduktázová doména obsahuje aminokyselinovú sekvenciu vybranú zo skupiny obsahujúcej: aminokyseliny 1439-1684 sekvencie SEQ ID

199 • ···· ·· ·· ·· ··· ···· · · · • ··· · · · · · • · · · · · · · · • · · · · · · ··· ··· ·· ···· ·· ·

NO: 4, aminokyseliny 1147-1399 sekvencie SEQ ID NO: 5, aminokyseliny 2645-2895 sekvencie SEQ ID NO: 5, aminokyseliny 47294974 sekvencie SEQ ID NO: 5, aminokyseliny 6857-7101 sekvencie SEQ ID NO: 5, aminokyseliny 1143-1393 sekvencie SEQ ID NO: 6, aminokyseliny 3392-3636 sekvencie SEQ ID NO: 6 a aminokyseliny 1810-2055 sekvencie SEQ ID NO: 7.

90. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je metyltransferázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2671-3045 sekvencie SEQ ID NO: 6.

91. Izolovaný polypeptid podľa nároku 90, pričom metyltransferázová doména obsahuje aminokyseliny 2671-3045 sekvencie SEQ ID NO: 6.

92. Izolovaný polypeptid podľa nároku 77, pričom epothilonsyntázovou doménou je tioesterázová doména obsahujúca aminokyselinovú sekvenciu v podstate podobnú aminokyselinám 2165-2439 sekvencie SEQ ID NO: 7.

93. Izolovaný polypeptid podľa nároku 77, pričom tioesterázová doména obsahuje aminokyseliny 2165-2439 sekvencie SEQ ID NO: 7.