WO1999033998A2

WO1999033998A2 - Regulatorische dna-sequenzen des gens der humanen katalytischen telomerase-untereinheit und deren diagnostische und therapeutische verwendung

Info

Publication number: WO1999033998A2
Application number: PCT/EP1998/008216
Authority: WO
Inventors: Gustav Hagen; Maresa Wick; Dmitry Zubov
Original assignee: Bayer Aktiengesellschaft
Priority date: 1997-12-24
Filing date: 1998-12-22
Publication date: 1999-07-08
Also published as: AU2272999A; AU742489B2; WO1999033998A3; EP1040195A2; JP2003519462A; DE19757984A1; CA2316282A1

Abstract

Diese Erfindung betrifft regulatorische DNA-Sequenzen, beinhaltend Promotorsequenzen, sowie Intronsequenzen, für das Gen der humanen kalytischen Telomerase-Untereinheit. Darüber hinaus betrifft diese Erfindung die Verwendung dieser DNA-Sequenzen für pharmazeutische, diagnostische und therapeutische Zwecke, vor allem in der Behandlung von Krebs und Alterung.

Description

Regulatorische DNA-Sequenzen des Gens der humanen katalytischen Telomerase-Untereinheit und deren diagnostische und therapeutische Verwendung

Aufbau und Funktion der Chromosomenenden

Das genetische Material eukaryontischer Zellen ist auf linearen Chromosomen verteilt. Die Enden der Erbanlagen werden, abgeleitet von den griechischen Wörtern telos (Ende) und meros (Teil, Segment), als Telomere bezeichnet. Die meisten Telomere bestehen aus Wiederholungen von kurzen Sequenzen, die überwiegend aus

Thymin und Guanin aufgebaut sind (Zakian, 1995). In allen bislang untersuchten Wirbeltieren werden die Telomere aus der Sequenz TTAGGG aufgebaut (Meyne et al, 1989).

Die Telomere üben verschiedene wichtige Funktionen aus. Sie verhindern die Fusion von Chromosomen (McClintock, 1941) und damit die Entstehung von dizentrischen Erbanlagen. Solche Chromosomen mit zwei Centromeren können durch Verlust der Heterozygotie bzw. Verdopplung oder Verlust von Genen zur Entwicklung von Krebs führen.

Desweiteren dienen Telomere dazu, intakte Erbanlagen von beschädigten zu unterscheiden. So stellten Hefezellen ihre Zellteilung ein, wenn sie ein Chromosom ohne Telomer enthielten (Sandeil und Zakian, 1993).

Eine weitere wichtige Aufgabe erfüllen Telomere bei der DNA-Replikation eukaryontischer Zellen. Im Gegensatz zu den zirkulären Genomen von Prokaryonten können die linearen Chromosomen der Eukaryonten von dem DNA Polymerase- Komplex nicht vollständig repliziert werden. Zur Initiation der DNA-Replikation sind RNA-Primer notwendig. Nach Abspaltung der RNA-Primer, Verlängerung der Okazaki-Fragmente und anschließender Ligation fehlt dem neu-synthetisierten DNA-

Strang das 5'-Ende, denn dort kann der RNA-Primer nicht durch DNA ersetzt werden. Ohne besondere Schutzmechanismen würden daher die Chromosomen mit jeder Zellteilung sclrrumpfen ("end-replication problem"; Harley et al, 1990). Die nicht-kodierenden Telomersequenzen stellen vermutlich eine Pufferzone dar, um dem Verlust von Genen vorzubeugen (Sandell und Zakian, 1993).

Darüberhinaus spielen Telomere auch eine wichtige Rolle bei der Regulation der zellulären Alterung (Olovnikov, 1973). Humane somatische Zellen zeigen in Kultur eine limitierte Replikationskapazität; sie werden nach einer gewissen Zeit seneszent. In diesem Zustand teilen sich die Zellen selbst nach Stimulierung mit Wachstumsfak- toren nicht mehr, sterben aber nicht, sondern bleiben metabolisch aktiv (Goldstein,

1990). Verschiedene Beobachtungen sprechen für die Hypothese, daß eine Zelle anhand der Länge ihrer Telomere bestimmt, wie oft sie sich noch teilen kann (Allsopp et al, 1992).

Zusammenfassend besitzen die Telomere somit zentrale Funktionen bei der Alterung von Zellen sowie der Stabilisierung des genetischen Materials und Verhinderung von Krebs.

Das Enzym Telomerase synthetisiert die Telomere

Wie oben beschrieben können Organismen mit linearen Chromosomen ohne einen speziellen Schutzmechanismus ihr Genom nur unvollständig replizieren. Die meisten Eukaryonten verwenden zur Regeneration der Telomersequenzen ein spezielles Enzym, die Telomerase. In den bislang untersuchten Einzellern wird Telomerase konsti- tutiv exprimiert. Dagegen wurde in Menschen die Telomerase-Aktivität nur in Keimzellen und Tumorzellen gemessen, wogegen benachbartes somatisches Gewebe keine Telomerase enthielt (Kim et al, 1994).

Funktioneil kann die Telomerase auch als terminale Telomertransferase bezeichnet werden, die als Multiproteinkomplex im Zellkern lokalisiert ist. Während der RNA-

Anteil der humanen Telomerase schon seit längerem bekannt ist (Feng et al, 1995), wurde kürzlich die katalytische Untereinheit dieser Enzymgruppe in verschiedenen Organismen identifiziert (Lingner et al, 1997; vgl. unsere ebenfalls anhängige Anmeldung PCT EP/98/03468). Diese katalytischen Untereinheiten der Telomerase sind sowohl untereinander als auch zu bisher allen bekannten reversen Transkriptasen auffällig homolog.

Auch in WO 98/14592 werden Nukleinsäure- und Aminosäuresequenzen der katalytischen Telomerase-Untereinheit beschrieben.

Aktivierung der Telomerase in menschlichen Tumoren

Eine Aktivität der Telomerase konnte in Menschen ursprünglich nur in Keimbahnzellen, nicht aber in normalen somatischen Zellen (Hastie et al., 1990; Kim et al., 1994) nachgewiesen werden. Nach der Entwicklung eines sensitiveren Nachweisverfahrens (Kim et al, 1994) wurde auch in hematopoieüschen Zellen eine geringe Telomerase- aktivität detektiert (Broccoli et al, 1995; Counter et al, 1995; Hiyama et al, 1995). Allerdings wiesen diese Zellen trotzdem eine Reduktion der Telomere auf (Vaziri et al, 1994; Counter et al, 1995). Noch ist nicht geklärt, ob die Menge an Enzym in diesen Zellen nicht ausreichend für eine Kompensation des Telomerverlustes ist. oder ob die gemessene Telomerase- Aktivität von einer Subpopulation, z.B. unvollständig ausdifferenzierten CD34⁺38⁺-Vorläuferzellen, heιτührt (Hiyama et al, 1995). Zur Klärung wäre ein Nachweis der Telomerase-Aktivität in einer einzelnen Zelle nötig.

Interessanterweise wurde jedoch in einer großen Zahl der bislang getesteten Tumor- gewebe eine signifikante

nachgewiesen (1734/2031, 85 %;

Shay, 1997), während in normalem somatischen Gewebe keine Aktivität gefunden wurde (1/196, <1 %, Shay, 1997). Verschiedene Untersuchungen zeigten außerdem, daß in seneszenten Zellen, die mit viralen Oncoproteinen transformiert wurden, die Telomere weiterhin schrumpften und Telomerase nur in der Subpopulation entdeckt werden konnte, die die Wachstumskrise überlebte (Counter et al., 1992). In diesen immortalisierten Zellen waren auch die Telomere stabil (Counter et al, 1992). Ähnli- ehe Befunde aus Untersuchungen an Mäusen (Blasco et al, 1996) stützen die An- nahme, daß eine Reaktivierung der Telomerase ein spätes Ereignis in der Tumorgenese ist.

Basierend auf diesen Ergebnissen wurde eine "Telomerase-Hypothese" entwickelt, die den Verlust von Telomersequenzen und Zellalterung mit der Aktivität von Telomerase und der Entstehung von Krebs verbindet. In langlebigen Spezies wie dem Menschen kann das Schrumpfen der Telomere als ein Mechanismus zur Tumor- suppression angesehen werden. Ausdifferenzierte Zellen, die keine Telomerase enthalten, stellen bei einer bestimmten Länge der Telomere ihre Zellteilung ein.

Mutiert eine solche Zelle, so kann aus ihr nur dann ein Tumor entstehen, wenn die Zelle ihre Telomere verlängern kann. Ansonsten würde die Zelle weiterhin Telomersequenzen verlieren, bis ihre Chromosomen instabil werden und sie schließlich zugrunde geht. Die Reaktivierung der Telomerase ist vermutlich der Hauptmechanis- mus von Tumorzellen zur Stabilisation ihrer Telomere.

Aus diesen Beobachtungen und Überlegungen ergibt sich, daß eine Inhibition der Telomerase eine Therapie von Tumoren erlauben sollte. Konventionelle Krebstherapien mit Zytostatika oder kurzwelligen Strahlen schädigen nicht nur die Tumorzellen, sondern alle sich teilenden Zellen des Körpers. Da aber außer Tumorzellen nur

Keimbahnzellen eine signifikante Telomerase-Aktivität enthalten, würden Telomerase-lnliibitoren spezifischer die Tumorzellen angreifen und somit weniger unerwünschte Nebenwirkungen hervorrufen. In allen bislang getesteten Tumorgeweben wurde eine Telomerase-Aktivität nachgewiesen, so daß diese Therapeutika gegen alle Krebsarten eingesetzt werden könnten. Die Wirkung von Telomerase-lnliibitoren würde dann eintreten, wenn die Telomere der Zellen sich soweit verkürzt haben, daß das Genom instabil wird. Da Tumorzellen meist kürzere Telomere aufweisen als normale somatische Zellen, würden zuerst Krebszellen durch Telomerase-Inhibitoren eliminiert werden. Zellen mit langen Telomeren, wie die Keimzellen, würden dagegen erst viel später geschädigt werden. Telomerase-Inhibitoren stellen somit einen zukunftsweisenden Weg für die Therapierung von Krebs dar. Eindeutige Antworten auf die Frage nach der Art und den Angriffspunkten physiologischer Telomerase-Inhibitoren werden möglich sein, wenn auch die Regulation der Genexpression der Telomerase identifiziert ist.

Regulation der Genexpression in Eukaryonten

Die eukaryotische Genexpression, d.h. der zelluläre Informationsfluß von der DNA über die RNA zum Protein, weist vielfältige Ansatzpunkte für regulatorische Mecha- nismen auf. Einzelne Kontrollstufen sind z.B. die Gen-Amplifikation, Rekombination von Genloci, Chromatinstruktur, DNA-Methylierung, Transkription, posttrans- kriptionelle mRNA-Modifikationen, mRNA-Transport, Translation und post-trans- lationale Proteinmodifikationen. Nach bisherigen Studien besitzt die Kontrolle auf der Ebene der Transkriptionsinitiation die größte Bedeutung (Latchman, 1991).

Unmittelbar stromaufwärts vom Transl riptionsstart eines von der RNA-Polymerase II transkribierten Gens liegt eine Region, die für die Steuerung der Transl ription verantwortlich ist und als Promotorregion bezeichnet wird. Ein Vergleich der Nukleo- tidsequenzen von Promotorregionen vieler bekannter Gene zeigt, daß bestimmte Sequenzmotive in dieser Region häufig vorkommen. Zu diesen Elementen gehören unter anderem die TATA-Box, die CCAAT-Box und die GC-Box, die von spezifischen Proteinen erkannt werden. Die TATA-Box, die etwa 30 Nukleotide stromaufwärts vom Transkriptionsstart entfernt positioniert ist, wird z.B. von der TFIID- Untereinheit TBP („TATA-box binding protein") erkannt, wogegen bestimmte GC- reiche Sequenzabschnitte vom Transkriptionsfaktor Spl („specificity protein 1") spezifisch gebunden werden.

Funktionen kann man den Promotor in einen regulativen und einen konstitutiven Abschnitt unterteilen (Latchman, 1991). Der konstitutive Kontrollbereich umfaßt den sogenannten Kernpromotor („corepromoter"), der die korrekte Initiation der Transkription ermöglicht. Er enthält die als UPE's (upstream promoter elements") be- schriebenen Sequenzelemente, die für eine effiziente Transl ription notwendig sind. Die regulativen Kontrollabschnitte, die mit den UPE's verflochten sein können, weisen Sequenzelemente auf, die an der signalabhängigen Regulation der Transkription durch Hormone, Wachstumsfaktoren usw. beteiligt sein können. Sie ver- mittein gewebs- oder zellspezifische Promotoreigenschaften.

Ein charakteristisches Merkmal eukaryotischer Gene sind DNA-Abschnitte, die über vergleichsweise große Distanzen hinweg Einfluß auf die Genexpression nehmen können. Diese Elemente können stromaufwärts, stromabwärts oder innerhalb einer TranSakriptionseinheit lokalisiert sein und unabhängig von ihrer Orientierung ihre

Funktion wahrnehmen. Diese Sequenzabschnitte können die Promotoraktivität verstärken (Enhancer) oder abschwächen (Silencer). Ähnlich wie die Promotorregionen beherbergen auch Enhancer und Silencer mehrere Bindungsstellen für Transkriptionsfaktoren.

Die Erfindung betrifft die DNA-Sequenzen aus der 5 '-flankierenden Region des Gens der katalytisch aktiven humanen Telomerase-Untereinheit sowie Intronsequenzen für dieses Gen.

Die Erfindung betrifft insbesondere die 5 '-flankierende regulatorische DNA-

Sequenz, enthaltend die Promotor-DNA-Sequenz für das Gen der humanen katalytischen Telomerase Untereinheit gemäß Fig. 10 (SEQ ID NO 3).

Die Erfindung betrifft weiterhin regulatorisch wirksame Teilbereiche der 5'-flankie- renden regulatorischen DNA-Sequenz gemäß Fig. 4 (SEQ ID NO 1).

Weiterhin sind Gegenstand der vorliegenden Erfindung Intron-Sequenzen für das Gen der humanen katalytischen Telomerase-Untereinheit, insbesondere solche, die regulatorische Wirkung haben. Die erfindungsgemäßen Intronsequenzen werden im Rahmen von Beispiel 5 detailliert beschrieben (vgl. SEQ ID NO 4, 5, 6, 7, 8, 9, 10,

11, 12, 13, 14, 15, 16, 17, 18, 19 und 20). Die Erfindung betrifft weiterhin ein rekombinantes Konstrukt, das die erfindungsgemäßen DNA-Sequenzen, insbesondere die 5 '-flankierende DNA-Sequenz des Gens der humanen katalytischen Telomerase Untereinheit oder Teilbereiche davon beinhaltet.

Bevorzugt sind rekombinante Konstrukte, die neben den erfindungsgemäßen DNA- Sequenzen, insbesondere der 5 '-flankierenden DNA-Sequenz des Gens der humanen katalytischen Telomerase Untereinheit oder Teilbereichen davon, eine oder mehrere weitere DNA-Sequenzen, die für Polypeptide oder Proteine kodieren, enthalten.

Gemäß einer besonders bevorzugten Ausführungsform kodieren diese weiteren DNA-Sequenzen für antitumorale Proteine.

Besonders bevorzugte antitumorale Proteine sind solche, die die Angiogenese direkt oder indirekt inhibieren. Zu diesen Proteinen zählen beispielsweise:

Plasminogenaktivatorinhibitor (PAI-1), PAI-2, PAI-3, Angiostatin, Endostatin, Platelet factor 4, TIMP-1, TIMP-2, TIMP-3, Leukemia Inhibitory Factor (LIF).

Ebenfalls besonders bevorzugt sind antitumorale Proteine, welche direkt oder indirekt eine zytostatische Wirkung auf Tumoren aufweisen. Hierzu zählen im besonderen:

Perforin, Granzym, IL-2, IL-4, IL-12, Interferone, wie beispielsweise IFN-α, IFN-ß,

IFN-γ, TNF, TNF-α, TNF-ß, Oncostatin M; Tumorsuppressorgene, wie z.B. p53, Retinoblastoma.

Weiterhin besonders bevorzugt sind antitumorale Proteine, welche gegebenenfalls zusätzlich zur antitumoralen Wirkung Entzündungen stimulieren und hierdurch zur

Elimination von Tumorzellen beitragen. Hierzu zählen beispielsweise: RANTES, Monocyte chemotactic and activating factor (MCAF), IL-8, Macrophage inflammatory protein (MIP-lα,-ß), Neutrophil activating protein-2 (NAP-2), IL-3, IL-5, human leukemia inhibitory factor (LIF), IL-7, IL-11, IL-13, GM-CSF, G-CSF, M-CSF.

Weiterhin besonders bevorzugt sind antitumorale Proteine, welche aufgrund ihrer Wirkung als Enzyme in der Lage sind, Vorstufen eines antitumoralen Wirkstoffes in einen antitumoralen Wirkstoff zu überführen. Zu diesen Enzymen zählen beispiels- weise:

Herpes Simplex Virus Thymidinkinase, Varizella Zoster Virus Thymidi kinase, bakterielle Nitroreductase, bakterielle ß- Glukuronidase, pflanzliche ß-Glukuronidase aus Seeale careale, humane Glukuronidase, humane Carboxypeptidase, bakterielle Carboxypeptidase, bakterielle ß-Lactamase, bakterielle Cytosindeaminidase, humane

Katalase bzw. Phosphatase, humane alkalische Phosphatase, Typ 5 saure Phospha- tase, humane Lysooxidase, humane saure D-Aminooxidase, humane Glutathion Peroxidase, humane Eosinophilen Peroxidase, humane Schilddrüsen Peroxidase.

Die obengenannten rekombinanten Konstrukte können auch DNA-Sequenzen enthalten, die für Faktor VIII, IX oder Teilfragmente davon kodieren. Zu diesen DNA- Sequenzen zählen auch andere Blutgerinnungsfaktoren

Die obengenannten rekombinanten Konstrukte können auch DNA-Sequenzen enthal- ten, die für ein Reporterprotein kodieren. Zu diesen Reporterproteinen zählen beispielsweise:

Chloramphenicolacetyltransferase (CAT), Glühwürmchen Luziferase (LUC), ß- Galaktosidase (ß-Gal), Sezernierte alkalische Phosphatase (SEAP), Humanes Wachstumshormon (hGH), ß-Glukuronidase (GUS), Grün-fluoreszierendes Protein

(GFP) und alle davon abgeleiteten Varianten, Aquarin, Obelin. Erfindungsgemäße rekombinante Konstrukte können auch DNA kodierend für die humane katalytische Telomerase Untereinheit und deren Varianten und Fragmente in antisense Orientierung enthalten. Gegebenenfalls können diese Konstrukte auch andere Protein-Untereinheiten der humanen Telomerase und die Telomerase-RNA-

Komponente in antisense Orientierung enthalten.

Die rekombinanten Konstrukte können neben der DNA, kodierend für die humane katalytische Telomerase Untereinheit, sowie deren Varianten und Fragmente auch andere Protein-Untereinheiten der humanen Telomerase und die Telomerase-RNA-

Komponente enthalten.

Die Erfindung betrifft weiterhin einen Vektor, enthaltend die oben genannten erfindungsgemäßen DNA-Sequenzen, insbesondere die 5 '-flankierenden DNA-Sequen- zen, sowie eine oder mehrere der oben genannten anderen DNA-Sequenzen.

Bevorzugter Vektor für solche Konstrukte ist ein Virus, beispielsweise ein Retrovi- rus, Adenovirus, adeno-assoziiertes Virus, Herpes Simplex Virus, Vaccina Virus, lentivirales Virus, Sindbis Virus und ein Semliki Forest Virus.

Ebenfalls bevorzugt sind Plasmide als Vektoren.

Die Erfindung betrifft weiterhin pharmazeutische Präparate, enthaltend erfindungsgemäße rekombinante Konstrukte bzw. Vektoren; beispielsweise eine Zube- reitung in einem kolloidalen Dispersionssystem.

Geeignete kolloidale Dispersionssysteme sind beispielsweise Liposome oder Polyly- sin-Liganden.

Die Zubereitungen der erfindungsgemäßen Konstrukte bzw. Vektoren in kolloidalen

Dispersionssystemen können um einen Liganden ergänzt sein, der an Membranstruk- turen von Tumorzellen bindet. Ein solcher Ligand kann z.B. an das Konstrukt bzw. den Vektor angeknüpft sein oder auch Bestandteil der Liposomenstruktur sein.

Geeignete Liganden sind insbesondere polyklonale oder monoklonale Antikörper oder Antikörperfragmente hiervon, die mit ihren variablen Domänen an Membranstrukturen von Tumorzellen binden, oder endständige Mannose-tragende Substanzen, Zytokine, Wachstunisfaktoren oder Fragmente bzw. Teilsequenzen hiervon, die an Rezeptoren auf Tumorzellen binden.

Entsprechende Membranstrukturen sind beispielsweise Rezeptoren für ein Zytokin oder einen Wachstumsfaktor, wie z.B. IL-1, EGF, PDGF, VEGF, TGF ß, Insulin oder Insulin-like Growth Factor (ILGF), oder Adhäsionsmoleküle, wie z. B. SLeX, LFA-1, MAC-1, LECAM-1 oder VLA-4, oder der Mannose-6-Phosphat-Rezeptor.

Zur vorliegenden Erfindung gehören pharmazeutische Zubereitungen, die neben den erfindungsgemäßen Vektorkonstrukten auch nichttoxische, inerte, pharmazeutisch geeignete Trägerstoffe enthalten können. Vorstellbar sind die Applikation (z.B. intravenös, intraarteriell, intramuskulär, subkutan, intradermal, anal, vaginal, nasal, transdermal, intraperitonal, als Aerosol oder oral) am Ort eines Tumors oder die syste- mische Applikation dieser Zubereitungen.

Die erfindungsgemäßen Vektorkonstrukte können in der Gentherapie eingesetzt werden.

Die Erfindung betrifft weiterhin eine rekombinante Wirtszelle, insbesondere eine rekombinante eukaryotische Wirtszelle, enthaltend die vorstehend beschriebenen Konstrukte bzw. Vektoren.

Die Erfindung betrifft weiterhin ein Verfahren zur Identifizierung von Substanzen, die die Promotor-, Silencer- oder Enhanceraktivität der katalytischen Telomerase

Untereinheit beeinflussen, wobei dieses Verfahren folgende Schritte umfaßt: A. Zugabe einer Kandidatensubstanz zu einer Wirtszelle, enthaltend die erfindungsgemäße regulatorische DNA-Sequenz, insbesondere die 5'-flankie- rende regulatorische DNA-Sequenz für das Gen der humanen katalytischen Telomerase-Untereinheit oder einen regulatorisch wirksamen Teilbereich davon, funktionell verl nüpft mit einem Reportergen,

B. Messung des Substanzeffektes auf die Reportergenexpression.

Das Verfal ren kann eingesetzt werden zur Identifizierung von Substanzen, die die

Promotor-, Silencer- oder Enhanceraktivität der katalytischen Telomerase Untereinheit verstärken.

Das Verfahren kann weiterhin eingesetzt werden zur Identifizierung von Substanzen, die die Promotor-, Silencer- oder Enhanceraktivität der katalytischen Telomerase

Untereinheit inhibieren.

Die Erfindung betrifft weiterhin ein Verfaliren zur Identifizierung von Faktoren, die spezifisch an Fragmente der erfindungsgemäßen DNA-Fragmente, insbesondere der 5 '-flankierenden regulatorischen DNA-Sequenz der katalytischen Telomerase

Untereinheit, binden. Diese Methode beinhaltet ein Screening einer Expressions- cDNA-Bibliothek mit der vorstehend beschriebenen DNA-Sequenz oder Teilfragmenten unterschiedlichster Länge als Sonde.

Die vorstehend beschriebenen Konstrukte bzw. Vektoren können auch zur Herstellung transgener Tiere verwendet werden.

Die Erfindung betrifft weiterhin ein Verfahren zur Detektion Telomerase-assozuerter Zustände bei einem Patienten, das folgende Schritte umfaßt: A. Inkubation eines Konstruktes bzw. Vektors, enthaltend die erfindungsgemäße DNA-Sequenz, insbesondere die 5 '-flankierende regulatorische DNA- Sequenz für das Gen der humanen katalytischen Telomerase-Untereinheit oder einen regulatorisch wirksamen Teilbereich davon sowie ein Reportergen mit Körperflüssigkeiten oder zellulären Proben,

B. Detektion der Reportergenaktivität, um einen diagnostischen Wert zu erhalten;

C. Vergleich des diagnostischen Werts mit Standardwerten für das Reportergen- konstrukt in standardisierten normalen Zellen oder Körperflüssigkeiten des gleichen Typs wie die Testprobe;

Detektion diagnostischer Werte, die höher oder niedriger als Standardvergleichswerte liegen, indiziert einen Telomerase-assoziierten Zustand, der wiederum einen pathoge- nen Zustand indiziert.

Erläuterung der Abbildungen:

Fig. 1 : Southern Blot-Analyse mit genomischer DNA verschiedener Spezies

A: Foto eines Ethidiumbromid gefärbten 0,7 %igen Agarosegels mit etwa 4 μg Eco RI geschnittener genomischer DNA. Die Spur 1 enthält Hind III geschnittene λ-DNA als Größenmarker (23,5, 9,4, 6,7, 4,4, 2,3, 2,0, und 0,6 kb). Die Spuren 2 bis 10 enthalten genomische DNA von Mensch,

Rhesusaffe, Spraque Dawley Ratte, BALB/c Maus, Hund, Rind, Kaninchen, Huhn und Hefe (Saccharomyces cerevisiae).

B: Zu FigJ A korrespondierendes Autoradiogramm einer Southern Blot- Analyse, hybridisiert mit einer radioaktiv-markierten etwa 720 bp langen hTC-cDNA Sonde. Fig. 2: Restriktionsanalyse der rekombinanten λ-DNA des Phagenklons P12, der mit einer Sonde aus dem 5 '-Bereich der hTC-cDNA hybridisiert.

Die Abbildung zeigt ein Foto eines Ethidiumbromid gefärbten 0,4 %igen

Agarosegels. Die Spuren 1 und 2 enthalten Eco RI/Hind III gesclinittene λ-DNA bzw eine 1 kb Leiter der Firma Gibco als Größenmarker. Die Spuren 3 - 7 enhalten 250 ng mit Barn HI (Spur 3), Eco RI (Spur 4), Sal I (Spur 5), Xho I (Spur 6) und Sac I (Spur 7) geschnittene DNA des rekombinanten Phagens. Die Pfeile kennzeichnen die zwei λ-Arme des

Vektors EMBL3 Sp6/T7.

Fig. 3: Restriktionsanalyse und Southern Blot-Analyse der rekombinanten λ- DNA des Phagenklons, der mit einer Sonde aus dem 5 ^'-Bereich der hTC- cDNA hybridisiert.

A: Die Abbildung zeigt ein Foto eines Ethidiumbromid gefärbten 0,8%igen Agarosegels. Die Spuren 1 und 15 enthalten eine 1 kb Leiter der Firma Gibco als Größenmarker. Die Spuren 2 bis 14 enthalten 250 ng geschnittene λ-DNA vom rekombinanten Phagenklon. Als Enzyme wurden eingesetzt: Spur 2: Sac I, Spur 3: Xho I, Spur 4: Xho I, Xba I, Spur 5: Sac I, Xho I, Spur 6: Sal I, Xho I, Xba I, Spur 7: Sac I, Xho I, Xba I, Spur 8: Sac I, Sal I, Xba I, Spur 9: Sac I, Sal I, BamH I, Spur 10: Sac I, Sal I, Xho I, Spur 1 1 : Not I, Spur 12: Sma I, Spur 13: leer, Spur 14: nicht verdaut.

B: Zu FigJ A korrespondierendes Autoradiogramm einer Southern Blot- Analyse. Als Sonde für die Hybridisierung wurde ein etwa 420 bp langes 5'-hTC-cDNA Fragment eingesetzt. Fig. 4: Partielle DNA-Sequenz der 5 '-flankierenden Region und des Promotors vom Gen der humanen katalytischen Telomerase-Untereinheit. Das ATG-Startcodon ist in der Sequenz fett hervorgehoben. Die dargestellte Sequenz entspricht SEQ ID NO 1.

Fig. 5: Identifizierung des Translcriptionsstarts durch Primer Extension- Analyse.

Die Abbildung zeigt ein Autoradiogramm eines denaturierenden Poly- acrylamidgels, welches zur Darstellung einer Primer Extension-Analyse gewählt wurde. Als Primer wurde ein Oligonukleotid mit der Sequenz

5'GTTAAGTTGTAGCTTACACTGGTTCTC 3 ' benutzt. In der Spur 1 wurde die Primer Extension Reaktion aufgetragen. Die Spuren G, A, T, C, stellen die Sequenzreaktionen mit dem gleichen Primer und den entsprechenden Dideoxynukleotiden dar. Der fette Pfeil kennzeichnet den Haupt-Transkriptionsstart, die dünnen Pfeile weisen auf drei Neben-

Transkriptionsstartpunkte hin.

Fig. 6: cDNA Sequenz der humanen katalytischen Telomerase-Untereinheit (hTC; vgl. unsere anhängige Anmeldung PCT/EP/98/03468). Die dargestellte Sequenz entspricht SEQ ID NO 2.

Fig. 7: Strukturelle Organisation und Restriktionsmappe des humanen hTC- Gens und dessen 5'- und 3 '-flankierende Region.

Exons sind als durchnummerierte schwarz ausgefüllte Rechtecke und

Introns als nicht ausgefüllte Bereiche hervorgehoben. Nichttranslatierte Sequenzabschnitte in den Exons sind schraffiert. Die Translation startet in Exon 1 und endet in Exon 16. Restriktionsenzymschnittstellen sind wie folgt gekennzeichnet: S, Sacl; X, Xhol. Die relative Anordnung der fünf Phagenklone (P2, P3, P5, P12, P17) und des Produktes aus dem

„Genomic walking" sind durch dünne Linien hervorgehoben. Wie durch die Punkte gekennzeichnet, ist die Sequenz von Intron 16 nur teilweise entschlüsselt.

Fig. 8: HTL Splicevarianten.

A: Schematische Struktur der hTC mRNA Splicevarianten. Die vollständige hTC mRNA ist als grau unterlegtes Rechteck im oberen Bereich der Abb. dargestellt. Die 16 Exons sind entsprechend ihrer Größe dargestellt. Der Translationsstart (ATG) und das Stop-Codon, sowie das Telomerase-spezifische T-Motiv und die sieben RT-Motive sind hervorgehoben. Die hTC-Varianten sind in Deletions- und Insertionsvarianten unterteilt. In den Deletionen sind die fehlenden Exonsequenzen markiert. Die Insertionen sind durch zusätzliche weiße Rechtecke hervorgehoben. Größe und Herkunft der insertierten Sequenzen sind angegeben. Neu entstandene Stop-Codons sind markiert. Die Größe der Insertion von

Variante INS2 ist unbekannt.

B: Exon Intron Übergänge der hTC-Splice-Varianten. Nichtgesplicte 5'- und 3 '-flankierte Sequenzen sind als weiße Rechtecke hervorgehoben. Die Herkunft der Exon und Intron Sequenzen ist angegeben. Intron und

Exon Sequenzen sind in Kleinbuchstaben, bzw. in Großbuchstaben dargestellt. Die Donor und Akzeptor Sequenzen der Splicestellen sind als graue Rechtecke unterlegt und deren Exon Intron Herkunft ist ebenfalls angegeben.

Fig. 9: Identifizierung des Transkriptionsstarts durch RT-PCR Analyse.

Die RT-PCR wurde mit cDNA-Bibliothek aus HL 60 Zellen und genomischer DNA als Positivkontrolle durchgeführt. Ein gemeinsamer 3^'- Primer hybridisiert an eine Sequenzregion aus Exon 1. Die Position der verschiedenen 5' Primer in der kodierenden Region oder der 5^'- flankierenden Region ist angegeben. In der Negativkontrolle wurde keine Template-DNA in der PCR-Reaktion zugegeben. M: DNA-Größen- marker.

Fig. 10: Nukleotidsequenz und Strukturmerkmale des hTC-Promotors. 11273 bp der 5 '-flankierenden hTC Gensequenz, beginnend mit dem

Translationsstartcodon ATG (+1) sind dargestellt. Die putative Region des Translationsstarts ist unterstrichen. Mögliche regulatorische Sequenzabschnitte innerhalb der 4000 bp stromaufwärts des Translationsstarts sind umrandet. Die dargestellte Sequenz entspricht SEQ ID NO 3.

Fig. 1 1 : Aktivität des hTC-Promotors in HEK-293 Zellen.

Im oberen Bereich der Abbildung sind die ersten 5000 bp der 5'- flankierenden hTC Genregion schematisch dargestellt. Das ATG- Startcodon ist hervorgehoben. CpG reiche Inseln sind durch graue Rechtecke markiert. Auf der linken Abbildungsseite sind die Größen der hTC Promotor-Luziferase Konstukte dargestellt. Das pomotorlose pGL2- Basic Konstrukt und das SV40 Promotorkonstrukt pGL2-Pro wurden in jeder Transfektion als Kontrollen eingesetzt. Auf der rechten Abbildungsseite sind ist die relative Luziferaseaktivität der verschiedenen Promotorkonstukte in HEK-Zellen als durchgehende Balken gezeigt. Die

Standardabweichung ist angegeben. Die Zahlenwerte repräsentieren den Durchschnitt von zwei unabhängigen Experimenten, die in Duplikaten durchgeführt wurden.

Tab. 1 : Exon Intron Übergänge des hTC-Gens

Aufgelistet sind die Nukleotidsequenzen an den 3 ^'- und 5^' Spliceübergängen des hTC-Gens. Die Konsensussequenzen für Donor und Akzeptorsequenzen (AG und GT) sind durch graue Rechtecke unterlegt. Intronsequenzen (Kleinbuchstaben) und Exonsequenzen (Groß- buchstaben), die die Spliceal zeptor- und Donorstellen flankieren sind gezeigt. Die Größe der Exons und Introns ist in bp angegeben. Tab. 2: Potentielle Bindungsstellen für DNA-bindende Faktoren in der Nukleotidsequenz von Intron 2

Die Suche nach möglichen DNA-bindenden Faktoren (z.B. Transkriptionsfaktoren) wurde mit dem „Find Pattem"-Algorithmuses aus dem „GCG Sequenz Analysis" Programmpacket der „Genetics Computer Group" (Madison, USA) durchgeführt. Aufgelistet sind die Abkürzungen der identifizierten DNA-bindenden Faktoren und deren Lokalisation in Intron 2.

Tab.1

3 ' Acceptor Sequence 5' Donor Sequence

Intron Exon Exon bp Exon Intron Intr bp No. on

No.

5' flankierende Region GTTTCAGGCAGCGCTGCGT 1 281 CGCCCCCTCCTTCCGCCAG gtgggcctccccggggtcg 1 104 cagggcgcttcccccgc ag GTGTCCTGCCTG.AAGGAGC 2 1354 TGGCTGCGCAGGAGCCCAG gtgaggaggtggtggccgt 2 8616 catgtccttctcgtt . ag GGGTTGGCTGTGTTCCGGC 3 196 TGCAAAGCATTGGAATCAG gtactgtatccccacgcca 3 208? gaggggctctctattgcag ACAGCACTTGAAGAGGGTG 4 181 GTTCCGCAGAGAAAAGAGG gtggctgtgctttggttta 4 687 cccatgctgtccccgccag GCCGAGCGTCTCACCTCGA 5 180 TGAGCTGTACTTTGTCAAG gtgggtgccggggaccccc 5 494 ctcgcctccactcacac ag GTGGATGTGACGGGCGCGT 6 156 CAAGGCCTTCAAGAGCCAC gtaaggttcacgtgtgata 6 >4660 ccctctcctctgccggc ag GTCTCTACCTTGACAGACC 7 96 TGCCGTCGTCATCGAGCAG gtctgggcactgccctgca 7 980 ctcccgtctgctttcgc ag AGCTCCTCCCTGAATGAGG 8 86 CCGTGCGCATCAGGGGCAA gtgagtσaggtggccaggt 8 248S ctgtgtcttσccgcσccag GTCCTACGTCCAGTGCCAG 9 114 CGGGGATTCGGCGGGACGG gtgaggcctcctcttcccc 9 1984 gtattttcccttatttt ag GCTGCTCCTGCGTTTGGTG 10 72 ACGCGA.AAACCTTCCTCAG gtgaggcccgtgccgtgtg 10 1871 cattgcccctctgcctt ag GACCCTGGTCCGAGGTGTC 11 189 TGCAGAGCGACTACTCCAG gtgagcgcacctggccgga 11 380X attcccccctgtgtctc ag CTATGCCCGGACCTCCATC 12 127 CCTGTTTCTGGATTTGCAG gtgagcaggctgatggtca 12 88n tctttcttggcgactct ag GTGAACAGCCTCCAGACGG 13 62 TCCTGCTGCAGGCGTACAG gtgagccgccaccaagggg 13 318'/ ctgtccgccatcc cti ag GTTTCACGCATGTGTGCTG 14 125

gtatgtgcaggtgcctggc 14 781 agcctctgttttcccc< ag GGATGTCGCTGGGGGCCAA 15 138 CTGGGGTCACTCAGGACAG gcaagtgtgggtggaggcc 15 536 tctgattttggccccgdagj CCCAGACGCAGCTGAGTCG 16 664 _{χττττcAGTTTTGAAAAAA} 3' flankierende Region

Tab. 2

Beispiele

Das menschliche Gen für die katalytische Telomerase Untereinheit (ghTC), sowie die 5^' und 3^' liegenden Bereiche dieses Gens wurden kloniert, der Startpunkt der Transkription bestimmt, potentielle Bindungsstellen für DNA-bindende Proteine identifiziert, sowie aktive Promotorfragmente aufgezeigt. Die Sequenz der hTC- cDNA (Fig. 6) ist bereits in unserer ebenfalls anhängigen Anmeldung PCT/ΕP/98/03468 beschrieben. Wenn nicht gesondert erwähnt, beziehen sich sämtliche Angaben zur cDNA-Position auf diese Sequenz.

Beispiel 1

Durch eine genomische Southern Blot-Analyse wurde bestimmt, ob ghTC im menschlichen Genom ein Einzelgen darstellt oder mehrere Loci für das hTC-Gen bzw. eventuell auch ghTC-Pseudogene existieren.

Hierzu wurde ein kommerziell erhältlicher Zoo-Blot der Firma Clontech einer Southern Blot-Analyse unterzogen. Dieser Blot enthält 4 μg Eco RI gesclinittene genomische DNA von neun verschiedenen Spezies (Mensch, Affe, Ratte, Maus, Hund, Rind, Kaninchen, Huhn und Hefe). Mit Ausnahme von Hefe, Huhn und

Mensch wurde die DNA aus Nierengewebe isoliert. Die humane genomische DNA wurde aus Plazenta isoliert und die genomische DNA aus Huhn wurde aus Lebergewebe aufgereinigt. Im Autoradiogramm in Fig. 1 wurde als radioaktiv-markierte Sonde ein etwa 720 bp langes hTC-cDNA Fragment, isoliert aus der hTC cDNA, Variante Del2 (Position 1685 bis 2349 plus 2531 bis 2590 der Fig. 6 [Deletion 2; vergl. Beispiel 5 der Fig. 8]), eingesetzt. Die experimentellen Bedingungen für die Hybridisierung und die Waschschritte des Blots erfolgten in Anlehnung an Ausubel et al. (1987).

Im Fall der humanen DNA erkennt die Sonde zwei spezifische DNA-Fragmente. Das kleinere, etwa 1,5 bis 1,8 kb lange Eco RI-Fragment geht wahrscheinlich auf zwei Eco Rl-Schnittstellen in einem Intron der ghTC-DNA zurück. Aufgrund dieses Ergebnisses ist davon auszugehen, daß nur ein singuläres ghTC-Gen im menschlichen Genom vorliegt.

Beispiel 2

Zur Isolierung der 5' flankierenden hTC-Gensequenz wurden ca 1,5 x 10^ή Phagen einer humanen genomischen Plazenta-Genbibliothek (EMBL 3 SP6/T7 der Firma Clontech, Bestellnummer HL1067J) auf Nitrozellulosefilter (0,45 μm; Fa. Schleicher und Schuell) nach Angaben des Herstellers mit einem radioaktiv markierten, etwa

500 bp langen 5'-hTC-cDNA Fragment (Position 839 bis 1345 der Fig. 6) hybridisiert. Die Nitrozellulosefilter wurden zunächst in 2 x SSC (0,3 M NaCl; 0,5 M Tris-HCl, pH 8,0) und anschließend in einer Prähybridisierungslösung (50 % Formamid; 5 x SSPE, pH 7,4; 5 x Denhards-Lösung; 0,25 % SDS; 100 μg/ml Heringsperma-DNA) zwei Stunden bei 42°C inkubiert. Für die Hybrididsierung über

Nacht wurde die Prähybridisierungslösung mit 1,5 x 10⁶ cpm/ml Lösung denaturierter, radioaktiv markierter Probe ergänzt. Unspezifisch gebundene, radioaktive DNA wurde unter stringenten Bedingungen, d.h. durch drei fünfminütige Waschschritte mit 2 x SSC; 0,1 % SDS bei 55 bis 65 °C entfernt. Die Auswertung erfolgte durch Autoradiographie der Filter.

Die in dieser Primäruntersuchung identifizierten Phagenklone wurden aufgereinigt Ausubel et al. (1987). In weitergehenden Analysen stellte sich ein Phagenklon P12 als potentiell positiv heraus. Eine λ-DNA Präparation dieses Phagens Ausubel et al. (1987) und der nachfolgende Restriktionsverdau mit Enzymen, die das genomische

Insert in Fragmenten freisetzen, zeigte, daß dieser Phagenklon ein ca. 15 kb Insert im Vektor enthält (Fig. 2).

Zur Isolierung der vollständigen hTC-Gensequenz wurden in unabhängigen Experimenten jeweils 1 bis 1,5 x 10⁶ Phagen mit jeweils verschiedenen radioaktiv markierten Sonden wie oben beschrieben durchmustert. Die in diesen Primäruntersuchungen identifizierten, für die entsprechenden Sonden positiven Phagenklone wurden aufgereinigt. Der Phagenklon P17 wurde mit einem etwa 250 bp langen hTC-cDNA Fragment (Position 1787 bis 2040 der Fig. 6) gefunden. Der Phagenklon P2 wurde mit einem etwa 740 bp langen hTC-cDNA

Fragment (Position 1685 bis 2349 plus 2531 bis 2607 der Fig. 6 [Deletion 2; vergl. Beispiel 5]) identifiziert. Die Phagenklone P3 und P5 wurden mit einem 420 bp langen 3' hTC-cDNA Fragment (Position 3047 bis 3470 der Fig. 6) gefunden. Nach λ-DNA Präparation dieser Phagen und nachfolgendem Restriktionsverdau mit Enzymen, die das genomische Insert in Fragmenten freisetzen, wurden die Inserts in

Plasmide umkloniert (Beispiel 4).

Beispiel 3

Um zu untersuchen, ob auch das 5 '-Ende der hTC-cDNA im Insert des rekombinanten Phagenklons P12 vorliegt, wurde λ-DNA dieses Klons in einer Southern Blot Analyse mit einem radioaktiv markierten etwa 440 bp langen hTC-cDNA Fragment (Position 1 bis 440 der Fig. 6) aus dem extremen 5 '-Bereich hybridisiert (Fig. 3).

Da die isolierte λ-DNA des positiven Klons auch mit dem extremen 5 '-Ende der hTC-cDNA hybridisiert, enthält dieser Phage wahrscheinlich auch den das ATG- Startcodon flankierenden 5 '-Sequenzbereich.

Beispiel 4

Um das gesamte 15 kb lange Insert des positiven Phagenklons P12 in Teilfragmenten umzuklonieren und anschließend zu sequenzieren, wurden zum DNA-Verdau Restriktionsendonukleasen ausgewählt, die zum einem das gesamte Insert aus EMBL3 Sp6/T7 freisetzen (vgl. Beispiel 2) und zusätzlich im Insert schneiden. Insgesamt wurden ein etwa 8,3 und ein etwa 6,5 kb langes Xho I-Subfragment sowie ein etwa 8,5, ein etwa 3,5 und ein etwa 3 kb langes Sac I-Teilfragment in den Vektor pBIuescript KS(+) (Fa. Stratagene) umkloniert. Durch Sequenzanalyse dieser Fragmente wurde die Nukleotidsequenz von 5123 bp 5 '-flankierenden des ghTC- Genbereichs, ausgehend vom ATG-Startcodon bestimmt (Fig. 4; entsprechend

SEQ ID NO 1). In der Fig. 4 sind die ersten (ausgehend vom ATG-Startcodon) 5123 bp dargestellt. In der Fig. 10 (entsprechend SEQ ID NO 3) die gesamte klonierte 5' Sequenz.

Um das gesamte ca. 14,6 kb große Insert des Phagenklons P17 in Teilfragmenten umzuklonieren, wurden zum DNA-Verdau Restriktionsendonukleasen ausgewählt, die zum einen das gesamte Insert aus EMLB3 Sp6/T7 freisetzen und zusätzlich einige Male im Insert schneiden. Durch Kombinationsverdau mit den Enzymen Xhol und BamHI wurden ein 7J kb, ein 4,2 kb und ein 1 ,5 kb großes XhoI-BamHI- Fragment sowie ein 1 ,8 kb großes BamHI-Fragment subkloniert. Der Kombinations-

Restriktionsverdau mit den Enzymen Xhol und Xbal führte zur Klonierung von einem 6,5 kb großen Xhol-Xbal-Fragment, einem 6,5 kb und einem 1,5 kb großem Xhol-Fragment.

Die Umklonierung des ca. 17,9 kb großem Inserts des Phagenklons P2 in

Subfragmente erfolgte durch Verdau mit dem Restriktionsenzym Xhol. Insgesamt wurde ein 7,5 kb, ein 6,4 kb sowie ein 1,6 kb langes Xhol-Subfragment kloniert. Durch Verdau mit dem Restriktionsenzym Sacl wurde zusätzlich ein 4,8 kb, ein 3 kb, ein 2 kb sowie ein 1 ,8 kb großes Sacl-Fragment subkloniert.

Das ca. 13,5 kb große Insert des Phagenklons P3 wurde durch Verdau mit den Restriktionsenzymen Sacl bzw. Xhol subkloniert. Dabei wurden ein 3,2 kb, ein 2 kb, ein 0,9 kb, ein 0,8 kb, ein 0,65 kb und ein 0,5 kb langes Sacl-Subfragment sowie ein 6,5 kb und ein 4,3 kb langes Xhol-Subfragment erhalten. Die Subklonierung des ca. 13,2 kb großen Inserts des Phagenklons P5 erfolgte durch Verdau mit den Restriktionsenzymen Sacl bzw. Xhol. Insgesamt wurden Sacl- Fragmente von 6,5 kb, 3,3 kb, 3,2 kb, 0,8 kb und 0,3 kb Größe sowie Xhol- Fragmente von 7 kb und 3,2 kb Größe subkloniert.

Zur Klonierung des 3' von Phagenklon P17 und 5' von Phagenklon P2 gelegenen hTC-genomischen Sequenzbereichs wurden 3 Genomic Walkings mit Hilfe des Genome Walker™ Kits der Firma Clontech (Katalognummer Kl 803-1) und verschiedenen Primerkombinationen durchgeführt. In einem Endvolumen von 50 μl wurde 1 μl humaner GenomeWalker Library HDL (Fa. Clontech) mit lO pmol dNTP-Mix versetzt und in lxKlen Taq PCR-Reaktionspuffer und lxAdvantage Kien Taq Polymerase Mix (Fa. Clontech) eine PCR-Reaktion durchgeführt. Als Primer wurden 10 pmol eines internen genspezifischen Primers sowie 10 pmol des Adaptor Primers API (5'-GTAATACGACTCACTATAGGGC-3'; Fa. Clontech) zugefügt. Die PCR wurde als Touchdown-PCR in 3 Schritten durchgeführt. Zunächst wurde über 7 Zyklen für 20 sec bei 94°C denaturiert und anschließend für 4 min bei 72°C die Primer angelagert und die DNA-Kette verlängert. Es folgten 37 Zyklen bei denen für 20 sec die DNA bei 94°C denaturiert wurde, die anschließende Primerver- längerung aber für 4 min bei 67°C erfolgte. Abschließend folgte eine Kettenver- längerung für 4 min bei 67°C. Im Anschluß an diese erste PCR wurde das PCR-

Produkt 1 :50 verdünnt. Ein μl dieser Verdünnung wurde in einer zweiten „nested" PCR zusammen mit 10 pmol dNTP-Mix in lxKlen Taq PCR-Reaktionspuffer und lxAdvantage Kien Taq Polymerase-Mix sowie 10 pmol eines „nested" gen- spezifischen Primers und 10 pmol des „nested" Marathon Adaptor Primers AP2 (5'- ACTATAGGGCACGCGTGGT-3'; Fa. Clontech) eingesetzt. Die PCR-Bedingungen entsprachen den in der ersten PCR gewählten Parametern. Als einzige Ausnahme wurden im ersten PCR-Schritt statt 7 Zyklen nur 5 Zyklen gewählt und im zweiten PCR-Schritt statt 37 Zyklen nur 24 Zyklen durchlaufen. Produkte dieser Nested- GenomicWalking-PCR wurden in den TA-Cloning Vektor pCRII der Fa. InVitrogen kloniert. Im ersten Genomic Walking wurde der genspezifische Primer C3K2-GSP1 (5'- GACGTGGCTCTTGAAGGCCTTG-3') sowie der „nested" genspezifische Primer C3K2-GSP2 (5'-GCCTTCTGGACCACGGCATACC-3') zusammen mit der HDL- Library 4 eingesetzt und ein 1639 bp langes PCR-Fragment erhalten. Im zweiten Genomic Walking wurde mit dem genspezifischen Primer C3F2 (5'-

CGTAGTTGAGCACGCTGAACAGTG-3') und dem „nested" genspezifischen Primer C3F (5'-CCTTCACCCTCGAGGTGAGACGCT-3') aus der HDL-Library 4 ein PCR-Fragment von 685 bp Länge amplifiziert. Der dritte Genomic Walking Ansatz führte unter Einsatz des genspezifischen Primers DEL5-GSP1 (5'- GGTGGATGTGACGGGCGCGTACG-3') und des „nested" genspezifischen

Primers C5K-GSP1 (5'-GGTATGCCGTGGTCCAGAAGGC-3J zur Klonierung eines 924 bp PCR-Fragments aus der HDL-Library 1. Insgesamt wurden durch dieses Genomic Walking-Verfahren 2100 bp der 3' von Phagenklon P17 gelegenen genomischen hTC-Region identifiziert (s. Fig. 7).

Die subklonierten Fragmente sowie die Genomic Walking-Produkte wurden ein- zelsträngig sequenziert. Unter Verwendung der Lasergene Biocomputing Software (DNASTAR Inc. Madison, Wisconsin, USA) wurden überlappende Bereiche identifiziert und Contigs gebildet. Insgesamt wurden aus den gesammelten Sequenzen der Phagenklone P12, P17, P2, P3 und P5 sowie den Sequenzdaten aus dem Genomic Walking 2 große Contigs zusammengestellt. Contig 1 besteht aus Sequenzdaten von Phagenklon P12, P17 und den Sequenzdaten aus dem Genomic Walking. Contig 2 wurde aus den Sequenzen von Phagenklon P2, P3 und P5 zusammengesetzt. Überlappende Phagenklonbereiche sind in Fig. 7 schematisch dargestellt. Die Sequenzdaten der 2 Contigs sind nachfolgend dargestellt. Das ATG

Startcodon in Contig 1 ist unterstrichen. Das TGA Stopcodon ist in Contig 2 unterstrichen. Contigl :

ACTTGAGCCC AAGAGTTCAA GGCTACGGTG AGCCATGATT GCAACACCAC ACGCCAGCCT TGGTGACAGA 70 ATGAGACCCT GTCTCAAAAA AAAAAAAAAA AATTGAAATA ATAT.AAAGCA TCTTCTCTGG CCACAGTGGA 140 ACAAAACCAG AAATCAACAA CAAGAGGAAT TTTGAAAACT ATACAAACAC ATGAAAATTA AACAATATAC 210 TTCTGAATGA CCAGTGAGTC AATGAAGAAA TTAAAAAGGA AATTGAAAAA TTTATTTAAG CAAATGATAA 280 CGGAAACATA ACCTCTCAAA ACCCACGGTA TACAGCAAAA GCAGTGCTAA GAAGGAAGTT TATAGCTATA 350 AGCAGCTACA TCAAAAAAGT AGAAAAGCCA GGCGCAGTGG CTCATGCCTG TAATCCCAGC ACTTTGGGAG 420 GCCAAGGCGG GCAGATCGCC TGAGGTCAGG AGTTCGAGAC CAGCCTGACC AACACAGAGA AACCTTGTCG 490 CTACTAAAAA TACAAAATTA GCTGGGCATG GTGGCACATG CCTGTAATCC CAGCTACTCG GGAGGCTGAG 560 GCAGGATAAC CGCTTGAACC CAGGAGGTGG AGGTTGCGGT GAGCCGGGAT TGCGCCATTG GACTCCAGCC 630 TGGGTAACAA GAGTGAAACC CTGTCTCAAG AAAAAAAAAA AAGTAGAAAA ACTTAAAAAT ACAACCTAAT 700 GATGCACCTT AAAGAACTAG AAAAGCAAGA GCAAACTAAA CCTAAAATTG GTAAAAGAAA AGAAATAATA 770 AAGATCAGAG CAGAAATAAA TGAAACTGAA AGATAACAAT ACAAAAGATC AACAAAATTA AAAGTTGGTT 840 TTTTGAAAAG ATAAACAAAA TTGACAAACC TTTGCCCAGA CTAAGAAAAA AGGAAAGAAG ACCTAAATAA 910 ATAAAGTCAG AGATGAAAAA AGAGACATTA CAACTGATAC CACAGAAATT CAAAGGATCA CTAGAGGCTA 980 CTATGAGCAA CTGTACACTA ATAAATTGAA AAACCTAGAA AAAATAGATA AATTCCTAGA TGCATACAAC 1050 CTACCAAGAT TGAACCATGA AGAAATCCAA AGCCCAAACA GACCAATAAC AATAATGGGA TTAAAGCCAT 1120 AATAAAAAGT CTCCTAGCAA AGAGAAGCCC AGGACCCAAT GGCTTCCCTG CTGGATTTTA CCAATCATTT 1190 AAAGAAGAAT GAATTCCAAT CCTACTCAAA CTATTCTGAA AAATAGAGGA AAGAATACTT CCAAACTCAT 1260 TCTACATGGC CAGTATTACC CTGATTCCAA AACCAGACAA AAACACATCA AAAACAAACA AACAAAAAAA 1330 CAGAAAGAAA GAAAACTACA GGCCAATATC CCTGATGAAT ACTGATACAA AAATCCTCAA CAAAACACTA 1400 GCAAACCAAA TTAAACAACA CCTTCGAAAG ATCATTCATT GTGATCAAGT GGGATTTATT CCAGGGATGG 1470 AAGGATGGTT CAACATATGC AAATCAATCA ATGTGATACA TCATCCCAAC AAAATGAAGT ACAAAAACTA 1540 TATGATTATT TCACTTTATG CAGAAAAAGC ATTTGATAAA ATTCTGCACC CTTCATGATA AAAACCCTCA 1610 AAAAACCAGG TATACAAGAA ACATACAGGC CAGGCACAGT GGCTCACACC TGCGATCCCA GCACTCTGGG 1680 AGGCCAAGGT GGGATGATTG CTTGGGCCCA GGAGTTTGAG ACTAGCCTGG GCAACAAAAT GAGACCTGGT 1750 CTACAAAAAA CTTTTTTAAA AAATTAGCCA GGCATGATGG CATATGCCTG TAGTCCCAGC TAGTCTGGAG 1820 GCTGAGGTGG GAGAATCACT TAAGCCTAGG AGGTCGAGGC TGCAGTGAGC CATGAACATG TCACTGTACT 1890 CCAGCCTAGA CAACAGAACA AGACCCCACT GAATAAGAAG AAGGAGAAGG AGAAGGGAGA AGGGAGGGAG 1960 AAGGGAGGAG GAGGAGAAGG AGGAGGTGGA GGAGAAGTGG AAGGGGAAGG GGAAGGGAAA GAGGAAGAAG 2030 AAGAAACATA TTTCAACATA ATAAAAGCCC TATATGACAG ACCGAGGTAG TATTATGAGG AAAAACTGAA 2100 AGCCTTTCCT CTAAGATCTG GAAAATGACA AGGGCCCACT TTCACCACTG TGATTCAACA TAGTACTAGA 2170 AGTCCTAGCT AGAGCAATCA GATAAGAGAA AGAAATAAAA GGCATCCAAA CTGGAAAGGA AGAAGTCAAA 2240 TTATCCTGTT TGCAGATGAT ATGATCTTAT ATCTGGAAAA GACTTAAGAC ACCACTAAAA AACTATTAGA 2310 GCTGAAATTT GGTACAGCAG GATACAAAAT CAATGTACAA AAATCAGTAG TATTTCTATA TTCCAACAGC 2380 AAACAATCTG AAAAAGAAAC CAAAAAAGCA GCTACAAATA AAATTAAACA GCTAGGAATT AACCAAAGAA 2450 GTGAAAGATC TCTACAATGA AAACTATAAA ATGTTGATAA AAGAAATTGA AGAGGGCACA AAAAAAGAAA 2520 AGATATTCCA TGTTCATAGA TTGGAAGAAT AAATACTGTT AAAATGTCCA TACTACCCAA AGCAATTTAC 2590 AAATTCAATG CAATCCCTAT TAAAATACTA ATGACGTTCT TCACAGAAAT AGAAGAAACA ATTCTAAGAT 2660 TTGTACAGAA CCACAAAAGA CCCAGAATAG CCAAAGCTAT CCTGACCAAA AAGAACAAAA CTGGAAGCAT 2730 CACATTACCT GACTTCAAAT TATACTACAA AGCTATAGTA ACCCAAACTA CATGGTACTG GCATAAAAAC 2800 AGATGAGACA TGGACCAGAG GAACAGAATA GAGAATCCAG AAACAi^ATCC ATGCATCTAC AGTGAACTCA 2870 TTTTTGACAA AGGTGCCAAG AACATACTTT GGGGAAAAGA TAATCTCTTC AATAAATGGT GCTGGAGGAA 2940 CTGGATATCC ATATGCAAAA TAACAATACT AGAACTCTGT CTCTCACCAT ATACAAAAGC AAATCAAAAT 3010 GGATGAAAGG CTTAAATCTA AAACCTCAAA CTTTGCAACT ACTAAAAGAA AACACCGGAG AAACTCTCCA 3080 GGACATTGGA GTGGGCAAAG ACTTCTTGAG TAATTCCCTG CAGGCACAGG CAACCAAAGC AAAAACAGAC 3150 AAATGGGATC ATATCAAGTT AAAAAGCTTC TGCCCAGCAA AGGAAACAAT CAACAAAGAG AAGAGACAAC 3220 CCACAGAATG GGAGAATATA TTTGCAAACT ATTCATCTAA CAAGGAATTA ATAACCAGTA TATATAAGGA 3290 GCTCAAACTA CTCTATAAGA AAAACACCTA ATAAGCTGAT TTTCAAAAAT AAGCAAAAGA TCTGGGTAGA 3360 CATTTCTCAA AATAAGTCAT ACAAATGGCA AACAGGCATC TGAAAATGTG CTCAACACCA CTGATCATCA 3430 GAGAAATGCA AATCAAAACT ACTATGAGAG ATCATCTCAT CCCAGTTAAA ATGGCTTTTA TTCAAAAGAC 3500 AGGCAATAAC AAATGCCAGT GAGGATGTGG ATAAAAGGAA ACCCTTGGAC ACTGTTGGTG GGAATGGAAA 3570 TTGCTACCAC TATGGAGAAC AGTTTGAAAG TTCCTCAAAA AACTAAAAAT AAAGCTACCA TACAGCAÄTC 3640 CCATTGCTAG GTATATACTC CAAAAAAGGG AATCAGTGTA TCAACAAGCT ATCTCCACTC CCACATTTAC 3710 TGCAGCACTG TTCATAGCAG CCAAGGTTTG GAAGCAACCT CAGTGTCCAT CAACAGACGA ATGGAAAAAG 3780 AAAATGTGGT GCACATACAC AATGGAGTAC TACGCAGCCA TAAAAAAGAA TGAGATCCTG TCAGTTGCAA 3850 CAGCATGGGG GGCACTGGTC AGTATGTTAA GTGAAATAAG CCAGGCACAG AAAGACAAAC TTTTCATGTT 3920 CTCCCTTACT TGTGGGAGCA AAAATTAAAA CAATTGACAT AGAAATAGAG GAGAATGGTG GTTCTAGAGG 3990 GGTGGGGGAC AGGGTGACTA GAGTCAACAA TAATTTATTG TATGTTTTAA AATAACTAAA AGAGTATAAT 4060 TGGGTTGTTT GTAACACAAA GAAAGGATAA ATGCTTGAAG GTGACAGATA CCCCATTTAC CCTGATGTGA 4130 TTATTACACA TTGTATGCCT GTATCAAAAT ATCTCATGTA TGCTATAGAT ATAAACCCTA CTATATTAAA 4200 AATTAAAATT TTAATGGCCA GGCACGGTGG CTCATGTCCG TAATCCCAGC ACTTTGGGAG GCCGAGGCGG 4270 GTGGATCACC TGAGGTCAGG AGTTTGAAAC CAGTCTGGCC ACCATGATGA AACCCTGTCT CTACTAAAGA 4340 TACAAAAATT AGCCAGGCGT GGTGGCACAT ACCTGTAGTC CCAACTACTC AGGAGGCTGA GACAGGAGAA 4410 TTGCTTGAAC CTGGGAGGCG GAGGTTGCAG TGAGCCGAGA TCATGCCACT GCACTGCAGC CTGGGTGACA 4480 GAGCAAGACT CCATCTCAAA ACAAAAACAA AAAAAAGAAG ATTAAAATTG TAATTTTTAT GTACCGTATA 4550 AATATATACT CTACTATATT AGAAGTTAAA AATTAAAACA ATTATAAAAG GTAATTAACC ACTTAATCTA 4620 AAATAAGAAC AATGTATGTG GGGTTTCTAG CTTCTGAAGA AGTAAAAGTT ATGGCCACGA TGGCAGAAAT 4690 GTGAGGAGGG AACAGTGGAA GTTACTGTTG TTAGACGCTC ATACTCTCTG TAAGTGACTT AATTTTAACC 4760 AAAGACAGGC TGGGAGAAGT TAAAGAGGCA TTCTATAAGC CCTAAAACAA CTGCTAATAA TGGTGAAAGG 4830 TAATCTCTAT TAATTACCAA TAATTACAGA TATCTCTAAA ATCGAGCTGC AGAATTGGCA CGTCTGATCA 4900 CACCGTCCTC TCATTCACGG TGCTTTTTTT CTTGTGTGCT TGGAGATTTT CGATTGTGTG TTCGTGTTTG 4970 GTTAAACTTA ATCTGTATGA ATCCTGAAAC GAAAAATGGT GGTGATTTCC TCCAGAAGAA TTAGAGTACC 5040 TGGCAGGAAG.CAGGTGGCTC TGTGGACCTG AGCCACTTCA ATCTTCAAGG GTCTCTGGCC AAGACCCAGG 5110 TGCAAGGCAG AGGCCTGATG ACCCGAGGAC AGGAAAGCTC GGATGGGAAG GGGCGATGAG AAGCCTGCCT 5180

CGTTGGTGAG CAGCGCATGA AGTGCCCTTA TTTACGCTTT GCAAAGATTG CTCTGGATAC CATCTGGAAA 5250

AGGCGGCCAG CGGGAATGCA AGGAGTCAGA AGCCTCCTGC TCAAACCCAG GCCAGCAGCT ATGGCGCCCA 5320

CCCGGGCGTG TGCCAGAGGG AGAGGAGTCA AGGCACCTCG AAGTATGGCT TAAATCTTTT TTTCACCTGA 5390

5 AGCAGTGACC AAGGTGTATT CTGAGGGAAG CTTGAGTTAG GTGCCTTCTT TAAAACAGAA AGTCATGGAA 5460

GCACCCTTCT CAAGGGAAAA CCAGACGCCC GCTCTGCGGT CATTTACCTC TTTCCTCTCT CCCTCTCTTG 5530

CCCTCGCGGT TTCTGATCGG GACAGAGTGA CCCCCGTGGA GCTTCTCCGA GCCCGTGCTG AGGACCCTCT 5600

TGCAAAGGGC TCCACAGACC CCCGCCCTGG AGAGAGGAGT CTGAGCCTGG CTTAATAACA AACTGGGATG 5670

TGGCTGGGGG CGGACAGCGA CGGCGGGATT CAAAGACTTA ATTCCATGAG TAAATTCAAC CTTTCCACAT 5740

10 CCGAATGGAT TTGGATTTTA TCTTAATATT TTCTTAAATT TCATCAAATA ACATTCAGGA CTGCAGAAAT 5810

CCAAAGGCGT AAAACAGGAA CTGAGCTATG TTTGCCAAGG TCCAAGGACT TAATAACCAT GTTCAGAGGG 5880

ATTTTTCGCC CTAAGTACTT TTTATTGGTT TTCATAAGGT GGCTTAGGGT GCAAGGGAAA GTACACGAGG 5950

AGAGGCCTGG GCGGCAGGGC TATGAGCACG GCAGGGCCAC CGGGGAGAGA GTCCCCGGCC TGGGAGGCTG 6020

ACAGCAGGAC CACTGACCGT CCTCCCTGGG AGCTGCCACA TTGGGCAACG CGAAGGCGGC CACGCTGCGT 6090

15 GTGACTCAGG ACCCCATACC GGCTTCCTGG GCCCACCCAC ACTAACCCAG GAAGTCACGG AGCTCTGAAC 6160

CCGTGGAAAC GAACATGACC CTTGCCTGCC TGCTTCCCTG GGTGGGTCAA GGGTAATGAA GTGGTGTGCA 6230

GGAAATGGCC ATGTAAATTA CACGACTCTG CTGATGGGGA CCGTTCCTTC CATCATTATT CATCTTCACC 6300

CCCAAGGACT GAATGATTCC AGCAACTTCT TCGGGTGTGA CAAGCCATGA CAAAACTCAG TACAAACACC 6370

ACTCTTTTAC TAGGCCCACA GAGCACGGSC CACACCCCTG ATATATTAAG AGTCCAGGAG AGATGAGGCT 6440

20 GCTTTCAGCC ACCAGGCTGG GGTGACAACA GCGGCTGAAC AGTCTGTTCC TCTAGACTAG TAGACCCTGG 6510

CAGGCACTCC CCCAGATTCT AGGGCCTGGT TGCTGCTTCC CGAGGGCGCC ATCTGCCCTG GAGACTCAGC 6580

CTGGGGTGCC ACACTGAGGC CAGCCCTGTC TCCACACCCT CCGCCTCCAG GCCTCAGCTT CTCCAGCAGC 6650

TTCCTAAACC CTGGGTGGGC CGTGTTCCAG CGCTACTGTC TCACCTGTCC CACTGTGTCT TGTCTCAGCG 6720

ACGTAGCTCG CACGGTTCCT CCTCACATGG GGTGTCTGTC TCCTTCCCCA ACACTCACAT GCGTTGAAGG 6790

25 GAGGAGATTC TGCGCCTCCC AGACTGGCTC CTCTGAGCCT GAACCTGGCT CGTGGCCCCC GATGCAGGTT 6860

CCTGGCGTCC GGCTGCACGC TGACCTCCAT TTCCAGGCGC TCCCCGTCTC CTGTCATCTG CCGGGGCCTG 6930

CCGGTGTGTT CTTCTGTTTC TGTGCTCCTT TCCACGTCCA GCTGCGTGTG TCTCTGCCCG CTAGGGTCTC 7000

GGGGTTTTTA TAGGCATAGG ACGGGGGCGT GGTGGGCCAG GGCGCTCTTG GGAAATGCAA CATTTGGGTG 7070

TGAAAGTAGG AGTGCCTGTC CTCACCTAGG TCCACGGGCA CAGGCCTGGG G.-.TGGAGCCC CCGCCAGGGA 7140 m V CCCGCCCTTC TCTGCCCAGC ACTTTCCTGC CCCCCTCCCT CTGGAACACA GAGTGGCAGT TTCCACAAGC 7210

ACTAAGCATC CTCTTCCCAA AAGACCCAGC ATTGGCACCC CTGGACATTT GCCCCACAGC CCTGGGAATT 7280

CACGTGACTA CGCACATCAT GTACACACTC CCGTCCACGA CCGACCCCCG CTGTTTTATT TTAATAGCTA 7350

CAAAGCAGGG AAATCCCTGC TAAAATGTCC TTTAACAAAC TGGTTAAACA AACGGGTCCA TCCGCACGGT 7420

GGACAGTTCC TCACAGTGAA GAGGAACATG CCGTTTATAA AGCCTGCAGG CATCTCAAGG GAATTACGCT 7490

35 GAGTCAAAAC TGCCACCTCC ATGGGATACG TACGCAACAT GCTCAAAAAG AAAGAATTTC ACCCCATGGC 7560

AGGGGAGTGG TTAGGGGGGT TAAGGACGGT GGGGGCGGCA GCTGGGGGCT ACTGCACGCA CCTTTTACTA 7630

AAGCCAGTTT CCTGGTTCTG ATGGTATTGG CTCAGTTATG GGAGACTAAC CATAGGGGAG TGGGGATGGG 7700

GGAACCCGGA GGCTGTGCCA TCTTTGCCAT GCCCGAGTGT CCTGGGCAGG ATAATGCTCT AGAGATGCCC 7770

ACGTCCTGAT TCCCCCAAAC CTGTGGACAG AACCCGCCCG GCCCCAGGGC CTTTGCAGGT GTGATCTCCG 7840

40 TGAGGACCCT GAGGTCTGGG ATCCTTCGGG ACTACCTGCA GGCCCGAAAA GTAATCCAGG GGTTCTGGGA 7910

AGAGGCGGGC AGGAGGGTCA GAGGGGGGCA GCCTCAGGAC GATGGAGGCA GTCAGTCTGA GGCTGAAAAG 7980

GGAGGGAGGG CCTCGAGCCC AGGCCTGCAA GCGCCTCCAG AAGCTGGAAA AAGCGGGGAA GGGACCCTCC 8050

ACGGAGCCTG CAGCAGGAAG GCACGGCTGG CCCTTAGCCC ACCAGGGCCC ATCGTGGACC TCCGGCCTCC 8120

GTGCCATAGG AGGGCACTCG CGCTGCCCTT CTAGCATGAA GTGTGTGGGG ATTTGCAGAA GCAACAGGAA 8190

43 ACCCATGCAC TGTGAATCTA GGATTATTTC AAAACAAAGG TTTACAGAAA CATCCAAGGA CAGGGCTGAA 8260

GTGCCTCCGG GCAAGGGCAG GGCAGGCACG AGTGATTTTA TTTAGCTATT TTATTTTATT TACTTACTTT 8₃₃0

CTGAGACAGA GTTATGCTCT TGTTGCCCAG GCTGGAGTGC AGCGGCATGA TCTTGGCTCA CTGCAACCTC 8400

CGTCTCCTGG GTTCAAGCAA TTCTCGTGCC TCAGCCTCCC AAGTAGCTGG GATTTCAGGC GTGCACCACC 8470

ACACCCGGCT AATTTTGTAT TTTTAGTAGA GATGGGCTTT CACCATGTTG GTCAAGCTGA TCTCAAAATC 8540

50 CTGACCTCAG GTGATCCGCC CACCTCAGCC TCCCAAAGTG CTGGGATTAC AGGCATGAGC CACTGCACCT 8610

GGCCTATTTA ACCATTTTAA AACTTCCCTG GGCTCAAGTC ACACCCACTG GTAAGGAGTT CATGGAGTTC 8680

AATTTCCCCT TTACTCAGGA GTTACCCTCC TTTGATATTT TCTGTAATTC TTCGTAGACT GGGGATACAC 8750

CGTCTCTTGA CATATTCACA GTTTCTGTGA CCACCTGTTA TCCCATGGGA CCCACTGCAG GGGCAGCTGG 8820

GAGGCTGCAG GCTTCAGGTC CCAGTGGGGT TGCCATCTGC CAGTAGAAAC CTGATGTAGA ATCAGGGCGC 8890

55 AAGTGTGGAC ACTGTCCTGA ATCTCAATGT CTCAGTGTGT GCTGAAACAT GTAGAAATTA AAGTCCATCC 8960

CTCCTACTCT ACTGGGATTG AGCCCCTTCC CTATCCCCCC CCAGGGGCAG AGGAGTTCCT CTCACTCCTG 90₃0

TGGAGGAAGG AATGATACTT TGTTATTTTT CACTGCTGGT ACTGAATCCA CTGTTTCATT TGTTGGTTTG 9100

TTTGTTTTGT TTTGAGAGGC GGTTTCACTC TTGTTGCTCA GGCTGGAGGG AGTGCAATGG CGCGATCTTG 9170

GCTTACTGCA GCCTCTGCCT CCCAGGTTCA AGTGATTCTC CTGCTTCCGC CTCCCATTTG GCTGGGATTA 9240

60 CAGGCACCCG CCACCATGCC CAGCTAATTT TTTGTATTTT TAGTAGAGAC GGGGGTGGGT GGGGTTCACC 9310

ATGTTGGCCA GGCTGGTCTC GAACTTCTGA CCTCAGATGA TCCACCTGCC TCTGCCTCCT AAAGTGCTGG 9380

GATTACAGGT GTGAGCCACC ATGCCCAGCT CAGAATTTAC TCTGTTTAGA AACATCTGGG TCTGAGGTAG 9450

GAAGCTCACC CCACTCAAGT GTTGTGGTGT TTTAAGCCAA TGATAGAATT TTTTTATTGT TGTTAGAACA 9520

CTCTTGATGT TTTACACTGT GATGACTAAG ACATCATCAG CTTTTCAAAG ACACACTAAC TGCACCCATA 9590

65 ATACTGGGGT GTCTTCTGGG TATCAGCAAT CTTCATTGAA TGCCGGGAGG CGTTTCCTCG CCATGCACAT 9660

GGTGTTAATT ACTCCAGCAT AATCTTCTGC TTCCATTTCT TCTCTTCCCT CTTTTAAAAT TGTGTTTTCT 9730

ATGTTGGCTT CTCTGCAGAG AACCAGTGTA AGCTACAACT TAACTTTTGT TGGAACAAAT TTTCCAAACC 9800

GCCCCTTTGC CCTAGTGGCA GAGACAATTC ACAAACACAG CCCTTTAAAA AGGCTTAGGG ATCACTAAGG 9870

GGATTTCTAG AAGAGCGACC TGTAATCCTA AGTATTTACA AGACGAGGCT AACCTCCAGC GAGCGTGACA 9940

70 GCCCAGGGAG GGTGCGAGGC CTGTTCAAAT GCTAGCTCCA TAAATAAAGC AATTTCCTCC GGCAGTTTCT 10010

GAAAGTAGGA AAGGTTACAT TTAAGGTTGC GTTTGTTAGC ATTTCAGTGT TTGCCGACCT CAGCTACAGC 10080

ATCCCTGCAA GGCCTCGGGA GACCCAGAAG TTTCTCGCCC CCTTAGATCC AAACTTGAGC AACCCGGAGT 10150

CTGGATTCCT GGGAAGTCCT CAGCTGTCCT GCGGTTGTGC CGGGGCCCCA GGTCTGGAGG GGACCAGTGG 10220

CCGTGTGGCT TCTACTGCTG GGCTGGAAGT CGGGCCTCCT AGCTCTGCAG TCCGAGGCTT GGAGCCAGGT 10290

75 GCCTGGACCC CGAGGCTGCC CTCCACCCTG TGCGGGCGGG ATGTGACCAG ATGTTGGCCT CATCTGCCAG 10360

ACAGAGTGCC GGGGCCCAGG GTCAAGGCCG TTGTGGCTGG TGTGAGGCGC CCGGTGCGCG GCCAGCAGGA 10430

GCGCCTGGCT CCATTTCCCA CCCTTTCTCG ACGGGACCGC CCCGGTGGGT GATTAACAGA TTTGGGGTGG 10500 TTTGCTCATG GTGGGGACCC CTCGCCGCCT GAGAACCTGC AAAGAGAAAT GACGGGCCTG TGTCAAGGAG 10570

CCCAAGTCGC GGGGAAGTGT TGCAGGGAGG CACTCCGGGA GGTCCCGCGT GCCCGTCCAG GGAGCAATGC 10640

GTCCTCGGGT TCGTCCCCAG CCGCGTCTAC GCGCCTCCGT CCTCCCCTTC ACGTCCGGCA TTCGTGGTGC 10710

CCGGAGCCCG ACGCCCCGCG TCCGGACCTG GAGGCAGCCC TGGGTCTCCG GATCAGGCCA GCGGCCAAAG 10780 GGTCGCCGCA CGCACCTGTT CCCAGGGCCT CCACATCATG GCCCCTCCCT CGGGTTACCC CACAGCCTAG 10850

GCCGATTCGA CCTCTCTCCG CTGGGGCCCT CGCTGGCGTC CCTGCACCCT GGGAGCGCGA GCGGCGCGCG 10920

GGCGGGGAAG CGCGGCCCAG ACCCCCGGGT CCGCCCGGAG CAGCTGCGCT GTCGGGGCCA GGCCGGGCTC 10990

CCAGTGGATT CGCGGGCACA GACGCCCAGG ACCGCGCTCC CCACGTGGCG GAGGGACTGG GGACCCGGGC 11060

ACCCGTCCTG CCCCTTCACC TTCCAGCTCC GCCTCCTCCG CGCGGACCCC GCCCCGTCCC GACCCCTCCC 11130 GGGTCCCCGG CCCAGCCCCC TCCGGGCCCT CCCAGCCCCT CCCCTTCCTT TCCGCGGCCC CGCCCTCTCC 11200

TCGCGGCGCG AGTTTCAGGC AGCGCTGCGT CCTGCTGCGC ACGTGGGAAG CCCTGGCCCC GGCCACCCCC 11270

GCGATGCCGC GCGCTCCCCG CTGCCGAGCC GTGCGCTCCC TGCTGCGCAG CCACTACCGC GAGGTGCTGC 11340

CGCTGGCCAC GTTCGTGCGG CGCCTGGGGC CCCAGGGCTG GCGGCTGGTG CAGCGCGGGG ACCCGGCGGC 11410

TTTCCGCGCG CTGGTGGCCC AGTGCCTGGT GTGCGTGCCC TGGGACGCAC GGCCGCCCCC CGCCGCCCCC 11480 TCCTTCCGCC AGGTGGGCCT CCCCGGGGTC GGCGTCCGGC TGGGGTTGAG GGCGGCCGGG GGGAACCAGC 11550

GACATGCGGA GAGCAGCGCA GGCGACTCAG GGCGCTTCCC CCGCAGGTGT CCTGCCTGAA GGAGCTGGTG 11620

GCCCGAGTGC TGCAGAGGCT GTGCGAGCGC GGCGCGAAGA ACGTGCTGGC CTTCGGCTTC GCGCTGCTGG 11690

ACGGGGCCCG CGGGGGCCCC CCCGAGGCCT TCACCACCAG CGTGCGCAGC TACCTGCCCA ACACGGTGAC 11760

CGACGCACTG CGGGGGAGCG GGGCGTGGGG GCTGCTGCTG CGCCGCGTGG GCGACGACGT GCTGGTTCAC 11830 CTGCTGGCAC GCTGCGCGCT CTTTGTGCTG GTGGCTCCCA GCTGCGCCTA CCAGGTGTGC GGGCCGCCGC 11900

TGTACCAGCT CGGCGCTGCC ACTCAGGCCC GGCCCCCGCC ACACGCTAGT GGACCCCGAA GGCGTCTGGG 11970

ATGCGAACGG GCCTGGAACC ATAGCGTCAG GGAGGCCGGG GTCCCCCTGG GCCTGCCAGC CCCGGGTGCG 12040

AGGAGGCGCG GGGGCAGTGC CAGCCGAAGT CTGCCGTTGC CCAAGAGGCC CAGGCGTGGC GCTGCCCCTG 12110

AGCCGGAGCG GACGCCCGTT GGGCAGGGGT CCTGGGCCCA CCCGGGCAGG ACGCGTGGAC CGAGTGACCG 12180 TGGTTTCTGT GTGGTGTCAC CTGCCAGACC CGCCGAAGAA GCCACCTCTT TGGAGGGTGC GCTCTCTGGC 12250

ACGCGCCACT CCCACCCATC CGTGGGCCGC CAGCACCACG CAGGCCCCCC ATCCACATCG CGGCCACCAC 12320

GTCCCTGGGA CACGCCTTGT CCCCCGGTGT ACGCCGAGAC CAAGCACTTC CTCTACTCCT CAGGCGACAA 12390

GGAGCAGCTG CGGCCCTCCT TCCTACTCAG CTCTCTGAGG CCCAGCCTGA CTGGCGCTCG GAGGCTCGTG 12460

GAGACCATCT TTCTGGGTTC CAGGCCCTGG ATGCCAGGGA CTCCCCGCAG GTTGCCCCGC CTGCCCCAGC 12530 GCTACTGGCA AATGCGGCCC CTGTTTCTGG AGCTGCTTGG GAACCACGCG CAGTGCCCCT ACGGGGTGCT 12600

CCTCAAGACG CACTGCCCGC TGCGAGCTGC GGTCACCCCA GCAGCCGGTG TCTGTGCCCG GGAGAAGCCC 12670

CAGGGCTCTG TGGCGGCCCC CGAGGAGGAG GACACAGACC CCCGTCGCCT GGTGCAGCTG CTCCGCCAGC 12740

ACAGCAGCCC CTGGCAGGTG TACGGCTTCG TGCGGGCCTG CCTGCGCCGG CTGGTGCCCC CAGGCCTCTG 12810

GGGCTCCAGG CACAACGAAC GCCGCTTCCT CAGGAACACC AAGAAGTTCA TCTCCCTGGG G.AAGCATGCC 12880 AAGCTCTCGC TGCAGGAGCT GACGTGGAAG ATGAGCGTGC GGGACTGCGC TTGGCTGCGC AGGAGCCCAG 12950

GTGAGGAGGT GGTGGCCGTC GAGGGCCCAG GCCCCAGAGC TGAATGCAGT AGGGGCTCAG AAAAGGGGGC 13020

AGGCAGAGCC CTGGTCCTCC TGTCTCCATC GTCACGTGGG CACACGTGGC TTTTCGCTCA GGACGTCGAG 13090

TGGACACGGT GATCTCTGCC TCTGCTCTCC CTCCTGTCCA GTTTGCATAA ACTTACGAGG TTCACCTTCA 13160

CGTTTTGATG GACACGCGGT TTCCAGGCGC CGAGGCCAGA GCAGTGAACA GAGGAGGCTG GGCGCGGCAG 13₂30 TGGAGCCGGG TTGCCGGCAA TGGGGAGAAG TGTCTGGAAG CACAGACGCT CTGGCGAGGG TGCCTGCAGG 13300

TTACCTATAA TCCTCTTCGC AATTTCAAGG GTGGGAATGA GAGGTGGGGA CGAGAACCCC CTCTTCCTGG 13370

GGGTGGGAGG TAAGGGTTTT GCAGGTGCAC GTGGTCAGCC AATATGCAGG TTTGTGTTTA AGATTTAATT 13440

GTGTGTTGAC GGCCAGGTGC GGTGGCTCAC GCCGGTAATC CCAGCACTTT GGGAAGCTGA GGCAGGTGGA 13510

TCACCTGAGG TCAGGAGTTT GAGACCAGCC TGACCAACAT GGTGAAACCC TATCTGTACT AAAAATACAA 13580 AAATTAGCTG GGCATGGTGG TGTGTGCCTG TAATCCCAGC TACTTGGGAG GCTGAGGCAG GAGAATCACT 13650

TGAACCCAGG AGGCGGAGGC TGCAGTGAGC TGAGATTGTG CCATTGTACT CCAGCCTGGG CGACAAGAGT 137₂0

GAAACTCTGT CTTTAAAAAA AAAAAGTGTT CGTTGATTGT GCCAGGACAG G3TAGAGGGA GGGAGATAAG 13790

ACTGTTCTCC AGCACAGATC CTGGTCCCAT CTTTAGGTAT GAAGAGGGCC ACATGGGAGC AGAGGACAGC 13860

AGATGGCTCC ACCTGCTGAG GAAGGGACAG TGTTTGTGGG TGTTCAGGGG ATGGTGCTGC TGGGCCCTGC 13930 CGTGTCCCCA CCCTGTTTTT CTGGATTTGA TGTTGAGGAA CCTCCGCTCC AGCCCCCTTT TGGCTCCCAG 14000

TGCTCCCAGG CCCTACCGTG GCAGCTAGAA GAAGTCCCGA TTTCACCCCC TCCCCACAAA CTCCCAAGAC 14070

ATGTAAGACT TCCGGCCATG CAGACAAGGA GGGTGACCTT CTTGGGGCTC TTTTTTTTCT TTTTTTCTTT 14140

TTATGGTGGC AAAAGTCATA TAACATGAGA TTGGCACTCC TAACACCGTT TTCTGTGTAC AGTGCAGAAT 14₂10

TGCTAACTCG GCGGTGTTTA CAGCAGGTTG CTTGAAATGC TGCGTCTTGC GTGACTGGAA GTCCCTACCC 14₂80 ATCGAACGGC AGCTGCCTCA CACCTGCTGC GGCTCAGGTG GACCACGCCG AGTCAGATAA GCGTCATGCA 14350

ACCCAGTTTT GCTTTTTGTG CTCCAGCTTC CTTCGTTGAG GAGAGTTTGA GTTCTCTGAT CAGGACTCTG 144₂0

CCTGTCATTG CTGTTCTCTG ACTTCAGATG AGGTCACAAT CTGCCCCTGG CTTATGCAGG GAGTGAGGCG 14490

TGGTCCCCGG GTGTCCCTGT CACGTGCAGG GTGAGTGAGG CGTTGCCCCC AGGTGTCCCT GTCACGTGTA 14560

GGGTGAGTGA GGCGCGGCCC CCGGGTGTCC CTGTCCCGTG CAGCGTGATT GAGGTGTGGC CCCCGGGTGT 14630 CCCTGTCACG TGTAGGGTGA GTGAGGCGCC ATCCCCGGGT GTCCCTGTCA CGTGTAGGGT GAGTGAGGCG 14700

TGGTCCCCGG GTGTCCCTGT CCCGTGCAGG GTGAGTGAGG CACTGTCCCC GGGTGTCCCT GTCACGTGCA 14770

GGGTGAGTGA GGCGCGGTCC CCGGGTGTCC CTCTCAGGTG TAGGGTGAGT GAGGCGCGGC CCCAGGGTGT 14840

CCCTGTCACG TGTAGGGTGA GTGAGGCACC GTCCCTGGGT GTCCCTCCCA GGTATAGGGT GAGTGAGGCA 14910

CTGTCCCCGG GTGTCCCTGT CACGTGCAGG GTGAGTGAGG CGCGGCCCCC GGGTGTCCCT CTCAGGTGCA 14980 GGGTGAGTGA GGCGCTGTCC CTGGGTGTCC CTGTCTCGTG TAGGGTGAGT GAGGCTCTGT CCCCAGGTGT 15050

CCTTGGCGTT TGCTCACTTG AGCTTGCTCC TGAATGTTTG CTCTTTCTAT AGCCACAGCT GCGCCGGTTG 15120

CCCATTGCCT GGGTAGATGG TGCAGGCGCA GTGCTGGTCC CCAAGCCTAT CTTTTCTGAT GCTCGGCTCT 15190

TCTTGGTCAC CTCTCCGTTC CATTTTGCTA CGGGGACACG GGACTGCAGG CTCTCGCCTC CCGCGTGCCA 15260

GGCACTGCAG CCACAGCTTC AGGTCCGCTT GCCTCTGTTG GGCCTGGCTT GCTCACCACG TGCCCGCCAC 15330 ATGCATGCTG CCAATACTCC TCTCCCAGCT TGTCTCATGC CGAGGCTGGA CTCTGGGCTG CCTGTGTCTG 15400

CTGCCACGTG TTGCTGGAGA CATCCCAGAA AGGGTTCTCT GTGCCCTGAA GGAAAGCAAG TCACCCCAGC 15470

CCCCTCACTT GTCCTGTTTT CTCCCAAGCT GCCCCTCTGC TTGGCCCCCT TGGGTGGGTG GCAACGCTTG 15540

TCACCTTATT CTGGGCACCT GCCGCTCATT GCTTAGGCTG GGCTCTGCCT CCAGTCGCCC CCTCACATGG 15610

ATTGACGTCC AGCCACAGGT TGGAGTGTCT CTGTCTGTCT CCTGCTCTGA GACCCACGTG GAGGGCCGGT 15680 GTCTCCGCCA GCCTTCGTCA GACTTCCCTC TTGGGTCTTA GTTTTGAATT TCACTGATTT ACCTCTGACG 15750

TTTCTATCTC TCCATTGTAT GCTTTTTCTT GGTTTATTCT TTCATTCCTT TTCTAGCTTC TTAGTTTAGT 15820

CATGCCTTTC CCTCTAAGTG CTGCCTTACC TGCACCCTGT GTTTTGATGT GAAGTAATCT CA^CATCAGC 15890 CACTTTCAAG TGTTCTTAAA ATACTTCAAA GTGTTAATAC TTCTTTTAAG TATTCTTATT CTGTGATTTT 15960

TTTCTTTGTG CACGCTGTGT TTTGACGTGA AATCATTTTG ATATCAGTGA CTTTTAAGTA TTCTTTAGCT 16030

TATTCTGTGA TTTCTTTGAG CAGTGAGTTA TTTGAACACT GTTTATGTTC AAGATATGTA GAGTATCAAG 16100

ATACGTAGAG TATTTTAAGT TATCATTTTA TTATTGATTT CTAACTCAGT TGTGTAGTGG TCTGTATAAT 16170 ACCAATTATT TGAAGTTTGC GGAGCCTTGC TTTGTGATCT AGTGTGTGCA TGGTTTCCAG AACTGTCCAT 16240

TGTAAATTTG ACATCCTGTC AATAGTGGGC ATGCATGTTC ACTATATCCA GCTTATTAAG GTCCAGTGCA 16310

AAGCTTCTGT CTCCTTCTAG ATGCATGAAA TTCCAAGAAG GAGGCCATAG TCCCTCACCT GGGGGATGGG 16380

TCTGTTCATT TCTTCTCGTT TGGTAGCATT TATGTGAGGC ATTGTTAGGT GCATGCACGT GGTAGAATTT 16450

TTATCTTCCT GATGAGTGAA TCTTTTGGAG ACTTCTATGT CTCTAGTAAT CTAGTAATTC TTTTTTTAAA 16520 TTGCTCTTAG TACTGCCACA CTGGGCTTCT TTTGATTAGT ATTTTCCTGC TGTGTCTGTT TTCTGCCTTT 16590

AATTTATATA TATATATATA TTTTTTTTTT TTTTGAGACA GAGTCTTGGT CTGTCGCCCA GGGTGAGTGC 16660

AGTGGTGTGA TCACAGGTCA GTGTAACTTT TACCTTCTGG CCTGAGCCGT CCTCTCACCT CAGCCTCCTG 16730

AGTAGCTGGA ACTGCAGACA CGCACCGCTA CACCTGGCTA ATTTTTAAAT TTTTTCTGGA GACAGGGTCT 16800

TGCTGTGTTG CCCAGGCTGG TCTCAAACTC TTGGACTCAA GGGATCCATC TACCTCGGCT TCCCAAAGTG 16870 CTGAATTACA GGCATGAGCC ACCATGTCTG GCCTAATTTT CAACACTTTT ATATTCTTAT AGTGTGGGTA 16940

TGTCCTGTTA ACAGCATGTA GGTGAATTTC CAATCCAGTC TGACAGTCGT TGTTTAACTG GATAACCTGA 17010

TTTATTTTCA TTTTTTTGTC ACTAGAGACC CGCCTGGTGC ACTCTGATTC TCCACTTGCC TGTTGCATGT 17080

CCTCGTTCCC TTGTTTCTCA CCACCTCTTG GGTTGCCATG TGCGTTTCCT GCCGAGTGTG TGTTGATCCT 17150

CTCGTTGCCT CCTGGTCACT GGGCATTTGC TTTTATTTCT CTTTGCTTAG TGTTACCCCC TGATCTTTTT 17220 ATTGTCGTTG TTTGCTTTTG TTTATTGAGA CAGTCTCACT CTGTCACCCA GGCTGGAGTG TAATGGCACA 17290

ATCTCGGCTC ACTGCAACCT CTGCCTCCTC GGTTCAAGCA GTTCTCATTC CTCAACCTCA TGAGTAGCTG 17360

GGATTACAGG CGCCCACCAC CACGCCTGGC TAATTTTTGT ATTTTTAGTA GAGATAGGCT TTCACCATGT 17430

TGGCCAGGCT GGTCTCAAAC TCCTGACCTC AAGTGATCTG CCCGCCTTGG CCTCCCACAG TGCTGGGATT 17500

ACAGGTGCAA GCCACCGTGC CCGGCATACC TTGATCTTTT AAAATGAAGT CTGAAACATT GCTACCCTTG 17570 TCCTGAGCAA TAAGACCCTT AGTGTATTTT AGCTCTGGCC ACCCCCCAGC CTGTGTGCTG TTTTCCCTGC 17640

TGACTTAGTT CTATCTCAGG CATCTTGACA CCCCCACAAG CTAAGCATTA TTAATATTGT TTTCCGTGTT 17710

GAGTGTTTCT GTAGCTTTGC CCCCGCCCTG CTTTTCCTCC TTTGTTCCCC GTCTGTCTTC TGTCTCAGGC 17780

CCGCCGTCTG GGGTCCCCTT CCTTGTCCTT TGCGTGGTTC TTCTGTCTTG TTATTGCTGG TAAACCCCAG 17850

CTTTACCTGT GCTGGCCTCC ATGGCATCTA GCGACGTCCG GGGACCTCTG CTTATGATGC ACAGATGAAG 17920 ATGTGGAGAC TCACGAGGAG GGCGGTCATC TTGGCCCGTG AGTGTCTGGA GCACCACGTG GCCAGCGTTC 17990

CTTAGCCAGT GAGTGACAGC AACGTCCGCT CGGCCTGGGT TCAGCCTGGA AAACCCCAGG CATGTCGGGG 18060

TCTGGTGGCT CCGCGGTGTC GAGTTTGAAA TCGCGCAAAC CTGCGGTGTG GCGCCAGCTC TGACGGTGCT 18130

GCCTGGCGGG GGAGTGTCTG CTTCCTCCCT TCTGCTTGGG AACCAGGACA AAGGATGAGG CTCCGAGCCG 18200

TTGTCGCCCA ACAGGAGCAT GACGTGAGCC ATGTGGATAA TTTTAAAATT TCTAGGCTGG GCGCGGTGGC 18270 TCACGCCTGT AATCCCAGCA CTTTGGGAGG CCAAGGCGGG TGGATCACGA GGTCAGGAGG TCGAGACCAT 18340

CCTGGCCAAC ATGATGAAAC CCCATCTGTA CTAAAAACAC AAAAATTAGC TGGGCGTGGT GGCGGGTGCC 18410

TGTAATCCCA GCTACTCGGG AGGCTGAGGC AGGAGAATTG CTTGAACCTG GGAGTTGGAA GTTGCAGTGA 18480

GCCGACATTG CACCACTGCA CTCCAGCCTG GCAACACAGC GAGACTCTGT CTCAAAAAAA AAAAAAAAAA 18550

AAAAAAAAAA AATTCTAGTA GCCACATTAA AAAAGTAAAA AAGAAAAGGT GAAATTAATG TAATAATAGA 18620 TTTTACTGAA GCCCAGCATG TCCACACCTC ATCATTTTAG GGTGTTATTG GTGGGAGCAT CACTCACAGG 18690

ACATTTGACA TTTTTTGAGC TTTGTCTGCG GGATCCCGTG TGTAGGTCCC GTGCGTGGCC ATCTCGGCCT 18760

GGACCTGCTG GGCTTCCCAT GGCCATGGCT GTTGTACCAG ATGGTGCAGG TCCGGGATGA GGTCGCCAGG 18830

CCCTCAGTGA GCTGGATGTG CAGTGTCCGG ATGGTGCACG TCTGGGATGA GGTCGCCAGG CCCTGCTGTG 18900

AGCTGGATGT GTGGTGTCTG GATGGTGCAG GTCAGGGGTG AGGTCTCCAG GCCCTCGGTG AGCTGGAGGT 18970 ATGGAGTCCG GATGATGCAG GTCCGGGGTG AGGTCGCCAG GCCCTGCTGT GAGCTGGATG TGTGGTGTCT 19040

GGATGGTGCA GGTCAGGGGT GAGGTCTCCA GGCCCTCGGT AAGCTGGAGG TATGGAGTCC GGATGATGCA 19110

GGTCCGGGGT GAGGTCGCCA GGCCCTGCTG TGAGCTGGAT GTGTGGTGTC TGGATGGTGC AGGTCTGGGG 19180

TGAGGTCACC AGGCCCTGCG GTGAGCTGGG TGTGCGGTGT CTGGATGGTG CAGGTCTGGA GTGAGGTCGC 19250

CAGACGGTGC CAGACCATGC GGTGAGCTGG ATATGCGGTG TCCGGATGGT GCAGGTCTGG GGTGAGGTTG 19320 CCAGGCCCTG CTGTGAGTTG GATGTGGGGT GTCCGGATGC TGCAGGTCCG GTGTGAGGTC ACCAGGCCCT 19390

GCTGTGAGCT GGATGTGTGG TGTCTGGATG GTGCAGGTCT GGGGTGAAGG TCGCCAGGCC CCTGCTTGTG 19460

AGCTGGATGT GTGGTGTCTG GATGGTGCAG GTCTGGAGTG AGGTCGCCAG GCCCTCGGTG AGCTGGATGT 19530

GCAGTGTCCA GATGGTGCAG GTCCGGGGTG AGGTCGCCAG ACCCTGCGGT GAGCTGGATG TGCGGTGTCT 19600

GGATGGTGCA GGTCTGGAGT GAGGTCGCCA GGCCCTCGGT GAGCTGGATG TATGGAGTCC GGATGGTGCC 19670 GGTCCGGGGT GAGGTCGCCA GACCCTGCTG TGAGCTGGAT GTGCGGTGTC TGGATGGTAC AGGTCTGGAG 19740

TGAGGTCGCC AGACCCTGCT GTGAGCTGGA TATGCGGTGT CCGGATGGTG CAGGTCAGGG GTGAGGTCTC 19810

CAGGCCCTCG GTGAGCTGGA GGTATGGAGT CCGGATGATG CAGGTCCGGG GTGAGGTCGC CAGGCCCTGC 19880

TGTGAACTGG ATGTGCGGCG TCTGGATGGT GCAGGTCTGG GGTGTGGTCG CCAGGCCCTC GGTGAGCTGG 19950

AGGTATGGAG TCCGGATGAT GCAGGTCCGG GGTGAGGTCG CCAGGCCCTG CTGTGAGCTG GATGTGCGGC 20020 GTCTGGATGG TGCAGGTCTG GGGTGTGGTC GCCAGGCCCT CGGTGAGCTG GAGGTATGGA GTCCGGATGA 20090

TGCAGGTCCG GGGTGAGGTT GCCAGGCCCT GCTGTGAGCT GGATGTGCTG TATCCGGATG GTGCAGTCCG 20160

GGGTGAGGTC GCCAGGCCCT GCTGTGAGCT GGATGTGCTG TATCCGGATG GTGCAGGTCT GGGGTGAGGT 20230

CACCAGGCCC TGCGGTGAGC TGGTTGTGCG GTGTCCGGTT GCTGCAGGTC CGGGGTGAGT TCGCCAGGCC 20300

CTCGGTGAGC TGGATGTGCG GTGTCCCCGT GTCCGGATGG TGCAGGTCCA GGGTGAGGTC GCTAGGCCCT 20370 TGGTGGGCTG GATGTGCCGT GTCCGGATGG TGCAGGTCTG GGGTGAGGTC GCCAGGCCTT TGGTGAGCTG 20440

GATGTGCGGT GTCTGCATGG TGCAGGTCTG GGGTGAGGTC GCCAGGCCCT TGGTGGGCTG GATGTGTGGT 20510

GTCCGGATGG TGCAGGTCCG GCGTGAGGTC GCCAGGCCCT GCTGTGAGCT GGATGTGCGG TGTCTGGATG 20580

GTGCAGGTCC GGGGTGAGGT AGCCAAGGCC TTCGGTGAGC TGGATGTGGG GTGTCCGGAT GGTGCAGGTC 20650

CGGGGTGAGG TCGCCAGGCC CTGCGGTTAG CTGGATATGC GGTGTCCGGA TGGTGCAGGT CCGGGGTGAG 20720 GTCACCAGGC CCTGCGGTTA GCTGGATGTG CGGTGTCTGG ATGGTGCAGG TCCGGGGTGA GGTCGCCAGG 20790

CCCTGCTGTG AGCTGGATGT GCTGTATCCG GATGGTGCAG GTCCGGGGTG AGGTCGCCAG GCCCTGCAGT 20860

GAGCTGGATG TGCTGTATCC GGATGGTGCA GGTCTGGCGT GAGGTCGCCA GGCCCTGCGG TTAGCTGGAT 20930

ATGCGGTGTC GGATGGTGCA GGTCCGGGGT GAGGTCACCA GGCCCTGCGG TTAGCTGGAT GTGCGGTGTC 21000

CGGATGGTGC AGGTCTGGGG TGAGGTCGCC AGGCCCTGCT GTGAGCTGGA TGTGCTGTAT CCGGATGGTG 21070 CAGGTCCGGG GTGAGGTCGC CAGGCCCTGC GGTGAGCTGG ATGTGCTGTA TCCGGATGGT GCAGGTCTGG 21140

CGTGAGGTCG CCAGGCCCTG CGGTGAGCTG GATGTGCAGT GTACGGATGG TGCAGGTCCG GGGTGAGGTC 21210

GCCAGGCCCT GCGGTGGGCT GTATGTGTGT TGTCTGGATG GTGCAGGTCC GGGGTGAGTT CGCCAGGCCC 21280 TGCGGTGAGC TGGATGTGTG GTGTCTGGAT GCTGCAGGTC CGGGGTGAGT TCGCCAGGCC CTCGGTGAGC 21350 TGGATATGCG GTGTCCCCGT GTCCGAATGG TGCAGGTCCA GGGTGAGGTC GCCAGGCCCT TGGTGGGCTG 21420 GATGTGCCGT GTCCGGATGG TGCAGGTCTG GGGTGAGGTC GCCAGGCCCT TGGTGAGCTG GATGTGCGGT 21490 GTCCGGATGG TGCAGGTCCG GGGTGAGGTC ACCAGGCCCT CGGTGATCTG GATGTGGCAT GTCCTTCTCG 21560 5 TTTAAGGGGT TGGCTGTGTT CCGGCCGCAG AGCACCGTCT GCGTGAGGAG ATCCTGGCCA AGTTCCTGCA 21630 CTGGCTGATG AGTGTGTACG TCGTCGAGCT GCTCAGGTCT TTCTTTTATG TCACGGAGAC CACGTTTCAA 21700 AAGAACAGGC TCTTTTTCTA CCGGAAGAGT GTCTGGAGCA AGTTGCAAAG CATTGGAATC AGGTACTGTA 21770 TCCCCACGCC AGGCCTCTGC TTCTCGAAGT CCTGGAACAC CAGCCCGGCC TCAGCATGCG CCTGTCTCCA 21840 CTTGCCTGTG CTTCCCTGGC TGTGCAGCTC TGGGCTGGGA GCCÄGGGGCC CCGTCACAGG CCTGGTCCAA 21910

10 GTGGATTCTG TGCAAGGCTC TGACTGCCTG GAGCTCACGT TCTCTTACTT GTAAAATCAG GAGTTTGTGC 21980 CAAGTGGTCT CTAGGGTTTG TAAAGCAGAA GGGATTTAAA TTAGATGGAA ACACTACCAC TAGCCTCCTT 22050 GCCTTTCCCT GGGATGTGGG TCTGATTCTC TCTCTCTTTT TTTTTTCTTT TTTGAGATGG AGTCTCACTC 22120 TGTTGCCCAG GCTGGAGTGC AGTGGCATAA TCTTGGCTCA CTGCAACCTC CACCTCCTGG GTTTAAGCGA 22190 TTCACCAGCC TCAGCCTCCT AAGTAGCTGG GATTACAGGC ACCTGCCACC ACGCCTGGCT AATTTTTGTA 22260

15 CTTTTAGGAG AGACGGGGTT TCACCATGTT GGCCAGGCTG GTCTCGAACT CATGACCTCA GGTGATCCAC 22330 CCACCTTGGC CTCCCAAAGT GCTGGGTTTA CAGGCTAAGC CACCGTGCCC AGCCCCCGAT TCTCTTTTAA 22400 TTCATGCTGT TCTGTATGAA TCTTCAATCT ATTGGATTTA GGTCATGAGA GGATAAAATC CCACCCACTT 22470 GGCGACTCAC TGCAGGGAGC ACCTGTGCAG GGAGCACCTG GGGATAGGAG AGTTCCACCA TGAGCTAACT 22540 TCTAGGTGGC TGCATTTGAA TGGCTGTGAG ATTTTGTCTG CAATGTTCGG CTGATGAGAG TGTGAGATTG 22610

20 TGACAGATTC AAGCTGGATT TGCATCAGTG AGGGACGGGA GCGCTGGTCT GGGAGATGCC AGCCTGGCTG 22680 AGCCCAGGCC ATGGTATTAG CTTCTCCGTG TCCCGCCCAG GCTGACTGTG GAGGGCTTTA GTCAGAAGAT 22750 CAGGGCTTCC CCAGCTCCCC TGCACACTCG AGTCCCTGGG GGGCCTTGTG ACACCCCATG CCCCAAATCA 22820 GGATGTCTGC AGAGGGAGCT GGCAGCAGAC CTCGTCAGAG GTAACACAGC CTCTGGGCTG GGGACCCCGA 22890 CGTGGTGCTG GGGCCATTTC CTTGCATCTG GGGGAGGGTC AGGGCTTTCC CTGTGGGAAC AAGTTAATAC 22960

25 ACAATGCACC TTACTTAGAC TTTACACGTA TTTAATGGTG TGCGACCCAA CATGGTCATT TGACCAGTAT 23030 TTTGGAAAGA ATTTAATTGG GGTGACCGGA AGGAGCAGAC AGACGTGGTG GTCCCCAAGA TGCTCCTTGT 23100 CACTACTGGG ACTGTTGTTC TGCCTGGGGG GCCTTGGAGG CCCCTCCTCC CTGGACAGGG TACCGTGCCT 23170 TTTCTACTCT GCTGGGCCTG CGGCCTGCGG TCAGGGCACC AGCTCCGGAG CACCCGCGGC CCCAGTGTCC 23240 ACGGAGTGCC AGGCTGTCAG CCACAGATGC CCAGGTCCAG GTGTGGCCGC TCCAGCCCCC GTGCCCCCAT 2₃₃10

J>0 GGGTGGTTTT GGGGGAAAAG GCCAAGGGCA GAGGTGTCAG GAGACTGGTG GGCTCATGAG AGCTGATTCT 23380 GCTCCTTGGC TGAGCTGCCC TGAGCAGCCT CTCCCGCCCT CTCCATCTGA AGGGATGTGG CTCTTTCTAC 23450 CTGGGGGTCC TGCCTGGGGC CAGCCTTGGG CTACCCCAGT GGCTGTACCA GAGGGACAGG CATCCTGTGT 23520 GGAGGGGCAT GGGTTCACGT GGCCCCAGAT GCAGCCTGGG ACCAGGCTCC CTGGTGCTGA TGGTGGGACA 23590

_ GTCACCCTGG GGGTTGACCG CCGGACTGGG CGTCCCCAGG GTTGACTATA GGACCAGGTG TCCAGGTGCC 23660 j5 CTGCAAGTAG AGGGGCTCTC AGAGGCGTCT GGCTGGCATG GGTGGACGTG GCCCCGGGCA TGGCCTTCAG 23730 CGTGTGCTGC CGTGGGTGCC CTGAGCCCTC ACTGAGTCGG TGGGGGCTTG TGGCTTCCCG TGAGCTTCCC 23800 CCTAGTCTGT TGTCTGGCTG AGCAAGCCTC CTGAGGGGCT CTCTATTGCA GACAGCACTT GAAGAGGGTG 23870 CAGCTGCGGG AGCTGTCGGA AGCAGAGGTC AGGCAGCATC GGGAAGCCAG GCCCGCCCTG CTGACGTCCA 23940 GACTCCGCTT CATCCCCAAG CCTGACGGGC TGCGGCCGAT TGTGAACATG GACTACGTCG TGGGAGCCAG 24010

40 AACGTTCCGC AGAGAAAAGA GGGTGGCTGT GCTTTGGTTT AACTTCCTTT TTAAACAGAA GTGCGTTTGA 24080 GCCCCACATT TGGTATCAGC TTAGATGAAG GGCCCGGAGG AGGGGCCACG GGACACAGCC AGGGCCATGG 24150 CACGGCGCCA ACCCATTTGT GCGCACAGTG AGGTGGCCGA GGTGCCGGTG CCTCCAGAAA AGCAGCGTGG 24220 GGGTGTAGGG GGAGCTCCTG GGGCAGGGAC AGGCTCTGAG GACCACAAGA AGCAGCCGGG CCAGGGCCTG 24290 GATGCAGCAC GGCCCGAGGT CCTGGATCCG TGTCCTGCTG TGGTGCGCAG CCTCCGTGCG CTTCCGCTTA 24360

45 CGGGGCCCGG GGACCAGGCC ACGACTGCCA GGAGCCCACC GGGCTCTGAG GATCCTGGAC CTTGCCCCAC 24430 GGCTCCTGCA CCCCACCCCT GTGGCTGCGG TGGCTGCGGT GACCCCGTCA TCTGAGGAGA GTGTGGGGTG 24500 AGGTGGACAG AGGTGTGGCA TGAGGATCCC GTGTGCAACA CACATGCGGC CAGGAACCCG TTTCAAACAG 24570 GGTCTGAGGA AGCTGGGAGG GGTTCTAGGT CCCGGGTCTG GGTGGCTGGG GACACTGGGG AGGGGCTGCT 24640 TCTCCCCTGG GTCCCTATGG TGGGGTGGGC ACTTGGCCGG ATCCACTTTC CTGACTGTCT CCCATGCTGT 24710

50 CCCCGCCAGG CCGAGCGTCT CACCTCGAGG GTGAAGGCAC TGTTCAGCGT GCTCAACTAC GAGCGGGCGC 24780 GGCGCCCCGG CCTCCTGGGC GCCTCTGTGC TGGGCCTGGA CGATATCCAC AGGGCCTGGC GCACCTTCGT 24850 GCTGCGTGTG CGGGCCCAGG ACCCGCCGCC TGAGCTGTAC TTTGTCAAGG TGGGTGCCGG GGACCCCCGT 24920 GAGCAGCCCT GCTGGACCTT GGGAGTGGCT GCCTGATTGG CACCTCATGT TGGGTGGAGG AGGTACTCCT 24990 GGGTGGGCCG CAGGGAGTGC AGGTGACCCT GTCACTGTTG AGGACACACC TGGCACCTAG GGTGGAGGCC 25060

55 TTCAGCCTTT CCTGCAGCAC ATGGGGCCGA CTGTGCACCC TGACTGCCCG GGCTCCTATT CCCAAGGAGG 25130 GTCCCACTGG ATTCCAGTTT CCGTCAGAGA AGGAACCGCA ACGGCTCAGC CACCAGGCCC CGGTGCCTTG 25200 CACCCCAGTC CTGAGCCAGG GGTCTCCTGT CCTGAGGCTC AGAGAGGGGA CACAGCCCGC CCTGCCCTTG 25270 GGGTCTGGAG TGGTGGGGGT CAGAGAGAGA GTGGGGGACA CCGCCAGGCC AGGCCCTGAG GGCAGAGGTG 25340 ATGTCTGAGT TTCTGCGTGG CCACTGTCAG TCTCCTCGCC TCCACTCACA CAGGTGGATG TGACGGGCGC 25410

60 GTACGACACC ATCCCCCAGG ACAGGCTCAC GGAGGTCATC GCCAGCATCA TCAAACCCCA GAACACGTAC 25480 TGCGTGCGTC GGTATGCCGT GGTCCAGAAG GCCGCCCATG GGCACGTCCG CAAGGCCTTC AAGAGCCACG 25550 TAAGGTTCAC GTGTGATAGT CGTGTCCAGG ATGTGTGTCT CTGGGATATG AATGTGTCTA GAATGCAGTC 25620 GTGTCTGTGA TGCGTTTCTG TGGTGGAGGT ACTTCCATGA TTTACACATC TGTGATATGC GTGTGTGGCA 25690 CGTGTGTGTC GTGGTGCATG TATCTGTGGC GTGCATATTT GTGGTGTGTG TGTGTGTGGC ACGTGTGTGT 25760 65 CCATGGTGTG TGTGCCTGTG GTGTGCATGT GTGTGTGTCT GTGACACGTG CATGTTCATG CTGTGTGCTG 25830 CATGTCTGTG ATGTGCCTAT TTGTGGTGTG TGTGTGCATG TGTCCGTGAC ATATGCGTGT CTATGGCATG 25900 GGTGTGTGTG GCCCCTTGGC CTTACTCCTT CCTCCTCCAG GCATGGTCCG CACCATTGTC CTCACGCTCT 25970 CGGGTGCTGG TTTGGGGAGC TCCACATTCA GGGTCCTCAC TTCTAGCATG GGTGCCCCTG TCCTGTCACA 26040 GGGCTGGGCC TTGGAGACTG TAAGCCAGGT TTGAGAGGAG AGTAGGGATG CTGGTGGTAC CTTCCTGGAC 26110 70 CCCTGGCACC CCCAGGACCC CAGTCTGGCC TATGCCGGCT CCATGAGATA TAGGAAGGCT GATTCAGGCC 26180 TCGCTCCCCG GGACACACTC CTCCCAGAGC GGCCGGGGGC CTTGGGGCTC GGCAGGGGTG AAAGGGGCCC 26250 TGGGCTTGGG TTCCCACCCA GTGGTCATGA GCACGCTGGA GGGGTAAGCC CTCAAAGTCG TGCCAGGCCG 26320 GGGTGCAGAG GTGAAGAAGT ATCCCTGGAG CTTCGGTCTG GGGAGAGGCA CATGTGGAAA CCCACAAGGA 26390 CCTCTTTCTC TGACTTCTTG AGCT 26414

75 Contig 2:

TGTGGGATTG GTTTTCATGT GTGGGATAGG TGGGGATCTG TGGGATTGGT TTTTATGAGT GGGGTAACAC 70 AGAGTTCAAG GCGAGCTTTC TTCCTGTAGT GGGTCTGCAG GTGCTCCAAC AGCTTTATTG AGGAGACCAT 140 ATCTTCCTTT GAACTATGGT CGGGTTTATA GTAAGTCAGG GGTGTGGAGG CCTCCCCTGG GCTCCCTGTT 210 CTGTTTCTTC CACTCTGGGG TCGTGTGGTG CCTGCTGTGG TGTGTGGCCG GTGGGCAGGG CTTCCAGGCC 280 TCCTTGTGTT CATTGGCCTG GATGTGGCCC TGGCTACGCT CCGTCCTTGG AATTCCCCTG CGAGTTGGAG 350 GCTTTCTTTC TTTCTTTTTT TCTTTCTTTT _{ττττττττττ} TGATAACAGA GTCTCGCTCT TTTTTGCCCA 420 GGCTGGAGTG GTTTGGCGTG ATCTTGGCTC ACTGCAACCT GTGCTTCCTG AGTTCAAGCA ATTCTCTTGC 490 CTCAGCCTCC CAAGTAGCTG GAATTATAGG CGCCCACCAC CATGCTGACT AATTTTTGTA ATTTTAGTAG 560 AGACGAGGTT TCTCCATGTT GGCCAGGCTG GTCTCGAACT CCTGACCTCA GGTGATCCTC CCACCTCGGC 630 CTCCCAAAGT GCTGGGATGA CAGGTGTGAA CCGCCGCGCC CGGCCGAGAC TCGCTTCCTG CAGCTTCCGT 700 GAGATCTGCA GCGATAGCTG CCTGCAGCCT TGGTGCTGAC AACCTCCGTT TTCCTTCTCC AGGTCTCGCT 770 AGGGGTCTTT CCATTTCATG ACTCTCTTCA CAGAAGAGTT TCACGTGTGC TGATTTCCCG GCTGTTTCCT 840 GCGTAATTGG TGTCTGCTGT TTATCGATGG CCTCCTTCCA TTTCCTTTAG GCTTTGTTTA TTGTTGTTTT 910 TCCGGCTCCT TGAAGGAAAA GTTTCGATTA TGGATGTTTG AACTTTCTTT TCTAAACAAG CATCTGAAGT 980 TGCCGTTTTC CCTCTAAAGC AGGGATCCCG AGGCCCCTGG CTGTGGAGTG GCACCGGTCT GGGGCCTGTT 1050 AGGAACCCGG CGCACAGCGG GAGGCTAGGT GGGGTGTGGG GAGCCAGCGT TCCCGCCTGA GCCCCGCCCC 1120 TCTCAGATCA GCAGTGGCAT GCGGTGCTCA GAGGCGCACA CACCCTACTG AGAACTGTGC GTGAGAGGGG 1190 TCTAGATTCT GTGCTCCTTA TGGGAATCTA ATGCCTGATG ATCTGAGGTG GAACCGTTTG CTCCCAAAAC 1260 CATCCCCTTC CCCACTGCTG TCCTGTGGAA AAATCGTCTT CCACGAAACC AGTCCCTGGT ACCACAATGG 1330 TTGGGGACCC TGTGCTAAAG ACCTGCTTCA GCAGCCTCTC GTCAGTGTTG ATATATTGGC TTTTCTGTGT 1400 TGAGTCCAGA ATAATTACGG ATTTCTGTGA TGCTTTCCGC CGACCTCAGA CCCATGGGCT ATTTGTGGGC 1470 GTGTTGCCTG CTCCTGGGTT GGGAAGGGTG CAGGCCCCAT GTACCTTCCT GTTACTGCCT TCCAGGTTGG 1540 TTCTCAGGGT TGAATCGTAC TCGATGTGGT TTTAGCCCAC GGCCCTGCCG CCAGCTCCTG GGGGCTGGGG 1610 AACATGCTGA AGCACAGAGT CACCGTGCGC GTCTTTTGAT GCCTCACAAG CTCGAGGCCT CCTGTGTCCG 1680 TGTTAGTGTG TGTCACGTGC CTGCTCACAT CCTGTCTTGG GGACGCAGGG GCTTAGCAGG TCCCGTAGTA 1750 AATGACAAGC GTCCTGGGGG AGTCTGCAGA ATAGGAGGTG GGGGTGCCGG TCTCTCTCCC GCGTCTTCAG 1820 ACTCTTCTCC TGCCTGTGCT GTGGCTGCAC CTGCATCCCT GCAATCCCTC CAGCACTGGG CTGGAGAGGC 1890 CCGGGAGCTC GAGTGCCACT TGTGCCACGT GACTGTGGAT GGCAGTCGGT CACGGGGGTC TGATGTGTGG 1960 TGACTGTGGA TGGCGGTTGG TCACAGGGGT CTGATGTGTG GTGACTGTGG ATGGCGGTCG TGGGGTCTGA 2030 TGTGGTGACT GTGGATGGCG GTCGTGGGGT CTGATGTGTG GTGACTGTGG ATGGCGGTCG TGGGGTCTGA 2100 TGTGGTGACT GTGGATGGCG GTCGTGGGGT CTGATGTGGT GACTGTGGAT GGCGGTCGTG GGGTCTGATG 2170 TGGTGACTGT GGATGGCAGT CGTGGGGTCT GATGTGTGGT GACTGTGGAT GGCGGTCGTG GGGTCTGATG 2240 TGGTGACTGT GGATGGCAGT CGTGGGGTCT GATGTGTGGT GACTGTGGAT GGCGGTCGTG GGGTCTGATG 2310 TGTGGTGACT GTGGATGGCG GTCGTGGGGT CTGATGTGTG GTGACTGTGG ATGGCGGTCG TGGGGTCTGA 2 80 TGTGTGGTGA CTGTGGATGG CGGTCGTGGG GTCTGATGTG GTGACTGTGG ATGGCGGTCG TGGGGTCTGA 2450 TGTGTGGTGA CTGTGGATGG TGATCGGTCA CAGGGGTCTG ATGTGTGGTG ACTGTGGATG GCGGTCGTGG 2520 GGTCTGATGT GTGGTGACTG TGGATGGTGA TCGGTCACAG GGGTCTGATG TGTGGTGACT GTGGATGGCG 2590 GTCGTGGGGT CTGATGTGTG GTGACTGTGG ATGGCGGTTG GTCCCGGGGG TCTGATGTGT GGTGACTGTG 2660 GATGGCGATC GGTCACAGGG GTCTGATGTG TGGTGACTGT GGATGGCGGT CGTGGGGTCT GATGTGTGGT 2730 GACTGTGGAT GGCGGTCGTG GGGTCTGATG TGTGGTGACT GTGGATGGCG GTCGTGGGGT CTGATGTGGT ₂800 GACTGTGGAT GGCGGTCGTG GGGTCTGATG TGGTGACTGT GGATGGCGGT CGTGGGGTCT GATGTGTGGT 2870 GACTGTGGAT GGCGGTTGGT CCCGGGGGTC TGATGTGTGG TGACTGTGGA TGGCGGTCGT GGGGTCTGAT 2940 GTGGTGACTG TGGATGGCAG TCGTGGGGTC TGATGTGTGG TGACTGTGGA TGGCGGTCGT GGGGTCTGAT 3010 GTGTGGTGAC TGTGGATGGC GGTCGTGGGG TCTGATGTGT GGTGACTGTG GATGGCGGTC GTGGGGTCTG 3080 ATGTGTGGTG ACTGTGGATG GCGGTCGTGG GGTCTGATGT GGTGACTGTG GATGGCGGTC GTGGGGTCTG 3150 ATGTGTGGTG ACTGTGGATG GTGATCGGTC ACAGGGGTCT GATGTGTGGT GACTGTGGAT GGCGGTCGTG 3220 GGGTCTGATG TGTGGTGACT GTGGATGGCG GTCGTGGGGT CTGATGTGGT GACTGTGGAT GGCGGTCGTG 3290 GGGTCTGATG TGTGGTGACT GTGGATGGCG GTCGTAGGGT CTGATGTGTG GTGACTGTGG ATGGCAGTCG 3360 GTCACAGGGG TCTGATGTGT GGTGACTGTG GATGGCGGTC GTGGGGTCTG ATGTGTGGTG ACTGTGGATG 3430 GCGGTCGTGG GGTCTGATGT GTGGTGACTG TGGATGGCGG TCGTGGGGTC TGATGTGTGG TGACTGTGGA 3500 TGGCGGTCGT GGGGTCTGAT GTGGTGACTG TGGATGGTGA TCGGTCACAG GGGTCTGATG TGTGGTAGCT 3570 GCAGGTGGAG TCCCAGGTGT GTCTGTAGCT ACTTTGCGTC CTCGGCCCCC CGGCCCCCGT TTCCCAAACA 3640 GAAGCTTCCC AGGCGCTCTC TGGGCTTCAT CCCGCCATCG GGCTTGGCCG CAGGTCCACA CGTCCTGATC 3710 GGAAGAAACA AGTGCCCAGC TCTGGCCGGG GCAGGCCACA TTTGTGGCTC ATGCCCTCTC CTCTGCCGGC 3780 AGGTCTCTAC CTTGACAGAC CTCCAGCCGT ACATGCGACA GTTCGTGGCT CACCTGCAGG AGACCAGCCC 3850 GCTGAGGGAT GCCGTCGTCA TCGAGCAGGT CTGGGCACTG CCCTGCAGGG TTGGGCACGG ACTCCCAGCA 3920 GTGGGTCCTC CCCTGGGCAA TCACTGGGCT CATGACCGGA CAGACTGTTG GCCCTGGGGG GCAGTGGGGG 3990 GAATGAGCTG TGATGGGGGC ATGATGAGCT GTGTGCCTTG GCGAAATCTG AGCTGGGCCA TGCCAGGCTG 4060 CGACAGCTGC TGCATTCAGG CACCTGCTCA CGTTTGACTG CGCGGCCTCT CTCCAGTTCC GCAGTGCCTT 4130 TGTTCATGAT TTGCTAAATG TCTTCTCTGC CAGTTTTGAT CTTGAGGCCA AAGGAAAGGT GTCCCCCTCC 4200 TTTAGGAGGG CAGGCCATGT TTGAGCCGTG TCCTGCCCAG CTGGCCCCTC AGTGCTGGGT CTGAGGCCAA 4270 AGGAAACGTG TCCCCCTTCT TAGGAGGACG GGCCGTGTTT GAGCCACGCC CCGCTGAGCG GGCCTCTCAG 4340 TGCTGGGTCT GTCCACGTGG CCCTGTGGCC CTTTGCAGAT GTGGTCTGTC CACGTGGCCC TGTGGCTCTT 4410 TGCAGATGCC TGTTAGCACT TGCTCGGCTC TAGGGGACAG TCGTGTCCAC CGCATGAGGC TCAGAGACCT 4480 CTGGGCGAAT TTCCTTGGCT CCCAGGGTGG GGGTGGAGGT GGCCTGGGCT GCTGGGACCC AGACCCTGTG 4550 CCCGGCAGCT GGGCAGCAAC TCCTGGATCA CATATGCCAT CCGGGCCACG GTGGGCTGTG TGGGTGTGAG 4620 CCCAGCTGGA CCCACAGGTG GCCCAGAGGA GACGTTCTGT GTCACACACT CTGCCTAAGC CCATGTGTGT 4690 CTGCAGAGAC TCGGCCCGGC CAGCCCACGA TGGCCCTGCA TTCCAGCCCA GCCCCGCACT TCATCACAAA 4760 CACTGACCCC AAAAGGGACG GAGGGTCTTG GCCACGTGGT CCTGCCTGTC TCAGCACCCA CCGGCTCACT 4830 CCCATGTGTC TCCCGTCTGC TTTCGCAGAG CTCCTCCCTG AATGAGGCCA GCAGTGGCCT CTTCGACGTC 4900 TTCCTACGCT TCATGTGCCA CCACGCCGTG CGCATCAGGG GCAAGTGAGT CAGGTGGCCA GGTGCCATTG 4970 CCCTGCGGGT GGCTGGGCGG GCTGGCAGGG CTTCTGCTCA CCTCTCTCCT GCCCCTTCCC CACTGNCCTT 5040 CTGCCCGGGG CCACCAGAGT CTCCTTTTCT GGCCCCCGCC CCCTCCGGCT CCTGGGCTGC AGGCTCCCGA 5110

GGCCCCGGAA ACATGGCTCG GCTTGCGGCA GCCGGAGCGG AGCAGGTGCC ACACGAGGCC TGGAAATGGC 5180

AAGCGGGGTG TGGAGTTGCT CCTGCGTGGA GGACGAGGGG CGGGGGGTGT GTCTGGGTCA GGTGTGCGCC 5250

GAGCGTTTGA GCCTGCAGCT TGTCAGCTCC AAGTTACTAC TGACGCTGGA CACCCGGCTC TCACACGCTT 5320

GTATCTCTCT CTCCCGATAC AAAAGGATTT TATCCGATTC TCATTCCTGT CCCTGTCGTG TGACCCCCGC 5390

GAGGGCGCGG GCTCTTCTCT CTGTGACTAG ATTTCCCATC TGGAAAGTGC GGGGTTGACC GTGTAGTTTG 5460

CTCCTCTCGG GGGGCCTGTG GTGGCCATGG GGCAGGCGGC CTGGGAGAGC TGCCGTCACA CAGCCACTGG 5530

GTGAGCCACA CTCACGGTGG TAGAGCCACA GTGCCTGGTG CCACATCACG TCCTCTGGAT TTTAAGTAAA 5600

ACCACACACC TCCCGGCAGG CATCTGCCTG CGACCCTGTG TGTGCCTGGG GAGAGTGGTA GCACGGAGGA 5670

AATTCGTGCA CACTCAAGGT CATCAGCAAG GTCATCCGCA GTCAGGTGGA ACGTGGAGGC CTCTCTCTGG 5740

GATCGTCTCC AGCGGATAAA GGACTGTGCA CAGCTTCGGA AGCTTTTATT TAAAAATATA ACTATTAATT 5810

ATTGCATTAT AAGTAATCAC TAATGGTATC AGCAATTATA ATATTTATTA AAGTATAATT AGAAATATTA 5880

AGTAGTACAC ACGTTCTGGA AAAACACAAA TTGCACATGG CAGCAGAGTG AATTTTGGCC GAGGGACACG 5950

TGTGCACATG TGTGTAAGCG GCCCCCAGGC CCACAGAATT CGCTGACAAA GTCACCTCCC CAGAGAAGCC 6020

ACCACGGGCC TCCTTCGTGG TCGTGAATTT TATTAAGATG GATCAAGTCA CGTACCGTCC ACGTGTGGCA 6090

GGGCTTTGGG GAATGTGAGG TGATGACTGC GTCCTCATGC CCTGACAGAC AGGAGGTGAC TGTGTCTGTC 6160

CTGTCCCTAG GACACGGACA GGCCCGAAGC TCTAGTCCCC ATCGTGGTCC AGTTTGGCCT CTGAATAAAA 6230

ACGTCTTCAA AACCTGTTGC CCCAAAAACT AAGAACAGAG AGAGTTTCCC ÄTCCCATGTG CTCACAGGGG 6300

CGTATCTGCT TGCGTTGACT CGCTGGGCTG GCCGGACTCC TAGAGTTGGT GCGTGTGCTT CTGTGCAAAA 6370

AGTGCAGTCC TCTTGCCCAT CACTGTGATA TCTGCACCAG CAAGGAAAGC CTCTTTTCTT TTCTTTCTTT 6440

TTTTTTTTTT GAGACGGAAC GTCACTGTTG TCTGCCTGGG CTTGAGTGCA GTGGCGCGAT CTCAACTCAC 6510

TGCAACCTCC GCCTCCCGGG TTCCAGCATT TCTCCTGCCT CAGCCTCCCG AGCAGCTGAG ATTACAGGCA 6580

CCCACCCCCT GCGCCTGGCT AATTTTTGTA TTTTTAGTAG AGAGGGGTTT TTGCCATGTT GGCCAGGCTG 6650

GTCTCGAACT CCTGACCTCA GGTGATCCAC CCACCTCGGC CTCCCAAAGT GCTGGGATTA CAGGTGTGAG 6720

CCATCACGCC CAGCCGGAAA GCCTCTTTTT AAGGTGACCA CCTATAGCGC TTCCCGAAAA TAACAGGTCT 6790

TGTTTTTGCA GTAGGCTGCA AGCGTCTCTT AGCAACAGGA GTGGCGTCCT GTGGGCTCTG GGGATGGCTG 6860

AGGGTCGCGT GGCAGCCATG CCTTCTGTGT GCACCTTTAG GTTCCACGGG GCTATTCTGC TCTCACTGTT 6930

TGTCTGAAAA CGCACCCTTG GCATCCTTGT TTGGAGAGTT TCTGCTTCTC GTTGGTCATG CTGAAACTAG 7000

GGGCAAGGTT GTATCCGTTG GCGCGCAGCG GCTACATGTA GGGTCATGAG TCTTTCACCG TGGACAAATT 7070

CCTTGAAAAA AAAAAAAGGA GTCCGGTTAA GCATTCATTC CGGGTCAAGT GTCTGGTTCT GTGAATAAAC 7140

TCTAAGATTT AAGAAACCTT AATGAAAGAA AACCTTGATG ATTCAGAGCA AGGATGTGGT CACACCTGTG 7210

GCTGGATCTG TTTCAGCCGC CCCAGTGCAT GGTGAGAGTG GGGAGCAGGG ATTGTTTGTT CAGAGGTCTC 7280

ATCTGGTATG TTTCTGAGGT GTTTGCCGGC TGAATGGTAG ACGTGTCGTT TGTGTGTATG AGGTTCTGTG 7350

TCTGTGTGTG GCTCGGTTTG AGTGTACGCA TGTCCAGCAC ATGCCCTGCC CGTCTCTCAC CTGTGTCTTC 7420

CCGCCCCAGG TCCTACGTCC AGTGCCAGGG GATCCCGCAG GGCTCCATCC TCTCCACGCT GCTCTGCAGC 7490

CTGTGCTACG GCGACATGGA GAACAAGCTG TTTGCGGGGA TTCGGCGGGA CGGGTGAGGC CTCCTCTTCC 7560

CCAGGGGGGC TTGGGTGGGG GTTGATTTGC TTTTGATGCA TTCAGTGTTA ATATTCCTGG TGCTCTGGAG 7630

ACCATGACTG CTCTGTCTTG AGGAACCAGA CAAGGTTGCA GCCCCTTCTT GGTATGAAGC CGCACGGGAG 7700

GGGTTGCACA GCCTGAGGAC TGCGGGCTCC ACGCAGGCTC TGTCCAGCGG CCATGTCCAG AGGCCTCAGG 7770

GCTCAGCAGG CGGGAGGGCC GCTGCCCTGC ATGATGAGCA TGTGAATTCA ACACCGAGGA AGCACACCAG 7840

CTTCTGTCAC GTCACCCAGG TTCCGTTAGG GTCCTTGGGG AGATGGGGCT GGTGCAGCCT GAGGCCCCAC 7910

ATCTCCCAGC AGGCCCTCGA CAGGTGGCCT GGACTGGGCG CCTCTTCAGC CCATTGCCCA TCCCACTTGC 7980

ATGGGGTCTA CACCCAAGGA CGCACACACC TAAATATCGT GCCAACCTAA TGTGGTTCAA CTCAGCTGGC 8050

TTTTATTGAC AGCAGTTACT TTTTTTTTTT TAATACTTTA AGTTCTAGGG TACATGTGCA CGACGTGCAG 8120

GTTAGTTACA TATGTATACA TGTGCCATGT TGGTGTGCTG CACCCATTAA CTCATCATTT ACATTAGGTA 8190

TATCTCCTAA TGCTATCCCT CCCCACTCCC CCCATCCCAT GACAGGCCCT GGTGTGTGAT GTTCCCCACC 8260

CTGTGTCCAA GTGTTCTCAT TGTTCAGTTC CCACCTGTGA GTGAGAACAT GTGGTGTTTG GTTTTCTTTC 8330

CTTGCAATAG TTTGCTCAGA GTGATGGTTT CCAGCTTCGT CCATGTCCCT ACAAAGGACA TGAACTCATC 8400

CTTTTTTATG ACTGCATAGT ATTCCGTGGT GTATATGTGC CACATTTTCT TAATCCAGTC TATCATCGAT 8470

GGACATTTGG GTTGGTTGCA AGTCTTTGCT ACTGTGAATA GTGCCGCAAT AAACATACGT GTGCATGTGT 8540

CTTTATAGCA GCATGATTTA TAATCCTTTG GGTATATACC CAGTAATGGG ATGGCTGGGT CAAATGGTAT 8610

TTCTAGTTCT AGATCCTTGA GGAATCACCA CACTGTCTTC CACAATGGTT GAACTAGTTT ACACTCCCAC 8680

CAACAGTGTA AAAGTGTTCT GGTGCTGGAG AGGATGTGGA CAGCAGTTAT TTTTTTATGA AAATAGTATC 8750

ACTGAACAAG CAGACAGTTA GTGAAGGATG CGTCAGGAAG CCTGCAGGCC ACACAGCCAT TTCTCTCGAA 8820

GACTCCGGGT TTTTCCTGTG CATCTTTTGA AACTCTAGCT CCAATTATAG CATGTACAGT GGATCAAGGT 8890

TCTTCTTCAT TAAGGTTCAA GTTCTAGATT GAAATAAGTT TATGTAACAG AAACAAAAAT TTCTTGTACA 8960

CACAACTTGC TCTGGGATTT GGAGGAAAGT GTCCTCGAGC TGGCGGCACA CTGGTCAGCC CTCTGGGACA 9030

GGATACCTCT GGCCCATGGT CATGGGGCGC TGGGCTTGGG CCTGAGGGTC ACACAGTGCA CCATGCCCAG 9100

CTTCCTGTGG ATAGGATCTG GGTCTCGGAT CATGCTGAGG ACCACAGCTG CCATGCTGGT AAAGGGCACC 9170

ACGTGGCTCA GAGGGGGCGA GGTTCCCAGC CCCAGCTTTC TTACCGTCTT CAGTTATTTT TCCCTAAGAG 9240

TCTGAGAAGT GGGGCCGCGC CTGATGGCCT TCGTTCGTCT TCAGCTGGCA CAGAATTGCA CAAGCTGATG 9310

GTAAACACTG AGTACTTATA ATGAATGAGG AATTGCTGTA GCAGTTAACT GTAGAGAGCT CGTCTGTTGG 9380

AAAGAAATTT AAGTTTTTCA TTTAACCGCT TTGGAGAATG TTACTTTATT TATGGCTGTG TAAATTGTTT 9450

GACATTCAGT CCCTCGTAGA CAGATACTAC GTAAAAAGTG TAAAGTTAAC CTTGCTGTGT ATTTTCCCTT 9520

ATTTTAGGCT GCTCCTGCGT TTGGTGGATG ATTTCTTGTT GGTGACACCT CACCTCACCC ACGCGAAAAC 9590

CTTCCTCAGG TGAGGCCCGT GCCGTGTGTC TGTGGGGACC TCCACAGCCT GTGGGCTTTG CAGTTGAGCC 9660

CCCCGTGTCC TGCCCCTGGC ACCGCAGCGT TGTCTCTGCC AAGTCCTCTC TCTCTGCCGG TGCTGGATCC 9730

GCAAGAGCAG AGGCGCTTGG CCGTGCACCC AGGCCTGGGG GCGCAGGGGC ACCTTCGGGA GGGAGTGGGT 9800

ACCGTGCAGG CCCTGGTCCT GCAGAGACGC ACCCAGGTTA CACACGTGGT GAGTGCAGGC GGTGACCTGG 9870

CTCCTGCTGC TCTTTGGAAA GTCAAGAGTG GCGGCTCCTG GGGCCCCAGT GAGACCCCCA GGAGCTGTGC 9940

ACAGGGCCTG CAGGGCCGAG GCGGCAGCCT CCTCCCCAGG GTGCACCTGA GCCTGCGGAG AGCAGGAGCT 10010

GCTGAGTGAG CTGGCCCACA GCGTTCGCTG CGGTCACGTT CCTGCGTGGG GTTGTTTGGG ATCGGTGGGA 10080

GAATTTGGAT TTGCTGAGTG CTGCTGTCTT GAACCACGGA GATGGCTAGG AGTGGGTTTC AGAGTTGATT 10150

TTTGTGAATC AAACTAAAAT CAGGCACAGG GGACCTGGCC TCAGCACAGG GGATTGTCCA ATGTGGTCCC 10220

CCTCAAGGGC GCCCCACAGA GCCGGTGGGC TTGTTTTAAA GTGCGATTTG ACGAGGGACG AGAAACCTTG 10290

AAAGCTGTAA AGGGAACCCT CAGAAAATGT GGCCGCCAGG GGTGGTTTCA GGTGCTTTGC TGGGCTGTGT 10360

TTGTGAAAAC CCATTTGGAC CCGCCCTCCA AGTCCACCCT CCAGGTCCAC CCTCCAGGGC CGCCCTGGGC 10430 TGGGGGTATG CCTGGCGTTC CTTGTGCCGC AGCCCGGAGC ACAGCAGGCT GTGCACATTT AAATCCACTA 10500

AGATTCACTC GGGGGGAGCC CAGGTCCCAA GCAACTGAGG GCTCAGGAGT CCTGAGGCTG CTGAGGGGAC 10570

AGAGCAGACG GGGAACGCTG CTTCTGTGTG GCAAGTTCCT GAGGGTGCTG GCCAGGGAGG TGGCTCAGAG 10640

TGTATGTTGG GGTCCCACCG GGGGCAGAAC TCTGTCTCTG ATGAGTCGGC AGCCATGTAA CAGGAAGGGG 10710

5 TGGCCACAGG GAGCTGGGAA TGCACCAGGG GAGCTGCGCA GCTGGCCGAG GTCCCAGGGC CAGGCCACAG 10780

GAAGGGCAGG GGGACGCCCG GGGCCACAGC AGAGGCCGCA GGAAGGGAAG GGGATGCCCA GGCCAGAGCA 10850

GAGGCTACCG GGCACAGGGG GGCTCCCTGA GCTGGGTGAG CGAGGCTCAT GACTCGGCGA GGGAACCTCC 10920

TTGACGTGAA GCTGACGACT GGTGTTGCCC AGCTCACAGC CCAGCCAGGT CCCGCGCCTG AGCAGGAACT 10990

CAGAACCCTC CCCTTTGTCT AAAGCACAGC AGATGCCTTC AGGGCATCTA GGAGAAAACA GGCAAAGTCG 11060

10 TTGAGAAACG TCTTAAAAGA AGGTGGGATG GTGGCAATTT CTTGTCCAGA TTTTAGTCTG CCCCGGACCA 11130

CAGATGAGTC TATAACGGGA TTGTGGTGTT GCCATGGGGA CACATGAGAT GGACCATCAC AGAGGCCACT 11200

GGGGCTGCAC CTCCCATCTG AGTCCTGGCT GTCCCGGGTC CAGGCCAGGT TCTTGCATGC TCACCTACCT 11270

GTCCTGCCCG GGAGACAGGG AAAGCACCCC GAAGTCTGGA GCAGGGCTGG GTCCAGGCTC CTCAGAGCTC 11340

CTGCCAGGCC CAGCACCCTG CTCCAAATCA CCACTTCTCT GGGGTTTTCC AAAGCATTTA ACAAGGGTGT 11410

15 CAGGTTACCT CCTGGGTGAC GGCCCCGCAT CCTGGGGCTG ACATTGCCCC TCTGCCTTAG GACCCTGGTC 11480

CGAGGTGTCC CTGAGTATGG CTGCGTGGTG AACTTGCGGA AGACAGTGGT GAACTTCCCT GTAGAAGACG 11550

AGGCCCTGGG TGGCACGGCT TTTGTTCAGA TGCCGGCCCA CGGCCTATTC CCCTGGTGCG GCCTGCTGCT 11620

GGATACCCGG ACCCTGGAGG TGCAGAGCGA CTACTCCAGG TGAGCGCACC TGGCCGGAAG TGGAGCCTGT 11690

GCCCGGCTGG GGCAGGTGCT GCTGCAGGGC CGTTGCGTCC ACCTCTGCTT CCGTGTGGGG CAGGCGACTG 11760

20 CCAATCCCAA AGGGTCAGAG GCCACAGGGT GCCCCTCGTC CCATCTGGGG CTGAGCAGAA ATGCATCTTT 11830

CTGTGGGAGT GAGGGTGCTC ACAACGGGAG CAGTTTTCTG TGCTATTTTG GTAAAAGGAA ATGGTGCACC 11900

AGACCTGGGT GCACTGAGGT GTCTTCAGAA AGCAGTCTGG ATCCGAACCC AAGACGCCCG GGCCCTGCTG 11970

GGCGTGAGTC TCTCAAACCC GAACACAGGG GCCCTGCTGG GCATGAGTCC CTCTGAACCC GAGACCCTGG 12040

GGCCCTGCTG GGCGTGAGTC TCTCCGAACC CAGAGACTTC AGGGCCCTTT TGGGCGTGAG TCTCTCCGCT 12110

25 GTGAGCCCCA CACTCCAAGG CTCATCCACA GTCTACAGGA TGCCATGAGT TCATGATCAC GTGTGACCCA 12180

TCAGGGGACA GGGCCATGGT GTGGGGGGGG TCTCTACAAA ATTCTGGGGT CTTGTTTCCC CAGAGCCCGA 12250

GAGCTCAAGG CCCCGTCTCA GGCTCAGACA CAAATGAATT GAAGATGGAC ACAGATGCAG AAATCTGTGC 12320

TGTTTCTTTT ATGAATAAAA AGTATCAACA TTCCAGGCAG GGCAAGGTGG CTCACACCTA TAATCCCAGC 12390

ACTTTGGGAG GCCGAGGTGG GTGGATCACT TGAGGCCAGG AGTTTGAGGC CAACCTAACC AACATAGTGA 12460

30 AATTCCATTT CTACTTAAAA AATACAAAAA TTAGCCTGGC CTGGTGGCAC ACGCCTGTAG TCCCCGCTAT 12530

GCGGGAGGCT GAGGCAGGAG AATCATTTGA ACCCAGGAGG CAGAGGTTGC AGTGAGCCGA GATCACACCA 12600

CTGCACTCCA GCCTGGGCAA CAGAGTGAGA CTTCATCTTA AAAAAAAAAA AAAAAGTATC AGCATTCCAA 12670

AACCATAGTG GACAGGTGTT TTTTTATTCT GTCCTTCGAT AATATTTACT GGTGCTGTGC TAGAGGCCGG 12740

_ AACTGGGGGT GCCTTCCTCT GAAAGGCACA CCTTCATGGG AAGAGAAATA AGTGGTGAAT GGTTGTTAAA 12810 j5 CCAGAGGTTT AAACTGGGGT CCTGTCGTTC TGAGTTAACA GTCCAGATCT GGACTTTGCC TCTTTCCAGA 12880

ATGCTCCCTG GGGTTTGCTT CATGGGGGAG CAGCAGGTGT GGACACCCTC GTGATGGGGG AGCAGCAGGT 12950

GCAGACGCCC TCATGATGGG GGAGTGGCAG GTGCAGACAC CCTTGTGCAT GGTGCCCAGC ATGTCCCTGT 13020

TGCAGCTCCC TCCCCACAAG GATGCCGGTC TCCTGTGCTC CCCACAGTCC CTGCTTCCCT CTCACAGCCT 13090

TACCTGGTCC TGGCCTCCAC TGGCTTTGTC TGCATGATTT CCACATTTCC TGGGCTCCCA GCACCTCTTC 13160

40 GCCTCTCCCA GGCACCTCTG CAGTGCTGGC CATACCAGTC AGCTGTGAAC TGTCCACTGC TTATTTTGCT 13230

CCCCATGAAA TGTATTTTTT AGGACAGGCA CCCCTGGTTC CAGCCTCTGG CACAGCATCA GTGAATGTTA 13300

TTGAAGGACA AAGGACAGAC AAACAAATCA GGAAAATGGG TTCTCTCTAA ACACATTGCA AAGCCACAGA 13370

GGCTAGTGCA GGATGGGTGG GCATCAGGTC ATCAGATGTG GGTCCAATGC CAGAATATTC TGTGCTCCCA 13440

AAGGCCACTT GGTCAGAGTG TGTGCTTGCA GAGGTGGCTC TAAAAGCTCA GCAGTGGAGG CAGTGGTTCG 13510

45 CCATACTCAG GGTGAACTCA CATCCTCTGT GTCTGAAGTA TACAGCAGAG GCTTGAAGGG CATCTGGGAG 13580

AAGAAAACAG GCAAAATGAT TAAGAAAAGT GAAAAAGGAA AAGTGGTAAG ATGGGAATTT TCTTGTCCAG 13650

ATTTTAGTCT CCCAAACCAC AGCTCAGATG GTAGAATGTG GTCAGAACTG ATGGACAGAA CAATAGAACA 13720

AAACGGAAGC CCTATCTCTC AGAAACGTGT GTTAATGTGG TÄTGTGGCAC AGCTGATGGA AÄAGAGAGTG 13790

TGTGTGTAAT TTTTTTTTCT GAGAAAACTG ACTGGAAGCA AATAAGTTGT GTCTTTACAG CATATACCAG 13860

50 AGCAGATTCT AGGTAGAAGA GGAGACACAT GCAAACAACA CCAGCAACAG AAATAAAACA AAAGACTCAA 13930

AGGGAAGGGA GGTGAACGTT CCCTGGTTTG GTGTTGGGGA AGGACACACA GGGAGGCGGA TGAAACCAGT 14000

GAGGCAACGG GCATTGCTTT CACTGCAGAG AAACTCAGCT TGCCTGAGCC ACAGTGAAAA TGGCCATTCC 14070

CTGGAGCGTT TGTGCACGTG ATTTATTTAA GGCGCCCTGT GAGGTCCTGC ACATTCATCC TCTCACTTTG 14140

TTCTCCTAAC CACCTGAGAG GTAGAGGAGG AAAGGCTCCA GGGGAGCAGC CGCCCTTGGT CACCCAGCTG 14210

55 GCAAAGGGCA TGCATGATTG CAGCCTGGCC TCCTGCTCCG GGGCCCTTGC TCTGCCCGAG GACCCCACAC 14280

AAGTCAGACC CATAGGCTCA GGGTGAGCCG GAGCCCAAGG TCGTGTTGGG GATGGCTGTG AAAGAAGAAA 14350

TGGACGTCTG ATGCACACTT GGGAAGGTCC TACCAGCAGC GTCAAAGAAA TGCATGTGAA ACTGACAGCG 14420

AGACCCATCC CTCAAAGAAA CGCACGTGAA ACTGATGGCG AGACCTGTCC CCATCCCTCA TGCTGGCTCC 14490

TTTTCTGGGC TTGCCAAGAG CCAGCATCAG GTTGAGGCAA GCTGGAAAGA CTTTTCTGGA AAGCAGCTTG 14560

60 TTTGCATGGA AGTCCTCACA ATGTCCTGTG TCTTCCCAGT AATTCCACTT CTGAAGTGAC CAC-ACATTAT 14630

CACGGGTCTT ATTTACCATT TCCAGTGTTC CAGGCAGGGG GACTTGCCAC AGCAAGTCAC GAACCTGCCC 14700

AAATACAGGG CTAAGGAGAT ATTATGCATC ACAAAACTTG CTCTGCCATT AAACATTTTT CAAAGAATTT 14770

TTGAAGAATG TTTAATGGCA CAAAACGTTT ATTTCAATGT AGCAGTGTTC AAAGCTGGAT GTAAAAGAAC 14840

ACACCCCAGG AGCCTGCCGT GAATGTCATG TGTGTTCATC TTTGGACATG GACATACATG GGCAGTGAGT 14910

65 GGTGGTGAGG CCCTGGAGGA CATCGGTGGG ATGCCTCCAT CCTGCCCCTC TGGAGACACC ATGTGTGCCA 14980

CGTGCACTCA CTGGAGCCCT GTTTAGCTGG TGCCACCTGG CTCTTCCATC CCTGAGATTC AAACACAGTG 15050

AGATTCCCCA CGCCCAACTC AGTGTTCTCC CACAAAAAAC CTGAGTCACA CCTGTGTTCA CTCGAGGGAC 15120

GCCCGGGAGC CAGGGCTCCA CAGTTTATTA TGTGTTTTTG GCTGAGTTAT GTGCAGATCT CATCAGGGCA 15190

GATGATGAGT GCACAAACAC GGCCGTGCGA GGTTTGGATA CACTCAACAT CACTAGCCAG GTCCTGGTGG 15260

70 AGTTTGGTCA TGCAGAGTCT GGATGGCATG TAGCATTTGG AGTCCATGGA GTGAGCACCC AGCCCCCTCG 15330

GGCTGCAGCG CATGCCCCAG GCAGGACAAG GAAGCGGGAG GAAGGCAGGA GGCTCTTTGG AGCAAGCTTT 15400

GCAGGAGGGG GCTGGGTGTG GGGCAGGCAC CTGTGTCTGA CATTCCCCCC TGTGTCTCAG CTATGCCCGG 15470

ACCTCCATCA GAGCCAGTCT CACCTTCAAC CGCGGCTTCA AGGCTGGGAG GAACATGCGT CGCAAACTCT 15540

TTGGGGTCTT GCGGCTGAAG TGTCACAGCC TGTTTCTGGA TTTGCAGGTG AGCAGGCTGA TGGTCAGCAC 15610

75 AGAGTTCAGA GTTCAGGAGG TGTGTGCGCA AGTATGTGTG TGTGTGTGTG CGCGCGTGCC TGCAAGGCTG 15680

ATGGTGACTG GCTGCACGTA AGAGTGCACA TGTACGCATA TACACGTGAG CACATACATG TGTGCATGTG 15750

TGTACATGAA GGCATGGCAG TGTGTGCACA GGTGTGCAAG GGCACAAGTG TGTGCACATG CGAATGCACA 15820 CCTGACATGC ATGTGTGTTC GTGCACAGTC GTGTGGGCAT TCACGTGAGG TGCATGCGTG TGGGTGTGCA 15890

GTGTGAGTAG CATGTGTGCA CATAACATGT ATTGAGGGGT CCTCGTGTTC ACCCCGCTAG GTCCTCAGCA 15960

CCAGTGCCAC TCCTTACAGG ATGAGACGGG GTCCCAGGCC TTGGTGGGCT GAGGCTCTGA AGCTGCAGCC 16030

CTGAGGGCAT TGTCCCATCT GGGCATCCGC GTCCACTCCC TCTCCTGTGG GCTTCTGTGT CCACTCCCCC 16100 TCTCCTGTGG GCATTTACAT CCACTCCACT CCCTCTCTCC TGTGGGCATC CGCGTCCACT CCCCCTCTCT 16170

GTGGGCATCT GCGTCCACCT CCCCTCTCTG TGGGCATTTG CGTCCACTCC CTCTCCTGGT TCCTTCCTGT 16240

CTTGGCCGAG CCTCGGGGGC AGGCAGATGA CACAGAGTCT TGACTCGCCC AGGGTGGTTC GCAGCTGCCG 16310

GGTGAGGGCC AGGCCGGATT TCACTGGGAA GAGGGATAGT TTCTTGTCAA AATGTTCCTC TTTCTTGTTC 16380

CATCTGAATG GATGATAAAG CAAAAAGTAA AAACTTAAAA TCCCAGAGAG GTTTCTACCG TTTCTCACTC 16450 TTTCTTGGCG ACTCTAGGTG AACAGCCTCC AGACGGTGTG CACCAACATC TACAAGATCC TCCTGCTGCA 16520

GGCGTACAGG TGAGCCGCCA CCAAGGGGTG CAGGCCCAGC CTCCAGGGAC CCTCCGCGCT CTGCTCACCT 16590

CTGACCCGGG GCTTCACCTT GGAACTCCTG GGTTTTAGGG GCAAGGAATG TCTTACGTTT TCAGTGGTGC 16660

TGCTGCCTGT GCACAGTTCT GTTCGCGTGG CTCTGTGCAA AGCACCTGTT CTCCATCTCT GGGTAGTGGT 16730

AGGAGCCGGT GTGGCCCCAG GTGTCCCCAC TGTGCCTGTG CACTGGCCGT GGGACGTCAT GGAGGCCATC 16800 CCAGGGCAGC AGGGGCATGG GGTAAAGAGA TGTTTATGGG GAGTCTTAGC AGAGGAGGCT GGGAAGGTGT 16870

CTGAACAGTA GATGGGAGAT CAGATGCCCG GAGGATTTGG GGTCTCAGCA AAGAGGGCCG AGGTGGGTGC 16940

AGGTGAGGGT CGCTGGCCCC ACCCCCGGGA AGGTGCAGCA GAGCTGTGGC TCCCCACACA GCCCGGCCAG 17010

CACCTGTGCT CTGGGCATGG CTGTGCTCCT GGAACGTTCC CTGTCCTGGC TGGTCAGGGG GTGCCCCTGC 17080

CAAGAATCGA CAACTTTATC ACAGAGGGAA GGGCCAATCT GTGGAGGCCA CAGGGCCAGC TTCTGCCTGG 17150 AGTCAGGGCA GGTGGTGGCA CAAGCCTCGG GGCTGTACCA AAGGGCAGTC GGGCACCACA GGCCCGGGCC 17220

TCCACCTCAA CAGGCCTCCC GAGCCACTGG GAGCTGAATG CCAGGAGGCC GAAGCCCTCG CCCCATGAGG 17290

GCTGAGAAGG AGTGTGAGCA TTTGTGTTAC CCAGGGCCGA GGCTGCGCGA ATTACCGTGC ACACTTGATG 17360

TGAAATGAGG TCGTCGTCTA TCGTGGAAAC CCAGCAAGGG CTCACGGGAG AGTTTTCCAT TACAAGGTCG 17430

TACCATGAAA ATGGTTTTTA ACCCGAGTGC TTGCGCCTTC ATGCTCTGGC AGGGAGGGCA GAGCCACAGC 17500 TGCATGTTAC CGCCTTTGCA CCAGCTCCAG AGGCTTGGGA CCAGGCTGTC TCAGTTCCAG GGTGCGTCCG 17570

GCTCAGACCG CCCTCCTCTC TGCCTTCTCT CTCTGCCTCA AATCTTCCCT CGTTTGCATC TCCCTGACGC 17640

GTGCCTGGGC CCTCGTGCAA GCTGCTTGAC TCCTTTCCGG AAACCCTTGG GGTGTGCTGG ATACAGGTGC 17710

CACTGAGGAC TGGAGGTGTC TGACACTGTG GTTGACCCCA GGGTCCAGCT GGCGTGCTTG GGGCCTCCTT 17780

GGGCCATGAT GAGGTCAGAG GAGTTTTCCC AGGTGAAAAC TCCTGGGAAA CTCCCAGGGC CATGTGACCT 17850 GCCACCTGCT CCTCCCATAT TCAGCTCAGT CTTGTCCTCA TTTCCCCACC AGGGTCTCTA GCTCCGAGGA 17920

GCTCCCGTAG AGGGCCTGGG CTCAGGGCAG GGCGGCTGAG TTTCCCCACC CATGTGGGGA CCCTTGGGTA 17990

GTCGCTTGAT TGGGTAGCCC TGAGGAGGCC GAGATGCGAT GGGCCACGGG CCGTTTCCAA ACACAGAGTC 18060

AGGCACGTGG AAGGCCCAGG AATCCCCTTC CCTCGAGGCA GGAGTGGGAG AACGGAGAGC TGGGCCCCGA 18130

TTTCACGGCA GCCAGGCTGC AGTGGGCGAG GCTGTGGTGG TCCACGTGGC GCTGGGGGCG GGGTCTGATT 18200 CAAATCCGCT GGGGCTCGGC CTTCCTGGCC CGTGCTGGCC GCGCCTCCAC ACGGGCTTGG GGTGGACGCC 18270

CCGACCTCTA GCAGGTGGCT ATTTCTCCCT TTGGAAGAGA GCCCCTCACC CATGCTAGGT GTTTCCCTCC 18340

TGGGTCAGGA GCGTGGCCGT GTGGCAACCC CGGGACCTTA GGCTTATTTA TTTGTTTAAA AACATTCTGG 18410

GCCTGGCTTC CGTTGTTGCT AAATGGGGAA AAGACATCCC ACCTCAGCAG AGTTACTGAG AGGCTGAAAC 18480

CGGGGTGCTG GCTTGACTGG TGTGATCTCA GGTCATTCCA GAAGTGGCTC AGGAAGTCAG TGAGACCAGG 18550 TACATGGGGG GCTCAGGCAG TGGGTGAGAT GAGGTACACG GGGGGCTCAG GCAGTGGGTG AGGCCAGGTA 18620

CATGGGGGGC TCAGGCACTG GGTGAGATGA GGTACACGGG GGGCTCAGGC AGAGGGTCAG ACCAGGTACA 18690

CGGGGGCTCT GATCACACGC ACATATGAGC ACATGTGCAC ATGTGCTGTT TCATGGTAGC CAGGTCTGTG 18760

CACACCTGCC CCAAAGTCCC AGGAAGCTGA GAGGCCAAAG ATGGAGGCTG ACAGGGCTGG CGCGGTGGCT 18830

CACACCTGTA GTCCCAGCAC TTTGGGAGGC CGAGGCGAGA GGATCCCTTG AGCCCAGGAG TTTAAGACCA 18900 GCCTGAGCAA CATAGTAGAA CCCCATCTCT ATGAAAAATA AAAACAAAAA TTAGCTGAAC ATGGTGGTGT 18970

GCGCCTGTAG TTCCAATACT TGGGAGGCTG AAGTGGGAGG ATCACTTGAG CCCAGGAGGT GGAAGCTGCA 19040

GTGAGCTGAG ATTGCACCAC TGTACTGCAG CCTGGGTGAC AGAGTGAGAG CCCATCTCAA CAACAACAAA 19110

GAAGACTGAC AAATGCAGTT TCTTGGAAAG AAACATTTAG TAGGAACTTA ACCTACACAC AGAAGCCAAG 19180

TCGGTGTCTC GGTGTCAGTG AGATGAGATG ATGGGTCCTC ACACCATCAC CCCAGACCCA GGGTTTATGC 19250 ACCACAGGGG CGGGTGGCTC AGAAGGGATG CGCAGGACGT TGATATACGA TGACATCAAG GTTGTCTGAC 19320

GAAGGGCAGG ATTCATGATA AGTACCTGCT GGTACACAAG GAACAATGGA TAAACTGGAA ACCTTAGAGG 19390

CCTTCCCGGA ACAGGGGCTA ATCAGAAGCC AGCATGGGGG GCTGGCATCC AGGATGGAGC TGCTTCAGCC 19460

TCCACATGCG TGTTCATACA GATGGTGCAC AGAAACGCAG TGTACCTGTG CACACACAGA CACGCAGCTA 19530

CTCGCACACA CAAGCACACA CACAGACATG CATGCATGCA TCCGTGTGTG TGCACCTGTG CCCATGAGGA 19600 AACCCATGCA TGTGCATTCA TGCACGCACA CAGGCACCGG TGGGCCCATG CCCACACCCA CGAGCACCGT 19670

CTGATTAGGA GGCCTTTCCT CTGACGCTGT CCGCCATCCT CTCAGGTTTC ACGCATGTGT GCTGCAGCTC 19740

CCATTTCATC AGCAAGTTTG GAAGAACCCC ACATTTTTCC TGCGCGTCAT CTCTGACACG GCCTCCCTCT 19810

GCTACTCCAT CCTGAAAGCC AAGAACGCAG GTATGTGCAG GTGCCTGGCC TCAGTGGCAG CAGTGCCTGC 19880

CTGCTGGTGT TAGTGTGTCA GGAGACTGAG TGAATCTGGG CTTAGGAAGT TCTTACCCCT TTTCGCATCA 19950 GGAAGTGGTT TAACCCAACC ACTGTCAGGC TCGTCTGCCC GCCCTCTCGT GGGGTGAGCA GAGCACCTGA 20020

TGGAAGGGAC AGGAGCTGTC TGGGAGCTGC CATCCTTCCC ACCTTGCTCT GCCTGGGGAA GCGCTGGGGG 20090

GCCTGGTCTC TCCTGTTTGC CCCATGGTGG GATTTGGGGG GCCTGGCCTC TCCTGTTTGC CCTGTGGTGG 20160

GATTGGGCTG TCTCCCGTCC ATGGCACTTA GGGCCCTTGT GCAAACCCAG GCCAAGGGCT TAGGAGGAGG 20230

CCAGGCCCAG GCTACCCCAC CCCTCTCAGG AGCAGAGGCC GCGTATCACC ACGACAGAGC CCCGCGCCGT 20300 CCTCTGCTTC CCAGTCACCG TCCTCTGCCC CTGGACACTT TGTCCAGCAT CAGGGAGGTT TCTGATCCGT 20370

CTGAAATTCA AGCCATGTCG AACCTGCGGT CCTGAGCTTA ACAGCTTCTA CTTTCTGTTC TTTCTGTGTT 20440

GTGGAAATTT CACCTGGAGA AGCCGAAGAA AACATTTCTG TCGTGACTCC TGCGGTGCTT GGGTCGGGAC 20510

AGCCAGAGAT GGAGCCACCC CGCAGACCGT CGGGTGTGGG CAGCTTTCCG GTGTCTCCTG GGAGGGGAGC 20580

TGGGCTGGGC CTGTGACTCC TCAGCCTCTG TTTTCCCCCA GGGATGTCGC TGGGGGCCAA GGGCGCCGCC 20650 GGCCCTCTGC CCTCCGAGGC CGTGCAGTGG CTGTGCCACC AAGCATTCCT GCTCAAGCTG ACTCGACACC 20720

GTGTCACCTA CGTGCCACTC CTGGGGTCAC TCAGGACAGG CAAGTGTGGG TGGAGGCCAG TGCGGGCCCC 20790

ACCTGCCCAG GGGTCATCCT TGAACGCCCT GTGTGGGGCG AGCAGCCTCA GATGCTGCTG AAGTGCAGAC 20860

GCCCCCGGGC CTGACCCTGG GGGCCTGGAG CCACGCTGGC AGCCCTATGT GATTAAACGC TGGTGTCCCC 20930

AGGCCACGGA GCCTGGCAGG GTCCCCAACT TCTTGAACCC CTGCTTCCCA TCTCAGGGGC GATGGCTCCC 21000 CACGCTTGGG AGCCTTCTGA CCCCTGACCT GTGTCCTCTC ACAGCCTCTT CCCTGGCTGC TGCCCTGAGC 21070

TCCTGGGGTC CTGAGCAAGT TCTCTCCCCG CCCCGCCGCT CCAGCGTCAC TGGGCTGCCT GTCTGCTCGC 21140

CCCGGTGGAG GGGTGTCTGT CCCTTCACTG AGGTTCCCAC CAGCCAGGGC CACGAGGTGC AGGCCCTGCC 21210 TGCCCGGCCA CCCACACGTC CTAGGAGGGT TGGAGGATGC CACCTCTGGC CTCTTCTGGA ACGGAGTCTG 21280 ATTTTGGCCC CGCAGCCCAG ACGCAGCTGA GTCGGAAGCT CCCGGGGACG ACGCTGACTG CCCTGGAGGC 21350 CGCAGCCAAC CCGGCACTGC CCTCAGACTT CAAGACCATC CTGGACTGAT GGCCACCCGC CCACAGCCAG 21420 GCCGAGAGCA GACACCAGCA GCCCTGTCAC GCCGGGCTCT ACGTCCCAGG GAGGGAGGGG CGGCCCACAC 21490 CCAGGCCCGC ACCGCTGGGA GTCTGAGGCC TGAGTGAGTG TTTGGCCGAG GCCTGCATGT CCGGCTGAAG 21560 GCTGAGTGTC CGGCTGAGGC CTGAGCGAGT GTCCAGCCAA GGGCTGAGTG TCCAGCACAC CTGCCGTCTT 21630 CACTTCCCCA CAGGCTGGCG CTCGGCTCCA CCCCAGGGCC AGCTTTTCCT CACCAGGAGC CCGGCTTCCA 21700 CTCCCCACAT AGGAATAGTC CATCCCCAGA TTCGCCATTG TTCACCCCTC GCCCTGCCCT CCTTTGCCTT 21770 CCACCCCCAC CATCCAGGTG GAGACCCTGA GAAGGACCCT GGGAGCTCTG GGAATTTGGA GTGACCAAAG 21840 GTGTGCCCTG TACACAGGCG AGGACCCTGC ACCTGGATGG GGGTCCCTGT GGGTCAAATT GGGGGGAGGT 21910 GCTGTGGGAG TAAAATACTG AATATATGAG TTTTTCAGTT TTGAAAAAAA TCTCATGTTT GAATCCTAAT 21980 GTGCACTGCA TAGACACCAC TGTATGCAAT TACAGAAGCC TGTGAGTGAA CGGGGTGGTG GTCAGTGCGG 22050 GCCCATGGCC TGGCTGTGCA TTTACGGAAG TCTATGAGTG AATGGGGTTG TGGTCAGTGC GGGCCCATGG 22120 CCTGGCTGGG CCTGGGAGGT TTCTGATGCT GTGAGGCAGG AGGGGAAGGA GGGTAGGGGA TAGACAGTGG 22190 GAGCCCCCAC CCTGGAAGAC ATAACAGTAA GTCCAGGCCC GAAGGGCAGC AGGGATGCTG GGGGCCCAGC 22260 TTGGGCGGCG GGGATGATGG AGGGCCTGGC CAGGGTGGCA GGGATGATGG GGGCCCCAGC TGGGGTGGCA 22330 GGGGTGATGG GGGGGGCTGG TCTGGGTGGC GGGGAAGATG GGGAAGCCTG GCTGGGCCCC CTCCTCCCCT 22400 GCCTCCCACC TGCAGCCGTG GATCCGGATG TGCTTCCCTG GTGCACATCC TCTGGGCCAT CAGCTTTCAT 22470 GGAGGTGGGG GGCAGGGGCA TGACACCATC CTGTATAAAA TCCAGGATTC CTCCTCCTGA ACGCCCCAAC 22540 TCAGGTTGAA AGTCACATTC CGCCTCTGGC CATTCTCTTA AGAGTAGACC AGGATTCTGA TCTCTGAAGG 22610 GTGGGTAGGG TGGGGCAGTG GAGGGTGTGG ACACAGGAGG CTTCAGGGTG GGGCTGGTGA TGCTCTCTCA 22680 TCCTCTTATC ATCTCCCAGT CTCATCTCTC ATCCTCTTAT CATCTCCCAG TCTCATCTGT CTTCCTCTTA 22750 TCTCCCAGTC TCATCTGTCA TCCTCTTACC ATCTCCCAGT CTCATCTCTT ATCCTCTTAT CTCCTAGTCT 22820 CATCCAGACT TACCTCCCAG GGCGGGTGCC AGGCTCGCAG TGGAGCTGGA CATACGTCCT TCCTCAGGCA 22890 GAAGGAACTG GAAGGATTGC AGAGAACAGG AGGGGCGGCT CAGAGGGACG CAGTCTTGGG GTGAAGAAAC 22960 AGCCCCTCCT CAGAAGTTGG CTTGGGCCAC ACGAAACCGA GGGCCCTGCG TGAGTGGCTC CAGAGCCTTC 23030 CAGCAGGTCC CTGGTGGGGC CTTATGGTAT GGCCGGGTCC TACTGAGTGC ACCTTGGACA GGGCTTCTGG 23100 TTTGAGTGCA GCCCGGACGT GCCTGGTGTC GGGGTGGGGG CTTATGGCCA CTGGATATGG CGTCATTTAT 23170 TGCTGCTGCT TCAGAGAATG TCTGAGTGAC CGAGCCTAAT GTGTATGGTG GGCCCAAGTC CACAGACTGT 23240 GTCGTAAATG CACTCTGGTG CCTGGAGCCC CCGTATAGGA GCTGTGAGGA AGGAGGGGCT CTTGGCAGCC 23310 GGCCTGGGGG CGCCTTTGCC CTGCAAACTG GAAGGGAGCG GCCCCGGGCG CCGTGGGCGG ACGACCTCAA 23380 GTGAGAGGTT GGACAGAACA GGGCGGGGAC TTCCCAGGAG CAGAGGCCGC TGCTCAGGCA CACCTGGGTT 23450 TGAATCACAG ACCAACaGGT CAGGCCATTG TTCAGCTATC CATCTTCTAC AAAGCTCCAG ATTCCTGTTT 23520 CTCCGGGTGT TTTTTGTTGA AATTTTACTC AGGATTACTT ATATTTTTTG CTAAAGTATT AGACCCTTAA 23590 AAAAGGTATT TGCTTTGATA TGGCTTAACT CACTAAGCAC CTACTTTATT TGTCTGTTTT TATTTATTAT 23660 TATTATTATT ATTAGAGATG GTGTCTACTC TGTCACCCAG GTTGTTAGTG CAGTGGCACA GTCATGGCTC 23730 GCTGTAGCCG CAAACCCCCA GGCTCAAGTG ATCCTCCGGC CTCAGCTTCC CAGAGTGCTG GGATTACAGG 23800 TGTGAGCCAC TGCCCTTGCC TGGCACTTTT AAAAACCACT ATGTAAGGTC AGGTCCAGTG GCTTCCACAC 23870 CTGTCATCCC AGTAGTTTGG GAAGCCGAGG CAGAAGGATT GTCTGAGGCC AGGAGTTTGA GACCAGCATG 23940 GGTAACATAG GGAGACCCCA TCTCTACAAA. AAATGCAAAA AGTTATCCGG GCGTGGGGTC CAGCATCTGT 24010 AGTCCCAGCT GCTCGGGAGG CTGAGTGGGA GGATCGCTTG AGCCCGGGAG GTCATGGCTG CAGTGAGCTG 24080 TGATTGTACC ATCGCACTCC AGCCTGGGCA ACAGAGTGAG ACCCTGTCTC AAAAAAAAAA AAAAAAAAAG 24150 AAGGAGAAGG AGAAGAGAAG AAGAAGGAAG AAGGAAAGAG AAGAAGAAGG AAGAAGGAAG AAAGAAGGAG 24220 AAGGAGGCCT GCTAGGTGCT AGGTAGACTG TCAAATCTCA GAGCAAAATG AAAATAACAA AGTTTTAAAG 24290 GGAAAGAAAA ACCCCAGCTC TTTGGACTTC CTTAGGCCTG AACTTCATCT CAAGCAGCTT CCTTCCACAG 24360 ACAAGCGTGT ATGGAGCGAG TGAGTTCAAA GCAGAAAGGG AGGAGAAGCA GGCAAGGGTG GAGGCTGTGG 24430 GTGACACCAG CCAGGACCCC TGAAAGGGAG TGGTTGTTTT CCTGCCTCAG CCCCACGCTC CTGCCGGTCC 24500 TGCACCTGCT GTAACCGTCG ATGTTGGTGC CAGGTGCCCA CCTGGGAAGG ATGCTGTGCA GGGGGCTTGC 24570 CAAACTTTGG TGGGTTTCAG AAGCCCCAGG CACTTGTGGC AGGCACAATT ACAGCCCCTC CCCAAAGATG 24640 CCCACGTCCT TCTCCTGGAA CCTGTGAATG TGTCACCCGC AAGGCAGAGG CTGGTGAAGG CTGCAGGTGG 24710 AATCACGGCT GCCAGTCAGC CGATCTTAAG GTCATCCTGG ATTATCTGGT GGGCCTGATA TGGCCACAAG 24780 GGTCCCTAGA AGTGAGAGAG GGAGGCAGGG GAGAGTCAGA GAGGGGACGT GAGAAGGACC ACTGGCCACT 24850 GCTGGCTTTG AGATGGAGGA GGGGGTCCCC AGCCAAGGAA TGGGGGCAGC CGCTCCATGC TGGAAAAGCA 24920 AGCAATCCTC CCCGGTCCTG AGGGCACACG GCCCTGCCCA CGCCTCGATT TCAGGCCAGT GGGACCTGTT 24990 TCAGCTTTCC GGCCTCCAGA GCTGTAAGAT GATGCGTTTG TGTTCAGCCA CTAAGCTGCA GTGATTCGTC 25060 ACAGCAGCAA ATGGAATAGC AGTACAGGGA AATGAATACA GGGACAGTTC TCAGAGTGAC TCTCAGCCCA 25130 CCCCTGGG 25138

Beispiel 5

Der Vergleich der oben beschriebenen genomischen hTC-Sequenz mit der Sequenz der hTC-cDNA (Fig. 6; entsprechend SEQ ID NO 2) ermöglichte die Aufklärung der

Exon-Intron-Struktur des hTC-Gens. Die genomische Organisation des hTC-Gens ist in Fig. 7 schematisch dargestellt. Die kodierende Region des hTC-Gens setzt sich aus 16 Exons zusammen, die in ihrer Größe zwischen 62 bp und 1354 bp variieren (s. Tabelle 1). Exon 1 enthält das Translationsstartcodon ATG. Das Translations- stopcodon TGA sowie der 3 ' untranslatierte Bereich liegen auf Exon 16 (Fig. 8). Ein mögliches Polyadenylierungssignal (AATAAA) wurde weder in Exon 16 noch in den 3195 bp der folgenden 3 '-flankierenden Region gefunden. Basierend auf der

Konsensussequenz

5 '-Exon Intron 3 '-Exon

Prä-mRNA A/C A G | G T A/G A . . . N C A G | G Häufigk.(%) 70 60 80 100 l OO 95 70 80 100 100 60

wurden die Exon-Intron-Übergänge bestimmt und in Tabelle 1 aufgeführt. Mit Ausnahme der 5'-Splice-Stelle zwischen Exon 15 und Intron 15 stimmen alle Exon- Intron-Übergänge mit der publizierten (Shapiro und Senapathy, 1987) Splice- Konsensussequenz überein. Die Größe der Introns liegt zwischen 104 bp und 8616 bp. Da Intron 6 nur zum Teil isoliert wurde, kann die exakte Länge des hTC-Gens nicht bestimmt werden. Basierend auf der von Intron 6 erhaltenen Teilsequenz von -4660 bp beträgt die minimale Größe des hTERT Gens 37 kb.

Die Introns 1-5 sowie der 5'-Bereich des Introns 6 sind in Contig 1 enthalten: Intron 1 : bp 11493-11596 (SEQ ID NO 4); Intron 2: bp 12951-21566 (SEQ ID NO 5); Intron 3: bp 21763-23851 (SEQ ID NO 6); Intron 4: bp 24033-24719 (SEQ ID NO 7);

Intron 5: bp 24900-25393 (SEQ ID NO 8); 5'-Bereich von Intron 6: bp 25550-26414 (SEQ ID NO 9).

Der 3 '-Bereich des Introns 6 sowie die Introns 7-15 sind in Contig 2 an folgenden Positionen lokalisiert:

3 '-Bereich von Intron 6: bp 1-3782 (SEQ ID NO 10);

Intron 7: bp 3879-4858 (SEQ ID NO 1 1);

Intron 8: bp 4945-7429 (SEQ ID NO 12);

Intron 9: bp 7544-9527 (SEQ ID NO 13); Intron 10: bp 9600-1 1470 (SEQ ID NO 14);

Intron 11 : bp 11660-15460 (SEQ ID NO 15;

Intron 12: bp 15588-16467 (SEQ ID NO 16);

Intron 13: bp 16530-19715 (SEQ ID NO 17);

Intron 14: 19841-20621 (SEQ ID NO 18); Intron 15: 20760-21295 (SEQ ID NO 19).

Der 3'-nichttranskribierte Bereich befindet sich ebenfalls im Contig 2 an Position 21960-25138 (SEQ ID NO 20).

Die genannten Introns haben im einzelnen folgende Sequenzen: Intron 1 ( SEQ ID NO 4 )

GTGGGCCTCCCCGGGGTCGGCGTCCGGCTGGGGTTGAGGGCGGCCGGGGGGAACCAGCGACATGCGGAGAGCAGCGCAGG CGACTCAGGGCGCTTCCCCCGCAG

Intron 2 (SEQ ID NO 5)

GTGAGGAGGTGGTGGCCGTCGAGGGCCCAGGCCCCAGAGCTGAATGCAGTAGGGGCTCAGAAAAGGGGGCAGGCAGAGCC CTGGTCCTCCTGTCTCCATCGTCACGTGGGCACACGTGGCTTTTCGCTCAGGACGTCGAGTGGACACGGTGATCTCTGCC TCTGCTCTCCCTCCTGTCCAGTTTGCATAAACTTACGAGGTTCACCTTCACGTTTTGATGGACACGCGGTTTCCAGGCGC CGAGGCCAGAGCAGTGAACAGAGGAGGCTGGGCGCGGCAGTGGAGCCGGGTTGCCGGCAATGGGGAGAAGTGTCTGGAAG CACAGACGCTCTGGCGAGGGTGCCTGCAGGTTACCTATAATCCTCTTCGCAATTTCAAGGGTGGGAATGAGAGGTGGGGA CGAGAACCCCCTCTTCCTGGGGGTGGGAGGTAAGGGTTTTGCAGGTGCACGTGGTCAGCCAATATGCAGGTTTGTGTTTA AGATTTAATTGTGTGTTGACGGCCAGGTGCGGTGGCTCACGCCGGTAATCCCAGCACTTTGGGAAGCTGAGGCAGGTGGA TCACCTGAGGTCAGGAGTTTGAGACCAGCCTGACCAACATGGTGAAACCCTATCTGTACTAAAAATACAAI.AATTAGCTG GGCATGGTGGTGTGTGCCTGTAATCCCAGCTACTTGGGAGGCTGAGGCAGGAGAATCACTTGAACCCAGGAGGCGGAGGC TGCAGTGAGCTGAGATTGTGCCATTGTACTCCAGCCTGGGCGACAAGAGTGAAACTCTGTCTTTAAAAAAAV?^AGTGTT CGTTGATTGTGCCAGGACAGGGTAGAGGGAGGGAGATAAGACTGTTCTCCAGCACAGATCCTGGTCCCATCTTTAGGTAT G.AAGAGGGCCACATGGGAGCAGAGGACAGCAGATGGCTCCACCTGCTGAGGAAGGGACAGTGTTTGTGGGTGTTCAGGGG ATGGTGCTGCTGGGCCCTGCCGTGTCCCCACCCTGTTTTTCTGGATTTGATGTTGAGGAACCTCCGCTCCAGCCCCCTTT TGGCTCCCAGTGCTCCCAGGCCCTACCGTGGCAGCTAGAAGAAGTCCCGATTTCACCCCCTCCCCACAAACTCCCAAGAC ATGTAAGACTTCCGGCCATGCAGACAAGGAGGGTGACCTTCTTGGGGCTCTTTTTTTTCTTTTTTTCTTTTTATGGTGGC AAAAGTCATATAACATGAGATTGGCACTCCTAACACCGTTTTCTGTGTACAGTGCAGAATTGCTAACTCGGCGGTGTTTA CAGCAGGTTGCTTGAAATGCTGCGTCTTGCGTGACTGGAAGTCCCTACCCATCGAACGGCAGCTGCCTCACACCTGCTGC GGCTCAGGTGGACCACGCCGAGTCAGATAAGCGTCATGCAACCCAGTTTTGCTTTTTGTGCTCCAGCTTCCTTCGTTGAG GAGAGTTTGAGTTCTCTGATCAGGACTCTGCCTGTCATTGCTGTTCTCTGACTTCAGATGAGGTCACAATCTGCCCCTGG CTTATGCAGGGAGTGAGGCGTGGTCCCCGGGTGTCCCTGTCACGTGCAGGGTGAGTGAGGCGTTGCCCCCAGGTGTCCCT GTCACGTGTAGGGTGAGTGAGGCGCGGCCCCCGGGTGTCCCTGTCCCGTGCAGCGTGATTGAGGTGTGGCCCCCGGGTGT CCCTGTCACGTGTAGGGTGAGTGAGGCGCCATCCCCGGGTGTCCCTGTCACGTGTAGGGTGAGTGAGGCGTGGTCCCCGG GTGTCCCTGTCCCGTGCAGGGTGAGTGAGGCACTGTCCCCGGGTGTCCCTGTCACGTGCAGGGTGAGTGAGGCGCGGTCC CCGGGTGTCCCTCTCAGGTGTAGGGTGAGTGAGGCGCGGCCCCAGGGTGTCCCTGTCACGTGTAGGGTGAGTGAGGCACC GTCCCTGGGTGTCCCTCCCAGGTATAGGGTGAGTGAGGCACTGTCCCCGGGTGTCCCTGTCACGTGCAGGGTGAGTGAGG CGCGGCCCCCGGGTGTCCCTCTCAGGTGCAGGGTGAGTGAGGCGCTGTCCCTGGGTGTCCCTGTCTCGTGTAGGGTGAGT GAGGCTCTGTCCCCAGGTGTCCTTGGCGTTTGCTCACTTGAGCTTGCTCCTGAATGTTTGCTCTTTCTATAGCCACAGCT GCGCCGGTTGCCCATTGCCTGGGTAGATGGTGCAGGCGCAGTGCTGGTCCCCAAGCCTATCTTTTCTGATGCTCGGCTCT TCTTGGTCACCTCTCCGTTCCATTTTGCTACGGGGACACGGGACTGCAGGCTCTCGCCTCCCGCGTGCCAGGCACTGCAG CCACAGCTTCAGGTCCGCTTGCCTCTGTTGGGCCTGGCTTGCTCACCACGTGCCCGCCACATGCATGCTGCCAATACTCC TCTCCCAGCTTG_TCTCATGCCGAGGCTGG_AC_TC_TGGGC_TGCC_TG_TGTC_TGCTGCCACGTGTTGCTGGAGACATCCCAGAA AGGGTTCTCTGTGCCCTGAAGGAAAGCAAG_TC_ACCCCAGCCCCCTCACTTGTCCTGTTTTCTCCCAAGCTGCCCCTCTGC TTGGCCCCCTTGGGTGGGTGGC.AACGCTTG_TC_ACCTTAT_TC_TGGGCACCTGCCGCTCATTGCTTAGGCTGGGCTCTGCCT CCAGTCGCCCCCTCACATGGATTGACGTCCAGCCACAGGTTGGAGTG_TCTCTGTCTGTCTCCTGCTCTGAGACCCACGTG GAGGGCCGGTGTCTCCGCCAGCCTTCGTCAGACTTCCCTCTTGGGTCTTAGTTTTGAATTTCACTGATTTACCTCTGACG TTTCTATCTCTCCATTGTATGCTTTTTCTTGGTTTATTCTTTCATTCCTTTTCTAGCTTCTTAGTTTAGTCATGCCTTTC CCTCTAAGTGCTGCCTTACCTGCACCCTGTGTTTTGATGTGAAGTAATCTCAACATCAGCCACTTTCAAGTGTTCTTAAA ATACTTCAAAGTGTTAATACTTCTTTTAAGTATTCTTATTCTGTGATTTTTTTCTTTGTGCACGCTGTGTTTTGACGTGA AATCATTTTGATATCAGTGACTTTTAAGTATTCTTTAGCTTATTCTGTGATTTCTTTGAGCAGTGAGTTATTTGAACACT GTTTATGTTCAAGATATGTAGAGTATCAAGATACGTAGAGTATTTTAAGTTATCATTTTATTATTGATTTCTAACTCAGT TGTGTAGTGGTCTGTATAATACCAATTATTTGAAGTTTGCGGAGCCTTGCTTTGTGATCTAGTGTGTGCATGGTTTCCAG .AACTGTCCATTGTAAATTTGACATCCTGTCAATAGTGGGCATGCATGTTCACTATATCCAGCTTATTAAGGTCCAGTGCA AAGCTTCTGTCTCCTTCTAGATGCATGAAATTCCAAGAAGGAGGCCATAGTCCCTCACCTGGGGGATGGGTCTGTTCATT TCTTCTCGTTTGGTAGCATTTATGTGAGGCATTGTTAGGTGCATGCACGTGGTAGAATTTTTATCTTCCTGATGAGTGAA TCTTTTGGAGACTTCTATGTCTCTAGTAATCTAGTAATTCTTTTTTTJAATTGCTCTTAGTACTGCCACACTGGGCTTCT TTTGATTAGTATTTTCCTGCTGTGTCTGTTTTCTGCCTTTAATTTATATATATATATATATTTTTTTTTTTTTTGAGACA GAGTCTTGGTCTGTCGCCCAGGGTGAGTGCAGTGGTGTGATCACAGGTCAGTGTAACTTTTACCTTCTGGCCTGAGCCGT CCTCTCACCTCAGCCTCCTGAGTAGCTGGAACTGCAGACACGCACCGCTACACCTGGCTAATTTTTAAATTTTTTCTGGA GACAGGGTCTTGCTGTGTTGCCCAGGCTGGTCTCAAACTCTTGGACTCAAGGGATCCATCTACCTCGGCTTCCCAAAGTG CTGAATTACAGGCATGAGCCACCATGTCTGGCCTAATTTTCAACACTTTTATATTCTTATAGTGTGGGTATGTCCTGTTA ACAGCATGTAGGTGAATTTCCAATCCAGTCTGACAGTCGTTGTTTAACTGGATAACCTGATTTATTTTCATTTTTTTGTC ACTAGAGACCCGCCTGGTGCACTCTGATTCTCCACTTGCCTGTTGCATGTCCTCGTTCCCTTGTTTCTCACCACCTCTTG GGTTGCCATGTGCGTTTCCTGCCGAGTGTGTGTTGATCCTCTCGTTGCCTCCTGGTCACTGGGCATTTGCTTTTATTTCT CTTTGCTTAGTGTTACCCCCTGATCTTTTTATTGTCGTTGTTTGCTTTTGTTTATTGAGACAGTCTCACTCTGTCACCCA GGCTGGAGTGTAATGGCACAATCTCGGCTCACTGCAACCTCTGCCTCCTCGGTTCAAGCAGTTCTCATTCCTCAACCTCA TGAGTAGCTGGGATTACAGGCGCCCACCACCACGCCTGGCTAATTTTTGTATTTTTAGTAGAGATAGGCTTTCACCATGT TGGCCAGGCTGGTCTCAAACTCCTGACCTCAAGTGATCTGCCCGCCTTGGCCTCCCACAGTGCTGGGATTACAGGTGCAA GCCACCGTGCCCGGCATACCTTGATCTTTTAAAATGAAGTCTGAAACATTGCTACCCTTGTCCTGAGCAATAAGACCCTT AGTGTATTTTAGCTCTGGCCACCCCCCAGCCTGTGTGCTGTTTTCCCTGCTGACTTAGTTCTATCTCAGGCATCTTGACA CCCCCACAAGCTAAGCATTATTAATATTGTTTTCCGTGTTGAGTGTTTCTGTAGCTTTGCCCCCGCCCTGCTTTTCCTCC TTTGTTCCCCGTCTGTCTTCTGTCTCAGGCCCGCCGTCTGGGGTCCCCTTCCTTGTCCTTTGCGTGGTTCTTCTGTCTTG TTATTGCTGGTAAACCCCAGCTTTACCTGTGCTGGCCTCCATGGCATCTAGCGACGTCCGGGGACCTCTGCTTATGATGC ACAGATGAAGATGTGGAGACTCACGAGGAGGGCGGTCATCTTGGCCCGTGAGTGTCTGGAGCACCACGTGGCCAGCGTTC CTTAGCCAGTGAGTGACAGCAACGTCCGCTCGGCCTGGGTTCAGCCTGGAAAACCCCAGGCATGTCGGGGTCTGGTGGCT CCGCGGTGTCGAGTTTGAAATCGCGCAAACCTGCGGTGTGGCGCCAGCTCTGACGGTGCTGCCTGGCGGGGGAGTGTCTG CTTCCTCCCTTCTGCTTGGGi\ACCAGGACAAAGGATGAGGCTCCGAGCCGTTGTCGCCCAACAGGAGCATGACGTGAGCC ATGTGGATAATTTTAAAATTTCTAGGCTGGGCGCGGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCAAGGCGGG TGGATCACGAGGTCAGGAGGTCGAGACCATCCTGGCCAACATGATGAAACCCCATCTGTACTAAAAACACAAAAATTAGC TGGGCGTGGTGGCGGGTGCCTGTAATCCCAGCTACTCGGGAGGCTGAGGCAGGAGAATTGCTTGAACCTGGGAGTTGGAA GTTGCAGTGAGCCGACATTGCACCACTGO.CTCCAGCCTGGC-?VACACAGCGAGACTCTGTCTCAAAAAAAAAAAAAAAAA •AAAAAAAAAAAATTCTAGTAGCCACATTAAAAAAGTAAAAAAGAAAAGGTGAAATTAATGTAATAATAGATTTTACTGAA GCCCAGCATGTCCACACCTCATCATTTTAGGGTGTTATTGGTGGGAGCATCACTCACAGGACATTTGACATTTTTTGAGC TTTGTCTGCGGGATCCCGTGTGTAGGTCCCGTGCGTGGCCATCTCGGCCTGGACCTGCTGGGCTTCCCATGGCCATGGCT GTTGTACCAGATGGTGCAGGTCCGGGATGAGGTCGCCAGGCCCTCAGTGAGCTGGATGTGCAGTGTCCGGATGGTGCACG TCTGGGATGAGGTCGCCAGGCCCTGCTGTGAGCTGGATGTGTGGTGTCTGGATGGTGCAGGTCAGGGGTGAGGTCTCCAG GCCCTCGGTGAGCTGGAGGTATGGAGTCCGGATGATGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCTGTGAGCTGGATG TGTGGTGTCTGGATGGTGCAGGTCAGGGGTGAGGTCTCCAGGCCCTCGGTAAGCTGGAGGTATGGAGTCCGGATGATGCA GGTCCGGGGTGAGGTCGCCAGGCCCTGCTGTGAGCTGGATGTGTGGTGTCTGGATGGTGCAGGTCTGGGGTGAGGTCACC AGGCCCTGCGGTGAGCTGGGTGTGCGGTGTCTGGATGGTGCAGGTCTGGAGTGAGGTCGCCAGACGGTGCCAGACCATGC GGTGAGCTGGATATGCGGTGTCCGGATGGTGCAGGTCTGGGGTGAGGTTGCCAGGCCCTGCTGTGAGTTGGATGTGGGGT GTCCGGATGCTGCAGGTCCGGTGTGAGGTCACCAGGCCCTGCTGTGAGCTGGATGTGTGGTGTCTGGATGGTGCAGGTCT GGGGTGAAGGTCGCCAGGCCCCTGCTTGTGAGCTGGATGTGTGGTGTCTGGATGGTGCAGGTCTGGAGTGAGGTCGCCAG GCCCTCGGTGAGCTGGATGTGCAGTGTCCAGATGGTGCAGGTCCGGGGTGAGGTCGCCAGACCCTGCGGTGAGCTGGATG TGCGGTGTCTGGATGGTGCAGGTCTGGAGTGAGGTCGCCAGGCCCTCGGTGAGCTGGATGTATGGAGTCCGGATGGTGCC GGTCCGGGGTGAGGTCGCCAGACCCTGCTGTGAGCTGGATGTGCGGTGTCTGGATGGTACAGGTCTGGAGTGAGGTCGCC AGACCCTGCTGTGAGCTGGATATGCGGTGTCCGGATGGTGCAGGTCAGGGGTGAGGTCTCCAGGCCCTCGGTGAGCTGGA GGTATGGAGTCCGGATGATGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCTGTGAACTGGATGTGCGGCGTCTGGATGGT GCAGGTCTGGGGTGTGGTCGCCAGGCCCTCGGTGAGCTGGAGGTATGGAGTCCGGATGATGCAGGTCCGGGGTGAGGTCG CCAGGCCCTGCTGTGAGCTGGATGTGCGGCGTCTGGATGGTGCAGGTCTGGGGTGTGGTCGCCAGGCCCTCGGTGAGCTG GAGGTATGGAGTCCGGATGATGCAGGTCCGGGGTGAGGTTGCCAGGCCCTGCTGTGAGCTGGATGTGCTGTATCCGGATG GTGCAGTCCGGGGTGAGGTCGCCAGGCCCTGCTGTGAGCTGGATGTGCTGTATCCGGATGGTGCAGGTCTGGGGTGAGGT CACCAGGCCCTGCGGTGAGCTGGTTGTGCGGTGTCCGGTTGCTGCAGGTCCGGGGTGAGTTCGCCAGGCCCTCGGTGAGC TGGATGTGCGGTGTCCCCGTGTCCGGATGGTGCAGGTCCAGGGTGAGGTCGCTAGGCCCTTGGTGGGCTGGATGTGCCGT GTCCGGATGGTGCAGGTCTGGGGTGAGGTCGCCAGGCCTTTGGTGAGCTGGATGTGCGGTGTCTGCATGGTGCAGGTCTG GGGTGAGGTCGCCAGGCCCTTGGTGGGCTGGATGTGTGGTGTCCGGATGGTGCAGGTCCGGCGTGAGGTCGCCAGGCCCT GCTGTGAGCTGGATGTGCGGTGTCTGGATGGTGCAGGTCCGGGGTGAGGTAGCCAAGGCCTTCGGTGAGCTGGATGTGGG GTGTCCGGATGGTGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCGGTTAGCTGGATATGCGGTGTCCGGATGGTGCAGGT CCGGGGTGAGGTCACCAGGCCCTGCGGTTAGCTGGATGTGCGGTGTCTGGATGGTGCAGGTCCGGGGTGAGGTCGCCAGG CCCTGCTGTGAGCTGGATGTGCTGTATCCGGATGGTGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCAGTGAGCTGGATG TGCTGTATCCGGATGGTGCAGGTCTGGCGTGAGGTCGCCAGGCCCTGCGGTTAGCTGGATATGCGGTGTCGGATGGTGCA GGTCCGGGGTGAGGTCACCAGGCCCTGCGGTTAGCTGGATGTGCGGTGTCCGGATGGTGCAGGTCTGGGGTGAGGTCGCC AGGCCCTGCTGTGAGCTGGATGTGCTGTATCCGGATGGTGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCGGTGAGCTGG ATGTGCTGTATCCGGATGGTGCAGGTCTGGCGTGAGGTCGCCAGGCCCTGCGGTGAGCTGGATGTGCAGTGTACGGATGG TGCAGGTCCGGGGTGAGGTCGCCAGGCCCTGCGGTGGGCTGTATGTGTGTTGTCTGGATGGTGCAGGTCCGGGGTGAGTT CGCCAGGCCCTGCGGTGAGCTGGATGTGTGGTGTCTGGATGCTGCAGGTCCGGGGTGAGTTCGCCAGGCCCTCGGTGAGC TGGATATGCGGTGTCCCCGTGTCCGAATGGTGCAGGTCCAGGGTGAGGTCGCCAGGCCCTTGGTGGGCTGGATGTGCCGT GTCCGGATGGTGCAGGTCTGGGGTGAGGTCGCCAGGCCCTTGGTGAGCTGGATGTGCGGTGTCCGGATGGTGCAGGTCCG GGGTGAGGTCACCAGGCCCTCGGTGATCTGGATGTGGCATGTCCTTCTCGTTT.AAG

Intron 3 (SEQ ID NO 6)

GTACTGTATCCCCACGCCAGGCCTCTGCTTCTCGAAGTCCTGGAACACCAGCCCGGCCTCAGCATGCGCCTGTCTCCACT TGCCTGTGCTTCCCTGGCTGTGCAGCTCTGGGCTGGGAGCCAGGGGCCCCGTCACAGGCCTGGTCCAAGTGGATTCTGTG CAAGGCTCTGACTGCCTGGAGCTCACGTTCTCTTACTTGTAAAATCAGGAGTTTGTGCCAAGTGGTCTCTAGGGTTTGTA AAGCAGAAGGGATTTAAATTAGATGGAAACACTACCACTAGCCTCCTTGCCTTTCCCTGGGATGTGGGTCTGATTCTCTC TCTCTTTTTTTTTTCTTTTTTGAGATGGAGTCTCACTCTGTTGCCCAGGCTGGAGTGCAGTGGCATAATCTTGGCTCACT GCAACCTCCACCTCCTGGGTTTAAGCGATTCACCAGCCTCÄGCCTCCT.AAGTAGCTGGGATTACAGGCACCTGCCACCAC GCCTGGCTAATTTTTGTACTTTTAGGAGAGACGGGGTTTCACCATGTTGGCCAGGCTGGTCTCG.?υ.CTCATGACCTCAGG TGATCCACCCACCTTGGCCTCCCAAAGTGCTGGGTTTACAGGCT.AAGCCACCGTGCCCAGCCCCCGATTCTCTTTTAATT CATGCTGTTCTGTATGAATCTTCAATCTATTGGATTTAGGTCATGAGAGGATAAAATCCCACCCACTTGGCGACTCACTG CAGGGAGCACCTGTGCAGGGAGCACCTGGGGATAGGAGAGTTCCACCATGAGCTAACTTCTAGGTGGCTGCATTTGAATG GCTGTGAGATTTTGTCTGCAATGTTCGGCTGATGAGAGTGTGAGATTGTGACAGATTCAAGCTGGATTTGCATCAGTGAG GGACGGGAGCGCTGGTCTGGGAGATGCCAGCCTGGCTGAGCCCAGGCCATGGTATTAGCTTCTCCGTGTCCCGCCCAGGC TGACTGTGGAGGGCTTTAGTCAGAAGATCAGGGCTTCCCCAGCTCCCCTGCACACTCGAGTCCCTGGGGGGCCTTGTGAC ACCCCATGCCCCAAATCAGGATGTCTGCAGAGGGAGCTGGCAGCAGACCTCGTCAGAGGTAACACAGCCTCTGGGCTGGG GACCCCGACGTGGTGCTGGGGCCATTTCCTTGCATCTGGGGGAGGGTCAGGGCTTTCCCTGTGGGAACAAGTTAATACAC .^VATGCACCTTACTTAGACTTTACACGTATTTAATGGTGTGCGACCCAACATGGTCATTTGACCAGTATTTTGGAAAGAAT TT.AATTGGGGTGACCGGAAGGAGCAGACAGACGTGGTGGTCCCCAAGATGCTCCTTGTCACTACTGGGACTGTTGTTCTG CCTGGGGGGCCTTGGAGGCCCCTCCTCCCTGGACAGGGTACCGTGCCTTTTCTACTCTGCTGGGCCTGCGGCCTGCGGTC AGGGCACCAGCTCCGGAGCACCCGCGGCCCCAGTGTCCACGGAGTGCCAGGCTGTCAGCCACAGATGCCCAGGTCCAGGT GTGGCCGCTCCAGCCCCCGTGCCCCCATGGGTGGTTTTGGGGGAAAAGGCCAAGGGCAGAGGTGTCAGGAGACTGGTGGG CTCATGAGAGCTGATTCTGCTCCTTGGCTGAGCTGCCCTGAGCAGCCTCTCCCGCCCTCTCCATCTGAAGGGATGTGGCT CTTTCTACCTGGGGGTCCTGCCTGGGGCCAGCCTTGGGCTACCCCAGTGGCTGTACCAGAGGGACAGGCATCCTGTGTGG AGGGGCATGGGTTCACGTGGCCCCAGATGCAGCCTGGGACCAGGCTCCCTGGTGCTGATGGTGGGACAGTCACCCTGGGG GTTGACCGCCGGACTGGGCGTCCCCAGGGTTGACTATAGGACCAGGTGTCCAGGTGCCCTGCAAGTAGAGGGGCTCTCAG AGGCGTCTGGCTGGCATGGGTGGACGTGGCCCCGGGCATGGCCTTCAGCGTGTGCTGCCGTGGGTGCCCTGAGCCCTCAC TGAGTCGGTGGGGGCTTGTGGCTTCCCGTGAGCTTCCCCCTAGTCTGTTGTCTGGCTGAGCAAGCCTCCTGAGGGGCTCT CTATTGCAG

Intron 4 (SEQ ID NO 7) GTGGCTGTGCTTTGGTTTAACTTCCTTTTTAAACAGAAGTGCGTTTGAGCCCCACATTTGGTATCAGCTTAGATGAAGGG CCCGGAGGAGGGGCCACGGGACACAGCCAGGGCCATGGCACGGCGCCAACCCATTTGTGCGCACAGTGAGGTGGCCGAGG TGCCGGTGCCTCCAGAAAAGCAGCGTGGGGGTGTAGGGGGAGCTCCTGGGGCAGGGACAGGCTCTGAGGACCACAAGAAG CAGCCGGGCCAGGGCCTGGATGCAGCACGGCCCGAGGTCCTGGATCCGTGTCCTGCTGTGGTGCGCAGCCTCCGTGCGCT TCCGCTTACGGGGCCCGGGGACCAGGCCACGACTGCCAGGAGCCCACCGGGCTCTGAGGATCCTGGACCTTGCCCCACGG CTCCTGCACCCCACCCCTGTGGCTGCGGTGGCTGCGGTGACCCCGTCATCTGAGGAGAGTGTGGGGTGAGGTGGACAGAG GTGTGGCATGAGGATCCCGTGTGCAACAC_ÄCATGCGGCCAGGAACCCGTTTCAAACAGGGTCTGAGGAAGCTGGGAGGGG TTCTAGGTCCCGGGTCTGGGTGGCTGGGGACACTGGGGAGGGGCTGCTTCTCCCCTGGGTCCCTATGGTGGGGTGGGCAC TTGGCCGGATCCACTTTCCTGACTGTCTCCCATGCTGTCCCCGCCAG

Intron 5 (SEQ ID NO 8)

GTGGGTGCCGGGGACCCCCGTGAGCAGCCCTGCTGGACCTTGGGAGTGGCTGCCTGATTGGCACCTCATGTTGGGTGGAG GAGGTACTCCTGGGTGGGCCGCAGGGAGTGCAGGTGACCCTGTCACTGTTGAGGACACACCTGGCACCTAGGGTGGAGGC CTTCAGCCTTTCCTGCAGCACATGGGGCCGACTGTGCACCCTGACTGCCCGGGCTCCTATTCCCAAGGAGGGTCCCACTG GATTCCAGTTTCCGTCAGAGAAGGAACCGCAACGGCTCAGCCACCAGGCCCCGGTGCCTTGCACCCCAGTCCTGAGCCAG GGGTCTCCTGTCCTGAGGCTCAGAGAGGGGACACAGCCCGCCCTGCCCTTGGGGTCTGGAGTGGTGGGGGTCAGAGAGAG AGTGGGGGACACCGCCAGGCCAGGCCCTGAGGGCAGAGGTGATGTCTGAGTTTCTGCGTGGCCACTGTCAGTCTCCTCGC CTCCACTCACACAG

5* -Bereich Intron 6 (SEQ ID NO 9) GT.AAGGTTCACGTGTGATAGTCGTGTCCAGGATGTGTGTCTCTGGGATATGAATGTGTCTAGAATGCAGTCGTGTCTGTG ATGCGTTTCTGTGGTGGAGGTACTTCCATGATTTACACATCTGTGATATGCGTGTGTGGCACGTGTGTGTCGTGGTGCAT GTATCTGTGGCGTGCATATTTGTGGTGTGTGTGTGTGTGGCACGTGTGTGTCCATGGTGTGTGTGCCTGTGGTGTGCATG TGTGTGTGTCTGTGACACGTGCATGTTCATGCTGTGTGCTGCATGTCTGTGATGTGCCTATTTGTGGTGTGTGTGTGCAT GTGTCCGTGACATATGCGTGTCTATGGCATGGGTGTGTGTGGCCCCTTGGCCTTACTCCTTCCTCCTCCAGGCATGGTCC GCACCATTGTCCTCACGCTCTCGGGTGCTGGTTTGGGGAGCTCCACATTCAGGGTCCTCACTTCTAGCATGGGTGCCCCT GTCCTGTCACAGGGCTGGGCCTTGGAGACTGTAAGCCAGGTTTGAGAGGAGAGTAGGGATGCTGGTGGTACCTTCCTGGA CCCCTGGCACCCCCAGGACCCCAGTCTGGCCTATGCCGGCTCCATGAGATATAGGAAGGCTGATTCAGGCCTCGCTCCCC GGGACACACTCCTCCCAGAGCGGCCGGGGGCCTTGGGGCTCGGCAGGGGTGAAAGGGGCCCTGGGCTTGGGTTCCCACCC AGTGGTCATGAGCACGCTGGAGGGGTAAGCCCTCAAAGTCGTGCCAGGCCGGGGTGCAGAGGTGAAGAAGTATCCCTGGA GCTTCGGTCTGGGGAGAGGCACATGTGGAAACCCACAAGGACCTCTTTCTCTGACTTCTTGAGCT

3 ^x -Bereich Intron 6 (SEQ ID NO 10)

TGTGGGATTGGTTTTCATGTGTGGGATAGGTGGGGATCTGTGGGATTGGTTTTTATGAGTGGGGTAACACAGAGTTCAAG GCGAGCTTTCTTCCTGTAGTGGGTCTGCAGGTGCTCCAACAGCTTTATTGAGGAGACCATATCTTCCTTTGAACTATGGT CGGGTTTATAGTAAGTCAGGGGTGTGGAGGCCTCCCCTGGGCTCCCTGTTCTGTTTCTTCCACTCTGGGGTCGTGTGGTG CCTGCTGTGGTGTGTGGCCGGTGGGCAGGGCTTCCAGGCCTCCTTGTGTTCATTGGCCTGGATGTGGCCCTGGCTACGCT CCGTCCTTGGAATTCCCCTGCGAGTTGGAGGCTTTCTTTCTTTCTTTTTTTCTTTCTTTTTTTTTTTTTTTGATAACAGA GTCTCGCTCTTTTTTGCCCAGGCTGGAGTGGTTTGGCGTGATCTTGGCTCACTGCAACCTGTGCTTCCTGAGTTC?-AGCA ATTCTCTTGCCTCAGCCTCCCAAGTAGCTGGAATTATAGGCGCCCACCACCATGCTGACTAATTTTTGTAATTTTAGTAG AGACGAGGTTTCTCCATGTTGGCCAGGCTGGTCTCGAACTCCTGACCTCAGGTGATCCTCCCACCTCGGCCTCCCAAAGT GCTGGGATGACAGGTGTGAACCGCCGCGCCCGGCCGAGACTCGCTTCCTGCAGCTTCCGTGAGATCTGCAGCGATAGCTG CCTGCAGCCTTGGTGCTGACAACCTCCGTTTTCCTTCTCCAGGTCTCGCTAGGGGTCTTTCCATTTCATGACTCTCTTCA CAGAAGAGTTTCACGTGTGCTGATTTCCCGGCTGTTTCCTGCGTAATTGGTGTCTGCTGTTTATCGATGGCCTCCTTCCA TTTCCTTTAGGCTTTGTTTATTGTTGTTTTTCCGGCTCCTTGAAGGAAAAGTTTCGATTATGGATGTTTGAACTTTCTTT TCTAAACAAGCATCTGAAGTTGCCGTTTTCCCTCTAAAGCAGGGATCCCGAGGCCCCTGGCTGTGGAGTGGCACCGGTCT GGGGCCTGTTAGGAACCCGGCGCACAGCGGGAGGCTAGGTGGGGTGTGGGGAGCCAGCGTTCCCGCCTGAGCCCCGCCCC TCTCAGATCAGCAGTGGCATGCGGTGCTCAGAGGCGCACACACCCTACTGAGAACTGTGCGTGAGAGGGGTCTAGATTCT GTGCTCCTTATGGGAATCTAATGCCTGATGATCTGAGGTGGAACCGTTTGCTCCCAAAACCATCCCCTTCCCCACTGCTG TCCTGTGGAAAAATCGTCTTCCACGAAACCAGTCCCTGGTACCAC?-ATGGTTGGGGACCCTGTGCTAAAGACCTGCTTCA GCAGCCTCTCGTCAGTGTTGATATATTGGCTTTTCTGTGTTGAGTCCAGAATAATTACGGATTTCTGTGATGCTTTCCGC CGACCTCAGACCCATGGGCTATTTGTGGGCGTGTTGCCTGCTCCTGGGTTGGGAAGGGTGCAGGCCCCATGTACCTTCCT GTTACTGCCTTCCAGGTTGGTTCTCAGGGTTGAATCGTACTCGATGTGGTTTTAGCCCACGGCCCTGCCGCCAGCTCCTG GGGGCTGGGGAACATGCTGAAGCACAGAGTCACCGTGCGCGTCTTTTGATGCCTCACAAGCTCGAGGCCTCCTGTGTCCG TGTTAGTGTGTGTCACGTGCCTGCTCACATCCTGTCTTGGGGACGCAGGGGCTTAGCAGGTCCCGTAGTAAATGACAAGC GTCCTGGGGGAGTCTGCAGAATAGGAGGTGGGGGTGCCGGTCTCTCTCCCGCGTCTTCAGACTCTTCTCCTGCCTGTGCT GTGGCTGCACCTGCATCCCTGCAATCCCTCCAGCACTGGGCTGGAGAGGCCCGGGAGCTCGAGTGCCACTTGTGCCACGT GACTGTGGATGGCAGTCGGTCACGGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTTGGTCACAGGGGTCTGATGTGTG GTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGG ATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCGGTCGTG GGGTCTGATGTGGTGACTGTGGATGGCAGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATG TGGTGACTGTGGATGGCAGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACT GTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGG CGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGTGATCGGTCA CAGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGTGATCGGTCACAG GGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTTGGTCCCGGGGG TCTGATGTGTGGTGACTGTGGATGGCGATCGGTCACAGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCT GATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGGT GACTGTGGATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGAT GGCGGTTGGTCCCGGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGATGGCAG TCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGG TCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGT GGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGTGATCGGTCACAGGGGTCTGATGTGTGGT GACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGGTGACTGTGGAT GGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTAGGGTCTGATGTGTGGTGACTGTGGATGGCAGTCG GTCACAGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGG GGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGATGTGTGGTGACTGTGGATGGCGGTCGTGGGGTCTGAT GTGGTGACTGTGGATGGTGATCGGTCACAGGGGTCTGATGTGTGGTAGCTGCAGGTGGAGTCCCAGGTGTGTCTGTAGCT ACTTTGCGTCCTCGGCCCCCCGGCCCCCGTTTCCCAAACAGAAGCTTCCCAGGCGCTCTCTGGGCTTCATCCCGCCATCG GGCTTGGCCGCAGGTCCACACGTCCTGATCGGAAGAAACAAGTGCCCAGCTCTGGCCGGGGCAGGCCACATTTGTGGCTC ATGCCCTCTCCTCTGCCGGCAG

Intron 7 (SEQ ID NO 11)

GTCTGGGCACTGCCCTGCAGGGTTGGGCACGGACTCCCAGCAGTGGGTCCTCCCCTGGGCAATCACTGGGCTCATGACCG GACAGACTGTTGGCCCTGGGGGGCAGTGGGGGGAATGAGCTGTGATGGGGGCATGATGAGCTGTGTGCCTTGGCGAAATC TGAGCTGGGCCATGCCAGGCTGCGACAGCTGCTGCATTCAGGCACCTGCTCACGTTTGACTGCGCGGCCTCTCTCCAGTT CCGCAGTGCCTTTGTTCATGATTTGCTAAATGTCTTCTCTGCCAGTTTTGATCTTGAGGCCAAAGGAAAGGTGTCCCCCT CCTTTAGGAGGGCAGGCCATGTTTGAGCCGTGTCCTGCCCAGCTGGCCCCTCAGTGCTGGGTCTGAGGCCAAAGGAAACG TGTCCCCCTTCTTAGGAGGACGGGCCGTGTTTGAGCCACGCCCCGCTGAGCGGGCCTCTCAGTGCTGGGTCTGTCCACGT GGCCCTGTGGCCCTTTGCAGATGTGGTCTGTCCACGTGGCCCTGTGGCTCTTTGCAGATGCCTGTTAGCACTTGCTCGGC TCTAGGGGACAGTCGTGTCCACCGCATGAGGCTCAGAGACCTCTGGGCGAATTTCCTTGGCTCCCAGGGTGGGGGTGGAG GTGGCCTGGGCTGCTGGGACCCAGACCCTGTGCCCGGCAGCTGGGCAGCAACTCCTGGATCACATATGCCATCCGGGCCA CGGTGGGCTGTGTGGGTGTGAGCCCAGCTGGACCCACAGGTGGCCCAGAGGAGACGTTCTGTGTCACACACTCTGCCTAA GCCCATGTGTGTCTGCAGAGACTCGGCCCGGCCAGCCCACGATGGCCCTGCATTCCAGCCCAGCCCCGCACTTCATCACA AACACTGACCCCAAAAGGGACGGAGGGTCTTGGCCACGTGGTCCTGCCTGTCTCAGCACCCACCGGCTCACTCCCATGTG TCTCCCGTCTGCTTTCGCAG Intron 8 ( SEQ ID NO 12 )

GTGAGTCAGGTGGCCAGGTGCCATTGCCCTGCGGGTGGCTGGGCGGGCTGGCAGGGCTTCTGCTCACCTCTCTCCTGCCC CTTCCCCACTGNCCTTCTGCCCGGGGCCACCAGAGTCTCCTTTTCTGGCCCCCGCCCCCTCCGGCTCCTGGGCTGCAGGC TCCCGAGGCCCCGGAAACATGGCTCGGCTTGCGGCAGCCGGAGCGGAGCAGGTGCCACACGAGGCCTGGAAATGGCAAGC GGGGTGTGGAGTTGCTCCTGCGTGGAGGACGAGGGGCGGGGGGTGTGTCTGGGTCAGGTGTGCGCCGAGCGTTTGAGCCT GCAGCTTGTCAGCTCCAAGTTACTACTGACGCTGGACACCCGGCTCTCACACGCTTGTATCTCTCTCTCCCGATACAAAA GGATTTTATCCGATTCTCATTCCTGTCCCTGTCGTGTGACCCCCGCGAGGGCGCGGGCTCTTCTCTCTGTGACTAGATTT CCCATCTGGAAAGTGCGGGGTTGACCGTGTAGTTTGCTCCTCTCGGGGGGCCTGTGGTGGCCATGGGGCAGGCGGCCTGG GAGAGCTGCCGTCACACAGCCACTGGGTGAGCCACACTCACGGTGGTAGAGCCACAGTGCCTGGTGCCACATCACGTCCT CTGGATTTTAAGTAAAACCACACACCTCCCGGCAGGCATCTGCCTGCGACCCTGTGTGTGCCTGGGGAGAGTGGTAGCAC GGAGGAAATTCGTGCACACTCAAGGTCATCAGCAAGGTCATCCGCAGTCAGGTGGAACGTGGAGGCCTCTCTCTGGGATC GTCTCCAGCGGAT.?VAAGGACTGTGCACAGCTTCGGAAGCTTTTATTTAAAAATATAACTATTAATTATTGCATTATAAGT AATCACTAATGGTATCAGCAATTATAATATTTATTAAAGTAT.AATTAGAAATATTAAGTAGTACACACGTTCTGGAAAAA CACAAATTGCACATGGCAGCAGAGTGAATTTTGGCCGAGGGACACGTGTGCACATGTGTGTAAGCGGCCCCCAGGCCCAC AGAATTCGCTGACAAAGTCACCTCCCCAGAGAAGCCACCACGGGCCTCCTTCGTGGTCGTGAATTTTATTAAGATGGATC AAGTCACGTACCGTCCACGTGTGGCAGGGCTTTGGGGAATGTGAGGTGATGACTGCGTCCTCATGCCCTGACAGACAGGA GGTGACTGTGTCTGTCCTGTCCCTAGGACACGGACAGGCCCGAAGCTCTAGTCCCCATCGTGGTCCAGTTTGGCCTCTGA ATAAAAACGTCTTCAAAACCTGTTGCCCCAAAAACTAAGAACAGAGAGAGTTTCCCATCCCATGTGCTCACAGGGGCGTA TCTGCTTGCGTTGACTCGCTGGGCTGGCCGGACTCCTAGAGTTGGTGCGTGTGCTTCTGTGCAAAAAGTGCAGTCCTCTT GCCCATCACTGTGATATCTGCACCAGCAAGGAAAGCCTCTTTTCTTTTCTTTCTTTTTTTTTTTTTGAGACGGAACGTCA CTGTTGTCTGCCTGGGCTTGAGTGCAGTGGCGCGATCTCAACTCACTGCAACCTCCGCCTCCCGGGTTCCAGCATTTCTC CTGCCTCAGCCTCCCGAGCAGCTGAGATTACAGGCACCCACCCCCTGCGCCTGGCTAATTTTTGTATTTTTAGTAGAGAG GGGTTTTTGCCATGTTGGCCAGGCTGGTCTCGAACTCCTGACCTCAGGTGATCCACCCACCTCGGCCTCCCAAAGTGCTG GGATTACAGGTGTGAGCCATCACGCCCAGCCGGAAAGCCTCTTTTTAAGGTGACCACCTATAGCGCTTCCCGAAAATAAC AGGTCTTGTTTTTGCAGTAGGCTGCAAGCGTCTCTTAGCAACAGGAGTGGCGTCCTGTGGGCTCTGGGGATGGCTGAGGG TCGCGTGGCAGCCATGCCTTCTGTGTGCACCTTTAGGTTCCACGGGGCTATTCTGCTCTCACTGTTTGTCTGAAAACGCA CCCTTGGCATCCTTGTTTGGAGAGTTTCTGCTTCTCGTTGGTCATGCTGAAACTAGGGGCAAGGTTGTATCCGTTGGCGC GCAGCGGCTACATGTAGGGTCATGAGTCTTTCACCGTGGACAAATTCCTTGAAAAAAAAAAAAGGAGTCCGGTT.?-AGCAT TCATTCCGGGTCAAGTGTCTGGTTCTGTGAATAAACTCTAAGATTTAAGAAACCTTAATGAAAGAAAACCTTGATGATTC AGAGCAAGGATGTGGTCACACCTGTGGCTGGATCTGTTTCAGCCGCCCCAGTGCATGGTGAGAGTGGGGAGCAGGGATTG TTTGTTCAGAGGTCTCATCTGGTATGTTTCTGAGGTGTTTGCCGGCTGAATGGTAGACGTGTCGTTTGTGTGTATGAGGT TCTGTGTCTGTGTGTGGCTCGGTTTGAGTGTACGCATGTCCAGCACATGCCCTGCCCGTCTCTCACCTGTGTCTTCCCGC CCCAG

Intron 9 (SEQ ID NO 13)

GTGAGGCCTCCTCTTCCCCAGGGGGGCTTGGGTGGGGGTTGATTTGCTTTTGATGCATTCAGTGTTAATATTCCTGGTGC

TCTGGAGACCATGACTGCTCTGTCTTGAGGAACCAGACAAGGTTGCAGCCCCTTCTTGGTATGAAGCCGCACGGGAGGGG

TTGCACAGCCTGAGGACTGCGGGCTCCACGCAGGCTCTGTCCAGCGGCCATGTCCAGAGGCCTCAGGGCTCAGCAGGCGG GAGGGCCGCTGCCCTGCATGATGAGCATGTGAATTCAACACCGAGGAAGCACACCAGCTTCTGTCACGTCACCCAGGTTC CGTTAGGGTCCTTGGGGAGATGGGGCTGGTGCAGCCTGAGGCCCCACATCTCCCAGCAGGCCCTCGACAGGTGGCCTGGA CTGGGCGCCTCTTCAGCCCATTGCCCATCCCACTTGCATGGGGTCTACACCCAAGGACGCACACACCTAAATATCGTGCC AACCTAATGTGGTTCAACTCAGCTGGCTTTTATTGACAGCAGTTACTTTTTTTTTTTTAATACTTTAAGTTCTAGGGTAC ATGTGCACGACGTGCAGGTTAGTTACATATGTATACATGTGCCATGTTGGTGTGCTGCACCCATTAACTCATCATTTACA TTAGGTATATCTCCTAATGCTATCCCTCCCCACTCCCCCCATCCCATGACAGGCCCTGGTGTGTGATGTTCCCCACCCTG TGTCCAAGTGTTCTCATTGTTCAGTTCCCACCTGTGAGTGAGAACATGTGGTGTTTGGTTTTCTTTCCTTGCAATAGTTT GCTCAGAGTGATGGTTTCCÄGCTTCGTCCATGTCCCTACAAAGGACATGAACTCATCCTTTTTTATGACTGCATAGTATT CCGTGGTGTATATGTGCCACATTTTCTTAATCCAGTCTATCATCGATGGACATTTGGGTTGGTTGCAAGTCTTTGCTACT GTGAATAGTGCCGCAATAAACATACGTGTGCATGTGTCTTTATAGCAGCATGATTTATAATCCTTTGGGTATATACCCAG TAATGGGATGGCTGGGTCAAATGGTATTTCTAGTTCTAGATCCTTGAGGAATCACCACACTGTCTTCCACiUVTGGTTG.?iA CTAGTTTACACTCCCACCAACAGTGTAAAAGTGTTCTGGTGCTGGAGAGGATGTGGACAGCAGTTATTTTTTTATGAAAA TAGTATCACTG.AAC.AAGCAGACAGTTAGTGAAGGATGCGTCAGGAAGCCTGCAGGCCACACAGCCATTTCTCTCGAAGAC TCCGGGTTTTTCCTGTGCATCTTTTGAAACTCTAGCTCCAATTATAGCATGTACAGTGGATCAAGGTTCTTCTTCATTAA GGTTCAAGTTCTAGATTGAAATAAGTTTATGT.?^ACAGAAACAAAAATTTCTTGTACACACAACTTGCTCTGGGATTTGGA GGAAAGTGTCCTCGAGCTGGCGGCACACTGGTCAGCCCTCTGGGACAGGATACCTCTGGCCCATGGTCATGGGGCGCTGG GCTTGGGCCTGAGGGTCACACAGTGCACCATGCCCAGCTTCCTGTGGATAGGATCTGGGTCTCGGATCATGCTGAGGACC ACAGCTGCCATGCTGGTAAAGGGCACCACGTGGCTCAGAGGGGGCGAGGTTCCCAGCCCCAGCTTTCTTACCGTCTTCAG TTATTTTTCCCTAAGAGTCTGAGAAGTGGGGCCGCGCCTGATGGCCTTCGTTCGTCTTCAGCTGGCACAGAATTGCACAA GCTGATGGTAAACACTGAGTACTTATAATGAATGAGGAATTGCTGTAGCAGTTAACTGTAGAGAGCTCGTCTGTTGGAAA GAAATTTAAGTTTTTCATTTAACCGCTTTGGAGAATGTTACTTTATTTATGGCTGTGTAAATTGTTTGACATTCAGTCCC TCGTAGACAGATACTACGTAAAAAGTGTAAAGTTAACCTTGCTGTGTATTTTCCCTTATTTTAG

Intron 10 (SEQ ID NO 14)

GTGAGGCCCGTGCCGTGTGTCTGTGGGGACCTCCACAGCCTGTGGGCTTTGCAGTTGAGCCCCCCGTGTCCTGCCCCTGG CACCGCAGCGTTGTCTCTGCCAAGTCCTCTCTCTCTGCCGGTGCTGGATCCGCAAGAGCAGAGGCGCTTGGCCGTGCACC CAGGCCTGGGGGCGCAGGGGCACCTTCGGGAGGGAGTGGGTACCGTGCAGGCCCTGGTCCTGCAGAGACGCACCCAGGTT ACACACGTGGTGAGTGCAGGCGGTGACCTGGCTCCTGCTGCTCTTTGGAAAGTCAAGAGTGGCGGCTCCTGGGGCCCCAG TGAGACCCCCAGGAGCTGTGCACAGGGCCTGCAGGGCCGAGGCGGCAGCCTCCTCCCCAGGGTGCACCTGAGCCTGCGGA GAGCAGGAGCTGCTGAGTGAGCTGGCCCACAGCGTTCGCTGCGGTCACGTTCCTGCGTGGGGTTGTTTGGGATCGGTGGG AGAATTTGGATTTGCTGAGTGCTGCTGTCTTGAACCACGGAGATGGCTAGGAGTGGGTTTCAGAGTTGATTTTTGTGAAT CAAACTAAAATCAGGCACAGGGGACCTGGCCTCAGCACAGGGGATTGTCCAATGTGGTCCCCCTCAAGGGCGCCCCACAG AGCCGGTGGGCTTGTTTTAAAGTGCGATTTGACGAGGGACGAGAAACCTTGAAAGCTGT.AAAGGG.AACCCTCAGAAAATG TGGCCGCCAGGGGTGGTτTCAGGTGCTTTGCTGGGCTGTGTTTGTGAAAACCCATTTGGACCCGCCCTCCAAGTCCACCC TCCAGGTCCACCCTCCAGGGCCGCCCTGGGCTGGGGGTATGCCTGGCGTTCCTTGTGCCGCAGCCCGGAGCACAGCAGGC TGTGCACATTTAAATCCACTAAGATTCACTCGGGGGGAGCCCAGGTCCCAAGCAACTGAGGGCTCAGGAGTCCTGAGGCT GCTGAGGGGACAGAGCAGACGGGGAACGCTGCTTCTGTGTGGCAAGTTCCTGAGGGTGCTGGCCAGGGAGGTGGCTCAGA GTGTATGTTGGGGTCCCACCGGGGGCAGAACTCTGTCTCTGATGAGTCGGCAGCCATGTAACAGGAAGGGGTGGCCACAG GGAGCTGGGAATGCACCAGGGGAGCTGCGCAGCTGGCCGAGGTCCCAGGGCCAGGCCACAGGAAGGGCAGGGGGACGCCC GGGGCCACAGCAGAGGCCGCAGGAAGGGAAGGGGATGCCCAGGCCAGAGCAGAGGCTACCGGGCACAGGGGGGCTCCCTG AGCTGGGTGAGCGAGGCTCATGACTCGGCGAGGGAACCTCCTTGACGTGAAGCTGACGACTGGTGTTGCCCAGCTCACAG CCCAGCCAGGTCCCGCGCCTGAGCAGGAACTCAG.AACCCTCCCCTTTGTCT.AAAGCACAGCAGATGCCTTCAGGGCATCT AGGAGAAAACAGGGA.AAGTCGTTGAGAAACGTCTTAAAAGAAGGTGGGATGGTGGCAATTTCTTGTCCAGATTTTAGTCT GCCCCGGACCACAGATGAGTCTATAACGGGATTGTGGTGTTGCCATGGGGACACATGAGATGGACCATCACAGAGGCCAC TGGGGCTGCACCTCCCATCTGAGTCCTGGCTGTCCCGGGTCCAGGCCAGGTTCTTGCATGCTCACCTACCTGTCCTGCCC GGGAGACAGGGAAAGCACCCCG.?^AGTCTGGAGCAGGGCTGGGTCCAGGCTCCTCAGAGCTCCTGCCAGGCCCAGCACCCT

GCTCCAAATCACCACTTCTCTGGGGTTTTCC.AAAGCATTTAACAAGGGTGTCAGGTTACCTCCTGGGTGACGGCCCCGCA TCCTGGGGCTGACATTGCCCCTCTGCCTTAG

Intron 11 ( SEQ ID NO 15 ) GTGAGCGCACCTGGCCGGAAGTGGAGCCTGTGCCCGGCTGGGGCAGGTGCTGCTGCAGGGCCGTTGCGTCCACCTCTGCT TCCGTGTGGGGCAGGCGACTGCCAATCCCAAAGGGTCAGAGGCCACAGGGTGCCCCTCGTCCCATCTGGGGCTGAGCAGA AATGCATCTTTCTGTGGGAGTGAGGGTGCTCACAACGGGAGCAGTTTTCTGTGCTATTTTGGTAAAAGGAAATGGTGCAC CAGACCTGGGTGCACTGAGGTGTCTTCAGAAAGCAGTCTGGATCCGAACCCAAGACGCCCGGGCCCTGCTGGGCGTGAGT CTCTCAAACCCGAACACAGGGGCCCTGCTGGGCATGAGTCCCTCTGAACCCGAGACCCTGGGGCCCTGCTGGGCGTGAGT CTCTCCGAACCCAGAGACTTCAGGGCCCTTTTGGGCGTGAGTCTCTCCGCTGTGAGCCCCACACTCCAAGGCTCATCCAC AGTCTACAGGATGCCATGAGTTCATGATCACGTGTGACCCATCAGGGGACAGGGCCATGGTGTGGGGGGGGTCTCTACAA AATTCTGGGGTCTTGTTTCCCCAGAGCCCGAGAGCTCAAGGCCCCGTCTCAGGCTCAGACACAAATGAATTGAAGATGGA CACAGATGCAGAAATCTGTGCTGTTTCTTTTATGAATAAAAAGTATCAACATTCCAGGCAGGGCAAGGTGGCTCACACCT ATAATCCCAGCACTTTGGGAGGCCGAGGTGGGTGGATCACTTGAGGCCAGGAGTTTGAGGCCAACCTAACCAACATAGTG AAATTCCATTTCTACTTAAAAAATACAAAAATTAGCCTGGCCTGGTGGCACACGCCTGTAGTCCCCGCTATGCGGGAGGC TGAGGCAGGAGAATCATTTGAACCCAGGAGGCAGAGGTTGCAGTGAGCCGAGATCACACCACTGCACTCCAGCCTGGGCA ACAGAGTGAGACTTCATCTTAAAAAAAAAAAAAAAAGTATCAGCATTCC.AAAACCATAGTGGACAGGTGTTTTTTTATTC TGTCCTTCGATAATATTTACTGGTGCTGTGCTAGAGGCCGGAACTGGGGGTGCCTTCCTCTGAAAGGCACACCTTCATGG GAAGAGAAATAAGTGGTGAATGGTTGTTAAACCAGAGGTTTAAACTGGGGTCCTGTCGTTCTGAGTTAACAGTCCAGATC TGGACTTTGCCTCTTTCCAGAATGCTCCCTGGGGTTTGCTTCATGGGGGAGCAGCAGGTGTGGACACCCTCGTGATGGGG GAGCAGCAGGTGCAGACGCCCTCATGATGGGGGAGTGGCAGGTGCAGACACCCTTGTGCATGGTGCCCAGCATGTCCCTG TTGCAGCTCCCTCCCCACAAGGATGCCGGTCTCCTGTGCTCCCCACAGTCCCTGCTTCCCTCTCACAGCCTTACCTGGTC CTGGCCTCCACTGGCTTTGTCTGCATGATTTCCACATTTCCTGGGCTCCCAGCACCTCTTCGCCTCTCCCAGGCACCTCT GCAGTGCTGGCCATACCAGTCAGCTGTGAACTGTCCACTGCTTATTTTGCTCCCCATGAAATGTATTTTTTAGGACAGGC ACCCCTGGTTCCAGCCTCTGGCACAGCATCAGTGAATGTTATTGAAGGACAAAGGACAGACAAACAAATCAGGAAAATGG GTTCTCTCT.AAACACATTGCAAAGCCACAGAGGCTAGTGCAGGATGGGTGGGCATCAGGTCATCAGATGTGGGTCCAATG CCAGAATATTCTGTGCTCCCAAAGGCCACTTGGTCAGAGTGTGTGCTTGCAGAGGTGGCTCTAAAAGCTCAGCAGTGGAG GCAGTGGTTCGCCATACTCAGGGTGAACTCACATCCTCTGTGTCTGAAGTATACAGCAGAGGCTTGAAGGGCATCTGGGA GAAGAAAACAGGCAi^AATGATTAAGAAAAGTGAAAAAGGAAAAGTGGTAAGATGGGAATTTTCTTGTCCAGATTTTAGTC TCCCAAACCACAGCTCAGATGGTAGAATGTGGTCAGAACTGATGGACAGAACAATAGAACAAAACGGAAGCCCTATCTCT CAGAAACGTGTGTTAATGTGGTATGTGGCACAGCTGATGGAAAAGAGAGTGTGTGTGTAATTTTTTTTTCTGAGAAAACT GACTGGAAGCAAATAAGTTGTGTCTTTACAGCATATACCAGAGCAGATTCTAGGTAGAAGAGGAGACACATGCAAACAAC ACCAGCAACAGAAATAAAACAAAAGACTC-z-AAGGGAAGGGAGGTGAACGTTCCCTGGTTTGGTGTTGGGGAAGGACACAC AGGGAGGCGGATGAAACCAGTGAGGCAACGGGCATTGCTTTCACTGCAGAGAAACTCAGCTTGCCTGAGCCACAGTGAAA ATGGCCATTCCCTGGAGCGTTTGTGCACGTGATTTATTTAAGGCGCCCTGTGAGGTCCTGCACATTCATCCTCTCACTTT GTTCTCCTAACCACCTGAGAGGTAGAGGAGGAAAGGCTCCAGGGGAGCAGCCGCCCTTGGTCACCCAGCTGGCAAAGGGC ATGCATGATTGCAGCCTGGCCTCCTGCTCCGGGGCCCTTGCTCTGCCCGAGGACCCCACACAAGTCAGACCCATAGGCTC AGGGTGAGCCGGAGCCCAAGGTCGTGTTGGGGATGGCTGTGAAAGAAGAAATGGACGTCTGATGCACACTTGGG.?y.GGTC CTACCAGCAGCGTCAAAGAAATGCATGTGAAACTGACAGCGAGACCCATCCCTCAAAGAAACGCACGTGAAACTGATGGC GAGACCTGTCCCCATCCCTCATGCTGGCTCCTTTTCTGGGCTTGCCAAGAGCCAGCATCAGGTTGAGGCAAGCTGGAAAG ACTTTTCTGGAAAGCAGCTTGTTTGCATGGAAGTCCTCACAATGTCCTGTGTCTTCCCAGTAATTCCACTTCTGAAGTGA CCAGACATTATCACGGGTCTTATTTACCATTTCCAGTGTTCCAGGCAGGGGGACTTGCCACAGCAAGTCACGAACCTGCC CAAATACAGGGCTAAGGAGATATTATGCATCACAAAACTTGCTCTGCCATTAAACATTTTTC.A.AAGAATTTTTGAAGAAT GTTTJU.TGGCACAAAACGTTTATTTCAATGTAGCAGTGTTCAAAGCTGGATGTAAAAGAACACACCCCAGGAGCCTGCCG TGAATGTCATGTGTGTTCATCTTTGGACATGGACATACATGGGCAGTGAGTGGTGGTGAGGCCCTGGAGGACATCGGTGG GATGCCTCCATCCTGCCCCTCTGGAGACACCATGTGTGCCACGTGCACTCACTGGAGCCCTGTTTAGCTGGTGCCACCTG GCTCTTCCATCCCTGAGATTCAAACACAGTGAGATTCCCCACGCCCAACTCAGTGTTCTCCCACAAAAAACCTGAGTCAC ACCTGTGTTCACTCGAGGGACGCCCGGGAGCCAGGGCTCCACAGTTTATTATGTGTTTTTGGCTGAGTTATGTGCAGATC TCATCAGGGCAGATGATGAGTGCACAAACACGGCCGTGCGAGGTTTGGATACACTCAACATCACTAGCCAGGTCCTGGTG GAGTTTGGTCATGCAGAGTCTGGATGGCATGTAGCATTTGGAGTCCATGGAGTGAGCACCCAGCCCCCTCGGGCTGCAGC GCATGCCCCAGGCAGGACAAGGAAGCGGGAGGAAGGCAGGAGGCTCTTTGGAGCAAGCTTTGCAGGAGGGGGCTGGGTGT GGGGCAGGCACCTGTGTCTGACATTCCCCCCTGTGTCTCAG

Intron 12 (SEQ ID NO 16) GTGAGCAGGCTGATGGTCAGCACAGAGTTCAGAGTTCAGGAGGTGTGTGCGCAAGTATGTGTGTGTGTGTGTGCGCGCGT GCCTGCAAGGCTGATGGTGACTGGCTGCACGTAAGAGTGCACATGTACGCATATACACGTGAGCACATACATGTGTGCAT GTGTGTACATGAAGGCATGGCAGTGTGTGCACAGGTGTGCAAGGGCACAAGTGTGTGCACATGCGAATGCACACCTGACA TGCATGTGTGTTCGTGCACAGTCGTGTGGGCATTCACGTGAGGTGCATGCGTGTGGGTGTGCAGTGTGAGTAGCATGTGT GCACATAACATGTATTGAGGGGTCCTCGTGTTCACCCCGCTAGGTCCTCAGCACCAGTGCCACTCCTTACAGGATGAGAC GGGGTCCCAGGCCTTGGTGGGCTGAGGCTCTGAAGCTGCAGCCCTGAGGGCATTGTCCCATCTGGGCATCCGCGTCCACT CCCTCTCCTGTGGGCTTCTGTGTCCACTCCCCCTCTCCTGTGGGCATTTACATCCACTCCACTCCCTCTCTCCTGTGGGC ATCCGCGTCCACTCCCCCTCTCTGTGGGCATCTGCGTCCACCTCCCCTCTCTGTGGGCATTTGCGTCCACTCCCTCTCCT GGTTCCTTCCTGTCTTGGCCGAGCCTCGGGGGCAGGCAGATGACACAGAGTCTTGACTCGCCCAGGGTGGTTCGCAGCTG CCGGGTGAGGGCCAGGCCGGATTTCACTGGGAAGAGGGATAGTTTCTTGTCAAAATGTTCCTCTTTCTTGTTCCATCTGA ATGGATGATAAAGCAAAAAGTAAAAACTTAAAATCCCAGAGAGGTTTCTACCGTTTCTCACTCTTTCTTGGCGACTCTAG

Intron 13 (SEQ ID NO 17)

GTGAGCCGCCACCAAGGGGTGCAGGCCCAGCCTCCAGGGACCCTCCGCGCTCTGCTCACCTCTGACCCGGGGCTTCACCT TGGAACTCCTGGGTTTTAGGGGCAAGGAATGTCTTACGTTTTCAGTGGTGCTGCTGCCTGTGCACAGTTCTGTTCGCGTG GCTCTGTGCAAAGCACCTGTTCTCCATCTCTGGGTAGTGGTAGGAGCCGGTGTGGCCCCAGGTGTCCCCACTGTGCCTGT GCACTGGCCGTGGGACGTCATGGAGGCCATCCCAGGGCAGCAGGGGCATGGGGTAAAGAGATGTTTATGGGGAGTCTTAG CAGAGGAGGCTGGGAAGGTGTCTGAACAGTAGATGGGAGATCAGATGCCCGGAGGATTTGGGGTCTCAGCAAAGAGGGCC GAGGTGGGTGCAGGTGAGGGTCGCTGGCCCCACCCCCGGGAAGGTGCAGCAGAGCTGTGGCTCCCCACACAGCCCGGCCA GCACCTGTGCTCTGGGCATGGCTGTGCTCCTGGAACGTTCCCTGTCCTGGCTGGTCAGGGGGTGCCCCTGCCAAGAATCG ACAACTTTATCACAGAGGGAAGGGCCAATCTGTGGAGGCCACAGGGCCAGCTTCTGCCTGGAGTCAGGGCAGGTGGTGGC ACAAGCCTCGGGGCTGTACCAAAGGGCAGTCGGGCACCACAGGCCCGGGCCTCCACCTCAACAGGCCTCCCGAGCCACTG GGAGCTGAATGCCAGGAGGCCGAAGCCCTCGCCCCATGAGGGCTGAGAAGGAGTGTGAGCATTTGTGTTACCCAGGGCCG AGGCTGCGCGAATTACCGTGCACACTTGATGTGAAATGAGGTCGTCGTCTATCGTGGAAACCCAGCAAGGGCTCACGGGA GAGTTTTCCATTACAAGGTCGTACCATGAAAATGGTTTTTAACCCGAGTGCTTGCGCCTTCATGCTCTGGCAGGGAGGGC AGAGCCACAGCTGCATGTTACCGCCTTTGCACCAGCTCCAGAGGCTTGGGACCAGGCTGTCTCAGTTCCAGGGTGCGTCC GGCTCAGACCGCCCTCCTCTCTGCCTTCTCTCTCTGCCTCAAATCTTCCCTCGTTTGCATCTCCCTGACGCGTGCCTGGG CCCTCGTGCAAGCTGCTTGACTCCTTTCCGGAAACCCTTGGGGTGTGCTGGATACAGGTGCCACTGAGGACTGGAGGTGT CTGACACTGTGGTTGACCCCAGGGTCCAGCTGGCGTGCTTGGGGCCTCCTTGGGCCATGATGAGGTCAGAGGAGTTTTCC CAGGTGAAAACTCCTGGGAAACTCCCAGGGCCATGTGACCTGCCACCTGCTCCTCCCATATTCAGCTCAGTCTTGTCCTC ATTTCCCCACCAGGGTCTCTAGCTCCGAGGAGCTCCCGTAGAGGGCCTGGGCTCAGGGCAGGGCGGCTGAGTTTCCCCAC CCATGTGGGGACCCTTGGGTAGTCGCTTGATTGGGTAGCCCTGAGGAGGCCGAGATGCGATGGGCCACGGGCCGTTTCCA AACACAGAGTCAGGCACGTGGAAGGCCCAGGAATCCCCTTCCCTCGAGGCAGGAGTGGGAGAACGGAGAGCTGGGCCCCG ATTTCACGGCAGCCAGGCTGCAGTGGGCGAGGCTGTGGTGGTCCACGTGGCGCTGGGGGCGGGGTCTGATTCAAATCCGC TGGGGCTCGGCCTTCCTGGCCCGTGCTGGCCGCGCCTCCACACGGGCTTGGGGTGGACGCCCCGACCTCTAGCAGGTGGC TATTTCTCCCTTTGGAAGAGAGCCCCTCACCCATGCTAGGTGTTTCCCTCCTGGGTCAGGAGCGTGGCCGTGTGGCAACC CCGGGACCTTAGGCTTATTTATTTGTTTAAAAACATTCTGGGCCTGGCTTCCGTTGTTGCTAAATGGGGAAAAGACATCC CACCTCAGCAGAGTTACTGAGAGGCTGAAACCGGGGTGCTGGCTTGACTGGTGTGATCTCAGGTCATTCCAGAAGTGGCT CAGGAAGTCAGTGAGACCAGG_TACATGGGGGGCTCAGGCAGTGGGTGAGATGAGGTACA_CGGG_GGGCTCAGGCAGTGGGT

GAGGCCAGGTACATGGGGGGCTCAGGCACTGGGTGAGATGAGGTACACGGGGGGCTCAGGCAGAGGGTCAGACCAGGTAC ACGGGGGCTCTGATCACACGCACATATGAGCACATGTGCACATGTGCTGTTTCATGGTAGCCAGGTCTGTGCACACCTGC

CCCAAAGTCCCAGGAAGCTGAGAGGCCAAAGATGGAGGCTGACAGGGCTGGCGCGGTGGCTCACACCTGTAGTCCCAGCA

CTTTGGGAGGCCGAGGCGAGAGGATCCCTTGAGCCCAGGAGTTTAAGACCAGCCTGAGCAACATAGTAGAACCCCATCTC

TATGAAAAATAAAAACAAAAATTAGCTGAACATGGTGGTGTGCGCCTGTAGTTCCAATACTTGGGAGGCTGAAGTGGGAG

GATCACTTGAGCCCAGGAGGTGGAAGCTGCAGTGAGCTGAGATTGCACCACTGTACTGCAGCCTGGGTGACAGAGTGAGA GCCCATCTCAACAACAACAAAGAAGACTGACA.AATGCAGTTTCTTGGAAAGAAACATTTAGTAGGAACTTAACCTACACA

CAGAAGCCAAGTCGGTGTCTCGGTGTCAGTGAGATGAGATGATGGGTCCTCACACCATCACCCCAGACCCAGGGTTTATG

CACCACAGGGGCGGGTGGCTCAGAAGGGATGCGCAGGACGTTGATATACGATGACATCAAGGTTGTCTGACGAAGGGCAG

GATTCATGATAAGTACCTGCTGGTACACAAGGAACAATGGATAAACTGGAAACCTTAGAGGCCTTCCCGGAACAGGGGCT

AATCAGAAGCCAGCATGGGGGGCTGGCATCCAGGATGGAGCTGCTTCAGCCTCCACATGCGTGTTCATACAGATGGTGCA CAGAAACGCAGTGTACCTGTGCACACACAGACACGCAGCTACTCGCACACACAAGCACACACACAGACATGCATGCATGC

ATCCGTGTGTGTGCACCTGTGCCCATGAGGAAACCCATGCATGTGCATTCATGCACGCACACAGGCACCGGTGGGCCCAT

GCCCACACCCACGAGCACCGTCTGATTAGGAGGCCTTTCCTCTGACGCTGTCCGCCATCCTCTCAG

Intron 14 (SEQ ID NO 18) GTATGTGCAGGTGCCTGGCCTCAGTGGCAGCAGTGCCTGCCTGCTGGTGTTAGTGTGTCAGGAGACTGAGTGAATCTGGG CTTAGGAAGTTCTTACCCCTTTTCGCATCAGGAAGTGGTTTAACCCAACCACTGTCAGGCTCGTCTGCCCGCCCTCTCGT GGGGTGAGCAGAGCACCTGATGGAAGGGACAGGAGCTGTCTGGGAGCTGCCATCCTTCCCACCTTGCTCTGCCTGGGGAA GCGCTGGGGGGCCTGGTCTCTCCTGTTTGCCCCATGGTGGGATTTGGGGGGCCTGGCCTCTCCTGTTTGCCCTGTGGTGG GATTGGGCTGTCTCCCGTCCATGGCACTTAGGGCCCTTGTGCAAACCCAGGCCAAGGGCTTAGGAGGAGGCCAGGCCCAG GCTACCCCACCCCTCTCAGGAGCAGAGGCCGCGTATCACCACGACAGAGCCCCGCGCCGTCCTCTGCTTCCCAGTCACCG TCCTCTGCCCCTGGACACTTTGTCCAGCATCAGGGAGGTTTCTGATCCGTCTGAAATTCAAGCCATGTCGAACCTGCGGT CCTGAGCTTAACAGCTTCTACTTTCTGTTCTTTCTGTGTTGTGGAAATTTCACCTGGAGAAGCCGAAGAAAACATTTCTG TCGTGACTCCTGCGGTGCTTGGGTCGGGACAGCCAGAGATGGAGCCACCCCGCAGACCGTCGGGTGTGGGCAGCTTTCCG GTGTCTCCTGGGAGGGGAGCTGGGCTGGGCCTGTGACTCCTCAGCCTCTGTTTTCCCCCAG

Intron 15 (WEQ ID NO 19)

GCAAGTGTGGGTGGAGGCCAGTGCGGGCCCCACCTGCCCAGGGGTCATCCTTGAACGCCCTGTGTGGGGCGAGCAGCCTC AGATGCTGCTGAAGTGCAGACGCCCCCGGGCCTGACCCTGGGGGCCTGGAGCCACGCTGGCAGCCCTATGTGATTAAACG CTGGTGTCCCCAGGCCACGGAGCCTGGCAGGGTCCCCAACTTCTTGAACCCCTGCTTCCCATCTCAGGGGCGATGGCTCC CCACGCTTGGGAGCCTTCTGACCCCTGACCTGTGTCCTCTCACAGCCTCTTCCCTGGCTGCTGCCCTGAGCTCCTGGGGT CCTGAGCAAGTTCTCTCCCCGCCCCGCCGCTCCAGCGTCACTGGGCTGCCTGTCTGCTCGCCCCGGTGGAGGGGTGTCTG TCCCTTCACTGAGGTTCCCACCAGCCAGGGCCACGAGGTGCAGGCCCTGCCTGCCCGGCCACCCACACGTCCTAGGAGGG TTGGAGGATGCCACCTCTGGCCTCTTCTGGAACGGAGTCTGATTTTGGCCCCGCAG

3 ^λ-untranskribierter Bereich (SEQ ID NO 20)

ATCTCATGTTTGAATCCTAATGTGCACTGCATAGACACCACTGTATGCAATTACAGAAGCCTGTGAGTGAZ.CGGGGTGGT GGTCAGTGCGGGCCCATGGCCTGGCTGTGCATTTACGGAAGTCTATGAGTGAATGGGGTTGTGGTCAGTGCGGGCCCATG GCCTGGCTGGGCCTGGGAGGTTTCTGATGCTGTGAGGCAGGAGGGGAAGGAGGGTAGGGGATAGACAGTGGGAGCCCCCA CCCTGGAAGACATAACAGTAAGTCCAGGCCCGAAGGGCAGCAGGGATGCTGGGGGCCCAGCTTGGGCGGCGGGGATGATG GAGGGCCTGGCCAGGGTGGCAGGGATGATGGGGGCCCCAGCTGGGGTGGCAGGGGTGATGGGGGGGGCTGGTCTGGGTGG CGGGG.AAGATGGGGAAGCCTGGCTGGGCCCCCTCCTCCCCTGCCTCCCACCTGCAGCCGTGGATCCGGATGTGCTTCCCT GGTGCACATCCTCTGGGCCATCAGCTTTCATGGAGGTGGGGGGCAGGGGCATGACACCATCCTGTATAAAATCCAGGATT CCTCCTCCTGAACGCCCCAACTCAGGTTGAAAGTCACATTCCGCCTCTGGCCATTCTCTTAAGAGTAGACCAGGATTCTG ATCTCTGAAGGGTGGGTAGGGTGGGGCAGTGGAGGGTGTGGACACAGGAGGCTTCAGGGTGGGGCTGGTGATGCTCTCTC ATCCTCTTATCATCTCCCAGTCTCATCTCTCATCCTCTTATCATCTCCCAGTCTCATCTGTCTTCCTCTTATCTCCCAGT CTCATCTGTCATCCTCTTACCATCTCCCAGTCTCATCTCTTATCCTCTTATCTCCTAGTCTCATCCAGACTTACCTCCCA GGGCGGGTGCCAGGCTCGCAGTGGAGCTGGACATACGTCCTTCCTCAGGCAGAAGGAACTGGAAGGATTGCAGAGAACAG GAGGGGCGGCTCAGAGGGACGCAGTCTTGGGGTGAAGAAACAGCCCCTCCTCAGAAGTTGGCTTGGGCCACACGAAACCG AGGGCCCTGCGTGAGTGGCTCCAGAGCCTTCCAGCAGGTCCCTGGTGGGGCCTTATGGTATGGCCGGGTCCTACTGAGTG CACCTTGGACAGGGCTTCTGGTTTGAGTGCAGCCCGGACGTGCCTGGTGTCGGGGTGGGGGCTTATGGCCACTGGATATG GCGTCATTTATTGCTGCTGCTTCAGAGAATGTCTGAGTGACCGAGCCTAATGTGTATGGTGGGCCCAAGTCCACAGACTG TGTCGTAAATGCACTCTGGTGCCTGGAGCCCCCGTATAGGAGCTGTGAGGAAGGAGGGGCTCTTGGCAGCCGGCCTGGGG GCGCCTTTGCCCTGCAAACTGGAAGGGAGCGGCCCCGGGCGCCGTGGGCGGACGACCTCAAGTGAGAGGTTGGACAGAAC AGGGCGGGGACTTCCCAGGAGCAGAGGCCGCTGCTCAGGCACACCTGGGTTTGAATCACAGACCAACaGGTCAGGCCATT GTTCAGCTATCCATCTTCTACAAAGCTCCAGATTCCTGTTTCTCCGGGTGTTTTTTGTTGAAATTTTACTCAGGATTACT TATATTTTTTGCTAAAGTATTAGACCCTTAAAAAAGGTATTTGCTTTGATATGGCTTAACTCACTAAGCACCTACTTTAT TTGTCTGTTTTTATTTATTATTATTATTATTATTAGAGATGGTGTCTACTCTGTCACCCAGGTTGTTAGTGCAGTGGCAC AGTCATGGCTCGCTGTAGCCGCAAACCCCCAGGCTCAAGTGATCCTCCGGCCTCAGCTTCCCAGAGTGCTGGGATTACAG GTGTGAGCCACTGCCCTTGCCTGGCACTTTTAAAAACCACTATGTAAGGTCAGGTCCAGTGGCTTCCACACCTGTCATCC CAGTAGTTTGGGAAGCCGAGGCAGAAGGATTGTCTGAGGCCAGGAGTTTGAGACCAGCATGGGTAACATAGGGAGACCCC ATCTCTACAAAAAATGCAAAAAGTTATCCGGGCGTGGGGTCCAGCATCTGTAGTCCCAGCTGCTCGGGAGGCTGAGTGGG AGGATCGCTTGAGCCCGGGAGGTCATGGCTGCAGTGAGCTGTGATTGTACCATCGCACTCCAGCCTGGGCAACAGAGTGA GACCCTGTCTCAAAAAAAAAAAAAAAAAAAGAAGGAGAAGGAGAAGAGAAGAAGAAGGAAGAAGGAAAGAGAAGAAGAAG GAAGAAGGAAGAAAGAAGGAGAAGGAGGCCTGCTAGGTGCTAGGTAGACTGTCAAATCTCAGAGCAAAATGAAAATAACA AAGTTTTAAAGGGAAAGAAAAACCCCAGCTCTTTGGACTTCCTTAGGCCTGAACTTCATCTCAAGCAGCTTCCTTCCACA GACAAGCGTGTATGGAGCGAGTGAGTTCAAAGCAGAAAGGGAGGAGAAGCAGGCAAGGGTGGAGGCTGTGGGTGACACCA GCCAGGACCCCTGAAAGGGAGTGGTTGTTTTCCTGCCTCAGCCCCACGCTCCTGCCGGTCCTGCACCTGCTGTAACCGTC GATGTTGGTGCCAGGTGCCCACCTGGGAAGGATGCTGTGCAGGGGGCTTGCCAAACTTTGGTGGGTTTCAGAAGCCCCAG GCACTTGTGGCAGGCACAATTACAGCCCCTCCCCAAAGATGCCCACGTCCTTCTCCTGGAACCTGTGAATGTGTCACCCG CAAGGCAGAGGCTGGTGAAGGCTGCAGGTGGAATCACGGCTGCCAGTCAGCCGATCTTAAGGTCATCCTGGATTATCTGG TGGGCCTGATATGGCCACAAGGGTCCCTAGAAGTGAGAGAGGGAGGCAGGGGAGAGTCAGAGAGGGGACGTGAGAAGGAC CACTGGCCACTGCTGGCTTTGAGATGGAGGAGGGGGTCCCCAGCCAAGGAATGGGGGCAGCCGCTCCATGCTGGAAAAGC AAGCAATCCTCCCCGGTCCTGAGGGCACACGGCCCTGCCCACGCCTCGATTTCAGGCCAGTGGGACCTGTTTCAGCTTTC CGGCCTCCAGAGCTGT.?-AGATGATGCGTTTGTGTTCAGCCACTAAGCTGCAGTGATTCGTCACAGCAGCAAATGGAATAG CAGTACAGGGAAATGAATACAGGGACAGTTCTCAGAGTGACTCTCAGCCCACCCCTGGG

Die Charakterisierung der Exons zeigte interessanterweise, daß die in unserer Patentanmeldung PCT/EP/98/03469 beschriebenen, funktioneil wichtigen hTC- Protein-Domänen auf separaten Exons angeordnet sind. Das Telomerase- charakteristische T-Motiv befindet sich auf Exon 3. Die für die katalytische Funktion der Telomerase wichtigen RT (Reverse-Transkriptase)-Motive 1-7 liegen auf folgenden Exons: RT Motiv 1 und 2 auf Exon 4, RT Motiv 4 auf Exon 9, RT Motiv 5 auf Exon 10, RT Motiv 6 und 7 auf Exon 11. RT Motiv 3 liegt verteilt auf Exon 5 und 6 vor (s. Fig. 8).

Die Aufklärung der Exon-Intron-Struktur des hTC-Gens zeigt auch, daß die in unserer Patentanmeldung PCT/EP/98/03469 beschriebenen vier Deletions- bzw. Insertions-Varianten der hTC-cDNA ebenso wie drei weitere, in der Literatur (Kilian et al., 1997) beschriebene hTC-Insertions-Varianten höchstwahrscheinlich alternative Splice-Produkte darstellen. Wie in Fig. 8 gezeigt, lassen sich die Splice Varianten in zwei Gruppen einteilen: Deletionsvarianten und Insertionsvarianten.

Den hTC-Varianten der Deletionsgruppe fehlen spezifische Sequenzabschnitte. Die 36 bp in frame Deletion in Variante DEL1 resultiert höchstwahrscheinlich aus der Benutzung einer alternativen 3 '-Splice Akzeptorsequenz in Exon 6, wodurch ein Teil des RT Motivs 3 verlorengeht. In Variante DEL2 werden die normalen 5 '-Splice Donor- und 3'-Splice-Akzeptor Sequenzen von Intron 6, 7 und 8 nicht benutzt. Stattdessen wird Exon 6 direkt an Exon 9 fusioniert, wodurch eine Verschiebung des offenen Leserahmens entsteht und in Exon 10 ein Stopcodon auftritt. Variante Del3 stellt eine Kombination aus Variante 1 und 2 dar.

Die Gruppe der Insertions-Varianten zeichnet sich durch die Insertion von Intronsequenzen aus, die zu vorzeitigen Translationsstop führen. Anstelle der normalerweise benutzten 5 '-Splice Donorsequenz von Intron 5 wird eine alternative, 3 '-lokalisierte Splicestelle in Variante INS1 benutzt, wodurch eine Insertion der ersten 38 bp aus Intron 4 zwischen Exon 4 und Exon 5 entsteht. Ebenso resultiert die Insertion eines Intron 1 1 -Sequenzbereichs in Variante INS2 aus der Benutzung einer alternativen 5 '-Splice Donorsequenz in Intron 1 1. Da diese Variante in der Literatur (Kilian et al., 1997) nur unzureichend beschrieben wurde, läßt sich die genaue alternative 5 '-Splice Donorsequenz dieser Variante nicht bestimmen. Die Insertion von Intron 14 Sequenzen zwischen Exon 14 und Exon 15 in Variante INS3 entsteht durch die Benutzung von einer alternativen 3 "-Splice Akzeptorsequenz, wodurch der 3'-Teil von Intron 14 nicht gesplict wird.

Die in unserer Patentanmeldung PCT/EP/98/03469 beschriebene hTC-Variante INS4 (Variante 4) zeichnet sich durch den Ersatz von Exon 15 und dem 5'-Teilbereich von

Exon 16 durch die ersten 600 bp des Introns 14 aus. Diese Variante ist auf den Gebrauch einer alternativer internen 5 '-Splice Donorsequenz in Intron 14 und einer alternativen 3 '-Splice Akzeptorsequenz in Exon 16 zurückzuführen, woraus ein veränderter C-Terminus resultiert.

Die in v vo-Generation wahrscheinlich nicht-funktioneller hTC-Proteinvarianten, die mit der Funktion des vollständigen hTC-Proteins interferieren könnten, stellt zusätlich zur Transkriptionsregulation einen möglichen Mechanismus dar, um die hTC-Proteinfunktion zu kontrollieren. Bis heute ist die Funktion der hTC- Splicevarianten nicht bekannt. Obwohl die meisten dieser Varianten vermutlich für

Proteine ohne Reverse-Transkriptase-Aktivität kodieren, könnten sie dennoch eine entscheidende Rolle als transdominant-negative Telomerase-Regulatoren spielen, indem sie z.B. um die Interaktion mit wichtigen Bindungspartnern kompetieren.

Die Suche nach möglichen Transkriptionsfaktorbindungstellen wurde mit dem „Find

Pattern"-Algorithmuses aus dem „GCG Sequenz Analysis" Programmpacket der „Genetics Computer Group" (Madison, USA) durchgeführt. Dadurch wurden verschiedene potentielle Bindungsstellen für Transl iptionsfaktoren in der Nukleotidsequenz von Intron 2 identifiziert, die in der Tab. 2 aufgelistet sind. Darüberhinaus wurde im Intron 1 eine Spl -Bindungsstelle (Pos. 43) und im 5'- untranslatiertem Bereich eine c-Myc-Bindungsstelle (cDNA-Position 29-34, vergl. Fig. 6) gefunden.

Beispiel 6

Um den oder die Startpunkt(e) der hTC-Transkription in HL 60 Zellen zu ermitteln, wurde das 5 ^'-Ende der hTC-mRNA durch Primer-Extension- Analyse bestimmt.

Es wurden 2 μg PolyA⁺-RNA aus HL-60-Zellen für 10 min bei 65°C denaturiert. Zur Primeranlagerung wurden 1 μl RNasin (30-40 U/ml) und 0,3-1 pmol radioaktiv markierter Primer (5'GTTAAGTTGTAGCTTACACTGGTTCTC 3 '; 2,5-8xl0⁵ cpm) zugegeben und für 30 min bei 37°C in einem Gesamtvolumen von 20 μl inkubiert. Nach Zugabe von 10 μl 5xReverse Transkriptase-Puffer (Fa. Gibco-BRL), 2 μl 10 raM dNTPs, 2 μl RNasin (s.o.), 5μl 0J M DTT (Fa. Gibco-BRL) 2 μl ThermoScript RT (15 U/μl; Fa. Gibco-BRL) und 9 μl DEPC-behandeltes Wasser erfolgte die Primer-Verlängerung in einem Gesamtvolumen für 1 h bei 58°C. Die Reaktion wurde durch 4 μl 0,5 M EDTA, pH 8,0, gestoppt und die RNA nach Zugabe von 1 μl RNaseA (10 mg/ml) für 30 min bei 37°C abgebaut. Hierauf wurden 2,5 μg gescherte Kalbsthymus-DNA und 100 μl TE addiert und einmal mit 150μl Phenol/Cloroform (1 : 1) extrahiert. Die DNA wurde unter Zusatz von 15 μl 3 M Na-

Acetat und 450 μl Ethanol für 45 min bei -70°C gefällt und anschließend für 15 min bei 14000 Upm abzentrifugiert. Das Präzipitat wurde einmal mit 70 %igem Ethanol gewaschen, luftgetrocknet und in 8 μl Sequenzierungs-Stoplösung gelöst. Nach 5 min Denaturierung bei 80°C wurden die Proben auf ein 6 %iges Polyacrylamidgel aufgetragen und elektrophoretisch (Ausubel et al., 1987) aufgetrennt (Fig. 5).

Hierbei wurde eine Haupt-Transkriptionsstartstelle identifiziert, die 1767 bp 5^' vom

ATG-Startcodon der hTC-cDNA Sequenz lokalisiert ist (Nukleotidposition 3346 in

Fig. 4). Die Nukleotidsequenz um diesen Haupttranskriptionsstart (TTA_+ITTGT) repräsentiert darüberhinaus ein Initiator-Element (Inr), das in 6 von 7 Nukleotiden mit dem Konsensusmotiv (PyPyA₊₁Na/tPyPy) (Smale, 1997) eines Initiator- Elementes übereinstimmt.

In unmittelbarer Nähe des experimentell identifizierten Haupt-Transkriptionsstartes konnte keine eindeutige TATA-Box identifiziert werden, so daß der hTC-Promoter wahrscheinlich in die Familie der TATA-losen Promotoren (Smale, 1997) einzuordnen ist. Allerdings wurde durch Bioinformatik Analyse eine potentielle TATA- Box von Nukleotidposition 1306 bis 131 1 (Fig. 4) gefunden. Die zusätzlich um den Haupt-Transkriptionsstart beobachteten Neben-Transkriptionsstarts wurden auch bei anderen TATA-losen Promotoren beschrieben (Geng and Johnson, 1993), wie z.B. in den stark regulierten Promotoren einiger Zellzyklusgene (Wick et al, 1995).

Beispiel 7

Zusätzlich zu dem in Beispiel 6 beschriebenen, in HL60 Zellen identifizierten

Startpunkt des hTC Transkriptes, wαirde ein weiterer Transl ptionsstartbereich in HL60 Zellen identifiziert. Anhand von RT-PCR-Analysen wurde die Region des Transkriptionsstarts des hTC-Gens in HL60 Zellen auf die bp -60 bis -105 eingegrenzt.

Unter Einsatz von 0,4 μg Poly A-RNA aus HL60 Zellen (Clontech) und dem genspezifischen Primer GSP13 (5'-CCTCCAAAGAGGTGGCTTCTTCGGC-3\ cDNA-Position 920-897) wurde hierfür die cDNA mit Hilfe des „First Strand cDNA- Synthesis Kit" (Clontech) nach Angaben der Hersteller synthetisiert. In einem Endvolumen von 50 μl wurden 1 μl cDNA mit 10 pmol dNTP-Mix versetzt und in

1 xPCR-Reaktionspuffer F (PCR-Optimizer Kit der Fa. InVitrogen) und einem Unit Platinum-Taq-DNA Polymerase (Fa. Gibco/BRL) eine PCR-Reaktion durchgefül rt. Als Primer wurden jeweils 10 pmol der nachfolgend definierten 5'- und 3'-Primer zugefügt. Die PCR wurde in 3 Schritten durchgeführt. An eine zweiminütige Dena- turierung bei 94°C schlössen sich 36 PCR-Zyklen an, in denen die DNA zunächst für

45 sec bei 94°C denaturiert wurde und anschließend für 5 min bei 68°C die Primer angelagert und die DNA-Kette verlängert wurde. Zum Abschluß folgte für 10 min eine Kettenverlängerung bei 68°C. Insgesamt wurden sechs verschiedene 5'-PCR Primer (Primer HTRT5B: 5'-CGCAGCCACTACCGCGAGGTGC-3', cDNA- Position 105 bis 126; Primer C5S: 5'-CTGCGTCCTGCTGCGCACGTGGGAAGC- 3', 5 '-flankierende Region -49 bis -23; Primer PRO-TEST 1 : 5'-

CTCGCGGCGCGAGTTTCAGGCAG-3', 5 '-flankierende Region -74 bis -52; Primer PRO-TEST2: 5'-CCAGCCCCTCCCCTTCCTTTCC-3\ 5 '-flankierende Region -112 bis -91 ; Primer PRO-TEST4: 5'-CCAGCTCCGCCTCCTCCGCGC-3', 5 '-flankierende Region -191 - -171 ; Primer RP-3A: 5'- CTAGGCCGATTCGACCTCTCTCC-3', 5 '-flankierende Region -All bis -405) mit dem 3'-PCR Primer C5Rrück (5'-GTCCCAGGGCACGCACACCAG-3\ cDNA- Position 245 bis 225) kombiniert. Als Kontrolle wurde zusätzlich zu den Oligo-dT- und GSP13-geprimten cDNAs auch genomische DNA für die PCR eingesetzt. Wie in Fig. 9 gezeigt, wurde nur mit den Primerkombinationen HTRT5B-C5Rrück, C5S- C5Rrück und PRO-TESTl-C5Rrück ein PCR-Produkt erhalten, was darauf hinweist, daß der Startpunkt der hTC-Transkription in der Region zwischen bp-60 und bp-105 liegt.

Beispiel 8

In der ca. 11,2 kb isolierten 5 '-flankierenden Region des hTC-Gens befinden sich mehrere extrem GC-reiche Bereiche, sog. CpG Islands. Ein CpG Islands mit einem GC-Gehalt von > 70 % reicht von bp - 1214 bis in Intron 2. Zwei weitere GC-reiche Bereiche mit einem GC-Gehalt von > 60 % reichen von bp -3872 bis bp -31 13 bzw. bp -5363 bis bp -3941. Die Lage der CpG Islands ist in der Fig. 1 1 graphisch dargestellt.

Pattem"-Algorithmuses aus dem „GCG Sequenz Analysis" Programmpacket der „Genetics Computer Group" (Madison, USA) durchgeführt. Dadurch wurden verschiedene potentielle Bindungsstellen in der Region bis -900 bp upstream vom Translations-Startcodon ATG indentifiziert: fünf Spl -Bindungsstellen, eine c-Myc- Bindungsstelle, eine CCAC-Box (Fig. 10). Zusätzlich wurden eine CCAAT-Box und eine zweite c-Myc-Bindungsstelle an den Positionen -1788 bzw. -3995 der 5'- flankierenden Region gefunden.

Beispiel 9

Um die Aktivität des hTC-Promotors zu analysieren, wurden durch PCR-Ampli- fikation vier verschieden lange hTC-Promotorsequenzabschnitte generiert und 5' vor das Reportergen Luziferase in den Vektor pGL2 der Fa. Promega kloniert. Als DNA-

Quelle für die PCR-Amplifikation wurde das aus dem Phagenklon P12 subklonierte, 8,5 kb große Sacl-Fragment gewählt. In einem Endvolumen von 50 μl wurden 35 ng dieser DNA mit 10 pmol dNTP-Mix versetzt und in lxPCR-Reaktionspuffer (PCR- Optimizer Kit der Fa. InVitrogen) und einem Unit Platinum-Taq-DNA Polymerase (Fa. Gibco/BRL) eine PCR-Reaktion durchgeführt. Als Primer wurden jeweils

20 pmol der nachfolgend definierten 5'- und 3'-Primer zugefügt. Die PCR wurde in 3 Schritten durchgeführt. An eine zweiminütige Denaturierung bei 94°C schlössen sich 30 PCR-Zyklen an, in denen die DNA zunächst für 45 sec bei 94°C denaturiert wurde und anschließend für 5 min bei 68°C die Primer angelagert und die DNA- Kette verlängert wurde. Zum Abschluß folgte für 10 min eine Kettenverlängerung bei 68°C. Als 3'-PCR-Primer wurde jeweils der Primer PK-3A (5'- GCAAGCTTGACGCAGCGCTGCCTGAAACTCG-3', Position -43 bis -65) gewählt, der einen Sequenzbereich 42 bp upstream vom START-Codon ATG erkennt. Durch Kombination des PK-3A-Primers mit dem 5'-PCR-Primer PK-5B (5'- CCAGATCTCTGGAACACAGAGTGGCAGTTTCC-3', Position -4093 bis -4070) wurde ein 4051 bp großes Promotor-Fragment amplifiziert (NPK8). Die Kombination des Primerpaares PK-3A und PK-5C (5'-

CCAGATCTGCATGAAGTGTGTGGGGATTTGCAG-3', Position -3120 bis- 3096) führte zur Amplifikation eines 3078 bp großen Promotorfragmentes (NPK15). Ein 2068 bp großes Promotorfragment wurde durch die Verwendung der Primer- kombination PK-3A und PK-5D (5'- GGAGATCTGATCTTGGCTTACTGCAGCCTCTG-3', Position -2110 bis -2087) amplifziert (NPK22). Der Einsatz der Primerkombination PK-3A und PK-5E (5'- GGAGATCTGTCTGGATTCCTGGGAAGTCCTCA-3', Position -1125 bis -1 102) führte schließlich zur Amplifikation eines 1083 bp großen Promotorfragmentes (NPK27). Der PK-3A Primer enthält eine Hindlll Erkennungssequenz. Die verschiedenen 5'-Primer enthalten eine Bglll-Erkennungssequenz.

Die entstandenen PCR-Produkte wurden mit Hilfe des QIA quick spin PCR Purification Kits der Fa. Qiagen nach Angaben der Hersteller aufgereinigt und anschließend mit den Restriktionsenzymen Bglll und Hindlll verdaut. Mit den gleichen Restriktionsenzymen wurde der pGL2-Promotor-Vektor verdaut und der in diesem Vektor enthaltene SV40-Promotor freigesetzt und abgetrennt. Die PCR- Promotorfragmente wurden in den Vektor ligiert, in kompetente DH5α-Bakterien der Fa. Gibco/BRL transformiert. Aus transformierten Bakterienklonen wurde DNA für die nachfolgend beschriebenen Promotor-Aktivitäts-Analysen mit Hilfe des Qiagen

Plasmid-Kits der Fa. Qiagen isoliert.

Beispiel 10

Die Aktivität des hTC-Promotors wurde in transienten Transfektionen in eukaryotischen Zellen analysiert.

Alle Arbeiten mit eukaryotischen Zellen erfolgten an einem sterilen Arbeitsplatz. CHO-Kl und HEK 293 Zellen wurden von der American Type Culture collection bezogen.

CHO-Kl Zellen wurden in DMEM Nut Mix F-12 Zellkulturmedium (Fa. Gibco- BRL, Bestellnummer: 21331-020) mit 0,15 % Streptomycin/Penezillin, 2 mM Glutamin und 10 % FCS (Fa. Gibco-BRL) gehalten. HEK 293 Zellen wurden in DMOD Zellkulturmedium (Fa. Gibco-BRL, Bestellnummer: 41965-039) mit 0J5 % Streptomycin/Penizillin, 2 mM Glutamin und 10 % FCS (Fa. Gibco-BRL) kultiviert.

CHO-Kl und HEK 293 Zellen wurden in wasssergesättigter Atmosphäre bei 37°C unter Begasung mit 5 % C0₂ kultiviert. Bei konfluentem Zellrasen wurde das Medium abgesaugt, die Zellen mit PBS (100 mM KH₂PO₄ pH 7,2; 150 mM NaCl) gewaschen und durch Zugabe einer Trypsin-EDTA Lösung (Fa. Gibco-BRL) abgelöst. Das Trypsin wurde durch Mediumzugabe inaktiviert und die Zellzahl mit einer Neubauer-Zählkammer ermittelt, um die Zellen in gewünschter Dichte auszu- plattieren.

Für die Transfektion wurden pro Well jeweils 2x lO³ -HEK 293 Zellen in einer 24- well Zellkulturplatte ausplattiert. Nach 3 Stunden wurde das HEK 293 Medium entfernt. Für die Transfektion wurden bis zu 2,5 μg Plasmid-DNA, 1 μg eines CMV ß-Gal Plasmidkonstruktes (Fa. Stratagene, Bestellnummer: 200388), 200 μl serumfreies Medium und 10 μl Transfektionsreagenz (DOTAP der Fa. Boehringer Mannheim) für 15 Minuten bei Raumtemperatur inkubiert und anschließend auf die HEK 293 Zellen gleichmäßig aufgetropft. Nach 3 Stunden wurden 1 ,5 ml Medium hinzugegeben. Nach 20 Stunden wurde das Medium gewechselt. Nach weiteren 24

Stunden wurden die Zellen zur Bestimmung der Luziferase- und der ß-Gal-Aktivität geemtet. Dazu wurden die Zellen im Zellkultur-Lysisreagenz (25 mM Tris [pH 7,8] mit H₃PO₄; 2 mM CDTA; 2 mM DTT; 10% Glycerol; 1% Triton X-100) für 15 Minuten bei Raumtemperatur lysiert. Zwanzig μl dieses Zellysats wurden mit 100 μl Luziferase-Assaypuffer (20 mM Tricin; 1,07 mM (MgCO₃) Mg(OH) 5H₂O;

2,67 mM MgSO₄; 0J mM EDTA; 33,3 mM DTT; 270 μM Coenzym A; 470 μM Luciferin, 530 μM ATP) gemischt und das durch die Luziferase generierte Licht gemessen.

Zur Messung der ß-Galaktosidaseaktivität wurden gleiche Mengen Zellysat und ß-

Galaktosidase-Assaypuffer (100 mM Natriumphosphatpuffer pH 7,3; 1 mM MgCl₂; 50 mM ß-Merkaptoethanol; 0,665 mg/ml ONPG) für mindestens 30 Minuten bei 37°C oder bis eine leichte Gelbfärbung auftrat, inkubiert. Die Reaktion wurde durch Zugabe von 100 μl 1 M Na₂CO₃ gestoppt und die Absorption bei 420 nm bestimmt.

Für die Analyse des hTC-Promotors wurden vier verschieden lange hTC-Promotor- sequenzabschnitte 5' vor das Reportergen Luziferase kloniert (vergl. Beispiel 9).

In der Fig. 1 1 sind die relativen Luziferase Aktivitäten zweier unabhängiger Transfektionen mit den Konstrukten NPK8, NPK15, NPK22 und NPK27 in HEK 293 Zellen aufgetragen. Jedes Experiment wurde in Duplikaten durchgeführt.

Darüberhinaus wurde die Standardabweichung angegeben. Das Konstukt NPK 27 zeigt eine 40fach höhere Luziferaseaktivität als die Basalaktivität des promotorlosen Luziferase-Kontrollkonstrutes (pGL2-basic) und eine 2 bis 3fach höhere Aktivität als das SV40 Promotorkontroll-Konstrukt (pGL2PRO). Interessanterweise wurde im Vergleich zu dem Konstrukt NPK27 eine 2 bis 3fach geringere Luziferaseaktivität in mit längeren hTC Promotorkonstukten (NPK8, NPK15, NPK22) transfizierten Zellen beobachtet. Ähnliche Ergebnisse wurden auch in CHO Zellen beobachtet (Daten nicht gezeigt).

Literaturvereichnis

Allsopp, R. C., Vazire, H., Pattersson, C., Goldstein, S., Younglai, E.V., Futcher, A.B., Greider, C.W. und Harley, C.B. (1992). Telomere length predicts replicative capacity of human fibroblasts. Proc. Natl. Acad. Sei. 89, 101 14- 101 18.

Ausubel, F.M., Brent, R., Kingston, R.E., Moore, D.D., Seidman, J.G., Smith, J.A., Struhl, K.

(1987). Current protocols in molecular biology. Greene Publishing Associates and Whiley- Intersciences, New York.

Blasco, M. A., Rizen, M., Greider, C. W. und Hanahan, D. (1996). Differential regulation of telomerase activity and telomerase RNA during multistage tumorigenesis. Nature Genetics 12, 200- 204.

Broccoli, D., Young, J. W. und deLange, T. (1995). Telomerase activity in normal and malignant hematopoietic cells. Proc. Natl. Acad. Sei. 92, 9082-9086.

Counter, C. M-, Avilion, A. A., LeFeuvre, C. E., Stewart, N. G. Greider, CΛV. Harley, C. B. und Bacchetti S. (1992). Telomere shortening associated with chromosome instability is arrested in immortal cells which express telomerase activity. EMBO J. 11, 1921-1929.

Feng, J., Funk, W. D., Wang, S.-S., einrich, S. L., Avilion, A.A., Chiu, C.-P., Adams, R.R., Chang, E., Allsopp, R.C., Yu, J., Le, S., West, MD., Harley, C.B., Andrews, W.H., Greider, C.W. und Villeponteau, B. (1995). The RNA component of human telomerase. Science 269, 1236- 1241.

Geng, Y., and Johnson, L.F. (1993). Lack of an initiator element is responsible for multiple transcriptional initiation sites of the TATA less mouse thymidine synthasse promoter. Mol. Cell. Biol 14:4894.

Goldstein, S. (1990). Replicative senescence: The human fibroblast comes of age. Science 249, 1 129- 1 133.

Harley, C.B., Futcher, A.B., Greider, C.W., 1990. Telomeres shorten during ageing of human fibroblasts. Nature 345, 458-460. Hastie, N. D., De pster, M., Dunlop, M. G., Thompson, A. M., Green, D.K. und Allshire, R.C. (1990). Telomere reduction in human colorectal carcinoma and with ageing. Nature 346, 866-868.

Hiyama, K., Hirai, Y., Kyoizumi, S., Akiyama, M., Hiyama, E., Piatyszek, M.A., Shay, J.W.,

Ishioka, S. und Yamakido, M. (1995). Activation of telomerase in human lymphocytes and hematopoietic progenitor cells. J. Immunol. 155, 371 1-3715.

Kim, N.W., Piatyszek, M.A., Prowse, K.R., Harley, C. B., West, M.D., Ho, P.L.C., Coviello, G.M., Wright, W.E., Weinrich, S.L. und Shay, J.W. (1994). Specific association of human telomerase activity with immortal cells and cancer. Science 266, 201 1-2015.

Latchman, D.S. (1991). Eukaryotic transcription factors. Academic Press Limited. London.

Lingπer, J., Hughes, T.R., Shevchenko, A., Mann, M., Lundblad, V. und Cech T.R. (1997).

Reverse transcriptase motifs in the catalytic subunit of telomerase. Science 276: 561-567.

Lundblad, V. und Szostak, J. . (1989). A mutant with a defect in telomere elongation leads to senescence in yeast. Cell 57, 633-643.

McClintock, B. (1941). The stability of broken ends of chromosomes in Zea mays. Genetics 26, 234- 282.

Meyne, J., Ratiiff, R. L. und Moyzis, R. K. (1989). Conservation of the human telomere sequence (TTAGGG)_n among vertebrates. Proc. Natl. Acad. Sei. 86, 7049-7053.

Olovnikov, A. M. (1973). A theory of marginotomy. J. Theor. Biol. 41, 181-190.

Sandell, L. L. und Zakian, V. A. (1993). Loss of a yeast telomere: Arrest, recovery and chromosome loss. Cell 75, 729-739.

Shapiro, M.B., Senapathy, P., 1987. RNA splice junetions of different classes of eukaryotes: sequence statistics and functional implications in gene expression. Nucl. Acids Res. 15, 7155-7174.

Smale, S.T. and Baltimore, D. (1989). The „initiator" as a transcription control element. Cell

57: 103-1 13. Smale, S.T. (1997). Transcription initation from TATA-less promoters within eukaryotic protein- coding genes. Biochimica et Biophysica Acta 1351, 73-88.

Shay, J. W. (1997). Telomerae and Cancer. Ciba Foundation Meeting: Telomeres and Telomerase.

London.

Vaziri, H., Dragowska, W., Allsopp, R. C, Thomas, T. E-, Harley, C.B. und Landsdorp, P.M. (1994). Evidence for a mitotic clock in human hematopoietic stem cells: Loss of telomeric DNA with age. Proc. Natl. Acad. Sei. 91, 9857-9860.

Wick, M., Härönen, R., Mumberg, D., Bürger, C, Olsen, B.R., Budarf, M.L., Apte, S. S. and Müller, R. (1995). Structure of the human TIMP-3 gene and its cell-cycle-regulated promoter. Biochemical Jornal 31 1 , 549-554.

Zakian, V. A. (1995). Telomeres: Beginning to understand the end. Science 270, 1601- 1607.

Claims

Patentansprüche

1. Regulatorische DNA-Sequenzen für das Gen der humanen katalytischen Telomerase-Untereinheit.

2. DNA-Sequenzen gemäß Anspruch 1 , dadurch gekennzeichnet, daß es sich um Intronsequenzen gemäß SEQ ID NO 4, 5, 6, 7, 8, 9, 10, 1 1 , 12, 13, 14, 15, 16, 17, 18, 19 und/oder 20 oder um regulatorisch wirksame Fragmente dieser Sequenzen handelt.

3. DNA-Sequenzen gemäß Anspruch 1 , dadurch gekennzeichnet, daß es sich um die 5'-flankierende regulatorische DNA-Sequenz für das Gen der humanen katalytischen Telomerase-Untereinheit gemäß Fig. 10 (SEQ ID NO 3) oder um regulatorisch wirksame Fragmente dieser DNA-Sequenz handelt.

4. Rekombinantes Konstrukt, enthaltend eine DNA-Sequenz gemäß einem der Ansprüche 1 bis 3.

5. Rekombinantes Konstrukt gemäß Anspruch 4, dadurch gekennzeichnet, daß es weiterhin eine oder mehrere DNA-Sequenzen enthält, die für Polypeptide oder Proteine kodieren.

6. Vektor, enthaltend ein rekombinantes Konstrukt gemäß Anspruch 4 oder 5.

7. Verwendung von rekombinanten Konstrukten bzw. Vektoren gemäß einem der Ansprüche 4 bis 6 zur Herstellung von Arzneimitteln.

8. Rekombinante Wirtszellen, enthaltend rekombinante Konstrukte bzw. Vektoren gemäß einem der Ansprüche 4 bis 6.

9. Verfaliren zur Identifizierung von Substanzen, die die Promotor-, Silencer- oder Enhanceraktivität der humanen katalytischen Telomerase-Untereinheit beeinflussen, das folgende Schritte umfaßt:

A. Zugabe einer Kandidatensubstanz zu einer Wirtszelle, enthaltend DNA-Sequenzen gemäß einem der Ansprüche 1 bis 3, funktionell verknüpft mit einem Reportergen,

B. Messung des Substanzeffektes auf die Reportergenexpression.

10. Verfahren zur Identifizierung von Faktoren, die spezifisch an die DNA gemäß einem der Ansprüche 1 bis 3 oder an Fragmente davon binden, dadurch gekennzeichnet, daß man eine Expressions-cDNA-Bibliothek mit einer DNA- Sequenz gemäß einem der Ansprüche 1 bis 3 oder Teilfragmenten unter- schiedlichster Länge als Sonde screent.

1 1. Transgene Tiere, enthaltend rekombinante Konstrukte bzw. Vektoren gemäß Ansprüchen 4 bis 6.

12. Verfahren zur Detektion Telomerase-assozuerter Zustände bei einem

Patienten, das folgende Schritte umfaßt:

A. Inkubation eines rekombinanten Konstruktes bzw. Vektors gemäß Ansprüchen 4 bis 6 das bzw. der zusätzlich ein Reportergen enthält mit Körperflüssigkeiten oder zellulären Proben,

B. Detektion der Reportergenaktivität, um einen diagnostischen Wert zu erhalten, Vergleich des diagnostischen Wertes mit Standardwerten für das Reportergenkonstrukt in standardisierten normalen Zellen oder Körperflüssigkeiten des gleichen Typs wie die Testprobe.