WO2003022986A2

WO2003022986A2 - Identifikation und quantifizierung von nukleinsäuren durch erzeugung und serielle sequenzierung von sequenz-tags einheitlicher länge

Info

Publication number: WO2003022986A2
Application number: PCT/EP2002/010016
Authority: WO
Inventors: Achim Fischer
Original assignee: Achim Fischer
Priority date: 2001-09-07
Filing date: 2002-09-06
Publication date: 2003-03-20
Also published as: AU2002339526A1; DE10144132A1; WO2003022986A3

Abstract

Die Erfindung betrifft ein Verfahren zur Identifikation und zur Quantifizierung von Nukleinsäuren aus einem Nukleinsäuregemisch, insbesondere zur Ermittlung von Genexpressionsdaten, Splicingdaten oder von Sequenzvariationen, wobei die doppelsträngigen Nukleinsäure mit einer BcgI-ähnlichen Restriktionsendonuklease zur Herstellung von identisch langen Nukleinsäure-tags geschnitten wird, die freigesetzten Nukleinsäure-tags gegebenenfalls isoliert werden, die mit BcgI-ähnlichen Restriktionsendonukleasen generierten Nukleinsäure-tags konkatemerisiert werden, in einen Vektor kloniert werden und anschliessend seriell sequenziert werden.

Description

Identifikation und Quantifizierung von Nukleinsäuren durch Erzeugung und serielle Sequenzierung von Sequenz-tags einheitlicher Länge

Die vorliegende Erfindung betrifft verschiedene Verfahren zur Identifikation und zur Quantifizierung von Nukleinsäuren aus einem Nukleinsäure-Gemisch, insbesondere zur Ermittlung von Genexpressionsdaten, wobei Nukleinsäure-tαg,y einheitlicher Länge mittels Rcgl-ähnlicher Restriktionsendonukleasen erzeugt werden und anschließend seriell sequenziert werden, sowie zur Identifikation von Sequenzvariationen.

Ein wichtiger Bereich der modernen biologischen Analytik ist die Genexpressionsanalyse. Hier wird die relative oder absolute Abundanz der verschiedenen Transkripte einer Zelle bzw. eines Zellverbands oder eines Gewebes bestimmt, um Aufschluß über Stoffwechselwege, Signalübertragungswege, Reaktionen auf äußere Einflüsse etc. zu erhalten. Bei den hierfür eingesetzten Verfahren muss unterschieden werden zwischen solchen, welche die Quantifizierung eines bzw. einiger weniger bekannter Transkripte erlauben (insbesondere Northern-Blot-Hybridisierung, quantitative PCR), und solchen, welche in Form eines umfassenden Ansatzes die simultane Identifikation zahlreicher auch unbekannter Transkripte ermöglichen. Diese zweite Gruppe läßt sich ihrerseits wiederum unterteilen in Verfahren, die auf

(1) vergleichender Hybridisierung (insbesondere DNA-arrays; s. etwa Trends Biotechnol. . 1998 Jul;16(7):301-6),

(2) subtraktiver Hybridisierung (beispielsweise suppression subtractive hybridization SBH, s. Proc. Natl. Acad. Sei. U. S. A. 1996 Jun ll;93(12):6025-30),

(3) cDNA-Fragmentdisplay (s. EP 0 743 367), oder (4) t g-Sequenzierung

beruhen. Die der tαg-Sequenzierung zugrundeliegende Idee besteht darin, kurze cDNA- Sequenzabschnitte (sog. Nu einsäure-tag,y) zu bestimmen und ihre jeweilige relative Häufigkeit zu ermitteln und zwischen verschiedenen Proben zu vergleichen, um differentiell exprimierte Gene anhand ihrer unterschiedlichen Transkripthäufigkeit zu erkennen. Ein solches Vorgehen wurde erstmals realisiert, indem aus verschiedenen miteinander zu vergleichenden Proben gewonnene ESTs (expressed sequence tags) sequenziert und auf ihre Häufigkeit untersucht wurden (z.B. Proc. Natl. Acad. Sei. U. S. A. 1995 Aug 29;92(18):8303-7). Da ESTs jedoch in der Regel einige hundert Basenpaare lang sind, wird für jeden EST eine separate Sequenzierreaktion benötigt, was einen höheren Durchsatz verhindert und die Sequenzierung und Analyse von mehr als einigen hundert oder höchstens einigen tausend ESTs unpraktikabel werden läßt. Da eine Kollektion von ESTs in der Regel stark von einigen wenigen ESTs dominiert wird, welche besonders stark exprimierte Gene (v.a. sogenannte ho sekeeping-Gerxe) repräsentieren, werden niedriger exprimierte Gene im Zuge von EST-Sequenzierungsexperimenten meist überhaupt nicht erfaßt. Andererseits ist der Informationsgehalt eines durchschnittlich langen ESTs um ein Vielfaches höher als für die eindeutige Identifikation des zugehörigen Gens bzw. Transkripts nötig. Daher zielen neuere Verfahren zur t g-Sequenzierung darauf ab, nur noch sehr kurze Nukleinsäure-tαg.? (beispielsweise 13-20 bp) zu erzeugen bzw. zu sequenzieren. Rein rechnerisch kann beispielsweise ein 13 bp langes tag für 4¹³ = 67.108.864 verschiedene Transkripte codieren. In der Praxis werden für eine eindeutige Zuordnung eines Transkripts zu einem tag jedoch größere tαg-Längen benötigt, da bestimmte Sub-Sequenzen in Genomen stark überrepräsentiert sind. Hierdurch ist häufig keine eindeutige Zuordnung zu kurzer tags zu einem Gen möglich. Beispielsweise ergab die Datenbanksuche des 13 eτ-tags CATGCCTGTAATC einen Treffer mit 13 verschiedenen Einträgen (Science 1995 Oct 20;270(5235):484-7). Jedenfalls bieten sich zur Sequenzierung großer tog-Anzahlen eine parallele Sequenzierung oder eine serielle Sequenzierung an.

Ein Verfahren zur parallelen Sequenzierung von tags (Nat. Biotechnol. 2000 Jun;18(6):630-4; Proc. Natl. Acad. Sei. U. S. A. 2000 Feb 15;97(4): 1665-70) besteht darin, kleine Kugeln (Durchmesser ca. 8 μm) mit zu sequenzierender Nukleinsaure auf eine solche Weise zu beschichten, dass jede Kugel zahlreiche Moleküle lediglich einer

Nukleinsäurespezies erhält. Zur Sequenzierung wird dann das Verfahren des "stepwise ligation and cleavage" (USP 5,552,278) eingesetzt, bei dem von einem artifiziellen Adapter aus die zu sequenzierende Nukleinsaure durch Einsatz eines Typ IIs-

Restriktionsenzyms schrittweise abgebaut und dabei ihre Sequenz bestimmt wird. Damit eine Beobachtung und Aufzeichnung des Sequenziervorgangs möglich ist, werden die verwendeten Kugeln in eine flache Küvette eingebracht, die nur wenig höher ist als dem

Kugeldurchmesser entspricht, um die Bildung einer einzelnen Lage zu erlauben. Weiterhin müssen die Kugeln in dichtester Packung in der Küvette vorliegen, damit es während des

Sequenziervorgangs weder durch den erforderlichen Austausch der Reaktionslösungen noch durch Erschütterungen des Geräts zu einer Veränderung der Kugelanordnung kommt. Auf diese Weise lassen sich viele Sequenzierreaktionen (bis zu ca. 1-2 Millionen) auf kleinstem Raum durchführen. Um eine klonale Beladung der Kugeln zu erreichen, wird folgendermaßen vorgegangen: doppelsträngige cDNA wird mit einem häufig schneidenden Restriktionsenzym fragmentiert und die erhaltenen 3 '-Enden werden von cDNA-internen Fragmenten sowie den 5 '-Enden befreit. Im nächsten Schritt wird jedes cDNA-3'- Fragment-Molekül durch Klonierung in einen ein Hybridisierungs-tαg enthaltenden sogenannten tag- Vektor mit einem individuellen, zur Hybridisierung befähigten einzelsträngigen 32mer-Überhang versehen und zusammen mit diesem vervielfältigt. Zur „Beladung" der Kugeln mit cDNA-Fragmenten wird zunächst eine Beschichtung der Kugeln mit ebenfalls 32mer-Oligonukleotiden vorgenommen, so dass über eine kombinatorische Synthese direkt an der Kugeloberfläche jede individuelle Kugel lediglich ein bestimmtes Ohgonukleotid erhält. Beschichtete Kugeln und mit Überhang versehene Oligonukleotide werden dann unter Hybridisierungsbedingungen zusammengegeben, so dass eine klonale Beladung der Kugeln mit jeweils nur einer cDNA-Spezies stattfindet, deren einzelsträngiger Überhang komplementär ist zum Oligonukleotid der jeweiligen Kugel. Die Weiterverarbeitung und Sequenzierung der beladenen Kugeln erfolgt dann wie oben beschrieben. Ein Nachteil des beschriebenen Verfahrens ist aber, dass DNA- Fragmente unterschiedlicher Länge sich in ihrer Hybridisierungskinetik voneinander unterscheiden, was zu einer Unterrepräsentation langer Fragmente gegenüber kürzeren führt. Außerdem setzen derartige Verfahren zur parallelen Sequenzierung spezielle Geräte voraus, was zu einem hohen Preis pro Analyse führt.

Ein alternatives Verfahren zur parallelen t g-Sequenzierung basiert auf der Erzeugung von Zufallsanordnungen sogenannter „klonaler Inseln" amplifizierter DNA auf einer festen Oberfläche (WO 01/48184). Hier werden adaptor-flankierte cDNA-Fragmente mittels oberflächen-gebundener PCR-Primer amplifiziert und die entstandenen DNA-Inseln werden mittels reversibler Abbruchnukleotide sequenziert. Auch dieses Verfahren weist jedoch den Nachteil auf, dass ein längenabhängiger Schritt (die Amplifikation unterschiedlich langer cDNA-Fragmente) zur einer Verschiebung relativer Fragment- Abundanzen und somit zu Fehlern in der Transkript-Quantifizierung führen kann.

Eine serielle tαg-Sequenzierung kann erfolgen, indem kurze DNA-Abschnitte konkatemerisiert werden und die Konkatemere kloniert und sequenziert werden. Es muss dann anschließend mittels Computeranalyse dafür gesorgt werden, dass die zusammenhängenden Sequenzen in Sequenzen der einzelnen DNA-Abschnitte, die tags, zerlegt werden. Beispielsweise beschreiben Velculescu et al. (Science 1995 Oct 20;270(5235):484-7; siehe auch US-A 5,695,937, US-A 5,866,330 sowie US-A 6,383,743) ein "Serial Analysis of Gene Expression" (SAGE) genanntes Verfahren, welches auf der Erzeugung kurzer DNA-Abschnitte mittels Typ IIs-Restriktionsenzyme basiert. Hierzu werden, vergleichbar dem beschriebenen Verfahren nach Brenner et al., zunächst cDNAs mit einem häufig schneidenden Restriktionsenzym fragmentiert und die erhaltenen 3'- Fragmente über die Kopplung an eine feste Phase von den internen Fragmenten befreit. Es wird dann mittels eines Typ IIs-Enzyms, dessen Erkennungsstelle über eine an der festen Phase durchgeführte Adapterligation eingeführt wird, ein kurzes DNA-Fragment freigesetzt.

Die so erhaltenen Fragmente werden zu sogenannten „ditags" dimerisiert, amplifiziert, zur Abtrennung der Adaptoren nachgeschnitten, konkatemerisiert und kloniert, um dann sequenziert zu werden. Die Generation eines "ditags", die dem eigentlichen Konkatemerisierungsschritt vorangeht, dient dabei mehreren Zwecken (Velculescu et al., Science, 270, Seite 485, 1. und 2. Spalte):

1. Zunächst wird durch die Herstellung von ditags sowohl die Punktuation, d.h. die Bestimmung von Anfang und Ende der Nukleinsäure-tαgy, als auch die Orientierung der Nukleinsäure-tαgÄ festgelegt. Ohne die vorherige Generierung von ditags könnte insbesondere die Orientierung der einzelnen tags, die durch Ligationen über glatte Enden ("Hunt ends") konkatemerisiert werden, nicht nachvollzogen werden. Es müßten demnach beide möglichen Orientierungen der einzelnen tags mit den Datenbanksequenzen verglichen werden, was die Wahrscheinlichkeit einer eindeutigen Identifikation der ohnehin recht kurzen tags weiterhin verringert.

2. Die Herstellung von ditags dient außerdem der Detektion von gewissen relativen Häufigkeitsverschiebungen einzelner cDNAs zueinander, die wegen der zahlreichen erforderlichen Einzelschritte des Verfahrens nach dem Stand der Technik, insbesondere während der Schritte der Festphasenkopplung, der PCR-Amplifikation, oder der Klonierung auftreten können (Spalte 2, Zeile 29 bis 33 aus US 5,695,937). Besonders problematisch ist in diesem Zusammenhang, dass insbesondere A/T-reiche tags schon bei Raumtemperatur leicht aufschmelzen können, sich dadurch den weiteren enzymatischen Umsetzungen entziehen und so deutlich unterrepräsentiert werden. Da die Ligation zweier cDNA-t gs zur Generierung eines ditags ein zufälliges Ereignis ist und da die Anzahl an unterschiedlichen cDNA-tags sehr hoch ist, ist davon auszugehen, dass die Wahrscheinlichkeit für das zwei- oder mehrmalige Auftreten des exakt identischen ditags selbst bei sehr abundanten cDNAs recht klein ist. Daher werden in dem in US 5,695,937 beschriebenen Verfahren solche ditags von der Auswertung hinsichtlich des Genexpressionsmusters ausgenommen, die mehrfach wiederholt vorkommen und daher mit großer Wahrscheinlichkeit auf eine der oben beschriebenen relativen Häufigkeitsverschiebungen zurückzuführen sind.

Obwohl die Durchführung von SAGE keine spezielle Apparaturen verlangt und lediglich ein automatischer Sequencer benötigt wird, hat diese Methode eine Reihe von Nachteilen: Die Länge der so erhältlichen Sequenzinformation pro cDNA ist auf die „Reichweite" des eingesetzten Typ IIs-Restriktionsenzyms beschränkt, also auf die Entfernung der Schnittstelle von der Erkennungsstelle des Enzyms. Die am weitesten reichenden kommerziell erhältlichen Typ IIs-Enzyme (Schneidecharakteristik 16/14, also Entferung des Schnitts von der Erkennungsstelle 16 Basen im „oberen" Strang und 14 Basen im „unteren" Strang) haben eine Reichweite von maximal 16 Basenpaaren, wobei es sich bei dem dann entstehenden einzelsträngige Ende um einen nicht auffüllbaren 3 '-Überhang handelt. Da dieser zur Dimerisierung in ein glattes Ende (blunt end) überführt werden muss, müssen die überhängenden Basen entfernt werden, so dass die von einem tag erhältliche Sequenzinformation auf 14 bp reduziert wird. Dies führt häufig zu Ambiguitäten in der Zuordnung einer cDNA bzw. eines Gens zu einem identifizierten tag (siehe oben).

Auch besteht das Verfahren aus sehr vielen Einzelschritten, was sowohl zeitraubend ist als auch die Gefahr vom Experimentator eingeführter Fehler deutlich erhöht. Insbesondere erweist sich die Notwendigkeit, ditags zu erzeugen, als Nachteil, da hierfür zahlreiche weitere Einzelschritte erforderlich sind. Ein weiterer Nachteil der ditags ist die „Kopf- Kopf-Schwanz-Schwarιz"-Struktur der ditags, da hier eine Punktuation nur anhand der _s,anchoring e«zy e"-Erkennungsstellen (also der Kopf-Kopf-Verbindungsstelle) vorgenommen wird. Dort, wo die beiden 3 '-Enden der zunächst einzelnen tags miteinander verbunden wurden, also in der Mitte des ditags, ist keine fag-Grenze mehr erkennbar. Damit sind die „mittleren" Basen eines ditags nicht mehr sicher dem „linken" oder dem „rechten" tag eines ditags zuordenbar, insbesondere dann, wenn durch unpräzisen Schnitt des „tagging enzmye" tags unterschiedlicher Länge erzeugt werden (siehe etwa Abbildung auf S. 51 des Manuals zum „I-SAGE Kit - for construction of SAGE libraries", Version D, Fa. Invitrogen, San Diego, CA). Hierdurch wird die nutzbare Länge der erzeugten tags, also diejenige Länge, die „sichere" Sequenzinformation liefert, weiter eingeschränkt.

Die bekannten Verfahren zur Expressionsanalyse mittels tag-Sequenzierung weisen also einen oder mehrere der folgenden Nachteile auf: - sie basieren auf der Festphasenkopplung unterschiedlich langer Nukleinsäurefragmente, so dass Verschiebungen relativer Abundanzen auftreten;

- sie erfordern eine relativ große Zahl an Einzelschritten, so dass eine erhöhte Fehlerrate auftritt; - sie beinhalten mehrfache Ligation und anschließende Entfernung von Adaptorsequenzen;

- sie erfordern einen Dimerisierungsschritt, um Artefakte in Form von Häufigkeitsverschiebungen identifizieren zu können;

- sie sind nur zur Erzeugung sehr kurzer tags geeignet, so dass oft keine eindeutige Zuordnung eines tags zu einem Gen möglich ist.

Es ist Aufgabe der Erfindung ein Verfahren bereit zu stellen, das die oben beschriebenen Nachteile der Verfahren nach dem Stand der Technik überwindet.

Die erfindungsgemäße Aufgabe wird durch ein Verfahren zur Erzeugung und seriellen Sequenzierung von Nukleinsäure-tags einheitlicher Länge gelöst, wobei in einer ersten Ausfuhrungsform

al. doppelsträngige DNA mit mindestens einer RcgI-ähnlichen Restriktionsendonuklease geschnitten wird, a2. die freigesetzten Nukleinsäure-tαg^ gegebenenfalls isoliert werden, a3. die erhaltenen NuMeinsäure-tagy konkatemerisiert werden, a4. die Konkatemere aus a3 kloniert werden, a5. die Konkatemere seriell sequenziert werden.

Das erfindungsgemäße Verfahren umfasst weiterhin eine zweite Ausfϊihrungsform, wobei

bl. doppelsträngige DNA mit mindestens einer RcgI-ähnlichen Restriktionsendonuklease geschnitten wird, b2. die freigesetzten Nuldeinsäure-tαgy gegebenenfalls isoliert werden, b3. die erhaltenen Nukleinsäure-tags' mit Bindungsstellen für Amplifikationsprimer versehen werden, b4. die mit Primerbindungsstellen versehenen Nukleinsäure-togi' einer Amplifikation unterzogen werden, b5. die amplifizierten Nukleinsäure-tags seriell sequenziert werden.

Das erfindungsgemäße Verfahren umfasst weiterhin eine dritte Ausfuhrungsform, wobei cl. doppelsträngige DNA mit mindestens einer RcgI-ähnlichen

Restriktionsendonuklease geschnitten wird, c2. die freigesetzten Nukleinsäure-tαgs gegebenenfalls isoliert werden, c3. Bindungsstellen für Amplifikationsprimer an die erhaltenen Nukleinsäure-tαgs angefügt werden, c4. die mit Primerbindungsstellen versehenen Nukleinsaure- tags einer

Amplifikation unterzogen werden, c5. mindestens ein Teil der den Bindungsstellen für Amplifikationsprimer entsprechenden Bereiche der Amplifikationsprodukte von den amplifizierten

Nukleinsäure-togs' abgetrennt werden, c6. die Nukleinsäure-t gy aus (c5) konkatemerisiert werden, c7. die Konkatemere aus (c6) seriell sequenziert werden.

Das erfmdimgsgemäße Verfahren umfasst weiterhin eine vierte Ausfuhrungsform, wobei

dl. doppelsträngige DNA mit mindestens einer RcgI-ähnlichen Restriktionsendonuklease geschnitten wird, d2. die freigesetzten Nukleinsäure-tog^ gegebenenfalls isoliert werden, d3. die erhaltenen Nukleinsäure-t gs mit Bindungsstellen für Amplifikationsprimer versehen werden, wobei die Bindungsstellen weiterhin mindestens eine Erkennungsstelle für eine Restriktionsendonuklease enthalten, welche bei Einwirkung auf die in (d4) amplifizierten Nukleinsäure-tagy mindestens einen Teil der Primerbindungsstellen unter Bildung palindromischer Überhänge abtrennt, d4. die mit Primerbindungsstellen versehenen Nukleinsäure-tagy einer Amplifikation unterzogen werden, d5. mindestens ein Teil der den Bindungsstellen für Amplifikationsprimer entsprechenden Bereiche der Amplifikationsprodukte unter Einwirkung der Restriktionsendonuklease aus (d3) von den amplifizierten Nukleinsäure-t gs abgetrennt werden, wobei palindromische Überhänge erzeugt werden, d6. die Nukleinsäure-t gy aus (d5) konkatemerisiert werden, d7. die Konkatemere aus (d6) seriell sequenziert werden.

Das erfϊndungsgemäße Verfahren umfasst weiterhin eine fünfte Ausführungsform, wobei el. doppelsträngige DNA mit mindestens einer Regl-ähnlichen

Restriktionsendonuklease geschnitten wird, e2. die freigesetzten Nukleinsäure-t g-? gegebenenfalls isoliert werden, e3. die erhaltenen Nukleinsäure-tags mit doppelstrangigen DNA- Adaptermolekülen ligiert werden, welche sich auf einer Seite durch einen palindromischen Überhang oder ein glattes Ende und auf der anderen Seite durch einen degenerierten Überhang auszeichnen, wobei der degenerierte Überhang an alle möglichen überhängenden Enden der in el generierten tags ligierbar ist, e4. die Adapter-Enden der Adapter-flankierten Nukleinsäure-tagy phosphoryliert werden und diese Adapter-flankierten Nukleinsäure-tαgs' anschließend über ihre kohäsiven Enden konkatemerisiert werden, e5. die Konkatemere in einen Vektor kloniert werden. e6. die Konkatemere seriell sequenziert werden.

Für die genannten Ausführungsformen des erfindungsgemäßen Verfahrens kann aus den folgenden Gründen auf die Durchfuhrimg eines Dimerisierungsschrittes ("Herstellung eines Ditags") verzichtet werden:

Zum einen ermöglicht die umfassendere Sequenzinformation pro tag, die durch die Herstellung längerer Nukleinsäure-tαg^ einheitlicher Länge erreicht wird, auch dann eine eindeutige Identifikation der einzelnen Nukleinsäuren, wenn die Orientierung der einzelnen Nukleinsäure-tαgs nicht durch den Dimerisierungsschritt definiert ist und daher beide möglichen Orientierungen mit den Datenbanksequenzen abgeglichen werden müssen.

Weiterhin schließlich geht die Erkennungssequenz der jeweils gewählten RcgI-ähnlichen Restriktionsendonuklease bei der tαg-Erzeugung in der Regel nicht verloren, sondern bleibt Bestandteil des tags (vgl. Tabelle 1). Daher ist eine Punktuation bereits durch die Sequenz der erzeugten tags gegeben und braucht nicht durch die zusätzliche Einführung künstlicher Sequenzen vorgenommen zu werden.

Neben dem erheblichen Vorteil, daß durch die Herstellung längerer Nukleinsäure-tagy durch den Einsatz Regl-ähnlicher Restriktionsendonukleasen genügend Sequenzinformation zur eindeutigen Identifikation der jeweiligen cDNAs geliefert wird, hat das erfindungsgemäße Verfahren den zusätzlichen Vorteil, daß sie auf den Verfahrensschritt der Dimerisierung (Herstellung eines Ditags) verzichten kann, was das Verfahren insgesamt schneller, effizienter und weniger fehleranfällig macht.

Unter Rcgl-ähnlichen Restriktionsendonukleasen werden solche Restriktionsendo- nukleasen verstanden, die einen als Substrat dienenden DNA-Doppelstrang an zwei Stellen, beispielsweise beidseitig ihrer Erkennungssequenz, schneiden. Hierfür müssen im Gegensatz zu konventionellen Restriktionsendonukleasen vom Typ II oder IIs, welche einen als Substrat dienenden Doppelstrang an einer Stelle schneiden und hierfür zwei Einzelstrangbrüche katalysieren, vier Einzelstrangbrüche katalysiert werden, so dass ein kurzes Doppelstrang-Fragment definierter Länge (i.d.R. zwischen 20 und 30 bp) freigesetzt wird (Nucleic Acids Res 1993 Feb 25;21(4):987-91; J Biol Chem 1994 Jan 7;269(1):683- 90; Nucleic Acids Res 1996 Sep 15;24(18):3590-2; Nucleic Acids Res 1997 Sep 15;25(18):3687-92; Nucleic Acids Res 1997 Nov 15;25(22):4444-6; Gene 1998 Jun 15;213(l-2):17-22; J Mol Biol 1998 Jun 19;279(4):823-32; einige Beispiele siehe Tabelle 1).

Wird demnach ein komplexes Gemisch aus verschiedenen cDNA-Molekülen, wie es beispielsweise eine aus zellulärer mRNA erhaltene cDNA-Präparation darstellt, mit einer solchen RcgI-ähnlichen Restriktionsendonuklease geschnitten, so erhält man exakt gleich lange Fragmente für alle unterschiedlichen cDNAs, die jeweils für ein kurzes, zur Identifikation der cDNA ausreichendes Nukleinsäure-t g kodieren. Analog wird durch Behandlung genomischer DNA mit einer RcgI-ähnlichen Restriktionsendonuklease eine Anzahl gleich langer Fragmente erzeugt, welche von verschiedenen Bereichen des jeweiligen Genoms stammen. Zu einem analogen Ergebnis gelangt man jedoch auch mit bestimmten Kombinationen („Doppeldaus") von Typ IIs-Restriktionsendonukleasen oder auch einer Typ IIs- Restriktionsendonuklease und einer Typ II-Restriktionsendonuklease, wobei ein solcher Doppeldau mit beiden Enzymen gleichzeitig oder nacheinander durchgeführt werden kann. Beispielsweise kann durch Inkubation von DNA mit den Typ IIs- Restriktionsendonukleasen Mnll (Schneidecharakteristik CCTC(7/6)) und BseRI (Schneidecharakteristik GAGGAG(10/8) bzw., in umgekehrter Orientierung gelesen, (8/10)CTCCTC) ebenfalls ein kurzes Doppelstrang-Fragment (Länge: 22bp zuzügl. einzelsträngiger Überhänge) freigesetzt werden. Unter Typ IIs-Restriktionsendonukleasen werden solche Restriktionsendonukleasen verstanden, die ihr Substrat in einem definierten Abstand (bei derzeit bekannten TypIIs- Enzymen bis zu 20 bp) von der Erkennungsstelle entfernt schneiden. Ähnlich kann die Restriktionsendonuklease Alwl (Schneidecharakteristik GGATC(4/5) bzw., in umgekehrter Orientierung gelesen, (5/4)GATCC) beim Vorliegen der Teilsequenz GGATCC (einer „kombinierten Erkennungsstelle") ein Doppelstrang-Fragment der Länge 12 bp freisetzen, dessen einbasige einzelsträngige Enden sich so auffüllen lassen, dass ein 14 bp-Fragment erhalten wird.

Es ist ebenso möglich, dass eines der beiden Enzyme innerhalb der Erkennungsstelle des anderen Enzyms schneidet, oder beide Enzyme auf der gleichen Seite ihrer kombinierten Erkennungsstelle schneiden. In diesem Fall muss der Doppeldau so durchgeführt werden, dass zunächst das von der kombinierten Erkennungsstelle weiter entfernt schneidende Enzym und danach das andere Enzym zur Anwendung kommt, da anderenfalls mit der Schneidecharakteristik des zweiten Enzyms kein Schnitt mehr erfolgen könnte. So kann man etwa mit einer Kombination der Restriktionsendonukleasen Bsgl (Schneidecharakteristik GTGCAG(16/14)) und Btsl (Schneidecharakteristik GCAGTG(2/0)) die Sequenz GTGCAGTG erkennen und 12 bp lange Doppelstrang- Fragmente erzeugen oder mit einer Kombination der Restriktionsendonukleasen Bpml (Schneidecharakteristik CTGGAG(16/14)) und Bsrl (Schneidecharakteristik ACTGG(1/- 1)) die Sequenz ACTGGAG erkennen und 13 bp lange Doppelstrang-Fragmente generieren. Dementsprechend umfasst der Begriff der „RcgJ-ähnlichen Restriktionsendonukleasen" im Sinne des erfindungsgemäßen Verfahrens ausdrücklich auch solche Enzyme oder Enzymkombinationen, welche beim Vorliegen einer geeigneten, ggf. aus zwei Erkennungstellen kombinierten Erkennungsstelle die Erzeugung von Fragmenten definierter Länge ermöglichen (siehe Tabelle 1).

Tabelle 1 zeigt Beispiele für RcgI-ähnlichen Restriktionsendonukleasen (einschließlich Kombinationen von Typ IIs- bzw. Typ II-Restriktionsendonukleasen), die gemäß dem erfindungsgemäßen Verfahren zur Erzeugung von Nukleinsäure-tags einheitlicher Länge eingesetzt werden können.

Erkennungsseq uenz Enzym Frag esmen , tläng εa —e

(7/12)GAACNNNNNNTCC(12/7) Alol 27 by

(10/15)ACNNNNGTAYC(12/7) Bael 28 bp

(10/12)CGANNNNNNTGC(12/10) Bcgl 32 bp

(8/13)GAGNNNNNCTC( 13/8) BpR 27 bp

(9/12)ACNNNNNCTCC(10/7) BsaXΪ 27 bp

(8/13)GACNNNNNNTGG(12/7) Bsp2Al 27 bp

(8/14)CCANNNNNNGT(15/9) Qel 28 bp

(7/13)CCANNNNNNNTC(14/8) CjeVl 27 bp

(8/13)AAGNNNNNCTT(13/8) FaR 27 bp

(7/13)GAYNNNNNRTC(14/9) HaelY 27 bp

(8/13)GAYNNNNNVTC(13/8) HinAl 27 bp

(7/12)GAACNNNNNCTC(13/8) Ppil 27 bp

(7/12)GAACNNNNNNTAC(12/7) Psrl 27 bp

(8/10)CTCCTC(7/6) Mnll + BseRI 20 bp

(4/3)GGATCC(3/4) Alwl 12 bp (14 bp**)

ACTGGAG(-1/-3)(16/14) Bpml + Bsrl 15 bp

GTGCAGTG(2/0)(14/12) Bsgl + Btsl 10 bp

*) doppelsträngiger Anteil; **) nach Endauffüllung

Tabelle 1: Beispiele für JSc l-ähnliche Restriktionsendonukleasen

Der Hauptvorteil der ungewöhnlichen Fragmentierungscharakteristika der RcgI-ähnlichen Restriktionsendonukleasen im Hinblick auf das erfindungsgemäße Verfahren liegt darin, dass durch RcgI-ähnliche Restriktionsendonuldeasen aus einem Gemisch von cDNA- Molekülen mit völlig unterschiedlicher Nukleotidsequenz Fragmente, Nukleinsäure-tαgy, von exalct gleicher Länge freigesetzt werden können. Zudem ist die Länge dieser Fragmente - je nach Enzym meist zwischen 20 bp und 30 bp - für eine tag-Sequenzierung gut geeignet, da mit der Ermittlung der Sequenz von 20 bis 30 bp pro Nukleinsäure-tαg der Sequenzierungsaufwand relativ gering bleibt, was einen hohen Durchsatz der Methode gewährt, die erhaltene Sequenzinformation aber dennoch ausreicht, um das entsprechende Nukleinsäure-tag durch den Abgleich mit Datenbank-Sequenzen eindeutig zu identifizieren. Dies gilt insbesondere auch für den Vergleich von Nukleinsäure-tog-Sequenzen mit Sequenzen einer anderen Spezies, welcher meist dann durchgeführt wird, wenn für den untersuchten Organismus zu wenig oder gar keine Sequenzinformation vorliegt. Wird beispielsweise unter Verwendung des RcgI-ähnlichen Enzmys HinAl eine Untersuchung mit Material von Zea mays (Mais) drachgefuhrt, sind derzeit für zahlreiche der identifizierten 27 bp langen cDNA-tags keine zugehörigen Datenbankeinträge vorhanden. Statt dessen kann aber ein Vergleich mit cDNA-Sequenzen von Oryza sativa (Reis) erfolgen; da beide Spezies als Mitglieder der Gramineen hohe molekulare Ähnlichkeit aufweisen, fuhrt ein solcher „heterologer" Sequenzvergleich in der Regel zur eindeutigen Zuordenbarkeit der erhaltenen Mais-togs zu den orthologen Reis-Genen, was häufig bereits eine Funktionszuordnung erlaubt. Eine solche eindeutige Zuordenbarkeit wird erst durch die mittels des erfindungsgemäßen Verfahrens erhältlichen langen tags ermöglicht, da hier kleinere Sequenzabweichungen (,,mismatches ) bei der Sequenzuordnung (,,alignmenfⁱ) toleriert werden können. Bei kürzeren (beispielsweise 14 bp langen) Nukleinsaure- togs hingegen, wie sie über das aus dem Stand der Technik bekannte SAGE- Verfahren erhältlich sind, ist der Informationsgehalt zu gering, um trotz Sequenzabweichungen noch eine Zuordnung zu erlauben.

Unter einem Nukleinsäure-tog wird ein kurzes, meist in doppelsträngiger Form vorliegendes Nukleinsäuremolekül verstanden, welches sowohl „glatte" als auch überhängende Enden aufweisen kann. Typischerweise beträgt die Länge eines Nuldeinsäure-tags' mindestens 10 bp. Die im Rahmen dieser Erfindung erzeugten Nukleinsäure-t gs haben bevorzugt eine Länge von mindestens 20 bp, besonders bevorzugt von mindestens 25 bp. Meist übersteigt die Länge eines erfindungsgemäßen Nukleinsäure-togy nicht die Länge von 50 bp. Ein Nukleinsäure-tog wird durch seine Nukleotidsequenz charakterisiert, welche in der Regel die Zuordnung eines Nukleinsäure- tags zu demjenigen cDNA-Molekül bzw. zu demjenigen Gen erlaubt, von welchem es sich ableitet (d.h., aus welchem es ausgeschnitten wurde).

Die optionale Isolation der freigesetzten Nukleinsäure-tog-f bedeutet die Abtrennung der Nukleinsäure-togy von Nukleinsäuremolekülen und/oder Nukleinsäuremolekülfragmenten jeder Art, bei denen es sich nicht um gewünschte Nukleinsäure-tog-? handelt, beispielsweise ungeschnitten gebliebener Nukleinsäuremoleküle, nur teilweise geschnittener Nukleinsäuremoleküle sowie derjeniger Nukleinsäuremolekülfragmente, die sich im Ausgangs-Nukleinsäuremolekül zwischen zwei benachbarten Nukleinsäure-togs befand und welche durch das „Herausschneiden" der tags aus dem Ausgangs- Nukleinsäuremolekül freigesetzt wurden. Eine Isolation freigesetzter Nukleinsäure-togs erfolgt bevorzugterweise durch größenselektive Trennverfahren, insbesondere durch präparative Gelelektrophorese, durch Gelchromatographie oder ein anderes geeignetes Chromatographieverfahren, oder durch größenselektive Fällung. Weitere Einzelheiten zu größenselektiven Trennverfahren sind etwa Ausubel et al., Current Protocols in Molecular Biology, John Wiley and Sons (1987-2001) zu entnehmen.

Die Konkatemerisierung der erhaltenen Nukleinsäure-togy bedeutet eine lineare Aneinanderreihung von Nukleinsäure-togy zu längeren Nukleinsäuremolekülen, Konkatemeren, die beispielsweise aus mindestens 3 Nukleinsäure-togy, bevorzugt aus mindestens 10 Nukleinsäure-togy und besonders bevorzugt aus mindestens 20 Nukleinsäure-togy bestehen. Im Rahmen des erfindungsgemäßen Verfahrens kommt der Orientierung der Nukleinsäure-togy innerhalb eines Konkatemers meist keine besondere Bedeutung zu; so könnten innerhalb eines Konkatemers alle Nukleinsäure-tog-? gleichsinnig orientiert sein (bezogen auf ihre Orientierung innerhalb derjenigen Nukleinsäuremoleküle, aus welchen sie erzeugt wurden), meist werden sie im Konkatemer aber auf zufällige Weise in 5 '—»3 '-Richtung oder in 3 '-»5 '-Richtung orientiert sein.

Die Konkatemerisierung erfolgt in der Regel durch Ligation, meist mittels einer DNA- Ligase. Hierbei muss für eine Ligierbarkeit der Enden der Nukleinsäure-togy Sorge getragen werden. Dies bedeutet neben dem Vorhandensein einer 5 '-Phosphatgruppe an mindestens einem der beiden zu verbindenden Enden insbesondere, dass die Enden zueinander kompatibel sind, also beispielsweise alle glatt („blunt") sind oder zueinander im wesentlichen komplementäre Überhänge aufweisen. Bevorzugterweise sind alle Enden aller zu einer Konkatemerisierung eingesetzten Nukleinsäure-tog-? zueinander kompatibel, obschon es auch möglich ist, dass verschiedene Enden, beispielsweise einzelsträngige Überhänge gleicher Länge, aber häufig verschiedener Sequenz, vorliegen. Ein solcher Fall ist beispielsweise gegeben, wenn mittels der Restriktionsendonuklease RcgI erzeugte Nukleinsäure-togy direkt, also ohne weitere Modifikation, zur Konkatemerisierung eingesetzt werden sollen. Die Nu einsäure-togy weisen in diesem Fall überhängende Enden von zwei Basen Länge auf, für deren Sequenz es 4x4=16 verschiedene Möglichkeiten gibt. Jedes betrachtete Ende dieser Art ist dementsprechend nur mit ca. 1/16 aller anderen Enden kompatibel, was die Ligationskinetik ungünstig beeinflußt. Dies kann allerdings in der Regel durch geeignete Reaktionsführung (hohe Konzentration von Enden, ausreichend lange Reaktionszeit etc.) weitgehend kompensiert werden. Dennoch ist eine Konkatemerisierung bevorzugt, bei der alle eingesetzten Enden zueinander kompatibel sind. Besonders bevorzugt ist eine Konkatemerisierung, bei der die Enden palindromische Überhänge aufweisen, insbesondere zweibasige Überhänge, ausgewählt aus AT, TA, GC oder CG. Solche Überhänge können erzeugt werden, indem wie weiter unten ausgeführt Adapter an die Nukleinsäure-togy angefügt und, nach erfolgter Amplifikation, ein Teil hiervon mittels Restriktionsschnitt wieder entfernt wird. Das hier über die Enden der Nukleinsäure-togy Gesagte gilt selbstverständlich auch dann, wenn die Nukleinsäure-togy mit flankierenden Nukleinsäuremolekülen, beispielsweise mit Bindungsstellen für Amplifikationsprimer, versehen wurden, sowie auch dann, wenn die Nukleinsäure-togy oder die von Bindungsstellen für Amplifikationsprimer flankierten Nukleinsäure-togs weiteren Modifikationen unterworfen wurden. Wichtige Beispiele für solche Modifikationen wären die Entfernung überhängender Enden zu glatten Enden, die Entfernung der vollständigen Bindungsstellen oder eines Teils hiervon, sowie die 5 '-Phosphorylierung zuvor nicht phosphorylierter Adapter, welche ohne 5'- Phosphorylierung nicht mit ihresgleichen ligiert werden könnten.

Unter einer seriellen Sequenzierung wird eine Sequenzierung verstanden, welche die Bestimmung der Sequenz von mehr als einem Nukleinsäure-tog mit einem einzigen Sequenzierungsexperiment bzw. mit einer einzigen Sequenzierungsreaktion erlaubt. Bevorzugterweise wird mit einem Sequenzierungsexperiment bzw. mit einer Sequenzierungsreaktion die Sequenz von mindestens zehn, besonders bevorzugterweise von mindestens fünfzehn oder mindestens zwanzig Nukleinsäure-togy bestimmt. Hierfür werden die zuvor erzeugten Konkatemere in eine ^"zur Sequenzierung geeignete Form überführt. In der Regel bedeutet dies die Erzeugung bakterieller Klone, meist Plasmid- Klone, bei denen die Plasmide die Konkatemere als Insert enthalten. Die Klonierung der erzeugten Konkatemere in hierfür geeignete und geeignet vorbereitete, d.h. beispielsweise auf geeignete Weise linearisierte, Vektoren kann nach dem Stand der Technik erfolgen. Neben den schon älteren Verfahren (vgl. Ausubel et al.) kann selbstverständlich auch jedes neuere Klonierungssystem zur Anwendung kommen, welches für die Klonierung von Nukleinsäuremolekülen einer Länge von meist mehreren hundert Basenpaaren und zur Erzeugung einer für eine Sequenzierung ausreichenden Zahl von Kopien hiervon geeignet sind. Beispiele für modernere Klonierungssystem sind etwa auf Topoisomerase basierende Vektorsysteme. Um im Falle einer Klonierung sicherstellen zu kömien, dass die erhaltenen Klone die gewünschte Zahl oder eine gewünschte Mindestzahl von Nukleinsäure-togy enthalten, sind zwei Maßnahmen denkbar, welche auch beide nacheinander durchgeführt werden können. Erstens kann eine Auswahl derjenigen Konkatemere getroffen werden, welche das gewählte Größenkriterium (also die gewünschte Zahl der enthaltenen Nukleinsäure-tog-?) erfüllt. Dies erfolgt in der Regel über ein größenselektives Trennverfahren (s.o.). Zweitens kann eine Auswahl aus erhaltenen Klonen getroffen werden, wobei die Insert-Größe der betreffenden Klone bestimmt wird. Dies kann beispielsweise durch ein Ausschneiden oder eine PCR-Amplifikation des Inserts mit flankierenden Primern erfolgen, gefolgt von einer Untersuchimg der Insert-Größe beispielsweise über Gelelektrophorese. Es werden dann nur diejenigen Klone zur Sequenzierung zugelassen, welche das gewählte Größenkriterium des Inserts erfüllen. Die Sequenzierung selbst kann auf beliebige Weise erfolgen. Das derzeit am weitesten verbreitete Sequenzierungsverfahren, die Kettenabbruch-Sequenzierung nach Sanger, ist hierfür gut geeignet und erlaubt insbesondere in Verbindung mit modernen Sequenzierungsautomaten einen hohen Durchsatz. Es wären aber auch andere Sequenzierungs verfahren geeignet, vorausgesetzt, sie erlauben eine hinreichend genaue Sequenzbestimmung der zu untersuchenden Nukleinsäure-togy mit hinreichend hohem Durchsatz. Ein Beispiel für ein alternatives Sequenzierverfahren wäre die Sequenzierung mittels Massenspektrometrie, die eine hohe Zahl an Messungen pro Zeiteinheit erlaubt. Bedingt durch die begrenzte Leseweite dieses Verfahrens wäre hier allerdings meist auf eine vorangehende Konkatemerisierung zu verzichten. Auch wäre es erforderlich, eine Strangtrennung vorzunehmen und lediglich jeweils einen Strang eines Nukleinsäure-togy zur Sequenzierung einzusetzen.

Bei den Bindungsstellen für Amplifikationsprimer, Primerbindungsstellen, handelt es sich meist um mindestens teilweise doppelsträngige Adapter (manchmal auch als „Linker" bezeichnet), also DNA-Moleküle einer Länge von in der Regel mindestens 5 bp, bevorzugt mindestens 15 bp, welche leicht durch die Hybridisierung zueinander mindestens teilweise komplementärer Oligonukleotide zugänglich sind. Neben dem doppelstrangigen Anteil können die Adapter auch ein- oder beidseitig einzelsträngige Überhänge aufweisen. In der Regel ist eines der beiden Enden eines Adapters derart gestaltet, dass es zu einem oder beiden Enden der Nukleinsäure-togy kompatibel ist, also glatt ist, wenn diese glatt sind, oder, wenn diese einen Überhang aufweisen, ebenfalls die Form eines einzelsträngigen und zum tog-Überhang komplementären Überhangs annimmt. Das zweite Ende eines Adapters ist in der Regel derart gestaltet, dass es weder zu sich selbst noch zu Enden der Nukleinsäure-togy kompatibel ist, also während der Anfügung der Adapter an die Enden der Nukleinsäure-tog-? an keiner Anfügung teilnimmt.

Die Adapter können an einer oder beiden enthaltenen 5 '-Positionen phosphoryliert sein, um im Zuge der Befestigung an den Nukleinsäure-togs zu gewährleisten, dass beide Stränge des Adapters mit dem Nukleinsäure-tog kovalent verbunden werden. Es ist allerdings bevorzugt, dass unphosphorylierte Adapter eingesetzt werden, so dass eine Bildung von Adapter-Dimeren verhindert wird, welche anschließend wieder abgetrennt werden müßten. Werden unphosphorylierte Adapter eingesetzt und wird eine anschließende Amplifikation durch PCR vorgenommen, so muss vor Beginn der PCR der nicht kovalent gebundene Adapterstrang durch Polymerase-vermittelte Extension des betreffenden Nukleinsäure-tog-Strangs komplementär zum kovalent gebundenen Adapter- Gegenstrang verlängert werden, um eine unter Denaturierungsbedingungen nicht abdissoziierende Primerbindungsstelle zu erzeugen. In jedem Fall erfolgt die Anfügung der Adapter über geeignete Mittel wie insbesondere durch enzymatische Ligation. Es ist sowohl möglich, zur Anfügung eine Sorte von Adapter einzusetzen, wie auch, mehrere, beispielsweise zwei verschiedene, Sorten von Adapter einzusetzen. In ersterem Fall werden die Nukleinsäure-tog-? von identischen Adaptern in Form selbstkomplementärer „inverted repeats umgeben, was während einer PCR- Amplifikation durch Einzelstrang- Rückfaltung ungünstigen Einfluß auf die Amplifikationseffizienz haben kann. Werden hingegen zwei verschiedene Sorten Adapter in identischer Konzentration zur Anfügung eingesetzt, so kann eine solche Rückfaltung vermieden werden. Weisen die Nukleinsäure- togy unterschiedliche Enden auf und ist eine Sorte Adapter nur zur Befestigung an einem Ende und die andere Sorte Adapter nur zur Befestigung am anderen Ende befähigt, werden keine zur Rückfaltung neigenden Moleküle erzeugt. Sind die beiden Enden der Nukleinsäure-togs hingegen identisch und werden zwei Sorten Adapter eingesetzt, welche beide an besagten Enden befestigt werden können, so wird nach erfolgter Anfügung etwa die Hälfte der Nukleinsäure-tαgs „asymmetrisch" durch zwei verschiedene Adapter flankiert sein. Während einer Amplifikation, zu der zwei verschiedene Primer eingesetzt werden, von denen einer an die eine Primerbindungsstelle („Adapter 1") und der andere an die andere Primerbindungsstelle („Adapter 2") binden kann, so werden diejenigen Nukleinsäure-togs wesentlich stärker amplifiziert, welche asymmetrisch flankiert sind, während die Amplifikation symmetrisch flankierter Nukleinsäure-togy stark unterdrückt wird.

Die Amplifikation der Nukleinsäure-tags erfolgt in einer bevorzugten Ausfuhrungsform mittels PCR, wobei Primer eingesetzt werden, die im wesentlichen komplementär zu einem Strang der oben beschriebenen Adapter, Primerbindungsstellen, sind. Es wären aber auch andere nicht-isothermale oder isothermale Amplifikationsverfahren einsetzbar; die Funktion bzw. der genaue Aufbau der Adapter würde sich dann nach dem gewählten Verfahren richten. Soll die Amplifikation beispielsweise mittels einer RNA-Polymerase erfolgen, so würde mindestens einer der beiden ein Nukleinsäure-tog flankierenden Adapter eine Promotorsequenz für diese RNA-Polymerase aufweisen, es würde sich demnach nicht mehr oder zumindest nicht mehr ausschließlich um eine Primerbindungsstelle, sondern um einen Promotor handeln. Ziel der Abtrennung mindestens eines Teils der den Bindungsstellen für Amplifikationsprimer entsprechenden Bereiche der Amplifikationsprodukte ist die Reduktion der Amplifikationsprodukte auf die für den Einsatz zur Sequenzierung gewünschte Länge, da es in der Regel nicht erwünscht ist, die bereits bekannte Adaptersequenz oder Adaptersequenzen erneut zu sequenzieren. Bevorzugterweise erfolgt diese Abtrennung mittels einer Restriktionsendonuklease, deren Erkennungsstelle Bestandteil der Adaptersequenz ist. In einer besonders bevorzugten Ausfuhrungsform handelt es sich um eine Restriktionsendonuklease, deren Erkennungsstelle mit einer möglichst geringen Wahrscheinlichkeit im jeweiligen Nukleinsäure-tog auftritt. Es ist weiterhin bevorzugt, dass der Schnitt mit dieser Restriktionsendonuklease einen palindromischen Überhang erzeugt, welcher die nachfolgende Konkatemerisierung begünstigt. Bei der auf die serielle Sequenzierung folgenden „Zerlegung" der erhaltenen Konkatemer-Sequenzen in die Sequenzen einzelner Nukleinsäure-tog^? kann ein solches Palindrom dann - neben der Erkennungsstelle der jeweiligen zur Nukleinsäure-tog- Erzeugung verwendeten RcgI-ähnlichen Restriktionsendonuklease, zur zusätzlichen Punktuation dienen und markiert die Grenze zwischen zwei im Konkatemer benachbarten bzw. aufeinanderfolgenden Nukleinsäure-togy.

Obwohl der Schnitt in der Regel innerhalb des Adapters erfolgen soll, ist es nicht ausgeschlossen, eine Restriktionsendonuklease vom Typ IIs einzusetzen, deren Erkennungsstelle im Adapter enthalten ist, welche aber innerhalb des Nukleinsäure-tags schneidet. Eine solche Vorgehensweise würde erlauben, Nukleinsäure-togs vor ihrer Konkatemerisierung um ein gewünschtes Maß zu kürzen.

Im folgenden werden die einzelnen Schritte der Ausführungsform (a) näher erläutert:

al. Doppelsträngige DNA wird einem Restriktionsverdau bzw. Mehrfachdau mit einer oder mehreren RcgI-ähnlichen Restriktionsendonukleasen unterworfen zur Herstellung identisch langer Fragmente (Nukleinsäure-togy).

Als doppelsträngige DNA wird hierbei bevorzugt eine cDNA-Präparation eingesetzt, die nach Standardverfahren durch das Umschreiben von Gesamt-RNA oder von n RNA mittels reverser Transkriptase, gefolgt von einer Synthese des cDNA- Zweitstrangs, hergestellt wird. Die Gesamt-RNA oder mRNA wird hierbei vorher nach einer dem Fachmann bekannten Standardmethode aus einer Zelle, einem Zellverband oder einem Gewebe isoliert.

Bevorzugterweise wird bei der cDNA-Synthese ein random priming (Einsatz kurzer Oligonukleotidprimer mit Zufallssequenz) gewählt, um eine Unterrepräsentation von 5 '-Bereichen sehr langer mRNAs (beispielsweise mehr als 5000 Basen) zu vermeiden, wie sie bei einem Einsatz von oligo(dT)-Primern auftreten könnte. Bezüglich weiterer Details der cDNA-Synthese wird verwiesen auf Ausubel et al., Current Protocols in Molecular Biology. Wird eine solche cDNA-Präparation mit einer oder mehreren Ecgl-ähnlichen Restriktionsendonukleasen geschnitten, so ergibt sich eine Bibliothek von Nukleinsäure-togy einheitlicher Länge, die das Genexpressionsmuster der Zelle, des Zellverbands oder des Gewebes wiederspiegeln.

In einer bevorzugten Ausführungsform handelt es sich bei der RcgI-ähnlichen Restriktionsendonuklease um eine Endonuklease, deren Erkennungssequenz eine große Wahrscheinlichkeit aufweist, in einem gegebenen Transkript mindestens einmal aufzutreten, wobei auch eine gleichzeitige oder aufeinanderfolgende Inkubation mit zwei oder mehr verschiedenen Restriktionsendonukleasen durchgeführt werden kann. Mit Transkript ist hier ein mRNA-Molekül nach seiner Überführung in doppelsträngige cDNA gemeint, wobei außer Acht gelassen werden soll, dass die im

Zuge einer cDNA-Synthese (insbesondere bei der Durchführung eines random priming) tatsächlich entstehenden Moleküle kürzer sein können als das ursprüngliche mRNA-Molekül. Beispiele für solche häufig schneidenden RcgI-ähnlichen Restriktionsendonukleasen sind Cjel, CjePl, HaelV oder HinAl (siehe Tabelle 1).

a2. Die optionale Isolierung der freigesetzten Nukleinsäure-togs erfolgt bevorzugt durch ein auf der Größenselektionierung von DNA-Fragmenten beruhendes Trennverfahren und dient dazu, die beispielsweise beim Restriktionsverdau erzeugten Nebenprodukte anderer Größe zu entfernen, welche die Regionen zwischen zwei verschiedenen Erkennungsstellen der jeweils eingesetzten RcgI-ähnlichen Restriktionsendonuklease repräsentieren. Hierfür können die üblichen dem Fachmann bekannten Isolationsund/oder Trennverfahren für Nukleinsäurefragmente unterschiedlicher Größe zur Anwendung kommen, beispielsweise präparative Gelelektrophorese, Gelchromatographie oder größenselektive Präzipitation. Sofern gewünscht, kann die Isolierung der freigesetzten Nukleinsäure-togs auch entfallen.

a3. Die erhaltenen Nukleinsäure-togs werden konkatemerisiert, indem überhängende (kohäsive) Enden der Nukleinsäure-togs entweder direkt miteinander verbunden werden oder indem die überhängenden Enden zunächst in glatte Enden überfuhrt werden und die Nukleinsäure-togy anschließend über ihre glatten Enden aneinandergefügt werden. Eine Überführung überhängender Enden in glatte Enden ist aus dem Stand der Technik bekannt und kann mittels geeigneter Enzyme erfolgen, beispielsweise durch exonukleolytischen Abbau oder eine Auffüllung in 5'-→θ'- Richtung.

a4. Zur seriellen Sequenzierung werden diejenigen Konkatemere, die eine gewünschte Mindestgröße aufweisen, zunächst von zu kleinen und gegebenenfalls zu großen

Konkatemeren abgetrennt und in einen Plasmidvektor kloniert. Die Größenselektion von Konkatemeren erfolgt meist über präparative Agarosegelelektrophorese oder auch durch größenselektive Fällung. Wurde die Konkatemerisierung von Nukleinsäure-togs mit glatten Enden vorgenommen, so sind die Enden der Konkatemere ebenfalls glatt, und auch der Klonierungsvektor wird so linearisiert, dass er glatte Enden besitzt. Im

Falle überhängender Enden der Nukleinsäure-togs werden die Enden der Konkatemere in der Regel in glatte Enden überführt, bevor eine Klonierung erfolgt. Die

Sequenzierung erfolgt dann bevorzugt nach aus dem Stand der Technik bekannte

Weise, indem von jedem der zu sequenzierenden Klone eine Plasmidpräparation angefertigt wird und dann, meist nach erneuter Linearisierung des Plasmids, eine

Primerextension unter Anwesenheit von Didesoxy-Abbruchnukleotiden vorgenommen wird. Die Analyse der Sequenzierreaktionen erfolgt üblicherweise mittels automatischer Sequenzierungsgeräte, wie sie etwa von den Firmen Applied

Biosystems oder Amersham Pharmacia angeboten werden.

Besonders bevorzugte Ausfuhrungsformen des erfindungsgemäßen Verfahrens liegen darin, dass aus einem Nukleinsäure-Gemisch wie beispielsweise einer cDNA-Präparation zwei verschiedene (oder auch mehrere verschiedene) Nukleinsäure-tog-Bibliotheken mit jeweils identisch langen Nukleinsäure-togs unter Einsatz von zwei verschiedenen (oder auch mehreren verschiedenen) RcgI-ähnlichen Restriktionsendonukleasen hergestellt werden. Unter einer Nukleinsäure-tog-Bibliothek wird eine Kollektion von in einem oder mehreren geeigneten Vektoren enthaltenen Konkatemeren von NuWeinsäure-togs verstanden. Eine Nukleinsäure-tog-Bibliothek könnte also auch als Konkatemer-Bibliothek bezeichnet werden.

Diese aus dem gleichen Nukleinsäure-Gemisch jeweils mit einer individuellen Bcgl- ähnlichen Restriktionsendonuklease erzeugten Nukleinsäure-tog-Bibliotheken werden anschließend unabhängig voneinander jeweils einer seriellen Sequenzierung unterworfen.

Aus den unterschiedlichen tog-Bibliotheken werden so - unabhängig voneinander - Sequenzdaten gewonnen, die einander ergänzen. Durch die Herstellung und Auswertung von mehreren tog-Bibliotheken, die mit unterschiedlichen RcgI-ähnlichen Restriktionsendonukleasen hergestellt wurden, ist auszuschließen, dass einzelne Sorten von cDNA-Molekülen deshalb nicht von dem erfindungsgemäßen Verfahren erfaßt werden, weil sie über keine Erkennungsstelle der eingesetzten Rcgl-ähnlichen Restrilctionsendonuklease verfugen und Nukleinsäure-togs dieser cDNAs daher nicht in der resultierenden tog-Bibliothek vertreten sind.

Durch die Kombination zweier (oder mehrerer) tog-Bibliotheken, die mit unterschiedlichen RcgI-ähnlichen Restriktionsendonukleasen generiert wurden, ist die Wahrscheinlichkeit, dass alle im ursprünglichen cDNA-Gemisch vertretenen cDNAs mehrere, zumindest aber eine, Erkennungsstelle für die verwendeten RcgI-ähnlichen Restriktionsendonukleasen besitzen und damit von mehreren, zumindest aber von einer, tog-Bibliothek erfaßt werden, sehr hoch. So ergab eine Datenbanksuche beispielsweise, dass 84% aller derzeit (August 2001) öffentlich zugänglichen Maus-cDNAs mindestens eine Schnittstelle für mindestens eine der Restriktionsendonukleasen Bael, Bcgl, BpR, BsdXl oder BsplAl enthalten, während 99,2% aller Maus-cDNAs mindestens eine Schnittstelle für mindestens eines der Enzyme aus der Liste Bael, Bcgl, BpR, BsdXl, Bsp2Al, Cjel oder ^'ePI tragen.

Ein weiterer Vorteil liegt darin, dass die Datensätze hinsichtlich der Quantifizierung der einzelnen cDNA-togs, die von zwei oder mehreren tog-Bibliotheken erfaßt werden, zudem miteinander verglichen und damit verifiziert bzw. zum Erhalt genauerer Daten gemittelt werden können.

Zur Analyse der gemäß dem erfindungsgemäßen Verfahren erzeugten tog-Bibliotheken, welche bevorzugterweise rechnergestützt erfolgt, kann folgendermaßen vorgegangen werden: Zunächst werden die Sequenz-Rohdaten auf geeignete Weise bearbeitet, so dass die gesamte erhaltene Sequenzinformation in eine Kollektion einzelner Nukleinsäure-tog- Sequenzen überfuhrt wird. Hierzu müssen zunächst die einzelnen Nukleinsäure-tog- Sequenzen aus den erhaltenen Konkatemersequenzen extrahiert werden. Hierbei kann man sich der in den Nukleinsäure-togs erhalten gebliebenen Erkennungsstellen der jeweiligen RcgI-ähnlichen Restriktionsendonuklease bedienen: Die Konkatemersequenz wird auf die entsprechende Erkennungssequenz durchsucht (z.B. für Itael ACNNNNGTAYC bzw. das reverse Komplement hierzu; vgl. Tabelle 1). Dann wird die jeweilige Nukleinsäure-tog- Sequenz rekonstruiert, indem die der Schneidecharakteristik des zur Nukleinsäure-tog- Erzeugung eingesetzten Enzyms entsprechende Zahl von Basen stromabwärts und stromaufwärts an die Erkennungssequenz angefügt wird, beispielsweise für Bael 10 Basen stromabwärts und 7 Basen stromaufwärts, was dem jeweils doppelstrangigen Bereich einer Rαel-Signatur entspricht. Findet man also beispielsweise als Teilbereich einer Konkatemersequenz die folgende Basenabfolge (R el-Erkennungssequenz in Fettdruck und unterstrichen):

so würde die hierin vollständig enthaltene Nukleinsäure-tog-Sequenz

ACTCGGAGTGACCTCCGTATCCAGGACA

lauten. Dies wird nun für alle in einem Konkatemer enthaltenen Nukleinsäure-tog- Sequenzen diLrchgeführt und analog mit allen sequenzierten Konkatemeren wiederholt. Alternativ oder zusätzlich hierzu kann auch bei einer Durchführung des Verfahrens gemäß Ausfuhrungsform (c) bis (e) eine Punktuation mittels der eingeführten Adapter vorgenommen werden, indem ein Nukleinsäure-tog als die zwischen zwei Adaptern liegende Sequenz definiert wird, wobei gegebenenfalls die ersten bzw. die letzen zu einem Nukleinsäure-tog gehörigen Basen, welche unmittelbar nach Behandlung der Ausgangs- DNA in Form eines einzelsträngigen Überhangs vorlagen, unberücksichtigt gelassen werden, um durch Ligation nicht perfekt zueinander komplementärer Überhänge bei der Adapterbefestigung möglicherweise eingeführte Sequenzfehler zu eliminieren. Hierbei muss der Adapter selbstverständlich nicht vollständig im Konkatemer enthalten sein, sondern es reicht eine kurze Teilsequenz. Besonders bevorzugt ist hier, den Adapter in Schritt (c5) bzw. (d5) bis auf einen kurzen, zwei- oder vierbasigen palindromischen Überhang vom Nukleinsäure-tog abzuschneiden, welcher sowohl die Konkatemerisierung begünstigt als auch zur Punktuation eingesetzt werden kann, wobei andererseits aber nur ein Minimum an „tog-fremder" Sequenz in die Konkatemere eingebracht wird.

In jedem Fall werden die durch serielle Sequenzierung erhaltenen Nukleinsäure-togs aufgelistet, und es wird ermittelt, wie häufig jedes einzelne der Nukleinsäure-tog-? sequenziert wurde. Da aufgrund der vorteilhaften Länge der nach dem erfindungsgemäßen Verfahren erzeugten Nukleinsäure-tog-? kleinere Sequenzierfehler (z.B. 1-2 Basen pro tag) toleriert werden, ohne dass eine Fehlzuordnung eines Nukleinsäure-tog-? zu einem falschen Gen zu befürchten ist, können, sofern gewünscht, bei der Auflistung der Nukleinsäure-togs sequenzähnliche Nukleinsäure-tog-?, die sich beispielsweise in maximal einer oder in maximal zwei Basen voneinander unterscheiden, zu einem „ cluster " zusammengefaßt und gemeinsam gezählt werden. Schließlich werden die erhaltenen Nukleinsäure-tog-? bzw. die erhaltenen cluster für eine Datenbankabfrage eingesetzt, die der Identifikation des jeweilig zu einem gegebenen Nukleinsäure-tog gehörigen Transkripts bzw. Gens dient. Eine hierfür einsetzbare Software ist beispielsweise das in Fachkreisen allgemein bekannte Programm BLAST. Da das erfindungsgemäße Verfahren eine hohe Linearität über einen großen Bereich aufweist, läßt sich aus der relativen Häufigkeit eines tags bzw. eines clusters auf die Expressionsstärke, d.h. auf die Abundanz der mRNA des zugehörigen Gens schließen: die von Transkripten hoher Abundanz stammenden Nukleinsäure-tog-? weisen eine höhere relative Häufigkeit als jene Nukleinsäure-tog-?, welche Transkripte niedrigerer Abundanz repräsentieren.

Ein überraschender Vorteil des erfindungsgemäßen Verfahrens gegenüber SAGE ergibt sich aus der Tatsache, dass mit einer einzigen RcgI-ähnlichen Restriktionsendonuklease mehrere verschiedene Nukleinsäure-tog-? aus ein und demselben cDNA-Molekül gewonnen werden können. Dies hat zur Folge, dass mittels des erfindungsgemäßen Verfahrens erstmals systematische Untersuchungen des Transkriptoms auf differentielles Splicing vorgenommen werden können, da bei hinreichender „Schneidehäufigkeit" insbesondere längere, aus mehreren Exons zusammengesetzte Transkripte mehrfach „abgefragt" werden, so dass sich differentielles Splicing in unterschiedlichen Häufigkeiten verschiedener, von der selben cDNA abgeleiteter Nukleinsäure-togs bemerkbar machen kann.

Dementsprechend ist weiterer Gegenstand der vorliegenden Erfindung der Einsatz des erfindungsgemäßen Verfahrens zur Untersuchung des Splicing-Status von Transkriptomen sowie von differentiellem Splicing.

Auf die beschriebene Weise wird also von dem untersuchten biologischen Material, beispielsweise einer Zellkultur oder einem Gewebe, ein Katalog der exprimierten Gene bzw. der zugehörigen Transkripte, ggf. einschließlich vorhandener Spleißvarianten, erstellt. Ein solcher Katalog enthält neben der Auflistung der aktiven Gene auch Angaben über die jeweilige Expressionsstärke. Daher können entsprechende Expressionskataloge verschiedener biologischer Materialien, beispielsweise einer Zellkultur vor und nach Behandlung mit einer toxischen Substanz, miteinander verglichen werden und somit differentiell exprimierte Gene anhand ihrer in verschiedenen Proben unterschiedlichen relativen Nukleinsäure-tog-Häufigkeit erkannt werden.

Auch aus genomischer DNA können mittels des erfindungsgemäßen Verfahrens Nukleinsäure-togy erzeugt werden. Beispielsweise erkennt die Restriktionsendonuklease RcgI DNA mit einem durchschnittlichen G/C-Gehalt im Mittel etwa alle 2 kb; dementsprechend würde humane genomische DNA ca. 1,5 Millionen Erkennungsstellen aufweisen, so dass ein vollständiger Verdau mit diesem Enzym die gleiche Zahl an verschiedenen tags gleicher Länge erzeugen würde. Diese tags, welche sich mit einem einzigen oder einigen wenigen Parallelsequenzierungsexperimenten identifizienen lassen, sind zufällig und damit weitgehend gleichmäßig über das Genom verteilt. Somit eignet sich das erfindungsgemäße Verfahren neben der Expressionsanalyse auch zum Vergleich von Genomen, beispielsweise zur Identifikation von Polymorphismen wie beispielsweise SNPs oder zur Identifikation von Deletionen. Da die Häufigkeit von SNPs ca. 1/1000 bp beträgt, würden sich durch Vergleich verschiedener Genome mittels des erfindungsgemäßen Verfahrens und der Restriktionsendonuklease Bcgl 1.500.000 x 32 = 48.000.000 individuelle genomische Positionen erfassen lassen, welche ca. 48.000 SNPs enthielten. Eine solche Kollektion von SNPs ließe sich nach dem Fachmann bekannten Verfahren zu Kartierungszwecken etc. einsetzen.

Weiterer Gegenstand der vorliegenden Erfindung ist ein Reagenzienkit zur DwcMuhrung des erfindungsgemäßen Verfahrens. Ein solcher Reagenzienkit enthält in einer bevorzugten Ausführungsform folgende Reagenzien:

1. Reagenzien zur Herstellung von Erststrang-cDNA, ausgewählt aus der Gruppe aus (i) oligo(dT)-Primer, (ii) random primer, (iii) mindestens eine Reverse

Transkriptase, (iv) dNTPs (Desoxynukleotid-Triphosphate dATP, dCTP, dGTP, sowie dTTP), (v) Reaktionspuffer, (vi) RNAse-Inhibitor, (vii) Dithiothreitol oder Dithioerythrol, (viii) Kontroll-RNA, (ix) RNase-freies Wasser

2. Reagenzien zur Herstellung von Zweitstrang-cDNA, ausgewählt aus der Gruppe aus (i) DNA-Polymerase, (ii) RNase H, (iii) DNA-Ligase, (iv) Reaktionspuffer,

(v) dNTPs, (vi) steriles Wasser

3. Mindestens eine RcgI-ähnliche Restriktionsendonuklease sowie Reaktionspuffer und gegebenenfalls sonstige Reagenzien, die sich günstig auf die Aktivität der Restriktionsendonuklease oder Restriktionsendonukleasen auswirken, insbesondere BSA (Rinderserumalbumin), S-Adenosylmethionin etc.

4. Mittel zur Konkatemerisierung der Nukleinsäure-togy oder der amplifizierten Nukleinsäure-tog-?, insbesondere umfassend (i) DNA-Ligase und (ii) Reaktionspuffer

Besonders geeignete Komponenten eines solchen Kits umfassen außerdem zur Befestigung an den Enden der Nukleinsäure-tog-? geeignete Adapter-Moleküle (Primerbindungsstellen) und Reagenzien zur Verknüpfung der Adapter-Moleküle mit den Enden der Nukleinsaure- tags, insbesondere umfassend (i) DNA-Ligase, (ii) Reaktionspuffer und (iii) gewünschtenfalls sonstige Reagenzien, welche sich günstig auf den Verlauf der Verknüpfung auswirken, insbesondere Polyethylenglycol, Hexammincobalt(III)chlorid etc. In diesem Zusammenhang kann das Kit auch Mittel zur Amplifikation der Adapter- flankierten Nukleinsäure-tog-?, insbesondere Reagenzien zur PCR-Amplifikation, ausgewählt aus der Gruppe (i) thermostabile DNA-Polymerase, (ii) Amplifikationsprimer, (iii) dNTPs sowie gewünschtenfalls modifizierte dNTPs wie etwa Methyl-dCTP oder Methyl-dATP, (iv) Reaktionspuffer, (v) Additive wie beispielsweise DMSO, Glycerol, Gelatine, Tetramethylammoniumchlorid etc. enthalten, sowie Mittel zur Entfernung mindestens eines Teils der Adapter, insbesondere umfassend (i) mindestens eine Restriktionsendonuklease und (ii) Reaktionspuffer.

Vorteilhaft für die Verwendung eines solchen Kits ist es außerdem, wenn das Kit Mittel zur Isolation von RNA und/oder zur Isolation von mRNA, die dem Fachmann bekannt sind, enthält. Darüber hinaus kann das Kit Nukleinsäure-tog-? zur Diffchführung von Kontrollexperimenten und Mittel zur Modifikation der Enden der Nukleinsäure-tog-?, ausgewählt aus (i) mindestens einer Exonuklease, (ii) mindestens eine Polymerase, (iii) Reaktionspuffer, (iv) sonstige Reagenzien, welche zur Modifikation der Enden mittels Exonuklease oder Polymerase erforderlich sind, wie beispielsweise dNTPs zur Endauffüllung mittels einer Polymerase, enthalten.

In dem Kit enthalten sind gegebenenfalls Mittel zur Nukleinsäurereinigung, umfassend, aber nicht beschränkt auf (i) Chromatographiesäulen, beispielsweise basierend auf dem Prinzip des Ionenaustauschs, (ii) Mikrokonzentratoren (beispielsweise Microcon- Mikrokonzentratoren der Fa. Millipore, Bedford, MA), (iii) Fällungsreagenzien wie etwa Ethanol, Isopropanol, Polyethylenglycol, (iv) zur Fällung von Nukleinsäuremolekülen zuzusetzende Salzlösungen wie wässrige Lösungen von Natriumacetat, Ammoniumacetat, Lithiumchlorid etc., (v) als Fällungshilfe einsetzbare Reagenzien wie Glycogen oder lineares Polyacrylamid, (vi) Mittel zur Größenselektion von Nukleinsäuremolekülen, (vii) Puffer-gesättigtes Phenol, (viii) Chloroform, (ix) eine Phenol-Chloroform-Mischung.

Vorteilhaft sind außerdem Mittel zur Klonierung der Konkatemere, insbesondere umfassend (i) mindestens einen Plasmid- Vektor, welcher in bereits linearisierter Form vorliegen kann, (ii) Kontroll-DNA, (iii) Mittel zur Befestigung der Konkatemere an den Enden des linearisierten Vektors, (iv) kompetente Zellen, (v) weitere Reagenzien zur Durchführung von Transformationen kompetenter Zellen mit dem Konkatemer enthaltenden Vektor, sowie gegebenenfalls ein Datenträger, enthaltend mindestens ein Computerprogramm zur Auswertung der bei der seriellen Sequenzierung erhaltenen Konkatemer-Sequenzen, insbesondere zur Zerlegung der Konkatemer-Sequenzen in die Sequenzen einzelner Nukleinsäure-tog-? sowie gewünschtenfalls zum Aufbau einer Datenbank, welche die erhaltenen Informationen über Sequenz und Häufigkeit der einzelnen Nukleinsäure-tog-? enthält.

In einer besonders bevorzugten Ausfuhrungsform handelt es sich bei der BcgI-ähnlichen Restriktionsendonuklease um eine oder mehrere Restriktionsendonukleasen, ausgewählt aus der Gruppe ^'el, ePI, H elV und HinAl.

In einer weiteren Ausführungsform enthält der Reagenzienkit neben obigen Bestandteilen Reagenzien zur Sequenzbestimmung der Monierten Konkatemere.

Die Erfindung wird durch in den Figuren 1 bis 5 näher erläutert.

Es zeigt

Fig. 1 die Konkatemerisierung mittels Bcgl generierter tags zur seriellen Sequenzierung

Fig. 2 die Erzeugung von H I-generierten Nukleinsäure-togy zur seriellen Sequenzierung

Fig. 3 die direkte Konkatemerisierung von RcgI-generierten Nukleinsäure-tog-? zur seriellen Sequenzierung

Fig. 4 die direkte Konkatemerisierung von RcgI-generierten Nukleinsäure-tog-? zur seriellen Sequenzierung nach Erzeugung glatter Enden

Fig. 5 die Konkatemerisierung von RcgI-generierten Nukleinsäure-togy zur seriellen Sequenzierung mittels kurzer Adaptoren

Fig. 1 zeigt die Konkatemerisierung mittels Bcgl generierter tags zur seriellen Sequenzierung, wobei im einzelnen

1) die Behandlung doppelsträngiger cDNA mit der Restriktionsendonuklease Bcgl sowie die Isolation der so erzeugten RcgI-generierten tags, 2) die Entfernung überhängender Enden der in (1) erhaltenen RcgI-generierten togy,

3) die Anfügung von Adaptern an die Enden der tags,

4) die Amplifikation der Adapter-flankierten tags,

5) die Entfernung eines Teils der Adapterbereiche unter Ausbildung palindromischer Überhänge,

6) die Konkatemerisierung der tags,

7) die serielle Sequenzierung der Konkatemere

wiedergibt.

Fig. 2 zeigt die Erzeugung von H ^I-generierten tags zur seriellen Sequenzierung, wobei

1. die Behandlung doppelsträngiger cDNA mit der Restriktionsendonuklease H 4I sowie die Isolation der so erzeugten Hz^'«4I-generierten tags, 2. die Entfernung der 3 '-überhängenden Enden unter Erzeugung von glatten Enden, wobei die Position der 3'-OΗ-Gruppen sowie der 5 '-Phosphat-Gruppen eingezeichnet ist,

3. die Verknüpfung der Nukleinsäure-tog-? mit Adaptern, welche ein glattes (ligierbares) sowie ein überhängendes, nicht an die glatten Enden der tags ligierbares Ende aufweisen und wobei die Position der 3 '-OH-Gruppen sowie der

5 '-OH-Gruppen eingezeichnet ist und wobei ferner angezeigt ist, an welchen Stellen Stränge kovalent miteinander verknüpft wurden ("ligated") und an welchen Stellen Stränge nicht kovalent miteinander verknüpft wurden ("nick"),

4. die Entfernung der nicht kovalent mit den Nukleinsäure-tog-? verknüpften Adapterstränge durch "Abschmelzen",

5. die Auffüllung der zurückversetzten 3 '-Enden mittels einer DNA-Polymerase,

6. die Amplifikation der adapterflankierten Nukleinsäure-tags mittels PCR,

7. die Abtrennung eines Teils der Adapter durch Restriktionsverdau mit einer Restriktionsendonuklease, welche einen palindromischen Überhang innerhalb der Adapterregion erzeugt,

8. die Entfernung der abgetrennten Adapter,

9. die Konkatemerisierung, gefolgt von einer seriellen Sequenzierung

darstellt.

Fig. 3 zeigt die direkte Konkatemerisierung von RcgI-generierter tags zur seriellen Sequenzierung, wobei im einzelnen 8) die Behandlung doppelsträngiger cDNA mit der Restriktionsendonuklease RcgI sowie die Isolation der so erzeugten RcgI-generierten togy,

9) die Konkatemerisierung der in (1) erhaltenen RcgI-generierten tags, 10) die Klonierung der so hergestellten Konkatemere,

11) die serielle Sequenzierung der Konkatemere

wiedergibt.

Fig. 4 stellt die direkte Konkatemerisierung von RcgI-generierten togy zur seriellen Sequenzierung nach Erzeugung glatter Enden dar, wobei

1) die Behandlung doppelsträngiger cDNA mit der Restriktionsendonuklease RcgI sowie die Isolation der so erzeugten Bcgl-tags, 2) die Entfernung überhängender Enden,

3) die Konkatemerisierung der in (2) erhaltenen Bcgl-tags mit glatten Enden,

4) die Klonierung der Konkatemere,

5) die serielle Sequenzierung der Konkatemere

darstellt.

Fig. 5 zeigt die Konkatemerisierung von Ucgl-generierten tags zur seriellen Sequenzierung mittels kurzer Adaptoren. Im einzelnen zeigt

1) die Behandlung doppelsträngiger cDNA mit der Restriktionsendonuklease RcgI sowie die Isolation der so erzeugten RcgI-generierten tags,

2) das Anfügen von Adaptermolekülen, welche sich durch einen palindromischen sowie einen degenerierten Überhang auszeichnen, wobei der degenerierte Überhang (schraffiert dargestellt) an alle möglichen überhängenden Enden der RcgI-generierten tags ligierbar ist,

3) die Phosphorylierung und anschließende Konkatemerisierung der in (2) erhaltenen Adapter-flankierten Bcgl-tags,

4) die Klonierung der Konkatemere,

5) die serielle Sequenzierung der Konkatemere.

Im folgenden wird das erfindungsgemäße Verfahren durch Beispiele erläutert: Beispiel 1:

Herstellung doppelsträngiger cDNA

Gemäß dem RNeasy-Protokoll (Qiagen GmbH, Hilden) wurde RNA aus Rattenleber isoliert. 50 μg Gesamt-RNA wurde mittels 200 U Superscript II Reverser Transkriptase (Life Technologies) und des cDNA-Primers CP28V (5'-ACC TAG GTG CAG ATT TTT TTT TTT TTT TV-3') in Erststrang-cDNA überführt (vgl. Ausubel et al., Current Protocols in Molecular Biology, Unit 5.5.6-5.5.8). Nach erfolgter Erststrang-Synthese (lh bei 42°C) wurde mit 60 U DNA Polmerase I (NEB, Schwalbach) und 1,8 U RNase H (Promega, Madison, WI, USA) in doppelsträngige cDNA überführt. Die so gewonnene cDNA wurde mit Phenol, dann mit Chloroform extrahiert, mit Ethanol gefällt und in Wasser gelöst.

Beispiel 2:

Gewinnung von Hz^'π4I-Nukleinsäure-tog-?

2 μg poly(A)+ RNA wurden unter Einsatz von random primern mittels Superscript Reverser Transkriptase in Erststrang-cDNA überführt und durch Zugabe von E.coli DNA- Polymerase, E.coli DNA-Ligase und RNase Η zur Synthese doppelsträngiger cDNA eingesetzt. Die cDNA wurde nach Phenol/Chloroform-Extraktion sowie Efhanolfällung einer Restriktion durch die Restriktionsendonuklease HinAl unterworfen. Nach Ablauf der Inkubationszeit wurde auf Eis abgekühlt, es wurden T4 DNA-Polymerase sowie alle 4 dNTPs zugegeben und zur Entfernung der überhängenden Enden bei 11°C inkubiert. Es wurde erneut mit Phenol und mit Chloroform extrahiert, gefällt und in einem Ligationsansatz aufgenommen, welcher einen molaren Überschuß an Adaptermolekülen aufwies. Die Adaptermoleküle wiesen ein glattes Ende, einen nicht-palindromischen Überhang am gegenüberliegenden Ende sowie eine Erkennungsstelle für die Restriktionsendonuklease Ecil auf. Nach erfolgter Ligation wurde direkt im 10-fachen Volumen eines PCR-Ansatzes verdünnt und ein Temperaturprogramm angewendet, bestehend aus einer initialen Adapterdenaturierung und Auffüllreaktion (50°C), gefolgt von 30 Zyklen eines Programms bestehend aus Denaturierung bei 95°C, Annealing bei 50°C und Extension bei 63°C. Nach beendeter Amplifikation wurde eine Restriktion mit Ecil vorgenommen, wobei die Adaptersequenzen bis auf einen kurzen palindromischen Überhang (vom tag aus gesehen den "ersten" beiden Adapterbasen) abgetrennt wurden. Nukleinsäure-togy wurden von abgetrennten Adaptern durch präparative Gelelektrophorese befreit und zur Konkatemerisierung eingesetzt. Die Konkatemere wurden nach Selektion aller Moleküle mit einer Mindestlänge von 500 bp zur Klonierung eingesetzt und anschließend seriell sequenziert.

Beispiel 3:

Serielle Sequenzierung von Rcgl-generierten tags

Die in Beispiel 1 gewonnene doppelsträngige cDNA wurde in 45 μl 1 x Rcgl- Restriktionspuffer/20 μM S-Adenosylmethionin (NEB) aufgenommen, mit 10 U RcgI versetzt und 1,5 h bei 37°C geschnitten. Die Reaktionen wurden mit Phenol, dann mit Chloroform extrahiert, mit Ethanol gefallt und in 13 μl NEbuffer 2 (NEB) gelöst. Nach Zugabe von 2 μl Gelladepuffer (20 mM Tris-HCl pH 7,9/2 mM EDTA/50% Glycerol/0,25% Bromphenolblau) wurde zur tog-Isolation neben einer 25 bp-Leiter als Längenstandard auf ein 20%-Polyacrylamidgel geladen (vgl. Current Protocols in Molecular Biology, Unit 2.7). Elektrophorese wurde bei einer Spannung von 2V/cm durchgeführt und abgebrochen, sobald die Bromphenolblau-Front die Gelunterkante erreicht hatte. Die Apparatur wurde zerlegt, das Gel 30 min. mit Ethidiumbromid-Lösung angefärbt, 10 min. entfärbt und auf einem Transilluminator die die freigesetzten Rcgl- Fragmente enthaltende 30 bp-Bande ausgeschnitten. Das erhaltene Polyacrylamid- Stückchen wurde durch mehrfaches Aufziehen durch eine Einwegspritze zerkleinert, mit TE-Puffer überschichtet und 3 h eluiert. Anschließend wurde abzentrifugiert und der Überstand mit Ethanol gefällt. Die Fragmente wurden in 5 μl eines Rapid DNA Ligation- Ansatzes (Röche) gelöst und 4 h bei Raumtemperatur konkatemerisiert. Es wurde mit Wasser auf 100 μl aufgefüllt, mit Phenol und Chloroform extrahiert und mit Ethanol gefällt. Das Pellet wurde in 50 μl 1 x T4-Polymerasepuffer mit 100 μM dNTPs gelöst und nach Zugabe von 2 U T4 DNA-Polymerase für 20 min. bei 12°C inkubiert. Die Reaktion wurde mit EDTA abgestoppt, mit Phenol/Chloroform extrahiert und mit Ethanol gefallt. Die nunmehr glatte Enden tragenden Konkatemere wurden in mit EcoRV linearisierten dephosphorylierten Vektor pBluescript II (Stratagene, Amsterdam, Niederlande) kloniert. Gemäß blau-weiß-Selektionierung auf IPTG/X-Gal-Platten positive Klone wurden mittels eines ABI 3700 Sequencers gemäß Herstellerangaben sequenziert.

Claims

Patentansprüche

1. Verfahren zur Erzeugung und seriellen Sequenzierung von Nukleinsäure-togy einheitlicher Länge, gekennzeichnet durch die folgenden Schritte:

al. Schneiden doppelsträngiger DNA mit mindestens einer RcgI-ähnlichen

Restriktionsendonuklease, a2. gegebenenfalls Isolation der freigesetzten Nukleinsäure-togy, a3. Konkatemerisierung der erhaltenen Nukleinsäure-togy, a4. Klonierung der Konkatemere aus a3 a5. serielle Sequenzierung der Konkatemere.

2. Verfahren zur Erzeugung und seriellen Sequenzierung von Nukleinsäure-tog-? einheitlicher Länge, gekennzeichnet durch die folgenden Schritte:

bl. Schneiden doppelsträngiger DNA mit mindestens einer RcgI-ähnlichen

Restriktionsendonuklease, b2. gegebenenfalls Isolation der freigesetzten Nukleinsäure-togy, b3. Anfügen von Bindungsstellen für Amplifikationsprimer an die erhaltenen

Nukleinsäure-tog,?, b4. Amplifikation der mit Primerbindungsstellen verknüpften Nukleinsäure- tog-?, b5. serielle Sequenzierung der amplifizierten Nukleinsäure-togy.

3. Verfahren zur Erzeugung und seriellen Sequenzierung von Nukleinsäure-togs einheitlicher Länge, gekennzeichnet durch die folgenden Schritte:

cl. Schneiden doppelsträngiger DNA mit mindestens einer Rcgl-ähnlichen Restriktionsendonuklease, c2. gegebenenfalls Isolation der freigesetzten Nukleinsäure-togs, c3. Verknüpfen der erhaltenen Nukleinsäure-tog-? mit Bindungsstellen für Amplifikationsprimer, c4. Amplifikation der mit Primerbindungsstellen versehenen Nukleinsäure- tags, c5. Abtrennung mindestens eines Teils der den Bindungsstellen für Amplifikationsprimer entsprechenden Bereiche der

Amplifikationsprodukte von den amplifizierten Nukleinsäure-tog-?, c6. Konkatemerisierung der Nukleinsäure-togs aus (c5), c7. serielle Sequenzierung der Konkatemere aus (c6).

4. Verfahren zur Erzeugung und seriellen Sequenzierung von Nukleinsäure-togs einheitlicher Länge, gekennzeichnet durch die folgenden Schritte:

dl. Schneiden doppelsträngiger DNA mit mindestens einer RcgI-ähnlichen

Restriktionsendonuklease, d2. gegebenenfalls Isolation der freigesetzten Nukleinsäure-tog-?, d3. Verknüpfung der erhaltenen Nukleinsäure-togs mit Bindungsstellen für Amplifikationsprimer, wobei die Bindungsstellen weiterhin mindestens eine Erkennungsstelle für eine Restriktionsendonuklease enthalten, welche bei Einwirkung auf die in (d4) amplifizierten Nukleinsäure-tog-? mindestens einen Teil der Primerbindungsstellen unter Bildung palindromischer Überhänge abtrennt, d4. Amplifikation der mit Primerbindungsstellen versehenen Nukleinsäure- tags, d5. Abtrennung mindestens eines Teils der den Bindungsstellen für

Amplifikationsprimer entsprechenden Bereiche der

Amplifikationsprodukte unter Einwirkung der Restriktionsendonuklease aus (d3) von den amplifizierten Nukleinsäure-tog-?, wobei palindromische • Überhänge erzeugt werden, d6. Konkatemerisierung der Nukleinsäure-tog-? aus (d5), d7. serielle Sequenzierung der Konkatemere aus (d6).

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass aus einem Nukleinsäure-Gemisch jeweils mindestens zwei verschiedene tog-Bibliotheken mit identisch langen Nukleinsäure-Fragmenten unter Einsatz von mindestens zwei verschiedenen RcgI-ähnlichen Restriktionsendonukleasen hergestellt werden.

6. Verfahren nach Anspruch 1 bis 5, dadurch gekennzeichnet, dass die mittels Schnitt mit RcgI-ähnlichen Restriktionsendonukleasen erhaltenen Nukleinsäure-togs direkt über die Ligation ihrer überhängenden Enden konkatemerisiert werden.

7. Verfahren nach Anspruch 1 bis 6, dadurch gekennzeichnet, dass die überhängenden Enden der mittels Schnitt mit RcgI-ähnlichen Restriktionsendonukleasen erhaltenen Nukleinsäure-togs zunächst in glatte Enden überführt werden und anschließend die Konkatemerisierung durch Ligation dieser glatten Enden der Nukleinsäure-tog-? erfolgt.

8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass aus einem Nukleinsäure-Gemisch jeweils mindestens zwei verschiedene tog-Konkatemer- Bibliotheken mit identisch langen Fragmenten unter Einsatz von mindestens zwei verschiedenen RcgI-ähnlichen Restriktionsendonukleasen hergestellt werden.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die verwendete RcgI-ähnliche Restriktionsendonuklease ausgewählt ist aus der Gruppe Bael, Bcgl, Bp , BsaXl, Bsp2Al, Cjel, CjeVl, HaelV, HinAl.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die verwendete Bcgl- ähnliche Restriktionsendonuklease eine Typ IIs Restriktionsendonuklease, insbesondere Alwl, ist.

11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass die verwendeten Rcgl-ähnlichen Restriktionsendonukleasen eine Kombination aus zwei Typ IIs

Restriktionsendonukleasen oder aus einer Typ II- und einer Typ IIs-

Restriktionsendonuklease, insbesondere ausgewählt aus der Gruppe MnR, ÄseRI,

Bpml, Bsrl, Bsgl und Btsl, sind.

12. Verfahren gemäß einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass als doppelsträngige DNA cDNA oder genomische DNA eingesetzt wird.

13. Verfahren gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es zur Expressionsanalyse eingesetzt wird.

14. Verfahren gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es für die Analyse von differentieilem Splicing eingesetzt wird.

15. Verfahren gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es zum Vergleich von Genomen eingesetzt wird.

16. Verfahren gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es zur Verwendung zur Identifikation von Sequenzpolymorphismen, insbesondere zur Identifikation von SNPs eingesetzt wird.

17. Nukleinsäure-Bibliothek, erhältlich nach den Verfahren gemäß einem der Ansprüche 1 bis 16.

18. Reagenzienkit zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 16, enthaltend: (a) Reagenzien zur Herstellung von Erststrang-cDNA, ausgewählt aus der Gruppe aus

(i) oligo(dT)-Primer, (ii) random primer, (iii) mindestens eine Reverse Transkriptase, (iv) dNTPs (Desoxynukleotid-Triphosphate dATP, dCTP, dGTP, sowie dTTP), (v) Reaktionspuffer, (vi) RNAse-Inhibitor, (vii) Dithiothreitol oder Dithioerythrol, (viii) Kontroll-RNA, (ix) RNase-freies Wasser (b)Reagenzien zur Herstellung von Zweitstrang-cDNA, ausgewählt aus der Gruppe aus (i) DNA-Polymerase, (ii) RNase H, (iii) DNA-Ligase, (iv) Reaktionspuffer, (v) dNTPs, (vi) steriles Wasser

(c) Mindestens eine RcgI-ähnliche Restriktionsendonuklease sowie Reaktionspuffer und gegebenenfalls sonstige Reagenzien, die sich günstig auf die Aktivität der Restriktionsendonuklease oder Restriktionsendonukleasen auswirken, insbesondere BSA (Rinderserumalbumin), S-Adenosylmethionin etc.

(d) Mittel zur Konkatemerisierung der Nukleinsäure-tog-? oder der amplifizierten Nukleinsäure-tog-?, insbesondere umfassend (i) DNA-Ligase und (ii) Reaktionspuffer