Verfah ren zu r Mu ltiplex-Sequenzieru ng
Ein Verfahren zur Multiplex Sequenzierung wird offenbart, mit dem in einem einzelnen Reaktionsgefäß komplexe Gemische von Nukleinsäuren sequenziert werden können.
Hintergrund der Erfindung
Die Identifizierung eines Organismus oder Teile eines Organismus wie von Plasmiden oder Transposons in einem Mikroorganismus ist für verschiedene Bereiche der Wissenschaften ein erster wesentlicher Schritt, der die weitere Vorgehensweise bestimmt. Beispielsweise erlaubt erst die medizinische mikrobiologische Diagnostik, d. h. die Identifizierung des verursachenden Pathogens, eine pathogenspezifische Therapie, die oftmals weniger belastend für den Patienten ist. Auch medizinische epidemiologische Überwachungen beispielsweise von Organismen mit Antibiotikaresistenz erfordern die Identifikation von Organismen mit bestimmten Plasmiden. Weiterhin erlaubt die umweltbiologische Diagnostik, wie sie zur Beurteilung der Gewässergüte durchgeführt wird, Rückschlüsse auf Kontaminationsquellen. In der Lebensmitteldiagnostik können ebenfalls durch die konkrete Identifizierung von kontaminierenden Organism en Kontaminationsquellen eingekreist werden; zur Beurteilung von Habitaten, auf dem Land und im Wasser müssen ebenfalls die vorkommenden Organismen identifiziert und quantifiziert werden. Ein weiteres Einsatzfeld ist die Bestimmung von exprimierten Genen in normalen oder krankhaft veränderten Geweben, bei denen durch die quantitative und qualitative Analyse exprim ierter messenger RNA (m RNA) auf die Ursache und den Ablauf der Krankheit geschlossen werden kann.
Eine möglichst schnelle und genaue Identifizierung ist wünschenswert in den oben beispielhaft genannten Anwendungsbereichen. Neben der Kultivierung von Organismen, insbesondere Mikroorganismen, bieten sich hierzu molekularbiologische Verfahren wie Hybridisierungsverfahren, z. B. Microarrays, auf PCR basierende Amplifikations- und Signalverstärkungsverfahren und Sequenzierung an.
Durch die Kultivierung von Mikroorganismen wird oftmals nur ein unvollständiges Bild aller in einer Probe enthaltenen Mikroorganismen gewonnen, da die Kultivierungsbedingungen nicht optimal für alle präsenten Organismen sind. Diese Methode ist m it verschiedenen Nachteilen behaftet und somit ungeeignet für Routineidentifikationen.
I m Vergleich zu der Kultivierung von Mikroorganismen sind die auf Nukleinsäurehybridisierung beruhenden Verfahren schneller, genauer und umfassender. Man unterscheidet zwischen quantitativen „slot-" oder „dot-blot"- Hybridisierungen, wobei die isolierte gesamte DNA oder RNA eines Organismus mit einer Sonde oder einer Vielzahl an Sonden, die auf einem Träger fixiert sind, hybridisiert wird. Alternativ dazu werden ganze Zellen in situ hybridisiert. Diese Verfahren sind der Kultivierung von Organismen in vielen Aspekten überlegen. Dennoch sind diese Verfahren nicht optimal, da sie zum Teil kostenaufwendig sind, insbesondere für die Microarray Verfahren, die darüber hinaus auch mit dem Problem der Kreuzhybridisierung belastet sind (die Kreuzhybridisierung stellt ein besonders großes Problem dar bei der Analyse von nah verwandten Organismen.)
Auf PCR (Saiki et al. Science 239, 487 ( 1988)) basierende Verfahren gehören mittlerweile zu den Standardverfahren in der molekularen Diagnostik. Durchgesetzt haben sich diese Verfahren insbesondere wegen ihrer Schnelligkeit, relativ einfachen Handhabung und relativ einfachen Analyse der Ergebnisse. Man unterscheidet zwischen qualitativen und quantitativen PCR- Verfahren. Insbesondere die qualitativen PCR- Verfahren überzeugen wegen ihrer Einfachheit und Kosteneffizienz, leiden aber an dem Vorkommen sogenannter „falsch/negativer" oder „falsch/positiver" Ergebnisse. Dies erfordert, dass ein mittels qualitativer PCR erhaltenes erstes Ergebnis durch weitere Testverfahren bestätigt werden m uss, was wiederum zu vermehrten Kosten führt. Bei sowohl qualitativen wie auch quantitativen PCR-Verfahren sind die ersten Amplifikationsrunden für die Genauigkeit und Zuverlässigkeit der Ergebnisse entscheidend. Sind die Primer schlecht gewählt, sind der Puffer oder die Temperatur suboptimal oder stehen Enzyme oder NTPs nicht ausreichend zur Verfügung, verläuft die PCR- Reaktion nicht optimal, und die Ergebnisse werden
fragwürdig und/oder unklar, insbesondere durch das Auftreten von unechten Amplifikationsprodukten. Die Anzahl der potentiellen Fehlerquellen vergrößert sich noch bei sogenannten Multiplex PCR- Verfahren (z. B. WO 01 /88174) , wobei sim ultan verschiedene Ziel Sequenzen in einer einzigen PCR- Reaktion am plifiziert werden. Dafür müssen mehrere Primerpaare eingesetzt werden, was mit der Bildung von Prim erdimeren einhergeht und zu unechten Amplifikationsprodukten führt. Auf PCR basierende Verfahren alleine erlauben also nicht immer die vorbehaltslose Identifikation von Organismen oder Teilen von Organismen.
Den „Goldstandard" für die akkurate Identifizierung von Organismen setzt alleine die Sequenzierung des genetischen Materials eines Organismus. Dabei wird die Nukleinsäuresequenz eines Teils des genetischen Materials eines Organismus bestimmt. Seit 1975 wurden mehrere Methoden zur raschen Sequenzierung langer DNA- Abschnitte entwickelt. Dabei sind die Methoden der chemischen DNA- Spaltung, entwickelt von Allan Maxam and Walter Gilbert (Maxam, A. M., Gilbert, W., Methods in Enzymology, Vol. LXV, 499 - 560, Academic Press, New York( 1980)) , und das Kettenabbruchsverfahren von Frederick Sanger (Sanger et al. PNAS 74, 5463 (1977)) die Pioniermethoden, die vielerlei Abwandlungen erfahren haben (E.D. Hyman, Anal. Biochem . 174, 423 (1988) ; A. Rosenthal, US 4,849,077; M.L Metzker et al., Nucleic Acids. Res. 22, 4259 (1994) ; D.H. Jones, Biotechniques 22, 938 (1997)) .
Bei dem Kettenabbruchsverfahren kommen verschiedene Polymerasen zum Einsatz; ursprünglich wurde das Enzym DNA Polymerase I aus £. coli verwendet, mittlerweile gibt es modifizierte/optimierte £ coli DNA Polymerase I und auch thermostabile Polymerasen, die geeignet sind, von der zu sequenzierenden einzelsträngigen DNA eine komplementäre Kopie zu generieren. Dabei müssen ein geeigneter Primer, die vier Desoxyribonukleoisdtriphosphate (dNTP) und eine kleine Menge eines Kettenabbruchmoleküls wie 2', 3'
Didesoxyribonucleosidtriphosphat (ddNTP) Analoga zur Verfügung stehen sowie die neu entstehenden kopierten Fragmente auf irgendeine Art und Weise, z. B. radioaktiv oder fluoreszierende Gruppen, markiert werden. Bei diesem Verfahren m üssen je zu sequenzierender Sequenz vier Sequenzierungsreaktionen angesetzt werden, wobei jedes Reaktionsgemisch alle vier dNTPS enthält und jeweils eine Art von ddNTP. Durch die Verwendung geringer Mengen an
Kettenabbruchsmolekülen, ddNTPs, wird ein Satz verkürzter Ketten synthetisiert, die jeweils an der Stelle abbrechen, an der ein Kettenabbruchsmolekül anstelle eines normalen dNTPs eingebaut wurde. Durch die statistische I nkorporation der ddNTPs in die wachsende Kette entstehen DNA- Kettenfragmente, die sich jeweils in ihrer Länge um eine Nukleotid unterscheiden. Mittels Elektrophorese, z. B. auf Polyacrylamid Gelen (die dann Sequenzierungsgele genannt werden), werden die Fragmente ihrer Länge nach getrennt. Dabei werden die vier Reaktionsgem ische auch jeweils in eine eigene Spur aufgetragen, so dass sich je zu sequenzierenden DNA- Molekül vier Spuren auf dem Sequenzierungsgel befinden.
Heute benutzte automatisierte DNA-Sequenzierungsverfahren wie das „Cycle Sequencing" (Murray, V. Nucleic Acids Res. 17, 8889 ( 1989) verwenden mit fluoreszierenden Gruppen markierte ddNTPs („dye terminators") (WO 9720949) , wobei während der elektophoretischen Trennung die markierten Fragmente sofort detektiert werden und das eingebaute Nukleotid erkannt wird, was das direkte Ablesen der Sequenz erlaubt (L.M. Smith et al. Nature 321 , 674 (1 986) ; W. Ansorge et al., J. Biochem . Biophys. Meth. 13, 315 (1986)) . Durch die Verwendung von unterschiedlich Fluoreszenz markierten ddNTPs wird es dann möglich alle vier Einzelsequenzreaktionen in einer einzelnen Gelspur, oder Elektrophorese- Kapillare nachzuweisen. Zudem wird durch das Cycle Sequencing auch eine Amplifizierung des Signals erreicht, was es erlaubt die Konzentration der zu sequenzierenden Matrizen DNA zu reduzieren.
Eine relativ neues Sequenzierverfahren ist die Pyrosequenzierung (M. Ronaghi et al. Anal. Biochem . 242, 84 ( 1996) ; WO 93/23564; WO 89/09283) . Dieses Verfahren bedarf nicht mehr der ddNTPS. Statt dessen wird die Pyrophosphat- (PPi)- Freisetzung während des Polymerase- katalysierten dNTPs- Einbaus (Kettenverlängerung) indirekt gemessen. Das freigesetzte PPi wird durch eine Sulfyrase in ATP umgewandelt, und das ATP dient dann als Substrat für eine Leuchtkäfer ( Photinus pyralis) Luciferase, wodurch ein sichtbares/messbares Lichtsignal entsteht. Das Lichtsignal ist z. B. messbar durch eine PMT- Einheit und wird in einem „pyogram™" dargestellt. Bei der Pyrosequenzierung kommen mindestens drei Enzyme zum Einsatz, nämlich eine Polymerase, eine Sulfyrase und eine Luciferase, und - wie auch bei den anderen Sequenzierungsverfahren - eine Matrize, ein Primer und dNTPs. Bei abgewandelten (Ronaghi et al. Science
281 , 5375 ( 1998) ; WO 98/28440) , automatisierten Pyrosequenzierungsverfahren (siehe www.pyrosequencing.com) ist noch zusätzlich ein Nukleotid- degradierendes Enzym , eine Apyrase, im Reaktionsgemisch vorhanden, die kontinuierlich nicht eingebaute Nukleotide abbaut. Weiterhin kann dATP durch ein alpha-thio Triphosphate (dATP S) ersetzt sein, da dieses Nukleotid zwar von der DNA Polymerase effizient genutzt wird, nicht aber von der Luciferase.
Bei der Pyrosequenzierung wird in einem ersten Schritt ein Primer an eine einzelsträngige, ggf. PCR-amplifizierte DNA- Matrize angelagert und zusammen mit den Enzymen (DNA- Polymerase, ATP- Sulfyrase, Luciferase und Apyrase) und den Substarten Adenosin 5' phosphosulfate (APS) und Luciferin inkubiert. In einem zweiten Schritt werden die vier dNTPS zugegeben, wobei die Mixtur statt dATP dATPαS enthält. Die DNA- Polymerase katalysiert den Einbau eines dNTPs, der komplementär zu der Base des Matrizenstranges ist. Dabei wird PPi equim olar zu der eingebauten Menge an dem Nukleotid freigesetzt. In einem dritten Schritt, wandelt in Anwesenheit von APS die ATP- Sulfyrase das PPi in ATP um . Das ATP wiederum dient als Substrat der Luciferase und liefert die Energie für die Umwandlung des Luciferins zu Oxyluciferin , wobei ein Lichtsignal entsteht und dessen I ntensität proportional zu der Menge an ATP ist. Das Licht wir mit einer PMT- Einheit detektiert und ist als Zacken (peak) in einem Pyrogram™ dargestellt. Jedes Lichtsignal ist proportional zu der Anzahl an eingebauten Nukleotiden. In einem vierten Schritt baut das Enzym Apyrase die nichteingebauten Nukleotide und überschüssiges ATP ab. Erst nach vollständigem Abbau aller Nukleotide wird ein neues dNTP der Reaktion zugeführt. Die Zugabe eines neuen Nukleotids ist der fünfte Schritt in diesem Verfahren, wobei jedes Nukleotid einzeln zugeführt wird, um bei Einbau sofort das Lichtsignal dem zugeführten Nukleotid zuordnen zu können.
Eine Vielzahl verschiedener Sequenziertechniken stehen somit dem Fachmann zur Verfügung. Allen gleich ist bislang, dass die zu sequenzierende Sequenz isoliert und aufgereinigt werden muss, bevor mit der eigentlichen Sequenzierung begonnen werden kann. Die Sequenzierung von Gem ischen von verschiedenen Nukleinsäuren, was allgemein als Multiplex-Sequenzierung beschrieben wird, erfordert andere Verfahren.
Ein Schritt in Richtung Multiplex-Sequenzierung ist in WO 02/04674 beschrieben. Hierin wird ein Verfahren zur automatischen Transposon-vermittelten Multiplex- DNA- Sequenzierung (TEMS) von in Vektoren befindlichen DNA- Fragmenten beschrieben. Charakteristisch für dieses Verfahren ist als erster Verfahrensschritt das Mischen („Pooling") einer großen Anzahl der Ziel- DNA tragenden Vektoren in einem Reaktionsgefäß und die zufällige I ntegration von Transposons in diese Vektoren. Die Transposons enthalten Sequenzen die komplementär sind zu den zu benutzenden Primern der Sequenzierungsreaktion. Zweiter Verfahrensschritt sind PCR- Reaktionen zur Identifikation solcher positiver Vektoren, die eine Transposon in die Ziel-DNA integriert haben. Als dritter und finaler Verfahrensschritt folgt die Sequenzierung einzelner positiver Vektoren, wobei für jeden Vektor individuelle Sequenzierreaktionen angesetzt werden müssen. Dieses Verfahren ist somit kein Multiplex Sequenzierverfahren im eigentlichen Sinne, denn es werden keine Gemische von Nukleinsäuren sequenziert, sondern aufgereinigte Vektor- DNA.
WO 03/056030 und die dazugehörige wissenschaftliche Veröffentlichung von K. Murpy and J.R. Eshleman (American Journal of Pathology 161 , 27 (2002)) beschreiben ein „echtes" Multiplex Sequenzierungsverfahren; dieses Verfahren erlaubt die Sequenzierung und Analyse verschiedene DNAs, insbesondere verschiedene PCR- Fragmente, innerhalb eines Reaktionsgefäßes. Das Verfahren basiert auf dem Einsatz mehrerer besonderer Primer, wovon alle außer einem sich durch das Vorkommen von langen Bereichen nicht zur Matrize komplementärer Basen auszeichnen; diese Primer sind dadurch ungewöhnlich lang. Die entstehenden Produkte unterscheiden sich entsprechend der Primer, m it denen sie sequenziert wurden, und eine Längenzuordnung wird so möglich. Das in WO 03/056030 beschriebene Verfahren bedarf besonderer Primer, die das gesamte Verfahren kostspielig m achen. Zudem ist es auf eine geringe Anzahl parallel zu sequenzierender Matrizen beschränkt.
Auch die Pyrosequenzierung hat sich bereits bei verschiedenen Anwendungen bewiesen. O'Meara et al. (J. Clin. Microbiol. 39: 464-473 (2001 )) beschreibt ein Echtzeit- Pyrosequenzierungsassay zur Detektion von Resistenzmutationen in dem pol Gen von HIV. Es wird somit nur ein einziges Gen eines einzigen Organismus analysiert.
Agaton et al. (Gene 289 : 31 -39 (2002)) verwenden die Pyrosequenzierung zur Sequenzbestimmung kurzer Tag Sequenzen. Die Tag Sequenzen wurden aus einer THP- 1 Zellen cDNA Bibliothek gewonnen, und die gewonnene Sequenzinformation abgeglichen mit einer Datenbank. Genau wie bei O'Meara wird auch bei Agaton et al. keine kom plexe Mixtur von bekannten Nucleinsäuren analysiert, sondern lediglich kurze Fragmente die nur aus einer einzigen Zelle stammen.
Dies trifft ebenfalls auf Pourmand et al. ((Nucleic Acid Research 30, e31 (2002)) zu. I n dieser Veröffentlichung wird eine Echtzeit-Pyrosequenzierungsmethode die in Mikrotiterplatten durchgeführt wird und parallele multiple SNP- Analyse erlaubt, offenbart. Die Analyse beschränkte sich dabei auf ein einziges Gen von HCV, das aber mittels dreier verschiedener Primer analysiert wurde. Es liegt somit keine Mixtur der zu sequenzierenden Nukleinsäuren vor, sondern es wird lediglich ein Gemisch an Sequenzierungsendprodukten erhalten.
Sivertsson et al. (Clinical Chemistry 48: 2164-2170 (2002)) beschreibt die Verwendung einer Pyrosequenzierungsmethode als Alternative zur Einzelstrang Konformations- Polymorphism us Analyse von Mutationen in dem N-ras Gen. Es werden zwei Am plifikate des N-ras Gens mit einer Länge von je 103 bzw. 136 Basenpaaren der Pyrosequenzierung unterzogen. Bei diesem Verfahren wird somit ebenfalls nicht ein kom plexes Nukleinsäuregemisch analysiert.
WO 03/074737 offenbart im Wesentlichen eine Standardanwendung der Pyrosequenzierungsmethode zur Typisierung von zystischer Fribrose. Es werden keine komplexen Gemische analysiert sondern lediglich Fragmente eines einzigen Gens, nämlich der CF77?-Gen- Nukleinsäure.
Des Weiteren beschreiben Kaetzke and Eschrich (Nucleic Acid Research 30: e. 1 17 (2002)) die gleichzeitige Sequenzierung multipler Matrizen durch Kombination der Sanger-Sequenziermethode mit MALDI-TOF- massenspektroskopischer Analyse. Die Rohdaten werden bei dieser Methode nicht mit einem vorliegendem Sequenzprofil abgeglichen.
Zusam m enfassung der Erfind ung Es wurde gefunden, dass komplexe Gem ische bekannter Polynukleinsäuren durch Sequenzierungsreaktion und nachfolgendem Abgleich des
Sequenzierungsspektrums mit den korrespondierenden Einzelreaktionen qualitativ und quantitativ bestimmt werden können. Es bedarf keiner besonderen Reagenzien, und es können z. B. Standard-Oligonukleotidprimer eingesetzt werden. Dies hat den Vorteil, dass diese Methode in jedem Labor einfach durchzuführen ist, ohne dass besondere Anschaffungen gemacht werden müssen. Routinemethoden kommen zum Einsatz.
Die Erfindung betrifft
(1 ) ein Verfahren zur Analyse komplexer Gemische von bekannten Polynukleinsäuren, wobei die Gemische entweder aus mehreren verschiedenen Organismen, Geweben und/oder Zelltypen stammen oder Gemische von Polynukleinsäuren sind, die von verschiedenen Genen einzelner Organismen, Gewebe oder Zelltypen stammen, umfassend die folgenden Schritte: (a) Bereitstellen eines Sequenzierreaktionsgemisches, umfassend das zu analysierende komplexe Gemisch von bekannten Polynukleinsäuren, (b) Zufügen eines oder mehrerer Enzyme und wenigstens eines Primers zu dem Gemisch (a) , der wenigstens einen Sequenzabschnitt aufweist, der zu einer oder mehreren Sequenzen der bekannten Polynukleinsäuren komplementär ist, (c) Sequenzierung des Gemisches (a) , wobei gleichzeitig oder nach Beendigung der Sequenzierreaktion (d) ein gemeinsames Signalspektrum für alle Sequenzierprodukte aufgenommen wird, (e) ein Abgleich/Vergleich des erfassten Signalspektrums mit den Sequenzen und/oder den Signalspektren der bekannten Polynukleotidequenzen erfolgt und (f) die einzelnen Polynukleinsäuren des Gemischs identifiziert und quantifiziert werden und
(2) einen Kit zur Durchführung des Verfahrens (1 ) .
Das erfindungsgemäße Verfahren verwendet nur typische Sequenzierungsprimer und erlaubt es prinzipiell mehrere hundert unterschiedlicher Matrizen parallel zu sequenzieren. Mit möglichen technischen Fortschritten in der Sequenzierungstechnologie sind sogar noch größere Matrizenzahlen denkbar.
Kurzbeschreibu ng der Figuren
Figur 1 zeigt eine Bibliothek von Pyrogramm en für die Spezies T, E, C, A, H, N4 und O, die im experimentellen Beispiel erstellt wurden.
Figur 2 zeigt Pyrogram me der Gemische 1 - 3, die in dem experimentellen
Beispiel erstellt wurden.
Detaillierte Beschreibung der Erfindung
I n dem erfindungsgemäßen Verfahren besteht das kom plexe Gemisch an Polynukleinsäuren aus mindestens zwei unterschiedlichen Polynukleinsäuren. Diese unterscheiden sich vorzugsweise an wenigstens zwei, mehr bevorzugt an wenigstens fünf, sechs, sieben, acht, neun oder zehn Sequenzpositionen, wobei die Unterschiede entweder von einem Nukleotidaustausch oder durch I nsertion oder Deletion eines oder mehrerer Nukleotide herrühren.
Gemäß dem erfindungsgemäßen Verfahren umfassen die komplexen Nukleinsäuregem ische DNA- Moleküle, RNA- Moleküle, Gemische oder Derivate derselben. Die Enzyme sind vorzugsweise aus DNA Polymerasen, reversen Transkriptasen, sowie Hilfsenzymen für die Quantifizierung der Nachweisreaktion ausgewählt. In dem erfindungsgemäßen Verfahren sind von den bekannten nachzuweisenden Einzelsequenzen in der Regel Sequenzprofile zum Abgleich erstellt worden Zudem können dem Sequenzreaktionsgemisch weiterhin Standards von bekannten Einzelsequenzen zugegeben werden, für die eine Bibliothek einzelner Sequenzprofile erstellt worden ist.
In Schritt (b) werden dem Reaktionsgemisch weiterhin Nukleotide oder Nukleotidderivate wie dNTPs und ddNTPs zugegeben. In einer bevorzugten Ausführungsform des Verfahrens besteht das Sequenzreaktionsgemisch aus Polynukleinsäuren, die direkt aus Polynukleinsäurehaltigen Organismen oder Geweben isoliert sind.
I n dem erfindungsgemäßen Verfahren erfolgt die Sequenzierung durch ein Verfahren, ausgewählt aus Pyrosequenzierung, Sequenzierung mit dideoxy- Nukleotiden von einzelsträngigen Matrizen, Cycle-Sequencing mit dideoxy- Nukleotiden von einzel- oder doppelsträngigen Matrizen, oder weiteren enzymatischen oder chemischen Sequenzierungsmethoden, wobei die Sequenzierungsreaktionen zu reproduzierbar quantifizierbaren Nachweisen der einzelnen sequenzierten Nukleotidpositionen führt. Für Details dieser Sequenzierverfahren wird auf die in der Einleitung genannte Literatur verwiesen.
I n dem erfindungsgemäßen Verfahren wird vorzugsweise wenigstens ein Primer, der eine Länge von mindestens 12, vorzugsweise 18 bis 25 Nukleotiden aufweist, und einen oder mehrere Sequenzabschnitte aufweist, die komplementär zu Abschnitten aus bekannten Polynukleinsäuren sind, eingesetzt.
I n einer Variante des erfindungsgemäßen Verfahrens wird das zu analysierende Gemisch vor der Sequenzierungsreaktion noch einer Amplifikationsreaktion, vorzugsweise eine PCR- Reaktion oder Amplifikation von RNA mittels RNA- Polymerasen, unterworfen (Eberwine, J. Biotechniques, 20:584-591 (1996)) .
I n einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind die Polynukleinsäuren DNA- Moleküle und die Sequenzierung erfolgt durch Pyrosequenzierung. Hierbei werden als Enzyme in Schritt (b) DNA- Polymerase, Sulfyrase, Luciferase und Apyrase und als Nukleotide dNTPs zugesetzt.
I n einer weiteren besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens sind die Polynukleinsäuren RNA- Moleküle, und die Sequenzierung erfolgt durch Pyrosequenzierung unter Verwendung einer reversen Transkriptase. Hierbei werden in Schritt (b) als Enzyme reverse Transkriptase statt DNA- Polymerase und als Nukleotide dNTPs zugesetzt.
I n dem erfindungsgemäßen Verfahren besteht das zu sequenzierende Polynukleinsäuregemisch aus einer Mixtur von Organismen, verschiedenen Geweben und/oder Zelltypen, oder ist eine Mixtur von Polynukleinsäuren, die von verschiedenen Genen eines einzelnen Organismus, einzelner Gewebe oder
einzelner Zelltypen stammt; die Zusammensetzung dieser Gemische, d. h. der DNA- und/oder RNA-Nukelinsäurefraktionen, wird in dem erfindungsgemäßen Verfahren qualitativ und quantitativ bestimmt.
Die DNA- und/oder RNA- Nukleinsäurefraktionen setzen sich som it zusammen aus Mixturen einzelner oder mehrerer Gene von verschiedenen Organismen, Geweben oder Zelltypen oder aus Mixturen vieler verschiedener Gene aus einzelnen oder wenigen Organismen, Geweben oder Zelltypen. Die Organismen sind zum Beispiel ausgewählt aus der Gruppe von Viren, prokaryontischen Mikroorganismen wie Eubakterien, Archebakterien, eukaryontische Organismen wie Pilze, Algen, Einzellern und mehrzelligen Kleinorganismen wie z. B. Nematoden, Tardigraden, Milben, Insekten und ihre Larven, Anneliden, kleinen Krebstieren oder Rotiferen. Die Gewebe können ausgewählt sein aus jedem isolierbaren Gewebe eines Organismus, einschließlich Blutproben und Bipsien von gesundem oder malignem Gewebe. Die Zelltypen umfassen isolierte Blutzellen sowie Kulturen von Stam m-Zelllinien oder primäre Zellkulturen.
Es handelt sich also bei dem zu sequenzierenden Polynukleinsäuregemisch um eine komplexe Dispersion verschiedener Nukleinsäuren aus einem oder vielen Organismen, die signifikant komplexer sind als die einfachen Gemische (z. B. Fragmente oder Mutanten eines einzelnen Gens) , die in den bisher bekannten Verfahren bestimmt werden. In einer weiteren besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens wird ribosomale RNA als Sequenzierungsmatrize in dem Polynukleinsäuregem isch verwendet.
I n einer weiteren bevorzugten Ausführungsform wird messenger- RNA als
Sequenzierungsmatrize in dem Polynukleinsäuregem isch verwendet, wobei
(i) Primer verwendet werden die komplementär zur poly-A Region der m RNA oder oligo-dT Region der korrespondierenden cDNA sind und ein oder mehrere spezifische Nukleotide am 3' - Ende enthalten und/oder
(ii) Prim er verwendet werden, die teilweise oder vollständig komplementär zu spezifisch ausgewählten m RNA Sequenzen sind.
Das erfindungsgem äße Verfahren ist z. B. zur Mikroorganismen- Analyse und Krankheitsdiagnostik geeignet.
Der erfindungsgemäße Kit gemäß Ausführungsform (2) der Erfindung beinhaltet vorzugsweise
(i) geeignete Primer zur Durchführung der Sequenzreaktion und /oder
(ii) geeignete Primer zur Durchführung der Amplifikation und /oder
(iii) geeignete Enzyme zur Durchführung der Sequenzreaktion und /oder
(iv) geeignete Chemikalien zur Durchführung der Sequenzreaktion und /oder
(v) geeignete Kontrollen für die Durchführung der Sequenzreaktion und /oder
(vi) geeignete Kontrollen für die Durchführung der Amplifikation und /oder
(vii) eine Bibliothek der Sequenzprofile der nachzuweisenden Einzelsequenzen und/oder
(viii) ein Computerprogramm zur Durchführung der notwendigen Kalkulationen.
Die Sequenzierung kann durch eine Vielzahl verschiedener Verfahren erfolgen. Das bevorzugte Sequenzierungsverfahren für das Verfahren der vorliegenden Erfindung ist hierbei die Pyrosequenzierung. Wie vorstehend diskutiert, ist Pyrosequenzierung eine Technik, die auf der Tatsache beruht, dass die DNA- Polymerisierungsreaktion von einer Pyrophosphatfreisetzung begleitet ist. Während des Sequenzierens wird ein bestimmtes Nukleotidtriphosphat zu der Mischung aus Matrize, Polymerase und angelagertem Primer gegeben. Falls der Einbau stattfindet wird das Pyrophosphat freigesetzt. Das Pyrophosphat generiert - zusammen mit Luciferin und Luciferase -einen Lichtblitz, der gemessen und quantifiziert werden kann. Die Menge an Licht ist proportional zur Konzentration des Pyrophsophats und demgemäß zu der Konzentration der Matrize.
Die Bestimmung der Menge der einzelnen Sequenzmatrizen des Gemischs erfolgt vorzugsweise durch ein System von linearen Gleichungen, die wie folgt dargestellt werden können:
wobei Sj - die Peakintensität beim j-ten Schritt eines bestimmten Nukleotids ist, kj,(X) der lineare Koeffizient zwischen Helligkeit und Einbauwahrscheinlichkeit eines bestimmten Nukleotids X beim j-ten Schritt der Sequenzierung für die i-te Sequenzierungsmatrize ist, n^X) die Zahl der verfügbaren Einbauereignisse für das Nukleotid X bei dem j-ten Schritt für die i-te Sequenzierungsmatrize (0, 1 , 2, 3 ...) ist, x, die gesuchte Konzentration der gewünschten i-ten Matrize ist und L die Anzahl der Schritte darstellt. Der Term nj,(X) ist spezifisch für die Anwendung des Pyrosequenzierungsverfahrens, da hier nacheinander vorkommende gleiche Nukleotide in einem Peak zusammengefasst werden. Bei der Anwendung anderer Sequenzierungsverfahren, die jede einzelne Nukleotidposition repräsentieren (z.B. bei den ddNTP Verfahren) würde dieser Term immer 1 sein und kann dann einfach weggelassen werden.
Dieses Gleichungssystem kann kurz in Matrixform geschrieben werden:
N X = S, wobei N die Matrix von n,, m ultipliziert m it k,,(X) ist, X den Vektor von x, und S den Vektor der Peakintensitäten darstellt. Dieses System kann analytisch durch die Anwendung konventioneller Methoden gelöst werden (Press, W.H., Flannery,
B.P., Teukolsky, S.A., Vetterling, W.T. ( 1 993) . Numerical recipes in C: The Art of
Scieήtific Computing. Cambridge University Press; 2nd edition) : Durch Multiplizieren von beiden Seiten mit Nτ erhält man Nτ - N - X = Nτ - S. Es ist bekannt, dass Nτ • N , unabhängig vom Wert von N, eine quadratische Matrix ist. Demgemäß wird Multiplizieren der invertierten Nτ • N-Matrix eine Einheitsmatrix erzeugen:
( Nτ - N) " 1 • Nτ • N - X = ( Nτ - N) "1 • Nτ - S
Die Matrix ( Nτ • N) " 1 • Nτ • N ist eine Einheitsmatrix mit 1 auf seiner Diagonalen und 0 an allen anderen Positionen. Die Lösung ist somit
X = ( Nτ - N) " 1 • Nτ - S und die Diagonale von R( NT • N) "1 enthält das Quadrat der Standardabweichung jeder Lösung, wobei
R = (NXf-S)τ . (NXf-S) / (n- P)
Xf = Theoretische Lösung des Systems n = die Anzahl der Reihen von N
P = Anzahl der Spalten von N.
Die Zahl von Schritten, die für eine eindeutige Lösung notwendig ist, muss zumindest so gewählt sein, dass die Matrix N nicht singulär ist. Tatsächlich ist es besser, das Gleichungssystem überzudefinieren und sicherzustellen, dass Störungen der gemessenen I ntensität nicht die Lösung beeinträchtigen und das Rauschen damit kompensiert wird.
Für die Praxis bedeutet dies, dass die Lösung am einfachsten ist, wenn die zu determinierenden Sequenzen vollständig unterschiedlich sind. I n diesem Fall entspricht die Anzahl der Sequenzierungsschritte die zuverlässig durchgeführt werden können, der Anzahl der unterschiedlichen Sequenzen die nachgewiesen werden können, abzüglich der ggf. notwendigen Überdefinition des Systems. Sind die Sequenzen partiell ähnlich zueinander, müssen die minimal notwendigen Schritte die zu I hrer Unterscheidung führen erhöht werden, wobei die Anzahl vorher kalkuliert werden kann (vgl. Beispiel) . Aus diesem Zusammenhang ergibt sich, dass das erfindungsgemäße Verfahren besonders in den Fällen gut anwendbar ist, in denen sich Sequenzen stark voneinander unterscheiden. Dabei können sich die Unterschiede sowohl auf Nukleotidaustausche beziehen, wie auch auf I nsertionen und Deletionen.
I n der Praxis ist der Koeffizient kjι(X) unbekannt. I m Idealfall sollten sie alle gleich sein und sollten damit aus dem Gleichungssystem entfernt werden können. Aber die Realität ist komplizierter. Um das Problem von unbekannten Koeffizienten zu lösen, muss man die Pyrogramme für jede einzelne Sequenz aufnehmen, z. B. aus den Klonen oder von künstlich synthetisierten Oligonukleotiden, und sie in einer Bibliothek abspeichern. Ein Pyrogramm einer gegebenen Sequenz ist demgemäß eine Spalte in der Matrix N. Die Lösung X wird dann als Vielfaches der Konzentrationen gefunden, die bei der Aufnahme der Bibliothek der Pyrogramme benutzt wurde. Es ist demgemäß sinnvoll, gleiche Konzentrationen bei der Aufnahme der Bibliotheken zu verwenden. Die Bibliotheken können einmal aufgenommen werden und für alle weiteren Ausnahmen aufbewahrt werden. Bei einer Sequenzierung eines unbekannten Gemischs ist es darüber hinaus angebracht eine bekannte Menge einer Sequenz zuzufügen, die üblicherweise nicht in der Probe vorhanden ist. Selbstverständlich muss das Pyrogramm dieses Standards ebenfalls in der Bibliothek verfügbar sein. Nach Auffindung der Lösung können alle Variablen auf den Standard bezogen werden und die Endkonzentration kann über die bekannte Konzentration des Standards bestimmt werden. Die Verwendung eines Standards verringert die Empfindlichkeit der Lösung durch Veränderung der Instrumentencharakteristik zwischen den verschiedenen Bestim m ungen.
I m Idealfall, d. h. wenn alle kji(X) = 1 sind, ist es notwendig, die minimale Zahl von Schritten für das Sequenzieren in Abhängigkeit von der aktuellen Sequenz zu bestimmen. Offensichtlich besitzen die Sequenzen als solche eine bestim mte Menge an I nform ation, was die auszuführende Zahl an Schritten beeinflusst. Aus diesem Grund enthält die Matrix N nur die Zahl von Nukleotiden, die für die Inkubation bei jedem einzelnen Schritt verfügbar sind. Diese für eine vorgegebene Zahl von Schritten geeignete Matrix kann aus den Sequenzen gemäß einem einfachen Algorhithmus erstellt werden. Nachdem die Matrix erstellt wurde, muss deren Singularität bestimmt werden, und falls sie Singular ist, werden weitere Schritte hinzugefügt, die Matrix erneut erzeugt, erneut getestet und so lange fortgeführt bis keine singuläre Matrix mehr entsteht.
Bei der Multiplex Sequenzierung eines kom plexen Gem ischs an Nukleinsäuren entsteht ein kom plexes Muster an überlagerten Sequenzen. Dieses Muster wird verglichen mit dem bereits bekannten Muster einzelner Nukleinsäuren, wie sie für eine Vielzahl von Organismen in verschiedenen Datenbanken zugänglich sind. Die Erfindung wird anhand der nachfolgende Beispiele näher erläutert, die jedoch das erfindungsgemäße Verfahren nicht einschränken .
Beispiele
Beispiel 1
Das erfindungsgemäße Verfahren wurde anhand von Mischungen von PCR- Produkten von klonierten rRNA-Genen gezeigt. Hierzu wurde zunächst eine Bibliothek von Pyrogrammen für sieben rRNA-Sequenzen aufgenommen (die Abkürzungen für die Sequenzen sind die folgenden: A = Alge01 , T = Tardig3, O = Ostrac7, H = Harpac13, C = Cyclop13, E = Ephemel , N4 = Nematd40) . Die Sequenzen wurden ursprünglich in der Doktorarbeit von Melanie Markmann ( Universität München, 2000) beschrieben und die Bezeichnungen richten sich nach den Bezeichnungen in der Doktorarbeit von Markmann. Die verwendeten Sequenzen sind in SEQ I D NOs: 1 bis 7 dargestellt. Von den Sequenzen liegen klonierte Fragmente vor, die in die Multiple Cloning Site des Vektors pZERO-2 inseriert sind. Aus der Plasm id DNA dieser Klone wurden die zu sequenzierenden Fragmente mittels PCR am plif iziert. Die entsprechende PCR Am plifikation wurde in 30 μl Volumen mit 37 Zyklen durchgeführt. Konzentration des Templats: 0,67 ng/μl. Der Primer 5'- GAC-CCG-TCT-TGA-AAC-ACG-G-3' (SEQ I D NO:8) wurde als Vorwärtsprimer und der 5'-biotinylierte Primer 5'-ATC-GAT-TTG-CAC-GTC- AGA-A-3' (SEQ I D NO: 9) wurde als reverser Primer verwendet.
Pyrosequenzierung wurde mit der Sequenz 5'-GAA-ACA-CGG-ACC-AAG-GAG-T-3' (SEQ I D NO: 10) als Sequenzierprimer durchgeführt, wobei das Standardprotokoll' zum Einsatz kam . Die Figur 1 zeigt die Profile der Pyrogramm e.
Die ursprünglichen PCR- Produkte wurden verworfen, um ein reales Experiment zu sim ulieren, in dem die Sequenzierungsprofil- Bibliothek vorher zusammengestellt wurde. Eine weitere PCR- Reaktion wurde mit denselben Fragmenten durchgeführt. Die Agarosegelelektrophorese zeigte, dass die
Konzentration der Produkte identisch war und etwa 40 ng/μl betrug. Die PCR- Produkte wurden verwendet um drei Gemische herzustellen.
Die Tabelle 1 zeigt den Vergleich der Gemische in μl der PCR- Produkte. Die Mischung wurde der Pyrosequenzierung unterworfen, und die erhaltenen Pyrogramme sind in Fig. 2 gezeigt. Diese Pyrogramme wurden analysiert gemäß dem in der Beschreibung detailliert dargelegten Verfahren. Da die verwendeten Sequenzen an einigen Stellen identisch sind, bzw. sich überlappen, wurde die minimale Anzahl der notwendigen Sequenzschritte kalkuliert, die den unabhängigen Nachweis aller sieben Sequenzen erlauben würde. Dazu wurde ein Simulationsalgorithm us programmiert der eine virtuelle Pyrosequenzierung durchführt in der alle Einbauschritte exakt proportional sind. Die daraus resultierenden virtuellen Pyrogramme werden als Spalten in die ideale Matrix N eingesetzt. Nach jedem Sequenzierungsschritt wird die Singularität der Matrix geprüft. Eine minimal notwendige Anzahl an Schritten ist dann gefunden, wenn die Matrix nicht mehr Singular ist. Auf diese Art wurde die m inimale Zahl der Schritte für die gewählten Sequenzen als 34 bestim mt. Sowohl die Pyrogramme der Gemische, als auch die Profile aus der Bibliothek wurden nach dem 50. Schritt abgeschnitten und stellen somit 16 weitere Gleichungen zur Überdefinition des Gleichungssystems zur Verfügung.
Der Vektor S aus der oben dargelegten Gleichung entspricht den Peak Intensitäten jedes Schritts in der Sequenzierungsreaktion der Mixe. Diese I ntensitäten wurden numerisch als Tabelle erfasst und als Spaltenvektor in die Matrix eingesetzt. Die weiteren Kalkulationen entsprechend der Gleichung wurden mit Hilfe des Matlab Software Paketes (The MathWorks I nc., Natick USA, Version 6.1 .0.450) durchgeführt. Das System wurde gelöst und wurde in Richtung auf „bekannte" Konstellationen des Standards gelöst (in diesem Falle die Spezies T) .
Die Lösungen und deren Standardabweichungen sind in Tabelle 2 gezeigt.
Die Tabelle 3 zeigt die daraus errechneten Konzentrationswerte. Im Gemisch 1 ist eine gute Erkennung der Sequenzkomponenten ersichtlich. Die abwesenden Spezies zeigen Werte von -1 bis 2, was durch Hintergrundrauschen bedingt ist.
Tatsächlich sind die Standardabweichungen für diese Lösungen höher als die Lösung selbst, wohingegen jene für die Lösung der vorliegenden Sequenzkom ponenten kleiner waren als die bestimmten Werte. I m Analogschluss ist die geeignete Erkennung der Zusammensetzung der anderen Gem ische (Mischung 2 und Mischung 3) möglich (s. Tab. 3) . Die relativ größte Abweichung von der aktuellen Konstellation tritt in dem komplexesten Gem isch (Gemisch 3) auf.
Tabelle 1 : Zusammensetzung der Gemische
Spezie Gem.l Gem.2 Gem.3
T 10 10 10
E 13 10 7
C 7 3
A 9 5
H 6
N4 4
O 5
Tabelle 2: Lösungen und Stabdardabweichungen Gem.l StΛb Gem.2 StΛb Gem.3 St.Abw
T 0.2717 0.0222 0.1991 0.0216 0.1535 0.0185
E 0.3513 0.0340 0.2378 0.0332 0.1346 0.0284
C -0.0098 0.0315 0.1498 0.0307 0.0705 0.0264
A -0.0226 0.0347 0.1588 0.0338 0.0997 0,0290
H 0.0522 0.0349 0.0469 0.0341 0.1609 0.0292
N4 -0.0026 0.0309 -0.0031 0.0301 0.0759 0.0258
O 0.0517 0.0428 0.0493 0.0417 0.1174 0.0358
Tabelle 3: Vergleich zweier gefundener und vorgegebener Verhältnisse Gem. 1 Gem. 2 Gem. 3 vorgegeben gefunden vorgegeben gefunden . vorgegeben gefunden
T 10 10 10 10 10 10
E 13 13 10 12 7 9
C 0 -0 7 7 3 4
A 0 -1 9 8 5 6
T ist der Konzentrationsstandard
Beispiel 2 Die zu sequenzierende Polynukleinsäure Mischung kann auch zunächst aus RNA statt einzelsträngiger DNA bestehen. I n diesem Fall kommen zwei alternative Vorgehensweisen in Betracht. Entweder man verwendet statt der DNA Polymerase eine reverse Transkriptase als Sequenzierungsenzym , oder man konvertiert die RNA mittels einer reverse Transkriptase Reaktion in eine einzelsträngige DNA, die dann wieder als Matrize in einer DNA Sequenzierung verwendet werden kann.
Die Verwendung von RNA zur direkten Sequenzierung kann eine vorangehende PCR Reaktion überflüssig machen, wenn die zu sequenzierende RNA bereits in ausreichender Menge in dem Polynukleinsäuregemisch vorliegt. Dies gilt insbesondere für ribosomale RNA (rRNA) . Diese liegt in Zellen bereits in hoher Kopienzahl vor und macht in der Regel den Großteil der Gesamt- RNA aus. Damit bietet sie sich insbesondere für eine Bestimmung einer Mixtur von Mikroorganismen oder eukaryontischen Organismen an. Für die Analyse eines solchen Gem isches ist es ausreichend die RNA statt der DNA zu isolieren. Durch die Verwendung von rRNA spezifischen Primern wird es möglich diese direkt als Sequenzierungsmatrize zu benutzen, ohne vorangehende PCR Amplifikation. Dadurch können die bekannten Probleme der PCR Amplifikation vermieden werden, die insbesondere bei der Am plifikation von Sequenzmischungen nicht quantitativ ist, oder sogar zur Rekombination von unterschiedlichen Fragmenten führen kann.
Die Durchführung eines Multiplex-Sequenzierunsexperimentes auf der Basis von rRNA entspricht im wesentlichen dem Vorgehen in dem oben geschilderten Beispiel. Dazu ist es lediglich notwendig die rRNA mittels eines geeigneten Primers und reverser Transkriptase in eine einzelsträngige DNA- Matrize umzuschreiben. Das weitere Vorgehen entspricht dann exakt dem Beispiel. Alternativ kann das Pyrosequencing Gemisch daraufhin optimiert werden eine
reverse Transkriptase als Sequenzierungsenzym zu verwenden. Diese Option ist bisher aber nicht kommerziell erhältlich.
Das erfindungsgemäße Verfahren kann auch mit anderen üblichen Sequenzierungsverfahren durchgeführt werden. Dafür kommt vor allem das Cycle -Sequencing in Frage, in dem eine thermostabile DNA- Polymerase als Sequenzierungsenzym genutzt wird, die mittels mehrerer Sequenzierungs- /Denaturierungs-Zyklen gleichzeitig zu einer Verstärkung des Signals führt. Damit eröffnet sich auch der Einsatz für vergleichsweise geringe Sequenzierungsmatrizenmengen. So wird es möglich komplexe RNA Gem ische aus einem Gew ebe eines einzelnen Organismus parallel zu sequenzieren.
Das Vorgehen ist dabei wie folgt: aus dem Gewebe wird die gesamte RNA isoliert, also sowohl die ribosomale RNA, wie auch die messenger- RNA (m RNA) . Aus der m RNA wird danach mittels reverser Transkriptase und oligo-dT Primern eine einzelsträngige cDNA hergestellt. Diese wird einer Cycle-Sequencing Reaktion unterworfen, wobei in einer Ausführungsart ein einzelner Anker- Primer verwendet wird, der im wesentlichen komplementär zur poly-A Sequenz der m RNA ist (bzw. komplementär der poly-T Sequenz der korrespondierenden cDNA) , aber noch ein oder mehrere zusätzliche spezifische Nukleotide am 3' - Ende enthält, die dazu führen dass nur ein Subset aller RNAs erkannt und sequenziert wird. I n einer alternativen Ausführungsart wird ein Gemisch ausgewählter Primer verwendet. Die Primer sind dabei spezifisch für bestimmte Gene, deren Expression in dem betreffenden Gewebe parallel getestet werden soll.
Die direkte Sequenzierung von m RNA Gemischen aus Geweben kann insbesondere in der Krankheits- Diagnose zum Einsatz kommen, wenn es darum geht spezifische Veränderung der Genexpression im kranken Gewebe zu entdecken und zu quantifizieren. Für diesen Anwendungsbereich werden gegenwärtig vor allem Micoarray Verfahren angewendet. Wichtig ist hierbei, dass es in der Regel ausreicht die Expression einiger weniger bis maximal einiger Dutzend Gene spezifisch zu bestimmen. Damit kann die parallele Sequenzierung eingesetzt werden, da in diesem Fall die Anzahl der in einer Reaktion sequenzierbaren Nukleotide der Anzahl der theoretisch nachweisbaren im
Gemisch vorhandenen unterschiedlichen Matrizen entspricht. Typische Cycle- Sequencing Reaktionen erlauben die sichere Bestimmung von bis zu 500 Nukleotiden. Die parallele Sequenzierung hat in diesem Fall wesentliche Kosten- und Zeitvorteile gegenüber den gängigen Microarray Verfahren. Um die Sequenzierungsreaktion stabiler zu machen kann, wie es auch bei Microarray Verfahren üblich ist, eine Voramplifikation der m RNA vorgenommen werden.