WO2001086247A2

WO2001086247A2 - Verfahren zur untersuchung von makromolekülen

Info

Publication number: WO2001086247A2
Application number: PCT/EP2001/005023
Authority: WO
Inventors: Helmut Bloecker; Gerhard Kauer
Original assignee: GESELLSCHAFT FüR BIOTECHNOLOGISCHE FORSCHUNG MBH (GBF)
Priority date: 2000-05-05
Filing date: 2001-05-03
Publication date: 2001-11-15
Also published as: US20040029126A1; AU2001267403A1; CA2406694A1; EE200200618A; DE10021689A1; KR20030005318A; IL152512A0; WO2001086247A3; EP1307713A2

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Untersuchung von Makromolekülen, die in frequenzbasierten Datenmustern speicherbar sind. Darüber hinaus betrifft die vorliegende Erfindung eine Vorrichtung zur Durchführung des Verfahrens und unterschiedliche Anwendungen sowohl des Verfahrens als auch der Vorrichtung. Das Verfahren selbst basiert auf dem Erstellen von Sequenzdaten molekularer Sequenzen von Makromolekülen, dem Umsetzen der Sequenzdaten in frequenzmodulierte Frequenzdaten, dem Transformieren der Frequenzdaten in einen Fourierraum, dem Einsatz von Fourieranalysen zum Vergleich zur Gewichtung, zur Katalogisierung und/oder zur Typisierung der Frequenzdaten und schliesslich der Rücktransformation der gewichteten, katalogisierten und/oder typisierten Frequenzdaten zu Sequenzdaten in gewichteter, katalogisierter und/oder typisierter Form.

Description

Verfahren zur Untersuchung von Makromolekülen

Die Erfindung betrifft ein Verfahren zur Untersuchung von Makromolekülen und eine Vorrichtung zur modellhaften Durchführung des Verfahrens sowie Anwendungen des Verfahrens und/oder der Vorrichtung entsprechend den unabhängigen Ansprüchen.

Enorme Datenmengen haben sich in den Datenbanken in Form von sequenzbasierten Datenmustern für die unterschiedlichsten Makromoleküle angesammelt. Derartige Datenmengen dienen der Bearbeitung biologischer Fragestellungen, die sich durch Informationen innerhalb makromolekularer Sequenzdaten erheben. Diese Fragestellungen können gegenwärtig nur mit rechnergestützten Verfahren bearbeitet werden, wobei die enormen Datenmengen eine erhebliche Rechnerleistung erfordern, zumal die ständig wachsende weltweite Sequenzierleistung laufender und geplanter Genomprojekte in ungeahntem Umfang anwächst. Damit ergibt sich die Problematik, die verfügbaren Algorithmen effizient auf die entsprechende Problematik anzuwenden, ohne an die Grenzen der Rechenleistungen zu stoßen.

BESTATIGUNGSKOPIE Diese Problematik wird mit dem Gegenstand der unabhängigen Ansprüche gelost. Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteranspruchen.

Das erfmdungsgemaße Verfahren zur Losung des obigen Problems bei der Untersuchung von Makromolekülen umfaßt somit folgende Verfahrensschritte :

a) Erstellen von Sequenzdaten molekularer Sequenzen von Makromolekülen,

b) Umsetzen der Sequenzdaten in frequenzmodulierte Frequenzdaten,

c) Transformieren der Frequenzdaten m einen Fouπerraum,

d) Einsatz von Fourieranalysen zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Typisierung der Frequenzdaten,

e) Rucktransformation der verglichenen, gewichteten, katalogisierten und/oder typisierten Frequenzdaten zu Sequenzdaten m gewichteter, katalogisierter und typisierter Form.

Dieses Verfahren ermöglicht eine völlig neue Technologie zur effizienten Analyse enormer sequenzbasierter Datenmengen von Makromolekülen. Das Potential dieser Technologie liegt m einer erheblichen Geschwindigkeitssteigerung für die jeweiligen Ana^¬ lysen der Makromoleküle einerseits und n der Möglichkeit, völ^¬ lig neue Fragestellungen der Informationsgewinnung aufzuwerfen.

In einer bevorzugten Ausfuhrungsform des Verfahrens wird zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Ty^¬ pisierung ein Verfahren der Informationsfilterung aus einer di- gitalen Bildanalyse eingesetzt. Diese Ausführungsform hat den Vorteil, daß man sowohl die Ähnlichkeit zweier eindimensionaler Muster bei einer gegenseitigen örtlichen Verschiebung um i Datenpunkte messen kann als auch ein Signal mit einem vorgegebenen Signalverlauf suchen kann, wobei ein Maß für Ähnlichkeiten sich durch eine Bildanalyse ergibt und damit Rückschlüsse auf Ähnlichkeiten unter den Makromolekülen geschlossen werden kann. Diese Ähnlichkeit wird dann maximal, wenn die Verschiebung eine maximale Übereinstimmung zwischen der Folge von Frequenzdaten und dem Muster erzeugt. Über diese Verschiebung ist auch die eindeutige Position des eindimensionalen Musters in der Frequenzdatenfolge über eine Rücktransformation und eine Demodula- tion durch die Position des Musters in einer Sequenz eindeutig gegeben.

Durch den Einsatz der Fouriertransformation wird die Detekti- onsfilterung über die Faltung vereinfacht und damit die Untersuchung in erheblichem Maße beschleunigt.

In einer weiteren Ausführungsform des Verfahrens wird zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Typisierung ein Verfahren der Frequenzanalyse eingesetzt. In dieser Ausführungsform sind die Sequenzdaten, die zunächst in frequenzmodulierte Daten umgesetzt wurden, derart aufbereitet, daß jedem Element einer Sequenz in Korrelation zu seinem Nachbarn eine eindeutige Frequenzinformation zugeordnet ist. Zwar tritt die eigentliche Sequenz auf diese Weise in den Hintergrund und wird im einfachsten Fall in eine eindimensionale frequenzmodulierte Welle transformiert, jedoch bleibt die Sequenzinformation von dieser Transformation unberührt und wird lediglich in eine komplexe Frequenzinformation gleichen Informationsgehalts umgesetzt. Der Vorteil dieser Ausführungsform ist, daß alle mathematischen Methoden der Frequenzanalyse auf diese frequenzmodulierte Welle angewendet werden können. Insbesondere die Spek- tralanalyse der Informationen sind in diesem Zusammenhang von größtem Nutzen.

In einer weiteren Ausführungsform des Verfahrens wird zum Vergleich, zur Gewichtung, zum Katalogisieren und/oder zum Typisieren eine stochastische Informationsfilterung im Fourierraum eingesetzt. Bei dieser Ausführungsform können in vorteilhafter Weise Abweichungen vom Idealsignal stochastisch abgeschätzt werden, womit der Erwartungshorizont je nach biologischer Fragestellung gestaltbar ist.

In einer weiteren bevorzugten Ausführungsform des Verfahrens werden die Informationseinheiten und/oder Strukturinformationen von mehrdimensionalen Protein- und/oder DNA-Datenbanken in entsprechende Sequenzcodes zum Erstellen von Sequenzdaten codiert. Dieses hat den Vorteil, daß bei der Untersuchung von Makromolekülen und biologischen Fragestellungen zu Makromolekülen auf mehrdimensionale Protein- und/oder DNA-Datenbanken zurückgegriffen werden kann, die entsprechend mit Hilfe des erfindungs^¬ gemäßen Verfahrens dann auswertbar und analysierbar sind, ohne daß die Grenzen der Effizienz der eingesetzten Verfahren und die erheblichen Rechenleistungen überschritten werden.

Das erfindungsgemäße Verfahren kann vorzugsweise mit einer Vorrichtung durchgeführt werden, die eine Vielzahl elektronischer Bausteine zur Modellierung von Frequenzdaten, die molekulare Sequenzen simulieren und eine Vielzahl von Frequenzfiltern zum Gewichten, zum Katalogisieren und/oder zum Typisieren der durch die Vielzahl elektronischer Bausteine modellierten Frequenzdaten aufweist. Ein wesentlicher Vorteil nämlich des erfindungsgemäßen Verfahrens ist es, daß es leicht möglich ist, die not^¬ wendigen Algorithmen und Filtersysteme einerseits auf einem Rechner zu entwickeln, aber hernach die gefundenen Methoden in elektronische Schaltkreise umzusetzen, um dann die betreffenden Algorithmen nicht mehr rechnergestutzt, sondern in einem Hoch- frequenzschaltkreis durchzufuhren. Mit einer derartigen Vorrichtung ist es somit möglich, sehr große sequenzbasierte Datenmengen, beispielsweise ganze Genome, rasch und nahezu verzo- gerungsfrei interaktiv zu untersuchen.

Bei einer bevorzugten Ausfuhrungsform der Vorrichtung ist die Vielzahl elektronischer Bausteine und die Vielzahl von Frequenzfiltern mittels rechnergestutzten Frequenzanalysen ermittelt und sind diese zu einem Hardwarenetzwerk untereinander gekoppelt, das die Abfolge von Informationseinheiten von Makromolekülen simmuliert. In diesem Zusammenhang sind die Informationseinheiten Basen der Nukleinsäuren, Ammosaurereste von Proteinen und/oder dreidimensionale Srukturemheiten von Proteinen und/oder DNA, deren Abfolge in einem Makromulekul durch das Hardwarenetzwerk simuliert werden. Mit dieser Ausfuhrungsform der Vorrichtung wird erreicht, daß nicht nur ein schneller Vergleich großer sequenzbasierter Datenmuster möglich wird, sondern daß darüber hinaus biologische Fragestellungen unmittelbar durch das Makromoleküle nachbildende Hardwarenetzwerk mit Lichtgeschwindigkeit bearbeitet und mit entsprechend hoher Ge^¬ schwindigkeit beantwortet werden können.

Bevorzugt werden Verfahren und Vorrichtung der Erfindung zur Analyse von Proteinsequenzen angewendet. Ebenso sind Anwendungen im Rahmen der Analyse von DNA-Sequenzen in vorteilhafter Weise möglich. Dazu können auch Untersuchungen und Bemusterun- gen mehrdimensionaler Proteindatenbanken herangezogen werden. Dazu sind die Informationseinheiten der Datenbanken in entspre^¬ chenden Sequenzcodes anzubieten, die auch mehrdimensional sein können. Es ist folglich nicht einschränkend notwendig, ledig^¬ lich Spektralanalysen auf eine, zwei oder drei Dimensionen zu beschranken, zumal bei den bevorzugten Anwendungen die Erfin- dung für eine große Anzahl von Informationsfragmenten angewendet werden kann.

In einer bevorzugten Anwendung der Erfindung werden mehrdimensionale DNA-Struktuπnformationen auf wiederkehrende Muster untersucht. Insbesondere wird es mit dieser Erfindung möglich, biologische Fragestellungen interaktiv und verzogerungsfrei für sequenzbasierte Datenmengen zu untersuchen.

Die Erfindung wird nun anhand von Ausfuhrungsbeispielen naher erläutert .

In einem ersten Ausfuhrungsbeispiel werden die Sequenzdaten zunächst m frequenzmodulierte Daten umgesetzt. So erhalt jedes Element der Sequenz in Korrelation zu seinem Nachbarn eine una- re Frequenzinformation zugeordnet. Die eigentliche Sequenz tritt auf diese Weise m den Hintergrund und wird im einfachsten Fall m eine eindimensionale frequenzmodulierte Welle transformiert. Die Sequenzinformation bleibt von dieser Transformation unberührt und wird lediglich in eine komplexe Frequenzinformation gleichen Informationsgehalts umgesetzt.

Der Vorteil dieser Methode ist, daß nun alle mathematischen Methoden zur Signalverarbeitung auf diese frequenzmodulierte Welle angewendet werden können. Besonders die Spektralanalysen der Information ergeben in diesem Zusammenhang den größten Nutzen.

Auf die frequenzmodulierte Welle wird anschließend eine Fast- Fouπer-Transformation (FFT) angewandt. Auf diese transformierten Daten werden dann entsprechende Filter angewandt. Nach der Rucktransformation, der sogenannten inversen Fourier- Transformation (IFFT) und einer Demodulation der Frequenzdaten zurück in die Sequenzdaten wird die entsprechend gefilterte Information erhalten. Somit können Sequenzmuster sehr effizient im Leistungsspektrum gesucht, beispielsweise große genomische Abschnitte oder ganze Genome miteinander verglichen bzw. ausgefiltert werden. Abweichungen vom Idealsignal sind stochastisch abschätzbar, womit der Erwartungshorizont je nach biologischer Fragestellung gezielt gestaltet werden kann. Damit ergibt sich der wesentliche Vorteil des erfindungsgemäßen Verfahren, daß es leicht möglich ist, die notwendigen Algorithmen und Filtersysteme auf einem Rechner zunächst zu entwickeln und danach die gefundenen Methoden in elektronische Schaltkreise umzusetzen. Dann müssen die betreffenden Algorithmen nicht mehr in einem Computer, sondern können in einem Hochfrequenzschaltkreis prozessiert werden. Mit dieser Ausführungsform der Erfindung ist es somit möglich, sehr große sequenzbasierte Datenmenge, z.B. ganze Genome, rasch und verzögerungsfrei interaktiv zu untersuchen.

Das erfindungsgemäße Verfahren ist jedoch nicht auf den einfachsten Fall einer eindimensional frequenzmodulierten Welle beschränkt. Vielmehr können in einem zweiten Beispiel einer Ausführungsform der Erfindung auch dreidimensionale oder mehr^¬ dimensionale Proteindatenbanken oder mehrdimensionale DNA- Strukturinformationen in ganz ähnlicher Art und Weise auf entsprechende Muster untersucht werden. Hierzu werden Datenbanken ihre Informationseinheiten in entsprechende Sequenzcodes umset^¬ zen. Auch für einen Zusammenbau einer großen Anzahl von n- Informationsfragmenten, wie sie beispielsweise in "Shotgun"- organisierten Datenbänken vorliegen, kann die erfindungsgemäße Methode angewandt werden. Diese n-Informationsfragmente stellen in ihrer Summe die Gesamtinformation einer logischen Einheit N dar. Dabei kann die Summe aller Teilelemente der Fra_gmente we^¬ sentlich größer sein, als die Summe der Teilelemente der Gesam^¬ tinformation N: n >> N; Y {n 3 N}

Nachdem die Sequenzinformation frequenzmoduliert vorliegt, wird gemäß der vorliegenden Erfindung diese mittels einer Fast- Fourier-Transformation transformiert. Dabei ist im einfachsten Fall die Korrelationsfunktion φ_fg zweier eindimensionaler Signale, nämlich f (m) und g (m) als eine Faltung des Signals f (m) mit dem Signal g(-m) aufzufassen.

n

Mit dieser Verfahrensweise kann sowohl die Ähnlichkeit zweier eindimensionaler Muster bei einer gegenseitigen örtlichen Verschiebung um i-Bildpunkte gemessen werden, als auch in einem Signal f ( ) nach einem durch g ( ) vorgegebenen Signalverlauf gesucht werden. φ_fg ist dabei das Maß für die Ähnlichkeit. Dieses Maß wird dann maximal, wenn die Verschiebung i eine maximale Übereinstimmung zwischen der Welle f (m) und dem Muster g (m) erzeugt. Über diese Verschiebung ist dann auch die eindeutige Position des eindimensionalen "Musters" in der Welle gegeben. Über die Rücktransformation und die Demodulation ist die Position des Musters in der Sequenz eindeutig feststellbar. Durch die FFT vereinfacht sich vorteilhaft diese Detektionsfilterung über die Faltung. Die Fouriertransformierten Φ_fg und F werden aus φ_fg und f berechnet und weisen folgende Relation auf:

Φ_fq (k) F(k)G*(k)

wobei G*(k) die konjugiert komplexe Fouriertransformierte von g (m) ist. Bei den vorliegenden enormen Datenmengen sequenzbasierter Datenmuster von Makromolekülen ist in diesem Fall die Operation im Fourierraum vorteilhaft, da für die angesprochene Problematik ausgedehnte Musterfunktionen bereits vorliegen. Eine exakte Übereinstimmung von f (m) und g(m) liefert für φ_fg die Signalenergie von f (m) und g (m) .

Als ein drittes Beispiel werden nun die zweidimensionalen Relationen aufgeführt:

φ_fg (i,j) =∑_m∑_n f (m,n)g(m-i,n-j) , bzw. Φ_fg(k,l) = F ( k, 1) G* ( k, 1)

Dabei stellt sich durch eingehende Analysen der informa- tiosstragenden biologischen Makromoleküle heraus, daß den reinen Sequenzinformationen erhebliche Informationsgehalte überlagert sind, die sich aus chemisch verwandten Mustern benachbarter Bausteine oder z.B. mehrdimensionaler Ortssignale ergeben.

Die oben beispielhaft beschriebenen Verfahren für eindimensionale und zweidimensionale Relationen können derartige zusätzliche Informationsgehalte rasch durch geeignete stochastisch wirkende Filter im Frequenzraum ermitteln.

Durch eine geeignete Abbildung der relevanten "Ähnlichkeitsfunktion" beteiligter Bausteine oder Bausteingruppen in den Frequenzraum hinein ergeben sich automatisch Strukturen, die sich durch bewährte Filter ermitteln lassen. So können beispielsweise Analysen mit lokalen Leistungsspektren angewendet werden, die sich mit den Spektralenergien der zu untersuchenden Abschnitte beschäftigen.

Das Leistungsspektrum |F(k)|² ist die Fouriertransformierte der Autokorrelationsfunktion des Signals f (m) und kann daher zur Messung der statistischen Bindungen zwischen den Werten benachbarter Daten von f (m) herangezogen werden. Werden die Lei- stungsspektren innerhalb lokaler Fenster berechnet, so lassen sich auf diese Weise auch ortsinstationäre Muster beschreiben. Eine geeignete Gewichtung der Originalfunktion kann eingesetzt werden, um störende Anteile im Leistungsspektrum zu reduzieren. In der digitalen Bildanalyse wird für die Texturdetektion vor der Fouriertransformation beispielsweise eine Hemming-Funktion der folgenden Art angewandt

h(m,n) = FI (θ,54-0.46 cos ( 2Tli_ ) ) i = m, n 15

Claims

Patentansprüche

1. Verfahren zur Untersuchung von Makromolekülen mit folgenden Verfahrensschritten: a) Erstellen von Sequenzdaten molekularer Sequenzen von Makromolekülen b) Umsetzen der Sequenzdaten in frequenzmodulierte Frequenzdaten c) Transformieren der Frequenzdaten in einen Fourierraum d) Einsatz von Fourieranalysen zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Typisierung der Frequenzdaten e) Rücktransformation der verglichenen, gewichteten, katalogisierten und/oder typisierten Frequenzdaten zu Sequenzdaten in gewichteter, katalogisierter und/oder typisierter Form.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Typisierung Verfahren der Informationsfilterung aus der digitalen Bildanalyse eingesetzt werden.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, daß zum Vergleich, zur Gewichtung, zur Katalogisierung und/oder zur Typisierung Verfahren der Frequenzanalyse eingesetzt werden.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß zum Vergleich, zur Gewichtung, zur Ka^¬ talogisierung und/oder zur Typisierung eine stochastische Informationsfilterung im Fourierraum eingesetzt wird.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß Informationseinheiten und Strukturin- formation von mehrdimensionalen Protein- und/oder DNA- Datenbanken in entsprechende Sequenzcodes zum Erstellen von Sequenzdaten codiert werden.

6. Vorrichtung zur Untersuchung von Makromolekülen mit einer Vielzahl elektronischer Bausteine zur Modellierung von Frequenzdaten, die molekulare Sequenzen simulieren, und mit einer Vielzahl von Frequenzfiltern zum Vergleichen, zum Gewichten, zum Katalogisieren und/oder zum Typisieren der durch die Vielzahl elektronischer Bausteine modellierten Frequenzdaten .

7. Vorrichtung nach Anspruch 6, dadurch gekennzeichnet, daß die Vielzahl elektronischer Bausteine und die Vielzahl von Frequenzfiltern mittels rechnergestützten Frequenzanalysen ermittelt und rechnergestützt untereinander zu einem Hardwarenetzwerk gekoppelt sind, das die Abfolge von Informationseinheiten von Makromolekülen simmuliert.

8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß die Informationseinheiten Basen der Nukleinsäuren, Aminosäurereste von Proteinen und/oder dreidimensionale Sruk- tureinheiten von Proteinen und/oder DNA sind.

9. Anwendung des Verfahrens nach einem der Ansprüche 1 bis 5 oder der Vorrichtung nach Anspruch 6, 7 oder 8 zur Analyse von Proteinsequenzen.

10. Anwendung des Verfahrens nach einem der Ansprüche 1 bis 5 oder der Vorrichtung nach Anspruch 6, 7 oder Anspruch 8 zur Analyse von DNA-Sequenzen.

11. Anwendung des Verfahrens nach einem der Ansprüche 1 bis 5 oder der Vorrichtung nach Anspruch 6, 7 oder 8 zur Untersuchung und Bemusterung dreidimensionaler Proteindatenbanken.

12. Anwendung des Verfahrens nach einem der Ansprüche 1 bis 5 oder der Vorrichtung nach Anspruch 5, 6 oder 8 zur Untersuchung dreidimensionaler DNA-Strukturinformationen auf wiederkehrende Muster.

13. Anwendung des Verfahrens nach einem der Ansprüche 1 bis 5 oder der Vorrichtung nach Anspruch 5, 6 oder 8 zur interak^¬ tiven verzögerungsfreien Untersuchung von sequenzbasierten Datenmengen unterschiedlich strukturierter Makromoleküle.