Verfahren zur Suche nach in einem verteilten System aktuell oder früher gespeicherten Daten oder Daten enthaltenden Ressourcen unter Berücksichtigung des Zeitpunkts ihrer Verfügbarkeit
Die vorliegende Erfindung betrifft ein Verfahren zur Suche nach in einem verteilten System aktuell oder früher gespeicherten Daten oder Daten enthaltenden Ressourcen bzw. ein Verfahren zum Zugriff auf die Ressourcen eines verteilten Systems sowie zum Empfang und/oder zur Darstellung von in diesen Ressourcen aktuell oder früher gespeicherten Daten, wobei der Zeitpunkt der Verfügbarkeit der Daten in dem System berücksichtigt wird. Insbesondere betrifft die Erfindung ein Verfahren zur Suche bzw. zum Zugriff auf Daten des Internets.
Das Internet in der heutigen Form bietet die Möglichkeit, in kurzer Zeit auf umfangreiche Datenbestände und Informationen zuzugreifen. Dabei kann beispielsweise mit Hilfe sog. Suchmaschinen gezielt eine Recherche nach Daten durchgeführt werden, die vorgegebene Suchbedingungen erfüllen sollen. Die zur Verfügung stehenden Recherchemöglichkeiten sowie der Datenbestand, auf den zugegriffen werden kann, sind dabei im Vergleich zu einer klassischen Bibliothek wesentlich umfangreicher.
Ein für das Internet kennzeichnendes Merkmal ist allerdings, daß sich die zur Verfügung stehenden Informationen sehr schnell verändern. Der Inhalt sog. Websites wird dabei ja nach Art der darin enthaltenen Informationen in regelmäßigen Abständen oder sogar kontinuierlich aktualisiert. Die durchschnittliche Lebensdauer einer Website, d.h. der Zeitraum, in dem die Daten unverändert bleiben, beträgt nach Schätzungen etwa 70 Tage. Werden die Daten aktualisiert, so wurden bisher i.d.R. die ursprünglich zur Verfügung stehenden Daten nicht gespeichert oder archiviert, so daß diese unwiederbringlich verloren waren. Im Vergleich zu einer klassischen Bibliothek kann daher bei einer Recherche im Internet lediglich der aktuelle Wissensstand abgerufen werden. Wie sich dieser allerdings im Laufe der Zeit entwickelt hat, kann den im Internet zur Verfügung gestellten Daten nicht entnommen werden.
Da mittlerweile ein Großteil der Informationen ausschließlich im Internet zur Verfügung gestellt wird, besteht somit die Gefahr, daß ein nicht zu vernachlässigender Anteil an Daten und Wissen schon nach kurzer Zeit wieder verloren geht, dies auch aus dem Grund, da manchmal erst nach einem längeren Zeitraum die Relevanz der veröffentlichten Daten und Informationen erkennbar ist. Wurden diese zwischenzeitlich bereits wieder gelöscht, so besteht oftmals keine Möglichkeit, sie zu rekonstruieren. Folglich ist die Zitierbarkeit von Internet-Ressourcen stark eingeschränkt, da es
unsicher ist, ob Informationen bzw. Daten dauerhaft abrufbar bleiben. Entweder kann sich der Speicherort ändern, oder die Daten verschwinden ganz.
Oftmals ist es nicht nur von historischem sondern auch von praktischem Interesse, den zu einem bestimmten Zeitpunkt in einem bestimmten Gebiet vorliegenden Wissensstand zu kennen. So es ist es beispielsweise zur Beurteilung der Patentierbarkeit einer Erfindung erforderlich, den zum Zeitpunkt der Anmeldung der Erfindung zur Verfügung stehenden Stand der Technik zu berücksichtigen. Hierfür können die im Internet zur Verfügung gestellten Informationen allerdings nur bedingt herangezogen werden, da sie nur ein Abbild des aktuellen Wissensstandes liefern, i.d.R. jedoch keine Auskunft darüber geben, ab welchem Zeitpunkt dieses Wissen vorhanden war. Damit kann derzeit die Beurteilung von Erfindungen im wesentlichen nur anhand von gedruckten Veröffentlichungen erfolgen, die jedoch jetzt und in Zukunft in einem immer größeren Ausmaß einen im Vergleich zu den Daten des Internets nur geringfügigen Wissensbestand umfassen. Problematisch ist in diesem Zusammenhang ebenfalls, daß anders als bei gedruckten Werken bisher nicht zu verifizieren ist, wann diese Daten erstmals verfügbar waren.
Zwischenzeitlich wurden erste Versuche unternommen, die im Internet zur Verfügung gestellten Daten zu archivieren. So wurde beispielsweise das Internet-Archiv
(www.archive.org) eingerichtet, bei dem die Inhalte von Webseiten auf Datenbändern gespeichert werden, um den Verlust der darin enthaltenen Informationen bei einer
Änderung der Webseite zu vermeiden. Zusätzlich werden die gespeicherten Daten mit einer Information versehen, welche Auskunft darüber gibt, zu welchem Zeitpunkt die Daten gespeichert wurden. Damit besteht die Möglichkeit, den Informationsgehalt einer
Webseite zu einem früheren Datum durch Abruf der in dem Archiv gespeicherten Daten in Erfahrung zu bringen. Auch die Web-Seiten alexa.com und google.com speichern
Daten aus dem Internet, allerdings werden diese überschrieben, wenn neuere Daten derselben Ressource gespeichert werden, so daß nur immer die zuletzt gespeicherte Version öffentlich verfügbar ist.
Ferner ist aus der US 5,933,832 ein Verfahren zum Erstellen einer Datenbank bekannt, bei dem die gespeicherten Daten mit einem Zeitindex versehen werden, der Auskunft darüber gibt, wann die Daten erneuert wurden. Auch bei diesem Verfahren besteht allerdings nicht die Möglichkeit, gezielt nach Daten zu suchen bzw. auf solche Daten zuzugreifen, die zu einem bestimmten Zeitpunkt oder Zeitraum der Allgemeinheit zur Verfügung standen.
Eine weitere Möglichkeit besteht darin, Proxy-Server (Informationen zu dem Projekt iProxy von AT&T sind zu finden unter: http://www.research.att.com/~iproxy/archive/), welche den Zugang eines Internetbenutzers zu dem System vermitteln, in ihrem Umfang derart zu erweitern, daß sie für den jeweiligen Benutzer ein persönliches Archiv bilden. Der Benutzer hat dabei die Möglichkeit, eine aktuell aufgerufene Internetseite in dem persönlichen Archiv zusammen mit der Information des Zeitpunkts der Speicherung abzulegen. Greift er zu einem späteren Zeitpunkt auf sein persönliches Archiv zu, besteht für ihn die Möglichkeit, Seiten im wesentlichen so wiederherzustellen, wie sie zu einem früheren Zeitpunkt im Internet verfügbar waren. Der Inhalt dieses Archivs ist allerdings lediglich auf die von dem Benutzer gezielt ausgewählten und gesicherten Informationen beschränkt, so daß es keinen umfangreichen Überblick über den Wissensstand auf einem Themengebiet zu einem bestimmten Zeitpunkt liefert.
Ferner ist aus der US 5,933,832 ein Verfahren zum Erstellen einer Datenbank bekannt, bei dem die gespeicherten Daten mit einem Zeitindex versehen werden, der Auskunft darüber gibt, wann die Daten erneuert wurden. Auch bei diesem Verfahren besteht allerdings nicht die Möglichkeit, gezielt nach Daten zu suchen bzw. auf solche Daten zuzugreifen, die zu einem bestimmten Zeitpunkt oder Zeitraum der Allgemeinheit zur Verfügung standen.
Darüber hinaus besteht sowohl bei dem Internet-Archiv als auch bei dem persönlichen Archiv nicht die Möglichkeit, gezielt nach Informationen zu recherchieren, da es sich hierbei um reine Datenbanken handelt, welche nicht die Möglichkeit einer Suche unter bestimmten Suchbedingungen bieten.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Konzept zum Zugriff auf und zur Suche nach in einem verzweigten System aktuell oder ehemals gespeicherten Daten oder Daten enthaltenden Ressourcen anzugeben, wobei der Zeitpunkt der Verfügbarkeit der Daten berücksichtigt wird. Die Erfindung bezieht sich dabei nicht nur auf das Internet, sondern auf sämtliche verteilten bzw. vernetzten Systeme, welche Daten zur Verfügung stellen, also beispielsweise auch auf Intranets, Extranets, LANs, WANs oder MetropolitanANs.
Die Aufgabe wird durch die Verfahren bzw. Vorrichtungen der unabhängigen Ansprüche gelöst.
Ein erster Aspekt der Erfindung betrifft dabei ein Verfahren zur Suche nach in einem verteilten System aktuell oder ehemals gespeicherten Daten bzw. nach Ressourcen,
welche Daten enthalten. Unter Ressourcen sind dabei sämtliche eindeutig lokalisierbaren Speicherorte von Daten zu verstehen, im Falle des Internets beispielsweise die durch eine URL (Uniform Resource Locator) oder einen entsprechenden Standard lokalisierbaren Speicherorte. Unter den Daten sind dann die unter einer Ressource beispielsweise zur Verfügung stehenden Webseiten inklusive der darin enthaltenen und/oder der damit verbundenen Dateien zu verstehen. Streng genommen können diese wiederum, sofern sie eindeutig adressierbar sind, auch eine eigene Ressource darstellen. Der Klarheit halber soll im weiteren aber vorrangig von Daten gesprochen werden.
Das erfindungsgemäße Verfahren umfaßt dabei mehrere Schritte, wobei zunächst eine ein oder mehrere Suchbegriffe enthaltende Anfrage an eine Sucheinheit übermittelt wird. In einem weiteren Schritt wird in dem verteilten System nach Ressourcen oder Daten bzw. diese Daten betreffenden Informationen gesucht, welche die durch die Suchbegriffe defιnierte(n) Bedingung(en) erfüllen, und in einem abschließenden Schritt werden die mit der Suche gefundenen Daten und/oder Informationen bezüglich der Ressourcen, welche diese Daten enthalten, ausgegeben. Die Suche kann dabei, wie bei Suchmaschinen im Internet üblich, so ablaufen, daß nicht bei jeder Anfrage das verteilte System durchsucht wird, sondern daß die Suchmaschine mit einem Speicher verbunden ist, der Abbilder bzw. Hinweise („fingerprints") auf die im verteilten System vorhandenen Daten enthält. Es wird dann lediglich in diesem Speicher gesucht, und die Suchergebnisse verweisen dann auf die jeweiligen Daten bzw. Ressourcen im verteilten System. Erfindungsgemäß enthalten die Daten einen Zeitindex bezüglich des Zeitpunkts bzw. Zeitraums, zu dem sie in dem System verfügbar waren, wobei die Suchbegriffe ihrerseits einen Zeitparameter umfassen können, der die Suche auf den durch den Zeitparameter definierten Zeitpunkt und/oder Zeitraum einschränkt.
Das erfindungsgemäße Verfahren bietet somit die Möglichkeit, nicht nur nach bestimmten Ressourcen oder nach Informationen zu einem bestimmten Themengebiet bzw. zu bestimmten Suchbegriffen zu recherchieren, sondern darüber hinaus die Recherche auf bestimmte Zeiträume oder Zeitpunkte einzuschränken. Es wird damit die Möglichkeit eröffnet, den Wissensstand zu einem bestimmten Gebiet zu einem früheren Zeitpunkt in Erfahrung zu bringen und damit beispielsweise die zeitliche Entwicklung auf diesem Gebiet nachzuver folgen. Damit werden durch das erfindungsgemäße Verfahren die gleichen Möglichkeiten wie bei der Recherche in einer klassischen Bibliothek geboten, wobei aufgrund der computergestützten automatisierten Bearbeitung der Anfrage die Suche wesentlich einfacher und effizienter durchgeführt werden kann.
Weiterbildungen dieses erfindungsgemäßen Verfahrens zur Suche nach Daten bzw. Daten enthaltenden Ressourcen sind Gegenstand von Unteransprüchen. Insbesondere wird die Sucheinheit vorzugsweise durch ein Computerprogramm realisiert, welches beispielsweise von bestimmten Ressourcen des Systems zur Verfügung gestellt wird. Insbesondere betrifft dieser Aspekt der Erfindung eine Suchmaschine zur Suche nach in einem verteilten System gespeicherten Daten bzw. Daten enthaltenden Ressourcen, wobei die Suchmaschine derart ausgebildet ist, daß sie die Suche in der eben beschriebenen Weise durchführt.
Ein weiterer Aspekt der vorliegenden Erfindung betrifft ein Verfahren zum Zugriff auf Ressourcen eines verteilten Systems sowie zum Empfang und/oder zur Darstellung von in diesen Ressourcen aktuell oder früher gespeicherten Daten, wobei darunter auch der Zugriff auf die in einem Archiv oder Speichernetzwerk archivierten Daten zu verstehen ist. Dabei enthalten die Daten wiederum einen Zeitindex bezüglich des Zeitpunkts bzw. Zeitraums, zu dem sie in dem System verfügbar waren, wobei bei einer Darstellung der abgerufenen Daten gleichzeitig auch die in dem Zeitindex enthaltene Information angezeigt werden kann. Damit ist für einen Benutzer jederzeit erkennbar, zu welchem Zeitpunkt die dargestellten Daten zur Verfügung standen.
Auch dieses Verfahren wird vorzugsweise mit Hilfe eines Computerprogramms realisiert. Dieser Aspekt der Erfindung betrifft insbesondere einen Browser zum Zugriff oder eine in einem Browser realisierte Darstellung des Zugriffs auf die Ressourcen eines verteilten Systems. Weiterbildungen sind Gegenstand von weiteren Unteransprüchen.
Gemäß einem dritten Aspekt der Erfindung, der ebenfalls ein Verfahren zum Zugriff auf die Ressourcen eines verteilten Systems sowie zum Empfang und/oder zur Darstellung von in den Ressourcen aktuell oder früher gespeicherten Daten betrifft, erfolgt der Zugriff auf die Daten des Systems in Abhängigkeit von einem vorgebbaren Zeitparameter, wobei die in dem System gespeicherten Daten ebenfalls den Zeitindex bezüglich des Zeitpunkts bzw. des Zeitraums der Verfügbarkeit in dem System enthalten.
In Ergänzung zu dem zuvor beschriebenen Verfahren wird dabei nicht nur die in dem Zeitindex der Daten enthaltene Information dargestellt, vielmehr erfolgt nunmehr der Zugriff auf die Daten gezielt in einer Art und Weise, daß lediglich auf die zu einem vorgebbaren evtl. früheren Zeitpunkt oder Zeitraum zur Verfügung stehenden Daten zugegriffen wird. Es besteht damit die Möglichkeit, den Informationsgehalt von Ressourcen zu einem früheren Zeitpunkt zu ermitteln. Ferner wird damit die Möglichkeit eröffnet, sich nicht nur wie bisher lediglich in dem aktuell zur Verfügung
stehenden verteilten System sondern zusätzlich auch in einer zeitlichen Dimension zu bewegen. Beispielsweise kann hierdurch auf einfache Weise die zeitliche Entwicklung einer bestimmten Ressource beobachtet werden. Alternativ dazu könnte man sich nun in dem verteilten System derart bewegen, daß sich das System so verhält, wie es zu einem bestimmten früheren Zeitpunkt zur Verfügung stand.
Auch dieser dritte Aspekt der Erfindung betrifft insbesondere einen Browser zum Zugriff oder eine in einem Browser realisierte Darstellung des Zugriffs auf die Ressourcen eines verteilten Systems, dem ein Zeitparameter vorgebbar ist, wobei der Zugriff auf die Daten des Systems in Abhängigkeit von diesem Zeitparameter erfolgt. Weiterentwicklungen dieses Aspekts der Erfindung sind ebenfalls Gegenstand von Unteransprüchen .
Schließlich betrifft ein weiterer Aspekt der Erfindung ein Verfahren zur Archivierung von in einem verteilten System gespeicherten Daten. Dabei werden zunächst Daten aus dem verteilten System abgerufen bzw. empfangen, anschließend um einen Zeitindex bezüglich des Zeitpunkts bzw. Zeitraums, zu dem die Daten in dem System verfügbar waren, ergänzt, sofern die Daten noch keinen Zeitindex aufweisen, und schließlich in einem Datenarchiv bzw. einer Hinterlegungsstelle derart archiviert, daß ein Zugriff auf die Daten durch Suchmaschinen, Browser oder Programme erfolgen kann. Alternativ dazu kann die Archivierung an jeder beliebigen Stelle im verteilten System erfolgen, wobei dann zusätzlich in einer Hinterlegungsstelle eine die Daten betreffende Verifizierungsinformation archiviert werden kann.
Die vorliegende Erfindung bietet somit ein in sich geschlossenes Konzept, durch welches die Möglichkeit gegeben ist, den vollständigen Informationsgehalt der Daten eines verteilten Systems unter der Berücksichtigung der zeitlichen Entwicklung der Daten zu nutzen. Damit stehen komfortable und leistungsfähige Darstellungs- und Recherchemöglichkeiten zur Verfügung.
Im folgenden soll die Erfindung anhand der beiliegenden Zeichnung näher erläutert werden. Es zeigen:
Fig. 1 eine schematische Darstellung eines verteilten Systems zur Erläuterung der vorliegenden Erfindung;
Fig. 2 die Darstellung des Fensters eines erfindungsgemäßen Browsers, der die Möglichkeit bietet, beim Zugriff und bei der Darstellung von Daten den Zeitpunkt bzw. Zeitraum der Verfügbarkeit dieser Daten zu berücksichtigen; und
Fig. 3 die Darstellung einer erfindungsgemäßen Suchmaschine, welche die Möglichkeit bietet, bei der Suche nach Daten zeitliche Aspekte zu berücksichtigen.
Anhand von Fig. 1 soll zunächst der Aufbau eines vernetzten bzw. verteilten Systems mit den entsprechenden Ressourcen sowie die Art der zur Verfügung stehenden Daten näher erläutert werden. Dies erfolgt anhand des Beispiels des Internets, wobei sich die Erfindung jedoch auf sämtliche denkbaren verteilten Systeme bezieht, die Daten zur Verfügung stellen, also auch auf Intranets, Extranets, LANs, WANs und ' MetropolitanANs.
Das verteilte System 1 enthält im vorliegenden Fall eine Reihe von unterschiedlichen Ressourcen 4 bis 10 sowie 2b, d.h. von eindeutig lokalisierbaren Speicherorten, welche Daten enthalten. Im Falle des Internets sind diese Ressourcen 4 bis 10, 2b durch ihre URL lokalisierbar, im allgemeinsten Fall durch irgendeinen entsprechenden Standard. Genau genommen kann auch jeder Bestandteil einer Ressource, der selbst eindeutig lokalisierbar ist, eine eigene Ressource darstellen.
Die Ressourcen 5 bis 7 enthalten jeweils abrufbare Daten, beispielsweise im HTML- oder einem anderen Hypertext-Standard vorliegende Webseiten inklusive der damit verbundenen Dateien. Mit dem Bezugszeichen 2b wird ein Benutzer-Endgerät bezeichnet, das als Ressource fungieren kann, sofern die dort abgespeicherten Daten zum Bestandteil eines Speichernetzwerks gehören. Der Charakter des Speichernetzwerks wird später erläutert. Mit dem Bezugszeichen 8 wird eine weitere Ressource bezeichnet, bei der es sich um eine öffentliche Hinterlegungsstelle handelt. Von den Ressourcen 5 bis 7 zur Verfügung gestellte Daten können gezielt ausgewählt und in diese öffentliche Hinterlegungsstelle 8 - auch Trustcenter genannt - zur Datensicherung kopiert werden bzw. die Ressource 8 kann beauftragt werden, diese Daten zu kopieren. Die Funktion dieser Hinterlegungsstelle 8 wird zu einem späteren Zeitpunkt ausführlicher erläutert. Ferner ist ein Datenarchiv 9 Bestandteil des Systems 1 , in welchem systematisch die Daten bspw. der Ressourcen 6 und 7 zur Archivierung gespeichert werden. Schließlich beinhaltet das System 1 als weitere Ressourcen die Suchmaschinen 4a oder 4b, welche dazu dienen, einen mit dem System 1 verbundenen Benutzer, dargestellt durch ein weiteres Benutzer-Endgerät 2a, oder den Benutzer des Endgerätes 2b bei der Recherche nach von den Ressourcen 5-7, den Archiven 8, 9 oder den im Rahmen eines Speichernetzwerks 2b bzw. 10 zur Verfügung gestellten Daten zu unterstützen. In gleicher Weise können die Suchmaschinen 4a, 4b von Programmen genutzt werden, dargestellt bspw. durch einen intelligenten Agenten 12, die für andere Ressourcen, Archive oder Benutzer Recherchen automatisiert ausführen. Die
Sucheinheit 4c unterstützt dabei als bloße Schnittstelle nur die Recherche in den Archiven 8 und 9.
Die Verbindung des Benutzers 2a mit dem System 1 kann dabei über einen Proxy- Server 10 erfolgen oder aber direkt wie bei Benutzer 2b.
Weiterhin werden mit l la-d Privat- Archive bezeichnet, die Bestandteil der Ressourcen 2b, 8, 9 oder 10 sein können. Auch die Funktion dieser Privat-Archive l la-d wird später noch ausführlicher erläutert.
Bevor die erfindungsgemäßen Verfahren zur Suche und zum Zugriff auf Ressourcen bzw. Daten unter Berücksichtigung des Zeitaspekts erläutert werden, soll zunächst die Art der Archivierung der zur Verfügung stehenden Daten besprochen werden.
Die mit dem Index 1 versehenen Daten 5, bis l stellen dabei den von den Ressourcen 5 bis 7 zur Verfügung gestellten neuesten Datenbestand dar, d.h. diejenigen Daten, die zuletzt aktualisiert wurden. Die Ressource 5 beispielsweise stellt darüber hinaus neben den aktuellsten Daten 5! auch mehrere zu früheren Zeitpunkten veröffentlichte und nunmehr archivierte Daten 52 und 53 zur Verfügung. Im Falle des Internets entsprechen diesen archivierten Daten 52 und 53 Webseiten in einer Form, wie sie zu früheren Zeitpunkten zur Verfügung standen.
Diese archivierten Daten 52 und 53 können dabei im Originalformat mit sämtlichen Inhalten und gegebenenfalls den mittels Verweisen (Links) verknüpften Daten oder Ressourcen gespeichert werden, so daß sie beispielsweise durch einen Browser oder ein alternatives Wiedergabeprogramm lesbar und exakt so darstellbar sind, wie sie zu einem früheren Zeitpunkt zur Verfügung standen. Dies beinhaltet, daß bei der Archivierung beispielsweise auch die durch die Links verbundenen Download-Dateien, welche hinter der grafischen Oberfläche stehen (bspw. pdf-Dateien, Word-Dokumente usw.), gesichert werden. Enthalten die Daten darüber hinaus Scripts, Applets oder von anderen Ressourcen dynamisch eingebundene Inhalte, so können diese Inhalte ebenfalls archiviert werden.
Um eine Reduzierung des Datenumfangs zu erzielen, kann allerdings auch vorgesehen sein, die Daten 52, 53 komprimiert zu archivieren oder gegebenenfalls einzelne, für den Informationsgehalt nicht wesentliche Inhalte auszuschließen. Beispielsweise könnten die oftmals auf Internetseiten dargestellten Werbungen bzw. Werbebanner von der Archivierung ausgeschlossen werden. Beinhalten die Daten dynamische Inhalte oder Inhalte, welche von den Konfigurationen oder Angaben eines Nutzers abhängig sind, so
werden sie beim Archivieren vorzugsweise so gesichert, wie sie bei einem erstmaligen Aufruf standardmäßig erscheinen.
Der Zeitpunkt, wann Daten zur Archivierung gesichert werden, kann dabei je nach Art und Inhalt der Daten verschieden sein. So kann beispielsweise vorgesehen sein, daß die Daten in regelmäßigen Abständen wie z.B. einigen Tagen, Wochen oder Monaten gesichert werden. Eine andere Möglichkeit besteht darin, eine Archivierung lediglich dann vorzunehmen, wenn sich der Inhalt der Daten bis zu einem gewissen Grad geändert hat, was z.B. durch einen Vergleich zwischen den zuletzt archivierten und den aktuellen Daten ggf. mit Hilfe von Checksum- Verfahren oder dergleichen festgestellt werden kann. In diesem Fall kann zur Reduktion des Datenvolumens auch vorgesehen sein, daß nur relative Änderungen gespeichert werden und daß erst für den Fall, daß die Summe der Änderungen größer als eine komplette Neuspeicherung wäre, eine vollständige Archivierung der Daten vorgenommen wird.
Wesentlich ist, daß bei einer Archivierung von Daten die zuletzt gesicherten Daten nicht überschrieben werden und damit verloren gehen, sondern daß die Archivierung fortlaufend erfolgt, so daß die vollständige Entwicklung beispielsweise der von der Ressource 5 zur Verfügung gestellten Daten anhand der aktuellen Daten 5, sowie des Satzes archivierter Daten 52, 53 nachvollzogen werden kann.
Welche Daten und an welcher Stelle diese archiviert werden, kann ebenfalls von verschiedenen Bedingungen abhängen. So archiviert beispielsweise die Ressource 5 ihre Daten 5j bis 53 vollständig selbst und stellt damit einen vollständigen Datensatz zur Verfügung. Dies ist auch bei der zweiten Ressource 6 der Fall, in der ebenfalls die eigenen Daten 6 bis 63 im Laufe der Zeit archiviert werden, nicht aber bei Ressource 7. Das Archiv 9 kann den Anspruch erheben, alle im verteilten System 1 von den Ressourcen 5-7 zur Verfügung gestellten Daten 5 bis 53, 6, bis 63 und 7. zu archivieren. Dies gilt unabhängig davon, ob die Ressourcen ihre Daten selbst zum allgemeinen Zugriff archivieren wie Ressourcen 5 und 6, nicht aber die Ressource 7. Denkbar ist aber auch, daß nur die früheren Daten bestimmter Ressourcen archiviert werden - aus welchen Gründen auch immer: so im Beispiel die früheren Daten 6t und 7t der Ressourcen 6 und 7, nicht aber diejenigen der Ressource 5.
Dieses Archiv 9 kann aber auch dazu vorgesehen sein, nur die Informationen zu einem bestimmten Themengebiet zu archivieren. Werden von den Ressourcen 5-7 dieses Themengebiet betreffende Daten veröffentlicht, so werden diese systematisch in dem Archiv 9 archiviert.
Das Sichern oder Kopieren der Daten in das Archiv 9 kann beispielsweise mit Hilfe automatischer Robot- Verfahren erfolgen. Anhand der Adressierung, Vernetzung durch Querverweise, Aktualisierungshäufigkeit oder Relevanz der verschiedenen Ressourcen wird dabei mit Hilfe dieser Verfahren eine systematische Abfrage und Archivierung durchgeführt. Dabei besteht die Möglichkeit, sog. „selbstlernende" Verfahren zu verwenden, bei denen die Abfragehäufigkeit von der Aktualisierungsfrequenz der Daten sowie vom Ausmaß der Veränderungen abhängig gemacht wird. Das „Lernen" kann dabei mit Hilfe mathematischer Verfahren, beispielsweise auf Basis neuronaler Netze stattfinden, wobei die Abfragehäufigkeit selbständig angepaßt wird, um eine optimale Archivierung zu realisieren. Dies bedeutet z.B., daß die Archivierungsfrequenz erhöht wird, wenn die Daten häufiger aktualisiert werden, während im Gegensatz dazu eine Archivierung nur in großen Zeitabständen stattfindet, wenn die Daten über einen langen Zeitraum unverändert bleiben. Darüber hinaus kann auch die Art der inhaltlichen Änderungen berücksichtigt werden, wobei beispielsweise nur der Inhalt von in den Daten enthaltenen Texten zur Beurteilung berücksichtigt wird, ob eine Archivierung erfolgen soll oder nicht.
Neben einer systematischen Archivierung mit Hilfe von Robot-Verfahren kann allerdings auch vorgesehen sein, daß eine Archivierung lediglich aufgrund einer gezielten Aufforderung erfolgt. Beispielsweise kann die Ressource 6 von sich aus in regelmäßigen Abständen oder zu Zeitpunkten, zu denen die Daten aktualisiert worden sind, eine Archivierung in dem Archiv 9 veranlassen. Dies kann durch Applets, Scripts oder andere Softwarelösungen, die zur Einrichtung auf der entsprechenden Ressource bereitgestellt werden, realisiert werden. Dies ist insbesondere im Fall der Ressource 7 von Vorteil, da diese im Gegensatz zu den Ressourcen 5 und 6 selbst keine Archivierung der von ihr zur Verfügung gestellten Daten vornimmt. Werden im dargestellten Beispiel die Daten der Ressource 7 aktualisiert, so werden die zuvor zur Verfügung gestellten Daten in das Archiv 9 kopiert, so daß dieses einen vollständigen Satz der zu früheren Zeitpunkten zu Verfügung stehenden Daten 7, enthält. Selbstverständlich kann das Archiv 9 auch über Eingabe einer bestimmten Ressource durch einen der Benutzer 2a oder 2b aufgefordert werden, diese Daten bzw. Ressource zu archivieren. Die Schnittstelle für die Eingabe kann auf einer eigenen Ressource laufen oder softwaremäßig - bspw. in den Browser des Benutzers - integriert werden.
Das Archiv 9 kann auch Basis eines Expertensystems sein, welches die gezielte Ausgabe von Daten zu bestimmten Inhalten, Themen, Kategorien, Formaten und Zeitpunkten bzw. -intervallen erlaubt. Die Recherche in dem Archiv kann dabei über eine eigene Schnittstelle, beispielsweise eine Sucheinheit 4c erfolgen. Das Archiv 9 kann aber auch
so angelegt sein, daß schon im vorhinein nur durch inhaltliche oder andere Kategorien spezifizierte Daten archiviert werden.
Generell besteht auch die Möglichkeit, daß die archivierten Daten nur gegen Zahlung einer bestimmten Gebühr zugänglich sind, wobei die ursprünglichen Bereitsteller der Daten, d.h. die Ressourcen 6 und 7, von denen die Daten originär stammen, an den Einnahmen beteiligt werden können, zum Beispiel in der Abrechnungsform des Micropricing.
Eine andere Möglichkeit besteht darin, in den Archiven 8 und 9 Daten zu archivieren, welche in dem System 1 nicht direkt öffentlich zugänglich sind, sondern erst über eine weitere - gegebenenfalls paßwortgeschützte - Schnittstelle erreichbar sind. Dieses sogenannte „invisible net" oder „deep web" ist ein Bereich des Internets, der durch Benutzer nicht direkt durch die Ansteuerung von Ressourcen zugänglich ist; statt dessen ist dieser Bereich in Form von Datenbanken vorhanden, die über bestimmte Schnittstellen auf diesen Ressourcen abfragbar sind. Die Archivierung kann in diesem Fall einschließen, daß ein direkter Zugriff auf die hinter der Abfrageoberfläche stehenden Datenbanken zum Zwecke der Archivierung erfolgen kann, ggf. nach entsprechender Übereinkunft, die durch eine Softwarelösung zwischen Ressource und Archiv/Robot auch automatisch ausgehandelt werden kann.
Es kann vorgesehen sein, daß die Daten in den Archiven 8 und 9 mit einem zusätzlichen Vermerk indiziert werden, der besagt, daß ein Zugriff nur unter Gebührenzahlung oder auf andere Weise beschränkt möglich ist. Dabei kann vorgesehen sein, daß im Rahmen einer Recherche zwar die Verfügbarkeit dieser Daten angezeigt wird, ihr Abruf aber nur gegen Zahlung einer Gebühr möglich ist. Das kann auch einschließen, daß die Daten bereits durch die ursprüngliche Ressource 5-7 so gekennzeichnet sind, daß sie nur unter bestimmten Bedingungen, bspw. Gebührenpflichtigkeit, abgerufen werden können. Dies kann insbesondere für Daten aus dem „invisible net" gelten.
Andere Aufgaben erfüllt die öffentliche Hinterlegungsstelle bzw. das Trustcenter 8. Eine erste Aufgabe besteht darin, die Veröffentlichung bestimmter Daten der Ressourcen 5-7 dokumentieren bzw. verifizieren zu lassen. Ein Interesse an einer derartigen Archivierung kann beispielsweise dann bestehen, wenn nachgewiesen werden soll, daß bestimmte Informationen bereits zu einem bestimmten Zeitpunkt verfügbar waren. Beispielsweise ist damit eindeutig feststellbar, ob eine Information, welche der Patentierbarkeit einer Erfindung entgegenstehen würde, der Öffentlichkeit bereits vor dem maßgeblichen Prioritätsdatum der Anmeldung zur Verfügung stand. Es geht also
darum, Herkunft, Zeitpunkt und Inhalt von Daten und Ressourcen zu dokumentieren, zu verifizieren und vor Manipulation zu schützen.
Das Verfahren sieht vor, daß die Beauftragung der Hinterlegungsstelle 8, also die Aufforderung zur Archivierung, beispielsweise von Seiten eines Benutzers 2a oder 2b erfolgt, der eine Anweisung erteilt, bestimmte Daten von einer Ressource 5-7 abzufragen und in dem Trustcenter 8 - zusammen mit Angaben zu Zeitpunkt und Herkunft - abzulegen. Ebenso kann ein Ablegen von Daten im Trustcenter 8 aufgrund der Aufforderung durch eine Ressource erfolgen. Beides kann - wie bei der Speicherung im Archiv 9 beschrieben - sowohl manuell (also auf fallweise Aufforderung) als auch automatisch durch eine Softwarelösung erfolgen. Die Hinterlegung kann dabei auch umfassen, daß weitere Ebenen von mit den zu archivierenden Daten mittels Links verbundenen Dateien archiviert werden. Wieviele Ebenen dabei gespeichert werden sollen, kann von der Benutzerkonfiguration abhängig gemacht werden.
Damit zusammenhängend ergibt sich als Spezialfall auch die Möglichkeit, bestimmte - durch Abfragen, Benutzereingaben oder Voreinstellungen determinierte - dynamische Inhalte dokumentieren und verifizieren zu lassen. Dies ist bspw. dann von Relevanz, wenn (Kauf-) Verträge über das Internet geschlossen werden. Die Hinterlegung kann in diesem Fall so erfolgen, daß die Abfrage über die zwischengeschaltete Hinterlegungsstelle 8 läuft und so die dynamisch erzeugten Inhalte verifiziert und dokumentiert werden können. Eine andere Möglichkeit besteht darin, daß die Hinterlegungsstelle 8 die Anfrage quasi parallel mit der Konfiguration des Benutzers durchführt. Da diese Daten allgemein für die Öffentlichkeit nicht relevant sind bzw. im Gegenteil sogar aus Datenschutzgründen zu schützen wären, könnten diese entweder in einem nicht allgemein zugänglichen Bereich der Hinterlegungsstelle 8 abgelegt werden, der nur für einen oder mehrere näher bestimmte Benutzer einsehbar ist, bspw. in einem Privatarchiv 11c. Eine andere Möglichkeit besteht darin, nur einen Verifizierungsstempel zu vergeben, während die eigentlichen Daten beim Benutzer gespeichert werden. Die Funktionsweise des Verifizierungsstempels wird weiter unten noch erläutert
Eine weitere Aufgabe besteht darin, nach Aufforderung durch Benutzer 2a, 2b oder einen virtuellen Agenten 12 bestimmte Inhalte oder Ressourcen zitierfähig zu machen. Dazu muß sichergestellt werden, daß bestimmte durch Herkunft und Zeitpunkt charakterisierte Inhalte dauerhaft und unveränderbar gespeichert sind. Für die Speicherung von Daten als auch die Prüfung in bezug auf mögliche Veränderung von Daten während den Übertragungsvorgängen von und zum Trustcenter 8 können dabei
die Sicherheitskriterien gemäß des Signaturgesetzes verwendet werden. Das Verfahren gestaltet sich dabei wie zuvor beschrieben.
Eine dritte Funktion der Hinterlegungsstelle 8 kann darin bestehen, daß die Hinterlegungsstelle 8 unabhängig von einer Aufforderung zur konkreten Speicherung bestimmter Daten oder Ressourcen den bspw. mittels eines Expertensystems zusammengetragenen Wissensstand in einem bestimmten Gebiet zu einem bestimmten Zeitpunkt dokumentiert bzw. verifiziert. Das Trustcenter 8 kann also auch selbst, analog der in Bezug auf das Archiv 9 dargestellten Verfahren, Daten der Ressourcen 5- 7 archivieren. Insbesondere können Daten bestimmter Ressourcen in regelmäßigen Zeiträumen überwacht und ggf. gegen eine Gebühr automatisch archiviert werden.
Das Trustcenter 8 stellt sicher, daß die Verfügbarkeit der Daten jederzeit gewährleistet ist, gleichzeitig allerdings eine Manipulation ausgeschlossen ist, so daß die zu einem späteren Zeitpunkt aus dem Trustcenter 8 abgefragten Daten mit den ursprünglichen im verteilten System verfügbaren Daten identisch sind. Dazu können die entsprechenden Daten - wie oben beschrieben - komplett im Trustcenter 8 archiviert werden. Denkbar ist aber auch die Erstellung eines digitalen Verifizierungsstempels oder „Fingerprints" durch das Trustcenter 8. Der Stempel enthält codierte Angaben zu Zeitpunkt, Herkunft und Inhalt. Eine Kopie des Stempels wird in der Hinterlegungsstelle 8 abgelegt. Die Speicherung der Daten oder Ressourcen muß dann nicht im Trustcenter 8 erfolgen, sondern kann auch auf der Ressource 5-7, im Archiv 9 oder in einem persönlichen Archiv l la-b (also auch bei einem Benutzer, ggf. im Speichernetzwerk) stattfinden. Bei einem späteren Abruf der so gespeicherten und verifizierten Daten kann dann mittels Vergleich des Verifizierungsstempels oder des Fingerprints festgestellt werden, ob diese Daten mit den ursprünglich verifizierten identisch sind.
Vor allem unter Gesichtspunkten des Urheberrechts kann es angezeigt sein, daß eben nicht von allen Ressourcen Daten so gespeichert werden können, daß sie auf Dauer für alle öffentlich zugänglich sind oder sein sollen. In diesem Fall bleibt immer noch die Möglichkeit der dezentralen Speicherung bspw. beim Benutzer 2a bzw. 2b; im Trustcenter 8 würde wie ausgeführt nur eine Kopie des Verifizierungsstempels hinterlegt. Bezogen auf die ersten beiden Aufgaben des Trustcenters 8 kann vorgesehen sein, daß nach Abschluß des Verifizierungs- bzw. Archivierungsverfahrens der Benutzer oder im weiteren Sinn der Auftraggeber von der Archivierung/Verifizierung der Daten benachrichtigt wird, und ihm zusätzlich mitgeteilt wird, daß die von ihm spezifizierte Veröffentlichung bzw. Zitationsstelle dauerhaft dokumentiert bzw. zitierfähig ist.
Generell können die ersten beiden Aufgaben vom Trustcenter 8 gegen Bezahlung einer Gebühr übernommen werden bzw. die Nutzung von im Sinne der dritten Aufgabe archivierten bzw. verifizierten Daten gebührenpflichtig sein.
Parallel zu den bisher beschriebenen Verfahren zur Speicherung in Archiven 8 und 9 besteht die Möglichkeit zur Einrichtung von Persönlichen Archiven, auf die nur ein bestimmter Benutzer oder ein näher bestimmter Benutzerkreis Zugriff haben können. Diese können als „virtuelle Archive" konzipiert sein wie 11c und l ld, in denen Informationen aus den Archiven 8 und 9 nach Benutzerspezifikationen gefiltert und ggf. aufbereitet dargestellt werden. Im Persönlichen Archiv ist so ein Ausschnitt des Gesamtarchivs sichtbar. Beispielsweise kann auch eine Übersicht aller bisher veranlaßten Archivierungsvorgänge bzw. archivierten Daten angezeigt werden. Auch ist möglich, daß in diesen Privatarchiven 11c und lld Daten angezeigt werden, die zwar in den Archiven 8 und 9 gespeichert sind, aber die nur für einen bestimmten Benutzerkreis und nicht für die Allgemeinheit bestimmt sind. Demgegenüber stellen die Archive 11a und 11b tatsächliche Speicherorte in dem Sinn dar, als hier direkt Daten - zusammen mit Zeitpunkt und Herkunft - archiviert werden. Das persönliche Archiv 11b ist Bestandteil des Benutzer-Endgeräts 2b. Schließlich steht dem Benutzer 2a auch die Möglichkeit zur Verfügung, sich ein persönliches Archiv 11a zu erstellen, auf das ausschließlich er - oder ein näher bestimmter Personenkreis - über einen entsprechenden Proxy-Server 10 Zugriff hat.
Eine Archivierung in den persönlichen Archiven 11a und 11b kann beispielsweise automatisch dann erfolgen, wenn der Benutzer 2a oder 2b auf bestimmte Daten des Systems 1 zugreift. Wie bei dem Trustcenter 8 und dem Archiv 9 können jedoch auch automatische Verfahren zur Archivierung vorgesehen werden. Auch ist möglich, daß in die persönlichen Archive 11a und 11b Daten und Ressourcen dann archiviert werden, wenn der Benutzer durch direkte Eingabe in einer Schnittstelle durch eine Softwarelösung - bspw. als Schaltfläche in den Browser des Benutzers integriert - den entsprechenden Befehl gibt. Funktionelle Erweiterungen des Persönlichen Archivs 11c oder lld können eine Benachrichtigung des Benutzers bei Aufnahme neuer Daten betreffen.
Darüber hinaus kann vorgesehen sein, daß nicht nur der Benutzer 2a bzw. 2b Zugriff auf sein persönliches Archiv 11a bzw. 11b hat, sondern daß er dieses der Allgemeinheit zur Verfügung stellt. In diesem Fall hat das persönliche Archiv 11a bzw. 11b die gleiche Funktion wie das Archiv 9, beinhaltet allerdings lediglich die von den Benutzern 2a bzw. 2b persönlich darin archivierten Daten. Auf diese Weise ist die Möglichkeit gegeben, ein gesamtes Netzwerk von persönlichen Archiven zu Verfügung
zu stellen, also ein dezentrales Speichernetzwerk zu schaffen, welches insgesamt gesehen einen Großteil der durch das System 1 in der Vergangenheit zur Verfügung gestellten Daten beinhalten kann.
Wichtig ist zu bemerken, daß sämtliche archivierten Daten, unabhängig davon, ob sie von den Ressourcen 5 und 6 selbst, dem Trustcenter 8, dem Archiv 9 oder den privaten Archiven l la-b archiviert wurden, einen Zeitindex enthalten, der Auskunft darüber gibt, zu welchem Zeitpunkt bzw. in welchem Zeitraum die Daten in dem System verfügbar waren. Verfügbar soll dabei heißen, daß die Daten in diesem Moment grundsätzlich zugänglich sind. Der Zeitindex kann dabei ein-, zwei- oder mehrdimensional sein. Eindimensional bedeutet, daß lediglich ein singulärer Zeitpunkt der Verfügbarkeit festgehalten wird. Zweidimensional heißt, daß durch zwei Zeitpunkte ein Zeitintervall (Kontinuum) festgelegt wird, in dem die Daten verfügbar waren. Mehrdimensional heißt entsprechend, daß mehrere einzelne Zeitpunkte und/oder -intervalle der Verfügbarkeit festgehalten werden. Daten in einzelnen Ressourcen enthalten sinnvollerweise ein- oder vorzugsweise zweidimensionale Zeitindizes, archivierte Daten auch mehrdimensionale.
Die Festlegung des Zeitpunkts bzw. Zeitraums der Verfügbarkeit kann auf verschiedene Art und Weise erfolgen. Im einfachsten Fall verleiht die ursprüngliche Ressource 5-7 den Daten einen Zeitindex. Normalerweise wird dies der Zeitpunkt sein, zu dem die Daten erstmals veröffentlicht werden bzw. der Zeitraum von diesem Zeitpunkt der Veröffentlichung bis zum aktuellen Zeitpunkt oder dem Zeitpunkt der ersten Änderung. Der Zeitindex kann zusätzlich einen Hinweis darauf enthalten, nach welchem Zeitmaß er bestimmt wird (lokale Zeit, in der Regel aber wohl GMT).
Bei Abruf der Daten bzw. bei der Übernahme in eines der Archive 8, 9 oder 11a und 11b kann der durch die Ressourcen vergebene Zeitpunkt dann übernommen werden. Wenn die Ressource selbst keinen Zeitindex verleiht, kann der Zeitpunkt des Abrufs bzw. der Archivierung als Zeitindex verwendet werden; bei fortlaufender Überprüfung kann dies auch ein Zeitraum sein.
Aus verschiedenen Gründen können bei der Archivierung aber auch andere Zeitindizes vergeben werden. Insbesondere wenn es um die Verifizierung von bestimmten Daten und Zeitpunkten/-räumen geht - also bei der Archivierung im Trustcenter 8 - muß sichergestellt sein, daß die Daten zu den von der Ressource festgehaltenen Zeitpunkten auch tatsächlich zugänglich waren bzw. diese Daten nicht nachträglich geändert wurden. In diesem Fall wird das Trustcenter nur gesicherte Zeitpunkte für den Zeitindex aufnehmen können; dies ist bspw. der Moment des Abrufs dieser Daten
(durch einen Robot oder manuell). Ein Zeitraum (also ein Kontinuum der Verfügbarkeit) wird folglich nur festgehalten werden können, wenn eine fortlaufende Überprüfung der Zugänglichkeit bzw. Verfügbarkeit erfolgt. Dies kann durch eine Softwarelösung auch so geregelt sein, daß die Ressource regelmäßig das Trustcenter kontaktiert, solange die Daten verfügbar sind, bzw. bei Änderungen automatisch eine Benachrichtigung des Trustcenters 8 oder des Archivs 9 erfolgt.
Selbiges gilt sinngemäß für die Verifizierung mittels des Verifizierungsstempels. Um eine Verifizierung zu ermöglichen, muß der Verifizierungsstempel genau zu dem Zeitpunkt hinterlegt werden, den die Daten erhalten bzw. im Falle einer Verifizierung ist der Zeitindex, den die Daten aufweisen, automatisch der Zeitpunkt, zu dem der Verifizierungsstempel erstellt wurde.
Wichtig ist ferner anzumerken, daß sämtliche nicht in den ursprünglichen Ressourcen 5 und 6 archivierten Daten einen Verweis auf ihre ursprüngliche Herkunft enthalten.
Optional können die archivierten Daten weitere Vermerke beinhalten, beispielsweise die Verweise auf identische Daten von anderen Ressourcen, wodurch eine Verknüpfung von Daten ermöglicht wird, die von unterschiedlichen Ressourcen stammen, aber identische Inhalte haben. Eine mögliche Ausprägung eines solchen Verweises ist die Bezugnahme auf den URN (uniform resource name) eines Dokuments, also eines ressourcenunabhängigen Identifizierungsmerkmals für Daten. Dies alles wird dann wichtig, wenn es gilt, identische Daten aufzufinden, die im Laufe der Zeit unter verschiedenen Ressourcen auffindbar sind. Die Vermerke über identische Daten können auch durch Benutzereingabe in einer entsprechenden Schnittstelle ergänzt werden. Dies macht bspw. dann Sinn, wenn die Daten auf eine andere Ressource wechseln. Durch Benutzereingabe oder automatisch kann dies vermerkt werden, und in der Folge ist damit eine zeitliche Kontinuität der Daten hergestellt, auch wenn die Ressource gewechselt hat. Ferner können die Daten Sperrvermerke aufweisen, welche die Verfügbarkeit erst ab einem bestimmten Zeitpunkt oder gegen Zahlung einer Gebühr ermöglichen.
Grundsätzlich ist denkbar, daß die Vermerke zur Indizierung, Zeit, Verfügbarkeit, Gebührenpflichtigkeit, Vertraulichkeit, etc. zusammen mit dem Dateinamen als weitere Dateieigenschaften in der Ressource abgespeichert werden. Damit wäre auch eine direkter Zugriff mittels entsprechend erweitertem Locator auf diese Dateien möglich. Zusätzlich oder alternativ können diese Informationen auch in der Datei selbst (bspw. im Header bei HTML-Dokumenten) gespeichert werden. Denkbar ist aber auch, daß sämtliche oder ein Teil der Indizierungsinformationen zentral in einer eigenen
Datenbankdatei auf der entsprechenden Ressource oder einer anderen Ressource im verteilten System gespeichert werden. Eine direkte Adressierung (bspw. mittels erweitertem Locator) ist in diesem Fall nur insofern möglich, als die Zugriffsanfrage für eine bestimmte Datei erst an die Ressource mit den Indizierungsinformationen geleitet werden muß. Diese interpretiert entsprechend die Anfrage und leitet die Zugriffsanfrage dann so weiter, daß direkt auf die gewünschte Datei zugegriffen wird.
Im Falle des Internets besteht eine Möglichkeit der Adressierung der Daten in einer Erweiterung des URL-Standards zu einem erweiterten Locator, beispielsweise einem uniform resource and time locator (URTL). Dieser neue Locator für Ressourcen in verteilten Systemen enthält zusätzlich zur Adressierung der Ressource auch eine zeitliche Adressierung, ist also um eine Zeitkomponente bzw. einen Zeitparameter erweitert. In diesem Fall können unterschiedliche Daten, bspw. Web-Seiten, die im Laufe der Zeit unter ein und derselben URL erreicht werden, durch den erweiterten Locator einzeln angesteuert werden. Die zusätzliche Zeitangabe ist dabei ein weiterer Parameter bei der Adressierung, der beim Zugriff auf die Daten als solcher erkannt und direkt verarbeitet werden kann. Erfolgt eine Adressierung nach dem herkömmlichen Standard, also ohne eine Zeitangabe, so kann vorgesehen sein, daß standardmäßig ein Zugriff auf die aktuellsten Daten erfolgt.
Erfolgt eine Angabe mit dem erweiterten Locator, so kann ein expliziter Zugriff auch auf Daten erfolgen, die unter derselben Ressource, aber zu einem früheren Zeitpunkt verfügbar waren, bspw. die Daten 52.und 53 im Falle der Ressource 5. D.h. sie können direkt von der angesprochenen Ressource abgerufen werden. Weist diese zu diesem Zeitpunkt oder -intervall keine gespeicherten Daten auf, so kann ein automatischer Zugriff auf die Archive 8, 9, und/oder 11a und 11b vorgesehen sein. Wenn eine Ressource oder die Archive zu der im Locator angegebenen Zeit per se keine Daten aufweisen, so können automatisch die zeitlich nächstliegenden entsprechenden Daten aus der Ressource oder ggf. aus einem Archiv (8, 9, 11a, 11b) abgerufen werden. Auch kann vorgesehen sein, daß die Anfrage oder Zugriff an die Archive bzw. Suchmaschinen 4a, 4b weitergeleitet wird mit dem Ziel, eine Auswahl ähnlicher oder identischer Dokumente (z. B. mittels URN) bspw. in einem Pop-Up-Fenster einzublenden.
Wird der erweiterte Locator von Übertragungsprotokollen, der Netzinfrastruktur und/oder einzelnen Ressourcen des verteilten Systems nicht unterstützt, so kann der erweiterte Locator durch Ausnutzung der bisherigen URL-Spezifikationen simuliert werden, so daß eine zweidimensionale Adressierung nach Ressource und Zeit möglich
ist. Dies setzt voraus, daß die Ressourcen die so kodierten Angaben im URL-Format auch durch geeignete Softwarelösung interpretieren können.
Auf Benutzerseite kann die Simulation dieses neuen Standards durch eine softwaremäßige Erweiterung des Proxy-Servers 10 erfolgen, der die Anfragen nach Daten in Verbindung mit einem bestimmten Zeitpunkt in entsprechende Zugriffsbefehle auf die Ressourcen 5-7 oder Archive 8, 9, 11a und 11b umsetzt. Dasselbe kann auch durch entsprechende Erweiterung des Benutzer-Endgeräts, bspw. des Browsers, so erfolgen, daß die zweidimensionale Eingabe von Ressource und Zeit softwaremäßig in dem URL-Standard kodiert wird.
Im folgenden soll nun das erfindungsgemäße Verfahren zum Zugriff auf die einzelnen Ressourcen des Systems, sowie zum Empfang und/oder zur Darstellung der in den Ressourcen gespeicherten Daten erläutert werden. Dies soll insbesondere am Beispiel des Internets mit den speziellen Darstellungsmöglichkeiten in einem Browser erläutert werden.
Der Zugriff erfolgt dabei durch einen in dem Computer 2a oder 2b installierten Browser, über den Anfragen nach in bestimmten Ressourcen enthaltenen Daten - ggf. über einen Proxy-Server 10 - an die entsprechenden Ressourcen weitergeleitet werden. Fig. 2 zeigt dabei schematisch ein Fenster des auf dem Monitor 3 des Computers 2a dargestellten Browsers. In einem Adressenfeld 20 im oberen Bereich wird die Adresse der Ressource, auf die zugegriffen werden soll, dargestellt. Neben diesem Adressenfeld 20 ist ein weiteres Zeitfeld 21 angeordnet, welches Auskunft über den den dargestellten Daten beigefügten Zeitindex gibt.
Soll auf Daten zugegriffen werden, so ist in das Adressenfeld 20 die Adresse der gewünschten Ressource einzugeben, gleichzeitig kann in dem Zeitfeld 21 ein Zeitparameter angegeben werden, der Auskunft darüber gibt, zu welchem Zeitpunkt oder aus welchem Zeitraum die gewünschten Daten stammen sollen. Wird der Zeitparameter weggelassen, so kann standardmäßig wie oben dargestellt die jüngste Version der gespeicherten Daten angefordert werden. Freilich muß die Eingabe oder Ausgabe des Zeitparameters nicht über ein eigenes Zeitfeld erfolgen, sondern kann innerhalb des Adreßfelds als Bestandteil einer so erweiterten Adresse eingegeben bzw. angezeigt werden.
Die Eingaben von Adressen und Zeitparameter werden - ggf. über den Proxy-Server 10 - dann an die entsprechende Ressource 5-7 direkt weitergeleitet, ggf. im simulierten URTLocator. Führt diese Anfrage zu keinem Ergebnis (weil die Ressource nicht
erreichbar ist, weil sie den Standard nicht unterstützt oder weil sie zu diesem Zeitparameter keine Daten aufweist), wird die Anfrage an eines der Archive 8, 9 oder/und 1 la, b weitergeleitet.
Natürlich sind auch parallele Anfragen an Ressourcen und Archive denkbar. Wird festgestellt, daß mehrere Ressourcen oder Archive gleichzeitig die angefragten Daten zur Verfügung stellen, so werden bei mangelnder Übereinstimmung zwischen diesen Daten vorzugsweise die Daten aus dem Trustcenter 8 bzw. die mittels Verifizierungsstempel überprüften Daten abgerufen, da diese in jedem Fall vor einer nachträglichen Manipulation geschützt waren. Sind weder in der Ressource 5-7 noch in den Archiven 8, 9 und 11a, b Daten aus dem gewünschten Zeitraum vorhanden, so kann vorgesehen sein, daß automatisch entweder auf die von der Ressource aktuell zur Verfügung gestellten Daten zugegriffen wird oder daß nach Daten gesucht wird, welche vor oder nach dem gewünschten Zeitraum zur Verfügung standen. Alternativ können auch alternative Ressourcen ausgegeben und bspw. in einem zusätzlichen Fenster oder einem Teil des Browsers eingeblendet werden, die identische oder ähnliche Daten enthalten. Das Verfahren mittels URN oder Indizierungsvermerken ist weiter oben beschrieben.
Bei der Darstellung von Daten werden in dem Zeitfeld 21 gleichzeitig auch der Zeitindex bzw. die in dem Zeitindex enthaltenen Informationen für die im Browser- Fenster dargestellten Daten angezeigt, so daß jederzeit erkennbar ist, aus welchem Zeitraum die dargestellten Daten stammen. Natürlich ist auch eine alternative Darstellungsform denkbar, entweder implizit im Adreßfeld oder graphisch als Zeitbalken.
Da im Idealfall die Daten vollständig archiviert werden, kann im Falle des Internets eine archivierte Webseite genauso dargestellt werden, wie sie ursprünglich zur Verfügung gestanden hat. In diesem Fall erscheinen - wie in Fig.2 dargestellt - auch weniger relevante Informationen, wie z.B. Werbebanner 23 oder dergleichen. Werden jedoch die Daten wie zuvor beschrieben nur in komprimierter oder gefilterter Form archiviert, so kann vorgesehen sein, daß lediglich die wesentlichen Informationen, also Texte 24 und dazugehörige Figuren 25 dargestellt werden.
Mit dem Bezugszeichen 26 ist ein Link bezeichnet, der einen Querverweis auf weitere Daten oder Ressourcen darstellt. Da je nach Umfang der Archivierung die Daten archiviert werden können, auf welche der Link 26 verweist, führt in diesem Fall ein Anwählen dieses Links 26 automatisch zur Darstellung der diesem Link 26 - auch im zeitlichen Bezug - zugrundeliegenden Informationen. Dadurch ist die Möglichkeit
gegeben, zu einem fest vorgegebenen Zeitpunkt durch das System zu navigieren. Wurden die dem Link 26 zugrundeliegenden Daten jedoch weder auf der Ressource noch in einem der Archive 8, 9, 11a oder 11b gespeichert, so kann vorgesehen sein, daß ein Zugriff auf die dem vorgegebenen Zeitpunkt zeitlich nächsten verfügbaren Informationen erfolgt. Alternativ kann auch vorgesehen sein, daß zur Durchführung des Zugriffs ein neuer Zeitpunkt spezifiziert werden muß. Ggf. kann auch eine Übersicht über die Zeitpunkte, von denen Daten zur Verfügung stehen, eingeblendet werden (z. B. als Popup-Window).
Ferner ist auf einer Seite des Browser-Fensters eine Zeit-Leiste 22 dargestellt, welche die Möglichkeit bietet, auf der dargestellten Webseite in der Zeitdimension zu navigieren. Dies bedeutet, ein Anwählen des oberen Pfeils 22a führt automatisch zu einem Zugriff auf diejenigen Daten, welche nach den aktuell in dem Fenster dargestellten Daten archiviert wurden. Im Gegensatz dazu führt ein Anwählen des unteren Pfeils 22b automatisch zu einem Zugriff auf um einen Zeitschritt ältere Daten.
In dem in Fig. 2 dargestellten Browser können ferner Schaltflächen vorgesehen sein, durch welche zeitliche Toleranzen vorgegeben werden können, mit denen der eingegebene Zeitparameter behandelt werden soll. Beispielsweise kann hierdurch eingestellt werden, auf welche Weise bei Nicht- Verfügbarkeit von Daten aus einem gewünschten Zeitraum auf entsprechende Daten aus anderen Zeiträumen zugegriffen werden soll. Mit Hilfe einer anderen Schaltfläche können Voreinstellungen getroffen werden, ob und in welcher Reihenfolge auf die verschiedenen Datenbestände des Systems, d.h. beispielsweise zunächst direkt auf die Ressourcen 5-7 oder das persönliche Archiv l la-d, dann auf das Archiv 9 und schließlich auf das Trustcenter 8 zurückgegriffen werden soll.
Soll mit Hilfe des Browsers zwischen verschiedenen Ressourcen navigiert werden, so kann die durch das Zeitfeld 21 vorgegebene Zeitangabe aktiviert oder deaktiviert werden. Eine Aktivierung hat zur Folge, daß lediglich auf Daten, welche die in dem Zeitfeld 21 angegebene Zeit-Bedingung erfüllen, zugegriffen werden soll. Dies entspricht dem bereits zuvor beschriebenen Navigieren zu einem festen Zeitpunkt in der Vergangenheit. Durch die oftmalige Aktualisierung der in verteilten Systemen zur Verfügung gestellten Daten tritt allerdings häufig der Fall auf, daß Querverweise auf andere Daten zu Ressourcen führen, die gar nicht mehr erreichbar sind oder keine dem damaligen Kontext entsprechenden Daten mehr zur Verfügung stellen. Sofern auch in den Archiven 8, 9 und 11a und 11b die dem damaligen Zeitpunkt entsprechenden Daten nicht gespeichert sind, kann gemäß einer Weiterbildung des erfindungsgemäßen Verfahrens vorgesehen sein, daß in einem solchen Fall die Anfrage automatisch
erweitert wird in eine Suche nach den zuletzt archivierten Daten der gesuchten Ressource bzw. den relativ dem Suchzeitpunkt zeitlich am nächsten gelegenen Daten. Hierdurch wird gewährleistet, daß in jedem Fall die zuletzt zur Verfügung stehenden Daten angezeigt werden können. Eine Deaktivierung der durch das Zeitfeld 21 vorgegebenen Zeitangabe hat hingegen zur Folge, daß grundsätzlich die aktuellen oder zumindest die zuletzt verfügbaren archivierten Daten der entsprechenden Ressourcen dargestellt werden.
Eine Erweiterung kann ferner darin bestehen, daß in einem separaten Fenster Hinweise auf ähnliche oder identische Daten einer anderen Ressource dargestellt werden. Diese Informationen könnten einen Hinweis darauf liefern, daß die eigentlich gesuchte Ressource unter einer neuen Adresse erreichbar ist und die Daten lediglich auf dieser neuen Ressource aktualisiert werden. Ferner kann in einem Zusatzfenster angezeigt werden, welche Querverweise die dargestellten Daten aufweisen, bzw. welche anderen Daten Querverweise auf die im Browser-Fenster dargestellten Daten beinhalten. Die dazu benötigten Informationen basieren auf den weiter oben skizzierten Indizierungs- bzw. Verweisvermerken oder Suchmaschinen, die auch Inhalte kategorisieren können.
Schließlich können in den erfindungsgemäßen Browser Algorithmen implementiert werden, welche in Abhängigkeit von den bisher erfolgten Zugriffen des Nutzers den nächsten wahrscheinlichen Zugriff berechnen und automatisch bereits auf die entsprechenden Daten in dem System zugreifen. Dies ist bspw. hinsichtlich der gerade dargestellten Erweiterung relevant, wenn unter mehreren eingeblendeten, inhaltlich ähnlichen Alternativen eine ausgewählt werden soll.
Das erfindungsgemäße Verfahren bietet die Möglichkeit, sowohl zwischen verschiedenen Ressourcen als auch zusätzlich in der zeitlichen Dimension zu navigieren. Darüber hinaus kann durch entsprechende Erweiterungen sichergestellt werden, daß auch bei Einstellen des Betriebs einer Ressource die zuletzt zur Verfügung stehenden Daten in das Archiv 9 übernommen werden können und bei Anfragen an diese Ressource aus dem Archiv dargestellt werden.
Abschließend soll das erfindungsgemäße Verfahren zur Suche nach Daten bzw. nach Daten enthaltenden Ressourcen unter Berücksichtigung des Zeitpunkts bzw. Zeitraums der Verfügbarkeit erläutert werden.
Hierzu sind Suchmaschinen 4a und 4b vorgesehen, welche die Möglichkeit bieten, unter den von den verschiedenen Ressourcen 5-9 sowie 1 lb und ggf. 1 la des Systems 1 zur Verfügung gestellten Daten nach bestimmten Informationen zu recherchieren. Hierzu
wird von dem Benutzer 2a oder 2b in einem ersten Schritt eine ein oder mehrere Suchbegriffe enthaltende Anfrage an die Suchmaschine 4a oder 4b übermittelt. Diese recherchiert in dem System 1 nach Ressourcen oder Daten, welche die durch die Suchbegriffe bedingte(n) Bedingung(en) erfüllen. Die Suche kann dabei, wie bei Suchmaschinen im Internet üblich, so ablaufen, daß nicht bei jeder Anfrage das verteilte System (inkl. der Archive) durchsucht wird, sondern daß die Suchmaschine mit einem Speicher verbunden ist, der Abbilder der bzw. Hinweise („fingerprints") auf die im verteilten System vorhandenen Ressourcen und Daten enthält. Es wird dann lediglich in diesem Speicher gesucht, und die Suchergebnisse verweisen dann auf die jeweiligen Daten bzw. Ressourcen im verteilten System. Dieser Speicher kann wiederum - wie im Falle der Suchmaschine 4b - das Archiv 9 bzw. das Trustcenter 8 selbst sein. Die gefundenen Daten bzw. Informationen bezüglich der Ressourcen, welche die ermittelten Daten enthalten, werden dann zurück an den Benutzer 2a übermittelt. Fig. 3 zeigt ein Fenster einer derartigen Suchmaschine 4a oder 4b, wie es auf dem Monitor 3 des Benutzers 2a dargestellt wird. Dieses weist üblicherweise ein Eingabefeld 27 zur Eingabe von Suchbegriffen auf, nach denen in den zur Verfügung stehenden Ressourcen oder Daten recherchiert werden soll. Dabei können auch mehrere Suchbegriffe mit den üblichen Verknüpfungen (UND, ODER usw.) bzw. Ausschlußkriterien kombiniert werden.
Darüber hinaus weist die Suchmaschine eine oder mehrere Zeitparameterfenster 28, 29 auf, in welche Zeitangaben eingetragen werden können und so ggf. ein oder mehrere Zeitintervalle spezifiziert werden. Die Zeitangaben bestimmen als zusätzlichen Suchbegriff einen Zeitparameter, durch den die Suche auf Daten beschränkt wird, welche in dem vorgegebenen Zeitraum in dem System zur Verfügung standen. Damit besteht die Möglichkeit, nicht nur wie bisher unter den aktuellen Daten, sondern auch unter zu einem früheren Zeitpunkt zur Verfügung stehenden Daten zu recherchieren. Insbesondere besteht damit beispielsweise die Möglichkeit, lediglich solche Informationen zu einem bestimmten Thema abzurufen, die zu einem bestimmten Zeitpunkt in der Vergangenheit zur Verfügung standen. Die Daten oder die Daten enthaltenden Ressourcen können dann bspw. in Form einer Tabelle oder Liste 30 auf dem Bildschirm dargestellt bzw. als Katalog oder in anderer Weise, bspw. graphisch, aufbereitet werden.
Dabei kann vorgesehen sein, daß der Zugriff auf die Suchmaschine 4a oder 4b nicht in einem Browser, sondern über eine vorgeschaltete Eingabe-Schnittstelle im Sinne eines eigenen Softwareprogramms erfolgt. Diese Schnittstelle kann beispielsweise durch ein Zusatzprogramm oder dgl. realisiert werden, welches in dem Browser als separates Eingabefenster oder als Browsererweiterung erscheint. Diese Erweiterung bietet
zusätzlich die Möglichkeit, bestimmte Eingaben oder Fehlermeldungen aufgrund von NichtVerfügbarkeiten von Daten (im Sinne von hinter der Oberfläche stehenden Daten des „invisible net") oder Ressourcen („broken link") automatisch in entsprechende Anfragen an die Suchmaschine umzusetzen. Dies resultiert in einer neuen Suchanfrage bzw. einem neuen Zugriff auf Daten, welche dann automatisch aufgerufen, gegebenenfalls rekonstruiert und im Browser dargestellt werden. Darüber hinaus kann mit Hilfe dieser Schnittstelle ein Katalog zur Auswahl von bestimmten Begriffen oder Ressourcen, nach oder in denen recherchiert werden soll, dargestellt werden. Ferner kann mit dieser Schnittstelle eine Abfrage nach gespeicherten nutzerspezifischen Parametern erfolgen. Alternativ zu einem separaten Programm können die durch die Schnittstelle angebotenen Erweiterungen auch in den Browser integriert werden.
Analog zu der eben beschriebenen Eingabe-Schnittstelle kann auch eine entsprechende Schnittstelle für die Ausgabe von aus dem System erhaltenen Daten vorgesehen sein. Diese kann bei Eingabe von Suchbegriffen und/oder Ressourcen bzw. Gruppen von Ressourcen und/oder Zeit oder weiteren Parametern automatisch eine Präsentation der gefundenen Informationen in einer ein- oder mehrdimensionalen Ergebnisliste - gegebenenfalls sortiert nach den genannten Parametern oder anderen Relevanzkriterien - durchführen. Dabei kann vorgesehen sein, daß für den Fall, daß eine Abfrage zu einem eindeutigen Ergebnis führt - beispielsweise bei der Abfrage nach einer Ressource zu einer bestimmten Zeit - die Daten direkt im Originalformat dargestellt werden, während im Falle des Auffmdens mehrerer Daten, welche die Suchkriterien erfüllen, eine Präsentation in einer Ergebnisliste vorgesehen sein kann bzw. eine katalogisierte, kategor isierte oder graphisch aufbereitete Ausgabe erfolgt. Um die Darstellung im Originalformat zu ermöglichen, müssen ggf. von der Suchmaschine oder den Ressourcen für die Benutzer Programme oder Erweiterungen zur Verfügung gestellt werden.
Wird lediglich nach einer einzigen Ressource gesucht, so kann eine grafische Darstellung ihres Lebenszyklus - beispielsweise die zeitliche Entwicklung der auf ihr gespeicherten Daten (durch Kenntlichmachung der Veränderung) - oder aber ihre Vernetzung mit anderen Seiten und Ressourcen im zeitlichen Verlauf vorgesehen sein. Optional können Hinweise auf andere Ressourcen, welche ähnlich oder identisch sind oder einen gemeinsamen Ursprung haben, dargestellt werden. Ein Sortieren der aufgefundenen Daten kann bspw. mit Hilfe von neuronalen oder evolutionären Algorithmen erfolgen. Darüber hinaus kann vorgesehen sein, daß bei Auffinden mehrerer die Suchkriterien erfüllenden Daten die Ergebnisliste erneut durchsucht werden kann.
Das dargestellte erfindungsgemäße Verfahren zur Suche nach Daten und Daten enthaltenden Ressourcen unter Berücksichtigung der Zeit bietet dabei beispielsweise auch die Möglichkeit, explizit nach dem Parameter Zeit zu recherchieren, also beispielsweise nach Daten zu suchen, welche zu einem bestimmten Zeitpunkt oder innerhalb eines bestimmten Zeitraumes zur Verfügung standen bzw. welche sich innerhalb eines vorgegebenen Zeitraumes geändert haben. Die impliziert ebenso die Möglichkeit, nach Ressourcen oder Gruppen von Ressourcen zu suchen, auf denen sich innerhalb eines bestimmten Zeitraums Daten geändert haben.
Die vorliegende Erfindung bietet somit die Möglichkeit, in komfortabler Weise auf die in einem verteilten System zur Verfügung gestellten Ressourcen bzw. Daten zuzugreifen, bzw. nach Daten mit entsprechenden Informationen zu recherchieren und dabei gleichzeitig auch den Zeitraum der Verfügbarkeit dieser Daten zu berücksichtigen. Hierdurch kann der Informationsgehalt des zur Verfügung stehenden Datenmaterials äußerst effektiv genutzt werden.
Die erfindungsgemäßen Verfahren zur Suche nach und zum Zugriff auf die Ressourcen bzw. Daten werden dabei vorzugsweise durch Software-Programme realisiert. Ein Nachrüsten bereits vorhandener Suchmaschinen oder Browser, welche die erfindungsgemäßen Verfahren noch nicht unterstützen, kann dabei mittels Zusatzprogrammen oder Applets erfolgen.