WO2021190715A1

WO2021190715A1 - Computerimplementiertes verfahren und verteiltes speichersystem zum bereitstellen vertrauenswürdiger datenobjekte

Info

Publication number: WO2021190715A1
Application number: PCT/DE2021/200023
Authority: WO
Inventors: Albert Kos; Konrad Hilarius; Elmi Faisal Ali; Moritz GROH; Ronald Weber
Original assignee: Continental Automotive Gmbh; Continental Engineering Services Gmbh
Priority date: 2020-03-27
Filing date: 2021-02-25
Publication date: 2021-09-30
Also published as: DE102020204033A1

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bereitstellen, durch ein verteiltes Speichersystem mit einer Vielzahl an Rechnereinheiten, vertrauenswürdiger Datenobjekte zum Anlernen eines neuronalen Netzwerkes. Das Verfahren umfasst die folgenden Schritte: - Empfangen wenigstens einer Datenobjektinformation für ein bereitzustellendes Datenobjekt von wenigstens einer Rechnereinheit zum Anlernen eines neuronalen Netzwerkes; - Erfassen einer Adressinformation der wenigstens einen Rechnereinheit; - Bereitstellen des Datenobjektes an die Rechnereinheit auf Basis der empfangenen Datenobjektinformation; und - Zuordnen der erfassten Adressinformation der Rechnereinheit zu der Datenobjektinformation des bereitgestellten Datenobjektes und Speichern der Datenobjektinformation mit der zugordneten Adressinformation in dem verteilten Speichersystem.

Description

Beschreibung

Computerimplementiertes Verfahren und verteiltes Speichersystem zum Bereitstellen vertrauenswürdiger Datenobjekte

Die vorliegende Erfindung bezieht sich auf das Bereitstellen vertrauenswürdiger Datenobjekte zum Anlernen eines neuronalen Netzwerkes und betrifft insbesondere ein computerimplementiertes Verfahren, ein verteiltes Speichersystem und ein Computerprogramm.

Um neuronale Netzwerke und/oder weitere Algorithmen des maschinellen Lernens anzulernen und/oder zu trainieren, werden Datensätze, insbesondere eine große Anzahl an Datensätzen benötigt. Damit diese Datensätze für das Trainieren verwendet werden können, wird der Inhalt der Datensätze über Metadaten beschrieben. Metadaten stellen hierbei strukturierte Daten dar, welche Informationen über Merkmale anderer Daten enthalten. Den Inhalten der Datensätze werden durch ein sogenanntes Labein die Metadaten, entsprechende Labels, zugewiesen. Die Datensätze können von einem menschlichen Analysten (Experten, Data Scientist, usw.) oder von einer Maschine automatisch gelabelt werden. Ferner ist es denkbar, dass die Datensätze synthetisch erzeugt werden (Groh, Synthetic Data as a Service). Nachteilig ist, dass die Datensätze oftmals sehr groß, im Sinne der Anzahl der Daten oder des Speicherbedarfs, sind und über unterschiedliche Quellen zur Verfügung gestellt werden. Zudem ist nachteilig, dass oftmals nur ein spezieller Teil der Inhalte der Datensätze benötigt wird, um das neuronale Netzwerk und/oder einen Algorithmus zu trainieren. Um diesen Nachteil zu überwinden, werden Daten mehrfach auf verschiedenen Datenträgern, beispielsweise Festplatten, USB Stick, usw., abgelegt um die Datensätze nicht immer von einem Server herunterladen zu müssen, bevor das neuronale Netzwerk und/oder ein Algorithmus trainiert werden kann.

Die Datensätze werden im heutigen Stand der Technik überwiegend durch einen Webserver unter Verwendung einer Adresse, welche auf den Speicherort des Datensatzes verweist, in Form einer URL (Uniform Resource Locator) bereitgestellt. Ein anderer Ansatz Datensätze bereitzustellen besteht darin, die Datensätze über ihren Inhalt zu organisieren (Content based vs. Address based), wie es beispielsweise bei BitTorrent, Mule oder IPFS umgesetzt ist.

Ferner sind im Stand der Technik Indexstrukturen bekannt. Indexstrukturen werden in der Informatik verwendet, um den Zugriff auf eine Datensammlung zu ermöglichen. In Flashtabellen bzw. Streuwerttabellen organisierte Daten können durch einen Merkle Tree Proof vor der Veränderung durch nicht autorisierte Anwender geschützt werden, bzw. kann ermittelt werden, welcher Teil des Datensatzes, bzw. welche Daten verändert wurden. Weiterhin sind Signaturen und Public Key Infrastrukturen bekannt. Diese ermöglichen es, die Quelle der Daten zu verifizieren und den Zugriff auf die Datensätze zu koordinieren.

Zum Trainieren von neuronalen Netzwerken oder anderer Entitäten künstlicher Intelligenz werden entsprechende Daten benötigt. Nachteilig ist hierbei, dass die Qualität des Anlernens von der Qualität der bereitgestellten Daten abhängt. Zudem wird erschwert, entsprechend qualitativ notwendige Daten für das Trainieren bereitzustellen. Beispielsweise werden Label unterschiedlich definiert, beispielsweise durch eine andere Sprache, Bedeutung, usw., womit die gelabelten Datensätze nicht immer im gleichen Rahmen verwendet werden können. Ferner werden Datensätze kopiert und zur Verfügung gestellt, wobei zum Teil nicht eindeutig erkennbar ist, wer die Datensätze zur Verfügung gestellt und/oder gelabelt hat. Weiterhin können Datensätze in der Version und im Inhalt auseinanderlaufen oder es werden Datensätze kopiert, obwohl dies für das Trainieren des neuronalen Netzwerkes und/oder der künstlichen Intelligenz nicht benötigt werden.

Zudem kann der Fall eintreten, dass ein Anwender wissen möchte, ob die verwendeten Datensätze aus einer vertrauenswürdigen Quelle stammen und durch diese gelabelt wurden. Zudem kann der Fall eintreten, dass für ein Trainieren eines neuronalen Netzwerkes und/oder künstlicher Intelligenz nur Datensätze verwendet werden sollen, die durch einen spezifischen Anwender, beispielsweise Anwender A oder B, allerdings nicht durch Anwender C gelabelt wurden. Ferner ist es notwendig, dass Datensätze dort zur Verfügung gestellt werden, wo diese benötigt und eingesetzt werden. Neben dem Kopieren der Datensätze wird oftmals eine Konvertierung (z.B. png nach jpg) durchgeführt. Dies erfolgt durch jede Zielplattform selber, wenn die Datensätze zentral organisiert sind und der Zielplattform nicht bekannt ist, dass der Datensatz bereits in entsprechend konvertierter Form an einer anderen Stelle verfügbar und abrufbar ist.

Ausgehend davon, liegt der vorliegenden Erfindung die technische Aufgabe zugrunde, einen Datensatz, insbesondere Datenobjekte verfügbar zu machen bzw. für ein Anlernen eines neuronalen Netzwerkes (oder einer anderen Entität künstlicher Intelligenz) bereitzustellen.

Diese Aufgabe wird durch die Gegenstände der unabhängigen Ansprüche gelöst, insbesondere durch ein computerimplementiertes Verfahren, ein verteiltes Speichersystem und ein Computerprogramm. Vorteilhafte Ausführungsformen der Erfindung sind in den abhängigen Ansprüchen und der nachfolgenden Beschreibung beschrieben.

Gemäß einem ersten Aspekt bezieht sich die Erfindung somit auf ein computerimplementiertes Verfahren zum Bereitstellen vertrauenswürdiger Datenobjekte zum Anlernen eines neuronalen Netzwerkes. Die Datenobjekte werden durch ein verteiltes Speichersystem mit einer Vielzahl an Rechnereinheiten bereitgestellt. Im Sinne der vorliegenden Erfindung ist unter einem verteilten Speichersystem ein Verbund von Rechnereinheiten (z.B. Server, PC, usw.) zu verstehen, die über ein Kommunikationsmedium (z.B. Internet, Intranet) kommunizieren und Daten austauschen. Die Rechnereinheiten können physikalische Rechner (z.B. Server, PC, Laptop, datenverarbeitende Einheiten, usw.) umfassen, welche eine Schnittstelle (z.B. LAN, WLAN, Bluetooth, usw.) zur Kommunikation in einem Netzwerk aufweisen. Ferner können die Rechnereinheiten des verteilten Speichersystems gehostet auf anderen Servern bereitgestellt werden. Das computerimplementierte Verfahren umfasst vorzugsweise die folgenden Verfahrensschritte: - Empfangen wenigstens einer Datenobjektinformation für ein bereitzustellendes Datenobjekt von wenigstens einer Rechnereinheit zum Anlernen eines neuronalen Netzwerkes;

- Erfassen einer Adressinformation der wenigstens einen Rechnereinheit;

- Bereitstellen des Datenobjektes an die Rechnereinheit auf Basis der empfangenen Datenobjektinformation; und

- Zuordnen der erfassten Adressinformation der Rechnereinheit zu der Datenobjektinformation des bereitgestellten Datenobjektes und Speichern der Datenobjektinformation mit der zugordneten Adressinformation in dem verteilten Speichersystem.

Im Sinne der vorliegenden Erfindung ist unter einem Datenobjekt ein Datensatz, eine Formel, ein Analyseobjekt und/oder ein Datenverknüpfungsobjekt zu verstehen, welche Daten enthalten bzw. ein Berechnungsergebnis bereitstellen. Daten können visuelle Daten, beispielsweise graphische oder textuelle Daten und/oder Audiodaten und/oder Bilder umfassen.

Weiterhin ist unter einer Datenobjektinformation eine Information zu verstehen, die Merkmale eines Datenobjektes durch eine weitere Information beschreibt. Beispielsweise kann ein Datenobjekt ein Bild mit drei Elementen, beispielsweise einem Kreis, Quadrat und Rechteck umfassen. Die Datenobjektinformation kann die in dem Datenobjekt enthaltenen drei Elemente durch entsprechende Information beschreiben. Beispielsweise können die jeweiligen Elemente durch ein Label versehen werden, welches die geometrische Ausgestaltung des Elementes, z.B. Label „Kreis“ für Element „Kreis“ beschreibt.

Zudem ist unter einer Adressinformation eine Adresse der Rechnereinheit zu verstehen, unter welcher die Rechnereinheit in einem Netzwerk identifizierbar ist. Dies kann beispielsweise über die MAC-Adresse (Media Access Control) der Netzwerkschnittstelle der Rechnereinheit erreicht werden. Alternativ oder zusätzlich ist unter einer Adressinformation der Rechnereinheit der Speicherbereich zu verstehen, unter der die Datenobjekte abrufbar und/oder ab speicherbar sind. Weiterhin kann die Adressinformation einen Public Key umfassen, welcher einer Rechnereinheit eindeutig zu geordnet ist und durch den die Rechnereinheit eindeutig identifizierbar ist. Weiterhin ist es notwendig, dass die Datenobjekte inhaltsbasiert erkannt und abgerufen werden. In einer Ausführungsform kann die Inhaltserkennung als ein Label implementiert sein, welches auf den Inhalt (Objekt) im Speicher und/oder Speichermedium verweist. Diesbezüglich kann es eine Art Adresse ausbilden, welche auf dem Inhalt selbst basiert, bzw. auf dem Inhalt basierend ausgebildet ist. In vorteilhafter Weise sind Inhaltserkennungen unabhängig von der Größe und des zugrunde liegenden Inhaltes identifizierbar.

Die Inhaltserkennungen können auf einem kryptografischen Hash des Inhaltes basierend aufgebaut sein. Somit kann in vorteilhafter Weise jeder Unterschied im Inhalt eine andere Inhaltserkennung erzeugen und das gleiche Fragment des Inhaltes, das zwei unterschiedlichen Speicher-Knoten (Speicherbereichen) im gleichen Netzwerk hinzugefügt wird, kann genau dieselbe Inhaltserkennung erzeugen. Von Vorteil ist diesbezüglich, dass die Adressinformation über die Inhaltserkennung bezogen werden kann.

Ein Public-Key-Verfahren ermöglicht somit die Adressinformation zu verifizieren. Somit kann sichergestellt werden, dass die Datenobjekte von einer vertrauenswürdigen Stelle an einer Adresse abgelegt werden. In einer Ausführungsform kann das durch ein Signieren der Adressinformation erfolgen.

Der vorliegenden Erfindung liegt die Kenntnis zu Grunde, dass zum Trainieren eines neuronalen Netzwerkes und einer künstlichen Intelligenz Daten aus großen Datenbanken mit unterschiedlichen Datensätzen verwendet werden. Allerdings sind die gespeicherten Datensätze nicht alle für jedes spezielle Training relevant oder wurden von einer vertrauenswürdigen Stelle gelabelt oder synthetisch erzeugt.

In vorteilhafter Weise werden durch die vorliegende Erfindung anhand benötigter Datenobjektinformation, beispielsweise Labels oder Attribute, direkt relevante Datenobjekte zur Verfügung gestellt. Ferner wird sichergestellt, dass die bereitgestellten Datenobjekte von einer vertrauenswürdigen Stelle gelabelt bzw. synthetisch erzeugt wurden. Zudem können große Datenmengen, um z.B. ein neuronales Netzwerk oder eine künstliche Intelligenz zu trainieren, unter Verwendung des verteilten Speichersystems da zur Verfügung gestellt werden, wo sie verwendet werden. Während der Nutzung ist somit keine Bereitstellung und Übertragung von einer zentralen Einheit mehr notwendig, womit Bandbreite und Übertragungszeit gespart werden.

Vorteilhafte Ausführungsformen und Weiterbildungen ergeben sich aus den Unteransprüchen, sowie aus der Beschreibung unter Bezugnahme auf die Figuren.

In einer Ausführungsform der Erfindung umfasst das Verfahren weiterhin den Schritt: Anlernen eines neuronalen Netzwerkes durch die Rechnereinheit unter Verwendung des bereitgestellten Datenobjektes. In vorteilhafter Weise kann ein neuronales Netzwerk mittels den bereitgestellten Datenobjekten trainiert werden, welche als vertrauenswürdig zu erachten sind. Durch die vorliegende Erfindung kann nachvollzogen werden, wie und von wem (Mensch oder Maschine) die Datenobjektinformation dem Datenobjekt zugeordnet wurden sind. Mit Kenntnis dieser Information, kann das bereitgestellte Datenobjekt als vertrauenswürdig bzw. als nicht vertrauenswürdig eingestuft werden. Unter vertrauenswürdig ist somit zu verstehen, dass der Instanz (Rechner, Anwender), welche das Datenobjekt bereitstellt, vertraut werden kann, bzw. die Instanz bekannt ist, welche das Datenobjekt bereitstellt und/oder eine Datenobjektinformation des Datenobjektes beinhaltet und/oder speichert.

In einer Ausführungsform der Erfindung wird der Datenobjektinformation wenigstens eine Adressinformation wenigstens einer Rechnereinheit des verteilten Speichersystems zugeordnet. Die Adressinformation umfasst die Adresse der Rechnereinheit, welche ein Datenobjekt über die zu erfassende Datenobjektinformation angefordert hat. Über die zugeordnete Adressinformation wird zugeordnet, welche Rechnereinheit das Datenobjekt bereitstellen kann oder bereitstellt.

In einer Ausführungsform der Erfindung umfasst die Adressinformation eine physikalische Hardwareadresse der Rechnereinheit, eine Speicheradresse eines Speichers der Rechnereinheit und/oder einen öffentlichen Schlüssel. Über die physikalische Hardwareadresse, beispielsweise die MAC-Adresse der Kommunikationsschnittstelle der Rechnereinheit, kann diese Rechnereinheit identifiziert und die Datenobjektinformation bzw. das Datenobjekt von der dieser Rechnereinheit bereitgestellt zugeordnet werden. Alternative Ausführungsformen umfassen die Verwendung einer Speicheradresse, welche den Speicherort des Datenobjektes beinhaltet oder einen öffentlichen Schlüssel, welcher die Adresse der Rechnereinheit umfasst. Somit kann jede Rechnereinheit, welche Datenobjekte bereitstellt, identifiziert werden.

In einer Ausführungsform der Erfindung repräsentiert die Datenobjektinformation ein Datenobjekt und weist wenigstens ein dem Datenobjekt zugeordnetes Label oder Attribut auf. Die Datenobjektinformation umfasst eine Information, die ein Datenobjekt repräsentiert. Insbesondere umfasst die Datenobjektinformation eine Information, die ein Datenobjekt und deren Elemente beschreibt. Vorzugsweise umfasst die Information ein Label, welches dem Datenobjekt zugeordnet ist. Das Label definiert das Datenobjekt und/oder ein und/oder weitere Elemente des Datenobjektes. Das Label definiert Informationen, welche durch ein neuronales Netz mit dem Datenobjekt in Verbindung gesetzt werden und zum Anlernen dienen können, insbesondere beim „supervised learning“. Alternativ oder ergänzend umfasst das Datenobjekt Attribute, welche beschreibende Eigenschaften des Datenobjektes und/oder von Elementen des Datenobjektes umfassen. Die Attribute werden mit den Datenobjekten in Verbindung gesetzt und bilden Beziehungen aus, welche entsprechend in einer Trainingsphase für ein neuronales Netzwerk und/oder eine künstliche Intelligenz eingesetzt werden können.

In einer Ausführungsform der Erfindung wird die Datenobjektinformation durch einen Anwender erzeugt. Die Labels und/oder Attribute als Datenobjektinformation werden durch einen Anwender spezifiziert und entsprechend der Interpretation der Datenobjekte gewählt und diesen zugewiesen.

In einer Ausführungsform der Erfindung wird die Datenobjektinformation durch eine Rechnereinheit automatisch und/oder synthetisch erzeugt. Über die Datenobjektinformationen kann das Datenobjekt synthetisch erzeugt werden. Beispielsweise kann unter Zuhilfenahme der Metadaten, (z.B. ein Kreis, ein Quadrat) ein Bild mit einem Kreis und einem Quadrat erzeugt werden. Damit muss das Datenobjekt in einem weiteren Verarbeitungsschritt nicht zusätzlich gelabelt werden. Das Datenobjekt wird durch seine Labels automatisch erzeugt. In vorteilhafter Weise können somit die Datenobjekte auch dynamisch mit Hilfe der Inhaltserkennung erzeugt werden, wenn ein Dienst (Service) in der Lage ist, durch die Labels Datenobjekte zu erzeugen. Dies setzt voraus, dass die Inhaltserkennung die Labels einem Datenobjektgeneratordienst (Service) zur Verfügung stellt. Dieser Service stellt die Datenobjekte dann auf eine oder mehrere Adressen über eine einzige Inhaltserkennung zur Verfügung.

In einer Ausführungsform der Erfindung wird die erfasste Adressinformation der Datenobjektinformation verschlüsselt und/oder signiert zugeordnet. In vorteilhafter Weise kann somit die Adressinformation bzw. eine Adressliste durch einen Anwender signiert oder verschlüsselt werden, womit der Zugriff für weitere Anwender, insbesondere nicht berechtigte und/oder nicht vertrauenswürdige Anwender, auf die Datenobjektinformation und somit auf die Datenobjekte eingeschränkt wird. Ein Anwender mit eingeschränktem Zugriff kann somit selbst nicht entsprechende Datenobjekte bzw. Datenobjektinformationen zum Anlernen eines neuronalen Netzwerkes über eine Rechnereinheit bereitstellen. Unter einer Adressliste ist eine Sammlung an Adressinformationen zu verstehen. In einer Ausführungsform kann die Adressliste in einer Datenbank in der Rechnereinheit, von der das Datenobjekt zur Verfügung gestellt wird, gespeichert sein.

In einer Ausführungsform der Erfindung umfasst das Verschlüsseln und/oder Signieren ein symmetrisches Verschlüsselungsverfahren. Über ein symmetrisches Verschlüsselungsverfahren werden die Verschlüsselung und Entschlüsselung mit demselben Schlüssel durchgeführt. Somit wird vor der Verschlüsselung durch die beteiligten Parteien ein geheimer Schlüssel vereinbart bzw. ausgetauscht und der Schlüssel muss ebenso geheim gehalten werden, um eine Veränderung der Adressinformation und/oder der Adressliste zu unterbinden. Durch das symmetrische Verschlüsselungsverfahren kann eine schnelle Verschlüsselung bereitgestellt werden. In einer alternativen Ausführungsform der Erfindung umfasst das Verschlüsseln und/oder Signieren ein asymmetrisches Verschlüsselungsverfahren. In dem asymmetrischen Verschlüsselungsverfahren werden zwei Schlüssel zum Verschlüsseln und Entschlüsseln eingesetzt. Es werden ein öffentlicher Schlüssel, welcher für jeden zugänglich ist und ein privater Schlüssel, welcher geheim gehalten werden muss, bereitgestellt. Die Adressinformation wird mit dem öffentlichen Schlüssel verschlüsselt und kann nur mit dem privaten Schlüssel entschlüsselt werden. Hier muss der (öffentliche) Verschlüsselungsschlüssel nicht geheim gehalten werden. Allerdings ist sicherzustellen, dass der öffentliche Schlüssel auch wirklich zu dem Empfänger gehört.

In einer Ausführungsform wird das RSA Verfahren sowohl zum Verschlüsseln als auch zum digitalen Signieren der Adressinformation verwendet. Wie bereits ausgeführt, wird ein Schlüsselpaar verwendet, bestehend aus einem privaten Schlüssel, der zum Entschlüsseln oder Signieren von Daten verwendet wird, und einem öffentlichen Schlüssel, mit dem verschlüsselt werden kann oder Signaturen überprüft werden. Der private Schlüssel ist hier geheim zu halten und kann nicht aus dem öffentlichen Schlüssel berechnet werden. Durch das asymmetrische Verschlüsselungsverfahren kann eine sichere Verschlüsselung bereitgestellt werden.

In einer Ausführungsform der Erfindung werden die Datenobjektinformation und die erfasste Adressinformation gehashed als entsprechende Hashblätter in dem verteilten Speichersystem gespeichert. Insbesondere dienen die Datenobjektinformation und die erfasste Adressinformation als Hashblätter aller zu erstellenden Hashbäume. Durch die Hashblätter und deren Zuordnung zu Hashbäumen kann nachvollzogen werden, insbesondere nicht-manipulierbar nachvollzogen werden, welche Datenobjekte bereitgestellt wurden und auf welcher Rechnereinheit des verteilten Speichersystems diese gespeichert sind. Somit kann die Sicherheit vor Manipulation erhöht werden. Zudem wird die Nachvollziehbarkeit des Datenaustausches bzw. der Datenobjektduplizierung durch Kopieren der Datenobjekte effizienter und transparenter nachvollziehbar. Ferner werden die Datenobjektinformation und somit die Adressinformation der Datenobjekte anonymisiert.

In einer Ausführungsform der Erfindung werden die Hashblätter zu einem Hashbaum zugeordnet. Das Zuordnen der Hashblätter zu einem Hashbaum kann durch eine Suchanfrage nach einer Datenobjektinformation erfolgen. Insbesondere wird ein Hashbaum erstellt, wenn ein Datenobjekt über mehrere Datenobjektinformationen angefragt wird. Der Aufbau des Hashbaumes ermöglicht es, nachzuvollziehen, über welche Rechnereinheit Datenobjekte angefordert und bereitgestellt worden.

In einer Ausführungsform der Erfindung wird zum Erstellen der Hashblätter als Hashverfahren ein Message-Digest Algorithmus (MD4, MD5) verwendet. Es können Hash-Werte von 128 Bit erzeugt werden. Die Korrektheit eines geladenen Datenobjektes kann vereinfacht überprüft werden.

In einer alternativen Ausführungsform der Erfindung wird zum Erstellen der Hashblätter als Hashverfahren ein Secure Hash Algorithmus (SHA) verwendet. Über SHA kann ein Prüfwert für beliebige Datenobjekte, insbesondere digitale Datenobjekte berechnet werden und stellt die Grundlage zur Erstellung einer digitalen Signatur dar. Über den Prüfwert kann die Integrität einer Nachricht zugesichert werden. Stimmt der Prüferwert zweier Nachrichten überein, ist von der Gleichheit der Nachrichten auszugehen. Über SHA wird ein Hash-Wert von 160 Bit bereitgestellt, womit ein erhöhter Schutz gegenüber Brute-Force-Angriffe erzielbar ist.

In einer alternativen Ausführungsform der Erfindung wird zum Erstellen der Hashblätter als Hashverfahren ein Race Integrity Primitives Evaluation Message Digest (RIPEMD) verwendet. Es kann ein Hash-Wert von 160 Bit bereitgestellt werden.

In einer alternativen Ausführungsform der Erfindung wird zum Erstellen der Hashblätter als Hashverfahren der Tiger Algorithmus verwendet. Der vom Tiger Algorithmus erzeugte Hashwert hat eine Länge von 128, 160 oder 192 Bit. Der auf dem Tiger Algorithmus basierende Tiger-Tree-Hash kann in vorteilhafter weise verwendet werden, die Integrität großer Daten bei oder nach der Übertragung zu überprüfen. Der Tiger-Tree-Hash hashed auf der Ebene der Hash-Blätter je 1024 Byte große Datenblöcke aus dem Datenobjekt. Die Root-Hash ist ein eindeutiger Identifikator für das Datenobjekt. Ist der vollständige Tiger-Hashbaum auf einer Rechnereinheit gespeichert, kann verifiziert werden, ob die einzelnen Dateiblöcke korrekt sind. Zudem kann gleichzeitig überprüft werden, ob der Hashbaum selbst korrekt ist.

In einer alternativen Ausführungsform der Erfindung wird zum Erstellen der Hashblätter als Hashverfahren der Whirlpool Algorithmus verwendet. Der Whirlpool Algorithmus kann für Datenobjekte bis zu 2²⁵⁶ Bit Größe verwendet werden und gibt einen Hash-Wert von 512 Bit zurück.

In einem weiteren Aspekt bezieht sich die Erfindung auf die Verwendung des computerimplementierten Verfahrens nach einem der Verfahrensansprüche der vorliegenden Erfindung zum Bereitstellen eines Datenobjektes, für das Anlernen eines neuronalen Netzwerkes. Weiterhin können die bereitgestellten Datenobjekte für weitere Lernalgorithmen vorgesehen sein.

In einem weiteren Aspekt bezieht sich die Erfindung auf ein verteiltes Speichersystem. Das verteilte Speichersystem umfasst wenigstens eine Rechnereinheit, z.B. eine industrielle Rechnereinheit. Die Rechnereinheit ist ausgebildet das computerimplementiere Verfahren gemäß der vorliegenden Erfindung auszuführen. Die Rechnereinheit weist eine Empfangsschnittstelle, eine Erfassungsschnittstelle und eine Prozessoreinheit zum Bereitstellen vertrauenswürdiger Datenobjekte auf.

Die Rechnereinheit kann als ein Server, ein PC, und/oder als eine auf einem Computer gehostete Softwareimplementierung ausgebildet sein. Die Rechnereinheit weist unterschiedliche Schnittstellen zur

Mensch-Maschine-Kommunikation (HMI), sowie Schnittstellen zur Kommunikation mit weiteren Rechnereinheiten auf. Die HMI-Schnittstellen umfassen Eingabe- und Ausgabegeräte zur Bedingung der Rechnereinheit. Die Schnittstellen zur Kommunikation mit weiteren Rechnereinheiten weisen drahtlose Schnittstellen (WLAN, Wifi, Bluetooth, usw.) und/oder drahtgebundene Schnittstellen (Ethernet, USB, usw.) auf. Die Prozessoreinheit ist über einen Bus mit den Schnittstellen der Rechnereinheit verbunden. Alternativ kann die Rechnereinheit auf einem Mikrocontroller oder einem FPGA in Flardware realisiert sein.

Vorstehend wurde die Lösung der Aufgabe anhand des Verfahrens beschrieben. Dabei erwähnte Merkmale, Vorteile oder alternative Ausführungsformen sind ebenso auch auf die anderen beanspruchten Gegenstände zu übertragen und umgekehrt. Mit anderen Worten können auch die gegenständlichen Ansprüche (die beispielsweise auf eine Rechnereinheit oder auf ein Com puterprogramm produkt gerichtet sind) mit den Merkmalen weitergebildet sein, die in Zusammenhang mit dem Verfahren beschrieben und/oder beansprucht sind. Die entsprechenden funktionalen Merkmale des Verfahrens werden dabei durch entsprechende gegenständliche Module, insbesondere durch Hardware-Module oder Mikroprozessor-Module, der Rechnereinheit bzw. des Produktes ausgebildet und umgekehrt.

Eine weitere Aufgabenlösung sieht ein Computerprogramm vor, mit Programmelementen (Computercode) zur Durchführung aller Verfahrensschritte des oben näher beschriebenen Verfahrens, wenn das Computerprogramm und dessen Programmelemente in einen Speicher des Computers geladen werden und somit auf dem Computer ausgeführt werden. Dabei ist es auch möglich, dass das Computerprogramm auf einem von einem nicht-flüchtigen, computerlesbaren Medium gespeichert ist.

In der folgenden detaillierten Figurenbeschreibung werden nicht einschränkend zu verstehende Ausführungsbeispiele mit deren Merkmalen und weiteren Vorteilen anhand der Zeichnung besprochen. In dieser zeigen: Fig. 1 ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels einer erfindungsgemäßen verteilten Speichersystems;

Fig. 2 ein Ablaufdiagramm zur Darstellung eines möglichen Ausführungsbeispiels des erfindungsgemäßen Verfahrens;

Fig. 3 ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels einer Datenobjektbereitstellung;

Fig. 4 ein Blockdiagramm zur Darstellung eines weiteren möglichen Ausführungsbeispiels einer Datenobjektbereitstellung;

Fig. 5 ein Blockdiagramm zur Darstellung eines weiteren möglichen Ausführungsbeispiels einer Datenobjektbereitstellung;

Fig. 6 ein Blockdiagramm zur Darstellung eines erzeugten Flashbaumes unter Verwendung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens;

Fig. 7 ein weiteres Blockdiagramm zur Darstellung eines erzeugten Flashbaumes unter Verwendung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens; und

Fig. 8 ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels eines verteilten Speichersystems.

Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im FHinblick auf die Zeichnungen. Die Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt. In den Figuren der Zeichnung sind gleiche, funktionsgleiche, und gleich wirkende Elemente, Merkmale und Komponenten - sofern nichts anderes ausgeführt ist - jeweils mit denselben Bezugszeichen zu versehen.

Fig. 1 zeigt ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels einer erfindungsgemäßen verteilten Speichersystems. In Fig. 1 bezeichnet Bezugszeichen S ein verteiltes Speichersystem. Das verteilte Speichersystem S umfasst wenigstens eine Rechnereinheit, vorzugsweise mehrere Rechnereinheiten Rn. In der Fig. 1 sind drei Rechnereinheiten Rn dargestellt. Die Ausgestaltung des verteilten Speichersystems S soll aber nicht auf die dargestellte Ausgestaltung beschränkt sein. Vielmehr kann ein verteiltes Speichersystem S weitere oder weniger Rechnereinheiten Rn aufweisen. Die Rechnereinheiten Rn können als Server, Computer usw. ausgebildet sein, die eine Kommunikationsschnittstelle zur Kommunikation mit einem Netzwerk und somit zur Kommunikation und für den Datenaustausch untereinander aufweisen. Das verteilte Speichersystem S ist ausgebildet, Datenobjekte D verteilt in dem verteilten Speichersystem S auf den Rechnereinheiten Rn zu speichern.

Eine Rechnereinheit R außerhalb des verteilten Speichersystems S, aber in Kommunikation mit dem verteilten Speichersystem S kann eine Datenobjektinformation DOI an das verteilte Speichersystem S bereitstellen. Weiterhin ist denkbar, dass die Rechnereinheit R, welche eine Datenobjektinformation DOI bereitstellt, Teil des verteilten Speichersystems S ist. Weiterhin kann die Rechnereinheit R eine Vielzahl an Datenobjektinformation DOI bereitstellen. Zudem ist das Bereitstellen von Datenobjektinformationen DOI nicht nur auf eine Rechnereinheit R beschränkt. Insbesondere können Datenobjektinformationen DOI durch eine Vielzahl an Rechnereinheiten Rn aus dem verteilten Speichersystem S oder außerhalb des verteilten Speichersystems S bereitgestellt werden. Die bereitgestellte Datenobjektinformation DOI wird durch das verteilte Speichersystem S, insbesondere durch die Rechnereinheiten Rn des verteilten Speichersystems S empfangen. Die Rechnereinheiten Rn sind ausgebildet ein neuronales Netzwerk, eine künstliche Intelligenz und/oder einen lernfähigen Algorithmus zu trainieren. Für das Trainieren werden Datenobjekte D verwendet, die durch das verteilte Speichersystem S auf Basis der empfangenen Datenobjektinformation DOI bereitgestellt werden.

Die Datenobjektinformation DOI umfasst ein Label und/oder wenigstens ein Attribut des Datenobjektes D. Die Datenobjektinformation DOI kann durch einen Anwender manuell erstellt oder durch eine Maschine (z.B. eine Rechnereinheit R) automatisch erzeugt werden. Einem Datenobjekt D kann eine Menge an Label und/oder Attribute umfassen. Die Menge der Datenobjektinformation DOI ergibt sich aus der Menge an Elementen in dem Datenobjekt D und einem Detailierungsgrad der Beschreibung der Elemente in dem Datenobjekt D. Ein Datenobjekt D kann graphische und/oder textuelle Information, Bilder, Musik, Video usw. umfassen. Die Datenobjekte D liegen in digitaler Version vor. Die Datenobjekte D können eine unterschiedliche Konvertierung und unterschiedliche Datenformate aufweisen.

Durch das Speichersystem S wird eine Adressinformation A der wenigstens einen Rechnereinheit R erfasst, welche die Datenobjektinformation DOI bereitstellt bzw. ein Datenobjekt anfordert. Die Adressinformation A ist eine bestimmte Information, welche die Rechnereinheit R gegenüber anderen Rechnereinheiten R unverwechselbar identifiziert. Alternativ kann die Adressinformation einen Speicherbereich und/oder Speicherort definieren, an dem die Datenobjektinformation DOI und/oder das Datenobjekt D gespeichert sind und/oder zu speichern sind.

Die erfasste Adressinformation A der Rechnereinheit R wird der Datenobjektinformation DOI des bereitgestellten Datenobjektes D zugeordnet. In vorteilhafter Weise kann somit nachvollzogen werden, auf welche Rechnereinheit R das Datenobjekt D bereitgestellt wurde. Insbesondere wird die Datenobjektinformation DOI des bereitgestellten Datenobjektes D durch das Zuordnen der Adressinformation A aktualisiert. Die Datenobjektinformation DOI mit der zugeordneten Adressinformation A wird in dem verteilten Speichersystem S gespeichert. Jede mit dem verteilten Speichersystem S verbundene Rechnereinheit R empfängt die Datenobjektinformation DOI mit der zugeordneten Adressinformation A und weist somit den gleichen Informationsstand auf.

Fig. 2 zeigt ein Ablaufdiagramm zur Darstellung eines möglichen Ausführungsbeispiels des erfindungsgemäßen Verfahrens. Das computerimplementierte Verfahren V umfasst bei dem dargestellten Ausführungsbeispiel mehrere Schritte. In einem ersten Schritt S1 wird wenigstens eine Datenobjektinformation DOI für ein bereitzustellendes Datenobjekt D von wenigstens einer Rechnereinheit R empfangen. Das bereitzustellende Datenobjekt D kann für das Anlernen eines neuronalen Netzwerkes N verwendet werden. In einem weiteren Schritt S2 wird eine Adressinformation der wenigstens einen Rechnereinheit R erfasst. In einem weiteren Schritt S3 wird das Datenobjekt D an die Rechnereinheit R auf Basis der empfangenen Datenobjektinformation DOI bereitgestellt. Die empfangene Datenobjektinformation DOI umfasst ein Label und/oder Attribute, welche Elemente und/oder Informationen des Datenobjektes D beschreiben bzw. in dem Datenobjekt D enthalten sind. Über die Datenobjektinformation DOI werden die Datenobjekte D somit nach enthaltenen Elementen und/oder Informationen klassifiziert und können nach diesen gesucht werden. In einem weiteren Schritt S4 werden die erfassten Adressinformation A der Rechnereinheit R zu der Datenobjektinformation DOI des bereitgestellten Datenobjektes D zugeordnet. Die Adressinformationen A können in einer Liste angeordnet und in einer Datenbank gespeichert werden. In der Datenbank kann das Datenobjekt D abgespeichert werden. Die Datenobjektinformation kann die Adresse des Speichers umfassen, unter der das das Datenobjekt D gespeichert ist. Die Datenbank kann in einer Rechnereinheit R und/oder verteilt in den Rechnereinheiten R des verteilten Speichersystems S gespeichert sein.

Fig. 3 zeigt ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels einer Datenobjektbereitstellung. In Fig. 3 ist eine Vielzahl an Rechnereinheiten Rn dargestellt. Die Rechnereinheiten Rn sind über ein Netzwerk untereinander verbunden und können das verteilte Speichersystem S ausbilden. Die Rechnereinheiten Rn können als ein Datenserver ausgebildet sein. Die Rechnereinheiten Rn umfassen wenigstens eine Datenbank, in der die Datenobjektinformation DOI und das Datenobjekt D gespeichert sind. Es können auch separate Datenbanken zur Speicherung der Datenobjektinformation DOI und des Datenobjektes D vorgesehen sein. Jede Recheneinheit weist eine Adressinformation A auf. Das Datenobjekt D kann graphische und/oder textuelle Informationen, Musik, Videos oder Bilder usw. umfassen. Den Datenobjekten D werden Datenobjektinformation DOI zugeordnet. Die Datenobjektinformation DOI weisen Label oder Attribute als Parameter auf, auf deren Basis durch das verteilte Speichersystem S die Datenobjekte D bereitgestellt werden. Diese Datenobjekte können zum Trainieren von neuronalen Netzwerken, künstlicher Intelligenz o.ä. verwendet werden.

Die Datenobjekte D erhalten Labels und/oder Attribute in einer Textform, aus einer definierten Bildmenge manuell durch einen Anwender oder automatisiert durch eine Maschine. Das Datenobjekt D umfasst beispielsweise ein Bild mit den Elementen Haus, Baum, Sonne und Auto. Diese Elemente stellen die definierte Bildmenge dar. Ein Anwender oder eine Maschine kann diese Elemente textuell mit vorgegebenen Labels beschreiben. Die Labels können maschinell ausgewertet werden. Somit beschreibt das Label, dass in diesem Datenobjekt D (Bild), beispielsweise eine Sonne enthalten ist. In einer Ausführungsform, können Attribute vergeben werden, welche Position und Dimension des Elementes beschreiben.

Die manuell oder automatisch erstellten Labels werden zusammen mit der Information, wo das Datenobjekt D zu finden ist, in einer Datenbank einer Rechnereinheit R gespeichert (Schritt 100). Beispielsweise können die Label: [Haus; Baum; Sonne; Auto] für die entsprechenden Elemente in dem Datenobjekt D vergeben werden. Somit wird dem Datenobjekt D die Datenobjektinformation DOI [Haus; Baum; Sonne; Auto] zugeordnet. Bei der Suche bzw. Abfrage einer der Datenobjektinformationen DOI wird das Datenobjekt D bereitgestellt, welches die o.g. Labels zugewiesen bekommen hat. Die Adresse des Datenobjektes D umfasst den Speicherort des Datenobjektes D, beispielsweise [https://conti/db/pic.png].

Im Schritt 110 wird die Adresse des Datenobjektes D verschlüsselt und signiert. Für das Verschlüsseln werden symmetrische Verschlüsselungsverfahren verwendet. Insbesondere werden für das Verschlüsseln und Signieren asymmetrische Verschlüsselungsverfahren verwendet. Die Adresse bzw. eine zu einer Datenobjektinformationen DOI zugeordneten Adressliste kann von einem Anwender durch ein entsprechendes asymmetrische Verschlüsselungsverfahren (public-private-key - Verfahren) signiert und ggf. verschlüsselt werden, wenn der Zugriff auf die Datenobjektinformationen DOI und somit das Datenobjekt D eingeschränkt werden soll. Eine Adressliste ist eine Sammlung an Adressen, welche jeweils den Speicherort des gleichen Datenobjektes D (Kopie) auf verschiedenen Rechnereinheiten R definieren. Eine verschlüsselte Adresse ergibt sich zu cp(Di) => Adresse [verschlüsselt & signiert] Di beschreibt hierbei den Speicherort, beispielsweise Datenbank 1.

Im Schritt 120 werden die Datenobjektinformationen DOI (z.B. Labels) und die Adresse des Datenobjektes D gehashed. In einer Ausführungsform kann die Hashfunktion SHA3 verwendet werden. Aus dem Label und der verschlüsselten Adresse wird über die Hashfunktion ein Hash-Wert gebildet:

W(cp(Di) + Label).

Durch das Signieren und/oder Verschlüsseln der Adresse wird auch der Hash-Wert geändert, da sich dieser aus SHA(Label + Adressliste) ergibt. Einem Label kann eine unbestimmte Anzahl an Adresslisten von verschiedenen Anwendern zugewiesen werden, z.B. SHA(Label + Adreslistel + Adressliste2 + Adressliste3).

In Schritt 130 werden auf Basis des erstellten Hash-Wertes die Hashblätter 140, 150, 160 erstellt. Die Hashblätter ergeben sich zu W(cp(Di)) + Labeil) 140, W(cp(D₂)) + Label2) 150 und W(cp(Dn)) + Labein) 160.

Ein Datenobjekt D kann unter Verwendung der vorliegenden Erfindung durch die Abfrage einer Datenobjektinformation, beispielsweise F(Label) von einem Anwender über eine Recheneinheit R, die mit dem verteilten Speichersystem S kommuniziert, abgefragt werden. Das verteilte Speichersystem S stellt das Datenobjekt D auf die Zieladresse der anfragenden Recheneinheit R des Anwenders bereit bzw. kopiert das Datenobjekt D und ergänzt die Adressliste entsprechend. Flierdurch hat das verteilte Speichersystem S die Information, wo jedes Datenobjekt D gespeichert ist, da der Hash-Wert auch aktualisiert wird und in vorteilhafter Weise können alle teilnehmenden Anwender bzw. Rechnereinheiten R Änderungen überwachen und nachvollziehen.

In einer Ausführungsform kann ein Datensatz mit Hilfe mehrerer Datenobjektinformationen DOI angefragt werden. Beispielsweise können mehrere Labels angefragt, z.B. F(Haus; Gesicht). In diesem Fall wird ein Hashbaum mit den Blättern x = hash(Haus + Adressen) und y = hash(Gesicht + Adressen) erstellt. Die Hashroot des erstellten Hashbaums ist hash(x + y).

Fig. 4 zeigt ein Blockdiagramm zur Darstellung eines weiteren möglichen Ausführungsbeispiels einer Datenobjektbereitstellung. In Fig. 4 wird durch einen Anwender über eine Rechnereinheit R eine Datenobjektinformation DOM an das verteilte Speichersystem S mit den Rechnereinheiten Rn bereitgestellt. Auf Basis der erfassten Datenobjektinformation DOM wird ein Datenobjekt D an die Rechnereinheit R bereitgestellt. Zudem wird die Adressinformation A der Rechnereinheit R erfasst und als neue Adressinformation An in der Adressliste A_DOI_1 für die Datenobjektinformation DOM in einer Datenbank in dem verteilten Speichersystem S bzw. verteilt auf den Rechnereinheiten Rn gespeichert. Die aktuelle Adressliste A_DOI_1 ist beispielsweise in der Datenbank 1 gespeichert. Die Adressliste A_DOI_1 wird aktualisiert gespeichert. Der Hash-Wert der Adressliste wird durch die neue Adressinformation A der Rechnereinheit R geändert. Somit ist nachvollziehbar, an wen das Datenobjekt D bereitgestellt wurde. Es wird ein neuer Hash-Wert W(cp(D2)) + Labeil ) für das kopierte Datenobjekt D erstellt. Dieser Hash-Wert berücksichtigt die Adressen der Adressliste (A_DOI_1 ) und die hinzugefügte Adresse A der Rechnereinheit R auf der eine Kopie des Datenobjektes D bereitgestellt wurde, beispielsweise auf der Datenbank D2.

Fig. 5 zeigt ein Blockdiagramm zur Darstellung eines weiteren möglichen Ausführungsbeispiels einer Datenbereitstellung. In Figur 5 werden durch einen Anwender über eine Recheneinheit R eine erste Datenobjektinformation DOM und eine zweite Datenobjektinformation DOI_2 an das verteilte Speichersystem S mit den Rechnereinheiten Rn bereitgestellt. Auf Basis der erfassten ersten und zweiten Datenobjektinformation DOM , DOI_2 wird ein Datenobjekt D an die Rechnereinheit R bereitgestellt. Zudem wird die Adressinformation A der Rechnereinheit R erfasst und als neue Adressinformation An in der ersten Adressliste A_DOI_1 für die erste Datenobjektinformation DOM und in der zweiten Adressliste A_DOI_2 für die zweite Datenobjektinformation DOI_2 in einer Datenbank in dem verteilten Speichersystem S bzw. verteilt auf den Rechnereinheiten Rn gespeichert. Die erste Adressliste A_DOI_1 und die zweite Adressliste A_DOI_2 werden aktualisiert gespeichert. Der Hash-Wert der Adresslisten wird durch die neue Adressinformation A der Rechnereinheit R geändert. Somit ist nachvollziehbar, an wen das Datenobjekt D bereitgestellt wurde. Es wird ein neuer Hash-Wert W((p(D₃)) + Labeil + Label 2) für das kopierte Datenobjekt erstellt.

Fig. 6 zeigt ein Blockdiagramm zur Darstellung eines erzeugten Hashbaumes unter Verwendung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens. In Fig. 6 liegen drei erstellte Hashblätter 210, 260 und 230 vor. Beispielsweise für Hashblatt 210 w1 = H(cp(Di)) + Labeil ), für Hashblatt 220 w2 = H(f(ϋ₂)) + Label2), für Hashblatt 230 w3 = H(f(ϋ₃)) + Label3), usw. Aus den einzelnen Hashes kann ein binärer Hashbaum mit Hashroot 240 erstellt, beispielsweise w12 = H(w1 + w2) werden. Diese ergibt sich zu fi = H((p(D₃)) + Labeil + Label 2) (Schritt 250). In diesem Hashbaum wird auf die neue Adresse A der Recheneinheit R, z.B. (p(D₃) in Schritt 260 referenziert. In Schritt 270 ist für das erfasste Labeil und Label2 die Adressliste aktualisiert und umfasst ebenfalls die Adresse A der Rechnereinheit R.

Die Reihenfolge der Labels und damit die Ordnung der Hashblätter in dem Hashbaum, wird durch die Anfrage definiert, beispielsweise je nach Datenobjekt D „Haus“, „Sonne“, „Baum“. Die geordnete Labelliste wird durch die Anfragen erstellt. Die neue Hashroot des Hashbaumes erhält weiterhin eine neue Adressliste, da alle Datenobjekte D mit der Kombination der Labels abgelegt sind (z.B. alle Bilder mit einem Baum und einer Sonne enthaltend). Der entsprechende Knoten in einem Hashbaum enthält nun zwei Hash-Werte.

Die Hashroot des Hashbaumes kann folgendermaßen ausgebildet sein:

Hashroot = SHA(SHA(Label1) + SHA(Label2)) sowie dem Hash der neuen Adressliste HA = SHA(label1/2 + Adressliste).

Somit ist es möglich, einen Datensatz zu aktualisieren, sobald sich die Adressliste eines Labelknotens geändert hat.

Der Datensatz umfasst alle Objekte, welche für ein Training des neuronalen Netzwerkes relevant sind. Das heißt der Datensatz umfasst alle Datenobjekte, welche entsprechend einer Suchanfrage gelabelt sind, beispielsweise Bilder mit einem Haus und einer Sonne. Wenn neue Datenobjekte hinzukommen, werden auch neue Inhaltserkennungen zu einer „Adressliste“ hinzugefügt. Das System ist somit in der Lage, über die Inhaltserkennung die tatsächliche Adresse des Datenobjektes, beispielsweise eine Sonne, zu ermitteln.

Alternativ werden in der Hashfunktion die Inhaltserkennungen gehashed. Die

Inhaltserkennung stellt somit den Schlüssel zu den tatsächlichen Adressen dar. inhaltserkennung _ SHA(bildsonne.jpg) alle_adressen = adresse[inhaltserkennung] echteAdresse = alle_adressen[0] print(echteAdresse) print(alle_adressen[1 ])

In vorteilhafter Weise entsteht für die neue Hashroot, durch das Zusammenführen von mehreren Inhaltserkennungen eine neue Adressliste, welche dann alle Datenobjekte mit den zusammengeführten Inhaltserkennungen beinhaltet und aufbewahrt. Somit sind dann, beispielsweise, alle Bilder mit der Sonne oder dem Haus auf der entsprechenden Datenbank auffindbar. Die Sonne und Haus Datenobjekte müssen in vorteilhafter Weise dann nicht mehr über mehrere Datenbanken und/oder Quellen bezogen werden. Aus dem neuen Hash-wert, also dem zweiten Hash-Wert neben der Hashroot des ersten Hashbaumes ergibt sich das Hashblatt eines neuen Hashbaumes. Damit lassen sich Hashbäume miteinander verknüpfen, wobei die Hashroot zur Orientierung dient, um feststellen zu können, wo sich die Datenobjekte befinden.

Fig. 7 zeigt ein weiteres Blockdiagramm zur Darstellung eines erzeugten Hashbaumes unter Verwendung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens. Durch das erfindungsgemäße Verfahren kann die Integrität der Datenobjektinformation DOI (Labels) gewährleistet werden. Weiterhin ist es möglich mehrere Hashroots den Hashblättern zuzuordnen. Diese werden über den privaten Schlüssel eines Anwenders, welcher ein Datenobjekt mit einem Label versehen hat, verschlüsselt und/oder signiert. Weiterhin werden durch den Anwender die Datenobjektadressen zugewiesen bzw. können die Datenobjekt gespeichert und hinterlegt werden, wo sie zur Ausführung benötigt werden.

In Fig. 7 werden vier Datenbanken DB1 , DB2, DB3 und DB4 dargestellt. In den Datenbanken DB1 , DB2, DB3 und DB4 können Trainingsdaten (Datenobjekte D) gespeichert sein. Die Datenbanken DB1 , DB2, DB3 und DB4 können auf einem oder einer Vielzahl an Rechnereinheiten R gespeichert sein. Ein Anwender kann für die Trainingsdaten verschiedene Datenobjektinformationen DOI (Labels) vergeben. Beispielsweise kann ein Anwender ein Label L1 = „Haus“, ein Label L2 = „Baum“, ein Label L3 = „Auto“ , L4 = „Sonne“ usw. vergeben. Es werden für die Labels und die entsprechenden Speicheradressen (Adresse: A1 , A2, An) Hashwerte w1 = H(f(Ai)) + Labeil ) 310, w2 = H(f(A₂)) + Label2) 320, w3 = H(f(A₃)) + Label3) 330, w4 = H(f(A4)) + Label4) 340, usw. wn = H(f(A_h)) + Labein) erstellt.

Aus den Hashwerten 310, 320, 330, 340 können Hashroots w12 = H(w1 + w2) 350 und w34 = H(w3 + w4) 360 erstellt werden. Aus der Hashroot w12 und w34 kann eine Hashroot w1234 = H(w12 + w34) 370 erstellt werden. Aus der erstellten Hashroot w1234 (Schritt 370) ergibt sich ein neues Hashblatt fi = H(f(Aii)) + L1234) 380, wobei sich An aus den Datenbanken DB1 , DB2, DB3 und DB4 ergibt und das Label L1234 die Labels „Haus,“ „Baum“, „Auto“ und „Sonne“ umfasst. Durch die vorliegende Erfindung können gelabelte Datenobjekte D (z.B. Bilder, Musik, Videos, Text, usw.) in einem verteilten Speichersystem (verteilte Datenbank) verwaltet werden. Ein Zugriff auf die Datenobjekte D erfolgt über das Verfahren gemäß der vorliegenden Erfindung, welche nur Datenobjektinformation DOI (z.B. Labels F(„Haus“; „Auto“)) entgegennimmt und als einen Rückgabewert die Datenobjekte D bereitstellt. Alternativ können die Adressen der Datenobjekte D bereitgestellt werden. Die Datenobjekte D können als eine Kopie dort gespeichert werden, wo eine Verarbeitung vorgesehen ist. Jeder Bereitstellungsvorgang kann nachvollzogen werden. Über den Aufbau des Hashbaumes und der Verschlüsselung kann nachvollzogen werden, welcher Anwender, was und in welcher Reihenfolge kopiert hat. Diese Information kann verwendet werden, um beispielsweise zu ermitteln, welche Datenobjekte D (bzw. Adressen der Datenobjekte) sich am besten für die Replikation eignen. Weiterhin können die Datenobjekte D unter Verwendung der Labels gruppiert werden. Beispielsweise können alle Bilder, welche mit dem Label „Haus“, „Auto“ und „Sonne“ versehen sind, auf einen Datenspeicher in einer Recheneinheit R kopiert werden, welcher im Anschluss zum Anlernen eines neuronalen Netzwerkes oder einer künstlichen Intelligenz verwendet werden kann. Zudem kann festgestellt werden, ob ein Datenobjekt mehrere Labels besitzt (z.B. ein Bild mit Haus, Auto und Sonne). Es wird geprüft, ob die Labels die gleichen Adressen besitzen. Damit lassen sich logische UND, ODER, XOR, usw. Abfragen umsetzen. Ferner ist es möglich, festzustellen ob neue Datenobjekte D einem Label hinzugefügt wurden. Durch die Verwendung des Hashbaumes müssen nur die Datenobjekte D aktualisiert werden, welche dieses Label benötigen. Zudem kann ermittelt werden, ob ein Datenobjekt D das gleiche Label von mehreren Stellen erhalten hat, d.h. ob das gleiche Datenobjekt (z.B. Bild) von zwei unterschiedlichen Anwendern gesichtet wurde und beide jeweils das Label „Baum“ für das Element Baum in dem Bild gesetzt haben. Somit kann bei einer Abfrage eine Bedingung gesetzt werden, dass mindestens zwei Anwender das gleiche Label vergeben haben.

Weiterhin ist es möglich, dass durch die Verwendung von Hashbäumen und Public Key Verfahren, das Verfahren gemäß der vorliegenden Erfindung in bestehende Blockchainsysteme integriert werden kann. Beispielsweise kann der Zugriff auf Datenobjekte über Cryptowährung und Smart Contracts gewährt werden. Somit können die Trainingsdaten auf einem Datenmarkt angeboten werden und der Zugriff auf die Datenobjekte durch Smart Contracts geregelt werden. Informationen, ob Datenobjekte mit gewünschten Labels zur Verfügung stehen, kann über das vorliegende Verfahren erfolgen und somit als Suchfunktion dienen.

In einer Ausführungsbeispiel kann vorgesehen sein, dass ein Entwickler einen Algorithmus trainieren möchte, welcher Fußgänger auf Straßen erkennt. Hierzu kann der Entwickler auf Services zurückgreifen, welche synthetische Videos von Fußgängern entlang einer Straße erzeugen. Weiterhin kann der Entwickler Zugriff auf eine Datenbank mit Fahrzeugkameradaten haben. Die Erzeugung der synthetischen Videosequenzen, als auch die Bereitstellung neuer gelabelter Kameradaten kann mehrere Tage in Anspruch nehmen. In diesem Zeitraum möchte der Entwickler ggf. darüber informiert werden, wann neue Daten für das Training des Algorithmus zur Verfügung stehen. Zudem sollen die Daten auf der lokalen Festplatte bereitgestellt werden, um diese direkt für das Training verwenden zu können. Bei Verwendung der Fahrzeugkameradaten hat der Entwickler festgestellt, dass Fahrzeugkameradaten oftmals falsch gelabelt wurden. Diesbezüglich kann durch den Entwickler festgelegt werden, welche Kameradaten er erhalten und verwenden möchte. Insbesondere kann der Entwickler festlegen, dass er Kameradaten erhalten möchte, die nur von bestimmten Anwendern gelabelt wurden. Es kann eine Abfrage in der Form für Fahrzeugkameradaten gestellt werden:

F ((Fußgänger>2 & Straße>2 & Fahrzeugkamera) 1 1 (Fußgänger & Straße & Synthetisch)).

Die Daten werden automatisch auf die lokale Festplatte kopiert und es kann mit dem Training des neuronalen Netzwerkes begonnen werden. Die Daten können sofort oder nach dem Training des neuronalen Netzwerkes weiteren Anwendern zur Verfügung gestellt werden, welche beispielsweise einen anderen Algorithmus verwenden. Hierzu wird die jeweils gleiche Labelsignatur benötigt. Sind die replizierten Daten durch eine Kommunikationsverbindung der Rechnereinheit R mit dem Netz zum verteilten Speichersystem S verfügbar, können diese Daten auf die Rechnereinheit R der weiteren Anwender kopiert werden. Fig. 8 zeigt ein Blockdiagramm zur Darstellung eines möglichen Ausführungsbeispiels eines verteilten Speichersystems. Das Bezugszeichen S bezeichnet das verteilte Speichersystem. Das verteilte Speichersystem S umfasst wenigstens eine Rechnereinheit R. Die Darstellung der Fig. 8 ist nicht als beschränkend anzusehen. Vielmehr kann das verteilte Speichersystem S weitere Rechnereinheiten R umfassen. Die Rechnereinheit R umfasst eine Empfangsschnittstelle 11 und eine Erfassungsschnittstelle 12, sowie eine Prozessoreinheit 13. Die Empfangsschnittstelle 11 und die Erfassungsschnittstelle 12 sind über einen Datenbus (nicht dargestellt) mit der Prozessoreinheit 13 verbunden. Die Prozessoreinheit 13 ist ausgebildet, vertrauenswürdige Datenobjekte D bereitzustellen. Die Empfangsschnittstelle 11 ist konfiguriert, eine Datenobjektinformation DOI zu empfangen. Die Erfassungsschnittstelle 12 ist konfiguriert, eine Adressinformation A einer Rechnereinheit R zu erfassen. Die Rechnereinheit R kann eine weitere Schnittstelle (nicht dargestellt) umfassen, über welche das Datenobjekt D bereitgestellt wird. Alternativ können die Erfassungsschnittstelle 12 oder die Empfangsschnittstelle 11 konfiguriert sein, dass Datenobjekt D bereitzustellen.

Claims

Patentansprüche

1. Computerimplementiertes Verfahren (V) zum Bereitstellen, durch ein verteiltes Speichersystem (S) mit einer Vielzahl an Rechnereinheiten (R), vertrauenswürdiger Datenobjekte (D) zum Anlernen eines neuronalen Netzwerkes (N), mit den folgenden Schritten:

- Empfangen (S1 ) wenigstens einer Datenobjektinformation (DOI) für ein bereitzustellendes Datenobjekt (D) von wenigstens einer Rechnereinheit (R) zum Anlernen eines neuronalen Netzwerkes (N);

- Erfassen (S2) einer Adressinformation (A) der wenigstens einen Rechnereinheit

(R);

- Bereitstellen (S3) des Datenobjektes (D) an die Rechnereinheit (R) auf Basis der empfangenen Datenobjektinformation (DOI); und

- Zuordnen (S4) der erfassten Adressinformation (A) der Rechnereinheit (R) zu der Datenobjektinformation (DOI) des bereitgestellten Datenobjektes (D) und Speichern der Datenobjektinformation (DOI) mit der zugordneten Adressinformation (A) in dem verteilten Speichersystem (S).

2. Verfahren nach Anspruch 1 , wobei das Verfahren weiterhin den Schritt umfasst:

- Anlernen eines neuronalen Netzwerkes (N) durch die Rechnereinheit (R) unter Verwendung des bereitgestellten Datenobjektes (D).

3. Verfahren nach einem der vorherigen Ansprüche, wobei der Datenobjektinformation (DOI) wenigstens eine Adressinformation (A) wenigstens einer Rechnereinheit (R) des verteilten Speichersystems (S) zugeordnet wird.

4. Verfahren nach Anspruch 3, wobei die Adressinformation (A) eine physikalische Hardwareadresse der Rechnereinheit (R), eine Speicheradresse eines Speichers der Rechnereinheit (R) und/oder einen öffentlichen Schlüssel umfasst.

5. Verfahren nach einem der vorherigen Ansprüche, wobei die Datenobjektinformation (DOI) ein Datenobjekt (D) repräsentiert und wenigstens ein dem Datenobjekt (D) zugeordnetes Label oder Attribut aufweist.

6. Verfahren nach einem der vorherigen Ansprüche, wobei die Datenobjektinformation (D) durch einen Anwender erzeugt oder durch eine Rechnereinheit automatisch und/oder synthetisch erzeugt werden.

7. Verfahren nach einem der vorherigen Ansprüche, wobei die erfasste Adressinformation (A) der Datenobjektinformation (DOI) verschlüsselt und/oder signiert zugeordnet wird.

8. Verfahren nach Anspruch 7, wobei das Verschlüsseln und/oder Signieren ein symmetrisches Verschlüsselungsverfahren oder ein asymmetrisches Verschlüsselungsverfahren umfasst.

9. Verfahren nach einem der vorherigen Ansprüche, wobei die Datenobjektinformation und die erfasste Adressinformation (A) gehashed als entsprechende Hashblätter in dem verteilten Speichersystem (S) gespeichert werden.

10. Verfahren nach Anspruch 9, wobei die Hashblätter zu einem Hashbaum zugeordnet werden.

11. Verfahren nach Anspruch 9 oder 10, wobei zum Erstellen der Hashblätter ein Hashverfahren, wenigstens umfassend:

- Message-Digest Algorithmus (MD4, MD5),

- Secure Hash Algorithmus (SHA),

- Race Integrity Primitives Evaluation Message Digest (RIPEMD),

- Tiger,

- HAVAL und/oder

- Whirlpool verwendet wird.

12. Verwendung des durch das Verfahren nach einem der vorangegangenen Verfahrensansprüche bereitgestellten Datenobjektes zum Anlernen eines neuronalen Netzwerkes.

13. Computerprogramm mit Programmelementen, die eine Rechnereinheit (R) veranlassen, die Schritte des Verfahrens gemäß einem der vorhergehenden Verfahrensansprüche auszuführen, wenn die Programmelemente in einen Speicher der Rechnereinheit (R) geladen werden.

14. Verteiltes Speichersystem (S) umfassend wenigstens eine Rechnereinheit (R) zur Ausführung des computerimplementierten Verfahrens (V) nach einem der Verfahrensansprüche 1 bis 10 mit einer Empfangsschnittstelle (11), einer Erfassungsschnittstelle (12) und einer Prozessoreinheit (13) zum Bereitstellen vertrauenswürdiger Datenobjekte (D).