WO2011044866A1

WO2011044866A1 - Verfahren und system zum bestimmen einer ähnlichkeit von personen

Info

Publication number: WO2011044866A1
Application number: PCT/DE2009/001422
Authority: WO
Inventors: Jöran BEEL; Béla GIPP; Jan-Olaf Stiller
Original assignee: Beel Joeran; Gipp Bela; Jan-Olaf Stiller
Priority date: 2009-10-12
Filing date: 2009-10-12
Publication date: 2011-04-21

Abstract

Die Erfindung betrifft ein Verfahren und ein System zum Bestimmen einer Ähnlichkeit von zumindest zwei Personen, welche jeweils mit zumindest einer Baumdatenstruktur in Beziehung stehen und/oder wobei zumindest eine Baumdatenstruktur Referenzen zu Objekten aufweist, welche jeweils einer der beiden Personen zugeordnet sind, wobei zumindest einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist und/oder wobei zumindest zwei Knoten der zumindest einen Baumdatenstruktur jeweils eine Referenz auf jeweils eines der zumindest zwei Objekte repräsentieren, und wobei das Verfahren zumindest die Schritte - Klassifizieren der zumindest zwei Personen unter Verwendung der den Knoten zugeordneten Texte, und/oder - Bestimmen einer Ähnlichkeit der referenzierten Objekte anhand einer Distanz zwischen den referenzierten Objekten, und - Bestimmen eines Übereinstimmungswertes aus dem Klassifizierungswert und/oder dem Ähnlichkeitswert, wobei der Übereinstimmungswert die Ähnlichkeit der zumindest zwei Personen angibt, umfasst.

Description

Verfahren und System zum Bestimmen einer Ähnlichkeit von Personen

Gebiet der Erfindung

Die Erfindung betrifft ein Verfahren und ein System zum Bestimmen einer Ähnlichkeit von zumindest zwei Personen.

Stand der Technik

Es sind Expertensuchmaschinen bekannt, mit welchen nach Personen mit bestimmten Kenntnissen recherchiert werden kann. Hierzu muss das System wissen, in welchen Gebieten sich eine Person auskennt bzw. besonders gut auskennt. Bei bekannten Verfahren können Anwender ihre Kenntnisse in eine Datenbank eintragen. Dies ist allerdings sehr aufwendig und oft auch sehr ungenau, wenn etwa Personen nicht vorhandene Kenntnisse in die Datenbank eintragen. Bekannt sind auch automatisierte Verfahren bei denen Emails oder andere geschriebene Dokumente der Personen analysiert werden. EMails enthalten allerdings oft viel irrelevante Information, sodass die Qualität der Klassifizierung von Personen meist sehr gering ist.

Bekannt ist auch, etwa die Co-Autorschaft von Dokumenten heranzuziehen. D.h. wenn zwei Personen gemeinsam etwas veröffentlicht haben, werde sie vermutlich ähnlich sein. Das Problem hierbei ist, dass mit diesem Verfahren nur sehr wenige Personen klassifiziert werden können. Andere Verfahren analysieren, ob gleiche Objekte von zwei Personen z.B. gelesen, bewertet oder gekauft wurden.

Aufgabe der Erfindung Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und ein System bereitzustellen, mit welchen die Ähnlichkeit von Personen besonders zuverlässig, effizient und mit hoher Qualität bestimmt werden kann, ohne die aus dem Stand der Technik bekannten Nachteile aufzuweisen.

Erfindungsgemäße Lösung

Diese Aufgabe wird durch ein Verfaliren mit den Merkmalen des Anspruches 1 und ein System mit den Merkmalen des Anspruches 29 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung sowie den weiteren Ansprüchen angegeben.

Demnach wird ein Verfahren zum Bestimmen einer Ähnlichkeit von zumindest zwei Personen bereitgestellt, wobei die zumindest zwei Personen jeweils mit zumindest einer Baumdatenstruktur in Beziehung stehen und/oder wobei zumindest eine Baumdatenstruktur Referenzen zu Objekten aufweist, wobei jeweils zumindest ein Objekt einer der beiden Personen zugeordnet ist, wobei die Baumdatenstruktur eine Anzahl von Knoten aufweist, wobei zumindest einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist und/oder wobei zumindest zwei Knoten der zumindest einen Baumdatenstruktur jeweils eine Referenz auf jeweils eines der zumindest zwei Objekte repräsentieren, und wobei die Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, umfassend zumindest folgende Schritte:

- Klassifizieren der zumindest zwei Personen, wobei aus dem zumindest einen Knoten zugeordneten Text der zumindest einer Baumdatenstruktur ein Klassifizierungswert bestimmt wird; und/oder

- Bestimmen einer Ähnlichkeit der zumindest zwei referenzierten Objekte, wobei aus zumindest einer Distanz zwischen den zumindest zwei referenzierten Objekten ein Älinlichkeitswert bestimmt wird; und

- Bestimmen eines Übereinstimmungswertes aus dem Klassifizierungswert und/oder dem Ähnlichkeitswert, wobei der Übereinstimmungswert die Ähnlichkeit der zumindest zwei Personen angibt. Als Datenquelle für das Bestimmen der Ähnlichkeit von Personen werden Baumdatenstrukturen verwendet, in welchen Objekte der Personen referenziert werden oder welche den Personen zugeordnet sind, etwa weil die Personen Autoren der Baumdatenstrukturen sind. Im Folgenden wird der Begriff Baumdatenstruktur bzw. Baumdatenstrukturen verkürzt mit BDS bezeichnet.

Gemäß der Erfindung können Baumdatenstrukturen sein: Verzeiclmisstrakturen (z.B. Dateisysteme), Mind Maps oder sonstige hierarchische Strukturen, welche geeignet sind Referenzen zu Objekten zu speichern. Eine Baumdatenstruktur kann auch ein Computernetzwerk sein, wobei die Objekte auf unterschiedlichen Computern gespeichert sind und wobei die Objekte in einer hierarchischen Beziehung zueinander stehen (beispielhaft hierfür sei das Lightweight Directory Access Protocol (LDAP) genannt). Als Objekt wir beispielsweise eine elektronische Datei in einem Verzeichnis einer Verzeichnisstruktur bezeichnet oder ein Dokument welches aus einer Mind Map heraus referenziert oder verlinkt wird.

Ähnlichkeit zwischen zwei Personen bzw. zwischen zwei Objekten kann auch bedeuten: Beziehung zwischen zwei Personen bzw. Objekten oder Verwandtschaft zwischen zwei Personen bzw. Objekten. Die Ähnlichkeit von zwei Objekten wird durch den so genannten "Tree Proximity Index ΤΡΓ ausgedrückt. Der Begriff "Ähnlichkeitswert" wird nachfolgend verkürzt auch als "TPI" bezeichnet. Die Begriffe "Referenzieren" und "Verlinken" bzw. die Begriffe "Referenz" und "Link" werden nachfolgend jeweils synonym verwendet. Die Klassifikation einer Person wird durch die so genannte "Tree Word Extraction TWE" ausgedrückt. Die Ähnlichkeit von Personen wird durch den so genannten "Researcher Similarity Index RSI" ausgedrückt, der einen Wert zwischen 0 und 1 einnehmen kann (0=keine Ähnlichkeit, l=hohe Ähnlichkeit). Andere Wertebereiche sind ebenfalls möglich.

Ein Wesentlicher Vorteil von BDS ist, dass sie direkt und schnell analysiert werden können, ohne auf den Inhalt der referenzierten Objekte zugreifen zu müssen. Ein weiterer Vorteil ist, dass die Ähnlichkeit zwischen zwei Objekten nahezu in Echtzeit ermittelt werden kann, was besonders dann vorteilhaft ist, wenn ein Benutzer beispielsweise eine Dokument aus einem Verzeichnis in ein anderes Verzeichnis verschiebt, was eine Änderung der Ähnlichkeit zwischen dem verschobenen Objekt und weiteren Objekten zur Folge haben kann. Damit ist auch das Ermitteln einer Ähnlichkeit zwischen Personen nahezu in Echtzeit möglich.

Das erfindungsgemäße Verfahren beruht also darauf, dass zwei Personen (z.B. Autoren) sich ähnlich bzw. sehr ähnlich sind, wenn:

- zwei Personen mit vielen gleichen Wörtern, welche aus den Baumdatenstrukturenge- wonnen werden, klassifiziert wurden, d.h. wenn für zwei Personen für einen Anzahl von Wörtern ein Klassifizierungswert vorhanden ist; und/oder

- für zwei (oder mehrere) Objekte, welche in einer / mehreren Baumdatenstruktur(en) referenziert werden und jeweils einer der beiden Personen zugeordnet sind, eine hohe Ähnlichkeit festgestellt wurde.

Das Bestimmen der Ähnlichkeit TPI von kann folgende Schritte umfassen:

- Ermitteln der Knoten der mindestens einen Bamridatenstruktur, welche die zumindest zwei Objekte referenzieren;

- Bestimmen der Distanz zwischen jeweils zwei Objekten, welche von den ermittelten Knoten jeweils einer Baumdatenstruktur referenziert werden, wobei für jeweils zwei Objekte mehrere Distanzen bestimmt werden, wenn zumindest eines der beiden Objekte von mehreren Knoten einer Baumdatenstruktur referenziert wird und/oder wenn die beiden Objekte jeweils von Knoten zumindest zweier verschiedener Baumdatenstrukturen referenziert werden; und

- Bestimmen des Ähnlichkeitswertes für jedes Paar von Objekten unter Verwendung der für die Objekte eines Paares bestimmten Distanzen.

Vorteilhaft hierbei ist, dass die Ähnlichkeit von zwei Objekten ermittelt werden kann, ohne dass auf die Objekte selbst oder deren Inhalt zugegriffen werden muss. Die Verarbeitungsgeschwindigkeit, d.h. das Ermitteln der Ähnlichkeit kann so drastisch verbessert werden. Ebenso kann der Speicherplatzbedarf drastisch reduziert werden, da die referen- zierten Objekte selbst nicht gespeichert werden müssen, da lediglich die BDS für das Ermitteln der Ähnlichkeit herangezogen wird. Für ein Ermitteln der Ähnlichkeit von Ob- jekten auf einem entfernten Rechner (z.B. auf einem Server im Internet) bedeutet dies, dass nur ein Bruchteil der in bekannten Verfahren benötigten Daten auf den entfernten Rechner übertragen werden muss, da lediglich die BDS übertragen werden muss, die referenzierten Objekte aber nicht.

Das Bestimmen des Ähnlichkeitswertes kann einen Schritt zum Ermitteln eines Gewichtungsfaktors umfassen, mit dem der bestimmte Ähnlichkeitswert angepasst wird. Damit kann in vorteilhafter Weise ein berechneter Ähnlichkeitswert von zwei Objekten angepasst werden, wenn zusätzlich Voraussetzungen für einen höheren bzw. geringeren Ähnlichkeitswert sprechen. Die Ähnlichkeits werte könne für jedes Paar von Objekten in einer Speichereinrichtung gespeichert werden.

Das Klassifizieren der Personen, d.h. das Ermitteln einer oder mehrerer TWE für eine Person, kann umfassen:

- Auslesen der den Knoten der zumindest einen Baumdatenstruktur zugeordneten Texte;

- Gewichten der Texte, wobei für jedes Wort eines Textes ein Gewichtungswert erzeugt wird, welcher dem Wort des Textes zugeordnet wird, wobei für ein Wort, welches in unterschiedlichen Texten vorkommt unterschiedliche Gewichtungswerte erzeugt werden können; und

- Erzeugen einer Anzahl von Klassifizierungswerte, wobei jeder Klassifizierungswert durch ein Tripel, bestehend aus einer die Person identifizierenden Personenidentifikation, einem Wort und einem dem Wort zugeordneten Gewichtungswert (Objektidentifikation, Wort, Gewichtungswert), repräsentiert wird.

Das Bestimmen des Ähnlichkeitswertes TPI kann einen Schritt zum Ermitteln eines Gewichtungsfaktors umfassen, mit dem der bestimmte Ähnlichkeitswert angepasst wird.

Die Baumdatenstruktur kann reduziert werden. Dadurch kann das Ermitteln bzw. Bestimmen von Ähnlichkeitswerten zwischen Objekten und das Klassifizieren der Personen beschleunigt werden, was insbesondere dann vorteilhaft ist, wenn eine sehr große Anzahl von BDS analysiert werden muss. Zudem kann durch das Reduzieren die Qualität der Ähnlichkeitsberechnung und der Klassifizierung der Personen erhöht werden, da durch das Reduzieren Knoten entfernt werden, die irrelevant für die Ähnlichkeitsberech- nung und die Klassifizierung sind.

Die Baumdatenstruktur kann über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird, wobei das Übertragen vor dem Ermitteln der Knoten der Baumdatenstruktur ausgeführt werden kann.

Vor dem Übertragen oder nach dem Übertragen kann die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert werden. Damit kann auf sämtliche BDS auf die gleiche Weise zugegriffen werden. Das normierte Baumdatenstruktur-Format kann dabei eine Baumdatenstruktur im XML-Format sein.

Ein Objekt kann zumindest eines aus Dokument, Bild, Musik, Film, Internetseite und elektronisch speicherbare Datei sein. Ein Objekt kann aber auch ein physisches Objekt, z.B. ein Buch sein, welches von einer BDS anhand z.B. des Titels referenziert wird.

Bereitgestellt durch die Erfindung und zur Lösung der technischen Aufgabe wird auch ein System zum Bestimmen einer Ähnlichkeit von zumindest zwei Objekten, wobei das System ausgestaltet ist, das erfindungsgemäße Verfahren auszuführen.

Vorteilhafte Ausgestaltungen der Erfindung sind in den abhängigen Ansprüchen angegeben.

Kurzbeschreibung der Figuren

Die weitere Erläuterung der Erfindung erfolgt anhand der Zeichnung. In der Zeichnung zeigt:

Fig. 1 bis 3 Beispiele von Baumdatenstrukturen in Nicht-reduzierter Form und reduzierter Form;

Fig. 4 ein Beispiel einer Baumdatenstruktur zur Erläuterung der Distanzberechnung; Fig. 5 bis 8 Beispiele von Baumdatenstrukturen zur Erläuterung der Anpassung der Älinlichkeitswerte anhand von Gewichtungsfaktoren; und

Fig. 9 und 10 Beispiele von Baumdatenstrukturen zur Erläuterung der Klassifizierung von Personen.

Beschreibung bevorzugter Ausführungsformen

Das Verfahren zum Bestimmen der Ähnlichkeit von zwei Personen kann durch eine Software implementiert werden, welche z.B. eine Client-Software und eine Server- Software umfassen kann.

1. Softwareinstallation und Datenübertragung an Server

Ein Benutzer kann eine Client-Software installieren, um das erfindungsgemäße Verfahren auszuführen. Die Software identifiziert alle relevanten BDS auf dem Computer des Anwenders. Eine BDS wird z.B. über die Dateiendung identifiziert oder über den Header von Dateien oder indem sie explizit durch den Anwender ausgewählt wird. Die Software kann alle Speichermedien (Festplatte, DVDs, Netzwerk, etc.) durchsuchen oder nur den Arbeitsspeicher beachten, d.h. nur die BDS analysieren die gerade geöffnet sind oder anderweitig verarbeitet werden.

Die BDS werden bei Bedarf gefiltert nach Faktoren, z.B.

Größe (Dateigröße, oder Anzahl der Knoten bzw. referenzierten Objekte in der BDS) Letztes Änderungsdatum oder Erstelldatum

- Änderungsfrequenz (Anzahl Änderungen geteilt durch einen Zeitraum)

- Anzahl der Links auf Objekte in einer BDS (z.B. dass eine Mind Map mindestens 20 Links zu Webseiten beinhalten muss, bevor sie berücksichtigt wird)

- Speicherort (nur die BDS aus bestimmten Verzeichnissen)

- BDS-Typ (nur Mind Maps einer bestimmten Software, oder nur das Dateisystem, etc)

- Autor (nur die BDS des Anwenders werden berücksichtigt).

Die Faktoren können beliebig eingestellt oder miteinander kombiniert werden. Bei Bedarf werden die BDS in ein anderes Format konvertiert. Zum Beispiel könnten proprietäre Mind Map Dateien in XML konvertiert werden. Die BDS werden dann an einen Server übermittelt, wobei die Server-Software ggf. auf dem Computer des Anwenders laufen kann auf dem sich auch die BDS befinden.

2. Speichern der Daten auf Server

Der Server speichert die Daten auf der Festplatte, im Arbeitsspeicher, in einer Datenbank oder einem anderen geeigneten Medium. Ggf. werden die BDS wieder gefiltert nach bereits genannten Faktoren.

3. Reduzieren der Baumdatenstruktur

In manchen Fällen ist es vorteilhaft, die BDS zu vereinfachen, bevor Ähnlichkeitswerte zu den Objekten ermittelt werden bzw. eine Klassifizierung von Personen vorgenommen wird. Das Reduzieren der BDS kann wie folgt erfolgen:

- Löschen aller Endknoten die keine Links auf Objekte haben. Fig. 1 zeigt links eine BDS in Nicht-reduzierter Form und rechts eine BDS in reduzierter Form.

- Reduzieren der Linkknoten, die keine Geschwisterknoten haben auf die nächstmögliche Ebene, sodass Geschwister entstehen. Ein Beispiel hierfür ist in Fig. 2 angegeben.

- Zusammenfassen von Knoten, die ein Objekt verlinken ohne aussagekräftige Beschreibung. In diesem Fall wird der Linkknoten mit dem Elternknoten zusammenge- fasst. Eine nicht aussagekräftige Beschreibung ist beispielsweise, wenn der Knotenname gleich dem Dateinamen des verlinkten Objektes oder eine Zahl ist. Ein Beispiel hierfür ist in Fig. 3 angegeben.

- Filtern nach Benutzerangaben oder bestimmten Texten, etwa Links die in der BDS als „privat" oder ähnlichem gekennzeichnet sind, werden ignoriert und/oder Knoten deren Eltemknoten„temp",„todo",„noch einsortieren",„xxx" etc. heißen werden ignoriert bzw. gelöscht. Die Wörter können vom Nutzer oder dem Programmierer vorgegeben werden.

- Kombination der vorstehenden Verfahren zum Reduzieren von BDS.

4. Analysieren der Baumdatenstruktur

Bevor die Ähnlichkeit von Personen bestimmt wird, wird die Baumdatenstruktur bzw. werden die Bausdatenstrukturen analysiert. In der BDS werden jene Knoten gesucht, die auf ein Objekt verlinken bzw. die ein Objekt referenzieren. Zum Beispiel wird nach Hyperlinks, Dateinamen und/oder Pfade, Verknüpfungen und/oder nach indirekten Verweisen auf Objekte, wie etwa BibTeX Keys, Aktenzeichen, und ähnliche eindeutige Schlüssel oder Dokumentennamen (oder Titel) gesucht.

Nachdem alle Knoten gefunden wurden, die auf Objekte verlinken bzw. referenzieren, werden diese Objekte und/oder die Autoren dieser Objekte, d.h. die den Objekten zugeordneten Personen identifiziert, damit klar ist, um welche Objekte bzw. um welche Personen es sich handelt. Dies kann in einer Ausführungsform wie folgt erfolgen: a. Wurde ein Hyperlink gefunden kann

i. vom jeweiligen NIC mittels einer WHOIS -Abfrage der Eigentümer (z.B. Ad- minC) der Domain als Autor angenommen werden.

ii. im Falle einer Webseite (z.B. im HTML bzw. xHTML Format) die Person, welche im Autorentag steht, als Autor angenommen werden.

iii. im Falle, dass eine Datei verlinkt wurde (PDF, Film, ...), wie im nächsten Schritt verfahren werden.

b. Wurde eine Datei verlinkt wird der Objekttyp über die Dateiendung oder den Header der Datei identifiziert. Je nach Dateityp können dann weitere Verfahren angewandt werden. Zum Beispiel

i. Auslesen des (oder der) Autoren aus den Metadaten der Datei.

ii. im Falle eines formatierten Textdokumentes (z.B. Word Dokument oder PDF):

- Identifizieren des Titels, indem der Text mit der größten Schrift auf der ersten Seite im oberen Drittel ermittelt wird und der über weniger als vier Zeilen geht und ggf. zentriert ist. Dieser Text wird dann als Titel angenommen (die Zahlenwerte hier können natürlich beliebig ausgetauscht werden, sodass z.B. nicht im oberen Drittel sondern im oberen Viertel gesucht wird).

- Suchen nach typischen Namenmustern unterhalb des Titels.

- Ggf. kann ein Abgleich mit einer Wissensbasis vorgenommenwerden.

iii. im Falle eines JPEG: Auslesen des Autors aus den EXIF oder IPTC Metadaten. c. Wurde ein indirekter Verweis auf ein Objekt gefunden, zum Beispiel ein BibTeX key, wird auf allen zugänglichen Speichermedien nach der entsprechenden BibTeX Datei gesucht und dort der entsprechende Autor aus Metadaten des Objektes ausgelesen. d. Wenn ein Autor identifiziert wurde, werden seine Metadaten (Name, Vorname, etc. ) in einer Datenbank gespeichert, damit später die Ähnlichkeit von diesem Autor zu anderen Autoren berechnet werden kann.

5. Distanzberechnung, um die Ähnlichkeit von Objekte zu ermitteln

Nachdem alle Knoten mit Links identifiziert wurden, wird die Distanz zwischen diesen Knoten berechnet. Das heißt, es wird eine Matrix gebildet in der die Distanz von jedem Objekt zu jedem anderen Objekt eingetragen wird. Das Bestimmen der Distanz kann auf unterschiedliche Weise erfolgen, z.B. (aber nicht abschließend):

a. mit allen gängigen Verfahren der Graphen-, Baum- bzw. Netzwerktheorie;

b. oder über eine visuelle Auswertung, indem z.B. gemessen wird, wie viele cm, mm etc. Distanz zwischen den verlinkenden Knoten ist;

c. durch zählen der Kanten zwischen zwei Linkknoten.

Anhand der Fig. 4 wird die Variante, bei welcher die Distanz anhand der Knoten bestimmt wird erläutert. In Fig. 4 sind die Distanzen wie folgt:

Distanz (Linkl |Link2)=2

Distanz

Distanz (Linkl |Link4)=4

Distanz (Linkl |Link6)=5

Die Distanzwerte können gespeichert werden oder es wird gleich mit dem nächsten Schritt fortgefahren, in welchem die Ähnlichkeitswerte ermittelt bzw. berechnet werden.

6. Berechnen des Ähnlichkeitswertes (TPI)

Der TPI von zwei Autoren berechnet sich anhand der Distanz der von ihnen erstellten Objekte zueinander und wird durch bestimmte Faktoren geschwächt. Der TPI zweier Autoren entspricht also dem TPI der entsprechenden Objekte. Im Folgenden wird beschrieben, wie der Ähnlichkeitswert von zwei Objekten ermittelt wird, wobei zum Ermit- teln der Ähnlichkeit von zwei Personen nur die TPIs zwischen jenen Objekten ermittelt werden muss, deren zugeordnete Personen (z.B. die Autoren) verschieden sind. TPIs zwischen Objekten, denen die gleiche Person zugeordnet ist müssen nicht berechnet werden. Wenn also nachfolgend von zwei Objekten oder von zwei verschiedenen Objekten gesprochen wird, sind damit immer zwei Objekte gemeint, welchen jeweils verschiedene Personen zugeordnet sind.

Der grundsätzliche Ablauf ist wie folgt:

51 Für jede vorhandene BDS werden die TPIs aller möglichen Objekte berechnet.

52 Diese TPIs werden gespeichert.

53 Nun werden zu einigen Objektpaaren verschiedene TPI vorliegen.

54 Diese verschiedenen TPI werden dann im nächsten Scliritt zu einem Gesamt-TPI vereint.

55 Für eine weitere bzw. neue BDS werden die Schritte Sl und S2 wiederholt und dann wieder im Schritt S4 der Gesamt-TPI berechnet

Im Folgenden wird ein Beispiel angegeben, wie ein TPI berechnet wird, wenn zwei Objekte nur einmal innerhalb einer einzigen BDS referenziert werden. In diesem Fall berechnet sich der TPI der zwei Objekte nur basierend auf deren Distanz zueinander in dieser einzigen BDS. Der TPI von zwei verlinkten Objekten kann berechnet werden als

TPI(Objl|Obj2) = 1 / (Distanz/2)^A2

Für obiges Beispiel zu den Distanzen aus Fig. 4 würden sich folgenden TPI ergeben: TPI(Linkl|Link2) = 1 / (2/2)^A2 = 1

TPI(Linkl|Link3) = 1 / (2/2)^A2 = 1

TPI(Linkl|Link4) = 1 / (4/2)^A2 = 1/4

TPI(Linkl |Link6) = 1 / (5/2)^A2 = 0,16

Es können auch beliebige andere Berechnungsvorschriften verwendet werden. Der bereclinete Wert ist ein temporärer Wert, welcher durch die folgenden Faktoren verändert bzw. angepasst werden kann, wobei das Anpassen optional vorgesehen werden kann:

a) Anzahl der Knoten in einer Ebene

Je mehr Knoten (unabhängig davon, ob mit oder ohne referenziertes Objekt) sich in einer Ebene befinden, desto geringer ist die Ähnlichkeit der referenzierten Objekte. Das heißt, Linkl und Link2 oder Link5 und Link6 aus Fig. 5 haben tendenziell eine niedrige Verwandtschaft bzw. Ähnlichkeit zueinander als Link 9 und Linkl 0. Befinden sich zwei Links in verschiedenen Ebenen, werden alle Knoten beider Ebenen zusammengezählt. Anhand des Beispiels in Fig. 5 könnte die Anpassung wie folgt vorgenommen werden:

TPIneu = TPIalt falls Anzahl Knoten = 2

TPIneu = TPIalt * 0,8 falls Anzahl Knoten zwischen 3 und 5 einschließlich TPIneu = TPIalt * 0,5 falls Anzahl Knoten größer 5

Diese Berechnungsvorschriften sind lediglich beispielhaft und können je nach Anforderung durch andere Vorschriften ersetzt werden. Wichtig ist letztlich, dass die Anzahl der Knoten als Gewichtungsfaktor herangezogen wird.

b) Tiefe der Ebene

Je tiefer die Ebene von zwei Links bzw. zwei Referenzen auf Objekte, desto stärker ist ihre Verwandtschaft bzw. Ähnlichkeit. Im Beispiel nach Fig. 6 wären Linkl und Link2 tendenziell weniger stark verwandt bzw. weniger ähnlich als Link3 und Link4. Dies beruht auf der Annahme, dass desto tiefer die Ebene desto spezialisierter das Thema.

Der neue TPI berechnet sich aus dem alten TPI mal der Wurzel der relativen Tiefe der Knoten, also

TPIneu = TPIalt · J aktuelle Tiefe /max. Linktiefe in der BDS

Im Beispiel nach Fig. 6 wäre die Tiefe von Linkl und Link2 jeweils 2 (Anzahl der Kanten bis zur Wurzel). Die Tiefe von Link3 und Link4 wäre vier. Das heißt, die relative Tiefe von Link3 und Link4 ist 1 (4/4), die maximal mögliche Tiefe. Die relative Tiefe von Linkl und Link2 ist 2/4 bzw. Vi. Als Tiefe für ungleiche Paare wie Linkl und Link3 wird der niedrigere Wert genommen (also Vz).

c) Selbstverlinkungen

Verlinkt der Anwender in seiner BDS Objekte die er selbst erstellt hat bzw. die ihm gehören, können die hieraus errechneten TPIs optional ignoriert oder abgeschwächt werden. Das gleiche gilt für BDS von Anwendern die in enger Beziehung zu den Autoren bzw. zu den Personen von verlinkten Objekten stehen. In Beziehung stehen Anwender die zum Beispiel bei der gleichen Organisation arbeiten, gemeinsam an Projekten gearbeitet haben oder zusammen wissenschaftliche Arbeiten veröffentlicht haben. Beispiel: Ein Wissenschaftler referenziert in seiner Arbeit sich selbst oder einen guten Kollegen mit dem er schon einmal zusammen ein Paper veröffentlicht hat. Dann wird diese Referenz nicht beachtet oder schwächer gewichtet.

d) Mehrfaches Verlinken eines Objektes in einer BDS

Es kann vorkommen, dass in einer BDS das gleiche Objekt mehrfach verlinkt ist (im Beispiel nach Fig.7 etwa Link2). In diesem Fall können zwei verschiedene TPIs für das Paar Linkl und Link2 sowie für das Paar Link2 und Link3 berechnet werden. Der Ablauf für das Berechnen des (gewichteten bzw. angepassten) TPI kann folgender sein:

i. Der TPI wird für alle möglichen Kombinationen berechnet;

ii. Der niedrigere TPI wird verworfen - es wird nur der stärkere TPI verwendet; iii. Transitivität: Wurde für Linkl und Link2 der TPI X und für- Link2 und Link3 der TPI Y berechnet, kann davon ausgegangen werden, dass sich Linkl und Link3 e- benfalls ähnlich sind (Transitivitätsprinzip, d.h. wenn A=B und B=C, dann A^C oder wenn A>B und B>C dann A>C). Darum gilt erfindungsgemäß: Wurde innerhalb einer BDS für die Objekte A und B der TPI X und für die Objekte B und C der TPI 7 berechnet, erhalten die Objekte A und C den TPI X * Y sofern der Wert höher ist als die direkt berechnete Ähnlichkeit von A und C. Optional kann der endgültige Wert noch um einen Faktor eingeschränkt werden, also z.B. X*Y*0,9. e) Co-Autorschaft

Wurde ein verlinktes Objekt von mehreren Autoren erstellt, so erhalten diese jeweils den TPI = 1. Die so angepassten TPIs können wiederum in einem Speichermedium gespeichert werden.

Im Folgenden wird nun beispielhaft erläutert, wie Ähnlichkeiten zwischen Objekten (und damit zwischen den Personen, etwa Autoren der Objekte) berechnet werden, die in verschiedenen BDS referenziert werden.

Der Grundgedanke hierbei ist, dass der höchste TPI übernommen wird. Falls es aber viele niedrigere TPIs gibt, kann dies den Gesamt-TPI abschwächen. Der Gesamt-TPI errechnet sich dann wie folgt:

Gesamt-TPI = (Summe der höchsten Ähnlichkeitswerte + Summe (Wurzel der

restlichen Ähnlichkeitswerte) ) / Anzahl Ähnlichkeitswerte

Beispiel: Für das Paar ObjektX und ObjektY (und damit auch für die den Objekten X und Y zugeordneten Personen) werden aus fünf BDS die fünf TPIs 0,8; 0,8; 0.5; 0.5; 0,3 errechnet. Dann ist der Gesamt-TPI = (0,8+0,8+Wurzel(0,5)+Wurzel(0,5)+ Wurzel(0,3)) / 5 = (0,8 + 0,8 + 0,71 + 0,71 + 0,54 ) / 5 = 0,712. Ist der Endwert größer als der größte Einzelwert (0,8 im Beispiel), dann wird der größte Einzelwert als Gesamt-TPI genommen. Alternativ zu diesem Verfahren kann auch der Mittelwert gebildet werden, nur der höchste Wert übernommen werden, etc.

Manche Objekte (und damit auch den Objekten zugeordnete Personen) werden sehr häufig referenziert, z.B. Bücher die zur Standardliteratur in einem bestimmten Bereich gehören. Hier sagt es wenig aus, wenn ein solches Standardwerk mit einem anderen Buch dicht beieinander verlinkt wird. Beispiele hierzu sind:

- Die Objekte A und B wurden von drei verschiedenen BDS verlinkt und weder A noch B wurden in irgendeiner anderen BDS verlinkt.

- Die Objekte C und D wurden von vier verschiedenen BDS verlinkt aber Objekt C wurde noch von 10 anderen BDS verlinkt (die nicht Objekt D verlinkt haben) und Objekt D wurde ebenfalls in anderen BDS verlinkt, die nicht Objekt C verlinkt haben.

- Dann sind A und B stärker verwandt bzw. ähnlicher als C und D, d.h. die Autoren von A und B sind ähnlicher als die Autoren von C und D. Eine mögliche Berechnungsvorschrift hierzu wäre:

TPIneu = TPIalt * (Anzahl zusammen referenziert / Summe (Anzahl einzeln referenziert))

Zum Beispiel. Objekt A und B wurden in 3 BDS zusammen verlinkt und haben bisher einen TPI von 0,7. Objekt A wurde außerdem in 2 weiteren BDS verlinkt und Objekt B in einer weiteren. Dann ist der neue TPI = 0,7 * 3 / (2+3) = 0,7*3/5 = 0,42. Möglich sind auch Berechnungen, die den endgültigen TPI weniger stark oder auch stärker abschwächen.

Es kann auch angenommen werden, dass in Texten zu erst etwas allgemein beschrieben ist und dann konkreter wird. Zwei Referenzen bzw. Links am Anfang wären vermutlich nicht so sehr am gleichen Thema, während zwei Links gegen Ende näher am gleichen Thema wären. Daher kann gelten: Je später zwei Links bzw. Referenzen vorkommen, desto stärker ihre Beziehung bzw. der von diesen Referenzen referenzierten Objekte. Im Beispiel nach Fig. 8 wäre die Beziehung zwischen Link3 und Link4 vermutlich ein ganz klein wenig stärker als zwischen Linkl und Link2.

In einer weiteren Ausfuhrungsform der Erfindung kann die Anzahl der Editierungen einer BDS berücksichtigt werden. Das bedeutet, je öfter eine BDS bzw. ihre Einträge editiert wurden, umso zuverlässiger sind die Informationen die man daraus erhält. Wurde beispielsweise ein Link bzw. eine Referenz zu einem Objekt erzeugt und eine Woche später editiert (z.B. innerhalb der BDS verschoben), kann davon ausgegangen werden, dass die Einordnung dann von höherer Güte ist.

In einer noch weiteren Ausflihrungsform kann die Kompetenz des Anwenders berücksichtigt werden. Wird der Ersteller einer BDS als besonders kompetent erachtet, wird den Ähnlichkeitswerten, die basierend auf dieser BDS errechnet werden, mehr Gewicht gegeben. Kompetenz kann mit aus dem Stand der Technik bekannten Verfahren bestimmt werden. Wird ein Anwender vom System als besonders kompetent erachtet, werden die Ähnlichkeitswerte, die basierend auf seinen BDS errechnet werden, bei der Berechnung eines endgültigen TPI doppelt (oder dreifach) gewichtet. Im obigen Beispiel, in welchem die Ähnlichkeitswerte 0,8; 0,8; 0.5; 0.5; 0,3 waren, und angenommen der erste Wert (0,8) war von einem besonders kompetenten User, dann würden folgende Werte als Grundlage dienen: 0,8; 0,8; 0,8; 0.5; 0.5; 0,3; (d.h. eine zusätzliche 0,8 - der erste Wert wird doppelt berücksichtigt).

In einer noch weiteren Ausführungsform kann die Anzahl der BDS vom gleichen Anwender berücksichtigt werden. Ein Anwender könnte sehr viele BDS erstellen, die alle das gleiche Paar von Objekten und damit auch von Personen referenzieren. In diesem Fall würde die Meinung eines Anwenders die Gesamtbewertung der Ähnlichkeit von zwei Objekten und damit von zwei Personen ungewollt stark beeinflussen. Um diese zu vermeiden, werden diese Werte genommen und als„eigenständiges System" betrachtet, sodass aus den mehreren Werten mit dem erfindungsgemäßen Verfahren ein Gesamtwert berechnet wird. Dieser Gesamtwert fließt dann in die Endberechnung mit den Werten anderer Anwender bzw. anderer BDS mit ein. Ein Beispiel hierfür ist: Wir haben die Werte 0,8; 0,8; 0.5; 0.5; 0,3 (vgl. oben). Eine 0,8 und die 0,3 stammen vom gleichen Anwender. Dann wird aus einer 0,8 und der 0,3 ein vorläufiger Ähnlichkeitswert berechnet: (0,8+Wurzel(0,3)) / 2 = (0,8 + 0,54) / 2 = 0,67. Anschließend wird der endgültige Ähnlichkeitswert berechnet aus der 0,67 und den verbleibenden Werten, also 0,8; 0,67; 0.5; 0.5. Alternativ kann auch nur der höchste Wert oder normale Mittelwert des Anwenders übernommen werden.

Auch bei der Berechnung von Ähnlichkeiten zwischen Objekten, die in verschiedenen BDS referenziert werden, kann die Selbstverlinkung berücksichtigt werden (vgl. oben)

Beispielsweise kann der höchste TPI verwendet werden und mit der Hälfte gewichtet. Die anderen TPI können ignoriert werden. Im Beispiel 0,8; 0.5; 0,3 und der Annahme, dass 0,8 vom Anwender selbst sind, wäre der TPI:

0,5 * 0,8 + Wurzel(0,5) + Wurzel(0,3) / 2,5 = (0,4 + 0,71 + 0,55 ) / 2,5 = 0,66

Ebenso kann auch die bereits oben beschriebene Transitivität berücksichtigt werden.

7. Klassifizierung von Autoren bzw. Bestimmen des TWE basierend auf eigener BDS Gemäß dem erfindungsgemäßen Verfaliren werden Autoren von BDS klassifiziert, um die Klassifikation von Autoren in die Berechnung des Übereinstimmungswertes RSI (d.h. der Ähnlichkeit zwischen zwei Autoren bzw. Personen) mit einfließen zu lassen. Der Verfahrensablauf kann dabei folgender sein:

a. Identifizieren des Autors: der Name des Autors (Ersteller/Eigentümer der BDS) wird bestimmt

i. über die Metadaten der BDS; und/oder

ii. über einen Nutzernamen, den der Anwender in die Software eingibt bzw. mit dem der Anwender sich beim System angemeldet hat; und/oder

iii. indem schon bei der Installation der Software eine zufällige ID erzeugt wird, welche den Nutzer identifiziert (auch wenn man keine weiteren persönlichen Daten hat).

b. Der Text eines jedes Knoten wird aus der BDS ausgelesen und mit gängigen Text Mining Verfahren bearbeitet, z.B. Stemming (Reduzieren der Wörter auf ihren Stamm) oder Stop Word Filtering (Filtern von Konjunktionen Präpositionen und anderen wenig aussagekräftigen Wörtern wie„und",„oder",„der",„wie", etc.).

c. Die Wörter werden nun gewichtet. Der Grundgedanke dabei ist, dass je mehr Kindknoten ein Knoten hat, desto aussagekräftiger bzgl. der Expertise des Autors ist dieser Knoten. Ein Beispiel: Der Autor der Mind Map, wie sie in Fig. 9 gezeigt ist, wird sich vermutlich recht gut mit„Mind Mapping" im Allgemeinen auskennen (Wurzelknoten). Er kennt einige Studien, weiß wofür Mind Maps genutzt werden und kennt hierzu einige Software Programme. Umgekehrt scheint er aber nicht mehr viel über die Software FreeMind zu wissen, außer wo sie herunter geladen werden kann. Der Wurzelknoten („Mind Mapping") wird daher am stärksten gewichtet. In diesem Beispiel wird als Gewichtung die Vorschrift .^T (Kindknoten und Kindeskindknoten + 1) angenommen, d.h. die Wurzel von (Anzahl aller Kinder und Kindeskinderknoten +1). Andere Vorschriften können vorgesehen werden. Im Beispiel wäre die Gewichtung also:

Mind Mapping = Wurzel (19) = 4,36

Studien = Wurzel (7) = 2,65

Der Wurzelknoten hat also den höchsten Gewichtungswert. d. Enthält ein Knoten mehrere Wörter, werden diese einzeln betrachtet und wie eigenständige Knoten behandelt. Im Beispiel würde aus dem Knoten„Wie erstellt man Mind Maps am besten?" die folgende Gewichtung erzeugt werden:

Mind Maps = Wurzel(3) = 1,73

erstellt = Wurzel(3) = 1,73

Wörter wie„wie",„am",„man" würden gefiltert (Stop Word Filtering) werden, e. Kommen Wörter mehrfach in einer Mind Map vor, errechnet sich die Gesamtgewich- tung bzw. der Gesamtgewichtungswert aus der Summe vom höchsten Wert plus die Wurzel der kleineren Werte, d.h. aus

Im Beispiel: Würde man„Mind Map" und„Mind Mapping" als gleiches Wort betrachten, wäre der Gesamtgewichtungswert = 4,36 + Wurzel (1,73) = 5,68.

f. Anstelle des Wurzelknotens kann auch ein anderer Knoten der BDS den höchsten Gewichtungswert annehmen, wie nun am Beispiel von Fig. 10 erläutert wird. In diesem Fall würde sich der Autor zwar (vermutlich) recht gut mit„Citation Analysis" auskennen (Wurzelknoten), sein wirkliches Fachgebiet scheint aber bei„Citation Proximity analysis" zu liegen. Hier wird also der Knoten„Citation Proximity analysis" am stärksten gewichtet werden, d.h. dass etwa das Wort "Proximity" einen höheren Gewichtungswert erhalten wird als das Wort "Citation", obwohl "Citation" im Wurzelknoten vorhanden ist. In einer Ausführungsform kann also jener Knoten bzw. Wörter jenes Knoten am stärksten gewichtet werden, welcher insgesamt den größten Teilbaum aufweist. Die kann etwa jener Knoten der BDS sein, welche die meisten direkten Kindknoten hat.

g. Hat ein Autor mehrere Mind Maps erstellt, werden diese für die Berechnung der Klassifizierungswerte zu einer Mind Map zusammengefasst.

h. Abschließend werden alle Wörter mit ihren Häufigkeiten und dem Gewichtungswert in einer Datenbank oder einem anderen geeigneten Speichermedium gespeichert und dort dem Autor zugeordnet.

8. Klassifizierung von Autoren bzw. Bestimmen des TWE basierend auf fremden BDS Gemäß dem erfindungsgemäßen Verfahren werden Objekte in der BDS klassifiziert, um die Klassifikation dieser Objekte (bzw. deren Autoren) in die Berechnung des Überein- stimmungswertes RSI (d.h. der Ähnlichkeit zwischen zwei Autoren bzw. Personen) mit einfließen zu lassen. Der Verfahrensablauf kann dabei folgender sein:

a. Der Text eines jedes Knoten wird aus der BDS ausgelesen und mit gängigen Text Mining Verfahren bearbeitet, z.B. Stemming (Reduzieren der Wörter auf ihren Stamm) oder Stop Word Filtering (Filtern von Konjunktionen Präpositionen und anderen wenig aussagekräftigen Wörtern wie„und",„oder",„der",„wie", etc.).

b. Jedes Objekt und damit dessen Autor wird durch den Text seines Knoten und den seiner Elternknoten und deren Elternknoten etc. klassifiziert.

c. Dabei wird jedes Wort gewichtet, wie es mit Bezug auf Fig. 4 gezeigt wird:

Das Dokument, welches vom Knoten„Aussage 1" verlinkt ist, wird hier mit folgenden

Wörtern klassifiziert, wobei den Wörtern folgende Gewichtungen zugeordnet werden:

Aussage 1 - Gewichtung = 1

Zweig 1 - Gewichtung = 1/2

Reduziert - Gewichtung = 1/3

In diesem Beispiel wird also die Vorschrift

1/ ((Anzahl der Kanten zwischen Objekt und Wort)+ \) angewandt, um die Gewichtung der Wörter zu ermitteln. Andere Vorschriften können ebenso angewandt werden. Es können auch Wörter von Geschwisterknoten zu berücksichtigt werden. Wird ein Objekt in mehreren BDS verlinkt bzw. referenziert, in denen auch noch gleiche Wörter vorkommen, werden die Gewichtungen kombiniert, beispielsweise addiert.

9. Kombination und Ähnlichkeitsberechnung von Autoren

Die zuvor berechneten TPI und TWE werden nun kombiniert. Bisher bezeichnete der TWE die Stärke eines Wortes zu einer Person. Nun sollen darauf basierend die Ähnlichkeit von Personen berechnet werden. Hierfür werden alle bisher berechneten Werte kombiniert. Der TPI für Objekte (und damit auch der Autoren); der TWE für Autoren basierend auf eigenen BDS; der TWE für Autoren basierend auf fremden BDS. Hierzu ein Beispiel: TWE von Autor A TWE von Autor B TWE von Autor C

Wortl = 12 Wortl = 8 Wortl = 1

Wort2 = 0,33 Wort2 = 0,50 Wort2 = 0,20

Wort3 = 4,33 WortX = 10 WortX = 9

Wort4 = 0,25 WortY = 0,5

Der RSI kann nun wie folgt berechnet werden: a. Es wird eine Matrix gebildet für alle Autoren, welche mit mindestens einem gemeinsamen Wort klassifiziert wurden.

b. Für die gemeinsamen Wörter wird eine Matrix gebildet

c. Es wird die relative Differenz der TWEs für die gleichen Wörter berechnet, das heißt der Betrag der Differenz wird genommen und durch den höchsten TWE geteilt (siehe nachfolgende Tabelle).

d. Dann wird ein Mittelwert gebildet (arithmetisch, modal, oder median).

e. Die einzelnen Werte können gewichtet werden entsprechend der Gesamtanzahl der Wörter in der Datenbank. Das heißt, wenn zwei Autoren bei wenig genutzten Wörtern eine hohe Ähnlichkeit haben, wird dies stärker gewichtet als wenn zwei Autoren bei viel benutzten Wörtern eine hohe Ähnlichkeit haben.

f. Außerdem wird berücksichtigt, wenn Autoren bei vielen Wörtern Übereinstimmungen haben. Sonst könnte es passieren, dass zwei Autoren bei lediglich einem Wort nahezu den gleichen TWE haben und zwei Autoren die bei 10 Wörtern nur fast den gleichen TWE haben schlechter abschneiden. Hierfür wird die n-te Wurzel gezogen aus dem TWE wobei n= Anzahl der übereinstimmenden Wörter.

g. Dann wird der Mittelwert aus dem TWE mit dem TPI gebildet, welcher den endgültigen RSI ergibt.

Gewerbliche Anwendbarkeit der Erfindung

Das erfindungsgemäße Verfahren ist gewerblich anwendbar, z.B. für die Realisierung einer Expertensuche.

Claims

Patentansprüche

1. Computer-implementiertes Verfahren zum Bestimmen einer Ähnlichkeit von zumindest zwei Personen,

- wobei die zumindest zwei Personen jeweils mit zumindest einer Baumdatenstruktur in Beziehung stehen und/oder zumindest eine Baumdatenstruktur Referenzen zu Objekten aufweist, wobei jeweils zumindest ein Objekt einer der beiden Personen zugeordnet ist,

- wobei die Baumdatenstruktur eine Anzahl von Knoten aufweist,

- wobei zumindest einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist und/oder wobei zumindest zwei Knoten der zumindest einen Baumdatenstruktur jeweils eine Referenz auf jeweils eines der zumindest zwei Objekte repräsentieren, und

- wobei die Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, umfassend zumindest folgende Schritte:

- Bestimmen einer Ähnlichkeit der zumindest zwei referenzierten Objekte, wobei aus zumindest einer Distanz zwischen den zumindest zwei referenzierten Objekten ein Ähnlichkeitswert bestimmt wird; und

- Bestimmen eines Übereinstimmungswertes aus dem Klassifizierungswert und/oder dem Ähnlichkeitswert, wobei der Übereinstimmungswert die Ähnlichkeit der zumindest zwei Personen angibt.

2. Verfahren nach Anspruch 1 , wobei das Bestimmen der Ähnlichkeit umfasst:

- Ermitteln der Knoten der mindestens einen Baumdatenstruktur, welche die zumindest zwei Objekte referenzieren;

- Bestimmen der Distanz zwischen jeweils zwei Objekten, welche von den ermittelten Knoten jeweils einer Baumdatenstruktur referenziert werden, wobei für je- weils zwei Objekte mehrere Distanzen bestimmt werden, wenn zumindest eines der beiden Objekte von mehreren Knoten einer Baumdatenstruktur referenziert wird und/oder wenn die beiden Objekte jeweils von Knoten zumindest zweier verschiedener Baumdatenstrukturen referenziert werden; und

Verfahren nach Anspruch 2, wobei das Bestimmen des Ähnlichkeitswertes einen Scliritt zum Ermitteln eines Gewichtungsfaktors umfasst, mit dem der bestimmte Ähnlichkeitswert angepasst wird.

Verfahren nach Anspruch 3, wobei das Ermitteln eines Gewichtungsfaktors umfasst:

- für jedes Paar von Objekten, Ermitteln der Anzahl von Kanten in der Baumdatenstruktur, welche sich in der gleichen Ebene befinden wie die Knoten, welche die Objekte des Paares referenzieren, und/oder

- für jedes Paar von Objekten, Ermitteln der Tiefe in der Baumdatenstruktur für jedes Objekt des Paares, und/oder

- für jedes Objekt, Ermitteln, ob der Eigentümer der Baumdatenstruktur auch der Eigentümer des Objektes ist, und/oder

- für zumindest drei Objekte in einer Baumdatenstruktur, wobei für ein erstes Objekt der drei Objekte jeweils ein Ähnlichkeitswert zu jeweils einem der beiden anderen Objekte der zumindest drei Objekte berechenbar ist, Ermitteln eines Ähnlichkeitswertes für die beiden anderen Objekte unter Verwendung der Ähnlichkeitswerte zwischen dem ersten Objekt und dem jeweils anderen Objekt der zumindest drei Objekte (Transitivität), und/oder

- für jeweils zwei Objekte, welche aus unterschiedlichen Baumdatenstrukturen referenziert werden, Ermitteln einer ersten Anzahl von Baumdatenstrukturen, welche die zwei Objekte gemeinsam referenzieren und Ermitteln einer zweiten Anzahl von Baumdatenstrukturen, welche jeweils nur eines der zwei Objekte referenzieren und Bilden eines Quotienten zwischen der ersten Anzahl und der zweiten Anzahl, und/oder - für jedes Paar von Objekten, Ermitteln einer absoluten Position der Objekte des Paares innerhalb einer Baumdatenstruktur.

5. Verfahren nach einem der vorhergehenden Ansprüche 2 bis 4, wobei die Ähnlichkeitswerte für jedes Paar von Objekten in einer Speichereinrichtung gespeichert werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Klassifizieren um- fasst:

- Gewichten der Texte, wobei für jedes Wort eines Textes ein Gewichtungswert erzeugt wird, welcher dem Wort des Textes zugeordnet wird, wobei für ein Wort, welches in unterschiedlichen Texten vorkommt unterschiedliche Gewichtungswerte erzeugt werden kömien; und

7. Verfahren nach Anspruch 6, wobei nach dem Auslesen der Knoten die Anzahl der Vorkommnisse eines jeden Wortes und/oder eines jeden zusammengesetzten Wortes in der Baumdatenstruktur ermittelt wird.

8. Verfahren nach einem der Ansprüche 6 oder 7, wobei beim Erzeugen des Gewichtungswertes eines Wortes die Anzahl der Knoten berücksichtigt werden, welche in einer Teil-Baumdatenstruktur enthalten sind, wobei die Wurzel der Teil- Baumdatenstruktur durch jenen Knoten gebildet wird, welcher das Wort enthält.

9. Verfahren nach Anspruch 8, wobei der Gewi chtungs wert eines Wortes nach der Berechnungsvorschrift Kindknoten und Kinde skindknoten + 1)

erzeugt wird.

10. Verfahren nach Anspruch 8, wobei der Gewichtungswert eines Wortes nach der Berechnungsvorschrift

Anzahl der direkten Kindknoten

erzeugt wird.

11. Verfahren nach einem der Ansprüche 6 bis 10, wobei für ein in einer Baumdatenstruktur mehrfach vorkommendes Wort ein Gesamtgewichtungswert erzeugt wird.

12. Verfahren nach Anspruch 11, wobei der Gesamtgewichtungswert für ein Wort nach der Berechnungsvorschrift

erzeugt wird

13. Verfahren nach einem der Ansprüche 6 bis 12, wobei mehrere Baumdatenstrukturen zu einer einzigen Baumdatenstruktur zusammengefasst werden.

14. Verfahren nach einem der vorhergehenden Ansprüche 6 bis 13, wobei vor dem Gewichten der Texte die Texte einer Texttransformation unterzogen werden, um aus den Texten jeweils einen transformierten Text zu erzeugen.

15. Verfahren nach Anspruch 14, wobei die Texttransformation zumindest eines aus Wortstammbildung (Stemming) und Stoppwort-Filterung umfasst.

16. Verfahren nach einem der vorhergehenden Ansprüche, umfassend einen Schritt zum Reduzieren der Baumdatenstruktur.

17. Verfahren nach Anspruch 16, wobei das Reduzieren umfasst: - Löschen von Endknoten, welche keine Referenz zu einem Objekt repräsentieren, und/oder

- Reduzieren von Knoten, welche eine Referenz zu einem Objekt repräsentieren, auf die nächst höhere Ebene der Baumdatenstruktur, sodass jede Ebene der Baumdatenstruktur zumindest zwei Knoten aufweist, und/oder

- Filtern der Baumdatenstruktur nach vorherbestimmten Filterkriterien.

18. Verfahren nach einem der vorhergehenden Ansprüche, umfassend einen Schritt zum Identifizieren der referenzierten Objekte, welcher mindestens umfasst:

- Prüfen, ob es sich bei dem Objekt um ein Textdokument handelt; und

- Auslesen des Titels des Textdokumentes, wobei jener Text in dem Textdokument ermittelt wird, welcher eine vorbestimmte Formatierung aufweist.

19. Verfahren nach Anspruch 18, wobei der Text mit der vorbestimmten Formatierung im oberen Bereich des Textdokumentes bestimmt wird.

20. Verfahren nach einem der Ansprüche 18 oder 19, wobei der obere Bereich des Textdokumentes das erste Drittel der ersten Seite des Textdokumentes ist.

21. Verfahren nach einem der Ansprüche 18 bis 20, wobei die vorbestimmte Formatierung umfasst: größte Schriftgröße in dem Textdokument ist und/oder der Text erstreckt sich über maximal vier Zeilen und/oder der Text ist zentriert.

22. Verfahren nach einem der vorhergehenden Ansprüche, wobei die zumindest eine Baumdatenstruktur über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird.

23. Verfahren nach Anspruch 22, wobei vor dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird.

24. Verfahren nach Anspruch 22, wobei nach dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird.

25. Verfahren nach einem der Ansprüche 23 oder 24, wobei das normierte Baumdatenstruktur-Format die Baumdatenstruktur im XML-Format beschreibt.

26. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Klassifizierungswerte und/oder die Ähnlichkeitswerte in einer Speichereinrichtung auf einer Servereinrichtung gespeichert werden.

27. Verfahren nach Anspruch 26, wobei die Ähnlichkeitswerte für jedes Paar von Objekten derart in der Speichereinrichtung gespeichert werden, dass für ein Objekt eine Anzahl von ähnlichen Objekten ermittelbar ist, wobei die zu dem Objekt ähnlichen Objekte anhand der Ähnlichkeitswerte ermittelt werden, und wobei zu den ähnlichen Objekten die den Objekten zugeordneten Personen ermittelt werden.

28. Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Objekt zumindest eines aus Dokument, Bild, Musik, Film und Internetseite ist.

29. System zum Bestimmen einer Ähnlichkeit von zumindest zwei Personen,

- wobei die Baumdatenstruktur eine Anzahl von Knoten aufweist,

- wobei zumindest einem Knoten der zumindest einen Baumdatenstruktur zumindest ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist und/oder wobei zumindest zwei Knoten der zumindest einen Baumdatenstruktur jeweils eine Referenz auf jeweils eines der zumindest zwei Objekte repräsentieren,

umfassend eine Speichereinrichtung zum Speichern der zumindest einen Baumdatenstruktur und eine Verarbeitungseinrichtung, welche mit der Speichereiririchtung gekoppelt ist und welche ausgestaltet ist, ein Verfahren nach einem der vorhergehenden Ansprüche auszuführen. Datenträgerprodukt mit einem darauf gespeicherten Programmcode, welcher in einen Computer und / oder in ein Computernetzwerk ladbar ist und welcher ausgestaltet ist, wenn er in den Computer und / oder in das Computernetzwerk geladen wird, ein Verfahren nach einem der Ansprüche 1 bis 28 auszuführen.