WO2000002142A2 - Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts - Google Patents

Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts Download PDF

Info

Publication number
WO2000002142A2
WO2000002142A2 PCT/DE1999/001841 DE9901841W WO0002142A2 WO 2000002142 A2 WO2000002142 A2 WO 2000002142A2 DE 9901841 W DE9901841 W DE 9901841W WO 0002142 A2 WO0002142 A2 WO 0002142A2
Authority
WO
WIPO (PCT)
Prior art keywords
information content
objects
electronic
arrangement according
similarity
Prior art date
Application number
PCT/DE1999/001841
Other languages
English (en)
French (fr)
Other versions
WO2000002142A3 (de
Inventor
Bernd Kolpatzik
Dieter SCHÜTT
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to EP99941380A priority Critical patent/EP1092200A2/de
Publication of WO2000002142A2 publication Critical patent/WO2000002142A2/de
Publication of WO2000002142A3 publication Critical patent/WO2000002142A3/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Definitions

  • a distributed computer network for example the Internet / intranet
  • an electronic object is understood to mean any type of electronically stored information.
  • An electronic object is, for example
  • a user query is a term that is entered by a user and about which the user wants more information.
  • a set of terms relating to a predefinable topic or a predefinable term is to be used under a reference object.
  • the reference object has a generic term and other terms that are assigned to the generic term.
  • a weighting factor can be provided for each term, with which it is indicated to what extent weighted the respective term is to be assigned to the generic term.
  • the method from [2] requires an arrangement with a data source DQ through which electronic objects dj are fed to an acquisition component AK.
  • the electronic objects dj are processed in the acquisition component AK in such a way that they can be further processed in the arrangement. These electronic objects converted into a format that can be further processed are stored in a database DB.
  • a database DB is further to be understood as a structure in which information is stored.
  • the Internet / Intranet also represents a distributed database.
  • At least one reference object RO is stored in the arrangement.
  • the reference object RO is compared with the electronic object dj using a processor P and a similarity measure is determined in the following way:
  • Each electronic object dj which is described below as an electronic text file without restricting its general applicability, has a large number of terms.
  • Each object dj is described by means of a vector, the dimension of which is as large as the number of different terms in the object dj.
  • the vector describing the object dj also contains the indication of the frequency with which the respective term has occurred in the object dj. Assume that the object dj is a text file with the following content:
  • the corresponding vector xj which contains an indication of the frequency of the respective terms, has the following structure:
  • xj ⁇ 2, 1, 1, 1, 1, 1 ⁇ .
  • the vector xj thus describes a word histogram of the object.
  • the reference object RO contains key terms for a generic term.
  • the type of vector description of a reference object RO is carried out in an equivalent manner as described for an object above.
  • the similarity measure s (x_, X2) is now formed such that both document vectors, ie the vector xj, the object dj and the Reference object RO describes to be projected into a predeterminable common subspace.
  • the similarity measure s (x] _, X2) is defined as the cosine of the angle between the projected document vectors according to the following rule:
  • the similarity measure s (x] _, X2) clearly describes a similarity between two objects to be compared.
  • the similarity measure s (x ⁇ , X2) can of course also be determined for two objects dj. In this case, the similarity between the two objects dj is determined.
  • the invention is therefore based on the problem of specifying a method and an arrangement with which the disadvantages of known methods described above are avoided.
  • a similarity measure is determined for each object with which the similarity of the respective object to at least one further object and / or the reference object is described.
  • the information content is determined taking into account the similarity measure and the object information content of the respective object.
  • a processor is provided which is set up in such a way that the following steps can be carried out:
  • a similarity measure is determined for each object, with which the similarity of the respective object to at least one further object and / or to the reference object is described, and
  • the information content is determined taking into account the similarity measure and the object information content of the respective object.
  • the invention makes it possible for the first time not only to determine the similarity to a reference object or a probability of a hit for an electronically stored object with respect to a user request for electronically stored objects, but also to provide a user with information as to what information content an object has with respect to others Objects and / or with respect to the reference object.
  • information content is clearly to be understood as an indication of how much the individual objects differ from one another or how relevant the respective object is with respect to the reference object.
  • the creation date is a parameter of interest to the user. Because the older an object is in this case, the less interesting and the lower object information content the respective object has.
  • the object information content is to be understood for one object at a time.
  • the information content is formed in accordance with the following regulation.
  • G ⁇ rj • f ( P j) • G 3
  • the function f (pj), where pj describes a local spatial document density, is a weighting function which states that the less similar objects exist, the more valuable the information is for the user and the greater the information content. This gives the user better information about the relevance of the information object with regard to the user request.
  • the invention can advantageously be used as the basis for billing costs for an information search.
  • the user is no longer only billed for the amount of information that is transmitted to him, but rather an information content can be offered to him as a basis for calculation.
  • FIG. 1 is a sketch with which the method is illustrated;
  • FIG. 2 shows a computer network with a large number of computers;
  • Figure 3 is a sketch of an arrangement with which the method can be carried out.
  • FIG. 2 shows a computer network RN which has a multiplicity of computers R1, R2, R3, ... Ri, Ri + 1 ... Rn-1, Rn, which are coupled to one another.
  • IP / TCP Internet Protocol / Transmission Control Protocol
  • Electronic objects dj are stored in the computers Ri.
  • the following procedure is carried out in each computer with regard to the search term received, which is contained in request A:
  • Each computer Ri has the structure shown in FIG. 3 and described above.
  • An object information content Gj is assigned to each object dj.
  • the object information content Gj of an individual object dj depends on the type of the object.
  • the object information content Gj is freely specified by the operator of the database.
  • An information content G of the selected objects dj is determined in each computer Ri for at least some of the objects dj stored in the computer Ri.
  • the information content G is formed in accordance with the following regulation:
  • f (pj) a function, the value of which is lower, the greater the number of objects whose similarity to the object j is greater than a predefinable threshold value
  • a local document density p j indicates the number of similar or equivalent objects dj, which are in a local environment of predeterminable size around object j, ie the number of objects dj whose degree of similarity is greater than a predefinable threshold.
  • Figure 1 shows four objects dj (d] _, d2 > d3, d4 ) and symbolically two reference objects ROI, R02, with respect to which the relevance and information content is determined.
  • Connections between the documents dj and the reference objects ROI, R02 indicate a relevance of the respective object dj to the reference object ROI, R02.
  • a first reference object ROI contains the following dimensions with the weight factors assigned to the dimensions in a first reference vector p1:
  • a second reference object R02 contains the following dimensions with the weight factors assigned to the dimensions in a second reference vector p2:
  • the following table 1 shows the relevance of the respective object to the individual reference objects ROI, R02 for the individual objects dj.
  • Object d2 is relevant both for the first reference object ROI and for the second reference object R02.
  • the relevance r2 of the object D2 with regard to the combination of the two reference objects ROI, R02 is determined from the individual relevances r2i and r22 and the lengths of the vectors of the reference objects in accordance with the following rule:
  • Table 2 shows the respective object information content Gj for each object dj.
  • the objects contained in the environment V ⁇ j are counted. This gives a value for the density and a weighted density for the inventory of the existing objects.
  • the information content G is determined from these factors in accordance with the following regulation:
  • Table 4 shows the calculation of the information content G from the individual object information contents Gj and the weight factors.
  • the information content G determined is sent back to the first computer R1 as the result Ei (cf. FIG. 2).
  • the result is displayed to the user in the first computer, for example in accordance with the method proposed in [2], i.e. such that the objects are symbolically represented according to the following metaphor:
  • the information content G determined serves as the basis for a possible billing of costs that arise because the user actually loads the objects offered from the computers Ri onto the first computer R1. It is thus achieved that several object groups from different information spaces (different database operators) are presented to the user and the user can make a selection depending on the information content G of the individual objects dj.
  • the information content G can also be formed, for example, in accordance with the following regulation:
  • G ⁇ rj • Gj, j
  • Another form of formation of an information measure G can also be used without any problems, it merely being necessary to state what content new information an object or a group of objects contain for the user.
  • the objects can either be stored in a computer R1 itself or in a distributed database structure, as is shown in the distributed computer network RN.

Abstract

Es wird ein Informationsgehalt mehrerer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts derart ermittelt, daß für jedes Objekt ein Ähnlichkeitsmaß ermittelt wird, mit dem die Ähnlichkeit des jeweiligen Objekts zumindest zu einem weiteren Objekt und/oder zu dem Referenzobjekt beschrieben wird. Der Informationsgehalt wird unter Berücksichtigung des Ähnlichkeitsmaßes und des Objektinformationsgehalts eines jeweiligen Objekts ermittelt.

Description

Beschreibung
Verfahren und Anordnung zur Ermittlung eines Informationsgehalts mindestens zweier elektronischer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts
In einem verteilten Rechnernetz, beispielsweise dem Internet/Intranet ist es bekannt, bezüglich einer von einem Benutzer einzugebenden Benutzeranfrage in einer verteilten Datenbank für gespeicherte elektronische Objekte eine Trefferwahrscheinlichkeit eines gespeicherten elektronischen Objekts bezüglich der Benutzeranfrage zu ermitteln und diese dem Benutzer darzustellen. Dies erfolgt üblicherweise unter Verwendung einer sogenannten Internet-Suchmaschine [1] .
In diesem Zusammenhang ist unter einem elektronischen Objekt jede Art elektronisch gespeicherter Information zu verstehen. Ein elektronisches Objekt ist beispielsweise
• eine elektronische Textdatei,
• eine Datei, in der digitalisierte Sprachsignale gespeichert sind,
• eine Datei, in der ein digitalisiertes Bild gespeichert ist,
• eine Datei, in der eine digitalisierte Bildfolge (Video) gespeichert ist.
Unter einer Benutzeranfrage wird ein Begriff, der von einem Benutzer eingegeben wird und zu dem der Benutzer nähere Informationen wünscht.
Aus [2] ist es bekannt, ein Ahnlichkeits aß s(D_, D2) für ein elektronisches Objekt bezüglich eines Referenzobjekts zu bilden.
Dabei ist unter einem Referenzobjekt eine Menge von Begriffen zu einem vorgebbaren Thema bzw. zu einem vorgebbaren Begriff zu ver- stehen. Das Referenzobjekt weist einen Oberbegriff sowie weitere Begriffe, die dem Oberbegriff zugeordnet sind, auf. Ferner kann für jeden Begriff ein Gewichtsfaktor vorgesehen sein, mit dem angegeben wird, in welchem Maß gewichtet der jeweilige Begriff dem Oberbegriff zuzurechnen ist.
Wie in Figur 3 dargestellt, ist für das Verfahren aus [2] eine Anordnung erforderlich mit einer Datenquelle DQ, durch die einer Aquisitionskomponente AK elektronische Objekte dj zugeführt werden.
In der Aquisitionskomponente AK werden die elektronischen Objekte dj derart bearbeitet, daß sie in der Anordnung weiter verarbeitbar sind. Diese in ein weiterverarbeitbares Format umgewandelten elektronischen Objekte werden in einer Datenbank DB gespeichert.
Unter einer Datenbank DB ist im weiteren eine Struktur zu verstehen, in der Information gespeichert ist. In diesem Sinne stellt auch das Internet/Intranet eine verteilte Datenbank dar.
Mindestens ein Referenzobjekt RO ist in der Anordnung gespeichert. Mit einem Prozessor P wird das Referenzobjekt RO jeweils mit dem elektronischen Objekt dj verglichen und es wird ein Ähnlichkeitsmaß auf folgende Weise ermittelt:
Jedes elektronische Objekt dj , welches ohne Einschränkung der Allgemeingültigkeit im weiteren als elektronische Textdatei beschrieben wird, weist eine Vielzahl von Begriffen auf. Jedes Objekt dj wird mittels eines Vektors beschrieben, dessen Dimension so groß ist wie die Anzahl unterschiedlicher Begriffe in dem Objekt dj . Der das Objekt dj beschreibende Vektor enthält zu jedem Begriff auch die Angabe der Häufigkeit, in der der jeweilige Begriff in dem Objekt dj vorgekommen ist. Angenommen, das Objekt dj ist eine Textdatei mit folgendem Inhalt:
„Influenza Report: large outbreak of influenza reaches Paris."
In diesem Fall sind die Dimensionen des Vektors, mit dem das Dokument beschrieben wird:
• „Influenza",
• „large",
• „outbreak",
• „Paris",
• „reaches",
• „report" .
Der korrespondierende Vektor xj , in dem eine Häufigkeitsangabe der jeweiligen Begriffe enthalten ist, hat demnach folgenden Aufbau:
xj = {2, 1, 1, 1, 1, 1}.
Der Vektor xj beschreibt somit ein Worthistogramm des Objekts.
Es ist zu bemerken, daß somit üblicherweise Vektoren, die unterschiedliche Dokumente beschreiben unterschiedliche Dimensionen aufweisen.
Das Referenzobjekt RO enthält Schlüsselbegriffe zu einem Oberbegriff. Die Art der Vektorbeschreibung eines Referenzobjekts RO erfolgt auf äquivalente Weise wie für ein Objekt oben beschrieben wurde .
Das Ahnlichkeitsmaß s(x_, X2) wird nun derart gebildet, daß beide Dokumentenvektoren, d.h. der Vektor xj , der das Objekt dj und das Referenzobjekt RO beschreibt in einen vorgebbaren gemeinsamen Unterraum projiziert werden.
Das Ähnlichkeitsmaß s(x]_, X2) ist definiert als der Cosinus des Winkels zwischen den projizierten Dokumentenvektoren gemäß folgender Vorschrift:
Figure imgf000006_0001
wobei mit
- (x]_, X2/das Skalarprodukt zwischen den Vektoren xi und X2 und
- ||.|| eine euklidische Norm eines Vektors
bezeichnet wird.
Weitere Möglichkeiten zur Bildung eines Ähnlichkeitsmaßes s(xι, X2) sind dem Fachmann bekannt und können ohne Einschränkungen eingesetzt werden.
Mit dem Ähnlichkeitsmaß s(x]_, X2) wird anschaulich somit eine Ähnlichkeit zweier zu vergleichender Objekte miteinander beschrieben.
Aus den obigen Ausführungen ist ersichtlich, daß das Ähnlichkeitsmaß s(xι, X2) selbstverständlich auch für zwei Objekte dj ermittelt werden kann. In diesem Fall wird die Ähnlichkeit zwischen den beiden Objekten dj ermittelt.
Ein Nachteil des aus [1] bekannten Verfahrens ist darin zu sehen, daß zwar eine Trefferwahrscheinlichkeit zwischen einem elektronischen Objekt dj und dem Referenzobjekt RO ermittelt werden kann, jedoch damit für einen Benutzer noch nicht ersichtlich ist, gerade bei einer Vielzahl ermittelter Dokumente dj , welchen Wert diese Information tatsächlich für ihn hat.
Somit liegt der Erfindung das Problem zugrunde, ein Verfahren sowie eine Anordnung anzugeben, mit der die oben beschriebenen Nachteile bekannter Verfahren vermieden werden.
Das Problem wird durch das Verfahren gemäß Patentanspruch 1 sowie durch die Anordnung gemäß Patentanspruch 16 gelöst.
Bei dem Verfahren zur rechnergestützten Ermittlung eines Informationsgehalts mindestens zweier elektronischer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts, wobei jedem Objekt ein Objektinformationsgehalt zugeordnet ist, wird für jedes Objekt ein Ähnlichkeitsmaß ermittelt, mit dem die Ähnlichkeit des jeweiligen Objekts zu mindestens einem weiteren Objekt und/oder zu dem Referenzobjekt beschrieben wird. Der Informationsgehalt wird ermittelt unter Berücksichtigung des Ähnlichkeitsmaßes und des Objektinformationsgehalts des jeweiligen Objekts.
Bei der Anordnung zur Ermittlung eines Informationsgehalts mindestens zweier elektronischer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts, wobei jedem Objekt ein Objektinformationsgehalt zugeordnet ist, ist ein Prozessor vorgesehen, der derart eingerichtet ist, daß folgende Schritte durchführbar sind:
- für jedes Objekt wird ein Ähnlichkeitsmaß ermittelt, mit dem die Ähnlichkeit des jeweiligen Objekts zu mindestens einem weiteren Objekt und/oder zu dem Referenzobjekt beschrieben wird, und
- der Informationsgehalt wird ermittelt unter Berücksichtigung des Ähnlichkeitsmaßes und des Objektinformationsgehalts des jeweiligen Objekts. Durch die Erfindung wird es erstmals möglich, zu elektronisch gespeicherten Objekten nicht nur deren Ähnlichkeit zu einem Referenzobjekt oder eine Trefferwahrscheinlichkeit für ein elektronisch gespeichertes Objekt hinsichtlich einer Benutzeranfrage zu ermitteln, sondern einem Benutzer auch eine Information zur Verfügung zu stellen, welchen Informationsgehalt ein Objekt hinsichtlich weiterer Objekte und/oder hinsichtlich des Referenzobjekts aufweist.
Unter Informationsgehalt ist in diesem Zusammenhang anschaulich eine Angabe zu verstehen, mit der angegeben wird, wie sehr sich die einzelnen Objekte untereinander unterscheiden bzw. wie relevant das jeweilige Objekt hinsichtlich des Referenzobjekts ist.
Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.
Es ist in einer Weiterbildung vorteilhaft, bei dem Objektinformationsgehalt die Größe eines Objekts und/oder ein Erstellungsdatum des Objekts zu berücksichtigen, da diese Parameter einen Einfluß auf den Wert der Information für den Benutzer haben können. Beispielsweise ist gerade bei Information, deren Aktualität von besonderer Bedeutung ist, das Erstellungsdatum ein für den Benutzer interessanter Parameter. Denn je älter ein Objekt in diesem Falle ist, desto uninteressanter und desto geringeren Objektinformationsgehalt weist das jeweilige Objekt auf.
In Analogie zu dem Informationsgehalt ist der Objektinformationsgehalt für jeweils ein Objekt zu verstehen.
In einer weiteren Ausgestaltung der Erfindung wird der Informationsgehalt gemäß folgender Vorschrift gebildet. G = ∑ rj f(Pj) G 3
3
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- f(pj) eine Funktion, deren Wert umso geringer ist, je größer eine Anzahl von Objekten ist, deren Ähnlichkeit zu dem Objekt i größer ist als ein vorgebbarer Schwellenwert,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
Die Funktion f(pj), wobei pj eine lokale räumliche Dokumentendichte beschreibt, ist eine Gewichtungsfunktion, die aussagt, daß eine Information für den Benutzer umso wertvoller ist und einen umso größeren Informationsgehalt aufweist, je weniger ähnliche Objekte existieren. Dadurch erhält der Benutzer eine bessere Aussage über die Relevanz des Informationsobjekts bezüglich der Benutzeranfrage .
Die Erfindung kann vorteilhaft als Grundlage für die Abrechnung von Kosten bei einer Informationsrecherche eingesetzt werden. Somit wird dem Benutzer nicht mehr die Menge der Information, die ihm übertragen wird, ausschließlich in Rechnung gestellt, sondern es kann für ihn übersehbar ein Informationsgehalt als Berechnungsgrundlage angeboten werden.
Anschaulich ist die Erfindung darin zu sehen, daß nicht mehr ausschließlich die Relevanz eines Objekts hinsichtlich eines Referenzobjekts betrachtet werden muß, sondern es wird auch ein Maß für die Neuheit eines Objekts auch gegenüber anderen Objekten berücksichtigt. Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im weiteren erläutert.
Es zeigen
Figur 1 eine Skizze, mit der das Verfahren veranschaulicht ist; Figur 2 ein Rechnernetz mit einer Vielzahl von Rechnern; Figur 3 eine Skizze einer Anordnung, mit der das Verfahren durchgeführt werden kann.
In Figur 2 ist ein Rechnernetz RN dargestellt, welches eine Vielzahl von Rechnern Rl, R2, R3, ... Ri, Ri+1... Rn-1, Rn aufweist, die miteinander gekoppelt sind.
Die Kommunikation erfolgt unter Verwendung des Protokolls IP/TCP (Internet-Protocol/ Transmission Control Protokol) .
Von einem ersten Rechner Rl wird eine Benutzeranfrage A, die einen Suchbegriff enthält, an die Rechner Ri (i = 2 ... n) gesendet. In den Rechnern Ri sind elektronische Objekte dj gespeichert. In jedem Rechner wird das folgende Verfahren hinsichtlich des empfangenen Suchbegriffs, das in der Anforderung A enthalten ist, durchgeführt:
Jeder Rechner Ri weist den in Figur 3 dargestellten, oben beschriebenen Aufbau auf.
Jedem Objekt dj wird ein Objektinformationsgehalt Gj zugeordnet. Der Objektinformationsgehalt Gj eines einzelnen Objekts dj hängt von der Art des Objekts ab.
Er ist üblicherweise unterschiedlich für eine Textdatei, für eine Bilddatei, eine Videodatei oder eine Tabelle. Ferner wird die Dateigröße des Objekts sowie ein Erstellungsdatum des Objekts bei dem Objektinformationsgehalt Gj berücksichtigt. Der Objektinformationsgehalt Gj wird von dem Betreiber der Datenbank frei vorgegeben.
In jedem Rechner Ri wird zumindest für einen Teil der in dem Rechner Ri gespeicherten Objekte dj ein Informationsgehalt G der ausgewählten Objekte dj ermittelt. Der Informationsgehalt G wird gemäß folgender Vorschrift gebildet:
G = ∑ rj • f( j) • G 3
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- f(pj) eine Funktion, deren Wert umso geringer ist, je größer eine Anzahl von Objekten ist, deren Ähnlichkeit zu dem Objekt j größer ist als ein vorgebbarer Schwellenwert,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
Eine lokale Dokumentendichte pj gibt die Anzahl ähnlicher oder gleichwertiger Objekte dj an, die sich in einer lokalen Umgebung vorgebbarer Größe um das Objekt j befinden, d.h. die Anzahl der Objekte dj , deren Ähnlichkeitsmaß größer ist als eine vorgebbare Schwelle.
In diesem Zusammenhang wird angenommen, daß bei hoher „lokaler Objektdichte" der Informationsgehalt G einer Gruppe von Objekten dj geringer ist, als bei niedriger lokaler Objektdichte. Figur 1 zeigt vier Objekte dj (d]_, d2> d3, d4) sowie symbolisch zwei Referenzobjekte ROI, R02, hinsichtlich denen die Relevanz und Informationsgehalt ermittelt wird.
Verbindungen zwischen den Dokumenten dj und den Referenzobjekten ROI, R02 bezeichnen eine Relevanz des jeweiligen Objekts dj zu dem Referenzobjekt ROI, R02.
Ein erstes Referenzobjekt ROI enthält folgende Dimensionen mit den jeweils den Dimensionen zugeordneten Gewichtsfaktoren in einem ersten Referenzvektor pl zusammengestellt:
pl influenza 1.0, flu 1.0}
Ein zweites Referenzobjekt R02 enthält folgende Dimensionen mit den jeweils den Dimensionen zugeordneten Gewichtsfaktoren in einem zweiten Referenzvektor p2 zusammengestellt:
p2 = {fever 1.0} .
In der folgenden Tabelle 1 ist zu den einzelnen Objekten dj die Relevanz des jeweiligen Objekts zu den einzelnen Referenzobjekten ROI, R02 dargestellt.
Tabelle 1:
Figure imgf000012_0001
Das Objekt d2 ist sowohl für das erste Referenzobjekt ROI als auch für das zweite Referenzobjekt R02 relevant. Aus den Einzelrelevanzen r2i und r22 und der Längen der Vektoren der Referenzobjekte wird die Relevanz r2 des Objekts D2 bezüglich der Kombination beider Referenzobjekte ROI, R02 gemäß folgender Vorschrift ermittelt:
Figure imgf000013_0001
bzw. allgemein:
kj pj j
*k = (3)
In Tabelle 2 ist für jedes Objekt dj der jeweilige Objektinformationsgehalt Gj angegeben.
Tabelle 2:
Figure imgf000013_0002
Unter Verwendung dieser Angabe wird anschließend der Informationsgehalt G ermittelt, wobei die Funktion f(pj) gemäß folgender Vorschrift gebildet wird:
1 - P - 1
P = 1,2
W - (4) 0,6 p = 3, . Dabei wird eine lokale Umgebung V^j um ein Objekt dj betrachtet (vgl . Figur 1) .
Die in der Umgebung V^j enthaltenen Objekte werden gezählt. Damit erhält man einen Wert für die Dichte und eine gewichtete Dichte für den Bestand der existierenden Objekte. Aus diesen Faktoren wird der Informationsgehalt G gemäß folgender Vorschrift ermittelt:
Figure imgf000014_0001
Es ergibt sich in diesem Fall der Informationsgehalt G = 3.92.
Die lokale Dichte sowie die gewichtete lokale Dichte f(Pi) sind in Tabelle 3 dargestellt.
Tabelle 3:
Figure imgf000014_0002
Tabelle 4 zeigt die Berechnung des Informationsgehalts G aus den einzelnen Objektinformationsgehalten Gj und den Gewichtsfaktoren. Tabelle 4
Figure imgf000015_0001
Der ermittelte Informationsgehalt G wird jeweils als Ergebnis Ei zu dem ersten Rechner Rl zurückgesendet (vgl. Figur 2). In dem ersten Rechner wird das Ergebnis dem Benutzer dargestellt, beispielsweise gemäß dem in [2] vorgeschlagenen Verfahren, d.h. derart, daß die Objekte gemäß folgender Metapher symbolisch dargestellt werden:
Je geringer der Informationsgehalt G eines Objektes dj ist und je ähnlicher Objekte dj zueinander sind, desto näher sind die Objekte dj in der räumlichen Darstellung zueinander angeordnet.
Ferner dient der ermittelte Informationsgehalt G jeweils als Grundlage für eine mögliche Abrechnung von Kosten, die dadurch entstehen, daß der Benutzer tatsächlich die angebotenen Objekte von den Rechnern Ri auf den ersten Rechner Rl lädt. Es wird somit erreicht, daß mehrere Objektgruppen von verschiedenen Informationsräumen (verschiedene Datenbankbetreiber) dem Benutzer dargestellt werden und der Benutzer eine Auswahl abhängig von dem Informationsgehalt G der einzelnen Objekte dj treffen kann.
Auf diese Weise wird eine Beschränkung des Benutzers auf wesentliche Information ermöglicht und die Information wird nach Rele- vanz und Inhalt, nicht nur nach übertragener Datenmenge abgerechnet, was zu einer differenzierten Kostenstruktur führt.
Im weiteren werden einige Alternativen des oben beschriebenen Ausführungsbeispiels aufgezeigt:
Der Informationsgehalt G kann beispielsweise auch gemäß folgender Vorschrift gebildet werden:
G = ∑ rj Gj , j
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
Auch eine andere Form der Bildung eines Informationsmaßes G ist ohne weiteres einsetzbar, wobei lediglich angegeben werden sollte, welchen Gehalt neue Informationen einem Objekt bzw. einer Gruppe von Objekten für den Benutzer enthalten.
Die Objekte können entweder in einem Rechner Rl selbst oder in einer verteilten Datenbankstruktur, wie sie in dem verteilten Rechennetz RN dargestellt ist, gespeichert sein.
Ferner können ohne weiteres die in [2] beschriebenen Verfeinerungen zur Ermittlung des Ähnlichkeitsmaßes ohne Einschränkungen eingesetzt werden. Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert:
[1] 0. Kyas, Internet professionell - Technologische
Grundlagen & praktische Nutzung, ISBN 3-8266-4002-0, International Thomson Publishing, Bonn, S. 513 - 523, 1996
[2] B. Kolpatzik et al, Content Analysis and Visualization of Epidemiological Documents on the Internet, Geomed '97, International Workshop on Geomedical Systems, Rostock, 4. - 6. September 1997

Claims

Patentansprüche
1. Verfahren zur rechnergestützten Ermittlung eines Informationsgehalts mindestens zweier elektronischer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts, wobei jedem Objekt ein Objektinformationsgehalt zugeordnet ist,
- bei dem für jedes Objekt ein Ähnlichkeitsmaß ermittelt wird, mit dem die Ähnlichkeit des jeweiligen Objekts zu mindestens einem weiteren Objekt und/oder zu dem Referenzobjekt beschrieben wird, und
- bei dem der Informationsgehalt ermittelt wird unter Berücksichtigung des Ähnlichkeitsmaßes und des Objektinformationsgehalts des jeweiligen Objekts.
2. Verfahren nach Anspruch 1, bei dem mindestens drei elektronische Objekte berücksichtigt werden.
3. Verfahren nach Anspruch 1 oder 2, bei dem die elektronischen Objekte zumindest von der Art eines der folgenden Objekte sind:
- eine elektronische Textdatei,
- ein digitalisiertes Bild, und/oder
- ein digitalisiertes Video.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem bei dem Objektinformationsgehalt mindestens einer der folgenden Parameter berücksichtigt ist:
- eine Größe eines Objekts, und/oder
- ein Erstellungsdatum.
5. Verfahren nach einem der Ansprüche 1 bis 4, bei dem bei der Ermittlung des Informationsgehalts eine Anzahl von Objekten, deren Ähnlichkeit untereinander größer ist als ein vorgebbarer Schwellenwert, berücksichtigt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem der Informationsgehalt gemäß folgender Vorschrift gebildet wird:
G = ∑ rj • f(Pj) • Gj
3
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- f(pj) eine Funktion, deren Wert umso geringer ist, je größer eine Anzahl von Objekten ist, deren Ähnlichkeit zu dem Objekt j größer ist als ein vorgebbarer Schwellenwert,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem der Informationsgehalt gemäß folgender Vorschrift gebildet wird:
Figure imgf000019_0001
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
8. Verfahren nach einem der Ansprüche 1 bis 7, bei dem die Objekte in mindestens einer elektronischen Datenbank gespeichert sind.
9. Verfahren nach Anspruch 8, bei dem die Objekte in einer verteilten elektronischen Datenbank gespeichert sind.
10. Verfahren nach einem der Ansprüche 1 bis 9, bei dem für mehrere Gruppen von Objekten der Informationsgehalt ermittelt wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, bei dem das Referenzobjekt eine Benutzeranfrage ist oder von der Benutzeranfrage abgeleitet wird.
12. Verfahren nach Anspruch 11,
- bei dem die Benutzeranfrage an mehrere Datenbanken gesendet wird,
- bei dem für jede Datenbank das Verfahren hinsichtlich der Benutzeranfrage durchgeführt wird,
- bei dem zumindest der Informationsgehalt als Ergebnis zurückgesendet wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, eingesetzt in einem verteilten Rechnernetz.
14. Verfahren nach Anspruch 13, bei dem das verteilte Rechnernetz das Internet/Intranet ist.
15. Verfahren nach einem der Ansprüche 1 bis 14, eingesetzt zur Kostenermittlung der Bereitstellung der Information.
16. Anordnung zur Ermittlung eines Informationsgehalts mindestens zweier elektronischer Objekte bezüglich eines vorgegebenen elektronischen Referenzobjekts, wobei jedem Objekt ein Objektinformationsgehalt zugeordnet ist, mit einem Prozessor, der derart eingerichtet ist, daß folgende Schritte durchführbar sind:
- für jedes Objekt wird ein Ähnlichkeitsmaß ermittelt, mit dem die Ähnlichkeit des jeweiligen Objekts zu mindestens einem weiteren Objekt und/oder zu dem Referenzobjekt beschrieben wird, und
- der Informationsgehalt wird ermittelt unter Berücksichtigung des Ähnlichkeitsmaßes und des Objektinformationsgehalts des jeweiligen Objekts.
17. Anordnung nach Anspruch 16, bei der der Prozessor derart eingerichtet ist, daß mindestens drei elektronische Objekte berücksichtigt werden können.
18. Anordnung nach Anspruch 16 oder 17, bei der der Prozessor derart eingerichtet ist, daß die elektronischen Objekte zumindest von der Art eines der folgenden Objekte sind:
- eine elektronische Textdatei,
- ein digitalisiertes Bild, und/oder
- ein digitalisiertes Video.
19. Anordnung nach einem der Ansprüche 16 bis 20, bei der der Prozessor derart eingerichtet ist, daß bei dem Objektinformationsgehalt mindestens einer der folgenden Parameter berücksichtigt werden kann:
- eine Größe eines Objekts, und/oder
- ein Erstellungsdatum.
20. Anordnung nach einem der Ansprüche 16 bis 19, bei der der Prozessor derart eingerichtet ist, daß bei der Ermittlung des Informationsgehalts eine Anzahl von Objekten, deren Ähnlichkeit untereinander größer ist als ein vorgebbarer Schwellenwert, berücksichtigt werden kann.
21. Anordnung nach einem der Ansprüche 16 bis 20, bei der der Prozessor derart eingerichtet ist, daß der Informationsgehalt gemäß folgender Vorschrift gebildet werden kann:
Figure imgf000022_0001
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- f(pj) eine Funktion, deren Wert umso geringer ist, je größer eine Anzahl von Objekten ist, deren Ähnlichkeit zu dem Objekt j größer ist als ein vorgebbarer Schwellenwert,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
22. Anordnung nach einem der Ansprüche 16 bis 20, bei der der Prozessor derart eingerichtet ist, daß der Informationsgehalt gemäß folgender Vorschrift gebildet werden kann:
G = ∑ rj • Gj , j
wobei mit
- j ein Index zur eindeutigen Bezeichnung eines Objekts,
- Gj der Objektinformationsgehalt des Objekts j,
- rj das Ähnlichkeitsmaß für das Objekt j, bezeichnet wird.
23. Anordnung nach einem der Ansprüche 16 bis 22, mit einer elektronischen Datenbank, in der die Objekte gespeichert sind.
24. Anordnung nach Anspruch 23, mit einer verteilten elektronischen Datenbank, in der die Objekte gespeichert sind.
25. Anordnung nach einem der Ansprüche 16 bis 24, bei der der Prozessor derart eingerichtet ist, daß für mehrere Gruppen von Objekten der Informationsgehalt ermittelt wird.
26. Anordnung nach einem der Ansprüche 16 bis 25, mit einer Eingabeeinheit, mittels der ein eine Benutzeranfrage der Anordnung zuführbar ist, wobei im weiteren das Referenzobjekt die Benutzeranfrage ist oder von der Benutzeranfrage abgeleitet wird.
27. Anordnung nach Anspruch 26,
- mit einer Sendeeinheit, mit der die Benutzeranfrage an mehrere Datenbanken gesendet werden kann, wobei für jede Datenbank das Verfahren hinsichtlich der Benutzeranfrage durchgeführt werden kann, und
- mit einer Empfängereinheti, mit der zumindest der Informationsgehalt als Ergebnis empfangen werden kann.
28. Anordnung nach einem der Ansprüche 16 bis 27, eingesetzt zur Kostenermittlung der Bereitstellung der Information.
29. Verteiltes Rechnernetz mit mindestens einer Anordnung nach einem der Ansprüche 16 bis 28.
30. Verteiltes Rechnernetz nach Anspruch 29, bei dem Rechnernetz das Internet/Intranet ist,
PCT/DE1999/001841 1998-06-30 1999-06-24 Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts WO2000002142A2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP99941380A EP1092200A2 (de) 1998-06-30 1999-06-24 Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19829210.4 1998-06-30
DE19829210 1998-06-30

Publications (2)

Publication Number Publication Date
WO2000002142A2 true WO2000002142A2 (de) 2000-01-13
WO2000002142A3 WO2000002142A3 (de) 2000-04-20

Family

ID=7872527

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1999/001841 WO2000002142A2 (de) 1998-06-30 1999-06-24 Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts

Country Status (2)

Country Link
EP (1) EP1092200A2 (de)
WO (1) WO2000002142A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6858581B2 (en) 2000-06-16 2005-02-22 Arizona State University Chemically-modified peptides, compositions, and methods of production and use

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0687987A1 (de) * 1994-06-16 1995-12-20 Xerox Corporation Verfahren und Gerät zum Wiederauffinden von relevanten Dokumenten in einer Sammlung von Dokumenten
US5647058A (en) * 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database
US5666442A (en) * 1993-05-23 1997-09-09 Infoglide Corporation Comparison system for identifying the degree of similarity between objects by rendering a numeric measure of closeness, the system including all available information complete with errors and inaccuracies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5666442A (en) * 1993-05-23 1997-09-09 Infoglide Corporation Comparison system for identifying the degree of similarity between objects by rendering a numeric measure of closeness, the system including all available information complete with errors and inaccuracies
US5647058A (en) * 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database
EP0687987A1 (de) * 1994-06-16 1995-12-20 Xerox Corporation Verfahren und Gerät zum Wiederauffinden von relevanten Dokumenten in einer Sammlung von Dokumenten

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6858581B2 (en) 2000-06-16 2005-02-22 Arizona State University Chemically-modified peptides, compositions, and methods of production and use

Also Published As

Publication number Publication date
WO2000002142A3 (de) 2000-04-20
EP1092200A2 (de) 2001-04-18

Similar Documents

Publication Publication Date Title
DE69932344T2 (de) Zugriff zu hierarchischem datenspeicher via sql-eingabe
EP0910829A1 (de) Datenbanksystem
CH704497B1 (de) Verfahren zum Benachrichtigen, Speichermedium mit Prozessoranweisungen für ein solches Verfahren.
DE19538240A1 (de) Informationssystem und Verfahren zur Speicherung von Daten in einem Informationssystem
DE102020001541A1 (de) Verfahren zur Transformation erfasster Sensordaten aus einer ersten Datendomäne in eine zweite Datendomäne
DE112007000051T5 (de) Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung
DE112012003249T5 (de) System, Verfahren und Programm zum Abrufen von Informationen
DE60037497T2 (de) Verfahren und vorrichtung für anzeige oder auswahl von einem objekt in einem bild oder einem computerlesbaren aufzeichnungsmedium
EP1008067A1 (de) Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil
EP0856176A1 (de) Datenbankmanagementsystem sowie datenübertragungsverfahren
EP2601594A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
WO2000002142A2 (de) Verfahren und anordnung zur ermittlung eines informationsgehalts mindestens zweier elektronischer objekte bezüglich eines vorgegebenen elektronischen referenzobjekts
DE19703964C1 (de) Verfahren zur Transformation einer zur Nachbildung eines technischen Prozesses dienenden Fuzzy-Logik in ein neuronales Netz
DE19956625C2 (de) Echtzeit-Datensortierung und -reduktion
DE19952630B4 (de) Verfahren zum Erzeugen einer Auswahlmaske für den Abruf von Daten aus einer oder einer Vielzahl von Datenbanken mit Hilfe von Informationsobjekten
EP3396919A1 (de) Verfahren zur datenübertragung von einem gerät an ein datenverwaltungsmittel, vermittlungseinheit, gerät und system
EP1099172B1 (de) Verfahren, anordnung und satz mehrerer anordnungen zur behebung mindestens einer inkonsistenz in einer datenbankmenge, die eine datenbank sowie mindestens eine kopiedatenbank der datenbank aufweist
WO2001059609A1 (de) Vorrichtung, speichermedium und verfahren zum ermitteln von objekten mit grossen ähnlichkeit zu einem vorgegebenen objekt
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
EP2423830A1 (de) Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
DE10046116B4 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln mindestens eines gespeicherten Produkts und/oder mindestens eines gespeicherten Lösungsprinzips und Computerprogramm-Element
DE10017608B4 (de) Verfahren zur Durchführung von Operationen in einem Datenbanksystem
WO2022036378A1 (de) Verfahren zur datenmanipulationserkennung von numerischen datenwerten
DE10006959A1 (de) Verfahren zur Abfrage einer Datenbank
DE69833740T2 (de) Verfahren und Vorrichtung zur Erklärung der Gültigkeit/Ungültigkeit in einem Rahmen einer über ein Übertragungsnetz als Antwort gesendeten Nachricht

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
AK Designated states

Kind code of ref document: A3

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A3

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 1999941380

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09720696

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1999941380

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1999941380

Country of ref document: EP