WO2000019335A1 - Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse - Google Patents

Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse Download PDF

Info

Publication number
WO2000019335A1
WO2000019335A1 PCT/DE1999/002929 DE9902929W WO0019335A1 WO 2000019335 A1 WO2000019335 A1 WO 2000019335A1 DE 9902929 W DE9902929 W DE 9902929W WO 0019335 A1 WO0019335 A1 WO 0019335A1
Authority
WO
WIPO (PCT)
Prior art keywords
class
classes
measure
evaluation
threshold value
Prior art date
Application number
PCT/DE1999/002929
Other languages
English (en)
French (fr)
Inventor
Thomas BRÜCKNER
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to EP99955709A priority Critical patent/EP1118060A1/de
Publication of WO2000019335A1 publication Critical patent/WO2000019335A1/de
Priority to US09/821,967 priority patent/US20020007381A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Definitions

  • the invention relates to a method and an arrangement for assigning an object to at least one class from a set of predetermined classes by a computer.
  • a method and an arrangement for classifying a text is known from [1].
  • an object is assigned to one or more classes (multi-classification system) by determining a membership measure for the object and comparing it with an associated threshold value for each class. If the membership measure for the respective class is greater than the threshold value of this class, the object is assigned to the class. It is disadvantageous here that the threshold values of all classes are predetermined globally and thus an inaccurate classification takes place.
  • the object of the invention is to enable a classification, wherein specific threshold values are automatically determined for several classes.
  • a method for assigning an object to at least one class from a set of predetermined classes is specified by a computer, in which for each class a membership measure of the object to the Class is determined.
  • a threshold value is calculated for each class from the set of classes by optimizing an evaluation measure under specified constraints.
  • the object is assigned to a class from the set of specified classes if the membership measure is above the associated threshold value of the class.
  • an object is not assigned to a class from the several predetermined classes if the membership measure is below the threshold value of the class.
  • a further training consists in that the evaluation measure depends on the threshold values of the classes. In this case it is advantageous that the threshold values are included directly or indirectly in the evaluation measure.
  • the evaluation measure comprises one of the following specifications: a) number of errors; b) recognition rate (recall); c) Detection rate of a detection system (precision).
  • the evaluation measure can be based on certain peculiarities of the object to be classified. In particular, it is useful to take the classification error into account in the evaluation measure and to optimize it with regard to certain specifications.
  • the evaluation measure is provided with a condition that requires at least a predetermined value for the evaluation measure. This takes into account that one of the above specifications with a certain value are applied and this is taken into account when optimizing the evaluation measure under the specified secondary conditions.
  • the secondary conditions are preferably formulated such that:
  • N is the number of classes
  • M denotes the number of threshold values Tj and kj_j can only assume the values 0 or 1.
  • One embodiment also consists in the fact that the evaluation measure is optimized under the secondary conditions by solving a linear system of equations (here: evaluation measure with specified auxiliary conditions and possibly additional auxiliary conditions) by means of an LP solver (see [2]).
  • One embodiment also consists in the fact that the text classification method is used. Especially when it comes to text classification, it is customary to use a given text in different (thematic) classes, so-called To assign domains. Naturally, a given text can be assigned to several domains. The decision as to whether the assignment is made or not is made for each class by comparing the value determined for the text by means of an evaluation measure with the predetermined threshold value of the domain (class). For the text, there is a membership measure for each class; the assignment is made if the membership measure is above the threshold value of the respective class.
  • the threshold values for the class have been predetermined in particular using the above-mentioned method.
  • an optimal threshold value is determined for each class.
  • a "microaveraged" evaluation is carried out on the basis of the threshold values determined for the classes. This will be discussed in detail within the scope of the exemplary embodiment.
  • an arrangement for assigning an object to at least one class from a set of predetermined classes is also specified, in which a processor unit is provided which is set up in such a way that
  • a measure of the object's belonging to the class can be determined for each class
  • a threshold value can be calculated for each class from the set of classes by optimizing an evaluation measure under specified secondary conditions
  • the object can be assigned to a class from the set of predetermined classes if the membership measure lies above the threshold value of the class; d) the object cannot be assigned to a class from the set of specified classes if the membership measure is below the threshold value of the class.
  • Fig.l is a block diagram with steps of a method for assigning an object to at least one class from a set of predetermined classes
  • a membership measure is determined for the object for each class. This should provide information about whether the object can be assigned to the respective class. The assignment is generally made when the membership measure exceeds a predefined threshold value (for the class).
  • a class-dependent threshold value that is to say to determine a threshold value for each class
  • an evaluation measure is optimized in step 102 under predetermined secondary conditions, the evaluation measure depending on the threshold values of the classes. The optimization results in threshold values for the classes, specifically one threshold value for each class.
  • Step 103 checks whether the membership measure is greater than the respective class-specific threshold value.
  • step 104 the object is assigned to the respective class in accordance with step 104, otherwise no assignment to this class is made (cf. step 105).
  • a measure of deviation instead of the membership measure can alternatively be used, whereby the measure of deviation is understood only as the negated wording.
  • Fig. 2 shows a table with dimensions for one
  • Text classification can be used to assign the object to at least one class. Predefined texts are assigned to different classes (domains), with each class mostly belonging to one subject area. A concrete realization consists in the assignment of newspaper texts to one or more topics, e.g. Sports, literature, politics and / or business. As mentioned above, the evaluation measure is optimized under given constraints. The evaluation measure itself can include certain specifications. Some possible specifications are explained in more detail below using the table in FIG. Fields 201 to 204 show possible classification states. The field 201 "a" contains all automatically correctly hit by the system
  • Field 202 "b" contains the number of all assignments classified as correct by the system which actually (according to
  • Field 203 "c” indicates the number of classifications that the system has assigned as incorrect, but which in reality would have been correct.
  • field 204 "d” includes all incorrect assignments that the system has classified as incorrect.
  • Recall rate is defined as the number of correct (recognized) assignments divided by the number of possible assignments:
  • a detection rate is determined by the number of correct assignments divided by the number of all automatic assignments:
  • a system failure (fallout) is determined by
  • the specified specifications equation (2) to equation (5) are suitable for specifying the classification quality in the form of a suitable evaluation measure Q.
  • the evaluation measure can be determined directly across all classes ("icroaveraged" evaluation measure):
  • N denotes the number of classes k.
  • the evaluation measure is first determined individually for each class and then averaged over all classes ("macroaveraged" evaluation measure):
  • threshold value ensures a sufficiently high quality of the assignment (classification) for all classes.
  • equation (8) does not work. A lot of threshold values are searched here
  • the best set of threshold values is determined by formulating a linear optimization problem and solving it using linear programming (see LP solver). With a training set of objects whose Classification is known, an evaluation is carried out with M different threshold values. In the following, the result of the class k x for the m the evaluation measure Q comes in at a threshold value T-,.
  • the linear optimization problem to be solved is formulated as follows:
  • the evaluation measure Q only receives one result per class (k x -
  • a processor unit PRZE is shown in FIG.
  • the processor unit PRZE comprises a processor CPU, a 25 SPE memory and an input / output interface IOS, which is used in different ways via an interface IFC: an output on a monitor MON and / or on a monitor is visible via a graphic interface PRT printer output. An entry is made with a mouse or MAS KEYBOARD.
  • the processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS.
  • additional components can be connected to the data bus BUS, for example additional memory, data storage (hard disk) or scanner.

Abstract

Es wird ein Objekt zu mindestens einer Klasse aus einer Menge von Klassen zugeordnet, indem für das Objekt zu jeder Klasse ein Zugehörigkeitsmaß bestimmt wird. Dabei werden klassenabhängige Schwellwerte für die Zuordnung bestimmt, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird. Ein Vergleich des Zugehörigkeitsmaßes mit den Schwellwerten der Klassen ergibt die entsprechende Zuordnung des Objekts zu mindestens einer Klasse.

Description

Beschreibung
Verfahren und Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen durch einen Rechner.
Ein Verfahren und eine Anordnung zur Klassifikation eines Textes ist bekannt aus [1] .
Bei der Klassifikation wird ein Objekt einer oder mehreren Klassen zugeordnet (Multi-Klassifikationssystem) , indem ein Zugehörigkeitsmaß für das Objekt bestimmt und mit einem zugehörigen Schwellwert jeder Klasse verglichen wird. Ist das Zugehörigkeitsmaß für die jeweilige Klasse größer als der Schwellwert dieser Klasse, so wird das Objekt der Klasse zugeordnet. Dabei ist es von Nachteil, daß die Schwellwerte aller Klassen global vorbestimmt werden und damit eine ungenaue Klassifikation erfolgt.
Weiterhin ist ein Verfahren zur Lösung eines linearen Gleichungssystems aus [2] bekannt.
Die Aufgabe der Erfindung besteht darin, eine Klassifikation zu ermöglichen, wobei automatisch für mehrere Klassen spezifische Schwellwerte bestimmt werden.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen
Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.
Zur Lösung der Aufgabe wird ein Verfahren zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen durch einen Rechner angegeben, bei dem für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelt wird. Für jede Klasse aus der Menge der Klassen wird ein Schwellwert berechnet, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird. Das Objekt wird einer Klasse aus der Menge vorgegebener Klassen zugeordnet, falls das Zugehorigkeitsmaß oberhalb des zugehörigen Schwellwerts der Klasse liegt. Im anderen Fall wird ein Objekt einer Klasse aus den mehreren vorgegebenen Klassen nicht zugeordnet, falls das Zugehorigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.
Es ist ein Vorteil, daß f r jede Klasse ein individueller Schwellwert bestimmbar ist, der durch Optimierung des Evaluierungsmaßes direkt klassentypische Voraussetzungen ber cksichtigt .
Eine Weiterbildung besteht darin, daß das Evaluierungsmaß von den Schwellwerten der Klassen abhangt. In diesem Fall ist es von Vorteil, daß die Schwellwerte direkt oder indirekt in das Evaluierungsmaß eingehen.
Auch ist es eine Weiterbildung, daß das Evaluierungsmaß eine der folgenden Spezifikationen umfaßt: a) Anzahl der Fehler; b) Erkennungsrate (Recall); c) Erkennungsrate eines Erkennungssystems (Precision) .
Das Evaluierungsmaß kann auf bestimmte Eigenheiten des zu klassifizierenden Objektes abstellen. Insbesondere ist es nützlich, im Evaluierungsmaß den Fehler der Klassifikation zu berücksichtigen und hinsichtlich bestimmter Vorgaben zu optimieren.
Eine andere Weiterbildung besteht darin, daß das Evaluierungsmaß mit einer Bedingung versehen wird, die mindestens einen vorgegebenen Wert für das Evaluierungsmaß erfordert. Hierbei wird berücksichtigt, daß eine der vorgenannten Spezifikationen mit einem bestimmten Wert beaufschlagt sind und dies bei der Optimierung des Evaluierungsmaßes unter den vorgegebenen Nebenbedingungen mit berücksichtigt wird.
Eine andere Weiterbildung besteht darin, daß eine zusätzliche Nebenbedingung angegeben wird, indem für alle Klassen ein Mindestwert für ein zusätzliches Evaluierungsmaß vorgegeben wird. Diese zusätzliche Nebenbedingung fließt in die Optimierung des Evaluierungsmaßes mit ein, indem sie zu den vorgegebenen Nebenbedingungen hinzugefügt wird.
Die Nebenbedingungen werden vorzugsweise derart formuliert, daß gilt:
kn + kχ2+. • -+kiM = 1
Figure imgf000005_0001
kNl + kN2+- • -+kNM = !
wobei kj_j eine in das Evaluierungsmaß eingehende Ergebnis der Klasse k_ bei Schwellwert Tj , N die Anzahl der Klassen,
M die Anzahl der Schwellwerte Tj bezeichnen und kj_j nur die Werte 0 oder 1 annehmen kann.
Eine Ausgestaltung besteht auch darin, daß das Evaluierungsmaß unter den Nebenbedingungen optimiert wird, indem ein lineares Gleichungssystem (hier: Evaluierungsmaß mit vorgegebenen Nebenbedingungen und gegebenenfalls zusätzliche Nebenbedingung) mittels eines LP-Solvers (siehe [2] ) gelöst wird.
Eine Ausgestaltung besteht auch darin, daß das Verfahren zur Textklassifikation eingesetzt wird. Gerade bei der Textklassifikation ist es üblich, einen vorgegebenen Text unterschiedlichen (thematischen) Klassen, sogenannten Domänen, zuzuordnen. Dabei kann ein vorgegebener Text naturgemäß mehreren Domänen zugeordnet werden. Die Entscheidung, ob die Zuordnung erfolgt oder nicht, ergibt sich für jede Klasse durch Vergleich des mittels Evaluierungsmaß ermittelten Wertes für den Text mit dem vorgegebenen Schwellwert der Domäne (Klasse) . Es ergibt sich für den Text ein Zugehörigkeitsmaß für jede Klasse, die Zuordnung erfolgt, wenn das Zugehörigkeitsmaß oberhalb des Schwellwerts der jeweiligen Klasse liegt. Dabei sind insbesondere nach dem obengenannten Verfahren die Schwellwerte für die Klasse vorbestimmt worden.
Auch ist es eine Ausgestaltung, daß für jede Klasse ein eigener optimaler Schwellwert bestimmt wird.
Im Rahmen einer zusätzlichen Ausgestaltung wird anhand der ermittelten Schwellwerte für die Klassen eine "microaveraged" Evaluierung durchgeführt. Hierauf wird im Rahmen des Ausführungsbeispiels detailliert eingegangen.
Auch wird zur Lösung der Aufgabe eine Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen angegeben, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß
a) für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelbar ist;
b) für jede Klasse aus der Menge der Klassen ein Schwellwert berechenbar ist, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;
c) das Objekt einer Klasse aus der Menge vorgegebener Klassen zuordenbar ist, falls das Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt; d) das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zuordenbar ist, falls das Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.
Diese Anordnung ist insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.
Es zeigen
Fig.l ein Blockdiagramm mit Schritten eines Verfahrens zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen;
Fig.2 eine Tabelle mit Maßen für eine Textklassifikation;
Fig.3 eine Prozessoreinheit,
In Fig.l ist ein Blockdiagramm mit Schritten eines Verfahrens zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebener Klassen dargestellt. In einem Schritt 101 wird für das Objekt zu jeder Klasse ein Zugehörigkeitsmaß ermittelt. Dies soll Aufschluß darüber geben, ob das Objekt zu der jeweiligen Klasse zuzuordnen ist. Die Zuordnung erfolgt generell, wenn das Zugehörigkeitsmaß einen vorgegebenen Schwellwert (für die Klasse) überschreitet. Zur Ermittlung eines klassenabhängigen Schwellwerts, d.h. zur Bestimmung je eines Schwellwerts für jede Klasse, wird in einem Schritt 102 ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert, wobei das Evaluierungsmaß von den Schwellwerten der Klassen abhängt. Aus der Optimierung ergeben sich Schwellwerte für die Klassen, konkret je ein Schwellwert für jede Klasse. In einem Schritt 103 wird geprüft, ob das Zugehörigkeitsmaß größer als der jeweilige klassenspezifische Schwellwert ist. Ist dies der Fall, so wird das Objekt gemäß Schritt 104 der jeweiligen Klasse zugeordnet, ansonsten wird keine Zuordnung zu dieser Klasse (vgl. Schritt 105) getroffen. Entsprechend der hier verwendeten Formulierung kann alternativ auch ein Abweichungsmaß anstellte des Zugehörigkeitsmaßes eingesetzt werden, wobei unter Abweichungsmaß lediglich die negierte Formulierung verstanden wird.
Fig.2 zeigt eine Tabelle mit Maßen für eine
Textklassifikation. Eine Anwendungsmöglichkeit der Zuordnung des Objekts zu mindestens einer Klasse besteht in der Textklassifikation. Hier werden vorgegebene Texte unterschiedlichen Klassen (Domänen) zugeordnet, wobei jede Klasse zumeist einem Themenbereich angehört. Eine konkrete Realisierung besteht in der Zuordnung von Zeitungstexten zu einem oder mehreren Themen, z.B. Sport, Literatur, Politik und/oder Wirtschaft. Wie oben angeführt, wird das Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert. Das Evaluierungsmaß selbst kann bestimmte Spezifikationen umfassen. Nachfolgend werden anhand der Tabelle von Fig.2 einige mögliche Spezifikationen näher erläutert. Die Felder 201 bis 204 zeigen mögliche Klassifikationszustände. Das Feld 201 "a" enthält alle vom System automatisch richtig getroffenen
Klassifikationsentscheidungen, die auch tatsächlich richtig, also von einem Experten als richtig beurteilt werden, sind. Feld 202 "b" enthält die Anzahl aller vom System als richtig klassifizierten Zuordnungen, die tatsächlich (nach
Expertenmeinung) falsch sind. In Feld 203 "c" werden die Zahl derjenigen Klassifikationen benannt, die das System als falsch zugeordnet hat, die in Wahrheit aber richtig gewesen wären. Schließlich umfaßt Feld 204 "d" alle falschen Zuordnungen, die auch das System als falsch klassifiziert hat. Es gibt nun unterschiedliche Spezifikationen, die anhand der obengenannten Größen definiert werden können. Die
Erkennungsrate (Recall) ist definiert als die Anzahl der richtigen (wiedererkannten) Zuordnungen geteilt durch die Anzahl der möglichen Zuordnungen:
Recall = !2) a + c
Eine Erkennungsrate (Precision) ist bestimmt durch die Anzahl der richtigen Zuordnungen geteilt durch die Anzahl aller automatischen Zuordnungen:
a Precision a + b
Ein Fehler des Systems (Fallout) ist bestimmt durch
Fallout (4!
Eine Fehlerrate ist bestimmt durch
b + c
Errorrate = (5) a + b + c + d
Die benannten Spezifikationen Gleichung (2) bis Gleichung (5) eignen sich, die Klassifizierungsqualität in Form eines geeigneten Evaluierungsmaßes Q anzugeben. Das Evaluierungsmaß kann zum einen direkt über alle Klassen ( " icroaveraged" Evaluierungsmaß) bestimmt werden:
Figure imgf000009_0001
wobei N die Anzahl der Klassen k bezeichnet. Auch wird das Evaluierungsmaß alternativ zuerst für jede Klasse einzeln bestimmt und danach über alle Klassen gemittelt ( "macroaveraged" Evaluierungsmaß):
Q.(kl) + Q(k2)+...+θ(kN)
N
Wie bereits erwähnt, ist im allgemeinen nicht davon auszugehen, daß ein und derselbe Schwellwert für alle Klassen eine ausreichend hohe Qualität der Zuordnung (Klassifikation) gewährleistet. Eine Bestimmung je eines Schwellwerts für jede Klasse soll demnach erfolgen, so daß die
Klassifikationsqualität insgesamt möglichst hoch ist. Bei der Variante "macroaveraged" Evaluierungsmaß erfolgt dies, indem für jede Klasse der Wert als Schwellwert bestimmt wird, der das Evaluierungsmaß für diese Klasse optimiert:
Q-(l) + θ(k2)+...+Q(kN) — -—- = ax <=>
N (8) .
C(kι) + Q.(k2)+. - -+θ(kN) = max
Im Falle des "microaveraged" Evaluierungsmaßes funktioniert Gleichung (8) nicht. Gesucht wird hier eine Menge von Schwellwerten
{L, T2, ... , TN}
die eine Ungleichverteilung der Klassen mitberücksichtigt. Wenn z.B. eine Klasse ki doppelt so oft vorkommt wie eine Klasse k2, so geht dies in Gleichung (7) nicht ein und wird somit bei der Klassifikationsqualität insgesamt nicht ausreichend berücksichtigt.
Die beste Menge von Schwellwerten (vgl. Gleichung (9)) wird bestimmt, indem ein lineares Optimierungsproblem formuliert und mittels linearer Programmierung (vgl. LP-Solver) gelöst wird. Mit einer Trainingsmenge von Objekten, deren Klassifikation bekannt ist, wird mit M unterschiedlichen Schwellwerten eine Evaluierung durchgeführt. Dabei steht im folgenden für das m das Evaluierungsmaß Q eingehende Ergebnis der Klasse kx bei einem Schwellwert T-, . Das zu losende lineare Optimierungsproblem wird wie folgt formuliert :
Zielfunktion: max Q(kn, k]_2, ... , kιM, ... ,
Figure imgf000011_0001
(10)
Nebenbedingungen : kl l + 12+- -+ lM = 1 21 + k22+- -+ 2M = 1 di; kNl + N2+- • -+kNM = 1
Anhand der Nebenbedingungen geht m das Evaluierungsmaß Q jeweils nur ein Ergebnis pro Klasse ein (kx-| nimmt nur die Werte 0 oder 1 an) . Die Menge der k-,_-,, also
{kla> 2b' • ••/ Nz} (12),
die die Zielfunktion maximieren, sind die Losung des
Optimierungsproblems . Für die Optimierung des "microaveraged" Evaluierungsmaßes bedeutet dies, daß mit den Schwellwerten Ta für die Klasse kj_, T^ für die Klasse k2, ... und Tz für die Klasse k^ ein optimiertes Ergebnis erzielt wird.
Dieses Verfahren kann auch angewandt werden, wenn die Gute des Klassifikationssystems durch zwei Evaluierungsmaße Q]_ und Q2 anzugeben ist, z.B. anhand von Recall und Precision (siehe obige Ausfuhrung) . Dabei wird durch Hinzuf gen einer zusatzlichen Nebenbedingung das Gleichungssystem optimiert:
Zielfunktion: F8 max Q_(kn, k^2^ • • - > klM> • • • > kNl' kN2' • • • > kNMJ Nebenbedingungen: F9 ll + k12+- -+klM = 1 k21 + 22+- - -+k2M = 1
kNl + kN2+- -+kNM = 1
Qi(kll' k12' • • • ' klM' • • • ' kNl' kN2' • • • ' kNMJ ≥ x (13) ,
5 wobei X einen vorgegebenen Mindestwert für das Evaluierungsmaß Q^ bezeichnet.
Im Hinblick auf die obigen Ausführungen, insbesondere Fig.2, werden folgende Definitionen vereinbart:
10
MIC Recall = (14),
Figure imgf000012_0001
τ, „ . . al' a2, ... , aN
MIC Precision = η ^ 7 r (15),
(al r a2, ... , aN + \blf b2, ... , bNj
al + a2 + +_ a
1 ,5, „MA..C_ DRecalιlπ = al + cl a2 + c2 aN + CN I(1e6.. ,
N
MAC Precision =
Figure imgf000012_0002
(17),
N
wobei MIC "microaveraged" und MAC "macroaveraged" bezeichnen. 20 Die Bezeichnungen a_, b_, C_ und dj_ geben die jeweiligen
Werte der Tabelle aus Fig.2 beschränkt auf die Klasse kj_ an.
In Fig.3 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen 25 Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.
Literaturverzeichnis :
[1] W097/38382, "Verfahren zur automatischen Klassifikation eines auf einem Dokument aufgebrachten Textes nach dessen Transformation in digitale Daten".
[2] http: //www.wior.uni-karlsruhe.de/Bibliothek/Software_for_ OR/Linear_Programming/pub/lp_solve/index .html, 28.09.1998

Claims

Patentansprüche
1. Verfahren zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen durch einen Rechner,
a) bei dem für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelt wird;
b) bei dem für jede Klasse aus der Menge der Klassen ein Schwellwert berechnet wird, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;
c) bei dem das Objekt einer Klasse aus der Menge vorgegebener Klassen zugeordnet wird, falls das
Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt;
d) bei dem das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zugeordnet wird, falls das
Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.
2. Verfahren nach Anspruch 1, bei dem das Evaluierungsmaß von den Schwellwerten der Klassen abhängt.
3. Verfahren nach Anspruch 1 oder 2, bei dem das Evaluierungsmaß eine der folgenden Spezifikationen umfaßt: a) Anzahl der Fehler; b) Erkennungsrate (Recall) ; c) Erkennungsrate eines Erkennungssystems (Precision) .
4. Verfahren nach Anspruch 3, bei dem das Evaluierungsmaß mit einer Bedingung versehen wird, die mindestens einen vorgegebenen Wert für das Evaluierungsmaß erfordert.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine zusatzliche Nebenbedingungen angegeben wird, indem für alle Klassen ein Mindestwert eines zusätzlichen Evaluierungsmaßes vorgegeben wird.
6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Nebenbedingungen derart formuliert werden, daß gilt:
kll + k12+- • -+klM = 1 k21 + k22+- --+k2M = 1
kNl + kN2+- • -+kNM = 1
wobei k_-j eine m das Evaluierungsmaß eingehende Ergebnis der Klasse kx bei Schwellwert T-j ,
N die Anzahl der Klassen,
M die Anzahl der Schwellwerte T-, bezeichnen und k_-, nur die Werte 0 oder 1 annehmen kann.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Evaluierungsmaß unter den Nebenbedingungen optimiert wird, indem ein lineares Gleichungssystem mittels eines LP-Solvers gelost wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine Textklassifikation durchgeführt wird.
9. Verfahren nach Anspruch 8, bei dem die Klassen bei der Textklassifikation Domänen sind.
10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für jede Klasse ein eigener optimaler Schwellwert bestimmt wird.
11. Verfahren nach einem der vorhergehenden Ansprüche, bei dem anhand der ermittelten Schwellwerte für die Klassen eine "microaveraged" Evaluierung optimiert wird.
12. Anordnung zur Zuordnung eines Objekts zu mindestens einer Klasse aus einer Menge vorgegebenen Klassen, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß
a) für jede Klasse ein Zugehörigkeitsmaß des Objekts zu der Klasse ermittelbar ist;
b) für jede Klasse aus der Menge der Klassen ein Schwellwert berechenbar ist, indem ein Evaluierungsmaß unter vorgegebenen Nebenbedingungen optimiert wird;
c) das Objekt einer Klasse aus der Menge vorgegebener Klassen zuordenbar ist, falls das Zugehörigkeitsmaß oberhalb des Schwellwerts der Klasse liegt;
das Objekt einer Klasse aus der Menge vorgegebener Klassen nicht zuordenbar ist, falls das Zugehörigkeitsmaß unterhalb des Schwellwerts der Klasse liegt.
PCT/DE1999/002929 1998-09-30 1999-09-14 Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse WO2000019335A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP99955709A EP1118060A1 (de) 1998-09-30 1999-09-14 Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse
US09/821,967 US20020007381A1 (en) 1998-09-30 2001-03-30 Method and configuration for assigning an object to at least one class

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19844948.8 1998-09-30
DE19844948 1998-09-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/821,967 Continuation US20020007381A1 (en) 1998-09-30 2001-03-30 Method and configuration for assigning an object to at least one class

Publications (1)

Publication Number Publication Date
WO2000019335A1 true WO2000019335A1 (de) 2000-04-06

Family

ID=7882866

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1999/002929 WO2000019335A1 (de) 1998-09-30 1999-09-14 Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse

Country Status (3)

Country Link
US (1) US20020007381A1 (de)
EP (1) EP1118060A1 (de)
WO (1) WO2000019335A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850154B2 (en) * 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) * 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
EP2753820B1 (de) 2011-09-08 2016-10-19 Continental Automotive GmbH Kraftstoffeinspritzanordnung

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747846A2 (de) * 1995-06-07 1996-12-11 AT&T IPM Corp. Verfahren und Gerät, um einen Textklassifizierer zu trainieren
WO1999067728A1 (en) * 1998-06-23 1999-12-29 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5299284A (en) * 1990-04-09 1994-03-29 Arizona Board Of Regents, Acting On Behalf Of Arizona State University Pattern classification using linear programming
US5765029A (en) * 1996-05-08 1998-06-09 Xerox Corporation Method and system for fuzzy image classification
US6246787B1 (en) * 1996-05-31 2001-06-12 Texas Instruments Incorporated System and method for knowledgebase generation and management
US6317509B1 (en) * 1998-02-11 2001-11-13 Analogic Corporation Computed tomography apparatus and method for classifying objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747846A2 (de) * 1995-06-07 1996-12-11 AT&T IPM Corp. Verfahren und Gerät, um einen Textklassifizierer zu trainieren
WO1999067728A1 (en) * 1998-06-23 1999-12-29 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HEAPS A.S.: "A Theory of Relevance for Automatic Document Classification", INFORMATION AND CONTROL, vol. 22, no. 3, 1973, New York, USA, pages 268 - 278, XP000878756 *
LAM W ET AL: "AUTOMATIC DOCUMENT CLASSIFICATION BASED ON PROBABILISTIC REASONING: MODEL AND PERFORMANCE ANALYSIS", IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN AND CYBERNETICS. CYBERNETICS,US,NEW YORK, IEEE, 12 October 1997 (1997-10-12), pages 2719-2723, XP000787546, ISBN: 0-7803-4054-X *

Also Published As

Publication number Publication date
US20020007381A1 (en) 2002-01-17
EP1118060A1 (de) 2001-07-25

Similar Documents

Publication Publication Date Title
EP3744068B1 (de) Verfahren zur automatisierten erstellung eines an eine vorgegebene person gerichteten phishing-dokuments
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
EP0040796B1 (de) Verfahren zum automatischen Klassifizieren von Bild- und Text- oder Graphikbereichen auf Druckvorlagen
EP1902407B1 (de) System zum übertragen von daten aus einer dokumentenanwendung in eine datenanwendung
DE10317234A1 (de) Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt
DE102019211656A1 (de) Bestimmung eines Verschleißgrades eines Werkzeugs
DE2435889A1 (de) Verfahren und einrichtung zum unterscheiden von zeichengruppen
DE102018215590A1 (de) Halbleitervorrichtungssortiersystem und Halbleitervorrichtung
EP0788632B1 (de) Computergestützte umwandlung von tabellen
DE3026055C2 (de) Schaltungsanordnung zur maschinellen Zeichererkennung
WO2000019335A1 (de) Verfahren und anordnung zur zuordnung eines objekts zu mindestens einer klasse
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
WO2012017056A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
DE102012210482A1 (de) Verfahren und System zum Migrieren von Geschäftsprozessinstanzen
DE102019213061A1 (de) Klassifizierung von KI-Modulen
DE10034629A1 (de) Verfahren und System zum Verzahnen von OCR und ABL zur automatischen Postsortierung
DE102011003156A1 (de) Kartendaten, Speichermedium und Navigationsvorrichtung
DE3128794A1 (de) Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann.
DE102020201383A1 (de) Unterstützungssystem, Speichermedium und Verfahren zur Darstellung von Beziehungen von Elementen
DE102014116117A1 (de) Verfahren und System zum Mining von Mustern in einem Datensatz
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
DE102009053585A1 (de) System zur automatischen Erstellung von Aufgabenlisten
DE102014016676A1 (de) Verfahren zur rechnergestützten Auswahl von Bewerbern aus einer Vielzahl von Bewerbern für ein vorgegebenes Anforderungsprofil
EP4307121A1 (de) Computerimplementiertes verfahren zum konfigurieren eines virtuellen testsystems und trainingsverfahren
DE102022128157A1 (de) Computerimplementiertes Verfahren zur Standardisierung von Teilenamen

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 1999955709

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09821967

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1999955709

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1999955709

Country of ref document: EP