WO2003030016A2 - System for generating a collection of text materials - Google Patents

System for generating a collection of text materials Download PDF

Info

Publication number
WO2003030016A2
WO2003030016A2 PCT/EP2002/010718 EP0210718W WO03030016A2 WO 2003030016 A2 WO2003030016 A2 WO 2003030016A2 EP 0210718 W EP0210718 W EP 0210718W WO 03030016 A2 WO03030016 A2 WO 03030016A2
Authority
WO
WIPO (PCT)
Prior art keywords
text
paragraphs
anecdote
paragraph
anecdotes
Prior art date
Application number
PCT/EP2002/010718
Other languages
German (de)
French (fr)
Other versions
WO2003030016A3 (en
Inventor
Peter FRÖHLICH
Original Assignee
Abb Research Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Abb Research Ltd. filed Critical Abb Research Ltd.
Publication of WO2003030016A2 publication Critical patent/WO2003030016A2/en
Publication of WO2003030016A3 publication Critical patent/WO2003030016A3/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Definitions

  • the invention relates to a system that automatically generates material collections for company-related stories.
  • a story is a story that is based on the experience of employees of a company in the execution of business processes.
  • a story describes how a protagonist reacts to a problem or an opportunity and shows the result of this reaction.
  • the narrator pursues a goal with a story, e.g. following a business process more closely.
  • An anecdote is a "natural" story that does not necessarily pursue a goal.
  • anecdote does not necessarily mean an amusing event, but simply a narrative about a sequence of events in working life.
  • the type of knowledge representation i.e. in what form is the knowledge applied in the anecdote (as a document or more generally: artifact, ability of a person, heuristic, or natural talent).
  • the invention is therefore based on the object of specifying a system for automatically generating a text material collection, in particular for generating a text material collection for stories.
  • the invention accordingly relates to a system for the automatic generation of a text material collection, in particular for a story, in which a data processing device is present and is set up to store several anecdotes each as XML-DTD, each anecdote being a sequence of event-describing text paragraphs and associated annotations.
  • a number of text paragraphs are created as a targeted collection of text material, the text paragraphs each containing a reference to the name of the anecdote, annotations of the text paragraph and the text of the paragraph as components.
  • requests are taken into account as request types that describe that a specific annotation should be assigned to the text paragraph being sought, as well as exclusion criteria that describe that a specific annotation should not be assigned.
  • the system is also set up to first determine a total amount of text paragraphs by evaluating the inquiries, and then to use the exclusion criteria to determine the desired amount of text paragraphs. to select zen. It is preferred to use a lot of anecdotes provided by different company employees.
  • Fig. 6 is a screen display for interactive input.
  • the system works with a standard data processing device that has the necessary means for data storage, processing and output.
  • the system is set up for a mode of operation shown schematically in FIG. 1, in which two types of information that are evaluated in a two-phase procedure.
  • the system uses a collection of anecdotes. These anecdotes were annotated by a knowledge management team in collaboration with the authors of the anecdotes, which are e.g. the core statements, values, rules, the type of knowledge representation or the type of knowledge application. In phase 1, the system extracts these comments.
  • the user specifies requirements for the story to be created. For example, one requirement may be that the story emphasizes the need to train employees.
  • the system extracts suitable paragraphs for a story from the anecdotes by comparing requirements and comments contained in the anecdotes.
  • each of the anecdotes consists of two levels. On the first level, it contains the text that describes a sequence of events. On the second level, it consists of annotations that comment on the text. These annotations are called annotations.
  • the text of the anecdote corresponds to a reproduction of events by an employee of the company, such as is recorded in an interview.
  • Text and annotations are represented by the system in XML (see Simon St. Laurent and Robert Biggar. Inside XML DTDs. McGraw-Hill, 1999).
  • An XML DTD (XML document type definition) describes that documents consist of paragraphs, which in turn contain annotations.
  • a section of an XML DTD that defines anecdotes is shown in FIG. 4.
  • An annotation therefore consists of an attribute name (att) and a value (value).
  • the annotation "Problem: Software Quality” contained in FIG. 3 consists of an attribute name "Problem” and the assigned value "Software Quality”.
  • the system saves anecdotes in XML files that match the DTD just described.
  • the anecdote already shown in FIG. 3 is shown as an XML file in FIG.
  • the system reads the XML files and checks them for consistency with the help of the DTD. It collects all annotations and constructs a directory for each anecdote that is used as an annotation. occurring attribute-value pairs. Finally, a directory is created for all the anecdotes.
  • the system can now efficiently determine for each attribute-value pair in which documents or even in which paragraphs it occurs. For example, the system can now determine the amount of all anecdotes and paragraphs that deal with the software quality problem.
  • the system creates the material collection for the story. For this purpose, requirements for the story to be created are evaluated.
  • the system takes two types of requirements into account:
  • the anecdote from FIG. 3 is again considered as an example. Thereby three
  • the system described is thus a system for the automatic creation of material collections for targeted stories. Automation is made possible by using the annotation concept described above. Such automation would be e.g. cannot be achieved using information retrieval techniques (see Ricardo Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval. ACM Press and Addison-Wesley, 1999), since these are too imprecise. It would be possible to find the term "review meeting" in an anecdote, but the meaning of the review meeting as a solution to the problem is only given by the annotation.
  • the proposed system since the material collections are shaped by the requirements, the proposed system particularly supports the formulation of precise requirements. In particular, it is ensured that the correct attribute names and attribute values are used in the requirements, i.e. that the same vocabulary is used in requests and anecdotes.
  • the following properties of the system contribute to this:
  • the DTD for collections of anecdotes contains a construct for listing attribute names: ⁇ ! ELEMENT attDecl EMPTY> ⁇ ! ATTLIST attDecl attname CDATA # REQUIRED>
  • the system ensures that the anecdotes only contain annotations whose attribute names appear in this list. This prevents spelling errors and inconsistent attribute names in the different anecdotes, e.g. the system reports an error if the "artifact" attribute is declared but “artifact” is used.
  • Interactive input When formulating the requirements, an interactive input mask is used, as shown by way of example in FIG. 6. This input mask shows all attribute names and attribute values that appear in the anecdotes, which considerably simplifies the definition of requirements.
  • the user gets instant Feedback on his requirements, ie the list of anecdotes, the paragraphs of which match the current requirements, is displayed immediately when the request is formulated.
  • the system described is not only suitable for stories, but also for other types of text that rely on material collections from different sources, such as Reports or articles.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a system for automatically generating a collection of text materials, in particular, for a story in which a data processing device is provided and is designed for storing a number of anecdotes as XML-DTD, whereby each anecdote has a series of event-describing text paragraphs and associated annotations. A number of text paragraphs are compiled to form a precise collection of text materials by analyzing demands, whereby the text paragraphs each contain, as elements, a reference to the name of the anecdote, annotations of the text paragraph and to the text of the paragraph. During the analysis, inquiries are regarded as types of demands and they specify that a specific annotation should be associated with the searched text paragraph, and are regarded as exclusion criteria that specify that a specific annotation should not be associated. The system is also disposed for firstly determining a total number of text paragraphs by analyzing the inquiries and for subsequently selecting the searched number of text paragraphs based on the exclusion criteria.

Description

System zur Generierunq einer Textmaterialsammlung System for generating a collection of text material
Beschreibungdescription
Die Er indung betrifft ein System, das automatisch Materialsammlungen für unternehmensbezogene Stories generiert. Eine Story ist eine Erzählung, die auf Erfahrungen von Mitarbeitern einer Unternehmung bei der Ausführung von Geschäftsprozessen beruht.The invention relates to a system that automatically generates material collections for company-related stories. A story is a story that is based on the experience of employees of a company in the execution of business processes.
Aus dem Gebiet des Knowledge Management (siehe Don Cohen, Laurence Prusak: In good Company - How Sociai Capital makes Organizations work. Harvard Business School Press, Boston Massachusetts, 2001) ist bekannt, daß der größte Anteil des Wissens in einem Unternehmen nicht explizit dokumentiert ist. Das Wissen existiert vielmehr in Form von Erfahrungen in den Köpfen der Mitarbeiter. Dieses Wissen geht dem Unternehmen mit dem Ausscheiden der betreffenden Mitarbeiter verloren. Außerdem ist die Anwendung von Geschäftsprozessen nicht im ganzen Unternehmen einheitlich gut: Mitarbeiter in unterschiedlichen Teilen des Unternehmens können von den Erfahrungen ihrer Kollegen profitieren, wenn deren Wissen für sie verfügbar ist. Verschiedene Ansätze beschäftigen sich damit, das implizite Erfahrungs-Wissen zu sammeln, zu verallgemeinern und wieder in die Geschäftsprozesse einfließen zu lassen. Ein Beispiel ist die sogenannte Experience Factory (s. Basili, V., G. Caldiera, D. Rombach (1994): The experience factory. In Marciniak (ed.) Encyclopedia of Software Engineering, vol 1. John Wiley & Sons, S. 469-476). Hier wird eine Organisation aufgebaut, die die Erfahrungen in einer Datenbank sammelt, aufbereitet und Projekten zur Verfügung stellt.From the field of knowledge management (see Don Cohen, Laurence Prusak: In good Company - How Sociai Capital makes Organizations work. Harvard Business School Press, Boston Massachusetts, 2001), it is known that the majority of knowledge in a company is not explicitly documented is. Rather, the knowledge exists in the form of experiences in the minds of the employees. The company loses this knowledge when the employees concerned leave the company. In addition, the application of business processes is not uniformly good throughout the company: employees in different parts of the company can benefit from the experience of their colleagues if their knowledge is available to them. Various approaches are concerned with collecting the implicit knowledge of experience, generalizing it and incorporating it back into the business processes. An example is the so-called Experience Factory (see Basili, V., G. Caldiera, D. Rombach (1994): The experience factory. In Marciniak (ed.) Encyclopedia of Software Engineering, vol 1. John Wiley & Sons, S . 469-476). An organization is built up here that collects the experience in a database, processes it and makes it available to projects.
Für bestimmte Arten von Wissen, wie z.B. Werte, Verhaltensnormen oder Überzeugungen sind derartige Datenbanken jedoch ungeeignet. Abstrakte Wissensinhalte werden nicht verinnerlicht, wenn sie direkt formuliert werden, sondern müssen anhand von Abläufen und realen Beispielen verdeutlicht werden (s. Cohen, 2001). Daher gewinnt in der Knowledge Management Literatur das Konzept der Story an Bedeutung (s. D. Snowden: The Paradox of Story, Journal of Straggly and Scenario Planning, Ark Publi- cations, November 1999).However, such databases are unsuitable for certain types of knowledge, such as values, norms of behavior or beliefs. Abstract content of knowledge is not internalized if it is formulated directly, but must be illustrated using processes and real examples (see Cohen, 2001). Therefore wins in Knowledge Management literature emphasizes the concept of story (see D. Snowden: The Paradox of Story, Journal of Straggly and Scenario Planning, Ark Publications, November 1999).
Eine Story beschreibt, wie ein Protagonist auf ein Problem oder eine Gelegenheit reagiert und zeigt das Ergebnis dieser Reaktion. Mit einer Story verfolgt der Erzähler ein Ziel, z.B. die genauere Befolgung eines Geschäftsprozesses. Eine Anekdote ist dagegen eine „natürliche" Story, mit der nicht unbedingt ein Ziel verfolgt wird. Im Gegensatz zur Umgangssprache ist mit Anekdote nicht unbedingt eine amüsante Begebenheit gemeint, sondern einfach eine Erzählung über eine Folge von Ereignissen aus dem Arbeitsleben.A story describes how a protagonist reacts to a problem or an opportunity and shows the result of this reaction. The narrator pursues a goal with a story, e.g. following a business process more closely. An anecdote, on the other hand, is a "natural" story that does not necessarily pursue a goal. In contrast to colloquial language, anecdote does not necessarily mean an amusing event, but simply a narrative about a sequence of events in working life.
Viele Unternehmen setzen inzwischen Stories zur Verbesserung ihrer Geschäftprozesse ein (s. Snowden, 1999). Eine typische Vorgehensweise für das Erstellen einer zielgerichteten Story ist die folgende:Many companies are now using stories to improve their business processes (see Snowden, 1999). A typical procedure for creating a targeted story is as follows:
• Durchführung von Interviews zur Aufnahme von Anekdoten aus (abgeschlossenen) Projekten.• Conducting interviews to record anecdotes from (completed) projects.
• Analyse der Anekdoten zur Identifikation des expliziten und impliziten Wissens.• Analysis of the anecdotes to identify the explicit and implicit knowledge.
Eine solche Analyse ermittelt:Such an analysis determines:
- Die Art der Wissensrepräsentation, d.h. in welcher Form liegt das in der Anekdote angewendete Wissen vor (als Dokument oder allgemeiner: Artefakt, Fähigkeit einer Person, Heuristik, oder natürliches Talent).- The type of knowledge representation, i.e. in what form is the knowledge applied in the anecdote (as a document or more generally: artifact, ability of a person, heuristic, or natural talent).
- Die Art der Anwendung des Wissens (bei Urteil, Entscheidung, Problemlösung, etc.).- The way in which knowledge is used (for judgment, decision, problem solving, etc.).
- Die Kernaussage der Anekdote.- The key message of the anecdote.
- Definition von Zielen, die durch die Verbreitung der Story erreicht werden sollen, z.B. genauere Befolgung eines Geschäftsprozesses oder Widerlegung eines Gerüchts. Ableitung konkreter Anforderungen aus den Zielen.- Definition of goals that should be achieved by spreading the story, e.g. Follow a business process more closely or refute a rumor. Derivation of specific requirements from the goals.
- Konstruktion der Story aus geeigneten Elementen der Anekdoten, die zur Erreichung der Zielen bzw. Anforderungen beitragen. Das Resultat der vorstehend beschriebenen Vorgehensweise ist eine Story, die von einem Mitarbeiter des Unternehmens erkannt und verstanden wird, da sie auf ihren Erfahrungen (in Form von Anekdoten) basiert. Die Story ist jedoch insgesamt fiktiv, da sie die Elemente der Anekdoten zu einer neuen Handlung zusammenfügt.- Construction of the story from suitable elements of the anecdotes that contribute to the achievement of the goals or requirements. The result of the procedure described above is a story that is recognized and understood by an employee of the company because it is based on their experience (in the form of anecdotes). However, the story as a whole is fictional, as it combines the elements of the anecdotes into a new plot.
Der oben beschriebene Analyseprozess ist allerdings sehr aufwendig. Bei der systematischen Konstruktion einer Story anhand von gegebenen Zielen und Anforderungen ist eine große Menge von Anekdoten zu sichten, aus denen die Elemente der Story ausgewählt werden müssen. Für diese Sichtung existieren jedoch bislang keine Software- Werkzeuge.However, the analysis process described above is very complex. When systematically constructing a story based on given goals and requirements, a large number of anecdotes must be viewed from which the elements of the story must be selected. However, no software tools exist for this screening.
Der Erfindung liegt daher die Aufgabe zugrunde, ein System zur automatischen Generierung einer Textmaterialsammlung anzugeben, insbesondere zur Generierung einer Textmaterialsammlung für Stories.The invention is therefore based on the object of specifying a system for automatically generating a text material collection, in particular for generating a text material collection for stories.
Diese Aufgabe wird durch ein System zur automatischen Generierung einer Textmaterialsammlung gelöst, das die im Anspruch 1 angegebenen Merkmale aufweist. Eine vorteilhafte Ausgestaltung ist in einem weiteren Anspruch angegeben.This object is achieved by a system for the automatic generation of a text material collection, which has the features specified in claim 1. An advantageous embodiment is specified in a further claim.
Die Erfindung bezieht sich demnach auf ein System zur automatischen Generierung einer Textmaterialsammlung, insbesondere für eine Story, bei dem eine Datenverarbeitungseinrichtung vorhanden und dafür eingerichtet ist, mehrere Anekdoten jeweils als XML-DTD zu speichern, wobei jede Anekdote eine Folge von Ereignis-beschreibenden Textabsätzen und zugeordnete Annotationen umfasst. Durch Auswertung von Anforderungen wird damit eine Menge von Textabsätzen als zielgerichtete Textmaterialsammlung erstellt, wobei die Textabsätze jeweils eine Referenz auf den Namen der Anekdote, Annotationen des Textabsatzes und den Text des Absatzes als Bestandteile enthalten. Bei der Auswertung werden als Anforderungsarten Anfragen berücksichtigt, die beschreiben, dass dem gesuchten Textabsatz eine bestimmte Annotation zugeordnet sein soll, sowie Ausschlusskriterien, die beschreiben, dass eine bestimmte Annotation nicht zugeordnet sein soll. Das System ist außerdem dafür eingerichtet, zuerst durch Auswertung der Anfragen eine, Gesamtmenge von Textabsätzen zu ermitteln, und anschließend anhand der Ausschlusskriterien daraus die gesuchte Menge von Textabsät- zen zu selektieren. Es wird vorzugsweise eine Menge von Anekdoten verwendet, die von unterschiedlichen Mitarbeitern des Unternehmens geliefert wurden.The invention accordingly relates to a system for the automatic generation of a text material collection, in particular for a story, in which a data processing device is present and is set up to store several anecdotes each as XML-DTD, each anecdote being a sequence of event-describing text paragraphs and associated annotations. By evaluating requirements, a number of text paragraphs are created as a targeted collection of text material, the text paragraphs each containing a reference to the name of the anecdote, annotations of the text paragraph and the text of the paragraph as components. In the evaluation, requests are taken into account as request types that describe that a specific annotation should be assigned to the text paragraph being sought, as well as exclusion criteria that describe that a specific annotation should not be assigned. The system is also set up to first determine a total amount of text paragraphs by evaluating the inquiries, and then to use the exclusion criteria to determine the desired amount of text paragraphs. to select zen. It is preferred to use a lot of anecdotes provided by different company employees.
Eine weitere Beschreibung des Systems erfolgt nachstehend anhand eines in Zeichnungsfiguren dargestellten Ausführungsbeispiels.A further description of the system is given below using an exemplary embodiment shown in the drawing figures.
Es zeigt:It shows:
Fig. 1 den Ablauf der Generierung einer Materialsammlung,1 shows the process of generating a material collection,
Fig. 2 ein Beispiel einer Anekdote,2 shows an example of an anecdote,
Fig. 3 eine durch Annotationen ergänzte Anekdote,3 shows an anecdote supplemented by annotations,
Fig. 4 eine XML DTD einer Anekdote,4 an XML DTD of an anecdote,
Fig. 5 eine Anekdote als XML-Datei, und5 shows an anecdote as an XML file, and
Fig. 6 eine Bildschirmdarstellung zur interaktiven Eingabe.Fig. 6 is a screen display for interactive input.
Das System arbeitet mit einer Standard-Datenverarbeitungseinrichtung, die erforderliche Mittel zur Datenspeicherung, -Verarbeitung und -ausgäbe aufweist. Mittels geeigneter Software ist das System für eine in Fig. 1 schematisiert dargestellte Arbeitsweise eingerichtet, bei der zweierlei Informationen, die in einer zweiphasigen Vorgehensweise ausgewertet werden.The system works with a standard data processing device that has the necessary means for data storage, processing and output. By means of suitable software, the system is set up for a mode of operation shown schematically in FIG. 1, in which two types of information that are evaluated in a two-phase procedure.
Zum einen verwendet das System eine Sammlung von Anekdoten. Diese Anekdoten wurden von einem Knowledge Management Team in Zusammenarbeit mit den Autoren der Anekdoten mit Anmerkungen (sogenannten Annotationen) versehen, welche z.B. die Kernaussagen, Werte, Regeln, die Art der Wissensrepräsentation oder die Art der Wissensanwendung betreffen. In einer Phase 1 extrahiert das System diese Anmerkungen.First, the system uses a collection of anecdotes. These anecdotes were annotated by a knowledge management team in collaboration with the authors of the anecdotes, which are e.g. the core statements, values, rules, the type of knowledge representation or the type of knowledge application. In phase 1, the system extracts these comments.
Zum anderen gibt der Benutzer dem System Anforderungen an die zu erstellende Story vor. Beispielsweise kann eine Anforderung darin bestehen, daß die Story die Notwendigkeit der Weiterbildung von Mitarbeitern betont. In der zweiten Phase (Phase 2) extrahiert das System durch Abgleich zwischen Anforderungen und in den Anekdoten enthaltenen Anmerkungen geeignete Absätze für eine Story aus den Anekdoten.On the other hand, the user specifies requirements for the story to be created. For example, one requirement may be that the story emphasizes the need to train employees. In the second phase (phase 2), the system extracts suitable paragraphs for a story from the anecdotes by comparing requirements and comments contained in the anecdotes.
In Phase 1 wird die Sammlung der Anekdoten vom System gelesen und verarbeitet. Jede der Anekdoten besteht aus zwei Ebenen. In der ersten Ebene enthält sie den Text, der eine Folge von Ereignissen beschreibt. In der zweiten Ebene besteht sie aus Anmerkungen, die den Text kommentieren. Diese Anmerkungen werden als Annotationen bezeichnet. Der Text der Anekdote entspricht einer Wiedergabe von Ereignissen durch einen Mitarbeiter des Unternehmens, wie sie zum Beispiel im Rahmen eines Interviews aufgezeichnet wird.In phase 1, the collection of anecdotes is read and processed by the system. Each of the anecdotes consists of two levels. On the first level, it contains the text that describes a sequence of events. On the second level, it consists of annotations that comment on the text. These annotations are called annotations. The text of the anecdote corresponds to a reproduction of events by an employee of the company, such as is recorded in an interview.
Fig. 2 zeigt beispielhaft eine Anekdote bezüglich Erfahrung mit Review Meetings.2 shows an example of an anecdote regarding experience with review meetings.
Fig. 3 zeigt einen Teil dieser Anekdote, ergänzt durch Annotationen. Dabei wurde z.B. wurde das Buch von Tom Gilb als Artefakt, also explizit repräsentiertes Wissen eingestuft und die Einführung der Review Meetings als Problemlösung klassifiziert.3 shows part of this anecdote, supplemented by annotations. Here, e.g. Tom Gilb classified the book as an artifact, i.e. explicitly represented knowledge, and classified the introduction of the review meetings as a solution to the problem.
Text und Annotationen werden vom System in XML (siehe Simon St. Laurent and Robert Biggar. Inside XML DTDs. McGraw-Hill, 1999) repräsentiert. Eine XML DTD (XML Dokumententyp-Definition) beschreibt, daß Dokumente aus Absätzen (engl. paragraphs) bestehen, die wiederum Annotationen enthalten. Ein Ausschnitt einer XML DTD, der Anekdoten definiert, ist in Fig. 4 wiedergegeben. Eine Annotation besteht demnach aus einem Attributnamen (att) und einem Wert (value). Zum Beispiel besteht die in Fig. 3 enthaltene Annotation „Problem: Software-Qualität" aus einem Attributnamen „Problem" und dem zugeordneten Wert „Software-Qualität".Text and annotations are represented by the system in XML (see Simon St. Laurent and Robert Biggar. Inside XML DTDs. McGraw-Hill, 1999). An XML DTD (XML document type definition) describes that documents consist of paragraphs, which in turn contain annotations. A section of an XML DTD that defines anecdotes is shown in FIG. 4. An annotation therefore consists of an attribute name (att) and a value (value). For example, the annotation "Problem: Software Quality" contained in FIG. 3 consists of an attribute name "Problem" and the assigned value "Software Quality".
Anekdoten werden von dem System in XML-Dateien gespeichert, die zu der soeben beschriebenen DTD passen. Als Beispiel ist in Fig.5 die bereits in Fig. 3 gezeigte Anekdote als XML-Datei dargestellt. Bei der Verarbeitung der Anekdoten liest das System die XML-Dateien und prüft sie unter Zuhilfenahme der DTD auf Konsistenz. Es sammelt alle Annotationen und konstruiert für jede Anekdote ein Verzeichnis der als Annotatio- nen vorkommenden Attribut-Wert-Paare. Schließlich wird ein Verzeichnis für die Gesamtheit aller Anekdoten angelegt.The system saves anecdotes in XML files that match the DTD just described. As an example, the anecdote already shown in FIG. 3 is shown as an XML file in FIG. When processing the anecdotes, the system reads the XML files and checks them for consistency with the help of the DTD. It collects all annotations and constructs a directory for each anecdote that is used as an annotation. occurring attribute-value pairs. Finally, a directory is created for all the anecdotes.
Auf Basis dieser Verzeichnisstrukturen kann das System nun zu jedem Attribut-Wert- Paar effizient feststellen, in welchen Dokumenten bzw. sogar in welchen Absätzen es vorkommt. Zum Beispiel kann das System nun die Menge aller Anekdoten und Absätze ermitteln, in denen das Problem der Software-Qualität behandelt wird.Based on these directory structures, the system can now efficiently determine for each attribute-value pair in which documents or even in which paragraphs it occurs. For example, the system can now determine the amount of all anecdotes and paragraphs that deal with the software quality problem.
In der zweiten Phase erstellt das System die Materialsammlung für die Story. Dazu werden Anforderungen an die zu erstellende Story ausgewertet. Das System berücksichtigt dabei zwei Arten von Anforderungen:In the second phase, the system creates the material collection for the story. For this purpose, requirements for the story to be created are evaluated. The system takes two types of requirements into account:
- Anfragen (Find): Die Anforderung beschreibt, daß die Story ein bestimmtes Thema (d.h. eine bestimmte Annotation <x = y>) beinhalten soll. Zum Beispiel kann gefordert werden, daß das Buch von Tom Gilb in der Story vorkommt. Dann lautet die Anforderung Find <"artefakt" = „Buch von T. Gilb">- Inquiries (Find): The request describes that the story should contain a certain topic (i.e. a certain annotation <x = y>). For example, Tom Gilb's book may be required to appear in the story. Then the request is Find <"artifact" = "Book by T. Gilb">
- Ausschlußkriterien (Avoid): In diesem Fall beschreibt die Anforderung, daß Anekdoten, die eine bestimmte Annotation <x = y> enthalten, nicht in der Story vorkommen sollen. Zum Beispiel kann gefordert werden, daß in der Story Schilderungen von Code-Reviews (eine bestimmte Art von Review Meetings) nicht vorkommen sollen. Dann lautet die Anforderung Avoid <"problemloesung" = "Code Review">.- Exclusion criteria (Avoid): In this case, the requirement describes that anecdotes that contain a certain annotation <x = y> should not appear in the story. For example, it may be required that descriptions of code reviews (a certain type of review meeting) should not appear in the story. Then the requirement is Avoid <"problemloesung" = "Code Review">.
Bei der Erstellung der Materialsammlung arbeitet das System der Reihe nach die Anfragen ab. Zu jeder Anfrage der Form Find <x = y> wird die Gesamtmenge M1 aller Absätze ermittelt, welche die Annotation <x = y> enthalten. Auf die Gesamtmenge M1 der gefundenen Absätze werden nun die Ausschlußkriterien angewandt. Ein Absatz erfüllt ein Ausschlußkriterium Avoid <x = y>, wenn die Annotation <x = y> weder in dem Absatz selbst, noch in einem anderen Absatz der Anekdote vorkommt.When creating the material collection, the system processes the requests in sequence. For each query of the form Find <x = y>, the total amount M1 of all paragraphs is determined, which contain the annotation <x = y>. The exclusion criteria are now applied to the total quantity M1 of the paragraphs found. A paragraph fulfills an exclusion criterion Avoid <x = y> if the annotation <x = y> does not appear in the paragraph itself or in another paragraph of the anecdote.
Diejenigen Absätze aus der Gesamtmenge M1 , die alle Ausschlußkriterien erfüllen, werden in die Materialsammlung eingetragen. Der Absatz-Eintrag hat drei Bestandteile:Those paragraphs from the total quantity M1 that meet all the exclusion criteria are entered in the material collection. The paragraph entry has three components:
- eine Referenz auf den Namen der Anekdote,- a reference to the name of the anecdote,
- die Annotationen des Absatzes, - den Text des Absatzes.- the annotations of the paragraph, - the text of the paragraph.
Auf diese Weise werden alle Anfragen der Reihe nach abgearbeitet. Es entsteht eine Materialsammlung, die in der Reihenfolge der Anfragen als Menge M diejenigen Absätze enthält, die alle Ausschlußkriterien erfüllen. Absätze, die mehrere Anfragen erfüllen, werden dabei nur einmal in die Sammlung übernommen (und nicht wiederholt).In this way, all requests are processed in sequence. A material collection is created which, in the order of the inquiries as quantity M, contains those paragraphs that meet all the exclusion criteria. Paragraphs that fulfill several inquiries are only included in the collection once (and not repeated).
Als Beispiel wird hierzu wieder die Anekdote aus Fig. 3 betrachtet. Dabei werden dreiThe anecdote from FIG. 3 is again considered as an example. Thereby three
Anforderungen an die Story angenommen:Story requirements accepted:
Find <"problemloesung" = „Review Meetings">Find <"problem solving" = "Review Meetings">
Find <"archetyp" = „Projektleiter">Find <"archetype" = "project manager">
Avoid <"problemloesung" = „Code Reviews">.Avoid <"problem solving" = "Code Reviews">.
Das System wertet wie beschrieben die Anfragen der Reihe nach aus. Zu <"problem- loesung" = „Review Meetings"> wird der folgende Absatz gefunden:As described, the system evaluates the requests in sequence. The following paragraph is found on <"problem-solving" = "Review Meetings">:
„Projektleiter Meier führte daher regelmäßige Review Meetings ein. Er hat die Technik durch Lesen des Buches von Tom Gilb erlernt."“Project manager Meier therefore introduced regular review meetings. He learned the technique by reading Tom Gilb's book. "
Nun wird das Ausschlußkriterium geprüft: Keiner der Absätze der Anekdote darf die Annotation <"problemloesung" = „Code Reviews"> enthalten. Dies ist erfüllt. Somit wird folgender Eintrag in der Materialsammlung generiert: „Quelle: Erfahrungen mit Review MeetingsNow the exclusion criterion is checked: None of the paragraphs of the anecdote may contain the annotation <"problemloesung" = "Code Reviews">. This is true. The following entry is generated in the material collection: "Source: Experience with review meetings
Annotationen: <"problemloesung" = „Review Meetings">Annotations: <"problem solving" = "Review Meetings">
<"artefakt" = „Buch von T. Gilb"> Text: Projektleiter Meier führte daher regelmäßige Review Meetings ein.<"artifact" = "Book by T. Gilb"> Text: Project manager Meier therefore introduced regular review meetings.
Er hat die Technik durch Lesen des Buches von Tom Gilb erlernt."He learned the technique by reading Tom Gilb's book. "
Entsprechend wird die zweite Anfrage ausgewertet, wobei der Paragraph „Herr Meier moderierte die Meetings" gefunden wird. Wenn wir die Anforderung Avoid <"problem" = „Software-Qualität"> hinzufügen, wird keiner der Absätze mehr in die Materialsammlung eingefügt. Da der erste Absatz der Anekdote diese Annotation enthält, wird die gesamte Anekdote nicht mehr berücksichtigt. Ausschlußkriterien beziehen sich auf Eigenschaften der Anekdote insgesamt, die nicht in jedem einzelnen Absatz als Annotation vorkommen müssen.The second query is evaluated accordingly, and the paragraph "Mr. Meier moderated the meetings" is found. If we add the requirement Avoid <"problem" = "software quality">, none of the paragraphs will be added to the material collection. Since the first paragraph of the anecdote contains this annotation, the entire anecdote is no longer taken into account. Exclusion criteria relate on properties of the anecdote as a whole that do not have to be annotated in each individual paragraph.
Das beschriebene System ist somit ein System zur automatischen Erstellung von Materialsammlungen für zielgerichtete Stories. Die Automatisierung ist durch Anwendung des oben beschriebenen Annotationen-Konzeptes ermöglicht. Eine solche Automatisierung wäre z.B. nicht durch Information Retrieval Techniken (s. Ricardo Baeza-Yates und Berthier Ribeiro-Neto: Modern Information Retrieval. ACM Press und Addison- Wesley, 1999) erreichbar, da diese zu ungenau sind. Es wäre damit zwar möglich, den Begriff „Review Meeting" in einer Anekdote zu finden, aber der Sinnzusammenhang Review Meeting als Problemlösung wird erst durch die Annotation gegeben.The system described is thus a system for the automatic creation of material collections for targeted stories. Automation is made possible by using the annotation concept described above. Such automation would be e.g. cannot be achieved using information retrieval techniques (see Ricardo Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval. ACM Press and Addison-Wesley, 1999), since these are too imprecise. It would be possible to find the term "review meeting" in an anecdote, but the meaning of the review meeting as a solution to the problem is only given by the annotation.
Da die Materialsammlungen von den Anforderungen geprägt werden, unterstützt das vorgeschlagene System in besonderem Maße die Formulierung präziser Anforderungen. Insbesondere wird sichergestellt, daß bei den Anforderungen die korrekten Attributnamen und Attributwerte verwendet werden, d.h. daß in Anforderungen und Anekdoten das gleiche Vokabular verwendet wird. Dazu tragen die folgenden Eigenschaften des Systems bei:Since the material collections are shaped by the requirements, the proposed system particularly supports the formulation of precise requirements. In particular, it is ensured that the correct attribute names and attribute values are used in the requirements, i.e. that the same vocabulary is used in requests and anecdotes. The following properties of the system contribute to this:
Sicherstellung korrekter Attributnamen in den Annotationen: Die DTD für Sammlungen von Anekdoten enthält ein Konstrukt zur Auflistung von Attributnamen: <!ELEMENT attDecl EMPTY> <!ATTLIST attDecl attname CDATA#REQUIRED>Ensuring correct attribute names in the annotations: The DTD for collections of anecdotes contains a construct for listing attribute names: <! ELEMENT attDecl EMPTY> <! ATTLIST attDecl attname CDATA # REQUIRED>
Das System stellt sicher, daß die Anekdoten nur Annotationen enthalten, deren Attributnamen in dieser Liste vorkommen. Somit werden Schreibfehler sowie inkonsistente Attributnamen in den unterschiedlichen Anekdoten vermieden, z.B. meldet das System einen Fehler, wenn das Attribut „artefakt" deklariert ist, aber „artifact" verwendet wird.The system ensures that the anecdotes only contain annotations whose attribute names appear in this list. This prevents spelling errors and inconsistent attribute names in the different anecdotes, e.g. the system reports an error if the "artifact" attribute is declared but "artifact" is used.
Interaktive Eingabe: Bei der Formulierung der Anforderungen wird eine interaktive Eingabemaske verwendet, wie beispielhaft in Fig. 6 gezeigt ist. Diese Eingabemaske zeigt alle Attributnamen und Attributwerte an, die in den Anekdoten vorkommen, was die Anforderungsdefinition wesentlich vereinfacht. Außerdem erhält der Benutzer sofortiges Feedback auf seine Anforderungen, d.h. es wird während der Anfrageformulierung unmittelbar die Liste der Anekdoten angezeigt, deren Paragraphen auf die derzeitigen Anforderungen passen.Interactive input: When formulating the requirements, an interactive input mask is used, as shown by way of example in FIG. 6. This input mask shows all attribute names and attribute values that appear in the anecdotes, which considerably simplifies the definition of requirements. In addition, the user gets instant Feedback on his requirements, ie the list of anecdotes, the paragraphs of which match the current requirements, is displayed immediately when the request is formulated.
Das beschriebene System ist nicht nur für Stories, sondern auch für andere Textarten geeignet, die auf Materialsammlungen aus unterschiedlichen Quellen angewiesen sind, wie z.B. Berichte oder Artikel. The system described is not only suitable for stories, but also for other types of text that rely on material collections from different sources, such as Reports or articles.

Claims

Patentansprüche claims
1. System zur automatischen Generierung einer Textmaterialsammlung, insbesondere für eine Story, wobei eine Datenverarbeitungseinrichtung vorhanden und dafür eingerichtet ist,1. System for the automatic generation of a text material collection, in particular for a story, a data processing device being present and set up for this purpose,
a) mehrere Anekdoten jeweils als XML-DTD zu speichern, wobei jede Anekdote eine Folge von Ereignis-beschreibenden Textabsätzen und zugeoerdnete Annotationen umfasst, und b) durch Auswertung von Anforderungen eine Menge (M) von Textabsätzen als zielgerichtete Textmaterialsammlung zu erstellen, wobei die Textabsätze jeweils eine Referenz auf den Namen der Anekdote, Annotationen des Textabsatzes und den Text des Absatzes als Bestandteile enthalten, und wobei b1) bei der Auswertung als Anforderungsarten Anfragen (Find), die beschreiben, dass dem gesuchten Textabsatz eine bestimmte Annotation zugeordnet sein soll, und Ausschlusskriterien (Avoid), die beschreiben, dass eine bestimmte-Annotation nicht zugeordnet sein soll, berücksichtigt werden, und b2) zuerst durch Auswertung der Anfragen (Find) eine Gesamtmenge (M1) von Textabsätzen ermittelt wird, und anschließend anhand der Ausschlusskriterien (Avoid) daraus die gesuchte Menge (M) von Textabsätzen selektiert wird.a) save several anecdotes each as XML-DTD, each anecdote comprising a sequence of event-describing text paragraphs and assigned annotations, and b) by evaluating requirements to create a set (M) of text paragraphs as a targeted collection of text material, the text paragraphs each contain a reference to the name of the anecdote, annotations of the text paragraph and the text of the paragraph as components, and where b1) in the evaluation as request types, queries (Find) that describe that the text paragraph sought should be assigned a specific annotation, and Exclusion criteria (Avoid), which describe that a certain annotation should not be assigned, are taken into account, and b2) a total amount (M1) of text paragraphs is first determined by evaluating the queries (Find), and then using the exclusion criteria (Avoid) From this, the searched quantity (M) of text paragraphs is selected.
2. System nach Anspruch 1 , dadurch gekennzeichnet, dass es dafür eingerichtet ist, mittels einer interaktiven Eingabemaske die zu berücksichtigenden Anforderungen einzugeben, die alle Attributnamen und Attributwerte anzeigt, die in Anekdoten vorkommen. 2. System according to claim 1, characterized in that it is set up to enter the requirements to be taken into account by means of an interactive input mask, which displays all attribute names and attribute values that occur in anecdotes.
PCT/EP2002/010718 2001-09-27 2002-09-25 System for generating a collection of text materials WO2003030016A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10147854.2 2001-09-27
DE10147854A DE10147854A1 (en) 2001-09-27 2001-09-27 System for generating a collection of text material

Publications (2)

Publication Number Publication Date
WO2003030016A2 true WO2003030016A2 (en) 2003-04-10
WO2003030016A3 WO2003030016A3 (en) 2004-02-12

Family

ID=7700616

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2002/010718 WO2003030016A2 (en) 2001-09-27 2002-09-25 System for generating a collection of text materials

Country Status (2)

Country Link
DE (1) DE10147854A1 (en)
WO (1) WO2003030016A2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734927B2 (en) 2004-07-21 2010-06-08 International Business Machines Corporation Real-time voting based authorization in an autonomic workflow process using an electronic messaging system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057321A2 (en) * 1999-03-24 2000-09-28 The Cybercasters Limited Story workflow management system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000057321A2 (en) * 1999-03-24 2000-09-28 The Cybercasters Limited Story workflow management system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BROOKS K M: "Do story agents use rocking chairs? The theory and implementation of one model for computational narrative" PROCEEDINGS ACM MULTIMEDIA 96, PROCEEDINGS OF 4TH MULTIMEDIA CONFERENCE, BOSTON, MA, USA, 18-22 NOV. 1996, Seiten 317-328, XP002262077 1996, New York, NY, USA, ACM, USA ISBN: 0-89791-871-1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7734927B2 (en) 2004-07-21 2010-06-08 International Business Machines Corporation Real-time voting based authorization in an autonomic workflow process using an electronic messaging system

Also Published As

Publication number Publication date
DE10147854A1 (en) 2003-04-24
WO2003030016A3 (en) 2004-02-12

Similar Documents

Publication Publication Date Title
EP0910829B1 (en) Database system
DE69729926T2 (en) Network Browser
DE60002876T2 (en) PRESENTATION, ADMINISTRATION AND SYNTHESIS OF TECHNICAL CONTENT
EP0855062B1 (en) Information system and process for storing data therein
DE102005016561B4 (en) Method and device for the structured acquisition and processing of problems occurring in a system
DE19844013A1 (en) Computer-readable work folder memory
DE19844071A1 (en) Data conflict elimination method for common data field
DE19712946A1 (en) Computerised method of automatically expanding specifications of process model in workflow process environment
EP1307816A1 (en) System for determining error causes
DE10040987B4 (en) Method and apparatus for matching updates of redundant data in relational databases
DE102006057149A1 (en) A system and method for facilitating a visual comparison of input data with existing data
EP1975821A2 (en) Method for digital storing of data on a data storage device with limited available space
DE10205081A1 (en) Dokumentenauskunftszensor
DE10048478A1 (en) Method for accessing a storage unit when searching for substrings and associated storage unit
EP1030254A1 (en) Method and system to manage documents
EP1324218A1 (en) System for categorising data objects and method of checking the consistency of the designation of categories to the data objects
WO2003030016A2 (en) System for generating a collection of text materials
EP1783631A1 (en) Search result ranking by means of relevance feedback
EP1234231B1 (en) Method for generating graphical user interfaces for computer programs
DE10016337B4 (en) Method and device for generating and processing data using an active structure tree
DE3319211A1 (en) ONLINE DOCUMENTATION PROCEDURE AND SETUP
DE10017608B4 (en) Method for performing operations in a database system
DE10109876B4 (en) Method and device for data management
DE102009020499A1 (en) Method for searching matching between at least one search data set with at least one object data set
DE10120571A1 (en) Process for automatically updating product data in an electronic catalog

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A2

Designated state(s): AE AG AL AM AU AZ BA BB BR BY CA CN CO CR CU DM DZ EC GD GE GM HR HU ID IL IN IS JP KE KG KP KZ LC LK LR LS LT LV MA MD MG MN MW MX MZ NO NZ OM PH PL RO SD SG SI SL TJ TM TN TT TZ UA UG UZ VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FR GB GR IE IT LU MC NL PT SE SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP