WO1998041930A1 - Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner - Google Patents

Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner Download PDF

Info

Publication number
WO1998041930A1
WO1998041930A1 PCT/DE1998/000485 DE9800485W WO9841930A1 WO 1998041930 A1 WO1998041930 A1 WO 1998041930A1 DE 9800485 W DE9800485 W DE 9800485W WO 9841930 A1 WO9841930 A1 WO 9841930A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
text
word
words
probability
Prior art date
Application number
PCT/DE1998/000485
Other languages
English (en)
French (fr)
Inventor
Thomas BRÜCKNER
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to JP54000698A priority Critical patent/JP2001515623A/ja
Priority to EP98914784A priority patent/EP0968478A1/de
Publication of WO1998041930A1 publication Critical patent/WO1998041930A1/de
Priority to US09/381,180 priority patent/US6401086B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Definitions

  • the invention relates to a method for the automatic generation of a summary of a text by a computer.
  • a special type of information reduction consists in the merging of texts.
  • a method for summarizing texts is known from [1] which uses heuristic features with a discrete range of values.
  • the probability that a sentence from the text belongs to the summary on the condition that a heuristic feature has a certain value is estimated from a training set of summaries.
  • the object of the invention is to automatically generate a summary from a given text, which summary is intended to represent the essential contents of the text in short form.
  • the method according to the invention enables a text to be summarized by determining for each sentence of this text a probability that the sentence belongs to the summary.
  • the relevance measure is determined for each word m in the sentence from a lexicon which contains all relevant words with a predefined relevance measure for each of these words.
  • the accumulation of all relevance measures gives the probability of the sentence belonging to the summary. All records are then sorted according to their probability.
  • a predeterminable reduction measure which indicates what percentage of the original text is shown in the summary, serves for the selection of the number of sentences given by this reduction measure from the sorted representation. If the most important x-percent sentences are selected, they are displayed as a summary of the text in its original order given by this text.
  • An advantageous further development of the method according to the invention consists in introducing an frequency of Emzelworth in addition to the relevance measure. This level of detail indicates how often the word in question appears in the entire text to be summarized. Taking into account the relevance measure and this newly introduced
  • N is the total number of words in the
  • a further development of the method according to the invention consists in using an application-specific lexicon.
  • a lexicon specified for sports contributions will rate sports-related words with a higher relevance for a text to be summarized than a lexicon that specializes in summaries of economic contributions. It is therefore advantageously possible to provide specific knowledge about predefinable categories by means of lexica corresponding to the respective categories.
  • a text is also advantageous to assign a text to one or more categories. This can be done automatically by using specific, predefinable words in the subject-related lexica as a selection criterion for an assignment to the respective subject area. If several categories (subject areas), i.e. different perspectives or filters, are possible for the summary of a text, different summaries, one for each category, can be created automatically.
  • FIG. 1 is a sketch illustrating a system for automatically generating a summary
  • Fig. 2 is a block diagram illustrating the steps of the method according to the invention.
  • FIG. 1 shows a system with which an automatic generation of a summary of text by a
  • a text to be summarized can either be written TXT, e.g. on paper, or in digital form DIGTXT, e.g. as the result of a database query.
  • the text TXT is read in by the scanner SC and stored as an image file BD.
  • a text recognition software OCR converts the text TXT m present as an image file BD into a machine-readable format, e.g. ASCII format to.
  • the digital text DIGTXT is already available in machine-readable format.
  • the summary according to the invention is created using the corresponding lexicon (in the KatSel block).
  • step 2a the first sentence is selected at the beginning of the method according to the invention and the probability that this sentence belongs to the summary is set to 0.
  • step 2b the first word of this sentence is selected. Since the probability that this sentence belongs to the summary is derived from the
  • step 2e If the probabilities of the individual words are put together, for each word in the sentence in the loop from step 2c to step 2e, the respective probability is cumulated to the overall probability for the entire sentence. Once all the words in the sentence have been processed, the probability for the individual sentence is normalized by the number of words. The steps described are carried out for all sentences in the text (step 2g, 2h, 2 ⁇ ). If the last sentence in the text has been processed, the sentences are after their
  • step 2j Probability sorted (step 2j). According to a predeterminable reduction measure, the n best sentences corresponding to the reduction measure are selected in step 2k and then their original sequence is displayed in step 2m.

Abstract

Das Verfahren ermöglicht die satzbasierte automatische Zusammenfassung von Text auf einem Rechner. Dazu werden themenbezogene Lexika verwendet, die für jedes in ihnen enthaltene Wort ein Relevanzmaß bereitstellen. Jeder Satz des zusammenzufassenden Textes wird wortweise abgearbeitet und für jedes Wort eine Einzelworthäufigkeit, gewichtet mit dem Relevanzmaß, kumuliert. Für die Zusammenfassung werden die n Sätze mit der größten Wahrscheinlichkeit dafür, daß sie zu der Zusammenfassung gehören, wobei n ein vorgebbares Reduktionsmaß ist, zusammengestellt.

Description

Beschreibung
Verfahren zur automatischen Generierung einer Zusammenfassung von einem Text durch einen Rechner
Die Erfindung betrifft ein Verfahren zur automatischen Generierung einer Zusammenfassung von einem Text durch einen Rechner .
Aus [2] ist ein Verfahren zur automatischen Zusammenfassung eines Textes bekannt. Dabei werden
Merkmalswahrschemlichkeiten bestimmt, die eine automatische Zusammenfassung erlauben.
Heutzutage ist es schwierig und bisweilen mühsam, aus einer Flut von Information, die nach vorgebbar persönlichen Kriterien wichtige Information auszuwählen. Doch auch nach der Selektion stehen oftmals beinahe unerschöpfliche Massen an Daten, z.B. m Form von Artikeln, zur Verfugung. Da es mittels Rechnern ein Leichtes ist, große Datenmengen zu erfassen und zu verwalten, liegt es nahe, den Rechner auch zur Aufbereitung bzw. zur Selektion von Information zu benutzen. Eine solche automatische Informationsreduktion soll es einem Benutzer ermöglichen, eine deutlich geringere Datenmenge lesen zu müssen, um zu der für ihn relevanten Information zu gelangen.
Eine besondere Art der Informationsreduktion besteht m der Zusammenfassung von Texten.
Aus [1] ist ein Verfahren zur Zusammenfassung von Texten bekannt, das heuristische Merkmale mit diskretem Wertebereich benutzt. Die Wahrscheinlichkeit dafür, daß ein Satz aus dem Text zur Zusammenfassung gehört unter der Bedingung, daß ein heuristisches Merkmal einen bestimmten Wert hat, wird aus einer Trainingsmenge von Zusammenfassungen geschätzt. Die Aufgabe der Erfindung besteht darin, automatisch eine Zusammenfassung aus einem vorgegebenen Text zu generieren, wobei diese Zusammenfassung m Kurzform die wesentlichen Inhalte des Textes wiedergeben soll.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruchs 1 gelost.
Das erfmdungsgemaße Verfahren ermöglicht eine Zusammenfassung eines Textes dadurch, daß für jeden Satz dieses Textes eine Wahrscheinlichkeit dafür ermittelt wird, daß der Satz zu der Zusammenfassung gehört. Dabei wird für jedes Wort m dem Satz aus einem Lexikon, das alle relevanten Worter mit einem vorgegebenen Relevanzmaß zu jedem dieser Worter enthalt, das Relevanzmaß ermittelt. Die Kumulation aller Relevanzmaße ergibt die Wahrscheinlichkeit für die Zugehörigkeit des Satzes zu der Zusammenfassung. Daraufhin werden alle Satze ihrer Wahrscheinlichkeit nach sortiert. Ein vorgebbares Reduktionsmaß, das angibt, wieviel Prozent des Originaltextes in der Zusammenfassung dargestellt werden, dient für die Auswahl der durch dieses Reduktionsmaß gegebenen Anzahl von Sätzen aus der sortierten Darstellung. Sind die wichtigsten x-Prozent Satze ausgewählt, so werden diese als Zusammenfassung des Textes m ihrer ursprünglichen, durch diesen Text gegebenen, Reihenfolge angezeigt.
Eine vorteilhafte Weiterbildung des erfmdungsgemaßen Verfahrens besteht darin, zusätzlich zu dem Relevanzmaß eine Emzelworthaufigkeit einzufuhren. Diese Emzelworthauflgkeit gibt an, wie oft das jeweils betrachtete Wort im gesamten zusammenzufassenden Text vorkommt. Unter Berücksichtigung des Relevanzmaßes und dieser neu eingeführten
Emzelworthaufigkeit kann die Wahrscheinlichkeit dafür, daß der jeweilige Satz m der Zusammenfassung enthalten ist, durch folgende Vorschrift angegeben werden:
Figure imgf000005_0001
wobei (Satz) dιe Wahrscheinlichkeit für eine Zugehörigkeit des Satzes zu der Zusammenfassung,
N die Anzahl der insgesamt vorkommenden Wortern im
Satz, l eine Zahlvariable (ι=l, 2, ... , N) für alle Worter im Satz, tf die Häufigkeit des Auftretens des jeweils betrachteten Wortes im gesamten zusammenzufassenden Text (Emzelworthaufigkeit) und rlv das Relevanzmaß für das jeweilige Wort im Satz, bezeichnen.
Hierbei sei angemerkt, daß die im Lexikon vorkommenden Worter mit deren aus dem Lexikon bekannten Relevanzmaß rlv ausschlaggebend sind. Kommt ein Wort, das nicht dem Lexikon vorhanden ist, n mal vor, so erhöht dieses Wort die Wahrscheinlichkeit dafür, daß der Satz zur Zusammenfassung gehört, nicht.
Eine Weiterbildung des erf dungsgemaßen Verfahrens besteht darin, ein anwendungsspezifisches Lexikon zu verwenden. Dies bewirkt, daß die Zusammenfassung mit einem vorgebbaren sachspezifischen Filter durchgeführt wird. So wird beispielsweise ein auf Sportbeitrage spezifiziertes Lexikon einem zusammenzufassenden Text sportrelevante Worter mit einer höheren Relevanz bewerten, als ein Lexikon, das auf Zusammenfassungen wirtschaftlicher Beitrage spezialisiert ist. Es kann also vorteilhaft spezifisches Wissen über vorgebbare Kategorien durch den jeweiligen Kategorien entsprechende Lexika bereitgestellt werden.
Ferner ist es vorteilhaft, einen Text einer oder mehrerer Kategorien zuzuordnen. Dies kann automatisch durchgeführt werden, indem spezielle vorgebbare Worter in den themenbezogenen Lexika als Auswahlkriterium f r eine Zuordnung zu dem jeweiligen Themengebiet herangezogen werden. Sind mehrere Kategorien (Themengebiete) , also unterschiedliche Blickwinkel bzw. Filter, für die Zusammenfassung eines Textes möglich, so können unterschiedliche Zusammenfassungen, für jede Kategorie eine, automatisch erstellt werden.
Die Erfindung wird anhand eines Ausfuhrungsbeispiels, das den Figuren dargestellt ist, weiter erläutert.
Es zeigen
Fig. 1 eine Skizze, die ein System zur automatischen Generierung einer Zusammenfassung darstellt,
Fig. 2 ein Blockdiagramm, das die Schritte des erfindungsgemaßen Verfahrens darstellt.
In Fig. 1 ist ein System angegeben, mit dem eine automatische Generierung einer Zusammenfassung von Text durch einen
Rechner durchgeführt wird. Ein zusammenzufassender Text kann entweder in geschriebener Form TXT, z.B. auf Papier, oder m digitaler Form DIGTXT, z.B. als Ergebnis einer Datenbankabfrage, vorliegen.
Um auch den Text in Papierform TXT erfmdungsgemaß bearbeiten zu können, ist es notwendig, diesen dem Rechner zuganglich zu machen. Dazu wird der Text TXT von Scanner SC eingelesen und als Bilddatei BD abgelegt. Eine Texterkennungssoftware OCR wandelt den als Bilddatei BD vorliegenden Text TXT m ein maschinenlesbares Format, z.B. ASCII-Format, um. Der digital vorliegende Text DIGTXT liegt schon im maschinenlesbaren Format vor.
Weiterhin seien eine vorgebbare Anzahl themenbezogener
Lexika, zu jedem Themengebiet ein Lexikon, vorrätig. In Fig. 1 sind die themenbezogenen Lexika angedeutet als Blöcke LEX1, LEX2 und LEX3. Es sind vielerlei Arten denkbar, wie die Inhalte der themenbezogenen Lexika aufgebaut werden. Eine Möglichkeit besteht darin, kategorisierte Texte automatisch zu analysieren, indem Worthauflgkeiten als signifikantes Kriterium für die jeweilige Kategorie gewählt werden.
Anhand der Lexika ist es möglich, den zusammenzufassenden Text automatisch zu kategorisieren (im Block KatSel) , indem vorgebbare Worter in den themenbezogenen Lexika, wenn sie dem zusammenzufassenden Text vorkommen, den Ausschlag geben für eine Zusammenfassung in Bezug auf das jeweils betroffene themenbezogene Lexikon. In solch einem Fall wird eine zu αiesem Lexikon passende themengebundene Zusammenfassung erstellt .
Hierbei sei angemerkt, daß vorteilhaft die Worter m dem zusammenzufassenden Text auf ihre jeweilige Grundform zurückgeführt werden (dies geschieht m dem Block LEM) und jedes Wort einen Verweis auf seine Wortart erhalt (Block TAG) .
Für jede Kategorie (Thema) wird mittels des entsprechenden Lexikons die Zusammenfassung gemäß der Erfindung erstellt (im Block KatSel) . Es ergeben sich themenspezifische Zusammenfassungen ZFS1 und ZFS2.
Die Schritte die zur Zusammenfassung des Textes fuhren, sind ausführlich in Fig. 2 dargestellt. Der Übersicht halber sind die m Fig. 2 verwendeten Abkürzungen im folgenden zusammengefaßt:
SZ Satz,
WK(SZ) Wahrscheinlichkeit für Satz SZ,
W Wort, tf (W) Emzelworthaufigkeit des Wortes W (im Satz SZ) und rev(W) Relevanzmaß des Wortes W (im Satz SZ) . Im Schritt 2a wird zu Beginn des erfindungsgemaßen Verfahrens der erste Satz ausgewählt und die Wahrscheinlichkeit dafür, daß dieser Satz der Zusammenfassung angehört, gleich 0 gesetzt. Im Schritt 2b wird das erste Wort dieses Satzes ausgewählt. Da sich die Wahrscheinlichkeit dafür, daß dieser Satz zu der Zusammenfassung gehört, aus den
Wahrscheinlichkeiten der einzelnen Worter zusammensetzt, wird für jedes Wort im Satz in der Schleife von Schritt 2c bis Schritt 2e die jeweilige Wahrscheinlichkeit zur Gesamtwahrschemlichkeit für den ganzen Satz kumuliert. Sind alle Worter im Satz abgearbeitet, wird die Wahrscheinlichkeit für den einzelnen Satz normiert durch d e Anzahl der Worter. Die beschriebenen Schritte werden für alle Satze im Text durchgeführt (Schritt 2g, 2h, 2ι) . Ist der letzte Satz im Text abgearbeitet, so werden die Satze nach ihrer
Wahrscheinlichkeit sortiert (Schritt 2j ) . Entsprechend einem vorgebbaren Reduktionsmaß werden im Schritt 2k die dem Reduktionsmaß entsprechenden n besten Satze ausgewählt und anschließend im Schritt 2m m ihrer ursprünglichen Reihenfolge angezeigt.
Literaturverzeichnis :
[1] J.Kupiec, J.Pedersen und F.Chen, "A Trainable Document Summarizer", Xerox, Palo Alto Research Center, 1995.
[2] EP 0 751 470 AI

Claims

Patentansprüche
1. Verfahren zur automatischen Generierung einer
Zusammenfassung von einem Text durch einen Rechner, a) bei dem für jeden Satz eine Wahrscheinlichkeit dafür ermittelt wird, daß der Satz zu der Zusammenfassung gehört, indem für jedes Wort m dem Satz aus einem Lexikon, das anwendungsspezifische Worter mit einem vorgegebenen Relevanzmaß zu jedem dieser Worter enthalt, das Relevanzmaß ermittelt wird und alle
Relevanzmaße kumuliert die Wahrscheinlichkeit für die Zugehörigkeit des Satzes zu der Zusammenfassung ergeben, b) bei dem alle Satze des Textes nach den Wahrscheinlichkeiten sortiert werden, c) bei dem entsprechend einem vorgebbaren Reduktionsmaß zur Zusammenfassung die besten Satze angezeigt werden in einer durch den Text gegebenen Reihenfolge.
2. Verfahren nach Anspruch 1, bei dem zusätzlich zu dem Relevanzmaß eine Emzelworthaufigkeit für jedes Wort ermittelt wird und die Wahrscheinlichkeit dafür, daß der jeweilige Satz m der Zusammenfassung enthalten ist, durch folgende Vorschrift bestimmt ist:
Figure imgf000010_0001
wobei (Satz) dle Wahrscheinlichkeit für eine Zugehörigkeit des Satzes zu der Zusammenfassung, N die Anzahl der insgesamt vorkommenden Wortern im Satz, I eine Zahlvariable ( ι=l, 2, ... , N) für alle Worter im Satz, tf die Häufigkeit des Auftretens des jeweils betrachteten Wortes im gesamten zusammenzufassenden Text
(Einzelworthäufigkeit) und rlv das Relevanzmaß für das jeweilige Wort im
Satz, bezeichnen.
3. Verfahren nach Anspruch 1 oder 2, bei dem der Text einer oder mehrerer Kategorien, für die jeweils ein anwendungsspezifisches Lexikon verwendet wird, zugeordnet wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem für jede Zuordnung des Textes zu einer Kategorie eine anwendungsspezifische Zusammenfassung erstellt wird.
PCT/DE1998/000485 1997-03-18 1998-02-18 Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner WO1998041930A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP54000698A JP2001515623A (ja) 1997-03-18 1998-02-18 コンピュータによるテキストサマリ自動生成方法
EP98914784A EP0968478A1 (de) 1997-03-18 1998-02-18 Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
US09/381,180 US6401086B1 (en) 1997-03-18 1999-09-16 Method for automatically generating a summarized text by a computer

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19711284.6 1997-03-18
DE19711284 1997-03-18

Publications (1)

Publication Number Publication Date
WO1998041930A1 true WO1998041930A1 (de) 1998-09-24

Family

ID=7823794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1998/000485 WO1998041930A1 (de) 1997-03-18 1998-02-18 Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner

Country Status (4)

Country Link
US (1) US6401086B1 (de)
EP (1) EP0968478A1 (de)
JP (1) JP2001515623A (de)
WO (1) WO1998041930A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002041634A2 (en) * 2000-11-14 2002-05-23 Koninklijke Philips Electronics N.V. Summarization and/or indexing of programs
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US6904564B1 (en) * 2002-01-14 2005-06-07 The United States Of America As Represented By The National Security Agency Method of summarizing text using just the text
US7549114B2 (en) * 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US20040199408A1 (en) * 2003-04-01 2004-10-07 Johnson Tolbert R. Medical information card
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
US8131647B2 (en) 2005-01-19 2012-03-06 Amazon Technologies, Inc. Method and system for providing annotations of a digital work
US8234279B2 (en) * 2005-10-11 2012-07-31 The Boeing Company Streaming text data mining method and apparatus using multidimensional subspaces
US7831597B2 (en) * 2005-11-18 2010-11-09 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
US7752204B2 (en) * 2005-11-18 2010-07-06 The Boeing Company Query-based text summarization
US8352449B1 (en) 2006-03-29 2013-01-08 Amazon Technologies, Inc. Reader device content indexing
US20080005284A1 (en) * 2006-06-29 2008-01-03 The Trustees Of The University Of Pennsylvania Method and Apparatus For Publishing Textual Information To A Web Page
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US7865817B2 (en) 2006-12-29 2011-01-04 Amazon Technologies, Inc. Invariant referencing in digital works
US8024400B2 (en) 2007-09-26 2011-09-20 Oomble, Inc. Method and system for transferring content from the web to mobile devices
US7751807B2 (en) 2007-02-12 2010-07-06 Oomble, Inc. Method and system for a hosted mobile management service architecture
US9031947B2 (en) * 2007-03-27 2015-05-12 Invention Machine Corporation System and method for model element identification
US7716224B2 (en) 2007-03-29 2010-05-11 Amazon Technologies, Inc. Search and indexing on a user device
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US20080288488A1 (en) * 2007-05-15 2008-11-20 Iprm Intellectual Property Rights Management Ag C/O Dr. Hans Durrer Method and system for determining trend potentials
US8990215B1 (en) * 2007-05-21 2015-03-24 Amazon Technologies, Inc. Obtaining and verifying search indices
US20080301579A1 (en) * 2007-06-04 2008-12-04 Yahoo! Inc. Interactive interface for navigating, previewing, and accessing multimedia content
US9087032B1 (en) * 2009-01-26 2015-07-21 Amazon Technologies, Inc. Aggregation of highlights
US8378979B2 (en) 2009-01-27 2013-02-19 Amazon Technologies, Inc. Electronic device with haptic feedback
US8666730B2 (en) * 2009-03-13 2014-03-04 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
KR20110136843A (ko) * 2009-03-13 2011-12-21 인벤션 머신 코포레이션 지식 검색을 위한 시스템 및 방법
US8832584B1 (en) 2009-03-31 2014-09-09 Amazon Technologies, Inc. Questions on highlighted passages
US8692763B1 (en) 2009-09-28 2014-04-08 John T. Kim Last screen rendering for electronic book reader
US9495322B1 (en) 2010-09-21 2016-11-15 Amazon Technologies, Inc. Cover display
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9158741B1 (en) 2011-10-28 2015-10-13 Amazon Technologies, Inc. Indicators for navigating digital works
CN108090094A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 一种文本信息分类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0361464A2 (de) * 1988-09-30 1990-04-04 Kabushiki Kaisha Toshiba Verfahren und Vorrichtung zur Herstellung einer Zusammenfassung eines Dokumentes
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH08305695A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 文書処理装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
JP2790466B2 (ja) * 1988-10-18 1998-08-27 株式会社日立製作所 文字列検索方法及び装置
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
EP0702311A1 (de) * 1994-09-14 1996-03-20 Kabushiki Kaisha Toshiba Datenverarbeitungssystem, Datenwiederauffindungssystem, Datenverarbeitungsverfahren und Datenwiederauffindungsverfahren
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US5778397A (en) 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0361464A2 (de) * 1988-09-30 1990-04-04 Kabushiki Kaisha Toshiba Verfahren und Vorrichtung zur Herstellung einer Zusammenfassung eines Dokumentes
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH08305695A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 文書処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"METHOD FOR AUTOMATIC EXTRACTION OF RELEVANT SENTENCES FROM TEXTS", IBM TECHNICAL DISCLOSURE BULLETIN, vol. 33, no. 6A, November 1990 (1990-11-01), pages 338/339, XP002015802 *
HOCH R: "USING IR TECHNIQUES FOR TEXT CLASSIFICATION IN DOCUMENT ANALYSIS", SIGIR '94, DUBLIN, JULY 3 - 6, 1994, no. CONF. 17, 3 July 1994 (1994-07-03), CROFT W B;VAN RIJSBERGEN C J (EDITORS), pages 31 - 40, XP000475312 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002041634A2 (en) * 2000-11-14 2002-05-23 Koninklijke Philips Electronics N.V. Summarization and/or indexing of programs
WO2002041634A3 (en) * 2000-11-14 2003-11-20 Koninkl Philips Electronics Nv Summarization and/or indexing of programs
CN110162778A (zh) * 2019-04-02 2019-08-23 阿里巴巴集团控股有限公司 文本摘要的生成方法及装置
CN110162778B (zh) * 2019-04-02 2023-05-26 创新先进技术有限公司 文本摘要的生成方法及装置

Also Published As

Publication number Publication date
US6401086B1 (en) 2002-06-04
JP2001515623A (ja) 2001-09-18
EP0968478A1 (de) 2000-01-05

Similar Documents

Publication Publication Date Title
WO1998041930A1 (de) Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE19952769B4 (de) Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE4015905C2 (de) Sprachanalyseeinrichtung, -verfahren und -programm
DE69822687T2 (de) Vorrichtung und Verfahren zur Zusammenfassung
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE69434620T2 (de) Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten
DE69432575T2 (de) Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
DE69530816T2 (de) Textbearbeitungssystem und Verfahren unter Verwendung einer Wissensbasis
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE102004003878A1 (de) System und Verfahren zum Identifizieren eines speziellen Wortgebrauchs in einem Dokument
DE10343228A1 (de) Verfahren und Systeme zum Organisieren elektronischer Dokumente
DE102005032734B4 (de) Indexextraktion von Dokumenten
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE19922974A1 (de) Verfahren und Vorrichtung zur Bearbeitung eines Dokuments
WO2005119580A1 (de) Verfahren und einrichtung zur strukturanalyse eines dokuments
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
EP2221735A2 (de) Verfahren zum automatischen Klassifizieren eines Textes durch ein Computersystem
WO2001006451A1 (de) Verfahren zur bildung und/oder aktualisierung von wörterbüchern zum automatischen adresslesen
DE102005032733A1 (de) Indexextraktion von Dokumenten
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
EP2273383A1 (de) Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
WWE Wipo information: entry into national phase

Ref document number: 1998914784

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09381180

Country of ref document: US

ENP Entry into the national phase

Ref country code: JP

Ref document number: 1998 540006

Kind code of ref document: A

Format of ref document f/p: F

WWP Wipo information: published in national office

Ref document number: 1998914784

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 1998914784

Country of ref document: EP