NO330635B1

NO330635B1 - Procedure for extracting relationships between words or characters in textual content

Info

Publication number: NO330635B1
Application number: NO20085235A
Authority: NO
Inventors: Raúl Rentería
Original assignee: Microsoft Int Holdings B V
Priority date: 2008-12-12
Filing date: 2008-12-12
Publication date: 2011-05-30
Also published as: NO20085235L

Description

Oppfinnelsen angår en fremgangsmåte for å utvinne relasjoner mellom ord eller symboler i tekstinnhold, spesielt ved søking og gjenfinning av informasjon i delvis eller helt tekstlige dokumenter, hvor en forekomst av ord og symboler bestemmes å utgjøre elementer av en innholdsstruktur i et dokument, The invention relates to a method for extracting relationships between words or symbols in textual content, especially when searching and retrieving information in partially or fully textual documents, where an occurrence of words and symbols is determined to constitute elements of a content structure in a document,

US 20070124291 A1 beskriver en fremgangsmåte for automatisk ekstraksjon og utforsking av relasjoner og tilhørende entiteter fra ustrukturert tekst. Ekstraksjonen av relasjoner og tilhørende entiteter utføres ved først å automatisk indusere mønstre og dernest ved å anvende disse induserte mønstre på ustrukturerte tekstdata. For hver relasjon og entitet ekstraheres flere trekk for å bygge en graf hvis noder er entiteter og kanter er relasjoner. US 20070124291 A1 describes a method for automatic extraction and exploration of relationships and associated entities from unstructured text. The extraction of relations and associated entities is performed by first automatically inducing patterns and then by applying these induced patterns to unstructured text data. For each relation and entity, several features are extracted to build a graph whose nodes are entities and edges are relations.

Relasjonsutvinning (relasjonsekstraksjon), som prosedyren vanligvis kalles i litteraturen, angår problemet med å relatere navngitte størrelser som f.eks. navnet til personer og navnet til bedrifter eller organisasjoner. Dette kan lett gjøre med strukturerte dokumenter (eller strukturerte databaser), hvor relasjonene kan etableres ved å lenke verdier av forskjellige attributtnavn innenfor ett og samme dokument. Men en relasjon som etableres på denne måte behøver f.eks. ikke i det hele tatt å gjenspeile en syntaktisk relasjon mellom ordene og symbolene som danner elementer av setninger, slik som vanligvis funnet i dokument- og innholdsmagasiner som kan ekstraheres på ekstranett (f.eks. fra WWW) eller intranett. På den annen side kan en meningsfylt relasjon også etableres innenfor bredere strukturer (innhold) i dokumentene, innbefattet dokumentet selv. I en søkekontekst, dvs. hvor et søkespørsmål benyttes på en database og en resultatmengde gjenfinnes som respons på dette søkespørsmål, vil bare en brøkdel av dokumentene som er gjenfunnet i resultatmengden kunne være relevant. Målet på presisjon avhenger naturligvis av den virkelige hensikt og formål med søket. Det bør legges på minne at gjenkall og presisjon i søk er inverse størrelser - et meget høyt antall dokumenter i resultatmengden impliserer en lav presisjon og omvendt. Relation extraction (relation extraction), as the procedure is usually called in the literature, concerns the problem of relating named quantities such as e.g. the name of persons and the name of companies or organisations. This can easily be done with structured documents (or structured databases), where the relationships can be established by linking values of different attribute names within one and the same document. But a relationship that is established in this way needs e.g. not at all to reflect a syntactic relationship between the words and symbols that form elements of sentences, such as is usually found in document and content repositories that can be extracted on extranets (eg from the WWW) or intranets. On the other hand, a meaningful relationship can also be established within broader structures (content) in the documents, including the document itself. In a search context, i.e. where a search query is used on a database and a result set is found in response to this search query, only a fraction of the documents that are found in the result set could be relevant. The aim of precision naturally depends on the real purpose and purpose of the search. It should be remembered that recall and precision in searches are inverse quantities - a very high number of documents in the result set implies a low precision and vice versa.

Gitt dette scenario, vil det å være i stand til å uttrykke mer meningsfylte spørsmål ut i fra et semantisk synspunkt tillate en innsnevring av mengden av dokumenter. Dette kan eksakt oppnås ved å etterspørre relasjoner når det ønskede innhold rommer dem. Når det for eksempel søkes etter en bedrift en person arbeider i, kan det i stedet for å spørre etter denne personens navn søkes etter en tilknytningsrelasjon som bærer denne personens navn. Given this scenario, being able to express more meaningful queries from a semantic point of view would allow a narrowing of the set of documents. This can be exactly achieved by requesting relations when the desired content accommodates them. For example, when searching for a company a person works in, instead of asking for this person's name, a search can be made for a connection relationship that bears this person's name.

Vedrørende sistnevnte, ovenstående omstendighet skal det vises til fig. 1, som viser et eksempel på en setning som uttrykker en personlig tilknytningsrelasjon som involverer et personnavn, navnet på bedriften hvor personen arbeider og yrkestittelen til personen i denne bedriften. Den personlige tilknytningsrelasjon er skissert som et skjema på fig. 2. Oppgaven til den såkalte relasjonsekstraktor er å relatere alle tre markerte størrelser og å angi deres tilsvarende rolle innenfor denne relasjonen. Regarding the latter, the above circumstance, reference should be made to fig. 1, which shows an example of a sentence expressing a personal attachment relationship involving a personal name, the name of the company where the person works and the professional title of the person in this company. The personal attachment relationship is outlined as a diagram in fig. 2. The task of the so-called relation extractor is to relate all three marked quantities and to indicate their corresponding role within this relation.

For å ekstrahere relasjoner benyttes vanligvis fremgangsmåter i kjent teknikk som inndata et segmentert syn av tekstinnholdet eller et trekkbasert syn. Normalt blir hvert ord i teksten identifisert gjennom en symboliseringsprosedyre, f.eks. en segmentering i ord og deretter markering med forskjellige informasjonsbiter som f.eks. angir In order to extract relationships, methods in the known art are usually used as input to a segmented view of the text content or a feature-based view. Normally, each word in the text is identified through a symbolization procedure, e.g. a segmentation in words and then marking with different pieces of information such as indicates

• ordets morfologiske og syntaktiske klasse, også kjent som del av tale eller • the word's morphological and syntactic class, also known as part of speech or

POS BUCKET

• om det er et størrelsesnavn (navnet eller f.eks. en person) • whether it is a size name (the name or e.g. a person)

• om det er en del av et bredere semantisk struktur så som en substantivfrase, en bisetning etc. • whether it is part of a wider semantic structure such as a noun phrase, a subordinate clause etc.

Ideen er her at ethvert tilgjengelig trekk som kan ses et interessant hint med hensyn til oppgaven å ekstrahere relasjoner, kunne benyttes. Vanlige fremgangsmåter i kjent teknikk benytter POS-etiketter, størrelsestypen (hvis ordet f eks. er en del av navnet på en person eller en bedrift) og utdata fra grunne syntaksanalysatorer. En grunn syntaksanalysator er også kjent som en "chunker" The idea here is that any available feature that can be seen as an interesting hint with respect to the task of extracting relations could be used. Common methods in the prior art use POS labels, the size type (if the word is e.g. part of the name of a person or a company) and output from shallow syntax analyzers. A shallow parser is also known as a "chunker"

(noe som deler noe opp i mindre biter), dvs, en syntaksanalysator som identifiserer ikke-overlappende bestanddeler av en utgitt setning så som substantivfraser og verbfraser. (something that breaks something up into smaller pieces), i.e., a syntax analyzer that identifies non-overlapping constituents of an output sentence such as noun phrases and verb phrases.

Basert på denne informasjon benytter fremgangsmåter kjent i teknikken et kombinatorisk trinn sammen med et klassifikasjonstrinn. Normalt blir alle eksisterende par av størrelser beregnet sammen med sine tilsvarende trekk, og deretter vil en klassifikasjonsprosedyre lære en modell å skjelne mellom sanne og falske par, dvs, par som svarer til den eksisterende relasjon mellom størrelser og andre par som ikke gjør det. Noen av disse fremgangsmåter vil som et alternativ til å finne alle mulige par av størrelser benytte en annen granularitet istedenfor å benytte en grunn tilnærmelse som bare betrakter størrelsene. De vil f eks. betrakte rikere strukturer så som syntaktiske trær. Denne type struktur skaffet gjennom en vanlig syntaksanalysator, innbefatter grunntrekkene i en setning som symboler og POS-etiketter (treets blader), og de relateres ved å gruppere dem i grunnbestand-deler, representert som indre noder opp til treets rot på en ordnet måte. Et eksempel her ville være ordene "the man" med tilsvarende POS-etiketter, determinator og substantiv. Tilsammen danner de en substantivfrase. I den forstand blir de to symboler sammen med sine POS-etiketter relatert som en enkelt substantivfrase, dvs, en grunn bestanddel. Deretter benyttes de ovennevnte klassifikasjonsprosedyrer til å danne en modell for å velge de trær som omfatter den eksisterende relasjon. Vanlige tilnærminger til siste trinn innbefatter desisjonstrær og støttevektormaskiner. Disse metoder, benyttet med en veldefinert metrikk, vil muliggjøre en diskriminering mellom syntaktiske trær og følgelig valget av de som inneholder en relasjon. Based on this information, methods known in the art use a combinatorial step together with a classification step. Normally, all existing pairs of magnitudes are computed together with their corresponding features, and then a classification procedure will teach a model to distinguish between true and false pairs, i.e., pairs that correspond to the existing relationship between magnitudes and other pairs that do not. As an alternative to finding all possible pairs of sizes, some of these methods will use a different granularity instead of using a shallow approximation that only considers the sizes. They will e.g. consider richer structures such as syntactic trees. This type of structure, obtained through a common syntax analyzer, includes the basic features of a sentence such as symbols and POS labels (the leaves of the tree), and they are related by grouping them into basic stock parts, represented as internal nodes up to the root of the tree in an ordered manner. An example here would be the words "the man" with corresponding POS labels, determiner and noun. Together they form a noun phrase. In that sense, the two symbols together with their POS labels are related as a single noun phrase, i.e., a basic constituent. The above-mentioned classification procedures are then used to form a model to select the trees that comprise the existing relationship. Common approaches to the last step include decision trees and support vector machines. These methods, used with a well-defined metric, will enable a discrimination between syntactic trees and consequently the selection of those containing a relation.

Imidlertid gjør denne fremgangsmåten modelleringen av en relasjonsekstraktor unødvendig komplisert og tidkrevende. However, this approach makes the modeling of a relation extractor unnecessarily complicated and time-consuming.

Følgelig er det en hovedhensikt med den foreliggende oppfinnelse å redusere modelleringskompleksiteten til en relasjonsekstraktor. Accordingly, it is a main purpose of the present invention to reduce the modeling complexity of a relation extractor.

En annen hensikt med den foreliggende oppfinnelse er å kunne konstruere relasjonsekstraktoren hurtigere. Another purpose of the present invention is to be able to construct the relation extractor more quickly.

De ovennevnte hensikter så vel som ytterligere trekk og fordeler realiseres med en fremgangsmåte for å utvinne relasjoner mellom ord eller symboler i tekstinnhold, spesielt ved søking og gjenfinning av informasjon i delvis eller helt tekstlige dokumenter, hvor en forekomst av ord og symboler bestemmes å utgjøre elementer av en innholdsstruktur i et dokument, innbefattet dokumentet selv, kjennetegnet ved trinn for a) å klassifisere hvert symbol ved å tilordne en spesifikk etikett til denne, idet etikettene velges fra en mengde av etiketter forhåndsbestemt for å angi en potensiell rolle for symbolet i en uidentifisert relasjon, hvor et fortegn tilføyes til hver etikett i mengden av etiketter, idet fortegnet angir i hvilken retning de andre medlemmene av relasjonen vil kunne ventes å opptre med i tekstinnholdet, b) å avbilde de mulige relasjoner mellom de klassifiserte symboler for en gitt relasjonstype, og c) å velge minst en relasjon basert på et tilsvar mellom en avbildet relasjon og en virkelig innholdsstruktur. The above purposes as well as further features and advantages are realized with a method for extracting relationships between words or symbols in textual content, in particular when searching and retrieving information in partially or fully textual documents, where an occurrence of words and symbols is determined to constitute elements of a content structure in a document, including the document itself, characterized by the step of a) classifying each symbol by assigning a specific label to it, the labels being selected from a set of labels predetermined to indicate a potential role for the symbol in an unidentified relation, where a sign is added to each label in the set of labels, the sign indicating the direction in which the other members of the relation can be expected to act in the text content, b) to depict the possible relations between the classified symbols for a given relation type, and c) selecting at least one relation based on a correspondence between a mapped relation and e n real content structure.

Fremgangsmåten i henhold til den foreliggende oppfinnelse vil forstås bedre fra den etterfølgende drøftelse av eksemplariske utførelser med henvisning til den ledsagende tegning, på hvilken The method according to the present invention will be better understood from the subsequent discussion of exemplary embodiments with reference to the accompanying drawing, in which

fig. 1 viser et eksempel på en setning som uttrykker en personlig tilknytningsrelasjon, som ovenfor nevnt, fig. 1 shows an example of a sentence expressing a personal attachment relationship, as mentioned above,

fig. 2 den ekstraherte personlig tilknytningsrelasjon fra fig. 1, som ovenfor nevnt, fig. 2 the extracted personal attachment relation from fig. 1, as mentioned above,

fig. 3 en klassifikasjon av symboler eller ord i setningen vist på fig. 1, fig. 3 a classification of symbols or words in the sentence shown in fig. 1,

fig. 4 et eksempel på en automat for å utføre avbildning av et klassifikasjons-resultat, fig. 4 an example of an automaton for performing imaging of a classification result,

fig. 5 setninger som svarer til avbildningsveiene i automaten på fig. 4, fig. 5 sentences corresponding to the mapping paths in the automaton in fig. 4,

fig. 6 et eksempel på en annen automat for å avbilde en relasjon mellom en person og et sitat, og fig. 6 an example of another automaton for depicting a relationship between a person and a quote, and

fig. 7 et eksempel på setningsstrukturer som uttrykker relasjoner som avbildet av automaten vist på fig. 6. fig. 7 an example of sentence structures expressing relations as depicted by the automaton shown in fig. 6.

Som ovenfor nevnt, kunne meningsfylte relasjoner, dvs. semantiske relasjoner ekstraheres med hvilken som helst identifiserbar innholdsstruktur i et dokument. Slike innholdsstrukturer innbefatter setninger, perioder, avsnitt og kapitler. Den største og bredeste struktur vil være dokumentet selv. As mentioned above, meaningful relations, i.e. semantic relations, could be extracted with any identifiable content structure in a document. Such content structures include sentences, periods, paragraphs and chapters. The largest and widest structure will be the document itself.

En utførelse av fremgangsmåten i henhold til den foreliggende oppfinnelse skal nå gis og viser hvordan en ekstraktar for personlig tilknytningsrelasjon konstrueres med setninger som vist i den ovennevnte fig. 1 som eksempel. Imidlertid skal det naturligvis forstås at eksemplifiseringen av oppfinnelsen med setninger som den valgte innholdsstruktur på ingen måte skal være begrensende. An embodiment of the method according to the present invention will now be given and shows how an extractor for personal attachment relation is constructed with sentences as shown in the above-mentioned fig. 1 as an example. However, it should of course be understood that the exemplification of the invention with sentences such as the chosen content structure shall in no way be limiting.

Fig. 3 viser resultatet som fås etter det første klassifikasjonstrinn for en relasjonsekstraktor for en persontilknytning. Her er det samme eksempel fra fig. 1 skrevet i den venstre spalte og til høyre er klassifikasjonen av hvert symbol eller ord vist, med bruk av forhåndsdefinerte "etiketter". Det ses at "John" er etikettert som en person ( person+), "research director" som yrkestittel ( Jobtitle-) og "Cinnamon" som en bedrift ( company-). Det skal bemerkes at det er en forskjell mellom en regulær størrelsesekstraktor som kjent i teknikken og som utfører den samme type klassifikasjon, og klassifikasjonen basert på fremgangsmåten i henhold til den foreliggende oppfinnelse ved at den sistnevnte benytter fortegnet pluss (+) og minus (-). Formålet med fortegnene er å angi hvilken retning eller orientering de andre medlemmene av relasjonen vil kunne ventes å opptre med i tekstinnholdet. I det foreliggende tilfellet angir plusstegnet på person-etiketten at andre medlemmer av relasjonen (yrkestittel og bedriftsnavn) skulle forventes foran, dvs, på etterfølgende symboler. Minustegnet på yobf/f/e-etiketten angir at den tilsvarende person skulle forventes på forutgående symboler, og det samme gjelder minustegnet på company-etiketten. Fig. 3 shows the result obtained after the first classification step for a relation extractor for a person connection. Here is the same example from fig. 1 written in the left column and on the right the classification of each symbol or word is shown, using predefined "labels". It can be seen that "John" is labeled as a person ( person+), "research director" as a job title ( Jobtitle-) and "Cinnamon" as a company ( company-). It should be noted that there is a difference between a regular size extractor known in the art and which performs the same type of classification, and the classification based on the method according to the present invention in that the latter uses the sign plus (+) and minus (-) . The purpose of the signs is to indicate which direction or orientation the other members of the relationship can be expected to act with in the text content. In the present case, the plus sign on the person label indicates that other members of the relation (job title and company name) should be expected before, ie, on subsequent symbols. The minus sign on the yobf/f/e label indicates that the corresponding person should be expected on preceding symbols, as does the minus sign on the company label.

Etter å ha utført klassifikasjonen benyttes et avbildningstrinn for resultatet. Utdataene fra avbildningstrinnet vil være en 3-tuppel som angir medlemmene av relasjonen (John, research director, Cinnamon). For å utføre avbildningen blir en automat som også verifiserer at sekvensen tilhører et gitt språk, benyttet på relasjonstypen som skal ekstraheres. Som innlysende for fagfolk kan automater være lagret i et bibliotek som en mengde av forhåndsberegnede regulære uttrykk og gjenfinnes for en spesifikk applikasjon. Et antall forskjellige automata kan stå til rådighet. I det foreliggende tilfelle benyttes en automatutførelse for den personlige tilknytningsrelasjon og trigger alle tillatte sekvenser av klassifikasjonsetiketter. For å illustrere dette viser fig. 4 forskjellige avbildede veier for den personlige tilknyt-ningsautomaten. Fra topp til bunn vil de fire veiene i automaten gjenkjenne en relasjon angitt i de setninger som henholdsvis er vist på fig. 5. Det skal bemerkes at pereon-etiketten på nederste vei på fig. 4 rommer både et plusstegn og et minustegn. Dette betyr at andre medlemmer av relasjonen skal forventes før og etter navnet på denne personen som eksemplifisert av nederste setning på fig. 5. After performing the classification, a mapping step is used for the result. The output of the mapping step will be a 3-tuple indicating the members of the relation (John, research director, Cinnamon). To perform the mapping, an automaton that also verifies that the sequence belongs to a given language is used on the relation type to be extracted. As will be apparent to those skilled in the art, automata may be stored in a library as a set of precomputed regular expressions and retrieved for a specific application. A number of different machines may be available. In the present case, an automaton implementation is used for the personal association relation and triggers all allowed sequences of classification labels. To illustrate this, fig. 4 different depicted paths for the personal connection machine. From top to bottom, the four paths in the automaton will recognize a relation indicated in the sentences which are respectively shown in fig. 5. It should be noted that the pereon label on the bottom road in fig. 4 accommodates both a plus sign and a minus sign. This means that other members of the relation should be expected before and after the name of this person as exemplified by the bottom sentence in fig. 5.

Fordelen til fremgangsmåten i henhold til den foreliggende oppfinnelse baserer seg på å avkoble det symbolbaserte klassifikasjonstrinn fra det relasjons-avbildende trinn og benytter en deterministisk, tilbakevendende metode for den sistnevnte. Denne avkoblingen muliggjør en identifikasjon av grupper av felles avbildninger og genererer mønsteret for disse, med to innlysende fordeler • Letter modelleringsoppgaven for andre relasjonsekstraktorer, da avbildningsmønsteret for eksempel sannsynligvis allerede vil foreligge i et bibliotek. På denne måte kan den som frembringer ekstraktoren bare behøve å konsentrere sin innsats om det vanskelige trinnet som er symbolklassifikasjonen. • Gjør det meste av konstruksjonsfasen for relasjonsekstraktoren raskere, da i mange tilfeller vil relasjonsavbildningsmønstrene allerede være tilgjengelige og med alle fordeler ved gjenbruk av kode, noe som innebærer en reduksjon av kostnader ved å unngå omkoding av funksjonaliteten som allerede foreligger i et eksisterende mønster. The advantage of the method according to the present invention is based on decoupling the symbol-based classification step from the relation-mapping step and uses a deterministic, recurrent method for the latter. This decoupling enables the identification of groups of common mappings and generates the pattern for these, with two obvious advantages • Eases the modeling task for other relation extractors, as the mapping pattern will probably already exist in a library, for example. In this way, the creator of the extractor may only need to concentrate his efforts on the difficult step of symbol classification. • Makes most of the construction phase of the relation extractor faster, as in many cases the relation mapping patterns will already be available and with all the benefits of code reuse, which means a reduction of costs by avoiding recoding the functionality already present in an existing pattern.

For eksempel kunne en ekstraktar for relasjonen mellom en leder, en underordnet og den sistnevntes jobb (med bruk av størrelsene person, yrkestittel og person) benytte den samme type avbildning som benyttet for den personlige tilknytningsrelasjon ved bare å døpe om etikettene til automaten. Grunnen til dette er at begge er ternære relasjoner og således i de fleste tilfeller deler de samme strukturer. Dette vil også være tilfellet med en relasjon som involverer person, fødselsdato og sted. For example, an extractor for the relationship between a manager, a subordinate and the latter's job (using the dimensions person, job title and person) could use the same type of mapping as used for the personal attachment relationship by simply renaming the labels of the automaton. The reason for this is that both are ternary relations and thus in most cases share the same structures. This will also be the case with a relationship involving person, date of birth and place.

For ytterligere å illustrere fordelen til den foreliggende oppfinnelse skal det betraktes en annen type relasjon så som et personlig sitat. I dette tilfelle vil en ekstraktar som benytter en avbildningsautomat som vist på fig. 6, relatere en persons navn til dets sitater som vist på fig. 7. Denne samme type mønster som involverer to størrelser, en person og minst et sitat (quotation) som i eksemplene på figurene 6 og 7, kunne benyttes for andre relasjoner som ikke nødvendigvis involverer personer og sitater, men som viser den samme oppførsel med hensyn til relasjonstypen mellom deres størrelser. For eksempel: • En gruve og de mineraler som forekommer der, slik som i setningen "Cinnamon gold has released its trial drill results for the gold mining project in Norway". • En bedrift og dets produkter slik som i setningen : "Cinnamon Corp. just released its two new products, Good Morning Cereal and Good Night Soup". To further illustrate the advantage of the present invention, consider another type of relationship such as a personal quote. In this case, an extractor using an imaging machine as shown in fig. 6, relate a person's name to its citations as shown in fig. 7. This same type of pattern involving two quantities, a person and at least one quotation (quotation) as in the examples in figures 6 and 7, could be used for other relations which do not necessarily involve persons and quotations, but which show the same behavior with respect to the type of relationship between their sizes. For example: • A mine and the minerals that occur there, as in the sentence "Cinnamon gold has released its trial drill results for the gold mining project in Norway". • A company and its products such as in the sentence : "Cinnamon Corp. just released its two new products, Good Morning Cereal and Good Night Soup".

Igjen er grunnen til gjenbruken 'en-til-mange-arten' av disse binære relasjoner. Again, the reason for the reuse is the 'one-to-many nature' of these binary relationships.

Relasjonsekstraktoren som skaffes av fremgangsåten i henhold til den foreliggende oppfinnelse skal tjene til å automatisere den velkjente prosedyre for innholdsanalyse av tekstdokumenter. Som fagfolk vil vite, kan dokumentene også inneholde annen informasjon eller andre innholdstyper enn tekst, f eks. audio eller bilder. Det er innlysende at hvis audioinnholdet omfatter informasjon som kan transkriberes som tekst, kan den analyseres på en tilsvarende måte. The relation extractor provided by the method according to the present invention shall serve to automate the well-known procedure for content analysis of text documents. As professionals will know, the documents may also contain other information or content types other than text, e.g. audio or images. It is obvious that if the audio content includes information that can be transcribed as text, it can be analyzed in a similar way.

Fremgangsmåten i henhold til den foreliggende oppfinnelse er spesielt relevant for bruk i avanserte søkemotorer hvor informasjonssøk og -gjenfinning finner sted ved å benytte et brukerspørsmål på en indeks for dokumenter lagret i innholds- eller dokumentmagasiner. I en konvensjonell metode for søking og gjenfinning blir dokumentene gjenfunnet på basis av spørsmålsstikkord, og de gjenfunne dokumentene, dvs. resultatmengden av søket, kan ha varierende relevans eller kanskje ikke noen relevans i det hele tatt. For å forbedre relevansen til de gjenfunne dokumenter blir de forskjellige prosedyrer benyttet til å plassere eller lokalisere spørsmålstermer med en meningsfylt kontekst i de gjenfunne dokumenter og med bruk av parametre for deres fysiske sted, innbefattet nærhet. Mer avanserte metoder for å ekstrahere kontekstuell mening ville være å identifisere forekomsten av spørsmålstermer innenfor setningsstrukturen rommet i dokumentet og etablere deres syntaktiske relasjon eller forekomst i fraser ved hjelp av syntaksanalysatorer. For dette formål kan en relasjonsekstraktor benyttes på gjenfunne relevante dokumenter i resultatmengden for å identifisere og bestemme relasjoner uttrykt i setnings- og frasestrukturer i disse. Den identifiserte relasjon kan videre benyttes i forskjellige prosedyrer for å klassifisere, analysere, rangere og tabulere informasjonen i de gjenfunne, relevante dokumenter. Slike prosedyrer ligger naturligvis utenfor rammen for den foreliggende oppfinnelse, men vil være velkjente for fagfolk. The method according to the present invention is particularly relevant for use in advanced search engines where information search and retrieval takes place by using a user query on an index for documents stored in content or document magazines. In a conventional method of search and retrieval, the documents are retrieved on the basis of query keywords, and the retrieved documents, i.e. the result set of the search, may have varying relevance or perhaps no relevance at all. In order to improve the relevance of the recovered documents, the various procedures are used to place or locate query terms with a meaningful context in the recovered documents and with the use of parameters for their physical location, including proximity. More advanced methods of extracting contextual meaning would be to identify the occurrence of question terms within the sentence structure space of the document and establish their syntactic relation or occurrence in phrases using syntax analyzers. For this purpose, a relation extractor can be used on recovered relevant documents in the result set to identify and determine relations expressed in sentence and phrase structures therein. The identified relationship can further be used in various procedures to classify, analyse, rank and tabulate the information in the recovered, relevant documents. Such procedures are naturally outside the scope of the present invention, but will be well known to those skilled in the art.

Fremgangsmåten i henhold til den foreliggende oppfinnelse angår bare tre-elementsrelasjoner som i tilfellet med de eksemplifiserende utførelser drøftet ovenfor eller binære relasjoner, men kunne benyttes til å ekstrahere relasjoner av hvilken som helst rang på nivået for tekstinnhold, så som f eks. setninger, gitt at tekststrukturen er tilstrekkelig velordnet. Om det var tilfellet, behøver ikke relasjoner bare å ekstraheres for f.eks. personlige sitater, hvor et sitat i seg selv kan være en setning, men også for mere komplekse setningsstrukturer så som nøstede setningsstrukturer eller setninger som inneholder forskjellige frasetyper. The method according to the present invention only concerns three-element relations as in the case of the exemplifying embodiments discussed above or binary relations, but could be used to extract relations of any rank at the level of textual content, such as e.g. sentences, given that the text structure is sufficiently well-ordered. If that were the case, relations need not only be extracted for e.g. personal quotes, where a quote itself can be a sentence, but also for more complex sentence structures such as tangled sentence structures or sentences containing different phrase types.

Imidlertid er fremgangsmåten i henhold til den foreliggende oppfinnelse som ovenfor nevnt, ikke begrenset til relasjoner innenfor setninger, men kunne anvendes på meget bredere innholdsstrukturer. Dette impliserer at relasjoner kunne ekstraheres fra en hvilken som helst identifiserbar innholdsstruktur i et dokument, og i realiteten innbefatte dokumentet selv. Et eksempel ville være avbildningen utført av automaten på fig. 6, som relaterer en persons navn til dets sitater, hvorav eksempler er vist på fig. 7. Et annet typisk tilfelle ville være tekstinnhold i form av en artikkel, f. eks. i en avis. En persons navn kan forekomme i den vedføyde tittel eller helt ved begynnelsen av artikkelen, f eks. et første avsnitt, og mye senere i den samme artikkel relateres samme person til et sitat i en setningsstruktur, som f.eks. i det annet eksempel på fig. 7. Som fagfolk lett vil kunne forstå, etablerer relasjoner utledet fra brede innholdsstrukturer en type semantisk metastruktur for dokumentet. Tas hele dokumentet som den (bredeste) innholdsstruktur, ville denne metastruktur være "full" eller "komplett". For eksempel kunne alle relasjoner som involverte "John" utledet fra hvilket som helst strukturelt nivå i dokumentet, i seg selv danne en innholdsstruktur som omfatter all meningsfylt informasjon om "John" i dette dokumentet. Genereringen av en innholdsstruktur av denne art ville utgjøre en datagravingsoperasjon etter navnet "John" i hvilken som helst mulig kontekst i dokumentet, da informasjonen utledes fra hvilken som helst identifiserbar innholdsstruktur i dokumentet og på hvilket som helst nivå i dette. However, the method according to the present invention, as mentioned above, is not limited to relationships within sentences, but could be applied to much broader content structures. This implies that relations could be extracted from any identifiable content structure in a document, and in effect include the document itself. An example would be the mapping performed by the automaton in fig. 6, which relates a person's name to its citations, examples of which are shown in fig. 7. Another typical case would be textual content in the form of an article, e.g. in a newspaper. A person's name can appear in the attached title or at the very beginning of the article, e.g. a first paragraph, and much later in the same article, the same person is related to a quote in a sentence structure, such as in the second example of fig. 7. As professionals will readily appreciate, relationships derived from broad content structures establish a type of semantic metastructure for the document. Taking the entire document as the (broadest) content structure, this metastructure would be "full" or "complete". For example, all relationships involving "John" derived from any structural level in the document could themselves form a content structure that includes all meaningful information about "John" in that document. The generation of a content structure of this nature would constitute a data mining operation for the name "John" in any possible context of the document, as the information is derived from any identifiable content structure of the document and at any level thereof.

Claims

1. Procedure for extracting relationships between words or symbols in textual content, especially when searching and retrieving information in partially or fully textual documents, where an occurrence of words and symbols is determined to constitute elements of a content structure in a document, including the document itself, characterized in that the method comprises the steps of a) classifying each symbol by assigning a specific label to it, the labels being selected from a set of labels predetermined to indicate a potential role for the symbol in an unidentified relation, where a sign is added to each label in the set of labels, with the sign indicating the direction in which the other members of the relation can be expected to act in the textual content, b) to depict possible relations between the classified symbols for a given relation type, and c) to select at least one relation based on a correspondence between a depicted relation and a real content structure.

2. Procedure according to claim 1, characterized by performing the mapping using a relation-specific automaton.

3. Procedure according to claim 2, characterized by rearranging the signs added to the labels depending on a real depicted relation.

4. Procedure according to claim 1, characterized by selecting a content structure for relation extraction as one among at least a sentence, a period, a paragraph of the document or the document itself.