SE517496C2

SE517496C2 - Metod och system för informationsextrahering

Info

Publication number: SE517496C2
Application number: SE0002368A
Authority: SE
Inventors: Eva Ingegerd Ejerhed; Peter A Braroe
Original assignee: Hapax Information Systems Ab
Priority date: 2000-06-22
Filing date: 2000-06-22
Publication date: 2002-06-11
Also published as: US20050131886A1; AU2001266481A1; EP1311983A1; US6842730B1; WO2001098946A1; US7657425B2; SE0002368L; US20070168181A1; SE0002368D0; US7194406B2

Description

517 496 2 svårare för användaren att hitta de mest relevanta dokumenten.

Ett informationsàtervinningssystems prestanda mäts normalt i termer av dess träffmängd ("recall") och dess precision. I informationsåtervinning har den tekniska termen träffmängd en standarddefinition som kvoten mellan antalet relevanta dokument som àtervinns för ett givet sökuttryck och det totala antalet relevanta dokument för det sökuttrycket. Således mäter träffmängd hur uttömmande sökresultaten är. Vidare har den tekniska termen precision, i informationsåtervinning, en standarddefinition som kvoten mellan antalet relevanta dokument som àtervinns för ett givet sökuttryck och det totala antalet återvunna dokument. Således mäter precision sökresultatens kvalitet. På grund av den stora mängd dokument som àtervinns när ovanstående typer av sökmetoder används har det insetts inom området att det finns ett behov av att minska antalet återvunna dokument till de mest relevanta. Med andra ord blir träffmängden mindre viktig och precisionen viktigare när antalet dokument i textkorpusen ökar. Således har leverantörer av system för informationsåtervinning förbättrat Boolesk sökning genom användning av metrik för rangordning med avseende på relevans baserad på statistiska metoder. Det är emellertid välkänt inom området att sålunda högt rangordnade dokument fortfarande innefattar irrelevanta dokument. Detta beror på att matchningen är för grov och att den inte tar hänsyn till den kontext i vilken de matchande orden förekommer. För att hitta dokumenten som är relevanta med avseende på ett användarsökuttryck finns det ett behov av att informationsàtervinningssystemet på något sätt förstår innebörden av det på naturligt språk avfattade sökuttrycket och av den på naturligt språk avfattade textkorpusen från vilken informationen skall extraheras.

Det finns förslag inom området på hur man kan skapa ett informationsåtervinningssystem som hittar dokument i 10 15 20 25 30 35 vann n n g o coon n 517 496 3 en på naturligt språk avfattad textkorpus vilka matchar ett på naturligt språk avfattat sökuttryck med avseende på sökuttryckets semantiska innebörd.

Vissa av dessa förslag hänför sig till system som har utökats med specifik världskunskap inom en given domän. Sådana system baseras på en omfattande databas med världskunskap inom ett enda område. Skapande och upprätthållande av sådana databaser med världskunskap är en välkänd flaskhals i kunskapsteknik. Vidare är skalbarheten hos sådana databaser dålig och en databas inom en domän kan inte överföras till ett annat område.

Således skulle det inte vara genomförbart att utöka ett sådant system till en generell applikation för att hitta information i fri text, vilken skulle kunna hänföra sig till en godtycklig domän.

Andra förslag baseras på underliggande språkliga nivåer för representation av semantik. I dessa förslag utförs, istället för att ordagrann matchning av ett eller flera nyckelord används, en semantisk analys av den på naturligt språk avfattade textkorpusen och det på naturligt språk avfattade sökuttrycket och dokument returneras som matchar sökuttryckets semantiska innehåll.

Att skapa en semantisk representation på djup nivå av väldigt stora, på naturligt språk avfattade textkorpusar är en komplex och krävande uppgift. Detta beror på en flernivårepresentation av texten, olika analysverktyg för olika nivåer och fortplantning av fel från en nivå till en annan. Eftersom representationer på olika nivåer är oberoende av varandra och av anledningar som ges ovan kommer de resulterande analyserna att vara bräckliga och ofta orsaka fel.

Sammanfattning av uppfinningen Ett mål med föreliggande uppfinning är att åstadkomma ett förbättrat förfarande, och ett motsvarande system, för extrahering av information från en på naturligt språk avfattad textkorpus, vilket inte är 10 15 20 25 30 35 4 föremål för ovannämnda nackdelar hos existerande förfaranden för dessa uppgifter. Detta syfte åstadkoms genom ett förfarande och ett system enligt de bifogade patentkraven.

Föreliggande uppfinning är baserad på erkännandet av att det finns ett nära samband 1) mellan de syntaktiska relationerna mellan konstituenter i enkla satser ("clauses") och meningar i en på naturligt språk avfattad textkorpus och de semantiska relationerna mellan dem och 2) mellan löpord inom konstituenter och de strukturella och semantiska relationerna mellan dem. Mer specifikt baseras föreliggande uppfinning på att dessa syntaktisk- semantiska förhållanden kan användas när ett på naturligt språk avfattat sökuttryck matchas med en pà naturligt språk avfattad textkorpus för att hitta textpartier i den på naturligt språk avfattade textkorpusen som har samma innebörd som det på naturligt språk avfattade sökuttrycket.

Enligt en aspekt av uppfinningen tillhandahålls ett förfarande för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck. I förfarandet analyseras den på naturligt språk avfattade textkorpusen med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller, och den analyserade på naturligt språk avfattade textkorpusen indexeras och lagras. Vidare analyseras ett på naturligt språk avfattat sökuttryck med avseende pà löpords ytliga struktur och konstituenters ytliga syntaktiska roller.

Från det analyserade på naturligt språk avfattade sökuttrycket skapas sedan en eller fler ytliga varianter, där dessa ytliga varianter är ekvivalenta med det på naturligt språk avfattade sökuttrycket med avseende på 1) löpords lexikala innebörd och 2) konstituenters ytliga syntaktiska roller. De ytliga varianterna jämförs sedan med den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen och varje textparti som 10 15 20 25 30 35 0 ~ nu coon- 0 n ouuuuo innefattar en löpordsträng som matchar en av nämnda ytliga varianter eller nämnda på naturligt språk avfattade sökuttryck extraheras från den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen.

I "löpords ytliga struktur" och "konstituenters ytliga syntaktiska roller" indikerar termen "ytliga" att löporden och konstituenterna betraktas som de står och i den ordning som de står i texten, och termen "konstituenter" syftar på textens grundläggande beståndsdelar, såsom löpord, fraser etc. En viktig egenskap hos dessa särdrag är att de kan hittas genom användning av en ennivàanalys, t ex med användning av ytlig textanalys ("shallow parsing"). Exempelvis består konstituenter alltid av intilliggande löpord i texten.

Genom analys av det på naturligt språk avfattade sökuttrycket med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller är det möjligt att skapa ytliga varianter av det analyserade på naturligt språk avfattade sökuttrycket, vilka bibehåller löpords lexikala innebörd och konsituenters ytliga syntaktiska roller. Dessa varianter bildar tillsammans med det på naturligt språk avfattade sökuttrycket en uppsättning alternativa sätt att uttrycka samma innebörd som det ursprungliga, på naturligt språk avfattade sökuttrycket. Skapandet av varianter utnyttjar det faktum att konstituenters ytliga syntaktiska roller tillsammans med löpords lexikala innebörd är nära förbundna med innebörden av en på naturligt språk avfattad textenhet, såsom en mening, fras eller enkel sats. Varianterna som har skapats jämförs sedan med en indexerad och lagrad, analyserad textkorpus, där den på naturligt språk avfattade textkorpusen har analyserats på samma sätt som det på naturligt språk avfattade sökuttrycket. Eftersom inte endast det på naturligt språk avfattade sökuttrycket jämförs utan även alla varianter, kommer antalet matchningar att ökas i jämförelse med om matchningen vore 10 15 20 25 30 35 S17 496 ' 6 ordagrann. Tack vare att löpords lexikala innebörd och konstituenters ytliga syntaktiska roller bevaras i varianterna av det på naturligt språk avfattade sökuttrycket, säkerställs emellertid att matchningarna i den på naturligt språk avfattade textkorpusen har samma innebörd som det på naturligt språk avfattade sökuttrycket.

En fördel med uppfinningen är att den, i motsats till kända metoder som använder flernivàanalyser, använder en ennivàanalys av den på naturligt språk avfattade textkorpusen och det på naturligt språk avfattade sökuttrycket vilket gör uppfinningen snabbare och mer tillförlitlig. Samtidigt är dess precision hög och mängden återvunnen information är hanterbar. Vidare gör skapandet av varianter det möjligt att minimera mängden arbete som utförs under jämförelsen av det på naturligt språk avfattade sökuttrycket med den på naturligt språk avfattade textkorpusen. Analysen av den på naturligt språk avfattade textkorpusen kan göras i förväg och kan lagras i ett index. Detta begränsar analysen som skall göras i realtid till analysen av det på naturligt språk avfattade sökuttrycket. Således är metoden enligt uppfinningen avsevärt snabbare än de kända metoderna som använder lingvistisk analys.

I en utföringsform av uppfinningen är de ytliga syntaktiska roller hos konstituenter rollerna huvudord och bestämning, och satsdelar. Genom bibehållande av dessa roller när ytliga varianter av det på naturligt språk avfattade sökuttrycket skapas kommer de ytliga varianterna att uttrycka samma sak som det på naturligt språk avfattade sökuttrycket.

I en annan utföringsform av uppfinningen matchar en löpordsträng i nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus en av de ytliga varianterna eller det på naturligt språk avfattade sökuttrycket om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och det lexikala 10 15 20 25 30 35 517 496 ø ø o | | o . :nu v. 7 huvudverbet i nämnda en av de ytliga varianterna eller det analyserade pà naturligt spràk avfattade sökuttrycket. Pá detta sätt blir matchningen okomplicerad och förfarandet blir sàledes snabbare. Det skall märkas att antalet varianter som skapas kan minskas om matchningen samtidigt relaxeras. Det föreligger emellertid alltid en kompromiss mellan tiden för analysen som mäste göras under matchning och tiden för matchning av ett antal varianter.

I en föredragen utföringsform innefattar analysen av den pá naturligt språk avfattade textkorpusen stegen att fastställa en morfo-syntaktisk beskrivning för varje löpord, att lokalisera fraser, att fastställa en frastyp för var och en av fraserna och att lokalisera enkla satser. Vidare tillhandahålls en entydig identifierare av löpordsposition för varje löpord i nämnda pà naturligt språk avfattade textkorpus, och information avseende varje löpords position, varje fras av varje typ och varje enkel sats i nämnda pà naturligt språk avfattade textkorpus lagras, baserad pà nämnda entydiga identifierare av löpordsposition. Informationen avseende ett löpords position är företrädesvis en ordtyp som är associerad med löpordet och dess entydiga identifierare av löpordsposition logiskt länkad till den lagrade, associerade ordtypen. På detta sätt lagras varje ordtyp endast en gäng istället för att varje löpord hos den på naturligt språk avfattade textkorpusen lagras. Detta är speciellt fördelaktigt i fall dà den pà naturligt språk avfattade textkorpusen är stor. Vidare är informationen avseende en fras position företrädesvis frastypen och en entydig identifierare av frasposition som är logiskt länkad till den lagrade frastypen, varvid den entydiga identifieraren av frasposition identifierar löporden som frasen spänner över. Informationen avseende en enkel sats position är företrädesvis en entydig positionsidentifierare för en enkel sats, vilken identifierare identifierar löporden och fraserna som den 10 15 20 25 30 35 517 496 ' so: v' 8 enkla satsen spänner över. På samma sätt lagras företrädesvis identifierare för meningar, stycken och dokument som är belägna i den på naturligt språk avfattade textkorpusen. I denna utföringsform förenklas matchningen avsevärt eftersom ett löpord i ett på naturligt språk avfattat sökuttryck kan matchas med ett löpord i den på naturligt språk avfattade textkorpusen genom att ordtypen för löpordet hittas och att de lagrade identifierarna av löpord som är associerade med denna ordtyp extraheras direkt. Vidare används sedan frastypen för löpordet i det på naturligt språk avfattade sökuttrycket för att man skall se om något av de matchande löporden i den på naturligt språk avfattade textkorpusen är inkluderad i en fras av samma typ. Detta görs enkelt eftersom de lagrade, entydiga identifierarna av fraspositions, som är associerade med denna frastyp, identifierar löporden som varje fras spänner över.

Vidare är, i ytterligare en utföringsform, det textparti som extraheras antingen den matchande löpordsträngen, en enkel sats som innefattar den matchande löpordsträngen, en mening som innefattar den matchande löpordsträngen, ett stycke som innefattar den matchande löpordsträngen eller ett dokument som innefattar den matchande löpordsträngen. Denna utföringsform möjliggör extrahering av andra textpartier än hela dokument där en matchande sträng hittas. Detta är en avsevärd förenkling för en användare eftersom mängden erforderlig manuell efteranalys i form av genomsökning av de extraherade dokumenten i syfte att hitta informationen av intresse, kan minimeras. Tillsammans med den föredragna utföringsformen ovan kan de olika textpartierna lätt hittas beroende på det sätt som den på naturligt språk avfattade textkorpusen har indexerats och lagrats.

Enligt en andra aspekt av uppfinningen tillhandahålls ett system för extrahering av information från en på naturligt språk avfattad textkorpus baserat pà 10 15 20 25 30 35 517 496 9 ett på naturligt språk avfattat sökuttryck. Systemet innefattar en textanalysenhet för analys av en på naturligt språk avfattad textkorpus och ett på naturligt språk avfattat sökuttryck med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller.

Till analysenheten är lagringsorgan för lagring av den analyserade textkorpusen funktionellt kopplade till nämnda textanalysenhet. Vidare innefattar systemet en indexerare, som är operativt kopplad till lagringsorganen, för indexering av den analyserade på naturligt språk avfattade textkorpusen och ett index, som är funktionellt kopplat till indexeraren, för lagring av nämnda indexerade, analyserade på naturligt språk avfattade textkorpus. Systemet innefattar även en sökuttryckshanteringsenhet, som är funktionellt kopplad till textanalysenheten, innefattande organ för skapande av ytliga varianter av det på naturligt språk avfattade sökuttrycket, vilka varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, och organ för jämförelse av nämnda ytliga varianter och det analyserade på naturligt språk avfattade sökuttrycket med den analyserade på naturligt språk avfattade textkorpusen i nämnda index. Slutligen innefattar systemet en resultathanteringsenhet, som är funktionellt kopplad till indexet, för extrahering från den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen av varje textparti som innefattar en löpordsträng som matchar någon av de ytliga varianterna eller det analyserade på naturligt språk avfattade sökuttrycket.

Således kan, genom identifiering av att det finns mer information avseende en på naturligt språk avfattad texts innebörd inneboende i de ytliga strukturella och semantiska relationerna mellan konstituenter och löpord hos den på naturligt språk avfattade texten, och genom användning av en utökning av ett på naturligt språk 10 15 20 25 30 35 517 496 10 avfattat sökuttryck till ytliga varianter som bibehåller löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det ursprungliga, på naturligt språk avfattade sökuttrycket, ett förbättrat förfarande för informationsextrahering åstadkommas som är snabbt, tillförlitligt och som har en hög precision.

Kort beskrivning av ritningarna I det följande åskådliggörs föreliggande uppfinning genom exempel, och inte som en begränsning, med hänvisning till de åtföljande ritningarna, på vilka: figur 1 är ett flödesschema över ett förfarande enligt uppfinningen; figur 2 är ett exempel på ett på naturligt språk avfattat sökuttryck och dess konstituenter; figur 3A-C är exempel på det på naturligt språk avfattade sökuttrycket i figur 2 och ytliga varianter av denna; och figur 4 är ett schematiskt diagram över ett system enligt uppfinningen.

Beskrivning av föredragna utföringsformer Figur 1 är ett flödesschema över ett förfarande enligt uppfinningen. I förfarandet extraheras information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck. Ett exempel på en på naturligt språk avfattad textkorpus är en delmängd av den information som återfinns i webbservrar på Internet. För att man skall kunna använda lingvistiska egenskaper hos textkorpusen för matchning av ett på naturligt språk avfattat sökuttryck mot den på naturligt språk avfattade textkorpusen, analyseras den på naturligt språk avfattade textkorpusen, i steget 102, med avseende på löpordens ytliga struktur och konstituenternas ytliga syntaktiska roller hos den på naturligt språk avfattade textkorpusen. Detta görs för bestämning av en morfo- syntaktisk beskrivning för varje löpord, lokalisering av 10 l5 20 25 30 35 517 496 ll fraser, fastställande av frastyper för var och en av fraserna och lokalisering av enkla satser. Den morfo- syntaktiska beskrivningen innefattar en ordklass och en böjningsform, och frastyperna innefattar subjektnominalfraser, objektnominalfraser, andra nominalfraser och prepositionsfraser. En enkel sats kan definieras som en informationsenhet som i stort sett motsvarar ett enkelt påstående eller faktum. Ett exempel pà en analyserad enkel sats kommer att beskrivas nedan med hänvisning till figur 2.

Efter det att den på naturligt språk avfattade textkorpusen har analyserats, indexeras och lagras den i steget 104 i figur 1. I detta steg numreras mellanslag mellan varje löpord i följd, varvid varje löpords position definieras entydigt av numren på de mellanslag som det är beläget mellan i den på naturligt språk avfattade textkorpusen. Dessa två nummer bildar en entydig identifierare av löpordsposition. Ett alternativt numreringsschema där varje löpord numreras i följd ligger också inom uppfinningens ramar. Eftersom varje löpord är associerat med en ordtyp räcker det att man lagrar den på naturligt språk avfattade textkorpusens alla ordtyper och att man sedan, för var och en av de lagrade ordtyperna, lagrar identifieraren av löpordsposition för varje löpord som är associerat med denna ordtyp. Vidare definieras en fras position entydigt av numret på mellanrummet som kommer före frasens första löpord och numret på mellanrummet som kommer efter frasens sista löpord. Dessa två nummer bildar en identifierare av frasposition.

Således lagras varje frastyp och identifieraren av fraspositions för varje fras av denna typ lagras. Märk att det, beroende pà det sätt som identifieraren av frasposition definieras, är enkelt att ta reda på huruvida ett löpord är av en viss typ genom att fastställa huruvida identifieraren av löpordsposition ligger inom en fras av denna typ. En enkel sats position definieras entydigt av numret på mellanslaget som kommer 000! I o lO 15 20 25 30 35 . g :nu o '°'p.vuø .nu vu 517 496 12 före den enkla satsens första löpord och numret på mellanrummet som kommer efter den enkla satsens sista löpord. Dessa två nummer bildar en positionsidentifierare för en enkel sats. Var och en av positionsidentifierarna för en enkel sats lagras. En positionsidentifierare för en mening, ett stycke och ett dokument bildas på ett ekvivalent sätt och var och en av dem lagras. Efter steget 104 analyseras ett på naturligt språk avfattat sökuttryck, i steget 106, på samma sätt som den på naturligt språk avfattade textkorpusen analyserades i steget 102.

I steget 108 i figur 1 skapas ett antal ytliga varianter av det analyserade pà naturligt språk avfattade sökuttrycket. De ytliga varianterna skapas på ett sådant sätt att löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket bevaras. Med andra ord kan varje löpord hos det pà naturligt språk avfattade sökuttrycket ersättas av en eller flera löpord som har samma lexikala innebörd och kan löporden omordnas så länge som varje konstituent hos en variant har en ytlig, syntaktisk roll som är ekvivalent med motsvarande konstituent i det på naturligt språk avfattade sökuttrycket. En ytlig, syntaktisk roll är exempelvis, huvudord, bestämning, subjektnominalfras, objektnominalfras, etc. Ett exempel på ett antal varianter av ett sökuttryck kommer att beskrivas nedan med hänvisning till figur 3A-C.

När de ytliga varianterna har skapats, jämförs de och det på naturligt språk avfattade sökuttrycket, i steget 110 i figur 1, med på naturligt språk avfattad textkorpus. Vid jämförelsen jämförs ett löpord i en ytlig variant med de lagrade ordtyperna hos den på naturligt språk avfattade textkorpusen och identifierare av löpordsposition hos löporden av samma ordtyp som löpordet i den ytliga varianten identifieras. De identifierade identifierarna av löpordsposition används sedan för fastställande av de löpord i den på naturligt språk ana; o 10 15 20 25 30 35 o un an: v cv s a o; n uno nu u n o <°" 1 a uno-ou o 517 496 13 avfattade textkorpusen som är inkluderade i fraser av samma typ som löpordet i den ytliga varianten. Detta görs genom genomsökning av identifierarna av frasposition som är associerade med frastypen som löpordet i den ytliga varianten är inkluderad i och fastställande av vilka av de identifierade identifierarna av löpordsposition som är inkluderade i dessa identifierare av frasposition. Denna jämförelse görs för varje löpord i varianten och, förutom att det fastställs om löpordet är inkluderat i samma frastyp, fastsälls även om identifierarna av löpordsposition är inkluderade i samma positionsidentifierare för en enkel sats. Detta kan göras enkelt genom fastställande av om identifierarna av löpordsposition är inkluderade i samma positionsidentifierare för en enkel sats.

När alla ytliga varianter och det pà naturligt språk avfattade sökuttrycket har jämförts i steget 110 extraheras, i steget 112 i figur 1, varje textparti som innefattar en löpordsträng som matchar någon av de ytliga varianterna eller det analyserade pà naturligt språk avfattade sökuttrycket. En löpordsträng i den pà naturligt språk avfattade textkorpusen matchar en ytlig variant om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i den ytliga varianten i samma linjära ordning som i den ytliga varianten.

Slutligen organiseras, i steget 114 extraherade textpartierna. Detta görs sä i figur 1, de att textpartierna grupperas enligt graden av överensstämmelse med sökuttrycket med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller.

Graden av överensstämmelse kan beskrivas pà så sätt att en konstituent i ett textparti som har samma lemma som motsvarande konstituent hos sökuttrycket anses ha en högre grad av överensstämmelse än en konstituent i ett textparti som är en synonym till motsvarande konstituent hos sökuttrycket. Vidare organiseras de extraherade n non n n u uno-on 1 n 10 15 20 25 30 517 496 o »nu o. 14 textpartierna så att nämnda textpartier är grupperade enligt likhet för grammatiskt subjekt, grammatiskt objekt och lexikalt huvudverb.

I det följande kommer ett exempel pá ett analyserat på naturligt språk avfattad sökuttryck att ges med hänvisning till figur 2. I exemplena kommer att antal förkortningar att användas, vilka förklaras i tabellen nedan: Förkortning Beskrivning AT Artikel NN Substantiv i singular VBD Verb, imperfekt nps Subjektnominalfras npo Objektnominalfras vp Verbfras I figur 2, visas ett exempel på ett på naturligt språk avfattat sökuttryck och dess konstituenter och Märk att detta del av en pà naturligt språk avfattad textkorpus. satsdelar. lika gärna skulle kunna vara en Exemplet är "the enemy destroyed the city" (fienden förstörde staden). Sökuttrycket är i detta fall en enda enkel sats som har två huvudkonstituenter "the enemy" (fienden), som är subjektnominalfras nps, och "destroyed the city" (förstörde staden), som är en verbfras vp.

Konstituenten “the enemy" består i sin tur av de två konstituenterna "the", som är en artikel AT och "enemy", som är ett substantiv i singular NN. Konstituenten "destroyed the city" består av de två konstituenterna (förstörde), "destroyed" som är ett verb i imperfekt VBD och "the city" (staden), som är en objektnominalfras npo.

Konstituenten "the city" består i sin tur av konstituenten "the", som är en artikel AT, och "city", som är ett substantiv i singular NN.

I figur 3A-C ges exempel på det på naturligt språk avfattade sökuttrycket i figur 2 och två olika ytliga 10 15 20 25 30 35 517 496 15 varianter av denna. Metoden för alstring av varianter av ett lingvistiskt uttryck som utgör ett sökuttryck baseras delvis pà Zellig Harris transformationsbegrepp, såsom det Co-occurence and transformation (1957), 340, med den viktiga skilnaden att metoden hos definieras i Harris, Z., in linguistic structure, Language 33 pp 283 - föreliggande uppfinning utnyttjar begreppet 'initial sats' ("initial clause") där Harris använde det traditionella begreppet 'mening'. För en beskrivning av 'initial sats', hänvisas till den parallella svenska patentansökan 0002034-7, med benämningen "Method for segmentation of text", som införlivas häri genom hänvisning och som är överlàten till densamma som denna är överlàten till.

Harris skrift fràn 1957 definierar ett formellt förhållande mellan meningar, i kraft av vilket en meningsuppbyggnad kan kallas för en transformation av en annan mening. Detta förhållande är baserat pà jämförelse av de individuella samförekomsterna av morfem. Genom undersökning av de individuella samförekomsterna av morfem i meningar är det möjligt att karakterisera fördelningen av klasser av morfem som inte enkelt definieras med vanliga lingvistiska termer. Harris transformationer definieras pà basis av tvà strukturer som har samma uppsättning av individuella samförekomster av morfem: Om tvà eller fler konstruktioner som innehåller samma n klasser (oavsett vad de eventuellt innehåller mer) förekommer med samma n-tupel av medlemmar av dessa klasser i samma meningsomgivning, säger vi att konstruktionerna är transformationer av varandra, och att de kan härledas fràn vilken som helst av de övriga genom en särskild transformation. ("If two or more constructions which contain the same n classes (whatever else they may contain) occur with the same n-tuples of members of these classes in the same sentence environment, we say that the constructions are transforms anana- o n oncano 10 l5 20 25 30 35 517 496 a: 16 of each other, and that each may be derived from any other of them by a particular transformation.") I exemplen i fig 3A-3C, som visar ett på naturligt språk avfattat sökuttryck och transformationer till ytliga varianter av denna, används följande beteckningar för morfem och ordklasser: N (substantiv), V (verb), v (tempus- och verbhjälpklass), T (artikel), P (preposition), C (konjunktion) och D (adverb).

Exempelvis uppfylls konstruktionerna N v V N (en mening) i figur 3A och N's Ving N (en nominalfras) i figuren 3B samma tripletter N, V, N (enemy, destrory, city) så att alla val av medlemmar som vi påträffar i meningen, påträffas även i nominalfrasen och vice versa: The enemy destroyed the city, the enemy's destruction of the city. När klassmedlemmarna är identiska i de två eller fler konstruktionerna kallar Harris transformationen reversibel, och skriver den som N1 v V N2 (- _) N1's Ving N; första = uppsättningen för den andra). (och uppsättningen tripletter för den Samma index betyder samma medlem av klassen: den andra förekomsten av N1 indikerar samma morfem som det första N1. Detta exempel åskådliggör en första generisk transformation som används när ytliga varianter av ett på naturligt språk avfattat sökuttryck skapas. Transformationen har egenskapen att den bibehåller löpords lexikaliska innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket. Om vi har det på naturligt språk avfattade sökuttrycket enligt figur 3A, kan således den ytliga varianten i figur 3B skapas genom användning av transformationen: Nl v V NZ -) N1's Ving N; I vissa fall uppfyller alla de n-tupler som uppfyller en konstruktion (d v s för vilken den konstruktioenn verkligen förekommer) även den andra konstruktionen men inte vice versa. Exempelvis kan alla lO 15 20 25 30 35 517 496 17 tripletter hos N1, V, och N¿ i N¿ vV N2, den 'aktiva' meningen i figur 3A, även hittas i motsatt ordning i Nzv be Ven by N1, den 'passiva' meningen i figur 3C: The enemy destroyed the city, The city was destroyed by the enemy. Detta exempel åskådliggör en andra generisk transformation som används när ytliga varianter av ett på naturligt språk avfattat sökuttryck skapas.

Transformationerna har också egenskapen att den bibehåller löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket. Om vi har det pä naturligt språk avfattade sökuttrycket i figur 3A, kan således den ytliga varianten i figur 3C skapas med användning av transformatioen: NlvVNzåNzvbeVenbyNl Märk att vissa tripletter endast uppfyller den andra sekvensen och inte den första: The wreck was seen by the Sådana fall kallar Harris enkelriktade eller oomkastbara transformationer: N1'v V N2-9 N¿ v be Ven by Nl. seashore.

Dessa två typer av transformationer för skapande av ytliga varianter är endast exempel. Andra liknande transformationer är uppenbara för fackmannen inom området och anses ligga inom uppfinningens ramar.

Med hänvändelse nu till figur 4 visas ett schematiskt diagram över ett system enligt uppfinningen.

Systemet innefattar en textanalysenhet 402, minnesorgan 404, ett index 408, en sökuttryckshanteringsenhet 410, en en indexerare 406, resultathanteringsenhet 412, organ 420 för skapande av ytliga varianter, jämförelseorgan 422. Textanalysenheten 402 är anordnad att analysera en på naturligt språk avfattad textinmatning, såsom ett på naturligt språk avfattat sökuttryck eller en på naturligt språk avfattad textkorpus. Analysen görs i syfte att bestämma en morfo- 10 15 20 25 30 35 x 517 496 18 syntaktisk beskrivning av varje löpord hos den på naturligt språk avfattade inmatningen, att lokalisera varje fras i den på naturligt språk avfattade inmatningen, att bestämma en frastyp för var och en av fraserna och att lokalisera enkla satser i den pà naturligt språk avfattade inmatningen. Den morfo- syntaktiska beskrivningen innefattar en ordklass och en böjningsform, och frastyperna innefattar subjektnominalfras, objektnominalfras, andra nominalfraser och prepositionsfraser.

I figur 4 är minnesorganen 404, som är funktionellt kopplade till textanalysenheten 402, anordnade att lagra en på naturligt språk avfattad textkorpus som har analyserats medelst textanalysenheten 402. Vidare är indexeraren 406, som är operativt kopplad till minnesorganen 404, anordnad att indexera en på naturligt språk avfattad textkorpus som är lagrad i minnesorganen 404. Indexeringen är baserad på ett numreringsschema där mellanslagen mellan varje löpord är numrerat i följd. Ett alternativt numreringsschema där varje löpord numreras i följd ligger också inom uppfinningens ramar. Varje löpord definieras sedan av dess ordtyp och numren på de två mellanslagen som det är beläget mellan i den på naturligt språk avfattade textkorpusen. De två numren pà mellanslagen mellan vilka ett löpord är beläget bildar en löpordsposition för detta löpord. Vidare är en fras entydigt definierad genom dess frastyp och numret pà mellanslaget som kommer före frasens första löpord och numret på mellanslaget som kommer efter frasens sista löpord. Numret på mellanslaget som kommer före frasens första löpord och numret på mellanslaget som kommer efter frasens sista löpord bildar en identifierare av frasposition för denna fras. Pá samma sätt definieras en positionsidentifierare för en enkel sats, en mening, ett stycke respektive ett dokument som numret på mellanrummet som kommer före dess första löpord och numret pá mellanrummet som kommer efter dess sista löpord. unna-n u a anno en 10 15 19 Ordtyperna, identifierarna av löpordsposition, frastyperna, identifierarna av frasposition, positionsidentifierarna för en enkel sats, identifierarna av styckesposition, meningsposition och identifierarna av dokumentposition lagras i indexet som är funktionellt kopplat till indexeraren. i tabellen nedan: Indexets logiska struktur visas u .nu a n o nu Textenhet Positionsidentifierare ordtyp 1 Identifierare av löpordsposition ordtyp 2 Identifierare av löpordsposition ordtyp n Identifierare av löpordsposition nps Identifierare av frasposition npo Identifierare av frasposition npx Identifierare av frasposition pp Identifierare av frasposition cl Positionsidentifierare för en enkel sats s Identifierare av meningsposition p Identifierare av styckesposition doc Identifierare av dokumentposition Där nps = subjektnominalfras, npo = objektnominalfras, npx = annan nominalfras, pp = prepositionsfras, cl = enkel sats, s = mening, p = stycke, doc = dokument.

Indexets logiska struktur som àskàdliggörs i tabellen baseras pà en hierarki för textenheter som stàr i relation genom inneslutning. Syftet med indexets flernivàstruktur är att det, i kombination med uppfinningens delade positionssystem för textenheter av olika slag, stöder en sökteknik som medger en snabb access till de textenheter i korpusen som matchar non-nn u I aooooo 10 15 20 25 30 35 517 496 20 uppsättningen av komplexa restriktioner som åläggs av ett givet sökuttryck och dess ytliga varianter.

I figur 4 är sökuttryckshanteringsenheten 410 funktionellt ansluten till textanalysenheten 402 och innefattar organ 420 för skapande av ytliga varianter av ett pà naturligt språk avfattat sökuttryck som har analyserats i textanalysenheten 402. De skapade ytliga varianterna har alla egenskapen att den lexikala innebörden av dess löpord och de ytliga syntaktiska rollerna hos dess konstituenter är ekvivalenta med löpords lexikala innebörd respektive konstituenters ytliga syntaktiska roller hos det pà naturligt spràk avfattade sökuttrycket. Med andra ord kan varje löpord hos den pà naturligt språk avfattade textkorpusen, när en ytlig variant skapas, ersättas med ett eller flera löpord som har samma lexikala innebörd och kan löporden omordnas så länge som varje konstituent hos en variant har en ekvivalent ytlig, syntaktisk roll som motsvarande konstituent i det pà naturligt språk avfattade sökuttrycket. En ytlig, syntaktisk roll är exempelvis, huvudord, bestämning, subjektnominalfras, objektnominalfras etc. Vidare, innefattar sökuttryckshanteringsenheten jämförelseorgan 422 för jämförelse av de ytliga varianterna som skapats i ytvariantenheten och det pà naturligt språk avfattade sökuttrycket med analyserad, på naturligt språk avfattad textkorpus som är lagrad i indexet. Jämförelseorganen 422 använder indexets struktur för att göra jämförelsen.

Genom bestämning av ordtypen hos ett löpord i en ytlig variant, kan index för identifierarna av löpordsposition identifieras i indexet. Vidare kan det, eftersom frastypen som löpordet är i har fastställts i textanalysenheten, fastställas vilka av de identifierade identifierare av löpordsposition som är inkluderade i en fras av samma typ som löpordet i den ytliga varianten.

Detta görs genom genomsökning av identifierarna av frasposition som är associerade med frastypen som l0 15 20 25 v» o o u n n u v no u n u o 517 496 2.: f 21 löpordet i den ytliga varianten är inkluderad i genomsöks och fastställande av vilka av de identifierade identifierarna av löpordsposition som är inkluderade i en av dessa identifierare av frasposition. Denna jämförelse görs för varje löpord i varianten och förutom att det fastställs om löpordet är inkluderat i samma frastyp, används indexet för att fastställa om löporden är inkluderade i samma enkla sats.

Slutligen innefattar systemet i figur 4 en resultathanteringsenhet 412, som är funktionellt kopplad till indexet 412, innefattar en sträng av löpord som matchar någon av de för extrahering av varje textparti som ytliga varianterna eller det på naturligt spràk avfattade sökuttrycket. En löpordsträng i den pà naturligt språk avfattade textkorpusen matchar en ytlig variant om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i den ytliga varianten i samma linjära ordning som i den ytliga varianten. Textpartiet som skall extraheras kan väljas som löpordsträngen själv eller den enkla satsen, meningen, stycket eller dokumentet som löpordsträngen är inkluderad i. Extraheringsorganen använde indexet för att hitta den rätta enkla satsen, meningen, det rätta stycket och dokumentet genom att konsultera av motsvarande positionsidentifierare i indexet.

Claims

10 15 20 25 30 35 517 496 up: nu 22 PATENTKRAV

1. Förfarande för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck, att: innefattande stegen att analysera nämnda pà naturligt språk avfattade textkorpus med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller; att indexera och lagra den analyserade på naturligt språk avfattade textkorpusen; att analysera ett pà naturligt spràk avfattat sökuttryck med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller; att skapa en eller fler ytliga varianter av det analyserade på naturligt språk avfattade sökuttrycket, vilka en eller fler ytliga varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller; att jämföra nämnda en eller fler ytliga varianter och nämnda analyserade på naturligt språk avfattade sökuttryck med nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus; och att, på naturligt språk avfattade textkorpus, extrahera varje från nämnda indexerade och lagrade, analyserade textparti som innefattar en löpordssträng som matchar någon av nämnda ytliga varianter eller nämnda pà naturligt språk avfattade sökuttryck.

2. Förfarande enligt patentkrav 1, varvid nämnda ytliga syntaktiska roller, i nämnda steg att skapa, är rollerna huvudord och bestämning, och satsdelar.

3. Förfarande enligt patentkrav 1, varvid en löpordssträng i nämnda indexerade och lagrade, analyserade pà naturligt språk avfattade textkorpus, i 10 15 20 25 30 35 517 496 . . n ø - » ø n oo ' ' ' v | o o~ 23 steget att extrahera, matchar en av nämnda ytliga varianter av nämnda analyserade på naturligt språk avfattade sökuttryck om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck i samma linjära ordning som i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.

4. Förfarande enligt patentkrav 1, varvid nämnda på naturligt språk avfattade sökuttryck, i steget att analysera ett på naturligt språk avfattat sökuttryck, analyseras på samma sätt som nämnda på naturligt språk avfattade textkorpus analyseras i steget att analysera nämnda på naturligt språk avfattade textkorpus.

5. Förfarande enligt patentkrav 1, varvid steget att analysera en på naturligt språk avfattad textkorpus innefattar stegen: att fastställa en morfo-syntaktisk beskrivning för varje löpord hos nämnda på naturligt språk avfattade textkorpus; att lokalisera fraser i nämnda på naturligt språk avfattade textkorpus; att fastställa en frastyp för var och en av nämnda fraser; och att lokalisera enkla satser i nämnda på naturligt språk avfattade textkorpus, och varvid steget att analysera ett på naturligt språk avfattat sökuttryck innefattas stegen: att fastställa en morfo-sytaktisk beskrivning för varje löpord hos nämnda på naturligt språk avfattade sökuttryck; och att lokalisera fraser i nämnda på naturligt språk avfattade sökuttryck; 10 15 20 25 30 35 517 496 24 att fasställa en frastyp för var och en av nämnda fraser; och att lokalisera enkla satser i nämnda på naturligt språk avfattade sökuttryck.

6. Förfarande enligt patentkrav 5, varvid steget att indexera och lagra innefattar stegen: att förse varje löpord hos nämnda pá naturligt språk avfattade textkorpus med en entydig identifierare av löpordsposition; att lagra information avseende positionen för varje löpord hos nämnda pà naturligt språk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition; att för varje frastyp lagra information avseende positionen för varje fras av denna typ i nämnda på naturligt spràk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition; och att lagra information avseende positionen för varje enkel sats i nämnda pà naturligt spràk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition.

7. Förfarande enligt patentkrav 6, varvid varje löpord är associerad med en ordtyp och varvid steget att lagra information avseende positionen för varje löpord innefattar stegen: att lagra varje ordtyp hos nämnda på naturligt språk avfattade textkorpus; och att för varje löpord lagra dess entydiga identifierare av löpordsposition länkad till den lagrade, associerade ordtypen.

8. Förfarande enligt patentkrav 7, varvid steget att lagra information avseende positionen för fraser innefattar stegen: 10 15 20 25 30 35 517 496 25 att för varje fras hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av frasposition som identifierar de löpord som frasen spänner över; att lagra varje frastyp hos nämnda på naturligt språk avfattade textkorpus; och att för varje fras lagra dess entydiga identifierare av frasposition logiskt länkad till den lagrade, associerade frastypen.

9. Förfarande enligt patentkrav 8, varvid steget att lagra information avseende positionen för enkla satser innefattar stegen: att för varje enkel sats hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig positionsidentifierare för en enkel sats, vilken identifierare identifierar de löpord och fraser som den enkla satsen spänner över; att för varje enkel sats lagra dess entydiga positionsidentifierare för en enkel sats.

10. Förfarande enligt patentkrav 9, vidare innefattande stegen: att lokalisera meningar i nämnda på naturligt språk avfattade textkorpus; och att för varje mening hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av meningsposition som identifierar de löpord, fraser och enkla satser som meningen spänner över; att för varje mening lagra dess entydiga identifierare av meningsposition.

11. Förfarande enligt patentkrav 10, vidare innefattande stegen: att lokalisera stycken i nämnda på naturligt språk avfattade textkorpus; och 10 15 20 25 30 35 QIII 9 Ü u nu u n no I ' " ' u. n 2 . . °. - . . - .. u - ° 'I -° . u . 1 ø n n o I v : g. , _ uno »nu co 0 h I ' : _ . , , v p u a. n n v u. _ . . 1 n n. .u u. -v 26 att för varje stycke hos nämnda pà naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av styckesposition som identifierar de löpord, fraser, enkla satser och meningar som stycket spänner över; att för varje stycke lagra dess entydiga identifierare av styckesposition.

12. Förfarande enligt patentkrav 11, vidare innefattande stegen: att lokalisera dokument i nämnda pà naturligt språk avfattade textkorpus; och att för varje dokument hos nämnda pà naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av dokumentposition som identifierar de löpord, fraser, enkla satser, meningar och stycken som dokumentet spänner över; att för varje dokument lagra dess entydiga identifierare av dokumentposition.

13. Förfarande enligt patentkrav 1, varvid ett textparti som extraheras i steget att extrahera, antingen är den matchande löpordsträngen, en enkel sats som innefattar den matchande löpordsträngen, en mening som innefattar den matchande löpordsträngen, ett stycke som innefattar den matchande löpordsträngen eller ett dokument som innefattar den matchande löpordsträngen.

14. Förfarande enligt patentkrav 1, vidare innefattande steget: att organisera den extraherade informationen enligt graden av överensstämmelse med sökuttrycket med avseende pà löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, så att en konstituent i ett textparti som har samma lemma som motsvarande konstituent hos sökuttrycket anses ha en högre grad av överensstämmelse 10 15 20 25 30 35 517 27 än en konstituent i ett textparti, vilken konstituent är en synonym till motsvarande konstituent hos sökuttrycket.

15. Förfarande enligt patentkrav 1, vidare innefattande steget: att organisera den extraherade informationen så att nämnda textpartier grupperas i enlighet med likhet hos grammatiskt subjekt, grammatiskt objekt och lexikalt huvudverb.

16. System för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck, innefattande: en textanalysenhet (402) för analys av en på naturligt språk avfattad textkorpus och ett på naturligt språk avfattat sökuttryck med avseende på ords ytliga struktur och konstituenters ytliga syntaktiska roller; lagringsorgan (404), som är funktionellt kopplade till nämnda textanalysenhet, för lagring av den analyserade på naturligt språk avfattade textkorpusen; en indexerare (406), som är funktionellt kopplade till nämnda lagringsorgan, för indexering av den analyserade på naturligt språk avfattade textkorpusen; ett index (408), som ör funktionellt kopplat till nämnda indexerare, för lagring av nämnda indexerade på naturligt språk avfattade textkorpus; en sökuttryckshanteringsenhet (410), som är funktionellt kopplad till nämnda textanalysenhet, innefattande organ (420) för skapande av ytliga varianter av nämnda på naturligt språk avfattade sökuttryck, vilka ytliga varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, och organ (422) för jämförelse med nämnda ytliga varianter och nämnda analyserade på naturligt språk avfattade sökuttryck med den indexerade, analyserade på u o u u. o o :I I ' °' a e n u u n n u v nu H = z '_ _ . u . n 0 u u n I z o _ _ , , nu. nu o; v I 0 ' u , . , , v ' ' " ' ' ' nu o . . u u u u. u. n. 10 15 20 25 30 35 ...- . . ... . . .. . ; .". .å . u nu n u I n 0 'I ° _ , , . .- a . u o I z I z I . , , . n- u.. .- n v . u u u i . 4 . a ; : :z N Ü. N." N.. 28 naturligt språk avfattade textkorpusen i nämnda index; och (410), som är funktionellt kopplad till nämnda index, för extrahering, en resultathanteringsenhet från nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus, av varje textparti som innefattar en löpordsträng som matchar någon av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.

17. System enligt patentkrav 16, varvid en löpordssträng i nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus matchar en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck i samma linjära ordning som i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.

18. System enligt patentkrav 16, varvid nämnda index innefattar flera index som baseras på en hierarki av textenheter som står i relation till varandra genom inneslutning.

19. Av en dator läsbart medium som har av en dator exekverbara instruktioner för att en generell dator skall utföra stegen som återges i något av kraven 1-15.

20. Datorprogram som innefattar av en dator exekverbara instruktioner för utförande av stegen som återges i något av kraven 1-15.