SE517496C2 - Metod och system för informationsextrahering - Google Patents

Metod och system för informationsextrahering

Info

Publication number
SE517496C2
SE517496C2 SE0002368A SE0002368A SE517496C2 SE 517496 C2 SE517496 C2 SE 517496C2 SE 0002368 A SE0002368 A SE 0002368A SE 0002368 A SE0002368 A SE 0002368A SE 517496 C2 SE517496 C2 SE 517496C2
Authority
SE
Sweden
Prior art keywords
natural language
superficial
analyzed
text
text corpus
Prior art date
Application number
SE0002368A
Other languages
English (en)
Other versions
SE0002368L (sv
SE0002368D0 (sv
Inventor
Eva Ingegerd Ejerhed
Peter A Braroe
Original Assignee
Hapax Information Systems Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hapax Information Systems Ab filed Critical Hapax Information Systems Ab
Priority to SE0002368A priority Critical patent/SE517496C2/sv
Publication of SE0002368D0 publication Critical patent/SE0002368D0/sv
Priority to US09/599,563 priority patent/US6842730B1/en
Priority to AU2001266481A priority patent/AU2001266481A1/en
Priority to EP01944033A priority patent/EP1311983A1/en
Priority to PCT/SE2001/001409 priority patent/WO2001098946A1/en
Publication of SE0002368L publication Critical patent/SE0002368L/sv
Publication of SE517496C2 publication Critical patent/SE517496C2/sv
Priority to US11/032,075 priority patent/US7194406B2/en
Priority to US11/723,079 priority patent/US7657425B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

517 496 2 svårare för användaren att hitta de mest relevanta dokumenten.
Ett informationsàtervinningssystems prestanda mäts normalt i termer av dess träffmängd ("recall") och dess precision. I informationsåtervinning har den tekniska termen träffmängd en standarddefinition som kvoten mellan antalet relevanta dokument som àtervinns för ett givet sökuttryck och det totala antalet relevanta dokument för det sökuttrycket. Således mäter träffmängd hur uttömmande sökresultaten är. Vidare har den tekniska termen precision, i informationsåtervinning, en standarddefinition som kvoten mellan antalet relevanta dokument som àtervinns för ett givet sökuttryck och det totala antalet återvunna dokument. Således mäter precision sökresultatens kvalitet. På grund av den stora mängd dokument som àtervinns när ovanstående typer av sökmetoder används har det insetts inom området att det finns ett behov av att minska antalet återvunna dokument till de mest relevanta. Med andra ord blir träffmängden mindre viktig och precisionen viktigare när antalet dokument i textkorpusen ökar. Således har leverantörer av system för informationsåtervinning förbättrat Boolesk sökning genom användning av metrik för rangordning med avseende på relevans baserad på statistiska metoder. Det är emellertid välkänt inom området att sålunda högt rangordnade dokument fortfarande innefattar irrelevanta dokument. Detta beror på att matchningen är för grov och att den inte tar hänsyn till den kontext i vilken de matchande orden förekommer. För att hitta dokumenten som är relevanta med avseende på ett användarsökuttryck finns det ett behov av att informationsàtervinningssystemet på något sätt förstår innebörden av det på naturligt språk avfattade sökuttrycket och av den på naturligt språk avfattade textkorpusen från vilken informationen skall extraheras.
Det finns förslag inom området på hur man kan skapa ett informationsåtervinningssystem som hittar dokument i 10 15 20 25 30 35 vann n n g o coon n 517 496 3 en på naturligt språk avfattad textkorpus vilka matchar ett på naturligt språk avfattat sökuttryck med avseende på sökuttryckets semantiska innebörd.
Vissa av dessa förslag hänför sig till system som har utökats med specifik världskunskap inom en given domän. Sådana system baseras på en omfattande databas med världskunskap inom ett enda område. Skapande och upprätthållande av sådana databaser med världskunskap är en välkänd flaskhals i kunskapsteknik. Vidare är skalbarheten hos sådana databaser dålig och en databas inom en domän kan inte överföras till ett annat område.
Således skulle det inte vara genomförbart att utöka ett sådant system till en generell applikation för att hitta information i fri text, vilken skulle kunna hänföra sig till en godtycklig domän.
Andra förslag baseras på underliggande språkliga nivåer för representation av semantik. I dessa förslag utförs, istället för att ordagrann matchning av ett eller flera nyckelord används, en semantisk analys av den på naturligt språk avfattade textkorpusen och det på naturligt språk avfattade sökuttrycket och dokument returneras som matchar sökuttryckets semantiska innehåll.
Att skapa en semantisk representation på djup nivå av väldigt stora, på naturligt språk avfattade textkorpusar är en komplex och krävande uppgift. Detta beror på en flernivårepresentation av texten, olika analysverktyg för olika nivåer och fortplantning av fel från en nivå till en annan. Eftersom representationer på olika nivåer är oberoende av varandra och av anledningar som ges ovan kommer de resulterande analyserna att vara bräckliga och ofta orsaka fel.
Sammanfattning av uppfinningen Ett mål med föreliggande uppfinning är att åstadkomma ett förbättrat förfarande, och ett motsvarande system, för extrahering av information från en på naturligt språk avfattad textkorpus, vilket inte är 10 15 20 25 30 35 4 föremål för ovannämnda nackdelar hos existerande förfaranden för dessa uppgifter. Detta syfte åstadkoms genom ett förfarande och ett system enligt de bifogade patentkraven.
Föreliggande uppfinning är baserad på erkännandet av att det finns ett nära samband 1) mellan de syntaktiska relationerna mellan konstituenter i enkla satser ("clauses") och meningar i en på naturligt språk avfattad textkorpus och de semantiska relationerna mellan dem och 2) mellan löpord inom konstituenter och de strukturella och semantiska relationerna mellan dem. Mer specifikt baseras föreliggande uppfinning på att dessa syntaktisk- semantiska förhållanden kan användas när ett på naturligt språk avfattat sökuttryck matchas med en pà naturligt språk avfattad textkorpus för att hitta textpartier i den på naturligt språk avfattade textkorpusen som har samma innebörd som det på naturligt språk avfattade sökuttrycket.
Enligt en aspekt av uppfinningen tillhandahålls ett förfarande för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck. I förfarandet analyseras den på naturligt språk avfattade textkorpusen med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller, och den analyserade på naturligt språk avfattade textkorpusen indexeras och lagras. Vidare analyseras ett på naturligt språk avfattat sökuttryck med avseende pà löpords ytliga struktur och konstituenters ytliga syntaktiska roller.
Från det analyserade på naturligt språk avfattade sökuttrycket skapas sedan en eller fler ytliga varianter, där dessa ytliga varianter är ekvivalenta med det på naturligt språk avfattade sökuttrycket med avseende på 1) löpords lexikala innebörd och 2) konstituenters ytliga syntaktiska roller. De ytliga varianterna jämförs sedan med den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen och varje textparti som 10 15 20 25 30 35 0 ~ nu coon- 0 n ouuuuo innefattar en löpordsträng som matchar en av nämnda ytliga varianter eller nämnda på naturligt språk avfattade sökuttryck extraheras från den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen.
I "löpords ytliga struktur" och "konstituenters ytliga syntaktiska roller" indikerar termen "ytliga" att löporden och konstituenterna betraktas som de står och i den ordning som de står i texten, och termen "konstituenter" syftar på textens grundläggande beståndsdelar, såsom löpord, fraser etc. En viktig egenskap hos dessa särdrag är att de kan hittas genom användning av en ennivàanalys, t ex med användning av ytlig textanalys ("shallow parsing"). Exempelvis består konstituenter alltid av intilliggande löpord i texten.
Genom analys av det på naturligt språk avfattade sökuttrycket med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller är det möjligt att skapa ytliga varianter av det analyserade på naturligt språk avfattade sökuttrycket, vilka bibehåller löpords lexikala innebörd och konsituenters ytliga syntaktiska roller. Dessa varianter bildar tillsammans med det på naturligt språk avfattade sökuttrycket en uppsättning alternativa sätt att uttrycka samma innebörd som det ursprungliga, på naturligt språk avfattade sökuttrycket. Skapandet av varianter utnyttjar det faktum att konstituenters ytliga syntaktiska roller tillsammans med löpords lexikala innebörd är nära förbundna med innebörden av en på naturligt språk avfattad textenhet, såsom en mening, fras eller enkel sats. Varianterna som har skapats jämförs sedan med en indexerad och lagrad, analyserad textkorpus, där den på naturligt språk avfattade textkorpusen har analyserats på samma sätt som det på naturligt språk avfattade sökuttrycket. Eftersom inte endast det på naturligt språk avfattade sökuttrycket jämförs utan även alla varianter, kommer antalet matchningar att ökas i jämförelse med om matchningen vore 10 15 20 25 30 35 S17 496 ' 6 ordagrann. Tack vare att löpords lexikala innebörd och konstituenters ytliga syntaktiska roller bevaras i varianterna av det på naturligt språk avfattade sökuttrycket, säkerställs emellertid att matchningarna i den på naturligt språk avfattade textkorpusen har samma innebörd som det på naturligt språk avfattade sökuttrycket.
En fördel med uppfinningen är att den, i motsats till kända metoder som använder flernivàanalyser, använder en ennivàanalys av den på naturligt språk avfattade textkorpusen och det på naturligt språk avfattade sökuttrycket vilket gör uppfinningen snabbare och mer tillförlitlig. Samtidigt är dess precision hög och mängden återvunnen information är hanterbar. Vidare gör skapandet av varianter det möjligt att minimera mängden arbete som utförs under jämförelsen av det på naturligt språk avfattade sökuttrycket med den på naturligt språk avfattade textkorpusen. Analysen av den på naturligt språk avfattade textkorpusen kan göras i förväg och kan lagras i ett index. Detta begränsar analysen som skall göras i realtid till analysen av det på naturligt språk avfattade sökuttrycket. Således är metoden enligt uppfinningen avsevärt snabbare än de kända metoderna som använder lingvistisk analys.
I en utföringsform av uppfinningen är de ytliga syntaktiska roller hos konstituenter rollerna huvudord och bestämning, och satsdelar. Genom bibehållande av dessa roller när ytliga varianter av det på naturligt språk avfattade sökuttrycket skapas kommer de ytliga varianterna att uttrycka samma sak som det på naturligt språk avfattade sökuttrycket.
I en annan utföringsform av uppfinningen matchar en löpordsträng i nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus en av de ytliga varianterna eller det på naturligt språk avfattade sökuttrycket om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och det lexikala 10 15 20 25 30 35 517 496 ø ø o | | o . :nu v. 7 huvudverbet i nämnda en av de ytliga varianterna eller det analyserade pà naturligt spràk avfattade sökuttrycket. Pá detta sätt blir matchningen okomplicerad och förfarandet blir sàledes snabbare. Det skall märkas att antalet varianter som skapas kan minskas om matchningen samtidigt relaxeras. Det föreligger emellertid alltid en kompromiss mellan tiden för analysen som mäste göras under matchning och tiden för matchning av ett antal varianter.
I en föredragen utföringsform innefattar analysen av den pá naturligt språk avfattade textkorpusen stegen att fastställa en morfo-syntaktisk beskrivning för varje löpord, att lokalisera fraser, att fastställa en frastyp för var och en av fraserna och att lokalisera enkla satser. Vidare tillhandahålls en entydig identifierare av löpordsposition för varje löpord i nämnda pà naturligt språk avfattade textkorpus, och information avseende varje löpords position, varje fras av varje typ och varje enkel sats i nämnda pà naturligt språk avfattade textkorpus lagras, baserad pà nämnda entydiga identifierare av löpordsposition. Informationen avseende ett löpords position är företrädesvis en ordtyp som är associerad med löpordet och dess entydiga identifierare av löpordsposition logiskt länkad till den lagrade, associerade ordtypen. På detta sätt lagras varje ordtyp endast en gäng istället för att varje löpord hos den på naturligt språk avfattade textkorpusen lagras. Detta är speciellt fördelaktigt i fall dà den pà naturligt språk avfattade textkorpusen är stor. Vidare är informationen avseende en fras position företrädesvis frastypen och en entydig identifierare av frasposition som är logiskt länkad till den lagrade frastypen, varvid den entydiga identifieraren av frasposition identifierar löporden som frasen spänner över. Informationen avseende en enkel sats position är företrädesvis en entydig positionsidentifierare för en enkel sats, vilken identifierare identifierar löporden och fraserna som den 10 15 20 25 30 35 517 496 ' so: v' 8 enkla satsen spänner över. På samma sätt lagras företrädesvis identifierare för meningar, stycken och dokument som är belägna i den på naturligt språk avfattade textkorpusen. I denna utföringsform förenklas matchningen avsevärt eftersom ett löpord i ett på naturligt språk avfattat sökuttryck kan matchas med ett löpord i den på naturligt språk avfattade textkorpusen genom att ordtypen för löpordet hittas och att de lagrade identifierarna av löpord som är associerade med denna ordtyp extraheras direkt. Vidare används sedan frastypen för löpordet i det på naturligt språk avfattade sökuttrycket för att man skall se om något av de matchande löporden i den på naturligt språk avfattade textkorpusen är inkluderad i en fras av samma typ. Detta görs enkelt eftersom de lagrade, entydiga identifierarna av fraspositions, som är associerade med denna frastyp, identifierar löporden som varje fras spänner över.
Vidare är, i ytterligare en utföringsform, det textparti som extraheras antingen den matchande löpordsträngen, en enkel sats som innefattar den matchande löpordsträngen, en mening som innefattar den matchande löpordsträngen, ett stycke som innefattar den matchande löpordsträngen eller ett dokument som innefattar den matchande löpordsträngen. Denna utföringsform möjliggör extrahering av andra textpartier än hela dokument där en matchande sträng hittas. Detta är en avsevärd förenkling för en användare eftersom mängden erforderlig manuell efteranalys i form av genomsökning av de extraherade dokumenten i syfte att hitta informationen av intresse, kan minimeras. Tillsammans med den föredragna utföringsformen ovan kan de olika textpartierna lätt hittas beroende på det sätt som den på naturligt språk avfattade textkorpusen har indexerats och lagrats.
Enligt en andra aspekt av uppfinningen tillhandahålls ett system för extrahering av information från en på naturligt språk avfattad textkorpus baserat pà 10 15 20 25 30 35 517 496 9 ett på naturligt språk avfattat sökuttryck. Systemet innefattar en textanalysenhet för analys av en på naturligt språk avfattad textkorpus och ett på naturligt språk avfattat sökuttryck med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller.
Till analysenheten är lagringsorgan för lagring av den analyserade textkorpusen funktionellt kopplade till nämnda textanalysenhet. Vidare innefattar systemet en indexerare, som är operativt kopplad till lagringsorganen, för indexering av den analyserade på naturligt språk avfattade textkorpusen och ett index, som är funktionellt kopplat till indexeraren, för lagring av nämnda indexerade, analyserade på naturligt språk avfattade textkorpus. Systemet innefattar även en sökuttryckshanteringsenhet, som är funktionellt kopplad till textanalysenheten, innefattande organ för skapande av ytliga varianter av det på naturligt språk avfattade sökuttrycket, vilka varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, och organ för jämförelse av nämnda ytliga varianter och det analyserade på naturligt språk avfattade sökuttrycket med den analyserade på naturligt språk avfattade textkorpusen i nämnda index. Slutligen innefattar systemet en resultathanteringsenhet, som är funktionellt kopplad till indexet, för extrahering från den indexerade och lagrade, analyserade på naturligt språk avfattade textkorpusen av varje textparti som innefattar en löpordsträng som matchar någon av de ytliga varianterna eller det analyserade på naturligt språk avfattade sökuttrycket.
Således kan, genom identifiering av att det finns mer information avseende en på naturligt språk avfattad texts innebörd inneboende i de ytliga strukturella och semantiska relationerna mellan konstituenter och löpord hos den på naturligt språk avfattade texten, och genom användning av en utökning av ett på naturligt språk 10 15 20 25 30 35 517 496 10 avfattat sökuttryck till ytliga varianter som bibehåller löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det ursprungliga, på naturligt språk avfattade sökuttrycket, ett förbättrat förfarande för informationsextrahering åstadkommas som är snabbt, tillförlitligt och som har en hög precision.
Kort beskrivning av ritningarna I det följande åskådliggörs föreliggande uppfinning genom exempel, och inte som en begränsning, med hänvisning till de åtföljande ritningarna, på vilka: figur 1 är ett flödesschema över ett förfarande enligt uppfinningen; figur 2 är ett exempel på ett på naturligt språk avfattat sökuttryck och dess konstituenter; figur 3A-C är exempel på det på naturligt språk avfattade sökuttrycket i figur 2 och ytliga varianter av denna; och figur 4 är ett schematiskt diagram över ett system enligt uppfinningen.
Beskrivning av föredragna utföringsformer Figur 1 är ett flödesschema över ett förfarande enligt uppfinningen. I förfarandet extraheras information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck. Ett exempel på en på naturligt språk avfattad textkorpus är en delmängd av den information som återfinns i webbservrar på Internet. För att man skall kunna använda lingvistiska egenskaper hos textkorpusen för matchning av ett på naturligt språk avfattat sökuttryck mot den på naturligt språk avfattade textkorpusen, analyseras den på naturligt språk avfattade textkorpusen, i steget 102, med avseende på löpordens ytliga struktur och konstituenternas ytliga syntaktiska roller hos den på naturligt språk avfattade textkorpusen. Detta görs för bestämning av en morfo- syntaktisk beskrivning för varje löpord, lokalisering av 10 l5 20 25 30 35 517 496 ll fraser, fastställande av frastyper för var och en av fraserna och lokalisering av enkla satser. Den morfo- syntaktiska beskrivningen innefattar en ordklass och en böjningsform, och frastyperna innefattar subjektnominalfraser, objektnominalfraser, andra nominalfraser och prepositionsfraser. En enkel sats kan definieras som en informationsenhet som i stort sett motsvarar ett enkelt påstående eller faktum. Ett exempel pà en analyserad enkel sats kommer att beskrivas nedan med hänvisning till figur 2.
Efter det att den på naturligt språk avfattade textkorpusen har analyserats, indexeras och lagras den i steget 104 i figur 1. I detta steg numreras mellanslag mellan varje löpord i följd, varvid varje löpords position definieras entydigt av numren på de mellanslag som det är beläget mellan i den på naturligt språk avfattade textkorpusen. Dessa två nummer bildar en entydig identifierare av löpordsposition. Ett alternativt numreringsschema där varje löpord numreras i följd ligger också inom uppfinningens ramar. Eftersom varje löpord är associerat med en ordtyp räcker det att man lagrar den på naturligt språk avfattade textkorpusens alla ordtyper och att man sedan, för var och en av de lagrade ordtyperna, lagrar identifieraren av löpordsposition för varje löpord som är associerat med denna ordtyp. Vidare definieras en fras position entydigt av numret på mellanrummet som kommer före frasens första löpord och numret på mellanrummet som kommer efter frasens sista löpord. Dessa två nummer bildar en identifierare av frasposition.
Således lagras varje frastyp och identifieraren av fraspositions för varje fras av denna typ lagras. Märk att det, beroende pà det sätt som identifieraren av frasposition definieras, är enkelt att ta reda på huruvida ett löpord är av en viss typ genom att fastställa huruvida identifieraren av löpordsposition ligger inom en fras av denna typ. En enkel sats position definieras entydigt av numret på mellanslaget som kommer 000! I o lO 15 20 25 30 35 . g :nu o '°'p.vuø .nu vu 517 496 12 före den enkla satsens första löpord och numret på mellanrummet som kommer efter den enkla satsens sista löpord. Dessa två nummer bildar en positionsidentifierare för en enkel sats. Var och en av positionsidentifierarna för en enkel sats lagras. En positionsidentifierare för en mening, ett stycke och ett dokument bildas på ett ekvivalent sätt och var och en av dem lagras. Efter steget 104 analyseras ett på naturligt språk avfattat sökuttryck, i steget 106, på samma sätt som den på naturligt språk avfattade textkorpusen analyserades i steget 102.
I steget 108 i figur 1 skapas ett antal ytliga varianter av det analyserade pà naturligt språk avfattade sökuttrycket. De ytliga varianterna skapas på ett sådant sätt att löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket bevaras. Med andra ord kan varje löpord hos det pà naturligt språk avfattade sökuttrycket ersättas av en eller flera löpord som har samma lexikala innebörd och kan löporden omordnas så länge som varje konstituent hos en variant har en ytlig, syntaktisk roll som är ekvivalent med motsvarande konstituent i det på naturligt språk avfattade sökuttrycket. En ytlig, syntaktisk roll är exempelvis, huvudord, bestämning, subjektnominalfras, objektnominalfras, etc. Ett exempel på ett antal varianter av ett sökuttryck kommer att beskrivas nedan med hänvisning till figur 3A-C.
När de ytliga varianterna har skapats, jämförs de och det på naturligt språk avfattade sökuttrycket, i steget 110 i figur 1, med på naturligt språk avfattad textkorpus. Vid jämförelsen jämförs ett löpord i en ytlig variant med de lagrade ordtyperna hos den på naturligt språk avfattade textkorpusen och identifierare av löpordsposition hos löporden av samma ordtyp som löpordet i den ytliga varianten identifieras. De identifierade identifierarna av löpordsposition används sedan för fastställande av de löpord i den på naturligt språk ana; o 10 15 20 25 30 35 o un an: v cv s a o; n uno nu u n o <°" 1 a uno-ou o 517 496 13 avfattade textkorpusen som är inkluderade i fraser av samma typ som löpordet i den ytliga varianten. Detta görs genom genomsökning av identifierarna av frasposition som är associerade med frastypen som löpordet i den ytliga varianten är inkluderad i och fastställande av vilka av de identifierade identifierarna av löpordsposition som är inkluderade i dessa identifierare av frasposition. Denna jämförelse görs för varje löpord i varianten och, förutom att det fastställs om löpordet är inkluderat i samma frastyp, fastsälls även om identifierarna av löpordsposition är inkluderade i samma positionsidentifierare för en enkel sats. Detta kan göras enkelt genom fastställande av om identifierarna av löpordsposition är inkluderade i samma positionsidentifierare för en enkel sats.
När alla ytliga varianter och det pà naturligt språk avfattade sökuttrycket har jämförts i steget 110 extraheras, i steget 112 i figur 1, varje textparti som innefattar en löpordsträng som matchar någon av de ytliga varianterna eller det analyserade pà naturligt språk avfattade sökuttrycket. En löpordsträng i den pà naturligt språk avfattade textkorpusen matchar en ytlig variant om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i den ytliga varianten i samma linjära ordning som i den ytliga varianten.
Slutligen organiseras, i steget 114 extraherade textpartierna. Detta görs sä i figur 1, de att textpartierna grupperas enligt graden av överensstämmelse med sökuttrycket med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller.
Graden av överensstämmelse kan beskrivas pà så sätt att en konstituent i ett textparti som har samma lemma som motsvarande konstituent hos sökuttrycket anses ha en högre grad av överensstämmelse än en konstituent i ett textparti som är en synonym till motsvarande konstituent hos sökuttrycket. Vidare organiseras de extraherade n non n n u uno-on 1 n 10 15 20 25 30 517 496 o »nu o. 14 textpartierna så att nämnda textpartier är grupperade enligt likhet för grammatiskt subjekt, grammatiskt objekt och lexikalt huvudverb.
I det följande kommer ett exempel pá ett analyserat på naturligt språk avfattad sökuttryck att ges med hänvisning till figur 2. I exemplena kommer att antal förkortningar att användas, vilka förklaras i tabellen nedan: Förkortning Beskrivning AT Artikel NN Substantiv i singular VBD Verb, imperfekt nps Subjektnominalfras npo Objektnominalfras vp Verbfras I figur 2, visas ett exempel på ett på naturligt språk avfattat sökuttryck och dess konstituenter och Märk att detta del av en pà naturligt språk avfattad textkorpus. satsdelar. lika gärna skulle kunna vara en Exemplet är "the enemy destroyed the city" (fienden förstörde staden). Sökuttrycket är i detta fall en enda enkel sats som har två huvudkonstituenter "the enemy" (fienden), som är subjektnominalfras nps, och "destroyed the city" (förstörde staden), som är en verbfras vp.
Konstituenten “the enemy" består i sin tur av de två konstituenterna "the", som är en artikel AT och "enemy", som är ett substantiv i singular NN. Konstituenten "destroyed the city" består av de två konstituenterna (förstörde), "destroyed" som är ett verb i imperfekt VBD och "the city" (staden), som är en objektnominalfras npo.
Konstituenten "the city" består i sin tur av konstituenten "the", som är en artikel AT, och "city", som är ett substantiv i singular NN.
I figur 3A-C ges exempel på det på naturligt språk avfattade sökuttrycket i figur 2 och två olika ytliga 10 15 20 25 30 35 517 496 15 varianter av denna. Metoden för alstring av varianter av ett lingvistiskt uttryck som utgör ett sökuttryck baseras delvis pà Zellig Harris transformationsbegrepp, såsom det Co-occurence and transformation (1957), 340, med den viktiga skilnaden att metoden hos definieras i Harris, Z., in linguistic structure, Language 33 pp 283 - föreliggande uppfinning utnyttjar begreppet 'initial sats' ("initial clause") där Harris använde det traditionella begreppet 'mening'. För en beskrivning av 'initial sats', hänvisas till den parallella svenska patentansökan 0002034-7, med benämningen "Method for segmentation of text", som införlivas häri genom hänvisning och som är överlàten till densamma som denna är överlàten till.
Harris skrift fràn 1957 definierar ett formellt förhållande mellan meningar, i kraft av vilket en meningsuppbyggnad kan kallas för en transformation av en annan mening. Detta förhållande är baserat pà jämförelse av de individuella samförekomsterna av morfem. Genom undersökning av de individuella samförekomsterna av morfem i meningar är det möjligt att karakterisera fördelningen av klasser av morfem som inte enkelt definieras med vanliga lingvistiska termer. Harris transformationer definieras pà basis av tvà strukturer som har samma uppsättning av individuella samförekomster av morfem: Om tvà eller fler konstruktioner som innehåller samma n klasser (oavsett vad de eventuellt innehåller mer) förekommer med samma n-tupel av medlemmar av dessa klasser i samma meningsomgivning, säger vi att konstruktionerna är transformationer av varandra, och att de kan härledas fràn vilken som helst av de övriga genom en särskild transformation. ("If two or more constructions which contain the same n classes (whatever else they may contain) occur with the same n-tuples of members of these classes in the same sentence environment, we say that the constructions are transforms anana- o n oncano 10 l5 20 25 30 35 517 496 a: 16 of each other, and that each may be derived from any other of them by a particular transformation.") I exemplen i fig 3A-3C, som visar ett på naturligt språk avfattat sökuttryck och transformationer till ytliga varianter av denna, används följande beteckningar för morfem och ordklasser: N (substantiv), V (verb), v (tempus- och verbhjälpklass), T (artikel), P (preposition), C (konjunktion) och D (adverb).
Exempelvis uppfylls konstruktionerna N v V N (en mening) i figur 3A och N's Ving N (en nominalfras) i figuren 3B samma tripletter N, V, N (enemy, destrory, city) så att alla val av medlemmar som vi påträffar i meningen, påträffas även i nominalfrasen och vice versa: The enemy destroyed the city, the enemy's destruction of the city. När klassmedlemmarna är identiska i de två eller fler konstruktionerna kallar Harris transformationen reversibel, och skriver den som N1 v V N2 (- _) N1's Ving N; första = uppsättningen för den andra). (och uppsättningen tripletter för den Samma index betyder samma medlem av klassen: den andra förekomsten av N1 indikerar samma morfem som det första N1. Detta exempel åskådliggör en första generisk transformation som används när ytliga varianter av ett på naturligt språk avfattat sökuttryck skapas. Transformationen har egenskapen att den bibehåller löpords lexikaliska innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket. Om vi har det på naturligt språk avfattade sökuttrycket enligt figur 3A, kan således den ytliga varianten i figur 3B skapas genom användning av transformationen: Nl v V NZ -) N1's Ving N; I vissa fall uppfyller alla de n-tupler som uppfyller en konstruktion (d v s för vilken den konstruktioenn verkligen förekommer) även den andra konstruktionen men inte vice versa. Exempelvis kan alla lO 15 20 25 30 35 517 496 17 tripletter hos N1, V, och N¿ i N¿ vV N2, den 'aktiva' meningen i figur 3A, även hittas i motsatt ordning i Nzv be Ven by N1, den 'passiva' meningen i figur 3C: The enemy destroyed the city, The city was destroyed by the enemy. Detta exempel åskådliggör en andra generisk transformation som används när ytliga varianter av ett på naturligt språk avfattat sökuttryck skapas.
Transformationerna har också egenskapen att den bibehåller löpords lexikala innebörd och konstituenters ytliga syntaktiska roller hos det på naturligt språk avfattade sökuttrycket. Om vi har det pä naturligt språk avfattade sökuttrycket i figur 3A, kan således den ytliga varianten i figur 3C skapas med användning av transformatioen: NlvVNzåNzvbeVenbyNl Märk att vissa tripletter endast uppfyller den andra sekvensen och inte den första: The wreck was seen by the Sådana fall kallar Harris enkelriktade eller oomkastbara transformationer: N1'v V N2-9 N¿ v be Ven by Nl. seashore.
Dessa två typer av transformationer för skapande av ytliga varianter är endast exempel. Andra liknande transformationer är uppenbara för fackmannen inom området och anses ligga inom uppfinningens ramar.
Med hänvändelse nu till figur 4 visas ett schematiskt diagram över ett system enligt uppfinningen.
Systemet innefattar en textanalysenhet 402, minnesorgan 404, ett index 408, en sökuttryckshanteringsenhet 410, en en indexerare 406, resultathanteringsenhet 412, organ 420 för skapande av ytliga varianter, jämförelseorgan 422. Textanalysenheten 402 är anordnad att analysera en på naturligt språk avfattad textinmatning, såsom ett på naturligt språk avfattat sökuttryck eller en på naturligt språk avfattad textkorpus. Analysen görs i syfte att bestämma en morfo- 10 15 20 25 30 35 x 517 496 18 syntaktisk beskrivning av varje löpord hos den på naturligt språk avfattade inmatningen, att lokalisera varje fras i den på naturligt språk avfattade inmatningen, att bestämma en frastyp för var och en av fraserna och att lokalisera enkla satser i den pà naturligt språk avfattade inmatningen. Den morfo- syntaktiska beskrivningen innefattar en ordklass och en böjningsform, och frastyperna innefattar subjektnominalfras, objektnominalfras, andra nominalfraser och prepositionsfraser.
I figur 4 är minnesorganen 404, som är funktionellt kopplade till textanalysenheten 402, anordnade att lagra en på naturligt språk avfattad textkorpus som har analyserats medelst textanalysenheten 402. Vidare är indexeraren 406, som är operativt kopplad till minnesorganen 404, anordnad att indexera en på naturligt språk avfattad textkorpus som är lagrad i minnesorganen 404. Indexeringen är baserad på ett numreringsschema där mellanslagen mellan varje löpord är numrerat i följd. Ett alternativt numreringsschema där varje löpord numreras i följd ligger också inom uppfinningens ramar. Varje löpord definieras sedan av dess ordtyp och numren på de två mellanslagen som det är beläget mellan i den på naturligt språk avfattade textkorpusen. De två numren pà mellanslagen mellan vilka ett löpord är beläget bildar en löpordsposition för detta löpord. Vidare är en fras entydigt definierad genom dess frastyp och numret pà mellanslaget som kommer före frasens första löpord och numret på mellanslaget som kommer efter frasens sista löpord. Numret på mellanslaget som kommer före frasens första löpord och numret på mellanslaget som kommer efter frasens sista löpord bildar en identifierare av frasposition för denna fras. Pá samma sätt definieras en positionsidentifierare för en enkel sats, en mening, ett stycke respektive ett dokument som numret på mellanrummet som kommer före dess första löpord och numret pá mellanrummet som kommer efter dess sista löpord. unna-n u a anno en 10 15 19 Ordtyperna, identifierarna av löpordsposition, frastyperna, identifierarna av frasposition, positionsidentifierarna för en enkel sats, identifierarna av styckesposition, meningsposition och identifierarna av dokumentposition lagras i indexet som är funktionellt kopplat till indexeraren. i tabellen nedan: Indexets logiska struktur visas u .nu a n o nu Textenhet Positionsidentifierare ordtyp 1 Identifierare av löpordsposition ordtyp 2 Identifierare av löpordsposition ordtyp n Identifierare av löpordsposition nps Identifierare av frasposition npo Identifierare av frasposition npx Identifierare av frasposition pp Identifierare av frasposition cl Positionsidentifierare för en enkel sats s Identifierare av meningsposition p Identifierare av styckesposition doc Identifierare av dokumentposition Där nps = subjektnominalfras, npo = objektnominalfras, npx = annan nominalfras, pp = prepositionsfras, cl = enkel sats, s = mening, p = stycke, doc = dokument.
Indexets logiska struktur som àskàdliggörs i tabellen baseras pà en hierarki för textenheter som stàr i relation genom inneslutning. Syftet med indexets flernivàstruktur är att det, i kombination med uppfinningens delade positionssystem för textenheter av olika slag, stöder en sökteknik som medger en snabb access till de textenheter i korpusen som matchar non-nn u I aooooo 10 15 20 25 30 35 517 496 20 uppsättningen av komplexa restriktioner som åläggs av ett givet sökuttryck och dess ytliga varianter.
I figur 4 är sökuttryckshanteringsenheten 410 funktionellt ansluten till textanalysenheten 402 och innefattar organ 420 för skapande av ytliga varianter av ett pà naturligt språk avfattat sökuttryck som har analyserats i textanalysenheten 402. De skapade ytliga varianterna har alla egenskapen att den lexikala innebörden av dess löpord och de ytliga syntaktiska rollerna hos dess konstituenter är ekvivalenta med löpords lexikala innebörd respektive konstituenters ytliga syntaktiska roller hos det pà naturligt spràk avfattade sökuttrycket. Med andra ord kan varje löpord hos den pà naturligt språk avfattade textkorpusen, när en ytlig variant skapas, ersättas med ett eller flera löpord som har samma lexikala innebörd och kan löporden omordnas så länge som varje konstituent hos en variant har en ekvivalent ytlig, syntaktisk roll som motsvarande konstituent i det pà naturligt språk avfattade sökuttrycket. En ytlig, syntaktisk roll är exempelvis, huvudord, bestämning, subjektnominalfras, objektnominalfras etc. Vidare, innefattar sökuttryckshanteringsenheten jämförelseorgan 422 för jämförelse av de ytliga varianterna som skapats i ytvariantenheten och det pà naturligt språk avfattade sökuttrycket med analyserad, på naturligt språk avfattad textkorpus som är lagrad i indexet. Jämförelseorganen 422 använder indexets struktur för att göra jämförelsen.
Genom bestämning av ordtypen hos ett löpord i en ytlig variant, kan index för identifierarna av löpordsposition identifieras i indexet. Vidare kan det, eftersom frastypen som löpordet är i har fastställts i textanalysenheten, fastställas vilka av de identifierade identifierare av löpordsposition som är inkluderade i en fras av samma typ som löpordet i den ytliga varianten.
Detta görs genom genomsökning av identifierarna av frasposition som är associerade med frastypen som l0 15 20 25 v» o o u n n u v no u n u o 517 496 2.: f 21 löpordet i den ytliga varianten är inkluderad i genomsöks och fastställande av vilka av de identifierade identifierarna av löpordsposition som är inkluderade i en av dessa identifierare av frasposition. Denna jämförelse görs för varje löpord i varianten och förutom att det fastställs om löpordet är inkluderat i samma frastyp, används indexet för att fastställa om löporden är inkluderade i samma enkla sats.
Slutligen innefattar systemet i figur 4 en resultathanteringsenhet 412, som är funktionellt kopplad till indexet 412, innefattar en sträng av löpord som matchar någon av de för extrahering av varje textparti som ytliga varianterna eller det på naturligt spràk avfattade sökuttrycket. En löpordsträng i den pà naturligt språk avfattade textkorpusen matchar en ytlig variant om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i den ytliga varianten i samma linjära ordning som i den ytliga varianten. Textpartiet som skall extraheras kan väljas som löpordsträngen själv eller den enkla satsen, meningen, stycket eller dokumentet som löpordsträngen är inkluderad i. Extraheringsorganen använde indexet för att hitta den rätta enkla satsen, meningen, det rätta stycket och dokumentet genom att konsultera av motsvarande positionsidentifierare i indexet.

Claims (20)

10 15 20 25 30 35 517 496 up: nu 22 PATENTKRAV
1. Förfarande för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck, att: innefattande stegen att analysera nämnda pà naturligt språk avfattade textkorpus med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller; att indexera och lagra den analyserade på naturligt språk avfattade textkorpusen; att analysera ett pà naturligt spràk avfattat sökuttryck med avseende på löpords ytliga struktur och konstituenters ytliga syntaktiska roller; att skapa en eller fler ytliga varianter av det analyserade på naturligt språk avfattade sökuttrycket, vilka en eller fler ytliga varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller; att jämföra nämnda en eller fler ytliga varianter och nämnda analyserade på naturligt språk avfattade sökuttryck med nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus; och att, på naturligt språk avfattade textkorpus, extrahera varje från nämnda indexerade och lagrade, analyserade textparti som innefattar en löpordssträng som matchar någon av nämnda ytliga varianter eller nämnda pà naturligt språk avfattade sökuttryck.
2. Förfarande enligt patentkrav 1, varvid nämnda ytliga syntaktiska roller, i nämnda steg att skapa, är rollerna huvudord och bestämning, och satsdelar.
3. Förfarande enligt patentkrav 1, varvid en löpordssträng i nämnda indexerade och lagrade, analyserade pà naturligt språk avfattade textkorpus, i 10 15 20 25 30 35 517 496 . . n ø - » ø n oo ' ' ' v | o o~ 23 steget att extrahera, matchar en av nämnda ytliga varianter av nämnda analyserade på naturligt språk avfattade sökuttryck om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck i samma linjära ordning som i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.
4. Förfarande enligt patentkrav 1, varvid nämnda på naturligt språk avfattade sökuttryck, i steget att analysera ett på naturligt språk avfattat sökuttryck, analyseras på samma sätt som nämnda på naturligt språk avfattade textkorpus analyseras i steget att analysera nämnda på naturligt språk avfattade textkorpus.
5. Förfarande enligt patentkrav 1, varvid steget att analysera en på naturligt språk avfattad textkorpus innefattar stegen: att fastställa en morfo-syntaktisk beskrivning för varje löpord hos nämnda på naturligt språk avfattade textkorpus; att lokalisera fraser i nämnda på naturligt språk avfattade textkorpus; att fastställa en frastyp för var och en av nämnda fraser; och att lokalisera enkla satser i nämnda på naturligt språk avfattade textkorpus, och varvid steget att analysera ett på naturligt språk avfattat sökuttryck innefattas stegen: att fastställa en morfo-sytaktisk beskrivning för varje löpord hos nämnda på naturligt språk avfattade sökuttryck; och att lokalisera fraser i nämnda på naturligt språk avfattade sökuttryck; 10 15 20 25 30 35 517 496 24 att fasställa en frastyp för var och en av nämnda fraser; och att lokalisera enkla satser i nämnda på naturligt språk avfattade sökuttryck.
6. Förfarande enligt patentkrav 5, varvid steget att indexera och lagra innefattar stegen: att förse varje löpord hos nämnda pá naturligt språk avfattade textkorpus med en entydig identifierare av löpordsposition; att lagra information avseende positionen för varje löpord hos nämnda pà naturligt språk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition; att för varje frastyp lagra information avseende positionen för varje fras av denna typ i nämnda på naturligt spràk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition; och att lagra information avseende positionen för varje enkel sats i nämnda pà naturligt spràk avfattade textkorpus baserat pà nämnda entydiga identifierare av löpordsposition.
7. Förfarande enligt patentkrav 6, varvid varje löpord är associerad med en ordtyp och varvid steget att lagra information avseende positionen för varje löpord innefattar stegen: att lagra varje ordtyp hos nämnda på naturligt språk avfattade textkorpus; och att för varje löpord lagra dess entydiga identifierare av löpordsposition länkad till den lagrade, associerade ordtypen.
8. Förfarande enligt patentkrav 7, varvid steget att lagra information avseende positionen för fraser innefattar stegen: 10 15 20 25 30 35 517 496 25 att för varje fras hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av frasposition som identifierar de löpord som frasen spänner över; att lagra varje frastyp hos nämnda på naturligt språk avfattade textkorpus; och att för varje fras lagra dess entydiga identifierare av frasposition logiskt länkad till den lagrade, associerade frastypen.
9. Förfarande enligt patentkrav 8, varvid steget att lagra information avseende positionen för enkla satser innefattar stegen: att för varje enkel sats hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig positionsidentifierare för en enkel sats, vilken identifierare identifierar de löpord och fraser som den enkla satsen spänner över; att för varje enkel sats lagra dess entydiga positionsidentifierare för en enkel sats.
10. Förfarande enligt patentkrav 9, vidare innefattande stegen: att lokalisera meningar i nämnda på naturligt språk avfattade textkorpus; och att för varje mening hos nämnda på naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av meningsposition som identifierar de löpord, fraser och enkla satser som meningen spänner över; att för varje mening lagra dess entydiga identifierare av meningsposition.
11. Förfarande enligt patentkrav 10, vidare innefattande stegen: att lokalisera stycken i nämnda på naturligt språk avfattade textkorpus; och 10 15 20 25 30 35 QIII 9 Ü u nu u n no I ' " ' u. n 2 . . °. - . . - .. u - ° 'I -° . u . 1 ø n n o I v : g. , _ uno »nu co 0 h I ' : _ . , , v p u a. n n v u. _ . . 1 n n. .u u. -v 26 att för varje stycke hos nämnda pà naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av styckesposition som identifierar de löpord, fraser, enkla satser och meningar som stycket spänner över; att för varje stycke lagra dess entydiga identifierare av styckesposition.
12. Förfarande enligt patentkrav 11, vidare innefattande stegen: att lokalisera dokument i nämnda pà naturligt språk avfattade textkorpus; och att för varje dokument hos nämnda pà naturligt språk avfattade textkorpus tillhandahålla en entydig identifierare av dokumentposition som identifierar de löpord, fraser, enkla satser, meningar och stycken som dokumentet spänner över; att för varje dokument lagra dess entydiga identifierare av dokumentposition.
13. Förfarande enligt patentkrav 1, varvid ett textparti som extraheras i steget att extrahera, antingen är den matchande löpordsträngen, en enkel sats som innefattar den matchande löpordsträngen, en mening som innefattar den matchande löpordsträngen, ett stycke som innefattar den matchande löpordsträngen eller ett dokument som innefattar den matchande löpordsträngen.
14. Förfarande enligt patentkrav 1, vidare innefattande steget: att organisera den extraherade informationen enligt graden av överensstämmelse med sökuttrycket med avseende pà löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, så att en konstituent i ett textparti som har samma lemma som motsvarande konstituent hos sökuttrycket anses ha en högre grad av överensstämmelse 10 15 20 25 30 35 517 27 än en konstituent i ett textparti, vilken konstituent är en synonym till motsvarande konstituent hos sökuttrycket.
15. Förfarande enligt patentkrav 1, vidare innefattande steget: att organisera den extraherade informationen så att nämnda textpartier grupperas i enlighet med likhet hos grammatiskt subjekt, grammatiskt objekt och lexikalt huvudverb.
16. System för extrahering av information från en på naturligt språk avfattad textkorpus baserat på ett på naturligt språk avfattat sökuttryck, innefattande: en textanalysenhet (402) för analys av en på naturligt språk avfattad textkorpus och ett på naturligt språk avfattat sökuttryck med avseende på ords ytliga struktur och konstituenters ytliga syntaktiska roller; lagringsorgan (404), som är funktionellt kopplade till nämnda textanalysenhet, för lagring av den analyserade på naturligt språk avfattade textkorpusen; en indexerare (406), som är funktionellt kopplade till nämnda lagringsorgan, för indexering av den analyserade på naturligt språk avfattade textkorpusen; ett index (408), som ör funktionellt kopplat till nämnda indexerare, för lagring av nämnda indexerade på naturligt språk avfattade textkorpus; en sökuttryckshanteringsenhet (410), som är funktionellt kopplad till nämnda textanalysenhet, innefattande organ (420) för skapande av ytliga varianter av nämnda på naturligt språk avfattade sökuttryck, vilka ytliga varianter är ekvivalenta med nämnda på naturligt språk avfattade sökuttryck med avseende på löpords lexikala innebörd och konstituenters ytliga syntaktiska roller, och organ (422) för jämförelse med nämnda ytliga varianter och nämnda analyserade på naturligt språk avfattade sökuttryck med den indexerade, analyserade på u o u u. o o :I I ' °' a e n u u n n u v nu H = z '_ _ . u . n 0 u u n I z o _ _ , , nu. nu o; v I 0 ' u , . , , v ' ' " ' ' ' nu o . . u u u u. u. n. 10 15 20 25 30 35 ...- . . ... . . .. . ; .". .å . u nu n u I n 0 'I ° _ , , . .- a . u o I z I z I . , , . n- u.. .- n v . u u u i . 4 . a ; : :z N Ü. N." N.. 28 naturligt språk avfattade textkorpusen i nämnda index; och (410), som är funktionellt kopplad till nämnda index, för extrahering, en resultathanteringsenhet från nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus, av varje textparti som innefattar en löpordsträng som matchar någon av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.
17. System enligt patentkrav 16, varvid en löpordssträng i nämnda indexerade och lagrade, analyserade på naturligt språk avfattade textkorpus matchar en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck om den innefattar huvudorden hos fraser som är satsdelarna subjekt, objekt och lexikalt huvudverb i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck i samma linjära ordning som i nämnda en av nämnda ytliga varianter eller nämnda analyserade på naturligt språk avfattade sökuttryck.
18. System enligt patentkrav 16, varvid nämnda index innefattar flera index som baseras på en hierarki av textenheter som står i relation till varandra genom inneslutning.
19. Av en dator läsbart medium som har av en dator exekverbara instruktioner för att en generell dator skall utföra stegen som återges i något av kraven 1-15.
20. Datorprogram som innefattar av en dator exekverbara instruktioner för utförande av stegen som återges i något av kraven 1-15.
SE0002368A 2000-06-22 2000-06-22 Metod och system för informationsextrahering SE517496C2 (sv)

Priority Applications (7)

Application Number Priority Date Filing Date Title
SE0002368A SE517496C2 (sv) 2000-06-22 2000-06-22 Metod och system för informationsextrahering
US09/599,563 US6842730B1 (en) 2000-06-22 2000-06-23 Method and system for information extraction
AU2001266481A AU2001266481A1 (en) 2000-06-22 2001-06-20 Method and system for information extraction
EP01944033A EP1311983A1 (en) 2000-06-22 2001-06-20 Method and system for information extraction
PCT/SE2001/001409 WO2001098946A1 (en) 2000-06-22 2001-06-20 Method and system for information extraction
US11/032,075 US7194406B2 (en) 2000-06-22 2005-01-11 Method and system for information extraction
US11/723,079 US7657425B2 (en) 2000-06-22 2007-03-16 Method and system for information extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0002368A SE517496C2 (sv) 2000-06-22 2000-06-22 Metod och system för informationsextrahering

Publications (3)

Publication Number Publication Date
SE0002368D0 SE0002368D0 (sv) 2000-06-22
SE0002368L SE0002368L (sv) 2001-12-23
SE517496C2 true SE517496C2 (sv) 2002-06-11

Family

ID=20280222

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0002368A SE517496C2 (sv) 2000-06-22 2000-06-22 Metod och system för informationsextrahering

Country Status (5)

Country Link
US (3) US6842730B1 (sv)
EP (1) EP1311983A1 (sv)
AU (1) AU2001266481A1 (sv)
SE (1) SE517496C2 (sv)
WO (1) WO2001098946A1 (sv)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7254773B2 (en) * 2000-12-29 2007-08-07 International Business Machines Corporation Automated spell analysis
US7831442B1 (en) * 2001-05-16 2010-11-09 Perot Systems Corporation System and method for minimizing edits for medical insurance claims processing
US7822621B1 (en) 2001-05-16 2010-10-26 Perot Systems Corporation Method of and system for populating knowledge bases using rule based systems and object-oriented software
US8380491B2 (en) * 2002-04-19 2013-02-19 Educational Testing Service System for rating constructed responses based on concepts and a model answer
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
US20040019478A1 (en) * 2002-07-29 2004-01-29 Electronic Data Systems Corporation Interactive natural language query processing system and method
US7293005B2 (en) 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7499913B2 (en) 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US7877383B2 (en) * 2005-04-27 2011-01-25 Microsoft Corporation Ranking and accessing definitions of terms
US8417693B2 (en) 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US8209335B2 (en) * 2005-09-20 2012-06-26 International Business Machines Corporation Extracting informative phrases from unstructured text
US7895193B2 (en) * 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
US7533089B2 (en) * 2006-06-27 2009-05-12 International Business Machines Corporation Hybrid approach for query recommendation in conversation systems
US10796093B2 (en) 2006-08-08 2020-10-06 Elastic Minds, Llc Automatic generation of statement-response sets from conversational text using natural language processing
WO2008061002A2 (en) * 2006-11-14 2008-05-22 Networked Insights, Inc. Method and system for automatically identifying users to participate in an electronic conversation
US20080154853A1 (en) * 2006-12-22 2008-06-26 International Business Machines Corporation English-language translation of exact interpretations of keyword queries
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
US8112402B2 (en) 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US8001138B2 (en) * 2007-04-11 2011-08-16 Microsoft Corporation Word relationship driven search
US8374844B2 (en) * 2007-06-22 2013-02-12 Xerox Corporation Hybrid system for named entity resolution
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
US7925743B2 (en) * 2008-02-29 2011-04-12 Networked Insights, Llc Method and system for qualifying user engagement with a website
US8224843B2 (en) * 2008-08-12 2012-07-17 Morphism Llc Collaborative, incremental specification of identities
US8135580B1 (en) 2008-08-20 2012-03-13 Amazon Technologies, Inc. Multi-language relevance-based indexing and search
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
US8949265B2 (en) * 2009-03-05 2015-02-03 Ebay Inc. System and method to provide query linguistic service
US8843476B1 (en) * 2009-03-16 2014-09-23 Guangsheng Zhang System and methods for automated document topic discovery, browsable search and document categorization
US8447632B2 (en) * 2009-05-29 2013-05-21 Hyperquest, Inc. Automation of auditing claims
US8073718B2 (en) 2009-05-29 2011-12-06 Hyperquest, Inc. Automation of auditing claims
US8346577B2 (en) 2009-05-29 2013-01-01 Hyperquest, Inc. Automation of auditing claims
US8255205B2 (en) 2009-05-29 2012-08-28 Hyperquest, Inc. Automation of auditing claims
US9836460B2 (en) * 2010-06-11 2017-12-05 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for analyzing patent-related documents
WO2012045492A1 (en) * 2010-10-07 2012-04-12 Dublin Institute Of Technology Content retrieval system
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
US8498972B2 (en) * 2010-12-16 2013-07-30 Sap Ag String and sub-string searching using inverted indexes
US9244902B2 (en) 2011-10-20 2016-01-26 Zynga, Inc. Localization framework for dynamic text
US10068024B2 (en) * 2012-02-01 2018-09-04 Sri International Method and apparatus for correlating and viewing disparate data
WO2013174407A1 (de) * 2012-05-24 2013-11-28 Iqser Ip Ag Erzeugung von anfragen an ein datenverarbeitendes system
US9298754B2 (en) * 2012-11-15 2016-03-29 Ecole Polytechnique Federale de Lausanne (EPFL) (027559) Query management system and engine allowing for efficient query execution on raw details
JP5882241B2 (ja) * 2013-01-08 2016-03-09 日本電信電話株式会社 質問応答用検索キーワード生成方法、装置、及びプログラム
US10073835B2 (en) * 2013-12-03 2018-09-11 International Business Machines Corporation Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US9721004B2 (en) 2014-11-12 2017-08-01 International Business Machines Corporation Answering questions via a persona-based natural language processing (NLP) system
US10146751B1 (en) * 2014-12-31 2018-12-04 Guangsheng Zhang Methods for information extraction, search, and structured representation of text data
JP6447161B2 (ja) * 2015-01-20 2019-01-09 富士通株式会社 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
US10289680B2 (en) * 2016-05-31 2019-05-14 Oath Inc. Real time parsing and suggestions from pre-generated corpus with hypernyms
WO2024075086A1 (en) * 2022-10-07 2024-04-11 Open Text Corporation System and method for hybrid multilingual search indexing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5309359A (en) 1990-08-16 1994-05-03 Boris Katz Method and apparatus for generating and utlizing annotations to facilitate computer text retrieval
US5519608A (en) 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
JPH0756933A (ja) 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
EP0934569A2 (en) 1996-04-04 1999-08-11 Flair Technologies, Ltd. A system, software and method for locating information in a collection of text-based information sources
GB9713019D0 (en) 1997-06-20 1997-08-27 Xerox Corp Linguistic search system
CN100524294C (zh) 1997-07-22 2009-08-05 微软公司 使用自然语言处理技术用于处理文本输入的系统
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6965857B1 (en) * 2000-06-02 2005-11-15 Cogilex Recherches & Developpement Inc. Method and apparatus for deriving information from written text

Also Published As

Publication number Publication date
US20050131886A1 (en) 2005-06-16
AU2001266481A1 (en) 2002-01-02
EP1311983A1 (en) 2003-05-21
US6842730B1 (en) 2005-01-11
WO2001098946A1 (en) 2001-12-27
US7657425B2 (en) 2010-02-02
SE0002368L (sv) 2001-12-23
US20070168181A1 (en) 2007-07-19
SE0002368D0 (sv) 2000-06-22
US7194406B2 (en) 2007-03-20

Similar Documents

Publication Publication Date Title
SE517496C2 (sv) Metod och system för informationsextrahering
Nie Cross-language information retrieval
US7707023B2 (en) Method of finding answers to questions
Levow et al. Dictionary-based techniques for cross-language information retrieval
CA2614416C (en) Processing collocation mistakes in documents
Carlson et al. Memory-based context-sensitive spelling correction at web scale
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
Vilares et al. Managing misspelled queries in IR applications
Davis On the effective use of large parallel corpora in cross-language text retrieval
Lindén Multilingual modeling of cross-lingual spelling variants
JP2004133564A (ja) 文書検索装置
Nwesri et al. Effective retrieval techniques for Arabic text
Lazarinis Engineering and utilizing a stopword list in Greek web retrieval
Liang Spell checkers and correctors: A unified treatment
Benajiba et al. Arabic question answering
Wu et al. A study of using an out-of-box commercial MT system for query translation in CLIR
Hartrumpf et al. Semantic duplicate identification with parsing and machine learning
Mutawa et al. An HPSG approach to Arabic nominal sentences
Otair et al. An Arabic retrieval system with native language rather than SQL queries
Lawrie et al. Cross-language person-entity linking from twenty languages
Honglan Using web resources for effective English-to-Chinese cross language information retrieval
Papakitsos et al. Lazy tagging with functional decomposition and matrix lexica: an implementation in Modern Greek
Cucerzan A case study of using web search statistics: case restoration
Roh et al. Recognizing coordinate structures for machine translation of English patent documents
Davies Annotation without lexicons: an alternative to the standard bootstrapping approach

Legal Events

Date Code Title Description
NUG Patent has lapsed