SE524457C2

SE524457C2 - Informationssökning av digitaliserad textinformation baserad på konceptvektoreråste åtgärdas före fristens utgång

Info

Publication number: SE524457C2
Application number: SE0200108A
Authority: SE
Inventors: Per Lindh; Bjoern Loendahl
Original assignee: Elucidon Ab
Priority date: 2002-01-16
Filing date: 2002-01-16
Publication date: 2004-08-10
Also published as: SE0200108D0; SE0200108L

Description

25 30 35 524 457 u - » | nu n apparater, där dokument och sökfrågor jämförs baserat på den ömsesidiga förekomsten av ord. Icke desto mindre, omtvå dokument beskriver samma ämne, men olika ord är den.här metoden oförmögen att finna någon koppling mellan doku- menten.

I syfte att tackla detta problem, och att förbättra informa- tionssökningssystemen, bedrivs för närvarade forskning med målet att alstra konceptuella representationer av dokument. Den konceptuella representationen inbegriper skapandet av en relativt kompakt termvektorrepresentation på basis av ordin- dexering, som åstadkoms enligt tidigare kända metoder. Exem- pelvis kan de initiala termvektorerna reduceras matematiskt till en lägre dimension medelst så kallad latent semantisk indexering. Ett annat tillvägagångssätt är att skapa en koncept- representation baserat på förekomsten av valda konceptord.

Den senare metoden diskuteras i civilingenjörsexamensarbetet "Artificial Intelligence in an Online Newspaper", Computer Science & Engineering vid Linköpings tekniska högskola, Sverige, 2000 av Löndahl med flera och i den internationella patentansökan WO00/63837. Ett gemensamt särdrag hos de ovan nämnda metoderna är att de resulterar i en dokument- konceptfördelning, det vill säga en viktad lista över koncept- komponenter där antalet koncept är mycket lägre än det totala antalet termer. System baserade på sådana metoder kan använ- das för att finna förhållanden mellan dokument, vilka inte delar några gemensamma ord.

Andra exempel på forskning som är besläktad med föreliggande uppfinning rör metoder för att finna semantiska förhållanden mellan ord. Sådana förhållanden är intressanta att upptäcka, exempelvis när man utför orddisambiguering 'och när man automatgenererar ordböcker. Orddisambiguering utgör en an- senlig utmaning vid bearbetning av naturligt språk och inbegriper härledning av kontextuell mening hos ett mångtydigt ord, såsom ”bank” (eng.), vilket har olika betydelse om samman- hanget är "pengar" (eng. ”money") eller en ”flod” (eng. "river”). 10 15 20 25 30 524 457 De flesta av de tidigare föreslagna metoderna baseras på beräkningar av termers samförekomst, det vill säga termför- hållanden beräknas baserat på frekvensen med vilken termer förekommer tillsammans i samma dokument. Forskning har även bedrivits för att finna en konceptuell representation av ord baserat på ordens närhet i en dokumentsamling. Det ameri- kanska patentet 5,325,298 beskriver metoder för att alstra eller redigera kontextvektorer för ett flertal ordstammar. Den representation som detta resulterar i kan användas för att alstra den konceptuella representationen av dokumenten i dokumentsamlingen. Även om många av dagens mest avancerade informationssök- ningssystem generellt sett är kapabla att leverera ett precist och förhållandevis relevant sökresultat återstår det fortfarande mycket utveckling att göra på det här området. Exempelvis kan inte explicita term-tilI-termförhållanden uttryckas. Därför, även om vissa av de kända metoderna lyckas finna dokument, vilka innefattar termer som är synonyma (eller på annat sätt ekvivalenta) med användarens söktermer, kan de inte förklara varför dessa dokument påträffades. Ett annat problem med de kända metoderna är att kvaliteten på sökresultatet alltid begränsas av en övre gräns, som ges av noggrannheten hos användarens sökfråga. Alltså, ett dåligt val av sökfras leder oundvikligen till ett relativt dåligt sökresultat.

SAMMANFATTNING AV UPPFINNINGEN Det är därför ett syfte med uppfinningen att minska ovanstående problem och sålunda tillhandahålla en förbättrad lösning för att bearbeta digitaliserad textinformation baserat på explicita förhållanden mellan synonyma termer.

Det är även ett syfte med uppfinningen att erbjuda en informa- tionssökning med en förbättrad återkoppling, vilken överstiger en maximal resultatnoggrannhet enligt vad som ges av den inledande sökfrasen. a o | ; u a u. 10 15 20 25 30 524 457 Q ø n a nu Enligt en aspekt av uppfinningen uppnås dessa syften genom den inledningsvis beskrivna metoden för bearbetning av digitaliserad textinformation, vilken kännetecknas av alstring av term-till-konceptvektorerna för dokumentsamlingen på basis av konceptvektorerna. Sedan, baserat på term-till-konceptvekto- rerna för dokumentsamlingen, alstras en term-termmatris vilken beskriver ett term-till-termförhàllande mellan termer i dokument- samlingen. Slutligen härleds den bearbetade textinformationen ur term-termmatrisen.

En viktig fördel som uppnås med term-termmatrisen är att den tillhandahåller precisa kopplingar mellan synonyma termer och närliggande uttryck. Detta utgör i sin tur en grund för att åstadkomma högkvalitativa dokumentsökningar, det vill säga sökningar i vilka högrelevant information identifieras.

Enligt en föredragen utföringsform av den här aspekten uppfinningen är varje dokument i dokumentsamlingen knutet till en dokument-konceptmatris. Dokument-konceptmatrisen repre- senterar åtminstone ett konceptelement vars relevans med avseende på dokumentet beskrivs av en viktfaktor. Alstringen av varje term-till-konceptvektor inbegriper följande steg. För det första, identifieras en termrelevant uppsättning av dokument i dokumentsamlingen. Varje dokument i denna termrelevanta uppsättning innehåller åtminstone en kopia av termen. För det andra, beräknas en termvikt för termen i varje dokument i den termrelevanta uppsättningen. För det tredje tas en respektive konceptvektor fram, vilken är knuten med vart och ett av dokumenten i den termrelevanta uppsättningen. Termvikten måste emellertid överstiga ett första tröskelvärde. För det fjärde, väljs en relevant uppsättning av konceptvektorer ut, som inne- fattar alla konceptvektorer där åtminstone en konceptkomponent överstiger ett andra tröskelvärde. För det femte, beräknas en icke-normaliserad term-till-konceptvektor som summan av alla konceptvektorer i den relevanta uppsättningen. Slutligen, nor- maliseras den icke-normaliserade term-till-konceptvektorn. 1 v | n ø n 10 15 20 25 30 524 457 | ~ ø | nu Denna delprocedur är fördelaktig eftersom den åstadkommer adekvata term-till-konceptassociationer på ett mycket effektivt sätt. Dessutom kan proceduren kalibreras på ett lämpligt sätt med hänsyn till tillämpningen med hjälp av det första och det andra tröskelvärdet.

Enligt en annan föredragen utföringsform av denna aspekt av uppfinningen inbegriper alstringen av term-termmatrisen föl- jande steg. För det första, hämtas en term-till-konceptvektor för varje term i varje kombination av två unika termer i dokument- samlingen. För det andra, alstras en relationsvektor, vilken beskriver förhållandet mellan termerna i varje kombination av unika termer. Varje komponent i relationsvektorn är här lika med ett lägsta komponentvärde hos motsvarande komponentvärden i term-till-konceptvektorerna. För det tredje, alstras ett relations- värde för varje kombination av unika termer. Relationsvärdet utgör summan av alla komponentvärden i motsvarande rela- tionsvektor. Slutligen, alstras en matris som innehåller rela- tionsvärden för alla kombinationer av två unika termer i doku- mentsamlingen.

Term-termmatrisen är i sig ett önskvärt resultat, eftersom den utgör en värdefull källa för synonyma ord och uttryck. Dessutom är den ovan beskrivna delproceduren attraktiv, eftersom den åstadkommer term-termmatrisen på ett beräkningseffektivt sätt.

Enligt ännu en föredragen utföringsform av den här aspekten av uppfinningen beräknas ett statistiskt samförekomstvärde mellan varje kombination av två unika termer i dokumentsamlingen.

Detta värde beskriver den beroende sannolikheten att en viss andra term existerar i ett dokument givet att en viss första term existerar i dokumentet. Det statistiska samförekomstvärdet införlivas sedan i term-termmatrisen för att representera lexikala förhållanden mellan termerna i dokumentsamlingen. Term-term- matrisen förbättras därmed medelst ett lexikalt relationsmàtt, vilket erbjuder en önskvärd precision i många tillämpningar. v n u | oo 10 15 20 25 30 524 457 6 u u u I -1 Enligt ännu en föredragen utföringsform av den här aspekten av uppfinningen visas den bearbetade textinformationen på ett format som är anpassat för mänsklig förståelse, exempelvis ett grafiskt format. Givetvis förbättrar ett sådant format chansen att högkvalitativ information når användaren.

Enligt en annan föredragen utföringsform av den här aspekten av uppfinningen inbegriper visningssteget presentation av åtminstone en dokumentidentifierare som anger ett dokument vilket är relevant för åtminstone en term i en sökfråga, presen- tation av åtminstone en term som är besläktad med en term i en sökfråga, och/eller presentation av en konceptuell fördelning som representerar ett konceptuellt förhållande mellan två eller flera termer i dokumentsamlingen. Den konceptuella fördel- ningen baseras på delade koncept vilka är gemensamma för nämnda termer.

Alla dessa informationsbitar utgör ändvändbar returdata och är sålunda önskvärda vid informationssökningsprocessen.

Enligt ännu en annan föredragen utföringsform av den här aspekten av uppfinningen inbegriper visningssteget presentation av åtminstone en dokumentidentifierare vilken anger ett dokument som är relevant med avseende på åtminstone en term i en sökfråga tillsammans med åtminstone ett användarangivet koncept. Denna procedur kan innefatta två delsteg där, i ett första steg, åtminstone två koncept från de delade koncepten i den konceptuella fördelningen presenteras för användaren. I ett andra steg indikerar användaren vilket (vilka) koncept som skall kombineras i syfte att alstra ett mera avgränsat resultat. Detta är fördelaktigt eftersom det såväl borgar för en användarvänlig interaktion som åstadkommer adekvata returdata.- Enligt ytterligare en annan föredragen utföringsform av den här aspekten av uppfinningen illustreras det konceptuella förhål- landet mellan en första term och åtminstone en andra term medelst ett respektive relevansmàtt, vilket är knutet till den - | . ø .n 10 15 20 25 30 524 457 ~ n u « |ø 7 åtminstone en andra termen med avseende på den första termen. Relevansmàttet indikerar styrkan av länken mellan den första och den andra termen. l de flesta fall är denna länk asym- metrisk, det vill säga relevansmåttet i den motsatta riktningen har ett annat värde.

Enligt en annan föredragen utföringsform av den här aspekten av uppfinningen visualiseras styrkan i förhållandet mellan två eller flera termer grafiskt. En fördelaktig effekt av detta är att vissa ord och uttryck som är närmast relaterade till varandra därmed kan påträffas mycket effektivt.

Enligt ännu en annan föredragen utföringsform av den här aspekten av uppfinningen visas den bearbetade textinfor- mationen som en avståndsgraf där varje term utgör en nod. En nod som representerar en första term är därmed förbunden med en eller flera noder som representerar andra termer till vilka den första termen har ett konceptuellt förhållande av åtminstone en viss styrka. Relevansmàttet mellan den första termen och den andra termen representeras av ett minsta antal nodhopp där emellan. Denna typ av anståndsgraf utgör ett första föredraget exempel på en källa för att härleda utdata i form av konceptuella förhållanden mellan ord och uttryck.

Enligt en annan föredragen utföringsform av den här aspekten av uppfinningen visas den bearbetade textinformationen i form av en avståndsgrafi vilken varje term utgör en nod. En nod som representerar en första term är därmed förbunden med en eller flera andra noder som representerar andra termer till vilka den första termen har ett konceptuellt förhållande. Dessutom är varje förbindelse förknippad med en randvikt, vilken representerar styrkan hos ett konceptuellt förhållande med vilket termen via förbindelsen i fråga är knuten till de närliggande noderna.

Relevansmàttet mellan den första termen och en viss andra term representeras av en ackumulering av randvikter vilka är knutna till de förbindelser som utgör ett minsta antal nodhopp mellan den första termen och denna andra term. Den här typen av ~ . . o a. 10 15 20 25 30 524 457 :sn ,E,_ 8 avståndsgraf utgör ett andra föredraget exempel på en källa för att härleda utdata i form av konceptuella förhållanden mellan ord och uttryck.

Enligt ännu en annan föredragen utföringsform av den här aspekten av uppfinningen representerar varje term i dokument- samlingen antingen ett enstaka ord, ett egennamn, en fras, eller en samling av enstaka ord.

Enligt en annan aspekt av uppfinningen uppnås dessa syften genom ett datorprogram vilket är direkt nedladdbart i intern- minnet hos en digital dator, innefattande mjukvara för att styra metoden vilken beskrivs ovan när nämnda program körs på en dator.

Enligt ännu en annan aspekt av uppfinningen uppnås dessa syften genom ett datorläsbart medium, i vilket ett program finns lagrat, där programmet är ägnat att förmå en dator att utföra metoden som beskrivs ovan.

Enligt ytterligare en annan aspekt av uppfinningen uppnås dessa syften genom den inledningsvis beskrivna sökmotorn, vilken kännetecknas av att bearbetningsenheten i sin tur inne- fattar en bearbetningsmodul och en utforskningsmodul. Bearbet- ningsmodulen är anpassad för att motta term-till-koncept- vektorer för dokumentsamlingen. Baserat på term-till-koncept- vektorerna alstrar bearbetningsmodulen en term-termmatris, vilken beskriver förhållanden mellan termerna i dokumentsam- lingen. Utforskningsmodulen är anpassad för att motta sök- frågan och term-termmatrisen. Baserat på dessa indata bear- betar utforskningsmodulen term-termmatrisen och alstrar den bearbetade textinformationen.

Denna sökmotor är fördelaktig eftersom den är kapabel att identifiera förhållanden mellan synonyma ord och uttryck, vilka typiskt sett inte kan påträffas enligt de tidigare kända sökmotorerna. Som en ytterligare effekt av den föreslagna sökmotorn kan relevanta dokument och information tas fram « - n - e. 10 15 20 25 30 524 457 9 v ~ u - .n vilken annars skulle ha missats.

Enligt ännu en annan aspekt av uppfinningen uppnås dessa syften genom den inledningsvis beskrivna databasen, vilken kännetecknas av att den är anpassad för att leverera term-till- konceptvektorerna till den föreslagna sökmotorn. En databas där informationen har detta format är önskvärd, eftersom detta avsevärt förkortar den genomsnittliga svarstiden för sökningar enligt den föreslagna principen.

Enligt en föredragen utföringsform av den här aspekten av upp- finningen innefattar databasen en iterativ term-till-konceptmotor, vilken är anpassad för att motta ny digitaliserad textinformation vilken ska adderas till databasen. Baserat på den tillagda informationen alstrar den iterativa term-till-konceptmotorn konceptvektorer för eventuella adderade dokument, och alstrar en term-till-konceptvektor, vilken beskriver förhållandet mellan eventuella tillagda termer och var och en av konceptvektorerna.

En viktig fördel som uppnås medelst den iterativa term-till- konceptmotorn är att den medger informationsuppdatering utan att detta fordrar en total återuppbyggnad av konceptvektorerna och term-till-konceptvektorerna_ Enligt ännu en aspekt av uppfinningen uppnås dessa syften genom den inledningsvis beskrivna servern, vilken känne- tecknas av att den innefattar en sökmotor, och ett kommunika- tionsgränssnitt mot den föreslagna databasen. Den här servern möjliggör alltså sökningar enligt den föreslagna metoden.

Enligt ännu en aspekt av uppfinningen uppnås dessa syften genom det inledningsvis beskrivna systemet, vilket känne- tecknas av att det innefattar den ovan beskrivna servern, åtminstone en användarklient anpassad för att kommunicera med servern, och en kommunikationslänk vilken förbinder den åtminstone en användarklienten med servern. Företrädesvis åstadkoms åtminstone en del av kommunikationslänken over ett internet (såsom det publika Internet) och användarklienten 10 15 20 25 30 524 457 ~ . . . ,, 10 innefattar en webbläddrare. Denna bläddrare erbjuder i sin tur ett användargränssnitt via vilket en användare kan mata in sökfrågor till servern. Webbläddraren tar även emot bearbetad textinformation från servern och presenterar den för en användare. Därigenom kan snabb fjärråtkomst till informationen i databasen erbjudas.

Baserat på en mängd textdata vilken är organiserad i en dokumentsamiing och en metod för att klassificera dokument på en konceptuell nivå tillhandahåller således uppfinningen en lösning för att alstra en konceptuell representation av alla termer i datamängden på basis av termernas samförekomst i dokumenten och dokumentens konceptuella klassificering. En länkning mellan varje term kan därmed uttryckas medelst ett likhetsmått. Detta åstadkoms i sin tur genom identifiering av ömsesidiga konceptuella representationer av termkombinationer följt av en beräkning av ett statistiskt mått för termers samföre- komst. En matris som beskriver term-tilI-termförhållanden kan alltså bildas. Denna matris beskriver både en konceptuell och en lexikal likhet mellan termerna. Dessutom kan matrisen presenteras grafiskt, antingen som en konventionell graf eller som ett relationsnätverk, vilket är anpassat för mänsklig för- ståelse.

De föreslagna konceptuella representationerna och förhållan- dena medger utförande av sofistikerade ningsoperationer, såsom att finna termer vilka identifierar ämnen som är gemensamma för vissa termer och åskådliggöra term- förhållanden. Dessutom kan dokument som är relevanta för en eller flera termer tas fram och filtreras baserat på deras konceptuella representationer.

KORT BESKRIVNING AV RITNINGARNA Uppfinningen kommer nu att beskrivas närmare med hjälp av föredragna utföringsformer, vilka beskrivs som exempel, och med hänvisning till de bifogade figurerna, där: s - « - .. informationssök- ' 10 15 20 25 Figur 1 Figur 2 Figur 3 Figurer 4a-c Figur 5 Figur 6 Figurer 7a-b Figur 8 Figur 9 Figur 10 524 457 11 visar ett system för att tillhandahålla databearbet- ningstjänster enligt en utföringsform av uppfin- ningen, illustrerar, medelst ett flödesschema, en indexe- ringsförbearbetningsprocedur enligt en utförings- form av uppfinningen, visar ett flödesschema, vilket ger en överblick över metoden som utförs av den föreslagna bearbet- ningsmodulen, illustrerar en sekvens enligt en utföringsform av uppfinningen genom vilken term-till-termförhål- landen etableras, illustrerar, medelst ett flödesschema, en metod för alstring av en term-dokumentmatris enligt en utfö- ringsform av uppfinningen, illustrerar, medelst ett flödesschema, en metod för uppdatering av en dokumentsamling med adderad data enligt en utföringsform av uppfinningen, illustrerar hur ett term-till-termförhållande kan eta- bleras enligt en utföringsform av uppfinningen, illustrerar, medelst ett flödesschema, en metod för alstring av en term-termmatris enligt en utförings- form av uppfinningen, illustrerar, medelst ett flödesschema, hur en föreslagen utforskningsmodul arbetar enligt en utföringsform av uppfinningen, ' illustrerar, medelst ett flödesschema, en metod för att finna skiftad information enligt en utföringsform av uppfinningen, . u 1 | I . u av 10 15 20 25 30 524 457 12 Figur11 visar ett exempel på en term-termmatris, vilken visas i form av ett relationsnätverk enligt en utfö- ringsform av uppfinningen, visar ett flödesschema, vilket sammanfattar den föreslagna metoden för att bearbeta digitaliserad textinformation, Figur 12 visar ett flödesschema, vilket sammanfattar en första föredragen utföringsform av den föreslagna metoden för att bearbeta digitaliserad textinfor- mation, och Figur 13 visar ett flödesschema, vilket sammanfattar en andra föredragen utföringsform av den föreslagna metoden för att bearbeta digitaliserad textinfor- mation.

Figur 14 REDoGÖRELsE FÖR FÖREDRAGNA uTFÖRiNGsFoRMER Av UPPHNNINGEN Följande definitioner är giltiga med hänsyn till beskrivningen av föreliggande uppfinning.

Dokument Såvida inte annat anges avses med "dokument" vilken slags textinformation som helst skriven på godtyckligt språk, exem- pelvis ett helt textdokument, en viss del av ett dokument, ingressen till ett dokument, ett stycke eller annan delmängd av en text. Utöver den faktiska textinformationen (”nytto|asten”) kan ett dokument innehålla metainformation, såsom data som anger språk, författare, datum då dokumentet skapades, bilder, länkar, nyckelord, ljud videoklipp etc.

Egennamn Såvida inte annat anges avses det att uttrycket “egennamn" anger ett eller flera substantiv vilka betecknar en viss entitet (varelse eller sak). Normalt sett innefattar ett "egennamn" inte a » . | .- 10 15 20 25 30 524 457 n . - . .- 13 någon begränsande bestämning och i de flesta engelskspråkiga fall skrivs det med versala bokstäver. Ett exempel på egennamn är “Capitol Hill”.

Ietm Såvida inte annat anges refererar “term" till ett enstaka ord, en fras, ett egennamn, en sammansatt ord eller annan flerords- struktur.

Koncegt Såvida inte annat anges betyder ”koncept” en abstrakt eller en allmän idé som kan utläsas eller härledas från specifika exempel. Vanligen kan ett koncept beskrivas med ett enda ord, såsom politik.

Dokumentsamling Såvida inte annat anges refererar uttrycket ”dokumentsamling” till en samling av dokument, såsom ett textarkiv, en nyhetskälla eller en artikeldatabas. En dokumentkälla som ofta används är Reuters-21578 Text Categorization Test Collection (www.research.att.com/~lewis/reuters21578.html).

Föreliggande uppfinning avser allmänt informationssöknings- lösningar för att efterforska information. lnformationsefter- forskning avser i det här sammanhanget förmågan att erbjuda en användare hjälp med att ta fram specifika delmängder av information ur en större mängd information. lnformationsefter- forskning innebär även att finna förhållanden i en given mängd information. Enligt uppfinningen kan detta åstadkommas utan användning av Boleska sökfrågor, vilka annars är standard- mässiga vid arbete med informationssökningssystem.

Funktionaliteten hos den föreslagna lösningen baseras på en konceptuell representation av de termer som används i en dokumentsamling och konceptuella förhållanden mellan termer.

På basis av sådana förhållanden kan en användare välja en eller flera termer och få relaterat material presenterat för sig. ~ | ; n ,. 10 15 20 25 30 524 457 n . | . n. 14 Det föreslagna systemet är nämligen kapabelt att presentera relaterade termer, relaterade dokument såväl som grafiska sammandrag av de valda termerna.

Dessutom, genom att använda de alstrade konceptuella rela- tionerna kan systemet grafiskt visa hur olika informationsbitar förhåller sig till varandra och därmed göra det möjligt för användaren att navigera genom informationen. Exempelvis kan relationerna mellan termer illustreras genom presentation av deras ömsesidiga koncept i ett pajdiagram eller genom att presentera grafiska nätverk av termförhållanden. Navigering genom informationen möjliggörs genom att låta användaren interagera med den grafiska visningen av relationer, såsom att välja (exempelvis medelst musklickning) ett koncept i ett konceptpajdiagram och därmed enbart erhålla material som är relaterat till det valda konceptet.

Figur 1 visar ett system för att tillhandhålla databearbetnings- tjänster enligt en utföringsform av uppfinningen. Digitaliserad textinformation, vilken antas vara inmatad i systemet l form av en dokumentsamling, finns lagrad i en databas 130. En server 110 är ansluten till databasen 130 via ett kommunikationsgräns- snitt 112. Åtminstone en användarklient 120 kan i sin tur få åtkomst till tjänster tillhandahållna av servern 110 via ett nätverk 140, såsom Internet.

Servern 110 innehåller en sökmotor 115, vilken innefattar en bearbetningsenhet 150. En bearbetningsmodul 151 i bearbet- ningsenheten 150 transformerar dokumenten (det vill säga den digitaliserade textinformationen i databasens 130 dokumentsam- ling) till ett antal konceptuella relationskartor, vilka beskriver olika förhållanden i dokumentsamlingen.

En användare kan interagera med systemet via ett inmatnings- gränssnitt 121a i en användarklient 120, exempelvis genom att mata in en sökfråga Q. Sökfrågan Q förmedlas till servern 110 över en första kommunikationslänk 141 och ett gränssnitt 116. n . ø o n. 10 15 20 25 30 524 457 15 Baserat på användarens interaktion med systemet, exempelvis genom att välja en viss term i sökfràgan Q, extraherar en utforskningsmodul 152 relevant bearbetad textinformation R, vilken bildas från relationer alstrade av bearbetningsenheten 150. Den bearbetade textinformationen R återförs sedan till användarklienten 120 via en andra kommunikationslänk 142 och presenteras för användaren via ett utmatningsgränssnitt 121b.

Företrädesvis visas informationen R på ett grafiskt format som medger ytterligare interaktion med informationen R.

Figur 2 illustrerar, medelst ett flödesschema, en indexerings- förbearbetningsprocedur enligt en utföringsform av uppfin- ningen. Denna procedur kan utföras av en föreslagen indexe- ringsmotor 320, vilken kommer att beskrivas ytterligare nedan med hänvisning till figurerna 3 och 6. Förbearbetningen inbe- griper extrahering av alla termer som ingår i en oformaterad text samt tilldelning av vikter till var och en av termerna baserat på deras informationsinnehåll. En lista över termer och en term- dokumentmatris (TDM) alstras som ett resultat av denna indexenng.

TDM:en är en N*M-matris innehållande M vektorer av dimension N, där N representerar antalet unika termer i dokumentsam- lingen (vanligen ungefär lika med antalet ord på dokumentets språk) och M representerar antalet dokument i samlingen. Varje vektorkomponent i TDM:en innehåller en vikt i intervallet [0,1], vilken indikerar hur viktig en term är i ett dokument, eller vice versa, hur viktigt ett dokument är för en given term. lndexeringsförbearbetningsproceduren innefattar följande steg.

Ett första steg 210 utför orddelning. Detta innebär att texten delas upp i ett antal ord, baserat på en "tillåtet-tecken”-rege|.

Definitionen av vad som är ett ”tillåtet-tecken” beror på språket.

Vanligtvis är åtminstone alla tecken i språkets alfabet tillåtna.

Ett tecken i texten, som emellertid inte ingår i uppsättningen av tillåtna tecken resulterar i en orddelning. Typiskt sett utförs en orddelning när ett mellanslag inträffar. 10 15 20 25 30 524 457 . - | - v; 16 Därefter utför ett steg 220 en identifiering av egennamn i texten.

Steget 220 identifierar således sammansatta termer besàende av två eller flera termer, såsom ”Bill Clinton”. Genom att be- handla av varje egennamn som en enstaka term minskar felfrek- vensen vid informationssökningsprocessen, eftersom tvetydig- heter därmed reduceras. Ett exempel på en tvetydighet som uppkommer om inte en identifiering av egennamn utförs är mellan "Carl Lewis" och "Lennox Lewis”. Här skulle termen ”Lewis” felaktigt få att sökmotorn 115 att anse att ett dokument innehållande “Carl Lewis” och ett annat dokument innehållande “Lennox Lewis” är knutna till varandra.

Efter det, tar ett steg 230 bort eventuella stoppord i texten.

Vissa termer har nämligen låg eller ingen vikt alls i textens innehåll. Företrädesvis tas sådana obetydliga termer bort enligt en språkspecifik stoppordslista. Orden ”the” (eng.), "a" (eng.), “is” (eng.) och “are” (eng.) utgör typiska exempel på stoppord som bör tas bort.

Sedan tillämpar ett steg 240 en stamalgoritm. Denna algoritm säkerställer att olika ordformer som har samma ordstam behandlas som ett enda ord. Naturligtvis måste stamalgoritmen vara språkspecifik och tillämpas på samtliga ord i texten.

Algoritmen tar bort eventuella suffix och transformerar orden i texten till deras gemensamma ordstam. Porter-stamalgoritmen är en vanligt använd algoritm för ordstamning i engelsk text.

Baserat på principerna bakom den här algoritmen kan fack- mannen konstruera en stamningsalgoritm för godtyckligt annat språk.

Efter steget 240, utför ett steg 250 en termviktning av orden i texten. Därvid tilldelas varje unik term i varje dokument en vikt enligt dess informationsinnehåll. Den såkallade termfrekvensen gånger den inversa dokumentfrekvensen (TFlDF = Term Fre- quency times lnverse Document Frequency) är en flitigt använd metod för detta. Enligt en föredragen utföringsform av uppfinningen avgörs informationsinnehållet i ett dokument » n n o n. 10 15 20 25 524 457 17 genom utnyttjande av en utsträckning av det traditionella TFiDF- viktningsschemat. Specifikt innebär detta att en termpositions- parameter p(t,d) (som kommer att förklaras nedan) adderas till varje term.

En viss term t i ett dokument d tilldelas således en vikt w(t,d) i ett dokument d enligt: (td) N(t,D) w= 9----i<>g-p n(d) N(D) där n(t,d) är antalet förekomster av termen t i dokumentet d, n(d) är det totala antalet termer i dokumentet d, N(t,D) är antalet dokument i vilka termen t förekommer, N(D) är det totala antalet dokument i dokumentsamlingen, och p(t,d) är en domänspecifik viktfunktion som beror av termen tzs positioner i dokumentet d.

Parametern p(t,d) används för att öka viktighetsgraden för en term som förekommer i exempelvis titeln eller ingressen till ett dokument. Till exempel, en term som förekommer i titeln kan ha p(t,d) = 3.0, medan den har p(t,d) = 1.0 om den förekommer i löptexten.

Slutligen normaliserar ett steg 260 vektorerna i TDM:en.

Företrädesvis utförs normaliseringen enligt den Euklidiska normen. Alltså, för en term t, i ett dokument dk (det vill säga position (i,k) in term-dokumentmatrisen), ges normaliseringen w(t,,dk) av: WÜwdk) __í______ Ãlwujßikf UF Figur 3 visar ett flödesschema, vilket ger en överblick av WÜi-dk ) = n | n ø Q .. 10 15 20 25 30 524 457 n n n n 4:. n 18 metoden som utförs av bearbetningsmodulen 151 i figur 1. Bear- betningsmodulen 151 utför ett antal bearbetningssteg och beräkningar i syfte att alstra relationsmatriser vilka beskriver olika förhållanden inom dokumentsamiingen. l detta samman- hang indikeras ett förhållande medelst ett numerisk värde, vilket beskriver exempelvis likheten mellan två termer i dokument- samiingen. Figuren visar en uppsättning motorer 320, 340, 360 och 380 och illustrerar hur dessa tillsammans bearbetar datatyper enligt uppfinningen.

En dokumentsamling 310 innehållande åtminstone ett dokument antas vara inmatad på ett digitalt format och därefter lagras i ett datorminnessystem, såsom databasen 130 i figur 1. En indexe- ringsmotor 320 extraherar varje påträffad term i dokument- samlingen 310, företrädesvis enligt den indexeringsförbearbet- ningsprocedur som beskrivits med hänvisning till figur 2 ovan. lndexeringsmotorn 320 tilldelar även vikter till det extraherade termerna (steg 250 i figur 2), vilka anger termernas informa- tionsvikt i förhållande till det dokument i vilket de förekommer.

En dokument-konceptmatris (DCM) 390 beskriver hur doku- menten i dokumentsamlingen 310 är knutna till koncept. Varje dokument i samlingen 310 beskrivs därvid av en normaliserad vektor i DCM 390, vilken anger en fördelning av koncept som beskriver ifrågavarande dokument. Exempelvis skulle ett dokument med titeln “Tony Blair försöker rädda fredsprocessen i Nordirland” i en nyhetsdomän typiskt sett ha en konceptför- delning som indikerar en stark koppling till koncepten ”Förenade konungariket" (UK), ”Nordirland”, ”Förhandlingar” och "Rege- ring”.

En term-dokumentmatris (TDM) 330 beskriver hur termer förekommer i dokument. Varje unik term i dokumentsamlingen 310 har en normaliserad vektor i TDM:en 330, vilken anger en fördelning av dokument som innehåller termen samt termens viktighet i dessa dokument. inom informationssökningstek- nologin benämns normalt den här matrisen inverterat index. u u | a . .f 10 15 20 25 30 524 457 - . | - ao 19 En term-konceptmatris 340 mottar DCM:en 390 och TDM:en 330, och alstrar på basis därav en matris av vektorer, vilka innehåller viktvärden som representerar förhållanden mellan termer och koncept. l DCM:en 390 är varje dokument knutet till en konceptvektor via olika viktvärden, och i TDM:en 330 har varje term ett viktat värde i förhållande till varje dokumentvektor i vilken den förekommer.

Den matris som genereras av motorn 340 är en N*M- dimensionell uppställning av normaliserade vektorer, vilka var och en innehåller en uppsättning av viktade värden. N betecknar här antalet unika termer i dokumentsamlingen och M betecknar antalet koncept.

Viktvärdet ligger i intervallet [0,1] och indikerar hur hårt en term är knuten till ett visst koncept, baserat på sammanhanget i vilket termen har förekommit. En hög vikt indikerar sålunda ett nära förhållande. Exempelvis termen ”NHL” har sannolikt en stark koppling till konceptet "Hockey". Proceduren enligt vilken term- till-konceptförhållandena alstras kommer att illustreras ytter- ligare nedan med hänvisning till figurerna 4a-c.

En term-konceptmatris (TCM) 350 beskriver hur termer förhåller sig till koncept. Varje unik term i samlingen 310 har en normaliserad vektor i TCM:en 350, vilken anger en fördelning av koncept som beskriver dokumentet. Exempelvis skulle termen “Bill Clinton” i en nyhetsdomän typiskt sett ha en konceptför- delning som indikerar koncepten ”President”, ”Regering” och ”USA”.

En term-termmatrismotor 360 mottar TDM:en 330 och TCM:en 350, och alstrar på basis därav en term-termmatris 370, vilken innehåller vektorer som beskriver konceptuella förhållanden mellan termerna.

Term-termmatrisen (TTM) 370 beskriver hur varje term förhåller sig till varje annan term i samlingen 310. Alltså har varje unik term i samlingen 310 en post i TTM:en 370, vilken anger en o ~ : v . c en 10 15 20 25 30 524 457 n ~ - . n; 20 fördelningsvektor över termer som är knutna till termen.

Exempelvis skulle termen “Bill Clinton” i en nyhetsdomän typiskt sett ha en termfördelning som innefattar ”George Bush”. ”Al Gore” och "Hillary Clinton”.

En dokument-konceptmatrismotor 380 används för att alstra konceptuella representationer av eventuella nya dokument som matas in i systemet, antingen vid uppstart av systemet när en fullständig dokumentsamling 310 matas in, eller när samlingen 310 uppdateras med ett eller flera adderade dokument. En föredragen procedur för att åstadkomma en sådan informations- uppdatering beskrivs nedan med ytterligare hänvisning till figur 6. Godtycklig alternativ tidigare känd metod kan emellertid lika väl användas. Hur som helst uppdaterar motorn 380 DCM:en 390 baserat på TDM:en 330 och TCM:en 350.

Dokument-konceptmatrismotorn 380 åstadkommer den koncep- tuella fördelningen för ett dokument, det vill säga en beskrivning över förhållandena mellan dokumentet och alla koncept i samlingen 310. I huvudsak bearbetas dokumenten medelst algoritmer som finner en konceptuell dokumentbeskrivning.

Denna beskrivning har egenskapen att dokument, vilka är knutna till samma ämnen, eller har väsentligen samma seman- tiska betydelse, kommer att erhålla en likartad konceptuell beskrivning. Vilken som helst av de kända metoderna för att alstra konceptuella beskrivningar över dokument kan användas för detta givet att resultatet därav kan uttryckas som en DCM, där varje rad är en normaliserad dokumentvektor som anger en fördelning av koncept vilka beskriver varje dokument i doku- mentsamlingen 310.

Formellt sett kan motorn 380, för varje dokument D, och koncept Cj, beräkna ett dokument-konceptförhàllandevärde rdc(D;,C,-) enligt: 10 15 20 25 30 524 457 . . Q . -n 21 rdc(Di,CJ-) rdciohcj) = Miu-__ zrdcahcj )2 i=1 och bildar en matris över förhållandevärden rdc(D,,C¿) som element, där varje element (i, j) i matrisen innehåller det radvist normaliserade rdc(Di,C,-)-värdet.

Till följd av normaliseringen är spannet hos rdc(D,C) [0,1]. Ett värde nära 1 indikerar sålunda ett nära konceptuellt förhållande mellan dokumentet och ett koncept, medan ett värde nära 0 indikerar inget eller ett obetydligt förhållande.

Figurerna 4a-c illustrerar en sekvens enligt en utföringsform av uppfinningen vid vilken term-till-termförhållanden etableras. En uppsättning dokument 411 - 414 i en dokumentsamling antas vara knutna till ett antal koncept 420 - 424 så som illustreras med pilarna. Dessutom är en första term 431 (”Carl Bildt") och en andra term 432 (”Tony Blair”) viktade i samtliga dokument 411, 412 i vilka de förekommer (se figur 4b). Baserat på det faktum att termerna 431, 432 är knutna till dokumenten 411; 412 och dokumenten 411; 412 i sin tur är knutna till koncepten 421 - 423 kan term-konceptmatirsmotorn (340 i figur 3) beräkna term- till-konceptförhållanden mellan den första termen 431 (”Carl Bildt") och ett andra koncept (”Kosovo") enligt vad som visas i figuren 4c.

I det här exemplet förekommer den första termen 431 (”Carl Bildt”) i ett första dokument 411 och i ett andra dokument 412.

Det första dokumentet 411 är i sin tur knutet till ett första koncept 421 (”Kosovo") och ett andra koncept 422 (”FN”), medan det andra dokumentet 412 endast är knutet till det andra konceptet 422 ("FN”). Alltså är det första termen 431 ("Carl Bildt”) knuten både till det första konceptet 421 (”Kosovo") och till det andra konceptet 422 ("FN"), men kopplingen till det andra konceptet 422 (”FN”) är starkare.

En mera precis beskrivning av den här algoritmen beskrivs . n » ~ o .- 10 15 20 25 524 457 | . | Q nu 22 nedan med hänvisning till figur 5. Här illustrerar ett flödesschema de olika operationerna som utförs av term- konceptmotorn (340 i figur 3) och hur de interagerar med varandra. Baserat på DCM:en 390 börjar bearbetningen i ett steg 510 genom att iterera över alla unika termer i dokumentsamlingen (310 i figur 3). Ett steg 520 utför, för varje term tj, en andra iteration över alla koncept. Algoritmen passerar därmed över alla positioner i den resulterande TCM:en (350 i figur 3). Ett steg 530 beräknar ett förhållandevärde rtc(t,,c,-) för en given term t, och ett givet koncept 0,-, enligt: ric(t,,c,.)= Zvi/(i,,dk)-rdc(dk,cj). lkltiedkl Summan beräknas over alla dokument som innehåller termen tj.

Faktorn w(t.,dk) representerar ett viktat värde för termen t, i ett dokument dk enligt vad som beräknats av indexeringsmotorn (320 i figur 3). Faktorn rdc(dk,c,-) är ett värde som beskriver ett förhållande mellan dokumentet dk och konceptet c,- enligt vad som anges i DCM:en (390 i figur 3). Enligt en föredragen utföringsform av uppfinningen bortses från alla dokument vilka har ett w(t,,dk)-värde under en första tröskel (se steg 1330 i figur 13) och varje dokument som har samtliga sina rdc(dk,cj)-värden under en andra tröskel (se steg 1340 i figur 13). Detta reducerar nämligen bruset och säkerställer att termens konceptuella representation endast baseras på de dokument där termen har en visst värde, och där dokumenten i sin tur kan beskrivas medelst en förhållandevis distinkt konceptuell representation.

Den resulterande summan representerar ett viktat förhållande mellan en viss term och ett visst koncept. l ett steg 540 normaliseras summan rtc med användning av en Euklidisk norm: ftf-(tucj) wmíi' Jïffouicpz l=1 mxtucjl: u a | n ø u nu 10 15 20 25 30 524 457 23 De normaliserade rtc-värdena för en viss term lagras i TCM:en (350 i figur 3) på sina respektive positioner (i, j), och bildar därmed en normaliserad term-till-konceptradvektor på rad i.

Dokument-konceptmotorn 380 uppdaterar iterativt DCM:en (390 i figur 3) i enligt därmed.

Figur 6 illustrerar medelst ett flödesschema en metod för att uppdatera en dokumentsamling med adderad data enligt en utföringsform av uppfinningen. När TCM:en 350 har alstrats kan den användas för att iterativt tilldela en konceptuell fördelning till nya, ännu okända termer, vilka dyker upp i ett tillagt dokument. l ett första steg 610 matas ett dokument dk in i indexe- ringsmotorn 320 där det bearbetas. För termer ti (där i = m) i en befintlig konceptuell fördelning tar ett steg 620 fram fördelningsradvektorn från TCM:en 350. Steget 620 tar även fram ett motsvarande viktvärde för termen ti i dokumentet dk från TDM:en 330.

Ett steg 650 beräknar term-till-konceptvektorer för varje adderad och tidigare okänd term t,- (därj = m+1,..., n) genom att över alla koncept (steg 640), för varje koncept cs, iterera dess kumulativa vikt rtc(tk,ew,cs) i dokumentet dk enligt: rtc(tnewics)=Értcﬂifcsyrtdüivdk* i=1 Ett steg 670 tilldelar sedan den kumulativa vikten rtc(tnew,cs) för varje koncept cs till var och en av de tidigare okända termerna (steg 660) i det tillagda dokumentet dk.

Term-tilI-konceptförhållandevärdena för det adderade termerna t,- normaliseras slutligen med hjälp av en Euklidisk norm i ett steg 680. De normaliserade rtc-värdena för termen t,- lagras i TCM:en 350 på sina respektive positioner (j, s) och bildar därmed en normaliserad term-till-konceptradvektor på rad j. - . | o .- 10 15 20 25 30 524 457 24 Term-till-konceptmotorn (360 i figur 3) alstrar en N*N-re|ations- matris över alla termer i dokumentsamlingen, där N är antalet unika termer i samlingen. Ett relationsvärde i intervallet [0, 1] alstras från varje term till varje annan term. Vid alstringen av term-termmatrisen utnyttjas TCM:en tillsammans med en termsamförekomstberäkning, vilken beskrivs nedan med hänvisning till figurerna 7a-b. Fördelen med att kombinera de två metoderna är att både konceptuella och lexikala likheter därmed kan beskrivas med ett enda likhetsmått.

Tanken med att använda TCM:en (vilken även kan betraktas som ett nätverk, se figur 1) för att finna förhållanden mellan termer kommer nu att belysas. Baserat på förhållanden mellan en uppsättning termer 431 - 434 och en uppsättning koncept 420 - 424 kan term-till-termförhållanden alstras vilka identifierar ömsesidiga, eller delade, konceptkomponenter. Som ett exempel kan nämnas att en första term (”Carl Bildt”) och en sjätte term 436 (”Bill Clinton”) skulle vara konceptuellt knutna till varandra, eftersom bägge är kopplade till ett första koncept (”Kosovo”) och ett andra koncept 422 (”FN”), se de feta linjerna i figur 7b.

Figur 8 illustrerar medelst ett flödesschema en metod för att alstra en term-termmatris enligt en utföringsform av uppfin- ningen. Två inledande steg 810 och 820 i kombination med två återkopplingssteg 842 respektive 861 åstadkommer en dubbel- iterering över alla unika termer t; <> t,- i dokumentsamlingen.

Därmed alstras ett relationsvärde vilket beskriver förhållandet mellan godtycklig specifik term och var och en av de andra termerna.

För varje par av termer ti och t,- beräknar ett steg 830 ett rttc(ti,tj)-värde som summan av de lägsta relationsvärdena över samtliga koncept. Detta motsvarar uttrycket: rrrcuhij) = åminﬁrcuhck rncujßk )) k=1 där ck anger ett visst koncept, ~ | » u a; 10 15 20 25 30 524 457 25 m betecknar det totala antalet koncept, och rtc(t,c) är relationsvärdet vilket definieras i TCM:en enligt vad som beskrivs ovan.

Minimeringsfunktionen åstadkommer effekten att de koncep- tuella förhållandena här definieras av de ömsesidiga koncepten för termerna. Alla iterationerna (steg 810 och 820) resulterar i en beskrivning över de konceptuella förhållandena mellan alla termer i form av en primär term-till-termmatris.

I syfte att öka precisionen hos denna matris förbättras relationsvärdena mellan termer i ett steg 840 baserat på deras statistiska samförekomst i dokumentsamlingen. Två termer definieras som samförekommande om de påträffas i samma dokument. Ett samförekomstvärde rtto(t¿,t,-) alstras på basis av den beroende sannolikheten p(t,- e dk] ti e dk) att en viss term t; existerar i ett slumpvis valt dokument dk givet att ti existerar i dk.

Denna definition är ekvivalent uttrycket: PÜi Ûtj) PÜj) mqtl»tj)=p(ti |tj)= Sannolikheterna ovan kan enkelt beräknas med användning av TCM:en. Till exempel, i en viss dokumentsamling samföre- kommer termen "NHL" och termen ”hockey” i 5% av doku- menten. l samma samling antas termen ”NHL” förekomma i 10% av dokumenten. Den beroende sannolikheten för att påträffa termen "hockey" givet termen "NHL" är således 0.05/0.10=0.5.

Medandra ord är samförekomsten mellan ”NHL” och ”hockey", det vill säga rtto-värdet, rtto(”hockey”, ”NHL”) = 0.5.

I ett steg 850 kombineras de två term-termförhållandemetrikerna till ett slutgiltigt term-termförhållande värde rtt, vilket ersätter det initialt ansatta rttc-värdet i den primära term-till-term- förhållandematrisen enligt: rttuktj) = a - rtto(ti,tj)+ ß - rttcuktj) 10 15 20 25 30 524 457 | | n u »n 26 där o och ß betecknar en första och en andra konstant, vilka definierar viktighetsgraden av rttc- respektive rtto-värdena. Valet av o och ß styr därmed hur mycket de konceptuella och lexikaia beroendena påverkar det slutgiltiga termlikhetsmåttet. Båda dessa konstanter a och ß kan väljas godtyckligt, eftersom rtt- värdena normaliseras med hjälp av en Euklidisk norm i ett följande steg 860. Matrisen normaliseras radvis för en rad i enligt följande: ffflïilj) T___ Zjmuinjf j) ,- där N är det totala antalet unika termer i dokumentsamlingen.

Som ett resultat bildas term-termmatrisen 375. mﬂiltﬂ: Var vänlig notera att samförekomstvärdet baseras på en icke- symmetrisk funktion, det vill säga typiskt sett rtto(t,,t,-) i rtto(t¿,t,). l de flesta fall är alltså term-termförhållandematrisen icke- symmetrisk. Detta motsvarar fallet att en första term har en stark koppling till en andra term, utan att den andra termen har en stark koppling till den första termen. Exempelvis kan termen "Mike Tyson” ha en mycket stark koppling till termen ”boxning”, medan termen ”boxning” endast har en svag koppling till termen ”Mike Tyson”.

Figur 9 illustrerar med hjälp av ett flödesschema funktionen hos utforskningsmodulen (152 i figur 1) enligt en utföringsform av uppfinningen. Utforskningsmodulen används för att tillhanda- hålla tjänster baserade på förhållanden i dokumentsamlingen.

På basis av en eller flera termer visar sedan modulen relevanta dokument, kopplade termer och en konceptuell fördelning.

En gemensamt-konceptmotor (JCE) 920 används här för att avgöra vilka koncept som är gemensamma för åtminstone två termer 910. Termerna 910 matas in till TCM:en 350 och kon- ceptfördelningen för varje term (motsvarande respektive terms ~ a | o en 10 15 20 25 30. 524 457 | n o - nu 27 rad i TCM:en) skickas som insignal till JCE:n 920. JCE:n 920 beräknar en gemensam konceptfördelning genom att välja det lägsta komponentvärdet från alla termers konceptvektorer, vilka ges av TCM:en 350. En ny vektor skapas baserat på dessa komponentvärden. Vektorn normaliseras därefter och återförs som resultatet från JCE:n 920. Resultatet från JCE:n 920 kan betraktas som en förklaring till det konceptuella förhållandet mellan två eller flera termer. Exempelvis en användare som frågar efter gemensamma koncept rörande termerna “Madeleine Albright” och “Tony Blair” kan förevisas ett pajdiagram som täcker koncepten ”Politik” och ”Ba|kankriget”.

En konceptskiftningsmotor (CBE) 940 används för att ta fram en uppsättning relevanta dokument givet åtminstone en term, vilken inte endast är knuten till den givna terme/n/rna, utan också är knuten till åtminstone ett koncept. Det sistnämnda kan tillhandahållas direkt från en användare, från ett delsystem eller en sökmotor i ett steg 935. Exempelvis kan det åtminstone ett konceptet väljas från alla koncept som förekommer i termens konceptuella fördelning, så att information som är knuten till termen på ett speciellt sätt kommer att tas fram.

Om inte något koncept används som insignal till CBE:n 940 via stegen 935 kommer resultatet att vara en uppsättning dokument 945 som är knutna till de/n angivna terme/rna/n 910 utan någon skiftning. Om emellertid en konceptfördelning matas in till CBE:n 940 i steget 935 kommer detta att ”skifta” uppsättningen doku- ment 945, eller arrangera om denna uppsättning, baserat på dokumentens närhet till en given fördelning. Speciellt bildas skiftningen på basis av dokumentens konceptuella represen- tation enligt vad som ges av DCM:en 390.

Vi återgår nu till ovan nämnda exempel genom att presentera ytterligare belysande exempel i syfte att illustrera användningen av CBE:n 940. En användare som väljer termen “Madeleine Albright” skulle inledningsvis förevisas anknutna termer, kopplade dokument, och säg, ett pajdiagram innefattande kon- 10 15 20 25 30 524 457 . ~ | . nu 28 cepten ”Po|itik”, ”Balkankriget” och ”Amerika”. Om användaren sedan väljer konceptet ”Balkankriget” kommer CBE:n 940 att presentera dokument vilka inte enbart är knutna till “Madeleine Albright", utan även specifikt berör "Balkankriget". Alltså guidas användaren till att finna specifika deimängder av dokument- samlingen som kan vara av särskilt intresse för honom/henne.

Figur 10 illustrerar med hjälp av ett flödesschema en metod för att finna skiftad information enligt en utföringsform av uppfinningen. Baserat på en uppsättning valda termer T1, Tn, som matas in i ett första steg 1010, använder ett följande steg 1020 TDM:en för att hitta dokument D; som innehåller dessa termer T1, Tn.

Givet dokumentens Di konceptuella fördelningar CJ, enligt vad som indikeras av DCM:en i ett steg 1030, och en inmatad skift- ningskonceptuellfördelning BCD mottagen via ett steg 1050 i ett steg 1040, beräknar ett steg 1060 ett relationsvärde rcc(C,-, BCD) för varje dokument Di enligt: n fCfÅCi ~Bco ) = ZCLKBCW I k=1 där CLK är en vikt för ett koncept k i fördelningen Ci och BCDYk är en vikt för konceptet k i fördelningen BCD. Summan beräknas över varje koncept. Om konceptfördelningarna Ci representeras som vektorer är rcc-funktionen ekvivalent med den såkallade skalärprodukten. Slutligen återförs resulterande dokument i ett steg 1070. Dessa dokument rankas i en sjunkande ordning enligt värdet av rcc-funktionen.

Vänligen lägg märke till loopen från steget 1010, via steget 1050 till steget 1040. Enligt en föredragen utföringsform av uppfinningen, baserad på terminsignalen och JCE:n (920 i figur 9), visas för användaren ett antal koncept som är lämpliga för skiftning.

Se åter figur 9. Syftet med spårmotorn 960 är att beskriva 10 15 20 25 30 524 457 ; ~ ~ | .a 29 förhållanden mellan termer genom att använda term-term- matrisen 370 plus åtminstone en term som insignal. Spårmotorn 960 har två arbetstillstånd, enkeltermstillstånd (Single Term Mode = STM) och flertermstilstånd (Multiple Terms Mode = MTM) Vid STM tillhandahålls en och endast en term som insignal. Det främsta syftet med STM är att finna den mest relevanta termen för en given term. Exempelvis om “Yasser Arafat” skulle användas som insignal skulle spårmotorn 960 typiskt sett svara "lsrael”, ”Benjamin Netanyahu” och “Bill Clinton" och motsva- rande relevansmått för varje term. Spårmotorn 960 använder sig av term-termmatrisen 370 som en grafmatris, och genomsöker denna graf för att finna eventuella termer vilka är knutna till insignalen. Alla termer inom ett visst avstånd i grafen returneras sedan som ett resultat från motorn 960. Avståndsmåttet kan variera beroende på tillämpningen, men rimliga värden är antingen antalet grafnoder från ingången eller den ackumu- lerade randvikten i grafen.

Vid MTM tillhandahålls istället ett flertal termer som insignal.

Spårmotorn 960 använder sig åter av term-termmatrisen 370 som en grafmatris, och använder sig av välkända grafalgoritmer för att beräkna och returnera en delgraf av denna graf. l likhet med STM tillämpar algoritmerna ett avståndsmàtt som beror av den specifika tillämningen. Samma avståndsmàtt som ovan kan användas. Valet av grafalgoritm avgör vilken delgraf som an- vänds. Exempelvis Dijkstra's kortaste-väg algoritm ger den kor- taste vägen mellan alla tillhandahàllna termer. Den s.k. MST till- handahåller det minimala träd vilket spänner upp alla tillhanda- hållna termer. Syftet med de olika delgraferna är att undersöka förhållanden mellan ett flertal termer, och medge att förhål- landena grafiskt visualiseras för att möjliggöra för användare att ytterligare utforska informationen i systemet.

Ett exempel på användning av MTM visas i figur 11. Figuren visar en term-termmatris presenterad som ett relationsnätverk. - . - u av 10 15 20 25 30 524 457 30 o o o | en n : - v ø .f Här antas en första term 431 ("Carl Bildt"), en andra term 433 (“Gerhard Schröder”) och en tredje term 434 ("Hillary Clinton”) användas som insignal till spårmotorn 960 vilken körs i MTM- tillstånd, med Floyd-Warshall som den valda algoritmen och ett antal grafnoder från insignalen som avståndsmåttet. Spårmotorn 960 beräknar det kortaste avståndet mellan samtliga tre termer 431, 433 och 434 i grafen. Dessa spår visas som streckade linjer i figuren.

Enligt vad som framgår i figuren finns det tre ekvidistanta kopplingsspår mellan den första termen (”Carl Bildt”) och den andra termen 433 (“Gerhard Schröder”). Dessa spår går via en fjärde term 432 (“Tony Blair”), en femte term 435 (“Kofi Annan") respektive en sjätte term 436 (“Bil| Clinton”).

Dessutom går det kortaste möjliga spåret från den första termen 431 (“Carl Bildt") och den andra termen 433 (“Gerhard Schröder”) till en sjunde term 434 (“Hi|lary Clinton”) via den sjätte termen 436 (“Bil| Clinton"). Fördelen med MTM:en är att den avslöjar implicita förhållanden mellan termer, så som ”egennamn”. Därtill kan förhållandena enkelt förklaras och åskàdliggöras grafiskt för en användare, och därmed göra det möjligt för honom/henne att ytterligare utforska informationen på jakten efter relevanta fakta. i l syfte att sammanfatta kommer nu den allmänna' metoden för att bearbeta digitaliserad textinformation enligt uppfinningen att beskrivas med hänvisning till figur 12. Informationen antas vara organiserad i termer, dokument och dokumentsamlingar, där varje dokument innehåller åtminstone en term och varje dokumentsamling innehåller åtminstone ett dokument.

Ett första steg 1210 alstrar en konceptvektor för varje dokument i en dokumentsamling. Konceptvektorn klassificerar innehållet i dokumentet konceptuellt på ett relativt kompakt format. Ett följande steg 1220 alstrar, för varje term i dokumentsamlingen, en term-till-konceptvektor vilken beskriver att förhållande mellan 10 15 20 25 30 524 457 4 - n . nu 31 termen och vardera av konceptvektorerna. Därefter alstrar ett steg 1230 en term-termmatris, vilken beskriver ett term-till- termförhållande mellan termer i dokumentsamlingen. Term- termmatrisen bildas på basis av term-till-konceptvektorerna för dokumentsamlingen. Slutligen bearbetar ett steg 1240 term- termmatrisen till bearbetad textinformation, vilken med fördel har ett grafiskt format som är väl anpassat för att förstås av en mänsklig användare.

Figur 13 visar ett flödesschema vilket sammanfattar en del- procedur för att alstra en term-till-konceptvektor enligt en föredragen utföringsform av uppfinningen. Varje dokument i dokumentsamlingen antas här vara knutet till en dokument-kon- ceptmatris, vilken representerar åtminstone ett konceptelement vars relevans med avseende på dokumentet beskrivs av en vikt- faktor.

Ett första steg 1310 identifierar en termrelevant uppsättning dokument i dokumentsamlingen. Varje dokument i den termrelevanta uppsättningen innehåller åtminstone en förekomst av termen. Sedan beräknar ett steg 1320 en termvikt för termen i var och ett av dokumenten i den termrelevanta uppsättningen.

Ett därefter följande steg 1330, tar fram en respektive koncept- vektor som är knuten till varje dokument i den termrelevanta uppsättningen. Ett villkor för att inkludera en viss konceptvektor är emellertid att termvikten däri överstiger ett första tröskelvärde. Därefter väljer ett steg 1340 en relevant upp- sättning av konceptvektorer innefattande alla konceptvektorer i vilka åtminstone en konceptkomponent överstiger ett andra tröskelvärde. Ett steg 1350 beräknar sedan en initial icke-nor- maliserad term-till-konceptvektor som summan av alla koncep- tvektorer i den relevanta uppsättningen. Slutligen normaliserar ett steg 1360 den initiala icke-normaliserade term-till- konceptvektorn som erhölls i steget 1350. Företrädesvis görs normaliseringen enligt en Euklidisk norm.

Figur 14 visar ett flödesschema vilket sammanfattar en 10 15 20 25 30 524 457 » n » u n» 32 delprocedur för att alstra term-termmatrisen enligt en föredragen utföringsform av uppfinningen. Ett första steg 1410 tar fram en respektive term-till-konceptvektor för varje term i varje kom- bination av två unika termer i dokumentsamiingen. Sedan alstrar ett steg 1420 en relationsvektor, vilken beskriver förhållandet mellan termerna i varje kombination av två unika termer. Varje komponent i relationsvektorn är här lika med ett lägsta komponentvärde hos motsvarande komponentvärde i term-till- konceptvektorerna. Ett följande steg 1430 alstrar ett relationsvärde för varje kombination av två unika termer som summan av alla komponentvärden i motsvarande relations- vektor. Slutligen alstrar ett steg 1440 en matris, vilken innehåller relationsvärdena för varje kombination av två unika termer i_ dokumentsamiingen.

Alla processtegen, såväl som godtycklig delsekvens av steg, som beskrivits med hänvisning till figurerna 12 - 14 ovan kan styras medelst ett datorprogram som är direkt laddbart till det interna minnet hos en dator, vilken innefattar passande mjukvara för att styra de nödvändiga stegen då programmet körs på datorn. Naturligtvis gäller detsamma även för procedurerna som har beskrivits med hänvisning till figurerna 2 - 11. Dess- utom kan sådana datorprogram lagras på godtyckligt slags datorläsbart medium samt överföras över vilken slags nätverk och transmissionsmedium som helst.

Termen ”innehåller/innehållande” skall när den används i den här beskrivningen förstås att ange närvaron av de uppgivna särdragen, heltalen, stegen eller komponenterna. Termen utesluter emellertid inte närvaro eller tillägg av en eller flera ytterligare särdrag, heltal, steg eller komponenter, eller grupper därav.

Uppfinningen är inte begränsad till de i figurerna beskrivna utföringsformerna, utan kan varieras fritt inom kravens omfång.

Claims

10 15 20 25 30 524 457 33 ~ o o u nu u Patentkrav

1. En metod för bearbetning av digitaliserad textinformation, där informationen är organiserad i termer, dokument och doku- mentsamlingar, där varje dokument innehåller åtminstone en term och varje dokumentsamling innehåller åtminstone ett doku- ment, där metoden innefattar: alstring av en konceptvektor för varje dokument i en doku- mentsamling, där konceptvektorn konceptuellt klassificerar inne- hållet i dokumentet på ett relativt kompakt format, och alstring, för varje term i dokumentsamlingen, av en term- till-konceptvektor som beskriver ett förhållande mellan termen och var och en av konceptvektorerna, kännetecknad av att term-till-konceptvektorerna alstras på basis av konceptvektorerna och metoden inbegriper: mottagning av term-tilI-konceptvektorerna för dokument- samlingen och på basis därav alstring av en term-termmatris som beskriver ett term-till-termförhållande mellan termerna i dokumentsamlingen, och bearbetning av term-termmatrisen till bearbetad textinfor- mation.

2. En metod enligt krav 1, kännetecknad av att varje dokument i dokumentsamlingen är knutet till en dokument- konceptmatris som representerar åtminstone ett konceptelement vars relevans med avseende på dokumentet beskrivs av en viktfaktor, där alstring av varje term-till-konceptvektor inbe- griper: identifiering av en termrelevant uppsättning dokument i dokumentsamlingen, där varje dokument i den termrelevanta uppsättningen innehåller åtminstone förekomsten av en term, beräkning av en termvikt för termen i varje dokument i den termrelevanta uppsättningen, hämtning av en respektive konceptvektor som är knuten till varje dokument i den termrelevanta uppsättningen, där termvikten överstiger ett första tröskelvärde, o n a n ø -v 10 15 20 25 30 524 457 n n | u :o n 34 val av en relevant uppsättning av konceptvektorer inne- fattande alla konceptvektorer i vilka åtminstone en konceptkom- ponent överstiger ett andra tröskelvärde, beräkning av en ickenormaliserad term-till-konceptvektor som summan av alla konceptvektorer i den relevanta uppsätt- ningen, och normalisering av den ickenormaliserade term-till-koncept- vektorn.

3. En metod enligt något av föregående krav kännetecknad av att alstringen av term-termmatrisen inbegriper: framtagning, för varje term i varje kombination av två unika termer i dokumentsamlingen, av en respektive term-till-koncept- vektor, alstring av en relationsvektor som beskriver förhållandet mellan termerna i varje kombination av två unika termer, där varje komponent i relationsvektorn är lika med ett lägsta komponentvärde hos motsvarande komponentvärden i term-till- konceptvektorerna. alstring av ett relationsvärde för varje kombination av två unika termer som summan av alla komponentvärden i motsvarande relationsvektor, och alstring av en matris innefattande relationsvärdena för samtliga kombinationer av två unika termer i dokument- samlingen.

4. En metod enligt något av föregående krav kännetecknad av beräkning av ett statistiskt samförekomstvärde mellan varje kombination av två unika termer i dokumentsamlingen, där det statistiska samförekomstvärdet beskriver »en beroende sannolikhet för att en viss andra term existerar i ett dokument givet att an viss första term existerar i dokumentet., och införlivning av de statistiska samförekomstvärdena i term- termmatrisen för att representera lexikala förhållanden mellan termerna i dokumentsamlingen. 10 15 20 25 30 524 457 a u o o no o 35

5. En metod enligt något av föregående krav kännetecknad av visning av den bearbetade textinformationen på ett format som är anpassat för mänsklig förståelse.

6. En metod enligt krav 5, kännetecknad av att visnings- steget inbegriper presentation av åtminstone endera av: åtminstone en dokumentidentifierare som anger ett dokument vilket är relevant med hänsyn till åtminstone en term i en sökfråga, åtminstone en term som är besiåktad med en term i en sökfråga, och en konceptueli fördelning som representerar ett konceptuellt förhållande mellan två eller flera termer i dokument- sammanställningen, där den konceptuella fördelningen baseras på delade koncept vilka år gemensamma för nämnda termer.

7. En metod enligt krav 6, kännetecknad av att visnings- steget inbegriper presentering av åtminstone en dokument- identifierare som anger ett dokument vilket är relevant med hänsyn till åtminstone en term i en sökfråga i kombination med åtminstone ett användarangivet koncept.

8. En metod enligt krav 7, kännetecknad av val av åtmin- stone ett användarangivet koncept från de delade koncepten i den konceptuella fördelningen.

9. En metod enligt något av kraven 5 - 8, kännetecknad av illustrering av det konceptuella förhållandet mellan en första term och åtminstone en andra term medelst ett respektive rele- vansmått som är knutet till den åtminstone en andra termen med avseende på den första termen.

10. En metod enligt krav 9, kännetecknad av visning av den bearbetade textinformationen på ett grafiskt format vilket visualiserar styrkan i det konceptuella förhållandet mellan åtminstone två termer. n ø u o en 10 15 20 25 30 524 457 36

11. En metod enligt något av kraven 9 eller 10, kännetecknad av visning av den bearbetade textinformationen i form av en avståndsgraf i vilken varje term utgör en nod, en nod som representerar en första term är förbunden med en eller flera andra noder som representerar andra termer till vilka den första termen har ett konceptuelit förhållande av åtminstone en viss styrka, och relevansmåttet mellan den första termen och den åtminstone en andra termen representeras av ett minsta antal nodhopp mellan den första termen och den åtminstone en andra termen.

12. En metod enligt något av kraven 9 eller 10, kännetecknad av visning av den bearbetade textinformationen i form av en avståndsgraf i vilken varje term utgör en nod, en nod som representerar en första term är förbunden med en eller flera andra noder som representerar andra termer till vilka den första termen har ett konceptuelit förhållande, där varje förbindelse är förknippad med en randvikt som repre- senterar styrkan av ett konceptuelit förhållande mellan den första termen och en viss andra term, och relevansmåttet mellan den första termen och en utvald andra term representeras av en ackumulering av randvikter vilka är knutna till de förbindelser som utgör ett minsta antal nodhopp mellan den första termen och den utvalda andra termen.

13. En metod enligt något av föregående krav, kännetecknad av att varje term representerar nàgotdera av: ett enstaka ord, ett egennamn en fras, och en samling av enstaka ord

14. En metod enligt något av föregående krav, kännetecknad 10 15 20 25 30 524 457 ~ ø u | no 37 av uppdatering av dokumentsamlingen med tillagd data i form av åtminstone ett nytt dokument genom: identifiering av eventuella tillagda termer i det nya dokumentet vilka saknar en representation i dokumentsamman- ställningen, identifiering av eventuella existerande termer i det nya dokumentet vilka representerades i dokumentsammanställ- ningen innan det åtminstone ett nya dokumentet lades till, framtagning, för var och en av de existerande termerna, av en motsvarande konceptvektor. alstring av en ny konceptvektor vilken representerar det åtminstone ett nya dokumentet som summan av motsvarande konceptvektorer, normalisering av den nya normaliserad ny konceptvektor, och tilldelning av den normaliserade nya konceptvektorn till var och en av de tillagda termerna i det nya dokumentet. konceptvektorn till en

15. Ett datorprogram, direkt laddbart till internminnet i en dator, innefattande mjukvara för att utföra metoden, enligt något av kraven 1 - 14 då programmet körs på en dator.

16. Ett datorläsbart medium på vilket ett program finns lagrat, som är ägnat att förmå en dator att utföra metoden enligt något av kraven 1 - 14.

17. En sökmotor (115) för bearbetning av en mängd digita- liserad textinformation och framtagning av data därifrån, där informationen är organiserad i termer, dokument och doku- mentsammanställningar, där varje dokument innehåller åtmin- stone en term och varje dokumentsamling innehåller åtminstone ett dokument, innefattande: ett gränssnitt (116) anpassat för att motta en sökfråga (Q) från en användare, och en bearbetningsenhet (150) anpassad för att bearbeta en dokumentsamling på basis av sökfrågan (Q) och returnera u n ø ø nu 10 15 20 25 30 524 457 u o u | nu o 38 bearbetad textinformation (R) som är relevant med hänsyn till sökfrågan (Q), där nämnda bearbetning inbegriper: alstring av en konceptvektor för varje dokument i en dokumentsamling, där konceptvektorn konceptuellt klassi- ficerar innehållet i dokumentet på ett relativt kompakt format, och alstring, för varje term i dokumentsamlingen, av en term-till-konceptvektor som beskriver ett förhållande mellan termen och var och en av konceptvektorerna, kännetecknad av att bearbetningsenheten (150) i sin tur inne- fattar: en bearbetningsmodul (151) anpassad för att motta term- till-konceptvektorerna för dokumentsamlingen och på basis därav alstra en term-termmatris vilken beskriver ett term-till-term- förhållande mellan termerna i dokumentsammanställningen, och en utforskningsmodul (152) anpassad för att motta sökfrågan (Q) och term-termmatrisen, och på basis av sökfrågan (Q) bearbeta term-termmatrisen till den bearbetade textinfor- mationen (R).

18. En databas (130) innefattande en mängd digitaliserad textinformation vilken är organiserad i termer, dokument och dokumentsammanställningar, där varje dokument innehåller åtminstone en term och varje dokumentsamling innehåller åtminstone ett dokument, varje dokument i en dokumentsammanställning är knutet till en konceptvektor vilken konceptuellt klassificerar innehållet i dokumentet på ett relativt kompakt format, och varje term i dokumentsamlingen är knuten till en term-till- konceptvektor som beskriver ett förhållande mellan termen och var och en av konceptvektorerna, kännetecknad av att den är anpassad för att leverera term-till- konceptvektorerna till en sökmotor (115) enligt krav 17.

19. En databas (130) enligt krav 18, kännetecknad av att den innefattar en iterativ term-till-konceptmotor anpassad för att 10 15 20 25 30 524 457 39 motta ny digitaliserad textinformation vilken adderas till data- basen (130) och på basis av denna information: alstra konceptvektorer för eventuella adderade dokument, och alstra en term-till-konceptvektor vilken beskriver ett förhållande mellan eventuella tillagda termer och var och en av konceptvektorerna.

20. En server (110) för tillhandahållande av databearbetnings- tjänster med avseende på digitaliserad textinformation, känne- tecknad av att den innefattar: en sökmotor (115) enligt krav 17, och ett kommunikationsgränssnitt (112) mot en databas (130) enligt något av kraven 18 eller 19.

21. Ett system för tillhandahållande av databearbetnings- tjänster med avseende på digitaliserad textinformation, känne- tecknat av att det innefattar: en server (110) enligt krav 20, åtminstone en användarklient (120) anpassad för att kommunicera med servern (110), och en kommunikationslänk (141; 142) vilken förbinder den åtminstone en användarklienten (120) med servern (110).

22. Ett system enligt krav 21, kännetecknat av att ett nät av internettyp (140) åstadkommer åtminstone en del av kommuni- kationslänken (141; 142), och den åtminstone en användar- klienten (120) innefattar en webbläddrare (121) vilken i sin tur tillhandahåller: ett användarinmatningsgränssnitt (121a) anpassat för att motta sökfrågor (Q) från en användare och förmedla sökfrågorna (Q) till servern (110) via kommunikationslänken (141), och ett användarutmatningsgränssnitt (121b) anpassat för att motta bearbetad textinformation (R) från servern (110) via kom- munikationslänken (142) och visa den bearbetade textinfor- mationen (R) för användaren. : v | » n.