NO325864B1

NO325864B1 - Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten

Info

Publication number: NO325864B1
Application number: NO20065133A
Authority: NO
Inventors: Øystein Haug Olsen
Original assignee: Fast Search & Transfer Asa
Priority date: 2006-11-07
Filing date: 2006-11-07
Publication date: 2008-08-04
Also published as: JP2008135023A; US7966305B2; EP1930816A1; NO20065133L; JP4861961B2; US20080189269A1

Abstract

I en fremgangsmåte for aksess, søking og gjenfinning av informasjon over et datakommunikasjonssystem generelt, hvor et søkespørsmål benyttes på en mengde av dokumenter, blir en resultatmengde av overensstemmende dokumenter og spørsmålsavhengige underseksjoner av overensstemmende dokumenter identifisert. Fremgangsmåten omfatter å beregne sammendragsinformasjon på dokumentdefinisjonsområder, verdier og forbundne vekter over resultatmengdene og å vekte verdiene med en sammendragsverdimetrikk som gir et mål på sannsynligheten for en verdi. I en søkemotor 100 som er i stand til å støtte og implementere den ovennevnte metode, omfatter søkemotoren for å utføre søking og gjenfinning av informasjon som i og for seg kjent undersystemer i form av en eller flere kjernesøkemotorer (101), et applikasjonsprogrammert grensesnitt (102) for innhold, et innholdsanalysetrinn (103) og applikasjonsprogrammert grensesnitt (106) for klienter forbundet med kjernesøkemotoren (101) via søkespørsmålanalyse- og resultatanalysetrinn (105;106). I tillegg omfatter søkemotoren (100) for å støtte den ovennevnte metode en første modul (108) for å spesifisere sammendragsverdimetrikker (SVM), andre og tredje moduler (109; 110) for å danne definisjonsområder og tilordne sammendragsverdimetrikker til de dannede definisjonsområder og en fjerde modul (111) for å indeksere definisjonsområder, verdier og sammendragsverdimetrikker.

Description

Oppfinnelsen angår en fremgangsmåte ved beregning av sammendragsinformasjon for dokumenter som inneholder hierarkisk navngitte definisjonsområder, omfattende en rekke forbindelser mellom et definisjonsområde og en verdi, eller mellom et definisjonsområde og et verdivektet par, og hvor fremgangsmåten omfatter trinn for å benytte et søkespørsmål på en mengde dokumenter og å identifisere en resultatmengde av tilsvarende dokumenter og søkespørsmålsavhengige underseksjoner av de tilsvarende dokumenter.

Oppfinnelsen angår også en søkemotor for å støtte og implementere fremgangsmåten i henhold til den foreliggende oppfinnelse og som angitt i innledningen av krav 24.

Fremgangsmåten i henhold til den foreliggende oppfinnelse kan ses som et ekstra verktøy eller raffinement som angår aksessering, søking og gjenfinning av informasjon over datakommunikasjonssystemer generelt, dvs. både ekstranett og intranett.

Informasjonsgjenfinning har tradisjonelt involvert sluttbrukeren for å formulere søkespørsmål med bruk av boolske operatorer - enten med bruk av et spørsmålsspråk eller via et grafisk brukergrensesnitt. Eksekvering av spørsmålet frembringer et søkeresultat som er en mengde av tilsvarende dokumenter. Denne resultatmengde har generelt vært en klassisk stringent mengde i hvilken et bestemt dokument enten er et element eller ikke er et element.

Overalt i denne fremstillingen vil begrepet "dokument" benyttes for ethvert søkbart objekt, og det kunne derfor bety f.eks. et tekstdokument, et dokument representert i XML, HTML, SGML, eller et kontorformat, et databaseobjekt så som en post, tabell, visning eller et spørsmål eller multimediaobjekt.

Et søkespørsmål Q benyttes på en dokumentmengde D (søkerommet) under antagelse av at en viss undermengde av D, nemlig P, er et passende resultat for søkespørsmålet Q. Gjenkallingen er den andel av P som returneres i resultatmengden av R, dvs. \ R fl P\ I \ P\. Presisjonen er den andel R som er relevant, dvs. \ R fl P\ I \ R\. Typiske søkesystemer har presisjon-gjenkallingskurver som viser en avveining mellom presisjon og gjenkalling som gjengitt grafisk på fig. 1, som angir hvordan økende presisjon reduserer gjenkalling og omvendt. Høy presisjon oppnås bare med dårlig gjenkalling og omvendt. Søkesystemet er avstemt for å tilby akseptabel presisjon og gjenkalling.

Med store innholdsvolumer hvor mange dokumenter deler de samme stikkord, blir resultatmengdene imidlertid for store til effektivt å fremlegges for en menneskelig bruker. Forholdsvis nylig beregner gjenfinningssystemer for informasjon en relevansskåre som en funksjon av kvaliteten på samsvaret mellom søkespørsmålet og dokumentet, og dertil innbefatter den a priori sannsynligheter for at dokumentet er gyldig for et søkespørsmål (f.eks. "page rank" fra Google). Søkeresultatet fremlegges rangert i henhold til denne relevansskåre og viser detaljer for dokumenter med den høyeste relevansskåre først, vanligvis i hyperkjedede sider på 10-20 dokumenter. Begrepene "gjenkalling" og presisjon" er ikke så entydige som for de stringente resultatmengder ovenfor, men de gjelder fortsatt. Gjenkalling refererer til å få relevante dokumenter innbefattet i søkeresultatet og fortrinnsvis på toppen av den første resultatside. Presisjon innbærer å ikke ha irrelevante dokumenter på den første resultatside.

Brukeren vekselvirker med et gjenfinningssystem for informasjon (en søkemotor) ved å analysere søkeresultatet, betrakte resultatdokumenter og reformulere søkespørsmålet. Søkeresultatet er ofte for generelt, da brukeren generelt ikke kjenner omfanget av samlingen av dokumenter i systemet og således ikke gjør spørsmålet spesifikt nok (dvs. at det har dårlig presisjon). En vanlig spørsmålsomformulering er å foreta en spørsmålsforfining, dvs. velge en undermengde av det opprinnelige søkeresultat med tanke på å forbedre presisjonen.

Helt nylig har informasjonsgjenfinningssystemer innbefattet begrepet resultatmengdenavigasjon. Som eksempler på publisert kjent teknikk se f.eks. US patent nr. 7 035 864 og 7 062 483, overdratt til Endeca Technologies, Inc., og NO patentsøknad nr. 2005 2215, overdratt til Fast Search & Transfer ASA. Et dokument assosieres med multiple attributter (f.eks. pris, vekt, stikkord) hvor hvert attributt har ingen, én eller generelt flere verdier. Attributtverdifordelingene fremlegges som et frekvenshistogram enten sortert på frekvens eller verdi. En navigator er grafisk brukergrensesnittobjekt som fremlegger frekvenshistogrammet for et gitt attributt og tillater brukeren å analysere resultatmengden så vel som å velge et attributtverdipar som en søkespørsmålforfining med et enkelt tastetrykk. Forfiningen blir eksekvert omgående, og den nye resultatmengde presenteres sammen med nye navigatorer på den nye resultatmengde. For eksempel kan et søk på "skiing" innbefatte en navigator "Country" på dokumentattributtene for "Country"

(metadata). Denne navigatoren inneholder en verdi "Norway" som antyder at det er et stort antall dokumenter i resultatmengden for "skiing" som er forbundet med Norge. Når brukeren velger muligheten "Norway" i navigatoren, fremlegger systemet undermengden av resultatmengden for "skiing" og ytterligere begrenset til dokumenter forbundet med Norge.

På fig. 2 gir spørsmålet 201 resultatmengden 202 sammen med navigatorer for dokumentnivå-metadata 203-205.1 eksempelet tillater et søk 201 på etternavnet "Thorsen" og fornavnet "Torstein" brukeren å forfine fornavnet blant de i resultatmengden 204 og begrense søket til en del 203 av landet. For hver av forfiningene er størrelsen på resultatmengden vist dersom forfiningen ble benyttet.

Navigasjon innbefatter en rekke begreper for datagraving. Tradisjonelt foregår datagraving på en statisk datamengde. Med navigasjon blir datagraving benyttet på en dynamisk resultatmengde for hvert spørsmål. Hvert dokumentattributt representerer en dimensjon/fasett uttrykt i datagravingsterminologi.

Gitt et spørsmål Q, en navigator TV på attributtet a som har verdier {v} over en mengde dokumenter D, has N( Q, a, v) forekomster av verdien v. Mengden av verdier for attributt a i dokumentet d er d{ a) :

Både attributtverdiene vog dokumenttrefftellingen N( Q, a, v) fremlegges, typisk sortert enten på verdiene eller dokumenttrefftellingen.

Navigasjon er applikasjonen av resultatmengdeaggregering innenfor konteksten av et søkespørsmål, hvor et resultatmengdesammendrag så vel som en spørsmålsmodifikator, som er innbefattet i søkespørsmålet, fremlegges for brukeren når denne velger et objekt i sammendraget. Fremleggingen er en visning av resultatmengden langs en attributtdimensjon og kan innbefatte en kvalitetsindikator i tillegg til attributtverdier, hvor kvaliteten vanligvis er antallet dokumenter for en gitt attributtverdi eller et attributtverdiområde.

Ideene drøftet nedenfor innbefatter både aggregering i det generelle tilfelle og spesifikt anvendelsen på navigasjon. Aggregeringen kan fremlegges uten nødvendigvis å lenke den til søkespørsmålsforfininger, eller den kan danne grunnlaget for statistisk analyse selv uten å fremlegges. Gjenfinningssystemet for informasjon kan også velge å automatisk utføre slike søkespørsmålsforfininger basert på en analyse av søkespørsmålet, resultatmengden og navigatorene/aggregeringen forbundet med resultatmengden.

De dokumentglobale attributter (metadata) er enten eksplisitte i dokumentet eller strukturerte databaseinnførsler eller automatisk oppdagede attributter i det ustrukturerte innhold av et dokument funnet ved bruk av teknikker fra området informasjonsekstraksjon. I hierarkisk strukturert innhold (f.eks. fra XML), kan underdokumentelementer eksplisitt forbindes med attributter. Automatisk ekstrahert informasjon kan forbindes på det globale dokumentnivå og på det kontekstuelle (underdokument-)nivå, f.eks. på setningselementer. Underdokumentelementer kan være eksplisitte i innholdet, (f.eks. avsnitt i HTML) eller detektert automatisk (f.eks. setningsdeteksjon). Distinksjonen mellom attributter og elementer gjøres med hensyn til den synlige innholdsstrømmen: Innholdet av elementer er synlig, mens attributtene er usynlige metadata på elementene. For eksempel er innholdet av setningselementer synlige, innbefattet underelementer av størrelser (f.eks. personnavn), men sentimentattributtet på et setningselement bør ikke interferere med innholdsstrømmen, f.eks. frasesøk over setninger. På samme måte kan et størrelseelement inneholde det opprinnelige innhold, mens et attributt inneholder den normaliserte versjonen av innholdet som benyttes for søking og analyse. For eksempel er teksten "yesterday" innhyllet i en datastørrelse med et attributt som inneholder den konkrete datoverdien normalisert etter standarden ISO 8601, som utledet av konteksten.

Den foreliggende søker, nemlig Fast Search & Transfer ASA, har nylig innført kontekstuell navigasjon, jf. NO patentsøknad nr. 20052215, på underdokumentelementer, f.eks. avsnitt og setninger som vist i den ovennevnte norske patentsøknad. Størrelser ekstraheres fra setningen og markeres som underelementer av setningselementene eller som attributter på setningselementene. Søkesystemet tillater valg av f.eks. spesifikke setninger ved spørsmål og navigasjon på setningens underelementer eller attributter. For eksempel kan et spørsmål velge setninger som inneholder "Bill Clinton" i et underelement "person_name" og fremlegge en navigator på underelementet "dato" i disse setninger. Slike navigatorer er funnet å være mer relevante enn ekvivalente dokumentnivånavigatorer på størrelser utledet fra ustrukturert innhold i naturlig språk.

Fig. 3 viser aggregeringer av personer forbundet med søkespørsmålet "soccer" på dokument 301, avsnitt 302 og setningsnivå 303, og viser tydelig semantiske mer konkrete aggregeringer på avsnitts- og setningskontekster enn på dokumentnivået.

Undertiden vil en bruker spesifisere et detaljert søkespørsmål, og resultatmengden vil ha for spesifikke (eller ingen) dokumenter (dvs. dårlig gjenkalling). Noen søkesystemer tillater brukeren å ganske enkelt øke gjenkallingen, f.eks. ved å tillate lemmatisering eller avledning som muliggjør samsvar mellom alternative overflateformer, f.eks. samsvar mellom forskjellige tider av verb, entall/flertall av substantiver osv. Andre gjenkallingsforsterkende tiltak er å muliggjøre synonymi, å gå fra en frasesøk til en "allord"-søk og gå fra "allord"-søk til en "n av m" (eller "any")-søk. Stavekontroll kan virke begge veier og forbedre gjenkalling eller presisjon.

For å skalere for høyvolumapplikasjoner har søkeløsninger utviklet fra programvarebibliotek håndtert alle aspekter av søket lenket sammen til en enkel applikasjon som kjøres på én datamaskin og til distribuerte søkemotorløsninger hvor multiple, undertiden flere tusen datamaskiner eksekverer søkespørsmålene mottatt fra eksterne klienter. Denne utvikling tillater en søkemotor å kjøre i et separat miljø og å fordele problemet på en optimal måte uten å ha eksterne beskrankninger pålagt av applikasjonen.

Grunnlaget for ytelse, skalerbarhet og feiltoleranse er partisjonering av søkbare dokumenter i partisjoner håndtert på separate datamaskiner og kopiering av disse partisjonene til andre datamaskiner. I søkemotoren blir søkespørsmålet analysert og deretter formidlet til noen eller alle partisjoner, resultatene fra hver partisjon slås sammen, og den endelige resultatmengde blir underkastet etterprosessering før den føres videre til søkeklienten. Ytelse og feiltoleranse økes ved å kopiere dataene på nye datamaskiner. Søkemotorene skalerer for mer innhold ved å tilføye nye partisjoner.

I tradisjonell navigasjon på dokumentnivåattributter er et dokument med lav relevansskåre tellet likt med et dokument som har en høy relevansskåre. Da relevansskåren generelt avtar eksponensielt langs resultatmengdelisten og dokumentene har et uskarpt medlemskap i resultatmengden, kan navigatorer innbefatte spørsmålsforfininger hvor dokumenttellingen hovedsakelig kommer fra treff med dårlig relevans.

Fig. 4 viser relevansprofilen for et testspørsmål på en prøve av en innholdssamling. Den ikke-normaliserte relevansskåre har en eksponensielt fallende profil mot et halenivå. For dette bestemte spørsmål nås halenivået rundt trefftallet 100. Dokumenter fra treff 100 av er innbefattet i resultatmengden, men med et meget lavt effektivt medlemskap.

Spesielt etter hvert som gjenkallingsforbedrende søketiltak muliggjøres, faller søkepresisjonen, men generelt sikrer relevansmekanismene i søkemotoren at bare dokumenter med meget høy kvalitet er innbefattet på toppen av resultatlisten. Imidlertid faller presisjonen i navigatorene mer etter hvert som nye dokumenter innbefattet i resultatmengden blir innbefattet i navigatorene. Innholdet av foreliggende navigatorer har en skjevhet mot gjenkalling fremfor presisjon og lurer potensielt brukeren til dårlige spørsmålsforfininger ved bare å tilby dokumenttrefftallet som et mål på kvalitet.

Klienter har begrenset skjermplass, spesielt på mobile innretninger, men selv bordmaskiner lider av informasjonsoverbelastning etter hvert som altfor mye informasjon pakkes i det synlige området. Spørsmålforfining basert på navigatorer gir dårlige resultater og reduserer brukererfaringen ved informasjonsoverbelastning og spill av skjermplass som kunne utnyttes bedre for andre formål.

Aggregering av navigasjonsdata over partisjoner fører til tap av nettverkbåndbredde. En partisjon må returnere frekvenstellingen for hver verdi i en navigator, da en partisjon ikke vet hvilke verdier som skal tas med i en endelig navigator. For navigatorer som har et stort verdirom innenfor resultatmengden, er nettverkbåndbredden for fordelt aggregering, forut for å velge de øverste N spørsmålsforfininger for brukeren, en flaskehals for å oppnå høy søkeytelse. Mer bestemt fører innbefatningen av ikke-relevante (lavfrekvente) verdier som ikke vil fremlegges i navigatoren, til spill av nettverksbåndbredde.

Fig. 5 viser et prosesskjema for fordelt aggregering. Innholdspartisjonen 501 aggregeres av prosesser 502 som opererer på dokumenter innenfor partisjonene som stemmer overens med søkespørsmålet. De aggregerte resultater føres gjennom nettverket 503 til en global aggregeringsprosess 504. Den globale aggregeringsprosess kan inneholde en hierarkisk aggregering fordelt over multiple aggregeringsunderprosesser. Endelig fremlegger prosessen 505 navigatoren. Navigatorer som kan ha mange entydige verdier, krever betydelig båndbredde på nettverket 503.

Aggregeringen av navigasjonsdata skjer typisk over den fulle resultatmengde. For høyere ytelse, som sparer nettverkbåndbredde så vel som CPU, kan den utføres på de N topprangerte treff, hvor N er en konfigurasjon eller en parameter pr. spørsmål (såkalt grunnaggregering). Generelt vil N ikke tilsvare relevansskåreprofilene for en bred mengde av spørsmål, slik at bare "super-relevante" dokumenter er innbefattet (jf. halenivået fra treff 100 av på fig. 4). Det vil være umulig å finne en generell verdi for N eller å slutte seg til verdien fra spørsmålet alene. Selv om en slik N ble funnet, ville det være et betydelig område av relevanskskårer innenfor de relevante dokumenter og alle dokumenter telles likt uavhengig av relevansskåren.

Slik det kan ses av det foregående, er navigasjon og navigasjonsverktøy forbundet med en rekke ulemper, spesielt med hensyn til applikasjoner eller forfining av søkespørsmål på en måte som sikrer en forbedring av kvaliteten til søkeresultatet og på et vis håndterer problemet som skyldes bruk av utilstrekkelig mål på kvalitet - et innlysende eksempel ville være tilfeller hvor gjenkalling foretrekkes fremfor presisjon.

Følgelig er en første primær hensikt med foreliggende oppfinnelse å forbedre kvaliteten til søkeresultater når navigasjonsmetoder benyttes til søke spør smålf orf ining.

En annen primær hensikt med den foreliggende oppfinnelse er å forbedre påliteligheten av relasjonen mellom fakta returnert som respons på søkespørsmål, uansett om hvorvidt navigasjon benyttes eller ikke.

En annen hensikt med den foreliggende oppfinnelse er å unngå informasjonsoverbelastning som skyldes høy gjenkalling, men med for liten relevans, og som f.eks. resulterer i overflyt av den tilgjengelige visningskapasitet for skjermen, noe som spesielt vil være problem når det benyttes innretninger med begrensede visningsmuligheter, f.eks. mobile innretninger, til søk av informasjon.

En ytterligere hensikt med den foreligge oppfinnelse er å optimere utnyttelsen av den tilgjengelige nettverkbåndbredde og unngå sperr på grunn av dårlig aggregering.

En endelig hensikt med den foreliggende oppfinnelser er å skaffe en søkemotor som er i stand til å støtte og implementere fremgangsmåten i henhold til den foreliggende oppfinnelse.

De ovennevnte hensikter så vel som ytterligere trekk og fordeler realiseres med en fremgangsmåte i henhold til den foreliggende oppfinnelse som er kjennetegnet ved et ytterligere trinn for å beregne sammendragsinformasjon på dokumentdefinisjonsområder, deres verdier og forbundne vekter over resultatmengden, og å vekte verdiene med en sammendragsverdimetrikk (SVM), idet sammendragsverdimetrikken er en kombinasjon av vektede statistiske og dynamiske egenskaper for en attributtverdi og således skaffer et mål på sannsynligheten for attributtverdien.

De ovennevnte hensikter så vel som ytterligere trekk og fordeler realiseres også med en søkemotor i henhold til den foreliggende oppfinnelse, som er kjennetegnet ved å omfatte en første modul for å spesifisere sammendragsverdimetrikker (SVMer) til hierarkiske definisjonsområder, idet den første modul er innbefattet enten i innholds-API eller i innholdsanalysetrinnet, en annen modul for å danne definisjonsområder fra gjenkjenning av eksplisitte formatstrukturer i innholdet, en tredje modul for dannelse av definisjonsområder fra analyse av innholdet, idet de andre og tredje moduler er innbefattet i innholdsanalysetrinnet og innrettet til å tilordne sammendragsverdimetrikker (SVMer) til de dannede definisjonsområder, og en fjerde modul for å indeksere definisjonsområder, verdier og sammendragsverdimetrikker, idet den fjerdemodul er innbefattet i et indekseringsundersystem i kjernesøkemotoren.

Ytterligere trekk og fordeler ved den foreliggende oppfinnelse vil fremgå av de vedføyde, uselvstendige krav.

Den foreliggende oppfinnelse vil forståes bedre av den etterfølgende drøftelse av dens generelle begreper og trekk så vel som ved drøftelser som eksemplifiserer utførelser av oppfinnelsen ved å referere disse til konkrete applikasjoner og lest i samband med de vedføyde figurer, av hvilke fig. 1 viser en typisk graf for presisjon og gjenkalling, som ovenfor nevnt, fig. 2 navigatorer for en resultatmengde på dokumentnivå, som ovenfor nevnt,

fig. 3 kontekstuell navigasjon for søkespørsmålet "soccer", som ovenfor nevnt,

fig. 4 relevansprofil for et søkespørsmål, som ovenfor nevnt,

fig. 5 et skjematisk diagram av fordelt aggregering, som ovenfor nevnt,

fig. 6 et skjema for avbildninger med vekter,

fig. 7 kontekstuell vekting av sammendragsverdimetrikker,

fig. 8 aggregering ved en ontologi, og

fig. 9 skjematisk arkitekturen til en søkemotor i henhold til den foreliggende oppfinnelse.

Den foreliggende oppfinnelse angår både oppsummeringen av attributter, forbundet på dokumentnivå og underdokumentnivå (kontekstuell navigasjon). Dokumentnivåaggregering og navigasjon er et spesialtilfelle av aggregering og navigasjon på underdokumentnivået. I det følgende vil spesialtilfellet navigasjon på dokumentnivå først drøftes.

Fremfor å telle hvert dokument i en resultatmengde viser denne oppfinnelse en fremgangsmåte og et system som vekter en rekke statiske og dynamiske egenskaper forbundet med en attributtverdi og kombinerer disse i en sammendragsverdimetrikk (SVM) og aggregerer slike over resultatmengden. Typisk vil sammendragsverdimetrikken være en sannsynlighet eller en skåre for troen på at attributtet har denne verdi.

I fremstillingen benyttes begrepet vekt for enhver transformasjon f( x) av inngangsverdien x hvor lineær skalering er et spesialtilfelle: f ( x) = a* x. For en rekke inngangsverdier ( xj, x2, xj, ...) vil transformasjonen/^/, x2, X3, ...) generelt være en ikke-lineær kombinasjon av inngangsverdiene. Sammendragsverdimetrikken (SVM) for individuelle attributtverdipar aggregeres over resultatmengden, f.eks. ved å summere sannsynlighetene. Den avgjørende egenskap for enhver slik aggregering er at det skal være en forskyvning mot den høyeste sannsynlighet, slik at for en gitt attributt dominerer de mest relevante verdier i aggregeringen.

I mange gjenfinningssystemer for informasjon blir relevansskåren ikke normalisert. Hovedformålet med relevansskåre er rangering (sortering) av dokumentene før de mest relevante treff fremlegges, samt å angi relevansen av fremleggingen. For re le vans skårene på fig. 4 estimerer en aggregering halenivået og akkumulerer verdiene over dette nivå for hver entydige verdi og samlet. Andelen med hensyn til totalen er et mål på signifikansen av attibuttverdiparet, lik tellingen benyttet tidligere, men nå med en forskyvning mot de mest relevante dokumenter.

Den normaliserte relevansskåre for dokument d i konteksten av søkespørsmålet Q er formelt p( d). Sannsynligheten er 0 når søkespørsmålet Q ikke tilsvarer dokumentet. Den normaliserte relevansskåre benyttes til å vekte akkumuleringen av dokumenter for verdien v i navigatoren på attributtet a:

Når innholdet er partisjonert og det has et autonomt søkesystem på hver partisjon for å beregne et delresultat, blir dette delresultat slått sammen med andre delresultater fra andre partisjoner. Delresultatene innbefatter aggregeringene, men den ovennevnte normalisering og aggregering kan kreve en global synkronisering, spesielt hvor det foreligger ikke-lineariteter. I dette tilfelle kan en to-passprotokoll være nødvendig, hvor partisjonene først beregner resultatmengden og noen aggregeringsparametre som behandles sentralt, før partisjonene beregner de endelige aggregeringer.

I spesialtilfellet akkumulering av relevansskårer over halenivået vil en én-passprotokoll være tilstrekkelig hvor en (verdi, relevansskåresum, telling) trippel returneres for hver entydige attributtverdipar. Den globale re le vans skåres hale estimeres når delresultatmengdene slås sammen. Etter hvert som attributtaggregeringene slås sammen, trekkes det globale halenivå multiplisert med trefftellingen fra relevansskåresummen. For å normalisere aggregeringen kan delresultatmengden også inneholde relevansskåresum eller telling pr. attributt over delresultatmengden. Dette tillater bereging av den globale relevansskåresum over det globale halenivå og benyttes til normalisering. Det tradisjonelle, eksakte trefftall står fortsatt til rådighet i protokollen.

For eksakte tellinger må alle attributtverdier innbefattes i den globale sammeslåing, da en attributtverdi med en meget liten telling kan være en topprangert verdi globalt. Multi-passprotokoller hvor den globale sammenslåing anmoder om statistikk for spesielle attributtverdipar, reduserer aggregasjonsbåndbredden på bekostning av en noe økende latensitet.

Når verdier innenfor en aggregering rangeres i henhold til en relevansskåre, er verdien iboende uskarp. I motsetning til ekssakte tellinger kan ikke verdien lett verifiseres, og det er rom for en viss feil. En aggregering kan forbindes med en feilbeskrankning slik at antallet aggregerte verdier nødvendig for å tilfredsstille feilbeskrankningen er mindre enn for eksakte tellinger. Spesielt kan hver partisjon, gitt en maksimal feil e, miste attributtverdier med en relevansskåre på mindre enn e/ N, hvor N er antallet partisjoner. For å avskjære en attributtaggregering på den globale relevansskåre, kan en to-passprotokoll være nødvendig, hvor den globale relevansskåre beregnes i en første passasje (f.eks. haleestimeringen) og de lokale aggregeringer utføres undergitt globale relevansskårer. Når antallet av de høyst rangerte dokumenter spesifiseres til bruk for aggregering, dvs. grunn aggregering, kan samme metode benyttes til å estimere feilen pr. aggregator. Fremleggelsen av aggregeringene kan angi feilen eller ganske enkelt utelate aggregeringer med for stor feil.

Et dokument behøver ikke bare å forbindes med én eller flere verdier for en gitt attributt, men også med en uskarp medlemskapsskåre, f.eks. en sannsynlighet for å ha den bestemte verdi p( d, a, v). Dette er en a priori vekt tilordnet under forprosesser ingen av dokumentet eller via klienten som henter innholdet på forhånd for å gjøre dokumentet klart for søking. Aggregeringen tar hensyn til både denne attributtverdivekt så vel som den totale (normaliserte) dokumentrelevansskåre via funksjonen/, f.eks. aggregering via summen

Funksjonen/vil også ta hensyn til andre objekter i resultatmengden, andre attributter, ytterligere operatorer eller andre aggregatorer som beskrevet i det følgende avsnitt, hvor systemet og fremgangsmåten omtalt i det ovenstående, generaliseres for bruk på hierarkiske dokumenter og søkespørsmål.

Vektene p{ d, a, v) kan f.eks. utledes fra en klassifikasjonsprosess, f.eks. ved å tilordne språk i dokumentet d til attributtene a. Tabell 1 viser de ikke-normaliserte sannsynlighetsskårer for språkdeteksjon på 4 eksempeldokumenter. Det er tvetydigheter ved deteksjonen av de to norske språkene "nb" og "nn", svensk ("sv"), og dansk ("da"). Fremfor å utføre en hard a priori klassifikasjon, forbedres søke- og aggregeringskvaliteten ved å ta usikkerheten med til sammenligningsprossen og aggregeringen.

Hvert språk forbundet med dokumentet settes inn i verdien v sammen med sannsynligheten for dette språk som p( d, a, v). Flerspråklige eller tvetydige dokumenter kan f.eks. tilordnes de følgende verdier i "språk"-attributtet {("en", 0.9), ("ja", 0.2)} og et annet dokument som har verdien {("en", 1.0)}. Aggregeringen (via sum) av disse to dokumenter over "språk"-attributtet vil være {("en", 1.9), ("ja", 0.2)}. Ettersom brukeren velger et språk, f.eks. "en", kan resultatet enten utsettes for et språkfilter som velger undermengden av resultatmengden som har skåre "en" over en viss terskel, eller som fremhever dokumenter i henhold til deres skåre "en". Den relative vekt av fremhevingen "en" kan bestemmes ved analyser av relevansstatistikk for resultatmengden og språknavigatoren.

Enhver utledning av trekk er forbundet med usikkerheter og sannsynligheter. Den foreliggende oppfinnelse håndterer disse sannsynligheter ved å aggregere sannsynlighetene og fremlegge aggregatet for brukeren fremfor å foreta harde binære avgjørelser og aggregere disse binærverdier. Trekkekstrahering for informasjonsgjenfinning innbefatter f.eks. språkdeteksjon, emneklassifikasjon, bildeanalyse, lydanalyse (f.eks. tale til tekst), og videoanalyse.

Å få en oversikt over dokumentdefinisjonsområder forbundet med et bestemt spørsmål er av stor verdi for å forfine søket med tanke på å se de bokstavlige kontekster hvor det foreligger ønsket informasjon, og også å sette en i stand til å avlede fakta forbundet med søkespørsmålet. Dette kan gjøres ved å benytte kontekstuell navigasjon, f.eks. benytte konteksten for den initialt returnerte informasjon. Kvaliteten på slik kontekstuell informasjon er høyere når den benyttes på innholdselementer i underdokumentinnhold, slik det vil være åpenbart av den etterfølgende drøftelse.

Den foreliggende oppfinnelse angår også hierarkisk innhold (f.eks. representert som HTML, XHTML, og XML generelt) og spørsmål i XPath og XQuery, innbefattet fulltekstutvidelser). Representasjonen av dokumentet i dette tilfellet kan være XML-datamodellen r http:// www. w3. org/ XML/ Datamodel. html]. dvs. hierarkisk navngitte elementer hvor et element kan ha et bokstavelig innhold, underelementer og navngitte definisjonsområder. Dokumentmodellen som det tidligere er henvist til, er et spesialtilfelle hvor dokumentet har en mengde av navngitte elementer (typisk brukt til fritekstsøking og -gjenfinning) og en mengde av navngitte definisjonsområder benyttet til søking, aggregering og gjenfinning.

Distinksjonen mellom element og definisjonsområde er temmelig tilfeldig. Når det henvises til attributtverdier, attributtaggregering og attributtnavigasjon i denne fremstilling, er både toppnivåattributter med dokumentdefinisjonsområde, attributter på underdokumentelementer og også underdokumentelementer innbefattet. Det er f.eks. fullt mulig å aggregere på personnavn i setninger, hvor personnavnet er elementer innenfor det bokstavelige innholdet av setningselementene. Den foreliggende oppfinnelse viser aggregering på både elementer og attributter, og enhver bestemt ordbruk i det følgende impliserer begge. Begrepet "definisjonsområde" vil benyttes for å innbefatte både elementer og elementattributter.

Et system for gjenfinning av informasjon symboliserer det bokstavelige innhold av strengdefinisjonsområder, dvs. det splitter innholdet opp i søkbare, atomære enheter, symboler, som oppfattet av menneskelige brukere. I vestlige språk befinner disse enheter seg tilnærmet på ordnivå og gjør innholdstilsvaret ufølsomt overfor tegnsetting osv. Noen språk har intet eksplisitt skille mellom slike symboler og krever kontekstfølsomme metoder. Innholdet i hele strukturen har en monotont økende posisjon (f.eks. karakterposisjon og symbolposisjon) som ikke påvirkes av elementattributtinnholdet.

Et søkespørsmål som inneholder en rekke beskrankninger i form av enten predikater som velger forekomster av symboler eller definisjonsområder, kan beregne en relevansskåre som innbefatter avstanden mellom treff eller tilsvar. Avstanden kan defineres uttrykt som en likefrem posisjonsavstand i innholdet, f.eks. symbolavstand. Nærhetsrelevansskåren kan innbefattes implisitt, eksempelvis for AND- og OR-operatorer, eller innbefattes i eksplisitte nærhetsoperatorer, f.eks. søke etter "to" NEAR "be". Eksplisitte nærhetsoperatorer kan være ufølsomme for argumentrekkefølgen, men fortsatt skille mellom relevansskåren og rekkefølgen, dvs. at den relative avstand kan være negativ. Implisitt nærhetsrelevans kan også avhenge av argumentrekkefølgen (f.eks. AND-operatoren).

Søkespørsmålet spesifiserer strukturelle dokumentdefinisjonsområder hvor et sett av predikater skal evalueres. Det has en spørsmålsevalueringskontekst for hver overensstemmelse av slike definisjonsområder som innbefatter relevansskårer, posisjonsinformasjon, elementsemantikk, elementstatistikk (f.eks. antall slike elementer globalt og pr. dokument), størrelsen av elementet, predikatene/operatorene benyttet i konteksten. Spesifikt innbefatter begrepet predikater i konteksten relevansstatistikk - f.eks. antallet begreper som foreligger globalt i konteksten i dette dokumentet osv. En spørsmålskontekst er forbundet med et dokumentdefinisjonsområde, dvs. definisjonsområdet i hvilket predikatene innenfor denne kontekst gjelder. Eksempelvis har et søkespørsmål med predikater innenfor en setning en setningsspørsmålskontekst som kan referere til andre definisjonsområder med hensyn til setningen (f.eks. aksene i XPath-spesifikasjonen). Hver definisjonsområde verdi forbindes med en a priori relevansskåre (vekt) som skal benyttes når definisjonsområde verdien aggregeres. En spørsmålskontekst innbefatter også spørsmålskontekstene som utgjør dens forfedre som spesifisert i søkespørsmålet. Spesielt er den globale spørsmålskontekst, innbefattet de globale dokumentattributter, tilgjengelig fra hver spørsmålsevalueringskontekst.

Et søkespørsmål kan definere myke relevanspredikater for aggregering bare i tillegg til de som definerer valgkriteriene. Eksempelvis kan alle setningsdefinisjonsområder som inneholder "said" og et bedriftsdefinisjonsområde velges, og en relevansskåre beregnes innbefattet posisjonsnærhet for disse to beskrankninger, og bedriftsverdien vektet med relevansskåren aggregeres, noe som gir et ytterligere løft til bedriftsverdier som inneholder "Inc".

Under kontekstuell navigasjon og spesielt faktafinning, svarer posisjonsnærhet for informasjon ofte til graden av semantisk tilknytning. Nærhetsbegreper har vanligvis en høyere grad av semantisk tilknytning. Imidlertid er det vanskelig å bestemme en absolutt avstandsgrense. Den vil avhenge av arten av både innholdet og spørsmålet. Noen begreper foreligger i ordrik diskurs (brede kontekster), mens andre befinner seg i kortfattede lister (smale kontekster). Utfordringen er å velge en optimal kontekst som er bred nok til å oppnå tilstrekkelig data for å få statistisk tydelighet, samtidig som den er smal nok til å innbefatte hovedsakelig relevante tilknytninger. Således blir nå avveiningen mellom presisjon og gjenkalling, som opprinnelig betraktet for resultatmengdene, avgjørende for kontekstuelle navigatorer med god kvalitet. I det tilfelle hvor en bruker er interessert i hvilke størrelser og størrelsesverdier som er forbundet med et annet predikat, behøver ikke brukeren å spesifisere en kontekst. Det vil være opp til informasjonsgjenfinningssystemet å velge en passende kontekst for å finne slike relevante assosiasjoner.

Når det pålegges en spesifikk symbolavstand for nærhetspredikater for tilsvar og vekter for aggregering, kan det være vanskelig å forutse en avstand uttrykt med tegn eller symboler eller ord. I mange tilfeller vil spesifisering av avstanden uttrykt ved dokumentdefinisjonsområder være mer egnet for den foreliggende oppgave og gjør det lettere å spesifisere tilsvaret eller treffet og vektingen så vel som å gi mer nøyaktig resultater. For eksempel kan et spørsmål søke etter to predikater innenfor fem setninger og spesifisere aggregeringsvekter på en av predikatene som en funksjon av hvor mange setninger det er mellom predikatene. I et annet eksempel aggregeres substantivfraser innenfor tre setninger fra stedet "Oslo" vektet med antallet av mellomliggende substantivfraser.

Et annet avstandsmål mellom to predikater er aggregeringen av definisjonsområder valgt av et annet predikat. Dette avstandmål kan benyttes til å vekte aggregeringen av en substantivfrase, hvor substantivfrasen skal forekomme etter "Oslo" i setningen, og vekten er en funksjon av sentimentattributtet til de mellomliggende adjektivdefinisjonsområder.

For å finne tilknytning med høy kvalitet, kan det søkes og aggregeres (dvs. beregnes en navigator) først i en smal kontekst, f.eks. på setningsnivå. Hvis det foreligger tilstrekkelig evidens der, fremlegges denne for brukeren, men ellers forsøkes en noe bredere kontekst, f.eks. på avsnittsnivå. Hvis det fortsatt ikke er tilstrekkelig tilsvarende avsnitt, kan det gripes til å benytte spørsmål over hele dokumentet og å bruke globale attributter på dokumentnivå.

En annen metode er å spesifisere kontekstbredden uttrykt ved symbolposisjoner, f.eks. først forsøke med en avstand på fem symboler mellom predikatet og definisjonsområdet som skal aggregeres, og deretter øke avstanden inntil tilstrekkelig data er aggregert og fremlagt for brukeren.

Når nærhet bidrar signifikant til relevansskåren, kan en bred kontekst benyttes i det første forsøk med bruk av nærhetsavstanden til å modulere de aggregerte verdier slik at det fås en forskyvning mot de mest relevante tilknytninger. I dette opplegg er det sannsynlig at det kreves et påfølgende bredere søk. Når konteksten øker trinnvis for å oppnå tilstrekkelige data, enten uttrykt ved strukturelle elementer eller ved posisjonsavstand, kan imidlertid aggregeringen kombinere data på forskjellige nivåer og vekte de smalere kontekster høyere enn de bredere. Denne formen for aggregering bør analysere resultatenes art på hvert nivå og bestemme en passende metode for å kombinere de aggregerte verdier. Kombinasjon av data på dette grunnlag, dvs. ved å ta hensyn til nivåer og data, betegnes som meta-aggregering og skal drøftes mer detaljert nedenfor.

Vektingen av definisjonsområdeverdier kan avhenge av andre definisjonsområder hvor relasjonen er spesifisert i søkespørsmålet. For eksempel kan aggregeringen av et personnavn i tillegg til andre relevansmetrikker også vektes med sentiment på opphavssetningen, slik at personnavn i positive kontekster vektes høyere (med antakelse av numerisk verdi for sentimentet). Vektingen innbefatter en avbildning av verdier slik at det tekstlige innhold også kan benyttes til å vekte personnavn med tittel forbundet med hvert navn. Slike aggregeringer kan også utføres på vekter beregnet på indekseringstidspunktet og forbundet med definisjonsområdeverdier. Denne metoden kan gi høyere ytelse, men vil lide under en mangel på fleksibilitet med hensyn til definering av slik aggregering ved søkespørsmålstidspunktet.

I prinsippet kan også definisjonsområdeverdier vektes med relevans utledet av andre navigatorer (i realiteten aggregeringer, da muligheten for spørsmålsforfininger ikke er påkrevet). Eksempelvis kan prisområdet vekte farge slik at fargen ikke er relevant hvis prisen er lav, mens for høyere pris ønskes en eksakt farge. Som ovenfor kan samme predikater benyttes på kontekstnivået, f.eks. setning eller symbolnærhet, men hvis det er utilstrekkelig data til å samle korrekt evidens for en vektet fargeaggregering, veier prisaggregeringen fargen i henhold til resultatmengdeavstanden på pris (hvor prisaggregeringen også kan være vektet).

Tradisjonelt har spørsmålsforfining under navigasjon bestått i valg eller bortvalg av resultatmengder som essensielt endrer filterbeskrankningen i søkespørsmålet som ikke benytter noen relevansskåre, bare implisitt ved å benytte en annen mengde. Med den foreliggende oppfinnelse kan aggregering og navigasjonserfaring være "mykere" med bruk av søkespørsmålforfininger som tilfører (eller fjerner) myke beskrankninger i søkespørsmålet fremfor stringente filtreringsoperatorer. For eksempel kan søkespørsmålforfining addere en OG-lignende operator til det opprinnelige søkespørsmål og et mykt navigasjonspredikat i et slutningsnettverk eller en uskarp logikk. Det opprinnelige søkespørsmål og det tilføyde navigasjonspredikat vektes i henhold til en analyse av resultatmengden og navigatoren. For eksempel ville vekten av navigasjonspredikatet være høyere og mer restriktivt for en stor resultatmengde enn for en liten. For små resultatmengder kunne den effektivt bestå i en omrangering av trefflisten. Bemerk at med den foreliggende oppfinnelse kan en søkespørsmålforfining som forandrer relevansen av en resultatmengde, oppnå samme effekt i en navigator som tradisjonell stringent filtrering.

Det skal også bemerkes at sammendragsverdimetrikken (SVM) kan beregnes basert på standard kode definert i søkespørsmålet, f.eks. uttrykt ved javakode. Javakoden kan f.eks. spesifisere at aggregering skal skje på verdier i små bokstaver og at sammendragsverdimetrikken for en verdi økes hvis store bokstaver er til stede i verdien. Søkespørsmålet kan også spesifisere spesialaggregering på verdier og sammendragsverdimetrikker. For eksempel kan en spesialtilpasset kode aggregere entydige verdier innenfor et dokument og velge den maksimale sammendragsverdimetrikk for hver entydig verdi. Andre språk kan benyttes, f.eks. XPath eller XQuery, innbefattet XQuery-fulltekst eller ontologispråk.

Innholdet kan være uensartet og tilknyttet et stort antall skjemaer. Noen gjenfinningssystemer for informasjon tillater at innholdet tas inn uten noe behov for normalisering på spesifikke søkeskjema. Oppgaven med å definere avbildninger av hvert av innholdsskjemaene til bestemte søkeskjemaer er enorm og tar aldri slutt. Søkeskjemaene og avbildningene er nødt til å forandre seg etter hvert som søkeapplikasjonen utvikler seg. Definisjon av avbildingene på søkespørsmålstidspunktet gir mer fleksibilitet. Den foreliggende oppfinnelse tillater aggregering over multiple skjema for å ta hensyn til den semantiske avstand mellom navngitte definisjonsområder som skal innbefattes og avbildes på søkeskjemaet. Avbildningen kan enten gjøres på forhånd ved å forbinde verdiene med den semantiske avstand (som en vekt) eller på søkespørsmålstidspunktet. For eksempel kan de følgende definisjonsområder i innholdet aggregeres til "navn" i søkeskjemaet vektet med semantiske avstand: ("customer", 0.5), ("person name", 1.0), ("accountholder", 0.8), ("owner", 0.7).

Figur 6 viser avbildningen - enten forindeksering eller ved søketidspunkt - på innholdsskjemaer "Contacts" 601 og "Customers" 602 til et søkeskjema "SearchSchema" 603.1 "Contacf-skjemaet 601 er feltene "WorkPhone", "HomePhone" og "MobilePhone" alle avbildet til "PhoneNumber"-feltet i søkeskjemaet 603, men med forskjellige vekter som f.eks. tar hensyn til straffene for å ta kontakt med en person hjemme eller på arbeidet, avhengig av hvorvidt det er privat kontakt eller forretningskontakt. Figur 6 viser også avbildningen av "EmailName" i "Contact" 601 til multiple felter i søkeskjemaet 603, hver med forskjellig vekt. Vektene forbundet med bidireksjonelle avbildningstvetydigheter benyttes både for sammenligning og rangering av treffene i søkeresultatlisten så vel som når verdier aggregeres. Søking og aggregering skjer med hensyn til et søkeskjema som er relevant for brukstilfellet. Det kan være en rekke søkeskjemaer som svarer til en rekke brukstilfeller. Søkeskjemaet 603 kan være et logisk skjema i den forstand at søkespørsmålet utvides til å dekke de fysiske skjemaer 601 og 602 som foreligger i gjenfinningssystemet for informasjon, f.eks. i XML-representasjoner. Alternativt kan informasjonen i systemet normaliseres ved forindekseringstidspunktet til søkeskjemaet 603 og lagres i denne representasjonen. En blanding av de to alternativer tilbyr en avveining av fleksibilitet mot ytelse pr. felt i søkeskjemaet.

Når fakta og kunnskap skal oppdages, dvs. at det søkes etter sterke tilknytninger i innholdet av valgte dokumenter i gjenfinningssystemet for informasjon, kan det være av interesse å slå sammen (definisjonsområde-, verdi-)tilknytningene for alle definisjonsområder og sortere på en minkende relevansmetrikk. Mengden av definisjonsområder som skal slås sammen, kan være definert i søkespørsmålet, eventuelt over alle aggregeringer.

Den foreliggende oppfinnelse angår også graving etter samforekomster, f.eks. av personnavn og datoer i setninger som inneholder "born". I dette tilfelle vil fordelen av vekting gi en bedre tilknytning mellom personer og fødselsdatoer. For eksempel kunne substantivfraser mellom personen og "born" vekte tilknytningen ned, slik at setninger på form av "Bill Clinton's wife was born on 1947-10-26" ikke vil danne noen sterk tilknytning mellom "Bill Clinton" og datoen.

Figur 7 viser to setninger 701 og 702 med bedriftsnavn, varer (eller lingvistiske varianter) og adjektiver. Setningen 701 inneholder bedriftsnavnet 703, adjektivet 704 og "groceries" 705 som er forbundet med basisformen "grocery". Setningen 702 inneholder "grocery" 706 og bedriftsnavnet 707. Et søkespørsmål spesifiserer en aggregering av bedriftsnavn innenfor samme setning som "grocery", samt fremhever de bedrifter som inneholder "Inc". Sammendragsverdimetrikken kan således settes i stand til å reagere på en visuell eller posisjonell avstand mellom symboler eller ord, eller tilsvarende en posisjonsnærhet for tegn i dokumentet og mellom predikater i søkespørsmålet. Måling av nærhet ved en symbolavstand vil ikke nødvendigvis representere visuell avstand mellom symbolene. Noen symboler er lengre enn andre, det forekommer tegnsetting, tegn står på linje og utformingen kan innbefatte tabeller som adskiller symbolene. Den visuelle avstand mellom f.eks. symboler og størrelsesdefinisjonsområder kan innbefattes i sammendragsverdimetrikken (SVM). Når det aggregeres personer som forekommer sammen med symbolet "born", er definisjonsområdet "person" som forekommer visuelt nær "born" å foretrekke. For eksempel for to avsnitt

.... in 1953, the house was tåken over by John Smith.

Born in 1965, Julia Smith....

hvor det første avsnitt ender med persondefinisjonsområdet og det påfølgende avsnitt starter med et symbol "born", er persondefinisjonsområdet og symbolet "born" nærstående uttrykt ved symbolnærhet, men visuelt så vel som semantisk er de lengre fra hverandre. For å skaffe en reduksjon i sammendragsverdimetrikken i dette tilfelle, kan avsnittsdefinisjonsområder være forbundet med en implisitt symbolavstand. En mer avansert metode er å utlede tegnavstanden fra den visuelle utforming i dokumentformatet, f.eks. ved å tolke HTML. En annen fremgangsmåte er å forbinde den visuelle posisjonen i parallell med symbolposisjonene, slik at den visuelle avstand mellom overensstemmelser i innholdet kan beregnes etter hvert som spørsmålene evalueres. Bedriftsnavnet 707 i setningen 702 får en høyere vekt enn bedriftsnavnet 703 i setning 701 på grunn av bedre symbolnærhetsskåre og eksakt lingvistisk overensstemmelse. Lingvistiske varianter kan ha en lavere vekt i tilfelle det innføres semantiske tvetydigheter. På den annen side får bedriftsnavnet 703 et ytterligere løft for å inneholde "Inc", som angitt i søkespørsmålet. Videre kan søkespørsmålet spesifisere aggregering over sentiment på mellomliggende adjektiver, slik at adjektivet "good" 704 gir et løft til bedriftsnavnet 703.

Aggregeringen kan også være følsom overfor kontekster over

dokumentnivået. Et dominant antall av dokumenter innenfor den samme node i en hierarkisk taksonomi kan veies noe ned for å dra fordel av evidens fra et større område av dokumenter. Taksonomien kan forbindes med vekter slik at aggregeringen f.eks. vekter definisjonsområdeverdier fra dokumenter i

kategorien "News" høyere enn verdier fra dokumenter i kategorien "Travel". Eksempler på slike taksonomier er URLer (med nivåer slik som domener, vevsteder og kataloger) begrepsmessige kategorier, eksplisitt klassifikasjon så som produkthierarkier etc.

Støtten for slike taksonomier kan generaliseres til ontologier, for eksempel definert i ontologispråk så som OWL, RDF/RDFS, OIL, DAML, DAML+OIL, KIF, OCML, LOOM, KM, F-logic, OKBC og CycL (og flere). Ontologier som' benyttet i den foreliggende oppfinnelse, skal drøftes inngående nedenfor.

Slutningsregler kan defineres (f.eks. i språkene nevnt ovenfor) og utlede re le vans vekter for definisjonsområdeverdier, gitt et dokument som delvis kan knyttes til flere objekter i ontologien. Uttrykt ved begrepsmessig klassifikasjon kan et dokument tilhøre både "Travel" og "News", men med forskjellige sannsynligheter. Disse a priori sannsynligheter bidrar også til vektene for definisjonsområdeverdiene ovenfor.

En ontologi kan også avbilde en verdi som skal aggregeres til flere kandidatverdier, hver forbundet med en vekt. Et definisjonsområde "foodkind" kan ha verdien "Granny Smith" og avbildes til "eple" og "frukt". Vektene kan være bestemt av ontologiens slutningsregler som også kan ta hensyn til dokument- og resultatmengdeegenskaper. I det enkleste tilfelle bestemmes vektene ved den semantiske avstand i "is-a"-relasjonene innenfor ontologien. Således kan verdien "Granny Smith" ha en a priori vekt 0,9 i dokumentet, og relasjonen "Granny Smith is an apple" ha en vekt 0,9, og relasjonen "apple is a fruit" en vekt 0,8. Med enkel aggregering av vekter tilføres navigatoren "foodkind" tre (verdier, vekt) par: ("Granny Smith", 0,9), ("apple", 0,81), og ("fruit", 0,648).

Figur 8 viser aggregeringen av begreper i et dokument 806 forbundet med en ontologi 801. Dokumentet 806 er forbundet med forskjellige styrker til nodene 802, 804 og 805. Innenfor ontologien er node 805 sterkere forbundet med node 803 enn 804 er forbundet med node 803, f.eks. på grunnlag av brukerprofiler. Det er hyppigere besøk av brukere som er interessert i et amerikansk innhold. Vektene fra dokument 806 forplanter seg via veiene 804-803 og 805-803 til noden 803, slik at det fås en aggregert vekt av alle innkomne veier (angitt ved en punktert linje). Således er samtlige noder 802, 803, 804 og 805 innbefattet i aggregeringen når de passer til dokumentet 806.

Sammendragsinformasjonen kan beregnes med overvåket eller uovervåket opphoping på basis av flere definisjonsområder. Overvåket opphoping kan betraktes som lignende klassifikasjon, dvs. bruk av taksonomier som tar hensyn til definisjonsområdeverdier for forskjellige dokumentnivåer. Som allerede nevnt, kan taksonomier generaliseres til ontologier og tillate definisjon av regler for begrepsmessige klassifikasjon hvori et dokument kan forbindes med forskjellige nivåer og derfor forskjellige sannsynligheter for forskjellige verdier, som drøftet i det ovenstående. Utføres opphoping på basis av flere definisjonsområder, må vekten forbundet med hvert definisjonsområde innbefattes i opphopingsprosessen. For eksempel kan definisjonsområdet "title" ha en høyere vekt enn definisjonsområdet "body", og således skulle symbolene i "title" bidra mer til f.eks. dokumentvektoren. Også underdefinisjonsområder for størrelser kan gi ytterligere løft innenfor hvert av definisjonsområdene "title" og "body". I opphopingsprosessen kan hvert dokument dannes av én eller flere klynger, hver forbundet med en skåre for medlemskap i klyngen, f.eks. vektorlikhetsmål mellom dokumentvektoren og sentervektoren for klyngen. Denne skåren kan benyttes som en sammendragsverdimetrikk uttrykt ved aggregering av definisjonsområdenavn og definisjonsområdeverdier. Noen eksemplifiserende utførelser av den foreliggende oppfinnelse skal nå gis, uttrykt ved spesifikke applikasjoner derav.

Eksempel 1

En første utførelse av den foreliggende oppfinnelse er innenfor Internett-søkeapplikasjoner, f.eks. vertikalsøk, lokalsøk og global Internett-søk. Det enorme innholdsvolum for slike applikasjoner og den typiske mangel på søkeekspertise hos brukerne som gitt ved tjenestene som benyttes av allmennheten, krever at systemet skaffer hjelpemidler for å returnere relevant informasjon. Den foreliggende oppfinnelse tillater en vevsideanalyse, eksempelvis for å veie begreper og metadata ved visuell presentasjon og fokuserer på informasjon i lett synlige fonter og reduserer bidraget fra tekst i menyer funnet på mange sider i likhet med relevansberegninger på begreper basert på invers dokumentfrekvens. En analyse av hyperlinkstrukturen til innholdet kan f.eks. vekte de refererende ankertekster i en side til en ankertekstnavigator. Sidesyn som følge av søkespørsmål kan benyttes til å forbinde søkespørsmålet med de betraktede sider. En analyse av denne spørsmålstrafikk kan skaffe vektede tilknytninger, f.eks. basert på popularitet over tid, nåværende trender eller popularitet innenfor en gruppe av andre brukere hvor man kan vekte brukerne. En analyse av brukertrafikk for generelle sidesyn kan skaffe a priori dokumentrelevans som angår alle metadata. En begrepsnavigator kan ta vektede inngangsverdier fra en rekke kilder, innbefattet de ovennevnte.

Eksempel 2

En annen utførelse av den foreliggende oppfinnelse has innenfor området søking i e-handelapplikasjoner innbefattet "e-tailing" og Internett-shopping. For eksempel er en MP3-spiller sterkere forbundet med produsenten enn batteriet for MP3-spilleren, slik at spørsmålet "MP3" gir en produsentnavigator som er forskjøvet mot produsenter med mange spillere fremfor mange batterier. Vekten kan ganske enkelt være prisen, men kan forfines til å innbefatte det totale salgstall, ikke bare fra søkingen. Vekter på verdier i produktnavigatorer kan også bli utledet fra anmeldelser og bestemmes av forretningsregler, f.eks. på produktets utløpsdato, produktets lønnsomhet og kampanjer. Vektede tilknytninger mellom produkter og begreper utledet av teksten i søkespørsmålene kan bestemmes ved hjelp av disse data, tilsvarende Internett-søkeapplikasjonene ovenfor. Vektene til foreslåtte produktkategorier, produsenter, modeller og trekk som farge og størrelse kan utledes av brukertrafikken. Da forskjellige produkter kan ha forskjellige karakteristikker, vil de ha forskjellige innholdsskjemaer med hensyn til søk. Etter hvert som disse skjemaene normaliseres for å tilby et generelt søkeskjema til en sluttbruker, kan avbildningen av produktspesifikke felt til søkeskjemafeltene bli uskarp. Denne uskarphet kan medføres til navigasjonen på søkeskjemafeltene. Verdier for semantisk gode avbildninger vektes høyere enn for avbildninger hvor det er uklar semantisk korrelasjon.

Tabell 2 viser et eksempel på en produktdatabase til bruk innenfor e-handel og angir 5 produkter som passer til spørsmålet "MP3". En tradisjonell navigator på "Manufacturer" returnerer 3 treff for "Sanyo" og 2 for "Creative" og ville således rangere "Sanyo"-innførselen høyere enn "Creative"-innførselen. Den foreliggende oppfinnelse tillater selgeren å vekte produsentnavigatoren med f.eks. "Price", slik at "Creative" ville rangere høyere enn "Sanyo" og det er sannsynlig at dette ville føre til en bedre brukererfaring og forbedre selgerens lønnsomhet.

Eksempel 3

En tredje utførelse av foreliggende oppfinnelse has innenfor området kunnskapsoppdagelse og tekstgraving, for eksempel patentsøk. Brukerne er typisk eksperter på emneområdet og krever ekstrem presisjon i sine søkeresultater. Utfordringen er å forbinde et søkespørsmål med navigator som gir et kvalitativt mål på søkespørsmålet og resultatmengden, og dessuten samtidig spørsmålsforfininger som vil gi mer presis informasjon. Det finnes allerede metoder for å forbinde dokumenter med metadata og å forbinde et søkespørsmål med navigatorer på metadataene til dokumentene innenfor søkespørsmålets resultatmengde. Internasjonal patentsøknad PCT/NO06/000165, overdratt til den nærværende søker, beregner navigatorer på metadata forbundet med underdokumentstørrelser valgt på spørsmålstidspunktet og har vist seg å gi høyere presisjon i navigatorene. I begge tilfeller er navigatoren basert på frekvensen til metadataene. Den foreliggende oppfinnelse forandrer tilknytningen mellom søkespørsmål og metadata fra å være binære relasjoner til å bli en vektet relasjon, hvor vekten kan evalueres på spørsmålstidspunktet. I utførelsen benyttet på patentsøk kan vekten f.eks. være basert på kravstrukturen, slik at begreper i de uavhengige krav, spesielt i det første krav, vektes høyere enn begreper i f.eks. bakgrunnen for oppfinnelsen og således gir bedre presisjon for å identifisere de oppfinneriske trekk i patentet. Utledningen av kunnskap, f.eks. i form av predikater, er iboende probabilistisk, og den foreliggende oppfinnelse tillater at denne usikkerhet medføres helt til dannelsen av sammendrag. Filtrering av disse sannsynligheter på terskler vil redusere kvaliteten til sammendragene.

Eksempel 4

En fjerde utførelse av den foreliggende oppfinnelse angår bruken på multimediaobj ekter som innbefatter filer og streamingsendinger som inneholder musikk, video, tale og fotografier. For eksempel kan popularitetsmål innenfor sosiale nettverk skaffe vekter for sjanger, utøver og sang, slik at en oversikt over tidligere aktiviteter og nåværende trender innbefatter disse vekter. Ytterligere utledning blir ofte benyttet på multimedia for å utvide objektet med globale og innholdsspesifikke metadata, f.eks. pr. scene i en videostrøm. De utledede trekk forbindes med sannsynligheter som den foreliggende oppfinnelse tar hensyn til ved dannelsen av sammendrag. For eksempel tilordner en omforming av tale til tekst sannsynligheter for fonemer og ord detektert i mediestrømmen, og et ansiktsdeteksjonssystem tilordner sannsynligheter til hvert av de detekterte ansikter.

I tilknytning til eksemplene på visse ønskelige og nyttige anvendelser av den foreliggende oppfinnelse vil en fagmann lett innse at oppfinnelsen også kan være utført i applikasjoner som går utover aksess, søking og gjenfinning av informasjon som realisert i konvensjonelle systemer for informasjonsaksess og søking. For eksempel kunne sammendragsmetrikken i et bedriftssøkesystem stilles inn med det formål å oppnå spesifikke operasjonelle mål innenfor et forretningsforetak. Det er også mulig å la sammendragsverdimetrikken (SVM) reagere på bud i annonser, og disse kunne spesifikt innbefatte en budverdi og/eller forventede annonseinntekter.

Et generelt system for aksess, søking og gjenfinning av informasjon hvor fremgangsmåten i henhold til den foreliggende oppfinnelse skal være anvendbar, kan med fordel være utført i form av en søkemotor i henhold til den foreliggende oppfinnelse.

I det følgende skal en søkemotor innrettet til å støtte og implementere fremgangsmåten i henhold til den foreliggende oppfinnelse drøftes i noe detalj. For å støtte og implementere fremgangsmåten i henhold til den foreliggende oppfinnelse er det anordnet ytterligere komponenter og moduler, og de skal beskrives med henvisning til fig. 9.

Søkemotoren 100 i henhold til den foreliggende oppfinnelse vil, som kjent i teknikken, omfatte forskjellige undersystemer 101-107. Søkemotoren kan aksessere dokumenter eller innholdsmagasiner som befinner seg i et innholdsdomene eller -rom fra hvilket innhold enten aktivt kan skyves inn i søkemotoren, eller via en datakobling trekkes inn i søkemotoren. Typiske magasiner innbefatter databaser, kilder tilgjengelige via ETL (Extract-Transform-Load) -verktøy så som Informatica, ethvert XML-formattert magasin, filer fra filtjenere, filer fra vevtjenere, dokumenthåndteringssystemer, innholdshåndteringssystemer, e-postsystemer, kommunikasjonssystemer, samarbeidssystemer og rike media så som audio, bilder og video. De innhentede dokumenter leveres til søkemotoren 100 via innholds-API (Application Programming Interface) 102. Dernest blir dokumenter analysert i et innholdsanalysetrinn 103, også kalt et undersystem til forpro ses sering av innhold, for å forberede innholdet for forbedrede søke-og oppdagelsesoperasjoner. Typisk er utdata fra dette trinn en XML-representasjon av inndokumentet. Utdata fra innholdsanalysen benyttes til å mate kjernesøkemotoren 101. Kjernesøkemotoren 101 kan typisk anbringes spredt over en tjenerfarm på en desentralisert måte for å tillate behandling av store dokumentmengder og høye søkespørsmålsbelastninger. Kjernesøkemotoren 101 kan akseptere brukeranmodninger og frembringe lister over overensstemmende dokumenter. Dokumentrekkefølgen blir vanligvis bestemt i henhold til en relevansmodell som måler den sannsynlige betydning av et gitt dokument i forhold til spørsmålet. I tillegg kan kjernesøkemotoren 101 frembringe ytterligere metadata for resultatmengden slik som sammendragsinformasjon for dokumentattributter. Kjernesøkemotoren 101 kan i seg selv omfatte ytterligere undersystemer, nemlig et indekseringsundersystem 101a for nedsamling ("crawling") og indeksering av innholdsdokumenter, og et søkeundersystem 101b for den egentlige utførelse av søk og gjenfinning. Alternativt kan data fra innholdsanalysetrinnet 103 mates til en valgfri varslingsmotor 104. Varslingsmotoren 104 vil ha lagret et sett av spørsmål og kan bestemme hvilke spørsmål som vil akseptere de gitte inndokumenter. En søkemotor kan aksesseres fra mange forskjellig klienter eller applikasjoner, som typisk kan være mobile og datamaskinbaserte klientapplikasjoner. Andre klienter innbefatter personlige digitale assistenter og spillinnretninger. Disse klientene, anbrakt i et klientrom eller -domene, vil levere anmodninger til søkespørsmåls- eller klient-API 107 i søkemotoren. Søkemotoren 100 vil typisk ha et ytterligere undersystem i form av et søkespørsmålsanalysetrinn 105 for å analysere og forbedre søkespørsmålet for å konstruere et avledet spørsmål som kan utlede mer meningsfull informasjon. Endelig blir utgangen fra kjernesøkemotoren 101 typisk ytterligere analysert i et annet undersystem, nemlig et resultatanalysetrinn 106 for å skaffe informasjon eller visualiseringer som benyttes av klienter. - Begge trinn 105 og 106 er forbundet mellom kjernesøkemotoren 101 og klient-API 107, og i tilfelle varslingsmotoren 104 foreligger, er den forbundet i parallell til kjernesøkemotoren 101 og mellom innholdsanalysetrinnet 103 og søkespørsmålsanalyse- og resultatanalysetrinnene 105; 106.

For å støtte og implementere den foreliggende oppfinnelse må en kjent søkemotor 100 i tillegg omfatte visse moduler 108-111. En første modul 108 er vanligvis anordnet i innholds-API 102 for å spesifisere sammendragsverdimetrikker på hierarkiske definisjonsområder. Alternativt kan denne første modul 108 også være innbefattet innholdsanalysetrinnet 103.1 ethvert tilfelle inneholder innholdsanalysetrinnet 103 en annen modul 109 for å danne definisjonsområder ved å gjenkjenne eksplisitte formatstrukturer i innholdet og på denne basis tilordne sammendragsverdimetrikker (SVMer) til de således dannede definisjonsområder. I tillegg er en tredje modul 110 innbefattet i innholdsanalysetrinnet 103 for å danne definisjonsområde fra analyse av innholdet og på denne basis å tilordne sammendragsverdimetrikker (SVMer) til således dannede definisjonsområder. Som nevnt ovenfor, kan kjernesøkemotoren 101, som i realiteten kan betraktes som en representasjon av multippelt fordelte kjerne søkemotorer, omfatte ytterligere to undersystemer, nemlig indekseringsundersystemet 101a og søkeundersystemet 101b. For å implementere fremgangsmåten i henhold til den foreliggende oppfinnelse, skal indekseringsundersystemet 101a inneholde en fjerde modul 111 for å indeksere definisjonsområder, verdier og sammendragsverdimetrikker. Endelig skal det også bemerkes at klient-API 107, som håndterer både søkespørsmål og søkeresultater, som kjent av fagfolk, vil inneholde anordninger eller moduler for å spesifisere søkespørsmål, aggregeringer og navigatorer og disse vil være passende tilpasset for å støtte fremgangsmåten i henhold til den foreliggende oppfinnelse.

Den foreliggende oppfinnelse viser hvordan slik sammendragsinformasjon kan forbindes med interaktive objekter for spørsmålsforfining, hvor begrepet relevans, tidligere anvendt bare på resultatmengden, nå også anvendes på sammendragsinformasjonen og forbedrer den oppfattede kvalitet av en søkemotor eller et søkesystem slik den kan anvendes til søking og gjenfinning av informasjon over datakommunikasjonssystemer generelt, dvs. både ekstranett og intranett. Dessuten viser den foreliggende oppfinnelse hvordan spørsmålskapasiteten i en desentralisert søkemotor kan økes ved å redusere den nødvendige nettverkbåndbredde. Den foreliggende oppfinnelse representerer således en betydelig forbedring av vanlig benyttede fremgangsmåter for aksess, søking og gjenfinning av informasjon slik det her er vist og drøftet i detalj i det ovenstående.

Claims

1. Fremgangsmåte ved beregningen av sammendragsinformasjon for dokumenter som inneholder hierarkisk navngitte definisjonsområder, omfattende en rekke forbindelser mellom et definisjonsområde og en verdi, eller mellom et definisjonsområde og et verdivektet par, hvor fremgangsmåten omfatter trinn for å benytte et søkespørsmål på en mengde dokumenter og å identifisere en resultatmengde av tilsvarende dokumenter og søkespørsmålsavhengige underseksjoner av de tilsvarende dokumenter, hvor fremgangsmåten er karakterisert ved et ytterligere trinn for å beregne sammendragsinformasjon på dokumentdefinisjonsområder, deres verdier og forbundne vekter over resultatmengden, og å vekte verdiene med en sammendragsverdimetrikk (SVM), idet sammendragsverdimetrikken er en kombinasjon av vektede statistiske og dynamiske egenskaper for en attributtverdi og således skaffer et mål på sannsynligheten for attributtverdien.

2. Fremgangsmåte i henhold til krav 1, karakterisert ved at dokumentene har et implisitt og anonymt rotelement slik at dokumentene effektivt har en mengde av navngitte elementer og attributter, dvs. en ettni vås struktur.

3. Fremgangsmåte i henhold til krav 1, karakterisert ved å utføre en indekseringstidsanalyse av mengden av dokumenter for å oppdage og kode semantiske strukturer i dokumentene og tilordne vekter til de kodede strukturer.

4. Fremgangsmåte i henhold til krav 1, karakterisert ved at definisjonsområdeverdier omfatter vektede forbindelser til en ontologistruktur.

5. Fremgangsmåte i henhold til krav 4, karakterisert ved at ontologistrukturen er en taksonomi, og at hvert verdivektet par gir sannsynligheten for å tilhøre en taksonominode som representerer definisjonsområdeverdier.

6. Fremgangsmåte i henhold til krav 4, karakterisert ved å avbilde definisjonsområdeverdiene ved relasjoner til en ontologistruktur underkastet vektmodifikasjoner forbundet med relasjonene i ontologistrukturen.

7. Fremgangsmåte i henhold til krav 1, karakterisert ved å beregne sammendragsinformasjonen med overvåket eller uovervåket opphoping av valgte dokumentdefinisjonsområder, idet vektene forbundet med definisjonsområdeverdiene tas i betraktning, slik at sammendragsinformasjonen reagerer på sannsynligheten for medlemskap i den av opphopingen dannede klynge.

8. Fremgangsmåte i henhold til krav 1, karakterisert ved å la søkespørsmålet omfatte fragmenter som er spesifikt rettet mot sammendragsverdimetrikken og en klynge av sammendragsverdimetrikker.

9. Fremgangsmåte i henhold til krav 1, karakterisert ved at sammendragsverdimetrikken reagerer på minst en blant en relavansskåre innenfor en søkespørsmålkontekst (spørsmålsfragment) og spesifikt en endelig relevansskåre for dokumentene i resultatmengden, et nærvær eller fravær av navngitte dokumentdefinisjonsområder, eller verdiene av navngitte dokumentdefinisjonsområder og forbundne vekter for disse verdier om de finnes.

10. Fremgangsmåte i henhold til krav 9, hvor sammendragsverdimetrikken reagerer på relevansskåren innenfor en søkespørsmålskontekst, karakterisert ved at sammendragsverdimetrikken videre reagerer på én eller flere blant en posisjonsnærhet for symboler eller ord i dokumentet og mellom predikater i søkespørsmålet, en posisjonsnærhet for tegn i dokumentet og mellom predikater i søkespørsmålet, et antall tilsvar i dokumentet som valgt av et underspørsmål, og mellom predikater i søkespørsmålet, en aggregering av tilsvar i dokumentet som valgt av et underspørsmål, og mellom predikater i søkespørsmålet, en semantisk avstand for symboler/ord i en ontologi, numeriske verdier spesifisert i søkespørsmålet og numeriske verdier for definisjonsområdene som valgt av et underspørsmål, idet de numeriske verdier innbefatter heltall, reelle tall, tid og geografisk posisjon, og et avstandsmål mellom en dokumentvektor spesifisert i eller implisert av søkespørsmålet og en vektorverdi som velges fra de tilsvarende dokumenter.

11. Fremgangsmåte i henhold til krav 1, karakterisert ved å omfatte dannelsen av en kontekstuell navigasjon ved å forbinde søkespørsmålsforfining med sammendragsinformasjon, idet søkespørsmålsforfiningen innbefatter resultatmengdefiltrering og relevansøking.

12. Fremgangsmåte i henhold til krav 1, karakterisert ved at sammendragsinformasjonen er vektet frekvensinformasjon.

13. Fremgangsmåte i henhold til krav 12, karakterisert ved å definere søkespørsmålspredikater, en relevansberegning, en aggregering eller spørsmålsforfininger i det minste delvis uttrykt ved én blant Java™-kildekode eller bytekode, XPath eller XQuery (innbefattet XQuery-fulltekst), eller ontologispråk.

14. Fremgangsmåte i henhold til krav 1, karakterisert ved å identifisere hvilke dokumentdefinisjonsområder som er relatert til søkespørsmålet, og å identifisere dokumentverdier for de identifiserte definisjonsområder slik at relevante fakta og kunnskap forsterkes.

15. Fremgangsmåte i henhold til krav 14, karakterisert ved å fremlegge de identifiserte definisjonsområder og dominante verdier.

16. Fremgangsmåte i henhold til krav 1, karakterisert ved at de mest relevante definisjonsområder og verdiassosiasjoner er oppført i et objekt som fremlegger tripler av definisjonsområde, verdi og vektet frekvens rangert med fallende vektet frekvens over en mengde av navngitte definisjonsområder.

17. Fremgangsmåte i henhold til krav 1, karakterisert ved å underkaste beregningen av sammendragsinformasjonen en feilbeskrankning slik at beregningen kan ignorere noen verdier på et tidlig stadium.

18. Fremgangsmåte i henhold til krav 1, karakterisert ved å beregne sammendragsinformasjonen for de høyst rangerte dokumenter i resultatmengden og etter valg estimere en feil i sammendragsinformasjonen forårsaket av at de andre dokumentene i resultatmengden ignoreres og returneres i en feilkomponent for et sammendragsobjekt.

19. Fremgangsmåte i henhold til krav 17 eller krav 18, karakterisert ved å fordele beregningen av sammendraginformasjonen over flere prosesseringsenheter.

20. Fremgangsmåte i henhold til krav 1, karakterisert ved å innbefatte statistikk for samforekomst i beregningen av sammendragsinformasjonen.

21. Fremgangsmåte i henhold til krav 20, karakterisert ved å fremlegge samforekomststatistikk mellom to definisjonsområder som et todimensjonalt varmekart som fremhever de mest relevante samforekomsttilknytninger, og/eller samforekomststatistikk som en navigator på de mest relevante samforekomsttilknytninger.

22. Fremgangsmåte i henhold til krav 1, karakterisert ved å bestemme en popularitetsskåre for sammendragsverdimetrikken, idet popularitetsskåren bestemmes som et resultat av en analyse av innholdsreferanser så som hyperlink og siteringer, og dokumenthandlinger så som betraktninger og innkjøp.

23. Fremgangsmåte i henhold til krav 1, karakterisert ved å bestemme de nevnte verdier og sammendragsverdimetrikken ved en analyse av dokumenthandlinger som reaksjon på en resultatmengde for søkespørsmål, innbefattet én eller flere blant presentasjon av dokumenter i resultatmengden, brukerbetraktninger av dokumenter i resultatmengden, innkjøp av objekter representert av dokumenter i resultatmengden, anbefaling av objekter representert av dokumenter i resultatmengden, gjennomgang av objekter representert av dokumenter i resultatmengden, fremlegging av navigatorinnførsler i resultatmengden, og brukervalg og spørsmålsforfining av navigatorinnførsler.

24. En søkemotor (100) i stand til å støtte og implementere fremgangsmåten i henhold til hvilken som helst av de foregående krav i systemer for aksessering, søking og gjenfinning av informasjon, hvor søkemotoren (100) benyttes til å aksessere, søke, gjenfinne og analysere informasjon fra innholdsmagasiner tilgjengelig over datakommunikasjonsnettverk, herunder ekstranett og intranett, og å fremlegge søke- og analyseresultater for sluttbruker, hvor søkemotoren omfatter minst én kjernesøkemotor (101), et applikasjonsprogrammert grensesnitt (102) for innhold (innholds-API) forbundet med den minst ene kjernesøkemotor (101) via et innholdsanalysetrinn (103) og en applikasjonsprogrammert grensesnitt (107) for søkespørsmål (klient-API) forbundet med den minst ene kjernesøkemotor (101) via respektive søkespørsmålsanalyse- og resultatanalysetrinn (105; 106), og hvor søkemotoren (100) er karakterisert ved å omfatte en første modul (108) for å spesifisere sammendragsverdimetrikker (SVMer) til hierarkiske definisjonsområder, idet den første modul (108) er innbefattet enten i innholds-API (102) eller i innholdsanalysetrinnet (103), en annen modul (109) for å danne definisjonsområder fra gjenkjenning av eksplisitte formatstrukturer i innholdet, en tredje modul (110) for dannelse av definisjonsområder fra analyse av innholdet, idet de andre og tredje moduler (109;110) er innbefattet i innholdsanalysetrinnet (103) og innrettet til å tilordne sammendragsverdimetrikker (SVMer) til de dannede definisjonsområder, og en fjerde modul (111) for å indeksere definisjonsområder, verdier og sammendragsverdimetrikker, idet den fjerde modul er innbefattet i et indekseringsundersystem (101a) i kjernesøkemotoren (103).