NO338518B1

NO338518B1 - Flerregisterbasert informasjonsgjenfinningssystem

Info

Publication number: NO338518B1
Application number: NO20074329A
Authority: NO
Inventors: Anna Lynn Patterson
Original assignee: Google Inc
Priority date: 2005-01-25
Filing date: 2007-08-24
Publication date: 2016-08-29
Also published as: US20160283474A1; AU2010200478A1; AU2006208079B2; CN101133388B; US9817825B2; US10671676B2; US9361331B2; WO2006081325A2; KR20070094972A; US7567959B2; JP4881322B2; BRPI0614024B1; US20140095511A1; JP2008529138A; US20100030773A1; WO2006081325A3; US20060106792A1; BRPI0614024A2; CA2595674C; AU2010200478B2

Description

Denne søknaden krever fordel av, og prioritet fra US Utility Patent-søknad

11/043,695 med tittelen "Multiple Index Based Information Retrieval System", innlevert 25. januar 2005, fremleggelsen av hvilken innlemmet ved referanse heri. Denne søknaden er også en fortsettelse-i-del av søknad serienr. 10/900 021 innlevert 26. juli 2004, som er eiet i fellesskap og innlemmet ved referanse heri.

Den foreliggende oppfinnelsen vedrører et informasjonsgjenfinningssystem for å registrere, søke og systematisere dokumenter i en samling av stor målestokk, slik som internettet.

Informasjonsgjenfinningssystemer, generelt kalt søkemotorer, er nå et uunnværlig verktøy for å finne informasjon i storskala, forskjelligartede og voksende samlinger slik som internettet. I alminnelighet skaper søkemotorer et register som forbinder dokumenter (eller "sider") med de enkelte ord som er tilstede i hvert dokument. Et dokument blir gjenfunnet som svar på en forespørsel som inneholder et antall av forespørselstermer, som typisk er basert på å ha et antall av forespørselstermer tilstede i dokumentet. De gjenfunnede dokumentene blir så rangert i henhold til andre statistiske mål, slike som hyppighet av forekomst av forespørselstermene, vertsdomene, linkanalyse og dess like. De gjenfunnede dokumentene blir så presentert for brukeren, typisk i deres rangerte rekkefølge og uten noen videre gruppering eller påtvunget rangordning. I noen tilfeller presenteres en utvalgt del av en tekst av et dokument for å gi brukeren et glimt av dokumentets innhold.

Å sammenlikningsprøve forespørselstermer direkte "boolsk" har velkjente begrensninger, og spesielt identifiserer det ikke dokumenter som ikke har forespørselstermen, men har beslektede ord. For eksempel vil i et typisk boolsk system, et søk på "Australian Shepherds" (en amerikansk gjeterhundrase) ikke returnere dokumenter om andre gjeterhunder, slike som border collier som ikke har de eksakte forespørselstermene. Et slikt system vil trolig heller også gjenfinne, og rangere høyt dokumenter som er om Australia (og ikke har noe med hunder å gjøre), og dokumenter om "shepherds" (gjetere) generelt.

Problemet her at vanlige systemregisterdokumenter er basert på individuelle termer heller enn på begreper. Begreper er ofte uttrykt i uttrykk, slike som "Australian Shepherd", "president i Amerikas Forente Stater" eller "Sundance film festival". I beste fall vil noen tidligere systemer registrere dokumenter med hensyn til et forhåndsbestemt og veldig begrenset sett av "kjente" uttrykk, som typisk er valgt av en menneskelig operatør. Å registrere uttrykkene blir typisk unngått fordi de erkjente krav til databehandling og minne for å identifisere alle mulige uttrykk av for eksempel tre, fire eller fem eller flere ord. For eksempel ved antagelsen at hvilke som helst fem ord kunne utgjøre et uttrykk, og en storskalasamling ville ha i det minste 200 000 unike termer, vil det være 3,2 x 10 26 mulige uttrykk, klart mer enn noe eksisterende system kunne lagre i minne eller på annen måte håndtere med programmer. Et ytterligere problem er at uttrykkene kontinuerlig kommer og går i leksikonet, uttrykt i deres bruk, mye oftere enn nye enkeltord blir funnet opp. Nye uttrykk produseres hele tiden, fra kilder som teknologi, kunst, verdensbegivenheter og juss. Andre uttrykk vil falle i bruk over tid.

Noen eksisterende informasjonsgjenfinningssystemer forsøker å sørge for gjenfinning av begreper ved å bruke samforekomstmønstre av individuelle ord. I disse systemene vil et søk på ett ord, slik som "president" også gjenfinne dokumenter som ofte vises sammen med "president", slike som "hvite" og "hus". Mens denne fremgangsmåte kan frembringe søkeresultater som har dokumenter som er begrepsmessig forbundet på nivået av enkeltord, vil den typisk ikke fange opp emnemessige sammenhenger som hører til mellom samforekommende uttrykk.

Følgelig er det et behov for et informasjonsgjenfinningssystem og en metodologi som vidtfavnende kan identifisere uttrykk i en storskala samling, registrere dokumenter i henhold til uttrykk, søke og rangere dokumenter i henhold til deres uttrykk, og sørge for tilleggsklynging og beskrivende informasjon om dokumentene.

Et annet problem med konvensjonelle informasjonsgjenfinningssystemer er at de kan bare registrere en forholdsvis liten del av dokumentene som er tilgjengelige på internettet. Det er for tiden anslått at det er over 200 milliarder sider på internettet i dag. Imidlertid kan selv de beste søkemotorer registrere bare 6 til 8 milliarder sider, og mister derved flesteparten av de tilgjengelige sidene. Det er flere grunner for den begrensede registreringskapasiteten av eksisterende systemer. Mest betydelig stoler typiske systemer på en variant av et omvendt register som for hver term opprettholder (som drøftet over) en liste av hver side på hvilken termen forekommer, sammen med posisjonsinformasjon som identifiserer den eksakte posisjonen av hver forekomst av termen på siden. Kombinasjonen av å registrere individuelle termer og registrere posisjonsinformasjon krever et veldig stort lagringssystem.

Ytterligere et problem med mange informasjonsgjenfinningssystemer som er brukt for å søke på internettet er deres manglende evne til å arkivere sider som endrer over tid. Konvensjonelt vil de fleste internettsøkemaskiner bare lagre relevansinformasjon for en nåværende tilstand (eller utgave) av en gitt side, og oppdatere denne informasjonen hver gang siden blir nyregistrert. Som et resultat vil et gitt søk bare returnere gjeldende versjon av sider som tilfredsstiller forespørselen. Som et resultat er brukere ikke i stand til å søke etter tidligere tilstander av sider, eller sider som var gjeldende i et bestemt datointervall. Likeledes benytter søkemotorene heller ikke versjons- eller datorelatert relevansinformasjon når de vurderer søkeforespørsler eller presenterer søkeresultater.

Følgelig er det ønskelig å sørge for et informasjonsgjenfinningssystem som effektivt kan registrere titalls milliarder og eventuelt over 100 milliarder sider av innhold, uten de store kravene til lagring som eksisterende systemer har.

Et informasjonsgjenfinningssystem og en metodologi bruker uttrykk til å registrere, søke, rangere og beskrive dokumenter i dokumentsamlingen. Systemet er tilpasset til å identifisere uttrykk som har tilstrekkelig brukshyppighet og/eller bemerket bruk i dokumentsamlingen for å vise at de er "gyldige" eller "gode" uttrykk. På denne måten kan flerordsuttrykk, for eksempel uttrykk av fire, fem eller flere termer bli identifisert. Dette unngår problemet med å måtte identifisere og registrere hvert mulige uttrykk som ville vært resultatet av alle de mulige sekvenser av et gitt antall av ord.

Systemet er videre tilpasset til å identifisere uttrykk som er forbundet med hverandre, basert på et uttrykks evne til å forutsi forekomsten av andre uttrykk i et dokument. Mer bestemt blir et forutsigelsesmål brukt som forbinder det aktuelle samforekomstforhold av to uttrykk med en ventet samforekomstrate av de to uttrykk. Informasjonsforsterkning, som forholdet av det aktuelle samforekomstforhold til ventet samforekomstforhold, er ett slikt forutsigelsesmål. To uttrykk er beslektet hvor forutsigelsesmålet overstiger en forutbestemt terskel. I det tilfelle har det andre uttrykket en betydelig informasjonsforsterkning med hensyn til det første uttrykket. Semantisk vil beslektede uttrykk være de som til vanlig er brukt til å diskutere eller beskrive et gitt emne eller begrep, slike som "president i Amerikas Forente Stater" og "Det hvite hus". For et gitt uttrykk kan de beslektede uttrykkene bli ordnet etter deres relevans eller betydning basert på deres respektive forutsigelsesmål.

Et informasjonsgjenfinningssystem registrerer dokumenter i dokumentsamlingen ved de gyldige eller gode uttrykkene. For hvert uttrykk identifiserer en innføringsliste dokumentene som inneholder uttrykket. I tillegg er for et gitt uttrykk en andre liste, vektor eller annen struktur, brukt til å lagre data som viser hvilke av de beslektede uttrykkene av det gitte uttrykket som også er tilstede i hvert dokument som inneholder det gitte uttrykket. På denne måten kan systemet enkelt identifisere ikke bare hvilke dokumenter som inneholder hvilke uttrykk som svar på en søkeforespørsel, men hvilke dokumenter som også inneholder uttrykk som er beslektet med forespørselsuttrykkene, og derfor sannsynligvis er mer spesifikke på emnene eller begrepene som er uttrykt i forespørselsuttrykkene.

Informasjonsgjenfinningssystemet er også tilpasset til å bruke uttrykkene under søk etter dokumenter som svar på en forespørsel. Forespørselen behandles for å identifisere ethvert uttrykk som er tilstede i forespørselen, for slik å gjenfinne de tilhørende innføringslister for forespørselsuttrykkene og den beslektede uttrykksinformasjonen. I tillegg kan brukeren i noen tilfeller gi inn et uferdig uttrykk i en søkeforespørsel, slik som "president i". Uferdige uttrykk som disse kan bli identifisert og erstattet med en uttrykksutvidelse, slik som "president i Amerikas Forente Stater". Dette hjelper til å sikre at brukerens mest sannsynlige søk faktisk blir utført.

En annen side av den foreliggende oppfinnelsen er evnen til å registrere et

ekstremt stort antall av dokumenter, i størrelsesorden ett hundre milliarder eller mer ved bruk av en flerregisteroppbygging. I én utførelse er det sørget for et primær- og et sekundærregister. Primærregisteret lagrer registerdata for uttrykk, med et begrenset antall dokumenter registrert for hvert uttrykk. For et bestemt uttrykk er registerdata for dokumentene lagret i rangert rekkefølge av dokumentets relevans til uttrykket. Denne lagringsordningen er foretrukken både logisk og fysisk (det vil si hvordan data blir lagret på de underliggende lagringsenheter). Hvor mer enn det begrensede antall av dokumenter innbefatter et bestemt uttrykk, blir registerdata for disse gjenstående dokumentene lagret i sekundærregisteret, men her ordnet ved dokumentnummer i steden for relevansrangering, og gjenfunnet, for eksempel ved bruk av spre/samle type metoder.

For eksempel kan primærregisteret være ordnet for å lagre 32k (32 768) dokumentregistreringer for hvert uttrykk, og sekundærregisteret bygget opp for å lagre eventuelle ytterligere dokumentregistreringer for ytterligere dokumenter utover de 32k som inneholder uttrykket. For å oppnå dokumentregistreringene for primærregisteret, er dokumentene gitt verdi for relevans med hensyn til uttrykket, og rangert etter deres relevansverdi. Alternativt kan dokumentene bli rangert ordnet etter forskjellige dokumentsærtrekk som er anvendelige for relevansanalyse. Rangeringen for dokumentregistreringene blir brukt for å partisjonere registreringene mellom primærregisteret og sekundærregisteret. Hvor det er mindre enn det begrensede antall av dokumenter som inneholder uttrykket, så blir alle registreringene lagret i primærregisteret, igjen i relevansrangert rekkefølge. Registreringsordningen muliggjør en ti- til femtengangs økning i lagringskapasiteten for registeret, og på grunn av den optimaliserte registerinformasjonen en tigangs økning i serverytelse.

En annen side av den foreliggende oppfinnelsen er evnen til å registrere flere utgaver eller tilstander av dokumenter for arkivering. Denne evnen gjør en bruker i stand til å søke etter dokumenter innenfor et bestemt datoutvalg, og muliggjør at relevansinformasjon som angår dato eller versjon blir brukt til å evaluere dokumenter som svar på søkeforespørsler og til å organisere søkeresultater. I én utførelse blir et dokument forbundet med ett eller flere datoutvalg. Hvert datoutvalg blir forbundet med relevansdata utledet fra dokumentet og ansett for å være gyldig gjennom datoutvalget. Et gjeldende datoutvalg blir forbundet med en gjeldende tilstand av dokumentet, fra datoen som dokumentet mest nylig var registrert. Når et dokument påtreffes under et registreringsgjennomløp, blir det sammenliknet med en tidligere utgave for å bestemme om dokumentet har blitt endret. Hvis dokumentet ikke har blitt endret, så blir registrert relevansdata opprettholdt. Hvis dokumentet har blitt endret, så blir gjeldende datoutvalg for dokumentet avsluttet, og dokumentet blir nyregistrert, og et nytt gjeldende datoutvalg blir etablert, og forbundet med de gjeldende relevansdataene.

Den foreliggende oppfinnelsen has ytterligere utførelser i system og programvarearkitektur, dataprogramprodukter og datarealiserte fremgangsmåter og datagenererte brukergrensesnitt og presentasjoner.

Det forutgående er bare noen av særtrekkene ved et informasjonsgjenfinningssystem og metodologi basert på uttrykk. Fagmenn innen informasjonsgjenfinning vil innse at fleksibiliteten av generaliteten ved uttrykksinformasjonen tar hensyn til et stort utvalg av bruksmåter og anvendelser innen registrering, dokumentkommentarer, søking, rangering og andre områder av dokumentanalyse og behandling. Figur 1 er et blokkskjema av programvarearkitekturen av én utførelse av den foreliggende oppfinnelsen.

Figur 2 illustrerer en fremgangsmåte av å identifisere uttrykk i dokumenter.

Figur 3 illustrerer et dokument med et uttrykksvindu og et sekundært vindu.

Figur 4 illustrerer en fremgangsmåte av å identifisere beslektede uttrykk.

Figur 5 illustrerer en fremgangsmåte av å registrere dokumenter for beslektede uttrykk. Figur 6 illustrerer en fremgangsmåte av å gjenfinne dokumenter basert på uttrykk. Figurene avbilder en foretrukken utførelse av den foreliggende oppfinnelsen kun i illustrasjonshensikt. En fagmann vil fra den følgende drøftelsen lett innse at alternative utførelser av oppbyggingene og fremgangsmåtene illustrert heri kan bli brukt uten å avvike fra prinsippene av oppfinnelsen beskrevet heri.

I. Systemoversikt

Under henvisning til figur 1 er nå programvarearkitekturen av en utførelse av et søkesystem 100 i henhold til én utførelse av den foreliggende oppfinnelsen vist. I denne utførelsen innbefatter systemet et registreringssystem 110, et søkesystem 120, et presentasjonssystem 130 og en frond-end server 140.

Registreringssystemet 110 er ansvarlig for å identifisere uttrykk i dokumenter,

og registrere dokumenter i henhold til deres uttrykk, ved å få tilgang til et rikt utvalg nettsteder 190 og andre dokumentsamlinger. Front-end serveren 140 mottar forespørsler fra en bruker av en klient 170, og forsyner disse forespørslene til søkesystemet 120. Søkesystem et 120 er ansvarlig for å søke etter dokumenter som er relevante for søkeforespørselen (søkeresultatene), innbefattet å identifisere hvilke som helst uttrykk i søkeforespørselen, og så rangere dokumentene i søkeresultatet ved å bruke forekomsten av uttrykkene til å påvirke rangeringsrekkefølgen. Søkesystemet 120 besørger søkeresultatene til presentasjonssystemet 130. Presentasjonssystemet 130 er ansvarlig for å endre søkeresultatene, innbefattet å fjerne nesten like dokumenter, og å utarbeide emnemessige beskrivelser av dokumenter, og å sørge for å få de endrede søkeresultater tilbake til front-end serveren 140, som sørger for resultatene til klienten 170. Ytterligere innbefatter systemet 100 et primærregister 150 og et sekundærregister 152 som lagrer registrerings informasjonen som angår dokumenter og et uttrykksdatalager 160 som lagrer uttrykk og beslektet statistisk informasjon. Primærregisteret 150 er fordelt over et antall av primærservere 1 ... Ml, og sekundærregisteret er likeledes fordelt over et antall sekundærservere 1 ... M2.

I denne anvendelsessammenhengen blir "dokument" forstått å være enhver type av media som kan bli registrert og gjenfunnet av en søkemaskin, innbefattende webdokumenter, bilder, multimediafiler, tekstdokumenter, PDFer eller andre bildeformaterte filer og så videre. Et dokument kan ha én eller flere sider, partisjoner, segmenter eller andre bestanddeler som passer for dets innhold og type. Likeledes kan et dokument henvises til som en "side", som er vanlig å bruke til å henvise til dokumenter på internettet. Bruken av den vanlige betegnelsen "dokument" innebærer ingen begrensning i omfanget av oppfinnelsen. Søkesystemet 100 opererer over en stor sammenheng av dokumenter, slik som internettet og verdensveven, men kan likeledes bli brukt i mer begrensede samlinger, slike som for dokumentsamlingene av et bibliotek eller private selskaper. I begge sammenhenger vil det innses at dokumentene typisk er spredt over mange forskjellige datasystemer og steder. Uten tap av generalitet vil så dokumentene i alminnelighet, uavhengig av format eller plassering (for eksempel hvilken nettsted eller database) i fellesskap bli henvist til som en samling eller dokumentsamling. Hvert dokument har et tilknyttet navn som entydig identifiserer dokumentet, navnet er helst en URL, men andre typer av navn (for eksempel dokumentnumre) kan også bli brukt. I denne redegjørelsen er det antatt at URLer er brukt til å identifisere dokumenter.

II. Registreringssystem

I én utførelse sørger registreringssystemet 110 for tre primære funksjonelle arbeidsoperasjoner: 1) Identifisering av uttrykk og beslektede uttrykk, 2) registrering av dokumenter med hensyn på uttrykk og 3) generering og opprettholdelse av en uttrykksbasert taksonomi. Fagmenn vil innse at registreringssystemet 110 vil utføre andre oppgaver også, som støtter vanlige registreringsoppgaver, og dét selv om disse andre oppgavene ikke er beskrevet videre heri. Registreringssystemet 110 opererer på primærregisteret 150 og sekundærregisteret 152 og datalager 160 av uttrykksdata. Disse datalagrene er videre beskrevet under.

1. Uttrykksidentifisering

Uttrykksidentifiseringsoperasjonen av registreringssystemet 110 identifiserer "gode" og "dårlige" uttrykk i dokumentsamlingen som er brukelige for å registrere og søke etter dokumenter. Sett fra ett synspunkt er "gode uttrykk" uttrykk som har en tendens til å opptre i mer enn en viss prosentdel av dokumenter i dokumentsamlingen, og/eller er merket som å ha en bemerket fremtoning i slike dokumenter, slik som avgrenset av oppmerkingsmerker eller andre formlære-, format- eller grammatiske markører. En annen side av gode uttrykk er at de er forutsigende for andre gode uttrykk, og er ikke bare rekker av ord som vises i leksikonet. For eksempel er uttrykket "president i Amerikas Forente Stater" et uttrykk som forutsier andre uttrykk som "George Bush" og "Bill Clinton". Andre uttrykk er imidlertid ikke forutsigende, slike som "falt ned trappen", "God morra" eller "som julekvelden på kjerringa" siden idiomer og dagligtale som disse har en tendens til å vises med mange andre forskjellige og ubeslektede uttrykk. Derfor bestemmer uttrykksidentifiseringsfasen hvilke uttrykk som er gode uttrykk og hvilke som er dårlige (det vil si: mangler forutsigende kraft).

Nå under henvisning til figur 2, har uttrykksidentifiseringsprosessen de følgende oppgavetrinn: 200: Samle mulige og gode uttrykk, sammen med hyppighet og samforekomststatistikk av uttrykkene.

202: Systematisere mulige uttrykk til enten gode eller dårlige uttrykk basert på hyppighetsstatistikk.

204: Skjære ned på listen over gode uttrykk basert på et forutsigelsesmål utledet fra samforekomststatistikkene.

Hvert av disse trinn vil nå bli beskrevet i ytterligere detalj.

Det første trinnet, 200, er en prosess ved hvilken registreringssystemet 110 gjennomkravler (crawl) et sett av dokumenter i dokumentsamlingen ved å lage gjentatte partisjoner av dokumentsamlingen over tid. En partisjon blir behandlet for hvert gjennomløp. Antallet dokumenter som gjennomkravles per gjennomløp kan variere, og er helst omkring 1 000 000 per partisjon. Det er å foretrekke at bare tidligere ukravlede dokumenter blir behandlet i hver partisjon, inntil alle dokumenter har blitt behandlet, eller andre avslutningskriterier tilfredsstilles. I praksis fortsetter kravlingen mens nye dokumenter kontinuerlig blir lagt til dokumentsamlingen. De følgende skritt blir tatt av registreringssystemet 110 for hvert dokument som blir kravlet.

Gjennomkryss ordene i dokumentet med et uttrykksvindu med en lengde av n,

hvor n er en ønsket maksimal uttrykkslengde. Lengden av vinduet vil typisk være minst 2, og helst 4 til 5 termer (ord). Helst inneholder uttrykkene alle ordene i uttrykksvinduet, og innbefatter hva som ellers ville blikarakterisertsom stoppord, slike som "en", "den" og så videre. Et uttrykksvindu kan bli avsluttet av et linjeslutt, et avsnitts vognretur, et oppmerkingsmerke eller andre indikeringer på en endring i innhold eller format.

Figur 3 illustrerer en del av et dokument 300 under en gjennomkryssing, som viser uttrykksvinduet 302 som begynner ved ordet "stock" og strekker seg 5 ord mot høyre. Det første ordet i vinduet 302 er uttrykkskandidat i, og hver av rekkene i+1, 1+2, i+3, i+4 og i+5 er likeledes en uttrykkskandidat. Derfor er uttrykkskandidatene i dette eksempelet: "stock", "stock dogs", "stock dogs for", "stock dogs for the", "stock dogs for the Basque" og "stock dogs for the Basque shepherds".

I hvert uttrykksvindu 302 blir hver uttrykkskandidat kontrollert etter tur for å bestemme om det allerede er tilstede i listen over gode uttrykk 208 eller listen over mulige uttrykk 206. Hvis uttrykkskandidatene ikke er tilstede i hverken listen over gode uttrykk 208 eller listen over mulige uttrykk 206, så har kandidaten allerede blitt bedømt som "dårlig" og blir hoppet over.

Hvis uttrykkskandidaten er i listen over gode uttrykk 208 som registrering gj, så vil register-150 registreringen for uttrykk gjbli oppdatert til å innbefatte dokumentet (for eksempel dets URL eller annet dokumentnavn), for å vise at denne uttrykkskandidaten gjvises i det gjeldende dokumentet. En registrering i registeret 150 for et uttrykk gj, (eller en term) blir referert til som innføringslisten for uttrykket gj. Innføringslisten innbefatter en liste over dokumenter d (ved deres dokumentnavn, for eksempel et dokumentnummer eller alternativt en URL) i hvilken uttrykket forekommer. I én utførelse utledes dokumentnummeret ved en enveis fordelingsfunksjon (hash) av URLen ved bruk av for eksempel MD5.

I tillegg blir samforekomst matrisen 212 oppdatert som forklart videre under. I det aller første gjennomløpet vil listene over gode og dårlige være tomme, og derfor vil de fleste uttrykkene tendere til å bli lagt til listen over mulige uttrykk 206.

Hvis uttrykkskandidaten ikke er i listen over gode uttrykk 208 så blir den lagt til listen over mulige uttrykk 206, hvis den ikke allerede foreligger deri. Hver registrering p på listen over mulige uttrykk 206 har tre tilordnete tellere:

P(p): antall av dokumenter på hvilke det mulige uttrykk vises,

S(p): antall av alle tilfeller av det mulige uttrykket, og

M(p): antall av interessante tilfeller av det mulige uttrykket. Et eksempel på at et mulig uttrykk er "interessant" er hvor det mulige uttrykket er bemerket fra tilliggende innhold i dokumentet ved grammatiske eller formatmessige markører, for eksempel ved å være fet skrift eller understreket eller som ankertekst i en hyperlink eller i sitattegn. Disse (og andre) bemerkede fremtoninger blir vist ved forskjellige HTML-oppmerkingsspråkmerker og grammatiske markører. Disse statistikkene blir opprettholdt for et uttrykk når det blir plassert på listen over gode uttrykk 208.

I tillegg til de forskjellige listene blir en samforekomstmatrise 212 (G) for de gode uttrykkene opprettholdt. Matrisen G har en dimensjon av m x m, hvor m er antallet av gode uttrykk. Hver registrering G(j,k) i matrisen representerer et par av gode uttrykk (gj, gk)- Samforekomstmatrisen 212 opprettholder logisk (men ikke nødvendigvis fysisk) tre adskilte tellere for hvert par (gj, gk) av gode uttrykk med hensyn til et sekundærvindu 304 som er sentrert ved gjeldende ord i, og strekker seg +/- h ord. I én utførelse, slik som illustrert i figur 3 er sekundærvinduet 304 på 30 ord. Samforekomstmatrisen 212

opprettholder derfor:

R(j,k): Rå samforekomsttelling.: Antallet ganger som uttrykk gjforekommer i et sekundærvindu 304 med uttrykk gk,

D(j,k): Disjunktiv interessetelling.: Antallet ganger som enten uttrykk gjeller uttrykk gkforekommer som bemerket tekst i et sekundærvindu og

C(j,k): Konjunktiv interessetelling: Antall ganger som både gjog uttrykk gkforekommer som bemerket tekst i et sekundærvindu. Bruken av den konjunktive interessetellingen er spesielt fordelaktig for å unngå omstendighetene hvor et uttrykk (for eksempel et kopirettighetsvarsel) vises ofte i sidefelt, bunntekster eller topptekster og derfor ikke i virkeligheten er forutsigere av annen tekst.

Under henvisning til eksempelet i figur 3, anta at "stock dogs" er på listen over gode uttrykk 208, så vel som uttrykkene "Australian Shepherd" og "Australian Shepherd Club of America". Begge de siste uttrykkene vises innenfor sekundærvinduet 304 rundt gjeldende uttrykk "stock dogs". Imidlertid vises uttrykket "Australian Shepherd Club of America" som en ankertekst for en hyperlink (vist ved understrekningen) til et nettsted. Derfor vil den rå samforekomsttellingen for paret {"stock dogs", "Australian Shepherd"} inkrementeres, og den rå forekomsttellingen og den disjunktive interessetellingen for {"stock dogs", "Australian Shepherd Club of America"} begge bli inkrementert fordi den siste vises som bemerket tekst.

Prosessen av å gjennomkrysse hvert dokument med både sekvensvinduet 302 og sekundærvinduet 304 blir gjentatt for hvert dokument i partisjonen.

Når dokumentene i partisjonen har blitt gjennomkrysset er neste trinn av registreringsoperasjonen å oppdatere 202 listen over gode uttrykk 208 fra listen over mulige uttrykk 206. Et mulig uttrykk p på listen over mulige uttrykk 206 blir flyttet til listen over gode uttrykk 208 hvis hyppigheten av visninger av uttrykket og antallet av dokumenter som uttrykket vises i viser at det har tilstrekkelig bruk som semantisk

meningsfullt uttrykk.

I én utførelse blir dette testet som følger. Et mulig uttrykk p blir fjernet fra listen over mulige uttrykk 206 og plassert på listen over gode uttrykk 208 hvis: a) P(p) > 10 og S(p) > 20 (antallet av dokumenter som inneholder uttrykket p er større enn 10, og antallet av forekomster av uttrykket p er større enn 20) eller

b) M(p) > 5 (antallet av interessante tilfeller av uttrykk p er mer enn 5).

Disse tersklene er vektet av antallet av dokumenter i partisjonen, for eksempel hvis 2

000 000 dokumenter blir gjennomkravlet i en partisjon, så er tersklene omtrent doblet. Selvsagt vil fagmenn innse at de bestemte verdiene av tersklene, eller logikken for å teste dem kan bli endret som ønsket.

Hvis et uttrykk p ikke kvalifiserer for listen over gode uttrykk 208, så blir det kontrollert om det oppfyller kravene til et dårlig uttrykk. Et uttrykk p er et dårlig uttrykk hvis:

a) antallet av dokumenter som inneholder uttrykket, P(p) < 2, og

b) antallet av interessante tilfeller av uttrykket, M(p) = 0.

Disse tilstandene viser at uttrykket er både lite brukt, og ikke brukt til påvisning av

innhold med betydning og igjen kan disse tersklene bli vektet per antall av dokumenter i partisjonen.

Det bør bemerkes at listen over gode uttrykk 208 naturlig vil inneholde enkeltord som uttrykk, i tillegg til flerordsuttrykk som beskrevet over. Dette er fordi det første ordet i hvert uttrykksvindu 302 alltid er et kandidatuttrykk, og de rette tilstandtellere vil bli akkumulert. Derfor kan registreringssystemet 110 automatisk registrere både enkeltord (det vil si uttrykk med ett enkelt ord) og flerordsuttrykk. Listen over gode uttrykk 208 vil også bli betydelig kortere enn det teoretisk maksimale basert på alle mulige kombinasjoner av m uttrykk. I en typisk utførelse vil listen over gode uttrykk 208 inkludere omtrent 6,5x10<5>uttrykk. En liste over dårlige uttrykk er det ikke nødvendig å lagre, siden systemet bare trenger å beholde sporing på mulige og gode uttrykk.

Ved det avsluttende gjennomløpet av dokumentsamlingen vil listen over mulige uttrykk være relativt kort på grunn av den ventede fordelingen av bruken av uttrykkene i en stor samling. Derfor, hvis la oss si ved det tiende gjennomløpet (for eksempel 10 000 000 dokumenter) et uttrykk vises for aller første gang, er det trolig ikke et godt uttrykk den gangen. Det kan være et nytt uttrykk som nettopp kommet i bruk, og derfor under etterfølgende gjennomkravlinger blir stadig mer vanlig. I det tilfellet vil dets respektive tellinger øke og kan til slutt tilfredsstille tersklene for å bli et godt uttrykk.

Det tredje trinnet av registreringsoperasjonen er å skjære ned på 204 listen over gode uttrykk 208 ved å bruke et forutsigelsesmål utledet fra samforekomstmatrisen 212. Uten å ha skåret ned, vil trolig listen over gode uttrykk 208 innbefatte mange uttrykk, som mens de har lov til å forekomme i leksikonet, ikke av seg selv forutsier tilstrekkelig forekomsten av andre uttrykk, eller de selv er underrekker av lengre uttrykk. Å fjerne disse svake gode uttrykkene resulterer i en veldig robust sannsynlighet av gode uttrykk. For å identifisere gode uttrykk blir et forutsigelsesmål brukt som uttrykker den økte sannsynlighet av at ett uttrykk vises i et dokument, gitt forekomsten av et annet uttrykk. Dette blir i én utførelse gjort som følger: Som bemerket over er samforekomstmatrisen 212 en m x m matrise for å lagre data forbundet med de gode uttrykkene. Hver rad j i matrisen representerer et godt uttrykk gjog hver kolonne k representerer et godt uttrykk gk. For hvert gode uttrykk gjblir en forventningsverdi E(gj) beregnet. Forventningsverdien E er prosentdelen av dokumentene i samlingen som ventes å inneholde gj. Dette blir beregnet for eksempel som forholdet av antallet av dokumenter som inneholder gjtil det totale antall T av dokumenter i samlingen som har blitt gjennomkravlet: P(j)/T.

Som bemerket over blir antallet av dokumenter som inneholder gjoppdatert hver gang gjvises i et dokument. Verdien for E(gj) kan oppdateres hver gang tellingene for gj blir

inkrementert, eller under dette tredje trinn.

Så, for hvert av de andre gode uttrykkene gk(for eksempel kolonnene i matrisen), blir det bestemt hvorvidt gj forutsier gk. Et forutsigelsesmål for gjblir bestemt som følger: i) beregn den forventede verdien E(gk). Den forventede samforekomstraten E(j,k) av gjog gk, hvis de er ubeslektede uttrykk er så: E(gj)<*>E(gk),

ii) beregn den aktuelle samforekomstraten A(j,k) av gjog gk. Dette er den rå samforekomsttellingen R(j,k) delt med T, det totale antall av dokumenter,

iii) gjblir sagt å forutsi gkhvor den aktuelle samforekomstraten A(j,k) overstiger den ventede samforekomstraten E(j,k) med en terskelverdi.

I én utførelse er forutsigelsesmålingen informasjonsforsterkning, Således forutsier et uttrykk gjet annet uttrykk gknår informasjonsforsterkningen I av gkved forekomsten av gjoverstiger en terskel. I én utførelse blir dette beregnet som følger:

I(j,k) = A(j,k)/E(j,k)

Og godt uttrykk gjforutsier godt uttrykk gkhvor:

I(j,k) > terskelen for informasjonsforsterkning.

I én utførelse er terskelen for informasjonsforsterkning 1,5, men er helst mellom 1,1 og 1,7. Å heve terskelen over 1,0 tjener til å redusere muligheten for at to ellers ubeslektede uttrykk samforekommer mer enn tilfeldig forutsagt.

Som bemerket blir beregningen av informasjonsforsterkningen gjentatt for hver kolonne k av matrisen G med hensyn på en gitt rad j. Når en rad er ferdig, hvis ikke informasjonsforsterkningen for noen av de gode uttrykkene gkoverstiger terskelen for informasjonsforsterkning, så betyr dette at uttrykk gjikke forutsier noe annet godt uttrykk. I det tilfellet blir gj fjernet fra listen over gode uttrykk 208, og blir i hovedsak et dårlig uttrykk. Merk at kolonnen j for uttrykket gjblir ikke fjernet siden uttrykket selv kan bli forutsagt av andre gode uttrykk.

Dette trinnet blir avsluttet når alle radene av samforekomstmatrisen 212 har blitt evaluert.

Det avsluttende trinnet av denne fasen er å skjære ned på listen over gode uttrykk 208 for å fjerne uferdige uttrykk. Et uferdig uttrykk er et uttrykk som bare forutsier sine uttrykksutvidelser og som begynner i venstre kant av uttrykket (det vil si begynnelsen av uttrykket). "Uttrykksutvidelsen" av uttrykk p er et lengre uttrykk (super-sequence) som begynner med uttrykket p. For eksempel forutsier uttrykket "president i": "president i Amerikas Forente Stater", "president i Mexico", "president i AT&T" og så videre. Alle disse siste uttrykkene er uttrykksutvidelser av uttrykket "president i", siden de begynner med "president i" og er lengre uttrykk derav.

Følgelig vil hvert uttrykk gjsom gjenstår på listen over gode uttrykk 208 forutsi et antall av andre uttrykk, basert på den tidligere drøftede terskelen for informasjonsforsterkning. For hvert uttrykk gjutfører registreringssystemet 110 nå en strengsammenlikning med hvert av de uttrykkene gksom det forutsier. Strengsammenlikningen prøver hvorvidt hvert forutsagt uttrykk gker en uttrykksutvidelse av uttrykket gj. Hvis alle de forutsagte uttrykkene gker uttrykksutvidelser av uttrykk gj, så er gjuferdig, og blir fjernet fra listen over gode uttrykk 208 og lagt til en liste over uferdige uttrykk 216. Derfor, hvis det er minst ett uttrykk gksom ikke er en utvidelse av gj, så er gjferdig og opprettholdes i listen over gode uttrykk 208. For eksempel er "president i Amerikas Forente" et uferdig uttrykk fordi det eneste andre uttrykket som det forutsier er "president i Amerikas Forente Stater" som er en utvidelse av uttrykket.

Listen over uferdige uttrykk 216 er i seg selv veldig nyttig under virkelig søking. Når en søkeforespørsel blir mottatt, kan den sammenliknes med listen over uferdige uttrykk 216. Hvis forespørselen (eller en del av den) passer til en registrering i listen, så kan søkesystemet 120 slå opp etter de mest sannsynlige uttrykksutvidelsene til det uferdige uttrykket (uttrykksutvidelsen som har den høyeste informasjonsforsterkningen gitt det uferdige uttrykket) og foreslå denne uttrykksutvidelsen for brukeren, eller automatisk søke på uttrykksutvidelsen. Hvis for eksempel søkeforespørselen er "president i Amerikas Forente", kan søkesystemet 120 automatisk foreslå for brukeren "president i Amerikas Forente Stater" som søkeforespørsel.

Etter at det siste trinnet av registreringsprosessen er fullført, vil listen over gode uttrykk 208 inneholde et stort antall av gode uttrykk som har blitt oppdaget i samlingen. Hvert av disse gode uttrykkene vil forutsi i det minste ett annet uttrykk som ikke er en uttrykksutvidelse av seg. Det betyr at hvert gode uttrykk blir brukt med tilstrekkelig hyppighet og uavhengighet til å representere meningsfulle begreper eller ideer som er uttrykt i samlingen. Ulikt eksisterende systemer som bruker forutbestemte eller manuelt utvalgte uttrykk, reflekterer listen over gode uttrykk, uttrykk som faktisk er brukt i samlingen. Videre vil, siden prosessen over av å kravle og registrere blir gjentatt periodisk mens nye dokumenter blir lagt til dokumentsamlingen, registreringssystemet 110 automatisk oppdage nye uttrykk når de kommer inn i leksikonet.

2. Identifisering av beslektede uttrykk og klynger av beslektede uttrykk.

Under henvisning til figur 4 innbefatter den beslektede uttrykksidentifikasjonsprosessen de følgende funksjonelle arbeidsoperasjonene.

400: Identifisere beslektede uttrykk som har en høy informasjonsforsterkningsverdi.

402: Identifisere klynger av beslektede uttrykk.

404: Lagre klyngebitvektor og klyngenummer.

Hver av disse operasjonene blir nå beskrevet i detalj.

Tenk først tilbake til at samforekomstmatrisen 212 inneholder gode uttrykk gj, hvert av disse forutsier i det minste ett annet godt uttrykk gkmed en informasjonsforsterkning større enn terskelen for informasjonsforsterkning. For så å identifisere 400 beslektede uttrykk, blir så for hvert par av gode uttrykk (gj, gk) informasjonsforsterkningen sammenliknet med en beslektetuttrykkterskel, for eksempel 100. Det betyr at gjog gker beslektede uttrykk hvor:

I(gj, gk) > 100.

Denne høye terskelen blir brukt til å identifisere samforekomsten av gode uttrykk som er godt utenfor de statistisk forventede hyppigheter. Statistisk betyr det at uttrykkene gjog gksamforekommer 100 ganger mere enn den ventede samforekomstraten. For eksempel, gitt uttrykket "Monica Lewinsky" i et dokument, er uttrykket "Bill Clinton" 100 ganger mer sannsynlig å vises i det samme dokumentet enn uttrykket "Bill Clinton" er sannsynlig å vises i hvilket som helst tilfeldig valgt dokument. En annen måte å si dette på er at nøyaktigheten av forutsigelsen er 99,999% fordi forekomstraten er 100:1.

Følgelig vil enhver registrering (gj, gk) som er mindre enn beslektetuttrykkterskelen bli nullet ut, og vise at uttrykkene gjog gkikke er beslektet. Hvilke som helst gjenværende uttrykk i samforekomstmatrisen 212 viser nå alle de beslektede uttrykkene.

Kolonnen gki hver rad gjav samforekomstmatrisen 212 blir så sortert etter informasjonsforsterkningsverdiene I(gj, gk) slik at de beslektede uttrykkene gkmed den høyeste informasjonsforsterkningen blir listeført først. Denne sorteringen identifiserer derfor for et gitt uttrykk gj, hvilke andre uttrykk som mest sannsynlig er beslektet uttrykt i informasjonsforsterkning.

Det neste skrittet er å bestemme 402 hvilke beslektede uttrykk som sammen danner en klynge av beslektede uttrykk. En klynge er et sett av beslektede uttrykk i hvilket hvert uttrykk har høy informasjonsforsterkning med hensyn til i det minste ett annet uttrykk. I én utførelse blir klynger identifisert som følger.

I hver rad gjav matrisen vil det være ett eller flere andre uttrykk som er beslektet med uttrykk gj. Dette settet er beslektetuttrykksettet Rj, hvor R = {gk, gi,... gm}.

For hvert beslektet uttrykk m i Rj, bestemmer registreringssystemet 110 om hvert av de andre beslektede uttrykkene i R også er beslektet med gj. Derfor, hvis I(gk,gi) også er ulik null, så er gj, gkog gi del av en klynge. Denne klyngeprøven blir gjentatt for hvert par (gi,<g>m) i R.

Anta for eksempel at det gode uttrykket "Bill Clinton" er beslektet med uttrykkene "president" og "Monica Lewinsky" fordi informasjonsforsterkningen til hvert av disse uttrykkene med hensyn til "Bill Clinton" overstiger terskelen for beslektede uttrykk. Anta videre at uttrykket "Monica Lewinsky" er beslektet med uttrykket "veskedesigner". Disse uttrykkene danner så settet R. For å bestemme klyngene, evaluerer registreringssystemet 110 informasjonsforsterkningen av hvert av disse uttrykkene til de andre ved å bestemme deres korresponderende informasjonsforsterkninger. Derfor bestemmer registreringssystemet 110 informasjonsforsterkningene I("president", "Monica Lewinsky"), I("president", "veskedesigner") og så videre, for alle parene i R. I dette eksemplet vil "Bill Clinton", "president" og "Monica Lewinsky" danne én klynge, "Bill Clinton" og "president" danne en annen klynge, "Monica Lewinsky" og "veskedesigner" danne en tredje klynge og "Monica Lewinsky", "Bill Clinton" og "veskedesigner" danne en fjerde klynge. Dette er fordi mens "Bill Clinton" ikke forutsier "veskedesigner" med tilstrekkelig informasjonsforsterkning, forutsier "Monica Lewinsky" begge disse uttrykkene.

For å lagre 404 klyngeinformasjonen blir hver klynge tilordnet et unikt klyngenummer (klynge ID). Denne informasjonen blir så lagret i forbindelse med hvert gode uttrykk gj.

I én utførelse blir klyngenummeret bestemt av en klyngebitvektor som også viser

ortogonalitetsforholdene mellom uttrykkene. Klyngebitvektoren er en sekvens av bit av lengde n, antallet av gode uttrykk i listen over gode uttrykk 208. For et gitt godt uttrykk gj, korresponderer bitposisjonene til de sorterte beslektede uttrykkene R av gj. Et bit blir satt hvis det beslektede uttrykket gki R er i den samme klyngen som uttrykket gj. Mer

generelt betyr dette at det korresponderende bitet i klyngebitvektoren er satt hvis det er informasjonsforsterkning i minst en av retningene mellom gj og gk.

Klyngenummeret blir så verdien av den resulterende bitrekken.

Denne utførelse har egenskapen at beslektede uttrykk som har fler- eller enveis informasjonsforsterkning vises i samme klyngen.

Et eksempel av klyngebitvektorer er som følger, ved bruk av uttrykkene over:

For så å sammenfatte, etter denne prosessen vil det for hvert godt uttrykk gj, bli identifisert et sett av beslektede uttrykk R, som er sortert etter

informasjonsforsterkningen I(gj,gk) fra høyest til lavest. I tillegg vil det for hvert godt uttrykk gj være en klyngebitvektor, verdien av hvilken er et klyngenummer som identifiserer primærklyngen av hvilken uttrykket gjer et medlem, og

ortogonalitetsverdiene (1 eller 0 for hver bitposisj on) for å vise hvilke av de beslektede uttrykkene i R som er i felles klynge med gj. Derfor er i eksemplet over "Bill Clinton", "president" og "Monica Lewinsky" i klynge 14 basert på verdiene av bitene i raden for uttrykket "Bill Clinton".

For å lagre denne informasjonen er to grunnrepresentasjoner tilgjengelige. Først, som vist over, kan informasjonen bli lagret i samforekomstmatrisen 212, hvori:

registrering G[rad j, kol. k] = (I(j,k),klyngenummer, klyngebitvektor).

Alternativt kan matriserepresentasjonen bli unngått og all informasjonen

lagret i listen over gode uttrykk 208, hvori hver rad deri representerer et godt uttrykk gj:

Uttrykk radj= liste[uttrykk gk, (I(j,k), klyngenummer, klyngebitvektor)].

Denne fremgangsmåten sørger for en brukbar organisering for klyngene. For det første: heller enn en streng og ofte tilfeldig definert rangordning av emner og begreper, anerkjenner denne fremgangsmåten at emner, som vist ved beslektede uttrykk, danner en kompleks grafisk fremstilling av forbindelser, hvor noen uttrykk er beslektet med mange andre uttrykk og noen uttrykk har en mer begrenset ramme, og hvor forbindelsene kan være gjensidige (hvert uttrykk forutsier det andre uttrykket) eller ensidige (ett uttrykk forutsier det andre, men ikke vice versa). Resultatet er at klynger kan blikarakterisertsom "lokale" til hvert gode uttrykk, og noen klynger vil så overlappe ved å ha ett eller flere felles beslektede uttrykk.

For et gitt godt uttrykk gjsørger så rangeringen av de beslektede uttrykkene ved informasjonsforsterkning for en ordning for å navngi klyngene av uttrykket: klyngenavnet er navnet av det beslektede uttrykket i klyngen som har den høyeste informasj onsforsterkningen.

Prosessen over sørger for en veldig robust måte å identifisere uttrykk med betydning som vises i dokumentsamlingen, det er også fordelaktig at det er måten disse beslektede uttrykkene er brukt sammen i naturlige "klynger" i praktisk virkelighet. Som et resultat unngår denne datastyrte klyngingen av beslektede uttrykk de iboende skjevhetene som finnes i ethvert manuelt styrt "redigert" utvalg av beslektede termer og begreper, som er vanlige i mange systemer.

3. Registrere dokumenter med uttrykk og beslektede uttrykk.

Gitt listen over gode uttrykk 208, innbefattet informasjonen som hører til beslektede uttrykk og klynger, er den neste funksjonelle arbeidsoperasjonen av registreringssystemet 110 å registrere dokumenter i dokumentsamlingen med hensyn til de gode uttrykk og klynger, og å lagre den oppdaterte informasjonen i primærregisteret 150 og sekundærregisteret 152. Figur 5 illustrerer denne prosessen, i hvilken det er de følgende funksjonelle skrittene for å registrere et dokument:

500: Føre dokumentet inn i innføringslisten for gode uttrykk funnet i dokumentet.

502: oppdatere tellinger av tilfeller og beslektetuttrykkbitvektor for beslektede uttrykk og sekundærbeslektede uttrykk.

504: Ordne registerinnføringer på nytt i henhold til innføringslistestørrelse.

506: Rangere registerinnføringer i hver innføringsliste etter en

informasjonsgjenfinnings verdi eller en egenskapsverdi.

508: Dele hver innføringsliste mellom primærserveren 150 og en sekundærserver 152.

Disse trinnene blir nå beskrevet i ytterligere detalj.

Et sett av dokumenter blir gjennomkrysset eller gjennomkravlet som før, dette kan være det samme eller et annet sett av dokumenter. For et gitt dokument d, gjennomkryss 500 dokumentet ord for ord med et sekvensvindu 302 av lengde n fra posisjon i, på måten beskrevet over.

I et gitt uttrykksvindu 302, identifisér alle gode uttrykk i vinduet, ved å begynne ved posisjon i. Hvert gode uttrykk blir betegnet som g;. Dermed blir gi det første gode uttrykk, g2ville bli det andre gode uttrykk og så videre.

For hvert godt uttrykk g; (for eksempel: gi "president" og g4"president i ATT") før inn dokumentnavnet (for eksempel URLen) i innføringslisten for det gode uttrykket g; i registeret 150. Denne oppdateringen identifiserer at det gode uttrykket gi vises i dette

bestemte dokumentet.

I én utførelse vil innføringslisten for et uttrykk gjanta den logiske formen:

Uttrykk gj: liste: (dokument d, [liste: beslektedeuttrykktellinger] [ beslektet uttrykks inf ormasj on])

For hvert uttrykk gjer det en liste av dokumentene d i hvilke uttrykket vises. For hvert dokument er det en liste med tellinger av antallet av forekomster av de beslektede uttrykkene R av uttrykket gjsom også vises i dokument d.

I én utførelse er den beslektede uttrykksinformasj onen en beslektetuttrykkbitvektor. Denne bitvektoren kan værekarakterisertsom en "bibif-vektor ved at for hvert beslektet uttrykk gker det to bitposisj oner, gk-i og gk-2- Den første bitposisjonen lagrer et flagg som viser hvorvidt det beslektede uttrykket gker tilstede i dokument d (det vil si: telleren for gki dokumentet d er større enn 0). Den andre bitposisjonen lagrer et flagg som viser hvorvidt et beslektet uttrykk gi av gkogså er tilstede i dokumentet d. De beslektede uttrykkene gi av et beslektet uttrykk gkav et uttrykk gjer heri kalt de "sekundærbeslektede uttrykkene av gj". Tellingene og bitposisj onene korresponderer med den kanoniske orden av uttrykkene i R (sortert i orden etter avtagende informasjonsforsterkning). Denne sorteringsordenen har virkningen at den gjør det beslektede uttrykket gksom er høyest forutsagt av gjforbundet med det mest signifikante bitet av beslektetuttrykkbitvektoren, og det beslektede uttrykket gi som er minst forutsagt av gjforbundet med det minst signifikante bitet.

Det er nyttig å merke seg at for et gitt uttrykk g, vil lengden av

beslektetuttrykkbitvektoren og forbindelsen av de beslektede uttrykkene med de individuelle bit av vektoren være den samme med hensyn til alle dokumenter som inneholder g. Denne utførelsen har egenskapen at den tillater systemet å lett sammenlikne beslektetuttrykkbitvektorene for hvilke som helst (eller alle) dokumenter som inneholder g, for å se hvilke dokumenter som har et gitt beslektet uttrykk. Dette er fordelaktig for å lette søkeprosessen for å identifisere dokumenter som svar på en

søkeforespørsel. Følgelig vil et gitt dokument vises i innføringslistene av mange forskjellige uttrykk, og i hver slik innføringsliste vil beslektetuttrykksvektoren for det dokumentet være spesifikt for uttrykket som eier innføringslisten. Sett fra denne synsvinkelen bevares lokaliteten av beslektetuttrykkbitvektorene med hensyn til de enkelte uttrykk og dokumenter.

Følgelig innbefatter det neste trinnet 502 å gjennomkrysse sekundærvinduet 304 av den gjeldende registerposisjonen i dokumentet (som før et sekundærvindu av +/- K termer, for eksempel 30 termer) for eksempel fra i-K til i+K. For hvert beslektet uttrykk gkav g; som vises i sekundærvinduet 304, inkrementerer registreringssystemet 110 telleren av gkmed hensyn til dokumentet d i beslektedeuttrykktellingen. Hvis g; vises senere i dokumentet, og det beslektede uttrykket blir funnet igjen innenfor det senere sekundærvinduet, blir telleren igjen inkrementert.

Som bemerket blir det korresponderende første bitet gk-1 i

beslektetuttrykkbitavbildningen satt på grunnlag av tellingen, med bitet satt til 1 hvis tellingen for gker > 0, eller satt til 0 hvis tellingen er lik 0.

Så blir det andre bitet gk-2 satt ved å slå opp beslektet uttrykk gki registeret 150, identifisere i innføringslisten til gkregistreringen for dokumentet d, og så kontrollere de sekundærbeslektedeuttrykktellingene (eller bitene) for gkfor hvilke som helst av dets beslektede uttrykk. Hvis hvilke som helst av disse sekundærbeslektedeuttrykktellingene/bitene er satt, så viser det at de sekundærbeslektede uttrykkene av gjogså er tilstede i dokument d.

Når dokument d har blitt ferdigbehandlet på denne måten, vil

registreringssystemet 110 ha identifisert det følgende:

i) hvert godt uttrykk gji dokumentet d,

ii) for hvert godt uttrykk gj, hvilke av dets beslektede uttrykk gksom er tilstede i dokumentet d,

iii) for hvert beslektet uttrykk gktilstede i dokumentet d, hvilke av dets beslektede uttrykk gi (de sekundærbeslektede uttrykk av gj) som også er tilstede i dokumentet d.

a) Partisjonert registrering:

Hvert uttrykk i register 150 har blitt gitt et uttrykknummer, basert på hyppigheten av

sine forekomster i samlingen. Jo mer vanlig uttrykk, dess lavere uttrykknummer mottar det i registeret. Registreringssystemet 110 sorterer 504 så alle innførings listene 214 i primærregisteret 150 i fallende orden i henhold til antallet dokumenter listeført i hver innføringsliste, slik at de mest hyppig forekommende uttrykkene har det laveste uttrykknummer og blir listeført først i primærregisteret 150. Som bemerket over fordeles primærregisteret 150 over Ml primærservere. For å redusere harddiskbrukerkø fordeles uttrykkene over disse maskinene ved en fordelingsfunksjon, for eksempel uttrykknummer MOD Ml.

For å øke antallet av dokumenter som kan bli registrert av systemet betydelig, blir primærregisteret 150 ytterligere behandlet for å selektivt partisjonere hver av innføringslistene 214. Som bemerket over, inneholder innføringslisten av hvert uttrykk en liste av dokumenter. Hvert dokument i innføringslisten er gitt 506 en informasjonsgjenfinningstypeverdi med hensyn til uttrykket. Uansett hvordan verdien er beregnet, blir dokumentene i innføringslisten så rangert i fallende orden etter denne verdi, med de høyest verdisatte dokumentene listeført først i innføringslisten. Denne forrangeringen av dokumentene er spesielt fordelaktig for forbedret ytelse mens man gjenfinner dokumenter som svar på en søkeforespørsel.

Verdisettingsalgoritmen for å forrangere dokumentene kan være den samme underliggende relevansverdialgoritme som er brukt i søkesystemet 120 til å utarbeide en relevansverdi. I én utførelse er informasjonsgjenfinningsverdien basert på nettsiderangerings- (page rank) algoritmen som beskrevet i US patent nr 6 285 999. Alternativt, eller i tillegg kan statistikk for et antall av informasjonsgjenfinningsrelevante egenskaper av dokumentet, slik som antall innlinker, utlinker, dokumentlengde også lagres og brukes alene eller i kombinasjon for å rangere dokumentene. For eksempel kan dokumentene bli rangert i fallende orden i henhold til antallet innlinker. For ytterligere å forenkle den raskest mulige gjenfinning av informasjon fra primærregisteret 150, er registreringene i hver innføringsliste 214 fysisk lagret på den passende primærserveren rangert etter

informasj onsgj enfinningtypever dien.

Gitt at de høyest verdisatte dokumentene for et gitt uttrykk nå er ved begynnelsen av innføringslisten, er innføringslisten 214 partisjonert 508 mellom primærregisteret 150 og sekundærregisteret 152. Innføringslisteregistreringene for opptil de første K dokumentene forblir lagret på primærserveren 150, mens innføringslisteregistreringene for de resterende n > K dokumentene blir lagret i sekundærregisteret 152, og slettet fra enden av innføringslisten 214 i primærregisteret 150.1 én utførelse er K satt til 32k (32 768), men en høyere eller lavere verdi av K kan bli brukt. Et uttrykk som har sin innføringsliste partisjonert mellom det primære og sekundære registeret blir kalt et "vanlig" uttrykk, mens et uttrykk som ikke er partisjonert blir kalt et "sjeldent" uttrykk. Delen av en innføringsliste som er lagret i primærregisteret 150 refereres til som primærinnføringslisten, og inneholder primærregistreringene, og delen av en innføringsliste som er lagret i sekundærregisteret 152 refereres til som sekundærinnføringslisten og inneholder sekundærregistreringene. Sekundærregistreringene for en gitt innføringsliste 214 blir tilordnet en sekundærserver i henhold til en annen fordelingsfunksjon av uttrykknummeret, for eksempel uttrykknummer MOD M2. Sekundærserver-ID er lagret i innføringslisten på primærserveren, for å tillate søkesystemet 120 å komme lett til den passende sekundærserveren når det trengs. For hver uttrykkinnføringsliste lagret på én av de sekundære serverne, blir sekundærregistreringene lagret fysisk ordnet etter deres dokumentnumre, fra laveste dokumentnummer til høyeste (i kontrast til relevansordningen i primærregisteret 150). Helst blir ingen relevansinformasjon lagret i sekundærregistreringene, slik at registreringene inneholder en minimal mengde av data, slikt som dokumentnummer, og dokumentlokator (for eksempel URL). Rangerings- og partisjoneringstrinnene kan bli utført sekvensielt for hvert uttrykk, alternativt kan alle

(eller et entall av) uttrykkene først bli rangert og så partisjonert, algoritmekonstruksjonen er bare et konstruksjons valg og variasjonene over betraktes som ekvivalente. Rangerings og partisjoneringstrinnene blir utført under hvert registreringsgjennomløp over et sett av dokumenter, slik at hvilke som helst uttrykk som er oppdatert med nye dokumenter under et registreringsgjennomløp blir nyrangert og nypartisjonert. Andre optimaliseringer og oppgaver er også mulige.

I én utførelse er utvalget av dokumentegenskaper som blir lagret i primærregisteret 150 for hvert dokument i innføringslisten 214 variabel, og i særdeleshet avtar det mot enden av innføringslisten 214 i primærregisteret. Med andre ord vil dokumenter som er høyt rangert i innføringslisten basert på deres relevansverdi (eller andre relevansbaserte egenskaper) ha all, eller mesteparten av dokumentegenskapene lagret i dokumentregistreringen i innføringslisten. Dokumenter nære enden av innføringslisten 214 i primærregisteret vil bare ha et mer begrenset sett av slike egenskaper lagret.

I én utførelse har hver innføringsliste 214 i primærregisteret 150 tre seksjoner av lengder m, 3 m, 5 m hvor m her er et antall av dokumentregistreringer. I denne utførelsen er det ønskelig at hver seksjon har en lengde K, som beskrevet over, det vil si at m = K, og hele primærregisteret har 9 K registreringer, sekundærregisteret ville da lagre sekundærregistreringene hvor n > 9 K.

I den første seksjonen (de første m registreringene), er de følgende relevansegenskapene lagret for hver dokumentregistrering i innføringslisten av et gitt uttrykk

1. dokumentrelevansverdien (for eksempel nettsiderangeringen (page rank)),

2. totalantallet av forekomster av uttrykket i dokumentet,

3. en rangordnet liste av opp til 10 000 ankerdokumenter som også inneholder

uttrykket og som peker til dette dokumentet, og for hvert ankerdokument dets relevansverdi (for eksempel nettsiderangering) og ankerteksten selv og

4. posisjonen av hver uttrykksforekomst og for hver forekomst et sett av flagg

som viser hvorvidt forekomsten er en tittel, fet, en topptekst, i en URL, i brødteksten, i et sidefelt, i en bunntekst, i en annonse, med store bokstaver eller i en annen type HTML-oppmerking.

I den andre seksjonen (de neste 3 m registreringer) blir bare punkt 1-3 lagret.

I den tredje seksjonen (avsluttende 5 m registreringer) blir bare punkt 1 lagret.

Å redusere systematisk hvilke dokumentegenskaper som blir lagret i senere deler av hver innføringsliste 214 er akseptabelt fordi dokumentene nære enden av innføringslisten allerede er bestemt å være mindre relevant for det bestemte uttrykket (lav relevansverdi), og slik er det ikke helt nødvendig å lagre alle deres relevanskarakteristikker.

Det forutgående lagringsarrangementet muliggjør å lagre betydelig fler registreringer i en gitt mengde av harddisklager enn konvensjonelle teknikker. For det første vil fjerning av termposisjoninformasj onen for hvert eneste uttrykk i hvert dokument sørge for en omtrent 50 % reduksjon i nødvendig lagringsmengde for et gitt sett av dokumenter, derved effektivt doble antallet av dokumenter som kan bli lagret. For det andre: å partisjonere innføringslistene mellom primærregisteret og sekundærregistre og lagre relevansinformasjon bare i primærregisteret sørger for ytterligere betydelige besparelser. Mange uttrykk har over 100 000, til og med 1 000 000 dokumenter på deres innføringslister. Å lagre relevansinformasjon for bare et begrenset antall av registreringer i primærregisteret fjerner lagringsbehovet for dokumentene som det ikke er sannsynlig blir returnert i søk. Fra denne synsvinkelen sørges det for en omtrent tifoldig økning i antallet av dokumenter som kan bli lagret. Til slutt blir ytterligere innsparinger (omtrent 25 % - 50 % reduksjon i krevet lagringskapasitet) oppnådd ved selektivt å lagre mindre relevansinformasjon i primærregisteret 150 for de mindre relevante (lavere rangerte) dokumentene i hver innføringsliste 214.

b) Bestemme emnene for et dokument.

Registreringen av dokumenter ved uttrykk og bruk av klyngingsinf ormasj onen sørger for enda en fordel ved registreringssystemet 110 som er evnen til å bestemme emnene som et dokument handler om basert på beslektetuttrykksinf ormasj onen.

Anta at for et gitt godt uttrykk gjog et gitt dokument d,

er innføringslisten som følger:

gj: dokument d: beslektedeuttrykktellinger:={3,4,3,0,0,2,l,l,0}

beslektetuttrykkbitvektor:={ll 11 10 00 00 10 10 10 01}

hvor beslektetuttrykkbitvektoren er vist i bitpar.

Fra beslektetuttrykkbitvektoren kan vi bestemme primær- og sekundæremner for dokumentet d. Et primæremne er vist ved et bitpar (1,1) og et sekundæremne er vist ved et bitpar (1,0). Et beslektetuttrykkbitpar (1,1) viser at både det beslektede uttrykket gkfor bitparet er tilstede i dokumentet d, sammen med de sekundærbeslektede uttrykkene gi også. Dette kan bli tolket til å bety at forfatteren av dokumentet d brukte flere beslektede uttrykk gj, gkog gi sammen for å sette sammen dokumentet. Et bitpar (1,0) viser at både gjog gker tilstede, men ingen ytterligere sekundærbeslektede uttrykk fra gker tilstede, og dette er derfor et mindre signifikant emne.

c) Registrere tilstander av dokumenter for arkivgjenfinning.

En annen utførelse av den foreliggende oppfinnelsen tillater evnen til å lagre og

opprettholde historiske dokumenter i registrene, og derved muliggjøre arkivgjenfinning av datobestemte tilstander (utgaver) av enkeltdokumenter eller sider. Denne evnen har mange forskjellige fordelaktige bruksmåter, innbefattet å muliggjøre for en bruker å kunne søke etter dokumenter innenfor et bestemt datoutvalg, muliggjøre for søkesystemet 120 å bruke dato- eller versjonsbeslektet relevansinformasjon ved evaluering av dokumenter i svar på en søkeforespørsel, og for å organisere søkeresultatene.

I denne utførelsen koder dokumentnavngiveren identiteten av dokumentet med hensyn til et datointervall. Første gang et dokument blir kravlet av registreringssystemet 110, blir dokumentnavnet lagret som en enveis fordelingsfunksjon (hash) av dokumentets URL og datomerkingen av dokumentet, for eksempel MD5(URL, første dato). Forbundet med den bestemte tilstanden av dokumentet er datoutvalgfeltet, som innbefatter et utvalg datoer for hvilke dokumenttilstanden er ansett for å være gyldig. Datoutvalget kan bli spesifisert som et datopar som innbefatter en første dato på hvilken dokumentet er ansett for å være gyldig (registreringsdatoen) og en siste dato på hvilken dokumentet er ansett for å være gyldig (for eksempel 11-01-04; 12-15-04). Alternativt

kan datoutvalget spesifiseres som en første dato og et antall som viser et antall av dager etterfølgende den første datoen (for eksempel 11-01-04, 45). En dato kan bli spesifisert i hvilket som helst brukbart format, innbefattet datostrenger eller dagantall. Under perioden i hvilken dokumentet er någjeldende dokument, blir den andre verdien et statusflagg eller tegn (innbefattende en NULL verdi) som viser denne tilstand, dette kalles det nåværende intervall. For eksempel vil (11-01-04, "åpen") vise at dokumentet for tiden er gyldig. Dette viser at dokumentet vil tilfredsstille søk som innbefatter en datobegrensning som er etter den første datoen. Uansett den bestemte utførelsen, kan den første datoen for et gitt intervall bli referert til som "åpningsdatoen", og den siste datoen for et gitt intervall kan bli referert til som "lukkingsdatoen".

Under påfølgende registreringsgjennomløp av registreringssystemet 110, bestemmer registreringssystemet 110 hvorvidt dokumentet har blitt endret. Hvis det ikke er noen endring i dokumentet, så foretar registreringssystemet 110 seg ingen ting videre med hensyn til dokumentet. Hvis det har blitt endring i dokumentet (derfor en ny tilstand eller en ny utgave av dokumentet) så vil registreringssystemet 110 på ny registrere dokumentet. Ved nyregistrering lukker registreringssystemet 110 det nåværende intervallet ved å endre "åpen"-statusflagget til nåværende dato minus én dag. For eksempel, hvis registreringssystemet 110 registrerer dokumentet den 16. desember 2004 og bestemmer at dokumentet har blitt endret, så vil någjeldende intervall bli lukket som følger: (11-01-04, 12-15-04) og et nytt någjeldende intervall blir dannet, for eksempel (12-16-04, "åpen"). Registreringssystemet 110 opprettholder hvert av datautvalgene for dokumentet, sammen med korresponderende registrerte relevansdata (for eksempel uttrykk, relevansstatistikk, dokumentinnlinker og så videre) for datoutvalget. Derfor blir hvert datoutvalg og sett av relevansdata forbundet med en bestemt tilstand eller utgave av dokumentet. For hvert av datointervallene for et gitt dokument opprettholder registreringssystemet et unikt dokumentnavn, for eksempel MD5(URL, første dato), for slik å være i stand til å gjenfinne den passende, bufrede dokumenttilstanden. I en utførelse som bruker primær- og sekundærregistre, blir når et registreringsgjennomløp er fullført, innføringslistene 214 i primærregisteret på nytt: verdisatt, rangert og partisjonert.

Beslutningen om hvorvidt et gitt dokument har blitt endret siden forrige registreringsgjennomløp kan bli tatt på hvilken som helst av mange mulige måter, innbefattende å bruke statistiske regler, grammatiske regler eller liknende heuristikk. I én utførelse bruker registreringssystemet 110 uttrykkene av et dokument til å beslutte om et dokument har blitt endret. Hver gang et dokument blir registrert, identifiseres de N viktigste emnene og opprettholdes som en liste forbundet med datoutvalginformasjonen, for eksempel de viktigste 20 emnene for datoutvalget (11-04-04, 12-15-04). Emnelisten for tilstanden som registreres blir så sammenliknet med emnelisten av en tidligere dokumenttilstand, helst det nyligst lukkede datoutvalget. Hvis mer enn M % av emnene har blitt endret (for eksempel 5 %) så er dokumentet å anse for å ha blitt endret, og blir på nytt registrert for alle uttrykk. Det bør bemerkes at andre metoder for å beslutte hvorvidt et dokument har blitt endret kan også bli brukt, og at bruken av uttrykksbasert registrering ikke er nødvendig. For eksempel kan et sett av statistiske regler bli brukt basert på endringer i dokumentlengde, endringer i hvilke termer som er mest vanlige, endringer i termhyppighet, endringer i mengden eller typen av HTML-oppmerkinger eller andre mål av dokumentoppbygging eller innhold.

in. Søkesystem

Søkesystemet 120 arbeider for å motta en forespørsel, og søke etter dokumenter som er relevante for forespørselen, og sørge for en liste av disse dokumentene (med linker til dokumentene) i et sett av søkeresultater. Figur 6 illustrerer hovedfunksjonsmåte av søkesystemet 120:

600 Identifiser uttrykk i forespørselen.

602 Gjenfinn dokumenter som er relevante for forespørselsuttrykkene.

604: Ranger dokumentene i søkeresultatene i henhold til uttrykkene.

Detaljene av hvert av disse trinnene er som følger.

1. Identifisering av uttrykk i forespørselen og forespørselutvidelsen.

Det første trinn 600 av søkesystemet 120 er å identifisere hvilke som helst uttrykk som er tilstede i forespørselen for å kunne søke effektivt i registeret. Den følgende terminologi blir brukt i denne seksjonen:

q: en forespørsel som inngangsvariabel og mottak av søkesystemet 120.

Qp: uttrykkene tilstede i forespørselen.

Qr: beslektede uttrykk av Qp.

Qe: uttrykksutvidelser av Qp.

Q: unionen av Qp og Qr.

En forespørsel q blir mottatt fra en klient 170, som har opptil et maksimalt antall av tegn eller ord.

Et uttrykksvindu av størrelse N (for eksempel 5) blir brukt av søkesystemet 120 til å gjennomkrysse termene av forespørselen q. Uttrykksvinduet begynner med den første termen av forespørselen, og utvider N termer til høyre. Dette vinduet skifter så plass til høyre M-N ganger, hvor M er antallet termer i forespørselen.

Ved hver vindusposisjon vil det være N (eller færre) termer i vinduet. Disse termene utgjør et mulig forespørselsuttrykk. Det blir slått opp etter det mulige uttrykket i listen over gode uttrykk 208 for å bestemme om det er et godt uttrykk eller ikke. Hvis det mulige uttrykket er tilstede i listen over gode uttrykk 208, så blir et uttrykknummer returnert for uttrykket, det mulige uttrykket er nå en uttrykkskandidat.

Etter at alle mulige uttrykk i hvert vindu har blitt prøvet for å bestemme om de er gode uttrykkskandidater, vil søkesystemet 120 ha et sett av uttrykknumre for de korresponderende uttrykk i forespørselen. Disse uttrykkskandidatene blir så sortert (fallende orden).

Ved å begynne med høyeste uttrykknummer som den første uttrykkskandidaten, bestemmer søkesystemet 120 om det er en annen uttrykkskandidat innenfor en fast numerisk distanse innen den sorterte listen, det vil si: forskjellen mellom uttrykknumrene er innenfor en terskelverdi, for eksempel 20 000. Hvis det er slik, så blir uttrykket som er lengst til venstre i forespørselen valgt som et gyldig forespørselsuttrykk Qp. Dette forespørselsuttrykket og alle dets underuttrykk blir fjernet fra listen av kandidater, og listen blir på nytt sortert og prosessen gjentatt. Resultatet av denne prosessen er et sett av gyldige forespørselsuttrykk Qp.

For eksempel, anta at søkeforespørselen er "Hillary Rodham Clinton Bill on the Senate Floor". Søkesystemet 120 ville identifisere de følgende uttrykkskandidater: "Hillary Rodham Clinton Bill on", Hillary Rodham Clinton Bill", og "Hillary Rodham Clinton". De to første blir forkastet og det siste blir tatt vare på som et gyldig forespørselsuttrykk. Så vil søkesystemet 120 identifisere "Bill on the Senate Floor", og underuttrykkene "Bill on the Senate", "Bill on the", "Bill on" og "Bill", og ville velge "Bill" som et gyldig forespørselsuttrykk Qp. Til slutt vil søkesystemet 120 analysere (parse)"on the Senate Floor" og identifisere "Senate Floor" som et gyldig forespørselsuttrykk.

Så tilpasser søkesystemet 120 de gyldige uttrykkene Qp for bruk av store bokstaver. Mens søkesystemet 120 analyserer forespørselen identifiserer det mulig bruk av store bokstaver i hvert gyldige uttrykk. Dette kan bli gjort ved å bruke en tabell over kjent bruk av store bokstaver, slik som "united states" ved bruk av store bokstaver blir "United States" eller ved å bruke en grammatikkbasert algoritme for bruk av store bokstaver. Dette fremstiller et sett av forespørselsuttrykk med riktig bruk av store bokstaver.

Søkesystemet 120 gjør så et andre gjennomløp gjennom uttrykkene der store bokstaver er i bruk, og velger bare de uttrykkene som er helt til venstre, hvor store bokstaver er i bruk og hvor både et uttrykk og dets underuttrykk er tilstede i settet. For eksempel vil et søk på "president of the united states" med bruk av store bokstaver bli "President of the United States".

I det neste trinnet identifiserer 602 søkesystemet 120 dokumentene som er relevante for forespørselsuttrykket Q. Søkesystemet 120 gjenfinner så innføringslistene til forespørselsuttrykket Q, og om nødvendig krysser disse listene for å bestemme hvilke dokumenter som vises på alle (eller et antall) av innføringslistene for forespørselsuttrykkene. Hvis et uttrykk Q in forespørselen har et sett av uttrykksutvidelser Qe (som ytterligere forklart under) så vil søkesystemet 120 først danne unionen av innføringslistene av uttrykksutvidelsene, før kryssingen utføres med innføringslistene. Søkesystemet 120 identifiserer uttrykksutvidelser ved å slå opp etter hvert uttrykk Q i listen over uferdige uttrykk 216, som beskrevet over.

Ved å bruke primærregisteret 150 og sekundæren 152 kan søkesystemet 120 ytterligere optimalisere kryssingsarbeidet. Det er fire generelle tilfeller av kryssingsanalyse som søkesystemet 120 må håndtere basert på om forespørselsuttrykkene er vanlige eller sjeldne.

Det første tilfellet er for ett enkelt forespørselsuttrykk, som kan være enten vanlig eller sjeldent. I dette tilfellet sender søkesystemet 120 et valgt antall (for eksempel 100 eller 1000) av de første registreringene i uttrykkets innføringsliste fra primærregisteret 150 til rangeringstrinnet 604 for avsluttende rangering. Rangeringstrinnet kan optimalisere rangeringsarbeidet siden dokumentene allerede er i rangert orden. Alternativt, siden de allerede er forrangert etter deres relevans til uttrykket, kan settet av dokumenter bli gjort direkte tilgjengelig som søkeresultatene, og i hovedsak øyeblikkelig sørge for resultater til brukeren.

Det andre tilfellet er hvor det er to vanlige forespørselsuttrykk. Her vil søkesystemet 120 gå til innføringslistene 214 for hvert uttrykk i primærregisteret 150 og krysse disse listene for å danne den avsluttende dokumentlisten, som så blir sendt til rangeringstrinnet 604 for å relevansverdisettes basert på settet av relevansegenskaper som er forbundet med dokumentet. Fordi det er minst K dokumenter i hver innføringsliste, er det en veldig høy sannsynlighet for at et tilstrekkelig antall dokumenter inneholder begge uttrykk, og dermed er ikke kryssingen av sekundærregistreringene i sekundærregisteret 152 nødvendig. Dette reduserer ytterligere det nødvendige tidsrommet for gjenfinning.

Det tredje tilfellet er hvor det er to sjeldne uttrykk. Dette tilfellet blir behandlet på samme måte som det andre tilfellet, siden her er hele innføringslisten for hvert uttrykk lagret i primærregisteret.

Det siste tilfellet er hvor de gyldige uttrykkene innbefatter et vanlig uttrykk og et sjeldent uttrykk. I dette tilfellet krysser først søkesystemet 120 innføringslistene 214 fra primærregisteret 150 for begge uttrykkene for å danne et første sett eller felles dokumenter. Så krysser søkesystemet 120 innføringslisten for det sjeldne uttrykket med sekundærregistreringene for det vanlige uttrykket (som allerede er sortert i dokumentnummerorden) for å danne et andre sett av felles dokumenter. De to settene blir forenet og så sendt til rangeringsfasen.

Alle tilfeller hvor det er tre eller flere forespørselsuttrykk kan bli forenklet behandlet ved påhverandrefølgende kryssinger ved å bruke fremgangsmåtene over.

2. Rangering

a) Rangere dokumenter basert på inneholdte uttrykk.

Søkesystemet 120 sørger for et rangeringstrinn 604 i hvilket dokumentene i søkeresultatene blir rangert ved å bruke relevansinformasjonen og dokumentegenskapene, sammen med uttrykksinformasjonen i hvert dokuments beslektetuttrykkbitvektor og klyngebitvektoren for forespørselsuttrykkene. Denne fremgangsmåten rangerer dokumentene i henhold til uttrykkene som er inneholdt i dokumentet, uformelt kalt "body hits" (substanstreff).

Som beskrevet over, vil for hvilket som helst gitt uttrykk gj, hvert dokument d i gj-enes innføringsliste ha en forbundet beslektetuttrykkbitvektor som identifiserer hvilke beslektede uttrykk gkog hvilke sekundærbeslektede uttrykk gi som er tilstede i dokument d. Dess fler beslektede uttrykk og sekundærbeslektede uttrykk er tilstede i et gitt dokument, dess fler bit vil være satt i dokumentets beslektetuttrykkbitvektor for det gitte uttrykket. Dess fler bit som er satt, dess større numerisk verdi av beslektetuttrykkbitvektoren.

Følgelig sorterer i én utførelse søkesystemet 120 dokumentene i søkeresultatet i henhold til verdien av deres beslektetuttrykkbitvektorer. Dokumentene som inneholder de uttrykkene som er mest beslektede med forespørselsuttrykkene Q vil ha de høyest verdisatte beslektetuttrykkbitvektorene, og disse dokumentene vil være de høyest rangerte dokumentene i søkeresultatene.

Denne fremgangsmåten er ønskelig fordi semantisk er disse dokumentene emnemessig mest relevante til forespørselsuttrykkene. Merk at denne fremgangsmåten sørger for høyst relevante dokumenter selv om dokumentene ikke inneholder en høy hyppighet av inngangsforespørselstermene q, siden beslektetuttrykksinf ormasj on ble brukt til både å identifisere relevante dokumenter og siden å rangere disse dokumentene. Dokumenter med en lav hyppighet av inngangsforespørselstermene kan stadig ha et stort antall av beslektede uttrykk til forespørselstermene og -uttrykkene og dermed være mer relevante enn dokumenter som har en høy hyppighet av bare forespørselstermene og -uttrykkene, men ingen beslektede uttrykk.

I en andre utførelse verdisetter søkesystemet 120 hvert dokument i resultatsettet i henhold til hvilke beslektede uttrykk av forespørselsuttrykket Q det inneholder. Dette gjøres som følger: Gitt hvert forespørselsuttrykk Q, vil det være et antall N av beslektede uttrykk Qr til forespørselsuttrykket, som identifisert under uttrykksidentifiseringsprosessen. Som beskrevet over, er de beslektede forespørselsuttrykkene Qr ordnet i henhold til deres informasjonsforsterkning fra forespørselsuttrykket Q. Disse beslektede uttrykkene blir så tildelt poeng, først N poeng for det første beslektede uttrykket Qrl (det vil si: det beslektede uttrykket Qr med den høyeste informasjonsforsterkningen fra Q), så N-l poeng for det neste beslektede uttrykket Qr2, så N-2 poeng for Qr3 og så videre, slik at det siste beslektede uttrykket QrN får tildelt 1 poeng.

Hvert dokument i søkeresultatene blir så verdisatt ved å bestemme hvilke beslektede uttrykk Qr av forespørselsuttrykket Q er tilstede, og å gi dokumentet poengene tilordnet til hvert slikt beslektet uttrykk Qr. Dokumentene blir så sortert fra høyeste til laveste verdisetting.

Som et ytterligere raffinement kan søkesystemet 120 velge ut visse dokumenter fra resultatsettet. I noen tilfeller kan dokumentene være om mange forskjellige emner, dette er spesielt tilfellet for lengre dokumenter. I mange tilfeller foretrekker brukere dokumenter som er holdt sterkt til saken med hensyn til ett enkelt emne som er uttalt i forespørselen om dokumenter som er relevante til mange forskjellige emner.

For å velge ut disse siste typer av dokumenter bruker søkesystemet 120 klyngeinformasjonen i klyngebitvektorene av forespørselsuttrykkene og fjerner eventuelle dokumenter i hvilke det er fler enn et terskelantall av klynger i dokumentet. For eksempel kan søkesystemet 120 fjerne eventuelle dokumenter som inneholder mer enn to klynger. Denne klyngeterskelen kan være forutbestemt, eller satt av brukeren som en søkeparameter.

b) Rangere dokumenter basert på ankeruttrykk.

I tillegg til å rangere dokumentene i søkeresultatene basert på substanstreff av forespørselsuttrykkene Q, rangerer søkesystemet 120 i én utførelse, også dokumentene basert på visningen av forespørselsuttrykkene Q og beslektetforespørselsuttrykkene Qr i ankere til andre dokumenter. I én utførelse beregner søkesystemet 120 en verdisetting for hvert dokument som er en funksjon (for eksempel en lineær kombinasjon) av to verdisettinger, en substanstreffverdi og en ankertreffverdi.

For eksempel kan dokumentverdien for et gitt dokument bli beregnet som følger:

Verdisetting = 0,30<*>(substanstreffverdi) + 0,70<*>(ankertreffverdi).

Vektingene av 0,30 og 0,70 kan bli justert som ønsket. Substanstreffverdien for et dokument er den numeriske verdien av den høyest verdisatte

beslektetuttrykkbitvektoren for dokumentet, gitt at forespørselsuttrykkene Qp er av det slag som beskrevet over. Alternativt kan denne verdien oppnås direkte av søkesystemet 120 ved å slå opp hvert forespørselsuttrykk Q i registeret 150, få tilgang til dokumentet fra innføringslisten av forespørselsuttrykket Q, og så få tilgang til beslektetuttrykkbitvektoren.

Ankertreffverdien av et dokument d er en funksjon av beslektetuttrykkbitvektorene av forespørselsuttrykkene Q, hvor Q er en ankerterm i et dokument som refererer til dokument d. Når registreringssystemet 110 registrerer dokumentene i dokumentsamlingen, opprettholder det for hvert uttrykk en liste over dokumentene i hvilke uttrykket er ankertekst i en utlink, og også for hvert dokument en liste av innlinkene (og de forblindede ankertekstene) fra andre dokumenter. Innlinkene for et dokument er referanser (for eksempel hyperlinker) fra andre dokumenter (refererende dokumenter til et gitt dokument.

For så å bestemme ankertreffverdien for et gitt dokument d, vil søkesystemet 120 gjenta over settet av refererende dokumenter R (i = 1 til antallet av refererende dokumenter) listeført i registeret ved deres ankeruttrykk Q, og summere det følgende produktet:

Ri.Q. beslektetuttrykkbitvektor<*>D.Q. beslektetuttrykkbitvektor.

Produktverdien her er en verdisetting av hvor emnerettet ankeruttrykket Q er til dokumentet D. Denne verdien er her kalt den "innkommende verdikomponenten". Dette produktet vekter effektivt gjeldende dokument D sin beslektetbitvektor med beslektetbitvektorene av ankeruttrykkene i det refererende dokumentet R. Hvis de refererende dokumentene R selv er beslektet med forespørselsuttrykket Q (og dermed har en høyere verdisatt beslektetuttrykkbitvektor) så øker dette betydningen av det gjeldende dokumentet D sin verdi. Substanstreffverdien og ankertreffverdien blir så kombinert for å danne dokumentverdien som beskrevet over.

Så fåes for hvert av de refererende dokumentene R, beslektetuttrykkbitvektoren for hvert ankeruttrykk Q. Dette er et mål av hvor emnerettet ankeruttrykket Q er til dokumentet R. Denne verdien er her kalt den utgående verdikomponenten.

Fra registeret 150 blir så alle (refererende dokument, referert dokument)-parene trukket ut for ankeruttrykkene Q. Disse parene blir så sortert etter deres forbundede (utgående verdikomponent, innkommende verdikomponent)-verdier. Avhengig av utførelsen kan hvilken som helst av disse komponentene være primærsorteringsnøkkel og den andre kan være sekundærsorteringsnøkkel. De sorterte resultatene blir så presentert for brukeren. Å sortere dokumentene på utgående verdikomponent gjør at dokumenter som har mange beslektede uttrykk med forespørselen som ankertreff, blir rangert høyest, og dermed forevises disse dokumentene som "ekspert"-dokumenter. Sortering på den innkommende dokumentverdien gjør dokumenter som ofte refereres etter ankertermene til de høyest rangerte. c) Rangere dokumenter basert på datoutvalgrelevans.

Søkesystemet 120 kan bruke datoutvalgsinformasjonen på flere måter under søke- og

rangeringsarbeidene. For det første kan søkesystemet 120 bruke datoutvalget som en eksplisitt søkeavgrensning. For eksempel kan en forespørsel inneholde termer eller uttrykk og en dato, slik som "United States Patent and Trademark Office 12/04/04".

Søkesystemet 120 kan identifisere datotermen, og så velge dokumenter som har det ønskede uttrykket og som er registrert for et datoutvalg som innbefatter datotermen i forespørselen. Fra de valgte dokumentene kan søkesystemet 120 så skaffe seg relevansverdi for hvert dokument ved å bruke de registrerte relevansdata forbundet med datoutvalget. På denne måten kan en eldre eller tidligere tilstand av dokumentet bli gjenfunnet i steden for den gjeldende tilstanden, hvor det er mer relevant for søkeforespørselen. Dette er spesielt anvendelig for dokumenter og sider som endres ofte, slike som hjemmesidene til nyhetsnettsteder og andre nettsteder som inneholder informasjon som endres hyppig.

For det andre, hvor ingen datoterm er innbefattet i en søkeforespørsel, kan søkesystemet 120 bruke datoinf ormasj onen i registeret under relevansrangering, ved å vekte dokumentrelevansverdier i henhold til hvor gamle de er, slik at eldre dokumenter får sine relevansverdier vektet ned (eller nyere dokumenter blir vektet høyere).

Alternativt er det i noen tilfeller eldre versjoner av et dokument som er mest relevant til et emne, heller enn den mest oppdaterte utgaven av et dokument. For eksempel er samtidige nyhetsportalsteder skapt ved tiden for historiske hendelser sannsynligvis mer relevant til en bestemt forespørsel om hendelsen enn gjeldende utgaver av nyhetsportalen. I dette tilfellet kan søkesystemet 120 vekte opp eldre dokumenttilstander, hvor for eksempel mønsteret av dokumentrelevansverdiene for alle tilstandene av et dokument viser en økning omkring en eller annen historisk dato, fulgt av avtagende relevansverdier for tilstander av dokumentet nærmere gjeldende.

Hvor én eller flere datotermer er innbefattet i søkeforespørselen som over, kan dokumentene ha sine relevansverdier nedvektet i forhold til forskjellen mellom datotermen og dokumentdatoutvalget, slik at dokumenter som er enten mye eldre enn datoutvalget (målt fra enten åpningsdatoen eller avslutningsdatoen) eller mye nyere enn de ønskede datotermene får sine relevansverdier nedvektet. Omvendt kan en relevansverdi bli øket i steden for nedvektet hvor datoutvalget for dokumentet er nærmere den ønskede datoen.

For det tredje kan søkesystemet 120 bruke datoutvalgsinformasjonen som enten en primær eller sekundær faktor for å ordne søkeresultatene. For eksempel kan dokumenter bli gruppert i omvendt kronologisk orden (for eksempel månedlige grupper) og innenfor hver gruppe kan dokumentene bli opplistet fra mest til minst relevant for søkeforespørselen.

En annen bruk av datoutvalg informasjonen er å rangere dokumenter basert på hyppigheten med hvilken de blir oppdatert. Søkesystemet 120 kan bestemme antallet av tilstander av et gitt dokument (for eksempel antallet adskilte datoutvalg) over et tidsintervall (denne tellingen kan bli opprettholdt under registrering). Antallet tilstander blir så brukt til å vekte opp de dokumentene som blir oppdatert hyppigere.

Claims

1. Fremgangsmåte realisert med datamaskin for å registrere dokumenter med hensyn til et første uttrykk hvori hvert dokument har en dokumentidentifikator,karakterisert vedå: etablere en liste av dokumenter som inneholder uttrykket; partisjonere (508) listen inn i en første porsjon og en andre porsjon, der første porsjonen av listen omfatter dokumnenter som er høyere rangert, ut i fra relevansverdi, enn dokumentene i den andre porsjonen av listen, hvori relevansverdiene er beregnet for hvert dokument i forhold til uttrykket; og lagre en første porsjon av listen; og lagre en andre del av listen i en et sekundærregister i numerisk orden av dokumentidentifikatorene av dokumentene i den andre delen av listen.

2. Fremgangsmåte som angitt i punkt 1,karakterisertv e d at relevansverdien innbefatter en siderangeringsbasert verditype.

3. Fremgangsmåte som angitt i krav 1 eller krav 2,karakterisertved å lagre, for hvert dokument, i primærregisteret relevansegenskaper av dokumentet.

4. Fremgangsmåte som angitt i krav 3,karakterisert vedat relevansegenskapene innbefatter minst én av de følgende: et totalantall av forekomster av uttrykket i dokument, en rangordnet liste av ankerdokumenter som også inneholder uttrykket og som peker til dokumentet, en posisjon av hver uttrykksforekomst i dokumentet, et sett av én eller flere flagg som viser et format av forekomsten eller en del av dokumentet som inneholder forekomsten.

5. Fremgangsmåte som angitt i krav 3 eller krav 4,karakterisertved at å lagre den andre porsjonen av listen i sekundærregisteret, innbefatter å lagre i hovedsak bare dokumentidentifikasjonsinformasjon.

6. Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat å lagre den første porsjonen av listen i primærregisteret, innbefatter å lagre den første porsjonen av listen på en fysisk lagringsenhet i rangorden av relevansverdiene av dokumnentene i den første porsjonen av listen.

7. Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat å lagre den andre porsjonen av listen i et sekundærregister, innbefatter å lagre den andre porsjonen av listen på en fysisk lagringsenhet i numerisk orden av dokumentidentifikatorene av dokumnentene i den andre porsjonen av listen.

8. Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat den første porsjonen av hver liste av dokumenter innbefatter en første seksjon hvori hvert dokument som er listeført i den første seksjonen innbefatter en første mengde av relevansegenskaper, og en andre seksjon hvori hvert dokument som er listeført i den andre seksjonen innbefatter en andre mengde av relevansegenskaper som er en undermengde av den første mengden av relevansegenskaper, og hvori dokumentene som er listeført i den første seksjonen er rangert høyere enn dokumentene som er listeført i den andre seksjonen.

9. Fremgangsmåte som angitt i krav 8,karakterisert vedat den første porsjonen av hver liste av dokumenter innbefatter en tredje seksjon, hvori hvert dokument som er listeført i den tredje seksjonen innbefatter en tredje mengde av relevansegenskaper som er en undermengde av den andre mengden av relevansegenskaper, og hvori dokumentene som er listeført i den andre seksjonen er rangert høyere enn dokumentene som er listeført i den tredje seksjonen.

10. Fremgangsmåte som angitt i krav 8 eller krav 9,karakterisertv e d at den første porsjonen av hver liste inneholder n registreringer, hvori den andre porsjonen av listen inneholder m<*>n registreringer, hvori m > 2, og den tredje porsjonen av listen inneholder 1<*>n registreringer, hvori 1 > 4.

11. Fremgangsmåte for å gjenfinne dokumenter ved anvendelse avet informasjonsgjenfinningssystem,karakterisert vedå: lagre et primærregister innbefattende primæruttrykkinnførings lister, hvor hver innføringsliste er forbundet med et uttrykk og innbefatter opp til et maksimalt antall av dokumenter som inneholder uttrykket, dokumentene er rangert etter respektive relevansverdier, hvori de respektive relevansverdier er beregnet for hver dokument i forhold til uttrykket; lagre et sekundærregister innbefattet sekundæruttrykkinnføringslister, hvor hver innføringsliste er forbundet med en primæruttrykkinnføringsliste i primærregisteret, og inbefatter dokumenter som inneholder uttrykket, og som har relevansverdi mindre enn relevansverdien av et laveste rangert dokument i primærinnføringslisten for uttrykket, og dokumentene er ordnet etter dokumentidentifikatoren; motta en søkeforespørsel som innbefatter minst ett uttrykk; gi svar til forespørselsuttrykket som inneholder et første uttrykk som har en primærinnføringsliste og en sekundærinnføringsliste og et andre uttrykk som har bare en primærinnføringsliste, krysse primærinnføringslisten av det første uttrykket med primærinnføringslisten av det andre uttrykket for å oppnå et første sett av felles dokumenter, og krysse den andre innføringslisten av det første uttrykket med primærinnføringslisten av det andre uttrykket for å oppnå et andre sett av felles dokumenter, og slå sammen det første og andre settet av vanlige dokumenter; og rangere (604) de felles dokumentene.

12. Et informasjonsgjenfinningssystem,karakterisert veddet omfatter: et primærregister (150) som innbefatter primæruttrykkinnføringslister, der hver innføringsliste forbundet med et uttrykk og som innbefatter opp til et maksimalt antall av dokumenter som inneholder uttrykket, der dokumentene rangordnet etter respektive relevansverdier, hvori de respektive relevansverdier er beregnet for hver dokument i forhold til uttrykket; og et sekundærregister (152) som innbefatter sekundæruttrykkinnføringslister, hver innføringsliste forbundet med en primæruttrykkinnføringsliste i primærregisteret og innbefatter dokumenter som inneholder uttrykket og som har relevansverdi mindre enn relevansverdien av et lavest rangert dokument i primærinnføringslisten for uttrykket, dokumentene er ordnet etter dokumentidentifikatoren.