NO335144B1 - Frasebasert generasjon av dokumentbeskrivelser - Google Patents

Frasebasert generasjon av dokumentbeskrivelser Download PDF

Info

Publication number
NO335144B1
NO335144B1 NO20053639A NO20053639A NO335144B1 NO 335144 B1 NO335144 B1 NO 335144B1 NO 20053639 A NO20053639 A NO 20053639A NO 20053639 A NO20053639 A NO 20053639A NO 335144 B1 NO335144 B1 NO 335144B1
Authority
NO
Norway
Prior art keywords
phrase
phrases
document
documents
query
Prior art date
Application number
NO20053639A
Other languages
English (en)
Other versions
NO20053639D0 (no
NO20053639L (no
Inventor
Anna Lynn Patterson
Original Assignee
Google Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google Inc filed Critical Google Inc
Publication of NO20053639D0 publication Critical patent/NO20053639D0/no
Publication of NO20053639L publication Critical patent/NO20053639L/no
Publication of NO335144B1 publication Critical patent/NO335144B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Et informasjonshentingssystem anvender fraser til å indeksere, hente, organisere og beskrive dokumenter. Fraser identifiseres som forutsier nærværet av andre fraser i dokumenter. Dokumenter blir så indeksert i henhold til deres inkluderte fraser. Relaterte fraser og fraseforlengelser blir også identifisert. Fraser i et spørsmål identifiseres og anvendes til å hente og rangere dokumenter. Fraser blir også anvendt til å gruppere dokumenter i søkeresultatene, skape dokumentbeskrivelser og eliminere duplikatdokumenter fra søkeresultatene og fra indeksen.

Description

Den foreliggende oppfinnelse vedrører et informasjonshentingssystem for indeksering, søking og klassifisering av dokumenter i storskalamengder, slik som Internett.
Informasjonshentingssystemer, generelt benevnt søkemotorer, er nå et vesentlig verktøy for å finne informasjon i storskala, mangfoldige og voksende mengder, slik som nevnte Internett. Generelt skaper søkemotorer en indeks som relaterer dokumenter (eller "sider") til de individuelle ord som er tilstede i hvert dokument. Et dokument hentes som reaksjon på et spørsmål som inneholder et antall av spørsmålsuttrykk, typisk basert på å ha et visst antall av spørsmålsuttrykk tilstede i dokumentet. De hentede dokumenter blir så ordnet i henhold til andre statistiske forholdsregler slik som frekvens av opptreden av spørsmålsuttrykk, vertsområde, lenkeanalyse og lignende. De hentede dokumenter blir så presentert for brukeren, typisk i deres ordnede rekkefølge, og uten noen ytterligere gruppering eller påtvunget hierarki. I visse tilfeller blir en valgt del av en tekst i et dokument presenter for å gi brukeren et glimt av dokumentets innhold.
Direkte "Boolsk" tilpasning av spørsmålsuttrykk har vært velkjente begrensninger, og i særdeleshet identifiserer ikke dokumenter som ikke har spørsmålsuttrykkene, men har relaterte ord. Eksempelvis, i et typisk "Boolsk" system, ville et søk på "Australian Shepherds" ikke bringe tilbake dokumenter om andre gjeterdyr, slik som Boarder Collies som ikke har de nøyaktige spørsmålsuttrykk. I stedet vil et slikt system sannsynligvis også hente og i stor grad ordne dokumenter som er om Australia (og intet har å gjøre med hunder), og dokumenter om "hyrder" generelt.
Den amerikanske patentsøknaden US2001/0000356 Al av Wood, relaterer til generering av responser for forespørsler til et dokumenthentingssystem.
Problemet er at konvensjonelle systemer indekserer dokumenter basert på individuelle
uttrykk, snarere enn på begreper. Konsepter er ofte uttrykt i fraser, slik som "Australian Shepherd", "President of the United States", eller "Sundance Film Festival". I beste fall vil visse tidligere systemer indeksere dokumenter med hensyn til et forutbestemt og meget begrenset sett av "kjente fraser" som typisk velges av en menneskelig operatør. Indeksering av fraser blir typisk unngått på grunn av de oppfattede beregningsmessige og minnekravene for å identifisere alle mulige fraser av for eksempel 3,4, eller 5 eller flere ord. Eksempelvis, ved antagelsen at hvilke som helst fem ord kunne danne en frase, og en stor mengde kunne ha minst 200000 unike uttrykk, ville der være ca. 3,2 x IO<26>mulige fraser, og klart mer enn noe eksisterende system kunne lagre i minnet eller på annen måte programmeringsmessig manipulere. Et ytterligere problem er at frasene vedvar-
ende går inn og forlater leksikonet med hensyn til deres bruk, langt hyppigere enn nye individuelle ord oppfinnes. Nye fraser blir alltid generert, fra kilder slik som teknologi, kunst, verdenshendelser og lov. Andre fraser vil avta i bruk over tid.
Visse eksisterende informasjonshentingssystemer forsøker å tilveiebringe henting av begreper ved å anvende samopptredende mønstere av individuelle ord. I disse systemer vil søk på ett ord, slik som "President" også hente dokumenter som har andre ord som hyppig fremkommer med "president", slik som "White" og "House". Selv om denne løs-ning kan frembringe søkeresultater som har dokumenter er begrepsmessig relatert på individuelle ord, vil de ikke typisk fange aktuelle forhold som hører med mellom samopptredende fraser.
Følgelig finnes der et behov for et informasjonshentingssystem og metodikk som kan i utstrakt grad identifisere fraser i en storskalamengde, indeksere dokumenter i henhold til fraser, søke og ordne/rangere dokumenter i henhold til deres fraser, og tilveiebringe ytterligere gruppering og beskrivende informasjon om dokumentene.
Et informasjonshentingsystem og metodikk foreligger som anvender fraser for å indeksere, søke, ordne og beskriver dokumenter i dokumentsamlingen. Systemet er tilpasset til å identifisere fraser som har tilstrekkelig hyppige og/eller utmerkende bruk i dokumentsamlingen til å indikerer at de er "gyldige" eller "gode" fraser. På denne måte kan flerordsfraser, for eksempel fraser av fire, fem eller flere uttrykk bli identifisert. Dette unngår problemet med å måtte identifisere og indeksere alle mulige fraser som skyldes alle av de mulige sekvenser av et gitt antall av ord.
Systemet er ytterligere tilpasset til å identifisere fraser som er relatert til hverandre, basert på en frases evne til å forutsi nærværet av andre fraser i dokumentet. Nærmere bestemt blir et forutsigelsesomfang anvendt som relaterer den faktiske samopptredens hyppighet av to fraser i forhold til en forventet samopptredens hyppighet av de to frasene. Informasjons gevinsten, som forholdet mellom den faktiske samopptredenhyppighet og forventet samopptredenhyppighet, er et slikt forutsigelsesomfang. To fraser er relatert der forutsigelsesomfanget overskrider en forutbestemt terskel. I det tilfellet har den andre frasen vesentlig informasjonsgevinst med hensyn til den første frasen. Semantisk vil relaterte fraser være de som blir vanlig anvendt for å diskutere eller beskrive et gitt emne eller begrep, slik som "President of the United States" og "White House". For en gitt frase kan de relaterte frasene ordnes i henhold til deres relevans eller betydning basert på deres respektive forutsigelsesforholdsregler.
Et informasjonshentingssystem indekserer dokumenter i dokumentsamlingen ved hjelp av gyldige eller gode fraser. For hver frase vil en oppslagsliste identifisere dokumentene som inneholder frasen. I tillegg, for en gitt frase, anvendes en andre liste, vektor eller annen struktur til å lagre data som indikerer hvilke av de relaterte fraser i den gitte frasen som også er tilstede i hvert dokument som inneholder den gitte frasen. På denne måte kan systemet lett identifisere ikke bare hvilke dokumenter som inneholder hvilke fraser som reaksjon på et søkespørsmål, men hvilke dokumenter som også inneholder fraser som er relatert til spørsmålsfraser, og således mer sannsynlig å være spesifikke omkring emnene eller begrepene uttrykt i spørsmålsfrasene.
Bruken av fraser og relaterte fraser muliggjør dessuten dannelsen og bruken av samlinger av relaterte fraser, hvilke representerer semantisk meningsfulle grupperinger av fraser. Grupperinger identifiseres som relaterte fraser som har meget høyt forutsigelsesomfang mellom alle av frasene i grupperingen. Grupperinger kan anvendes til å organisere resultatene av et søk, innbefattende å velge hvilke dokumenter å innbefatte i søkeresul-tatene og deres rekkefølge, samt å eliminere dokumenter fra søkeresultatene.
Informasjonshentingssystemet er også tilpasset til å anvende frasene når det søkes etter dokumenter som reaksjon på et spørsmål. Spørsmålet behandles for å identifisere hvilke som helst fraser som er til stede i spørsmålet, for derved å hente de tilhørende oppslags-lister for spørsmålsfrasene, og den relaterte fraseinformasjon. I tillegg kan i visse tilfeller en bruker innføre en ufullstendig frase i søkespørsmålet, slik som i "President of the". Ufullstendige fraser slik som disse kan identifiseres og erstattes med en fraseutvidelse, slik som "President of the United States". Dette hjelper til å sikre at brukerens mest sannsynlige søk i realiteten utføres.
Den relaterte fraseinformasjon kan også anvendes av systemet til å identifisere eller velge hvilke dokumenter å innbefatte i søkeresultatet. Den relaterte fraseinformasjon indikerer for en gitt frase og et gitt dokument hvilke relaterte fraser i den gitte frase er tilstede i det gitte dokument. Følgelig, for et spørsmål som inneholder to spørsmålsfraser, blir oppslagslisten for en første spørsmålsfrase behandlet til å identifisere dokumenter som inneholder den første spørsmålsfrasen, og så blir den relaterte fraseinformasjonen behandlet til å identifisere hvilke av disse dokumenter som også inneholder den andre spørsmålsfrasen. Disse sistenevnte dokumenter blir så inkludert i søkeresultatene. Dette eliminerer behovet for systemet til så separat å behandle oppslagslisten tilhørende den andre spørsmålsfrasen, hvorved tilveiebringes hurtigere søketider. Selvfølgelig kan denne løsning utvides til et hvilket som helst antall av fraser i et spørsmål, hvilket resulterer i vesentlig beregningsmessige og tidsmessige besparelser.
Systemet kan ytterligere tilpasses til å anvende frasen og relatert fraseinformasjon til å
ordne eller rangere dokumenter i et sett av søkeresultater. Den relaterte fraseinformasjonen i en gitt frase blir fortrinnsvis lagret i et format, slik som en bitvektor, som uttrykker den relative betydning av hver relaterte frase til den gitte frase. Eksempelvis har en relatert frasebitvektor en bit for hver relatert frase i den gitte frase, og nevnte bits ordnes i
henhold til forutsigelsesomfangene (for eksempel informasjons gevinst) for de relaterte fraser. Den mest signifikante bit av den relaterte frasebitvektor er tilhørende den relaterte frase som har det høyeste forutsigelsestiltak, og den minst signifikante bit er tilhør-ende den relaterte frase som har et laveste forutsigelsestiltak. På denne måte, for et gitt dokument og en gitt frase, kan den relaterte fraseinformasjon anvendes til å treffe dokumentet. Verdien av selve bitvektoren (som en verdi) kan anvendes som dokumentresul-tatet. På denne måte vil dokumenter som inneholder høyordensrelaterte fraser i en
spørsmålsfrase mer sannsynlig være aktueltmessig relatert til spørsmålet enn de som har lavordnede relaterte fraser. Bitvektorverdien kan også anvendes som en komponent i en mer komplisert treffunksjon, og kan i tillegg veies. Dokumentene kan så rangeres i henhold til deres dokumenttreff.
Fraseinformasjonen kan også anvendes i et informasjonshentingssystem for å personalisere søk for en bruker. En bruker modelleres som en samling av fraser, eksempelvis utledet fra dokumenter som brukeren har aksessert (for eksempel sett på på skjerm, skrevet ut, lagret etc). Nærmere bestemt, gitt et dokument aksessert av bruker, blir de relaterte fraser som er tilstede i dette dokument inkludert i en brukermodell eller profil. Under påfølgende søk blir frasene i brukermodellen anvendt til å filtrere frasene i søke-spørsmålet og å veie dokumenttreffene hos de hentede dokumenter.
Fraseinformasjon kan også anvendes i et informasjonshentingssystem til å skape en beskrivelse av et dokument, for eksempel dokumentene som inngår i et sett av søkeresul-tater. Gitt et søkespørsmål identifiserer systemet frasene som er tilstede i spørsmålet, sammen med deres relaterte fraser, og deres fraseutvidelser. For et gitt dokument har hver setning i dokumentet en telling av hvor mange av spørsmålsfrasene, relaterte fraser, og fraseutvidelser som er tilstede i setningen. Setningene i dokumentet kan rangeres eller ordnes ved disse tellinger (individuelt eller i kombinasjon), og et visst antall av de topprangerende setninger (for eksempel fem setninger) velges til å danne dokumentbe skrivelsen. Dokumentbeskrivelsen kan så presenteres for brukeren når dokumentet inngår i søkeresultater, slik at brukeren oppnår en bedre forståelse av dokumentet i forhold til spørsmålet.
En ytterligere raffinering av denne prosess med å generere dokumentbeskrivelser tillater systemet å tilveiebringe personaliserte beskrivelser, som reflekterer brukerens interesser. Som tidligere vil en brukermodell lagre informasjon som identifiserer relaterte fraser som er av interesse for brukeren. Denne brukermodellen skjæres med en liste av fraser relatert til spørsmålsfrasene, for å identifisere fraser som er felles for begge grupper. Det felles settet blir så ordnet i henhold til den relaterte fraseinformasjon. Det resulterende sett av relaterte fraser anvendes så til å rangere eller ordne setningene i et dokument i henhold til antallet av tilfeller som disse relaterte fraser er i tilstede i hvert dokument. Et antall av setninger som har det høyeste antall av felles relaterte fraser velges som den personaliserte dokumentbeskrivelse.
Et informasjonshentingssystem kan også anvende fraseinformasjonen til å identifisere og/eller eliminere duplikatdokumenter, enten under indeksering (kravling) av dokumentsamlingen, eller når et søkespørsmål behandles. For et gitt dokument har hver setning i dokumentet en telling av hvor mange relaterte fraser som er tilstede i setningen. Setningene i dokumentet kan rangeres ved denne telling, og et antall av de topprangerende setninger (for eksempel fem setninger) velges til å danne en dokumentbeskrivelse. Denne beskrivelse lagres så i tilknytning til dokumentet, eksempelvis som en streng eller opphakking av setningene. Under indeksering blir et nylig gjennomkravlet dokument behandlet på den samme måte for å generere dokumentbeskrivelsen. Det nye dokumentets beskrivelse kan tilpasses (for eksempel opphakkes) mot tidligere dokumentbeskrivelser, og hvis en overensstemmelse finnes, er så det nye dokumentet et duplikat. Tilsvarende, under forberedelse av resultatene i et søkespørsmål, kan dokumentene i søkeresultatet behandles til å eliminere duplikater.
Den foreliggende oppfinnelse har ytterligere utførelsesformer i system- og program-varearkitekturer, datamaskinprogramprodukter og datamaskinimplementerte metoder og datamaskingenerert brukergrensesnitt og presentasjoner.
Det foregående er bare noen av trekkene hos et informasjonshentingssystem og meto-dikken basert på fraser. De med fagkunnskap om informasjonshenting vil forstå at flek-sibiliteten av det generelle i fraseinformasjonen muliggjør et stort antall av anvendelser og applikasjoner ved indeksering, dokumentmerknad, søking, rangering og andre områ-der av dokumentanalyse og behandling. Figur 1 er et blokkskjema over programvarearkitekturen ifølge en utførelsesform av den foreliggende oppfinnelse.
Figur 2 viser en fremgangsmåte for å identifisere fraser i dokumenter.
Figur 3 viser et dokument med et frasevindu og et sekundærvindu.
Figur 4 viser en fremgangsmåte for å identifisere relaterte fraser.
Figur 5 viser en fremgangsmåte for å indeksere dokumenter for relaterte fraser.
Figur 6 viser en fremgangsmåte for å hente dokumenter basert på fraser.
Figur 7 viser operasjoner i presentasjonssystemet for å presentere søkeresultater.
Figur 8a og 8b viser forhold mellom henvisning og henviste dokumenter.
Figurene viser en foretrukket utførelsesform av den foreliggende oppfinnelse for kun il-lustrasjonsformål. En fagperson vil lett erkjenne fra den etterfølgende omtale at alterna-tive utførelsesformer av strukturene og fremgangsmåtene som er vist her kan anvendes uten å avvike fra prinsippene for den oppfinnelse som er beskrevet her.
I. Svstemoverblikk
Idet der nå vises til figur 1, er der vist programvarearkitektur i en utførelsesform i et søkesystem 100 i henhold til én utførelsesform av den foreliggende oppfinnelse. I denne utførelsesform innbefatter systemet et indekseringssystem 110, et søkesystem 120, et presentasjonssystem 130 og en frontendetjener 140.
Indekseringssystemet 110 er ansvarlig for å identifisere fraser i dokumenter, og indeksering av dokumenter i henhold til deres fraser, ved å aksessere forskjellige nettsider 190 og andre dokumentsamlinger. Frontendetj eneren 140 mottar spørsmål fra en bruker hos en klient 170, og leverer disse spørsmål til søkesystemet 120. Søkesystemet 120 er ansvarlig for å søke etter dokumenter som er relevante til søkespørsmålet (søkeresultater), innbefattende å identifisere eventuelle fraser i søkespørsmålet, og så rangere dokumentene i søkeresultatene ved å bruke nærværet av fraser for å påvirke rangeringsrekkeføl-gen. Søkesystemet 120 tilveiebringer søkeresultatene til presentasjonssystemet 130. Presentasjonssystemet 130 er ansvarlig for å modifisere søkeresultatene, innbefattende å fjerne nærduplikatdokumenter, og å generere aktuelle beskrivelser av dokumentene, og å tilveiebringe de modifiserte søkeresultater tilbake til frontendetj eneren 140, hvilken gir resultatene til klienten 170. Systemet 100 innbefatter dessuten en indeks 150 som lagrer indekseringsinformasjonen som vedrører dokumenter, og et frasedatalager 160 som lagrer fraser, og relatert statistisk informasjon.
I denne søknads sammenheng skal "dokumenter" forstås å være hvilke som helst type av media som kan indekseres og hentes av en søkemotor, innbefattende nettdokumenter, bilder, multimediafiler, tekstdokumenter, PDF'er eller andre bildeformaterte filer osv. Et dokument ha én eller flere sider, partisjoner, segmenter eller andre komponenter, slik det er passende for dets innhold og type. Ekvivalent kan et dokument bli henvist til som en "side", slik det vanligvis brukes å referere til dokumenter på Internett. Ingen begrens-ning med hensyn til omfanget av oppfinnelsen innebæres av bruken av det generiske uttrykk "dokumenter". Søkesystemet 100 opererer over en stor mengde av dokumenter,
slik som Internett og World Wide Web, men kan likeledes anvendes i mer begrensede samlinger, slik som for dokumentsamlinger i et bibliotek eller privat foretak. I den ene
eller andre sammenheng vil det forstås at dokumentene typisk fordeles over mange forskjellige datamaskinsystemer og steder. Uten da tap av generalitet, vil dokumentene generelt, uansett format eller sted (for eksempel hvilket nettsted eller database) bli kollek-tivt referert til som en mengde eller basismateriale eller dokumentsamling. Hvert dokument har en tilhørende identifiserer som entydig identifiserer dokumentet. Identifisere-ren er fortrinnsvis en URL, men andre typer av identifiserere (for eksempel dokument-nummere) kan likeledes anvendes. I denne beskrivelse antas bruken av URL'er å identifisere dokumenter.
II. Indekseringssystem
I én utførelsesform tilveiebringer indekseringssystemet 110 tre primære funksjonelle operasjoner: 1) identifikasjon av fraser og relaterte fraser, 2) indeksering av dokumenter med hensyn til fraser, og 3) generering og vedlikehold av en frasebasert taksanomi. De med fagkunnskap vil forstå at indekseringssystemet 110 vil utføre også andre funksjoner for å støtte konvensjonelle indekseringsfunksjoner, og derfor blir disse andre operasjoner ikke ytterligere beskrevet her. Indekseringssystemet 110 opererer på en indeks 150 og dataoppbevaringssted 160 for frasedata. Disse dataoppbevaringssteder er ytterligere beskrevet nedenfor.
1. Fraseidentifikasjon
Fraseidentifikasjonsoperasjonen hos indekseringssystemet 110 identifiserer "gode" og "dårlige" fraser i dokumentsamlingen som er nyttig for å indeksere og søke dokumenter. I ett aspekt er gode fraser, fraser som har tendens til å opptre i mer enn en viss prosent-andel av dokumenter i dokumentsamlingen, og/eller indikeres til å ha en fremtredende forekomst i slike dokumenter, slik som begrenset av markeringsmerkelapper eller annet morfologisk format, eller grammatikalske markører. Et annet aspekt ved gode fraser er at de er forutsigende for andre gode fraser, og er ikke kun sekvenser av ord som fremkommer i leksikonet. Eksempelvis er frasen "President of the United States" en frase som forutsier andre fraser, slik som for eksempel "George Bush" og "Bill Clinton". Imidlertid er andre fraser ikke forutsigende, slik som "fell down the stairs" (falt ned trappene) eller "top of the morning" (morgenens høydepunkt), "out of the blue" (ut av intet), ettersom idiomer (talemåter) og kolokvismer (dagligtale) som disse har tendens til å fremtre med mange andre forskjellige og ikke-relaterte fraser. Således vil fraseiden-tifikasjonen fasebestemme hvilke fraser som er gode fraser og hvilke som er dårlige (det vil si mangler forutsigende effekt).
Idet der nå vises til figur 2 har fraseidentifikasjonsprosessen de følgende funksjonsmessige trinn: 200: samle mulige og gode fraser, sammen med frekvens og samopptredenstatistikker for frasene.
202: klassifisere mulige fraser til enten gode eller dårlige fraser basert på frekvenssta-tistikker.
204: Redusere god-fraseliste basert på et forutsigende tiltak utledet fra samopptredenstatistikker.
Hvert av disse trinnene vil nå bli beskrevet i nærmere detalj.
Det første trinnet 200 er en prosess ved hjelp av hvilken indekseringssystemet 110 krav-ler gjennom et sett av dokumenter i dokumentsamlingen, idet det foretas gjentatte parti sjoner av dokumentsamlingen over tid. En partisjon behandles per passering. Antallet av dokumenter som gjennomkravles per passering kan variere, og er fortrinnsvis ca. 1 mil-lion per partisjon. Det foretrekkes at kun tidligere ikke-gjennomkravlede dokumenter behandles i hver partisjon, inntil alle dokumenter er blitt behandlet, eller visse andre ter-mineringskriterier tilfredsstilles. I praksis fortsetter kravlingen kontinuerlig ettersom nye dokumenter vedvarende tilføyes dokumentsamlingen. De følgende trinn tas ved hjelp av indekseringssystemet 110 for hvert dokument som gjennomkravles.
Det forestilles å traversere ordene i dokumentet med en frasevindulengde like n, der n er en ønsket maksimal fraselengde. Lengden av vinduet vil typisk være minst 2 og fortrinnsvis4 eller 5 uttrykk (ord). Fortrinnsvis innbefatter fraser alle ord i frasevinduet, innbefattende hva som ellers ville være kjennetegnende som stoppord, slik som "a"
(en/ett), "the" (den/det) og så videre. Et frasevindu kan avsluttes med en linjeslutt, en avsnittgjenkomst, en markeringsmerkelapp, eller andre indikatorer med hensyn til en endring i innhold eller format.
Figur 3 viser en del av et dokument 300 under en traversering, idet der vises frasevinduet 302 med start på ordet "stock" og som strekker seg 5 ord mot høyre. Det første ordet i vinduet 302 er kandidatfrase i, og hver av sekvensene i+ 2, i+ 3, i+ 4 og i+ 5 er likeledes en kandidatfrase. Således er i dette eksempel kandidatfrasene: "stock", "stock dogs", "stock dogs for", "stock dogs for the", "stock dogs for the Basque" og "stock dogs for the Basque shepherds" (avlshunder for Basque-gjeterhunder).
I hvert fase vindu 302 blir hver kandidatfrase kontrollert i tur for å bestemme om den allerede er tilstede i god-fraselisten 208 eller den mulige fraselisten 206. Dersom kandidatfrasen ikke er tilstede i enten god-fraselisten 208 eller mulig-fraselisten 206, vil så kandidaten allerede er være bestemt til å være "dårlig" og hoppes over.
Dersom kandidatfrasen er i god-fraselisten 208, som innføring gj, vil så indeksens 150 innføring for frase gjbli oppdatert til å innbefatte dokumentet (for eksempel dets URL
eller annen dokumentidentifiserer), for å indikere at denne kandidatfrase gjfremkommer i det eksisterende dokument. En innføring i indeksen 150 for en frase gj(eller et uttrykk) refereres til som oppslagslisten for frasen gj. Oppslagslisten innbefatter en liste over dokumenter d (ved deres dokumentidentifiserere, for eksempel et dokumentnummer eller alternativt en URL) i hvilken frasen opptrer.
I tillegg blir samopptredenmatrisen 212 oppdatert, som ytterligere forklart nedenfor. I den aller første passering vil god- og dårliglistene være tomme, og således vil de fleste fraser ha tendens til å bli tilføyet mulig-fraselisten 206.
Dersom kandidatfrasen ikke er i god-fraselisten 208, blir den så tilføyet mulig-fraselisten 206, såfremt den ikke allerede er tilstede deri. Hver innføring p på mulig-fraselisten 206 har tre tilhørende tellinger: P(p): antall av dokumenter på hvilke den mulige frase fremkommer;
S(p): antall av alle tilfeller av den mulige frase; og
M(p): antallet av interessante tilfeller av den mulige frase. Et tilfelle av en mulig frase er "interessant" når den mulige frase er fremtredende i forhold til naboinn-hold i dokumentet ved grammatiske eller formatmarkører, eksempelvis ved å være i fet skrift, eller understreket, eller som ankertekst i en hyperlenke, eller i sitatmarkeringer. Disse (og andre) fremtredende forekomster er indikert ved hjelp av forskjellige HTML-markeringsspråkmerkelapper eller grammatikalske markører. Disse statistikker opprettholdes for en frase når den anbringes på god-fraselisten 208.
I tillegg til de forskjellige lister blir en samopptredenmatrise 212 (G) for de gode fraser opprettholdt. Matrisen G har en dimensjon mxm, der m er antallet av gode fraser. Hver innføring G ( J, k) i matrisen representerer et par av gode fraser (gj, gt). Samopptredenmatrisen 212 vil logisk (dog ikke nødvendigvis fysisk) opprettholde tre separate tellinger for hvert par (gj, gk) av gode fraser med hensyn til et sekundært vindu 304 som er sentrert på det eksisterende ord i, og strekker seg ± h ord. I én utførelsesform, slik som vist på figur 3, er det sekundære vinduet 304 30 ord. Samopptredenmatrisen 212 opprettholder således: R(j,k): Rå samopptredentelling. Antallet av ganger som frase gjfremkommer i et sekundært vindu 304 med frase gk;
D(j, k): Disjunktivt interessant telling. Antallet av ganger som enten frase gjeller gkfremkommer som fremtredende tekst i et sekundært vindu; og
C(j,k): Konjunktivt interessant telling: antallet av ganger som både gjog frase gkfremkommer som fremtredende tekst i et sekundært vindu. Bruken av den konjunktivt interessante telling er særlig gunstig for å unngå omstendigheten der en frase (for eksempel en copyrightanmerkning) fremkommer hyppig i bakgrunnsartikler (sidebars), fotnoter eller topptekster, og således ikke er akkurat forutsigende for annen tekst.
Idet der vises til eksempelet i figur 3, kan det antas at "stock dogs" er på god-fraselisten 208, samt frasen "Australian Shepherd" og "Australian Shepard Club of America". Begge av disse sistnevnte fraser fremkommer innenfor det sekundære vinduet 302 rundt den eksisterende frase "stock dogs". Imidlertid fremkommer frasen "Australian Shepherd Club of America" som ankerteksten for en hyperlenke (angitt ved understrek-ningen) til nettsted. Således blir den rå samopptredentelling for paret {"stock dogs", "Australian Shepherd"} inkrementert, og nevnte rå opptredentelling og den disjunktivt interessante telling for {"stock dogs, "Australian Shepherd Club of America"} blir begge inkrementert fordi den sistnevnte fremkommer som den fremtredende tekst.
Prosessen med å traverse hvert dokument med både sekvensvinduet 302 og det sekundære vinduet 304 gjentas for hvert dokument i delingen. Så snart dokumentene i delingen er blitt traversert, er det neste trinn i indekseringsoperasjonen å oppdatere 202 god-fraselisten 208 fra mulig-fraselisten 206. En mulig frase p på mulig-fraselisten 206 be-veges til god-fraselisten 208 dersom hyppigheten av forekomst av frasen og antallet av dokumenter som frasen forekommer i indikerer at den har tilstrekkelig bruk som en semantisk relevant frase.
I én utførelsesform testes dette som følger. En mulig frase p fjernes fra mulig-fraselisten 206 og plasseres i god-fraselisten 208 dersom: a) P(p) > 10 og S( p) > 20 (antallet av dokumenter som inneholder frase p er mer enn 10, og antallet av opptredener av frase p er mer enn 20); eller
b) M( p) > 5 (antallet av interessante tilfeller av frase p er mer enn 5.
Disse terskler skaleres med antallet av dokumenter i partisjonen. Dersom eksempelvis
2000000 dokumenter gjennomkravles i en partisjon, blir så tersklene omtrentlig doblet. Selvfølgelig vil de med fagkunnskap forstå at de spesifikke verdier for tersklene, eller logikken ved testing av disse, kan varieres etter ønske. Dersom en frase p ikke kvalifi-serer for god-fraselisten 208, blir den så kontrollert for kvalifisering til å være en dårlig frase. En frase p er en dårlig frase dersom:
a) antallet av dokumenter som inneholder frase P( p) < 2; og
b) antallet av interessante tilfeller av frase M( p) = 0.
Disse betingelser indikerer at frasene er både lite hyppige og anvendes ikke som indi-kerende for et signifikant innhold og igjen kan disse terskler skaleres per antall av dokumenter i partisjonen.
Det bør bemerkes at god-fraselisten 208 naturlig vil innbefatte individuelle ord som fraser, i tillegg til multi-ordfraser, slik som beskrevet ovenfor. Dette er fordi hvert første ord i frasevinduet 302 alltid er en kandidatfrase og de passende forekomsttellinger vil bli akkumulert. Således kan indekseringssystemet 110 automatisk indeksere både individuelle ord (dvs. fraser med et enkelt ord) og fraser med flere ord. God-fraselisten 208 vil også være betydelig kortere enn det teoretiske maksimum basert på alle mulige kom-binasjoner av m fraser. I en typisk utførelsesform vil god-fraselisten 208 innbefatte ca. 6,5x10<5>fraser. En liste over dårlige fraser er ikke nødvendig å lagre, idet systemet trenger kun å holde oversikt over mulige og gode fraser.
Ved den endelige passering gjennom dokumentsamlingen vil listen over mulige fraser være relativt kort, på grunn av den forventede fordeling av bruken av fraser i en stor masse. Således, dersom ved for eksempel den tiende passering (for eksempel 10000000 dokumenter) en frase fremkommer for aller første gang, er det usannsynlig at den er en god frase på gjeldende tidspunkt. Den kan være en ny frase som akkurat kommer i bruk, og således under påfølgende kravlinger blir i økende grad vanlig. I det tilfelle vil dens respektive tellinger øke og kan til sist tilfredsstille tersklene for å være en god frase.
Det tredje trinnet i indekseringsoperasjonen er å redusere/beskjære 204 god-fraselisten 208 ved å anvende et forutsigende tiltak utledet fra samopptredenmatrisen 212. Uten re-dusering eller beskjæring, vil god-fraselisten 208 sannsynlig innbefatte mange fraser som selv om de legitimt fremkommer i leksikonet, i seg selv ikke i tilstrekkelig grad forutsier nærværet av andre fraser eller selv er etterfølgere av lengre fraser. Fjerning av disse svake, gode fraser, resulterer i en meget robust sannsynlighet av gode fraser. For å identifisere gode fraser blir et forutsigende tiltak anvendt som uttrykker den økte sannsynlighet for at en frase fremkommer i et dokument gitt nærværet av en annen frase. Dette gjøres, i én utførelsesform som følger: Som bemerket ovenfor er samopptredenmatrisen 212 en m x w-matrise over lagring av data knyttet til de gode frasene. Hver rad j i matrisen representerer en god frase gjog hver kolonne k representerte en god fase gk. For hver god frase gjberegnes en forventet verdi E(gj). Den forventede verdi E er prosentandelen av dokumenter i samlingen som er forventet å inneholde gj. Dette beregnes eksempelvis som forholdet mellom antallet av dokumenter som inneholder gjog det totale antallet T av dokumenter i samlingen som er blitt gjennomkravlet: P(j)/T.
Som angitt ovenfor blir antallet av dokumenter som inneholder gjoppdatert hver gang gjfremkommer i et dokument. Verdien for E(gj) kan oppdateres hver gang tellingene for gjinkrementeres, eller under dette tredje trinn.
Dernest, for hver annen god frase gk(for eksempel kolonnene i matrisen), bestemmes det hvorvidt gjforutsier gk. Et forutsigende tiltak for gjbestemmes som følger: i) beregne forventet verdi E(gk). Den forventede samopptredentakt E(j,k) av gjog gk, dersom de var ikke-relaterte fraser er så E(gj)<*>E(gk);
ii) beregne den faktiske samopptredentakt A(j,k) av gjog gk. Dette er den rå samopptredentelling R(j,k) delt med T, det totale antallet av dokumenter;
iii) gjsies å forutsi gkder den faktiske samoptredenstak A(j,k) overskrider den forventede samopptredentakt E(j,k) med en terskelmengde.
I én utførelsesform er det forutsigbare omfang informasjons gevinst. Således vil en frase gjforutsi en annen frase gknår informasjonsgevinsten I av gki nærværet av gjoverskrider en terskel. I én utførelsesform beregnes dette som følger: og god frase gjforutsier god frase gkder:
I én utførelsesform er informasjonsgevinstterskelen 1,5, men den er fortrinnsvis mellom 1,1 og 1,7. Heving av terskelen over 1,0 tjener til å redusere muligheten for at to ellers ikke-relaterte fraser opptrer sammen mer enn tilfeldig forutsagt.
Som bemerket blir beregningen av informasjonsgevinsten gjentatt for hver kolonne k for matrisen G med hensyn til en gitt rad j. Så snart en rad er fullstendig, dersom innforma-sjonsgevinsten for ingen av de gode frasene gkoverskrider informasjonsgevinstterskelen, betyr dette så at frase gjikke forutsier noen annen god frase. I det tilfellet blir gjfjernet fra god-fraselisten 208, idet den hovedsakelig blir en dårlig frase. Det bør bemer kes at kolonne j for frasen gjikke fjernes, ettersom denne frase i seg selv kan forutsies av andre gode fraser.
Dette trinn avsluttes når samtlige rader i samopptredenmatrisen 212 er blitt evaluert.
Det siste trinn i dette stadium er å redusere eller beskjære god-fraselisten 208 for å fjerne ufullstendige fraser. En ufullstendig frase er en frase som kun forutsier sine fraseforlengelser, og som starter ved den lengst til venstre side av frasen (det vil si ved be-gynnelsen av frasen). "Fraseforlengelsen" av frase p er en supersekvens som begynner med frase p. Eksempelvis forutsier frasen "President of "President of the United States", "President of Mexico", "President of AT&T", etc. Samtlige av disse sistnevnte fraser er fraseutvidelser av frasen "President of ettersom de begynner med "President of og er supersekvenser derav.
Følgelig vil hver frase gjsom er gjenværende på god-fraselisten 208 forutsi et visst antall av andre fraser, basert på informasjonsgevinstterskelen som tidligere er blitt omtalt. For hver frase gjutfører indekseringssystemet 110 nå en strengtilpasning med hver av frasene gksom det forutsier. Strengtilpasningen tester hvorvidt hver forutsagte frase gker en fraseforlengelse av frasen gj. Dersom samtlige av de forutsagte fraser gker fraseforlengelser av frase gj, er så frase gjufullstendig, og fjernes fra god-fraselisten 208, og tilføyes en ufullstendig fraseliste 216. Dersom der således er minst én frase gksom ikke er en forlengelse av gj, er så gjfullstendig, og opprettholdes i god-fraselisten 208. Eksempelvis er da "President of the United" en ufullstendig frase fordi den eneste andre frase som den forutsier er "President of the United States" som er en forlengelse av frasen.
Ufullstendig-fraselisten 216 er i seg selv meget nyttig under faktisk søking. Når et søke-spørsmål mottas kan det sammenlignes mot ufullstendig-fraselisten 216. Dersom spørs-målet (eller en del derav) passer til en innføring i listen, kan søkesystemet 120 så se etter de mest sannsynlige fraseforlengelser av den ufullstendige frasen (fraseforlengelsen som har den høyeste informasjonsgevinst gitt den ufullstendige frasen), og foreslår denne fraseforlengelse til brukeren, eller automatisk søke på fraseforlengelsen. Dersom eksempelvis søkespørsmålet er "President of the United", kan søkesystemet 120 automatisk foreslå for brukeren "President of the United States" som søkespørsmålet.
Etter at det siste trinnet i indekseringsprosessen er fullført, vil god-fraselisten 208 inneholde et stort antall av gode fraser som er blitt oppdaget i mengden. Hver av disse gode fraser ville forutsi minst én annen frase som ikke er en fraseforlengelse av den. Dette betyr at hver god frase anvendes med tilstrekkelig hyppighet og uavhengighet til å representere relevante konsepter eller ideer uttrykt i mengden. I motsetning til eksisterende systemer som anvender forutbestemte eller håndvalgte fraser, vil god-fraselisten reflektere fraser som faktisk anvendes i mengden. Ettersom den ovenstående prosess med gjennomkravling og indeksering gjentas periodisk ettersom nye dokumenter til-føyes dokumentsamlingen, vil indekseringssystemet 110 dessuten automatisk detektere nye fraser når de går inn i leksikonet.
2. Identifisering av relaterte fraser og grupperinger eller ansamlinger av relaterte fraser
Idet der vises til figur 4 innbefatter den relaterte fraseidentifikasjonsprosess de følgende funksjonsmessige operasjoner.
400: identifisere relaterte fraser som har en høy informasjons gevinstverdi 402: identifiser grupperinger eller ansamlinger av relaterte fraser 404: lagre grupperings/ansamlingsbitvektor og grupperings/ansamlingsantall Hver av disse operasjoner beskrives i nærmere detalj.
For det første bør man minnes om at samopptredenmatrisen 212 inneholder gode fraser gj, der hver av disse forutsier minst én annen god frase gkmed en informasjonsgevinst større enn informasjonsgevinstterskelen. For å identifisere 400 relaterte fraser da, blir for hvert par av gode fraser (gj, gk) informasjonsgevinsten sammenlignet med en relatert fraseterskel, for eksempel 100. Det betyr at gjog gker relaterte fraser, der:
Denne høye terskel anvendes til å identifisere samopptredener av gode fraser som er
godt forbi de statistisk forventede hyppigheter. Statistisk betyr det at frase gjog gksam-opptrer 100 ganger mer enn den forventede samopptredenhyppighet. For eksempel, gitt frasen "Monica Lewinsky" i et dokument, så er det 100 ganger mer sannsynlig at frasen "Bill Clinton" opptrer i det samme dokumentet, enn at "Bill Clinton" sannsynlig vil opptre skal opptre i et tilfeldig valgt dokument. En annen måte å si dette på er at forutsi-gelsesnøyaktigheten er 99,999% fordi opptredenshyppigheten er 100:1.
Følgelig blir enhver innføring (gj, gk) som er mindre enn den relaterte fraseterskel nullet ut, hvilket indikerer at frasene gj, gkikke er relaterte. Eventuelle gjenværende innførin-ger i samopptredenmatrisen 212 indikerer nå alle de relaterte fraser.
Kolonnene gki hver rad gji samopptredenmatrisen 212 blir så sortert ifølge innforma-sjonsgevinstverdiene I(gj,gk), slik at den relaterte frase gkmed den høyeste informasjonsgevinst listes opp først. Denne sortering identifiserer således for en gitt frase gj,
hvilke andre fraser som er mest sannsynlig relaterte med hensyn til informasjons gevinst.
Det neste trinnet er å bestemme 402 hvilke relaterte fraser som sammen danner en gruppering eller ansamling av relaterte fraser. En gruppering er et sett av relaterte fraser der hver frase har en høy informasjonsgevinst med hensyn til minst én annen frase. I én ut-førelsesform blir grupperingene identifisert som følger.
I hver rad gjav matrisen vil det være én eller flere andre fraser som er relatert til frase gj. Dette sett er relatert frasesett Rj, der R = {gk, gi, ....gm)-
For hver relatert frase m i Rj bestemmer indekseringssystemet 110 om hver av de andre relaterte fraser i R også er relatert til gj. Dersom således I(gk, gi) også er ikke-null, er da gj, gkog gi del av en gruppering. Denne grupperingstest gjentas for hvert par (gi, gm) i R.
Eksempelvis kan det antas at den gode frase "Bill Clinton" er relatert til frasene "President", "Monica Lewinsky", fordi informasjonsgevinsten i hver av disse fraser med hensyn til "Bill Clinton" overskrider den relaterte fraseterskel. Dessuten kan det antas at frasen "Monica Lewinsky" er relatert til frasen "purse designer". Disse fraser danner så settet R. For å bestemme grupperingene evaluerer indekseringssystemet 110 informasjonsgevinsten hos hver av disse fraser med de andre ved bestemmelse av deres tilsvarende informasjonsgevinster. Således bestemmer indekseringssystemet 110 infor-masjonsforsterkningen I("President", "Monica Lewinsky"), I("President", "purse designer"), og så videre, for samtlige par i R. I dette eksempel danner "Bill Clinton", "President" og "Monica Lewinsky" en gruppering, "Bill Clinton" og "President" danner en andre gruppering, og "Monica Lewinsky" og "purse designer" danner en tredje gruppering, og "Monica Lewinsky", "Bill Clinton" og "purse designer" danner en fjerde gruppering. Dette er slik fordi mens "Bill Clinton" ikke forutsier "purse designer" med tilstrekkelig informasjonsgevinst, vil "Monica Lewinsky" forutsi begge av disse fraser. For å registrere 404 grupperingsinformasjonen, blir hver gruppering tildelt et unikt grupperingsnurnmer (grupperings-ID). Denne informasjon blir så registrert i forbindelse med hver god frase gj.
I én utførelsesform bestemmes grupperingsnummeret ved hjelp av en grupperingsbitvektor som også indikerer ortogonalitetsforholdene mellom frasene. Grupperingsbitvektoren er en sekvens av bits med lengde n, antallet av gode fraser i god-fraselisten 208. For en gitt god frase gj, svarer bitposisjonene til de sorterte, relaterte fraser R av gj. En bit settes dersom den relaterte frase gki R er i den samme gruppering som frase gj. Nærmere bestemt betyr dette at den tilsvarende bit i grupperingsbitvektoren settes dersom der er informasjonsgevinst i den ene eller andre retning mellom gjog gk.
Grupperingsnummeret blir så verdien av bitstrengen som oppstår. Denne implementering har den egenskap at relaterte fraser som har multippel eller énveisinformasjonsge-vinst fremkommer i den samme gruppering.
Et eksempel på grupperingsbitvektor er som følger, idet der anvendes de ovenstående fraser:
For så å oppsummere vil der etter denne prosess bli identifisert for hver god frase gjet sett av relaterte fraser R, hvilke sorteres i rekkefølge av informasjonsgevinst I(gj, gk) fra høyest til laveste. I tillegg vil der, for hver god frase gjvære en grupperingsbitvektor, hvis verdi er et grupperingsnurnmer som identifiserer den primære gruppering der frasen gjer et element, og ortogonalitetsverdien (1 eller 0 for hver bitposisj on) indikerer hvilke av de relaterte fraser i R som er i felles grupperinger med gj. Således er i det ovenstående eksempel "Bill Clinton", "President" og "Monica Lewinsky" i gruppering 14 basert på verdiene av nevnte bits i raden for frase "Bill Clinton".
For å lagre denne informasjon er to grunnleggende fremstillinger tilgjengelige. For det første, som angitt ovenfor, kan informasjonen lagres i samopptredenmatrisen 212, der:
Alternativt kan matrisefremstillingen unngås, og hele informasjonen lagres i god-fraselisten 208, der hver rad deri representerer en god frase gj:
Denne løsning tilveiebringer en nyttig organisering for grupperinger. For det første, i stedet for et strengt - og ofte vilkårlig - definert hierarki av emner og konsepter, aner-kjenner denne løsning at emner, som indikert ved relaterte fraser, danner en komplisert grafisk oppstilling av forhold, der noen fraser er relatert til mange andre fraser, og visse fraser har et mer begrenset omfang, og der forholdene kan være innbyrdes (hver frase forutsier den andre frasen) eller en énveis (én frase forutsier den andre, men ikke om-vendt). Resultatet er at grupperinger kan kjennetegnes som "lokale" til hver god frase, og visse grupperinger vil så overlappe ved å ha én eller flere felles relaterte fraser.
For en gitt god frase gj, vil så bestillingen av de relaterte fraser ved informasjonsgevinst gi en taksonomi for benevnelse av grupperingene av frasen: grupperingens navn er nav-net på den relaterte frase i grupperingen som har den høyeste informasjonsgevinst.
Den ovennevnte prosess tilveiebringer en meget robust måte å identifisere signifikante fraser som fremkommer i dokumentsamlingen, og gunstig måten disse relaterte fraser anvendes sammen i naturlige "grupperinger" i virkeligheten. Som et resultat unngår denne datadrevne gruppering av relaterte fraser skjevheter som er naturlige i hvilke som helst manuelt dirigerte "redaksjonsmessige" valg av relaterte uttrykk og begrep, slik det er vanlig i mange systemer.
3. Indeksering av dokumenter med fraser og relaterte fraser
Gitt den gode fraselisten 208, innbefattende informasjonen som vedrører relaterte fraser og grupperinger, er den neste funksjonelle operasjon for indekseringssystemet 110 å indeksere dokumenter i dokumentsamlingen med hensyn til de gode frasene og grupperin ger, og å lagre den oppdaterte informasjonen i indeksen 150. Figur 5 viser denne prosess, i hvilken der er de følgende funksjonsmessige trinn for indeksering av et dokument: 500: send dokument til oppslagslistene over gode fraser funnet i dokumentet.
502: oppdater tilfelletellinger og relatert frasebitvektor for relaterte fraser og sekundære relaterte fraser.
504: kommenter dokumenter med relatert fraseinformasjon 506: bestill på ny indeksinnføringer i henhold til forsendelseslistetørrelse.
Disse trinn skal nå beskrives i nærmere detalj.
Et sett av dokumenter traverseres eller gjennomkravles, som tidligere. Dette kan være det samme eller et forskjellig sett av dokumenter. For et gitt dokument d, traverser 500 dokumentet ord for ord med et sekvensvindu 302 som har lengde «, fra posisjon i, på den måte som er beskrevet ovenfor.
I et gitt frasevindu 302, identifiser alle gode fraser i vinduet, med start ved posisjon i. Hver god frase betegnes som gj. Således er gl den første gode frase, g2 vil være den andre gode frase, osv.
For hver gode frase gi (eksempel gl "President" og g4 "President of ATT") send doku-mentidentifisereren (for eksempel nevnte URL) til oppslagslisten for den gode frase gi i indeksen 150. Denne oppdatering identifiserer at den gode frasen gi fremkommer i dette bestemte dokumentet.
I én utførelsesform har oppslagslisten for en frase gjden følgende logiske form:
Frase gj: liste: (dokument d, [liste: relaterte fasetellinger] [relatert fraseinformasjon])
For hver frase gjer der en liste over dokumenter d på hvilken frasen fremkommer. For hvert dokument er der en liste over tellinger av antallet av opptredener av de relaterte fraser R for frase gjsom også fremkommer i dokument d.
I én utførelsesform er den relaterte fraseinformasjonen en relatert frasebitvektor. Denne bitvektor kan kjennetegnes som en "bi-bit"-vektor, ved at for hver relaterte frase gkfin nes der to bitposisj oner, gk-1, gk-2. Den første bitposisjonen lagrer et flagg som indikerer hvorvidt den relaterte frase gker tilstede i dokument d (det vil si tellingen for gki dokument d er større enn 0). Den andre bitposisjonen lagrer et flagg som indikerer hvorvidt en relatert frase gi av gkogså er tilstede i dokument d. De relaterte fraser gi av en relatert frase gkav en frase gjer her benevnt de "sekundært relaterte fraser av gj". Tellingene og bitposisj onene svarer til den kanoniske rekkefølge av frasene i R (sortert i rek-kefølge av avtagende informasjonsgevinst). Denne sorteringsrekkefølge har den virk-ning av å gjøre den relaterte frase gksom er i høyeste grad forutsagt av gjtilhørende den mest signifikante bit av den relaterte frasebitvektor, og den relaterte frase gi som er minst forutsagt av gjtilhørende den minst signifikante bit.
Det er nyttig å bemerke at for en gitt frase g, lengden av den relaterte frasebitvektor og tilhørigheten av de relaterte fraser til de individuelle bits i vektoren, vil være de samme med hensyn til alle dokumenter som inneholder g. Denne implementering har den egenskap å tillate systemet lett å sammenligne de relaterte frasebitvektorer for hvilke som helst (eller alle) dokumenter som inneholder g, for å se hvilke dokumenter som har en gitt, relatert frase. Dette er gunstig for å lette søkeprosessen for å identifisere dokumenter som reaksjon på et søkespørsmål. Følgelig vil et gitt dokument fremkomme i oppslagslistene over mange forskjellige fraser, og i hver slik oppslagsliste, og den relaterte frasevektor for vedkommende dokument vil være spesifikt for den frasen som eier oppslagslisten. Dette aspekt bevarer lokaliteten av de relaterte frasebitvektorer med hensyn til individuelle fraser og dokumenter.
Følgelig innbefatter det neste trinnet 502 traversering av det andre vinduet 304 for den eksisterende indeksposisjon i dokumentet (som tidligere et sekundært vindu av ± K uttrykk, for eksempel 30 uttrykk), eksempelvis fra i-K til i+K. For hver relatert frase gkav gi som fremkommer i det sekundære vindu 304, vil indekseringssystemet 310 inkremen-tere tellingen av gkmed hensyn til dokument d i den relaterte frasetelling. Hvis gi fremkommer senere i dokumentet, og den relaterte frase finnes på ny innenfor det senere se-kundærvinduet, blir igjen tellingen inkrementert.
Som bemerket blir den korresponderende, første bit gk-1 i det relaterte frasebitkartet satt basert på tellingen, med biten satt til 1 dersom tellingen for gker større enn 0, eller satt til 0 dersom tellingen er lik 0.
Dernest blir den andre biten, gk-2 satt ved å slå opp relatert frase gki indeksen 150, identifisere i gk's oppslagsliste innføringen for dokumentet d, og så kontrollere de se kundært relaterte frasetellinger (eller bits) for gkfor eventuelle av dens relaterte fraser. Dersom noen av disse sekundært relaterte frasers telling/bits er satt, indikerer dette så at de sekundært relaterte fraser av gjogså er tilstede i dokumentet d.
Når dokument d er blitt fullstendig behandlet på denne måte, vil indekseringssystemet 110 ha identifisert følgende: i) hver god frase gji dokument d;
ii) for hver god frase gjhvilke av dens relaterte fraser gker tilstede i dokument d\
iii) for hver relatert frase gktilstede i dokument d, hvilke av dens relaterte
frase gi (de sekundært relaterte fraser av gj) er også tilstede i dokument d.
a) Bestemmelse av emner for et dokument
Indekseringen av dokumentene ved hjelp av fraser og bruk av grupperingsinformasjonen tilveiebringer nok en ytterligere fordel ved indekseringssystemet 110, hvilket er evnen til å bestemme emnene som et dokument dreier seg om, basert på den relaterte fraseinformasjon.
Anta for en gitt god frase gjog et gitt dokument d at oppføringslisteinnføringen er som følger:
der den relaterte frasebitvektoren er vist i bi-bitparene.
Fra den relaterte frasebitvektor kan vi bestemme primære og sekundære emner for dokumentet d. Et primært emne er indikert med et bitpar (1,1) og et sekundært emne er indikert med et bitpar (1,0). Et relatert frasebitpar (1,1,) indikerer at både den relaterte frase gkfor bitparet er tilstede i dokument d, sammen med de sekundært relaterte fraser gi også. Dette kan fortolkes til å bety at forfatteren av dokument d anvendte flere relaterte fraser gj, gkog gi sammen ved oppsetting av dokumentet. Et bitpar lik (1,0) indikerer at både gjog gker tilstede, men ingen ytterligere sekundært relaterte fraser fra gker tilstede, og således er dette et mindre signifikant emne.
b) Dokumentkommentering for forbedret rangering
Et ytterligere aspekt ved indekseringssystemet 110 er evnen til å kommentere 504 hvert
dokument d under indekseringsprosessen med informasjon som muliggjør forbedret rangering under påfølgende søk. Kommenteringsprosessen 506 er som følger.
Et gitt dokument d i dokumentsamlingen kan ha et visst antall av utlenker til andre dokumenter. Hver utlenke (en hyperlenke) innbefatter ankertekst og dokumentidentifiserer for måldokumentet. For forklaringens formål vil et eksisterende dokument som behandles bli referert til som URLO, og måldokumentet for en utlenke på dokument d vil bli referert til som URL1. For senere bruk ved rangering av dokumenter i søkeresultater, vil for hver lenke i URLO, som peker til en viss annen URL/, indekseringssystemet 110 skape et utlenketreff for ankerfrasen for vedkommende lenke med hensyn til URLO, og et innlenketreff for vedkommende ankerfrase med hensyn til URL/. Dette betyr at hver lenke i dokumentsamlingen har et par trekk, et utlenketreff og et innlenketreff. Disse treff beregnes som følger.
På et gitt dokument URLO identifiserer identifiseringssystemet 110 hver utlenke til et annet dokument URL1, i hvilket ankerteksten A er en frase i god-fraselisten 208. Figur 8a viser skjematisk dette forhold, der ankertekst "A" i dokument URLO anvendes i en hyperlenke 800.
I oppslagslisten for frase A er URLO satt opp som en utlenke for frase A, og URL1 er satt opp som en innlenke for frase A. For URLO blir den relaterte frasebitvektor fullført som beskrevet ovenfor, for å identifisere de relaterte fraser og sekundært relaterte fraser av A tilstede i URLO. Denne relaterte frasebitvektor anvendes som utlenketreff for lenken fra URLO til URL1 som inneholder ankerfrase A.
Dernest blir innlenketreffet bestemt som følger. For hver innlenke til URL1 som inneholder ankerfrase A avsøker indekseringssystemet 110 URL1, og bestemmer hvorvidt frase A fremkommer i stammen av URL1. Dersom frase A ikke bare peker til URL1 (med en utlenke på URLO), men også fremkommer i innholdet av selve URL1, antyder dette at URL1 kan sies å være tilsiktet relatert til konseptet som representeres av frase A. Figur 8b illustrerer dette tilfellet, der frase A fremkommer både i URLO (som ankertekst) og i stammen av URL1.1 dette tilfellet blir den relaterte frasebitvektor for frase A for URL1 anvendt som innlenketreffet for lenken fra URLO til URL1 som inneholder frase A.
Dersom ankerfrasen A ikke fremkommer i stammen av URL1 (som i figur 8a), vil så et forskjellig skritt bli tatt for å bestemme innlenketreffet. I dette tilfellet skaper indekseringssystemet 110 en relatert frasebitvektor for URL1 for frase A (som om frase A var tilstede i URL1) og med indikering av hvilken av de relaterte fraser av frase A som fremkommer i URL1. Denne relaterte frasebitvektor anvendes som innlenketreffet for lenken fra URLO til URL1.
Anta eksempelvis de følgende fraser som initielt tilstede i URLO og URL1:
(I den ovenstående og i de etterfølgende tabeller er de sekundære relaterte frasebits ikke vist.) URLO-raden er utlenketreffet for lenken fra ankertekst A og URL 1-raden er innlenketreffet i lenken. Her inneholder URLO ankerfrasen "Australian Shepherd" som ut-peker URL1. Av fem relaterte fraser av "Australian Shepherd", fremkommer én "Aussie" i URLO. Intuitivt vil da URLO kun svakt dreie seg om Australian Shepherds. Til sammenligning har URL1 ikke bare frasen "Australian Shepherd" tilstede i stammen av dokumentet, men har også mange av de relaterte fraser, dvs. "blue merle", "red merle" og "tricolor". Følgelig, fordi ankerfrasen "Australian Shepherd" fremkommer både i URLO og URL1, er utlenketreffet for URLO, og innlenketreffet for URL1 de respektive rader vist ovenfor.
Det andre tilfellet som er beskrevet ovenfor er der ankerfrasen A ikke fremkommer i URL1.1 det vil indekseringssystemet 110 avsøke URL1 og bestemme hvilke av de relaterte fraser "Aussie", "blue merle", "red merle", "tricolor" og "agility training" som er tilstede i URL1 og skaper en relatert frasebitvektor som følge derav, eksempelvis:
Her viser dette at URL1 ikke inneholder ankerfrasen "Australian Shepherd", men inneholder de relaterte fraser "blue merle", "red merle" og "tricolor".
Denne løsning har den fordel at det fullstendig hindres visse typer av manipuleringer av nettsider (en klasse av dokumenter) for å skjevsette resultatene i et søk. Søkemotorer som anvender en rangeringsalgoritme som baserer seg på antallet av lenker som peker til et gitt dokument for å rangere det dokumentet, kan bli "bombet" ved kunstig å skape et stort antall av sider med en gitt ankertekst som så peker til en ønsket side. Som et resultat, når et søkespørsmål som anvender ankerteksten innføres, blir den ønskede side typisk returnert, endog om denne siden i realiteten har lite eller intet å gjøre med ankerteksten. Importering av denne relaterte bitvektor fra et måldokument URL1 inn i den frase A-relaterte bitvektor for dokument URLO eliminerer tilliten til søkesystemet på nettop forholdet mellom frase A i URLO som peker til URL1 som en indikator av betydning eller URL1 til ankertekstfrasen.
Hver frase i indeksen 150 er også gitt et frasenummer, basert på dens opptredenhyppig-het i mengden. Desto mer vanlig frasen er, desto lavere frasenummer mottar den hva angår rekkefølge i indeksen. Indekseringssystemet 110 vil så sortere 506 alle av oppslagslistene i teksten 150 i en nedstigende rekkefølge i henhold til antallet av dokumenter av listet frasenummer i hver oppslagsliste, slik at de mest hyppig opptredende fraser listes først. Frasenummeret kan så anvendes til å slå opp på en bestemt frase.
III. Søkes<y>stem
Søkesystemet 120 opererer for å motta et spørsmål og søk for dokumenter som er relevante for spørsmålet, og tilveiebringe en liste over disse dokumenter (med lenker til dokumentene) i et sett av søkeresultater. Figur 6 viser hovedfunksjonsmessige operasjoner i søkesystemet 120:
600: identifiser fraser i spørsmålet
602: hente dokumenter som er relevante for spørsmålsfraser 604: rangere dokumenter i søkeresultater i henhold til fraser
Detaljene i hvert av disse trinn er som følger.
1. Identifikasjon av fraser i spørsmålet og spørsmålsutvidelse
Første trinn 600 i søkesystem 120 er å identifisere eventuelle fraser som er tilstede i spørsmålet for effektivt å søke indeksen. Den følgende terminologi anvendes i denne seksjon:
q: et spørsmål som innmatet og mottatt av søkesystemet 120
Qp: fraser tilstede i spørsmålet
Qr: relaterte fraser i Qp
Qe: fraseutvidelser av Qp
Q: unionen av Qp og Qr
Et spørsmål Q mottas fra en klient 190, som har inntil et visst maksimum av antall av tegn eller ord.
Et frasevindu av størrelse N (for eksempel 5) anvendes av søkesystemet 120 for å traversere uttrykkene i spørsmål q. Frasevinduet starter med det første uttrykket i spørsmå-let, og utvider N uttrykk mot høyre. Dette vindu blir så forskjøvet mot høyre M-N ganger, der M er antallet av uttrykk i spørsmålet.
Ved hver vindusposisjon vil der være N uttrykk (eller færre) uttrykk i vinduet. Disse uttrykk danner en mulig spørsmålsfrase. Den mulige frase oppslås i god-fraselisten 208 for å bestemme om den er en god frase eller ikke. Dersom den mulige frase er tilstede i god-fraselisten 208, blir et frasenummer så returnert for frasen, og den mulige frasen er nå en kandidatfrase.
Etter at alle mulige fraser i hvert vindu er blitt testet for å bestemme om de er gode kandidatfraser, vil søkesystemet 120 ha et sett av frasenumre for de korresponderende fraser i spørsmålet. Disse frasenumre blir så sortert (i nedstigende rekkefølge eller orden).
Idet det startes med det høyeste frasenummeret som den første kandidatfrasen, bestemmer søkesystemet 120 om der er en annen kandidatfrase innenfor en fast, numerisk dis- tanse innenfor den sorterte listen, dvs. Forskjellen mellom frasenumrene er innenfor en terskelmengde, for eksempel 20000. Dersom så er tilfellet, blir så frasen som er lengst til venstre i spørsmålet valgt som en gyldig spørsmålsfrase Qp. Denne spørsmålsfrase og alle av dens underfraser fjernes fra listen over kandidater, og listen blir omsortert og prosessen gjentas. Resultatet av denne prosessen er et sett av gyldige spørsmålsfraser Q<p.>
Anta eksempelvis at søkefrasen er "Hillary Rodham Clinton Bill on the Senate Floor". Søkesystemet 120 vil identifisere de følgende kandidatfraser, "Hillary Rodham Clinton Bill on", "Hillary Rodham Clinton Bill" og "Hillary Rodham Clinton". De to første av disse forkastes, og den holdes som en gyldig spørsmålsfrase. Dernest ville søkesystemet 120 identifisere "Bill on the Senate Floor", og underfrasene "Bill on the Senate", "Bill on the", "Bill" og ville velge "Bill" som en gyldig spørsmålsfrase Qp. Til sist ville søke-systemet 120 analysere "on the senate floor" og identifisere "Senate Floor" som en gyldig spørsmålsfrase.
Dernest justerer sykesystemet 120 de gyldige fraser Qp med hensyn til bruk av store bokstaver (kapitalisering). Når spørsmålet analyseres, identifiserer søkesystemet 120
potensielle anvendelser av store bokstaver i hver gyldig frase. Dette kan gjøres ved å anvende en tabell over kjente anvendelser av store bokstaver, slik som "united states" som med store bokstaver skrives som "United States", eller ved å anvende en grammatikkba-sert algoritme med hensyn til bruk av store bokstaver. Dette frembringer et sett av riktig storbokstavbrukte spørsmålsfraser.
Søkesystemet 110 foretar så en andre passering gjennom de kapitaliserte fraser, og velger kun de fraser som er lengst til venstre og kapitalisert, der både frase og dens under-frase er tilstede i settet. Eksempelvis vil et søk på "president of the united states" bli med store bokstaver som "President of the United States".
I det neste trinn vil søkesystemet 120 identifisere 602 dokumentene som er relevante for spørsmålsfrasene Q. Søkesystemet 120 henter så oppslagslisten over spørsmålsfrasen Q, og skjærer disse lister for å bestemme hvilke dokumenter som fremkommer på samtlige (eller et visst antall) av oppslagslistene for spørsmålsfrasene. Dersom en frase Q i spørs-målet har et sett av fraseforlengelser Qe (som ytterligere forklart nedenfor), vil søkesy-stemet 120 først danne unionen av oppslagslistene for fraseforlengelsene, forut for å foreta skjæringen med oppslagslistene. Søkesystemet 120 identifiserer fraseforlengelsene ved å foreta oppslag for hver spørsmålsfrase Q i ufullstendig-fraselisten 216, slik som beskrevet ovenfor.
Resultatet av skjæringen er et sett av dokumenter som er relevante for spørsmålet. Indeksering av dokumenter ved hjelp av fraser og relaterte fraser, identifisering av frase Q i spørsmålet, og så utvidelse av spørsmålet til å innbefatte fraseforlengelser, resulterer i valget i et sett av dokumenter som er mer relevante for spørsmålet enn hva som ville bli resultatet i et konvensjonelt Boolskbasert søkesystem, der kun dokumenter som inneholder spørsmålsuttrykkene velges.
I én utførelsesform kan søkesystemet 120 anvende en optimalisert mekanisme for å identifisere dokumenter som er reagerende på spørsmålet uten å måtte skjære samtlige av oppslagslistene for spørsmålsfrasene Q. Som et resultat av strukturen i indeksen 150, for hver frase gj, er de relaterte fraser gk kjente og identifiserte i den relaterte frasebitvektor for gk. Følgelig kan denne informasjon anvendes til å forenkle skjæringsproses-sen der to eller flere spørsmålsfraser er relaterte fraser til hverandre, eller har felles relaterte fraser. I de tilfellene kan de relaterte frasebitvektorer direkte aksesseres, og så anvendes dernest til å hente korresponderende dokumenter. Denne prosess er mer fullstendig beskrevet som følger.
Gitt hvilke som helst to spørsmålsfraser Ql og Q2, finnes der tre mulige tilfeller av rela-sjoner:
1) Q2 er en relatert frase av Q1,
2) Q2 er ikke en relatert frase av Ql, og deres respektive relaterte frase Qrl og Qr2 skjærer ikke hverandre (dvs. ingen felles relaterte fraser);
og
3) Q2 er ikke en relatert frase av Ql, men deres respektive relaterte frase Qrl og Qr2 skjærer hverandre.
For hvert par av spørsmålsfraser bestemmer søkesystemet 120 det passende tilfellet ved å slå opp på den relaterte frasebitvektor for spørsmålsfrasene Qp.
Søkesystemet 120 fortsetter ved å hente oppslagslistene for spørsmålsfrase Ql, hvilken inneholder dokumentene som inneholder Ql, og for hver av disse dokumenter, en relatert frasebitvektor. Den relaterte frasebitvektoren for Ql vil indikere hvorvidt frase Q2
(og hver av de resterende spørsmålsfraser, om noen) er en relatert frase av Ql og er tilstede i dokumentet.
Hvis det første tilfellet gjelder Q2, avsøker søkesystemet 120 den relaterte frasebitvektoren for hvert dokument d i Ql 's oppslagsliste for å bestemme om den har en bit satt for Q2. Hvis denne bit ikke er satt inn for dokumentet d i Ql 's oppslagsliste, betyr dette at Q2 ikke fremkommer i det dokumentet. Som et resultat kan dette dokument umiddel-bart elimineres fra ytterligere betraktning. De resterende dokumenter kan så anses som truffet. Dette betyr ytterligere at det er unødvendig for søkesystemet 120 å behandle oppslagslistene for Q2 for å se hvilke dokumenter den er tilstede i også, hvorvidt spares beregningstid.
Dersom det andre tilfellet gjelder Q2, vil så de to frasene være urelaterte til hverandre. Eksempelvis har spørsmålet "cheap bolt action rifle" to fraser "cheap" og "bolt action rifle". Ingen av disse er relatert til hverandre, og dessuten vil de relaterte fraser i hver av disse ikke overlappe, dvs. "cheap" har relaterte fraser "low cost", "inexpensive", "discount", "bargain basement" og "lousy", mens "bolt action rifle" har relaterte fraser "gun", "22 caliber", "magazine fed" og "Armalite AR-30M", hvilke lister således ikke skjærer hverandre. I dette tilfellet foretar søkesystemet 120 den regulære skjæring av oppslagslistene Ql og Q2 for å oppnå dokumentene med hensyn til treff.
Dersom det tredje tilfellet gjelder, vil man så her ha de to frasene ikke relaterte, men at de har minst én relatert frase felles. Eksempelvis ville frasene "bolt action rifle" og "22" begge ha "gun" som en relatert frase. I dette tilfellet henter søkesystemet 120 oppslagslistene for begge fraser Ql og Q2 og skjærer listene for å frembringe en liste over dokumenter som inneholder begge fraser.
Søkesystemet 120 kan så hurtig bevirke treff av hvert av de resulterende dokumenter. Først bestemmer søkesystemet 120 en treffjusteringsverdi for hvert dokument. Treffjusteringsverdien er en maske dannet av nevnte bits i posisjonen som svarer til spørsmåls-frasene Ql og Q2 i den relaterte frasebitvektor for et dokument. Eksempelvis kan det antas at Ql og Q2 svarer til nevnte tredje og sjette bi-bitposisjoner i den relaterte frasebitvektoren for dokument d, og bitverdiene i tredje posisjon er (1,1), og bitverdien i det sjette par er (1,0) hvorved treffjusteringsverdien er bitmasken "00 0011 00 00 10". Treffjusteringsverdien anvendes så til å maskere den relaterte frasebitvektor for dokumentene, og modifiserte frasebitvektorer føres så inn i rangeringsfunksjonen (det neste som skal beskrives) for å anvendes i beregning av et stammetreff for dokumentene.
2. Rangering
a) Rangering av dokumenter basert på inneholdende fraser
Søkesystemet 120 tilveiebringer et rangeringsstadium 604, i hvilket dokumentene i sø-keresultatene rangeres, idet der anvendes fraseinformasjon i hvert dokuments relaterte frasebitvektor, og grupperingsbitvektoren for spørsmålsfrasene. Denne løsning rangerer dokumentene i henhold til frasene som befinner seg i dokumentet, eller uformelt "body hits" (stammetreff).
Som beskrevet ovenfor, for en hvilken som helst gitt frase gj, har hvert dokument d i gj's oppslagsliste en tilhørende relatert frasebitvektor som identifiserer hvilke relaterte fraser gkog hvilke sekundært relaterte fraser gi som er tilstede i dokument d. Desto mer relatert fraser og sekundært relaterte fraser som er tilstede i et gitt dokument, desto flere bits som vil være tilstede i dokumentets relaterte frasebitvektor for en gitt frase. Desto flere bits som er satt, desto større den numeriske verdi av den relaterte frasebitvektor. Følge-lig, i én utførelsesform sorterer søkesystemet 120 dokumentene i søkeresultatene i henhold til verdien av deres relaterte frasebitvektorer. Dokumentene som inneholder de mest relaterte fraser til spørsmålsfrasene Q ville ha de relaterte frasebitvektorer som har høyeste verdi, og disse dokumenter vil være de høyest rangerende dokumenter i søkere-sultatene.
Denne løsning er ønskelig fordi semantisk er disse dokumenter de mest emnemessig eller aktuelt relevante til spørsmålsfrasene. Det bør bemerkes at denne løsning gir meget relevante dokumenter, selv om dokumentene ikke inneholder en høy hyppighet av de innmatede spørsmålsuttrykk Q, ettersom relatert fraseinformasjon ble anvendt til å identifisere relevante dokumenter, og så rangere disse dokumenter. Dokumenter med en lav hyppighet av innmatede spørsmålsuttrykk kan fortsatt ha et stort antall av relatere fraser til spørsmålsuttrykkene og frasene og således være mer relevante enn dokumenter som har en høy hyppighet av kun spørsmålsuttrykkene og fraser, men ingen relaterte fraser.
I en andre utførelsesform treffer søkesystemet 120 hvert dokument i det resulterende sett i henhold til hvilke relaterte fraser av spørsmålsfrasen Q det inneholder. Dette foretas som følger: Gitt hver spørsmålsfrase Q, vil der være et visst antall N av relaterte fraser Qr til spørs-målsfrasen, som identifisert under fraseidentifikasjonsprosessen. Som beskrevet ovenfor ordnes de relaterte spørsmålsfraser Qr i henhold til deres informasjonsgevinst fra spørs-målsfrasen Q. Disse relaterte fraser blir så tildelt punkter med start N punkter for den første relaterte frase Qrl (dvs. den relaterte frase Qr med den høyeste informasjonsgevinst fra Q), og så N-l punkter for neste relaterte frase Qr2, videre N-2 punkter for Qr3 og så videre, slik at den siste relaterte frase QrN tildeles 1 punkt.
Hvert dokument i søkeresultatene blir så truffet ved å bestemme hvilke relaterte fraser Qr i spørsmålsfrasen Q som er tilstede, og å gi dokumentet punktene tildelt hver slik relatert frase Qr. Dokumentene blir så sortert fra høyeste til laveste treff.
Som en ytterligere raffinering kan søkesystemet 120 velge ut visse dokumenter fra re-sultatsettet. I visse tilfeller kan dokumenter være om mange forskjellige emner, idet dette særlig er tilfellet for lengre dokumenter. I mange tilfeller foretrekker brukere dokumenter som strengt er knyttet til saken med hensyn til et enkelt emne uttrykt i spørs-målet i forhold til dokumenter som relevante med hensyn til mange forskjellige emner.
For å velge ut disse sistnevnte typer av dokumenter, bruker søkesystemet 120 grupperingsinformasjonen i grupperingsbitvektorene hos spørsmålsfrasene, og fjerner et hvilket som helst dokument i hvilket der er mer enn et terskelantall av grupperinger i dokumentet. Eksempelvis kan søkesystemet 120 fjerne hvilke som helst dokumenter som inneholder mer en to grupperinger. Denne grupperingsterskel kan forutbestemmes eller settes av brukeren som en søkeparameter.
b) Rangering av dokumenter basert på forankringsfraser
I tillegg til å rangere dokumentene i søkeresultatene basert på stammetreff av spørsmåls-fraser Q, vil søkesystemet 120 i én utførelsesform også rangere dokumentene basert på fremkomsten av spørsmålsfraser Q og relaterte spørsmålsfraser Qr i forankringer til andre dokumenter. I én utførelsesform beregner søkesystemet et treff for hvert dokument som er en funksjon (for eksempel lineær kombinasjon) av to treff, en stammefull-treffer og en forankringsfulltreffer.
Eksempelvis kan dokumenttreffet for et gitt dokument beregnes som følger:
Vektene av 0,30 og 0,70 kan justeres etter ønske. Stammefulltrefferen for et dokument er den numeriske verdi av den høyest verdisatte, relaterte frasebitvektor for dokumentet, gitt spørsmålsfrasene Qp, på den måte som er beskrevet ovenfor. Alternativt kan denne verdi direkte oppnås ved hjelp av søkesystemet 120 ved oppslag av hver spørsmålsfrase Q i indeksen 150, aksessering av dokumentet fra oppslagslisten over spørsmålsfrasen Q, og så aksessering av den relaterte frasebitvektor.
Forankringsfulltrefferen for et dokument d er en funksjon av de relaterte frasebitvektorer av spørsmålsfrasen Q, der Q er et forankringsuttrykk i et dokument som henviser til dokument d. Når indekseringssystemet 110 indekserer dokumentene i dokumentsamlingen, opprettholder det for hver frase en liste over dokumentene i hvilke frasen er forankrings- eller referansetekst i en utlenke, og også for hvert dokument en liste over innlenkene (og den tilhørende forankringstekst) fra andre dokumenter. Innlenkene for et dokument er henvisninger (for eksempel hyperlenker) fra andre dokumenter (henvisende dokumenter) til et gitt dokument.
For å bestemme forankringsfulltrefferen for et gitt dokument d vil søkesystemet 120 så foreta gjentagelser over settet av henvisende dokumenter R (i = 1 til antallet av henvisende dokumenter) listet i indeks ved deres forankringsfraser Q, og summerer det følg-ende produkt:
Produktverdien er her et treff av hvorledes emnemessig forankrings frase Q er til dokument D. Dette treff benevnes her "inngående treffkomponent". Dette produkt vil effektivt veie det eksisterende dokument D relaterte bitvektor ved de relaterte bitvektorer i forankringsfraser i det henvisende dokument R. Dersom de henvisende dokumenter R i seg selv er relaterte til spørsmålsfrasen Q (og således har en høyere verdisatt relatert frasebitvektor), vil dette så øke betydningen av det eksisterende dokuments D treff. Stammefulltrefferen og forankringsfulltrefferen blir så kombinert til å skape dokumenttreffet, slik som beskrevet ovenfor.
Dernest, for hvert av de henvisende dokumenter R, blir den relaterte frasebitvektor for hver forankringsfrase Q oppnådd. Dette er et mål på hvorledes emnemessig eller hvor aktuell forankringsfrasen Q er med hensyn til dokument R. Denne verdi benevnes her den utgående treffkomponent.
Fra indeksen 150 blir så samtlige av (henvisende dokument, henvist dokument)-parene ekstrahert for forankringsfrasene Q. Disse par blir så sortert ved deres tilhørende (utgående treffkomponent, inngående treffkomponent)-verdier.. Avhengig av implementerin-gen, kan den ene eller andre av disse komponenter være den primære sorteringsnøkkel, og den andre kan være den sekundære sorteringsnøkkel. De sorterte resultater blir så presentert for brukeren. Sortering av dokumentene på den utgående treffkomponent bevirker dokumenter som mange relaterte fraser til spørsmålet som forankringstreff, rangerer i høyeste grad, hvorved disse dokumenter representerer "ekspertdokumenter". Sortering på inngående dokumenttreff bevirker dokumenter som hyppig henvises til av forankringsuttrykkene som de høyest rangerte.
3. Frasebasert personalisering av søk
Et annet aspekt ved søkesystemet 120 er evnen til å personalisere 606 eller "skreddersy" rangeringen av søkeresultatene i henhold til en modell for brukerens spesielle interesse. På denne måte blir dokumenter som mer sannsynlig er relevante for brukerens interesser rangert høyere i søkeresultatene. Personaliseringen av søkeresultatet er som følger.
Som et preliminært anliggende er det nyttig å definere en brukers interesser (for eksempel en brukermodell) i form av spørsmål og dokumenter, der begge kan representeres ved fraser. For et innmatet søkespørsmål representeres et spørsmål av spørsmålsfrasene Q, de relaterte fraser av Qr, og fraseforlengelser Qe av spørsmålsfrasene Qp. Dette sett av uttrykk og fraser representerer således betydningen av spørsmålet. Dernest blir betydningen av et dokument representert ved frasene tilhørende siden. Som beskrevet ovenfor, gitt et spørsmål og dokument, blir de relevante fraser for dokumentet bestemt fra stammetreffene (body scores) (de relaterte bitvektorer) for samtlige fraser som indekseres til dokumentet. Til sist kan en bruker representeres som foreningen eller unionen av et sett av spørsmål med et sett av dokumenter, i form av frasene som representerer hvert av disse elementer. De spesielle dokumenter som skal inkluderes i settet som representerer brukeren kan bestemmes fra hvilke dokumenter brukeren velger i foregående søkeresultater, eller ved generelt å titte på mengden (for eksempel aksessere dokumenter på Internett), idet der anvendes et klientsideverktøy som overvåker brukeraksjo-ner og bestemmelssteder.
Prosessen med å konstruere og bruke brukermodellen for personalisert rangering er som følger.
Først, for en gitt bruker, blir en liste over de siste K spørsmål og P dokumenter som er aksessert opprettholdt, der K og P er fortrinnsvis 250 hver. Listene kan opprettholdes i en brukerkontodatabase, der en bruker gjenkjennes ved hjelp av en innlogging eller ved hjelp av titteinformasjonskapsler (browser cookies). For en gitt bruker vil listene være tomme den første gangen brukeren tilveiebringer et spørsmål.
Dernest blir et spørsmål q mottatt fra brukeren. De relaterte fraser Qr av q hentes, sammen med fraseforlengelsene, på den måte som er beskrevet ovenfor. Dette danner spørs-målsmodellen.
I en første passering (for eksempel hvis der ikke er noen lagret spørsmålsinformasjon for brukeren), opererer søkesystemet 120 til ganske enkelt å returnere de relevante dokumenter i søkeresultatet til brukerens spørsmål, uten ytterligere "skreddersydd" rangering.
Et klientsidetitteverktøy overvåker hvilke av dokumentene i søkeresultatene som brukeren aksesserer, dvs. ved å klikke på dokumentlenken i søkeresultatene. Disse aksesserte dokumenter for basisen for velging av hvilke fraser, vil bli del av brukermodellen. For hvert slikt aksessert dokument henter søkesystemet 120 dokumentmodellen for dokumentet, hvilken er en liste over fraser relatert til dokumentet. Hver frase som er relatert til det aksesserte dokumentet tilføyes brukermodellen. Dernest, gitt frasene som er relatert til et aksessert dokument, kan grupperingene knyttet til disse fraser bestemmes fra grupperingsbitvektorene for hver frase. For hver gruppering blir hver frase som er et element i grupperingen bestemt ved å se etter frasen i dens relaterte frasetabell som inneholder grupperingsnummeret, eller grupperingsbitvektor-representasjonen som beskrevet ovenfor. Dette grupperingsnurnmer blir så tilføyet brukermodellen. I tillegg, for hver slik gruppering, opprettholdes en teller og inkrementeres hver gang en frase i den grupperingen tilføyes brukermodellen. Disse tellinger kan anvendes som vekter, som beskrevet nedenfor. Således bygges brukermodellen fra fraser som inngår i grupperinger som er tilstede på et dokument som brukeren har uttrykt en interesse for ved aksessering av dokumentet.
Den samme generelle løsning kan mer nøyaktig fokuseres til å fange fraseinformasjon der et høyere nivå av interesse enn kun aksessering av dokumentet manifesteres av brukeren (som brukeren kan gjøre ganske enkelt ved å bedømme om dokumentet faktisk er relevant). Eksempelvis kan samlingen av fraser inn i brukermodellen begrenses til de dokumenter som brukeren har skrevet, oppbevart, lagret som en favoritt eller lenke, sendt som e-mail til en annen bruker, eller opprettholdt åpen i et tittevindu for en utvidet tidsperiode (for eksempel 10 minutter). Disse og andre aksjoner manifesterer et høyt nivå av interesse med hensyn til dokumentet.
Når et antall spørsmål mottas fra brukeren, blir de relaterte spørsmålsfraser Qr hentet. Disse relaterte spørsmålsfraser Qr skjæres med frasene som er opplistet i brukermodellen for å bestemme hvilke fraser som er tilstede i både spørsmålet og brukermodellen. En maskebitvektor initialiseres for de relaterte fraser av spørsmålet Qr. Denne bitvektor er en bi-bitvektor som beskrevet ovenfor. For hver relaterte frase Qr av spørsmålet som også er tilstede i brukermodellen, blir begge av nevnte bits for denne relaterte frase satt i maskebitvektoren. Maskebitvektoren representerer således de relaterte fraser som er tilstede i både spørsmålet og brukermodellen.
Maskebitvektoren blir så anvendt til å maskere den relaterte frasebitvektor for hvert dokument i det eksiterende sett av søkeresultater ved OG-behandling av den relaterte frasebitvektor med maskebitvektoren. Dette har virkningen av å justere stammetreffet og forankringsfulltrefferen med maskebitvektoren. Dokumentene blir så treffmarkert for deres stammetreff og forankringstreff som tidligere og presentert for brukeren. Denne løsning krever hovedsakelig at et dokument har spørsmålsfrasene som inngår i brukermodellen for å kunne være høyt rangert.
Som en alternativ utførelsesform, som ikke pålegger den foregående stramme restrik-sjon, kan maskebitvektoren formes til en oppstilling, slik at hver bit anvendes til å veie grupperingstellinger for de relaterte fraser i brukermodellen. Således blir hver av grup-peringstellingene multiplisert med 0 eller 1, hvilket effektivt nuller eller opprettholder tellingene. Dernest blir tellingene selv anvendt som vekter og anvendes også til å multi-plisere de relaterte fraser for hvert dokument som får treff. Denne løsning har den fordel å tillate dokumenter som ikke har spørsmålsfrasene som relaterte fraser til fortsatt å gi treff på passende måte.
Til sist kan brukermodellen begrenses til en eksisterende sesjon, der en sesjon er et tids-intervall for aktiv tidsperiode i søk, etter hvilken sesjon brukermodellen forkastes. Alternativt kan brukermodellen for en gitt bruker fastholdes over tid, og så nedveies eller aldres.
IV. Resultatpresentasi on
Presentasjonssystemet 130 mottar de treffmarkerte og sorterte søkeresultater fra søke-systemet 120, og utfører ytterligere organisasjonsmessige kommentarer og grupperings-operasjoner forut for presentering av resultatene for brukeren. Disse operasjoner letter brukerens forståelse av innholdet i søkeresultatene, eliminerer duplikater og tilveiebringer en mer representativ sampling av søkeresultatene. Figur 7 viser hovedfunksjonsope-rasjonene for presentasjonssystemet 130: 700: Gruppere dokumenter i henhold til emnegrupperinger 702: Generere dokumentbeskrivelsen
704: Eliminere duplikatdokumenter
Hver av disse operasjoner tar som en innmatning søkeresultatene 701 og utmater modifiserte søkeresultater 703. Som antydet av figur 7 er rekkefølgen av disse operasjoner uavhengig, og kan varieres etter ønske for en gitt utførelsesform, og således kan innmat-ningene bli såkalt "pipelined" i stedet for å være parallell, slik som vist.
1. Dynamisk taksonimigenerering for presentasjon
For et gitt spørsmål er det typisk å returnere hundre, kanskje endog tusener av dokumenter som tilfredsstiller spørsmålet. I mange tilfeller er visse dokumenter, selv om de
har forskjellig innhold fra hverandre, tilstrekkelig relaterte til å gi en relevant gruppe av relaterte dokumenter, hovedsakelig en gruppering/ansamling. De fleste brukere vil imidlertid ikke se på mer en de første 30 eller 40 dokumenter i søkeresultatene. Dersom således de første 100 dokumenter eksempelvis ville komme fra tre grupperinger, men de neste 100 dokumenter representerer ytterligere fire grupperinger, så, uten ytterligere jus-tering, ville brukeren typisk ikke se på disse senere dokumenter, hvilke i realiteten kan være ganske relevante for brukerens spørsmål ettersom de representerer et utvalg av forskjellige emner relatert til spørsmålet. Således er det her ønskelig å forsyne brukeren med en prøve på dokumenter fra hver gruppering, for derved å utsette brukeren for et bredere valg av forskjellige dokumenter fra søkeresultatene. Presentasjonssystemet 130 gjør dette som følger.
Som i andre aspekter ved systemet 100 gjør presentasjonssystemet 130 bruk av den relaterte frasebitvektor for hvert dokument d i søkeresultatene. Nærmere bestemt, for hver spørsmålsfrase Q og for hvert dokument d i Q's oppslagsliste, indikerer den relaterte frasebitvektor hvilke relaterte fraser Qr som er tilstede i dokumentet. Over settet av dokumenter i søkeresultatene blir det så, for hver relatert frase Qr, bestemt en telling av hvor mange dokumenter som inneholder den relaterte frase Qr ved å addere opp bitverdiene i bitposisjonen som svarer til Qr. Når summert og sortert over søkeresultatene, vil de hyppigst opptredende, relaterte fraser Qr bli indikert, der hver av disse vil være en gruppering av dokumenter. Den hyppigst opptredende relaterte frase er den første gruppering, hvilken tar som sitt navn dens relaterte frase Qr, og så videre for de øvre tre til fem grupperinger. Således er hver av de øvre grupperinger blitt identifisert, sammen med frasen Qr som et navn eller en overskrift for grupperingen.
Dokumenter fra hver gruppering kan nå presenteres for brukeren på forskjellige måter. I én applikasjon kan et fast antall av dokumenter fra hver gruppering eller ansamling presenteres eksempelvis i 10 topptreffdokumentene i hver gruppering. I en annen applikasjon kan et proporsjonalt antall av dokumenter fra hver gruppering presenteres. Dersom det således er 100 dokumenter i søkeresultatet, med 50 i gruppering 1, 30 i gruppering 2, 10 i gruppering 3, 7 i gruppering 4 og 3 i gruppering 5, og det ønskes å presenteres kun 20 dokumenter, ville dokumentene så bli valgt som følger: 10 dokumenter fra gruppering 1; 7 dokumenter fra gruppering 2; 2 dokumenter fra gruppering 3; og 1 dokument fra gruppering 4. Dokumentene kan så vises for brukeren, grupperes i henhold til dette under passende grupperingsnavn som overskrifter.
Eksempelvis kan det antas et søkespørsmål lik "blue merle agility training", for hvilket søkessystemet 120 henter 100 dokumenter. Søkesystemet 120 vil allerede ha identifisert "blue merle" og "agility training" som spørsmålsfraser. De relaterte fraser av disse spørsmålsfraser som: "blue merle"::"Australian Shepherd", "red merle", "tricolor", "aussie";
"agility training"::"weave poles", "teeter", "tunnel", "obstacle", "border collie".
Presentasjonssystemet 130 bestemmer så på hver av de ovenstående relaterte fraser i hver spørsmålsfrase en telling av antallet dokumenter som inneholder en slik frase. Det kan eksempelvis antas at frasen "weave poles" fremkommer i 75 av 100 dokumenter, "teeter" fremkommer i 60 dokumenter, "red merle" fremkommer i 50 dokumenter. Den første gruppering benevnes da "weave poles" og et valgt antall av dokumenter fra vedkommende gruppering presenteres. Den andre grupperingen benevnes "teeter" og det valgte antall presenteres også, og så videre. For en fast presentasjon kan 10 dokumenter fra hver gruppering velges. En proporsjonal presentasjon ville anvende et proporsjons- messig antall dokumenter fra hver gruppering, relativt til det totale antall av dokumenter.
2. Emnebaserte dokumentbeskrivelser
En andre funksjon av presentasjonssystemet 130 er skapningen 702 av en dokumentbeskrivelse som kan innføres i søkeresultatpresentasjonen for hvert dokument. Disse beskrivelser er basert på de relaterte fraser som er tilstede i hvert dokument, og således hjelper brukeren til å forstå hva dokumentet gjelder på en måte som er sammenhengs-messig relatert til søket. Dokumentbeskrivelsene kan være enten generelle eller personalisert for brukeren.
a) Generelle emnedokumentbeskrivelser
Som tidligere, gitt et spørsmål, har søkesystemet 120 bestemt de relaterte spørsmålsfra-ser Qr og fraseforlengelser av spørsmålsfrasene også, og så identifisert de relevante dokumenter for spørsmålet. Presentasjonssystemet 130 aksesserer hvert dokument i søke-resultatene og utfører de følgende operasjoner.
Først rangerer presentasjonssystemet 130 setningene i dokumentet ved antallet av tilfeller av spørsmålsfraser Q, relaterte spørsmålsfraser Qr og fraseforlengelser Qp, for derved å opprettholde for hver setning i et dokument telling på disse tre aspekter.
Dernest blir setningene sortert ved hjelp av disse tellinger, med den første sorterings-nøkkel som tellingen av spørsmålsfrasene Q, den andre sorteringsnøkkelen som tellingen av relaterte spørsmålsfraser Qr, og den siste sorteringsnøkkelen som er tellingen av fraseforlengelsene Qp.
Til sist vil de øvre N (for eksempel 5) setninger etter sorteringen bli anvendt som beskrivelsen av dokumentet. Dette sett av setninger kan formateres og inkluderes i presen-tasjonen av dokumentet i de modifiserte søkeresultater 703. Denne prosess gjentas for et visst antall av dokumenter i søkeresultatene, og kan foretas på forlangende hver gang brukeren anmoder om en neste side av resultatene.
b) Personaliserte, emnebaserte dokumentbeskrivelser
I utførelsesformene der personalisering av søkeresultatene tilveiebringes, kan dokumentbeskrivelsene likeledes personalisert til å gjengi brukerens interesser som uttrykt i brukermodellen. Presentasjonssystemet 130 gjør dette som følger.
For det første bestemmer presentasjonssystemet 130, slik som tidligere de relaterte fraser som er relevante for brukeren ved å skjære de spørsmålsrelaterte fraser Qr med brukermodellen (hvilken opplister frasene som opptrer i dokumenter som aksesseres av brukeren).
Presentasjonssystemet 130 vil så stabilt sortere dette sett av brukerrelaterte fraser Ur i henhold til verdien av selve bitvektorene, idet den sorterte listen tilføyes listen av spørs-målsrelaterte fraser Qr, og fjerner eventuelle duplikatfraser. Den stabile sortering opprettholder den eksisterende rekkefølge av likt rangerte fraser. Dette resulterer i et sett av relaterte fraser som relatert til spørsmålet eller brukeren er benevnt settet Qu.
Presentasjonssystemet 130 anvender nå denne ordnede liste av fraser som basis for rangering av setningene i hvert dokument i søkeresultatene, på en måte tilsvarende den generelle dokumentbeskrivelsesprosess som er forklart ovenfor. Således, for et gitt dokument, rangerer presentasjonssystemet 130 setningene i dokumentet ved antallet av tilfeller av hver av de brukerrelaterte fraser og de spørsmålsrelaterte fraser Qu, og sorterer de rangerte setninger i henhold til spørsmålstellingene, og til sist sorterer, basert på antallet av fraseforlengelser for hver slik frase. Mens sorteringsnøklene tidligere var i rekkefølgen av spørsmålsfraser Q, relaterte spørsmålsfraser Qr og fraseforlengelse Qp, er her de sorterte nøkler i rekkefølge av høyeste til laveste rangerte brukerrelaterte fraser Ur.
Igjen blir denne prosess gjentatt for dokumentene i søkeresultatene (enten på forlangende eller forut). For hvert slikt dokument omfatter den resulterende dokumentbeskrivelse så de N øverst rangerte setninger fra dokumentet. Her vil disse setninger være de som har det høyeste antall av brukerrelaterte fraser Ur, og således representere nøkkel-setningene i dokumentet som uttrykker begrepene og emnene som er mest relevante for brukeren (i det minste i henhold til informasjonen som er innfanget i brukermodellen).
3. Duplikatdokumentdeteksion og - eliminering
I store samlede mengder, slik som på Internett er det vanlig at der er flere tilfeller av samme dokument, eller deler av et dokument på mange forskjellige steder. Eksempelvis kan en gitt nyhetsartikkel levert av et nyhetsbyrå, slik som Associated Press, gjengis på et dusin eller flere nettsteder for individuelle nyhetsaviser. Å innbefatte samtlige av disse duplikatdokumenter som reaksjon på et søkespørsmål vil bare belaste brukeren med overflødig informasjon og reagerer ikke på brukbar måte på spørsmålet. Således gir presentasjonssystemet 130 en ytterligere evne 704 til å identifisere dokumenter som sannsynligvis vil være duplikater eller nær duplikater av hverandre, og kun innbefatte ett av disse i søkeresultatene. Følgelig mottar brukeren et langt mer variert og robust sett av resultater, og trenger ikke å kaste bort tid med å se på dokumenter som er duplikater av hverandre. Presentasjonssystemet 130 tilveiebringer funksjonaliteten som følger.
Presentasjonssystemet 130 behandler hvert dokument i søkeresultatsettet 701. For hvert dokument d bestemmer presentasjonssystemet 130 først listen over relaterte fraser R som er tilhørende dokumentet. For hver av disse relaterte fraser rangerer presentasjonssystemet 130 setningene i dokumentet i henhold til opptredenshyppigheten for hver av disse fraser, og velger så de topp N (for eksempel 5 til 10) rangerende setninger. Dette sett av setninger blir så lagret i tilknytning til dokumentet. En måte å gjøre dette på er å sammenkjede de valgte setninger, og så ta i bruk en opphakkingstabell for å lagre doku-mentidentifisereren.
Presentasjonssystemet 130 vil så sammenligne de valgte setninger i hvert dokument d med de valgte setninger i de andre dokumentene i søkeresultatene 701, og dersom de valgte setninger passer (innenfor en toleranse), antas dokumentene å være duplikater, og ett av disse fjernes fra søkeresultatene. Eksempelvis kan presentasjonssystemet 130 opphakke de sammenkjedede setninger, og dersom opphakkingstabellen allerede har en innføring for opphakkingsverdien, indikerer dette så at det eksisterende dokument og det i øyeblikket opphakkede dokument er duplikater. Presentasjonssystemet 130 kan så oppdatere tabellen med dokument-ID for ett av dokumentene. Fortrinnsvis holder presentasjonssystemet 130 dokumentet som har en høyere siderangering eller annet spørs-målsuavhengig omfang av dokumentbetydning. I tillegg kan presentasjonssystemet 130 modifisere indeksen 150 for å fjerne duplikatdokumentet, slik at det ikke vil fremkomme i fremtidige søkeresultater for noe spørsmål.
Den samme duplikatelimineringsprosess kan anvendes på indekseringssystemet 110 direkte. Når et dokument gjennomkravles, blir den ovenfor beskrevne dokumentbeskrivelsesprosess utført for å oppnå de valgte setninger, og så opphakkingen av setningene. Dersom opphakkingstabellen fylles, vil så igjen de nylig gjennomkravlede dokumenter anses å være et duplikat av et tidligere dokument. Igjen kan indekseringssystemet 110 så holde dokumentet med den høyere siderangering eller annet spørsmålsuavhengig omfang.
Den foreliggende oppfinnelse er blitt beskrevet i særlig detalj med henvisning til en mulig utførelsesform. De med fagkunnskap vil forstå at oppfinnelsen kan utøves i andre ut-førelses former. Først den særlige benevning av komponentene, stor-bokstavbruk i uttrykk, attributter, datastrukturer eller annen programmerings eller strukturmessige aspekter er ikke pålagt eller vesentlig, og mekanismene som implementerer oppfinnelsen eller dens trekk kan ha forskjellige navn, formater eller protokoller. Dessuten kan systemet implementeres via en kombinasjon av maskinvare og programvare, slik som beskrevet, eller fullstendig i maskinvareelementer. Dessuten er den spesielle oppdeling av funksjonalitet mellom de forskjellige systemkomponenter som er beskrevet her kun eksempelvis, og ikke pålagt. Funksjoner utført av én enkelt systemkomponent kan i stedet utføres av flere komponenter, og funksjoner utført av flere komponenter kan i stedet utføres av én enkelt komponent.
Visse deler av ovenstående beskrivelse byr på egenskaper ved den foreliggende oppfinnelse i form av algoritmer og symbolske representasjoner av operasjoner på informasjon. Disse algoritmiske beskrivelser og representasjoner er midlene som anvendes av de med fagkunnskap i databehandlingsteknikker for mest effektivt å formidle substan-sen av sitt arbeid til andre fagfolk. Disse operasjoner, selv om de er beskrevet funksjo-nelt eller logisk, skal forstås å være implementert ved hjelp av datamaskinvareprogram-mer. Videre har det også vist seg hensiktsmessig ved tidspunktere å referere til disse løsninger for operasjoner som moduler eller ved funksjonelle navn, uten tap av generalitet.
Såfremt det ikke er særlig angitt på annen måte slik det fremgår av ovennevnte disku-sjon, vil det forstås at gjennom hele beskrivelsen refererer diskusjoner som anvender uttrykk slik som "behandling" eller "beregning" eller "kalkulering" eller "bestemmelse" eller "fremvisning" eller lignende, til aksjonen og prosesser i et datamaskinsystem, eller lignende elektronisk beregningsanordning, som manipulerer og omformer data repre sentert som fysiske (elektroniske) størrelser innen datamaskinsystemminner eller regis-tere eller andre slike informasjonslagrings-, overførings- eller fremvisningsanordninger.
Visse aspekter ved den foreliggende oppfinnelse innbefatter prosesstrinn og instruksjoner beskrevet her i form av en algoritme. Det bør bemerkes at prosesstrinnene og instruksjonene ifølge den foreliggende oppfinnelse kunne befinne seg i programvare, fastvare eller maskinvare, og når de befinner seg i programvare kunne nedlastes til å bero på og betjenes fra forskjellige plattformer anvendt av sanntidsnettverkopererende systemer.
Den foreliggende oppfinnelse vedrører også en anordning for å utføre operasjonene her. Denne anordning kan være særlig konstruert for de ønskede formål, eller den kan om-fatte en universell datamaskin som selektivt aktiveres eller omkonfigureres av et datamaskinprogram lagret på et datamaskinlesbart medium som kan aksesseres av datamaskinen. Et slikt datamaskinprogram kan lagres i et datamaskinlesbart lagringsmedium, slik som, men ikke begrenset til, en hvilken som helst type av plate, innbefattende dis-ketter, optiske plater, CD-ROM'er, magnetisk-optiske plater, leslagre (ROM's), direkte-lagre (RAM's), EPROMS, EEPROMS, magnetiske eller optiske kort, applikasjons-spesifikke integrerte kretser (ASICs) eller hvilke som helst typer av media som er egnet for å lagre elektroniske instruksjoner, og hver koblet til en datamaskinsystembuss. Dessuten kan datamaskin som det refereres til i beskrivelsen innbefatte en enkelt prosessor eller kan være arkitekturer som anvender flere prosessorutformninger for økt bereg-ningsevne.
Algoritmene og operasjonene som presenteres her er ikke naturlig relatert til noen spe-siell datamaskin eller annen anordning. Forskjellige universelle systemer kan anvendes også med programmer i henhold til den lære som her er gitt, eller det kan vise seg hensiktsmessig å konstruere mer spesialisert anordning for å utføre de ønskede fremgangs-måtetrinn. Den ønskede konstruksjon for et utvalg av disse systemer vil være åpenbare for fagfolkene, sammen med ekvivalente variasjoner. I tillegg er den foreliggende oppfinnelse ikke blitt beskrevet med henvisning til noe særlig programmeringsspråk. Det vil forstås at et utvalgt av programmeringsspråk kan anvendes for å implementere læren ifølge den foreliggende oppfinnelse, slik den er beskrevet her, og eventuelle henvisninger til bestemte språk er gitt for å angi realisering og beste utførelse av oppfinnelsen.
Den foreliggende oppfinnelse er velegnet for et stort utvalg av datamaskinnettverkasys-temer over tallrike topologier. Innenfor dette felt omfatter konfigurasjonen og admini- streringen av store nettverk lagringsanordninger og datamaskiner som er kommunika-sjonsmessig koblet til ulike datamaskiner og lagringsanordninger over et nettverk, slik som Internett.
Til sist bør det bemerkes at språket som anvendes i beskrivelsen prinsipielt er blitt valgt for lesbarhet og instruksjonsmessige formål, og trenger ikke å være valgt for å skildre eller avgrense det oppfinneriske realitetsinnhold. Følgelig er beskrivelsen av oppfinnelsen tilsiktet å være illustrerende, men ikke begrensende, for omfanget av oppfinnelsen, slik den er angitt i de etterfølgende patentkrav.

Claims (5)

1. Fremgangsmåte for automatisk å generere en beskrivelse av et dokument, der fremgangsmåten omfatter: å tilveiebringe en liste med fraser og deres sett med relaterte fraser og en liste med ufullstendige fraser og deres relaterte fraseutvidelser; hvori en frase gjer relatert frase til en annen frase gkhvor en informasjonsgevinst av gj;med hensyn til gjoverskrider en forutbestemt terskel, informasjonsgevinsten er en funksjon av en faktisk og en forventet samopptredendehyppighet av gjog gki en dokumentsamling; og hvori en fraseutvidelse er en supersekvens-frase i en dokumentsamling som starter med en ufullstendig frase; å hente et dokument som respons på en forespørselsfrase; å bestemme, for hver setning i dokumentet: en første telling av antall av instanser av nevnte forespørselsfrase i nevnte setning; en andre telling av antall av instanser av relaterte fraser av nevnte forespørselsfrase nevnte setning; hvor en relatert frase er identifisert ved å slå opp et sett av relaterte frase av forespørselsfrasen; en tredje telling av antall av instanser av fraseutvidelse av nevnte forespørselsfrase i nevnte setning, hvori en fraseutvidelse er identifisert ved å slå opp forespørselsfrasen i nevnte liste med ufullstendige frase; å sortere setningene i dokumentet i avtagende orden av deres respektive første, andre, tredje tellinger; og å velge en flerhet av setninger av dokumentet basert nevnte tellinger for å danne en beskrivelse av dokumentet.
2. Fremgangsmåte i følge krav 1, hvori forespørselen er en forespørsel mottatt av en bruker, der fremgangsmåten videre omfatter: å lagre en brukermodell omfattende en flerhet av fraser som befinner seg i dokumenter som aksesseres av brukeren; å bestemme fraser som er relatert til forespørselen og tilstede i brukermodellen; og å generere en dokumentbeskrivelse som omfatter valgte setninger i dokumentet, der setningene velges og ordnes i dokumentbeskrivelsen som en funksjon av et antall av de bestemte frasene i hver setning.
3. Fremgangsmåten i følge krav 2, hvor nevnte bestemte fraser i henhold til brukermodellen og anvendt som en basis for rangering av setningene i hvert dokument i søkeresultater.
4. Datamaskinlesbart lagringsmedium hvor instruksjoner er lagret, der instruksjonene eksekvert i en datamaskin får datamaskinen til a utføre en fremgangsmåte i følge hvilke som helst av krav 1 til 3.
5. System omfattende: en prosessor og et minne anordnet til prosessoren, der minnet lagrer instruksjoner som når eksekvert av prosessoren får prosessoren til å utføre en fremgangsmåte i følge hvilket som helst av kravene 1 til 3.
NO20053639A 2004-07-26 2005-07-26 Frasebasert generasjon av dokumentbeskrivelser NO335144B1 (no)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/900,075 US7584175B2 (en) 2004-07-26 2004-07-26 Phrase-based generation of document descriptions

Publications (3)

Publication Number Publication Date
NO20053639D0 NO20053639D0 (no) 2005-07-26
NO20053639L NO20053639L (no) 2006-01-27
NO335144B1 true NO335144B1 (no) 2014-09-29

Family

ID=34982376

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20053639A NO335144B1 (no) 2004-07-26 2005-07-26 Frasebasert generasjon av dokumentbeskrivelser

Country Status (10)

Country Link
US (1) US7584175B2 (no)
EP (1) EP1622052B1 (no)
JP (1) JP4944406B2 (no)
KR (1) KR101176079B1 (no)
CN (1) CN1728143B (no)
AT (1) ATE529811T1 (no)
AU (1) AU2005203237B2 (no)
BR (1) BRPI0503780A (no)
CA (1) CA2513851C (no)
NO (1) NO335144B1 (no)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7266553B1 (en) * 2002-07-01 2007-09-04 Microsoft Corporation Content data indexing
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US7467155B2 (en) * 2005-07-12 2008-12-16 Sand Technology Systems International, Inc. Method and apparatus for representation of unstructured data
US7475072B1 (en) 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
US7620607B1 (en) * 2005-09-26 2009-11-17 Quintura Inc. System and method for using a bidirectional neural network to identify sentences for use as document annotations
US20070078889A1 (en) * 2005-10-04 2007-04-05 Hoskinson Ronald A Method and system for automated knowledge extraction and organization
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
US8126874B2 (en) * 2006-05-09 2012-02-28 Google Inc. Systems and methods for generating statistics from search engine query logs
US9189482B2 (en) 2012-10-10 2015-11-17 Abbyy Infopoisk Llc Similar document search
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US8326858B2 (en) * 2007-01-17 2012-12-04 Google Inc. Synchronization of fixed and mobile data
US7966309B2 (en) 2007-01-17 2011-06-21 Google Inc. Providing relevance-ordered categories of information
US7966321B2 (en) * 2007-01-17 2011-06-21 Google Inc. Presentation of local results
US8966407B2 (en) 2007-01-17 2015-02-24 Google Inc. Expandable homepage modules
US8005822B2 (en) * 2007-01-17 2011-08-23 Google Inc. Location in search queries
US7437370B1 (en) * 2007-02-19 2008-10-14 Quintura, Inc. Search engine graphical interface using maps and images
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US9535810B1 (en) 2007-04-24 2017-01-03 Wal-Mart Stores, Inc. Layout optimization
JP5241828B2 (ja) * 2007-06-14 2013-07-17 グーグル・インコーポレーテッド 辞書の単語及び熟語の判定
US8117223B2 (en) * 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US20090119572A1 (en) * 2007-11-02 2009-05-07 Marja-Riitta Koivunen Systems and methods for finding information resources
US7949657B2 (en) * 2007-12-11 2011-05-24 Microsoft Corporation Detecting zero-result search queries
WO2009111631A1 (en) * 2008-03-05 2009-09-11 Chacha Search, Inc. Method and system for triggering a search request
US8180754B1 (en) 2008-04-01 2012-05-15 Dranias Development Llc Semantic neural network for aggregating query searches
US8788476B2 (en) * 2008-08-15 2014-07-22 Chacha Search, Inc. Method and system of triggering a search request
GB2472250A (en) * 2009-07-31 2011-02-02 Stephen Timothy Morris Method for determining document relevance
US8533579B2 (en) * 2009-10-21 2013-09-10 Symantec Corporation Data loss detection method for handling fuzziness in sensitive keywords
US8386239B2 (en) 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US8392175B2 (en) 2010-02-01 2013-03-05 Stratify, Inc. Phrase-based document clustering with automatic phrase extraction
US8650195B2 (en) * 2010-03-26 2014-02-11 Palle M Pedersen Region based information retrieval system
US8161073B2 (en) 2010-05-05 2012-04-17 Holovisions, LLC Context-driven search
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US8655648B2 (en) * 2010-09-01 2014-02-18 Microsoft Corporation Identifying topically-related phrases in a browsing sequence
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
CN102033911A (zh) * 2010-11-25 2011-04-27 北京搜狗科技发展有限公司 一种搜索预处理方法和搜索预处理器
JP5669638B2 (ja) * 2011-03-17 2015-02-12 キヤノン株式会社 文書管理装置、文書管理方法、プログラム。
US20140114733A1 (en) * 2012-10-23 2014-04-24 Thomas A Mello Business Review Internet Posting System Using Customer Survey Response
US9104710B2 (en) 2013-03-15 2015-08-11 Src, Inc. Method for cross-domain feature correlation
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
CN104182383B (zh) * 2013-05-27 2019-01-01 腾讯科技(深圳)有限公司 一种文字统计方法及设备
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9852648B2 (en) * 2015-07-10 2017-12-26 Fujitsu Limited Extraction of knowledge points and relations from learning materials
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
US10902066B2 (en) * 2018-07-23 2021-01-26 Open Text Holdings, Inc. Electronic discovery using predictive filtering
JP2021092925A (ja) * 2019-12-09 2021-06-17 株式会社東芝 データ生成装置およびデータ生成方法

Family Cites Families (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321833A (en) 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
US5523946A (en) * 1992-02-11 1996-06-04 Xerox Corporation Compact encoding of multi-lingual translation dictionaries
JPH0756933A (ja) 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5692176A (en) 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US6460036B1 (en) 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US5758257A (en) 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US6366933B1 (en) 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
US6098034A (en) 1996-03-18 2000-08-01 Expert Ease Development, Ltd. Method for standardizing phrasing in a document
US7051024B2 (en) 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US5924108A (en) 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5826261A (en) 1996-05-10 1998-10-20 Spencer; Graham System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query
US5915249A (en) 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
EP0822502A1 (en) 1996-07-31 1998-02-04 BRITISH TELECOMMUNICATIONS public limited company Data access system
US5920854A (en) 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US6085186A (en) 1996-09-20 2000-07-04 Netbot, Inc. Method and system using information written in a wrapper description language to execute query on a network
US20030093790A1 (en) 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US5960383A (en) 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6185550B1 (en) 1997-06-13 2001-02-06 Sun Microsystems, Inc. Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
JP4021525B2 (ja) * 1997-07-28 2007-12-12 株式会社ジャストシステム 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US5956722A (en) 1997-09-23 1999-09-21 At&T Corp. Method for effective indexing of partially dynamic documents
US6542888B2 (en) 1997-11-26 2003-04-01 International Business Machines Corporation Content filtering for electronic documents generated in multiple foreign languages
JP4183311B2 (ja) 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6185558B1 (en) 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
JP3664874B2 (ja) 1998-03-28 2005-06-29 松下電器産業株式会社 文書検索装置
US6363377B1 (en) 1998-07-30 2002-03-26 Sarnoff Corporation Search data processor
US6377949B1 (en) 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
US6415283B1 (en) 1998-10-13 2002-07-02 Orack Corporation Methods and apparatus for determining focal points of clusters in a tree structure
US7058589B1 (en) 1998-12-17 2006-06-06 Iex Corporation Method and system for employee work scheduling
US6862710B1 (en) 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
JP4021583B2 (ja) 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
US6430539B1 (en) 1999-05-06 2002-08-06 Hnc Software Predictive modeling of consumer financial behavior
US7089236B1 (en) * 1999-06-24 2006-08-08 Search 123.Com, Inc. Search engine interface
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6996775B1 (en) 1999-10-29 2006-02-07 Verizon Laboratories Inc. Hypervideo: information retrieval using time-related multimedia:
US6684183B1 (en) 1999-12-06 2004-01-27 Comverse Ltd. Generic natural language service creation environment
US6963867B2 (en) 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US6772150B1 (en) 1999-12-10 2004-08-03 Amazon.Com, Inc. Search query refinement using related search phrases
CA2293064C (en) 1999-12-22 2004-05-04 Ibm Canada Limited-Ibm Canada Limitee Method and apparatus for analyzing data retrieval using index scanning
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6820237B1 (en) * 2000-01-21 2004-11-16 Amikanow! Corporation Apparatus and method for context-based highlighting of an electronic document
US6883135B1 (en) 2000-01-28 2005-04-19 Microsoft Corporation Proxy server using a statistical model
US6571240B1 (en) 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US20060143714A1 (en) 2000-03-09 2006-06-29 Pkware, Inc. System and method for manipulating and managing computer archive files
US6859800B1 (en) * 2000-04-26 2005-02-22 Global Information Research And Technologies Llc System for fulfilling an information need
AU2001261506A1 (en) * 2000-05-11 2001-11-20 University Of Southern California Discourse parsing and summarization
US6691106B1 (en) 2000-05-23 2004-02-10 Intel Corporation Profile driven instant web portal
US20020042707A1 (en) 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing
US20020078090A1 (en) 2000-06-30 2002-06-20 Hwang Chung Hee Ontological concept-based, user-centric text summarization
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
KR100426382B1 (ko) 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US7017114B2 (en) 2000-09-20 2006-03-21 International Business Machines Corporation Automatic correlation method for generating summaries for text documents
US20020143524A1 (en) 2000-09-29 2002-10-03 Lingomotors, Inc. Method and resulting system for integrating a query reformation module onto an information retrieval system
US20020065857A1 (en) 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
CA2322599A1 (en) 2000-10-06 2002-04-06 Ibm Canada Limited-Ibm Canada Limitee System and method for workflow control of contractual activities
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
US20020091671A1 (en) * 2000-11-23 2002-07-11 Andreas Prokoph Method and system for data retrieval in large collections of data
JP2002207760A (ja) 2001-01-10 2002-07-26 Hitachi Ltd 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US6778980B1 (en) 2001-02-22 2004-08-17 Drugstore.Com Techniques for improved searching of electronically stored information
US6741984B2 (en) * 2001-02-23 2004-05-25 General Electric Company Method, system and storage medium for arranging a database
US6741981B2 (en) 2001-03-02 2004-05-25 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System, method and apparatus for conducting a phrase search
US6721728B2 (en) 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US6823333B2 (en) * 2001-03-02 2004-11-23 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for conducting a keyterm search
US7194483B1 (en) 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US7171619B1 (en) 2001-07-05 2007-01-30 Sun Microsystems, Inc. Methods and apparatus for accessing document content
US6778979B2 (en) 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6741982B2 (en) 2001-12-19 2004-05-25 Cognos Incorporated System and method for retrieving data from a database system
US7356527B2 (en) 2001-12-19 2008-04-08 International Business Machines Corporation Lossy index compression
US7243092B2 (en) 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US7139756B2 (en) 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US7028045B2 (en) 2002-01-25 2006-04-11 International Business Machines Corporation Compressing index files in information retrieval
JP4092933B2 (ja) * 2002-03-20 2008-05-28 富士ゼロックス株式会社 文書情報検索装置及び文書情報検索プログラム
NZ518744A (en) * 2002-05-03 2004-08-27 Hyperbolex Ltd Electronic document indexing using word use nodes, node objects and link objects
US7085771B2 (en) 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7028026B1 (en) 2002-05-28 2006-04-11 Ask Jeeves, Inc. Relevancy-based database retrieval and display techniques
JP4452012B2 (ja) 2002-07-04 2010-04-21 ヒューレット・パッカード・カンパニー 文書の特有性評価方法
US20040034633A1 (en) 2002-08-05 2004-02-19 Rickard John Terrell Data search system and method using mutual subsethood measures
US7151864B2 (en) 2002-09-18 2006-12-19 Hewlett-Packard Development Company, L.P. Information research initiated from a scanned image media
US7158983B2 (en) 2002-09-23 2007-01-02 Battelle Memorial Institute Text analysis technique
US6886010B2 (en) 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
JP2004139150A (ja) * 2002-10-15 2004-05-13 Ricoh Co Ltd 文書検索装置、プログラム及び記憶媒体
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7945567B2 (en) 2003-03-17 2011-05-17 Hewlett-Packard Development Company, L.P. Storing and/or retrieving a document within a knowledge base or document repository
US6947930B2 (en) 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
US7051023B2 (en) 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
US7149748B1 (en) 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US7051014B2 (en) 2003-06-18 2006-05-23 Microsoft Corporation Utilizing information redundancy to improve text searches
US7254580B1 (en) 2003-07-31 2007-08-07 Google Inc. System and method for selectively searching partitions of a database
US20050043940A1 (en) 2003-08-20 2005-02-24 Marvin Elder Preparing a data source for a natural language query
US20050071328A1 (en) 2003-09-30 2005-03-31 Lawrence Stephen R. Personalization of web search
US7240064B2 (en) 2003-11-10 2007-07-03 Overture Services, Inc. Search engine with hierarchically stored indices
US20050144162A1 (en) 2003-12-29 2005-06-30 Ping Liang Advanced search, file system, and intelligent assistant agent
US7206389B1 (en) 2004-01-07 2007-04-17 Nuance Communications, Inc. Method and apparatus for generating a speech-recognition-based call-routing system
US20050216564A1 (en) 2004-03-11 2005-09-29 Myers Gregory K Method and apparatus for analysis of electronic communications containing imagery
US20050256848A1 (en) 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search
US7155243B2 (en) 2004-06-15 2006-12-26 Tekelec Methods, systems, and computer program products for content-based screening of messaging service messages
JP2006026844A (ja) 2004-07-20 2006-02-02 Fujitsu Ltd ポリッシングパッド、それを備えた研磨装置及び貼り付け装置
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7599914B2 (en) 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7426507B1 (en) 2004-07-26 2008-09-16 Google, Inc. Automatic taxonomy generation in search results using phrases
US7711679B2 (en) * 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US20060200464A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation Method and system for generating a document summary
US20080005064A1 (en) * 2005-06-28 2008-01-03 Yahoo! Inc. Apparatus and method for content annotation and conditional annotation retrieval in a search context

Also Published As

Publication number Publication date
AU2005203237B2 (en) 2009-04-30
NO20053639D0 (no) 2005-07-26
JP2006048686A (ja) 2006-02-16
CN1728143A (zh) 2006-02-01
US7584175B2 (en) 2009-09-01
US20060020571A1 (en) 2006-01-26
CN1728143B (zh) 2010-06-09
NO20053639L (no) 2006-01-27
CA2513851A1 (en) 2006-01-26
KR20060048777A (ko) 2006-05-18
KR101176079B1 (ko) 2012-08-23
AU2005203237A1 (en) 2006-02-09
EP1622052A1 (en) 2006-02-01
CA2513851C (en) 2013-12-17
JP4944406B2 (ja) 2012-05-30
BRPI0503780A (pt) 2006-03-14
ATE529811T1 (de) 2011-11-15
EP1622052B1 (en) 2011-10-19

Similar Documents

Publication Publication Date Title
NO335144B1 (no) Frasebasert generasjon av dokumentbeskrivelser
NO335440B1 (no) Frasebasert indeksering i et informasjonsgjenfinningssystem
US9990421B2 (en) Phrase-based searching in an information retrieval system
AU2005203238B2 (en) Phrase-based searching in an information retrieval system
CA2513850C (en) Phrase identification in an information retrieval system
US7580929B2 (en) Phrase-based personalization of searches in an information retrieval system
US7426507B1 (en) Automatic taxonomy generation in search results using phrases
NO338518B1 (no) Flerregisterbasert informasjonsgjenfinningssystem

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees