NO338518B1 - Flerregisterbasert informasjonsgjenfinningssystem - Google Patents
Flerregisterbasert informasjonsgjenfinningssystem Download PDFInfo
- Publication number
- NO338518B1 NO338518B1 NO20074329A NO20074329A NO338518B1 NO 338518 B1 NO338518 B1 NO 338518B1 NO 20074329 A NO20074329 A NO 20074329A NO 20074329 A NO20074329 A NO 20074329A NO 338518 B1 NO338518 B1 NO 338518B1
- Authority
- NO
- Norway
- Prior art keywords
- expression
- documents
- document
- list
- expressions
- Prior art date
Links
- 230000014509 gene expression Effects 0.000 claims description 524
- 238000000034 method Methods 0.000 claims description 40
- 238000005192 partition Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 description 38
- 239000011159 matrix material Substances 0.000 description 19
- 230000008569 process Effects 0.000 description 13
- 241000282472 Canis lupus familiaris Species 0.000 description 10
- 230000004044 response Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- RPNUMPOLZDHAAY-UHFFFAOYSA-N Diethylenetriamine Chemical compound NCCNCCN RPNUMPOLZDHAAY-UHFFFAOYSA-N 0.000 description 1
- 241001454768 Mentzelia nuda Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Denne søknaden krever fordel av, og prioritet fra US Utility Patent-søknad
11/043,695 med tittelen "Multiple Index Based Information Retrieval System", innlevert 25. januar 2005, fremleggelsen av hvilken innlemmet ved referanse heri. Denne søknaden er også en fortsettelse-i-del av søknad serienr. 10/900 021 innlevert 26. juli 2004, som er eiet i fellesskap og innlemmet ved referanse heri.
Den foreliggende oppfinnelsen vedrører et informasjonsgjenfinningssystem for å registrere, søke og systematisere dokumenter i en samling av stor målestokk, slik som internettet.
Informasjonsgjenfinningssystemer, generelt kalt søkemotorer, er nå et uunnværlig verktøy for å finne informasjon i storskala, forskjelligartede og voksende samlinger slik som internettet. I alminnelighet skaper søkemotorer et register som forbinder dokumenter (eller "sider") med de enkelte ord som er tilstede i hvert dokument. Et dokument blir gjenfunnet som svar på en forespørsel som inneholder et antall av forespørselstermer, som typisk er basert på å ha et antall av forespørselstermer tilstede i dokumentet. De gjenfunnede dokumentene blir så rangert i henhold til andre statistiske mål, slike som hyppighet av forekomst av forespørselstermene, vertsdomene, linkanalyse og dess like. De gjenfunnede dokumentene blir så presentert for brukeren, typisk i deres rangerte rekkefølge og uten noen videre gruppering eller påtvunget rangordning. I noen tilfeller presenteres en utvalgt del av en tekst av et dokument for å gi brukeren et glimt av dokumentets innhold.
Å sammenlikningsprøve forespørselstermer direkte "boolsk" har velkjente begrensninger, og spesielt identifiserer det ikke dokumenter som ikke har forespørselstermen, men har beslektede ord. For eksempel vil i et typisk boolsk system, et søk på "Australian Shepherds" (en amerikansk gjeterhundrase) ikke returnere dokumenter om andre gjeterhunder, slike som border collier som ikke har de eksakte forespørselstermene. Et slikt system vil trolig heller også gjenfinne, og rangere høyt dokumenter som er om Australia (og ikke har noe med hunder å gjøre), og dokumenter om "shepherds" (gjetere) generelt.
Problemet her at vanlige systemregisterdokumenter er basert på individuelle termer heller enn på begreper. Begreper er ofte uttrykt i uttrykk, slike som "Australian Shepherd", "president i Amerikas Forente Stater" eller "Sundance film festival". I beste fall vil noen tidligere systemer registrere dokumenter med hensyn til et forhåndsbestemt og veldig begrenset sett av "kjente" uttrykk, som typisk er valgt av en menneskelig operatør. Å registrere uttrykkene blir typisk unngått fordi de erkjente krav til databehandling og minne for å identifisere alle mulige uttrykk av for eksempel tre, fire eller fem eller flere ord. For eksempel ved antagelsen at hvilke som helst fem ord kunne utgjøre et uttrykk, og en storskalasamling ville ha i det minste 200 000 unike termer, vil det være 3,2 x 10 26 mulige uttrykk, klart mer enn noe eksisterende system kunne lagre i minne eller på annen måte håndtere med programmer. Et ytterligere problem er at uttrykkene kontinuerlig kommer og går i leksikonet, uttrykt i deres bruk, mye oftere enn nye enkeltord blir funnet opp. Nye uttrykk produseres hele tiden, fra kilder som teknologi, kunst, verdensbegivenheter og juss. Andre uttrykk vil falle i bruk over tid.
Noen eksisterende informasjonsgjenfinningssystemer forsøker å sørge for gjenfinning av begreper ved å bruke samforekomstmønstre av individuelle ord. I disse systemene vil et søk på ett ord, slik som "president" også gjenfinne dokumenter som ofte vises sammen med "president", slike som "hvite" og "hus". Mens denne fremgangsmåte kan frembringe søkeresultater som har dokumenter som er begrepsmessig forbundet på nivået av enkeltord, vil den typisk ikke fange opp emnemessige sammenhenger som hører til mellom samforekommende uttrykk.
Følgelig er det et behov for et informasjonsgjenfinningssystem og en metodologi som vidtfavnende kan identifisere uttrykk i en storskala samling, registrere dokumenter i henhold til uttrykk, søke og rangere dokumenter i henhold til deres uttrykk, og sørge for tilleggsklynging og beskrivende informasjon om dokumentene.
Et annet problem med konvensjonelle informasjonsgjenfinningssystemer er at de kan bare registrere en forholdsvis liten del av dokumentene som er tilgjengelige på internettet. Det er for tiden anslått at det er over 200 milliarder sider på internettet i dag. Imidlertid kan selv de beste søkemotorer registrere bare 6 til 8 milliarder sider, og mister derved flesteparten av de tilgjengelige sidene. Det er flere grunner for den begrensede registreringskapasiteten av eksisterende systemer. Mest betydelig stoler typiske systemer på en variant av et omvendt register som for hver term opprettholder (som drøftet over) en liste av hver side på hvilken termen forekommer, sammen med posisjonsinformasjon som identifiserer den eksakte posisjonen av hver forekomst av termen på siden. Kombinasjonen av å registrere individuelle termer og registrere posisjonsinformasjon krever et veldig stort lagringssystem.
Ytterligere et problem med mange informasjonsgjenfinningssystemer som er brukt for å søke på internettet er deres manglende evne til å arkivere sider som endrer over tid. Konvensjonelt vil de fleste internettsøkemaskiner bare lagre relevansinformasjon for en nåværende tilstand (eller utgave) av en gitt side, og oppdatere denne informasjonen hver gang siden blir nyregistrert. Som et resultat vil et gitt søk bare returnere gjeldende versjon av sider som tilfredsstiller forespørselen. Som et resultat er brukere ikke i stand til å søke etter tidligere tilstander av sider, eller sider som var gjeldende i et bestemt datointervall. Likeledes benytter søkemotorene heller ikke versjons- eller datorelatert relevansinformasjon når de vurderer søkeforespørsler eller presenterer søkeresultater.
Følgelig er det ønskelig å sørge for et informasjonsgjenfinningssystem som effektivt kan registrere titalls milliarder og eventuelt over 100 milliarder sider av innhold, uten de store kravene til lagring som eksisterende systemer har.
Et informasjonsgjenfinningssystem og en metodologi bruker uttrykk til å registrere, søke, rangere og beskrive dokumenter i dokumentsamlingen. Systemet er tilpasset til å identifisere uttrykk som har tilstrekkelig brukshyppighet og/eller bemerket bruk i dokumentsamlingen for å vise at de er "gyldige" eller "gode" uttrykk. På denne måten kan flerordsuttrykk, for eksempel uttrykk av fire, fem eller flere termer bli identifisert. Dette unngår problemet med å måtte identifisere og registrere hvert mulige uttrykk som ville vært resultatet av alle de mulige sekvenser av et gitt antall av ord.
Systemet er videre tilpasset til å identifisere uttrykk som er forbundet med hverandre, basert på et uttrykks evne til å forutsi forekomsten av andre uttrykk i et dokument. Mer bestemt blir et forutsigelsesmål brukt som forbinder det aktuelle samforekomstforhold av to uttrykk med en ventet samforekomstrate av de to uttrykk. Informasjonsforsterkning, som forholdet av det aktuelle samforekomstforhold til ventet samforekomstforhold, er ett slikt forutsigelsesmål. To uttrykk er beslektet hvor forutsigelsesmålet overstiger en forutbestemt terskel. I det tilfelle har det andre uttrykket en betydelig informasjonsforsterkning med hensyn til det første uttrykket. Semantisk vil beslektede uttrykk være de som til vanlig er brukt til å diskutere eller beskrive et gitt emne eller begrep, slike som "president i Amerikas Forente Stater" og "Det hvite hus". For et gitt uttrykk kan de beslektede uttrykkene bli ordnet etter deres relevans eller betydning basert på deres respektive forutsigelsesmål.
Et informasjonsgjenfinningssystem registrerer dokumenter i dokumentsamlingen ved de gyldige eller gode uttrykkene. For hvert uttrykk identifiserer en innføringsliste dokumentene som inneholder uttrykket. I tillegg er for et gitt uttrykk en andre liste, vektor eller annen struktur, brukt til å lagre data som viser hvilke av de beslektede uttrykkene av det gitte uttrykket som også er tilstede i hvert dokument som inneholder det gitte uttrykket. På denne måten kan systemet enkelt identifisere ikke bare hvilke dokumenter som inneholder hvilke uttrykk som svar på en søkeforespørsel, men hvilke dokumenter som også inneholder uttrykk som er beslektet med forespørselsuttrykkene, og derfor sannsynligvis er mer spesifikke på emnene eller begrepene som er uttrykt i forespørselsuttrykkene.
Informasjonsgjenfinningssystemet er også tilpasset til å bruke uttrykkene under søk etter dokumenter som svar på en forespørsel. Forespørselen behandles for å identifisere ethvert uttrykk som er tilstede i forespørselen, for slik å gjenfinne de tilhørende innføringslister for forespørselsuttrykkene og den beslektede uttrykksinformasjonen. I tillegg kan brukeren i noen tilfeller gi inn et uferdig uttrykk i en søkeforespørsel, slik som "president i". Uferdige uttrykk som disse kan bli identifisert og erstattet med en uttrykksutvidelse, slik som "president i Amerikas Forente Stater". Dette hjelper til å sikre at brukerens mest sannsynlige søk faktisk blir utført.
En annen side av den foreliggende oppfinnelsen er evnen til å registrere et
ekstremt stort antall av dokumenter, i størrelsesorden ett hundre milliarder eller mer ved bruk av en flerregisteroppbygging. I én utførelse er det sørget for et primær- og et sekundærregister. Primærregisteret lagrer registerdata for uttrykk, med et begrenset antall dokumenter registrert for hvert uttrykk. For et bestemt uttrykk er registerdata for dokumentene lagret i rangert rekkefølge av dokumentets relevans til uttrykket. Denne lagringsordningen er foretrukken både logisk og fysisk (det vil si hvordan data blir lagret på de underliggende lagringsenheter). Hvor mer enn det begrensede antall av dokumenter innbefatter et bestemt uttrykk, blir registerdata for disse gjenstående dokumentene lagret i sekundærregisteret, men her ordnet ved dokumentnummer i steden for relevansrangering, og gjenfunnet, for eksempel ved bruk av spre/samle type metoder.
For eksempel kan primærregisteret være ordnet for å lagre 32k (32 768) dokumentregistreringer for hvert uttrykk, og sekundærregisteret bygget opp for å lagre eventuelle ytterligere dokumentregistreringer for ytterligere dokumenter utover de 32k som inneholder uttrykket. For å oppnå dokumentregistreringene for primærregisteret, er dokumentene gitt verdi for relevans med hensyn til uttrykket, og rangert etter deres relevansverdi. Alternativt kan dokumentene bli rangert ordnet etter forskjellige dokumentsærtrekk som er anvendelige for relevansanalyse. Rangeringen for dokumentregistreringene blir brukt for å partisjonere registreringene mellom primærregisteret og sekundærregisteret. Hvor det er mindre enn det begrensede antall av dokumenter som inneholder uttrykket, så blir alle registreringene lagret i primærregisteret, igjen i relevansrangert rekkefølge. Registreringsordningen muliggjør en ti- til femtengangs økning i lagringskapasiteten for registeret, og på grunn av den optimaliserte registerinformasjonen en tigangs økning i serverytelse.
En annen side av den foreliggende oppfinnelsen er evnen til å registrere flere utgaver eller tilstander av dokumenter for arkivering. Denne evnen gjør en bruker i stand til å søke etter dokumenter innenfor et bestemt datoutvalg, og muliggjør at relevansinformasjon som angår dato eller versjon blir brukt til å evaluere dokumenter som svar på søkeforespørsler og til å organisere søkeresultater. I én utførelse blir et dokument forbundet med ett eller flere datoutvalg. Hvert datoutvalg blir forbundet med relevansdata utledet fra dokumentet og ansett for å være gyldig gjennom datoutvalget. Et gjeldende datoutvalg blir forbundet med en gjeldende tilstand av dokumentet, fra datoen som dokumentet mest nylig var registrert. Når et dokument påtreffes under et registreringsgjennomløp, blir det sammenliknet med en tidligere utgave for å bestemme om dokumentet har blitt endret. Hvis dokumentet ikke har blitt endret, så blir registrert relevansdata opprettholdt. Hvis dokumentet har blitt endret, så blir gjeldende datoutvalg for dokumentet avsluttet, og dokumentet blir nyregistrert, og et nytt gjeldende datoutvalg blir etablert, og forbundet med de gjeldende relevansdataene.
Den foreliggende oppfinnelsen has ytterligere utførelser i system og programvarearkitektur, dataprogramprodukter og datarealiserte fremgangsmåter og datagenererte brukergrensesnitt og presentasjoner.
Det forutgående er bare noen av særtrekkene ved et informasjonsgjenfinningssystem og metodologi basert på uttrykk. Fagmenn innen informasjonsgjenfinning vil innse at fleksibiliteten av generaliteten ved uttrykksinformasjonen tar hensyn til et stort utvalg av bruksmåter og anvendelser innen registrering, dokumentkommentarer, søking, rangering og andre områder av dokumentanalyse og behandling. Figur 1 er et blokkskjema av programvarearkitekturen av én utførelse av den foreliggende oppfinnelsen.
Figur 2 illustrerer en fremgangsmåte av å identifisere uttrykk i dokumenter.
Figur 3 illustrerer et dokument med et uttrykksvindu og et sekundært vindu.
Figur 4 illustrerer en fremgangsmåte av å identifisere beslektede uttrykk.
Figur 5 illustrerer en fremgangsmåte av å registrere dokumenter for beslektede uttrykk. Figur 6 illustrerer en fremgangsmåte av å gjenfinne dokumenter basert på uttrykk. Figurene avbilder en foretrukken utførelse av den foreliggende oppfinnelsen kun i illustrasjonshensikt. En fagmann vil fra den følgende drøftelsen lett innse at alternative utførelser av oppbyggingene og fremgangsmåtene illustrert heri kan bli brukt uten å avvike fra prinsippene av oppfinnelsen beskrevet heri.
I. Systemoversikt
Under henvisning til figur 1 er nå programvarearkitekturen av en utførelse av et søkesystem 100 i henhold til én utførelse av den foreliggende oppfinnelsen vist. I denne utførelsen innbefatter systemet et registreringssystem 110, et søkesystem 120, et presentasjonssystem 130 og en frond-end server 140.
Registreringssystemet 110 er ansvarlig for å identifisere uttrykk i dokumenter,
og registrere dokumenter i henhold til deres uttrykk, ved å få tilgang til et rikt utvalg nettsteder 190 og andre dokumentsamlinger. Front-end serveren 140 mottar forespørsler fra en bruker av en klient 170, og forsyner disse forespørslene til søkesystemet 120. Søkesystem et 120 er ansvarlig for å søke etter dokumenter som er relevante for søkeforespørselen (søkeresultatene), innbefattet å identifisere hvilke som helst uttrykk i søkeforespørselen, og så rangere dokumentene i søkeresultatet ved å bruke forekomsten av uttrykkene til å påvirke rangeringsrekkefølgen. Søkesystemet 120 besørger søkeresultatene til presentasjonssystemet 130. Presentasjonssystemet 130 er ansvarlig for å endre søkeresultatene, innbefattet å fjerne nesten like dokumenter, og å utarbeide emnemessige beskrivelser av dokumenter, og å sørge for å få de endrede søkeresultater tilbake til front-end serveren 140, som sørger for resultatene til klienten 170. Ytterligere innbefatter systemet 100 et primærregister 150 og et sekundærregister 152 som lagrer registrerings informasjonen som angår dokumenter og et uttrykksdatalager 160 som lagrer uttrykk og beslektet statistisk informasjon. Primærregisteret 150 er fordelt over et antall av primærservere 1 ... Ml, og sekundærregisteret er likeledes fordelt over et antall sekundærservere 1 ... M2.
I denne anvendelsessammenhengen blir "dokument" forstått å være enhver type av media som kan bli registrert og gjenfunnet av en søkemaskin, innbefattende webdokumenter, bilder, multimediafiler, tekstdokumenter, PDFer eller andre bildeformaterte filer og så videre. Et dokument kan ha én eller flere sider, partisjoner, segmenter eller andre bestanddeler som passer for dets innhold og type. Likeledes kan et dokument henvises til som en "side", som er vanlig å bruke til å henvise til dokumenter på internettet. Bruken av den vanlige betegnelsen "dokument" innebærer ingen begrensning i omfanget av oppfinnelsen. Søkesystemet 100 opererer over en stor sammenheng av dokumenter, slik som internettet og verdensveven, men kan likeledes bli brukt i mer begrensede samlinger, slike som for dokumentsamlingene av et bibliotek eller private selskaper. I begge sammenhenger vil det innses at dokumentene typisk er spredt over mange forskjellige datasystemer og steder. Uten tap av generalitet vil så dokumentene i alminnelighet, uavhengig av format eller plassering (for eksempel hvilken nettsted eller database) i fellesskap bli henvist til som en samling eller dokumentsamling. Hvert dokument har et tilknyttet navn som entydig identifiserer dokumentet, navnet er helst en URL, men andre typer av navn (for eksempel dokumentnumre) kan også bli brukt. I denne redegjørelsen er det antatt at URLer er brukt til å identifisere dokumenter.
II. Registreringssystem
I én utførelse sørger registreringssystemet 110 for tre primære funksjonelle arbeidsoperasjoner: 1) Identifisering av uttrykk og beslektede uttrykk, 2) registrering av dokumenter med hensyn på uttrykk og 3) generering og opprettholdelse av en uttrykksbasert taksonomi. Fagmenn vil innse at registreringssystemet 110 vil utføre andre oppgaver også, som støtter vanlige registreringsoppgaver, og dét selv om disse andre oppgavene ikke er beskrevet videre heri. Registreringssystemet 110 opererer på primærregisteret 150 og sekundærregisteret 152 og datalager 160 av uttrykksdata. Disse datalagrene er videre beskrevet under.
1. Uttrykksidentifisering
Uttrykksidentifiseringsoperasjonen av registreringssystemet 110 identifiserer "gode" og "dårlige" uttrykk i dokumentsamlingen som er brukelige for å registrere og søke etter dokumenter. Sett fra ett synspunkt er "gode uttrykk" uttrykk som har en tendens til å opptre i mer enn en viss prosentdel av dokumenter i dokumentsamlingen, og/eller er merket som å ha en bemerket fremtoning i slike dokumenter, slik som avgrenset av oppmerkingsmerker eller andre formlære-, format- eller grammatiske markører. En annen side av gode uttrykk er at de er forutsigende for andre gode uttrykk, og er ikke bare rekker av ord som vises i leksikonet. For eksempel er uttrykket "president i Amerikas Forente Stater" et uttrykk som forutsier andre uttrykk som "George Bush" og "Bill Clinton". Andre uttrykk er imidlertid ikke forutsigende, slike som "falt ned trappen", "God morra" eller "som julekvelden på kjerringa" siden idiomer og dagligtale som disse har en tendens til å vises med mange andre forskjellige og ubeslektede uttrykk. Derfor bestemmer uttrykksidentifiseringsfasen hvilke uttrykk som er gode uttrykk og hvilke som er dårlige (det vil si: mangler forutsigende kraft).
Nå under henvisning til figur 2, har uttrykksidentifiseringsprosessen de følgende oppgavetrinn: 200: Samle mulige og gode uttrykk, sammen med hyppighet og samforekomststatistikk av uttrykkene.
202: Systematisere mulige uttrykk til enten gode eller dårlige uttrykk basert på hyppighetsstatistikk.
204: Skjære ned på listen over gode uttrykk basert på et forutsigelsesmål utledet fra samforekomststatistikkene.
Hvert av disse trinn vil nå bli beskrevet i ytterligere detalj.
Det første trinnet, 200, er en prosess ved hvilken registreringssystemet 110 gjennomkravler (crawl) et sett av dokumenter i dokumentsamlingen ved å lage gjentatte partisjoner av dokumentsamlingen over tid. En partisjon blir behandlet for hvert gjennomløp. Antallet dokumenter som gjennomkravles per gjennomløp kan variere, og er helst omkring 1 000 000 per partisjon. Det er å foretrekke at bare tidligere ukravlede dokumenter blir behandlet i hver partisjon, inntil alle dokumenter har blitt behandlet, eller andre avslutningskriterier tilfredsstilles. I praksis fortsetter kravlingen mens nye dokumenter kontinuerlig blir lagt til dokumentsamlingen. De følgende skritt blir tatt av registreringssystemet 110 for hvert dokument som blir kravlet.
Gjennomkryss ordene i dokumentet med et uttrykksvindu med en lengde av n,
hvor n er en ønsket maksimal uttrykkslengde. Lengden av vinduet vil typisk være minst 2, og helst 4 til 5 termer (ord). Helst inneholder uttrykkene alle ordene i uttrykksvinduet, og innbefatter hva som ellers ville blikarakterisertsom stoppord, slike som "en", "den" og så videre. Et uttrykksvindu kan bli avsluttet av et linjeslutt, et avsnitts vognretur, et oppmerkingsmerke eller andre indikeringer på en endring i innhold eller format.
Figur 3 illustrerer en del av et dokument 300 under en gjennomkryssing, som viser uttrykksvinduet 302 som begynner ved ordet "stock" og strekker seg 5 ord mot høyre. Det første ordet i vinduet 302 er uttrykkskandidat i, og hver av rekkene i+1, 1+2, i+3, i+4 og i+5 er likeledes en uttrykkskandidat. Derfor er uttrykkskandidatene i dette eksempelet: "stock", "stock dogs", "stock dogs for", "stock dogs for the", "stock dogs for the Basque" og "stock dogs for the Basque shepherds".
I hvert uttrykksvindu 302 blir hver uttrykkskandidat kontrollert etter tur for å bestemme om det allerede er tilstede i listen over gode uttrykk 208 eller listen over mulige uttrykk 206. Hvis uttrykkskandidatene ikke er tilstede i hverken listen over gode uttrykk 208 eller listen over mulige uttrykk 206, så har kandidaten allerede blitt bedømt som "dårlig" og blir hoppet over.
Hvis uttrykkskandidaten er i listen over gode uttrykk 208 som registrering gj, så vil register-150 registreringen for uttrykk gjbli oppdatert til å innbefatte dokumentet (for eksempel dets URL eller annet dokumentnavn), for å vise at denne uttrykkskandidaten gjvises i det gjeldende dokumentet. En registrering i registeret 150 for et uttrykk gj, (eller en term) blir referert til som innføringslisten for uttrykket gj. Innføringslisten innbefatter en liste over dokumenter d (ved deres dokumentnavn, for eksempel et dokumentnummer eller alternativt en URL) i hvilken uttrykket forekommer. I én utførelse utledes dokumentnummeret ved en enveis fordelingsfunksjon (hash) av URLen ved bruk av for eksempel MD5.
I tillegg blir samforekomst matrisen 212 oppdatert som forklart videre under. I det aller første gjennomløpet vil listene over gode og dårlige være tomme, og derfor vil de fleste uttrykkene tendere til å bli lagt til listen over mulige uttrykk 206.
Hvis uttrykkskandidaten ikke er i listen over gode uttrykk 208 så blir den lagt til listen over mulige uttrykk 206, hvis den ikke allerede foreligger deri. Hver registrering p på listen over mulige uttrykk 206 har tre tilordnete tellere:
P(p): antall av dokumenter på hvilke det mulige uttrykk vises,
S(p): antall av alle tilfeller av det mulige uttrykket, og
M(p): antall av interessante tilfeller av det mulige uttrykket. Et eksempel på at et mulig uttrykk er "interessant" er hvor det mulige uttrykket er bemerket fra tilliggende innhold i dokumentet ved grammatiske eller formatmessige markører, for eksempel ved å være fet skrift eller understreket eller som ankertekst i en hyperlink eller i sitattegn. Disse (og andre) bemerkede fremtoninger blir vist ved forskjellige HTML-oppmerkingsspråkmerker og grammatiske markører. Disse statistikkene blir opprettholdt for et uttrykk når det blir plassert på listen over gode uttrykk 208.
I tillegg til de forskjellige listene blir en samforekomstmatrise 212 (G) for de gode uttrykkene opprettholdt. Matrisen G har en dimensjon av m x m, hvor m er antallet av gode uttrykk. Hver registrering G(j,k) i matrisen representerer et par av gode uttrykk (gj, gk)- Samforekomstmatrisen 212 opprettholder logisk (men ikke nødvendigvis fysisk) tre adskilte tellere for hvert par (gj, gk) av gode uttrykk med hensyn til et sekundærvindu 304 som er sentrert ved gjeldende ord i, og strekker seg +/- h ord. I én utførelse, slik som illustrert i figur 3 er sekundærvinduet 304 på 30 ord. Samforekomstmatrisen 212
opprettholder derfor:
R(j,k): Rå samforekomsttelling.: Antallet ganger som uttrykk gjforekommer i et sekundærvindu 304 med uttrykk gk,
D(j,k): Disjunktiv interessetelling.: Antallet ganger som enten uttrykk gjeller uttrykk gkforekommer som bemerket tekst i et sekundærvindu og
C(j,k): Konjunktiv interessetelling: Antall ganger som både gjog uttrykk gkforekommer som bemerket tekst i et sekundærvindu. Bruken av den konjunktive interessetellingen er spesielt fordelaktig for å unngå omstendighetene hvor et uttrykk (for eksempel et kopirettighetsvarsel) vises ofte i sidefelt, bunntekster eller topptekster og derfor ikke i virkeligheten er forutsigere av annen tekst.
Under henvisning til eksempelet i figur 3, anta at "stock dogs" er på listen over gode uttrykk 208, så vel som uttrykkene "Australian Shepherd" og "Australian Shepherd Club of America". Begge de siste uttrykkene vises innenfor sekundærvinduet 304 rundt gjeldende uttrykk "stock dogs". Imidlertid vises uttrykket "Australian Shepherd Club of America" som en ankertekst for en hyperlink (vist ved understrekningen) til et nettsted. Derfor vil den rå samforekomsttellingen for paret {"stock dogs", "Australian Shepherd"} inkrementeres, og den rå forekomsttellingen og den disjunktive interessetellingen for {"stock dogs", "Australian Shepherd Club of America"} begge bli inkrementert fordi den siste vises som bemerket tekst.
Prosessen av å gjennomkrysse hvert dokument med både sekvensvinduet 302 og sekundærvinduet 304 blir gjentatt for hvert dokument i partisjonen.
Når dokumentene i partisjonen har blitt gjennomkrysset er neste trinn av registreringsoperasjonen å oppdatere 202 listen over gode uttrykk 208 fra listen over mulige uttrykk 206. Et mulig uttrykk p på listen over mulige uttrykk 206 blir flyttet til listen over gode uttrykk 208 hvis hyppigheten av visninger av uttrykket og antallet av dokumenter som uttrykket vises i viser at det har tilstrekkelig bruk som semantisk
meningsfullt uttrykk.
I én utførelse blir dette testet som følger. Et mulig uttrykk p blir fjernet fra listen over mulige uttrykk 206 og plassert på listen over gode uttrykk 208 hvis: a) P(p) > 10 og S(p) > 20 (antallet av dokumenter som inneholder uttrykket p er større enn 10, og antallet av forekomster av uttrykket p er større enn 20) eller
b) M(p) > 5 (antallet av interessante tilfeller av uttrykk p er mer enn 5).
Disse tersklene er vektet av antallet av dokumenter i partisjonen, for eksempel hvis 2
000 000 dokumenter blir gjennomkravlet i en partisjon, så er tersklene omtrent doblet. Selvsagt vil fagmenn innse at de bestemte verdiene av tersklene, eller logikken for å teste dem kan bli endret som ønsket.
Hvis et uttrykk p ikke kvalifiserer for listen over gode uttrykk 208, så blir det kontrollert om det oppfyller kravene til et dårlig uttrykk. Et uttrykk p er et dårlig uttrykk hvis:
a) antallet av dokumenter som inneholder uttrykket, P(p) < 2, og
b) antallet av interessante tilfeller av uttrykket, M(p) = 0.
Disse tilstandene viser at uttrykket er både lite brukt, og ikke brukt til påvisning av
innhold med betydning og igjen kan disse tersklene bli vektet per antall av dokumenter i partisjonen.
Det bør bemerkes at listen over gode uttrykk 208 naturlig vil inneholde enkeltord som uttrykk, i tillegg til flerordsuttrykk som beskrevet over. Dette er fordi det første ordet i hvert uttrykksvindu 302 alltid er et kandidatuttrykk, og de rette tilstandtellere vil bli akkumulert. Derfor kan registreringssystemet 110 automatisk registrere både enkeltord (det vil si uttrykk med ett enkelt ord) og flerordsuttrykk. Listen over gode uttrykk 208 vil også bli betydelig kortere enn det teoretisk maksimale basert på alle mulige kombinasjoner av m uttrykk. I en typisk utførelse vil listen over gode uttrykk 208 inkludere omtrent 6,5x10<5>uttrykk. En liste over dårlige uttrykk er det ikke nødvendig å lagre, siden systemet bare trenger å beholde sporing på mulige og gode uttrykk.
Ved det avsluttende gjennomløpet av dokumentsamlingen vil listen over mulige uttrykk være relativt kort på grunn av den ventede fordelingen av bruken av uttrykkene i en stor samling. Derfor, hvis la oss si ved det tiende gjennomløpet (for eksempel 10 000 000 dokumenter) et uttrykk vises for aller første gang, er det trolig ikke et godt uttrykk den gangen. Det kan være et nytt uttrykk som nettopp kommet i bruk, og derfor under etterfølgende gjennomkravlinger blir stadig mer vanlig. I det tilfellet vil dets respektive tellinger øke og kan til slutt tilfredsstille tersklene for å bli et godt uttrykk.
Det tredje trinnet av registreringsoperasjonen er å skjære ned på 204 listen over gode uttrykk 208 ved å bruke et forutsigelsesmål utledet fra samforekomstmatrisen 212. Uten å ha skåret ned, vil trolig listen over gode uttrykk 208 innbefatte mange uttrykk, som mens de har lov til å forekomme i leksikonet, ikke av seg selv forutsier tilstrekkelig forekomsten av andre uttrykk, eller de selv er underrekker av lengre uttrykk. Å fjerne disse svake gode uttrykkene resulterer i en veldig robust sannsynlighet av gode uttrykk. For å identifisere gode uttrykk blir et forutsigelsesmål brukt som uttrykker den økte sannsynlighet av at ett uttrykk vises i et dokument, gitt forekomsten av et annet uttrykk. Dette blir i én utførelse gjort som følger: Som bemerket over er samforekomstmatrisen 212 en m x m matrise for å lagre data forbundet med de gode uttrykkene. Hver rad j i matrisen representerer et godt uttrykk gjog hver kolonne k representerer et godt uttrykk gk. For hvert gode uttrykk gjblir en forventningsverdi E(gj) beregnet. Forventningsverdien E er prosentdelen av dokumentene i samlingen som ventes å inneholde gj. Dette blir beregnet for eksempel som forholdet av antallet av dokumenter som inneholder gjtil det totale antall T av dokumenter i samlingen som har blitt gjennomkravlet: P(j)/T.
Som bemerket over blir antallet av dokumenter som inneholder gjoppdatert hver gang gjvises i et dokument. Verdien for E(gj) kan oppdateres hver gang tellingene for gj blir
inkrementert, eller under dette tredje trinn.
Så, for hvert av de andre gode uttrykkene gk(for eksempel kolonnene i matrisen), blir det bestemt hvorvidt gj forutsier gk. Et forutsigelsesmål for gjblir bestemt som følger: i) beregn den forventede verdien E(gk). Den forventede samforekomstraten E(j,k) av gjog gk, hvis de er ubeslektede uttrykk er så: E(gj)<*>E(gk),
ii) beregn den aktuelle samforekomstraten A(j,k) av gjog gk. Dette er den rå samforekomsttellingen R(j,k) delt med T, det totale antall av dokumenter,
iii) gjblir sagt å forutsi gkhvor den aktuelle samforekomstraten A(j,k) overstiger den ventede samforekomstraten E(j,k) med en terskelverdi.
I én utførelse er forutsigelsesmålingen informasjonsforsterkning, Således forutsier et uttrykk gjet annet uttrykk gknår informasjonsforsterkningen I av gkved forekomsten av gjoverstiger en terskel. I én utførelse blir dette beregnet som følger:
I(j,k) = A(j,k)/E(j,k)
Og godt uttrykk gjforutsier godt uttrykk gkhvor:
I(j,k) > terskelen for informasjonsforsterkning.
I én utførelse er terskelen for informasjonsforsterkning 1,5, men er helst mellom 1,1 og 1,7. Å heve terskelen over 1,0 tjener til å redusere muligheten for at to ellers ubeslektede uttrykk samforekommer mer enn tilfeldig forutsagt.
Som bemerket blir beregningen av informasjonsforsterkningen gjentatt for hver kolonne k av matrisen G med hensyn på en gitt rad j. Når en rad er ferdig, hvis ikke informasjonsforsterkningen for noen av de gode uttrykkene gkoverstiger terskelen for informasjonsforsterkning, så betyr dette at uttrykk gjikke forutsier noe annet godt uttrykk. I det tilfellet blir gj fjernet fra listen over gode uttrykk 208, og blir i hovedsak et dårlig uttrykk. Merk at kolonnen j for uttrykket gjblir ikke fjernet siden uttrykket selv kan bli forutsagt av andre gode uttrykk.
Dette trinnet blir avsluttet når alle radene av samforekomstmatrisen 212 har blitt evaluert.
Det avsluttende trinnet av denne fasen er å skjære ned på listen over gode uttrykk 208 for å fjerne uferdige uttrykk. Et uferdig uttrykk er et uttrykk som bare forutsier sine uttrykksutvidelser og som begynner i venstre kant av uttrykket (det vil si begynnelsen av uttrykket). "Uttrykksutvidelsen" av uttrykk p er et lengre uttrykk (super-sequence) som begynner med uttrykket p. For eksempel forutsier uttrykket "president i": "president i Amerikas Forente Stater", "president i Mexico", "president i AT&T" og så videre. Alle disse siste uttrykkene er uttrykksutvidelser av uttrykket "president i", siden de begynner med "president i" og er lengre uttrykk derav.
Følgelig vil hvert uttrykk gjsom gjenstår på listen over gode uttrykk 208 forutsi et antall av andre uttrykk, basert på den tidligere drøftede terskelen for informasjonsforsterkning. For hvert uttrykk gjutfører registreringssystemet 110 nå en strengsammenlikning med hvert av de uttrykkene gksom det forutsier. Strengsammenlikningen prøver hvorvidt hvert forutsagt uttrykk gker en uttrykksutvidelse av uttrykket gj. Hvis alle de forutsagte uttrykkene gker uttrykksutvidelser av uttrykk gj, så er gjuferdig, og blir fjernet fra listen over gode uttrykk 208 og lagt til en liste over uferdige uttrykk 216. Derfor, hvis det er minst ett uttrykk gksom ikke er en utvidelse av gj, så er gjferdig og opprettholdes i listen over gode uttrykk 208. For eksempel er "president i Amerikas Forente" et uferdig uttrykk fordi det eneste andre uttrykket som det forutsier er "president i Amerikas Forente Stater" som er en utvidelse av uttrykket.
Listen over uferdige uttrykk 216 er i seg selv veldig nyttig under virkelig søking. Når en søkeforespørsel blir mottatt, kan den sammenliknes med listen over uferdige uttrykk 216. Hvis forespørselen (eller en del av den) passer til en registrering i listen, så kan søkesystemet 120 slå opp etter de mest sannsynlige uttrykksutvidelsene til det uferdige uttrykket (uttrykksutvidelsen som har den høyeste informasjonsforsterkningen gitt det uferdige uttrykket) og foreslå denne uttrykksutvidelsen for brukeren, eller automatisk søke på uttrykksutvidelsen. Hvis for eksempel søkeforespørselen er "president i Amerikas Forente", kan søkesystemet 120 automatisk foreslå for brukeren "president i Amerikas Forente Stater" som søkeforespørsel.
Etter at det siste trinnet av registreringsprosessen er fullført, vil listen over gode uttrykk 208 inneholde et stort antall av gode uttrykk som har blitt oppdaget i samlingen. Hvert av disse gode uttrykkene vil forutsi i det minste ett annet uttrykk som ikke er en uttrykksutvidelse av seg. Det betyr at hvert gode uttrykk blir brukt med tilstrekkelig hyppighet og uavhengighet til å representere meningsfulle begreper eller ideer som er uttrykt i samlingen. Ulikt eksisterende systemer som bruker forutbestemte eller manuelt utvalgte uttrykk, reflekterer listen over gode uttrykk, uttrykk som faktisk er brukt i samlingen. Videre vil, siden prosessen over av å kravle og registrere blir gjentatt periodisk mens nye dokumenter blir lagt til dokumentsamlingen, registreringssystemet 110 automatisk oppdage nye uttrykk når de kommer inn i leksikonet.
2. Identifisering av beslektede uttrykk og klynger av beslektede uttrykk.
Under henvisning til figur 4 innbefatter den beslektede uttrykksidentifikasjonsprosessen de følgende funksjonelle arbeidsoperasjonene.
400: Identifisere beslektede uttrykk som har en høy informasjonsforsterkningsverdi.
402: Identifisere klynger av beslektede uttrykk.
404: Lagre klyngebitvektor og klyngenummer.
Hver av disse operasjonene blir nå beskrevet i detalj.
Tenk først tilbake til at samforekomstmatrisen 212 inneholder gode uttrykk gj, hvert av disse forutsier i det minste ett annet godt uttrykk gkmed en informasjonsforsterkning større enn terskelen for informasjonsforsterkning. For så å identifisere 400 beslektede uttrykk, blir så for hvert par av gode uttrykk (gj, gk) informasjonsforsterkningen sammenliknet med en beslektetuttrykkterskel, for eksempel 100. Det betyr at gjog gker beslektede uttrykk hvor:
I(gj, gk) > 100.
Denne høye terskelen blir brukt til å identifisere samforekomsten av gode uttrykk som er godt utenfor de statistisk forventede hyppigheter. Statistisk betyr det at uttrykkene gjog gksamforekommer 100 ganger mere enn den ventede samforekomstraten. For eksempel, gitt uttrykket "Monica Lewinsky" i et dokument, er uttrykket "Bill Clinton" 100 ganger mer sannsynlig å vises i det samme dokumentet enn uttrykket "Bill Clinton" er sannsynlig å vises i hvilket som helst tilfeldig valgt dokument. En annen måte å si dette på er at nøyaktigheten av forutsigelsen er 99,999% fordi forekomstraten er 100:1.
Følgelig vil enhver registrering (gj, gk) som er mindre enn beslektetuttrykkterskelen bli nullet ut, og vise at uttrykkene gjog gkikke er beslektet. Hvilke som helst gjenværende uttrykk i samforekomstmatrisen 212 viser nå alle de beslektede uttrykkene.
Kolonnen gki hver rad gjav samforekomstmatrisen 212 blir så sortert etter informasjonsforsterkningsverdiene I(gj, gk) slik at de beslektede uttrykkene gkmed den høyeste informasjonsforsterkningen blir listeført først. Denne sorteringen identifiserer derfor for et gitt uttrykk gj, hvilke andre uttrykk som mest sannsynlig er beslektet uttrykt i informasjonsforsterkning.
Det neste skrittet er å bestemme 402 hvilke beslektede uttrykk som sammen danner en klynge av beslektede uttrykk. En klynge er et sett av beslektede uttrykk i hvilket hvert uttrykk har høy informasjonsforsterkning med hensyn til i det minste ett annet uttrykk. I én utførelse blir klynger identifisert som følger.
I hver rad gjav matrisen vil det være ett eller flere andre uttrykk som er beslektet med uttrykk gj. Dette settet er beslektetuttrykksettet Rj, hvor R = {gk, gi,... gm}.
For hvert beslektet uttrykk m i Rj, bestemmer registreringssystemet 110 om hvert av de andre beslektede uttrykkene i R også er beslektet med gj. Derfor, hvis I(gk,gi) også er ulik null, så er gj, gkog gi del av en klynge. Denne klyngeprøven blir gjentatt for hvert par (gi,<g>m) i R.
Anta for eksempel at det gode uttrykket "Bill Clinton" er beslektet med uttrykkene "president" og "Monica Lewinsky" fordi informasjonsforsterkningen til hvert av disse uttrykkene med hensyn til "Bill Clinton" overstiger terskelen for beslektede uttrykk. Anta videre at uttrykket "Monica Lewinsky" er beslektet med uttrykket "veskedesigner". Disse uttrykkene danner så settet R. For å bestemme klyngene, evaluerer registreringssystemet 110 informasjonsforsterkningen av hvert av disse uttrykkene til de andre ved å bestemme deres korresponderende informasjonsforsterkninger. Derfor bestemmer registreringssystemet 110 informasjonsforsterkningene I("president", "Monica Lewinsky"), I("president", "veskedesigner") og så videre, for alle parene i R. I dette eksemplet vil "Bill Clinton", "president" og "Monica Lewinsky" danne én klynge, "Bill Clinton" og "president" danne en annen klynge, "Monica Lewinsky" og "veskedesigner" danne en tredje klynge og "Monica Lewinsky", "Bill Clinton" og "veskedesigner" danne en fjerde klynge. Dette er fordi mens "Bill Clinton" ikke forutsier "veskedesigner" med tilstrekkelig informasjonsforsterkning, forutsier "Monica Lewinsky" begge disse uttrykkene.
For å lagre 404 klyngeinformasjonen blir hver klynge tilordnet et unikt klyngenummer (klynge ID). Denne informasjonen blir så lagret i forbindelse med hvert gode uttrykk gj.
I én utførelse blir klyngenummeret bestemt av en klyngebitvektor som også viser
ortogonalitetsforholdene mellom uttrykkene. Klyngebitvektoren er en sekvens av bit av lengde n, antallet av gode uttrykk i listen over gode uttrykk 208. For et gitt godt uttrykk gj, korresponderer bitposisjonene til de sorterte beslektede uttrykkene R av gj. Et bit blir satt hvis det beslektede uttrykket gki R er i den samme klyngen som uttrykket gj. Mer
generelt betyr dette at det korresponderende bitet i klyngebitvektoren er satt hvis det er informasjonsforsterkning i minst en av retningene mellom gj og gk.
Klyngenummeret blir så verdien av den resulterende bitrekken.
Denne utførelse har egenskapen at beslektede uttrykk som har fler- eller enveis informasjonsforsterkning vises i samme klyngen.
Et eksempel av klyngebitvektorer er som følger, ved bruk av uttrykkene over:
For så å sammenfatte, etter denne prosessen vil det for hvert godt uttrykk gj, bli identifisert et sett av beslektede uttrykk R, som er sortert etter
informasjonsforsterkningen I(gj,gk) fra høyest til lavest. I tillegg vil det for hvert godt uttrykk gj være en klyngebitvektor, verdien av hvilken er et klyngenummer som identifiserer primærklyngen av hvilken uttrykket gjer et medlem, og
ortogonalitetsverdiene (1 eller 0 for hver bitposisj on) for å vise hvilke av de beslektede uttrykkene i R som er i felles klynge med gj. Derfor er i eksemplet over "Bill Clinton", "president" og "Monica Lewinsky" i klynge 14 basert på verdiene av bitene i raden for uttrykket "Bill Clinton".
For å lagre denne informasjonen er to grunnrepresentasjoner tilgjengelige. Først, som vist over, kan informasjonen bli lagret i samforekomstmatrisen 212, hvori:
registrering G[rad j, kol. k] = (I(j,k),klyngenummer, klyngebitvektor).
Alternativt kan matriserepresentasjonen bli unngått og all informasjonen
lagret i listen over gode uttrykk 208, hvori hver rad deri representerer et godt uttrykk gj:
Uttrykk radj= liste[uttrykk gk, (I(j,k), klyngenummer, klyngebitvektor)].
Denne fremgangsmåten sørger for en brukbar organisering for klyngene. For det første: heller enn en streng og ofte tilfeldig definert rangordning av emner og begreper, anerkjenner denne fremgangsmåten at emner, som vist ved beslektede uttrykk, danner en kompleks grafisk fremstilling av forbindelser, hvor noen uttrykk er beslektet med mange andre uttrykk og noen uttrykk har en mer begrenset ramme, og hvor forbindelsene kan være gjensidige (hvert uttrykk forutsier det andre uttrykket) eller ensidige (ett uttrykk forutsier det andre, men ikke vice versa). Resultatet er at klynger kan blikarakterisertsom "lokale" til hvert gode uttrykk, og noen klynger vil så overlappe ved å ha ett eller flere felles beslektede uttrykk.
For et gitt godt uttrykk gjsørger så rangeringen av de beslektede uttrykkene ved informasjonsforsterkning for en ordning for å navngi klyngene av uttrykket: klyngenavnet er navnet av det beslektede uttrykket i klyngen som har den høyeste informasj onsforsterkningen.
Prosessen over sørger for en veldig robust måte å identifisere uttrykk med betydning som vises i dokumentsamlingen, det er også fordelaktig at det er måten disse beslektede uttrykkene er brukt sammen i naturlige "klynger" i praktisk virkelighet. Som et resultat unngår denne datastyrte klyngingen av beslektede uttrykk de iboende skjevhetene som finnes i ethvert manuelt styrt "redigert" utvalg av beslektede termer og begreper, som er vanlige i mange systemer.
3. Registrere dokumenter med uttrykk og beslektede uttrykk.
Gitt listen over gode uttrykk 208, innbefattet informasjonen som hører til beslektede uttrykk og klynger, er den neste funksjonelle arbeidsoperasjonen av registreringssystemet 110 å registrere dokumenter i dokumentsamlingen med hensyn til de gode uttrykk og klynger, og å lagre den oppdaterte informasjonen i primærregisteret 150 og sekundærregisteret 152. Figur 5 illustrerer denne prosessen, i hvilken det er de følgende funksjonelle skrittene for å registrere et dokument:
500: Føre dokumentet inn i innføringslisten for gode uttrykk funnet i dokumentet.
502: oppdatere tellinger av tilfeller og beslektetuttrykkbitvektor for beslektede uttrykk og sekundærbeslektede uttrykk.
504: Ordne registerinnføringer på nytt i henhold til innføringslistestørrelse.
506: Rangere registerinnføringer i hver innføringsliste etter en
informasjonsgjenfinnings verdi eller en egenskapsverdi.
508: Dele hver innføringsliste mellom primærserveren 150 og en sekundærserver 152.
Disse trinnene blir nå beskrevet i ytterligere detalj.
Et sett av dokumenter blir gjennomkrysset eller gjennomkravlet som før, dette kan være det samme eller et annet sett av dokumenter. For et gitt dokument d, gjennomkryss 500 dokumentet ord for ord med et sekvensvindu 302 av lengde n fra posisjon i, på måten beskrevet over.
I et gitt uttrykksvindu 302, identifisér alle gode uttrykk i vinduet, ved å begynne ved posisjon i. Hvert gode uttrykk blir betegnet som g;. Dermed blir gi det første gode uttrykk, g2ville bli det andre gode uttrykk og så videre.
For hvert godt uttrykk g; (for eksempel: gi "president" og g4"president i ATT") før inn dokumentnavnet (for eksempel URLen) i innføringslisten for det gode uttrykket g; i registeret 150. Denne oppdateringen identifiserer at det gode uttrykket gi vises i dette
bestemte dokumentet.
I én utførelse vil innføringslisten for et uttrykk gjanta den logiske formen:
Uttrykk gj: liste: (dokument d, [liste: beslektedeuttrykktellinger] [ beslektet uttrykks inf ormasj on])
For hvert uttrykk gjer det en liste av dokumentene d i hvilke uttrykket vises. For hvert dokument er det en liste med tellinger av antallet av forekomster av de beslektede uttrykkene R av uttrykket gjsom også vises i dokument d.
I én utførelse er den beslektede uttrykksinformasj onen en beslektetuttrykkbitvektor. Denne bitvektoren kan værekarakterisertsom en "bibif-vektor ved at for hvert beslektet uttrykk gker det to bitposisj oner, gk-i og gk-2- Den første bitposisjonen lagrer et flagg som viser hvorvidt det beslektede uttrykket gker tilstede i dokument d (det vil si: telleren for gki dokumentet d er større enn 0). Den andre bitposisjonen lagrer et flagg som viser hvorvidt et beslektet uttrykk gi av gkogså er tilstede i dokumentet d. De beslektede uttrykkene gi av et beslektet uttrykk gkav et uttrykk gjer heri kalt de "sekundærbeslektede uttrykkene av gj". Tellingene og bitposisj onene korresponderer med den kanoniske orden av uttrykkene i R (sortert i orden etter avtagende informasjonsforsterkning). Denne sorteringsordenen har virkningen at den gjør det beslektede uttrykket gksom er høyest forutsagt av gjforbundet med det mest signifikante bitet av beslektetuttrykkbitvektoren, og det beslektede uttrykket gi som er minst forutsagt av gjforbundet med det minst signifikante bitet.
Det er nyttig å merke seg at for et gitt uttrykk g, vil lengden av
beslektetuttrykkbitvektoren og forbindelsen av de beslektede uttrykkene med de individuelle bit av vektoren være den samme med hensyn til alle dokumenter som inneholder g. Denne utførelsen har egenskapen at den tillater systemet å lett sammenlikne beslektetuttrykkbitvektorene for hvilke som helst (eller alle) dokumenter som inneholder g, for å se hvilke dokumenter som har et gitt beslektet uttrykk. Dette er fordelaktig for å lette søkeprosessen for å identifisere dokumenter som svar på en
søkeforespørsel. Følgelig vil et gitt dokument vises i innføringslistene av mange forskjellige uttrykk, og i hver slik innføringsliste vil beslektetuttrykksvektoren for det dokumentet være spesifikt for uttrykket som eier innføringslisten. Sett fra denne synsvinkelen bevares lokaliteten av beslektetuttrykkbitvektorene med hensyn til de enkelte uttrykk og dokumenter.
Følgelig innbefatter det neste trinnet 502 å gjennomkrysse sekundærvinduet 304 av den gjeldende registerposisjonen i dokumentet (som før et sekundærvindu av +/- K termer, for eksempel 30 termer) for eksempel fra i-K til i+K. For hvert beslektet uttrykk gkav g; som vises i sekundærvinduet 304, inkrementerer registreringssystemet 110 telleren av gkmed hensyn til dokumentet d i beslektedeuttrykktellingen. Hvis g; vises senere i dokumentet, og det beslektede uttrykket blir funnet igjen innenfor det senere sekundærvinduet, blir telleren igjen inkrementert.
Som bemerket blir det korresponderende første bitet gk-1 i
beslektetuttrykkbitavbildningen satt på grunnlag av tellingen, med bitet satt til 1 hvis tellingen for gker > 0, eller satt til 0 hvis tellingen er lik 0.
Så blir det andre bitet gk-2 satt ved å slå opp beslektet uttrykk gki registeret 150, identifisere i innføringslisten til gkregistreringen for dokumentet d, og så kontrollere de sekundærbeslektedeuttrykktellingene (eller bitene) for gkfor hvilke som helst av dets beslektede uttrykk. Hvis hvilke som helst av disse sekundærbeslektedeuttrykktellingene/bitene er satt, så viser det at de sekundærbeslektede uttrykkene av gjogså er tilstede i dokument d.
Når dokument d har blitt ferdigbehandlet på denne måten, vil
registreringssystemet 110 ha identifisert det følgende:
i) hvert godt uttrykk gji dokumentet d,
ii) for hvert godt uttrykk gj, hvilke av dets beslektede uttrykk gksom er tilstede i dokumentet d,
iii) for hvert beslektet uttrykk gktilstede i dokumentet d, hvilke av dets beslektede uttrykk gi (de sekundærbeslektede uttrykk av gj) som også er tilstede i dokumentet d.
a) Partisjonert registrering:
Hvert uttrykk i register 150 har blitt gitt et uttrykknummer, basert på hyppigheten av
sine forekomster i samlingen. Jo mer vanlig uttrykk, dess lavere uttrykknummer mottar det i registeret. Registreringssystemet 110 sorterer 504 så alle innførings listene 214 i primærregisteret 150 i fallende orden i henhold til antallet dokumenter listeført i hver innføringsliste, slik at de mest hyppig forekommende uttrykkene har det laveste uttrykknummer og blir listeført først i primærregisteret 150. Som bemerket over fordeles primærregisteret 150 over Ml primærservere. For å redusere harddiskbrukerkø fordeles uttrykkene over disse maskinene ved en fordelingsfunksjon, for eksempel uttrykknummer MOD Ml.
For å øke antallet av dokumenter som kan bli registrert av systemet betydelig, blir primærregisteret 150 ytterligere behandlet for å selektivt partisjonere hver av innføringslistene 214. Som bemerket over, inneholder innføringslisten av hvert uttrykk en liste av dokumenter. Hvert dokument i innføringslisten er gitt 506 en informasjonsgjenfinningstypeverdi med hensyn til uttrykket. Uansett hvordan verdien er beregnet, blir dokumentene i innføringslisten så rangert i fallende orden etter denne verdi, med de høyest verdisatte dokumentene listeført først i innføringslisten. Denne forrangeringen av dokumentene er spesielt fordelaktig for forbedret ytelse mens man gjenfinner dokumenter som svar på en søkeforespørsel.
Verdisettingsalgoritmen for å forrangere dokumentene kan være den samme underliggende relevansverdialgoritme som er brukt i søkesystemet 120 til å utarbeide en relevansverdi. I én utførelse er informasjonsgjenfinningsverdien basert på nettsiderangerings- (page rank) algoritmen som beskrevet i US patent nr 6 285 999. Alternativt, eller i tillegg kan statistikk for et antall av informasjonsgjenfinningsrelevante egenskaper av dokumentet, slik som antall innlinker, utlinker, dokumentlengde også lagres og brukes alene eller i kombinasjon for å rangere dokumentene. For eksempel kan dokumentene bli rangert i fallende orden i henhold til antallet innlinker. For ytterligere å forenkle den raskest mulige gjenfinning av informasjon fra primærregisteret 150, er registreringene i hver innføringsliste 214 fysisk lagret på den passende primærserveren rangert etter
informasj onsgj enfinningtypever dien.
Gitt at de høyest verdisatte dokumentene for et gitt uttrykk nå er ved begynnelsen av innføringslisten, er innføringslisten 214 partisjonert 508 mellom primærregisteret 150 og sekundærregisteret 152. Innføringslisteregistreringene for opptil de første K dokumentene forblir lagret på primærserveren 150, mens innføringslisteregistreringene for de resterende n > K dokumentene blir lagret i sekundærregisteret 152, og slettet fra enden av innføringslisten 214 i primærregisteret 150.1 én utførelse er K satt til 32k (32 768), men en høyere eller lavere verdi av K kan bli brukt. Et uttrykk som har sin innføringsliste partisjonert mellom det primære og sekundære registeret blir kalt et "vanlig" uttrykk, mens et uttrykk som ikke er partisjonert blir kalt et "sjeldent" uttrykk. Delen av en innføringsliste som er lagret i primærregisteret 150 refereres til som primærinnføringslisten, og inneholder primærregistreringene, og delen av en innføringsliste som er lagret i sekundærregisteret 152 refereres til som sekundærinnføringslisten og inneholder sekundærregistreringene. Sekundærregistreringene for en gitt innføringsliste 214 blir tilordnet en sekundærserver i henhold til en annen fordelingsfunksjon av uttrykknummeret, for eksempel uttrykknummer MOD M2. Sekundærserver-ID er lagret i innføringslisten på primærserveren, for å tillate søkesystemet 120 å komme lett til den passende sekundærserveren når det trengs. For hver uttrykkinnføringsliste lagret på én av de sekundære serverne, blir sekundærregistreringene lagret fysisk ordnet etter deres dokumentnumre, fra laveste dokumentnummer til høyeste (i kontrast til relevansordningen i primærregisteret 150). Helst blir ingen relevansinformasjon lagret i sekundærregistreringene, slik at registreringene inneholder en minimal mengde av data, slikt som dokumentnummer, og dokumentlokator (for eksempel URL). Rangerings- og partisjoneringstrinnene kan bli utført sekvensielt for hvert uttrykk, alternativt kan alle
(eller et entall av) uttrykkene først bli rangert og så partisjonert, algoritmekonstruksjonen er bare et konstruksjons valg og variasjonene over betraktes som ekvivalente. Rangerings og partisjoneringstrinnene blir utført under hvert registreringsgjennomløp over et sett av dokumenter, slik at hvilke som helst uttrykk som er oppdatert med nye dokumenter under et registreringsgjennomløp blir nyrangert og nypartisjonert. Andre optimaliseringer og oppgaver er også mulige.
I én utførelse er utvalget av dokumentegenskaper som blir lagret i primærregisteret 150 for hvert dokument i innføringslisten 214 variabel, og i særdeleshet avtar det mot enden av innføringslisten 214 i primærregisteret. Med andre ord vil dokumenter som er høyt rangert i innføringslisten basert på deres relevansverdi (eller andre relevansbaserte egenskaper) ha all, eller mesteparten av dokumentegenskapene lagret i dokumentregistreringen i innføringslisten. Dokumenter nære enden av innføringslisten 214 i primærregisteret vil bare ha et mer begrenset sett av slike egenskaper lagret.
I én utførelse har hver innføringsliste 214 i primærregisteret 150 tre seksjoner av lengder m, 3 m, 5 m hvor m her er et antall av dokumentregistreringer. I denne utførelsen er det ønskelig at hver seksjon har en lengde K, som beskrevet over, det vil si at m = K, og hele primærregisteret har 9 K registreringer, sekundærregisteret ville da lagre sekundærregistreringene hvor n > 9 K.
I den første seksjonen (de første m registreringene), er de følgende relevansegenskapene lagret for hver dokumentregistrering i innføringslisten av et gitt uttrykk
1. dokumentrelevansverdien (for eksempel nettsiderangeringen (page rank)),
2. totalantallet av forekomster av uttrykket i dokumentet,
3. en rangordnet liste av opp til 10 000 ankerdokumenter som også inneholder
uttrykket og som peker til dette dokumentet, og for hvert ankerdokument dets relevansverdi (for eksempel nettsiderangering) og ankerteksten selv og
4. posisjonen av hver uttrykksforekomst og for hver forekomst et sett av flagg
som viser hvorvidt forekomsten er en tittel, fet, en topptekst, i en URL, i brødteksten, i et sidefelt, i en bunntekst, i en annonse, med store bokstaver eller i en annen type HTML-oppmerking.
I den andre seksjonen (de neste 3 m registreringer) blir bare punkt 1-3 lagret.
I den tredje seksjonen (avsluttende 5 m registreringer) blir bare punkt 1 lagret.
Å redusere systematisk hvilke dokumentegenskaper som blir lagret i senere deler av hver innføringsliste 214 er akseptabelt fordi dokumentene nære enden av innføringslisten allerede er bestemt å være mindre relevant for det bestemte uttrykket (lav relevansverdi), og slik er det ikke helt nødvendig å lagre alle deres relevanskarakteristikker.
Det forutgående lagringsarrangementet muliggjør å lagre betydelig fler registreringer i en gitt mengde av harddisklager enn konvensjonelle teknikker. For det første vil fjerning av termposisjoninformasj onen for hvert eneste uttrykk i hvert dokument sørge for en omtrent 50 % reduksjon i nødvendig lagringsmengde for et gitt sett av dokumenter, derved effektivt doble antallet av dokumenter som kan bli lagret. For det andre: å partisjonere innføringslistene mellom primærregisteret og sekundærregistre og lagre relevansinformasjon bare i primærregisteret sørger for ytterligere betydelige besparelser. Mange uttrykk har over 100 000, til og med 1 000 000 dokumenter på deres innføringslister. Å lagre relevansinformasjon for bare et begrenset antall av registreringer i primærregisteret fjerner lagringsbehovet for dokumentene som det ikke er sannsynlig blir returnert i søk. Fra denne synsvinkelen sørges det for en omtrent tifoldig økning i antallet av dokumenter som kan bli lagret. Til slutt blir ytterligere innsparinger (omtrent 25 % - 50 % reduksjon i krevet lagringskapasitet) oppnådd ved selektivt å lagre mindre relevansinformasjon i primærregisteret 150 for de mindre relevante (lavere rangerte) dokumentene i hver innføringsliste 214.
b) Bestemme emnene for et dokument.
Registreringen av dokumenter ved uttrykk og bruk av klyngingsinf ormasj onen sørger for enda en fordel ved registreringssystemet 110 som er evnen til å bestemme emnene som et dokument handler om basert på beslektetuttrykksinf ormasj onen.
Anta at for et gitt godt uttrykk gjog et gitt dokument d,
er innføringslisten som følger:
gj: dokument d: beslektedeuttrykktellinger:={3,4,3,0,0,2,l,l,0}
beslektetuttrykkbitvektor:={ll 11 10 00 00 10 10 10 01}
hvor beslektetuttrykkbitvektoren er vist i bitpar.
Fra beslektetuttrykkbitvektoren kan vi bestemme primær- og sekundæremner for dokumentet d. Et primæremne er vist ved et bitpar (1,1) og et sekundæremne er vist ved et bitpar (1,0). Et beslektetuttrykkbitpar (1,1) viser at både det beslektede uttrykket gkfor bitparet er tilstede i dokumentet d, sammen med de sekundærbeslektede uttrykkene gi også. Dette kan bli tolket til å bety at forfatteren av dokumentet d brukte flere beslektede uttrykk gj, gkog gi sammen for å sette sammen dokumentet. Et bitpar (1,0) viser at både gjog gker tilstede, men ingen ytterligere sekundærbeslektede uttrykk fra gker tilstede, og dette er derfor et mindre signifikant emne.
c) Registrere tilstander av dokumenter for arkivgjenfinning.
En annen utførelse av den foreliggende oppfinnelsen tillater evnen til å lagre og
opprettholde historiske dokumenter i registrene, og derved muliggjøre arkivgjenfinning av datobestemte tilstander (utgaver) av enkeltdokumenter eller sider. Denne evnen har mange forskjellige fordelaktige bruksmåter, innbefattet å muliggjøre for en bruker å kunne søke etter dokumenter innenfor et bestemt datoutvalg, muliggjøre for søkesystemet 120 å bruke dato- eller versjonsbeslektet relevansinformasjon ved evaluering av dokumenter i svar på en søkeforespørsel, og for å organisere søkeresultatene.
I denne utførelsen koder dokumentnavngiveren identiteten av dokumentet med hensyn til et datointervall. Første gang et dokument blir kravlet av registreringssystemet 110, blir dokumentnavnet lagret som en enveis fordelingsfunksjon (hash) av dokumentets URL og datomerkingen av dokumentet, for eksempel MD5(URL, første dato). Forbundet med den bestemte tilstanden av dokumentet er datoutvalgfeltet, som innbefatter et utvalg datoer for hvilke dokumenttilstanden er ansett for å være gyldig. Datoutvalget kan bli spesifisert som et datopar som innbefatter en første dato på hvilken dokumentet er ansett for å være gyldig (registreringsdatoen) og en siste dato på hvilken dokumentet er ansett for å være gyldig (for eksempel 11-01-04; 12-15-04). Alternativt
kan datoutvalget spesifiseres som en første dato og et antall som viser et antall av dager etterfølgende den første datoen (for eksempel 11-01-04, 45). En dato kan bli spesifisert i hvilket som helst brukbart format, innbefattet datostrenger eller dagantall. Under perioden i hvilken dokumentet er någjeldende dokument, blir den andre verdien et statusflagg eller tegn (innbefattende en NULL verdi) som viser denne tilstand, dette kalles det nåværende intervall. For eksempel vil (11-01-04, "åpen") vise at dokumentet for tiden er gyldig. Dette viser at dokumentet vil tilfredsstille søk som innbefatter en datobegrensning som er etter den første datoen. Uansett den bestemte utførelsen, kan den første datoen for et gitt intervall bli referert til som "åpningsdatoen", og den siste datoen for et gitt intervall kan bli referert til som "lukkingsdatoen".
Under påfølgende registreringsgjennomløp av registreringssystemet 110, bestemmer registreringssystemet 110 hvorvidt dokumentet har blitt endret. Hvis det ikke er noen endring i dokumentet, så foretar registreringssystemet 110 seg ingen ting videre med hensyn til dokumentet. Hvis det har blitt endring i dokumentet (derfor en ny tilstand eller en ny utgave av dokumentet) så vil registreringssystemet 110 på ny registrere dokumentet. Ved nyregistrering lukker registreringssystemet 110 det nåværende intervallet ved å endre "åpen"-statusflagget til nåværende dato minus én dag. For eksempel, hvis registreringssystemet 110 registrerer dokumentet den 16. desember 2004 og bestemmer at dokumentet har blitt endret, så vil någjeldende intervall bli lukket som følger: (11-01-04, 12-15-04) og et nytt någjeldende intervall blir dannet, for eksempel (12-16-04, "åpen"). Registreringssystemet 110 opprettholder hvert av datautvalgene for dokumentet, sammen med korresponderende registrerte relevansdata (for eksempel uttrykk, relevansstatistikk, dokumentinnlinker og så videre) for datoutvalget. Derfor blir hvert datoutvalg og sett av relevansdata forbundet med en bestemt tilstand eller utgave av dokumentet. For hvert av datointervallene for et gitt dokument opprettholder registreringssystemet et unikt dokumentnavn, for eksempel MD5(URL, første dato), for slik å være i stand til å gjenfinne den passende, bufrede dokumenttilstanden. I en utførelse som bruker primær- og sekundærregistre, blir når et registreringsgjennomløp er fullført, innføringslistene 214 i primærregisteret på nytt: verdisatt, rangert og partisjonert.
Beslutningen om hvorvidt et gitt dokument har blitt endret siden forrige registreringsgjennomløp kan bli tatt på hvilken som helst av mange mulige måter, innbefattende å bruke statistiske regler, grammatiske regler eller liknende heuristikk. I én utførelse bruker registreringssystemet 110 uttrykkene av et dokument til å beslutte om et dokument har blitt endret. Hver gang et dokument blir registrert, identifiseres de N viktigste emnene og opprettholdes som en liste forbundet med datoutvalginformasjonen, for eksempel de viktigste 20 emnene for datoutvalget (11-04-04, 12-15-04). Emnelisten for tilstanden som registreres blir så sammenliknet med emnelisten av en tidligere dokumenttilstand, helst det nyligst lukkede datoutvalget. Hvis mer enn M % av emnene har blitt endret (for eksempel 5 %) så er dokumentet å anse for å ha blitt endret, og blir på nytt registrert for alle uttrykk. Det bør bemerkes at andre metoder for å beslutte hvorvidt et dokument har blitt endret kan også bli brukt, og at bruken av uttrykksbasert registrering ikke er nødvendig. For eksempel kan et sett av statistiske regler bli brukt basert på endringer i dokumentlengde, endringer i hvilke termer som er mest vanlige, endringer i termhyppighet, endringer i mengden eller typen av HTML-oppmerkinger eller andre mål av dokumentoppbygging eller innhold.
in. Søkesystem
Søkesystemet 120 arbeider for å motta en forespørsel, og søke etter dokumenter som er relevante for forespørselen, og sørge for en liste av disse dokumentene (med linker til dokumentene) i et sett av søkeresultater. Figur 6 illustrerer hovedfunksjonsmåte av søkesystemet 120:
600 Identifiser uttrykk i forespørselen.
602 Gjenfinn dokumenter som er relevante for forespørselsuttrykkene.
604: Ranger dokumentene i søkeresultatene i henhold til uttrykkene.
Detaljene av hvert av disse trinnene er som følger.
1. Identifisering av uttrykk i forespørselen og forespørselutvidelsen.
Det første trinn 600 av søkesystemet 120 er å identifisere hvilke som helst uttrykk som er tilstede i forespørselen for å kunne søke effektivt i registeret. Den følgende terminologi blir brukt i denne seksjonen:
q: en forespørsel som inngangsvariabel og mottak av søkesystemet 120.
Qp: uttrykkene tilstede i forespørselen.
Qr: beslektede uttrykk av Qp.
Qe: uttrykksutvidelser av Qp.
Q: unionen av Qp og Qr.
En forespørsel q blir mottatt fra en klient 170, som har opptil et maksimalt antall av tegn eller ord.
Et uttrykksvindu av størrelse N (for eksempel 5) blir brukt av søkesystemet 120 til å gjennomkrysse termene av forespørselen q. Uttrykksvinduet begynner med den første termen av forespørselen, og utvider N termer til høyre. Dette vinduet skifter så plass til høyre M-N ganger, hvor M er antallet termer i forespørselen.
Ved hver vindusposisjon vil det være N (eller færre) termer i vinduet. Disse termene utgjør et mulig forespørselsuttrykk. Det blir slått opp etter det mulige uttrykket i listen over gode uttrykk 208 for å bestemme om det er et godt uttrykk eller ikke. Hvis det mulige uttrykket er tilstede i listen over gode uttrykk 208, så blir et uttrykknummer returnert for uttrykket, det mulige uttrykket er nå en uttrykkskandidat.
Etter at alle mulige uttrykk i hvert vindu har blitt prøvet for å bestemme om de er gode uttrykkskandidater, vil søkesystemet 120 ha et sett av uttrykknumre for de korresponderende uttrykk i forespørselen. Disse uttrykkskandidatene blir så sortert (fallende orden).
Ved å begynne med høyeste uttrykknummer som den første uttrykkskandidaten, bestemmer søkesystemet 120 om det er en annen uttrykkskandidat innenfor en fast numerisk distanse innen den sorterte listen, det vil si: forskjellen mellom uttrykknumrene er innenfor en terskelverdi, for eksempel 20 000. Hvis det er slik, så blir uttrykket som er lengst til venstre i forespørselen valgt som et gyldig forespørselsuttrykk Qp. Dette forespørselsuttrykket og alle dets underuttrykk blir fjernet fra listen av kandidater, og listen blir på nytt sortert og prosessen gjentatt. Resultatet av denne prosessen er et sett av gyldige forespørselsuttrykk Qp.
For eksempel, anta at søkeforespørselen er "Hillary Rodham Clinton Bill on the Senate Floor". Søkesystemet 120 ville identifisere de følgende uttrykkskandidater: "Hillary Rodham Clinton Bill on", Hillary Rodham Clinton Bill", og "Hillary Rodham Clinton". De to første blir forkastet og det siste blir tatt vare på som et gyldig forespørselsuttrykk. Så vil søkesystemet 120 identifisere "Bill on the Senate Floor", og underuttrykkene "Bill on the Senate", "Bill on the", "Bill on" og "Bill", og ville velge "Bill" som et gyldig forespørselsuttrykk Qp. Til slutt vil søkesystemet 120 analysere (parse)"on the Senate Floor" og identifisere "Senate Floor" som et gyldig forespørselsuttrykk.
Så tilpasser søkesystemet 120 de gyldige uttrykkene Qp for bruk av store bokstaver. Mens søkesystemet 120 analyserer forespørselen identifiserer det mulig bruk av store bokstaver i hvert gyldige uttrykk. Dette kan bli gjort ved å bruke en tabell over kjent bruk av store bokstaver, slik som "united states" ved bruk av store bokstaver blir "United States" eller ved å bruke en grammatikkbasert algoritme for bruk av store bokstaver. Dette fremstiller et sett av forespørselsuttrykk med riktig bruk av store bokstaver.
Søkesystemet 120 gjør så et andre gjennomløp gjennom uttrykkene der store bokstaver er i bruk, og velger bare de uttrykkene som er helt til venstre, hvor store bokstaver er i bruk og hvor både et uttrykk og dets underuttrykk er tilstede i settet. For eksempel vil et søk på "president of the united states" med bruk av store bokstaver bli "President of the United States".
I det neste trinnet identifiserer 602 søkesystemet 120 dokumentene som er relevante for forespørselsuttrykket Q. Søkesystemet 120 gjenfinner så innføringslistene til forespørselsuttrykket Q, og om nødvendig krysser disse listene for å bestemme hvilke dokumenter som vises på alle (eller et antall) av innføringslistene for forespørselsuttrykkene. Hvis et uttrykk Q in forespørselen har et sett av uttrykksutvidelser Qe (som ytterligere forklart under) så vil søkesystemet 120 først danne unionen av innføringslistene av uttrykksutvidelsene, før kryssingen utføres med innføringslistene. Søkesystemet 120 identifiserer uttrykksutvidelser ved å slå opp etter hvert uttrykk Q i listen over uferdige uttrykk 216, som beskrevet over.
Ved å bruke primærregisteret 150 og sekundæren 152 kan søkesystemet 120 ytterligere optimalisere kryssingsarbeidet. Det er fire generelle tilfeller av kryssingsanalyse som søkesystemet 120 må håndtere basert på om forespørselsuttrykkene er vanlige eller sjeldne.
Det første tilfellet er for ett enkelt forespørselsuttrykk, som kan være enten vanlig eller sjeldent. I dette tilfellet sender søkesystemet 120 et valgt antall (for eksempel 100 eller 1000) av de første registreringene i uttrykkets innføringsliste fra primærregisteret 150 til rangeringstrinnet 604 for avsluttende rangering. Rangeringstrinnet kan optimalisere rangeringsarbeidet siden dokumentene allerede er i rangert orden. Alternativt, siden de allerede er forrangert etter deres relevans til uttrykket, kan settet av dokumenter bli gjort direkte tilgjengelig som søkeresultatene, og i hovedsak øyeblikkelig sørge for resultater til brukeren.
Det andre tilfellet er hvor det er to vanlige forespørselsuttrykk. Her vil søkesystemet 120 gå til innføringslistene 214 for hvert uttrykk i primærregisteret 150 og krysse disse listene for å danne den avsluttende dokumentlisten, som så blir sendt til rangeringstrinnet 604 for å relevansverdisettes basert på settet av relevansegenskaper som er forbundet med dokumentet. Fordi det er minst K dokumenter i hver innføringsliste, er det en veldig høy sannsynlighet for at et tilstrekkelig antall dokumenter inneholder begge uttrykk, og dermed er ikke kryssingen av sekundærregistreringene i sekundærregisteret 152 nødvendig. Dette reduserer ytterligere det nødvendige tidsrommet for gjenfinning.
Det tredje tilfellet er hvor det er to sjeldne uttrykk. Dette tilfellet blir behandlet på samme måte som det andre tilfellet, siden her er hele innføringslisten for hvert uttrykk lagret i primærregisteret.
Det siste tilfellet er hvor de gyldige uttrykkene innbefatter et vanlig uttrykk og et sjeldent uttrykk. I dette tilfellet krysser først søkesystemet 120 innføringslistene 214 fra primærregisteret 150 for begge uttrykkene for å danne et første sett eller felles dokumenter. Så krysser søkesystemet 120 innføringslisten for det sjeldne uttrykket med sekundærregistreringene for det vanlige uttrykket (som allerede er sortert i dokumentnummerorden) for å danne et andre sett av felles dokumenter. De to settene blir forenet og så sendt til rangeringsfasen.
Alle tilfeller hvor det er tre eller flere forespørselsuttrykk kan bli forenklet behandlet ved påhverandrefølgende kryssinger ved å bruke fremgangsmåtene over.
2. Rangering
a) Rangere dokumenter basert på inneholdte uttrykk.
Søkesystemet 120 sørger for et rangeringstrinn 604 i hvilket dokumentene i søkeresultatene blir rangert ved å bruke relevansinformasjonen og dokumentegenskapene, sammen med uttrykksinformasjonen i hvert dokuments beslektetuttrykkbitvektor og klyngebitvektoren for forespørselsuttrykkene. Denne fremgangsmåten rangerer dokumentene i henhold til uttrykkene som er inneholdt i dokumentet, uformelt kalt "body hits" (substanstreff).
Som beskrevet over, vil for hvilket som helst gitt uttrykk gj, hvert dokument d i gj-enes innføringsliste ha en forbundet beslektetuttrykkbitvektor som identifiserer hvilke beslektede uttrykk gkog hvilke sekundærbeslektede uttrykk gi som er tilstede i dokument d. Dess fler beslektede uttrykk og sekundærbeslektede uttrykk er tilstede i et gitt dokument, dess fler bit vil være satt i dokumentets beslektetuttrykkbitvektor for det gitte uttrykket. Dess fler bit som er satt, dess større numerisk verdi av beslektetuttrykkbitvektoren.
Følgelig sorterer i én utførelse søkesystemet 120 dokumentene i søkeresultatet i henhold til verdien av deres beslektetuttrykkbitvektorer. Dokumentene som inneholder de uttrykkene som er mest beslektede med forespørselsuttrykkene Q vil ha de høyest verdisatte beslektetuttrykkbitvektorene, og disse dokumentene vil være de høyest rangerte dokumentene i søkeresultatene.
Denne fremgangsmåten er ønskelig fordi semantisk er disse dokumentene emnemessig mest relevante til forespørselsuttrykkene. Merk at denne fremgangsmåten sørger for høyst relevante dokumenter selv om dokumentene ikke inneholder en høy hyppighet av inngangsforespørselstermene q, siden beslektetuttrykksinf ormasj on ble brukt til både å identifisere relevante dokumenter og siden å rangere disse dokumentene. Dokumenter med en lav hyppighet av inngangsforespørselstermene kan stadig ha et stort antall av beslektede uttrykk til forespørselstermene og -uttrykkene og dermed være mer relevante enn dokumenter som har en høy hyppighet av bare forespørselstermene og -uttrykkene, men ingen beslektede uttrykk.
I en andre utførelse verdisetter søkesystemet 120 hvert dokument i resultatsettet i henhold til hvilke beslektede uttrykk av forespørselsuttrykket Q det inneholder. Dette gjøres som følger: Gitt hvert forespørselsuttrykk Q, vil det være et antall N av beslektede uttrykk Qr til forespørselsuttrykket, som identifisert under uttrykksidentifiseringsprosessen. Som beskrevet over, er de beslektede forespørselsuttrykkene Qr ordnet i henhold til deres informasjonsforsterkning fra forespørselsuttrykket Q. Disse beslektede uttrykkene blir så tildelt poeng, først N poeng for det første beslektede uttrykket Qrl (det vil si: det beslektede uttrykket Qr med den høyeste informasjonsforsterkningen fra Q), så N-l poeng for det neste beslektede uttrykket Qr2, så N-2 poeng for Qr3 og så videre, slik at det siste beslektede uttrykket QrN får tildelt 1 poeng.
Hvert dokument i søkeresultatene blir så verdisatt ved å bestemme hvilke beslektede uttrykk Qr av forespørselsuttrykket Q er tilstede, og å gi dokumentet poengene tilordnet til hvert slikt beslektet uttrykk Qr. Dokumentene blir så sortert fra høyeste til laveste verdisetting.
Som et ytterligere raffinement kan søkesystemet 120 velge ut visse dokumenter fra resultatsettet. I noen tilfeller kan dokumentene være om mange forskjellige emner, dette er spesielt tilfellet for lengre dokumenter. I mange tilfeller foretrekker brukere dokumenter som er holdt sterkt til saken med hensyn til ett enkelt emne som er uttalt i forespørselen om dokumenter som er relevante til mange forskjellige emner.
For å velge ut disse siste typer av dokumenter bruker søkesystemet 120 klyngeinformasjonen i klyngebitvektorene av forespørselsuttrykkene og fjerner eventuelle dokumenter i hvilke det er fler enn et terskelantall av klynger i dokumentet. For eksempel kan søkesystemet 120 fjerne eventuelle dokumenter som inneholder mer enn to klynger. Denne klyngeterskelen kan være forutbestemt, eller satt av brukeren som en søkeparameter.
b) Rangere dokumenter basert på ankeruttrykk.
I tillegg til å rangere dokumentene i søkeresultatene basert på substanstreff av forespørselsuttrykkene Q, rangerer søkesystemet 120 i én utførelse, også dokumentene basert på visningen av forespørselsuttrykkene Q og beslektetforespørselsuttrykkene Qr i ankere til andre dokumenter. I én utførelse beregner søkesystemet 120 en verdisetting for hvert dokument som er en funksjon (for eksempel en lineær kombinasjon) av to verdisettinger, en substanstreffverdi og en ankertreffverdi.
For eksempel kan dokumentverdien for et gitt dokument bli beregnet som følger:
Verdisetting = 0,30<*>(substanstreffverdi) + 0,70<*>(ankertreffverdi).
Vektingene av 0,30 og 0,70 kan bli justert som ønsket. Substanstreffverdien for et dokument er den numeriske verdien av den høyest verdisatte
beslektetuttrykkbitvektoren for dokumentet, gitt at forespørselsuttrykkene Qp er av det slag som beskrevet over. Alternativt kan denne verdien oppnås direkte av søkesystemet 120 ved å slå opp hvert forespørselsuttrykk Q i registeret 150, få tilgang til dokumentet fra innføringslisten av forespørselsuttrykket Q, og så få tilgang til beslektetuttrykkbitvektoren.
Ankertreffverdien av et dokument d er en funksjon av beslektetuttrykkbitvektorene av forespørselsuttrykkene Q, hvor Q er en ankerterm i et dokument som refererer til dokument d. Når registreringssystemet 110 registrerer dokumentene i dokumentsamlingen, opprettholder det for hvert uttrykk en liste over dokumentene i hvilke uttrykket er ankertekst i en utlink, og også for hvert dokument en liste av innlinkene (og de forblindede ankertekstene) fra andre dokumenter. Innlinkene for et dokument er referanser (for eksempel hyperlinker) fra andre dokumenter (refererende dokumenter til et gitt dokument.
For så å bestemme ankertreffverdien for et gitt dokument d, vil søkesystemet 120 gjenta over settet av refererende dokumenter R (i = 1 til antallet av refererende dokumenter) listeført i registeret ved deres ankeruttrykk Q, og summere det følgende produktet:
Ri.Q. beslektetuttrykkbitvektor<*>D.Q. beslektetuttrykkbitvektor.
Produktverdien her er en verdisetting av hvor emnerettet ankeruttrykket Q er til dokumentet D. Denne verdien er her kalt den "innkommende verdikomponenten". Dette produktet vekter effektivt gjeldende dokument D sin beslektetbitvektor med beslektetbitvektorene av ankeruttrykkene i det refererende dokumentet R. Hvis de refererende dokumentene R selv er beslektet med forespørselsuttrykket Q (og dermed har en høyere verdisatt beslektetuttrykkbitvektor) så øker dette betydningen av det gjeldende dokumentet D sin verdi. Substanstreffverdien og ankertreffverdien blir så kombinert for å danne dokumentverdien som beskrevet over.
Så fåes for hvert av de refererende dokumentene R, beslektetuttrykkbitvektoren for hvert ankeruttrykk Q. Dette er et mål av hvor emnerettet ankeruttrykket Q er til dokumentet R. Denne verdien er her kalt den utgående verdikomponenten.
Fra registeret 150 blir så alle (refererende dokument, referert dokument)-parene trukket ut for ankeruttrykkene Q. Disse parene blir så sortert etter deres forbundede (utgående verdikomponent, innkommende verdikomponent)-verdier. Avhengig av utførelsen kan hvilken som helst av disse komponentene være primærsorteringsnøkkel og den andre kan være sekundærsorteringsnøkkel. De sorterte resultatene blir så presentert for brukeren. Å sortere dokumentene på utgående verdikomponent gjør at dokumenter som har mange beslektede uttrykk med forespørselen som ankertreff, blir rangert høyest, og dermed forevises disse dokumentene som "ekspert"-dokumenter. Sortering på den innkommende dokumentverdien gjør dokumenter som ofte refereres etter ankertermene til de høyest rangerte. c) Rangere dokumenter basert på datoutvalgrelevans.
Søkesystemet 120 kan bruke datoutvalgsinformasjonen på flere måter under søke- og
rangeringsarbeidene. For det første kan søkesystemet 120 bruke datoutvalget som en eksplisitt søkeavgrensning. For eksempel kan en forespørsel inneholde termer eller uttrykk og en dato, slik som "United States Patent and Trademark Office 12/04/04".
Søkesystemet 120 kan identifisere datotermen, og så velge dokumenter som har det ønskede uttrykket og som er registrert for et datoutvalg som innbefatter datotermen i forespørselen. Fra de valgte dokumentene kan søkesystemet 120 så skaffe seg relevansverdi for hvert dokument ved å bruke de registrerte relevansdata forbundet med datoutvalget. På denne måten kan en eldre eller tidligere tilstand av dokumentet bli gjenfunnet i steden for den gjeldende tilstanden, hvor det er mer relevant for søkeforespørselen. Dette er spesielt anvendelig for dokumenter og sider som endres ofte, slike som hjemmesidene til nyhetsnettsteder og andre nettsteder som inneholder informasjon som endres hyppig.
For det andre, hvor ingen datoterm er innbefattet i en søkeforespørsel, kan søkesystemet 120 bruke datoinf ormasj onen i registeret under relevansrangering, ved å vekte dokumentrelevansverdier i henhold til hvor gamle de er, slik at eldre dokumenter får sine relevansverdier vektet ned (eller nyere dokumenter blir vektet høyere).
Alternativt er det i noen tilfeller eldre versjoner av et dokument som er mest relevant til et emne, heller enn den mest oppdaterte utgaven av et dokument. For eksempel er samtidige nyhetsportalsteder skapt ved tiden for historiske hendelser sannsynligvis mer relevant til en bestemt forespørsel om hendelsen enn gjeldende utgaver av nyhetsportalen. I dette tilfellet kan søkesystemet 120 vekte opp eldre dokumenttilstander, hvor for eksempel mønsteret av dokumentrelevansverdiene for alle tilstandene av et dokument viser en økning omkring en eller annen historisk dato, fulgt av avtagende relevansverdier for tilstander av dokumentet nærmere gjeldende.
Hvor én eller flere datotermer er innbefattet i søkeforespørselen som over, kan dokumentene ha sine relevansverdier nedvektet i forhold til forskjellen mellom datotermen og dokumentdatoutvalget, slik at dokumenter som er enten mye eldre enn datoutvalget (målt fra enten åpningsdatoen eller avslutningsdatoen) eller mye nyere enn de ønskede datotermene får sine relevansverdier nedvektet. Omvendt kan en relevansverdi bli øket i steden for nedvektet hvor datoutvalget for dokumentet er nærmere den ønskede datoen.
For det tredje kan søkesystemet 120 bruke datoutvalgsinformasjonen som enten en primær eller sekundær faktor for å ordne søkeresultatene. For eksempel kan dokumenter bli gruppert i omvendt kronologisk orden (for eksempel månedlige grupper) og innenfor hver gruppe kan dokumentene bli opplistet fra mest til minst relevant for søkeforespørselen.
En annen bruk av datoutvalg informasjonen er å rangere dokumenter basert på hyppigheten med hvilken de blir oppdatert. Søkesystemet 120 kan bestemme antallet av tilstander av et gitt dokument (for eksempel antallet adskilte datoutvalg) over et tidsintervall (denne tellingen kan bli opprettholdt under registrering). Antallet tilstander blir så brukt til å vekte opp de dokumentene som blir oppdatert hyppigere.
Claims (12)
1.
Fremgangsmåte realisert med datamaskin for å registrere dokumenter med hensyn til et første uttrykk hvori hvert dokument har en dokumentidentifikator,karakterisert vedå: etablere en liste av dokumenter som inneholder uttrykket; partisjonere (508) listen inn i en første porsjon og en andre porsjon, der første porsjonen av listen omfatter dokumnenter som er høyere rangert, ut i fra relevansverdi, enn dokumentene i den andre porsjonen av listen, hvori relevansverdiene er beregnet for hvert dokument i forhold til uttrykket; og lagre en første porsjon av listen; og lagre en andre del av listen i en et sekundærregister i numerisk orden av dokumentidentifikatorene av dokumentene i den andre delen av listen.
2.
Fremgangsmåte som angitt i punkt 1,karakterisertv e d at relevansverdien innbefatter en siderangeringsbasert verditype.
3.
Fremgangsmåte som angitt i krav 1 eller krav 2,karakterisertved å lagre, for hvert dokument, i primærregisteret relevansegenskaper av dokumentet.
4.
Fremgangsmåte som angitt i krav 3,karakterisert vedat relevansegenskapene innbefatter minst én av de følgende: et totalantall av forekomster av uttrykket i dokument, en rangordnet liste av ankerdokumenter som også inneholder uttrykket og som peker til dokumentet, en posisjon av hver uttrykksforekomst i dokumentet, et sett av én eller flere flagg som viser et format av forekomsten eller en del av dokumentet som inneholder forekomsten.
5.
Fremgangsmåte som angitt i krav 3 eller krav 4,karakterisertved at å lagre den andre porsjonen av listen i sekundærregisteret, innbefatter å lagre i hovedsak bare dokumentidentifikasjonsinformasjon.
6.
Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat å lagre den første porsjonen av listen i primærregisteret, innbefatter å lagre den første porsjonen av listen på en fysisk lagringsenhet i rangorden av relevansverdiene av dokumnentene i den første porsjonen av listen.
7.
Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat å lagre den andre porsjonen av listen i et sekundærregister, innbefatter å lagre den andre porsjonen av listen på en fysisk lagringsenhet i numerisk orden av dokumentidentifikatorene av dokumnentene i den andre porsjonen av listen.
8.
Fremgangsmåte som angitt i ett av de foregående krav,karakterisert vedat den første porsjonen av hver liste av dokumenter innbefatter en første seksjon hvori hvert dokument som er listeført i den første seksjonen innbefatter en første mengde av relevansegenskaper, og en andre seksjon hvori hvert dokument som er listeført i den andre seksjonen innbefatter en andre mengde av relevansegenskaper som er en undermengde av den første mengden av relevansegenskaper, og hvori dokumentene som er listeført i den første seksjonen er rangert høyere enn dokumentene som er listeført i den andre seksjonen.
9.
Fremgangsmåte som angitt i krav 8,karakterisert vedat den første porsjonen av hver liste av dokumenter innbefatter en tredje seksjon, hvori hvert dokument som er listeført i den tredje seksjonen innbefatter en tredje mengde av relevansegenskaper som er en undermengde av den andre mengden av relevansegenskaper, og hvori dokumentene som er listeført i den andre seksjonen er rangert høyere enn dokumentene som er listeført i den tredje seksjonen.
10.
Fremgangsmåte som angitt i krav 8 eller krav 9,karakterisertv e d at den første porsjonen av hver liste inneholder n registreringer, hvori den andre porsjonen av listen inneholder m<*>n registreringer, hvori m > 2, og den tredje porsjonen av listen inneholder 1<*>n registreringer, hvori 1 > 4.
11.
Fremgangsmåte for å gjenfinne dokumenter ved anvendelse avet informasjonsgjenfinningssystem,karakterisert vedå: lagre et primærregister innbefattende primæruttrykkinnførings lister, hvor hver innføringsliste er forbundet med et uttrykk og innbefatter opp til et maksimalt antall av dokumenter som inneholder uttrykket, dokumentene er rangert etter respektive relevansverdier, hvori de respektive relevansverdier er beregnet for hver dokument i forhold til uttrykket; lagre et sekundærregister innbefattet sekundæruttrykkinnføringslister, hvor hver innføringsliste er forbundet med en primæruttrykkinnføringsliste i primærregisteret, og inbefatter dokumenter som inneholder uttrykket, og som har relevansverdi mindre enn relevansverdien av et laveste rangert dokument i primærinnføringslisten for uttrykket, og dokumentene er ordnet etter dokumentidentifikatoren; motta en søkeforespørsel som innbefatter minst ett uttrykk; gi svar til forespørselsuttrykket som inneholder et første uttrykk som har en primærinnføringsliste og en sekundærinnføringsliste og et andre uttrykk som har bare en primærinnføringsliste, krysse primærinnføringslisten av det første uttrykket med primærinnføringslisten av det andre uttrykket for å oppnå et første sett av felles dokumenter, og krysse den andre innføringslisten av det første uttrykket med primærinnføringslisten av det andre uttrykket for å oppnå et andre sett av felles dokumenter, og slå sammen det første og andre settet av vanlige dokumenter; og rangere (604) de felles dokumentene.
12.
Et informasjonsgjenfinningssystem,karakterisert veddet omfatter: et primærregister (150) som innbefatter primæruttrykkinnføringslister, der hver innføringsliste forbundet med et uttrykk og som innbefatter opp til et maksimalt antall av dokumenter som inneholder uttrykket, der dokumentene rangordnet etter respektive relevansverdier, hvori de respektive relevansverdier er beregnet for hver dokument i forhold til uttrykket; og et sekundærregister (152) som innbefatter sekundæruttrykkinnføringslister, hver innføringsliste forbundet med en primæruttrykkinnføringsliste i primærregisteret og innbefatter dokumenter som inneholder uttrykket og som har relevansverdi mindre enn relevansverdien av et lavest rangert dokument i primærinnføringslisten for uttrykket, dokumentene er ordnet etter dokumentidentifikatoren.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/043,695 US7567959B2 (en) | 2004-07-26 | 2005-01-25 | Multiple index based information retrieval system |
PCT/US2006/002709 WO2006081325A2 (en) | 2005-01-25 | 2006-01-25 | Multiple index based information retrieval system |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20074329L NO20074329L (no) | 2007-10-23 |
NO338518B1 true NO338518B1 (no) | 2016-08-29 |
Family
ID=36741037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20074329A NO338518B1 (no) | 2005-01-25 | 2007-08-24 | Flerregisterbasert informasjonsgjenfinningssystem |
Country Status (11)
Country | Link |
---|---|
US (5) | US7567959B2 (no) |
EP (1) | EP1844391B1 (no) |
JP (1) | JP4881322B2 (no) |
KR (1) | KR101273520B1 (no) |
CN (1) | CN101133388B (no) |
AU (2) | AU2006208079B2 (no) |
BR (1) | BRPI0614024B1 (no) |
CA (1) | CA2595674C (no) |
DK (1) | DK1844391T3 (no) |
NO (1) | NO338518B1 (no) |
WO (1) | WO2006081325A2 (no) |
Families Citing this family (144)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7266553B1 (en) * | 2002-07-01 | 2007-09-04 | Microsoft Corporation | Content data indexing |
US7599914B2 (en) * | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7584175B2 (en) | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
US7536408B2 (en) | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7580921B2 (en) | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7199571B2 (en) * | 2004-07-27 | 2007-04-03 | Optisense Network, Inc. | Probe apparatus for use in a separable connector, and systems including same |
US20060036598A1 (en) * | 2004-08-09 | 2006-02-16 | Jie Wu | Computerized method for ranking linked information items in distributed sources |
US7539661B2 (en) * | 2005-06-02 | 2009-05-26 | Delphi Technologies, Inc. | Table look-up method with adaptive hashing |
US20070150721A1 (en) * | 2005-06-13 | 2007-06-28 | Inform Technologies, Llc | Disambiguation for Preprocessing Content to Determine Relationships |
US7451135B2 (en) * | 2005-06-13 | 2008-11-11 | Inform Technologies, Llc | System and method for retrieving and displaying information relating to electronic documents available from an informational network |
JP4756953B2 (ja) * | 2005-08-26 | 2011-08-24 | 富士通株式会社 | 情報検索装置および情報検索方法 |
US20070078889A1 (en) * | 2005-10-04 | 2007-04-05 | Hoskinson Ronald A | Method and system for automated knowledge extraction and organization |
US7676463B2 (en) * | 2005-11-15 | 2010-03-09 | Kroll Ontrack, Inc. | Information exploration systems and method |
US8126874B2 (en) * | 2006-05-09 | 2012-02-28 | Google Inc. | Systems and methods for generating statistics from search engine query logs |
JP4322887B2 (ja) * | 2006-06-01 | 2009-09-02 | 株式会社東芝 | スレッド順位付け装置及び方法 |
US20080033943A1 (en) * | 2006-08-07 | 2008-02-07 | Bea Systems, Inc. | Distributed index search |
US9015197B2 (en) | 2006-08-07 | 2015-04-21 | Oracle International Corporation | Dynamic repartitioning for changing a number of nodes or partitions in a distributed search system |
US20080071732A1 (en) * | 2006-09-18 | 2008-03-20 | Konstantin Koll | Master/slave index in computer systems |
US20080082554A1 (en) * | 2006-10-03 | 2008-04-03 | Paul Pedersen | Systems and methods for providing a dynamic document index |
CN101523391A (zh) * | 2006-10-06 | 2009-09-02 | 日本电气株式会社 | 信息检索系统和信息检索方法及程序 |
US7966309B2 (en) * | 2007-01-17 | 2011-06-21 | Google Inc. | Providing relevance-ordered categories of information |
US8966407B2 (en) | 2007-01-17 | 2015-02-24 | Google Inc. | Expandable homepage modules |
US8326858B2 (en) * | 2007-01-17 | 2012-12-04 | Google Inc. | Synchronization of fixed and mobile data |
US8005822B2 (en) | 2007-01-17 | 2011-08-23 | Google Inc. | Location in search queries |
US7966321B2 (en) * | 2007-01-17 | 2011-06-21 | Google Inc. | Presentation of local results |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US8583419B2 (en) * | 2007-04-02 | 2013-11-12 | Syed Yasin | Latent metonymical analysis and indexing (LMAI) |
US7809610B2 (en) * | 2007-04-09 | 2010-10-05 | Platformation, Inc. | Methods and apparatus for freshness and completeness of information |
US7809714B1 (en) | 2007-04-30 | 2010-10-05 | Lawrence Richard Smith | Process for enhancing queries for information retrieval |
US8046372B1 (en) | 2007-05-25 | 2011-10-25 | Amazon Technologies, Inc. | Duplicate entry detection system and method |
US7908279B1 (en) | 2007-05-25 | 2011-03-15 | Amazon Technologies, Inc. | Filtering invalid tokens from a document using high IDF token filtering |
US7814107B1 (en) | 2007-05-25 | 2010-10-12 | Amazon Technologies, Inc. | Generating similarity scores for matching non-identical data strings |
US7917516B2 (en) | 2007-06-08 | 2011-03-29 | Apple Inc. | Updating an inverted index |
EP2031508A1 (en) * | 2007-08-31 | 2009-03-04 | Ricoh Europe PLC | Network printing apparatus and method |
US8117223B2 (en) * | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8671104B2 (en) * | 2007-10-12 | 2014-03-11 | Palo Alto Research Center Incorporated | System and method for providing orientation into digital information |
US8073682B2 (en) * | 2007-10-12 | 2011-12-06 | Palo Alto Research Center Incorporated | System and method for prospecting digital information |
US8165985B2 (en) * | 2007-10-12 | 2012-04-24 | Palo Alto Research Center Incorporated | System and method for performing discovery of digital information in a subject area |
US20090112843A1 (en) * | 2007-10-29 | 2009-04-30 | International Business Machines Corporation | System and method for providing differentiated service levels for search index |
US7895225B1 (en) * | 2007-12-06 | 2011-02-22 | Amazon Technologies, Inc. | Identifying potential duplicates of a document in a document corpus |
US8799264B2 (en) * | 2007-12-14 | 2014-08-05 | Microsoft Corporation | Method for improving search engine efficiency |
US9037560B2 (en) * | 2008-03-05 | 2015-05-19 | Chacha Search, Inc. | Method and system for triggering a search request |
GB2471432A (en) * | 2008-04-03 | 2010-12-29 | Icurrent Inc | Information display system based on user profile data with assisted and explicit profile modification |
CN101359331B (zh) * | 2008-05-04 | 2014-03-19 | 索意互动(北京)信息技术有限公司 | 对搜索结果重新排序的方法和系统 |
US20090287684A1 (en) * | 2008-05-14 | 2009-11-19 | Bennett James D | Historical internet |
US8161036B2 (en) * | 2008-06-27 | 2012-04-17 | Microsoft Corporation | Index optimization for ranking using a linear model |
US8171031B2 (en) | 2008-06-27 | 2012-05-01 | Microsoft Corporation | Index optimization for ranking using a linear model |
US8788476B2 (en) * | 2008-08-15 | 2014-07-22 | Chacha Search, Inc. | Method and system of triggering a search request |
US8010545B2 (en) * | 2008-08-28 | 2011-08-30 | Palo Alto Research Center Incorporated | System and method for providing a topic-directed search |
US20100057536A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Community-Based Advertising Term Disambiguation |
US20100057577A1 (en) * | 2008-08-28 | 2010-03-04 | Palo Alto Research Center Incorporated | System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing |
US8209616B2 (en) * | 2008-08-28 | 2012-06-26 | Palo Alto Research Center Incorporated | System and method for interfacing a web browser widget with social indexing |
JP5384884B2 (ja) * | 2008-09-03 | 2014-01-08 | 日本電信電話株式会社 | 情報検索装置および情報検索プログラム |
US8326829B2 (en) * | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8874564B2 (en) * | 2008-10-17 | 2014-10-28 | Centurylink Intellectual Property Llc | System and method for communicating search results to one or more other parties |
US8156130B2 (en) | 2008-10-17 | 2012-04-10 | Embarq Holdings Company Llc | System and method for collapsing search results |
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
US8356044B2 (en) * | 2009-01-27 | 2013-01-15 | Palo Alto Research Center Incorporated | System and method for providing default hierarchical training for social indexing |
US8452781B2 (en) * | 2009-01-27 | 2013-05-28 | Palo Alto Research Center Incorporated | System and method for using banded topic relevance and time for article prioritization |
US8239397B2 (en) * | 2009-01-27 | 2012-08-07 | Palo Alto Research Center Incorporated | System and method for managing user attention by detecting hot and cold topics in social indexes |
US9245033B2 (en) | 2009-04-02 | 2016-01-26 | Graham Holdings Company | Channel sharing |
US10089391B2 (en) * | 2009-07-29 | 2018-10-02 | Herbminers Informatics Limited | Ontological information retrieval system |
GB2472250A (en) * | 2009-07-31 | 2011-02-02 | Stephen Timothy Morris | Method for determining document relevance |
US20110040762A1 (en) * | 2009-08-12 | 2011-02-17 | Globalspec, Inc. | Segmenting postings list reader |
US20110078131A1 (en) * | 2009-09-30 | 2011-03-31 | Microsoft Corporation | Experimental web search system |
US8838576B2 (en) * | 2009-10-12 | 2014-09-16 | Yahoo! Inc. | Posting list intersection parallelism in query processing |
US8756215B2 (en) * | 2009-12-02 | 2014-06-17 | International Business Machines Corporation | Indexing documents |
US20110258212A1 (en) * | 2010-04-14 | 2011-10-20 | Microsoft Corporation | Automatic query suggestion generation using sub-queries |
US9031944B2 (en) | 2010-04-30 | 2015-05-12 | Palo Alto Research Center Incorporated | System and method for providing multi-core and multi-level topical organization in social indexes |
US10216831B2 (en) * | 2010-05-19 | 2019-02-26 | Excalibur Ip, Llc | Search results summarized with tokens |
US8352474B2 (en) * | 2010-06-16 | 2013-01-08 | Fuji Xerox Co., Ltd. | System and method for retrieving information using a query based index |
US20120047172A1 (en) * | 2010-08-23 | 2012-02-23 | Google Inc. | Parallel document mining |
US8655648B2 (en) * | 2010-09-01 | 2014-02-18 | Microsoft Corporation | Identifying topically-related phrases in a browsing sequence |
US8738673B2 (en) | 2010-09-03 | 2014-05-27 | International Business Machines Corporation | Index partition maintenance over monotonically addressed document sequences |
JP5492814B2 (ja) * | 2011-03-28 | 2014-05-14 | デジタルア−ツ株式会社 | 検索装置、検索システム、方法およびプログラム |
US20120311080A1 (en) * | 2011-06-03 | 2012-12-06 | Thomas Alsina | Management of Downloads from a Network-Based Digital Data Repository |
US9201895B2 (en) | 2011-06-03 | 2015-12-01 | Apple Inc. | Management of downloads from a network-based digital data repository based on network performance |
US8595238B2 (en) | 2011-06-22 | 2013-11-26 | International Business Machines Corporation | Smart index creation and reconciliation in an interconnected network of systems |
US9152697B2 (en) * | 2011-07-13 | 2015-10-06 | International Business Machines Corporation | Real-time search of vertically partitioned, inverted indexes |
US20130024459A1 (en) * | 2011-07-20 | 2013-01-24 | Microsoft Corporation | Combining Full-Text Search and Queryable Fields in the Same Data Structure |
US8818971B1 (en) | 2012-01-30 | 2014-08-26 | Google Inc. | Processing bulk deletions in distributed databases |
US9892198B2 (en) * | 2012-06-07 | 2018-02-13 | Oath Inc. | Page personalization performed by an edge server |
US8892422B1 (en) | 2012-07-09 | 2014-11-18 | Google Inc. | Phrase identification in a sequence of words |
US20140046976A1 (en) * | 2012-08-11 | 2014-02-13 | Guangsheng Zhang | Systems, methods, and user interface for effectively presenting information |
GB2505183A (en) * | 2012-08-21 | 2014-02-26 | Ibm | Discovering composite keys |
US10198776B2 (en) | 2012-09-21 | 2019-02-05 | Graham Holdings Company | System and method for delivering an open profile personalization system through social media based on profile data structures that contain interest nodes or channels |
US9721000B2 (en) * | 2012-12-20 | 2017-08-01 | Microsoft Technology Licensing, Llc | Generating and using a customized index |
US20140195961A1 (en) * | 2013-01-07 | 2014-07-10 | Apple Inc. | Dynamic Index |
US10387429B2 (en) * | 2013-02-08 | 2019-08-20 | Jive Software, Inc. | Fast ad-hoc filtering of time series analytics |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
US9256644B1 (en) * | 2013-03-15 | 2016-02-09 | Ca, Inc. | System for identifying and investigating shared and derived content |
US9575958B1 (en) * | 2013-05-02 | 2017-02-21 | Athena Ann Smyros | Differentiation testing |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
US9146980B1 (en) * | 2013-06-24 | 2015-09-29 | Google Inc. | Temporal content selection |
US20150019565A1 (en) * | 2013-07-11 | 2015-01-15 | Outside Intelligence Inc. | Method And System For Scoring Credibility Of Information Sources |
US9489411B2 (en) * | 2013-07-29 | 2016-11-08 | Sybase, Inc. | High performance index creation |
US9424345B1 (en) * | 2013-09-25 | 2016-08-23 | Google Inc. | Contextual content distribution |
US9336258B2 (en) | 2013-10-25 | 2016-05-10 | International Business Machines Corporation | Reducing database locking contention using multi-version data record concurrency control |
US9450771B2 (en) * | 2013-11-20 | 2016-09-20 | Blab, Inc. | Determining information inter-relationships from distributed group discussions |
KR101592670B1 (ko) * | 2014-02-17 | 2016-02-11 | 포항공과대학교 산학협력단 | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 |
CN103810300B (zh) * | 2014-03-10 | 2017-08-01 | 北京国双科技有限公司 | 用于非索引覆盖的数据查询方法和装置 |
US9817855B2 (en) * | 2014-03-17 | 2017-11-14 | SynerScope B.V. | Method and system for determining a measure of overlap between data entries |
US10162882B2 (en) | 2014-07-14 | 2018-12-25 | Nternational Business Machines Corporation | Automatically linking text to concepts in a knowledge base |
US10437869B2 (en) * | 2014-07-14 | 2019-10-08 | International Business Machines Corporation | Automatic new concept definition |
US10503761B2 (en) | 2014-07-14 | 2019-12-10 | International Business Machines Corporation | System for searching, recommending, and exploring documents through conceptual associations |
US9864741B2 (en) * | 2014-09-23 | 2018-01-09 | Prysm, Inc. | Automated collective term and phrase index |
US9785724B2 (en) | 2014-10-30 | 2017-10-10 | Microsoft Technology Licensing, Llc | Secondary queue for index process |
US10042928B1 (en) | 2014-12-03 | 2018-08-07 | The Government Of The United States As Represented By The Director, National Security Agency | System and method for automated reasoning with and searching of documents |
US10025783B2 (en) * | 2015-01-30 | 2018-07-17 | Microsoft Technology Licensing, Llc | Identifying similar documents using graphs |
CN104715063B (zh) * | 2015-03-31 | 2018-11-02 | 百度在线网络技术(北京)有限公司 | 搜索排序方法和装置 |
US10229143B2 (en) * | 2015-06-23 | 2019-03-12 | Microsoft Technology Licensing, Llc | Storage and retrieval of data from a bit vector search index |
US11392568B2 (en) | 2015-06-23 | 2022-07-19 | Microsoft Technology Licensing, Llc | Reducing matching documents for a search query |
US11281639B2 (en) | 2015-06-23 | 2022-03-22 | Microsoft Technology Licensing, Llc | Match fix-up to remove matching documents |
US10242071B2 (en) | 2015-06-23 | 2019-03-26 | Microsoft Technology Licensing, Llc | Preliminary ranker for scoring matching documents |
US10565198B2 (en) | 2015-06-23 | 2020-02-18 | Microsoft Technology Licensing, Llc | Bit vector search index using shards |
US10733164B2 (en) | 2015-06-23 | 2020-08-04 | Microsoft Technology Licensing, Llc | Updating a bit vector search index |
US10467215B2 (en) | 2015-06-23 | 2019-11-05 | Microsoft Technology Licensing, Llc | Matching documents using a bit vector search index |
US11392582B2 (en) * | 2015-10-15 | 2022-07-19 | Sumo Logic, Inc. | Automatic partitioning |
CN107015992A (zh) * | 2016-01-28 | 2017-08-04 | 珠海金山办公软件有限公司 | 一种文档显示方法及装置 |
US10885009B1 (en) * | 2016-06-14 | 2021-01-05 | Amazon Technologies, Inc. | Generating aggregate views for data indices |
US10810236B1 (en) * | 2016-10-21 | 2020-10-20 | Twitter, Inc. | Indexing data in information retrieval systems |
US10169331B2 (en) * | 2017-01-29 | 2019-01-01 | International Business Machines Corporation | Text mining for automatically determining semantic relatedness |
CN107357846B (zh) * | 2017-06-26 | 2018-12-14 | 北京金堤科技有限公司 | 关系图谱的展示方法以及装置 |
US11449484B2 (en) * | 2018-06-25 | 2022-09-20 | Ebay Inc. | Data indexing and searching using permutation indexes |
CN108897730B (zh) * | 2018-06-29 | 2022-07-29 | 国信优易数据股份有限公司 | 一种pdf文本的处理方法以及装置 |
CN109376121B (zh) * | 2018-08-10 | 2021-07-02 | 南京华讯方舟通信设备有限公司 | 一种基于ElasticSearch全文检索的文件索引系统及方法 |
CN109086456B (zh) * | 2018-08-31 | 2020-11-03 | 中国联合网络通信集团有限公司 | 数据索引方法及装置 |
US10902069B2 (en) | 2018-12-18 | 2021-01-26 | Runtime Collective Limited | Distributed indexing and aggregation |
CN112084435A (zh) * | 2020-08-07 | 2020-12-15 | 北京三快在线科技有限公司 | 搜索排序模型训练方法及装置、搜索排序方法及装置 |
US12045294B2 (en) * | 2020-11-16 | 2024-07-23 | Microsoft Technology Licensing, Llc | Mask-augmented inverted index |
US11442971B1 (en) * | 2021-05-26 | 2022-09-13 | Adobe Inc. | Selective database re-indexing |
US12117963B2 (en) * | 2021-10-08 | 2024-10-15 | Open Text Holdings, Inc. | System and method for efficient multi-stage querying of archived data |
WO2023059909A2 (en) * | 2021-10-08 | 2023-04-13 | Open Text Holdings, Inc. | System and method for efficient multi-stage querying of archived data |
US12019583B2 (en) | 2021-10-08 | 2024-06-25 | Open Text Holdings, Inc. | System and method for efficient multi-stage querying of archived data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US6499030B1 (en) * | 1999-04-08 | 2002-12-24 | Fujitsu Limited | Apparatus and method for information retrieval, and storage medium storing program therefor |
Family Cites Families (188)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS619753A (ja) * | 1984-06-26 | 1986-01-17 | Hitachi Ltd | 文書処理装置における頻発熟語の自動登録方法 |
US4773039A (en) * | 1985-11-19 | 1988-09-20 | International Business Machines Corporation | Information processing system for compaction and replacement of phrases |
JPH02270067A (ja) | 1987-04-16 | 1990-11-05 | Westinghouse Electric Corp <We> | インテリジェント問合せシステム |
US5321833A (en) | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
US5278980A (en) | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5523946A (en) | 1992-02-11 | 1996-06-04 | Xerox Corporation | Compact encoding of multi-lingual translation dictionaries |
US5353401A (en) * | 1992-11-06 | 1994-10-04 | Ricoh Company, Ltd. | Automatic interface layout generator for database systems |
JPH0756933A (ja) * | 1993-06-24 | 1995-03-03 | Xerox Corp | 文書検索方法 |
US5692176A (en) * | 1993-11-22 | 1997-11-25 | Reed Elsevier Inc. | Associative text search and retrieval system |
US5734749A (en) | 1993-12-27 | 1998-03-31 | Nec Corporation | Character string input system for completing an input character string with an incomplete input indicative sign |
JPH07262217A (ja) | 1994-03-24 | 1995-10-13 | Fuji Xerox Co Ltd | テキスト検索装置 |
US5715443A (en) | 1994-07-25 | 1998-02-03 | Apple Computer, Inc. | Method and apparatus for searching for information in a data processing system and for providing scheduled search reports in a summary format |
JP3669016B2 (ja) | 1994-09-30 | 2005-07-06 | 株式会社日立製作所 | 文書情報分類装置 |
US5694593A (en) | 1994-10-05 | 1997-12-02 | Northeastern University | Distributed computer database system and method |
US5758257A (en) * | 1994-11-29 | 1998-05-26 | Herz; Frederick | System and method for scheduling broadcast of and access to video programs and other data using customer profiles |
US6460036B1 (en) | 1994-11-29 | 2002-10-01 | Pinpoint Incorporated | System and method for providing customized electronic newspapers and target advertisements |
JP2929963B2 (ja) * | 1995-03-15 | 1999-08-03 | 松下電器産業株式会社 | 文書検索装置および単語索引作成方法および文書検索方法 |
US5745602A (en) * | 1995-05-01 | 1998-04-28 | Xerox Corporation | Automatic method of selecting multi-word key phrases from a document |
US5659732A (en) | 1995-05-17 | 1997-08-19 | Infoseek Corporation | Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents |
US5724571A (en) | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
JPH0934911A (ja) | 1995-07-18 | 1997-02-07 | Fuji Xerox Co Ltd | 情報検索装置 |
US5668987A (en) | 1995-08-31 | 1997-09-16 | Sybase, Inc. | Database system with subquery optimizer |
US6366933B1 (en) | 1995-10-27 | 2002-04-02 | At&T Corp. | Method and apparatus for tracking and viewing changes on the web |
US5757917A (en) | 1995-11-01 | 1998-05-26 | First Virtual Holdings Incorporated | Computerized payment system for purchasing goods and services on the internet |
US6098034A (en) | 1996-03-18 | 2000-08-01 | Expert Ease Development, Ltd. | Method for standardizing phrasing in a document |
US7051024B2 (en) | 1999-04-08 | 2006-05-23 | Microsoft Corporation | Document summarizer for word processors |
US5924108A (en) | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
US5794233A (en) | 1996-04-09 | 1998-08-11 | Rubinstein; Seymour I. | Browse by prompted keyword phrases |
US5721897A (en) | 1996-04-09 | 1998-02-24 | Rubinstein; Seymour I. | Browse by prompted keyword phrases with an improved user interface |
US5915249A (en) * | 1996-06-14 | 1999-06-22 | Excite, Inc. | System and method for accelerated query evaluation of very large full-text databases |
EP0822502A1 (en) * | 1996-07-31 | 1998-02-04 | BRITISH TELECOMMUNICATIONS public limited company | Data access system |
US6085186A (en) | 1996-09-20 | 2000-07-04 | Netbot, Inc. | Method and system using information written in a wrapper description language to execute query on a network |
US20030093790A1 (en) | 2000-03-28 | 2003-05-15 | Logan James D. | Audio and video program recording, editing and playback systems using metadata |
JP3584848B2 (ja) | 1996-10-31 | 2004-11-04 | 富士ゼロックス株式会社 | 文書処理装置、項目検索装置及び項目検索方法 |
JP3902825B2 (ja) * | 1997-01-16 | 2007-04-11 | キヤノン株式会社 | 文書検索システムおよび方法 |
US5960383A (en) | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
US6539430B1 (en) * | 1997-03-25 | 2003-03-25 | Symantec Corporation | System and method for filtering data received by a computer system |
US6185550B1 (en) | 1997-06-13 | 2001-02-06 | Sun Microsystems, Inc. | Method and apparatus for classifying documents within a class hierarchy creating term vector, term file and relevance ranking |
US6470307B1 (en) | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US5995962A (en) * | 1997-07-25 | 1999-11-30 | Claritech Corporation | Sort system for merging database entries |
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
US5983216A (en) | 1997-09-12 | 1999-11-09 | Infoseek Corporation | Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections |
US5845278A (en) | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US5956722A (en) | 1997-09-23 | 1999-09-21 | At&T Corp. | Method for effective indexing of partially dynamic documents |
US6542888B2 (en) | 1997-11-26 | 2003-04-01 | International Business Machines Corporation | Content filtering for electronic documents generated in multiple foreign languages |
JP4183311B2 (ja) | 1997-12-22 | 2008-11-19 | 株式会社リコー | 文書の注釈方法、注釈装置および記録媒体 |
US6185558B1 (en) | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
JP3664874B2 (ja) * | 1998-03-28 | 2005-06-29 | 松下電器産業株式会社 | 文書検索装置 |
JPH11293535A (ja) * | 1998-04-10 | 1999-10-26 | Mitsubishi Rayon Co Ltd | 熱融着複合糸の製造方法 |
US6638314B1 (en) * | 1998-06-26 | 2003-10-28 | Microsoft Corporation | Method of web crawling utilizing crawl numbers |
US6363377B1 (en) | 1998-07-30 | 2002-03-26 | Sarnoff Corporation | Search data processor |
US6377949B1 (en) | 1998-09-18 | 2002-04-23 | Tacit Knowledge Systems, Inc. | Method and apparatus for assigning a confidence level to a term within a user knowledge profile |
US6366911B1 (en) * | 1998-09-28 | 2002-04-02 | International Business Machines Corporation | Partitioning of sorted lists (containing duplicate entries) for multiprocessors sort and merge |
US6415283B1 (en) | 1998-10-13 | 2002-07-02 | Orack Corporation | Methods and apparatus for determining focal points of clusters in a tree structure |
US7058589B1 (en) | 1998-12-17 | 2006-06-06 | Iex Corporation | Method and system for employee work scheduling |
US6862710B1 (en) | 1999-03-23 | 2005-03-01 | Insightful Corporation | Internet navigation using soft hyperlinks |
US6430539B1 (en) | 1999-05-06 | 2002-08-06 | Hnc Software | Predictive modeling of consumer financial behavior |
US6175830B1 (en) * | 1999-05-20 | 2001-01-16 | Evresearch, Ltd. | Information management, retrieval and display system and associated method |
US7089236B1 (en) | 1999-06-24 | 2006-08-08 | Search 123.Com, Inc. | Search engine interface |
US6601026B2 (en) | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
US6996775B1 (en) * | 1999-10-29 | 2006-02-07 | Verizon Laboratories Inc. | Hypervideo: information retrieval using time-related multimedia: |
US6751612B1 (en) | 1999-11-29 | 2004-06-15 | Xerox Corporation | User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine |
US6684183B1 (en) | 1999-12-06 | 2004-01-27 | Comverse Ltd. | Generic natural language service creation environment |
US6963867B2 (en) * | 1999-12-08 | 2005-11-08 | A9.Com, Inc. | Search query processing to provide category-ranked presentation of search results |
US6785671B1 (en) * | 1999-12-08 | 2004-08-31 | Amazon.Com, Inc. | System and method for locating web-based product offerings |
WO2001042880A2 (en) | 1999-12-10 | 2001-06-14 | Amazon.Com, Inc. | Search query refinement using related search phrases |
US6772150B1 (en) | 1999-12-10 | 2004-08-03 | Amazon.Com, Inc. | Search query refinement using related search phrases |
CA2293064C (en) * | 1999-12-22 | 2004-05-04 | Ibm Canada Limited-Ibm Canada Limitee | Method and apparatus for analyzing data retrieval using index scanning |
US6981040B1 (en) | 1999-12-28 | 2005-12-27 | Utopy, Inc. | Automatic, personalized online information and product services |
US6820237B1 (en) | 2000-01-21 | 2004-11-16 | Amikanow! Corporation | Apparatus and method for context-based highlighting of an electronic document |
US6883135B1 (en) | 2000-01-28 | 2005-04-19 | Microsoft Corporation | Proxy server using a statistical model |
US6654739B1 (en) | 2000-01-31 | 2003-11-25 | International Business Machines Corporation | Lightweight document clustering |
US6571240B1 (en) | 2000-02-02 | 2003-05-27 | Chi Fai Ho | Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases |
JP2001303279A (ja) * | 2000-02-17 | 2001-10-31 | Toyo Gurahoiru:Kk | 自己犠牲型金属防食剤および金属防食方法 |
US7137065B1 (en) | 2000-02-24 | 2006-11-14 | International Business Machines Corporation | System and method for classifying electronically posted documents |
US20060143714A1 (en) | 2000-03-09 | 2006-06-29 | Pkware, Inc. | System and method for manipulating and managing computer archive files |
US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
CN1465018A (zh) | 2000-05-11 | 2003-12-31 | 南加利福尼亚大学 | 机器翻译技术 |
US6691106B1 (en) | 2000-05-23 | 2004-02-10 | Intel Corporation | Profile driven instant web portal |
US7096220B1 (en) | 2000-05-24 | 2006-08-22 | Reachforce, Inc. | Web-based customer prospects harvester system |
US20020042707A1 (en) | 2000-06-19 | 2002-04-11 | Gang Zhao | Grammar-packaged parsing |
US20020078090A1 (en) | 2000-06-30 | 2002-06-20 | Hwang Chung Hee | Ontological concept-based, user-centric text summarization |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
KR100426382B1 (ko) | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
US7017114B2 (en) | 2000-09-20 | 2006-03-21 | International Business Machines Corporation | Automatic correlation method for generating summaries for text documents |
US20020147578A1 (en) | 2000-09-29 | 2002-10-10 | Lingomotors, Inc. | Method and system for query reformulation for searching of information |
US20020065857A1 (en) | 2000-10-04 | 2002-05-30 | Zbigniew Michalewicz | System and method for analysis and clustering of documents for search engine |
CA2322599A1 (en) * | 2000-10-06 | 2002-04-06 | Ibm Canada Limited-Ibm Canada Limitee | System and method for workflow control of contractual activities |
JP2002132789A (ja) | 2000-10-19 | 2002-05-10 | Hitachi Ltd | 文書検索方法 |
US7130790B1 (en) | 2000-10-24 | 2006-10-31 | Global Translations, Inc. | System and method for closed caption data translation |
JP2002169834A (ja) | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
US20020091671A1 (en) | 2000-11-23 | 2002-07-11 | Andreas Prokoph | Method and system for data retrieval in large collections of data |
KR20020045343A (ko) | 2000-12-08 | 2002-06-19 | 오길록 | 표준화된 문장 구문구조 및 의미구조에 기반한 정보생성/검색 장치 및 그 방법 |
JP2002207760A (ja) | 2001-01-10 | 2002-07-26 | Hitachi Ltd | 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 |
US6778980B1 (en) | 2001-02-22 | 2004-08-17 | Drugstore.Com | Techniques for improved searching of electronically stored information |
US6741984B2 (en) | 2001-02-23 | 2004-05-25 | General Electric Company | Method, system and storage medium for arranging a database |
US6823333B2 (en) | 2001-03-02 | 2004-11-23 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for conducting a keyterm search |
US6741981B2 (en) | 2001-03-02 | 2004-05-25 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) | System, method and apparatus for conducting a phrase search |
US6697793B2 (en) | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
US6721728B2 (en) | 2001-03-02 | 2004-04-13 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for discovering phrases in a database |
US7194483B1 (en) | 2001-05-07 | 2007-03-20 | Intelligenxia, Inc. | Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information |
US7171619B1 (en) | 2001-07-05 | 2007-01-30 | Sun Microsystems, Inc. | Methods and apparatus for accessing document content |
US6769016B2 (en) * | 2001-07-26 | 2004-07-27 | Networks Associates Technology, Inc. | Intelligent SPAM detection system using an updateable neural analysis engine |
US20030031996A1 (en) * | 2001-08-08 | 2003-02-13 | Adam Robinson | Method and system for evaluating documents |
EP1421518A1 (en) * | 2001-08-08 | 2004-05-26 | Quiver, Inc. | Document categorization engine |
US6778979B2 (en) | 2001-08-13 | 2004-08-17 | Xerox Corporation | System for automatically generating queries |
US6978274B1 (en) | 2001-08-31 | 2005-12-20 | Attenex Corporation | System and method for dynamically evaluating latent concepts in unstructured documents |
JP2003242176A (ja) | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US7356527B2 (en) | 2001-12-19 | 2008-04-08 | International Business Machines Corporation | Lossy index compression |
US6741982B2 (en) | 2001-12-19 | 2004-05-25 | Cognos Incorporated | System and method for retrieving data from a database system |
US7137062B2 (en) | 2001-12-28 | 2006-11-14 | International Business Machines Corporation | System and method for hierarchical segmentation with latent semantic indexing in scale space |
US7243092B2 (en) | 2001-12-28 | 2007-07-10 | Sap Ag | Taxonomy generation for electronic documents |
JP4108337B2 (ja) * | 2002-01-10 | 2008-06-25 | 三菱電機株式会社 | 電子ファイリングシステム及びその検索インデックス作成方法 |
US7139756B2 (en) | 2002-01-22 | 2006-11-21 | International Business Machines Corporation | System and method for detecting duplicate and similar documents |
US7028045B2 (en) | 2002-01-25 | 2006-04-11 | International Business Machines Corporation | Compressing index files in information retrieval |
US7421660B2 (en) | 2003-02-04 | 2008-09-02 | Cataphora, Inc. | Method and apparatus to visually present discussions for data mining purposes |
JP4092933B2 (ja) | 2002-03-20 | 2008-05-28 | 富士ゼロックス株式会社 | 文書情報検索装置及び文書情報検索プログラム |
US7743045B2 (en) | 2005-08-10 | 2010-06-22 | Google Inc. | Detecting spam related and biased contexts for programmable search engines |
US20030195937A1 (en) | 2002-04-16 | 2003-10-16 | Kontact Software Inc. | Intelligent message screening |
US6877001B2 (en) | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
NZ518744A (en) | 2002-05-03 | 2004-08-27 | Hyperbolex Ltd | Electronic document indexing using word use nodes, node objects and link objects |
US7085771B2 (en) | 2002-05-17 | 2006-08-01 | Verity, Inc | System and method for automatically discovering a hierarchy of concepts from a corpus of documents |
US7028026B1 (en) | 2002-05-28 | 2006-04-11 | Ask Jeeves, Inc. | Relevancy-based database retrieval and display techniques |
JP4452012B2 (ja) | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
JP2004046438A (ja) | 2002-07-10 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体 |
US7379978B2 (en) | 2002-07-19 | 2008-05-27 | Fiserv Incorporated | Electronic item management and archival system and method of operating the same |
US20040034633A1 (en) | 2002-08-05 | 2004-02-19 | Rickard John Terrell | Data search system and method using mutual subsethood measures |
US7151864B2 (en) | 2002-09-18 | 2006-12-19 | Hewlett-Packard Development Company, L.P. | Information research initiated from a scanned image media |
US7158983B2 (en) | 2002-09-23 | 2007-01-02 | Battelle Memorial Institute | Text analysis technique |
US20040064442A1 (en) | 2002-09-27 | 2004-04-01 | Popovitch Steven Gregory | Incremental search engine |
US6886010B2 (en) | 2002-09-30 | 2005-04-26 | The United States Of America As Represented By The Secretary Of The Navy | Method for data and text mining and literature-based discovery |
JP2004139150A (ja) | 2002-10-15 | 2004-05-13 | Ricoh Co Ltd | 文書検索装置、プログラム及び記憶媒体 |
US7970832B2 (en) | 2002-11-20 | 2011-06-28 | Return Path, Inc. | Electronic message delivery with estimation approaches and complaint, bond, and statistics panels |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
US20040133560A1 (en) | 2003-01-07 | 2004-07-08 | Simske Steven J. | Methods and systems for organizing electronic documents |
US7725544B2 (en) | 2003-01-24 | 2010-05-25 | Aol Inc. | Group based spam classification |
GB2399427A (en) | 2003-03-12 | 2004-09-15 | Canon Kk | Apparatus for and method of summarising text |
US7945567B2 (en) * | 2003-03-17 | 2011-05-17 | Hewlett-Packard Development Company, L.P. | Storing and/or retrieving a document within a knowledge base or document repository |
US6947930B2 (en) | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7051023B2 (en) | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7149748B1 (en) | 2003-05-06 | 2006-12-12 | Sap Ag | Expanded inverted index |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US7664732B2 (en) | 2003-05-31 | 2010-02-16 | Nhn Corporation | Method of managing websites registered in search engine and a system thereof |
US7272853B2 (en) | 2003-06-04 | 2007-09-18 | Microsoft Corporation | Origination/destination features and lists for spam prevention |
US7051014B2 (en) * | 2003-06-18 | 2006-05-23 | Microsoft Corporation | Utilizing information redundancy to improve text searches |
US7162473B2 (en) | 2003-06-26 | 2007-01-09 | Microsoft Corporation | Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users |
US8042112B1 (en) | 2003-07-03 | 2011-10-18 | Google Inc. | Scheduler for search engine crawler |
US7254580B1 (en) * | 2003-07-31 | 2007-08-07 | Google Inc. | System and method for selectively searching partitions of a database |
JP2005056233A (ja) | 2003-08-06 | 2005-03-03 | Nec Corp | 移動体通信装置、移動体通信装置の電子メールの受信動作方法及びその電子メールの受信動作プログラム |
US20050043940A1 (en) | 2003-08-20 | 2005-02-24 | Marvin Elder | Preparing a data source for a natural language query |
US20050060295A1 (en) * | 2003-09-12 | 2005-03-17 | Sensory Networks, Inc. | Statistical classification of high-speed network data through content inspection |
US20050071328A1 (en) | 2003-09-30 | 2005-03-31 | Lawrence Stephen R. | Personalization of web search |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US20050071310A1 (en) * | 2003-09-30 | 2005-03-31 | Nadav Eiron | System, method, and computer program product for identifying multi-page documents in hypertext collections |
US7257564B2 (en) | 2003-10-03 | 2007-08-14 | Tumbleweed Communications Corp. | Dynamic message filtering |
US7240064B2 (en) * | 2003-11-10 | 2007-07-03 | Overture Services, Inc. | Search engine with hierarchically stored indices |
US20050160107A1 (en) * | 2003-12-29 | 2005-07-21 | Ping Liang | Advanced search, file system, and intelligent assistant agent |
US7206389B1 (en) | 2004-01-07 | 2007-04-17 | Nuance Communications, Inc. | Method and apparatus for generating a speech-recognition-based call-routing system |
US20060294124A1 (en) | 2004-01-12 | 2006-12-28 | Junghoo Cho | Unbiased page ranking |
US7310632B2 (en) | 2004-02-12 | 2007-12-18 | Microsoft Corporation | Decision-theoretic web-crawling and predicting web-page change |
US20050198559A1 (en) | 2004-03-08 | 2005-09-08 | Kabushiki Kaisha Toshiba | Document information management system, document information management program, and document information management method |
US20050216564A1 (en) | 2004-03-11 | 2005-09-29 | Myers Gregory K | Method and apparatus for analysis of electronic communications containing imagery |
US20050256848A1 (en) * | 2004-05-13 | 2005-11-17 | International Business Machines Corporation | System and method for user rank search |
EP1767010B1 (en) | 2004-06-15 | 2015-11-11 | Tekelec Global, Inc. | Method, system, and computer program products for content-based screening of MMS messages |
JP2006026844A (ja) | 2004-07-20 | 2006-02-02 | Fujitsu Ltd | ポリッシングパッド、それを備えた研磨装置及び貼り付け装置 |
US7584175B2 (en) | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US7567959B2 (en) * | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7536408B2 (en) | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
US7702618B1 (en) | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7599914B2 (en) | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7426507B1 (en) * | 2004-07-26 | 2008-09-16 | Google, Inc. | Automatic taxonomy generation in search results using phrases |
US7580921B2 (en) | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7395260B2 (en) | 2004-08-04 | 2008-07-01 | International Business Machines Corporation | Method for providing graphical representations of search results in multiple related histograms |
US8407239B2 (en) * | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US8504565B2 (en) * | 2004-09-09 | 2013-08-06 | William M. Pitts | Full text search capabilities integrated into distributed file systems— incrementally indexing files |
US20060200464A1 (en) * | 2005-03-03 | 2006-09-07 | Microsoft Corporation | Method and system for generating a document summary |
US20080195601A1 (en) | 2005-04-14 | 2008-08-14 | The Regents Of The University Of California | Method For Information Retrieval |
US7552230B2 (en) | 2005-06-15 | 2009-06-23 | International Business Machines Corporation | Method and apparatus for reducing spam on peer-to-peer networks |
US20080005064A1 (en) * | 2005-06-28 | 2008-01-03 | Yahoo! Inc. | Apparatus and method for content annotation and conditional annotation retrieval in a search context |
US7512596B2 (en) | 2005-08-01 | 2009-03-31 | Business Objects Americas | Processor for fast phrase searching |
US7454449B2 (en) * | 2005-12-20 | 2008-11-18 | International Business Machines Corporation | Method for reorganizing a set of database partitions |
JP2007262217A (ja) | 2006-03-28 | 2007-10-11 | Toray Ind Inc | ポリフェニレンサルファイド樹脂組成物およびそれからなる成形品 |
WO2007123919A2 (en) | 2006-04-18 | 2007-11-01 | Gemini Design Technology, Inc. | Method for ranking webpages via circuit simulation |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
JP2008305730A (ja) | 2007-06-11 | 2008-12-18 | Fuji Electric Holdings Co Ltd | 多色発光デバイスの製造方法 |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
-
2005
- 2005-01-25 US US11/043,695 patent/US7567959B2/en not_active Expired - Fee Related
-
2006
- 2006-01-25 KR KR1020077018720A patent/KR101273520B1/ko active IP Right Grant
- 2006-01-25 AU AU2006208079A patent/AU2006208079B2/en not_active Ceased
- 2006-01-25 CN CN200680007173XA patent/CN101133388B/zh active Active
- 2006-01-25 WO PCT/US2006/002709 patent/WO2006081325A2/en active Application Filing
- 2006-01-25 DK DK06719537.0T patent/DK1844391T3/da active
- 2006-01-25 EP EP06719537A patent/EP1844391B1/en active Active
- 2006-01-25 CA CA2595674A patent/CA2595674C/en not_active Expired - Fee Related
- 2006-01-25 JP JP2007552403A patent/JP4881322B2/ja active Active
- 2006-01-25 BR BRPI0614024-6A patent/BRPI0614024B1/pt active IP Right Grant
-
2007
- 2007-08-24 NO NO20074329A patent/NO338518B1/no not_active IP Right Cessation
-
2009
- 2009-07-20 US US12/506,088 patent/US8560550B2/en active Active
-
2010
- 2010-02-09 AU AU2010200478A patent/AU2010200478B2/en not_active Ceased
-
2013
- 2013-03-13 US US13/801,108 patent/US9361331B2/en not_active Expired - Fee Related
-
2016
- 2016-06-03 US US15/172,717 patent/US9817825B2/en not_active Expired - Lifetime
-
2017
- 2017-11-10 US US15/809,356 patent/US10671676B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826261A (en) * | 1996-05-10 | 1998-10-20 | Spencer; Graham | System and method for querying multiple, distributed databases by selective sharing of local relative significance information for terms related to the query |
US5920854A (en) * | 1996-08-14 | 1999-07-06 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US6070158A (en) * | 1996-08-14 | 2000-05-30 | Infoseek Corporation | Real-time document collection search engine with phrase indexing |
US6499030B1 (en) * | 1999-04-08 | 2002-12-24 | Fujitsu Limited | Apparatus and method for information retrieval, and storage medium storing program therefor |
Non-Patent Citations (2)
Title |
---|
BYEONG-SOO JEONG ET AL: "INVERTED FILE PARTITIONING SCHEMES IN MULTIPLE DISK SYSTEMS", IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, LNKD-DOI: 10.1109/71.342125, vol. 6, no. 2, 1 February 1995 (1995-02-01), pages 142-153, Dated: 01.01.0001 * |
TANIAR D, RAHAYU J: "A Taxonomy of Indexing Schemes for Parallel Database Systems", DISTRIBUTED AND PARALLEL DATABASES, KLUWER, NL, vol. 12, 1 January 2002 (2002-01-01), NL, pages 73 - 106, XP007912534, ISSN: 0926-8782 * |
Also Published As
Publication number | Publication date |
---|---|
US20160283474A1 (en) | 2016-09-29 |
AU2010200478A1 (en) | 2010-03-04 |
AU2006208079B2 (en) | 2009-11-26 |
CN101133388B (zh) | 2011-07-06 |
US9817825B2 (en) | 2017-11-14 |
US10671676B2 (en) | 2020-06-02 |
US9361331B2 (en) | 2016-06-07 |
WO2006081325A2 (en) | 2006-08-03 |
KR20070094972A (ko) | 2007-09-27 |
US7567959B2 (en) | 2009-07-28 |
JP4881322B2 (ja) | 2012-02-22 |
BRPI0614024B1 (pt) | 2018-02-14 |
US20140095511A1 (en) | 2014-04-03 |
JP2008529138A (ja) | 2008-07-31 |
US20100030773A1 (en) | 2010-02-04 |
WO2006081325A3 (en) | 2007-08-09 |
US20060106792A1 (en) | 2006-05-18 |
BRPI0614024A2 (pt) | 2012-12-25 |
CA2595674C (en) | 2012-07-03 |
AU2010200478B2 (en) | 2012-10-04 |
EP1844391A4 (en) | 2010-05-19 |
AU2006208079A1 (en) | 2006-08-03 |
EP1844391A2 (en) | 2007-10-17 |
EP1844391B1 (en) | 2012-10-17 |
NO20074329L (no) | 2007-10-23 |
CN101133388A (zh) | 2008-02-27 |
US8560550B2 (en) | 2013-10-15 |
CA2595674A1 (en) | 2006-08-03 |
KR101273520B1 (ko) | 2013-06-14 |
US20180101528A1 (en) | 2018-04-12 |
DK1844391T3 (da) | 2013-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO338518B1 (no) | Flerregisterbasert informasjonsgjenfinningssystem | |
US9817886B2 (en) | Information retrieval system for archiving multiple document versions | |
KR101223173B1 (ko) | 정보 검색 시스템에서의 문구 기반 인덱싱 | |
JP4944406B2 (ja) | フレーズに基づく文書説明の生成方法 | |
CN1728142B (zh) | 信息检索系统中的短语识别方法和设备 | |
KR101223172B1 (ko) | 정보 검색 시스템에서의 문구 기반 서치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Lapsed by not paying the annual fees |