NO314059B1 - Fremgangsmåte for strukturering og söking av informasjon - Google Patents

Fremgangsmåte for strukturering og söking av informasjon Download PDF

Info

Publication number
NO314059B1
NO314059B1 NO20005704A NO20005704A NO314059B1 NO 314059 B1 NO314059 B1 NO 314059B1 NO 20005704 A NO20005704 A NO 20005704A NO 20005704 A NO20005704 A NO 20005704A NO 314059 B1 NO314059 B1 NO 314059B1
Authority
NO
Norway
Prior art keywords
information
database
index table
data units
search
Prior art date
Application number
NO20005704A
Other languages
English (en)
Other versions
NO20005704D0 (no
NO20005704L (no
Inventor
Kenneth Gulliksen
Original Assignee
Imp Technology As
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imp Technology As filed Critical Imp Technology As
Priority to NO20005704A priority Critical patent/NO314059B1/no
Publication of NO20005704D0 publication Critical patent/NO20005704D0/no
Priority to US09/709,279 priority patent/US6691123B1/en
Priority to PCT/NO2001/000444 priority patent/WO2002039320A1/en
Priority to AU2002214419A priority patent/AU2002214419A1/en
Priority to EP01982960A priority patent/EP1342177A1/en
Publication of NO20005704L publication Critical patent/NO20005704L/no
Publication of NO314059B1 publication Critical patent/NO314059B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Communication Control (AREA)

Description

OPPFINNELSENS OMRÅDE
Den foreliggende oppfinnelse angår et system og en fremgangsmåte for å strukturere digitalt lagret informasjon og en fremgangsmåte for å søke i denne informasjonen. Et datamaskinprogramprodukt og anvendelser av systemet og fremgangsmåtene er også fremlagt. Spesielt adresserer oppfinnelsen problemet å søke i store informasjonsrom/databaser, f.eks i en nasjonal telefonkatalog, store filsystemer eller på Internet.
BESKRIVELSE AV KJENT TEKNIKK
De eksisterende og økende mengdene med informasjon som i dag er til-gjengelig på elektronisk form, stiller store krav til data hardware f.eks. angående minnekapasitet og prosessorhastighet når det søkes i denne informasjonen. Informasjon i elektronisk form er f.eks. nettverksversjoner av telefonkataloger, filer lagret på harddisker eller på nettverksservere (f.eks. LAN, WAN), www-sider. Den digitale informasjonen kan organiseres og lagres i store databaser og gjenfinning av informasjon fra disse strukturene krever komplekse søkerutiner, kraftfulle pro-sessorer og lagringskapasitet. Imidlertid kan det være en tidkrevende og langtek-kelig prosess å gjenfinne informasjon som ønsket fra disse databasene.
For Internet, som er et svært stort informasjonsrom, har det blitt utviklet forskjellige søkemotorer og søkbare kataloger (f.eks. Yahoo) for å søke å gjenfinne den eksisterende informasjonen. Informasjonen er da indeksert og anordnet i søk-bart format i f.eks. databaser og lagret på servere. Et problem med slike kjente søkemotorer og søkbare kataloger er nødvendigheten av stor fysisk lagringskapasitet. All den indekserte og/eller prosesserte informasjonen lagres fysisk, og å søke i all denne informasjonen som ofte er anordnet i en stor database er ikke alltid svært effektivt.
Binærsøk, som ofte anvendes når det søkes i databasestrukturer, er en søkealgoritme som gjentatt deler et organisert søkerom i to iht. hvordan den ford-rede verdien er i forhold til det midterste elementet. Når det søkes i store databaser, blir dette en tidkrevende prosess, da hele databasen må gjennomsøkes minst en gang. Vanligvis utføres kun søk i valgte kolonner i databasen. Hvis det er nød-vendig å kombinere informasjon anordnet i forskjellige kolonner i databasen for å oppnå et nyttig og meningsfullt søkeresultat, og databasen er stor, kan søkeprose-dyren ta svært lang tid, og den er noen ganger ikke mulig å gjennomføre pga. det store antallet mulige kombinasjoner av informasjonen anordnet i cellene i de forskjellige kolonnene. Det er også et problem hvis en søkeanmodning, i f.eks. en database eller i et hvilket som helst annet informasjonsrom, resulterer i et stort antall treff, hvordan denne informasjonen bør presenteres for brukeren på en nyttig og meningsfull måte. Søking er ofte omstendelig og står i kontrast til at brukere alltid krever informasjon presentert på et øyeblikk.
SAMMENFATNING AV OPPFINNELSEN
Den foreliggende oppfinnelse har blitt uttenkt for å løse eller i det minste lette problemene med den kjente teknikk som beskrevet over. Derfor, i overens-stemmelse med et første aspekt av den foreliggende oppfinnelse er det tilveiebrakt et system for å strukturere digitalt lagret informasjon, der systemet er inkludert i et dataprosesseringssystem, og struktureringssystemet omfatter: - en database som omfatter et antall celler anordnet i rader og kolonner for å lagre dataenheter som representerer informasjonen, der kun en dataenhet kan lagres i hver celle, idet dataenhetene inneholdt i cellene i en rad i databasen inneholder en viss informasjon. Systemet er kjennetegnet ved - en indekstabell for hver unik dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon som angår alle posisjoner/lokaliseringer til den unike dataenheten i databasen; - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabellidentifikator, idet
indekstabellidentifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.
Posisjonen kan uttrykkes ved koordinater, der koordinatene definerer cellene i databasen. Foretrukket er koordinatene (x, y) koordinatpar som representerer hhv. kolonnene og radene i databasen. Koordinatparene i indekstabellene sorteres deretter først iht. absoluttverdien av x-koordinatene og deretter iht. verdien av y-koordinaten. Dataenhetene med de høyeste absoluttverdiene av x har ved defi-nisjon en høyere relevans enn dataenhetene med lavere absoluttverdier av x. Ved relevant menes at dataenhetene som det blir funnet beskriver best den representerte informasjonen tilordnes en høy x-verdi. I en utførelsesform kan databasen også omfatte en adresse eller kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad i databasen.
Dataenhetene inneholdt i cellene i én rad i databasen kan f.eks. representere en søkestreng assosiert med en URL-adresse eller en filbane. Den digitalt lagrede informasjonen kan representere en telefonkatalog.
I et andre aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, idet cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon; og der fremgangsmåten videre er kjennetegnet ved - å skape minst en indekstabell for hver unik dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer av den unike dataenheten i databasen; - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indeksidentifikator som tilveiebringer en kopling til den tilsvarende indeks for en unik dataenhet.
I en første utførelsesform av den oppfunnede fremgangsmåten benyttes en indekseirngsagent for å indeksere den lagrede informasjonen. Denne indekser-ingsagenten kan være en spider, web crawler eller en hvilken som helst annen passende agent. Foretrukket prosesseres informasjonen og dataenhetene representativ for informasjonen anordnet i databasen på en slik måte at dataenhetene som er tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenheter som er tilordnet lavere absoluttverdier av x-koordinatene. Dataenhetene kan være nøkkelord som beskriver den digitalt lagrede informasjonen. Når nøkkelordene som er inneholdt i cellene i hver rad i databasen utgjør en søkestreng, omfatter fremgangsmåten videre å skape en indeks for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indeksidentifikator assosiert med nøkkelordet i hovedindeksen. En ressursindikator for den prosesserte informasjonen kan inkluderes i hver rad i databasen, for å tilveiebringe en kopling til den digitalt lagrede informasjonen.
I et tredje aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, der informasjonen er strukturert i et database/indeks-system som definert over, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabeller; - å søke i de valgte indekstabellene for å velge minst én lokalisering av en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen der cellen er lokalisert og å gjenfinne den ønskede informasjonen.
I en utførelsesform, når den ønskede informasjonen er uttrykt i form av en sekvensert søkestreng med nøkkelord, omfatter fremgangsmåten videre å bestemme rekkefølgen av søkeordene i sekvensen med søkeord, og å velge indekstabeller som svarer både til den ønskede informasjonen og rekkefølgen til søkeor-det i inngangs-søkestrengen.
Den ønskede informasjonen kan innføres gjennom et søkemotor-grensesnitt, og den gjenfunnede informasjonen fremvises i en fremvisningsanordning. En typisk fremvisningsanordning kan være en dataskjerm, men kan også være skjer-men på en mobiltelefon eller WAP.
I et fjerde aspekt tilveiebringer oppfinnelsen et dataprogramprodukt for et dataprosesseirngssystem, omfattende et datamaskinlesbart medium, som har lagret derpå datamaskinlesbare programanordninger, som når nedlastet til et internt minne i dataprosesseringssystemet, gjør dataprosesseringssystemet i stand til å utføre struktureirngsmetoden som definert over.
I et femte aspekt tilveiebringer oppfinnelsen også et dataprogramprodukt for et dataprosesseringssystem, omfattende datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, gjør dataprosesseringssystemet i stand til å utføre søkemetoden som definert over.
Det oppfunnede systemet og fremgangsmåtene kan anvendes i en søke-motor for søking på Internet, i en håndholdt elektronisk anordning som omfatter en prosessor og et minne (f.eks. en mobiltelefon, en WAP-telefon eller en bærbar datamaskin) eller i en datamaskin for å gjenfinne filer i en datalagringsanordning. Oppfinnelsen tilveiebringer en løsning for organisering og søking i informasjon på en effektiv måte, og for å presentere informasjonen på en umiddelbar nyttig måte. Den oppfunnede løsningen tilveiebringer raskere prosessering ved å minimalisere selve søket, og resulterer også i reduserte kostnader for kjøring og oppgradering av søkesystemet. Informasjon kan lett legges til og slettes, og tilveiebringes uav-hengig av søkespråket som benyttes. Oppfinnelsen er definert i de vedføyde kravene.
KORT BESKRIVELSE AV TEGNINGENE
De ovenfor og ytterligere fordeler kan forstås mer fullstendig ved referanse til den følgende beskrivelsen og de medfølgende tegningene der: Fig. 1 viser et utsnitt av en venstre del av en innholdsdatabase ifølge en ut-førelsesform av den foreliggende oppfinnelsen; Fig. 2 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 3 er en del av en indekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 4 er et ekstrakt av en liste med IMP-tall, der hvert IMP-tall representerer en streng med søketermer, ifølge en utførelsesform av oppfinnelsen; Fig. 5 viser en høyre del av en innholdsdatabase med søkestrenger som er både representert med ord og IMP-tall ifølge en utførelsesform av oppfinnelsen; Fig. 6 viser en venstre del av innholdsdatabasen i fig. 5 og med rad og kolonne-koordinater fremvist; Fig. 7 er en del av en indekstabell for ordet "landing" ifølge en utførelses-form av oppfinnelsen; Fig. 8 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av oppfinnelsen; Fig. 9 er en første del av en indekstabell for et ord i "firstref-kolonnen vist i fig. 8; og Fig. 10 er en del av en indekstabell for et ord i "secondref -kolonnen vist i fig. 8.
BESKRIVELSE AV OPPFINNELSEN
Den foreliggende oppfinnelse angår et system av databaser og indekser som er i stand til å lagre store informasjonsmengder, en fremgangsmåte for å prosessere og strukturere digitalt lagret informasjon i en slik struktur og en fremgangsmåte for å søke i databasestrukturen. Oppfinnelsen vil først bli beskrevet på en generalisert måte og deretter ved å bruke eksempler på mulige implementerin-ger av oppfinnelsen. Eksemplene skal imidlertid ikke betraktes som begrensende for omfanget av oppfinnelsen.
Informasjon i konteksten for den foreliggende oppfinnelsen skal forstås på bredest mulig måte, men informasjonen kan eksistere på en eller annen elektronisk form, f.eks. i en prosessor, minneanordninger eller lagringsanordning. Informasjon kan være en Word- eller Excel-fil på din dataharddisk, opplistinger i en online telefonkatalog, sider på World Wide Web osv. Informasjonen er i den foreliggende oppfinnelsen prosessert på kjente måter for å ekstrahere dataenheter som er representative for informasjonen. Disse kjente metodene inkluderer, men er ikke be-grenset til, f.eks. opptelling av forekomster av ord på sider på www eller i en lagret fil, og ved å bruke deskriptive ord med det høyeste antall forekomster som dataenheter representativ for informasjonen. Ifølge oppfinnelsen er deretter de ekstraherte data anordnet i en databasestruktur, f.eks. som vist i fig. 1, og forskjellige indekser opprettet for å lette gjenfinningen av informasjonen. Databasestrukturen og dataene lagres fysisk på en eller annen lagringsanordning. Data i denne konteksten kan f.eks. være ord, bokstaver, symboler, tall eller siffer osv.
Databasestrukturen
Fig. 1 viser et utdrag av en innholdsdatabase 10, med celler 11 anordnet i horisontale rader og vertikale kolonner. Hver celle 11 i databasen er identifisert ved et (x, y)-koordinatpar, der tallene i den øverste raden er x-koordinatene og tallene i kolonnen lengst til venstre er y-koordinatene. Følgelig identifiseres cellen 14 i fig. 1 ved (x, y)-koordinatparet (18, 53).
Dataenhetene som representerer informasjonen er anordnet i innholdsdatabasen på en slik måte at dataenheter som beskriver en viss informasjon opptrer i den samme raden. Som et eksempel består en opptegnelse i en telefonkatalog vanligvis av etternavn, fornavn, adresse og telefonnummer. Denne informasjonen vil derfor opptre i den samme raden. Hver celle i innholdsdatabasen kan også kun inneholde en dataenhet, dvs. en kontinuerlig rekke av bokstaver, tall osv. Imidlertid, i denne utførelsesformen av oppfinnelsen, hvis en person har fornavn "Hans Frode", vil hele fornavnet opptre i en celle. Det er ingen begrensning på antallet bokstaver, tall osv. i den kontinuerlige sekvensen, og celler trenger derfor ikke å bli oppdelt.
Data er også anordnet i radene i innholdsdatabasen iht. relevans. Når informasjonen prosesseres i en dataprosessor, for å ekstrahere dataene som skal inkluderes i innholdsdatabasen, anordnes data som betraktes som svært deskriptive for informasjonen, dvs. data som presist definerer hva denne informasjonen (f.eks. fil/dokument/www-side) handler om, i cellene i en rad på en slik måte at disse dataene tilordnes de høyeste absolutt-verdiene av x. Dette betyr at de deskriptive data enten opptrer helt til venstre eller helt til høyre i innholdsdatabasen, avhengig av hvordan x-koordinatene er tilordnet til kolonnene.
Alle cellene i databasen i fig. 1 trenger ikke å fylles med en dataenhet. Antallet dataenheter som er nødvendig for tilstrekkelig å representere en viss informasjon kan variere. Rader og kolonner i innholdsdatabasen kan lett legges til og slettes på kjente måter for å dynamisk ekspandere og minke databasen når øns-kelig. Innholdsdatabasen kan utvides nesten uendelig.
Databasen kan i en utførelsesform også inkludere informasjonsadressene, f.eks. en URL-adresse for en www-side. Adressedataene er lagret i en forhåndsdefinert kolonne på en mengde forskjellige måter, som f.eks. en numerisk repre-sentasjon med en kopling til en adresse-indeks/database eller en html-link til en URL-adresse.
Den samme dataenheten (f.eks. ord eller tall) kan påtreffes i mange forskjellige posisjoner i innholdsdatabasen i fig. 1. Derfor ekstraheres alle koordinatene for alle disse unike dataenhetene som opptrer i innholdsdatabasen og anordnes i indekser. En indekstabell eksisterer for hver unike dataenhet som opptrer i innholdsdatabasen. En utførelsesform av en slik indekstabell 20 for en unik dataenhet er vist i fig. 2. x, y-koordinatparene er listet i den samme raden 21, med x-koordinaten i kolonne 22 og y-koordinaten i kolonne 23. Koordinatparene i indekstabellen 20 i fig. 2 er først sortert i nedadstigende orden iht. absoluttverdien av x-koordinaten, og deretter i stigende orden iht. koordinat-verdiene til y-koordinatene. Koordinatparene representerer posisjonene som den unike dataenheten er mest deskriptiv for den representerte informasjon og er derfor helt øverst i indekstabellene. Kolonnen 24 kalt ID identifiserer kun antallet forskjellige plasseringer for dataenheten i innholdsdatabasen.
For å være i stand til å finne den passende indekstabellen for en viss infor-masjonsenhet, anordnes alle de unike dataenheten i en hovedindeks, sammen med informasjon angående hvilken indekstabell som inkluderer koordinatverdiene for disse data i innholdsdatabasen. Et antall slike hovedindekser kan opprettes avhengig av størrelsen til innholdsdatabasen. F.eks.: fra en innholdsdatabase med 200 000 rader og 10 kolonner genereres en hovedindeks (ordliste). Størrelsen til hovedindeksen vil avhenge av antallet unike dataenheter (ord) i innholdsdatabasen. En innholdsdatabase omfattende informasjon angående de tekniske trekkene til bilmodeller vil resultere i en heller liten hovedindeks, da de samme ordene ofte vil bli gjentatt for å beskrive de forskjellige bilmodellene. Indeksene som tilveiebringer koordinatverdiene, vil imidlertid bli stor. Følgelig, en innholdsdatabase angående telefonnummeirnformasjon vil resultere i en heller stor hovedindeks, og det kan da være fordelaktig å skape et antall hovedindekser. Når flere hovedindekser opprettes, skapes høyere ordenstabeller for å identifisere de passende hovedin-dekstabellene. Redusering av størrelsen til indekstabellen på denne måten vil resultere i øket søkehastighet og lett gjenfinning av data når det senere søkes i strukturen.
Måten som informasjonen førbehandles og struktureres på tilveiebringer et system hvor søk kan betraktes som utført på forhånd. De virkelige søkene som beordres av brukere av søkesystemet utføres deretter i de strukturerte på forhånd utførte søkene. Dette minimaliserer betraktelig søkeprosessen.
En utførelsesform av en hovedindekstabell 30 er vist i fig. 3. Merk at kun et utdrag av en slik hovedindeks er vist i fig. 3. Kolonnen 31 navngitt som ID gir antallet rader i hovedindeksen og derav antallet forskjellige dataenheter, f.eks. ord, som eksisterer i innholdsdatabasen. Kolonne 33, "criteria", lister opp de forskjellige dataenhetene. I fig. 3 er dataenhetene ord som er sortert alfabetisk. Hovedindeksen kan betraktes som en slags ordliste for databasesystemet. Den tilsvarende in-deksidentrfikatoren for hver dataenhet er listet i kolonne 34.
Søking i databasestrukturen
Den ønskede informasjonen innføres i søkesystemet gjennom et grensesnitt. Dette grensesnittet er f.eks. en søkemotor som residerer på en personlig datamaskin for søking på Internet, en søkemodul for å søke i filer lagret på servere i en intranettstruktur, en mobiltelefon for å søke i informasjon angående telefonnumre lagret i minnet osv. Hvis den ønskede informasjonen innføres i form av en søkestreng av nøkkelord, som vil være det typiske tilfellet for en Intemet-applika-sjon, vil søkesystemet først utføre et søk i hovedindekstabellen for å finne dataenhetene som tilsvarer det innførte nøkkelordet. Deretter, vil den indekstabellidentifikatoren som er tilordnet den dataenheten bli valgt. Hvis ingen treff inntreffer mellom de innførte nøkkelordene og dataenhetene i hovedindeksen, vil ingen treff bli listet på trefflisten.
Indekstabellidentifikatoren tilveiebringer en kopling til indekstabellen som skal søkes for å finne lagerstedet til dataenhetene, og derved det innførte nøkkel-ord, i innholdsdatabasen. Alle koordinatparene for den valgte dataenheten er gjen-funnet fra indekstabellen. Koordinatparene er lokaliseringene til alle cellene i innholdsdatabasen som inneholder det innførte nøkkelord. Hele raden i innholdsdatabasen som inneholder de identifiserte cellene blir deretter valgt. I noen implementasjoner av oppfinnelsen inneholder innholdsdatabasen selv all informasjon som er ønsket av brukeren, typisk når databasestrukturen inneholder informasjon angående telefonnumre og adresser. Radene kan også innholde informasjon angående lokaliseringene til den ønskede informasjonen, f.eks. en URL-adresse for en side på web'en. I det sistnevnte tilfellet vil det å ha koordinatene for cellene i innholdsdatabasen med en gang implisere at man har URL-adressene for den søkte informasjonen for en person som søker på web'en. Å finne en cellelokalisering i indekstabellen resulterer i å velge hele raden i innholdsdatabasen som inneholder cellen, da y-koordinatene i (x, y) koordinatparet identifiserer raden. Cellene i raden som inneholder URL-adresseinformasjonen identifiseres deretter lett, da kolonnen som inneholder adresseinformasjonen er forhåndsdefinert.
Kjente metoder brukes for å søke i indeksene og får å ekstrahere informasjonen. Størrelsen til indeksene er holdt små og velkjente søkemetoder som bi-nærsøk, kan derfor benyttes. Den fordelaktige søkehastigheten skyldes først og fremst enkelheten til systemet. Ekstraherte data er lagret i cellene identifisert ved koordinater og informasjon angående de unike data, og koordinatposisjoner er lagret i små indekstabeller som tilveiebringer umiddelbar lokalisering av de innførte nøkkelord i innholdsdatabasen.
Systemet kan utformes til å gå direkte til en adresse og å åpne dokumentet. En annen mulighet er å fremvise dataenhetene lagret i innholdsdatabasen for in-formasjonssøkeren og overlate avgjørelsen om å åpne den funnede informasjonen til brukeren. Et søk kan resultere i et stort antall treff. Søkesystemene fremviser informasjonen som er funnet iht. dens relevans for de innførte nøkkelordene. Relevans er en iboende egenskap til systemet da databasestrukturen og indeksene opprettes ved å ta i betraktning relevansen som forklart tidligere.
Implementasjoner av systemet
Programmet kan prosessere informasjon som allerede er lagret i et minne, en harddisk eller server, og kjøres når ny informasjon innføres eller slettes fra informasjonsrommet, for å legge til denne nye informasjonen til databasen/indeks strukturen eller for å slette rader i henholdsvis databasen/indeksene. Et intranett kan betraktes å være et slikt informasjonsrom, og programmet vil deretter prosessere og lagre all informasjon, dokumenter, programmer osv. som eksisterer på de forskjellige serverne, arbeidsstasjoner, printere osv. som utgjør intranettet, som ekstraherte dataenheter representative for informasjonen, eller som fil baner til dokumenter eller programmer. Databasesystemet tilveiebringer et raskt og effektivt verktøy for å finne informasjonen som eksisterer i et nettverk. Programmet kan også installeres og kjøres på personlige datamaskiner som et raskt og effektivt fil-håndteringssystem eller på håndholdte elektroniske notatbøker og mobiltelefoner for å lagre og søke informasjonen som eksisterer i disse anordningene.
Eksempel 1
Typisk inneholder en telefonkatalog navn, adresse og telefonnummerinfor-masjon, men også yrke og annen ytterligere informasjon. Gule sider kan inneholde en mengde ytterligere informasjon, f.eks. fagbrev, arbeidsstokk, arbeidstimer osv. All informasjon angående en abonnent er lagret i en rad i innholdsdatabasen. Informasjonen i innholdsdatabasen prosesseres deretter og koordinat-informasjon angående hver unik dataenhet gjenfinnes og lagres i indekser satt opp i den hen-sikt som forklart over. Minst en indeks er tilordnet hver av de unike dataenhetene. De unike dataenhetene gjenfinnes også og lagres i en hovedindeks, en ordliste, sammen med koplinger (indeksidentifikatorer) til de passende hovedtabellene. Et søk utføres først i hovedindeksen, for å gjenfinne indekstabellidentifikatoren som innholder koordinatene for f.eks. den ønskede person(ene) eller bedriftene. Indekstabellen tilveiebringer umiddelbar tilgang til radene i innholdsdatabasen som inneholder den ønskede informasjon. Denne informasjonen fremvises med en gang. Som i de foreliggende online versjonene av telefonkataloger kan man f.eks. taste inn et telefonnummer og oppnå tilgang til abonnentdata eller bruke adresse-informasjon til å finne et telefonnummer.
Eksempel 2
Et eksempel på en implementering av en annen utførelsesform av den foreliggende oppfinnelsen vil nå bli beskrevet i forhold til et kjent hierarkisk kategorisystem. Informasjon inneholdt i et informasjonsrom kan også grupperes i et hierarkisk kategorisystem med underkategorier eller emner, som i Yahoo. Jo lengre ned i hierarkiet informasjon kan plasseres, jo lettere er det å gjenfinne den ønskede informasjon senere, idet informasjonen da er mer definert. Hver kategori og underkategori er beskrevet av et ord som er representativt for informasjonen, og som en bruker av systemet vil anvende hvis det søkes etter den spesielle informa-sjonene. Ruten til et spesielt emne i hierarkiet som er skapt er beskrevet av ordene som navngir kategoriene. F.eks. Science > Space > Exploration > Missions > Moon > Apollo Project > Individual Missions > Apollo 11. På denne måten skapes forskjellige søkestrenger. I denne utførelsesformen av den foreliggende oppfinnelsen er alle ordene som beskriver de forskjellige kategoriene og underkategoriene / emnene tilordnet et tall. Hver søkestreng som er mulig er derfor representert av dette tallet, som i den foreliggende oppfinnelsen er kalt et IMP-tall. IMP-tallet omfatter i den foreliggende oppfinnelsen tre siffer adskilt av en x eller punktum (.). Eksempler på forskjellige IMP-tall er vist i listen i fig. 4.1 fig. 4 er hver rad med tall, f.eks. xOO1x012x002x001x005x002x003 i den første raden et IMP-tall som representerer en spesiell søkestreng som består av 7 ord. Hvert IMP-tall representerer en viss forhåndsdefinert informasjon.
Alle de mulige søkestrengene, som akkurat beskrevet ovenfor, innføres i innholdsdatabasen (fig. 1), ett ord i hver celle, der hver rad i databasen representerer en søkestreng som forklart over. En del av en slik innholdsdatabase er vist i fig. 5 og 6. Kun den høyre delen av innholdsdatabasen er vist i fig. 5, mens en venstre del av denne spesielle innholdsdatabasen er vist i fig. 6. Søkestrengen er også representert av et spesielt IMP-tall som opptrer i kolonnen lengst til høyre i fig. 5. Hver søkestreng leses fra høyre mot venstre i fig. 5 og 6. Hvert tillagt ord til søkestrengen representerer en innsnevring av den søkte informasjonen, som kjent fra den kjente teknikk. Søkestrengene sorteres sekvensielt i alfabetisk orden. Det skal imidlertid bemerkes at de samme ordene kan opptre i forskjellige kolonner, da de samme emnene kan være gruppert i forskjellige kategorier.
IMP-tallene er vist i kolonnen til høyre i fig. 5. Her er hvert tre-sifret nummer som består av tre tall separert med-et punktum (.), og hvert IMP-tall representerer søkestrengen som kan ses på den samme raden til venstre. Den venstre siden av tabellen er ikke vist i fig. 5, som betyr at søkestrengene som er representert ved IMP-tallene med flere enn 3x3 siffer ikke er vist i sin helhet. Kun et lite antall ord er vist, men antallet kan økes til uendelig. Rader kan lett slettes og legges til innholdsdatabasen. Dette er en fordel da f.eks. URL-adresser som ikke lenger eksisterer, lett kan slettes fra systemet og nye adresser lett kan legges til.
Når man utfører et søk, skriver brukeren inn et antall ord som representerer emnet brukeren søker etter, f.eks. history moon landing. Kombinasjonen av disse tre ordene representerer en søkestreng. Det er antatt at en bruker begynner med å skrive området som den søkte informasjonen tilhører og deretter innsnevrer søket ved hvert tillagt ord. Rekkefølgen som ordene er skrevet inn i søkestrengen er derfor essensiell.
Slik det kan ses fra fig. 6 er alle cellene i databasen som ikke har blitt tilordnet et ord fylt med <NULL>. Tallene vist i den øvre raden er x-koordinater og tallet i ID-kolonnen er y-koordinater, som betyr at hver celle i innholdstabellen er representert ved et (x, y)-koordinatpar. Ordet "landing" har posisjonen representert med koordinatparene x=19 og y=85, og x=19 og y=86 i databasen i fig. 6. Da det er antatt at en bruker skriver inn søketermene iht. deres relevans for informasjonen som søkes, vil et søk som resulterer i å finne det siste ordet i den innførte søkestren-gen med den høyeste absoluttverdien av x som er mulig, være den informasjonen som er nærmest til informasjonen som ønskes av brukeren. I fig. 6 vil en spørring som inkluderer ordet "amphibious" ha søkestrengene som opptrer i radene 85 og 86 som det mest relevante resultat.
Indekser til lokaliseringer for hvert ord som opptrer i innholdsdatabasen del-vis vist i fig. 5 og 6 opprettes. En utførelsesform av en slik indeks er vist i fig. 7.1 fig. 7 er ordet "landing's" forskjellige koordinater i innholdsdatabasen gitt. x-koordinatene er i kolonnen navngitt som x, og y-koordinatene er i kolonnen navngitt som y. Koordinatparene (x, y) som representerer cellen i innholdsdatabasen der ordet "landing" opptrer, er plassert i den samme raden i indeksen i fig. 7. Fra indeksen i fig. 7 finner man at ordet "landing" opptrer i cellene i innholdsdatabasen med koordinatparene (-19, 85), (-19, 86), (-18, 90) og (-18, 91). Minustegnet indikerer at x-aksen går fra høyre mot venstre i innholdsdatabasen i fig. 5.
Forskjellige indekser eksisterer for det samme ordet, tatt i betraktning av at det samme ordet kan opptre i forskjellige posisjoner i de forskjellige søkestreng-ene. Ordet "landing" kan i en søkestreng opptre som det andre ordet, og i en annen søkestreng, fra en annen bruker, kan ordet "landing" innføres som det første ordet. En hovedindeks med alle ordene som eksisterer i innholdsdatabasen skapes derfor også, og en utførelsesform av dette er vist i fig. 8.1 kolonnen navngitt som "criteria" er ordene satt inn, ett ord i hver celle. Hver rad, f.eks. den uthevede raden med id 112, inneholder informasjon angående ordet "landing". Landing_1 i firstref kolonnen angir indeksen for ordet "landing" når det opptrer som det første ordet i en søkestreng. Indeksen er vist i fig. 9. En annen indeks, landing_2, lik den til indeksen vist i fig. 9, eksisterer for ordet "landing" når det opptrer som det andre ordet (secondref kolonnen) i en søkestreng.
Firstref-indekstabellene, slik den ene som er vist i fig. 9, sorteres iht. absoluttverdien av x-koordinatene som vist. I fig. 7 er secondref-indekstabellen først sortert iht. absoluttverdien av x-koordinatene og deretter iht. y-koordinatene.
En bruker av en elektronisk anordning som et søk i informasjonsrommet over skal utføres på, skriver inn en streng med ord som representerer den ønskede informasjonen. F.eks. ordene: history landing.
Først slås ordet "history" opp i hovedindeksen. Siden ordet opptrer først i søkestrengen benyttes firstref-kolonnen til å finne indekstabell-identifikatoren. Indeksen som inneholder (x, y)-koordinatparene for ordet "landing" benyttes deretter til å finne koordinatene til ordet "history" i innholdsdatabasen. Ordet "landing" opptrer som det andre ordet i søkestrengen. Secondref kolonnen i hovedindeksen benyttes derfor for å identifisere indeksen for å spørre etter koordinatene for ordet
"landing" i innholdsdatabasen. Indeksen landing_2 velges.
For å ha et treff må begge ordene "history" og "landing" opptre i den samme søkestrengen i innholdsdatabasen, dvs. opptre i den samme raden. Når koordinatene for det første ordet "history" og "landing" har blitt identifisert, sammenlignes y-koordinatverdiene i de to valgte indeksene. Alle koordinatparene med de samme
y-koordinatverdiene velges deretter. Denne gruppen av treff sorteres iht. x-koordinatverdiene, for å finne informasjonen som betraktes som mest relevant for bruke-
ren. Denne trefflisten kan fremvises på en fremvisningsanordning iht. relevans, eller informasjonen i listen kan automatisk åpnes og fremvises for brukeren. Hvis kun trefflisten fremvises, kan brukeren velge å åpne informasjonen. Trefflisten vil fremvise dataenhetene inneholdt i alle de valgte radene i innholdsdatabasen. Dette er ansett å støtte brukeren i å gjøre det best mulige valget. Hvis ingen av y-koordinatene for ordene er identiske, utføres en beregning for å finne informasjonen som har den høyeste relevansen.
Informasjonen presenteres nesten med en gang for brukeren, med den mest relevante informasjonen fremvist først, og viser også søkestrengen som er plukket ut som et resultat av de innførte ordene.
I eksempelet over utføres søket kun i kategorier. Følgelig, kun kategoriene som er valgt gjennom søkeprosedyren fremvises. Dette er kalt et kategorisøk. Kun informasjonen som er inneholdt i den søkte databasen fremvises. For å være i stand til å utføre et metasøk, prosesseres og struktureres informasjonen som er inneholdt i hver kategori som forklart over. Anta at en bruker taster inn ordene "james brown". Hvis disse ordene ikke kan finnes i kategori-databasen/indekssys-temet, utføres et søk i databasen/indekssystemet for postene inneholdt i hver kategori. Hvis en slik post finnes, åpnes umiddelbart informasjonen representert ved den spesielle posten og presenteres for brukeren. Dette eksemplifiserer et annet aspekt av denne spesielle database/indeksstrukturen. Data gjenfinnes og fremvises iht. typen av den informasjon som er prosessert, strukturert og lagret i det oppfunnede database/indekssystemet, mens tidligere kjente systemer utfører søk og fremviser søkeresultatene iht. den spesielle søkemotoren som benyttes.
Søkene utføres kun i strukturerte databasessystemer og indekser, slik som kategoriene i Yahoo, eller i et hvilket som helst biblioteksystem. Søk utføres ikke direkte i informasjonen som eksisterer i informasjonsrommet. Søkene er utført på forhånd når informasjonen prosesseres og de forskjellige indeksene og innholdsdatabasen skapes. Da informasjonen inneholdt i informasjonsrommet kan betraktes som kun representert ved koordinater, og i noen utførelsesformer også mulig-ens ved IMP-tall, blir enhver beregning utført av en prosessor for å sammenligne, beregne relevans osv. gjort lettere. Bruken av tabeller og koordinater tilveiebringer et søkeprinsipp som lett kan tilpasses mellom språk på kjente måter.
Ved å ha beskrevet forskjellige utførelsesformer av oppfinnelsen vil det være tydelig for de faglærte i teknikken at andre utførelsesformer som omfatter konseptene kan benyttes. Disse og andre eksempler på oppfinnelsen illustrert over er kun tenkt som eksempler og det faktiske omfanget av oppfinnelsen skal bestemmes fra de følgende kravene.

Claims (28)

1. System for å strukturere digitalt lagret informasjon, der informasjonen er anordnet i en database omfattende et antall celler anordnet i rader og kolonner for å romme dataenheter som representerer informasjonen, der kun én dataenhet kan lagres i hver celle, og der dataenhetene inneholdt i cellene i én rad i databasen ut-gjør en viss informasjon, idet systemet er inkludert i et dataprosesseringssystem, karakterisert ved : - en indekstabell for hver unike dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon angående alle posisjoner/lokaliseringer for den unike dataenheten i databasen; og - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabell-identifikator, idet indekstabell-identifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.
2. System ifølge krav 1, der lokaliseringene er uttrykt ved koordinater som definerer cellene i databasen.
3. System ifølge krav 2, hvor koordinatene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.
4. System ifølge krav 3, hvor koordinatparene i indekstabellen først er sortert i henhold til absoluttverdien av x-koordinatene og for det andre i henhold til verdien av y-koordinaten.
5. System ifølge krav 3, hvor dataenhetene med de høyeste absoluttverdiene av x har høyere relevans enn dataenhetene med lavere absoluttverdier av x.
6. System ifølge krav 1, hvor hver rad i databasen omfatter en adresse/kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad.
7. System ifølge krav 1, hvor dataenhetene inneholdt i celler i én rad i databasen representerer en søkestreng assosiert med en URL-adresse.
8. System ifølge krav 1, hvor dataenhetene inneholdt i cellene i én rad i databasen er assosiert med en filbane.
9. System ifølge krav 1, hvor den digitalt lagrede informasjonen representerer en telefonkatalog.
10. Fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, der cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon; karakterisert ved : - å skape minst én indekstabell for hver unike dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer for den unike dataenheten i databasen; og - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indekstabell-identrfikator som tilveiebringer en kopling til den tilsvarende indekstabellen for en unik dataenhet.
11. Fremgangsmåte ifølge krav 10, hvor prosesseringstrinnet omfatter å indeksere den lagrede informasjonen ved å benytte en indekseringsagent.
12. Fremgangsmåte ifølge krav 10, omfattende å uttrykke lokaliseringene ved koordinatverdier som definerer cellene i databasen.
13. Fremgangsmåte ifølge krav 12, hvor koordinatverdiene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.
14. Fremgangsmåte ifølge krav 13, omfattende å først sortere koordinatparene i indekstabellen i henhold til absoluttverdiene av x-koordinatene og for det andre i henhold til y-koordinatverdiene.
15. Fremgangsmåte ifølge krav 10, omfattende å prosessere informasjonen og å anordne dataenhetene som er representative for informasjonen i databasen på en slik måte at dataenhetene tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenhetene tilordnet lavere absoluttverdier av x-koordinatene.
16. Fremgangsmåte ifølge krav 10, hvor dataenhetene er nøkkelord som beskriver den digitalt lagrede informasjonen.
17. Fremgangsmåte ifølge krav 16, hvor nøkkelordene inneholdt i celler i hver rad i databasen utgjøren søkestreng, og der fremgangsmåten omfatter å skape en indekstabell for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indekstabell-identifikator assosiert med nøkkelordet i hovedindeksen.
18. Fremgangsmåte ifølge krav 10, hvor en ressursindikator for den prosesserte informasjonen er inkludert i hver rad i databasen, idet ressursindikatoren tilveiebringer en kopling til den digitalt lagrede informasjonen.
19. Fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, idet informasjonen er strukturert i et system i henhold til et av kravene 1 -9, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabellen - å søke i de valgte indekstabellene for å velge minst én lokalisering til en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen som cellen er lokalisert i og å gjenfinne den ønskede informasjon.
20. Fremgangsmåte ifølge krav 19, hvor den ønskede informasjon er uttrykt i form av en ordnet søkestreng av nøkkelord, idet fremgangsmåten omfatter - å bestemme ordenen til nøkkelordet i sekvensen av nøkkelord, og å velge indekstabeller som svarer til både den ønskede informasjonen og ordenen til nøk-kelordet i den innførte søkestrengen.
21. Fremgangsmåte ifølge krav 19, omfattende å innføre den ønskede informasjonen gjennom et grensesnitt i en søkemotor.
22. Fremgangsmåte ifølge krav 19, omfattende å fremvise den gjenfunnede informasjonen i en fremvisningsanordning.
23. Datamaskinprogramprodukt for et dataprosesseringssystem, omfattende et datamaskinlesbart medium, omfattende datamaskinlesbare programanordninger, som når lastet inn i et internt minne i et dataprosesseirngssystem, får dataprosesseringssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.
24. Datamaskinprogramprodukt for et dataprosesseirngssystem, omfattende datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, får dataprosesseirngssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.
25. Anvendelse av systemet ifølge et av kravene 1-7 og fremgangsmåtene ifølge et av kravene 10-18 eller 19-22 i en søkemotor for å søke på Internet.
26. Anvendelse av systemet i henhold til et av kravene 1 -9 og fremgangsmåtene i henhold til et av kravene 10-18 eller 19-22 i en håndholdt elektronisk anordning omfattende en prosessor og et minne.
27. Anvendelse i henhold til krav 26, hvor den elektroniske anordningen er mobiltelefon, en WAP-telefon eller bærbar datamaskin.
28. Anvendelse av systemet ifølge krav 1 og fremgangsmåtene ifølge kravene 10 eller 19 i en datamaskin for å gjenfinne filer i en datalagringsanordning.
NO20005704A 2000-11-10 2000-11-10 Fremgangsmåte for strukturering og söking av informasjon NO314059B1 (no)

Priority Applications (5)

Application Number Priority Date Filing Date Title
NO20005704A NO314059B1 (no) 2000-11-10 2000-11-10 Fremgangsmåte for strukturering og söking av informasjon
US09/709,279 US6691123B1 (en) 2000-11-10 2000-11-13 Method for structuring and searching information
PCT/NO2001/000444 WO2002039320A1 (en) 2000-11-10 2001-11-09 Method for structuring and searching information
AU2002214419A AU2002214419A1 (en) 2000-11-10 2001-11-09 Method for structuring and searching information
EP01982960A EP1342177A1 (en) 2000-11-10 2001-11-09 Method for structuring and searching information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
NO20005704A NO314059B1 (no) 2000-11-10 2000-11-10 Fremgangsmåte for strukturering og söking av informasjon

Publications (3)

Publication Number Publication Date
NO20005704D0 NO20005704D0 (no) 2000-11-10
NO20005704L NO20005704L (no) 2002-05-13
NO314059B1 true NO314059B1 (no) 2003-01-20

Family

ID=19911782

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20005704A NO314059B1 (no) 2000-11-10 2000-11-10 Fremgangsmåte for strukturering og söking av informasjon

Country Status (5)

Country Link
US (1) US6691123B1 (no)
EP (1) EP1342177A1 (no)
AU (1) AU2002214419A1 (no)
NO (1) NO314059B1 (no)
WO (1) WO2002039320A1 (no)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
US20020091879A1 (en) * 2000-12-21 2002-07-11 James Beriker System, method and apparatus for dynamic traffic management on a network
JP3907161B2 (ja) * 2001-06-29 2007-04-18 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワード検索方法、キーワード検索端末、コンピュータプログラム
US6912407B1 (en) * 2001-11-03 2005-06-28 Susan Lee Clarke Portable device for storing and searching telephone listings, and method and computer program product for transmitting telephone information to a portable device
US7203675B1 (en) * 2002-02-19 2007-04-10 Ncr Corp. Methods, systems and data structures to construct, submit, and process multi-attributal searches
US7130843B2 (en) * 2002-05-20 2006-10-31 International Business Machines Corporation Method, system and program product for locating personal information over a network
AU2003298246A1 (en) * 2002-12-30 2004-07-22 Ilonka Ringling Information management system
WO2004059525A2 (en) * 2002-12-30 2004-07-15 Richard Wiedemann Information management system
US7045377B2 (en) * 2003-06-26 2006-05-16 Rj Mears, Llc Method for making a semiconductor device including a superlattice and adjacent semiconductor layer with doped regions defining a semiconductor junction
GB2409298A (en) * 2003-12-17 2005-06-22 Symbian Ltd Updating or adding to a stored contacts data entry
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US20060041605A1 (en) * 2004-04-01 2006-02-23 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US20060122983A1 (en) * 2004-12-03 2006-06-08 King Martin T Locating electronic instances of documents based on rendered instances, document fragment digest generation, and digest based document fragment determination
US7552630B2 (en) * 2004-02-27 2009-06-30 Akron Special Machinery, Inc. Load wheel drive
US8081849B2 (en) * 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20080313172A1 (en) * 2004-12-03 2008-12-18 King Martin T Determining actions involving captured information and electronic content associated with rendered documents
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20070300142A1 (en) * 2005-04-01 2007-12-27 King Martin T Contextual dynamic advertising based upon captured rendered text
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US8170946B2 (en) * 2004-08-21 2012-05-01 Co-Exprise, Inc. Cost management file translation methods, systems, and apparatuses for extended commerce
US20060074881A1 (en) * 2004-10-02 2006-04-06 Adventnet, Inc. Structure independent searching in disparate databases
US20060074854A1 (en) * 2004-10-04 2006-04-06 Gosakan Aravamudan Innovative product design using application trees
US20060287986A1 (en) * 2005-06-21 2006-12-21 W.W. Grainger, Inc. System and method for facilitating use of a selection guide
US7456596B2 (en) * 2005-08-19 2008-11-25 Cisco Technology, Inc. Automatic radio site survey using a robot
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US9697230B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
JP4368905B2 (ja) * 2007-05-11 2009-11-18 シャープ株式会社 グラフ描画装置および方法、その方法を実行する歩留り解析方法および歩留り向上支援システム、プログラム、並びにコンピュータ読み取り可能な記録媒体
US8271473B2 (en) * 2007-06-25 2012-09-18 Jobs2Web, Inc. System and method for career website optimization
US20090240628A1 (en) * 2008-03-20 2009-09-24 Co-Exprise, Inc. Method and System for Facilitating a Negotiation
US8239389B2 (en) 2008-09-29 2012-08-07 International Business Machines Corporation Persisting external index data in a database
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
WO2010105246A2 (en) 2009-03-12 2010-09-16 Exbiblio B.V. Accessing resources based on capturing information from a rendered document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918225A (en) 1993-04-16 1999-06-29 Sybase, Inc. SQL-based database system with improved indexing methodology
SE505844C2 (sv) 1994-09-21 1997-10-13 Qliktech International Ab Metod för extrahering av information från en databas
US5752025A (en) 1996-07-12 1998-05-12 Microsoft Corporation Method, computer program product, and system for creating and displaying a categorization table
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases

Also Published As

Publication number Publication date
US6691123B1 (en) 2004-02-10
WO2002039320A1 (en) 2002-05-16
NO20005704D0 (no) 2000-11-10
NO20005704L (no) 2002-05-13
EP1342177A1 (en) 2003-09-10
AU2002214419A1 (en) 2002-05-21

Similar Documents

Publication Publication Date Title
US6691123B1 (en) Method for structuring and searching information
US9864808B2 (en) Knowledge-based entity detection and disambiguation
JP4857075B2 (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム
EP1182581B1 (en) Searching tool and process for unified search using categories and keywords
US9292578B2 (en) Relevancy sorting of user&#39;s browser history
US6101503A (en) Active markup--a system and method for navigating through text collections
US8307275B2 (en) Document-based information and uniform resource locator (URL) management
US7509306B2 (en) Index for data retrieval and data structuring
US20020156779A1 (en) Internet search engine
US20010047353A1 (en) Methods and systems for enabling efficient search and retrieval of records from a collection of biological data
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
CN111400323B (zh) 数据检索方法、系统、设备及存储介质
US20110119261A1 (en) Searching using semantic keys
JP2011526008A (ja) 複合検索用のシステムと方法
Dong et al. Normalization of duplicate records from multiple sources
EP2181400A1 (en) Method and apparatus for generating search keys based on profile information
WO2001065410A2 (en) Search engine for spatial data indexing
LIM et al. Web mining-The ontology approach
Wheeldon et al. DbSurfer: A search and navigation tool for relational databases
Álvarez et al. A Task-specific Approach for Crawling the Deep Web.
US8090736B1 (en) Enhancing search results using conceptual document relationships
JPH06149882A (ja) 全文データベース検索装置
Khiste et al. Role of search engines in library at a glance
Williamson BUBL Link/5: 15: Smarter than the average search engine
JP3490532B2 (ja) ハイパー文書検索装置

Legal Events

Date Code Title Description
CHAD Change of the owner's name or address (par. 44 patent law, par. patentforskriften)

Owner name: VIRTUALWORKS GROUP INC, 5301 NORTH FEDERAL HIGHWAY

MM1K Lapsed by not paying the annual fees