NO314059B1 - Fremgangsmåte for strukturering og söking av informasjon - Google Patents
Fremgangsmåte for strukturering og söking av informasjon Download PDFInfo
- Publication number
- NO314059B1 NO314059B1 NO20005704A NO20005704A NO314059B1 NO 314059 B1 NO314059 B1 NO 314059B1 NO 20005704 A NO20005704 A NO 20005704A NO 20005704 A NO20005704 A NO 20005704A NO 314059 B1 NO314059 B1 NO 314059B1
- Authority
- NO
- Norway
- Prior art keywords
- information
- database
- index table
- data units
- search
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 1
- 241000239290 Araneae Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Communication Control (AREA)
Description
OPPFINNELSENS OMRÅDE
Den foreliggende oppfinnelse angår et system og en fremgangsmåte for å strukturere digitalt lagret informasjon og en fremgangsmåte for å søke i denne informasjonen. Et datamaskinprogramprodukt og anvendelser av systemet og fremgangsmåtene er også fremlagt. Spesielt adresserer oppfinnelsen problemet å søke i store informasjonsrom/databaser, f.eks i en nasjonal telefonkatalog, store filsystemer eller på Internet.
BESKRIVELSE AV KJENT TEKNIKK
De eksisterende og økende mengdene med informasjon som i dag er til-gjengelig på elektronisk form, stiller store krav til data hardware f.eks. angående minnekapasitet og prosessorhastighet når det søkes i denne informasjonen. Informasjon i elektronisk form er f.eks. nettverksversjoner av telefonkataloger, filer lagret på harddisker eller på nettverksservere (f.eks. LAN, WAN), www-sider. Den digitale informasjonen kan organiseres og lagres i store databaser og gjenfinning av informasjon fra disse strukturene krever komplekse søkerutiner, kraftfulle pro-sessorer og lagringskapasitet. Imidlertid kan det være en tidkrevende og langtek-kelig prosess å gjenfinne informasjon som ønsket fra disse databasene.
For Internet, som er et svært stort informasjonsrom, har det blitt utviklet forskjellige søkemotorer og søkbare kataloger (f.eks. Yahoo) for å søke å gjenfinne den eksisterende informasjonen. Informasjonen er da indeksert og anordnet i søk-bart format i f.eks. databaser og lagret på servere. Et problem med slike kjente søkemotorer og søkbare kataloger er nødvendigheten av stor fysisk lagringskapasitet. All den indekserte og/eller prosesserte informasjonen lagres fysisk, og å søke i all denne informasjonen som ofte er anordnet i en stor database er ikke alltid svært effektivt.
Binærsøk, som ofte anvendes når det søkes i databasestrukturer, er en søkealgoritme som gjentatt deler et organisert søkerom i to iht. hvordan den ford-rede verdien er i forhold til det midterste elementet. Når det søkes i store databaser, blir dette en tidkrevende prosess, da hele databasen må gjennomsøkes minst en gang. Vanligvis utføres kun søk i valgte kolonner i databasen. Hvis det er nød-vendig å kombinere informasjon anordnet i forskjellige kolonner i databasen for å oppnå et nyttig og meningsfullt søkeresultat, og databasen er stor, kan søkeprose-dyren ta svært lang tid, og den er noen ganger ikke mulig å gjennomføre pga. det store antallet mulige kombinasjoner av informasjonen anordnet i cellene i de forskjellige kolonnene. Det er også et problem hvis en søkeanmodning, i f.eks. en database eller i et hvilket som helst annet informasjonsrom, resulterer i et stort antall treff, hvordan denne informasjonen bør presenteres for brukeren på en nyttig og meningsfull måte. Søking er ofte omstendelig og står i kontrast til at brukere alltid krever informasjon presentert på et øyeblikk.
SAMMENFATNING AV OPPFINNELSEN
Den foreliggende oppfinnelse har blitt uttenkt for å løse eller i det minste lette problemene med den kjente teknikk som beskrevet over. Derfor, i overens-stemmelse med et første aspekt av den foreliggende oppfinnelse er det tilveiebrakt et system for å strukturere digitalt lagret informasjon, der systemet er inkludert i et dataprosesseringssystem, og struktureringssystemet omfatter: - en database som omfatter et antall celler anordnet i rader og kolonner for å lagre dataenheter som representerer informasjonen, der kun en dataenhet kan lagres i hver celle, idet dataenhetene inneholdt i cellene i en rad i databasen inneholder en viss informasjon. Systemet er kjennetegnet ved - en indekstabell for hver unik dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon som angår alle posisjoner/lokaliseringer til den unike dataenheten i databasen; - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabellidentifikator, idet
indekstabellidentifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.
Posisjonen kan uttrykkes ved koordinater, der koordinatene definerer cellene i databasen. Foretrukket er koordinatene (x, y) koordinatpar som representerer hhv. kolonnene og radene i databasen. Koordinatparene i indekstabellene sorteres deretter først iht. absoluttverdien av x-koordinatene og deretter iht. verdien av y-koordinaten. Dataenhetene med de høyeste absoluttverdiene av x har ved defi-nisjon en høyere relevans enn dataenhetene med lavere absoluttverdier av x. Ved relevant menes at dataenhetene som det blir funnet beskriver best den representerte informasjonen tilordnes en høy x-verdi. I en utførelsesform kan databasen også omfatte en adresse eller kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad i databasen.
Dataenhetene inneholdt i cellene i én rad i databasen kan f.eks. representere en søkestreng assosiert med en URL-adresse eller en filbane. Den digitalt lagrede informasjonen kan representere en telefonkatalog.
I et andre aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, idet cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon; og der fremgangsmåten videre er kjennetegnet ved - å skape minst en indekstabell for hver unik dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer av den unike dataenheten i databasen; - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indeksidentifikator som tilveiebringer en kopling til den tilsvarende indeks for en unik dataenhet.
I en første utførelsesform av den oppfunnede fremgangsmåten benyttes en indekseirngsagent for å indeksere den lagrede informasjonen. Denne indekser-ingsagenten kan være en spider, web crawler eller en hvilken som helst annen passende agent. Foretrukket prosesseres informasjonen og dataenhetene representativ for informasjonen anordnet i databasen på en slik måte at dataenhetene som er tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenheter som er tilordnet lavere absoluttverdier av x-koordinatene. Dataenhetene kan være nøkkelord som beskriver den digitalt lagrede informasjonen. Når nøkkelordene som er inneholdt i cellene i hver rad i databasen utgjør en søkestreng, omfatter fremgangsmåten videre å skape en indeks for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indeksidentifikator assosiert med nøkkelordet i hovedindeksen. En ressursindikator for den prosesserte informasjonen kan inkluderes i hver rad i databasen, for å tilveiebringe en kopling til den digitalt lagrede informasjonen.
I et tredje aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, der informasjonen er strukturert i et database/indeks-system som definert over, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabeller; - å søke i de valgte indekstabellene for å velge minst én lokalisering av en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen der cellen er lokalisert og å gjenfinne den ønskede informasjonen.
I en utførelsesform, når den ønskede informasjonen er uttrykt i form av en sekvensert søkestreng med nøkkelord, omfatter fremgangsmåten videre å bestemme rekkefølgen av søkeordene i sekvensen med søkeord, og å velge indekstabeller som svarer både til den ønskede informasjonen og rekkefølgen til søkeor-det i inngangs-søkestrengen.
Den ønskede informasjonen kan innføres gjennom et søkemotor-grensesnitt, og den gjenfunnede informasjonen fremvises i en fremvisningsanordning. En typisk fremvisningsanordning kan være en dataskjerm, men kan også være skjer-men på en mobiltelefon eller WAP.
I et fjerde aspekt tilveiebringer oppfinnelsen et dataprogramprodukt for et dataprosesseirngssystem, omfattende et datamaskinlesbart medium, som har lagret derpå datamaskinlesbare programanordninger, som når nedlastet til et internt minne i dataprosesseringssystemet, gjør dataprosesseringssystemet i stand til å utføre struktureirngsmetoden som definert over.
I et femte aspekt tilveiebringer oppfinnelsen også et dataprogramprodukt for et dataprosesseringssystem, omfattende datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, gjør dataprosesseringssystemet i stand til å utføre søkemetoden som definert over.
Det oppfunnede systemet og fremgangsmåtene kan anvendes i en søke-motor for søking på Internet, i en håndholdt elektronisk anordning som omfatter en prosessor og et minne (f.eks. en mobiltelefon, en WAP-telefon eller en bærbar datamaskin) eller i en datamaskin for å gjenfinne filer i en datalagringsanordning. Oppfinnelsen tilveiebringer en løsning for organisering og søking i informasjon på en effektiv måte, og for å presentere informasjonen på en umiddelbar nyttig måte. Den oppfunnede løsningen tilveiebringer raskere prosessering ved å minimalisere selve søket, og resulterer også i reduserte kostnader for kjøring og oppgradering av søkesystemet. Informasjon kan lett legges til og slettes, og tilveiebringes uav-hengig av søkespråket som benyttes. Oppfinnelsen er definert i de vedføyde kravene.
KORT BESKRIVELSE AV TEGNINGENE
De ovenfor og ytterligere fordeler kan forstås mer fullstendig ved referanse til den følgende beskrivelsen og de medfølgende tegningene der: Fig. 1 viser et utsnitt av en venstre del av en innholdsdatabase ifølge en ut-førelsesform av den foreliggende oppfinnelsen; Fig. 2 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 3 er en del av en indekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 4 er et ekstrakt av en liste med IMP-tall, der hvert IMP-tall representerer en streng med søketermer, ifølge en utførelsesform av oppfinnelsen; Fig. 5 viser en høyre del av en innholdsdatabase med søkestrenger som er både representert med ord og IMP-tall ifølge en utførelsesform av oppfinnelsen; Fig. 6 viser en venstre del av innholdsdatabasen i fig. 5 og med rad og kolonne-koordinater fremvist; Fig. 7 er en del av en indekstabell for ordet "landing" ifølge en utførelses-form av oppfinnelsen; Fig. 8 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av oppfinnelsen; Fig. 9 er en første del av en indekstabell for et ord i "firstref-kolonnen vist i fig. 8; og Fig. 10 er en del av en indekstabell for et ord i "secondref -kolonnen vist i fig. 8.
BESKRIVELSE AV OPPFINNELSEN
Den foreliggende oppfinnelse angår et system av databaser og indekser som er i stand til å lagre store informasjonsmengder, en fremgangsmåte for å prosessere og strukturere digitalt lagret informasjon i en slik struktur og en fremgangsmåte for å søke i databasestrukturen. Oppfinnelsen vil først bli beskrevet på en generalisert måte og deretter ved å bruke eksempler på mulige implementerin-ger av oppfinnelsen. Eksemplene skal imidlertid ikke betraktes som begrensende for omfanget av oppfinnelsen.
Informasjon i konteksten for den foreliggende oppfinnelsen skal forstås på bredest mulig måte, men informasjonen kan eksistere på en eller annen elektronisk form, f.eks. i en prosessor, minneanordninger eller lagringsanordning. Informasjon kan være en Word- eller Excel-fil på din dataharddisk, opplistinger i en online telefonkatalog, sider på World Wide Web osv. Informasjonen er i den foreliggende oppfinnelsen prosessert på kjente måter for å ekstrahere dataenheter som er representative for informasjonen. Disse kjente metodene inkluderer, men er ikke be-grenset til, f.eks. opptelling av forekomster av ord på sider på www eller i en lagret fil, og ved å bruke deskriptive ord med det høyeste antall forekomster som dataenheter representativ for informasjonen. Ifølge oppfinnelsen er deretter de ekstraherte data anordnet i en databasestruktur, f.eks. som vist i fig. 1, og forskjellige indekser opprettet for å lette gjenfinningen av informasjonen. Databasestrukturen og dataene lagres fysisk på en eller annen lagringsanordning. Data i denne konteksten kan f.eks. være ord, bokstaver, symboler, tall eller siffer osv.
Databasestrukturen
Fig. 1 viser et utdrag av en innholdsdatabase 10, med celler 11 anordnet i horisontale rader og vertikale kolonner. Hver celle 11 i databasen er identifisert ved et (x, y)-koordinatpar, der tallene i den øverste raden er x-koordinatene og tallene i kolonnen lengst til venstre er y-koordinatene. Følgelig identifiseres cellen 14 i fig. 1 ved (x, y)-koordinatparet (18, 53).
Dataenhetene som representerer informasjonen er anordnet i innholdsdatabasen på en slik måte at dataenheter som beskriver en viss informasjon opptrer i den samme raden. Som et eksempel består en opptegnelse i en telefonkatalog vanligvis av etternavn, fornavn, adresse og telefonnummer. Denne informasjonen vil derfor opptre i den samme raden. Hver celle i innholdsdatabasen kan også kun inneholde en dataenhet, dvs. en kontinuerlig rekke av bokstaver, tall osv. Imidlertid, i denne utførelsesformen av oppfinnelsen, hvis en person har fornavn "Hans Frode", vil hele fornavnet opptre i en celle. Det er ingen begrensning på antallet bokstaver, tall osv. i den kontinuerlige sekvensen, og celler trenger derfor ikke å bli oppdelt.
Data er også anordnet i radene i innholdsdatabasen iht. relevans. Når informasjonen prosesseres i en dataprosessor, for å ekstrahere dataene som skal inkluderes i innholdsdatabasen, anordnes data som betraktes som svært deskriptive for informasjonen, dvs. data som presist definerer hva denne informasjonen (f.eks. fil/dokument/www-side) handler om, i cellene i en rad på en slik måte at disse dataene tilordnes de høyeste absolutt-verdiene av x. Dette betyr at de deskriptive data enten opptrer helt til venstre eller helt til høyre i innholdsdatabasen, avhengig av hvordan x-koordinatene er tilordnet til kolonnene.
Alle cellene i databasen i fig. 1 trenger ikke å fylles med en dataenhet. Antallet dataenheter som er nødvendig for tilstrekkelig å representere en viss informasjon kan variere. Rader og kolonner i innholdsdatabasen kan lett legges til og slettes på kjente måter for å dynamisk ekspandere og minke databasen når øns-kelig. Innholdsdatabasen kan utvides nesten uendelig.
Databasen kan i en utførelsesform også inkludere informasjonsadressene, f.eks. en URL-adresse for en www-side. Adressedataene er lagret i en forhåndsdefinert kolonne på en mengde forskjellige måter, som f.eks. en numerisk repre-sentasjon med en kopling til en adresse-indeks/database eller en html-link til en URL-adresse.
Den samme dataenheten (f.eks. ord eller tall) kan påtreffes i mange forskjellige posisjoner i innholdsdatabasen i fig. 1. Derfor ekstraheres alle koordinatene for alle disse unike dataenhetene som opptrer i innholdsdatabasen og anordnes i indekser. En indekstabell eksisterer for hver unike dataenhet som opptrer i innholdsdatabasen. En utførelsesform av en slik indekstabell 20 for en unik dataenhet er vist i fig. 2. x, y-koordinatparene er listet i den samme raden 21, med x-koordinaten i kolonne 22 og y-koordinaten i kolonne 23. Koordinatparene i indekstabellen 20 i fig. 2 er først sortert i nedadstigende orden iht. absoluttverdien av x-koordinaten, og deretter i stigende orden iht. koordinat-verdiene til y-koordinatene. Koordinatparene representerer posisjonene som den unike dataenheten er mest deskriptiv for den representerte informasjon og er derfor helt øverst i indekstabellene. Kolonnen 24 kalt ID identifiserer kun antallet forskjellige plasseringer for dataenheten i innholdsdatabasen.
For å være i stand til å finne den passende indekstabellen for en viss infor-masjonsenhet, anordnes alle de unike dataenheten i en hovedindeks, sammen med informasjon angående hvilken indekstabell som inkluderer koordinatverdiene for disse data i innholdsdatabasen. Et antall slike hovedindekser kan opprettes avhengig av størrelsen til innholdsdatabasen. F.eks.: fra en innholdsdatabase med 200 000 rader og 10 kolonner genereres en hovedindeks (ordliste). Størrelsen til hovedindeksen vil avhenge av antallet unike dataenheter (ord) i innholdsdatabasen. En innholdsdatabase omfattende informasjon angående de tekniske trekkene til bilmodeller vil resultere i en heller liten hovedindeks, da de samme ordene ofte vil bli gjentatt for å beskrive de forskjellige bilmodellene. Indeksene som tilveiebringer koordinatverdiene, vil imidlertid bli stor. Følgelig, en innholdsdatabase angående telefonnummeirnformasjon vil resultere i en heller stor hovedindeks, og det kan da være fordelaktig å skape et antall hovedindekser. Når flere hovedindekser opprettes, skapes høyere ordenstabeller for å identifisere de passende hovedin-dekstabellene. Redusering av størrelsen til indekstabellen på denne måten vil resultere i øket søkehastighet og lett gjenfinning av data når det senere søkes i strukturen.
Måten som informasjonen førbehandles og struktureres på tilveiebringer et system hvor søk kan betraktes som utført på forhånd. De virkelige søkene som beordres av brukere av søkesystemet utføres deretter i de strukturerte på forhånd utførte søkene. Dette minimaliserer betraktelig søkeprosessen.
En utførelsesform av en hovedindekstabell 30 er vist i fig. 3. Merk at kun et utdrag av en slik hovedindeks er vist i fig. 3. Kolonnen 31 navngitt som ID gir antallet rader i hovedindeksen og derav antallet forskjellige dataenheter, f.eks. ord, som eksisterer i innholdsdatabasen. Kolonne 33, "criteria", lister opp de forskjellige dataenhetene. I fig. 3 er dataenhetene ord som er sortert alfabetisk. Hovedindeksen kan betraktes som en slags ordliste for databasesystemet. Den tilsvarende in-deksidentrfikatoren for hver dataenhet er listet i kolonne 34.
Søking i databasestrukturen
Den ønskede informasjonen innføres i søkesystemet gjennom et grensesnitt. Dette grensesnittet er f.eks. en søkemotor som residerer på en personlig datamaskin for søking på Internet, en søkemodul for å søke i filer lagret på servere i en intranettstruktur, en mobiltelefon for å søke i informasjon angående telefonnumre lagret i minnet osv. Hvis den ønskede informasjonen innføres i form av en søkestreng av nøkkelord, som vil være det typiske tilfellet for en Intemet-applika-sjon, vil søkesystemet først utføre et søk i hovedindekstabellen for å finne dataenhetene som tilsvarer det innførte nøkkelordet. Deretter, vil den indekstabellidentifikatoren som er tilordnet den dataenheten bli valgt. Hvis ingen treff inntreffer mellom de innførte nøkkelordene og dataenhetene i hovedindeksen, vil ingen treff bli listet på trefflisten.
Indekstabellidentifikatoren tilveiebringer en kopling til indekstabellen som skal søkes for å finne lagerstedet til dataenhetene, og derved det innførte nøkkel-ord, i innholdsdatabasen. Alle koordinatparene for den valgte dataenheten er gjen-funnet fra indekstabellen. Koordinatparene er lokaliseringene til alle cellene i innholdsdatabasen som inneholder det innførte nøkkelord. Hele raden i innholdsdatabasen som inneholder de identifiserte cellene blir deretter valgt. I noen implementasjoner av oppfinnelsen inneholder innholdsdatabasen selv all informasjon som er ønsket av brukeren, typisk når databasestrukturen inneholder informasjon angående telefonnumre og adresser. Radene kan også innholde informasjon angående lokaliseringene til den ønskede informasjonen, f.eks. en URL-adresse for en side på web'en. I det sistnevnte tilfellet vil det å ha koordinatene for cellene i innholdsdatabasen med en gang implisere at man har URL-adressene for den søkte informasjonen for en person som søker på web'en. Å finne en cellelokalisering i indekstabellen resulterer i å velge hele raden i innholdsdatabasen som inneholder cellen, da y-koordinatene i (x, y) koordinatparet identifiserer raden. Cellene i raden som inneholder URL-adresseinformasjonen identifiseres deretter lett, da kolonnen som inneholder adresseinformasjonen er forhåndsdefinert.
Kjente metoder brukes for å søke i indeksene og får å ekstrahere informasjonen. Størrelsen til indeksene er holdt små og velkjente søkemetoder som bi-nærsøk, kan derfor benyttes. Den fordelaktige søkehastigheten skyldes først og fremst enkelheten til systemet. Ekstraherte data er lagret i cellene identifisert ved koordinater og informasjon angående de unike data, og koordinatposisjoner er lagret i små indekstabeller som tilveiebringer umiddelbar lokalisering av de innførte nøkkelord i innholdsdatabasen.
Systemet kan utformes til å gå direkte til en adresse og å åpne dokumentet. En annen mulighet er å fremvise dataenhetene lagret i innholdsdatabasen for in-formasjonssøkeren og overlate avgjørelsen om å åpne den funnede informasjonen til brukeren. Et søk kan resultere i et stort antall treff. Søkesystemene fremviser informasjonen som er funnet iht. dens relevans for de innførte nøkkelordene. Relevans er en iboende egenskap til systemet da databasestrukturen og indeksene opprettes ved å ta i betraktning relevansen som forklart tidligere.
Implementasjoner av systemet
Programmet kan prosessere informasjon som allerede er lagret i et minne, en harddisk eller server, og kjøres når ny informasjon innføres eller slettes fra informasjonsrommet, for å legge til denne nye informasjonen til databasen/indeks strukturen eller for å slette rader i henholdsvis databasen/indeksene. Et intranett kan betraktes å være et slikt informasjonsrom, og programmet vil deretter prosessere og lagre all informasjon, dokumenter, programmer osv. som eksisterer på de forskjellige serverne, arbeidsstasjoner, printere osv. som utgjør intranettet, som ekstraherte dataenheter representative for informasjonen, eller som fil baner til dokumenter eller programmer. Databasesystemet tilveiebringer et raskt og effektivt verktøy for å finne informasjonen som eksisterer i et nettverk. Programmet kan også installeres og kjøres på personlige datamaskiner som et raskt og effektivt fil-håndteringssystem eller på håndholdte elektroniske notatbøker og mobiltelefoner for å lagre og søke informasjonen som eksisterer i disse anordningene.
Eksempel 1
Typisk inneholder en telefonkatalog navn, adresse og telefonnummerinfor-masjon, men også yrke og annen ytterligere informasjon. Gule sider kan inneholde en mengde ytterligere informasjon, f.eks. fagbrev, arbeidsstokk, arbeidstimer osv. All informasjon angående en abonnent er lagret i en rad i innholdsdatabasen. Informasjonen i innholdsdatabasen prosesseres deretter og koordinat-informasjon angående hver unik dataenhet gjenfinnes og lagres i indekser satt opp i den hen-sikt som forklart over. Minst en indeks er tilordnet hver av de unike dataenhetene. De unike dataenhetene gjenfinnes også og lagres i en hovedindeks, en ordliste, sammen med koplinger (indeksidentifikatorer) til de passende hovedtabellene. Et søk utføres først i hovedindeksen, for å gjenfinne indekstabellidentifikatoren som innholder koordinatene for f.eks. den ønskede person(ene) eller bedriftene. Indekstabellen tilveiebringer umiddelbar tilgang til radene i innholdsdatabasen som inneholder den ønskede informasjon. Denne informasjonen fremvises med en gang. Som i de foreliggende online versjonene av telefonkataloger kan man f.eks. taste inn et telefonnummer og oppnå tilgang til abonnentdata eller bruke adresse-informasjon til å finne et telefonnummer.
Eksempel 2
Et eksempel på en implementering av en annen utførelsesform av den foreliggende oppfinnelsen vil nå bli beskrevet i forhold til et kjent hierarkisk kategorisystem. Informasjon inneholdt i et informasjonsrom kan også grupperes i et hierarkisk kategorisystem med underkategorier eller emner, som i Yahoo. Jo lengre ned i hierarkiet informasjon kan plasseres, jo lettere er det å gjenfinne den ønskede informasjon senere, idet informasjonen da er mer definert. Hver kategori og underkategori er beskrevet av et ord som er representativt for informasjonen, og som en bruker av systemet vil anvende hvis det søkes etter den spesielle informa-sjonene. Ruten til et spesielt emne i hierarkiet som er skapt er beskrevet av ordene som navngir kategoriene. F.eks. Science > Space > Exploration > Missions > Moon > Apollo Project > Individual Missions > Apollo 11. På denne måten skapes forskjellige søkestrenger. I denne utførelsesformen av den foreliggende oppfinnelsen er alle ordene som beskriver de forskjellige kategoriene og underkategoriene / emnene tilordnet et tall. Hver søkestreng som er mulig er derfor representert av dette tallet, som i den foreliggende oppfinnelsen er kalt et IMP-tall. IMP-tallet omfatter i den foreliggende oppfinnelsen tre siffer adskilt av en x eller punktum (.). Eksempler på forskjellige IMP-tall er vist i listen i fig. 4.1 fig. 4 er hver rad med tall, f.eks. xOO1x012x002x001x005x002x003 i den første raden et IMP-tall som representerer en spesiell søkestreng som består av 7 ord. Hvert IMP-tall representerer en viss forhåndsdefinert informasjon.
Alle de mulige søkestrengene, som akkurat beskrevet ovenfor, innføres i innholdsdatabasen (fig. 1), ett ord i hver celle, der hver rad i databasen representerer en søkestreng som forklart over. En del av en slik innholdsdatabase er vist i fig. 5 og 6. Kun den høyre delen av innholdsdatabasen er vist i fig. 5, mens en venstre del av denne spesielle innholdsdatabasen er vist i fig. 6. Søkestrengen er også representert av et spesielt IMP-tall som opptrer i kolonnen lengst til høyre i fig. 5. Hver søkestreng leses fra høyre mot venstre i fig. 5 og 6. Hvert tillagt ord til søkestrengen representerer en innsnevring av den søkte informasjonen, som kjent fra den kjente teknikk. Søkestrengene sorteres sekvensielt i alfabetisk orden. Det skal imidlertid bemerkes at de samme ordene kan opptre i forskjellige kolonner, da de samme emnene kan være gruppert i forskjellige kategorier.
IMP-tallene er vist i kolonnen til høyre i fig. 5. Her er hvert tre-sifret nummer som består av tre tall separert med-et punktum (.), og hvert IMP-tall representerer søkestrengen som kan ses på den samme raden til venstre. Den venstre siden av tabellen er ikke vist i fig. 5, som betyr at søkestrengene som er representert ved IMP-tallene med flere enn 3x3 siffer ikke er vist i sin helhet. Kun et lite antall ord er vist, men antallet kan økes til uendelig. Rader kan lett slettes og legges til innholdsdatabasen. Dette er en fordel da f.eks. URL-adresser som ikke lenger eksisterer, lett kan slettes fra systemet og nye adresser lett kan legges til.
Når man utfører et søk, skriver brukeren inn et antall ord som representerer emnet brukeren søker etter, f.eks. history moon landing. Kombinasjonen av disse tre ordene representerer en søkestreng. Det er antatt at en bruker begynner med å skrive området som den søkte informasjonen tilhører og deretter innsnevrer søket ved hvert tillagt ord. Rekkefølgen som ordene er skrevet inn i søkestrengen er derfor essensiell.
Slik det kan ses fra fig. 6 er alle cellene i databasen som ikke har blitt tilordnet et ord fylt med <NULL>. Tallene vist i den øvre raden er x-koordinater og tallet i ID-kolonnen er y-koordinater, som betyr at hver celle i innholdstabellen er representert ved et (x, y)-koordinatpar. Ordet "landing" har posisjonen representert med koordinatparene x=19 og y=85, og x=19 og y=86 i databasen i fig. 6. Da det er antatt at en bruker skriver inn søketermene iht. deres relevans for informasjonen som søkes, vil et søk som resulterer i å finne det siste ordet i den innførte søkestren-gen med den høyeste absoluttverdien av x som er mulig, være den informasjonen som er nærmest til informasjonen som ønskes av brukeren. I fig. 6 vil en spørring som inkluderer ordet "amphibious" ha søkestrengene som opptrer i radene 85 og 86 som det mest relevante resultat.
Indekser til lokaliseringer for hvert ord som opptrer i innholdsdatabasen del-vis vist i fig. 5 og 6 opprettes. En utførelsesform av en slik indeks er vist i fig. 7.1 fig. 7 er ordet "landing's" forskjellige koordinater i innholdsdatabasen gitt. x-koordinatene er i kolonnen navngitt som x, og y-koordinatene er i kolonnen navngitt som y. Koordinatparene (x, y) som representerer cellen i innholdsdatabasen der ordet "landing" opptrer, er plassert i den samme raden i indeksen i fig. 7. Fra indeksen i fig. 7 finner man at ordet "landing" opptrer i cellene i innholdsdatabasen med koordinatparene (-19, 85), (-19, 86), (-18, 90) og (-18, 91). Minustegnet indikerer at x-aksen går fra høyre mot venstre i innholdsdatabasen i fig. 5.
Forskjellige indekser eksisterer for det samme ordet, tatt i betraktning av at det samme ordet kan opptre i forskjellige posisjoner i de forskjellige søkestreng-ene. Ordet "landing" kan i en søkestreng opptre som det andre ordet, og i en annen søkestreng, fra en annen bruker, kan ordet "landing" innføres som det første ordet. En hovedindeks med alle ordene som eksisterer i innholdsdatabasen skapes derfor også, og en utførelsesform av dette er vist i fig. 8.1 kolonnen navngitt som "criteria" er ordene satt inn, ett ord i hver celle. Hver rad, f.eks. den uthevede raden med id 112, inneholder informasjon angående ordet "landing". Landing_1 i firstref kolonnen angir indeksen for ordet "landing" når det opptrer som det første ordet i en søkestreng. Indeksen er vist i fig. 9. En annen indeks, landing_2, lik den til indeksen vist i fig. 9, eksisterer for ordet "landing" når det opptrer som det andre ordet (secondref kolonnen) i en søkestreng.
Firstref-indekstabellene, slik den ene som er vist i fig. 9, sorteres iht. absoluttverdien av x-koordinatene som vist. I fig. 7 er secondref-indekstabellen først sortert iht. absoluttverdien av x-koordinatene og deretter iht. y-koordinatene.
En bruker av en elektronisk anordning som et søk i informasjonsrommet over skal utføres på, skriver inn en streng med ord som representerer den ønskede informasjonen. F.eks. ordene: history landing.
Først slås ordet "history" opp i hovedindeksen. Siden ordet opptrer først i søkestrengen benyttes firstref-kolonnen til å finne indekstabell-identifikatoren. Indeksen som inneholder (x, y)-koordinatparene for ordet "landing" benyttes deretter til å finne koordinatene til ordet "history" i innholdsdatabasen. Ordet "landing" opptrer som det andre ordet i søkestrengen. Secondref kolonnen i hovedindeksen benyttes derfor for å identifisere indeksen for å spørre etter koordinatene for ordet
"landing" i innholdsdatabasen. Indeksen landing_2 velges.
For å ha et treff må begge ordene "history" og "landing" opptre i den samme søkestrengen i innholdsdatabasen, dvs. opptre i den samme raden. Når koordinatene for det første ordet "history" og "landing" har blitt identifisert, sammenlignes y-koordinatverdiene i de to valgte indeksene. Alle koordinatparene med de samme
y-koordinatverdiene velges deretter. Denne gruppen av treff sorteres iht. x-koordinatverdiene, for å finne informasjonen som betraktes som mest relevant for bruke-
ren. Denne trefflisten kan fremvises på en fremvisningsanordning iht. relevans, eller informasjonen i listen kan automatisk åpnes og fremvises for brukeren. Hvis kun trefflisten fremvises, kan brukeren velge å åpne informasjonen. Trefflisten vil fremvise dataenhetene inneholdt i alle de valgte radene i innholdsdatabasen. Dette er ansett å støtte brukeren i å gjøre det best mulige valget. Hvis ingen av y-koordinatene for ordene er identiske, utføres en beregning for å finne informasjonen som har den høyeste relevansen.
Informasjonen presenteres nesten med en gang for brukeren, med den mest relevante informasjonen fremvist først, og viser også søkestrengen som er plukket ut som et resultat av de innførte ordene.
I eksempelet over utføres søket kun i kategorier. Følgelig, kun kategoriene som er valgt gjennom søkeprosedyren fremvises. Dette er kalt et kategorisøk. Kun informasjonen som er inneholdt i den søkte databasen fremvises. For å være i stand til å utføre et metasøk, prosesseres og struktureres informasjonen som er inneholdt i hver kategori som forklart over. Anta at en bruker taster inn ordene "james brown". Hvis disse ordene ikke kan finnes i kategori-databasen/indekssys-temet, utføres et søk i databasen/indekssystemet for postene inneholdt i hver kategori. Hvis en slik post finnes, åpnes umiddelbart informasjonen representert ved den spesielle posten og presenteres for brukeren. Dette eksemplifiserer et annet aspekt av denne spesielle database/indeksstrukturen. Data gjenfinnes og fremvises iht. typen av den informasjon som er prosessert, strukturert og lagret i det oppfunnede database/indekssystemet, mens tidligere kjente systemer utfører søk og fremviser søkeresultatene iht. den spesielle søkemotoren som benyttes.
Søkene utføres kun i strukturerte databasessystemer og indekser, slik som kategoriene i Yahoo, eller i et hvilket som helst biblioteksystem. Søk utføres ikke direkte i informasjonen som eksisterer i informasjonsrommet. Søkene er utført på forhånd når informasjonen prosesseres og de forskjellige indeksene og innholdsdatabasen skapes. Da informasjonen inneholdt i informasjonsrommet kan betraktes som kun representert ved koordinater, og i noen utførelsesformer også mulig-ens ved IMP-tall, blir enhver beregning utført av en prosessor for å sammenligne, beregne relevans osv. gjort lettere. Bruken av tabeller og koordinater tilveiebringer et søkeprinsipp som lett kan tilpasses mellom språk på kjente måter.
Ved å ha beskrevet forskjellige utførelsesformer av oppfinnelsen vil det være tydelig for de faglærte i teknikken at andre utførelsesformer som omfatter konseptene kan benyttes. Disse og andre eksempler på oppfinnelsen illustrert over er kun tenkt som eksempler og det faktiske omfanget av oppfinnelsen skal bestemmes fra de følgende kravene.
Claims (28)
1. System for å strukturere digitalt lagret informasjon, der informasjonen er anordnet i en database omfattende et antall celler anordnet i rader og kolonner for å romme dataenheter som representerer informasjonen, der kun én dataenhet kan lagres i hver celle, og der dataenhetene inneholdt i cellene i én rad i databasen ut-gjør en viss informasjon, idet systemet er inkludert i et dataprosesseringssystem, karakterisert ved : - en indekstabell for hver unike dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon angående alle posisjoner/lokaliseringer for den unike dataenheten i databasen; og - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabell-identifikator, idet indekstabell-identifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.
2. System ifølge krav 1, der lokaliseringene er uttrykt ved koordinater som definerer cellene i databasen.
3. System ifølge krav 2, hvor koordinatene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.
4. System ifølge krav 3, hvor koordinatparene i indekstabellen først er sortert i henhold til absoluttverdien av x-koordinatene og for det andre i henhold til verdien av y-koordinaten.
5. System ifølge krav 3, hvor dataenhetene med de høyeste absoluttverdiene av x har høyere relevans enn dataenhetene med lavere absoluttverdier av x.
6. System ifølge krav 1, hvor hver rad i databasen omfatter en adresse/kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad.
7. System ifølge krav 1, hvor dataenhetene inneholdt i celler i én rad i databasen representerer en søkestreng assosiert med en URL-adresse.
8. System ifølge krav 1, hvor dataenhetene inneholdt i cellene i én rad i databasen er assosiert med en filbane.
9. System ifølge krav 1, hvor den digitalt lagrede informasjonen representerer en telefonkatalog.
10. Fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, der cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon;
karakterisert ved : - å skape minst én indekstabell for hver unike dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer for den unike dataenheten i databasen; og - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indekstabell-identrfikator som tilveiebringer en kopling til den tilsvarende indekstabellen for en unik dataenhet.
11. Fremgangsmåte ifølge krav 10, hvor prosesseringstrinnet omfatter å indeksere den lagrede informasjonen ved å benytte en indekseringsagent.
12. Fremgangsmåte ifølge krav 10, omfattende å uttrykke lokaliseringene ved koordinatverdier som definerer cellene i databasen.
13. Fremgangsmåte ifølge krav 12, hvor koordinatverdiene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.
14. Fremgangsmåte ifølge krav 13, omfattende å først sortere koordinatparene i indekstabellen i henhold til absoluttverdiene av x-koordinatene og for det andre i henhold til y-koordinatverdiene.
15. Fremgangsmåte ifølge krav 10, omfattende å prosessere informasjonen og å anordne dataenhetene som er representative for informasjonen i databasen på en slik måte at dataenhetene tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenhetene tilordnet lavere absoluttverdier av x-koordinatene.
16. Fremgangsmåte ifølge krav 10, hvor dataenhetene er nøkkelord som beskriver den digitalt lagrede informasjonen.
17. Fremgangsmåte ifølge krav 16, hvor nøkkelordene inneholdt i celler i hver rad i databasen utgjøren søkestreng, og der fremgangsmåten omfatter å skape en indekstabell for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indekstabell-identifikator assosiert med nøkkelordet i hovedindeksen.
18. Fremgangsmåte ifølge krav 10, hvor en ressursindikator for den prosesserte informasjonen er inkludert i hver rad i databasen, idet ressursindikatoren tilveiebringer en kopling til den digitalt lagrede informasjonen.
19. Fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, idet informasjonen er strukturert i et system i henhold til et av kravene 1 -9, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabellen - å søke i de valgte indekstabellene for å velge minst én lokalisering til en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen som cellen er lokalisert i og å gjenfinne den ønskede informasjon.
20. Fremgangsmåte ifølge krav 19, hvor den ønskede informasjon er uttrykt i form av en ordnet søkestreng av nøkkelord, idet fremgangsmåten omfatter - å bestemme ordenen til nøkkelordet i sekvensen av nøkkelord, og å velge indekstabeller som svarer til både den ønskede informasjonen og ordenen til nøk-kelordet i den innførte søkestrengen.
21. Fremgangsmåte ifølge krav 19, omfattende å innføre den ønskede informasjonen gjennom et grensesnitt i en søkemotor.
22. Fremgangsmåte ifølge krav 19, omfattende å fremvise den gjenfunnede informasjonen i en fremvisningsanordning.
23. Datamaskinprogramprodukt for et dataprosesseringssystem, omfattende et datamaskinlesbart medium, omfattende datamaskinlesbare programanordninger, som når lastet inn i et internt minne i et dataprosesseirngssystem, får dataprosesseringssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.
24. Datamaskinprogramprodukt for et dataprosesseirngssystem, omfattende
datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, får dataprosesseirngssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.
25. Anvendelse av systemet ifølge et av kravene 1-7 og fremgangsmåtene ifølge et av kravene 10-18 eller 19-22 i en søkemotor for å søke på Internet.
26. Anvendelse av systemet i henhold til et av kravene 1 -9 og fremgangsmåtene i henhold til et av kravene 10-18 eller 19-22 i en håndholdt elektronisk anordning omfattende en prosessor og et minne.
27. Anvendelse i henhold til krav 26, hvor den elektroniske anordningen er mobiltelefon, en WAP-telefon eller bærbar datamaskin.
28. Anvendelse av systemet ifølge krav 1 og fremgangsmåtene ifølge kravene 10 eller 19 i en datamaskin for å gjenfinne filer i en datalagringsanordning.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20005704A NO314059B1 (no) | 2000-11-10 | 2000-11-10 | Fremgangsmåte for strukturering og söking av informasjon |
US09/709,279 US6691123B1 (en) | 2000-11-10 | 2000-11-13 | Method for structuring and searching information |
PCT/NO2001/000444 WO2002039320A1 (en) | 2000-11-10 | 2001-11-09 | Method for structuring and searching information |
AU2002214419A AU2002214419A1 (en) | 2000-11-10 | 2001-11-09 | Method for structuring and searching information |
EP01982960A EP1342177A1 (en) | 2000-11-10 | 2001-11-09 | Method for structuring and searching information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NO20005704A NO314059B1 (no) | 2000-11-10 | 2000-11-10 | Fremgangsmåte for strukturering og söking av informasjon |
Publications (3)
Publication Number | Publication Date |
---|---|
NO20005704D0 NO20005704D0 (no) | 2000-11-10 |
NO20005704L NO20005704L (no) | 2002-05-13 |
NO314059B1 true NO314059B1 (no) | 2003-01-20 |
Family
ID=19911782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20005704A NO314059B1 (no) | 2000-11-10 | 2000-11-10 | Fremgangsmåte for strukturering og söking av informasjon |
Country Status (5)
Country | Link |
---|---|
US (1) | US6691123B1 (no) |
EP (1) | EP1342177A1 (no) |
AU (1) | AU2002214419A1 (no) |
NO (1) | NO314059B1 (no) |
WO (1) | WO2002039320A1 (no) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
US20020091879A1 (en) * | 2000-12-21 | 2002-07-11 | James Beriker | System, method and apparatus for dynamic traffic management on a network |
JP3907161B2 (ja) * | 2001-06-29 | 2007-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | キーワード検索方法、キーワード検索端末、コンピュータプログラム |
US6912407B1 (en) * | 2001-11-03 | 2005-06-28 | Susan Lee Clarke | Portable device for storing and searching telephone listings, and method and computer program product for transmitting telephone information to a portable device |
US7203675B1 (en) * | 2002-02-19 | 2007-04-10 | Ncr Corp. | Methods, systems and data structures to construct, submit, and process multi-attributal searches |
US7130843B2 (en) * | 2002-05-20 | 2006-10-31 | International Business Machines Corporation | Method, system and program product for locating personal information over a network |
AU2003298246A1 (en) * | 2002-12-30 | 2004-07-22 | Ilonka Ringling | Information management system |
WO2004059525A2 (en) * | 2002-12-30 | 2004-07-15 | Richard Wiedemann | Information management system |
US7045377B2 (en) * | 2003-06-26 | 2006-05-16 | Rj Mears, Llc | Method for making a semiconductor device including a superlattice and adjacent semiconductor layer with doped regions defining a semiconductor junction |
GB2409298A (en) * | 2003-12-17 | 2005-06-22 | Symbian Ltd | Updating or adding to a stored contacts data entry |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) * | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US20060041605A1 (en) * | 2004-04-01 | 2006-02-23 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US20060122983A1 (en) * | 2004-12-03 | 2006-06-08 | King Martin T | Locating electronic instances of documents based on rendered instances, document fragment digest generation, and digest based document fragment determination |
US7552630B2 (en) * | 2004-02-27 | 2009-06-30 | Akron Special Machinery, Inc. | Load wheel drive |
US8081849B2 (en) * | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20080313172A1 (en) * | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20070300142A1 (en) * | 2005-04-01 | 2007-12-27 | King Martin T | Contextual dynamic advertising based upon captured rendered text |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
WO2008028674A2 (en) | 2006-09-08 | 2008-03-13 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US8170946B2 (en) * | 2004-08-21 | 2012-05-01 | Co-Exprise, Inc. | Cost management file translation methods, systems, and apparatuses for extended commerce |
US20060074881A1 (en) * | 2004-10-02 | 2006-04-06 | Adventnet, Inc. | Structure independent searching in disparate databases |
US20060074854A1 (en) * | 2004-10-04 | 2006-04-06 | Gosakan Aravamudan | Innovative product design using application trees |
US20060287986A1 (en) * | 2005-06-21 | 2006-12-21 | W.W. Grainger, Inc. | System and method for facilitating use of a selection guide |
US7456596B2 (en) * | 2005-08-19 | 2008-11-25 | Cisco Technology, Inc. | Automatic radio site survey using a robot |
US9697231B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for providing virtual media channels based on media search |
US20070106685A1 (en) * | 2005-11-09 | 2007-05-10 | Podzinger Corp. | Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same |
US9697230B2 (en) * | 2005-11-09 | 2017-07-04 | Cxense Asa | Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications |
US7801910B2 (en) * | 2005-11-09 | 2010-09-21 | Ramp Holdings, Inc. | Method and apparatus for timed tagging of media content |
US20070118873A1 (en) * | 2005-11-09 | 2007-05-24 | Bbnt Solutions Llc | Methods and apparatus for merging media content |
JP4368905B2 (ja) * | 2007-05-11 | 2009-11-18 | シャープ株式会社 | グラフ描画装置および方法、その方法を実行する歩留り解析方法および歩留り向上支援システム、プログラム、並びにコンピュータ読み取り可能な記録媒体 |
US8271473B2 (en) * | 2007-06-25 | 2012-09-18 | Jobs2Web, Inc. | System and method for career website optimization |
US20090240628A1 (en) * | 2008-03-20 | 2009-09-24 | Co-Exprise, Inc. | Method and System for Facilitating a Negotiation |
US8239389B2 (en) | 2008-09-29 | 2012-08-07 | International Business Machines Corporation | Persisting external index data in a database |
WO2010096193A2 (en) | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
WO2010105246A2 (en) | 2009-03-12 | 2010-09-16 | Exbiblio B.V. | Accessing resources based on capturing information from a rendered document |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918225A (en) | 1993-04-16 | 1999-06-29 | Sybase, Inc. | SQL-based database system with improved indexing methodology |
SE505844C2 (sv) | 1994-09-21 | 1997-10-13 | Qliktech International Ab | Metod för extrahering av information från en databas |
US5752025A (en) | 1996-07-12 | 1998-05-12 | Microsoft Corporation | Method, computer program product, and system for creating and displaying a categorization table |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
-
2000
- 2000-11-10 NO NO20005704A patent/NO314059B1/no not_active IP Right Cessation
- 2000-11-13 US US09/709,279 patent/US6691123B1/en not_active Expired - Lifetime
-
2001
- 2001-11-09 AU AU2002214419A patent/AU2002214419A1/en not_active Abandoned
- 2001-11-09 EP EP01982960A patent/EP1342177A1/en not_active Withdrawn
- 2001-11-09 WO PCT/NO2001/000444 patent/WO2002039320A1/en not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US6691123B1 (en) | 2004-02-10 |
WO2002039320A1 (en) | 2002-05-16 |
NO20005704D0 (no) | 2000-11-10 |
NO20005704L (no) | 2002-05-13 |
EP1342177A1 (en) | 2003-09-10 |
AU2002214419A1 (en) | 2002-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6691123B1 (en) | Method for structuring and searching information | |
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
JP4857075B2 (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム | |
EP1182581B1 (en) | Searching tool and process for unified search using categories and keywords | |
US9292578B2 (en) | Relevancy sorting of user's browser history | |
US6101503A (en) | Active markup--a system and method for navigating through text collections | |
US8307275B2 (en) | Document-based information and uniform resource locator (URL) management | |
US7509306B2 (en) | Index for data retrieval and data structuring | |
US20020156779A1 (en) | Internet search engine | |
US20010047353A1 (en) | Methods and systems for enabling efficient search and retrieval of records from a collection of biological data | |
US8560518B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
CN111400323B (zh) | 数据检索方法、系统、设备及存储介质 | |
US20110119261A1 (en) | Searching using semantic keys | |
JP2011526008A (ja) | 複合検索用のシステムと方法 | |
Dong et al. | Normalization of duplicate records from multiple sources | |
EP2181400A1 (en) | Method and apparatus for generating search keys based on profile information | |
WO2001065410A2 (en) | Search engine for spatial data indexing | |
LIM et al. | Web mining-The ontology approach | |
Wheeldon et al. | DbSurfer: A search and navigation tool for relational databases | |
Álvarez et al. | A Task-specific Approach for Crawling the Deep Web. | |
US8090736B1 (en) | Enhancing search results using conceptual document relationships | |
JPH06149882A (ja) | 全文データベース検索装置 | |
Khiste et al. | Role of search engines in library at a glance | |
Williamson | BUBL Link/5: 15: Smarter than the average search engine | |
JP3490532B2 (ja) | ハイパー文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CHAD | Change of the owner's name or address (par. 44 patent law, par. patentforskriften) |
Owner name: VIRTUALWORKS GROUP INC, 5301 NORTH FEDERAL HIGHWAY |
|
MM1K | Lapsed by not paying the annual fees |