NO314059B1

NO314059B1 - Fremgangsmåte for strukturering og söking av informasjon

Info

Publication number: NO314059B1
Application number: NO20005704A
Authority: NO
Inventors: Kenneth Gulliksen
Original assignee: Imp Technology As
Priority date: 2000-11-10
Filing date: 2000-11-10
Publication date: 2003-01-20
Also published as: US6691123B1; WO2002039320A1; NO20005704D0; NO20005704L; EP1342177A1; AU2002214419A1

Description

OPPFINNELSENS OMRÅDE

Den foreliggende oppfinnelse angår et system og en fremgangsmåte for å strukturere digitalt lagret informasjon og en fremgangsmåte for å søke i denne informasjonen. Et datamaskinprogramprodukt og anvendelser av systemet og fremgangsmåtene er også fremlagt. Spesielt adresserer oppfinnelsen problemet å søke i store informasjonsrom/databaser, f.eks i en nasjonal telefonkatalog, store filsystemer eller på Internet.

BESKRIVELSE AV KJENT TEKNIKK

De eksisterende og økende mengdene med informasjon som i dag er til-gjengelig på elektronisk form, stiller store krav til data hardware f.eks. angående minnekapasitet og prosessorhastighet når det søkes i denne informasjonen. Informasjon i elektronisk form er f.eks. nettverksversjoner av telefonkataloger, filer lagret på harddisker eller på nettverksservere (f.eks. LAN, WAN), www-sider. Den digitale informasjonen kan organiseres og lagres i store databaser og gjenfinning av informasjon fra disse strukturene krever komplekse søkerutiner, kraftfulle pro-sessorer og lagringskapasitet. Imidlertid kan det være en tidkrevende og langtek-kelig prosess å gjenfinne informasjon som ønsket fra disse databasene.

For Internet, som er et svært stort informasjonsrom, har det blitt utviklet forskjellige søkemotorer og søkbare kataloger (f.eks. Yahoo) for å søke å gjenfinne den eksisterende informasjonen. Informasjonen er da indeksert og anordnet i søk-bart format i f.eks. databaser og lagret på servere. Et problem med slike kjente søkemotorer og søkbare kataloger er nødvendigheten av stor fysisk lagringskapasitet. All den indekserte og/eller prosesserte informasjonen lagres fysisk, og å søke i all denne informasjonen som ofte er anordnet i en stor database er ikke alltid svært effektivt.

Binærsøk, som ofte anvendes når det søkes i databasestrukturer, er en søkealgoritme som gjentatt deler et organisert søkerom i to iht. hvordan den ford-rede verdien er i forhold til det midterste elementet. Når det søkes i store databaser, blir dette en tidkrevende prosess, da hele databasen må gjennomsøkes minst en gang. Vanligvis utføres kun søk i valgte kolonner i databasen. Hvis det er nød-vendig å kombinere informasjon anordnet i forskjellige kolonner i databasen for å oppnå et nyttig og meningsfullt søkeresultat, og databasen er stor, kan søkeprose-dyren ta svært lang tid, og den er noen ganger ikke mulig å gjennomføre pga. det store antallet mulige kombinasjoner av informasjonen anordnet i cellene i de forskjellige kolonnene. Det er også et problem hvis en søkeanmodning, i f.eks. en database eller i et hvilket som helst annet informasjonsrom, resulterer i et stort antall treff, hvordan denne informasjonen bør presenteres for brukeren på en nyttig og meningsfull måte. Søking er ofte omstendelig og står i kontrast til at brukere alltid krever informasjon presentert på et øyeblikk.

SAMMENFATNING AV OPPFINNELSEN

Den foreliggende oppfinnelse har blitt uttenkt for å løse eller i det minste lette problemene med den kjente teknikk som beskrevet over. Derfor, i overens-stemmelse med et første aspekt av den foreliggende oppfinnelse er det tilveiebrakt et system for å strukturere digitalt lagret informasjon, der systemet er inkludert i et dataprosesseringssystem, og struktureringssystemet omfatter: - en database som omfatter et antall celler anordnet i rader og kolonner for å lagre dataenheter som representerer informasjonen, der kun en dataenhet kan lagres i hver celle, idet dataenhetene inneholdt i cellene i en rad i databasen inneholder en viss informasjon. Systemet er kjennetegnet ved - en indekstabell for hver unik dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon som angår alle posisjoner/lokaliseringer til den unike dataenheten i databasen; - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabellidentifikator, idet

indekstabellidentifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.

Posisjonen kan uttrykkes ved koordinater, der koordinatene definerer cellene i databasen. Foretrukket er koordinatene (x, y) koordinatpar som representerer hhv. kolonnene og radene i databasen. Koordinatparene i indekstabellene sorteres deretter først iht. absoluttverdien av x-koordinatene og deretter iht. verdien av y-koordinaten. Dataenhetene med de høyeste absoluttverdiene av x har ved defi-nisjon en høyere relevans enn dataenhetene med lavere absoluttverdier av x. Ved relevant menes at dataenhetene som det blir funnet beskriver best den representerte informasjonen tilordnes en høy x-verdi. I en utførelsesform kan databasen også omfatte en adresse eller kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad i databasen.

Dataenhetene inneholdt i cellene i én rad i databasen kan f.eks. representere en søkestreng assosiert med en URL-adresse eller en filbane. Den digitalt lagrede informasjonen kan representere en telefonkatalog.

I et andre aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, idet cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon; og der fremgangsmåten videre er kjennetegnet ved - å skape minst en indekstabell for hver unik dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer av den unike dataenheten i databasen; - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indeksidentifikator som tilveiebringer en kopling til den tilsvarende indeks for en unik dataenhet.

I en første utførelsesform av den oppfunnede fremgangsmåten benyttes en indekseirngsagent for å indeksere den lagrede informasjonen. Denne indekser-ingsagenten kan være en spider, web crawler eller en hvilken som helst annen passende agent. Foretrukket prosesseres informasjonen og dataenhetene representativ for informasjonen anordnet i databasen på en slik måte at dataenhetene som er tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenheter som er tilordnet lavere absoluttverdier av x-koordinatene. Dataenhetene kan være nøkkelord som beskriver den digitalt lagrede informasjonen. Når nøkkelordene som er inneholdt i cellene i hver rad i databasen utgjør en søkestreng, omfatter fremgangsmåten videre å skape en indeks for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indeksidentifikator assosiert med nøkkelordet i hovedindeksen. En ressursindikator for den prosesserte informasjonen kan inkluderes i hver rad i databasen, for å tilveiebringe en kopling til den digitalt lagrede informasjonen.

I et tredje aspekt tilveiebringer oppfinnelsen en fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, der informasjonen er strukturert i et database/indeks-system som definert over, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabeller; - å søke i de valgte indekstabellene for å velge minst én lokalisering av en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen der cellen er lokalisert og å gjenfinne den ønskede informasjonen.

I en utførelsesform, når den ønskede informasjonen er uttrykt i form av en sekvensert søkestreng med nøkkelord, omfatter fremgangsmåten videre å bestemme rekkefølgen av søkeordene i sekvensen med søkeord, og å velge indekstabeller som svarer både til den ønskede informasjonen og rekkefølgen til søkeor-det i inngangs-søkestrengen.

Den ønskede informasjonen kan innføres gjennom et søkemotor-grensesnitt, og den gjenfunnede informasjonen fremvises i en fremvisningsanordning. En typisk fremvisningsanordning kan være en dataskjerm, men kan også være skjer-men på en mobiltelefon eller WAP.

I et fjerde aspekt tilveiebringer oppfinnelsen et dataprogramprodukt for et dataprosesseirngssystem, omfattende et datamaskinlesbart medium, som har lagret derpå datamaskinlesbare programanordninger, som når nedlastet til et internt minne i dataprosesseringssystemet, gjør dataprosesseringssystemet i stand til å utføre struktureirngsmetoden som definert over.

I et femte aspekt tilveiebringer oppfinnelsen også et dataprogramprodukt for et dataprosesseringssystem, omfattende datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, gjør dataprosesseringssystemet i stand til å utføre søkemetoden som definert over.

Det oppfunnede systemet og fremgangsmåtene kan anvendes i en søke-motor for søking på Internet, i en håndholdt elektronisk anordning som omfatter en prosessor og et minne (f.eks. en mobiltelefon, en WAP-telefon eller en bærbar datamaskin) eller i en datamaskin for å gjenfinne filer i en datalagringsanordning. Oppfinnelsen tilveiebringer en løsning for organisering og søking i informasjon på en effektiv måte, og for å presentere informasjonen på en umiddelbar nyttig måte. Den oppfunnede løsningen tilveiebringer raskere prosessering ved å minimalisere selve søket, og resulterer også i reduserte kostnader for kjøring og oppgradering av søkesystemet. Informasjon kan lett legges til og slettes, og tilveiebringes uav-hengig av søkespråket som benyttes. Oppfinnelsen er definert i de vedføyde kravene.

KORT BESKRIVELSE AV TEGNINGENE

De ovenfor og ytterligere fordeler kan forstås mer fullstendig ved referanse til den følgende beskrivelsen og de medfølgende tegningene der: Fig. 1 viser et utsnitt av en venstre del av en innholdsdatabase ifølge en ut-førelsesform av den foreliggende oppfinnelsen; Fig. 2 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 3 er en del av en indekstabell ifølge en utførelsesform av den foreliggende oppfinnelsen; Fig. 4 er et ekstrakt av en liste med IMP-tall, der hvert IMP-tall representerer en streng med søketermer, ifølge en utførelsesform av oppfinnelsen; Fig. 5 viser en høyre del av en innholdsdatabase med søkestrenger som er både representert med ord og IMP-tall ifølge en utførelsesform av oppfinnelsen; Fig. 6 viser en venstre del av innholdsdatabasen i fig. 5 og med rad og kolonne-koordinater fremvist; Fig. 7 er en del av en indekstabell for ordet "landing" ifølge en utførelses-form av oppfinnelsen; Fig. 8 er et ekstrakt av en hovedindekstabell ifølge en utførelsesform av oppfinnelsen; Fig. 9 er en første del av en indekstabell for et ord i "firstref-kolonnen vist i fig. 8; og Fig. 10 er en del av en indekstabell for et ord i "secondref -kolonnen vist i fig. 8.

BESKRIVELSE AV OPPFINNELSEN

Den foreliggende oppfinnelse angår et system av databaser og indekser som er i stand til å lagre store informasjonsmengder, en fremgangsmåte for å prosessere og strukturere digitalt lagret informasjon i en slik struktur og en fremgangsmåte for å søke i databasestrukturen. Oppfinnelsen vil først bli beskrevet på en generalisert måte og deretter ved å bruke eksempler på mulige implementerin-ger av oppfinnelsen. Eksemplene skal imidlertid ikke betraktes som begrensende for omfanget av oppfinnelsen.

Informasjon i konteksten for den foreliggende oppfinnelsen skal forstås på bredest mulig måte, men informasjonen kan eksistere på en eller annen elektronisk form, f.eks. i en prosessor, minneanordninger eller lagringsanordning. Informasjon kan være en Word- eller Excel-fil på din dataharddisk, opplistinger i en online telefonkatalog, sider på World Wide Web osv. Informasjonen er i den foreliggende oppfinnelsen prosessert på kjente måter for å ekstrahere dataenheter som er representative for informasjonen. Disse kjente metodene inkluderer, men er ikke be-grenset til, f.eks. opptelling av forekomster av ord på sider på www eller i en lagret fil, og ved å bruke deskriptive ord med det høyeste antall forekomster som dataenheter representativ for informasjonen. Ifølge oppfinnelsen er deretter de ekstraherte data anordnet i en databasestruktur, f.eks. som vist i fig. 1, og forskjellige indekser opprettet for å lette gjenfinningen av informasjonen. Databasestrukturen og dataene lagres fysisk på en eller annen lagringsanordning. Data i denne konteksten kan f.eks. være ord, bokstaver, symboler, tall eller siffer osv.

Databasestrukturen

Fig. 1 viser et utdrag av en innholdsdatabase 10, med celler 11 anordnet i horisontale rader og vertikale kolonner. Hver celle 11 i databasen er identifisert ved et (x, y)-koordinatpar, der tallene i den øverste raden er x-koordinatene og tallene i kolonnen lengst til venstre er y-koordinatene. Følgelig identifiseres cellen 14 i fig. 1 ved (x, y)-koordinatparet (18, 53).

Dataenhetene som representerer informasjonen er anordnet i innholdsdatabasen på en slik måte at dataenheter som beskriver en viss informasjon opptrer i den samme raden. Som et eksempel består en opptegnelse i en telefonkatalog vanligvis av etternavn, fornavn, adresse og telefonnummer. Denne informasjonen vil derfor opptre i den samme raden. Hver celle i innholdsdatabasen kan også kun inneholde en dataenhet, dvs. en kontinuerlig rekke av bokstaver, tall osv. Imidlertid, i denne utførelsesformen av oppfinnelsen, hvis en person har fornavn "Hans Frode", vil hele fornavnet opptre i en celle. Det er ingen begrensning på antallet bokstaver, tall osv. i den kontinuerlige sekvensen, og celler trenger derfor ikke å bli oppdelt.

Data er også anordnet i radene i innholdsdatabasen iht. relevans. Når informasjonen prosesseres i en dataprosessor, for å ekstrahere dataene som skal inkluderes i innholdsdatabasen, anordnes data som betraktes som svært deskriptive for informasjonen, dvs. data som presist definerer hva denne informasjonen (f.eks. fil/dokument/www-side) handler om, i cellene i en rad på en slik måte at disse dataene tilordnes de høyeste absolutt-verdiene av x. Dette betyr at de deskriptive data enten opptrer helt til venstre eller helt til høyre i innholdsdatabasen, avhengig av hvordan x-koordinatene er tilordnet til kolonnene.

Alle cellene i databasen i fig. 1 trenger ikke å fylles med en dataenhet. Antallet dataenheter som er nødvendig for tilstrekkelig å representere en viss informasjon kan variere. Rader og kolonner i innholdsdatabasen kan lett legges til og slettes på kjente måter for å dynamisk ekspandere og minke databasen når øns-kelig. Innholdsdatabasen kan utvides nesten uendelig.

Databasen kan i en utførelsesform også inkludere informasjonsadressene, f.eks. en URL-adresse for en www-side. Adressedataene er lagret i en forhåndsdefinert kolonne på en mengde forskjellige måter, som f.eks. en numerisk repre-sentasjon med en kopling til en adresse-indeks/database eller en html-link til en URL-adresse.

Den samme dataenheten (f.eks. ord eller tall) kan påtreffes i mange forskjellige posisjoner i innholdsdatabasen i fig. 1. Derfor ekstraheres alle koordinatene for alle disse unike dataenhetene som opptrer i innholdsdatabasen og anordnes i indekser. En indekstabell eksisterer for hver unike dataenhet som opptrer i innholdsdatabasen. En utførelsesform av en slik indekstabell 20 for en unik dataenhet er vist i fig. 2. x, y-koordinatparene er listet i den samme raden 21, med x-koordinaten i kolonne 22 og y-koordinaten i kolonne 23. Koordinatparene i indekstabellen 20 i fig. 2 er først sortert i nedadstigende orden iht. absoluttverdien av x-koordinaten, og deretter i stigende orden iht. koordinat-verdiene til y-koordinatene. Koordinatparene representerer posisjonene som den unike dataenheten er mest deskriptiv for den representerte informasjon og er derfor helt øverst i indekstabellene. Kolonnen 24 kalt ID identifiserer kun antallet forskjellige plasseringer for dataenheten i innholdsdatabasen.

For å være i stand til å finne den passende indekstabellen for en viss infor-masjonsenhet, anordnes alle de unike dataenheten i en hovedindeks, sammen med informasjon angående hvilken indekstabell som inkluderer koordinatverdiene for disse data i innholdsdatabasen. Et antall slike hovedindekser kan opprettes avhengig av størrelsen til innholdsdatabasen. F.eks.: fra en innholdsdatabase med 200 000 rader og 10 kolonner genereres en hovedindeks (ordliste). Størrelsen til hovedindeksen vil avhenge av antallet unike dataenheter (ord) i innholdsdatabasen. En innholdsdatabase omfattende informasjon angående de tekniske trekkene til bilmodeller vil resultere i en heller liten hovedindeks, da de samme ordene ofte vil bli gjentatt for å beskrive de forskjellige bilmodellene. Indeksene som tilveiebringer koordinatverdiene, vil imidlertid bli stor. Følgelig, en innholdsdatabase angående telefonnummeirnformasjon vil resultere i en heller stor hovedindeks, og det kan da være fordelaktig å skape et antall hovedindekser. Når flere hovedindekser opprettes, skapes høyere ordenstabeller for å identifisere de passende hovedin-dekstabellene. Redusering av størrelsen til indekstabellen på denne måten vil resultere i øket søkehastighet og lett gjenfinning av data når det senere søkes i strukturen.

Måten som informasjonen førbehandles og struktureres på tilveiebringer et system hvor søk kan betraktes som utført på forhånd. De virkelige søkene som beordres av brukere av søkesystemet utføres deretter i de strukturerte på forhånd utførte søkene. Dette minimaliserer betraktelig søkeprosessen.

En utførelsesform av en hovedindekstabell 30 er vist i fig. 3. Merk at kun et utdrag av en slik hovedindeks er vist i fig. 3. Kolonnen 31 navngitt som ID gir antallet rader i hovedindeksen og derav antallet forskjellige dataenheter, f.eks. ord, som eksisterer i innholdsdatabasen. Kolonne 33, "criteria", lister opp de forskjellige dataenhetene. I fig. 3 er dataenhetene ord som er sortert alfabetisk. Hovedindeksen kan betraktes som en slags ordliste for databasesystemet. Den tilsvarende in-deksidentrfikatoren for hver dataenhet er listet i kolonne 34.

Søking i databasestrukturen

Den ønskede informasjonen innføres i søkesystemet gjennom et grensesnitt. Dette grensesnittet er f.eks. en søkemotor som residerer på en personlig datamaskin for søking på Internet, en søkemodul for å søke i filer lagret på servere i en intranettstruktur, en mobiltelefon for å søke i informasjon angående telefonnumre lagret i minnet osv. Hvis den ønskede informasjonen innføres i form av en søkestreng av nøkkelord, som vil være det typiske tilfellet for en Intemet-applika-sjon, vil søkesystemet først utføre et søk i hovedindekstabellen for å finne dataenhetene som tilsvarer det innførte nøkkelordet. Deretter, vil den indekstabellidentifikatoren som er tilordnet den dataenheten bli valgt. Hvis ingen treff inntreffer mellom de innførte nøkkelordene og dataenhetene i hovedindeksen, vil ingen treff bli listet på trefflisten.

Indekstabellidentifikatoren tilveiebringer en kopling til indekstabellen som skal søkes for å finne lagerstedet til dataenhetene, og derved det innførte nøkkel-ord, i innholdsdatabasen. Alle koordinatparene for den valgte dataenheten er gjen-funnet fra indekstabellen. Koordinatparene er lokaliseringene til alle cellene i innholdsdatabasen som inneholder det innførte nøkkelord. Hele raden i innholdsdatabasen som inneholder de identifiserte cellene blir deretter valgt. I noen implementasjoner av oppfinnelsen inneholder innholdsdatabasen selv all informasjon som er ønsket av brukeren, typisk når databasestrukturen inneholder informasjon angående telefonnumre og adresser. Radene kan også innholde informasjon angående lokaliseringene til den ønskede informasjonen, f.eks. en URL-adresse for en side på web'en. I det sistnevnte tilfellet vil det å ha koordinatene for cellene i innholdsdatabasen med en gang implisere at man har URL-adressene for den søkte informasjonen for en person som søker på web'en. Å finne en cellelokalisering i indekstabellen resulterer i å velge hele raden i innholdsdatabasen som inneholder cellen, da y-koordinatene i (x, y) koordinatparet identifiserer raden. Cellene i raden som inneholder URL-adresseinformasjonen identifiseres deretter lett, da kolonnen som inneholder adresseinformasjonen er forhåndsdefinert.

Kjente metoder brukes for å søke i indeksene og får å ekstrahere informasjonen. Størrelsen til indeksene er holdt små og velkjente søkemetoder som bi-nærsøk, kan derfor benyttes. Den fordelaktige søkehastigheten skyldes først og fremst enkelheten til systemet. Ekstraherte data er lagret i cellene identifisert ved koordinater og informasjon angående de unike data, og koordinatposisjoner er lagret i små indekstabeller som tilveiebringer umiddelbar lokalisering av de innførte nøkkelord i innholdsdatabasen.

Systemet kan utformes til å gå direkte til en adresse og å åpne dokumentet. En annen mulighet er å fremvise dataenhetene lagret i innholdsdatabasen for in-formasjonssøkeren og overlate avgjørelsen om å åpne den funnede informasjonen til brukeren. Et søk kan resultere i et stort antall treff. Søkesystemene fremviser informasjonen som er funnet iht. dens relevans for de innførte nøkkelordene. Relevans er en iboende egenskap til systemet da databasestrukturen og indeksene opprettes ved å ta i betraktning relevansen som forklart tidligere.

Implementasjoner av systemet

Programmet kan prosessere informasjon som allerede er lagret i et minne, en harddisk eller server, og kjøres når ny informasjon innføres eller slettes fra informasjonsrommet, for å legge til denne nye informasjonen til databasen/indeks strukturen eller for å slette rader i henholdsvis databasen/indeksene. Et intranett kan betraktes å være et slikt informasjonsrom, og programmet vil deretter prosessere og lagre all informasjon, dokumenter, programmer osv. som eksisterer på de forskjellige serverne, arbeidsstasjoner, printere osv. som utgjør intranettet, som ekstraherte dataenheter representative for informasjonen, eller som fil baner til dokumenter eller programmer. Databasesystemet tilveiebringer et raskt og effektivt verktøy for å finne informasjonen som eksisterer i et nettverk. Programmet kan også installeres og kjøres på personlige datamaskiner som et raskt og effektivt fil-håndteringssystem eller på håndholdte elektroniske notatbøker og mobiltelefoner for å lagre og søke informasjonen som eksisterer i disse anordningene.

Eksempel 1

Typisk inneholder en telefonkatalog navn, adresse og telefonnummerinfor-masjon, men også yrke og annen ytterligere informasjon. Gule sider kan inneholde en mengde ytterligere informasjon, f.eks. fagbrev, arbeidsstokk, arbeidstimer osv. All informasjon angående en abonnent er lagret i en rad i innholdsdatabasen. Informasjonen i innholdsdatabasen prosesseres deretter og koordinat-informasjon angående hver unik dataenhet gjenfinnes og lagres i indekser satt opp i den hen-sikt som forklart over. Minst en indeks er tilordnet hver av de unike dataenhetene. De unike dataenhetene gjenfinnes også og lagres i en hovedindeks, en ordliste, sammen med koplinger (indeksidentifikatorer) til de passende hovedtabellene. Et søk utføres først i hovedindeksen, for å gjenfinne indekstabellidentifikatoren som innholder koordinatene for f.eks. den ønskede person(ene) eller bedriftene. Indekstabellen tilveiebringer umiddelbar tilgang til radene i innholdsdatabasen som inneholder den ønskede informasjon. Denne informasjonen fremvises med en gang. Som i de foreliggende online versjonene av telefonkataloger kan man f.eks. taste inn et telefonnummer og oppnå tilgang til abonnentdata eller bruke adresse-informasjon til å finne et telefonnummer.

Eksempel 2

Et eksempel på en implementering av en annen utførelsesform av den foreliggende oppfinnelsen vil nå bli beskrevet i forhold til et kjent hierarkisk kategorisystem. Informasjon inneholdt i et informasjonsrom kan også grupperes i et hierarkisk kategorisystem med underkategorier eller emner, som i Yahoo. Jo lengre ned i hierarkiet informasjon kan plasseres, jo lettere er det å gjenfinne den ønskede informasjon senere, idet informasjonen da er mer definert. Hver kategori og underkategori er beskrevet av et ord som er representativt for informasjonen, og som en bruker av systemet vil anvende hvis det søkes etter den spesielle informa-sjonene. Ruten til et spesielt emne i hierarkiet som er skapt er beskrevet av ordene som navngir kategoriene. F.eks. Science > Space > Exploration > Missions > Moon > Apollo Project > Individual Missions > Apollo 11. På denne måten skapes forskjellige søkestrenger. I denne utførelsesformen av den foreliggende oppfinnelsen er alle ordene som beskriver de forskjellige kategoriene og underkategoriene / emnene tilordnet et tall. Hver søkestreng som er mulig er derfor representert av dette tallet, som i den foreliggende oppfinnelsen er kalt et IMP-tall. IMP-tallet omfatter i den foreliggende oppfinnelsen tre siffer adskilt av en x eller punktum (.). Eksempler på forskjellige IMP-tall er vist i listen i fig. 4.1 fig. 4 er hver rad med tall, f.eks. xOO1x012x002x001x005x002x003 i den første raden et IMP-tall som representerer en spesiell søkestreng som består av 7 ord. Hvert IMP-tall representerer en viss forhåndsdefinert informasjon.

Alle de mulige søkestrengene, som akkurat beskrevet ovenfor, innføres i innholdsdatabasen (fig. 1), ett ord i hver celle, der hver rad i databasen representerer en søkestreng som forklart over. En del av en slik innholdsdatabase er vist i fig. 5 og 6. Kun den høyre delen av innholdsdatabasen er vist i fig. 5, mens en venstre del av denne spesielle innholdsdatabasen er vist i fig. 6. Søkestrengen er også representert av et spesielt IMP-tall som opptrer i kolonnen lengst til høyre i fig. 5. Hver søkestreng leses fra høyre mot venstre i fig. 5 og 6. Hvert tillagt ord til søkestrengen representerer en innsnevring av den søkte informasjonen, som kjent fra den kjente teknikk. Søkestrengene sorteres sekvensielt i alfabetisk orden. Det skal imidlertid bemerkes at de samme ordene kan opptre i forskjellige kolonner, da de samme emnene kan være gruppert i forskjellige kategorier.

IMP-tallene er vist i kolonnen til høyre i fig. 5. Her er hvert tre-sifret nummer som består av tre tall separert med-et punktum (.), og hvert IMP-tall representerer søkestrengen som kan ses på den samme raden til venstre. Den venstre siden av tabellen er ikke vist i fig. 5, som betyr at søkestrengene som er representert ved IMP-tallene med flere enn 3x3 siffer ikke er vist i sin helhet. Kun et lite antall ord er vist, men antallet kan økes til uendelig. Rader kan lett slettes og legges til innholdsdatabasen. Dette er en fordel da f.eks. URL-adresser som ikke lenger eksisterer, lett kan slettes fra systemet og nye adresser lett kan legges til.

Når man utfører et søk, skriver brukeren inn et antall ord som representerer emnet brukeren søker etter, f.eks. history moon landing. Kombinasjonen av disse tre ordene representerer en søkestreng. Det er antatt at en bruker begynner med å skrive området som den søkte informasjonen tilhører og deretter innsnevrer søket ved hvert tillagt ord. Rekkefølgen som ordene er skrevet inn i søkestrengen er derfor essensiell.

Slik det kan ses fra fig. 6 er alle cellene i databasen som ikke har blitt tilordnet et ord fylt med <NULL>. Tallene vist i den øvre raden er x-koordinater og tallet i ID-kolonnen er y-koordinater, som betyr at hver celle i innholdstabellen er representert ved et (x, y)-koordinatpar. Ordet "landing" har posisjonen representert med koordinatparene x=19 og y=85, og x=19 og y=86 i databasen i fig. 6. Da det er antatt at en bruker skriver inn søketermene iht. deres relevans for informasjonen som søkes, vil et søk som resulterer i å finne det siste ordet i den innførte søkestren-gen med den høyeste absoluttverdien av x som er mulig, være den informasjonen som er nærmest til informasjonen som ønskes av brukeren. I fig. 6 vil en spørring som inkluderer ordet "amphibious" ha søkestrengene som opptrer i radene 85 og 86 som det mest relevante resultat.

Indekser til lokaliseringer for hvert ord som opptrer i innholdsdatabasen del-vis vist i fig. 5 og 6 opprettes. En utførelsesform av en slik indeks er vist i fig. 7.1 fig. 7 er ordet "landing's" forskjellige koordinater i innholdsdatabasen gitt. x-koordinatene er i kolonnen navngitt som x, og y-koordinatene er i kolonnen navngitt som y. Koordinatparene (x, y) som representerer cellen i innholdsdatabasen der ordet "landing" opptrer, er plassert i den samme raden i indeksen i fig. 7. Fra indeksen i fig. 7 finner man at ordet "landing" opptrer i cellene i innholdsdatabasen med koordinatparene (-19, 85), (-19, 86), (-18, 90) og (-18, 91). Minustegnet indikerer at x-aksen går fra høyre mot venstre i innholdsdatabasen i fig. 5.

Forskjellige indekser eksisterer for det samme ordet, tatt i betraktning av at det samme ordet kan opptre i forskjellige posisjoner i de forskjellige søkestreng-ene. Ordet "landing" kan i en søkestreng opptre som det andre ordet, og i en annen søkestreng, fra en annen bruker, kan ordet "landing" innføres som det første ordet. En hovedindeks med alle ordene som eksisterer i innholdsdatabasen skapes derfor også, og en utførelsesform av dette er vist i fig. 8.1 kolonnen navngitt som "criteria" er ordene satt inn, ett ord i hver celle. Hver rad, f.eks. den uthevede raden med id 112, inneholder informasjon angående ordet "landing". Landing_1 i firstref kolonnen angir indeksen for ordet "landing" når det opptrer som det første ordet i en søkestreng. Indeksen er vist i fig. 9. En annen indeks, landing_2, lik den til indeksen vist i fig. 9, eksisterer for ordet "landing" når det opptrer som det andre ordet (secondref kolonnen) i en søkestreng.

Firstref-indekstabellene, slik den ene som er vist i fig. 9, sorteres iht. absoluttverdien av x-koordinatene som vist. I fig. 7 er secondref-indekstabellen først sortert iht. absoluttverdien av x-koordinatene og deretter iht. y-koordinatene.

En bruker av en elektronisk anordning som et søk i informasjonsrommet over skal utføres på, skriver inn en streng med ord som representerer den ønskede informasjonen. F.eks. ordene: history landing.

Først slås ordet "history" opp i hovedindeksen. Siden ordet opptrer først i søkestrengen benyttes firstref-kolonnen til å finne indekstabell-identifikatoren. Indeksen som inneholder (x, y)-koordinatparene for ordet "landing" benyttes deretter til å finne koordinatene til ordet "history" i innholdsdatabasen. Ordet "landing" opptrer som det andre ordet i søkestrengen. Secondref kolonnen i hovedindeksen benyttes derfor for å identifisere indeksen for å spørre etter koordinatene for ordet

"landing" i innholdsdatabasen. Indeksen landing_2 velges.

For å ha et treff må begge ordene "history" og "landing" opptre i den samme søkestrengen i innholdsdatabasen, dvs. opptre i den samme raden. Når koordinatene for det første ordet "history" og "landing" har blitt identifisert, sammenlignes y-koordinatverdiene i de to valgte indeksene. Alle koordinatparene med de samme

y-koordinatverdiene velges deretter. Denne gruppen av treff sorteres iht. x-koordinatverdiene, for å finne informasjonen som betraktes som mest relevant for bruke-

ren. Denne trefflisten kan fremvises på en fremvisningsanordning iht. relevans, eller informasjonen i listen kan automatisk åpnes og fremvises for brukeren. Hvis kun trefflisten fremvises, kan brukeren velge å åpne informasjonen. Trefflisten vil fremvise dataenhetene inneholdt i alle de valgte radene i innholdsdatabasen. Dette er ansett å støtte brukeren i å gjøre det best mulige valget. Hvis ingen av y-koordinatene for ordene er identiske, utføres en beregning for å finne informasjonen som har den høyeste relevansen.

Informasjonen presenteres nesten med en gang for brukeren, med den mest relevante informasjonen fremvist først, og viser også søkestrengen som er plukket ut som et resultat av de innførte ordene.

I eksempelet over utføres søket kun i kategorier. Følgelig, kun kategoriene som er valgt gjennom søkeprosedyren fremvises. Dette er kalt et kategorisøk. Kun informasjonen som er inneholdt i den søkte databasen fremvises. For å være i stand til å utføre et metasøk, prosesseres og struktureres informasjonen som er inneholdt i hver kategori som forklart over. Anta at en bruker taster inn ordene "james brown". Hvis disse ordene ikke kan finnes i kategori-databasen/indekssys-temet, utføres et søk i databasen/indekssystemet for postene inneholdt i hver kategori. Hvis en slik post finnes, åpnes umiddelbart informasjonen representert ved den spesielle posten og presenteres for brukeren. Dette eksemplifiserer et annet aspekt av denne spesielle database/indeksstrukturen. Data gjenfinnes og fremvises iht. typen av den informasjon som er prosessert, strukturert og lagret i det oppfunnede database/indekssystemet, mens tidligere kjente systemer utfører søk og fremviser søkeresultatene iht. den spesielle søkemotoren som benyttes.

Søkene utføres kun i strukturerte databasessystemer og indekser, slik som kategoriene i Yahoo, eller i et hvilket som helst biblioteksystem. Søk utføres ikke direkte i informasjonen som eksisterer i informasjonsrommet. Søkene er utført på forhånd når informasjonen prosesseres og de forskjellige indeksene og innholdsdatabasen skapes. Da informasjonen inneholdt i informasjonsrommet kan betraktes som kun representert ved koordinater, og i noen utførelsesformer også mulig-ens ved IMP-tall, blir enhver beregning utført av en prosessor for å sammenligne, beregne relevans osv. gjort lettere. Bruken av tabeller og koordinater tilveiebringer et søkeprinsipp som lett kan tilpasses mellom språk på kjente måter.

Ved å ha beskrevet forskjellige utførelsesformer av oppfinnelsen vil det være tydelig for de faglærte i teknikken at andre utførelsesformer som omfatter konseptene kan benyttes. Disse og andre eksempler på oppfinnelsen illustrert over er kun tenkt som eksempler og det faktiske omfanget av oppfinnelsen skal bestemmes fra de følgende kravene.

Claims

1. System for å strukturere digitalt lagret informasjon, der informasjonen er anordnet i en database omfattende et antall celler anordnet i rader og kolonner for å romme dataenheter som representerer informasjonen, der kun én dataenhet kan lagres i hver celle, og der dataenhetene inneholdt i cellene i én rad i databasen ut-gjør en viss informasjon, idet systemet er inkludert i et dataprosesseringssystem, karakterisert ved : - en indekstabell for hver unike dataenhet som opptrer i databasen, idet hver indekstabell tilveiebringer informasjon angående alle posisjoner/lokaliseringer for den unike dataenheten i databasen; og - en hovedindeks som opplister én gang alle de unike dataenhetene i databasen sammen med en tilsvarende indekstabell-identifikator, idet indekstabell-identifikatoren tilveiebringer en kopling til den tilsvarende indekstabellen for den spesielle dataenheten.

2. System ifølge krav 1, der lokaliseringene er uttrykt ved koordinater som definerer cellene i databasen.

3. System ifølge krav 2, hvor koordinatene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.

4. System ifølge krav 3, hvor koordinatparene i indekstabellen først er sortert i henhold til absoluttverdien av x-koordinatene og for det andre i henhold til verdien av y-koordinaten.

5. System ifølge krav 3, hvor dataenhetene med de høyeste absoluttverdiene av x har høyere relevans enn dataenhetene med lavere absoluttverdier av x.

6. System ifølge krav 1, hvor hver rad i databasen omfatter en adresse/kopling til den digitalt lagrede informasjonen representert ved dataenhetene inneholdt i hver rad.

7. System ifølge krav 1, hvor dataenhetene inneholdt i celler i én rad i databasen representerer en søkestreng assosiert med en URL-adresse.

8. System ifølge krav 1, hvor dataenhetene inneholdt i cellene i én rad i databasen er assosiert med en filbane.

9. System ifølge krav 1, hvor den digitalt lagrede informasjonen representerer en telefonkatalog.

10. Fremgangsmåte i et dataprosesseringssystem for å strukturere digitalt lagret informasjon, idet fremgangsmåten omfatter: - å prosessere informasjonen i en dataprosesseringsenhet og å lagre dataenheter som er representative for informasjonen i cellene i en database, der cellene i databasen er anordnet i rader og kolonner, der alle cellene i den samme raden i databasen utgjør en viss informasjon; karakterisert ved : - å skape minst én indekstabell for hver unike dataenhet som opptrer i databasen omfattende informasjon om alle lokaliseringer for den unike dataenheten i databasen; og - å skape en hovedindeks som opplister én gang alle de unike dataenhetene som opptrer i databasen sammen med en tilsvarende indekstabell-identrfikator som tilveiebringer en kopling til den tilsvarende indekstabellen for en unik dataenhet.

11. Fremgangsmåte ifølge krav 10, hvor prosesseringstrinnet omfatter å indeksere den lagrede informasjonen ved å benytte en indekseringsagent.

12. Fremgangsmåte ifølge krav 10, omfattende å uttrykke lokaliseringene ved koordinatverdier som definerer cellene i databasen.

13. Fremgangsmåte ifølge krav 12, hvor koordinatverdiene er (x, y)-koordinatpar som representerer henholdsvis kolonnene og radene i databasen.

14. Fremgangsmåte ifølge krav 13, omfattende å først sortere koordinatparene i indekstabellen i henhold til absoluttverdiene av x-koordinatene og for det andre i henhold til y-koordinatverdiene.

15. Fremgangsmåte ifølge krav 10, omfattende å prosessere informasjonen og å anordne dataenhetene som er representative for informasjonen i databasen på en slik måte at dataenhetene tilordnet høye absoluttverdier av x-koordinatene er mer deskriptive for den representerte informasjonen enn dataenhetene tilordnet lavere absoluttverdier av x-koordinatene.

16. Fremgangsmåte ifølge krav 10, hvor dataenhetene er nøkkelord som beskriver den digitalt lagrede informasjonen.

17. Fremgangsmåte ifølge krav 16, hvor nøkkelordene inneholdt i celler i hver rad i databasen utgjøren søkestreng, og der fremgangsmåten omfatter å skape en indekstabell for hver posisjon et unikt nøkkelord opptrer i søkestrengene, og å skape en tilsvarende indekstabell-identifikator assosiert med nøkkelordet i hovedindeksen.

18. Fremgangsmåte ifølge krav 10, hvor en ressursindikator for den prosesserte informasjonen er inkludert i hver rad i databasen, idet ressursindikatoren tilveiebringer en kopling til den digitalt lagrede informasjonen.

19. Fremgangsmåte i et dataprosesseringssystem for å søke i digitalt lagret informasjon, idet informasjonen er strukturert i et system i henhold til et av kravene 1 -9, og der fremgangsmåten omfatter: - å innføre en ønsket informasjon gjennom et grensesnitt; - å søke i hovedindekstabellen for å velge dataenheter som svarer til den ønskede informasjonen og for derved å velge indekstabellen - å søke i de valgte indekstabellene for å velge minst én lokalisering til en celle i databasen som inneholder den ønskede informasjonen; og - å velge raden i databasen som cellen er lokalisert i og å gjenfinne den ønskede informasjon.

20. Fremgangsmåte ifølge krav 19, hvor den ønskede informasjon er uttrykt i form av en ordnet søkestreng av nøkkelord, idet fremgangsmåten omfatter - å bestemme ordenen til nøkkelordet i sekvensen av nøkkelord, og å velge indekstabeller som svarer til både den ønskede informasjonen og ordenen til nøk-kelordet i den innførte søkestrengen.

21. Fremgangsmåte ifølge krav 19, omfattende å innføre den ønskede informasjonen gjennom et grensesnitt i en søkemotor.

22. Fremgangsmåte ifølge krav 19, omfattende å fremvise den gjenfunnede informasjonen i en fremvisningsanordning.

23. Datamaskinprogramprodukt for et dataprosesseringssystem, omfattende et datamaskinlesbart medium, omfattende datamaskinlesbare programanordninger, som når lastet inn i et internt minne i et dataprosesseirngssystem, får dataprosesseringssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.

24. Datamaskinprogramprodukt for et dataprosesseirngssystem, omfattende datamaskinlesbare kodeanordninger som, når lastet inn i et internt minne i et dataprosesseringssystem, får dataprosesseirngssystemet til å utføre fremgangsmåten i et av kravene 10-18 eller 19-22.

25. Anvendelse av systemet ifølge et av kravene 1-7 og fremgangsmåtene ifølge et av kravene 10-18 eller 19-22 i en søkemotor for å søke på Internet.

26. Anvendelse av systemet i henhold til et av kravene 1 -9 og fremgangsmåtene i henhold til et av kravene 10-18 eller 19-22 i en håndholdt elektronisk anordning omfattende en prosessor og et minne.

27. Anvendelse i henhold til krav 26, hvor den elektroniske anordningen er mobiltelefon, en WAP-telefon eller bærbar datamaskin.

28. Anvendelse av systemet ifølge krav 1 og fremgangsmåtene ifølge kravene 10 eller 19 i en datamaskin for å gjenfinne filer i en datalagringsanordning.