SE520533C2

SE520533C2 - Metod, datorprogram och system för indexering av digitaliserade enheter

Info

Publication number: SE520533C2
Application number: SE0100856A
Authority: SE
Inventors: Robert Risberg; Nils Andersson
Original assignee: Picsearch Ab
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2003-07-22
Also published as: US7516129B2; US20070143265A2; US20040098399A1; WO2002073463A1; US20060190445A1; SE0100856D0; US7539675B2; EP1377915A1; SE0100856L

Description

520 535 problematisk. Diverse försök att lösa detta problem har emellertid redan gjorts.

Exempelvis det amerikanska patentet 6,084,595 beskriver en indexeringsmetod för att generera en sökbar databas över bilder, så att en bildsökningsmotor kan finna innehållsbaserad information i bilder, som matchar en användares sökfråga.

Särdragsvektorer extraheras från visuella data i bilderna.

Primitiver, såsom färg, textur och form utgör parametrar som kan utvinnas ur bilderna. En särdragsvektor baseras på åtminstone en sådan primitiv. Särdragsvektorerna som associeras med bilderna lagras sedan i en särdragsdatabas. l samband med att en sökfråga ställs till sökmotorn specificeras en söksärdragsvektor och ett tröskelavstånd, som indikerar det maximala avståndet som år av intresse för sökfrågan. Alla bilder som har särdragsvektorer inom det avståndet kommer att identifieras av sökfrågan. Ytterligare information beräknas från den särdragsvektor som är associerad med varje bild, vilken kan användas som ett sökindex.

Ett alternativt bildsöknings- och åtkomstsystem beskrivs i den internationella patentansökan WO99/22318. Systemet innefattar en sökmotor, som är kopplad till en bildanalysator vilken i sin tur har tillgång till en lagringsanordning. Särdragsmoduler definierar bestämda regioner i en bild samt mätningar att genomföra på pixlar inom de definierade regionerna och eventuella angrän- sande regioner. Särdragsmodulerna anger på så vis parametrar och karaktäristika vilka är väsentliga för en viss bildmatchning / sökrutin. Som ett resultat därav möjliggörs en förhållandevis snabb bildjämförelse.

Den internationella patentansökan WO00/33575 beskriver en sökmotor för video och grafik. Dokumentet föreslår att identi- fierare alstras och sparas genom avsökning av en area inom en webbsida i anslutning till en grafisk fil eller en videofil efter sökbara identifieringstermer. Ytor på webbsidor nära länkar till grafik eller videofiler avsöks också efter sådana sökbara identi- 10 15 20 25 30 520 533 fieringstermer. De påträffade identifieringstermerna lagras sedan i en databas med referenser till motsvarande grafik och videofiler. En användare kan finna grafik eller videofiler genom att utföra en sökning i databasen.

Sökresultatet uppnår emellertid i allmänhet fortfarande inte en tillräckligt hög kvalitet, eftersom identifieringstermernas preci- sionen inte är tillfredsställande. Därför kan relevanta filer hamna förhållandevis långt ned i träfflistan eller helt missas vid sök- ningen.

SAMMANFATTNING AV UPPFINNINGEN Syftet med uppfinningen är därför att mildra ovanstående problem och sålunda tillhandahålla en förbättrad lösning för att finna relevanta digitaliserade enheter, såsom bilder videofiler eller audiofiler, medelst en automatisk sökning genomförd med avseende på en stor och förhållandevis ostrukturerad data- mängd såsom Internet.

Enligt en aspekt av uppfinningen uppnås detta syfte genom den inledningsvis beskrivna metoden för att indexera digitaliserade enheter, vilken kännetecknas av generering av indexinformation för en viss digitaliserad enhet på basis av åtminstone en rank- parameter. Rankparametern härleds från grundinformation, som i sin tur hänför sig till åtminstone ett utmärkande särdrag och åtminstone en lokaliseringsparameter för var och en av de digi- taliserade enheterna. Rankparametern indikerar en relevansgrad för åtminstone ett utmärkande särdrag med avseende på varje digitaliserad enhet.

Enligt en annan aspekt av uppfinningen uppnås syftet med hjälp av ett datorprogram, vilket är direkt laddbart till internminnet i en dator och vilket innefattar mjukvara för att styra metoden, som beskrivs i det ovanstående stycket då programmet körs i en dator. 10 15 20 25 30 520 533 Enligt ytterligare en aspekt av uppfinningen uppnås syftet genom ett datorläsbart medium på vilket ett program finns lagrat, som är ägnat att förmå en dator att utföra metoden, som beskrivs i det näst närmast ovanstående stycket.

Enligt ännu en aspekt av uppfinningen uppnås syftet genom en databas för lagring av indexinformation beträffande digitalise- rade enheter, vilka har genererats enligt den föreslagna metoden.

Enligt ytterligare en annan aspekt av uppfinningen uppnås syftet genom det inledningsvis beskrivna server/klientsystemet för sökning efter digitaliserade enheter i en datamängd, vilket kännetecknas av att en indexdatabas i server/klientsystemet är organiserad så att lndexinformationen däri, för en viss digita- liserad enhet, innefattar åtminstone en rankparameter. Rankpa- rametern indikerar en relevansgrad för åtminstone ett utmär- kande särdrag med avseende på den digitaliserade enheten.

Uppfinningen erbjuder ett effektivt verktyg för att finna högrele- vant icke-textmaterial på Internet med hjälp av en sökfråga formulerad itextuella termer. En fördel som uppnås därigenom är att webbsidor, eller motsvarande resurser, där materialet är befintligt inte behöver innehålla någon textinformation för att åstadkomma en träff.

Detta är en speciellt önskat egenskap i förhållande till de kända lösningarna, eftersom ett eventuellt textmaterial i anslutning till det icke-textmässiga materialet i många fall omfattar ganska ord knappa och kontraintuitiva textavsnitt.

En speciell signatur för varje unik digitaliserad enhet, som an- vänds vid lösningen enligt uppfinningen gör det möjligt att eliminera eventuella dubbletter av digitaliserade enheter i en genom en sökning erhållen träfflista. Detta ökar naturligtvis ytterligare sökkvaliteten. 10 15 20 25 520 Sšäuziwg Ü s: ¿¿ sm.

KORT BESKRIVNING AV RITNINGARNA Uppfinningen kommer nu att förklaras närmare med hänvisning till föredragna utföringsformer, vilka beskrivs som exempel, och med referens till de bifogade ritningarna.

Figur 1 illustrerar genereringen av en första rankkomponent i en föreslagen rankparameter enligt en utföringsform av uppfinningen, Figur2 illustrerar en förbättring av den första rankkompo- nenten enligt en utföringsform av uppfinningen, Figur 3 illustrerar genereringen av en andra rankkomponent i den föreslagna rankparametern enligt en utförings- form av uppfinningen, Figur4 demonstrerar en exempelstruktur för ett sökresultat enligt en utföringsform av uppfinningen, Figur5 visar ett blockschema over ett server/klientsystem enligt en utföringsform av uppfinningen, och Figur6 illustrerar, med hjälp av ett flödesschema, en utfö- ringsform av metoden enligt uppfinningen DETALJERAD BESKRIVNING AV FÖREDRAGNA UTFÖRINGSFORMER AV UPPFINNINGEN Uppfinningen syftar till att förbättra relevansen hos förekom- mande utmärkande särdrag, exempelvis nyckelord, som rela- teras till digitaliserade enheter och därmed öka chanserna att finna relevanta enheter vid framtida sökningar. l syfte att uppnå detta mål allokeras åtminstone en rankparameter till var och en av de utmärkande särdragen som är relaterade till en digitali- serad enhet. Den nedan beskrivna utföringsformen av uppfin- ningen refererar till digitaliserade enheter i form av bilder. De digitaliserade enheterna kan emellertid lika väl innefatta andra 10 15 20 25 30 520 533 typer av enheter som är möjliga att unikt identifiera, såsom audiofiler eller videosekvenser. Dessutom kan de digitaliserade enheterna antingen utgöra samplade representationer av ana- loga signaler eller vara rent digitalt alstrade enheter.

Figur 1 visar fyra kopior cd - cd av en och samma bild n som finns lagrade på olika ställen i en datamängd, exempelvis i ett internätverk, såsom Internet. Bildens n identitet kan fastställas genom en så kallad bildsignatur, som i sin tur kan bestämmas från en totalsumma av samtliga pixelvärden i bilden. En motsva- rande identitet kan naturligtvis fastställas även för en audiofil eller en videofil.

Kopiorna cd - cd av bilden n grupperas ihop logiskt i ett kluster Cd. Varje kopia cd - cd antas vara associerad med åtminstone ett utmärkande särdrag i form av ett nyckelord. Typiskt är nyckelorden data som inte nödvändigtvis visas tillsammans med bilden. Tvärtom kan nyckelorden inhämtas från datafält som normalt är gömda för besökarna till en viss webbsida. Nyckel- orden kan alltså hämtas från HTML-etiketter, såsom Meta, /mg eller Title (HTML = HyperText Mark-up Language).

I detta exempel associeras en första kopia cd av bilden n med nyckelorden kd, kg, kd, kd upp till kid, en andra kopia cb asso- cieras med nyckelorden k3, kd, ky, kdg upp till kid, en tredje kopia cd associeras med nyckelorden kd, k3, kd, kd up to kjd, och en fjärde kopia cd associeras med nyckelorden k2, kd, kg, k12 upp till kJ-d. l syfte att avgöra relevansen hos ett visst nyckelord, säg kd, med avseende på bilden n beräknas en första rankkomponent I",,(k3) enligt uttrycket: Z klß Pn(k3) = iC H där k. representerar en summa av samtli a förekomster av > |,3 l nyckelordet kd i klustret Cd och |Cd| anger ett totalt antal nyckelord i klustret Cd, det vill säga summan av unika nyckelord 10 15 20 25 30 520 53§;¿¿;;g;;¿;xnh 7 plus förekommande kopior av detsamma.

Det är emellertid ganska vanligt att ett visst nyckelord, exempelvis k3, associeras med många olika bilder. Detta illustreras i figur 2. Här innehåller ett första kluster C1 nio kopior C11 - C19 av en första bild n1, ett andra kluster C2 innehåller fyra kopior C21 - C24 av en andra bild n2 och ett tredje kluster C3 innehåller en kopia C31 av en tredje bild n3. Nyckelordet k3 förekommer två gånger (i samband med C11 och C12) i det första klustret C1, tre gånger (i samband med C21, C22 och C24) i det andra klustret C2 och en gång (i samband med C31) i det tredje klustret C3. Kopian C12 förekommer två gånger i det första klustret C1, å ena sidan förknippat med nyckelordet k3, och å andra sidan förknippat med ett annat nyckelord. l bägge fallen rör det sig emellertid om samma bild.

Den första rankkomponenten F för nyckelordet k3 kan nu förbättras med hjälp av an siffra som reflekterar styrkan i kopplingen mellan nyckelordet k3 och bilderna n1 - n3 (eller klustrena C1 - C3) till vilka det har associerats. Nyckelordet k3 förefaller vara starkast kopplat till den andra bilden n2, eftersom det är associerat med det största antalet kopior av denna bild, nämligen C21, C22 och C24. På motsvarande sätt har nyckelordet k3 en näst starkast koppling till den första bilden n1 (där det förekommer för två av nio kopior), och en tredje starkast koppling till den tredje bilden n3. En normalisering med avseende på det största klustret (det vill säga det kluster som innefattar flest kopior) kan användas för att modellera denna aspekt. I det här exemplet inkluderar det största klustret C1 nio kopior C11 - C13. Därför erhålls en normalisering av nyckelordet k3 med avseende på bilderna n1 - n3 genom multiplicering av den första rankkomponenten l",1(k3) med det respektive antalet förekomster i varje kluster C1 - C3 dividerat med nio. Det generella uttrycket blir naturligtvis: 10 15 20 520 533%3#âßJ4F¿*ï 8 EM igni mi? max I Z ku = = wèmax där lCmax| är det största antalet nyckelord i ett kluster för den bild som inkluderar det relevanta nyckelordet kj, exempelvis k3.

Den första rankkomponenten F görs mera användbar för automatisk behandling om den också normaliseras, så att den högsta första rankkomponenten F för ett visst nyckelord är lika med 1. Detta åstadkoms genom att dividera uttrycket ovan med följande nämnare: (Zki'j)max,kj lC max I där (2ki_j)max,kj betecknar antalet förekomster av nyckelordet k; i det kluster, som innefattar flest förekomster av detta nyckelord kj. l det aktuella exempel är exempelvis (2ki_3)max,k3 lika med 3, eftersom nyckelordet k3 förekommer flest gånger i det andra klustret G2, nämligen tre gånger.

Således modelleras med fördel den första rankkomponenten 1",1(k,-) för en bild n med avseende på nyckelordet kj av det förenklade uttrycket: Zktt rr1(kj) t kiybmax, kj där zkm representerar summan av samtliga förekomster av nyckelordet k,- klustret Cn och (Zki,j)max,kj är antalet före- komster av nyckelordet k; i det kluster, som inkluderar flest förekomster av detta nyckelord kj. l syfte att förbättra sökprestandan i en databas innefattande indexerade element vilka refererar till digitaliserade enheter är 10 15 20 25 30 520 535§:y@;;:x¿lﬂ det föredraget att konstruera ett inverterat index över nyckelord, så att en uppsättning första rankkomponenter I" istället uttrycks för varje nyckelord kj. Alltså, enligt en föredragen utföringsform av uppfinningen, är formatet för den första rankkomponenten k¿:{I“,,}. Följaktligen erhåller nyckelordet k3 i ovanstående exempel följande uppsättning första rankkomponenter: k3I{I“2=1;1"1=2/3;1"3=1/3} Den första rankkomponenten 1",,(k,-) utgör i sig en skaplig av- spegling av relevansen hos ett nyckelord k] med avseende på bilden n. En mera exakt siffra kan emellertid erhållas genom att kombinera den första rankkomponenten F,,(k,-) med en föresla- gen andra rankkomponent H,,(kj), vilken kommer att beskrivas nedan.

Figur 3 illustrerar hur den andra rankkomponenten H,,(kj) kan genereras enligt en utföringsform av uppfinningen.

En digitaliserad enhet, exempelvis en bild 301, förutsätts vara associerad med utmärkande särdrag kj, kz och kg, till exempel i form av nyckelord, vilka påträffas på varierande positioner P i ett beskrivande fält F. Varje utmärkande särdrag kj - k3 antas ha en relevans med avseende på den digitaliserade enheten 301 som beror av den position P i det beskrivande fältet F vid vilken det påträffas. En viktfaktor w1 - wp för varje position 1 - p i det beskrivande fältet F avspeglar detta. I det illustrerade exemplet är ett första utmärkande särdrag k1 och ett andra utmärkande särdrag k2 lokaliserade vid en position 1 i det beskrivande fältet F. Båda dessa utmärkande särdrag k1 och k; förekommer ett antal m vid denna position. Det finns inga utmärkande särdrag vid en andra position 2. Olika slags utmärkande särdrag kan emellertid vara lokaliserade vid positionerna 3 till p-2 (visas ej).

Fältet F innehåller m2 kopior av det första utmärkande särdraget kj vid en position p-1 och m kopior av det andra utmärkande särdraget k2 respektive 113 kopior av ett tredje utmärkande särdrag k3 vid en position p. 10 15 20 25 30 520 535 g 1.0, t..

Alltså, beroende på positionen 1 - p vid vilken ett visst utmärkande särdrag k1 - k3 påträffas tilldelas det utmärkande särdraget k1 - ka, en bestämd viktfaktor w1 - wp. Dessutom bestäms en relevansparameter s1 - s., för varje utmärkande särdrag k1 - ka, vilken beror av hur många gånger 111 - v13 det utmärkande särdraget förekommer vid denna position 1 - p i förhållande till det totala antalet utmärkande särdrag vid denna position 1 - p.

Både det första utmärkande särdraget k1 och det andra utmärkande särdraget k2 erhåller således samma relevans- parameter s1, vilken kan beräknas som s1 = 111/(2n1) = 1/2 vid positionen 1. Denna parameter s1 viktas dessutom med en viktfaktor w1 med avseende på den digitaliserade enheten 301.

Samma beräkningar genomförs för alla positionerna 2 - p i syfte att erhålla relevansparametrar s1 - s4 för dessa positioner.

Alternativt kan relevansparametern sp bestämmas som sp(k,-..;)=1-yZki, där yZki representerar ett ”straff” som avtar med relevansen för ett utmärkande särdrag kj vid en position P, för varje utmärkande särdrag vid denna position, som är annorlunda än detta utmärkande särdrag kj. Naturligtvis är även andra formler för bestämning av relevansparametern sp tänk- bara.

Hur som helst bestäms ett kombinerat mått, vilket till fullo beski- ver förhållandet mellan utmärkande särdrag kj och digitaliserade enheter n. Uttrycket: (Wi ' si; )2 H(n, kj) = ' P =1 w? EM» utgör en avspegling av relevansen hos ett utmärkande särdrag k,- med avseende på en viss digitaliserad enhet n. Variabeln w; anger viktfaktorn för en position i och variabeln sr,- anger relevansen för ett utmärkande särdrag k,- vid positionen i. 10 15 520 553ﬂwn yyﬁtfﬁ 11 Analogt med den första rankkomponenten F, är det föredraget att även normalisera och konstruera ett inverterat index över nyckelord. Den andra rankkomponenten H ges således ett format kJ-:{Hn}, där den första komponenten HH för ett visst utmärkande särdrag ki alltid är lika med 1.

Tabell 1 nedan visar ett explicit exempel över viktfaktorer w. för bestämda positioner P i ett beskrivande fält F relaterat till en bild E_0_S_iI_i<_>n(P) ELIHF) lwp) 1 pageSite 50 2 pageDir 40 3 pageName 50 4 pageTitle 80 5 pageDescription 90 6 pageKeywords 90 7 pageText 20 8 imageSite 50 9 imageDir 60 10 imageName 100 11 imageAlt 100 12 imageAnchor 80 13 imageCenterCaption 90 14 imageCellCaption 90 15 imageParagraphCaption 90 Tabell 1 Enligt en utföringsform av uppfinningen används den andra rankkomponenten Hn(kj) som ett alternativ till den första rank- komponenten I",,(k,-). Den andra rankkomponenten H,,(k,~) utgör nämligen i sig också en god beskrivning av relevansen för ett nyckelord k] med avseende på bilden n.

Enligt en föredragen utföringsform av uppfinningen slås emellertid den första rankkomponenten P samman med den andra rankkomponenten I] till en kombinerad rankkomponent A 10 15 20 25 30 520 5ss__,ﬁ,t,¿ 1I2H enligt uttrycket: A = lÜXÜZ 'Wßl-Üz otz + [52 där ot är en första sammanslagningsfaktor och ß är en andra sammanslagningsfaktor, exempelvis 09131 and Osßsl Vilket annat intervall som helst är emellertid tänkbart för samman- slagningsfaktorerna oi; ß.

Slutligen, och i likhet med den första respektive den andra komponenten I" and H, är det föredraget att normalisera och konstruera ett inverterat index över nyckelord, så att det erhåller ett format k¿:{An}, där den första komponenten An för ett visst utmärkande särdrag k; alltid är lika med 1.

När alla, eller åtminstone en tillräckligt stor andel, av de digitaliserade elementen i datamängden har relaterats till åtminstone ett utmärkande särdrag och en motsvarande rank- komponent / parameter (F, H or A), skapas en indexdatabas, vilken också åtminstone inkluderar ett fält innefattande en eller flera lokaliseringsparametrar som indikerar var den digitaliserade enheten kan hämtas. Dessutom är det föredraget om indexdatabasen innehåller en intuitiv representation av den digitaliserade enheten. Om den digitaliserade enheten är en bild utgör en tumnagelsbild en lämplig representation. Om emellertid den digitaliserade enheten är en audiofil eller en multimediafil kanske istället andra representationer är användbara, såsom i form av logotyper eller liknande symboler.

Figur 4 demonstrerar ett exempel på strukturen hos ett sökre- sultat enligt en utföringsform av uppfinningen. Sökresultatet listas i en tabell 400, där en första kolumn E innehåller identi- teten lD1 - lDm för de enheter som matchade sökkriteriet tillräck- ligt väl. En andra kolumn K innehåller en förteckning över rankade utmärkande särdrag A(k1) - A(k23) för varje digitaliserad enhet. En tredje kolumn R innehåller en karaktäristisk representation (eller ett illustrerande element) r, - rm för enhe- 10 15 20 25 30 35 520 533 13 ten och en fjärde kolumn L innehåller en lokaliseringsparameter l1 - lm till en motsvarande ”komplett version” av enheten. Om datamängden är ett internätverk är normalt sett lokali- seringsparametern l1 - lm en URL (Universal Resource Locator).

Vilken annan slags adress som helst är emellertid lika tänkbar.

Naturligtvis kan sökresultatstrukturen även innefatta godtyckliga ytterligare fält. En reducerad uppsättning fält kan sedan presenteras för en användare. Exempelvis kan det vara tillräck- ligt att endast visa representationen r1 - rm och / eller ett be- gränsat antal utmärkande särdrag, med eller / utan deras res- pektive rankning.

Figur 5 visar ett blockschema över ett server/klientsystem enligt en utföringsform av uppfinningen, genom vilket data såväl kan indexeras, sökas som hämtas. Digitaliserade enheter lagras i en stor och förhållandevis ostrukturerad datamängd 510, exempelvis på internet. Ett indexeringsinmatningsorgan 520 samlar in information lDn, {K}; L från datamängden 510 med avseende på digitaliserade enheter däri. Informationen lDn, {K}; L inkluderar ett identitetsfält lDn som unikt identifierar den digitaliserade enheten E, en uppsättning utmärkande särdrag {K} och en lokaliseringsparameter L. Ytterligare data, såsom filstorlek och filtyp kan också samlas in av indexerings- inmatningsorganet 520. Det är irrelevant exakt hur informationen lDn, {K}; L matas in i indexeringsinmatningsorganet 520. Enligt en föredragen utföringsform av uppfinningen samlar emellertid en automatisk datainsamlingsenhet 521, exempelvis en sökrobot, l indexeringsinmatningsorganet 520 regelbundet ihop C informationen lDn, {K}; L så snart som möjligt efter det att nya objekt läggs till eller efter det att redan lagrade objekt har uppdaterats. En indexgenerator 522 i indexeringsinmatnings- organet 520 skapar indexinformation IE på basis av informa- tionen lDn, {K}; L enligt de ovan föreslagna metoderna. En indexdatabas 530 lagrar indexinformationen IE på ett sökbart format, vilket åtminstone är anpassat till funktionen hos en sök- motor 540. 10 15 20 25 30 35 520 sas M Mk En eller flera användarklientterminaler 560 erbjuds ett sökgräns- snitt mot indexinformationen IE i indexdatabasen 530 via ett användarklientgränssnitt 550. En användare kan därmed mata in en sökbegäran Q, exempelvis muntligt via ett röstigenkännings- gränssnitt, eller genom tangentinmatning via en användarklient- terminal 560. Företrädesvis, men inte nödvändigtvis, omformu- lerar användarklientgränssnittet 550 sökbegäran Q till en sökin- struktion S, som är anpassad till arbetsprincipen för sökmotorn 540. Sökmotorn 540 mottar sökinstruktionen S och utför en mot- svarande sökning S' i indexdatabasen 530.

Förekommande poster i databasen 530 som matchar sökinstruk- tionen S tillräckligt väl sorteras ut och returneras som en träfflista {H} över digitaliserade enheter E till användarklient- gränssnittet 550. Om så är nödvändigt omformulerar an- vändarklientgränssnittet 550 träfflistan {H} till ett sökresultat med en struktur H(R, L), som är bättre anpassad till användar- klientterminalen 560. Träfflistan {H} har med fördel den allmän- na struktur som visas i figur 4. Sökresultatet H(R, L) som presenteras via användarklientterminalen 560 kan dock ha vilken annan struktur som helst som befinns vara lämplig för den aktuella tillämpningen. Om sökbegäran Q innehåller fler än en sökterm (eller utmärkande särdrag) har det visat sig att sökresultatet H(R, L) erhåller ett önskat format då varje sökterm i träfflistan {H} normaliseras innan det presenteras för använ- daren, så att en första kombinerad rankparameter An för varje term är lika med 1. Exempelvis en träfflista {H} som är resultatet av en sökbegäran Q = “ferarri 550” normaliseras så att den första kombinerade rankparameter An = 1 både med avseende på “ferarri” och med avseende på “550”. Eventuella ytterligare kombinerade rankparametrar Am för respektive sökterm kan naturligtvis ha godtyckligt lägre värde beroende på resultatet av sökningen.

Den signatur som associeras med varje unik digitaliserad enhet gör det möjligt att eliminera eventuella dubbletter av digitali- serade enheter i sökresultatet H(R, L). En sådan elimination 10 15 20 25 30 520 553 : 1.5 , åstadkommer ett sökresultat H(R, L) med en mycket hög kvalitet och relevans.

Ett minimikrav är att data som sänds till en användarklient- terminal 560 inkluderar en karaktäristisk representation R av den digitaliserade enheten i träfflistan {H} och motsvarande lokaliseringsparametrar L, exempelvis URL, för att indikera åtminstone en lagringsplats i datamängden 510. Den sist- nämnda ger användaren åtminstone en teoretisk möjlighet att hämta kompletta versioner av de digitaliserade enheterna. I praktiken kan emellertid åtkomsten vara begränsad på olika sätt, exempelvis genom upphovsrättsskydd och därför fordra inköp av de relevanta rättigheterna.

Enheterna 510 - 560 kan antingen vara fysiskt separerade från varandra eller vara samlokaliserade i godtycklig kombination. l syfte att sammanfatta kommer nu en metod för att generera ett sökbart index över digitaliserade enheter enligt en utföringsform av uppfinningen att beskrivas med hänvisning till flödesschemat i figur 6.

Ett första steg 601 inbegriper inmatning av grundinformation innehållande ett eller flera utmärkande särdrag relaterade till digitaliserade enheter i en datamängd. Ett följande steg 602 alstrar rankparametrar för var och en av de digitaliserade enhe- terna på basis av den inmatade informationen. Sedan genererar ett steg 603 ett sökbart index över rankparametrar och slutligen lagras det sökbara indexet i en sökbar databas i ett steg 604.

Samtliga de processteg, såväl som godtycklig delsekvens av steg, vilka beskrivits med hänvisning till figur 6 ovan kan styras av ett datorprogram, som är direkt laddbart till internminnet i en dator, som innefattar lämplig mjukvara för att styra de nödvändiga stegen när programmet körs på datorn. Datorpro- grammet kan även sparas på godtyckligt lagringsmedium.

Begreppet ”omfattar/omfattande” då det används i denna 520 533 v 16... beskrivning anger närvaron av de nämnda särdragen, heltalen, stegen eller komponenterna. Dock utesluter begreppet inte närvaro eller tillägg av ett eller flera ytterligare särdrag, heltal, steg eller komponenter.

Uppflnningen är inte begränsad till de utföringsformer, som beskrivits med hänvisning till figurerna utan kan varieras fritt inom omfånget hos patentkraven.

Claims

10 15 20 25 30 520 533 17 Patentkrav

1. En metod för att indexera digitaliserade enheter (E) i en datamängd (510) innefattande: inmatning av grundinformation (lDn, {K}, L) beträffande åt- minstone ett utmärkande särdrag ({K}) och åtminstone en loka- liseringsparameter (L) för varje digitaliserad enhet (E) i en upp- sättning av enheter ur datamängden (510), generering av sökbar indexinformation (IE) relaterad till de digitaliserade enheterna (E) i uppsättningen på basis av grund- informationen (lDn, {K}, L), och lagring av indexinformationen (lE) i en indexdatabas (530), kännetecknad av generering av indexinformationen (IE) för en viss digitaliserad enhet (E: IDE) pá basis av åtminstone en rankparameter (A(k3), A(k5); A(k19)) härledd ur grundinformationen (IDE, {K}, L), där den åtminstone en rankparametern (A(k3), A(k5); A(k19)) indikerar en relevansgrad för åtminstone ett utmärkande särdrag (k3, k5; k19) med avseende på den digitaliserade enheten (E: lDn).

2. En metod enligt krav 1, kännetecknad av att den åtminstone en rankparametern (A(k3), A(k5); A(k19)) baseras på en första rankkomponent (F) som genereras av en första algoritm vilken inbegriper rankning av individuella utmärkande särdrag (k1 ~ kjd) relaterade till den digitaliserade enheten (E: n) på basis av en relativ förekomst av det individuella utmärkande särdraget (k, E Kid) med avseende på en eller flera kopior (ca-cd) av den digitaliserade enheten (E: n) i datamängden (510).

3. En metod enligt krav 2, kännetecknad av att den första algoritmen innefattar följande steg, med avseende på ett visst utmärkande särdrag (k3), för den digitaliserade enheten (E: n): gruppering av åtminstone en kopia (ca-cd, 011-019, c21-c24; C31) av åtminstone en digitaliserad enhet (E: n; n1, nz, ng) i ett kluster (C11), där varje kluster (C11, C1, G2, G3) innehåller en eller flera kopior av samma digitaliserade enhet (E: n; n1, n2, n3), 10 15 20 25 30 520 533:mv§;¿f«.«¿ 1.8... räkning av det totala antalet förekomster av det utmär- kande särdraget (k3) i varje kluster (Cn, G1, C2, G3), och beräkning av ett förhållande mellan det totala antalet före- komster av det utmärkande särdraget (k3) i klustret (Cn) för den digitaliserade enheten (E: n) och det totala antalet förekomster av det utmärkande särdraget (k3) i ett kluster (CZ) vilket inklu- derar ett största antal av det utmärkande särdraget (k3).

4. En metod enligt något av kraven 1 - 3, kännetecknad av att den åtminstone en rankparametern (A(k3), A(k5); A(k19)) ba- seras på en andra rankkomponent (H) vilken genereras av en andra algoritm, som inbegriper rankning av åtminstone ett indivi- duellt utmärkande särdrag (k1, k2, k3) relaterat till den digitali- serade enheten (301) på basis av en position (P) av det åtmin- stone ett individuella utmärkande särdraget (k1, kg, kg) i ett beskrivande fält (F) associerat till den digitaliserade enheten (E).

5. En metod enligt krav 4, kännetecknad av generering av den andra rankkomponenten (H) på basis av en bestämd viktfaktor (w, - wp) kopplad till varje position (1 - p) i det beskrivande fältet (F), där viktfaktorerna (w1 - wp) reflekterar ett utmärkande särdrags (k1, k2, kg) signifikans med avseende dess position (P) i det beskrivande fältet (F).

6. En metod enligt krav 5, kännetecknad av generering av den andra rankkomponenten (II) på basis av en relevans- parameter (s, - S4) reflekterande ett utmärkande särdrags (k1) signifikans i förhållande till andra utmärkande särdrag (kg) vid I en viss position (p) i det beskrivande fältet (F).

7. En metod enligt något av kraven 4 - 6, kännetecknad av att genereringen av rankparametern (A(k3), A(k5); A(k19)) inbegriper en kombinering av den första rankkomponenten (F) med den andra rankkomponenten (H). 10 15 20 25 520 555::xw:,avf*f 1.9...

8. En metod enligt krav 7, kännetecknad av kombinering av den första rankkomponenten (F) med den andra rankkompo- nenten (H) enligt uttrycket: (any + (ßÜz 0:2 + BZ där F representerar den första rankkomponenten, H represen- terar den andra rankkomponenten, or representerar en första sammanslagningsfaktor och ß representerar en andra samman- slagningsfaktor.

9. En metod enligt något av föregående krav, kännetecknad av att de digitaliserade enheterna (E) innefattar åtminstone en av filtyperna: ett textdokument, en bild, en videosekvens och en audiosekvens.

10. En metod enligt krav 9, kännetecknad av att åtminstone en av de digitaliserade enheterna (E) utgör en samplad repre- sentation av en analog signal.

11. En metod enligt krav 9, kännetecknad av att åtminstone en av de digitaliserade enheterna (E) utgör en datorgenererad enhet

12. En metod enligt något av föregående krav, kännetecknad av att det utmärkande särdraget (k1 - kid) är ett nyckelord.

13. Ett datorprogram, direkt laddbart till internminnet i en dator, innefattande mjukvara för att utföra metoden, enligt något av kraven 1 - 12 då programmet körs på en dator.

14. Ett datorläsbart medium på vilket ett program finns lagrat, som är ägnat att förmå en dator att utföra metoden enligt något av kraven 1 - 12. 10 15 20 25 30 520 533 .äïífïš ':J':“I=.3i:.ïï. 2.0.. . .

15. En databas för lagring av indexinformation (IE) relaterad till digitaliserade enheter (E) vilka har genererats enligt något av kraven 1 - 12.

16. Ett server/klientsystem för sökning efter digitaliserade enheter (E) i en datamängd (510) innefattande: ett indexeringsinmatningsorgan (520) för insamling av grundinformation (lDn, {K}, L) beträffande åtminstone ett utmär- kande särdrag ({K}) och åtminstone en lokaliseringsparameter (L) för varje digitaliserad enhet (E) i en uppsättning av enheter i datamängden (510), en indexdatabas (530) för lagring av indexinformation (IE) relaterad till de digitaliserade enheterna (E) i uppsättningen, en sökmotor (540) för mottagning av sökinstruktioner (S) och som respons till dessa utföra sökningar (S') i indexdata- basen (530), och ett användarklientgränssnitt (550) för mottagning av en sökbegäran (Q) från åtminstone en användarterminal (560), vidarebefordran av sökbegäran (Q) i form av en sökinstruktion (S) till sökmotorn (540), mottagning av en träfflista ({H}) över di- gitaliserade enheter (E) och àtermatning av ett resultat ((H(R, L)) av en motsvarande sökning (S') i indexdatabasen (530) till åtminstone en användarklientterminal (560), kännetecknad av att indexdatabasen (530) är organiserad på ett sådant sätt att indexinformationen (IE) för en viss digita- liserad enhet (E: lDn) innefattar åtminstone en rankparameter (A(k3), A(ks); A(k19)) vilken indikerar en relevansgrad för åtminstone ett utmärkande särdrag (k3, k5; kw) med avseende på den digitaliserade enheten (E: lDn).

17. Ett server/klientsystem enligt krav 16, kännetecknat av att indexeringsinmatningsmedlet (520) innefattar en indexgenerator (522) för mottagning av grundinformationen (lDn, {K}, L), och som respons till denna, producering av den åtminstone en rank- parametern (A(k3), A(k5); A(k19)). 10 15 20 25 30 520 533 2.1'

18. Ett server/klientsystem enligt något av kraven 16 eller 17, kännetecknat av att rankparametern (A(k3), A(k5); A(k19)) innefattar en första rankkomponent (F) indikerande en rankning av åtminstone ett individuellt utmärkande särdrag (k1 - kid) rela- terat till den digitaliserade enheten (E: n) på basis av en relativ förekomst av det åtminstone ett individuellt utmärkande sär- draget (k1 - kjd) med avseende på en eller flera kopior (ca - cd) av den digitaliserade enheten (E: n) i datamängden (510).

19. Ett server/klientsystem enligt något av kraven 16 - 18, kännetecknat av att rankparametern (A(k3), A(k5); A(k19)) innefattar en andra rankkomponent (H) indikerande en rankning av åtminstone ett individuellt utmärkande särdrag (k1, kz) relaterat till den digitaliserade enheten (301) på basis av: en position (P) för det åtminstone ett individuellt utmär- kande särdraget (k1, k2) i ett beskrivande fält (F) associerat med den digitaliserade enheten (E), och en relevansparameter (s1 - s4) reflekterande ett utmär- kande särdrags (k1) signifikans i förhållande till andra utmär- kande särdrag (k2) vid en viss position (p) i det beskrivande fältet (F).

20. Ett server/klientsystem enligt något av kraven 16 - 19, kännetecknat av att indexeringsinmatningsmedlet (520) inne- fattar en automatisk datainsamlare (521) för att finna relevanta digitaliserade enheter (E) i datamängden (510) och, baserat därpå, alstra uppsättningen av enheter.

21. Ett server/klientsystem enligt något av kraven 16 - 20, kännetecknat av att var och en av de digitaliserade enheterna (E) i träfflistan ({H}) är associerad med en identifierare (ID1 - lDm), åtminstone en rankparameter parameter (A(k2), A(k5); A(k6) - A(k5); A(k12)) och åtminstone en lokaliseringsparameter (l1 - lm) för indikering av en lagringsplats i datamängden (510). 10 15 20 520 533 šjgšjg ;-ši^¿-^f=_gf.-.::

22. Ett server/klientsystem enligt krav 21, kännetecknat av att var och en av de digitaliserade enheterna (E) i träfflistan ({H}) är associerad med ett iilustrerande element (r1 - rm) anpassat att visas på användarklientterminalen (560) tillsammans med res- pektive digitaliserad enhet (E).

23. Ett server/klientsystem enligt krav 21, kännetecknat av att det iilustrerande elementet (r1 - rm) är en tumnagelsbild.

24. Ett server/klientsystem enligt något av kraven 20 - 23, kännetecknat av att datamängden (510) är ett internätverk och att indexeringsinmatningsmedlet (520) innefattar en sökrobot (522).

25. Ett server/klientsystem enligt något av kraven 16 - 24, kännetecknat av att de digitaliserade enheterna (E) innefattar åtminstone en av filtyperna: ett textdokument, en bild, en video- sekvens och en audiosekvens.

26. Ett server/klientsystem enligt krav 25, kännetecknat av att de digitaliserade enheterna (E) är lagrade på åtminstone något av formaten: AlF, AlFC, AlFF, AU, AVI, BMP, DIVX, DOC, EPS, GlF, ICO, JPEG, JPG, MOV, MP3, MP4, MPEG, MPEG4, MPG, PDF, PNG, PPT, PS, QT, RA, RAM, RAS, SND, TlF, TIFF, VCD, WAV, XLS och XMP.