SE520533C2 - Metod, datorprogram och system för indexering av digitaliserade enheter - Google Patents

Metod, datorprogram och system för indexering av digitaliserade enheter

Info

Publication number
SE520533C2
SE520533C2 SE0100856A SE0100856A SE520533C2 SE 520533 C2 SE520533 C2 SE 520533C2 SE 0100856 A SE0100856 A SE 0100856A SE 0100856 A SE0100856 A SE 0100856A SE 520533 C2 SE520533 C2 SE 520533C2
Authority
SE
Sweden
Prior art keywords
digitized
rank
parameter
units
unit
Prior art date
Application number
SE0100856A
Other languages
English (en)
Other versions
SE0100856D0 (sv
SE0100856L (sv
Inventor
Robert Risberg
Nils Andersson
Original Assignee
Picsearch Ab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Picsearch Ab filed Critical Picsearch Ab
Priority to SE0100856A priority Critical patent/SE520533C2/sv
Publication of SE0100856D0 publication Critical patent/SE0100856D0/sv
Priority to EP02705653A priority patent/EP1377915A1/en
Priority to PCT/SE2002/000462 priority patent/WO2002073463A1/en
Priority to US10/471,105 priority patent/US7516129B2/en
Publication of SE0100856L publication Critical patent/SE0100856L/sv
Publication of SE520533C2 publication Critical patent/SE520533C2/sv
Priority to US11/401,129 priority patent/US7539675B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

520 535 problematisk. Diverse försök att lösa detta problem har emellertid redan gjorts.
Exempelvis det amerikanska patentet 6,084,595 beskriver en indexeringsmetod för att generera en sökbar databas över bilder, så att en bildsökningsmotor kan finna innehållsbaserad information i bilder, som matchar en användares sökfråga.
Särdragsvektorer extraheras från visuella data i bilderna.
Primitiver, såsom färg, textur och form utgör parametrar som kan utvinnas ur bilderna. En särdragsvektor baseras på åtminstone en sådan primitiv. Särdragsvektorerna som associeras med bilderna lagras sedan i en särdragsdatabas. l samband med att en sökfråga ställs till sökmotorn specificeras en söksärdragsvektor och ett tröskelavstånd, som indikerar det maximala avståndet som år av intresse för sökfrågan. Alla bilder som har särdragsvektorer inom det avståndet kommer att identifieras av sökfrågan. Ytterligare information beräknas från den särdragsvektor som är associerad med varje bild, vilken kan användas som ett sökindex.
Ett alternativt bildsöknings- och åtkomstsystem beskrivs i den internationella patentansökan WO99/22318. Systemet innefattar en sökmotor, som är kopplad till en bildanalysator vilken i sin tur har tillgång till en lagringsanordning. Särdragsmoduler definierar bestämda regioner i en bild samt mätningar att genomföra på pixlar inom de definierade regionerna och eventuella angrän- sande regioner. Särdragsmodulerna anger på så vis parametrar och karaktäristika vilka är väsentliga för en viss bildmatchning / sökrutin. Som ett resultat därav möjliggörs en förhållandevis snabb bildjämförelse.
Den internationella patentansökan WO00/33575 beskriver en sökmotor för video och grafik. Dokumentet föreslår att identi- fierare alstras och sparas genom avsökning av en area inom en webbsida i anslutning till en grafisk fil eller en videofil efter sökbara identifieringstermer. Ytor på webbsidor nära länkar till grafik eller videofiler avsöks också efter sådana sökbara identi- 10 15 20 25 30 520 533 fieringstermer. De påträffade identifieringstermerna lagras sedan i en databas med referenser till motsvarande grafik och videofiler. En användare kan finna grafik eller videofiler genom att utföra en sökning i databasen.
Sökresultatet uppnår emellertid i allmänhet fortfarande inte en tillräckligt hög kvalitet, eftersom identifieringstermernas preci- sionen inte är tillfredsställande. Därför kan relevanta filer hamna förhållandevis långt ned i träfflistan eller helt missas vid sök- ningen.
SAMMANFATTNING AV UPPFINNINGEN Syftet med uppfinningen är därför att mildra ovanstående problem och sålunda tillhandahålla en förbättrad lösning för att finna relevanta digitaliserade enheter, såsom bilder videofiler eller audiofiler, medelst en automatisk sökning genomförd med avseende på en stor och förhållandevis ostrukturerad data- mängd såsom Internet.
Enligt en aspekt av uppfinningen uppnås detta syfte genom den inledningsvis beskrivna metoden för att indexera digitaliserade enheter, vilken kännetecknas av generering av indexinformation för en viss digitaliserad enhet på basis av åtminstone en rank- parameter. Rankparametern härleds från grundinformation, som i sin tur hänför sig till åtminstone ett utmärkande särdrag och åtminstone en lokaliseringsparameter för var och en av de digi- taliserade enheterna. Rankparametern indikerar en relevansgrad för åtminstone ett utmärkande särdrag med avseende på varje digitaliserad enhet.
Enligt en annan aspekt av uppfinningen uppnås syftet med hjälp av ett datorprogram, vilket är direkt laddbart till internminnet i en dator och vilket innefattar mjukvara för att styra metoden, som beskrivs i det ovanstående stycket då programmet körs i en dator. 10 15 20 25 30 520 533 Enligt ytterligare en aspekt av uppfinningen uppnås syftet genom ett datorläsbart medium på vilket ett program finns lagrat, som är ägnat att förmå en dator att utföra metoden, som beskrivs i det näst närmast ovanstående stycket.
Enligt ännu en aspekt av uppfinningen uppnås syftet genom en databas för lagring av indexinformation beträffande digitalise- rade enheter, vilka har genererats enligt den föreslagna metoden.
Enligt ytterligare en annan aspekt av uppfinningen uppnås syftet genom det inledningsvis beskrivna server/klientsystemet för sökning efter digitaliserade enheter i en datamängd, vilket kännetecknas av att en indexdatabas i server/klientsystemet är organiserad så att lndexinformationen däri, för en viss digita- liserad enhet, innefattar åtminstone en rankparameter. Rankpa- rametern indikerar en relevansgrad för åtminstone ett utmär- kande särdrag med avseende på den digitaliserade enheten.
Uppfinningen erbjuder ett effektivt verktyg för att finna högrele- vant icke-textmaterial på Internet med hjälp av en sökfråga formulerad itextuella termer. En fördel som uppnås därigenom är att webbsidor, eller motsvarande resurser, där materialet är befintligt inte behöver innehålla någon textinformation för att åstadkomma en träff.
Detta är en speciellt önskat egenskap i förhållande till de kända lösningarna, eftersom ett eventuellt textmaterial i anslutning till det icke-textmässiga materialet i många fall omfattar ganska ord knappa och kontraintuitiva textavsnitt.
En speciell signatur för varje unik digitaliserad enhet, som an- vänds vid lösningen enligt uppfinningen gör det möjligt att eliminera eventuella dubbletter av digitaliserade enheter i en genom en sökning erhållen träfflista. Detta ökar naturligtvis ytterligare sökkvaliteten. 10 15 20 25 520 Sšäuziwg Ü s: ¿¿ sm.
KORT BESKRIVNING AV RITNINGARNA Uppfinningen kommer nu att förklaras närmare med hänvisning till föredragna utföringsformer, vilka beskrivs som exempel, och med referens till de bifogade ritningarna.
Figur 1 illustrerar genereringen av en första rankkomponent i en föreslagen rankparameter enligt en utföringsform av uppfinningen, Figur2 illustrerar en förbättring av den första rankkompo- nenten enligt en utföringsform av uppfinningen, Figur 3 illustrerar genereringen av en andra rankkomponent i den föreslagna rankparametern enligt en utförings- form av uppfinningen, Figur4 demonstrerar en exempelstruktur för ett sökresultat enligt en utföringsform av uppfinningen, Figur5 visar ett blockschema over ett server/klientsystem enligt en utföringsform av uppfinningen, och Figur6 illustrerar, med hjälp av ett flödesschema, en utfö- ringsform av metoden enligt uppfinningen DETALJERAD BESKRIVNING AV FÖREDRAGNA UTFÖRINGSFORMER AV UPPFINNINGEN Uppfinningen syftar till att förbättra relevansen hos förekom- mande utmärkande särdrag, exempelvis nyckelord, som rela- teras till digitaliserade enheter och därmed öka chanserna att finna relevanta enheter vid framtida sökningar. l syfte att uppnå detta mål allokeras åtminstone en rankparameter till var och en av de utmärkande särdragen som är relaterade till en digitali- serad enhet. Den nedan beskrivna utföringsformen av uppfin- ningen refererar till digitaliserade enheter i form av bilder. De digitaliserade enheterna kan emellertid lika väl innefatta andra 10 15 20 25 30 520 533 typer av enheter som är möjliga att unikt identifiera, såsom audiofiler eller videosekvenser. Dessutom kan de digitaliserade enheterna antingen utgöra samplade representationer av ana- loga signaler eller vara rent digitalt alstrade enheter.
Figur 1 visar fyra kopior cd - cd av en och samma bild n som finns lagrade på olika ställen i en datamängd, exempelvis i ett internätverk, såsom Internet. Bildens n identitet kan fastställas genom en så kallad bildsignatur, som i sin tur kan bestämmas från en totalsumma av samtliga pixelvärden i bilden. En motsva- rande identitet kan naturligtvis fastställas även för en audiofil eller en videofil.
Kopiorna cd - cd av bilden n grupperas ihop logiskt i ett kluster Cd. Varje kopia cd - cd antas vara associerad med åtminstone ett utmärkande särdrag i form av ett nyckelord. Typiskt är nyckelorden data som inte nödvändigtvis visas tillsammans med bilden. Tvärtom kan nyckelorden inhämtas från datafält som normalt är gömda för besökarna till en viss webbsida. Nyckel- orden kan alltså hämtas från HTML-etiketter, såsom Meta, /mg eller Title (HTML = HyperText Mark-up Language).
I detta exempel associeras en första kopia cd av bilden n med nyckelorden kd, kg, kd, kd upp till kid, en andra kopia cb asso- cieras med nyckelorden k3, kd, ky, kdg upp till kid, en tredje kopia cd associeras med nyckelorden kd, k3, kd, kd up to kjd, och en fjärde kopia cd associeras med nyckelorden k2, kd, kg, k12 upp till kJ-d. l syfte att avgöra relevansen hos ett visst nyckelord, säg kd, med avseende på bilden n beräknas en första rankkomponent I",,(k3) enligt uttrycket: Z klß Pn(k3) = iC H där k. representerar en summa av samtli a förekomster av > |,3 l nyckelordet kd i klustret Cd och |Cd| anger ett totalt antal nyckelord i klustret Cd, det vill säga summan av unika nyckelord 10 15 20 25 30 520 53§;¿¿;;g;;¿;xnh 7 plus förekommande kopior av detsamma.
Det är emellertid ganska vanligt att ett visst nyckelord, exempelvis k3, associeras med många olika bilder. Detta illustreras i figur 2. Här innehåller ett första kluster C1 nio kopior C11 - C19 av en första bild n1, ett andra kluster C2 innehåller fyra kopior C21 - C24 av en andra bild n2 och ett tredje kluster C3 innehåller en kopia C31 av en tredje bild n3. Nyckelordet k3 förekommer två gånger (i samband med C11 och C12) i det första klustret C1, tre gånger (i samband med C21, C22 och C24) i det andra klustret C2 och en gång (i samband med C31) i det tredje klustret C3. Kopian C12 förekommer två gånger i det första klustret C1, å ena sidan förknippat med nyckelordet k3, och å andra sidan förknippat med ett annat nyckelord. l bägge fallen rör det sig emellertid om samma bild.
Den första rankkomponenten F för nyckelordet k3 kan nu förbättras med hjälp av an siffra som reflekterar styrkan i kopplingen mellan nyckelordet k3 och bilderna n1 - n3 (eller klustrena C1 - C3) till vilka det har associerats. Nyckelordet k3 förefaller vara starkast kopplat till den andra bilden n2, eftersom det är associerat med det största antalet kopior av denna bild, nämligen C21, C22 och C24. På motsvarande sätt har nyckelordet k3 en näst starkast koppling till den första bilden n1 (där det förekommer för två av nio kopior), och en tredje starkast koppling till den tredje bilden n3. En normalisering med avseende på det största klustret (det vill säga det kluster som innefattar flest kopior) kan användas för att modellera denna aspekt. I det här exemplet inkluderar det största klustret C1 nio kopior C11 - C13. Därför erhålls en normalisering av nyckelordet k3 med avseende på bilderna n1 - n3 genom multiplicering av den första rankkomponenten l",1(k3) med det respektive antalet förekomster i varje kluster C1 - C3 dividerat med nio. Det generella uttrycket blir naturligtvis: 10 15 20 520 533%3#âßJ4F¿*ï 8 EM igni mi? max I Z ku = = wèmax där lCmax| är det största antalet nyckelord i ett kluster för den bild som inkluderar det relevanta nyckelordet kj, exempelvis k3.
Den första rankkomponenten F görs mera användbar för automatisk behandling om den också normaliseras, så att den högsta första rankkomponenten F för ett visst nyckelord är lika med 1. Detta åstadkoms genom att dividera uttrycket ovan med följande nämnare: (Zki'j)max,kj lC max I där (2ki_j)max,kj betecknar antalet förekomster av nyckelordet k; i det kluster, som innefattar flest förekomster av detta nyckelord kj. l det aktuella exempel är exempelvis (2ki_3)max,k3 lika med 3, eftersom nyckelordet k3 förekommer flest gånger i det andra klustret G2, nämligen tre gånger.
Således modelleras med fördel den första rankkomponenten 1",1(k,-) för en bild n med avseende på nyckelordet kj av det förenklade uttrycket: Zktt rr1(kj) t kiybmax, kj där zkm representerar summan av samtliga förekomster av nyckelordet k,- klustret Cn och (Zki,j)max,kj är antalet före- komster av nyckelordet k; i det kluster, som inkluderar flest förekomster av detta nyckelord kj. l syfte att förbättra sökprestandan i en databas innefattande indexerade element vilka refererar till digitaliserade enheter är 10 15 20 25 30 520 535§:y@;;:x¿lfl det föredraget att konstruera ett inverterat index över nyckelord, så att en uppsättning första rankkomponenter I" istället uttrycks för varje nyckelord kj. Alltså, enligt en föredragen utföringsform av uppfinningen, är formatet för den första rankkomponenten k¿:{I“,,}. Följaktligen erhåller nyckelordet k3 i ovanstående exempel följande uppsättning första rankkomponenter: k3I{I“2=1;1"1=2/3;1"3=1/3} Den första rankkomponenten 1",,(k,-) utgör i sig en skaplig av- spegling av relevansen hos ett nyckelord k] med avseende på bilden n. En mera exakt siffra kan emellertid erhållas genom att kombinera den första rankkomponenten F,,(k,-) med en föresla- gen andra rankkomponent H,,(kj), vilken kommer att beskrivas nedan.
Figur 3 illustrerar hur den andra rankkomponenten H,,(kj) kan genereras enligt en utföringsform av uppfinningen.
En digitaliserad enhet, exempelvis en bild 301, förutsätts vara associerad med utmärkande särdrag kj, kz och kg, till exempel i form av nyckelord, vilka påträffas på varierande positioner P i ett beskrivande fält F. Varje utmärkande särdrag kj - k3 antas ha en relevans med avseende på den digitaliserade enheten 301 som beror av den position P i det beskrivande fältet F vid vilken det påträffas. En viktfaktor w1 - wp för varje position 1 - p i det beskrivande fältet F avspeglar detta. I det illustrerade exemplet är ett första utmärkande särdrag k1 och ett andra utmärkande särdrag k2 lokaliserade vid en position 1 i det beskrivande fältet F. Båda dessa utmärkande särdrag k1 och k; förekommer ett antal m vid denna position. Det finns inga utmärkande särdrag vid en andra position 2. Olika slags utmärkande särdrag kan emellertid vara lokaliserade vid positionerna 3 till p-2 (visas ej).
Fältet F innehåller m2 kopior av det första utmärkande särdraget kj vid en position p-1 och m kopior av det andra utmärkande särdraget k2 respektive 113 kopior av ett tredje utmärkande särdrag k3 vid en position p. 10 15 20 25 30 520 535 g 1.0, t..
Alltså, beroende på positionen 1 - p vid vilken ett visst utmärkande särdrag k1 - k3 påträffas tilldelas det utmärkande särdraget k1 - ka, en bestämd viktfaktor w1 - wp. Dessutom bestäms en relevansparameter s1 - s., för varje utmärkande särdrag k1 - ka, vilken beror av hur många gånger 111 - v13 det utmärkande särdraget förekommer vid denna position 1 - p i förhållande till det totala antalet utmärkande särdrag vid denna position 1 - p.
Både det första utmärkande särdraget k1 och det andra utmärkande särdraget k2 erhåller således samma relevans- parameter s1, vilken kan beräknas som s1 = 111/(2n1) = 1/2 vid positionen 1. Denna parameter s1 viktas dessutom med en viktfaktor w1 med avseende på den digitaliserade enheten 301.
Samma beräkningar genomförs för alla positionerna 2 - p i syfte att erhålla relevansparametrar s1 - s4 för dessa positioner.
Alternativt kan relevansparametern sp bestämmas som sp(k,-..;)=1-yZki, där yZki representerar ett ”straff” som avtar med relevansen för ett utmärkande särdrag kj vid en position P, för varje utmärkande särdrag vid denna position, som är annorlunda än detta utmärkande särdrag kj. Naturligtvis är även andra formler för bestämning av relevansparametern sp tänk- bara.
Hur som helst bestäms ett kombinerat mått, vilket till fullo beski- ver förhållandet mellan utmärkande särdrag kj och digitaliserade enheter n. Uttrycket: (Wi ' si; )2 H(n, kj) = ' P =1 w? EM» utgör en avspegling av relevansen hos ett utmärkande särdrag k,- med avseende på en viss digitaliserad enhet n. Variabeln w; anger viktfaktorn för en position i och variabeln sr,- anger relevansen för ett utmärkande särdrag k,- vid positionen i. 10 15 520 553flwn yyfitffi 11 Analogt med den första rankkomponenten F, är det föredraget att även normalisera och konstruera ett inverterat index över nyckelord. Den andra rankkomponenten H ges således ett format kJ-:{Hn}, där den första komponenten HH för ett visst utmärkande särdrag ki alltid är lika med 1.
Tabell 1 nedan visar ett explicit exempel över viktfaktorer w. för bestämda positioner P i ett beskrivande fält F relaterat till en bild E_0_S_iI_i<_>n(P) ELIHF) lwp) 1 pageSite 50 2 pageDir 40 3 pageName 50 4 pageTitle 80 5 pageDescription 90 6 pageKeywords 90 7 pageText 20 8 imageSite 50 9 imageDir 60 10 imageName 100 11 imageAlt 100 12 imageAnchor 80 13 imageCenterCaption 90 14 imageCellCaption 90 15 imageParagraphCaption 90 Tabell 1 Enligt en utföringsform av uppfinningen används den andra rankkomponenten Hn(kj) som ett alternativ till den första rank- komponenten I",,(k,-). Den andra rankkomponenten H,,(k,~) utgör nämligen i sig också en god beskrivning av relevansen för ett nyckelord k] med avseende på bilden n.
Enligt en föredragen utföringsform av uppfinningen slås emellertid den första rankkomponenten P samman med den andra rankkomponenten I] till en kombinerad rankkomponent A 10 15 20 25 30 520 5ss__,fi,t,¿ 1I2H enligt uttrycket: A = lÜXÜZ 'Wßl-Üz otz + [52 där ot är en första sammanslagningsfaktor och ß är en andra sammanslagningsfaktor, exempelvis 09131 and Osßsl Vilket annat intervall som helst är emellertid tänkbart för samman- slagningsfaktorerna oi; ß.
Slutligen, och i likhet med den första respektive den andra komponenten I" and H, är det föredraget att normalisera och konstruera ett inverterat index över nyckelord, så att det erhåller ett format k¿:{An}, där den första komponenten An för ett visst utmärkande särdrag k; alltid är lika med 1.
När alla, eller åtminstone en tillräckligt stor andel, av de digitaliserade elementen i datamängden har relaterats till åtminstone ett utmärkande särdrag och en motsvarande rank- komponent / parameter (F, H or A), skapas en indexdatabas, vilken också åtminstone inkluderar ett fält innefattande en eller flera lokaliseringsparametrar som indikerar var den digitaliserade enheten kan hämtas. Dessutom är det föredraget om indexdatabasen innehåller en intuitiv representation av den digitaliserade enheten. Om den digitaliserade enheten är en bild utgör en tumnagelsbild en lämplig representation. Om emellertid den digitaliserade enheten är en audiofil eller en multimediafil kanske istället andra representationer är användbara, såsom i form av logotyper eller liknande symboler.
Figur 4 demonstrerar ett exempel på strukturen hos ett sökre- sultat enligt en utföringsform av uppfinningen. Sökresultatet listas i en tabell 400, där en första kolumn E innehåller identi- teten lD1 - lDm för de enheter som matchade sökkriteriet tillräck- ligt väl. En andra kolumn K innehåller en förteckning över rankade utmärkande särdrag A(k1) - A(k23) för varje digitaliserad enhet. En tredje kolumn R innehåller en karaktäristisk representation (eller ett illustrerande element) r, - rm för enhe- 10 15 20 25 30 35 520 533 13 ten och en fjärde kolumn L innehåller en lokaliseringsparameter l1 - lm till en motsvarande ”komplett version” av enheten. Om datamängden är ett internätverk är normalt sett lokali- seringsparametern l1 - lm en URL (Universal Resource Locator).
Vilken annan slags adress som helst är emellertid lika tänkbar.
Naturligtvis kan sökresultatstrukturen även innefatta godtyckliga ytterligare fält. En reducerad uppsättning fält kan sedan presenteras för en användare. Exempelvis kan det vara tillräck- ligt att endast visa representationen r1 - rm och / eller ett be- gränsat antal utmärkande särdrag, med eller / utan deras res- pektive rankning.
Figur 5 visar ett blockschema över ett server/klientsystem enligt en utföringsform av uppfinningen, genom vilket data såväl kan indexeras, sökas som hämtas. Digitaliserade enheter lagras i en stor och förhållandevis ostrukturerad datamängd 510, exempelvis på internet. Ett indexeringsinmatningsorgan 520 samlar in information lDn, {K}; L från datamängden 510 med avseende på digitaliserade enheter däri. Informationen lDn, {K}; L inkluderar ett identitetsfält lDn som unikt identifierar den digitaliserade enheten E, en uppsättning utmärkande särdrag {K} och en lokaliseringsparameter L. Ytterligare data, såsom filstorlek och filtyp kan också samlas in av indexerings- inmatningsorganet 520. Det är irrelevant exakt hur informationen lDn, {K}; L matas in i indexeringsinmatningsorganet 520. Enligt en föredragen utföringsform av uppfinningen samlar emellertid en automatisk datainsamlingsenhet 521, exempelvis en sökrobot, l indexeringsinmatningsorganet 520 regelbundet ihop C informationen lDn, {K}; L så snart som möjligt efter det att nya objekt läggs till eller efter det att redan lagrade objekt har uppdaterats. En indexgenerator 522 i indexeringsinmatnings- organet 520 skapar indexinformation IE på basis av informa- tionen lDn, {K}; L enligt de ovan föreslagna metoderna. En indexdatabas 530 lagrar indexinformationen IE på ett sökbart format, vilket åtminstone är anpassat till funktionen hos en sök- motor 540. 10 15 20 25 30 35 520 sas M Mk En eller flera användarklientterminaler 560 erbjuds ett sökgräns- snitt mot indexinformationen IE i indexdatabasen 530 via ett användarklientgränssnitt 550. En användare kan därmed mata in en sökbegäran Q, exempelvis muntligt via ett röstigenkännings- gränssnitt, eller genom tangentinmatning via en användarklient- terminal 560. Företrädesvis, men inte nödvändigtvis, omformu- lerar användarklientgränssnittet 550 sökbegäran Q till en sökin- struktion S, som är anpassad till arbetsprincipen för sökmotorn 540. Sökmotorn 540 mottar sökinstruktionen S och utför en mot- svarande sökning S' i indexdatabasen 530.
Förekommande poster i databasen 530 som matchar sökinstruk- tionen S tillräckligt väl sorteras ut och returneras som en träfflista {H} över digitaliserade enheter E till användarklient- gränssnittet 550. Om så är nödvändigt omformulerar an- vändarklientgränssnittet 550 träfflistan {H} till ett sökresultat med en struktur H(R, L), som är bättre anpassad till användar- klientterminalen 560. Träfflistan {H} har med fördel den allmän- na struktur som visas i figur 4. Sökresultatet H(R, L) som presenteras via användarklientterminalen 560 kan dock ha vilken annan struktur som helst som befinns vara lämplig för den aktuella tillämpningen. Om sökbegäran Q innehåller fler än en sökterm (eller utmärkande särdrag) har det visat sig att sökresultatet H(R, L) erhåller ett önskat format då varje sökterm i träfflistan {H} normaliseras innan det presenteras för använ- daren, så att en första kombinerad rankparameter An för varje term är lika med 1. Exempelvis en träfflista {H} som är resultatet av en sökbegäran Q = “ferarri 550” normaliseras så att den första kombinerade rankparameter An = 1 både med avseende på “ferarri” och med avseende på “550”. Eventuella ytterligare kombinerade rankparametrar Am för respektive sökterm kan naturligtvis ha godtyckligt lägre värde beroende på resultatet av sökningen.
Den signatur som associeras med varje unik digitaliserad enhet gör det möjligt att eliminera eventuella dubbletter av digitali- serade enheter i sökresultatet H(R, L). En sådan elimination 10 15 20 25 30 520 553 : 1.5 , åstadkommer ett sökresultat H(R, L) med en mycket hög kvalitet och relevans.
Ett minimikrav är att data som sänds till en användarklient- terminal 560 inkluderar en karaktäristisk representation R av den digitaliserade enheten i träfflistan {H} och motsvarande lokaliseringsparametrar L, exempelvis URL, för att indikera åtminstone en lagringsplats i datamängden 510. Den sist- nämnda ger användaren åtminstone en teoretisk möjlighet att hämta kompletta versioner av de digitaliserade enheterna. I praktiken kan emellertid åtkomsten vara begränsad på olika sätt, exempelvis genom upphovsrättsskydd och därför fordra inköp av de relevanta rättigheterna.
Enheterna 510 - 560 kan antingen vara fysiskt separerade från varandra eller vara samlokaliserade i godtycklig kombination. l syfte att sammanfatta kommer nu en metod för att generera ett sökbart index över digitaliserade enheter enligt en utföringsform av uppfinningen att beskrivas med hänvisning till flödesschemat i figur 6.
Ett första steg 601 inbegriper inmatning av grundinformation innehållande ett eller flera utmärkande särdrag relaterade till digitaliserade enheter i en datamängd. Ett följande steg 602 alstrar rankparametrar för var och en av de digitaliserade enhe- terna på basis av den inmatade informationen. Sedan genererar ett steg 603 ett sökbart index över rankparametrar och slutligen lagras det sökbara indexet i en sökbar databas i ett steg 604.
Samtliga de processteg, såväl som godtycklig delsekvens av steg, vilka beskrivits med hänvisning till figur 6 ovan kan styras av ett datorprogram, som är direkt laddbart till internminnet i en dator, som innefattar lämplig mjukvara för att styra de nödvändiga stegen när programmet körs på datorn. Datorpro- grammet kan även sparas på godtyckligt lagringsmedium.
Begreppet ”omfattar/omfattande” då det används i denna 520 533 v 16... beskrivning anger närvaron av de nämnda särdragen, heltalen, stegen eller komponenterna. Dock utesluter begreppet inte närvaro eller tillägg av ett eller flera ytterligare särdrag, heltal, steg eller komponenter.
Uppflnningen är inte begränsad till de utföringsformer, som beskrivits med hänvisning till figurerna utan kan varieras fritt inom omfånget hos patentkraven.

Claims (26)

10 15 20 25 30 520 533 17 Patentkrav
1. En metod för att indexera digitaliserade enheter (E) i en datamängd (510) innefattande: inmatning av grundinformation (lDn, {K}, L) beträffande åt- minstone ett utmärkande särdrag ({K}) och åtminstone en loka- liseringsparameter (L) för varje digitaliserad enhet (E) i en upp- sättning av enheter ur datamängden (510), generering av sökbar indexinformation (IE) relaterad till de digitaliserade enheterna (E) i uppsättningen på basis av grund- informationen (lDn, {K}, L), och lagring av indexinformationen (lE) i en indexdatabas (530), kännetecknad av generering av indexinformationen (IE) för en viss digitaliserad enhet (E: IDE) pá basis av åtminstone en rankparameter (A(k3), A(k5); A(k19)) härledd ur grundinformationen (IDE, {K}, L), där den åtminstone en rankparametern (A(k3), A(k5); A(k19)) indikerar en relevansgrad för åtminstone ett utmärkande särdrag (k3, k5; k19) med avseende på den digitaliserade enheten (E: lDn).
2. En metod enligt krav 1, kännetecknad av att den åtminstone en rankparametern (A(k3), A(k5); A(k19)) baseras på en första rankkomponent (F) som genereras av en första algoritm vilken inbegriper rankning av individuella utmärkande särdrag (k1 ~ kjd) relaterade till den digitaliserade enheten (E: n) på basis av en relativ förekomst av det individuella utmärkande särdraget (k, E Kid) med avseende på en eller flera kopior (ca-cd) av den digitaliserade enheten (E: n) i datamängden (510).
3. En metod enligt krav 2, kännetecknad av att den första algoritmen innefattar följande steg, med avseende på ett visst utmärkande särdrag (k3), för den digitaliserade enheten (E: n): gruppering av åtminstone en kopia (ca-cd, 011-019, c21-c24; C31) av åtminstone en digitaliserad enhet (E: n; n1, nz, ng) i ett kluster (C11), där varje kluster (C11, C1, G2, G3) innehåller en eller flera kopior av samma digitaliserade enhet (E: n; n1, n2, n3), 10 15 20 25 30 520 533:mv§;¿f«.«¿ 1.8... räkning av det totala antalet förekomster av det utmär- kande särdraget (k3) i varje kluster (Cn, G1, C2, G3), och beräkning av ett förhållande mellan det totala antalet före- komster av det utmärkande särdraget (k3) i klustret (Cn) för den digitaliserade enheten (E: n) och det totala antalet förekomster av det utmärkande särdraget (k3) i ett kluster (CZ) vilket inklu- derar ett största antal av det utmärkande särdraget (k3).
4. En metod enligt något av kraven 1 - 3, kännetecknad av att den åtminstone en rankparametern (A(k3), A(k5); A(k19)) ba- seras på en andra rankkomponent (H) vilken genereras av en andra algoritm, som inbegriper rankning av åtminstone ett indivi- duellt utmärkande särdrag (k1, k2, k3) relaterat till den digitali- serade enheten (301) på basis av en position (P) av det åtmin- stone ett individuella utmärkande särdraget (k1, kg, kg) i ett beskrivande fält (F) associerat till den digitaliserade enheten (E).
5. En metod enligt krav 4, kännetecknad av generering av den andra rankkomponenten (H) på basis av en bestämd viktfaktor (w, - wp) kopplad till varje position (1 - p) i det beskrivande fältet (F), där viktfaktorerna (w1 - wp) reflekterar ett utmärkande särdrags (k1, k2, kg) signifikans med avseende dess position (P) i det beskrivande fältet (F).
6. En metod enligt krav 5, kännetecknad av generering av den andra rankkomponenten (II) på basis av en relevans- parameter (s, - S4) reflekterande ett utmärkande särdrags (k1) signifikans i förhållande till andra utmärkande särdrag (kg) vid I en viss position (p) i det beskrivande fältet (F).
7. En metod enligt något av kraven 4 - 6, kännetecknad av att genereringen av rankparametern (A(k3), A(k5); A(k19)) inbegriper en kombinering av den första rankkomponenten (F) med den andra rankkomponenten (H). 10 15 20 25 520 555::xw:,avf*f 1.9...
8. En metod enligt krav 7, kännetecknad av kombinering av den första rankkomponenten (F) med den andra rankkompo- nenten (H) enligt uttrycket: (any + (ßÜz 0:2 + BZ där F representerar den första rankkomponenten, H represen- terar den andra rankkomponenten, or representerar en första sammanslagningsfaktor och ß representerar en andra samman- slagningsfaktor.
9. En metod enligt något av föregående krav, kännetecknad av att de digitaliserade enheterna (E) innefattar åtminstone en av filtyperna: ett textdokument, en bild, en videosekvens och en audiosekvens.
10. En metod enligt krav 9, kännetecknad av att åtminstone en av de digitaliserade enheterna (E) utgör en samplad repre- sentation av en analog signal.
11. En metod enligt krav 9, kännetecknad av att åtminstone en av de digitaliserade enheterna (E) utgör en datorgenererad enhet
12. En metod enligt något av föregående krav, kännetecknad av att det utmärkande särdraget (k1 - kid) är ett nyckelord.
13. Ett datorprogram, direkt laddbart till internminnet i en dator, innefattande mjukvara för att utföra metoden, enligt något av kraven 1 - 12 då programmet körs på en dator.
14. Ett datorläsbart medium på vilket ett program finns lagrat, som är ägnat att förmå en dator att utföra metoden enligt något av kraven 1 - 12. 10 15 20 25 30 520 533 .äïífïš ':J':“I=.3i:.ïï. 2.0.. . .
15. En databas för lagring av indexinformation (IE) relaterad till digitaliserade enheter (E) vilka har genererats enligt något av kraven 1 - 12.
16. Ett server/klientsystem för sökning efter digitaliserade enheter (E) i en datamängd (510) innefattande: ett indexeringsinmatningsorgan (520) för insamling av grundinformation (lDn, {K}, L) beträffande åtminstone ett utmär- kande särdrag ({K}) och åtminstone en lokaliseringsparameter (L) för varje digitaliserad enhet (E) i en uppsättning av enheter i datamängden (510), en indexdatabas (530) för lagring av indexinformation (IE) relaterad till de digitaliserade enheterna (E) i uppsättningen, en sökmotor (540) för mottagning av sökinstruktioner (S) och som respons till dessa utföra sökningar (S') i indexdata- basen (530), och ett användarklientgränssnitt (550) för mottagning av en sökbegäran (Q) från åtminstone en användarterminal (560), vidarebefordran av sökbegäran (Q) i form av en sökinstruktion (S) till sökmotorn (540), mottagning av en träfflista ({H}) över di- gitaliserade enheter (E) och àtermatning av ett resultat ((H(R, L)) av en motsvarande sökning (S') i indexdatabasen (530) till åtminstone en användarklientterminal (560), kännetecknad av att indexdatabasen (530) är organiserad på ett sådant sätt att indexinformationen (IE) för en viss digita- liserad enhet (E: lDn) innefattar åtminstone en rankparameter (A(k3), A(ks); A(k19)) vilken indikerar en relevansgrad för åtminstone ett utmärkande särdrag (k3, k5; kw) med avseende på den digitaliserade enheten (E: lDn).
17. Ett server/klientsystem enligt krav 16, kännetecknat av att indexeringsinmatningsmedlet (520) innefattar en indexgenerator (522) för mottagning av grundinformationen (lDn, {K}, L), och som respons till denna, producering av den åtminstone en rank- parametern (A(k3), A(k5); A(k19)). 10 15 20 25 30 520 533 2.1'
18. Ett server/klientsystem enligt något av kraven 16 eller 17, kännetecknat av att rankparametern (A(k3), A(k5); A(k19)) innefattar en första rankkomponent (F) indikerande en rankning av åtminstone ett individuellt utmärkande särdrag (k1 - kid) rela- terat till den digitaliserade enheten (E: n) på basis av en relativ förekomst av det åtminstone ett individuellt utmärkande sär- draget (k1 - kjd) med avseende på en eller flera kopior (ca - cd) av den digitaliserade enheten (E: n) i datamängden (510).
19. Ett server/klientsystem enligt något av kraven 16 - 18, kännetecknat av att rankparametern (A(k3), A(k5); A(k19)) innefattar en andra rankkomponent (H) indikerande en rankning av åtminstone ett individuellt utmärkande särdrag (k1, kz) relaterat till den digitaliserade enheten (301) på basis av: en position (P) för det åtminstone ett individuellt utmär- kande särdraget (k1, k2) i ett beskrivande fält (F) associerat med den digitaliserade enheten (E), och en relevansparameter (s1 - s4) reflekterande ett utmär- kande särdrags (k1) signifikans i förhållande till andra utmär- kande särdrag (k2) vid en viss position (p) i det beskrivande fältet (F).
20. Ett server/klientsystem enligt något av kraven 16 - 19, kännetecknat av att indexeringsinmatningsmedlet (520) inne- fattar en automatisk datainsamlare (521) för att finna relevanta digitaliserade enheter (E) i datamängden (510) och, baserat därpå, alstra uppsättningen av enheter.
21. Ett server/klientsystem enligt något av kraven 16 - 20, kännetecknat av att var och en av de digitaliserade enheterna (E) i träfflistan ({H}) är associerad med en identifierare (ID1 - lDm), åtminstone en rankparameter parameter (A(k2), A(k5); A(k6) - A(k5); A(k12)) och åtminstone en lokaliseringsparameter (l1 - lm) för indikering av en lagringsplats i datamängden (510). 10 15 20 520 533 šjgšjg ;-ši^¿-^f=_gf.-.::
22. Ett server/klientsystem enligt krav 21, kännetecknat av att var och en av de digitaliserade enheterna (E) i träfflistan ({H}) är associerad med ett iilustrerande element (r1 - rm) anpassat att visas på användarklientterminalen (560) tillsammans med res- pektive digitaliserad enhet (E).
23. Ett server/klientsystem enligt krav 21, kännetecknat av att det iilustrerande elementet (r1 - rm) är en tumnagelsbild.
24. Ett server/klientsystem enligt något av kraven 20 - 23, kännetecknat av att datamängden (510) är ett internätverk och att indexeringsinmatningsmedlet (520) innefattar en sökrobot (522).
25. Ett server/klientsystem enligt något av kraven 16 - 24, kännetecknat av att de digitaliserade enheterna (E) innefattar åtminstone en av filtyperna: ett textdokument, en bild, en video- sekvens och en audiosekvens.
26. Ett server/klientsystem enligt krav 25, kännetecknat av att de digitaliserade enheterna (E) är lagrade på åtminstone något av formaten: AlF, AlFC, AlFF, AU, AVI, BMP, DIVX, DOC, EPS, GlF, ICO, JPEG, JPG, MOV, MP3, MP4, MPEG, MPEG4, MPG, PDF, PNG, PPT, PS, QT, RA, RAM, RAS, SND, TlF, TIFF, VCD, WAV, XLS och XMP.
SE0100856A 2001-03-13 2001-03-13 Metod, datorprogram och system för indexering av digitaliserade enheter SE520533C2 (sv)

Priority Applications (5)

Application Number Priority Date Filing Date Title
SE0100856A SE520533C2 (sv) 2001-03-13 2001-03-13 Metod, datorprogram och system för indexering av digitaliserade enheter
EP02705653A EP1377915A1 (en) 2001-03-13 2002-03-13 Indexing of digitised entities
PCT/SE2002/000462 WO2002073463A1 (en) 2001-03-13 2002-03-13 Indexing of digitised entities
US10/471,105 US7516129B2 (en) 2001-03-13 2002-03-13 Method of indexing digitized entities in a data collection to facilitate searching
US11/401,129 US7539675B2 (en) 2001-03-13 2006-04-10 Indexing of digitized entities

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0100856A SE520533C2 (sv) 2001-03-13 2001-03-13 Metod, datorprogram och system för indexering av digitaliserade enheter

Publications (3)

Publication Number Publication Date
SE0100856D0 SE0100856D0 (sv) 2001-03-13
SE0100856L SE0100856L (sv) 2002-09-14
SE520533C2 true SE520533C2 (sv) 2003-07-22

Family

ID=20283328

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0100856A SE520533C2 (sv) 2001-03-13 2001-03-13 Metod, datorprogram och system för indexering av digitaliserade enheter

Country Status (4)

Country Link
US (2) US7516129B2 (sv)
EP (1) EP1377915A1 (sv)
SE (1) SE520533C2 (sv)
WO (1) WO2002073463A1 (sv)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138246A1 (en) * 2001-03-08 2002-09-26 Czora Gregory J. System and method for simulating conciousness
US20020184196A1 (en) * 2001-06-04 2002-12-05 Lehmeier Michelle R. System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
US7324990B2 (en) * 2002-02-07 2008-01-29 The Relegence Corporation Real time relevancy determination system and a method for calculating relevancy of real time information
US20060288006A1 (en) * 2003-10-23 2006-12-21 Xerox Corporation Methods and systems for attaching keywords to images based on database statistics
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US8296304B2 (en) 2004-01-26 2012-10-23 International Business Machines Corporation Method, system, and program for handling redirects in a search engine
US7424467B2 (en) * 2004-01-26 2008-09-09 International Business Machines Corporation Architecture for an indexer with fixed width sort and variable width sort
US7293005B2 (en) * 2004-01-26 2007-11-06 International Business Machines Corporation Pipelined architecture for global analysis and index building
US20050246324A1 (en) * 2004-04-30 2005-11-03 Nokia Inc. System and associated device, method, and computer program product for performing metadata-based searches
US7788258B1 (en) * 2004-06-21 2010-08-31 Google Inc. Automatic determination of whether a document includes an image gallery
US7461064B2 (en) 2004-09-24 2008-12-02 International Buiness Machines Corporation Method for searching documents for ranges of numeric values
US20080195595A1 (en) * 2004-11-05 2008-08-14 Intellectual Property Bank Corp. Keyword Extracting Device
US7574434B2 (en) * 2005-02-25 2009-08-11 Sony Corporation Method and system for navigating and selecting media from large data sets
US8694494B2 (en) * 2005-03-25 2014-04-08 Vistaprint Schweiz Gmbh Selecting images using associated keywords
EP3002724A3 (en) 2005-05-23 2016-07-20 Open Text S.A. Distributed scalable media environment
US9648281B2 (en) 2005-05-23 2017-05-09 Open Text Sa Ulc System and method for movie segment bookmarking and sharing
US8141111B2 (en) 2005-05-23 2012-03-20 Open Text S.A. Movie advertising playback techniques
US8145528B2 (en) * 2005-05-23 2012-03-27 Open Text S.A. Movie advertising placement optimization based on behavior and content analysis
US8417693B2 (en) * 2005-07-14 2013-04-09 International Business Machines Corporation Enforcing native access control to indexed documents
US7933897B2 (en) 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
US7526486B2 (en) 2006-05-22 2009-04-28 Initiate Systems, Inc. Method and system for indexing information about entities with respect to hierarchies
US8332366B2 (en) 2006-06-02 2012-12-11 International Business Machines Corporation System and method for automatic weight generation for probabilistic matching
US7801907B2 (en) * 2006-06-13 2010-09-21 Alamy Limited Assignment of a display order to images selected by a search engine
US8356009B2 (en) 2006-09-15 2013-01-15 International Business Machines Corporation Implementation defined segments for relational database systems
US7685093B1 (en) 2006-09-15 2010-03-23 Initiate Systems, Inc. Method and system for comparing attributes such as business names
US7698268B1 (en) 2006-09-15 2010-04-13 Initiate Systems, Inc. Method and system for filtering false positives
US20080092189A1 (en) * 2006-09-21 2008-04-17 Clipblast, Inc. Web video distribution system for e-commerce, information-based or services websites
US8359339B2 (en) 2007-02-05 2013-01-22 International Business Machines Corporation Graphical user interface for configuration of an algorithm for the matching of data records
US8515926B2 (en) 2007-03-22 2013-08-20 International Business Machines Corporation Processing related data from information sources
US8423514B2 (en) 2007-03-29 2013-04-16 International Business Machines Corporation Service provisioning
US8370355B2 (en) 2007-03-29 2013-02-05 International Business Machines Corporation Managing entities within a database
WO2008121824A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for data exchange among data sources
WO2008121170A1 (en) 2007-03-29 2008-10-09 Initiate Systems, Inc. Method and system for parsing languages
US8086551B2 (en) 2007-04-16 2011-12-27 Blue Oak Mountain Technologies, Inc. Electronic system with simulated sense perception and method of providing simulated sense perception
US20090083332A1 (en) * 2007-09-21 2009-03-26 The Penn State Research Foundation Tagging over time: real-world image annotation by lightweight metalearning
US8713434B2 (en) 2007-09-28 2014-04-29 International Business Machines Corporation Indexing, relating and managing information about entities
CA2701043C (en) 2007-09-28 2016-10-11 Initiate Systems, Inc. Method and system for associating data records in multiple languages
BRPI0817507B1 (pt) 2007-09-28 2021-03-23 International Business Machines Corporation Método para análise de um sistema para associação de registro de dados, mídia de armazenamento legível por computador e sistema computacional para análise de um centro de identidade
US8200025B2 (en) * 2007-12-07 2012-06-12 University Of Ottawa Image classification and search
US9501337B2 (en) 2008-04-24 2016-11-22 Adobe Systems Incorporated Systems and methods for collecting and distributing a plurality of notifications
US8395643B2 (en) * 2008-05-20 2013-03-12 Microsoft Corporation Motion-based data review and zoom
US20100085481A1 (en) * 2008-07-23 2010-04-08 Alexandre Winter Frame based video matching
US8589495B1 (en) 2009-01-13 2013-11-19 Adobe Systems Incorporated Context-based notification delivery
US8458171B2 (en) * 2009-01-30 2013-06-04 Google Inc. Identifying query aspects
JP4853535B2 (ja) * 2009-03-13 2012-01-11 富士ゼロックス株式会社 議論支援装置及び議論支援プログラム
JP4811481B2 (ja) * 2009-03-13 2011-11-09 富士ゼロックス株式会社 議論支援装置及び議論支援プログラム
US8433136B2 (en) * 2009-03-31 2013-04-30 Microsoft Corporation Tagging video using character recognition and propagation
US8769421B2 (en) * 2009-04-30 2014-07-01 Apple Inc. Graphical user interface for a media-editing application with a segmented timeline
WO2011017746A1 (en) * 2009-08-11 2011-02-17 Someones Group Intellectual Property Holdings Pty Ltd Method, system and controller for searching a database
US9164998B2 (en) * 2010-07-29 2015-10-20 Sap Se Archive-system-independent archive-type objects
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8620907B2 (en) * 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US8953836B1 (en) 2012-01-31 2015-02-10 Google Inc. Real-time duplicate detection for uploaded videos
US11087206B2 (en) * 2017-04-28 2021-08-10 Intel Corporation Smart memory handling and data management for machine learning networks
US10353676B2 (en) 2017-11-13 2019-07-16 Bank Of America Corporation Intelligent software compiler dependency fulfillment

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0596247A3 (en) * 1992-11-02 1994-10-12 Motorola Inc Method for creating a complete document index, as well as for searching, retrieving and viewing.
DE4237150A1 (de) 1992-11-04 1994-05-05 Licentia Gmbh Staubsauger
US6182069B1 (en) * 1992-11-09 2001-01-30 International Business Machines Corporation Video query system and method
US5638465A (en) * 1994-06-14 1997-06-10 Nippon Telegraph And Telephone Corporation Image inspection/recognition method, method of generating reference data for use therein, and apparatuses therefor
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
US5742816A (en) * 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5911139A (en) * 1996-03-29 1999-06-08 Virage, Inc. Visual image database search engine which allows for different schema
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5913205A (en) * 1996-03-29 1999-06-15 Virage, Inc. Query optimization for visual information retrieval system
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
AU1365699A (en) 1997-10-27 1999-05-17 Imagen Incorporated Image search and retrieval system
US6084595A (en) * 1998-02-24 2000-07-04 Virage, Inc. Indexing method for image search engine
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6317740B1 (en) * 1998-10-19 2001-11-13 Nec Usa, Inc. Method and apparatus for assigning keywords to media objects
EP2264619A3 (en) 1998-11-30 2011-03-02 YUEN, Henry C. Search engine for video and graphics
US6611834B1 (en) * 2000-01-12 2003-08-26 International Business Machines Corporation Customization of information retrieval through user-supplied code
US6574616B1 (en) * 2000-02-16 2003-06-03 Index Stock Imagery, Inc. Stochastic visually based image query and retrieval system
US6718365B1 (en) * 2000-04-13 2004-04-06 International Business Machines Corporation Method, system, and program for ordering search results using an importance weighting
US7386170B2 (en) * 2000-06-30 2008-06-10 Texas Instruments Incorporated Image object ranking
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
US7099860B1 (en) * 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
US6970860B1 (en) * 2000-10-30 2005-11-29 Microsoft Corporation Semi-automatic annotation of multimedia objects
AUPR230700A0 (en) * 2000-12-22 2001-01-25 Canon Kabushiki Kaisha A method for facilitating access to multimedia content

Also Published As

Publication number Publication date
US7516129B2 (en) 2009-04-07
US20070143265A2 (en) 2007-06-21
US20040098399A1 (en) 2004-05-20
WO2002073463A1 (en) 2002-09-19
US20060190445A1 (en) 2006-08-24
SE0100856D0 (sv) 2001-03-13
US7539675B2 (en) 2009-05-26
EP1377915A1 (en) 2004-01-07
SE0100856L (sv) 2002-09-14

Similar Documents

Publication Publication Date Title
SE520533C2 (sv) Metod, datorprogram och system för indexering av digitaliserade enheter
US9031942B2 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
KR101732754B1 (ko) 콘텐츠 기반 이미지 검색
US6138113A (en) Method for identifying near duplicate pages in a hyperlinked database
US8276065B2 (en) System and method for classifying electronically posted documents
US8516357B1 (en) Link based clustering of hyperlinked documents
US7860317B2 (en) Generating search results based on duplicate image detection
US6832218B1 (en) System and method for associating search results
KR101820256B1 (ko) 시각 검색 및 삼차원 결과 제공 기법
US20100325138A1 (en) System and method for performing video search on web
US10210179B2 (en) Dynamic feature weighting
US7174346B1 (en) System and method for searching an extended database
US20090112830A1 (en) System and methods for searching images in presentations
US20110179002A1 (en) System and Method for a Vector-Space Search Engine
US8732187B1 (en) Link-based ranking of objects that do not include explicitly defined links
US20030018617A1 (en) Information retrieval using enhanced document vectors
EP1267280A2 (en) Method and apparatus for populating, indexing and searching a non-html web content database
EP1162553A2 (en) Method and apparatus for indexing and searching for non-html web content
KR100754157B1 (ko) 멀티미디어 콘텐츠를 위한 데이터베이스 구축 방법
Sugiyama et al. Improvement in TF‐IDF scheme for Web pages based on the contents of their hyperlinked neighboring pages
EP2083364A1 (en) Method for retrieving a document, a computer-readable medium, a computer program product, and a system that facilitates retrieving a document
Voutsakis et al. IntelliSearch: Intelligent search for images and text on the web
Chauhan et al. Design of an agent based context driven focused crawler
Yanai et al. A fast image-gathering system on the World-Wide Web using a PC cluster
Toyama et al. A community-based Web browsing system

Legal Events

Date Code Title Description
NUG Patent has lapsed