NL1013793C1 - Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. - Google Patents
Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. Download PDFInfo
- Publication number
- NL1013793C1 NL1013793C1 NL1013793A NL1013793A NL1013793C1 NL 1013793 C1 NL1013793 C1 NL 1013793C1 NL 1013793 A NL1013793 A NL 1013793A NL 1013793 A NL1013793 A NL 1013793A NL 1013793 C1 NL1013793 C1 NL 1013793C1
- Authority
- NL
- Netherlands
- Prior art keywords
- document
- target
- list
- field type
- search system
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
5
Korte aanduiding: Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering.
De onderhavig uitvinding heeft betrekking op een documentenzoeksysteem volgens de aanhef van de conclusie 1.
Metadata is data die een document beschrijft, per document 10 verdeeld in een aantal velden. Voorbeelden van veldtypen zijn auteursnaam, titel, datum van uitgave. Metadata kan per veld bestaan uit losse woorden, of meerdere bij elkaar horende woorden achter elkaar (bijvoorbeeld een naamwoordelijk zinsdeel). Een gangbare methode om metadata te produceren is de 15 zogenaamde full-text indexering^(Salton and McGill, 1983). Bij full-text indexering wordt elk woord uit het document gebruikt als indexterm, uitgezonderd een lijst van woorden die als niet-onderscheidend worden beschouwd (zoals lidwoorden en voorzetsels). De aldus verkregen indexen worden als 20 onderwerpsbeschrijvingen van het document opgenomen in één veld van de metadataverzameling. Naast full-text indexering bestaan er methoden die, in plaats van losse woorden, automatisch begripsaanduidingen identificeren in documenten. Soms ook worden niet alleen de begrippen geïdentificeerd uit de documenten zelf 25 en toegevoegd aan de metadata, maar ook nauw verwante begrippen daarvan. De laatste worden bijvoorbeeld geïdentificeerd in een thesaurus (ISO 2788 (1986) . ISO 2788, Documentation - Guidelines for the establishment and development of monolingual thesauri. Geneva: International Organization for Standardisation). Andere 30 metadata dan onderwerpsbeschrijvende wordt meestal handmatig aangemaakt, bijvoorbeeld de datum van uitgave.
Matching algoritmen zijn bekend, in allerlei varianten. Voorbeelden zijn Bools matchen en matchen volgens het 35 vectorruimte model (Salton, G. and McGill, M.J. (1983) .
Introduction to Modern Information Retrieval. McGraw-Hill, New York.).
1013795 2
Een matching algoritme creëert een relevantiewaarde bij elk document, welke waarde de relevantie voorspelt van het document voor de zoekvraag van een gebruiker. Sommige matching algoritmen produceren binaire relevantiewaarden. Andere berekenen een 5 waarde op een continu interval, en rangschikken de documenten op grond van deze waarden. Het aantal relevante documenten wordt dan bepaald als het aantal dat een relevantiewaarde behaalt groter dan een vooraf ingegeven grenswaarde.
10 Een zoekvraag is een string omvattend een of meerdere paren (<target>,<gewicht>), mogelijk gekoppeld door operatoren. Een zoekvraag wordt door het matching algoritme beoordeeld als functie van de gelijkenis van zijn targets met de metadata, rekening houdend met de gewichten. Een voorbeeld van een 15 operator in een zoekvraag is de Boolese conjunctiefunctie. Een gewicht is een getal dat aangeeft wat het relatieve belang is van de bijbehorende target in de zoekvraag. Doorgaans wordt dit getal gekozen in het interval [0;1] en geeft de waarde 1 aan dat het target van groot belang is.
20
Een target is een string bestaand uit een of meerdere termen, mogelijk gekoppeld door operatoren. Een target wordt door het matching algoritme gematcht als functie van de gelijkenis van zijn termen met de metadata. Een voorbeeld van een operator in 25 een term is de Boolese disjunctiefunctie. Een target kan op zich wederom per term een gewicht bevatten, dat aangeeft hoe belangrijk de term in de target is.
Een term is een string zonder operatoren, die met metadata kan 30 worden gematcht volgens een functie die de gelijkenis (volgens een gegeven criterium) berekent tussen term en metadata. Een eenvoudig voorbeeld van een dergelijke functie is de identiteitsfunctie; bij deze functie wordt een term gematcht indien deze identiek is aan metadata in een veld.
35
Een systeem als beschreven in de aanhef van de hoofdconclusie wordt reeds enige tijd toegepast, bijvoorbeeld in het bekende 1 ü i ύ ? : 3
Dialog zoeksysteem (nu Dialog Classic geheten, en afkomstig van The Dialog Corporation te Londen). Dialog en soortgelijke zoeksystemen bieden een gebruiker de mogelijkheid om te zoeken al dan niet met een geselekteerd zoekveldtype; bij afwezigheid 5 van een selektie worden alle zoekveldtypen (uit een vaste deelverzameling van veldtypen, de zogenaamde basic-index) doorzocht. In antwoord op de zoekvraag presenteert het zoekalgoritme de gebruiker via een beeldscherm de gegevens uit de relevantieverzameling. Het Dialog zoeksysteem biedt de 10 mogelijkheid om per veldtype de informatie (<veldtype-id>, <aantal~hits>) op te vragen, maar per veldtype moet men de zoekvraag opnieuw ingeven. De gebruiker kan de op deze omslachtige wijze verkregen gegevens zelf gebruiken om vervolgens een verfijnde zoekvraag te maken; het Dialog systeem 15 zelf doet er (naast het tonen aan de gebruiker) niets mee.
Dialog en soortgelijke bekende zoeksystemen hebben als nadeel dat de gebruiker zelf een selectie moet maken van de zoekveldtypen die in de zoekvraag kunnen worden ingevuld. Vaak 20 zal de gebruiker dan alle veldtypen selecteren, of een min of meer willekeurige deelverzameling daaruit, omdat vooraf niet bekend is welk veldtype leidt tot het meest bruikbare antwoord. Nadat de gebruiker een selectie heeft gemaakt, wordt de zoekvraag door het zoekalgoritme verwerkt en wordt de verkregen 25 relevantielijst op een beeldscherm getoond. Daarna kan de gebruiker zelf handmatig een selectie maken uit de veldtypen, op grond van de na het matchen getoonde informatie. Door het maken van deze selectie kan de gebruiker een verfijnde zoekvraag opstellen en deze vervolgens laten verwerken door het 30 zoekalgoritme. Dit is een mentaal inspannende werkwijze, aangezien deze vereist dat de gebruiker zelf de voor hem relevante informatie herkent tussen en selecteert uit alle gegeven informatie.
35 Tevens is uit het Amerikaanse octrooischrift ÜS 5 983 216 een zoeksysteem bekend waarin automatisch op grond van het matchen van een lijst met metadata een document collectie wordt gekozen 1 0 1 3 7 9 3 4 uit een verzameling document collecties. De document collecties kunnen hierbij weliswaar worden beschouwd als deelcollecties van de totale collectie die door middel van een zoekveld kunnen worden aangeduid, maar deze deelcollecties zijn volgens de 5 beschrijving van het genoemde octrooi fysiek gescheiden opgeslagen, en voorzien van afzonderlijke zoeksystemen met bijbehorende gescheiden metadatalijsten. De automatische selectie van de documentcollectie(s) op grond van metadata gebeurt dan ook met de bedoeling om vervolgens verder te zoeken 10 in een of meerdere van de afzonderlijke zoeksystemen (en bijbehorende eigen metadataverzameling) en niet om een (verdere) selectie te maken op grond van matching informatie over andere zoekvelden dan het zoekveld dat de documentencollectie aanduidt. Het zoeken op veldtypen is ongebruikelijk in het 15 toepassingsgebied van Infoseek: het World Wide Web. Voor zover dit toch gebeurt, geldt hetzelfde nadeel als genoemd bij Dialog.
De uitvinding beoogt bovengenoemd nadeel op te heffen. De uitvinding verschaft daartoe een documentenzoeksysteem volgens 20 conclusie 1.
In het systeem volgens de uitvinding wordt minder irrelevante informatie getoond dan in een systeem volgens de stand der techniek. De informatie die wordt weggefilterd en dus niet wordt 25 getoond is niet van belang voor de effectiviteit van het zoekproces van de gebruiker. Deze niet-relevante informatie omvat ten eerste de drie-tuples waarvoor de lijst van document identificatoren een lege verzameling is, oftewel de combinaties van target en veldtype waarvoor geen relevante documenten zijn 30 gevonden. Daarnaast bevat deze informatie de drie-tuples met elk een de lijst van document identificatoren die identiek is aan de lijst van document identificatoren van de gehele documentenverzameling, oftewel de combinaties van target en veldtype waarvoor alle documenten relevant zijn bevonden. Door 35 deze twee soorten drie-tuples niet te tonen wordt de gebruiker minder afgeleid door irrelevante informatie en vindt hij met 10'^ 7 0! 5 minder mentale inspanning de informatie op grond waarvan hij het zoeksysteem effectief kan bedienen.
In voordelige uitvoeringsvormen zijn de paren 5 ((<target>,<gewicht>), <veldtype-id>) in de getoonde lijst geordend naar <veldtype-id>, volgens een toenemende lengte of volgens een afnemende lengte van de lijst van document identificatoren bij elk der genoemde paren. Een dergelijke ordening maakt het voor de gebruiker aanzienlijk gemakkelijker 10 om de voor hem interessante veldtypen te vinden in de getoonde lijst, aangezien de veldtypen die slechts weinig relevante documenten opleveren voorin of juist achterin de lijst staan, en zo extra opvallen. Het zijn juist deze veldtypen die men relatief vaak zal selecteren voor een volgende zoekvraag.
15
In een volgende voordelige uitvoeringsvorm kan de gebruiker elk der elementen <veldtype-idlijst> van de paren ((<target>,<gewicht>), <veldtype-idlijst>) in de zoekvraag via de invoermiddelen wijzigen, zonder dat een der elementen 20 (<target>,<gewicht>) verandert. Dit heeft als voordeel dat de gebruiker het zoekalgoritme met velden van een ander type kan laten zoeken, zonder opnieuw de gehele zoekvraag in te geven.
Dit reduceert het aantal handelingen alsmede de benodigde mentale inspanning.
25
In een verdere voordelige uitvoeringsvorm stelt het zoekalgoritme na het tonen van de gefilterde relevantieverzameling als standaardinstelling automatisch alle in de metadataverzameling aanwezige veldtypen in bij elke 30 combinatie (<target>,<gewicht>) in <veldtype-idlijst>, in reactie op een toevoeging via de invoermiddelen van een of meer targets in de zoekvraag. Na een toevoeging van een target zal men doorgaans opnieuw willen zoeken in alle veldtypen, en pas daarna weer een of enkele veldtypen willen selecteren. De 35 terugstelling naar alle veldtypen gebeurt in deze uitvoeringsvorm automatisch, en vermindert derhalve het aantal benodigde handelingen en de mentale inspanning.
1013793 6
Voorts is het voordelig om alle document identificatoren voorkomend in de gefilterde relevantieverzameling te laten tonen middels de uitvoermiddelen, gerangschikt naar criteria op basis 5 van de gegevens die de relevantieverzameling geeft over de individuele veldmetadata. Zo kunnen de documenten met de hoogste voorspelde relevantie bovenaan de lijst komen te staan, en derhalve makkelijk worden onderscheiden van de andere documenten.
10
De rangschikking vindt daarbij met voordeel plaats volgens een der functiewaarden rl, r2, r3 en r4 zoals bepaald in de conclusies 7 tot en met 10.
15 Ten aanzien van de maatregelen volgens conclusie 9 wordt opgemerkt dat de veldlengte per zoeksysteem verschillend kan worden berekend. Indien het begrip term is bepaald als een enkel woord, dan is de veldlengte gelijk aan het aantal woorden. Als term is bepaald als de woorden die een begrip aanduiden, dan is 20 veldlengte gelijk aan het aantal begrippen in dat veld. Bij dat laatste kan men er zowel voor kiezen alleen alle disjuncte begrippen te tellen, alsmede ook deelbegrippen van samengestelde begrippen te tellen, die dus overlappen. Het begrip 'lineaire algebra' telt dan tenminste tweemaal, namelijk eenmaal als 25 algebra en eenmaal als lineaire algebra.
Het is bijzonder voordelig als de rangschikking niet volgens een enkel criterium plaats vindt zoals bovengenoemd, maar volgens een getrapt sorteeralgoritme waarin het aantal trappen tenminste 30 twee bedraagt en waarin in een of meer der tenminste twee trappen wordt gesorteerd op grond van een der bovengenoemde functiewaarden rl, r2, r3 en r4. Getrapte sorteeralgoritmen op basis van een vergelijkingsfunctie zijn op zich bekend (Kernighan, B.W. and Ritchie, D.M. (1988), "Qsort", The C 35 programming language. Prentice-Hall. Englewood Cliffs, New
Jersey). Ze werken volgens het principe dat de documententen in een iteratief proces herhaald paarsgewijs worden gesorteerd, : fl 1 7 P 7 7 waarbij telkens een enkel criterium wordt geprobeerd. In elke vergelijking waarin dat criterium geen uitsluitsel biedt, wordt een tweede criterium gebruikt. Dit omschakelen naar een volgend criterium kan worden voortgezet totdat het aantal criteria 5 gelijk is aan het aantal trappen. Deze wijze van sorteren staat bekend als zeer effectief, en is dat ook bij toepassing in een zoeksysteem volgens de uitvinding.
Bij een dergelijke wijze van sorteren komen documenten met sterk 10 afwijkende waarden van de sorteercriteria helemaal vooraan de gesorteerde lijst. Ze vallen daardoor extra op, en de gebruiker kan ze snel beoordelen op relevantie, zonder een hele lijst van documenten te moeten doorlopen. Het zijn vaak juist de heel relevante of de heel irrelevante documenten.
15
Het is daarbij bovendien voordelig als de gebruiker zelf voorafgaand aan het matchen de volgorde van de trappen in de getrapte sortering kan instellen. Het systeem doet hierbij met voordeel een suggestie ten aanzien van de instelling van de 20 volgorde van de getrapte sortering volgens de in conclusie 14 bepaalde regel.
De gefilterde relevantieverzameling kan met voordeel verder worden verkleind, door een selectie toe te passen. Dit reduceert 25 in sommige gevallen de hoeveelheid getoonde en voor het verdere zoekproces irrelevante informatie op de visuele presentatiemiddelen nog verder. Een dergelijke verdere verkleining van de gefilterde relevantieverzameling kan worden gerealiseerd door aan elk der drie-tuples uit de gefilterde 30 relevantieverzameling een waardering R toe te kennen, die een functie is van tenminste een der bovengenoemde functiewaarden rl, r2, r3 en r4, en uit de gefilterde relevantieverzameling de drie-tuples te verwijderen waarvan de waardering R kleiner is dan of gelijk is aan een vooraf ingestelde grenswaarde.
35 Het toekennen van een waardering aan documenten en vervolgens selecteren op grond van een grenswaarde is bekend, zoals hierboven reeds genoemd. Het is echter niet bekend in combinatie 1 0 1 3 79 3 8 met de voorafgaande automatische veldtype-waardering volgens de uitvinding.
In een bijzondere uitvoering wordt deze verdere verkleining 5 uigevoerd met een waarde van R die gelijk is aan rl en waarbij de vooraf ingestelde grenswaarde gelijk is aan de som van de gewichten van de targets in de zoekvraag. Aldus ontstaat hetzelfde effect als bij de Boolese conjunctie-operatie tussen de targets.
10
In een volgende bijzondere uitvoering wordt de waarde van R zodanig ingesteld dat bij periodiek herhaalde uitvoering van de zoekvraag een vooraf geschat gekozen aantal nieuwe documenten per tijdsinterval arriveert. Dit kan in een groeiende 15 documentenverzameling, zoals een verzameling periodiek verschijnende uitgaven, bijvoorbeeld dagelijks verschijnende kranten, weekbladen en maandelijks uitgegeven tijdschriften. Daarnaast is het voordelig voor documentverzamelingen waaraan met grote regelmaat nieuwe documenten worden toegevoegd, zoals 20 octrooiverzamelingen. Een dergelijke instelling is mogelijk door de schatting te maken met de formule genoemd in conclusie 16.
De uitvinding zal hierna nader worden toegelicht aan de hand van de tekening. Daarbij toont: 25 figuur 1 een blokschema van een documentenzoeksysteem volgens de uitvinding, figuur 2 een voorbeeld van een zoekvraag en een gedeelte van de bijbehorende relevantieverzameling, weergegeven volgens een layout gelijkend op een layout die op een beeldscherm zou kunnen 30 worden getoond, en figuur 3 een voorbeeld van een ander gedeelte van de relevantieverzameling behorende bij figuur 2, namelijk de gerangschikte lijst documenten behorende bij de document identificatoren uit de relevantieverzameling.
35
In figuur 1 is een zoeksysteem 1 volgens de uitvinding getoond, waartoe invoermiddelen 2, uitvoermiddelen 3 en data-
10^.;·: ? fjj T
9 opslagmiddelen 4 behoren, welke dataopslagmiddelen 4 tenminste een metadataverzameling 5 en een zoekalgoritme 6 bevatten. De in- en uitvoermiddelen 2,3, en de data-opslagmiddelen 4 zijn door data-communicatiemiddelen 8 verbonden met een 5 verwerkingseenheid 7, op zodanige wijze dat een computersysteem is verschaft waarop het zoekalgoritme volgens de uitvinding kan worden uitgevoerd. De metadataverzameling bevat data die de documenten van een documentenverzameling beschrijven. Elk van de documenten in de verzameling is opgebouwd uit een aantal velden, 10 waaronder velden voor titel, auteur, jaar van uitgave, document inhoud, ISBN-nummer, etc.
De invoermiddelen 2 omvatten in dit voorbeeld een toetsenbord 9 en een computermuis 10. De uitvoermiddelen 3 omvatten grafische presentatiemiddelen in de vorm van een beeldscherm 11.
15
Aanvullend, maar niet getoond in de figuren, bevatten de dataopslagmiddelen 5 een indexeeralgoritme alsmede de documentenverzameling. Deze behoren niet tot de uitvinding, maar zijn wel nuttig. Het indexeeralgoritme is gebruikt om de 20 metadataverzameling aan te maken, en kan worden gebruikt om deze te vernieuwen; dit is nodig zodra er nieuwe documenten aan de verzameling worden toegevoegd. De documentenverzameling dient om de documenten te tonen, nadat een gebruiker deze heeft geselecteerd uit een relevantieverzameling die hij heeft 25 verkregen na het matchen van zijn zoekvraag.
Figuur 2 toont schematisch een afdruk van de grafische presentatiemiddelen van het zoeksysteem volgens figuur 1. De totale documentenverzameling omvat 50.000 documenten. Aan de 30 linker zijde is de zoekvraag getoond; deze heeft twee targets: "Laurent" en "1990". Beide gewichten in de zoekvraag zijn gelijk aan 1. Beide targets moeten in alle veldtypen (auteur, titel, jaar van uitgave, uitgever, ISBN-nummer, classificatie bibliotheek, etc) worden gematcht. Na het matchen, dat gebeurt 35 op een commando van de gebruiker, wordt aan de rechter zijde getoond hoeveel keer elk target is gematcht in een gegeven veldtype. Volgens de uitvinding worden hier slechts sommige 1 0 1 3 7 9 3 10 veldtypen getoond, namelijk de veldtypen die voor de gebruiker nuttige informatie bevatten. De veldtypen waarop geen documenten zijn gematcht bij een gegeven target worden niet getoond.
Evenmin worden de veldtypen getoond die tijdens het matchen alle 5 documenten uit de gehele documentenverzameling als relevante documenten opleverden. Derhalve worden voor het target "Laurent" de veldtypen "auteur" en "titel" getoond, en voor target "1990" de veldtypen "jaar van uitgave" en "titel". Deze veldtypen zijn geordend volgens afnemend aantal document identificatoren dat 10 matcht; een dergelijke ordening bevordert de overzichtelijkheid, vooral in die gevallen waarin in drie of meer veldtypen documenten zijn gematcht.
Ter informatie aan de gebruiker zijn de totale omvang van de 15 documentenverzameling alsmede het totale aantal gematchte documenten getoond. De gebruiker kan op grond van de getoonde informatie over de relevantieverzameling een verfijnde zoekvraag formuleren door in de linkerzijde van het beeldscherm targets en/of veldtypen te wijzigen. Het wijzigen van veldtypen alleen 20 kan met gemak plaats vinden op grond van de gegeven informatie over het aantal gematchte documenten per veldtype. Het toevoegen van een target leidt tot automatische instelling van het veldtype voor dat target in de zoekvraag op "alle". De gebruiker kan echter deze instelling naar believen zelf wijzigen. Het 25 toevoegen van een target gebeurt met behulp van een commando door de gebruiker via de invoermiddelen.
Figuur 3 toont documentgegevens van de documenten uit de relevantieverzameling, dat wil zeggen documenten waarnaar in de 30 document identificatorenlijst van de relevantieverzameling wordt verwezen. De documenten zijn getoond als een lijst die is gerangschikt naar relevantie van de documenten voor de zoekvraag. De relevantie is bepaald volgens een getrapt sorteeralgoritme, waarin eerst naar rl wordt gesorteerd, 35 vervolgens naar r2, en tenslotte naar r3, waarbij rl, r2 en r3 zijn gedefinieerd volgens de conclusies. Dat wil zeggen dat het belangrijkste criterium is: de som van het aantal gewichten van ’013793 11 alle keren dat een document wordt gematcht (dat wil zeggen relevant wordt bevonden) in een combinatie van target en veldtype. Aangezien de gewichten van beide targets gelijk zijn aan 1, komt dit overeen met het totale aantal keren dat het 5 document (althans zijn identificator) voorkomt in de relevantieverzameling.
In de figuur 3 zijn de waarden van rl, r2 en r3 getoond, voor zover nuttig voor deze toelichting. Het is duidelijk zichtbaar 10 dat bij documenten 1 en 2 dezelfde waarde voor rl geldt. Deze twee documenten worden daarom vervolgens gesorteerd naar r2, die wel verschillende waarden heeft. Voor de documenten 4 en 5 hebben zowel rl als r2 dezelfde waarde, en daarom wordt gesorteerd op grond van r3.
15
Het in de figuren 1 tot en met 3 getoonde zoeksysteem volgens de uitvinding bespaart de gebruiker mentale inspanning door zijn automatische selectie en ordening van te tonen veldtypen uit de relevantieverzameling, en door rangschikking van de documenten 20 in de relevantieverzameling. Daarnaast kunnen andere maatregelen volgens de conclusies het gebruikersgemak verder vergroten.
1013793
Claims (15)
1. Documentenzoeksysteem (1), omvattende 5 - data opslagmiddelen (4) die tenminste de volgende data bevatten: - een metadataverzameling (5) met een verzameling drie-tuples (<metadata>, <veldtype-id>, <doc-id-lijst>), welke metadataverzameling is verkregen uit een 10 verzameling documenten en is opgebouwd uit een aantal velden, waarbij aan elk veld een veldtype-identificator <veldtype-id> is toegekend, en in welke metadataverzameling elk drie-tuple aanduidt dat voor alle documenten in de niet-lege lijst met document 15 identificatoren <doc-id-lijst> het element <metadata> metadata is van een veld geïdentificeerd door <veldtype-id>, en - een zoekalgoritme (6) omvattende een matching algoritme dat als invoer een zoekvraag heeft, welke zoekvraag 20 tenminste omvat een opsomming van paren ((<target>,<gewicht>), <veldtype-idlijst>), in welke paren <gewicht> een reëel getal is op het interval [0;1], en welk matching algoritme als invoer de metadataverzameling heeft, en per <veldtype-id> de 25 waarden van <metadata> uit de metadataverzameling vergelijkt met de waarden van <target> uit de zoekvraag en in de vergelijking <gewicht> betrekt, en welk matching algoritme als uitvoer een relevantieverzameling heeft die bestaat uit drie-tuples (<target>, Cveldtype-30 id>, <doc-idlijst>), welke relevantieverzameling per unieke combinatie van <metadata > en <veldtype-id> een lijst van document identificatoren <doc-idlijst> bevat waarin de identificatoren documenten aanduiden welke door het matching algoritme als voldoende relevant voor 35 de zoekvraag zijn beoordeeld, - invoermiddelen (3), 10 1 3 79 3 - uitvoermiddelen (2), tenminste omvattende visuele presentatiemiddelen, - een verwerkingseenheid (7) die via datacommunicatiemiddelen (8) is verbonden met de genoemde data opslagmiddelen, 5 invoermiddelen en uitvoermiddelen, en deze middelen bestuurt en op een via de invoermiddelen gegeven commando het zoekalgoritme uitvoert, in welk zoeksysteem 10. het zoekalgoritme een invoergebied toont op de visuele presentatiemiddelen, - in het invoergebied door een gebruiker een zoekvraag kan worden ingegeven via de invoermiddelen, in welke zoekvraag bij elk target de lijst van veldidentificatoren <veldtype-idlijst> 15 als standaardinstelling alle waarden van <veldtype-id> bevat die in de metadataverzameling aanwezig zijn, en bij welk invoergebied via de invoermiddelen door de gebruiker een commando kan worden gegeven voor het activeren van het matching algoritme, en 20. waarbij het zoekalgoritme een deel van de relevantieverzameling in een naar target geordende lijstvorm op de visuele presentatiemiddelen toont, zodanig dat per paar (<target>,<veldtype-id>) uit de relevantieverzameling tenminste het aantal elementen uit de lijst van document identificatoren 25 <doc-idlijst> is getoond, met het kenmerk, dat - het matching algoritme uit de relevantieverzameling drie-tuples verwijdert zodanig dat een gefilterde 30 relevantieverzameling ontstaat welke alleen drie-tuples omvat waarin de lijst van document identificatoren <doc-idlijst> een niet-lege verzameling is, en waarin de lijst van document identificatoren <doc-idlijst> niet identiek is aan de lijst van document identificatoren <doc-idlijst> van de gehele 35 documentenverzameling. 10 1 3 713
2. Documentenzoeksysteem volgens conclusie 1, met het kenmerk, dat de paren ( (<target>,<gewicht>), <veldtype-id>) in de getoonde lijst zijn geordend naar <veldtype-id>, volgens een toenemende lengte van de lijst van document identificatoren bij 5 elk der genoemde paren.
3. Documentenzoeksysteem volgens conclusie 1, met het kenmerk, dat de paren ((<target>,<gewicht>), <veldtype-id>) in de getoonde lijst zijn geordend naar <veldtype-id>, volgens een 10 afnemende lengte van de lijst van document identificatoren bij elk der genoemde paren.
4. Documentenzoeksysteem volgens een der conclusies 1-3, met het kenmerk, dat de gebruiker elk der elementen <veldtype- 15 idlijst> van de paren ((<target>, <gewicht>), <veldtype-id>) in de zoekvraag via de invoermiddelen kan wijzigen, zonder dat een der elementen (<target>,<gewicht>) verandert.
5. Documentenzoeksysteem volgens conclusie 4, met het kenmerk, 20 dat het zoekalgoritme na het tonen van de gefilterde relevantieverzameling als standaardinstelling automatisch alle in de metadataverzameling aanwezige veldtypen instelt bij elke (<target>,<gewicht>) in <veldtype-idlijst>, in reactie op een toevoeging via de invoermiddelen van een of meer targets in de 25 zoekvraag.
6. Documentenzoeksysteem volgens een der conclusies 1-5, met het kenmerk, dat alle document identificatoren voorkomend in de gefilterde relevantieverzameling gerangschikt naar relevantie 30 worden getoond op de uitvoermiddelen.
7. Documentenzoeksysteem volgens conclusie 6, met het kenmerk, dat de rangschikking plaatsvindt volgens de functiewaarde rl, die is gedefinieerd als rl(< doc — id >) = Σ« gewicht >)largel alle paren (ctaiget >, <veldlype-id>) die <doc-id> opleveren 35 10 1 3 7 9 3
8. Documentenzoeksysteem volgens conclusie 6, met het kenmerk, dat de rangschikking plaats vindt volgens de functiewaarde r2, die is gedefinieerd als r2 (< doc - id >) = , gewicht (< target >) alle (aantal elementen in < doe - idlijst »target,veidtype-id (<target>, <veldtype-id>) die <doc-id> opleveren 5
9. Documentenzoeksysteem volgens conclusie 6, met het kenmerk, dat - de relevantieverzameling bestaat uit drie-tuples (<target>, <veldtype-id>, <document gegevens>) in welke drie-tuples 10 <document gegevens> wederom een lijst is van drie-tuples (<document-id>, clengte van het veld met veldtype <veldtype-id> gemeten in targets>, <aantal keer dat de target <target> in het veld voorkomt>, en - de rangschikking plaats vindt volgens de functiewaarde r3, die 15 is gedefinieerd als r3 (< doc - id >) = MclX gewicht (< target >) * f (< target > , < veldtype - id > alle paren (<target>, <veldtype-idj·) die <doc-id> opleveren met , < aantal keer dat de target < targe t> in het veld is gematcht> J (< target>, < veldtype- id >) =- < lengtevanhet veld met veldtype<veldtype- id > gemeterin targets>
10 Dtotaal waarin Dnieuw gematcht = aantal verwachte nieuw-gematchte documenten in een tijdsinterval t bij gegeven R,
10. Documentenzoeksysteem volgens conclusie 6, met het kenmerk, dat de metadataverzameling een veldtype omvat voor het opslaan van de datum van toevoeging van een document identificator aan de metadataverzameling, waarmee aan elke document identificator precies één dergelijke datum is toegekend als <metadata> bij het 25 veld van dit type, en welk documentenzoeksysteem de rangschikking plaats vindt volgens de functiewaarde r4, waarin r4 <<doc-id>) = ((huidige datum) - (datum van toevoeging van het document met <doc-id>)) / ((huidige datum) - (datum van 30 toevoeging van het oudste document uit de documentencollectie)). 10 1 3 79 3
11. Documentenzoeksysteem volgens conclusie 6, met het kenmerk, dat de rangschikking plaats vindt volgens een getrapt sorteeralgoritme waarin het aantal trappen tenminste twee 5 bedraagt en waarin in een of meer der tenminste twee trappen wordt gesorteerd op grond van een der bovengenoemde functiewaarden rl, r2, r3 en r4.
12. Documentenzoeksysteem volgens conclusie 11, met het kenmerk, 10 dat de gebruiker voorafgaand aan het matchen de volgorde van de trappen in de getrapte sortering kan instellen.
13. Documentenzoeksysteem volgens conclusie 12, met het kenmerk, dat het zoekalgoritme een suggestie doet ten aanzien van de 15 instelling van de volgorde van de getrapte sortering volgens de volgende regel: als de zoekvraag < 4 targets bevat, dan functiewaarde rl als eerste trap, functiewaarde r2 als tweede trap, functiewaarde r3 als derde trap, en functiewaarde r4 als vierde trap, 20 als de zoekvraag >4 targets bevat, dan functiewaarde r2 als eerste trap, functiewaarde rl als tweede trap, functiewaarde r3 als derde trap, en functiewaarde r4 als vierde trap.
14. Documentenzoeksysteem volgens een of meerdere der conclusies 25 6-13, met het kenmerk, dat - aan elk der drie-tuples uit de gefilterde relevantieverzameling een waardering R wordt toegekend, die een functie is van tenminste een der bovengenoemde functiewaarden rl, r2, r3 en r4, en 30 - uit de gefilterde relevantieverzameling de drie-tuples worden verwijderd waarvan de waardering R kleiner is dan of gelijk is aan een vooraf ingestelde grenswaarde. 1 2 10 1 3 7 9 3 Documentenzoeksysteem volgens conclusie 14, met het kenmerk, 35 dat R gelijk is aan rl en de vooraf ingestelde grenswaarde 2 gelijk is aan de som van de gewichten van de targets in de zoekvraag.
16. Documentenzoeksysteem volgens conclusie 14, met het kenmerk, dat de waarde van R zodanig wordt ingesteld dat bij periodiek herhaalde uitvoering van de zoekvraag een vooraf geschat gekozen 5 aantal nieuwe documenten per tijdsinterval arriveert, waarbij de schatting is gemaakt met de formule Dtotaal gematcht bij R Dnieuw gematcht = -----------------------------* Dgroei
15 Dtotaal gematcht bij R = het totaal aantal document identificatoren in de gefilterde relevantieverzameling bij R, Dtotaal = het totale aantal document identificatoren in de metadataverzameling, Dgroei = het aantal aan de. metadataverzameling toegevoegde 20 document identificatoren in het tijdsinterval t. 1 10 1 3 7 9 3 Werkwijze voor het zoeken van documenten met gebrukmaking van een documentenzoeksysteem volgens een of meer van de voorgaande conclusies.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL1013793A NL1013793C1 (nl) | 1999-12-08 | 1999-12-08 | Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. |
EP00204386A EP1107133A1 (en) | 1999-12-08 | 2000-12-07 | Document search system with automatic field selection and field controlled document ranking |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL1013793A NL1013793C1 (nl) | 1999-12-08 | 1999-12-08 | Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. |
NL1013793 | 1999-12-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
NL1013793C1 true NL1013793C1 (nl) | 2001-06-11 |
Family
ID=19770392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NL1013793A NL1013793C1 (nl) | 1999-12-08 | 1999-12-08 | Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. |
Country Status (2)
Country | Link |
---|---|
EP (1) | EP1107133A1 (nl) |
NL (1) | NL1013793C1 (nl) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4381012B2 (ja) * | 2003-03-14 | 2009-12-09 | ヒューレット・パッカード・カンパニー | 万物識別子を用いたデータ検索システムおよびデータ検索方法 |
CN110379089A (zh) * | 2019-07-30 | 2019-10-25 | 苏州市永固金属制品有限公司 | 一种基于记忆检录功能的智能密集架 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826260A (en) * | 1995-12-11 | 1998-10-20 | International Business Machines Corporation | Information retrieval system and method for displaying and ordering information based on query element contribution |
US5940821A (en) * | 1997-05-21 | 1999-08-17 | Oracle Corporation | Information presentation in a knowledge base search and retrieval system |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
-
1999
- 1999-12-08 NL NL1013793A patent/NL1013793C1/nl not_active IP Right Cessation
-
2000
- 2000-12-07 EP EP00204386A patent/EP1107133A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP1107133A1 (en) | 2001-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2006266103B2 (en) | Determination of a desired repository | |
US9311421B2 (en) | User readability improvement for dynamic updating of search results | |
US7801907B2 (en) | Assignment of a display order to images selected by a search engine | |
US7814099B2 (en) | Method for ranking and sorting electronic documents in a search result list based on relevance | |
EP1060449B1 (en) | Identifying the items most relevant to a current query based on items selected in connection with similar queries | |
KR100295354B1 (ko) | 문서 정보 검색 시스템 | |
US20080162447A1 (en) | Configurable search strategy | |
US20070174270A1 (en) | Knowledge management system, program product and method | |
US20070250500A1 (en) | Multi-directional and auto-adaptive relevance and search system and methods thereof | |
US6850954B2 (en) | Information retrieval support method and information retrieval support system | |
JPH08190564A (ja) | 情報検索方法及びシステム | |
EP1797511A1 (en) | Providing information relating to a document | |
JPH03108064A (ja) | 情報検索方法及びシステム | |
CN101185074A (zh) | 用于事实查询引擎的带有来自信息源的包含查询词语和回答词语的片段的用户界面 | |
KR102102307B1 (ko) | 다수의 스토리지를 갖는 데이터베이스 관리시스템에서 블룸필터를 이용한 벡터화 기반의 스토리지 탐색 방법 | |
US20110066620A1 (en) | Automated Boolean Expression Generation for Computerized Search and Indexing | |
US7634475B1 (en) | Relevance scoring based on optimized keyword characterization field combinations | |
NL1013793C1 (nl) | Documentenzoeksysteem met automatische veldselectie en veldgestuurde documentsortering. | |
JP2010152862A (ja) | 文章体特定装置およびコンピュータに文章体を特定させるためのプログラム | |
EP1170677B1 (en) | Method and system of weighted context feedback for result improvement in information retrieval | |
Morris | A weighted O* Net keyword search (WWS) | |
WO2008005493A2 (en) | Relevance ranked faceted metadata search method and search engine | |
EP1865428A1 (en) | Systems for assigning a display order to images selected by a search engine | |
US9449098B2 (en) | System and method for performing a multiple pass search | |
Green et al. | Multi-source and ontology-based retrieval engine for maize mutant phenotypes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
VD1 | Lapsed due to non-payment of the annual fee |
Effective date: 20050701 |