NL1020670C2 - Het bepalen van een semantische afbeelding. - Google Patents

Het bepalen van een semantische afbeelding. Download PDF

Info

Publication number
NL1020670C2
NL1020670C2 NL1020670A NL1020670A NL1020670C2 NL 1020670 C2 NL1020670 C2 NL 1020670C2 NL 1020670 A NL1020670 A NL 1020670A NL 1020670 A NL1020670 A NL 1020670A NL 1020670 C2 NL1020670 C2 NL 1020670C2
Authority
NL
Netherlands
Prior art keywords
document
list
words
semantic
documents
Prior art date
Application number
NL1020670A
Other languages
English (en)
Inventor
Robertus Cornelis Wil Tillaart
Original Assignee
Oce Tech Bv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Tech Bv filed Critical Oce Tech Bv
Priority to NL1020670A priority Critical patent/NL1020670C2/nl
Priority to JP2003130235A priority patent/JP2004038944A/ja
Priority to EP03076553A priority patent/EP1365331A3/en
Priority to US10/443,229 priority patent/US20030221160A1/en
Application granted granted Critical
Publication of NL1020670C2 publication Critical patent/NL1020670C2/nl

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Description

(
Het bepalen van een semantische afbeelding.
5 De uitvinding heeft betrekking op een werkwijze voor het karakteriseren van een document, in het bijzonder voor het herkennen, organiseren of relateren van documenten, waarbij een reeks van statistische eigenschappen van de tekst in het document wordt bepaald.
De uitvinding heeft verder betrekking op een computer programma product voor 10 het karakteriseren van een document, en op een data signaal.
De uitvinding heeft verder betrekking op inrichting voor het behandelen van documenten, welke inrichting een module bevat voor het karakteriseren van een document door een reeks van statistische eigenschappen van de tekst van het document, in het bijzonder voor het herkennen, organiseren of relateren van - 15 documenten.
US-A 5,418,951 beschrijft een werkwijze voor het identificeren, terugzoeken, of sorteren op taal of onderwerp van documenten. Hiertoe wordt een reeks van n-grammen bepaald per document, waarbij een n-gram een combinatie van n letters of 20 spaties is. Van ieder n-gram wordt de frequentie bepaald, te weten hoe vaak dit n-gram voorkomt in het document. De reeks n-grammen en frequenties wordt verder bewerkt door normaliseren van de frequentie en het verwijderen van een gemeenschappelijke component. Op basis van de reeks n-grammen wordt bepaald in welke taal het document (waarschijnlijk) is opgesteld door een vergelijking met bekende reeksen van 25 documenten in die taal. Eveneens kan een verwantschap van een onbekend document met bekende documenten in een database worden bepaald door vergelijken van de reeksen n-grammen.
Een probleem van het bekende systeem is, dat het karakteriseren van documenten op basis van de reeks n-grammen slechts een beperkt onderscheidend 30 vermogen heeft.
De uitvinding stelt zich onder meer ten doel een systeem te verschaffen waarbij een beter onderscheid tussen documenten gemaakt wordt.
1020670 2
Volgens een eerste aspect van de uitvinding heeft een werkwijze volgens de aanhef het kenmerk dat een lijst van woorden wordt bepaald die in het document voorkomen, en dat per woord in de lijst een frequentie van voorkomen wordt bepaald, en dat de reeks wordt opgebouwd uit paren van telkens een woord uit de lijst en de 5 frequentie van dat woord, waarbij de reeks een semantische afbeelding van het document vormt.
Volgens een tweede aspect van de uitvinding heeft een inrichting van de in de openingsparagraaf genoemde soort het kenmerk dat de module is ingericht voor het bepalen van een lijst van woorden die in het document voorkomen, en voor het per 10 woord in de lijst bepalen van een frequentie van voorkomen, en voor het opbouwen van de reeks uit paren van telkens een woord uit de lijst en de frequentie van dat woord, waarbij de reeks een semantische afbeelding van het document vormt.
De maatregelen volgens uitvinding hebben onder meer het voordeel, dat de semantische afbeelding een relatie heeft met de inhoud en het onderwerp van het 15 document. Tevens is er bij sterk gelijkende documenten, zoals aangepaste versies van een zelfde document, een zeer duidelijke overeenkomst tussen de sematische afbeeldingen. Hierdoor is automatische clustering en ordening van grote hoeveelheden documenten op basis van de semantische afbeelding goed mogelijk.
De uitvinding berust mede op het inzicht, dat de menselijke taal op verschillend 20 niveau door geautomatiseerde analyses benaderd kan worden. De statistische benadering in US-A 5,418,951 is gebaseerd op een analyse van het voorkomen van lettercombinaties. De analyse levert een indicatie op over de taal en soort document. De uitvinder heeft ingezien dat op het hogere, in principe voor de menselijke lezer bedoelde, semantische niveau van hele woorden een geautomatiseerde statistische 25 analyse mogelijk is en zelfs een betere indicator oplevert. Deze indicator, de zogenaamde semantische afbeelding, blijkt zeer geschikt voor zowel het relateren van verschillende documenten op onderwerp, als wel om sterk verwante documenten te ordenen.
In een uitvoeringsvorm van de werkwijze volgens de uitvinding wordt de lijst van 30 woorden bewerkt door het weglaten van woorden korter dan een vooraf bepaalde lengte. Dit heeft het effect dat de korte, veel voorkomende en weinig over de aard van het document zeggende, woorden uit de semantische afbeelding worden weggelaten. Hierdoor wordt het onderscheidende vermogen van de semantische afbeelding vergroot.
i, ,, J 6 7 0 3
In een verdere uitvoeringsvorm van de werkwijze volgens de uitvinding wordt de lijst van woorden bewerkt door sorteren op ten minste één van de volgende criteria: op volgorde van voorkomen, op volgorde van alfabet, op volgorde van woordlengte, op volgorde van frequentie. Dit heeft onder meer het voordeel, dat de vergelijking met 5 andere semantische afbeeldingen eenvoudiger wordt. In het bijzonder bij sortering op aflopende woordlengte is gebleken dat de lange woorden een goede karakterisering van het document opleveren. Verder is bij sortering op oplopende frequentie gebleken dat de lage frequenties een goede karakterisering van het document opleveren.
In verdere uitvoeringsvormen van de werkwijze volgens de uitvinding wordt de 10 lijst van woorden bewerkt door samenvoegen of vervangen van woorden gebaseerd op corrigeren van onjuist of verschillend gespelde woorden, op herleiden van werkwoorden of zelfstandige naamwoorden tot een basisvorm, op herkennen van homoniemen of synoniemen, en/of op een database van vaktermen, of wordt de lijst van woorden bewerkt door vertalen van woorden in een andere taal. Dit heeft het voordeel dat 15 verschillen tussen woorden die geen semantisch onderscheid aangeven worden geëlimineerd. Hierdoor wordt het onderscheidende vermogen van de semantische afbeelding vergroot.
20 De uitvinding zal hierna nader worden toegelicht onder verwijzing naar de figuren 1 tot en met 4, waarin
Figuur 1 een inrichting voor het bepalen van een semantische afbeelding toont, Figuren 2a en 2b een semantische afbeelding tonen,
Figuur 3 een architectuur voor het opbouwen van een database op basis van 25 semantische afbeeldingen toont, en
Figuur 4 een module voor het bepalen van een semantische afbeelding toont.
In de figuren dragen elementen, die corresponderen met elementen, die reeds beschreven zijn, dezelfde referentienummers.
30 Figuur 1 toont een inrichting voor het bepalen van een semantische afbeelding.
De inrichting omvat een document invoer eenheid 11 voor het invoeren van documenten in elektronische vorm, bijvoorbeeld een disk drive voor het lezen van document files vanaf een gegevensdrager zoals een floppy disk of CD. De invoer eenheid 11 is gekoppeld aan een tekstextractie eenheid 12. In de tekstextractie eenheid 35 12 wordt de tekst verzameld die aanwezig is in het document. Hierbij wordt de tekst 1020670 4 ontdaan van lay-out en vormkenmerken, zoals het font. Hierdoor ontstaat een platte tekst (‘plain text’) versie van het document. De uitgang van de tekstextractie eenheid 12 is gekoppeld aan een semantische eenheid 13. De semantische eenheid bepaalt een reeks van statistische eigenschappen van de tekst in het document. Ten eerste wordt 5 een lijst van woorden bepaald die in het document voorkomen. Daarna wordt per woord in de opgebouwdè lijst een frequentie van voorkomen bepaald. Hierbij wordt het aantal malen dat het woord in de tekst voorkomt geteld. Het woord en de frequentie tezamen vormen een paar, ook wel aangeduid als {woord, freq} tuple. Ten slotte wordt de statistische reeks opgebouwd uit dergelijke paren van telkens een woord uit de lijst en 10 de frequentie van dat woord. Aldus vormt de reeks een semantische afbeelding van het document. Een semantische afbeelding is een frequentiespectrum diagram van de woorden.
In een volgende stap wordt de semantische afbeelding gebruikt voor het vergelijken van documenten onderling, of voor het vergelijken met een semantische , 15 afbeelding van een bepaald aandachtsgebied of onderwerp, zodat de relevantie van het document voor dat onderwerp wordt bepaald. Indien zowel de woordenlijst als het frequentiediagram van verschillende documenten grote overeenkomst vertonen dan is de kans groot dat de documenten variaties zijn van elkaar. Ze zullen inhoudelijk (op zijn minst) gerelateerd zijn. Met de semantische afbeelding kunnen associaties gelegd 20 worden tussen verschillende documenten, dan wel verschillende versies van een zelfde document. Bij het laatste zullen de frequentiediagrammen zeer op elkaar lijken, zeker als het slechts kleine wijzigingen c.q. aanvullingen betreft.
In een uitvoeringsvorm is de lijst beperkt tot woorden die langer zijn dan een bepaalde lengte. Hierdoor vallen korte en semantisch weinig relevante woorden buiten 25 de semantische afbeelding. Voor een beter semantisch onderscheidingsvermogen kunnen ook veel voorkomende langere woorden weggelaten worden, zoals bijvoorbeeld ‘hebben’ of ‘worden’.
In verschillende uitvoeringsvormen is de semantische eenheid 13 ingericht voor het bewerken van de tekst en/of de lijst van woorden en/of de semantische afbeelding 30 op de hierna beschreven wijzen. De semantische afbeelding is gebaseerd op de platte tekst van een document. Met de volgende technieken is de kwaliteit van de semantische afbeelding te verbeteren. Ten eerste kunnen verschillende woorden worden samengevoegd of vervangen op basis van semantische verwantschap. Geschikte mogelijkheden zijn het herleiden van werkwoorden en/of zelfstandige 35 naamwoorden tot hun basisvorm. Verder kan het samenvoegen worden bereikt door het 1020670 5 herkennen van homoniemen of synoniemen of het gebruik maken van vakterm databases. Een semantische afbeelding bevat een woordenlijst en de frequenties van voorkomen per woord. De tuples van {woord, freq.} kunnen gesorteerd worden op een vooraf bepaalde manier. Geschikte manieren zijn chronologisch, te weten op eerste 5 optreden van een woord in de tekst, of op alfabet (case sensitive of niet). Een manier die een goed onderscheidend vermogen heeft is sorteren op woordlengte (bijvoorbeeld lange woorden eerst, deze zijn zeldzamer), of op frequentie; oplopend of aflopend (lage frequenties discrimineren beter). Ook kunnen verschillende sorteercriteria worden gecombineerd, bijvoorbeeld eerst op lengte, en daarna de woorden van dezelfde lengte 10 op frequentie. Met deze verschillende sorteringen kunnen semantische afbeeldingen efficiënter verwerkt c.q. vergeleken worden met elkaar. Een verdere mogelijkheid is het vertalen van de woorden in een semantische afbeelding, bv van Engels naar Nederlands. Hierdoor kunnen documenten in verschillende talen gerelateerd worden.
Dit is een specifiek voordeel van semantische afbeeldingen van documenten.
, 15 In een uitvoeringsvorm wordt de semantische afbeelding aangevuld door gebruik te maken van bekende, herkenbare semantische structuren zoals auteur, afdeling, onderwerp etc. Bij documenten in een bestaande database zijn deze gegevens vaak te herleiden doordat zij apart bij het document worden bewaard. Ook kunnen eerder toegekende trefwoorden of andere kenmerken in de semantische afbeelding worden 20 toegevoegd, dan wel worden gebruikt om behandeling van de woordenlijst bij te sturen, zoals door het gebruik van een relevante database van vaktermen en gebruikelijke synoniemen in dat vakgebied.
In een uitvoeringsvorm wordt de frequentie van voorkomen herleid door normalisatie. In principe is de frequentie een geheel getal dat het absolute aantal 25 aangeeft, echter deze kan genormaliseerd worden door te delen door het totale aantal woorden. Bij deze normalisatie gaat informatie over de lengte van het document verloren. Voor de meeste typen vergelijkingen werkt dit niet averechts. Ook kan de lengte van het document apart als parameter aan de semantische afbeelding worden toegevoegd.
30 Figuur 2a toont een eerste voorbeeld van een semantische afbeelding. De semantische afbeelding, aangeduid als ‘semantic snapshot’, is een datastructuur met daarin een reeks van woord + frequentie paren, hier aangegeven door ‘List(word,freq)\ De lijst is gesorteerd op alfabetische volgorde. In dit voorbeeld zijn hieraan nog de volgende elementen toegevoegd: de naam van het oorspronkelijke document ‘{doe.
1020870 6
Name: test.doc}’, de lengte van het document ‘Length_doc’, en de lengte van de woordenlijst 'Lengthjist'.
Figuur 2b toont een tweede voorbeeld van een semantische afbeelding. De semantische afbeelding is nu gesorteerd op lengte van de woorden, en daarna op de 5 frequentie. In de lijst is een zeer lang woord met lengte 21 getoond, en zijn enkele woorden met lengte L=9 getoond. De waarden voor de frequentie zijn in procenten gegeven door normalisatie met de lengte van het document De semantische afbeelding kan op een gegevensdrager bewaard worden bij het document, bijvoorbeeld op een harddisk of CD-R. Indien het document wordt aangepast en een nieuwere datum krijgt 10 dan moet er opnieuw een semantische afbeelding bepaald worden. Het is ook mogelijk de semantische afbeelding als apart data signaal op te slaan of te versturen, bijvoorbeeld via internet. Hiermee kan dan een ontvanger met een beperkte hoeveelheid data bepalen of bij de bron een relevant document aanwezig is. Verder is het mogelijk de hoeveelheid data voor de sematische afbeelding te beperken door 15 gebruik te maken van een voorafbepaalde ‘dictionary’ van woorden, en aan elk woord hierin een code toe te kennen, bijvoorbeeld een volgnummer. De semantische afbeelding bestaat dan uit een lijst van paren van telkens een woordcode en de frequentie. Eventueel kan slechts voor een deel van de lijst gebruik gemaakt worden van woordcodes, terwijl minder voorkomende woorden wel volledig in de semantische 20 afbeelding worden opgenomen.
De semantische afbeelding kan op vele gebieden worden toegepast. Bijvoorbeeld in een database zijn vele rapporten verzameld. Deze rapporten werden met de hand gecodeerd door dure professionals. Het doel van deze coderingen was het groeperen van gerelateerde rapporten. Met de semantische afbeelding kunnen 25 gerelateerde documenten automatisch bij elkaar worden geclusterd. Een ander geval is plagiaat. Men maakt een semantische afbeelding van boeken, webdocumenten of andere documenten. Als deze veel op elkaar lijken kan er sprake zijn van plagiaat. Indien ze duidelijk niet op elkaar lijken dan is er geen sprake van. Een veel voorkomend probleem is ook versiebeheer, te weten van een document bestaan mogelijk 30 verschillende versies van onbekende volgorde. Door de semantische afbeelding van de documenten te bepalen en hun onderliggende afstanden, c.q. afstand tot het gemiddelde document kan er ingeschat worden wat de versie volgorde van de documenten was. Ook kan hierbij een document in handgeschreven vorm worden herkend als een gelijke van hetzelfde document in getypte vorm.
i \i 0 f) P 7 Π
Ê V*· i»Vlr I V
7
Figuur 3 toont een architectuur voor het opbouwen van een database op basis van semantische afbeeldingen. Ten eerste zijn documentbronnen 28 aangeduid met modules als ‘application’, waarbij een toepassingprogramma een document levert, ofwel e-mail, ofwel een scanner voor het optisch aftasten van een document op papier. Als 5 het document in een bitmap vorm wordt geleverd, zoals door een scanner, dan wordt het document gekoppeld naar een OCR module 27 (Optical Character Recognition) voor een omzetting naar leesbare tekst. Alle binnengiekomen documenten worden (tijdelijk) opgeslagen in een geheugen 29 waarin dan de ‘new documents queue’ aanwezig is. Elk document wordt daarna gekoppeld aan een semantische module 13 10 ‘semantic snapshot module’. In deze module wordt de semantische afbeelding bepaald, bijvoorbeeld zoals hierboven beschreven bij Figuur 1. De configuratie die bij het bepalen van de semantische afbeelding wordt gebruikt, zoals de sorteervolgorde of de gebruiken synoniemen, zijn vastgelegd in een configuratie eenheid 30, die gekoppeld is aan de semantische eenheid 13. Nadat de semantische afbeelding is bepaald kan deze worden 15 opgeslagen in een database geheugen 25, waarin bijvoorbeeld in aparte gedeeltes het originele document (of een referentie daarnaar), de berekende semantische afbeelding en een eventuele lijst met relaties tot andere documenten wordt opgeslagen. De semantische module 13 is ook gekoppeld aan het archief 31, waarin de gegevens van andere documenten zijn opgeslagen ten behoeve van vergelijking met het huidige 20 document. Via een update module 26 wordt het archief op geregelde tijden bijgewerkt met de nieuw behandelde documenten. Hierbij wordt de relatielijst van het nieuwe document gelezen, en de semantische afbeelding, en worden de overige relaties in het archief hieraan aangepast. Een praktische implementatie van de beschreven architectuur is een digitaal copiëer en/of scan apparaat dat gekoppeld is aan een 25 computer systeem, bijvoorbeeld via een ‘local area network’. In het computer systeem wordt de database en het archief van documenten bijgehouden die in een bedrijf aanwezig zijn. Als er een document voor copiëren of scannen in het apparaat wordt gebracht wordt een bitmap aangemaakt, en hieruit wordt (na een OCR tussenstap) de text ge-extraheerd. Daarna wordt de semantische afbeelding berekend. De module met 30 deze functie kan in het digitale copiëer en/of scan apparaat zijn ingebouwd, of deze functie kan door een software programma in de computer worden uitgevoerd.
Figuur 4 toont een module voor het bepalen van een semantische afbeelding. Deze module komt overeen met de semantische eenheid 13 in Figuur 3. De module is uitgevoerd als een processor met instructies voor de hieronder genoemde bewerkingen, 35 bijvoorbeeld een standaard computer met daarbij een software programma, of een ' v 'i U 6 7 Ü 8 specifiek (deels vast) geprogrammeerde processor. De werking van de module is als volgt. Van een nieuw document wordt in een eerste stap ‘extract text’ de platte tekst ‘plain text’ uit het document geïsoleerd. In een tweede stap ‘make freq. diagram’ wordt een woordenlijst en de daarbij horende frequenties bepaald. De parameters gebruikt in 5 deze stap worden ingesteld via de ingang 35 ‘read config'. Deze parameters betreffen bijvoorbeeld de minimale woordlengte, een begrenzing van de frequentie, of opties zoals vertalen of het gebruik van bepaalde lijsten met synoniemen of vaktermen. Als resultaat is na berekening de semantische afbeelding beschikbaar via de uitgang ‘freq. diagram’, en is ook het originele document en/of de platte tekst versie beschikbaar via 10 de uitgang 'original document’. De platte tekst is alleen tijdelijk nodig en kan zonodig opnieuw uit het originele document worden geëxtraheerd.
In een uitvoeringvorm is de semantische module 13 voorzien van een derde stap 'compare freq. diagrams’ voor het vergelijken van de semantische afbeelding van het nieuwe document en bekende semantische afbeeldingen. De semantische module 13 is • 15 daartoe voorzien van een databus 36 voor het inlezen van bekende semantische afbeeldingen. Als resultaat van de vergelijking is een relatielijst met andere documenten of bekende onderwerpen beschikbaar via de uitgang ‘relation list’. Bij het vergelijken worden eerst de overeenkomende woorden in de twee semantische afbeeldingen bepaald, en daarna worden de betreffende frequenties vergeleken. Aan de gevonden 20 verschillen of overeenkomsten in frequentie kan een gewicht worden toegekend, bijvoorbeeld in afhankelijkheid van de plaats in de gesorteerde lijst. Hierdoor wordt een maatstaf van verwantschap berekend voor het gehele document.
Hoewel in het voorgaande de uitvinding is beschreven aan de hand van enkele uitvoeringsvoorbeelden is de uitvinding hiertoe niet beperkt. De uitvinding omvat ieder 25 hierboven aangeduid nieuw kenmerk of combinatie van kenmerken. Zo kan de uitvinding ook worden uitgevoerd als eenheid voor het bepalen van de semantische afbeelding van documenten die reeds aanwezig zijn in een opslagsysteem of die reeds een handmatige karakterisering hebben. De semantische afbeelding kan dan worden gebruikt om een nadere clustering aan te brengen. Verder wordt opgemerkt, dat het 30 woord ‘bevatten’ niet de aanwezigheid van andere elementen of stappen dan de genoemde uitsluit, dat het woord ‘een’ niet een meervoud uitsluit, dat referentiecijfers de conclusies niet beperken, dat de uitvinding zowel (deels) in hardware als (deels) in software kan worden uitgevoerd, en dat verschillende middelen of functies door hetzelfde hardware of software element kunnen worden belichaamd.
l ü CUQ ( Ü

Claims (15)

1. Werkwijze voor het karakteriseren van een document, in het bijzonder voor het herkennen, organiseren of relateren van documenten, waarbij een reeks van 5 statistische eigenschappen van de tekst in het document wordt bepaald, met het kenmerk dat - een lijst van woorden wordt bepaald die in het document voorkomen, en dat - per woord in de lijst een frequentie van voorkomen wordt bepaald, en dat - de reeks wordt opgebouwd uit paren van telkens een woord uit de lijst en de frequentie 10 van dat woord, waarbij de reeks een semantische afbeelding van het document vormt.
2. Werkwijze volgens conclusie 1, waarin de lijst van woorden wordt bewerkt door het weglaten van woorden korter dan een vooraf bepaalde lengte.
3. Werkwijze volgens conclusie 1 of 2, waarin de lijst van woorden wordt bewerkt door te sorteren op ten minste één van de volgende criteria: op volgorde van voorkomen, op volgorde van alfabet, op volgorde van woordlengte, op volgorde van frequentie.
4. Werkwijze volgens conclusie 1, 2 of 3, waarin de lijst van woorden wordt bewerkt 20 door samenvoegen of vervangen van woorden gebaseerd op corrigeren van onjuist of verschillend gespelde woorden, op herleiden van werkwoorden of zelfstandige naamwoorden tot een basisvorm, op herkennen van homoniemen of synoniemen, en/of op een database van vaktermen.
5. Werkwijze volgens conclusie 1, 2, 3 of 4, waarin de lijst van woorden wordt bewerkt door vertalen van woorden in een andere taal.
6. Werkwijze volgens conclusie 1, 2, 3, 4 of 5, waarin de semantische afbeelding wordt bewerkt door normaliseren van de frequenties in de reeks van paren. 30
7. Werkwijze volgens conclusie 1, 2, 3, 4, 5 of 6, waarin de semantische afbeelding wordt bewerkt door het toevoegen van gegevens over de semantische structuur, zoals auteur, afdeling, sleutelwoorden en/of onderwerp. 1 ··.'· L, W4 ':J S ïj
8. Werkwijze volgens een der voorgaande conclusies, waarin een relatie wordt bepaald tussen het document en andere documenten door het vergelijken van de semantische afbeeldingen, in het bijzonder voor het groeperen van gerelateerde documenten op onderwerp of het ordenen van sterk gerelateerde documenten, zoals versies van 5 hetzelfde document.
9. Werkwijze volgens een der voorgaande conclusies, waarin een relatie wordt bepaald tussen het document en een bepaald onderwerp door het vergelijken van de semantische afbeelding van het document en een voor het onderwerp specifieke 10 semantische afbeelding bepaald op basis van een verzameling van bekende documenten en/of een woordenlijst betreffende het onderwerp.
10. Computer programma product voor het karakteriseren van een document, welk programma is ingericht om een processor de werkwijze volgens een der voorgaande 15 conclusies te doen uitvoeren. i
11. Data signaal, met het kenmerk dat het signaal een data structuur representeert van een semantische afbeelding zoals gevormd door de werkwijze volgens een der voorgaande conclusies. 20
12. Data signaal volgens conclusie 11, waarbij het signaal is opgeslagen op een gegevensdrager.
13. Inrichting voor het behandelen van documenten, welke inrichting een module bevat 25 voor het karakteriseren van een document door een reeks van statistische eigenschappen van de tekst van het document, in het bijzonder voor het herkennen, organiseren of relateren van documenten, met het kenmerk dat de module is ingericht voor het bepalen van een lijst van woorden die in het document voorkomen, en voor het per woord in de lijst bepalen van een frequentie van voorkomen, en voor het opbouwen 30 van de reeks uit paren van telkens een woord uit de lijst en de frequentie van dat woord, waarbij de reeks een semantische afbeelding van het document vormt.
14. Inrichting volgens conclusie 13, waarbij de inrichting is voorzien van document invoer eenheid, welke document invoer eenheid is ingericht voor het extraheren van de 35 tekst. 1 02 06 7 0
15. Inrichting volgens conclusie 13 of 14, waarbij de module is ingericht voor het uitvoeren van de werkwijze volgens een der conclusies 2 tot 9. t
NL1020670A 2002-05-24 2002-05-24 Het bepalen van een semantische afbeelding. NL1020670C2 (nl)

Priority Applications (4)

Application Number Priority Date Filing Date Title
NL1020670A NL1020670C2 (nl) 2002-05-24 2002-05-24 Het bepalen van een semantische afbeelding.
JP2003130235A JP2004038944A (ja) 2002-05-24 2003-05-08 意味論的スナップショットの決定
EP03076553A EP1365331A3 (en) 2002-05-24 2003-05-15 Determination of a semantic snapshot
US10/443,229 US20030221160A1 (en) 2002-05-24 2003-05-22 Determination of a semantic snapshot

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL1020670 2002-05-24
NL1020670A NL1020670C2 (nl) 2002-05-24 2002-05-24 Het bepalen van een semantische afbeelding.

Publications (1)

Publication Number Publication Date
NL1020670C2 true NL1020670C2 (nl) 2003-11-25

Family

ID=29398577

Family Applications (1)

Application Number Title Priority Date Filing Date
NL1020670A NL1020670C2 (nl) 2002-05-24 2002-05-24 Het bepalen van een semantische afbeelding.

Country Status (4)

Country Link
US (1) US20030221160A1 (nl)
EP (1) EP1365331A3 (nl)
JP (1) JP2004038944A (nl)
NL (1) NL1020670C2 (nl)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2542438A1 (en) * 2003-10-21 2005-04-28 Intellectual Property Bank Corp. Document characteristic analysis device for document to be surveyed
JPWO2006115227A1 (ja) * 2005-04-21 2008-12-18 株式会社アイ・ピー・ビー 調査対象文書の索引語抽出装置
JP4799936B2 (ja) * 2005-07-11 2011-10-26 株式会社日立製作所 条件別スナップショット取得方法及びシステム
US9165056B2 (en) * 2008-06-19 2015-10-20 Microsoft Technology Licensing, Llc Generation and use of an email frequent word list
US9201905B1 (en) * 2010-01-14 2015-12-01 The Boeing Company Semantically mediated access to knowledge

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418951A (en) * 1992-08-20 1995-05-23 The United States Of America As Represented By The Director Of National Security Agency Method of retrieving documents that concern the same topic
US6167398A (en) * 1997-01-30 2000-12-26 British Telecommunications Public Limited Company Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
WO2002025479A1 (en) * 2000-09-25 2002-03-28 Telstra New Wave Pty Ltd A document categorisation system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6938025B1 (en) * 2001-05-07 2005-08-30 Microsoft Corporation Method and apparatus for automatically determining salient features for object classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418951A (en) * 1992-08-20 1995-05-23 The United States Of America As Represented By The Director Of National Security Agency Method of retrieving documents that concern the same topic
US6167398A (en) * 1997-01-30 2000-12-26 British Telecommunications Public Limited Company Information retrieval system and method that generates weighted comparison results to analyze the degree of dissimilarity between a reference corpus and a candidate document
US6272456B1 (en) * 1998-03-19 2001-08-07 Microsoft Corporation System and method for identifying the language of written text having a plurality of different length n-gram profiles
WO2002025479A1 (en) * 2000-09-25 2002-03-28 Telstra New Wave Pty Ltd A document categorisation system

Also Published As

Publication number Publication date
US20030221160A1 (en) 2003-11-27
EP1365331A3 (en) 2003-12-17
EP1365331A2 (en) 2003-11-26
JP2004038944A (ja) 2004-02-05

Similar Documents

Publication Publication Date Title
Pomikálek Removing boilerplate and duplicate content from web corpora
US10789281B2 (en) Regularities and trends discovery in a flow of business documents
US20030208502A1 (en) Method for determining a logical structure of a document
US8738552B2 (en) Method and system for classifying documents
US6917709B2 (en) Automated search on cursive records not having an ASCII index
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
US20110112995A1 (en) Systems and methods for organizing collective social intelligence information using an organic object data model
US8510312B1 (en) Automatic metadata identification
US10366461B2 (en) Automated document analysis for varying natural languages
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
Benabdallah et al. Extraction of terms and semantic relationships from Arabic texts for automatic construction of an ontology
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
Ahuja et al. Parsing electronic theses and dissertations using object detection
US8862586B2 (en) Document analysis system
NL1020670C2 (nl) Het bepalen van een semantische afbeelding.
CN113762100A (zh) 医疗票据中名称提取及标准化方法、装置、计算设备及存储介质
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
Torrisi et al. Automated bundle pagination using machine learning
Liu et al. An efficient pre-processing method to identify logical components from pdf documents
Garcia et al. A framework to collect and extract publication lists of a given researcher from the web
CN102165443A (zh) 记录文章抽取程序的计算机可读取记录介质、文章抽取方法、文章抽取装置
Magapu Development and customization of in-house developed OCR and its evaluation
Josi et al. Preparing legal documents for NLP analysis: Improving the classification of text elements by using page features
Палій et al. Data recognition in documents and classification algorithm

Legal Events

Date Code Title Description
PD2B A search report has been drawn up