NL9101181A - Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters. - Google Patents

Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters. Download PDF

Info

Publication number
NL9101181A
NL9101181A NL9101181A NL9101181A NL9101181A NL 9101181 A NL9101181 A NL 9101181A NL 9101181 A NL9101181 A NL 9101181A NL 9101181 A NL9101181 A NL 9101181A NL 9101181 A NL9101181 A NL 9101181A
Authority
NL
Netherlands
Prior art keywords
characters
character
memory
combination
examined
Prior art date
Application number
NL9101181A
Other languages
English (en)
Original Assignee
Nederland Ptt
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nederland Ptt filed Critical Nederland Ptt
Priority to NL9101181A priority Critical patent/NL9101181A/nl
Publication of NL9101181A publication Critical patent/NL9101181A/nl

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/564Static detection by virus signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2207/00Indexing scheme relating to methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F2207/02Indexing scheme relating to groups G06F7/02 - G06F7/026
    • G06F2207/025String search, i.e. pattern matching, e.g. find identical word or best match in a string

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Virology (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

KONINKLIJKE PTT NEDERLAND N.V.
GRONINGEN
Titel : Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters.
De uitvinding heeft betrekking op een werkwijze voor het detecteren van de aanwezigheid van een of meer, verder als zoekstring aangeduide karakterstrings in een te onderzoeken verzameling karakters. De uitvinding is in het bijzonder geschikt voor het detecteren van computervirussen, echter ook voor het simultaan detecteren van verschillende zoektermen.
Een computervirus of kortweg een virus is een programma, dat zich hecht aan andere programma’s of informatiedragers en dat de juiste werking daarvan verstoort. Een virus omvat evenals andere programma's een unieke verzameling karakters of een unieke code, die uit een aantal karakters is opgebouwd. Doorgaans wordt een karakter (byte) gecodeerd door 8 bits en kan derhalve 256 waarden aannemen (0 t/m 255). Van alle tot nu toe bekend geworden virussen zijn karakterstrings vastgesteld, die voor een bepaald virus karakteristiek zijn. Men spreekt in dit verband wel van een virusidentificatiestring. Een dergelijke virusidenti-ficatiestring omvat meestal tien tot twintig karakters. Indien zich in een computerprogramma een met een virusidentificatiestring overeenkomende combinatie van karakters voordoet, is de kans groot, dat sprake is van een viru's. Op dit moment zijn reeds honderden verschillende virussen bekend. Om programma's op de aanwezigheid van virussen te kunnen controleren, dienen derhalve honderden verschillende strings herkend te kunnen worden. Verwacht wordt dat het aantal verschillende virussen in de toekomst sterk zal toenemen.
Volgens de thans gangbare methodes worden vi- russen opgespoord met behulp van een aftastinrichting of scanner, die in een computer aanwezige (bijvoorbeeld op de hard disk) karakters string voor string vergelijkt met alle bekende virusstrings. Daarbij worden de te onderzoeken karakters onderzocht door middel van 'vensters' die even lang zijn als de langste virusstring. Zodra een aldus onderzochte karakter-string een der bekende virusstrings blijkt te omvatten wordt een waarschuwingscodesignaal gegeven.
Per virus (zoekstring) moet de hele verzameling karakters (op de hard disk) worden doorlopen en onderzocht. Voor bijvoorbeeld honderden virusstrings kost dat vrij veel tijd. Dat geldt ook voor het opzoeken van andere strings in een karakterverzameling, zoals bijvoorbeeld het (simultaan) opzoeken van een aantal trefwoorden in een data base, hetgeen thans niet anders dan sequentieel kan geschieden. Behoefte bestaat derhalve aan een methode om een verzameling karakters snel te onderzoeken op de aanwezigheid van een of (in het bijzonder) meer zoekstrings.
De uitvinding beoogt in die behoefte te voorzien en een snelle en betrouwbare methode ter beschikking te stellen om de aanwezigheid van een of meer zoekstrings, bijvoorbeeld de identificatiestrings van een aantal computervirussen, in een verzameling karakters te kunnen detecteren. Hiertoe wordt volgens de uitvinding een werkwijze voor het detecteren van de aanwezigheid van een of meer, als zoekstring aangeduide, karakterstrings in een te onderzoeken verzameling karakters, opgeslagen in een computergeheugen, daardoor gekenmerkt dat een of meer op voorafbepaalde wijze vastgestelde combinaties van karakters uit elke zoekstring worden opgeslagen in een geheugen, dat op dezelfde voorafbepaalde wijze een of meer combinaties van karakters uit de te onderzoeken verzameling karakters worden gevormd, dat die laatstgenoemde combinaties worden vergeleken met de eerstgenoemde combina ties en dat bij overeenstemming tussen een eerstgenoemde combinatie en een laatstgenoemde combinatie een eerste codesignaal wordt afgegeven. Om een grote efficiëntie en daarmee snelheid in het met elkaar vergelijken van de karaktercombinaties te bewerkstelligen, voorziet de uitvinding bijvoorkeur in de toepassing van tabelmarkeringen, waardoor de uitvinding bij voorkeur erdoor wordt gekenmerkt dat tenminste één op voorafbepaalde wijze vastgestelde combinatie van tenminste twee karakters van elke zoekstring als markering wordt opgeslagen in tenminste één, in een geheugen gedefinieerde, tenminste twee-dimensionale tabel met tenminste twee tabelrichtingen, waarbij de eerste van de tenminste twee karakters in de eerste tabel-richting wordt afgebeeld, de tweede van die in de tweede tabelrichting etc., dat op dezelfde voorafbepaalde wijze een of meer combinaties van karakters uit de te onderzoeken verzameling karakters worden gevormd waarvan op dezelfde wijze de bijbehorende plaats in de genoemde tabel wordt bepaald, dat gecontroleerd wordt of de aldus bepaalde bijbehorende tabelplaats een markering bevat en dat, indien de genoemde bijbehorende tabelplaats een markering bevat een eerste codesignaal wordt afgegeven.
De uitvinding omvat tevens een detectie-inrichting voor het detecteren van een of meer als zoek-strings aangeduide karakterstrings in een verzameling te onderzoeken karakters, met behulp van de voorgaande werkwijze, die gekenmerkt wordt door een eerste geheu-geninrichting voor het opslaan van de verzameling te onderzoeken karakters, een tweede geheugeninrichting voor het opslaan van de zoekstrings, een derde geheugeninrichting waarin tenminste één n-dimensionale tabel is gedefinieerd, een omzetter die de tenminste één vooraf bepaalde combinatie van n karakters van elke zoekstring in de tweede geheugeninrichting omzet in een markering in de tenminste ene tabel van de derde geheugeninrichting op een n-dimensionale plaats, overeenkomend met de resp. waarden van die n karakters, verder een werkgeheugen waaraan in bedrijf opeenvolgende karakters uit de eerste geheugeninrichting worden toegevoerd, een inrichting die uit de opeenvolgende karakterstring in het werkgeheugen telkens de tenminste één voorafbepaalde combinatie van n karakters vormt en daarvan de overeenkomstige n-dimensionale plaats in de genoemde tabel vaststelt, een eerste vergelijkinrichting die telkens de inhoud van de tabel op die vastgestelde tabelplaats detecteert en die, indien die tabelplaats een markering bevat, aan een uitgang een eerste codesignaal afgeeft.
In het volgende zal de uitvinding nader worden beschreven met verwijzing naar de bijgevoegde figuren.
Figuur 1 toont bij wijze van voorbeeld een bij een werkwijze en inrichting volgens de uitvinding toepasbare 2-dimensionele tabel; figuur 2 toont schematisch een voorbeeld van een detectie-inrichting volgens de uitvinding.
In de volgende beschrijving zal bij wijze van voorbeeld worden uitgegaan van de detectie van één of meer computervirussen. Zoals uit het voorgaande reeds bleek is de uitvinding evenzeer van toepassing op het detecteren van andere karakterstrings in een verzameling karakters, bijvoorbeeld een aantal zoektermen die via het toetsenbord van de computer kunnen worden ingevoerd.
De in figuur 1 getoonde tabel 1 bevat informatie over bekende virusidentificatiestrings (zoek-strings). Deze informatie bestaat echter volgens de uitvinding niet uit de complete virusidentificatiestrings maar uit een combinatie van een vooraf bepaald aantal karakters van alle bekende virusidentificatiestrings of althans van alle virusidentificatiestrings waarvan men de aanwezigheid wenst te kunnen detecteren. Men zou kunnen zeggen, dat de tabel een uittrek sel van elke te detecteren virusidentificatiestring bevat.
Volgens de uitvinding wordt de tabel zodanig samengesteld dat deze grotendeels leeg is en zeer snel door een computer of een speciale scanner is te doorzoeken. Hiertoe zou bijvoorbeeld elk uittreksel van een virusidentificatiestring kunnen bestaan uit de eerste twee karakters. In de tabel wordt dan bijvoorbeeld de bijbehorende string aangegeven door een markering op het snijpunt van de rij met het nummer (bijvoorbeeld ASCII-nummer) van het eerste karakter en de kolom met het nummer van het tweede karakter.
Bij het controleren van karakters op de mogelijke aanwezigheid van een virus wordt nu in eerste aanleg slechts nagegaan of in de verzameling karakters een combinatie van twee opeenvolgende karakters voorkomt die in de bovengenoemde tabel zou leiden tot een markering op dezelfde plaats als één van de virusidentif icatiestrings. Een dergelijke controle kan zeer snel uitgevoerd worden.
Als nu op een bepaalde plaats in de verzameling de genoemde combinatie van karakters een tabelplaats aanwijst die reeds door een virusidentificatiestring is gemarkeerd, bestaat de kans, dat de verzameling daar een virus bevat. Slechts in dat geval wordt volgens de uitvinding een nader, nauwkeuriger onderzoek ingesteld om na te gaan of inderdaad sprake is van de aanwezigheid van een virus.
Volgens de uitvinding wordt derhalve de te controleren verzameling karakters opeenvolgend ven-stergewijs beschouwd, waarbij op steeds per beschou-wingsvenster (dat bij een combinatie van twee opeenvolgende karakters slechts twee karakters breed is) de op voorafbepaalde wijze vastgestelde combinaties van karakters vergeleken met op dezelfde voorafbepaalde wijze gevormde en als markering in een tabel opgeslagen combinatie van karakters van bekende virusiden- tificatiestrings. Uitsluitend als bij deze vergelijk-stap overeenstemmende combinaties worden gedetecteerd wordt een nader onderzoek verricht naar de mogelijke aanwezigheid van een virus.
Ter nadere toelichting wordt bij wijze van voorbeeld uitgegaan van een drietal virusidenditificatiestrings a, b en c bestaande uit de opeenvolgende karakters: a) 1 - 33 - 27 234 b) 254 - 126 99 127 c) 0 227 - 158 - 216
Deze numerieke waarden van de karakters kunnen ASCII-of dergelijke waarden zijn en bijvoorbeeld letters, cijfers en dergelijke representeren. In de bovengenoemde tabel kunnen van deze drie strings bijvoorbeeld de combinaties van de eerste twee karakters worden opgeslagen, waarbij het eerste karakter bijvoorbeeld met het rijnummer (eerste tabelrichting) en het tweede karakter met het kolomnummer (tweede tabelrichting) van de tabel correspondeert. String a) leidt aldus tot een markering op het snijpunt van rij 1 en kolom 33; string b) tot een markering op het snijpunt van rij 254 en kolom 126; en string c) tot een markering op rij 0 en kolom 227.
In het in figuur 1 getoonde voorbeeld is de tabel gecomprimeerd door van het tweede karakter niet de werkelijke waarde maar de "modulo 16" waarde te gebruiken. De "modulo X" waarde van een getal is de restwaarde, die overblijft nadat het getal door X is gedeeld. De modulo 10 waarde van 17 is dus 7. Evenzo is de modulo 16 waarde van 25 gelijk aan 9. Door de modulo 16 waarde van het tweede karakter te gebruiken kan volstaan worden met 16 kolommen in plaats van de normaliter benodigde 256 kolommen.
In de tabel van figuur 1 leiden de strings a, b en c derhalve tot de met kruisjes aangegeven markeringen op de plaatsen (1,1), (254,14) en (0,3), immers 33 modulo 16 is 2, 126 modulo 16 is 14 en 227 modulo 16 is 3. De tabel heeft 16 x 256 plaatsen. Tweehonderd virusidentificatiestrings beslaan tweehonderd plaatsen, zodat de tabel grotendeels leeg is en zeer snel doorzocht kan worden.
Als het aantal bekende virusidentificatiestrings toeneemt kan de tabel desgewenst vergroot worden door de tweede karakters als modulo Y waarde te noteren, waarbij Y > 16 of door de "normale” waarde van het tweede karakter te noteren. In het laatste geval heeft de tabel 256 rijen en 256 kolommen.
Om een verzameling karakters te controleren op de mogelijke aanwezigheid van een virus wordt telkens van elke twee opeenvolgende karakters van die verzameling bepaald welke positie in de tabel bij die twee karakters behoort. Correspondeert op zeker moment die positie met een markering (kruisje) behorend bij één der bekende virussen, dan is de kans aanwezig dat de verzameling op die plaats een virus bevat. Correspondeert de gevonden positie niet met een virusmarkering dan wordt het volgende venster van twee karakters van de verzameling karakters gecontroleerd, etc.
Een dergelijke controle kan zeer snel geschieden. Bovendien is de snelheid waarmee de controle kan worden uitgevoerd nauwelijks afhankelijk van het aantal virusmarkeringen. Bij toepassing van de in figuur 1 getoonde tabel, waarin van het tweede karakter steeds de modulo 16 waarde is gebruikt werd slechts een verschil in controletijd van ± 0,1% geconstateerd tussen de situatie waarin 150 virusmarkeringen in de tabel zijn aangebracht en de situatie waarin slechts één virusmarkering in de tabel is aangebracht.
Bij wijze van voorbeeld zal in het volgende de controle van een karakterbestand met behulp van de tabel van figuur 1 met de aangegeven virusmarkeringen op de posities (0,3), (1,1) en (254,14) worden beschreven .
Stel dat in een verzameling karakters de volgende karakters voorkomen: 17 - 28 - 254 - 110 -1-33-27-67-35.
Om deze karakters te controleren op de mogelijke aanwezigheid van een virus worden de eerste twee karakters genomen: (17,28). De corresponderende tabelposi-tie is (17,12). In de tabel staat op die positie geen kruisje, en deze combinatie komt dus niet overeen met een virus. Het volgende venster omvat de twee karakters (28,254); in de tabel komt (28,14) niet voor. De volgende te beschouwen karakters zijn (254,110); in de tabel komt (254,14) voor. Nu is misschien een virus gevonden want de module 16 waarde van 110 is 14. Derhalve is nader onderzoek nodig. Van alle virusstrings, die als eerste karakter 254 hebben, worden nu de karakters één voor één vergeleken met de karakters in de karakterverzameling. Bij string b) blijkt het eerste karakter wel, maar het tweede karakter niet te voldoen. Virusstring b) komt dus niet voor op deze plaats. Tevens was dit de laatste virusstring waarvan het eerste karakter 254 is, zodat geen enkele virusstring meer voorkomt waarvan het eerste karakter 254 is.
Verderop in de te controleren karakters komt de combinatie 1,33 van twee opeenvolgende karakters voor. De modulo 16 waarde van 33 is 1, zodat deze combinatie met positie (1,1) in de tabel overeenkomt. Op deze positie is inderdaad een virusmarkering aanwezig, zodat gecontroleerd dient te worden of sprake is van een virus.
Hiertoe worden alle virusstrings, die een eerste karakter met de waarde 1 hebben vergeleken met de karakters uit het karakterbestand, beginnend met het karakter met de waarde 1. Virusidentitifcatiestring a) begint met een karakter met de waarde 1 en het volgende karakter heeft evenals het volgende karakter van het karakterbestand de waarde 33. Ook de eerstvolgende karakters zijn gelijk. Het vierde karakter van de virusidentificatiestring verschilt echter van het vierde karakter na het karakter met de waarde 1 van het karakterbestand, zodat geconcludeerd moet worden, dat virus a) niet aanwezig is. Ook komen in de verzameling van bekende virusidentificatiestrings geen andere strings voor die met een karakter met de waarde 1 beginnen, zodat het karakterbestand geen (bekend) virus bevat.
Bij toepassing van de werkwijze volgens de uitvinding behoeft in slechts een gering aantal gevallen daadwerkelijk een groter aantal opeenvolgende karakters van een karakterbestand vergeleken te worden met een aantal of alle karakters van een virusidenti-ficatiestring. Daar deze vergelijking relatief tijdrovend is, leidt de werkwijze volgens de uitvinding tot een aanzienlijke tijdsbesparing. In de praktijk behoeft slechts in ongeveer 1 op 10.000 gevallen die relatief tijdrovende controle te worden uitgevoerd, terwijl in de overige gevallen volstaan kan worden met een controle met behulp van de tabel.
De viruscontrole kan hierdoor bij toepassing van de uitvinding bijvoorbeeld tegelijk met het invoeren of kopiëren van gegevens plaatsvinden.
Figuur 2 toont schematisch een voorbeeld van een inrichting volgens de uitvinding. De getoonde inrichting omvat een geheugentabel ST, waarin de bekende virusidentificatiestrings in volledige vorm zijn opgeslagen. Voorts is een geheugen LT aanwezig, waarin een tabel is gedefinieerd en waarin de uittreksels van de virusidentificatiestrings worden opgeslagen. Deze tabel komt dus overeen met de tabel van figuur 1, waarin in het beschreven voorbeeld de eerste twee karakters van de virusidentificatiestrings zijn opgenomen .
Een omzetter TT vormt uit de karakters van het geheugen ST de in de tabel LT te plaatsen markeringen.
In een geheugen MS zijn de te controleren verzameling karakters opgeslagen en uit dat geheugen MS wordt steeds een deel van de karakters overgebracht naar een werkgeheugen, dat deel uitmaakt van een ver-gelijkinrichting C. De vergelijkinrichting C omvat een eerste comparator Cl, die de deelverzameling karakters in het werkgeheugen W kan vergelijken met de tabel LT. Indien van een gecomprimeerde tabel gebruik wordt gemaakt, waarin telkens het tweede karakter als een modulo X of modulo Y getal is weergegeven, dient tussen het geheugen MS en het werkgeheugen W, of tussen het werkgeheugen W en de comparator Cl, dan wel in het werkgeheugen W of in de comparator Cl nog een vertaling van het tweede karakter van een paar opeenvolgende karakters naar de bijbehorende modulo X- of modulo Y-waarde plaats te vinden. In het getoonde voorbeeld is een modulo-omzetter M getoond tussen het werkgeheugen W en de eerste comparator Cl.
Als bij de door de eerste comparator Cl uitgevoerde vergelijkstap blijkt, dat de met een tweetal opeenvolgende karakters van de te controleren verzameling karakters corresponderende positie in de tabel voorzien is van een bij een virusidentificatiestring behorende markering, verschaft de eerste comparator Cl een eerste codesignaal aan een tweede comparator C2.
De tweede comparator C2 heeft twee ingangen. De ene ingang is direkt verbonden met de geheugentabel ST, die de complete virusidentificatiestrings bevat.
De andere ingang is verbonden met het werkgeheugen W zodat de tweede comparator, na ontvangst van een eerste codesignaal van de eerste comparator, de in het werkgeheugen opgeslagen karakters kan vergelijken met de volledige virusidentificatiestrings, die in het geheugen ST zijn opgeslagen.
Als blijkt, dat inderdaad een met een virusidentificatiestring overeenkomende karakterstring in de gecontroleerde karakters voorkomt, wordt aan een ge- heugen RS een tweede (alarm)codesignaal toegevoerd.
Ook kan een alarminrichting, zoals bijvoorbeeld een LED, worden bekrachtigd.
Als het geheugen RS na vergelijking van alle te controleren karakters met de tabel LT en eventueel met de tabel ST een alarmindicatie (tweede codesignaal) blijkt te bevatten, dienen nadere maatregelen te worden genomen, met name voor het onschadelijk maken van de gedetecteerde virus(sen).
Als het geheugen RS daarentegen na de uitgevoerde controle geen alarmindicatie bevat, kunnen de gecontroleerde karakters daadwerkelijk verder worden gebruikt, bijvoorbeeld voor het uitvoeren van een applicatieprogramma.
Opgemerkt wordt, dat na het voorgaande diverse modificaties voor de deskundige voor de hand liggen.
Zo kan bijvoorbeeld van meerdere tabellen gebruik worden gemaakt. Een eerste tabel kan dan zoals hierboven beschreven, de eerste en tweede karakters van een virusidentificatiestring representeren; een tweede tabel de tweede en derde karakters; een derde tabel de derde en vierde karakters; een vierde tabel de vierde en tweede karakters; etc.
Bij het gebruik van meer dan één tabel wordt eerst met behulp van een eerste tabel gecontroleerd. Als zich in die tabel een markering bevindt op een met corresponderende karakters van een string karakters overeenkomende plaats, wordt een volgende controle uitgevoerd met een volgende tabel. Pas als in alle tabellen markeringen zijn aangetroffen wordt een vergelijking met één of meer volledige virusidentifica-tiestrings uitgevoerd.
Ook kan, zoals reeds vermeld, naar wens gebruik worden gemaakt van één of meer gecomprimeerde tabellen dan wel van niet gecomprimeerde tabellen. Ook kan van drie- of meerdimensionale tabellen (matrices, arrays) gebruik worden gemaakt.
Op dezelfde wijze als in het voorgaande beschreven kunnen andere zoekstrings gedetecteerd worden, bijvoorbeeld bij het doorzoeken van een database op het voorkomen van een aantal zoektermen.

Claims (11)

1. Werkwijze voor het detecteren van de aanwezigheid van een of meer verder als zoekstring aangeduide ka-rakterstrings in een te onderzoeken verzameling karakters, opgeslagen in een computergeheugen, met het kenmerk, dat een of meer op voorafbepaalde wijze vastgestelde combinaties van karakters uit elke zoekstring worden opgeslagen in een geheugen, dat op dezelfde voorafbepaalde wijze een of meer combinaties van karakters uit de te onderzoeken verzameling karakters worden gevormd, dat die laatstgenoemde combinaties worden vergeleken met de eerstgenoemde combinaties en dat bij overeenstemming tussen een eerstgenoemde combinatie en een laatstgenoemde combinatie een eerste codesignaal wordt afgegeven.
2. Werkwijze volgens conclusie 1 met het kenmerk, dat tenminste één op voorafbepaalde wijze vastgestelde combinatie van tenminste twee karakters van elke zoekstring als markering wordt opgeslagen in tenminste één, in een geheugen gedefinieerde, tenminste tweedimensionale tabel met tenminste twee tabelrichtingen, waarbij de eerste van de tenminste twee karakters, in de eerste tabelrichting, wordt afgebeeld, de tweede van die in de tweede tabelrichting etc., dat op dezelfde voorafbepaalde wijze een of meer combinaties van karakters uit de te onderzoeken verzameling karakters worden gevormd waarvan de bijbehorende plaats in de genoemde tabel wordt bepaald, dat gecontroleerd wordt of de aldus bepaalde bijbehorende ta-belplaats een markering bevat en dat, indien de genoemde bijbehorende tabelplaats een markering bevat een eerste codesignaal wordt afgegeven.
3. Werkwijze volgens conclusie 2, waarbij elk karakter is gecodeerd door x bits, met het kenmerk, dat voor het bepalen van de bij een combinatie van karakters behorende tabelplaats van tenminste één der karakters de modulo X waarde van het desbetreffende karakter wordt gebruikt, waarin X < 2X.
4. Werkwijze volgens conclusie 2 of 3, met het kenmerk, dat twee of meer tabellen worden gebruikt, waarbij de plaatsen in elke tabel corresponderen met een vooraf bepaalde specifieke combinatie van karakters van een zoekstring, respectievelijk van de te onderzoeken verzameling karakters.
5. Werkwijze volgens conclusie 1 of 2 met het kenmerk, dat na het afgeven van het genoemde eerste codesignaal de te onderzoeken verzameling karakters op de desbetreffende plaats wordt vergeleken met de desbetreffende zoekstring of tenminste een deel daarvan, waarbij, bij gebleken overeenstemming een tweede codesignaal wordt afgegeven.
6. Detectie-inrichting voor het detecteren van één of meer, verder als zoekstrings aangeduide karakter-strings, in een verzameling te onderzoeken karakters, met behulp van de werkwijze volgens één der voorgaande conclusies, gekenmerkt door een eerste geheugeninrich-ting (MS) voor het opslaan van de verzameling te onderzoeken karakters, een tweede geheugeninrichting (ST) voor het opslaan van de zoekstrings, een derde geheugeninrichting (LT) waarin tenminste één n-dimen-sionale tabel is gedefinieerd, een omzetter (TT) die de tenminste één vooraf bepaalde combinatie van n karakters van elke zoekstring in de tweede geheugeninrichting (ST) omzet in een markering in de tenmninste ene tabel van de derde geheugeninrichting (LT) op een n-dimensionale plaats, overeenkomend met de respectievelijke waarden van die n karakters, verder een werkgeheugen (W) waaraan in bedrijf opeenvolgende karakters uit de eerste geheugeninrichting worden toegevoerd, een inrichting (M) die uit de opeenvolgende karakterstring, in het werkgeheugen (W) telkens de tenminste één voorafbepaalde combinatie van n karakters vormt en daarvan de overeenkomstige n-dimensiona-le plaats in de genoemde tabel vaststelt, een eerste vergelijkinrichting (Cl) die telkens de inhoud van die tabel op die vastgestelde tabelplaats detecteert en die, indien die tabelplaats een markering bevat, aan een uitgang een eerste codesignaal afgeeft.
7. Detectie-inrichting volgens conclusie 6, gekenmerkt door een tweede vergelijkinrichting (C2), voorzien van een met de uitgang van de eerste vergelijkinrichting verbonden stuuringang, een uitgang, een met het werkgeheugen (W) verbonden eerste ingang en een met de tweede geheugeninriching (ST) verbonden ingang voor het na ontvangst van het genoemde eerste codesignaal vergelijken van de inhoud van althans een deel van het werkgeheugen met althans een deel van de inhoud van de tweede geheugeninrichting en voor het afgeven van een tweede codesignaal bij gebleken overeenstemming.
8. Detectie-inrichting volgens conclusie 7, met het kenmerk, dat de uitgang van de tweede vergelijkinrichting (C2) direkt of indirekt met een alarmerings-inrichting (RS) is verbonden.
9. Detectie-inrichting volgens één der conclusies 6 t/m 8, met het kenmerk, dat van de tenminste ene n-dimensionale tabel de maximale waarde van een dimensie gelijk is aan de maximale waarde van het met die dimensie overeenkomende karakter uit de genoemde combinatie van n karakters.
10. Detectie-inrichting volgens één der conclusies 6 t/m 9 waarbij elk teken wordt gecodeerd door x bits, met het kenmerk, dat van de tenminste ene n-dimensio-nale tabel de maximale waarde van een dimensie gelijk is aan de modulo X waarde van de maximale waarde van het met die dimensie overeenkomend karakter uit de combinatie van n karakters, waarbij X < 2X.
11. Computersysteem voorzien van een detectie-inrichting volgens één der conclusies 6 t/m 10.
NL9101181A 1991-07-05 1991-07-05 Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters. NL9101181A (nl)

Priority Applications (1)

Application Number Priority Date Filing Date Title
NL9101181A NL9101181A (nl) 1991-07-05 1991-07-05 Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters.

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL9101181 1991-07-05
NL9101181A NL9101181A (nl) 1991-07-05 1991-07-05 Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters.

Publications (1)

Publication Number Publication Date
NL9101181A true NL9101181A (nl) 1993-02-01

Family

ID=19859475

Family Applications (1)

Application Number Title Priority Date Filing Date
NL9101181A NL9101181A (nl) 1991-07-05 1991-07-05 Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters.

Country Status (1)

Country Link
NL (1) NL9101181A (nl)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5448668A (en) * 1993-07-08 1995-09-05 Perelson; Alan S. Method of detecting changes to a collection of digital signals
US5649095A (en) * 1992-03-30 1997-07-15 Cozza; Paul D. Method and apparatus for detecting computer viruses through the use of a scan information cache
EP0896285A1 (en) * 1997-07-10 1999-02-10 International Business Machines Corporation Efficient detection of computer viruses and other data trails
EP1644784A2 (en) * 2003-06-25 2006-04-12 Nokia Inc. Two-phase hash value matching technique in message protection systems

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649095A (en) * 1992-03-30 1997-07-15 Cozza; Paul D. Method and apparatus for detecting computer viruses through the use of a scan information cache
US5448668A (en) * 1993-07-08 1995-09-05 Perelson; Alan S. Method of detecting changes to a collection of digital signals
EP0896285A1 (en) * 1997-07-10 1999-02-10 International Business Machines Corporation Efficient detection of computer viruses and other data trails
US6016546A (en) * 1997-07-10 2000-01-18 International Business Machines Corporation Efficient detection of computer viruses and other data traits
EP1644784A2 (en) * 2003-06-25 2006-04-12 Nokia Inc. Two-phase hash value matching technique in message protection systems
EP1644784A4 (en) * 2003-06-25 2010-06-09 Nokia Inc TWO-PHASE HASH VALUE COMPARISON IN MESSAGE PROTECTION SYSTEMS

Similar Documents

Publication Publication Date Title
US5642435A (en) Structured document processing with lexical classes as context
US5745745A (en) Text search method and apparatus for structured documents
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
US6480838B1 (en) System and method for searching electronic documents created with optical character recognition
EP0380240A3 (en) Coded signature indexed databases
CN100485691C (zh) 一种目标文件的确定方法和装置
EP1227412B1 (en) Pattern retrieval
Lu et al. Retrieval of machine-printed latin documents through word shape coding
NL9101181A (nl) Werkwijze en inrichting voor het detecteren van een of meer bekende karakterstrings in een verzameling karakters.
JP2847715B2 (ja) 文字認識装置及び文字認識方法
JPH07152774A (ja) 文書検索方法および装置
JP2000231559A (ja) 情報処理装置
JPH06124366A (ja) 住所読取装置
JP4065484B2 (ja) 帳票検索システム
JPH08243505A (ja) 住所読取装置及び方法
JP3188154B2 (ja) 文字認識処理方法
JP2588261B2 (ja) Ocrによる住所データベース検索装置
CN117312833B (zh) 一种应用于数字资产环境中的数据识别方法及系统
JP2655087B2 (ja) 文字認識後処理方式
CN111881275B (zh) 高效的热点识别及匹配方法
JP2996823B2 (ja) 文字認識装置
JPS61182132A (ja) 情報検索方式
JP3380850B2 (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法

Legal Events

Date Code Title Description
A1B A search report has been drawn up
BV The patent application has lapsed