NO147128B - Apparat for gjenkjennelse av innleste ord - Google Patents
Apparat for gjenkjennelse av innleste ord Download PDFInfo
- Publication number
- NO147128B NO147128B NO753238A NO753238A NO147128B NO 147128 B NO147128 B NO 147128B NO 753238 A NO753238 A NO 753238A NO 753238 A NO753238 A NO 753238A NO 147128 B NO147128 B NO 147128B
- Authority
- NO
- Norway
- Prior art keywords
- character string
- words
- block
- address
- store
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Camera Data Copying Or Recording (AREA)
- Container Filling Or Packaging Operations (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Description
Foreliggende oppfinnelse angår et apparat som er i stand til å gjenfinne det ord som er mest lik en innlest tegnstreng i et system for optisk tegngjenkjennélse (OTG), blant ordene i et foreliggende ordlager. Nærmere bestemt angår oppfinnelsen et apparat som kan gjenkjenne, ord,
og som kan anvendes for å forbedre leseferdigheten ved av-lesing av adresser på postforsendelser ved hjelp av OTG-systemet, som er vel kjent fra for eksempel fra
George L. Fischer, jfr. et al "OPTICAL CHARACTER RECOGNITION", Spartan Books, McGreger & Werner Inc., 1962, pp. 129-146. Hittil har det vært foreslått å korrigere ord i en tegnrekke gjenkjent i OTG, ved hjelp av et ordlager. Slike forsøk basert på ordlager har den ulempe at de trenger sterkt øket hukommelsekapasitet, hvis ordlageret må være ganske stort, hvorved det vil kreves uhensikts-messig lang behandlingstid. Ingen forslag til løsning av dette problem er kjent, unntatt en kort beskrivelse i (Ref. 2) "IEEE TRANSACTIONS ON COMPUTERS", April 1971, pp. 397-403. Denne går ut på at ordlageret inndeles i blokker av ord med like mange tegn, at antall tegn i tegnstrengen fra OTG telles, og at godkjennelsen av tegnstrengen finner sted ved å søke i den blokk som har ord med samme antall tegn, og å bestemme det ord som passer best til tegn-' strengen. Men etterhvert som antall ord med samme antall tegn blir større, så vil en slik fremgangsmåte også føre til lang behandlingstid, og fordelene blir marginale.
Det er et formål for foreliggende oppfinnelse å fremskaffe et apparat for gjenkjennelse av skrevne ord, og som ikke er beheftet med de ulemper som knytter seg til kjente apparater som anvendes for ordgjenkjennelse og er basert på hurtige "oppslag" i et ordlager av "ordbok"-type.
Oppfinnelsen gjelder således et apparat for gjenkjennelse av ord tilsvarende en tegnstreng innlest fra. et tegngjenkjennelsesystem, idet apparatet omfatter et ordlager for ord som søkes gjenkjent og et tegnstrenglager for den innleste tegnstreng samt en komparatoranordning i forbindelse med såvel ordlageret som tegnstrenglageret og innrettet for å gjenkjenne ord i ordlageret som ligner på den innleste tegnstreng.
På denne bakgrunn av kjent teknikk har apparatet i henhold til oppfinnelsen som særtrekk at: a) ordlageret er oppdelt i blokker hvor lagrede ord med visse felles tegn er ordnet i samsvar med vedkommende blokks nummer, således at gjenkjente tegn i en eller flere gitte tegnposisjoner i et ord som danner en innlest tegnstreng kan anvendes som uttaksnøkkel tilsvarende et bestemt blokknummer, b) et adresselager er anordnet for lagring av blokkad-resser for blokkene i ordlageret c) en uttaksanordning er anordnet for uttak fra adresselageret av en blokkstartadresse og en blokksluttadresse tilsvarende henholdsvis et bestemt blokknummer og det nærmest påfølgende blokknummer, d) tegnstrenglageret er anordnet for direkte lagring av den innleste tegnstreng uten omforming til en avlédet tegnstreng som ikke inneholder tegn som er avvist av tegngjenkjenneIsesysternet e) en registreringsanordning for bestemmelse av blokknummer og å angi i rekkefølge nummerblokker som inneholder ord med gjenkjente tegn anbrakt i de gitte tegnposisjoner i den innleste tegnstreng, f) en anordning for uttak i rekkefølge av ord som er lagret i adresser fra en blokkstartadresse til én
adresse umiddelbart før en blokksluttadresse i ordlageret, idet det anvendes startadresse og slutt-adresse som er tatt ut fra blokkadresselageret ved hjelp av et blokknummer bestemt i samsvar med nevnte gjenkjente tegn i tegnstrengen som uttaksnøkkel, og
g) komparatoranordningen er innrettet for å påvise ord som ligner på den innleste tegnstreng i en grad bedre enn en forut bestemt likhetsgrad ved å sammen-ligne de således uttatte ord fra ordlageret med tegnstrengen.
For å lette forståelsen av foreliggende oppfinnelse, og dens fordeler, vil det bli gjort følgende antagelser: 1) De tre første tegn i et ord som utgjøres av en innlest tegnstreng blir brukt som uttaksnøkkel. 2) Adressene som skal avleses på postforsendelser har lav gjenkjennelsesgrad, således at foreliggende oppfinnelse kan anvendes med særlig store fordeler. Av denne grunn antas at apparatet forkaster 10% av tegnene og bare er i stand til å gjenkjenne 90%. 3) Det er 26 forskjellige tegn som kan gjenkjennes av apparatet, og disse er kodet i ti grupper slik ;som
vist i tabell I nedenfor 4) Antall postadresser som OTG-apparatet skal kunne gjenkjenne overstiger ikke 10.000, slik at ordlageret ikke har flere ord enn dette. 5) Tiden fra det øyeblikk et ord er tatt ut av ordlageret til dette ord er blitt sammenliknet med en gitt innlest
tegnstreng er 50 ^us (mikrosekunder).
Hvis de tre første tegn i den innleste tegnstreng er gjenkjent, betegnes disse ved i (!) og ^ , mens ? betegner at gjenkjennelse ikke er oppnådd, og vedkommende tegn er avvist. Tegn som enten kan være gjenkjent eller avvist er betegnet ved A . på grunnlag av den antatte gjen-kjennelsegrad er sannsynlighetene for følgende tilfeller:
Dette vil si at sannsynligheten for å gjenkjenne minst to tegn blant de første tre tegn i tegnstrengen er 97,2%.
Det antas videre at ved å benytte disse to gjenkjente tegn av tre som nøkkel, vil i gjennomsnitt 100 ord bli lest ut, svarende til 1/100 av de lagrede 10.000 ord. Dette antall ord bli så sammenliknet med den innleste tegnstreng. Bare to gjenkjente av de tre nøkkeltegn i den innleste tegnstreng behøves således for å redusere mengder av oppslagsord for sammenlikningen fra 10.000 ord til i gjennomsnitt 1/100 av dette. Videre er gjenkjennelsesannsynligheten for to av tre tegn hele 97,2%, selv som den er bare 90% for det enkelte tegn, slik at ikke bare prosessen blir meget hurtigere, men også sikkerheten større.
Foreliggende oppfinnelse vil nå bli beskrevet nærmere,
med henvisning til de vedføyde tegninger, hvorpå
Fig. 1 viser et blokkskjerna av en apparatutførelse i henhold til foreliggende oppfinnelse. Fig. 2 viser et blokkskjema av den anordning for å bestemme blokknummer som er angitt ved rammen 3 i fig. 1. Fig. 3 viser et blokkskjema av en del av den anordning for sammenlikning av ord som er angitt ved ramme 7 i fig. 1, Fig. 4 viser et tidsskjema for reguleringssignaler som må
tilføres hovedkretsen i fig. 1,
Fig. 5A og 5B viser koblingsskjemaer for velgerne 42 og 46 i fig. 1. Fig. 1 angir særlig den databehandling som i henhold til oppfinnelsen finner sted etter at den innleste tegnstreng, for eksempel en adresse på en postforsendelse, er blitt lagret i en anordning 2 utsett til dette formål. Selve gjenkjennelsen av adressen på forsendelsen og dannelsen av nevnte tegnstreng er antatt utført ved hjelp av et vel-kjent system for OTG som er vist i fig. 4 i det ovenfor nevnte bokverk "Optical Character Recognition".
Et apparat for gjenkjennelse av innleste ord består i henhold til foreliggende oppfinnelse av nevnte anordning 2 for lagring av innlest tegnstreng, en anordning 3 for å bestemme blokknummer, en anordning 4 for uttak av blokkstartadresse og blokksluttadresse, en anordning 5 for uttak av ord, en anordning 6 for lagring av ord og en anordning 7 for sammenlikning av ord. En tidsstyreinn-retning 8 er videre anordnet for tidsstyring av apparatet. Tallverdier anvendt for^å/.forklare oppfinnelsen, er i det følgende angitt som desimal :taili, men det vil være åpen-"bart for fagfolk på områdetiat"kretsene i foreliggende apparat i praksis benytter binære tall som svarer til de her angitte desimaltall.
De aktuelle oppslagsord klassifiseres først i henhold til de koder som ble vist i tabell I, og lagres så i nevnte anordning 6 på den måte som tabell II angir. Antall bits tilgjengelige for lagring av hvert ord er 90, som med 6 bits pr. tegn kan ordene ha opptil 15 tegn. Ord kortere enn dette fylles ut med mellomrom, for å kunne behandle alle ord som om de hadde 15 tegn.
La oss nå anta at ordene i tabell II er de adresser på postforsendelser som skal gjenkjennes. Alle ord i
tabellen fra og med adresse 2600 til og med adresse 2624 utgjør en blokk med samme kode (257). Ordene fra og med adresse 2625 og videre danner en blokk med koden (258) . Videre angir koden (207) en blokk med ord som har adresser fra og med 2000 til og med 2061, samt koden (217) en blokk av ord fra og med adresse 2062 og videre.
En enhet 40 for lagring av blokkstartadresser inne i anordning 4, har en kapasitet på 100 0 ord, med adressene 000- 999. Blokkstartadressen A... for koden (ijk) blir således lagret i adresse (ix100 + jx10 + k) i lagreret 40. En blokkstartadresse 2000 i tabell II for en kode (207) 1- 1ir lagret i adresse (207 ) i. lageret 40. På lignende
[e blir blokkstartadressene for de forskjellige øvrige
-. xier lagret i lageret 40 under adresser som tilsvarer
vedkommende kode. Følgende forhold kan f:eks. bestå mellom koder og blokkstartadresser (tabell III).
Da høyeste blokkstartadresse er 10.000, trenges det 14 bits for lagring av hver blokkstartadresse i lageret 10.
I anordningen 3 for å bestemme blokknummer er det en enhet 30 som bestemmer hvilket gjenkjennelsemønster, («^(b )
(°^,^, ) eller (?, p, ^ ) , de første tre tegn i nevnte anordning 2 for lagring av innlest tegnstreng tilhører. Blokkavstanden mellom den første blokk som skal leses ut av anordningen 6 og den neste blokk innstilles i henholdsvis en adderingskrets 33 og et register 31, og en teller 32 for telling av blokknummer blir nullstilt. Hvis for eksempel den innleste tegnstreng er E7SEMBLE, så er mønsteret for de tre første tegn ( o*\ , ^ °9 ^e første tre tegn, E?S blir kodet i henhold til tabell I. Denne angir at det ord som svarer til innlest tegnstreng muligens kan finnes i en eller annen av de ti blokkene med kodenummer (207), (21 7) (297). For tilfellet (<X,1 ,)f (E?S) blir første blokknummer o<.x100 + = 2x100 + 7 = 207, og dette tall, innstilles i adderingskretsen 33. Samtidig blir tallet 10, som er avstanden til neste blokk (217) som skal leses, innstilt i register 31. Hvis tegnstrengen er EN7SEMBLE, så representeres på ;lignende måte mønsteret for de tre første tegn av (:-'Ni<f\ Q) slik at de blokker som skal leses ut fra anordning 6 er angitt med kodene (250), (252), .(259). Blokkavstanden vil da være 1 således at tallet 250 innstilles i adderingskretsen 33 og tallet 1 i registeret 31. Hvis tegnstrengen hadde vært PNSEMBLE, ville mønteret vært (?, p ), slik ;at blokkene med kodenummer (057), (157), (957) skulle leses ut fra anordning 6, og tallet 057 ville da blitt innstilt i adderingskretsen 33 og tallet 100 i registeret 31. Hvis de første tre tegn ikke tilhører noen av mønst-rene A ) eller (? , ), ;blir et signal sent ut fra enheten 30 over linje 323 til styreinnretningen som anvisning om at den innleste tegnstreng ikke kan gjenkjennes av apparatet. ;Derpå blir blokknummeret, som angir en bestemt blokk av ord i ordlageret 6 og midlertidig er lageret i adderingskretsen 33 i registreringsanordningen 3, overført til anordning 4 for uttak av blokkstartadresse og blokksluttadresse. ;Ved dette blir blokkstartadressen og blokksluttadressen for vedkommende blokknummer tilført nevnte anordning 5 for uttak av ord. En adderingskrets 4 3 i anordning 4 blir således klargjort ved et styresignal (S-4002 (a) i fig. 4) utsendt fra styreinnretningen 8 over linje 4002. Samtidig blir velgerne 4 og 46 innstilt på henholdsvis adderingskrets 33 og en adresseteller 51 i anordningen 5. Innholdet i adderingskrets 33 blir innført i et adresseregister (ikke vist) i lagringsanordningen 40, og den blokkstartadresse som på denne måten leses ut blir inn-ført i adresseteller 51 i anordningen 5 for uttak av ord. ;I fig. 5B er vist kretsen for velger 46 i fig. 1. Når et styresignal (S-4002 (a) i fig. 4) sendes ut fra styreinnretningen 8 over linje 4002, blir et signal fra lagringsanordning 40 innført gjennom OG-portene 4701.......4713 og 4714 i adressetelleren 51. Når et styresignal (S-4003 (a) i fig. 4) sendes ut fra styreinnretningen 8 over linje 4003, blir et signal fra lagringsanordning 40 ført gjennom OG-portene 4601 .... 461 3 og 4514 inn i et register 52. Utsendelse av et signal (S-4000 (a), fig. 4) fra styreinnretningen 8 over linje 4000 til en velger 42 vil føre til at innholdet i adderingskretsen 33 blir overført til . adderingskretsen 33. ;Fig. 5A viser den logiske krets for velger 42 i fig. 1. ;Et signal (S-4000 (a) i fig. 4) utsendt fra styreinnretningen 8 over linje 4000 vil føre til at innholdet i adderingskretsen 33 (fig. 2) vil bli overført over OG-portene 4300, 4308 og 4309, samt ELLER-portene 4360, 4368 og 4369, til adderingskretsen 43. På ;samme måte ved et signal (S-4001 (a) i fig. 4) over linje 4001 innholdet av et register 41 bli innstilt over OG-porter 4330, 4338 og 4339, samt ELLER-porter 4360, 4368 og 4369. Kretsoppbygningen av velgerne 44 og 331 er av samme art som vist i fig. 5A. ;Det neste som skjer i apparatet er derfor at et signal (S-4001 (a) i fig. 4) blir avgitt fra tidsstyreinnret-ningen over linje 4001 for valg av registeret 41 er slik at konstant lik 1 i dette register 41 blir addert til adderingskretsen 43. Innholdet i sistnevnte krets 43 blir så overført til et adresseregister (ikke vist) i lager-anordningen 40 for lagring av blokkstartadressen. Den adresse som derpå leses ut blir anbrakt som blokksluttadresse i et register 52 i anordningen 5. Valg av adderingskrets 43 og register 52 blir foretatt ved tilførsel av et signal (S-4003 (a) i fig. 4) fra styreinnretningen 8 over linje 4003 til henholdsvis velger 44 og velger 46. ;Som fig. 4 viser vil signaler på linjene 4000, 4001, 4002 og 4003 bety at en ny tegnstreng er blitt innlest i tegnstrenglageret 2, eller at en sammenlikning av en innlest tegnstreng med ordene i de respektive blokker er blitt full-ført. Innholdet i adresseteller 51 i anordningen 5 blir innstilt i et adresseregister (ikke vist) i anordning 6. Innholdet i anordning 6 med denne adresse som adresse-registeret viser, blir overført som et ord til et skiftregister 71 i anordningen 7 for sammenlikning av ord, i samsvar med et styresignal (S-7091 (a), fig. 4) som løper ;inn over linje 7091 . ;En innlest tegnstreng blir tilført en enhet 70 inne i anordningen 7 for ordsammenligning over signallinje 201 fra lagringsanordningen 2, som reaksjon på et styresignal (S-7091 (a) i fig. 4) som tilføres signallinjen 7091. ;Den innleste tegnstreng, som derved er blitt plassert i enheten 70, blir så i denne sammenliknet med de øvrige ord som i tur og orden blir tatt ut av ordlageret 6 og ført til skiftregister 71 styrt av styresignaler (S-7000 (a1) , (a2) (a15), og S-7001m(al), (a2), (a15), og S-7105 (a)). Hvis et ord blir funnet som er likt den innleste tegnstreng i samsvar med visse kriterier, blir dette osd tatt ut av enheten 70 og tilført en signallinje 702, og på samme tid blir et signal som angir at et sådant ord er påvist, sendt til styreinnretningen 8 over en signallinje 770. Sammenlikning av den innleste tegnstreng med hvert enkelt ord som er lest ut av ordlageret 6 blir utført av anordningen 7, og hvis resulatet er at det ikke finnes noe tilstrekkelig likt ord blir et styresignal (S-701 ;(a) på fig. 4) sendt fra innretningen 8 over linje 701 ;til adresse.tel.ler 51 i uttaksanordningen 5. Derpå blir innholdet»J^.5'iijefs3^m" representerer adressen til det neste ord som skarK leses" ut fra lageret 6, sammenliknet med innholdet i registeret 52 (blokksluttadressen for lageret 6), for å se om de to innhold er like. Hvis dette er tilfelle, går det ut et signal, som angir at en innlest tegnstreng er blitt sammenliknet med alle ord i blokken, til linjene 591 og 592 fra en komparator 59. Hvis resultatet av sammenlikningen viser at innholdet i 51 ikke er lik innholdet i 52, vil et enersignal bli sendt fra komparatoren 59 over linje 593. En port 53 blir da åpnet og innholdet av 51 blir sendt til et adresseregister (ikke vist) i ordlageret 6. Ved at et signal (S-591 (A)) til-føres linje 591 fra komparatoren 59, eller med andre ord ved at sammenligning av en hel blokk er fullført, vil "\oldet av register 31 bli addert til addisjonskretsen ;, og det blokknummer i lageret 6 som så.skal leses ut økes. med innholdet i 31. Signallinjen 592, som er en ;forgrening fra linje 591, er forbundet med teller 32 for telling av de blokknummer som faller innenfor det område av ord som skal leses ut fra lageret 6. Når et signal opptrer på linje 592, vil en enerverdi bli addert i/telleren 32. Hvis innholdet i denne teller er lik blitt 10, avgis et signal til linje 321. Dette signal betyr at 10 blokknummer tilsvarende de ord som skal sammenlignes er blitt frembrakt. ;Når et signal som angir at det er funnet et ord som innenfor visse kriterier er lik den innleste tegnstreng, blir tilført linje 770 fra anordningen 7, eller når sammenligning av ord fra 10 blokker er fullført og et tilsvarende signal er tilført linje 321, eller når et signal er sendt ut fra anordningen 3 til linje 323 fordi to eller flere tegn blant de første tre i den innleste tegnstreng ikke er blitt kodet med 0-9 i henhold til tabell I, blir et signal sendt fra styreinnretningen 8, over linje 703 for å angi at gjenkjennelse av adressen på vedkommende postforsendelse er blitt fullført. ;I henhold til fig. 2, sofå&^&ger alle detaljer i anordningen 3 i fig i 1 blir de f ørsteis££eUtegn tilført fra lageranord-jiin^ 2, fig. 1, til omformerne 3001, 3002 og 3003, alle med 6-bits inngang og 4 -bits utgang og kodet i henhold til tabell I. Symbolet "?", som betyr avvisning , blir detek-tert i detektorene 3011, 3012 og 3013. Hvis "?" påvises vil utgangen innstilles tilsvarende multivibratorer 3021, 3022 og 3023 til enerverdi. Utgangen fra omformerne 3001 og 3002 blir overført til 10-bit kode og 7-bit kode, som er vist på høyre side av henholdsvis tabell IV og tabell V, ved hjelp av henholdsvis omformeren 3031 og omformeren 3032. ;Først blir et styresignal (S-3090 på fig. 4) sendt fra styreinnretningen 8 over signallinje 3090 slik at addisjonskretsen 33 og teller 32 blir klargjort. Når så styresignaler (S-3091 og S-3092 og S-3093) kommer over linjene 3091, 3092 og 3093, vil utgangene fra' omformerne 3031, 3032 og en port 3034 bli valgt etter tur av velger 331 og tilført addisjonskretsen 33 som har 10 bit. Porten 30'34 tillater at utgangssignalet fra en port 3073 får passere når utgangen fra en OG-port 3041 har nullverdi. Som vist i fig. 4 blir intet signal tilført linjene 3090, 3091, 3092 eller 3093 før en ny tegnstreng blir innlest gjennom OTG-systemet 1 og lagret i tegnstrenglageret 2. Multivibratorene 3021, 3022 og 3023 tilbakestilles før ;en ny tegnstreng tilføres lageret 2. Hvis en innlest ;tegnstreng har mønsteret (o^J^ /X ), vil utgangen fra OG-port 3041, ha enerverdi, da multivibratorene 3021 og 3022 er tilbakestilt på forhånd for mønsteret (^t^.^T ) er bare multivibratoren 3022 innstilt, slik at utgangen for en OG-port 3042 vil ha enerverdi. For mønsteret ( 'Vt $. ) vil kare mulitvibratpren 3021 blir innstilt slik at utgangen fra en OG-port 3043 vil ha enerverdi. ;Blokkavstander 1, 10 eller 100 blir innstilt i registrene 3061, 3062 og 3063, for i rekkefølge å kunne peke ut de riktige blokkene i ordlageret 6. For tilfellet { oi, f<1>. Cl ) vil innholdet (1) i register 3061 bli innført i register 31, mens for tilfellet ('A ,1 , ) innholdet (10) i registeret 3062 blir innført-i 31. For tilfellet ( f-, ) blir videre innholdet (100) i registeret 306 3 innført i 31. Hvis et av de spesifiserte mønstre (C*. (?>, A ) , \ X ) eller ( ? , P, )f foreligger vil utgangen for en ELLER-pprt 3050 ha enerverdi. Når sammenligningen av den innleste tegnstreng med ordnene i-en.
viss blokk i ordlageret 6 er fullført, sendes et signal .
(S-591 (A) i fig. 4) ut fra styreinnretningen 8 i fig. 1 over linje 591, og innholdet av register 31, hvor blokkavstanden er innstilt, blir valgt som inngang til teller 33 over velger 331, slik at denne teller 33 nå gir nummeret på den nye blokk som skal sammenlignes med den innlest tegnstreng. Når det forekommer signal på linje 592, en sidegren av linje 591, og dette gjør at innholdet i teller 32 blir 10, vil et signal tilføres linje 321 fra telleren 32 for å angir at den innleste tegnstreng en blitt sammenlignet med ordene i 10 blokker i lageret 6. I tilfelle den innleste tegnstreng ikke tilhører noen av de nevnte mønstre, vil. utgangen for en ELLER-port. 3050 anta nullverdi, slik at utgangen for en inverter 3051 da får enerverdi. Dette ut-gssignal med enerverdi fra inverteren 3051 angir at y jenkjennel-se.. ikke har vært mulig, og et signal avgis' da over linje 323 til styreinnretningen 8.
Fig. 3 viser oppbygningen av anordningen 7 for sammenligning av ord. I denne finnes et skriftregister 72 som kan lagre 15 tegn som hver har 6 bit, nemlig den innleste tegnstreng som blir overført fra tegnstrenglageret 2 gjennom en port 79, mens et visst ord blir overført fra ordlageret 6 til det sirkulerende skiftregister 71, som også omfatter 90
bit for lagring av 15 tegn. Samtidig blir teller 76 satt til nullverdi. De første 6 bit fra venstre i begge skiftregisterne 71 og 72 behandles i en ekskiusiv ELLER-krets 73. Utgangssignalet fra 73 går til en ELLER-krets 74,
og signalet overføres så gjennom en inverterkrets 75,
hvis utgangssignalet telles i 4-bit téller 76, når et
styresignal (S-7000 (a1)) tilføres over linje 7000.
Seks innbyrdes tilsvarende bit i skiftregisterne 71 og
72 blir så sammenlignet. En rekke på seks pulser (S-7001
(a1), fig. 4) opptrer da på linje 7001 og forskyver innholdet i registerne 71 og 72 seks plasser mot venstre, slik at et nytt tegn fremkommer i de første seks bit fra venstre i begge registre. Teller 76 registrerer hvor mange ganger tilsvarende tegn i registerne 71 og 72 stemmer overens. Når styresignalene på linjene 7000 og 7001 har forekommet 15 ganger, vil et signal (S-7105 (a), fig. 4) opptre
på linje 7105, hvilket bevirker at en komparator 77 sammen-likner innholdet i teller 76 med innholdet i et register 78 på 4 bit. Disse 4 bit er på forhånd satt til tall-verdien "13", hvis det kan godtas at 2 av de 15 tegn ikke stemmer overens. Hvis innholdet i 76 er større enn det i 78, vil et signal opptre på linje 770 slik at porten 80 åpnes. En følgejiy dette er at det ord som lagres i skiftregisteret 71 ved sirkulasjon en omgang i dette sendes ut over linje 702 som et resultat av gjenkjennelse-prosessen.
Informasjonsstrømmen gjennom foreliggende apparat for gjenkjennelse av innlest tegnstreng vil,nå bli beskrevet under henvisning til fig. 1 - 4. Utgangspunktet er at adressen på en postforsendelse antas å være "ENSEMBLE" og at OTG-- systemet -1 har-innlest dette som "E?SE??IE", hvilket er overført til tegnstrenglageret 2.
De første tre tegn E?S blir innført i hver sin omformer 3001, 3002 og 3003 i fig. 2. Tegn E og S blir kodet til henholdsvis 2 og 7, som i binære tall blir henholdsvis 0010 og 0111 i 3001 og 3003. Da et symbol "?" (anvisning) blir påvist av detektoren 3012, vil multivibratoren 3022 bli innstilt til enerverdi og utgangen for OG-porten 342 vil da også ha enerverdi. Blokkavstanden 10, som på forhånd er innstilt i register 3062, blir da overført til registeret 31, for i rekkeførlge å peke ut de blokker i ordlageret 6 (fig. 1) som skal tas ut for sammenligning med den innleste tegnstreng. Tallet "200" (binært 0011001000) avgis fra omformeren 3031, mens utgangssignalet fra omformeren 3003 passerer gjennom port 3034, idet multivibratoren 3023 er tilbakestilt og OG-port 3041 har nullverdi.
Da inngangssignalet til omformeren 3002 er avvisnings-signalet "?" vil utgangen fra omformeren 3032 fortsatt ha nullverdi. Resultatet er at tallet "200" fra omformeren 3031 og tallet "7" i omformeren 3003 adderes i adderingskretsen 33, og gir da tallet "207".
Da utgangen for OG-porten 3042 har enerverdi, vil også utgangssignalet fra ELLER-port 3050 være en enerbit. Signalet på linje 323 blir derfor "0". Idet tallet i adderingskretsen 33 og "207", vil innholdet "2000" i addresse "207" i enheten 40 for lagring av blokkstartadresser bli innstilt i addressetelleren 51 i fig. 1, og angir da blokkstartadressen. Da "208" er innstilt i adderingskretsen 43, fig. 1, ved addisjon av en enerverdi til innholdet "207" i adderingskretsen 33, vil derpå innholdet "2062" i adresse "208" i enheten 40 bli satt inn i register 52, i-«vlarg,. 1, som blokksluttadresse. Det neste som skjer er ate^oroe^ "EAR" i tabell II i ordlageret 6, og som har -•«dressen angitt av adresseteller 51, først blir .stilt i register 71 i anordningen 7 (fig. 3) for sammenligning av ord, og derpå sammenlignet i enheten 70, med den innleste tegnstreng "E?SE??IE" som blir ført inn i skiftregister 72 fra lageret 2. Hver gang en slik sammenligning er fullført, blir et styresignal sendt ut over linje 701 fra styreinnretningen 8, fig. 1, og på
denne måte blir en enerverdi addert til innholdet i adressetelleren 51, mens ordene i blokken "207" (adresser 2000
til og med 2061) i ordlageret 6 i tur og orden blir ført inn i skiftregister 71, hvor de blir sammenlignet med den innleste tegnstreng "E?SE??IE" (innført i 72).
Når så innholdet i adresseteller 51 blir "208" og lik innholdet i register 52 (blokksluttadresse), vil et signal bli sendt fra komparatoren 59, fig. 1, over linjene 591
og 5 92. Dette fører til at innholdet "10" i register 31
for blokkavstand blir addert til adderingskrets 33 og gir verdien "217", mens telleren 32 antar enerverdi ved å telle en enhet Etter dette vil ordene i den blokken som har kode "217" i ordlageret 6 i rekkefølge bli sammenlignet med den innleste tegnstreng. Selv om den korrekte løsning "ENSEMBLE" finnes i en blokk ("257") som er innført i skiftregister 71, vil antall tegn bare være 11, altså mindre enn antallet 13 i register 78. Innholdet i skiftregister 71 vil derfor ikke kunne komme ut av dette som en løsning gjennom port 80 og videre til linje 702 i fig. 3. Sammenligningen mellom tegnstrengen og ord fra blokkene..
i 6 fortsetter derfor inntil hele blokk "297" er gjennom-gått. Innholdet i telleren 32 i fig. 2 blir da "10",
og et signal avgis til linje 321. Ved dette tidspunkt avgir styreinnretningen 8 over linje 703 et enersignal som angir at den innleste tegnstreng ikke kunne gjenkjer- ' i av apparatet. Hvis imidlertid tegnstrengen hadde vært "E7SEMBLE", så ville det ha vært 14 tegn felles med det oppslåtte ord "ENSEMBLE" (tomrom er felles), altså
flere enn tallet "13" i registeret 78. Av denne grunn ville "ENSEMBLE" da blitt sendt ut fra register 71 gjennom port 80 og over linje 702, som en riktig gjenkjent adresse på vedkommende postforsendelse.
I den ovenfor angitte beskrivelse kan apparatet benytte
en hvilken som helst annen passende sammenligningsmetode enn den som er angitt, skjønt anordningen 7 i foreliggende utførelse er basert på den enklest mulige metode, slik at den er lett å beskrive. Videre er ordene i ordlageret 6 lagret med fast lengde, men de kan også godt lagres med variabel lengde. Behandling av ord med variabel lengde er brukt i vanlige datamaskiner for kommersiell anvendelse.
Claims (1)
- Apparat for gjenkjennelse av ord tilsvarende en tegnstreng innlest fra et tegngjenkjennelsesystem (1), idet apparatet omfatter et ordlager (6) for ord som søkes gjenkjent og et tegnstrenglager (2) for den innleste tegnstreng samt en komparatoranordning (70) i forbindelse med såvel ordlageret (6) som tegnstrenglageret (2) og innrettet for å gjenkjenne ord i ordlageret som ligner på den innleste tegnstreng,karakterisert ved at a) ordlageret (6) er oppdelt i blokker hvor lagrede ord med visse felles tegn er ordnet i samsvar med vedkommende blokks nummer, således at gjenkjente tegn i en eller flere gitte tegnposisjoner i et ord som danner en innlest tegnstreng kan anvendes som uttaks-nøkkel tilsvarende et bestemt blokknummer, b) et adresselager (40) er anordnet for lagring av blokk-adresser for blokkene i ordlageret (6) c) en uttaksanordning (4) er anordnet for uttak fra adresselageret (40) av en blokkstartadresse og en blokksluttadresse tilsvarende henholdsvis et bestemt blokknummer og det nærmest påfølgende blokknummer, d) tegnstrenglageret (2) er anordnet for direkte lagring av den innleste tegnstreng uten omforming til en av-ledet tegnstreng som ikke inneholder tegn som er avvist av tegngjenkjennelsesystemet e) en registreringsanordning (3) for bestemmelse av blokknummer og å angi i rekkefølge nummerblokker som inneholder ord med gjenkjente tegn anbrakt i de gitte tegnposisjoner i den innleste tegnstreng, f) en anordning (5) for uttak i rekkefølge av ord som er lagret i adresser fra en blokkstartadresse til en adresse umiddelbart før en blokksluttadress i ordlageret (6), idet det anvendes startadresse og sliittadresse som er tatt ut fra blokkadresselageret (40) ved hjelp av et blokknummer bestemt i samsvar med nevnte gjenkjente tegn i tegnstrengen som uttaks-nøkkel, og g) komparatoranordningen (70) er innrettet for å påvise ord som ligner på den innleste tegnstreng i en grad bedre enn en forut bestemt likhetsgrad ved å sammen-ligne de således uttatte ord fra ordlageret (6) med tegnstrengen.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP11029574A JPS5729745B2 (no) | 1974-09-25 | 1974-09-25 |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| NO753238L NO753238L (no) | 1976-03-26 |
| NO147128B true NO147128B (no) | 1982-10-25 |
| NO147128C NO147128C (no) | 1983-02-02 |
Family
ID=14532063
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| NO753238A NO147128C (no) | 1974-09-25 | 1975-09-23 | Apparat for gjenkjennelse av innleste ord. |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US4010445A (no) |
| JP (1) | JPS5729745B2 (no) |
| NO (1) | NO147128C (no) |
Families Citing this family (45)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4136395A (en) * | 1976-12-28 | 1979-01-23 | International Business Machines Corporation | System for automatically proofreading a document |
| US4205302A (en) * | 1977-10-28 | 1980-05-27 | Einar Godo | Word recognizing system |
| US4164025A (en) * | 1977-12-13 | 1979-08-07 | Bell Telephone Laboratories, Incorporated | Spelled word input directory information retrieval system with input word error corrective searching |
| JPS6239467Y2 (no) * | 1978-11-20 | 1987-10-08 | ||
| JPS5583962A (en) * | 1978-12-19 | 1980-06-24 | Sharp Corp | Data retrieving system |
| US4201881A (en) * | 1979-03-28 | 1980-05-06 | Wisconsin Alumni Research Foundation | 24,24-Difluoro-1α,25-dihydroxycholecalciferol |
| US4290105A (en) * | 1979-04-02 | 1981-09-15 | American Newspaper Publishers Association | Method and apparatus for testing membership in a set through hash coding with allowable errors |
| US4328561A (en) * | 1979-12-28 | 1982-05-04 | International Business Machines Corp. | Alpha content match prescan method for automatic spelling error correction |
| US4355371A (en) * | 1980-03-25 | 1982-10-19 | International Business Machines Corporation | Instantaneous alpha content prescan method for automatic spelling error correction |
| US4355302A (en) * | 1980-09-12 | 1982-10-19 | Bell Telephone Laboratories, Incorporated | Spelled word recognizer |
| DE3069324D1 (en) * | 1980-12-19 | 1984-10-31 | Ibm | Interactive data retrieval apparatus |
| US4383307A (en) * | 1981-05-04 | 1983-05-10 | Software Concepts, Inc. | Spelling error detector apparatus and methods |
| US4499553A (en) * | 1981-09-30 | 1985-02-12 | Dickinson Robert V | Locating digital coded words which are both acceptable misspellings and acceptable inflections of digital coded query words |
| US4456969A (en) * | 1981-10-09 | 1984-06-26 | International Business Machines Corporation | System for automatically hyphenating and verifying the spelling of words in a multi-lingual document |
| US4475237A (en) * | 1981-11-27 | 1984-10-02 | Tektronix, Inc. | Programmable range recognizer for a logic analyzer |
| US4453217A (en) * | 1982-01-04 | 1984-06-05 | Bell Telephone Laboratories, Incorporated | Directory lookup method and apparatus |
| US4527253A (en) * | 1982-05-28 | 1985-07-02 | Hitachi, Ltd. | Data searching apparatus |
| US4580241A (en) * | 1983-02-18 | 1986-04-01 | Houghton Mifflin Company | Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons |
| US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
| US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
| JPS60203809A (ja) * | 1984-03-29 | 1985-10-15 | Jeol Ltd | スペクトル・デ−タのしきい値設定方式 |
| US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
| US4783758A (en) * | 1985-02-05 | 1988-11-08 | Houghton Mifflin Company | Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words |
| JPS61150926U (no) * | 1985-03-08 | 1986-09-18 | ||
| JPH0682403B2 (ja) * | 1986-03-24 | 1994-10-19 | 沖電気工業株式会社 | 光学式文字読取装置 |
| US4764973A (en) * | 1986-05-28 | 1988-08-16 | The United States Of America As Represented By The Secretary Of The Air Force | Whole word, phrase or number reading |
| US4829472A (en) * | 1986-10-20 | 1989-05-09 | Microlytics, Inc. | Spelling check module |
| US4994966A (en) * | 1988-03-31 | 1991-02-19 | Emerson & Stern Associates, Inc. | System and method for natural language parsing by initiating processing prior to entry of complete sentences |
| JPH02126367A (ja) * | 1988-11-07 | 1990-05-15 | Nec Home Electron Ltd | 文字認識機能付き電子辞書装置 |
| US5167016A (en) * | 1989-12-29 | 1992-11-24 | Xerox Corporation | Changing characters in an image |
| US5604897A (en) * | 1990-05-18 | 1997-02-18 | Microsoft Corporation | Method and system for correcting the spelling of misspelled words |
| US5161245A (en) * | 1991-05-01 | 1992-11-03 | Apple Computer, Inc. | Pattern recognition system having inter-pattern spacing correction |
| CA2077970C (en) * | 1991-11-19 | 1999-02-23 | Daniel P. Huttenlocher | Optical word recognition by examination of word shape |
| CA2077969C (en) * | 1991-11-19 | 1997-03-04 | Daniel P. Huttenlocher | Method of deriving wordshapes for subsequent comparison |
| US5321770A (en) * | 1991-11-19 | 1994-06-14 | Xerox Corporation | Method for determining boundaries of words in text |
| US5390259A (en) * | 1991-11-19 | 1995-02-14 | Xerox Corporation | Methods and apparatus for selecting semantically significant images in a document image without decoding image content |
| JP3576570B2 (ja) * | 1991-11-19 | 2004-10-13 | ゼロックス コーポレイション | 比較方法 |
| US5410611A (en) * | 1993-12-17 | 1995-04-25 | Xerox Corporation | Method for identifying word bounding boxes in text |
| JP3445394B2 (ja) * | 1993-12-17 | 2003-09-08 | ゼロックス・コーポレーション | 少なくとも二つのイメージセクションの比較方法 |
| US5434932A (en) * | 1994-07-28 | 1995-07-18 | West Publishing Company | Line alignment apparatus and process |
| US5774588A (en) * | 1995-06-07 | 1998-06-30 | United Parcel Service Of America, Inc. | Method and system for comparing strings with entries of a lexicon |
| US5835638A (en) * | 1996-05-30 | 1998-11-10 | Xerox Corporation | Method and apparatus for comparing symbols extracted from binary images of text using topology preserved dilated representations of the symbols |
| US6047300A (en) * | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
| US7724957B2 (en) * | 2006-07-31 | 2010-05-25 | Microsoft Corporation | Two tiered text recognition |
| US8228522B2 (en) * | 2007-01-29 | 2012-07-24 | Kabushiki Kaisha Toshiba | Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3273130A (en) * | 1963-12-04 | 1966-09-13 | Ibm | Applied sequence identification device |
-
1974
- 1974-09-25 JP JP11029574A patent/JPS5729745B2/ja not_active Expired
-
1975
- 1975-09-19 US US05/614,984 patent/US4010445A/en not_active Expired - Lifetime
- 1975-09-23 NO NO753238A patent/NO147128C/no unknown
Also Published As
| Publication number | Publication date |
|---|---|
| NO753238L (no) | 1976-03-26 |
| US4010445A (en) | 1977-03-01 |
| JPS5144435A (no) | 1976-04-16 |
| NO147128C (no) | 1983-02-02 |
| JPS5729745B2 (no) | 1982-06-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| NO147128B (no) | Apparat for gjenkjennelse av innleste ord | |
| US4164025A (en) | Spelled word input directory information retrieval system with input word error corrective searching | |
| US4241402A (en) | Finite state automaton with multiple state types | |
| US3995254A (en) | Digital reference matrix for word verification | |
| US3407387A (en) | On-line banking system | |
| US4341929A (en) | Memory accessing system | |
| US4141268A (en) | Keyboard apparatus for an electronic musical instrument | |
| US3448436A (en) | Associative match circuit for retrieving variable-length information listings | |
| CA1191963A (en) | Parallel cyclic redundancy checking circuit | |
| CA1092243A (en) | Apparatus for automatically forming hyphenated words | |
| GB1280487A (en) | Multilevel compressed index searching | |
| KR840008849A (ko) | 버퍼 기억장치 제어 시스템 | |
| US3733589A (en) | Data locating device | |
| US3167740A (en) | Data comparison system utilizing a universal character | |
| JPH024026B2 (no) | ||
| EP0097818A2 (en) | Spelling verification method and typewriter embodying said method | |
| US3525985A (en) | Data handling arrangements | |
| US4132978A (en) | Systems for recognizing printed characters | |
| US3806890A (en) | Associative memory including a resolver | |
| US3996569A (en) | Information storage systems and input stages therefor | |
| JP3027754B2 (ja) | 連想記憶装置 | |
| US3976865A (en) | Error detector for an associative directory or translator | |
| JPH0746362B2 (ja) | 文字列照合方法 | |
| US3316538A (en) | Circuit arrangement for processing parts of words in electronic computers | |
| US3992700A (en) | Information retrieving apparatus |