NL9101286A

NL9101286A - Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze.

Info

Publication number: NL9101286A
Application number: NL9101286A
Authority: NL
Original assignee: Oce Nederland Bv
Priority date: 1991-07-23
Filing date: 1991-07-23
Publication date: 1993-02-16
Also published as: DE69229583T2; JP3794716B2; DE69229583D1; ATE182224T1; EP0524694B1; JPH05189476A; US5369576A; EP0524694A1

Description

Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze

De uitvinding heeft betrekking op een werkwijze voor het verbuigen van woorden, omvattende een verbuigingsstap, waarbij aan de hand van linguïstische gegevens, opgeslagen in een geheugen, en uitgaande van invoergegevens omvattende een te verbuigen invoerwoord, een grammaticale categorie behorende bij het invoerwoord, grammaticale features behorende bij het invoerwoord en een gewenste verbuigingscategorie, het invoerwoord wordt verbogen. De uitvinding heeft tevens betrekking op een data-verwerkings-eenheid geschikt voor het uitvoeren van een dergelijke werkwijze.

Een dergelijke werkwijze en data-verwerkings-eenheid is bekend uit het Amerikaanse octrooischrift US-A-4,724,523. De aldaar beschreven werkwijze stelt zich onder andere ten doel te voorzien in een efficiënte opslag van digitale signalen welke linguïstische gegevens representeren. Dit doel wordt onder meer bereikt door toepassing van verbuigingsroutines. Hierdoor is het niet meer noodzakelijk alle verbogen woorden in een geheugen op te slaan, hetgeen leidt tot het technisch effect dat een aanzienlijke geheugenbesparing wordt verkregen. Een eerste nadeel van de aldaar beschreven verbuigingsroutines is dat deze routines veelvuldig toegang tot een massa-opslag-systeem vereisen, hetgeen een aanzienlijke achteruitgang van performance veroorzaakt. Een tweede nadeel is dat de linguïstische gegevens betreffende verbuigingscategorieën verspreid staan over verscheidene geheugensegmenten, hetgeen ertoe leidt dat het geschikt maken van de verbuigingsroutines voor een andere taal een moeizaam proces is.

De uitvinding stelt zich ten doel om, onder handhaving van het eerder vermelde technische effect, de genoemde nadelen aanzienlijk te reduceren.

De uitvinding berust erop een deel van de voor het verbuigen van woorden noodzakelijke informatie, op een voor verwerking bijzonder geschikte wijze, onder te brengen in een geheugensegment

Overeenkomstig de uitvinding is de werkwijze van de in de aanhef genoemde soort gekenmerkt doordat de linguïstische gegevens in de vorm van een classificatie-schema opgeslagen zijn in een door het geheugen omvat naar willekeur toegankelijk geheugendeel, welk classificatie-schema een aantal geneste lijsten omvat, die elk op grammaticale eigenschappen betrekking hebbende elementen omvatten en doordat de verbuigingsstap omvat het selecteren van in elkaar geneste lijsten op grond van de invoergegevens, het hierna selecteren van een element uit de laatst geselecteerde lijst op grond van de invoergegevens, welk element string-operaties omvat, en het uitvoeren van de string-operaties ter verbuiging van het invoerwoord.

Hierdoor wordt een compacte en doelmatige opslagstructuur van linguïstische gegevens nodig bij het verbuigen van woorden verkregen. Bovendien is deze opslagstructuur eenvoudig uitwisselbaar, zodat de werkwijze gemakkelijk geschikt te maken is voor een andere taal door een voor die taal geldend classificatie-schema te nemen.

Een voordelige uitvoeringsvorm van de werkwijze is gekenmerkt door - het in de lijst van een eerste type selecteren van het eerst voorkomende element dat een grammaticale categorie bezit welke overeenstemt met de grammaticale categorie omvat door de invoergegevens, - het in de lijst van een tweede type, behorende bij het geselecteerde element uit de lijst van het eerste type, selecteren van het eerst voorkomende element dat een gewenste verbuigingscategorie bezit, welk overeenstemt met de gewenste verbuigingscategorie uit de invoergegevens, - het in de lijst van een derde type, behorende bij het geselecteerde element uit de lijst van het tweede type, selecteren van het eerst voorkomende element waarvan alle grammaticale features uit een eerste groep omvat worden door de grammaticale features uit de invoergegevens, - het in de lijst van een vierde type, behorende bij het geselecteerde element uit de lijst van het derde type, selecteren van het eerst voorkomende element dat qua verbuigingscode overeenstemt met een verbuigingscode van de invoergegevens, - het uitvoeren van de door het uit de lijst van het vierde type geselecteerde element omvatte string-operaties op het invoerwoord, en - het aanpassen van de features door het vervangen van de features uit de eerste groep door de features uit een tweede groep, indien de in de vorige stap genoemde string-operaties slagen.

Hierdoor wordt voorzien in het aanpassen van de lexicale gegevens ten gevolge van de gewijzigde verbuiging van het woord.

In een volgende voordelige uitvoeringsvorm is de werkwijze gekenmerkt door het wijzigen van de gewenste verbuigingscategorie in een vooraf vastgestelde verbuigingscategorie, indien op grond van de invoergegevens geen element in een der lijsten geselecteerd kan worden omdat geen overeenstemming bestaat tussen de invoergegevens en de elementen, het vervolgens uitvoeren van de verbuigingsstap op de gewijzigde invoergegevens, en uitgaande van de oorspronkelijke gewenste verbuigingscategorie het wederom uitvoeren van de verbuigingsstap op het alsdan verkregen resultaat

Hierdoor wordt bereikt dat niet alle overgangen van de ene verbuigingscategorie naar de andere verbuigingscategorie hoeven te worden opgenomen in het classificatie-schema. Is de gevraagde overgang niet opgenomen dan wordt het invoerwoord allereerst naar een vooraf vastgestelde verbuigingscategorie (bv. singulier eerste persoon) verbogen onder gebruikmaking van de werkwijze volgens de uitvinding. Vervolgens wordt het aldus verbogen invoerwoord nogmaals verbogen, echter nu naar de oorspronkelijk gevraagde verbuigingscategorie. De overgang van huidige verbuiging naar gewenste verbuiging is nu gesplitst in een overgang van huidige verbuiging naar (bv.) singulier 1 en een overgang van singulier 1 naar de oorspronkelijk gewenste verbuiging.

Een verdere voordelige uitvoeringsvorm van de werkwijze is gekenmerkt doordat de invoergegevens onregelmatige verbuigingen omvatten van het invoerwoord, waaruit op grond van de gewenste verbuigingscategorie een verbuiging wordt geselecteerd.

Door deze maatregel wordt bereikt dat ook voor onregelmatige verbuigingscategorieën geen raadpleging van een lexicale woordenlijst opgeslagen in een massa-geheugen noodzakelijk is.

De data-verwerkings-eenheid volgens de uitvinding is gekenmerkt, doordat de linguïstische gegevens in de vorm van een classificatie-schema opgeslagen zijn in een geheugensegment, welk classificatie-schema een aantal geneste lijsten omvat, die elk op grammaticale eigenschappen betrekking hebbende elementen omvatten en doordat de middelen geschikt zijn voor het samenwerken met genoemd geheugensegment, waarin het classificatie-schema is opgeslagen.

Andere kenmerken en voordelen van de uitvinding zullen duidelijk worden gemaakt aan de hand van de hiernavolgende beschrijving en met behulp van figuren, waarvan: Fig.1 een grafische representatie van een classificatie-schema toont;

Fig.2 een flowdiagram toont dat de werkwijze volgens de uitvinding weergeeft;

Fig.3 een blokschema weergeeft van een systeem te gebruiken voor verbuigingscorrectie; en

Fig.4 een mogelijke uitvoering toont van een data-verwerkings-eenheid volgens de uitvinding.

Alvorens op de werkwijze volgens de uitvinding in te gaan zal eerst de structuur van het bij de werkwijze te gebruiken classificatie-schema uiteengezet worden. In Tabel 1 is een uitvoeringsvorm van het classificatie-schema gegeven, welke geschikt is om in samenwerking met de werkwijze een aantal Nederlandse woorden te verbuigen. Het classificatie-schema is eenvoudig uit te breiden voor andere linguïstische regels, echter het hier getoonde classificatie-schema is voldoende om de uitvinding volledig en duidelijk uiteen te kunnen zetten.

Tabel 1 Classificatie-schema

((NOUN

(PLU3 ((SING3 DIMINUATIVE) (PLU3 DIMINUATIVE) (12 8 # +S)) ((SING3) (PLU3) (12 8 # +en))) (SING3 ((PLU3 DIMINUATIVE) (SING3 DIMINUATIVE) (12 8 # -s)) ((PLU3) (SING3) (12 8 # -en)))

(DIMINUATIVE

((SING3) (SING3 DIMINUATIVE) (12 # -g +kje) (8 # +tje)) ((PLU3) (PLU3 DIMINUATIVE) (12 # -gen +kjes) (8 # -en +tjes)))

(UNDIMINUATIVE

((PLU3 DIMINUATIVE) (SING3) (12 # -kjes +g) (8 # -tjes))))

(VERB

(SING1 ((PLU1 PLU2 PLU3 PRESENT) (PRESENT SING1) (-2 # xl) ( 5 # -en) (18 # -zijn +ben)) ((SING2 SING3 PRESENT) (SING1 PRESENT) (-2 # xl) ( 5 # -t)) ((SING3 SING2 PRESENT) (SING1 PRESENT) (-2 # Xl) ( 5 # -t)) ((PASTPART) (SING1 PRESENT) (-2 # xl) ( 5 # B -t)) ((PLU1 PLU2 PLU3 PAST) (PAST SING1 SING2 SING3) (-2 # xl)) ((SING2 PRESENT) (SING1 PRESENT) (-2 # xl) (18 # -t))) (SING2 ((SING1 PRESENT) (SING2 SING3 PRESENT) (-2 # xl) ( 5 # fit)) ((PRESENT SING3) (PRESENT SING2) (-2 # xl) ( 5 # 0)) ((PLU1 PLU2 PLU3 PRESENT) (PRESENT SING2 SING3) (-2 # xl) ( 5 # -en &t)) ((PLU1 PLU2 PLU3 PAST) (PAST SING1 SING2 SING3) (-2 # xl) ( 5 # -n)) ((SING1 PRESENT) (SING2 PRESENT) (18 # +t)) ((SING3 PRESENT) (SING2 PRESENT) (18 # -is +bent)) ((PLU1 PLU2 PLU3 PRESENT) (SING2 PRESENT) (18 # -zijn +bent))) (PLU1 ((PAST SING1 SING2 SING3) (PAST PLU1 PLU2 PLU3) (-2 # x5)))

(PASTPART

((SING1 SING2 SING3 PAST) (PASTPART) (-2 # x7) ( 5 # P K) (17 # S A F)) ((SING1 PRESENT) (PASTPART) ( 5 # P K) (17 # S A F)))

(ARTICLE

(INNEUTER

((NEUTER) (INNEUTER PLU3) (16 # -het +de)))

(NEUTER

((INNEUTER PLU3) (NEUTER) (16 # -de +het))) (PLU3 ((NEUTER) (INNEUTER PLU3) (16 # -het +de)))))

Het classificatie-schema bezit een geneste lijststructuur, welke toegelicht zal worden aan de hand van Fig.1. In deze figuur is, zij het niet volledig, het classificatie-schema van Tabel 1 grafisch weergegeven. Delen welke gelijkaardig zijn, zijn door eenzelfde verwijzingscijfer aangegeven. Het classificatie-schema wordt gevormd door een lijst van het eerste type, welke in Fig. 1 wordt aangeduid met verwijzingscijfer 1, waarvan de met verwijzingscijfer 2 aangeduide elementen ieder een grammaticale categorie 3 alsmede een lijst van het tweede type 4 omvatten. De in de Figuur opgenomen grammaticale categorieën zijn: 'NOUN' (zelfstandig naamwoord), 'VERB' (werkwoord) en 'ARTICLE' (lidwoord). Bij een grammaticale categorie 3 behoort een lijst van het tweede type 4, waarvan de elementen 5 telkens informatie over een gewenste verbuigingscategorie 6, alsmede een lijst van het derde type 7 omvatten. De in de Figuur opgenomen gewenste verbuigingscategorieën 6 zijn achtereenvolgens: 'PLU3', 'SING3', 'DIMINUATIVE' en 'UNDIMINUATIVE'. Op grond hiervan voorziet het onderhavige classificatie-schema in beginsel in de mogelijkheid een zelfstandig naamwoord (grammaticale categorie 'noun') te verbuigen naar de volgende gewenste verbuigingsvormen: meervoudsvorm ('plu3'), enkelvoudsvorm ('sing3'}, verkleinende vorm ('diminuative') en niet-verkleinende vorm ('undiminuative'). De lijst van het derde type 7, omvat elementen 8, die elk op hun beurt zijn opgebouwd uit een eerste groep van huidige grammaticale features 9, een tweede groep van gewenste grammaticale features 10 en een lijst van het vierde type 11. De eerste groep 9 is bepalend bij het selecteren van een der elementen 8 uit lijst 7. Nadat een element 8 geselecteerd is, zijn de features uit de tweede groep 10 nodig om de feature-lijst van het woord aan te kunnen passen aan de nieuwe verbuigingsvorm van het woord. De lijst van het derde type 11 omvat een of meer elementen 12, die elk op hun beurt bestaan uit een of meer verbuigingscodes, waarna, voorafgegaan door het karakter '#', een of meer string-operaties volgen. Verbuigingscodes en string-operaties zullen later worden toegelicht aan de hand van Tabel 2, respectievelijk Tabel 3. Voldoet tenminste een der verbuigingscodes opgenomen in een element 12 aan een verbuigingscode behorende bij het invoerwoord, dan worden de voorgeschreven string-operaties op het invoerwoord uitgevoerd, welke tot de gewenste verbuiging van het invoerwoord leiden. Opgemerkt zij dat de uitvinding zich niet beperkt tot de in Tabel 1 getoonde uitvoeringsvorm van het classificatie-schema. Een voor de hand liggende variant is die waarbij de nesting van de lijsten anders uitgevoerd is: bijvoorbeeld door de gewenste verbuigingscategorieën als lijst van het eerste type op te nemen en de grammaticale categorieën als lijst van het tweede type. Het wezen van de uitvinding wordt hierdoor niet aangetast.

Hierenboven is het ook mogelijk de lijststructuur op andere manieren te coderen, hetgeen onder andere afhankelijk is van de data-verwerkings-eenheid, waar de werkwijze op uitgevoerd wordt De in de tabel gebruikte codering heeft als voordeel dat het schema leesbaar blijft voor mensen en dientengevolge met behulp van tekstverwerkingsgereedschappen eenvoudig te wijzigen is.

De werkwijze zal nu uiteengezet worden aan de hand van het Flowdiagram uit Fig.2. De startsituatie is aangegeven met 20. In stap 21 worden de invoergegevens ingelezen.

Deze invoergegevens omvatten een te verbuigen invoerwoord, lexicale gegevens van het te verbuigen invoerwoord en een gewenste verbuigingscategorie.

De lexicale gegevens omvatten onder andere de grammaticale categorie behorende bij het invoerwoord. Na het inlezen wordt in stap 22 uit de lijst van het eerste type het eerste element geselecteerd dat overeenstemt met die grammaticale categorie. Wordt geen overeenstemmend element gevonden (N) dan wordt eindtoestand 23 bereikt Wordt wel een element geselecteerd (J), dan wordt overgegaan naar stap 24. Zoals eerder vermeld bestaat de lijst van het tweede type uit elementen, welke elk een gewenste verbuigingscategorie en een lijst van het derde type omvatten. In stap 24 wordt uit de lijst van het tweede type behorende bij het in stap 22 geselecteerde element het eerste element geselecteerd dat overeenstemt met de gewenste verbuigingscategorie. Wordt een dergelijk element niet gevonden (N), dan wordt overgegaan naar stap 25. Dit gebeurt eveneens indien een der nog te bespreken stappen 31 en 32 faalt In stap 25 wordt gecontroleerd of een eerste vlag F1 gezet is. Is dit niet het geval (N), dan wordt in stap 26 de gewenste verbuiging omgezet naar 'singlde oorspronkelijke invoergegevens worden opgeslagen, en vlag F1 wordt gezet Vervolgens wordt teruggekeerd naar stap 24. Door deze maatregelen wordt bereikt dat indien het doorlopen van de geneste lijststructuren faalt, omdat op zeker moment geen overeenstemmend element wordt gevonden, een poging in gang wordt gezet om via een tussenstap naar de eerste persoon enkelvoudsvorm het gewenste resultaat te bereiken: bij een eerste maal uitvoeren van de werkwijze wordt het irïvoerwoord verbogen naar 'singl', waarna vervolgens bij een tweede maal uitvoeren van de werkwijze het naar 'singl' verbogen invoerwoord wordt verbogen naar de oorspronkelijk gewenste verbuigingscategorie. Dit strekt tot voordeel, omdat het hierdoor niet noodzakelijk is alle combinaties van huidige verbuigingscategorie en gewenste verbuigingscategorie op te nemen in het classificatie-schema, althans voorzover geldt dat alle verbuigingen naar en alle verbuigingen vanaf 'singl' zijn opgenomen.

Blijkt in stap 25 dat vlag F1 wel gezet is (J), dan betekent dit dat er al een poging om de gewenste verbuiging om te zetten naar 'singl' heeft plaats gevonden en dat deze poging heeft gefaald. Hierna wordt in stap 27 gecontroleerd of een tweede vlag F2 gezet is. Is dit niet het geval (N) dan worden in stap 29 de oorspronkelijke invoergegevens, welke waren opgeslagen, weer opgehaald. Hierna wordt stap 30 uitgevoerd waarbij aan de gewenste verbuigingscode de waarde '17' wordt toegekend en vlag F2 gezet wordt Vervolgens wordt stap 24 wederom uitgevoerd. Tengevolge van deze maatregelen worden sterke regelmatige werkwoorden welke een bepaald kiankveranderingspatroon volgen, separaat behandeld, hetgeen tot een eenvoudiger classificatie-schema leidt Blijkt in stap 27 dat vlag F2 wel is gezet (J), dan betekent dat de poging om het woord te verbuigen via de verbuiginscode '17' gefaald heeft. Hierna wordt dan eindtoestand 28 bereikt.

Zoals reeds eerder is vermeld wordt in stap 24 uit de lijst van het tweede type het eerste element geselecteerd dat overeenstemt met de gewenste verbuigingscategorie. Wordt een element met een overeenstemmende verbuigingscategorie gevonden (J), dan wordt overgegaan naar stap 31. In stap 31 wordt uit de lijst van het derde type het eerst voorkomende element geselecteerd, waarvan de grammaticale features uit de eerste groep omvat worden door een in de lexicale gegevens van het invoerwoord opgenomen feature-lijst. Wordt een dergelijk element niet gevonden (N) dan wordt overgegaan naar de reeds besproken stap 25. Wordt een dergelijk element wel gevonden (J) dan wordt stap 32 uitgevoerd. In stap 32 wordt uit de lijst van het vierde type, behorende bij het in stap 31 geselecteerde element uit de lijst van het derde type, het eerst voorkomende element geselecteerd waarvan een der hierin opgenomen verbuigingscodes overeenstemt met een verbuigingscode behorende bij het invoerwoord.

In Tabel 2 zijn een aantal verbuigingscodes weergegeven. De eerste kolom bevat een code voor een bepaalde verbuigingsgroep, de tweede kolom geeft de definitie voor die groep. Dergelijke verbuigingscodes kunnen op een eenvoudige wijze gegenereerd worden door aan stamwoorden welke dezelfde verbuigingen bezitten dezelfde code toe te kennen. Vervolgens zijn de verbuigingscodes nog uitgebreid doorvoor bijzondere gevallen een aparte code op te nemen.

Tabel 2 Verbuigingscodes

Wordt in stap 32 geen element gevonden (N) met een met de invoergegevens overeenstemmende verbuigingscode, dan wordt de werkwijze voortgezet met stap 25. Wordt een dergelijk element wel gevonden (J) dan wordt stap 33 uitgevoerd. In stap 33 worden de string-operaties, welke opgenomen zijn in het in stap 32 geselecteerde element uitgevoerd op het invoerwoord.

In Tabel 3 is een lijst van string-operaties opgenomen. In de eerste kolom is de code van de string-operatie weergegeven. De tweede kolom geeft de definitie van de string-operatie en de derde kolom geeft aan onder welke condities de string-operatie als geslaagd moet worden beschouwd.

Faalt een der in stap 33 uit te voeren string-operaties (N), dan wordt stap 32 nogmaals uitgevoerd, alwaar naar een volgend element wordt gezocht waarvan een der verbuigingscodes overeenstemt met de verbuigingscode van het invoerwoord. Slagen alle in stap 33 uit te voeren string-operaties (J) dan wordt overgegaan naar stap 34. In stap 34 wordt de feature-lijst van het invoerwoord in overeenstemming gebracht met de nieuwe situatie. Hiertoe worden de grammaticale features uit de feature-lijst welke voorkomen in de eerste groep van het geselecteerde element van de lijst van het derde type, vervangen door de grammaticale features uit de tweede groep. De op deze wijze verkregen feature-lijst is passend voor het verbogen invoerwoord.

Tabel 3 String-operaties

Hierna wordt in stap 35 vervolgens gecontroleerd of de eerste vlag F1 gezet is. Is dit het geval (J), dan betekent dit, dat de verbuiging naar 'singlwelke als tussenstap is uitgevoerd, succesvol verlopen is, zodat nu de verbuiging van 'singl' naar de oorspronkelijk gewenste verbuiging uitgevoerd kan worden. Hiertoe wordt in stap 36 de oorspronkelijk gewenste verbuigingscategorie, welke eerder in stap 26 was opgeslagen, weer opgehaald en wordt beginnend bij stap 24 het verbuigingsproces een tweede maal uitgevoerd. Blijkt in stap 35 dat de eerste vlag F1 niet is gezet (N), dan wordt in stap 37 het volgens de werkwijze verkregen overeenkomstig de gewenste verbuigingscategorie verbogen invoerwoord tezamen met de bijbehorende lexicale gegevens uitgeschreven, waarna eindtoestand 38 wordt bereikt

De hiervoor beschreven werkwijze zal nu nader worden toegelicht aan de hand van enkele voorbeelden. Hierbij wordt gebruik gemaakt van het classificatie-schema weergegeven in Tabel 1 en van de verbuigingscodes en string-operaties weergegeven in Tabel 2, respectievelijk Tabel 3.

In een eerste voorbeeld wordt als invoerwoord 'deur' genomen. De invoergegevens zijn: (deur (noun (rued 12 inneutermalefemalesing3) gewenste verbuigingscategorie: PLU3

De eerste regel betreft het invoerwoord met zijn lexicale gegevens, zoals deze bijvoorbeeld in hoofdzaak geleverd worden door een in octrooi-aanvrage NL-A-... beschreven lexicaliseringsmodule gecombineerd met een in octrooi-aanvrage NL-A-... beschreven uitvinding voor het behandelen van samengestelde woorden (beide aanvragen zijn door Aanvraagster op gelijke datum met de onderhavige aanvrage ingediend). De lexicale gegevens zoals boven weergegeven omvatten van links naar rechts: het invoerwoord : deur de grammaticale categorie : noun de geïnverteerde stamvorm : rued verbuigingscode : 12 feature-Iijst : inneutermalefemalesing3

Vertrekkend vanaf de startsituatie 20 (Fig.2) worden in stap 21 de invoergegevens ingelezen. Hierna wordt in stap 22 uit de lijst van het eerste type een eerste element geselecteerd dat overeenstemt met de grammaticale categorie van het invoerwoord.

Het invoerwoord heeft als grammaticale categorie 'noun', zodat in stap 22 dat element (zie Tabel 1) geselecteerd wordt (J). Vervolgens wordt in stap 24 het element uit de lijst van het tweede type (zie Fig. 1, verwijzingscijfer 4) behorende bij het in de voorgaande stap geselecteerde element 'noun', geselecteerd dat overeenstemt met de gewenste verbuigingscategorie. Dit levert volgens Tabel 1 element 'PLU3' op, zodat stap 24 slaagt (J). Hierna wordt in stap 31 het element, waarvan alle features uit de eerste groep aanwezig zijn in defeature-lijst van de invoergegevens, geselecteerd. Volgens Tabel 1 geldt dit voor het element 'SING3', zodat stap 31 slaagt (J). Dit geselecteerde element omvat een lijst van het vierde type (Fig. 1, verwijzingscijfer 8), waaruit in stap 32 een element geselecteerd wordt waarvan een der verbuigingscodes overeenstemt met de verbuigingscode uit de invoergegevens. Hieraan voldoet het in Tabel 1 gegeven element '(128# +en)' aangezien hierin verbuigingscode '12' is opgenomen, zodat stap 32 slaagt (J). Vervolgens worden in stap 33 de voorgeschreven string-operaties uitgevoerd en wordt gecontroleerd of deze slagen. Het geselecteerde element schrijft als enige aktie voor:' + en'. Toepassing hiervan op het invoerwoord 'deur' volgens de in Tabel 3 voorgeschreven definitie levert het volgens de gewenste verbuigingscategorie verbogen woord: 'deuren' op. De string-operatie slaagt (J), zodat overgegaan wordt naar stap 34, alwaar de feature-lijst aangepast wordt. Dit vindt plaats door de features van de feature-lijst welke opgenomen zijn in de eerste groep van het in stap 31 geselecteerde element 'SING3', te vervangen door de tweede groep van features van dat element i.c. 'PLU3'. Vervolgens wordt in stap 35 gecontroleerd of de eerste vlag F1 gezet is. Dit is niet het geval (N), zodat vervolgens in stap 37 het verbogen woord, alsmede de aangepaste lexicale gegevens uitgeschreven worden. Hetgeen levert: (deuren (noun (rued 12 plu3 inneuter malefemale)))

Hierna wordt eindtoestand 38 bereikt en is het gestelde doel van de werkwijze: het verbuigen van een invoerwoord overeenkomstig een gewenste verbuigingscategorie, bereikt.

In een navolgend tweede voorbeeld zal toegelicht worden op welke wijze onregelmatige sterke werkwoorden behandeld worden. De invoergegevens zijn: (liep (verb (peil -219 vdwzijn vdw hebben sing3 sing2 singl past main transitive X#(loop, loopt, loopt, lopen, liep,liepen,gelopen, loop)))) gewenste verbuigingscategorie: pastpart De lexicale gegevens van links naar rechts nader toegelicht: invoerwoord : liep grammaticale categorie : verb geïnverteerde stam : peil verbuigingscode : -2 (klankveranderingscode) verbuigingscode : 19 feature-lijst : vdw zijn vdw hebben sing3 sing2 singl past main intransitive X#(loop, loopt; loopt, lopen, liep, liepen, gelopen, loop)

Het in de feature-lijst opgenomen X#-veld bevat de onregelmatige vormen van het werkwoord.

Vertrekkende vanaf startsituatie 20 worden in stap 21 de invoergegevens ingelezen. Vervolgens wordt in stap 22 uit de lijst van het eerste type het element geselecteerd dat de grammaticale categorie 'verb' omvat. Een dergelijk element is volgens Tabel 1 aanwezig, zodat stap 22 slaagt (J) en de werkwijze voortgezet wordt met stap 24. In stap 24 wordt uit de lijst van het tweede type welke behoort bij de grammaticale categorie 'verb' het element geselecteerd dat overeenstemt met de gewenste verbuigingscategorie 'pastpart'. Dit element is aanwezig (J), waarna stap 31 wordt uitgevoerd. In stap 31 wordt uit de lijst van het derde type welke behoort bij het in de voorgaande stap geselecteerde element 'PASTPART1 het eerst voorkomende element geselecteerd waarvan alle grammaticale features van de eerste groep opgenomen zijn in de feature-lijst van de invoergegevens. Het eerste element voldoet hieraan (J). De werkwijze wordt voortgezet met stap 32, waarin een eerste element, dat overeenstemt met een der in de invoergegevens opgenomen verbuigingscodes, geselecteerd wordt Het element1 (-2 # x7)' voldoet String-operatie x7 betekent dat het zevende woord uit het X#-veld moet worden genomen. Dit levert het volgens de gewenste verbuiginscategorie verbogen woord: 'gelopen'. Vervolgens wordt in stap 34 de feature-lijst aangepast Dit vindt plaats door de features uit de feature-lijst welke opgenomen zijn in de eerste groep van het uit de lijst van het tweede type geselecteerde element i.c. 'SING1 SING2 SING3 PAST' te vervangen door de features gegeven in de bijbehorende tweede groep, i.c. 'PASTPART'. Hierna wordt in stap 35 gecontroleerd of de eerste vlag F1 gezet is. Dit is niet het geval (N), waarna in stap 37 de verkregen gegevens uit worden geschreven, hetgeen oplevert: (gelopen (verb (peil -219 pastpart vdwzijn vdwhebben main intransitive X#(loop, loopt, loopptlopen, liep, liepen, gelopen, loop))))

Hierna wordt eindsituatie 38 bereikt

In het navolgende derde voorbeeld zal geïllustreerd worden hoe de werkwijze een sterk werkwoord behandelt waarbij geen X#-veld opgenomen is bij de lexicale gegevens.

De invoergegevens zijn: (kijk (verb (kjik -1 2 intransitive main transitive singl present vdw hebben vdw zijn) gewenste verbuigingscategorie: pastpart

Vertrekkend vanuit de startsituatie 20 worden in stap 21 de invoergegevens ingelezen. In stap 22 wordt vervolgens het element 'VERB' geselecteerd (J). Hierna wordt in stap 24 de gewenste verbuigingscategorie 'PASTPART' geselecteerd (J). Vervolgens wordt in stap 31 het element 'SING1 PRESENT' geselecteerd (J), waarna in stap 32 naar een element gezocht wordt dat de verbuigingscode '-1' of '2' omvat Een dergelijk element is er niet zodat stap 32 faalt (N), waarna overgegaan wordt naar stap 25. In stap 25 wordt gecontroleerd of de eerste vlag F1 gezet is. Dit is niet het geval (N), zodat overgegaan wordt naar stap 26. In stap 26 wordt de gewenste verbuigingscategorie omgezet naar 'singl', de oorspronkelijke invoergegevens worden opgeslagen en vlag F1 wordt gezet Vervolgens wordt in stap 24 het element 'SING1' geselecteerd, hetgeen slaagt (J).

Hierna wordt in stap 31 een element gezocht met de features 'singl present'. Een dergelijk element is niet aanwezig zodat stap 31 faalt (N). Dit leidt ertoe dat wederom stap 25 wordt uitgevoerd, waarin gecontroleerd wordt of de vlag F1 gezet is. Dit is het geval (J), zodat stap 27 uitgevoerd wordt. In deze stap wordt gecontroleerd of de tweede vlag F2 gezet is. Dit.is niet het geval (N), zodat in stap 29 de oorspronkelijke invoergegevens weer opgehaald worden. Vervolgens wordt stap 30 uitgevoerd, waarin aan de verbuigingscode de waarde '17' toegekend wordt. Hierna wordt in stap 24 het element 'PASTPART1 geselecteerd, hetgeen slaagt (J). Vervolgens wordt in stap 31 het element 'SING1 PRESENT' geselecteerd (J), waarna overgegaan wordt naar stap 32. In stap 32 wordt een element met verbuigingscode '17' gezocht Dit slaagt (J) en levert het element: '(17#S AF)'. Overgegaan wordt naar stap 33, waar de string-operaties S, A en F worden uitgevoerd op het invoerwoord. String-operatie S bewerkstelligt een klankverandering door substitutie van 'ij' door 'e' en voegt 'en' toe aan het woord. De klankverandering naar 'e' is voorgeschreven door de in de invoergegevens opgenomen verbuigingscode '-1Dit levert het woord 'keken'. De string-operatie A plaatst de prefix 'ge' voor het woord, hetgeen resulteert in het woord: 'gekeken'. String-operatie F tenslotte is hier niet van toepassing en moet daar er volgens Tabel 3 geen verdere condities gesteld zijn als geslaagd worden beschouwd. Aangezien alle uit te voeren string-operaties geslaagd zijn betekent dit dat stap 33 geslaagd is (J) en stap 34 vervolgens uitgevoerd moet worden. In deze stap wordt de feature-lijst aangepast: in dit geval het vervangen van 'singl present' uit de feature-lijst door 'pastpart'. In stap 35 wordt vervolgens gecontroleerd of de eerste vlag F1 gezet is. Dit is niet het geval (N), waarna in stap 37 de verkregen gegevens uitgeschreven worden, hetgeen resulteert in: (gekeken (verb (kjik -1 63 pastpart intransitive main transitive vdwhebben vdwzijn)

Hierna wordt de eindtoestand 38 bereikt

Uit de voorgaande voorbeelden moge duidelijk zijn geworden, dat de werkwijze in samenhang met het classificatie-schema een grote flexibiliteit bezit ten aanzien van het verwerken van onregelmatige verbuigingen. Ter illustratie hiervan zijn in het in Tabel 1 weergegeven classificatie-schema eveneens een aantal verbuigingen van het werkwoord 'zijn' en verbuigingen van de lidwoorden ('articles') opgenomen. Dit laatste voorziet bijvoorbeeld in de mogelijkheid om een gegeven bepaald lidwoord te verbuigen tot de onbepaalde vorm.

Voor een vakman zal het duidelijk zijn dat ook voor andere talen een dergelijk classificatie-schema opgesteld kan worden. Een classificatie-schema voor de Engelse taal zal aanzienlijk eenvoudiger zijn dan dat voor de Nederlandse taal omdat het Engels minder geïnflecteerd is dan het Nederlands.

Met voordeel is de uitvinding in samenwerking met een lexicaliserings-module en een parser toe te passen als een verbuigingscorrector. Dit wordt nader toegelicht aan de hand van Fig.3, welke een blokschema van een dergelijke verbuigingscorrector weergeeft Tekstuele informatie wordt toegevoerd aan de invoermodule 41. Deze zorgt ervoor dat zinnen en woorden in de zinnen worden onderscheiden. De woorden worden toegevoerd aan een lexicaliseringsmodule 42, welke verbonden is met een string-operatie-schema opgeslagen in een geheugenmodule 43 en met een electronisch woordenregister, bestaande uit een lijst van grondvormen,-al of niet uitgebreid meteen additioneel woordregister en opgeslagen in een geheugenmodule 44. De lexicaliseringsmodule bepaalt van ieder ingevoerd woord de lexicale gegevens welke nodig zijn voor een grammaticale analyse welke uitgevoerd zal worden door een parsermodule 45. De parsermodule ontleedt, op basis van een in een geheugenmodule 46 opgeslagen grammatica en met gebruikmaking van de lexicale gegevens de zin. In het geval dat de lexicaliseringsmodule aangeeft dat voor een woord alleen een pseudo-grondvorm is gevonden, welke niet aan alle gestelde vereisten voldoet, kan de parsermodule op grond van de grammaticale positie van het betreffende woord in de zin bepalen welke verbuiging van die grondvorm correct is. Een correctie-module 47, welke werkzaam is overeenkomstig de uitvinding, zorgt ervoor, dat in samenwerking met een in een naar willekeur toegankelijk geheugendeel 48 opgeslagen classificatie-schema, het woord de juiste verbuiging krijgt Waarna de zin met het correct verbogen woord uitgegeven wordt door de uitvoermodule 49. Indien meerdere pseudo-grondvormen zijn gevonden, worden ze alle op de juiste manier verbogen aangeboden aan de gebruiker welke er dan een kan selecteren. De bovenbeschreven configuratie vormt het onderwerp van de niet-voorgepubliceerde octrooi-aanvrage NL-A-9100849 van Aanvraagster.

Fig.4 toont een mogelijke uitvoering van een data-verwerkings-eenheid volgens de uitvinding. De data-verwerkings-eenheid omvat een hoofd-eenheid 51 en is verder voorzien van een toetsenbord 52, een massa-geheugen 53 waarin een lexicale database is opgeslagen, en een beeldscherm 54. De hoofd-eenheid 51 omvat een toetsenbord-controller 55, verbonden met het toetsenbord 52, een disk-controller 56, verbonden met het massa-geheugen 53, een beeldschermcontroller 57 verbonden met het beeldscherm 54, een eerste naar willekeur toegankelijk geheugen-module 58 waarin een overeenkomstig de uitvinding uitgevoerd classificatie-schema is opgeslagen, een overeenkomstig de uitvinding uitgevoerd verbuigingsmodule 59, een hoofdprogramma-module 60, een tweede naar willekeur toegankelijk geheugenmodule 61 waarin tekstbestanden afkomstig van het massa-geheugen kunnen worden geladen, en een processor-eenheid 62 welke alle genoemde modules en controllers bestuurt De hoofdprogramma-module 60 bewerkt tekstbestanden opgeslagen in de tweede geheugenmodule 61. Op het moment dat de hoofdprogramma-module de beschikking moet hebben over de verbuiging van een bepaald woord wordt de verbuigingsmodule 59 geactiveerd. Deze leest de invoergegevens, welke klaar gezet zijn door de hoofdprogramma-module 60, in. Vervolgens wordt in samenwerking met het classificatie-schema, opgeslagen in geheugenmodule 58, het invoerwoord verbogen. De resultaten worden vervolgens doorgegeven aan de hoofdprogramma-module, welke hierna verdere voorgeschreven programmastappen uitvoert

Het toepassen van de uitvinding in een dergelijke data-verwerkings-eenheid strekt tot voordeel doordat de lexicale database niet alle verbogen woordvormen hoeft te bevatten, hetgeen een aanzienlijke geheugenbesparing oplevert en benevens doordat de lexicale database zelf niet geraadpleegd hoeft te worden bij het verbuigen van woorden, hetgeen de verwerkingssnelheid van het programma ten goede komt. Daarenboven is het eenvoudig mogelijk een in geheugenmodule 58 opgeslagen modulair uitgevoerd classificatie-schema te vervangen door een ander, zodat verbogen woordvormen van een andere taal verkregen kunnen worden.

De uitvinding is niet beperkt tot de beschreven werkwijze of uitvoeringsvorm, maar kan door de vakman op verschillende andere, echter alle onder de strekking van de conclusies vallende, wijzen worden uitgevoerd.

Claims

1. Werkwijze voor het verbuigen van woorden, omvattende een verbuigingsstap, waarbij aan de hand van linguïstische gegevens, opgeslagen in een geheugen, en uitgaande van invoergegevens omvattende een te verbuigen invoerwoord, een grammaticale categorie behorende bij het invoerwoord, grammaticale features behorende bij het invoerwoord en een gewenste verbuigingscategorie, het invoerwoord wordt verbogen, met het kenmerk, dat de linguïstische gegevens in de vorm van een classificatie-schema opgeslagen zijn in een door het geheugen omvat naar willekeur toegankelijk geheugendeel, welk classificatie-schema een aantal geneste lijsten omvat, die elk op grammaticale eigenschappen betrekking hebbende elementen omvatten en dat de verbuigingsstap omvat het selecteren van in elkaar geneste lijsten op grond van de invoergegevens, het hierna selecteren van een element uit de laatst geselecteerde lijst op grond van de invoergegevens, welk element string-operaties omvat, en het uitvoeren van de string-operaties ter verbuiging van het invoerwoord.

2. Werkwijze volgens conclusie 1, met het kenmerk, dat genoemde geneste lijsten omvatten lijsten van een eerste type met elementen omvattende een grammaticale categorie, lijsten van een tweede type met elementen omvattende een gewenste verbuigingscategorie, lijsten van een derde type met elementen omvattende een eerste groep van huidige grammaticale features en een tweede groep van gewenste grammaticale features, en lijsten van een vierde type met elementen omvattende een verbuigingscode.

3. Werkwijze volgens conclusie 2, met het kenmerk, dat elk element van een lijst van het eerste type eveneens een lijst van het tweede type omvat, dat elk element van een lijst van het tweede type eveneens een lijst van het derde type omvat en dat elk element van een lijst van het derde type eveneens een lijst van het vierde type omvat

4. Werkwijze volgens een der conclusies 1-3, met het kenmerk, dat het selecteren van in elkaar geneste lijsten op grond van de invoergegevens omvat het telkenmale selecteren van het eerst voorkomende element uit een lijst dat overeenstemt met de geëigende invoergegevens en het uitvoeren van een volgende selectie op de lijst behorende bij het geselecteerde element.

5. Werkwijze volgens conclusie 4, gekenmerkt door, - het in de lijst van het eerste type selecteren van het eerst voorkomende element dat een grammaticale categorie bezit welke overeenstemt met de grammaticale categorie omvat door de invoergegevens, - het in de lijst van het tweede type, behorende bij het geselecteerde element uit de lijst van het eerste type, selecteren van het eerst voorkomende element dat een gewenste verbuigingscategorie bezit, welk overeenstemt met de gewenste verbuigingscategorie uit de invoergegevens, - het in de lijst van het derde type, behorende bij het geselecteerde element uit de lijst van het tweede type, selecteren van het eerst voorkomende element waarvan alle grammaticale features uit de eerste groep omvat worden door de grammaticale features uit de invoergegevens, - het in de lijst van het vierde type, behorende bij het geselecteerde element uit de lijst van het derde type, selecteren van het eerst voorkomende element dat qua verbuigingscode overeenstemt met een verbuigingscode van de invoergegevens, - het uitvoeren van de door het uit de lijst van het vierde type geselecteerde element omvatte string-operaties op het invoerwoord, en - het aanpassen van de features door het vervangen van de features uit de eerste groep door de features uit de tweede groep, indien de in de vorige stap genoemde string-operaties slagen.

6. Werkwijze volgens een der conclusies 1-5, gekenmerkt door het wijzigen van de gewenste verbuigingscategorie in een vooraf vastgestelde verbuigingscategorie, indien op grond van de invoergegevens geen element in een der lijsten geselecteerd kan worden omdat geen overeenstemming bestaat tussen de invoergegevens en de elementen, het vervolgens uitvoeren van de verbuigingsstap op de gewijzigde invoergegevens, en uitgaande van de oorspronkelijke gewenste verbuigingscategorie het wederom uitvoeren van de verbuigingsstap op het alsdan verkregen resultaat ·

7. Werkwijze volgens een der conclusies 1-6, met het kenmerk dat de invoergegevens onregelmatige verbuigingen omvatten van het invoerwoord, waaruit op grond van de gewenste verbuigingscategorie een verbuiging wordt geselecteerd.

8. Data-verwerkings-eenheid geschikt voor het verbuigen van woorden, welke eenheid tenminste een geheugen omvat waarin linguïstische gegevens zijn opgeslagen alsmede middelen, geschikt om aan de hand van de linguïstische gegevens en op grond van invoergegevens, omvattende een invoerwoord, een grammaticale categorie behorende bij het invoerwoord, grammaticale features behorende bij het invoerwoord en een gewenste verbuigingscategorie, het invoerwoord te verbuigen, met het kenmerk, dat de linguïstische gegevens in de vorm van een classificatie-schema opgeslagen zijn in een geheugensegment welk classificatie-schema een aantal geneste lijsten omvat die elk op grammaticale eigenschappen betrekking hebbende elementen omvatten en dat de middelen geschikt zijn voor het samenwerken met genoemd geheugensegment waarin het classificatie-schema is opgeslagen.