NL8900247A

NL8900247A - Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.

Info

Publication number: NL8900247A
Application number: NL8900247A
Authority: NL
Original assignee: Bso Buro Voor Systeemontwikkel
Priority date: 1989-02-01
Filing date: 1989-02-01
Publication date: 1990-09-03
Also published as: JPH02266469A; US5060155A; CA2009042A1; EP0381288A1

Description

/

Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.

Het ontleden van een natuurlijke taal bestaat uit het afbeelden van een reeks van woorden in die natuurlijke taal op grotere eenheden in overeenstemming met een grammatica voor de betreffende natuurlijke taal. De grotere eenheden worden aangeduid met zinsdelen of constituenten.

Over het algemeen is de zin de grootste eenheid die herkend kan worden. Het resultaat van de afbeelding, ofwel de syntactische analyse, wordt getoond in de vorm van een boomstructuur. De taaltheorie bepaalt hoe de weergave eruit zal zien; in het geval van een afhankelijkheidsgrammatica heeft de analyse van een woordreeks de vorm van een afhankelijkheidsboom die enerzijds de woorden van de zin toont en anderzijds de daartussen heersende syntactische relaties. De woordreeks kan dubbelzinnig zijn, d.w.z. meer dan een mogelijke analyse hebben, in welk geval het resultaat zal bestaan uit een aantal boomstructuren. Er zijn diverse technieken om meervoudige analyses te verkrijgen; de diverse mogelijkheden kunnen parallel worden onderzocht of er kan gebruik worden gemaakt van een zogenaamde backtrack-methode. Welke techniek ook gebruikt wordt, de analyse van een zeer dubbelzinnige zin vergt veel tijd en leidt tot het genereren van een niet meer te hanteren aantal bomen. Het doel van de uitvinding is nu het verbeteren van de stand van zaken en het verschaffen van een werkwijze, waarmee een compacte representatie van de meervoudige analyses van dubbelzinnige zinnen kan worden verkregen op een zodanige wijze dat deze representatie voor verdere verwerking, bijvoorbeeld in een vertaalproces, geschikt is zonder dat bij dubbelzinnigheid gelijk een keuze gemaakt moet worden. Verder heeft de uitvinding ten doel het verschaffen van een ontleedinrichting (meestal parser genoemd) waarmee een dergelijke representatie efficiënt kan worden gegenereerd.

Zoals in het bovenstaande reeds werd verklaard, vormt de syntactische dubbelzinnigheid van zinnen in een echte natuurlijke taal een probleem bij het ontleden van deze zinnen. Een reeks van karakters in een programmeertaal heeft slechts een enkele betekenis, maar een reeks van woorden in een natuurlijke taal kent vaak een aantal verschillende interpretaties. De dubbelzinnigheid van dergelijke zinnen binnen natuurlijke taal verslechtert de doelmatigheid van het ontleedproces, welke doelmatigheid over het algemeen alleen bekend is voor het ontleden van niet-dubbelzinnige zinnen.

Als er sprake is van dubbelzinnigheid dan moet worden gezocht naar * alternatieve analyses. Dikwijls is een deel van een nieuwe analyse soorgelijk aan de reeds gevonden analyse. Met andere woorden, een volledige representatie van alle raogelijke analyses leidt tot een grote mate van redundantie. Er zijn al voorstellen gedaan, waarin de interne representatie van de ontledingsvoorgeschiedenis (vastgelegd in het geheugen van de ontleedinrichting en wel in de zogenaamde "stack") gedeeltelijk wordt gebruikt, waardoor een duplicatie van deze representatie wordt voorkomen. Een dergelijke representatie kan zichtbaar worden gemaakt in de vorm van een bos van bomen, elk samengesteld uit constituenten. Dit bomenbos is echter nauw gerelateerd aan de interne representatie die door de ontleedinrichting wordt gebruikt en kan niet in een ander formalisme worden weergeven, zonder dat er enige vorm van conversie aan te pas komt.

Volgens de onderhavige uitvinding moet om te beginnen uitgegaan worden van de definitie van een formalisme om een compacte representatie te verkrijgen van de syntactische dubbelzinnigheden. Een dergelijk formalisme is alleen gerelateerd aan de gekozen linguïstische theorie en wordt niet gedicteerd door het ontleedproces. In het onderhavige geval is gekozen voor een afhankelijkheidsgrammatica.

Met verwijzing naar de gekozen linguïstische theorie wordt er op gewezen dat er ook nog andere linguïstische theoriën zijn, zoals de zogenaamde constituentengrammatica. Een ontleedalgoritme of parsing algoritme dat in het bijzonder ontwikkeld is voor een constituentengrammatica is bijvoorbeeld beschreven in "An efficient augmented-context-free parsing algorithm" door Masaru Tomita, gepubliceerd in Computational Linguistics, volume 13, nummers 1-2, januari-juni 1987.

Afhankelijkheidsgrammatica

Afhankelijkheidsgrammatica is een theorie die zich bezighoudt met de syntactische relaties of afhankelijkheden tussen woorden in een zinsdeel of in een zin. Een afhankelijkheid wordt gedefinieerd tussen twee woorden die elk geclassificeerd zijn in overeenstemming met hun woordklasse. Het hoger geclassificeerde woord in de relatie wordt aangeduid als de "regeerder", het andere woord wordt aangeduid als de "afhanger". Een afhankelijkheidssyntax voor een specifieke taal, die gebruikt kan worden voor het implementeren van de uitvinding omvat het volgende: 1. Een classificatie van woorden met een beschrijving hoe een woord moet worden herkend als lid van een bepaalde woordklasse.

2. Een lijst van afhankelijkheidsrelatie-typen en, in overeenstemming daarmee van typen van afhankelijken.

3. Een lijst van afhankelijkheidspatronen, die specifiek zijn voor een woordklasse, met een specificatie aangevende welke afhankelijken onderworpen zijn aan, voor de onderklasse specifieke afhankelijkheidsregels (d.w.z. het onderscheid tussen complement en adjunct).

4. Een specificatie van de mogelijke syntactische vormen van de afhankelijken.

In bepaalde natuurlijke talen kan het nodig zijn om rekening te houden met de woordvolgorde als hulpmiddel voor het vaststellen van een afhankelijkheid, d.w.z. als hulpmiddel voor het maken van onderscheid tussen het subject en het directe object.

De afhankelijkheidsgrammatica heeft een eigenschap die ook wordt aangetroffen in een categoriale grammatica, namelijk het feit dat er geen echt onderscheid bestaat tussen lexicale categorieën en zinsdeel categorieën. Notaties, zoals NP en VP zijn derhalve niet significant: een naamwoord of een werkwoord met daarvan afhangersworden nog steeds beschouwd als een naamwoord of een werkwoord (in deze beschrijving is een lijst opgenomen van gebruikte afkortingen). Gezien vanaf het standpunt van de regeerder is een afhankelijkheidsboom slechts één niveau diep, alles wat plaatsvindt op een niveau lager dan op het niveau waarop zijn eigen afhangers zich bevinden, is van geen betekenis of moet via zijn afhangers worden doorgegeven. Anders dan bij een constituentengrammatica heeft de afhankelijkheidsgrammatica geen startsymbool, waarvoor bij een constituentengrammatica veelal de hoofdletter S wordt gebruikt en derhalve is het mogelijk om te trachten een analyse te vinden voor iedere willekeurige reeks van woorden, zolang de woordreeks maar een duidelijk gedefinieerd eindmerkteken bezit.

Tot de afhankelijkheidsanalyse van een dergelijke reeks van woorden behoort het selecteren van een regeerder en het verzamelen van die woorden, die afhangers van deze regeerder kunnen zijn. (In de Engelstalige literatuur wordt de regeerder meestal aangeduid met de term "governor" en worden afhangers aangeduid met de term "dependent"). De regeerder kan op zijn beurt een afhanger zijn voor weer een andere regeerder en een mogelijke analyse voor de woordreeks bestaat uit een consistente verdeling van de woorden, zodanig dat er één regeerder op het topniveau aanwezig is, welke regeerder alle andere woorden in de reeks "omvat", ofwel doordat de andere woorden directe afhangers van deze regeerder zijn, ofwel indirect omdat andere woorden afhangers zijn van afhangers, enz. Als er één of meer optionele afhangers zijn of, indien er één of meer woorden te vinden zijn met een meervoudige syntactische interpretatie, dan kunnen er meer oplossingen zijn die aan het gestelde criterium voldoen en in dat geval is de zin dubbelzinnig.

De uitvinding verschaft nu allereerst een werkwijze voor het ondubbelzinnig coderen van meervoudige ontleedanalyses van een woordreeks in natuurlijke taal binnen een afhankelijkheidsgrammatica waarin afhankelijkheden zijn gedefinieerd tussen paren woorden, elk paar bestaande uit een woord op een hoger niveau, aangeduidt als de regeerder en een daaraan gerelateerd woord, aangeduidt als de afhanger, welke werkwijze omvat de volgende stappen: a) het voor elk woord in een reeks bepalen van een woordindex, die de rangvolgorde van het genoemde woord in de reeks aangeeft, het voor elk woord bepalen van alle mogelijke afhangers, en het bepalen van de relatie tussen het genoemde woord en de genoemde afhangers gebruikmakend van een ontleedalgoritme in combinatie met een grammatica die alle mogelijke relaties van de taal definieert en gebruikmakend van een woordenlijst waarin alle woorden van de natuurlijke taal zijn opgeslagen, tezamen met hun syntactische interpretatie en een interpretatie index, die de rangorde van de syntactische interpretatie van het woord in de woordenlijst vertegenwoordigt, teneinde onderscheid te kunnen maken tussen meervoudige syntactische betekenissen van het genoemde woord, b) het definiëren van een syntactisch netwerk dat wordt vertegenwoordigd door een boom bestaande uit knopen, die onderling zijn verbonden door takken en ten minste voorzien zijn van één of meer eindknopen en eventueel een aantal tussenliggende knopen, waarbij elk knoop wordt geïnterpreteerd als een knoop met een exclusieve OF-functie, dienstdoende als aanwijzer als er slechts één alternatief is en dienstdoende als keuzeknoop als er verschillende alternatieven zijn, waarbij elk van de aanwijzende knopen is toegewezen aan een woord van de reeks en elke tak is toegewezen aan de syntactische relatie tussen de twee knopen waartussen de tak verloopt, waarbij elke knoop gecodeerd is door een identificatiecode die in het geval van een aanwijzende knoop direct gerelateerd is aan de woordindex en de plaats waar het woord in de woordenlijst is opgenomen en in het geval van een keuzeknoop bestaat uit een lijst van verdere identificatiecodes, waarvan er één moet worden geselecteerd.

Door het introduceren van. keuzepunten in het syntactische netwerk is het mogelijk om een niet-dubbelzinnig gecodeerd syntactisch netwerk te verkrijgen, dat alle mogelijke ontleedanalyses van de woordreeks in de natuurlijke taal omvat op een zodanige wijze dat het gecodeerde syntactische netwerk kan worden gebruikt in verdere verwerkingsstappen, bijvoorbeeld in een automatisch vertaalsysteem, zonder de noodzaak om allereerst één uit de diverse mogelijke analyses te selecteren als zijnde de correcte analyse.

Een verder voordeel, verkregen dankzij de werkwijze volgens de uitvinding, is het feit dat de noodzakelijke geheugenruimte voor het opslaan van alle mogelijke ontleedanalyses van woordreeks in een natuurlijke taal aanzienlijk wordt verminderd, omdat alleen onvermijdelijke kopieën van delen van boomstructuren moeten worden opgeborgen, terwijl in vergelijking daarmee volgens de stand der techniek een groot aantal kopieën van dergelijke delen van diverse boomstructuren moeten worden opgeslagen, hetgeen volgens de uitvinding wordt vermeden.

De uitvinding zal nu in meer detail worden beschreven met verwijzing naar de begeleidende tekeningen.

De figuren 1a en 1b illustreren een voorbeeld van een woordreeks met structurele dubbelzinnigheid.

De figuren 2a en 2b illustreren een voorbeeld van een woordreeks met een woord-specifieke dubbelzinnigheid.

De figuren 3a en 3b illustreren een ander voorbeeld van een woordreeks met woord-specifieke dubbelzinnigheid.

De figuren 4a en 4b illustreren een voorbeeld van een woordreeks met een kenmerk-gebonden dubbelzinnigheid.

Figuur 5 illustreert een keuzepunt.

Figuur 6 illustreert de toepassing van een keuzepunt in de woordreeks waarvan de analyses waren geïllustreerd in de figuren 1a en 1b.

Figuur 7 illustreert een meer geraffineerde toepassing van keuzepunten in de woordreeks, waarvan de verschillende analyses zijn geïllustreerd in de figuren 1a en 1b.

Figuur 8 illustreert een verder ontwikkelde uitvoeringsvorm van figuur 7.

Figuur 9 illustreert de uiteindelijke uitvoeringsvorm bij toepassing van keuzepunten resulterend in een niet-dubbelzinnig gecodeerde netwerkstructuur die beide analyses uit de figuren 1a en 1b omvat.

Figuur 10 illustreert de maximale frasen voor een voorafbepaalde i woordreeks.

Figuur 11 illustreert dezelfde maximale frasen als in figuur 10 na controle op consistentheid.

Figuur 12 illustreert zeer schematisch een syntactische netwerkstructuur, op basis van de maximale frasen uit figuur 11.

Figuur 13 illustreert deze netwerkstructuur na codering van de structuur tot een SSN in overeenstemming met de werkwijze volgens de uitvinding.

Figuur 14 illustreert de maximale frasen voor een andere woordreeks.

Figuur t5 illustreert de maximale frasen van figuur 14 na controle op consistentheid.

Figuur 16 illustreert zeer schematisch het op de maximale frasen van figuur 15 gebaseerde syntactische netwerk voorafgaand aan de codeerprocedure.

Figuur 17 illustreert op grafische wijze de uiteindelijke SSN structuur gebaseerd op de maximale frasen van figuur 15.

Als inleiding op de gedetaileerde verklaring van de uitvinding zullen eerst de diverse mogelijke syntactische dubbelzinnigheden in meer detail worden besproken.

Structurele dubbelzinnigheid

Worden syntactische dubbelzinnigheden nader bekeken, dan blijkt dat er verschillende soorten zijn. In de eerste plaats is er de mogelijkheid dat de analyse van een zinsdeel op meer dan één positie in de analyseboom van de zin, die dit zinsdeel bevat, kan worden opgenomen.

In de navolgende voorbeelden zullen Engelstalige woordreeksen of zinnen worden gebruikt.

Voorbeeld 1. Structurele dubbelzinnigheid

We see the man in de park interpretatie 1:

We zien iemand (de man in het park) interpretatie 2:

We zien de man ergens (in het park)

De prepositionele frase ofwel de voorzetselbepaling "in the park" wordt ofwel gekoppeld aan het werkwoord "see" of aan het naamwoord "man". Deze alternatieven geven aanleiding tot twee verschillende boomstructuren. Beide boomstructuren zijn respectievelijk geïllustreerd in de figuren 1a en 1b.

Voor de betekenis van de diverse afkortingen die in de figuren en in de verdere beschrijving worden gebruikt, wordt verwezen naar de lijst van afkortingen aan het eind van deze beschrijving.

Het type dubbelzinnigheid dat geïllustreerd is in de figuren 1a en 1b wordt structureel genoemd en is gerelateerd aan de grammatica van de taal, die stipuleert dat een PP kan worden gecombineerd met zowel een werkwoord als een naamwoord voor het vormen van een goed geformuleerde frase of zinsdeel.

Woord-specifieke dubbelzinnigheid

Een ander type dubbelzinnigheid kan optreden in (geschreven) zinnen, die homografen gevatten, dat wil zeggen verschillende woorden die op dezelfde wijze worden gespeld. Dit type dubbelzinnigheid, dat we woord-specifiek zullen noemen, is niet direct gerelateerd aan de grammaticale regels, maar treedt toevallig op en is zeer afhankelijk van de taal (waarbij de Engelse taal een extreem voorbeeld is). Een woord kan een aantal syntactische betekenissen of interpretaties hebben, d.w.z. het kan een categoriale dubbelzinnigheid hebben, of er kunnen verschillen aanwezig zijn in de groepen kenmerken, die samenhangen met de diverse interpretaties.

Voorbeeld 2 Categoriale dubbelzinnigheid 1 The bee flies like a ladybird interpretatie 1: (The bee) flies (like a ladybird) -> de bij vliegt op de wijze van een lieveheersbeestje, interpretatie 2: (The bee flies) like (a ladybird) -> de bijenvliegen zijn gek op een lieveheersbeestje.

De woorden "flies" en "like" geven uiting aan de categoriale dubbelzinnigheid, dat wil zeggen ze kunnen tot verschillende categorieën behoren. In voorbeeld 2 kan het woord "flies" een naamwoord of een werkwoord zijn en "like" kan een prepositie of een werkwoord zijn. Opgemerkt wordt, dat het moeilijk is om het totaal aantal interpretaties van een woordreeks tevoren te voorspellen. De mogelijkheden hangen af van de structuurtypen die in de betreffende grammatica toelaatbaar zijn; het woord "like" wordt alleen geïnterpreteerd als prepositie indien "flies" wordt geïnterpreteerd als werkwoord en het woord "like" wordt alleen geïnterpreteerd als een werkwoord als "flies" wordt geïnterpreteerd als naamwoord.

De figuren 2a en 2b tonen de afhankelijkheidsbomen voor de twee interpretaties van "The bee flies like a ladybird".

Er is een tweede soort van categoriale dubbelzinnigheid die optreedt bij bepaalde woorden die geïnterpreteerd kunnen worden als een bijwoord of als een adjectief. Als deze worden gebruikt als bepalend woord in een naamwoordenjk zinsdeel, dan resulteren daaruit twee analyses, die slechts gedeeltelijk verschillend zijn.

Voorbeeld 3 Categoriale dubbelzinnigheid 2

They fund more modern houses interpretatie 1:

They fund (more) (modern houses) -> zij financieren meer huizen die modern zijn interpretatie 2:

They fund (more modern) houses -> zij financieren huizen die meer modern zijn

Het woord "more" is ofwel een adjectief en in dat geval wordt het woord "houses" gemodificeerd, of het is een bijwoord en in dat geval heeft het invloed op "modern".

De analyses van "They fund more modern houses" zijn weergegeven in de twee diagrammen in de figuren 3a en 3b.

Het belangrijkste verschil tussen de twee analyses is dé regeerder van "more". In dit verband is er overeenkomst te bespeuren met de representaties in het geval van een structurele dubbelzinnigheid.

Twee homografen kunnen van dezelfde categorie zijn, maar toch van elkaar verschillen ten aanzien van een ander syntactisch kenmerk, zoals blijkt uit het volgende voorbeeld.

Voorbeeld 4. kenmerk-afhankelijke dubbelzinnigheid

They can fish interpretatie 1:

They can fish (zijn in staat om te vissen) (fish = werkwoord) interpretatie 2:

They can fish (doen vis in blikken) (fish = naamwoord)

Het woord "can" is in beide gevallen een werkwoord, maar er is een verschil in valentie: "can" heeft ofwel een direct object of een infinitief als afhanger. We zullen dit aanduiden als kenmerk-georiënteerde of kenmerk-afhankelijke dubbelzinnigheid. De dubbelzinnigheid komt echter alleen aan het licht vanwege de categoriale dubbelzinnigheid van "fish", hetgeen ofwel als een werkwoord, ofwel als een naamwoord kan worden beschouwd. De zin "They can eat" bijvoorbeeld is niet dubbelzinnig, waarmee aangegeven wordt dat categoriale en kenmerk-georiënteerde dubbelzinnigheid alleen aan het licht treedt in specifieke syntactische contexten.

De analyses van "They can fish" zijn weergegeven in de twee afhankelijkheidsbomen, die geïllustreerd zijn in de figuren 4a en 4b.

Een schatting van het aantal interpretaties.

Het zal duidelijk zijn dat het moeilijk is om vast te stellen hoeveel alternatieve interpretaties zullen resulteren uit woordspecifieke dubbelzinnigheid. De gegeven voorbeelden tonen al aan, dat het niet erg gemakkelijk is om zinnen te construeren, die dit type dubbelzinnigheid duidelijk laten zien, zelfs als van de Engelse taal gebruik wordt gemaakt. Structurele dubbelzinnigheid echter is een veel voorkomend en vaak zelfs onvermijdelijk verschijnsel. Zinnen die een reeks van PP's (prepositionele frasen) bevatten, vormen een goed voorbeeld. Elke PP die toegevoegd wordt levert ook een extra aanhechtpunt voor zijn opvolger(s). De navolgende tabel geeft het aantal analyses, dat door een ontledingssysteem (een parser) wordt gegenereerd, als functie van de lengte van de PP-reeks (een reeks van prepositionele frasen) voor zinnen die één NP (naamwoordelijk zinsdeel) bevatten, zoals "The man on a bench in the park near the river en zonder verdere dubbelzinnigheden.

Aantal PP's_Aantal analyses 1 1 2 2 3 5 4 14 5 42 6 132

Dit toont aan dat een gemeenschappelijke representatie van de alternatieven als gevolg van de structurele dubbelzinnigheid al heel snel voordelen biedt.

In de figuren 1-4 zijn de alternatieve analyses voor een dubbelzinnige zin weergegeven door middel van een groep van afzonderlijke analysebomen. Omdat de analysebomen vaak gedeeltelijke structurele overeenkomsten vertonen, is het de moeite waard om te trachten de alternatieven weer te geven in dezelfde representatie. In de volgende paragrafen zullen allereerst de eisen die aan een dergelijke representatie gesteld moeten worden, worden besproken op een informele wijze en daarna zal een formalisme of een beschrijvingstaal worden ontwikkeld, waarmee deze vereisten tot uitdrukking kunnen worden gebracht.

Keuzepunten en structuur-deling

Een enkelvoudige representatie van een aantal analyses kan worden beschouwd als een dubbelzinnige structuur, die op diverse manieren kan worden geïnterpreteerd, resulterend in een aantal niet-dubbelzinnige interpretaties. Elke interpretatie moet samenvallen met een syntactische analyse van de ingangswoordreeks. De methode die volgens de uitvinding wordt gebruikt om aan te geven dat er een selectie in de structuur moet worden uitgevoerd is het invoegen van een keuzepunt op een bepaalde plaats in de. structuur. De ondergeschikte elementen van het keuzepunt kunnen al dan niet deel uitmaken van een specifieke interpretatie. Voor een informele grafische weergave van de keuzepunten zal de notatie die getoond is in figuur 5 worden gebruikt.

Een naïeve wijze voor het toepassen van een keuzepunt is getoond in figuur 6, waarin de twee representaties, geïllustreerd in de figuren 1a en 1b, zijn gecombineerd met behulp van een keuzepunt dat dienst doet als topknoop.

De twee alternatieven hebben echter een gedeelte gemeenschappelijk, waardoor de representatie sterk redundant is. De representatie kan worden verbeterd door alleen de PP "in the park" te dupliceren en de daartoe benodigde twee bevestigingsposities als keuzepunten uit te voeren. Deze mogelijkheid is geïllustreerd in figuur 7.

In elk keuzepunt zijn er twee alternatieven: de PP en de zogenaamde nulboom, een boom zonder inhoud, in het diagram aangeduidt met [ ]. Als de PP wordt gekozen dan maakt de tak met het keuzeknoop deel uit van de representatie, in het andere geval niet. Opgemerkt wordt, dat de procedure waarmee de representatie wordt geïnterpreteerd moet garanderen dat de PP slechts eenmaal wordt geselecteerd.

Een verdere comprimering kan worden verkregen door de PP te laten delen door twee keuzepunten. Deze oplossing is getoond in figuur 8. De daarin getoonde representatie is niet langer een boom, maar vormt een zogenaamde gerichte graaf.

Omdat het niet mogelijk is om een graaf direct in tekstuele vorm weer te geven, is het nodig om een formalisme of een beschrijvingstaal te ontwikkelen die gebruikt kan worden om een beschrijving van de graaf te geven. Van deze beschrijvingstaal wordt gevraagd, dat ze de mogelijkheid biedt om keuzepunten te representeren en aan te geven, waar de gemeenschappelijke structuursecties worden gedeeld.

Bomen en grafen

Een algemene definitie van een graaf is G = (V, E), waarin V de verzameling van punten (knopen) is en E de verzameling van kanten (verbindingslijnen). De punten en kanten hebben namen, dat wil zeggen zijn toegewezen aan de woorden van een zin, respectievelijk aan de relaties die tussen deze woorden heersen. Diagram 1 toont een mogelijke notatie voor punten en kanten:

Diagram 1.

punt ::= <knoop> kant ::= <relatie> : <regeerder> / <afhanger> punt ::= <term> relatie <atoom> regeerder ::= <knoop> afhanger ::= <knoop>

Gebruikmakend van deze notatie wordt de afhankelijkheidsboom voor de zin "We see him" nu geïllustreerd in diagram 2. De knopen (of punten) zijn zodanig vereenvoudigd dat ze alleen woorden bevatten.

Diagram 2 [see, [ [SUBJ, we, []], [OBJ, him, []]] ]

De corresponderende graaf, die "We see him" vertegenwoordigt, luidt: ([we, see, him], [SUBJ:see/we, OBJ:see/him])

Alhoewel dit graafformalisme het mogelijk maakt om arbitraire verbindingen aan te brengen tussen regeerders en afhangers heeft dit formalisme nochthans een zeker aantal nadelen, die als volgt kort kunnen worden samengevat: 1. De kantbeschrijver bevat complete knopen hetgeen leidt tot een ; onnodige redundantie.

2. De lijst van kanten is te weinig gestructureerd om praktische te zijn voor grote representaties.

3. Er is geen mogelijkheid om keuzepunten aan te geven.

Het eerste probleem kan worden opgelost door een unieke identificatiecode toe te wijzen aan elke knoop, aangevende de woordindex (dat wil zeggen de rangvolgorde van het woord in de zin) en de interpretatie-index (dat wil zeggen de rangorde van de syntactische interpretatie van het woord in de woordenlijst) en door gebruik te maken van deze knoopidentificatiecode zodra het nodig is om naar een knoop te verwijzen. De knopen zelf (die we in het vervolg lexicale knopen zullen noemen) omvatten dan een knoopidentificatiecode en een knoopwaarde, bestaande uit het woord en de syntactische informatie betreffende het woord. Dit leidt tot de volgende notatie van lexicale knopen en knoopidentificatiecodes:

Diagram 3 lexicale knoop ::= «knoopidentificatiecode) / <knoopwaarde> knoopidentificatiecode ::= «woord-index) : «interpretatie-index) knoopwaarde ::= <term> woordindex ::= «geheel getal) interpretatie-index ::= «geheel getal)

De eerste interpretatie (de eerste verwijzing in de syntactische woordenlijst) van het woord "see" zal bijvoorbeeld aangeduid worden met 2:1. De (vereenvoudigde) lexicale knoop voor deze interpretatie van "see" wordt dan 2:1/see.

De tweede moeilijkheid kan worden opgelost door een handhaven van de boomstructuren voor niet-dubbelzinnige constellaties van punten en kanten. In plaats van een lijst van kanten kan derhalve dus ook een lijst van boomstructuren worden gebruikt. De knopen van de bomen doen dienst als referentieknopen en bevatten één of meer verwijzingen naar andere bomen of naar andere lexicale knopen.

De introductie van knoopidentificatiecodes suggereert een eenvoudige methode voor het representeren van keuzepunten. Een keuzepunt is een knoop met een exclusieve OF-functie: één van de aanwezige alternatieven moet worden gekozen. We kunnen dit in een model gieten door de knopen te representeren door een lijst van knoopidentificatiecodes en daarbij de voorwaarde te stellen dat ten minste één en ook niet meer dan één element moet worden geselecteerd. Deze voorwaarde maakt het mogelijk om alle referentieknopen als lijsten weer te geven: als de lijst meer dan één element heeft dan gaat het om een keuzepunt, zo niet dan gaat het om een knoop met een verplicht of onvoorwaardelijk element.

Het implementeren van de modificaties, die in het bovenstaande zijn voorgesteld, resulteert in de volgende representatie van de woordreeks "wee see him" in diagram 4. Om het verschil aan te geven met de gebruikelijke graaf zullen we deze graaf aanduiden met de term gestructureerd syntactisch netwerk, in het volgende kortweg aangeduidt met de afkorting SSN.

Diagram 4 ([1:1/we, 2:1/see, 3:1/him], [ [[2:1], [ [SUBJ, [1:1], []], [OBJ, [3:1], []]] ] ] )

Gewezen wordt of de overeenstemming met de boomstructuurrepresen-tatie die getoond is in diagram 2. Door het opnemen van de lexicale knooplijst en de boomlijst in één enkele lijst wordt een niet van een label voorziene boomrepresentatie van het syntactische netwerk verkregen. Om de uniformiteit in de representatie te handhaven wordt een voorafgaand label toegevoegd, dienstdoend als netwerkidentificatiecode. Om dezelfde reden wordt het label GOV toegevoegd aan de boom die in de lijst voorkomt. Het resultaat daarvan is een gemodificeerde SSN die getoond is in diagram 5.

Diagram 5 [ ssn_1, [1:1/we, 2:1/see, 3:1/him], [ [ GOV, [2:1], [ [SUBJ, [1:1], []], [OBJ, [3:1], []]] ] ] ]

Voor het weergeven van meervoudige analyses met een SSN is nog enige extra notatie nodig om te kunnen verwijzen naar de diverse bomen in de lijst. Omdat afhankelijkheidsgrammatica wordt gebruikt kan de knoopidentificatiecode van bovenste knoop van een boom dienst doen als identificatiecode voor deze boom. Er kunnen echter alternatieve analyses van zinsdelen voorkomen, die zelfde knoop bezitten, zoals bijvoorbeeld in het naamwoordelijke zinsdeel (NP) "more modern houses" in "they fund more modern houses" (zie de figuren 4a en 4b). Derhalve wordt een duplicaatindex toegevoegd aan de knoopidentificatiecode van het knoop; de combinatie doet dan dienst als boomidentificatiecode. Het symbool 0 wordt gebruikt als referentie naar de nulboom. Dit leidt tot de notatie van de knoopidentificatiecodes die getoond zijn in het volgende diagram:

Diagram 6 boomidentificatiecode <knoopidentificatiecode> - <duplicaatindex> 0 duplicaatindex ::= <geheel getal>

De twee alternatieve bomen voor "more modern houses" kunnen bijvoorbeeld de identificatiecodes 5:1-1 en 5:1-2 bezitten.

Om het beginpunt van de SSN aan te geven en ook in staat te zijn rekening te houden met gevallen die dubbelzinnig zijn op het hoogste niveau (zoals bijvoorbeeld "they can fish", figuren 4a en 4b) wordt de SSN-ingang geïntroduceerd, bestaande uit de eerste boom in de boomlijst. Deze SSN-ingang is herkenbaar via de zogenaamde ingangsknoop, gesynmboliseerd door [0:0], en ze bevat een referentie naar één of meer daaropvolgende bomen in de lijst, aangeduidt als de SSN-bomen.

Het blijkt dat onderscheidt kan worden gemaakt tussen structurele dubbelzinnigheid en woord-specifieke dubbelzinnigheid door te kijken naar de referentieknopen die in feite bestaan uit lijsten van knoopidentificatiecodes en boomidentificatiecodes. Bij structurele dubbelzinnigheid wordt één enkele boom geselecteerd door één uit een aantal regeerders. Dit is geïllustreerd in figuur 7.

Elke regeerder domineert een keuzepunt, waarin de mogelijkheid wordt geboden tussen een bepaalde deelboom (of een lexicale knoop) en de nulboom als alternatieven; de referentieknoop zal derhalve een boomidentificatiecode of een knoopidentificatiecode alsmede een identificatiecode voor de nulboom bevatten, b.v. [1:1-1, 0] of [1:1, 0], waardoor een keuzepunt met structurele dubbelzinnigheid wordt gevormd.

Bij een woord-specifieke dubbelzinnigheid heeft anderzijds één enkele regeerder de keuze uit een aantal deelbomen en/of lexicale knopen. In dat geval domineert de regeerder een referentieknoop dat dienst doet als keuzepunt bij woord-specifieke dubbelzinnigheid en dat een lijst bevat met referenties naar SSN-bomen of lexicale knopen. Voorbeelden daarvan zijn [3:1-1, 3:2-1] (twee SSN-bomen) en [1:1, 2:1-1] (een lexicale knoop en een SSN-boom).

Het geval waarin een referentieknoop slechts één enkele referentie bevat, heeft zowel betekenis voor lexicale knopen als voor SSN-bomen. Met verwijzing naar een lexicale knoop doet het referentieknoop dienst als aanwijzer naar de lexicale knoop, met andere woorden, doet dienst als lexicale aanwijzer. Wanneer wordt verwezen naar een SSN-boom dan functioneert de referentieknoop als een structuur-delende aanwijzer, dat wil zeggen een aanwijzer naar een structuur, die kan worden gedeeld door de alternatieve SSN-bomen resulterend uit de woord-specifieke dubbelzinnigheid. De NP "a ladybird" bijvoorbeeld kan worden gedeeld door de twee analyses van "the flies like a ladybird" (zie de figurenf 2a en 2b).

De verdere notatie die nodig is voor de knopen van de bomen in de SSN is opgenomen in het navolgende diagram.

Diagram 7 boomknoop ::= [ 0:0 ] | <referentieknoop> referentieknoop ::= [ <referentie> ] | <keuzepunt> keuzepunt ::= [ <referentie>, 0] | [ <referentie> [, <referentie» } +] referentie ::= <knoopidentificatiecode> | <boomidenti f icatiecode >

Gebruikmakend van dit diagram wordt een verdere gemodificeerde SSN voor "we seen him" weergegeven in diagram 8.

Diagram 8 [ ssn_1a, [1:1/we, 2:1/see, 3:1/him], t [ NIL, [0:0], [ % ssn_ingang [GOV, [2:1-1], [].]] % aanwijzer naar ssn_boom 2:1-1 [ NIL, [2:1-1], [ % ssn_boom 2:1-1 [SUBJ, [1:1], []], % aanwijzer naar lexicale knoop [OBJ, [3:1], []]] ]] ]

Labels die niet verwijzen naar een syntactische relatie, maar die noodzakelijk zijn om de uniformiteit in het boom-formalisme te handhaven, worden aangeduid als NIL. De SSN-ingang bevat een deelboom met het label GOV (het label dat aan het begin staat van een afhakelijkheidsboom), alsmede een referentie naar een SSN-boom.

Enkele SSN's voor dubbelzinnige zinnen

We zullen nu aandacht besteden aan enkele voorbeelden van SSN's voor dubbelzinnige zinnen. In diagram 9 is de SSN getoond van "They can fish" (zie ook de bomen die worden getoond in de figuren 4a en 4b), een zin met woord-specifieke dubbelzinnigheid.

Diagram 9 [ ssn_2, [1:1/they, 2:1/can, 2:2/can, 3:1/fish, 3:2/fish], [ [ NIL, [0:0], [ % ssn-ingang [ GOV, [2:1-1, 2:2-1], []].] % keuzepunt tussen 2:1-1 en 2:2-1 ], [ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], []], [INFC, [3:1], []]] % fish = werkwoord I, [ NIL, [2:2-1], [ % ssn-boom 2:2-1 [SUBJ, [1:1], []], [OBJ, [3:2], []]] % fish = naamwoord ]] ]

De SSN-ingang wordt gebruikt om dubbelzinnigheid op het bovenste niveau weer te geven. De ingang, bevat een deelboom met een keuzepunt, voorafgegaan door een GOV-label.

Voor sommige toepassingen kan het nodig zijn om de alternatieven van de SSN in een bepaalde volgorde te genereren. Bij woord-specifieke dubbelzinnigheid zijn de met deze dubbelzinnigheid samenhangende alternatieven opgenomen in een lijst. Door rekening te houden met de volgorde in deze lijst is het mogelijk om de alternatieven in een bepaalde volgorde te genereren. Deze benadering is niet van toepassing bij structurele dubbelzinnigheid. De alternatieve keuzen zijn verdeeld over diverse keuzepunten en er is geen directe samenhang of communicatie tussen deze punten. Alle keuzepunten verwijzen echter naar dezelfde SSN-boom en door een lijst van knoopidentificatiecodes van de relevante regeerders op de positie van het toplabel van de SSN-boom op te nemen, is het mogelijk om de volgorde van de selectie te besturen. Om een niet-dubbelzinnige referentie te verkrijgen, moet de SSN-boom die de regeerders bevat ook worden genoemd, alsmede de woordindex van elke relevante regeerder in deze boom. Dat moet worden herhaald voor alle SSN-bomen die één of meer relevante regeerders bevatten. Het resultaat is een afstammingslijst voor elke SSN-boom. Het root-label van een SSN-boom zal dan ofwel bestaan uit het atoom NIL of uit een lijst van afstammingslijsten. Diagram 10 toont het formaat van het root-label van een SSN-boom.

Diagram 10

root-label ::= [ <afstammingslijst){ , <afstammingslijst>}* ] NIL

afstammingslijst ::= [ <boomidentificatiecode>{ , <woord-index>}+ ]

Een voorbeeld van een zin met structurele dubbelzinnigheid is "We see the man in the park" waarvan de bomen al werden besproken aan de hand van de figuren 1a, 1b. De SSN daarvan is getoond in diagram 11.

Diagram 11 [ssn__3, [1:1/we, 2:1/see, 3:1/the, 4:1/man, 5:1/in, 6:1/the, 7:1/park], [ [ NIL, [0:0], [ % ssn-ingang [GOV, [2:1-1], []]] % aanwijzer naar ssn-boom 2:1-1 1, [ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], []], [OBJ, [4:1], [ [DET, [3:1], []] [ATR2, [5:1-1, 0], []]] % keuzepunt (ssn-boom 5:1-1) ], [CIRC, [5:1-1, 0], []]] % keuzepunt (ssn-boom 5:1-1) ], [ [[2:1-1, 4, 2], [5:1—1]], [ % ssn-boom 5:1-1 (met afstammingslijst) [PARG, [7:1], [ [DET, [6:1], [']]] I] ]] ]

Deze zin heeft al reeds als voorbeeld gediend om de noodzaak van een grafische representatie te illustreren. Om het verschil aan te geven tussen een informele grafische representatie als geïllustreerd in figuur 8 en de SSN toont figuur 9 een grafische representatie van de SSN voor "We see the man in the park".

In het volgende voorbeeld "They can fish near the harbor" is er sprake van een gecombineerde woord-specifieke dubbelzinnigheid en een structurele dubbelzinnigheid. Diagram toont de SSN van "They can fish near the harbor".

Diagram 12 [ ssn_3, [1:1/they, 2:1/can, 2:2/can, 3:1/fish, 3:2/fish, 4:1/near, 5:1/the, 6:1/harbor], [ [ NIL, [0:0], [ % ssn-ingang [ GOV, [2:1-1, 2:2-1], []]] ] [ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], []], [INFC, [3:1], [ [CIRC, [4:1-1, 0], []]] % keuzepunt (ssn-boom 4:1—1) ] ] ], [ NIL, [2:2-1], [ % ssn-boom 2:2-1 [SUBJ, [1:1], []], [OBJ, [3:2], [ [ATR2, [4:1-1, 0], []]] % keuzepunt (ssn-boom 4:1-1) ], [CIRC, [4:1—1, 0], []] % keuzepunt (ssn-boom 4:1-1) ]] ], [ [[2:1-1, 3], [2:2-1, 2, 3]], [4:1-1], [ % ssn-boom 4:1-1 [PARG, [6:1], [ [DET, [5:1], [)]] ]] ]] ]

De notatie voor de afstammingslijst (het label van de SSN-boom 4:1-1) maakt het mogelijk te verwijzen naar regeerders in diverse SSN-bomen. In de zin "They fund more modern houses" kan het woord "can" twee verschillende interpretaties bezitten (adjectief of bijwoord) resulterend in twee verschillende analyses van de NP "More modern houses" (zie de figuren 3a en 3b). In beide gevallen is dezelfde knoop tevens het topknoop van de alternatieve SSN-bomen en om onderscheid te maken tussen deze bomen moeten de duplicaatindexen van de knopen twee verschillende waarden krijgen. Diagram 13 toont de SSN van "They fund more modern houses".

Diagram 13 [ ssn_4, [1:1/they, 2:1/fund, 3:1/more, 3:2/more, 4:1/modern, 5:1/houses], [ [ NIL, [0:0], [ % ssn-ingang [GOV, [2:1-1], []]] h [ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], []], [OBJ, [5:1-1, 5:1-2], []]] % keuzepunt tussen 5:1-1 en 5:1-2 ], [ NIL, [5:1-1], [ % ssn-boom 5:1-1 [ATR1, [3:1], []], % more = adjectief [ATR1, [4:11, []]] 3, [ NIL, [5:1-2], [ % ssn-boom 5:1-2 [ATR1, [4:1], [ [INT, [3:2], .[]]] % more = bijwoord ]] ]] ]

Alhoewel deze SSN een redundantie vertoont vanwege de duplicering van een deel van de NP worden door het gebruik van knoopidentificatiecodes de eisen die aan extra geheugenopslag worden gesteld, beperkt.

Een algemene woord-specifieke dubbelzinnigheid treedt in de Engelse taal op bij naamwoordelijke bepalingen, die zowel een naamwoord als een adjectief kunnen zijn, zoals bijvoorbeeld in de woordreeks "They see the light house". De SSN voor deze zin is getoond in diagram 14.

Diagram 14 [ ssn_5, [1:1/they, 2:1/see, 3:1/the, 4:1/light, 4:2/light, 5:1/house], [ [ NIL, [0:0], [ % ssn-ingang [GOV, [2:1-1], []]] ], [ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], []], [OBJ, [5:1], [ [DET, [3:1], []], [ATR1, [4:1, 4:2], []]] % directe referentie naar lexicale knopen ]] ]

In dit voorbeeld verwijst het keuzepunt in de SSN-boom 2:1-1 direct naar de lexicale knopen in de knopenlijst, omdat de totale structuur van de twee alternatieven, gerepresenteerd door de SSN, aan elkaar gelijk is.

Soms kunnen de SSN-bomen die alternatieve analyses vertegenwoordigen, samen een structuur delen die een gedeelte vormt van deze analyses. Een voorbeeld daarvan is getoond in het navolgende diagram 15 waarin de SSN wordt aangegeven van "He claims that the bee flies like a juicy ladybird", waarin "a juicy ladybird" door de structuren wordt gedeeld.

Diagram 15 I ssn_6, [1:1/he, 2:1/claims, 3;1/that, 4:1/the, 5:1/bee, 6:1/flies 6:2/flies, 7:1/like, 7:2/like, 8:1/a,9:1/juicy,10:1/ladybird],[ [ NIL, [0:0], t % ssn-ingang [GOV, [2:1-1], []]] ].

[ NIL, [2:1-1], [ % ssn-boom 2:1-1 [SUBJ, [1:1], E]], [PROC, [3:1], [ [SUBC, [6:1-1, 7:2-1], []]]

II

], [ NIL, [6:1-1], [ % ssn-boom 6:1-1; flies = werkwoord [SUBJ, [5:1], [ [DET, [4:1], []]] h [CIRC, [7:1], [ % like = voorvoegsel [PARG, [10:1-1], []]] % aanwijzer naar ssn-boom 10:1—1

II

1, [ NIL, [7:2-1], [ % ssn-boom 7:2-1; like = werkwoord [SUBJ, [6:2], [ % flies = bijwoord [DET, [4:1], []], [ATR1, [5:1], []]] ], [OBJ, [10:1-1], []]] % aanwijzer naar ssn-boom 10:1—1 ], [ NIL, [10:1-1], [ % ssn-boom 10:1-1 [DET, [8:1], [1], [ATR1, [9:1], []}] ]

Het bovenbeschreven gestructureerde syntactische netwerk SSN maakt het mogelijk om alle analyses van een zin onder te brengen in één enkele representatie en omvat een lijst van afhankelijkheidsbomen, waarin de woorden zijn vervangen door een lijst van aanwijzers. Een aanwijzerlijst met één enkel element vormt een referentie naar een woord of naar een deelboom en bepaalt een vaste verbinding, zoals in een traditionele boom. Een aanwijzerlijst met meer dan één element vertegenwoordigt een keuzepunt en wordt gebruikt om alternatieven aan te geven. De SSN is derhalve een dubbelzinnige structuur en elke mogelijke interpretatie daarvan valt samen met een mogelijke interpretatie van de onderhavige zin.

In het volgende deel van de beschrijving zal een parser ofwel een ontledingssysteem worden beschreven, dat tot taak heeft een SSN op een niet-triviale wijze te genereren, in het bijzonder op een andere wijze dan door het samenvoegen van alle traditioneel gegenereerde analysebomen.

Zoals reeds in het bovenstaande werd opgemerkt, gaat het bij de afhankelijkheidsanalyse van een woordreeks om het kiezen van een regeerder en het verzamelen van die woorden die afhangers van deze regeerder zouden kunnen zijn. De regeerder op zijn beurt kan weer een afhanger zijn voor een andere regeerder en een mogelijke analyse voor de woordreeks leidt tot een consistente verdeling van de woorden, zodanig dat er één regeerder op het bovenste niveau is, die alle woorden in de reeks "omvat", direct als afhangers van de betreffende regeerder, dan wel indirect als afhangers van deze afhangers, enz. Als één of meer van de afhangers optioneel zijn, of als er één of meer woorden zijn met meervoudige syntactische interpretaties, dan kunnen er meer oplossingen zijn die voldoen aan dit criterium, in welk geval de reeks dubbelzinnig is.

Het ontledingssysteem volgens de uitvinding is gebaseerd op een andere benadering, waarin het niet primair van belang is om direct consistente oplossingen te vinden, maar waarin een tweetraps strategie wordt gebruikt. In de eerste trap van de strategie wordt voor elk woord in de reeks, dat potentieel een regerend woord of regeerder kan zijn, de zogenaamde maximale frase geconstrueerd, dat wil zeggen een boom die alle mogelijke afhangers van het betreffende woord bevat', ongeacht het feit of dit woord al dan niet reeds als afhanger is aangemerkt voor een andere regeerder. De afhangers zullen niet letterlijk allemaal worden opgenomen in de afhankelijkheidsboom van de regeerder, maar worden aangeduid door middel van een unieke index. Het resultaat van deze analyse zal zijn een groep van maximale frasen voor de woordreeks.

Elke maximale frase in de groep omvat een deelreeks (of mogelijk ook een geordende subgroep) van de woordreeks. Omdat er nog geen test is uitgevoerd op de totale consistentheid kunnen twee subreeksen woorden gemeen hebben. Derhalve moeten in een tweede trap van het ontleedproces alle mogelijke oplossingen op consistentheid worden gecontroleerd. Als voorbeeld kan uitgegaan worden van een woordreeks ABC met de maximale frasen P1, P2 en P3 voor de respectievelijke regeerdere woorden A, B en C. Stel dat P1 de reeks ABC omvat, P2 omvat BC en P3 omvat C. P3 valt dan zowel binnen Pt als binnen P2 en zowel P1 als P2 zullen derhalve een aanwijzer bevatten, die wijst naar P3. Er zijn nu drie alternatieven: 1. P3 is optioneel voor zowel P1 als P2; de aanwijzers naar P3 moeten in dat geval worden veranderd in keuzepunten.

2. P3 is verplicht voor ofwel P1 dan wel P2; de aanwijzer naar P3 in de frase waarvoor P3 optioneel is, zal moeten vervallen.

3. P3 is verplicht voor zowel P1 als P2; er is geen oplossing mogelijk in dat geval en er moet een fout-correctie-procedure worden gestart.

Het aantal maximale frasen is gelijk aan het totaal aantal syntactische interpretaties van de woorden van de reeks. Sommige frasen zullen alleen één enkel woord bevatten, anderen zullen (indirect) de complete reeks omvatten. Er zullen één of meer frasen op het bovenste niveau zijn en deze zullen dienst doen als startpunt voor een consistentheidscontrole, waarin frasen met gemeenschappelijke afhangers worden vergeleken op de manier als in het bovenstaande is beschreven. Bovendien moet een oplossing alle woorden in de reeks omvatten.

Maximale frasen, die geen deel uitmaken van enige gevonden oplossing moeten vervallen, de andere vormen de S5N van de reeks.

De constructie van maximale frasen

Het is reeds opgemerkt dat er geen echt verschil bestaat tussen lexicale en zinsdeel categorieën in afhankelijkheidsgrammatica. Derhalve kunnen zowel woorden, als ook deelbomen worden beschouwd als elementen met een bepaalde categorie. In plaats van een reeks van woorden of een reeks van deelbomen is het derhalve ook mogelijk om meer in het algemeen te spreken van een reeks van categorieën. Dit benadrukt het feit dat er geen werkelijk verschil is tussen een woord en een deelboom, gezien vanuit het standpunt van de regeerder.

Uitgaande van een reeks van categorieën heeft het ontleedstelsel nu tot taak het vinden van de groep van maximale frasen voor deze reeks. Het ontleedsysteem, ofwel de parser zal de reeks van 1inks-naar-rechts aftasten (of in een andere realisatievorm kunnen ook, tijdens het ontleedproces, categorieën aan de reeks worden toegevoegd) en daarbij kijken naar een mogelijke regeerder, d.w.z. een categorie waarvoor afhangers te vinden zijn. Ook als geen enkele afhanger voor de regeerer gevonden kan worden, wordt deze als gesloten beschouwd. Als een regeerd woord wordt gevonden, dan zal dit worden aangeduid als de huidige regeerder en de parser zal vervolgens naar links in de reeks kijken of zich daar een mogelijke afhanger bevindt . Als dit zo is dan wordt de syntactische relatie tussen de regeerder en de afhanger vastgesteld en wordt een deelboom toegevoegd aan de regeerder met een label dat de naam vermeld van de gevonden relatie en een aanwijzend knoop dat de index van de afhanger bevat. Als de afhanger optioneel is dan bevat het aanwijzende knoop tevens een referentie naar de nulboom, zodat deze optionaliteit direct kan worden herkend. De index van de regeerder wordt toegevoegd aan afstammingslijst van de afhanger, een lijst die zoals boven werd aangegeven de referenties bevat naar alle mogelijke regeerders boven deze afhanger.

De parser zal daarna de volgende categorieën aan de linkerzijde van de huidige regeerder onderzoeken om te zien of dit een mogelijke afhangers zijn. Als alle mogelijke afhangers aan de linkerzijde van de regeerder zijn gevonden, dan zal de parser gaan zoeken in de reeks van categorieën om te zien of eventuele afhangers te vinden zijn aan de rechterzijde van de huidige regeerder. Als ook alle mogelijke afhangers aan de rechterzijde van de regeerder zijn gevonden dan is zijn maximale frase voltooid en kan deze regeerder als gesloten worden aangemerkt. Ook als geen enkele afhanger voor de regeerder gevonden kan worden, wordt deze als gesloten beschouwd. De parser zal dan verder zoeken naar de volgende nog niet gesloten regeerder in de reeks en trachten om voor deze regeerder afhangers te vinden. Dit proces gaat door tot aan het eindmerkteken van de woordreeks is bereikt.

De beschreven procedure behoeft nog enige verfijning om correct te kunnen functioneren. Zoals ze in het bovenstaande wordt beschreven, zal de procedure eindigen zodra een categorie wordt gevonden, die geen afhanger is van de huidige regeerder, waarmee de toegang tot de regeerder van een volgende categorie wordt geblokkeerd. In de woordreeks "See the man" kan het woord "see" niet worden gecombineerd met "the", maar het kan wel worden gecombineerd met "man". De parser moet derhalve in staat zijn om categorieën aan de rechterzijde van de huidige regeerder te combineren, totdat een categorie overblijft die een mogelijke afhanger is. Omdat de afhangers echter niet direct worden gecombineerd met hun regeerder, maar de betreffende regeerder er alleen naar verwijst, blijft het woord "the", alhoewel het een afhanger is van "man", nog steeds gepositioneerd tussen "see" en "man". Derhalve wordt iedere categorie die succesvol is gecontroleerd als een mogelijke afhanger, gemarkeerd als aangeraakt (dat wil zeggen aangeraakt door een regeerder) en kan dan door de huidige regeerder worden overgeslagen. Op deze wijze kunnen de afzonderlijke categorieën worden gehandhaafd zonder dat het ontleedproces wordt geblokeerd.

Door het combineren van categorieën aan de rechterzijde van de huidige regeerder wordt een begin gemaakt met een recursief proces. Een categorie aan de rechterzijde van de huidige regeerder kan zelf een regeerder zijn en de parser zal een maximale frase voor deze regeerder construeren. Deze maximale frase kan categorieën bevatten die ook afhangers van de huidige regeerder kunnen zijn. Derhalve zal de parser altijd elke categorie afzonderlijk onderzoeken en testen of deze een afhanger kan zijn van de huidige regeerder, zelfs als ze al is aangeraakt door een afhanger van de huidige regeerder. Een uitzondering op deze regel kan de situatie zijn, waarin een categorie verplicht is voor een dergelijke afhanger, zoals bijvoorbeeld het argument van een voorzetsel of prepositie. In dat geval wordt de categorie niet als aangeraakt gemarkeerd, maar als gebonden, aangevende dat het geen deel meer kan uitmaken van enige andere frase. Dit verschil in markering veranderd echter tijdens de generatiefase het gedrag van de parser niet. De afmetingen van een maximale frase worden derhalve niet beïnvloedt door het feit of een categorie verplicht is voor één van de afhangers in de maximale frase; de markering is alleen een indicatie dat een categorie kan worden overgeslagen. Dit leidt tot overgeneratie, maar vergemakkelijkt hoogstwaarschijnlijk de verwerking van slecht geformuleerde zinnen. Als deze benadering wordt aangehouden, waarbij dus ook slecht geformuleerde zinnen worden ontleed, dan zullen alle categorieën worden gemarkeerd, die niet kunnen worden aangeraakt of kunnen worden gebonden door willekeurig één van de regeerders. Ze zullen tijdens de generatiefase echter buiten beschouwing blijven en als zodanig worden gemarkeerd. Op soortgelijke wijze kan de afwezigheid van verplichte afhangers het ontleedproces niet blokkeren.

De consistentheidscontrole

De tweede fase van het ontleedproces is verantwoordelijk voor het combineren en begrenzen van de maximale frasen tot één of meer interpretaties van de volledige woordreeks. Een succesvol uitgevoerde consistentheidscontrole resulteert in een representatie van de groep van interpretaties van de woordreeks in de vorm van een SSN waarin ten minste één syntactische interpretatie voor elk woord in de reeks aanwezig is. Uitgaande van een groep van goed geformuleerde maximale frasen zal het ontleedsysteem zoeken naar hoger gerangschikte regeerders, dat wil zeggen categorieën die niet afhankelijk zijn van enige andere categorie. Om in aanmerking te komen als geschikte hoger gerangschikte regeerder moet de maximale frase van de betreffende categorie de gehele ingangswoordreeks omvatten. De consistentheidscontroleprocedure neemt mogelijke hoger gerangschikte regeerders als beginpunt en tracht van daaraf het gehele netwerk te doorlopen, waarbij alle maximale frasen moeten worden bezocht. Als de regeerder van een maximale frase één of meer afhangers heeft dan controleert de parser elke afhanger om te zien of deze al dan niet meer mogelijke regeerders heeft door de afstammingslijst ervan te onderzoeken. Voor elke regeerder wordt dan getest of deze de afhanger aanraakt of bindt. De uitkomst van de test bestuurt verder de volgende acties: 1. De afhanger wordt aangeraakt door (is optioneel voor) alle regeerders; alle aanwijzers naar de afhanger zullen worden veranderd in keuzepunten.

2. de afhanger is gebonden door (en derhalve verplicht voor) één van de regeerders; slechts voor deze regeerder wordt de aanwijzer naar de afhanger in stand gehouden; alle andere aanwijzers naar de afhanger worden verwijderd.

3. De afhanger is gebonden door meer dan één regeerder; er is geen oplossing mogelijk en er zal een fout-correctie-procedure moeten worden gestart.

Er werd al reeds opgemerkt, dat het de voorkeur verdient om een fout-correctie-procedure in te bouwen. Fout-correctie is een zeer wenselijke voorwaarde voor een robuust ontleedproces, d.w.z. een proces dat ook slecht geformuleerde ingangswoordreeksen accepteert. In zeer algemene termen kan een fout-correctie-procedure worden gekenmerkt als een procedure die: 1. incorrecte ingangsreeksen herkend en de fout(en) daarin lokaliseert; 2. één of meer hypothesen formuleert gebaseerd op de fout(en) teneinde een correcte ingangsreeks te verkrijgen.

De hypothesen worden weergegeven als alternatieve substructuren die worden toegevoegd aan de SSN. Elk alternatief kan dan worden gecontroleerd (zonodig na een vertaling van SSN) op semantische plausibiliteit en aan de gebruiker worden gepresenteerd ter verdere evaluatie.

Voorbeelden

Structurele dubbelzinnigheid.

Teneinde het ontleedproces te illustreren voor het geval van een ‘ structurele dubbelzinnigheid wordt als voorbeeld genomen de analyse van de zin "Dog bites man in park near river". Er wordt vanuit gegaan dat alle woorden één enkele syntactische interpretatie bezitten (hetgeen in werkelijkheid niet het geval is). Elk woord heeft een unieke identificatiecode toegewezen gekregen, gebaseerd op zijn rangvolgorde in de reeks. De parser begint met het contrueren van de maximale frase voor elk woord in de reeks. Het resultaat daarvan is getoond in figuur 10.

De representatie van de frasen is vereenvoudigd, er zijn geen syntactische labels aanwezig en de lexicale knopen bevatten slechts een woord en de index van het betreffende woord. De cijfers binnen de haakjes, aangegeven boven de betreffende lexicale knopen zijn elementen van de afStemmingslijst van de frase. De lijst die een cijfer nul bevat, domineert een regeerder op het hoogste niveau. De getallen die op hun beurt worden gedomineerd door de lexicale knopen zijn de referenties naar de afhangers.

Teneinde de consistentheidscontrole uit te voeren, begint het systeem bij de regeerder op het hoogste niveau en besluit voor iedere afhanger of 1. er naar deze afhanger wordt verwezen door een aanwijzer; 2. er naar deze afhanger wordt verwezen door een keuzepunt; 3. er in het geheel niet naar deze afhanger wordt verwezen.

Opgemerkt wordt, dat keuzepunten kunnen worden gegenereerd voor alle regeerders van een afhanger in één bewerkingsstap. Als derhalve de regeerder in een later stadium nogmaals wordt bezocht dan zal deze al reeds een keuzepunt voor een afhanger bevatten. Een alternatieve strategie houdt rekening met alle regeerders van de afhanger, maar herhaalt de test voor elke regeerder. Alhoewel minder efficiënt voorkomt deze benadering de noodzakelijkheid om de regeerders meer dan eens te controleren. De resultaten van de consistentheidstest voor de maximale frasen zijn opgesomd in de navolgende tabel.

Table 1 Resultaten van de consistentheidstest

Regeerder Afhanger Afstammings- Status van Referentie type lijst van de de afstam- _afhanger_mingslijst_ 2/bites 1/dog [2] enkelvoudig aanwijzer 2/bites 3/man [2] enkelvoudig aanwijzer 2/bites 4/in [3,2] meervoudig keuzepunt 2/bites 6/near [5,3,2] meervoudig keuzepunt 1 /dog - - - - 3/man 4/in [3,2] meervoudig keuzepunt 3/man 6/near [5,3,2] meervoudig keuzepunt 4/in 5/park [4] enkelvoudig aanwijzer 5/park 6/near [5,3,2] meervoudig keuzepunt 6/near 7/river [6] enkelvoudig aanwijzer 7/river -

De resultaten van de consistentheidscontrole zijn opgenomen in de maximale frasen. Deze zijn getoond in figuur 11.

Tezamen vormen de gemodificeerde maximale frasen het gestructureerde syntactische netwerk van de woordreeks. De grafische representatie van deze SSN is getoond in figuur 12.

Na het uitvoeren van het bovenbeschreven codeerproces wordt de uiteindelijke grafische SSN-structuur verkregen, die geïllustreerd is in figuur 13.

Woord-specifieke dubbelzinnigheid

Een voorbeeld van een reeks met woord-specifieke dubbelzinnigheid is de al eerder gebruikte zin "Bee flies like a bird", waarin "flies" zowel een werkwoord als een naamwoord kan zijn en waarin "like" zowel een werkwoord als een prepositie kan zijn. De twee mogelijke analysen van deze woordreeks zijn al getoond in de figuren 2a en 2b. De parser begint de analyse met het construeren van de groep van maximale frasen voor de reeks als getoond in figuur 14.

Teneinde verschil te maken tussen de meervoudige syntactische interpretaties van een woord, wordt op de bovengeschreven wijze de interpretatie-index gebruikt. Tijdens het construeren van een maximale frase zullen de syntactische interpretaties, die geen afhanger zijn van de huidige regeerder door de parser buiten beschouwing worden gelaten.

De enige voorwaarde is dat ten minste één van de syntactische interpretaties wordt aangeraakt of gebonden door de regeerder of door één van zijn afhangers. '

De parser voert een consistentheidscontrole uit op de maximale frase. In het voorgaande voorbeeld resulteerde een meervoudige afstammingslijst in het genereren van keuzepunten. In het geval van "bee" en "bird" bevat de afstammingslijst alternatieve syntactische interpretaties voor hetzelfde woord. Derhalve is er geen keuze van een regeerder voor de afhangers, maar wordt een gemeenschappelijke afhanger gedeeld door de alternatieve interpretaties van hetzelfde woord, die vertegenwoordigd kunnen worden door elk alternatief te voorzien van een aanwijzer naar de afhanger.

De consistentheidscontrole resulteert in het veranderen van elke referentie in een aanwijzer in de maximale frasen (figuur 15).

Het gestructureerde syntactische netwerk voor de reeks zal dan één keuzepunt op het hoogste niveau bevatten. Figuur 16 toont een grafische representatie van de SSN, terwijl figuur 17 het uiteindelijke resultaat toont, dat bereikt wordt na toepassen van het eerder beschreven codeerproces.

Overzicht van de kenmerken van de SSN

Het gestructureerde syntactische netwerk wordt gerepresenteerd door een boom, maar geïnterpreteerd als een gerichte graaf. De lijst van punten van de SSN (ofwel de lexicale knopenlijst) is de groep van alle woordknopen van de alternatieve analysen, die de SSN vertegenwoordigt. Een onderscheidt moet worden gemaakt tussen de identificatiecode en de waarde van een lexicaal knoop in de knopenlijst.

De niet-gestructureerde lijst van takken, die over het algemeen deel uitmaakt van de graaf-beschrijving is vervangen door een lijst van niet-dubbelzinnige boomstructuren, de SSN-bomen. De knopen in de SSN-bomen, de referentieknopen, bevatten alleen knoop- of boomidentificatiecodes. Derhalve zijn de implicaties van onvermijdelijke kopieën van een deel van een boomstructuur niet al te ernstig ten aanzien van de geheugenopslagvereisten en zijn over het algemeen begrensd tot het dupliceren van enkele knoopidentificatiecodes en labels.

Elke knoop in een SSN-boom wordt geïnterpreteerd als een knoop met een exclusieve OF-functie. Met slechts één alternatief doet de knoop dienst als aanwijzer, met verschillende altenatieven vormt de knoop een keuzepunt. De keuzepunten zijn alleen aanwezig aan de eindknopen van een SSN-boom.

Er is een notationeel onderscheid gemaakt tussen referenties naar lexicale knopen en referenties naar SSN-bomen. De reden daarvoor is dat de alternatieve SSN-bomen voor een frase dezelfde topknoop kunnen hebben en de toevoeging van duplicaatindex aan de topknoop identificatiecode levert een unieke referentie op voor elke SSN-boom. Gedurende het genereren van alternatieven uit de SSN voorkomt dit onderscheid verder verwarring ten aanzien van de interpretatie van een identificatiecode.

De Syntax van de SSN beschrijvingstaal

In deze sectie wordt tenslotte de syntax gepresenteerd van de beschrijvingstaal voor de gestructureerde syntactische netwerken in BNF-formaat.

Diagram 16 De syntax van het gestructureerde syntactische netweork ! volgens de uitvinding.

SSN = [ <atoom> , <ssn-knoop> , «ssn- boomlijst> ] ssn-knoopt :: = [ <lexicaal knoop» { , <lexicaal knoop»}*] ssn-boomlijst ::= [ «ssn-ingang» { , <ssn-boom>}+ ] lexicaal knoop ::= «knoopidentificatiecode» / <term> knoopidentificatiecode ::= <geheel getal» : <geheel getal» ssn-ingang ::= [ NIL, [ 0:0], [[<atoom>, <referentieknoop>, []]] referentieknoop ::= [ <referentie> ] | <keuzepunt> keuzepunt ::= [ <referentie>, 0] | [ <referentie> {, «referentie» } + ] referentie ::= «knoopidentificatiecode» | «boomidentificatiecode> boomidentificatiecode ::= «knoopidentificatiecode» - «geheel getal» ssn-boom ::= [ «root-label», «boomidentificatie code», subboomlijst»] root-label ::= [ «afstammingslijst» { , «afstammings

lijst»}* ] | NIL

afstammingslijst ::= [ «boomidentificatiecode» { , «geheel getal»}+ ] deelboomlijst ::= [ «deelboom» { , <deelboom>}* ] | [ ] deelboom ::= [ «atoom» , «referentieknoop» , «deelboomlijst» ]

Lijst van afkortingen ATRl = voorafgaand attribuut ATR2 = navolgend attribuut CIRC = circumstantieel DET = determinator GOV = regeerder (afkorting van "governor") NIL = label zonder verwijzing naar syntactische relatie NP = naamwoordelijke frase OBJ = object PARG = prepositioneel argument PP = prepositionele frase S = beginsymbool in parsers die volgens de constituentengrammatica werken SSN = gestructureerd syntactisch netwerk SUBJ = subject VP = werkwoordelijke frase

Claims

1. Werkwijze voor het ondubbelzinnig coderen van meervoudige ontleedanalyses van een woordreeks in natuurlijke taal binnen een afhankelijkheidsgrammatica waarin afhankelijkheden zijn gedefinieerd tussen paren woorden, elk paar bestaande uit een woord op een hoger niveau, aangeduid als de regeerder en een daaraan gerelateerd woord, aangeduid als afhanger, welke werkwijze omvat de volgende stappen: a) het voor elk woord in een reeks bepalen van een woordindex, die de rangvolgorde van het genoemde woord in de reeks aangeeft, het voor elk woord bepalen van alle mogelijke afhangers en het bepalen van de relatie tussen het genoemde woord en de genoemde afhangers gebruikmakend van een ontleedalgoritme in combinatie met een grammatica die alle mogelijke relaties van de taal definieert en gebruikmakend van een woordenlijst waarin alle woorden van de natuurlijke taal zijn opgeslagen, tezamen met hun syntactische interpretatie en een interpretatie index, die de rangorde van de syntactische interpretatie van het woord in de woordenlijst vertegenwoordigt, teneinde onderscheid te kunnen maken tussen meervoudige syntactische betekenissen van het genoemde woord, b) het definiëren van een syntactisch netwerk dat wordt vertegenwoordigd door een boom bestaande uit knopen, die onderling zijn verbonden door takken en ten minste voorzien zijn van één of meer eindknopen en eventueel een aantal tussenliggende knopen, waarbij elke knoop wordt geïnterpreteerd als een knoop met een exclusieve OF-functie, dienstdoende als aanwijzer als er slechts één alternatief is en dienstdoende als keuzeknoop als er verschillende alternatieven zijn, waarbij elk van de aanwijzende knopen is toegewezen aan een woord van de reeks en elke tak is toegewezen aan de syntactische relatie tussen de twee knopen waartussen de tak verloopt, waarbij elke knoop gecodeerd is door een identificatiecode die in het geval van een aanwijzende knoop direct gerelateerd is aan de woordindex en de plaats waar het woord in de woordenlijst is opgenomen en in het geval van een keuzeknoop bestaat uit een lijst van verdere identificatiecodes, waarvan er één moet worden geselecteerd.

2. Werkwijze volgens conclusie 1, met het kenmerk, dat het syntactische netwerk voorzien kan zijn van één of meer boomstructuren die elk bestaan uit een topknoop functionerend als regerende knoop voor één of meer afhankelijke knopen,__ welke afhankelijke knopen bestaan uit lexicale knopen, ofwel de topknopen van deelboomstructuren, waarbij een boomidentificatiecode wordt toegevoerd aan elke topknoop van een boomstructuur of deelboomstructuur, welke boomidentificatiecode bestaat uit de knoopidentificatiecode, die verwijst naar het woord van de zin dat aan de genoemde knoop is toegewezen, gecombineerd met een duplicatie-index, waarmee onderscheid wordt gemaakt tussen de alternatieve analyses die dezelfde topknoop hebben.

3. Werkwijze volgens conclusie 1 of 2, met het kenmerk, dat de knoopidentificatiecode voor elk knoop omvat de woordindex en de interpretatie-index van het woord dat aan het genoemde knoop is toegewezen.

4. Werkwijze volgens conclusie 1, 2 of 3, met het kenmerk, dat de knoopidentificatiecode van de topknoop van de eerste boom van het netwerk, welke dienst doet als netwerkingangsknoop, voorzien is van een unieke combinatie van een woordindex en een interpretatie-index, niet toegewezen aan enig ander woord in de woordenlijst, en dat de genoemde topknoop verder voorzien is van een lijst van referenties naar ten minste één van de boomstructuren in het syntactische netwerk.

5. Werkwijze volgens conclusie 4, met het kenmerk, dat de referenties in de lijst zijn gerangschikt in een voorafbepaalde volgorde.

6. Werkwijze volgens willekeurig één der voorgaande conclusies, met het kenmerk, dat in stap a) de woorden van de reeks worden afgetast in hun natuurlijke volgorde, waarbij elk woord dat behoort tot een syntactische categorie in de afhankelijkheidsgrammatica en waarvoor afhangers te vinden zijn, wordt beschouwd als een mogelijke regeerder en waarbij voor elk mogelijke regeerder de reeks woorden in de natuurlijke volgorde wordt onderzocht op afhangers, de syntactische relatie tussen een mogelijke regeerder en elke afhanger wordt bepaald en een deelboom wordt toegevoegd aan een regeerder met behulp van een aanwijzende knoop, dat de woordindex van de afhanger bevat, waarbij indien de afhanger optioneel is het aanwijzende knoop tevens een referentie bevat naar de nulboom, (een boom die geen inhoud heeft), waarna een consistentheidscontroleprocedure wordt uitgevoerd om voor elke afhanger te bepalen of het al dan niet behoort bij meer dan één mogelijke regeerder en vast te stellen of de afhanger optioneel is voor alle regeerders, in welk geval alle bovenliggende aanwijzende knopen die leiden naar de afhanger zullen worden gewijzigd in keuzeknopen of, indien de afhanger direct gerelateerd is aan één van de regeerders, dan wordt de verwijzende knoop vanaf dit heersende woord naar de afhanger gehandhaafd en worden alle andere verwijzende knopen naar deze afhanger verwijderd.

7. Werkwijze volgens conclusie 6, met het kenmerk, dat, indien een afhanger direct gerelateerd is aan meer dan één regeerder, een fout-correctie-procedure zal worden geïnitieerd.