NL8900600A - Tweetalige kennisbank. - Google Patents

Tweetalige kennisbank. Download PDF

Info

Publication number
NL8900600A
NL8900600A NL8900600A NL8900600A NL8900600A NL 8900600 A NL8900600 A NL 8900600A NL 8900600 A NL8900600 A NL 8900600A NL 8900600 A NL8900600 A NL 8900600A NL 8900600 A NL8900600 A NL 8900600A
Authority
NL
Netherlands
Prior art keywords
atr
translation
parg
text
language
Prior art date
Application number
NL8900600A
Other languages
English (en)
Original Assignee
Bso Buro Voor Systeemontwikkel
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bso Buro Voor Systeemontwikkel filed Critical Bso Buro Voor Systeemontwikkel
Priority to NL8900600A priority Critical patent/NL8900600A/nl
Priority to EP90200582A priority patent/EP0387960A1/en
Priority to CA002011976A priority patent/CA2011976A1/en
Priority to JP2504993A priority patent/JPH04506718A/ja
Priority to PCT/NL1990/000029 priority patent/WO1990010911A1/en
Publication of NL8900600A publication Critical patent/NL8900600A/nl

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

Tweetalige kennisbank.
De onderhavige uitvinding heeft betrekking op een tweetalige kennisbank omvattende een tweetalig tekstcorpus bestaande uit een tekst in een eerste taal en de daarmee corresponderende vertaling in een tweede taal. Algemeen gesteld houdt de uitvinding zich bezig met het integreren van algemene kennis, lexicale kennis, tweetalige woordenboeken, tekstrepresentatie en andere kennisbronnen in een enkele dynamische kennisbank die althans voor een belangrijk deel automatisch kan worden samengesteld en bijgewerkt uitgaande van een aantal tekstcorpussen.
Bij het ontwikkelen van machinale vertaalsystemen krijgt men te maken met twee belangrijke problemen die van sterke invloed zijn op de snelheid waarmee een vertaalsysteem kan worden gerealiseerd alsmede op de bijbehorende kosten. Het eerste probleem is de noodzaak om grote tweetalige woordenboeken op te bouwen. Het tweede probleem hangt samen met de noodzaak om andere soorten kennis in het vertaalsysteem in te bouwen.
De mate waarin deze andere bronnen van niet-lexicale kennis werkelijk nodig zijn, is in de kringen van ontwerpers van automatische vertaalsystemen nog niet duidelijk. De deskundigen op dit terrein zijn het er echter wel over eens dat grote en gedetailleerde woordenboeken onvermijdelijk nodig zijn en dat bovendien een groot deel van de kosten, samenhangend met het ontwerpen van machinale vertaalsystemen, worden veroorzaakt door de benodigde woordenboeken die zeer moeilijk te construeren en bij te houden zijn.
Conventionele, op papier gedrukte woordenboeken vormen echter, hoe groot ook, geen oplossing voor het woordenboekenprobleem. Zelfs als dergelijke inmiddels reeds bestaande woordenboeken automatisch omgevormd worden in een voor machine leesbare vorm (of eventueel al reeds in een dergelijke vorm beschikbaar zijn), dan is voor de correcte interpretatie van de gegevens die in een dergelijk woordenboek kunnen worden opgezocht, nog steeds in zeer sterke mate de hulp van de mens en het menselijke begrip nodig. De informatie die door een machinaal vertaalsysteem moet worden gebruikt moet veel meer expliciet zijn. In het algemeen bevatten conventionele tweetalige woordenboeken lijsten van mogelijke vertalingen voor elk trefwoord met weinig of geen indicatie van de omstandigheden waaronder één van de alternatieven uit deze lijst zou moeten worden geselecteerd. In dergelijke conventionele woordenboeken is zeker geen enkele aanwijzing te vinden die voor een computer een basis zou kunnen vormen om een beslissing te nemen. Het volgende voorbeeld uit een Engels-Frans technisch woordenboek (Ernst, 1984: Comprehensive dictionary of engineering and technology, Wiesbaden: Brandstetter) illustreert het probleem:
Distance (between points) / distance f, écart m, écartement m, éloigne-ment m, espace m, intervalle m.
Een computer kan alleen een eenduidige keuze uit een dergelijke lijst van mogelijke alternatieven maken indien de computer nauwkeurige indicaties krijgt op grond waarvan één van de mogelijke vertalingen te prefereren is boven de andere. Dit probleem wordt meer uitvoerig besproken door A.K. Melby in "Lexical transfer: a missing element in linguistics theories", llth Int. Conf. on Comp. Ling., proc. of Coling ’86, Bonn, blz. 104-106.
Een methode om uit een lijst van alternatieven een keuze te maken is beschreven in een eerder ingediende Nederlandsche octrooiaanvrage van aanvraagster getiteld: "Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst”.
Een ander nadeel van de meeste conventionele woordenboeken is het niet vermelden van de soort van structurele transformaties die een vertaler in nagenoeg elke zin moet uitvoeren zoals bijvoorbeeld:
Engelse bronzin: This implies bringing to the consciousness of every industrial organization the fact that .....
Franse vertaling: Cela implique que les responsables de l'industrie prennent conscience du fait que .....
Een ander voorbeeld van een transformatie is te vinden in:
Engelse bronzin: The board unanimously confirms the mandate
Franse vertaling: Le conseil est unamine dans sa confirmation du mandat
Wordt van een computer in een machinaal vertaalsysteem vereist dat vertalingen met een hoge kwaliteit worden gegenereerd dan moet de computer op de een of andere wijze op de hoogte zijn van alle praktische dagelijkse vertaalkennis die bij de menselijke vertaler aanwezig is. Een dergelijke kennis wordt echter in bestaande woordenboeken niet in voldoende mate aangetroffen. Er bestaat echter, zoals duidelijk zal zijn, een behoefte om deze kennis van de professionele vertaler op de een of andere wijze in een machinaal vertaalsysteem in te voeren.
Alhoewel er reeds pogingen ondernomen zijn blijkt het opbouwen van een werkbaar tweetalig woordenboek, dat geschikt is voor toepassing in een machinaal vertaalsysteem, een zeer ontmoedigende taak te zijn die een enorme investering vraagt in gespecialiseerde menselijke arbeid, omdat deze taak met de huidige stand der techniek niet automatisch kan worden uitgevoerd. Bovendien zijn er voor elk talen-paar twee tweetalige woordenboeken nodig, omdat zeer waarschijnlijk alle bestaande woorden-boekstructuren voor machinale vertaalsystemen slechts in één richting effectief zijn. Er bestaat derhalve een grote behoefte aan een manier om semi-automatisch of bij voorkeur volautomatisch een tweetalig woordenboek voor machinale vertaalsystemen op te bouwen. In 1987 is door Byrd en anderen ("Tools and Methods for Computational Lexicology", IBM Research Report RC 12642) al opgemerkt dat het voor de constructie van computersystemen, die bestemd zijn voor het verwerken van natuurlijke taal, nodig is dat er grote gecomputeriseerde woordenlijsten worden opgebouwd met zeer uitgebreide en nauwkeurige syntactische en semantische informatie over de woorden in de lijst. Ook is het duidelijk dat het onmogelijk zal zijn om dergelijke woordenlijsten in de vereiste aantallen en omvang op te bouwen indien uitsluitend gebruik kan worden gemaakt van de handarbeid van individuele computerspecialisten, taalkundigen en lexicografen. Er zijn te veel systemen die te veel informatie vragen over te veel woorden om een dergelijke handmatige benadering enige kans van slagen te bieden.
Wat andere soorten kennis betreft wordt algemeen erkend dat "begrip" een belangrijke rol speelt bij het opbouwen van ieder succesvol machinaal vertaalsysteem. De vraag is alleen hoe groot en uitgebreid deze rol zou moeten zijn. Sommige problemen zouden opgelost kunnen worden Indien er kennis uit een gehele tekst zou kunnen worden afgeleid zoals bijvoorbeeld: "He could not agree with the amendments to the draft resolution proposed by the delegation of India."
Om deze zin correct in het Frans te kunnen vertalen is het noodzakelijk dat de vertaler (of het machinale vertaalsysteem) weet of India de resolutie danwel de amendementen daarop heeft voorgesteld. Andere ambiguïteiten of dubbelzinnigheden die een meer algemene kennis bij de vertaler danwel bij het machinale vertaalsysteem veronderstellen zijn dubbelzinnigheden zoals: "pregnant women and children" waarbij opnieuw een vertaler danwel een vertaalsysteem zal moeten weten of de kinderen en vrouwen danwel alleen de vrouwen in verwachting zijn voordat een dergelijke zin in correct Frans kan worden vertaald. Alhoewel dit laatste voorbeeld voor een menselijke vertaler geen problemen zal opleveren bezit een machinaal vertaalsysteem niet die algemene kennis, op grond waarvan een menselijke vertaler als vanzelfsprekend de goede beslissing zal nemen.
De research naar kennisrepresentatie, bedoeld om daarmee een computer enig "begrip" van de menselijke taal bij te brengen, is tot nu toe geconcentreerd geweest op het bouwen van "diepe" betekenisabstracties die zo onafhankelijk mogelijk zijn van de werkelijke woorden van een willekeurige specifieke menselijke taal. Veel kennisaspecten, die zeer relevant zijn voor een vertaling, bijvoorbeeld problemen die verband houden met tijd/werkwoordsvorm, handelingsaspect, nadruk en focus, zijn delicaat verstrengeld met de vorm waarin zij tot uitdrukking worden gebracht. Om deze reden is kennisrepresentatie in de vorm van netwerken of hierarchiën van buiten-lingui'stische concepten op zichzelf onvoldoende voor machinale vertaaldoeleinden. Bovendien zijn dergelijke methoden nog arbeidsintensiever dan het opbouwen van computerwoordenboeken en tot nu toe is er nog niemand in geslaagd om een representatie te ontwikkelen die ook maar in de verste verte enig uitzicht biedt op praktische toepasbaarheid in een grootschalig stelsel, buiten de grenzen van een klein en specialistisch toepassingsdomein.
Een ander aspect van het begrip dat in een machinaal vertaalsysteem moet worden ingebouwd is de mogelijkheid om ook buiten de kennisbank elders naar informatie te kunnen zoeken. Evenals de menselijke vertaler zich vaak zal moeten wenden naar externe informatiebronnen (encyclopedieën, collega’s, tijdschriften, de auteur van de tekst die wordt vertaald, enz.) om te komen tot een correct begrip van de te vertalen tekst, zo zal ook een computer voorzien moeten worden van middelen om externe kennisbronnen te kunnen aanboren, bijvoorbeeld via een dialoog met de computer-gebruiker. Dit principe impliceert dat een automatisch vertaalsysteem voorzien moet zijn van middelen om een probleem aan de computergebruiker te kunnen "uitleggen", en het inbouwen van een dergelijke "uitleg”-mogelijkheid in een automatisch vertaalsysteem is derhalve in genen dele triviaal.
Een recente poging om verband te leggen tussen teksteenheden van een tekstcorpus in de brontaal en corresponderende teksteenheden van de vertaling daarvan in de doeltaal is in enkele artikelen beschreven door B. Harris. Zie: 1) Harris, Brian (1988): "Bi-text, a new concept in translation theory", Language Monthly, 54, p.8-10, 2) Harris, Brian (1988): "Are you bitextual ?", Language Technology, mei/juni 1988, 7, p.41 en 3) Harris, Brian (1988): "Interlinear bitext", Language Technology, nov./dec. 1988, 10, p.12. Het door B. Harris beschreven interlineaire BITEXT-concept omvat het opsplitsen van de brontekst in "vertaaleenheden", d.w.z. onafhankelijke frasen die door een vertaler over het algemeen altijd op dezelfde manier vertaald zullen worden in de doeltaal, welke frasen individuele woorden omvatten met voldoende context om het gebruik van deze individuele woorden te illustreren. Ook de doeltekst wordt opgesplitst in "vertaaleenheden" en wel zodanig dat bij elke vertaaleenheid in de brontekst één corresponderende vertaaleenheid in de doeltekst behoort. Bij gebruik van dit interlineaire BITEXTconcept kan de vertaler als het ware terugbladeren in zijn eigen vertaalwerk en kunnen op het scherm van een computer telkens één of meer vertaaleenheden in de brontaal worden weergegeven tezamen met de bijbehorende vertaaleenheden in de doeltaal. In de praktijk kan een vertaler hiervan gebruik maken om complete frase,n die in een te vertalen tekst voorkomen aan de hand van de op het scherm gepresenteerde voorbeelden direkt in de doeltaal om te zetten. Ook kan een dergelijke BITEXT functioneren als woordenboek, waarbij elk woord getoond wordt in een bepaalde context. Indien de BITEXT-corpus groot genoeg is, dan zullen bij opvragen van één bepaald trefwoord, dat meerdere betekenissen kan hebben, ook meerdere vertaaleenheden worden getoond waarin het trefwoord telkens in een andere context verschijnt.
Een nadeel van het lineaire BITEXT-concept is dat dit concept in principe alleen een hulpmiddel vormt voor de menselijke vertaler. Het BITEXT-concept functioneert als een uitgebreid woordenboek waarmee niet alleen vertalingen van woorden worden gepresenteerd, maar bovendien de woorden telkens in een bepaalde context worden getoond tezamen met de vertaling van die gehele context. Alleen op grond van deze interlineaire BITEXT-gegevens is een computer echter nog niet in staat om semi“automatisch of volledig automatisch een vertaling te maken van een tekst in een brontaal naar een tekst in een doeltaal.
Het idee om tweetalige tekstfragmenten te gebruiken als een soort van vertaalhulpmiddel of woordenboek is overigens al eerder voorgesteld door M. Nagao in "A framework of a mechanical translation between Japanese and English by analogy principle" in Artificial and Human
Intelligence, Elsevier, 1984, p.,173-180. Nagao stelt daarin een automatisch vertaalsysteem voor waarin gebruik wordt gemaakt van voorbeeldzinnen. Hij schrijft o.a.: "We have to see as wide a scope as possible in a sentence, and the translation must be from a block of words to a block of words. To realize this we have to store varieties of example sentences in the dictionary and to have a mechanism to find out analogical example sentences for the given one."
Nagao suggereert dat deze vertaaltechniek, waarbij gekeken wordt naar de overeenkomsten tussen de te vertalen zin en een al eerder vertaalde voorbeeldzin, nauw aansluit bij hetgeen de menselijke vertaler doet als deze voorbeelden uit een woordenboek gebruikt voor het genereren van oorspronkelijke zinnen.
Het voorstel van Nagao is in een beperkte uitvoeringsvorm geïmplementeerd door E. Sumita en Y, Tsutsumi. Verwezen wordt naar het door beide auteurs geschreven artikel "A Translation Aid System using Flexible Text Retrieval based on Syntax-Matching", gepubliceerd in Proceedings Suppl. 2nd Int.Conf. on Theoretical and Methodological Issues in Machine Translation of Natural Languages, 1988, Pittsburgh, Carnegie Mellon University Center for Machine Translation. Dit stelsel, dat bestemd is als een computerhulpmiddel voor de menselijke vertaler, maakt gebruik van een database met equivalente voorbeeldzinnen in het Engels en in het Japans en bevat verder een index van functiewoorden die in voorbeeldzinnen verschijnen. Het patroon van de functiewoorden dat verschijnt in de Japanse te vertalen zin wordt vergeleken met de geïndexeerde patronen en voorbeeldzinnen die patroonmatig de meeste overeenstemming opleveren worden opgehaald en op het beeldscherm weergegeven tezamen met de Engels equivalenten ervan. De vertaler kan dan aan de hand van de weergegeven informatie selecteren welk voorbeeld het dichtst past bij de ingangsstructuur en zonodig de Engelse versie opnieuw redigeren door één of meer woorden daaruit te wijzigen. Alhoewel Sumita en Tsutsumi met het stelsel volgens Nagao willen proberen om automatisch zinnen in een doeltaal te genereren is de thans bekende implementatie nog bij lange na geen semi-automatisch, en zeker geen volautomatisch machinaal vertaalsysteem. Een essentieel nadeel van het stelsel volgens Nagao is bijvoorbeeld het onvermijdelijke struikelblok van de lexicale overdracht. (Nagao stelt voor om een thesaurus te gebruiken met behulp waarvan de overeenstemming tussen te vertalen woorden en woorden uit voorbeeldzinnen kan worden gecontroleerd). Overigens heeft Nagao zelf al in 1988 (op het al eerder genoemde Coling Congress) toegegeven dat “nobody knows how to organize a large body of knowledge for machine translation".
De uitvinding tracht nu een oplossing te bieden voor deze twee grote en fundamentele problemen, nl. het opbouwen van omvangrijke woordenboeken en het compileren van een veel omvattende en uitbreidbare kennisbank. Of met andere woorden een structuur die zowel kan functioneren als een krachtige en in twee richtingen functionerende dictionaire en als een representatie van alle diverse kennisniveau's die relevant zijn voor een vertaling vanaf de puur linguïstische kennis tot de puur buiten-linguïstische kennis of encyclopedische kennis en die bovendien in hoge mate automatisch kan worden samengesteld.
De uitvinding verschaft nu een tweetalige kennisbank omvattende: - een tweetalig tekstcorpus bestaande uit een lopende tekst of teksten in een eerste taal en een daarmee corresponderende vertaling in een tweede taal, - een syntactische structuur van de tekst in de eerste taal waarmee alle syntactische relaties binnen de vertaaleenheden van de tekst in de eerste taal worden weergegeven, - een syntactische structuur van de vertaling in de tweede taal, waarmee alle syntactische relaties binnen de vertaaleenheden van de vertaling in de tweede taal worden weergegeven, - waarbij in de beide syntactische structuren de vertaaleenheden door middel van een code zijn geïdentificeerd zodanig dat een vertaaleenheid in de tekst in de ene taal eenduidig gerelateerd is aan de daarmee corresponderende vertaaleenheid in de vertaling in de tweede taal.
De kennisbankstructuur die volgens de onderhavige uitvinding wordt voorgesteld, verschaft in feite een databankstructuur die de volgende gegevens omvat: - syntactische transformatieregels (vertaal-regels) - lexicale overdrachtsregels (woordenboek-equivalenten) - contextuele informatie over woorden en morfemen middelen om de tekst, die vertaald moet worden, op een gestructureerde wijze te presenteren, specifieke kennis op een bepaald terrein (gespecialiseerde kennis omtrent het onderwerp van de tekst); - kennis van de wereld (encyclopedische kennis en kennis omtrent dingen die voor een mens vanzelfsprekend zijn maar voor een computer niet).
Bij het opbouwen van een tweetalige kennisbank in overeenstemming met de uitvinding wordt uitgegaan van een tekstcorpus in de ene taal en een kwalitatief hoogwaardige menselijke vertaling daarvan in de andere taal, bijvoorbeeld uit een bestaand meertalig tekstcorpus. Het tekstcorpus moet zo groot worden gekozen dat binnen de corpus voldoende gespecialiseerde kennis omtrent een bepaald onderwerp aanwezig is om, bij later gebruik, voldoende informatie te kunnen verschaffen.
Van elke versie van de corpustekst, dus van zowel de versie in de ene taal als van de versie in de andere taal, wordt een syntactische analyse vervaardigd waarbij structurele ambiguïteiten of dubbelzinnigheden eventueel met behulp van een menselijke operator of vertaler indien nodig worden opgelost. Op deze wijze wordt de tweetalige corpus derhalve omgevormd in een reeks van parallelle ontleedboomstructuren. Voor het syntactisch ontleden van de beide teksten kan gebruik worden gemaakt van een werkwijze zoals bijvoorbeeld beschreven is in de eerder op 1 februari 1989 ingediende Nederlandse octrooiaanvrage 89.00247, die ook op naam staat van aanvraagster van onderhavige aanvrage.
Als volgende stap voor het opbouwen van de tweetalige kennisbank volgens de uitvinding moeten telkens de corresponderende syntactische ontleedboomstructuren met elkaar worden gekoppeld door de daarin aanwezige vertaaleenheden te identificeren. Een "vertaaleenheid” wordt in dit verband gedefinieerd als een combinatie van twee tekstfragmenten in de verschillende talen die als equivalent kunnen worden beschouwd. Daarbij kan het gaan om een enkel woord, een frase of zinsdeel of zelfs een gehele zin. Belangrijk is dat een vertaaleenheid in principe autonoom is. Dat wil zeggen dat de vertaaleenheid kan worden gebruikt zonder dat het nodig is om in de omgevende context wijzigingen aan te brengen. Evenals het geval was bij het oplossen van structurele ambiguïteiten of dubbelzinnigheden zal het voor het identificeren van de vertaaleenheden nodig zijn om de hulp van een menselijke vertaler of operator te gebruiken (die in dit geval deskundig moet zijn op het terrein van de beide talen). Naarmate de tweetalige kennisbank volgens de uitvinding echter groeit kan deze zelf worden gebruikt als hulpmiddel bij het identificeren van de vertaaleenheden en kan het stelsel daardoor zelf steeds meer eenheden zelfstandig identificeren, waarbij alleen nog een bevestiging moet worden gevraagd aan de menselijke vertaler of operator. De twee delen van elke vertaaleenheid kunnen, door het toevoegen van een identificatiecode aan elkaar worden gekoppeld.
In het volgende worden enkele toepassingsvoorbeelden van de uitvinding in meer detail besproken waarbij wordt verwezen naar de bijgaande figuren.
In het eerste voorbeeld wordt gebruik gemaakt van een klein tweetalig tekstcorpus, slechts bestaande uit één zin in het Engels en de daarmee overeenstemmende vertaling in het esperanto. Het corpus bestaat dus uit:
Voorbeeldcorpus 1
Engels: "set the shutoff switch of the right-hand outer wing tank to OPEN".
Esperanto: "Movu la barsxaltilon de la dekstra ekstera alfuelujo al OPEN"
In overeenstemming met de uitvinding moet van elk van beide zinnen een syntactische ontleedstructuur worden vervaardigd. Voor het vervaardigen van dergelijke structuren kan gebruik worden gemaakt van een op zichzelf bekende ontleedinrichting of parser. Dergelijke ontleedinrich-tingen of parsers zijn uitgebreid in de stand der techniek beschreven en behoeven derhalve voor een deskundige op dit terrein geen nadere toelichting. Een dergelijke ontleedinrichting kan het resultaat van de ontleding bijvoorbeeld produceren in de vorm van een boomstructuur.
In figuur 1 is de ontleedstructuur van de bovenstaande Engelstalige zin weergegeven terwijl in figuur 2 de ontleedstructuur is weergegeven van de corresponderende zin in het Esperanto. In de figuren 1 en 2 zijn de woorden uit elke zin geplaatst bij de punten of knopen van de boomstructuur terwijl naast de kanten of verbindingslijnen, die tussen deze punten verlopen, syntactische labels zijn geplaatst die de relatie definiëren tussen de woorden aangegeven bij de desbetreffende twee punten waartussen de verbindingslijn verloopt. De in deze beschrijving en in de bijgaande figuren gebruikte syntactische labels worden algemeen gebruikt in het onderhavige vakgebied en worden derhalve voor de deskundige als bekend verondersteld. Volledigheidshalve is aan het einde van deze beschrijving een verklarende woordenlijst opgenomen van de syntactische labels die in de diverse ontleedstructuren zijn aangegeven.
Een andere wijze om de ontleedstructuur te presenteren is weergegeven in het onderstaande structuurdiagram 1. In dit structuurdiagram 1 zijn de vertaaléénheden onder elkaar aangegeven tezamen met het bijbehorende syntactische label. De ondergeschiktheidsrelaties worden aangegeven door het al dan niet inspringen van de bijbehorende labels. Ook deze wijze van presenteren van een syntactische structuur wordt voor een deskundige bekend verondersteld.
Structuurdiagram 1: [GOV set [GOV movu [OBJ switch [the] [OBJ (((bar)sxalt)ilo) [la] [ATR shutoff ] [ATR of [ATR de [PARG tank [the] [PARG ((al)(fuel)ujo) [la] [ATR wing ] [ATR outer ] [ATR ekstera ] [ATR right-hand ]]]] [ATR dekstra ]]]] [ADVC to [ADVC al [PARG "OPEN" ]]]] [PARG "OPEN" ]J]]
Opgemerkt wordt dat de twee woorden "the switch" en ook de twee woorden "the tank" als een enkele vertaaleenheid aangemerkt zijn waardoor de ATR-relatie tussen "switch" en "the" en de ATR-relatie tussen "tank" en "the", die in figuur 1 nog wel aanwezig zijn, in diagram 1 niet afzonderlijk weergegeven behoeven te worden.
Wordt deze structuur nu gecodeerd door aan elke vertaaleenheid ook nog een alfanumerieke code toe te wijzen dan resulteert bijvoorbeeld een structuur als weergegeven is in het onderstaande structuurdiagram 2:
Structuurdiagram 2 [GOV 69,set [GOV 69-u,movi [OBJ 70,switch [the] [OBJ 70,(((70.1,bar)sxalt)ilo) [la] [ATR 70.1,shutoff ] [ATR 71,of [ATR 71,de [PARG 72,tank [the] [PARG 72,((72.1,al)(fuel)ujo) [la] [ATR 72.1,wing ] [ATR 73,outer ] [ATR 73,ekstera ] [ATR 74,right-hand ]]]] [ATR 74,dekstra ]]]] [ADVC 75,to [ADVC 75,al [PARG 76,"OPEN" ]]]] [PARG 76,"OPEN" ]]]]
De numerieke coderingsgetallen die in diagram 2 zijn aangegeven moeten in elk geval zodanig zijn dat elk van de vertaaleenheden daardoor eenduidig kan worden geïdentificeerd. Een nadere, meer gedetailleerde uitleg van deze codering wordt in het navolgende nog gegeven. Er wordt op gewezen dat overeenkomstige vertaaleenheden in beide zinnen worden geïdentificeerd door identieke numerieke coderingsgetallen. De Engelstalige vertaaleenheid "the right-hand outer wing tank" wordt geïdentificeerd door hetzelfde coderingsgetal als de corresponderende vertaaleenheid "la dekstra ekstera alfuelujo" in het Esperanto.
Overigens is de uitvinding niet beperkt tot tweetalige tekstcorpussen waarvan de ene taal het Esperanto is. De uitvinding kan toegepast worden op tweetalige tekstcorpussen opgebouwd met behulp van teksten in willekeurige talen.
In het slechts uit twee zinnen bestaande tekstcorpus van het eerste voorbeeld kunnen alleen relaties worden gelegd tussen de vertaaleenheden, die in de twee zinnen met elkaar corresponderen. Deze zogenaamde horizontale relaties zijn schematisch met behulp van pijlen weergegeven in figuur 3. Figuur 3 toont links schematisch een geheugeneenheid waarin de Engelse tekst is opgeslagen en rechts schematisch een geheugeneenheid waarin de tekst in het Esperanto is opgeslagen. Door middel van de in het midden van de figuur 3 bij de verbindingspijlen aangegeven coderingen worden de horizontale relaties gelegd tussen corresponderende vertaaleenheden in de beide teksten. De vertaaleenheden zelf worden telkens gevormd door alles wat zich binnen de cirkel bevindt die door de pijlen worden aangewezen. De vertaaleenheid 71 wordt bijvoorbeeld in de Engelse tekst gevormd door "of the outer wing tank". s
Bij een groter tekstcorpus, zoals in de praktijk zal worden gebruikt, kunnen niet alleen horizontale relaties worden gedefinieerd maar kunnen bovendien in de tekst vertikale relaties worden gedefinieerd. Om aan te geven wat verstaan wordt onder een vertikale relatie wordt verwezen naar het onderstaande Engelstalige tekstcorpus:
Voorbeeldcorpus 2:
My secretary will arrive at three.
Please pick him up at the airport.
De menselijke vertaler zal op grond van het feit dat in de tweede zin het woord "him" wordt gebruikt, welk woord terugverwijst naar "secretary", weten dat "secretary" vertaald moet worden door "secretaris" en niet door "secretaresse". Bij het automatisch vertalen van deze tekst zal dit verschil tussen de mannnelijke en vrouwelijke betekenis van "secretary" voor een vertaalcomputer echter niet zonder meer duidelijk zijn. Door een relatie te leggen met het woord "him", aangevende dat bij het vertalen gekozen moet worden voor de mannelijke betekenis, wordt deze onzekerheid ook voor de vertaalcomputer opgeheven.
In figuur 4 is op een soortgelijke wijze als in figuur 3 het bovenstaande voorbeeldcorpus 2 grafisch geïllustreerd met behulp van twee geheugenbestanden waarin de Engelstalige tekst en de corresponderende Nederlandse vertaling zijn opgenomen. De vertikale relatie tussen "secretary*' en "him" is aangegeven door een pijlverbinding die gecodeerd is met het getal 197. Door het leggen van deze relatie kan in de Nederlandse tekst automatisch de juiste vertaling worden gekozen. Ook in de Nederlandse tekst kan vervolgens deze relatie worden aangegeven en gecodeerd (met een corresponderende code).
Figuur 5 toont voor het algemene geval van een tekstcorpus , bestaande uit een tekst in taal A en de daarmee corresponderende vertaling in taal B, de horizontale en vertikale relaties die volgens de uitvinding in dit tweetalige tekstcorpus aangebracht moeten worden om dit corpus als volwaardige tweetalige kennisbank te kunnen laten functioneren met behulp waarvan automatisch vertalingen kunnen worden gegenereerd. De horizontale relaties geven aan welke vertaaleenheden in de beide teksten met elkaar corresponderen en de vertikale relaties binnen elke tekst voegen als het ware aan de tekst algemene kennis toe, ook wel aangeduid als "kennis van de wereld". Deze algemene kennis, die bij een menselijke vertaler van nature aanwezig is, kan op deze manier aan een computer aangeleerd worden.
In het volgende zal in meer detail ingegaan worden op de wijze waarop een kennisbank volgens de uivinding opgebouwd en gecodeerd moet worden aan de hand van een uitgebreider tekstcorpus dat in het onderstaande is afgedrukt. Dit voorbeeldcorpus 3 omvat een Engelse tekst, een bestaande tekst die afkomstig is uit een vliegtuigonderhoudshandboek, alsmede de corresponderende vertaling daarvan in het Esperanto.
Voorbeeldcorpus 3
Engelse tekst:
Outer Wing Tank Test (1) On the fueling control panel, set the power switch to ON.
(a) Make sure that: - the power light is off; - the overflow valve lights are off; - the shutoff valve lights are on.
(2) Apply pressure to the refueling system.
(a) Make sure that: - the lights for the overflow valves of the outer wing tanks come on; - the shutoff valve lights stay on; - fuel does not flow into the tanks.
(3) Make sure there is no leakage from the refueling lines between the right-hand tank and the left-hand tank.
(4) Set the shutoff switch of the right-hand outer wing tank to OPEN.
(a) Make sure that: - the light for the shutoff switch of the right-hand outer wing tank goes off; - fuel flows into the right-hand tank.
(5) Hold the switch on the fueling control panel to TEST.
(a) Make sure that: - the light for the right-hand shutoff valve comes on; - the fuel flow stops.
Esperanto tekst:
Testo de la eksteraj alfuelujoj (1) Sur la komandpanelo por fuelizado, movu la alimentsxaltilon al "ON", (a) Kontrolu, ke: - la signallampo de la alimento ne lumas; - la signallampoj de la superversxaj valvoj ne lumas; - la signallampoj de la baraj valvoj lumas.
(2) Apliku premon al la sistemo de refuelizado.
(a) Kontrolu, ke: - la signallampoj de la superversxaj valvoj de la eksteraj alfuelujoj eklumas; - la signallampoj de la baraj valvoj lumadas; - fuelo ne fluas en la fuelujojn.
(3) Kontrolu, ke ne likas la refuelizaj tuboj inter la dekstra fuelujo kaj la maldekstra fuelujo.
(4) Movu la barsxaltilon de la dekstra ekstera alfuelujo al "OPEN".
(a) Kontrolu, ke: - la signallampo de la barsxaltilo de la dekstra ekstera alfuelujo cxesas lumi; - fuelo fluas en la dekstran fuelujon.
(5) Tenu la sxaltilon sur la komandpanelo por fuelizado cxe "TEST".
(a) Kontrolu, ke: - la signallampo de la dekstra barvalvo eklumas; - la fuelfluo cxesas.
Worden de beide teksten van dit corpus elk met behulp van een parser geanaliseerd teneinde van beide teksten de syntactische structuur te bepalen dan kan het resultaat daarvan als volgt worden weergegeven:
Structuurdiagram 3
Syntactische structuren van de voorbeeldteksten in het Engels en het Esperanto [GOV test [GOV testo [ATR tank [ATR de [ATR wing J [PARC ((al)(fuel)ujo)j [la] [ATR outer ]]] [ATR ekstera ]]]] ["(1)" ["(1)" [GOV set [GOV movu [ADVA on [ADVA sur [PARG panel [the] [PARC ((komand)panelo) [la] [ATR control [ATR por [ATR fueling ]]]] [PARG ((fuel)izado) ]]]] [OBJ switch [the] [OBJ (((aliment)sxalt)ilo) [laJ ] [ATR power ]] [ADVC al [ADVC to [PARG "ON" ]]]] [PARG "ON" ]]]] ["(1)(a)" ["(1)(a)" [GOV make [GOV kontrolu [PRED sure ] [OBJ ke [OBJ that [SUBC "; -" [SUBC "; [SUBC-C "; [SUBC-C -" [SUBC-C lumas [SUBC-C be [ADVA ne] [PRED off ] CSÜBJ ((signal)lampo) [la] [SUBJ light [the] [ATR de [ATR power ]]] [PARG alimento [la] ]]]] [SUBC-C be [SUBC-C lumas [PRED Off ] [ADVA ne] [SUBJ lights [the] [SUBJ ((signal)lampo)j [la] [ATR valve [ATR de [atr overflow ]]]] [PARG valvoj [la] [SUBC-C be [ATR ((superJversxa) ]]]]]] [PRED on ] [SUBC-C lumas [SUBJ lights [the] [SUBJ ((signal)lampo)j [la] [ATR valve [ATR de [ATR shutoff ]]]]]]]] [PARG valvoj [la] [ATR bara ]]]]]]]]] ["(2)" ["(2)" [GOV apply [GOV apliku [OBJ pressure ] [OBJ premo ] [ADVC to [ADVC al [PARG system [the] [PARG sistemo [la] [ATR refueling ]]]]] [ATR de [PARG ((re) (fuel)izado) ]]]]']] ["(2)(a)" ["(2)(a)" [GOV make [GOV kontrolu [PRED sure ] [OBJ ke [OBJ that [SUBC -" [SUBC -" [SUBC-C -" [SUBC-C -" [SUBC-C ((ek)lumas) [SUBC-C come [SUBJ ((signal)lampo)j [la] [PRED on ] [ATR de [SUBJ lights [the] [PARG valvoj [la] [ATR for [ATR ((super)versxa) ] [PARG valves [the] [ATR de [ATR overflow ] [PARG ((al)(fuel)ujo)j [la] [ATR of [ATR ekstera ]]]]]]] [PARG tanks [the] [SUBC-C (lum)adas [ATR wing ] [SUBJ ((signal)lampo)j [la] [ATR outer ]]]]]]] [ATR de [SUBC-C stay [PARG valvoj [la] [PRED on 2 [ATR bara 232222 [SÜBJ lights [the3 [SUBC-C fluas [ATR valve [ADVA ne] [ATR shutoff 2223 [SUBJ fuelo ] [SUBC-C flow [ADVC alen [ADVA not 3 [PARG ((fuel)ujo)j [la] 2232332 [SUBJ fuel 3 [ADVC into [PARG tanks [the] 2333333 ["(3)" ["(3)" [GOV make [GOV kontrolu [PRED sure 2 [OBJ ke [OBJ is [SUBC likas [ADVC there 3 [ADVA ne] [SUBJ leakage [SUBJ tuboj [la] [ATR no 3 [ATR ((re)(fuel)iza) 3 [ATR from [ATR inter [PARG lines [the] [PARG kaj [ATR refueling ] [PARG-C {(fuel)ujo) [la] [ATR between [ATR dekstra 33 [PARG and [PARG-C ((fuel)ujo) [la] [PARG-C tank [the] [ATR ((mal)dekstra) 323323232 [ATR right-hand 3 3 [PARG-C tank [the] [ATR left-hand ]]]]]] 3 2 3 3 ["(4)" [”(4)" [GOV set [GOV movu [OBJ switch [the] [OBJ (((bar)sxalt)ilo) [la] [ATR shutoff ] [ATR de [ATR of [PARG ((al)(fuel)ujo) [la] [PARG tank [the] [ATR ekstera 3 [ATR wing ] [ATR dekstra ]]]] [ATR outer ] [ADVC al [ATR right-hand 1323 [PARG "OPEN" ]]]] [ADVC to [PARG "OPEN" ]]]] ["(4)(a)" ["(4)(a)" [GOV make [GOV kontrolu [PRED sure ] [OBJ ke
[OBJ that [SUBC
[SUBC [SUBC-C cxesas [SUBC-C go [INFC lumi ] [PRED off ] [SUBJ ((signal)lampo) [la] [SUBJ light [the] [ATR de [ATR for [PARG (((bar)sxalt)ilo) [la] [PARG switch [the] [ATR de [ATR shutoff ] [PARG ((al)(fuel)ujo) [la] [ATR of [ATR ekstera ] [PARG tank [the] [ATR dekstra ]]]]]]] [ATR wing ] [SUBC-C fluas [ATR outer ] [SUBJ fuelo ] [ATR right-hand [ADVC alen ]]]]]]] [SUBC-C flow [PARG ((fuel)ujo) [la] [SUBJ fuel ] [ATR dekstra ]]]]]]]] [ADVC into [PARG tank [the] [ATR right-hand ]]]]]]]] ["(5)" ["(5)" [GOV hold [GOV tenu [OBJ switch [the] [OBJ ((sxalt)ilo) [la] [ATR on [ATR sur [PARG panel [the] [PARG ((komand)panelo) [la] [ATR control [ATR por [ATR fueling ] ] ] ] ] [PARG ((fuel)izado) ]]]]] [ADVC to [ADVC cxe [PARG "TEST" ]]]] [PARG "TEST" ]]]] ["(5)(a)" ["(5)(a)" [GOV make [GOV kontrolu [PRED sure ] [OBJ ke [OBJ that [SUBC -" [SUBC -" [SUBC-C ((ek)lumas) [SUBC-C come [SUBJ ((signal)lampo) [la] [PRED on ] [ATR de [SUBJ light [the] [PARG ((bar)valvo) [la] [ATR for ' [ATR dekstra 33333 [FAR6 valve Ithe] [SUBC-C cxesas [ATR shutoff ] [SUBJ ((fuel)fluo) [la] ]]]]]] [ATR right-hand ]]]]] [SUBC-C stop [SUBJ flow [the] [ATR fuel ]]]]]]]
Worden de vertaaleenheden in deze syntactische structuren gecodeerd met behulp van een cijfercodering die in het volgende nog nader zal worden besproken dan ontstaat het volgende resultaat:
Structuurdiagram 4
Codering van vertaaleenheden tussen de syntactische structuren in het Engels en het Esperanto.
[GOV 1,test [GOV 1,testo [ATR 2,3,tank [ATR 2,de [ATR 3.1,wing ] [PARC 2/1,j,3,C(3.1,al)(fuel)ujo) [la] [ATR 4,outer ]]] [ATR 4,ekstera ]]]] ["(1)" ["(1)" [GOV 5,set [GOV 5-u,movi [ADVA 6,on [ADVA 6,Sur [PARG 7,panel [the] [PARG 7,((komand)panelo) [la] [ATR 7/1,control [ATR 8,fueling ]]]] [ATR 8,por [PARG8/1,((fuel)izado) ]]]] [OBJ 10,switch [the] [OBJ 10,(((10.1,aliment)sxalt)ilo) [la] ] [Ara 10.1,power ]] [ADVC 11,to [ADVC 11,al [PARG 12,"ON" ]]]] [PARG 12,"ON" ]]]] [”(1)(a)" [u(1)(a)" [GOV 13,make [GOV 13-u,kontroli [PRED 13/1,sure ] [OBJ 14,that [OBJ 14,ke [SUBC 15,"; -" [SUBC 15,"; -" [SUBC-C 16,"; [SUBC-C 16,"; -" [SUBC-C 17,be [SUBC-C 17-as,lumi [PRED 17/1,off ] [ADVA 17/1,ηβ ] [SUBJ 18,light [the] [SUBJ 18,((signal)lampo) [la] [ATR 19,20,power ]]] [ATR 19,de [PARG 20,alimento [la] ]]]] [SUBC-C 21,be [SUBC-C 21-as,lumi [PRED 21/1,Off ] [ADVA, 21/1,ne] [SUBJ 22,3,22.1,light [the] [SUBJ 22,j,22.1,((signal)lampo) [la] [ATR 23,24,valve [ATR 23,de [PARG 23/1,j,24,valvo [la] [ATR 25,overflow ]]]] [ATR 25,((super)versxa) ]]]]]] [SUBC-C 26,be [SUBC-C 26-as,lumi [PRED 26/1,on ] [SUBJ 27,s,27.1,light [the] [SUBJ 27,j,27.1,((signal)lampo) [la] [ATR 28,29,valve [ATR 28,de [PARG 28/1,j,29,valvo [la] [ATR 30,shutoff ]]]]]]]] [ATR 30,bara ]]]]]]]]] ["(2)" ["(2)" [GOV 31,apply [GOV 31-u,apliki [OBJ 32,pressure ] [OBJ 32,premo ] [ADVC 33,to [ADVC 33,al [PARG 34,system [the] [PARG 34,sistemo [la] [ATR 35,refueling ]]]]] [ATR 35,de [PARG 35/1,((re)(fuel)izado) ]]]]]] ["(2)(a)" ["(2)(a)" [GOV 37,make [GOV 37-u,kontroli [PRED 37/1,sure ] [OBJ 38,that [OBJ 38,ke [SUBC 39,"; -" [SUBC 39,"; -" [SUBC-C 40,"; -" [SUBC-C 40,"; -" [SUBC-C 41,come [SUBC-C 41-as,((ek)lumi) [PRED 41/1,on ] [SUBJ 42,s,42.1,light [the] [SUBJ 42,j,42.1,((signal)lampo) [la] [ATR 43,for [ATR 43,de [PARG 44,s,44.1,valve [the] [PARG 44,j,44.1,valvo [la] [ATR 45,overflow ] [ATR 45,((superJversxa) ] [ATR 46,of [ATR 46,de [PARG 47,s,47.1,tank [the] [PARG 7,j,47.1,((47.2,al) (fuel)ujo) [la] [ATR 47.1,wing ] [ATR 48,outer ]]]]]]] [ATR 48'ekstera ]]]]]]] [SüBC-C 49,stay [SÜBC-C 49-as,(lum)adi [PRED 49/1fon ] [SUBJ 50,s,50.1,light [the] [SUBJ 50,j,50.1,((signal)lampo) [la] [ATR 51,52,valve [ATR 51,de [PARG 51/1,j,52,valvo [la] [ATR 53,Shutoff ]]]] [ATR 53,bara ]]]]]] [SUBC-C 54,flow [SüBC-C 54-as,flui [ADVA, 54.1,not] [ADVA, 54.1,ne] [SUBJ 55,fuel ] [SUBJ 55,fuelo ] [ADVC 56,into [ADVC 56,alen [PARG 57,s,57.1,tank [the] ]]]]}]] [PARG 57,j,57.1,((fuel)ujo) [la] ]]]]]]] ["(3)" ["(3)" [GOV 58,make [GOV 58-u,kontroli [PRED 58/1,sure ] [OBJ 59,60,is [OBJ 59,ke [ADVC 60/1,there ] [SUBC 60-as,liki [SUBJ 60/2,leakage [ADVA 60/1,ne] [ATR, 60/3,no] [ATR 60/4,from [PARG 61,5,61.1,line [the] [SUBJ 61,j,61.1,tubo [la] [ATR 62,refueling ] [ATR 62,((re)(fuel)iza) ] [ATR 63,between [ATR 63,inter [PARG 64,and [PARG 64,kaj [PARG-C 65,tank [the] [PARG-C 65,((fuel)ujo) [la] [ATR 66,right-hand ]] [atr 66,dekstra ]] [PARG-C 67,tank [the] [PARG-C 67,((fuel)ujo) [la] [ATR 68,left-hand ]]]]]]]]]] [ATR 68,((mal)dekstra) ]]]]]]]]] ["(4)" [”(4)" [GOV 69,set [GOV 69-u,movi [OBJ 70,switch [the] [OBJ 70,(((70.1,bar)sxalt)ilo) [la] [ATR 70.1,shutoff ] [ATR 71,of [ATR 71,de [PARG 72,tank [the] [PARG 72,((72.1,al)(fuel)ujo) [la] [ATR 72.1,wing ] [ATR 73,outer ] [ATR 73,ekstera ] [ATR 74,right-hand ]]]] [ATR 74,dekstra ]]]] [ADVC 75,to [ADVC 75,al [PARG 76,"OPEN" ]]]] [PARG 76,"OPEN" ]]]] ["(4)(a)" ["(4)(a)" [GOV 78,make [GOV 78-u,kontroli [PRED 78/1,sure ] [OBJ 79,that [OBJ 79,ke [SUBC 80,"? [SUBC 80,"? -" [SUBC-C 81,go [SUBC-C 81-as,cxesi [PRED 81/1,Off ] [INFC 81/1,lumi ] [SUBJ 83,light [the] [SUBJ 83,((signal)lampo) [la] [ATR 84,for [ATR 84,de [PARG 85,switch [the] [PARG 85,(((85.1,bar)sxalt)ilo) [la] [ATR 85.1,shutoff ] [ATR 86,of [ATR 86,de [PARG 87,tank [the] [PARG 87,((87.1,al)(fuel)ujo) [la] [ATR 87.1,wing ] [ATR 88,outer ] [ATR 88,ekstera ] [ATR 89,right-hand ]]]]]]] [ATR 89,dekstra ]]]]]]] [SUBC-C 90,flow [SUBC-C 90-as,flui [SUBJ 91,fuel ] [SUBJ 91,fuelo ] [ADVC 92,into [ADVC 92,alen [PARG 93,tank [the] [PARG 93,((fuel)ujo) [la] [ATR 94,right-hand ]]]]]]]] [ATR 94,dekstra ]]]]]]]] ["(5)" ["(5)" [GOV 95,hold [GOV 95-u,teni [OBJ 96,switch [the] [OBJ 96,((sxalt)ilo) [la] [ATR 97,on [ATR 97,sur [PARG 98,panel [the] [PARG 98,((komand)panelo) [la] [ATR 98/1,control [ATR 99,fueling ]]]]] [ATR 99,por [PARG 99/1,((fuel)izado) ]]]]] [ADVC 101,to [ADVC 101,cxe [PARG 102,"TEST" ]]]] [PARG 102,"TEST" ]]]] t"(5)(a)M ["(5)(a)" [GOV 103,make [GOV 103-u,kontroli [PRED 103/1,sure ] [OBJ 104,that [OBJ 104,ke [SUBC 105,"; [SUBC 105,"; -" [SUBC-C 106,come [SUBC-C 106-as,((ek)lumi) [PRED 106/1,on ] [SUBJ 107,light [the] [SUBJ 107,((signal)lampo) [la] [ATR 108,for [ATR 108,de [PARG 109,valve [the] [PARG 109,((109.1,bar)valvo) [la] [ATR 109.1, shutoff ] [ATR 110,right-hand ]]]]] [ATR 110,dekstra ]]]]] [SUBC-C 111,Stop [SUBC-C 111-as,cxesi [SUBJ 112,flow [the] [SUBJ 112,((112.1,fuel)fluo) [la] }]]]]] [ATR 112.1,fuel ]]]]]]]
Over het algemeen zullen in een tekstcorpus diverse vertaaleenheden, die al een keer zijn gecodeerd, later in hetzelfde tekstcorpus nog een of meerdere keren voorkomen. In het voorbeeldcorpus 3 komt bijvoorbeeld de combinatie "outer wing tank" meerdere malen voor. Wordt een dergelijke vertaaleenheid telkens opnieuw opgenomen dan ontstaat er in de resulterende gecodeerde structuur een aanzienlijke redundantie. Om dat te vermijden kan bij het coderen van vertaaleenheden, die al eerder zijn gecodeerd naar deze eerdere codering worden verwezen. In de navolgende gewijzigde structuur is de codering in deze zin veranderd.
Structuurdiagram 5 [GOV 1,test [GOV T,testo [ATR 2,3,tank [ATR 2,de [ATR 3.1,wing ] [PARG 2/1,j,3,((3.1,al)(fuel)ujo) [la] [ATR 4,outer ]]] [ATR 4,ekstera ]]]] ["(1)" ["(1)" [GOV 5,set [GOV 5-u,movi [ADVA 6,on [ADVA 6,Sur [PARG 7,panel [the] [PARG 7,((komand)panelo) [la] [ATR 7/1,control [ATR 8,fueling ]])] [ATR 8,por [PARG 8/1,((fuel)izado) ]]]] [OBJ 10,switch [the] [OBJ 10,(((10.1,aliment)sxalt)ilo) [la] ] [ATR 10.1,power ]] [ADVC 11,to [ADVC 11,al [PARG 12,"ON" ]]]] [PARG 12,"ON" ]]]] ["(1)(a)" ["(1)(a)" [GOV 13,make [GOV 13-u,kontroli [PRED 13/1,sure ] [OBJ 14,that [OBJ 14,ke [SUBC 15,"; -" [SUBC 15,"; -" [SUBC-C 16,"; [SUBC-C 16,"; [SUBC-C 17,be [SUBC-C 17-as,lumi [PRED 17/1,off ] [ADVA 17/1,ne ] [SUBJ 18,light [the] [SUBJ 18,((signal)lampo) [la] [ATR 19,20( = 10.1),power ]]] [ATR 19,de [PARG 20(=10.1},alimento [la] ]]]] [SUBC-C 21:17-18 [SUBC-C 21:17-18 [22,s,22.1:18-19__ [22,j,22.1:18-19 [23,24,valve ' [23,de [PARG 23/1,j,24,valvo [la] [ATR 25,overflow ]]]] [ATR 25,((super)versxa) ]]]]] [SUBC-C 26,be [SUBC-C 26-as,lumi [PRED 26/1,on ] [SUBJ 27:22-25 [SUBJ 27:22-25 [30,shutoff ]]]]]]]] [30,bara ]]]]]]]]] ["(2)" ["(2)" [GOV 31,apply [GOV 31-u,apliki [OBJ 32,pressure ] [OBJ 32,premo ] [ADVC 33,to [ADVC 33,al [PARG 34,system [the] [PARG 34,sistemo [la] [ATR 35,refueling ]]].]] [ATR 35,de [PARG 35/1,((re)(fuel)izado) ]]]]]] ["(2)(a)" ["(2)(a)" [GOV 37:13-17-21-26 [GOV 37:13-17-21-26 [41,come [41-as,((ek)lumi) [PRED 41/1, on ] [SUBJ 42(<22}:22-23 [SUBJ 42(<22}:22-23 [43,for ' [43,de [PARG 44,s,44.1:24 [PARG 44{<23/1},j,44.1:24 [ATR 46,of [ATR 46,de [PARG 47,s,47.1:3 ]]]]]] [PARG 47,j,47.1:3 ]]]]]] [49,stay [49-as,(lum)adi [PRED 49/1,on ] [SUBJ 50(=27):27 ]] [SUBJ 50(=27):27 ]] [54,flow [54-as,flui [ADVA, 54.1,not] [ADVA, 54.1,ne] [SUBJ 55,fuel ] [SUBJ 55,fuelo ] [ADVC 56,into [ADVC 56,alen [PARG 57(=47),s,57.1,tank [the] ]]]]] [PARG 57(=47),j,57.1,((fuel)ujo) [la] ]]]]] ["(3)" ["(3)" [GOV 58:13-14 [GOV 58:13-14 [59,60,is [59,ke [ADVC 60/1,there ] [SUBC 60-as,liki [SUBJ 60/2,leakage [ADVA 60/1,ne] [ATR, 60/3,no] [ATR 60/4,from [PARG 61,s,61.1,line [the] [SUBJ 61,j,61.1,tubo [la] [ATR 62,refueling ] [ATR 62,((re)(fuel)iza) ] [ATR 63,between [ATR 63,inter [PARG 64,and [PARG 64,kaj [PARG-C 65(<47):57.1 [PARG-C 65{<47):57.1 [ATR 66,right-hand J] [ATR 66,dekstra ]] [PARG-C 67(<47):57.1 [PARG-C 67{<47):57.1 [ATR 68,left-hand ]]]]]]]]]] [ATR 68,((mal)dekstra) ]]]]]]]]] ["(4)" ["(4)" [GOV 69:5-6-10-12 [GOV 69:5-6-10-12 [70(10),switch [the] [70(10),(((70.1,bar)sxalt)ilo) [la] [ATR 70.1,shutoff ] [ATR 71,of [ATR 71,de [PARG 72(=65):3 [PARG 72(=65):3 [ATR 74:66 ]]].] [ATR 74:66 ]]]] [76(12),"OPEN" ]]] [76(12),’ΌΡΕΝ" ]]] ["(4)(a)" [H(4)(a)" [GOV 78:13-16-21 [GOV 78:13-16-21 [81,go [81-as,cxesi [PRED 81/1,off ] [INFC 81/l,lumi ] [SUBJ 83{<27}:42.1-44 [SUBJ 83{<27):42.1-44 [85:70 ]]] [85:70 ]]] [90:54-54.1-57 [90:54-54.1-57 [93(57):65 ]]]] [93(57):65]]]] ["(5)” ["(5)" [GOV 95,hold [GOV 95-u,teni [OBJ 96,switch [the] [OBJ 96,((sxalt)ilo) [la] [ATR 97:6 ]] [ATR 97:6 ]] [ADVC 101,to [ADVC 101,cxe [PARG 102,"TEST" ]]]] [PARG 102,"TEST" ]]]] ["(5)(a)" ["(5)(a)" [GOV 103:13-16-21 [GOV 103:13-16-21 [106:41-42 [106:41-42 [107(=83):42.1-44 [the] [107(=83):42.1-44 [109,valve [the] [109,((109.1:70.1Jvalvo) [la] [ATR 109.1:70.1 ] [ATR 110:66]]]] [ATR 110:66]]]] [111,stop [111-as,cxesi [SUBJ 112(=90}, flow [the] [SUBJ 112(=90},((112.1,fueljfluo) [la] ]]]] [ATR 112.1,fuel ]]]]]
In het volgende zal een nadere uitleg worden gegeven van de specifieke codering die in het bovenstaande in de structuurdiagrammen 4 en 5 is toegepast voor het coderen van voorbeeldcorpus 3.
Om te beginnen wordt een vertaaleenheid gekenmerkt door een getal gevolgd door een komma. Het regerende woord van de vertaaleenheid volgt onmiddellijk na de komma. Alle elementen die van dat woord afhangen in de syntactische structuur worden als onderdeel van dezelfde vertaaleenheid beschouwd. In het volgende wordt de afkorting VE gebruikt voor verwijzing naar de diverse vertaaleenheden.
Voorbeeld: [3,tank [3,((3.1,al)(fuel)ujo)] [ATR 3.1,wing ]]
Hier wordt VE 3 (vertaaleenheid 3) gevormd in het Engels door het woord "tank1* en de daarvan afhangende bijvoeglijke bepaling, en in het Esperanto door het woord "alfuelujo" , waarvan de stammorfemen zijn gescheiden door ronde haakjes. VE 3.1 bestaat in het Engels uit het woord "wing" en in het Esperanto uit het morfeem "al” dat deel uitmaakt van het woord "alfuelujo".
Opgemerkt wordt dat getallen met decimalen, zoals "3.1", in het kader van de uitvinding geen bijzondere betekenis hebben. In plaats van "3.1" had bijvoorbeeld ook de codering "4" gebruikt kunnen worden.
Twee vertaaiheden kunnen in de ene taal verschillen, terwijl ze in de andere taal identiek zijn.
Voorbeeld: [GOV 1,test [GOV 1,teSto [ATR 2,3,tank [ATR 2,de [ATR 3.1,wing ]]] [PARG 3,{(3.1,al)(fuel)ujo) [la] ]]]
In het Esperanto wordt VE 2 gevormd door het voorzetsel "de" en de daarvan afhangende elementen. In het Engels, daarentegen, heeft VE 2 geen eigen regeerder maar bestaat uit de Engelstalige helft van VE 3.
Woorden, die zelf geen vertaaleenheid regeren, worden genummerd met het getal dat bij de vertaaleenheid hoort, waarvan ze deel uitmaken, gevolgd door een schuine streep ("duitse komma").
Voorbeeld: [8,Nederland] [8,Netherlands [8/1,the]]
In dit voorbeeld kan het Engelstalig lidwoord "the" niet in het Nederlands worden vertaald. Het lidwoord vormt een onderdeel van de gehele uitdrukking "the Netherlands", die (als VE 8) wel vertaald kan worden.
In het bovenstaande is er al op gewezen dat letterlijke herhaling van vertaaleenheden die herhaald in een tekst voorkomen leidt tot een aanzienlijke redundantie die bij voorkeur vermeden moet worden. In de kennisbankstructuur volgens de voorkeursuitvoeringsvorm worden nu de a.l eerder toegekende identificatiegetallen van vertaaleenheden gebruikt om letterlijke herhalingen te vermijden. Een getal gevolgd door ":" en een ander getal betekent dat de vertaaleenheid, gekenmerkt door het eerste getal, de letterlijke vorm heeft van de vertaaleenheid gekenmerkt door het tweede getal.
Voorbeeld: [ATR 97:6] [ATR 97:6]
Dit voorbeeld betekent dat VE 97 precies de vorm heeft (in beide talen) van de reeds eerder geregistreerde vertaaleenheid 6. Door deze vorm van codering kan het herhaald opnemen van dezelfde structuren worden vermeden. VE 6 bestond in dit geval uit: [ADVA 6,on [ADVA 6,sur [PARG 7,panel [the] [PARG 7,((komand)panelo) [la] [ATR 7/1,control [ATR 8,fueling ]]]] [ATR 8,por [PARG 8/1,((fuel)izado) ]]]]
Van de herhaalde structuur kunnen uiteraard nieuwe elementen afhangen. Deze worden echter altijd als afhankelijk van het hoofdwoord beschouwd.
Voorbeeld: [PARG-C 65:57.1 [PARG-C 65:57.1 [ATR 66,right-hand ]] [ATR 66,dekstra ]]
Dit voorbeeld stelt een nieuwe vertaaleenheid voor, die dezelfde vorm heeft als VE 57.1, met het verschil, dat van het regerende woord van VE 57.1 een nieuwe bijvoeglijke bepaling afhangt.
De vorm van een vertaaleenheid kan ook gedeeltelijk corresponderen met die van een reeds bekende structuur. In dat geval kunnen de afhangende elementen, die nu niet worden herhaald, worden uitgesloten door de desbetreffende vertaaleenheden af te trekken.
Voorbeeld: [GOV 37:13-17-21-26 [GOV 37:13-17-21-26 [41,come [41-as,((ek)lumi) .....] .....] [49,stay [49-as,(lum)adi .....] .....] [54,flow · [54-as,flui .....π .....]]
De reeks van cijfers "37:13-17-21-26" geeft aan dat de nieuwe vertaaleenheid 37 de vorm heeft van VE 13, na aftrek van VE 17, VE 21 en VE 26. De nieuwe afhangende VE's (41, 49 en 54) worden verondersteld de plaats in te nemen van de afgetrokken VE’s, en wel in dezelfde volgorde.
Wanneer het aantal afgetrokken VE's niet gelijk is aan het aantal toegevoegde VE's, dan moeten de aanknopingspunten expliciet worden gemaakt. Dit wordt bereikt door na het nummer van de nieuwe VE, het nummer van de vervangen VE tussen ronde haakjes te zetten.
Voorbeeld: [90:54-54.1-57 [90:54-54.1-57 [93(57):65 ]]]] [93(57):65]]]]
Dit voorbeeld geeft aan, dat VE 90 de vorm heeft van VE 54, na aftrek van de VE's 54.1 en 57, en dat VE 93 als vervanger van VE 57 optreedt. Deze nieuwe VE 93 heeft overigens precies dezelfde vorm als VE 65. Al deze relaties gelden zowel voor de Engelse tekst als voor de tekst in het Esperanto.
In de bovenstaande gedetaileerde beschrijving van een voorkeursuitvoeringsvorm van de codeermethode is voorlopig alleen aandacht besteedt aan codering van de horizontale relaties, d.w.z. de codering van corresponderende vertaaleenheden in de beide teksten van een tweetalig corpus zodanig dat deze corresponderende vertaaleenheden als zodanig herkenbaar en identificeerbaar zijn. Er is echter al op gewezen dat in de tweetalige kennisbank volgens de uitvinding bij voorkeur ook vertikale relaties gecodeerd worden met behulp waarvan de computer een beetje "kennis van de wereld" wordt bijgebracht zodat de computer vertaalproblemen als geïllustreerd aan de hand van voorbeeldcorpus 2 automatisch zonder hulp van een operator kan oplossen. Deze vertikale relaties kunnen gecodeerd worden met behulp van verwijzingen binnen een tekst.
Verwijzingen binnen het corpus hebben betrekking op de betekenis van de vertaaleenheden. Deze verwijzingen hoeven dus niet gelijk te zijn aan herhalingen, hoewel het in sommige gevallen wel om een herhaling van dezelfde vorm kan gaan. Verwijzingen verschijnen in het voorkeurscodeersysteem tussen accolades direkt na het nummer van de desbetreffende vertaaleenheid. In het voorbeeldmateriaal (structuurdiagram 5) zijn twee soorten verwijzingen gebruikt: volledige identiteit en de "lid/verzameling" relatie.
Volledige identiteit van twee concepten, uitgedrukt in de vorm van vertaaleenheden, wordt weergegeven met
Voorbeeld: - [107(=83}:42.1-44 [107(=83}:42.1-44 [109,valve [the] [109,((109.1:70.1)valvo) [la] [ATR 109.1:70.1 ] [ATR 110:66]]]] [ATR 110:66]]]]
Dit voorbeeld is terug te vinden in het laatste gedeelte van structuurdiagram 5. In dit voorbeeld wordt vertaaleenheid 107 ("the light for the right-hand shutoff valve", in het Engels) identiek gesteld met VE 83 ("the light for the shutoff switch of the right-hand outer wing tank"), omdat het twee verschillende benamingen betreft van een en hetzelfde voorwerp, namelijk een bepaald lampje. Deze identificatie betekent niet zonder meer dat de vertalingen van VE 107 en VE 83 verwisselbaar zijn. De ene vertaling kan immers beter passen in een bepaald zinsverband dan de andere. De identificatie is voornamelijk van belang om aan de impliciete kennis, die door de tekst wordt uitgedrukt, een expliciete structuur te geven, waarmee door de computer geredeneerd kan worden.
De "lid/verzameling" relatie wordt aangegeven door "<".
Voorbeeld: [SUBJ 83{<27}:42.1-44 [SUBJ 83{<27}:42.1-44 [85:70 ]]] [85:70 ]]]
Ook dit voorbeeld is afkomstig uit structuurdiagram 5.
De codering "83{<27}" betekent dat het voorwerp, dat met vertaaleenheid 83 wordt aangeduid (in het Engels, "the light for the shutoff switch of the right-hand outer wing tank"), een lid is van de verzameling, die met VE 27 werd aangeduid ("the shutoff valve lights"). Hieruit valt te concluderen, dat ook VE 107, die eerder identiek werd gesteld aan VE 83, een lid is van de verzameling aangeduid met VE 27, met andere woorden, dat ook "the light for the right-hand shutoff valve" een lid is van "the shutoff valve lights", hoewel dit nog niet expliciet was aangegeven. (Uiteraard gelden deze relaties ook wanneer de desbetreffende voorwerpen door de corresponderende termen in het Esperanto worden aangeduid.) Op deze manier kan de structuur van de kennisbank automatisch worden gecontroleerd en verbeterd.
Aan de hand van een verder voorbeeld zal de bovenbeschreven coderingsmethode nogmaals worden geïllustreerd. In dit volgende voorbeeld wordt uitgegaan van een eenvoudig tweetalig tekstcorpus bestaande uit een Nederlandstalige zin en de vertaling daarvan in het Engels:
Voorbeeldcorpus 4 Nederlands:
Als u in Nederland in loondienst wilt gaan werken en onderdaan bent van een land, dat geen lid is van de Europese Economische Gemeenschap, dan zijn de volgende punten voor u van belang.
Engels:
If you plan to seek employment in the Netherlands and are a national of a country outside the European Economic Community, it is in your interest to read the following information.
Worden de beide zinnen uit dit voorbeeldcorpus 4 onderworpen aan een syntactische structuuranalyse met behulp van een parser en wordt de gevonden structuur vervolgens aan de hand van de bovengegeven richtlijnen gecodeerd dan ontstaat de volgende tweetalige kennisbank:
Structuurdiagram 6 [GOV 1,zijn [GOV 1,is [PREA 1/1,voor [SUBJ 1/1, it [PARG 1/2,u ]] [PREA 1/2,in [PREA 1/3,van [PARG 1/3,interest [PARG 1/4,belang ]] [ATR 1/4,your ]]] [TO 1/5,to [INFC 1/6,read [SUBJ 19,punten [OBJ 19,information [ATR 20,de ] [ATR 20,the ] [ATR 21, volgende II [ATR 21, following ]]]] [PROA 2,als [PROA 2, if [LIA 2/1,dan ] [SUBC 3,en [SUBC 3,and [SUBJ 4,u ] [SUBJ 4,you ] [SUBC-C 5,willen [SUBC-C 5,plan [INFC 5/1,gaan [TO 5/1,to [INFC 5/2,werken [INFC 5/2,seek [PREA 5/3,in [OBJ 5/3,employment ]] [PARG 5/4,loondienst ]] [PREA 7,in [PREA 7,in [PARG 8,Nederland ]]]]] [PARG 8,Netherlands [ATR 8/1,the ]]]]]] [SUBC-C 9,zijn [SUBC-C 9,he [PRED 10,onderdaan [PRED 10,national [ATR 10/1,a ] [ATR 11, van [ATR 11,of [PARG 12,land [PARG 12,country [ATR 13,een ] [ATR 13,a ] [ATR 14,is [ATR 14,outside [SUBJ 14/1,dat ] [PRED 14/2,lid [ATR 14/3,geen ] [ATR 14/4,van [PARG 15,Gemeenschap [PARG 15, Community [ATR 16,de ] [ATR 16,the ] [ATR 17,Europese ] [ATR 17,European ] [ATR 18,Economische [ATR 18,Economic 3Π]]]]]]] ]]]]]]]]]]]
Ook deze structuren zouden gevisualiseerd kunnen worden met behulp van boomstructuren van het type, geïllustreerd in de figuren 1 en 2. Er zijn echter nog vele andere mogelijkheden en een daarvan is gekozen om de structuur uit diagram 5 in de figuren 6 en 7 grafisch weer te geven. In beide figuren wordt gebruik gemaakt van een wijze van presenteren die veel gelijkenis vertoond met de wijze waarop relaties tussen wiskundige verzamelingen worden weergegeven. Elke volledige zin (elke volledige relatieverzameling) wordt gepresenteerd in de figuren 6 en 7 binnen een cirkel a1 resp. b1. De voorwaarde die in de beide zinnen aanwezig is en wordt begrensd door "als" en "dan" leidt in de structurele analyse tot een eerste grove tweedeling van de zinnen hetgeen duidelijk blijkt uit de cirkels a2 resp. b2. en a3 resp. b3. De voorwaarde zelf valt weer uiteen in twee delen hetgeen uit de figuren 6 en 7 direct blijkt. De genoemde delen worden omgeven door de cirkels a4 en a5 resp. b4 en b5 en deze delen zijn gekoppeld via het woord "en" resp. "and" geplaatst binnen de cirkel a3 resp. b3 maar buiten de cirkels a4, a5 resp. b4, b5.
Ook zonder verdere gedetailleerde uitleg zal het duidelijk zijn dat de informatie in de figuren 6 en 7 in feite correspondeert met de informatie die uit een boomstructuur kan worden afgeleid. Er wordt van uitgegaan dat de deskundige op dit terrein geen verdere uitleg nodig heeft.
Het zal duidelijk zijn dat de voordelen die de tweetalige kennisbank volgens de uitvinding aan de gebruiker biedt groter worden naarmate de omvang van de kennisbank toeneemt, met andere woorden, naar mate er meer tekst aan het corpus wordt toegevoegd. De bedoelde voordelen kunnen als volgt worden samengevat: 1) De tweetalige kennisbank volgens de uitvinding biedt de mogelijkheid om diverse soorten kennis - lexicale kennis, concept specifieke kennis, algemene kennis (kennis van de wereld) en encyclopedische kennis tesamen met vertaalexpertise te verzamelen en te integreren op een zodanige wijze dat deze kennis voor een computer begrijpelijk en toegankelijk wordt.
2) De kennisbank volgens de uitvinding verschaft aan de computer een "zelflerend" karakter. Bij het opbouwen van een tweetalige kennisbank volgens de uitvinding zal aanvankelijk de hulp van een menselijke vertaler onontbeerlijk zijn maar naarmate de databank in omvang groeit is het voor de computer mogelijk om steeds meer vertaaleenheden in de al aanwezige tekst te vinden inclusief de bijbehorende vertaling en inclusief informatie omtrent de context van de betreffende vertaaleenheid. Dat houdt in dat er door de computer steeds minder vragen aan de operator gesteld behoeven te worden naarmate de omvang van de kennisbank toeneemt.
3) Door gebruik te maken van verwijzingen naar al eerder gecodeerde vertaaleenheden wordt een aanmerkelijke comprimering van de inhoud en daarmee vam de benodigde geheugenruimte voor opslag van de kennisbank bereikt, zonder dat er aan de kennis-inhoud van de databank afbreuk wordt gedaan.
4) Door bij elk tekstdeel dat aan het corpus wordt toegevoegd tevens informatie toe te voegen omtrent de datum waarop het betreffende tekstdeel werd toegevoegd is het mogelijk om "oude" kennis geleidelijk te vervangen door "nieuwe" kennis. Elke taal bevat woorden die langzamerhand in onbruik raken terwijl nieuwe woorden worden toegevoegd. Zeker op technisch gebied worden dagelijks nieuwe woorden en uitdrukkingen toegevoegd of worden woorden die een bepaalde periode algemeen gebruikelijk waren binnen een kort tijdsbestek vervangen door andere woorden.
5) Uit een totale kennisbank kunnen eenvoudig teksten worden geselecteerd die betrekking hebben op een bepaald specifiek gebied door gebruik te maken van sleutelwoorden of sleuteluitdrukkingen. Refererend aan de bovenbeschreven voorbeelden kan bijvoorbeeld het concept "outer wing tank test" worden gebruikt als sleutel om uit een totale tweetalige kennisbank die teksten te selecteren die op dit specifieke technische gebied (vlietuigvleugels) betrekking hebben. Teksten die betrekking hebben op vogels of andere vliegende dieren en teksten die betrekking hebben op piano's en dergelijke zullen dan buiten beschouwing blijven. Met andere woorden, de tweetalige kennisbank kan op deze wijze worden gebruikt om bij het optreden van woorden met meerdere betekenissen toch die betekenis te kiezen die, gezien het onderwerp van de tekst waar het betreffende woord in voorkomt, het meest waarschijnlijk zal zijn.
6) De tweetalige kennisbank volgens de uitvinding werkt in principe in twee richtingen. Wordt uitgegaan van het bovenstaande voorbeeldcorpus 3 dan kan aan de hand van een Engelstalige vertaaleenheid gezocht worden naar een passende Esperanto vertaling, maar evengoed kan met een Esperanto vertaaleenheid gezocht worden naar een passende Engelse vertaling.
VERKLARING VAN DE SYNTACTISCHE LABELS IN DE ONTLEEDSTRUCTUREN
ADVA bijwoordelijk adjunct ADVC bijwoordelijk complement ATR bijvoeglijke bepaling GOV regeerder INFC infinitiefcomplement OBJ lijdend voorwerp PARG complement van een voorzetsel PARG-C gecoördineerd complement van een voorzetsel PRED predicaat SUBC bijzin SUBC-C gecoördineerde bijzin SUBJ onderwerp PROA bi j zinadjunct LIA zinsadjunct PREA voorzetseladjunct

Claims (8)

1. Tweetalige kennisbank omvattende: - een tweetalig tekstcorpus bestaande uit een lopende tekst of teksten . in een eerste taal en de daarmee corresponderende vertaling in een tweede taal, - een syntactische structuur van de tekst in de eerste taal waarmee alle syntactische relaties tussen de vertaaleenheden van de tekst in de eerste taal worden weergegeven, - een syntactische structuur van de vertaling in de tweede taal, waarmee alle syntactische relaties tussen de vertaaleenheden van de vertaling in de tweede taal worden weergegeven, - waarbij in de beide syntactische structuren de vertaaleenheden door middel van een code zijn geïdentificeerd zodanig dat een vertaaleenheid in de tekst in de ene taal gerelateerd is aan de daarmee corresponderende vertaaleenheid in de vertaling in de tweede taal.
2. Tweetalige kennisbank volgens conclusie 1, met het kenmerk, dat in beide syntactische structuren vertaaleenheden die al eerder in het tekstcorpus zijn opgetreden met eenzelfde code zijn geïdentificeerd.
3. Tweetalige kennisbank volgens conclusie 1 of 2, met het kenmerk, dat vertaaleenheden die op verschillende plaatsen in het tekstcorpus optreden maar onderling in betekenis aan elkaar zijn gerelateerd via een desbetreffende code als zodanig zijn geïdent i f i ceerd.
4. Kennisbank volgens een der voorgaande conclusies, met het kenmerk, dat het tekstcorpus met de bijbehorende syntactische structuren in een voor een computer leesbare vorm op een geheugenmedium is opgeslagen.
5. Kennisbank volgens een der voorgaande conclusies, met het kenmerk, dat een der talen Esperanto is.
6. Werkwijze voor het opbouwen van een kennisbank volgens een der voorgaande conclusies, met het kenmerk, dat tijdens het invoeren van een aanvullende tekst in de ene taal de vertaaleenheden daarvan door de computer worden vergeleken met de vertaaleenheden binnen het reeds aanwezige tekstcorpus en dat, indien geen overeenstemming met een reeds aanwezige vertaaleenheid wordt geconstateerd, de computer hiervan mededeling doet aan de operator via daartoe geschikte indicatiemiddelen.
7. Werkwijze volgens conclusie 5, met het kenmerk , dat de operator de mogelijkheid heeft om via geschikte invoermiddelen aan de computer aan te geven dat er een bepaalde relatie bestaat tussen twee vertaaleenheden die zich op willekeurige plaatsen in het corpus kunnen bevinden.
8. Werkwijze volgens conclusie 6, met het kenmerk, dat de operator verder de mogelijkheid heeft om de aard van de genoemde relatie te specificeren.
NL8900600A 1989-03-13 1989-03-13 Tweetalige kennisbank. NL8900600A (nl)

Priority Applications (5)

Application Number Priority Date Filing Date Title
NL8900600A NL8900600A (nl) 1989-03-13 1989-03-13 Tweetalige kennisbank.
EP90200582A EP0387960A1 (en) 1989-03-13 1990-03-09 Bilingual knowledge bank
CA002011976A CA2011976A1 (en) 1989-03-13 1990-03-12 Bilingual knowledge bank
JP2504993A JPH04506718A (ja) 1989-03-13 1990-03-13 2国語知識バンク
PCT/NL1990/000029 WO1990010911A1 (en) 1989-03-13 1990-03-13 Bilingual knowledge bank

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
NL8900600 1989-03-13
NL8900600A NL8900600A (nl) 1989-03-13 1989-03-13 Tweetalige kennisbank.

Publications (1)

Publication Number Publication Date
NL8900600A true NL8900600A (nl) 1990-10-01

Family

ID=19854278

Family Applications (1)

Application Number Title Priority Date Filing Date
NL8900600A NL8900600A (nl) 1989-03-13 1989-03-13 Tweetalige kennisbank.

Country Status (5)

Country Link
EP (1) EP0387960A1 (nl)
JP (1) JPH04506718A (nl)
CA (1) CA2011976A1 (nl)
NL (1) NL8900600A (nl)
WO (1) WO1990010911A1 (nl)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
US6473729B1 (en) 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US9044228B2 (en) 2010-09-30 2015-06-02 Ethicon Endo-Surgery, Inc. Fastener system comprising a plurality of fastener cartridges
CN110597790B (zh) * 2019-09-27 2023-05-02 东方航空技术有限公司 一种民用航空器维修中英文翻译数据库建立方法及数据卡

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2005514A4 (es) * 1987-01-05 1989-03-16 Systran S A Metodo para traduccion de lenguajes que utiliza un sistema de ordenador digital programado.
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages

Also Published As

Publication number Publication date
WO1990010911A1 (en) 1990-09-20
EP0387960A1 (en) 1990-09-19
CA2011976A1 (en) 1990-09-13
JPH04506718A (ja) 1992-11-19

Similar Documents

Publication Publication Date Title
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
Guo Critical tokenization and its properties
Sarveswaran et al. Thamizhi Morph: A morphological parser for the Tamil language
NL8900600A (nl) Tweetalige kennisbank.
Ivanović et al. Corpus-based bilingual terminology extraction in the power engineering domain
Knight et al. Integrating knowledge bases and statistics in MT
Jacquemin et al. Enriching a text by semantic disambiguation for information extraction
Sadler The Bilingual Knowledge Bank (BKB)
Cmejrek et al. Prague Czech-English Dependency Treebank: Any hopes for a common annotation scheme?
Čmejrek Using Dependency Tree Structure for Czech-English Machine Translation
Celano Lemmatization and morphological analysis for the Latin Dependency Treebank
Kuiper Text Analysis Glossary
Goh et al. Automatic ontology construction in fiction-based domain
Léon Automatic documentation and automatic discourse analysis: Specificity of Harris’s Reception in France
Hays ANNOTATED BIBLIOGRAPHY OF RAND PUBLICATIONS IN COMPUTATIONAL LINGUISTICS.
Beliaeva Machine translation versus dictionary and text structure
Hutchins Methods of linguistic analysis in machine translation
Wehrli Collocations in Parsing and Translation
Saluja et al. Paraphrase-Supervised Models of Compositionality
Rauh et al. Toward a Multilingual Connective Database: Aligning German/French Concessive Connectives
Bilgin Deep learning-based dependency parsing for Turkish
Prince Syntactic and Semantic Impact of Prepositions in Machine Translation: An Empirical Study of French-English Translation of Prepositions ‘à’,‘de’and ‘en’
Ozates DEEP LEARNING-BASED DEPENDENCY PARSING FOR TURKISH
Bahadur Multilingual Machine Translation Generic Framework with Sanskrit Language as Interlingua
Mohamed et al. A Framework for Malay Computational Grammar Formalism based-on Enhanced Pola Grammar

Legal Events

Date Code Title Description
A1B A search report has been drawn up
BV The patent application has lapsed