NO319431B1 - Fremgangsmate og anordning for oversettelse av informasjon - Google Patents

Fremgangsmate og anordning for oversettelse av informasjon Download PDF

Info

Publication number
NO319431B1
NO319431B1 NO20005930A NO20005930A NO319431B1 NO 319431 B1 NO319431 B1 NO 319431B1 NO 20005930 A NO20005930 A NO 20005930A NO 20005930 A NO20005930 A NO 20005930A NO 319431 B1 NO319431 B1 NO 319431B1
Authority
NO
Norway
Prior art keywords
language
knowledge base
segment
equipment
character string
Prior art date
Application number
NO20005930A
Other languages
English (en)
Other versions
NO20005930L (no
NO20005930D0 (no
Inventor
Ari Becks
Simo Sakari Heikkila
Original Assignee
Master S Innovations Ltd Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Master S Innovations Ltd Oy filed Critical Master S Innovations Ltd Oy
Publication of NO20005930D0 publication Critical patent/NO20005930D0/no
Publication of NO20005930L publication Critical patent/NO20005930L/no
Publication of NO319431B1 publication Critical patent/NO319431B1/no

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Exchange Systems With Centralized Control (AREA)

Description

Foreliggende oppfinnelse gjelder en fremgangsmåte og anordning for maskinell oversettelse av informasjon som foreligger i form av en tegnstreng i et første språk til en tegnstreng i et andre språk. Oppfinnelsen er særlig åndelig for maskinell oversettelse av tekstinformasjon.
Det er tidligere kjent metoder for språklig basert, maskinell oversettelse av tekstinformasjon. Med disse metoder blir hvert språks syntaks nøyaktig programmert, slik at hvert språk vil fordre en egen programalgoritme. For å lagre vokabularer i forskjellige språk benyttes en sentralisert oversettelseshukommelse med stor kapasitet. Den europeiske unions "EuroTra"-oversettelsessystem kan nevnes som et eksempel på en sådan metode. Sådanne tidligere kjente metoder har en rekke ulemper. Nøyaktig syntaks-programmering fordrer høyst omfattende programmeringsoperasjoner. En sådan syntaksalgoritme såvel som den nødvendige oversettelseshukommelse fordrer stor hukommelsesplass i databasen. Siden en oversettelsesmetode som arbeider på denne måte er kompleks, fordrer oversettelse innen rimelig tid en ekstremt kraftig datamaskin. På grunn av disse ufullkommenheter er utstyr egnet for oversettelse dyrt. Kjente metoder innebærer også den ulempe at oppdatering av oversettelsesalgoritmen hver gang fordrer programmering og oppdatering av datamaskinprogrammet
Formålet for foreliggende oppfinne er å fremskaffe en løsning for oversettelse av informasjon, som er i stand til å overvinne de ovenfor beskrevne uleiligheter ved tidligere kjent teknikk.
En idé ved oppfinnelsen er å dele opp den informasjon som skal oversettes i strukturelle elementer for så å utføre oversettelse av de strukturelle segmenter. Oversettelsen utføres på grunnlag av modellsegmenter og regler lagret i en kunnskapsbase. Mengden av data som inneholdes i kunnskapsbasen blir på fordelaktig måte økt, ved at under oversettelsesprosessen blir brukeren, når det er nødvendig, spurt om å angi en oversettelse av nye strukturelle segmenter over et brukergrensesnitt, og disse oversettelser blir så lagret som modellsegmenter i kunnskapsbasen. På grunn av den løsning som fremskaffes ved oppfinnelsen fordrer det oversettende utstyr mindre hukommelseskapasitet og lavere prosessorhastighet. Dessuten fordres det langt mindre programmering og utstyrets operasjoner kan utvikles uten programoppdatering.
I et første aspekt fremskaffer således foreliggende oppfinnelse en fremgangsmåte ved maskinell oversettelse av informasjon som foreligger i form av en tegnstreng i et første språk til en tegnstreng i et andre språk, og som omfatter at: - modellsegmenter i form av tegnstrenger i det første språk og i logisk sammenheng med disse, modellsegmenter i form av tegnstrenger i det andre språk, lagres i en
kunnskapsbase,
- et strukturelt segment i tegnstrengen i det første språk identifiseres ifølge en første regel, - det identifiserte strukturelle segment sammenlignes med modellsegmenter i form av tegnstrenger i det første språk lagret i samsvar med en andre regel,
- på grunnlag av denne sammenligning søkes det etter å velge et modellsegment,
- en modell, dvs. et ekvivalent segment, i form av en tegnstreng i det andre språk logisk knyttet til det valgte modellsegment leses, og - det strukturelle segment oversettes til et oversettelsessegment i form av en tegnstreng i det andre språk på grunnlag av det ekvivalente segment og en tredje regel.
På denne bakgrunn av prinsipielt kjent teknikk, særlig fra EP-publikasjon nr. 0 805 403 og nr. 0 262 938, har da fremgangsmåten i henhold til oppfinnelsen som særtrekk at den omfatter at et mellomliggende ord og/eller en endelse identifiseres og nevnte første regel i hovedsak baseres på identifisering av nevnte mellomliggende ord og/eller endelse.
I et andre aspekt fremskaffer oppfinnelsen en anordning for oversettelse av informasjon som foreligger i form av en tegnstreng i et første språk til en tegnstreng i et andre språk, og som omfatter;
- kunnskapsbaseutstyr for å lagre modellsegmenter i form av tegnstrenger i det første språk og i logisk sammenheng med disse, ekvivalente segmenter i form av tegnstrenger i det andre språk og for å lagre en første, andre og tredje regel, - utstyr for å identifisere strukturelle segmenter i informasjonen gitt i form av en tegnstreng i det første språk ifølge en første regel, - utstyr for å sammenligne det identifiserte strukturelle segment med modellsegmenter lagret i form av tegnstrenger i det første språk ifølge en andre regel,
- utstyr for å velge ut et modellsegment på grunnlag av nevnte sammenligning,
- utstyr for å lese en modell, dvs. et ekvivalent segment, i form av en tegnstreng i det andre språk logisk knyttet til det utvalgte modellsegment i kunnskapsbaseutstyret, og - utstyr for å oversette det strukturelle segment til et oversettelsessegment i form av en tegnstreng i det andre språk på grunnlag av det ekvivalente segment og en tredje regel, idet nevnte oversettelsessegment representerer informasjonen som skal gis i det andre språk.
På denne bakgrunn av prinsipielt kjent teknikk, særlig fra EP-publikasjonene nevnt
ovenfor, har da anordningen i henhold til oppfinnelsen som særtrekk at nevnte utstyr for å identifisere det strukturelle segment i nevnte informasjon gitt i form av en tegnstreng i det første språk, omfatter utstyr for å identifisere et mellomliggende ord og/eller endelse, idet den første regel i hovedsak er basert på nevnte identifisering av det mellomliggende ord og/eller endelse.
Foretrukne utførelsesformer av oppfinnelsen er angitt i de uselvstendige patentkrav.
Nedenfor beskrives oppfinnelsen mer detaljert ved hjelp av de vedføyde tegninger, på hvilke: Fig. 1 er et flytskjema for en fremgangsmåte ved oversettelse av informasjon i henhold
til oppfinnelsen,
fig 2 er et blokkskjema for en anordning for oversettelse av informasjon i henhold til
oppfinnelsen,
fig. 3 viser tekstinformasjon delt opp i strukturelle segmenter,
fig. 4 anskueliggjør en oversettelsesprosess for et strukturelt segment med et nært
modellsegment som opptrer i kunnskapsbasen, og
fig. 5 anskueliggjør en oversettelsesprosess for et strukturelt segment når intet nært
modellsegment opptrer i kunnskapsbasen.
Fig. 1 anskueliggjør en fremgangsmåte ved oversettelse av informasjon i henhold til oppfinnelsen. Først blir den informasjon som skal oversettes, lest i blokk 101 og delt opp i strukturelle segmenter i samsvar med en første regel i blokk 102. Deretter leses det første strukturelle segment av den ikke oversatte informasjon i blokk 103. Det leste strukturelle segment sammenlignes med modellsegmentene lagret i kunnskapsbasen i blokkene 104 og 110. Sammenligningen utføres da i samsvar med en andre regel som avgjør om et modellsegment er nær det strukturelle segment som skal oversettes. Dersom et modellsegment som er nær relatert dette bestemte strukturelle segment finnes i kunnskapsbasen, blir et modellsegment, dvs. et ekvivalent segment, i det andre språk, som er logisk knyttet til den nære modell, lest i kunnskapsbasen i blokk 121. Etter dette blir et oversettelsessegment som er oversatt til det andre språk dannet ut fra det strukturelle segment som skal oversettes på grunnlag av det leste ekvivalente segment ifølge en tredje regel i blokk 122. Deretter kontrolleres det i blokk 123 om det fortsatt finnes ikke oversatte strukturelle segmenter. Dersom det fortsatt finnes strukturelle segmenter som ikke er oversatt, går prosessen tilbake til blokk 103 hvor det neste, ikke oversatte strukturelle segment leses for oversettelse. Dersom det i blokk 123 ikke finnes noen flere strukturelle segmenter som ikke er oversatt, blir de oversatte segmenter ordnet i setninger i samsvar med en fjerde regel og den oversatte informasjon blir så lagret. Den lagrede informasjon kan nå vises frem, f.eks. på en skjerm, eller skrives ut, f.eks. på papir eller på en lagringsplate, i blokk 124.
Dersom intet modellsegment nær det strukturelle segment finnes i kunnskapsbasen i blokk 110, blir dette bestemte strukturelle segment vist frem over et brukergrensesnittutstyr, dvs. en fremviserskjerm, i blokk 131. Brukeren tilfører da oversettelsen av det strukturelle segment, dvs. det ekvivalente segment, i blokk 132. Det strukturelle segment og det ekvivalente segment lagres for fremtidig bruk som modellsegmenter i kunnskapsbasen i blokkene 133 og 134. Deretter fortsetter prosessen til blokk 123 for å fortsette som forklart ovenfor. I dette tilfelle er det ekvivalente segment vanligvis direkte et oversettelsessegment dersom brukeren er blitt spurt om å angi oversettelsen av det strukturelle segment i form av den opprinnelige informasjon. Således er operasjonen i blokken 122 ikke uunnværlig i dette tilfelle.
Nevnte første regel som de strukturelle segmenter blir identifisert ved hjelp av, kan f.eks. baseres på identifisering av "mellomliggende ord" eller kasus. Mellomliggende ord er f.eks. preposisjoner og artikler som vanligvis danner standard tegnstrenger. De kan således identifiseres ved ganske enkelt å sammenligne de tegnstrenger som danner hvert ord med f.eks. de ovenfor kjente tegnstrenger som danner et mellomliggende ord. Identifisering av kasus kan utføres f.eks. ved hjelp av endelser, dvs. ved å sammenligne de siste bokstaver i ordene med kjente endelser. Slik det er velkjent kan tegnstrenger som danner ord skilles fra hverandre ved hjelp av skilletegn. Siden et strukturelt segment med fordel kan omfatte flere ord, kan det også inneholde et eller flere skilletegn.
I sin enkleste versjon kan nevnte andre regel som et strukturelt segment sammenlignes med modellsegmentene ved hjelp av, innebære likhet. I dette tilfelle søkes det i kunnskapsbasen etter nøyaktig det samme modellsegment som det foreliggende strukturelle segment som skal oversettes. I betraktning av den plass som fordres for kunnskapsbasen i hukommelsen foretrekkes det imidlertid ikke å lagre de forskjellige kasus av f.eks. et modellsegment hver for seg i kunnskapsbasen, men også å identifisere et modellsegment som har et forskjellig kasus ifølge den andre regel. I denne situasjon bør det ekvivalente segment som er logisk knyttet til modellsegmentet også bringes til det kasus som behøves i den hensikt å generere et oversettelsessegment. Dette gjøres ifølge den tredje regel som følgelig dekker informasjon om det aktuelle språks kasuser.
I mange tilfeller innebærer den fjerde regel som oversettelsessegmentene ordnes i oversatte setninger ved hjelp av, at de oversatte segmenter ordnes i samme rekkefølge som de strukturelle segmenter som skal oversettes, hadde i det første språk. Denne rekkefølge kan imidlertid være språkavhengig og derved blir den fjerde regel språkspesifikk.
Under lagringen av modellsegmenter kan med fordel også en typeidentifikator for modellsegmentet lagres. I dette tilfelle blir typeidentifikatoren lagret i logisk sammenheng med hvert modellsegment. Dersom typeidentifikatorer anvendes, kan forskjellige regler gjelde for identifisering og oversettelse av et strukturelt segment på grunnlag av modellsegmentet, avhengig av det strukturelle segments type. Typer av strukturelle segmenter er f.eks. objektet for en handling, et egennavn, et verb, et stedsord, et adjektiv eller et idiom. Dersom typeidentifikatorer anvendes, blir brukeren også spurt om å angi den type som gjelder for det bestemte strukturelle segment og dets oversettelse, når det strukturelle segment oversettes.
En idé med oppfinnelsen er å oppdatere kunnskapsbasen i den interaktivt drevne oversettelsesprosess. Det skal bemerkes at oppdateringen av kunnskapsbasen nødvendig-vis ikke er begrenset til lagring av nye modell- eller ekvivalentsegmenter, men også reglene nevnt ovenfor kan med fordel oppdateres. Oppdateringen utføres da f.eks. i sammenheng med oversettelse av et nytt strukturelt segment tilført av brukeren, ved å identifisere regelmessigheten ved den tilførte oversettelse.
Oversettelse av et stykke informasjon fra et første språk til et andre språk er blitt beskrevet ovenfor. Tidligere oppdateringer av kunnskapsbasen blir på fordelaktig måte utnyttet under oversettelse av påfølgende stykker av informasjon. En prosess i henhold til oppfinnelsen for å oversette påfølgende første og andre stykker av informasjon kan således f.eks. omfatte de etterfølgende trinn:
- et første stykke informasjon gitt i form av en tegnstreng i det første språk leses,
- oversettelse av den første informasjon gitt i form av en tegnstreng i nevnte første språk utføres på grunnlag av data i kunnskapsbasen til et første stykke informasjon gitt i form av en tegnstreng i det andre språk i den grad dette er mulig ut fra dataene
tilgjengelig i kunnskapsbasen,
- tilleggsdata som fordres for å fullføre oversettelsen av den første informasjon gitt i form av en tegnstreng i det første språk til den første informasjon gitt i form av en
tegnstreng i det andre språk bestemmes,
- nevnte tilleggsdata mates inn i kunnskapsbasen i den hensikt å oppdatere kunnskapsbasen, - oversettelsen av den første informasjon gitt i form av en tegnstreng i det første språk til den første informasjon gitt i form av en tegnstreng i det andre språk gjøres ferdig,
- nevnte første informasjon gitt i form av en tegnstreng i det andre språk lagres,
- den andre informasjon gitt i form av en tegnstreng i det første språk lagres,
- oversettelse av den andre informasjon gitt i form av en tegnstreng i det første språk utføres på grunnlag av nevnte oppdaterte data i kunnskapsbasen til den andre informasjon gitt i form av en tegnstreng i det andre språk.
Fig. 2 er et blokkskjema som viser arrangementet for en anordning i henhold til oppfinnelsen for oversettelse av informasjon. Anordningen omfatter en platestasjon 21, en fremviserskjerm 22 og et tastatur 23 som grensesnittutstyr, koblet til en prosessor 20. Ved hjelp av platestasjonen kan informasjon som skal oversettes, mates fra platen til anordningen og den oversatte informasjon kan lagres på platen for bruk i anordningen. Den aktuelle informasjon kan også overføres mellom anordningen og annet databe-handlingsutstyr over en buss l/O. Fremviserskjermen 22 kan brukes for å vise frem sådanne strukturelle segmenter for brukeren, som det ikke er funnet noen oversettelse av i kunnskapsbasen. Brukeren kan innføre en oversettelse av et sådant strukturelt segment ved å bruke tastaturet 23. Grensesnittutstyret nevnt ovenfor kan også utnyttes under revidering og korrigering av oversatt informasjon.
Anordningen vist i fig. 2 har også en elektrisk hukommelse 24 for midlertidig lagring av blant annet strukturelle segmenter og oversettelsessegmenter. I tillegg har anordningen et masselager 25 for lagring av kunnskapsbasen, dvs. modellsegmenter, typeidentifikatorer og regler, såvel som programmer. For eksempel kan en magnetplatestasjon eller en optisk platestasjon utnyttes som masselager. De ovenfor nevnte komponenter kan fremskaffes ved å få tidligere kjente datamaskinkomponenter til å arbeide i samsvar med oppfinnelsen ved å utnytte spesiell programvare. Tegnstrenger og andre data blir med fordel overført som elektriske signaler mellom komponentene.
Realiseringen av oppfinnelsen er på ingen måte begrenset til de ovenfor beskrevne komponenter, tvert imot kan en anordning i henhold til oppfinnelsen ha mange ulike konfigurasjoner som denne beskrivelse gjør en fagmann på området i stand til å konstruere. Fig, 3 viser en setning på engelsk som er delt opp i strukturelle segmenter 31, 32, 33 og 34. Som figuren viser omfatter et strukturelt segment typisk påfølgende nær relaterte ord i en setning. Et strukturelt segment inneholder således ofte også et skilletegn som skiller ordene. Fig. 4 anskueliggjør oversettelse av det første strukturelle segment som opptrer i setningen i fig. 3, ved hjelp av en løsning i henhold til oppfinnelsen. I figuren blir det strukturelle segment 42 som skal oversettes, lagret i en oversettelseshukommelse 41 og dette strukturelle segment sammenlignes med modellsegmentene lagret i kunnskapsbasen 44. I det tilfelle som er vist i fig. 4 er dette bestemte strukturelle segment tidligere blitt lagret i kunnskapsbasen som modellsegment 45, som finnes ved sammenligningen. Dersom den foreliggende informasjon f.eks. skal oversettes til finsk, leses i kunnskapsbasen det finske modellsegment 46 som er logisk knyttet til det engelske modellsegment nevnt ovenfor. I fig, 4 angir den doble linje som forbinder modellsegmentene 45 og 46 en logisk forbindelse. Når det finske modellsegment er blitt lest, lagres det som et oversettelsessegment i oversettelseshukommelsen. Fig. 5 anskueliggjør oversettelse av det andre strukturelle segment som er vist i fig. 3, ved hjelp av en løsning i henhold til oppfinnelsen. I dette tilfelle er intet engelsk strukturelt segment som skal oversettes og heller ikke noe finsk ekvivalent segment blitt tidligere lagret som et modellsegment i kunnskapsbasen. I dette tilfelle blir det strukturelle segment 52 som skal oversettes og som er lagret i oversettelseshukommelsen 51, sammen-lignet med modellsegmentene i kunnskapsbasen, og dersom det ønskede ekvivalente segment ikke finnes i kunnskapsbasen, blir det strukturelle segment 58 som skal oversettes vist på fremviserskjermen via brukergrensesnittet 57. Etter dette tilfører brukeren oversettelsen 59 av det strukturelle segment 58 over grensesnittet til kunnskapsbasen 54. På denne måte blir et engelsk og et finsk modellsegment lagret i logisk sammenheng i kunnskapsbasen. Deretter blir den finske oversettelse av det strukturelle segment lagret som et oversettelsessegment 53 i oversettelseshukommelsen 51.
Skulle de strukturelle segmenter som er nevnt ovenfor på ny opptre i informasjon som tilføres, vil tilhørende modell- og ekvivalentsegmenter bli funnet i kunnskapsbasen og det vil ikke være behov for å be brukeren om å gjenta dem. Dersom den etterfølgende innførte informasjon inneholder setningen "we have expanded our operation largely in Finland", vil imidlertid "largely" være et nytt strukturelt segment. Dersom intet nært modellsegment tidligere er blitt lagret i kunnskapsbasen, blir brukeren bedt om å gi en oversettelse av det, og "largely" lagres som et modellsegment i kunnskapsbasen og i logisk sammenheng med dette også den innførte oversettelse gitt av brukeren.
Det skal bemerkes at utstyrets virkemåte kan ordnes slik at oversettelsesprosessen først utføres maskinelt for hele informasjonen i den grad det er muiig med modellsegmentene lagret i kunnskapsbasen. Deretter kan brukeren mate de nødvendige oversettelser av nye strukturelle segmenter inn i kunnskapsbasen. Et sådant arrangement har fordelen av at brukeren ikke behøver å sitte ved datamaskinen for å vente på at oversettelsesprosessen skal fullføres, men kan oppdatere kunnskapsbasen med en eneste innmating på et hvilket som helst passende tidspunkt.
Modellsegmentene kan lagres i kunnskapsbasen i form av par av segmenter, idet spesifikke par av modellsegmenter lagres for hvert språkpar. En annen måte å gå frem på er logisk å forbinde modellsegmenter i flere språk, slik at de samme modellsegmenter kan brukes som sådan under oversettelse av diverse språkpar. I dette tilfelle kan modellsegmenter for hvert språk mates som en innmating til kunnskapsbasen hver gang de opptrer for første gang i vedkommende språk. Når tilført informasjon da mates inn i kunnskapsbasen under oversettelse av et språkpar, vil informasjonen som inneholdes i kunnskapsbasen automatisk øke også i de andre språkpar.
I prinsippet er løsningen i henhold til oppfinnelsen ikke språkspesifikk, men den kan anvendes på ethvert språkpar. Realiseringen av oppfinnelsen er heller ikke begrenset til "naturlige" språk som brukes for ordinær kommunikasjon, siden den kan utnyttes for å oversette ethvert språk bestående av tegnstrenger til et andre språk bestående av tegnstrenger. Programmeringsspråk og datautvekslingsprotokoller kan nevnes som eksempler på sådanne øvrige språk.
Løsningen i henhold til foreliggende oppfinnelse har mange fordeler i forhold til tidligere kjent teknikk. For å drive den fordres det ytterst lite språkspesifikk kunnskap for inn-deling av språket i strukturelle segmenter. En andre fordel ved løsningen består i at ytterligere informasjon samles inn i hukommelsen under prosessen, slik at anordningen "lærer" nye par av modellsegmenter og regler. Med en likefrem konfigurering og en liten mengde programmering og oppdatering er det således mulig å fremskaffe et effektivt middel for maskinell oversettelse.
Løsningen i henhold til oppfinnelsen er godt tilpasset for bruk i situasjoner hvor et arrangement i henhold til oppfinnelsen utnyttes for å tilfredsstille flere brukeres behov. I dette tilfelle omfatter arrangementet fortrinnsvis flere grensesnitt som kan kommunisere med kunnskapsbasen f.eks. over et datatransmisjonsnett. Kunnskapsbasen kan da fortrinnsvis være desentralisert på en slik måte at den første, dvs. hoveddatabasen, kan brukes av en gitt brukergruppe, mens en andre, dvs. en under- eller delkunnskapsbase, kan brukes av bare noe få i en sådan gitt brukergruppe. Dette gjør det mulig for forskjellige brukere å oppdatere sin egen kunnskapsbase, f.eks. med spesielle vokabularer eller uttrykk, uten at sådan kunnskap som er egnet for spesielle formål blir brukt av andre brukere.
Med en sådan desentralisert kunnskapsbase kan oppdatering av den første base, dvs. hoveddatabasen, utføres fra de sekundære baser, dvs. underkunnskapsbasene. Data lagret i de andre kunnskapsbaser blir da overført til den første kunnskapsbase ut fra forutbestemte kriterier. Et sådant kriterium kan være forekomsten av spesifikke data. Utveksling av data mellom kunnskapsbasene kan også finnes sted med en felles databaseadministrator for hovedkunnskapsbasen, som kontrollerer og godkjenner de enkelte data som skal overføres.
Et antall utførelser av løsningen i henhold til oppfinnelsen er blitt beskrevet ovenfor. Oppfinnelsens prinsipp kan selvsagt varieres innenfor de vedføyde patentkravs beskyttelsesomfang, f.eks. med hensyn til detaljer ved utførelsen og anvendelses-områder.

Claims (15)

1. Fremgangsmåte ved maskinell oversettelse av informasjon som foreligger i form av en tegnstreng i et første språk til en tegnstreng i et andre språk, og som omfatter at: - modellsegmenter i form av tegnstrenger i det første språk og i logisk sammenheng med disse, modellsegmenter (133, 134) i form av tegnstrenger i det andre språk, lagres i en kunnskapsbase, - et strukturelt segment i tegnstrengen i nevnte første språk identifiseres ifølge en første regel (102), - det identifiserte strukturelle segment sammenlignes med modellsegmenter (104) i form av tegnstrenger i det første språk lagret i samsvar med en andre regel, - på grunnlag av denne sammenligning søkes det etter å velge et modellsegment (110), - en modell, dvs. et ekvivalent segment (121), i form av en tegnstreng i det andre språk logisk knyttet til det valgte modellsegment leses, og - nevnte strukturelle segment oversettes til et oversettelsessegment i form av en tegnstreng i det andre språk på grunnlag av nevnte ekvivalente segment og en tredje regel (122), karakterisert vedat fremgangsmåten omfatter at et mellomliggende ord og/eller en endelse identifiseres og nevnte første regel i hovedsak baseres på identifisering av nevnte mellomliggende ord og/eller endelse.
2. Fremgangsmåte som angitt i krav 1, og hvor nevnte informasjon som skal gis i form av en tegnstreng i det andre språk genereres på grunnlag av oversettelsessegmenter og en fjerde regel (124).
3. Fremgangsmåte som angitt i krav 1 eller 2, og hvor, når intet modellsegment som skal velges ifølge den andre regel finnes som et resultat av sammenligningen av strukturelle segmenter, vises det strukturelle segment frem ved hjelp av et brukergrensesnitt (131) og det ekvivalente segment av det fremviste strukturelle segment lagres i kunnskapsbasen ved hjelp av brukergrensesnittet (132, 133).
4. Fremgangsmåte som angitt i et av de foregående krav, og hvor nevnte strukturelle segment omfatter et skilletegn.
5. Fremgangsmåte som angitt i et av de foregående krav, og hvor en typeidentifikator for et modellsegment lagres i logisk sammenheng med modellsegmentet.
6. Fremgangsmåte som angitt i et av de foregående krav, og hvor det finnes mer enn to modellsegmenter som representerer forskjellige språk logisk knyttet til hverandre.
7. Fremgangsmåte som angitt i et av de foregående krav, og hvor en av nevnte regler oppdateres på grunnlag av utgangsdata fra brukergrensesnittet.
8. Fremgangsmåte som angitt i et av de foregående krav, og hvor informasjon mates over brukergrensesnittet for å oppdatere kunnskapsbasen i den hensikt å oversette et første stykke informasjon og nevnte inngangsdata brukes for å oppdatere i kunnskapsbasen andre data enn dem som behøves for oversettelse av den første informasjon.
9. Fremgangsmåte som angitt i et av de foregående krav, og som omfatter trinn hvor: - den første informasjon gitt i form av en tegnstreng i det første språk leses, - den første informasjon gitt i form av en tegnstreng i nevnte første språk oversettes på grunnlag av data i kunnskapsbasen til et første stykke informasjon gitt i form av en tegnstreng i det andre språk i den utstrekning det er mulig ut fra dataene tilgjengelig i kunnskapsbasen, - tilleggsdata som behøves for å fullføre oversettelsen, av den første informasjon gitt i form av en tegnstreng i det første språk til den første informasjon i form av en tegnstreng i det andre språk bestemmes, - nevnte tilleggsdata mates inn i kunnskapsbasen for å oppdatere kunnskapsbasen, - oversettelsen av den første informasjon gitt i form av en tegnstreng i det første språk til den første informasjon gitt i form av en tegnstreng i det andre språk fullføres, - den første informasjon gitt i det andre språk lagres, - et andre stykke informasjon gitt som en tegnstreng i det første språk leses, - den andre informasjon gitt i form av en tegnstreng i det første språk oversettes til et andre stykke informasjon gitt i form av en tegnstreng i det andre språk på grunnlag av nevnte oppdaterte data i kunnskapsbasen.
10. Anordning for oversettelse av informasjon som foreligger i form av en tegnstreng i et første språk til en tegnstreng i et andre språk, og som omfatter; - kunnskapsbaseutstyr (20, 25) for å lagre modellsegmenter i form av tegnstrenger i det første språk og i logisk sammenheng med disse, ekvivalente segmenter i form av tegnstrenger i det andre språk og for å lagre en første, andre og tredje regel, - utstyr (20, 24) for å identifisere strukturelle segmenter i informasjonen gitt i form av en tegnstreng i det første språk ifølge en første regel, - utstyr (20, 25) for å sammenligne nevnte identifiserte strukturelle segment med modellsegmenter lagret i form av tegnstrenger i det første språk ifølge en andre regel, - utstyr (20) for å velge ut et modellsegment på grunnlag av nevnte sammenligning, - utstyr (20, 25) for å lese en modell, dvs. et ekvivalent segment, i form av en tegnstreng i det andre språk logisk knyttet til det utvalgte modellsegment i kunnskapsbaseutstyret, og - utstyr (20, 24) for å oversette nevnte strukturelle segment til et oversettelsessegment i form av en tegnstreng i det andre språk på grunnlag av nevnte ekvivalente segment og en tredje regel, idet nevnte oversettelsessegment representerer informasjonen som skal gis i det andre språk, karakterisert vedat nevnte utstyr (20, 24) for å identifisere det strukturelle segment i nevnte informasjon gitt i form av en tegnstreng i det første språk, omfatter utstyr for å identifisere et mellomliggende ord og/eller endelse, idet nevnte første regel i hovedsak er basert på nevnte identifisering av det mellomliggende ord og/eller endelse.
11. Anordning som angitt i krav 10, og som også omfatter utstyr (20, 25) for å generere informasjon som skal gis i form av en tegnstreng i det andre språk på grunnlag av minst to oversettelsessegmenter og en fjerde regel.
12. Anordning som angitt i krav 10 eller 11, og som omfatter brukergrensesnittutstyr (22, 23) for å knytte en bruker til nevnte kunnskapsbaseutstyr.
13. Anordning som angitt i krav 12, og hvor brukergrensesnittutstyret er forbundet med nevnte kunnskapsbaseutstyr over et datatransmisjonsnett.
14. Anordning som angitt i et av kravene 10 - 13, og hvor nevnte kunnskapsbaseutstyr omfatter et første kunnskapsbaseutstyr (25) og et andre kunnskapsbaseutstyr slik at spesifikke brukere har tilgang til nevnte første kunnskapsbaseutstyr og bare noen av nevnte spesifikke brukere har tilgang til det andre kunnskapsbaseutstyr.
15. Anordning som angitt i et av kravene 10 - 14, og hvor nevnte kunnskapsbaseutstyr omfatter et første kunnskapsbaseutstyr (25) og et andre kunnskapsbaseutstyr, idet anordningen omfatter utstyr for å innføre data fra brukergrensesnittutstyret til nevnte andre kunnskapsbaseutstyr og utstyr for selektiv overføring av data lagret i den andre kunnskapsbase til det første kunnskapsbaseutstyr.
NO20005930A 1998-05-27 2000-11-23 Fremgangsmate og anordning for oversettelse av informasjon NO319431B1 (no)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI1998/000441 WO1999062002A1 (en) 1998-05-27 1998-05-27 A method and arrangement for translation of information

Publications (3)

Publication Number Publication Date
NO20005930D0 NO20005930D0 (no) 2000-11-23
NO20005930L NO20005930L (no) 2001-01-29
NO319431B1 true NO319431B1 (no) 2005-08-08

Family

ID=8556719

Family Applications (1)

Application Number Title Priority Date Filing Date
NO20005930A NO319431B1 (no) 1998-05-27 2000-11-23 Fremgangsmate og anordning for oversettelse av informasjon

Country Status (6)

Country Link
EP (1) EP1080424B1 (no)
JP (1) JP2002517040A (no)
DE (1) DE69835239T2 (no)
EA (1) EA004243B1 (no)
NO (1) NO319431B1 (no)
WO (1) WO1999062002A1 (no)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096210B1 (en) 2000-03-10 2006-08-22 Honeywell International Inc. Trainable, extensible, automated data-to-knowledge translator
EP1306775A1 (en) 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
FI114347B (fi) * 2002-03-20 2004-09-30 Master S Innovations Ltd Oy Menetelmä ja laitteisto datan kääntämiseksi
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US8706477B1 (en) 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3788488T2 (de) * 1986-10-03 1994-05-11 British Telecomm Sprachenübersetzungssystem.
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation

Also Published As

Publication number Publication date
EA004243B1 (ru) 2004-02-26
JP2002517040A (ja) 2002-06-11
EP1080424A1 (en) 2001-03-07
DE69835239D1 (de) 2006-08-24
NO20005930L (no) 2001-01-29
EP1080424B1 (en) 2006-07-12
WO1999062002A1 (en) 1999-12-02
NO20005930D0 (no) 2000-11-23
EA200001108A1 (ru) 2001-06-25
DE69835239T2 (de) 2007-06-14

Similar Documents

Publication Publication Date Title
EP1111514B1 (en) Phrase translation method and system
JP3055545B1 (ja) 関連文検索装置
JP3666004B2 (ja) 多言語対応文書検索システム
US5659765A (en) Machine translation system
US5640587A (en) Object-oriented rule-based text transliteration system
JP3356536B2 (ja) 機械翻訳装置
US5774845A (en) Information extraction processor
EP0449230A2 (en) Translation method and system for commmunication between speakers of different languages
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH01501977A (ja) 言語翻訳システム
JPH11345249A (ja) 情報検索のための方法および装置ならびに記憶媒体
NO319431B1 (no) Fremgangsmate og anordning for oversettelse av informasjon
JPH04311262A (ja) 辞書情報表示装置
JP5039114B2 (ja) 機械翻訳装置及びプログラム
JPH0394374A (ja) データベース操作装置
KR100204068B1 (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JPH05165889A (ja) 文書検索装置
JPS63132379A (ja) 自然言語文生成方法
Olsson et al. A web-based tool for exploring translation equivalents on word and sentence level in multilingual parallel corpora
JP3476204B2 (ja) 機械翻訳装置
Mayer et al. Constructing a knowledge base from a natural language text
FI103156B (fi) Menetelmä ja järjestely informaation kääntämiseksi
Sweta et al. Role of NLP in Indian regional languages
JP3324241B2 (ja) 機械翻訳装置
JP2995783B2 (ja) カタカナ語の訳語推定装置

Legal Events

Date Code Title Description
FC2A Withdrawal, rejection or dismissal of laid open patent application