KR100918338B1 - 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 - Google Patents

복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 Download PDF

Info

Publication number
KR100918338B1
KR100918338B1 KR1020047002019A KR20047002019A KR100918338B1 KR 100918338 B1 KR100918338 B1 KR 100918338B1 KR 1020047002019 A KR1020047002019 A KR 1020047002019A KR 20047002019 A KR20047002019 A KR 20047002019A KR 100918338 B1 KR100918338 B1 KR 100918338B1
Authority
KR
South Korea
Prior art keywords
language
text
information
analysis
band
Prior art date
Application number
KR1020047002019A
Other languages
English (en)
Other versions
KR20040024619A (ko
Inventor
히토시 이사하라
Original Assignee
도쿠리쯔교세이호진 죠호쯔신겡큐기코
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도쿠리쯔교세이호진 죠호쯔신겡큐기코 filed Critical 도쿠리쯔교세이호진 죠호쯔신겡큐기코
Publication of KR20040024619A publication Critical patent/KR20040024619A/ko
Application granted granted Critical
Publication of KR100918338B1 publication Critical patent/KR100918338B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Abstract

본 발명은 다수의 대역 텍스트를 입력하고 대역 텍스트 언어자료를 사용하는 기술을 제공하여, 비언어 텍스트 입력에 비해 높은 정확도의 제 3 언어 텍스트를 생성하는 것에 관한 것이다. 텍스트 입력후, 분석, 변환 및 생성이 수행되고 타겟 언어 서류 텍스트가 출력된다. 타겟 언어 서류 텍스트의 생성은 언어의 정보 특성이 자동적으로 획득되기 때문에 대규모 언어자료를 필요로 하지 않는다.

Description

복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 {THIRD LANGUAGE TEXT GENERATING METHOD BY MULTI-LINGUAL TEXT INPUTTING AND DEVICE AND STORAGE MEDIUM STORING PROGRAM THEREFOR}
본 발명은, 기계 번역 등에 있어서의 목표 언어의 텍스트를 높은 정확도로 생성하는 기술에 관한 것이다. 보다 자세하게는, 복수 언어를 입력하고, 이들 정보를 융합함으로써 목표 언어 텍스트 생성의 정확도 향상을 도모하는 기술에 관한 것이다.
최근, 많은 정보가 컴퓨터상에 기록되고, 특히 인터넷의 보급에 따라, 그와 같은 디지털 데이터에 액세스하는 수단을 가진 자와 갖지 못한 자 사이의 격차, 이른바 '디지털 디바이드(digital divide)'의 문제가 커지고 있다.
뿐만아니라, 인터넷상에 기록된 많은 정보는, 영어 등의 주요 언어에 의한 것이 대부분이이어, 이들 언어의 해석이 가능한 자와 그렇지 못한 자 사이의 격차도 커다란 문제가 되고 있다.
지금까지, 이러한 언어 장벽으로 인한 디지털 디바이드의 해소책으로서 기계 번역에 대한 연구가 도처에서 이루어져 왔고, 국내외의 많은 기업이나 연구소가 이에 몰두하고 있다.
예를 들면, 입력 언어와 출력 언어의 대역(對譯)을 이용하여, 그 언어 간의 번역에 필요한 지식을 획득하는, 코퍼스(corpus)를 이용한 기계 번역에 관한 연구가 진행되고 있으나, 이러한 것들은 대규모의 대역 데이터가 존재하는 언어간에서만 실현이 가능할 뿐만 아니라, 지식을 획득할 뿐이므로, 종래보다도 높은 정확도의 기계 번역에는 기여할 수 있겠으나, 주요 언어에밖에 사용할 수 없었다.
이와 같이 종래에 연구되고 있는 기술은, 주요 언어간에서만 이용이 가능한 경우가 대부분이어서, 언어 장벽으로 인한 디지털 디바이드의 해소에는 기여하지 못한다고 할 수 있었다. 인터넷을 비롯한 정보 기술의 진전에 따라, 이러한 격차는 급속히 확대되고 있으며, 격차가 치명적인 수준이 되기 전에 대처하는 것이 시급한 과제로 떠오르고 있다. 그러나, 개발도상국에서는 언어 자원과 기술을 개발하는데 드는 비용을 부담할 능력이 부족하여, 정보 산업에 수익이 따르지 않는 고액의 투자를 하는 것이 곤란하다. 또한, 선진국에서도 많은 비(非) 주요언어에 개별적으로 대응할 만큼의 부담을 감당하는 것은 불가능하였다.
이러한 문제를 해결하기 위해, 낮은 비용으로 비주요 언어에도 대응이 가능한 언어 처리 방법의 개발이 요구되고 있지만, 종래에는 이와 같은 기술개발이 늦어지고 있었다.
또한, 현재의 기계 번역의 정확도는, 널리 실용적으로 제공될 정도까지는 이르지 못하고 있다. 하나의 문장을 보는 것 만으로는 충분히 의미를 알 수가 없고, 전후의 문맥을 보고서야 비로서 의미를 알 수 있는 문장이 존재하는데, 현재의 자연 언어 처리 기술은, 이와 같은 문맥을 다루는 능력이 불충분하다.
본 발명은, 상기한 종래 기술이 갖는 문제점을 감안하여 안출된 것으로, 그 목적으로 하는 바는, 주요 언어간뿐만 아니라 주요 언어·비주요 언어간의 기계 번역에도 이용할 수 있는 제 3 언어 텍스트의 생성 기술을 창출하는 것이다. 동시에, 종래보다도 높은 정확도로 텍스트를 생성할 수 있는 생성 기술을 제공하는 것이다.
우선, 본 발명은, 상기한 문제점을 해결하기 위해, 다음과 같은 제 3 언어 텍스트의 생성 알고리즘을 이용한다. 즉, 그 가장 핵심적 기술은, 복수의 언어 텍스트를 이용하여 새로운 제 3 언어 텍스트를 생성하는 것이다. 그리고, 본 발명에 의한 알고리즘에서는 다음과 같은 각 단계를 포함하고 있다.
(1) 번역의 베이스가 되는 제 1 언어와, 상기 제 1 언어와 대역 관계에 있는 적어도 제 2 언어의, 서로 다른 언어로 기술된 2개 이상의 대역 텍스트를 입력하는 입력 단계.
(2) 각 대역 텍스트에 대해, 각 언어마다 또는 각 언어를 임의로 2개 이상 조합하여, 적어도 의존 해석 및 의미 해석을 포함한 언어 해석을 수행하고, 적어도 의존 구조 및 의미 표현에 관련된 언어 정보를 획득하는 해석 단계.
(3) 변환 단계에서 얻은 변환 결과에 근거하여 제 3 언어에 의한 텍스트를 생성하는 생성 단계.
그리고, 생성 단계에서는, 해석 단계에서 획득된 언어 정보나, 또는 해석 단계 후에, 그 해석 결과에 근거하여, 제 3 언어 고유의 변환 지식을 가지고 언어 변 환을 행하는 변환 단계를 마련하여, 이 변환 단계에서 얻은 변환 결과 중 적어도 어느 하나를 이용하여 제 3 언어에 의한 텍스트를 생성한다.
또한, 본 발명은, 상기 해석 단계가, 각 대역 텍스트를 구성하는 어구나 문장이 어떠한 대역 관계를 가지는지에 대해 관련을 짓는 상관 과정, 적어도 상기 제 1 언어의 텍스트에 대해, 각각 미리 준비된 해석 모듈을 이용하여 해석하는 해석 과정, 관련을 지어본 결과, 제 1 언어의 텍스트와 대역 관계에 있는 적어도 제 2 언어의 텍스트중 일부분을 미리 준비된 해석 모듈을 이용하여 해석하고, 상기 각 해석 결과를 융합하는 융합 과정의 각 과정을 포함하여도 좋다.
상기 해석 단계, 변환 단계, 생성 단계 중 적어도 어느 하나에 있어서, 각 언어에 관한 사전적 정보 또는 문법적 정보 중 적어도 어느 하나를 포함하여 구성되는 규칙적 정보와, 코퍼스 등의 실제 데이터로부터의 학습 결과에 의한 경험적 정보를 이용해도 좋다.
상기 생성 단계에서, 제 3 언어의 구문 구조 정보, 또는 제 3 언어의 단어 용법 정보 중 적어도 어느 하나에 대한 정보가, 해당 언어의 기존 코퍼스로부터 일부 또는 전부에 대해 자동 획득하여 형성되며, 자동 획득된 제 3 언어의 고유 정보에 기초하여 제 3 언어에 의한 텍스트를 생성해도 좋다.
이상의 방법을 이용한 제 3 언어 텍스트의 생성 장치를 제공할 수도 있다. 또한, 상기의 방법에 의한 프로그램으로서 제공하는 것도 가능하다.
도 1은 종래의 목표 언어 문서 생성에 관한 흐름도이다.
도 2는 본 발명에 의한 목표 언어 문서 생성에 관한 흐름도이다.
도 3은 본 발명에 따른 제 3 언어 텍스트 생성 장치의 입력 수단을 도시한 구성도이다.
도 4는 본 발명에 따른 제 3 언어 텍스트 생성 장치의 해석 시스템을 도시한 구성도이다.
도 5는 본 발명에 따른 제 3 언어 텍스트 생성 장치의 변환 시스템을 도시한 구성도이다.
도 6은 본 발명에 따른 제 3 언어 텍스트 생성 장치의 생성 시스템을 도시한 구성도이다.
그리고, 부호의 지시 부위는 다음과 같다.
20:대역 문서, 21:대역 문서 해석 시스템, 22:변환 시스템, 23:생성 시스템, 24:목표 언어 문서, 25:변환 지식, 26:생성용 언어 지식, 27:대역 코퍼스, 28:단언어 코퍼스, 29:목표언어의 소규모 데이터, 30:대역 코퍼스로부터 변환 지식을 취득하는 처리를 나타내는 화살표.
이하에서는, 본 발명의 실시 형태를 도면에 나타낸 실시예에 근거하여 설명한다.
본 발명은, 종래의 기계 번역을 초월한 정확도로 목표로 하는 제 3 언어의 텍스트(이하, 간단히 '목표 언어'라 한다)를 생성하기 위해, 사람에 의해 작성된 높은 정확도를 가지는 복수의 대역 문서, 예를 들면, 일본과 미국의 2개국 언어로 부터 내용면에서의 정보를 얻고, 대역 사전 등으로부터 변환 규칙을 얻고, 목표 언어의 문서로부터 언어적 특징을 얻어, 목표 언어의 정확한 문장을 생성하는 기술이다.
종래의 자연 언어 처리 기술은, 하나의 문장을 읽고, 그것을 번역하거나, 요약하거나 하는 통상적으로 사람들이 행할 것으로 생각되는 행위를 모의(模擬)하는 것이었다.
그러나 한편으로, 계산기에 문맥을 다루게 하는 기술의 확립이 곤란하다는 치명적인 결함이 있었다. 본 발명에서는, 예를 들면, 일본어와 영어의 대역 문서로부터 정보를 합이나 곱의 형태로 추출하여, 깊은 의미 이해를 실현한다.
단지 정보를 이와 같이 합으로 추출함으로써 정보의 양을 늘리고자 하는 시도는, 다른 정보 처리 방법에서도 있었으나, 본 발명과 같이 대역을 이용하여 적극적으로 문장의 모호성을 해소하는 방법은 전혀 새로운 것이며, 여기에 본 발명의 가장 커다란 특징이 있다.
또한, 그 이해 결과를 토대로, 목표 언어의 단일 언어 코퍼스로부터 각 언어 고유의 정보를 얻고, 표층의 문장을 생성한다는 점에서도 전혀 새로운 기술이다.
도 1에는 종래부터 행해지고 있는 단언어(單言語) 문서를 목표 언어로 변환, 생성하는 흐름도가, 도 2에는 본 발명에 따라 일미 대역 문서를 목표 언어로 변환, 생성하는 흐름도가 각각 도시되어 있다.
종래의 방법에서, 단언어 문서(10)를 목표 언어 문서(14)로 번역하는 프로세스는, 크게 분류하여, 해석 시스템(11), 변환 시스템(12), 생성 시스템(13)을 거 쳐 이루어지는 것이 일반적이었다. 이들 각 시스템(11, 12, 13)의 개발에 있어서는, 사람에 의한 규칙의 작성(15)이 불가결하며, 높은 정확도의 시스템 개발에는 대규모의 문서 해석 작업이 필요하였다. 예를 들면, 학습에 이용하는 대규모의 텍스트 코퍼스는 막대한 비용과 연구가 필요하여, 현재로서는 주요 언어에만 간신히 정비되고 있기는 하나, 비주요 언어에 대해 준비될 가능성은 매우 희박하다.
이에 본 발명은, 도 2에 도시한 바와 같이, 주요 언어 등의 코퍼스가 정비된 적어도 2가지 이상의 언어를 이용하여, 이들을 해석 시스템(21), 변환 시스템(22), 생성 시스템(23)의 각 시스템을 거쳐 목표 언어 문서(24)를 생성한다. 즉, 제 3 언어 텍스트 생성 장치는, 도 3에 도시한 2개 이상의 대역 텍스트를 입력하는 입력 수단에 의해 문서의 입력을 행한다.
텍스트는, 스캐너(31)로부터 화상 데이터로서 인터페이스(32)를 통해 CPU(33)에 입력되어 공지의 OCR처리를 CPU(33)에서 실행하고, 텍스트 데이터로 변환한 다음 하드 디스크(34)·메모리(35) 중 어느 하나에 기억시켜도 된다. 또한, 하드 디스크(34)에 미리 기억된 텍스트 데이터를 판독하여 입력해도 된다.
그 밖에, 컴퓨터에 구비된 키보드(36)를 통해 대역 텍스트를 입력해도 되고, 네트워크를 통해 접속된 다른 컴퓨터(37)로부터 취득하는 구성이어도 좋다. 이들과 CPU(33)를 접속하는 인터페이스에는 대응하는 I/O 디바이스, 네트워크 어댑터 등을 이용하는 것이 가능하다.
각 언어, 또는 각 언어의 2개 이상 임의 조합형태의, 각 대역 텍스트가 언어 정보의 해석을 수행하는 해석 수단으로서 대역 문서 해석 시스템(21)에 제공된다.
또한, 적어도 상기 해석 단계에서의 해석 결과에 근거하여, 제 3 언어로의 언어 변환을 행하는 변환 수단으로서 변환 시스템(22), 상기 변환 시스템에서의 변환 결과에 근거하여 제 3 언어에 의한 텍스트를 생성하는 생성 수단으로서 생성 시스템(23)을 가진다.
이것들은, 별도로 설치하는 출력 수단(도시 생략)에 의해 출력이 가능하다. 출력 수단으로는, 화면 표시를 하는 모니터나, 하드 디스크 등의 기억 장치, 네트워크상의 다른 컴퓨터에 대해 출력을 행하는 것이 가능하다.
입력할 언어는, 예를 들면 일본어와 영어의 대역 관계에 있는 문서이다. 본 발명에서는, 번역의 베이스가 되는 제 1 언어를 정하고, 이것과 대역 관계에 있는 제 2 언어를 함께 입력한다.
또한, 입력할 언어는 2가지 이상이어도 좋고, 예를 들면 3가지 언어(일본어, 영어, 프랑스어 등)에 의해 보다 높은 정확도의 해석을 실현할 수도 있다.
종래의 기계 번역 시스템의 정확도가 향상되지 않은 커다란 이유의 하나는, 언어 해석의 곤란성에 있다. 해석의 곤란성이란, 모호성의 해소가 불가능하다는 것인데, 대역을 이용함으로써, 해석이 가능해지는 경우가 있다.
예를 들면, 일본어만을 보고 있으면, 어떤 것이 복수인지의 여부를 알 수 없지만, 영어를 보면 그 단어가 단수형인지 복수형인지를 보고 판단할 수가 있다. 한편, 영어에서는 그 말의 의미적 역할을 알 수 없으나, 일본어에서는 조사가 붙어 있기 때문에, 예를 들어 「장소」를 나타내는 정보라는 것을 알 수 있거나 하는 경우가 있다. 이것은, 일본어와 영어와 같이 언어의 체계가 크게 다른 언어 상호간 을 이용하는 경우에, 특히 유효하다.
따라서, 본 발명에서의 대역 문서의 언어 조합으로는, 일본어와 영어나, 일본어와 중국어, 혹은 그 3가지 언어를 이용하는 등, 언어 체계가 다른 언어를 이용하면 특히 바람직하다. 반대로, 예를 들어 영어와 프랑스어만인 경우 등에는 본 발명에 의한 효과가 반드시 크다고는 할 수 없으나, 영어·프랑스어·일본어와 같이 조합하면, 영어·일본어만을 조합한 경우보다도 정확도가 높은 생성이 이루어질 가능성이 높으므로, 이와 같은 구성을 취하여도 좋다.
다음으로, 본 발명에 따른 해석 시스템(21)에 대해 상세히 설명한다. 해석 시스템의 구성이 도 4에 도시되어 있다.
본 시스템(21)은, 상기 입력 수단에 의해 하드 디스크(34)에 기억된 일·영 2가지 언어의 대역 문서(20)의 입력을 전제로, 단어와 단어(혹은, 일본어의 문절과 같이 보다 큰 단위) 간의 의존관계를 CPU(33)에서 해석처리한다. CPU(33)는 필요에 따라 메모리(35) 등의 컴퓨터에 있어서의 모든 장치나 부재와 연계하여 동작한다.
본 실시예에서는, 우선 입력된 대역 문서(20)에 대해, 대역 문서를 구성하는 각 문장간의 대역 관계를 상관지어, 다음 해석 처리에서의 해석 결과의 융합에 이용한다.
즉, 일영 대역 문서(20)는, 설사 전부가 순차적인 대역 관계에 있다 하더라도, 이것들은 각 언어의 특성, 판독의 용이함 등에 따라 문장의 수가 변화되기 때문에, 기계적으로 대역 관계를 발견하지 못하는 경우가 있다.
따라서, 각 대역 문서(20)를 구성하는 문장이, 어떠한 대역 관계를 갖는지에 대해 상관을 짓는 대역관계 상관부(42)의 처리를 수행하여, 대역 관계에 있는 텍스트를 상관짓는다. 상관지어진 데이터는 예를 들어 일본어 텍스트의 제 10번째 문장이 영어 텍스트의 제 11번째 문장과 대역 관계에 있다는 등과 같이, 예를 들면 일본어 텍스트내에 태그(tag)를 붙여, 하드 디스크(34)등에 기억시킨다.
상관을 짓는 방법에는 2가지 텍스트 간의 상호 관계를 추출하는 주지의 언어 처리 기술을 이용할 수 있는데, 예를 들면 언어 횡단 검색에 의해 실현할 수도 있다.
그리고, CPU(33)에서, 적어도 의존 해석(40) 및 의미 해석(41)의 각 처리를 행한다. 이들 각 해석에 대해서는, 이미 공지되어 있는 임의의 방법을 이용하는 것이 가능한데, 예를 들면 이미 본건 출원인들이 제안한 바 있는 일본어의 의존 모델(우치모토 키요타카, 무라타 마키, 세키네 사토시, 이사하라 히토시, 「후방 문맥을 고려한 의존 모델」, 자연 언어 처리, Vol.7, No.5, pp.3-17(2000)에 기재)를 일본어 및 영어에 적용함으로써 결정한다. 이 모델은, 2개의 단어(혹은, 문절)이 의존 관계에 있는지의 여부를 학습하는 것으로, 기계 학습 모델을 이용하여 실현된다. 의존 관계는 학습된 모델에 의해 계산되는 확률의 곱이 한 문장 전체에서 가장 높아지도록 결정한다.
의존 해석(40)에서, 우선 베이스가 되는 일본어 텍스트에 대해 구성되는 문장을 순차로 해석하는데, 이 때, 해당 문장에 태그가 붙여지며, 영어의 대역문이 있는 경우에는, 해당 문장의 의존 해석(40)을 아울러 수행하여, 융합 처리부(43)에 서 양자의 문장에서 상기 확률의 곱이 가장 높은 것을 그 문장의 의존 해석 결과로 한다. 이에 따라, 일본어 텍스트만을 입력하는 것 보다도, 다른 언어의 해석 결과를 융합하여 가장 확률이 높은 결과가 얻어질 수 있기 때문에, 해석 결과를 월등히 향상시킬 수 있게 된다.
또한, 이러한 의존 관계 구조로부터 격(格) 해석(의미 해석)을 수행한다. 의존 관계의 처리에서, 두 언어의 대역 입력의 유효성은, 의존 구조에 있어서의 의존의 정해율 향상으로 계량이 가능하다.
여기서도, 상기와 마찬가지로 일본어 텍스트로부터의 해석 결과와 함께, 대역 관계에 있는 문장이 영어 텍스트중에 포함될 때에는, 융합 처리부(43)에서 양자의 해석 결과를 비교하여, 보다 확률이 높은 의미 해석의 결과를 이용한다.
이와 같이 본 발명은, 해석 결과에서 단지 확률이 높은 쪽을 채용할 수 있기 때문에, 보다 많은 언어를 입력함으로써 용이하게 해석 정확도의 향상을 도모할 수 있다.
의존 해석(40)이나 의미 해석(41)에 대해서는, 본건 출원인에 의한 특허 출원 제 2001-139563호에도 개시되어 있는데, 의미 해석(41)의 일례로서 고유 표현의 추출 처리를 상세히 기술하고 있다. 고유 표현의 추출은, 정확한 역어 선택에 있어서 중요한 의미 해석의 하나이며, 제 3 언어로의 번역에 매우 유효하다.
다만, 본 발명은 지금까지 제안된 바 없는 2개 이상의 대역 문서를 입력하여, 해석, 변환, 생성의 테두리에 있어서의 제 3 언어 텍스트의 생성을 도모하는 것이므로, 해석 방법은 불문하고, 예를 들면 주지의 형태소 해석을 하고, 이 때 대 역 문서로부터의 해석 결과를 융합해도 좋은데, 그 융합 방법도 해석 방법에 의해 다르므로, 임의로 결정할 수 있다.
이상과 같은 의존 해석·의미 해석의 결과는, 하드 디스크(34)에 기억된다.
이와 같이, 해석 시스템(21)의 구성 요소로서는, 적어도 각각의 언어의 의존 해석(40)·의미 해석(41) 처리를 행하는 해석 모듈(45)을 구비하고, 또한 정확도 높은 해석을 위해, 대역 관계 상관부(45), 융합 처리부(43)의 각 처리를 수행한다.
또한, 본 발명의 해석 모듈(45)에서는 사전이나 문법 등, 미리 작성된 규칙을 토대로 한 해석을 하는 한편, 대역 관계를 상관짓고, 그 해석 결과를 융합함으로써 실제의 데이터에 기초한 해석을 가능하게 하고 있다.
이와 같이 전자의 해석에 의한 규칙적 정보와, 후자의 해석에 의한 경험적 정보를 융합함으로써, 본 발명에서는 보다 정확도 높은 해석 시스템(21)의 실현에 기여하고 있다.
다음으로, 변환 시스템(22)에 대해 이하에 상세히 설명한다. 도 5에는 변환 시스템의 구성이 도시되어 있다.
전술한 바와 같이, 컴퓨터를 이용하여 어떤 언어의 정보를 다른 언어로 변환하기 위해서는 컴퓨터 처리에 적합한 언어 정보가 필요하다. 이것들을 인력에 의해 작성하는 경우는, 2가지 언어를 이해하는 전문가에 의한 방대한 작업을 필요로 하기 때문에 주요 언어쌍 이외에는 현실적이지 않다.
또한, 대량의 대역 코퍼스로부터 이들 언어 정보를 자동으로 획득하는 방법도 있는데, 지금까지 기술한 바와 같이 주요 언어쌍 이외에는 대량의 대역 코퍼스 를 전제로 하는 것은 불가능하다.
따라서, 본 발명에서는 번역의 베이스가 되는 2개 언어의 대역 코퍼스(27)와 번역후의 언어, 즉 목표 언어(여기서는, 예를 들면 태국어로 함)의 단언어 코퍼스(28), 및 번역의 베이스가 되는 언어와 번역후의 언어간의 소규모의 대역 사전 등과 같은, 예를 들면 일본어/태국어, 영어/태국어 사전의 소규모 데이터(29)를 조합함으로서, 언어 정보의 획득을 도모한다.
단언어 코퍼스(28)의 규모는 소규모이어도 좋으며, 언어 처리를 위한 충분한 연구, 해석을 기대할 수 없는 언어에 대해서도 효과적으로 대응이 가능하다.
이에 따라 획득된 정보가, 변환 지식(25) 및 생성용 언어 지식(26)이며, 본 발명에 따른 변환 시스템(22)은 상기 변환 지식(25)에 기초하여 언어간의 변환을 취급한다.
본 발명에서는, 대규모의 제 3 언어의 코퍼스를 이용하지 않더라도 정확도가 높은 출력을 하기위해, 입력하는 대역 코퍼스(27)와 제 3 언어의 단언어 코퍼스(28)를 비교하고, 제 3 언어에 있어서의 고유의 언어 정보를 자동적으로 획득하여, 변환 지식 데이터 베이스(54)를 생성한다.
예를 들면, 복합 어구 등의 경우, 단지 각 단어를 사전에 근거하여 변환하는 것만으로는 자연스러운 표현이 되지 않는 경우가 많다. 특히, 역어의 선택이나 배열 순서 등은 제 3 언어 고유의 정보로서, 이것을 변환 지식으로서 구비해두는 것이 바람직하다.
따라서, 본 발명의 변환 시스템(22)에서는, 일본어/영어/태국어의 어구간 대 응부(51)를 마련하고, 일영 대역 코퍼스(27)·대역 문서(20)와, 태국어 코퍼스(28) 사이에서, 예를 들면 동의 어구를 추출하고, 이것을 변환 지식 생성부(52)에서 변환 지식 데이터베이스(54)에 기억시킨다. 예를 들면, 번역의 베이스가 되는 언어의 코퍼스가 일영 대역이므로, 쌍방 언어의 대역 관계에 있는 어구에 공통적으로 가장 잘 대응하는 제 3 언어의 어구를 통계적으로 결정해도 좋다.
변환 지식은 상기한 것에 한정되지 않고, 일영 대역 코퍼스(27)에서 많이 볼 수 있는 구문 구조와, 태국어 코퍼스에서 많이 볼 수 있는 구문 구조를 통계적으로 대응지어, 변환 지식으로서 구비하는 것도 가능하다. 이에 따라 해석 시스템(21)의 해석 결과를, 태국어 고유의 구문 구조로 변환하는 것이 가능해진다.
또한, 변환부(53)에서는, 그 때에 기억된 변환 지식이나, 이전의 번역에 의해 생성된 변환 지식을 변환 지식 데이터베이스(54)로부터 판독하여, 상기 해석 시스템(21)에서 하드 디스크(34)에 기억된 의존 구조 및 의미표현에 관련된 언어 정보를 변환한다. 변환 방법은, 단지 단어의 의존 관계나 고유 표현을 제 3 언어의 변환 지식에 맞추어 오버라이트하여 수정하기만 하면 된다.
변환된 정보는 다시 하드 디스크(34)에 기억된다.
마지막으로, 생성 시스템(23)에 대해 상세히 설명한다. 도 6에는 생성 시스템의 구성도가 도시되어 있다.
생성에 관한 기술 개발은, 종래에 너무나 계통없이 수행되어 왔는데, 작성한 문서를 사람이 직접 읽는 경우, 그 정확도는 사람의 「읽고자 하는 의욕」과 직결된다. 따라서, 본 발명에서는, 생성 시스템(23)도 매우 중요한 언어 처리 시스템 의 요소로 생각하고, 다음과 같은 기술을 이용하고 있다.
즉, 단언어 코퍼스(28)로부터 단어의 용법에 관한 정보를 얻는 기술과, 구문 구조에 관한 정보를 얻는다. 2가지 언어 이상의 정보를 이용하여 이해된 결과를 제 3 언어의 텍스트로 하는 경우에는, 당연히 그 언어에 대한 지식이 필요해진다.
생성될 문장의 품질 향상을 위해서는, 그 언어 고유의 정보도 얻을 필요가 있다. 그러나, 이것을 그 언어의 연구자가 갖는 언어 직관에 따라 규칙화해가는 것은 방대한 작업일 뿐만아니라, 주요한 언어 이외에 이와 같은 규칙을 작성하는 것은 현실적이지 못하다.
따라서, 본 발명에 따른 제 3 언어 텍스트 생성 장치에서는, 개별적인 언어에 대한 정보는, 개별적인 언어의 데이터를 토대로 공지의 기술에 의해 자동 획득한다.
즉, CPU(33)는 메모리(35)와 협동하여, 구문 구조 획득부(60)에서, 태국어 코퍼스(28)로부터 어순에 관한 구문 구조를 자동적으로 획득한다. 이 획득 방법에 대해서는, 언어 처리 분야에서 여러가지의 공지된 방법이 있는데, 예를 들면 코퍼스로부터 어순(우치모토 키요타카, 무라타 마키, 우마 키요시, 세키네 사토시, 이사하라 히토시, 「코퍼스를 통한 어순 학습」, 자연 언어 처리, Vol.7, No.4, pp.163-180(2000)에 기재)를 이용하는 것도 가능하다.
구체적으로는, 해석 시스템(21), 변환 시스템(22)에서 얻어진, 단어와 단어의 의존 구조로부터 자연스러운 나열의 표층문을 생성한다. 본 실시예에서는, 자연스러운 나열인지의 여부를, 어순 모델을 적용함으로써 결정하였다.
이 모델은, 동일한 단어를 수식하는 복수의 수식어가 있을 때, 수식어간의 자연스러운 순서를 학습하는 것으로, 주지의 기계 학습 모델을 이용하여 실현된다. 자연스러운 어순은 학습된 모델에 의해 계산되는 확률의 곱이 하나의 문장 전체에서 가장 높아지도록 결정한다.
이 때, 자동 획득한 정보, 예를 들면 학습 모델에 있어서의 확률치 등은, 생성용 언어 지식 데이터베이스(64)에 기억시키고, 다음 번 이후의 생성에 이용해도 된다.
기본적인 구문 구조가 확정된 후, 표층 표현 결정부(61)에서, 문장중의 개개의 단어에 대한 적절한 표층 표현을 결정한다. 표층 표현의 결정에는, 종래의 언어 처리에 있어서의 주지의 생성 방법을 이용할 수 있는데, 예를 들면 본건 출원인들이 종래에 제안한 바 있는 문말 모델러티(modality)의 결정 방법을, 격의 표현을 비롯한 다른 표층 표현에도 확장하여 이용하는 것도 가능하다.
즉, 문말의 시제 정보(무라타 마키, 우마 키요시, 우치모토 키요타카, 이사하라 히토시, 「용례 베이스에 의한 텐스·애스펙트·모델러티의 일영번역」, 인공지능학습지, Vol.16, No.1, pp.20-27(2001)에 기재)를 획득하는 방법은, 텐스·애스펙트·모델러티의 번역 문제에 처음으로 용례 베이스의 방법을 적용한 것이며, 대역의 데이터 베이스로부터 해석하고 있는 텐스·애스펙트·모델러티 표현과 흡사한 대역예(용례)를 추출하고, 그 데이터베이스로부터 번역 결과를 출력하는 방법이다. 용례간의 유사도의 정의로서, 문말로부터의 일치 문자열(혹은, 분류어휘표의 분류 번호도 포함한 문자열에서의 일치)을 사용하고 있기 때문에 간이한 구성이 가능하며, 또한, 다른 표층 표현에도 용이하게 적용이 가능하다.
상기한 바에 의해, 종래에는 어색한 텍스트가 출력되는 일이 많았던 컴퓨터 생성에 의한 문서를, 코퍼스에 나타나는 실제의 문장에서의 유창함에 근거한 레벨로까지 향상시킬 수 있게 된다.
또한, 단언어 코퍼스로부터의 단어 용법 정보를 자동 획득하여, 생성용 언어 지식(26)에 더하는 것도 가능하다.
이상, 본 발명에서의 제 3 언어 텍스트 생성 장치의 해석 수단, 변환 수단, 생성 수단에 대해 설명하였으나, 본 발명의 실시에서 반드시 변환수단을 설치해야하는 것은 아니다.
즉, 본 발명에서 말하는 변환 수단은, 출력하는 언어 고유의 변환 지식을 갖는 것이지만, 명시적으로 변환 수단을 설치하지 않아도 된다. 예를 들면, 해석 수단이나 생성 수단이 갖는 언어 정보에 관한 지식·정보로 충분히 생성까지 행할 수 있는 경우에는, 변환 수단으로서 독립된 수단이 아니라, 해석 수단에 의한 해석 결과로부터 생성수단에 의해 직접 제 3 언어를 생성할 수 있다.
또한, 본 장치에서는, 입력수단·출력수단에 대해서도 여러가지 형태를 고려할 수 있다.
입력 수단은, 다양한 매체를 통해 유통되는 정보로부터 입력하는 것을 고려할 수 있다. 예를 들면, 낱장의 서류나 서적 등의 문서를 전자적 기록으로 변환가능한 문서 캡처링/변환 수단을 가진다. 이것은, 스캐너와 문자 인식 장치·소프트웨어에 의해 이미 용이하게 실현가능하며, 본 발명의 장치에 내장시킴으로써, 예를 들면, 일영의 2가지 언어로 기술된 대역관계에 있는 서적을 판독함으로써, 태국어 등의 제 3 언어 텍스트를 출력하는 구성을 실현할 수 있다. 출력에는, 표시 장치에 의한 표시·기록 장치로의 기록, 인터넷 등의 네트워크상으로의 게재 등이 포함되며, 그 출력 수단은 임의로 선택할 수 있다.
또한, 하드 디스크, 광학적 기억 장치 등의 전자적 기록 장치로부터 판독되는 컴퓨터 데이터는, 보다 간이한 판독 및 입력이 가능하다. 특히, 최근 유니코드 등의 다언어에 대응한 문자 코드가 개발된 바 있어, 동시에 복수의 언어, 특히 비주요 언어라 하더라도 동시에 취급할 수 있게 되었다.
이와 같은 코드를 이용함으로써, 원활하게 복수의 언어를 동시에 취급할 수있으며, 상기 전자기적 기록장치에 대한 기록이나 판독이 용이하다.
또한, 본 발명이 커다란 효과를 갖는 용도로서, 인터넷 등의 네트워크 상의 컴퓨터에 부설되는 전자적 기억장치로부터 취득가능한 컴퓨터 데이터를 입력하는 것을 고려할 수 있다.
인터넷상에서는, 특히 주요 언어가 이용되는 지역에서 컴퓨터의 보급이 진행되는 경우도 있어, 유통되는 정보는 대부분이 주요 언어로 기술되어 있다.
또한, 다국적 기업의 홈페이지 등은, 이미 주요 언어 간의 인력에 의한 정확도 높은 번역이 이루어져 있는데, 본 발명의 기술을 이용함으로써, 아직 번역이 이루어지지 않은 많은 비주요 언어로의 변환이 가능해진다. 따라서, 상기 장치의 입력수단이 인터넷 등의 네트워크에 접속된 전자기적 기록장치로부터 컴퓨터 데이터를 취득하여, 본 장치로 입력하는 것은 대단히 효과적이다.
상기에서는, 본 발명의 하나의 실시예로서, 제 3 언어 텍스트 생성 장치를 예로 들었으나, 본 발명은 단지 컴퓨터의 알고리즘으로서 제공하는 것도 가능하고, 또한, 프로그램으로서 실현하여, 임의의 컴퓨터상에서 동작시킬 수도 있다.
또한, 본 발명에 의해 구성된 프로그램을 네트워크상에서 유통시킬 수도 있다.
본 발명에 의하면, 상기 구성에 의해, 복수의 언어로 기록된 동일한 내용의 문장을 함께 해석함으로써, 정확한 의미를 이해하여, 입력된 언어와는 다른 제 3 언어로 적절하게 텍스트를 생성할 수 있다. 또한, 필요에 따라 변환 과정을 구비함으로써, 보다 높은 정확도를 도모하는데 기여한다. 이에 따라, 개발도상국에 대한 모국어에 의한 정보 제공이 가능해진다. 또한, 이 방법이 확립되면, 새로운 언어에 대한 대응은, 그 언어에 대한 언어 정보의 획득이 주된 개발 요소가 되므로, 각 나라에서도 대응이 가능할 것으로 생각된다.
앞으로도, 영어로 작성된 문서를 사람의 손을 거쳐 고품질의 일본어 문서로 만드는 것은 대량으로 계속 이루어지겠지만, 이와 같은 문서가 모두, 다른 아시아 지역의 많은 언어에도 높은 품질로 번역되어 갈 것으로 생각하기는 어렵다.
본 발명에 의해, 태국어 등의 아시아 지역의 모든 언어들에 대한 번역 수준이 비약적으로 향상시키는 것이 가능하다. 본 기술의 확립에 의해, 디지털 디바이드로 고민하는 많은 개발 도상국들이, 독자적인 노력과 다소의 지원에 의해 그것을 극복할 수 있을 것이다.
또한, 종래의 단언어로부터의 번역에 비해, 비약적으로 높은 정확도를 갖는 제 3 언어 텍스트의 생성을 낮은 비용으로 실현할 수 있다. 본 발명은, 이상과 같은 알고리즘을 구비하여 장치로서 제공할 수도 있고, 네트워크상에서의 유통을 가능하게 하는 프로그램으로서 제공할 수도 있다.


Claims (14)

  1. 컴퓨터에 있어서의 언어 처리 중, 복수의 언어 텍스트를 이용하여 새로운 제 3 언어 텍스트를 생성하는 알고리즘으로서, 상기 알고리즘은,
    번역의 원어(元語)가 되는 제 1 언어와, 상기 제 1 언어와 대역 관계에 있는 적어도 하나의 제 2 언어의, 서로 다른 언어에 의해 기술된 2개 이상의 대역 텍스트를 입력하는 입력 단계;
    각 대역 텍스트에 대해, 각 언어마다 또는 각 언어를 임의로 2개 이상 조합하여, 적어도 의존 해석 및 의미 해석을 포함한 언어 해석을 수행하여, 적어도 의존 구조 및 의미 표현에 관한 언어 정보를 획득하는 해석 단계; 및
    제 3 언어에 의한 텍스트를 생성하는 생성 단계;의 각 단계를 포함하며,
    상기 생성 단계는,
    해석 단계에서 획득된 언어 정보; 또는
    해석 단계 후에 상기 해석 결과를 토대로 제 3 언어 고유의 변환 지식을 구비하여 언어 변환을 수행하는 변환 단계를 마련하고, 상기 변환 단계에서의 변환 결과; 중 적어도 어느 하나를 이용하여 제 3 언어에 의한 텍스트를 생성하며,
    상기 해석 단계는,
    각 대역 텍스트를 구성하는 어구나 문장이, 어떠한 대역 관계를 가지는가에 대해 관련을 짓는 상관 과정;
    적어도 상기 제 1 언어의 텍스트에 대해, 각각 미리 준비된 해석 모듈을 이용하여 해석하는 해석 과정; 및
    상관의 결과, 제 1 언어의 텍스트와 대역 관계에 있는 적어도 하나의 제 2 언어의 텍스트의 부분을 미리 준비된 해석 모듈을 이용하여 해석하고, 상기 각 해석 결과를 융합하는 융합 과정;의 각 과정을 포함하는 것을 특징으로 하는 제 3 언어 텍스트 생성 방법.
  2. 삭제
  3. 제 1항에 있어서,
    상기 해석 단계, 상기 변환 단계, 상기 생성 단계 중 적어도 어느 하나에서,
    각 언어에 관한 사전적 정보 또는 문법적 정보 중 적어도 어느 하나를 포함하여 구성되는 규칙적 정보와,
    코퍼스의 실제 데이터로부터의 학습 결과에 의한 경험적 정보를 이용하는 것을 특징으로 하는 제 3 언어 텍스트 생성 방법.
  4. 제 1항 또는 제 3항에 있어서,
    상기 생성 단계에서, 제 3 언어의 구문 구조 정보, 또는 제 3 언어의 단어 용법 정보 중 적어도 어느 하나에 대한 정보가, 해당 언어의 기존의 코퍼스로부터 일부 또는 전부에 대해 자동 획득하여 형성되며,
    상기 자동 획득된 제 3 언어의 고유 정보에 근거하여 제 3 언어에 의한 텍스트를 생성하는 것을 특징으로 하는 제 3 언어 텍스트 생성 방법.
  5. 언어 처리 중, 복수의 언어를 이용하여 새로운 제 3 언어 텍스트를 생성하는 장치로서, 상기 장치는,
    번역의 원어가 되는 제 1 언어와, 상기 제 1 언어와 대역 관계에 있는 적어도 하나의 제 2 언어의, 서로 다른 언어에 의해 기술된 2개 이상의 대역 텍스트를 입력하는 입력 수단;
    각 대역 텍스트에 대해, 각 언어마다 또는 각 언어를 임의로 2개 이상 조합하여, 적어도 의존 해석 및 의미 해석을 포함한 언어 해석을 수행하고, 적어도 의존 구조 및 의미 표현에 관한 언어 정보를 획득하는 해석 수단;
    제 3 언어에 의한 텍스트를 생성하는 생성 수단; 및
    상기 생성 수단에 의해 생성된 제 3 언어 텍스트를 출력가능한 출력수단;의 각 수단을 포함하며,
    상기 생성 수단은,
    해석 수단에서 획득된 언어 정보; 또는
    해석 수단의 해석 결과에 근거하여, 제 3 언어 고유의 변환 지식을 구비하여 언어 변환을 수행하는 변환 수단을 구비하고, 상기 변환 수단에서의 변환 결과; 중 적어도 어느 하나를 이용하여 제 3 언어에 의한 텍스트를 생성하며,
    상기 해석 수단은,
    각 대역 텍스트를 구성하는 어구나 문장이, 어떠한 대역 관계를 갖는지에 대해 관련을 짓는 대역 관계 상관부;
    적어도 상기 제 1 언어의 텍스트를 해석하는 해석 모듈부; 및
    상기의 상관 결과, 제 1 언어의 텍스트와 대역 관계에 있는 적어도 하나의 제 2 언어의 텍스트의 부분을 미리 준비된 해석 모듈부를 이용하여 해석하고, 상기 각 해석 결과를 융합하는 융합부;를 구비하는 것을 특징으로 하는 제 3 언어 텍스트 생성장치.
  6. 삭제
  7. 제 5항에 있어서,
    상기 제 3 언어 텍스트 생성 장치는,
    각 언어에 관한 사전적 정보 또는 문법적 정보 중 적어도 어느 하나를 포함하여 구성되는 규칙적 정보와, 코퍼스의 실제 데이터로부터의 학습 결과에 의한 경험적 정보를 각각 기억하는 정보 기억 수단을 구비함과 동시에,
    상기 해석 수단, 상기 변환 수단, 상기 생성 수단 중 적어도 어느 하나는, 상기 정보 기억 수단에 의해 기억된 각 정보에 근거하여 해석 처리를 수행하는 것을 특징으로 하는 제 3 언어 텍스트 생성장치.
  8. 제 5항 또는 제 7항에 있어서,
    상기 제 3 언어 텍스트 생성 장치는,
    제 3 언어의 구문 구조 정보나, 또는 제 3 언어의 단어 용법 정보 중 적어도 어느 하나에 대한 정보를, 상기 제 3 언어의 기존의 코퍼스로부터 일부 또는 전부에 대해 자동 획득하는 제 3 언어 고유 정보 획득 수단; 또는,
    미리 자동 획득된 제 3 언어 고유 정보를 유지할 수 있는 제 3 언어 고유 정보 기억 수단; 중 적어도 어느 하나의 수단을 가지며,
    상기 생성 수단은,
    상기 제 3 언어 고유 정보에 근거하여 제 3 언어 텍스트를 생성하는 것을 특징으로 하는 제 3 언어 텍스트 생성장치.
  9. 제 5항 또는 제 7항에 있어서,
    상기 제 3 언어 텍스트 생성 장치에 있어서의 입력 수단은,
    낱장의 서류나 서적의 문서를 전자적 기록으로 변환하는 문서 캡처링/변환 수단에 의해 변환 작성된 컴퓨터 데이터;
    하드 디스크, 광학적 기억 장치의 전자적 기록 장치로부터 판독되는 컴퓨터 데이터; 또는,
    인터넷의 네트워크 상의 전자적 기억 장치로부터 취득 가능한 컴퓨터 데이터; 중 적어도 어느 하나의 컴퓨터 데이터를 상기 장치에 입력할 수 있는 것을 특징으로 하는 제 3 언어 텍스트 생성장치.
  10. 컴퓨터에서의 언어 처리 중, 복수의 언어 텍스트를 이용하여 새로운 제 3 언어 텍스트를 생성하는 프로그램으로서, 상기 프로그램은,
    번역의 원어가 되는 제 1 언어와, 상기 제 1 언어와 대역 관계에 있는 적어도 하나의 제 2 언어의, 서로 다른 언어에 의해 기술된 2개 이상의 대역 텍스트를 컴퓨터상의 기억 장치 또는 입력 장치로부터 취득하는 입력부;
    취득한 각 대역 텍스트에 대해, 각 언어마다 또는 각 언어를 임의로 2개 이상 조합하여, 적어도 의존 해석 및 의미 해석을 포함한 언어 해석 처리를 수행하고, 적어도 의존 구조 및 의미 표현에 관한 언어 정보를, 컴퓨터상의 연산 장치 및 기억 장치를 이용한 연산 처리에 의해 획득하는 해석처리부;
    제 3 언어에 의한 텍스트를 컴퓨터상의 연산 장치 및 기억 장치를 이용한 연산 처리에 의해 생성하는 생성처리부; 및
    상기 생성처리부에 의해 생성된 제 3 언어 텍스트를 컴퓨터상의 기억 장치 또는 출력 장치에 의해 출력하는 출력부;의 각 부를 포함하며,
    상기 생성처리부는,
    해석처리부에서 획득된 언어 정보; 또는
    해석처리부의 해석 결과에 근거하여, 제 3 언어 고유의 변환 지식을 구비하여 언어 변환을 수행하는 변환처리부를 설치하고, 상기 변환 처리부에서의 변환 결과; 중 적어도 어느 하나를 이용하여 제 3 언어에 의한 텍스트를 생성하며,
    상기 해석처리부는,
    각 대역 텍스트를 구성하는 어구나 문장이, 어떠한 대역 관계를 갖는지에 대해 관련을 짓는 대역 관계 상관 루틴;
    적어도 상기 제 1 언어의 텍스트를 해석하는 해석 루틴; 및
    상기의 상관 결과, 제 1 언어의 텍스트와 대역 관계에 있는 적어도 하나의 제 2 언어의 텍스트의 부분을 해석 루틴을 이용하여 해석하고, 상기 각 해석 결과를 융합하는 융합 루틴;의 각 루틴을 포함하는 것을 특징으로 하는 제 3 언어 텍스트 생성 프로그램을 저장한 기록 매체.
  11. 삭제
  12. 제 10항에 있어서,
    상기 해석처리부, 상기 변환처리부, 상기 생성처리부 중 적어도 어느 하나에 있어서,
    각 언어에 관한 사전적 정보 또는 문법적 정보 중 적어도 어느 하나를 포함하여 구성되는 규칙적 정보와,
    코퍼스의 실제 데이터로부터의 학습 결과에 의한 경험적 정보를 이용하는 것을 특징으로 하는 제 3 언어 텍스트 생성 프로그램을 저장한 기록 매체.
  13. 제 10항 또는 제 12항에 있어서,
    상기 제 3 언어 텍스트 생성 프로그램은,
    제 3 언어의 구문 구조 정보나, 또는 제 3 언어의 단어 용법 정보 중 적어도 어느 하나에 대한 정보를, 상기 제 3 언어의 기존의 코퍼스로부터 일부 또는 전부에 대해 자동 획득한 제 3 언어의 고유 정보를 판독하는 제 3 언어 고유 정보 판독 루틴을 구비하며,
    상기 생성처리부는,
    상기 제 3 언어의 고유 정보에 근거하여 제 3 언어 텍스트를 생성하는 것을 특징으로 하는 제 3 언어 텍스트 생성 프로그램을 저장한 기록 매체.
  14. 제 8항에 있어서,
    상기 제 3 언어 텍스트 생성 장치에 있어서의 입력 수단은,
    낱장의 서류나 서적의 문서를 전자적 기록으로 변환하는 문서 캡처링/변환 수단에 의해 변환 작성된 컴퓨터 데이터;
    하드 디스크, 광학적 기억 장치의 전자적 기록 장치로부터 판독되는 컴퓨터 데이터; 또는,
    인터넷의 네트워크 상의 전자적 기억 장치로부터 취득 가능한 컴퓨터 데이터; 중 적어도 어느 하나의 컴퓨터 데이터를 상기 장치에 입력할 수 있는 것을 특징으로 하는 제 3 언어 텍스트 생성장치.
KR1020047002019A 2001-08-10 2002-08-09 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 KR100918338B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001243118 2001-08-10
JPJP-P-2001-00243118 2001-08-10
PCT/JP2002/008192 WO2003014967A2 (fr) 2001-08-10 2002-08-09 Algorithme de generation de texte dans une langue tierce par entree de textes multilingues, dispositif et programme correspondants

Publications (2)

Publication Number Publication Date
KR20040024619A KR20040024619A (ko) 2004-03-20
KR100918338B1 true KR100918338B1 (ko) 2009-09-22

Family

ID=19073262

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047002019A KR100918338B1 (ko) 2001-08-10 2002-08-09 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체

Country Status (6)

Country Link
US (1) US20040254783A1 (ko)
EP (1) EP1655674A2 (ko)
JP (1) JP4304268B2 (ko)
KR (1) KR100918338B1 (ko)
CN (1) CN1554058A (ko)
WO (1) WO2003014967A2 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20060083431A1 (en) * 2004-10-20 2006-04-20 Bliss Harry M Electronic device and method for visual text interpretation
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
JP4256891B2 (ja) 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
CN101286094A (zh) 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
CN102591857B (zh) * 2011-01-10 2015-06-24 富士通株式会社 一种平行语料资源获取方法及系统
JP5924666B2 (ja) 2012-02-27 2016-05-25 国立研究開発法人情報通信研究機構 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
CN104484156B (zh) * 2014-12-16 2017-04-05 用友网络科技股份有限公司 多语言公式的编辑方法、编辑系统和多语言公式编辑器
US10191899B2 (en) 2016-06-06 2019-01-29 Comigo Ltd. System and method for understanding text using a translation of the text
EP3616083A4 (en) * 2017-04-23 2021-01-13 Nuance Communications, Inc. MULTILINGUAL SEMANTIC ANALYZER BASED ON TRANSFERRED LEARNING
US11385916B2 (en) * 2020-03-16 2022-07-12 Servicenow, Inc. Dynamic translation of graphical user interfaces
US11580312B2 (en) 2020-03-16 2023-02-14 Servicenow, Inc. Machine translation of chat sessions
CN113569565B (zh) * 2020-04-29 2023-04-11 抖音视界有限公司 一种语义理解方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9101286A (nl) * 1991-07-23 1993-02-16 Oce Nederland Bv Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze.
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JP2880601B2 (ja) * 1992-01-22 1999-04-12 シャープ株式会社 言語処理装置
EP0658259B1 (en) * 1992-09-04 2000-03-01 Caterpillar Inc. Integrated authoring and translation system
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation

Also Published As

Publication number Publication date
JP4304268B2 (ja) 2009-07-29
EP1655674A2 (en) 2006-05-10
KR20040024619A (ko) 2004-03-20
US20040254783A1 (en) 2004-12-16
JP2003141114A (ja) 2003-05-16
CN1554058A (zh) 2004-12-08
WO2003014967A2 (fr) 2003-02-20

Similar Documents

Publication Publication Date Title
Chéragui Theoretical Overview of Machine translation.
KR100918338B1 (ko) 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체
RU2011122784A (ru) Способ семантической обработки естественного языка с использованием графического языка-посредника
Hutchins Example-based machine translation: a review and commentary
Singh et al. An encoder-decoder based framework for hindi image caption generation
Lyons A review of Thai–English machine translation
Jamro Sindhi language processing: A survey
MILAD Comparative evaluation of translation memory (TM) and machine translation (MT) systems in translation between Arabic and English
Singh et al. An efficient Romanization of Gurmukhi Punjabi proper nouns for pattern matching
Alsayed et al. A performance analysis of transformer-based deep learning models for Arabic image captioning
Baxi et al. GujMORPH-a dataset for creating gujarati morphological analyzer
Alansary et al. The universal networking language in action in English-Arabic machine translation
Patkar et al. A Neural Network Based Machine Translation model For English To Ahirani Language
Rijhwani Improving Optical Character Recognition for Endangered Languages
Tammanam et al. A hybrid approach to Pali Sandhi segmentation using BiLSTM and rule-based analysis.
Bhutia et al. Morph Analyzer of Verbs in Nepali Language
Khem et al. An Overview of Text Translation and Text Simplification Tasks
Chimann et al. Text Summarizer and Translator using NLP.
Chambers Automatic Bilingual Terminology Extraction-A Practical Approach
Amezian et al. Towards a large Biscript Moroccan Lexicon
Ramesh et al. Multiplatform Mobile App for Multilingual OCR Based Translator for Tamil (MMOT)
Joshi et al. Text Data Augmentation
Agarwal et al. Simultaneous Machine Translation with Visual Context
Atwell et al. Multi-level disambiguation grammar inferred from English corpus, treebank, and dictionary
Chaudhary et al. A Study of Transliteration Approaches

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee