KR20040063995A - 다언어 데이터베이스 생성 시스템 및 방법 - Google Patents

다언어 데이터베이스 생성 시스템 및 방법 Download PDF

Info

Publication number
KR20040063995A
KR20040063995A KR10-2004-7009532A KR20047009532A KR20040063995A KR 20040063995 A KR20040063995 A KR 20040063995A KR 20047009532 A KR20047009532 A KR 20047009532A KR 20040063995 A KR20040063995 A KR 20040063995A
Authority
KR
South Korea
Prior art keywords
language
word
document
correlation
translation
Prior art date
Application number
KR10-2004-7009532A
Other languages
English (en)
Inventor
엘리 에이버
Original Assignee
엘리 에이버
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/024,473 external-priority patent/US20030083860A1/en
Application filed by 엘리 에이버 filed Critical 엘리 에이버
Publication of KR20040063995A publication Critical patent/KR20040063995A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Abstract

제 1 언어(1)의 문서 구절을 제 2 언어(2)의 문서 구절로 변환하는 방법 및 장치가 기재된다. 문서 구절은 한 문서에서 직접 번역(3)될 수 있는 단어들 형태의 텍스트일 수 있다. 제 1 언어의 문서를 제 2 언어(3)의 문서로 직접 변환하기에는 정보가 충분하지 않을 경우 본 발명이 사용될 수 있다. 본 발명은 제 1 언어의 문서 구절과 다수의 제 3 언어들 각각의 문서 구절 간의 상관을 제공하는 단계, 다수의 제 3 언어들 각각의 구절에 대응하는 제 2 언어(2)의 샘플 구절들 간의 상관을 제공하는 단계, 동일한 두 개 이상의 샘플 구절들을 유추된 상관 구절로 식별하는 단계, 그리고 상기 유추된 상관 구절을 제 1 언어(1)의 문서 구절과 상관시키는 단계를 포함한다.

Description

다언어 데이터베이스 생성 시스템 및 방법{MULTILINGUAL DATABASE CREATION SYSTEM AND METHOD}
한 언어로부터 다른 언어로 문서를 자동적으로 번역하는 장치 및 방법들이 알려져 있다. 그러나, 이 장치들 및 방법들은 한 언어로부터 다른 언어로 문서를 정확하게 번역함에 있어 실패하는 경우가 자주 있다. 인간 본위의 번역에 추가하여, 다른 공지된 장치들은 상용 기계 번역 소프트웨어를 포함한다. 이 공지 시스템들은 오류를 일으키기 쉽고 속도가 느리며 불편한 단점들이 있다. 공지된 번역 장치들 및 방법들은 텍스트 입력에 대한 정확한 번역을 일관되게 내보낼 수 없으며, 따라서 판독 및 편집에 있어 사용자 개입을 필요로 한다. 정확한 기계 번역은 문서의 단어 대 단어 번역을 행하는 장치 및 방법을 제공하는 것보다 훨씬 복잡하고 정교하다. 단어 대 단어 시스템에서, 번역된 문서를 독자가 읽을 때 의미를 파악하기 어려운 경우가 자주 있다. 왜냐하면, 단어 대 단어 방법으로 번역할 경우 단어 선정에 오류가 있을 수 있고, 일관되지 않은 문법 단위들이 발생될 수 있기 때문이다.
이 결함을 극복하기 위해, 공지된 번역 장치들은 사전적, 형태적, 구문론적, 의미론적 규칙(rule)의 조합이나 이들의 세트를 바탕으로 문장의 문맥 내에서 용어 번역 선택을 행하도록 시도하였다. "규칙-본위(Rule-Based)" 기계 번역(MT) 시스템이라 알려진 이들 시스템들은 역시 결함을 가진다. 왜냐하면, 일관되게 정확한 번역을 제공할 수 없을만큼 상기 규칙(rule)에 예외가 수없이 많기 때문이다.
규칙 본위 기계 번역에 추가하여, "사례-본위(example-based)"기계 번역이라 알려진 새로운 방법이 고안되었다. 사례본위 기계 번역은 교차-언어 데이터베이스(cross-language database)에서 두개의 서로 다른 언어들로 저장된 문장을 이용한다. 번역 질의가 데이터베이스의 문장과 일치할 때, 타겟 언어의 문장의 번역이 제 2 언어로의 정확한 번역을 제공하는 데이터베이스에 의해 생성된다. 번역 질의어 일부가 데이터베이스의 문장 일부와 일치할 경우, 이 장치들은 소스 언어 문장에 매핑된 문장의 어느 부분이 질의어의 번역인 지를 정확하게 결정하려고 시도한다.
사례-본위 기계 번역 시스템들은 교차 언어 문장 데이터베이스가 수작업으로 만들어지고 항상 "불완전"할 것이기 때문에 폭넓은 언어의 정확한 번역을 제공할 수 없다. 사례-본위 기계 번역 시스템의 또다른 결점은 부분적 일치가 쉽게 번역되지 않는다는 점이다. 사례-본위 기계 번역에 이용하기 위해 번역된 문서의 쌍들을이용하여 교차-언어 데이터베이스의 생성을 자동화하려는 시도가 계속되고 있다. 그러나, 이 노력들은 어떤 상당한 규모의 의미있고 정확한 교차 언어 데이터베이스를 생성하는 데 있어 아직까지 성공적이지 못하다. 이 시도들 중 어떤 시도도 한쌍의 번역 문서들로부터 상당한 숫자의 단어 및 단어 스트링의 번역을 쉽고 정확하게 다듬는 알고리즘을 이용하지 못하고 있다.
일부 번역 장치들은 규칙 본위 및 사례 본위 엔진을 조합한다. 이 접근법 조합이 단독 시스템보다는 정확도를 높일 수 있으나, 사용자 개입 및 편집없이는 여전히 이용에 있어 문제가 많다.
한 언어로부터 다른 언어로 문서를 번역하려 시도할 때 직면하는 문제점들은 보다 일반적으로 생각할 때, 한 상태로부터 아이디어나 정보를 나타내는 데이터를, 즉, 단어를, 또다른 상태로 아이디어를 나타내는 데이터로, 가령, 수학적 기호로 변환하는 문제점에 적용할 수 있다. 이러한 경우에, 한 상태의 데이터를 제 2 상태의 동등한 데이터와 상관시키는 교차 아이디어 상관 데이터베이스가 고려되어야 할 것이다. 따라서, 여러 다른 언어나 상태(가령, 단어, 단어 스트링, 음성, 템포, 등)의 동등한 아이디어를 상관시키는 사전이나 데이터베이스를 생성하는 보다 효율적인 혁신적 방법 및 장치가 요구된다. 이 방법 및 장치는 제 1 언어나 상태의 문서들이 지닌 아이디어를 제 2 언어나 상태의 문서에 의해 나타나는 동일한 또는 유사한 아이디어로 번역 또는 변환할 수 있어야 할 것이다.
발명은 교차-아이디어 상관 데이터베이스를 이용하여 콘텐트를 조작하는 것에 또한 관련된다. 특히, 본 발명은 상관된 아이디어의 데이터베이스를 생성하는방법 및 장치를 제공하며, 아이디어를 한 상태로부터 다른 상태로 변환함에 있어 상기 데이터베이스를 이용하는 방법 및 장치를 제공한다.
한 실시예에서, 본 발명은 언어 변환 데이터베이스를 생성하기 위한 방법 및 장치를 제공하며, 이때, 두 언어가 상관된 아이디어의 데이터베이스를 형성한다. 본 발명은 문서를 한 언어로부터 또다른 언어로 변환하기 위해 상기 언어 데이터베이스를 이용하는 방법 및 장치를 또한 제공한다. 그러나, 본 발명은 선호되는 실시예에도 불구하고 언어 번역에 제한되지 않는다. 본 발명의 데이터베이스 생성 태양은 어떤 방식으로 관련되어 있으나 다른 상태로 표현되는 어떤 아이디어에도 적용될 수 있고, 본 발명의 변환 태양은 아이디어를 한 상태로부터 다른 상태로 정확하게 변환하는 데 적용될 수 있다.
언어 번역 실시예에 대한 본 발명의 적용이 이제부터 설명될 것이다. 본 문헌에서 번역(translate), 변환(convert), 조작(manipulate)이라는 용어들은 넓은 의미에서 상호혼용할 수 있도록 사용된다.
본 출원은 2001년 12월 21일자 미국특허출원 10/024,473 호의 연속분할출원(CIP)으로서, 2001년 3월 16일자 미국특허출원 60/276,107 호 및 2001년 6월 21일자 미국특허출원 60/299,472 호의 장점들을 청구하며, 그 내용 모두가 본원에서 참고로 인용된다.
본 발명은 한 상태(state)로부터 다른 상태(state)로 콘텐트를 변환하는 데 사용될 수 있는 다언어 데이터베이스를 생성하는 방법 및 장치에 관한 것이다.
도 1은 본 발명에 따른 교차-아이디어 데이터베이스의 한 실시예 도면.
본 발명의 한가지 목적은 교차-아이디어 상관 데이터베이스를 생성하고 보완하는 방법 및 장치를 제공함으로서, 한 언어나 상태로부터 또다른 언어나 상태로 문서의 효율적 변환을 촉진시키는 것이다. 이 데이터베이스들은 특정 아이디어나 정보 부분을 나타내는 제 1 형태나 상태의 데이터를 동일한 아이디어나 정보 부분을 나타내는 제 2 형태나 상태의 데이터와 상관시킨다.
본 발명의 또한가지 목적은 제 1 상태, 형태, 또는 언어의 데이터를 포함하는 제 1 문서로부터 제 2 상태, 형태, 또는 언어의 데이터를 포함하는 제 2 문서를 생성하는 방법 및 장치를 제공함으로서 한 언어나 상태로부터 또다른 언어나 상태로 문서의 번역을 촉진시켜서, 그 결과, 제 1, 2 문서가 실질적으로 동일한 아이디어나 정보를 나타내게 되도록 하는 것이다.
본 발명의 또한가지 목적은 제 1 상태, 형태, 또는 언어의 데이터를 포함하는 제 1 문서로부터 제 2 상태, 형태, 또는 언어의 데이터를 포함하는 제 2 문서를 생성하는 방법 및 장치를 제공함으로서 한 언어나 상태로부터 또다른 언어나 상태로 문서의 번역을 촉진시켜서, 그 결과, 제 1, 2 문서가 실질적으로 동일한 아이디어나 정보를 나타내게 되도록 하고, 이 방법 및 장치가 교차-아이디어 상관 데이터베이스를 이용하는 과정을 포함하도록 하는 것이다.
본 발명의 다른 한가지 목적은 실시간 문서 번역(넓은 범위에서 항 상태로부터 또다른 상태로 아이디어의 실시간 변환)을 제공하는 것이다.
본 발명은 교차-아이디어 데이터베이스를 생성하기 위한 방법 및 장치를 제공함으로서 이들 목적들을 성취한다. 교차-아이디어 데이터베이스를 생성하는 방법 및 장치는 동일한 일반 텍스트(즉, 텍스트(Parallel Text))나 일반적으로 관련된 텍스트("Comparable Text")의 정확한 번역)를 나타내는 두개 이상의 다른 언어로 한 쌍 이상의 문서를 제공하는 단계를 포함할 수 있다. 본 발명은 가용 교차-언어 문서의 제 1 언어에서 다수의 발생빈도를 가지는 모든 단어나 단어 스트링들의 제 1, 2 발생을 선택한다. 그후, 제 2 언어 문서의 제 1 단어 범위와 제 2 단어 범위를 선택하고, 이때, 제 1, 2 단어 범위는 제 1 언어 문서의 선택된 단어나 단어-스트링의 제 1, 2 발생에 해당한다. 그후, 제 1 단어 범위에서 발견된 단어 및 단어 스트링을 제 2 단어 범위에서 발견된 단어 및 단어 스트링과 비교하고, 두 단어 범위에 공통인 단어 및 단어 스트링을 찾아내어, 찾아낸 공통 단어 및 단어 스트링을 교차-아이디어 데이터베이스에 저장한다. 발명은 상기 교차-아이디어 데이터베이스에서, 제 2 언어의 두 범위에 있는 공통 단어나 단어 스트링을 제 1 언어의 선택된 단어나 단어 스트링과 상관시키고, 상관 빈도 조정 후 상관 빈도에 의해 순서를 매긴다. Parallel 또는 Comparable Texts의 언어들 사이에서 공통 단어나 단어 스트링을 테스트함으로서, 데이터베이스는 보다 많은 Parallel 또는 Comparable Text가 여러 다양한 언어에서 가용해짐에 따라 보다 큰 상관을 해결할 수 있다.
본 발명은 한 상태로부터 또다른 상태로 문서를 변환하는 방법 및 장치를 제공함으로서 이들 및 그 외 다른 목적들을 달성한다. 본 발명은 제 2 언어의 데이터 구절과 상관된 제 1 언어의 데이터 구절로 구성되는 데이터베이스를 제공한다. 본 발명은 상기 언급한 데이터베이스에 접근하여, 데이터베이스에 존재하는, 문서의 제 1 단어로 시작하는 번역될 문서의 가장 긴 단어 스트링을 식별함으로서 텍스트를 변환한다. 시스템은 제 1 언어의 문서로부터 찾아낸 단어 스트링에 상관된 제 2 언어의 단어 스트링을 데이터베이스로부터 불러온다. 시스템은 그후, 데이터베이스에 존재하는 문서의 제 2 단어 스트링을 선택하고, 상기 문서의 이전에 식별한 단어 스트링과 중복되는 단어(또는 단어 스트링)를 가지며, 그리고, 제 1 언어의 제 2 단어 스트링에 상관된 제 2 언어의 단어 스트링을 데이터베이스로부터 불러온다. 제 2 언어의 단어 스트링 상관이 중복 단어(또는 단어들)을 가질 경우, 제 2 언어의 단어 스트링 상관이 조합되어 번역(변환)을 생성하게 된다. 그렇지 않을 경우, 제 1 언어 단어 스트링에 대한 다른 제 2 언어 상관이 불러들여져, 성공할 때까지 단어 중복을 통합 조합을 위해 검사된다. 제 1 언어의 문서의 다음 단어 스트링은 이전에 식별한 제 1 언어 단어 스트링에 중복되는 단어를 가지는 데이터베이스에서 가장 긴 단어 스트링을 찾아냄으로서 선택되며, 전체 제 1 언어 문서가 제 2 언어 문서로 번역될 때까지 상기 과정이 계속된다.
본 발명은 교차-아이디어 데이터베이스를 생성하고 보완하여, 교차-아이디어 데이터베이스를 이용하여 제 1 언어나 상태로부터 제 2 언어나 상태로 문서를 변환하는 방법 및 장치를 제공한다. 여기서 설명되는 바와 같이 문서들은 어떤 매체에서 선택된 기호나 문자들로 표시되는 아이디어와 같은 정보의 집합체이다. 예를 들어, 문서들은 자기 매체나 광학 매체에 저장된 전자 문서일 수 있고, 또는 책같은 종이 문서일 수도 있다. 이 문서들에 포함된 기호와 문자들은 문서 사용자가 이해하도록 의도되는 한가지 이상의 표현 시스템을 이용하여 표현된 아이디오와 정보를 나타낸다. 본 발명은 한가지 표현 시스템으로 표현된 정보를 지닌 제 1 상태의 문서들을 조작하여, 제 2 표현 시스템을 이용하여 표현되는 실질적으로 동일한 정보를 가진 제 2 상태의 문서를 생성하도록 한다. 따라서, 본 발명은 영어, 히브리어, 등같은 문어 및 구어들의 표현 시스템들 사이에서 문서를 다른 언어로 조작하거나변환, 번역할 수 있다.
1. 데이터베이스 생성 방법 및 장치
a. 개관
본 발명의 방법은 문서 콘텐트 조작용 교차-아이디어 데이터베이스를 이용한다. 도 1은 교차-아이디어 데이터베이스의 한 실시예를 도시한다. 교차-아이디어 데이터베이스의 본 실시예는 열 1 및 열 2에 관련 데이터 구절의 리스팅을 포함한다. 데이터 구절은 표현 시스템의 특정 아이디어나 정보 부분을 나타내는 기호나 문자들의 그룹이다. 따라서, 열 1의 시스템 A 구절들은 여러 아이디어들과, 가설 표현 시스템 A의 아이디어 Da1, Da2, Da3, Da4의 조합을 나타내는 데이터 구절들이다. 열 2의 시스템 B 구절들은 표현 시스템 A의 데이터 구절들과의 상관 빈도에 의해 정렬되는 가설 표현 시스템 B의 여러 아이디어 및 상기 아이디어들의 조합의 일부를 나타내는 데이터 구절들 Db1, Db3, Db4, Db5, Db6, Db9, Db10, Db12 이다. 열 3은 직접 빈도(Direct Frequency)를 나타내며, 직접 빈도란 언어 B의 구절이나 구절들이 언어 A의 나열된 구절(또는 구절들)에 상관된 횟수를 말한다. 열 4는 감산 후 빈도(Frequencies after Subtraction)로서, 언어 B의 데이터 구절(구절들)이 언어 A의 구절(구절들)과 상관된 횟수에서, 상기 구절(구절들이 더 큰 구절의 일부분으로 상관되어 있는 횟수를 뺀 값이다. 이는 후에 더 상세하게 설명될 것이다.
도 1에 도시되는 바와 같이, 한개의 구절, 가령, Da1이 여러개의 구절 Db1, Db3, Db4와 가장 적절하게 상관될 수 있다. 데이터 구절들간 감산 후 빈도가 높을수록, 시스템 A 구절이 시스템 B 구절과 동등할 확률이 높다. 총 발생 빈도에 의해조정 빈도를 측정함에 추가하여, 조정 빈도는 특정 시스템 A 구절이 특정 시스템 B 구절에 상관되는 비율을 연산함으로서 측정될 수도 있다. 데이터베이스가 문서 번역에 사용될 때, 최고 순위로 상관된 구절은 데이터베이스로부터 가장 먼저 불러들여질 것이다. 그러나, 번역용 상관 구절의 조합을 테스트하는 데 사용되는 방법은 이와는 다른 낮은 순위의 상관이 테스트되어야 함을 결정한다. 왜냐하면, 높은 순위의 상관이 한번 테스트되면 사용될 수 없기 때문이다. 예를 들어, 데이터베이스가 Da1에 대한 상관에 대해 질의되면, Db1+Db3+Db4를 얻을 것이다. 번역용 데이터 구절을 정확하게 조합하는 과정에 의해 결정될 때 Db1+Db3+Db4가 사용될 수 없을 경우, 데이터베이스는 번역을 위해 또다른 상관 구절과의 정확한 조합을 테스트하도록 Db9+Db10을 내보낼 것이다.
일반적으로, 본 발명의 교차-아이디어 데이터베이스를 생성하는 방법은 Parallel 또는 Comparable Text에서 검사하고 동작하는 단계를 포함한다. 본 발명의 방법 및 장치는, 두 상태 사이에서의 상관으로 데이터베이스가 생성되고, 보다 구체적으로, 한 상태로 표현된 아이디어와 이와는 다른 상태로 표현된 아이디어간에 상관으로 데이터베이스가 생성되도록, 이용된다. 본 발명에 의해 보다 많은 문서들이 검사되고 동작됨에 따라, 두 상태간 번역이나 그 외 다른 관련 상관이 강해진다. 즉, 빈번해진다. 따라서, 충분히 많은 문서 "샘플"에 대하여 동작함으로서, 가장 흔한(즉, 가장 정확한) 상관이 명백해지고, 이 방법 및 장치는 변환 용도로 사용될 수 있다.
본 발명의 한 측면에서, 본 발명이 제1 언어의 단어 및 단어 스트링을 제2언어의 해당 단어 및 단어 스트링으로 상관시키는 교차-언어 데이터베이스를 생성하도록, 두 개의 상태가 문자 언어들(영어, 히브리어, 중국어 등)을 나타낸다. 단어 스트링은 연속하는 인접 단어 그룹으로 정의될 수 있으며 언어의 표현에 사용되는 구두점 및 기타 표시를 포함할 수 있다. 일례로 본 발명은 두 언어로 된 문서를 조사하고 두 가지 언어로 된 각 반복 단어 및 단어 스트링에 대해 번역 데이터베이스를 생성하여 데이터베이스를 생성한다. 그러나 본 발명은 언어 번역에 국한될 필요는 없다. 본 발명은 사용자가 아이디어 데이터베이스를 생성할 수 있게 하고 상기 아이디어를 수직 구조 측면에서 상이한 다른 아이디어와 상관시킬 수 있게 한다. 따라서 아이디어가 다른 아이디어와 상관되고 발생 빈도에 따라 등급이 매겨진다. 발생 빈도에 따라 주어지는 가중치와 이렇게 생성된 데이터베이스에 적용되는 용도는 사용자의 요건에 따라 가변적이다.
가령 텍스트를 한 언어에서 다른 언어로 변환시킬 경우에 본 발명은 영어와 중국어 간에 단어 및 단어 스트링을 번역하도록 작용한다. 본 발명은 두 언어에서 단어 및 단어 스트링 간의 상관 등급을 찾아낸다. 샘플 크기가 충분하다면 가장 빈번한 단어 및 단어 스트링은 영어 단어나 단어 스트링과 등가의 중국어 단어나 단어 스트링이 된다. 그러나 본 발명은 영어 단어나 단어 스트링에 대한 다른 중국어 상관을 찾아내서 사용자는 필요에 따라 이러한 상관을 조작한다. 가령 본 발명에 따라 동작할 때, 단어"mountain"은 중국어 단어 및 단어 스트링 항목을 찾아낸다. 단어"mountain"과 등가의 중국어가 최고 등급이 매겨질 수 있지만 본 발명은 "mountain"과 관련된 "snow", "ski", "dangerous sport", "the highest point inthe world", 또는 "Mt. Everest"와 같은 다른 외국어 단어나 단어 스트링을 찾아낸다. "mountain"에 대한 번역보다 낮은 등급의 단어 및 단어 스트링은 사용자에 의해 조작될 수 있다. 따라서 본 발명은 자동화된 상관 데이터베이스 생성기이다. 가장 강한 상관이 번역이나 변환을 나타내고 다른 빈번하지만 약한 상관은 조사되는 아이디어와 밀접한 관련이 있는 아이디어를 나타낸다. 그러므로 이러한 데이터베이스가 당해 분야에서 공지된 인공 지능 응용프로그램을 사용하는 시스템에 의해 사용될 수 있다. 이러한 시스템은 응용프로그램용 신경 네트워크로서 불완전하고 수동으로 생성되는 아이디어 데이터베이스를 현재 이용하고 있다.
본 발명의 또 다른 측면은 당해 분야에서 쉽게 구할 수 있는 PC와 같은 컴퓨터 디바이스를 사용한다. 컴퓨터가 대체로 일반적인 PC(단일 또는 네트워크 환경)일지라도 PDA, 무선 디바이스, 서버, 메인프레임과 같은 다른 컴퓨터 디바이스가 유사하게 고려된다. 그러나 본 발명의 방법 및 장치는 이러한 컴퓨터 디바이스를 사용할 필요가 없으며 교차-상관의 수동 생성을 포함한 다른 수단에 의해 쉽게 달성될 수 있다. 문서 샘플을 확장하고 교차-상관 데이터베이스를 생성하기 위해 연속 문서가 조사되는 방법은 가변적이고 자동 급지(당해 분야에서 공지된 자동 급지기와 같은)나 인터넷 검색 기술을 사용하여 Web Crawlers와 같은 관련 문서를 자동으로 찾아냄으로써 문서가 수동으로 분석 및 조작하기 위해 설정될 수 있다.
본 발명은 병렬 텍스트에 추가하여(또는 병렬 텍스트 대신에) 비교 텍스트를 조사함으로서 상관 데이터베이스를 생성할 수 있다. 게다가 본 방법은 한 언어 내에서 반복 단어나 단어 스트링을 검색할 때 이용 가능한 모든 문서를 집합적으로조회한다.
b.데이터베이스 구축
본 발명에 따르면 데이터베이스 구축을 목적으로 문서가 검사될 수 있다. 문서 입력 후에(두 가지 상이한 언어로 동일한 텍스트를 나타내는 한 쌍의 문서) 생성 프로세스가 시작된다.
예시 목적으로 문서는 두 가지 상이한 언어로 동일한 콘텐트(일반적으로 아이디어)를 포함한다고 가정하자. 문서A는 언어A로 문서B는 언어B로 되어 있다. 문서는 다음 텍스트를 포함한다:
문서(A)(언어A) 문서B(언어B)
XYZXWVYZXZ AABBCCAAEEFFGGCC
본 발명의 제1 단계는 주어진 단어나 단어 스트링에 대해서 단어 범위를 계산하여 가능한 상관들의 정확한 위치를 결정하는 것이다. 교차 언어식 단어 대 단어 분석만으로는 생산적인 결과를 생성하지 못하고(즉 문서A의 단어l은 문서B에서 단어l의 번역으로 존재하지 않는다) 한 언어의 문장 구조가 또다른 언어와는 다른 문장 위치(또는 순서)에서 등가의 아이디어를 가질 수 있기 때문에, 본 발명의 데이터베이스 생성 기술은 제1언어로 된 단어나 단어 스트링을 제2 언어 문서의 선택된 범위에서 발견된 모든 단어나 단어 스트링과 상관시킨다. 한 언어가 종종 다른 언어보다 길거나 짧은 단어 스트링으로 아이디어를 표현하므로 이 점은 또한 중요하다. 두 문서를 검사하여 범위가 결정되고, 이 범위는 제1 문서의 단어 및 단어 스트링에 대해 제2 문서의 단어 및 단어 스트링을 비교하는데 사용된다. 즉, 제2문서의 단어 및 단어 스트링 범위가 제1 문서의 단어 및 단어 스트링에 대해 가능한 상관으로 검사된다. 범위에 대한 텍스트에 의해, 데이터베이스 생성 기술은, 제 1 언어 단어 및 단어 스트링으로 번역할 수 있는 등가로 취급될 수 있는, 다수의 제 2 언어 단어나 단어 스트링들을 확립한다.
제 1 언어 문서의 단어 및 단어 스트링에 대한 상관을 찾아내는 제2 언어 문서 범위를 확정하기 위해 결정되어야 하는 것이 두 가지 이다. 첫째 제2 문서의 범위 크기나 값인데, 이것은 범위에 있는 단어의 수에 의해 결정된다. 둘째 제2 문서에서 범위의 위치인데, 이것은 범위의 중간점 위치로 결정된다. 이 둘은 사용자가 정의한다. 범위의 위치 및 크기 한정에 있어서 목표는 분석되는 제1 언어 구절의 제2 언어 단어 및 단어 스트링 번역이 포함될 최고 가능성을 보장하는 것이다.
한 문서에 있는 단어의 수에 기초하여 종 모양의 곡선 유도와 같은 통계적 기술을 포함한 다양한 기술이 범위의 크기 결정에 사용될 수 있다. 종 모양의 곡선과 같은 통계적 기술을 사용할 경우 문서의 처음과 끝에서의 범위는 문서 중앙에서의 범위보다 작다. 범위에 대한 종 모양의 빈도는 한 문서에 있는 단어의 절대적 개수에 따라 유도되든 특정 비율에 따라 유도되든 관계없이 번역의 외삽을 허용한다. 범위가 특정 단어 비율에 대해 한 준위, 또 다른 단어 비율에 대해 더 높은 준위, 최종 단어 비율에 대해 제1 준위와 동일한 제3 준위에서 존재하는 스텝 기술과 같은 다른 범위 계산 방법이 있다. 모든 범위는 사용자에 의해 한정되거나 제1언어로 분석되는 단어나 단어 스트링에 유용한 상관을 포획할 목적으로 다른 가능한 매개변수에 따라 확정된다.
제2 언어 문서 내에서 범위의 위치는 두 문서에서 단어의 개수 비교에 달려있다. 범위 지정을 목적으로 문서로 지정하는 것은 사용자에 의해 한정되며 새로운 기사, 책의 장(chapter), 다중 데이터 구절로 구성된 식별 가능한 단위 등을 예로 들 수 있다. 두 문서의 단어 개수가 대략 동일하면 제2 언어의 범위 위치는 제1언어로 분석되는 단어나 단어 스트링의 위치와 대략 동일하다. 두 문서의 단어 개수가 동일하지 않으면 범위 위치를 정확히 선정하기 위해 비율이 사용될 수 있다. 가령 문서A가 50단어를 포함하고 문서B가 100단어를 포함하면 두 문서의 비율은 1:2이다. 문서A의 중간점은 단어 위치 25이다. 문서A의 단어25가 분석되지만 이러한 중간점(단어위치25)을 문서B의 중간점 선정에 사용하는 것은 이 위치(단어위치25)가 문서B의 중간점이 아니므로 효과적이지 않다. 대신에 문서A의 단어25 분석을 위해 문서B의 범위 중간점은 문서B의 중간점에 수동으로 배치하거나 다른 기술에 의해 두 문서 간의 단어 비율(25ㅧ 2/1)에 의해 결정될 수 있다.
문서의 단어나 단어 스트링 위치를 참조하고 위 범위에 속하는 모든 단어나 단어 스트링을 주목함으로써 본 발명의 데이터베이스 생성 기술은 분석되는 제1 문서의 단어나 단어 스트링으로 번역될 수 있는 제2 언어 문서의 단어나 단어 스트링의 가능한 집합을 찾아낸다. 본 발명의 데이터베이스 생성 기술이 활용됨에 따라 상관 빈도가 전개됨에 따라 가능한 번역으로 되는 단어나 단어 스트링의 집합은 좁아진다. 따라서 한 쌍의 문서를 검사한 후에 본 발명은 제2 언어 문서의 단어나 단어 스트링과 제1 언어 문서의 단어나 단어 스트링의 상관 빈도를 생성한다. 여러 쌍의 문서를 검사한 후에(큰 샘플이 생성됨) 교차-언어 상관 데이터베이스 생성 기술은 한 단어나 단어 스트링에 대해 더 높은 상관 빈도를 찾아낸다. 충분히 큰 샘플 생성 후에 최고 상관 빈도가 가능한 번역이 되고 상관 빈도가 정확한 번역이 되는 궁극적인 지점은 사용자가 한정하고 다른 해석적 번역 기술(2001,3,16 출원된 콘텐트 조작 방법 및 장치란 명칭의 출원 60/276,107)에 종속된다.
본 발명은 단어뿐만 아니라 단어 스트링(복수 단어)을 테스트 한다. 단어 스트링은 모든 구두점과 표시를 포함한다. 제1언어로 된 단일 단어가 분석된 이후에 본 발명의 데이터베이스 생성기술은 2-단어 스트링을 분석하고 이후 3-단어 스트링 등을 점진적으로 분석한다. 이 기술은 다른 언어로 된 더 길거나 짧은 단어 스트링(단어)으로 번역되는 한 언어로 된 단어나 단어 스트링의 번역을 가능케 한다. 제1언어로 된 모든 문서에서 한 단어나 단어 스트링이 발생하면 절차는 즉시 다음 단어나 단어 스트링 분석에 착수하고 분석 절차가 재개된다. 모든 병렬 및 비교 텍스트에서 복수의 발생 빈도를 갖는 모든 단어나 단어 스트링이 분석되면 분석은 중지된다.
한 측면에서, 단어나 단어 스트링의 재-발생 탐색을 목적으로 여러 문서가 합쳐져 단일 문서로 취급될 수 있다. 단어나 단어 스트링이 반복되지 않는 경우에 모든 병렬 및 비교 텍스트에서 단지 한번 발생해야 할 것이다. 또 다른 측면에서 모든 병렬 및 비교 텍스트에서 한번 이상 발생하든 그렇지 않든 관계없이 모든 단어나 단어 스트링에 대응하는 범위를 조사할 수 있다. 또 다른 측면에서 데이터베이스가 조회 대상 중 일부인 특정 단어나 단어 스트링들을 분석함으로서 구축될 수 있다. 단어나 단어 스트링이 번역될때 본 발명은 web-crawlers 및 그 외 다른 디바이스를 사용하여 인터넷에 교차-언어 텍스트를 위치시키고 조회의 분석과 충분히 이용 가능한 교차-언어 재료의 부족에 기초하여 누락 상관을 공급하도록 사용자에게 요청함으로써 분석되지 않고 메모리에 저장된 교차-언어 문서에서 단어나 단어 스트링의 복수 발생을 검색할 수 있다.
본 발명은 단어의 정확한 위치에 따라 좌우되는 단어 스트링들을 분석할 수 있으며 어법, 스타일, 약어와 같은 문법적 표현과 단어 선택을 할 수 있다. 이러한 단어 스트링 상관은 이중 중복 번역 기술에도 유용하다.
본 발명은 더 큰 단어 스트링 내의 단어나 단어 스트링 부분집합이 상기 더 큰 단어 스트링에 대한 상관으로 꾸준히 나타나는 상황을 해결할 수 있다. 본 발명은 빈도 귀환을 조작하여 이러한 패턴들을 다룬다. 가령 이름이 완전한 이름("John Doe")으로나 "John", "Doe"과 같은 약어로 제시된다. 본 발명은 단어 스트링 복귀보다 더 개별적인 단어 복귀를 검색함으로서(즉 완전한 이름인 "John Doe"보다 "John", "Doe"을 검색) 단어 스트링을 구성하는 단어가 구절의 일부와 개별적으로 카운트될 수 있기 때문에 등급을 변화시키는 메카니즘이 활용되어야 한다. 가령 한 문서에서 "John Doe"은 100회 나타나지만 "John Doe"의 일부나 그 자체로서 "John"은 120번 나타나고 "John Doe"의 일부나 그 자체로서 "Doe"는 110회 나타날 수 있다. 통상의 번역은 "Doe"보다 "John"에 더 높은 등급을 주며 이들은 "John Doe"보다 높은 등급이다. 부분집합(또는 개별적 리턴)의 발생에서 더 큰 단어 스트링의 발생 횟수를 뺌으로써 정확한 순서 지정이 가능하다. 따라서 "John"의 발생 빈도인 120에서 "John Doe"의 발생빈도인 100을 뺌으로써 "John"에 대해 보정된 리턴은 20이다. 이러한 분석의 적용은 단어 스트링"John Doe"의 발생빈도 100, "John"의 발생 빈도 20, "Doe"의 발생 빈도10을 생성하여 정확한 상관을 생성한다.
이러한 문제는 이름에 국한되지 않으며 통상의 구절에서 빈번히 나타난다. 가령 단어 스트링 "I Love you"가 다른 언어의 가장 빈번한 문자 스트링 상관으로 번역될 때마다, 다른 언어에서의 "love"에 대한 단어는 이와는 독립적으로 상관될 수 있다. 추가로 단어 스트링이 다른 문서에서 상이하게 번역될 경우 "love"가 다시 상관될 수 있다. 이것은 제1 언어로 된 "I Love you"의 번역을 위해 제2 언어로 된 "I Love you"대신에 제2언어로 된 "love"로 복귀한다. 그러므로 더 큰 열의 상관을 등급을 매길때 다시 한번 시스템은 모든 부분집합 상관의 빈도에서 더 큰 단어 스트링 상관의 빈도의 수를 뺀다. 이 개념이 도1에 제시된다.
또한 단어 및 단어 스트링 상관 빈도를 카운트할 때 데이터베이스는 "it","an","a","of","in"과 같은 공통 단어를 무시할 수 있다. 이것은 주어진 범위의 일부로서 수많은 공통 단어에 의해 왜곡되지 않는 진짜 상관 빈도를 더욱 정확히 반영한다. 이것은 본 발명의 데이터베이스 생성 기술이 과도한 뺄셈을 하지 않고 공통 단어가 분석을 왜곡하는 것을 방지하게 한다. 이러한 상용 단어가 상관 데이터베이스에서 빠지지 않을 경우, 적절하지 않다면, 이들은 번역으로 인정되지 않는다. 왜냐면 이중 중복 절차가 이를 허용하지 않기 때문이다.
단어 및 단어 스트링의 공통 발생 횟수를 정확히 반영하기 위해 상관 빈도를 조절하는 다른 계산법이 사용될 수 있다. 가령 분석된 단어의 범위가 중복될 경우 이중-카운트를 방지할 조절이 필요하다. 더욱 정확한 상관 빈도를 구축하기 위해조절이 바람직하다. 본 발명에 따라 교차-아이디어 데이터베이스를 생성 및 보충하는 방법 및 장치가 2개의 문서를 사용하여 기술되며, 아래의 표가 재생성된다.
문서(A)(언어A) 문서B(언어B)
X Y Z X W V Y Z X Z AA BB CC AA EE FF GG CC
이 문서는 반복 단어 및 단어 스트링에 대해 집중될지라도 이것은 예시적 목적일 뿐이다. 모든 비교 및 병렬 문서를 사용하여 반복 단어 및 단어 스트링이 분석된다.
위의 두 문서를 사용하여 다음 단계가 데이터베이스 생성 기술에서 나타난다.
단계1. 범위의 크기 및 위치가 결정된다. 위치 및 크기는 사용자에 의해 한정되거나 다양한 방법으로 근사화 된다. 두 문서의 단어 카운트는 대략 동일하므로(문서A에서 10개, 문서B에서 8개) 문서A의 단어나 단어 스트링의 위치와 일치하도록 범위의 중간점을 위치시킬 수 있다. (문서 간의 단어 카운트 비율이 80%이므로 범위의 위치는 분수4/5를 사용하여 확정될 수 있다). 본 예에서, 3의 범위 크기나 값은 벨 곡선을 근사하는 데 있어 최적의 결과를 제공할 수 있다. 이 범위는 문서의 시점과 종점에서 (+/-)1 일 것이고, 중간부에서 (+/-) 2일 것이다. 그러나, 표시하는 바와 같이, 이 범위(또는 이 범위 결정에 사용되는 방법)는 사용자에 의해 규정된다.
단계 2. 그다음, 문서 A의 제 1 단어가 검사되고 문서 A에 대해 테스트되어, 문서의 상기 단어의 발생 빈도 수가 결정된다. 본 예에서, 문서 A의 제 1 단어는 X이다. X는 문서 A에서 세 번 나타난다(위치 1, 위치 4, 위치 9). 단어나 단어 스트링의 위치 번호는 문서의 상기 단어나 단어 스트링의 다른 단어들에 대한 위치이다. 따라서, 위치 번호는 구두점을 무시한 문서 내 단어의 수에 해당한다. 예를 들어, 문서에 10개의 단어가 있고 단어 "king"이 두 번 나타날 경우, 단어 "king"의 위치 번호는 이 단어가 나타나는 위치들이다.
단어 X가 문서에서 두 번이상 나타나기 때문에, 이 과정은 다음 단계로 진행된다. 단어 X가 한번만 나타날 경우, 상기 단어는 뛰어넘게 되고, 이 과정은 다음 단어로 이어지고 생성 과정이 계속된다.
단계 3. 위치 1에서 제 1 언어 단어 X에 대해 가능한 제 2 언어 번역이 되돌아온다. 문서 B에 상기 범위를 적용하면, 문서 B에서 위치 1과 2(1 +/- 1)에서 단어들을 도출한다. AA와 BB(문서 B의 위치 1과 2에 위치함). 모든 가능한 상관이 X에 대한 잠재적 번역이나 관련 상관으로 되돌아온다. AA, BB, AA BB(단어 스트링 상관). 따라서, X1(단어 X의 첫 번째 발생)은 AA, BB, AA BB를 상관으로 되보낸다.
단계 4. 단어 X의 다음 위치가 분석된다. 이 단어(X2)는 위치 4에서 발생한다. 위치 4가 문서의 중앙 근처이기 때문에, 앞서 결정된 범위는 위치 4의 양쪽에 두개의 단어일 것이다. 가능한 상관은 문서 B의 단어 4를 봄으로서, 그리고 범위를 적용함으로서 되돌아온다. 따라서, 단어 4 앞에 두개의 단어, 단어 4 뒤에 두개의 단어가 되돌아온다. 따라서, 위치 2, 3, 4, 5, 6에서 단어들이 되돌아온다. 이 위치들은 문서 B의 단어 BB, CC, AA, EE, FF에 해당한다. 이 단어들의 모든 순방향 순열이 고려된다. 따라서, X2는 BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AAEE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, RMFLRH EE FF를 가능한 상관으로 되보낸다.
단계 5. X(위치 1)의 제 1 발생 결과는 X(위치 4)의 제 2 발생의 결과와 비교되고, 일치 여부가 결정된다. 두 범위의 중복에서 발생하는 동일한 단어나 단어 스트링을 포함하는 결과가 단일 발생으로 감소되어야 함을 주목하여야 한다. 예를 들어 본 예에서, 위치 2의 단어가 BB이고, 이는 X의 제 1 발생에 대해 그리고 X의 제 2 발생에 대해 모두 되돌아온 값이다. 이 동일한 단어 위치가 X1 및 X2에 대해 되돌아오기 때문에, 단어는 한개의 발생으로 카운트된다. 그러나 동일한 단어가 중복 범위에서 되돌아오지만 서로 다른 두 단어 위치로부터 되돌아올 경우, 이 단어는 두 번으로 카운팅되며 상관 빈도가 레코딩된다. 이 경우에, 단어 X에 대한 결과는 AA이다. 왜냐하면 상기 단어(AA)가 X1 및 X2 모두에 대한 상관 결과에서 나타나기 때문이다. 두 상관 결과에서 발생하는 나머지 단어는 BB이다. 그러나, 앞서 설명한 바와 같이, 상기 단어가 X의 제 1, 2 발생에서 범위의 동작에 의해 도달되는 동일한 위치이기 때문에, 이 단어는 무시될 수 있다.
단계 6. 단어 X(위치 9)(X3)의 다음 위치가 분석된다. (문서 끝 부분에서) (+/-)1 의 범위를 적용하면, 문서 B의 위치 8, 9, 10에서 상관이 나타난다. 문서 B가 8개의 위치만 가지기 때문에, 이 결과는 잘려나가게 되고, 단어 위치 8만이 X의 가능 값(CC)으로 되돌아온다. (주: 대안으로, 사용자 규정 매개변수는 위치 8과 그다음 최근거리 위치(위치 7의 GG)를 되돌릴 수 있도록 분석의 일부분으로 두 문자의 최소값을 요청할 수 있다).
X3의 결과를 X1의 결과와 비교하면, 어떤 일치점도 발견되지 않고 따라서 상관이 없다.
단계 7. 단어 X의 다음 위치가 분석된다. 그러나, 문서 A에는 단어 X의 발생이 더 이상 없다. 이 시점에서, 1의 상관 빈도가 언어 A의 단어 X에 대해, 언어 B의 단어 AA에 성립된다.
단계 8. 단어 X의 추가 발생이 없기 때문에, 이 과정은 단어 단위로 증가하고 단어 스트링이 테스트된다. 이 경우에, 검사되는 단어 스트링은 문서 A의 첫 번째 두 단어인 "X Y"이다. 단계 2-7에 기재된 것과 동일한 기술이 이 어구에도 적용된다.
단계 9. 문서 A를 봄으로서, 단어 스트링 X Y의 발생이 한번 뿐임을 알 수 있다. 이 시점에서, 증가 과정이 중단되고, 어떤 데이터베이스 생성도 일어나지 않는다. 종점에 도달하였기 때문에, 다음 단어가 검사된다(단어 스트링에 대한 일치가 없을때마다 이 과정이 발생된다). 이 경우에 문서 A의 위치 2의 단어는 "Y"이다.
단계 10. 단어 "Y"에 대해 단계 2-7의 과정을 적용하면, 다음의 결과를 얻을 수 있다. 즉, 단어 Y의 두 발생(위치 2, 위치 7)이 나타나, 데이터베이스 생성 과정이 계속된다. (다시, Y가 문서 A에 한번만 나타날 경우, Y는 검사되지 않을 것이다). 위치 2에서 범위 크기는 (+/-) 1 단어이다.
문서 B에 범위를 적용하면(단어 Y의 제 1 발생 위치인 위치 2), 문서 B의 위치 1, 2, 3에서 결과를 얻을 수 있다.
이렇게 나타난 위치에서 대응하는 외국어 단어는 AA, BB 및 CC이다. 포워드 교환를 적용하면, Y1에 대하여, AA, BB, CC, AA BB, AA BB CC 및 BB CC의 가능성이 도출된다.
Y의 다음 위치가 분석된다(위치7).
위치7에서 범위크기는 (+/-)2 단어이다.
문서 B에 상기 범위(위치 7)를 적용하면, 위치5, 6, 7 및 8에서 EE FF GG 및 CC가 나타난다.
모든 교환은 Y2에 대해 하기 가능성을 제공한다. EE, FF, GG, CC, EE FF GG, EE FF GG CC, FF GG, FF GG CC 및 GG CC.
Y1으로부터 매치 결과들은 유일한 매치(match)로서 CC를 제공한다.
Y1 및 Y2를 위한 결합매치들은 Y에 대한 상관 빈도로 CC를 제공한다.
단계11
범위증가의 종료. 단어Y에 대한 유일한 매치(단어 CC)가 Y의 제 1 발생에 대한 범위의 종료시 형성되기 때문에(문서 B의 위치 3에서 CC가 발생됨), 위치(1, 2, 3, 4)를 제공하기 위해 제1 발생에서 범위가 1 만큼 증가된다. 즉, AA, BB, CC, AA 또는, 다음의 포워드 교환, 즉, AA, BB, CC, AA BB, AA BB CC, AA BB CC AA, BB CC, BB CC AA, CC AA. 상기 결과를 적용하면 Y에 대한 가능한 번역으로서 CC가 여전히 도출된다. 앞서 도출된 매치가 제 1 발생에 대한 범위의 말미에서 나타났기 때문에 범위가 증분되었다. 이 패턴이 발생할 때마다, 범위 증분의 말미는 완료 보장을 위한 서브단계(또는 대안의 단계)로 발생될 것이다.
단계 12
문서 A 에서 더 이상 "Y"의 발생이 존재하지 않기 때문에, 상기 분석이 문서 A에서 한 단어를 증가시키고, 단어 스트링 "Y Z"가 검사된다(단어 Y 다음의 단어). 다음 스트링(Y Z)으로 증분하여 과정을 반복하면 다음과 같은 결과를 얻을 수 있다. 즉, 문서 A에 단어 스트링 Y Z가 두 번 나타나고, 제 1 발생(Y Z1)에서 Y Z에 대한 위치 2 및 7의 가능성은 AA, BB, CC, AA BB, AA BB CC, BB CC 이다(주: 선택적으로 언어 A에서 분석되는 단어 스트링들이 길어짐에 따라 범위의 크기확장을 포함하도록 범위 매개변수들이 규정될 수 있다). 제 2 발생(Y Z2)에서 Y Z의 가능성은 EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC 및 GG CC 이다.
매치들은 단어 스트링 Y Z에 대한 가능한 상관으로 CC를 도출한다.
범위(범위 증분의 말미)를 확장시키면, Y Z에 대하여 다음의 결과를 얻을 수 있다. AA, BB, CC, AA BB, AA BB CC, AA BB CC AA, BB CC, BB CC AA 및 CC AA. 상기 결과들을 적용시키면, 단어 스트링 Y Z에 대한 상관 빈도로 CC가 도출된다.
단계 13
"Y Z"의 발생이 더 이상 문서 A에 존재하지 않기 때문에, 상기 분석은 문서 A에서 한 단어를 증가시키고, 단어 스트링" Y Z X"가 검사된다. ( 위치 3에서 단어 Z 다음의 단어). 다음 단어 스트링(Y Z X)로 증가 및 과정의 반복( YXZ 가 문서 A 내에서 2회 반복한다. )은 하기 과정을 발생한다.
위치(2, 3, 4, 5)에서 YXZ의 제 1 발생을 위한 귀환.
교환은 BB, CC, AA, EE, BB CC, BB CC AA, BB CC AA EE, CC AA, CC AA EE, 및 AA EE.
위치 (5, 6, 7, 8)에서 Y Z X 의 제 2 발생을 위한 귀환.
교환은 EE, FF, GG, CC, EE FF, EE FF GG, EE FF GG CC, FF GG, FF GG CC 및 GG CC 이다.
두 개를 비교하면 단어 스트링 Y Z X을 위한 관계 빈도로서 CC가 형성된다. 가능한 관계로서 EE의 귀환이 동일 단어 (즉 동일 위치에서 )로서 방해되기 때문에, 무시된다.
단계 14
다음 단어 스트링(YZ XW)로 증가는 단지 한 개의 발생을 거친다. 따라서 단어 스트링 데이터베이스형성이 완료되고, 다음 단어가 검사된다. Z (문서 A에서 위치 3)
단계 15
문서 A에서 3회 발생하고 Z를 위한 상기 단계를 적용하면, 하기 과정이 발생된다.
Z1을 위한 귀환은 AA, BB, CC, AA, EE, AA BB, AA BB CC, AA BB CC AA, AA BB CC AA EE, BB CC, BB CC AA, BB CC AA EE, CC AA, CC AA EE 및 AA EE이다.
Z2를 위한 귀환은 FF, GG, CC, FF GG, FF GG CC, 및 GG CC 이다.
Z1 및 Z2를 비교하면 Z를 위한 관련 빈도로서 CC가 발생된다.
Z3(위치 10)은 정의된 것과 같이 범위내에서 귀환을 가지지 못한다. 그러나각 언어 A 및 단어 스트링을 위한 적어도 한 개의 귀환이 존재해야 하는 변수를 추가한다면, Z를 위한 귀환은 CC이다.
Z3 및 Z1을 위한 귀환을 비교하면 단어 Z를 위한 관련 빈도로서 CC가 발생된다. 그러나 단어위치 8 내에서 CC는 상기 Z2의 관계에서 이미 카운트되었기때문에, 상기 관계는 고려되지 않는다. 중복 범위에 의해 과정은 발생을 이중으로 카운트할 때, 정확한 발생횟수를 더욱 정확히 반영하기 위해 관련 빈도를 장치가 감소시킨다.
단계 16
다음 단어 스트링으로 증가하면 단어 스트링 Z X가 발생되고, 이는 문서 A 내에서 2회 발생된다. Z X 에 상기 단계들을 적용하면 하기 과정이 제공된다.
Z X1에 대한 결과는 BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, 및 EE FF 이다.
Z X2에 대한 결과는 FF, GG, CC, FF GG, FF GG CC 및 GG CC 이다.
상기 결과들을 비교하면, 단어 스트링 Z X 와 CC사이의 상관 관계가 형성된다.
단계 17
증분에 따라 다음 단어 스트링은 Z X W이다. 이는 단지 일회만 발생하여, 문서 A 내에서 다음 단어(X)가 검사된다.
단계 18
단어 X가 이미 제 1 위치에서 검사되었다. 그러나 단어 x에 대한 가능한 결과로서, 다른 문서에 대한 단어(X)의 제 2 위치는 검사되지 않았다. 따라서, (제 2 위치의) 단어 X가 단어 X의 제 1 발생에서처럼 처리되고, 문서내에서 순방향으로 이동한다.
위치 4에서의 X에 대한 결과는 BB, CC, AA, EE, FF, BB CC, BB CC AA, BB CC AA EE, BB CC AA EE FF, CC AA, CC AA EE, CC AA EE FF, AA EE, AA EE FF, EE FF이다.
위치 9에서 X에 대한 결과는 CC를 발생시킨다.
위치 9의 결과를 위치 4에 대한 결과와 비교하면, 단어 X에 대한 가능한 매치로서 CC가 도출되며, 이것이 상관 빈도로 부여된다.
단계 19
(문서를 순방향으로 볼 때, X의 제 2 발생에 비교하기 위한 X의 추가적 발생이 없기 때문에) 다음 단어 스트링으로 증분하면, 단어 스트링 X W가 도출된다. 그러나, 이 단어 스트링은 문서 A 내에 한번만 발생하며, 따라서, 과정은 다음 단어 (W)를 검사하게 된다. 단어 W는 문서 A에 한번만 나타나며, 따라서 다음 단어 스트링에 대해서가 아니라 문서 A의 다음 단어에 대해 구현이 이루어진다. 왜냐하면, 단어 W가 한번만 발생하기 때문이다. 단어 W가 문서 A에 한번만 나타나고, 따라서 다음 단어 Y가 검사된다. 단어 Y는 문서 A의 위치 7보다 높은 다른 위치에서는 발생하지 않아, 다음 단어 Z가 검사된다. 단어 Z는 위치 8 이후에 위치 10에서 다시 발생한다.
단계 20
단어 Z 의 제 2 발생에 대하여 상술한 과정을 적용하면, 다음의 결과가 도출된다.
위치 8에서 Z에 대한 결과는 GG, CC, 및 GG CC이다.
위치 10에서 Z에 대한 결과는 CC이다.
위치 10의 결과를 위치 8의 결과와 비교함녀, 단어 Z에 대해 어떤 상관도 도출되지 않는다.
다시, 단어 CC가 가능한 상관으로 나타난다. 그러나, CC는 위치 8에서 Z를, 위치 10에서 Z를 분석함으로서 도달하는 동일한 단어 위치를 표현하기 때문에, KD관이 무시된다.
단계 21
한 단어만큼 증분함으로서, 단어 스트링 Z X가 발생된다. 상기 단어 스트링은 문서 A 내에서 또다른 순방향 위치들내에서 발생되지 못하여, 과정은 문서 A의 다음 단어 X 에서 새로 개시된다. 단어 X는 문서 A 내에서 또 다른 (순방향) 위치에서 발생되지 못하고, 과정은 새로 개시된다. 이에 따라 문서 A 의 종료에 도달하고, 분석이 종료된다.
단계 22
상기 과정의 모든 결과들을 결합하고 상술한 바의 중복사항을 제거하여 최종 관련 빈도가 계산된다.
문서 A의 단어 및 단어 스트링에 대해 결론적 결과를 내보내기에는 데이터가 불충분하다. 앞서 검사된 상기 상관들과 함께 상기 단어들 및 단어 스트링을 포함한 상대적으로 많은 문서 쌍이 검사됨에 따라, 관련빈도가 확률적으로 더욱 신뢰성을 가져서 언어 A 및 B 사이의 단어들 또는 단어 스트링들이 단어 및 단어 스트링의 가능한 번역을 위한 관계를 형성한다.
당 분야에 잘 알려진 종류의 컴퓨터 시스템을 이용하여 동작하는 데이터베이스 생성 방법의 한 실시예가 아래에 제시된다.
위에서 제시된 바와 같이, 상기 실시예는 상관을 생성하기 위한 기술을 나타낸다. 본 발명의 기술은 언어번역에 국한되지 않는다. 넓은 의미에서, 상기 기술이 관련된 동일한 아이디어의 두 가지 표현들에 적용되고, 서로 다른 단어들 또는 단어 스트링들에 의해 표시되는 동일한 아이디어에 관한 관련 쌍으로서 존재한다. 따라서 본 발명은 모든 감지된 (청각, 시각, 후각 등의 ) 경험을 나타내는 아이디어를 포함하여, 관련 데이터, 음성, 음악, 비디오 또는 아이디어로서 존재하는 광범위한 개념에 적용된다. 요건 사항은 본 발명이 두 개가 실시예를 분석하는 것이다(언어번역시 실시예는 문서이고, 음악의 경우 실시예는 악보 등이다).
다른 실시예에서, 당 분야에 잘 알려진 규칙-본위 알고리즘이 교차-아이디어 상관 학습에 포함될 수 있다. 그래서, 이름, 번호, 날짜 등과 같은 교환가능한 내용 및 의미를 의도하는 일부 텍스트 종류들을 취급할 수 있다.
이외에, 가용한 교차언어문서가 통계적으로 의미있는 번역 결과를 제시하지 못할 경우, 사용자는 번역에 대한 가능한 선택 및 그 외 다른 상관을 검사할 수 있고, 적절한 선택을 승인하여 순위를 매길 수 있다.
앞서 설명한 바와 같이, 상관 빈도에 대하여 번역 쌍의 문서들이 많을수록 단어 및 단어 스트링들간 상관 빈도가 점점 커진다. 더 많은 언어 쌍들의 문서들이 검사됨에 따라, 본 발명의 방법 및 장치는, 언어쌍들간 직접적으로가 아니라, 제 3 언어와의 공통 상관을 가진 언어들을 바탕으로 언어쌍들간 "유추 상관(deduced associations)"을 축적하기 시작할 것이다. 추가적으로, 번역된 문서들이 여러 언어로 존재할 경우 공통 상관 결과는, 단 하나의 공통 상관이 모두 사이에 존재할 때까지, 여러 언어들 사이에서 분석될 수 있다.
한 쌍의 언어들의 텍스트가 제 3 언어와 공통 정의를 공유할 때, 한쌍의 언어의 텍스트간에 유추 상관이 생성될 수 있다. 텍스트는 단어나 숙어처럼 번역될 문서의 일부분이나 구절일 수 있다. 예를 들어, 언어 A의 숙어 "aa dd pz"를 언어 B의 숙어로 직접 변환할만한 교차 언어 텍스트가 불충분할 경우, 상관을 유추하는 것은 이 언어 A의 숙어를 언어 C, D, E, F의 숙어 번역과 비교하는 과정을 포함할 수 있다(표 1 참조). 물론 언어 C, D, E, F에는 이 번역을 행하기 위한 교차 언어 텍스트가 충분히 존재한다고 가정한다. 그후, "aa dd pz"에 대한 언어 C, D, E, F의 번역문이 언어 B로 번역될 수 있다(표 2 참조). 단, 이 경우에도 이 번역을 행하는 데 있어 충분한 교차 언어 텍스트가 존재한다고 가정한다. 언어 A의 숙어 "aa dd pz"와 언어 B의 숙어 간의 상관을 유추하는 것은, "aa dd pz"의 언어 Cd, D, E, F 번역문으로부터 번역된 언어 B의 숙어를 비교하는 과정을 포함한다. "aa dd pz" 의 언어 C, D, E, F 번역문으로부터 번역된 언어 B 숙어의 일부는 서로 동일할 수 있고, 발명의 선호되는 실시예에서는 이 결과가 언어 A의 숙어 "aa dd pz"의 정확한 언어 B 번역문을 나타낼 것이다. 표 2에 도시되는 바와 같이, 언어 B에 대한 언어 C, D, F 번역문들은 동일한 언어 B 숙어들을 생성하여, 정확한 언어 B 번역, 즉, "UyTByM"을 도출한다. 따라서, 유추 상관이 언어 A 숙어와 이에 대한 정확한 언어 B 번역문 사이에서 생성될 수 있다. 언어 E를 언어 B로 번역한 것은 동일하지 않은 언어 B 번역문 ZnVPiO를 생성하였다. 이는 언어 E 숙어 "153"이 두 개 이상의 의미를 가지거나, 언어 B 숙어 UyTByM과 ZnVPiO가 상호교환가능함을 의미한다.
언어 언어 A 언어 C 언어 D 언어 E 언어 F
숙어 aa dd pz A1 d zyp 153 1AAAA))$
언어 언어 A "aa dd pz"의 번역문 언어B로의 번역문
언어 C A1 d UyTByM
언어 D zyp UyTByM
언어 E 153 ZnVPiO
언어 F 1AAAA))$ UyTByM
(공지된 형태의 컴퓨터장치와 관련하여 작동될 때) 상기 언어들의 데이터가본 발명의 실시예에서 이용되는 방법을 제공하는 컴퓨터프로그램의 실시예가 하기와 같다.
존재하는 상태의 표현들이 다른 상태의 데이터위치들에 대해 인위적으로 부여된 특정 상관관계를 가지고 있고 데이터베이스에 목록화될 경우, 상기 두 개의 상태들사이의 변환이 가능하다. 예를 들어, 한 형태, 상태 또는 언어로 표현된 각 "아이디어"가 전자기파(톤(tone))에 대한 상관관계를 부여받으면, 상기 아이디어의 "전자기적 표현"이 생성될 것이다. 일단 주어진 개수의 아이디어들이 해당 전자기표현으로 인코딩되면, (아이디어형태의) 데이터가 전자기파로 변환역되고 즉시 종래기술의 통신기반구조 상에서 즉시 전달된다. 전자기파가 목적 장치에 도달하면, 상기 장치는 상기 전자기파들을 개별적인 성분들로 합성하고, 이러한 상관 하에서(주문 기반구조, 상기 설명의 이중중복 기술 및/또는 다른 방법과 함께), 전자기적 표현에 의해 표현된 개별적 아이디어들을 제공한다.
2. 아이디어변환방법 및 장치
본 발명의 다른 특징은 제 1 상태, 형상 또는 언어의 데이터로 구성된 제 1 문서로부터 제 2상태, 형상 또는 언어의 데이터로 구성된 제 2 문서를 생성하는 방법 및 장치를 제공하는 것으로서, 결과적으로, 제 1, 2 문서들이 동일한 아이디어나 정보를 표현하고, 이때, 이 방법과 장치가 교차-아이디어 상관 데이터베이스를 이용하는 것이다. 변환 방법의 모든 실시예들은 한 상태로부터 다른 상태로 아이디어를 정확히 번역하기 위해 이중중복 기술을 이용한다. 대조적으로 종래기술의 번역장치는 개별단어의 번역에 중점을 두거나 제 1 언어로부터 제 2 언어로 번역을 용이하게 하는 특별한 규칙-본위 코드를 이용한다. 중복기술을 이용하는 본 발명에 의해 제 2 언어로 된 단어들 및 단어 스트링들이 유기적으로 연결되고, 상기 단어들 및 숙어들이 제2 언어로 씌어지도록 정확한 문맥으로 정확하게 번역된다.
본 발명의 실시예에서 데이터베이스를 형성하기 위한 방법 및 중복기술이 정확한 언어번역을 위해 결합된다. 상기 언어들은 어떤 조율의 변환도 가능하고, 구어/문어에 한정되지 않는다. 예를 들어, 이 변환이 컴퓨터 언어, ASCⅡ와 같은 특정 데이터코드 등을 포함할 수 있다. 이러한 데이터베이스는 동적이다. 즉, 변환 시스템에 콘텐트가 입력됨에 따라 데이터베이스가 성장하며, 앞서 입력된 콘텐트를이용하여 변환 시스템의 순차적 반복이 일어난다. 본 발명의 선호되는 실시예는 종래기술에서 용이하게 이용되는 개인용 컴퓨터장치와 같은 연산장치를 이용한다. 그러나 본 시스템은 이러한 연산 장치를 이용할 필요가 없고, 데이터베이스의 수동 색성 및 변환 방법을 포함하는 다른 수단에 의해 쉽게 달성될 수 있다.
본원 발명은 적어도 1개의 디스플레이 수단, 입력 방법, 출력 방법, 그리고 프로세서를 보유하는 통상적인 컴퓨터 시스템에서 이용될 수 있다. 디스플레이 수단은 선행 기술에서 가용한 수단, 예를 들면 음극선 단말기, 액정 디스플레이, 평면 디스플레이 등일 수 있다. 프로세서 수단 역시 선행기술에서 가용하고 컴퓨터 환경에 사용될 수 있는데, 이런 프로세서 수단은 컴퓨터가 본원 발명을 실행하도록 작동시킨다. 최종적으로, 입력 방법은 교차-상관(cross-association) 데이터를 구축하는 목적으로 문서의 입력을 가능하게 하는데 이용된다; 전술한 바와 같이, 디지털 형태로의 변환을 위한 특정 입력 방법은 사용자의 필요에 따라 변경할 수 있다.
a. 수동 데이터베이스 생성 및 이중-중복(double-overlap) 기술을 통한 번역
단어 및 단어 스트링(string)의 번역을 사용자에게 질의하고 이중-중복(double overlapping) 기술로 구절을 자동 번역함으로써 교차 언어 데이터베이스를 개발하는 본원 발명에 따라, 첫 번째 언어에서 두 번째 언어로 문서를 번역하는 방법과 장치의 한 실시예가 이제부터 설명될 것이다.
적절한 실시예를 설명하기 위하여, 영어 데이터의 히브리어 번역을 예로 기술한다. 이런 선택은 본원 발명을 설명하기 위한 것으로, 첫 번째와 두 번째 언어를 제한하지 않는다.
본원 발명의 적절한 실시예에 따라, 컴퓨터 시스템은 영어에서 히브리어로의 번역간 상관 데이터를 생성한다. 번역 방법에는 적어도 다음의 단계가 포함된다:
첫째, 영어로 된 데이터를 컴퓨터 시스템에 입력한다.
둘째, 영어로 입력된 모든 단어를 단어별로 먼저 검사한다. 데이터베이스는 히브리 번역어를 제공할 것이다. 번역어가 데이터베이스에 포함되어 있지 않으면, 컴퓨터 시스템은 사용자에게 적절한 번역어를 입력하도록 요청하는 방식으로 작동한다. 따라서, 데이터베이스가 입력 영어 단어에 상응하는 히브리어를 제공하지 못하면, 컴퓨터는 사용자에게 적절한 히브리어 대응어를 제공하도록 요청한다. 이후, 사용자는 번역어를 제공하고 상기 번역어를 데이터베이스에 입력한다. 차후 이용시, 컴퓨터 시스템은 이런 번역이 좀더 이른 시점에 사용자에 의한 입력에 의해 제공되도록 하는 방식으로 데이터베이스를 작동시킨다. 따라서, 두 번째 단계에서 입력 데이터가 분석된 상태로(예, 단어별로) 검사되고 적절한 번역어가 제공되거나 데이터베이스에 입력된다.
셋째, 입력 데이터는 분석되는 구절들을 증가시키는 방식으로 검사된다. 가령, 데이터가 먼저 단어별로 분석되면, 본원 발명의 번역 방법은 2-단어 스트링을 평가하여 입력 데이터를 검사한다. 다시 말하면, 전술한 바와 유사한 방식으로 데이터베이스는 확인된 2-단어 스트링에 대한 번역을 제공한다. 제공되지 않는 경우에 번역 시스템은 모든 가능한 2-단어 스트링에 대한 적절한 번역을 입력하도록 사용자에게 요청한다. 이후, 모든 중복된 2 단어 구절이 데이터베이스에 저장된다.가령, 한 단어 스트링이 4개의 단어로 구성될 경우, 데이터베이스는 메모리 내의 번역된 다음의 조합을 가지는 지를 확인한다. 1,2 2,3 3,4. 그렇지 않으면, 사용자에 요청한다. 데이터베이스가 두 번째 단계에 의하여 각 단어의 정의를 필연적으로 포함하긴 하지만, 2-단어 스트링에 대하여 구체적으로 인코딩된 번역어들만이 정확한 번역어로 제공될 것이다.
넷째, 2개의 중복된 2-단어 영어 스트링의 히브리어 번역이 중복 단어를 가지면, 시스템은 중복된 구절을 결합하는 방식으로 작동한다. 중복부분에서 잉여의 히브리어 구절을 제거하여, 2개의 중복된 영어 스트링을 결합함으로써(그리고 영어 중복부분에서 잉여를 제거함으로써) 생성되는 3-단어 영어 스트링의 일관된 번역을 제공한다. 상기 단계는 1회 내지 무한 단계로 실시하여 적절한 번역을 제공할 수 있다. 이 번역 방법은 중복부분을 통하여 양 언어로 인코딩된 단어-블록들을 가교하는 일치된 스트링을 검정함으로써 자동적으로 실행된다. 양 언어에서 일치된 중복-가교에 대한 이런 자동적인 승인은 데이터가 임계량(critical mass)에 도달하게 되면 완전한 정확성으로 양 언어간을 번역하는 언어 네트워크를 제공한다.
예로써, 영어 구문 "I want to buy a car"를 고찰한다. 본원 발명에 따른 방법의 실시직후, 이 구문은 데이터베이스를 작동시키는 컴퓨터로 입력된다. 컴퓨터는 데이터베이스가 다음의 단어: "I", "want", "to", "buy", "a", "car"에 대응하는 히브리어를 포함하는 지를 결정한다. 이런 등가물이 확인되지 않으면, 컴퓨터는 사용자에게 적절한 히브리어 번역을 제공하도록 요청하고 추후 이용을 위하여 이런 번역을 저장한다. 이후, 컴퓨터는 이 문장을 중복 방식으로 2-단어 구절: "Iwant", "want to", "to buy", "buy a", "a car"로 분석한다. 컴퓨터는 이들 구절의 히브리어 등가물(즉, "I want" 등의 히브리어 등가물)을 제공한다; 이런 히브리어 등가물이 확인되지 않으면, 컴퓨터는 사용자에게 적절한 히브리어 번역을 제공하도록 요청하고 추후 이용을 위하여 이런 번역을 저장한다.
이후, 본원 발명은 3-단어 구절 "I want to", "want to buy", "to buy a", "buy a car"를 검사한다. 이 시점에서 본원 발명은 각 히브리어 번역 쌍의 결합을 시도하는데, 여기서, 해당하는 2-단어 영어 번역이 중복되고 결합되어 각각의 3-단어 영어 번역 질의어가 만들어진다(예, "I want"와 "want to"는 "I want to"로 통합된다). 히브리어 구절이 서로 연결되는 공통의 중복부분을 가지면, 번역 방법은 사용자 간섭없이 3-단어 영어 단어 스트링의 히브리어 번역을 자동적으로 승인한다. 히브리어 구절이 중복되지 않고 결합되면, 사용자는 정확한 번역을 요청받게 된다. 3-단어 영어 스트링에 대한 정확한 번역 시도이후, 프로세스는 4-단어 스트링 등으로 진행하고 검사 구절이 완결될 때까지(여기에서는 완전한 구문 "I want to buy a car") 교차-언어 중복(cross-language overlap)을 통하여 번역 상관의 자동적인 해결을 시도한다. 이런 분석이후, 본원 발명의 방법은 답신된 번역 등가물을 비교하고 중복된 구절에서 잉여를 제거하며 번역된 구문을 사용자에게 출력한다.
b. 상관 데이터베이스와 이중 중복 기술을 통한 문서 번역
다른 적절한 실시예로서 본원 발명은, 전술한 바와 같이 문서에서 단어와 단어-스트링에 대한 단어-스트링 번역을 제공하기 위해 교차-언어 데이터베이스를 이용함으로서, 그리고 문서의 번역어를 제공하기 위해 제 2 단어의 중복 단어 스트링들을 결합하기 위해 상술한 교차 언어 이중 중복 기술을 이용함으로서, 제 1 언어의 문서를 제 2 언어의 문서로 번역할 수 있다. 가령, 영어로 입력되고 히브리어로 번역되어야 하는 다음의 구문: "In addition to my need to be loved by all the girls in town, I always wanted to be known as the best player to ever play on the New York state basketball team"의 구성요소를 분해할 만큼 충분한 교차-언어 문서들에 접근하는 데이터베이스를 고찰한다.
전술한 프로세스를 통하여, 조작 방법은 구문 "In addition to my need to be loved by all the girls"가 소스 문서의 첫 번째 단어에서 시작하여 데이터베이스에 존재하는 최대 단어-스트링이라는 것을 결정할 수 있다. 이는 데이터베이스에서 히브리어 단어 스트링 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot"과 상관한다. 이후, 상기 프로세스는 전술한 방법을 이용하여 다음의 번역-즉, 이전에 확인된 영어 단어 스트링과 중복되는 한 단어(또는 추가의 단어)를 갖는 번역 텍스트의 최대 영어 단어 스트링을 결정하는데, 이들 중복된 영어 단어 스트링에 대한 2개의 히브리어 번역 역시 중복 분절을 보유한다: "loved by all the girls in town"는 "ahuv al yeday kol habahurot buir"로 번역된다; "the girls in town, I always wanted to be known"은 "Habahurot buir, tamid ratzity lihiot yahua"로 번역된다; "I always wanted to be known as the best player"는 "tamid ratzity lihiot yahua bettor hasahkan hachi tov"로 번역된다; "the best player to ever play on the New York state basketball team"은 "hasahkan hachitov sh hay paam sihek bekvutzat hahadursal shel medinat new york"으로 번역된다.
데이터베이스에 의한 이런 답신으로, 조작은 중복 단어와 단어 스트링을 비교하고 잉여를 제거하는 방식으로 작동한다. 이런 방식으로, "In addition to my need to be loved by all the girls"는 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot"로 번역된다; "loved by all the girls in town"은 "ahuv al yeday kol habahurot buir"로 번역된다. 본원 발명의 기술을 활용하여, 시스템은 영어 구절 "In addition to my need to be loved by all the girls"와 "loved by all the girls in town"을 받아들이고 히브리어 구절 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot"로 번역된다; "ahuv al yeday kol habahurot buir"를 답신하고 중복을 결정한다.
영어 구문은 다음과 같다: "In addition to my need to be loved by all the girls"와 "loved by all the girls in town". 중복부분을 제거하면 다음과 같다: "In addition to my need to be loved by all the girls in town".
히브리어 구문은 다음과 같다: "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot"와 "ahuv al yeday kol habahurot buir". 중복 부분을 제거하면 다음과 같다: "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir"
이후, 본원 발명은 다음 분석 구절을 작업하여 프로세스를 지속한다. 본 실례에서, 조작 프로세스는 구문 "the girls in town, I always wanted to be known"에서 작업한다. 시스템은 영어 구절 "In addition to my need to be loved by all the girls in town"과 새로운 영어 단어 세트 "the girls in town, I always wanted to be known"을 분석한다. 상응하는 히브리어 단어 세트는 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir"와 "Habahurot buir, tamid ratzity lihiot yahua"이다. 영어 중복부분을 제거하면 다음과 같다: "In addition to my need to be loved by all the girls in town"과 "the girls in town, I always wanted to be known"에서 "In addition to my need to be loved by all the girls in town, I always wanted to be known"
히브리어 중복부분을 제거하면 다음과 같다: "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir"와 "Habahurot buir, tamid ratzity lihiot yahua"에서 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua".
본원 발명은 번역되는 문서의 나머지 단어와 단어 스트링에서 이런 유형의 작업을 지속한다. 따라서, 적절한 실시예에서, 다음의 영어 단어 스트링은 "In addition to my need to be loved by all the girls in town, I always wanted to be known"과 "I always wanted to be known as the best player"이다. 이들 구문에 대하여 데이터베이스에 의해 답신되는 히브리어 번역은 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua"와 "tamid ratzity lihiot yahua bettor hasahkan hachi tov"이다. 영어 중복부분을 제거하면 "In addition to my need to be loved by all the girls in town, I always wantedto be known as the best player"이다. 히브리어 중복부분을 제거하면 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua bettor hasahkan hachi tov"이다.
이런 프로세스를 지속하면 다음의 단어 스트링은 "In addition to my need to be loved by all the girls in town, I always wanted to be known as the best player"와 "the best player to ever play on the New York state basketball team"이다. 상응하는 히브리어 구문은 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua bettor hasahkan hachi tov"와 "hasahkan hachi tov sh hay paam sihek bekvutzat hahadursal shel medinat new york"이다. 영어 중복부분을 제거하면 "In addition to my need to be loved by all the girls in town, I always wanted to be known as the best player to ever play on the New York state basketball team"이다. 히브리어 중복부분을 제거하면 "benosaf Itzorech sheli lihiot ahuv al yeday kol habahurot buir, tamid ratzity lihiot yahua bettor hasahkan hachi tov sh hay paam sihek bekvutzat hahadursal shel medinat new york"인데, 이는 번역을 요하는 원문의 번역이다.
이런 프로세스의 완결직후, 본원 발명은 번역된 최종 원문를 제공하고 텍스트를 출력하도록 동작한다. 이러한 제공 결과는 상술한 과정에 따른 중복 상관들을 제공하는 데이터베이스의 최종 결과이다. 이런 프로세스를 통하여 본 시스템은 중복부분을 통하여 연속된 제 2 언어 구절과 자연적으로 부합하지 않는 제 2 언어의결과를 최종적으로 수용하지 않는다. 히브리어 언어 결과가 연속된 히브리어 단어-스트링 상관과 정확한 중복부분을 갖지 않는다면, 이는 거부되고 연속된 히브리어 단어-스트링과 중복되는 히브리어 단어-스트링 상관으로 대체될 것이다.
본원 발명의 적절한 실시예는 다음의 컴퓨터 프로그램을 이용하고 당분야에 공지된 형태의 컴퓨터 시스템과 협력하여 작동한다.
교차-언어 상관 데이터베이스와 교차-언어 이중 중복 번역 기술을 결합하는 상기 실시예는 한 상태에서 다른 상태로 정보를 동일화시키려는 기존의 기술, 예를 들면 당분야에 공지된 음성 인식 소프트웨어와 OCR 스캐닝 장치의 품질을 개선하는 다른 잠재적 이점을 갖는다. 이들 양 기술은 본원 발명의 번역 방법에 대한 이들 시스템의 결과를 검증할 수 있다. 번역어가 존재하지 않아 오류가 추정되는 경우에, 사용자에게 경고와 요청이 통보되거나 또는 시스템이 데이터베이스에서, 중복된 번역을 제시하도록, 중복되지 않은 번역에 대한 가까운 대안을 찾도록 프로그램될 수 있다. 물론, 사용자에 대한 모든 제시 결과는 원래의 언어로 다시 변환될 수 있다.
당업자가 인지하는 바와 같이, 전술한 장치와 방법의 다양한 개변이 본원 발명의 기술적 사상과 범주를 벗어나지 않으면서 당업자에 의해 실시될 수 있다.

Claims (7)

  1. 제 1 언어의 문서 구절을 제 2 언어의 문서 구절로 변환하는 방법으로서, 상기 방법은,
    - 제 1 언어의 문서 구절과 다수의 제 3 언어들 각각의 문서 구절 간의 상관을 제공하고,
    - 제 2 언어의 구절에 대응하는 다수의 제 3 언어들의 샘플 구절들 간의 상관을 제공하며,
    - 서로 동일한 두 개 이상의 샘플 구절들을 제 2 언어의 유추된 상관 구절로 식별하고, 그리고
    - 제 2 언어의 유추된 상관 구절을 제 1 언어의 문서 구절과 상관시키는
    단계를 포함하는 것을 특징으로 하는, 제 1 언어의 문서 구절을 제 2 언어의 문서 구절로 변환하는 방법.
  2. 제 1 항에 있어서, 다수의 제 3 언어들이 한 개 이상의 제 3 언어를 포함하는 것을 특징으로 하는 제 1 언어의 문서 구절을 제 2 언어의 문서 구절로 변환하는 방법.
  3. 제 2 항에 있어서, 동등한 의미의 구절들을 식별하는 방법을 이용하여, 동일하지 않은 샘플 구절들을 상호교환가능한 구절로 식별하는 단계를 추가로 포함하는것을 특징으로 하는 제 1 언어의 문서 구절을 제 2 언어의 문서 구절로 변환하는 방법.
  4. 프로세서, 프로세서에 연결된 메모리, 그리고 메모리에 저장된 프로그램을 포함하는 컴퓨터 장치로서,
    - 제 1 언어의 문서 구절과 다수의 제 3 언어들 각각의 문서 구절 간의 상관을 제공하고,
    - 제 2 언어의 구절에 대응하는 다수의 제 3 언어들의 샘플 구절들 간의 상관을 제공하며,
    - 서로 동일한 두 개 이상의 샘플 구절들을 제 2 언어의 유추된 상관 구절로 식별하고, 그리고
    - 제 2 언어의 유추된 상관 구절을 제 1 언어의 문서 구절과 상관시키는
    이상의 단계들을 프로그램에 의해 실행하도록 구성되는 컴퓨터 장치.
  5. 제 4 항에 있어서, 다수의 제 3 언어들이 한 개 이상의 언어를 포함하는 것을 특징으로 하는 컴퓨터 장치.
  6. 제 5 항에 있어서, 동등한 의미의 구절들을 식별함으로서, 동일하지 않은 샘플 구절들을 상호교환가능한 구절로 식별하는 단계를 추가적으로 프로그램에 의해 실행하도록 구성되는 컴퓨터 장치.
  7. - 제 1 언어의 문서 구절과 다수의 제 3 언어들 각각의 문서 구절 간의 상관을 제공하고,
    - 제 2 언어의 구절에 대응하는 다수의 제 3 언어들의 샘플 구절들 간의 상관을 제공하며,
    - 서로 동일한 두 개 이상의 샘플 구절들을 제 2 언어의 유추된 상관 구절로 식별하고, 그리고
    - 제 2 언어의 유추된 상관 구절을 제 1 언어의 문서 구절과 상관시키는
    이상의 단계들을 실행하기 위한, 컴퓨터 프로세서에 의해 실행되는 프로그램을 저장하는 컴퓨터 판독형 저장 매체.
KR10-2004-7009532A 2001-12-21 2002-08-13 다언어 데이터베이스 생성 시스템 및 방법 KR20040063995A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10/024,473 2001-12-21
US10/024,473 US20030083860A1 (en) 2001-03-16 2001-12-21 Content conversion method and apparatus
US10/116,047 US20030135357A1 (en) 2001-03-16 2002-04-05 Multilingual database creation system and method
US10/116,047 2002-04-05
PCT/US2002/025629 WO2003058490A1 (en) 2001-12-21 2002-08-13 Multilingual database creation system and method

Publications (1)

Publication Number Publication Date
KR20040063995A true KR20040063995A (ko) 2004-07-15

Family

ID=26698482

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2004-7009532A KR20040063995A (ko) 2001-12-21 2002-08-13 다언어 데이터베이스 생성 시스템 및 방법

Country Status (11)

Country Link
US (1) US20030135357A1 (ko)
EP (1) EP1464007A4 (ko)
JP (1) JP2006500640A (ko)
KR (1) KR20040063995A (ko)
CN (1) CN1620658A (ko)
AU (1) AU2002327445A1 (ko)
CA (1) CA2471256A1 (ko)
EA (1) EA200400857A1 (ko)
IL (1) IL162576A0 (ko)
TR (1) TR200402394T2 (ko)
WO (1) WO2003058490A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147950A (ko) * 2014-04-29 2016-12-23 구글 인코포레이티드 분산 광학 문자 인식 및 분산 기계 언어번역을 위한 기법들

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
US10191899B2 (en) 2016-06-06 2019-01-29 Comigo Ltd. System and method for understanding text using a translation of the text

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2096374B (en) * 1981-04-03 1984-05-10 Marconi Co Ltd Translating devices
JP3176059B2 (ja) * 1990-11-15 2001-06-11 キヤノン株式会社 翻訳装置
ES2101613B1 (es) * 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
US5659765A (en) * 1994-03-15 1997-08-19 Toppan Printing Co., Ltd. Machine translation system
JP3356536B2 (ja) * 1994-04-13 2002-12-16 松下電器産業株式会社 機械翻訳装置
EP0834139A4 (en) * 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
US7860706B2 (en) * 2001-03-16 2010-12-28 Eli Abir Knowledge system method and appparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160147950A (ko) * 2014-04-29 2016-12-23 구글 인코포레이티드 분산 광학 문자 인식 및 분산 기계 언어번역을 위한 기법들

Also Published As

Publication number Publication date
TR200402394T2 (tr) 2005-09-21
AU2002327445A1 (en) 2003-07-24
EP1464007A4 (en) 2006-05-24
CN1620658A (zh) 2005-05-25
WO2003058490A1 (en) 2003-07-17
JP2006500640A (ja) 2006-01-05
EA200400857A1 (ru) 2005-12-29
US20030135357A1 (en) 2003-07-17
IL162576A0 (en) 2005-11-20
CA2471256A1 (en) 2003-07-17
EP1464007A1 (en) 2004-10-06

Similar Documents

Publication Publication Date Title
KR20040068319A (ko) 콘텐트 변환 방법 및 장치
KR20050005523A (ko) 단어 상관 방법 및 장치
US7483828B2 (en) Multilingual database creation system and method
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR20040004558A (ko) 콘텐트 변환 방법 및 장치
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
Mondal et al. Machine translation and its evaluation: a study
TWI409646B (zh) 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體
US20030093261A1 (en) Multilingual database creation system and method
KR20040063995A (ko) 다언어 데이터베이스 생성 시스템 및 방법
Chang et al. A corpus-based statistics-oriented transfer and generation model for machine translation
Ngoc et al. Multi-dimensional data refining strategy for effective fine-tuning LLMs
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
CN115688904B (zh) 一种基于名词译文提示的翻译模型构建方法
WO2024004184A1 (ja) 生成装置、生成方法、及びプログラム
WO2024004183A1 (ja) 抽出装置、生成装置、抽出方法、生成方法、及びプログラム
Sowański et al. Optimizing Machine Translation for Virtual Assistants: Multi-Variant Generation with VerbNet and Conditional Beam Search
JP2011221650A (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
KR20040007741A (ko) 교차-아이디어 상관 데이터베이스 방법 및 시스템
Riding Hunting the snark: the problem posed for MT by non-catenative morphologies
AU2002231266A1 (en) Content conversion method and apparatus

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid