KR20050027298A - 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 - Google Patents
규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 Download PDFInfo
- Publication number
- KR20050027298A KR20050027298A KR1020030063517A KR20030063517A KR20050027298A KR 20050027298 A KR20050027298 A KR 20050027298A KR 1020030063517 A KR1020030063517 A KR 1020030063517A KR 20030063517 A KR20030063517 A KR 20030063517A KR 20050027298 A KR20050027298 A KR 20050027298A
- Authority
- KR
- South Korea
- Prior art keywords
- pattern
- translation
- result
- partial
- parsing
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 기록 매체에 관한 것이다.
본 발명에 따른 자동번역 장치는, 입력 원문에 대해 형태소를 분석하고 품사를 결정하는 형태소 분석 및 태깅 수단; 태깅 결과에 대해 구문 분석을 수행하여 파싱 트리를 출력하는 구문분석 수단; 파싱트리에서 하위범주의 구 청킹 결과만을 추출하여 구문패턴을 생성하는 구문패턴 생성 수단; 번역 패턴을 이용하여 상기 구문패턴에 대한 번역을 시도하는 구문패턴 번역 수단; 상기 구문패턴에 대한 번역패턴 매칭에 실패한 경우, 절구조 분석을 하는 절구조 분석 수단; 및 절구조 분석 결과에 따라 부분 구문패턴의 패턴번역을 수행하여 최종 번역결과를 출력하는 부분패턴 번역 수단;을 포함하는 것을 특징으로 한다
Description
본 발명은 자동 번역 장치 및 방법과 그 기록매체에 관한 것이며, 보다 상세히는 종래의 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
종래의 규칙 기반 기계 번역 방법에서는, 특히 문장이 길어짐에 따라, 구문 분석이 가지는 애매성 폭발 및 대역 구문의 무제한 생성에 의해 속도 및 번역 성능이 저하되는 문제가 있었다.
이를 해결하기 위한 것으로 번역패턴 기반의 자동번역 방법이 있으며, 이는 원문에서 미리 정해진 번역패턴을 발견하는 방법으로서 대역 구문의 무제한 생성을 방지하고 번역의 품질을 크게 향상시키는 장점이 있다.
하지만, 종래의 번역패턴 기반의 자동번역 방법은, 태깅, 부분 파싱 등만으로는 번역을 위한 구문 패턴을 생성하는 데까지 발생하는 모호성을 처리하지 못하고 올바른 구문 패턴 자체를 생성하지 못함으로 인해 번역 패턴 기반의 장점을 발휘하는데 제한이 있었다.
더욱이, 문장의 길이가 길어짐에 따라 구축해야 할 번역패턴의 수가 급격히 증가하게 되고, 번역패턴에 대한 매칭 성공률이 떨어져 심각한 커버리지 문제를 갖게 된다.
또한, 이러한 커버리지 문제를 해결하기 위한 기존의 대표적인 장문 처리방법은 구문 분석을 하기 전에 장문을 분할하여 더 작은 단위로 나누어 처리하는 것인데, 기존의 장문 분할 방법은 구문 분석이 이루어지기 전의 제한된 정보를 가지고 수행함으로 인해 성능의 한계 및 부작용이 많았다.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 번역 패턴 방식에서 입력문장에 대한 구문 패턴을 구문 분석 결과에서 구 청킹(chunking) 결과만을 추출하여 생성함으로써, 규칙기반 방식의 모호성 문제를 피하면서 구문 패턴 생성의 정확성을 높이고, 또한 패턴 번역에 실패하는 경우, 절구조 분석만을 다시 수행하여 그 결과에 따라 부분패턴 번역을 수행함으로 번역 패턴 기반의 자동 번역에 있어 문장 길이가 길어짐에 따라 발생하는 번역의 커버리지 문제를 해결하여 높은 커버리지의 고품질 자동번역 결과를 생성할 수 있는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치는, 입력 원문에 대해 형태소 분석을 수행하는 형태소 분석부; 상기 형태소 분석결과에 대해 각각의 품사를 결정하는 태깅부; 상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석부; 상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성부; 번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역부; 상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 그 구문에 대한 절 단위의 구조를 파악하는 절구조 분석부; 및 상기 절 구조 분석 결과를 참조하여 각 하위절에 대한 부분 구문패턴을 인식하고, 부분 번역 패턴을 이용하여 번역을 수행하는 부분패턴 번역부;로 구성된다.
또한, 상기 본 발명의 목적을 달성하기 위한 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법은, 입력 원문에 대해 형태소 분석 및 전처리 청킹을 수행하고, 그 분석결과에 대해 태깅하는 형태소 분석 및 태깅 단계; 상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석 단계; 상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성 단계; 번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역 단계; 상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 구문의 절 단위 구조를 분석하는 절구조 분석 단계; 및 상기 절 구조 분석 결과를 참조하여 번역 실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대한 패턴 번역을 수행하고 이를 조합하여 최종 번역결과를 출력하는 부분패턴 번역 단계;로 이루어진다.
또한, 상기 부분패턴 번역 단계는, 상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며; 상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며; 상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것이 바람직하다.
또한, 상기 본 발명의 목적을 달성하기 위하여, 본 발명에 따른 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 하이브리드 자동 번역 장치의 각 구성요소 및 처리 흐름을 보여주는 전체적인 블록구성이다.
도 1에서, 본 발명의 자동번역 장치에 대한 전체적인 흐름을 살펴보면, 입력문장에 대해 형태소 분석 및 태깅(tagging)을 수행하고,(101,102) 태깅 결과로 들어온 입력 문장에 대하여 구문 분석(parsing)을 수행한다.(103) 그리고, 구문 분석 결과 생성된 파싱 트리로부터 구문 패턴을 생성한 후,(104) 번역 패턴에 의해 번역을 수행하게 된다.(105)
여기에서, 구문 패턴은, 입력 문장에서 문장의 중심이 되는 동사(V), 조동사(X), 접속사(C) 등의 품사와 거기에 의존하는 구문요소로 이루어지는 전체 문장을 나타내는 패턴을 말한다. 또한, 구문요소로는 명사구(NP), 전치사구(PP), 형용사구(AP), 고립 전치사구(IPREP) 등이 있고, 각각은 n(명사구), p(전치사구), a(형용사구), i(고립전치사구)의 심볼로 표시한다.
본 발명에서의 구문 패턴은 상기 품사나 구문요소로 이루어진 문장 단위의 패턴을 의미하는 것으로, 구 단위의 패턴을 사용하는 일반적인 패턴기반 방식의 번역에서의 패턴과 구별되는 것이다. 또한, 이러한 구문 패턴에 대응하는 대역문의 대역 구문패턴을 기술함으로써 입력문장에 꼭 적절한 대역문 생성이 가능하도록 할 수 있는데, 이러한 문장 범위의 번역 정보를 담고 있는 구문 단위 패턴을 번역 패턴이라 한다. 이러한 번역 패턴에 의한 번역 방식은 철저한 구문구조를 파악해야만 번역성능이 보장되기 때문에 번역이 어려운 영어-한국어와 같은 이종언어간에 높은 성능을 발휘하게 된다.
또한, 본 발명은, 상기 번역 패턴에 의한 번역에서 번역 패턴 매칭에 실패할 경우, 절구조 분석을 수행하고,(106) 절구조 분석 결과에 따라 부분패턴 번역을 수행하게 된다.(105-1)
이와 같은 부분패턴 번역은, 문장전체에 대한 번역 패턴이 존재하지 않는 경우, 하위절(sub-clause)에 해당하는 부분 구문 패턴으로 나누어 처리하고 그 결과를 연결하여 최종결과를 생성함으로 번역 패턴의 커버리지를 높이기 위함이다.
이하에서는, 도 1 내지 도 4를 참조하여, 본 발명에 따른 자동번역 장치를 각 세부 블록별로 보다 상세히 기술한다.
도 1에서, 형태소 분석부(101)는, 입력되는 원문에 대해 형태소 분석 및 전처리 청킹(chunking)을 수행한다. 전처리 청킹은 고유명사, 시간 부사구, 어휘 고정표현 등을 미리 묶어줌으로써 문장의 길이를 줄이고 태깅 성능을 올릴 수 있게 한다.
또한, 태깅부(102)는, 상기 형태소 분석에 대해 태깅을 수행하며, 그 태깅 결과는 태깅 자체 성능 및 파싱 효율성을 고려하여 각 단어에 대해 최적의 후보 2개를 출력한다. 따라서, 태깅만으로는 분별이 어려운 모호성이 있는 경우, 파싱을 통해 넓은 범위의 구문 분석 정보를 반영함으로 인한 태깅 성능의 향상을 기대할 수 있다.
한편, 도 2는, 구문 분석부(103)의 세부 블록구성을 보여주는 도면이다.
도 2에서, 구문 분석부(103)는 입력되는 두 개의 태킹 최적후보에 대해 파싱(parsing)을 수행하는(S201) 구성블록으로, 입력 문장의 길이가 특정값(N) 이상인 장문일 경우 문장 분할에 의한 파싱을 수행한다. 이때, 장문의 판정은 전처리 청킹이 된 상태에서의 문장 길이로 이루어진다.
본 발명에 따른 문장 분할에 의한 파싱은 다음과 같은 과정으로 이루어진다.
먼저, 문장의 구두점, 접속사, 관계사, 의문사 등의 분할점 구문단서를 바탕으로 다수의 문장 분할점 후보를 선정한 후, 선정된 후보들 중에서 각 분할문 양쪽에 본동사(즉, 시제를 가지고 있는 동사)가 존재하는지 여부 및 분할문의 길이를 고려하여 2 내지 3개의 분할점 후보를 선정한다.(S202)
그리고, 각 후보별로, 그 분할점에 의한 분할문들에 대해 파싱을 수행한다.(S203) 만일, 분할문 자체가 장문일 경우는 상기 S202 단계 및 S203 단계를 재귀적으로 적용하여 파싱을 수행한다. 이와 같이 분할문 자체의 길이가 특정값 이상인 분할문에 대해 다시 장문 분할을 재귀적으로 수행함으로써 임의의 장문에 대해서도 원하는 만큼 분할을 수행할 수 있다.
그리고, 각 분할문 파싱결과에 파싱 가중치를 적용하여 가중치가 높은 최적의 분할점을 선정하고, 선정된 분할점에 따른 파싱결과 및 파싱트리를 출력한다.(S204)
또한, 삽입절과 같이 분할되서는 안되는 지점을 찾기 위해서는 매우 넓은 범위의 문맥과 깊은 분석을 필요로 하는데, 본 발명은 각 후보별로 파싱을 수행한 후 최종 분할점을 결정하기 때문에 최적의 분할점을 보다 정확하게 판정할 수 있다.
다음은 아래의 입력문장(영문)에 대한 본 발명에 의한 문장 분할에 의한 파싱의 일 실시예를 나타낸다.
[입력문장]: "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents when they speak today, try to work out the arrangements for a much broader Russian participation in the peacekeeping force."
[분할점 후보]: ... in the NATO command structure /while the political leaders, including the two presidents /when they speak today, try to ....
[각 분할점 후보별 분할문]
while: (We're told to look for ... NATO command structure) (while the political leaders, including the two presidents when they speak today, try to ... the peacekeeping force.)
when: (We're told to look for ... NATO command structure while the political leaders, including the two presidents) (when they speak today, try to ... in the peacekeeping force.)
분할점 후보 'when'의 경우, 그 분할문 "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents" 은 비문(abnormal sentence)이므로, 파싱 가중치에 의해 'when'은 분할점 후보에서 제외된다.
[최종 선정된 분할문의 파싱 결과]
(S (NP We) (VP 're (VP told (TOINF (VP to (VP look_for (NP an announcement) (PP under)))))) (SBAR (WHNP which) (SS (NP the Russians) (VP would temporarily (VP participate (PP in (NP the NATO command structure)))))))
(S (NP (NP the political leaders) -COMMA- (PP including (NP (NP the two presidents) (SBAR (WHADVP when) (SS (NP they) (VP speak today))))) -COMMA-) (VP try (TOINF to (VP work_out) (NP the arrangements) (PP for (NP (NP a (ADJP much broader) Russian participation) (PP in (NP the peacekeeping force)))))))
구문 패턴 생성부(104)는 상기 최종 선정된 분할점 후보에 대한 파싱 트리에서 NP, AP, PP, IPREP와 같이 동사의 하위범주에 속하는 구(phase)들의 청킹 범위를 인식함으로써 구문패턴을 추출한다.
본 발명에서 동사의 하위 범주라함은 구문 트리상의 NP, AP, PP, IPREP 중에서 동사에 의존하는 구를 말한다. 구문 트리 상에서 주로 상위로 갈수록 모호성이 증가하기 때문에, 본 발명은 이와 같이 하위범주의 구 청킹 결과만으로 구문패턴을 추출함으로써 구문분석의 모호성 문제를 줄일 수 있다.
다음은 상기 입력 예문에 대한 구 청킹 추출 결과 및 구문 패턴이다.
[구 청킹 추출 결과]
(NP We) 're told (IPREP to) look_for (NP an announcement) (IPREP under) which (NP the Russians) would temporarily participate (PP in the NATO command structure)
(NP the political leaders) -COMMA- (PP including the two presidents) when (NP they) speak today -COMMA- try (IPREP to) work_out (NP the arrangements) (PP for a much broader Russian participation in the peacekeeping force)
[구문 패턴]: nViVniCnVpCnTpCnVTViVnp
위에서 보면, 'while'은 실제로 'under which'의 관계절 안의 접속사로서, 분할되어서는 안 되는 분할점이다. 따라서, 'while'에 의해 분할된 상태로 종래 방식에 따라 번역을 수행하게 된다면 잘못된 번역 결과를 생성하게 될 것이다. 즉, 종래 방식의 경우, 분할점의 선정에 의해 번역결과가 결정되어버리게 된다.
하지만, 본 발명은, 선정된 파싱 결과 중에서 하위범주의 구단위 청킹 결과만을 사용하여 구문패턴을 추출하기 때문에, 분할점의 선정이 구문패턴 결과에 큰 영향을 미치지 않게 되고, 올바른 절구조는 다시 절구조 분석을 통해 얻어지게 된다. 결과적으로, 문장 분할의 실패에 의한 위험성이 감소하게 된다.
한편, 구문 패턴 번역부(105)는 상기 추출된 구문 패턴에 대해 번역 패턴 DB(107)에서 패턴 매칭을 수행한다. 만일, 전 구문에 대한 번역패턴 매칭이 성공하면, 그 번역 패턴에 의해 번역을 수행하고 결과를 출력한다.
하지만, 상기 구문 패턴에 대한 번역패턴의 매칭이 실패할 경우, 절구조 분석부(106)는 그 구문 패턴에 대해 절구조 분석을 수행한다.
절구조 분석은 문장내 본동사를 포함하는 절 단위의 구조를 파악하는 것으로, 입력 예문에 대해 다음과 같은 절구조 분석결과가 나오게 된다.
[절구조 분석 결과]
(s nViVniC(s (s nVp)C(s nT(p pC(s nV))TViVnp)))
그리고, 부분 패턴 번역부(105-1)에서, 절구조 분석 결과를 토대로 부분 번역 패턴을 이용한 번역을 수행한다.
도 3은 본 발명에 따른 패턴 번역의 처리 흐름을 보여준다.
도 3에서, 본 발명의 구문 패턴 번역은, 먼저 입력되는 구문 패턴에 대해 번역 패턴 매칭 및 번역을 수행한다.(S301) 이때, 패턴 번역에 성공하면 그 번역결과를 출력하고 종료한다.
하지만, 구문 패턴 번역에 실패할 경우, 절구조 분석을 수행하고, 그 절구조 분석 트리로부터 현재의 하위노드에 해당하는 범위에 대한 부분 구문 패턴을 생성한다. 이때, 관계절이나 의문사절 등의 경우에는 이동된 원래의 구문요소를 복원시켜 기존의 번역 패턴에 의해 번역이 될 수 있도록 문장 복원을 수행한다.
그리고, 상기 생성된 하위의 부분 구문 패턴에 대해 상기 패턴 번역 DB(107)를 참조하여 패턴 번역을 수행한다.(S302) 이때, 그 부분 구문 패턴에 대한 패턴 번역에 실패할 경우, 다시 절구조 분석 결과를 참조하여 그 하위 절에 대한 부분 패턴 번역을 수행하게 된다.
그리고, 각 하위절에 해당하는 부분 구문 패턴에 대한 번역 결과가 나오면, 해당 범위의 번역결과를 담고 있는 문장 심볼 S로 치환하고, 그 패턴치환으로 reduce된 구문 패턴에 대해 번역 패턴 매칭 및 번역을 수행함으로써 최종 번역결과를 생성하게 된다.(S303)
만약, 상기의 reduce된 구문 패턴에 의한 번역도 실패할 경우, NP, Verb, S(번역된 하위절), AP 등과 같은 구문패턴을 이루는 각 구문요소별로 번역을 수행하고, 이들을 조합하여 최종 번역결과를 생성한다.(S304)
한편, 도 4는 상기 입력예문에 대한 절 구조 분석 결과 및 부분패턴 번역의 일 실시예를 나타낸다.
도 4에서, 먼저 s1에 대한 패턴 번역을 시도하고 이에 실패할 경우, 그 절구조 분석결과로부터 하위절인 s2를 인식하고 1.1)에서 s2의 번역을 시도한다. 이때, s2에 대한 번역에 성공하게 되면 1.2)에서와 같이 reduce된 구문 패턴에 대해 번역을 함으로써 전체 번역이 이루어지게 된다.
만약, s2의 부분 구문 패턴에 대한 직접 번역이 실패할 경우, 다시 절구조 분석 결과에서 그 하위절인 s3, s4를 인식한 후, 1.1.1), 1.1.2), 1.1.3)에서와 같이 하위 부분패턴 번역을 시도하며, 하위 번역 패턴에 대해서도 패턴 번역이 실패하는 경우 그 하위에 대해 동일한 과정을 반복하게 된다. 또한, 최종 하위절에 대한 패턴 번역에 실패할 경우는, 각 구문요소별로 번역을 시도한다.
본 발명은 이와 같이 하향식으로 부분패턴 번역을 수행하기 때문에, 만일 절구조 분석상에 오류가 있다 하더라도 그 상위의 구조에서 번역 패턴이 존재하게 되면 번역 패턴에 의해 올바른 번역이 수행되므로, 절구조 분석상의 오류에 의한 부작용을 최소화할 수 있다.
또한, 전체 구문에 대한 번역 패턴이 없을 경우 하위절의 부분구문 패턴 및 reduced 구문패턴으로 매칭하기 때문에, 매칭될 패턴의 길이기 줄어들게 되고 번역 패턴의 커버리지를 효과적으로 높일 수 있다.
상술한 바와 같이 본 발명에 의하면, 구조 분석의 처리 단위를 구단위와 절단위로 구분하고, 구문 분석 결과에서 구단위 결과만 추출함으로써, 구문분석의 모호성 문제, 문장분할의 부작용 문제를 최소화하고, 번역 패턴 매칭을 위한 구문 패턴의 정확성을 높일 수 있다.
또한 절구조 분석 결과로부터 하향식 방식으로 부분패턴 번역을 수행함으로써, 높은 커버리지의 고품질 번역결과를 얻을 수 있다.
이상에서 설명한 것은 본 발명에 따른 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
도 1은 본 발명에 따른 하이브리드 자동 번역 장치의 구성요소 및 처리 흐름을 보여주는 블록도.
도 2는 본 발명에 따른 구문 분석부의 구성 및 처리 흐름을 보여주는 블록도.
도 3은 본 발명에 따른 부분 패턴 번역 과정에 대한 처리 흐름도.
도 4는 본 발명에 따른 부분 패턴 번역 과정의 일 실시예.
<도면의 주요부분에 대한 부호의 설명>
101: 형태소 분석부 102: 태깅부
103: 구문 분석부 104: 구문 패턴 생성부
105: 구문 패턴 번역부 105-1: 부분 패턴 번역부
106: 절 구조 분석부 107: 번역 패턴 DB
Claims (11)
- 입력 원문에 대해 형태소 분석을 수행하는 형태소 분석부;상기 형태소 분석결과에 대해 각각의 품사를 결정하는 태깅부;상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석부;상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성부;번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역부;상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 그 구문에 대한 절 단위의 구조를 파악하는 절구조 분석부; 및상기 절 구조 분석 결과를 참조하여 각 하위절에 대한 부분 구문패턴을 인식하고, 부분 번역 패턴을 이용하여 번역을 수행하는 부분패턴 번역부;로 구성되는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 제 1항에 있어서, 상기 형태소 분석부는, 입력 원문에 대한 형태소 분석 시 전처리 청킹을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 제 1항에 있어서, 상기 태깅부는, 그 태깅 결과로서 최적의 후보 2개를 출력하여 상기 구문 분석부로 제공하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 제 1항에 있어서, 상기 구문 분석부는, 입력 문장의 길이가 특정값 이상인 장문일 경우,분할점 구문단서, 본동사 존재 여부, 분할문의 길이를 바탕으로 2 내지 3개의 분할점 후보를 선정하고;각 후보별로 그 분할문들에 대한 파싱을 수행하며;각 분할문 파싱결과에 파싱 가중치를 적용하여 최적의 분할점을 선정하고, 선정된 분할점에 따른 구문 파싱결과를 출력하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 제 1항에 있어서, 상기 부분패턴 번역부는,상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며;상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며;상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 제 5항에 있어서, 상기 부분패턴 번역부는,상기 하위절에 대한 부분패턴 번역이 실패할 경우, 다시 절구조 분석 결과를 참조하여 상기 하위절의 하위절에 대한 부분 패턴 번역을 하는 하향식 부분 패턴 번역을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
- 입력 원문에 대해 형태소 분석 및 전처리 청킹을 수행하고, 그 분석결과에 대해 태깅하는 형태소 분석 및 태깅 단계;상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석 단계;상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성 단계;번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역 단계;상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 구문의 절 단위 구조를 분석하는 절구조 분석 단계; 및상기 절 구조 분석 결과를 참조하여 번역 실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대한 패턴 번역을 수행하고 이를 조합하여 최종 번역결과를 출력하는 부분패턴 번역 단계;로 구성되는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
- 제 7항에 있어서, 상기 구문 분석 단계는, 입력 문장의 길이가 특정값 이상인 장문일 경우,분할점 구문단서, 본동사 존재 여부, 분할문의 길이를 바탕으로 2 내지 3개의 분할점 후보를 선정하고;각 후보별로 그 분할문들에 대한 파싱을 수행하며;각 분할문 파싱결과에 파싱 가중치를 적용하여 최적의 분할점을 선정하고, 선정된 분할점에 따른 구문 파싱결과를 출력하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
- 제 7항에 있어서, 상기 부분패턴 번역 단계는,상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며;상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며;상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
- 제 9항에 있어서, 상기 부분패턴 번역 단계는, 상기 하위절에 대한 부분패턴 번역이 실패할 경우, 다시 절구조 분석 결과를 참조하여 상기 하위절의 하위절에 대한 부분 패턴 번역을 하는 하향식 부분 패턴 번역을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
- 제 7항 내지 제 10항 중 어느 한항에 기재된 규칙기반 방식과 번역 패턴방식을 혼합한 하이브리드 자동 번역방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030063517A KR100542755B1 (ko) | 2003-09-15 | 2003-09-15 | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 |
US10/735,727 US20050060160A1 (en) | 2003-09-15 | 2003-12-16 | Hybrid automatic translation apparatus and method employing combination of rule-based method and translation pattern method, and computer-readable medium thereof |
JP2003431457A JP3971373B2 (ja) | 2003-09-15 | 2003-12-25 | ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030063517A KR100542755B1 (ko) | 2003-09-15 | 2003-09-15 | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050027298A true KR20050027298A (ko) | 2005-03-21 |
KR100542755B1 KR100542755B1 (ko) | 2006-01-20 |
Family
ID=34270695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030063517A KR100542755B1 (ko) | 2003-09-15 | 2003-09-15 | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20050060160A1 (ko) |
JP (1) | JP3971373B2 (ko) |
KR (1) | KR100542755B1 (ko) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100703697B1 (ko) * | 2005-02-02 | 2007-04-05 | 삼성전자주식회사 | 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 |
KR100792204B1 (ko) * | 2005-12-05 | 2008-01-08 | 한국전자통신연구원 | 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 |
KR100805190B1 (ko) * | 2006-09-07 | 2008-02-21 | 한국전자통신연구원 | 영어 문장 분리 장치 및 방법 |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US7747427B2 (en) | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
US8457947B2 (en) | 2009-12-02 | 2013-06-04 | Electronics And Telecommunications Research Institute | Hybrid translation apparatus and method thereof |
KR101301536B1 (ko) * | 2009-12-11 | 2013-09-04 | 한국전자통신연구원 | 외국어 작문 서비스 방법 및 시스템 |
US9529796B2 (en) | 2011-09-01 | 2016-12-27 | Samsung Electronics Co., Ltd. | Apparatus and method for translation using a translation tree structure in a portable terminal |
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
WO2021182828A1 (ko) * | 2020-03-08 | 2021-09-16 | 주식회사 미리내 | 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003005166A2 (en) | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE112005002534T5 (de) * | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US10319252B2 (en) * | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US9122674B1 (en) * | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) * | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
CN102270242B (zh) * | 2011-08-16 | 2013-01-09 | 上海交通大学出版社有限公司 | 计算机辅助语料提取方法 |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9472189B2 (en) | 2012-11-02 | 2016-10-18 | Sony Corporation | Language processing method and integrated circuit |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
KR20170107808A (ko) * | 2016-03-16 | 2017-09-26 | 이시용 | 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램 |
KR102565274B1 (ko) * | 2016-07-07 | 2023-08-09 | 삼성전자주식회사 | 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치 |
US10346547B2 (en) * | 2016-12-05 | 2019-07-09 | Integral Search International Limited | Device for automatic computer translation of patent claims |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5418716A (en) * | 1990-07-26 | 1995-05-23 | Nec Corporation | System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases |
JP3189186B2 (ja) * | 1992-03-23 | 2001-07-16 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | パターンに基づく翻訳装置 |
JPH1011447A (ja) * | 1996-06-21 | 1998-01-16 | Ibm Japan Ltd | パターンに基づく翻訳方法及び翻訳システム |
US6077085A (en) * | 1998-05-19 | 2000-06-20 | Intellectual Reserve, Inc. | Technology assisted learning |
US6285978B1 (en) * | 1998-09-24 | 2001-09-04 | International Business Machines Corporation | System and method for estimating accuracy of an automatic natural language translation |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6330530B1 (en) * | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
-
2003
- 2003-09-15 KR KR1020030063517A patent/KR100542755B1/ko not_active IP Right Cessation
- 2003-12-16 US US10/735,727 patent/US20050060160A1/en not_active Abandoned
- 2003-12-25 JP JP2003431457A patent/JP3971373B2/ja not_active Expired - Fee Related
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100703697B1 (ko) * | 2005-02-02 | 2007-04-05 | 삼성전자주식회사 | 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치 |
KR100792204B1 (ko) * | 2005-12-05 | 2008-01-08 | 한국전자통신연구원 | 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법 |
US7747427B2 (en) | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
KR100805190B1 (ko) * | 2006-09-07 | 2008-02-21 | 한국전자통신연구원 | 영어 문장 분리 장치 및 방법 |
KR100911621B1 (ko) * | 2007-12-18 | 2009-08-12 | 한국전자통신연구원 | 한영 자동번역 방법 및 장치 |
US8401839B2 (en) | 2007-12-18 | 2013-03-19 | Electronics And Telecommunications Research Institute | Method and apparatus for providing hybrid automatic translation |
US8457947B2 (en) | 2009-12-02 | 2013-06-04 | Electronics And Telecommunications Research Institute | Hybrid translation apparatus and method thereof |
KR101301535B1 (ko) * | 2009-12-02 | 2013-09-04 | 한국전자통신연구원 | 하이브리드 번역 장치 및 그 방법 |
KR101301536B1 (ko) * | 2009-12-11 | 2013-09-04 | 한국전자통신연구원 | 외국어 작문 서비스 방법 및 시스템 |
US8635060B2 (en) | 2009-12-11 | 2014-01-21 | Electronics And Telecommunications Research Institute | Foreign language writing service method and system |
US9529796B2 (en) | 2011-09-01 | 2016-12-27 | Samsung Electronics Co., Ltd. | Apparatus and method for translation using a translation tree structure in a portable terminal |
CN108885617A (zh) * | 2016-03-23 | 2018-11-23 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
CN108885617B (zh) * | 2016-03-23 | 2022-05-31 | 株式会社野村综合研究所 | 语句解析系统以及程序 |
WO2021182828A1 (ko) * | 2020-03-08 | 2021-09-16 | 주식회사 미리내 | 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20050060160A1 (en) | 2005-03-17 |
JP3971373B2 (ja) | 2007-09-05 |
JP2005092849A (ja) | 2005-04-07 |
KR100542755B1 (ko) | 2006-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100542755B1 (ko) | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 | |
Fung | A pattern matching method for finding noun and proper noun translations from noisy parallel corpora | |
US20050038643A1 (en) | Statistical noun phrase translation | |
KR100530154B1 (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
Wu | Grammarless extraction of phrasal translation examples from parallel texts | |
Moore | Towards a simple and accurate statistical approach to learning translation relationships among words | |
KR100413784B1 (ko) | 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법 | |
WO1997040453A1 (en) | Automated natural language processing | |
Gaussier | General considerations on bilingual terminology extraction | |
Wu | Bracketing and aligning words and constituents in parallel text using Stochastic Inversion Transduction Grammars | |
Nguyen et al. | A tree-to-string phrase-based model for statistical machine translation | |
Germann | Making semantic interpretation parser-independent | |
KR19980031976A (ko) | 영한 기계 번역 시스템을 위한 영어 장문 분할 방법 | |
KR100420474B1 (ko) | 부분문틀을 이용한 장문 번역 장치 및 그 방법 | |
Fujita et al. | A method of creating new valency entries | |
KR20120060666A (ko) | 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법 | |
Nasukawa | Robust Parsing Based on Discourse Information: Completing partial parses of ill-formed sentences on the basis of discourse information | |
Xiong et al. | Linguistically annotated reordering: Evaluation and analysis | |
JP2009258887A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
KR20010026990A (ko) | 한국어 구문 분석기 | |
Luekhong et al. | A framework of 2-step bilingual alignment for SMT: in Case Study of Thai-English Translation | |
Copperman et al. | Computational grammars and ambiguity: the bare bones of the situation | |
Huh et al. | A resource-based Korean morphological annotation system | |
Wang et al. | Finding Target Language Correspondence for Lexicalized EBMT System. | |
KR19980067267A (ko) | 부분문장 파싱기능을 가진 구문해석기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121206 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20131209 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20141229 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20151228 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20161228 Year of fee payment: 12 |
|
LAPS | Lapse due to unpaid annual fee |