KR20050027298A - 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 - Google Patents

규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 Download PDF

Info

Publication number
KR20050027298A
KR20050027298A KR1020030063517A KR20030063517A KR20050027298A KR 20050027298 A KR20050027298 A KR 20050027298A KR 1020030063517 A KR1020030063517 A KR 1020030063517A KR 20030063517 A KR20030063517 A KR 20030063517A KR 20050027298 A KR20050027298 A KR 20050027298A
Authority
KR
South Korea
Prior art keywords
pattern
translation
result
partial
parsing
Prior art date
Application number
KR1020030063517A
Other languages
English (en)
Other versions
KR100542755B1 (ko
Inventor
노윤형
최승권
이기영
홍문표
류철
박상규
김영길
김창현
서영애
양성일
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020030063517A priority Critical patent/KR100542755B1/ko
Priority to US10/735,727 priority patent/US20050060160A1/en
Priority to JP2003431457A priority patent/JP3971373B2/ja
Publication of KR20050027298A publication Critical patent/KR20050027298A/ko
Application granted granted Critical
Publication of KR100542755B1 publication Critical patent/KR100542755B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 기록 매체에 관한 것이다.
본 발명에 따른 자동번역 장치는, 입력 원문에 대해 형태소를 분석하고 품사를 결정하는 형태소 분석 및 태깅 수단; 태깅 결과에 대해 구문 분석을 수행하여 파싱 트리를 출력하는 구문분석 수단; 파싱트리에서 하위범주의 구 청킹 결과만을 추출하여 구문패턴을 생성하는 구문패턴 생성 수단; 번역 패턴을 이용하여 상기 구문패턴에 대한 번역을 시도하는 구문패턴 번역 수단; 상기 구문패턴에 대한 번역패턴 매칭에 실패한 경우, 절구조 분석을 하는 절구조 분석 수단; 및 절구조 분석 결과에 따라 부분 구문패턴의 패턴번역을 수행하여 최종 번역결과를 출력하는 부분패턴 번역 수단;을 포함하는 것을 특징으로 한다

Description

규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체{Hybrid automatic translation Apparatus and Method by combining Rule-based method and Translation pattern method, and The medium recording the program}
본 발명은 자동 번역 장치 및 방법과 그 기록매체에 관한 것이며, 보다 상세히는 종래의 규칙 기반 방식에서의 모호성 문제와 번역 패턴 방식에서의 패턴 생성 및 커버리지 문제를 해결하기 위해 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 이를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.
종래의 규칙 기반 기계 번역 방법에서는, 특히 문장이 길어짐에 따라, 구문 분석이 가지는 애매성 폭발 및 대역 구문의 무제한 생성에 의해 속도 및 번역 성능이 저하되는 문제가 있었다.
이를 해결하기 위한 것으로 번역패턴 기반의 자동번역 방법이 있으며, 이는 원문에서 미리 정해진 번역패턴을 발견하는 방법으로서 대역 구문의 무제한 생성을 방지하고 번역의 품질을 크게 향상시키는 장점이 있다.
하지만, 종래의 번역패턴 기반의 자동번역 방법은, 태깅, 부분 파싱 등만으로는 번역을 위한 구문 패턴을 생성하는 데까지 발생하는 모호성을 처리하지 못하고 올바른 구문 패턴 자체를 생성하지 못함으로 인해 번역 패턴 기반의 장점을 발휘하는데 제한이 있었다.
더욱이, 문장의 길이가 길어짐에 따라 구축해야 할 번역패턴의 수가 급격히 증가하게 되고, 번역패턴에 대한 매칭 성공률이 떨어져 심각한 커버리지 문제를 갖게 된다.
또한, 이러한 커버리지 문제를 해결하기 위한 기존의 대표적인 장문 처리방법은 구문 분석을 하기 전에 장문을 분할하여 더 작은 단위로 나누어 처리하는 것인데, 기존의 장문 분할 방법은 구문 분석이 이루어지기 전의 제한된 정보를 가지고 수행함으로 인해 성능의 한계 및 부작용이 많았다.
따라서, 본 발명은 상술한 종래의 문제점을 해결하기 위한 것으로서, 본 발명의 목적은 번역 패턴 방식에서 입력문장에 대한 구문 패턴을 구문 분석 결과에서 구 청킹(chunking) 결과만을 추출하여 생성함으로써, 규칙기반 방식의 모호성 문제를 피하면서 구문 패턴 생성의 정확성을 높이고, 또한 패턴 번역에 실패하는 경우, 절구조 분석만을 다시 수행하여 그 결과에 따라 부분패턴 번역을 수행함으로 번역 패턴 기반의 자동 번역에 있어 문장 길이가 길어짐에 따라 발생하는 번역의 커버리지 문제를 해결하여 높은 커버리지의 고품질 자동번역 결과를 생성할 수 있는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.
상기 본 발명의 목적을 달성하기 위한 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치는, 입력 원문에 대해 형태소 분석을 수행하는 형태소 분석부; 상기 형태소 분석결과에 대해 각각의 품사를 결정하는 태깅부; 상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석부; 상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성부; 번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역부; 상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 그 구문에 대한 절 단위의 구조를 파악하는 절구조 분석부; 및 상기 절 구조 분석 결과를 참조하여 각 하위절에 대한 부분 구문패턴을 인식하고, 부분 번역 패턴을 이용하여 번역을 수행하는 부분패턴 번역부;로 구성된다.
또한, 상기 본 발명의 목적을 달성하기 위한 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법은, 입력 원문에 대해 형태소 분석 및 전처리 청킹을 수행하고, 그 분석결과에 대해 태깅하는 형태소 분석 및 태깅 단계; 상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석 단계; 상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성 단계; 번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역 단계; 상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 구문의 절 단위 구조를 분석하는 절구조 분석 단계; 및 상기 절 구조 분석 결과를 참조하여 번역 실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대한 패턴 번역을 수행하고 이를 조합하여 최종 번역결과를 출력하는 부분패턴 번역 단계;로 이루어진다.
또한, 상기 부분패턴 번역 단계는, 상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며; 상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며; 상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것이 바람직하다.
또한, 상기 본 발명의 목적을 달성하기 위하여, 본 발명에 따른 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법을 실현할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 하이브리드 자동 번역 장치의 각 구성요소 및 처리 흐름을 보여주는 전체적인 블록구성이다.
도 1에서, 본 발명의 자동번역 장치에 대한 전체적인 흐름을 살펴보면, 입력문장에 대해 형태소 분석 및 태깅(tagging)을 수행하고,(101,102) 태깅 결과로 들어온 입력 문장에 대하여 구문 분석(parsing)을 수행한다.(103) 그리고, 구문 분석 결과 생성된 파싱 트리로부터 구문 패턴을 생성한 후,(104) 번역 패턴에 의해 번역을 수행하게 된다.(105)
여기에서, 구문 패턴은, 입력 문장에서 문장의 중심이 되는 동사(V), 조동사(X), 접속사(C) 등의 품사와 거기에 의존하는 구문요소로 이루어지는 전체 문장을 나타내는 패턴을 말한다. 또한, 구문요소로는 명사구(NP), 전치사구(PP), 형용사구(AP), 고립 전치사구(IPREP) 등이 있고, 각각은 n(명사구), p(전치사구), a(형용사구), i(고립전치사구)의 심볼로 표시한다.
본 발명에서의 구문 패턴은 상기 품사나 구문요소로 이루어진 문장 단위의 패턴을 의미하는 것으로, 구 단위의 패턴을 사용하는 일반적인 패턴기반 방식의 번역에서의 패턴과 구별되는 것이다. 또한, 이러한 구문 패턴에 대응하는 대역문의 대역 구문패턴을 기술함으로써 입력문장에 꼭 적절한 대역문 생성이 가능하도록 할 수 있는데, 이러한 문장 범위의 번역 정보를 담고 있는 구문 단위 패턴을 번역 패턴이라 한다. 이러한 번역 패턴에 의한 번역 방식은 철저한 구문구조를 파악해야만 번역성능이 보장되기 때문에 번역이 어려운 영어-한국어와 같은 이종언어간에 높은 성능을 발휘하게 된다.
또한, 본 발명은, 상기 번역 패턴에 의한 번역에서 번역 패턴 매칭에 실패할 경우, 절구조 분석을 수행하고,(106) 절구조 분석 결과에 따라 부분패턴 번역을 수행하게 된다.(105-1)
이와 같은 부분패턴 번역은, 문장전체에 대한 번역 패턴이 존재하지 않는 경우, 하위절(sub-clause)에 해당하는 부분 구문 패턴으로 나누어 처리하고 그 결과를 연결하여 최종결과를 생성함으로 번역 패턴의 커버리지를 높이기 위함이다.
이하에서는, 도 1 내지 도 4를 참조하여, 본 발명에 따른 자동번역 장치를 각 세부 블록별로 보다 상세히 기술한다.
도 1에서, 형태소 분석부(101)는, 입력되는 원문에 대해 형태소 분석 및 전처리 청킹(chunking)을 수행한다. 전처리 청킹은 고유명사, 시간 부사구, 어휘 고정표현 등을 미리 묶어줌으로써 문장의 길이를 줄이고 태깅 성능을 올릴 수 있게 한다.
또한, 태깅부(102)는, 상기 형태소 분석에 대해 태깅을 수행하며, 그 태깅 결과는 태깅 자체 성능 및 파싱 효율성을 고려하여 각 단어에 대해 최적의 후보 2개를 출력한다. 따라서, 태깅만으로는 분별이 어려운 모호성이 있는 경우, 파싱을 통해 넓은 범위의 구문 분석 정보를 반영함으로 인한 태깅 성능의 향상을 기대할 수 있다.
한편, 도 2는, 구문 분석부(103)의 세부 블록구성을 보여주는 도면이다.
도 2에서, 구문 분석부(103)는 입력되는 두 개의 태킹 최적후보에 대해 파싱(parsing)을 수행하는(S201) 구성블록으로, 입력 문장의 길이가 특정값(N) 이상인 장문일 경우 문장 분할에 의한 파싱을 수행한다. 이때, 장문의 판정은 전처리 청킹이 된 상태에서의 문장 길이로 이루어진다.
본 발명에 따른 문장 분할에 의한 파싱은 다음과 같은 과정으로 이루어진다.
먼저, 문장의 구두점, 접속사, 관계사, 의문사 등의 분할점 구문단서를 바탕으로 다수의 문장 분할점 후보를 선정한 후, 선정된 후보들 중에서 각 분할문 양쪽에 본동사(즉, 시제를 가지고 있는 동사)가 존재하는지 여부 및 분할문의 길이를 고려하여 2 내지 3개의 분할점 후보를 선정한다.(S202)
그리고, 각 후보별로, 그 분할점에 의한 분할문들에 대해 파싱을 수행한다.(S203) 만일, 분할문 자체가 장문일 경우는 상기 S202 단계 및 S203 단계를 재귀적으로 적용하여 파싱을 수행한다. 이와 같이 분할문 자체의 길이가 특정값 이상인 분할문에 대해 다시 장문 분할을 재귀적으로 수행함으로써 임의의 장문에 대해서도 원하는 만큼 분할을 수행할 수 있다.
그리고, 각 분할문 파싱결과에 파싱 가중치를 적용하여 가중치가 높은 최적의 분할점을 선정하고, 선정된 분할점에 따른 파싱결과 및 파싱트리를 출력한다.(S204)
또한, 삽입절과 같이 분할되서는 안되는 지점을 찾기 위해서는 매우 넓은 범위의 문맥과 깊은 분석을 필요로 하는데, 본 발명은 각 후보별로 파싱을 수행한 후 최종 분할점을 결정하기 때문에 최적의 분할점을 보다 정확하게 판정할 수 있다.
다음은 아래의 입력문장(영문)에 대한 본 발명에 의한 문장 분할에 의한 파싱의 일 실시예를 나타낸다.
[입력문장]: "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents when they speak today, try to work out the arrangements for a much broader Russian participation in the peacekeeping force."
[분할점 후보]: ... in the NATO command structure /while the political leaders, including the two presidents /when they speak today, try to ....
[각 분할점 후보별 분할문]
while: (We're told to look for ... NATO command structure) (while the political leaders, including the two presidents when they speak today, try to ... the peacekeeping force.)
when: (We're told to look for ... NATO command structure while the political leaders, including the two presidents) (when they speak today, try to ... in the peacekeeping force.)
분할점 후보 'when'의 경우, 그 분할문 "We're told to look for an announcement under which the Russians would temporarily participate in the NATO command structure while the political leaders, including the two presidents" 은 비문(abnormal sentence)이므로, 파싱 가중치에 의해 'when'은 분할점 후보에서 제외된다.
[최종 선정된 분할문의 파싱 결과]
(S (NP We) (VP 're (VP told (TOINF (VP to (VP look_for (NP an announcement) (PP under)))))) (SBAR (WHNP which) (SS (NP the Russians) (VP would temporarily (VP participate (PP in (NP the NATO command structure)))))))
(S (NP (NP the political leaders) -COMMA- (PP including (NP (NP the two presidents) (SBAR (WHADVP when) (SS (NP they) (VP speak today))))) -COMMA-) (VP try (TOINF to (VP work_out) (NP the arrangements) (PP for (NP (NP a (ADJP much broader) Russian participation) (PP in (NP the peacekeeping force)))))))
구문 패턴 생성부(104)는 상기 최종 선정된 분할점 후보에 대한 파싱 트리에서 NP, AP, PP, IPREP와 같이 동사의 하위범주에 속하는 구(phase)들의 청킹 범위를 인식함으로써 구문패턴을 추출한다.
본 발명에서 동사의 하위 범주라함은 구문 트리상의 NP, AP, PP, IPREP 중에서 동사에 의존하는 구를 말한다. 구문 트리 상에서 주로 상위로 갈수록 모호성이 증가하기 때문에, 본 발명은 이와 같이 하위범주의 구 청킹 결과만으로 구문패턴을 추출함으로써 구문분석의 모호성 문제를 줄일 수 있다.
다음은 상기 입력 예문에 대한 구 청킹 추출 결과 및 구문 패턴이다.
[구 청킹 추출 결과]
(NP We) 're told (IPREP to) look_for (NP an announcement) (IPREP under) which (NP the Russians) would temporarily participate (PP in the NATO command structure)
(NP the political leaders) -COMMA- (PP including the two presidents) when (NP they) speak today -COMMA- try (IPREP to) work_out (NP the arrangements) (PP for a much broader Russian participation in the peacekeeping force)
[구문 패턴]: nViVniCnVpCnTpCnVTViVnp
위에서 보면, 'while'은 실제로 'under which'의 관계절 안의 접속사로서, 분할되어서는 안 되는 분할점이다. 따라서, 'while'에 의해 분할된 상태로 종래 방식에 따라 번역을 수행하게 된다면 잘못된 번역 결과를 생성하게 될 것이다. 즉, 종래 방식의 경우, 분할점의 선정에 의해 번역결과가 결정되어버리게 된다.
하지만, 본 발명은, 선정된 파싱 결과 중에서 하위범주의 구단위 청킹 결과만을 사용하여 구문패턴을 추출하기 때문에, 분할점의 선정이 구문패턴 결과에 큰 영향을 미치지 않게 되고, 올바른 절구조는 다시 절구조 분석을 통해 얻어지게 된다. 결과적으로, 문장 분할의 실패에 의한 위험성이 감소하게 된다.
한편, 구문 패턴 번역부(105)는 상기 추출된 구문 패턴에 대해 번역 패턴 DB(107)에서 패턴 매칭을 수행한다. 만일, 전 구문에 대한 번역패턴 매칭이 성공하면, 그 번역 패턴에 의해 번역을 수행하고 결과를 출력한다.
하지만, 상기 구문 패턴에 대한 번역패턴의 매칭이 실패할 경우, 절구조 분석부(106)는 그 구문 패턴에 대해 절구조 분석을 수행한다.
절구조 분석은 문장내 본동사를 포함하는 절 단위의 구조를 파악하는 것으로, 입력 예문에 대해 다음과 같은 절구조 분석결과가 나오게 된다.
[절구조 분석 결과]
(s nViVniC(s (s nVp)C(s nT(p pC(s nV))TViVnp)))
그리고, 부분 패턴 번역부(105-1)에서, 절구조 분석 결과를 토대로 부분 번역 패턴을 이용한 번역을 수행한다.
도 3은 본 발명에 따른 패턴 번역의 처리 흐름을 보여준다.
도 3에서, 본 발명의 구문 패턴 번역은, 먼저 입력되는 구문 패턴에 대해 번역 패턴 매칭 및 번역을 수행한다.(S301) 이때, 패턴 번역에 성공하면 그 번역결과를 출력하고 종료한다.
하지만, 구문 패턴 번역에 실패할 경우, 절구조 분석을 수행하고, 그 절구조 분석 트리로부터 현재의 하위노드에 해당하는 범위에 대한 부분 구문 패턴을 생성한다. 이때, 관계절이나 의문사절 등의 경우에는 이동된 원래의 구문요소를 복원시켜 기존의 번역 패턴에 의해 번역이 될 수 있도록 문장 복원을 수행한다.
그리고, 상기 생성된 하위의 부분 구문 패턴에 대해 상기 패턴 번역 DB(107)를 참조하여 패턴 번역을 수행한다.(S302) 이때, 그 부분 구문 패턴에 대한 패턴 번역에 실패할 경우, 다시 절구조 분석 결과를 참조하여 그 하위 절에 대한 부분 패턴 번역을 수행하게 된다.
그리고, 각 하위절에 해당하는 부분 구문 패턴에 대한 번역 결과가 나오면, 해당 범위의 번역결과를 담고 있는 문장 심볼 S로 치환하고, 그 패턴치환으로 reduce된 구문 패턴에 대해 번역 패턴 매칭 및 번역을 수행함으로써 최종 번역결과를 생성하게 된다.(S303)
만약, 상기의 reduce된 구문 패턴에 의한 번역도 실패할 경우, NP, Verb, S(번역된 하위절), AP 등과 같은 구문패턴을 이루는 각 구문요소별로 번역을 수행하고, 이들을 조합하여 최종 번역결과를 생성한다.(S304)
한편, 도 4는 상기 입력예문에 대한 절 구조 분석 결과 및 부분패턴 번역의 일 실시예를 나타낸다.
도 4에서, 먼저 s1에 대한 패턴 번역을 시도하고 이에 실패할 경우, 그 절구조 분석결과로부터 하위절인 s2를 인식하고 1.1)에서 s2의 번역을 시도한다. 이때, s2에 대한 번역에 성공하게 되면 1.2)에서와 같이 reduce된 구문 패턴에 대해 번역을 함으로써 전체 번역이 이루어지게 된다.
만약, s2의 부분 구문 패턴에 대한 직접 번역이 실패할 경우, 다시 절구조 분석 결과에서 그 하위절인 s3, s4를 인식한 후, 1.1.1), 1.1.2), 1.1.3)에서와 같이 하위 부분패턴 번역을 시도하며, 하위 번역 패턴에 대해서도 패턴 번역이 실패하는 경우 그 하위에 대해 동일한 과정을 반복하게 된다. 또한, 최종 하위절에 대한 패턴 번역에 실패할 경우는, 각 구문요소별로 번역을 시도한다.
본 발명은 이와 같이 하향식으로 부분패턴 번역을 수행하기 때문에, 만일 절구조 분석상에 오류가 있다 하더라도 그 상위의 구조에서 번역 패턴이 존재하게 되면 번역 패턴에 의해 올바른 번역이 수행되므로, 절구조 분석상의 오류에 의한 부작용을 최소화할 수 있다.
또한, 전체 구문에 대한 번역 패턴이 없을 경우 하위절의 부분구문 패턴 및 reduced 구문패턴으로 매칭하기 때문에, 매칭될 패턴의 길이기 줄어들게 되고 번역 패턴의 커버리지를 효과적으로 높일 수 있다.
상술한 바와 같이 본 발명에 의하면, 구조 분석의 처리 단위를 구단위와 절단위로 구분하고, 구문 분석 결과에서 구단위 결과만 추출함으로써, 구문분석의 모호성 문제, 문장분할의 부작용 문제를 최소화하고, 번역 패턴 매칭을 위한 구문 패턴의 정확성을 높일 수 있다.
또한 절구조 분석 결과로부터 하향식 방식으로 부분패턴 번역을 수행함으로써, 높은 커버리지의 고품질 번역결과를 얻을 수 있다.
이상에서 설명한 것은 본 발명에 따른 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.
도 1은 본 발명에 따른 하이브리드 자동 번역 장치의 구성요소 및 처리 흐름을 보여주는 블록도.
도 2는 본 발명에 따른 구문 분석부의 구성 및 처리 흐름을 보여주는 블록도.
도 3은 본 발명에 따른 부분 패턴 번역 과정에 대한 처리 흐름도.
도 4는 본 발명에 따른 부분 패턴 번역 과정의 일 실시예.
<도면의 주요부분에 대한 부호의 설명>
101: 형태소 분석부 102: 태깅부
103: 구문 분석부 104: 구문 패턴 생성부
105: 구문 패턴 번역부 105-1: 부분 패턴 번역부
106: 절 구조 분석부 107: 번역 패턴 DB

Claims (11)

  1. 입력 원문에 대해 형태소 분석을 수행하는 형태소 분석부;
    상기 형태소 분석결과에 대해 각각의 품사를 결정하는 태깅부;
    상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석부;
    상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성부;
    번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역부;
    상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 그 구문에 대한 절 단위의 구조를 파악하는 절구조 분석부; 및
    상기 절 구조 분석 결과를 참조하여 각 하위절에 대한 부분 구문패턴을 인식하고, 부분 번역 패턴을 이용하여 번역을 수행하는 부분패턴 번역부;로 구성되는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  2. 제 1항에 있어서, 상기 형태소 분석부는, 입력 원문에 대한 형태소 분석 시 전처리 청킹을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  3. 제 1항에 있어서, 상기 태깅부는, 그 태깅 결과로서 최적의 후보 2개를 출력하여 상기 구문 분석부로 제공하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  4. 제 1항에 있어서, 상기 구문 분석부는, 입력 문장의 길이가 특정값 이상인 장문일 경우,
    분할점 구문단서, 본동사 존재 여부, 분할문의 길이를 바탕으로 2 내지 3개의 분할점 후보를 선정하고;
    각 후보별로 그 분할문들에 대한 파싱을 수행하며;
    각 분할문 파싱결과에 파싱 가중치를 적용하여 최적의 분할점을 선정하고, 선정된 분할점에 따른 구문 파싱결과를 출력하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  5. 제 1항에 있어서, 상기 부분패턴 번역부는,
    상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며;
    상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며;
    상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  6. 제 5항에 있어서, 상기 부분패턴 번역부는,
    상기 하위절에 대한 부분패턴 번역이 실패할 경우, 다시 절구조 분석 결과를 참조하여 상기 하위절의 하위절에 대한 부분 패턴 번역을 하는 하향식 부분 패턴 번역을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 장치.
  7. 입력 원문에 대해 형태소 분석 및 전처리 청킹을 수행하고, 그 분석결과에 대해 태깅하는 형태소 분석 및 태깅 단계;
    상기 태깅결과에 대해 구문 분석을 하고 파싱트리를 출력하는 구문 분석 단계;
    상기 파싱트리에서 동사의 하위범주에 속하는 구들의 청킹 결과만을 추출하여 구문 패턴을 생성하는 구문패턴 생성 단계;
    번역 패턴을 이용하여 상기 구문 패턴에 대한 번역을 수행하는 구문패턴 번역 단계;
    상기 구문 패턴에 대한 번역 패턴 매칭에 실패한 경우, 구문의 절 단위 구조를 분석하는 절구조 분석 단계; 및
    상기 절 구조 분석 결과를 참조하여 번역 실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대한 패턴 번역을 수행하고 이를 조합하여 최종 번역결과를 출력하는 부분패턴 번역 단계;로 구성되는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
  8. 제 7항에 있어서, 상기 구문 분석 단계는, 입력 문장의 길이가 특정값 이상인 장문일 경우,
    분할점 구문단서, 본동사 존재 여부, 분할문의 길이를 바탕으로 2 내지 3개의 분할점 후보를 선정하고;
    각 후보별로 그 분할문들에 대한 파싱을 수행하며;
    각 분할문 파싱결과에 파싱 가중치를 적용하여 최적의 분할점을 선정하고, 선정된 분할점에 따른 구문 파싱결과를 출력하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
  9. 제 7항에 있어서, 상기 부분패턴 번역 단계는,
    상기 절 구조 분석 결과를 참조하여, 번역실패 노드의 하위절에 대한 부분 구문패턴을 생성하고, 그 부분 구문패턴에 대해 패턴 번역을 수행하며;
    상기 부분 구문패턴의 번역결과를 문장 심볼 S로 치환하고, 그 패턴치환으로 축소된 구문패턴에 대해 패턴 번역을 수행하며;
    상기 구문패턴 축소에 의한 패턴 번역이 실패할 경우, 각 구문요소별로 번역을 수행하여 최종 번역결과를 생성하는; 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
  10. 제 9항에 있어서, 상기 부분패턴 번역 단계는, 상기 하위절에 대한 부분패턴 번역이 실패할 경우, 다시 절구조 분석 결과를 참조하여 상기 하위절의 하위절에 대한 부분 패턴 번역을 하는 하향식 부분 패턴 번역을 수행하는 것을 특징으로 하는 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드 자동 번역 방법.
  11. 제 7항 내지 제 10항 중 어느 한항에 기재된 규칙기반 방식과 번역 패턴방식을 혼합한 하이브리드 자동 번역방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020030063517A 2003-09-15 2003-09-15 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 KR100542755B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020030063517A KR100542755B1 (ko) 2003-09-15 2003-09-15 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US10/735,727 US20050060160A1 (en) 2003-09-15 2003-12-16 Hybrid automatic translation apparatus and method employing combination of rule-based method and translation pattern method, and computer-readable medium thereof
JP2003431457A JP3971373B2 (ja) 2003-09-15 2003-12-25 ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030063517A KR100542755B1 (ko) 2003-09-15 2003-09-15 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체

Publications (2)

Publication Number Publication Date
KR20050027298A true KR20050027298A (ko) 2005-03-21
KR100542755B1 KR100542755B1 (ko) 2006-01-20

Family

ID=34270695

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030063517A KR100542755B1 (ko) 2003-09-15 2003-09-15 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체

Country Status (3)

Country Link
US (1) US20050060160A1 (ko)
JP (1) JP3971373B2 (ko)
KR (1) KR100542755B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8457947B2 (en) 2009-12-02 2013-06-04 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
KR101301536B1 (ko) * 2009-12-11 2013-09-04 한국전자통신연구원 외국어 작문 서비스 방법 및 시스템
US9529796B2 (en) 2011-09-01 2016-12-27 Samsung Electronics Co., Ltd. Apparatus and method for translation using a translation tree structure in a portable terminal
CN108885617A (zh) * 2016-03-23 2018-11-23 株式会社野村综合研究所 语句解析系统以及程序
WO2021182828A1 (ko) * 2020-03-08 2021-09-16 주식회사 미리내 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
WO2004001623A2 (en) * 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
DE112005002534T5 (de) * 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9122674B1 (en) * 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) * 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
CN102270242B (zh) * 2011-08-16 2013-01-09 上海交通大学出版社有限公司 计算机辅助语料提取方法
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9472189B2 (en) 2012-11-02 2016-10-18 Sony Corporation Language processing method and integrated circuit
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
KR20170107808A (ko) * 2016-03-16 2017-09-26 이시용 원문문장을 번역 소단위들로 분할하고 소번역단위들의 번역어순을 결정하는 번역어순패턴 데이터 구조, 이를 생성하기 위한 명령어들을 저장한 컴퓨터 판독가능한 저장매체 및 이를 가지고 번역을 수행하는 컴퓨터 판독가능한 저장매체에 저장된 번역 프로그램
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10346547B2 (en) * 2016-12-05 2019-07-09 Integral Search International Limited Device for automatic computer translation of patent claims

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5418716A (en) * 1990-07-26 1995-05-23 Nec Corporation System for recognizing sentence patterns and a system for recognizing sentence patterns and grammatical cases
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
US6077085A (en) * 1998-05-19 2000-06-20 Intellectual Reserve, Inc. Technology assisted learning
US6285978B1 (en) * 1998-09-24 2001-09-04 International Business Machines Corporation System and method for estimating accuracy of an automatic natural language translation
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6330530B1 (en) * 1999-10-18 2001-12-11 Sony Corporation Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR100792204B1 (ko) * 2005-12-05 2008-01-08 한국전자통신연구원 제한적인 도메인의 문서를 대상으로 특화된 자동 번역 장치및 방법
US7747427B2 (en) 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US8401839B2 (en) 2007-12-18 2013-03-19 Electronics And Telecommunications Research Institute Method and apparatus for providing hybrid automatic translation
US8457947B2 (en) 2009-12-02 2013-06-04 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
KR101301535B1 (ko) * 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법
KR101301536B1 (ko) * 2009-12-11 2013-09-04 한국전자통신연구원 외국어 작문 서비스 방법 및 시스템
US8635060B2 (en) 2009-12-11 2014-01-21 Electronics And Telecommunications Research Institute Foreign language writing service method and system
US9529796B2 (en) 2011-09-01 2016-12-27 Samsung Electronics Co., Ltd. Apparatus and method for translation using a translation tree structure in a portable terminal
CN108885617A (zh) * 2016-03-23 2018-11-23 株式会社野村综合研究所 语句解析系统以及程序
CN108885617B (zh) * 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
WO2021182828A1 (ko) * 2020-03-08 2021-09-16 주식회사 미리내 기계학습, 자연어처리 및 패턴기반 참조 라이브러리 기반 탐색 언어학습 시스템 및 방법

Also Published As

Publication number Publication date
US20050060160A1 (en) 2005-03-17
JP3971373B2 (ja) 2007-09-05
JP2005092849A (ja) 2005-04-07
KR100542755B1 (ko) 2006-01-20

Similar Documents

Publication Publication Date Title
KR100542755B1 (ko) 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
Fung A pattern matching method for finding noun and proper noun translations from noisy parallel corpora
US20050038643A1 (en) Statistical noun phrase translation
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
Wu Grammarless extraction of phrasal translation examples from parallel texts
Moore Towards a simple and accurate statistical approach to learning translation relationships among words
KR100413784B1 (ko) 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
WO1997040453A1 (en) Automated natural language processing
Gaussier General considerations on bilingual terminology extraction
Wu Bracketing and aligning words and constituents in parallel text using Stochastic Inversion Transduction Grammars
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
Müürisep et al. A new language for Constraint Grammar: Estonian
Germann Making semantic interpretation parser-independent
KR19980031976A (ko) 영한 기계 번역 시스템을 위한 영어 장문 분할 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Fujita et al. A method of creating new valency entries
KR20120060666A (ko) 통계적 기계 번역에서 명사구 대역 쌍 추출 장치 및 방법
Nasukawa Robust Parsing Based on Discourse Information: Completing partial parses of ill-formed sentences on the basis of discourse information
Xiong et al. Linguistically annotated reordering: Evaluation and analysis
JP2009258887A (ja) 機械翻訳装置及び機械翻訳プログラム
KR20010026990A (ko) 한국어 구문 분석기
Luekhong et al. A framework of 2-step bilingual alignment for SMT: in Case Study of Thai-English Translation
Copperman et al. Computational grammars and ambiguity: the bare bones of the situation
Huh et al. A resource-based Korean morphological annotation system
Sweta et al. Role of NLP in Indian regional languages

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121206

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20131209

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20141229

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20151228

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20161228

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee