KR101064950B1 - 번역 오류 후처리 보정 장치 및 방법 - Google Patents

번역 오류 후처리 보정 장치 및 방법 Download PDF

Info

Publication number
KR101064950B1
KR101064950B1 KR1020090027750A KR20090027750A KR101064950B1 KR 101064950 B1 KR101064950 B1 KR 101064950B1 KR 1020090027750 A KR1020090027750 A KR 1020090027750A KR 20090027750 A KR20090027750 A KR 20090027750A KR 101064950 B1 KR101064950 B1 KR 101064950B1
Authority
KR
South Korea
Prior art keywords
error
translation
word
correction
post
Prior art date
Application number
KR1020090027750A
Other languages
English (en)
Other versions
KR20100062834A (ko
Inventor
서영애
김창현
양성일
윤창호
김운
황금하
최승권
이기영
권오욱
노윤형
박은진
오영순
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US12/621,654 priority Critical patent/US8494835B2/en
Publication of KR20100062834A publication Critical patent/KR20100062834A/ko
Application granted granted Critical
Publication of KR101064950B1 publication Critical patent/KR101064950B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동번역 시스템의 번역 오류를 후처리로 보정하여 번역의 품질을 향상시키는 번역 오류 후처리 보정 기술에 관한 것으로, 목적 언어 코퍼스로부터 번역 오류 유형에 특화된 언어 모델을 구축하고, 오류 특화 언어 모델에 기반하여 번역 오류를 탐색한 후, 오류보정 우선순위 결정 규칙에 따라 탐색된 번역 오류들 간의 오류 보정 우선순위를 정하고, 우선순위에 따라 차례로 탐색된 오류에 대한 보정 후보를 생성하고, 오류 특화 언어모델에 기반한 보정어 선택을 수행한 후, 번역 결과를 수정하는 과정을 반복함으로써 번역문에서 탐색된 모든 오류를 보정하는 것을 특징으로 한다. 본 발명에 의하면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써 자동 번역 시스템의 번역 성능을 향상시킬 수 있다.
자동 번역, 오류 유형 특화 언어 모델, 번역오류 보정

Description

번역 오류 후처리 보정 장치 및 방법{Apparatus and Method for Translation-Error Post-Editing}
본 발명은 오류 유형에 특화된 언어 모델을 이용한 자동번역 시스템의 번역 오류를 보정하는 후처리 기술에 관한 것으로서, 특히 번역 오류의 특성에 따른 오류 보정의 우선순위를 정하고, 번역 오류 유형별 특화된 언어 모델을 이용하여 우선순위의 번역 오류를 차례로 보정함으로써 번역 품질을 향상시키는데 적합한 번역 오류 후처리 보정 장치 및 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-01, 과제명: 휴대형 한/영 자동통역 기술 개발].
하나의 언어로 작성된 문장을 또 다른 언어로 번역해 주는 자동번역 시스템은 그 성능이 계속적으로 향상되고 있으나, 여전히 자동번역 시스템의 번역 오류는 많다. 이러한 번역 오류를 개선하기 위해서는 번역 엔진 내에서 해당 모듈의 성능을 향상시킴으로써 가능하다. 그러나 이러한 방법은 해당 오류를 발생시키는 개별 모듈을 직접 수정해야 하므로, 이미 모듈의 개발이 완료된 번역 시스템의 경우는 오류 수정을 위해 번역 모듈을 새로 구현하여야 한다는 문제점이 있다. 뿐만 아니라, 개별 모듈에서의 오류 수정은 생성된 문장 전체를 고려하지 않기 때문에 올바르게 번역되지 않고 여전히 오류로 남게 될 가능성이 높으며, 발생하는 다양한 종류의 오류에 대한 일괄처리가 되지 않는다는 문제점이 있다. 이러한 문제점으로 인해 자동번역 시스템의 성능 향상을 위해서는 최종 번역문에 발생한 오류를 후처리 기법을 이용하여 자동으로 보정해주는 번역 오류 후처리 보정 기능이 유용하다.
최근 통계기반의 자동번역 시스템이 많이 개발되고 있으나 한국어나 영어와 같이 어순의 차이가 커서 두 언어가 매우 이질적인 언어쌍의 경우에는 좋은 성능을 보이지 못하고 있으며, 실제로 상용화된 제품들은 규칙이나 패턴 기반의 자동번역 시스템들이다. 규칙 또는 패턴기반의 자동번역 시스템의 번역 결과에 있어서 가장 큰 특징 중의 하나는 번역된 문장이 전달하고자 하는 의미는 올바름에도 불구하고 번역문 자체가 자연스럽지 못하거나 문법적 오류가 있어 어색한 경우가 많다는 점이다.
한편, 자동번역 시스템의 오류를 추정하는 데 있어서 언어 모델을 이용할 수 있다. 언어 모델은 대량의 코퍼스로부터 특정 단어들의 열이 나타난 확률을 데이터베이스의 형태로 구축해 놓은 것으로 통계 기반 자동 번역에서 목적 언어로서 올바르게 쓰이는 표현들에 대한 지표로 사용되고 있어서, 자동 번역 시스템이 생성한 번역문에 대해 구축된 언어 모델과 비교함으로써 오류가 발생한 부분을 자동으로 찾아내고, 이를 올바르게 수정하는 데 있어서의 근거를 제공해줄 수 있다.
상기한 바와 같이 종래 기술에 의한 기본적인 언어 모델의 형태인 n-gram 언어모델을 이용하여 자동번역 시스템의 오류를 추정할 경우에 있어서는, n을 크게 할수록 주변 문맥을 더 많이 볼 수 있다는 장점은 있으나, 데이터 부족 현상이 발생할 수 있다. 또 단순 n-gram 모델에 기반한 오류 추정은 원거리 의존관계(long-distance dependency)에서 발생한 오류의 추정이 어려우며, 또한 n-gram 언어모델을 구축함에 있어서 단어들 간의 단순 나열만을 고려함으로 인해 생기는 불필요한 단어열과 같은 잘못된 단어열(예컨대, 노이즈(noise))도 올바른 단어열로 인식됨으로 인해 오류 인식 및 보정의 정확도가 떨어진다는 문제점이 있다.
따라서 후처리를 위한 언어 모델에서는 원거리 의존관계를 고려하고, 언어모델 자체의 노이즈 생성을 방지할 수 있는 새로운 언어 모델의 구축이 필요하다.
번역 오류 보정 후처리 방법에 있어서의 또 하나의 문제는, 하나의 번역문에는 하나 이상의 번역 오류가 공존할 수 있다는 점이다. 현재까지의 번역 오류 후처리 보정 시스템들은 이러한 경우에 대한 오류 처리 순서에 대한 언급이 없다. 그러나 앞에 먼저 나타난 단어들에 근거하여 현재 단어가 맞는지 틀린지를 결정하는 언어 모델 기반의 번역 오류 후처리 보정 시스템에서 보정 성능을 높이기 위해서는 발생한 오류들에 대해 우선순위를 고려하여 높은 우선순위를 갖는 오류를 먼저 보정함으로써 전체 번역 오류 보정 성능을 높이는 기법이 필요하다.
또한, 지금의 후처리 시스템은, 실제 번역을 수행하는 번역 시스템에서의 번 역 엔진 분석 및 생성 정보를 번역 오류 후처리 보정 시스템에서 참조하기 어려운 느슨한 결합(losely-coupled) 구조로 되어 있으나, 규칙이나 패턴 기반의 번역 엔진에 대한 원문 분석 정보나 대역문 생성 정보를 참조하여 오류를 보정한다면 더 좋은 번역 성능을 기대할 수도 있다.
이에 본 발명은, 자동번역 시스템이 번역한 최종 번역문의 오류를 자동으로 인식하고 이를 올바른 번역으로 수정해 가는 방법을 제공함으로써, 높은 품질의 번역을 수행할 수 있는 번역 오류 후처리 보정 장치 및 방법을 제공한다.
또한 본 발명은, 자동 번역 시스템의 번역 오류 특성에 따른 오류 보정의 우선순위를 정하고, 번역 오류 유형별 특화된 언어 모델을 이용하여 우선순위의 번역 오류를 차례로 보정함으로써 번역 품질을 향상시킬 수 있는 번역 오류 후처리 보정 장치 및 방법을 제공한다.
또한 본 발명은, 번역 오류 후처리 보정 장치가 오번역이 발생한 부분을 효과적으로 식별하고, 이를 올바르게 보정하기 위한 오류 보정 우선순위를 정하고, 오류 유형에 특화된 언어 모델을 이용하여 번역 오류를 수정할 수 있는 번역 오류 후처리 보정 장치 및 방법을 제공한다.
본 발명의 일 실시예에 따른 번역 오류 후처리 보정 장치는, 번역 시스템을 이용한 번역 결과 데이터에서 추정하고자 하는 오류 유형에 맞는 오류 특화 언어 모델을 이용하여 번역 오류를 추정하고 이들 간의 번역 오류 보정 순서를 결정하는 번역 오류 탐색기와, 상기 추정된 번역 오류 각각에 대해 차례로, 상기 번역 시스템의 원문 분석 정보를 기반으로 오류 보정어 후보를 생성하는 보정어 후보 생성기와, 상기 생성된 오류 보정어 후보에 대해 보정하고자 하는 오류 유형에 따라 상기 오류 특화 언어 모델을 이용하여 최종 보정어를 선택하고 이를 번역 결과에 반영하여 오류를 보정하는 보정어 선택기를 포함한다.
본 발명의 일 실시예 에 따른 번역 오류 후처리 보정 방법은, 번역 시스템을 이용한 번역 결과 데이터에서 추정하고자 하는 오류 유형에 맞는 오류 특화 언어 모델을 이용하여 번역 오류를 추정하는 과정과, 상기 추정된 번역 오류 각각에 대해 상기 번역 시스템의 원문 분석 정보를 기반으로 오류 보정어 후보를 생성하는 과정과, 상기 생성된 오류 보정어 후보에 대해 보정하고자 하는 오류 유형에 따라 상기 오류 특화 언어 모델을 이용하여 최종 보정어를 선택하고 이를 번역 결과에 반영하여 오류를 보정하는 과정을 포함한다.
본 발명의 실시예에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명의 실시예에 따르면, 비문이나 자연스럽지 못한 표현 등과 같은 자동 번역 시스템의 번역 오류를 실시간으로 보정함으로써 자동 번역 시스템의 번역 성능을 향상시킬 수 있는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 자동번역 시스템이 번역한 최종 번역문의 오류를 자동으로 인식하고 이를 올바른 번역으로 수정하기 위한 것으로서, 자동 번역 시스템이 해당 데이터에 대한 번역을 수행한 후, 번역 오류 후처리 보정 장치가 오번역이 발생한 부분을 탐색하여 탐색된 번역 오류의 특성에 따라 오류 보정의 우선순위를 정하고, 번역 오류 유형별로 특화된 언어 모델을 이용하여 우선순위의 번역 오류를 차례로 보정함으로써 번역 품질을 향상시키기 위한 것이다.
자동번역 시스템의 번역 오류는 매우 다양하며, 이에 대한 여러 가지 오류 분류가 있다. 그 중 영어를 목적 언어로 하는 경우, 다음과 같은 오류 분류를 해볼 수 있다. 
1) 단어 선택 오류(Word Choice) : 명사, 동사, 형용사, 부사, 관사, 전치사, 보조 동사 등의 단어 대역어 선택 오류, 단복수 일치 오류, 복수 처리 오류
2) 단어 존재 오류(Word Presence) : 관사, 전치사, 보조용언 등의 유무 관련 오류
3) 단어 순서 오류(Word Order) : 수식언간의 어순(adjective sequence), 복 합 명사구 내의 어순(nominal compounds)
여기서, 단어 선택 오류는 자동 번역 시스템의 번역엔진이 잘못된 대역어를 생성한 경우를 말한다. 단어 존재 오류는 관사, 전치사 등의 단어가 있어야 하는데, 없거나 없어야 하는 곳에 있는 경우의 오류를 말한다. 단어순서 오류는 여러 개의 형용사로 수식을 받거나, 여러 개의 부사로 수식을 받거나 하는 경우 이들 수식언간의 어순이 잘못된 경우나, 복합 명사구 내의 명사들 간의 어순이 잘못된 경우 등을 들 수 있다.
n-gram 언어 모델 기반의 오류 보정 방식은 코퍼스에서 나타난 단어의 열이 나타났는가를 기준으로 오류를 보정하는 형태로 기본 아이디어는 다음과 같다. 한영 자동번역 시스템에서 “나는 학교에 갔다.” 라는 문장에 대해 “ I went to the school"이란 문장이 번역 결과로 나왔다면, 3-gram 오류 보정 모델에서는 다음과 같은 3-gram 데이터로부터 빈도수가 임계값(threshold) 이하로 떨어지는 단어열에 대해서 오류로 인식한다. 아래는 3-gram 데이터의 단순예이다. 왼쪽은 단어열을 나타내고 오른쪽은 코퍼스 상의 발현 빈도수를 나타낸다. 실제 데이터는 이와 다른 형태를 취할 수 있다. 즉, 단순한 발현 빈도수가 아니라 보정된 데이터 값이 들어갈 수 있다.
                $_I_went 200
                I_went_to 100
                went_to_the 120
                to_the_school 15
n-gram 데이터는 코퍼스에서 해당 단어열이 발생한 빈도 정보를 기반으로 만들어지는데, 단순히 단어열이 발생한 빈도 정보를 기준으로 할 경우 데이터 부족이나 n-gram으로써는 의미가 없는 부적절한 단어열이 나타날 확률이 높다.
이를 위해 구조 분석 정보를 이용해서 n-gram 데이터를 추출하는 방법이 사용된다. 의존관계를 분석한 의존트리로부터 n-gram을 추출할 경우 원거리 의존관계에 있는 단어열들에 대한 정보를 가질 수 있다는 장점이 있다.
그러나 이러한 경우에도 의존관계 언어모델에 기반한 오류 보정 후처리 방법의 성능은 그다지 좋지 못하다. 이를 위해 본 발명의 실시예에서는 오류특화 언어모델에 기반한 번역오류 후처리 보정 방식을 제안한다.
도 1은 본 발명의 실시예에 따른 오류 특화 언어 모델이 구축되는 개념을 도시한 개념도이다.
도 1을 참조하면, 오류 특화 언어 모델 구축기(100)는 언어모델을 구축할 학습 코퍼스로서 목적 언어 코퍼스를 입력 받게 되며, 이를 통해 단어 선택 오류, 단어 순서 오류 및 단어 존재 오류 보정에 적합한 단어 선택 오류 언어 모델(112), 단어 순서 오류 언어 모델(114) 및 단어 존재 오류 언어 모델(116) 등을 포함하는 오류 특화 언어 모델(110)을 생성하게 된다.
도 2는 본 발명의 실시예에 따른 오류 특화 언어 모델의 구축 절차를 도시한 흐름도이다.
도 2를 참조하면, 목적 언어 코퍼스를 입력 받은 오류 특화 언어 모델 구축기(100)는 의존문법에 기반한 언어모델로서, 보정하고자 하는 오류에 적합한 형태로 언어모델을 구축한다. 각 오류 유형에 적합한 언어 모델을 구축하기 위해, 각 오류 유형별로 해당 오류 유형의 보정에 필요한 요소들(factors)을 정의하여 언어모델을 구축함으로써, 주어진 문장에 대해 동일한 의존 트리로부터 언어모델을 구축하더라도 보정하고자 하는 오류 유형에 따라 구축되는 언어모델이 달라진다. 우선, 200단계에서 목적 언어 코퍼스를 입력 받고, 목적 언어 코퍼스에 포함되어 있는 언어모델을 구축할 학습 코퍼스의 문장들에 대해 의존관계 분석을 수행한다. 이후, 202단계에서는 오류 유형별(단어선택/단어존재/단어순서) 단어 오류 보정을 위해 현재 대상 단어를 기준으로 의존관계에 있는 단어열들에 대한 요소 정보들을 추출한다. 이에 204단계에서는 추출된 요소 정보에서 단어의 빈도수 정보를 기반으로 평활화(smoothing) 처리를 통해 최종 언어모델을 구축한다.
오류 유형별 특화된 언어모델을 구축하기 위해서는 문장을 구성하는 하나의 단어들을 K개의 요소(factor)들로 정의할 수 있다. 이 경우, 단어 w는 k개의 요소 f1,f2,…fk로 구성되며 아래 <수학식 1>과 같이 나타낼 수 있다.
w ≡ {f1,f2,…fk} = f1:k
이 경우, d1,d2,…dn-1의 의존관계 정보를 문맥 정보로 가진 단어 wi 가 올바른 단어일 확률 P(wi|(d1,d2,…dn-1))는 다음 <수학식 2>와 같다.
P(wi|(d1,d2,…dn-1)) = P(fi 1:k|(fd1 1:k,fd2 1:k,…, fdn-1 1:k))
여기서, fi 1:k 는 wi 에 대한 요소들이며, fdj 1:k 는 wi 와 의존관계하에 있는 단어 dj에 대한 요소들이다.
단어 선택 오류 보정을 위한 언어 모델 구축을 위해서는 단어의 원형 정보만을 요소로 정의하여, 단어 w를 다음과 같이 정의한다.
w ≡ {f1=fs=단어의 원형정보}
이는 w가 내용어인 경우, 단어 선택 오류의 판별은 관련 있는 주변 내용어들의 원형 정보만으로도 가능하다는 가정 때문이다. 따라서, 내용어 선택 오류 보정을 위한 언어 모델은 다음과 같다.
Pcw(wi|(d1,d2,…dn-1)) = Pcw(fi s|(fd1 s,fd2 s,…, fdn-1 s))
즉, 의존관계가 분석된 목적언어 코퍼스로부터, 의존관계하에 있는 내용어들의 원형 정보열에 대한 빈도 정보를 추출하여 언어모델을 구축한다.
단어 존재 오류 보정을 위한 언어 모델에서 필요로 하는 요소의 자질은 의존 관계하에 있는 모든 단어들의 단어열 정보로 가정하는 경우, 단어 존재 오류 보정을 위한 언어모델 구축은 의존관계 분석이 이루어진 학습 코퍼스에서 현재 대상 단어를 기준으로 의존관계에 있는 모든 단어의 단어열 정보를 추출한다. 유사한 방법으로, 단어 순서 오류 보정을 위해 현재 대상 단어를 기준으로 수식 의존관계에 있는 모든 단어들 간의 단어열 정보를 추출하여 언어모델을 구축한다.
도 3은 본 발명의 실시예에 따른 번역 오류 후처리 보정 장치의 구조를 도시한 블록도이다.
도 3을 참조하면, 번역 오류 후처리 보정 장치(300)는 오류 탐색기(302), 보정어 후보 생성기(304) 및 보정어 선택기(306) 등을 포함한다.
오류 탐색기(302)에서는 자동 번역 시스템을 이용한 번역 결과 데이터에서 오번역이 발생한 부분을 탐색하게 되는 것으로서, 이때, 오류 특화 언어 모델 구축기(100)로부터 생성된 오류 특화 언어 모델(110)을 기반으로 번역 오류 모델을 탐색 또는 추정하고, 이들 간의 번역 오류 보정 순서를 결정하게 된다.
구체적으로 오류 탐색기(302)는 단어 선택 오류 및 단어 존재 오류에 대한 보정을 위한 것으로서, 각각에 대한 기 설정된 확률 모델에 따라 오류 확률을 추정하고, 임계치 이하의 확률을 보일 경우에는 오류로 간주한다.
그리고 오류 탐색기(302)가 임계치 이하의 단어에 대해 오류 발생 여부를 추정해 낸 후에는, 추정된 오류들을 우선순위에 따라 정렬하여, 우선적으로 오류 보정이 이루어져야 할 단어들의 순서를 정한다. 우선순위는 다음과 같다.
1) 내용어가 기능어보다 높은 우선 보정 순위를 갖으며, 내용어들 중에서는 오류 추정 모델에 따라 오류 가능성이 높은 단어가 높은 우선 보정 순위를 갖는다.
2) 수식언이 피수식언보다 높은 우선순위를 갖으며, 수식언 중에서는 오류 추정 모델에 따라 오류 가능성이 높은 단어가 높은 우선 보정 순위를 갖는다.
3) 단어 선택 오류가 단어 순서 오류보다 더 높은 우선 보정 순위를 갖는다.
보정어 후보 생성기(304)는 자동 번역시스템의 번역 엔진을 통한 원문 분석 정보를 기반으로, 오류 탐색기(302)에 의해 오류 추정이 이루어지면 추정된 우선순위 번역 오류에 대해 차례대로 오류 보정어 후보를 생성하게 된다.
이와 같이 후보 보정어 생성을 위해서는 자동 번역시스템의 분석 결과와 사전 정보 등을 이용하여 다른 번역 후보를 가져 온다. 단어 선택 오류의 경우는 해당 영어 단어에 대응하는 한국어 단어의 또 다른 대역어 후보 정보를, 사전 정보를 기반으로 가져옴으로써 후보 보정어를 생성해 낸다. 단어 순서 오류의 경우는 해당 단어들의 순서를 순열(permutation)한 결과로서 후보 보정어로 생성해 낸다.  
그리고 보정어 선택기(306)가 보정어 후보 생성기(304)에 의해 생성된 오류에 대한 보정어 후보들을 전달 받은 경우, 실제 오류 문장에 대해 오류 단어를 해당 후보 단어로 교체한 형태에 대하여 오류특화 언어모델(110)의 확률정보를 계산한다. 계산된 값 중 임계치를 초과하는 가장 높은 확률을 갖는 단어를 보정어로 선택하는 것이다.
도 4는 본 발명의 실시예에 따른 번역 오류 후처리 보정 장치의 동작 절차를 도시한 흐름도이다.
도 4를 참조하면, 번역 오류 후처리 보정 장치(300) 내의 오류 탐색기(302) 에서는 400단계에서 번역 시스템을 이용한 번역 결과 데이터에서 추정하고자 하는 오류 유형에 맞는 오류 특화 언어 모델(110)을 이용하여 번역 오류를 추정하고, 추정된 번역 오류들을 우선순위에 따라 정렬한다.
이후, 우선순위 별로 정렬된 추정 번역 오류들은 보정어 후보 생성기(304)로 전달되며, 이에 보정어 후보 생성기(304)에서는 402단계에서 추정된 번역 오류들을 우선순위에 따라서 차례대로 번역 오류에 대한 보정어 후보들을 생성하는 것으로서, 이때, 번역시스템의 분석 결과와 사전 정보 등을 이용하여 다른 번역 후보들을 가져올 수 있다.
보정어 후보 생성기(304)에서 생성된 보정어 후보들은 보정어 선택기(306)로 전달되며, 이에 보정어 선택기(306)에서는 404단계에서 생성된 오류 보정어 후보에 대해 보정하고자 하는 오류 유형에 따라 적합한 오류 특화 언어 모델(110)을 이용하여 최종 보정어를 선택하게 되고, 406단계에서 선택한 최종 보정어를 번역 결과 데이터에 반영하여 오류를 보정하게 된다.
이상 설명한 바와 같이, 본 발명의 실시예는 자동번역 시스템이 번역한 최종 번역문의 오류를 자동으로 인식하고 이를 올바른 번역으로 수정하기 위한 것으로서, 자동 번역 시스템이 해당 데이터에 대한 번역을 수행한 후, 번역 오류 후처리 보정 장치가 오번역이 발생한 부분을 탐색하여 탐색된 번역 오류의 특성에 따라 오류 보정의 우선순위를 정하고, 번역 오류 유형별로 특화된 언어 모델을 이용하여 우선순위의 번역 오류를 차례로 보정함으로써 번역 품질을 향상시킬 수 있다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시예에 따른 오류 특화 언어 모델 구축기의 구조를 도시한 블록도,
도 2는 본 발명의 실시예에 따른 오류 특화 언어 모델의 구축 절차를 도시한 흐름도,
도 3은 본 발명의 실시예에 따른 번역 오류 후처리 보정 장치의 구조를 도시한 블록도,
도 4는 본 발명의 실시예에 따른 번역 오류 후처리 보정 장치의 동작 절차를 도시한 흐름도.
< 도면의 주요 부분에 대한 부호 설명 >
100 : 오류 특화 언어 모델 구축기 110 : 오류 특화 언어모델
112 : 단어 선택 오류 언어 모델 114 : 단어 순서 오류 언어 모델
116 : 단어 존재 오류 언어 모델 300 : 번역 오류 후처리 보정 장치
302 : 오류 탐색기 304 : 보정어 후보 생성기
306 : 보정어 선택기

Claims (20)

  1. 번역 시스템을 이용한 번역 결과 데이터에서 추정하고자 하는 오류 유형에 맞는 오류 특화 언어 모델을 이용하여 번역 오류를 추정하고 이들 간의 번역 오류 보정 어순을 결정하는 번역 오류 탐색기와,
    상기 추정된 번역 오류 각각에 대해 차례로, 상기 번역 시스템의 원문 분석 정보를 기반으로 오류 보정어 후보를 생성하는 보정어 후보 생성기와,
    상기 생성된 오류 보정어 후보에 대해 보정하고자 하는 오류 유형에 따라 상기 오류 특화 언어 모델을 이용하여 최종 보정어를 선택하고 이를 번역 결과에 반영하여 오류를 보정하는 보정어 선택기
    를 포함하는 번역 오류 후처리 보정 장치.
  2. 제 1항에 있어서,
    상기 오류 특화 언어 모델은,
    목적 언어 코퍼스로부터 번역 오류 유형에 특화된 형태로 구축되는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  3. 제 2항에 있어서,
    상기 오류 특화 언어 모델은,
    단어 선택 오류, 단어 순서 오류 및 단어 존재 오류에 대해 각 오류 유형별로 오류 보정에 필요한 요소들을 별도로 정의하고, 의존관계가 분석된 코퍼스를 기반으로 하여 구축되는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  4. 제 3항에 있어서,
    상기 단어 선택 오류는,
    명사, 동사, 형용사, 부사, 관사, 전치사, 보조 동사에 대한 단어 대역어 선택 오류, 단/복수 일치 오류 및 복수 처리 오류인 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  5. 제 3항에 있어서,
    상기 단어 순서 오류는,
    수식언간의 어순, 복합 명사구 내의 어순의 오류인 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  6. 제 3항에 있어서,
    상기 단어 존재 오류는,
    관사, 전치사, 보조용언의 유무 관련 오류인 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  7. 제 1항에 있어서,
    상기 번역 오류 탐색기는,
    오류보정 우선순위 결정 규칙에 따라 탐색된 번역 오류들 간의 오류 보정 우선순위를 설정하는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  8. 제 7항에 있어서,
    상기 오류보정 우선순위 결정 규칙은,
    내용어가 기능어 보다 높은 우선 보정 순위를 갖게 되고, 수식언이 피수식언보다 높은 우선 보정 순위를 갖게 되며, 단어 선택 오류가 단어 순서 오류보다 더 높은 우선 보정 순위를 갖게 되고, 내용어 간, 수식언 간에는 오류 가능성이 높은 단어가 높은 우선 보정 순위를 갖게 되는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  9. 제 7항에 있어서,
    상기 보정어 후보 생성기는,
    상기 번역 오류 탐색기를 통해 설정된 오류 보정 우선순위를 토대로 오류 보정을 차례대로 수행하는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  10. 제 1항에 있어서,
    상기 보정어 선택기는,
    오류 문장의 오류 단어를 해당 오류 보정어 후보 단어로 교체한 형태에 대하여 상기 오류 특화 언어 모델의 확률 정보를 계산하고,
    상기 계산된 확률 정보 중에서 가장 큰 값을 갖는 단어를 보정어로 선택하는 것을 특징으로 하는 번역 오류 후처리 보정 장치.
  11. 번역 시스템을 이용한 번역 결과 데이터에서 추정하고자 하는 오류 유형에 맞는 오류 특화 언어 모델을 이용하여 번역 오류를 추정하는 과정과,
    상기 추정된 번역 오류 각각에 대해 상기 번역 시스템의 원문 분석 정보를 기반으로 오류 보정어 후보를 생성하는 과정과,
    상기 생성된 오류 보정어 후보에 대해 보정하고자 하는 오류 유형에 따라 상기 오류 특화 언어 모델을 이용하여 최종 보정어를 선택하고 이를 번역 결과에 반영하여 오류를 보정하는 과정
    을 포함하는 번역 오류 후처리 보정 방법.
  12. 제 11항에 있어서,
    상기 오류 특화 언어 모델은,
    목적언어 코퍼스로부터 번역 오류 유형에 특화된 형태로 구축되는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  13. 제 12항에 있어서,
    상기 오류 특화 언어 모델은,
    단어 선택 오류, 단어 순서 오류 및 단어 존재 오류에 대해 각 오류 유형별로 오류 보정에 필요한 요소들을 별도로 정의하고, 의존관계가 분석된 코퍼스를 기반으로 하여 구축되는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  14. 제 13항에 있어서,
    상기 단어 선택 오류는,
    명사, 동사, 형용사, 부사, 관사, 전치사, 보조 동사에 대한 단어 대역어 선 택 오류, 단/복수 일치 오류 및 복수 처리 오류인 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  15. 제 13항에 있어서,
    상기 단어 순서 오류는,
    수식언간의 어순, 복합 명사구 내의 어순의 오류인 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  16. 제 13항에 있어서,
    상기 단어 존재 오류는,
    관사, 전치사, 보조용언의 유무 관련 오류인 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  17. 제 11항에 있어서,
    상기 오류를 추정하는 과정은,
    오류보정 우선순위 결정 규칙에 따라 탐색된 번역 오류들 간의 오류 보정 우선순위를 설정하는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  18. 제 17항에 있어서,
    상기 오류보정 우선순위 결정 규칙은,
    내용어가 기능어 보다 높은 우선 보정 순위를 갖게 되고, 수식언이 피수식언보다 높은 우선 보정 순위를 갖게 되며, 단어 선택 오류가 단어 순서 오류보다 더 높은 우선 보정 순위를 갖게 되고, 내용어 간, 수식언 간에는 오류 가능성이 높은 단어가 높은 우선 보정 순위를 갖게 되는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  19. 제 17항에 있어서,
    상기 오류 보정어 후보를 생성하는 과정은,
    상기 설정된 오류 보정 우선순위를 토대로 오류 보정을 차례대로 수행하는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
  20. 제 11항에 있어서,
    상기 오류를 보정하는 과정은,
    오류 문장의 오류 단어를 해당 오류 보정어 후보 단어로 교체한 형태에 대하 여 상기 오류 특화 언어 모델의 확률 정보를 계산하는 과정과,
    상기 계산된 확률 정보 중에서 가장 큰 값을 갖는 단어를 보정어로 선택하는 과정
    을 포함하는 것을 특징으로 하는 번역 오류 후처리 보정 방법.
KR1020090027750A 2008-12-02 2009-03-31 번역 오류 후처리 보정 장치 및 방법 KR101064950B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/621,654 US8494835B2 (en) 2008-12-02 2009-11-19 Post-editing apparatus and method for correcting translation errors

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020080120911 2008-12-02
KR20080120911 2008-12-02

Publications (2)

Publication Number Publication Date
KR20100062834A KR20100062834A (ko) 2010-06-10
KR101064950B1 true KR101064950B1 (ko) 2011-09-15

Family

ID=42363039

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090027750A KR101064950B1 (ko) 2008-12-02 2009-03-31 번역 오류 후처리 보정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101064950B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101633556B1 (ko) * 2014-09-22 2016-06-24 포항공과대학교 산학협력단 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
KR101716654B1 (ko) * 2016-02-02 2017-03-16 (주)뉴로네티즘 영어 학습용 문장분석 방법
KR102096163B1 (ko) * 2017-12-07 2020-04-02 윤경원 외국어 입체 구조 분석 방법
KR102298342B1 (ko) * 2020-05-11 2021-09-06 주식회사제이앤케이씨 정보 연동 시스템 및 정보 연동 방법
KR102569264B1 (ko) * 2023-01-17 2023-08-23 주식회사 코딧 캐시모듈을 이용한 인공지능 기반의 고속 번역방법 및 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05289905A (ja) * 1992-04-06 1993-11-05 Nec Corp 翻訳時エラーメッセージ詳細情報出力方式
JPH08339373A (ja) * 1995-06-14 1996-12-24 Matsushita Electric Ind Co Ltd 機械翻訳装置
KR20040035028A (ko) * 2002-10-18 2004-04-29 채명호 웹문서의 실시간 자국어 번역 시스템 및 그 방법
KR20070060862A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05289905A (ja) * 1992-04-06 1993-11-05 Nec Corp 翻訳時エラーメッセージ詳細情報出力方式
JPH08339373A (ja) * 1995-06-14 1996-12-24 Matsushita Electric Ind Co Ltd 機械翻訳装置
KR20040035028A (ko) * 2002-10-18 2004-04-29 채명호 웹문서의 실시간 자국어 번역 시스템 및 그 방법
KR20070060862A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 학습 데이터 구축 장치 및 방법

Also Published As

Publication number Publication date
KR20100062834A (ko) 2010-06-10

Similar Documents

Publication Publication Date Title
Täckström et al. Efficient inference and structured learning for semantic role labeling
US8494835B2 (en) Post-editing apparatus and method for correcting translation errors
US10210245B2 (en) Natural language question answering method and apparatus
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
Brychcín et al. HPS: High precision stemmer
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
KR102013230B1 (ko) 구문 전처리 기반의 구문 분석 장치 및 그 방법
US20060253273A1 (en) Information extraction using a trainable grammar
CN110543639A (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
US11113470B2 (en) Preserving and processing ambiguity in natural language
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
Van Cranenburgh et al. Data-oriented parsing with discontinuous constituents and function tags
CN101131706A (zh) 一种查询修正方法及系统
KR20140119763A (ko) 사용자 데이터 입력 예측
KR101064950B1 (ko) 번역 오류 후처리 보정 장치 및 방법
CN110096599B (zh) 知识图谱的生成方法及装置
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
Jurcıcek et al. Transformation-based Learning for Semantic parsing
KR101626386B1 (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
CN114548082A (zh) 一种语法解析方法、设备和可读存储介质
JP4039205B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Ouersighni Robust rule-based approach in Arabic processing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140827

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150827

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee