KR20140049150A - 사용자 참여 기반의 자동 번역 생성 후처리 시스템 - Google Patents

사용자 참여 기반의 자동 번역 생성 후처리 시스템 Download PDF

Info

Publication number
KR20140049150A
KR20140049150A KR1020120114535A KR20120114535A KR20140049150A KR 20140049150 A KR20140049150 A KR 20140049150A KR 1020120114535 A KR1020120114535 A KR 1020120114535A KR 20120114535 A KR20120114535 A KR 20120114535A KR 20140049150 A KR20140049150 A KR 20140049150A
Authority
KR
South Korea
Prior art keywords
post
user
processing
rule
translation
Prior art date
Application number
KR1020120114535A
Other languages
English (en)
Inventor
신종훈
김창현
양성일
서영애
황금하
권오욱
나승훈
노윤형
이기영
정상근
최승권
김운
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120114535A priority Critical patent/KR20140049150A/ko
Publication of KR20140049150A publication Critical patent/KR20140049150A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

사용자 참여 기반의 자동 번역 생성 후처리 시스템 및 그 방법이 개시된다. 본 발명에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스에 따라 통계기반의 자동번역(SMT: Statistical Machine Translation) 및 통계 정보를 부가적으로 활용하는 규칙 기반의 자동 번역(RBMT: Rule-based Machine Translation, Statistically enhanced)을 제공하는 자동번역엔진; 자동번역엔진에 의해 자동번역된 결과에 대하여 사용자로부터 수정사항을 입력받는 사용자 인터페이스; 사용자 인터페이스를 통해 수정된 최종문장과 상기 자동번역엔진에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성하는 후처리규칙 생성기; 및 후처리규칙 생성기에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정하는 적용범위 재조정기를 포함하는 것을 특징으로 한다.

Description

사용자 참여 기반의 자동 번역 생성 후처리 시스템{Automatic Translation Postprocessing System based on User Participating}
본 발명은 자동 번역 생성 후처리 시스템 및 그 방법에 관한 것으로서, 보다 상세하게는 자동 번역 시스템의 번역 품질을 향상시키기 위하여 다수의 사용자가 후처리 지식을 구축하고, 구축된 지식을 서로 공유하는, 사용자 참여 기반의 자동 번역 생성 후처리 시스템 및 그 방법에 관한 것이다.
번역 시스템에는, 번역 메모리(TM: Translation Memory)를 이용한 컴퓨터 보조 번역 도구(CAT: Computer-Aided Translation tool), 자동 번역 시스템, 및 번역 메모리와 자동 번역 시스템을 연계한 시스템 등이 있다.
컴퓨터 보조 번역 도구는 번역 메모리를 이용하여 번역가의 번역을 지원한다. 여기서, 번역 메모리는 원문과 원문의 번역문이 하나의 쌍으로 구성된 일종의 데이터베이스이다. 번역 메모리에는 번역가가 이전에 번역한 문장이 데이터베이스 형태로 저장되어 있다. 컴퓨터 보조 번역 도구는 사용자로부터 이전 번역 문장과 동일한 표현을 갖는 입력문의 번역 요청이 수신된 경우, 번역 메모리를 검색하고, 검색 결과를 번역에 적용한다. 즉, 컴퓨터 보조 번역 도구는 이전에 번역된 번역문을 재활용함으로써, 이전에 번역된 문장 또는 반복되는 문장을 반복적으로 번역하지 않는다. 따라서 컴퓨터 보조 번역 도구는 번역의 일관성과 높은 효율성을 제공한다.
반면, 번역 메모리에는 이전에 번역된 문장들이 문자열로 저장되어 있기 때문에 한 글자만 틀려도 입력문과 동일한 문장의 검색 성공률이 매우 낮게 되며, 따라서 커버리지(coverage)가 낮다.
자동 번역 시스템은 제 1 언어의 입력문을 제 2 언어의 번역문으로 자동으로 번역하는 시스템으로서, 내부에 존재하는 번역 사전, 번역 규칙, 번역 패턴 및 통계적 번역 정보 등을 이용하여 빠르고, 일관성 있는 번역 결과를 제공한다. 반면, 자동 번역 시스템은 번역 결과가 부자연스러우며, 전체 번역률이 낮다. 그 이유는 자동 번역 시에 사용되는 번역 규칙, 번역 패턴 또는 통계적 번역 정보들이 어휘, 구조, 의미, 스타일 모호성을 가지기 때문이다.
번역 메모리와 자동 번역 시스템을 연계한 시스템은 입력문과 같거나 유사한 문장이 번역 메모리로부터 검색되면, 검색 결과를 번역에 활용하고, 번역 메모리로부터 검색되지 않으면, 자동 번역 시스템에 의한 자동 번역을 수행한다. 이 시스템은 번역 메모리의 낮은 커버리지를 자동 번역 시스템이 보완하지만, 번역 메모리의 커버리지는 여전히 낮고, 자동 번역 시스템의 부자연스러운 번역 결과가 여전히 개선되고 있지 못하다.
한편, 자동 번역 시스템은 일정한 규칙을 통해 원어 문장을 목적어 문장으로 변환하는 것을 중심 목표로 하며, 사용자는 자동 통번역 시스템으로부터 나온 목적어 문장을 그대로 사용하거나 혹은 수정하여 이를 사용하게 된다.
이때, 사용자가 목적어 문장을 수정하여 사용하는 과정에서, 반복적으로 특정한 결과를 일정한 형태로 수정해야 하는 경우가 존재한다. 문장 구조가 비슷하거나 특정 어휘가 자주 사용되는 경우가 이에 해당하는데, 일반적인 자동 번역 시스템은 사용자 사전 기능을 이용하여 특정 어휘에 대한 더 나은 번역 결과를 얻을 수 있도록 하거나, 아니면 특정한 구(phrase)를 다른 구로 일괄 변경하는 방식을 활용하여 왔다. 이러한 사용자 사전은 다른 사람에게도 복사될 수 있는 형태로 생성되며, 이에 따라 다른 사용자도 더 나은 번역 품질을 위해 사용자 사전을 공유하여 이용할 수 있다. 하지만 사용자 사전과 같이 1:1 일치를 기반으로 하는 후처리 방식은 주변 문맥을 충분히 활용할 수 없기 때문에, 특정한 도메인에서 활용되는 전문 용어에 많이 사용될 수밖에 없었다.
본 발명은 전술한 문제점을 해결하기 위하여 창안된 것으로서, 사용자가 번역된 문장의 품질을 높이기 위해 결과를 수정할 경우 그 결과로부터 잠재되어 있는 변환 생성 및 적용 규칙을 생성하여 이를 다른 번역에도 활용할 수 있도록 하는 것을 목적으로 한다.
또한, 본 발명은 사용자가 규칙을 직접 작성할 수 있는 방법을 알려주고 이를 활용하여 자신이 원하는 후처리 규칙을 생성하여 이후 자동 통번역을 수행할 경우에도 같은 오류를 수정하여 높은 품질의 번역 결과를 얻을 수 있도록 하는 것을 목적으로 한다.
또한, 본 발명은 생성된 규칙을 공유하거나 집중하여 서로 다른 사용자가 본 발명에서 서술하는 후처리 규칙을 적용할 수 있도록 하는 것을 목적으로 한다.
전술한 목적을 달성하기 위한 본 발명의 실시예에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스에 따라 통계기반의 자동번역(SMT: Statistical Machine Translation) 및 통계 정보를 부가적으로 활용하는 규칙 기반의 자동 번역(RBMT: Rule-based Machine Translation, Statistically enhanced)을 제공하는 자동번역엔진; 자동번역엔진에 의해 자동번역된 결과에 대하여 사용자로부터 수정사항을 입력받는 사용자 인터페이스; 사용자 인터페이스를 통해 수정된 최종문장과 상기 자동번역엔진에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성하는 후처리규칙 생성기; 및 후처리규칙 생성기에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정하는 적용범위 재조정기를 포함하는 것을 특징으로 한다.
전술한 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 후처리규칙 생성기에 의해 생성된 후처리 규칙에 기반하여 번역된 문장에 대한 번역 후처리지식을 저장하는 후처리지식 저장부를 더 포함할 수 있다. 이 경우, 사용자 인터페이스는 다른 사용자가 특정 문장을 번역할 때 후처리지식 저장부에 저장된 번역 후처리지식으로 처리 가능한 요소가 발견되면, 해당 요소를 번역후보로 출력한다.
전술한 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 사용자가 동적으로 후처리규칙을 작성하여 실행하고, 그에 따른 수정된 번역문을 출력하는 분석/생성정보 API(Application Programming Interface)를 더 포함할 수도 있다.
후처리규칙 생성기는 최초 번역 문장, 원어 문장의 분석 결과로부터 나온 정보를 바탕으로 규칙생성 데이터베이스에 접근하여 가용한 규칙적용 범위의 후보를 생성한다.
또한, 후처리규칙 생성기는 최초 대역 문장에서 최종 대역문장으로 변환하는 과정을 일정한 순서로 나타내도록 대역어 생성 API(Application Programming Interface)를 사용하여 변환 시뮬레이션을 수행하며, 대역문장의 생성정보에 기반한 행위규칙 후보를 생성한다.
이때, 후처리규칙 생성기는 어떤 API를 사용하여 대역어를 생성할 수 있는지 알아내기 위하여, 최종 대역 문장에 대한 형태소나 품사 분석을 사용하여 해당 어휘의 변화를 추적할 수 있다.
후처리규칙 생성기는 가용한 규칙적용 범위의 후보 및 행위규칙의 후보에 기본적용 가중치를 부여하여 각각의 후보를 1:1로 매칭시킨다.
이때, 후처리규칙 생성기는 가용한 규칙적용 범위의 후보 중 가장 긴 적용 범위 후보에게 가장 높은 가중치를 부여할 수 있다.
또한, 후처리규칙 생성기는 행위규칙 후보 중 가장 짧은 변환생성 규칙으로 최종 문장을 생성해낼 수 있는 규칙 후보에게 가장 높은 가중치를 부여할 수 있다.
후처리지식 저장부는 매칭과정을 통해 추출된 후보에 기초하여 번역 후처리지식을 저장한다.
전술한 목적을 달성하기 위한 본 발명의 실시예에 따른 사용자 참여 기반의 자동 번역 생성 후처리 방법은, 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스에 따라 통계기반의 자동번역을 제공하는 단계; 자동번역 제공단계에 의해 제공된 자동번역된 결과에 대하여 사용자 인터페이스를 통해 수정사항을 입력받는 단계; 사용자 인터페이스를 통해 수정된 최종문장과 자동번역 제공단계에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성하는 단계; 및 후처리규칙 생성단계에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정하는 단계를 포함하는 것을 특징으로 한다.
전술한 사용자 참여 기반의 자동 번역 생성 후처리 방법은, 후처리규칙 생성단계에 의해 생성된 후처리 규칙에 기반하여 번역된 문장에 대한 번역 후처리지식을 저장하는 단계를 더 포함할 수 있다. 이 경우, 사용자 인터페이스는 다른 사용자가 특정 문장을 번역할 때 상기 후처리지식 저장단계에 의해 저장된 번역 후처리지식으로 처리 가능한 요소가 발견되면, 해당 요소를 번역후보로 출력한다.
전술한 사용자 참여 기반의 자동 번역 생성 후처리 방법은, 사용자가 동적으로 후처리규칙을 작성하여 실행하고, 그에 따른 수정된 번역문을 출력하는 단계를 더 포함할 수도 있다.
후처리규칙 생성단계는 최초 번역 문장, 원어 문장의 분석 결과로부터 나온 정보를 바탕으로 규칙생성 데이터베이스에 접근하여 가용한 규칙적용 범위의 후보를 생성한다.
또한, 후처리규칙 생성단계는 최초 대역 문장에서 최종 대역문장으로 변환하는 과정을 일정한 순서로 나타내도록 대역어 생성 API를 사용하여 변환 시뮬레이션을 수행하며, 대역문장의 생성정보에 기반한 행위규칙 후보를 생성한다.
후처리규칙 생성단계는 어떤 API를 사용하여 대역어를 생성할 수 있는지 알아내기 위하여, 최종 대역 문장에 대한 형태소나 품사 분석을 사용하여 해당 어휘의 변화를 추적할 수 있다.
또한, 후처리규칙 생성단계는 가용한 규칙적용 범위의 후보 및 행위규칙의 후보에 기본적용 가중치를 부여하여 각각의 후보를 1:1로 매칭시킬 수 있다.
이때, 후처리규칙 생성단계는 가용한 규칙적용 범위의 후보 중 가장 긴 적용 범위 후보에게 가장 높은 가중치를 부여한다.
또한, 후처리규칙 생성단계는 행위규칙 후보 중 가장 짧은 변환생성 규칙으로 최종 문장을 생성해낼 수 있는 규칙 후보에게 가장 높은 가중치를 부여한다.
후처리지식 저장단계는 매칭과정을 통해 추출된 후보에 기초하여 번역 후처리지식을 저장할 수 있다.
본 발명에 따르면, 원 문장의 분석 결과와 목적어 문장을 생성할 때 활용하는 정보를 사용자에게 노출시켜, 이를 활용해 사용자가 특정한 패턴으로 결과가 나타났을 때 일치하는 패턴에게만 지정된 형태로 후처리를 할 수 있도록 하게 한다. 이때, 이 과정에서 사용자가 특정한 패턴에 맞는 후처리 규칙을 작성하기 위해 필요한 사용자 학습 과정이 복잡하기 때문에, 시스템이 자동으로 이러한 후처리 규칙을 추출하고 정돈하여 사용할 수 있도록 하며, 자동으로나 혹은 수동으로 생성된 후처리 규칙이 오적용 되는 경우를 방지하기 위해 사용자 피드백을 통해 이를 개선해나갈 수 있게 된다.
또한, 본 발명에 따르면, 사용자가 특정한 대역 문장의 오류를 수정하는 방법을 규칙으로 서술하여 다른 문장에도 적용할 수 있으며, 특정한 규칙을 작성하지 않더라도 본 발명에서 서술한 방법을 사용하여 잠재적인 후처리 규칙을 생성, 활용할 수 있다.
또한, 본 발명에 따르면 생성된 후처리 규칙을 공유하여 다른 사용자도 높은 품질의 번역 결과를 얻을 수 있게 된다.
또한, 본 발명은 컴퓨터 보조 번역 도구(CAT)에도 적용 가능하며 이를 활용해 높은 품질의 번역 결과를 얻는데 도움이 될 수 있게 된다.
도 1은 본 발명의 실시예에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템을 개략적으로 도시한 도면이다.
도 2는 후처리 규칙 생성기의 구성과 처리절차를 나타낸 도면이다.
도 3은 사용자가 분석/생성 정보 API를 사용하여 규칙을 작성하는 경우의 인터페이스를 예시한 도면이다.
도 4는 본 발명에 따른 사용자 참여 기반의 자동 번역 생성 후처리 방법을 나타낸 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템 및 그 방법을 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템을 개략적으로 도시한 도면이다.
도 1을 참조하면, 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 자동번역 엔진(100), 사용자 인터페이스(200), 후처리규칙 생성기(300), 적용범위 재조정기(400), 후처리지식 저장부(500) 및 분석/생성정보 API(Application Programming Interface)(600)를 포함할 수 있다.
자동번역 엔진(100)은 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스(110)에 저장된 데이터와 원문 및 대역문 정보(120)에 따라 번역 메모리(130)를 구동하여 통계기반의 자동번역(SMT: Statistical Machine Translation)을 제공한다.
사용자 인터페이스(200)는 자동번역엔진(100)에 의해 자동번역된 결과에 대하여 사용자로부터 수정사항을 입력받을 수 있다.
후처리규칙 생성기(300)는 사용자 인터페이스(200)를 통해 수정된 최종문장과 자동번역엔진(100)에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성한다. 즉, 사용자 인터페이스(200)를 통해 사용자가 수정한 최종 문장(210)이 입력될 경우, 후처리규칙 생성기(300)는 수정 전 번역 결과와 사용자가 수정한 최종 문장(210)을 대조하여 후처리 규칙을 모의로 생성한다.
적용범위 재조정기(400)는 후처리규칙 생성기(300)에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정한다. 즉, 적용범위 재조정기(400)는 후처리규칙 생성기(300)로부터 나온 규칙 결과를 받아 규칙을 적용할 범위를 자동으로 학습하여 규칙 적용 범위를 재조정할 수 있다.
후처리지식 저장부(500)는 후처리규칙 생성기(300)에 의해 생성된 후처리 규칙에 기반하여 번역된 문장에 대한 번역 후처리지식을 저장한다. 이때, 자동번역 엔진(100)은 후처리지식 저장부(500)에 저장된 후처리지식에 기반하여 번역지식(510)을 수정할 수 있다. 또한, 다른 사용자가 특정 문장을 번역할 때 번역 후처리 지식으로 처리 가능한 요소가 발견되는 경우, 사용자 인터페이스(200)는 후처리지식 저장부(500)로부터 발견된 요소를 후보로 보여주어 해당 규칙을 평가하고, 그 평가 결과를 재반영할 수 있도록 한다.
분석/생성정보 API(600)는 사용자가 수동으로 후처리규칙을 작성하여 실행하고(610), 그에 따른 수정된 번역문을 출력할 수 있도록 한다.
본 발명에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템은, 네트워크에 연결되어 있으며, 이를 통해 후처리지식 저장부(500)는 후처리 지식을 한 곳에 모을 수 있다. 만약, 후처리지식 저장부(500)가 개별 시스템에 분산되어 있는 경우, 후처리지식 저장부(500)는 그 후처리지식을 공유 가능한 형태로 저장함으로써 다른 사용자가 이를 복사하거나 이동하여 참조할 수도 있다.
세부적인 처리 흐름을 나타내기 위해, 다음의 예시를 통해 본 발명에 따른 사용자 참여 기반의 자동 번역 생성 후처리 시스템의 흐름을 설명한다. 본 발명에서 기술하는 예시는 편의를 위해 한국어 - 영어 번역을 수행하는 것을 중심으로 설명한다.
먼저 사용자가 번역하고자 하는 원문 "꽤 효과적이다."를 사용자 인터페이스(200)에 입력한다. 자동번역 엔진(100)은 번역 메모리(130)와 번역 지식(510)을 토대로 번역을 수행하여, 다음의 결과를 대역문으로 출력할 수 있다.
It is effective quite.
(It) (is) (quite) (effective)(.)
사용자가 위의 번역 결과를 "It is quite effective"로 수정하고자 하는 경우, 사용자는 단순히 대역문을 수정하는 방법과, 분석/생성 정보 API(600)을 사용하여 후처리 규칙을 작성하여 대역문을 수정하는 방법 중 하나를 선택하여 번역 결과를 수정할 수 있다.
먼저 사용자가 직접 문장을 수정하는 경우를 통해 진행을 할 경우, 토큰으로 나뉘어진 기본 어휘를 키보드나 마우스를 통해 수정하게 된다. 마우스를 사용하는 경우 어휘나 형태소 단위로 구분 가능한 단위로 문장 내 어휘 순서를 직접 조정하게 되며, 키보드를 사용하는 경우 해당 어휘를 클릭하여 수정하게 된다.
수정 결과는 다음과 같을 수 있다.
It is quite effective.
(It) (is) (quite) (effective)(.)
이렇게 수정된 최종 문장(210)은 사용자가 처음에 입력한 원어 문장과 함께 이중 언어 말뭉치 DB(110)에 저장되어 통계 기반 자동 번역(SMT: Statistical Machine Translation) 학습에 활용될 수 있도록 함과 동시에, 후처리규칙 생성기(300)로 전달된다. 이때 단순히 최종 대역문장뿐만이 아니라, 처음에 제시된 대역문장과, 자동 번역 과정에서 생성되는 원문 분석 결과와 대역문 생성 정보도 같이 전달된다. 또한 사용자 인터페이스(200)에서 최초 대역 문장을 최종 대역 문장으로 변환하는 과정에서 사용자의 의도를 추적할 수 있는 행위를 기록하여 전달할 수 있으나, 이 행위 자체는 반드시 자동 처리가 가능한 일정한 규칙 형태로 기록되어야만 한다. 일례로, 마우스를 사용하여 "quite" 어휘를 끌어다가 "effective" 앞으로 이동하는 경우, "어휘이동((원래위치)4, (이동위치)-1)"과 같이 일정한 규칙을 가진 형태로 표현해서 전달해야 한다.
후처리 규칙 생성기(300)은 해당 정보를 받아, 규칙을 자동으로 생성하게 된다. 규칙 자동 생성은 미리 정해진 생성 정보와 원문 분석 결과를 활용하여, 최초 대역 문장을 최종 대역 문장으로 변환하는데 필요한 단계를 시뮬레이션하여 규칙 후보군을 생성한다.
도 2는 후처리 규칙 생성기의 구성과 처리절차를 나타낸 도면이다. 도 2를 참조하여 후처리 규칙 생성기(300)의 구성과 처리 절차를 상세하게 설명한다.
후처리 규칙 생성기(300)의 구조는 크게 3단계로 나뉜다. 첫 번째로, 최초 대역 문장(A01)과 원 문장(A05), 원 문장의 분석 결과로 나온 정보(A06)를 바탕으로 규칙 생성 데이터베이스(A03)에 접근, 가용한 규칙을 생성한다. 이때 가용 규칙의 수는 여러 개가 될 수 있으므로, 규칙이 다르게 나타날 경우 이를 후보군으로 생성하여 별도의 최종 후보군으로 나뉠 수 있도록 해야 한다. 두 번째, 최초 대역 문장(A01)에서 최종 대역문장(A02)으로 변환하는 과정을 일정한 순서로 나타내도록 대역어 생성 API(A04)를 사용하여 최초 대역 문장에서 최종 대역 문장으로 변환 시뮬레이션을 수행한다. 이 과정에서 어떤 API를 사용하여 대역어를 생성할 수 있는지 알아내기 위해, 최종 대역 문장에 대한 형태소나 품사 분석을 사용하여 해당 어휘의 변화를 추적하는 기능이 추가적으로 사용될 수 있다.
규칙 적용 범위 후보 생성(A08)과 행위 규칙 후보 생성(A09)를 통해서 나타난 결과 후보는 최종 규칙 후보군(A10)에서 모이게 된다. 이들 후보는 각각 1:1 쌍을 맺도록 해야 하는데, 예를 들어 설명하자면 규칙 적용 범위 후보(A08)이 4개, 행위 규칙 후보가 3개인 경우 최종 규칙 후보군은 12개가 생성되게 된다. 이들 간의 기본 적용 가중치를 부여하여, 어떤 규칙이 사용될 것인지 결정할 수 있다. 본 발명에서 제시하는 기본 가중치 부여 방법은 다음과 같다.
첫 번째로, 행위 규칙 후보 중 가장 짧은 변환 생성 규칙으로 최종 문장을 생성해낼 수 있는 규칙 후보에게 가장 높은 가중치를 부여한다. 짧은 행위 규칙은 자동화된 적용 방법에서 오류를 가장 적게 일으킬 수 있기 때문이다.
두 번째, 적용 범위 후보 중 가장 긴 적용 범위 후보에게 가장 높은 가중치를 부여한다. 이러한 이유는 적용 범위가 가장 최소화된 것을 수용하여 다른 문장에 오적용 되는 것을 예방하기 위함이다.
최종 규칙 후보군(A10)에서 추출된 후보는 적용범위 재조정기(400)에 의해 정제되어 후처리지식 저장부(500)에 저장된다.
도 3은 사용자가 분석/생성 정보 API를 사용하여 규칙을 작성하는 경우의 인터페이스를 예시한 도면이다.
도 3을 참조하여, 사용자가 분석/생성 정보 API(600)을 사용하여 규칙을 작성하는 경우를 상세하게 설명한다. 도 3에 표현된 예시 인터페이스는 기존 대역문을 최종 대역 문장인 "It is quite effective"로 수정하기 위해 규칙을 생성하는 과정을 포함하고 있다. 사용자가 마우스를 통해 어휘를 마우스로 Drag-and-drop 하는 경우 해당 어휘와 관련된 기본 정보를 자동으로 생성해야 한다. 일례로, "effective"를 클릭하여 이를 규칙 창에다 전달하는 경우, 대역 어휘(도 3에서는 Word(n).Lex) == "effective" AND 대역 품사(도 3에서는 Word(n).POS) == "adjective(형용사)"와 같이 기본 정보를 프로그래밍 가능한 형태로 표현하게 된다. 본 예시에서 서술하는 표현 방법 이외에, 원문의 정보나 기타 자동번역 엔진(100)에서 출력 가능한 정보를 추가로 제공할 수 있다.
두 개의 어휘 순서를 바꾸고자 하는 행위를 "언제" 적용할 것이냐를 위에서 서술한 방식으로 결정하면, 도 3에 서술한 "then" 이후에 "행위" 자체를 프로그래밍 가능한 형태로 기술하게 된다.
이러한 분석/생성 정보 API(600)는 기본적으로 사용자에게 제공되어야 하며, 행위 역시 프로그래밍 가능한 형태로 사용자에게 제공되어야만 하고, 또한 사용자는 이들 API를 추가로 작성할 수 있다.
앞서 서술한 두 가지 방식을 통해 생성된 후처리 규칙 후보들은 확실하게 정제되지 않은 상태이며, 후처리 규칙 범위가 너무 협소하여 규칙이 완전히 동일한 문장에서만 적용되거나, 혹은 적용되지 말아야 할 문장에 규칙이 적용될 수 있다. 이를 해결하기 위해 해당 규칙의 적용 범위를 기계 학습을 통해 범위를 자동으로 수정하는 과정이 필요하다.
이 과정을 진행하기 위해 본 발명에서는 적용범위 재조정기(400)를 구비한다. 적용범위 재조정기(400)가 재조정을 위해 사용 가능한 기계 학습 방법에 대해서는 특별한 제한이 없으나, 결과적으로 일치 범위를 결정하기 위한 개별 규칙 요소의 일부를 삭제하거나 보존하여 최종 적용 범위를 결정할 수 있어야 한다. 즉 본 발명에서 기술하는 적용범위 재조정기(400)는 범위만을 재조정하는 것이며, 행위 자체를 수정하지는 않아야 한다.
적용범위 재조정기(400)에 의해 최종 생성된 규칙은 번역 후처리지식 저장부(500)에 저장되어 해당 사용자 또는 다른 사용자가 자동 통번역을 실시할 때 적용 여부를 따져, 적용이 가능한 경우 이를 적용하여 사용자 인터페이스(200)를 통해 제시하게 된다.
만약 사용자가 해당 규칙이 적용된 경우의 번역 결과가 더 좋게 나타날 경우 긍정적 피드백을, 나쁘게 나타날 경우 부정적 피드백을 적용범위 재조정기(400)에 전달하여 해당 규칙을 다시 재조정할 수 있도록 한다.
만약 긍정적 피드백이 전달될 경우 해당 규칙의 적용 가중치를 높여 적용 가능성을 높이고, 부정적 피드백이 전달될 경우 규칙의 범위를 재조정하거나 규칙에서 서술한 행위 자체에 오류가 포함된 것으로 판단하고 적용 가중치를 낮춤으로 번역 품질을 높일 수 있도록 자가 학습을 수행할 수 있다.
예를 들어 "꽤 낭만적이다"라는 문장을 다른 사용자가 번역했을 때, 전술한 과정으로 생성한 후처리 규칙을 적용할 경우 "It is romantic quite"에서 "It is quite romantic"으로 변환되고, 사용자는 후처리 규칙이 적용된 문장이 더 높은 품질이라고 판단하는 경우에 해당 규칙에 대해 긍정적인 피드백을 전달하게 된다. 만약 다른 문장에서 이들 규칙이 오적용 되었다고 사용자가 판단하는 경우, 부정적 피드백을 통해 해당 규칙의 가중치를 낮출 수 있도록 하게 된다.
도 4는 본 발명에 따른 사용자 참여 기반의 자동 번역 생성 후처리 방법을 나타낸 흐름도이다.
도 1 내지 도 4를 참조하면, 자동번역 엔진(100)은 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스(110)에 저장된 데이터와 원문 및 대역문 정보(120)에 따라 번역 메모리(130)를 구동하여 통계기반의 자동번역(SMT: Statistical Machine Translation) 또는 통계 정보를 부가적으로 활용하는 규칙 기반의 자동 번역(RBMT: Rule-based Machine Translation, Statistically enhanced)을 제공한다(S110).
분석/생성정보 API(600)는 사용자가 수동으로 후처리규칙을 작성하여 실행하고(610), 그에 따른 수정된 번역문을 출력할 수 있도록 한다(S120).
사용자 인터페이스(200)는 자동번역엔진(100)에 의해 자동번역된 결과에 대하여 사용자로부터 수정사항을 입력받을 수 있다(S130).
후처리규칙 생성기(300)는 사용자 인터페이스(200)를 통해 수정된 최종문장과 자동번역엔진(100)에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성한다(S140).
적용범위 재조정기(400)는 후처리규칙 생성기(300)에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정한다(S150).
후처리지식 저장부(500)는 후처리규칙 생성기(300)에 의해 생성된 후처리 규칙에 기반하여 번역된 문장에 대한 번역 후처리지식을 저장한다(S160). 이때, 자동번역 엔진(100)은 후처리지식 저장부(500)에 저장된 후처리지식에 기반하여 번역지식(510)을 수정할 수 있다. 또한, 다른 사용자가 특정 문장을 번역할 때 번역 후처리 지식으로 처리 가능한 요소가 발견되는 경우, 사용자 인터페이스(200)는 후처리지식 저장부(500)로부터 발견된 요소를 후보로 보여주어 해당 규칙을 평가하고, 그 평가 결과를 재반영할 수 있도록 한다.

Claims (1)

  1. 사용자에 의해 입력된 원어 문장에 대하여 이중언어 말뭉치 데이터베이스에 따라 통계기반의 자동번역(SMT: Statistical Machine Translation) 및 통계 정보를 부가적으로 활용하는 규칙 기반의 자동 번역(RBMT: Rule-based Machine Translation, Statistically enhanced)을 제공하는 자동번역엔진;
    상기 자동번역엔진에 의해 자동번역된 결과에 대하여 사용자로부터 수정사항을 입력받는 사용자 인터페이스;
    상기 사용자 인터페이스를 통해 수정된 최종문장과 상기 자동번역엔진에 의해 번역된 문장을 비교하여 수정내역에 따른 후처리 규칙을 생성하는 후처리규칙 생성기; 및
    상기 후처리규칙 생성기에 의해 생성된 후처리 규칙에 기반하여 이중언어 말뭉치의 규칙적용 범위를 재조정하는 적용범위 재조정기
    를 포함하는 것을 특징으로 하는 사용자 참여 기반의 자동 번역 생성 후처리 시스템.
KR1020120114535A 2012-10-16 2012-10-16 사용자 참여 기반의 자동 번역 생성 후처리 시스템 KR20140049150A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120114535A KR20140049150A (ko) 2012-10-16 2012-10-16 사용자 참여 기반의 자동 번역 생성 후처리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120114535A KR20140049150A (ko) 2012-10-16 2012-10-16 사용자 참여 기반의 자동 번역 생성 후처리 시스템

Publications (1)

Publication Number Publication Date
KR20140049150A true KR20140049150A (ko) 2014-04-25

Family

ID=50654815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120114535A KR20140049150A (ko) 2012-10-16 2012-10-16 사용자 참여 기반의 자동 번역 생성 후처리 시스템

Country Status (1)

Country Link
KR (1) KR20140049150A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202067A (zh) * 2016-07-08 2016-12-07 北京北大英华科技有限公司 法律文件翻译对照方法
KR20160147375A (ko) * 2015-06-15 2016-12-23 한국전자통신연구원 사용자 참여형 정렬 코퍼스 구축 장치 및 방법
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US9940324B2 (en) 2015-03-10 2018-04-10 International Business Machines Corporation Performance detection and enhancement of machine translation
US10055406B2 (en) 2015-09-08 2018-08-21 Samsung Electronics Co., Ltd. Server, user terminal, and method for controlling server and user terminal
US10762303B2 (en) 2015-12-30 2020-09-01 Samsung Electronics Co., Ltd. Method for collecting translated content, and translation server
KR20220094444A (ko) * 2020-12-29 2022-07-06 엑스엘에이트 아이앤씨 기계번역을 위한 장치 및 방법
KR102496447B1 (ko) 2022-01-19 2023-02-06 주식회사 트위니 사람 추종 물류 운송 로봇

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US9940324B2 (en) 2015-03-10 2018-04-10 International Business Machines Corporation Performance detection and enhancement of machine translation
KR20160147375A (ko) * 2015-06-15 2016-12-23 한국전자통신연구원 사용자 참여형 정렬 코퍼스 구축 장치 및 방법
US10055406B2 (en) 2015-09-08 2018-08-21 Samsung Electronics Co., Ltd. Server, user terminal, and method for controlling server and user terminal
US10762303B2 (en) 2015-12-30 2020-09-01 Samsung Electronics Co., Ltd. Method for collecting translated content, and translation server
CN106202067A (zh) * 2016-07-08 2016-12-07 北京北大英华科技有限公司 法律文件翻译对照方法
KR20220094444A (ko) * 2020-12-29 2022-07-06 엑스엘에이트 아이앤씨 기계번역을 위한 장치 및 방법
KR102496447B1 (ko) 2022-01-19 2023-02-06 주식회사 트위니 사람 추종 물류 운송 로봇

Similar Documents

Publication Publication Date Title
Alva-Manchego et al. Learning how to simplify from explicit labeling of complex-simplified text pairs
Castilho et al. A comparative quality evaluation of PBSMT and NMT using professional translators
Wang et al. Covost: A diverse multilingual speech-to-text translation corpus
KR20140049150A (ko) 사용자 참여 기반의 자동 번역 생성 후처리 시스템
Peris et al. Online learning for effort reduction in interactive neural machine translation
US20150051896A1 (en) Method and apparatus to construct program for assisting in reviewing
Xiao et al. Document-level consistency verification in machine translation
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
do Carmo et al. A review of the state-of-the-art in automatic post-editing
US20110184723A1 (en) Phonetic suggestion engine
Kothur et al. Document-level adaptation for neural machine translation
Adelani et al. The Effect of Domain and Diacritics in Yor\ub\'a-English Neural Machine Translation
Francisca et al. Adapting rule based machine translation from english to bangla
Singh et al. Improving neural machine translation for low-resource Indian languages using rule-based feature extraction
Nithya et al. A hybrid approach to English to Malayalam machine translation
Scannell Statistical models for text normalization and machine translation
Žagar et al. Cross-lingual transfer of abstractive summarizer to less-resource language
Fancellu et al. Standard language variety conversion for content localisation via SMT
Costa et al. Towards an open platform for machine translation of spoken languages into sign languages
Yılmaz et al. TÜBİTAK Turkish-English submissions for IWSLT 2013
Devi et al. Steps of pre-processing for english to mizo smt system
Luekhong et al. A study of a Thai-English translation comparing on applying phrase-based and hierarchical phrase-based translation
Carson-Berndsen et al. Integrated language technology as part of next generation localisation
Ulitkin et al. Automatic evaluation of the quality of machine translation of a scientific text: the results of a five-year-long experiment
Watve et al. English to hindi translation using transformer

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination