KR20090066067A - 한영 자동번역 방법 및 장치 - Google Patents

한영 자동번역 방법 및 장치 Download PDF

Info

Publication number
KR20090066067A
KR20090066067A KR1020070133677A KR20070133677A KR20090066067A KR 20090066067 A KR20090066067 A KR 20090066067A KR 1020070133677 A KR1020070133677 A KR 1020070133677A KR 20070133677 A KR20070133677 A KR 20070133677A KR 20090066067 A KR20090066067 A KR 20090066067A
Authority
KR
South Korea
Prior art keywords
sentence
translation
band
korean
pattern
Prior art date
Application number
KR1020070133677A
Other languages
English (en)
Other versions
KR100911621B1 (ko
Inventor
김창현
서영애
황영숙
김영길
최승권
권오욱
이기영
양성일
김운
노윤형
윤창호
박은진
오영순
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020070133677A priority Critical patent/KR100911621B1/ko
Priority to US12/326,758 priority patent/US8401839B2/en
Publication of KR20090066067A publication Critical patent/KR20090066067A/ko
Application granted granted Critical
Publication of KR100911621B1 publication Critical patent/KR100911621B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 패턴기반 자동번역(Pattern Based Machine Translation) 방식의 장점과 통계기반 자동번역(Statistical Machine Translation) 방식의 장점을 혼합한 하이브리드 자동번역 기술에 관한 것이다. 본 발명은, 형태소 분석기를 이용하여 한국어 문장에 대한 형태소 분석 결과를 생성하는 단계, 형태소 분석 결과를 입력으로 하고 구문분석기를 이용하여 구문분석 결과를 생성하는 단계, 원문부 번역 매니저를 이용하여 원문의 분석 결과를 보정하는 단계, 원문부 번역 매니저 내에서 문장 분절을 수행하는 단계, 원문부 번역 매니저 내에서 문형 매칭을 수행하는 단계, 원문부 번역 매니저 내에서 패러프레이징(Paraphrasing)을 수행하는 단계, PBMT 생성기에서 번역 결과를 생성하는 단계, PBMT 생성기에서 SMT 번역 결과를 호출하는 단계, SMT에서 보정된 원문 분석 결과를 이용해 번역 결과를 생성하는 단계, 대역부 번역 매니저에서 최종 번역 결과를 생성하는 단계, 대역문 합성기에서 PBMT 및 SMT 번역 결과를 이용하여 최종 대역문 후보를 생성하는 단계, 대역문 합성기에서 생성한 대역문 후보들에 대해 가장 적절한 대역문 결과를 평가하여 선정하는 단계를 포함한다. 본 발명에 의하면, 첫째, 한국어 문장을 정확하게 분절할 수 있으며, 둘째, 분절을 통해 번역 속도를 향상할 수 있으며, 셋째, 분절을 통해 번역 성능을 향상시킬 수 있으며, 넷째, 입력문에 대한 패러프레이징을 수행함으로써 분석 및 번역 성능을 개선시킬 수 있고, 다섯째, 대역문 선택기를 개발함으로써 보다 우수한 번역 결과를 최종적으로 생성할 수 있다.
통계기반 자동번역, 패턴기반 자동번역, 패러프레이징, 문장 분절, 대역문 선택

Description

한영 자동번역 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING HYBRID AUTOMATIC TRANSLATION}
본 발명은 한영 자동번역 기술에 관한 것이며, 특히 패턴기반 자동번역(Pattern Based Machine Translation) 기술과 통계기반 자동번역(Statistical Machine Translation) 기술을 혼합한 하이브리드형 한영 자동번역 방법 및 장치에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-02, 과제명: 응용특화 한중영 자동번역 기술개발].
종래의 패턴기반 자동번역(Pattern Based Machine Translation) 기술에서는 번역 대상 문장이 필요로 하는 번역 패턴이 존재하는 경우 우수한 번역결과를 보이며 번역 속도도 빠른 반면, 번역 대상 영역에서 자주 사용되지 않아 번역 패턴이 존재하지 않는 경우에 대해서는 좋지 않은 번역 결과를 낸다.
또한, 종래의 통계기반 자동번역(Statistical Machine Translation) 기술에 서는 번역 대상 영역의 이중 언어 말뭉치가 풍부하여 통계적으로 번역 모델을 충분히 학습할 수 있는 경우에는 자연스러운 번역 결과를 보이는 반면, 이중 언어 말뭉치가 부족한 경우에는 좋지 않은 번역 결과를 내며 번역 속도가 느린 단점이 있다. 또한 원시언어 자체에 대한 분석 정보가 부족하여, 이를 충분히 이용하는 모델들을 채용하지 못하고 이로 인해 좋지 않은 번역 결과를 내는 단점 또한 지닌다.
이에 본 발명은, 패턴기반 자동번역(Pattern Based Machine Translation) 기술의 장점과 통계기반 자동번역(Statistical Machine Translation) 기술의 장점을 취하여 보다 나은 최종 번역 결과를 생성할 수 있는 방안을 제공하고자 한다.
즉, 패턴기반 자동번역에서는 번역 문장을 부분적으로 분할하여 통계기반 자동번역 품질이 더 우수하다고 판단되는 부분에 대해서는 통계기반 번역 결과를 채택하고 이를 패턴기반으로 생성한 다른 부분들과 결합하여 최종적인 패턴기반 번역 결과를 생성한다. 그리고 통계기반 자동번역에서는, 패턴기반에서 수행하는 원문 분석정보 및 문장 분절정보를 이용함으로써 번역 품질 및 번역 속도를 개선한다.
그리고 최종적으로 패턴기반 번역 결과와 통계기반 번역 결과를 평가하여 보다 우수한 번역 결과를 최종적인 결과로 선정한다.
본 발명의 과제를 해결하기 위한 일 관점에 따르면, 한국어 문장에 대한 한국어 분석기의 분석 결과를 입력으로 받아 한국어 문장을 정규화하는 원문부 번역 매니저와, 상기 원문부 번역 매니저를 통해 정규화된 문장을 패턴기반 대역문 생성 및 통계기반 대역문 생성을 통해 대역문을 생성하는 대역문 생성기와, 패턴기반 대역문 생성 및 통계기반 대역문 생성과 결합되어 상기 한국어를 영어로 번역하기 위한 매니저로서의 역할을 하는 대역부 번역 매니저를 포함하는 한영 자동번역 장치 를 제공한다.
본 발명의 과제를 해결하기 위한 다른 관점에 따르면, 한영 자동번역 방법으로서, 입력되는 한국어 원문에 대한 형태소 분석 및 구문 분석을 수행하는 과정과, 상기 형태소 분석 및 구분 분석을 수행한 결과에 대해 적어도 두 개 이상의 부분 원문으로 분절하는 과정과, 상기 부분 원문으로 분절한 결과에 대해 패턴기반 자동번역 대역문 및 통계기반 자동번역 대역문을 각각 생성하는 과정과, 기설정된 가중치 정보에 따라 상기 패턴기반 자동번역 대역문과 통계기반 자동번역 대역문 중 하나를 최종 번역 결과로 결정하는 과정과, 결정되는 패턴기반 자동번역 대역문 또는 통계기반 자동번역 대역문의 번역 결과를 이용하여 상기 한국어 원문의 부분 원문에 대한 부분 대역문을 하나의 영어 문장으로 최종 합성하는 과정을 포함하는 한영 자동번역 방법을 제공한다.
본 발명에 의하면, 첫째, 한국어 문장을 정확하게 분절할 수 있으며, 둘째, 분절을 통해 번역 속도를 향상할 수 있으며, 셋째, 분절을 통해 번역 성능을 향상시킬 수 있으며, 넷째, 입력문에 대한 패러프레이징(Paraphrasing)을 수행함으로써 분석 및 번역 성능을 개선시킬 수 있고, 다섯째, 대역문 선택기를 개발함으로써 보다 우수한 번역 결과를 선택할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.
도 1은 본 발명의 일 관점에 따른 한영 자동변역 장치에 대한 구성 블록도로서, 크게 한국어 분석기(100), 번역 매니저(Translation Manager)(200, 500) 및 대역문 생성기(Translator)(400)를 포함한다.
한국어 분석기(100)에는 형태소 분석기(102)와 구조 분석기(104)가 포함되며, 분석된 결과는 대역문 생성기(400)의 통계기반 자동번역(Statistical Machine Translation : 이하 SMT라 함) 엔진, 즉 통계기반 대역문 생성기(420)와, 패턴기반 자동번역(Pattern Based Machine Translation : 이하 PBMT라 함) 엔진, 즉 패턴기반 대역문 생성기(410) 모두의 입력으로 사용되게 된다.
번역 매니저는, 분석이 완료된 한국어 문장을 대상으로 긴 문장의 분절 및, 문형 패턴의 매칭, 입력문에 대한 패러프레이징(Paraphrasing)을 수행하는 한국어 입력문을 대상으로 처리하는 원문부 번역 매니저(200)와, 대역문 생성기(400)의 번역 결과를 받아 최적의 번역 결과를 선택하고, 이를 이용하여 최종 생성문장으로 합성하는 대역부 번역 매니저(500)로 구분된다.
원문부 번역 매니저(200)의 결과는 원문분석 결과 보정기(300)를 거쳐 대역문 생성기(400)로 전달되어 패턴기반 대역문 생성기(410)와 통계기반 대역문 생성기(420)가 이에 대한 번역을 수행하여 각 엔진이 최적의 번역 결과를 제공하게 되며, 이 결과가 다시 대역문 번역 매니저(500)의 대역문 선택기(502)의 입력으로 들어가게 된다.
대역문 선택기(502)는 기설정된 가중치 정보, 예를 들면 원문의 가중치, 시간 제약, 언어 모델 가중치, 번역 모델 가중치 등을 이용하여 통계기반 대역문과 패턴기반 대역문 중 어느 번역 결과가 더 우수한가를 결정하게 된다.
대역문 합성기(504)는 매칭된 문형 패턴의 대역 정보와 단문들 간의 연결을 위한 대역문 연결 정보를 이용하여 부분 대역문들을 하나의 영어 문장으로 최종 합성하는 작업을 수행한다.
원문부 및 대역부 번역 매니저(200, 500)는 패턴기반 대역문 생성기(410)와 통계기반 대역문 생성기(420)와 긴밀하게 결합되어 번역하기 위한 매니저로서의 역할을 하게 된다. 예컨대, 길이가 긴 문장의 분절 기능이나, 문형을 통해 번역 가능한 입력문의 일부 부분을 처리하는 문형 매칭 기능, 미등록어 정보 및 그에 대한 대역 정보를 제공하는 미등록어 처리 기능, 문형 매칭 및 입력문의 번역 난이도를 낮추기 위한 패러프레이징 기능 및 대역문 선택을 위한 각 엔진의 생성 결과의 평가 기능, 부분 문장 단위의 번역을 결합하는 부분 대역문 결합 기능 등이 그것이다.
본 발명에 따른 하이브리드 한영 자동변역 장치는 입력된 한국어 문장에 대해, 형태소 분석, 구조 분석 전처리, 구조 분석, 대역문 연결 및 대역문 생성, 형태소 생성 등의 기능을 수행한다. 이러한 하이브리드 자동번역 시스템의 핵심은 번역 매니저 부분이다. 따라서 이하에서는 원문부 번역 매니저(200)와 대역부 번역 매니저(500)에 대해 보다 자세히 기술하기로 한다.
먼저, 원문부 번역 매니저(200)는 한국어 문장에 대한 한국어 분석기(100)의 분석 결과를 입력으로 받아, 구어체의 난해한 표현 등으로 인해 번역하기 힘든 한국어 문장을 번역이 좀더 용이한 형태로 정규화하는 모듈이다.
이러한 원문부 번역 매니저(200)는 도 1에 도시한 바와 같이, 문장 분절기(202), 문형 매칭기(202), 패러프레이져(Paraphraser)(204)로 구성되다.
문장 분절기(202)는 긴 한국어 문장을 분절하여 번역하도록 하는 역할을 하며, 문형 매칭기(204)는 대역문 생성기(400)에서는 처리하기 힘든 유형에 대해 문장 단위의 문형 패턴에 기반하여 문장의 일정 표현에 대해 미리 영어 대역 정보를 제공하는 역할을 한다.
그리고 패러프레이져(204)는 각 단문 및 구문을 패러프레이징함으로써 보다 번역이 용이한 형태로 변경해 주는 역할을 한다.
이하에서는 원문부 번역 매니저(200) 내의 각 블록에 대해 보다 상세히 설명한다.
<문장 분절기(202)>
지나치게 긴 입력 문장은 구조분석 오류를 유발하는 등으로 인해 번역 속도와 정확도에 부정적인 영향을 미친다. 특히, 통계기반 기계번역 시스템은 가설공간이 방대하게 커서 탐색시간이 많이 걸리고, 그에 따라 번역 속도가 규칙기반이 패턴기반의 번역 시스템에 비해 느린데, 문장이 길어지면 길어질수록 탐색 속도가 느려지고, 이를 보완하기 위해 탐색 속도를 빠르게 하기 위해 프루닝(pruning)을 하다 보면, 좀더 적절한 번역후보가 가설공간에서 제외되는 현상이 발생하게 된다.
따라서 문장 분절기(202)에서는 본 발명에 따른 통계기반/패턴기반의 하이브 리드 한영 자동변역 장치의 성능 향상을 위해 오번역이 발생하지 않는 범위 내에서 문장을 절단위로 분절하고, 그 결과를 통계기반/패턴기반의 번역 장치에 제공해 준다. 이러한 절단위로 분절된 문장은, 이후 대역문 번역 매니저(500)의 문장 합성 과정에서 절단위 번역 결과로 결합됨으로써 완전한 번역 결과가 생성될 수 있다.
이때, 문장 분절기(202)에서의 잘못된 분절은 이후의 번역 단계에서는 돌이킬 수 없는 오류를 유발하므로, 분절 정확률이 95% 이상인 경우에 한하여 분절을 실시하는 것을 특징으로 한다. 분절이 가능한 경우는 아래 [예시 1]과 같다.
아래의 예에서 "//" 표시는 문장의 분절이 가능한 분절점을 뜻한다. 분절이 이루어지면, 이후의 번역은 분절점을 기준으로 분리된 부분 문장들을 각각 번역하고 대역문 번역 매니저(500)에서 이를 다시 결합하는 형태로 번역이 이루어진다.
[예시 1]
가. 용언+종결어미로 끝난 경우 분절 가능.
나. 용언+연결어미 뒤에 말줄임표(...)가 있는 경우 분절 가능.
다. 용언+연결어미 뒤에 쉼표(,)가 있는 경우 분절 가능.
라. 분절 오류가 적은 용언+연결어미 뒤에서 분절 가능.
<문형 매칭기(204)>
드라마 대화체에서 자주 발생하는 동일한 유형의 문장은 패턴화 하여 적절한 번역문을 생성할 수 있다. 이러한 문형 패턴 처리는 용언구 패턴에 기반한 자동번역을 수행하기 전에 인식하고 이에 맞는 적절한 번역문을 생성한다. 언어적 분석이 어려운 표현이 자주 등장하는 대화체의 특성상, 완벽한 구문구조의 분석을 수행 하지 않더라도 문형으로 판단된 문장에 대해 대역어를 생성할 수 있는 방법이 필요하다.
대화체에서는 특히 한 문장을 구성하는 어절의 수가 적으면서 자주 사용되는 표현이 많은 특성을 갖는다. 어절 수가 적은 경우, 구축되는 문형의 커버리지는 상대적으로 커지게 되므로, 적은 어절로 이루어진 문장을 대상으로 하는 문형 구축을 우선으로 하는 것이 더 유리하다고판단할 수 있다.
따라서 확보되는 드라마 대화체를 대상으로, 우선 5 내지 6 어절의 적은 어절로 이루어진 문장을 대상으로 문형패턴을 구축하고, 그 외에도 고빈도의 발생 문장에 대해 문형의 유형을 파악하고 패턴화하여 구축한다.
문형패턴 매칭을 위하여 매칭 단위로 형태소 어휘, 구문을 패턴의 토큰(Token)으로 이용한다. 다음 [예시 2]는 문형 패턴의 형태소 분석된 매칭 단위이다.
[예시 2]
n1 살짜리 NP1이 있어요? > Do:v you:S have a n1-year-old NP1.
10 살짜리 아들이 있어요?
문형 매칭을 위한 단위는 NP와 같은 명사구와 n1로 표기되는 숫자 수사 표현, ":v"로 표현되는 동사 어간 등이 대상이 될 수 있으며, 주어 복원과 같은 특수한 형태는 ":s"와 같은 부가 표기를 사용한다.
가. 감정을 나타내거나 호칭등 간략한 감탄사 표현 문장
나. 적은 어절로 구성된 짧은 단문 표현
다. 숫자 표기에 따른 문형 구축
라. 관용적 표현
<패러프레이져(206)>
드라마 대화체의 가장 큰 특성으로는 화자의 분위기를 표현하기 위한 다양한 언어적 표현을 구사하며, 경우에 따라서는 왜곡된 음운현상을 사용하기도 한다는 것이다. 대표적인 예는 간투어나 속어, 사투리의 사용을 들 수 있으며, 표현상 번역의 대상이 되지 않는 단어 사용이 발생된다는 것이다. 이러한 대화체 특유의 표현이 들어간 문장은 동일한 의미를 나타내는 문장이라도 어휘적 표현은 제한이 없는 다양한 표현으로 나타나게 되며, 이러한 현상의 다양성으로 인해 언어 분석을 위한 지식 확보가 어렵고, 기존 어휘의 변형 사용에 의한 분석 모호성도 증가하게 된다. 따라서 대화체 문장은 의미를 왜곡시키지 않는 범위에서 표현의 정규화와 문장 표현의 정련이 필요하다.
패러프레이징이란 의미를 왜곡시키지 않는 범위에서, 문장 표현을 명확하게 표현하는 방법으로, 대표적인 패러프레이징의 대상은 아래와 같은 [예시 3]의 형태로 나누어 볼 수 있다.
[예시 3]
n 간투어, 반복어 제거하여 문장 정련(tagging problem)
예) 어! 저, 저 짱께새끼 저거... / 아유, 속상해 뒈지겠네, 진짜
n 사투리/욕/구문 패러프레이징 : 의미적으로 같고 번역이 용이한 형태로 변환
예) 아유, 속상해 뒈지겠네, 진짜
n 술어구와 명사구의 동의어 집합 : 구문적, 의미적 사용이 동일한 구문 집합(사전과 말뭉치의 통계정보를 활용한 어휘 변경 및 구조 변경)
예) 가죽으로 된 갈색 가방/갈색 가죽가방/브라운 톤 가죽가방
예) 돌아가는 표/귀국티켓
예) 들어가 있는지/포함되어 있는지
예) 얼마나 용썼는지/얼마나 노력했는지
예) 미열/열이 약간
예) 맛있는 해산물/괜찮은 해산물/좋은 해산물
n 암묵적/역설적 표현을 명확하게 표현하는 패러프레이징
예) 잠깐 떨어져 있자 / 뭘 어떻게 해, 데리고 가야지
n 수동/능동/도치 등을 포함한 문장 구조에 대한 패러프레이징 : 규칙 추론
n 역설적 강조 표현 구문 패러프레이징
예) 뭘 어떻게 해, 데리고 가야지: 당연히, 데리고 가야지
예) X 없습니까? - do you have X ? : X 가지고 있어요?
예) 니가 이러고 있는데 나 혼자 어떻게 가?
번역 대상이 되는 원문 문장을 입력으로 하여 번역이 용이한 문장으로 패러프레이징하는 것을 목표로 하며, 이를 위해 이중 언어 말뭉치에서 패러프레이징 대상을 자동으로 탐지하여 패러프레이징 정보를 구축한다. 패러프레이즈 구문으로 문장을 재구성하였을 때 자연스러운 문장이 되는지를 사람이 직접 검증하고, 패러 프레이징하여 지식을 구축하며, 패러프레이즈 집합으로부터 패러프레이즈 규칙을 추론할 수 있다. 이러한 패러프레이징 지식은 대상 문장에 대한 어휘의 변경, 삭제, 첨가 및 어순의 변경, 그리고 구문구조 변경 규칙을 사용하여 이루어진다.
한편, 대역문 생성기(400)는 패턴기반 대역문 생성기(410)의 한국어 문장에 대한 1개의 번역문과 통계기반 대역문 생성기(420)의 n개(본 통계기반 대역문 생성기(420)에서는 최대 2개의 번역문을 출력할 계획이다.)의 번역문을 출력으로 보낸다.
번역하고자 하는 한국어 문장이 문장 분절기를 거쳐 m-1개의 분절점이 결정되어, m개의 부분 원문으로 분절이 이루어진 경우, 각각의 부분 원문 m개에 대해, n+1개의 부분 번역문이 생성되게 되는 것이다.
대역부 번역 매니저(500)는 각각의 부분 번역문을 조합하여 최대 m*(n+1)개의 최종 번역문 후보를 만들고, 그 중 최적의 번역문을 선택하여 한국어 원문에 대한 영어 번역문을 결정하는 모듈로서, 번역문 선택기(502)와 번역문 합성기(504)로 구성된다.
이하에서는 대역부 번역 매니저(500) 내의 각 블록에 대해 도 1의 구성들을 참조하여 보다 상세히 설명한다.
<번역문 합성기(504)>
번역문 합성기(504)는 한국어 원문에 대하여 원문부 변역 매니저(200)내의 문장 분절기(202)가 두 개 이상의 부분 원문으로 분절을 하였을 경우, 이들 부분 원문들의 번역 결과를 합성함으로써 한국어 원문 전체에 대한 영어 대역문을 생성 하는 모듈이다. 이때, 대역문 생성기(400)는 각각의 부분 원문에 대하여 n+1개의 영어 대역문을 생성해내므로, 번역문 합성기(504)는 m개의 부분 원문으로 분절된 한국어 원문에 대하여 m*(n+1)개의 최종 번역문 후보를 만든다.
번역문 합성(504)에서는 크게 문형 패턴 적용 정보를 최종 번역문에 결합(문형 패턴 대역부를 반영)하는 단계와, 부분 원문간 연결 단계, 결합된 최종 문장의 정련 단계로 이루어진다.
먼저, 문형 패턴 대역부를 반영하는 단계는, 한국어 원문이 문형 패턴에 매칭된 경우, 그에 해당하는 영어 대역부를 최종 문장에 반영하여야 한다. 문형 패턴의 매칭은 한국어 원문 전체에 대해 이루어질 수도 있으며, 부분 원문 각각에 대해 이루어질 수도 있다.
다음으로, 부분 원문의 대역문간의 연결은 부분 원문 연결 패턴에 기반하여 이루어진다. 문어체와 달리 구어체에서는 "and, but" 과 같은 대등 접속사의 생성을 가능한 줄이고, 부분 원문의 순서를 반영할 수 있는 순차 번역의 형태로 연결하여야, 보다 구어체적인 대역문을 생성할 수 있을 뿐 아니라, 부분 원문 연결의 오번역을 방지하고 문장 분절의 오류까지도 보정할 수 있다. 순차 번역은 한국어에서 발생하는 복문 구조의 모호성 해소가 어려운 경우에도, 이 모호성을 영어 문장에 그대로 반영하여 생성함으로써 문장을 읽는 독자로 하여금 의미를 유추하도록 하여 해당 문장의 모호성을 해소할 수 있게 한다.
끝으로, 최종 문장 정련 단계는, 부분 원문간이 연결된 경우, 각 부분 대역문의 범위 내에서의 문장 정련 작업은 이루어졌으나, 부분 대역문간을 전체로 보았 을 때의 문장 정련, 즉 고유명사 대역어의 일치, 반복 성분의 대명사화, 시제 일치 등의 작업이 이루어지는 과정이다.
다음은 번역문 합성기(504)에 대한 시뮬레이션 과정을 예시한 것이다.
한국어 원문 "윤이 빽까지 썼는데… 언니 여기 넣어 줄려고 얼마나 용썼는지 알지?"에 대해 문장 분절, 문형 패턴 매칭, 패러프레이징을 거친 최종 원문은 아래의 2개의 부분 원문으로 나누어진다.
부분 원문1 : 윤-이 다른 사람들-에게 도움-을 받-았는데…
PBMT : Yun got help from others.
SMT : Other people helped Yune. But…
부분 원문2 : 윤-이 언니-를 여기-에 취직시켜주-려고 (윤-이) 많이 노력하-었다.
PBMT : Yun tried so much to get you a job here.
SMT : Yune pulled strings to get you a job here.
번역문 합성기(504)는 부분 원문1의 번역문 2개와 부분 원문2의 번역문 2개를 부분 대역문 연결패턴에 따라 각 부분 대역문의 결과를 결합하고, 적용된 문형 패턴의 대역어 정보 "You know, "를 결합함으로써 아래의 4개의 최종 번역문 후보를 만들어 내었다.
부분 대역문 연결 패턴
VP1+는데 // VP2 > VP1. VP2 (VP는 동사구)
적용된 문형 패턴:
VP1+는지 알지? / VP1+는 줄 알잖아. > You know, VP1(+원문 변환 규칙1).
언니 여기 넣어 줄려고 얼마나 용썼는지 알지?
You know, VP1(언니 여기 넣어 줄려고 얼마나 용썼다.)
최종 번역문 후보:
원문1-PBMT + 원문2-PBMT:
Yun got help from others. You know, Yun(he)tried so much to get you a job here.
원문1-PBMT + 원문2-SMT:
Yun got help from others. You know, Yun(he)pulled strings to get you a job here.
원문1-SMT + 원문2-SMT
Other people helped Yune. But…You know, Yun(he)pulled strings to get you a job here.
원문1-SMT + 원문2-PBMT
Other people helped Yune. But…You know , Yun ( he )tried so much to get you a job here.
이들 중 최종 하나의 번역문의 결정은 다음 대역문 선택기(502)에서 결정하게 된다.
<대역문 선택기(502)>
PBMT 시스템과 SMT 시스템 중 어느 한 시스템도 모든 형태의 입력 문장에 대 해 완벽한 번역 결과를 출력하기는 쉽지 않다. 각 시스템은 각 번역 시스템이 구축되는 방법과 번역지식 획득 방법에 따라 서로 다른 번역결과를 출력하는 경향이 있다.
PBMT 시스템은, 전문가 집단에 의해 정교하게 구축된 범용적 번역지식을 규칙/패턴화하여 적용하기 때문에 규칙/패턴이 적용될 수 있는 일반 문장에 대해서는 깔끔하고 정확한 번역을 내줄 수 있다. 그러나 관용적/숙어적 표현을 포함한 대화체 문장에 대해서는 어색한 번역결과를 출력하는 경향이 있다.
이에 반해 SMT 번역 시스템은, 시스템 훈련과정에서 등장하는 구문 패턴에 충실하게 번역을 시도하기 때문에, 많은 관용적/숙어적 표현을 포함한 대화체 문장들을 훈련문장으로 사용한다면, 자연스러운 대화체 문장으로 번역결과를 출력한다. 반면에 훈련집합에서 접하지 못한 단어/구문 표현이 입력문장에 포함되면, 제대로 된 번역결과를 출력하지 못한다.
이러한 서로 다른 두 번역 시스템의 장점들을 취하고 단점들을 상호 보완하여 최적의 번역결과를 출력하기 위해, 본 실시예에서는 최적의 번역결과 선택기를 제안한다. 최적의 번역결과 선택기는 주어진 입력문에 대한 각 시스템의 번역 후보들을 대상으로 적절한 평가척도를 사용하여 번역의 품질을 측정한 후, 최적의 번역결과 하나를 선택하여 출력한다.
다음은 한국어 입력문에 대해 전체 시스템 흐름을 따라 번역이 이루어지는 과정을 보여주는 시뮬레이션 결과, 즉 본 발명의 다른 관점에 따른 한영 자동변역 과정을 예시적으로 설명하는 것으로, 이를 첨부된 도 2의 흐름도를 참조하여 상세 하게 설명하기로 한다.
도 2에 도시한 바와 같이, 단계(S200)는 한국어 분석기(100)로 한국어 원문이 입력되는 과정으로서, 예를 들면 다음 [예시 4]와 같은 한국어 문장이 입력될 수 있다.
[예시 4]
윤이 빽까지 썼는데… 언니 여기 넣어 줄려고 얼마나 용썼는지 알지?
이후 한국어 분석기(100) 내의 형태소 분석기(102)를 통해 상기 한국어 문장에 대한 형태소 분석 결과를 생성한다(S202). 이와 같은 형태소 분석 결과는 다음 [예시 5]와 같다.
[예시 5]
윤이 윤[인명고유명사]이[주격조사]
빽까지 빽[용언불가능보통명사]까지[부사격조사]
썼는데 쓰[일반동사]었[과거시제선어말어미]는데[종속연결어미]
Figure 112007091191282-PAT00001
[기타기호]
언니 언니[용언불가능보통명사]
여기 여기[지시대명사]
넣어_줄려고 넣[일반동사]어_주[기타보조용언]ㄹ려고[종속연결어미]
얼마나 얼마나[성상정도부사]
용썼는지 용쓰[일반동사]었[과거시제선어말어미]는지[종속연결어미]
알지? 알[일반동사]지[의문형종결어미]?[문미기호]
그 다음, 한국어 분석기(100) 내의 구문 분석기(104)는 상기 형태소 분석 결과를 입력으로 하여 구문 분석 결과를 생성한다(S204). 이러한 구문 분석 결과는 다음 [예시 6]과 같다.
[예시 6]
알[일반동사]+지[의문형종결어미]+?[문미기호]
용쓰[일반동사]+었[과거시제선어말어미]+는지[종속연결어미]
얼마나[성상정도부사]
넣[일반동사]+어 주[기타보조용언]+ㄹ려고[종속연결어미]
여기[지시대명사]
언니[용언불가능보통명사]
썼는데 쓰[일반동사]었[과거시제어미]는데[종속연결어미]…[기타기호]
빽[용언불가능보통명사]+까지[부사격조사]
윤[인명고유명사]+이[주격조사]
-> 생략된 조사 복원
-> 조응 처리(생략성분 복원, 대명사 선행사 결정, 호칭 선행사 결정)
-> 단문/구단위 패러프레이징 패턴을 구조분석에서 활용한다.(예: 빽까지 썼다)
알[일반동사]+지[의문형종결어미]+?[문미기호]
용쓰[일반동사]+었[과거시제선어말어미]+는지[종속연결어미]
얼마나[성상정도부사]
윤[인명고유명사]+이[주격조사]
넣[일반동사]+어 주[기타보조용언]+ㄹ려고[종속연결어미]
여기[지시대명사: 이_회사 ]+에[부사격조사]
언니[용언불가능보통명사: 2인칭 청자]+를[목적격조사]
윤[인명고유명사]+이[주격조사]
썼는데 쓰[일반동사]었[과거시제어미]는데[종속연결어미]??[기타기호]
빽[용언불가능보통명사]+까지[부사격조사]
윤[인명고유명사]+이[주격조사]
% 지시대명사 '여기'의 경우, 문맥 정보의 부족 등으로 의미 파악이 힘들 수 있다.
이후, 원문부 번역 매니저(200)는 문장분절, 문형매칭, 패러프레이징을 수행한다(S208). 각 수행 과정을 구분하여 설명하면 다음과 같다.
먼저, 문장 분절기(202)는 다음 [예시 7]과 같은 문장 분절 과정을 수행한다.
[예시 7]
알[일반동사]+지[의문형종결어미]+?[문미기호]
용쓰[일반동사]+었[과거시제선어말어미]+는지[종속연결어미]
얼마나[성상정도부사]
윤[인명고유명사]+이[주격조사]
넣[일반동사]+어 주[기타보조용언]+ㄹ려고[종속연결어미]
여기[지시대명사: 이_회사]+에[부사격조사]
언니[용언불가능보통명사: 2인칭 청자]+를[목적격조사]
윤[인명고유명사]+이[주격조사]
// 분절됨
썼는데 쓰[일반동사]었[과거시제어미]는데[종속연결어미]??[기타기호]
빽[용언불가능보통명사]+까지[부사격조사]
윤[인명고유명사]+이[주격조사]
% 연결어미와 결합된 용언절이 3개 이상 존재하는 경우, 확실하다고 판단되는 대등연결 및 문장 분절의 단서가 있는 경우에 한해서만 자른다.
% 문장 분절의 결과는 PBMT와 SMT가 그대로 이용한다.
이후, 문형 매칭기(204)는 문형 매칭 과정을 수행하여 다음 [예시 8]과 같은 문형 패턴 적용 결과를 도출해 낸다.
[예시 8]
문형패턴: VP1+는지 알지? / VP1+는 줄 알잖아. > You Know, VP1(+원문 변환 규칙1).
언니 여기 넣어 줄려고 얼마나 용썼는지 알지?
You Know, VP1(언니 여기 넣어 줄려고 얼마나 용썼다.)
% 문형패턴은 문장 단위의 패러프레이징 정보를 함께 가지고 있으며, 필요시 원문 변환 규칙을 연동하여 기술한다.
% 원문 변환 규칙 예)
변환 규칙1: 의문문<->평서문 변환
의문형 부사 <-> 평서문 긍정 부사
얼마나(의문문) <-> 많이/매우(평서문)
(부정문<->긍정문 변환, 수동태<->능동태 변환, 감탄문<->평서문 변환)
변환전 VP1: 언니 여기 넣어 줄려고 얼마나 용썼다
변환후 VP1: 언니 여기 넣어 줄려고 많이 용썼다.
이후, 패러프레이져(206)는 다음 [예시 9]와 같은 단문/구단위 위주의 패러 프레이징 패턴 결과를 도출해 낸다.
[예시 9]
패턴1 : 빽+를 쓰+다 > 다른사람들+에게 도움+를 받!다 :: 용언구패턴 대역 링크정보
패턴2 : 용쓰+다 / 애쓰+다 > 노력하+다
패턴3 : $직장+에 넣어주+다> $직장+에 취직시켜주+다
빽-를 쓰-었는데 => 다른사람들+에게 도움-을 받-았는데
많이 용쓰-었는지 => 많이 노력하-었는지
언니-를 여기-에 넣-어주-려고 => 언니-를 여기-에 취직시켜주-려고
% 패턴3의 경우는 '여기'가 '직장'임이 판단된 경우에만 패러프레이징 가능하며, 패러프레이징 되지 않는다면, 'A!를 B=$장소!에 넣어주!다'에 대한 용언구 패턴에 적용되어 번역된다.
% 패러프레이징 패턴은 어휘/형태소/의미레벨, 단문/구 레벨을 포함한다.
% 패러프레이저에서 사용하는 패러프레이징 패턴은 의역이나 관용적 표현을 직역에 가까운 형태로 변형하여 번역을 용이하게 하는 것을 목적으로 한다.
% SMT 엔진 내에서 패러프레이저를 추가로 호출할 수 있다.
이때, 본 발명에서는 단계(S206)에서와 같이 분석 결과를 보정하는 과정을 포함한다. 분석 결과 보정 과정에서는, 문형매칭, 문장분절, 패러프레이징 매칭 결과를 반영하며, 이는 다음 [예시 10]과 같다.
[예시 10]
노력하[일반동사]+었[과거시제선어말어미]+다[종결어미]
많이[성상정도부사]
윤[인명고유명사]+이[주격조사]
취직시키[일반동사]+어 주[기타보조용언]+ㄹ려고[종속연결어미]
여기[지시대명사: 이_회사]+에[부사격조사]
언니[용언불가능보통명사: 2인칭청자]+를[목적격조사]
윤[인명고유명사]+이[주격조사]
받[일반동사]+았[과거시제선어말어미]+는데[종속연결어미] …[기타기호]
도움[용언불가능보통명사]+을[목적격조사]
다른_사람들[용언불가능보통명사]+에게[부사격조사]
윤[인명고유명사]+이[주격조사]
% 후처리 전의 한국어 원문 정보는 보정 결과와 함께 가져간다.
이후, 대역문 생성기(400)의 패턴기반 대역문 생성기(410)를 통해 다음 [예 시 11]과 같은 번역 결과를 생성하고 대역문 생성기(400)의 통계기반 번역문 생성기(420)의 번역결과를 호출한 후(S210), 대역문 생성기(400)의 통계기반 대역문 생성기(420)에서 보정된 원문 분석 결과[예시 12]를 이용하여 번역 결과를 생성한다(S212).
[예시 11]
원문1: 윤-이 다른 사람들-에게 도움-을 받-았는데......
Yun got help from others.
원문2: 윤-이 언니-를 여기-에 취직시켜주-려고 (윤-이) 많이 노력하-었다.
Yun tried so much to get you a job here.
[예시 12]
원문1: 윤-이 다른 사람들-에게 도움-을 받-았는데......
Other people helped Yune.
원문2: 윤-이 언니-를 여기-에 취직시켜주-려고 (윤-이) 많이 노력하-었다.
Yune pulled strings to get you a job here.
이후 대역부 번역 매니저(500)의 대역문 합성기(504)를 통해 다음 [예시 13]과 같은 최종 번역 결과를 생성한다(S214).
[예시 13]
문장1. 윤-이 다른 사람들-에게 도움-을 받-았는데......
PBMT: Yun got help from others.
SMT: Other people helped Yune. But??
문장2. 윤-이 언니-를 여기-에 취직시켜주-려고 (윤-이) 많이 노력하-었다.
PBMT: Yun tried so much to get you a job here.
SMT: Yune pulled strings to get you a job here.
% 문형 패턴 적용 정보 결합, 문장 간 연결, 그외 고유명사 대역어 일치, 반복 성분 대명사화, 시제 일치 등의 처리가 이루어진다.
% 문장간의 연결은 연결패턴에 기반하여 이루어진다.
% 문장1,2에 대해 PBMT와 SMT의 결과를 조합하여 2x2개의 최종 대역문 후보를 생성한다.
% SMT는 다음과 같은 1개 이상의 단문 후보를 생성해 낼 수 있다.
SENT1-PBMT + SENT2-PBMT:
Yun got help from others. You Know, Yun(he)tried so much to get you a job here.
SENT1-PBMT + SENT2-SMT:
Yun got help from others. You Know, Yun(he)pulled strings to get you a job here.
SENT1-SMT + SENT2-SMT
Other people helped Yune. ButYou know, Yun(he)pulled strings to get you a job here.
SENT1-SMT + SENT2-PBMT
Other people helped Yune. ButYou know, Yun(he)tried so much to get you a job here.
이후, 대역부 번역 매니저(500)의 대역문 선택기(502)를 통해 상기 PBMT 및 SMT 번역 결과를 이용하여 다음 [예시 14]와 같은 최종 대역문 후보를 생성한다(S216).
[예시 14]
원문 : 윤이 빽까지 썼는데?? 언니 여기 넣어 줄려고 얼마나 용썼는지 알지?
최종 번역문 후보:
Yun got help from others. You know, Yun(he) tried so much to get you a job here.
Yun got help from others. You know, Yun(he) pulled strings to get you a job here. (PBMT+SMT)
Other people helped Yune. ButYou know, Yun(he) pulled strings to get you a job here.
Other people helped Yune. ButYou know, Yun(he) tried so much to get you a job here.
% 최종 번역문 후보들에 대해 1. LM (5-gram) 2. TM (핵심어 번역 정확률) 3. 용언구 패턴(패턴 매칭률) 4. 영어 숙어 정보 5. 시간을 고려하여 가중치를 계산하여 다음과 같은 최종 번역문을 결정한다.
최종 번역문 : Yun got help from others. You know, he pulled strings to get you a job here
한편, 최적의 번역결과 선택기는 번역 품질의 평가척도를 어떻게 설정하느냐에 따라 최종 선택된 번역 품질이 좌우된다. 따라서 번역 시스템의 설계 방법론에 좌우되지 않는 객관적 평가척도를 사용하되, 입력문에 대한 1) 번역문의 자연스러움, 2) 내용어 번역의 정확성, 3) 번역의 부적절성, 4) 대화문맥 연결흐름의 적절성 등을 기본 평가척도로 삼고, 각 평가척도의 중요도에 따라 가중치를 적용하여 통합된 평가치를 계산한다. 통합된 평가치를 계산하는 과정에서는 두개의 번역결과들 사이의 공통 단어열과 상이한 단어열을 구분하여 상이한 부분을 중심으로 다음과 같이 번역 품질을 평가한다(S218).
1) 번역문의 자연스러움(Fluency): 번역문을 구성하는 단어열에 대해 n-gram(5-gram) 언어모델을 적용하여 언어모델의 확률을 측정하고, 확률이 높을수록 더 자연스러운 문장으로 간주한다. 언어 모델은 대용량의 대화체 영어문장 집합으로부터 훈련하며, 어휘 수준에서의 언어모델과 의미적/통사적 정보를 고려한 언어 모델을 적용한다.
2) 내용어 번역의 정확성(Adequacy): 번역문을 구성하는 단어/구문 중 내용어들에 대해서만 대역어 선택의 정확성을 확률적으로 계산한다. 특히 내용언 번역 의 정확성을 측정하는 과정에서는 상이한 번역결과에 대해 초점을 맞추어 스코어를 계산한다. 특히, 두 번역결과 중에서 공통되지 않은 구역을 분할하여 각 구역을 대상으로 내용어 번역의 정확성을 정규화된 단어정렬 모델로써 확률적으로 계산한다.
3) 번역의 부적절성은 번역결과 내에 일정확률 이하인 대역어를 어느 정도 포함하고 있는가를 평가하는 것으로 부적절한 대역어를 많이 포함하면 할수록 번역의 품질이 낮은 것으로 판단한다.
4) 대화문맥 연결흐름의 적절성: 대화문맥 연결흐름의 적절성은 단문과 단문의 번역결과를 결합하여 복문/중문을 생성하는 경우, 적절한 복합문을 선택하기 위해 적용하며, 문형중심의 단문연결 언어모델이 적용되어 평가된다.
이상 설명한 바와 같이, 본 발명은 PBMT 기술의 장점과 SMT 기술의 장점을 취하여 보다 나은 최종 번역 결과를 생성할 수 있도록 구현한 것이다.
한편, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 당업자로부터 여러 가지 변형이 가능함은 물론이다.
도 1은 본 발명의 일 관점에 따른 하이브리드 한영 자동번역 장치에 대한 구성 블록도,
도 2는 본 발명의 다른 관점에 따른 하이브리드 한영 자동번역 방법을 설명하는 흐름도.

Claims (12)

  1. 한영 자동번역 방법으로서,
    입력되는 한국어 원문에 대한 형태소 분석 및 구문 분석을 수행하는 과정과,
    상기 형태소 분석 및 구분 분석을 수행한 결과에 대해 적어도 두 개 이상의 부분 원문으로 분절하는 과정과,
    상기 부분 원문으로 분절한 결과에 대해 패턴기반 자동번역 대역문 및 통계기반 자동번역 대역문을 각각 생성하는 과정과,
    기설정된 가중치 정보에 따라 상기 패턴기반 자동번역 대역문과 통계기반 자동번역 대역문 중 하나를 최종 번역 결과로 결정하는 과정과,
    결정되는 패턴기반 자동번역 대역문 또는 통계기반 자동번역 대역문의 번역 결과를 이용하여 상기 한국어 원문의 부분 원문에 대한 부분 대역문을 하나의 영어 문장으로 최종 합성하는 과정
    을 포함하는 한영 자동번역 방법.
  2. 제 1 항에 있어서,
    상기 형태소 분석 및 구분 분석을 수행한 결과에 대해 문형 매칭 및 패러프레이징을 수행하는 과정을 더 포함하는 한영 자동번역 방법.
  3. 제 1 항에 있어서,
    상기 부분 원문으로 분절한 결과를 보정한 후 상기 패턴기반 자동번역 대역문 및 통계기반 자동번역 대역문을 각각 생성하는 과정을 더 포함하는 한영 자동번역 방법.
  4. 제 1 항에 있어서,
    상기 기설정된 가중치 정보는, 상기 한국어 원문의 가중치, 시간 제약, 언어 모델 가중치, 번역 모델 가중치 중 하나 이상을 포함하는 한영 자동번역 방법.
  5. 한국어 문장에 대한 한국어 분석기의 분석 결과를 입력으로 받아 한국어 문장을 정규화하는 원문부 번역 매니저와,
    상기 원문부 번역 매니저를 통해 정규화된 문장을 패턴기반 대역문 생성 및 통계기반 대역문 생성을 통해 대역문을 생성하는 대역문 생성기와,
    패턴기반 대역문 생성 및 통계기반 대역문 생성과 결합되어 상기 한국어를 영어로 번역하기 위한 매니저로서의 역할을 하는 대역부 번역 매니저
    를 포함하는 한영 자동번역 장치.
  6. 제 5 항에 있어서,
    상기 원문부 번역 매니저는,
    상기 한국어 문장을 분절하여 번역하는 문장 분절기와,
    상기 한국어 문장의 문장 단위 문형 패턴에 기반하여 문장의 일정 표현에 대해 미리 영어 대역 정보를 제공하는 문형 매칭기와,
    상기 한국어 문장의 각 단문 및 구문을 패러프레이징하는 패러프레이져
    를 포함하는 한영 자동번역 장치.
  7. 제 6 항에 있어서,
    상기 문장 분절기는,
    오번역이 발생하지 않는 기설정 범위 내에서 문장을 절단위로 분절하는 것을 특징으로 하는 한영 자동번역 장치.
  8. 제 7 항에 있어서,
    상기 기설정 범위는,
    95%인 것을 특징으로 하는 한영 자동번역 장치.
  9. 제 6 항에 있어서,
    상기 문형 매칭기는, 일정 수의 어절로 이루어진 문장을 대상으로 문형패턴을 구축하고, 문형 유형을 파악하며 패턴화하는 것을 특징으로 하는 한영 자동번역 장치.
  10. 제 6 항에 있어서,
    상기 패러프레이져는,
    상기 한국어 문장의 의미를 왜곡시키지 않는 범위에서 문장 표현을 표현하는 것을 특징으로 하는 한영 자동번역 장치.
  11. 제 5 항에 있어서,
    상기 대역부 번역 매니저는,
    상기 한국어 원문에 대하여 상기 원문부 변역 매니저내의 문장 분절기가 두 개 이상의 부분 원문으로 분절을 하였을 경우, 이들 부분 원문들의 번역 결과를 합성함으로써 한국어 원문 전체에 대한 영어 대역문을 생성하는 대역문 합성기와,
    상기 한국어 원문의 가중치, 시간 제약, 언어 모델 가중치, 번역 모델 가중치를 이용하여 상기 패턴기반 대역문 생성을 통한 대역문 생성 결과와 상기 통계기 반 대역문 생성을 통한 대역문 생성 결과 중 하나를 결정하는 대역문 선택기
    를 포함하는 한영 자동번역 장치.
  12. 제 11 항에 있어서,
    상기 대역문 합성기는,
    문형 패턴 대역부를 반영하고, 부분 원문의 대역문간의 연결은 부분 원문 연결 패턴에 기반하여 이루어지며, 최종 문장을 정련하는 것을 특징으로 하는 한영 자동번역 장치.
KR1020070133677A 2007-12-18 2007-12-18 한영 자동번역 방법 및 장치 KR100911621B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070133677A KR100911621B1 (ko) 2007-12-18 2007-12-18 한영 자동번역 방법 및 장치
US12/326,758 US8401839B2 (en) 2007-12-18 2008-12-02 Method and apparatus for providing hybrid automatic translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070133677A KR100911621B1 (ko) 2007-12-18 2007-12-18 한영 자동번역 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090066067A true KR20090066067A (ko) 2009-06-23
KR100911621B1 KR100911621B1 (ko) 2009-08-12

Family

ID=40754395

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070133677A KR100911621B1 (ko) 2007-12-18 2007-12-18 한영 자동번역 방법 및 장치

Country Status (2)

Country Link
US (1) US8401839B2 (ko)
KR (1) KR100911621B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457947B2 (en) 2009-12-02 2013-06-04 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
US9058322B2 (en) 2012-05-02 2015-06-16 Electronics And Telecommunications Research Institute Apparatus and method for providing two-way automatic interpretation and translation service
CN106649291A (zh) * 2016-12-23 2017-05-10 广州酷狗计算机科技有限公司 韩文音译方法及装置
KR20180054308A (ko) * 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
WO2022055244A1 (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798720B2 (en) * 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
KR101301536B1 (ko) 2009-12-11 2013-09-04 한국전자통신연구원 외국어 작문 서비스 방법 및 시스템
SG188531A1 (en) * 2010-09-24 2013-04-30 Univ Singapore Methods and systems for automated text correction
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
US20130191728A1 (en) * 2012-01-20 2013-07-25 Steven Victor McKinney Systems, methods, and media for generating electronic books
US9600471B2 (en) * 2012-11-02 2017-03-21 Arria Data2Text Limited Method and apparatus for aggregating with information generalization
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9881006B2 (en) 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US10108599B2 (en) 2014-06-06 2018-10-23 Ebay Inc. Language platform
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2016062357A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声翻訳装置、方法およびプログラム
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
KR102580904B1 (ko) * 2016-09-26 2023-09-20 삼성전자주식회사 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US10467347B1 (en) 2016-10-31 2019-11-05 Arria Data2Text Limited Method and apparatus for natural language document orchestrator
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
CN110162604B (zh) * 2019-01-24 2023-09-12 腾讯科技(深圳)有限公司 语句生成方法、装置、设备及存储介质
KR102237725B1 (ko) * 2019-05-14 2021-04-07 김정자 영어 초보자를 위한 학습 교재 및 이를 이용한 영어 학습 방법
KR102562920B1 (ko) 2020-12-29 2023-08-02 엑스엘에이트 아이앤씨 기계번역을 위한 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02165378A (ja) * 1988-12-20 1990-06-26 Csk Corp 機械翻訳システム
JPH02308370A (ja) * 1989-05-24 1990-12-21 Toshiba Corp 機械翻訳システム
JP3408291B2 (ja) * 1993-09-20 2003-05-19 株式会社東芝 辞書作成支援装置
US6983240B2 (en) * 2000-12-18 2006-01-03 Xerox Corporation Method and apparatus for generating normalized representations of strings
US20030101044A1 (en) * 2001-11-28 2003-05-29 Mark Krasnov Word, expression, and sentence translation management tool
JP2004280467A (ja) 2003-03-14 2004-10-07 Nippon Hoso Kyokai <Nhk> 翻訳装置、翻訳方法、及びそのプログラム
KR100542755B1 (ko) * 2003-09-15 2006-01-20 한국전자통신연구원 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US20080154577A1 (en) * 2006-12-26 2008-06-26 Sehda,Inc. Chunk-based statistical machine translation system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457947B2 (en) 2009-12-02 2013-06-04 Electronics And Telecommunications Research Institute Hybrid translation apparatus and method thereof
KR101301535B1 (ko) * 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법
US9058322B2 (en) 2012-05-02 2015-06-16 Electronics And Telecommunications Research Institute Apparatus and method for providing two-way automatic interpretation and translation service
KR20180054308A (ko) * 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
CN106649291A (zh) * 2016-12-23 2017-05-10 广州酷狗计算机科技有限公司 韩文音译方法及装置
CN106649291B (zh) * 2016-12-23 2020-10-09 广州酷狗计算机科技有限公司 韩文音译方法及装置
WO2022055244A1 (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20220033652A (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법

Also Published As

Publication number Publication date
US20090157380A1 (en) 2009-06-18
US8401839B2 (en) 2013-03-19
KR100911621B1 (ko) 2009-08-12

Similar Documents

Publication Publication Date Title
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US5528491A (en) Apparatus and method for automated natural language translation
Salloum et al. Elissa: A dialectal to standard Arabic machine translation system
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
Li et al. Language modeling with functional head constraint for code switching speech recognition
Roche Parsing with finite-state transducers
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Conforti et al. Neural morphological tagging of lemma sequences for machine translation
Abiola et al. Review of the Various Approaches to Text to Text Machine Translations
Galley et al. Hybrid natural language generation for spoken dialogue systems
Liu et al. Use of statistical N-gram models in natural language generation for machine translation
KR101626386B1 (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
Ariaratnam et al. A shallow parser for Tamil
Aduriz et al. Finite state applications for basque
Shukla et al. A Framework of Translator from English Speech to Sanskrit Text
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Shquier et al. Fully automated Arabic to English machine translation system: transfer-based approach of AE-TBMT
Altunyurt et al. Towards combining rule-based and statistical part of speech tagging in agglutinative languages
Eineborg et al. ILP in part-of-speech tagging—an overview
Nieminen Multilingual paraphrase grammars for machine translation evaluation
KR100333681B1 (ko) 용언 중심 문틀을 이용한 자동 번역 장치 및 그 방법
Kaing Towards Morphological And Syntactic Analyses For The Khmer Language
Singh et al. Punjabi pos tagger: Rule based and HMM
Ying et al. A hybrid approach to Chinese-English machine translation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160726

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190725

Year of fee payment: 11