KR100837358B1 - 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법 - Google Patents

동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법 Download PDF

Info

Publication number
KR100837358B1
KR100837358B1 KR1020060080921A KR20060080921A KR100837358B1 KR 100837358 B1 KR100837358 B1 KR 100837358B1 KR 1020060080921 A KR1020060080921 A KR 1020060080921A KR 20060080921 A KR20060080921 A KR 20060080921A KR 100837358 B1 KR100837358 B1 KR 100837358B1
Authority
KR
South Korea
Prior art keywords
translation
field
sentence
dictionary
subtitle
Prior art date
Application number
KR1020060080921A
Other languages
English (en)
Other versions
KR20080019126A (ko
Inventor
김영길
양성일
김창현
서영애
홍문표
최승권
이기영
권오욱
노윤형
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060080921A priority Critical patent/KR100837358B1/ko
Priority to US11/834,180 priority patent/US8219382B2/en
Priority to CN2007101424398A priority patent/CN101131691B/zh
Publication of KR20080019126A publication Critical patent/KR20080019126A/ko
Application granted granted Critical
Publication of KR100837358B1 publication Critical patent/KR100837358B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법에 관한 것으로, 자막 문장의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행함으로써, 다양한 전문분야에 대해서 번역 성능 향상을 도모할 수 있는 것을 특징으로 한다.
본 발명에 따르면, 입출력 단자를 통해 다른 미디어장치와 자유롭게 연동이 가능한 분야 적응형 휴대용 방송자막 기계번역 장치를 구현할 수 있을 뿐만 아니라, 다양한 분야의 문장에 대하여 번역 성능의 향상을 도모할 수 있는 효과가 있다.
Figure R1020060080921
기계번역 장치, 방송자막, 번역패턴

Description

동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법{Domain-Adaptive Portable Machine Translation Device for Translating Closed Captions Using Dynamic Translation Resources and method thereof}
도 1은 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 장치의 블록도이다.
도 2는 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 방법을 나타낸 흐름도이다.
*도면의 주요 부분에 대한 부호의 설명*
101 : 문장 추출부 102 : 핵심어 추출부
103 : 문체 및 분야 인식부 104 : 번역지식 동적 구성부
105 : 번역모듈 동적 구성부 106 : 형태소 분석부
107 : 문형 패턴 적용부 108 : 구문 분석부
109 : 패턴기반 번역문 생성부 110 : 번역문 합성부
201 : 공통 형태소 분석 사전 202 : 공통 대역 사전
203 : 문형 패턴 사전 204 : 기분석 형태소 통계 사전
205 : 어휘/의미 문맥 사전 206 : 동적 번역 DB
301 : 용언어미/문체 통계 사전 302 : 어휘/분야 통계 사전
303 : 구어체 형태소 분석 사전 304 : 문어체 형태소 분석 사전
305 : 기분석 분야별 문맥 사전 306 : 사용자 사전
307 : 분야별 전문용어 대역사전 308 : 분야별 어휘/의미 공기사전
309 : 분야별 용언구 번역 패턴 사전
310 : 구조분석용 분야별 어휘 공기사전
본 발명은 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법에 관한 것으로, 특히 자막 문장의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행함으로써, 다양한 전문분야에 대해서 번역 성능 향상을 도모할 수 있는 기계번역 장치 및 방법에 관한 것이다.
현재 상용화에 성공한 일한 또는 한일 기계번역 시스템 이외에 한영/영한 번역 또는 한중/중한 번역 등과 같은 이종 패턴 언어간의 기계번역 시스템의 성능은 대상언어와 대상문장에 따라 다소 차이가 있지만 대부분 낮은 번역 성능으로 인하여 사용자들의 만족도가 높지 않은 상황이다.
따라서, 최근 들어 응용분야의 문장 특성에 맞게 기계번역 시스템을 특화시켜 번역 성능을 높이려는 시도가 이루어지고 있으며, 이러한 시도의 일환으로 기술 매뉴얼 번역, 특허 번역, 성경 번역 등과 같이 일부 특화된 분야에 대한 번역 시스 템이 상용화에 성공한 바 있다.
특히 최근 들어 위성방송 TV의 활발한 보급으로 인하여 방송신호에서 자막 신호를 추출하여 이를 자신이 원하는 언어로 자동 번역함으로써 시청자가 이해 가능한 언어의 자막으로 방송을 시청할 수 있도록 하는 방송자막 기계번역 시스템에 대한 요구가 증대되고 있는 실정이다.
여기에서, 방송자막이란 방송사에서 송출하는 영상 신호에 자막 신호가 삽입된 것으로서, 최근에는 많은 방송사들이 청각 장애인을 위해 이러한 자막 방송을 시행하고 있다. 미국의 경우에는 1990년도부터 13인치 이상의 텔레비젼에 대해 자막 기능을 의무화하였으며, 국내의 경우에도 텔레비젼 방송사 및 CATV에서 자막 방송 프로그램을 확대하고 있으며, CNN, NHK, AFKN 등의 외국어 자막 방송의 지속적인 확대가 예상되고 있다.
그러나, TV 방송자막에서는 뉴스뿐만 아니라 드라마, 교양시사, 오락프로그램 등 다양한 방송 장르에서 구어체와 문어체가 혼용되어 사용되고 있고, 뉴스에서는 모든 분야에 걸쳐 전문용어 및 표현들이 다양하게 나타나기 때문에 상용화 가능한 수준의 높은 번역 성능을 갖는 방송자막 기계번역 시스템을 개발하기에는 기술적으로 상당한 어려움이 있다.
이와 같은 기술적 어려움을 해결하기 위한 것으로, 한국 특허공개 제1997-56985호(공개일: 1997.07.31)에는 TV내에 한국어 및 외국어 번역부를 별도로 구비하여 방송자막 데이터를 사용자의 요구에 따라 모국어 또는 외국어로 디스플레이시켜 시청자들에게 편리한 시청을 제공할 수 있는 '방송자막 번역 기능을 갖는 티브 이'가 개시되어 있다.
그러나, 상기 방송자막 번역 기능을 갖는 티브이는 수신되는 방송신호에서 방송 자막 데이터를 추출한 후 사용자의 요구에 따라 자막 데이터를 번역하여 이를 TV화면에 디스플레이하는 방식을 취하고 있기 때문에, 별도로 방송자막 지원이 가능한 텔레비젼을 구입해야 하는 단점이 있으며, 위성 셋탑박스, 비디오 플레이어, DMB 단말기 등 텔레비젼이 아닌 다른 미디어 장치를 통해 방송신호가 입력되는 경우 이에 대한 자막 번역 기능은 제공할 수 없다는 문제점을 갖고 있다.
게다가, 상기 방송자막 번역 기능을 갖는 티브이는 단순히 방송 자막 데이터에 대한 번역만을 수행하기 때문에, 이로 인해 방송자막 문장에서 나타나는 구어체, 문어체 및 다양한 전문 분야의 번역 대상 문장에 대하여는 고품질의 번역을 제공할 수 없다는 한계점을 갖고 있다.
예를 들어 설명하면, "die"는 일반적인 뉴스 분야에서는 대부분 "죽다"라는 의미의 동사로 사용되고, "금형"이라는 명사로 사용될 경우가 거의 없지만, 과학 분야에서는 반대로 거의 모든 경우가 "금형"이라는 명사로 사용되므로, 적용분야를 고려하지 않은 상태에서 과학 분야의 방송 자막에 나타나는 "die"를 번역하면 "죽다"라는 동사로 잘못 번역하게 되는 것이다.
즉, 상기 방송자막 번역 기능을 갖는 티브이는 모든 분야에 대해서 동일한 번역 모듈 및 번역 지식을 일괄적으로 적용하고 있기 때문에, 다양한 문체 및 전문분야의 문장들이 입력되는 경우 당연히 번역 문장에 대한 번역 성능은 떨어질 수 밖에 없는 것이다.
상기와 같은 문제점을 해결하기 위한 것으로, 전문적인 분야를 고려하여 번역 성능을 향상시키기 위한 다양한 시도가 진행되어 왔으며, 그 대표적인 방법으로 번역된 결과에서 오류를 교정하여 이를 다시 추가 번역 지식으로 활용함으로써, 이후에 유사한 문장이 입력되면 이에 대한 번역 품질을 향상시킬 수 있는 사용자 적응형 기계번역 방법이 제안된 바 있다.
상기와 같은 사용자 적응형 기계번역 방법으로, 실제 사용자가 자신의 번역 사전을 추가하거나 또는 실제 번역에 사용한 번역 말뭉치를 번역 패턴화하여 수동으로 등록하고 이를 문장 번역에 적용하는 번역 메모리(Translation Memory) 기반의 적응형 번역 방법이 일반적으로 사용되고 있는데, 이와 관련된 종래 기술로 한국 특허공개 제2004-0111188호(공개일: 2004.12.31)의 적응형 기계 번역 방법이 개시되어 있으며, 이 기술에 대해 간단하게 살펴보면 다음과 같다.
상기 한국 특허공개 제2004-0111188호에 개시된 적응형 기계번역 방법은, 기계번역 시스템의 번역 오류를 시스템의 사용자가 직접 교정하여 이를 시스템의 입력 지식 형태로 변환한 후 다시 번역 시스템에 반영하도록 함으로써 이전의 번역 오류를 반복하지 않도록 하여 번역 성능을 향상시키고 있다.
그러나, 이러한 적응형 기계번역 방법은 사용자 본인이 직접 방대한 양의 기계번역문서에 대해서 지속적으로 검수하여 이를 교정해 주어야 하는 어려움이 따르며, 적은 규모의 교정으로는 다양한 분야의 문서에 대한 기계번역의 성능 향상을 기대하기는 어렵다는 문제점이 있다.
그리고, 상기 적응형 기계번역 방법은 번역 데이터나 규칙의 충돌 현상을 피 하기 위해 데이터 기반(data-driven) 방식의 기계번역 엔진을 사용하는데, 이러한 경우 어휘 수준의 번역 교정 지식을 추가하여 번역 성능을 향상시키기에는 그 적용성의 한계가 있기 때문에 별도로 대용량 번역 지식에 의한 통계 정보 데이터베이스를 구비해야 한다는 단점이 있다.
결론적으로, 휴대용 방송자막 기계번역 시스템의 상용화를 위해서는 번역 대상 분야 및 문체를 자동으로 인식하여 그 분야 및 문체에 특화된 번역 환경을 구축하여 번역 성능을 향상시킬 수 있으며 다양한 미디어 장치와 연동이 가능한 기계번역 시스템이 요구되고 있다.
따라서, 본 발명의 목적은 방송자막의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행함으로써 다양한 전문분야에 대해서 번역 성능 향상을 도모할 수 있는 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법을 제공하는 것이다.
본 발명의 다른 목적은, 인터넷 연결 PC, 위성방송 TV의 셋탑박스, 케이블 TV, 비디오 플레이어, USB 디스크 등의 다른 미디어장치와 독립적으로 구현 가능하며, 입출력 단자를 통해 이들 미디어장치와 자유롭게 연동이 가능한 분야 적응형 휴대용 방송자막 기계번역 장치 및 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치는, 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 핵심어 추출부; 상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하며, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 문체 및 분야 인식부; 상기 인식된 문체 및 분야를 기반으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB에 로딩하는 번역지식 동적 구성부; 상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 번역모듈 동적 구성부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 대하여 형태소 분석을 수행하는 형태소 분석부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 문형 패턴 적용부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장을 구문 분석하는 구문 분석부; 및 상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 패턴기반 번역문 생성부를 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명의 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법은, (a) 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 단계; (b) 상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하고, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 단계; (c) 상기 인식된 문체 및 분야를 기반으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB에 로딩하는 단계; (d) 상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 단계; (e) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 대하여 형태소 분석을 수행하는 단계; (f) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 단계; (g) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장을 구문 분석하는 단계; 및 (h) 상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 장치의 구성을 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 장치는, 방송신호 입력을 위한 입력단자(IN)와, 상기 입력단자(IN)로부터 입력된 방송신호에서 자막 문장을 추출하는 문장 추출부(101)와, 상기 문장 추출부(101)에서 추출된 자막 문장에서 핵심어를 추출하는 핵심어 추출부(102)와, 추출된 핵심어와 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는 문체 및 분야 인식부(103)와, 인식된 문체 및 분야를 대상으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB(206)에 로딩하는 번역지식 동적 구성부(104)와, 인식된 문체 및 분야를 대상으로 번역모듈을 동적으로 재구성하는 번역모듈 동적 구성부(105)와, 자막 문 장에 대하여 형태소 분석을 수행하는 형태소 분석부(106)와, 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 문형 패턴 적용부(107)와, 문형 패턴 적용이 실패한 경우 자막 문장을 구문 분석하는 구문 분석부(108)와, 자막 문장에 대한 패턴기반의 번역문을 생성하는 패턴기반 번역문 생성부(109)와, 입력된 방송신호와 번역문을 조합하는 번역문 합성부(110)와, 상기 번역문 합성부(110)를 통해 조합된 방송신호를 출력하는 출력단자(OUT)를 포함한다.
바람직하게, 상기 입력단자(IN)는 방송신호 입력을 위한 USB 포터/비디오 단자/오디오 단자/동축케이블 단자를 제공하며, 상기 출력단자(OUT)는 방송신호 출력을 위한 USB 포터/비디오 단자/오디오 단자/동축케이블 단자를 포함한다.
상기 문장 추출부(101)는 입력단자(IN)로부터 입력된 방송신호에서 자막 문장을 추출하여 이를 번역 대상 문장으로 출력한다.
또한, 상기 문장 추출부(101)는 번역 지식 갱신과 제어신호 전달을 위해 USB 디스크가 USB 포터에 접속된 경우 USB 디스크 내에 있는 제어 파일 및 번역 지식 파일을 구분하여 번역 대상 파일에서 번역 문장을 추출한다.
여기에서, 상기 제어 파일에는 사용자 정보, 분야 정보 등 이후 번역 모듈 및 번역 지식을 동적으로 구성하는 데 필요한 정보가 기술되어 있으며, 이 제어 파일을 통해 수동으로 사용자 정보 및 분야 정보를 세팅할 수 있다.
그리고, 상기 번역 지식 파일에는 “추가어휘 추가어휘대역어 Transaction타입(추가/삭제/수정) 사용자ID” 형식으로 번역 지식이 기술되어 있으며, 이 번역 지식 파일을 통해 사용자 사전에 새로운 엔트리를 추가할 수도 있다.
상기 핵심어 추출부(102)는 상기 문장 추출부(101)로부터 자막 문장을 입력받아 입력된 자막 문장에 대해 메인 메모리에 저장되어 있는 공통 형태소 분석 사전(201)을 참조하여 형태소 분석을 수행하고, 형태소 분석 결과로부터 명사 또는 용언들에 해당하는 핵심어들을 추출한다.
상기 문체 및 분야 인식부(103)는 상기 핵심어 추출부(102)를 통해 추출된 핵심어들과 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는데, 문체 인식 및 분야 인식 방법에 대하여 더 자세히 설명하면 다음과 같다.
우선, 문체 인식 방법에 대하여 설명하면, 상기 문체 및 분야 인식부(103)는 용언어미/문체 통계 사전(301)을 기반으로 입력된 자막 문장의 어미가 구어체에서 발생하는 빈도가 높은지 문어체에서 발생하는 빈도가 높은지를 비교하여 자막 문장이 문어체인지 구어체인지를 판단한다.
즉, 상기 용언어미/문체 통계 사전(301)은 구어체 말뭉치 및 문어체 말뭉치에 대한 형태소 분석 결과로부터 용언어미 및 서법의 발생빈도 통계 정보를 추출하여 이를 {어미어휘 | 구어체 발생빈도 | 문어체 발생빈도}의 형태로 구분하여 저장하고 있는데, 이에 따라 해당 어미의 구어체 발생빈도 및 문어체 발생빈도를 비교하면 문어체와 구어체의 판단이 가능하게 되는 것이다.
본 실시예에 있어서, 문체는 크게 구어체, 문어체 2가지로 구분하며, 구어체인 경우 5개 분야(드라마, 토크쇼, 연예오락, 인터뷰, 기타)로 구분한다. 또한, 문어체인 경우 3개의 분야(뉴스, 교양시사, 기타)로 구분하며, 뉴스 분야의 경우 10 개 분야(정치, 경제, 사회, 생활/문화, 국제, 과학, 연예, 스포츠, 날씨, 기타)로 세분화하여 구분한다.
다음으로, 분야 인식 방법에 대하여 설명하면, 상기 문체 및 분야 인식부(103)는 기구축된 어휘/분야 통계 사전(302)을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 자막 문장의 분야를 판단하는데, 상기 분야 판별을 위한 어휘/분야 통계 사전(302)은 다음과 같이 구현된다.
우선, 각 분야에 해당하는 트레이닝(training) 말뭉치를 수집하여 이들 각각으로부터 명사, 용언과 같은 형태소 어휘를 추출하며, 이렇게 추출된 각 어휘의 분야정보에 대한 정보는 {해당어휘 | 분야1, 발생빈도1 | 분야2, 발생빈도2, | ... | 분야n, 발생빈도n} 과 같은 형태의 정보로 구성되어 어휘/분야 통계 사전(302)에 저장된다.
즉, 하나의 어휘는 여러 분야에서 사용되기 때문에, 상기와 같이 분야별로 각 어휘에 대한 발생빈도를 추출하여 통계화 해놓고 자막 문장에 포함된 핵심어에 대한 각 분야별 발생빈도를 비교하면 자막 문장의 분야를 간단하게 결정할 수 있게 된다.
상기와 같이 자막 문장의 문체 및 분야가 결정되면, 상기 번역지식 동적 구성부(104)에서는 문체가 구어체인 경우 구어체 형태소 분석 사전(303)을, 문어체인 경우 문어체 형태소 분석 사전(304)을 메인 메모리의 동적 번역 DB(206)로 로딩시킨다.
그리고, 상기 번역지식 동적 구성부(104)에서는 제어신호에 포함되어 있는 사용자 정보를 이용하여 그 사용자만이 전문적으로 사용하는 사용자 사전(306)을 동적 번역 DB(206)에 로딩하고, 인식된 분야 정보를 이용하여 기분석 분야별 문맥 사전(305), 분야별 전문용어 대역사전(307) 및 분야별 어휘/의미 공기사전(308)을 동적 번역 DB(206)에 로딩시킨다.
즉, 입력된 자막 문장의 문체 및 분야를 인식하여 이에 적합한 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩함으로써, 공통 번역 지식을 사용하는 종래의 기계번역 시스템에 비하여 번역 품질을 향상시킬 수 있다.
다음으로, 번역모듈 동적 구성부(105)는 상기 문체 및 분야 인식부(103)로부터 자막 문장의 문체 및 분야 정보를 입력받아 이를 기반으로 그 문체 및 분야에 적합하게 형태소 분석부(106), 문형패턴 적용부(107), 구문 분석부(108) 및 패턴기반 번역문 생성부(109)를 제어하는데, 즉, 번역모듈을 동적으로 구성하는데, 이에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 형태소 분석부(106)는 각 문체 및 분야에 맞게 특화된 휴리스틱 규칙을 기반으로 적응적인 형태소 분석을 수행하여 입력된 자막 문장을 형태소 단위로 토큰화하기 위한 것으로서, 상기 휴리스틱 규칙은 상기 번역모듈 동적 구성부(105)에 의해 구성되며, 각 문체 및 분야에 적합한 축약형 처리, 용언 어미 처리 등에 관한 규칙을 포함하는 것이 바람직하다.
이 때, 상기 형태소 분석부(106)는 메인 메모리에 기본적으로 로딩되어 있는 공통 형태소 분석 사전(201) 및 기분석 형태소 통계 사전(204)과, 상기 번역지식 동적 구성부(104)에 의해 메인 메모리의 동적 번역 DB(206)에 로딩되어 있는 구어 체 형태소 분석 사전(303), 문어체 형태소 분석 사전(304), 기분석 분야별 문맥 사전(305), 사용자 사전(306), 분야별 전문용어 대역사전(307), 및 분야별 어휘/의미 공기사전(308)을 기반으로 형태소 분석을 수행한다.
다음은 상기 형태소 분석부(106)에서 사용하는 기분석 형태소 통계 사전(204) 및 기분석 분야별 문맥 사전(305)의 지식 포맷 및 그 일례를 나타낸다.
[ 기분석 형태소 통계 사전 ]
지식포맷 :: { 해당어절 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야1> 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야2> ... 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야n> }
예1) { 길이 176 길/N+가/J 0.64 길이/N 0.28 길이/A 0.08 <문어체/일반> 320 길/N+가/J 0.12 길이/N 0.85 길이/A 0.03 <문어체-뉴스-스포츠> 123 길/N+가/J 0.08 길이/N 0.91 길이/A 0.01 <구어체-드라마> }
[ 기분석 분야별 문맥 사전 ]
지식포맷 :: { 해당어절_좌형태소어휘1_ 좌형태소어휘2_*_우형태소어휘 기분석 출현빈도 }
예2) { 길이_새롭_ㄴ_*_열리 길/N+가/J 3 }
예3) { 길이_새롭_ㄴ_*_측정 길이/N 2 }
즉, 상기와 같이 입력된 자막 문장의 문체 및 분야에 적합한 기분석 형태소 통계 사전(204) 및 기분석 분야별 문맥 사전(305)을 기반으로 적응적인 형태소 분석이 수행됨에 따라 번역 성능을 보다 향상시킬 수 있게 되는 것이다.
다음으로, 상기 형태소 분석부(106)에 의해 자막 문장이 형태소 단위로 토큰화되면, 문형패턴 적용부(107)에서는 형태소 단위의 토큰열을 기반으로 메인 메모리에 로딩되어 있는 문형 패턴 사전(203)을 기반으로 문장 단위의 번역을 수행한다.
여기에서, 상기 문형 패턴 사전(203)에는 각 문체 및 분야별로 자주 등장하는 관용적인 번역 패턴이 저장되어 있으며, 이에 따라 기술 매뉴얼, 특허문서, 방송 뉴스, 구어체에서 자주 등장하는 관용적인 표현에 대한 고품질의 번역이 가능하며, 상기 문형 패턴 사전(203)의 일례는 다음과 같다.
[ 문형 패턴 사전 ]
예4) NP1에서 NP2 특파원이 전해 왔습니다. > Correspondent NP2 reported from NP1.
예5) 현재 전국 대부분 지방이 대체로 맑은 날씨로 보이고 있지만 우리나라 NP1에서 점차 많은 구름이 접근하고 있습니다. > Now it is mostly clear skies over most of the whole country, but lots of clouds are gradually coming from NP1 of our country.
예6) 언제 NP1에 올 예정인가? > When are you coming back to NP1 ?
다음으로, 상기 구문 분석부(108)에서는 상기 형태소 단위의 토큰열에 적용 가능한 문형 패턴이 상기 문형 패턴 사전(203)에 존재하지 않는 경우, 용언을 기반으로 자막 문장을 구문 분석하여 파스트리를 생성한다.
이 때, 상기 구문 분석부(108)는 자막 문장의 구문 파스트리 생성시 구조분석용 분야별 어휘 공기사전(310)을 기반으로 각 형태소 노드들과의 의존관계를 결정하는데, 상기 구조분석용 분야별 어휘 공기사전(310)의 일례는 다음과 같다.
[ 구조분석용 분야별 어휘 공기사전 ]
지식포맷 :: { 선행품사1_후행품사2_선행어미어휘1_후행어미어휘2 발생빈도1 <분야1> 발생빈도2 <분야2> ... 발생빈도n <분야n> }
예7> { pvg_pvg_ㄴ다면_ㄴ 5 <문어체-일반> 4 <문어체-뉴스-경제> 2 <구어체-드라마> }
예8> { pvg_pvg_ㄴ다면_고 1 <문어체-일반> 2 <문어체-뉴스-사회> 3 <구어체-드라마> }
예9> { 시스템_를_개발하 20.5 <문어체-일반> 40 <문어체-뉴스-스포츠> 32 <구어체-드라마> }
다음으로, 상기 패턴기반 번역문 생성부(109)에서는 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)을 기반으로 각 용언구 단위의 번역 패턴을 이용하여 자막 문장에 대한 패턴기반의 번역문을 생성하는데, 상기 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)의 일례는 다음과 같다.
[ 분야별 용언구 번역 패턴 사전 ]
예10) { 용기 courage^감정 72 use_of_an_instrument^그릇 17 <문어체-일반> use_of_an_instrument^그릇 74 courage^감정 0 <문어체-과학> }
[ 어휘/의미 문맥 사전 ]
예11) { 용기-를-갖 courage^감정 3 }
예12) { 용기-를-냉각하 use_of_an_instrument^그릇 2 }
다음으로, 상기 번역문 합성부(110)에서는 상기 패턴기반 번역문 생성부(109)로부터 자막 문장에 대한 번역문이 생성되면, 상기 입력단자(IN)로부터 입력된 방송신호와 상기 번역문을 합성하여 출력한다.
이 때, 방송자막의 경우는 영상/오디오/자막 텍스트/번역된 자막텍스트를 합성하고, USB 포터를 통해 입력된 텍스트 문서는 번역된 텍스트 문서와 함께 출력된다.
다음으로, 상기 번역문 합성부(110)로부터 출력된 방송신호는 출력단자(OUT) 를 통해 접속되어 있는 외부 미디어장치로 출력된다.
상기한 바와 같이, 본 발명의 분야 적응형 휴대용 방송자막 기계번역 장치는 어떤 미디어장치에도 독립적으로 접속 가능하도록 구성되어 있을 뿐만 아니라, 자막 문장의 문체 및 분야를 자동으로 인식하여 그 문체와 분야에 특화된 번역 지식 및 번역 모듈을 재구성하여 최적의 번역환경을 제공해 줄 수 있으며, 이러한 동적인 번역 자원의 활용에 따라 기술 매뉴얼, 특허문서, 방송자막, 일반 텍스트 문장 등 모든 문체와 분야에 대하여 고품질의 특화 번역이 가능하다.
이하, 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 방법을 나타낸 흐름도이다.
설명의 편의상 본 발명의 휴대용 방송자막 기계번역 장치가 입출력 연결 단자를 통해 인터넷 연결 PC, 위성방송 TV의 셋탑박스, 케이블 TV, 비디오 플레이어, USB 디스크 등 다른 미디어장치에 연결되어 있는 것을 가정하여 설명한다.
먼저 다른 미디어장치로부터 방송신호가 입력되면(S210), 입력된 방송신호에서 자막 문장을 추출한다(S220).
다음으로, 상기 추출된 자막 문장에 대하여 형태소 분석을 수행하여 형태소 분석 결과로부터 명사 또는 용언들에 해당하는 핵심어들을 추출한다(S230).
다음으로, 상기 추출된 핵심어들과 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는 데(S240), 문체 인식 및 분야 인식 방법에 대하여는 상기 도 1과 관련된 설명에서 자세히 설명하였으므로 이에 대해 간략하게 설명하면 다음과 같다.
우선 상기 용언어미/문체 통계 사전(301)을 기반으로 입력된 자막 문장의 어미가 구어체에서 발생하는 빈도가 높은지 문어체에서 발생하는 빈도가 높은지를 비교하여 자막 문장이 문어체인지 구어체인지를 판단하며, 그 다음, 상기 기구축된 어휘/분야 통계 사전(302)을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 자막 문장의 분야를 판단한다.
본 실시예에 있어서, 문체는 크게 구어체와 문어체 2가지로 구분하며, 구어체인 경우 5개 분야(드라마, 토크쇼, 연예오락, 인터뷰, 기타)로 구분한다. 또한, 문어체인 경우 3개의 분야(뉴스, 교양시사, 기타)로 구분하며, 뉴스 분야의 경우 10개 분야(정치, 경제, 사회, 생활/문화, 국제, 과학, 연예, 스포츠, 날씨, 기타)로 세분화하여 구분한다.
한편, 상기와 같이 자막 문장의 문체 및 분야가 인식되면, 상기 인식된 문체 및 분야 정보를 기반으로 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩하는데(S250), 번역 지식의 동적 구성에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 자막 문장의 문체가 구어체인 경우 구어체 형태소 분석 사전(303)을, 문어체인 경우 문어체 형태소 분석 사전(304)을 메인 메모리의 동적 번역 DB(206)로 로딩시킨다.
그 다음, 상기 인식된 분야 정보를 이용하여 기분석 분야별 문맥 사전(305) 을 동적 번역 DB(206)에 로딩시킨다.
그 다음, 사용자 정보를 이용하여 그 사용자만이 전문적으로 사용하는 사용자 사전(306)을 동적 번역 DB(206)에 로딩시킨다.
그 다음, 상기 인식된 분야 정보를 이용하여 분야별 전문용어 대역사전(307) 및 분야별 어휘/의미 공기사전(308)을 동적 번역 DB(206)에 로딩시킨다.
즉, 상기와 같이 자막 문장의 문체 및 분야에 적합하게 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩함으로써, 공통 번역 지식을 사용하는 종래의 기계번역 시스템에 비하여 번역 품질을 향상시킬 수 있게 된다.
다음으로, 상기 인식된 문체 및 분야 정보를 기반으로 번역 모듈을 동적으로 구성하여 번역을 수행하는데(S260), 이에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 인식된 문체 및 분야에 맞게 특화된 휴리스틱 규칙을 기반으로 적응적인 형태소 분석을 수행하여 입력된 자막 문장을 형태소 단위로 토큰화한다(S261).
이 때, 상기 형태소 분석시 메인 메모리에 기본적으로 로딩되어 있는 공통 형태소 분석 사전(201) 및 기분석 형태소 통계 사전(204)과, 메인 메모리의 동적 번역 DB(206)에 로딩되어 있는 구어체 형태소 분석 사전(303), 문어체 형태소 분석 사전(304), 기분석 분야별 문맥 사전(305), 사용자 사전(306), 분야별 전문용어 대역사전(307), 및 분야별 어휘/의미 공기사전(308)을 기반으로 형태소 분석을 수행하는 것이 바람직하며, 상기 휴리스틱 규칙은 각 문체 및 분야에 적합한 축약형 처리, 용언 어미 처리 등에 관한 규칙을 포함하는 것이 바람직하다.
다음으로, 자막 문장이 형태소 단위로 토큰화되면, 메인 메모리에 로딩되어 있는 문형 패턴 사전(203)을 기반으로 형태소 단위의 토큰열에 대한 문형 패턴을 적용하여 문장 단위의 번역을 수행한다(S263).
여기에서, 상기 문형 패턴 사전(203)에는 각 문체 및 분야별로 자주 등장하는 관용적인 번역 패턴이 저장되어 있으며, 이에 따라 기술 매뉴얼, 특허문서, 방송 뉴스, 구어체에서 자주 등장하는 관용적인 표현에 대한 고품질의 번역이 가능하다.
다음으로, 상기 형태소 단위의 토큰열에 적용 가능한 문형 패턴이 상기 문형 패턴 사전(203)에 존재하지 않는 경우, 용언을 기반으로 자막 문장을 구문 분석하여 파스트리를 생성한다(S265).
이 때, 자막 문장의 구문 파스트리 생성시 구조분석용 분야별 어휘 공기사전(310)을 기반으로 각 형태소 노드들과의 의존관계를 결정하는 것이 바람직하다.
다음으로, 용언구 단위의 파스트리가 형성되면, 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)을 기반으로 각 용언구 단위의 번역 패턴을 이용하여 목표언어로 번역을 수행한다(S267).
다음으로, 자막 문장에 대한 번역문이 생성되면, 상기 번역문과 입력된 방송신호를 합성하여 접속되어 있는 외부 미디어장치로 출력한다(S270).
이 때, 방송자막의 경우는 영상/오디오/자막 텍스트/번역된 자막텍스트를 합성하고, USB 포터를 통해 입력된 텍스트 문서는 번역된 텍스트 문서와 함께 출력된다.
상기한 바와 같이, 본 발명의 분야 적응형 휴대용 방송자막 기계번역 방법에 따르면, 방송자막의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행할 수 있으므로, 다양한 전문분야에 대해서 고품질의 특화 번역이 가능하게 되는 효과가 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상술한 바와 같이, 본 발명에 따르면, 자막 문장의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행할 수 있으므로, 다양한 분야의 문장에 대하여 번역 성능 향상을 도모할 수 있는 효과가 있다.
또한, 본 발명에 따르면, 인터넷 연결 PC, 위성방송 TV의 셋탑박스, 케이블 TV, 비디오 플레이어, USB 디스크 등의 다른 미디어장치와 독립적으로 구현 가능하며, 입출력 단자를 통해 이들 미디어장치와 자유롭게 연동이 가능한 분야 적응형 휴대용 방송자막 기계번역 장치를 구현할 수 있다는 효과가 있다.
또한, 본 발명에 따르면, 자막 문장의 문체 및 분야에 적합한 번역 사전이 메인 메모리에 로딩되어 있는 상태에서 번역이 수행되므로, 종래의 기계번역 시스템에 비하여 번역 사전의 액세스 시간이 단축되어 고속의 번역이 가능하다는 효과도 있다.

Claims (21)

  1. 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 핵심어 추출부;
    상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하며, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 문체 및 분야 인식부;
    상기 인식된 문체 정보를 기반으로 구어체 형태소 분석 사전 또는 문어체 형태소 분석 사전을 메인 메모리의 동적 번역 DB에 로딩하고, 상기 인식된 분야 정보를 기반으로 기분석 분야별 문맥 사전, 분야별 전문용어 대역사전 및 분야별 어휘/의미 공기사전을 상기 동적 번역 DB에 로딩하는 번역지식 동적 구성부;
    상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 번역모듈 동적 구성부;
    상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 대하여 형태소 분석을 수행하는 형태소 분석부;
    상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 문형 패턴 적용부;
    상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장을 구문 분석하는 구문 분석부; 및
    상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 패턴기반 번역문 생성부를 포함하고,
    상기 용언어미/문체 통계 사전은 { 어미어휘 | 구어체 발생빈도 | 문어체 발생빈도 }의 지식 포맷을 가지며,
    상기 어휘/분야 통계 사전은 { 해당어휘 | 분야1, 발생빈도1 | 분야2, 발생빈도2, | ... | 분야n, 발생빈도n }의 지식 포맷을 갖는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  2. 제 1항에 있어서,
    상기 입력된 방송신호에서 자막 문장을 추출하는 문장 추출부; 및
    상기 입력된 방송신호와 상기 패턴기반 번역문 생성부를 통해 생성된 번역문을 조합하는 번역문 합성부를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  3. 제 2항에 있어서,
    상기 방송신호 입력을 위한 입력단자; 및
    상기 번역문 합성부를 통해 조합된 방송신호를 출력하는 출력단자를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 제 1항에 있어서, 상기 형태소 분석부는,
    상기 인식된 문체 및 분야에 맞게 특화된 휴리스틱 규칙과, 공통 형태소 분석 사전 및 기분석 형태소 통계 사전과, 상기 번역지식 동적 구성부에 의해 상기 동적 번역 DB에 로딩된 구어체 형태소 분석 사전, 문어체 형태소 분석 사전, 기분석 분야별 문맥 사전 중 적어도 어느 하나를 기반으로 형태소 분석을 수행하여 상기 자막 문장을 형태소 단위로 토큰화하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  10. 제 9항에 있어서, 상기 기분석 형태소 통계 사전의 지식 포맷은,
    { 해당어절 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야1> 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야2> ... 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야n> }
    인 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  11. 제 9항에 있어서,
    상기 기분석 분야별 문맥 사전의 지식포맷은,
    { 해당어절_좌형태소어휘1_ 좌형태소어휘2_*_우형태소어휘 기분석 출현빈도 }
    인 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  12. 제 1항에 있어서, 상기 구문 분석부는,
    상기 자막 문장에 적용 가능한 문형 패턴이 존재하지 않는 경우, 구조분석용 분야별 어휘 공기사전을 기반으로 상기 자막 문장을 구문 분석하여 구문 파스트리를 생성하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  13. 제 12항에 있어서, 상기 구조분석용 분야별 어휘 공기사전의 지식 포맷은,
    { 선행품사1_후행품사2_선행어미어휘1_후행어미어휘2 발생빈도1 <분야1> 발생빈도2 <분야2> ... 발생빈도n <분야n> }
    인 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  14. 제 1항에 있어서, 상기 패턴기반 번역문 생성부는,
    상기 구문 분석 결과와, 분야별 용언구 번역 패턴 사전 및 어휘/의미 문맥 사전을 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치.
  15. (a) 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 단계;
    (b) 상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하고, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 단계;
    (c) 상기 인식된 문체 정보를 기반으로 구어체 형태소 분석 사전 또는 문어체 형태소 분석 사전을 메인 메모리의 동적 번역 DB에 로딩하고, 상기 인식된 분야 정보를 기반으로 기분석 분야별 문맥 사전, 분야별 전문용어 대역사전 및 분야별 어휘/의미 공기사전을 상기 동적 번역 DB에 로딩하는 단계;
    (d) 상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 단계;
    (e) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 대하여 형태소 분석을 수행하는 단계;
    (f) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 단계;
    (g) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장을 구문 분석하는 단계; 및
    (h) 상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 단계를 포함하고,
    상기 용언어미/문체 통계 사전은 { 어미어휘 | 구어체 발생빈도 | 문어체 발생빈도 }의 지식 포맷을 가지며,
    상기 어휘/분야 통계 사전은 { 해당어휘 | 분야1, 발생빈도1 | 분야2, 발생빈도2, | ... | 분야n, 발생빈도n }의 지식 포맷을 갖는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법.
  16. 제 15항에 있어서,
    입력된 방송신호에서 자막 문장을 추출하는 단계; 및
    상기 입력된 방송신호와 상기 (h) 단계를 통해 생성된 번역문을 조합하는 단계를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법.
  17. 삭제
  18. 삭제
  19. 제 15항에 있어서, 상기 (e) 단계는,
    상기 인식된 문체 및 분야에 맞게 특화된 휴리스틱 규칙과, 공통 형태소 분석 사전 및 기분석 형태소 통계 사전과, 상기 동적 번역 DB에 로딩된 구어체 형태소 분석 사전, 문어체 형태소 분석 사전, 기분석 분야별 문맥 사전 중 적어도 어느 하나를 기반으로 형태소 분석을 수행하여 상기 자막 문장을 형태소 단위로 토큰화하는 단계를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법.
  20. 제 15항에 있어서, 상기 (g) 단계는,
    상기 자막 문장에 적용 가능한 문형 패턴이 존재하지 않는 경우, 구조분석용 분야별 어휘 공기사전을 기반으로 상기 자막 문장을 구문 분석하여 구문 파스트리를 생성하는 단계를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법.
  21. 제 15항에 있어서, 상기 (h) 단계는,
    상기 구문 분석 결과와, 분야별 용언구 번역 패턴 사전 및 어휘/의미 문맥 사전을 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 단계를 더 포함하는 것을 특징으로 하는 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법.
KR1020060080921A 2006-08-25 2006-08-25 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법 KR100837358B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020060080921A KR100837358B1 (ko) 2006-08-25 2006-08-25 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
US11/834,180 US8219382B2 (en) 2006-08-25 2007-08-06 Domain-adaptive portable machine translation device for translating closed captions using dynamic translation resources and method thereof
CN2007101424398A CN101131691B (zh) 2006-08-25 2007-08-27 翻译隐藏式字幕的领域自适应便携机器翻译设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060080921A KR100837358B1 (ko) 2006-08-25 2006-08-25 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20080019126A KR20080019126A (ko) 2008-03-03
KR100837358B1 true KR100837358B1 (ko) 2008-06-12

Family

ID=39128961

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060080921A KR100837358B1 (ko) 2006-08-25 2006-08-25 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법

Country Status (3)

Country Link
US (1) US8219382B2 (ko)
KR (1) KR100837358B1 (ko)
CN (1) CN101131691B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208941A1 (ko) * 2015-06-22 2016-12-29 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US8600728B2 (en) * 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US20100106482A1 (en) * 2008-10-23 2010-04-29 Sony Corporation Additional language support for televisions
CN101593174A (zh) * 2009-03-11 2009-12-02 林勋准 一种机器翻译方法及系统
US8990064B2 (en) * 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
JP5525529B2 (ja) * 2009-08-04 2014-06-18 株式会社東芝 機械翻訳装置および翻訳プログラム
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
KR101301535B1 (ko) 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법
KR101289267B1 (ko) * 2009-12-22 2013-08-07 한국전자통신연구원 방송통신시스템에서 dtv 자막 처리 장치 및 방법
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8914276B2 (en) 2011-06-08 2014-12-16 Microsoft Corporation Dynamic video caption translation player
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
CN103186522B (zh) * 2011-12-29 2018-01-26 富泰华工业(深圳)有限公司 电子设备及其自然语言分析方法
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9026425B2 (en) * 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9547641B2 (en) * 2013-09-26 2017-01-17 International Business Machines Corporation Domain specific salient point translation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
CN103678280A (zh) * 2013-12-30 2014-03-26 武汉传神信息技术有限公司 翻译任务碎片化的方法
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
US9940324B2 (en) 2015-03-10 2018-04-10 International Business Machines Corporation Performance detection and enhancement of machine translation
CN105955958A (zh) * 2016-05-06 2016-09-21 长沙市麓智信息科技有限公司 英文专利申请文件撰写辅助系统及其撰写辅助方法
CN106874262A (zh) * 2017-01-09 2017-06-20 成都佳音多语信息技术有限公司 一种实现领域自适应的统计机器翻译方法
CN108509117A (zh) 2017-02-27 2018-09-07 腾讯科技(深圳)有限公司 数据显示方法及装置
US20180246882A1 (en) * 2017-02-28 2018-08-30 Divine Connect, LLC Real time speech translation system
CN111460810A (zh) * 2020-03-02 2020-07-28 平安科技(深圳)有限公司 众包任务的抽检方法、装置、计算机设备及存储介质
CN113591460B (zh) * 2021-07-02 2024-06-18 中译语通科技股份有限公司 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法
CN114885197B (zh) * 2022-04-26 2023-07-14 中山亿联智能科技有限公司 一种应用于机顶盒字幕的多国语言翻译系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030030687A (ko) * 2001-10-12 2003-04-18 한국전자통신연구원 셋탑박스의 캡션 신호 처리 장치
KR20040111188A (ko) * 2003-06-20 2004-12-31 마이크로소프트 코포레이션 적응형 기계 번역
KR20050064575A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 스타일 번역 처리시스템 및 방법
KR20060017286A (ko) * 2004-08-20 2006-02-23 삼성전자주식회사 자막 정보 번역 장치 및 방법
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62203273A (ja) 1986-03-04 1987-09-07 Toshiba Corp 機械翻訳システム
KR950013128A (ko) 1993-10-30 1995-05-17 김광호 전화기의 벽걸이 장치
KR970056985A (ko) 1995-12-29 1997-07-31 배순훈 방송자막 번역 기능을 갖는 티브이
JP3272288B2 (ja) 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
KR100326400B1 (ko) * 1999-05-19 2002-03-12 김광수 자막지향 탐색정보 생성 및 탐색방법과, 이를 사용하는 재생장치
KR100367675B1 (ko) * 2000-04-27 2003-01-15 엘지전자 주식회사 티브이 문자정보 번역 시스템 및 그 제어방법
EP1158799A1 (en) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
CA2411038A1 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
US20030169369A1 (en) * 2002-03-05 2003-09-11 Michael Kahn Consumer video captioning system
KR100530154B1 (ko) 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
US7383542B2 (en) 2003-06-20 2008-06-03 Microsoft Corporation Adaptive machine translation service
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
KR100645430B1 (ko) * 2004-06-15 2006-11-15 삼성전자주식회사 문자정보를 표시하는 셋톱박스, 영상시스템 및 그 문자정보 표시방법
US7711543B2 (en) * 2006-04-14 2010-05-04 At&T Intellectual Property Ii, Lp On-demand language translation for television programs

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7130790B1 (en) 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
KR20030030687A (ko) * 2001-10-12 2003-04-18 한국전자통신연구원 셋탑박스의 캡션 신호 처리 장치
KR20040111188A (ko) * 2003-06-20 2004-12-31 마이크로소프트 코포레이션 적응형 기계 번역
KR20050064575A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 스타일 번역 처리시스템 및 방법
KR20060017286A (ko) * 2004-08-20 2006-02-23 삼성전자주식회사 자막 정보 번역 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"한영 자동 번역을 위한 한국어 구문 분석 전처리"(2001 한국정보과학회 가을 학술발표논문집 Vol.28. No.2)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016208941A1 (ko) * 2015-06-22 2016-12-29 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템

Also Published As

Publication number Publication date
US20080052061A1 (en) 2008-02-28
CN101131691A (zh) 2008-02-27
US8219382B2 (en) 2012-07-10
CN101131691B (zh) 2012-10-24
KR20080019126A (ko) 2008-03-03

Similar Documents

Publication Publication Date Title
KR100837358B1 (ko) 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
JP6675463B2 (ja) 自然言語の双方向確率的な書換えおよび選択
TWI233026B (en) Multi-lingual transcription system
US8554558B2 (en) Visualizing automatic speech recognition and machine translation output
CN110264992B (zh) 语音合成处理方法、装置、设备和存储介质
CN107066455A (zh) 一种多语言智能预处理实时统计机器翻译系统
US20070282597A1 (en) Data summarization method and apparatus
CN111898388A (zh) 视频字幕翻译编辑方法、装置、电子设备及存储介质
CN113035199A (zh) 音频处理方法、装置、设备及可读存储介质
KR102229130B1 (ko) 실시간 번역을 통한 디지털 방송의 자막 제공 서비스 장치
JP2013186673A (ja) 機械翻訳装置及び機械翻訳プログラム
Toole et al. Time-constrained Machine Translation
KR20090074607A (ko) 자막 정보를 이용하여 단어 학습용 디스플레이 제어방법 및이를 이용한 기기
JP6555583B2 (ja) 信号処理装置及び信号処理システム
Piperidis et al. Infrastructure for a multilingual subtitle generation system
CN112837675B (zh) 语音识别方法、装置及相关系统和设备
JP2012185636A (ja) 文書平易化装置およびプログラム
Tussa’diah et al. Wordplay in Shrek Movie and Its Bahasa Indonesian Subtitle
CN116631403A (zh) 一种数据处理方法、装置及电子设备
KR20010063791A (ko) 영어 용언구의 연결정보 결정 장치 및 그 방법
Jadhav et al. YouTube Video Summarizer in Regional Language
CN115828940A (zh) 一种基于语料处理技术的中韩翻译系统
Triyanto et al. An Analysis Of Idiom Translation Techniques In Zootopia (2016) Movie Subtitle
CN109325147A (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130527

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150527

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160527

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190527

Year of fee payment: 12