상기 목적을 달성하기 위하여 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 장치는, 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 핵심어 추출부; 상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하며, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 문체 및 분야 인식부; 상기 인식된 문체 및 분야를 기반으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB에 로딩하는 번역지식 동적 구성부; 상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 번역모듈 동적 구성부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 대하여 형태소 분석을 수행하는 형태소 분석부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 문형 패턴 적용부; 상기 번역모듈 동적 구성부의 제어에 따라 상기 자막 문장을 구문 분석하는 구문 분석부; 및 상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 패턴기반 번역문 생성부를 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명의 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막 기계번역 방법은, (a) 입력된 방송신호의 자막 문장에서 문체 및 분야 인식을 위한 핵심어를 추출하는 단계; (b) 상기 추출된 핵심어와 기구축된 용언어미/문체 통계 사전을 기반으로 상기 자막 문장 어미의 구어체 발생빈도와 문어체 발생빈도를 비교하여 상기 자막 문장이 문어체인지 구어체인지 인식하고, 기구축된 어휘/분야 통계 사전을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 상기 자막 문장의 분야를 인식하는 단계; (c) 상기 인식된 문체 및 분야를 기반으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB에 로딩하는 단계; (d) 상기 인식된 문체 및 분야를 기반으로 번역모듈을 동적으로 재구성하는 단계; (e) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 대하여 형태소 분석을 수행하는 단계; (f) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 단계; (g) 상기 인식된 문체 및 분야를 기반으로 상기 자막 문장을 구문 분석하는 단계; 및 (h) 상기 구문 분석 결과를 기반으로 상기 자막 문장에 대한 패턴기반의 번역문을 생성하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 장치의 구성을 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 장치는, 방송신호 입력을 위한 입력단자(IN)와, 상기 입력단자(IN)로부터 입력된 방송신호에서 자막 문장을 추출하는 문장 추출부(101)와, 상기 문장 추출부(101)에서 추출된 자막 문장에서 핵심어를 추출하는 핵심어 추출부(102)와, 추출된 핵심어와 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는 문체 및 분야 인식부(103)와, 인식된 문체 및 분야를 대상으로 번역지식을 동적으로 구성하여 메인 메모리의 동적 번역 DB(206)에 로딩하는 번역지식 동적 구성부(104)와, 인식된 문체 및 분야를 대상으로 번역모듈을 동적으로 재구성하는 번역모듈 동적 구성부(105)와, 자막 문 장에 대하여 형태소 분석을 수행하는 형태소 분석부(106)와, 자막 문장에 문형 패턴을 적용하여 문장 단위의 번역을 수행하는 문형 패턴 적용부(107)와, 문형 패턴 적용이 실패한 경우 자막 문장을 구문 분석하는 구문 분석부(108)와, 자막 문장에 대한 패턴기반의 번역문을 생성하는 패턴기반 번역문 생성부(109)와, 입력된 방송신호와 번역문을 조합하는 번역문 합성부(110)와, 상기 번역문 합성부(110)를 통해 조합된 방송신호를 출력하는 출력단자(OUT)를 포함한다.
바람직하게, 상기 입력단자(IN)는 방송신호 입력을 위한 USB 포터/비디오 단자/오디오 단자/동축케이블 단자를 제공하며, 상기 출력단자(OUT)는 방송신호 출력을 위한 USB 포터/비디오 단자/오디오 단자/동축케이블 단자를 포함한다.
상기 문장 추출부(101)는 입력단자(IN)로부터 입력된 방송신호에서 자막 문장을 추출하여 이를 번역 대상 문장으로 출력한다.
또한, 상기 문장 추출부(101)는 번역 지식 갱신과 제어신호 전달을 위해 USB 디스크가 USB 포터에 접속된 경우 USB 디스크 내에 있는 제어 파일 및 번역 지식 파일을 구분하여 번역 대상 파일에서 번역 문장을 추출한다.
여기에서, 상기 제어 파일에는 사용자 정보, 분야 정보 등 이후 번역 모듈 및 번역 지식을 동적으로 구성하는 데 필요한 정보가 기술되어 있으며, 이 제어 파일을 통해 수동으로 사용자 정보 및 분야 정보를 세팅할 수 있다.
그리고, 상기 번역 지식 파일에는 “추가어휘 추가어휘대역어 Transaction타입(추가/삭제/수정) 사용자ID” 형식으로 번역 지식이 기술되어 있으며, 이 번역 지식 파일을 통해 사용자 사전에 새로운 엔트리를 추가할 수도 있다.
상기 핵심어 추출부(102)는 상기 문장 추출부(101)로부터 자막 문장을 입력받아 입력된 자막 문장에 대해 메인 메모리에 저장되어 있는 공통 형태소 분석 사전(201)을 참조하여 형태소 분석을 수행하고, 형태소 분석 결과로부터 명사 또는 용언들에 해당하는 핵심어들을 추출한다.
상기 문체 및 분야 인식부(103)는 상기 핵심어 추출부(102)를 통해 추출된 핵심어들과 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는데, 문체 인식 및 분야 인식 방법에 대하여 더 자세히 설명하면 다음과 같다.
우선, 문체 인식 방법에 대하여 설명하면, 상기 문체 및 분야 인식부(103)는 용언어미/문체 통계 사전(301)을 기반으로 입력된 자막 문장의 어미가 구어체에서 발생하는 빈도가 높은지 문어체에서 발생하는 빈도가 높은지를 비교하여 자막 문장이 문어체인지 구어체인지를 판단한다.
즉, 상기 용언어미/문체 통계 사전(301)은 구어체 말뭉치 및 문어체 말뭉치에 대한 형태소 분석 결과로부터 용언어미 및 서법의 발생빈도 통계 정보를 추출하여 이를 {어미어휘 | 구어체 발생빈도 | 문어체 발생빈도}의 형태로 구분하여 저장하고 있는데, 이에 따라 해당 어미의 구어체 발생빈도 및 문어체 발생빈도를 비교하면 문어체와 구어체의 판단이 가능하게 되는 것이다.
본 실시예에 있어서, 문체는 크게 구어체, 문어체 2가지로 구분하며, 구어체인 경우 5개 분야(드라마, 토크쇼, 연예오락, 인터뷰, 기타)로 구분한다. 또한, 문어체인 경우 3개의 분야(뉴스, 교양시사, 기타)로 구분하며, 뉴스 분야의 경우 10 개 분야(정치, 경제, 사회, 생활/문화, 국제, 과학, 연예, 스포츠, 날씨, 기타)로 세분화하여 구분한다.
다음으로, 분야 인식 방법에 대하여 설명하면, 상기 문체 및 분야 인식부(103)는 기구축된 어휘/분야 통계 사전(302)을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 자막 문장의 분야를 판단하는데, 상기 분야 판별을 위한 어휘/분야 통계 사전(302)은 다음과 같이 구현된다.
우선, 각 분야에 해당하는 트레이닝(training) 말뭉치를 수집하여 이들 각각으로부터 명사, 용언과 같은 형태소 어휘를 추출하며, 이렇게 추출된 각 어휘의 분야정보에 대한 정보는 {해당어휘 | 분야1, 발생빈도1 | 분야2, 발생빈도2, | ... | 분야n, 발생빈도n} 과 같은 형태의 정보로 구성되어 어휘/분야 통계 사전(302)에 저장된다.
즉, 하나의 어휘는 여러 분야에서 사용되기 때문에, 상기와 같이 분야별로 각 어휘에 대한 발생빈도를 추출하여 통계화 해놓고 자막 문장에 포함된 핵심어에 대한 각 분야별 발생빈도를 비교하면 자막 문장의 분야를 간단하게 결정할 수 있게 된다.
상기와 같이 자막 문장의 문체 및 분야가 결정되면, 상기 번역지식 동적 구성부(104)에서는 문체가 구어체인 경우 구어체 형태소 분석 사전(303)을, 문어체인 경우 문어체 형태소 분석 사전(304)을 메인 메모리의 동적 번역 DB(206)로 로딩시킨다.
그리고, 상기 번역지식 동적 구성부(104)에서는 제어신호에 포함되어 있는 사용자 정보를 이용하여 그 사용자만이 전문적으로 사용하는 사용자 사전(306)을 동적 번역 DB(206)에 로딩하고, 인식된 분야 정보를 이용하여 기분석 분야별 문맥 사전(305), 분야별 전문용어 대역사전(307) 및 분야별 어휘/의미 공기사전(308)을 동적 번역 DB(206)에 로딩시킨다.
즉, 입력된 자막 문장의 문체 및 분야를 인식하여 이에 적합한 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩함으로써, 공통 번역 지식을 사용하는 종래의 기계번역 시스템에 비하여 번역 품질을 향상시킬 수 있다.
다음으로, 번역모듈 동적 구성부(105)는 상기 문체 및 분야 인식부(103)로부터 자막 문장의 문체 및 분야 정보를 입력받아 이를 기반으로 그 문체 및 분야에 적합하게 형태소 분석부(106), 문형패턴 적용부(107), 구문 분석부(108) 및 패턴기반 번역문 생성부(109)를 제어하는데, 즉, 번역모듈을 동적으로 구성하는데, 이에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 형태소 분석부(106)는 각 문체 및 분야에 맞게 특화된 휴리스틱 규칙을 기반으로 적응적인 형태소 분석을 수행하여 입력된 자막 문장을 형태소 단위로 토큰화하기 위한 것으로서, 상기 휴리스틱 규칙은 상기 번역모듈 동적 구성부(105)에 의해 구성되며, 각 문체 및 분야에 적합한 축약형 처리, 용언 어미 처리 등에 관한 규칙을 포함하는 것이 바람직하다.
이 때, 상기 형태소 분석부(106)는 메인 메모리에 기본적으로 로딩되어 있는 공통 형태소 분석 사전(201) 및 기분석 형태소 통계 사전(204)과, 상기 번역지식 동적 구성부(104)에 의해 메인 메모리의 동적 번역 DB(206)에 로딩되어 있는 구어 체 형태소 분석 사전(303), 문어체 형태소 분석 사전(304), 기분석 분야별 문맥 사전(305), 사용자 사전(306), 분야별 전문용어 대역사전(307), 및 분야별 어휘/의미 공기사전(308)을 기반으로 형태소 분석을 수행한다.
다음은 상기 형태소 분석부(106)에서 사용하는 기분석 형태소 통계 사전(204) 및 기분석 분야별 문맥 사전(305)의 지식 포맷 및 그 일례를 나타낸다.
[ 기분석 형태소 통계 사전 ]
지식포맷 :: { 해당어절 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야1> 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야2> ... 출현빈도 기분석1 확률1 출현빈도1 기분석2 확률2 출현빈도2 ... 기분석n 확률n 출현빈도n <분야n> }
예1) { 길이 176 길/N+가/J 0.64 길이/N 0.28 길이/A 0.08 <문어체/일반> 320 길/N+가/J 0.12 길이/N 0.85 길이/A 0.03 <문어체-뉴스-스포츠> 123 길/N+가/J 0.08 길이/N 0.91 길이/A 0.01 <구어체-드라마> }
[ 기분석 분야별 문맥 사전 ]
지식포맷 :: { 해당어절_좌형태소어휘1_ 좌형태소어휘2_*_우형태소어휘 기분석 출현빈도 }
예2) { 길이_새롭_ㄴ_*_열리 길/N+가/J 3 }
예3) { 길이_새롭_ㄴ_*_측정 길이/N 2 }
즉, 상기와 같이 입력된 자막 문장의 문체 및 분야에 적합한 기분석 형태소 통계 사전(204) 및 기분석 분야별 문맥 사전(305)을 기반으로 적응적인 형태소 분석이 수행됨에 따라 번역 성능을 보다 향상시킬 수 있게 되는 것이다.
다음으로, 상기 형태소 분석부(106)에 의해 자막 문장이 형태소 단위로 토큰화되면, 문형패턴 적용부(107)에서는 형태소 단위의 토큰열을 기반으로 메인 메모리에 로딩되어 있는 문형 패턴 사전(203)을 기반으로 문장 단위의 번역을 수행한다.
여기에서, 상기 문형 패턴 사전(203)에는 각 문체 및 분야별로 자주 등장하는 관용적인 번역 패턴이 저장되어 있으며, 이에 따라 기술 매뉴얼, 특허문서, 방송 뉴스, 구어체에서 자주 등장하는 관용적인 표현에 대한 고품질의 번역이 가능하며, 상기 문형 패턴 사전(203)의 일례는 다음과 같다.
[ 문형 패턴 사전 ]
예4) NP1에서 NP2 특파원이 전해 왔습니다. > Correspondent NP2 reported from NP1.
예5) 현재 전국 대부분 지방이 대체로 맑은 날씨로 보이고 있지만 우리나라 NP1에서 점차 많은 구름이 접근하고 있습니다. > Now it is mostly clear skies over most of the whole country, but lots of clouds are gradually coming from NP1 of our country.
예6) 언제 NP1에 올 예정인가? > When are you coming back to NP1 ?
다음으로, 상기 구문 분석부(108)에서는 상기 형태소 단위의 토큰열에 적용 가능한 문형 패턴이 상기 문형 패턴 사전(203)에 존재하지 않는 경우, 용언을 기반으로 자막 문장을 구문 분석하여 파스트리를 생성한다.
이 때, 상기 구문 분석부(108)는 자막 문장의 구문 파스트리 생성시 구조분석용 분야별 어휘 공기사전(310)을 기반으로 각 형태소 노드들과의 의존관계를 결정하는데, 상기 구조분석용 분야별 어휘 공기사전(310)의 일례는 다음과 같다.
[ 구조분석용 분야별 어휘 공기사전 ]
지식포맷 :: { 선행품사1_후행품사2_선행어미어휘1_후행어미어휘2 발생빈도1 <분야1> 발생빈도2 <분야2> ... 발생빈도n <분야n> }
예7> { pvg_pvg_ㄴ다면_ㄴ 5 <문어체-일반> 4 <문어체-뉴스-경제> 2 <구어체-드라마> }
예8> { pvg_pvg_ㄴ다면_고 1 <문어체-일반> 2 <문어체-뉴스-사회> 3 <구어체-드라마> }
예9> { 시스템_를_개발하 20.5 <문어체-일반> 40 <문어체-뉴스-스포츠> 32 <구어체-드라마> }
다음으로, 상기 패턴기반 번역문 생성부(109)에서는 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)을 기반으로 각 용언구 단위의 번역 패턴을 이용하여 자막 문장에 대한 패턴기반의 번역문을 생성하는데, 상기 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)의 일례는 다음과 같다.
[ 분야별 용언구 번역 패턴 사전 ]
예10) { 용기 courage^감정 72 use_of_an_instrument^그릇 17 <문어체-일반> use_of_an_instrument^그릇 74 courage^감정 0 <문어체-과학> }
[ 어휘/의미 문맥 사전 ]
예11) { 용기-를-갖 courage^감정 3 }
예12) { 용기-를-냉각하 use_of_an_instrument^그릇 2 }
다음으로, 상기 번역문 합성부(110)에서는 상기 패턴기반 번역문 생성부(109)로부터 자막 문장에 대한 번역문이 생성되면, 상기 입력단자(IN)로부터 입력된 방송신호와 상기 번역문을 합성하여 출력한다.
이 때, 방송자막의 경우는 영상/오디오/자막 텍스트/번역된 자막텍스트를 합성하고, USB 포터를 통해 입력된 텍스트 문서는 번역된 텍스트 문서와 함께 출력된다.
다음으로, 상기 번역문 합성부(110)로부터 출력된 방송신호는 출력단자(OUT) 를 통해 접속되어 있는 외부 미디어장치로 출력된다.
상기한 바와 같이, 본 발명의 분야 적응형 휴대용 방송자막 기계번역 장치는 어떤 미디어장치에도 독립적으로 접속 가능하도록 구성되어 있을 뿐만 아니라, 자막 문장의 문체 및 분야를 자동으로 인식하여 그 문체와 분야에 특화된 번역 지식 및 번역 모듈을 재구성하여 최적의 번역환경을 제공해 줄 수 있으며, 이러한 동적인 번역 자원의 활용에 따라 기술 매뉴얼, 특허문서, 방송자막, 일반 텍스트 문장 등 모든 문체와 분야에 대하여 고품질의 특화 번역이 가능하다.
이하, 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 분야 적응형 휴대용 방송자막 기계번역 방법을 나타낸 흐름도이다.
설명의 편의상 본 발명의 휴대용 방송자막 기계번역 장치가 입출력 연결 단자를 통해 인터넷 연결 PC, 위성방송 TV의 셋탑박스, 케이블 TV, 비디오 플레이어, USB 디스크 등 다른 미디어장치에 연결되어 있는 것을 가정하여 설명한다.
먼저 다른 미디어장치로부터 방송신호가 입력되면(S210), 입력된 방송신호에서 자막 문장을 추출한다(S220).
다음으로, 상기 추출된 자막 문장에 대하여 형태소 분석을 수행하여 형태소 분석 결과로부터 명사 또는 용언들에 해당하는 핵심어들을 추출한다(S230).
다음으로, 상기 추출된 핵심어들과 기구축된 용언어미/문체 통계 사전(301) 및 어휘/분야 통계 사전(302)을 기반으로 자막 문장의 문체 및 분야를 인식하는 데(S240), 문체 인식 및 분야 인식 방법에 대하여는 상기 도 1과 관련된 설명에서 자세히 설명하였으므로 이에 대해 간략하게 설명하면 다음과 같다.
우선 상기 용언어미/문체 통계 사전(301)을 기반으로 입력된 자막 문장의 어미가 구어체에서 발생하는 빈도가 높은지 문어체에서 발생하는 빈도가 높은지를 비교하여 자막 문장이 문어체인지 구어체인지를 판단하며, 그 다음, 상기 기구축된 어휘/분야 통계 사전(302)을 기반으로 상기 추출된 핵심어의 분야별 발생빈도를 비교하여 그 발생빈도에 따라 자막 문장의 분야를 판단한다.
본 실시예에 있어서, 문체는 크게 구어체와 문어체 2가지로 구분하며, 구어체인 경우 5개 분야(드라마, 토크쇼, 연예오락, 인터뷰, 기타)로 구분한다. 또한, 문어체인 경우 3개의 분야(뉴스, 교양시사, 기타)로 구분하며, 뉴스 분야의 경우 10개 분야(정치, 경제, 사회, 생활/문화, 국제, 과학, 연예, 스포츠, 날씨, 기타)로 세분화하여 구분한다.
한편, 상기와 같이 자막 문장의 문체 및 분야가 인식되면, 상기 인식된 문체 및 분야 정보를 기반으로 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩하는데(S250), 번역 지식의 동적 구성에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 자막 문장의 문체가 구어체인 경우 구어체 형태소 분석 사전(303)을, 문어체인 경우 문어체 형태소 분석 사전(304)을 메인 메모리의 동적 번역 DB(206)로 로딩시킨다.
그 다음, 상기 인식된 분야 정보를 이용하여 기분석 분야별 문맥 사전(305) 을 동적 번역 DB(206)에 로딩시킨다.
그 다음, 사용자 정보를 이용하여 그 사용자만이 전문적으로 사용하는 사용자 사전(306)을 동적 번역 DB(206)에 로딩시킨다.
그 다음, 상기 인식된 분야 정보를 이용하여 분야별 전문용어 대역사전(307) 및 분야별 어휘/의미 공기사전(308)을 동적 번역 DB(206)에 로딩시킨다.
즉, 상기와 같이 자막 문장의 문체 및 분야에 적합하게 번역 지식을 동적으로 구성하여 동적 번역 DB(206)에 로딩함으로써, 공통 번역 지식을 사용하는 종래의 기계번역 시스템에 비하여 번역 품질을 향상시킬 수 있게 된다.
다음으로, 상기 인식된 문체 및 분야 정보를 기반으로 번역 모듈을 동적으로 구성하여 번역을 수행하는데(S260), 이에 대하여 더 자세히 설명하면 다음과 같다.
우선, 상기 인식된 문체 및 분야에 맞게 특화된 휴리스틱 규칙을 기반으로 적응적인 형태소 분석을 수행하여 입력된 자막 문장을 형태소 단위로 토큰화한다(S261).
이 때, 상기 형태소 분석시 메인 메모리에 기본적으로 로딩되어 있는 공통 형태소 분석 사전(201) 및 기분석 형태소 통계 사전(204)과, 메인 메모리의 동적 번역 DB(206)에 로딩되어 있는 구어체 형태소 분석 사전(303), 문어체 형태소 분석 사전(304), 기분석 분야별 문맥 사전(305), 사용자 사전(306), 분야별 전문용어 대역사전(307), 및 분야별 어휘/의미 공기사전(308)을 기반으로 형태소 분석을 수행하는 것이 바람직하며, 상기 휴리스틱 규칙은 각 문체 및 분야에 적합한 축약형 처리, 용언 어미 처리 등에 관한 규칙을 포함하는 것이 바람직하다.
다음으로, 자막 문장이 형태소 단위로 토큰화되면, 메인 메모리에 로딩되어 있는 문형 패턴 사전(203)을 기반으로 형태소 단위의 토큰열에 대한 문형 패턴을 적용하여 문장 단위의 번역을 수행한다(S263).
여기에서, 상기 문형 패턴 사전(203)에는 각 문체 및 분야별로 자주 등장하는 관용적인 번역 패턴이 저장되어 있으며, 이에 따라 기술 매뉴얼, 특허문서, 방송 뉴스, 구어체에서 자주 등장하는 관용적인 표현에 대한 고품질의 번역이 가능하다.
다음으로, 상기 형태소 단위의 토큰열에 적용 가능한 문형 패턴이 상기 문형 패턴 사전(203)에 존재하지 않는 경우, 용언을 기반으로 자막 문장을 구문 분석하여 파스트리를 생성한다(S265).
이 때, 자막 문장의 구문 파스트리 생성시 구조분석용 분야별 어휘 공기사전(310)을 기반으로 각 형태소 노드들과의 의존관계를 결정하는 것이 바람직하다.
다음으로, 용언구 단위의 파스트리가 형성되면, 분야별 용언구 번역 패턴 사전(309) 및 어휘/의미 문맥 사전(205)을 기반으로 각 용언구 단위의 번역 패턴을 이용하여 목표언어로 번역을 수행한다(S267).
다음으로, 자막 문장에 대한 번역문이 생성되면, 상기 번역문과 입력된 방송신호를 합성하여 접속되어 있는 외부 미디어장치로 출력한다(S270).
이 때, 방송자막의 경우는 영상/오디오/자막 텍스트/번역된 자막텍스트를 합성하고, USB 포터를 통해 입력된 텍스트 문서는 번역된 텍스트 문서와 함께 출력된다.
상기한 바와 같이, 본 발명의 분야 적응형 휴대용 방송자막 기계번역 방법에 따르면, 방송자막의 문체 및 분야를 자동으로 인식하고 이에 적합한 특화된 번역 모듈 및 번역 지식을 동적으로 구성하여 해당 문장에 적합한 최적의 번역자원으로 자동번역을 수행할 수 있으므로, 다양한 전문분야에 대해서 고품질의 특화 번역이 가능하게 되는 효과가 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.