KR100636386B1

KR100636386B1 - 실시간 비디오 음성 더빙 장치 및 그 방법

Info

Publication number: KR100636386B1
Application number: KR1020050104857A
Authority: KR
Inventors: 양일식; 김명규; 손지연; 박준석
Original assignee: 한국전자통신연구원
Priority date: 2005-11-03
Filing date: 2005-11-03
Publication date: 2006-10-19

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 실시간 비디오 음성 더빙 장치 및 그 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은 콘텐츠에 포함된 자막을 음성으로 변환하고, 동영상의 원 음성의 분석을 통해 획득한 음성의 특징을 변환된 음성에 반영하여, 정교한 합성 음성을 출력함으로써 실시간으로 동영상에 음성을 더빙하기 위한, 실시간 비디오 음성 더빙 장치 및 그 방법을 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은 실시간 비디오 음성 더빙 장치에 있어서, 동영상의 음향을 입력받아 상기 입력된 음향을 효과음, 배경음, 화자 음성으로 각각 분리하고 상기 화자 음성을 분석하여 음성의 특징을 추출하기 위한 음성 분석 모듈; 상기 동영상의 자막 데이터를 입력받아 상기 입력된 자막 데이터를 분석하여 타이밍 정보에 따라 자막 텍스트 출력하기 위한 자막 분석 모듈; 상기 자막 분석 모듈로부터 전달된 자막 텍스트를 음성으로 변환하고, 상기 변환된 음성에 상기 음성 분석 모듈로부터 입력된 음성의 특징을 반영하여 합성 음성을 출력하기 위한 음성 합성 모듈; 및 상기 음성 합성 모듈로부터 합성 음성을 입력받고, 상기 음성 분석 모듈로부터 화자의 음성을 입력받아 사용자의 선택 신호에 따라 화자의 음성 및/또는 합성 음성을 선택하여 출력하기 위한 음성 출력 모듈을 포함함.

4. 발명의 중요한 용도

본 발명은 비디오 재생기 등에 이용됨.

동영상, 재생, 자막, 음성, 변환, 실시간, 음성 더빙

Description

실시간 비디오 음성 더빙 장치 및 그 방법{A Real Time Movie Dubbing System and its Method}

도 1은 본 발명에 따른 실시간 비디오 음성 더빙 장치의 일실시예 구성도,

도 2는 본 발명에 따른 실시간 비디오 음성 더빙 방법에 대한 일실시예 처리 흐름도이다.

* 도면의 주요 부분에 대한 부호의 설명 *

100 : 음성 분석 모듈 110 : 음향 입력부

120 : 음향 분리기 130 : 기타 채널부

140 : 음성 채널부 150 : 특징 추출부

200 : 자막 분석 모듈 210 : 자막 입력부

220 : 자막 디코더 300 : 음성 합성 모듈

310 : 음성 DB 320 : 음성 합성기

400 : 음성 출력 모듈 410 : 음성 데이터 선택부

420 : 스피커 430 : 음성 선택 스위치

본 발명은 동영상의 자막과 음성 데이터를 이용하여 자동으로 실시간 더빙하는 비디오 음성 더빙 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 동영상 콘텐츠에 포함된 자막을 추출하여 TTS(Text To Speech) 기능을 이용해 음성으로 출력하는데 있어, 동영상의 원 음성의 특징을 추출하여 정교한 합성 음성을 출력하는 실시간 비디오 음성 더빙 장치 및 그 방법에 관한 것이다.

종래에는 비디오와 같은 동영상 재생을 위한 장치는 자막 파일을 읽어 들여 이를 텍스트 형태로 디스플레이에 영상과 함께 출력시키거나, 미리 모국어로 더빙된 음성을 출력한다. 외화와 같은 동영상을 감상할 때, 자막을 통해 정보를 얻는 것은 시청자에게 동영상에 집중할 수 없도록 하는 문제점이 있다. 더욱이 노약자나 어린이와 같이, 독해 능력이 떨어지는 시청자는 영화 감상 자체가 어렵다. 또한, 미리 모국어로 더빙된 동영상을 제작하기 위해서는 많은 비용이 요구된다.

대한민국 공개특허 제1999-19203호(발명의 명칭: 텔레비전의 자막신호 음성변환장치)에는 텔레비전 방송으로부터 수신받은 자막 신호의 문자 패턴을 인식하고, 그 인식된 문자 패턴에 대응하는 음성 데이터를 음성 출력할 수 있도록 하는 텔레비전의 자막신호 음성 변환 장치가 개시되어 있다.

상기 종래의 음성 변환 장치는 영상처리수단으로부터 자막신호를 추출하여 신호 처리하는 자막추출 처리수단과, 상기 추출된 자막신호의 문자 폰트를 검지하 기 위한 신호 처리를 행하는 자막 폰트 검지 처리수단과, 상기 자막 폰트 검지 처리수단에 의해 신호 처리된 자막신호의 문자 폰트에 대한 문자 패턴을 인식하고, 그 인식된 문자 패턴에 대응하는 음성 데이터를 상기 음성 처리 수단으로 음성 재생 가능하게 출력하는 자막 음성 변환 처리수단과, 상기 텔레비전 방송으로부터 수신되는 자막신호를 음성변환하여 출력시키기 위한 자막음성 출력모드를 키 설정하는 기능 설정수단과, 상기 기능설정수단에 의해 자막음성출력모드가 설정되면 상기 자막 폰트 검지 처리수단의 자막 폰트 검지처리 동작과 상기 자막음성 변환 처리수단의 자막 폰트에 대한 음성 변환 동작을 제어하는 제어수단을 구비한다.

하지만, 이와 같은 종래의 자막신호 음성 변환 장치는 단순히 자막을 추출하여 음성으로 변환 출력하기 때문에, 동영상의 화자의 원 음성과 일치하지 않아 비디오에 조화된 음성이 출력될 수 없는 한계가 있다. 이는 결국 동영상과 음성이 별도로 출력되는 것과 같은 현상을 발생시키는 문제점이 있다.

한편, 대한민국 공개특허 제2004-103812호에는 영상 콘텐츠에 포함된 자막 정보를 이용한 대화형 학습장치 및 그 제어방법이 개시되어 있다. 상기 종래의 대화형 학습장치는 자막정보가 포함된 영상 콘텐츠를 재생하고 전송하는 영상 콘텐츠 수신 및 재생부와, 상기 영상 콘텐츠 수신 및 재생부로부터 자막정보가 포함된 영상 콘텐츠를 수신하여 자막정보만을 분리 독출한 후 전송하는 신호 발생부와, 상기 분리 독출된 자막정보를 무선 방식으로 상기 신호 발생부로부터 수신하여 음성으로 출력하거나, 기타 기능을 수행하는 신호 수신 및 동작부를 포함하되, 상기 신호 수신 및 동작부는, 자막정보를 수신하는 수신기와, 정해진 동작이나 기능을 수행하는 자막과 관련된 정보, 음성 합성을 위한 음절 정보 및 제어기의 동작에 필요한 데이터를 저장하는 메모리와, 전원 공급 및 동작 모드를 사용자가 설정하도록 하는 조작용 스위치와, 자막에 대응되는 음성을 합성하는 음성 합성기와, 합성된 음성 및 기타 음향을 출력하는 스피커와, 자막 정보에 대응되는 동작이나 기능을 수행하는 액츄에이터와, 수신기에 의해 수신된 자막정보를 이용하여 음성을 합성하도록 하고, 자막정보가 정해진 동작이나 기능을 수행하는 자막정보인 경우에 자막정보에 상응하는 동작이나 기능 제어신호를 생성하는 제어기를 포함한다.

하지만, 상기와 같은 종래의 대화형 학습장치도 단순히 자막을 추출하여 음성으로 출력하기 때문에, 동영상과 출력되는 음성이 불일치할 수 있는 문제점을 안고 있다.

따라서 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 제안된 것으로, 콘텐츠에 포함된 자막을 음성으로 변환하고, 동영상의 원 음성의 분석을 통해 획득한 음성의 특징을 변환된 음성에 반영하여, 정교한 합성 음성을 출력함으로써 실시간으로 동영상에 음성을 더빙하기 위한, 실시간 비디오 음성 더빙 장치 및 그 방법을 제공하는데 그 목적이 있다.

즉, 본 발명은 동영상 콘텐츠로부터 자막 정보를 입력받아 음성으로 변환하고, 원 음성으로부터 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계뿐만 아니라 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 추출하 여 변환된 음성에 반영하여 출력함으로써, 동영상에 조화된 합성 음성을 출력할 수 있는 실시간 비디오 음성 더빙 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.

상기 목적을 달성하기 위한 본 발명의 장치는, 실시간 비디오 음성 더빙 장치에 있어서, 동영상의 음향을 입력받아 상기 입력된 음향을 효과음, 배경음, 화자 음성으로 각각 분리하고 상기 화자 음성을 분석하여 음성의 특징을 추출하기 위한 음성 분석 모듈; 상기 동영상의 자막 데이터를 입력받아 상기 입력된 자막 데이터를 분석하여 타이밍 정보에 따라 자막 텍스트 출력하기 위한 자막 분석 모듈; 상기 자막 분석 모듈로부터 전달된 자막 텍스트를 음성으로 변환하고, 상기 변환된 음성에 상기 음성 분석 모듈로부터 입력된 음성의 특징을 반영하여 합성 음성을 출력하기 위한 음성 합성 모듈; 및 상기 음성 합성 모듈로부터 합성 음성을 입력받고, 상기 음성 분석 모듈로부터 화자의 음성을 입력받아 사용자의 선택 신호에 따라 화자의 음성 및/또는 합성 음성을 선택하여 출력하기 위한 음성 출력 모듈을 포함한다.

한편, 상기 목적을 달성하기 위한 본 발명의 방법은, 실시간 비디오 음성 더빙 방법에 있어서, 동영상의 자막 데이터를 파싱하여 자막 텍스트를 추출하고, 헤 더 정보에 포함된 타이밍 정보에 따라 상기 자막 텍스트를 출력하는 단계; 동영상의 음향을 배경음, 효과음과 화자 음성으로 각각 분리한 후, 상기 화자 음성을 분석하여 음성의 특징으로 추출하는 단계; 상기 추출한 자막 텍스트를 음성으로 변환하고, 상기 추출한 음성의 특징을 상기 변환된 음성에 반영하여 합성 음성을 출력하는 단계; 및 화자의 음성을 이용해 상기 합성 음성의 동기를 보정한 후, 배경음, 효과음과 함께 스피커를 통해 출력하는 출력 단계를 포함한다.

상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다.

도 1은 본 발명에 따른 실시간 비디오 음성 더빙 장치의 일실시예 구성도로서, 도면에서 100은 음성 분석 모듈, 200은 자막 분석 모듈, 300은 음성 합성 모듈, 400은 음성 출력 모듈을 각각 나타낸다.

상기 음성 분석 모듈(100)은 동영상 콘텐츠의 음향 신호를 입력받는 음향 입력부(110)와, 상기 음향 입력부(110)로부터 입력된 동영상의 음향을 오디오 알고리즘을 이용해 배경음, 효과음, 화자 음성으로 분리하는 음향 분리기(120)와, 상기 음향 분리기(120)로부터 배경음, 효과음을 입력받아 출력하는 기타 채널부(130)와, 상기 음향 분리기(120)로부터 화자 음성을 입력받아 출력하는 음성 채널부(140)와, 상기 음성 채널부(140)로부터 입력된 화자 음성을 분석하여 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 추출하는 특징 추출부(150)를 포함한다.

상기 자막 분석 모듈(200)은 동영상 콘텐츠의 자막 데이터를 입력받는 자막 입력부(210)와, 상기 자막 입력부(210)를 통해 입력된 자막 데이터를 파서를 이용해 파싱한 후, 자막 텍스트를 추출하며, 자막 데이터의 헤더를 인식하여, 상기 헤더 정보로부터 타이밍 정보를 추출한 후, 상기 추출된 타이밍 정보에 따라 자막 텍스트를 출력하는 자막 디코더(220)를 포함한다.

상기 음성 합성 모듈(300)은 텍스트를 음성으로 변환하는 음성 합성 모듈로서, 성별, 연령별 다양한 특징들로 분류된 음성을 저장하고 있는 음성 데이터베이스(310)와, 상기 음성 데이터베이스(DB)(310)를 이용해 상기 자막 디코더(220)로부터 입력되는 자막 텍스트를 음성으로 변환하고, 상기 변환된 음성에 상기 특징 추출부(150)로부터 입력된 음성의 특징을 상기 변환된 음성에 반영하여 출력하는 음성 합성기(320)를 포함한다.

상기 음성 출력 모듈(400)은 상기 기타 채널부(130)로부터 배경음, 효과음을 입력받고, 상기 음성 채널부(140)로부터 화자의 원 음성을 입력받으며, 상기 음성 합성기(320)로부터 변환된 음성을 입력받아, 상기 원 음성을 이용해 변환된 음성의 동기를 보정하여, 사용자의 조작에 의해 음성 선택 스위치(430)로부터 입력된 음성 선택 신호에 의해 선택된 화자의 원 음성 및/또는 변환된 합성 음성과 효과음, 배 경음을 스피커(420)를 통해 출력하는 음성 데이터 선택부(410)를 포함한다.

이상과 같은 구성을 갖는 본 발명에 따른 실시간 비디오 음성 더빙 장치의 상세 동작을 도 1을 참조하여 보다 구체적으로 살펴본다.

상기 음성 분석 모듈(100)은 동영상의 음향으로부터 배경음, 효과음, 화자의 음성을 분리하고, 화자의 음성의 특징을 추출하기 위한 모듈이다. 음성 분석 모듈(100)의 음향 입력기(110)는 동영상 콘텐츠의 음향 신호를 입력받아 음향 분리기(120)로 전달한다.

그리고 음향 분리기(120)는 음향 입력부(110)로부터 입력된 음향 신호로부터 오디오 알고리즘을 이용해 효과음, 배경음, 화자 음성으로 각각 분리한다. 음향 분리기(120)는 분리된 음향 중 효과음, 배경음 등 화자의 음성을 제외한 음향을 기타 채널부(130)로 전달한다.

그리고 기타 채널부(130)는 음향 분리기(120)로부터 입력된 효과음과 배경음을 음성 데이터 선택부(410)로 전달하여 음성과 함께 출력되도록 한다. 물론 기타 채널부(130)는 효과음 배경음을 음성 데이터 선택부(410)로 전달하지 않고, 스피커(420)로 바로 출력할 수도 있다. 기타 채널부(130)는 효과음과 배경음을 스피커(420)로 바로 출력하는 경우에는 음성 데이터 선택부(410)로부터 출력되는 음성과 조화되게 출력해야 한다.

그리고 음성 채널부(140)는 음향 분리기(120)로부터 입력된 화자의 음성을 입력받아 특징 추출부(150)로 전달한다.

그리고 특징 추출부(150)는 음성 채널부(140)로부터 입력된 화자의 음성을 분석하여 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 추출한다. 이와 같은 특징 추출부(150)는 기 공지된 기술을 통해 용이하게 구성할 수 있다.

상기 자막 분석 모듈(200)은 동영상과 함께 제공되는 자막 데이터를 분석하여, 자막의 타이밍 정보와 자막 텍스트를 추출하여 상기 자막 텍스트를 상기 타이밍 정보에 따라 출력하는 모듈이다. 자막 분석 모듈(200)의 자막 입력부(210)는 동영상 콘텐츠의 자막 데이터를 입력받아 자막 디코더(220)로 전달한다. 자막 디코더(220)는 상기 자막 입력부(210)로부터 입력된 자막 데이터를 파서를 이용해 파싱한 후, 자막 텍스트를 추출하고, 자막 데이터의 헤더 정보를 인식해, 헤더 정보로부터 타이밍 정보를 추출하여, 상기 자막 텍스트를 타이밍 정보에 따라 음성 합성기(320)로 출력한다. 상기 자막 디코더(220)는 기 공지된 기술로부터 당업자에게 있어 용이하게 구성할 수 있다.

상기 음성 합성 모듈(300)은 자막 텍스트를 음성으로 변환하는 기능을 수행하는 모듈이다. 음성 DB(310)에는 성별, 연령별로 다양한 특징들로 분류된 음성이 저장된다. 음성 합성기(320)는 상기 자막 디코더(220)로부터 입력되는 자막 텍스트에 대응되는 음성을 음성 DB(310)로부터 획득한 후, 상기 특징 추출부(150)로부터 입력된 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 상기 음성 DB(310)로부터 획득한 음성에 반영하여 음성 데이터 선택부(410)로 전달한다.

상기 음성 합성 모듈(300)은 TTS(Text To Speech) 기술을 이용하는데, TTS 기술은 문자정보 또는 기호를 인간의 음성으로 변환하는 기술이며, 컴퓨터와 같은 기계장치를 통하여 여러 가지의 기본 음성패턴을 조합하여 인간의 목소리에 가까운 음성을 만들어 내는 기술이다.

일반적인 TTS 기술은 크게 언어학적 처리단계, 운율 처리 단계, 음성 신호 처리 단계로 구성된다. 언어학적 처리단계는 숫자, 약어, 기호 사전 등을 참조하여 전처리를 수행하고 품사 사전을 통해 문장 구조를 분석한다. 또한 발음 표기와 관련하여 예외 처리를 수행한다. 운율 처리 단계는 상기 언어학적 처리단계에서 수행된 문장 구조 분석의 결과를 이용하여 음소의 강약, 액센트, 고저 장단, 억양, 지속 시간, 휴지 기간, 경계를 결정한다. 그리고 음성 신호 처리 단계는 음성 데이터베이스의 음성 데이터를 추출하여 운율 처리된 특징들을 반영하여 음성 신호를 생성한다.

그런데, 이와 같은 일반적인 TTS 기술에서 문장 구조 분석을 통해 얻은 음성의 특징은 비디오의 화자의 원 음성의 특징을 정확히 반영하지 못한다. 따라서 본 발명에서는 문장 구조 분석을 통해 획득한 음성 특징이 아니라 화자의 음성을 분석하여 획득한 음성 특징을 반영한다.

상기 음성 출력 모듈(400)은 기타 채널부(130)로부터 효과음과 배경음을 입력받고, 음성 채널부(140)로부터 화자의 원 음성을 입력받고, 음성 합성기(320)로부터 변환된 음성을 입력받아, 사용자의 조작에 의해 음성 선택 스위치(430)로부터 입력된 선택 신호에 따라 화자의 원 음성 및/또는 변환된 음성과 효과음 배경음을 스피커(420)를 통해 출력한다.

그리고 음성 데이터 선택부(410)는 기타 채널부(130)로부터 배경음, 효과음을 입력받고, 음성 채널부(140)로부터 화자의 원 음성을 입력받으며, 음성 합성기(320)로부터 변환된 음성을 입력받아, 상기 원 음성을 이용해 변환된 음성의 동기를 보정하여, 사용자의 조작에 의해 음성 선택 스위치(430)로부터 입력된 음성 선택 신호에 의해 선택된 화자의 원 음성 및/또는 변환된 합성 음성과 효과음, 배경음을 스피커(420)를 통해 출력한다.

그리고 음성 선택 스위치(430)는 리모콘이나 기타 입력 장치가 가능하며, 사용자가 원 음성 및/또는 변환된 합성 음성을 선택하는데 이용된다.

먼저, 동영상 콘텐츠로부터 자막 데이터와 음향이 각각 입력되면(10), 입력된 자막 데이터와 음향에 대해 각각 분석이 이루어진다.

여기서, 음향에 대한 분석 과정을 살펴보면, 동영상 콘텐츠의 음향 신호를 입력받으면, 입력된 음향을 배경음, 효과음, 화자 음성으로 각각 분리한다. 그리고 화자 음성에 대해 분석하여 음성의 특징을 추출한다(20). 즉, 화자 음성을 분석하여 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형 등의 특징을 추출한다.

다음으로, 자막 데이터의 분석 과정을 살펴보면, 입력된 자막 데이터에 대해 파서를 이용해 파싱을 수행하여, 자막 텍스트를 생성하고, 자막 데이터의 헤더 정보에 포함된 시간 정보를 통해 타이밍 정보를 추출한다. 그런 다음 자막 텍스트를 상기 타이밍 정보에 따라 출력한다(30).

이후, 타이밍 정보에 동기되어 출력되는 자막 텍스트를 TTS 모듈을 이용해 음성으로 변환하는데, 음성으로 변환하는 과정에서 음성 분석을 통해 획득한 음성의 특징을 반영한다(40). 즉, 타이밍 정보에 동기되어 출력되는 자막 텍스트를 음성 DB를 이용해 음성으로 변환하고, 상기 변환된 음성에 추출한 음성의 특징인 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형을 반영하여 음성을 출력한다.

상기 자막을 음성으로 변환한 합성 음성은 원 음성에 따라 동기를 보정한 후에 배경음, 효과음과 함께 스피커를 통해 출력된다(50).

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 롬, 램, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상기와 같은 본 발명은, 자막을 음성으로 변환하여 출력함에 있어, 자막을 음성으로 변환한 합성 음성에 원 음성의 특징인 음소의 강약, 액센트, 고저 장단, 억양, 지속시간, 휴지기간, 경계, 평균 피치, 피치 곡선, 발화 속도, 발성 유형을 반영하여 실시간으로 출력함으로써, 자막을 통하지 않고 음성으로 영화를 감상할 수 있어 영상에 집중할 수 있으며, 작은 영상 출력 장치를 갖는 단말기에서도 동영상을 감상할 수 있다.

Claims

실시간 비디오 음성 더빙 장치에 있어서,

동영상의 음향을 입력받아 상기 입력된 음향을 효과음, 배경음, 화자 음성으로 각각 분리하고 상기 화자 음성을 분석하여 음성의 특징을 추출하기 위한 음성 분석 모듈;

상기 동영상의 자막 데이터를 입력받아 상기 입력된 자막 데이터를 분석하여 타이밍 정보에 따라 자막 텍스트 출력하기 위한 자막 분석 모듈;

상기 자막 분석 모듈로부터 전달된 자막 텍스트를 음성으로 변환하고, 상기 변환된 음성에 상기 음성 분석 모듈로부터 입력된 음성의 특징을 반영하여 합성 음성을 출력하기 위한 음성 합성 모듈; 및

상기 음성 합성 모듈로부터 합성 음성을 입력받고, 상기 음성 분석 모듈로부터 화자의 음성을 입력받아 사용자의 선택 신호에 따라 화자의 음성 및/또는 합성 음성을 선택하여 출력하기 위한 음성 출력 모듈

을 포함하는 실시간 비디오 음성 더빙 장치.
제 1 항에 있어서,

상기 음성 분석 모듈은,

상기 동영상 콘텐츠의 음향 신호를 입력받기 위한 음향 입력 수단;

상기 음향 입력 수단으로부터 전달된 음향을 배경음, 효과음, 화자 음성으로 각각 분리하기 위한 음향 분리 수단;

상기 음향 분리 수단으로부터 입력된 배경음, 효과음을 출력하기 위한 기타 채널 수단;

상기 음향 분리 수단으로부터 입력된 화자 음성을 출력하기 위한 음성 채널 수단; 및

상기 음성 채널 수단으로부터 입력된 화자 음성을 분석하여 음성의 특징을 추출하기 위한 특징 추출 수단

을 포함하는 실시간 비디오 음성 더빙 장치.
제 2 항에 있어서,

상기 자막 분석 모듈은,

상기 동영상 콘텐츠의 자막 데이터를 입력받기 위한 자막 입력 수단; 및

상기 자막 입력 수단을 통해 입력된 자막 데이터를 파서를 이용해 파싱한 후, 자막 텍스트를 추출하며, 자막 데이터의 헤더 정보로부터 타이밍 정보를 추출한 후, 상기 추출된 타이밍 정보에 따라 자막 텍스트를 출력하기 위한 자막 디코딩 수단

을 포함하는 실시간 비디오 음성 더빙 장치.
제 3 항에 있어서,

상기 음성 합성 모듈은,

텍스트에 따른 음성을 저장하고 있는 음성 데이터베이스; 및

상기 음성 데이터베이스를 이용해 상기 자막 디코딩 수단으로부터 입력되는 자막 텍스트를 음성으로 변환하고, 상기 변환된 음성에 상기 특징 추출 수단으로부터 입력된 음성의 특징을 반영하여 합성 음성을 출력하기 위한 음성 합성 수단

을 포함하는 실시간 비디오 음성 더빙 장치.
제 4 항에 있어서,

상기 음성 출력 모듈은,

상기 음성 채널 수단으로부터 화자의 음성을 입력받고, 상기 음성 합성 수단으로부터 합성 음성을 입력받아, 상기 화자의 음성을 이용해 상기 합성 음성의 동기를 보정한 후 사용자의 선택에 따라 합성 음성을 스피커를 통해 출력하는 음성 데이터 선택 수단을 포함하는 것을 특징으로 하는 실시간 비디오 음성 더빙 장치.
제 5 항에 있어서,

상기 기타 채널 수단은,

상기 음성 데이터 선택 수단으로 효과음과 배경음을 출력하고, 상기 음성 데이터 선택 수단은 상기 합성 음성과 효과음과 배경음을 함께 상기 스피커를 통해 출력하는 것을 특징으로 하는 실시간 비디오 음성 더빙 장치.
제 5 항에 있어서,

상기 기타 채널 수단은,

효과음과 배경음을 합성 음성의 출력 타이밍에 동기시켜 상기 스피커를 통해 출력하는 것을 특징으로 하는 비디오 음성 더빙 장치.
실시간 비디오 음성 더빙 방법에 있어서,

동영상의 자막 데이터를 파싱하여 자막 텍스트를 추출하고, 헤더 정보에 포함된 타이밍 정보에 따라 상기 자막 텍스트를 출력하는 단계;

동영상의 음향을 배경음, 효과음과 화자 음성으로 각각 분리한 후, 상기 화자 음성을 분석하여 음성의 특징으로 추출하는 단계;

상기 추출한 자막 텍스트를 음성으로 변환하고, 상기 추출한 음성의 특징을 상기 변환된 음성에 반영하여 합성 음성을 출력하는 단계; 및

화자의 음성을 이용해 상기 합성 음성의 동기를 보정한 후, 배경음, 효과음과 함께 스피커를 통해 출력하는 출력 단계

를 포함하는 실시간 비디오 음성 더빙 방법.
제 8 항에 있어서,

상기 출력 단계는,

사용자의 조작에 의해 입력된 선택 신호에 따라 화자의 음성 또는 합성 음성을 선택하여 출력하는 것을 특징으로 하는 실시간 비디오 음성 더빙 방법.