KR20140147401A

KR20140147401A - Tts를 이용한 화면해설방송 제작 방법 및 장치

Info

Publication number: KR20140147401A
Application number: KR1020130070577A
Authority: KR
Inventors: 임우택
Original assignee: 한국전자통신연구원
Priority date: 2013-06-19
Filing date: 2013-06-19
Publication date: 2014-12-30
Also published as: KR101907957B1

Abstract

TTS(Text To Speech)를 이용한 화면해설방송 제작 방법 및 장치를 제공한다. 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.

Description

TTS를 이용한 화면해설방송 제작 방법 및 장치{METHOD AND APPARATUS FOR PRODUCING DESCRIPTIVE VIDEO SERVICE BY USING TEXT TO SPEECH}

본 발명의 실시예들은 TTS(Text To Speech)를 이용하여 화면해설방송을 제작하는 방법 및 장치에 관한 것이다.

화면해설방송(descriptive video service)은 시각 장애인들이 TV 프로그램, 영화 등과 같은 컨텐츠에 접근할 수 있도록 해주는 서비스이다. 즉, 화면해설방송이란 화면을 볼 수 없는 시각 장애인들을 위해 자막, 배우들의 행동, 배경 등과 같은 시각 요소를 음성으로 설명함으로써 시각 장애인들이 프로그램의 내용을 이해할 수 있도록 도와주는 서비스이다. 이러한 화면해설방송은 해당 프로그램 중 대사나 효과음이 없는 부분에 전체 프로그램의 이해를 저해하지 않는 수준으로 삽입된다.

기존의 화면해설방송은 다음과 같은 절차로 제작된다. 먼저 화면해설이 필요한 프로그램이 선정되면, 전문적인 작가가 프로그램의 내용을 전달할 수 있는 화면, 배경, 배우들의 동작, 표정 등의 중요한 시각 요소들을 기반으로 화면해설 대본을 작성한다. 이렇게 작성된 화면해설 대본은 전문 성우를 통해 음성으로 녹음됨으로써 오리지널 오디오에 합성된 화면해설방송용 오디오 트랙이 만들어 진다. 이러한 합성 작업이 끝나면 해당 프로그램은 최종적으로 방송으로 송출된다. 이 과정은 전문적인 화면해설 작가가 미리 프로그램을 보면서 대본 작업을 한 이후에, 성우와 작가가 다시 프로그램을 확인하며 대사가 없는 구간에 화면해설을 녹음하는 과정을 거친다. 이는 인적, 시간적 노력이 많이 소요되며 현실적으로 화면해설방송이 보급화되는 데에 큰 제한 점으로 작용한다.

본 발명의 기술적 과제는 보다 편리하게 화면해설 대본을 작성할 수 있는 TTS를 이용한 화면해설방송 제작 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 화면해설방송의 제작을 자동화함으로써 화면해설방송을 보급화할 수 있는 화면해설방송 제작 방법 및 장치를 제공함에 있다.

본 발명의 일 양태에 따르면, 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.

일 실시예로서, 상기 묵음구간 검출부는 상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출할 수 있다.

다른 실시예로서, 상기 특징값은 상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출될 수 있다.

또 다른 실시예로서, 상기 화면해설구간 선택부는 상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택할 수 있다.

또 다른 실시예로서, 상기 화면해설 삽입부는 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈 및 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈을 포함할 수 있다.

또 다른 실시예로서, 상기 화면해설 삽입부는 상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함할 수 있다.

본 발명의 다른 양태에 따르면, 화면해설방송 송출 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부, TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부 및 상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부를 포함할 수 있다.

본 발명의 또 다른 양태에 따르면, 화면해설방송 제작 장치가 화면해설방송을 제작하는 방법은 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계를 포함할 수 있다.

컨텐츠의 오디오 신호에서 묵음구간을 추출함으로써 제작자가 보다 편리하게 화면해설 대본을 작성할 수 있다.

TTS를 활용하여 화면해설방송을 제작함으로써 기존의 화면해설방송 제작의 제한 점인 인적, 시간적 소요를 보완하여 화면해설 방송의 보급화를 가능케 할 수 있다.

도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.

본 발명에 따른 화면해설방송 제작 장치(100)는 화면해설이 삽입되어야 할 구간을 검출 하기 위하여 먼저 묵음구간(silence period)을 검출하고, 검출된 묵음구간 중 화면해설을 삽입하고자 하는 구간을 선택하여 TTS(Text To Speech) 합성을 통해 화면해설 방송을 제작한다. 여기서, 묵음구간에는 소리가 없는 구간뿐만 아니라, 대사가 없는 구간 또는 화면해설 삽입 시 해당 구간의 소리가 화면해설 청취에 방해가 되지 않는 구간까지 포함할 수 있다.

구체적으로 도 1을 참조하면, 본 발명에 따른 화면해설방송 제작 장치(100)는 묵음구간 검출부(110), 화면해설구간 선택부(120) 및 화면해설 삽입부(130)를 포함한다.

묵음구간 검출부(110)는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(110)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이때 사용되는 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등의 여러 방법을 통해 추출될 수 있다. 묵음구간 검출부(110)는 상술한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.

화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설이 삽입될 구간(화면해설구간)을 선택한다. 묵음구간 검출부(110)에 의해 검출된 묵음구간들 중에는 묵음구간의 길이가 충분히 길지 못하거나 기타 다른 이유로 화면해설의 삽입이 어려운 묵음구간들이 존재한다. 따라서, 화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.

화면해설 삽입부(130)는 TTS를 이용하여 화면해설구간 선택부(120)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(130)는 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하는 TTS 모듈(131), 상기 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(120)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입하는 합성 모듈(132) 및 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(131)에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈(131)에 의해 변환된 음성의 음량을 조절하는 음량 조절 모듈을 포함할 수 있다. 한편, 화면해설 삽입부(130)는 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간에 합성 시 여러 가지 후처리 과정을 수행하는 후처리 모듈(미도시)을 포함할 수도 있다. 제작자는 이와 같은 과정을 통해 합성된 화면해설방송을 확인하여 수정할 수 있다.

도 2는 본 발명의 일실시예에 있어서 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다. 도 2에는 일 예로, 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간을 포함하는 오디오 신호의 프레임 구조가 도시되어 있다.

도 2에 도시된 것과 같이 묵음구간 검출부(110)에 의해 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간이 검출되면, 화면해설구간 선택부(120)는 먼저 각 묵음구간의 길이가 기 설정된 길이 이상인지를 판단한다. 예를 들어, 제1 묵음구간과 제3 묵음구간의 길이는 기 설정된 길이 이상이지만 제2 묵음구간의 길이는 기 설정된 길이 이하일 경우, 화면해설구간 선택부(120)는 1차적으로 제1 묵음구간과 제3 묵음구간만을 화면해설구간으로 선택하고, 제2 묵음구간은 화면해설구간에서 제외시킴으로써 화면해설구간으로 사용할 묵음구간을 선별할 수 있다. 이 때, 화면해설구간 선택부(120)는 1차적으로 선별된 묵음구간 중 2차적으로 제작자에 의해 선별된 묵음구간을 최종적으로 화면해설구간으로 선택할 수도 있다.

한편, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 길 경우 제1 묵음구간을 화면해설구간에서 제외시키고 제3 묵음구간에 해당 화면해설을 삽입하거나, 상기 화면해설이 제1 묵음구간에 삽입될 수 있도록 TTS의 음성의 피치를 조절할 수 있다. 또한, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 조금 길 경우에는 TTS 시작점을 조절함으로써 제1 묵음구간에 화면해설 삽입 시 어색하지 않는 수준으로 화면해설을 삽입할 수도 있다.

도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.

도 3에 도시된 것과 같이, 본 발명에 따른 화면해설방송 송출 장치(300)는 묵음구간 검출부(310), 화면해설구간 선택부(320), 화면해설 삽입부(330) 및 화면해설방송 송출부(340)를 포함할 수 있다.

묵음구간 검출부(310)는 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(310)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이 때, 묵음구간 검출부(310)는 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 오디오 신호로부터 특징값을 추출할 수 있으며, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 이용하여 오디오 신호로부터 특징값을 추출할 수도 있다. 묵음구간 검출부(310)는 다양한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.

화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설이 삽입될 묵음구간을 선택한다. 일 예로, 화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.

화면해설 삽입부(330)는 TTS를 이용하여 화면해설구간 선택부(320)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(330)는 텍스트를 음성으로 변환하는 TTS 모듈(331)을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하고, 합성 모듈(332)을 통해 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(320)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입할 수 있다. 이 때, 화면해설 삽입부(330)는 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(331)에 의해 변환된 음성의 음량을 비교하고 비교 결과를 기초로 음량 조절 모듈(333)을 이용하여 TTS 모듈(331)에 의해 변환된 음성의 음량을 조절할 수도 있다.

화면해설방송 송출부(340)는 상술한 과정을 통해 화면해설이 삽입된 컨텐츠 즉, 화면해설방송을 송출한다.

도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다. 이하, 도 4를 참조하여 본 발명에 따른 화면해설방송 제작 장치가 화면해설방송을 제작하는 과정에 대해 설명한다.

본 발명에 따른 화면해설방송 제작 장치는 컨텐츠가 입력되면, 입력된 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다(410). 이를 위하여 화면해설방송 제작 장치는 상기 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 상기 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 추출되거나, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 통해 추출될 수 있다.

오디오 신호에서 묵음구간이 검출되면, 화면해설방송 제작 장치는 각 묵음구간의 길이를 기초로 해당 묵음구간이 화면해설 삽입 가능 구간인지를 판단한다(420). 화면해설방송 제작 장치는 만약 해당 묵음구간이 화면해설의 삽입이 불가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간에서 제외하고(430), 화면해설의 삽입이 가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간으로 선택한다(440).

이와 같은 과정의 반복을 통해 화면해설구간이 선택되면, 화면해설방송 제작 장치는 TTS을 이용하여 선택된 묵음구간들에 화면해설을 삽입한다(450). 일 예로, 화면해설방송 제작 장치는 TTS 모듈을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환한 후, 변환된 음성을 화면해설구간으로 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 컨텐츠에 화면해설을 삽입할 수 있다. 화면해설방송 제작 장치는 합성 시 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈에 의해 변환된 음성의 음량을 조절하는 정규화 과정을 수행하거나 여러 가지 후처리 과정을 수행할 수 있다. 이와 같은 과정을 통해 화면해설이 삽입된 컨텐츠는 화면해설방송으로서 송출될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 화면해설방송 제작 장치
110: 묵음구간 검출부
120: 화면해설구간 선택부
130: 화면해설 삽입부
131: TTS 모듈
132: 합성 모듈
133: 음량 조절 모듈

Claims

컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부; 및
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부
를 포함하는 화면해설방송 제작 장치.
제1항에 있어서,
상기 묵음구간 검출부는,
상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 제작 장치.
제2항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 장치.
제1항에 있어서,
상기 화면해설구간 선택부는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 제작 장치.
제1항에 있어서,
상기 화면해설 삽입부는,
화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈; 및
상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈
을 포함하는 것을 특징으로 하는 화면해설방송 제작 장치.
제5항에 있어서,
상기 화면해설 삽입부는,
상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함하는 것을 특징으로 하는 화면해설방송 제작 장치.
컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부;
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부; 및
상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부
를 포함하는 화면해설방송 송출 장치.
제7항에 있어서,
상기 묵음구간 검출부는,
상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 송출 장치.
제8항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 송출 장치.
제7항에 있어서,
상기 화면해설구간 선택부는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 송출 장치.
제7항에 있어서,
상기 화면해설 삽입부는,
상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하고, 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 것을 특징으로 하는 화면해설방송 송출 장치.
제7항에 있어서,
상기 화면해설 삽입부는,
상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 것을 특징으로 하는 화면해설방송 송출 장치.
화면해설방송 제작 장치가 화면해설방송을 제작하는 방법에 있어서,
컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계; 및
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계
를 포함하는 화면해설방송 제작 방법.
제13항에 있어서,
상기 검출하는 단계는,
상기 오디오 신호에서 특징값을 추출하는 단계; 및
상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 단계
를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
제14항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 방법.
제13항에 있어서,
상기 선택하는 단계는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 단계인 것을 특징으로 하는 화면해설방송 제작 방법.
제13항에 있어서,
상기 삽입하는 단계는,
상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 단계; 및
상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 단계
를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
제13항에 있어서,
상기 삽입하는 단계 이전에,
상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
제13항에 있어서,
상기 삽입하는 단계 이후에,
상기 화면해설이 삽입된 컨텐츠를 송출하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.