KR20140147401A - Tts를 이용한 화면해설방송 제작 방법 및 장치 - Google Patents

Tts를 이용한 화면해설방송 제작 방법 및 장치 Download PDF

Info

Publication number
KR20140147401A
KR20140147401A KR1020130070577A KR20130070577A KR20140147401A KR 20140147401 A KR20140147401 A KR 20140147401A KR 1020130070577 A KR1020130070577 A KR 1020130070577A KR 20130070577 A KR20130070577 A KR 20130070577A KR 20140147401 A KR20140147401 A KR 20140147401A
Authority
KR
South Korea
Prior art keywords
screen
section
commentary
audio signal
silence
Prior art date
Application number
KR1020130070577A
Other languages
English (en)
Other versions
KR101907957B1 (ko
Inventor
임우택
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020130070577A priority Critical patent/KR101907957B1/ko
Publication of KR20140147401A publication Critical patent/KR20140147401A/ko
Application granted granted Critical
Publication of KR101907957B1 publication Critical patent/KR101907957B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/02Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
    • H04H60/07Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

TTS(Text To Speech)를 이용한 화면해설방송 제작 방법 및 장치를 제공한다. 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.

Description

TTS를 이용한 화면해설방송 제작 방법 및 장치{METHOD AND APPARATUS FOR PRODUCING DESCRIPTIVE VIDEO SERVICE BY USING TEXT TO SPEECH}
본 발명의 실시예들은 TTS(Text To Speech)를 이용하여 화면해설방송을 제작하는 방법 및 장치에 관한 것이다.
화면해설방송(descriptive video service)은 시각 장애인들이 TV 프로그램, 영화 등과 같은 컨텐츠에 접근할 수 있도록 해주는 서비스이다. 즉, 화면해설방송이란 화면을 볼 수 없는 시각 장애인들을 위해 자막, 배우들의 행동, 배경 등과 같은 시각 요소를 음성으로 설명함으로써 시각 장애인들이 프로그램의 내용을 이해할 수 있도록 도와주는 서비스이다. 이러한 화면해설방송은 해당 프로그램 중 대사나 효과음이 없는 부분에 전체 프로그램의 이해를 저해하지 않는 수준으로 삽입된다.
기존의 화면해설방송은 다음과 같은 절차로 제작된다. 먼저 화면해설이 필요한 프로그램이 선정되면, 전문적인 작가가 프로그램의 내용을 전달할 수 있는 화면, 배경, 배우들의 동작, 표정 등의 중요한 시각 요소들을 기반으로 화면해설 대본을 작성한다. 이렇게 작성된 화면해설 대본은 전문 성우를 통해 음성으로 녹음됨으로써 오리지널 오디오에 합성된 화면해설방송용 오디오 트랙이 만들어 진다. 이러한 합성 작업이 끝나면 해당 프로그램은 최종적으로 방송으로 송출된다. 이 과정은 전문적인 화면해설 작가가 미리 프로그램을 보면서 대본 작업을 한 이후에, 성우와 작가가 다시 프로그램을 확인하며 대사가 없는 구간에 화면해설을 녹음하는 과정을 거친다. 이는 인적, 시간적 노력이 많이 소요되며 현실적으로 화면해설방송이 보급화되는 데에 큰 제한 점으로 작용한다.
본 발명의 기술적 과제는 보다 편리하게 화면해설 대본을 작성할 수 있는 TTS를 이용한 화면해설방송 제작 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 화면해설방송의 제작을 자동화함으로써 화면해설방송을 보급화할 수 있는 화면해설방송 제작 방법 및 장치를 제공함에 있다.
본 발명의 일 양태에 따르면, 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.
일 실시예로서, 상기 묵음구간 검출부는 상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출할 수 있다.
다른 실시예로서, 상기 특징값은 상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출될 수 있다.
또 다른 실시예로서, 상기 화면해설구간 선택부는 상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택할 수 있다.
또 다른 실시예로서, 상기 화면해설 삽입부는 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈 및 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈을 포함할 수 있다.
또 다른 실시예로서, 상기 화면해설 삽입부는 상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함할 수 있다.
본 발명의 다른 양태에 따르면, 화면해설방송 송출 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부, TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부 및 상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 화면해설방송 제작 장치가 화면해설방송을 제작하는 방법은 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계를 포함할 수 있다.
컨텐츠의 오디오 신호에서 묵음구간을 추출함으로써 제작자가 보다 편리하게 화면해설 대본을 작성할 수 있다.
TTS를 활용하여 화면해설방송을 제작함으로써 기존의 화면해설방송 제작의 제한 점인 인적, 시간적 소요를 보완하여 화면해설 방송의 보급화를 가능케 할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.
본 발명에 따른 화면해설방송 제작 장치(100)는 화면해설이 삽입되어야 할 구간을 검출 하기 위하여 먼저 묵음구간(silence period)을 검출하고, 검출된 묵음구간 중 화면해설을 삽입하고자 하는 구간을 선택하여 TTS(Text To Speech) 합성을 통해 화면해설 방송을 제작한다. 여기서, 묵음구간에는 소리가 없는 구간뿐만 아니라, 대사가 없는 구간 또는 화면해설 삽입 시 해당 구간의 소리가 화면해설 청취에 방해가 되지 않는 구간까지 포함할 수 있다.
구체적으로 도 1을 참조하면, 본 발명에 따른 화면해설방송 제작 장치(100)는 묵음구간 검출부(110), 화면해설구간 선택부(120) 및 화면해설 삽입부(130)를 포함한다.
묵음구간 검출부(110)는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(110)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이때 사용되는 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등의 여러 방법을 통해 추출될 수 있다. 묵음구간 검출부(110)는 상술한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.
화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설이 삽입될 구간(화면해설구간)을 선택한다. 묵음구간 검출부(110)에 의해 검출된 묵음구간들 중에는 묵음구간의 길이가 충분히 길지 못하거나 기타 다른 이유로 화면해설의 삽입이 어려운 묵음구간들이 존재한다. 따라서, 화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.
화면해설 삽입부(130)는 TTS를 이용하여 화면해설구간 선택부(120)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(130)는 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하는 TTS 모듈(131), 상기 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(120)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입하는 합성 모듈(132) 및 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(131)에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈(131)에 의해 변환된 음성의 음량을 조절하는 음량 조절 모듈을 포함할 수 있다. 한편, 화면해설 삽입부(130)는 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간에 합성 시 여러 가지 후처리 과정을 수행하는 후처리 모듈(미도시)을 포함할 수도 있다. 제작자는 이와 같은 과정을 통해 합성된 화면해설방송을 확인하여 수정할 수 있다.
도 2는 본 발명의 일실시예에 있어서 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다. 도 2에는 일 예로, 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간을 포함하는 오디오 신호의 프레임 구조가 도시되어 있다.
도 2에 도시된 것과 같이 묵음구간 검출부(110)에 의해 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간이 검출되면, 화면해설구간 선택부(120)는 먼저 각 묵음구간의 길이가 기 설정된 길이 이상인지를 판단한다. 예를 들어, 제1 묵음구간과 제3 묵음구간의 길이는 기 설정된 길이 이상이지만 제2 묵음구간의 길이는 기 설정된 길이 이하일 경우, 화면해설구간 선택부(120)는 1차적으로 제1 묵음구간과 제3 묵음구간만을 화면해설구간으로 선택하고, 제2 묵음구간은 화면해설구간에서 제외시킴으로써 화면해설구간으로 사용할 묵음구간을 선별할 수 있다. 이 때, 화면해설구간 선택부(120)는 1차적으로 선별된 묵음구간 중 2차적으로 제작자에 의해 선별된 묵음구간을 최종적으로 화면해설구간으로 선택할 수도 있다.
한편, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 길 경우 제1 묵음구간을 화면해설구간에서 제외시키고 제3 묵음구간에 해당 화면해설을 삽입하거나, 상기 화면해설이 제1 묵음구간에 삽입될 수 있도록 TTS의 음성의 피치를 조절할 수 있다. 또한, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 조금 길 경우에는 TTS 시작점을 조절함으로써 제1 묵음구간에 화면해설 삽입 시 어색하지 않는 수준으로 화면해설을 삽입할 수도 있다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 3에 도시된 것과 같이, 본 발명에 따른 화면해설방송 송출 장치(300)는 묵음구간 검출부(310), 화면해설구간 선택부(320), 화면해설 삽입부(330) 및 화면해설방송 송출부(340)를 포함할 수 있다.
묵음구간 검출부(310)는 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(310)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이 때, 묵음구간 검출부(310)는 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 오디오 신호로부터 특징값을 추출할 수 있으며, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 이용하여 오디오 신호로부터 특징값을 추출할 수도 있다. 묵음구간 검출부(310)는 다양한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.
화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설이 삽입될 묵음구간을 선택한다. 일 예로, 화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.
화면해설 삽입부(330)는 TTS를 이용하여 화면해설구간 선택부(320)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(330)는 텍스트를 음성으로 변환하는 TTS 모듈(331)을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하고, 합성 모듈(332)을 통해 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(320)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입할 수 있다. 이 때, 화면해설 삽입부(330)는 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(331)에 의해 변환된 음성의 음량을 비교하고 비교 결과를 기초로 음량 조절 모듈(333)을 이용하여 TTS 모듈(331)에 의해 변환된 음성의 음량을 조절할 수도 있다.
화면해설방송 송출부(340)는 상술한 과정을 통해 화면해설이 삽입된 컨텐츠 즉, 화면해설방송을 송출한다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다. 이하, 도 4를 참조하여 본 발명에 따른 화면해설방송 제작 장치가 화면해설방송을 제작하는 과정에 대해 설명한다.
본 발명에 따른 화면해설방송 제작 장치는 컨텐츠가 입력되면, 입력된 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다(410). 이를 위하여 화면해설방송 제작 장치는 상기 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 상기 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 추출되거나, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 통해 추출될 수 있다.
오디오 신호에서 묵음구간이 검출되면, 화면해설방송 제작 장치는 각 묵음구간의 길이를 기초로 해당 묵음구간이 화면해설 삽입 가능 구간인지를 판단한다(420). 화면해설방송 제작 장치는 만약 해당 묵음구간이 화면해설의 삽입이 불가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간에서 제외하고(430), 화면해설의 삽입이 가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간으로 선택한다(440).
이와 같은 과정의 반복을 통해 화면해설구간이 선택되면, 화면해설방송 제작 장치는 TTS을 이용하여 선택된 묵음구간들에 화면해설을 삽입한다(450). 일 예로, 화면해설방송 제작 장치는 TTS 모듈을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환한 후, 변환된 음성을 화면해설구간으로 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 컨텐츠에 화면해설을 삽입할 수 있다. 화면해설방송 제작 장치는 합성 시 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈에 의해 변환된 음성의 음량을 조절하는 정규화 과정을 수행하거나 여러 가지 후처리 과정을 수행할 수 있다. 이와 같은 과정을 통해 화면해설이 삽입된 컨텐츠는 화면해설방송으로서 송출될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 화면해설방송 제작 장치
110: 묵음구간 검출부
120: 화면해설구간 선택부
130: 화면해설 삽입부
131: TTS 모듈
132: 합성 모듈
133: 음량 조절 모듈

Claims (19)

  1. 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
    상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부; 및
    TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부
    를 포함하는 화면해설방송 제작 장치.
  2. 제1항에 있어서,
    상기 묵음구간 검출부는,
    상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 제작 장치.
  3. 제2항에 있어서,
    상기 특징값은,
    상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 장치.
  4. 제1항에 있어서,
    상기 화면해설구간 선택부는,
    상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 제작 장치.
  5. 제1항에 있어서,
    상기 화면해설 삽입부는,
    화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈; 및
    상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈
    을 포함하는 것을 특징으로 하는 화면해설방송 제작 장치.
  6. 제5항에 있어서,
    상기 화면해설 삽입부는,
    상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함하는 것을 특징으로 하는 화면해설방송 제작 장치.
  7. 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
    상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부;
    TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부; 및
    상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부
    를 포함하는 화면해설방송 송출 장치.
  8. 제7항에 있어서,
    상기 묵음구간 검출부는,
    상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 송출 장치.
  9. 제8항에 있어서,
    상기 특징값은,
    상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 송출 장치.
  10. 제7항에 있어서,
    상기 화면해설구간 선택부는,
    상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 송출 장치.
  11. 제7항에 있어서,
    상기 화면해설 삽입부는,
    상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하고, 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 것을 특징으로 하는 화면해설방송 송출 장치.
  12. 제7항에 있어서,
    상기 화면해설 삽입부는,
    상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 것을 특징으로 하는 화면해설방송 송출 장치.
  13. 화면해설방송 제작 장치가 화면해설방송을 제작하는 방법에 있어서,
    컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계;
    상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계; 및
    TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계
    를 포함하는 화면해설방송 제작 방법.
  14. 제13항에 있어서,
    상기 검출하는 단계는,
    상기 오디오 신호에서 특징값을 추출하는 단계; 및
    상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 단계
    를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
  15. 제14항에 있어서,
    상기 특징값은,
    상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 방법.
  16. 제13항에 있어서,
    상기 선택하는 단계는,
    상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 단계인 것을 특징으로 하는 화면해설방송 제작 방법.
  17. 제13항에 있어서,
    상기 삽입하는 단계는,
    상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 단계; 및
    상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 단계
    를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
  18. 제13항에 있어서,
    상기 삽입하는 단계 이전에,
    상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
  19. 제13항에 있어서,
    상기 삽입하는 단계 이후에,
    상기 화면해설이 삽입된 컨텐츠를 송출하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
KR1020130070577A 2013-06-19 2013-06-19 Tts를 이용한 화면해설방송 제작 방법 및 장치 KR101907957B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130070577A KR101907957B1 (ko) 2013-06-19 2013-06-19 Tts를 이용한 화면해설방송 제작 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130070577A KR101907957B1 (ko) 2013-06-19 2013-06-19 Tts를 이용한 화면해설방송 제작 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20140147401A true KR20140147401A (ko) 2014-12-30
KR101907957B1 KR101907957B1 (ko) 2018-10-16

Family

ID=52676198

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130070577A KR101907957B1 (ko) 2013-06-19 2013-06-19 Tts를 이용한 화면해설방송 제작 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101907957B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210012815A (ko) * 2019-07-26 2021-02-03 주식회사 카카오 오디오 컨텐츠 제공 방법 및 장치
KR102541008B1 (ko) * 2022-06-20 2023-06-13 김두현 화면해설 컨텐츠를 제작하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070102904A (ko) * 2006-04-17 2007-10-22 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
JP2008039845A (ja) * 2006-08-01 2008-02-21 Nippon Hoso Kyokai <Nhk> 解説付加音声生成装置及び解説付加音声生成プログラム
KR20080049877A (ko) * 2006-12-01 2008-06-05 주식회사 알티캐스트 시각정보의 음성 제공 시스템 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070102904A (ko) * 2006-04-17 2007-10-22 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
JP2008039845A (ja) * 2006-08-01 2008-02-21 Nippon Hoso Kyokai <Nhk> 解説付加音声生成装置及び解説付加音声生成プログラム
KR20080049877A (ko) * 2006-12-01 2008-06-05 주식회사 알티캐스트 시각정보의 음성 제공 시스템 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210012815A (ko) * 2019-07-26 2021-02-03 주식회사 카카오 오디오 컨텐츠 제공 방법 및 장치
KR102541008B1 (ko) * 2022-06-20 2023-06-13 김두현 화면해설 컨텐츠를 제작하는 방법 및 장치

Also Published As

Publication number Publication date
KR101907957B1 (ko) 2018-10-16

Similar Documents

Publication Publication Date Title
US11190855B2 (en) Automatic generation of descriptive video service tracks
US9552807B2 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US8223269B2 (en) Closed caption production device, method and program for synthesizing video, sound and text
EP2356654B1 (en) Method and process for text-based assistive program descriptions for television
US20160066055A1 (en) Method and system for automatically adding subtitles to streaming media content
CN104092957B (zh) 一种融合人像和语音的屏幕视频生成方法
CN110035326A (zh) 字幕生成、基于字幕的视频检索方法、装置和电子设备
KR20060123072A (ko) 오디오 신호의 재생을 제어하는 방법 및 장치
CN105679120B (zh) 基于tts技术制作标准普通话语音微课件的方法
CA2938477A1 (en) Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data
US9569168B2 (en) Automatic rate control based on user identities
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
CN102111601A (zh) 内容可适性的多媒体处理系统与处理方法
CN103873919B (zh) 一种信息处理方法及电子设备
CA3037908A1 (en) Beat tracking visualization through textual medium
Federico et al. An automatic caption alignment mechanism for off-the-shelf speech recognition technologies
KR101907957B1 (ko) Tts를 이용한 화면해설방송 제작 방법 및 장치
EP3839953A1 (en) Automatic caption synchronization and positioning
CN112995530A (zh) 视频的生成方法、装置及设备
CN113630620A (zh) 多媒体文件播放系统、相关方法、装置及设备
CN104427263A (zh) 一种显示字幕的方法和多媒体播放装置
JP6295381B1 (ja) 表示タイミング決定装置、表示タイミング決定方法、及びプログラム
KR102160117B1 (ko) 장애인을 위한 실시간 방송 컨텐츠 제작 시스템
KR20140084463A (ko) 화자 정보를 표시하는 장치 및 방법 그리고, 동영상을 편집하는 서버
KR20130128211A (ko) 오디오 콘텐츠 연동 데이터 제공 장치, 그 시스템 및 제공 방법

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant