KR20140147401A - Tts를 이용한 화면해설방송 제작 방법 및 장치 - Google Patents
Tts를 이용한 화면해설방송 제작 방법 및 장치 Download PDFInfo
- Publication number
- KR20140147401A KR20140147401A KR1020130070577A KR20130070577A KR20140147401A KR 20140147401 A KR20140147401 A KR 20140147401A KR 1020130070577 A KR1020130070577 A KR 1020130070577A KR 20130070577 A KR20130070577 A KR 20130070577A KR 20140147401 A KR20140147401 A KR 20140147401A
- Authority
- KR
- South Korea
- Prior art keywords
- screen
- section
- commentary
- audio signal
- silence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 238000004519 manufacturing process Methods 0.000 claims description 15
- 238000003780 insertion Methods 0.000 claims description 9
- 230000037431 insertion Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/07—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information characterised by processes or methods for the generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
TTS(Text To Speech)를 이용한 화면해설방송 제작 방법 및 장치를 제공한다. 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.
Description
본 발명의 실시예들은 TTS(Text To Speech)를 이용하여 화면해설방송을 제작하는 방법 및 장치에 관한 것이다.
화면해설방송(descriptive video service)은 시각 장애인들이 TV 프로그램, 영화 등과 같은 컨텐츠에 접근할 수 있도록 해주는 서비스이다. 즉, 화면해설방송이란 화면을 볼 수 없는 시각 장애인들을 위해 자막, 배우들의 행동, 배경 등과 같은 시각 요소를 음성으로 설명함으로써 시각 장애인들이 프로그램의 내용을 이해할 수 있도록 도와주는 서비스이다. 이러한 화면해설방송은 해당 프로그램 중 대사나 효과음이 없는 부분에 전체 프로그램의 이해를 저해하지 않는 수준으로 삽입된다.
기존의 화면해설방송은 다음과 같은 절차로 제작된다. 먼저 화면해설이 필요한 프로그램이 선정되면, 전문적인 작가가 프로그램의 내용을 전달할 수 있는 화면, 배경, 배우들의 동작, 표정 등의 중요한 시각 요소들을 기반으로 화면해설 대본을 작성한다. 이렇게 작성된 화면해설 대본은 전문 성우를 통해 음성으로 녹음됨으로써 오리지널 오디오에 합성된 화면해설방송용 오디오 트랙이 만들어 진다. 이러한 합성 작업이 끝나면 해당 프로그램은 최종적으로 방송으로 송출된다. 이 과정은 전문적인 화면해설 작가가 미리 프로그램을 보면서 대본 작업을 한 이후에, 성우와 작가가 다시 프로그램을 확인하며 대사가 없는 구간에 화면해설을 녹음하는 과정을 거친다. 이는 인적, 시간적 노력이 많이 소요되며 현실적으로 화면해설방송이 보급화되는 데에 큰 제한 점으로 작용한다.
본 발명의 기술적 과제는 보다 편리하게 화면해설 대본을 작성할 수 있는 TTS를 이용한 화면해설방송 제작 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 화면해설방송의 제작을 자동화함으로써 화면해설방송을 보급화할 수 있는 화면해설방송 제작 방법 및 장치를 제공함에 있다.
본 발명의 일 양태에 따르면, 화면해설방송 제작 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부를 포함할 수 있다.
일 실시예로서, 상기 묵음구간 검출부는 상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출할 수 있다.
다른 실시예로서, 상기 특징값은 상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출될 수 있다.
또 다른 실시예로서, 상기 화면해설구간 선택부는 상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택할 수 있다.
또 다른 실시예로서, 상기 화면해설 삽입부는 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈 및 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈을 포함할 수 있다.
또 다른 실시예로서, 상기 화면해설 삽입부는 상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함할 수 있다.
본 발명의 다른 양태에 따르면, 화면해설방송 송출 장치는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부, TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부 및 상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부를 포함할 수 있다.
본 발명의 또 다른 양태에 따르면, 화면해설방송 제작 장치가 화면해설방송을 제작하는 방법은 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계, 상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계 및 TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계를 포함할 수 있다.
컨텐츠의 오디오 신호에서 묵음구간을 추출함으로써 제작자가 보다 편리하게 화면해설 대본을 작성할 수 있다.
TTS를 활용하여 화면해설방송을 제작함으로써 기존의 화면해설방송 제작의 제한 점인 인적, 시간적 소요를 보완하여 화면해설 방송의 보급화를 가능케 할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 있어서, 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일실시예에 있어서, 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일실시예에 있어서, 화면해설방송 제작 장치를 나타내는 블록도이다.
본 발명에 따른 화면해설방송 제작 장치(100)는 화면해설이 삽입되어야 할 구간을 검출 하기 위하여 먼저 묵음구간(silence period)을 검출하고, 검출된 묵음구간 중 화면해설을 삽입하고자 하는 구간을 선택하여 TTS(Text To Speech) 합성을 통해 화면해설 방송을 제작한다. 여기서, 묵음구간에는 소리가 없는 구간뿐만 아니라, 대사가 없는 구간 또는 화면해설 삽입 시 해당 구간의 소리가 화면해설 청취에 방해가 되지 않는 구간까지 포함할 수 있다.
구체적으로 도 1을 참조하면, 본 발명에 따른 화면해설방송 제작 장치(100)는 묵음구간 검출부(110), 화면해설구간 선택부(120) 및 화면해설 삽입부(130)를 포함한다.
묵음구간 검출부(110)는 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(110)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이때 사용되는 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등의 여러 방법을 통해 추출될 수 있다. 묵음구간 검출부(110)는 상술한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.
화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설이 삽입될 구간(화면해설구간)을 선택한다. 묵음구간 검출부(110)에 의해 검출된 묵음구간들 중에는 묵음구간의 길이가 충분히 길지 못하거나 기타 다른 이유로 화면해설의 삽입이 어려운 묵음구간들이 존재한다. 따라서, 화면해설구간 선택부(120)는 묵음구간 검출부(110)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.
화면해설 삽입부(130)는 TTS를 이용하여 화면해설구간 선택부(120)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(130)는 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하는 TTS 모듈(131), 상기 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(120)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입하는 합성 모듈(132) 및 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(131)에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈(131)에 의해 변환된 음성의 음량을 조절하는 음량 조절 모듈을 포함할 수 있다. 한편, 화면해설 삽입부(130)는 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간에 합성 시 여러 가지 후처리 과정을 수행하는 후처리 모듈(미도시)을 포함할 수도 있다. 제작자는 이와 같은 과정을 통해 합성된 화면해설방송을 확인하여 수정할 수 있다.
도 2는 본 발명의 일실시예에 있어서 화면해설 구간을 선택하는 과정을 설명하기 위한 도면이다. 도 2에는 일 예로, 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간을 포함하는 오디오 신호의 프레임 구조가 도시되어 있다.
도 2에 도시된 것과 같이 묵음구간 검출부(110)에 의해 제1 묵음구간, 제2 묵음구간 및 제3 묵음구간이 검출되면, 화면해설구간 선택부(120)는 먼저 각 묵음구간의 길이가 기 설정된 길이 이상인지를 판단한다. 예를 들어, 제1 묵음구간과 제3 묵음구간의 길이는 기 설정된 길이 이상이지만 제2 묵음구간의 길이는 기 설정된 길이 이하일 경우, 화면해설구간 선택부(120)는 1차적으로 제1 묵음구간과 제3 묵음구간만을 화면해설구간으로 선택하고, 제2 묵음구간은 화면해설구간에서 제외시킴으로써 화면해설구간으로 사용할 묵음구간을 선별할 수 있다. 이 때, 화면해설구간 선택부(120)는 1차적으로 선별된 묵음구간 중 2차적으로 제작자에 의해 선별된 묵음구간을 최종적으로 화면해설구간으로 선택할 수도 있다.
한편, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 길 경우 제1 묵음구간을 화면해설구간에서 제외시키고 제3 묵음구간에 해당 화면해설을 삽입하거나, 상기 화면해설이 제1 묵음구간에 삽입될 수 있도록 TTS의 음성의 피치를 조절할 수 있다. 또한, 화면해설 삽입부(130)는 제1 묵음구간에 삽입될 화면해설의 길이가 제1 묵음구간의 길이보다 조금 길 경우에는 TTS 시작점을 조절함으로써 제1 묵음구간에 화면해설 삽입 시 어색하지 않는 수준으로 화면해설을 삽입할 수도 있다.
도 3은 본 발명의 일실시예에 있어서, 화면해설방송 송출 장치를 나타내는 블록도이다.
도 3에 도시된 것과 같이, 본 발명에 따른 화면해설방송 송출 장치(300)는 묵음구간 검출부(310), 화면해설구간 선택부(320), 화면해설 삽입부(330) 및 화면해설방송 송출부(340)를 포함할 수 있다.
묵음구간 검출부(310)는 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다. 이를 위하여 묵음구간 검출부(310)는 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 이 때, 묵음구간 검출부(310)는 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 오디오 신호로부터 특징값을 추출할 수 있으며, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 이용하여 오디오 신호로부터 특징값을 추출할 수도 있다. 묵음구간 검출부(310)는 다양한 방법을 통해 추출된 특징값을 복합적으로 사용하여 묵음구간을 검출할 수 있다.
화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설이 삽입될 묵음구간을 선택한다. 일 예로, 화면해설구간 선택부(320)는 묵음구간 검출부(310)에서 검출된 묵음구간들 중 화면해설을 삽입할 묵음구간들과 화면해설을 삽입할 때 제외할 묵음구간들을 각 묵음구간의 길이를 기초로 판단할 수 있다.
화면해설 삽입부(330)는 TTS를 이용하여 화면해설구간 선택부(320)에 의해 선택된 묵음구간들에 화면해설을 삽입한다. 이를 위하여, 화면해설 삽입부(330)는 텍스트를 음성으로 변환하는 TTS 모듈(331)을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환하고, 합성 모듈(332)을 통해 TTS 모듈(131)에 의해 변환된 음성을 화면해설구간 선택부(320)에서 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 화면해설을 컨텐츠에 삽입할 수 있다. 이 때, 화면해설 삽입부(330)는 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈(331)에 의해 변환된 음성의 음량을 비교하고 비교 결과를 기초로 음량 조절 모듈(333)을 이용하여 TTS 모듈(331)에 의해 변환된 음성의 음량을 조절할 수도 있다.
화면해설방송 송출부(340)는 상술한 과정을 통해 화면해설이 삽입된 컨텐츠 즉, 화면해설방송을 송출한다.
도 4는 본 발명의 일실시예에 있어서, 화면해설방송 제작 방법을 나타내는 흐름도이다. 이하, 도 4를 참조하여 본 발명에 따른 화면해설방송 제작 장치가 화면해설방송을 제작하는 과정에 대해 설명한다.
본 발명에 따른 화면해설방송 제작 장치는 컨텐츠가 입력되면, 입력된 컨텐츠의 오디오 신호를 분석하여 오디오 신호에서 묵음구간을 검출한다(410). 이를 위하여 화면해설방송 제작 장치는 상기 컨텐츠의 오디오 신호에서 특징값을 추출하고 추출된 특징값을 이용하여 묵음구간을 검출할 수 있다. 상기 특징값은 일 예로, 오디오 신호의 에너지(energy) 값, 영점교차율(zero crossing rate) 등을 기초로 추출되거나, 피치 추정(pitch estimation), 고차통계(higher-order statistics) 등과 같은 다양한 방법을 통해 추출될 수 있다.
오디오 신호에서 묵음구간이 검출되면, 화면해설방송 제작 장치는 각 묵음구간의 길이를 기초로 해당 묵음구간이 화면해설 삽입 가능 구간인지를 판단한다(420). 화면해설방송 제작 장치는 만약 해당 묵음구간이 화면해설의 삽입이 불가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간에서 제외하고(430), 화면해설의 삽입이 가능한 구간인 것으로 판단되면 해당 묵음구간을 화면해설구간으로 선택한다(440).
이와 같은 과정의 반복을 통해 화면해설구간이 선택되면, 화면해설방송 제작 장치는 TTS을 이용하여 선택된 묵음구간들에 화면해설을 삽입한다(450). 일 예로, 화면해설방송 제작 장치는 TTS 모듈을 이용하여 화면해설 제작자에 의해 제작된 화면해설 대본에 포함되어 있는 텍스트를 음성으로 변환한 후, 변환된 음성을 화면해설구간으로 선택된 묵음구간 중 해당하는 묵음구간에 합성함으로써 컨텐츠에 화면해설을 삽입할 수 있다. 화면해설방송 제작 장치는 합성 시 컨텐츠에 포함된 오디오 신호의 음량과 TTS 모듈에 의해 변환된 음성의 음량을 비교하여 비교 결과를 기초로 TTS 모듈에 의해 변환된 음성의 음량을 조절하는 정규화 과정을 수행하거나 여러 가지 후처리 과정을 수행할 수 있다. 이와 같은 과정을 통해 화면해설이 삽입된 컨텐츠는 화면해설방송으로서 송출될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 화면해설방송 제작 장치
110: 묵음구간 검출부
120: 화면해설구간 선택부
130: 화면해설 삽입부
131: TTS 모듈
132: 합성 모듈
133: 음량 조절 모듈
110: 묵음구간 검출부
120: 화면해설구간 선택부
130: 화면해설 삽입부
131: TTS 모듈
132: 합성 모듈
133: 음량 조절 모듈
Claims (19)
- 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부; 및
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부
를 포함하는 화면해설방송 제작 장치. - 제1항에 있어서,
상기 묵음구간 검출부는,
상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 제작 장치. - 제2항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 장치. - 제1항에 있어서,
상기 화면해설구간 선택부는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 제작 장치. - 제1항에 있어서,
상기 화면해설 삽입부는,
화면해설 대본에 포함된 텍스트를 음성으로 변환하는 TTS 모듈; 및
상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 합성 모듈
을 포함하는 것을 특징으로 하는 화면해설방송 제작 장치. - 제5항에 있어서,
상기 화면해설 삽입부는,
상기 오디오 신호의 음량과 상기 변환된 음성의 음량을 비교하여 비교 결과를 기초로 상기 변환된 음성의 음량을 조절하는 음량 조절 모듈을 더 포함하는 것을 특징으로 하는 화면해설방송 제작 장치. - 컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 묵음구간 검출부;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 화면해설구간 선택부;
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 화면해설 삽입부; 및
상기 화면해설이 삽입된 컨텐츠를 송출하는 화면해설방송 송출부
를 포함하는 화면해설방송 송출 장치. - 제7항에 있어서,
상기 묵음구간 검출부는,
상기 오디오 신호에서 특징값을 추출하고, 상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 것을 특징으로 하는 화면해설방송 송출 장치. - 제8항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 송출 장치. - 제7항에 있어서,
상기 화면해설구간 선택부는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 것을 특징으로 하는 화면해설방송 송출 장치. - 제7항에 있어서,
상기 화면해설 삽입부는,
상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하고, 상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 것을 특징으로 하는 화면해설방송 송출 장치. - 제7항에 있어서,
상기 화면해설 삽입부는,
상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 것을 특징으로 하는 화면해설방송 송출 장치. - 화면해설방송 제작 장치가 화면해설방송을 제작하는 방법에 있어서,
컨텐츠의 오디오 신호를 분석하여 상기 오디오 신호에서 묵음구간을 검출하는 단계;
상기 검출된 묵음구간 중 화면해설이 삽입될 구간을 선택하는 단계; 및
TTS(Text To Speech)를 이용하여 상기 선택된 구간에 화면해설을 삽입하는 단계
를 포함하는 화면해설방송 제작 방법. - 제13항에 있어서,
상기 검출하는 단계는,
상기 오디오 신호에서 특징값을 추출하는 단계; 및
상기 추출된 특징값을 이용하여 상기 묵음구간을 검출하는 단계
를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법. - 제14항에 있어서,
상기 특징값은,
상기 오디오 신호의 에너지 값, 영점교차율(zero crossing rate), 피치 추정(pitch estimation), 고차통계(higher-order statistics) 중 적어도 하나를 기반으로 추출되는 것을 특징으로 하는 화면해설방송 제작 방법. - 제13항에 있어서,
상기 선택하는 단계는,
상기 검출된 묵음구간의 길이를 기초로 상기 묵음구간 중 상기 화면해설이 삽입될 구간을 선택하는 단계인 것을 특징으로 하는 화면해설방송 제작 방법. - 제13항에 있어서,
상기 삽입하는 단계는,
상기 TTS를 이용하여 화면해설 대본에 포함된 텍스트를 음성으로 변환하는 단계; 및
상기 변환된 음성을 상기 선택된 구간에 합성함으로써 상기 화면해설을 상기 컨텐츠에 삽입하는 단계
를 포함하는 것을 특징으로 하는 화면해설방송 제작 방법. - 제13항에 있어서,
상기 삽입하는 단계 이전에,
상기 오디오 신호의 음량과 상기 화면해설의 음량을 비교하여 비교 결과를 기초로 상기 화면해설의 음량을 조절하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법. - 제13항에 있어서,
상기 삽입하는 단계 이후에,
상기 화면해설이 삽입된 컨텐츠를 송출하는 단계를 더 포함하는 것을 특징으로 하는 화면해설방송 제작 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130070577A KR101907957B1 (ko) | 2013-06-19 | 2013-06-19 | Tts를 이용한 화면해설방송 제작 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130070577A KR101907957B1 (ko) | 2013-06-19 | 2013-06-19 | Tts를 이용한 화면해설방송 제작 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140147401A true KR20140147401A (ko) | 2014-12-30 |
KR101907957B1 KR101907957B1 (ko) | 2018-10-16 |
Family
ID=52676198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130070577A KR101907957B1 (ko) | 2013-06-19 | 2013-06-19 | Tts를 이용한 화면해설방송 제작 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101907957B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210012815A (ko) * | 2019-07-26 | 2021-02-03 | 주식회사 카카오 | 오디오 컨텐츠 제공 방법 및 장치 |
KR102541008B1 (ko) * | 2022-06-20 | 2023-06-13 | 김두현 | 화면해설 컨텐츠를 제작하는 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070102904A (ko) * | 2006-04-17 | 2007-10-22 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
JP2008039845A (ja) * | 2006-08-01 | 2008-02-21 | Nippon Hoso Kyokai <Nhk> | 解説付加音声生成装置及び解説付加音声生成プログラム |
KR20080049877A (ko) * | 2006-12-01 | 2008-06-05 | 주식회사 알티캐스트 | 시각정보의 음성 제공 시스템 및 그 방법 |
-
2013
- 2013-06-19 KR KR1020130070577A patent/KR101907957B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070102904A (ko) * | 2006-04-17 | 2007-10-22 | 삼성전자주식회사 | 음성 신호의 유성음화 비율 검출 장치 및 방법 |
JP2008039845A (ja) * | 2006-08-01 | 2008-02-21 | Nippon Hoso Kyokai <Nhk> | 解説付加音声生成装置及び解説付加音声生成プログラム |
KR20080049877A (ko) * | 2006-12-01 | 2008-06-05 | 주식회사 알티캐스트 | 시각정보의 음성 제공 시스템 및 그 방법 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210012815A (ko) * | 2019-07-26 | 2021-02-03 | 주식회사 카카오 | 오디오 컨텐츠 제공 방법 및 장치 |
KR102541008B1 (ko) * | 2022-06-20 | 2023-06-13 | 김두현 | 화면해설 컨텐츠를 제작하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR101907957B1 (ko) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11190855B2 (en) | Automatic generation of descriptive video service tracks | |
US9552807B2 (en) | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos | |
US8223269B2 (en) | Closed caption production device, method and program for synthesizing video, sound and text | |
EP2356654B1 (en) | Method and process for text-based assistive program descriptions for television | |
US20160066055A1 (en) | Method and system for automatically adding subtitles to streaming media content | |
CN104092957B (zh) | 一种融合人像和语音的屏幕视频生成方法 | |
CN110035326A (zh) | 字幕生成、基于字幕的视频检索方法、装置和电子设备 | |
KR20060123072A (ko) | 오디오 신호의 재생을 제어하는 방법 및 장치 | |
CN105679120B (zh) | 基于tts技术制作标准普通话语音微课件的方法 | |
CA2938477A1 (en) | Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data | |
US9569168B2 (en) | Automatic rate control based on user identities | |
CN105898556A (zh) | 一种外挂字幕的自动同步方法及装置 | |
CN102111601A (zh) | 内容可适性的多媒体处理系统与处理方法 | |
CN103873919B (zh) | 一种信息处理方法及电子设备 | |
CA3037908A1 (en) | Beat tracking visualization through textual medium | |
Federico et al. | An automatic caption alignment mechanism for off-the-shelf speech recognition technologies | |
KR101907957B1 (ko) | Tts를 이용한 화면해설방송 제작 방법 및 장치 | |
EP3839953A1 (en) | Automatic caption synchronization and positioning | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
CN113630620A (zh) | 多媒体文件播放系统、相关方法、装置及设备 | |
CN104427263A (zh) | 一种显示字幕的方法和多媒体播放装置 | |
JP6295381B1 (ja) | 表示タイミング決定装置、表示タイミング決定方法、及びプログラム | |
KR102160117B1 (ko) | 장애인을 위한 실시간 방송 컨텐츠 제작 시스템 | |
KR20140084463A (ko) | 화자 정보를 표시하는 장치 및 방법 그리고, 동영상을 편집하는 서버 | |
KR20130128211A (ko) | 오디오 콘텐츠 연동 데이터 제공 장치, 그 시스템 및 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |