KR102579860B1 - 자막을 출력하는 동영상 재생 장치 및 그 제어 방법 - Google Patents

자막을 출력하는 동영상 재생 장치 및 그 제어 방법 Download PDF

Info

Publication number
KR102579860B1
KR102579860B1 KR1020180107697A KR20180107697A KR102579860B1 KR 102579860 B1 KR102579860 B1 KR 102579860B1 KR 1020180107697 A KR1020180107697 A KR 1020180107697A KR 20180107697 A KR20180107697 A KR 20180107697A KR 102579860 B1 KR102579860 B1 KR 102579860B1
Authority
KR
South Korea
Prior art keywords
video
data
video playback
audio
subtitles
Prior art date
Application number
KR1020180107697A
Other languages
English (en)
Other versions
KR20200029194A (ko
Inventor
손혁제
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020180107697A priority Critical patent/KR102579860B1/ko
Publication of KR20200029194A publication Critical patent/KR20200029194A/ko
Application granted granted Critical
Publication of KR102579860B1 publication Critical patent/KR102579860B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

본 발명은 자막을 출력하는 동영상 재생 장치 및 그 제어 방법에 관한 것으로, 보다 상세히는 무음 구간에서 자막을 효과적으로 제거할 수 있는 동영상 재생 장치 및 그 제어 방법에 관한 것이다. 본 발명의 일 실시예에 따른 동영상 재생 제어 방법은, 동영상 스트림 데이터를 오디오 프레임 데이터와 비디오 프레임 데이터로 분리하는 단계; 상기 오디오 프레임 데이터에 음성의 포함 여부를 제1 판단하는 단계; 상기 비디오 프레임 데이터에 영상 내 텍스트의 포함 여부를 제2 판단하는 단계; 및 상기 음성이 포함된 프레임 또는 상기 영상 내 텍스트가 포함된 프레임에 대응되는 시점에는 자막을 출력하고, 상기 음성과 상기 영상 내 텍스트가 모두 포함되지 않은 프레임에 대응되는 시점에는 상기 자막을 제거하는 단계를 포함할 수 있다.

Description

자막을 출력하는 동영상 재생 장치 및 그 제어 방법{VIDEO REPRODUCING APPARATUS AND CONTROL METHOD FOR OUTPUTTING SUBTITLE}
본 발명은 자막을 출력하는 동영상 재생 장치 및 그 제어 방법에 관한 것으로, 보다 상세히는 무음 구간에서 자막을 효과적으로 제거할 수 있는 동영상 재생 장치 및 그 제어 방법에 관한 것이다.
최근 인포테인먼트 시스템의 발달과 소형화로, 열차, 비행기는 물론 차량에도 복수의 디스플레이가 구비되며, 이를 통해 다양한 멀티미디어 컨텐츠가 재생될 수 있다. 특히, 동영상의 경우 언어나 화면에 표시되는 영상의 부가적인 설명 목적으로 자막이 함께 출력되는 경우가 빈번하다.
일반적인 동영상 재생 장치에서는, "smi" 혹은 "srt" 확장자를 가지는 자막 파일이 동영상 파일과 함께 로드되어 해당 자막 파일 내에 저장된 텍스트가 동영상 위로 오버레이되는 형태로 표시된다. 이러한 자막 파일 내에는 텍스트별로 타임 스탬프 값이 설정되며, 동영상의 오디오 싱크(audio sink)의 출력을 절대 시간으로 하여 타임 스탬프 출력 시점에 도달하면 해당 타임 스탬프에 대응되는 자막이 화면 상으로 출력된다.
그러나, 이러한 방식은 자막 파일 내의 타임 스탬프 정보에 의존하게 되므로 타임 스탬프 값이 실제 동영상에 매칭되지 않을 경우 화면에 맞지 않는 자막이 표시되는 상태가 유지되거나 지나치게 빨리 자막이 화면 상에서 제거될 수 있다.
본 발명은 동영상 재생 장치에서 보다 효과적으로 자막 출력을 제공하기 위한 것이다.
특히, 본 발명은 동영상 자체에 포함된 음향이나 텍스트를 고려하여 자막을 적시에 표시해제할 수 있는 동영상 재생 장치 및 그 제어 방법을 제공하기 위한 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 동영상 재생 제어 방법은, 동영상 스트림 데이터를 오디오 프레임 데이터와 비디오 프레임 데이터로 분리하는 단계; 상기 오디오 프레임 데이터에 음성의 포함 여부를 제1 판단하는 단계; 상기 비디오 프레임 데이터에 영상 내 텍스트의 포함 여부를 제2 판단하는 단계; 및 상기 음성이 포함된 프레임 또는 상기 영상 내 텍스트가 포함된 프레임에 대응되는 시점에는 자막을 출력하고, 상기 음성과 상기 영상 내 텍스트가 모두 포함되지 않은 프레임에 대응되는 시점에는 상기 자막을 제거하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 동영상 재생 장치는, 오디오 프레임 데이터와 비디오 프레임 데이터를 포함하는 동영상 스트림 데이터를 획득하는 데이터 수신부; 상기 동영상 스트림 데이터에서 상기 오디오 프레임 데이터와 상기 비디오 프레임 데이터를 분리하는 분리부; 상기 오디오 프레임 데이터에 음성의 포함 여부를 판단하는 오디오 처리부; 상기 비디오 프레임 데이터에 영상 내 텍스트의 포함 여부를 판단하는 비디오 처리부; 및 상기 음성이 포함된 프레임 또는 상기 영상 내 텍스트가 포함된 프레임에 대응되는 시점에는 자막을 출력하고, 상기 음성과 상기 영상 내 텍스트가 모두 포함되지 않은 프레임에 대응되는 시점에는 상기 자막이 제거되도록 제어하는 자막 처리부를 포함할 수 있다.
상기와 같이 구성되는 본 발명의 적어도 하나의 실시예에 관련된 동영상 재생 장치를 통해 동영상 재생시 자막이 적시에 표시되고 사라지도록 할 수 있다.
특히, 동영상 자체의 음향 출력 여부 및 영상 프레임별 텍스트의 존재 여부를 기반으로 자막의 표시 및 표시 해제가 수행되므로, 쾌적한 동영상 감상이 가능하다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예들이 적용될 수 있는 동영상 재생 장치 구성의 일례를 나타내는 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 동영상 재생 과정의 일례를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 노이즈 제거 과정의 거치기 전후의 음향 신호를 각각 나타낸다.
도 4는 본 발명의 일 실시예에 따른 영상 내 문자 검출 원리를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 주파수 영역으로 변환된 이미지 및 주파수 영역 글자의 진폭 이미지의 일례를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 후보 지정 구역의 개념을 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소들을 의미한다.
본 발명의 일 실시예에서는, 동영상 자체에 포함된 음향이나 텍스트를 고려하여 자막의 표시 여부가 결정되도록 할 것을 제안한다.
구체적으로, 본 실시예에서는 자막 파일이 수반되는 동영상 재생시에 음성이 출력되는 동안에는 자막이 출력되도록 하고, 음성이 아닌 음악이나 효과음, 배경음 등이 출력되는 동안에는 자막이 출력되지 않도록 하며, 영상 내에 텍스트가 존재하는 동안에는 자막이 출력되도록 할 수 있다. 이는 음성의 경우 동영상에 수반되는 별도의 자막이 언어 상의 이유로 필요한 경우가 대부분이므로, 음성이 출력되지 않는 시간 동안 자막이 화면상에 남아있으면 감상에 방해를 주는 경우가 많기 때문이다. 또한, 영상 내의 텍스트의 경우, 해당 시점에 출력되는 음성과의 동일성은 없더라도 영상 내에서 부가적인 설명을 위해 표시되는 경우가 있어, 이러한 텍스트를 위한 자막이 준비될 경우, 해당 텍스트가 표시되는 동안 자막이 출력되는 것이 바람직하기 때문이다.
먼저, 도 1을 참조하여 본 발명의 실시예들이 수행될 수 있는 장치 구성을 설명한다. 도 1은 본 발명의 실시예들이 적용될 수 있는 동영상 재생 장치 구성의 일례를 나타내는 블럭도이다.
도 1을 참조하면, 본 발명에 따른 동영상 재생 장치(100)는 데이터 수신부(110), 오디오/비디오(A/V) 분리부(120), 오디오 처리부(130), 비디오 처리부(140), 자막 처리부(150) 및 출력부(160)를 포함할 수 있다. 도 1에 도시된 각 구성요소는 본 발명의 수행에 필수적인 부분을 나타낸 것으로, 실시예에 따른 동영상 재생 장치는 이보다 많은 구성요소를 포함할 수도 있다. 또한, 도 1의 구성은 기능에 따른 분류인 바, 둘 이상의 구성 요소가 하나의 모듈로 구현될 수도 있고, 하나의 구성 요소가 둘 이상의 모듈로 구현될 수도 있음은 당업자에 자명하다.
이하, 각 구성요소를 상세히 설명한다.
데이터 수신부(110)는 동영상의 소스(예컨대, DVD 등의 광 저장 장치)로부터 비디오 스트림 데이터를 획득한다. 예를 들어, 비디오 스트림 데이터는 TS(Transport Stream) 비디오 스트림 데이터일 수 있으나, 반드시 이에 한정되는 것은 아니고, 비디오 데이터와 오디오 데이터를 포함하는 데이터라면 본 실시예에 적용이 가능하다. 즉, 데이터 수신부(110)는 동영상을 구성하는 비디오 프레임과 오디오 프레임이 합쳐진 형태의 데이터를 획득할 수 있다. 이를 위해, 동영상 재생 장치(100)는 해당 비디오 스트림 데이터를 외부로부터 수신하기 위한 무선 통신부(미도시) 및/또는 광매체 독출수단(미도시)을 더 포함할 수도 있다.
A/V 분리부(120)는 데이터 수신부(110)가 획득한 데이터로부터 비디오 프레임과 오디오 프레임을 분리해낼 수 있다. 예컨대, A/V 분리부(120)는 비디오 스트림 데이터를 프레임 단위로 버퍼링하고, 버퍼링된 프레임이 오디오 데이터인 경우 이를 오디오 처리부(130)로 전달하고, 비디오 데이터인 경우 비디오 처리부(140)로 전달한다.
오디오 처리부(130)는 후술할 오디오 처리 과정을 통해 화자의 음성 출력 포함 여부를 판단하고, 비디오 처리부(140)는 후술할 비디오 처리 과정을 통해 영상 내에 문자가 존재하는지 여부를 판단한다.
자막 처리부(150)는 smi나 srt 등 자막 파일을 로드하여, 해당 파일 내에 자막별 출력 시작 타임 스탬프 값에서 다음 자막의 출력 시작 타임 스탬프 값 사이에서 오디오 처리부(130)가 화자의 음성 출력이 포함되는 것으로 판단된 시점 비디오 처리부(140)가 영상 내에 문자가 존재한다고 판단된 시점에서는 해당 자막이 출력되도록 하고, 그렇지 않은 시점에서는 자막이 출력되지 않도록 할 수 있다.
출력부(160)는 자막 처리부(150)의 자막 출력 여부에 대한 결정에 따라, 최종 출력될 동영상 이미지에 자막을 오버레이시켜, 프레임 버퍼로 전달할 수 있다.
전술한 장치 구성을 바탕으로, 도 2를 참조하여 동영상 재상 과정을 설명한다. 도 2는 본 발명의 일 실시예에 따른 동영상 재생 과정의 일례를 나타낸다.
도 2를 참조하면, 먼저 데이터 수신부(110)에 동영상 데이터가 수신될 수 있다(S210).
A/V 분리부(120)는 수신된 데이터(예컨대, TS 비디오 스트림 데이터)를 오디오 프레임 데이터와 비디오 프레임 데이터로 분리할 수 있다(S220).
오디오 프레임 데이터는 오디오 처리부(130)로 전달되어, 오디오 처리 과정을 거칠 수 있다(S230A 내지 S260A). 오디오 처리 과정은 화이트 노이즈 제거 과정과 음성 존재 여부를 판단하는 과정으로 크게 구분될 수 있다.
구체적으로, 오디오 프레임 데이터에 대한 주파수 축변환이 먼저 수행될 수 있다(S230A). 주파수 축변환은 이산 음향 신호(discrete sound signal)에 대한 이산 푸리에 변환(DFT: Discrete Fourier Transform)을 통해 수행될 수 있다. DFT 및 이의 역변환(IDFT)는 아래 수학식 1 및 2에 각각 나타난 바와 같다.
Figure 112018089619141-pat00001
위의 DFT 및 IDFT 식은 신호 처리 분야에서 널리 알려진 바와 같으므로, 구체적인 설명은 생략하기로 한다.
오디오 데이터에 대한 주파수 축변환이 완료되면, 축변환된 신호를 밴드 패스 필터에 통과시키는 대역 필터링 과정이 수행될 수 있다(S240A). 여기서 통과 대역은 인간의 음성 대역에 해당하는 50 내지 4KHz일 수 있으나, 반드시 이에 한정되는 것은 아니다.
대역 필터링된 신호는 다시 노이즈 제거 과정을 거칠 수 있다(250A). 본 과정은 화이트 노이즈라고 판단되는 데시벨(예컨대, 12db)을 지정하여, 음성 신호 포락선(speech signal envelope) 위에 해당 데시벨이 더해진 신호에 대한 스무딩(smoothing), 즉, 로우 패스 효과의 커널(kernel)을 적용한 컨벌루션(convolution)을 수행하는 과정을 포함할 수 있다. 여기서, 화이트 노이즈라고 판단되는 데시벨(즉, 신호 강도)는 소리가 없다고 판단되는, 즉, 최대 진폭 크기 대비 최소 진폭 크기를 기준으로 할 수 있다. 예컨대, 자막이 출력되지 않는 구간으로 판단되는 구간에 대해 최소 진폭 크기를 구간별로 모두 저장하며(단, 백그라운드 음향 구간과 같이 튀는 값은 제거), 이 구간의 평균값이 화이트 노이즈에 대한 진폭(dB)으로 정의될 수 있다.
전술한 과정을 거친 결과의 일례가 도 3에 도시된다. 도 3은 본 발명의 일 실시예에 따른 노이즈 제거 과정의 거치기 전후의 음향 신호를 각각 나타낸다.
구체적으로, 도 3의 (a)는 노이즈 제거 과정을 거치기 전의 좌측(L) 및 우측(R) 음향 신호를, 도 3의 (b)는 실시예에 따른 노이즈 제거 과정을 거친 좌측 및 우측 음향 신호를 각각 나타낸다. 도 3에 도시된 바와 같이, 노이즈 제거 과정을 거침에 따라 노이즈에 해당하는 미세한 신호 떨림이 사라짐을 알 수 있다.
다시 도 2로 복귀하여, 노이즈가 제거된 신호를 기반으로, 해당 오디오 프레임 데이터에 음성 출력이 존재하는지 여부가 판단될 수 있다(S260A). 예컨대, 노이즈가 제거된 신호의 크기가 기 설정된, 또는 해당 동영상에 대하여 설정된 임계값 이상인 경우 음성 출력이 존재하는 것으로 판단될 수 있다.
판단 결과, 음성 출력이 존재하면, 해당 프레임에 대응되는 자막이 출력될 수 있으며(S270), 그렇지 않은 경우 자막이 제거될 수 있다(S280). 여기서 자막이 제거된다고 함은, 출력 시작 타임 스탬프에 따라 기 출력된 자막이 화면 상에 표시되기 시작하여 시간의 경과에 따라 S260A 단계에 따른 음성 출력이 존재하지 않는 프레임 이전까지 표시 상태가 유지되다가 해당 프레임부터는 화면에서 사라짐을 의미할 수 있다.
한편, 비디오 프레임 데이터의 경우, 영상 내 문자가 존재하는지 여부가 판단될 수 있다(S260B). 판단 결과, 영상 내에 문자가 존재하면, 해당 프레임에 대응되는 자막이 출력될 수 있으며(S270), 그렇지 않은 경우 자막이 제거될 수 있다(S280). 자막 제거의 의미는 전술한 바와 같다.
이하에서는 비디오 프레임 데이터에 대한 영상 내 문자 존재 여부를 판단하는 과정을 도 4 내지 도 6을 참조하여 설명한다.
본 실시예에 따른 문자 검출 방법은 글자 영역의 휘도 값의 변화가 급격하다는 점에서 착안한 것이다. 이를 도 4를 참조하여 설명한다. 도 4는 본 발명의 일 실시예에 따른 영상 내 문자 검출 원리를 설명하기 위한 도면이다.
예컨대, 도 4의 좌측에 도시된 바와 같이 글자가 영상 내 존재할 경우, 해당 영상의 진폭 이미지는 도 4의 우측과 같다. 즉, 도 4의 우측에 도시된 바와 같이, 글자 부분에서만 휘도값의 변화가 급격하게 나타남을 알 수 있다.
도 5는 본 발명의 일 실시예에 따른 주파수 영역으로 변환된 이미지 및 주파수 영역 글자의 진폭 이미지의 일례를 나타낸다. 구체적으로, 도 5의 (a)에는 글자를 포함하는 영상을 주파수 축으로 변환한 결과가 도시된다. 결국, 도 5의 (a)에 도시된 바와 같이 글자를 포함하는 영상을 주파수 축으로 변환할 경우, 글자 영역을 제외하고는 저주파로 나타남을 알 수 있으며, 이에 대한 휘도 변화(진폭) 이미지가 도 5의 (b)에 도시된다.
이러한 원리를 기반으로, 영상의 주파수 축변환 결과를 이용하여 글자 검출이 가능하다. 이를 도 6을 참조하여 설명한다.
도 6은 본 발명의 일 실시예에 따른 후보 지정 구역의 개념을 설명하기 위한 도면이다. 도 6에서는 도 5의 (a)에 도시된 주파수 축변환 결과 중 특정 8x8 단위의 블럭(510)을 나타낸 것이다. 물론, 블럭 단위의 크기는 예시적인 것으로 반드시 이에 한정되는 것은 아니다.
도 6을 참조하면, 8x8 단위로 주파수 변환된 블럭(510)에 대해 고주파(즉, x/y 축 기준으로 각각 4번째 이상의 값이 활성화 된 경우) 픽셀들이 존재하는 경우, 해당 블럭이 글자 후보 블럭으로 지정될 수 있다. 예컨대, 도 6에서는 x축으로 4번째 이상의 값이 활성화된 픽셀 영역(620)과 y축으로 4번째 이상의 값이 활성화된 픽셀 영역(630)이 존재하므로, 글자 후보 블럭으로 지정된다.
이러한 글자 후보 블럭들이 연속되는 좌/우, 상/하로의 최대 영역을 구하여 영상의 구역화가 수행될 수 있다. 구역화 된 영상(예컨대, 도 5의 (a)) 내에 글자 후보 블럭의 비율이 기 설정된 수치(예컨대, 50%) 이상인 경우, 해당 영역은 글자 후보 구역으로 지정될 수 있다.
상술한 바와 같이 결정된 글자 후보 구역이 존재하는 비디오 프레임에 대해서는, 영상 내에 글자가 존재하는 것으로 판단될 수 있다.
한편, 영상 간 장면 전환 시 컬러 및 휘도의 차이가 매우 큰 경우 발생하는 특징을 기반으로 장면 전환이 추출될 수 있으며, 페이드(Fade) 장면 전환의 경우 채도 값은 변화가 낮으나 휘도의 값에 대해서만 변화가 많은 특징을 이용하여 추출될 수 있다. 이때, 압축된 비디오 영상은 YUV 포맷으로 디코딩되는 것이 일반적이므로, Y로 휘도 변화를, UV로 채도 변화를 각각 파악할 수 있다.
따라서, 화면간 채도 및 휘도 차이가 일정 수치(예컨대, 10%)이상 발생하는 경우 급진적인 화면전환으로 판단하여 자막의 표시가 제한될 수 있다. 또한, 화면간 채도 변화는 10% 이내지만, 휘도 변화가 10% 이상인 경우 점진적 화면 전환에 해당하는 페이드로 판단하여, 자막의 표시가 제한될 수도 있다. 이때, 휘도와 채도의 차이는 아래 수학식 3에 나타난 바와 같은 MSE 연산을 통해 -/+ 에러 값이 서로 보완하여 0으로 수렴하는 것을 막을 수 있다.
MSE 연산 자체는 널리 알려진 바와 같으므로, 자세한 설명은 생략하기로 한다.
본 발명의 실시예들에 따르면, 자막을 포함한 영상 컨텐츠의 재생 시 자막의 출력 시점을 보다 정확히 보정해 줄 수 있으므로 컨텐츠의 집중의 방해 요소가 저감된다. 특히, 출력되는 음성 데이터를 분석하여 음성 출력 시점인지 아닌지에 대한 정확한 판단을 통해 자막의 적절한 화면 출력 시점을 결정할 수 있으며, 영상 전환 시점을 정확히 판단하여 자막이 계속 화면상에 잔상처럼 떠 있는 것을 막을 수 있다. 물론, 이러한 경우라도 음성 출력이 검출된다면 화면 전환 시에도 화면에 자막 출력이 유지되어 나레이션 등에 대한 자막이 누락되는 것을 방지할 수 있다.
아울러, 화자의 발화를 제외한 영상 내 글자를 자막으로 표현하고자 할 때 영상에서 글자의 유/무를 판단하여 적절히 자막 출력 시점이 결정될 수 있어 편리하다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.
따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (19)

  1. 동영상 스트림 데이터를 오디오 프레임 데이터와 비디오 프레임 데이터로 분리하는 단계;
    상기 오디오 프레임 데이터에 음성의 포함 여부를 제1 판단하는 단계;
    상기 비디오 프레임 데이터에 영상 내 텍스트의 포함 여부를 제2 판단하는 단계; 및
    상기 음성이 포함된 프레임 또는 상기 영상 내 텍스트가 포함된 프레임에 대응되는 시점에는 자막을 출력하고, 상기 음성과 상기 영상 내 텍스트가 모두 포함되지 않은 프레임에 대응되는 시점에는 상기 자막을 제거하는 단계를 포함하는, 동영상 재생 제어 방법.
  2. 제1 항에 있어서,
    상기 제1 판단하는 단계는,
    상기 오디오 프레임 데이터를 주파수 축변환하는 단계;
    상기 주파수 축변환된 데이터에 대한 대역 필터링을 수행하는 단계;
    상기 대역 필터링된 데이터에 노이즈를 제거하는 단계; 및
    상기 노이즈 제거된 데이터의 크기를 기반으로 상기 음성의 포함 여부를 판단하는 단계를 포함하는, 동영상 재생 제어 방법.
  3. 제2 항에 있어서,
    상기 주파수 축변환하는 단계는,
    이산 오디오 신호에 대한 이산 푸리에 변환(DFT)을 수행하는 단계를 포함하는, 동영상 재생 제어 방법.
  4. 제2 항에 있어서,
    상기 대역 필터링을 수행하는 단계는,
    음성 대역에 해당하는 신호만 패스시키는 단계를 포함하는, 동영상 재생 제어 방법.
  5. 제2 항에 있어서,
    상기 노이즈를 제거하는 단계는,
    화이트 노이즈에 대한 진폭을 결정하는 단계; 및
    상기 진폭을 상기 대역 필터링된 데이터에 적용하여 스무딩 처리하는 단계를 포함하는, 동영상 재생 제어 방법.
  6. 제5 항에 있어서,
    상기 진폭을 결정하는 단계는,
    자막이 출력되지 않는 구간으로 판단된 복수의 구간에 대한 최소 진폭 크기의 평균을 상기 진폭으로 결정하는 단계를 포함하는, 동영상 재생 제어 방법.
  7. 제1 항에 있어서,
    상기 제2 판단하는 단계는,
    상기 비디오 프레임 데이터를 주파수 축변환하는 단계;
    상기 주파수 축변환된 데이터에 포함된 복수의 단위 블럭 각각에 대한 고주파 픽셀의 존재 여부를 판단하는 단계;
    상기 고주파 픽셀의 존재 여부에 따라 적어도 하나의 글자 후보 블럭을 지정하는 단계; 및
    상기 글자 후보 블럭을 기반으로 글자 후보 구역을 지정하는 단계를 포함하는, 동영상 재생 제어 방법.
  8. 제7 항에 있어서,
    상기 글자 후보 구역을 지정하는 단계는,
    상기 적어도 하나의 글자 후보 블럭의 연속성에 따른 구역화를 수행하는 단계; 및
    상기 구역화된 영상 내에서 글자 후보 블럭의 비율에 따라 상기 글자 후보 구역을 지정하는 단계를 포함하는, 동영상 재생 제어 방법.
  9. 제7 항에 있어서,
    상기 제2 판단하는 단계는,
    상기 글자 후보 구역이 지정되면, 상기 영상 내 텍스트가 존재하는 것으로 판단하는 단계를 더 포함하는, 동영상 재생 제어 방법.
  10. 제1 항 내지 제9 항 중 어느 한 항에 따른 동영상 재생 제어 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능 기록 매체.
  11. 오디오 프레임 데이터와 비디오 프레임 데이터를 포함하는 동영상 스트림 데이터를 획득하는 데이터 수신부;
    상기 동영상 스트림 데이터에서 상기 오디오 프레임 데이터와 상기 비디오 프레임 데이터를 분리하는 분리부;
    상기 오디오 프레임 데이터에 음성의 포함 여부를 판단하는 오디오 처리부;
    상기 비디오 프레임 데이터에 영상 내 텍스트의 포함 여부를 판단하는 비디오 처리부; 및
    상기 음성이 포함된 프레임 또는 상기 영상 내 텍스트가 포함된 프레임에 대응되는 시점에는 자막을 출력하고, 상기 음성과 상기 영상 내 텍스트가 모두 포함되지 않은 프레임에 대응되는 시점에는 상기 자막이 제거되도록 제어하는 자막 처리부를 포함하는, 동영상 재생 장치.
  12. 제11 항에 있어서,
    상기 오디오 처리부는,
    상기 오디오 프레임 데이터를 주파수 축변환하고, 상기 주파수 축변환된 데이터에 대한 대역 필터링을 수행하여, 상기 대역 필터링된 데이터에 노이즈를 제거하며, 상기 노이즈 제거된 데이터의 크기를 기반으로 상기 음성의 포함 여부를 판단하는, 동영상 재생 장치.
  13. 제12 항에 있어서,
    상기 오디오 처리부는,
    이산 오디오 신호에 대한 이산 푸리에 변환(DFT)을 수행하여 상기 주파수 축변환을 수행하는, 동영상 재생 장치.
  14. 제12 항에 있어서,
    상기 오디오 처리부는,
    음성 대역에 해당하는 신호만 패스시켜 상기 대역 필터링을 수행하는, 동영상 재생 장치.
  15. 제12 항에 있어서,
    상기 오디오 처리부는,
    화이트 노이즈에 대한 진폭을 결정하고, 상기 결정된 진폭을 상기 대역 필터링된 데이터에 적용하여 스무딩 처리하여 상기 노이즈를 제거하는, 동영상 재생 장치.
  16. 제15 항에 있어서,
    상기 오디오 처리부는,
    자막이 출력되지 않는 구간으로 판단된 복수의 구간에 대한 최소 진폭 크기의 평균을 상기 진폭으로 결정하는, 동영상 재생 장치.
  17. 제11 항에 있어서,
    상기 비디오 처리부는,
    상기 비디오 프레임 데이터를 주파수 축변환하고, 상기 주파수 축변환된 데이터에 포함된 복수의 단위 블럭 각각에 대한 고주파 픽셀의 존재 여부를 판단하여, 상기 고주파 픽셀의 존재 여부에 따라 적어도 하나의 글자 후보 블럭을 지정하고, 상기 글자 후보 블럭을 기반으로 글자 후보 구역을 지정하는, 동영상 재생 장치.
  18. 제17 항에 있어서,
    상기 비디오 처리부는,
    상기 적어도 하나의 글자 후보 블럭의 연속성에 따른 구역화를 수행하고, 상기 구역화된 영상 내에서 글자 후보 블럭의 비율에 따라 상기 글자 후보 구역을 지정하는, 동영상 재생 장치.
  19. 제17 항에 있어서,
    상기 비디오 처리부는,
    상기 글자 후보 구역이 지정되면, 상기 영상 내 텍스트가 존재하는 것으로 판단하는, 동영상 재생 장치.
KR1020180107697A 2018-09-10 2018-09-10 자막을 출력하는 동영상 재생 장치 및 그 제어 방법 KR102579860B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180107697A KR102579860B1 (ko) 2018-09-10 2018-09-10 자막을 출력하는 동영상 재생 장치 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180107697A KR102579860B1 (ko) 2018-09-10 2018-09-10 자막을 출력하는 동영상 재생 장치 및 그 제어 방법

Publications (2)

Publication Number Publication Date
KR20200029194A KR20200029194A (ko) 2020-03-18
KR102579860B1 true KR102579860B1 (ko) 2023-09-18

Family

ID=69999370

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180107697A KR102579860B1 (ko) 2018-09-10 2018-09-10 자막을 출력하는 동영상 재생 장치 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR102579860B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626598B (zh) * 2021-08-11 2024-08-13 平安国际智慧城市科技股份有限公司 视频文本生成方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006211636A (ja) * 2004-12-28 2006-08-10 Tv Asahi Data Vision Corp 字幕付き映像信号の遅延制御装置及び遅延制御プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101462249B1 (ko) * 2010-09-16 2014-11-19 주식회사 케이티 비디오 컨텐츠의 시청각 정보 출력 오류를 검출하는 장치 및 방법
KR20150057591A (ko) * 2013-11-20 2015-05-28 주식회사 디오텍 동영상파일에 대한 자막데이터 생성방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006211636A (ja) * 2004-12-28 2006-08-10 Tv Asahi Data Vision Corp 字幕付き映像信号の遅延制御装置及び遅延制御プログラム

Also Published As

Publication number Publication date
KR20200029194A (ko) 2020-03-18

Similar Documents

Publication Publication Date Title
BE1007355A3 (nl) Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
EP1557838A2 (en) Apparatus, method and computer product for recognizing video contents and for video recording
US20160180861A1 (en) Electronic apparatus, control method, and computer program
WO2010140355A1 (ja) 音響信号処理装置および方法
JP2010154388A (ja) 信号処理装置、その処理方法およびプログラム
KR102579860B1 (ko) 자막을 출력하는 동영상 재생 장치 및 그 제어 방법
JP4474748B2 (ja) 信号処理装置及び方法、映像信号記録装置、並びに映像信号再生装置
US20060259261A1 (en) Specific-condition-section detection apparatus and method of detecting specific condition section
JP2008304905A (ja) 画質調整装置、画質調整方法及びプログラム
EP2187635B1 (en) Video voice recorder
US8947597B2 (en) Video reproducing device, controlling method of video reproducing device, and control program product
JP2005252372A (ja) ダイジェスト映像作成装置及びダイジェスト映像作成方法
US8208071B2 (en) Method for determining the aspect ratio and an image apparatus using the same
US7974518B2 (en) Record reproducing device, simultaneous record reproduction control method and simultaneous record reproduction control program
JP4854339B2 (ja) 映像再生装置
JP2558412B2 (ja) 動適応再生回路
JP5213630B2 (ja) 映像信号再生装置
US10262690B2 (en) Signal processing device, signal processing system, signal processing method, and program
JP4884163B2 (ja) 音声分類装置
JP2008166973A (ja) 記録再生装置および再生装置
JPH11122511A (ja) 画質補正回路
KR20050054937A (ko) 시청각 데이터 스트림을 메모리에 저장하는 방법
JP2024130629A (ja) 画像処理装置および画像処理方法
US6906757B2 (en) Method and system for enhancing resolution in a video signal by digital simulation of analog H-sweep velocity modulation
JP4229041B2 (ja) 信号再生装置及び方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant