KR20180059030A

KR20180059030A - 자막 출력 장치 및 그 방법

Info

Publication number: KR20180059030A
Application number: KR1020160158128A
Authority: KR
Inventors: 김창현; 김영길
Original assignee: 한국전자통신연구원
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2018-06-04

Abstract

자막 출력 방법이 개시된다. 상기 자막 출력 방법은, 멀티미디어 영상을 영상과 음성으로 분리하는 단계; 상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계; 상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계; 상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계; 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계; 상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및 상기 합성 영상을 출력하는 단계를 포함한다.

Description

자막 출력 장치 및 그 방법{DEVICE AND METHOD FOR OUTTING A CAPTION}

본 발명은 자막 출력 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 자막을 표시화면에 지능적으로 출력하는 자막 출력 장치 및 그 방법에 관한 것이다.

일반적으로, 자막 정보는 화면상의 표시 위치(또는 출력 위치), 자막 정보를 구성하는 문자의 크기, 색깔, 폰트 등과 같은 다양한 자막 출력 환경을 미리 결정하고, 미리 결정한 자막 출력 환경에 따라 화면에 출력된다.

그런데 이러한 자막 출력 방법은 사용자 입장에서는 불편한 점이 있다. 예를 들면, 사용자가 보고자 하는 화면 정보가 자막 정보에 의해 가리워져 시인되지 않거나, 자막 정보의 색상이 화면의 배경 색상과 유사하여 자막 정보를 정확히 시인하기 어렵거나, 자막 정보의 표시 시간(display period)이 지나치게 짧은 경우 사용자가 자막 정보를 확인하기 어려운 점등과 같은 불편한 점들이 있다.

본 발명은 상술한 바와 같은 문제점을 해결하는데 그 목적이 있으며, 구체적으로, 최적의 자막 출력 환경을 지능적으로(또는 실시간으로) 판단하여, 상기 판단된 최적의 자막 출력 환경에 대응하는 자막을 구성하여 출력하는 자막 출력 장치 및 그 방법을 제공하는데 그 목적이 있다.

본 발명에서 해결하고자 하는 과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 해결과제들은 아래의 기재로부터 당해 기술분야의 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 자막 출력 방법은, 멀티미디어 영상을 영상과 음성으로 분리하는 단계; 상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계; 상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계; 상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계; 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계; 상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및 상기 합성 영상을 출력하는 단계를 포함한다.

본 발명의 다른 일면에 따른 자막 출력 장치는, 방송 영상을 영상과 음성으로 분리하는 영상/음성 분리부; 상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 자막 추출부; 상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하고, 상기 문장 기반의 객체를 기반으로, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 영상/자막 인식부; 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 출력 영역 결정부; 및 상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하는 영상/자막 합성부; 및 상기 합성 영상을 출력하는 출력부를 포함한다.

본 발명에 의하면, 최적의 자막 출력 환경을 지능적으로(또는 실시간으로) 판단하여, 판단된 최적의 자막 출력 환경에 대응하는 자막을 구성하여 출력함으로써, 미리 결정된 자막 출력 환경(또는 고정된 자막 출력 환경)에 따른 자막 출력 방식으로 인한 전술한 문제점들을 해결할 수 있다.

본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당해 기술분야에 있어서의 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 자막 출력 장치의 기능 블록도이다.
도 2는 도 1에 도시된 자막 추출부의 기능 블록도이다.
도 3은 도 1에 도시된 영상/자막 인식부의 기능 블록도이다.
도 4에는 도 3에 도시된 영상 인식부에서 DNN 기반의 영상 분석 기술을 기반으로 영상 내의 객체를 인식한 결과를 나타내는 도면이다.
도 5는 도 3에 도시된 영상 인식부에서 DNN 기반의 영상 분석 기술을 기반으로 야구 중계 영상 내에서 객체를 인식한 결과가 나타낸
도 6은 도 1에 도시한 출력 영역 결정부의 기능 블록도이다.
도 7 내지 11은 본 발명의 일 실시 예에 따른 자막 출력 방법을 나타내는 흐름도들이다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈", "유닛" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대해 상세 기술한다.

도 1은 본 발명의 일 실시 예에 따른 자막 출력 장치의 기능 블록도이다.

도 1을 참조하면, 영상/음성 분리부(110), 자막 추출부(120), 영상/자막 인식부(130), 출력 영역 결정부(140), 자막 특징 결정부(150), 영상/자막 동기부(160) 및 영상/자막 합성부(170)를 포함할 수 있다.

영상/음성 분리부 (110)

상기 영상/음성 분리부(110)는 프레임 단위로 입력되는 멀티미디어 영상(Multimedia Image: MI)을 복호화하여, 상기 멀티미디어 영상에 포함된 영상 신호(Image Signal: ID)와 음성 신호(Voice Signal: VS)(또는 오디오 신호, audio signal)를 분리할 수 있다.

자막 추출부 (120)

상기 자막 추출부(120)는 상기 분리된 상기 음성 신호(VS)에 대한 음성 인식(speech recognition)을 수행하여 텍스트 형태(또는 문장 단위)의 자막 데이터(Caption Data: CD)을 추출할 수 있다.

또한, 상기 자막 추출부(120)는 상기 추출된 자막 데이터(CD)에 대응하는 음성 신호(VS)를 분석하여 화자 인식(speaker recognition)을 수행한다. 이하, 도 2를 참조하여, 상기 자막 추출부(120)에 대해 상세히 설명한다.

도 2는 도 1에 도시된 자막 추출부의 기능 블록도이다.

도 2를 참조하면, 상기 자막 추출부(120)는 음성 인식부(121), 자막/음성 동기부(123), 화자 인식부(125) 및 자막/화자 매핑부(127)를 포함할 수 있다.

상기 음성 인식부(121)는 상기 영상/음성 분리부(110)로부터 입력되는 상기 음성 신호(VS)에 대한 음성 인식을 수행한다.

상기 음성 인식은, 상기 입력되는 음성 신호(VS)로부터 특징 벡터열을 추출하는 특징 추출 처리 과정, 사전에 학습된 음향 모델(acoustic model)참조하여 상기 특징 벡터열에 매칭되는 패턴(예를 들면, 음소 패턴, 단어 패턴)을 인식하여 분류하는 패턴 분류(pattern classification) 처리 과정 및 사전에 학습된 언어 모델(language model)을 참조하여 상기 분류된 패턴에 대한 언어 구조(예를 들면, 어휘, 문법, 주제)를 분석하여 텍스트 형태(또는 문장 단위)의 자막 데이터를 생성하는 언어 처리 과정을 포함할 수 있다. 여기서, 상기 특징 추출 처리 과정으로, filter bank analysis 기반의 특징 추출 방법, Linear Predictive Coding(LPC)기반의 특징 추출 방법, Mel-Frequency Cepstral Coefficients(MFCC) 기반의 특징 추출 방법 등이 사용될 수 있다. 상기 패턴 분류 처리 과정으로, DTW(Dynamic Time Warping)기반의 패턴 분류 방법, HMM(Hidden Markov Model)기반의 패턴 분류 방법 등이 사용될 수 있다.

상기 자막/음성 동기부(123)는 상기 음성 인식부(121)에 의해 인식된 상기 자막 데이터(CD)의 시간 정보와 상기 음성 데이터(VD)의 시간 정보를 이용하여 상기 자막 데이터(CD)와 상기 음성 신호(VS) 간의 동기화 과정을 수행한다. 이렇게 함으로써, 상기 자막 데이터(CD)와 상기 자막 데이터(CD)에 대응하는 상기 음성 신호의 음성 구간이 매핑될 수 있다.

상기 화자 인식부(125)는 상기 영상/음성 분리부(110)로부터 입력되는 음성 신호(VS)의 음성 정보를 분석하여 화자 인식(speaker recognition)을 수행한다. 여기서, 상기 음성 정보는 음성의 주파수 성분, 음레벨, 음색 등일 수 있다.

구체적으로, 상기 화자 인식부(125)는 이전 프레임에 입력되는 음성 신호의 음성 정보와 현재 프레임에 입력되는 음성 신호의 음성 정보를 비교 분석하여, 화자의 변경유무를 판단할 수 있다. 예를 들면, 비교 분석 결과, 이전 입력되는 음성 신호의 음성 정보와 현재 입력되는 음성 신호의 음성 정보 간의 차이값이 사전에 설정된 허용 오차 범위를 넘어서는 경우, 상기 이전 프레임의 음성 신호는 제1 화자로부터 발화된 것이고, 현재 프레임의 음성 신호는 상기 제1 화자와 다른 제2 화자로부터 발화된 것으로 판단하여, 상기 제1 화자를 식별하는 제1 식별자와 상기 제2 화자를 식별하는 제2 식별자를 생성할 수 있다.

상기 이전 프레임에 입력되는 음성 신호의 음성 정보와 상기 현재 프레임에 입력되는 음성 신호의 음성 정보 간의 차이가 허용 오차 범위 이내인 경우, 상기 이전 프레임의 음성 신호와 상기 현재 프레임의 음성 신호는 동일 발화자로부터 발화된 것으로 판단하여, 하나의 식별자만을 생성한다.

상기 자막/화자 매핑부(127)는 상기 자막/음성 동기부(123)에 의해 상기 음성 신호(VS)에 동기된 상기 자막 데이터(CD)와 상기 화자 인식부(125)에서 인식한 화자의 식별자를 매핑한다.

한편, 상기 화자 인식부(125)에 의한 화자 인식 과정은 선택적으로 수행될 수 있다. 즉, 상기 화자 인식 과정 없이도, 본 발명에서 달성하고자 하는 지능적인 자막 출력에서 문제가 발생하지 않는다.

영상/자막 인식부 (130)

상기 영상/자막 인식부(130)는 상기 영상/음성 분리부(110)로부터 입력되는 상기 영상 신호(IS)와 상기 자막 추출부(120)로부터 입력되는 상기 자막 데이터(CD, 또는 자막 문장)를 각각 분석하여, 상기 영상 신호(IS)에 의해 구현되는 영상 내에 등장하는 객체(영상 기반의 객체)를 인식하고, 상기 자막 데이터(CD)에 의해 구현되는 자막 문장 내에 등장하는 객체(단어 기반의 객체)를 인식한다. 또한, 상기 영상/자막 인식부(130)는 상기 인식된 영상 기반의 객체와 상기 인식된 단어 기반의 객체를 비교 분석하여 상기 영상 신호(IS)에 의해 구현되는 영상 화면 내에서의 포커싱(focusing) 객체를 인식할 수 있다. 이하, 도 3을 참조하여, 상기 영상/자막 인식부(130)에 대해 상세히 설명한다.

도 3은 도 1에 도시된 영상/자막 인식부의 기능 블록도이다.

도 3을 참조하면, 상기 영상/자막 인식부(130)는 영상 인식부(131), 자막 인식부(133), 저장부(135) 및 포커싱 객체 인식부(137)를 포함할 수 있다.

상기 영상 인식부(131)는 영상 분석 기술을 이용하여 상기 영상 신호(IS)에 의해 구현되는 영상 내에서 객체(영상 기반의 객체)를 인식할 수 있다.

일 실시 예로, 상기 영상 인식부(131)는 상기 영상으로부터 Color 히스토그램, SIFT(Scale Invariant Feature Transform) 특징, HOG(Histogram of Oriented Gradient) 등과 같은 특징들을 추출하고, 추출된 특징들을 SVM(Support Vector Machine), GMM(Gaussian Mixture Model) 등과 같은 학습 알고리즘들로 분석하여 상기 영상 내에서 객체를 인식할 수 있다. 다른 실시 예로, 상기 영상 인식부(141)는 깊은 신경망(Deep Neural Network: DNN) 기반의 영상 분석 기술을 이용하여 상기 영상 내에서 객체를 인식할 수 있다. 도 4에는 본 발명의 일 실시 예에 따른 DNN 기반의 영상 분석 기술을 기반으로 영상 내에서 객체(영상 기반의 객체)를 인식한 결과를 나타낸 것이다. 도 4에서 참조번호 41은 상기 영상 인식부(131)에 입력되는 샘플 이미지이다. DNN 기반의 영상 분석 기술을 기반으로 이러한 샘플 이미지를 인식하는 경우, 커피, 커피 잔, 나이프, 접시, 크로아상(croissant), 음료, 아침, 아침식사, 음식, 빵 등과 같은 객체가 인식될 수 있다.

상기 영상 인식부(131)는 샘플 이미지로부터 인식된 객체를 지시하는 이미지 쿼리를 할당하고, 할당된 이미지 쿼리에 대하여 저장부(135) 또는 웹 서버(도시하지 않음)에 저장된 유사 이미지(43)를 검색하고, 검색된 유사 이미지에 맵핑된 텍스트 형태의 단어를 확률적으로 평가하여, 특별한 사전학습 없이, 샘플 이미지로부터 인식된 객체에 의미를 부여하는 단어를 추정할 수 있다. 예를 들면, 도 4의 샘플 이미지에서 인식된 '크로아상'은 상기 검색된 유사 이미지에 맵핑된 텍스트 형태의 단어를 확률적으로 평가함으로써, '빵'으로 인식될 수 있다.

다시 도 3을 참조하면, 상기 자막 인식부(133)는 자막 분석 기술을 이용하여 상기 자막데이터(CD)에 의해 구현되는 자막 문장 내에서 객체(단어 기반의 객체)를 인식할 수 있다.

상기 자막 분석 기술은, 예를 들면, 형태소 분석 과정(morphological analysis), 구문 분석 과정(syntactic analysis) 및 의미 분석 과정(semantic analysis)을 포함할 수 있다.

상기 형태소 분석 과정은 상기 구문 분석 과정의 전처리 과정으로서, 자막 데이터(CD)에 의해 구현되는 자막 문장으로부터 최소 단위의 형태소를 추출하는 과정일 수 있다. 상기 구문 분석 과정은 상기 형태소 분석 과정에 의해 추출된 형태소들 간의 구문론적 관계(syntactic relation)를 분석하는 과정일 수 있다. 상기 의미 분석 과정은 상기 구문 분석 과정에 의해 분석된 구문론적 관계로부터 자막 문장을 구성하는 단어들 간의 의미 관계(semantic relation)를 분석하는 과정일 수 있다.

이러한 형태소 분석, 구문 분석 및 의미 분석을 통해, 상기 자막 인식부(133)는 자막 문장 내에서 다양한 객체를 인식할 수 있다. 예를 들면, '빵과 커피가 아주 먹음직스러운데'라는 자막 문장이 입력되는 경우, 상기 자막 문장에서 형태소를 추출하고, 추출된 형태소들 간의 구문론적 관계와 의미 관계를 분석하여, '빵'과 '커피'라는 단어 기반의 객체를 인식할 수 있다.

상기 포커싱 객체 인식부(137)는 상기 영상 인식부(131)에서 인식한 인식 결과와 상기 자막 인식부(133)에서 인식한 인식 결과를 비교 분석하여, 상기 자막 문장의 의미론적 내용(semantic content)이 상기 영상 내에 등장하는 객체들 중에서 어떤 객체를 중점적으로 설명하는 지를 판단하고, 판단된 객체를 포커싱 객체로 인식한다.

구체적으로, 상기 포커싱 객체 인식부(133)는 상기 영상 인식부(131)에서 인식한 객체를 나타내는 단어와 상기 자막 인식부(133)에서 인식한 객체를 나타내는 단어 사이의 의미론적 유사성(semantic similarity)을 확률적으로 계산하고, 확률적으로 계산된 유사도(similarity score)가 가장 높은 단어를 선정하고, 상기 영상 내에서 상기 선정된 단어에 대응하는 객체를 포커싱 객체로 인식한다. 여기서, 상기 유사도를 계산하는 방법으로, 동의어의 계층적 네트워크로 구성된 워드넷(wordnet) 계층 구조를 이용한 유사도 계산 알고리즘, 분류기반 유사도 계산 알고리즘(classification-based Text similarity) 등이 이용될 수 있으며, 이에 한정하지 않고, 텍스트와 텍스트 사이의 의미론적 유사성을 점수화할 수 있는 모든 알고리즘이 이용될 수 있다.

전술한 예문과 도 4의 샘플 이미지(41)를 예로 들어 설명하면, '빵과 커피가 아주 먹음직스러운데'에 대한 자막 인식을 통해 인식된 '커피'와 '빵'과 도 4의 샘플 영상에 대한 영상 인식을 통해 인식된 '커피'와 '크로아상'은 유사성이 매우 높기 때문에, 상기 포커싱 객체 인식부(137)은 샘플 영상 내에 등장하는 '커피'와 '크로아상'을 포커싱 객체로 인식한다.

한편, 자막 문장에서 인식한 객체와 영상에서 인식한 객체 간의 비교 분석에 의해, 포커싱 객체를 인식할 수 없는 경우가 있을 수 있다. 예를 들어, 야구나 축구 등의 스포츠와 관련된 영상에서는 현재의 점수, 잔여시간, 선수의 골 기록, 홈런 기록 등과 같은 숫자 및 텍스트 형태의 표시정보들이 나타날 수 있다. 도 5에는 DNN 기반의 영상 분석 기술을 기반으로 야구 중계 영상(51) 내에서 객체(53)를 인식한 결과가 나타낸 것으로, 이러한 야구 중계 영상(51)에서는 우측 하단에 나타내는 현재의 점수, 현재 이닝, 볼카운트 상황을 나타내는 표시 정보가 나타날 수 있다. 이러한 표시 정보들은 매우 중요한 정보이다. 그럼에도 이러한 표시 정보는 자막 문장과는 상관없이 영상 내에서 수시로 등장하는 경우가 빈번하다. 따라서, 이러한 중요한 표시 정보도 포커싱 객체로 인식할 필요가 있다.

이러한 중요한 표시 정보를 포커싱 객체로 인식하기 위해, 상기 영상 인식부(141)가 영상에 등장하는 숫자 또는 텍스트 형태의 객체를 인식하면, 영상의 인식결과와 자막문장의 인식 결과를 비교 분석한 결과와 무관하게, 상기 숫자 또는 텍스트 형태의 객체를 포커싱 객체로 인식할 수 있다.

영상의 인식결과와 자막문장의 인식 결과를 비교 분석한 결과와 무관하게, 포커싱 객체를 인식하는 과정은 스포츠 영상에만 한정되는 것은 아니며, 영상 내에서 숫자 및 텍스트 형태의 표시정보가 중요한 객체로 인식될 수 있는 모든 영상을 대상으로 한다.

출력 영역 결정부 (140)

다시, 도 1을 참조하면, 상기 출력 영역 결정부(140)는 상기 포커싱 객체 인식부(147)에서 인식한 포커싱 객체가 상기 영상 내에서 위치하는(또는 출력되는) 영역을 기준으로 상기 영상 내에서 상기 자막 문장이 위치할(출력될) 출력 영역을 결정한다. 이하, 도 4를 참조하여, 상기 출력 영역 결정부(140)에 대해 상세히 설명한다.

도 6은 도 1에 도시한 출력 영역 결정부의 기능 블록도이다.

도 6을 참조하면, 상기 출력 영역 결정부(140)는, 후보 영역 선정부(141) 및 자막 충돌 판단부(143)를 포함할 수 있다.

상기 후보 영역 선정부(141)는 상기 포커싱 객체 인식부(147)에서 인식한 포커싱 객체가 상기 영상 내에서 위치하는 영역을 기준으로 상기 영상 내에서 상기 자막 문장이 출력될 최적의 후보 영역을 선정할 수 있다.

구체적으로, 상기 후보 영역 선정부(141)는 상기 포커싱 객체가 자막 문장에 의해 가려지지 않도록 상기 영상 내에서 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 제1 후보 영역으로 선정할 수 있다.

또한, 상기 후보 영역 선정부(141)는 상기 제1 후보 영역 내에서 상기 자막 문장이 위치할 수 있는 충분한 영역을 제2 후보 영역으로 선정할 수 있다.

구체적으로, 상기 제2 후보 영역을 선정하기 위해, 먼저, 상기 자막 문장을 출력할 영역의 형태를 결정한다. 상기 영역의 형태는, 예를 들면, 사각형, 타원형, 마름모형일 수 있다. 상기 영역의 형태는 사용자가 변경할 수 있으며, 각 형태 별로 우선순위가 결정될 수 있다. 최우선순위는 사각형일 수 있다.

상기 자막 문장을 출력할 영역의 형태가 결정되면, 해당 영역의 면적을 계산한다. 해당 영역의 면적은 자막의 폰트 크기와 길에 따라 결정될 수 있다. 자막 폰트의 크기는 디폴트로 초기에 시스템에서 결정된 값을 사용하며, 이는 사용자가 변경할 수 있다. 자막 폰트 크기와 자막 길이가 결정되면 해당 자막 출력 시에 필요한 공간의 크기를 결정할 수 있다. 이렇게 해당 영역의 면적이 계산 되면, 상기 제1 후보 영역 내에서 해당 영역의 면적이 위치할 수 있는 충분한 영역을 조사한다.

이렇게 조사된 충분한 영역들 대해, 최종적으로 포커싱 객체와 가장 근접하면서 선호되는 충분한 영역을 상기 제2 후보 영역으로 결정하게 된다.

또한, 상기 후보 영역 선정부(141)는 상기 포커싱 객체에 대한 집중도가 저하되지 않도록 상기 제2 후보 영역들 중에서 상기 포커싱 객체가 위치하는 영역에 근접한 영역을 상기 후보 영역으로 결정할 수 있다. 예를 들면, 상기 포커싱 객체의 중심부와 상기 제2 후보 영역들 각각의 중심부 간의 거리를 계산하여, 거리가 가장 가까운 영역을 가장 근접한 영역이라고 판단할 수 있다.

또한, 상기 후보 영역 선정부(141)는 자막 문장의 가독성을 높이기 위해, 상기 영상 내에서 포커싱 객체가 위치하는 영역을 제외한 나머지 영역 내에서 색상값이 균일한 영역을 상기 후보 영역으로 결정할 수 있다. 예를 들면, 기설정된 면적의 탐색 윈도우를 설정하고, 상기 나머지 영역을 상기 설정된 탐색 윈도우로 스캐닝하면서, 픽셀값(RGB 색상값 또는 계조값)의 표준 편차가 가장 작게 나타나는 영역을 상기 후보 영역으로 결정할 수 있다.

또한, 상기 후보 영역 선정부(141)는 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역 내에서 사용자의 설정에 따라 상기 후보 영역을 결정할 수 있다.

상기 후보 영역 선정부(141)가 상기 영상 내에서 포커싱 객체가 위치하는 영역을 제외한 나머지 영역 내에서 상기 후보 영역을 결정하는 기준은 가장 최 우선수위로 고려되는 기준일 수 있으며, 기타 나머지 기준들, 즉, 자막 문장에 대한 가독성, 충분한 영역 확보, 포커싱 객체에 대한 집중도 및 상기 포커싱 객체의 인식 오류 등을 고려한 기준들은 병렬적으로, 순차적으로 또는 선택적으로 고려되는 기준일 수 있다.

상기 자막 충돌 판단부(143)는, 상기 후보 영역 선정부(141)에서 현재 프레임의 영상 내에서 결정된 현재의 자막 문장이 출력될 후보 영역과 이전 프레임의 영상 내에서 이전 자막 문장이 출력되었던 영역 간의 충돌 여부를 판단하여, 그 판단 결과에 따라 상기 현재의 자막 문장이 출력될 후보 영역을 재조정하고, 재조정된 후보 영역을 현재 프레임의 영상 내에서 현재의 자막 문장이 출력될 최종 출력 영역으로 결정한다.

구체적으로, 상기 자막 충돌 판단부(143)는, 먼저, 이전 프레임의 영상 내에서 이전 자막 문장의 출력 유지 시간을 기준으로 현재 프레임의 영상에서 유지할 지를 결정한다. 예를 들면, 이전 자막 문장의 출력 유지 시간과 자막 문장의 길이별로 사전 설정된 최소 출력 유지 시간을 비교하여, 이전의 자막 문장의 출력 유지 시간이 상기 최소 출력 유지 시간보다 작으면, 이전의 자막 문장을 현재 프레임의 영상에서 유지하는 것으로 결정할 수 있다. 여기서, 상기 최소 출력 유지 시간은 사용자가 자막 문장의 길이별로 자막을 충분히 인지하고 이해할 수 있는 시간을 심리적 실험으로부터 획득할 수 있다.

이전의 자막 문장을 현재 프레임의 영상 내에서의 출력을 유지하기로 결정하면, 현재 프레임의 영상 내에서 현재의 자막 문장이 출력될 후보 영역과 이전 프레임의 영상 내에서 이전의 자막 문장이 출력되었던 영역이 충돌하는 지(겹치는지)를 판단한 후, 영역 간의 충돌이 확인되면, 상기 후보 영역 선정부(141)에서 상기 후보 영역을 결정하기 위한 조건을 만족하는 범위 내에서 상기 이전의 자막 문장이 출력되었던 영역을 제외한 나머지 영역 내에서 상기 현재의 자막 문장이 출력될 후보 영역을 재조정하고, 재조정된 후보 영역을 상기 현재의 자막 문장이 출력될 최종 출력 영역으로 결정한다.

이와 같이, 이전 자막 문장이 출력되었던 이전 출력 영역을 고려하여, 상기 현재의 자막 문장이 출력될 현재 출력 영역을 재조정하는 이유는, 이전의 자막문장이 화면에 짧은 시간 동안만 출력된 상황에서 현재의 새로운 자막 문장이 출력되는 경우, 이전의 자막 문장은 사용자가 정확히 인식하지 못한 상황에서 사라지게 될 것이기 때문이다.

만일 이전의 자막 문장을 현재 프레임의 영상 내에서 유지하는 것으로 결정하면, 이전의 자막 문장이 출력되었던 영역과 현재의 자막 문장이 출력될 후보 영역과 충돌하는지를 판단하여, 만일 충돌이 확인되면, 상기 후보 영역을 결정하기 위한 조건을 만족하는 범위 내에서 다른 영역으로 재조정한다.

자막 특징 결정부 (150)

상기 자막 특징 결정부(150)는 상기 출력 영역 결정부(140)에서 결정된 출력 영역에 출력될 자막 문장의 특징을 결정한다. 상기 자막의 특징은 자막 문장을 구성하는 글자의 색상값, 글자의 폰트값 또는 글자의 크기값를 포함할 수 있다.

상기 출력 영역의 색상과 상기 출력 영역에 출력될 자막 문장의 글자 색상이 유사한 경우, 상기 출력 영역의 색상에 의해 상기 자막 문장의 가독성이 저하될 수 있기 때문에, 상기 출력 영역의 색상을 고려하여, 상기 자막 문장의 글자 색상을 결정할 필요가 있다.

이를 위해, 상기 자막 특징 결정부(150)는 상기 출력 영역 결정부(150)로부터 상기 출력 영역의 RGB 색상값을 수신하고, 수신된 RGB 색상값과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 자막 문장의 글자 색상이 가장 선명하게 시인될 수 있는 색상값을 결정할 수 있다.

한편, 글자의 폰트값 또는 글자의 크기값은 사용자의 설정값에 의해 결정될 수 있다.

영상/자막 동기부 (160)

상기 영상/자막 동기부(160)는 상기 영상/음성 분리부로부터 입력되는 영상의 출력 타이밍과 출력 영역 및 자막 특징이 결정된 자막 문장의 출력 타이밍을 동기화를 수행한다. 즉, 상기 영상/자막 동기부(160)는 자막 문장의 출력 영역 및 자막 특징을 결정하는데 소요된 처리 시간을 고려하여, 상기 영상의 출력 타이밍을 상기 처리 시간만큼 지연하여, 상기 영상의 출력 타이밍과 자막 문장의 출력 타이밍을 동기 시킨다.

영상/자막 합성부 (170)

상기 영상/자막 합성부(170)는 상기 자막 특징이 결정된 자막 문장을 상기 출력 영역에 위치하도록 상기 출력 타이밍이 동기된 상기 자막 문장과 상기 영상을 합성하여 합성 영상을 생성한다.

출력부(180)

상기 출력부(180)는 상기 합성 영상을 표시화면을 통해 출력하는 구성으로, LCD 또는 LED 표시 장치일 수 있다.

이상 설명한 바와 같이, 본 발명의 일 실시 예에 따른 자막 출력 장치는 자막 문장이 출력될 영상을 분석하여 영상 내에서 자막이 출력될 수 있는 후보 영역을 지능적으로 탐색하고, 탐색된 영역에서의 자막 문장의 색깔, 글자 크기 등을 지능적으로 결정함으로써, 자막 문장을 정해진 위치에 정해진 출력 환경으로 출력하는 것이 아니라 영상 환경을 고려하여 자막 문장을 영상 내에 지능적으로 출력함으로써, 종래의 자막 출력 방식에 따른 불편함을 해결할 수 있다.

이하, 도 1에 도시된 자막 출력 장치를 기반으로 하는 자막 출력 방법에 대해 상세히 설명한다.

도 7은 본 발명의 일 실시 예에 따른 자막 출력 방법을 나타내는 흐름도이다. 아래의 각 단계를 설명하는 과정에서, 도 1 내지 도 6을 참조하여 설명한 내용과 중복되는 내용은 간략히 설명하거나 생략하기로 한다.

도 7을 참조하면, 먼저, 단계 S710에서, 입력되는 멀티미디어 영상을 영상과 음성으로 분리하는 과정이 수행될 수 있다. 여기서, 멀티미디어 영상은 방송국으로부터 방송되는 디지털 방송 영상일 수 이거나, 저장 매체 또는 상기 저장 매체를 구비한 전자 장치에 저장된 것일 수 있다.

이어, 단계 S720에서, 상기 멀티미디어 영상으로부터 분리된 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 과정이 수행될 수 있다. 구체적으로, 도 8을 참조하면, 먼저, 상기 음성으로부터 특징 벡터열을 추출할 수 있다(S721). 이어, 상기 음향 모델(acoustic model)을 참조하여, 상기 특징 벡터열에 매칭되는 패턴을 분류할 수 있다(S723). 이어, 상기 언어 모델(language model)을 참조하여, 상기 분류된 패턴의 언어 구조를 분석하여, 상기 자막 문장을 추출할 수 있다(S725).

다시, 도 7을 참조하면, 단계 S730에서, 상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 과정이 수행될 수 있다. 여기서, 특별히 한정하는 것은 아니지만, 상기 영상 기반의 객체들을 인식하는 방법으로, 깊은 신경망(Deep Neural Network: DNN) 기반의 영상 분석 기술을 이용될 수 있다. 또한, 상기 문장 기반의 객체를 인식하는 방법으로, 형태소 분석(morphological analysis), 구문 분석(syntactic analysis) 및 의미 분석(semantic analysis) 중 적어도 하나를 포함하는 자막 분석 기술을 이용될 수 있다.

이어, 단계 S740에서, 전술한 단계 S730에서 인식된 상기 문장 기반의 객체를 기반으로, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 과정이 수행될 수 있다. 구체적으로, 상기 문장 기반의 객체와 상기 영상 기반의 객체들을 비교 분석하여, 상기 자막 문장의 의미론적 내용(semantic content)이 상기 영상 기반의 객체들 중에서 어떤 객체를 중점적으로 설명하는 지를 판단하고, 판단된 객체를 포커싱 객체로 인식한다. 즉, 상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정한다. 더욱 구체적으로, 도 9를 참조하면, 상기 영상 기반의 객체들을 각각 나타내는 단어들과 상기 문장 기반의 객체를 나타내는 단어 간의 의미론적 유사도(semantic similarity score)를 확률적으로 계산한다(S741). 이어, 상기 확률적으로 계산된 의미론적 유사도가 가장 높은 단어를 선정할 수 있다(S743). 이어, 상기 영상 기반의 객체들 중에서 상기 선정된 단어에 대응하는 객체를 포커싱 객체로 결정할 수 있다(S745). 한편, 상기 포커싱 객체를 결정하는 과정에서, 상기 문장 기반의 객체와 상기 영상 기반의 객체들을 비교 분석 결과와 무관하게, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정할 수도 있다.

다시, 도 7을 참조하면, 단계 S750에서, 상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 과정이 수행될 수 있다. 구체적으로, 도 10을 참조하면, 현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 과정이 수행된다(S751). 이어, 이전 영상 내에서 출력된 이전의 자막 문장을 현재 프레임의 영상 내에서 유지하는 경우, 이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지(겹치는 지)를 판단하다(S753). 상기 영역과 상기 후보 영역이 충돌하는(겹치는) 것으로 확인되면(S755), 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정한다(S757). 만일, 상기 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하지 않는 것으로 확인되면(S755), 상기 단계 S751에서 선정된 후보 영역을 출력 영역으로 결정한다(S759). 한편, 도 11을 참조하여, 상기 단계 S751에 대해 보다 상세히 설명하면, 현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 제1 후보 영역으로 선정하다(S751A). 이어, 상기 제1 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 제1 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 제2 후보 영역으로 선정한다(S751B). 이어, 상기 제2 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 제3 후보 영역으로 선정한다(S751C).

이어, 단계 S760에서, 상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 과정이 수행될 수 있다. 이어, 단계 S770에서, 상기 합성 영상을 출력하는 과정이 수행될 수 있다.

한편, 상기 단계 S750 이후에, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 단계를 더 포함될 수 있다. 상기 자막 문장의 특징은 자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함할 수 있다. 여기서, 상기 자막 문장을 구성하는 글자의 색상은 상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 결정될 수 있다.

이상, 본 발명의 자막 출력 장치를 나타내는 도 1, 2, 3 및 6의 블록들은 발명의 원리를 기능적 관점에서 구체화한 것으로 이해해야 한다. 이와 유사하게, 도 7 내지 11의 흐름도는 컴퓨터가 판독 가능한 매체에 실질적으로 나타낼 수 있고 컴퓨터 또는 프로세서가 명백히 도시되었는지를 불문하고 컴퓨터 또는 프로세서에 의해 수행되는 다양한 프로세스를 나타내는 것으로 이해되어야 한다.

도 1, 2, 3 및 6의 블록들이 프로세서에 의해 구현될 때, 도 1, 2, 3 및 6의 블록들의 기능은 단일 전용 프로세서 또는 복수의 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다.

프로세서는 CPU와 같은 메인 프로세서, 영상 처리를 주로 처리하는 그래픽 프로세서일 수 있으며, 이러한 프로세서는 시스템 버스를 통해 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비 휘발성 메모리와 전기적으로 연결될 수 있다.

또한, 본 발명의 자막 출력 장치는 다양한 전자 장치에 적용될 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치는, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 headmounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 통신 기능을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSync ™, 애플TV™, 또는 구글 TV™), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller’s machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

본 발명의 다양한 실시예에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 발명의 다양한 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

멀티미디어 영상을 영상과 음성으로 분리하는 단계;
상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 단계;
상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하는 단계;
상기 문장 기반의 객체를 이용하여, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 단계;
상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 단계;
상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하여, 합성 영상을 생성하는 단계; 및
상기 합성 영상을 출력하는 단계
를 포함하는 자막 출력 방법.
제1항에서, 상기 추출하는 단계는,
상기 음성으로부터 특징 벡터열을 추출하는 단계;
음향 모델(acoustic model)을 참조하여, 상기 특징 벡터열에 매칭되는 패턴을 분류하는 단계;
언어 모델(language model)을 참조하여, 상기 분류된 패턴에 대한 언어 구조를 분석하여, 상기 자막 문장을 추출하는 단계
를 포함함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 인식하는 단계는,
깊은 신경망(Deep Neural Network: DNN) 기반의 영상 분석 기술을 이용하여 상기 영상 기반의 객체들을 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 인식하는 단계는,
형태소 분석(morphological analysis), 구문 분석(syntactic analysis) 및 의미 분석(semantic analysis) 중 적어도 하나를 포함하는 자막 분석 기술을 이용하여, 상기 문장 기반의 객체를 인식하는 단계를 포함함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 포커싱 객체를 결정하는 단계는,
상기 자막 문장의 의미론적 내용(semantic content)이 상기 영상 기반의 객체들 중에서 어떤 객체를 중점적으로 설명하는 지를 판단하는 단계; 및
판단된 객체를 포커싱 객체로 인식하는 단계
를 포함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 포커싱 객체를 결정하는 단계는,
상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정하는 단계임을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 포커싱 객체를 결정하는 단계는,
상기 영상 기반의 객체들을 각각 나타내는 단어들과 상기 문장 기반의 객체를 나타내는 단어 간의 의미론적 유사도(semantic similarity score)를 확률적으로 계산하는 단계;
상기 확률적으로 계산된 유사도(similarity score)가 가장 높은 단어를 선정하는 단계; 및
상기 영상 기반의 객체들 중에서 상기 선정된 단어에 대응하는 객체를 포커싱 객체로 결정하는 단계
를 포함함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 포커싱 객체를 결정하는 단계는,
상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정하는 단계
를 포함함을 특징으로 자막 출력 방법.
제1항에서, 상기 출력 영역을 결정하는 단계는,
현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 단계; 및
이전 영상 내에서 출력된 이전의 자막 문장을 현재 프레임의 영상 내에서 유지하는 경우, 이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지(겹치는 지)를 판단하는 단계;
상기 영역과 상기 후보 영역이 충돌하는(겹치는) 경우, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 단계
를 포함함을 특징으로 하는 자막 출력 방법.
제9항에서, 상기 선정하는 단계는,
현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 제1 후보 영역으로 선정하는 단계;
상기 제1 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 제1 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 제2 후보 영역으로 선정하는 단계; 및
상기 제2 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 제3 후보 영역으로 선정하는 단계
를 포함함을 특징으로 하는 자막 출력 방법.
제1항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 단계를 더 포함하고,
상기 자막 문장의 특징은,
자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 방법.
제11항에서, 상기 자막 문장의 특징을 결정하는 단계는,
상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정하는 단계를 포함함을 특징으로 하는 자막 출력 방법.
방송 영상을 영상과 음성으로 분리하는 영상/음성 분리부
상기 음성에 대해 음성 인식을 수행하여 자막 문장을 추출하는 자막 추출부;
상기 영상과 상기 자막 문장을 각각 분석하여, 상기 영상으로부터 영상 기반의 객체들을 인식하고, 상기 자막 문장으로부터 문장 기반의 객체를 인식하고, 상기 문장 기반의 객체를 기반으로, 상기 영상 기반의 객체들 중에서 포커싱 객체를 결정하는 영상/자막 인식부;
상기 영상 내에서 상기 포커싱 객체가 위치하는 영역을 기준으로, 상기 영상 내에서 상기 자막 문장이 위치하는 출력 영역을 결정하는 출력 영역 결정부; 및
상기 자막 문장이 상기 영상 내의 상기 출력 영역에 위치하도록 상기 자막 문장과 상기 영상을 합성하는 영상/자막 합성부; 및
상기 합성 영상을 출력하는 출력부
를 포함하는 자막 출력 장치.
제13항에서, 상기 영상/자막 인식부는,
상기 영상 기반의 객체들 중에서 상기 문장 기반의 객체와 의미론적 유사성(semantic similarity)이 가장 높은 객체를 상기 포커싱 객체로 결정함을 특징으로 하는 자막 출력 장치.
제13항에서, 상기 영상/자막 인식부는,
상기 문장 기반의 객체를 고려하지 않고, 상기 영상 기반의 객체들 중에서 숫자 또는 텍스트 형태의 객체를 상기 포커싱 객체를 결정함을 특징으로 하는 자막 출력 장치.
제13항에서, 상기 출력 영역 결정부는,
현재 영상의 전체 영역 내에서 상기 포커싱 객체가 위치하는 영역을 제외한 나머지 영역을 후보 영역으로 선정하는 후보 영역 선정부; 및
이전 영상의 전체 영역 내에서 이전의 자막 문장이 출력되는 영역과 상기 후보 영역이 충돌하는 지를 판단하여, 상기 영역과 상기 후보 영역이 충돌하는 것으로 확인되면, 상기 후보 영역 내에서 상기 이전의 자막 문장의 출력 영역을 제외한 나머지 영역을 상기 출력 영역으로 결정하는 자막 충돌 판단부
를 포함함을 특징으로 하는 자막 출력 장치.
제16항에서, 상기 후보 영역 선정부는,
상기 후보 영역 내에서 상기 포커싱 객체로 인식되지 않은 다른 객체가 존재하는 경우, 상기 후보 영역 내에서 상기 다른 객체가 위치하는 영역을 제외한 나머지 영역 내에서 최종 후보 영역을 선정함을 특징으로 하는 자막 출력 장치.
제16항에서, 상기 후보 영역 선정부는,
상기 후보 영역 내에서 픽셀값의 표준 편차가 가장 작게 나타나는 영역을 최종 후보 영역으로 선정함을 특징으로 하는 자막 출력 장치.
제13항에서, 상기 출력 영역에 출력되는 자막 문장의 특징을 결정하는 자막 특징 결정부를 더 포함하고,
상기 자막 문장의 특징은,
자막 문장을 구성하는 글자의 색상, 글자의 폰트 및 글자의 크기 중에서 적어도 하나를 포함함을 특징으로 하는 자막 출력 장치.
제19항에서, 상기 자막 특징 결정부는,
상기 출력영역의 색상과의 명도 대비(luminosity contrast), 채도 대비(chromatic contrast) 및 보색 대비(complementary contrast)를 고려하여 상기 글자의 색상을 결정함을 특징으로 하는 자막 출력 장치.