KR20170095039A

KR20170095039A - 샷 분할을 위한 콘텐츠 편집장치 및 그 방법

Info

Publication number: KR20170095039A
Application number: KR1020160016529A
Authority: KR
Inventors: 박소영; 김선중; 손정우; 이상윤; 이현우
Original assignee: 한국전자통신연구원
Priority date: 2016-02-12
Filing date: 2016-02-12
Publication date: 2017-08-22

Abstract

샷 분할을 위한 콘텐츠 편집장치 및 그 방법이 개시된다. 일 실시 예에 따른 콘텐츠 편집장치는 콘텐츠의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함하는 콘텐츠 정보를 분석하는 분석부와, 분석부에 콘텐츠 정보 분석을 요청하고 요청 결과로 수신한 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 샷 분할부를 포함한다.

Description

샷 분할을 위한 콘텐츠 편집장치 및 그 방법 {Apparatus for editing contents for seperating shot and method thereof}

본 발명은 디지털 콘텐츠 기술에 관한 것으로, 보다 상세하게는 콘텐츠 제작 및 편집 기술에 관한 것이다.

TV 콘텐츠, 영화 등 다양한 영상 콘텐츠가 수없이 제작되어 배포됨에 따라, 영상 콘텐츠에 대한 검색 및 추천은 많은 콘텐츠 이용자들에게 유용한 서비스로 제공되고 있다. 그러나 콘텐츠 특성 분석 기술의 한계로 인하여 만족스러운 개인 맞춤형 서비스를 제공하기 어렵거나, 콘텐츠 단위의 검색 및 추천만으로는 높은 수익과 효용을 제공하는 다양한 서비스를 제공하는 데 한계가 있는 것이 현실이다. 이와 같은 한계를 극복하기 위한 하나의 방안으로, 콘텐츠 검색 및 추천을 위하여 일반적으로 활용하고 있는 콘텐츠 장르, 등장인물 등과 같은 콘텐츠 메타데이터 외에, 콘텐츠 에피소드(드라마 및 영화의 1회 방영분)를 구성하는 각 장면에 대한 메타데이터를 기반으로 콘텐츠 및 장면을 검색 및 추천하는 기술이 연구되고 있다.

장면 기반 서비스 제공을 위해서는 다수의 프레임으로 구성되는 샷(shot)의 구성, 연관성을 가지는 샷 클러스터링을 통한 장면의 구성, 장면 별 특성 분석을 통한 메타데이터 생성 및 태깅의 절차를 거치게 된다. 이때 프레임은 움직이는 영상을 구성하는 정지된 이미지들 중 한 장을 의미한다. 샷이란 일반적으로 영상 콘텐츠 제작을 위한 촬영 시 일체 중단하지 않고 한 번에 촬영된 영상의 단위를 의미한다. 장면은 통상 신(scene) 또는 필요에 따라 분할/통합된 형태를 말하는데, 동일 시간, 동일 장소에서 단일 상황, 액션, 대사나 사건이 나타나는 하나의 영상 단위를 말하며, 다수의 샷으로 구성된다.

샷의 분할을 위해서는 영상을 구성하는 연속한 프레임에 대하여 각 프레임에 대한 색상정보 분석 및 이들 간의 유사도를 측정함으로써 샷 분할 여부를 결정하게 된다. 이러한 샷 분할 방식은 통상 높은 수준의 정확도를 보이고 있으나, 방송 콘텐츠의 영상 특성이 다양해짐에 따라 콘텐츠의 영상이 어두운 등 영상의 특성에 따라 성능이 낮아지는 경우가 발생한다.

일 실시 예에 따라, 콘텐츠의 샷 분할 성능을 높이기 위한 콘텐츠 편집장치 및 그 방법을 제안한다.

일 실시 예에 따른 콘텐츠 편집장치는 콘텐츠의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함하는 콘텐츠 정보를 분석하는 분석부와, 분석부에 콘텐츠 정보 분석을 요청하고 요청 결과로 수신한 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 샷 분할부를 포함한다.

소리정보는 배경음악 또는 대사일 수 있다. 텍스트정보는 대본 또는 자막일 수 있다. 분석부는 콘텐츠의 영상정보를 분석하는 영상정보 분석부와, 콘텐츠의 소리정보를 분석하는 소리정보 분석부 및 콘텐츠의 텍스트정보를 분석하는 텍스트정보 분석부 중 적어도 하나를 포함할 수 있다.

영상정보 분석부는 콘텐츠를 대상으로 영상분석을 수행할 대상 프레임을 선정하는 전 처리부와, 선정된 프레임에 대해 프레임 별로 영상분석을 수행하는 영상 분석부와, 프레임 별 영상분석 결과에 대한 후 처리를 수행하는 후 처리부를 포함할 수 있다.

소리정보 분석부는 Band Periodicity, Spectrum Flux, Noise frame ratio, HZCRR(High Zero-Crossing Rate Ratio) 및 LSTER(Low Short-Time Energy Ratio) 중 적어도 하나를 이용하여 소리정보를 분석할 수 있다.

샷 분할부는 영상정보 분석부에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 제1 샷 분할부와, 제1 샷 분할부를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 판단부와, 판단부의 판단 결과에 따라 소리정보 분석부에 소리정보 분석을 추가로 요청하여 소리정보 분석결과를 수신하고 영상정보 분석결과와 함께 소리정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 제2 샷 분할부를 포함할 수 있다.

샷 분할부는 영상정보 분석부에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 제1 샷 분할부와, 제1 샷 분할부를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 판단부와, 판단부의 판단 결과에 따라 텍스트정보 분석부에 텍스트정보 분석을 추가로 요청하여 텍스트정보 분석결과를 수신하고 영상정보 분석결과와 함께 텍스트정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 제2 샷 분할부를 포함할 수 있다.

다른 실시 예에 따른 콘텐츠 편집방법은, 콘텐츠의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함하는 콘텐츠 정보를 분석하는 단계와, 콘텐츠 정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할하는 단계를 포함한다.

소리정보는 배경음악 또는 대사일 수 있다. 텍스트정보는 대본 또는 자막일 수 있다.

콘텐츠 정보를 분석하는 단계는, 콘텐츠의 영상정보를 분석하는 단계와, 콘텐츠의 소리정보를 분석하는 단계와, 콘텐츠의 텍스트정보를 분석하는 단계 중 적어도 하나를 포함할 수 있다.

영상정보를 분석하는 단계는, 콘텐츠를 대상으로 영상분석을 수행할 대상 프레임을 선정하는 단계와, 선정된 프레임에 대해 프레임 별로 영상분석을 수행하는 단계와, 프레임 별 영상분석 결과에 대한 후 처리를 수행하는 단계를 포함할 수 있다.

소리정보를 분석하는 단계에서, Band Periodicity, Spectrum Flux, Noise frame ratio, HZCRR(High Zero-Crossing Rate Ratio) 및 LSTER(Low Short-Time Energy Ratio) 중 적어도 하나를 이용하여 소리정보를 분석할 수 있다.

샷을 분할하는 단계는, 콘텐츠의 영상정보를 분석하여 샷을 분할하는 단계와, 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 단계와, 판단 결과에 따라 콘텐츠의 소리정보를 분석하고 분석된 영상정보와 소리정보를 이용하여 샷을 분할하는 단계를 포함할 수 있다.

샷을 분할하는 단계는, 콘텐츠의 영상정보를 분석하여 샷을 분할하는 단계와, 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 단계와, 판단 결과에 따라 콘텐츠의 텍스트정보를 분석하고 분석된 영상정보와 텍스트정보를 이용하여 샷을 분할하는 단계를 포함할 수 있다.

일 실시 예에 따르면, 콘텐츠의 샷 분할 시에 영상정보, 소리정보 및 텍스트정보와 같은 다양한 정보를 분석하여 활용함으로써 샷 분할의 정확도를 향상시킬 수 있다. 나아가, 정책 및 조건에 따라 정보 분석의 범위 및 순서/방법을 다양하게 정함에 따라 샷 분할의 효율성을 향상시킬 수 있다.

도 1은 본 발명의 일 실시 예에 따른 콘텐츠 편집장치의 구성도,
도 2는 본 발명의 일 실시 예에 따른 영상정보 분석부의 세부 구성도,
도 3은 본 발명의 일 실시 예에 따른 샷 분할부의 세부 구성도,
도 4는 본 발명의 일 실시 예에 따른 샷 분할방법을 도시한 흐름도,
도 5는 본 발명의 다른 실시 예에 따른 샷 분할방법을 도시한 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이며, 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명되는 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들 또는 단계들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

이하, 첨부 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다. 그러나 다음에 예시하는 본 발명의 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 다음에 상술하는 실시 예에 한정되는 것은 아니다. 본 발명의 실시 예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.

도 1은 본 발명의 일 실시 예에 따른 콘텐츠 편집장치의 구성도이다.

도 1을 참조하면, 콘텐츠 편집장치(1)는 샷 분할부(10)와 분석부(12)를 포함하며, 저장부(14)를 더 포함할 수 있다. 일 실시 예에 따른 분석부(12)는 영상정보 분석부(120), 소리정보 분석부(122) 및 텍스트정보 분석부(124)를 포함할 수 있다.

샷 분할부(10)는 샷 분할 대상이 되는 콘텐츠(140)에 대한 분석을 분석부(12)에 요청하여 분석부(12)로부터 분석결과를 수신하고, 수신된 분석결과를 이용하여 샷(shot)을 분할한다. 샷이란 일반적으로 콘텐츠 제작을 위한 촬영 시 일체 중단하지 않고 한 번에 촬영된 영상의 단위를 의미한다.

분석부(12)는 콘텐츠(140)의 콘텐츠 정보를 분석한다. 콘텐츠 정보는 콘텐츠(140)의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함한다. 콘텐츠 정보는 콘텐츠(140)로부터 직접 획득될 수 있고, 콘텐츠(140)와 관련된 대본, 콘텐츠 메타데이터와 같은 부가데이터로부터 획득될 수 있다. 소리정보는 배경음악 또는 대사일 수 있다. 텍스트정보는 대본 또는 자막일 수 있다. 분석부(12)는 콘텐츠 정보 분석을 위해 콘텐츠를 역다중화(Demultiplexing)하여 영상정보, 소리정보 및 텍스트정보를 추출할 수 있다. 분석부(12)는 정보 분석을 위해 데이터 신호처리를 수행할 수 있다.

일 실시 예에 따른 샷 분할부(10)는 영상정보 분석부(120)에 콘텐츠(140)의 영상정보 분석을 요청하여 그 결과를 전달받고, 소리정보 분석부(122)에 콘텐츠(140)의 소리정보 분석을 요청하여 그 결과를 전달받으며, 텍스트정보 분석부(124)에 콘텐츠(140)의 텍스트정보 분석을 요청하여 그 결과를 전달받아, 전달받은 정보들을 이용하여 콘텐츠(140)의 샷을 분할한다.

각 분석부(120,122,124)로의 정보분석 요청 및 결과 전달이 꼭 동시에 이루어져야 하는 것은 아니다. 샷 분할부(10)의 샷 분할 정책에 따라, 각 정보 분석부를 선택적으로 그리고 순차적으로 이용할 수 있다. 예를 들어, 샷 분할부(10)는 콘텐츠의 샷 분할을 위하여 영상정보를 우선적으로 이용할 수 있으며, 이럴 경우 영상정보 분석부(120)에 해당 콘텐츠의 영상정보 분석을 요청하고 그 결과를 전달받는다. 샷 분할부(10)는 영상정보 분석 결과를 확인하고, 샷 분할을 위한 정보가 충분하지 않다고 판단할 경우 소리정보 분석부(122) 및 텍스트정보 분석부(124)에 또는 선택적으로 정보분석을 요청하고 전달받아 샷 분할에 이용할 수 있다. 이와 같이 샷 분할부(10)가 샷을 분할하기 위하여 영상정보 분석부(110), 소리정보 분석부(122) 및 텍스트정보 분석부(124) 중 어떤 기준으로 어떤 분석부를 이용하며, 어떤 순서로 이용하는지에 대하 부분은 본 발명에서 제한을 두지 않는다.

영상정보 분석부(120)는 콘텐츠(140)의 영상정보를 분석한다. 소리정보 분석부(122)는 콘텐츠(140)의 소리정보를 분석한다. 소리정보 분석기법으로는 Band Periodicity, Spectrum Flux, Noise frame ratio, HZCRR(High Zero-Crossing Rate Ratio), LSTER(Low Short-Time Energy Ratio) 등의 다양한 기법이 있으며, 본 발명은 이용하는 소리정보의 종류 및 샷 분할에의 적용 방법에 대해서는 제한하지 않는다.

Band Periodicity는 소리 특성 중 하나로, AI 음성 앱에 적용된 바가 있다. 밴드의 주기성(periodicity)은 정규상관함수(normalized correlation function)의 최대 지역극대점(maximum local peak)으로 나타낼 수 있다.

Spectrum Flux은 신호의 파워 스펙트럼에 대한 변화 속도 측정값이다. Spectral flux는 시그널의 파워 스펙트럼이 얼마나 빨리 변하는지를 측정한 것으로, 어떤 프레임의 파워 스펙트럼을 그 전 프레임의 파워 스펙트럼과 비교함으로써 계산할 수 있다. 다시 말해, 이 값은 일반적으로 두 개의 정규 스펙트럼(normalised spectra) 간 2-norm(Euclidean distance)으로 계산된다.

Noise frame ratio(NFR)은 특정 오디오 클립에서 잡음(noise) 프레임의 비율로 정의된다. 어떤 프레임은 그 프레임의 정규상관함수(normalized correlation function)의 최대 지역극대점(maximum local peak)이 주어진 기준값(preset threshold )보다 작을 때 잡음 프레임으로 여겨진다.

HZCRR(High Zero-Crossing Rate Ratio)은 1초 길이의 window 내에서 HZCR 미만인 ZCR 수에 대한 HZCR 이상의 ZCR 수의 비율을 의미한다. 이때 HZCR(High ZCR)은 평균 ZCR의 1.5배 값을 말한다. ZCR(Zero-Crossing Rate)은 시그널의 사인 변화율, 즉 시그널이 양에서 음으로 혹은 음에서 양으로 변하는 비율을 말한다. 음성의 경우 일반적으로 짧은 침묵(short silences)을 포함하고 있기 때문에, 이 특성은 음성 인식에 매우 유용하다. 음성에 포함되어 있는 침묵은 평균값을 낮추는 역할을 하고 실제 음성 부분은 HZCR을 상회하게 된다.

LSTER(Low Short-Time Energy Ratio)은 STE(short-time energy)의 변화를 나타내기 위한 값으로, 1초 길이의 클립에서 STE 값이 평균 STE의 0.5배보다 작은 프레임 수의 비율로 계산될 수 있다. 일반적으로 음성에는 음악보다 더 많은 침묵 프레임(silence frames)이 존재하여 음성의 LSTER 값은 음악보다 훨씬 높기 때문에, LSTER는 음성과 음악을 구분할 때 유용하게 이용될 수 있다.

텍스트정보 분석부(124)는 콘텐츠(140)의 텍스트정보를 분석한다. 텍스트 분석은 콘텐츠(140)와는 별도의 데이터 형태로 존재하는 대본을 대상으로 이루어질 수도 있고, 콘텐츠(140) 내에 포함되어 있는 자막을 대상으로 이루어질 수도 있으며, 두 종류의 데이터에 대하여 모두 이루어질 수도 있다. 텍스트 분석 대상 및 방법에 대해서는 본 발명에서 제한하지 않는다.

저장부(14)에는 콘텐츠 편집장치(1)의 동작수행을 위해 필요한 각종 정보와 동작수행에 따라 생성되는 정보가 저장된다. 일 실시 예에 따른 저장부(14)에는 콘텐츠 및 콘텐츠 부가데이터가 저장된다. 콘텐츠 부가 데이터는 대본, 콘텐츠 메타데이터 등일 수 있다. 저장부(14)는 콘텐츠 편집장치(1) 내에 위치할 수 있고, 별도의 서버로 분리되어 위치할 수 있다. 별도의 서버로 분리된 경우, 콘텐츠 편집장치(1)와는 통신수단을 통해 연결되어, 콘텐츠 편집장치(1)의 요청 시에 콘텐츠 및 콘텐츠 부가데이터를 전달할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 영상정보 분석부의 세부 구성도이다.

도 1 및 도 2를 참조하면, 영상정보 분석부(120)는 전 처리부(1200), 영상 분석부(1210) 및 후 처리부(1220)를 포함한다.

전 처리부(1200)는 콘텐츠를 대상으로 영상분석을 수행할 대상 프레임을 선정한다. 방송 콘텐츠의 경우 통상적으로 1초에 30프레임으로 구성되는데, 모든 프레임에 대해서 영상분석 작업을 하는 경우 너무 많은 시간이 소요된다. 따라서, 전 처리부(1200)는 일부 프레임에 대해서만 영상작업을 수행하도록 대상 프레임을 선정한다. 영상분석이 이루어질 대상 프레임이 선정되면, 영상 분석부(1210)는 해당 프레임별로 영상분석을 수행한다. 후 처리부(1220)는 영상 분석부(1210)의 영상 분석결과를 후 처리한다. 각 프레임에 영상 분석이 이루어지면 각 프레임 별로 영상 특성이 도출되는데, 도출된 영상 특성이 샷 분할에 이용되기 위해서는 영상특성 데이터의 가공, 프레임 간 영상특성의 비교 및 비교 데이터 가공 등의 과정이 필요하다. 이와 같은 과정을 본 발명에서는 후처리라 지칭한다. 후처리 과정이 끝나면, 영상정보 분석결과는 샷 분할부(10)에 전달된다.

도 3은 본 발명의 일 실시 예에 따른 샷 분할부의 세부 구성도이다.

도 1 및 도 3을 참조하면, 샷 분할부(10)는 제1 샷 분할부(100), 판단부(102) 및 제2 샷 분할부(104)를 포함한다.

일 예로, 제1 샷 분할부(100)는 영상정보 분석부(120)에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할한다. 판단부(102)는 제1 샷 분할부(100)를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단한다. 제2 샷 분할부(104)는 판단부(102)의 판단 결과에 따라 소리정보 분석부(122)에 소리정보 분석을 추가로 요청하여 소리정보 분석결과를 수신하고 영상정보 분석결과와 함께 소리정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할한다.

다른 예로, 제1 샷 분할부(100)는 영상정보 분석부(120)에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할한다. 판단부(102)는 제1 샷 분할부(100)를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단한다. 제2 샷 분할부(104)는 판단부(102)의 판단 결과에 따라 텍스트정보 분석부(124)에 텍스트정보 분석을 추가로 요청하여 텍스트정보 분석결과를 수신하고 영상정보 분석결과와 함께 텍스트정보 분석결과를 이용하여 콘텐츠를 구성하는 샷을 분할한다.

판단부(102)는 다양한 방법을 이용하여 샷이 분할되었는지를 판단한다. 예를 들어, 판단부(102)는 콘텐츠를 구성하는 프레임들을 대상으로 미리 설정된 기준에 따른 유사도(예를 들어, 색상 간 유사도)를 비교하여, 연속된 프레임 간에 미리 설정된 기준에서 유사도가 임계치보다 낮으면, 비교 대상 프레임 사이에서 샷이 분리된다고 판정하여, 샷의 시작점과 샷의 종결점이 검출되면 그 사이에 있는 프레임을 샷으로 분리한다.

도 4는 본 발명의 일 실시 예에 따른 샷 분할방법을 도시한 흐름도이다.

도 4를 참조하면 샷 분할부(10)는 영상정보 분석부(120)에 영상정보 분석을 요청(400)하고, 소리정보 분석부(122)에 소리정보 분석을 요청(402)하며, 텍스트정보 분석부(124)에 텍스트정보 분석을 요청한다(404). 샷 분할부(10)의 요청에 따라, 영상정보 분석부(120), 소리정보 분석부(122) 및 텍스트정보 분석부(124)는 저장부(14)에 필요한 데이터를 요청(406,414,422)하고, 저장부(14)는 각 정보 분석부(120,122,124)에서 요청한 데이터를 전달한다(408,416,424). 각 정보 분석부(120,122,124)는 전달받은 데이터를 이용하여 영상정보, 소리정보 및 텍스트정보를 분석(410,418,426)하여 그 결과를 샷 분할부(10)에 전달한다(412,420,428). 샷 분할부(10)는 각 정보 분석부(120,122,124)로부터 전달받은 분석 결과를 이용하여 샷 분할을 수행한다(430).

도 4를 참조로 하여 전술한 예는 샷 분할부(10)가 영상정보 분석부(120), 소리정보 분석부(122), 텍스트정보 분석부(124)에 일괄적으로 정보분석을 요청하여 분석결과를 수신하고, 수신된 분석결과를 이용하여 샷을 분할하는 절차는 나타내고 있으나, 이는 하나의 실시 예에 불과하다. 샷 분할부(10)는 영상정보 분석부(120), 소리정보 분석부(122), 텍스트정보 분석부(124) 중 일부에 대하여, 그리고 정해진 정책 및 조건에 따라 순차적으로 정보분석을 요청할 수 있다. 정보 분석의 범위 및 순서/방법에 대해서는 본 발명에서 제한하지 않는다.

도 5는 본 발명의 다른 실시 예에 따른 샷 분할방법을 도시한 흐름도이다.

도 5를 참조하면, 샷 분할부(10)는 미리 설정된 샷 분할 정책에 따라 우선적으로 영상정보 분석부(120)에 영상정보 분석을 요청한다(500). 요청을 받은 영상정보 분석부(120)는 저장부(14)에 영상정보를 요청(502)하여 전달받고(504), 이에 대하여 영상정보 분석을 수행(506)하며, 그 결과를 샷 분할부(10)에 전달한다(508).

샷 분할부(10)는 전달받는 영상정보 분석 결과를 기반으로 샷 분할을 위하여 소리정보를 추가적으로 이용하는 것이 필요하다고 판단한다. 샷 분할부(10)는 소리정보 분석부(122)에 콘텐츠에 대한 소리정보 분석을 요청한다(510). 소리정보 분석부(122)는 저장부(14)에 소리정보를 분석할 수 있는 정보, 즉 소리정보가 담긴 콘텐츠 또는 콘텐츠 메타데이터와 결합된 형태의 소리정보 등을 요청(512)하여 전달받는다(514). 소리정보 분석부(122)는 이를 분석(516)하여 그 결과를 샷 분할부(10)에 전달(518)하고, 샷 분할부(10)는 영상정보 분석 결과 및 소리정보 분석 결과를 이용하여 해당 콘텐츠에 대한 샷 분할을 수행한다(520).

한편, 도 5를 참조로 하여 전술한 실시 예는 샷 분할부(10)가 소리정보 분석부(122)와 연동하여 콘텐츠의 소리정보를 분석하고 이를 이용하여 샷을 분할하는 예롤 도시하였으나, 소리정보 분석부(122) 대신에 텍스트정보 분석부(124)와 연동하여 콘텐츠의 텍스트정보를 분석하고 이를 이용하여 샷을 분할할 수도 있다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

1: 콘텐츠 편집장치 10: 샷 분할부
12: 분석부 14: 저장부
120: 영상정보 분석부 122: 소리정보 분석부
124: 텍스트정보 분석부 1200: 전 처리부
1210: 영상 분석부 1220: 후 처리부

Claims

콘텐츠의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함하는 콘텐츠 정보를 분석하는 분석부; 및
상기 분석부에 콘텐츠 정보 분석을 요청하고 요청 결과로 수신한 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 샷 분할부;
를 포함하는 것을 특징으로 하는 콘텐츠 편집장치.
제 1 항에 있어서,
상기 소리정보는 배경음악 또는 대사인 것을 특징으로 하는 콘텐츠 편집장치.
제 1 항에 있어서,
상기 텍스트정보는 대본 또는 자막인 것을 특징으로 하는 콘텐츠 편집장치.
제 1 항에 있어서, 상기 분석부는
콘텐츠의 영상정보를 분석하는 영상정보 분석부;
콘텐츠의 소리정보를 분석하는 소리정보 분석부; 및
콘텐츠의 텍스트정보를 분석하는 텍스트정보 분석부;
중 적어도 하나를 포함하는 것을 특징으로 하는 콘텐츠 편집장치.
제 4 항에 있어서, 상기 영상정보 분석부는
콘텐츠를 대상으로 영상분석을 수행할 대상 프레임을 선정하는 전 처리부;
선정된 프레임에 대해 프레임 별로 영상분석을 수행하는 영상 분석부; 및
프레임 별 영상분석 결과에 대한 후 처리를 수행하는 후 처리부;
를 포함하는 것을 특징으로 하는 콘텐츠 편집장치.
제 4 항에 있어서, 상기 소리정보 분석부는
Band Periodicity, Spectrum Flux, Noise frame ratio, HZCRR(High Zero-Crossing Rate Ratio) 및 LSTER(Low Short-Time Energy Ratio) 중 적어도 하나를 이용하여 소리정보를 분석하는 것을 특징으로 하는 콘텐츠 편집장치.
제 4 항에 있어서, 상기 샷 분할부는
상기 영상정보 분석부에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 제1 샷 분할부; 및
상기 제1 샷 분할부를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 판단부; 및
상기 판단부의 판단 결과에 따라 소리정보 분석부에 소리정보 분석을 추가로 요청하여 소리정보 분석결과를 수신하고 영상정보 분석결과와 함께 소리정보 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 제2 샷 분할부;
를 포함하는 것을 특징으로 하는 콘텐츠 편집장치.
제 4 항에 있어서, 상기 샷 분할부는
상기 영상정보 분석부에 영상정보 분석을 요청하여 영상정보 분석결과를 수신하고 수신된 영상정보 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 제1 샷 분할부; 및
상기 제1 샷 분할부를 통해 샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 판단부; 및
상기 판단부의 판단 결과에 따라 텍스트정보 분석부에 텍스트정보 분석을 추가로 요청하여 텍스트정보 분석결과를 수신하고 영상정보 분석결과와 함께 텍스트정보 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 제2 샷 분할부;
를 포함하는 것을 특징으로 하는 콘텐츠 편집장치.
콘텐츠의 영상정보, 소리정보 및 텍스트정보 중 적어도 하나를 포함하는 콘텐츠 정보를 분석하는 단계; 및
콘텐츠 정보 분석결과를 이용하여 상기 콘텐츠를 구성하는 샷을 분할하는 단계;
를 포함하는 것을 특징으로 하는 콘텐츠 편집방법.
제 9 항에 있어서,
상기 소리정보는 배경음악 또는 대사인 것을 특징으로 하는 콘텐츠 편집방법.
제 9 항에 있어서,
상기 텍스트정보는 대본 또는 자막인 것을 특징으로 하는 콘텐츠 편집방법.
제 9 항에 있어서, 상기 콘텐츠 정보를 분석하는 단계는
콘텐츠의 영상정보를 분석하는 단계;
콘텐츠의 소리정보를 분석하는 단계; 및
콘텐츠의 텍스트정보를 분석하는 단계;
중 적어도 하나를 포함하는 것을 특징으로 하는 콘텐츠 편집방법.
제 12 항에 있어서, 상기 영상정보를 분석하는 단계는
콘텐츠를 대상으로 영상분석을 수행할 대상 프레임을 선정하는 단계;
선정된 프레임에 대해 프레임 별로 영상분석을 수행하는 단계; 및
프레임 별 영상분석 결과에 대한 후 처리를 수행하는 단계;
를 포함하는 것을 특징으로 하는 콘텐츠 편집방법.
제 12 항에 있어서, 상기 소리정보를 분석하는 단계는
Band Periodicity, Spectrum Flux, Noise frame ratio, HZCRR(High Zero-Crossing Rate Ratio) 및 LSTER(Low Short-Time Energy Ratio) 중 적어도 하나를 이용하여 소리정보를 분석하는 것을 특징으로 하는 콘텐츠 편집방법.
제 9 항에 있어서, 상기 샷을 분할하는 단계는
콘텐츠의 영상정보를 분석하여 샷을 분할하는 단계; 및
샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 단계; 및
판단 결과에 따라 콘텐츠의 소리정보를 분석하고 분석된 영상정보와 소리정보를 이용하여 샷을 분할하는 단계;
를 포함하는 것을 특징으로 하는 콘텐츠 편집방법.
제 9 항에 있어서, 상기 샷을 분할하는 단계는
콘텐츠의 영상정보를 분석하여 샷을 분할하는 단계; 및
샷이 분할되었는지를 분석하여 샷 분할을 위한 추가정보가 필요한지를 판단하는 단계; 및
판단 결과에 따라 콘텐츠의 텍스트정보를 분석하고 분석된 영상정보와 텍스트정보를 이용하여 샷을 분할하는 단계;
를 포함하는 것을 특징으로 하는 콘텐츠 편집방법.