KR102298066B1 - 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치 - Google Patents

영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치 Download PDF

Info

Publication number
KR102298066B1
KR102298066B1 KR1020150054757A KR20150054757A KR102298066B1 KR 102298066 B1 KR102298066 B1 KR 102298066B1 KR 1020150054757 A KR1020150054757 A KR 1020150054757A KR 20150054757 A KR20150054757 A KR 20150054757A KR 102298066 B1 KR102298066 B1 KR 102298066B1
Authority
KR
South Korea
Prior art keywords
image
scene
shot
character
information
Prior art date
Application number
KR1020150054757A
Other languages
English (en)
Other versions
KR20160021016A (ko
Inventor
정순묵
강지홍
소재민
이지효
최진욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP19192820.9A priority Critical patent/EP3591651A1/en
Priority to EP15180068.7A priority patent/EP2985706A1/en
Priority to US14/819,897 priority patent/US9684818B2/en
Priority to PCT/KR2015/008434 priority patent/WO2016024806A1/en
Priority to CN201510501547.4A priority patent/CN105373768B/zh
Publication of KR20160021016A publication Critical patent/KR20160021016A/ko
Application granted granted Critical
Publication of KR102298066B1 publication Critical patent/KR102298066B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

영상 콘텐츠 제공 방법을 개시한다. 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 방법은, 상기 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계와, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계와, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계와, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이 하는 단계를 포함한다.

Description

영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치{METHOD FOR PROVIDING IMAGE CONTENTS AND IMAGE CONTENTS PROVIDING APPARATUS}
본 발명은 영상 콘텐츠 제공 기술에 대한 것으로, 좀더 상세하게는 사용자가 선택한 캐릭터에 대한 영상 콘텐츠를 제공하는 방법 및 영상 콘텐츠 제공 장치에 대한 것이다.
디스플레이 장치를 통해 다양한 종류의 영상 콘텐츠가 서비스되면서, 사용자가 원하는 영상 콘텐츠만을 선별적으로 제공할 수 있는 기술이 개발되고 있다. 대표적으로 사용자가 원하는 배우가 등장하는 영상 콘텐츠를 선별적으로 제공하는 온디맨드 방식의 콘텐츠 서비스 기술이 상용화되고 있다.
그런데, 좀더 사용자의 요구에 부응하는 서비스를 제공하기 위해 단일 영상 콘텐츠 내에서 사용자가 원하는 특정 인물(캐릭터)이 등장하는 영상만을 편집하여 보여주는 기술이 요청된다. 특히, 콘텐츠의 장면은 사용자가 콘텐츠를 감상하는 문맥적인 의미 단위를 이루므로, 장면을 중심으로 영상을 제공하는 방안을 고려할 필요가 있다. 즉, 장면 중심으로 콘텐츠를 구분하고, 구분된 장면에 따라 콘텐츠의 캐릭터에 대한 영상을 효과적으로 제공할 수 있는 기술이 요청된다.
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 장면 중심으로 콘텐츠를 구분하고, 구분된 장면에 따라 콘텐츠의 캐릭터에 대한 영상을 효과적으로 제공할 수 있는 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치를 제공하기 위함이다.
상기와 같은 목적을 달성하기 위한, 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계를 포함한다.
상기와 같은 목적을 달성하기 위한, 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 방법은 인접하는 프레임들 사이의 영상 차이를 나타내는 영상 차이 특징 벡터를 계산하는 단계, 상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출하는 단계, 상기 검출된 샷 경계에 기초하여 상기 영상 콘텐츠를 복수의 샷으로 나누는 단계를 포함하고, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계를 포함한다.
이때, 상기 샷 경계를 검출하는 단계는, 기계학습 알고리즘을 이용하여 상기 샷 경계를 검출할 수 있다.
또한, 상기 영상 콘텐츠를 복수의 샷으로 나누는 단계는, 상기 복수의 샷 각각에 대해서 상기 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값, 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값 중 적어도 하나를 포함하는 샷 특징 벡터를 생성하는 단계와, 상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑하는 단계를 포함할 수 있다.
이때, 상기 그룹핑하는 단계는, 제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑하는 것일 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계, 제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 상기 제1 장면에 포함되는 영상 프레임의 신체 정보에 따라 상기 영상 프레임을 분류하는 단계, 상기 분류된 영상 프레임의 얼굴 정보를 분석하여 얼굴 특징 정보를 추출하는 단계, 상기 추출된 얼굴 특징 정보에 기초하여 상기 분류된 영상 프레임에 ID를 할당하는 단계, 상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성하는 단계를 포함한다. 또한, 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계를 포함한다.
이때, 상기 얼굴 특징 정보는, 적어도 하나의 얼굴 특징 벡터를 포함하는 것일 수 있다.
또한, 상기 ID를 할당하는 단계는, 상기 추출된 얼굴 특징 정보와 매칭되는 얼굴 특징 정보를 갖는 ID를 상기 분류된 영상 프레임에 할당하는 것이 될 수 있다.
또한, 상기 영상 프레임을 분류하는 단계는, 음성 정보를 더 이용하여 상기 영상 프레임을 분류하는 것을 포함할 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계, 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상 데이터를 이용하여 상기 영상 프레임을 분류하는 단계를 포함한다.
또한, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계를 포함한다.
구체적으로, 상기 영상 콘텐츠 제공 방법은, 상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상을 생성하는 단계와, 상기 생성된 영상에 포함되어 있는 상기 캐릭터와 이미 분류된 그룹의 캐릭터의 유사도를 비교하는 단계와, 상기 비교 결과 유사도가 기 설정된 값 이상인 경우, 상기 생성된 영상을 상기 이미 분류된 그룹에 포함시키는 단계를 더 포함할 수 있다.
이때, 상기 유사도를 비교하는 단계는, 상기 생성된 영상에 포함되어 있는 상기 캐릭터 이미지의 컬러 히스토그램과 상기 이미 분류된 그룹의 캐릭터의 컬러 히스토그램을 상호 비교하여 판단할 수 있다.
상기와 같은 목적을 달성하기 위한, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계, 캐릭터 노드에 포함되는 장면 노드에 대한 특징값을 캐릭터 노드에 대한 특징값과 비교하는 단계를 포함하고, 상기 비교 결과 동일성이 인정되지 않으면 상기 장면 노드를 상기 캐릭터 노드에서 삭제하는 단계를 포함한다. 그리고, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계를 포함한다.
상기와 같은 목적을 달성하기 위한, 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 장치는 상기 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 장면 구성부와, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 분류부와, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 입력부와, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이 하는 디스플레이부를 포함한다.
이때, 상기 장면 구성부는, 인접하는 프레임들 사이의 영상 차이를 나타내는 영상 차이 특징 벡터를 계산하고, 상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출하여, 상기 검출된 샷 경계에 기초하여 상기 영상 콘텐츠를 복수의 샷으로 나눌 수 있다.
또한, 상기 장면 구성부는, 기계학습 알고리즘을 이용하여 상기 샷 경계를 검출할 수 있다.
또한, 상기 장면 구성부는, 상기 복수의 샷 각각에 대해서 상기 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값, 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값 중 적어도 하나를 포함하는 샷 특징 벡터를 생성하고, 상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑할 수 있다.
또한, 상기 장면 구성부는, 제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑할 수 있다.
또한, 상기 분류부는, 제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 상기 제1 장면에 포함되는 영상 프레임의 신체 정보에 따라 상기 영상 프레임을 분류하는 신체 인식부와, 상기 분류된 영상 프레임의 얼굴 정보를 분석하여 얼굴 특징 정보를 추출하는 얼굴 인식부와, 상기 추출된 얼굴 특징 정보에 기초하여 상기 분류된 영상 프레임에 ID를 할당하는 ID 할당부와, 상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성하는 영상 구간 정보 생성부를 포함할 수 있다.
또한, 상기 얼굴 특징 정보는, 적어도 하나의 얼굴 특징 벡터를 포함할 수 있다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 본 발명은 장면 중심으로 콘텐츠를 구분하고, 구분된 장면에 따라 콘텐츠의 캐릭터에 대한 영상을 효과적으로 제공할 수 있는 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치를 제공한다.
도 1은 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 장치의 구성을 도시한 블록도,
도 2는 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치의 구성을 도시한 블록도,
도 3은 영상 분석 결과 생성되는 벡터 정보를 나타낸 도면,
도 4는 본 발명의 일 실시 예에 따른 샷 특징 벡터의 구조를 도시한 도면,
도 5 내지 8은 본 발명의 일 실시 예에 따른 장면 그룹핑 방법을 도시한 도면,
도 9는 본 발명의 일 실시 예에 따른 샷 차이 특징 벡터를 도시한 도면,
도 10은 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치의 구성을 도시한 블록도,
도 11 내지 13은 본 발명의 다양한 실시 예에 따른 영상 프레임 분류를 위한 데이터 구조를 도시한 도면,
도 14 내지 16은 본 발명의 일 실시 예에 따른 영상 프레임 분류 과정을 도시한 도면,
도 17은 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-4)의 구성을 도시한 블록도,
도 18은 인물의 자세에 따른 인물 위치 추정 범위의 변화를 도시한 도면,
도 19는 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치의 구성을 도시한 블록도,
도 20 내지 21은 본 발명의 다양한 실시 예에 따른 검증 방법을 도시한 도면,
도 22 내지 26은 본 발명의 다양한 실시 예에 따른 영상 콘텐츠 제공 방법의 흐름도,
도 27은 본 발명의 일 실시 예에 따른 캐릭터 선택 화면 및 설정 화면을 도시한 도면,
도 28은 본 발명의 다른 실시 예에 따른 캐릭터 선택 화면을 도시한 도면,
도 29는 본 발명의 또 다른 실시 예에 따른 캐릭터 선택 화면을 도시한 도면,
도 30은 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 서비스의 모식도, 그리고,
도 31은 본 발명의 일 실시 예에 따른 영상 콘텐츠 재생 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여 본 발명의 다양한 실시 예를 설명한다.
도 1은 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 장치(100-1)의 구성을 도시한 블록도이다.
본 발명의 다양한 실시 예에 따른 영상 콘텐츠 제공 장치(100-1, 100-2, 100-3, 100-4, 100-5)는 다양한 디스플레이 장치로 구현될 수 있다. 구체적으로, 하나 혹은 그 이상의 디스플레이를 구비하거나, 영상신호를 출력할 수 있는 장치이며 어플리케이션을 실행하거나 콘텐츠를 표시 가능하도록 구성되는 장치로, 예를 들어, 디지털 텔레비전(Digital television), 태블릿(Tablet) 개인 컴퓨터(Personal Computer: PC), 휴대용 멀티미디어 재생 장치(Portable Multimedia Player: PMP), 개인 정보 단말기(Personal Digital Assistant: PDA), 스마트 폰(Smart Phone), 휴대폰, 디지털 액자, 디지털 사이니지(Digital Signage), Blu-ray Player, 셋탑박스, Media Player, DVD Player, Home Theater System, Home Entertainment System, MultiMedia 재생기기 및 키오스크 중 어느 하나로 구현될 수 있다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 장치(100-1)는, 장면 구성부(110), 분류부(120), 입력부(130), 디스플레이부(140)를 포함한다.
장면 구성부(110)는 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 구성이다. 여기서 샷(shot)은 적어도 하나의 영상 프레임을 포함하며, 영상의 문맥상 하나의 시점에서 보여지는 영상 프레임의 집합이다. 샷은 하나의 카메라에 의해 특정 오브젝트가 끊김 없이 연속적으로 촬영되어 생성된 영상 프레임의 집합에 대응된다. 예를 들어, 캐릭터 A의 정면을 표시하는 영상 프레임 1, 2, 3이 있고 캐릭터 A의 후면을 표시하는 영상 프레임 4, 5, 6이 있는 경우 영상 프레임 1, 2, 3과 영상 프레임 4, 5, 6 가 서로 끊김없이 연결되는 영상이 아니라면, 영상 프레임 1, 2, 3과 영상 프레임 4, 5, 6은 서로 다른 샷을 구성한다.
장면(scene)은 영상의 문맥상 서로 연관된 샷의 집합이다. 보통 장면은 영상에 등장하는 캐릭터와 캐릭터가 위치하는 공간의 일치 여부로 판단될 수 있다. 예를 들어, 캐릭터 A,B,C가 공간 D에 등장하는 샷 1, 2, 3과 캐릭터 A,B,E가 공간 F에 등장하는 샷 4, 5, 6은 서로 상이한 장면이다. 장면을 구별하기 위해 시간 정보를 더 고려할 수 있다. 즉, 기 설정된 시간 내에 연속되는 샷은 동일한 장면을 구성하지만, 기 설정된 시간을 넘어서는 샷은 다른 장면으로 구성될 수 있다.
장면 구성부(110)는 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나눈다. 장면 구성부(110)는 영상을 분석하여 샷 경계를 검출하여 샷을 나누며, 샷을 분석하고 결합하여 장면을 구성한다. 이에 대해서는 뒤에서 좀더 구체적으로 설명한다.
분류부(120)는 각 장면 별로 영상 프레임을 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 구성이다. 분류부(120)는 각 장면별로 동일한 캐릭터가 등장하는 영상 프레임 정보를 리스트로 생성하여 관리할 수 있다. 예를 들어, 장면 0에서 캐릭터 A에 대한 영상 프레임 정보를 리스트로 생성하여 관리하고, 캐릭터 B에 대한 영상 프레임 정보를 리스트로 생성하여 관리할 수 있다. 또한, 장면 1에서 캐릭터 A, C에 대한 영상 프레임 정보를 각각 리스트로 생성하여 관리할 수 있다.
입력부(130)는 사용자 입력을 수신하는 구성이다. 구체적으로 입력부(130)는 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신한다. 후술하는 디스플레이부(140)는 사용자 입력을 위한 사용자 인터페이스를 디스플레이할 수 있다. 디스플레이부(140)는 상기 분류부(120)에 의한 영상 프레임 분류 결과 영상 콘텐츠에 포함되는 캐릭터 정보 및 장면 정보 중 적어도 하나를 표시할 수 있다. 사용자는 시청을 원하는 캐릭터 및 장면 정보 중 적어도 하나를 선택하는 입력을 할 수 있다.
입력부(130)는 영상 콘텐츠 제공 장치(100-1, 100-2, 100-3, 100-4, 100-5)에 구비된 적어도 하나의 물리적 버튼 또는 터치 패널을 포함할 수 있다. 사용자가 버튼을 누르거나 터치 패널 상의 오브젝트를 터치함으로써, 대응되는 제어 명령이 생성되며, 생성된 제어 명령에 따라 영상 콘텐츠 제공 장치(100-1, 100-2, 100-3, 100-4, 100-5)가 동작한다.
이와 달리 입력부(130)는 근거리 통신 모듈을 포함하는 원격 제어 장치가 될 수 있다. 사용자는 원격 제어 장치의 버튼을 누름으로써, 제어 명령을 생성시킬 수 있다. 원격 제어 장치가 터치 패널이나 움직임 센서를 구비한 경우, 사용자의 터치나 리모콘의 움직임은 제어 명령을 생성한다.
디스플레이부(140)는 다양한 오브젝트를 디스플레이 하는 구성이다. 특히, 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이한다. 예를 들어, 캐릭터 A가 선택되면 A를 포함하는 장면을 디스플레이하거나, A를 포함하는 샷을 디스플레이 할 수 있다. 전자의 경우 A가 포함되는 장면은 A를 포함하는 샷과 A를 포함하지 않는 샷을 모두 포함할 수 있다. 이와 달리 캐릭터 A가 선택되고 특정 장면이 선택되면, 선택된 장면 중에서 A를 포함하는 샷만을 디스플레이 할 수도 있다.
디스플레이부(140)는 다양한 디스플레이 패널로 설계될 수 있다. 즉, 디스플레이부(140)는 유기발광 다이오드 OLED(Organic Light Emitting Diodes), 액정 디스플레이 패널(Liquid Crystal Display Panel: LCD Panel), 플라즈마 디스플레이 패널(Plasma Display Panel: PDP), VFD(Vacuum Fluorescent Display), FED(Field EmissionDisplay), ELD(Electro Luminescence Display)등 다양한 디스플레이 기술로 구현될 수 있다. 디스플레이 패널은 주로 발광형으로 이루어질 것이지만, 반사형 디스플레이(E-ink, P-ink, Photonic Crystal)를 배제하는 것은 아니다. 또한, 플렉서블 디스플레이(flexible display), 투명 디스플레이(transparent display) 등으로 구현 가능할 것이다. 또한, 영상 콘텐츠 제공 장치(100-1)는 두 개 이상의 디스플레이 패널을 구비하는 멀티 디스플레이 장치로 구현 가능할 것이다.
이하에서는 본 발명의 다양한 실시 예를 좀더 상세하게 설명한다.
도 2는 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-2)의 구성을 도시한 블록도이고, 도 3은 영상 분석 결과 생성되는 벡터 정보를 나타낸 도면이다.
도 2를 참조하면, 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-2)는, 장면 구성부(110), 분류부(120), 입력부(130), 디스플레이부(140)를 포함한다. 분류부(120), 입력부(130), 디스플레이부(140)에 대해서는 중복 설명은 생략한다. 장면 구성부(110)는 도 2에 도시된 것처럼 영상 분석부(111), 샷 경계 검출부(113), 샷 분석부(115), 샷 결합부(117)를 포함할 수 있다.
영상 분석부(111)는 영상 콘텐츠를 분석하는 구성이다. 영상 콘텐츠를 분석한 결과로 영상 분석부(111)는 특징 벡터를 구성할 수 있다. 특징 벡터는 영상 특징 벡터, 영상 차이 특징 벡터, 오디오 특징 벡터를 포함한다. 영상 특징 벡터는 도 3의 (A)에 도시된 것처럼 한 영상 프레임의 영상 컬러(RGB/HSV)의 평균 및 분산(Pixel Color), 컬러 히스토그램(Color Histogram), 엣지 정보(Edge), 얼굴 인식 ID 정보(FaceIDs) 중 적어도 하나를 포함한다. 영상 특징 벡터는 리스트 형태로 생성되어 관리될 수 있다. 또한, 도 3의 (B)에 도시된 것처럼 영상 차이 특징 벡터는 연속된 두 프레임 간의 픽셀 차이(Pixel Color Difference), 히스토그램 차이(Color Histogram Difference), 모션 벡터의 크기(Motion Vectors), 차 영상의 엣지 크기(Edge Difference) 중 적어도 하나를 포함할 수 있다. 또한, 영상 분석부(111)는 영상 콘텐츠에 포함되어 있는 음성 데이터를 분석할 수 있는데, 이 경우 도 3의 (C)와 같이 일정 길이의 오디오로부터 분석한 볼륨(volume), 파워(energy), 서브 밴드 에너지(sub-band energy), 로우 쇼트 타입 에너지 비율(low shot-time energy ratio), 제로 크로싱 비(zero crossing rate), 주파수 중심(frequency centroid), 주파수 대역폭(frequency bandwidth), 스펙트럼 변화(spectral flux), 켑스트랄 변화(cepstral flux) 중 적어도 하나를 포함할 수 있다. 영상 차이 특징 벡터, 오디오 특징 벡터 역시 리스트 형태로 생성되어 관리될 수 있다.
영상 차이 특징 벡터는 후술하는 것처럼 샷 경계 검출의 입력으로 사용되고, 영상 특징 벡터와 오디오 특징 벡터는 샷 단위의 특징 벡터를 연산하는데 사용된다. 여기에 열거된 영상 및 오디오를 분석하는 요소로 사용된 특징은 반드시 모두 사용되어야 되는 것은 아니며, 또한 다른 특징들로 대체될 수 있다. 예를 들면, 실시간으로 제한된 CPU 및 메모리만이 사용 가능한 모바일 기기에 본 발명을 사용한다면 연산량이 많은 모션 정보, 엣지 정보 추출, 얼굴 인식기 등은 특징 벡터 구성에서 제외되거나 다른 특징으로 대체하여 사용될 수 있다. 영상 차이 특징 벡터는 리스트 형태로 생성되어 관리될 수 있다.
샷 경계 검출부(113)는 샷 경계를 검출하는 구성으로, 상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출한다. 샷 경계 검출부(113)는 이전 단계에서 추출한 영상 차이 특징 벡터를 이용하여, 이전 프레임과 현재 프레임 영상 간에 일정 크기 이상의 영상 변화가 발생하였는지를 검출한다. 이때, 검출하는 샷 경계는 영상의 급격한 변화뿐만이 아닌, 영상 편집 효과에 의해 점진적으로 변화하는 페이드 인/아웃(Fade In/Out), 디졸브(Dissolve) 효과도 포함한다.
샷 경계 검출부(113)는 효과적인 샷 경계 검출을 위해, 영상의 차이 벡터를 입력으로 하고 현재 프레임이 샷의 경계에 해당하는지 여부를 출력으로 하는 샷 경계 검출기를 기계학습 알고리즘을 통해 생성할 수 있다. 이때 사용되는 기계 학습 알고리즘에는 Support Vector Machine, Neural Network, Decision Tree 등 다양한 방법이 있을 수 있다.
샷 분석부(115)는 샷 경계 정보에 기초하여 샷을 분석하는 구성이다. 구체적으로 샷 분석부(115)는 샷 경계를 중심으로 샷을 나누어 각 샷에 대한 샷 특징 벡터를 생성한다.
도 4는 본 발명의 일 실시 예에 따른 샷 특징 벡터의 구조를 도시한 도면이다.
샷 분석부(115)는 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보(Start Time), 복수의 샷 각각의 종료 시간 정보를 나타내는 샷 종료 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값(Shot Image Feature : 샷 영상 특징), 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값(Shot Audio Feature : 샷 오디오 특징) 중 적어도 하나를 포함하는 샷 특징 벡터를 생성한다.
샷의 시작 시간은 다음의 샷 결합 단계에서 샷 간의 시간차를 계산하기 위해 사용된다. 샷 영상 특징은 도 4에 도시된 것처럼 샷을 구성하는 영상 특징 벡터들의 평균 및 편차(Pixel Color, Color Histogram, Motion Vectors, Edge), 얼굴 인식기에 의해 검출된 얼굴 ID들 중 적어도 하나를 포함한다. 샷 오디오 특징은 샷을 구성하는 오디오 특징 벡터들의 평균 및 편차 외에 오디오 종류 분석, 화자 인식을 통해 얻은 오디오 분류 정보, 화자 인식 ID 중 적어도 하나를 포함한다. 이때, 오디오 종류는 음성대화, 음악, 사일런스(Silence) 등으로 구분되는 정보이며, 화자 인식은 동일한 목소리의 화자에게 동일한 ID가 부여된 정보이다.
샷 오디오 특징에서 사용되는 오디오 종류 분석과 화자 인식은 샷 구간의 오디오 데이터를 입력으로 하여 해당 기능을 수행하는 오디오 종류 인식기와 화자 인식기를 통해 추출된다. 여기에 열거된 샷 단위의 영상 및 오디오를 분석하는 요소로 사용된 특징은 반드시 모두 사용되어야 되는 것은 아니며, 또한 다른 특징들로 대체되어 사용될 수 있다. 예를 들면, 실시간으로 제한된 CPU 및 메모리만이 사용 가능한 모바일 기기에 본 발명을 사용한다면 연산량이 많은 화자인식, 오디오 종류 분석 등은 특징 벡터 구성에서 제외되거나, 다른 특징으로 대체하여 사용될 수 있다.
샷 결합부(117)는 상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑한다.
샷 결합부(117)는 앞서 검출된 일련의 샷 단위의 특징 벡터들을 일정 크기의 윈도우에 큐(Queue)와 같은 형태로 입력하고, 윈도우 내부의 샷 특징 벡터들을 서로 비교한다.
샷 결합부(117)는 제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑한다(이때, n>1, n은 정수). 즉, 서로 유사한 샷이 존재하면, 두 개의 유사한 샷 중간의 샷을 모두 하나로 결합한 하나의 장면으로 만드는 작업을 수행한다.
샷 결합부(117)는 새롭게 검출된 샷(=현재 샷)을 결합 윈도우에 입력한다. 그리고, 결합 윈도우에 새롭게 추가된 현재 샷을 기존의 샷들과 유사도를 비교한다. 만일 두 샷 간의 유사도가 기준치 이상이면 비교 샷과 현재 샷 사이에 있는 모든 샷을 포함해서 동일한 장면 번호를 할당한다. 그러나, 두 샷 간의 유사도가 기준치 이하이면 현재 샷에 새로운 장면 번호를 할당한다. 새로운 샷이 검출될 때마다 상기 과정을 반복한다.
상기 결합 윈도우의 크기는 최소 2이상이며, 임의로 변경 가능하다. 결합 윈도우 내 샷 간 유사도를 비교할 때는 이전 단계에서 얻은 샷 특징 벡터로부터 샷 차이 특징 벡터를 구하고, 이를 기계학습 알고리즘으로 학습된 샷 유사도 검출기에 입력으로 사용한다. 샷 유사도 검출기는 샷 간의 유사도를 일정 범위의 값을 가지는 수치로 반환하며, 만일 이 유사도가 설정된 임계치 이상이면 두 샷은 동일한 장면이라 판단한다.
도 5 내지 8은 본 발명의 일 실시 예에 따른 장면 그룹핑 방법을 도시한 도면이다.
도 5에서 새로운 샷 4를 현재 결합 윈도우에 포함되어 있는 샷 0~3과 비교한다. 유사도가 기준치 미만이므로 샷 4는 이전 샷과 다른 새로운 장면 번호가 할당된다. 샷 4를 기준으로 이전 단계의 샷 3을 결합 윈도우에 포함되어 있는 샷과 비교한다. 그 결과 샷 3이 샷 0과 유사하므로 샷 0부터 샷 3까지는 동일한 장면 번호 0이 할당된다.
도 6에서 새로운 샷 5가 결합 윈도우에 추가된다. 마찬가지로 샷 5를 결합 윈도우에 포함되어 있는 이전의 샷들과 비교한다. 비교 결과 샷 2와 샷 5가 유사하하므로 샷 2와 샷 5는 동일한 장면 번호가 할당된다. 그런데, 샷 2는 이전 단계에서 장면 0으로 그룹핑이 되었으므로 샷 5도 동일한 장면 0으로 그룹핑된다.
도 7에서 새로운 샷 6이 결합 윈도우에 추가된다. 마찬가지로 샷 6을 결합 윈도우에 포함되어 있는 이전의 샷들과 비교한다. 비교 결과 샷 6과 유사한 샷이 존재하지 않으므로 샷 6은 새로운 장면 번호 1이 할당된다.
도 8에서 새로운 샷 7이 결합 윈도우에 추가된다. 마찬가지로 샷 7을 결합 윈도우에 포함되어 있는 이전의 샷들과 비교한다. 비교 결과 샷 7과 유사한 샷이 존재하지 않으므로 샷 7은 새로운 장면 번호 2가 할당된다.
도 9는 본 발명의 일 실시 예에 따른 샷 차이 특징 벡터를 도시한 도면이다.
도 9에 도시된 것처럼 샷 차이 특징 벡터는 시작 시간 차이(Start time Difference), 샷 간 영상 차이(Shot Image Difference Feature), 샷 간 오디오 차이(Shot Audio Difference Feature) 필드를 포함한다. 시작 시간 차이 필드는 샷 간의 시간차가 작을수록(기 설정된 값 미만) 두 샷이 동일한 장면일 확률이 높다. 따라서, 샷 간의 시작시간 차이를 샷 간의 유사도를 판단하는 중요한 변수로서 사용한다. 샷 간 영상 차이 필드는 샷 간의 컬러값 분포 차이, 히스토그램 분포 차이, 모션/엣지 차이, 두 샷에 공통으로 존재하는 얼굴 ID의 수 중 적어도 하나를 영상 특징으로 사용한다. 샷 간 오디오 차이 필드는 샷 간의 볼륨, 파워, 스펙트럼 차이 외에 동일한 화자 ID의 수, 동일한 오디오 종류 여부 중 적어도 하나를 오디오 특징으로 사용한다.
종래의 영상 기반의 장면 전환 기술들은 단순히 연속된 영상 간의 변화만을 계산하여 급격히 영상이 변화하는 지점을 검출하였다. 따라서, 동영상에서 영상이 급격히 변화하는 장면의 경우 필요 이상으로 많은 샷이 검출되는 문제점이 있다. 또한, 스토리가 있는 동영상에 대한 빠른 탐색 기능 및 요약 기능에 장면 전환 검출 기술을 적용할 때는 문맥상 서로 연관성이 있는 장면을 하나의 장면으로 검출할 수 있는 기능이 필요한데, 종래의 영상 기반 장면 전환 기술들은 이러한 기능을 구비하지 못했다.
상술한 본 발명의 다양한 실시 예에 따른 영상 콘텐츠 제공 장치(100-1)는, 단순히 인접한 샷 간의 오디오 정보를 비교하여 결합하는 대신에, 샷의 시간 정보와 얼굴 인식 정보를 포함한 영상 분석 정보, 그리고 화자 인식을 포함한 오디오 정보를 모두 활용하여, 여러 개의 연속된 샷을 비교하여 하나의 장면으로 결합하는 큐 윈도우 기반의 장면 전환 검출 방법을 제공한다.
특히, 본 발명은 일정 크기의 윈도우를 사용하여, 서로 인접하지 않은 샷 끼리도 유사도를 비교하여 동일한 장면 여부를 판단하는 특징이 있다. 또한, 샷 간의 유사도 비교시 오디오 특징 정보뿐 아니라, 샷의 시작 시간 정보와 영상 특징 정보를 동시에 활용하여, 오디오 특징 만으로 유사성을 찾기 어려운 샷 간에도 비교하여 동일한 장면인지를 판단이 가능하다. 또한, 영상 분석시 얼굴 인식, 오디오 분석에서는 화자 인식 정보를 샷간 유사도 비교에 활용하여, 문맥상 연관성을 고려한 장면 검출이 가능하다.
도 10은 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-3)의 구성을 도시한 블록도이고, 도 11 내지 13은 본 발명의 다양한 실시 예에 따른 영상 프레임 분류를 위한 데이터 구조를 도시한 도면이다.
도 10을 참조하면, 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-3)의 분류부(120)는 신체 인식부(121), 얼굴 인식부(123), ID 할당부(125), 영상 구간 정보 생성부(127)를 포함한다. 입력부(130), 디스플레이부(140)에 대해서는 전술한 바와 같으므로 중복 설명을 생략한다.
신체 인식부(121)는, 제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 상기 제1 장면에 포함되는 영상 프레임의 신체 정보에 따라 상기 영상 프레임을 분류한다. 구체적으로 신체 인식부(121)는 제1 장면에 포함되는 영상 프레임을 모두 분석하여 영상 프레임의 신체 정보에 대응되는 특징값에 따라 동일한 신체 정보로 볼 수 있는 영상 프레임끼리 그룹핑한다. 기본적으로 상이한 그룹은 상이한 인물을 나타낸다.
그 결과, 신체 인식부(121)는 각 그룹별로 신체 특징 정보를 갖는 노드 리스트를 생성한다. 각 그룹의 하위 노드는 상기 신체일부 영역이 추출된 프레임 시간정보(220)와 검출된 얼굴이미지(230)를 포함한다. 만약, 추출된 신체특징 정보와 부합되는 그룹이 존재하지 않으면, 새로운 그룹을 생성하고 그 그룹의 하위 노드로 포함시킨다. 그러나 신체일부 정보 비교과정에서 오류가 발생하면 의도하지 않은 인물들에 대한 정보가 구성요소로 포함될 수 있다. 이러한 오류 요소를 제거하기 위해 영상 프레임에 대한 음성정보에서 식별된 주화자 인식정보(260)와 구성요소에서의 얼굴 이미지(230)를 비교해 그 일치성 여부를 판단하여 일치하지 않는 요소(270)가 검출되면 해당 요소는 그 그룹에서 제거된다.
얼굴 인식부(123)는 상기 분류된 영상 프레임의 얼굴 정보를 분석하여 얼굴 특징 정보를 추출한다. 그룹에 새로운 데이터가 추가될 때마다, 얼굴 인식부(123)는 해당 데이터가 포함하고 있는 얼굴 이미지로부터 얼굴 특징정보를 추출하고, 각 그룹별로 얼굴 특징 리스트(310)를 생성한다. 얼굴 특징 리스트(310)는 도 11에 도시된 것처럼 얼굴 특징 정보에 따라 복수의 얼굴 특징 노드(320)를 포함한다. 얼굴 특징 노드(320)는 그룹에 속하는 인물의 구별되는 얼굴 특징 정보를 포함한다. 그리고, 하나의 얼굴 특징 노드(320)는 서로 유사한 얼굴 특징을 갖는 영상 프레임의 특징 벡터(330)를 포함한다.
상기와 같이 얼굴 특징 리스트(310)를 생성하게 되면, ID 할당부(125)는 도 12와 같이 기 설정된 ID리스트(410)에서 매칭되는 얼굴 특징을 찾는다. ID 할당부(125)는 상기 추출된 얼굴 특징 정보(320)에 기초하여 상기 분류된 영상 프레임에 ID를 할당한다. 구체적으로, 도 12와 같이 ID 리스트(410)는 ID별로 캐릭터의 얼굴 특징 정보를 나타내는 적어도 하나의 얼굴 특징 노드(420)를 포함한다. ID 할당부(125)는 추출된 얼굴 특징 정보(320)를 ID 리스트(410)의 ID별 얼굴 특징 정보(420)와 비교하여 매칭되는 ID를 찾는다. 그리고, 매칭되는 ID를 분류된 영상 프레임에 할당한다. 구체적으로는 매칭되는 ID를 분류된 그룹에 할당한다.
상기 특징 벡터들은 동일인물이라도 그 얼굴 표정이나 포즈에 따라 그 값이 다양할 수 있다는 가정 하에 한 단위(340)로 묶어져 특징벡터 비교과정을 통해 신규 ID로 등록 또는 기존 생성된 ID 하위 요소로 추가되어 진다.
영상 구간 정보 생성부(127)는 상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성한다. 구체적으로 도 12에 도시된 것처럼 구간의 이름(430), ID(440), 구간 시작 시간(450), 종료 시간(460), 구간의 캐릭터에 대한 대표 섬네일 이미지(470)를 포함하는 영상 구간 정보를 생성한다.
도 13에 도시된 것처럼 각 캐릭터 별로 장면 정보가 관리된다. 캐릭터 노드(510)는 캐릭터가 등장하는 장면 노드(520)와 연결되고, 장면 노드(520)는 상기 영상 구간 정보에 연결된다. 따라서 캐릭터 노드(510)를 통해 해당 캐릭터가 등장하는 장면 정보를 알 수 있고, 각 장면에 대한 영상 구간 정보에도 접근할 수 있다. 영상 구간 정보의 인물 ID(440)는 각 캐릭터 노드(510)의 인물 ID(530)와 비교과정을 통해 분류되는데, 부합되는 그룹이 없을 경우 새로 ID를 할당하여 그룹(캐릭터 노드)을 생성시키기고 그 장면 노드(520)로 추가되어진다. 최종적으로는 불특정 인물들에 대한 장면정보(시작/끝/썸네일)가 수집되어 지고, 사용자가 선택한 인물 ID에 대한 장면정보들은 상위 시스템으로 전달되어져 사용자는 자신이 선택한 인물에 관한 컨텐츠 장면들만 시청할 수 있게 된다.
도 14 내지 16은 본 발명의 일 실시 예에 따른 영상 프레임 분류 과정을 도시한 도면이다.
도 14에 도시된 것처럼 제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 제1 장면에 포함되는 영상 프레임을 모두 분석하여 영상 프레임의 신체 정보에 대응되는 특징값에 따라 동일한 신체 정보로 볼 수 있는 영상 프레임끼리 그룹핑한다. 도 14에서 제1 영상 프레임에 대한 얼굴 이미지(11)과 신체 이미지(12), 제2 영상 프레임에 대한 얼굴 이미지(13)와 신체 이미지(14)가 표시되어 있다. 1번부터 7번까지 7명의 캐릭터에 대해 영상 프레임이 분류되었음을 알 수 있다. 이때, 각 영상 프레임에 대한 음성정보에서 식별된 주화자 인식정보와 구성요소에서의 얼굴 이미지를 비교해 그 일치성 여부를 판단하여 일치하지 않는 요소가 검출되면 해당 요소는 그 그룹에서 제거될 수 있다.
그리고, 전술한 얼굴 인식부(123)는 상기 분류된 영상 프레임의 얼굴 정보를 분석하여 얼굴 특징 정보를 추출한다. 얼굴 특징 리스트는 얼굴 특징 정보에 따라 복수의 얼굴 특징 노드(320)를 포함한다. 얼굴 특징 노드(320)는 동일 캐릭터 내에서 얼굴 표정이나 방향에 따라 구별되는 얼굴 특징을 나타낸다. 도 15는 얼굴 특징 노드별로 동일 캐릭터를 분류한 결과를 나타내고 있다. 도 14에서 영상 프레임 중 다른 영상 프레임과 구별되는 특징을 갖는 영상 프레임(16, 17)이 별도의 얼굴 특징 노드(320)로 분류되었음을 알 수 있다. 도 15에서는 얼굴 특징에 대응되는 신체 정보는 생략되어 있다.
ID 할당부(125)는 상기 추출된 얼굴 특징 정보에 기초하여 상기 분류된 영상 프레임에 ID를 할당하고, 영상 구간 정보 생성부(127)는 동일 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성한다. 도 16은 최종적으로 생성된 영상 구간 정보를 나타낸다.
종래기술은 영상 콘텐츠 내의 얼굴 특징정보만을 이용해 등장인물을 식별하거나, 특정인물에 대한 장면요약을 수행함에 따라 사전에 인물에 대한 DB 수집 및 구축은 필수적이었다. 그러나 동일인물이라도 인물의 얼굴표정이나 얼굴포즈에 따라 인식결과는 현저히 달라질 수 있으므로 얼굴 특징정보만으로는 동일인물 식별에 한계가 있으며, 사전에 특정인물에 대한 정보 수집 및 구축 작업은 별도의 시간과 자원을 요구하는 불편을 주었다.
본 발명은 영상 콘텐츠에 등장하는 불특정 다수에 대한 장면모음을 목적으로 한다. 즉, 사전에 인물 DB정보수집 및 구축이 불필요한 온라인 방식으로, 실시간 영상 및 음성 데이터를 분석하여 검출된 익명의 인물들에게 고유 ID값을 부여함으로써 불특정 인물들을 식별해준다. 또한 인물 식별을 위해 얼굴 인식기 같은 단일 방법을 사용하는 대신 인물의 얼굴정보 외 다른 특징정보도 함께 고려하여 보다 강인한 인물 식별을 수행한다. 이를 위해 얼굴 정보와 신체일부 정보를 결합시키고, 음성 분석을 통해 인식된 주화자 정보를 이용하여 다양한 얼굴표정이나 얼굴포즈에도 강인한 동일인물 장면모음을 수행한다.
도 17은 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-4)의 구성을 도시한 블록도이다.
도 17을 참조하면, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-4)는 동일 인물 판단부(150)를 더 포함할 수 있고, 상기 동일 인물 판단부(150)는 crop부(151), 색상 분포 추출부(153), 유사도 판단부(155), 특징값 갱신부(157), 출력부(159)를 포함할 수 있다. 영상 콘텐츠 제공 장치(100-4)는 장면 구성부(110), 입력부(130), 디스플레이부(140)를 포함하는데 이에 대해서는 전술한 바 있으므로 중복 설명은 생략한다.
동일 인물 판단부(150)는 영상 프레임에 포함된 캐릭터의 동일성을 판단하는 구성이다. 상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 동일 인물 판단부(150)는 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상 데이터를 이용하여 상기 캐릭터를 식별하고 식별 정보를 분류부(120)에 넘겨준다. 분류부(120)는 식별 정보에 기초하여 상기 영상 프레임을 분류한다.
구체적으로, 상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 동일 인물 판단부(150)는 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상을 생성한다. 그리고, 상기 생성된 영상에 포함되어 있는 상기 캐릭터와 이미 분류된 그룹의 캐릭터의 유사도를 비교한다. 동일 인물 판단부(150)는 인물이 검출된 이후 검출된 위치와 얼굴 크기를 기반으로 인물의 범위를 추정하고 해당 범위에 대해 색상 정보의 분포를 이용하여 이미 분류된 그룹의 캐릭터와 비교하여 동일 인물여부를 판별한다. 상기 비교 결과 유사도가 기 설정된 값 이상인 경우, 식별 정보를 분류부(120)에 넘겨주고, 상기 생성된 영상을 상기 이미 분류된 그룹에 포함시킨다.
도 18은 인물의 자세에 따른 인물 위치 추정 범위의 변화를 도시한 도면이다.
Crop부(151)는 얼굴 인식부로부터 검출된 얼굴 크기 및 위치를 기반으로 캐릭터의 신체 위치를 추정한다. 그리고, 얼굴 범위 내 살색 분포를 토대로 얼굴의 돌아감 정보를 추정하여 캐릭터의 신체 위치를 보정한다.
얼굴 인식부를 통해 캐릭터 얼굴의 위치와 크기를 획득할 경우 캐릭터가 정면을 바라보면 문제가 되지 않으나(도 18의 (A)) 캐릭터의 자세가 돌아가 있을 경우 도 18의 (B)와 같이 배경이 캐릭터 범위에 포함되게 된다(182, 183). 배경이 캐릭터의 범위에 포함되게 되면 같은 캐릭터가 다른 배경에 등장하였을 경우 그 영향을 받을 수 있기 때문에 콘텐츠 내 캐릭터의 자세가 얼마나 돌아가 있는지 추정하여 보정할 필요가 있다.
그러나 자세 추정을 위해 캐릭터의 눈, 코, 입 등의 텍스쳐의 상대적 위치 등을 계산하는 것은 영상 콘텐츠 제공 장치 내에서 수행하기에 너무 무거운 인식 방법이므로 적합하지 않다. 따라서, 상대적으로 가벼운 방법인 얼굴 범위 내 살색이 차지하는 비율을 이용하는 방법으로 인물의 회전 정도를 추정하고 이를 이용해 사용자의 범위에도 반영할 수 있다.
도 18의 (B)와 같이 캐릭터가 왼쪽으로 자세가 돌아가 있을 경우 눈, 코, 입의 위치로 인해 얼굴의 위치 추정이 캐릭터 기준 왼쪽으로(시청자 기준 오른쪽) 이동하게 된다. 이 경우 시청자 기준 오른쪽 위치에 얼굴이 아닌 배경이 존재하게 되며 살색을 기준으로 이를 판단하게 되고, 인물의 자세를 대략적으로 추정할 수 있게 된다. (C)와 같이 얼굴(184)과 같은 비율로 인물의 신체 위치 범위(185)를 추정할 수 있다. 즉, 원래의 얼굴 위치를 기준으로 추정된 신체 범위에서 얼굴과 같은 비율에 따라 신체 범위 일부를 제거한 이미지를 얻을 수 있다.
색상 분포 추출부(153)는 얼굴 이미지에서 배경을 제외한 이미지 영역과 신체 이미지에서 배경을 제거한 이미지 영역의 색상 분포를 추출한다.
유사도 판단부(155)는 추출된 색상 정보 분포를 토대로 이미 분류된 그룹의 캐릭터의 유사도를 비교한다. 유사도가 기 설정된 값 이상인 경우, 기존에 분류된 그룹의 캐릭터와 동일 캐릭터인 것으로 판단된다.
상대적으로 적은 계산 과정을 통해 동일 캐릭터를 판단하기 위해 컬러의 히스토그램 분포(색상 정보 분포)를 이용하여 유사도를 계산한다. 이를 위해 캐릭터의 범위로 판단된 이미지 영역에 대해 조명 변화에 의한 영향을 줄이기 위해 컬러 값을 정규화(Normalization) 한 후 히스토그램을 계산하고 특정 값이 미세하게 변하는 것에 대한 영향을 줄이기 위해 필터를 이용한 스무딩(Smoothing) 과정을 거친다.
유사한 것으로 판단된 그룹의 캐릭터에 대한 식별 정보가 특징값 갱신부(157)로 전달될 수 있다. 또한, 유사도 판단부(155)는 유사한 것으로 판단된 그룹의 캐릭터에 대한 색상 분포 정보를 갱신한다.
출력부(159)는 상기 비교 결과에 따른 식별 정보를 분류부(120)에 넘겨준다.
이처럼 본 발명은 종래기술과 달리 간단한 알고리즘을 통해 캐릭터의 동일성을 판단하여 다양한 각도에서의 영상이 일정 분량 이상 학습 데이터로서 관리되는 장점을 갖는다.
도 19는 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-5)의 구성을 도시한 블록도이다.
도 19을 참조하면, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 장치(100-5)는 장면 구성부(110), 분류부(120), 입력부(130), 디스플레이부(140) 외에 검증부(160)를 더 포함한다. 장면 구성부(110), 분류부(120), 입력부(130), 디스플레이부(140)에 대해서는 중복 설명은 생략한다.
검증부(160)는 분류부(120)에 의해 분류된 영상 프레임을 검증하는 구성이다. 구체적으로, 검증부(160)는 전술한 캐릭터 노드(510)에 포함되는 장면 노드(520)가 캐릭터 노드(510)의 특징에 부합하는지를 검증한다. 이를 위해 검증부(160)는 캐릭터 노드(510)에 포함되는 장면 노드(520)를 하나씩 읽어 캐릭터 노드(510)의 캐릭터의 특징값과 장면 노드의 캐릭터의 특징값을 비교한다. 장면 노드(520)의 캐릭터의 특징값이 캐릭터 노드(510)의 캐릭터의 특징값과 유사한 경우는 다음 장면 노드(520)로 넘어가거나 검증을 종료한다. 만일 장면 노드(520)의 캐릭터의 특징값이 캐릭터 노드(510)의 캐릭터의 특징값과 유사하지 않은 경우라면 장면 노드(520)를 캐릭터 노드(510)에서 삭제하고 장면 노드(520)의 캐릭터 특징과 매칭되는 캐릭터 노드(510)를 검색한다. 장면 노드(520)의 캐릭터 특징과 유사한 캐릭터 특징을 갖는 캐릭터 노드(510)가 발견되면, 해당 캐릭터 노드(510)에 장면 노드(520)를 삽입한다.
유사도 판단은 캐릭터 노드(510)와 장면 노드(520)가 복수의 특징값을 갖는 경우 동일한 값을 갖는 특징값의 개수로 판단될 수 있다. 예를 들어, 특징값의 종류가 5가지일 경우 3가지 이상이 상호 동일하면 동일한 캐릭터로 판단할 수 있다. 각 특징값에 대해서도 일정 범위의 유사도를 설정할 수 있다. 예를 들어, 특징값의 종류가 나이인 경우, 캐릭터 노드(510)가 31세~35세 범위를 갖을 수 있고, 장면 노드(520)의 나이가 상기 범위에 속하는 경우 양자를 동일한 것으로 판단할 수 있다.
도 20 내지 21은 본 발명의 다양한 실시 예에 따른 검증 방법을 도시한 도면이다.
도 20의 실시 예에서 캐릭터 #1은 6개의 장면 노드를 포함하고 있으며, 캐릭터 #2는 4개의 장면 노드를 포함하고, 캐릭터 #3은 3 개의 장면 노드를 포함하고 있음을 알 수 있다. 검증부(160)는 캐릭터 #1부터 각 장면 노드의 특징값을 캐릭터 노드의 특징값과 비교한다. 캐릭터 노드 #1의 장면 노드 #3은 인식된 얼굴 특징값이 B로 나타났으므로 캐릭터 노드 #1의 얼굴 특징값 A와 차이가 있다. 그러나, 다른 특징인 나이와 성별이 캐릭터 노드 #1과 유사 범위에 있으므로 전체적으로 유사한 장면 노드라고 판단할 수 있다. 반면, 장면 노드 #4는 성별과 얼굴이 모두 캐릭터 노드 #1과 다르므로 캐릭터 노드 #1에서 삭제한다. 그리고, 다른 캐릭터 노드 #2, #3의 특징값과 유사한지 판단한다. 도 20에 도시된 것처럼 캐릭터 노드 #1의 장면 노드 #4는 유사한 캐릭터 노드가 없으므로 최종적으로 삭제된다. 그러나, 캐릭터 노드 #1의 장면 노드 #5는 캐릭터 노드 #1의 특징값과 비유사하지만, 캐릭터 노드 #3과 유사하므로 캐릭터 노드 #3에 포함시킨다.
이처럼 본 발명은 인물 요약으로 분류가 완료된 장면 리스트에 대해 검증 방법을 적용함으로써 중간 혹은 최종 리스트를 재분류하여 오인식을 감소시킬 수 있게 된다.
이하에서는 본 발명의 다양한 실시 예에 따른 영상 콘텐츠 제공 방법을 설명한다.
도 22 내지 26은 본 발명의 다양한 실시 예에 따른 영상 콘텐츠 제공 방법의 흐름도이다.
도 22를 참조하면, 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계(S2210), 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계(S2220), 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계(S2230), 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계(S2240)를 포함한다.
도 23을 참조하면, 본 발명의 다른 실시 예에 따른 영상 콘텐츠 제공 방법은 인접하는 프레임들 사이의 영상 차이를 나타내는 영상 차이 특징 벡터를 계산하는 단계(S2310), 상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출하는 단계(S2320), 상기 검출된 샷 경계에 기초하여 상기 영상 콘텐츠를 복수의 샷으로 나누는 단계(S2330)를 포함하고, 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계(S2340), 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계(S2350), 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계(S2360)를 포함한다.
이때, 상기 샷 경계를 검출하는 단계는, 기계학습 알고리즘을 이용하여 상기 샷 경계를 검출할 수 있다.
또한, 상기 영상 콘텐츠를 복수의 샷으로 나누는 단계는, 상기 복수의 샷 각각에 대해서 상기 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값, 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값 중 적어도 하나를 포함하는 샷 특징 벡터를 생성하는 단계와, 상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑하는 단계를 포함할 수 있다.
이때, 상기 그룹핑하는 단계는, 제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑하는 것일 수 있다.
도 24를 참조하면, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계(S2410), 제1 장면에서 제2 장면으로의 장면 전환이 발생하면(S2420-Y), 상기 제1 장면에 포함되는 영상 프레임의 신체 정보에 따라 상기 영상 프레임을 분류하는 단계(S2430), 상기 분류된 영상 프레임의 얼굴 정보를 분석하여 얼굴 특징 정보를 추출하는 단계(S2440), 상기 추출된 얼굴 특징 정보에 기초하여 상기 분류된 영상 프레임에 ID를 할당하는 단계(S2450), 상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성하는 단계(S2460)를 포함한다. 또한, 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계(S2470), 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계(S2480)를 포함한다.
이때, 상기 얼굴 특징 정보는, 적어도 하나의 얼굴 특징 벡터를 포함하는 것일 수 있다.
또한, 상기 ID를 할당하는 단계는, 상기 추출된 얼굴 특징 정보와 매칭되는 얼굴 특징 정보를 갖는 ID를 상기 분류된 영상 프레임에 할당하는 것이 될 수 있다.
또한, 상기 영상 프레임을 분류하는 단계는, 음성 정보를 더 이용하여 상기 영상 프레임을 분류하는 것을 포함할 수 있다.
도 25를 참조하면, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계(S2210), 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우(S2520-Y), 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상 데이터를 이용하여 상기 영상 프레임을 분류하는 단계(S2530)를 포함한다.
또한, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계(S2540), 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계(S2550)를 포함한다.
구체적으로, 상기 영상 콘텐츠 제공 방법은, 상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상을 생성하는 단계와, 상기 생성된 영상에 포함되어 있는 상기 캐릭터와 이미 분류된 그룹의 캐릭터의 유사도를 비교하는 단계와, 상기 비교 결과 유사도가 기 설정된 값 이상인 경우, 상기 생성된 영상을 상기 이미 분류된 그룹에 포함시키는 단계를 더 포함할 수 있다.
이때, 상기 유사도를 비교하는 단계는, 상기 생성된 영상에 포함되어 있는 상기 캐릭터 이미지의 컬러 히스토그램과 상기 이미 분류된 그룹의 캐릭터의 컬러 히스토그램을 상호 비교하여 판단할 수 있다.
도 26을 참조하면, 본 발명의 또 다른 실시 예에 따른 영상 콘텐츠 제공 방법은, 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계(S2610), 각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계(S2620), 캐릭터 노드에 포함되는 장면 노드에 대한 특징값을 캐릭터 노드에 대한 특징값과 비교하는 단계(S2630)를 포함하고, 상기 비교 결과 동일성이 인정되지 않으면(S2640-Y), 상기 장면 노드를 상기 캐릭터 노드에서 삭제하는 단계(S2650)를 포함한다. 그리고, 상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계(S2660), 상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계(S2670)를 포함한다.
전술한 영상 콘텐츠 제공 방법은, 컴퓨터에서 실행될 수 있는 실행 가능한 알고리즘을 포함하는 프로그램으로 구현될 수 있고, 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이하에서는 본 발명의 다양한 실시 예에 따른 GUI를 설명한다.
도 27은 본 발명의 일 실시 예에 따른 캐릭터 선택 화면을 도시한 도면이다. 구체적으로, 도 27a는 캐릭터 요약 모드 동작 화면의 일 예를 나타낸다. 영상 콘텐츠 재생 중간 또는 재생 완료 후 사용자가 캐릭터별 장면 또는 샷을 보고 싶을 경우, 캐릭터 요약 모드를 요청할 수 있다. 캐릭터 요약 모드 요청은 리모콘이나 영상 콘텐츠 제공 장치(100)의 입력부(130)를 통해서 입력이 가능하다. 구체적으로, 사용자는 콘텐츠 재생 또는 재생 완료 후 영상 콘텐츠 제공 장치(100)의 디스플레이 화면 일 영역에 디스플레이된 캐릭터 요약 모드 메뉴를 선택하여 캐릭터 요약 모드를 요청할 수 있다. 이때, 캐릭터 요약 모드 메뉴는 디스플레이 화면 일 영역에 디스플레이되는 아이콘 형태일 수도 있고, OSD 메뉴 형태일 수도 있다. 그러나, 이에 한정되는 것은 아니며, 리모컨에 구비된 키 형태 등을 포함하여 사용자자의 선택에 의해 특정 기능을 실행시킬 수 있는 모든 형태로 구현될 수 있다.
사용자는 콘텐츠 재생 중간 또는 재생 완료 후 위와 같이 캐릭터 요약 모드로 진입하여 해당 콘텐츠 내의 캐릭터별 장면 또는 샷을 시청할 수 있다. 이때, 캐릭터별 장면 또는 샷의 추출은 전술한 방법으로 수행되며 캐릭터 요약 모드 요청 전 또는 요청 후 이루어질 수 있다. 구체적으로, 도 27a의 (a)에 도시된 바와 같이, 영상 콘텐츠 제공 장치(100)는 캐릭터 요약 모드에서 재생 중 또는 재생 완료된 콘텐츠에 대해 전술한 방법으로 분석된 결과를 기반으로 선택 가능한 캐릭터 썸네일 표시화면(2710)을 디스플레이할 수 있다. 이 경우 선택된 캐릭터에 대한 장면 또는 샷을 디스플레이하기 위한 화면(2720)을 함께 디스플레이할 수 있다.
한편, 캐릭터 요약 모드에서는 선택 가능한 인물 수의 범위를 조정할 수 있으며, 영상 콘텐츠 내 대표 캐릭터 또는 영상 콘텐츠 내 포함된 모든 캐릭터에 대한 선택을 할 수 있다. 이때, 영상 콘텐츠 내에서 대표 캐릭터를 분류하는 방법은 예를 들어, 해당 영상 콘텐츠 내의 캐릭터별 장면을 추출하고 장면 수를 카운팅하여 장면 수가 적정 개수 이상인 캐릭터를 영상 콘텐츠 내에서 대표 캐릭터로 분류할 수 있다.
또한, 도 19 내지 도 21을 통해 전술한 바와 같이, 각 캐릭터 노드는 나이와 성별에 관한 특징값을 포함할 수 있으므로, 영상 콘텐츠 제공 장치(100)는 사용자에 의해 설정된 나이 또는 성별에 관한 기준에 따라 해당 기준에 부합하는 캐릭터를 영상 콘텐츠 내에서 대표 캐릭터로 분류할 수도 있다. 이와 같이 분류된 영상 콘텐츠 내의 대표 캐릭터 또는 모든 캐릭터의 썸네일이 캐릭터 썸네일 표시화면(2710)에 표시될 수 있다.
이에 따라, 캐릭터 썸네일 표시화면(2710)에서 특정 캐릭터 썸네일(2730)이 선택되면 선택된 캐릭터에 대한 적어도 하나의 장면 또는 샷이 화면의 다른 영역(2720)에 디스플레이될 수 있다. 이때, 특정 캐릭터 썸네일(2730)이 선택되면 선택된 캐릭터에 대한 적어도 하나의 장면 또는 샷이 화면의 다른 영역(2720)에 자동으로 연속 재생될 수 있다. 그러나, 이에 한정되는 것은 아니며, 가령, 특정 캐릭터 썸네일(2730)이 선택되면, 선택된 썸네일(2730)이 화면의 다른 영역(2720)에 확대되어 디스플레이되고, 사용자가 화면의 다른 영역(2720)을 다시 선택하면 장면 또는 샷이 재생될 수도 있다. 즉, 이때는 선택된 캐릭터가 등장하는 모든 장면 또는 샷이 연속적으로 디스플레이될 수 있다.
한편, 본 발명의 다른 일 실시 예에 따르면, 영상 콘텐츠 장치(100)는 상기 선택된 캐릭터에 대한 복수의 장면 또는 샷을 따로 분리하여 표시하고, 분리하여 표시된 복수의 장면 또는 샷 중에서 사용자에 의해 선택된 특정 장면 또는 샷을 디스플레이할 수 있다.
구체적으로, 선택된 캐릭터에 대한 장면 또는 샷을 분리하여 표시할 것을 요청하는 사용자 명령이 입력되면, 도 27a의 (b)에 도시된 바와 같이, 선택된 캐릭터에 대한 복수의 장면 또는 샷 각각의 썸네일 표시화면(2740)을 디스플레이하고, 이 중 사용자 입력에 의해 선택된 장면 또는 샷 썸네일(2750)에 해당하는 장면 또는 샷이 화면의 일 영역(2720)에 디스플레이 될 수 있다. 이때, 선택된 캐릭터에 대한 장면 또는 샷을 분리하여 표시할 것을 요청하는 사용자 명령은 도 27a의 (a)에서 한번 선택한 특정 캐릭터 썸네일(2730)을 다시 선택하는 동작일 수 있으나, 이에 한정되는 것은 아니다.
한편, 썸네일 표시화면(2740)에 도시된 세부 장면 또는 샷 썸네일 각각에는 장면 또는 샷의 시작시간 및 재생시간 같은 추가적인 정보를 표시하여 장면 또는 샷 선택 시 사용자 편의를 도모할 수 있다. 또한, 도 27a의 (b)와 같이 선택된 캐릭터에 대한 장면 또는 샷을 분리하여 표시하는 동작 화면에서 이전으로 돌아가는 사용자 명령이 입력되면, 도 27a의 (a)와 같이 캐릭터별 썸네일을 표시하는 화면으로 돌아갈 수 있다.
한편, 사용자는 캐릭터 요약 모드 동작을 위해 다양한 설정을 할 수 있다. 구체적으로, 사용자는 영상 콘텐츠 제공 장치(100)의 화면에 디스플레이된 캐릭터 요약 모드 설정 UI를 통해 캐릭터 요약 모드를 설정할 수 있다. 도 27b는 영상 콘텐츠 제공 장치(100)의 디스플레이 화면(2700)에 디스플레이된 캐릭터 요약 모드 설정 UI의 일 예를 나타낸다.
도 27b의 (a)에 도시된 바와 같이, 캐릭터 요약 모드 설정 UI는 캐릭터 요약 모드의 화면 구성을 설정하기 위한 화면 구성 메뉴(2701) 및 대표 캐릭터를 선정하기 위한 기준을 설정하는 대표 캐릭터 선정 메뉴(2702)를 포함할 수 있다.
사용자는 캐릭터 요약 모드에서 선택할 수 있는 캐릭터의 수를 설정할 수 있다. 구체적으로, 사용자는 화면 구성 메뉴(2701)에서 캐릭터 수(2701-1)를 설정하여 캐릭터 썸네일 표시화면에 표시될 캐릭터의 수를 설정할 수 있다. 예를 들어, 도 27b의 (a)에서와 같이 캐릭터 수(2701-1)가 5로 설정되는 경우, 도 27a의 (a)에서 보는 바와 같이 캐릭터 썸네일 표시화면(2710)에는 5개의 캐릭터 썸네일이 표시되며, 사용자는 표시된 5개의 캐릭터 중에서 장면 또는 샷을 보고자 하는 캐릭터를 선택하게 된다.
또한, 사용자는 화면 구성 메뉴(2701) 중 화면 배치(2701-2)를 선택하여 전체 화면(2700)에서 캐릭터별 썸네일이 표시될 영역과 선택된 캐릭터에 대한 장면 또는 샷이 표시될 영역의 배치를 설정할 수 있다. 예를 들어, 도 27b의 (a)에서 사용자가 화면 배치(2701-2)를 선택하면, 사용자가 선택할 수 있는 화면 배치를 표시하는 도 27b의 (b)와 같은 화면이 디스플레이될 수 있다.
이에 따라, 사용자가 화면 배치(2703)을 선택하면, 도 27a에 도시된 바와 같은 배치의 화면이 디스플레이 될 수 있다. 만일, 사용자가 화면 배치(2704)를 선택하여 화면 배치를 설정하는 경우에는 캐릭터 요약 모드 동작시 캐릭터별 썸네일은 전체 화면(2700)의 우측에 표시되고, 선택된 캐릭터에 대한 장면 또는 샷은 나머지 좌측에 표시될 것이다. 한편, 화면 배치를 설정하는 예가 이에 한정되는 것은 아니며, 사용자가 캐릭터별 썸네일을 표시할 영역을 직접 선택하여 설정하도록 하는 실시 예도 가능함은 물론이다.
한편, 사용자는 대표 캐릭터를 선정하는 기준을 설정할 수 있다. 예를 들어, 사용자는 도 27b의 (a)의 대표 캐릭터 선정 메뉴(2072)를 이용하여 영상 콘텐츠 내에 포함된 모든 캐릭터 중에서 대표 캐릭터를 선정하는 기준을 설정할 수 있다. 구체적으로, 사용자는 캐릭터별 장면 수, 성별, 나이 중 적어도 하나를 대표 캐릭터를 선정하는 기준으로 설정할 수 있다.
예를 들어, 사용자는 도 27b의 (a)의 대표 캐릭터 선정 메뉴(2702) 중 장면 수 설정 메뉴(2072-1)를 통해 기설정된 개수를 설정하여 대표 캐릭터를 선정하는 기준을 설정할 수 있다. 이에 따라, 영상 콘텐츠 제공 장치(100)는 영상 콘텐츠 내에서 캐릭터별 장면 수를 카운팅하여 장면 수가 기설정된 개수 이상인 캐릭터를 대표 캐릭터로 분류 또는 선정할 수 있다. 도 27b의 (a)에서와 같이 장면 수가 10으로 설정된 경우, 카운팅된 장면 수가 10개 이상인 캐릭터들이 해당 영상 콘텐츠 내의 대표 캐릭터로 선정되어 다른 캐릭터보다 우선적으로 썸네일 표시 영역에 표시될 수 있다.
또한, 사용자는 도 27b의 (a)의 대표 캐릭터 선정 메뉴(2702) 중 나이 설정 메뉴(2702-2)나 성별 설정 메뉴(2702-3)를 통해 나이 또는 성별을 설정하여 대표 캐릭터를 선정하는 기준을 설정할 수 있다. 이에 따라, 영상 콘텐츠 제공 장치(100)는 영상 콘텐츠 내의 모든 캐릭터 중에서 사용자가 설정한 나이 또는 성별 기준에 부합하는 캐릭터를 대표 캐릭터로 분류 또는 선정할 수 있다. 도 27b의 (a)에서와 같이 나이가 “25이하”, 성별이 “남”으로 설정된 경우, 영상 콘텐츠에 포함된 캐릭터 중 나이가 25세 이하인 남성에 부합하는 캐릭터가 대표 캐릭터로 선정되어 다른 캐릭터보다 우선적으로 썸네일 표시 영역에 표시될 수 있다. 그러나, 이는 하나의 예시에 불과하며, 나이 또는 성별을 이용하여 다양한 형태로 대표 캐릭터 선정 기준을 설정할 수 있다. 가령, “20대 남성”, “50대”, “여성” 등과 같은 기준을 설정하여 기준에 부합되는 캐릭터를 대표 캐릭터로 분류할 수 있음은 물론이다.
이와 같이, 사용자는 캐릭터 요약 모드를 통해 콘텐츠 내의 캐릭터별 썸네일 중 어느 하나를 선택하여 원하는 캐릭터의 장면 또는 샷을 시청할 수 있다. 또한, 캐릭터 요약 모드의 동작 및 화면 구성에 관한 설정을 할 수 있다.
한편, 이상의 예에서는, 캐릭터 요약 모드에서 선택 가능한 캐릭터별 썸네일이 디스플레이 화면 일 영역(2710)에 디스플레이 되는 것을 예로 들었으나, 이에 한정되는 것은 아니며, 썸네일이 아닌 캐릭터별 장면 또는 샷의 재생 화면이 디스플레이 화면 일 영역(2710)에 디스플레이되고 사용자에 의해 선택되는 실시 예도 가능함은 물론이다.
도 28은 본 발명의 다른 실시 예에 따른 캐릭터 선택 화면을 도시한 도면이다. 도 28에 도시된 바와 같이 현재 재생 중인 콘텐츠(PVR, VOD)상에 나타난 캐릭터를 사용자가 직접 선택할 수도 있다. 이 경우 원하는 캐릭터가 나타난 화면(2810)에서 캐릭터 선택을 하기 위한 사용자 입력이 수신된다. 이때 캐릭터를 선택하는 수단으로는 리모콘으로부터 선택 입력을 수신하는 방법, 사용자의 음성 인식, 사용자의 동작인식, 영상 콘텐츠 제공 장치(100)의 버튼 입력 방법 등이 있을 수 있다.
예를 들어, 리모컨의 특정버튼을 누르면 현재 화면에 포함된 적어도 하나의 캐릭터에 도 28과 같이 가이드 라인(2820)을 표시하고 리모컨의 방향 버튼을 통해 하이라이트되는 가이드라인(2820)을 변경하고 리모컨을 통해 선택 입력을 입력하면 하이라이트 된 가이드라인(2820)에 대응되는 캐릭터가 선택되어 선택된 캐릭터에 대한 장면 또는 샷을 검출한다. 또는 미리 검출된 장면 또는 샷 정보를 표시한다.
음성 인식의 경우“쟤 장면 찾아줘” 또는 “저 사람 장면 찾아줘” 같은 음성을 입력 받으면 음성 인식 모듈을 통해 음성 인식을 수행하고 적어도 하나의 캐릭터를 식별하여 가이드 라인(2820)을 표시하고 "오른쪽 위 끝"이라는 사용자 음성을 인식하여 화면의 오른쪽 위 끝에 위치한 가이드라인(2820)에 대응되는 캐릭터가 선택된다. 캐릭터가 선택되면 선택된 캐릭터에 대한 장면 또는 샷을 검출한다. 또는 미리 검출된 장면 또는 샷 정보를 표시한다. 현재 화면에서 손가락이나 사용자 객체로 화면 내 인물을 가리켜 특정 캐릭터를 선택할 수도 있다.
사용자는 복수의 캐릭터를 선택할 수 있으며, 전술한 도 27과 같이 인물요약 모드 화면을 통해 보여주고 선택된 특정 인물에 대한 장면 또는 샷을 인물요약 모드와 동일한 방식으로 재생할 수 있다.
상기와 같은 방법은 특히 광고 등을 시청하던 사용자가 광고에 등장하는 캐릭터를 선택하는 경우, 영상 콘텐츠 제공 장치(100)가 선택된 캐릭터에 대한 영상 콘텐츠를 검색하여 검색된 영상 콘텐츠에서 장면 또는 샷을 추출하여 디스플레이할 수 있다.
도 29는 본 발명의 또 다른 실시 예에 따른 캐릭터 선택 화면을 도시한 도면이다. 본 발명의 일 실시 예에 따르면 단말 장치(미도시)는 웹 서버로부터 영상 콘텐츠를 제공받아 디스플레이 할 수 있다. 이 경우 상기와 같은 장면 및 샷 검출은 단말 장치가 웹 서버에 요청을 하고, 웹서버는 상술한 영상 콘텐츠 제공 장치(100)와 같이 동작하여 장면 또는 샷의 검출 결과를 단말 장치로 제공한다. 단말 장치는 제공받은 영상을 디스플레이한다.
도 29는 이러한 경우의 실시 시나리오이다. 사용자는 도 29의 (A)와 같이 웹 서핑을 하면서 특정 배우에 대한 기사(2910)를 읽을 수 있다. 이때, 사용자는 기사(2910)에 나온 배우가 등장하는 영상 콘텐츠를 검색해보기를 원할 수 있다. 사용자는 기사에 첨부된 이미지(2920)에 포함된 배우를 상술한 방법으로 선택한다. 즉, 입력장치를 통해 선택하거나(마우스로 기사 사진 클릭하거나 터치), 음성 인식 또는 제스처 인식을 통해 기사에 나온 배우를 선택한다. 그러면, 단말 장치는 선택된 배우(캐릭터)에 대한 메타 정보(또는 이미지 정보)를 웹 서버로 전송한다. 웹 서버는 전술한 것처럼 배우가 등장하는 영상 콘텐츠를 검색한다.
도 29의 (B)는 '장그래'라는 배우가 등장하는 영상 콘텐츠 목록(2930)을 표시하는 화면이다. 웹 서버는 이러한 영상 콘텐츠 목록(2930)을 단말 장치로 제공하고 단말 장치는 이러한 영상 콘텐츠 목록을 디스플레이 한다. 사용자는 시청을 원하는 영상 콘텐츠를 선택할 수 있다. 선택방법은 전술한 방법이 사용될 수 있다.
영상 콘텐츠가 선택되면 웹서버는 선택된 영상 콘텐츠로부터 전술한 방법에 따라 '장그래'가 등장하는 장면 또는 샷을 검출하고 도 27과 같이 검출된 장면 또는 샷의 썸네일 이미지를 전달한다. 단말 장치를 통해서 사용자는 원하는 장면 또는 샷을 선택할 수 있고 웹서버로부터 스트리밍을 받아 영상 콘텐츠를 재생한다.
웹서버는 사용자가 배우 이름이나 캐릭터 이름을 텍스트로 입력하여 검색을 하는 경우 텍스트 검색 쿼리를 핸들링하여 배우나 캐릭터가 등장하는 영상 콘텐츠를 도 29의 (B)와 같이 제공할 수도 있다. 사용자는 전술한 방법으로 영상 콘텐츠를 선택할 수 있고 선택된 영상 콘텐츠의 장면 또는 샷이 검출되어 스트리밍으로 사용자 단말 장치로 제공될 수 있다.
도 30은 본 발명의 일 실시 예에 따른 영상 콘텐츠 제공 서비스의 모식도이다. 도 30에 도시된 것처럼 영상 콘텐츠 제공 장치(100)는 TV방송/VOD/온라인 영상 콘텐츠 등과 같은 다양한 영상정보 소스(3020)로부터 인식된 캐릭터 정보를 이용해 다양한 서비스(3030)를 사용자 단말 장치(미도시)로 제공할 수 있다.
가령 TV방송(3040)로부터 영상 콘텐츠의 기본 제공 서비스인 캐릭터별 분류 장면(3050)을 사용자에게 제공할 뿐 아니라, 분류된 인물의 얼굴 이미지를 온라인 서비스(웹)에서 검색하여 인물정보를 인식하고 인식된 정보를 기반으로 VOD 콘텐츠 내에서 해당 캐릭터의 작품들을 사용자에게 추천(3060) 가능하다.
또한, 인식된 캐릭터 정보와 EPG로부터 추출한 프로그램 정보를 이용하여 온라인 영상 콘텐츠(3070)에서 해당 프로그램 내 캐릭터에 관한 영상정보를 수집(3080)하여 사용자에게 제공할 수 있다. 전술한 것처럼 영상 콘텐츠 제공 장치(100)의 역할은 웹 서버가 수행할 수 있으며 사용자 단말 장치를 통해 최종 서비스가 제공될 수도 있다. 또한, 각 콘텐츠 소스가 개별 서버를 통해 서비스가 제공될 수 있다. 이 경우 영상 콘텐츠 제공 장치는 중계 서버 역할을 수행할 수 있다.
도 31은 본 발명의 일 실시 예에 따른 영상 콘텐츠 재생 방법의 흐름도이다. 도 31을 참조하면, 본 발명의 일 실시 예에 따른 영상 콘텐츠 재생 방법은 영상 콘텐츠에서 캐릭터를 선택하는 단계(S3110), 선택된 캐릭터에 대한 장면 또는 샷정보를 제공하는 단계(S3120), 장면 또는 샷에 대응되는 콘텐츠를 재생하는 단계(S3130)를 포함한다. 각 단계에 대해서는 상술하였으므로 중복 설명은 생략한다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100-1, 100-2, 100-3, 100-4, 100-5 : 영상 콘텐츠 제공 장치
110 : 장면 구성부 120 : 분류부
130 : 입력부 140 : 디스플레이부
150 : 동일 인물 판단부 160 : 검증부

Claims (20)

  1. 영상 콘텐츠 제공 방법에 있어서,
    상기 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 단계;
    각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 단계;
    상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 단계; 및
    상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이하는 단계;를 포함하며,
    상기 분류하는 단계는,
    제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 상기 제1 장면에 포함되는 영상 프레임들의 신체 정보에 기초하여 얼굴 특징 정보를 획득하는 단계;
    상기 획득된 얼굴 특징 정보에 기초하여 상기 영상 프레임들에 ID를 할당하는 단계; 및
    상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성하는 단계;를 포함하는 영상 콘텐츠 제공 방법.
  2. 제1항에 있어서,
    상기 복수의 장면으로 나누는 단계는,
    인접하는 프레임들 사이의 영상 차이를 나타내는 영상 차이 특징 벡터를 계산하는 단계;
    상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출하는 단계; 및
    상기 검출된 샷 경계에 기초하여 상기 영상 콘텐츠를 복수의 샷으로 나누는 단계;를 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  3. 제2항에 있어서,
    상기 샷 경계를 검출하는 단계는,
    기계학습 알고리즘을 이용하여 상기 샷 경계를 검출하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  4. 제2항에 있어서,
    상기 영상 콘텐츠를 복수의 샷으로 나누는 단계는,
    상기 복수의 샷 각각에 대해서 상기 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값, 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값 중 적어도 하나를 포함하는 샷 특징 벡터를 생성하는 단계; 및
    상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑하는 단계;를 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  5. 제4항에 있어서,
    상기 그룹핑하는 단계는,
    제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 얼굴 특징 정보는,
    적어도 하나의 얼굴 특징 벡터를 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  8. 제1항에 있어서,
    상기 ID를 할당하는 단계는,
    상기 획득된 얼굴 특징 정보와 매칭되는 얼굴 특징 정보를 갖는 ID를 상기 영상 프레임들에 할당하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  9. 제1항에 있어서,
    상기 영상 프레임의 신체 정보 및 음성 정보에 기초하여 상기 영상 프레임들을 분류하고, 상기 분류된 영상 프레임들의 얼굴 정보를 분석하여 상기 얼굴 특징 정보를 획득하는 단계;를 더 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  10. 제1항에 있어서,
    상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우,
    상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상 데이터를 이용하여 상기 영상 프레임을 분류하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  11. 제1항에 있어서,
    상기 영상 프레임에 포함된 캐릭터의 얼굴을 나타내는 영상이 배경 영상을 포함하고 있는 경우, 상기 캐릭터의 신체를 나타내는 영상 중 상기 배경 영상에 대응되는 영역을 제거한 영상을 생성하는 단계;
    상기 생성된 영상에 포함되어 있는 상기 캐릭터와 이미 분류된 그룹의 캐릭터의 유사도를 비교하는 단계; 및
    상기 비교 결과 유사도가 기 설정된 값 이상인 경우, 상기 생성된 영상을 상기 이미 분류된 그룹에 포함시키는 단계;를 더 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  12. 제11항에 있어서,
    상기 유사도를 비교하는 단계는,
    상기 생성된 영상에 포함되어 있는 상기 캐릭터의 컬러 히스토그램과 상기 이미 분류된 그룹의 캐릭터의 컬러 히스토그램을 상호 비교하여 판단하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  13. 제1항에 있어서,
    캐릭터 노드에 포함되는 장면 노드에 대한 특징값을 캐릭터 노드에 대한 특징값과 비교하는 단계;
    상기 비교 결과 동일성이 인정되지 않으면, 상기 장면 노드를 상기 캐릭터 노드에서 삭제하는 단계;를 더 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 방법.
  14. 영상 콘텐츠 제공 장치에 있어서,
    상기 영상 콘텐츠를 복수의 샷(shot)을 포함하는 복수의 장면(scene)으로 나누는 장면 구성부;
    각 장면별로 영상 프레임을 상기 영상 콘텐츠에 등장하는 복수의 캐릭터 각각에 따라 분류하는 분류부;
    상기 복수의 캐릭터 중 어느 하나를 선택하기 위한 사용자 입력을 수신하는 입력부; 및
    상기 사용자 입력에 따라 선택된 캐릭터에 대응되는 장면을 디스플레이 하는 디스플레이부;를 포함하며,
    상기 분류부는,
    제1 장면에서 제2 장면으로의 장면 전환이 발생하면, 상기 제1 장면에 포함되는 영상 프레임들의 신체 정보에 기초하여 얼굴 특징 정보를 획득하고, 상기 획득된 얼굴 특징 정보에 기초하여 상기 영상 프레임들에 ID를 할당하고, 상기 제1 장면에 대한 상기 ID가 할당된 영상 구간 정보를 생성하는 영상 콘텐츠 제공 장치.
  15. 제14항에 있어서,
    상기 장면 구성부는,
    인접하는 프레임들 사이의 영상 차이를 나타내는 영상 차이 특징 벡터를 계산하고, 상기 계산된 영상 차이 특징 벡터에 기초하여 샷 경계를 검출하여, 상기 검출된 샷 경계에 기초하여 상기 영상 콘텐츠를 복수의 샷으로 나누는 것을 특징으로 하는 영상 콘텐츠 제공 장치.
  16. 제15항에 있어서,
    상기 장면 구성부는,
    기계학습 알고리즘을 이용하여 상기 샷 경계를 검출하는 것을 특징으로 하는 영상 콘텐츠 제공 장치.
  17. 제15항에 있어서,
    상기 장면 구성부는,
    상기 복수의 샷 각각에 대해서 상기 복수의 샷 각각의 시작 시간 정보를 나타내는 샷 시작 시간 정보, 하나의 샷에 포함되는 복수의 영상 프레임들의 영상 특징값, 및 하나의 샷에 포함되는 복수의 영상 프레임들의 음성 특징값 중 적어도 하나를 포함하는 샷 특징 벡터를 생성하고, 상기 생성된 샷 특징 벡터 사이의 유사도에 기초하여 상기 복수의 샷을 하나의 장면으로 그룹핑하는 것을 특징으로 하는 영상 콘텐츠 제공 장치.
  18. 제17항에 있어서,
    상기 장면 구성부는,
    제1 샷 특징 벡터와 제n 샷 특징 벡터 사이의 유사도가 기 설정된 값 이상인 경우, 상기 제1 샷부터 상기 제n 샷까지의 모든 샷을 동일한 장면으로 그룹핑하는 것을 특징으로 하는 영상 콘텐츠 제공 장치.
  19. 삭제
  20. 제14항에 있어서,
    상기 얼굴 특징 정보는,
    적어도 하나의 얼굴 특징 벡터를 포함하는 것을 특징으로 하는 영상 콘텐츠 제공 장치.
KR1020150054757A 2014-08-14 2015-04-17 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치 KR102298066B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP19192820.9A EP3591651A1 (en) 2014-08-14 2015-08-06 Method and apparatus for providing image contents
EP15180068.7A EP2985706A1 (en) 2014-08-14 2015-08-06 Method and apparatus for providing image contents
US14/819,897 US9684818B2 (en) 2014-08-14 2015-08-06 Method and apparatus for providing image contents
PCT/KR2015/008434 WO2016024806A1 (en) 2014-08-14 2015-08-12 Method and apparatus for providing image contents
CN201510501547.4A CN105373768B (zh) 2014-08-14 2015-08-14 提供图像内容的方法和设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20140105799 2014-08-14
KR1020140105799 2014-08-14

Publications (2)

Publication Number Publication Date
KR20160021016A KR20160021016A (ko) 2016-02-24
KR102298066B1 true KR102298066B1 (ko) 2021-09-06

Family

ID=55449755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150054757A KR102298066B1 (ko) 2014-08-14 2015-04-17 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치

Country Status (1)

Country Link
KR (1) KR102298066B1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101898208B1 (ko) * 2017-05-10 2018-09-12 주식회사 곰앤컴퍼니 동영상 콘텐츠에 대한 중간 광고 위치를 선정하는 방법
KR102102164B1 (ko) * 2018-01-17 2020-04-20 오드컨셉 주식회사 영상 전처리 방법, 장치 및 컴퓨터 프로그램
KR102100409B1 (ko) * 2019-05-09 2020-04-13 에스케이텔레콤 주식회사 영상 표시 방법
WO2021149924A1 (ko) * 2020-01-20 2021-07-29 주식회사 씨오티커넥티드 미디어 인리치먼트 제공 방법 및 장치
KR102280062B1 (ko) * 2020-07-15 2021-07-21 주식회사 에이모 동영상을 요약하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100827846B1 (ko) * 2007-10-18 2008-05-07 (주)올라웍스 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
JP2008252667A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 動画イベント検出装置
JP2012105205A (ja) * 2010-11-12 2012-05-31 Nikon Corp キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101313285B1 (ko) * 2011-06-03 2013-09-30 주식회사 에이치비솔루션 하이퍼 비디오 정보 파일 제작장치 및 제작방법, 그 기록매체

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252667A (ja) * 2007-03-30 2008-10-16 Matsushita Electric Ind Co Ltd 動画イベント検出装置
KR100827846B1 (ko) * 2007-10-18 2008-05-07 (주)올라웍스 동영상에 포함된 특정 인물을 검색하여 원하는 시점부터재생하기 위한 방법 및 시스템
JP2012105205A (ja) * 2010-11-12 2012-05-31 Nikon Corp キーフレーム抽出装置、キーフレーム抽出プログラム、キーフレーム抽出方法、撮像装置、およびサーバ装置

Also Published As

Publication number Publication date
KR20160021016A (ko) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105373768B (zh) 提供图像内容的方法和设备
KR101994592B1 (ko) 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템
US10979761B2 (en) Intelligent video interaction method
US11902626B2 (en) Control method of playing content and content playing apparatus performing the same
KR102290419B1 (ko) 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치
WO2021082668A1 (zh) 一种弹幕编辑方法、智能终端及存储介质
KR102298066B1 (ko) 영상 콘텐츠 제공 방법 및 영상 콘텐츠 제공 장치
US9961403B2 (en) Visual summarization of video for quick understanding by determining emotion objects for semantic segments of video
KR102197098B1 (ko) 콘텐츠 추천 방법 및 장치
CN102868934B (zh) 基于智能电视的视频对象信息检索方法及装置
US9100701B2 (en) Enhanced video systems and methods
US9881084B1 (en) Image match based video search
JP2013143141A (ja) ディスプレイ装置、遠隔制御装置およびその検索方法
US20140372892A1 (en) On-demand interface registration with a voice control system
CN105611382A (zh) 产生概要内容的电子设备及其方法
CN110809187B (zh) 视频选择方法、视频选择装置、存储介质与电子设备
KR20180058019A (ko) 영상 검색 장치, 데이터 저장 방법 및 데이터 저장 장치
KR20090093904A (ko) 장면 변화에 강인한 멀티미디어 영상 분석 장치 및 그 방법과, 그를 이용한 객체 기반 멀티미디어 편집 시스템
US20140331246A1 (en) Interactive content and player
KR102426089B1 (ko) 전자 장치 및 전자 장치의 요약 영상 생성 방법
KR102144978B1 (ko) 영상의 쇼트 분류를 이용한 사용자 맞춤형 영상 추천 시스템
WO2020028107A1 (en) Tagging an image with audio-related metadata
US11249823B2 (en) Methods and systems for facilitating application programming interface communications
JP7332473B2 (ja) サーバー及びその制御方法
US10990456B2 (en) Methods and systems for facilitating application programming interface communications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant