KR20130055748A

KR20130055748A - 콘텐츠 추천 시스템 및 방법

Info

Publication number: KR20130055748A
Application number: KR1020110121337A
Authority: KR
Inventors: 이승재; 김성민; 김정현; 서영호; 유원영; 박지현; 서용석; 이상광; 이정호; 윤영석
Original assignee: 한국전자통신연구원
Priority date: 2011-11-21
Filing date: 2011-11-21
Publication date: 2013-05-29
Also published as: US20130132988A1

Abstract

콘텐츠를 추천하기 위한 시스템 및 방법이 개시된다. 콘텐츠 추천 방법은, 오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계, 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계, 비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계 및 오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함한다. 따라서, 음원 데이터의 핑거프린트뿐만 아니라 감정 정보를 함께 이용하여 사용자가 원하는 음악을 추천하므로, 사용자에게 더욱 다양한 음악 정보를 제공할 수 있다.

Description

콘텐츠 추천 시스템 및 방법{SYSTEM AND METHOD FOR RECOMMENDING OF CONTENTS}

본 발명은 콘텐츠 추천 시스템 및 방법에 관한 것으로, 더욱 상세하게는 음악, 방송과 같은 콘텐츠를 추천하기 위한 시스템 및 방법에 관한 것이다.

인터넷과 멀티미디어 기술의 발전에 따라, 사용자는 자신이 원하는 콘텐츠를 언제 어디서나 인터넷을 통하여 손쉽게 제공받을 수 있다. 그러나 콘텐츠 양의 급격한 증가로 인하여, 사용자는 자신이 원하는 콘텐츠를 검색하기 위하여 많은 시간과 노력을 기울여야 하며, 많은 시간과 노력을 들여 검색을 하더라도 자신이 원하는 콘텐츠만 검색되는 것이 아니라 불필요한 콘텐츠도 다수 검색되는 문제점이 있었다. 특히, 음악의 경우에 그 수가 매우 많으므로, 사용자가 원하는 음악을 빠르고 정확하게 검색하거나 추천을 받기 위한 기술이 필요한 실정이다.

종래 사용자는 자신이 원하는 음악을 검색하거나 추천을 받기 위하여, 음악의 메타데이터인 장르 정보와 가수 정보를 이용하였다. 음악의 장르 정보와 가수 정보를 이용한 방법은, 사용자가 원하는 음악과 유사한 장르의 음악을 미리 구축한 음악 DB에서 검색하여 사용자에게 추천하거나, 사용자가 원하는 가수와 유사한 성향의 가수의 음악을 미리 구축한 음악 DB에서 검색하여 사용자에게 추천하는 방법이다.

이러한 방법은 음악의 메타데이터만을 이용하여 사용자에게 음악을 추천하므로, 사용자에게 추천할 수 있는 음악이 한정될 수 밖에 없어 사용자의 욕구를 만족시키지 못하는 문제점이 있었다. 또한, 사용자가 원하는 음악에 대한 정보만을 제공하고 뮤직비디오, 음악 방송 등과 같은 다양한 정보를 제공하지 못하므로, 사용자의 다양한 욕구를 충족시키지 못하는 문제점이 있었다.

본 발명의 목적은 사용자가 원하는 음악과 관련된 다양한 콘텐츠 정보를 제공하기 위하여 음악 데이터의 특성과 음악이 나타내는 감정을 고려하여 콘텐츠를 추천하는 시스템을 제공하는 것이다.

본 발명의 다른 목적은 사용자가 원하는 음악과 관련된 다양한 콘텐츠 정보를 제공하기 위하여 음악 데이터의 특성과 음악이 나타내는 감정을 고려하여 콘텐츠를 추천하는 방법을 제공하는 것이다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 콘텐츠 추천 시스템은, 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부, 비디오 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부, 상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 핑거프린트 DB에 제공하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 감정 DB에 제공하는 생성부, 상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 상기 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 상기 감정 DB에서 검색하는 검색부 및 상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함한다.

상기 콘텐츠 추천 시스템은, 실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고, 상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고, 상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함할 수 있다.

상기 감정 정보는, 각 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 한다.

상기 제1 추출부 및 상기 제2 추출부는, ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.

상술한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 콘텐츠 추천 방법은, 콘텐츠 추천 서버에서, 오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계, 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계, 비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계 및 오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함한다.

상기 감정 정보는, 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 한다.

상기 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는, ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.

상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계는, 상기 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 검색하는 단계, 상기 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 검색하는 단계 및 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함할 수 있다.

상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계는, 상기 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 검색하는 단계, 상기 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 검색하는 단계 및 검색한 오디오의 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함할 수 있다.

본 발명에 의하면, 음원 데이터의 핑거프린트뿐만 아니라 감정 정보를 함께 이용하여 사용자가 원하는 음악을 추천하므로, 사용자에게 더욱 다양한 음악 정보를 제공할 수 있다.

또한, 사용자가 원하는 음악 정보뿐만 아니라 음악과 관련된 방송 정보도 추천하므로, 사용자에게 보다 다양한 콘텐츠 정보를 제공할 수 있다.

또한, 실시간으로 방송되는 방송 데이터의 핑거프린트 및 감정 정보를 추출함으로써, 추출한 방송 데이터의 핑거프린트 및 감정 정보를 이용하여 실시간으로 방송되고 있는 콘텐츠를 사용자에게 추천할 수 있다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 추천 시스템의 구성을 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 추천 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 비디오 추출 방법을 도시한 흐름도이다.
도 4는 AV 좌표(Arousal-Valence coordinate)를 도시한 개념도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

명세서 전체에서 "핑거프린트(fingerprint)"란, 해당 콘텐츠의 특징을 나타내는 특징 데이터를 의미하는 것으로, 지문 데이터, DNA 데이터 또는 유전자 데이터라고도 한다. 오디오 데이터의 경우, 오디오 데이터의 특징을 나타내는 특징 데이터인 주파수, 진폭 등을 이용하여 핑거프린트를 생성할 수 있고, 비디오 데이터의 경우, 비디오 데이터의 특징을 나타내는 특징 데이터인 프레임의 모션 벡터 정보, 색상 정보 등을 이용하여 핑거프린트를 생성할 수 있다.

명세서 전체에서 "감정 정보"는 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도 및 감정의 긍정적인 정도를 의미하고, "오디오"는 음악, 강의, 라디오 방송 등을 포함하는 의미이고, "비디오"는 동영상, 지상파 방송, 케이블 방송, 뮤직비디오, 스트리밍 서비스에 의해 제공되는 동영상 등을 포함하는 의미이고, "오디오 정보"는 오디오 데이터, 오디오의 메타데이터(제목, 가수, 장르 등) 등을 포함하는 의미이고, "비디오 정보"는 비디오 데이터, 비디오의 메타데이터(제목, 가수, 장르, 방송 채널, 방송 시간, 방송 명칭 등), 뮤직비디오 정보, 동영상이 게재된 웹의 주소, 스트리밍 서비스가 제공되는 웹 주소 등을 포함하는 의미이다.

도 1은 본 발명의 일 실시예에 따른 콘텐츠 추천 시스템의 구성을 도시한 블럭도이다.

도 1을 참조하면, 콘텐츠 추천 시스템은 콘텐츠 추천 서버(20)만을 포함할 수 있고, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)를 포함할 수도 있다. 또한, 본 발명의 실시예에서는 설명의 편의상 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)가 서로 독립적인 부분으로 개시되지만, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.

단말기(10)는 오디오 데이터를 콘텐츠 추천 서버(20)에 전송하거나, 오디오 데이터의 핑거프린트 및 감정 정보를 콘텐츠 추천 서버(20)에 전송한다. 단말기(10)가 오디오 데이터를 콘텐츠 추천 서버(20)에 전송하는 경우, 하나의 오디오 전체에 해당하는 오디오 데이터를 전송할 수 있고, 하나의 오디오 일부에 해당하는 오디오 데이터를 전송할 수도 있다. 또한, 단말기(10)는 복수의 오디오에 대한 오디오 데이터를 콘텐츠 추천 서버(20)에 전송할 수도 있다. 단말기(10)는 오디오 정보, 비디오 정보 중에서 적어도 하나의 정보를 콘텐츠 추천 서버(20)로부터 전송받을 수 있다.

여기서, 단말기(10)는 콘텐츠 추천 서버(20)와 유무선으로 통신이 가능한 기기로, 랩탑(Laptop), 데스크탑(Desktop), 태블릿PC, 휴대폰, 스마트폰, PDA(Personal Digital Assistants), MP3 플레이어, 네비게이션 등을 사용할 수 있다.

콘텐츠 추천 서버(20)는 사용자로부터 제공받은 오디오 데이터에 관련된 오디오 정보, 비디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하며, 이러한 콘텐츠 추천 서버(20)는 제1 추출부(21), 검색부(22), 제공부(23), 핑거프린트 DB(24) 및 감정 DB(25)를 포함할 수 있고, 메타데이터 DB(26)와 멀티미디어 DB(27)를 더 포함할 수 있다.

또한, 본 발명의 실시예에서는 설명의 편의상 제1 추출부(21), 검색부(22), 제공부(23)가 서로 독립적인 부분으로 개시되지만, 제1 추출부(21), 검색부(22), 제공부(23)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 제1 추출부(21), 검색부(22), 제공부(23)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다. 또한, 핑거프린트 DB(24), 감정 DB(25), 메타데이터 DB(26), 멀티미디어 DB(27)는 하나의 DB로 구현될 수 있다.

제1 추출부(21)는 사용자로부터 제공받은 오디오 데이터로부터 핑거프린트 및 감정 정보를 추출한다. 제1 추출부(21)는 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.

제1 추출부(21)는 감정 정보로 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제1 추출부(21)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 오디오 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다. 여기서 AV 모델이란, 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도를 나타내는 어루우절(Arousal) 수치 및 감정의 긍정적인 정도를 나타내는 밸런스(Valence) 수치를 이용하여 인간이 느끼는 감정의 정도를 나타내는 모델이다.

도 4는 AV 좌표(Arousal-Valence coordinate)를 도시한 개념도로, 도 4를 참조하면, X축은 감정의 긍정적인 정도를 나타내는 밸런스(Valence)로 -1에서 1사이의 값을 가지며, Y축은 감정의 강도를 나타내는 어로우절(Arousal)으로 -1에서 1사이의 값을 가진다. 이러한 AV 좌표를 이용하여 AV 계수의 값을 나타낼 수도 있다.

또한, 오디오 데이터의 감정 정보를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2011-0053785호에서 개시하고 있는 감정 모델 생성 방법을 사용할 수 있다.

검색부(22)는 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 핑거프린트 간의 유사도에 따라 핑거프린트 DB(24)에서 적어도 하나의 핑거프린트를 추출할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 핑거프린트를 핑거프린트 DB(24)에서 추출할 수 있다.

검색부(22)는 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 감정 정보 간의 유사도에 따라 감정 DB(25)에서 적어도 하나의 감정 정보를 추출할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 추출할 수 있다.

여기서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 핑거프린트 또는 감정 정보가 추출되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 핑거프린트 또는 감정 정보가 추출된다.

여기서, 핑거프린트 DB(24)는 오디오와 비디오의 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 핑거프린트와 함께 핑거프린트에 해당하는 오디오 정보, 비디오 정보가 저장될 수 있다. 따라서, 검색부(22)가 적어도 하나의 핑거프린트를 핑거프린트 DB(24)에서 추출하면, 추출된 핑거프린트에 해당하는 오디오 정보, 비디오 정보를 알 수 있다.

또한, 감정 DB(25)는 오디오와 비디오의 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 감정 정보와 함께 감정 정보에 해당하는 오디오 정보, 비디오 정보가 저장될 수 있다. 따라서, 검색부(22)가 적어도 하나의 감정 정보를 감정 DB(25)에서 추출하면, 추출된 감정 정보에 해당하는 오디오 정보, 비디오 정보를 알 수 있다.

또한, 핑거프린트 DB(24)에서 핑거프린트를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2007-0037399에서 개시하고 있는 핑거프린트 검색 방법을 사용할 수 있다.

또한, 감정 DB(25)에서 감정 정보를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2011-0053785호에서 개시하고 있는 감정 모델을 이용한 음악 검색 방법을 사용할 수 있다.

제공부(23)는 검색부(22)에서 검색한 핑거프린트 및 감정 정보에 부합하는 비디오 정보, 오디오 정보 중에서 적어도 하나 정보를 추출하여 사용자의 단말기(10)로 제공한다. 즉, 제공부(23)는 검색부(22)에서 검색한 비디오 핑거프린트에 해당하는 비디오 정보와 검색부(22)에서 검색한 비디오 감정 정보에 해당하는 비디오 정보 중에서 서로 공통된 비디오 정보를 추출하고, 추출한 공통된 비디오 정보를 사용자 단말기(10)로 제공한다. 여기서, 추출한 공통된 비디오 정보에 포함되는 비디오의 메타데이터는 메타데이터 DB(26)에서 검색하여 사용자 단말기(10)에 제공할 수 있고, 비디오 데이터는 멀티미디어 DB(27)에서 검색하여 사용자 단말기(10)에 제공할 수 있다.

또한, 제공부(23)는 검색부(22)에서 검색한 오디오 핑거프린트에 해당하는 오디오 정보와 검색부(22)에서 검색한 오디오 감정 정보에 해당하는 오디오 정보 중에서 서로 공통된 오디오 정보를 추출하고, 추출한 공통된 오디오 정보를 사용자 단말기(10)로 제공한다. 여기서, 추출한 공통된 오디오 정보에 포함되는 오디오의 메타데이터는 메타데이터 DB(26)에서 검색하여 사용자 단말기(10)에 제공할 수 있고, 오디오 데이터는 멀티미디어 DB(27)에서 검색하여 사용자 단말기(10)에 제공할 수 있다.

제공부(23)는 사용자의 요청에 따라 오디오 정보만을 제공하거나 비디오 정보만을 제공할 수 있으며, 오디오 정보와 비디오 정보를 함께 제공할 수도 있다.

비디오 추출 서버(30)는 비디오에 대한 오디오 핑거프린트 및 감정 정보를 추출하여, 비디오 핑거프린트 및 감정 정보를 생성하며, 일반적인 동영상뿐만 아니라 실시간으로 방송되는 방송에 대한 비디오 핑거프린트 및 감정 정보를 생성할 수 있다. 비디오 추출 서버(30)는 저장부(31), 제2 추출부(32), 생성부(33)를 포함할 수 있다.

또한, 본 발명의 실시예에서는 설명의 편의상 저장부(31), 제2 추출부(32), 생성부(33)가 서로 독립적인 부분으로 개시되지만, 저장부(31), 제2 추출부(32), 생성부(33)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 저장부(31), 제2 추출부(32), 생성부(33)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.

저장부(31)는 실시간으로 방송되는 방송 데이터를 저장하며, 이때 하나의 방송 프로그램에 대한 모든 방송 데이터를 저장할 수 있고, 하나의 방송 프로그램에 대한 일부 시간의 방송 데이터를 저장할 수도 있다.

제2 추출부(32)는 저장부(31)에서 저장한 방송 데이터 중에서 일부 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출할 수 있으며, 방송데이터 중에서 오디오 데이터만을 이용하여 핑거프린트 및 감정 정보를 추출할 수 있다.

제2 추출부(32)는 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 핑거프린트를 추출할 수 있다.

제2 추출부(32)는 감정 정보로 방송 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제2 추출부(32)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 방송 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다.

생성부(33)는 제2 추출부(32)에서 추출한 오디오 핑거프린트에 비디오 정보를 부가하여 비디오 핑거프린트를 생성하고, 생성한 비디오 핑거프린트를 핑거프린트 DB(24)에 저장할 수 있다. 또한, 생성부(33)는 제2 추출부(32)에서 추출한 오디오 감정 정보에 비디오 정보를 부가하여 비디오 감정 정보를 생성하고, 생성한 비디오 감정 정보를 감정 정보 DB(25)에 저장할 수 있다.

이러한 비디오 추출 서버(30)를 통해 실시간으로 방송되는 방송 데이터의 핑거프린트 및 감정 정보를 추출할 수 있고, 추출한 방송 데이터의 핑거프린트 및 감정 정보에 비디오 정보를 부가하여 핑거프린트 DB(24) 및 감정 정보 DB(25)에 저장함으로써 핑거프린트 DB(24) 및 감정 정보 DB(25)를 실시간으로 업데이트 할 수 있고, 업데이트한 핑거프린트 DB(24) 및 감정 정보 DB(25)를 이용하여 실시간으로 방송되고 있는 콘텐츠를 사용자에게 추천할 수 있다. 여기서 실시간으로 방송되는 방송 데이터는 지상파 방송, 케이블 방송, 라디오 방송 등을 포함하는 의미이다.

이상 본 발명의 일 실시예에 따른 콘텐츠 추천 서버, 비디오 추출 서버, 콘텐츠 추천 시스템의 구성 및 기능에 대하여 상세히 설명하였다. 이하 본 발명의 일 실시예에 따른 콘텐츠 추천 방법에 대해 상세히 설명한다.

도 2는 본 발명의 일 실시예에 따른 콘텐츠 추천 방법을 도시한 흐름도이다.

도 2를 참조하면, 콘텐츠 추천 방법은, 사용자로부터 오디오 데이터를 제공받거나, 사용자로부터 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계(S200), 사용자로부터 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터에 대한 핑거프린트 및 감정 정보를 추출하는 단계(S210, S220), 사용자가 비디오 추천을 요청한 경우, 비디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 검색하고, 검색한 비디오 정보를 사용자에게 제공하는 단계(S230, S240), 사용자가 오디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 검색하고, 검색한 오디오 정보를 사용자에게 제공하는 단계(S230, S250), 사용자가 비디오 및 오디오 추천을 요청한 경우, 비디오와 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오와 오디오 정보를 검색하고, 검색한 비디오와 오디오 정보를 사용자에게 제공하는 단계(S230, S260)를 더 포함할 수 있다. 단계 S200, 단계 S210, 단계 S220, 단계 S230, 단계 S240, 단계 S250, 단계 S260은 콘텐츠 추천 서버(20)에서 수행될 수 있다.

단계 S200은 사용자로부터 음원 정보를 제공받는 단계로, 음원 정보로 오디오 데이터만 제공받을 수 있고, 음원 정보로 오디오 데이터의 핑거프린트 및 감정 정보를 제공받을 수도 있다.

단계 S210은 사용자로부터 제공 받은 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있는지 여부를 판단하는 단계로, 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있는 경우에 바로 단계 S230을 수행하고, 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있지 않은 경우에 단계 S220을 수행한 후 단계 S230을 수행한다.

단계 S220은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계로, 오디오 데이터의 핑거프린트 추출시에 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용할 수 있다.

단계 S220은 감정 정보로 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 오디오 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다. 여기서 AV 모델이란, 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도를 나타내는 어루우절(Arousal) 수치 및 감정의 긍정적인 정도를 나타내는 밸런스(Valence) 수치를 이용하여 인간이 느끼는 감정의 정도를 나타내는 모델이다.

단계 S230은 사용자로부터 추천 요청의 형태를 판단하는 단계로, 비디오 추천의 요청이 있는 경우에 단계 S240을 수행하고, 오디오 추천의 요청이 있는 경우에 단계 S250을 수행하고, 비디오 및 오디오 추천의 요청이 있는 경우에 S260을 수행한다.

단계 S240은 사용자가 비디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계로, 비디오 핑거프린트를 검색하는 단계(S241), 비디오 감정 정보를 검색하는 단계(S242) 및 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 사용자에게 제공하는 단계(S243)를 포함할 수 있다.

단계 S241은 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색한다. 이때, 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 비디오 핑거프린트 간의 유사도에 따라 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다.

단계 S242는 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 비디오 감정 정보 간의 유사도에 따라 적어도 하나의 비디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 검색할 수 있다.

단계 S241, 단계 S242에서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 비디오 핑거프린트와 비디오 감정 정보가 검색되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 비디오 핑거프린트와 비디오 감정 정보가 검색된다.

여기서, 핑거프린트 DB(24)는 비디오 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 비디오 핑거프린트와 함께 비디오 핑거프린트에 해당하는 비디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색하면, 검색된 비디오 핑거프린트에 해당하는 비디오 정보를 알 수 있다. 또한, 감정 DB(25)는 비디오 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 비디오 감정 정보와 함께 비디오 감정 정보에 해당하는 비디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 비디오 감정 정보를 감정 DB(25)에서 검색하면, 검색된 비디오 감정 정보에 해당하는 비디오 정보를 알 수 있다.

단계 S243은 단계 S241에서 검색한 비디오 핑거프린트에 해당하는 비디오 정보와 단계 S242에서 검색한 비디오 감정 정보에 해당하는 비디오 정보 중에서 서로 공통된 비디오 정보를 추출할 수 있고, 추출한 비디오 정보를 사용자에게 제공할 수 있다.

단계 S250은 사용자가 오디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계로, 오디오 핑거프린트를 검색하는 단계(S251), 오디오 감정 정보를 검색하는 단계(S252) 및 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계(S253)를 포함할 수 있다.

단계 S251은 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 이때, 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 오디오 핑거프린트 간의 유사도에 따라 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다.

단계 S252는 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 오디오 감정 정보 간의 유사도에 따라 적어도 하나의 오디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 검색할 수 있다.

단계 S251, 단계 S252에서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 오디오 핑거프린트와 오디오 감정 정보가 검색되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 오디오 핑거프린트와 오디오 감정 정보가 검색된다. 여기서, 핑거프린트 DB(24)는 오디오 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 오디오 핑거프린트와 함께 오디오 핑거프린트에 해당하는 오디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색하면, 검색된 오디오 핑거프린트에 해당하는 오디오 정보를 알 수 있다. 또한, 감정 DB(25)는 오디오 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 오디오 감정 정보와 함께 오디오 감정 정보에 해당하는 오디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 오디오 감정 정보를 감정 DB(25)에서 검색하면, 검색된 오디오 감정 정보에 해당하는 오디오 정보를 알 수 있다.

단계 S253은 단계 S251에서 검색한 오디오 핑거프린트에 해당하는 오디오 정보와 단계 S252에서 검색한 오디오 감정 정보에 해당하는 오디오 정보 중에서 서로 공통된 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공할 수 있다.

단계 S260은 사용자가 비디오 및 오디오 추천을 요청한 경우, 핑거프린트 및 감정 정보에 부합하는 비디오와 오디오 정보를 제공하는 단계로, 비디오 및 오디오 핑거프린트를 검색하는 단계(S261), 비디오 및 오디오 감정 정보를 검색하는 단계(S262) 및 핑거프린트 및 감정 정보에 부합하는 비디오 및 오디오 정보를 추출하여 사용자에게 제공하는 단계(S263)를 포함할 수 있다. 여기서, 비디오 및 오디오 핑거프린트는 상술한 단계 S241과 단계 S251을 통해 검색할 수 있고, 비디오 및 오디오 감정 정보는 상술한 단계 S242와 단계 S252를 통해 검색할 수 있고, 핑거프린트 및 감정 정보에 부합하는 비디오 및 오디오 정보는 상술한 단계 S243과 단계 S253을 통해 검색할 수 있다.

이상 본 발명의 일 실시예에 따른 콘텐츠 추천 방법에 대하여 상세히 설명하였다. 이하 본 발명의 일 실시예에 따른 비디오 추출 방법에 대해 상세히 설명한다.

도 3은 본 발명의 일 실시예에 따른 비디오 추출 방법을 도시한 흐름도이다.

도 3을 참조하면, 비디오 추출 방법은 방송 데이터를 저장하는 단계(S300), 핑거프린트 및 감정 정보를 추출하는 단계(S310), 비디오 핑거프린트를 생성하는 단계(S320) 및 비디오 감정 정보를 생성하는 단계(S330)을 포함할 수 있다.

단계 S300은 실시간으로 방송되는 방송 데이터를 저장하며, 이때 하나의 방송 프로그램에 대한 모든 방송 데이터를 저장하거나, 하나의 방송 프로그램에 대한 일부 시간의 방송 데이터를 저장한다.

단계 S310은 단계 S300에서 저장한 방송 데이터 중에서 일부 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출하거나, 모든 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출한다. 이때, 방송 데이터 중에서 오디오 데이터만을 이용하여 핑거프린트 및 감정 정보를 추출할 수 있다.

단계 S310은 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 핑거프린트를 추출할 수 있다.

단계 S310은 감정 정보로 방송 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제2 추출부(32)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 방송 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다.

단계 S320은 단계 S310에서 추출한 오디오 핑거프린트에 비디오 정보를 부가하여 비디오 핑거프린트를 생성하고, 생성한 비디오 핑거프린트를 핑거프린트 DB(24)에 저장할 수 있다.

단계 S330은 단계 S310에서 추출한 오디오 감정 정보에 비디오 정보를 부가하여 비디오 감정 정보를 생성하고, 생성한 비디오 감정 정보를 감정 정보 DB(25)에 저장할 수 있다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10 : 단말기
20 : 콘텐츠 추천 서버
21 : 제1 추출부
22 : 검색부
23 : 제공부
30 : 비디오 추출 서버
31 : 저장부
32 : 제2 추출부
33 : 생성부

Claims

오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부;
상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 감정 DB에서 검색하는 검색부; 및
상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함하는 콘텐츠 추천 서버.
비디오에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부; 및
상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 생성부를 포함하는 비디오 추출 서버.
청구항 2항에 있어서, 상기 비디오 추출 서버는,
실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고,
상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고,
상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함하는 것을 특징으로 하는 비디오 추출 서버.
오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부;
비디오 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부;
상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 핑거프린트 DB에 제공하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 감정 DB에 제공하는 생성부;
상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 상기 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 상기 감정 DB에서 검색하는 검색부; 및
상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함하는 콘텐츠 추천 시스템.
청구항 4항에 있어서, 상기 콘텐츠 추천 시스템은,
실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고,
상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고,
상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함하는 것을 특징으로 하는 콘텐츠 추천 시스템.
청구항 4에 있어서, 상기 감정 정보는,
각 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 콘텐츠 추천 시스템.
청구항 4 내지 청구항 6중 어느 하나의 항에 있어서, 상기 제1 추출부 및 상기 제2 추출부는,
ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 콘텐츠 추천 시스템.
콘텐츠 추천 서버에서,
오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계;
오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계;
비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계; 및
오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함하는 콘텐츠 추천 방법.
청구항 8에 있어서, 상기 감정 정보는,
오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 콘텐츠 추천 방법.
청구항 8에 있어서, 상기 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는,
ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 콘텐츠 추천 방법.
청구항 8에 있어서, 상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계는,
상기 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 검색하는 단계;
상기 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 검색하는 단계; 및
검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 콘텐츠 추천 방법.
청구항 8 내지 청구항 11중 어느 하나의 항에 있어서, 상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계는,
상기 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 검색하는 단계;
상기 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 검색하는 단계; 및
검색한 오디오의 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 콘텐츠 추천 방법.
비디오 추출 서버에서,
실시간으로 방송되는 방송 데이터를 저장하는 단계;
저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계;
추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하는 단계; 및
추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 단계를 포함하는 비디오 추출 방법.
청구항 13에 있어서, 상기 감정 정보는,
오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 비디오 추출 방법.
청구항 13 또는 청구항 14에 있어서, 상기 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는,
ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 비디오 추출 방법.