KR20130055748A - 콘텐츠 추천 시스템 및 방법 - Google Patents

콘텐츠 추천 시스템 및 방법 Download PDF

Info

Publication number
KR20130055748A
KR20130055748A KR1020110121337A KR20110121337A KR20130055748A KR 20130055748 A KR20130055748 A KR 20130055748A KR 1020110121337 A KR1020110121337 A KR 1020110121337A KR 20110121337 A KR20110121337 A KR 20110121337A KR 20130055748 A KR20130055748 A KR 20130055748A
Authority
KR
South Korea
Prior art keywords
fingerprint
video
audio
information
emotion information
Prior art date
Application number
KR1020110121337A
Other languages
English (en)
Inventor
이승재
김성민
김정현
서영호
유원영
박지현
서용석
이상광
이정호
윤영석
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110121337A priority Critical patent/KR20130055748A/ko
Priority to US13/652,366 priority patent/US20130132988A1/en
Publication of KR20130055748A publication Critical patent/KR20130055748A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/835Generation of protective data, e.g. certificates
    • H04N21/8358Generation of protective data, e.g. certificates involving watermark

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

콘텐츠를 추천하기 위한 시스템 및 방법이 개시된다. 콘텐츠 추천 방법은, 오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계, 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계, 비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계 및 오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함한다. 따라서, 음원 데이터의 핑거프린트뿐만 아니라 감정 정보를 함께 이용하여 사용자가 원하는 음악을 추천하므로, 사용자에게 더욱 다양한 음악 정보를 제공할 수 있다.

Description

콘텐츠 추천 시스템 및 방법{SYSTEM AND METHOD FOR RECOMMENDING OF CONTENTS}
본 발명은 콘텐츠 추천 시스템 및 방법에 관한 것으로, 더욱 상세하게는 음악, 방송과 같은 콘텐츠를 추천하기 위한 시스템 및 방법에 관한 것이다.
인터넷과 멀티미디어 기술의 발전에 따라, 사용자는 자신이 원하는 콘텐츠를 언제 어디서나 인터넷을 통하여 손쉽게 제공받을 수 있다. 그러나 콘텐츠 양의 급격한 증가로 인하여, 사용자는 자신이 원하는 콘텐츠를 검색하기 위하여 많은 시간과 노력을 기울여야 하며, 많은 시간과 노력을 들여 검색을 하더라도 자신이 원하는 콘텐츠만 검색되는 것이 아니라 불필요한 콘텐츠도 다수 검색되는 문제점이 있었다. 특히, 음악의 경우에 그 수가 매우 많으므로, 사용자가 원하는 음악을 빠르고 정확하게 검색하거나 추천을 받기 위한 기술이 필요한 실정이다.
종래 사용자는 자신이 원하는 음악을 검색하거나 추천을 받기 위하여, 음악의 메타데이터인 장르 정보와 가수 정보를 이용하였다. 음악의 장르 정보와 가수 정보를 이용한 방법은, 사용자가 원하는 음악과 유사한 장르의 음악을 미리 구축한 음악 DB에서 검색하여 사용자에게 추천하거나, 사용자가 원하는 가수와 유사한 성향의 가수의 음악을 미리 구축한 음악 DB에서 검색하여 사용자에게 추천하는 방법이다.
이러한 방법은 음악의 메타데이터만을 이용하여 사용자에게 음악을 추천하므로, 사용자에게 추천할 수 있는 음악이 한정될 수 밖에 없어 사용자의 욕구를 만족시키지 못하는 문제점이 있었다. 또한, 사용자가 원하는 음악에 대한 정보만을 제공하고 뮤직비디오, 음악 방송 등과 같은 다양한 정보를 제공하지 못하므로, 사용자의 다양한 욕구를 충족시키지 못하는 문제점이 있었다.
본 발명의 목적은 사용자가 원하는 음악과 관련된 다양한 콘텐츠 정보를 제공하기 위하여 음악 데이터의 특성과 음악이 나타내는 감정을 고려하여 콘텐츠를 추천하는 시스템을 제공하는 것이다.
본 발명의 다른 목적은 사용자가 원하는 음악과 관련된 다양한 콘텐츠 정보를 제공하기 위하여 음악 데이터의 특성과 음악이 나타내는 감정을 고려하여 콘텐츠를 추천하는 방법을 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 측면에 따른 콘텐츠 추천 시스템은, 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부, 비디오 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부, 상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 핑거프린트 DB에 제공하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 감정 DB에 제공하는 생성부, 상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 상기 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 상기 감정 DB에서 검색하는 검색부 및 상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함한다.
상기 콘텐츠 추천 시스템은, 실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고, 상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고, 상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함할 수 있다.
상기 감정 정보는, 각 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 한다.
상기 제1 추출부 및 상기 제2 추출부는, ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.
상술한 본 발명의 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 콘텐츠 추천 방법은, 콘텐츠 추천 서버에서, 오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계, 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계, 비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계 및 오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함한다.
상기 감정 정보는, 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 한다.
상기 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는, ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.
상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계는, 상기 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 검색하는 단계, 상기 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 검색하는 단계 및 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함할 수 있다.
상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계는, 상기 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 검색하는 단계, 상기 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 검색하는 단계 및 검색한 오디오의 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함할 수 있다.
본 발명에 의하면, 음원 데이터의 핑거프린트뿐만 아니라 감정 정보를 함께 이용하여 사용자가 원하는 음악을 추천하므로, 사용자에게 더욱 다양한 음악 정보를 제공할 수 있다.
또한, 사용자가 원하는 음악 정보뿐만 아니라 음악과 관련된 방송 정보도 추천하므로, 사용자에게 보다 다양한 콘텐츠 정보를 제공할 수 있다.
또한, 실시간으로 방송되는 방송 데이터의 핑거프린트 및 감정 정보를 추출함으로써, 추출한 방송 데이터의 핑거프린트 및 감정 정보를 이용하여 실시간으로 방송되고 있는 콘텐츠를 사용자에게 추천할 수 있다.
도 1은 본 발명의 일 실시예에 따른 콘텐츠 추천 시스템의 구성을 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 추천 방법을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 비디오 추출 방법을 도시한 흐름도이다.
도 4는 AV 좌표(Arousal-Valence coordinate)를 도시한 개념도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
명세서 전체에서 "핑거프린트(fingerprint)"란, 해당 콘텐츠의 특징을 나타내는 특징 데이터를 의미하는 것으로, 지문 데이터, DNA 데이터 또는 유전자 데이터라고도 한다. 오디오 데이터의 경우, 오디오 데이터의 특징을 나타내는 특징 데이터인 주파수, 진폭 등을 이용하여 핑거프린트를 생성할 수 있고, 비디오 데이터의 경우, 비디오 데이터의 특징을 나타내는 특징 데이터인 프레임의 모션 벡터 정보, 색상 정보 등을 이용하여 핑거프린트를 생성할 수 있다.
명세서 전체에서 "감정 정보"는 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도 및 감정의 긍정적인 정도를 의미하고, "오디오"는 음악, 강의, 라디오 방송 등을 포함하는 의미이고, "비디오"는 동영상, 지상파 방송, 케이블 방송, 뮤직비디오, 스트리밍 서비스에 의해 제공되는 동영상 등을 포함하는 의미이고, "오디오 정보"는 오디오 데이터, 오디오의 메타데이터(제목, 가수, 장르 등) 등을 포함하는 의미이고, "비디오 정보"는 비디오 데이터, 비디오의 메타데이터(제목, 가수, 장르, 방송 채널, 방송 시간, 방송 명칭 등), 뮤직비디오 정보, 동영상이 게재된 웹의 주소, 스트리밍 서비스가 제공되는 웹 주소 등을 포함하는 의미이다.
도 1은 본 발명의 일 실시예에 따른 콘텐츠 추천 시스템의 구성을 도시한 블럭도이다.
도 1을 참조하면, 콘텐츠 추천 시스템은 콘텐츠 추천 서버(20)만을 포함할 수 있고, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)를 포함할 수도 있다. 또한, 본 발명의 실시예에서는 설명의 편의상 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)가 서로 독립적인 부분으로 개시되지만, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 콘텐츠 추천 서버(20)와 비디오 추출 서버(30)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.
단말기(10)는 오디오 데이터를 콘텐츠 추천 서버(20)에 전송하거나, 오디오 데이터의 핑거프린트 및 감정 정보를 콘텐츠 추천 서버(20)에 전송한다. 단말기(10)가 오디오 데이터를 콘텐츠 추천 서버(20)에 전송하는 경우, 하나의 오디오 전체에 해당하는 오디오 데이터를 전송할 수 있고, 하나의 오디오 일부에 해당하는 오디오 데이터를 전송할 수도 있다. 또한, 단말기(10)는 복수의 오디오에 대한 오디오 데이터를 콘텐츠 추천 서버(20)에 전송할 수도 있다. 단말기(10)는 오디오 정보, 비디오 정보 중에서 적어도 하나의 정보를 콘텐츠 추천 서버(20)로부터 전송받을 수 있다.
여기서, 단말기(10)는 콘텐츠 추천 서버(20)와 유무선으로 통신이 가능한 기기로, 랩탑(Laptop), 데스크탑(Desktop), 태블릿PC, 휴대폰, 스마트폰, PDA(Personal Digital Assistants), MP3 플레이어, 네비게이션 등을 사용할 수 있다.
콘텐츠 추천 서버(20)는 사용자로부터 제공받은 오디오 데이터에 관련된 오디오 정보, 비디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하며, 이러한 콘텐츠 추천 서버(20)는 제1 추출부(21), 검색부(22), 제공부(23), 핑거프린트 DB(24) 및 감정 DB(25)를 포함할 수 있고, 메타데이터 DB(26)와 멀티미디어 DB(27)를 더 포함할 수 있다.
또한, 본 발명의 실시예에서는 설명의 편의상 제1 추출부(21), 검색부(22), 제공부(23)가 서로 독립적인 부분으로 개시되지만, 제1 추출부(21), 검색부(22), 제공부(23)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 제1 추출부(21), 검색부(22), 제공부(23)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다. 또한, 핑거프린트 DB(24), 감정 DB(25), 메타데이터 DB(26), 멀티미디어 DB(27)는 하나의 DB로 구현될 수 있다.
제1 추출부(21)는 사용자로부터 제공받은 오디오 데이터로부터 핑거프린트 및 감정 정보를 추출한다. 제1 추출부(21)는 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출할 수 있다.
제1 추출부(21)는 감정 정보로 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제1 추출부(21)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 오디오 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다. 여기서 AV 모델이란, 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도를 나타내는 어루우절(Arousal) 수치 및 감정의 긍정적인 정도를 나타내는 밸런스(Valence) 수치를 이용하여 인간이 느끼는 감정의 정도를 나타내는 모델이다.
도 4는 AV 좌표(Arousal-Valence coordinate)를 도시한 개념도로, 도 4를 참조하면, X축은 감정의 긍정적인 정도를 나타내는 밸런스(Valence)로 -1에서 1사이의 값을 가지며, Y축은 감정의 강도를 나타내는 어로우절(Arousal)으로 -1에서 1사이의 값을 가진다. 이러한 AV 좌표를 이용하여 AV 계수의 값을 나타낼 수도 있다.
또한, 오디오 데이터의 감정 정보를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2011-0053785호에서 개시하고 있는 감정 모델 생성 방법을 사용할 수 있다.
검색부(22)는 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 핑거프린트 간의 유사도에 따라 핑거프린트 DB(24)에서 적어도 하나의 핑거프린트를 추출할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 핑거프린트를 핑거프린트 DB(24)에서 추출할 수 있다.
검색부(22)는 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 감정 정보 간의 유사도에 따라 감정 DB(25)에서 적어도 하나의 감정 정보를 추출할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 추출할 수 있다.
여기서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 핑거프린트 또는 감정 정보가 추출되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 핑거프린트 또는 감정 정보가 추출된다.
여기서, 핑거프린트 DB(24)는 오디오와 비디오의 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 핑거프린트와 함께 핑거프린트에 해당하는 오디오 정보, 비디오 정보가 저장될 수 있다. 따라서, 검색부(22)가 적어도 하나의 핑거프린트를 핑거프린트 DB(24)에서 추출하면, 추출된 핑거프린트에 해당하는 오디오 정보, 비디오 정보를 알 수 있다.
또한, 감정 DB(25)는 오디오와 비디오의 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 감정 정보와 함께 감정 정보에 해당하는 오디오 정보, 비디오 정보가 저장될 수 있다. 따라서, 검색부(22)가 적어도 하나의 감정 정보를 감정 DB(25)에서 추출하면, 추출된 감정 정보에 해당하는 오디오 정보, 비디오 정보를 알 수 있다.
또한, 핑거프린트 DB(24)에서 핑거프린트를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2007-0037399에서 개시하고 있는 핑거프린트 검색 방법을 사용할 수 있다.
또한, 감정 DB(25)에서 감정 정보를 추출하는 방법으로 종래 공지된 다양한 방법을 사용할 수 있으며, 바람직하게는 본 출원인이 출원한 특허출원 제10-2011-0053785호에서 개시하고 있는 감정 모델을 이용한 음악 검색 방법을 사용할 수 있다.
제공부(23)는 검색부(22)에서 검색한 핑거프린트 및 감정 정보에 부합하는 비디오 정보, 오디오 정보 중에서 적어도 하나 정보를 추출하여 사용자의 단말기(10)로 제공한다. 즉, 제공부(23)는 검색부(22)에서 검색한 비디오 핑거프린트에 해당하는 비디오 정보와 검색부(22)에서 검색한 비디오 감정 정보에 해당하는 비디오 정보 중에서 서로 공통된 비디오 정보를 추출하고, 추출한 공통된 비디오 정보를 사용자 단말기(10)로 제공한다. 여기서, 추출한 공통된 비디오 정보에 포함되는 비디오의 메타데이터는 메타데이터 DB(26)에서 검색하여 사용자 단말기(10)에 제공할 수 있고, 비디오 데이터는 멀티미디어 DB(27)에서 검색하여 사용자 단말기(10)에 제공할 수 있다.
또한, 제공부(23)는 검색부(22)에서 검색한 오디오 핑거프린트에 해당하는 오디오 정보와 검색부(22)에서 검색한 오디오 감정 정보에 해당하는 오디오 정보 중에서 서로 공통된 오디오 정보를 추출하고, 추출한 공통된 오디오 정보를 사용자 단말기(10)로 제공한다. 여기서, 추출한 공통된 오디오 정보에 포함되는 오디오의 메타데이터는 메타데이터 DB(26)에서 검색하여 사용자 단말기(10)에 제공할 수 있고, 오디오 데이터는 멀티미디어 DB(27)에서 검색하여 사용자 단말기(10)에 제공할 수 있다.
제공부(23)는 사용자의 요청에 따라 오디오 정보만을 제공하거나 비디오 정보만을 제공할 수 있으며, 오디오 정보와 비디오 정보를 함께 제공할 수도 있다.
비디오 추출 서버(30)는 비디오에 대한 오디오 핑거프린트 및 감정 정보를 추출하여, 비디오 핑거프린트 및 감정 정보를 생성하며, 일반적인 동영상뿐만 아니라 실시간으로 방송되는 방송에 대한 비디오 핑거프린트 및 감정 정보를 생성할 수 있다. 비디오 추출 서버(30)는 저장부(31), 제2 추출부(32), 생성부(33)를 포함할 수 있다.
또한, 본 발명의 실시예에서는 설명의 편의상 저장부(31), 제2 추출부(32), 생성부(33)가 서로 독립적인 부분으로 개시되지만, 저장부(31), 제2 추출부(32), 생성부(33)는 단일한 형태, 하나의 물리적인 장치 또는 하나의 모듈로 구현될 수 있다. 이뿐만 아니라, 저장부(31), 제2 추출부(32), 생성부(33)가 각각 하나의 물리적인 장치 또는 집단이 아닌 복수의 물리적 장치 또는 집단으로 구현될 수 있다.
저장부(31)는 실시간으로 방송되는 방송 데이터를 저장하며, 이때 하나의 방송 프로그램에 대한 모든 방송 데이터를 저장할 수 있고, 하나의 방송 프로그램에 대한 일부 시간의 방송 데이터를 저장할 수도 있다.
제2 추출부(32)는 저장부(31)에서 저장한 방송 데이터 중에서 일부 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출할 수 있으며, 방송데이터 중에서 오디오 데이터만을 이용하여 핑거프린트 및 감정 정보를 추출할 수 있다.
제2 추출부(32)는 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 핑거프린트를 추출할 수 있다.
제2 추출부(32)는 감정 정보로 방송 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제2 추출부(32)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 방송 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다.
생성부(33)는 제2 추출부(32)에서 추출한 오디오 핑거프린트에 비디오 정보를 부가하여 비디오 핑거프린트를 생성하고, 생성한 비디오 핑거프린트를 핑거프린트 DB(24)에 저장할 수 있다. 또한, 생성부(33)는 제2 추출부(32)에서 추출한 오디오 감정 정보에 비디오 정보를 부가하여 비디오 감정 정보를 생성하고, 생성한 비디오 감정 정보를 감정 정보 DB(25)에 저장할 수 있다.
이러한 비디오 추출 서버(30)를 통해 실시간으로 방송되는 방송 데이터의 핑거프린트 및 감정 정보를 추출할 수 있고, 추출한 방송 데이터의 핑거프린트 및 감정 정보에 비디오 정보를 부가하여 핑거프린트 DB(24) 및 감정 정보 DB(25)에 저장함으로써 핑거프린트 DB(24) 및 감정 정보 DB(25)를 실시간으로 업데이트 할 수 있고, 업데이트한 핑거프린트 DB(24) 및 감정 정보 DB(25)를 이용하여 실시간으로 방송되고 있는 콘텐츠를 사용자에게 추천할 수 있다. 여기서 실시간으로 방송되는 방송 데이터는 지상파 방송, 케이블 방송, 라디오 방송 등을 포함하는 의미이다.
이상 본 발명의 일 실시예에 따른 콘텐츠 추천 서버, 비디오 추출 서버, 콘텐츠 추천 시스템의 구성 및 기능에 대하여 상세히 설명하였다. 이하 본 발명의 일 실시예에 따른 콘텐츠 추천 방법에 대해 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 추천 방법을 도시한 흐름도이다.
도 2를 참조하면, 콘텐츠 추천 방법은, 사용자로부터 오디오 데이터를 제공받거나, 사용자로부터 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계(S200), 사용자로부터 오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터에 대한 핑거프린트 및 감정 정보를 추출하는 단계(S210, S220), 사용자가 비디오 추천을 요청한 경우, 비디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 검색하고, 검색한 비디오 정보를 사용자에게 제공하는 단계(S230, S240), 사용자가 오디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 검색하고, 검색한 오디오 정보를 사용자에게 제공하는 단계(S230, S250), 사용자가 비디오 및 오디오 추천을 요청한 경우, 비디오와 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오와 오디오 정보를 검색하고, 검색한 비디오와 오디오 정보를 사용자에게 제공하는 단계(S230, S260)를 더 포함할 수 있다. 단계 S200, 단계 S210, 단계 S220, 단계 S230, 단계 S240, 단계 S250, 단계 S260은 콘텐츠 추천 서버(20)에서 수행될 수 있다.
단계 S200은 사용자로부터 음원 정보를 제공받는 단계로, 음원 정보로 오디오 데이터만 제공받을 수 있고, 음원 정보로 오디오 데이터의 핑거프린트 및 감정 정보를 제공받을 수도 있다.
단계 S210은 사용자로부터 제공 받은 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있는지 여부를 판단하는 단계로, 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있는 경우에 바로 단계 S230을 수행하고, 음원 정보에 오디오 데이터의 핑거프린트 및 감정 정보가 포함되어 있지 않은 경우에 단계 S220을 수행한 후 단계 S230을 수행한다.
단계 S220은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계로, 오디오 데이터의 핑거프린트 추출시에 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용할 수 있다.
단계 S220은 감정 정보로 오디오 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 오디오 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다. 여기서 AV 모델이란, 어떤 콘텐츠에 대해 인간이 느끼는 감정의 강도를 나타내는 어루우절(Arousal) 수치 및 감정의 긍정적인 정도를 나타내는 밸런스(Valence) 수치를 이용하여 인간이 느끼는 감정의 정도를 나타내는 모델이다.
단계 S230은 사용자로부터 추천 요청의 형태를 판단하는 단계로, 비디오 추천의 요청이 있는 경우에 단계 S240을 수행하고, 오디오 추천의 요청이 있는 경우에 단계 S250을 수행하고, 비디오 및 오디오 추천의 요청이 있는 경우에 S260을 수행한다.
단계 S240은 사용자가 비디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계로, 비디오 핑거프린트를 검색하는 단계(S241), 비디오 감정 정보를 검색하는 단계(S242) 및 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 사용자에게 제공하는 단계(S243)를 포함할 수 있다.
단계 S241은 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색한다. 이때, 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 비디오 핑거프린트 간의 유사도에 따라 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다.
단계 S242는 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 비디오 감정 정보 간의 유사도에 따라 적어도 하나의 비디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 검색할 수 있다.
단계 S241, 단계 S242에서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 비디오 핑거프린트와 비디오 감정 정보가 검색되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 비디오 핑거프린트와 비디오 감정 정보가 검색된다.
여기서, 핑거프린트 DB(24)는 비디오 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 비디오 핑거프린트와 함께 비디오 핑거프린트에 해당하는 비디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 비디오 핑거프린트를 핑거프린트 DB(24)에서 검색하면, 검색된 비디오 핑거프린트에 해당하는 비디오 정보를 알 수 있다. 또한, 감정 DB(25)는 비디오 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 비디오 감정 정보와 함께 비디오 감정 정보에 해당하는 비디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 비디오 감정 정보를 감정 DB(25)에서 검색하면, 검색된 비디오 감정 정보에 해당하는 비디오 정보를 알 수 있다.
단계 S243은 단계 S241에서 검색한 비디오 핑거프린트에 해당하는 비디오 정보와 단계 S242에서 검색한 비디오 감정 정보에 해당하는 비디오 정보 중에서 서로 공통된 비디오 정보를 추출할 수 있고, 추출한 비디오 정보를 사용자에게 제공할 수 있다.
단계 S250은 사용자가 오디오 추천을 요청한 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계로, 오디오 핑거프린트를 검색하는 단계(S251), 오디오 감정 정보를 검색하는 단계(S252) 및 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계(S253)를 포함할 수 있다.
단계 S251은 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 이때, 오디오 데이터의 핑거프린트와 핑거프린트 DB(24)에 저장된 오디오 핑거프린트 간의 유사도에 따라 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다. 즉, 핑거프린트는 오디오 데이터의 주파수, 진폭 특성을 나타내는 값으로, 오디오 데이터의 핑거프린트와 주파수, 진폭 특성이 유사한 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색할 수 있다.
단계 S252는 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 오디오 데이터의 감정 정보와 감정 DB(25)에 저장된 오디오 감정 정보 간의 유사도에 따라 적어도 하나의 오디오 감정 정보를 감정 DB(25)에서 검색할 수 있다. 이때, 감정 정보로 AV 계수를 이용할 수 있으며, 이 경우에 오디오 데이터의 AV 계수와 유사한 적어도 하나의 AV 계수를 감정 DB(25)에서 검색할 수 있다.
단계 S251, 단계 S252에서, 유사도는 사용자의 요청에 따라 설정이 가능하며, 유사도의 범위를 넓게 설정하면 상대적으로 많은 수의 오디오 핑거프린트와 오디오 감정 정보가 검색되고, 유사도의 범위를 좁게 설정하면 상대적으로 적은 수의 오디오 핑거프린트와 오디오 감정 정보가 검색된다. 여기서, 핑거프린트 DB(24)는 오디오 핑거프린트가 저장되어 있는 DB를 의미하고, 핑거프린트 DB(24)에는 오디오 핑거프린트와 함께 오디오 핑거프린트에 해당하는 오디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 오디오 핑거프린트를 핑거프린트 DB(24)에서 검색하면, 검색된 오디오 핑거프린트에 해당하는 오디오 정보를 알 수 있다. 또한, 감정 DB(25)는 오디오 감정 정보(AV 계수)가 저장되어 있는 DB를 의미하고, 감정 DB(25)에는 오디오 감정 정보와 함께 오디오 감정 정보에 해당하는 오디오 정보가 저장될 수 있다. 따라서, 적어도 하나의 오디오 감정 정보를 감정 DB(25)에서 검색하면, 검색된 오디오 감정 정보에 해당하는 오디오 정보를 알 수 있다.
단계 S253은 단계 S251에서 검색한 오디오 핑거프린트에 해당하는 오디오 정보와 단계 S252에서 검색한 오디오 감정 정보에 해당하는 오디오 정보 중에서 서로 공통된 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공할 수 있다.
단계 S260은 사용자가 비디오 및 오디오 추천을 요청한 경우, 핑거프린트 및 감정 정보에 부합하는 비디오와 오디오 정보를 제공하는 단계로, 비디오 및 오디오 핑거프린트를 검색하는 단계(S261), 비디오 및 오디오 감정 정보를 검색하는 단계(S262) 및 핑거프린트 및 감정 정보에 부합하는 비디오 및 오디오 정보를 추출하여 사용자에게 제공하는 단계(S263)를 포함할 수 있다. 여기서, 비디오 및 오디오 핑거프린트는 상술한 단계 S241과 단계 S251을 통해 검색할 수 있고, 비디오 및 오디오 감정 정보는 상술한 단계 S242와 단계 S252를 통해 검색할 수 있고, 핑거프린트 및 감정 정보에 부합하는 비디오 및 오디오 정보는 상술한 단계 S243과 단계 S253을 통해 검색할 수 있다.
이상 본 발명의 일 실시예에 따른 콘텐츠 추천 방법에 대하여 상세히 설명하였다. 이하 본 발명의 일 실시예에 따른 비디오 추출 방법에 대해 상세히 설명한다.
도 3은 본 발명의 일 실시예에 따른 비디오 추출 방법을 도시한 흐름도이다.
도 3을 참조하면, 비디오 추출 방법은 방송 데이터를 저장하는 단계(S300), 핑거프린트 및 감정 정보를 추출하는 단계(S310), 비디오 핑거프린트를 생성하는 단계(S320) 및 비디오 감정 정보를 생성하는 단계(S330)을 포함할 수 있다.
단계 S300은 실시간으로 방송되는 방송 데이터를 저장하며, 이때 하나의 방송 프로그램에 대한 모든 방송 데이터를 저장하거나, 하나의 방송 프로그램에 대한 일부 시간의 방송 데이터를 저장한다.
단계 S310은 단계 S300에서 저장한 방송 데이터 중에서 일부 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출하거나, 모든 시간에 대한 방송 데이터를 이용하여 핑거프린트 및 감정 정보를 추출한다. 이때, 방송 데이터 중에서 오디오 데이터만을 이용하여 핑거프린트 및 감정 정보를 추출할 수 있다.
단계 S310은 ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 핑거프린트를 추출할 수 있다.
단계 S310은 감정 정보로 방송 데이터의 AV 계수(Arousal-Valence Coefficient)를 추출할 수 있으며, 이때 제2 추출부(32)는 MFCC(Mel Frequency Cepstral Coefficients), OSC(Octave-based Spectral Contrast), 에너지, 템포(tempo) 등을 이용한 회귀 분석(regression analysis)을 이용하여 방송 데이터의 특성을 추출하고, 이러한 특성을 AV 모델(Arousal-Valence Model)에 적용하여 AV 계수를 추출할 수 있다.
단계 S320은 단계 S310에서 추출한 오디오 핑거프린트에 비디오 정보를 부가하여 비디오 핑거프린트를 생성하고, 생성한 비디오 핑거프린트를 핑거프린트 DB(24)에 저장할 수 있다.
단계 S330은 단계 S310에서 추출한 오디오 감정 정보에 비디오 정보를 부가하여 비디오 감정 정보를 생성하고, 생성한 비디오 감정 정보를 감정 정보 DB(25)에 저장할 수 있다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
10 : 단말기
20 : 콘텐츠 추천 서버
21 : 제1 추출부
22 : 검색부
23 : 제공부
30 : 비디오 추출 서버
31 : 저장부
32 : 제2 추출부
33 : 생성부

Claims (15)

  1. 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부;
    상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 감정 DB에서 검색하는 검색부; 및
    상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함하는 콘텐츠 추천 서버.
  2. 비디오에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부; 및
    상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 생성부를 포함하는 비디오 추출 서버.
  3. 청구항 2항에 있어서, 상기 비디오 추출 서버는,
    실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고,
    상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고,
    상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함하는 것을 특징으로 하는 비디오 추출 서버.
  4. 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제1 추출부;
    비디오 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 제2 추출부;
    상기 제2 추출부에서 추출한 핑거프린트에 비디오의 메타데이터를 부가하여 핑거프린트 DB에 제공하고, 상기 제2 추출부에서 추출한 감정 정보에 비디오의 메타데이터를 부가하여 감정 DB에 제공하는 생성부;
    상기 제1 추출부에서 추출한 핑거프린트에 부합하는 비디오 핑거프린트 또는 오디오 핑거프린트를 상기 핑거프린트 DB에서 검색하고, 상기 제1 추출부에서 추출한 감정 정보에 부합하는 비디오 감정 정보 또는 오디오 감정 정보를 상기 감정 DB에서 검색하는 검색부; 및
    상기 검색부에서 검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보, 상기 검색부에서 검색한 오디오 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보 중에서 적어도 하나의 정보를 추출하여 사용자에게 제공하는 제공부를 포함하는 콘텐츠 추천 시스템.
  5. 청구항 4항에 있어서, 상기 콘텐츠 추천 시스템은,
    실시간으로 방송되는 방송 데이터를 저장하는 저장부를 더 포함하고,
    상기 제2 추출부는 상기 저장부에 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 기능을 더 포함하고,
    상기 생성부는 상기 제2 추출부에서 추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하고, 상기 제2 추출부에서 추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 기능을 더 포함하는 것을 특징으로 하는 콘텐츠 추천 시스템.
  6. 청구항 4에 있어서, 상기 감정 정보는,
    각 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 콘텐츠 추천 시스템.
  7. 청구항 4 내지 청구항 6중 어느 하나의 항에 있어서, 상기 제1 추출부 및 상기 제2 추출부는,
    ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequency Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 콘텐츠 추천 시스템.
  8. 콘텐츠 추천 서버에서,
    오디오 데이터를 제공받거나, 오디오 데이터의 핑거프린트 및 감정 정보를 제공받는 단계;
    오디오 데이터를 제공받은 경우, 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계;
    비디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계; 및
    오디오 추천 요청을 받은 경우, 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계를 포함하는 콘텐츠 추천 방법.
  9. 청구항 8에 있어서, 상기 감정 정보는,
    오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 콘텐츠 추천 방법.
  10. 청구항 8에 있어서, 상기 제공받은 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는,
    ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 콘텐츠 추천 방법.
  11. 청구항 8에 있어서, 상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 비디오 정보를 추출하고, 추출한 비디오 정보를 사용자에게 제공하는 단계는,
    상기 오디오 데이터의 핑거프린트에 부합하는 비디오 핑거프린트를 검색하는 단계;
    상기 오디오 데이터의 감정 정보에 부합하는 비디오 감정 정보를 검색하는 단계; 및
    검색한 비디오 핑거프린트 및 비디오 감정 정보에 부합하는 비디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 콘텐츠 추천 방법.
  12. 청구항 8 내지 청구항 11중 어느 하나의 항에 있어서, 상기 오디오 데이터의 핑거프린트 및 감정 정보에 부합하는 오디오 정보를 추출하고, 추출한 오디오 정보를 사용자에게 제공하는 단계는,
    상기 오디오 데이터의 핑거프린트에 부합하는 오디오 핑거프린트를 검색하는 단계;
    상기 오디오 데이터의 감정 정보에 부합하는 오디오 감정 정보를 검색하는 단계; 및
    검색한 오디오의 핑거프린트 및 오디오 감정 정보에 부합하는 오디오 정보를 추출하여 사용자에게 제공하는 단계를 더 포함하는 것을 특징으로 하는 콘텐츠 추천 방법.
  13. 비디오 추출 서버에서,
    실시간으로 방송되는 방송 데이터를 저장하는 단계;
    저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계;
    추출한 핑거프린트에 방송의 메타데이터를 부가하여 비디오 핑거프린트를 생성하는 단계; 및
    추출한 감정 정보에 방송의 메타데이터를 부가하여 비디오 감정 정보를 생성하는 단계를 포함하는 비디오 추출 방법.
  14. 청구항 13에 있어서, 상기 감정 정보는,
    오디오 데이터의 AV 계수(Arousal-Valence Coefficient)인 것을 특징으로 하는 비디오 추출 방법.
  15. 청구항 13 또는 청구항 14에 있어서, 상기 저장한 방송 데이터에 대한 오디오 데이터의 핑거프린트 및 감정 정보를 추출하는 단계는,
    ZCR(Zero Crossing Rate), 에너지 차(Energy Difference), 주파수 평면도(Spectral Flatness), MFCC(Mel Frequency Cepstral Coefficients), 주파수 무게중심(Frequncy Centroids) 알고리즘 중에서 하나를 이용하여 오디오 데이터의 핑거프린트를 추출하는 것을 특징으로 하는 비디오 추출 방법.
KR1020110121337A 2011-11-21 2011-11-21 콘텐츠 추천 시스템 및 방법 KR20130055748A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110121337A KR20130055748A (ko) 2011-11-21 2011-11-21 콘텐츠 추천 시스템 및 방법
US13/652,366 US20130132988A1 (en) 2011-11-21 2012-10-15 System and method for content recommendation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110121337A KR20130055748A (ko) 2011-11-21 2011-11-21 콘텐츠 추천 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20130055748A true KR20130055748A (ko) 2013-05-29

Family

ID=48428244

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110121337A KR20130055748A (ko) 2011-11-21 2011-11-21 콘텐츠 추천 시스템 및 방법

Country Status (2)

Country Link
US (1) US20130132988A1 (ko)
KR (1) KR20130055748A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065301A (ko) * 2016-12-07 2018-06-18 정우주 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
KR20210010647A (ko) * 2017-03-31 2021-01-27 그레이스노트, 인코포레이티드 모션 비디오를 갖는 음악 서비스

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488764B (zh) * 2013-09-26 2016-08-17 天脉聚源(北京)传媒科技有限公司 个性化视频内容推荐方法和系统
WO2015056929A1 (ko) * 2013-10-18 2015-04-23 (주)인시그널 오디오 데이터 전송을 위한 파일 포맷 및 그 구성 방법
DK178068B1 (en) * 2014-01-21 2015-04-20 Bang & Olufsen As Mood based recommendation
US9619854B1 (en) * 2014-01-21 2017-04-11 Google Inc. Fingerprint matching for recommending media content within a viewing session
TWI603213B (zh) * 2014-01-23 2017-10-21 國立交通大學 基於臉部辨識的音樂選取方法、音樂選取系統及電子裝置
CN106991172B (zh) * 2017-04-05 2020-04-28 安徽建筑大学 一种多模态情感交互数据库的建立方法
CN110100447B (zh) 2017-11-30 2021-06-11 腾讯科技(深圳)有限公司 信息处理方法及装置、多媒体设备及存储介质
CN108038243A (zh) * 2017-12-28 2018-05-15 广东欧珀移动通信有限公司 音乐推荐方法、装置、存储介质及电子设备
KR102660124B1 (ko) * 2018-03-08 2024-04-23 한국전자통신연구원 동영상 감정 학습용 데이터 생성 방법, 동영상 감정 판단 방법, 이를 이용하는 동영상 감정 판단 장치
CN110717067B (zh) * 2019-12-16 2020-05-05 北京海天瑞声科技股份有限公司 视频中音频聚类的处理方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
EP1955458B1 (en) * 2005-11-29 2012-07-11 Google Inc. Social and interactive applications for mass media
US20100011388A1 (en) * 2008-07-10 2010-01-14 William Bull System and method for creating playlists based on mood
WO2010027509A1 (en) * 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
US9614951B2 (en) * 2008-11-21 2017-04-04 Nokia Technologies Oy Method, apparatus and computer program product for analyzing data associated with proximate devices
TW201022968A (en) * 2008-12-10 2010-06-16 Univ Nat Taiwan A multimedia searching system, a method of building the system and associate searching method thereof
EP2234024B1 (en) * 2009-03-24 2012-10-03 Sony Corporation Context based video finder
US8862574B2 (en) * 2009-04-30 2014-10-14 Microsoft Corporation Providing a search-result filters toolbar
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
WO2011001002A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation A method, devices and a service for searching
TWI396105B (zh) * 2009-07-21 2013-05-11 Univ Nat Taiwan 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
US8239412B2 (en) * 2010-05-05 2012-08-07 Rovi Technologies Corporation Recommending a media item by using audio content from a seed media item

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180065301A (ko) * 2016-12-07 2018-06-18 정우주 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
KR101869332B1 (ko) * 2016-12-07 2018-07-20 정우주 사용자 맞춤형 멀티미디어 컨텐츠를 제공하는 방법 및 장치
KR20210010647A (ko) * 2017-03-31 2021-01-27 그레이스노트, 인코포레이티드 모션 비디오를 갖는 음악 서비스
US11240551B2 (en) 2017-03-31 2022-02-01 Gracenote, Inc. Music service with motion video
US11770578B2 (en) 2017-03-31 2023-09-26 Gracenote, Inc. Music service with motion video

Also Published As

Publication number Publication date
US20130132988A1 (en) 2013-05-23

Similar Documents

Publication Publication Date Title
KR20130055748A (ko) 콘텐츠 추천 시스템 및 방법
US11921778B2 (en) Systems, methods and apparatus for generating music recommendations based on combining song and user influencers with channel rule characterizations
US11461388B2 (en) Generating a playlist
US10088978B2 (en) Country-specific content recommendations in view of sparse country data
Kaminskas et al. Location-aware music recommendation using auto-tagging and hybrid matching
Braunhofer et al. Location-aware music recommendation
US20160055245A1 (en) Systems and methods for providing information discovery and retrieval
US20220083583A1 (en) Systems, Methods and Computer Program Products for Associating Media Content Having Different Modalities
US10885107B2 (en) Music recommendation method and apparatus
US20220092103A1 (en) Descriptive media content search
US10349137B2 (en) Device and method for recommending content and sound source
US9576050B1 (en) Generating a playlist based on input acoustic information
US10510328B2 (en) Lyrics analyzer
CN102576444A (zh) 用于确定通信设备的用户概况中将要引入的潜在未来兴趣的设备
US20190098352A1 (en) Method of recommending personal broadcasting contents
CN107145509B (zh) 一种信息搜索方法及其设备
CN111414512A (zh) 一种基于语音搜索的资源推荐方法、装置及电子设备
US20140032537A1 (en) Apparatus, system, and method for music identification
KR20200043687A (ko) 개인화된 음악 추천 방법 및 이를 지원하는 서비스 장치
US11809490B2 (en) System and method for identifying content relevant to a user based on lyrics from music
KR101525400B1 (ko) 컴퓨터 실행 가능한 감성 어휘 분류 방법 및 이를 수행하는 컴퓨터 실행 장치
KR20130103243A (ko) 음성 인식을 이용한 음악 선곡 서비스 제공 방법 및 장치
CN106462618A (zh) 用于第二设备的动态当前结果
US20180322195A1 (en) Method for recommending musing in playlist and apparatus using the same
KR102183008B1 (ko) 음원 추천 장치 및 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid