KR20100086676A

KR20100086676A - 컨텐츠에 대한 선호도 예측 방법 및 장치와, 샘플 컨텐츠 선정 방법 및 장치

Info

Publication number: KR20100086676A
Application number: KR1020090006019A
Authority: KR
Inventors: 이재황; 황철주; 박수홍; 이민호; 오정현; 김용욱
Original assignee: 삼성전자주식회사
Priority date: 2009-01-23
Filing date: 2009-01-23
Publication date: 2010-08-02
Also published as: US20100191680A1; KR101792587B1; US8463717B2

Abstract

동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보로부터 사용자에 대한 유사 사용자 목록을 추출하고, 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 사용자의 컨텐츠에 대한 선호도를 예측하는 컨텐츠 선호도 예측 방법 및 장치와, 컨텐츠 선호도 예측을 위한 샘플 컨텐츠 선정 방법 및 장치가 개시되어 있다.

Description

컨텐츠에 대한 선호도 예측 방법 및 장치와, 샘플 컨텐츠 선정 방법 및 장치 {Method and apparatus of predicting preference rating for contents, and method and apparatus for selecting sample contents}

본 발명은 컨텐츠 추천 시스템에 대한 것으로, 컨텐츠 추천을 위해 컨텐츠에 대한 사용자의 선호도를 예측하기 위한 방법과 장치, 그리고 선호도 예측을 위해 샘플 컨텐츠를 선정하기 위한 방법과 장치에 관한 것이다.

TV, PC, PMP(Personal Media Player), 휴대폰 등 컨텐츠를 재생하는 다양한 기기가 널리 사용되고 있다. 그러나 컨텐츠 제공 시스템이 보유한 컨텐츠 수가 방대해짐에 따라 사용자들이 컨텐츠를 선택하는데 어려움이 있으며, 컨텐츠 서비스 제공자들은 이러한 문제를 해결하기 위해 컨텐츠 추천 시스템을 운영하고 있다. 컨텐츠 추천 시스템은 사용자의 취향을 고려하여 사용자가 비용을 지불하고 감상할만한 컨텐츠를 사용자에게 제시하는 것을 목적으로 하며, 이를 위해 사용자의 선호도를 사전에 분석하여 수많은 컨텐츠 중에 사용자가 선호할만한 컨텐츠를 선별하여 추천한다. 하지만 신규 사용자인 경우 사용자가 어떤 컨텐츠를 선호하는지 사용자의 성향이 파악되어 있지 않기 때문에 컨텐츠를 추천하는데 어려움이 있으며, 신규 컨텐츠인 경우는 아무도 사용한 적이 없기 때문에 어떤 사용자들에게 추천하여 구매를 유도할지 결정하기 어렵다.

신규 사용자의 선호도를 분석하기 위해서는 일반적으로 15개의 샘플 컨텐츠에 대한 선호도 정보가 필요하다. 필요한 정보를 얻기 위해 무작위로 컨텐츠를 추천하는 방법이 사용되고 있으나, 이는 사용자의 취향을 고려하지 않은 추천인바 사용자가 제시된 컨텐츠들을 이용하고 평가하기를 기다려 기계 학습(machine learning)에 필요한 데이터를 획득하려면 시간이 많이 소요된다. 컨텐츠의 인기도 순으로 컨텐츠를 추천하여 신규 사용자가 선택한 컨텐츠로부터 선호도 정보를 얻어내는 방법의 경우는 신규 사용자 특유의 선호도를 파악하기 어렵다. 인기가 많고 선호도 정보가 많은 컨텐츠를 추천하여 신규 사용자가 선택한 컨텐츠로부터 선호도 정보를 얻어내는 방법의 경우는 비교적 선호도 분석에 유효한 정보의 확보가 가능하지만 이 방법 역시 학습 시간이 오래 걸린다.

본 발명은 신규 사용자나 신규 컨텐츠가 입력된 경우에도 효율적인 컨텐츠 추천이 가능하도록 하는 컨텐츠 선호도 예측 방법 및 장치와, 사용자의 컨텐츠 선호도 예측을 위한 샘플 컨텐츠 선정 방법 및 장치에 대한 것이다.

본 발명의 일 실시예에 따른 컨텐츠에 대한 선호도 예측 방법은, 상기 컨텐츠와 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보로부터 사용자에 대한 유사 사용자 목록을 추출하는 단계와, 상기 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 상기 사용자의 상 기 컨텐츠에 대한 선호도를 예측하는 단계를 포함한다.

상기 선호도 예측 방법은, 소정 수의 샘플 컨텐츠를 상기 사용자에게 제시하고 그에 대한 선호도를 획득하는 단계를 더 포함하고, 상기 유사 사용자 목록을 추출하는 단계는, 상기 샘플 컨텐츠에 대한 선호도를 이용하여 상기 유사 사용자 목록을 획득하는 단계를 포함할 수 있다.

상기 소정 수의 샘플 컨텐츠에 대한 선호도를 획득하는 단계는, 상기 사용자에게 먼저 제시한 적어도 하나의 샘플 컨텐츠에 대해 획득한 선호도를 이용하여 다음 제시할 샘플 컨텐츠를 동적으로 선정하는 단계를 포함할 수 있다.

상기 유사 사용자 목록을 추출하는 단계는, 피어슨 상관계수를 이용하여, 상기 샘플 컨텐츠에 대한 선호도를 기초로 상기 사용자와 상기 컨텐츠 사용 정보에 포함된 사용자들 사이의 유사도를 계산하는 단계와, 상기 계산된 유사도를 이용하여 소정 수의 유사 사용자를 선택하는 단계를 포함할 수 있다.

상기 컨텐츠에 대한 선호도를 예측하는 단계는, 각 특징 벡터(feature vector) 엘리먼트(element)의 종류에 따라 가중치를 달리한 특징 벡터를 구성하는 단계를 포함할 수 있다.

상기 기계 학습 알고리즘은, SVM(Support Vector Machine)일 수 있다.

본 발명의 다른 실시예에 따른, 사용자의 컨텐츠 선호도 분석을 위한 샘플 컨텐츠 선정 방법은, 상기 사용자로부터 적어도 하나의 샘플 컨텐츠에 대한 선호도를 획득하는 단계와, 상기 적어도 하나의 샘플 컨텐츠에 대한 선호도를 이용하여 유사 사용자를 검색하는 단계와, 상기 검색된 적어도 하나의 유사 사용자가 선호하 는 컨텐츠를 상기 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하는 단계와, 상기 사용자로부터 상기 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 단계를 포함한다.

상기 샘플 컨텐츠 선정 방법은, 소정 수의 샘플 컨텐츠에 대한 사용자 선호도를 획득할 때까지, 상기 유사 사용자 검색 단계, 상기 추가적인 샘플 컨텐츠 선정 단계 및 상기 추가적인 샘플 컨텐츠에 대한 선호도 획득 단계를 반복하는 단계를 더 포함할 수 있다.

상기 적어도 하나의 샘플 컨텐츠에 대한 선호도를 획득하는 단계는, 기존 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하는 단계와, 상기 결정된 순위를 기초로 상기 적어도 하나의 샘플 컨텐츠를 상기 사용자에게 제시하는 단계를 포함할 수 있다.

상기 컨텐츠들의 순위를 결정하는 단계는, 상기 컨텐츠들에 대해 상기 기존 사용자들이 긍정적인 평가를 한 경우의 선호도 합계에서 부정적인 평가를 한 경우의 선호도 합계를 뺀 값과 각 컨텐츠를 제공한 기간을 고려하여 상기 컨텐츠들의 순위를 결정하는 단계를 포함할 수 있다.

상기 추가적인 샘플 컨텐츠를 선정하는 단계는, 가장 많은 유사 사용자가 감상한 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 단계를 포함할 수 있다.

상기 추가적인 샘플 컨텐츠를 선정하는 단계는, 상기 유사 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하는 단계와, 상기 결정된 순위가 가장 높은 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 단계를 포함할 수 있다.

본 발명의 또 다른 실시예에 따른 컨텐츠에 대한 선호도 예측 장치는, 상기 컨텐츠와 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보를 저장한 서버로부터 사용자에 대한 유사 사용자 목록을 수신하는 유사 사용자 정보 수신부와, 상기 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 상기 사용자의 상기 컨텐츠에 대한 선호도를 예측하는 선호도 예측부를 포함한다.

본 발명의 또 다른 실시예에 따른, 사용자의 컨텐츠 선호도 분석을 위한 샘플 컨텐츠 선정 장치는, 컨텐츠 및 사용자에 대한 정보를 저장한 데이터베이스와, 상기 데이터베이스로부터 적어도 하나의 기본 샘플 컨텐츠를 선정하고, 상기 사용자로부터 상기 기본 샘플 컨텐츠에 대한 선호도를 획득하는 기본 샘플 컨텐츠 선정부와, 상기 기본 샘플 컨텐츠에 대한 선호도를 이용하여 상기 데이타베이스로부터 유사 사용자를 검색하는 유사 사용자 검색부와, 상기 검색된 유사 사용자가 선호하는 컨텐츠를 상기 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하고, 상기 사용자로부터 상기 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 추가 샘플 컨텐츠 선정부를 포함한다.

또한, 본 발명은 상기 컨텐츠 선호도 예측 방법을 실행하는 컴퓨터 프로그램을 기록한 기록 매체를 제공한다.

또한, 본 발명은 상기 샘플 컨텐츠 선정 방법을 실행하는 컴퓨터 프로그램을 기록한 기록 매체를 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 구체적으로 설명한다.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 선호도 예측 방법을 도시한 것이다.

도 1을 참조하면, 신규 컨텐츠(130)에 대한 사용자의 선호도를 예측하기 위해 활동적인 사용자(active users)의 컨텐츠 선호도(rating) 정보(110)와 기계 학습 알고리즘(machine learning algorithm)(120, 140)을 이용한다. 활동적인 사용자는 컨텐츠 제공 시스템이 제공하는 컨텐츠를 이용한 이력이 있는 사용자이다. 컨텐츠 선호도 정보(110)는 사용자가 컨텐츠를 감상한 후 제공한 컨텐츠에 대한 평가를 말하며, 예를 들어 사용자는 평가를 위해 그 컨텐츠에 대해 점수나 등급을 매겨 입력할 수 있다. 사용자로부터 수집한 컨텐츠 선호도 정보(110)는 향후 다른 컨텐츠에 대한 선호도 예측을 위해 트레이닝(training) 되고(120), 분류(classification) 알고리즘인 SVM(Support Vector Machine) 모델(140)은 트레이닝의 결과를 이용하여 신규 컨텐츠(130)의 선호도를 예측한다(150).

도 2는 본 발명의 다른 실시예에 따른 컨텐츠 선호도 예측 방법을 도시한 것이다.

도 2를 참조하면, 선호도 행렬(rating matrix)(210)은 활동적인 사용자의 컨텐츠 선호도 정보를 나타내며 각 컨텐츠에 대해 1과 5 사이의 점수를 매긴 것이다. 사용자는 컨텐츠 C1, C2, C3, C5 및 C6에 대해 각각 4, 5, 3, 1 및 3점의 선호도를 입력하였고, 컨텐츠 C4, C7 및 C8은 신규 컨텐츠로서 이들 컨텐츠의 추천 여부를 결정하기 위해 이들에 대한 사용자의 선호도를 예측할 필요가 있다. 각 컨텐츠들에 대한 특징 집합(feature set)(220)은 특징 인덱스(feature index)와 특징값(value)의 쌍들로 각 컨텐츠를 기술한 것이다. 예를 들어, 특징은 장르, 배우, 감독, 키워드 등 메타데이터의 중요한 엘리먼트들을 선정한 것이다. 신규 컨텐츠에 대한 특징 집합(feature set)(230)은 메타데이터를 참조하여 결정되며 선호도는 아직 미지수임을 알 수 있다. 기존 컨텐츠들에 대한 특징 집합(220)은 SVM 트레이닝(240)에 의해 학습되며, 분류기(classifier, 250)는 트레이닝의 결과를 이용해 신규 컨텐츠에 대한 선호도를 예측한다. 예측된 선호도는 1과 5 사이의 값이 될 것이다(260). 이 실시예에 따르면 신규 컨텐츠의 선호도 예측이 가능하나, 이 경우 사용자의 선호도 정보가 SVM 트레이닝을 수행할 수 있을 만큼 많아야 선호도를 정확하게 예측할 수 있다.

도 3은 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 방법을 도시한 것으로, 컨텐츠 선호 성향이 아직 파악되지 않은 신규 사용자에게 컨텐츠를 추천하기 위해 신규 사용자의 샘플 컨텐츠에 대한 선호도 정보와 타 사용자들의 컨텐츠 선호도 정보를 이용한다.

도 3을 참조하면, 소정 수의 샘플 컨텐츠를 사용자에게 제시하고 그에 대한 선호도를 획득할 필요가 있으며, 이를 위해 저장된 컨텐츠들 중 소정 수의 샘플 컨텐츠를 선정하여 사용자에게 제시한다(단계 310). 사용자가 제시된 샘플 컨텐츠를 감상하지 않거나 선호도를 입력하지 않는 경우는 다른 샘플 컨텐츠가 제시되며, 제시된 샘플 컨텐츠에 관심이 있는 경우는 이를 감상하고 선호도를 입력할 것이다(단 계 320). 도 4는 본 발명의 또 다른 실시예에 따라 샘플 컨텐츠를 사용자에게 제시하기 위한 인터페이스의 예이다. 도 4를 참조하면, 사용자의 시청 성향을 평가하기 위해 15개의 샘플 컨텐츠를 사용자에게 제시하고 있다. 사용자는 현재 제시된 "슈렉2"(405)를 감상하고 0과 5 사이의 점수(410)로 자신의 선호도를 입력할 수 있으며, 이전 컨텐츠(404) 및 다음 컨텐츠(406)로 브라우징하여 다른 컨텐츠에 대한 선호도를 입력할 수 있다.

샘플 컨텐츠는 임의로 또는 다른 사용자의 선호도를 고려하여 선정될 수 있으나 이에 한정되는 것은 아니다. 예를 들어, 사용자에게 먼저 제시한 적어도 하나의 샘플 컨텐츠에 대해 획득한 선호도를 이용하여 다음 제시할 샘플 컨텐츠를 동적으로 선정한다면, 사용자가 선호할 가능성이 큰 컨텐츠를 제시하게 되므로 사용자의 컨텐츠 감상 및 선호도 입력 가능성도 커질 것이다. 샘플 컨텐츠를 동적으로 선정하는 방법에 대해서는 도 6을 참조하여 더욱 상세히 설명하기로 한다. 사용자로부터 선호도가 입력된 경우 소정 수의 샘플 컨텐츠에 대한 선호도를 획득하였는지 판단한다(단계 330). 아직 소정 수의 샘플 컨텐츠에 대한 선호도를 획득하지 못한 경우는 다른 샘플 컨텐츠가 제시된다(단계 310).

소정 수의 샘플 컨텐츠에 대한 선호도를 획득한 경우는 이를 이용하여 유사 사용자 목록을 추출한다. 유사 사용자에 대한 정보는 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보로부터 획득된다(단계 340). 샘플 컨텐츠에 대한 선호도를 기초로 사용자와 컨텐츠 사용 정보에 포함된 사용자들 사이의 유사도가 계산되며, 상기 계산된 유사도를 이용하여 소정 수의 유사 사용자가 선택된다. 소정 수의 유사 사용자를 찾기 위한 유사도 계산을 위해서 다음 수학식 1과 같은 피어슨 상관식이 이용될 수 있다.

여기서, r_IAB는 사용자 A와 사용자 B 간의 유사도, CC(Content Count)는 전체 컨텐츠의 개수, CR_Ai(Content Rating)는 사용자 A의 i번째 컨텐츠에 대한 선호도(rating), CR_Bi(Content Rating)는 사용자 B의 i번째 컨텐츠에 대한 선호도, Overline(CR_A )는 사용자 A의 평균 선호도, Overline(CR_B )는 사용자 B의 평균 선호도이다.

다음으로, 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습 알고리즘의 입력으로 하여 신규 사용자의 컨텐츠에 대한 선호도를 예측한다(단계 350). 기계 학습 알고리즘으로 SVM이 사용될 수 있다.

따라서, 서비스를 처음 이용하는 신규 사용자라도 컨텐츠 추천을 받을 수 있게 되며, 신규 컨텐츠의 경우에도 기존 사용자에 대한 정보에 의해 구축된 SVM 모델을 통해 선호도 예측이 가능해진다.

도 5는 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 장치를 도시한 구성도로, 컨텐츠 선호도 예측 장치(500)는 컨텐츠 추천 시스템 또는 컨텐츠 제공 시스템(도시되지 않음)의 일부로 구현될 수 있다.

도 5를 참조하면, 컨텐츠 선호도 예측 장치(500)는 컨텐츠/사용자 데이터베이스(510)로부터 소정 수의 샘플 컨텐츠를 선정하여 사용자에게 제시하고 그에 대한 선호도를 획득하는 샘플 컨텐츠 획득부(520)와, 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보를 저장한 서버(560)로 샘플 컨텐츠에 대한 선호도를 전송하고, 서버(560)로부터 유사 사용자 목록을 수신하는 유사 사용자 정보 수신부(530)와, 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습 알고리즘의 입력으로 하여 상기 사용자의 컨텐츠에 대한 선호도를 예측하는 선호도 예측부(540)를 포함한다. 사용자는 입출력 장치(550)를 통해 샘플 컨텐츠를 감상하고 그에 대한 선호도 즉 평가 점수를 입력한다. 서버(560)는 샘플 컨텐츠에 대한 선호도를 기초로 상기 사용자와 컨텐츠 사용 정보에 포함된 사용자들 사이의 유사도를 계산하고, 계산된 유사도를 이용하여 소정 수의 유사 사용자를 선택함으로써 유사 사용자 목록을 생성하며, 유사도 계산에 피어슨 상관계수를 이용할 수 있다.

도 6은 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 방법의 흐름도로서 유사 사용자에 대한 정보를 제공하는 서버와의 관계를 도시하였다.

도 6을 참조하면, 먼저 선호도를 예측해야 할 신규 컨텐츠가 입력된다(단계 610). 이 신규 컨텐츠에 대한 선호도를 예측하여 이를 추천할지 결정해야 하는 타겟 사용자가 신규 사용자인지 판단한다(단계 612). 신규 사용자가 아닌 경우, 이 사용자에 대해 SVM 트레이닝에 필요한 선호도 정보가 충분히 존재하는지 판단한다(614). SVM 트레이닝이 가능할 정도로 충분한 데이터가 존재하는 경우는 SVM 트 레이닝을 수행하여 신규 컨텐츠에 대한 사용자의 선호도를 예측한다(단계 616). 신규 사용자인 경우, 또는 신규 사용자가 아니라도 선호도 정보가 충분하지 않은 경우는, 기존 정보만으로 신규 컨텐츠에 대한 선호도 예측이 어려우므로 단계 618을 수행한다. 편의상 이러한 사용자도 신규 사용자라 칭하기로 한다. 신규 사용자에게 샘플 컨텐츠를 제시하고 샘플 컨텐츠에 대한 선호도를 입력하도록 한다(단계 618).

신규 사용자로부터 획득한 샘플 컨텐츠 선호도 정보는 서버(560)로 전송되며 이는 top-k 사용자 정보를 요청하기 위한 것이다(단계 620). 이때 샘플 컨텐츠 선호도 정보는 선호도 행렬(rating matrix)의 형태로 기술될 수 있다. top-k 사용자는 예측 대상인 사용자와 가장 유사한 소정 수(k)의 사용자를 의미한다. 서버(560)는 시청률 조사기관의 컨텐츠 사용 정보 또는/및 컨텐츠 제공 시스템 내의 컨텐츠 사용 정보 등 타 사용자의 컨텐츠 사용 정보를 수집한다(624). 타 사용자의 컨텐츠 사용 정보는 동종 컨텐츠에 대한 다른 사용자들의 컨텐츠 사용 이력 및 컨텐츠에 대한 선호도를 포함한다. 서버(560)는 수집된 컨텐츠 사용 정보를 이용해 선호도 행렬을 구축한다(단계 626). 서버(560)가 선호도 예측 장치(500)로부터 쿼리를 받으면, 상기 컨텐츠 사용 정보에 대한 선호도 행렬과 선호도 예측 장치(500)로부터 수신한 샘플 컨텐츠에 대한 선호도 정보를 이용해 신규 사용자와 유사한 사용자들 중 소정 수의 유사 사용자를 검색하여 top-k 사용자 정보를 생성한다(단계 628). top-k 사용자 정보는 해당 유사 사용자들의 선호도 행렬 형태로 선호도 예측 장치(500)에 전송될 것이다. 이렇게 수집된 유사 사용자들의 선호도 행렬은 SVM 트레이닝을 진행하기에 충분한 데이터가 될 것이다. 선호도 예측 장치(500)는 이를 이용해 SVM 트레이닝을 수행하고 그 결과를 이용해 신규 사용자의 신규 컨텐츠에 대한 예측 선호도를 도출한다(단계 622).

특징 벡터(feature vector)는 정보 속에 포함된 각 특징이 하나의 엘리먼트(element)로 표현된 벡터로서, 특징 벡터에 의해 정의된 특징들은 기계 학습을 수행하는 기본 자료가 된다. 일반적으로 키워드 기반의 바이너리 특징 벡터는 컨텐츠의 타이틀(title), 카테고리(category), 태그(tag), 설명(description) 등으로 구성된 메타 정보에 포함된 키워드를 바이너리로 표현함으로써 구성된다. 즉 어떤 특징 엘리먼트(키워드)가 메타 정보에 포함되면 특징값이 1이고 포함되지 않으면 특징값이 0이다. 그러나 각 특징 벡터 엘리먼트의 종류에 따라 가중치를 달리한 특징 벡터를 구성한다면 기계 학습의 효율성을 향상시켜 더 정확한 예측이 가능할 것이다. 가중치는 특징 엘리먼트의 중요도에 따라 결정될 수 있다.

예를 들어, 정보의 중요도를 타이틀 > 카테고리 > 태그 > 설명 순으로 정의하고, 특징 엘리먼트가 타이틀 부분에서 검색된 것이면 가중치 1.0을, 카테고리 부분에서 검색된 것이면 가중치 0.75를, 태그 부분에서 검색된 것이면 가중치 0.5를, 설명 부분에서 검색된 것이면 가중치 0.25를, 검색되지 않은 키워드인 경우는 가중치 0을 부여한다고 하자. 컨텐츠 A에 대한 메타 정보에서 표 1과 같은 키워드가 검출되었다면, 특징 집합(feature set)은 표 2와 같이 정의될 수 있다.

종류	키워드
타이틀	T1, T2, T3, T4
카테고리	C1
태그	t1, t2, t3, t4, t5
설명	D1, D2, D3, D4, D5, D6, D7, D8, D9, D10

엘리먼트 이름	T2	C1	t2	T5	D10	T4	C3	T7	...
값	1	0.75	0.5	0	0.25	1	0	0

도 7은 본 발명의 또 다른 실시예에 따른 샘플 컨텐츠 선정 방법을 도시한 흐름도로, 신규 사용자의 컨텐츠 선호도 분석을 위한 소정 수의 선호도 정보를 획득하기 위해 추천할 컨텐츠를 선정하는 방법에 대한 것이다.

도 7을 참조하면, 신규 사용자에게 적어도 하나의 샘플 컨텐츠를 제시하고 그에 대한 선호도를 입력받는다(단계 710). 단계 710에서 선정되는 샘플 컨텐츠를 단계 720 내지 740에서 선정되는 샘플 컨텐츠와 구분하기 위해 기본 샘플 컨텐츠라 칭한다. 이때 기계 학습 알고리즘을 이용한 선호도 분석을 위해 필요한 수의 선호도 중 일부만을 획득하면 된다. 예를 들어 필요한 선호도 정보가 15라면 그 중 x개를 단계 710에서 획득하고 나머지 y(=15-x)개의 추가적인 샘플 컨텐츠에 대한 선호도 정보는 단계 720 내지 740을 통해 동적으로 획득한다. 단계 710에서 사용자에게 제시할 샘플 컨텐츠를 선정하기 위해, 기존 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하고 결정된 순위를 기초로 적어도 하나의 샘플 컨텐츠를 선택하는 방법이 이용될 수 있다. x개의 선호도를 입력받을 때까지 순위가 높은 컨텐츠부터 사용자에게 차례로 제시한다.

다음으로, x개의 샘플 컨텐츠에 대한 선호도를 이용하여 유사 사용자를 검색한다(단계 720). 여기서 유사 사용자는 동일 컨텐츠에 동일 또는 유사한 선호도 값을 입력한 사용자로 정의될 수 있다. 검색된 적어도 하나의 유사 사용자가 선호하는 컨텐츠를 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정한다(단계 730). 유사 사용자들이 감상한 컨텐츠들의 순위를 결정하여 순위가 높은 컨텐츠부터 차례로 신규 사용자에게 제시하고, 사용자로부터 추가적인 샘플 컨텐츠에 대한 선호도를 획득한다(단계 740). 단계 740의 컨텐츠 순위는 유사 사용자들의 선호도를 기준으로 결정될 수 있다. y개의 추가 샘플 컨텐츠에 대한 사용자 선호도를 획득할 때까지, 유사 사용자 검색 단계(단계 720), 추가적인 샘플 컨텐츠 선정 단계(단계 730) 및 상기 추가적인 샘플 컨텐츠에 대한 선호도 획득 단계(단계 740)를 반복 수행한다.

도 8은 본 발명의 또 다른 실시예에 따른 샘플 컨텐츠 선정 방법을 도시한 흐름도로, x개의 기본 샘플 컨텐츠와 y개의 추가 샘플 컨텐츠를 선정하는 방법이다. 여기서 x+y는 신규 사용자의 컨텐츠 선호도 분석을 위해 필요한 선호도 정보의 개수이다.

도 8을 참조하면, 순위가 계산된 컨텐츠 데이터베이스(810)에서 순위가 높은 순서로 신규 사용자에게 기본 샘플 컨텐츠에 대한 정보를 제시한다(단계 830). 컨텐츠 순위는 기존 사용자들의 선호도를 기준으로 인기도를 계산하여 결정된 것이다. 다음은 컨텐츠들의 순위를 결정하는 방법의 일 예를 설명한다. 특정 컨텐츠의 선호도는 해당 사용자들이 긍정적인 평가를 한 경우의 선호도 합계에서 부정적인 평가를 한 경우의 선호도 합계를 뺀 값과 컨텐츠를 제공한 기간을 고려하여 결정될 수 있으며, 다음 수학식 2 및 3에 의해 계산될 수 있다.

선호도 = R⁺ - R^-

여기서, R⁺는 컨텐츠에 긍정적인 평가를 한 사용자들이 입력한 선호도 값들의 합계로, 예를 들어 선호도가 1과 5 사이의 값인 경우 R⁺=모든 '5' 값의 합 + 모든 '4' 값의 합 + 0.5×(모든 '3' 값의 합)이다. R^-는 컨텐츠에 부정적인 평가를 한 사용자들이 입력한 선호도 값들의 합계로, 예를 들어 R^-= 모든 '2' 값의 합 + 모든 '1' 값의 합이다.

순위 = 선호도 / Log(Duration)

여기서, 'Duration'은 컨텐츠의 제공 기간으로, 동영상 컨텐츠인 경우 컨텐츠가 최초 방영된 때부터 현재까지의 기간을 말한다. 제공 기간이 길수록 선호도 정보가 많을 수 있기 때문에 제공 기간이 짧은 컨텐츠와의 균형을 맞추기 위해 'Duration'이라는 변수를 사용한 것이다.

신규 사용자가 단계 830에서 제시한 기본 샘플 컨텐츠를 감상한 후 선호도를 입력하면(단계 832), x개 컨텐츠에 대한 선호도를 획득하였는지 판단한다(단계 834). x는 신규 사용자와 유사한 사용자를 검색하는 데 필요한 샘플 컨텐츠의 수 로서, 컨텐츠 선호도 분석을 위해 필요한 전체 샘플 컨텐츠 수보다 작은 수이다. x개 컨텐츠에 대한 선호도를 획득하지 못했으면(단계 834) 다음 순위의 샘플 컨텐츠를 제시한다(단계 830). x개의 기본 샘플 컨텐츠에 대한 선호도를 모두 획득한 경우는, 컨텐츠 및 사용자 데이터베이스(820)로부터 유사 사용자를 검색한다(단계 836). 검색된 유사 사용자들이 공통적으로 시청한 컨텐츠를 추가적인 샘플 컨텐츠로 선정하여(단계 838) 사용자에게 제시한다(단계 840). 유사 사용자들이 공통적으로 시청한 컨텐츠는 가장 많은 유사 사용자가 감상한 컨텐츠일 것이다. 또는, 유사 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하고, 결정된 순위가 가장 높은 컨텐츠를 추가적인 샘플 컨텐츠로 선정하는 방법이 이용될 수 있다. 순위의 결정은 상기 수학식 2 및 3에 의해 결정될 수 있다. 신규 사용자가 추가 샘플 컨텐츠를 감상한 후 선호도를 입력하면(단계 842), y개 컨텐츠에 대한 선호도를 획득하였는지 판단하고(단계 844), y개 컨텐츠에 대한 선호도가 획득되지 않았으면 지금까지 단계 830 내지 842에서 획득한 선호도 정보를 기준으로 유사 사용자 검색을 다시 수행한다(단계 836). 이러한 방법에 의해 신규 사용자의 선호도 분석을 위한 학습에 유효한 컨텐츠 정보를 빨리 확보할 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른 샘플 컨텐츠 선정 장치를 도시한 구성도이다.

도 9를 참조하면 샘플 컨텐츠 선정 장치(900)는, 컨텐츠 및 사용자에 대한 정보를 저장한 데이터베이스(940), 상기 데이터베이스로부터 적어도 하나의 기본 샘플 컨텐츠를 선정하고, 입출력 장치(950)를 통해 사용자에게 기본 샘플 컨텐츠를 제공하고 사용자로부터 기본 샘플 컨텐츠에 대한 선호도를 획득하는 기본 샘플 컨텐츠 선정부(910), 기본 샘플 컨텐츠에 대한 선호도를 이용하여 상기 데이타베이스로부터 유사 사용자를 검색하는 유사 사용자 검색부(920), 유사 사용자가 선호하는 컨텐츠를 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하고, 입출력 장치(950)를 통해 사용자로부터 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 추가 샘플 컨텐츠 선정부(930)를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명이 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이와 균등하거나 또는 등가적인 변형 모두는 본 발명 사상의 범주에 속한다 할 것이다. 또한, 본 발명에 따른 시스템은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

도 3은 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 방법을 도시한 흐름도이다.

도 4는 본 발명의 또 다른 실시예에 따라 샘플 컨텐츠를 사용자에게 제시하기 위한 인터페이스의 예이다.

도 5는 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 장치를 도시한 구성도이다.

도 6은 본 발명의 또 다른 실시예에 따른 컨텐츠 선호도 예측 방법의 흐름도로서 서버와의 관계를 도시하였다.

도 7은 본 발명의 또 다른 실시예에 따른 샘플 컨텐츠 선정 방법을 도시한 흐름도이다.

도 8은 본 발명의 또 다른 실시예에 따른 샘플 컨텐츠 선정 방법을 도시한 흐름도이다.

Claims

컨텐츠에 대한 선호도 예측 방법에 있어서,

상기 컨텐츠와 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보로부터 사용자에 대한 유사 사용자 목록을 추출하는 단계와,

상기 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 상기 사용자의 상기 컨텐츠에 대한 선호도를 예측하는 단계를 포함하는 것을 특징으로 하는 선호도 예측 방법.
제1항에 있어서,

소정 수의 샘플 컨텐츠를 상기 사용자에게 제시하고 그에 대한 선호도를 획득하는 단계를 더 포함하고,

상기 유사 사용자 목록을 추출하는 단계는, 상기 샘플 컨텐츠에 대한 선호도를 이용하여 상기 유사 사용자 목록을 획득하는 단계를 포함하는 것을 특징으로 하는 선호도 예측 방법.
제2항에 있어서,

상기 소정 수의 샘플 컨텐츠에 대한 선호도를 획득하는 단계는,

상기 사용자에게 먼저 제시한 적어도 하나의 샘플 컨텐츠에 대해 획득한 선호도를 이용하여 다음 제시할 샘플 컨텐츠를 동적으로 선정하는 단계를 포함하는 것을 특징으로 하는 선호도 예측 방법.
제2항에 있어서,

상기 유사 사용자 목록을 추출하는 단계는,

피어슨 상관계수를 이용하여, 상기 샘플 컨텐츠에 대한 선호도를 기초로 상기 사용자와 상기 컨텐츠 사용 정보에 포함된 사용자들 사이의 유사도를 계산하는 단계와,

상기 계산된 유사도를 이용하여 소정 수의 유사 사용자를 선택하는 단계를 포함하는 것을 특징으로 하는 선호도 예측 방법.
제2항에 있어서,

상기 컨텐츠에 대한 선호도를 예측하는 단계는,

각 특징 벡터(feature vector) 엘리먼트(element)의 종류에 따라 가중치를 달리한 특징 벡터를 구성하는 단계를 포함하는 것을 특징으로 하는 선호도 예측 방법.
제2항에 있어서,

상기 기계 학습 알고리즘은, SVM(Support Vector Machine)인 것을 특징으로 하는 선호도 예측 방법.
사용자의 컨텐츠 선호도 분석을 위한 샘플 컨텐츠 선정 방법에 있어서,

상기 사용자로부터 적어도 하나의 샘플 컨텐츠에 대한 선호도를 획득하는 단계와,

상기 적어도 하나의 샘플 컨텐츠에 대한 선호도를 이용하여 유사 사용자를 검색하는 단계와,

상기 검색된 적어도 하나의 유사 사용자가 선호하는 컨텐츠를 상기 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하는 단계와,

상기 사용자로부터 상기 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제7항에 있어서,

소정 수의 샘플 컨텐츠에 대한 사용자 선호도를 획득할 때까지, 상기 유사 사용자 검색 단계, 상기 추가적인 샘플 컨텐츠 선정 단계 및 상기 추가적인 샘플 컨텐츠에 대한 선호도 획득 단계를 반복하는 단계를 더 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제7항에 있어서,

상기 적어도 하나의 샘플 컨텐츠에 대한 선호도를 획득하는 단계는,

기존 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하는 단계와,

상기 결정된 순위를 기초로 상기 적어도 하나의 샘플 컨텐츠를 상기 사용자 에게 제시하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제9항에 있어서,

상기 컨텐츠들의 순위를 결정하는 단계는,

상기 컨텐츠들에 대해 상기 기존 사용자들이 긍정적인 평가를 한 경우의 선호도 합계에서 부정적인 평가를 한 경우의 선호도 합계를 뺀 값과 각 컨텐츠를 제공한 기간을 고려하여 상기 컨텐츠들의 순위를 결정하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제7항에 있어서,

상기 추가적인 샘플 컨텐츠를 선정하는 단계는,

가장 많은 유사 사용자가 감상한 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제7항에 있어서,

상기 추가적인 샘플 컨텐츠를 선정하는 단계는,

상기 유사 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하는 단계와,

상기 결정된 순위가 가장 높은 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
제12항에 있어서,

상기 컨텐츠들의 순위를 결정하는 단계는,

상기 컨텐츠들에 대해 상기 유사 사용자들이 긍정적인 평가를 한 경우의 선호도 합계에서 부정적인 평가를 한 경우의 선호도 합계를 뺀 값과 각 컨텐츠를 제공한 기간을 고려하여 상기 컨텐츠들의 순위를 결정하는 단계를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 방법.
컨텐츠에 대한 선호도 예측 장치에 있어서,

상기 컨텐츠와 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보를 저장한 서버로부터 사용자에 대한 유사 사용자 목록을 수신하는 유사 사용자 정보 수신부와,

상기 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 상기 사용자의 상기 컨텐츠에 대한 선호도를 예측하는 선호도 예측부를 포함하는 것을 특징으로 하는 선호도 예측 장치.
제14항에 있어서,

소정 수의 샘플 컨텐츠를 상기 사용자에게 제시하고 그에 대한 선호도를 획득하는 샘플 컨텐츠 획득부를 더 포함하고,

상기 유사 사용자 정보 수신부는, 상기 유사 사용자 목록을 획득하는데 사용 될 상기 샘플 컨텐츠에 대한 선호도를 상기 서버로 전송하는 것을 특징으로 하는 선호도 예측 장치.
제15항에 있어서,

상기 샘플 컨텐츠 획득부는,

상기 사용자에게 먼저 제시한 적어도 하나의 샘플 컨텐츠에 대해 획득한 선호도를 이용하여 다음 제시할 샘플 컨텐츠를 동적으로 선정하는 것을 특징으로 하는 선호도 예측 장치.
제15항에 있어서,

상기 서버는,

피어슨 상관계수를 이용하여, 상기 샘플 컨텐츠에 대한 선호도를 기초로 상기 사용자와 상기 컨텐츠 사용 정보에 포함된 사용자들 사이의 유사도를 계산하고, 상기 계산된 유사도를 이용하여 소정 수의 유사 사용자를 선택하는 것을 특징으로 하는 선호도 예측 장치.
제15항에 있어서,

상기 선호도 예측부는,

각 특징 벡터(feature vector) 엘리먼트(element)의 종류에 따라 가중치를 달리한 특징 벡터를 구성하고 이를 이용하여 상기 기계 학습 알고리즘을 수행하는 것을 특징으로 하는 선호도 예측 장치.
제15항에 있어서,

상기 기계 학습 알고리즘은, SVM(Support Vector Machine)인 것을 특징으로 하는 선호도 예측 장치.
사용자의 컨텐츠 선호도 분석을 위한 샘플 컨텐츠 선정 장치에 있어서,

컨텐츠 및 사용자에 대한 정보를 저장한 데이터베이스와,

상기 데이터베이스로부터 적어도 하나의 기본 샘플 컨텐츠를 선정하고, 상기 사용자로부터 상기 기본 샘플 컨텐츠에 대한 선호도를 획득하는 기본 샘플 컨텐츠 선정부와,

상기 기본 샘플 컨텐츠에 대한 선호도를 이용하여 상기 데이타베이스로부터 유사 사용자를 검색하는 유사 사용자 검색부와,

상기 검색된 유사 사용자가 선호하는 컨텐츠를 상기 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하고, 상기 사용자로부터 상기 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 추가 샘플 컨텐츠 선정부를 포함하는 것을 특징으로 하는 샘플 컨텐츠 선정 장치.
제20항에 있어서,

상기 기본 샘플 컨텐츠 선정부는,

기존 사용자들의 선호도를 기준으로 상기 데이터베이스에 포함된 컨텐츠들의 순위를 결정하고, 상기 결정된 순위를 기초로 상기 적어도 하나의 기본 샘플 컨텐츠를 상기 사용자에게 제시하는 것을 특징으로 하는 샘플 컨텐츠 선정 장치.
제21항에 있어서,

상기 기본 샘플 컨텐츠 선정부는,

상기 데이터베이스에 포함된 컨텐츠들에 대해 상기 기존 사용자들이 긍정적인 평가를 한 경우의 선호도 합계에서 부정적인 평가를 한 경우의 선호도 합계를 뺀 값과 각 컨텐츠를 제공한 기간을 고려하여 상기 컨텐츠들의 순위를 결정하는 것을 특징으로 하는 샘플 컨텐츠 선정 장치.
제20항에 있어서,

상기 추가 샘플 컨텐츠 선정부는,

가장 많은 유사 사용자가 감상한 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 것을 특징으로 하는 샘플 컨텐츠 선정 장치.
제20항에 있어서,

상기 추가 샘플 컨텐츠 선정부는,

상기 유사 사용자들의 선호도를 기준으로 컨텐츠들의 순위를 결정하고, 상기 결정된 순위가 가장 높은 컨텐츠를 상기 추가적인 샘플 컨텐츠로 선정하는 것을 특 징으로 하는 샘플 컨텐츠 선정 장치.
컨텐츠에 대한 선호도 예측 방법을 실행하는 컴퓨터 프로그램을 기록한 기록매체에 있어서, 상기 방법은,

상기 컨텐츠와 동종의 컨텐츠에 대해 수집된 컨텐츠 사용 정보로부터 사용자에 대한 유사 사용자 목록을 추출하는 단계와,

상기 유사 사용자 목록에 포함된 사용자들의 선호도 정보를 기계 학습(machine learning) 알고리즘의 입력으로 하여 상기 사용자의 상기 컨텐츠에 대한 선호도를 예측하는 단계를 포함하는 것을 특징으로 하는 기록매체.
컨텐츠에 대한 선호도 예측을 위한 샘플 컨텐츠 선정 방법을 실행하는 컴퓨터 프로그램을 기록한 기록매체에 있어서, 상기 방법은,

상기 사용자로부터 적어도 하나의 샘플 컨텐츠에 대한 선호도를 획득하는 단계와,

상기 적어도 하나의 샘플 컨텐츠에 대한 선호도를 이용하여 유사 사용자를 검색하는 단계와,

상기 검색된 적어도 하나의 유사 사용자가 선호하는 컨텐츠를 상기 사용자에게 제시할 추가적인 샘플 컨텐츠로 선정하는 단계와,

상기 사용자로부터 상기 추가적인 샘플 컨텐츠에 대한 선호도를 획득하는 단계를 포함하는 것을 특징으로 하는 기록매체.