KR101592220B1

KR101592220B1 - 예측적 군집화 기반 협업 필터링 장치 및 방법

Info

Publication number: KR101592220B1
Application number: KR1020150042144A
Authority: KR
Inventors: 이오준; 유은순; 조병준
Original assignee: 단국대학교 산학협력단
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2016-02-11

Abstract

사용자들을 기호에 따라 군집화(Clustering)하고 각 기호를 나타내는 기호 벡터를 생성하는 기호 군집화 단계, 기호 벡터들을 이용하여 사용자들의 기호 변화를 탐지하고 상기 기호 변화를 기호 전이 시퀀스로 표현하는 사용자 기호 전이 탐지 단계, 사용자들을 기호 전이 패턴에 따라 군집화하고 각 성향을 나타내는 기호 전이모델을 생성하는 성향 군집화 단계, 상기 기호 벡터와 상기 기호 전이모델을 바탕으로 사용자 선호도 예측모델을 생성하고 사용자의 각 아이템에 대한 선호도를 예측하는 선호도 예측 단계를 포함하고, 사용자의 특정 아이템에 대한 선호도를 정확하게 예측하기 위한 예측적 군집화 기반 협업 필터링 장치 및 방법에 관한 것이다.

Description

예측적 군집화 기반 협업 필터링 장치 및 방법 {APPARATUS AND METHOD FOR PREDICTIVE CLUSTERING-BASED COLLABORATIVE FILTERING}

본 발명은, 추천 시스템의 성능 안정성을 위한 예측적 군집화 기반 협업 필터링 장치 및 방법에 관한 것이다. 더욱 상세하게는 본 발명은 군집화 기반 협업 필터링에 마르코프 전이 확률 모델과 퍼지 군집화 개념을 접목하여 사용자의 기호 변화를 추적하고 이를 활용해 사용자의 각 아이템에 대한 선호도를 예측하는 예측적 군집화 기반 협업 필터링 장치 및 방법에 관한 것이다.

인터넷의 진화로 사용자들이 접근할 수 있는 정보의 양이 폭발적으로 증가함에 따라 사용자들은 인터넷상에서 필요한 정보를 찾는데 많은 어려움을 겪고 있다.

정보 과부하로 인해 발생하는 문제들을 해결하기 위해 사용자의 취향과 선호도를 고려하여 사용자에게 맞는 정보를 제공해주는 추천시스템이 그 어느 때보다도 중요해졌다. 사용자의 입맛에 맞는 상품을 제공하는 개인화된 맞춤형 추천 시스템은 사용자의 만족도와 고객 충성도를 향상시키며, 전자 소매상의 이윤을 크게 증가시킨다.

현재 아마존, 구글, 넷플릭스, 티보 그리고 야후와 같은 선도 기업들은 이미 개인화된 추천이 가능한 추천 시스템을 운용하고 있다. 이 시스템들의 주요한 요구사항은 추천의 성능(performance)과 시스템의 확장성(scalability)이다. 이 요구사항들을 충족시키기 위해, 내용 기반 필터링(CBF, Content-Based Filtering), 인구통계학적 필터링(DF, Demographic Filtering), 협업 필터링(CF, Collaborative Filtering) 등의 기법들이 제안되었다.

그러나, 이들 중 내용 기반 필터링과 인구 통계학적 필터링은 외부 정보를 필요로 한다는 한계점으로 인해, 다양한 도메인에 적용이 불가능하다. 따라서 비교적 도메인의 제약이 적은 협업 필터링이 널리 사용되고 있다.

협업 필터링 기법들은 크게 메모리 기반 협업 필터링, 모델 기반 협업 필터링, 하이브리드 협업 필터링으로 나눌 수 있다.

이 중, 모델 기반 협업 필터링은 베이지안(Bayesian) 모델이나 군집화 모델, 의존성 네트워크 등의 모델을 사용해서 기존 협업 필터링의 단점을 보완한 방법이다. 모델 기반 협업 필터링은 희박성 문제와 확장성 문제 등을 개선하며, 예측 신뢰도를 높일 수 있다. 하지만, 모델 생성 비용이 크고 성능과 확장성 간의 트레이드오프(trade-off)가 발생하는 문제점이 있다.

종래 기술의 문제들을 해결하기 위해 사용자 또는 아이템의 추가와 평가 점수의 입력에 따라 해당 사용자나 아이템의 군집을 지역적으로 재배치하는 방법을 사용하는 적응형 군집화 기반 협업 필터링(ACCF, Adaptive Clustering based CF)이 제안되었으나, 적응형 군집화 기반 협업 필터링은 시스템의 부담을 가중시키며, 기존 협업 필터링 기법들의 신뢰도 불안정성을 완전히 해결하지 못하는 문제점이 있다.

따라서, 사용자의 특정 아이템에 대한 선호도를 예측하기 위해, 사용자의 기호 변화를 추적하고 마르코프 확률 전이 모델을 사용하여 기존 협업 필터링의 희박성 문제와 확장성 문제를 개선하고 신뢰도 불안정성 문제를 해결할 수 있는 예측적 군집화 기반 협업 필터링 장치 및 방법이 필요한 실정이다.

한국 등록특허공보 1054088호(2011.07.28.)

Gong, s., "A Collaborative Filtering Recommendation Algorithm Based on User Clustering and Item Clustering", Journal of Soft ware, Vol.5, No.7, (2010), 745~752.

본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 군집화 기반 협업 필터링에 마르코프 전이확률모델과 퍼지 군집화 개념을 접목하여 적용 범위 감소 문제와 성능 불안정성 문제를 해결하여 사용자의 특정 아이템에 대한 선호도를 정확하게 예측하기 위함이다.

또한, 본 발명의 목적은, 사용자의 기호의 변화를 전이 확률 모델을 이용하여 추적하여, 기호 변화를 고려하지 않는 정적인 모델과 기호가 동적으로 변화하는 실제 사용자의 괴리를 해소하여 성능 불안정성 문제를 해결하고 사용자의 기호의 전이 확률과 사용자가 어떤 군집에 소속되는지 판단하는 군집 소속 확률을 이용하여 적용 범위를 확장하여 적용범위 감소문제를 개선하여 사용자의 특정 아이템에 대한 선호도를 정확하게 예측하기 위함이다.

상기한 목적을 달성하기 위한 본 발명에 따른 예측적 군집화 기반 협업 필터링 장치는, 사용자들을 기호에 따라 군집화(Clustering)하고 각 기호를 나타내는 기호 벡터를 생성하는 기호 군집화부, 상기 기호 벡터들을 이용하여 사용자들의 기호 변화를 탐지하고 상기 기호 변화를 기호 전이 시퀀스로 표현하는 사용자 기호 전이 탐지부, 사용자들을 기호 전이 패턴에 따라 군집화하고 각 성향을 나타내는 기호 전이모델을 생성하는 성향 군집화부, 상기 기호 벡터와 상기 기호 전이모델을 바탕으로 사용자 선호도 예측모델을 생성하고 사용자의 각 아이템에 대한 선호도를 예측하는 선호도 예측부를 포함한다.

이 때, 상기 기호 군집화부는, 사용자들을 각 아이템 군집에 대한 선호도에 따라 군집화하여, 사용자들의 기호를 정규화한다. 상기 기호 군집화부는 아이템들간의 유사도를 기준으로 아이템을 군집화하는 아이템 군집화부, 사용자들간의 유사도를 기준으로 사용자를 군집화하는 사용자 군집화부 및 사용자 군집에 속한 사용자들의 특성벡터의 평균을 산출하고 이를 기호 벡터로 지정하는 기호벡터 생성부를 포함할 수 있다.

상기 아이템 군집화부는, 사용자들이 입력한 평가 점수를 기반으로 추정된 아이템들간의 유사도를 기준으로 아이템을 군집화 하며, 상기 아이템들간의 유사도는 두 아이템을 모두 평가한 적이 있는 사용자들의 평가 점수들을 바탕으로 코사인 유사도를 이용해 산출된다. 더욱 상세하게, 상기 아이템들간의 유사도는 수식1을 통해 산출되고 그 알고리즘은 K-NN알고리즘을 기반으로 한다. 여기서 원소간의 거리는 원소간의 유사도의 역수가 되고, 군집의 수는 BIC를 기준으로 결정될 수 있다.

(수식1)

여기에서

는 아이템

와

간 유사도를 의미하고 ,

는 아이템

와

를 모두 평가한 사용자들의 집합을 의미하며,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수이고,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균일 수 있다.

상기 사용자 군집화부는 아이템 군집과 사용자들의 평가 점수를 포함하는 특성 벡터 및 사용자 간 유사도를 이용하여 사용자를 군집화한다.

상기 특성 벡터는 사용자의 각 아이템 군집에 속한 아이템들에 대한 평가 점수의 평균을 포함하여 구성되며, 그 차원의 수는 아이템 군집의 수와 같을 수 있다. 더욱 상세하게, 상기 특성 벡터는 수식2를 통해 도출될 수 있다.

(수식2)

여기에서

는

의 특성벡터이고,

은 아이템 군집의 수이며,

는

의

번째 아이템 군집인

에 속한 모든 아이템에 대한 평가점수의 평균일 수 있다.

상기 사용자 간 유사도는 두 사용자에 의해 모두 평가된 적이 있는 아이템들에 대한 평가 점수들을 바탕으로 코사인 유사도를 이용해 도출될 수 있으며, 더욱 상세하게, 상기 사용자 간 유사도는 수식3을 이용하여 산출될 수 있다.

(수식3)

여기에서

는

와 사용자

의 유사도,

는 사용자

와 사용자

모두가 평가한 아이템들의 집합,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균일 수 있다.

상기 사용자 군집화부는 기대치 최대화(EM, Expectation Maximization) 알고리즘과 가우시안-베이지안(Gaussian-Bayesian)확률 모델을 이용할 수 있으며 군집의 수는 BIC를 기준으로 결정된다.

상기 기호 벡터 생성부는, 기호 벡터를 생성하는 역할을 하며, 상기 기호 벡터는 사용자 군집화를 통해 나타난 사용자들의 기호의 대푯값으로 각 사용자 군집에 속한 사용자들의 특성 벡터의 평균일 수 있다. 더욱 상세하게, 상기 기호 벡터는 수식4를 통해서 산출될 수 있다.

(수식4)

여기에서

는

번째 기호인

의 특성벡터이며,

는 사용자 군집

의 원소 수,

는 사용자

의 특성벡터,

은 아이템 군집의 수,

는 사용자

의

번째 아이템 군집인

에 속한 모든 아이템에 대한 평가 점수의 평균을 의미할 수 있다.

상기 사용자 기호 전이 탐지부는, 사용자의 기호 변화의 성향을 분석하기 위하여, 사용자가 입력한 평가 점수의 시퀀스로부터 각 시점에서의 사용자의 기호를 추정하고 상기 각 시점에서의 사용자의 기호 전이를 탐지한다. 상기 사용자 기호 전이 탐지부는 사용자가 입력한 평가점수를 기 설정된 크기의 윈도우로 관측하는 기호 전이 탐지부와 기호 전이 벡터를 생성하는 기호 전이 벡터 생성부를 포함할 수 있다.

상기 기호 전이 벡터 생성부는, 특정 시점에서 사용자의 기호의 특성을 나타내는 기호벡터, 사용자의 특성을 나타내는 사용자 특성 벡터 및 기호 전이가 일어나기까지 소요시간의 정보를 포함하는 기호 전이 벡터를 생성한다. 더욱 상세하게 상기 기호 전이 벡터는 수식5를 통하여 산출될 수 있다.

(수식5)

여기에서

를 사용자

의 기호전이 벡터라 할 때,

을 시점

에서 사용자

의 기호 전이,

는

에서 사용자

의 기호의 특성을 나타내는 기호 벡터,

는

에서 사용자

의 특성을 나타내는 사용자 특성 벡터,

는

에서 발생한 사용자

의 기호 전이가 일어나기까지의 소요시간을 의미할 수 있다.

상기 성향 군집화부는, 사용자들의 기호 전이의 유사도에 따라 상기 사용자들을 군집화하여 사용자들의 기호 변화의 패턴을 정규화한다. 상기 성향 군집화부는 기호 전이의 유사도를 추정하는 기호 전이 유사도 추정부, 상기 유사도를 바탕으로 군집화를 통해 기호 전이의 패턴(성향)을 찾아내는 기호 전이 패턴 군집화부 및 추출될 성향들을 이용하여 기호 전이 모델을 생성하는 기호 전이 모델 생성부를 포함한다.

상기 기호 전이 유사도 추정부의 상기 기호 전이 유사도는, 기호의 전이 순서와 전이간 시간 간격을 바탕으로 추정된다. 이 때, 유사도를 추정하기 위해서 윈도우(Window)가 사용된다. 유사도를 추정하기 위하여 유사도를 측정하고자 하는 두 사용자 벡터에서 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍으로 묶고 이를 유사도 추정의 기점으로 삼는다. 그리고 상기 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍의 전후 시점을 윈도우를 이용해 탐색하여 그 전이 과정 또한 유사한지 탐색한다.

기호 전이 유사도는 기호 벡터간의 유사도, 기호 벡터와 사용자 벡터간의 유사도, 기호 전이 순서와 시간 간격을 이용하여 추정된다.

상기 기호 전이 패턴 군집화부는, 상기 기호 전이 유사도와 PTS를 바탕으로 K-NN알고리즘 또는 변형된 K-NN 알고리즘을 이용해 기호 전이 패턴을 군집화하고 이 때, 군집의 수는 BIC를 기준으로 결정된다.

상기 K-NN 알고리즘은, 군집 내 원소 간 거리의 총합이 최소가 되게 하는 군집의 중심을 찾는 알고리즘이며, 상기 변형된 K-NN 알고리즘은, 군집 내 원소 간 유사도의 합이 최대가 되게 하는 군집의 중심을 찾는 알고리즘이다.

상기 기호 전이 모델 생성부는, 각 성향의 사용자들의 기호 전이 패턴을 마르코프 모델 또는 변형된 마르코프 모델의 형을 이용하여 기호 전이 모델을 생성한다. 더욱 상세하게, 상기 기호 전이 모델 생성부는 군집에 포함된 사용자들의 기호가 전이되는 비율과 기호 전이가 일어나는데 걸리는 시간 정보를 포함하는 전이 확률 벡터를 포함하는 기호 전이 모델을 생성한다.

상기 마르코프 모델은, 노드와 간선으로 이루어진 확률 모델로 상기 노드는 상태(State)를 의미하고 상기 간선은 특정 노드에서 다른 노드로 전이할 스칼라(scalar)확률을 의미한다.

상기 변형된 마르코프 모델은, 노드와 간선으로 이루어진 확률 모델로 상기 노드는 상태(State)를 의미하고 상기 간선은 특정 노드에서 다른 노드로 전이할 확률을 나타내는 벡터(Vector)를 의미할 수 있다.

상기 전이 확률 벡터는, 수식6과 같이 산술적 확률을 바탕으로 한 전이 확률과 전이 시간 간격에 대한 가우시안 확률 모델 정보를 포함할 수 있다.

(수식6)

여기에서

는

에서

로의 전이 확률을 나타내는 벡터,

는

에 속해 있던 사람의 수,

는

에서

로 전이되는 사람의 수,

는

에 속한 사람들이

로 전이되는 비율,

는 전이의 시간 간격의 평균,

는 시간 간격의 표준편차를 의미할 수 있다.

상기 선호도 예측부는, 아이템 군집, 사용자 벡터, 기호 벡터 및 기호 전이 모델을 포함하는 정보들로 사용자의 특정 아이템에 대한 선호도를 예측한다. 더욱 상세하게, 상기 선호도 예측부는 수식7을 이용하여 사용자의 특정 아이템에 대한 선호도를 예측할 수 있다.

(수식7)

여기에서

는

번째 사용자,

은

번째 아이템,

은

번째 아이템 군집,

은

번째 기호를 의미하며

는

의

에 대한 선호도 예측치를 의미할 수 있다.

상기

는 기호(

)와 사용자(

) 간 유사도를 의미하고 이 값이 1에 가까울수록 사용자가 해당 기호에 속할 확률이 높아지고, -1에 가까울수록 사용자가 해당기호에 속할 확률이 낮아지며 기호 벡터와 사용자 벡터 간의 코사인 유사도를 통해 도출된다. 더욱 상세하게, 상기

는 수식8을 통해 도출될 수 있다.

(수식8)

상기

는 기호 전이 확률로 사용자의 기호가

에서

로 전이될 확률을 의미하고, 상기 기호 전이 확률은 사용자가 속한 성향의 기호 전이 모델을 기반으로 가우시안-베이지안 모델을 이용해 추정된다. 더욱 상세하게, 기호 전이 모델의 간선에 있는 전이 시간 간격의 평균과 표준편차로부터 가우시안 확률분포모델을 생성하고, 베이지안 모델을 이용하여 해당 시간에서 기호 전이 확률을 추정한다.

가 특정한 성향의 사용자들에 대한 특정한 시점

에서의 기호 전이 확률일 때 상기

는 수식9를 통해 산출될 수 있다.

(수식9)

상기

는 특정한 기호의 특성을 표현하기 위해 각 아이템 군집들에 대한 기호 군집 내 사용자들의 선호도의 평균으로 구성된다. 즉,

번째 기호의 사용자들의

번째 아이템 군집에 대한 선호도의 대푯값은

번째 기호 벡터의

번째 항의 값일 수 있다. 더욱 상세하게

를 수식으로 표현하면 수식10으로 표현된다.

(수식10)

상기

는 특정한 아이템이 아이템 군집에 포함되어 있을 확률을 의미하고, 상기

는 수식11과 같이 아이템 군집의 중심과 아이템 간의 유사도로 측정될 수 있다.

(수식11)

또한, 상기한 목적을 달성하기 위한 본 발명에 따른 예측적 군집화 기반 협업 필터링 방법은, 사용자들을 기호에 따라 군집화(Clustering)하고 각 기호를 나타내는 기호 벡터를 생성하는 기호 군집화 단계, 상기 기호 벡터들을 이용하여 사용자들의 기호 변화를 탐지하고 상기 기호 변화를 기호 전이 시퀀스로 표현하는 사용자 기호 전이 탐지 단계, 사용자들을 기호 전이 패턴에 따라 군집화하고 각 성향을 나타내는 기호 전이모델을 생성하는 성향 군집화 단계, 상기 기호 벡터와 상기 기호 전이모델을 바탕으로 사용자 선호도 예측모델을 생성하고 사용자의 각 아이템에 대한 선호도를 예측하는 선호도 예측 단계를 포함한다.

이 때, 상기 기호 군집화 단계는, 사용자들을 각 아이템 군집에 대한 선호도에 따라 군집화하여, 사용자들의 기호를 정규화한다. 상기 기호 군집화 단계는 아이템들간의 유사도를 기준으로 아이템을 군집화하는 아이템 군집화 단계, 사용자들간의 유사도를 기준으로 사용자를 군집화하는 사용자 군집화 단계 및 사용자 군집에 속한 사용자들의 특성벡터의 평균을 산출하고 이를 기호 벡터로 지정하는 기호벡터 생성 단계를 포함할 수 있다.

상기 아이템 군집화 단계는, 사용자들이 입력한 평가 점수를 기반으로 추정된 아이템들간의 유사도를 기준으로 아이템을 군집화 하며, 상기 아이템들간의 유사도는 두 아이템을 모두 평가한 적이 있는 사용자들의 평가 점수들을 바탕으로 코사인 유사도를 이용해 산출된다. 더욱 상세하게, 상기 아이템들간의 유사도는 수식1을 통해 산출되고 그 알고리즘은 K-NN알고리즘을 기반으로 한다. 여기서 원소간의 거리는 원소간의 유사도의 역수가 되고, 군집의 수는 BIC를 기준으로 결정될 수 있다.

(수식1)

여기에서

는 아이템

와

간 유사도를 의미하고 ,

는 아이템

와

를 모두 평가한 사용자들의 집합을 의미하며,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수이고,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균일 수 있다.

상기 사용자 군집화 단계는 아이템 군집과 사용자들의 평가 점수를 포함하는 특성 벡터 및 사용자 간 유사도를 이용하여 사용자를 군집화한다.

(수식2)

여기에서

는

의 특성벡터이고,

은 아이템 군집의 수이며,

는

의

에 속한 모든 아이템에 대한 평가점수의 평균일 수 있다.

(수식3)

여기에서

는

와

의 유사도,

는 사용자

와 사용자

모두가 평가한 아이템들의 집합,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균일 수 있다.

상기 사용자 군집화 단계는 기대치 최대화(EM, Expectation Maximization) 알고리즘과 가우시안-베이지안(Gaussian-Bayesian)확률 모델을 이용할 수 있으며 군집의 수는 BIC를 기준으로 결정된다.

상기 기호 벡터 생성 단계는, 기호 벡터를 생성하는 역할을 하며, 상기 기호 벡터는 사용자 군집화를 통해 나타난 사용자들의 기호의 대푯값으로 각 사용자 군집에 속한 사용자들의 특성 벡터의 평균일 수 있다. 더욱 상세하게, 상기 기호 벡터는 수식4를 통해서 산출될 수 있다.

(수식4)

여기에서

는

번째 기호인

의 특성벡터이며,

는 사용자 군집

의 원소 수,

는

의 특성벡터,

은 아이템 군집의 수,

는

의

상기 사용자 기호 전이 탐지 단계는, 사용자의 기호 변화의 성향을 분석하기 위하여, 사용자가 입력한 평가 점수의 시퀀스로부터 각 시점에서의 사용자의 기호를 추정하고 상기 각 시점에서의 사용자의 기호 전이를 탐지한다. 상기 사용자 기호 전이 탐지 단계는 사용자가 입력한 평가점수를 기 설정된 크기의 윈도우로 관측하는 기호 전이 탐지 단계와 기호 전이 벡터를 생성하는 기호 전이 벡터 생성 단계를 포함할 수 있다.

상기 기호 전이 벡터 생성 단계는, 특정 시점에서 사용자의 기호의 특성을 나타내는 기호벡터, 사용자의 특성을 나타내는 사용자 특성 벡터 및 기호 전이가 일어나기까지 소요시간의 정보를 포함하는 기호 전이 벡터를 생성한다. 더욱 상세하게 상기 기호 전이 벡터는 수식5를 통하여 산출될 수 있다.

(수식5)

여기에서

를 사용자

의 기호전이 벡터라 할 때,

을 시점

에서 사용자

의 기호 전이,

는

에서 사용자

의 기호의 특성을 나타내는 기호 벡터,

는

에서 사용자

의 특성을 나타내는 사용자 특성 벡터,

는

에서 발생한 사용자

상기 성향 군집화 단계는, 사용자들의 기호 전이의 유사도에 따라 상기 사용자들을 군집화하여 사용자들의 기호 변화의 패턴을 정규화한다. 상기 성향 군집화 단계는 기호 전이의 유사도를 추정하는 기호 전이 유사도 추정 단계, 상기 유사도를 바탕으로 군집화를 통해 기호 전이의 패턴(성향)을 찾아내는 기호 전이 패턴 군집화 단계 및 추출될 성향들을 이용하여 기호 전이 모델을 생성하는 기호 전이 모델 생성 단계를 포함한다.

상기 기호 전이 유사도 추정 단계의 상기 기호 전이 유사도는, 기호의 전이 순서와 전이간 시간 간격을 바탕으로 추정된다. 이 때, 유사도를 추정하기 위해서 윈도우(Window)가 사용된다. 유사도를 추정하기 위하여 유사도를 측정하고자 하는 두 사용자 벡터에서 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍으로 묶고 이를 유사도 추정의 기점으로 삼는다. 그리고 상기 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍의 전후 시점을 윈도우를 이용해 탐색하여 그 전이 과정 또한 유사한지 탐색한다.

상기 기호 전이 패턴 군집화 단계는, 상기 기호 전이 유사도와 PTS를 바탕으로 변형된 K-NN 알고리즘을 이용해 기호 전이 패턴을 군집화하고 이 때, 군집의 수는 BIC를 기준으로 결정된다.

상기 기호 전이 모델 생성 단계는, 각 성향의 사용자들의 기호 전이 패턴을 변형된 마르코프 모델의 형을 이용하여 기호 전이 모델을 생성한다. 더욱 상세하게, 상기 기호 전이 모델 생성 단계는 군집에 포함된 사용자들의 기호가 전이되는 비율과 기호 전이가 일어나는데 걸리는 시간 정보를 포함하는 전이 확률 벡터를 포함하는 기호 전이 모델을 생성한다.

(수식6)

여기에서

는

에서

로의 전이 확률을 나타내는 벡터,

는

에 속해 있던 사람의 수,

는

에서

로 전이되는 사람의 수,

는

에 속한 사람들이

로 전이되는 비율,

는 전이의 시간 간격의 평균,

는 시간 간격의 표준편차를 의미할 수 있다.

상기 선호도 예측 단계는, 아이템 군집, 사용자 벡터, 기호 벡터 및 기호 전이 모델을 포함하는 정보들로 사용자의 특정 아이템에 대한 선호도를 예측한다. 더욱 상세하게, 상기 선호도 예측 단계는 수식7을 이용하여 사용자의 특정 아이템에 대한 선호도를 예측할 수 있다.

(수식7)

여기에서

는

번째 사용자,

은

번째 아이템,

은

번째 아이템 군집,

은

번째 기호를 의미하며

는

의

에 대한 선호도 예측치를 의미할 수 있다.

상기

는 기호(

)와 사용자(

는 수식8을 통해 도출될 수 있다.

(수식8)

상기

는 기호 전이 확률로 사용자의 기호가

에서

가 특정한 성향의 사용자들에 대한 특정한 시점

에서의 기호 전이 확률일 때 상기

는 수식9를 통해 산출될 수 있다.

(수식9)

상기

번째 기호의 사용자들의

번째 아이템 군집에 대한 선호도의 대푯값은

번째 기호 벡터의

번째 항의 값일 수 있다. 더욱 상세하게

를 수식으로 표현하면 수식10으로 표현된다.

(수식10)

상기

(수식11)

본 발명에 의하면, 사용자의 기호와 사용자의 기호 변화를 추정하여 생성되는 데이터를 기초로 사용자의 각 아이템에 대한 선호도를 정확하게 예측할 수 있는 효과가 있다.

또한, 본 발명에 의하면, 사용자 기호의 변화를 추적하여 성능 불안정성 문제를 개선하며, 전이 확률과 군집 소속 확률을 이용하여 적용 범위 감소문제를 해결한다. 나아가, 사용자의 각 아이템에 대한 선호도를 예측함에 있어서 그 성능과 안정성 측면에서 개선된 효과를 제공하여 사용자의 각 아이템에 대한 선호도를 정확하게 예측할 수 있는 효과가 있다.

도 1은 본 발명에 따른 추천 시스템에서의 예측적 군집화 기반 협업 필터링 장치의 블록도이다.
도 2는 본 발명에 따른 추천 시스템에서의 기호 군집화부의 실시예를 설명하기 위한 도면이다.
도 3은 본 발명에 따른 추천 시스템에서의 사용자 기호전이 탐지부의 실시예를 설명하기 위한 도면이다.
도 4는 본 발명에 따른 추천 시스템에서의 기호전이 탐지부의 동작 원리를 설명하기 위한 도면이다.
도 5는 본 발명에 따른 추천 시스템에서의 성향 군집화부의 실시예를 설명하기 위한 도면이다.
도 6은 본 발명에 따른 추천 시스템에서의 기호 전이 유사도 추정부의 동작 원리를 설명하기 위한 도면이다.
도 7은 본 발명에 따른 추천 시스템에서의 기호 전이 모델을 설명하기 위한 도면이다.
도 8은 본 발명에 따른 추천 시스템에서의 사용자 선호도 예측 모델을 설명하기 위한 도면이다.
도 9는 본 발명에 따른 추천 시스템에서의 예측적 군집화 기반 협업 필터링 방법의 순서도이다.
도 10은 본 발명에 따른 추천 시스템에서의 기호 군집화 단계를 설명하기 위한 순서도이다.
도 11은 본 발명에 따른 추천 시스템에서의 사용자 기호 전이 탐지 단계를 설명하기 위한 순서도이다.
도 12는 본 발명에 따른 추천 시스템에서의 성향 군집화 단계를 설명하기 위한 순서도이다.
도 13은 본 발명에 따른 추천 시스템에서의 선호도 예측 단계를 설명하기 위한 순서도이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 예측적 군집화 기반 협업 필터링 장치 및 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 예측적 군집화 기반 협업 필터링 장치를 설명하기 위한 도면이다. 도 2, 3 및 5는 본 발명의 실시예에 따른 예측적 군집화 기반 협업 필터링 장치의 구성을 설명하기 위한 도면이다. 도 4, 7 및 8은 각각 기호전이 탐지부의 동작 원리, 기호 전이 모델 및 사용자 선호도 예측 모델을 설명하기 위한 도면이다. 그리고 도 9 내지 도 13은 본 발명의 실시예에 따른 예측적 군집화 기반 협업 필터링 방법을 설명하기 위한 순서도이다.

도 1에 도시된 바와 같이, 예측적 군집화 기반 협업 필터링 장치(100)는 기호 군집화부(110), 사용자 기호전이 탐지부(120), 성향 군집화부(130), 선호도 예측부(140)를 포함하여 구성된다.

기호 군집화부(110)는 사용자들을 각 아이템 군집에 대한 선호도에 따라 군집화하여 사용자들의 기호를 정규화한다.

사용자 기호전이 탐지부(120)는 사용자의 기호 성향을 분석하기 위하여, 사용자가 입력한 평가 점수의 시퀀스로부터 각 시점에서의 사용자의 기호를 추정하고 그 전이를 탐지한다.

성향 군집화부(130)는 사용자들을 기호 전이의 유사도에 따라 군집화하여 사용자들의 기호 변화의 패턴을 정규화한다. 상기 패턴은 사용자들의 성향을 의미한다고 해석될 수 있다.

선호도 예측부(140)는 아이템 군집, 사용자 벡터, 기호 벡터, 기호 전이 모델을 포함하는 정보를 이용하여 사용자의 특정 아이템에 대한 선호도를 예측한다.

도 2에 도시된 바와 같이, 기호 군집화부(110)는 사용자들의 소비 경향에 따라 아이템들을 군집화하는 아이템 군집화부(111), 사용자들을 기호에 따라 군집화하여 각 기호를 나타내는 군집을 도출하는 사용자 군집화부(112), 사용자들의 각 기호들의 대푯값을 기호 벡터로 결정하는 기호벡터 생성부(113)를 포함할 수 있다.

아이템 군집화부(111)는 사용자들이 입력한 평가 점수를 기반으로 추정된 아이템간의 유사도를 기준으로 아이템을 군집한다. 상기 아이템간의 유사도는 두 아이템을 모두 평가한 적이 있는 사용자들의 평가 점수를 바탕으로 코사인 유사도를 이용해 도출되며, 아이템 군집화 알고리즘은 K-NN알고리즘을 기반으로 하고, 이 때 원소간의 거리는 원소 간의 유사도의 역수로 결정된다. 또한 상기 아이템 군집의 수는 BIC를 기준으로 설정될 수 있다. 더욱 상세하게, 상기 아이템 간의 유사도는 수식1을 통해 도출될 수 있다.

(수식1)

상기

는 아이템

와

간 유사도를 의미하고 ,

는 아이템

와

를 모두 평가한 사용자들의 집합을 의미하며,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수이고,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균일 수 있다.

사용자 군집화부(112)는 아이템 군집과 사용자들의 평가 점수를 이용하여 구성된 특성벡터와 사용자 간의 유사도를 기준으로 사용자를 군집화한다. 상기 특성벡터는 사용자의 각 아이템 군집에 속한 아이템들에 대한 평가점수의 평균을 포함하는 수식2로 나타낼 수 있으며, 상기 특성 벡터의 차원의 수는 아이템 군집의 수와 같다.

(수식2)

상기

는 사용자

의 특성벡터이고,

은 아이템 군집의 수이며,

는 사용자

의

번째 아이템 군집인

에 속한 모든 아이템에 대한 평가점수의 평균일 수 있다.

(수식3)

상기

는 사용자

와 사용자

의 유사도,

는 사용자

와 사용자

모두가 평가한 아이템들의 집합,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균일 수 있다.

상기 사용자 군집화부(112)는 기대치 최대화(EM, Expectation Maximization) 알고리즘과 가우시안-베이지안(Gaussian-Bayesian)확률 모델을 이용할 수 있으며 사용자 군집의 수는 BIC를 기준으로 결정될 수 있다.

기호벡터 생성부(113)는 각 사용자 군집에 속한 사용자들의 특성벡터의 평균을 기호벡터로 설정하며 상기 기호벡터는 사용자 군집화를 통해 도출된 사용자들의 기호의 대푯값일 수 있다. 더욱 상세하게, 상기 기호벡터는 수식4를 통해 도출될 수 있다.

(수식4)

상기

는

번째 기호인

의 특성벡터이며,

는 사용자 군집

의 원소 수,

는

의 특성벡터,

은 아이템 군집의 수,

는 사용자

의

번째 아이템 군집인

도 3에 도시된 바와 같이, 사용자 기호전이 탐지부(120)는 사용자가 입력한평가 점수의 시퀀스로부터 각 시점에서의 사용자의 기호를 추정하고 그 전이를 탐지하는 기호전이 탐지부(121)와 성향 군집화의 기반이 되는 기호전이 벡터를 생성하는 기호전이 벡터 생성부(122)를 포함할 수 있다.

기호전이 벡터 생성부(122)는 전이된 기호의 기호벡터, 전이 시점의 사용자 벡터, 전이 소요시간을 포함하는 기호전이 벡터를 생성하고 상기 기호전이 벡터는 수식5를 통해 산출될 수 있다.

(수식5)

상기

를 사용자

의 기호전이 벡터라 할 때,

을 시점

에서 사용자

의 기호 전이,

는

에서 사용자

의 기호의 특성을 나타내는 기호 벡터,

는

에서 사용자

의 특성을 나타내는 사용자 특성 벡터,

는

에서 발생한 사용자

도 4에 도시된 바와 같이, 상기 기호전이 탐지부(121)는 시간

에 입력된 사용자의 특정 아이템에 대한 평가점수

의 시퀀스를 기 설정된

크기의 윈도우로 관측하여 기호 전이를 탐지한다.

도 5에 도시된 바와 같이, 상기 성향 군집화부(130)는 사용자들의 기호 전이의 유사도를 추정하는 기호전이 유사도 추정부(131), 상기 기호전이 유사도를 기반으로 기호 전이 패턴을 군집화하고 군집의 중심을 찾는 기호전이 패턴 군집화부(132), 각 성향의 사용자들의 기호 전이 패턴의 모델을 생성하는 기호 전이 모델 생성부(133)를 포함할 수 있다.

상기 기호전이 패턴 군집화부(132)는 상기 기호 전이 유사도를 이용하여 K-NN알고리즘 또는 변형된 K-NN알고리즘을 통해 기호전이 패턴을 군집화한다.

도 6에 도시된 바와 같이, 상기 기호전이 유사도 추정부(131)는 기호의 전이 순서와 전이 간 시간 간격을 바탕으로 사용자들의 기호 전이 유사도를 추정한다. 유사도의 추정에는 윈도우가 사용된다. 유사도를 추정하기 위하여 유사도를 측정하고자 하는 두 사용자 벡터에서 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍으로 묶고 이를 유사도 추정의 기점으로 삼는다. 그리고 상기 서로 가장 유사한 기호를 가지고 있었던 시점 쌍의 전후를 윈도우를 이용해 탐색하여 그 전이 과정 또한 유사한지 탐색한다. 더욱 상세하게 설명한다면, 상기 기호전이 유사도 추정부(131)는, 사용자

와

가 서로 가장 유사한 기호를 가지고 있는 시점인

시점을 쌍으로 묶고

시점의 전후를 윈도우로 탐색하여 사용자

의 시점

과 사용자

의 시점

에서 기호의 전이 과정이 유사한지 여부를 탐색한다.

도 7에 도시된 바와 같이, 상기 기호 전이 모델 생성부(133)는 각 성향의 사용자들의 기호 전이 패턴을 마르코프 모델 또는 변형된 마르코프 모델형을 이용하여 기호 전이 모델을 생성한다.

를 비롯한 각 노드들은 해당 성향 군집 내의 사용자들의 기호를 의미할 수 있고,

를 비롯한 각 간선들은 노드간의 전이 확률을 의미한다. 상기 기호 전이 모델은 전이에 걸리는 시간 정보를 포함하는 확률 모델일 수 있다.

상기 마르코프 모델의 간선들은 스칼라(scalar) 값을 가지며, 상기 변형된 마르코프 모델의 간선들은 전이 확률과 전이 시간 간격에 대한 정보를 포함할 수 있다.

다시 도7에 대한 설명으로 돌아가면, 상기

는

에서

로의 전이 확률을 나타내는 벡터이며, 보다 상세하게 수식6을 통해 도출될 수 있다.

(수식6)

상기

는

에서

로의 전이 확률을 나타내는 벡터,

는

에 속해 있던 사람의 수,

는

에서

로 전이되는 사람의 수,

는

에 속한 사람들이

로 전이되는 비율,

는 전이의 시간 간격의 평균,

는 시간 간격의 표준편차를 의미할 수 있다.

도 8에 도시된 바와 같이, 상기 선호도 예측부(140)는 아이템 군집, 사용자 벡터, 기호 벡터, 기호 전이 모델을 비롯한 정보들을 이용하여 사용자의 특정 아이템에 대한 선호도 예측모델을 생성하고 이를 통해 사용자의 각 아이템에 대한 선호도를 예측한다.

보다 상세하게,

는

번째 사용자를,

은

번째 아이템을,

은

번째 아이템 군집을,

은

번째 기호를,

은

번째 성향을,

은

번째 성향의 사용자들의 기호 전이모델을 나타낼 수 있다. 이 때,

의

에 대한 선호도 예측치인

는 수식7을 통해 산출될 수 있다.

(수식7)

상기

는 기호(

)와 사용자(

는 수식8을 통해 도출될 수 있다.

(수식8)

상기

는 기호 전이 확률로 사용자의 기호가

에서

가 특정한 성향의 사용자들에 대한 특정한 시점

에서의 기호 전이 확률일 때 상기

는 수식9를 통해 산출될 수 있다.

(수식9)

상기

번째 기호의 사용자들의

번째 아이템 군집에 대한 선호도의 대푯값은

번째 기호 벡터의

번째 항의 값일 수 있다. 더욱 상세하게

를 수식으로 표현하면 수식10으로 표현된다.

(수식10)

상기

(수식11)

도 9에 도시된 바와 같이 예측적 군집화 기반 협업 필터링 방법은 사용자들을 각 아이템 군집에 대한 선호도에 따라 군집화하는 기호 군집화 단계(S100), 사용자가 입력한 평가점수의 시퀀스로부터 각 시점에서의 사용자의 기호를 추정하고 그 전이를 탐지하는 사용자 기호 전이 탐지 단계(S200), 사용자들을 기호 전이의 유사도에 따라 군집화하여 사용자들의 기호 변화의 패턴을 정규화하는 성향 군집화 단계(S300), 사용자의 특정 아이템에 대한 선호도를 예측하는 선호도 예측 단계(S400)를 포함할 수 있다.

도 10에 도시된 바와 같이 기호 군집화 단계(S100)는 사용자들의 소비 경향과 사용자들이 입력한 평가점수를 기반으로 측정된 아이템들간의 유사도를 이용하여 아이템들을 군집화하는 아이템 군집화 단계(S110), 아이템 군집과 사용자들의 평가점수를 이용하여 생성된 특성 벡터와 사용자들간 유사도를 이용하여 사용자를 군집화 하는 사용자 군집화 단계(S120), 사용자들의 각 기호들의 대푯값을 기호 벡터로 결정하는 기호벡터 생성 단계(S130)를 포함할 수 있다.

상기 아이템 군집화 단계(S110)는 사용자들이 입력한 평가 점수를 기반으로 추정된 아이템간의 유사도를 기준으로 아이템을 군집화한다. 상기 아이템간의 유사도는 두 아이템을 모두 평가한 적이 있는 사용자들의 평가 점수를 바탕으로 코사인 유사도를 이용해 도출되며, 아이템 군집화 알고리즘은 K-NN알고리즘을 기반으로 하고, 이 때 원소간의 거리는 원소 간의 유사도의 역수로 결정된다. 또한 상기 아이템 군집의 수는 BIC를 기준으로 설정될 수 있다. 더욱 상세하게, 상기 아이템 간의 유사도는 수식1을 통해 도출될 수 있다.

(수식1)

상기

는 아이템

와

간 유사도를 의미하고 ,

는 아이템

와

를 모두 평가한 사용자들의 집합을 의미하며,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수이고,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균,

는 사용자 집합

의 아이템

에 대한 평가점수의 평균일 수 있다.

상기 사용자 군집화 단계(S120)는 아이템 군집과 사용자들의 평가 점수를 이용하여 구성된 특성벡터와 사용자 간의 유사도를 기준으로 사용자를 군집화한다. 상기 특성벡터는 사용자의 각 아이템 군집에 속한 아이템들에 대한 평가점수의 평균을 포함하는 수식2로 나타낼 수 있으며, 상기 특성 벡터의 차원의 수는 아이템 군집의 수와 같다.

(수식2)

상기

는

의 특성벡터이고,

은 아이템 군집의 수이며,

는

의

에 속한 모든 아이템에 대한 평가점수의 평균일 수 있다.

(수식3)

상기

는

와

의 유사도,

는 사용자

와 사용자

모두가 평가한 아이템들의 집합,

는 사용자

의 아이템

에 대한 평가 점수,

는 사용자

의 아이템

에 대한 평가 점수,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균,

는 아이템 집합

에 대한 사용자

의 평가점수의 평균일 수 있다.

상기 사용자 군집화 단계(S120)는 기대치 최대화(EM, Expectation Maximization) 알고리즘과 가우시안-베이지안(Gaussian-Bayesian)확률 모델을 이용할 수 있으며 사용자 군집의 수는 BIC를 기준으로 결정될 수 있다.

상기 기호벡터 생성 단계(S130)는 각 사용자 군집에 속한 사용자들의 특성벡터의 평균을 기호벡터로 설정하며 상기 기호벡터는 사용자 군집화를 통해 도출된 사용자들의 기호의 대푯값일 수 있다. 더욱 상세하게, 상기 기호벡터는 수식4를 통해 도출될 수 있다.

(수식4)

상기

는

번째 기호인

의 특성벡터이며,

는 사용자 군집

의 원소 수,

는

의 특성벡터,

은 아이템 군집의 수,

는

의

도 11에 도시된 바와 같이 사용자 기호 전이 탐지 단계(S200)는 평가점수를 특정한 크기의 윈도우로 관측하여 기호 전이를 탐지하는 기호 전이 탐지단계(S210), 특정 시점에서 사용자들의 기호의 특성을 나타내는 기호 벡터, 상기 특정 시점에서 상기 사용자들의 특성을 나타내는 사용자 특성 벡터 및 상기 특정 시점에서 상기 사용자들의 기호 전이가 일어나기까지 소요시간을 포함하는 기호 전이 벡터를 생성하는 기호 전이 벡터 생성 단계(S220)를 포함할 수 있다.

상기 기호 전이 탐지 단계(S210)는 시간

에 입력된 사용자의 특정 아이템에 대한 평가점수

의 시퀀스를 기 설정된

크기의 윈도우로 관측하여 기호 전이를 탐지한다.

상기 기호 전이 벡터 생성 단계(S220)는 전이된 기호의 기호벡터, 전이 시점의 사용자 벡터, 전이 소요시간을 포함하는 기호전이 벡터를 생성하고 상기 기호전이 벡터는 수식5를 통해 산출될 수 있다.

(수식5)

상기

를 사용자

의 기호전이 벡터라 할 때,

을 시점

에서 사용자

의 기호 전이,

는

에서 사용자

의 기호의 특성을 나타내는 기호 벡터,

는

에서 사용자

의 특성을 나타내는 사용자 특성 벡터,

는

에서 발생한 사용자

도 12에 도시된 바와 같이 성향 군집화 단계(S300)는 유사도를 측정하고자 하는 두 사용자 벡터에서, 서로 가장 유사한 기호를 가지고 있었던 시점을 기준으로 하여 상기 시점 이후 전이 과정이 유사한지 탐색하는 기호 전이 유사도 추정 단계(S310), 기호 전이 유사도를 기반으로 상기 사용자간 유사도의 합이 최대가 되게하는 군집의 중심을 찾는 기호 전이 패턴 군집화 단계(S320), 군집에 포함된 사용자들의 기호가 전이되는 비율과 기호 전이가 일어나는데 걸리는 시간 정보를 포함하는 전이 확률 벡터를 포함하는 기호 전이 모델을 생성하는 기호 전이 모델 생성단계(S330)를 포함할 수 있다.

상기 기호전이 유사도 추정 단계(S310)는 기호의 전이 순서와 전이 간 시간 간격을 바탕으로 사용자들의 기호 전이 유사도를 추정한다. 유사도의 추정에는 윈도우가 사용된다. 유사도를 추정하기 위하여 유사도를 측정하고자 하는 두 사용자 벡터에서 서로 가장 유사한 기호를 가지고 있었던 시점을 쌍으로 묶고 이를 유사도 추정의 기점으로 삼는다. 그리고 상기 서로 가장 유사한 기호를 가지고 있었던 시점 쌍의 전후를 윈도우를 이용해 탐색하여 그 전이 과정 또한 유사한지 탐색한다. 도 6을 참조하여 더욱 상세하게 설명한다면, 상기 기호전이 유사도 추정 단계(S310)는, 사용자

와

가 서로 가장 유사한 기호를 가지고 있는 시점인

시점을 쌍으로 묶고

시점의 전후를 윈도우로 탐색하여 사용자

의 시점

과 사용자

의 시점

에서 기호의 전이 과정이 유사한지 여부를 탐색한다.

상기 기호 전이 패턴 군집화 단계(S320)는 상기 기호 전이 유사도를 이용하여 K-NN알고리즘 또는 변형된 K-NN알고리즘을 통해 기호전이 패턴을 군집화한다.

상기 기호 전이 모델 생성단계(S330)는 각 성향의 사용자들의 기호 전이 패턴을 마르코프 모델 또는 변형된 마르코프 모델형을 이용하여 기호 전이 모델을 생성한다.

도 7을 참조하여 보다 상세하게 설명하면, 상기

는

에서

로의 전이 확률을 나타내는 벡터이며, 상기 간선들은 수식6을 통해 도출될 수 있다.

(수식6)

상기

는

에서

로의 전이 확률을 나타내는 벡터,

는

에 속해 있던 사람의 수,

는

에서

로 전이되는 사람의 수,

는

에 속한 사람들이

로 전이되는 비율,

는 전이의 시간 간격의 평균,

는 시간 간격의 표준편차를 의미할 수 있다.

도 13에 도시된 바와 같이, 상기 선호도 예측 단계(S400)는 기호와 사용자 간의 유사도를 생성하는 단계(S410), 기호 전이 확률을 생성하는 단계(S420), 기호 벡터를 도출하는 단계(S430), 아이템 간 유사도를 산출하는 단계(S440)를 포함할 수 있고, 상기 기호와 사용자 간의 유사도, 기호 간 전이 확률, 기호 벡터, 아이템 간 유사도를 이용하여 사용자의 특정한 아이템에 대한 선호도를 예측(S450)할 수 있다.

상기 기호와 사용자 간의 유사도를 생성하는 단계(S410)는 기호(

)와 사용자(

) 간 유사도를 산출하고 이 값이 1에 가까울수록 사용자가 해당 기호에 속할 확률이 높아지고, -1에 가까울수록 사용자가 해당기호에 속할 확률이 낮아지며 기호 벡터와 사용자 벡터 간의 코사인 유사도를 통해 도출된다. 더욱 상세하게, 상기 기호와 사용자 간의 유사도는 수식8을 통해 도출될 수 있다.

(수식8)

상기 기호 전이 확률을 생성하는 단계(S420)는 사용자의 기호가

에서

로 전이될 확률을 산출하고, 상기 기호 전이 확률은 사용자가 속한 성향의 기호 전이 모델을 기반으로 가우시안-베이지안 모델을 이용해 추정된다. 더욱 상세하게, 기호 전이 모델의 간선에 있는 전이 시간 간격의 평균과 표준편차로부터 가우시안 확률분포모델을 생성하고, 베이지안 모델을 이용하여 해당 시간에서 기호 전이 확률을 추정한다.

가 특정한 성향의 사용자들에 대한 특정한 시점

에서의 기호 전이 확률일 때 상기

는 수식9를 통해 산출될 수 있다.

(수식9)

상기 기호 벡터를 도출하는 단계(S430)는 특정한 기호의 특성을 표현하기 위해 각 아이템 군집들에 대한 기호 군집 내 사용자들의 선호도의 평균으로 구성 기호 벡터를 도출한다. 즉,

번째 기호의 사용자들의

번째 아이템 군집에 대한 선호도의 대푯값은

번째 기호 벡터의

번째 항의 값일 수 있다. 더욱 상세하게 상기 기호 벡터를 수식으로 표현하면 수식10으로 표현될 수 있다.

(수식10)

상기 아이템 간 유사도를 산출하는 단계(S440)는 특정한 아이템이 아이템 군집에 포함되어 있을 확률을 산출하고 , 상기 특정한 아이템이 아이템 군집에 포함되어 있을 확률은 수식11과 같이 아이템 군집의 중심과 아이템 간의 유사도로 측정될 수 있다.

(수식11)

상기 선호도 예측 단계(S400)는 아이템 군집, 사용자 벡터, 기호 벡터, 기호 전이 모델을 비롯한 정보들을 이용하여 사용자의 특정 아이템에 대한 선호도 예측모델을 생성하고 이를 통해 사용자의 각 아이템에 대한 선호도를 예측한다.(S450)

도 8을 참조하여 보다 상세하게 설명하면,

는

번째 사용자를,

은

번째 아이템을,

은

번째 아이템 군집을,

은

번째 기호를,

은

번째 성향을,

은

의

에 대한 선호도 예측치인

는 수식7을 통해 산출될 수 있다.

(수식7)

한편, 본 발명은 상술한 예측적 군집화 기반 협업 필터링 방법을 기록매체에 저장한 예측적 군집화 기반 협업 필터링 프로그램일 수 있다.

상기한 예측적 군집화 기반 협업 필터링 프로그램은 기호 군집화 프로그램, 기호 전이 탐지 프로그램, 성향 군집화 프로그램, 선호도 예측 프로그램을 포함할 수 있으며 이 외에도 상술한 예측적 군집화 기반 협업 필터링 방법의 모든 단계를 기록매체에 저장한 형태로 포함할 수 있음은 자명하다.

상기 기록매체는 CD-ROM, DVD, 블루레이, 하드디스크, SSD, USB를 포함하며 통상의 기술자가 용이하게 이용할 수 있는 기록매체를 포함할 수 있다.

상기 프로그램은 C++, JAVA를 포함하며 통상의 기술자가 용이하게 이용할 수 있는 프로그래밍용 언어를 포함할 수 있다.

100: 예측적 군집화 기반 협업 필터링 장치
110: 기호 군집화부 120: 기호전이 탐지부
130: 성향 군집화부 140: 선호도 예측부
111: 아이템 군집화부 112: 사용자 군집화부
113: 기호벡터 생성부 121: 사용자 기호전이 탐지부
122: 기호전이 벡터 생성부 131: 기호전이 유사도 추정부
132: 기호전이 패턴 군집화부 133: 기호전이 모델 생성부

Claims

기호 군집화부가 사용자들을 기호에 따라 군집화(Clustering)하고 각 기호를 나타내는 기호 벡터를 생성하는 기호 군집화 단계;
사용자 기호전이 탐지부가 상기 기호 벡터들을 이용하여 사용자들의 기호 변화를 탐지하고 상기 기호 변화를 기호 전이 시퀀스로 표현하는 사용자 기호 전이 탐지 단계;
성향 군집화부가 사용자들을 기호 전이 패턴에 따라 군집화하고 각 성향을 나타내는 기호 전이모델을 생성하는 성향 군집화 단계;및
선호도 예측부가 상기 기호 벡터와 상기 기호 전이모델을 바탕으로 사용자 선호도 예측모델을 생성하고 사용자들의 각 아이템에 대한 선호도를 예측하는 선호도 예측 단계를 포함하며,
상기 성향 군집화 단계는,
기호전이 유사도 추정부가 유사도를 측정하고자 하는 두 사용자 벡터에서, 서로 가장 유사한 기호를 가지고 있었던 시점을 기준으로 하여 상기 시점 이후 전이 과정이 유사한지 탐색하는 기호 전이 유사도 추정 단계, 기호전이 패턴 군집화부가 기호 전이 유사도를 기반으로 상기 사용자간 유사도의 합이 최대가 되게 하는 군집의 중심을 찾는 기호 전이 패턴 군집화 단계 및 기호전이 모델 생성부가 상기 군집에 포함된 사용자들의 기호가 전이되는 비율과 기호 전이가 일어나는데 걸리는 시간 정보를 포함하는 전이 확률 벡터를 포함하는 기호 전이 모델을 생성하는 기호 전이 모델 생성단계를 포함하는 예측적 군집화 기반 협업 필터링 방법.
청구항 1에 있어서,
상기 기호 군집화 단계는,
아이템 군집화부가 상기 사용자들의 평가 점수를 기반으로 추정된 아이템들 간의 유사도를 기준으로 아이템을 군집화하는 아이템 군집화 단계;
사용자 군집화부가 아이템 군집과 상기 평가 점수를 바탕으로 생성된 특성 벡터와 사용자 간의 유사도를 기준으로 사용자들을 군집화하는 사용자 군집화 단계;및
기호벡터 생성부가 사용자 군집에 속한 사용자들의 특성 벡터의 평균을 기호 벡터로 설정하는 기호 벡터 생성 단계를 포함하는 예측적 군집화 기반 협업 필터링 방법.
청구항 2에 있어서,
상기 아이템 군집화 단계는,
수식1을 이용하여 아이템간 유사도를 도출하고, 상기 아이템간 유사도를 이용하여 아이템을 군집화하는 예측적 군집화 기반 협업 필터링 방법.
(수식1)

(
는 아이템
와
간 유사도,
는 아이템
와
를 모두 평가한 사용자들의 집합,
는 사용자
의 아이템
에 대한 평가 점수,
는 사용자
의 아이템
에 대한 평가 점수,
는 사용자 집합
의 아이템
에 대한 평가점수의 평균,
는 사용자 집합
의 아이템
에 대한 평가점수의 평균이다.)
청구항 2에 있어서,
상기 사용자 군집화 단계는,
수식2를 이용하여 특성 벡터를 도출하고,
수식3을 이용하여 사용자간 유사도를 도출한 뒤, 상기 특성 벡터와 상기 사용자간 유사도를 이용하여 사용자를 군집화하는 예측적 군집화 기반 협업 필터링 방법.
(수식2)

(
는 사용자
의 특성벡터,
은 아이템 군집의 수,
는 사용자
의
번째 아이템 군집인
에 속한 모든 아이템에 대한 평가점수의 평균이다.)
(수식3)

(
는 사용자
와 사용자
의 유사도,
는 사용자
와 사용자
모두가 평가한 아이템들의 집합,
는 사용자
의 아이템
에 대한 평가 점수,
는 사용자
의 아이템
에 대한 평가 점수,
는 아이템 집합
에 대한 사용자
의 평가점수의 평균,
는 아이템 집합
에 대한 사용자
의 평가점수의 평균이다.)
청구항 2에 있어서,
상기 기호 벡터는,
수식4를 통해서 산출되는 예측적 군집화 기반 협업 필터링 방법.
(수식4)

(
는
번째 기호
의 특성벡터이며,
는 사용자 군집
의 원소 수,
는 사용자
의 특성벡터,
은 아이템 군집의 수,
는 사용자
의
번째 아이템 군집인
에 속한 모든 아이템에 대한 평가 점수의 평균이다.)
청구항 1에 있어서,
상기 사용자 기호 전이 탐지 단계는,
기호전이 탐지부가 특정 시점에 특정 아이템에 대한 상기 사용자들의 평가 점수를 기설정된 크기의 윈도우로 관측하는 기호 전이 탐지 단계; 및
기호전이 벡터 생성부가 상기 특정 시점에서 상기 사용자들의 기호의 특성을 나타내는 기호 벡터, 상기 특정 시점에서 상기 사용자들의 특성을 나타내는 사용자 특성 벡터 및 상기 특정 시점에서 상기 사용자들의 기호 전이가 일어나기까지 소요시간을 포함하는 기호 전이 벡터를 생성하는 기호 전이 벡터 생성 단계를 포함하는 예측적 군집화 기반 협업 필터링 방법.
청구항 6에 있어서,
상기 기호 전이 벡터는,
수식5를 이용하여 산출되는 예측적 군집화 기반 협업 필터링 방법.
(수식5)

(
는 사용자
의 기호전이 벡터,
을 시점
에서 사용자
의 기호 전이,
는
에서 사용자
의 기호의 특성을 나타내는 기호 벡터,
는
에서 사용자
의 특성을 나타내는 사용자 특성 벡터,
는
에서 발생한 사용자
의 기호 전이가 일어나기까지의 소요시간을 의미한다.)
삭제
청구항 1에 있어서,
상기 전이 확률 벡터는,
수식6과 같이 산술적 확률을 바탕으로 한 전이 확률과 전이 시간 간격에 대한 가우시안 확률 모델 정보를 담고 있는 예측적 군집화 기반 협업 필터링 방법.
(수식6)

(
는
에서
로의 전이 확률을 나타내는 벡터,
는
에 속해 있던 사람의 수,
는
에서
로 전이되는 사람의 수,
는
에 속한 사람들이
로 전이되는 비율,
는 전이의 시간 간격의 평균,
는 시간 간격의 표준편차를 의미한다.)
청구항 1에 있어서,
상기 선호도 예측 단계는,
수식7을 이용하여 상기 사용자의 각 아이템에 대한 선호도를 예측하는 예측적 군집화 기반 협업 필터링 방법.
(수식7)

(
는
번째 사용자,
은
번째 아이템,
은
번째 아이템 군집,
은
번째 기호를 의미하며,
는 기호와 사용자 간 유사도를 의미하고 이 값이 1에 가까울수록 사용자가 해당 기호에 속할 확률이 높아지며, -1에 가까울수록 사용자가 해당기호에 속할 확률이 낮아지며,
는 기호 전이 확률로 사용자의 기호가
에서
로 전이될 확률을 의미하고,
는 각 아이템 군집들에 대한 기호 군집 내 사용자들의 선호도를 의미하고,
는 특정한 아이템이 아이템 군집에 포함되어 있을 확률을 의미하고,
는
의
에 대한 선호도 예측치를 의미한다.)
청구항 1항의 예측적 군집화 기반 협업 필터링 방법을 기록매체에 저장한 예측적 군집화 기반 협업 필터링 프로그램.