KR101877282B1 - 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치 - Google Patents

개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치 Download PDF

Info

Publication number
KR101877282B1
KR101877282B1 KR1020170020234A KR20170020234A KR101877282B1 KR 101877282 B1 KR101877282 B1 KR 101877282B1 KR 1020170020234 A KR1020170020234 A KR 1020170020234A KR 20170020234 A KR20170020234 A KR 20170020234A KR 101877282 B1 KR101877282 B1 KR 101877282B1
Authority
KR
South Korea
Prior art keywords
item
user
preference
estimator
individual
Prior art date
Application number
KR1020170020234A
Other languages
English (en)
Inventor
김용대
강민수
황재성
Original Assignee
주식회사 아이디어랩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이디어랩스 filed Critical 주식회사 아이디어랩스
Priority to KR1020170020234A priority Critical patent/KR101877282B1/ko
Priority to US15/672,625 priority patent/US20180232794A1/en
Application granted granted Critical
Publication of KR101877282B1 publication Critical patent/KR101877282B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Abstract

본 발명은 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다. 본 발명에 따르면, 컴퓨팅 장치가, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하고,
Figure 112017015363707-pat00232
를 최소화하는
Figure 112017015363707-pat00233
(u∈U, i∈I)를 추정하여 평균
Figure 112017015363707-pat00234
의 추정량
Figure 112017015363707-pat00235
을 구하되, U는 상기 개별 이용자의 집합을 지칭하며, I는 상기 개별 품목의 집합을 지칭하고, rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며, λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고, λI는 I에 관한 조율 모수를 지칭하며, 다음으로, 컴퓨팅 장치가, 상기 평균 μui의 추정량
Figure 112017015363707-pat00236
을 이용하여 잔차
Figure 112017015363707-pat00237
를 계산하고, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
Figure 112017015363707-pat00238
를 추정하며, 상기 잔차를 이용하여 행렬 φ을 추정하고, 추정된 상기
Figure 112017015363707-pat00239
및 상기 φ로부터 공분산 행렬
Figure 112017015363707-pat00240
을 산출하며, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
Figure 112017015363707-pat00241
를 산출한다.

Description

개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치{METHOD FOR COLLABORATIVELY FILTERING INFORMATION IN USE OF PERSONALIZED REGRESSION TO PREDICT PREFERENCE GIVEN BY USER OF ITEM TO THE ITEM AND COMPUTING APPARATUS USING THE SAME}
본 발명은 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것으로, 보다 상세하게는, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하고,
Figure 112017015363707-pat00001
를 최소화하는
Figure 112017015363707-pat00002
(u∈U, i∈I)를 추정하여 평균
Figure 112017015363707-pat00003
의 추정량
Figure 112017015363707-pat00004
을 구하되, U는 상기 개별 이용자의 집합을 지칭하며, I는 상기 개별 품목의 집합을 지칭하고, rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며, λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고, λI는 I에 관한 조율 모수를 지칭하며, 다음으로, 상기 평균 μui의 추정량
Figure 112017015363707-pat00005
을 이용하여 잔차
Figure 112017015363707-pat00006
를 계산하고, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
Figure 112017015363707-pat00007
를 추정하며, 상기 잔차를 이용하여 행렬 φ을 추정하고, 추정된 상기
Figure 112017015363707-pat00008
및 상기 φ로부터 공분산 행렬
Figure 112017015363707-pat00009
을 산출하며, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
Figure 112017015363707-pat00010
를 산출하는 방법 및 이를 이용한 컴퓨팅 장치에 관한 것이다.
추천 시스템의 정의
추천 시스템(Recommender System; RS)은 이용자가 이용할 품목을 제안하는 소프트웨어 기술 및 도구를 지칭하는 용어이다. 그러한 제안은 다양한 결정 과정, 예컨대 어떤 품목을 구입할 것인지, 어떠한 음악을 들을 것인지, 어떠한 온라인 뉴스를 읽을 것인지와 같은 결정을 하는 과정에 관한 것이다. 여기에서 품목(item)이라 함은 추천 시스템이 이용자들에게 추천하는 대상을 지칭하는 데 이용되는 일반적인 용어로서, 유무형의 특정 상품 종류에 한하지 않고, 어떠한 다양한 항목도 이용자가 선택할 대상이 되는 것이라면 품목의 개념에 포함된다.
추천 시스템은 보통 특정 유형의 품목에 초점을 두고 있으므로, 추천 시스템의 디자인, 그래피컬 사용자 인터페이스(graphical user interface) 및 핵심 추천 기술은 그러한 특정 유형의 품목의 유용하고 효과적인 제안 사항을 제공하도록 커스터마이징(customizing)된다.
보다 학문적인 정의에 따르면, 추천 시스템이라고 함은 (음악, 책, 영화 등과 같은) 품목 또는 (사람 또는 인맥과 같은) 사회적 요소에 대하여 이용자가 부여할 선호도(rating 혹은 preference)를 예측하고자 하는 정보 정화 시스템(information filtering system)의 하위 분류(subclass)를 지칭하며, 이 추천 시스템은 품목의 특성이나 이용자의 사회적 환경에 기초하여 세워진 모델을 이용한다. 품목의 특성을 고려하는 전자의 접근법을 콘텐츠 기반 접근법(content-based approach)이라고 하는 반면에 사회적 환경을 고려하는 후자의 접근법을 협력적 정화 접근법(collaborative filtering approach)라고 한다. 보통, 협력적 정화 접근법은 이미 평가가 이루어진 선호도의 데이터를 기반으로 이루어진다.
이와 같은 추천 시스템의 개념이 대두되어 실제로 산업상 이용되기 시작한 것은 인터넷과 같은 미디어를 통하여 다량의 선호도 정보를 입수할 수 있게 된 때부터이다. 인터넷을 매개로 하지 않는 재래의 상점(이른바 “bricks and mortar” 상점)은 선호도에 대한 다량의 정보를 입수할 수 없었으므로, 선호도에 대한 제한적인 정보만을 가지고 특정 이용자의 선호도를 합리적으로 예측하는 것이 불가능했다{이른바 롱테일 현상(long tail phenomenon)}. 인터넷이 대중화된 다음에야 비로소 지금까지 과거 10여년 동안 다양한 추천 방법이 개발되어 실무에 적용되어 온 것이다.
종래의 콘텐츠 기반 접근법
앞서 언급한 콘텐츠 기반 접근법은 이용자가 선호하는 품목과 비슷한 콘텐츠의 품목을 추천하는 방식이다. 이 경우에, 품목들 간의 유사도를 측정하는 것이 중요하게 된다.
콘텐츠 기반 접근법의 하나로 TF-IDF(Term Frequency - Inverse Document Frequency; 용어 빈도 - 문서 빈도 역수) 방법이 있다. 이는 품목들의 내용이 문서의 형태로 되어 있을 때, 각 품목의 내용을 수치화하는 방식이다. 여기에서 TF(Term Frequency; 용어 빈도)는 다음과 같다.
Figure 112017015363707-pat00011
여기에서 freq(i, k)는 k번째 문서에 포함된 키워드 i의 빈도수이며, maxOthers(i, k)는 k번째 문서에 포함된 키워드 i를 제외한 빈도수의 최대값을 의미한다. 또한, IDF(Inverse Document Frequency; 문서 빈도 역수)는 다음과 같다.
Figure 112017015363707-pat00012
여기에서 N은 전체 문서의 수, 즉 품목의 개수이며, n(i)는 키워드 i를 포함하고 있는 문서의 수이다. 만약 어떤 키워드가 여러 문서에 자주 나온다면, 중요하지 않은 것으로 취급할 필요가 있으므로, 이를 반영한 IDF(i) 인수를 곱하는 것이다. 예컨대 정관사 the와 같은 키워드는 중요하지 않은 것이다. 이제 TF와 IDF를 모두 고려한 TF-IDF는 다음과 같다.
Figure 112017015363707-pat00013
이를 이용하여 품목마다 그 품목에 대응되는 문서에 제공된 모든 키워드를 이용하여 TF-IDF 벡터를 만들 수 있다. 이를 이용하여 품목 간의 유사도를 측정할 수 있는데, 그 유사도로서는 주로 피어슨 상관 계수 또는 코사인 거리(cosine distance)를 활용한다.
이러한 콘텐츠 기반 접근법은 다른 이용자의 정보나 선호도 평가 내역이 요구되지 않으며, 새로이 추가된 품목에 대하여도 추가적인 통계 자료 수집 없이 즉시 추천이 가능하다는 장점이 있다. 하지만, 콘텐츠 기반 접근법은 문서의 형태로 명시된 특징만을 다룰 수 있으며, 질적인 부분을 잘 포착해내지 못한다는 단점이 있다. 게다가, 추천하는 품목이 비슷한 유형(장르)에 한정되기도 한다. 예를 들어 로맨스 영화를 좋아하는 이용자에게 로맨스 영화만을 추천하는 경우이다.
종래의 협력적 정화 접근법
근자에 들어서 콘텐츠 기반 접근법보다 협력적 정화 접근법이 더 널리 이용되고 있는데, 그 이유는 협력적 정화 방법은 품목의 선호도 간의 통계적 연관성만을 기초로 추천하기 때문에 특정 품목 유형의 벽을 넘어서는 다양한 품목을 추천할 수 있기 때문이다. 예컨대, 협력적 정화 방법에 따르면, 로맨스 영화를 선호하는 이용자에게 영화가 아닌 특정 자동차를 추천하는 것이 가능하다.
협력적 정화 방법은 크게 최근접 방법(NN; Nearest Neighborhood)과 행렬 분해 방법(MF; Matrix Factorization)으로 분류할 수 있다. 행렬 분해 방법(MF 방법)은 여러 가지 면에서 최근접 방법(NN 방법)에 비하여 선호되고 있다. 왜냐하면 MF 방법이 NN 방법에 비하여 예측력이 우수할 뿐만 아니라 좋은 해석력 및 확장가능성을 가지고 있기 때문이다. 특히, 과거 넷플릭스(Netflix)의 추천 시스템 경진 대회에서도 MF 방법을 기반으로 개발된 추천 시스템이 우승을 한 사실이 있다. 현재, 선호도 기반의 추천 시스템의 주류는 MF 방법이라고 할 수 있다.
그런데, 전술한 MF 방법에도 상당한 약점이 있다.
첫째, 모수의 추정을 위하여 반복적 최적화를 수행하는데, 이는 대상 자료의 양이 많은 경우에는 계산량이 크게 증가하는 단점이 있다. 특히, 부가 정보(예컨대, 선호도 외에 고객의 인구 통계학적 정보 등)나 맥락 정보{콘텍스트(context, 상황) 정보, 선호도 정보를 얻었을 때의 맥락 정보, 예컨대 집에서 보는 영화와 극장에서 보는 영화는 선호도가 상이할 수 있는데, 이 경우에 영화를 보는 장소가 맥락 정보가 됨} 등을 반영하는 방법들을 막대한 계산량을 요한다.
두 번째, MF의 예측력이 최적은 아니라는 것이다. 추천 시스템은 기본적으로 예측을 잘 하고자 하는 문제이고, 이러한 예측에 최적화된 방법은 회귀 모형이다. 이에 비하여 MF 방법은 통계학의 요인 분석에 대응되는 방법인데, 이러한 요인 분석은 예측에 최적화되어 있지는 않다는 것은 널리 잘 알려져 있는 사실이다.
이에, 본 발명자는, 종래의 추천 시스템에 이용되던 방법 및 시스템에 비하여 우수한 성능을 가지면서도 계산량을 절감할 수 있는 추천 시스템 구성 방법 및 시스템을 제안하고자 한다.
본 발명은 상술한 종래의 추천 시스템이 가지는 단점을 해결하는 것을 목적으로 한다.
구체적으로, 본 발명은 이용자 개인별로 상이한 회귀 모형을 적용하여 선호하는 품목을 예측하는 것을 목적으로 한다. 이러한 방법을 개인화 회귀 모형(Personalized Regression; PR) 방법이라고 한다. PR 방법은 개인별로 여러 품목에 대한 선호도 정보를 다변량 정규 분포라고 가정을 한 후에, 다변량 정규 분포의 모수인 평균과 분산을 적률 추정량으로 추정을 하고, 이를 바탕으로 개인별 회귀 모형을 구축한다. 특히, 개인별 선호도가 관측되는 상품들의 종류가 상이하기 때문에 이용자 개인별로 상이한 회귀 모형이 적용된다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한, 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 품목(item)의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화(filtering; 필터링)하는 방법이 제공되는바, 그 방법은, (a) 컴퓨팅 장치가, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하는 단계; (b) 상기 컴퓨팅 장치가,
Figure 112017015363707-pat00014
를 최소화하는
Figure 112017015363707-pat00015
(u∈U, i∈I)를 추정하여 평균
Figure 112017015363707-pat00016
의 추정량
Figure 112017015363707-pat00017
을 구하는 단계로서, U는 상기 개별 이용자의 집합을 지칭하며, I는 상기 개별 품목의 집합을 지칭하고, rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며, λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고, λI는 I에 관한 조율 모수를 지칭하는 단계; (c) 상기 컴퓨팅 장치가, 상기 평균 μui의 추정량
Figure 112017015363707-pat00018
을 이용하여 잔차
Figure 112017015363707-pat00019
를 계산하는 단계; (d) 상기 컴퓨팅 장치가, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
Figure 112017015363707-pat00020
를 추정하는 단계; (e) 상기 컴퓨팅 장치가, 상기 잔차를 이용하여 행렬 φ을 추정하는 단계; (f) 상기 컴퓨팅 장치가, 추정된 상기
Figure 112017015363707-pat00021
및 상기 φ로부터 공분산 행렬
Figure 112017015363707-pat00022
을 산출하는 단계; 및 (g) 상기 컴퓨팅 장치가, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
Figure 112017015363707-pat00023
를 산출하는 단계를 포함한다.
본 발명의 다른 태양에 따르면, 품목(item)의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화(filtering; 필터링)하는 컴퓨팅 장치가 제공되는바, 그 컴퓨팅 장치는, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하는 통신부; 및
Figure 112017015363707-pat00024
를 최소화하는
Figure 112017015363707-pat00025
(u∈U, i∈I)를 추정하여 평균
Figure 112017015363707-pat00026
의 추정량
Figure 112017015363707-pat00027
을 구하는 프로세서를 포함하되, U는 상기 개별 이용자의 집합을 지칭하며, I는 상기 개별 품목의 집합을 지칭하고, rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며, λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고, λI는 I에 관한 조율 모수를 지칭하며, 상기 프로세서는, 상기 평균 μui의 추정량
Figure 112017015363707-pat00028
을 이용하여 잔차
Figure 112017015363707-pat00029
를 계산하고, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
Figure 112017015363707-pat00030
를 추정하며, 상기 잔차를 이용하여 행렬 φ을 추정하고, 추정된 상기
Figure 112017015363707-pat00031
및 상기 φ로부터 공분산 행렬
Figure 112017015363707-pat00032
을 산출하며, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
Figure 112017015363707-pat00033
를 산출한다.
본 발명의 방법에 의하면, 추천 시스템의 예측력이 우수해지는 동시에 계산량이 현저히 적어지는 효과가 있다. 특히, PR 방법에서 이용하는 적률 추정 방법은 선호도 간의 상관 계수를 기초로 모수를 추정하는 방법이므로, 한번의 데이터베이스 스캔(DB scan)으로도 추정이 가능하게 되어 MF 방법에서 사용되는 반복적인 계산이 필요 없게 된다.
또한, 본 발명에 의하면, 추천 시스템의 확장성이 우수하게 되어, 부가 정보나 맥락 정보 등을 쉽게 모형에 반영할 수 있게 되며, 관련 모수도 반복적인 계산 없이 용이하게 계산할 수 있는 효과가 있다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 사람(이하 “통상의 기술자”라 함)에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명에 따라 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하기 위한 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 2는 본 발명에 따라 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하기 위한 방법을 예시적으로 나타낸 흐름도이다.
도 3은 주어진 이용자와 품목들에 대한 선호도가 비슷한 이용자들을 조사하여 그 이용자들이 선호하는 상품 중 주어진 고객이 선호할 것으로 예상되는 품목을 추천하는 방식인 최근접 방법을 개념적으로 도시한 도면이다.
도 4는 행렬 분해 방법을 간략하게 보여주는 도면이다.
도 5는 행렬 분해 방법을 적용한 구체적인 일 예시를 보여주는 도면이다.
도 6은 다원적 추천 시스템에서 다차원의 텐서를 분해하는 방식을 간략하게 보여주는 도면이다.
도 7은 분해 기계(factorization machine) 추천 시스템을 적용한 일 예시를 보여주는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, ‘포함하다’라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 명세서에서 달리 표시되거나 분명히 문맥에 모순되지 않는 한, 단수로 지칭된 항목은, 그 문맥에서 달리 요구되지 않는 한, 복수의 것을 아우른다. 이하, 통상의 기술자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
본 발명의 몇몇 실시예는 전자 상거래 시스템 및/또는 현재 알려져 있거나 향후 개발될 기타 거래 추천 시스템 상에서 구현될 수 있다. 본 발명의 추천 시스템들은 전형적으로 컴퓨터 하드웨어(예컨대, 컴퓨터 프로세서, 메모리, 스토리지, 입력 장치 및 출력 장치, 기타 기존의 컴퓨터 시스템의 구성요소들을 포함할 수 있는 클라이언트 컴퓨터 및 서버 컴퓨터; 전자 통신선, 라우터, 스위치 등등과 같은 전자 통신 장치; 네트워크 부착 스토리지(NAS) 및 스토리지 영역 네트워크(SAN)와 같은 전자 정보 스토리지 시스템)와 컴퓨터 소프트웨어{즉, 컴퓨터 하드웨어로 하여금 특정의 방식으로 기능하게 하는 지시(instruction)들}의 조합을 활용하여 원하는 시스템 성능을 달성한다.
도 1은 본 발명에 따라 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하기 위한 방법을 수행하는 컴퓨팅 장치의 예시적 구성을 개략적으로 도시한 개념도이다.
도 1에는 본 발명에 따른 방법을 수행하는 컴퓨팅 장치(100)가 도시되는바, 컴퓨팅 장치(100)는 통신부(110) 및 프로세서(120)를 포함한다. 컴퓨팅 장치(100)는 본 발명의 방법에 따라 데이터를 획득하고, 이를 처리하여 원하는 추천 정보를 사용자들에게 제공할 수 있다. 아래에서 상술되는 바와 같이 본 발명의 방법이 컴퓨터 하드웨어 및 소프트웨어의 조합을 활용하여 구현될 것이라는 점은 통상의 기술자는 용이하게 이해할 것인바, 컴퓨팅 장치(100)는 아래에서 설명하는 방법들을 구현할 수 있다는 점이 이해될 것이다.
최근접 방법
최근접 방법은 이용자 개인의 선호도와 과거 품목 선택 이력을 분석하여 이용자 개인에게 최적인 품목을 추천하는 방법이다.
도 3은 주어진 이용자와 품목들에 대한 선호도가 비슷한 이용자들을 조사하여 그 이용자들이 선호하는 상품 중 주어진 고객이 선호할 것으로 예상되는 품목을 추천하는 방식인 최근접 방법을 개념적으로 도시한 도면이다.
최근접 방법에는 고객 중심의 협력적 정화 방법과 상품 중심의 협력적 정화 방법이 있는데, 설명의 편의상, 본 명세서에서는 상품 중심의 협력적 정화 방법에 대하여만 다루기로 한다.
최근접 방법에서 가장 먼저 수행하는 것은 고객들 사이의 선호도 패턴의 유사성을 측정하는 단계이다. 여기에서 rui는 u번째 이용자의 i번째 품목에 대한 선호도이며, Oij는 품목 i와 j에 대한 선호도가 모두 관측된 이용자들의 집합이고,
Figure 112017015363707-pat00034
Figure 112017015363707-pat00035
는 각각 품목 i와 품목 j에 대하여 관측된 선호도들의 평균을 지칭한다. 아래에서 소개되는 모든 방법들에 대하여 이와 동일한 표기법을 이용하도록 한다. 품목 i와 j의 유사도(similarity)인 s(i,j)는 주로 피어슨 상관 계수(Pearson correlation coefficient) 또는 코사인 거리(cosine distance similarity)를 이용한다. 피어슨 상관 계수는
Figure 112017015363707-pat00036
로 표현되며, 코사인 거리는
Figure 112017015363707-pat00037
로 표현된다.
최근접 방법에서 다음으로 수행하는 것은 상기 유사도를 이용하여 관측되지 않은 선호도를 추정하는 단계이다. 여기에서의 표기법은 다음과 같다.
Figure 112017015363707-pat00038
Figure 112017015363707-pat00039
또한,
Figure 112017015363707-pat00040
는 RI(u)에 속한 품목 중에서 품목 i와 유사도가 높은 k개의 품목들의 집합을 지칭한다. 품목 i와 선호도 패턴이 비슷한 품목들을 이용하여 관측되지 않은 선호도를 추정할 수 있다. 그 추정값은 다음과 같이 표현할 수 있다.
Figure 112017015363707-pat00041
, 여기에서
Figure 112017015363707-pat00042
이다. 또는,
Figure 112017015363707-pat00043
일 수 있다. 이제, μui를 추정해야 하는바,
Figure 112017015363707-pat00044
를 최소화하는 값을
Figure 112017015363707-pat00045
로 추정할 수 있다. 여기에서
Figure 112017015363707-pat00046
은 유클리드 거리를 지칭하는 연산자이다. 구체적으로 예시를 들어 설명하자면 다음과 같다.
매트릭스 타이타닉 다이하드 포레스트 검프 월-E
5 1 2 2
루시 1 5 2 5 5
에릭 2 3 5 4
다이애나 4 3 5 3
위의 표 1에서 타이타닉과 가장 유사도가 높은 두 영화가 포레스트 검프와 월-E라고 하자. 여기에서 타이타닉과 포레스트 검프의 유사도는 0.85이며, 타이타닉과 월-E의 유사도는 0.75이다. 그러면 k=2일 때,
Figure 112017015363707-pat00047
이다. 단, 여기에서
Figure 112017015363707-pat00048
는 모두 0으로 추정되었다고 가정하였다.
이러한 최근접 방법은 자료의 성김(sparsity)으로 인하여 유사도의 측정이 어렵다는 단점이 있다. 달리 말하자면, 어떠한 두 품목의 선호도를 모두 평가한 이용자의 수가 적어서 유사도의 측정이 어려운 경우가 많다. 또한 최근접 방법은 고객의 인구 통계학적 정보나 품목의 콘텐츠 정보를 분석에 이용하기가 어렵다. 또한 새로운 이용자나 새로운 품목에 대한 추천이 어렵다. 이를 냉시동 문제(cold start problem)라고 일컫기도 한다. 이에 대한 한 가지 대안은 회귀 모형을 이용한 협력적 정화 방법을 채택하는 것이다.
전역 근접 방법
전역 근접(global neighborhood) 방법은 기존의 협력적 정화 방법을 개량한 것이다. 기존의 협력적 정화 방법에서의 선호도 예측식은 다음과 같이 쓸 수 있다.
Figure 112017015363707-pat00049
, 여기에서
Figure 112017015363707-pat00050
이다. 이를 보다 간단하게 만들기 위하여
Figure 112017015363707-pat00051
를 RI(u)로 바꾸고,
Figure 112017015363707-pat00052
를 wij로 바꾸면 다음과 같다.
Figure 112017015363707-pat00053
(1),
그리고
Figure 112017015363707-pat00054
.
이제
Figure 112017015363707-pat00055
를 구하려면 모수
Figure 112017015363707-pat00056
및 wij들을 추정하여야 한다. 그 추정의 방법은 다음과 같다. 우선,
Figure 112017015363707-pat00057
를 최소화하는
Figure 112017015363707-pat00058
(u∈U,i∈I) 값들을 추정한다. 여기에서 λU 와λI는 조율 모수(tuning parameter)이다. 그리고 그 추정된
Figure 112017015363707-pat00059
값을 식 (1)에 대입한 후에
Figure 112017015363707-pat00060
를 최소화하는 wij(i,j∈I) 값들을 추정한다. 여기에서 λW는 조율 모수다. 본 명세서에서 언급된 조율 모수는 교차 검증법(cross validation)에 의하여 구해질 수 있는 등 조율 모수를 구할 수 있는 방법은 통상의 기술자에게 잘 알려져 있는바 더 상세한 설명은 생략하도록 한다. 이로써
Figure 112017015363707-pat00061
를 구할 수 있을 것이다.
가중 전역 근접 방법
가중 전역(weighted global) 최근접 방법은 전술한 전역 근접 방법에서 약간 변형된 형태의 것이다. 실험적으로는 더 좋은 성능을 내는 것이 입증되었다. 가중 전역 근접 방법의 모형식은 다음과 같다.
Figure 112017015363707-pat00062
(2),
그리고
Figure 112017015363707-pat00063
.
이 가중 전역 근접 모형의 모수 추정 방법은 전술한 전역 근접 모형에서의 방법과 완전히 동일하다. 다시 한번 언급하자면,
Figure 112017015363707-pat00064
를 최소화하는
Figure 112017015363707-pat00065
(u∈U,i∈I) 값들을 추정한다. 여기에서 λU 와λI는 조율 모수다. 이 추정된
Figure 112017015363707-pat00066
값을 식 (2)에 대입한 후에,
Figure 112017015363707-pat00067
를 최소화하는 wij(i,j∈I) 값들을 추정한다. 여기에서 λW는 조율 모수다.
전역 근접 방법과 가중 전역 근접 방법은 모수의 수가 많다는 문제가 있다. 모수의 수는 품목 수의 제곱에 달한다. 게다가 자료의 성김으로 인하여 모수의 추정이 어렵다는 점은 여전히 문제이다.
행렬 분해 방법
행렬 분해 방법은 선호도 행렬을 두 행렬로 분해하여 평가되지 않은 선호도를 추정하는 방법이다.
도 4는 행렬 분해 방법을 간략하게 보여주는 도면이다.
예시적으로 도 4를 참조하면, 좌측에 선호도 행렬(혹은 평점 행렬; Rating Matrix)이 도시되어 있으며, 이는 이용자에 대응되는 이용자 행렬(User Matrix)과 품목에 대응되는 품목 행렬(Item Matrix)의 곱으로 표현되어 있다. 이러한 분해를 통하여 빨간 동그라미 안에 들어갈 선호도를 추정할 수 있다.
행렬분해 방법의 모형식은 다음과 같이 둘 수 있다.
Figure 112017015363707-pat00068
Figure 112017015363707-pat00069
여기에서
Figure 112017015363707-pat00070
(
Figure 112017015363707-pat00071
)는 k가지의 품목 잠재 요인에 대한 이용자 u의 선호도,
Figure 112017015363707-pat00072
(
Figure 112017015363707-pat00073
)는 k가지의 품목 잠재 요인에 대한 품목 i의 구성 정도를 지칭한다. 설명을 위하여 예시를 들면, 품목이 영화인 경우에, 품목 잠재 요인은 영화의 장르로 해석될 수 있다. 참고로, 영화를 예시로 든 행렬분해는 도 5에 개략적으로 도시되었다. 도 5를 참조하면, 이용자 요인 행렬과 품목 요인 행렬의 각 행, 각 열에 대하여 액션(action), 코미디(comedy), 호러(horror), 스릴러(thriller)의 장르가 대응되는 것으로 표시되어 있다. 이러한 장르 정보는 미리 제시된 것이 아니라 행렬분해 방법의 시행에 의하여 획득된 각각의 행렬들에 대하여 분석해 본 결과로 얻어진 정보이다.
행렬분해 방법의 모수 추정 방법은 다음과 같다. 우선,
Figure 112017015363707-pat00074
를 최소화하는
Figure 112017015363707-pat00075
(u∈U,i∈I) 값들을 추정한다. 여기에서 λU와 λI는 조율 모수다. 다음으로, 추정된
Figure 112017015363707-pat00076
값을 대입하여,
Figure 112017015363707-pat00077
를 최소화하는
Figure 112017015363707-pat00078
(u∈U,i∈I) 값들을 추정한다. 여기에서
Figure 112017015363707-pat00079
일 때,
Figure 112017015363707-pat00080
가 되도록
Figure 112017015363707-pat00081
를 잡았다.
이러한 행렬 분해 방법(MF 방법)은 여러 가지 면에서 최근접 방법(NN 방법)에 비하여 선호되고 있다. 왜냐하면 MF 방법이 NN 방법에 비하여 예측력이 우수할 뿐만 아니라 좋은 해석력 및 확장가능성을 가지고 있기 때문이다. 특히, 과거 넷플릭스(Netflix)의 추천 시스템 경진 대회에서도 MF 방법을 기반으로 개발된 추천 시스템이 우승을 한 사실이 있다. 현재, 선호도 기반의 추천 시스템의 주류는 MF 방법이라고 할 수 있다.
하이브리드 방법
하이브리드 방법은 전술한 회귀 모형을 이용한 방법과 행렬분해 방법을 결합한 방법이다. 전술한 행렬분해 방법의 모형식은 다음과 같다.
Figure 112017015363707-pat00082
Figure 112017015363707-pat00083
그런데, 대부분의 경우에, 이용자의 수가 품목의 수보다 훨씬 많기 마련이다. 즉, |U|≫|I|이다. 이때,
Figure 112017015363707-pat00084
를 알아내기 위하여 |U|×k개의 모수를 추정하는 것을 비효율적이다. 따라서,
Figure 112017015363707-pat00085
를 직접 추정하지 않고
Figure 112017015363707-pat00086
에 회귀 모형을 적용하는 것이 유리할 것이다.
그렇다면,
Figure 112017015363707-pat00087
이고, 여기에서
Figure 112017015363707-pat00088
이다. 이 경우에는 모수의 개수가 |U|×k에서 줄어들어 2×|I|×k가 될 수 있다. 이러한 하이브리드 방법의 모형식은 다음과 같다.
Figure 112017015363707-pat00089
Figure 112017015363707-pat00090
이때, 모수 추정의 방법은 다음과 같다. 우선,
Figure 112017015363707-pat00091
를 최소화하는
Figure 112017015363707-pat00092
(u∈U,i∈I) 값들을 추정한다. 여기에서 λU와 λI는 조율 모수다. 다음으로, 추정된
Figure 112017015363707-pat00093
값을 대입하여,
Figure 112017015363707-pat00094
를 최소화하는
Figure 112017015363707-pat00095
(i∈I) 값들을 추정한다.
부가 정보를 이용한 협력적 정화 방법
더 진보한 추천 시스템 방법론은 부가 정보를 이용하는 것인바, 구체적으로 설명하자면, 기존의 선호도 자료에 이용자나 품목에 대한 부가 정보를 이용하여 추천 시스템을 구축할 경우에 새로운 이용자나 품목이 나타나는 상황(이른바, 냉시동 문제)에서도 추천을 할 수 있다는 장점이 있다.
부가 정보를 이용한 최근접 방법
최근접 방법에서는 μui에 이용자와 품목의 정보를 반영할 수 있다. 설명의 편의를 위하여,
Figure 112017015363707-pat00096
는 이용자 u의 부가 정보(예컨대, 나이, 성별 등)를 지칭하고,
Figure 112017015363707-pat00097
는 품목 i의 부가 정보(예컨대, 가격, 브랜드 등)를 지칭한다. 여기에서 부가 정보라고 함은 수치화된 것을 지칭하는바, 상기한 부가 정보의 예시들, 예컨대 나이, 성별, 가격과 같은 수치 정보뿐만 아니라 브랜드와 같은 범주(category) 데이터 또한 수치화될 수 있음은 통상의 기술자가 잘 이해할 수 있을 것이다. 그렇다면, 아래와 같이 μui에 이용자와 품목의 부가 정보를 반영할 수 있으며, 모수 추정 및 선호도 예측은 전술한 바와 같으므로 반복을 피하기 위하여 생략하기로 한다.
Figure 112017015363707-pat00098
Figure 112017015363707-pat00099
맥락 인식 추천 시스템
앞서 언급된 추천 시스템은 실제 이용자의 상황을 전혀 고려하지 않고 있다. 실제 상황에서는 이용자의 선호도 평가에 영향을 미치는 변수들이 존재한다. 예를 들면, 이용자의 기분 상태나 시각 등을 들 수 있다. 만약 이용자 A가 기분이 좋을 때에는 코믹 영화를 추천할 수 있을 것이며, 주말 저녁에 여자 친구가 있는 이용자 B에게는 멜로 영화를 추천해줄 수도 있을 것이다. 이와 같이 특정 품목이 주어졌을 때, 이용자의 평가에 영향을 미칠 수 있는 다른 변수들을 맥락(context, 상황)이라고 정의 내릴 수 있다. 이러한 맥락을 고려하도록 하는 것이 더욱 더 좋은 성능을 내는 추천 시스템을 만드는 것이다.
다원적 추천 시스템
기존의 추천 시스템의 경우에 선호도 자료는 2차원 행렬이었지만, 맥락을 고려하는 경우에는 이용자, 품목, 그리고 m개의 맥락이 있는 m+2차원 텐서를 이용한다. 기존의 행렬분해 방법을 확장하면 다차원의 텐서를 분해하여 추천 모형을 만들 수 있다. 그렇게 확장된 방법으로는 고차(high order) SVD가 있다.
도 6은 다원적 추천 시스템에서 다차원의 텐서를 분해하는 방식을 간략하게 보여주는 도면인바, 즉, 고차 SVD가 개념적으로 도시되어 있다. 이 경우는 텐서를 이용자, 영화(품목), 맥락에 대하여 분해하는 것이다. 이 다원적(multiverse) 추천 시스템의 모형식은 다음과 같다.
Figure 112017015363707-pat00100
다원적 추천 시스템의 모수 추정 방법은 벌점 함수가 추가된 목표 함수를 최소화하는 모수 값들을 추정하는 것이다. 즉, 그 문제는,
Figure 112017015363707-pat00101
이다. 여기에서
Figure 112017015363707-pat00102
이며, Jλ(θ)는 벌점 함수를 지칭한다.
이러한 다원적 추천 시스템은 성능이 좋지만 계산 속도가 매우 느리다는 문제가 있다. 통상의 행렬 계산은 매우 많은 계산 자원을 소비하는데, 여기에서는 심지어 고차원 텐서를 대상으로 하고 있는 것이다.
분해 기계 추천 시스템
이에 대한 대안으로서, 분해 기계(factorization machine) 추천 시스템이 이용되기도 한다. 이는 계산 속도가 다원적 추천 시스템보다 월등히 빠르면서 크게 떨어지지 않는 성능을 보장한다. 다원적 추천 시스템과 달리 맥락의 가지 수가 증가할 때마다 텐서의 차원이 하나씩 높아지는 것이 아니라 행렬의 열의 수가 증가한다. 결국, 행렬이 2차원으로 유지되기 때문에 비교적 빠른 계산이 보장된다.
도 7을 참조하여 하나의 예시를 설명하고자 한다. 도 7은 분해 기계(factorization machine) 추천 시스템을 적용한 일 예시를 보여주는 도면이다. 이 예시에는 2가지의 맥락이 존재한다. 그 2가지 맥락은 이용자의 현재 기분 상태와 이용자와 함께 본 사람의 가중치(weight) 벡터이다. 설명을 위하여 다음과 같은 표기법을 이용하기로 한다.
U={Alice, Bob, Charlie}
I={Titanic, Notting Hill, Star Wars, Star Trek}
C1={Sad, Normal, Happy}
C2: 해당 이용자와 함께 본 사람의 가중치 벡터
즉, U는 이용자의 집합으로서, 앨리스(Alice; A), 밥(Bob; B) 및 찰리(Charlie; C)가 여기에 포함된다. 또한 I는 품목의 집합으로서, 이 예시에서는 영화의 집합이다. 타이타닉(Titanic; TI), 노팅힐(Notting Hill; NH), 스타워즈(Star Wars; SW) 및 스타트렉(Star Trek; ST)이 여기에 포함된다. 그리고 C1은 이용자의 기분 상태의 집합으로서, 슬픔(Sad; S), 보통(Normal; N) 및 행복함(Happy; H)이 여기에 포함된다. 도 7에서는 추천 시스템이 이용할 데이터(recommender data)와 이로부터 계산된 특징 벡터(feature vector) 및 표적(target)이 도시되어 있다.
분해 기계 추천 시스템의 모형식은 다음과 같다.
Figure 112017015363707-pat00103
Figure 112017015363707-pat00104
분해 기계 추천 시스템의 모수 추정 방법은
Figure 112017015363707-pat00105
를 최소화하는
Figure 112017015363707-pat00106
값들을 추정하는 것이다. 여기에서 Jλ(θ)는 벌점 함수이며, 여기에서
Figure 112017015363707-pat00107
,
Figure 112017015363707-pat00108
,
Figure 112017015363707-pat00109
이다.
개인화 회귀 분석 방법(Personalized Regression)
이제, 이와 같은 종래 추천 시스템에 관한 이해를 바탕으로 하여 본 발명에 따른 추천 시스템을 설명하기로 한다.
도 2는 본 발명에 따라 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하기 위한 방법, 즉 본 발명에 따른 추천 시스템의 방법을 예시적으로 나타낸 흐름도이다.
도 2를 참조하면, 본 발명의 방법은, 컴퓨팅 장치(100)가, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하는 단계(S210)를 포함한다.
문맥에서 달리 언급되지 않는 한, 본 명세서의 일 실시예에 대하여 설명하는 표기법은 다른 실시예에 대하여도 이용되는바, 이는 표기법에 대한 반복적인 설명을 생략하기 위한 것이다. 앞서 이용한 표기법과 마찬가지로, Rui는 이용자 u가 품목 i에 대하여 평가한 선호도를 나타내는 확률변수를 지칭하며, rui는 Rui의 관측값을 지칭하고,
Figure 112017015363707-pat00110
는 이용자 u에 대한 선호도 확률 벡터를 지칭한다. U는 상기 개별 이용자의 집합을 지칭하며, I는 상기 개별 품목의 집합을 지칭하는바, 여기에서 u∈U, i∈I이다. λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고, λI는 I에 관한 조율 모수를 지칭한다.
여기에서 확률 벡터 Ru는 서로 독립인 확률 벡터이며, 평균이
Figure 112017015363707-pat00111
, 분산이 Σu이다(가정; assumption). 만약 μu와 Σu를 알고 있다고 가정하면, 선호도 자료가 주어졌을 때, Rui의 조건부 기대값
Figure 112017015363707-pat00112
는 다음과 같다. 여기에서 μu는 μu = (μui, i = 1, 2, …, I)를 의미하는 표기법이다.
Figure 112017015363707-pat00113
여기에서 쓰인 표기법을 더 설명하자면,
Figure 112017015363707-pat00114
,
Figure 112017015363707-pat00115
, 그리고
Figure 112017015363707-pat00116
,
Figure 112017015363707-pat00117
이며, σuij는 Σu의 (i, j) 번째 원소를 의미하는 것이다. 이와 같은 조건부 기대값은 두 무작위(random) 벡터 X, Y에 대하여 (X, Y)가 다변량 정규분포를 따를 때 조건부 기대값 E(X|Y=y)에 대한 공식을 적용하여 바로 도출된다.
따라서 μu와 Σu를 추정함으로써 관측되지 않은 선호도를 모두 추정할 수 있다. 이에 따른 모멘트 접근법(method of moment approach) 모형식은 다음과 같다.
Figure 112017015363707-pat00118
, Ru는 서로 독립.
Figure 112017015363707-pat00119
,
Figure 112017015363707-pat00120
.
여기에서 α0는 모든 선호도 값에 대한 전체 평균 효과에 대응되며,
Figure 112017015363707-pat00121
는 품목 i의 선호도 값에 대한 평균 효과에 대응되고,
Figure 112017015363707-pat00122
는 이용자 u의 선호도 값에 대한 평균 효과에 대응된다. 따라서 평균 μui에 대한 식은 모든 이용자와 품목들에 대한 전체 평균 효과 α0, 품목 i에 대한 평균 효과
Figure 112017015363707-pat00123
, 이용자 u에 대한 평균 효과
Figure 112017015363707-pat00124
의 합으로 나타난다고 모형화한 것이다. 이는, 직관적으로 선호도는 각각의 이용자마다 평균이 다르고, 각각의 품목마다도 평균이 다르므로, 그 효과를 모형화한 것이다.
또한,
Figure 112017015363707-pat00125
는 각 이용자(u)별 선호도 산포를 지칭하며, φ의 (j, k) 번째 원소인 φjk는 품목 j의 선호도와 품목 k의 선호도 사이의 상관 계수를 의미한다.
이제 모멘트 접근법에서의 모수 추정 방법을 적용한다.
다시 도 2를 참조하면, 본 발명의 방법은, 획득된 상기 선호도의 데이터들을 이용하여, 상기 컴퓨팅 장치(100)가,
Figure 112017015363707-pat00126
를 최소화하는
Figure 112017015363707-pat00127
를 추정하여 평균
Figure 112017015363707-pat00128
의 추정량
Figure 112017015363707-pat00129
을 구하는 단계(S220)를 더 포함한다.
다음으로, 본 발명의 방법은, 상기 컴퓨팅 장치(100)가, 상기 평균 μui의 추정량
Figure 112017015363707-pat00130
을 이용하여 잔차
Figure 112017015363707-pat00131
를 계산하는 단계(S230), 및 상기 컴퓨팅 장치(100)가, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
Figure 112017015363707-pat00132
를 추정하는 단계(S240)를 더 포함한다.
바람직하게는, 단계(S240)에서
Figure 112017015363707-pat00133
의 추정은, 이용자 u의 선호도의 표본 분산인 추정량
Figure 112017015363707-pat00134
또는, 축소 추정량(shrinkage estimator)
Figure 112017015363707-pat00135
를 이용하여 수행할 수 있다. 여기에서
Figure 112017015363707-pat00136
이며,
Figure 112017015363707-pat00137
이고, qσ는 조율 모수를 지칭하는 것으로 표기하였다.
이용자 u가 선호도를 평가한 품목의 수가 적은 경우(즉,
Figure 112017015363707-pat00138
의 원소의 수가 적은 경우), 표본 분산으로
Figure 112017015363707-pat00139
를 추정할 때 정확도가 떨어진다. 이때 상기 축소 추정량의 형태로
Figure 112017015363707-pat00140
를 추정하면 추정량의 분산이 줄어들어 더 좋은 추정이 가능하다. 해당되는 축소 추정량은 이용자 u에 대한 선호도의 표본 분산과 전체 선호도의 표본 분산의 가중 평균으로 볼 수 있으며, 조율 모수 qσ의 값이 0으로 갈수록 이용자 u에 대한 선호도의 표본 분산을 향하여 가고, 조율 모수 qσ의 값이 무한대로 커질수록 전체 선호도의 표본 분산으로 향해 간다.
도 2를 계속 참조하면, 본 발명의 방법은, 상기 컴퓨팅 장치(100)가, 상기 잔차를 이용하여 행렬 φ을 추정하는 단계(S250)를 더 포함한다.
바람직하게, 단계(S250)에서는 추정량
Figure 112017015363707-pat00141
, 추정량
Figure 112017015363707-pat00142
또는 추정량
Figure 112017015363707-pat00143
(
Figure 112017015363707-pat00144
)를 이용하여 행렬 φ의 (j, k)번째 원소인 φjk의 추정량인
Figure 112017015363707-pat00145
를 계산함으로써 전체 행렬 φ를 추정할 수 있다. 여기에서
Figure 112017015363707-pat00146
Figure 112017015363707-pat00147
이면 1이고 그렇지 않으면 0인 함수를 지칭하며, v는 소정의 양수를 지칭하는 것으로 표기하였다. 상기
Figure 112017015363707-pat00148
는 가장 기본적인 표본 분산이며,
Figure 112017015363707-pat00149
Figure 112017015363707-pat00150
Figure 112017015363707-pat00151
에 관하여 전술한 바와 같은 이유로 정확도를 높이기 위하여 축소 추정량의 형식으로 구한 추정량이다. 특별히
Figure 112017015363707-pat00152
의 형태를 부드러운 임계화 추정량(soft thresholding estimator)이라고 한다.
다음으로, 본 발명의 방법은, 상기 컴퓨팅 장치(100)가, 공분산 행렬
Figure 112017015363707-pat00153
을 산출하는 단계(S260) 및, 상기 컴퓨팅 장치(100)가, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
Figure 112017015363707-pat00154
를 산출하는 단계(S270)를 더 포함한다. 여기에서 상기 추정 선호도 데이터는 단계(S210)에서 획득된 상기 선호도 데이터에는 포함되지 않아 추정의 대상이 된 특정 이용자 u, 특정 품목 i의 조합에 관한 것이 일반적일 것이다.
단계(S260)까지 μu와 Σu를 추정하고 나면, 단계(S270)에서 Rui의 추정값은 앞서 설명된 (최소 제곱 추정량에 대응되는) 기대값
Figure 112017015363707-pat00155
에 대입하여 구할 수 있으나,
Figure 112017015363707-pat00156
에 대입하여 구하는 것이 예측 성능을 더욱 높일 수 있는바, 여기에서 λ는 조율 모수를 지칭하며,
Figure 112017015363707-pat00157
이고, Ik는 k×k 단위 행렬이다. 이는 회귀 모형에서 능형 회귀(Ridge regression)를 통하여 얻은 능형 회귀 추정량으로 볼 수 있는데, 이론적으로 능형 회귀 추정량이 특정 상황(예컨대, 설명 변수 간의 상관도(correlation)가 높은 경우)에서 전자의 최소 제곱 추정량보다 성능이 좋다는 사실이 잘 알려져 있다.
상기 단계들(S220, S240 및 S250) 중 적어도 하나의 추정은 뉴턴-랩슨법(Newton-Raphson method)의 시행에 의하여 이루어질 수 있다. 이 뉴턴-랩슨법은 1685년에 처음으로 공개되었으며, 1690년에 조셉 랩슨(Joseph Raphson)에 의하여 그 방법의 간략화된 설명이 제시되었는바, 통상의 기술자에게 알려져 있거나 용이하게 이해될 수 있는 바와 같다. 이에 대한 더 상세한 설명은 본 발명을 이해하는 데 있어서 불필요한 세부이므로 생략될 것이다.
마지막으로 도 2를 참조하면, 본 발명의 방법은, 상기 컴퓨팅 장치(100)가, 산출된 상기 추정 선호도 데이터를 이용하여 상기 특정 이용자에게 품목을 추천하는 정보인 추천 정보를 생성하고, 생성된 상기 추천 정보를 표시하는 단계(S280)를 더 포함한다. 선호도 데이터를 추정, 산출한 것은 궁극적으로 이용자에게 추천 정보를 제공하기 위함이다. 그러한 추천 정보는, 예를 들어, 상기 특정 시점에 상기 특정 선택자에 대하여 품목별로 획득된 예측값이 가장 높은 n개의 품목을 추천하는 정보일 수 있는바, 여기에서 n은 소정의 자연수를 의미한다.
한편, 이러한 모멘트 접근법에 의한 추정량을 MME(method of moment estimator)라고 한다면, 전술한 모멘트 접근법의 모형식은
Figure 112017015363707-pat00158
와 같이 모형화할 수 있는바, 여기에서
Figure 112017015363707-pat00159
의 최소제곱추정량은
Figure 112017015363707-pat00160
의 MME와 같다. 즉, Σu의 MME를 통하여 위 모형에서
Figure 112017015363707-pat00161
의 추정량을 바로 알 수 있다.
따라서 위의 회귀 모형은 각각의 이용자에 대하여 두 품목에 대한 선호도 사이의 공분산을 모형화한 것으로 해석할 수 있다. 이 모형은 각각의 이용자마다 다른 계수값을 가지게 되므로 개인화 회귀 알고리즘(personalized regression algorithm)이라고 한다.
이러한 개인화 회귀 알고리즘은 최근접 방법에 비하여 회귀 모형을 이용함으로 정확도가 높으며, 부가 정보, 맥락 정보 등을 쉽게 반영할 수 있고, 전역 근접 방법에 비하여 가중치의 추정이 정확하므로 전체적으로 정확도가 높다는 장점이 있다. 또한, 개인화 회귀 알고리즘은 직접적으로 선호도를 추정하므로 행렬분해 방법에 비하여 예측도가 높고, 반복적인 계산을 필요로 하지 않아 계산이 훨씬 용이하고 따라서 방대한 자료에도 용이하게 적용할 수 있는 장점이 있다.
이 기술의 이점은, 회귀 모형을 이용하여 병렬처리가 가능하게 됨으로써 방대한 규모의 계산이 여러 컴퓨팅 장치에 분산되어 이루어질 수 있어, 종래에는 다루기 힘들었던 규모의 방대한 자료에 대해서도 이용자의 선호도를 예측하여 선호도가 높은 품목을 제안하는 추천 시스템을 적용할 수 있다는 점이다.
위 실시예의 설명에 기초하여 통상의 기술자는, 본 발명이 소프트웨어 및 하드웨어의 결합을 통하여 달성되거나 하드웨어만으로 달성될 수 있다는 점을 명확하게 이해할 수 있다. 본 발명의 기술적 해법의 대상물 또는 선행 기술들에 기여하는 부분들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. 상기 하드웨어 장치는, 프로그램 명령어를 저장하기 위한 ROM/RAM 등과 같은 메모리와 결합되고 상기 메모리에 저장된 명령어들을 실행하도록 구성되는 CPU나 GPU와 같은 프로세서를 포함할 수 있으며, 외부 장치와 신호를 주고 받을 수 있는 통신부를 포함할 수 있다. 덧붙여, 상기 하드웨어 장치는 개발자들에 의하여 작성된 명령어들을 전달받기 위한 키보드, 마우스, 기타 외부 입력장치를 포함할 수 있다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
그와 같이 균등하게 또는 등가적으로 변형된 것에는, 예컨대 본 발명에 따른 방법을 실시한 것과 동일한 결과를 낼 수 있는, 수학적으로 또는 논리적으로 동치(mathematically equivalent or logically equivalent)인 방법이 포함될 것이다.
본 발명에 따른 방법 및 이를 수행하는 컴퓨팅 장치는, 품목의 이용자가 품목에 부여하는 선호도를 예측하고, 그 예측된 선호도에 따라 추천하는 데에 이용될 수 있는 것이다. 예를 들어 특정인이 구매하고 싶어할 만한 상품을 추천하는 것, 특정인이 관람하고 싶어할 만한 영화를 추천하는 것, 특정인이 이용하고 싶어할 만한 애플리케이션(application; 응용 프로그램)을 추천하는 것 등에 이용될 수 있다. 또한, 특정인이 마시고 싶어할 만한 음료수를 추천하는 것, 먹고 싶어할 만한 음식을 추천하는 것에도 이용될 수 있는바, 특정 이용자가 있고, 선택 가능한 개별 품목들이 있기만 하면 어떠한 상품, 서비스, 재화나 용역의 분야에도 적용될 수 있을 것이다.
100: 컴퓨팅 장치
110: 통신부
120: 프로세서

Claims (18)

  1. 품목(item)의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화(filtering; 필터링)하는 방법으로서,
    (a) 컴퓨팅 장치가, 개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하는 단계;
    (b) 상기 컴퓨팅 장치가,
    Figure 112017015363707-pat00162
    를 최소화하는
    Figure 112017015363707-pat00163
    (u∈U, i∈I)를 추정하여 평균
    Figure 112017015363707-pat00164
    의 추정량
    Figure 112017015363707-pat00165
    을 구하는 단계로서,
    U는 상기 개별 이용자의 집합을 지칭하며,
    I는 상기 개별 품목의 집합을 지칭하고,
    rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며,
    λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고,
    λI는 I에 관한 조율 모수를 지칭하는 단계;
    (c) 상기 컴퓨팅 장치가, 상기 평균 μui의 추정량
    Figure 112017015363707-pat00166
    을 이용하여 잔차
    Figure 112017015363707-pat00167
    를 계산하는 단계;
    (d) 상기 컴퓨팅 장치가, 상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
    Figure 112017015363707-pat00168
    를 추정하는 단계;
    (e) 상기 컴퓨팅 장치가, 상기 잔차를 이용하여 행렬 φ을 추정하는 단계;
    (f) 상기 컴퓨팅 장치가, 추정된 상기
    Figure 112017015363707-pat00169
    및 상기 φ로부터 공분산 행렬
    Figure 112017015363707-pat00170
    을 산출하는 단계; 및
    (g) 상기 컴퓨팅 장치가, 상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
    Figure 112017015363707-pat00171
    를 산출하는 단계;
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 (d) 단계는,
    추정량
    Figure 112017015363707-pat00172
    또는
    추정량
    Figure 112017015363707-pat00173
    을 이용하여
    Figure 112017015363707-pat00174
    를 추정하되,
    Figure 112017015363707-pat00175
    이며,
    Figure 112017015363707-pat00176
    이고,
    qσ는 조율 모수를 지칭하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 (e) 단계는,
    추정량
    Figure 112017015363707-pat00177
    ,
    추정량
    Figure 112017015363707-pat00178
    (
    Figure 112017015363707-pat00179
    ) 또는
    추정량
    Figure 112017015363707-pat00180

    를 이용하여 φ의 (j, k)번째 원소인 φjk의 추정량인
    Figure 112017015363707-pat00181
    를 계산함으로써 행렬 φ를 추정하되,
    여기에서
    Figure 112017015363707-pat00182
    Figure 112017015363707-pat00183
    이면 1이고 그렇지 않으면 0인 함수를 지칭하며, v는 소정의 양수를 지칭하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 (g) 단계는,
    Rui의 조건부 기대값인
    Figure 112017015363707-pat00184
    Figure 112017015363707-pat00185
    이되,
    Figure 112017015363707-pat00186
    ,
    Figure 112017015363707-pat00187
    ,
    Figure 112017015363707-pat00188
    ,
    Figure 112017015363707-pat00189
    인 것을 특징으로 하는 방법.
  5. 제1항에 있어서,
    상기 (b), (d) 및 (e) 단계 중 적어도 어느 하나의 추정은 뉴턴-랩슨법(Newton-Raphson method)의 시행에 의하여 이루어지는 것을 특징으로 하는 방법.
  6. 제1항에 있어서,
    상기 (g) 단계는,
    Rui의 조건부 기대값인
    Figure 112017015363707-pat00190
    Figure 112017015363707-pat00191
    이되,
    Figure 112017015363707-pat00192
    ,
    Figure 112017015363707-pat00193
    ,
    Figure 112017015363707-pat00194
    ,
    Figure 112017015363707-pat00195
    이며,
    λ는 조율 모수를 지칭하며,
    Figure 112017015363707-pat00196
    이고,
    Ik는 k×k 단위 행렬인 것을 특징으로 하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 조율 모수들 중 적어도 하나는 교차 검증법(cross validation)에 의하여 구해지는 것을 특징으로 하는 방법.
  8. 제1항에 있어서,
    (h) 상기 컴퓨팅 장치가, 산출된 상기 추정 선호도 데이터를 이용하여 상기 특정 이용자에게 품목을 추천하는 정보인 추천 정보를 생성하고 생성된 상기 추천 정보를 표시하는 단계
    를 더 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서,
    상기 추천 정보는,
    상기 특정 시점에 상기 특정 선택자에 대하여 품목별로 획득된 예측값이 가장 높은 n개의 품목을 추천하는 정보이며,
    상기 n은 소정의 자연수를 지칭하는 것을 특징으로 하는 방법.
  10. 품목(item)의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화(filtering; 필터링)하는 컴퓨팅 장치로서,
    개별 품목 i에 관하여 개별 이용자 u가 기존에 부여한 선호도의 데이터들 rui을 획득하는 통신부; 및
    Figure 112017015363707-pat00197
    를 최소화하는
    Figure 112017015363707-pat00198
    (u∈U, i∈I)를 추정하여 평균
    Figure 112017015363707-pat00199
    의 추정량
    Figure 112017015363707-pat00200
    을 구하는 프로세서
    를 포함하되,
    U는 상기 개별 이용자의 집합을 지칭하며,
    I는 상기 개별 품목의 집합을 지칭하고,
    rui는 상기 개별 이용자 u가 상기 개별 품목 i에 대하여 부여한 선호도를 나타내는 확률변수인 Rui의 관측값을 지칭하며,
    λU는 U에 관한 조율 모수(tuning parameter)를 지칭하고,
    λI는 I에 관한 조율 모수를 지칭하며,
    상기 프로세서는,
    상기 평균 μui의 추정량
    Figure 112017015363707-pat00201
    을 이용하여 잔차
    Figure 112017015363707-pat00202
    를 계산하고,
    상기 잔차를 이용하여 상기 이용자 u의 선호도에 관한 산포인 각 이용자별 선호도 산포
    Figure 112017015363707-pat00203
    를 추정하며,
    상기 잔차를 이용하여 행렬 φ을 추정하고,
    추정된 상기
    Figure 112017015363707-pat00204
    및 상기 φ로부터 공분산 행렬
    Figure 112017015363707-pat00205
    을 산출하며,
    상기 개별 품목 중 적어도 하나의 품목 각각인 i에 관한 특정 이용자 u의 추정 선호도 데이터로서 Rui의 조건부 기대값인
    Figure 112017015363707-pat00206
    를 산출하는 것을 특징으로 하는 장치.
  11. 제10항에 있어서,
    상기 프로세서는,
    추정량
    Figure 112017015363707-pat00207
    또는
    추정량
    Figure 112017015363707-pat00208
    을 이용하여
    Figure 112017015363707-pat00209
    를 추정하되,
    Figure 112017015363707-pat00210
    이며,
    Figure 112017015363707-pat00211
    이고,
    qσ는 조율 모수를 지칭하는 것을 특징으로 하는 장치.
  12. 제10항에 있어서,
    상기 프로세서는,
    추정량
    Figure 112017015363707-pat00212
    ,
    추정량
    Figure 112017015363707-pat00213
    (
    Figure 112017015363707-pat00214
    ) 또는
    추정량
    Figure 112017015363707-pat00215

    를 이용하여 φ의 (j, k)번째 원소인 φjk의 추정량인
    Figure 112017015363707-pat00216
    를 계산함으로써 행렬 φ를 추정하되,
    여기에서
    Figure 112017015363707-pat00217
    Figure 112017015363707-pat00218
    이면 1이고 그렇지 않으면 0인 함수를 지칭하며, v는 소정의 양수를 지칭하는 것을 특징으로 하는 장치.
  13. 제10항에 있어서,
    Rui의 조건부 기대값인
    Figure 112017015363707-pat00219
    Figure 112017015363707-pat00220
    이되,
    Figure 112017015363707-pat00221
    ,
    Figure 112017015363707-pat00222
    ,
    Figure 112017015363707-pat00223
    ,
    Figure 112017015363707-pat00224
    인 것을 특징으로 하는 장치.
  14. 제10항에 있어서,
    상기 추정 중 적어도 어느 하나의 추정은 뉴턴-랩슨법(Newton-Raphson method)의 시행에 의하여 이루어지는 것을 특징으로 하는 장치.
  15. 제10항에 있어서,
    Rui의 조건부 기대값인
    Figure 112017015363707-pat00225
    Figure 112017015363707-pat00226
    이되,
    Figure 112017015363707-pat00227
    ,
    Figure 112017015363707-pat00228
    ,
    Figure 112017015363707-pat00229
    ,
    Figure 112017015363707-pat00230
    이며,
    λ는 조율 모수를 지칭하며,
    Figure 112017015363707-pat00231
    이고,
    Ik는 k×k 단위 행렬인 것을 특징으로 하는 장치.
  16. 제10항 내지 제15항 중 어느 한 항에 있어서,
    상기 조율 모수들 중 적어도 하나는 교차 검증법(cross validation)에 의하여 구해지는 것을 특징으로 하는 장치.
  17. 제10항에 있어서,
    상기 프로세서는,
    산출된 상기 추정 선호도 데이터를 이용하여 상기 특정 이용자에게 품목을 추천하는 정보인 추천 정보를 생성하고 생성된 상기 추천 정보를 표시하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서,
    상기 추천 정보는,
    상기 특정 시점에 상기 특정 선택자에 대하여 품목별로 획득된 예측값이 가장 높은 n개의 품목을 추천하는 정보이며,
    상기 n은 소정의 자연수를 지칭하는 것을 특징으로 하는 장치.
KR1020170020234A 2017-02-14 2017-02-14 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치 KR101877282B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170020234A KR101877282B1 (ko) 2017-02-14 2017-02-14 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치
US15/672,625 US20180232794A1 (en) 2017-02-14 2017-08-09 Method for collaboratively filtering information to predict preference given to item by user of the item and computing device using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170020234A KR101877282B1 (ko) 2017-02-14 2017-02-14 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
KR101877282B1 true KR101877282B1 (ko) 2018-07-11

Family

ID=62917385

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170020234A KR101877282B1 (ko) 2017-02-14 2017-02-14 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치

Country Status (2)

Country Link
US (1) US20180232794A1 (ko)
KR (1) KR101877282B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408729B (zh) * 2018-12-05 2022-02-08 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
CN110910198A (zh) * 2019-10-16 2020-03-24 支付宝(杭州)信息技术有限公司 非正常对象预警方法、装置、电子设备及存储介质
US20220027434A1 (en) * 2020-07-23 2022-01-27 International Business Machines Corporation Providing recommendations via matrix factorization
CN112257027B (zh) * 2020-10-10 2024-04-09 国网新疆电力有限公司 一种基于正态分布拟合的电网典型负荷日选取方法
CN113191108A (zh) * 2021-04-20 2021-07-30 西安理工大学 一种光伏组件等效电路模型参数高效辨识方法
CN114510645B (zh) * 2022-04-08 2022-07-15 浙大城市学院 一种基于提取有效多目标群组来解决长尾推荐问题的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043917A (ko) * 2002-08-19 2005-05-11 초이스스트림 통계적 개인화된 추천 시스템
KR20090059515A (ko) * 2007-12-06 2009-06-11 삼성전자주식회사 사용자 선호도 예측 방법 및 장치
JP2010061513A (ja) * 2008-09-05 2010-03-18 Nikon Corp 利用対象推薦装置、利用対象推薦方法およびプログラム
JP2011065504A (ja) * 2009-09-18 2011-03-31 Tokyo Univ Of Science ユーザの選好関係についての予測モデルを生成する選好予測サーバ及びその方法
KR101028810B1 (ko) * 2010-05-26 2011-04-25 (주) 라이브포인트 광고 대상 분석 장치 및 그 방법
KR20110074167A (ko) * 2009-12-24 2011-06-30 성균관대학교산학협력단 차이 확률 변수의 원점 모멘트를 이용한 유사성 척도에 기반한 협업 필터링 추천 시스템 및 유사도 테이블 구축방법
KR20130118597A (ko) * 2012-04-20 2013-10-30 (주)야긴스텍 아이템 추천 시스템 및 방법
KR101592220B1 (ko) * 2015-03-26 2016-02-11 단국대학교 산학협력단 예측적 군집화 기반 협업 필터링 장치 및 방법
KR20160064448A (ko) * 2014-11-28 2016-06-08 이종찬 유사 집합의 예상 선호도 대비 기반 아이템 추천 제공 방법
KR20160064447A (ko) * 2014-11-28 2016-06-08 이종찬 협력적 필터링의 예측 선호도를 이용한 처음 사용자에 대한 추천 제공 방법
KR101642216B1 (ko) * 2015-01-27 2016-07-22 포항공과대학교 산학협력단 비임의결측 데이터 분석 방법 및 장치와 이를 이용하는 상품추천 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953676B2 (en) * 2007-08-20 2011-05-31 Yahoo! Inc. Predictive discrete latent factor models for large scale dyadic data
US8676736B2 (en) * 2010-07-30 2014-03-18 Gravity Research And Development Kft. Recommender systems and methods using modified alternating least squares algorithm
US20120030020A1 (en) * 2010-08-02 2012-02-02 International Business Machines Corporation Collaborative filtering on spare datasets with matrix factorizations
US9704102B2 (en) * 2013-03-15 2017-07-11 William Marsh Rice University Sparse factor analysis for analysis of user content preferences

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050043917A (ko) * 2002-08-19 2005-05-11 초이스스트림 통계적 개인화된 추천 시스템
KR20090059515A (ko) * 2007-12-06 2009-06-11 삼성전자주식회사 사용자 선호도 예측 방법 및 장치
JP2010061513A (ja) * 2008-09-05 2010-03-18 Nikon Corp 利用対象推薦装置、利用対象推薦方法およびプログラム
JP2011065504A (ja) * 2009-09-18 2011-03-31 Tokyo Univ Of Science ユーザの選好関係についての予測モデルを生成する選好予測サーバ及びその方法
KR20110074167A (ko) * 2009-12-24 2011-06-30 성균관대학교산학협력단 차이 확률 변수의 원점 모멘트를 이용한 유사성 척도에 기반한 협업 필터링 추천 시스템 및 유사도 테이블 구축방법
KR101028810B1 (ko) * 2010-05-26 2011-04-25 (주) 라이브포인트 광고 대상 분석 장치 및 그 방법
KR20130118597A (ko) * 2012-04-20 2013-10-30 (주)야긴스텍 아이템 추천 시스템 및 방법
KR20160064448A (ko) * 2014-11-28 2016-06-08 이종찬 유사 집합의 예상 선호도 대비 기반 아이템 추천 제공 방법
KR20160064447A (ko) * 2014-11-28 2016-06-08 이종찬 협력적 필터링의 예측 선호도를 이용한 처음 사용자에 대한 추천 제공 방법
KR101642216B1 (ko) * 2015-01-27 2016-07-22 포항공과대학교 산학협력단 비임의결측 데이터 분석 방법 및 장치와 이를 이용하는 상품추천 시스템
KR101592220B1 (ko) * 2015-03-26 2016-02-11 단국대학교 산학협력단 예측적 군집화 기반 협업 필터링 장치 및 방법

Also Published As

Publication number Publication date
US20180232794A1 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
KR101877282B1 (ko) 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치
CN110321422B (zh) 在线训练模型的方法、推送方法、装置以及设备
Salehi An effective recommendation based on user behaviour: a hybrid of sequential pattern of user and attributes of product
Rafailidis et al. Content-based tag propagation and tensor factorization for personalized item recommendation based on social tagging
Gosh et al. Recommendation system for e-commerce using alternating least squares (ALS) on apache spark
Huang et al. Learning to learn a cold-start sequential recommender
Hsieh et al. A keyword-aware recommender system using implicit feedback on Hadoop
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
Liu et al. Online recommendations based on dynamic adjustment of recommendation lists
CN111339435B (zh) 一种基于潜在因子的矩阵分解补全混合推荐方法
Pirasteh et al. Personalized recommendation: an enhanced hybrid collaborative filtering
CN110264277B (zh) 由计算设备执行的数据处理方法及装置、介质和计算设备
Ali et al. Dynamic context management in context-aware recommender systems
Usha et al. Data Mining Techniques used in the Recommendation of E-commerce services
KR101949808B1 (ko) 부가 정보를 반영한 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치
Guan et al. Enhanced SVD for collaborative filtering
KR101908272B1 (ko) 맥락 정보를 반영한 개인화 회귀 분석을 이용하여 품목의 이용자가 상기 품목에 부여하는 선호도를 예측하기 위하여 정보를 정화하는 방법 및 이를 이용한 컴퓨팅 장치
Narayanan et al. Improving prediction with enhanced Distributed Memory-based Resilient Dataset Filter
WO2017095371A1 (en) Product recommendations based on selected user and product attributes
Si et al. 5G multimedia precision marketing based on the improved multisensor node collaborative filtering recommendation algorithm
Jafri et al. Deep transfer learning with multimodal embedding to tackle cold-start and sparsity issues in recommendation system
CN113269602A (zh) 物品推荐的方法和装置
Wang et al. Personalized recommender systems with multi-source data
Liu et al. An online activity recommendation approach based on the dynamic adjustment of recommendation lists
Costa‐Montenegro et al. In‐memory distributed software solution to improve the performance of recommender systems

Legal Events

Date Code Title Description
GRNT Written decision to grant