KR101620659B1 - Method for selecting similar users for collaborative filtering based on earth movers distance - Google Patents

Method for selecting similar users for collaborative filtering based on earth movers distance Download PDF

Info

Publication number
KR101620659B1
KR101620659B1 KR1020120148150A KR20120148150A KR101620659B1 KR 101620659 B1 KR101620659 B1 KR 101620659B1 KR 1020120148150 A KR1020120148150 A KR 1020120148150A KR 20120148150 A KR20120148150 A KR 20120148150A KR 101620659 B1 KR101620659 B1 KR 101620659B1
Authority
KR
South Korea
Prior art keywords
user
similar
item
histogram
target user
Prior art date
Application number
KR1020120148150A
Other languages
Korean (ko)
Other versions
KR20140079639A (en
Inventor
김상욱
이상철
정세현
강윤석
장민희
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020120148150A priority Critical patent/KR101620659B1/en
Publication of KR20140079639A publication Critical patent/KR20140079639A/en
Application granted granted Critical
Publication of KR101620659B1 publication Critical patent/KR101620659B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

협업 필터링을 위한 EMD 기반 유사 사용자 선별 방법이 개시된다. 타겟 사용자에 대한 유사 사용자를 선별하는 방법은 사용자에 대한 정보를 이용하여 상기 사용자의 아이템에 대한 선호도를 나타내는 히스토그램을 각각 생성하는 단계, 상기 생성된 히스토그램을 기초로 EMD(Earth Mover's Distance)를 이용하여 상기 사용자와 타겟 사용자 간의 유사도를 계산하는 단계 및 상기 계산된 유사도를 기초로 상기 타겟 사용자에 대한 유사 사용자를 선별하는 단계를 포함할 수 있다.An EMD-based similar user selection method for collaborative filtering is disclosed. A method for selecting a similar user for a target user includes generating a histogram representing a user's preference for an item using information about the user, using an EMD (Earth Mover's Distance) based on the generated histogram, Calculating the similarity between the user and the target user, and selecting the similar user for the target user based on the calculated similarity.

Description

협업 필터링을 위한 EMD 기반 유사 사용자 선별 방법{METHOD FOR SELECTING SIMILAR USERS FOR COLLABORATIVE FILTERING BASED ON EARTH MOVER´S DISTANCE}TECHNICAL FIELD [0001] The present invention relates to an EMD-based similar user selection method for collaborative filtering,

본 발명의 실시예들은 협업 필터링을 위하여 타겟 사용자와 유사한 사용자를 선별하는 협업 필터링을 위한 EMD(Earth Mover's Distance) 기반 유사 사용자 선별 방법에 관한 것이다.Embodiments of the present invention relate to an EMD (Earth Mover's Distance) based similar user selection method for collaborative filtering that selects a user similar to a target user for collaborative filtering.

일반적으로 추천 방법은 다양한 아이템 중에서 사용자가 선호할 만한 아이템을 찾아주는 방법을 말한다. 협업 필터링(Collaborative Filtering) 기법은 가장 널리 사용되는 추천 방법 중 하나로서, 추천 대상 사용자(타겟 사용자)와 성향이 유사한 사용자를 이용하여 아이템을 추천한다. 따라서, 협업 필터링의 성능은 타겟 사용자와 얼마나 유사한 사용자를 선별할 수 있느냐에 따라 달라진다.In general, the recommendation method refers to a method of finding items that users prefer from among various items. Collaborative Filtering (Collaborative Filtering) is one of the most widely used recommendation methods, and recommends items using users who have a similar tendency to the target user (target user). Thus, the performance of collaborative filtering depends on how similar a user is to the target user.

일 예로 한국공개특허공보 제10-2008-0043140호(공개일 2008년 5월 16일) "협업 필터링 시스템 및 방법"에는 사용자의 컨텐츠 이용정보와 사용자 속성정보를 이용하여 가중치를 적용하고, 보편 타당한 사용자가 아니라고 판단된 사용자의 행위를 필터링함으로써 컨텐츠를 추천하는 것이 개시되어 있다.For example, Korean Patent Laid-Open Publication No. 10-2008-0043140 (published on May 16, 2008) entitled " Collaborative Filtering System and Method ", weights are applied using user's content utilization information and user attribute information, It is disclosed that content is recommended by filtering an action of a user determined not to be a user.

그러나, 이러한 기존의 협업 필터링 기법은 유사한 사용자와 타겟 사용자가 공통적으로 평가한 아이템이 존재할 경우에만 해당 사용자 간의 유사도를 측정할 수 있을 뿐 타겟 사용자가 아이템을 평가하지 않은 경우에는 유사한 사용자와 타겟 사용자 간의 유사도를 측정할 수 없다는 문제점이 있다.However, the existing collaborative filtering technique can measure the similarity between the users only when there is an item commonly evaluated by the similar user and the target user, and when the target user does not evaluate the item, There is a problem that the degree of similarity can not be measured.

따라서, 타겟 사용자가 아이템을 평가하지 않은 경우에도 보다 정확하게 타겟 사용자와 유사한 사용자를 선별할 수 있는 방법이 요구되고 있다.Accordingly, there is a need for a method that can more accurately select a user similar to the target user even when the target user has not evaluated the item.

사용자 간의 유사도를 측정할 때 아이템 간의 연관성을 반영함으로써 타겟 사용자가 아이템을 평가하지 않은 경우에도 보다 정확하게 타겟 사용자와 유사한 사용자를 선별할 수 있는 협업 필터링을 위한 EMD 기반 유사 사용자 선별 방법이 개시된다.An EMD-based similar-user selection method for collaborative filtering that can more accurately select a user similar to a target user even when the target user does not evaluate the item by reflecting the association between items when measuring the similarity between users is disclosed.

협업 필터링을 이용 시 양질의 추천이 가능한 협업 필터링을 위한 EMD 기반 유사 사용자 선별 방법이 개시된다.An EMD-based pseudo-user selection method for collaborative filtering that enables high quality recommendation using collaborative filtering is disclosed.

타겟 사용자에 대한 유사 사용자를 선별하는 방법은 사용자에 대한 정보를 이용하여 상기 사용자의 아이템에 대한 선호도를 나타내는 히스토그램을 각각 생성하는 단계, 상기 생성된 히스토그램을 기초로 EMD(Earth Mover's Distance)를 이용하여 상기 사용자와 타겟 사용자 간의 유사도를 계산하는 단계 및 상기 계산된 유사도를 기초로 상기 타겟 사용자에 대한 유사 사용자를 선별하는 단계를 포함할 수 있다.A method for selecting a similar user for a target user includes generating a histogram representing a user's preference for an item using information about the user, using an EMD (Earth Mover's Distance) based on the generated histogram, Calculating the similarity between the user and the target user, and selecting the similar user for the target user based on the calculated similarity.

일측에 따르면, 상기 사용자에 대한 정보는 상기 사용자의 식별자, 상기 사용자가 구매 또는 이용한 아이템의 식별자 및 상기 사용자의 해당 아이템에 대한 평가 점수를 포함할 수 있다.According to one aspect, the information about the user may include an identifier of the user, an identifier of the item purchased or used by the user, and an evaluation score of the user's corresponding item.

다른 측면에 따르면, 상기 생성하는 단계는 상기 히스토그램의 각 빈을 아이템의 카테고리로 결정하는 단계 및 상기 아이템에 대한 평균 평가 점수 또는 각 카테고리 내에서 평가한 아이템의 수를 상기 카테고리에 대한 선호도로 결정하는 단계를 포함할 수 있다.According to another aspect, the generating step includes determining each bin of the histogram as a category of an item, and determining an average rating score for the item or a number of items evaluated in each category as a preference for the category Step < / RTI >

또 다른 측면에 따르면, 상기 계산하는 단계 이전에 두 카테고리에 동시에 포함하는 아이템의 비중을 이용하여 상기 두 카테고리 간의 거리를 계산함으로써 상기 두 카테고리 간의 유사도를 계산하는 단계를 더 포함하고, 상기 사용자와 타겟 사용자 간의 유사도를 계산하는 단계는 카테고리 간의 거리가 계산된 히스토그램을 기초로 상기 사용자와 타겟 사용자 간의 유사도를 계산하는 단계일 수 있다.According to another aspect, the method further includes calculating a degree of similarity between the two categories by calculating distances between the two categories using a weight of items simultaneously included in the two categories before the calculating step, Calculating the similarity between the users may be a step of calculating the similarity between the user and the target user based on the calculated histogram of distances between the categories.

또 다른 측면에 따르면, 상기 선별된 유사 사용자에 대한 정보는 상기 선별된 유사 사용자에 대한 정보를 기초로 협업 필터링을 이용하여 상기 타겟 사용자가 각 아이템에 부여할 점수를 예측하고, 상기 예측된 점수를 기초로 상기 타겟 사용자에게 추천할 아이템을 선정하는데 이용될 수 있다.According to another aspect of the present invention, the information on the selected similar users may be obtained by predicting a score to be given to each item by the target user using collaboration filtering based on the information about the selected similar users, And may be used to select an item to be recommended to the target user as a basis.

EMD(Earth Mover's Distance)를 이용하여 타겟 사용자와 유사한 취향을 가지는 사용자를 선별함으로써 타겟 사용자에 대한 유사 사용자를 정확하게 찾아낼 수 있다.By using the EMD (Earth Mover's Distance), users having similar tastes to the target user can be selected to find the similar user for the target user accurately.

타겟 사용자에 대한 유사 사용자를 정확하게 찾아낼 수 있기 때문에 협업 필터링 이용 시 양질의 추천이 가능하다.Since it is possible to find similar users precisely for the target user, good recommendation is possible when using collaborative filtering.

도 1은 본 발명의 일실시예에 있어서, EMD(Earth Mover's Distance)를 기반으로 유사 사용자를 선별하고 아이템을 추천하는 방법을 나타내는 흐름도이다.
도 2는 특정 사용자와 각 영화에 대한 정보 간의 관계를 나타내는 예시도이다.
도 3은 본 발명의 일실시예에 있어서, 특정 사용자를 히스토그램을 표현한 예시도이다.
FIG. 1 is a flowchart illustrating a method of selecting similar users based on EMD (Earth Mover's Distance) and recommending items in an exemplary embodiment of the present invention.
2 is an exemplary diagram illustrating the relationship between a particular user and information about each movie.
FIG. 3 is an exemplary diagram illustrating a histogram of a specific user in an embodiment of the present invention. FIG.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일실시예에 있어서, EMD(Earth Mover's Distance)를 기반으로 유사 사용자를 선별하고 아이템을 추천하는 방법을 나타내는 흐름도이다.FIG. 1 is a flowchart illustrating a method of selecting similar users based on EMD (Earth Mover's Distance) and recommending items in an exemplary embodiment of the present invention.

협업 필터링을 이용하여 타겟 사용자에게 추천하고자 하는 아이템을 선별하기 위해서는 우선 각 아이템에 대하여 타겟 사용자와 유사한 성향을 가지는 유사 사용자를 선별해야 한다.In order to select the items to be recommended to the target user using the collaborative filtering, a similar user having a tendency similar to the target user should be selected for each item.

유사 사용자가 선별되면, 유사 사용자들이 평가한 아이템들을 기초로 협업 필터링을 이용하여 타겟 사용자가 평가하지 않은 아이템의 평점을 예측할 수 있다. 그리고, 예측된 평점을 기반으로 타겟 사용자에게 아이템을 추천할 수 있다. 그러므로, 협업 필터링 기법의 추천 품질을 향상시키기 위해서는 타겟 사용자와 유사한 사용자를 선별하는 것이 매우 중요하다.Once a similar user is selected, the rating of an item that the target user has not evaluated can be predicted using collaborative filtering based on items evaluated by similar users. Then, the item can be recommended to the target user based on the predicted rating. Therefore, it is very important to select users similar to the target users in order to improve the recommendation quality of the collaborative filtering technique.

따라서, 본 발명에 따른 유사 사용자 선별 방법은 보다 정확하게 유사 사용자를 선별하기 위하여 사용자들의 과거 아이템 이용 내역을 기초로 EMD(Earth Mover's Distance)를 이용하여 사용자들과 타겟 사용자 간의 유사도를 계산한다(110).Accordingly, in order to more accurately select similar users, the similar user selection method according to the present invention calculates the degree of similarity between users and target users using the EMD (Earth Mover's Distance) based on the past item usage history of users (110) .

EMD는 이미지 프로세싱(Image Processing) 분야에서 널리 사용되는 유사도 측정 함수로서, 그 정확도가 매우 높은 것으로 알려져 있다. 그러나, 유사 사용자 선별에 EMD를 적용하기 위해서는 우선 사용자에 대한 정보를 EMD에 적용 가능한 히스토그램 형태로 표현해야 한다. 이 때, 사용자에 대한 정보는 사용자의 식별자, 해당 사용자가 구매한 또는 이용한 아이템의 식별자 및 해당 아이템에 대한 평가 점수를 포함할 수 있다. 또한, 유사 사용자 선별에 EMD를 적용하기 위해서는 히스토그램의 빈(bin) 간의 거리가 정의되어 있어야 한다.EMD is a similarity measure widely used in the field of image processing, and its accuracy is known to be very high. However, in order to apply the EMD to the similar user selection, information about the user must be expressed in the form of a histogram applicable to the EMD. In this case, the information about the user may include an identifier of the user, an identifier of the item purchased or used by the user, and an evaluation score for the item. In addition, in order to apply EMD to similar user selection, the distance between bin of the histogram must be defined.

따라서, 본 발명에 따른 유사 사용자 선별 방법은 사용자 간의 유사도를 계산 시 EMD를 이용하기 위하여 임의의 사용자에 대한 히스토그램의 각 빈을 아이템의 카테고리로 정의하고, 해당 카테고리에 대한 선호도를 해당 카테고리의 값으로 표현함으로써 사용자의 아이템에 대한 선호도를 나타내는 히스토그램을 생성할 수 있다. 이 때, 선호도로서 각 아이템의 평균 평가 점수를 이용하거나 각 카테고리 내에서 평가한 아이템의 수를 이용할 수 있다.Accordingly, in order to use the EMD when calculating the similarity between users, the similar user selection method according to the present invention defines each bin of the histogram for an arbitrary user as a category of an item, and sets the preference for the category to a value of the category A histogram representing the user's preference for the item can be generated. At this time, the average rating score of each item may be used as a preference or the number of items evaluated in each category may be used.

일 예로, 본 발명에 따른 유사 사용자 선별 방법은 EMD를 이용하여 사용자 간의 거리를 측정하기 위해 비교하고자 하는 두 사용자 간의 데이터를 히스토그램으로 표현할 수 있다. 두 히스토그램 P={p1, p2, ..., pn}, Q={q1, q2, ...,qn}가 있을 때 pi, qi는 각 히스토그램의 i번째 빈(bin)의 비중(weight)을 의미한다. 여기서, P와 Q의 비율 총합은 동일하다고 가정한다.For example, in the similar user selection method according to the present invention, data between two users to be compared can be expressed by a histogram in order to measure distance between users using EMD. When there are two histograms P = {p 1 , p 2 , ..., p n }, Q = {q 1 , q 2 , ..., q n }, p i and q i are the i th bin of each histogram which means the weight of the bin. Here, it is assumed that the sum of the proportions of P and Q is the same.

그리고, 이 두 데이터 간의 거리를 측정하기 위해 최소(minimum) WORK를 계산한다. WORK란 히스토그램 P의 분포를 Q의 분포로 옮기는데 들어가는 최소의 양을 의미한다. 일 예로, WORK는 다음의 수학식 1과 같이 한 히스토그램에서 다른 히스토그램으로 옮겨진 빈들의 양(f)과 히스토그램 각 빈 간의 거리(d)의 곱으로 구할 수 있다.
Then calculate the minimum WORK to measure the distance between these two data. WORK means the minimum amount of the distribution of the histogram P into the distribution of Q. As an example, WORK can be obtained as the product of the amount (f) of bins moved from one histogram to another histogram by the distance (d) between each histogram bin as shown in Equation 1 below.

Figure 112012105193589-pat00001
Figure 112012105193589-pat00001

여기서, F=[fij]는 pi에서 qi로 옮겨진 히스토그램 빈의 양을 의미하고, D=[dij]는 옮겨진 빈 간의 거리를 의미한다.Here, F = [f ij ] denotes the amount of histogram bin transferred from p i to q i , and D = [d ij ] denotes the distance between transferred bins.

EMD는 이처럼 히스토그램 각 빈 간의 거리(d)를 통해 히스토그램 내 다른 위치의 빈 간에도 유사도를 측정할 수 있기 때문에 정확도가 매우 높다.EMD is very accurate because it can measure the similarity between different bins in the histogram through the distance (d) between each histogram bin.

EMD를 통해 사용자들과 타겟 사용자 간의 유사도가 계산되면, 계산된 유사도를 기초로 타겟 사용자와 유사한 사용자를 검색함으로써 타겟 사용자에 대한 유사 사용자를 선별할 수 있다(120).Once similarity between the users and the target user is calculated through the EMD, a similar user to the target user can be selected 120 by searching for a user similar to the target user based on the calculated similarity.

타겟 사용자와 유사한 사용자들이 선별되면, 유사 사용자들이 과거 평가했던 아이템에 대한 점수를 기초로 협업 필터링을 이용하여 타겟 사용자가 해당 아이템에 부여할 점수를 예측할 수 있다(130).Once users similar to the target user are selected 130, the collaborative filtering may be used to predict the score that the target user will give to the item based on the scores of the items that the similar users have evaluated in the past.

타겟 사용자가 아이템에 부여할 점수가 예측되면 이를 기초로 타겟 사용자에게 추천할 아이템들을 선정할 수 있고(140), 따라서 선정된 아이템들을 타겟 사용자에게 추천할 수 있다(150).Once the target user has predicted the score to be awarded to the item, he can select items to recommend to the target user 140 based on it, and thus recommend the selected items to the target user 150.

상술한 유사 사용자 선별 방법은 유사 사용자를 선별 장치에 의해 수행될 수 있다. 유사 사용자 선별 장치는 사용자에 대한 정보를 이용하여 사용자의 아이템에 대한 선호도를 나타내는 히스토그램을 각각 생성하는 생성부, 상기 생성된 히스토그램을 기초로 EMD(Earth Mover's Distance)를 이용하여 사용자와 타겟 사용자 간의 유사도를 계산하는 계산부 및 상기 계산된 유사도를 기초로 타겟 사용자에 대한 유사 사용자를 선별하는 선별부를 포함할 수 있다.
The similar user selection method described above can be performed by a sorting device for a similar user. The similar user selection device includes a generation unit for generating a histogram representing a preference of a user with respect to an item by using information about a user, a similarity determination unit for determining a similarity degree between a user and a target user using an EMD (Earth Mover's Distance) And a sorting unit for sorting similar users for the target user based on the calculated similarity.

도 2는 특정 사용자와 각 영화에 대한 정보 간의 관계를 나타내는 예시도이고, 도 3은 본 발명의 일실시예에 있어서 특정 사용자를 히스토그램을 표현한 예시도이다. 이하, 도 2 및 도 3을 참조하여, 유사 사용자를 선별하는 과정에 대해 예를 들어 보다 상세히 설명한다.FIG. 2 is a diagram illustrating an example of a relationship between a specific user and information about each movie, and FIG. 3 is an exemplary diagram illustrating a histogram of a specific user in an embodiment of the present invention. Hereinafter, with reference to FIG. 2 and FIG. 3, the process of selecting similar users will be described in more detail, for example.

먼저 도 2를 참조하면, 사용자 데이터(USER DATA)는 사용자 ID, 사용자가 평가한 영화 ID 및 해당 영화에 대한 평가 점수로 구성될 수 있다. 그리고, 아이템 데이터(ITEM DATA)는 영화 ID 및 해당 영화가 속한 카테고리 ID로 구성될 수 있다. 이 때, 하나의 영화는 여러 카테고리에 포함될 수 있다.Referring to FIG. 2, user data (USER DATA) may be composed of a user ID, a movie ID evaluated by a user, and an evaluation score for the movie. The item data (ITEM DATA) may be composed of a movie ID and a category ID to which the movie belongs. At this time, one movie can be included in several categories.

이와 같은 사용자 데이터와 아이템 데이터를 이용하여 해당 사용자에 대한 정보를 히스토그램으로 나타내면 도 3과 같다. 여기서, x축은 히스토그램의 각 빈을 나타내며, y축은 각 빈의 비중을 나타낸다. 그리고, 빈의 비중은 해당 빈에 대응하는 카테고리 안의 영화에 대하여 해당 사용자가 부여한 평균 평가 점수를 나타낸다. 예를 들어, 해당 사용자의 로맨스(Romance)에 해당하는 빈의 비중은 "4"를 의미한다.FIG. 3 shows a histogram of information on the user using the user data and item data. Here, the x-axis represents each bin of the histogram, and the y-axis represents the specific gravity of each bin. The weight of the bean indicates the average rating score given by the user to the movie in the category corresponding to the bin. For example, the weight of the bean corresponding to the romance of the user means "4".

유사 사용자 선별에 EMD를 적용하기 위해서는 각 빈간의 거리(ground distance)를 정의해야 한다. 그러나, 기존의 협업 필터링에는 카테고리 간의 거리가 정의되어 있지 않다. 또한, 카테고리는 서로 독립적이기 때문에 기존 EMD에서 일반적으로 사용하는 거리 함수 공식인 유클리드(Euclidean) 거리를 사용 할 수가 없다. 따라서, 본 발명에서는 다음의 수학식 2를 기초로 두 카테고리에서 동시에 존재하는 아이템의 비중을 이용하여 카테고리간 거리를 계산할 수 있다.
To apply EMD to similar user selection, we need to define the ground distance between each bin. However, existing collaborative filtering does not define the distance between categories. In addition, since categories are independent of each other, Euclidean distances, which are commonly used in existing EMDs, can not be used. Therefore, in the present invention, it is possible to calculate the inter-category distance using the weight of the items existing simultaneously in the two categories based on the following Equation (2).

Figure 112012105193589-pat00002
Figure 112012105193589-pat00002

여기서, x, y는 카테고리 ID, Ix는 카테고리 x에 속한 아이템 집합, Iy는 카테고리 y에 속한 아이템 집합을 나타낸다.Here, x and y denote a category ID, I x denotes an item set belonging to the category x, and I y denotes an item set belonging to the category y.

앞서 제안한 기법을 다음의 수학식 3과 같은 협업 필터링 기법에 적용함으로써 타겟 사용자의 아이템에 대한 평가 점수를 예측할 수 있다.
The evaluation score of the target user can be predicted by applying the proposed technique to the collaborative filtering technique as shown in Equation (3).

Figure 112012105193589-pat00003
Figure 112012105193589-pat00003

여기서, ruq는 사용자(u)가 아이템(q)에 대해 예측 할 평가 점수,

Figure 112012105193589-pat00004
는 사용자(u)의 평균 평가 점수, Nuq는 사용자(u)와 아이템(q)을 기준으로 했을 때 유사 사용자의 집합, v와 j는 집합 Nuq에 속한 사용자, rvq는 사용자(v)가 아이템(q)를 평가한 평가 점수, 그리고
Figure 112012105193589-pat00005
는 사용자(v)의 평균 평가 점수를 각각 나타낸다. sim(x, y)는 사용자 x 와 y 간의 유사도이며, 본 발명에서는 EMD 기반의 유사도를 사용한다.Here, r uq is the score to be predicted by the user (u) for the item (q)
Figure 112012105193589-pat00004
V and j are users belonging to the set N uq , vq is the user (v), u is the average score of the user (u), N uq is the set of similar users based on the user (u) (Q), < / RTI > and
Figure 112012105193589-pat00005
Represents the average evaluation score of the user (v). sim (x, y) is the similarity between user x and y, and the present invention uses EMD-based similarity.

이하에서는 MovieLens 데이터를 이용한 실험 결과를 통해 본 발명에 따른 유사 사용자 선별 방법이 기존 기법에 비해 정확도와 다양성이 모두 우수함을 검증한다. k-folding 방식으로 트레이닝 데이터와 테스트 셋을 구성하며, 기존 코사인을 이용하여 유사 사용자를 찾는 기법, Pearson 상관 관계수를 이용하여 유사 사용자를 찾는 기법과 제안하는 기법의 정확도를 비교한다.In the following, it is verified that the similar user selection method according to the present invention is superior in accuracy and diversity to the existing technique through the experimental results using MovieLens data. We construct training data and test set by k-folding method. We compare the accuracy of proposed method with finding similar user using existing cosine, finding similar user using Pearson correlation number.

실험 결과의 정확도를 나타내는 척도로는 MAE(Mean Absolute Error)와 RMSE(Root Mean Square Error)가 사용되었다. MAE는 실제값과 예측값의 오차에 대한 절대값들의 평균이며, RMSE는 실제값과 예측값의 오차의 제곱에 대한 평균의 제곱근이다.MAE (Mean Absolute Error) and RMSE (Root Mean Square Error) were used to measure the accuracy of the experimental results. MAE is the mean of the absolute values of the error between the actual and predicted values, and RMSE is the mean square of the mean square of the error between the actual value and the predicted value.

다음의 표 1은 사용자의 선호도를 평가한 영화의 수로 했을 때의 정확도를 나타낸다.
The following Table 1 shows the accuracy when the number of movies evaluated the user's preference.

평가 대상Subject MAEMAE RMSERMSE Count CosineCount Cosine 0.900.90 1.761.76 Count PearsonCount Pearson 1.031.03 1.941.94 Count EMDCount EMD 0.800.80 1.611.61

표 1을 참조하면, 본 발명에 따른 유사 사용자 선별 방법이 코사인 유사도에 비해 MAE는 11.33%, RMSE는 8.49% 향상 되었으며, Pearson 상관계수에 비해 MAE는 22.89%, RMSE는 17.03% 향상되었음을 알 수 있다.Referring to Table 1, MAE and RMSE of the similar user selection method according to the present invention are improved by 11.33% and 8.49%, respectively, and the MAE and RMSE are improved by 22.89% and 17.03%, respectively, compared with the Pearson correlation coefficient .

다음의 표 2는 사용자의 선호도를 장르별 평균 평점으로 했을 경우의 정확도를 나타낸다.
The following Table 2 shows the accuracy when the user's preference is taken as the average score for each genre.

평가 대상Subject MAEMAE RMSERMSE 평점 CosineRating Cosine 0.920.92 1.801.80 평점 PearsonRating Pearson 0.830.83 2.292.29 평점 EMDRating EMD 0.800.80 1.611.61

표 2를 참조하면, 본 발명에 따른 유사 사용자 선별 방법이 코사인 유사도에 비해 MAE는 13.10%, RMSE는 10.16% 향상 되었으며, Pearson 상관계수보다 MAE는 4.35%, RMSE는 29.66%향상 되었음을 알 수 있다.Referring to Table 2, MAE and RMSE of the similar user selection method according to the present invention are improved by 13.10% and 10.16%, respectively, and the MAE is 4.35% and the RMSE is 29.66% higher than the Pearson correlation coefficient.

즉, 본 발명에 따른 유사 사용자 선별 방법을 이용하는 경우, 코사인 유사도를 이용하는 경우에 비해 MAE는 최대 13%, RMSE는 최대 10% 향상되며, Pearson 상관계수를 이용하는 경우에 비해 MAE는 최대 23%, RMSE는 최대 30% 향상됨을 알 수 있다.That is, when the similar user selection method according to the present invention is used, the MAE is increased by a maximum of 13% and the RMSE by a maximum of 10%, compared with the case of using the similarity method of the present invention. Is improved by up to 30%.

이상에서 설명된 유사 사용자 선별 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다.  예를 들어, 실시예들에서 설명된 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.  유사 사용자 선별 장치는 운영 체제(OS: Operating System) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 실행할 수 있다.  또한, 유사 사용자 선별 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 구성요소는 각각 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 유사 사용자 선별 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The pseudo-user sorting device described above may be implemented as a hardware component, a software component, and / or a combination of hardware components and software components. For example, the components described in the embodiments may be implemented in a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable array (FPA), a PLU a programmable logic unit), a microprocessor, or any other device capable of executing and responding to instructions. The like user selection device may execute an operating system (OS) and one or more software applications running on the operating system. In addition, the similar user selection device may access, store, manipulate, process, and generate data in response to execution of the software. For ease of understanding, each component may be described as being used individually, but one of ordinary skill in the art will recognize that the processing device may be configured to include a plurality of processing elements and / Element can be included. For example, the pseudo-user sorting device may comprise a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as a parallel processor.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 유사 사용자 선별 장치를 원하는 대로 동작하도록 하거나 독립적으로 또는 결합적으로(collectively) 명령할 수 있다.  소프트웨어 및/또는 데이터는, 유사 사용자 선별 장치에 의하여 해석되거나 유사 사용자 선별 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may comprise a computer program, code, instructions, or a combination of one or more of the foregoing, and may be used to operate the like user selection device as desired or collectively, Command. The software and / or data may be in the form of any type of machine, component, physical device, virtual equipment, computer (e.g., computer), computer Or may be embodied permanently, or temporarily, in a storage medium or device, or in a signal wave being transmitted. The software may be distributed over a networked computer system and stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

본 실시예에 따른 유사 사용자 선별 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.  상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The similar user selection method according to this embodiment may be implemented in the form of a program command that can be executed through various computer means and recorded in a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the medium may be those specially designed and configured for the embodiments or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.While the present invention has been particularly shown and described with reference to exemplary embodiments thereof, it is to be understood that the invention is not limited to the disclosed exemplary embodiments. For example, it is to be understood that the techniques described may be performed in a different order than the described methods, and / or that components of the described systems, structures, devices, circuits, Lt; / RTI > or equivalents, even if it is replaced or replaced.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (5)

유사 사용자 선별 장치가 수행하는 타겟 사용자에 대한 유사 사용자를 선별하는 방법에 있어서,
유사 사용자 선별 장치의 생성부가 사용자에 대한 정보를 이용하여 상기 사용자의 아이템에 대한 선호도를 나타내는 히스토그램을 각각 생성하는 단계;
유사 사용자 선별 장치의 계산부가 상기 생성된 히스토그램 내에 존재하는 두 카테고리에 동시에 포함되는 아이템의 비중을 이용하여 상기 두 카테고리 간의 거리를 결정하는 단계;
유사 사용자 선별 장치의 계산부가 상기 결정된 상기 두 카테고리 간의 거리를 기초로 EMD(Earth Mover's Distance)를 이용하여 상기 사용자와 타겟 사용자 간의 유사도를 계산하는 단계; 및
유사 사용자 선별 장치의 선별부가 상기 계산된 유사도를 기초로 상기 타겟 사용자에 대한 유사 사용자를 선별하는 단계;
를 포함하고,
상기 히스토그램은,
각각의 빈을 아이템의 카테고리로 결정하고, 상기 아이템에 대한 평균 평가 점수 또는 각각의 카테고리 내에서 평가한 아이템의 수를 상기 카테고리에 대한 선호도로 결정하며,
상기 유사도는,
상기 사용자에 대한 히스토그램에서 상기 타겟 사용자에 대한 히스토그램으로 옮겨진 빈들의 양 및 상기 결정된 두 빈(bin) 간의 거리의 곱으로 결정되는 유사 사용자 선별 방법.
A method for selecting a similar user for a target user performed by a similar user selection device,
Generating a histogram representing a user's preference for an item using information about a user, the generating unit of the similar-user selecting apparatus;
Determining a distance between the two categories using the weight of items included in the two categories that are present in the generated histogram;
Calculating a similarity between the user and a target user using an EMD (Earth Mover's Distance) based on the determined distance between the two categories; And
Selecting a similar user for the target user based on the calculated similarity;
Lt; / RTI >
The histogram may include:
Determining each bin as a category of items and determining an average rating score for the item or a number of items evaluated in each category as a preference for the category,
Preferably,
Wherein the histogram of the target user is determined by multiplying the histogram of the user by the amount of bins transferred to the histogram for the target user and the distance between the determined two bins.
제1항에 있어서,
상기 사용자에 대한 정보는,
상기 사용자의 식별자, 상기 사용자가 구매 또는 이용한 아이템의 식별자 및 상기 사용자의 해당 아이템에 대한 평가 점수를 포함하는 것을 특징으로 하는 유사 사용자 선별 방법.
The method according to claim 1,
The information about the user includes:
An identifier of the user, an identifier of the item purchased or used by the user, and an evaluation score of the user for the corresponding item.
삭제delete 삭제delete 제1항에 있어서,
상기 선별된 유사 사용자에 대한 정보는,
상기 선별된 유사 사용자에 대한 정보를 기초로 협업 필터링을 이용하여 상기 타겟 사용자가 각 아이템에 부여할 점수를 예측하고, 상기 예측된 점수를 기초로 상기 타겟 사용자에게 추천할 아이템을 선정하는데 이용되는 것을 특징으로 하는 유사 사용자 선별 방법.
The method according to claim 1,
The information about the selected similar user is,
A target user to predict a score to be given to each item using collaboration filtering based on the information about the selected similar user and to select an item to be recommended to the target user based on the predicted score A method for selecting similar users.
KR1020120148150A 2012-12-18 2012-12-18 Method for selecting similar users for collaborative filtering based on earth movers distance KR101620659B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120148150A KR101620659B1 (en) 2012-12-18 2012-12-18 Method for selecting similar users for collaborative filtering based on earth movers distance

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120148150A KR101620659B1 (en) 2012-12-18 2012-12-18 Method for selecting similar users for collaborative filtering based on earth movers distance

Publications (2)

Publication Number Publication Date
KR20140079639A KR20140079639A (en) 2014-06-27
KR101620659B1 true KR101620659B1 (en) 2016-05-13

Family

ID=51130659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120148150A KR101620659B1 (en) 2012-12-18 2012-12-18 Method for selecting similar users for collaborative filtering based on earth movers distance

Country Status (1)

Country Link
KR (1) KR101620659B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064448A (en) 2014-11-28 2016-06-08 이종찬 A recommendation method for items by using preference prediction of their similar group
KR20160064447A (en) 2014-11-28 2016-06-08 이종찬 A recommendation method for new users by using preference prediction based on collaborative filtering algorithm
KR20160064446A (en) 2014-11-28 2016-06-08 이종찬 A preference prediction method based on collaborative filtering algorithm using preference points
KR101924832B1 (en) * 2016-12-29 2018-12-05 서울대학교 산학협력단 Apparatus and method for classifying nodes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123654A (en) * 2010-12-09 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> Information retrieval device, information retrieval method and information retrieval program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012123654A (en) * 2010-12-09 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> Information retrieval device, information retrieval method and information retrieval program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
개인화된 추천을 위한 하이브리드 협업 필터링 알고리즘*

Also Published As

Publication number Publication date
KR20140079639A (en) 2014-06-27

Similar Documents

Publication Publication Date Title
CN109829775B (en) Article recommendation method, device and equipment and readable storage medium
CN107330750B (en) A kind of recommended products figure method and device, electronic equipment
KR101620748B1 (en) Item recommendation method and apparatus
CN107633023B (en) Image duplicate removal method and device
RU2617921C2 (en) Category path recognition method and system
KR101062927B1 (en) Method, system and computer-readable recording medium for recommending other users or objects by considering at least one user&#39;s preference
US20200012849A1 (en) Pedestrian Retrieval Method and Apparatus
KR101620659B1 (en) Method for selecting similar users for collaborative filtering based on earth movers distance
CN108280843A (en) A kind of video object detecting and tracking method and apparatus
CN107436914B (en) Recommendation method and device
CN108446297B (en) Recommendation method and device and electronic equipment
KR101725510B1 (en) Method and apparatus for recommendation of social event based on users preference
CN112818162A (en) Image retrieval method, image retrieval device, storage medium and electronic equipment
CN111159563A (en) Method, device and equipment for determining user interest point information and storage medium
CN108595599A (en) Using label generating method, device, storage medium and computer equipment
US20240346343A1 (en) Recommendation model training method, article recommendation method and system, and related device
CN110347935A (en) Personalized film and television project recommended method and system based on user interest variation
CN111242318A (en) Business model training method and device based on heterogeneous feature library
CN109740621A (en) A kind of video classification methods, device and equipment
CN106502881B (en) Method and device for testing commodity sequencing rule
JP5903376B2 (en) Information recommendation device, information recommendation method, and information recommendation program
CN108734366A (en) User identification method and its system
CN104850600B (en) A kind of method and apparatus for searching for the picture comprising face
KR102170535B1 (en) Apparatus and method for searching based on user preference using sentiment analysis
JP2014215915A (en) Correlation value calculation system, determination system, correlation value calculation method, determination method, and computer program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190415

Year of fee payment: 4