KR20110031760A - Hybrid recommendation method and system for large scale data - Google Patents

Hybrid recommendation method and system for large scale data Download PDF

Info

Publication number
KR20110031760A
KR20110031760A KR1020090089151A KR20090089151A KR20110031760A KR 20110031760 A KR20110031760 A KR 20110031760A KR 1020090089151 A KR1020090089151 A KR 1020090089151A KR 20090089151 A KR20090089151 A KR 20090089151A KR 20110031760 A KR20110031760 A KR 20110031760A
Authority
KR
South Korea
Prior art keywords
neighbors
similar
purchase
recommendation
referring
Prior art date
Application number
KR1020090089151A
Other languages
Korean (ko)
Other versions
KR101081947B1 (en
Inventor
최상현
정명기
정영선
Original Assignee
경상대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경상대학교산학협력단 filed Critical 경상대학교산학협력단
Priority to KR1020090089151A priority Critical patent/KR101081947B1/en
Publication of KR20110031760A publication Critical patent/KR20110031760A/en
Application granted granted Critical
Publication of KR101081947B1 publication Critical patent/KR101081947B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PURPOSE: A system and a method of hybrid recommending for high capacity data are provided to shorten a taking time for providing the recommendation result and improve accuracy of the recommendation result by providing a recommendation result by suing reduced data. CONSTITUTION: Similar neighbors having a similar purchase pattern with a target buyer and different neighbors having a different purchase pattern are selected(S110). By referring purchase history of the different neighbors and purchase history of the target buyer, a boundary function is obtained(S120). By referring the boundary function and a purchase history of the similar neighbors, a recommended item is selected(S130). The similar neighbors and different neighbors are selected by a calculation of a Pearson product-moment correlation coefficient.

Description

대용량 데이터를 위한 하이브리드 추천 방법 및 시스템{HYBRID RECOMMENDATION METHOD AND SYSTEM FOR LARGE SCALE DATA}HYBRID RECOMMENDATION METHOD AND SYSTEM FOR LARGE SCALE DATA}

본 발명은 상품 추천 방법에 관한 것으로, 구체적으로는, 대용량 데이터를 위한 하이브리드 추천 방법 및 시스템에 관한 것이다.The present invention relates to a product recommendation method, and more particularly, to a hybrid recommendation method and system for a large amount of data.

정보 통신 기술의 발달로 정보의 양이 폭발적으로 증가하고 있다. 이에 따라 많은 양의 정보를 효과적으로 탐색할 수 있는 자동화된 도구에 관한 연구가 증가하고 있다. 추천 시스템은 이러한 과제를 해결하기 위해 제안되었다. With the development of information and communication technology, the amount of information is exploding. Accordingly, research on automated tools that can efficiently search large amounts of information is increasing. A recommendation system has been proposed to address these challenges.

추천 시스템은 구매자의 요구에 응답하여 복수의 아이템들(예를 들면, 상품 또는 정보) 중에서 구매자의 요구를 만족하는 아이템을 추천한다. 추천 시스템에서 사용되는 방법으로서 내용 기반 필터링, 협업 필터링, 그리고 하이브리드 방법이 있다. The recommendation system recommends an item that satisfies the buyer's request from among a plurality of items (eg, a product or information) in response to the buyer's request. The methods used in the recommendation system include content-based filtering, collaborative filtering, and hybrid methods.

내용 기반 필터링은 상품의 속성 값을 참조하여 구매자가 요구하는 속성 값을 가지는 상품을 추천한다. 내용 기반 필터링은 정보 탐색 및 정보 필터링으로부터 발전되어 왔다. 협업 필터링은 유사 고객의 구매 이력 정보를 참조하여 구매자가 선호할만한 상품을 찾아 추천하는 방법이다. 하이브리드 방법은 내용 기반 필터 링 및 협업 필터링의 결과를 참조하여 상품을 추천하는 방법이다. 상품 추천 서비스는 이와 같은 방법 중의 하나를 사용하여 구매자에게 적합한 상품을 추천한다. Content-based filtering refers to a product having an attribute value requested by the buyer by referring to the attribute value of the product. Content-based filtering has evolved from information searching and information filtering. Collaborative filtering is a method of finding and recommending products that a buyer may prefer by referring to purchase history information of similar customers. The hybrid method is a method of recommending a product by referring to the results of content-based filtering and collaborative filtering. The product recommendation service recommends a suitable product to the buyer using one of these methods.

특히, 상품 추천 서비스는 전자 상거래에서 유용하게 이용될 수 있다. 예를 들어, 아마존(Amazon.com)과 같은 온라인 서점에서는 추천 시스템을 통해 구매자들의 구매 패턴을 분석하여 해당 구매자가 선호할 것 같은 책을 추천해준다. 또한 추천 시스템은 영화, 뉴스, 쇼핑 몰의 제품 추천 등 다양한 분야에 걸쳐 적용되고 있고 점차 그 분야를 넓혀가고 있다. In particular, the product recommendation service may be usefully used in electronic commerce. For example, an online bookstore like Amazon (Amazon.com) uses a recommendation system to analyze buyers' buying patterns and recommend books that the buyer might prefer. In addition, the recommendation system is being applied to various fields such as movie, news, and shopping mall product recommendation, and is gradually expanding the field.

그런데 추천 시스템이 추천 결과를 제공하기 위해서는 방대한 양의 거래 데이터 및 아이템 속성 데이터를 처리할 것이 요구된다. 거래 데이터는 누가 어떤 아이템을 구매하였는지에 관한 데이터이다. 아이템 속성 데이터는 아이템의 특징에 관한 데이터이다. 거래 데이터는 거래가 수행됨에 따라 누적된다. However, the recommendation system is required to process a large amount of transaction data and item attribute data in order to provide a recommendation result. Transaction data is data about who bought what items. Item attribute data is data concerning the characteristics of an item. Transaction data accumulates as the transaction is performed.

거래 데이터의 양이 증가함에 따라 추천 결과의 제공에 소요되는 시간 및 추천 결과의 정확도가 감소한다. 만약 추천 시스템의 추천 결과가 너무 늦게 제공되거나 추천 결과가 구매자의 요구를 정확하게 반영하지 못할 경우, 추천 시스템은 그 효용을 상실할 것이다. 따라서, 추천 시스템의 추천 결과의 제공 시간 및 추천 결과의 정확도가 향상될 것이 요구된다. As the amount of transaction data increases, the time taken to provide the recommendation results and the accuracy of the recommendation results decrease. If the recommendation results of the recommendation system are provided too late or the recommendation results do not accurately reflect the buyer's needs, the recommendation system will lose its utility. Therefore, it is required to improve the presentation time of the recommendation result and the accuracy of the recommendation result.

본 발명의 목적은 짧은 시간 내에 정확한 추천 결과를 제공할 수 있는 추천 방법을 제공하는 데 있다. It is an object of the present invention to provide a recommendation method that can provide accurate recommendation results within a short time.

본 발명에 따른 하이브리드 추천 방법은 복수의 구매자들 중에서 목표 구매자와 유사한 구매 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 구매 패턴을 가지는 상이 이웃들(Farthest neighbors)을 선정하는 단계; 상기 목표 구매자의 구매 내역과 상기 상이 이웃들의 구매 내역을 참조하여 경계 함수를 구하는 단계; 및 상기 유사 이웃들의 구매 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정하는 단계를 포함한다.Hybrid recommendation method according to the present invention comprises the steps of selecting among the neighbors (Nearest neighbors) having a similar purchase pattern and a different purchase pattern (Farthest neighbors) among the plurality of buyers; Obtaining a boundary function by referring to the purchase history of the target buyer and the purchase history of the different neighbors; And selecting a recommendation item by referring to the purchase history of the similar neighbors and the boundary function.

실시 예로서, 상기 유사 이웃들 및 상기 상이 이웃들은 피어슨 곱 적률 상관 계수(Pearson product-moment correlation coefficient)의 계산에 의해 선정된다. 높은 피어슨 곱 적률 상관 계수 값을 갖는 구매자가 우선적으로 상기 유사 이웃으로 선정된다. 낮은 피어슨 곱 적률 상관 계수 값을 갖는 구매자가 우선적으로 상기 상이 이웃으로 선정된다.In an embodiment, the similar neighbors and the different neighbors are selected by calculation of a Pearson product-moment correlation coefficient. Buyers with high Pearson product moment correlation coefficient values are preferentially chosen as the like neighbors. Buyers with low Pearson product moment correlation coefficient values are preferentially chosen as neighbors.

다른 실시 예로서, 상기 경계 함수는 상기 목표 구매자가 구매한 아이템과 상기 상이 이웃들이 구매한 아이템을 구분하도록 정해진다. 상기 추천 아이템은 협업 필터링 점수 및 DTB(Distance To Boundary) 점수를 참조하여 선정된다. 상기 협업 필터링 점수는 상기 목표 구매자의 구매 패턴과 상기 유사 이웃들의 구매 패턴 의 상관도에 따라 정해진다. 상기 DTB 점수는 상기 유사 이웃들의 구매 아이템이 상기 경계 함수로부터 떨어진 정도에 따라 정해진다. In another embodiment, the boundary function is configured to distinguish between an item purchased by the target buyer and an item purchased by the different neighbors. The recommended item is selected with reference to a collaboration filtering score and a distance to boundary (DTB) score. The collaboration filtering score is determined according to a correlation between the purchase pattern of the target buyer and the purchase pattern of the similar neighbors. The DTB score is determined according to the degree to which the purchased items of the similar neighbors are separated from the boundary function.

다른 실시 예로서, 상기 추천 아이템은 상기 협업 필터링 점수 및 상기 DTB 점수에 가중치 조절 계수를 곱한 값의 합을 참조하여 선정된다. 상기 가중치 조절 계수는 내용 기반 필터링 또는 협업 필터링의 선택적인 수행을 위해 가변될 수 있다. 상기 가중치 조절 계수가 0의 값을 갖는 경우 협업 필터링 방식으로 수행된다. 상기 가중치 조절 계수가 무한대의 값을 갖는 경우 내용 기반 필터링 방식으로 수행된다.In another embodiment, the recommendation item is selected with reference to a sum of a value obtained by multiplying the collaboration filtering score and the DTB score by a weight adjustment factor. The weight adjustment coefficient may be varied for selective performance of content based filtering or collaborative filtering. When the weight adjustment coefficient has a value of 0, the weighting coefficient is performed by the collaborative filtering method. When the weight adjustment coefficient has an infinite value, the content adjustment filtering is performed.

본 발명에 따른 하이브리드 추천 방법은 복수의 사용자들 중에서 목표 사용자와 유사한 행동 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 행동 패턴을 가지는 상이 이웃들(farthest neighbors)을 선정하는 단계; 상기 목표 사용자의 작업 내역과 상기 상이 이웃들의 작업 내역을 참조하여 경계 함수를 구하는 단계; 및 상기 유사 이웃들의 작업 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정하는 단계를 포함한다.Hybrid recommendation method according to the present invention comprises the steps of selecting among the neighbors (Nearest neighbors) having a similar behavior pattern and a different behavior pattern (farthest neighbors) among the plurality of users; Obtaining a boundary function by referring to the task history of the target user and the task history of the different neighbors; And selecting a recommendation item by referring to the work history of the similar neighbors and the boundary function.

본 발명에 따른 하이브리드 추천 시스템은 구매자들의 구매 내역을 포함하는 프로파일 데이터 베이스; 및 추천 시스템을 포함하고, 상기 추천 시스템은 상기 프로파일 데이터 베이스를 참조하여 복수의 구매자들 중에서 목표 구매자와 유사한 구매 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 구매 패턴을 가지는 상이 이웃들(farthest neighbors)을 선정하고, 상기 목표 구매자의 구매 내역과 상기 상이 이웃들의 구매 내역을 참조하여 경계 함수를 구하고, 상기 유사 이웃들 의 구매 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정한다.The hybrid recommendation system according to the present invention includes a profile database including purchase history of buyers; And a recommendation system, wherein the recommendation system refers to the profile database to identify nearest neighbors having similar buying patterns as target buyers and different neighbors having different purchasing patterns from among a plurality of buyers. The user selects a boundary function by referring to the purchase history of the target buyer and the purchase history of the different neighbors, and selects a recommended item by referring to the purchase history of the similar neighbors and the boundary function.

본 발명에 따른 하이브리드 추천 방법은 축소된 데이터를 이용하여 추천 결과를 제공한다. 결국, 본 발명에 따르면 추천 결과의 제공에까지 걸리는 시간이 단축되고 추천 결과의 정확도가 향상될 수 있다.The hybrid recommendation method according to the present invention provides a recommendation result using the reduced data. As a result, according to the present invention, the time taken to provide the recommendation result can be shortened and the accuracy of the recommendation result can be improved.

앞의 일반적인 설명 및 다음의 상세한 설명 모두 예시적이라는 것이 이해되어야 하며, 청구된 발명의 부가적인 설명이 제공되는 것으로 여겨져야 한다. 참조 부호들이 본 발명의 바람직한 실시 예들에 상세히 표시되어 있으며, 그것의 예들이 참조 도면들에 표시되어 있다. 가능한 어떤 경우에도, 동일한 참조 번호들이 동일한 또는 유사한 부분을 참조하기 위해서 설명 및 도면들에 사용된다.It is to be understood that both the foregoing general description and the following detailed description are exemplary, and that additional explanations of the claimed invention are provided. Reference numerals are shown in detail in preferred embodiments of the invention, examples of which are shown in the reference figures. In any case, like reference numerals are used in the description and the drawings to refer to the same or like parts.

아래에서 하이브리드 추천 방법이 본 발명의 특징 및 기능을 설명하기 위한 한 예로서 사용된다. 하지만, 이 기술 분야에 정통한 사람은 여기에 기재된 내용에 따라 본 발명의 다른 이점들 및 성능을 쉽게 이해할 수 있을 것이다, 본 발명은 다른 실시 예들을 통해 또한, 구현되거나 적용될 수 있을 것이다. 게다가, 상세한 설명은 본 발명의 범위, 기술적 사상 그리고 다른 목적으로부터 상당히 벗어나지 않고 관점 및 응용에 따라 수정되거나 변경될 수 있다.In the following, a hybrid recommendation method is used as an example for explaining the features and functions of the present invention. However, one of ordinary skill in the art will readily appreciate the other advantages and performances of the present invention in accordance with the teachings herein, and the present invention may also be implemented or applied through other embodiments. In addition, the detailed description may be modified or changed according to aspects and applications without departing from the scope, technical spirit and other objects of the present invention.

추천 방법의 일종으로 내용 기반 필터링(CBF: Content-Based Filtering)과 협업 필터링(CF: Colaborative Filtering)이 있다. One recommendation method is content-based filtering (CBF) and colaborative filtering (CF).

도 1은 내용 기반 필터링에서 사용되는 아이템 속성 표를 보여준다. 내용 기 반 필터링은 구매자의 구매 패턴에 부합하는 속성을 가진 아이템을 추천한다. 각각의 아이템은 복수의 속성들로 구분될 수 있다. 1 shows an item attribute table used in content-based filtering. Content-based filtering recommends items with attributes that match the buyer's purchasing pattern. Each item may be divided into a plurality of attributes.

도 1을 참조하면, 복수의 아이템들(I1 ~ IM) 각각은 복수의 속성들(f1 ~ fL)을 가진다. 각각의 속성들은 0에서 1 사이의 속성 값을 갖는다. 예를 들어, 속성 값이 0이면 해당 속성의 특징을 거의 가지지 않는다는 의미이며, 속성 값이 1이면 해당 속성의 특징을 완전히 가짐을 의미한다. 또한, 속성 값이 0.5이면 해당 속성의 특징을 절반 정도 가짐을 의미한다.Referring to FIG. 1, each of the plurality of items I 1 to I M has a plurality of attributes f 1 to f L. Each property has an attribute value between 0 and 1. For example, an attribute value of 0 means that the attribute has almost no characteristic, and an attribute value of 1 means that the attribute is completely possessed. In addition, if the attribute value is 0.5, it means that the characteristic of the attribute is about half.

내용 기반 필터링은 아이템 속성 표를 참조하여 구매자가 요구하는 아이템의 속성과 유사한 속성을 가진 아이템을 구매자에게 추천한다. 예를 들어 구매자가 이동형 단말기를 위한 배경 화면을 웹 페이지 상에서 다운로드 받기를 원하는 경우를 가정하자. 각각의 배경 화면들은 복수의 속성들로 구분될 수 있다. 예를 들어, 속성들은 색상(Color), 채도(Saturation), 명도(Luminosity), 그리고 배경 화면의 주제들(Themes)을 포함할 수 있다. 만약 구매자가 특정 연예인에 관한 배경 화면을 선택하는 경우, 내용 기반 필터링 시스템은 그 연예인을 주제로 한 다른 배경 화면들을 구매자에게 추천할 것이다. Content-based filtering refers to the item attribute table to recommend items to the buyer that have attributes similar to those of the item the buyer requires. For example, suppose a buyer wants to download a wallpaper for a mobile terminal on a web page. Each background screen may be divided into a plurality of attributes. For example, the attributes may include color, saturation, brightness, and themes of the wallpaper. If the buyer selects a wallpaper about a particular celebrity, the content-based filtering system will recommend to the buyer other wallpapers based on the celebrity theme.

내용 기반 필터링은 정보 검색의 주요 모델인 불리안 모델, 벡터 공간 모델, 확률 모델, 인공 신경망 모델, 퍼지 집합 모델과 같은 기법을 사용하여 구매자의 요구에 적합한 아이템을 찾는데 효과적인 것이 증명되었다. Content-based filtering has proven to be effective in finding items that meet the needs of buyers using techniques such as Boolean model, vector space model, probabilistic model, artificial neural network model, and fuzzy set model.

그러나, 내용 기반 필터링에 있어서 찾고자 하는 아이템은 반드시 기계가 분 류할 수 있는 형태(예: 텍스트)로 되어 있어야 하고, 구매 기록에 존재하는 단어와 항목의 내용에 나타나는 단어가 정확하게 일치하지 않을 경우 항목을 선택할 수 없는 용어 불일치 문제를 가진다.However, in content-based filtering, the item you are looking for must be in a machine-classifiable form (eg text), and if the word in the purchase record does not exactly match the word that appears in the item's content, There is a term mismatch problem that cannot be selected.

반면에, 협업 필터링은 복수의 구매자들로부터 얻은 기호 정보(Taste information)를 참조하여 목표 구매자의 선호도를 예측한다. 협업 필터링 시스템은 목표 구매자와 유사한 취향을 가진 구매자들의 구매 정보를 이용하여 추천 결과를 생성한다. 협업 필터링의 기본적인 가정은 구매자의 과거의 경향이 미래에서도 그대로 유지될 것이라는 것이다. Collaborative filtering, on the other hand, predicts the preference of the target buyer by referring to taste information obtained from the plurality of buyers. The collaborative filtering system generates recommendation results using purchase information of buyers having a taste similar to the target buyer. The basic assumption of collaborative filtering is that buyers' past trends will remain the same in the future.

도 2는 협업 필터링에서 사용되는 거래 데이터 표를 보여준다. 도 2를 참조하면, 복수의 아이템들(I1 ~ IM)이 복수의 구매자들(c1 ~ cN)에 의해 구매된 적이 있는지를 나타내는 구매 변수(yji)가 표의 형태로 표시된다. 2 shows a transaction data table used in collaborative filtering. Referring to FIG. 2, a purchase variable y ji indicating whether a plurality of items I 1 to I M has been purchased by a plurality of buyers c 1 to c N is displayed in the form of a table.

구매 변수(yji)는 0 또는 1의 값을 갖는다. 0은 구매되지 않았음을 나타내고 1은 구매된 적이 있음을 나타낸다. 예를 들어, 고객(c1)이 아이템(I1)을 구매한 적이 있는 경우, y11은 1의 값을 갖게 된다. 반면에 고객(c1)이 아이템(I2)을 구매한 적이 없는 경우, y21은 0의 값을 갖게 된다. The purchase variable y ji has a value of zero or one. 0 indicates that it has not been purchased and 1 indicates that it has been purchased. For example, if customer c 1 has purchased item I 1 , y 11 has a value of 1. On the other hand, if the customer c 1 has never purchased the item I 2 , y 21 has a value of zero.

협업 필터링에서 우선적으로 수행되는 것은 목표 구매자와 유사한 취향을 가지는 구매자들을 찾아내는 것이다. 이때 모든 구매자들에 대해 유사도 가중치를 구하여 추천 결과를 생성할 수도 있지만 이는 속도 및 정확도 측면에서 바람직하지 않다. 모든 구매자들의 구매 패턴을 분석하여 추천 결과를 생성하기 위해서는 상당한 시간이 소요되기 때문이다. 따라서, 유사한 선호도를 가지는 구매자들을 이용하여 추천 결과를 생성하는 것이 바람직하다.The first thing to do in collaborative filtering is to find buyers with a taste similar to the target buyer. At this point, similarity weights may be obtained for all buyers to generate a recommendation result, but this is not preferable in terms of speed and accuracy. This is because it takes considerable time to analyze the purchase patterns of all buyers and generate the recommendation results. Therefore, it is desirable to generate recommendation results using buyers with similar preferences.

반면에, 유사한 선호도를 가지는 너무 적은 수의 이웃들만을 고려하여 추천 결과를 생성할 경우 자료의 부족으로 구매자가 요구하는 아이템과 유사한 아이템을 발견할 수 없는 경우가 발생한다. 구매자가 요구하는 아이템과 유사한 아이템이 이웃들의 구매 기록에 포함되지 않을 수도 있기 때문이다. 그러므로 추천 시스템이 빠르고 정확한 예측을 할 수 있도록 적절한 이웃의 수를 결정하는 것이 중요하다.On the other hand, when generating a recommendation result considering only too few neighbors with similar preferences, there is a case that the lack of data cannot find an item similar to the item requested by the buyer. This is because an item similar to the item requested by the buyer may not be included in the neighbor's purchase record. Therefore, it is important to determine the appropriate number of neighbors so that the recommender system can make a quick and accurate prediction.

그런데, 협업 필터링은 세 가지 단점들을 갖는다. 첫째, 한 번도 구매된 적이 없는 아이템은 처음부터 추천의 대상에서 제외되는 초기 평가 문제(First-Rater Problem)가 있다. 둘째, 대부분의 구매자들은 모든 아이템들 중 일부에 대한 구매 기록만을 가지기 때문에 구매 기록은 희박성 문제(Sparsity Problem)를 보인다. 셋째, 협업 필터링에서 주로 사용되는 최근접 이웃 알고리즘(Nearest Neighbor Algorithm)의 계산 시간은 구매자와 아이템 수에 기하 급수적으로 비례한다. 따라서, 구매자 수와 아이템 수가 큰 거래 환경 하에서는 이러한 계산 시간이 치명적일 수 있다. 결국, 추천의 품질을 향상시키기 위해서 내용 기반 필터링과 협업 필터링 의 장점을 결합하는 접근 방법이 요구된다. However, collaborative filtering has three disadvantages. First, an item that has never been purchased has a First-Rater Problem that is excluded from the recommendation from the beginning. Second, because most buyers only have a purchase record for some of all items, the purchase record shows a sparse problem. Third, the computation time of the nearest neighbor algorithm, which is mainly used in collaborative filtering, is exponentially proportional to the number of buyers and items. Therefore, in a trading environment where the number of buyers and items is large, this calculation time can be fatal. Finally, an approach that combines the advantages of content-based and collaborative filtering is needed to improve the quality of recommendations.

도 3은 본 발명에 따른 하이브리드 추천 방법을 설명하기 위한 순서도이다. 도 3을 참조하면 본 발명에 따른 하이브리드 추천 방법은 S110 내지 S130의 단계들을 포함한다.3 is a flowchart illustrating a hybrid recommendation method according to the present invention. Referring to FIG. 3, the hybrid recommendation method according to the present invention includes the steps of S110 to S130.

S110 단계에서는 거래 데이터를 참조하여 최유사 이웃들 및 최상이 이웃들이 선택된다. 최유사 이웃들은 목표 구매자와 가장 유사한 구매 패턴을 보이는 구매자들의 집합이다. 최상이 이웃들은 목표 구매자와 가장 상이한 구매 패턴을 보이는 구매자들의 집합이다. 최유사 이웃들 및 최상이 이웃들의 크기는 경우에 따라 적절하게 조절될 수 있다. 예를 들어, 총 100명의 구매자들 중에 최유사 이웃들 및 최상이 이웃들의 수를 각각 20명으로 정하는 것이 가능하다.In step S110, the closest neighbors and the best neighbors are selected with reference to the transaction data. The closest neighbors are a collection of buyers with the most similar buying pattern to the target buyer. The best neighbors are a collection of buyers who show the different buying patterns from the target buyer. The size of the closest neighbors and the best neighbors may be adjusted as appropriate. For example, it is possible to set the number of closest neighbors and the best neighbors to 20 each out of a total of 100 buyers.

본 실시 예에서, 최유사 이웃들과 최상이 이웃들을 구하기 위한 방법으로서 상관 계수(Correlation coefficient)가 이용된다. 상관 계수는 두 변수 간의 연관성의 세기를 나타내는 척도이다. 널리 쓰이는 상관 계수로 피어슨 곱 적률 상관 계수(Pearson product-moment correlation coefficient)가 있다. 피어슨 곱 적률 상관 계수에 있어서, 두 구매자들(CT, Ci) 사이의 연관성의 세기는 다음의 수학식 1에 의해 구해질 수 있다.In this embodiment, a correlation coefficient is used as a method for finding the nearest neighbors and the best neighbors. The correlation coefficient is a measure of the strength of the association between two variables. A commonly used correlation coefficient is the Pearson product-moment correlation coefficient. In the Pearson product moment correlation coefficient, the strength of the association between two buyers C T and C i can be obtained by the following equation (1).

Figure 112009057905492-PAT00001
Figure 112009057905492-PAT00001

여기서, A는 두 구매자들(CT, Ci) 모두에 의해 구매된 아이템들의 개수이고, B는 제 1 구매자(CT)에 의해 구매되었으나 제 2 구매자(Ci)에 의해 구매되지 않은 아이템들의 개수이고, C는 제 2 구매자(Ci)에 의해 구매되었으나 제 1 구매자(CT)에 의해 구매되지 않은 아이템들의 개수이고, D는 두 구매자들(CT, Ci) 모두에 의해 구매되지 않은 아이템들의 개수이다. Where A is the number of items purchased by both buyers C T , C i , and B is an item purchased by first buyer C T but not purchased by second buyer C i . Is the number of items, C is the number of items purchased by the second buyer C i but not purchased by the first buyer C T , and D is the purchase by both buyers C T , C i The number of items that are not.

구매자들 사이의 구매 패턴이 유사할 수록 결과 값(sim(CT, Ci))은 클 것이다. 반대로, 구매자들이 상이한 구매 패턴을 가질 경우 결과 값은 작을 것이다. 상술한 바와 같이 구매자들의 유사도를 구하기 위하여 피어슨 곱 적률 상관 계수를 사용함으로써 유사도의 계산이 단순해진다. 피어슨 곱 적률 상관 계수를 이용한 계산에 있어서, 단순히 아이템들의 개수만이 고려되기 때문이다. 따라서, 유사도의 계산에 소요되는 시간이 감소한다. 유사도 계산에 소요되는 시간이 감소함에 따라 추천 결과에 제공에 소요되는 시간 역시 감소한다. The more similar the purchase pattern among buyers, the larger the result value (sim (C T , C i )). Conversely, if buyers have different purchasing patterns, the resulting value will be small. As described above, the calculation of the similarity is simplified by using the Pearson product moment correlation coefficient to obtain the similarity of the buyers. This is because only the number of items is considered in the calculation using the Pearson product moment correlation coefficient. Thus, the time required for calculating the similarity is reduced. As time spent on similarity calculations decreases, time spent on providing recommendations results also decreases.

단, 본 발명의 범위는 이에 한정되지 않는다. 본 실시 예에 있어서, 피어슨 곱 적률 상관 계수가 사용되었지만 본 발명에 임의의 상관 계수가 사용될 수 있음은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명할 것이다. However, the scope of the present invention is not limited to this. In the present embodiment, although the Pearson product moment correlation coefficient is used, it will be apparent to those skilled in the art that any correlation coefficient may be used in the present invention.

S120 단계에서는 경계 함수(Boundary function)가 구해진다. 경계 함수는 목표 구매자에 의해 이미 구매된 아이템과 최상이 이웃들에 의해 이미 구매된 아이템을 구분하는 경계(Boundary)를 결정한다. 즉, 경계 함수에 의해 목표 구매자에 의해 구매될 가능성이 큰 아이템들과 구매될 가능성이 작은 아이템들이 구분된다. In step S120, a boundary function is obtained. The boundary function determines a boundary that distinguishes an item that has already been purchased by the target buyer and an item that is already purchased by the neighbors of the best. That is, the boundary function distinguishes between items that are likely to be purchased by the target buyer and items that are less likely to be purchased.

경계 함수를 구하기 위하여 목표 구매자의 구매 내역과 최상이 이웃들의 구매 내역이 참조된다. 이를 위해 먼저 목표 구매자의 구매 내역 및 최상이 이웃들의 구매 내역이 수집된다. 이때, 최상이 이웃들의 구매 내역 중에 목표 구매자에 의해 이미 구매된 아이템은 제외된다. 최상이 이웃들은 전술한 S110 단계에서 상관 계수를 이용하여 구해진다. To obtain the boundary function, the purchase history of the target buyer and the purchase history of the neighbors of the best neighbor are referenced. To this end, the purchase history of the target buyer and the purchase history of the best neighbors are first collected. At this time, the items already purchased by the target buyer among the purchase details of the neighbors of the best neighbor are excluded. The best neighbors are found using the correlation coefficient in step S110 described above.

도 4는 경계 함수를 구하는 방법을 설명하기 위한 그래프이다. 도 4를 참조하면, 가로 축은 아이템의 제 1 속성(Feature 1)을 나타내고, 세로 축은 아이템의 제 2 속성(Feature 2)을 나타낸다. 예를 들어 모바일 장치의 배경 화면에 있어서, 제 1 속성은 색상이고 제 2 속성은 채도가 될 수 있다. 설명의 편의를 위하여 두 개의 속성들만이 도시되었지만 도 1에 도시된 바와 같이 아이템은 임의의 속성들을 포함할 수 있다.4 is a graph for explaining a method of obtaining a boundary function. Referring to FIG. 4, the horizontal axis represents the first attribute (Feature 1) of the item, and the vertical axis represents the second attribute (Feature 2) of the item. For example, for a background screen of a mobile device, the first attribute may be color and the second attribute may be saturation. Although only two attributes are shown for convenience of description, as shown in FIG. 1, an item may include arbitrary attributes.

그래프에서 네모는 목표 구매자에 의해 이미 구매된 아이템들을 나타내고, 원은 최상이 이웃들에 의해 이미 구매된 아이템들을 나타낸다. f(x)는 경계 함수이다. 경계 함수에 의해 목표 구매자에 의해 구매된 아이템들이 포함된 영역(B area)과 최상이 이웃들에 의해 구매된 아이템들이 포함된 영역(A area)이 구분된다. The squares in the graph represent items already purchased by the target buyer, and the circles represent items already purchased by the neighbors. f (x) is a boundary function. The boundary function distinguishes an area B containing items purchased by the target buyer from an area A containing items purchased by the neighbors.

최상이 이웃들은 목표 구매자와 상이한 구매 패턴을 보인다. 따라서, 단지 목표 구매자의 구매 내역과 최상이 이웃들의 구매 내역만을 비교함으로써 정확한 경계 함수를 구하는 것이 가능하다. 목표 구매자의 구매 내역과 최상이 이웃들의 구매 내역은 쉽게 분리 가능하기 때문이다. 만약, 모든 구매자들의 구매 내역을 참조하여 경계 함수를 구할 경우, 이는 필연적으로 추천 시스템의 속도 저하를 야기할 것이다. The best neighbors show a different buying pattern than the target buyer. Thus, it is possible to obtain an accurate boundary function by only comparing the purchase history of the target buyer with the purchase history of the neighbors that are the best. This is because the purchase history of the target buyer and the purchase history of the neighbors can be easily separated. If a boundary function is obtained by referring to the purchase history of all buyers, this will inevitably cause the recommendation system to slow down.

또한, 목표 구매자와 상이한 구매 패턴을 보이는 최상이 이웃들의 구매 기록만이 참조되기 때문에 목표 구매자가 구매할 가능성이 작은 아이템들이 보다 정확 하게 구분될 수 있다.In addition, items that are less likely to be purchased by the target buyer can be distinguished more precisely because only the purchase records of the neighbors with the best showing different purchase patterns from the target buyer are referenced.

경계 함수를 구하는 방법의 일종으로 SVM(Support Vector Machine)이 있다. SVM은 기본적으로 두 범주에 포함되는 관측 값들을 분류하는 방법이다. SVM의 목적은 주어진 데이터들을 가능한 멀리 두 개의 집단으로 분리시키는 최적의 초평면(Hyperplane)을 찾는 것이다. One way to get the bounding function is to use a support vector machine (SVM). SVM is basically a method of classifying observations that fall into two categories. The goal of SVM is to find the optimal hyperplane that separates given data into two groups as far as possible.

서로 다른 범주에 속하는 데이터들을 분류하는 경계 함수는 일반적으로 많이 존재하므로 SVM은 이러한 많은 경계 함수들 중에서 최적의 경계 함수를 선택한다. 경계 함수가 데이터와 만날 때까지의 거리를 마진(Margin)이라 한다. '최적분류 초평면'은 크기가 최대인 마진의 중심을 이등분하는 초평면이다. 마진을 이루는 영역에 접하고 있는 데이터들을 'Support Vector'라고 한다.Since there are generally many boundary functions that classify data belonging to different categories, SVM chooses the optimal boundary function among these many boundary functions. The distance until the boundary function meets the data is called the margin. The optimal classification hyperplane is the hyperplane that bisects the center of the largest margin. The data touching the marginal area is called 'Support Vector'.

내용 기반 필터링에 있어서 SVM 결정 경계(SVM Decision Boundary)로부터 아이템까지의 거리로 아이템의 등급이 판정된다. 높은 등급을 가지는 아이템은 목표 구매자에 의해 구매될 가능성이 크다. 반대로 낮은 등급을 가지는 아이템은 목표 구매자에 의해 구매될 가능성이 작다.In content-based filtering, an item's rating is determined by the distance from the SVM Decision Boundary to the item. Items with higher ratings are more likely to be purchased by the target buyer. Conversely, items with lower ratings are less likely to be purchased by the target buyer.

그러나 본 발명의 범위는 이에 한정되지 않는다. 본 발명은 SVM 이외에도 LDA(Linear Discriminant Analysis), QDA(Quadratic Discriminant Analysis), 그리고 KNN(K Nearest Neighbor)와 같은 다양한 분류자들(Classifiers)에 의해 수행될 수 있다.However, the scope of the present invention is not limited thereto. The present invention may be performed by various classifiers such as Linear Discriminant Analysis (LDA), Quadratic Discriminant Analysis (QDA), and K Nearest Neighbor (KNN) in addition to SVM.

다시 도 3을 참조하면, S130 단계에서는 추천 아이템이 결정된다. 추천 아이템을 결정하기 위하여 경계 함수와 최유사 이웃들의 구매 내역이 이용된다. 협업 필터링 점수와 DTB(Distance To Boundary) 점수를 참조하여 아이템의 점수가 산정된다. 높은 점수를 얻은 아이템이 목표 구매자에게 추천될 것이다. Referring back to FIG. 3, in step S130, the recommended item is determined. The boundary function and the purchase history of the closest neighbors are used to determine the recommended item. The item is scored based on the collaboration filtering score and the distance to boundary (DTB) score. The item with the higher score will be recommended to the target buyer.

협업 필터링 점수는 두 고객들 사이의 상관 계수에 따라 정해진다. 협업 필터링 점수를 구하기 위하여 목표 구매자의 구매 패턴과 최유사 이웃들의 구매 패턴이 참조된다. 두 고객들 사이의 상관 계수가 높을수록 협업 필터링 점수가 높아진다. 즉, 두 고객들의 구매 패턴이 유사할수록 협업 필터링 점수가 높아진다. The collaborative filtering score is based on the correlation coefficient between the two customers. In order to obtain a collaborative filtering score, the purchase pattern of the target buyer and the purchase pattern of the closest neighbors are referred to. The higher the correlation coefficient between the two customers, the higher the collaborative filtering score. In other words, the more similar the purchase patterns of the two customers, the higher the collaborative filtering score.

DTB 점수는 아이템이 결정 경계로부터 떨어져 있는 정도를 나타낸다. 아이템이 결정 경계로부터 멀수록(즉, B area 방향으로 갈수록) DTB 점수가 높아진다. 반대로, 아이템이 결정 경계로부터 가깝거나 반대 방향으로 멀수록(즉, A area 방향으로 갈수록) DTB 점수가 낮아진다. DTB 점수를 구하기 위하여 최유사 이웃들의 구매 아이템들이 사용된다. 최유사 이웃들의 구매 아이템들 중에서 결정 경계로부터 B area 방향으로 멀어지는 위치한 아이템은 높은 DTB 점수를 가질 것이다. The DTB score indicates how far the item is from the decision boundary. The further the item is from the decision boundary (ie toward the B area), the higher the DTB score. Conversely, the closer the item is from the decision boundary or in the opposite direction (ie, toward the A area), the lower the DTB score. Purchase items of the closest neighbors are used to obtain the DTB score. Among the purchased items of the closest neighbors, the item located away from the decision boundary in the direction of the B area will have a high DTB score.

도 5는 DTB 점수를 산정하는 방법을 설명하기 위한 그래프이다. 도 5를 참조하면, 세모로 표시된 아이템들은 최유사 이웃들에 의해 구매된 아이템들을 의미한다. 이 아이템들 중에서 경계 함수로부터 가장 멀리 위치한 아이템이 가장 높은 DTB 점수를 가질 것이다. 따라서, 검은색 삼각형으로 표시된 아이템이 가장 높은 DTB 점수를 가질 것이다.5 is a graph for explaining a method of calculating a DTB score. Referring to FIG. 5, items marked with triangles mean items purchased by the closest neighbors. Of these items, the item furthest from the boundary function will have the highest DTB score. Thus, the item marked with a black triangle will have the highest DTB score.

다음의 수학식 2는 아이템에 대한 점수를 구하기 위한 식이다. Equation 2 below is a formula for obtaining a score for an item.

Figure 112009057905492-PAT00002
Figure 112009057905492-PAT00002

SCF는 협업 필터링 점수이고, SDTB는 DTB 점수이다. λ는 협업 필터링 점수와 DTB 점수의 가중치 조절을 위한 계수이다. λ 값을 조절함으로써 동작 모드가 선택될 수 있다. 예를 들어, λ=0인 경우, 협업 필터링으로 동작하고 λ=∞인 경우, 내용 기반 필터링으로 동작한다. S CF is the collaborative filtering score and S DTB is the DTB score. λ is a coefficient for weight adjustment of the collaborative filtering score and the DTB score. The operating mode can be selected by adjusting the λ value. For example, when λ = 0, it operates with collaborative filtering, and when λ = ∞, it operates with content based filtering.

따라서, λ를 적절히 조절함으로써 성능을 향상시키는 것이 가능하다. 예를 들어, 각각의 아이템의 고유한 특성을 가지는 경우에는 λ가 큰 값을 갖게 한다. 이 경우에는 내용 기반 필터링이 우수한 성능을 갖기 때문이다. 반면에 이웃들이 목표 구매자와 상당히 유사한 구매 패턴을 보이는 경우에는 λ가 작은 값을 갖게 한다. 이 경우에는 협업 필터링이 우수한 성능을 갖기 때문이다. Therefore, it is possible to improve performance by adjusting (lambda) suitably. For example, if each item has unique characteristics, λ has a large value. This is because content-based filtering has good performance in this case. On the other hand, if the neighbors show a purchase pattern that is very similar to the target buyer, λ is small. This is because collaborative filtering has excellent performance in this case.

도 6은 λ값에 따른 추천 결과의 정확도를 보여주는 그래프이다. 각각의 분류자들(LDA, QDA, SVM, KNN)에 대한 정확도가 그래프의 형태로 도시된다. 도 6을 참조하면, λ가 0.3인 부근에서 가장 높은 정확도를 보임을 알 수 있다. 그러나, λ의 값은 필요에 따라 적절하게 조절될 수 있다. 6 is a graph showing the accuracy of the recommended result according to the lambda value. The accuracy for each classifier (LDA, QDA, SVM, KNN) is shown in the form of a graph. Referring to FIG. 6, it can be seen that the highest accuracy is shown in the vicinity of?. However, the value of λ can be appropriately adjusted as necessary.

도 7은 본 발명에 따른 하이브리드 추천 방법의 정확도를 보여주는 그래프이다. 도 7을 참조하면, 다양한 분류자들(LDA, QDA, SVM, KNN)에 대한 정확도가 그래프로 표시된다. 모든 분류자들(LDA, QDA, SVM, KNN)의 경우에 본 발명에 따른 하이브리드 추천 방법에서의 정확도가 가장 높음을 알 수 있다. 그 다음으로 감소된 데 이터를 이용한 협업 필터링 방법(CF with reduced data)이 높은 정확도를 가진다. 감소된 데이터를 이용한 협업 필터링 방법은 하이브리드 추천 방법에서 λ=0인 경우이다. 7 is a graph showing the accuracy of the hybrid recommendation method according to the present invention. Referring to FIG. 7, the accuracy for various classifiers (LDA, QDA, SVM, KNN) is shown graphically. For all classifiers (LDA, QDA, SVM, KNN) it can be seen that the accuracy in the hybrid recommendation method according to the present invention is the highest. Next, CF with reduced data has high accuracy. The collaborative filtering method using the reduced data is λ = 0 in the hybrid recommendation method.

또한, 감소된 데이터를 이용한 내용 기반 필터링(CB with reduced data)이 QDA의 경우를 제외하고는 단순한 하이브리드 방법보다 높은 정확도를 가진다. 감소된 데이터를 이용한 내용 기반 필터링 방법은 본 발명에 따른 하이브리드 추천 방법에서 λ=∞인 경우이다. In addition, CB with reduced data has higher accuracy than the simple hybrid method except for QDA. The content-based filtering method using the reduced data is a case where λ = ∞ in the hybrid recommendation method according to the present invention.

도 8은 본 발명에 따른 하이브리드 추천 방법 적용시의 처리 속도 향상을 보여주는 표이다. 도 8을 참조하면 다양한 분류자들(LDA, QDA, SVM, KNN)에 대한 처리 속도가 표에 표시된다. 모든 분류자들(LDA, QDA, SVM, KNN)의 경우에 모든 데이터들을 계산한 경우보다 감소된 데이터만을 고려한 경우에 처리 속도가 향상됨을 알 수 있다. 여기서 감소된 데이터는 목표 구매자의 구매 내역, 최유사 구매자의 구매 내역, 최상이 구매자의 구매 내역만을 포함한다. 8 is a table showing the improvement in processing speed when applying the hybrid recommendation method according to the present invention. Referring to FIG. 8, the processing rates for the various classifiers (LDA, QDA, SVM, KNN) are shown in the table. For all classifiers (LDA, QDA, SVM, KNN), it can be seen that the processing speed is improved when only the reduced data is considered than when all the data are calculated. The reduced data here includes only the purchase history of the target buyer, the purchase history of the closest buyer, and the purchase history of the best buyer.

도 9는 본 발명이 적용되는 하이브리드 추천 시스템의 구성을 간략하게 보여주는 블록도이다. 도 9를 참조하면, 구매자(101)는 네트워크를 통하여 웹 서버(102)에 접속하여 추천 서비스를 받을 수 있다. 웹 서버(102)는 일반 추천 사항을 포함한 웹 컨텐츠를 구매자에게 보여준다. 네트워크는 다수 간의 통신 접속을 수행하여 상호간에 데이터 통신이 이루어지도록 하는 데, 이러한 네트워크는 인터넷, 무선 통신망 등을 포함한다.9 is a block diagram briefly illustrating a configuration of a hybrid recommendation system to which the present invention is applied. Referring to FIG. 9, the purchaser 101 may access the web server 102 through a network and receive a recommendation service. The web server 102 presents the buyer with web content including general recommendations. The network performs a communication connection between a plurality of to allow data communication between each other, such network includes the Internet, wireless communication network and the like.

추천 시스템(103)은 프로파일 데이터베이스(104)를 참조하여 구매자(101)에 게 적합한 아이템을 추천한다. 프로파일 데이터베이스(104)는 구매자들의 구매 내역을 포함한다. 추천 시스템(103)은 프로파일 데이터베이스(104) 내의 구매자들을 최상이 이웃들과 최유사 이웃들로 구분할 것이다. 추천 시스템(103)은 최상이 이웃들의 구매 내역을 참조하여 경계 함수를 구할 것이다. 추천 시스템(103)은 최유사 이웃들의 구매 내역을 참조하여 추천될 아이템을 선정할 것이다.The recommendation system 103 refers to the profile database 104 to recommend suitable items to the purchaser 101. Profile database 104 includes purchase history of buyers. The recommendation system 103 will divide the buyers in the profile database 104 into best neighbors and most like neighbors. The recommendation system 103 will find the boundary function with reference to the purchase history of the best neighbors. The recommendation system 103 will select the item to be recommended by referring to the purchase history of the closest neighbors.

상술한 바와 같이, 본 발명에 있어 Scalability 문제를 해결하기 위해 최유사 이웃과 최상이 이웃의 개념이 사용된다. 최유사 이웃과 최상이 이웃의 개념을 사용함에 따라 유용한 정보만이 계산의 대상이 됨으로써 처리될 데이터의 양이 줄어든다. 처리될 데이터의 양이 감소함에 따라 추천 결과의 생성에 소요되는 시간 역시 감소한다. As described above, the concept of closest neighbor and best neighbor is used in the present invention to solve the scalability problem. As the most likely neighbors and the best use the concept of neighbors, only useful information is subject to calculation, thereby reducing the amount of data to be processed. As the amount of data to be processed decreases, the time taken to generate the recommendation results also decreases.

또한, 희박성 문제(Sparsity problem)를 해결하기 위해 협업 필터링 기법이 사용된다. 목표 구매자와 유사한 구매 패턴을 가지는 최유사 이웃들의 구매 패턴을 이용함으로써 희박성 문제가 해결될 수 있다. 또한, 추천의 정확도 역시 증가할 수 있다.In addition, collaborative filtering techniques are used to solve the sparsity problem. The leanness problem can be solved by using the purchase pattern of closest neighbors with a purchase pattern similar to the target buyer. In addition, the accuracy of the recommendations may also increase.

본 발명을 이해가 용이하도록 설명하기 위해 전자 상거래에서의 상품 추천에 관한 실시 예들이 설명되었으나, 본 발명의 범위는 이에 한정되지 않는다. 본 발명은 대용량 데이터를 이용한 작업에 일반적으로 응용될 수 있다. 예를 들어, 복수의 사용자들 중에서 목표 사용자와 유사한 행동 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 행동 패턴을 가지는 상이 이웃들(farthest neighbors)의 작업 내역을 참조하여 추천 아이템을 선정하는 것이 가능하다. 여기에서의 사용자는 이미 설명된 바와 같이 상품의 구매자일 수도 있고 대용량 데이터 중에서 특정 자료를 검색하는 개인일 수도 있다. In order to facilitate understanding of the present invention, embodiments related to product recommendation in electronic commerce have been described, but the scope of the present invention is not limited thereto. The present invention can be generally applied to working with a large amount of data. For example, it is possible to select the recommended item by referring to the work history of the neighbors having similar behavior patterns and the neighboring neighbors having different behavior patterns among the plurality of users. The user here may be a buyer of a product, as already described, or an individual searching for a specific piece of data from a large volume of data.

즉, 목표 사용자가 특정 데이터를 검색하고자 할 경우, 유사한 데이터를 검색한 적이 있는 유사 이웃들과 상이한 데이터를 검색한 적이 있는 상이 이웃들의 데이터 검색 내역을 참조하여 추천 데이터를 선정하는 것이 가능하다. 다시 말해서, 본 발명은 대용량 데이터 중에서 목표 사용자에게 적합한 데이터를 제공하기 위한 모든 활동에 적용될 수 있다.That is, when the target user wants to search for specific data, it is possible to select the recommendation data by referring to the data search history of different neighbors who have searched for data different from similar neighbors who have searched for similar data. In other words, the present invention can be applied to all activities for providing data suitable for a target user among large amounts of data.

본 발명의 범위 또는 기술적 사상을 벗어나지 않고 본 발명의 구조가 다양하게 수정되거나 변경될 수 있음은 이 분야에 숙련된 자들에게 자명하다. 상술한 내용을 고려하여 볼 때, 만약 본 발명의 수정 및 변경이 아래의 청구항들 및 동등물의 범주 내에 속한다면, 본 발명이 이 발명의 변경 및 수정을 포함하는 것으로 여겨진다.It will be apparent to those skilled in the art that the structure of the present invention can be variously modified or changed without departing from the scope or spirit of the present invention. In view of the foregoing, it is intended that the present invention cover the modifications and variations of this invention provided they fall within the scope of the following claims and equivalents.

도 1은 내용 기반 필터링에서 사용되는 아이템 속성 표를 보여준다.1 shows an item attribute table used in content-based filtering.

도 2는 협업 필터링에서 사용되는 거래 데이터 표를 보여준다. 2 shows a transaction data table used in collaborative filtering.

도 3은 본 발명에 따른 하이브리드 추천 방법을 설명하기 위한 순서도이다.3 is a flowchart illustrating a hybrid recommendation method according to the present invention.

도 4는 경계 함수를 구하는 방법을 설명하기 위한 그래프이다. 4 is a graph for explaining a method of obtaining a boundary function.

도 5는 DTB 점수를 산정하는 방법을 설명하기 위한 그래프이다.5 is a graph for explaining a method of calculating a DTB score.

도 6은 λ값에 따른 추천 결과의 정확도를 보여주는 그래프이다. 6 is a graph showing the accuracy of the recommended result according to the lambda value.

도 7은 본 발명에 따른 하이브리드 추천 방법의 정확도를 보여주는 그래프이다. 7 is a graph showing the accuracy of the hybrid recommendation method according to the present invention.

도 8은 본 발명에 따른 하이브리드 추천 방법 적용시의 처리 속도 향상을 보여주는 표이다. 8 is a table showing the improvement in processing speed when applying the hybrid recommendation method according to the present invention.

도 9는 본 발명이 적용되는 하이브리드 추천 시스템의 구성을 간략하게 보여주는 블록도이다.9 is a block diagram briefly illustrating a configuration of a hybrid recommendation system to which the present invention is applied.

Claims (14)

복수의 구매자들 중에서 목표 구매자와 유사한 구매 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 구매 패턴을 가지는 상이 이웃들(farthest neighbors)을 선정하는 단계;Selecting among the plurality of buyers, neighbors having a similar purchase pattern as the target buyer and farthest neighbors having different purchase patterns; 상기 목표 구매자의 구매 내역과 상기 상이 이웃들의 구매 내역을 참조하여 경계 함수를 구하는 단계; 및Obtaining a boundary function by referring to the purchase history of the target buyer and the purchase history of the different neighbors; And 상기 유사 이웃들의 구매 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정하는 단계를 포함하는 하이브리드 추천 방법.And selecting a recommendation item by referring to the purchase history of the similar neighbors and the boundary function. 제 1 항에 있어서,The method of claim 1, 상기 유사 이웃들 및 상기 상이 이웃들은 피어슨 곱 적률 상관 계수(Pearson product-moment correlation coefficient)의 계산에 의해 선정되는 하이브리드 추천 방법.And the similar neighbors and the different neighbors are selected by calculation of a Pearson product-moment correlation coefficient. 제 2 항에 있어서,The method of claim 2, 높은 피어슨 곱 적률 상관 계수 값을 갖는 구매자가 우선적으로 상기 유사 이웃으로 선정되는 하이브리드 추천 방법.A hybrid recommendation method in which a buyer having a high Pearson product moment correlation coefficient value is preferentially selected as the similar neighbor. 제 2 항에 있어서,The method of claim 2, 낮은 피어슨 곱 적률 상관 계수 값을 갖는 구매자가 우선적으로 상기 상이 이웃으로 선정되는 하이브리드 추천 방법.A hybrid recommendation method in which a buyer with a low Pearson product moment correlation coefficient value is preferentially chosen as the difference neighbor. 제 1 항에 있어서,The method of claim 1, 상기 경계 함수는 상기 목표 구매자가 구매한 아이템과 상기 상이 이웃들이 구매한 아이템을 구분하도록 정해지는 하이브리드 추천 방법.The boundary function is determined to distinguish between the item purchased by the target buyer and the item purchased by the different neighbors. 제 1 항에 있어서,The method of claim 1, 상기 추천 아이템은 협업 필터링 점수 및 DTB(Distance To Boundary) 점수를 참조하여 선정되는 하이브리드 추천 방법.The recommendation item is a hybrid recommendation method is selected based on the collaboration filtering score and distance to boundary (DTB) score. 제 6 항에 있어서,The method of claim 6, 상기 협업 필터링 점수는 상기 목표 구매자의 구매 패턴과 상기 유사 이웃들의 구매 패턴의 상관도에 따라 정해지는 하이브리드 추천 방법.The collaborative filtering score is determined based on a correlation between the purchase pattern of the target buyer and the purchase pattern of the similar neighbors. 제 6 항에 있어서,The method of claim 6, 상기 DTB 점수는 상기 유사 이웃들의 구매 아이템이 상기 경계 함수로부터 떨어진 정도에 따라 정해지는 하이브리드 추천 방법. The DTB score is determined according to the degree to which the purchased items of the similar neighbors are separated from the boundary function. 제 6 항에 있어서,The method of claim 6, 상기 추천 아이템은 상기 협업 필터링 점수 및 상기 DTB 점수에 가중치 조절 계수를 곱한 값의 합을 참조하여 선정되는 하이브리드 추천 방법.And the recommendation item is selected by referring to a sum of a value obtained by multiplying the collaboration filtering score and the DTB score by a weight adjustment factor. 제 9 항에 있어서,The method of claim 9, 상기 가중치 조절 계수는 내용 기반 필터링 또는 협업 필터링의 선택적인 수행을 위해 가변될 수 있는 하이브리드 추천 방법.The weight adjustment coefficient may be variable for selective performance of content-based filtering or collaborative filtering. 제 10 항에 있어서,11. The method of claim 10, 상기 가중치 조절 계수가 0의 값을 갖는 경우 협업 필터링 방식으로 수행되는 하이브리드 추천 방법.The hybrid recommendation method performed by the collaborative filtering method when the weight adjustment coefficient has a value of zero. 제 10 항에 있어서,11. The method of claim 10, 상기 가중치 조절 계수가 무한대의 값을 갖는 경우 내용 기반 필터링 방식으로 수행되는 하이브리드 추천 방법.The hybrid recommendation method performed by the content-based filtering method when the weight adjustment coefficient has an infinite value. 복수의 사용자들 중에서 목표 사용자와 유사한 행동 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 행동 패턴을 가지는 상이 이웃들(farthest neighbors)을 선정하는 단계;Selecting among the plurality of users, neighbors having similar behavior patterns as those of the target user, and different neighbors having different behavior patterns; 상기 목표 사용자의 작업 내역과 상기 상이 이웃들의 작업 내역을 참조하여 경계 함수를 구하는 단계; 및Obtaining a boundary function by referring to the task history of the target user and the task history of the different neighbors; And 상기 유사 이웃들의 작업 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정하는 단계를 포함하는 하이브리드 추천 방법.And selecting a recommendation item by referring to the work history of the similar neighbors and the boundary function. 구매자들의 구매 내역을 포함하는 프로파일 데이터 베이스; 및A profile database including purchase history of buyers; And 추천 시스템을 포함하고,Including a referral system, 상기 추천 시스템은 상기 프로파일 데이터 베이스를 참조하여 복수의 구매자들 중에서 목표 구매자와 유사한 구매 패턴을 가지는 유사 이웃들(Nearest neighbors) 및 상이한 구매 패턴을 가지는 상이 이웃들(farthest neighbors)을 선정하고, 상기 목표 구매자의 구매 내역과 상기 상이 이웃들의 구매 내역을 참조하여 경계 함수를 구하고, 상기 유사 이웃들의 구매 내역 및 상기 경계 함수를 참조하여 추천 아이템을 선정하는 하이브리드 추천 시스템.The recommendation system may select nearest neighbors having similar purchase patterns and target neighbors and different neighboring patterns having different purchase patterns from among a plurality of buyers by referring to the profile database. Hybrid recommendation system to obtain a boundary function by referring to the purchase history and the purchase history of the different neighbors, and to select the recommended item by referring to the purchase history of the similar neighbors and the boundary function.
KR1020090089151A 2009-09-21 2009-09-21 Hybrid recommendation method and system for large scale data KR101081947B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090089151A KR101081947B1 (en) 2009-09-21 2009-09-21 Hybrid recommendation method and system for large scale data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090089151A KR101081947B1 (en) 2009-09-21 2009-09-21 Hybrid recommendation method and system for large scale data

Publications (2)

Publication Number Publication Date
KR20110031760A true KR20110031760A (en) 2011-03-29
KR101081947B1 KR101081947B1 (en) 2011-11-10

Family

ID=43936701

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090089151A KR101081947B1 (en) 2009-09-21 2009-09-21 Hybrid recommendation method and system for large scale data

Country Status (1)

Country Link
KR (1) KR101081947B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190073316A (en) * 2019-06-07 2019-06-26 주식회사 비즈모델라인 System for Operating Relationship Point by using Pattern of Purchase
KR102268739B1 (en) * 2021-03-08 2021-06-24 홍민혜 Method for recommending product based on user purchase history and apparatus for the same
WO2023191155A1 (en) * 2022-03-29 2023-10-05 쿠팡 주식회사 Method for providing item characteristic information, and device therefor

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688576B (en) * 2019-09-25 2020-11-06 北京达佳互联信息技术有限公司 Content recommendation method and device, electronic equipment and storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100408322B1 (en) 1999-06-29 2003-12-06 한국전자통신연구원 Method of personalized marketing using knowledge discovery method
US7219078B2 (en) 2001-09-06 2007-05-15 Causeway Data Communications Limited Spatially-based valuation of property
US8341158B2 (en) * 2005-11-21 2012-12-25 Sony Corporation User's preference prediction from collective rating data

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190073316A (en) * 2019-06-07 2019-06-26 주식회사 비즈모델라인 System for Operating Relationship Point by using Pattern of Purchase
KR102268739B1 (en) * 2021-03-08 2021-06-24 홍민혜 Method for recommending product based on user purchase history and apparatus for the same
KR20220126182A (en) * 2021-03-08 2022-09-15 홍민혜 Method for recommending product using regression analysis according to product code and purchase pattern and apparatus for the same
WO2023191155A1 (en) * 2022-03-29 2023-10-05 쿠팡 주식회사 Method for providing item characteristic information, and device therefor

Also Published As

Publication number Publication date
KR101081947B1 (en) 2011-11-10

Similar Documents

Publication Publication Date Title
CN109559208B (en) Information recommendation method, server and computer readable medium
Li et al. Using multidimensional clustering based collaborative filtering approach improving recommendation diversity
US11823218B2 (en) Customer clustering using integer programming
CN107451894B (en) Data processing method, device and computer readable storage medium
US11836761B2 (en) Heuristic clustering
CN109684538A (en) A kind of recommended method and recommender system based on individual subscriber feature
WO2018200996A1 (en) Method and system of managing item assortment based on demand transfer
US20100088151A1 (en) Method and apparatus for recommending image based on user profile using feature-based collaborative filtering to resolve new item recommendation
CN105426528A (en) Retrieving and ordering method and system for commodity data
CN107808314B (en) User recommendation method and device
TW201501059A (en) Method and system for recommending information
CN108038730A (en) Product similarity determination methods, device and server cluster
CN106952130B (en) General article recommendation method based on collaborative filtering
Liu et al. Mobile commerce product recommendations based on hybrid multiple channels
CN110335123B (en) Commodity recommendation method, system, computer readable medium and device based on social e-commerce platform
Adomavicius et al. Classification, ranking, and top-K stability of recommendation algorithms
US10380209B2 (en) Systems and methods of providing recommendations of content items
CN103886486A (en) Electronic commerce recommending method based on support vector machine (SVM)
CN109961077A (en) Gender prediction's method, apparatus, storage medium and electronic equipment
CN111695023A (en) Information recommendation method and device, storage medium and equipment
CN104616178A (en) Recommendation method of E-commerce goods based on big-data multi-label classification method
KR101081947B1 (en) Hybrid recommendation method and system for large scale data
CN107093122B (en) Object classification method and device
CN110851737A (en) Recommendation method and device, electronic equipment and computer storage medium
Anusha et al. Segmentation of retail mobile market using HMS algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140929

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20151103

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160927

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee