KR101098871B1 - 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 - Google Patents

랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 Download PDF

Info

Publication number
KR101098871B1
KR101098871B1 KR1020100033961A KR20100033961A KR101098871B1 KR 101098871 B1 KR101098871 B1 KR 101098871B1 KR 1020100033961 A KR1020100033961 A KR 1020100033961A KR 20100033961 A KR20100033961 A KR 20100033961A KR 101098871 B1 KR101098871 B1 KR 101098871B1
Authority
KR
South Korea
Prior art keywords
user
post
ranked
similarity
sequence
Prior art date
Application number
KR1020100033961A
Other languages
English (en)
Other versions
KR20110114355A (ko
Inventor
신효섭
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Priority to KR1020100033961A priority Critical patent/KR101098871B1/ko
Priority to US13/084,730 priority patent/US8903822B2/en
Publication of KR20110114355A publication Critical patent/KR20110114355A/ko
Application granted granted Critical
Publication of KR101098871B1 publication Critical patent/KR101098871B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Abstract

본 발명은 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 기술에 관한 것으로, 컨텐츠 유사도 측정 장치의 데이터베이스로부터 컨텐츠를 생성한 사용자 정보 및 컨텐츠에 대한 피드백 정보를 전달받아 각 사용자에 대한 랭킹화를 수행하고, 랭킹화된 결과를 토대로 각 사용자를 복수의 그룹으로 분할하고, 데이터베이스로부터 컨텐츠 및 피드백 정보를 전달 받아 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링을 수행하고, 시퀀스 간의 유사도를 측정하는 것을 특징으로 한다. 본 발명에 의하면, 랭크되어 있는 사용자들의 피드백 정보를 기반으로 사용자의 포스트에 대한 모델링 및 유사도를 측정할 수 있으며, 이를 통해 유사 포스트의 검색, 포스트 클러스터링 및 포스트 분류 등을 가능하게 할 수 있다.

Description

랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체{APPARATUS AND METHOD FOR MEASURING CONTENTS SIMILARITY BASED ON FEEDBACK INFORMATION OF RANKED USER and Computer Readable Recording Medium Storing Program thereof}
본 발명은 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다. 구체적으로 본 발명은, 임의의 포스트에 대하여 사용자 랭크 구간 별 선호 경향을 바탕으로 시퀀스로 모델링을 수행하고 이를 기반으로 포스트 간의 유사도를 측정하는 기술에 관한 것이다.
일반적으로 인터넷 상의 온라인 커뮤니티, 블로그 공간, 소셜 네트워크 등 온라인 네트워크에서 사용자들은 직접 포스트(user-generated contents)를 작성하여 다른 사용자에게 공개할 수 있다.
그리고 다양한 포스트들을 일정한 기준에 따라 랭킹으로 정렬하여 그 중에서 원하는 포스트를 검색하는 기술 역시 이들 포스트 내지 컨텐츠 기술과 함께 발전해 왔다. 이러한 포스트를 랭킹에 기반하여 검색하는 데에는 문서 랭킹 기술이 사용되는데, 종래의 문서 랭킹 기술은 크게 키워드 기반 문서 랭킹 기술과 웹 문서 간 링크 분석에 의한 문서 랭킹 기술로 나눌 수 있다.
키워드 기반 문서 랭킹 기술에 속하는 것 중 전통적인 정보 검색 이론에 기반한 것으로 TF-IDF(Term Frequency - Inverse Document Frequency)가 있는데, 이는 문서 안에서의 단어의 빈도 수(term frequency) 및 단어를 포함하는 문서의 수(document frequency)의 역수 값(inverse document frequency)를 이용한다. 한편, 웹 문서 간 링크 분석에 의한 문서 랭킹 기술에 속하는 것 중 Page Rank 기술은 웹 문서 간의 상호 링크 관계를 분석하여 각 웹 문서의 전역적인 점수를 산출하며, HITS(Hyperlink-Induced Topic Search) 기술은 웹 문서 검색 결과에 대하여 상호 링크 관계를 분석하여 각 문서의 권위성(authority) 및 허브성(hub)에 대한 두 가지 점수를 산출한다.
한편, 공개된 포스트에 대하여 사용자들은 피드백(feedback)을 남길 수 있다. 예를 들어, 포스트에 대한 사용자의 피드백은 포스트를 보고 읽는 것(read 또는 view), 포스트에 덧글을 다는 것(comment), 포스트에 댓글을 남기는 것 (reply), 포스트를 선호하는 것(favorite), 포스트를 복사하는 것(copy), 평점주기(별점주기, evaluation) 등을 뜻한다.
여기서 중요한 점은 사용자들이 피드백하는 포스트들에 대하여 사용자들의 경향(trend)이 발견된다는 점이다. 예를 들어, 전문성이 높은 상위 랭크된 사용자들은 전문성이 높은 포스트들을 선호하여, 피드백을 제공하는 경향이 있을 수 있고, 반면에 전문적이지 않은 중간이나 하위 랭크된 사용자들은 전문성이 높은 포스트보다는 대중성이 높은 포스트를 더 선호하고, 이러한 포스트에 대하여 피드백을 제공하는 경향이 있을 수 있다. 영화, 사진 포스트를 볼 때, 전문가들은 예술성, 전문성 등이 높은 영화나 사진에 대하여 후한 점수를 줄 것이나, 일반인들은 재미있거나 볼거리가 많은 영화나 사진을 더 선호하여 피드백을 줄 것이다. 이처럼 각 포스트에 대한 사용자 랭크 별 선호하는 경향이 서로 다를 것으로 예측된다.
도 1a 내지 도 1c는 다른 사용자 층에 의해 선호되는 3개의 포스트에 대한 피드백 그래프를 도시한 도면이다.
도 1a 내지 도 1c를 참조하면, 서로 다른 사용자 층에 의해서 선호되는 3개의 포스트를 각각 나타내고 있는 것으로, x축은 사용자층을 나타내는데, x 값이 커질수록 낮은 사용자층을 나타낸다. y축은 해당 사용자층의 선호도를 나타내는데, y 값이 커질수록 높은 선호도를 나타낸다.
이에 도 1a의 포스트 그래프를 통해 해당 포스트가 낮은 사용자층 일수록 상대적으로 선호하고, 도 1b의 포스트 그래프를 통해 해당 포스트가 중간 사용자층이 상대적으로 선호하며, 도 1c의 포스트 그래프를 통해 해당 포스트가 높은 사용자층이 선호한다는 것을 알 수 있다.
상기한 바와 같이 동작하는 종래 기술에 의한 사용자 컨텐츠의 분류 방식에 있어서는, 포스트에 대한 피드백 측면에서 볼 때, 사용자의 전문성(expertise) 및 평판(reputation)을 토대로 사용자층 별 선호 포스트를 분류할 수는 있으나, 다양하고 빈번하게 발생되는 포스트들의 피드백에 대한 유사 정도를 정확하게 나타내는 데에는 한계가 있었다.
이에 본 발명은, 임의의 포스트에 대하여 사용자 랭크 구간 별 선호 경향을 바탕으로 시퀀스로 모델링을 수행할 수 있는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
또한 본 발명은, 임의의 포스트에 대하여 사용자 랭크 구간 별 선호 경향을 바탕으로 시퀀스로 모델링을 수행하고 이를 기반으로 포스트 간의 유사도를 측정할 수 있는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명의 일 실시예 장치는, 컨텐츠 유사도 측정 장치에 있어서, 데이터베이스로부터 컨텐츠를 생성한 사용자 정보 및 상기 컨텐츠에 대한 피드백 정보를 전달받아 각 사용자에 대한 랭킹화를 수행하는 사용자 랭킹부와, 상기 랭킹화된 결과를 토대로 상기 각 사용자를 복수의 그룹으로 분할하는 사용자 그룹핑부와, 상기 데이터베이스로부터 상기 컨텐츠 및 피드백 정보를 전달 받아 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링을 수행하는 시퀀스 모델링부와, 각 시퀀스 간의 유사도를 측정하는 포스트 유사도 산출부를 포함한다.
본 발명의 일 실시예 방법은, 컨텐츠 유사도 측정 장치의 데이터베이스로부터 컨텐츠를 생성한 사용자 정보 및 상기 컨텐츠에 대한 피드백 정보를 전달받아 각 사용자에 대한 랭킹화를 수행하는 과정과, 상기 랭킹화된 결과를 토대로 상기 각 사용자를 복수의 그룹으로 분할하는 과정과, 상기 데이터베이스로부터 상기 컨텐츠 및 피드백 정보를 전달 받아 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링을 수행하는 과정과, 각 시퀀스 간의 유사도를 측정하는 과정을 포함한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 랭크되어 있는 사용자들의 피드백 정보를 기반으로 사용자의 포스트에 대한 모델링 및 유사도를 측정할 수 있으며, 이를 통해 유사 포스트의 검색, 포스트 클러스터링 및 포스트 분류 등을 가능하게 할 수 있는 효과가 있다.
도 1a 내지 도 1c는 다른 사용자 층에 의해 선호되는 3개의 포스트에 대한 피드백 그래프를 도시한 도면,
도 2는 본 발명의 실시예에 따른 컨텐츠 유사도 측정 장치의 구조를 도시한 블록도,
도 3a 내지 도 3b는 본 발명의 실시예에 따른 사용자의 온라인 활동 및 사용자 중심의 그래프,
도 4는 본 발명이 실시예에 따른 데이터베이스에서 사용자 집합 중 하나의 사용자 스코어에 대한 사용자 수의 분포를 나타낸 그래프,
도 5는 본 발명의 실시예에 따른 데이터베이스 집합 중 모든 포스트에 대한 각 사용자층의 피드백 개수의 합을 나타낸 그래프,
도 6a 내지 6b는 본 발명의 실시예에 따른 오리지널 및 정규화 수행 그래프,
도 7은 본 발명의 실시예에 따른 컨텐츠 유사도 측정 장치의 동작 절차를 도시한 흐름도.
이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 실시예는 임의의 포스트에 대하여 사용자 랭크 구간 별 선호 경향을 바탕으로 시퀀스로 모델링을 수행하고 이를 기반으로 포스트 간의 유사도를 측정하는 것이다.
도 2는 본 발명의 실시예에 따른 컨텐츠 유사도 측정 장치의 구조를 도시한 블록도이다.
도 2를 참조하면, 사용자는 이동통신 단말, 컴퓨터 등을 포함하는 각종 컴퓨팅 장치로 유무선 통신망과 연동하여 인터넷 상의 온라인 네트워크에서 포스트와 같은 컨텐츠를 생성하게 되며, 이에 컨텐츠 유사도 측정 장치(200)에서는 생성된 컨텐츠와, 컨텐츠 생성자인 사용자, 생성된 컨텐츠에 대한 피드백 정보들을 토대로 컨텐츠의 유사도를 측정하게 된다.
이러한 컨텐츠 유사도 측정 장치(200)는 사용자 수집 정보(202), 포스트 수집 정보(204), 피드백 수집 정보(206) 등의 데이터 집합을 포함하는 데이터베이스(210), 모든 사용자에 대해 랭킹화를 수행하는 사용자 랭킹부(220), 사용자의 랭킹 결과를 바탕으로 사용자층을 여러 그룹으로 분할하는 사용자 그룹핑부(222), 각 포스트에 연관된 피드백의 양을 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링하는 시퀀스 모델링부(224) 및 시퀀스 간의 유사도를 측정하는 포스트 유사도 산출부(226) 등을 포함한다.
그리고 포스트 유사도 산출부(110)를 통해 산출된 포스트 유사도로 응용할 수 있는 유사 포스트 검색부(228), 포스트 클러스터링부(230), 포스트 분류부(232) 등을 포함할 수 있다.
온라인 커뮤니티, 블로그, 소셜 네트워크 등 온라인 네트워크 상에서 사용자의 평판(reputation) 또는 전문성(expertise)은 그 사용자가 온라인 상에 작성한 포스트(post) 및 피드백(feedback) 등의 온라인 활동에 의해서 결정된다. 예를 들어, 어떤 사용자가 작성한 포스트에 대하여 다른 사용자들이 피드백을 제공하였다면, 그 사용자는 그 포스트와 다른 사용자의 피드백들에 의하여 자신의 평판(reputation)이 더욱 높아질 것이고, 평판에 기반한 그 사용자의 스코어도 오르게 될 것이다.
이때, 어떤 사용자가 평판이 낮은 사용자로부터 피드백을 얻을 때보다, 평판이 높은 사용자로부터 피드백을 획득할 때, 그 사용자의 평판이 더 많이 올라 갈 수 있는 경우를 고려하여, 사용자 랭킹부(220)에서는 랜덤워크(random walk) 기반 사용자 랭킹 알고리즘 또는 HITS 알고리즘을 사용자 랭킹 결과를 계산하는 데 적용한다.
각 사용자 랭킹 알고리즘을 설명하기 전에, 사용자 간의 온라인 활동에 대한 그래프 모델을 정의하도록 한다.
도 3a 내지 도 3b는 본 발명의 실시예에 따른 사용자의 온라인 활동 및 사용자 중심의 그래프이다.
포스트를 작성하거나 어떤 포스트에 피드백을 제공하는 사용자의 온라인 활동들은 도 3a에서와 같이 사용자와 포스트를 노드로 표현하고 사용자와 포스트 간의 에지는 포스트를 작성하거나 포스트에 피드백을 제공하는 활동을 나타내는 사용자-포스트 그래프로 모델링될 수 있다. 예를 들어, 사용자 1(300)은 포스트 1과 2를 작성(실선)하였으며, 또한 포스트 1은 사용자 2(302)와 3(304)으로부터 각각 피드백(점선) 받았음을 나타내고 있다.
이러한 사용자-포스트 그래프는 사용자 중심의 그래프 모델로 추상화할 수 있다. 이 그래프 모델은 도 3b와 같으며, 노드 간의 에지는 사용자 간에 주고 받은 피드백의 횟수를 나타낸다. 예를 들어, 사용자 1(350)은 사용자 2(352)로부터 1개의 피드백을 받았고, 동시에 사용자 2(352)는 사용자 1(350)로부터 피드백을 2개 받았음을 알 수 있다.
사용자 중심 그래프의 각 에지는 해당 사용자 간 피드백의 주고받음을 나타내고 있으므로, 평판에 기반한 사용자 랭킹 결과를 계산하는 데 적합한 정보를 포함하고 있다. 따라서, 사용자 중심의 그래프에 대해서 랜덤워크 기반 사용자 랭킹 알고리즘 및 HITS 기반 알고리즘을 적용하여 사용자 랭킹 결과를 얻어낼 수 있다.
사용자 v의 평판에 기반한 스코어를 RR(v)라고 할 때, 사용자 v가 k명의 사용자
Figure 112010023564993-pat00001
에게 제공한 피드백 개수가 각각
Figure 112010023564993-pat00002
라고 한다면, 사용자 ui가 v로부터 피드백을 받음으로써 얻게 되는 스코어는 하기 <수학식 1>이 된다.
Figure 112010023564993-pat00003
따라서, 랜덤워크 기반 사용자 스코어를 계산하는 <수학식 2>는 하기와 같다.
Figure 112010023564993-pat00004
여기서,
Figure 112010023564993-pat00005
는 사용자
Figure 112010023564993-pat00006
의 스코어,
Figure 112010023564993-pat00007
는 사용자
Figure 112010023564993-pat00008
가 사용자
Figure 112010023564993-pat00009
로부터 피드백을 받음으로써 얻게 되는 스코어,
Figure 112010023564993-pat00010
는 감쇠 분자(decay factor, damping factor)로서, 0과 1사이의 값을 가진다.
상기 <수학식 1> 은 HITS 기반 사용자 스코어의 계산에도 이용될 수 있는데, 이중에서 권위성(authority)에 기반한 사용자 스코어
Figure 112010023564993-pat00011
는 아래 <수학식 3>과 같다.
Figure 112010023564993-pat00012
한편, 상기 <수학식 1>이 HITS 기반 사용자 스코어의 계산에 이용될 경우, 허브성(hub)에 기반한 사용자 스코어
Figure 112010023564993-pat00013
는 아래 <수학식 4>와 같다.
Figure 112010023564993-pat00014
이에 HITS에 기반한 사용자의 최종적인 스코어는 하기 <수학식 5>와 같이 계산할 수 있다.
Figure 112010023564993-pat00015
이와 같이 <수학식 5>에 따라 모든 사용자들의 스코어가 결정된 이후에는, 스코어의 순위에 따라서 모든 사용자들의 랭킹 결과를 계산할 수 있다.
사용자 그룹핑부(222)는 사용자 랭킹부(220)의 사용자 랭킹 과정으로 얻어진 모든 사용자의 랭킹 결과를 바탕으로, 사용자층을 분할하여 그룹화하는 것으로, 균등구간 분할, 지수적 구간 분할 등이 사용될 수 있으며, 본 발명의 실시예에서는 지수적 구간 분할 방법을 사용하도록 한다. 그러나, 임의의 사용자층의 분할 방법을 사용하더라도 피드백에 기반한 포스트의 시퀀스 모델링에 동일하게 적용할 수 있음은 물론이다.
랜덤워크, HITS 등에 기반한 사용자 랭킹 방법에 의해서 생성된 사용자 랭크 결과는 대체로 거듭제곱 법칙(Power Law)을 따른다. 즉, 사용자 스코어가 작은 값에서 큰 값으로 증가할수록 각 스코어의 범위에 해당하는 사용자의 숫자는 기하급수적으로 감소하게 된다. 따라서, 스코어가 큰 사용자는 극소수인 반면에, 스코어가 작은 사용자는 그 빈도수가 매우 크다. 이 관계는 x를 사용자 스코어, y를 사용자 수라 할 때, 하기 <수학식 6>으로 표현할 수 있다.
Figure 112010023564993-pat00016
이때, k는 분포에 따라서 달라질 수 있는 상수를 나타낸다. 상기 <수학식 6>에서 양변에 로그를 취하면, 반비례하는 직선을 나타내고, 그 기울기는 k가 된다.
도 4는 본 발명이 실시예에 따른 데이터베이스에서 사용자 집합 중 하나의 사용자 스코어에 대한 사용자 수의 분포를 나타낸 그래프이다.
도 4를 참조하면, x축은 사용자의 스코어를, y축은 해당 스코어에 대한 사용자 빈도수를 각각 로그스케일로 나타내었다. 이 분포는 붉은 선으로 표현된 직선에 유사한 분포를 나타내어 거듭제곱 법칙에 따르는 분포라고 볼 수 있다.
이와 같이 사용자의 스코어와 사용자수의 관계가 지수적 반비례 관계에 있기 때문에, 본 발명의 실시예에서는 각 사용자 스코어 구간(bin, 이하 빈이라 칭함)의 넓이를, 최상위 사용자층에서부터 지수적으로 증가시키도록 계산하는 방법을 제시한다. 그 계산 방법은 다음과 같다.
M을 최상위 랭크된 사용자의 스코어, m을 최하위 랭크된 사용자의 스코어라 하고, N을 전체 빈(bin)의 개수라 할 때, k번째 빈의 최소값 및 최대값은 다음과 같이 정의될 수 있다.
Figure 112010023564993-pat00017
Figure 112010023564993-pat00018
따라서, k번째 빈에 속하는 사용자의 스코어 범위는 Gk - min보다 크고, Gk - max 보다 작은 것으로 정해질 수 있다.
시퀀스 모델링부(224)는 랭크된 사용자 그룹의 선호도에 기반한 포스트의 시퀀스 모델링(post sequence modeling by preference of ranked user groups)을 수행하는 것으로, 각 포스트에 랭크된 사용자그룹의 선호도를 절대적 피드백 양 또는 상대적 피드백 양을 기반으로 하여 모델링을 수행하게 된다.
먼저 절대적 피드백 양을 통한 포스트 모델링 방식에 대해 설명하면, 임의의 포스트에 대하여 각 사용자층으로부터 받는 피드백의 양은 다르기 때문에, 이 피드백 양을 서로 비교함으로써, 해당 포스트에 대한 특정 사용자층의 선호도를 측정할 수 있다. 즉, 임의의 포스트 p 는 N개의 랭크된 사용자 그룹 별 피드백 양으로 표현하면 다음 <수학식 9>와 같이 N차원의 시퀀스로 정의될 수 있다.
Figure 112010023564993-pat00019
단,
Figure 112010023564993-pat00020
는 사용자 그룹 Gk 에 포함되어 있는 사용자들이 포스트 p 에 대해서 제공한 피드백의 수를 나타낸다.
그러나, 특정 사용자층의 피드백의 절대적인 개수가 그 사용자의 선호도를 바로 나타내는 것은 아니다. 이는 각 사용자층의 사용자수가 다를 수 있고, 사용자층마다 사용자당 평균 피드백수가 다를 수 있기 때문이다.
이에 하기에서는 상대적 피드백에 기반한 시퀀스 모델링 방식에 대해 설명하도록 한다.
도 5는 본 발명의 실시예에 따른 데이터베이스 집합 중 모든 포스트에 대한 각 사용자층의 피드백 개수의 합을 나타낸 그래프이다.
도 5를 참조하면, 한 사용자 그룹에서 나온 피드백 수는 다른 사용자 그룹에서 나온 피드백 수보다 더 크거나 작을 수 있다. 따라서, 본 발명의 실시예에서는 주어진 포스트가 특정 사용자층에서 선호되는 정도를 타 포스트와 비교했을 때 상대적 양으로 측정하는 방법을 제시한다. 즉, 포스트 한 개 당, k번째 그룹 Gk에 속하는 사용자들이 제공한 평균 피드백 수는 다음 <수학식 10>으로 계산할 수 있다.
Figure 112010023564993-pat00021
여기서,
Figure 112010023564993-pat00022
는 Gk그룹에 속하는 모든 사용자들에 의한 포스트당 평균 피드백 수를,
Figure 112010023564993-pat00023
는 Gk 그룹에 속하는 모든 사용자들에 의한 포스트 p에 대한 피드백 수를,
Figure 112010023564993-pat00024
는 전체 포스트의 집합을 나타낸다.
따라서, 임의의 포스트 p에 대하여 Gk에 속하는 사용자에 의한 상대적인 피드백양은 다음 <수학식 11>에 의해서 계산될 수 있다.
Figure 112010023564993-pat00025
Figure 112010023564993-pat00026
이 1보다 크다면 포스트 p는 k번째 사용자층에서 평균적인 포스트보다 더 많은 피드백을 획득하였고, Gk 사용자 그룹에 의해서 평균 이상으로 선호되는 포스트로 판단될 수 있으며, 반면에, 1 보다 작은 경우에는 평균적인 포스트보다 더 적은 피드백을 획득하였으므로 해당 사용자 그룹에 의해서 평균 이하로 선호되는 포스트로 판단될 수 있다.
또한, 이를 통해 임의의 포스트에 대하여, 상대적 피드백량(relative feedback)을 이용한 시퀀스 표현이 가능하다. 즉, 랭크된 사용자 그룹의 개수를 N이라 한다면, 임의의 포스트 p는 차원이 N인 상대적 피드백양의 시퀀스로서 다음 <수학식 12>와 같이 정의될 수 있다.
Figure 112010023564993-pat00027
포스트 유사도 산출부(226)는 시퀀스 간의 유사성(Similarity between Sequences)을 측정하기 위한 것으로서, 유사한 포스트를 검색하거나, 포스트들을 클러스터링하기 위해서는 포스트 간의 유사도를 계산하여야 한다. 여기서 두 포스트가 유사하다는 것은 서로 다른 사용자 층 간에 상대적으로 선호되는 경향(trend)이 유사하다고 것을 뜻한다. 예를 들어, 두 포스트가 동시에 하위 사용자 층보다 상위 사용자층에서 더욱 선호된다거나, 또는 반대로 상위 사용자 층보다 하위 사용자층이 선호한다면, 두 포스트는 유사하다고 판단할 수 있다.
시퀀스 모델링부(224)에서 각 포스트는 각 차원이 해당 사용자층의 상대적 피드백 양을 나타내는 시퀀스로 모델링 되었다면, 포스트 유사도 산출부(226)에서 시퀀스 간의 유사도를 측정하는 가장 일반적인 방법은 두 시퀀스를 벡터로 간주할 때의 유클리드 거리(Euclidean distance)를 계산하는 것이다. 즉, N 차원 시퀀스
Figure 112010023564993-pat00028
Figure 112010023564993-pat00029
에 대하여, 두 시퀀스 간의 거리는 다음 <수학식 13>으로 계산할 수 있다.
Figure 112010023564993-pat00030
상기 <수학식 13>에서 시퀀스 간의 거리가 클수록 두 포스트는 유사도가 낮고, 거리가 작을수록 두 포스트는 유사도가 높다고 판단할 수 있다.
하지만 포스트 간의 유사도가 서로 다른 사용자 층 간에 상대적으로 선호되는 경향(trend)이 유사한 정도로 정의할 때, 단순히 두 시퀀스 간의 유클리드 거리는 이러한 사용자 층의 상대적 선호 경향 즉, 시퀀스 궤적(trajectory) 간의 유사성을 정확하게 반영하지 못할 수 있다.
도 6a 내지 6b는 본 발명의 실시예에 따른 오리지널 및 정규화 수행 그래프이다.
도 6a를 참조하여, 시퀀스 s1, s2, s3을 고려해서 살펴보면, sequence_distance(s1,s2) > sequence_distance(s3,s2) 임을 직관적으로 알 수 있다. 즉, s2는 s1보다 s3에 유사하다고 판단하게 된다. 하지만, s1과 s2는 하위 사용자 층보다는 상위 사용자층에 의해서 상대적으로 더욱 선호되는 반면, s3는 반대로 상위 사용자층보다는 하위 사용자층이 선호한다는 것을 알 수 있다. 따라서, 실제로는 도 6b의 정규화된 그래프에서처럼, s2는 s3보다 s1에 더욱 유사한 것임을 인지할 수 있다.
이와 같은 문제는 각 시퀀스 간의 구성 원소의 분포가 다르기 때문에 발생한다. 시퀀스 간의 유클리드 거리 공식이 갖는 이 같은 문제를 해결하기 위하여 본 발명의 실시예에서는 최대값 및 최소값을 이용한 시퀀스 정규화 방법과, 선호도 임계값을 적용한 시퀀스 정규화 방법의 2가지 시퀀스 정규화 방법을 제시한다.
먼저, 최대값 및 최소값을 이용한 시퀀스 정규화 방법을 살펴보면, 시퀀스
Figure 112010023564993-pat00031
에 대해서, 시퀀스 원소 중 최대값 및 최소값을 다음<수학식 14>와 같이 계산할 수 있다.
Figure 112010023564993-pat00032
Figure 112010023564993-pat00033
그리고 정규화된 시퀀스를
Figure 112010023564993-pat00034
라 할 때, 그것의 i번째 원소
Figure 112010023564993-pat00035
는 다음 <수학식 15>와 같이
Figure 112010023564993-pat00036
로부터 변환된다.
Figure 112010023564993-pat00037
이에 로그를 적용한 계산 방법은 다음 <수학식 16>과 같다.
Figure 112010023564993-pat00038
선호도 임계값을 적용한 시퀀스 정규화 방법은, 시퀀스
Figure 112010023564993-pat00039
의 i 번째 원소
Figure 112010023564993-pat00040
가 1보다 작다는 것은 해당 사용자층이 이 포스트를 평균적인 포스트에 비해서 상대적으로 덜 선호한다는 것을 나타낸다. 반대로,
Figure 112010023564993-pat00041
가 1보다 크다면 해당 사용자층이 이 포스트를 평균적인 포스트에 비해서 상대적으로 더 선호한다는 것을 나타낸다.
Figure 112010023564993-pat00042
가 1 이라면 해당 포스트는 해당 사용자층이 평균적으로 선호하는 정도의 포스트임을 나타낸다. 따라서, 선호도 임계값 1을 기준으로 1보다 작을 때와, 1보다 클 때를 구분하여 시퀀스를 정규화하는 방법을 제시할 필요가 있다. 정규화한 결과의 전체 구간을 [-1,1]로 잡을 때, [-1,0] 구간은 원래의 값이 1보다 작은 값들이 사상되는 구간이고, [0,1]은 원래의 값이 1보다 큰 값들이 사상되는 구간이다. 결과적으로, 시퀀스
Figure 112010023564993-pat00043
의 i 번째 원소
Figure 112010023564993-pat00044
에 대한 정규화된 값
Figure 112010023564993-pat00045
은 다음 <수학식 17>과 같이 계산할 수 있다.
Figure 112010023564993-pat00046
이에 로그를 적용한 계산 방법은 다음 <수학식 18>과 같다.
Figure 112010023564993-pat00047
상기와 같이 컨텐츠 유사도 측정 장치(200)를 통해 수행된 포스트의 시퀀스 변환 및 시퀀스들 간에 측정된 유사도는 유사 포스트 검색을 수행하는 유사 포스트 검색부(228), 분할 기반 클러스터링 알고리즘 또는 계층형 클러스터링 알고리즘으로 포스트들을 클러스터링하는 포스트 클러스터링부(230)와, 랭크된 사용자 그룹의 선호도에 기반한 포스트의 분류를 수행하는 포스트 분류부(232)에 적용될 수 있다.
구체적으로 유사 포스트 검색부(228)는 임의의 포스트가 질의(query)로 주어졌을 때, 가장 유사한 포스트를 찾아 주는 것으로서, 질의 포스트(query post)에 유사한 포스트란, 선호하는 사용자층이 질의 포스트와 유사하다는 것을 의미한다. 다음 (표 1)은 유사포스트 검색 알고리즘의 한 예이다.
Figure 112010023564993-pat00048
포스트 클러스터링부(230)는 분할 기반 클러스터링 알고리즘 또는 계층형 클러스터링 알고리즘 등의 다양한 방법으로 포스트를 클러스터링한다.
다수선택 클러스터링(Majority Selection Clustering)에서 클러스터는 사용자층을 대표하는 사용자그룹별로 하나씩 만들어진다. 각 포스트에 대하여 상대적 피드백 양(즉, 선호도)이 가장 높은 사용자 층(layer, group)의 클러스터에 해당 포스트를 할당하는 방법이다. 특정 사용자층의 상대적 피드백양은 본 발명의 실시예에서 제시한, 각 포스트를 N 차원의 시퀀스로 모델링한 방법을 기반으로 계산할 수 있다. 다음 (표 2)는 다수선택 클러스터링 알고리즘의 한 예이다.
Figure 112010023564993-pat00049
K-means 클러스터링은 포스트를 표현한 시퀀스 간의 유사도를 바탕으로 k-means 방법을 통해서 포스트 클러스터링을 하는 방법이다. K-means알고리즘에서는 각 포스트를 가장 가까운 중심점(centroid)을 포함한 클러스터에 할당하는 과정이 있는데, 이때 포스트와 중심점과의 거리를 계산할 때 본 발명의 실시예에서 포스트 간 유사도 방법을 사용한다. 다음 (표 3)은 K-means 클러스터링 알고리즘의 한 예이다.
Figure 112010023564993-pat00050
계층적 클러스터링(AHC; Agglomerative Hierarchical Clustering)은 처음에 모든 포스트를 클러스터로 초기화하고, 특정 임계거리를 만족하는 가장 가까운 두 개의 클러스터가 존재하는 한 머징을 반복하는 클러스터링 알고리즘이다. 본 발명의 실시예에서 제안한 포스트 유사도는 두 포스트 간의 거리 혹은 두 클러스터 간의 거리를 측정할 때 사용한다. 다음 (표 4)는 계층적 클러스터링 알고리즘의 한 예이다.
Figure 112010023564993-pat00051
그리고 포스트 분류부(232)는 랭크된 사용자 그룹의 선호도에 기반한 포스트의 분류를 수행하는 것으로서, 랭크된 사용자 그룹의 선호도 패턴은 무수히 많은 형태로 존재할 수 있다. 그러나 각 응용에 따라서 빈번하게 발생하거나 응용에 적합한 패턴을 유형화하고, 이에 대한 클래스를 지정할 수 있다. 본 발명의 실시예에서는 이 중에서 대표적으로 아래와 같은 사용자 패턴을 예시로서 제시한다.
ㆍ전문성(Expertise)이 높은 포스트: 상위 랭크된 사용자 그룹이 상대적으로 많이 선호하는 패턴의 포스트
ㆍ대중성(popularity)이 높은 포스트: 중하위 랭크된 사용자 그룹이 상대적으로 많이 선호하는 패턴의 포스트
ㆍ전문성과 대중성을 고루 갖춘 포스트: 상위 랭크 사용자 그룹 뿐 아니라, 중하위 랭크된 사용자 그룹도 고루 선호하는 패턴의 포스트
ㆍ저급성(Lowbrow)이 강한 포스트: 상위 랭크된 사용자들일수록 선호하지 않지만, 하위로 갈수록 선호도가 급격히 높아지는 패턴의 포스트
이와 같이 포스트 분류부(232)에서 포스트의 분류 응용 프로그램에서는 응용에 적합한 선호도 패턴을 지정하고, 지정된 패턴에 부합되는 포스트와 부합되지 않는 포스트를 판단할 수 있는 알고리즘 및 기법을 개발하여 적용할 수 있다.
도 7은 본 발명의 실시예예 따른 컨텐츠 유사도 측정 장치의 동작 절차를 도시한 흐름도이다.
도 7을 참조하면, 컨텐츠 유사도 측정 장치(200)의 사용자 랭킹부(220)는 700단계에서 데이터베이스(210)로부터 사용자 수집 정보(202) 및 피드백 수집 정보(206)를 전달받아 이를 토대로 모든 사용자에 대해 랭킹화를 수행한다.
사용자의 랭킹 결과는 702단계에서 사용자 그룹핑부(222)로 전달하여 사용자 그룹핑부(222)에서 사용자층을 여러 그룹으로 분할하게 된다.
그리고 704단계에서 시퀀스 모델링부(224)는 각 포스트에 연관된 피드백 양을 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링을 수행한다.
이후 706단계에서 포스트 유사도 산출부(226)는 모델링된 시퀀스 간의 유사도를 측정하게 되고, 측정된 유사도는 유사 포스트 검색부(228), 포스트 클러스터링부(230) 및 포스트 분류부(232)로 전달하여 유사 포스트 검색, 포스트 클러스터링 수행, 랭크된 사용자 그룹의 선호도에 기반한 포스트 분류 등을 가능하게 한다.
이와 같이, 이러한 컨텐츠 유사도 측정 장치(200)는 아래와 같이 사용자 간의 의사소통이 이루어지는 다양한 종류의 온라인 네트워크 내에서 두루 적용될 수 있다.
(1) 블로그
블로그 포스트에 대한 읽기, 덧글, 스크랩, 연결 글, 추천 등
(2) 온라인 포럼
포스트에 대한 읽기, 댓글, 덧글, 추천, 반대 등등
(3) 온라인 소셜 네트워크
페이스북, 마이스페이스, 싸이월드 미니홈피, LinkedIn 등등에서 사용자가 올린 포스트에 대한 읽기, 댓글, 덧글, 추천, 반대, 연결 글 작성 등
(4) 동영상, 이미지, 음악 공유 사이트
Flickr, YouTube, 다음 tv팟 등등에서 사용자가 올린 포스트에 대한 읽기, 댓글, 덧글, 추천, 반대, 연결 글 작성 등
(5) 뉴스
뉴스에 대한 읽기/덧글/추천/반대
뉴스덧글에 대한 덧글/추천/반대
(6) 쇼핑몰
물건(아이템)에 대한 보기/덧글/추천/반대/평점주기/사기/소감쓰기 등
이상 설명한 바와 같이, 본 발명은 임의의 포스트에 대하여 사용자 랭크 구간 별 선호 경향을 바탕으로 시퀀스로 모델링을 수행하고 이를 기반으로 포스트 간의 유사도를 측정한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
200 : 컨텐츠 유사도 측정 장치 210 : 데이터 베이스
220 : 사용자 랭킹부 222: 사용자 그룹핑부
224 : 시퀀스 모델링부 226 : 포스트 유사도 산출부
228 : 유사 포스트 검색부 230 : 포스트 클러스터링부
232 : 포스트 분류부

Claims (19)

  1. 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치에 있어서,
    데이터베이스로부터 컨텐츠를 생성한 사용자 정보 및 상기 컨텐츠에 대한 피드백 정보를 전달받아 각 사용자에 대한 랭킹화를수행하는 사용자 랭킹부와,
    상기 랭킹화된 결과를 토대로 상기 각 사용자를 복수의 그룹으로 분할하는 사용자 그룹핑부와,
    상기 데이터베이스로부터 상기 컨텐츠 및 피드백 정보를 전달 받아 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링하는 시퀀스 모델링부와,
    각 시퀀스 간의 유사도를 측정하는 포스트 유사도 산출부
    를 포함하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
  2. 제 1항에 있어서,
    상기 사용자 랭킹부는,
    랜덤워크(random walk) 기반 알고리즘 및 HITS(Hyperlink-Induced Topic Search) 기반 알고리즘 중 어느 하나 이상을 사용하여 사용자 랭킹을 산출하는 것을 특징으로 하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
  3. 제 1항에 있어서,
    상기 사용자 그룹핑부는,
    지수적 구간 분할을 통해 각 사용자를 그룹별로 분할하는 것을 특징으로 하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
  4. 제 1항에 있어서,
    상기 시퀀스 모델링부는,
    각 포스트에 랭크된 사용자 그룹의 선호도를 절대적 피드백 양을 기반으로 하기 수학식을 통해 모델링하는 것을 특징으로 하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
    Figure 112010023564993-pat00052

    여기서,
    Figure 112010023564993-pat00053
    는 사용자 그룹 Gk 에 포함되어 있는 사용자들이 포스트 p 에 대해서 제공한 피드백의 수임.
  5. 제 1항에 있어서,
    상기 시퀀스 모델링부는,
    각 포스트에 랭크된 사용자 그룹의 선호도를 상대적 피드백 양을 기반으로 하기 수학식을 통해 모델링하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
    Figure 112010023564993-pat00054

    Figure 112010023564993-pat00055

    여기서,
    Figure 112010023564993-pat00056
    는 Gk그룹에 속하는 모든 사용자들에 의한 포스트당 평균 피드백 수,
    Figure 112010023564993-pat00057
    는 Gk 그룹에 속하는 모든 사용자들에 의한 포스트 p에 대한 피드백 수임.
  6. 제 1항에 있어서,
    상기 포스트 유사도 산출부는,
    각 시퀀스를 벡터로 하여 유클리드 거리를 계산하고,
    하기 수학식으로 최대값 및 최소값을 이용한 시퀀스 정규화를 수행하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
    Figure 112010023564993-pat00058

    여기서, 시퀀스(
    Figure 112010023564993-pat00059
    ) 원소 중 최대값은
    Figure 112010023564993-pat00060
    , 최소값은
    Figure 112010023564993-pat00061
    , 정규화된 시퀀스
    Figure 112010023564993-pat00062
    에서
    Figure 112010023564993-pat00063
    는 i번째 원소임.
  7. 제 1항에 있어서,
    상기 포스트 유사도 산출부는,
    각 시퀀스를 벡터로 하여 유클리드 거리를 계산하고,
    하기 수학식으로 선호도 임계값을 적용한 시퀀스 정규화를 수행하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
    Figure 112010023564993-pat00064

    여기서, 시퀀스(
    Figure 112010023564993-pat00065
    ) 원소 중 최대값은
    Figure 112010023564993-pat00066
    , 최소값은
    Figure 112010023564993-pat00067
    , 정규화된 시퀀스
    Figure 112010023564993-pat00068
    에서
    Figure 112010023564993-pat00069
    는 i번째 원소임.
  8. 제 1항에 있어서,
    상기 장치는,
    상기 포스트 유사도 산출부를 통해 포스트의 시퀀스들 간에 측정된 유사도를 이용하여 임의의 포스트에 대해 유사한 값의 포스트를 검색하는 유사 포스트 검색부와,
    상기 포스트의 피드백 양 및 유사도를 통해 다수선택 클러스링, K-means 클러스터링 및 계층적 클러스터링(AHC) 알고리즘 중 적어도 하나를 통하여 상기 포스트들을 클러스터링하는 포스트 클러스터링부와,
    상기 각 랭크된 사용자 그룹의 선호도에 기반한 포스트의 분류를 수행하는 포스트 분류부
    를 더 포함하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 장치.
  9. 컨텐츠 유사도 측정 장치의 데이터베이스로부터 컨텐츠를 생성한 사용자 정보 및 상기 컨텐츠에 대한 피드백 정보를 전달받아 각 사용자에 대한 랭킹화를 수행하는 과정과,
    상기 랭킹화된 결과를 토대로 상기 각 사용자를 복수의 그룹으로 분할하는 과정과,
    상기 데이터베이스로부터 상기 컨텐츠 및 피드백 정보를 전달 받아 각 랭크된 사용자 그룹을 기준으로 시퀀스 모델링하는 과정과,
    각 시퀀스 간의 유사도를 측정하는 과정
    을 포함하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  10. 제 9항에 있어서,
    상기 랭킹화를 수행하는 과정은,
    랜덤워크(random walk) 기반 알고리즘 및 HITS(Hyperlink-Induced Topic Search) 기반 알고리즘 중 어느 하나 이상을 사용하여 사용자 랭킹을 산출하는 것을 특징으로 하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  11. 제 9항에 있어서,
    상기 분할하는 과정은,
    지수적 구간 분할을 통해 각 사용자를 그룹별로 분할하는 것을 특징으로 하는 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  12. 제 9항에 있어서,
    상기 시퀀스 모델링하는 과정은,
    각 포스트에 랭크된 사용자 그룹의 선호도를 절대적 피드백 양을 기반으로 하기 수학식을 통해 모델링하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
    Figure 112010023564993-pat00070

    여기서,
    Figure 112010023564993-pat00071
    는 사용자 그룹 Gk 에 포함되어 있는 사용자들이 포스트 p 에 대해서 제공한 피드백의 수임.
  13. 제 9항에 있어서,
    상기 시퀀스 모델링하는 과정은,
    각 포스트에 랭크된 사용자 그룹의 선호도를 상대적 피드백 양을 기반으로 하기 수학식을 통해 모델링하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
    Figure 112010023564993-pat00072

    Figure 112010023564993-pat00073

    여기서,
    Figure 112010023564993-pat00074
    는 Gk그룹에 속하는 모든 사용자들에 의한 포스트당 평균 피드백 수,
    Figure 112010023564993-pat00075
    는 Gk 그룹에 속하는 모든 사용자들에 의한 포스트 p에 대한 피드백 수임.
  14. 제 9항에 있어서,
    상기 유사도를 측정하는 과정은,
    각 시퀀스를 벡터로 하여 유클리드 거리를 계산하고,
    하기 수학식으로 최대값 및 최소값을 이용한 시퀀스 정규화를 수행하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
    Figure 112010023564993-pat00076

    여기서, 시퀀스(
    Figure 112010023564993-pat00077
    ) 원소 중 최대값은
    Figure 112010023564993-pat00078
    , 최소값은
    Figure 112010023564993-pat00079
    , 정규화된 시퀀스
    Figure 112010023564993-pat00080
    에서
    Figure 112010023564993-pat00081
    는 i번째 원소임.
  15. 제 9항에 있어서,
    상기 유사도를 측정하는 과정은,
    각 시퀀스를 벡터로 하여 유클리드 거리를 계산하고,
    하기 수학식으로 선호도 임계값을 적용한 시퀀스 정규화를 수행하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
    Figure 112010023564993-pat00082

    여기서, 시퀀스(
    Figure 112010023564993-pat00083
    ) 원소 중 최대값은
    Figure 112010023564993-pat00084
    , 최소값은
    Figure 112010023564993-pat00085
    , 정규화된 시퀀스
    Figure 112010023564993-pat00086
    에서 는 i번째 원소임.
  16. 제 9항에 있어서,
    상기 방법은,
    상기 포스트 유사도 산출부를 통해 포스트의 시퀀스들 간에 측정된 유사도를 이용하여 임의의 포스트에 대해 유사한 값의 포스트를 검색하는 과정
    을 더 포함하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  17. 제 9항에 있어서,
    상기 방법은,
    상기 포스트의 피드백 양 및 유사도를 통해 다수선택 클러스링, K-means 클러스터링 및 계층적 클러스터링(AHC) 알고리즘중 적어도 하나를 통하여 상기 포스트들을 클러스터링하는 과정
    을 더 포함하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  18. 제 9항에 있어서,
    상기 방법은,
    상기 각 랭크된 사용자 그룹의 선호도에 기반한 포스트의 분류를 수행하는 과정
    을 더 포함하는 것을 특징으로 하는 랭크된 사용자의피드백 정보에 기반한 컨텐츠 유사도 측정 방법.
  19. 제 9항 내지 제 18항 중 어느 한 항에 기재된 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020100033961A 2010-04-13 2010-04-13 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체 KR101098871B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100033961A KR101098871B1 (ko) 2010-04-13 2010-04-13 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
US13/084,730 US8903822B2 (en) 2010-04-13 2011-04-12 Apparatus and method for measuring contents similarity based on feedback information of ranked user and computer readable recording medium storing program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100033961A KR101098871B1 (ko) 2010-04-13 2010-04-13 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체

Publications (2)

Publication Number Publication Date
KR20110114355A KR20110114355A (ko) 2011-10-19
KR101098871B1 true KR101098871B1 (ko) 2011-12-26

Family

ID=44761681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100033961A KR101098871B1 (ko) 2010-04-13 2010-04-13 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체

Country Status (2)

Country Link
US (1) US8903822B2 (ko)
KR (1) KR101098871B1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566320B2 (en) * 2011-11-21 2013-10-22 Microsoft Corporation System and method for selectively providing an aggregated trend
US20130227011A1 (en) * 2012-02-29 2013-08-29 Eventbrite, Inc. Interest-Based Social Recommendations for Event Ticket Network Systems
US8639704B2 (en) * 2012-04-04 2014-01-28 Gface Gmbh Inherited user rating
US9348886B2 (en) * 2012-12-19 2016-05-24 Facebook, Inc. Formation and description of user subgroups
US20140244560A1 (en) * 2013-02-22 2014-08-28 Google Inc. Engagement and Experience Based Ranking
US9819618B2 (en) 2014-06-18 2017-11-14 Microsoft Technology Licensing, Llc Ranking relevant discussion groups
US20170278038A1 (en) * 2014-08-25 2017-09-28 Hewlett-Packard Development Company, L.P. Discussion resource recommendation
CN104966219B (zh) * 2015-07-21 2020-12-22 武汉Tcl集团工业研究院有限公司 一种基于词频加权技术的个性化协同过滤推荐方法及系统
CN105426550B (zh) * 2015-12-28 2020-02-07 Tcl集团股份有限公司 一种基于用户质量模型的协同过滤标签推荐方法及系统
CN107301583B (zh) * 2017-05-26 2020-11-17 重庆邮电大学 一种基于用户偏好和信任的冷启动推荐方法
US10469504B1 (en) * 2017-09-08 2019-11-05 Stripe, Inc. Systems and methods for using one or more networks to assess a metric about an entity
US10817542B2 (en) * 2018-02-28 2020-10-27 Acronis International Gmbh User clustering based on metadata analysis
US10942979B2 (en) * 2018-08-29 2021-03-09 International Business Machines Corporation Collaborative creation of content snippets
CN114223012A (zh) * 2019-10-31 2022-03-22 深圳市欢太科技有限公司 推送对象确定方法、装置、终端设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US9704128B2 (en) * 2000-09-12 2017-07-11 Sri International Method and apparatus for iterative computer-mediated collaborative synthesis and analysis
US7526100B1 (en) * 2003-04-22 2009-04-28 Advanced Optical Systems, Inc. System for processing and recognizing objects in images
US7184929B2 (en) * 2004-01-28 2007-02-27 Microsoft Corporation Exponential priors for maximum entropy models
US8170897B1 (en) * 2004-11-16 2012-05-01 Amazon Technologies, Inc. Automated validation of results of human performance of tasks
US7707206B2 (en) * 2005-09-21 2010-04-27 Praxeon, Inc. Document processing
US20070208730A1 (en) 2006-03-02 2007-09-06 Microsoft Corporation Mining web search user behavior to enhance web search relevance
KR100771142B1 (ko) 2006-03-07 2007-11-19 오피니티 에이피(주) 사용자의 평판 스코어를 제공하는 리뷰 스코어링 방법 및시스템
US20100205123A1 (en) * 2006-08-10 2010-08-12 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
KR100818553B1 (ko) 2006-08-22 2008-04-01 에스케이커뮤니케이션즈 주식회사 문서랭킹 부여방법 및 이를 수행할 수 있는 프로그램이수록된 컴퓨터로 읽을 수 있는 기록 매체
US8661035B2 (en) * 2006-12-29 2014-02-25 International Business Machines Corporation Content management system and method
US8032480B2 (en) * 2007-11-02 2011-10-04 Hunch Inc. Interactive computing advice facility with learning based on user feedback
US20100030578A1 (en) * 2008-03-21 2010-02-04 Siddique M A Sami System and method for collaborative shopping, business and entertainment
US8676815B2 (en) * 2008-05-07 2014-03-18 City University Of Hong Kong Suffix tree similarity measure for document clustering
US8214375B2 (en) * 2008-11-26 2012-07-03 Autodesk, Inc. Manual and automatic techniques for finding similar users
US8620900B2 (en) * 2009-02-09 2013-12-31 The Hong Kong Polytechnic University Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
US20100241698A1 (en) * 2009-03-18 2010-09-23 Talk3, Inc. Methods and systems for auto-generating models of networks for network management purposes
US20100332304A1 (en) * 2009-06-29 2010-12-30 Higgins Chris W Targeting in Cost-Per-Action Advertising
US20100332301A1 (en) * 2009-06-29 2010-12-30 Higgins Chris W Compensating in Cost-Per-Action Advertising
US8849725B2 (en) * 2009-08-10 2014-09-30 Yahoo! Inc. Automatic classification of segmented portions of web pages
US8311792B1 (en) * 2009-12-23 2012-11-13 Intuit Inc. System and method for ranking a posting
KR101098870B1 (ko) 2010-01-07 2011-12-26 건국대학교 산학협력단 사용자 랭크 유사성 기반 포스트 검색 방법 및 장치
US20110276507A1 (en) * 2010-05-05 2011-11-10 O'malley Matthew Carl System and method for recruiting, tracking, measuring, and improving applicants, candidates, and any resources qualifications, expertise, and feedback
US8589319B2 (en) * 2010-12-02 2013-11-19 At&T Intellectual Property I, L.P. Adaptive pairwise preferences in recommenders
US20130226674A1 (en) * 2012-02-28 2013-08-29 Cognita Systems Incorporated Integrated Educational Stakeholder Evaluation and Educational Research System

Also Published As

Publication number Publication date
US20110252044A1 (en) 2011-10-13
KR20110114355A (ko) 2011-10-19
US8903822B2 (en) 2014-12-02

Similar Documents

Publication Publication Date Title
KR101098871B1 (ko) 랭크된 사용자의 피드백 정보에 기반한 컨텐츠 유사도 측정 장치, 방법 및 그 방법을 실행하는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체
Reddy et al. Content-based movie recommendation system using genre correlation
US20220035827A1 (en) Tag selection and recommendation to a user of a content hosting service
US11074477B2 (en) Multi-dimensional realization of visual content of an image collection
Hu et al. Collaborative fashion recommendation: A functional tensor factorization approach
CN110162706B (zh) 一种基于交互数据聚类的个性化推荐方法及系统
Van Leuken et al. Visual diversification of image search results
Li et al. Using multidimensional clustering based collaborative filtering approach improving recommendation diversity
Adamopoulos et al. On unexpectedness in recommender systems: Or how to better expect the unexpected
Borth et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs
US10691743B2 (en) Multi-dimensional realization of visual content of an image collection
Musto et al. Semantics-aware graph-based recommender systems exploiting linked open data
Zhou et al. Enhancing online video recommendation using social user interactions
Boratto et al. The rating prediction task in a group recommender system that automatically detects groups: architectures, algorithms, and performance evaluation
Zhou et al. Online video recommendation in sharing community
Hidayati et al. Popularity meter: An influence-and aesthetics-aware social media popularity predictor
Tian et al. Image search reranking with hierarchical topic awareness
Mezghani et al. Analyzing tagged resources for social interests detection
Lin et al. Association rule mining with a correlation-based interestingness measure for video semantic concept detection
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
Vrochidis et al. Utilizing implicit user feedback to improve interactive video retrieval
Banerjee et al. Recommendation of compatible outfits conditioned on style
Beregovskaya et al. Review of Clustering-Based Recommender Systems
KR101098870B1 (ko) 사용자 랭크 유사성 기반 포스트 검색 방법 및 장치
de Boer et al. Improving video event retrieval by user feedback

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee