WO2016088942A1 - 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치 - Google Patents

쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치 Download PDF

Info

Publication number
WO2016088942A1
WO2016088942A1 PCT/KR2015/002563 KR2015002563W WO2016088942A1 WO 2016088942 A1 WO2016088942 A1 WO 2016088942A1 KR 2015002563 W KR2015002563 W KR 2015002563W WO 2016088942 A1 WO2016088942 A1 WO 2016088942A1
Authority
WO
WIPO (PCT)
Prior art keywords
item
ranking
data
probability
criterion
Prior art date
Application number
PCT/KR2015/002563
Other languages
English (en)
French (fr)
Inventor
심규석
김우열
김영훈
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to US15/531,920 priority Critical patent/US10936964B2/en
Publication of WO2016088942A1 publication Critical patent/WO2016088942A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Definitions

  • the present invention relates to a ranking estimation method and apparatus, and more particularly, to a method and apparatus for estimating multiple rankings using pairwise comparison.
  • Ranking learning is a method of learning a ranking model using a given set of items and training data, and using the learned results to find a ranking (preferred ranking) of items. Recently, this method has been widely used in information retrieval and recommendation systems, such as finding documents most similar to a given document.
  • the Ranking among all items is determined according to only one criterion.
  • the Multiple Ranking Problem estimates that the ranking among all items may exist differently according to a plurality of criteria (also referred to as "dimensions") and aims to obtain all the rankings according to the criteria.
  • the hotel room rate and the distance to the center are given.
  • the criteria are the room rate and distance.
  • the list of Fig. 2 is obtained from paired comparisons as shown in Fig. 3 from four respondents u 1 to u 4 .
  • the responder (u 1) an answer can be seen that the result and the responder (u 2) is very different from the result of the answer. This may be because the respondents u 1 perform a pairwise comparison based on the room rate and the respondents u 2 perform a pairwise comparison based on the distance.
  • a multi-ranking estimation method and apparatus capable of estimating the ranking of items according to the plurality of determination criteria are provided.
  • a multi-ranking estimation method and apparatus for estimating a preference of each user with respect to a plurality of ranking decision criteria by calculating a criterion preference probability distribution from pair-wise comparison result data are provided.
  • a multi-ranking estimation method using paired comparison data comprising: inputting information regarding paired comparison data as input data; And generating multi-ranking data based on the input data, wherein the input data includes a set of a plurality of respondents, a set of a plurality of items, and a set of pair-wise comparison data for the plurality of items.
  • the pair-wise comparison data of the plurality of pair-wise comparison data may be data for determining a preference between two items according to one of a plurality of determination criteria. .
  • a computer-readable recording medium having a program recorded thereon for executing the multi-ranking estimation method on a computer may be provided.
  • the ranking of items according to the plurality of criteria may be estimated, and further, each characteristic of the plurality of criteria is analyzed.
  • 1 to 3 are views for explaining a conventional ranking learning method
  • FIG. 4 is a flowchart illustrating a multi-ranking estimation method using paired comparison data according to an embodiment of the present invention
  • FIG. 5 is a flow diagram illustrating an exemplary method of the multirank learning algorithm of FIG. 4;
  • 6A is a diagram for describing a criterion preference probability distribution, according to an embodiment
  • 6B is a diagram for explaining an item score according to one embodiment
  • 6C is a diagram for describing a response accuracy probability distribution, according to an embodiment
  • FIG. 7 to 10 are views for explaining an experimental result of the multi-ranking estimation method according to an embodiment
  • FIG. 11 is a block diagram illustrating an exemplary apparatus configuration for implementing a multi-ranking estimation method according to an embodiment.
  • the present invention models the process by which respondents respond to pairwise comparisons between two items as a probability model.
  • the multi-ranking data used for modeling this probability model is based on the probability that people will give a correct answer to each criterion, the weight of the criterion that each person prefers, and the ranking score of the actual items by criterion. Value and the like.
  • a likelihood function representing the probability that the results of the actual pairwise comparison are obtained according to this multi-ranking data value can be obtained.
  • Multi-ranking data maximizing this likelihood function value is calculated using an maximization expectancy algorithm (EM Algorithm), and a ranking between items by each criterion is calculated based on the ranking score of each criterion of the item, which is one of the multi-ranking data. do.
  • EM Algorithm maximization expectancy algorithm
  • FIG. 4 is a flowchart illustrating a multi-ranking estimation method using paired comparison data according to an embodiment of the present invention.
  • a multi-ranking estimation method using pair-wise comparison data includes inputting information about pair-wise comparison data as input data into a multi-ranking learning algorithm, and the multi-ranking learning algorithm uses the multi-ranking data based on the input data. Generating.
  • the input data input to the multi-ranking learning algorithm may include, for example, a set of a plurality of respondents, a set of a plurality of items, and a set of a plurality of pair-wise comparison data for the plurality of items.
  • Each pair of comparison data of the plurality of pairs of comparison data is data obtained by determining a preference between two items according to any one of a plurality of criteria.
  • the multi-ranking data generated by the multi-ranking learning algorithm may include, for example, a probability distribution of the probability that the respondent prefers an arbitrary criterion ("determination criterion preference probability distribution"), and a ranking score obtained by each item for each criterion ( "Item score”), and a probability distribution (“response accuracy probability distribution”) of the probability that the responder correctly responded to each criterion. Based on the item scores generated by the multi-ranking learning algorithm, ranking results among items for each criterion may be derived.
  • FIG. 5 is a flow diagram illustrating an exemplary method of the multirank learning algorithm of FIG.
  • a method of generating multi-ranking data by a multi-ranking learning algorithm includes calculating a probability of a pairwise comparison result for any two items based on input data and prior multi-ranking data. (S110), calculating a likelihood function based on the probability (S120), and calculating posterior multi-ranking data maximizing the likelihood function (S130).
  • step S110 the probability of the comparison result for each pair is calculated using the input data and the pre-multi-ranking data.
  • the prior multi-ranking data used at this time is a prior criterion preference probability distribution, a prior item score, and a prior response accuracy probability distribution.
  • Such pre-multi-ranking data may be an arbitrarily set estimation value or may not be a value calculated based on actual input data.
  • the multi-ranking data used in step S110 is an estimated probability distribution and an estimated item score, and then post-sequence multi-ranking data (that is, best satisfying the actual input data through steps S120 and S130 described later). , Post-criterion preference probability distribution, post-item score, and post-response accuracy probability distribution).
  • the present invention uses Bayes' Theorem, which derives posterior probability information using prior probability and observations (ie, input data). Post-probability and post-probability distribution of multi-ranking data using prior probability distributions (eg, 'criteria preference probability distribution' and 'response accuracy probability distribution') and prior item scores and observations (eg, 'input data'). You get an item score.
  • prior probability distributions eg, 'criteria preference probability distribution' and 'response accuracy probability distribution'
  • prior item scores and observations eg, 'input data'. You get an item score.
  • step S110 the probability of the comparison result for each pair is calculated using the input data and the pre-multi-ranking data.
  • the 'input data' is data necessary for generating the post-multi-ranking data and is a known value collected or determined in advance.
  • the input data may include a set (U) of a plurality of respondents, a set (O) of a plurality of items, and a set (C u ) of a plurality of pair-wise comparison data for the plurality of items as follows.
  • O ⁇ o 1 , ..., o M ⁇ : A set of items to be compared by pairs. It is assumed that there are a plurality of items (wherein M is an integer of 2 or more), and each item is expressed as "o i ", "o j ", or the like. In the pairwise comparison, the pairwise comparison result indicating that the item o i has a higher priority than the item o j will be expressed as "o i ⁇ o j ".
  • C u The set of all pairwise comparisons given by each responder u.
  • the multi-ranking data refers to prior data input to the multi-ranking algorithm or posterior data generated as a result of calculation of the multi-ranking algorithm.
  • the multi-ranking data may include a criterion preference probability distribution ⁇ u, m , an item score ⁇ i (m), and a response accuracy probability distribution ⁇ m as follows.
  • Judgment Preference Probability Probability Distribution ( ⁇ u, m ): The probability distribution of the probability that the respondent selects a random criterion.
  • Item score ( ⁇ i (m)): Score of each item by criteria. That is, it means the score given to each item by the respondent for each criterion.
  • Response accuracy probability distribution ( ⁇ m ): The probability distribution of the probability that the respondent responded correctly to each criterion.
  • FIGS. 6A-6C show exemplary values of each of the criterion preference probability distribution, item score, and response accuracy probability distribution for ease of understanding.
  • FIG. 6A is a criterion preference probability distribution ⁇ u, m according to an embodiment , wherein each respondent selects a specific criterion m when there are L respondents u and d judgment criteria m are present. Indicates whether to choose as a probability.
  • the responder (u 1) is determined based on a (m 1) preferred by ssangbyeol comparison, this probability of selecting the criteria (m 1) 0.15 a, the probability of selecting in favor of the criteria (m 2) is 0.10 and, the thus responder (u 1) is likely to prefer each criterion (m 1 to m d) being displayed, the responder is a first adding the affinity probabilities for all criteria for a (u 1).
  • the probability of preferring each criterion is displayed, and it can be seen that each of the respondents adds the probability of preference for all the criterion to be 1, respectively.
  • the prior criterion preference probability distribution ⁇ u, m input to the multi-ranking algorithm in step S110 may have a preset or estimated value.
  • the prior criterion preference probability distribution follows an arbitrary probability distribution
  • Vector Is assumed to follow the Dirichlet distribution Dir ( ⁇ ), where ⁇ [ ⁇ 1 , ..., ⁇ d ] is a given factor.
  • FIG. 6B is an item score ⁇ i (m) according to an embodiment, and represents the score obtained by each item when there are M items o and d criteria.
  • each item o has a score according to d different criterion m, and may be displayed as any real number from 0 to 10, for example. It is assumed that the lower the score, the higher the priority.
  • pairwise comparisons indicate relative preference between two items, so that item scores do not necessarily have values in a particular range (eg, between 0 and 10), and in alternative embodiments, for example, between 1 and 5 You can also score items. In alternative embodiments, it may also be assumed that the higher the score, the more preferred the item.
  • a score value of the m th criterion of an arbitrary item o i is expressed as ⁇ i (m).
  • the scores of all the criteria of the item are d-dimensional vectors. It can be written as: Also, a vector of score values of the mth criterion of all items It is written as.
  • FIG. 6C illustrates a response accuracy probability distribution ⁇ m according to an embodiment, and when pairs of criterion m are present, a probability of performing pairwise comparison on each criterion m correctly as originally intended by the respondent himself. Indicates.
  • the probability that the respondent responds correctly in the mth criterion that is, the response accuracy probability, is expressed as ⁇ m .
  • the prior response accuracy probability distribution ⁇ m input to the multi-ranking algorithm may have a preset or estimated value.
  • the prior response accuracy probability distribution follows an arbitrary probability distribution, and in the following embodiment, it is assumed that the example follows a beta distribution.
  • [ ⁇ 1 , ⁇ 2 ] is a factor given in advance as in the above-described ⁇ .
  • the probability Pr u (o i ⁇ o j ) of the pairwise comparison result is calculated in step S110 using the above-described input data and pre-multi-ranking data.
  • the probability Pr u (o i ⁇ o j ) refers to the probability that any respondent u will give a comparison result in which any first item o i is preferred over any second item o j . do.
  • Equation 1 the probability t (Pr u (o i ⁇ o j )) is the following when asking the pairwise comparison between two items o i and o j as the t-th question: It can be expressed as Equation 1.
  • Equation 1 Pr u (o i ⁇ o j
  • s u, t m) from the, considering whether anatneun no mistakes in the process of the responder (u) comparing, is expressed as follows.
  • s u, t m)
  • Pr u (p u, t 1
  • m is the probability that the respondent (u) responded by mistake according to this criterion after the criterion (m) was selected, and ( 1- ⁇ m ). That is, it can be expressed as follows.
  • the probability of a comparison result that prefers the first item o i to a second item o j and the probability of a comparison result that prefers the second item o j to a first item o i Can be represented by a mathematical model. In the following examples, it is assumed that the probabilities of these comparison results follow the Bradley-Terry model, respectively.
  • the Bradley-Terry model is a proposed model to explain the preference between two items of respondents. This model assumes that there is a certain score ⁇ i for each item o i , and the lower this score, the higher the probability that respondents will prefer the item. According to this model, two items (i o, j o) is the probability, given the respondents preferred the more o i o j, i.e., i o ⁇ o probability ssangbyeol bring the result of comparison of j is shown below.
  • Equation 2 Substituting Equation 2 to Equation 4, Equation 6, and Equation 7 into Equation 1 and performing the above process on all item pairs that ask the responder u, as a result, in step S110.
  • the probability Pr u of the pairwise comparison result for the responder u may be expressed as follows.
  • a probability of a pairwise comparison result is calculated in step S110, and then a likelihood function is calculated based on this probability in step S120.
  • the likelihood function (L) is given when the criterion preference probability distribution ( ⁇ u, m ), item score ( ⁇ i (m)), and response accuracy probability distribution ( ⁇ m ) are given as multiranking data. It is calculated as in Equation 9 below.
  • posterior multi-ranking data for maximizing the likelihood function is calculated at step S130. That is, the criterion preference probability distribution ⁇ u, m , the item score ⁇ i (m), and the response accuracy probability distribution ⁇ m to maximize the likelihood function are calculated.
  • This process may use a known method known as an Expectation Maximization (EM) algorithm.
  • EM algorithms are described, for example, in AP Dempster, NM Laird, and DB Rubin, "Maximum likelihood from incomplete data via the EM algorithm” (Journal of Royal Statist. Soc., 39: 1-38, 1977) and the like, and it is a method of obtaining a probability distribution value when convergence does not increase any more while performing E-step and M-step repeatedly as a solution. Since the EM algorithm is not always guaranteed to find the optimal value, it is desirable to use the probability distribution as the best solution when the EM algorithm is executed several times to obtain the largest likelihood value.
  • EM Expectation Maximization
  • the EM algorithm derives the posterior criterion preference probability distribution ( ⁇ u, m ), the posterior response accuracy probability distribution ( ⁇ m ), and the score difference ( ⁇ j (m) - ⁇ i (m)) between the items.
  • the least square method (LSM) may be used to calculate a score ⁇ i (m) of each item.
  • Post multi-ranking data may be obtained by performing steps S110 to S130 as described above.
  • the item score ( ⁇ i (m)) is also obtained as one of the post-multiple ranking data, and is used for providing the user with the ranking of each item according to the criteria according to the item score or recommending the higher ranking items to the user. It can be utilized.
  • multiple post becomes also obtained ( ⁇ u, m) is determined based on a probability distribution as a preference ranking data, estimate the preferences of each user of the plurality of criteria from the data, and can use them.
  • FIG. 7 through 10 are diagrams for describing an experimental result of a multi-ranking estimation method, according to an exemplary embodiment.
  • experiments were performed on both synthetic data and real-life data.
  • the synthesized data was generated by performing the above-described probability model of the present invention as it is to generate a response accuracy probability distribution ⁇ m and a criterion preference probability distribution ⁇ u, m .
  • the score for each item criterion ( ⁇ i (m)) was randomly selected from real numbers between 0 and 10, and the result of pairwise comparison was also generated using the generation model.
  • the real-life data used MovieLens-100k data, which collected the ratings that each person gave to the movie. Each pair creates a pair of all rated movies, so if the two movies rated by that person are different, the pairwise comparison that reflects the rating and shows that the higher scored movie takes precedence over the unrated movie. Produced the result of.
  • Kendall's tau value with the estimated criterion is calculated. For example, although there are three actual criteria (that is, three-dimensional), but the estimation is performed assuming that there are two criteria for estimation, two Kendall's tau values are calculated for each actual criteria. The highest value among the Kendall's tau values calculated by each actual criterion is considered as the Kendall's tau value. Maxmax is the maximum value of Kendall's tau for each estimated criterion thus selected, and avgmax represents an average value.
  • FIG. 7 shows Kendall's tau value for the criterion estimation result according to the item number
  • FIG. 8 shows Kentall's tau value for the criterion estimation result according to the number of criterion.
  • the maxmax value of the method (MultiRank) according to the present invention may be lower than the existing method (CrowdBT), but because CrowdBT estimates only one case, all the rest Decision criteria are treated like noise, so the avgmax value is very low. That is, the conventional method estimates the ranking score well in a single ranking, but it means that it cannot solve the multi-ranking problem. In contrast, it can be seen that the method of the present invention estimates the latent criterion better than the conventional method because both maxmax and avgmax values are similarly high.
  • 9 and 10 illustrate a method of deriving the meaning of a latent estimation criterion using an item ranking score derived according to an embodiment of the present invention.
  • movie rating data of MovieLens-100k is input to a multi-ranking algorithm according to an embodiment of the present invention to calculate ranking scores of all movies.
  • each pair of movies that each person rated was extracted to generate paired comparison data and inputted into the algorithm, and it was set to extract scores based on four judgment criteria on the assumption that four judgment criteria existed.
  • the top 60 films were selected from the score ranking according to the four criteria, and 11 preset genres (mystery and noir) for each criteria (indicated as "Rank # 1" to "Rank # 4" in the drawing) were selected.
  • the number of movies belonging to the crime, etc.) and the number is normalized to a value between 0 and 1 and shown in a diagram as shown in FIG.
  • children's films were the most among the top 60 movies according to any first criterion (Rank # 1), followed by musicals, actions, and adventures.
  • the top 60 films according to the second random criterion (Rank # 2), the number of movies was high in the order of comedy, romance, and mystery.
  • the meaning of the criterion can be interpreted from this diagram as shown in FIG.
  • the first criterion (Rank # 1) of FIG. 10 since the number of movies belonging to children, musicals, actions, and adventures is the highest, it is appropriate for family films (or similar meaning). It can be estimated that the first criterion (Rank # 1). This means that many of the respondents rated their ratings based on whether they were suitable for family films when rating movies.
  • the ranking scores according to the plurality of judgment criteria may be extracted using the pairwise comparison results, but the plurality of judgment criteria may be obtained by analyzing items according to the ranking scores extracted by the judgment criteria. You can see what each one means.
  • FIG. 11 is a block diagram illustrating an exemplary apparatus configuration for implementing a multi-ranking estimation method according to an embodiment.
  • an apparatus for implementing a multi-ranking estimation method may include a server 30, an input data DB 50, and a multi-ranking data DB 60, and may include a network 20. It may be connected to communicate with a plurality of user terminals 10 through.
  • the user terminal 10 may be, for example, a non-portable terminal such as a portable mobile terminal or a desktop computer such as a smartphone, tablet PC, notebook computer, or the like.
  • the network 20 is any type of wired and / or wireless network that provides a data transmission and reception path between the portable terminal 10 and the server 30, and may be one of LAN, WAN, Internet network, and / or mobile communication network. It may include.
  • the server 30 may be a service server that provides the multi-ranking data extracted by the multi-ranking estimation method to the user terminal 10.
  • the multi-ranking learning may perform the above-described multi-ranking estimation method.
  • the algorithm 40 may be included in the form of an application (software).
  • the server 30 may include a processor, a memory, a storage unit, a communication unit, and the like, and the multi-ranking learning algorithm 40 may be stored in the storage unit and loaded and executed under the control of the processor.
  • the server 30 is communicatively coupled to the input data DB 50 and the multi-ranking data DB 60.
  • server 30 may include at least one of input data DB 50 and multi-ranking data DB 60.
  • the input data DB 50 may include input data (eg, a set of a plurality of respondents described above, a set of a plurality of items, a set of a plurality of paired comparison data for the plurality of items, etc.) necessary for generating the multi-ranking data DB.
  • the multi-ranking data DB 60 may store pre-multi-ranking data and / or post-multi-ranking data generated after performing the learning algorithm 40 before being input to the learning algorithm 40.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치에 관한 것으로, 일 실시예에 따르면, 쌍별 비교 데이터에 관한 정보를 입력데이터로서 입력하는 단계; 및 상기 입력데이터에 기초하여 다중랭킹 데이터를 생성하는 단계;를 포함하고, 상기 입력데이터는, 복수의 응답자의 집합, 복수개의 아이템의 집합, 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합을 포함하고, 상기 복수개의 쌍별 비교 데이터의 각각의 쌍별 비교 데이터는, 복수개의 판단기준 중 하나의 판단기준에 따라 두 개의 아이템 간의 선호도를 판단한 데이터인 것을 특징으로 하는 다중랭캥 추정 방법 및 이를 수행하는 장치를 제공한다.

Description

쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치
본 발명은 랭킹 추정 방법 및 장치에 관한 것으로, 보다 상세하게는 쌍별(pairwise) 비교를 이용하여 다중랭킹을 추정하는 방법 및 장치에 관한 것이다.
랭킹 학습이란, 주어진 아이템 집합과 학습 데이터를 이용하여 랭킹 모델을 학습하고 학습된 결과를 이용하여 아이템의 랭킹(선호도 순위)을 알아내는 방법이다. 최근에 이 방법을 이용하여 주어진 문서와 가장 유사한 문서를 찾는 등 정보검색 및 추천 시스템에 널리 사용되고 있다.
랭킹 학습에 사용할 수 있는 학습 데이터에는 다양한 종류가 있으며 그 중에서도 쌍별 비교(2개의 아이템끼리 랭킹을 비교)의 결과를 활용하는 랭킹 학습 방법이 있다. 예를 들어 아이템이 4개(A,B,C,D) 주어져 있고, 도1에서와 같이 5개의 쌍별 비교의 결과가 주어져 있다고 가정한다. "B<A"는 B가 A보다 랭킹이 높다는 의미이다. 이 때 모든 아이템에 대해 랭킹 순위를 매기는 방법의 수는 4!=24가지 이다. 이들 24가지 방법의 개수에 대해 쌍별 비교의 결과를 얼마나 잘 반영하는지를 평가 척도로 사용하여 어느 랭킹이 더 정확한지를 판단할 수 있다. 도1의 경우, B<A<C<D와 A<B<C<D의 두 가지 랭킹 순위가 도1의 5개의 쌍별 비교 결과를 가장 잘 반영하고 있으므로 이 두 가지 랭킹 순위 중 어느 하나를 실제 랭킹으로 사용할 수 있다.
상기 예시한 랭킹 학습의 경우 전체 아이템간 랭킹은 단 한가지 판단기준에 따라 랭킹이 정해졌다고 가정한다. 하지만 다중 랭킹 문제(Multiple Ranking Problem)는 전체 아이템간 랭킹이 복수개의 판단기준("차원"이라고도 함)에 따라 다르게 존재할 수 있다고 추정하며 각 판단기준에 따른 랭킹들을 모두 구하는 것을 목표로 한다.
예를 들어 도2에서와 같이 호텔의 숙박료 및 중심가까지의 거리가 주어져 있다고 가정한다. 이 예에서 판단기준(차원)은 숙박료 및 거리이다. 숙박료는 저렴할수록 랭킹이 높고 거리는 가까울수록 랭킹이 높다고 하면, 숙박료에 대한 랭킹은 A<B<D<C이고, 거리에 대한 랭킹은 C<B<A<D임을 알 수 있다.
위의 예시는 '숙박료'와 '거리'라는 판단기준을 이미 알고 있는 경우이지만, 실제 다중 랭킹 문제에서는 각 쌍별 비교가 어떤 판단기준에 따라 행해졌는지 알 수 없는 상태에서 주어진 쌍별 비교 결과들을 이용해서 모든 잠재적 판단기준에 따른 랭킹을 파악해야 하는 경우가 많다. 실제 쌍별 비교는 대부분 사람이 실시하며, 사람들은 각기 개인의 성향에 따라 특정 판단기준에 의해 아이템간의 랭킹을 매긴다는 점에서 이 문제는 기존의 단일랭킹 학습 문제보다 더 실용성이 높다고 할 수 있다.
예를 들어 도2의 리스트가 있을 때, 네 명의 응답자(u1 내지 u4)로부터 도3과 같은 쌍별 비교의 결과 데이터를 얻었다고 가정한다. 이 때 각 응답자가 어떤 판단기준으로 쌍별 비교를 하였는지는 알 수 없고 다만 도3과 같이 쌍별 비교 결과만이 주어졌다고 가정한다. 도3의 쌍별 비교 결과 데이터를 보면, 응답자(u1)가 대답한 결과와 응답자(u2)가 대답한 결과가 매우 다름을 알 수 있다. 이것은 응답자(u1)가 숙박료를 기준으로 쌍별 비교를 하였고 응답자(u2)는 거리를 기준으로 쌍별 비교를 했기 때문이라고 추정할 수 있다. 이와 같이 쌍별 비교 결과 데이터가 주어졌을 때 서로 모순되는 쌍별 비교의 개수가 대단히 많을 수도 있기 때문에 기존의 단일랭킹 학습에 의해서는 정확한 랭킹을 얻기 힘들다. 기존의 쌍별 비교의 결과를 이용한 아이템간 랭킹을 추론하는 알고리즘은 한가지 차원의 값만을 가지고 있는 경우에 유용하지만, 추천 시스템에 적용될 경우, 실제 사용자들은 다양한 판단기준에 따라서 랭킹을 판단하기 때문에 정확한 결과를 얻지 못하는 한계가 있다.
본 발명의 일 실시예에 따르면, 주어진 쌍별 비교 결과에 복수개의 판단기준이 존재하는 경우 이 복수개의 판단기준에 따른 아이템의 랭킹을 추정할 수 있는 다중랭킹 추정 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따르면, 쌍별 비교 결과 데이터로부터 판단기준 선호도 확률분포를 산출함으로써 복수개의 랭킹 판단기준에 대한 각 사용자의 선호도를 추정할 수 있는 다중랭킹 추정 방법 및 장치를 제공한다.
본 발명의 일 실시예에 따르면, 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법으로서, 쌍별 비교 데이터에 관한 정보를 입력데이터로서 입력하는 단계; 및 상기 입력데이터에 기초하여 다중랭킹 데이터를 생성하는 단계;를 포함하고, 상기 입력데이터는, 복수의 응답자의 집합, 복수개의 아이템의 집합, 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합을 포함하고, 상기 복수개의 쌍별 비교 데이터의 각각의 쌍별 비교 데이터는, 복수개의 판단기준 중 하나의 판단기준에 따라 두 개의 아이템 간의 선호도를 판단한 데이터인 것을 특징으로 하는 다중랭캥 추정 방법을 제공할 수 있다.
또한 본 발명의 일 실시예에 따르면, 상기 다중랭킹 추정 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
본 발명의 일 실시예에 따르면, 주어진 쌍별 비교 결과에 복수개의 판단기준이 존재하는 경우 이 복수개의 판단기준에 따른 아이템의 랭킹을 추정할 수 있고, 더 나아가 복수개의 판단기준의 각각의 특성을 분석하여 제공할 수 있는 이점이 있다.
본 발명의 일 실시예에 따르면, 쌍별 비교 결과 데이터로부터 판단기준 선호도 확률분포를 산출함으로써 복수개의 판단기준에 대한 각 사용자의 선호도를 추정할 수 있는 이점이 있다.
또한 응답자들이 실수 혹은 착각에 의해 항상 올바른 쌍별 비교 결과를 내놓지 못하므로 쌍별 비교 결과 데이터 자체에 부정확성도 존재할 수 있으며, 본 발명의 일 실시예에 따르면, 이러한 부정확성을 내포한 쌍별 비교 결과에 대해서도 복수개의 판단기준별 아이템 랭킹을 올바르게 추정할 수 있는 이점이 있다.
도1 내지 도3은 종래의 랭킹 학습 방법을 설명하기 위한 도면,
도4는 본 발명의 일 실시예에 따른 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법을 설명하기 위한 흐름도,
도5는 도4의 다중랭킹 학습 알고리즘의 예시적 방법을 나타내는 흐름도,
도6a는 일 실시예에 따른 판단기준 선호도 확률분포를 설명하기 위한 도면,
도6b는 일 실시예에 따른 아이템 점수를 설명하기 위한 도면,
도6c는 일 실시예에 따른 응답정확성 확률분포를 설명하기 위한 도면,
도7 내지 도10은 일 실시예에 따른 다중랭킹 추정 방법의 실험 결과를 설명하기 위한 도면,
도11은 일 실시예에 따른 다중랭킹 추정 방법을 구현하는 예시적인 장치 구성을 설명하기 위한 블록도이다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려, 여기서 소개되는 실시예들은 개시된 내용이 철저하고 완전해질 수 있도록 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시예들은 그것의 상보적인 실시예들도 포함한다.
본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprise)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다. 아래의 특정 실시예들을 기술하는데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용들이 없어도 사용될 수 있다는 것을 인지할 수 있다. 어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 혼돈을 막기 위해 기술하지 않음을 미리 언급해 둔다.
본 발명은 응답자들이 두 개의 아이템간의 쌍별 비교에 대해 응답을 내놓는 과정을 확률 모델로 모델링한다. 일 실시예에서, 이 확률 모델의 모델링에 사용하는 다중랭킹 데이터가, 각 판단기준에 대해서 사람들이 올바른 대답을 내놓을 확률, 각 사람들이 선호하는 판단기준의 비중, 및 실제 아이템들의 판단기준별 랭킹 점수값 등을 포함할 수 있다. 일 실시예에서, 이러한 다중랭킹 데이터 값에 따라서 실제 쌍별 비교의 결과들이 얻어질 확률을 나타내는 우도 함수(likelihood function)를 구할 수 있다. 이 우도 함수값을 최대화 하는 다중랭킹 데이터를 기대값 최대화 알고리즘(EM Algorithm)을 이용하여 계산하고, 다중랭킹 데이터 중 하나인 아이템의 판단기준별 랭킹 점수를 바탕으로 각 판단기준별 아이템간의 랭킹을 산출한다.
도4는 본 발명의 일 실시예에 따른 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법을 설명하기 위한 흐름도이다.
일 실시예에서 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법은, 쌍별 비교 데이터에 관한 정보를 입력데이터로서 다중랭킹 학습 알고리즘에 입력하는 단계, 및 다중랭킹 학습 알고리즘이 이 입력데이터에 기초하여 다중랭킹 데이터를 생성하는 단계를 포함한다.
다중랭킹 학습 알고리즘에 입력되는 입력데이터는, 예를 들어 복수의 응답자의 집합, 복수개의 아이템의 집합, 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합을 포함할 수 있다. 복수개의 쌍별 비교 데이터의 각각의 쌍별 비교 데이터는, 복수개의 판단기준 중 임의의 하나의 판단기준에 따라 두 개의 아이템 간의 선호도를 판단한 데이터이다.
다중랭킹 학습 알고리즘에 의해 생성되는 다중랭킹 데이터는, 예를 들어, 응답자가 임의의 판단기준을 선호할 확률의 확률분포("판단기준 선호도 확률분포"), 판단기준마다 각 아이템이 얻은 랭킹 점수("아이템 점수"), 및 판단기준마다 응답자가 정확히 응답하였을 확률의 확률분포("응답정확성 확률분포")를 포함할 수 있다. 다중랭킹 학습 알고리즘에서 생성된 아이템 점수에 의해, 판단기준별 아이템간의 랭킹 결과가 도출될 수 있다.
이하에서 도5 및 도6을 참조하여 다중랭킹 학습 알고리즘에 따른 예시적 학습 방법의 일 실시예를 상술하기로 한다.
도5는 도4의 다중랭킹 학습 알고리즘의 예시적 방법을 나타내는 흐름도이다.
도면을 참조하면, 다중랭킹 학습 알고리즘에 의해 다중랭킹 데이터를 생성하는 방법은, 입력데이터 및 사전(prior) 다중랭킹 데이터에 기초하여, 임의의 두 개의 아이템에 대한 쌍별 비교결과의 확률을 계산하는 단계(S110), 상기 확률에 기초하여 우도 함수를 산출하는 단계(S120), 및 우도 함수를 최대화하는 사후(posterior) 다중랭킹 데이터를 산출하는 단계(S130)를 포함할 수 있다.
단계(S110)에서 입력데이터 및 사전 다중랭킹 데이터를 이용하여 쌍별 비교결과의 확률을 계산한다. 이 때 사용되는 사전 다중랭킹 데이터는, 사전(prior) 판단기준 선호도 확률분포, 사전 아이템 점수, 및 사전 응답정확성 확률분포이다. 이러한 사전 다중랭킹 데이터는 임의로 설정된 추정값이어도 되고 실제 입력데이터에 기초하여 산출된 값이 아니어도 무방하다. 단계(S110)에서 사용되는 다중랭킹 데이터는 추정 확률분포 및 추정 아이템 점수이며, 그 후 후술하는 단계(S120, S130)를 통해 실제의 입력데이터를 가장 잘 만족하는 사후(posterior) 다중랭킹 데이터(즉, 사후 판단기준 선호도 확률분포, 사후 아이템 점수, 및 사후 응답정확성 확률분포)를 얻게 된다.
바람직한 일 실시예에서 본 발명은 사전 확률(prior probability)과 관측값(즉, 입력 데이터)을 이용하여 사후 확률(posterior probability) 정보를 도출하는 베이즈 정리(Bayes' Theorem)를 이용한 것으로, 다중랭킹 데이터의 사전 확률분포(예컨대, '판단기준 선호도 확률분포' 및 '응답정확성 확률분포')와 사전 아이템 점수 및 관측값(예컨대, '입력 데이터')을 이용하여 다중랭킹 데이터의 사후 확률분포 및 사후 아이템 점수를 얻게 된다.
입력 데이터
단계(S110)에서, 입력 데이터 및 사전 다중랭킹 데이터를 이용하여 쌍별 비교결과의 확률을 산출한다. 여기서 '입력 데이터'는 사후 다중랭킹 데이터를 생성하는데 필요한 데이터로서, 미리 수집되거나 결정된 기지의(known) 값이다. 입력 데이터는 아래와 같이 복수의 응답자의 집합(U), 복수개의 아이템의 집합(O), 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합(Cu)을 포함할 수 있다.
U = {u1,..., uL}: 쌍별 비교를 수행한 응답자들의 집합이다. L명(단, L은 2이상의 정수)의 복수의 응답자가 쌍별 비교를 하였다고 가정하며, 각각의 응답자를 "u"로 표현하기로 한다.
O = {o1,..., oM}: 쌍별 비교의 대상이 되는 아이템들의 집합이다. M개(단, M은 2이상의 정수)의 복수개의 아이템이 있다고 가정하며, 각 아이템을 "oi", "oj" 등으로 표현하기로 한다. 쌍별 비교에서 아이템(oi)이 아이템(oj)보다 우선순위가 높다는 쌍별 비교결과를 "oi<oj"로 표현하기로 한다.
Cu : 각 응답자 u가 내놓은 모든 쌍별 비교의 집합이다.
다중랭킹 데이터
다중랭킹 데이터는 다중랭킹 알고리즘에 입력되는 사전(prior) 데이터 또는 다중랭킹 알고리즘의 계산결과 생성되는 사후(posterior) 데이터를 의미한다. 다중랭킹 데이터는 다음과 같이 판단기준 선호도 확률분포(θu,m), 아이템 점수(πi(m)), 및 응답정확성 확률분포(ηm)를 포함할 수 있다.
판단기준 선호도 확률분포(θu,m): 응답자가 임의의 판단기준을 선택할 확률의 확률분포를 의미한다.
아이템 점수(πi(m)): 각 아이템의 판단기준별 점수이다. 즉 판단기준마다 응답자가 각 아이템에 부여한 점수를 의미한다.
응답정확성 확률분포(ηm): 판단기준마다 응답자가 정확히 응답하였을 확률의 확률분포를 의미한다.
이와 관련하여 도6a 내지 도6c는 이해를 돕기 위해 판단기준 선호도 확률분포, 아이템 점수, 및 응답정확성 확률분포의 각각의 예시적인 값들을 나타낸다.
도6a는 일 실시예에 따른 판단기준 선호도 확률분포(θu,m)로서, 응답자(u)가 L명이고 판단기준(m)이 d개 존재할 때 각 응답자가 어느 특정 판단기준(m)을 선택할지를 확률로서 나타낸다. 표를 참조하면, 응답자(u1)가 판단기준(m1)을 선호하여 쌍별 비교시 이 판단기준(m1)을 선택할 확률이 0.15이고, 판단기준(m2)를 선호하여 선택할 확률은 0.10이며, 이와 같이 응답자(u1)가 각 판단기준(m1 내지 md)을 선호할 확률이 표시되고, 응답자(u1)에 대해 모든 판단기준에 대한 선호도 확률을 더하면 1이 된다. 마찬가지로, 응답자(u2) 내지 응답자(uL)의 각각에 대해서도 각 판단기준을 선호할 확률이 표시되며 각 응답자마다 모든 판단기준의 선호도 확률을 더하면 각각 1이 됨을 알 수 있다.
판단기준 선호도 확률분포는 쌍별 비교의 결과를 내놓는 각 응답자(u)가 d개의 다른 판단기준들 중에서 한 가지 판단기준을 선호할 확률이므로 이 확률분포를 d차원의 벡터, 즉
Figure PCTKR2015002563-appb-I000001
= [θu,1,..., θu,d]로 표현할 수 있으며, 이하에서는 임의의 응답자(u)의 임의의 판단기준(m)에 대한 판단기준 선호도 확률분포를 θu,m로 나타내기로 한다.
단계(S110)에서 다중랭킹 알고리즘에 입력되는 사전(prior) 판단기준 선호도 확률분포(θu,m)는 미리 설정되거나 추정된 값을 가질 수 있다. 일 실시예에서 이러한 사전 판단기준 선호도 확률분포가 임의의 확률분포를 따른다고 가정할 수 있으며, 이하에 설명하는 실시예에서는 일 예로서 디리클레 분포(Dirichlet distribution)를 따른다고 가정한다. 즉 벡터
Figure PCTKR2015002563-appb-I000002
가 디리클레 분포 Dir(α)를 따른다고 가정하며, 여기서 α=[α1,..., αd]는 미리 주어지는 인자이다.
도6b는 일 실시예에 따른 아이템 점수(πi(m))로서, 아이템(o)이 M개 이고 판단기준(m)이 d개 존재할 때 각 아이템이 얻은 점수를 나타낸다. 표를 참조하면, 각 아이템(o)은 d개의 다른 판단기준(m)에 따라 점수를 가지고 있으며, 예컨대 0에서 10까지의 임의의 실수로 표시될 수 있다. 이 때 이 점수가 낮을수록 우선순위가 더 높다고 가정한다.
그러나 쌍별 비교는 두 개의 아이템간의 상대적 선호도를 나타내므로, 아이템 점수가 반드시 특정 범위(예컨대, 0에서 10 사이)의 값을 가질 필요는 없고, 대안적 실시에에서, 예컨대 1에서 5 사이의 값에서 아이템 점수를 매길 수도 있다. 또한 대안적 실시예에서, 점수가 높을수록 해당 아이템을 더 선호한다고 가정할 수도 있다.
이하에서는 임의의 아이템(oi)의 m번째 판단기준에서의 점수값을 πi(m)로 표기하도록 한다. 수학적으로, 해당 아이템의 모든 판단기준에서의 점수를 d차원 벡터로
Figure PCTKR2015002563-appb-I000003
와 같이 표기할 수 있다. 또한 모든 아이템의 m번째 판단기준의 점수 값을 모은 벡터를
Figure PCTKR2015002563-appb-I000004
로 표기하기로 한다.
도6c는 일 실시예에 따른 응답정확성 확률분포(ηm)로서, 판단기준(m)이 d개 존재할 때 각 판단기준(m)에 대해 응답자 자신이 원래 의도했던 대로 올바로 쌍별 비교를 수행할 확률을 나타낸다. 이하에서는 응답자가 m번째 판단기준에서 올바르게 대답할 확률, 즉 응답정확성 확률을 ηm로 표기하도록 한다.
단계(S110)에서 다중랭킹 알고리즘에 입력되는 사전 응답정확성 확률분포(ηm)는 미리 설정되거나 추정된 값을 가질 수 있다. 일 실시예에서 이러한 사전 응답정확성 확률분포가 임의의 확률분포를 따른다고 가정할 수 있으며, 이하의 실시예에서는 일 예로서 베타 분포(beta distribution)을 따른다고 가정한다. 여기서 β = [β12]는 상술한 α와 마찬가지로 미리 주어지는 인자이다.
쌍별 비교결과의 확률 산출
다시 도5를 참조하면, 상술한 입력데이터 및 사전 다중랭킹 데이터를 이용하여 단계(S110)에서 쌍별 비교결과의 확률 Pru(oi<oj)를 산출한다. 여기서 확률(Pru(oi<oj))은 임의의 응답자(u)가 임의의 제1 아이템(oi)을 임의의 제2 아이템(oj)보다 선호하는 비교결과를 내놓을 확률을 의미한다.
각 쌍별 비교가 생성되는 과정은 서로 독립적이라고 생각한다. 응답자(u)에게 복수개의 쌍별 비교 질문을 한다고 가정할 때, t번째 질문으로 두 아이템 oi와 oj간의 쌍별 비교를 물어보는 경우 확률(Pru(oi<oj))은 다음과 같이 수학식1로서 표현될 수 있다.
[수학식 1]
Figure PCTKR2015002563-appb-I000005
여기서, Pru(su,t=m)는 응답자(u)가 어느 판단기준을 이용하여 두 아이템을 비교할 것인지를 나타내는 확률이다. 이는
Figure PCTKR2015002563-appb-I000006
에 따른 다항분포 Multinomial(
Figure PCTKR2015002563-appb-I000007
)를 이용하여 임의의 판단기준(m)을 선택함으로써 정해진다. 여기서 su,t는 전체 d개의 판단기준 중 어느 판단기준을 선택했는지 나타내는 변수로서, 1에서 d 사이의 임의의 정수값이다. 예컨대 Pru(su,t=1)이면, 첫번째 판단기준(m1)을 이용해서 두 아이템간의 쌍별 비교를 하였을 확률이다. 임의의 판단기준(m)이 선택될 확률, 즉 Pru(su,t=m)는 다항분포의 정의에 의해 판단기준 선호도 확률분포(θu,m)가 된다.
상기 수학식1에서 Pru(oi<oj|su,t=m)는, 응답자(u)가 비교하는 과정에서 실수가 있지 않았는지를 고려할 때, 다음과 같이 표현된다.
[수학식 2]
Pru(oi<oj|su,t=m) = Pru(oi<oj, pu,t=1|su,t=m) + Pru(oi<oj, pu,t=0|su,t=m)
= Pru(oi<oj|pu,t=1, su,t=m) ·Pru(pu,t=1|su,t=m)
+ Pru(oi<oj|pu,t=0, su,t=m) ·Pru(pu,t=0|su,t=m)
위 수학식2에서 pu,t는 응답자(u)가 쌍별 비교 과정에서 실수가 있었는지를 나타내는 변수로서, ηm에 따른 이항분포 Binomialm)에 따라서 1 또는 0의 값을 가진다고 가정한다. pu,t = 1이면, 응답자가 올바른 쌍별 비교 결과를 내놓은 것을 의미하고, pu,t = 0이라면 응답자가 실수로 반대의 결과를 내놓았음을 의미한다.
그러므로 Pru(pu,t=1|su,t=m)는 임의의 판단기준(m)이 선택된 후 이 판단기준에 따라 응답자(u)가 올바르게 응답하였을 확률로서 응답정확성 확률분포(ηm)가 되고, Pru(pu,t=0|su,t=m)는 판단기준(m)이 선택된 후 이 판단기준에 따라 응답자(u)가 실수로 반대로 응답하였을 확률이고, (1-ηm)로 표현할 수 있다. 즉 다음과 같이 표현 가능하다.
[수학식 3]
Pru(pu,t=1|su,t=m) = ηm
[수학식 4]
Pru(pu,t=0|su,t=m) = 1-ηm
그리고 상기 수학식2에서 Pru(oi<oj|pu,t=1, su,t=m)는 응답자가 올바로 응답하였을 때의 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률이고,
Pru(oi<oj|pu,t=0, su,t=m)는 응답자가 실수로 잘못 응답하였을 때의 제2 아이템(oj)을 제1 아이템(oi)보다 선호하는 비교결과의 확률이다.
상기 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률 및 상기 제2 아이템(oj)을 제1 아이템(oi)보다 선호하는 비교결과의 확률을 임의의 수학적 모델로 표현할 수 있다. 이하의 실시예에서는, 이 비교결과의 확률이 각각 브래들리-테리 모델(Bradley-Terry model)을 따른다고 가정한다.
브래들리-테리 모델은 응답자의 두 아이템간의 선호도를 설명하기 위하여 제안된 모델이다. 이 모델은 각 아이템(oi)마다 어떤 점수 πi가 존재하고, 이 점수가 낮을수록 응답자들이 해당 아이템을 더 선호할 확률이 높아진다고 전제한다. 이 모델에 따르면 두 개의 아이템(oi, oj)가 주어졌을 때 응답자가 oi를 oj보다 더 선호할 확률, 즉 oi<oj 라는 쌍별 비교 결과를 내놓을 확률은 아래와 같다.
[수학식 5]
Pru[oi<oj] =
Figure PCTKR2015002563-appb-I000008
=
Figure PCTKR2015002563-appb-I000009
이에 따라, 응답자가 올바로 응답하였을 때의 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률, 즉 Pru(oi<oj|pu,t=1, su,t=m)은 아래와 같다.
[수학식 6]
Pru(oi<oj|pu,t=1, su,t=m) =
Figure PCTKR2015002563-appb-I000010
그리고 응답자가 실수로 잘못 응답하였을 때의 제2 아이템(oj)을 제1 아이템(oi)보다 선호하는 비교결과의 확률, 즉 Pru(oi<oj|pu,t=0, su,t=m)는 아래와 같다.
[수학식 7]
Pru(oi<oj|pu,t=0, su,t=m) =
Figure PCTKR2015002563-appb-I000011
상기 수학식2 내지 수학식4, 수학식6, 및 수학식7을 수학식1에 대입하고 위와 같은 과정을 응답자(u)에게 질문하는 모든 아이템 쌍들에 대하여 수행하면, 결과적으로 단계(S110)에서 응답자(u)에 대한 쌍별 비교결과의 확률(Pru)은 다음과 같이 표현될 수 있다.
[수학식 8]
Figure PCTKR2015002563-appb-I000012
우도함수 산출
도5를 참조하면, 상술한 바와 같이 단계(S110)에서 쌍별 비교결과의 확률을 산출한 후 단계(S120)에서 이 확률에 기초하여 우도(likelihood) 함수를 산출한다.
일 실시예에서, 다중랭킹 데이터로서 판단기준 선호도 확률분포(θu,m), 아이템 점수(πi(m)), 및 응답정확성 확률분포(ηm)가 주어졌을 때 우도 함수(L)는 아래 수학식9와 같이 계산된다.
[수학식 9]
Figure PCTKR2015002563-appb-I000013
우도 함수를 최대화하는 다중랭킹 데이터 산출
단계(S120)에서 상기 수학식7과 같이 우도 함수가 산출되면, 단계(S130)에서 이 우도 함수를 최대화하는 사후(posterior) 다중랭킹 데이터를 산출한다. 즉 우도 함수가 최대가 되도록 하는 판단기준 선호도 확률분포(θu,m), 아이템 점수(πi(m)), 및 응답정확성 확률분포(ηm)를 계산한다.
이 과정은 기대값 최대화(EM: Expectation Maximization) 알고리즘으로 알려진 공지의 방법을 사용할 수 있다. EM 알고리즘은 예컨대 A. P. 뎀스터(Dempster), N. M. 레어드(Laird), 및 D. B. 루빈(Rubin)의 논문 "Maximum likelihood from incomplete data via the EM algorithm" (Journal of Royal Statist. Soc., 39:1-38, 1977) 등에 개시되어 있으며, 반복적으로 E-스텝과 M-스텝을 수행하면서 우도 값이 더 이상 증가하지 않고 수렴할 때의 확률분포 값을 해(solution)로 구하는 방법이다. EM 알고리즘은 항상 최적의 값을 찾는 것을 보장하지 못하기 때문에 EM 알고리즘을 여러번 실행하여 가장 큰 우도 값을 얻어냈을 때의 확률분포를 가장 좋은 해로 삼는 것이 바람직하다.
한편 EM 알고리즘을 본 발명의 실시예에 적용할 때, 확률(Pru)의 계산식(즉, 수학식8)에 두 개의 아이템(oi,oj)간의 점수차(πj(m)-πi(m))가 지수함수의 인자로 사용되었기 때문에, EM 알고리즘에서는 아이템별 점수(πi(m))를 직접 알 수 없고 이 점수값의 차이(πj(m)-πi(m))만 알 수 있다. EM 알고리즘에 의해 사후 판단기준 선호도 확률분포(θu,m), 사후 응답정확성 확률분포(ηm), 및 아이템간의 점수차(πj(m)-πi(m))가 도출되며, 그 후 예컨대 최소자승법(LSM: Least Square Method)을 사용하여 각 아이템의 점수(πi(m))를 산출할 수 있다.
이상과 같이 단계(S110) 내지 단계(S130)를 수행하여 사후 다중랭킹 데이터를 얻을 수 있다. 특히 사후 다중랭킹 데이터중 하나로서 아이템 점수(πi(m))도 얻어지므로, 이 아이템 점수에 따른 각 아이템의 판단기준별 랭킹을 사용자에 제공하거나 상위 랭킹 아이템들을 사용자에게 추천하는 등의 용도로 활용할 수 있다. 또한 사후 다중랭킹 데이터의 하나로서 판단기준 선호도 확률분포(θu,m)도 얻어지며, 이 데이터로부터 복수개의 판단기준에 대한 각 사용자의 선호도를 추정하고 이를 활용할 수 있다.
실험 결과
도7 내지 도10은 일 실시예에 따른 다중랭킹 추정 방법의 실험 결과를 설명하기 위한 도면이다.
일 실시예에 따른 실험에서 합성 데이터(synthetic data)와 실생활 데이터(real-life data) 두 가지에 대해서 실험을 수행하였다. 합성 데이터는 상술한 본 발명의 확률 모델을 그대로 수행하여 응답정확성 확률분포(ηm) 및 판단기준 선호도 확률분포(θu,m)를 생성하였다. 각 아이템의 판단기준별 점수(πi(m))는 0과 10 사이의 실수 중 임의로 선택하였고, 쌍별 비교의 결과 역시 생성 모델을 이용하여 생성하였다.
실생활 데이터는 각 사람들이 영화에 매긴 평점을 모아놓은 MovieLens-100k 데이터를 이용하였다. 각 사람이 평점을 매긴 모든 영화의 쌍을 생성하여, 만약 해당 사람이 매긴 두 영화의 평점이 다르다면 그 평점을 반영하여 더 높은 점수를 가진 영화가 그렇지 않은 영화에 비해 우선순위에 앞선다는 쌍별 비교의 결과를 생성하였다.
실험 결과를 평가할 척도로는 켄달의 등위상관계수(Kendall's tau)를 사용하였다. 이 값은 -1에서 1 사이의 값을 가지며, 1에 가까울수록 실제 랭킹 순위를 잘 반영하고 -1에 가까울수록 실제 랭킹순위를 반대로 반영하게 된다. 이 실험에서는 판단기준(m)이 여러 가지가 사용되기 때문에, 도7과 도8에 나타낸 것처럼 가장 높은 Kendall's tau값을 갖는 판단기준의 그래프("maxmax")와 모든 판단기준의 Kentall's tau값들의 평균값의 그래프("avgmax") 두 가지를 표시하였다.
먼저 각각의 실제 판단기준에 대해서, 추정한 판단기준과의 Kendall's tau값을 계산한다. 예를 들어, 실제 판단기준은 3가지(즉, 3차원)이지만 추정할 때는 2가지 판단기준이 존재하는 것으로 가정하고 추정을 진행하였다면, 각 실제 판단기준별로 2개의 Kendall's tau값을 계산한다. 이후 각 실제 판단기준에서 계산된 Kendall's tau값들 중 가장 높은 값을 자신의 Kendall's tau값으로 생각한다. Maxmax는 이렇게 선택된 각 추정된 판단기준별 Kendall's tau중 최대값이고, avgmax는 평균값을 나타낸다.
기존의 방법과 비교하기 위해서, Xi Chen, Paul Bennet, Kevyn Collins-Thompson, Eric Horvitz의 논문 Pairwise Ranking Aggregation in a Crowdsourced Setting(WSDM, 2013)에서 제안한 알고리즘인 CrowdBT를 구현하였다. 아이템의 숫자, 랭킹점수의 판단기준의 수, 쌍별 비교의 결과 수를 바꿔가면서 실험한 결과를 도7 및 도8에 나타내었다.
도7은 아이템 숫자에 따른 판단기준 추정 결과에 대한 Kendall's tau 값을 나타내었고, 도8은 판단기준의 수에 따른 판단기준 추정 결과에 대한 Kentall's tau 값을 나타내었다.
도7 및 도8에서 알 수 있듯이, 본 발명에 따른 방법(MultiRank)의 maxmax의 값은 기존 방법(CrowdBT)보다 낮은 경우가 발생하지만, CrowdBT는 판단기준이 하나인 경우에 대해서만 추정하기 때문에 나머지 모든 판단기준에 대해서는 노이즈와 같이 처리하므로 avgmax값은 매우 낮은 값을 갖게 된다. 즉 기존 방법은 단일 랭킹에서 랭킹점수를 잘 추정하지만 다중랭킹 문제를 해결할 수 없음을 의미한다. 이와 달리 본 발명의 방법은 maxmax, avgmax값이 모두 비슷하게 높아서 잠재 판단기준을 종래에 비해 잘 추정하고 있음을 알 수 있다.
도9 및 도10은 본 발명의 일 실시예에 따라 도출된 아이템 랭킹점수를 이용하여 잠재 추정기준의 의미를 도출하는 방법을 나타낸다.
우선 MovieLens-100k의 영화평점 데이터를 본 발명의 실시예에 따른 다중랭킹 알고리즘에 입력하여 모든 영화의 랭킹 점수를 산출한다. 이 때 각 사람이 평점을 매긴 모든 영화의 쌍을 추출하여 쌍별 비교 데이터를 생성하여 알고리즘에 입력하였고, 4개의 판단기준이 존재하는 것으로 가정하여 4개의 판단기준에 따른 점수를 추출하도록 설정하였다. 이 때 실제로 판단기준이 4개 존재하는지 여부는 알 수 없는 상태이고, 임의적으로 판단기준의 개수(d)를 4로 설정한 것이다.
그 후 4개의 판단기준에 따른 점수 순위에서 상위 60개씩 영화를 선택하여, 각 판단기준(도면에서 "Rank #1" 내지 "Rank #4"로 표시됨)별로, 기설정된 11개의 장르(미스터리, 느와르, 범죄물 등)에 속하는 영화의 개수를 입력하고 이 개수를 0에서 1 사이의 값으로 정규화하여 도9와 같은 도표로 나타내었다. 도표에 따르면, 예컨대 임의의 제1 판단기준(Rank #1)에 따른 상위 점수 60개의 영화중에 어린이 영화가 가장 많았고 다음으로 뮤지컬, 액션, 어드벤쳐 등의 순서로 영화 개수가 많았다. 임의의 제2 판단기준(Rank #2)에 따른 상위 점수 60개의 영화에서는 코메디, 로맨스, 미스테리 순서로 영화 개수가 많았고 뮤지컬 영화는 하나도 없었다.
따라서 이 도표로부터 도10과 같이 판단기준의 의미를 해석할 수 있다. 예를 들어 도10의 제1 판단기준(Rank #1)에 따르면 어린이, 뮤지컬, 액션, 어드벤쳐에 속하는 영화 개수가 가장 많으므로, '가족영화에 적절한 영화인가'(또는 이와 유사한 의미의 기준)가 제1 판단기준(Rank #1) 이었음을 추정할 수 있다. 즉 응답자들 중 많은 사람들이 영화평점을 매길 때 가족영화에 적합한지 여부를 주요 판단기준으로 두고 평점을 매겼음을 의미한다.
또한 도10의 제4 판단기준(Rank #4)에 따르면, 미스테리, 느와르, 범죄 영화에 속하는 영화 개수가 가장 많았으므로, '성인영화에 적절한 영화인가'(또는 이와 유사한 의미의 기준)가 제4 판단기준(Rank #4) 이었음을 추정할 수 있다. 즉 응답자들 중 또다른 많은 사람들은 성인영화인지 여부를 또 하나의 주요 판단기준으로 두고 평점을 매겼음을 알 수 있다.
이와 같이 본 발명의 실시예에 따르면, 쌍별 비교결과를 이용하여 복수개의 판단기준에 따른 랭킹점수를 추출할 수 있을 뿐만 아니라, 판단기준별로 추출된 랭킹점수에 따른 아이템들을 분석함으로써 복수개의 판단기준들이 각각 어떠한 의미를 갖는지 파악할 수 있다.
도11은 일 실시예에 따른 다중랭킹 추정 방법을 구현하는 예시적인 장치 구성을 설명하기 위한 블록도이다.
도11을 참조하면 일 실시예에 따른 다중랭킹 추정 방법을 구현하는 장치는 서버(30), 입력데이터 DB(50), 및 다중랭킹 데이터 DB(60)를 포함할 수 있고, 네트워크(20)를 통해 다수의 사용자 단말기(10)와 통신하도록 연결될 수 있다.
사용자 단말기(10)는 예를 들어 스마트폰, 태블릿 PC, 노트북 컴퓨터 등의 휴대용 모바일 단말기 또는 데스크탑 컴퓨터와 같은 비-휴대용 단말기일 수 있다.
네트워크(20)는 휴대용 단말기(10)와 서버(30) 사이에 데이터 송수신 경로를 제공하는 임의의 형태의 유선 및/또는 무선 네트워크로서, LAN, WAN, 인터넷망, 및/또는 이동통신망 중 하나를 포함할 수 있다.
서버(30)는 다중랭킹 추정 방법에 의해 추출된 다중랭킹 데이터를 사용자 단말기(10)에 제공하는 서비스 서버일 수 있고, 일 실시예에서, 상술한 다중랭킹 추정 방법을 수행할 수 있는 다중랭킹 학습 알고리즘(40)을 어플리케이션(소프트웨어) 형태로 포함할 수 있다. 이를 위해 서버(30)는 프로세서, 메모리, 저장부, 통신부 등을 포함할 수 있고, 다중랭킹 학습 알고리즘(40)이 저장부에 저장되어 있다가 프로세서의 제어 하에 메모리에 로딩되어 실행될 수 있다.
도시된 실시예에서 서버(30)는 입력데이터 DB(50)와 다중랭킹 데이터 DB(60)와 통신가능하게 연결된다. 대안적인 실시예에서 서버(30)가 입력데이터 DB(50)와 다중랭킹 데이터 DB(60) 중 적어도 하나를 포함할 수도 있다. 입력데이터 DB(50)는 다중랭킹 데이터 DB의 생성을 위해 필요한 입력데이터(예컨대, 상술한 복수의 응답자의 집합, 복수개의 아이템의 집합, 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합 등)를 저장할 수 있고, 다중랭킹 데이터 DB(60)는 학습 알고리즘(40)에 입력되기 전의 사전 다중랭킹 데이터 및/또는 학습 알고리즘(40)을 수행한 후 생성된 사후 다중랭킹 데이터를 저장할 수 있다.
상기와 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되지 않는다. 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 상술한 기재로부터 다양한 수정 및 변형이 가능함을 이해할 것이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (11)

  1. 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법으로서,
    쌍별 비교 데이터에 관한 정보를 입력데이터로서 입력하는 단계; 및
    상기 입력데이터에 기초하여 다중랭킹 데이터를 생성하는 단계;를 포함하고,
    상기 입력데이터는, 복수의 응답자의 집합, 복수개의 아이템의 집합, 및 복수개의 아이템에 대한 복수개의 쌍별 비교 데이터의 집합을 포함하고,
    상기 복수개의 쌍별 비교 데이터의 각각의 쌍별 비교 데이터는, 복수개의 판단기준 중 하나의 판단기준에 따라 두 개의 아이템 간의 선호도를 판단한 데이터인 것을 특징으로 하는 다중랭캥 추정 방법.
  2. 제 1 항에 있어서, 상기 다중랭킹 데이터는,
    응답자가 임의의 판단기준을 선택할 확률의 확률분포인 판단기준 선호도 확률분포(θu,m);
    판단기준마다 각 아이템에 부여된 점수인 아이템 점수(πi(m)); 및
    판단기준마다 응답자가 정확히 응답하였을 확률의 확률분포인 응답정확성 확률분포(ηm);를 포함하는 것을 특징으로 하는 다중랭킹 추정 방법.
  3. 제 2 항에 있어서, 상기 다중랭킹 데이터를 생성하는 단계는,
    상기 입력데이터, 제1 다중랭킹 데이터에 기초하여, 임의의 두 개의 아이템(oi, oj)에 대한 쌍별 비교결과의 확률(Pr)을 계산하는 단계;
    상기 계산된 확률(Pr)에 기초하여 우도 함수를 산출하는 단계; 및
    상기 우도 함수를 최대화하는 제2 다중랭킹 데이터를 산출하는 단계;를 포함하는 것을 특징으로 하는 다중랭킹 추정 방법.
  4. 제 3 항에 있어서,
    상기 제1 다중랭킹 데이터는, 사전(prior) 판단기준 선호도 확률분포, 사전 아이템 점수, 및 사전 응답정확성 확률분포를 포함하고,
    상기 제2 다중랭킹 데이터는, 사후(posterior) 판단기준 선호도 확률분포, 사후 아이템 점수, 및 사후 응답정확성 확률분포를 포함하는 것을 특징으로 하는 다중랭킹 추정 방법.
  5. 제 4 항에 있어서,
    상기 쌍별 비교결과의 확률(Pr)은, 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률이고,
    상기 쌍별 비교결과의 확률(Pr)은, 각 판단기준에 대해,
    응답자가 정확히 응답하였을 때의 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률; 및
    응답자가 틀리게 응답하였을 때의 제2 아이템(oj)을 제1 아이템(oi)보다 선호하는 비교결과의 확률;을 합한 확률에 비례하는 것을 특징으로 하는 다중랭킹 추정 방법.
  6. 제 5 항에 있어서,
    상기 제1 아이템(oi)을 제2 아이템(oj)보다 선호하는 비교결과의 확률 및 상기 제2 아이템(oj)을 제1 아이템(oi)보다 선호하는 비교결과의 확률의 각각이 브래들리-테리 모델(Bradley-Terry model)을 따르는 것을 특징으로 하는 다중랭킹 추정 방법.
  7. 제 4 항에 있어서,
    상기 사전 판단기준 선호도 확률분포는 디리클레 분포(Dirichlet distribution)를 따르고, 상기 사전 응답정확성 확률분포는 베타 분포(beta distribution)을 따르는 것을 특징으로 하는 다중랭킹 추정 방법.
  8. 제 4 항에 있어서, 상기 우도 함수를 최대화하는 제2 다중랭킹 데이터를 산출하는 단계는, 기대값 최대화 알고리즘(EM Algorithm)을 사용하여 제2 다중랭킹 데이터를 산출하는 것을 특징으로 하는 다중랭킹 추정 방법.
  9. 제 4 항에 있어서, 상기 우도 함수를 최대화하는 제2 다중랭킹 데이터를 산출하는 단계는, 기대값 최대화(EM) 알고리즘 및 최소자승법(LSM) 알고리즘을 사용하여 제2 다중랭킹 데이터를 산출하는 것을 특징으로 하는 다중랭킹 추정 방법.
  10. 제 9 항에 있어서, 상기 우도 함수를 최대화하는 제2 다중랭킹 데이터를 산출하는 단계는,
    기대값 최대화 알고리즘에 의해, 사후 판단기준 선호도 확률분포, 사후 응답정확성 확률분포, 및 제1 아이템(oi)과 제2 아이템(oj) 각각의 사후 아이템 점수간의 점수 차이를 산출하는 단계; 및
    최소자승법에 의해, 각 아이템의 사후 점수를 산출하는 단계;를 포함하는 것을 특징으로 하는 다중랭킹 추정 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2015/002563 2014-12-01 2015-03-17 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치 WO2016088942A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/531,920 US10936964B2 (en) 2014-12-01 2015-03-17 Method and apparatus for estimating multi-ranking using pairwise comparison data

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2014-0169861 2014-12-01
KR20140169861 2014-12-01
KR1020150003408A KR101605654B1 (ko) 2014-12-01 2015-01-09 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치
KR10-2015-0003408 2015-01-09

Publications (1)

Publication Number Publication Date
WO2016088942A1 true WO2016088942A1 (ko) 2016-06-09

Family

ID=55799832

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/002563 WO2016088942A1 (ko) 2014-12-01 2015-03-17 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치

Country Status (3)

Country Link
US (1) US10936964B2 (ko)
KR (1) KR101605654B1 (ko)
WO (1) WO2016088942A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657556B1 (en) * 2015-06-09 2020-05-19 Twitter, Inc. Click-through prediction for targeted content
KR101953839B1 (ko) * 2016-12-29 2019-03-06 서울대학교산학협력단 추가 질의에 대한 쌍별 비교 데이터를 이용한 업데이트된 다중랭킹 추정 방법
KR102024819B1 (ko) * 2018-03-05 2019-09-24 단국대학교 산학협력단 부분 관찰되는 네트워크의 커뮤니티 검출 시스템 및 방법
US20200364728A1 (en) * 2019-05-13 2020-11-19 Samsung Electronics Co., Ltd. Method of comparison-based ranking
WO2024069932A1 (ja) * 2022-09-30 2024-04-04 ファナック株式会社 加工面評価装置、加工面評価システム、及び加工面評価方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101265896B1 (ko) * 2005-12-05 2013-05-20 마이크로소프트 코포레이션 랭킹 시스템 및 랭킹 제공 방법
KR101450453B1 (ko) * 2013-05-10 2014-10-13 서울대학교산학협력단 컨텐츠 추천 방법 및 장치

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403910B1 (en) * 2000-04-28 2008-07-22 Netflix, Inc. Approach for estimating user ratings of items
US8600920B2 (en) * 2003-11-28 2013-12-03 World Assets Consulting Ag, Llc Affinity propagation in adaptive network-based systems
US7890362B2 (en) * 2006-01-27 2011-02-15 SoftNovation, LLC Misclassification minimization and applications
US7840522B2 (en) * 2007-03-07 2010-11-23 Microsoft Corporation Supervised rank aggregation based on rankings
US7747547B1 (en) * 2007-10-31 2010-06-29 Pathwork Diagnostics, Inc. Systems and methods for diagnosing a biological specimen using probabilities
US8825640B2 (en) * 2009-03-16 2014-09-02 At&T Intellectual Property I, L.P. Methods and apparatus for ranking uncertain data in a probabilistic database
CN102053971B (zh) * 2009-10-30 2013-08-28 日电(中国)有限公司 用于面向排序的协同过滤的推荐方法和设备
US20120143790A1 (en) * 2010-12-01 2012-06-07 Microsoft Corporation Relevance of search results determined from user clicks and post-click user behavior obtained from click logs
US8589319B2 (en) * 2010-12-02 2013-11-19 At&T Intellectual Property I, L.P. Adaptive pairwise preferences in recommenders
US10346453B2 (en) * 2010-12-21 2019-07-09 Microsoft Technology Licensing, Llc Multi-tiered information retrieval training
US9092516B2 (en) * 2011-06-20 2015-07-28 Primal Fusion Inc. Identifying information of interest based on user preferences
CA2828490A1 (en) * 2011-03-08 2012-09-13 Tian Lu System and method for identifying and ranking user preferences
US8977629B2 (en) * 2011-05-24 2015-03-10 Ebay Inc. Image-based popularity prediction
US9009096B2 (en) * 2011-07-12 2015-04-14 Ebay Inc. Recommendations in a computing advice facility
US9201968B2 (en) * 2011-08-29 2015-12-01 Massachusetts Institute Of Technology System and method for finding mood-dependent top selling/rated lists
US9251527B2 (en) * 2011-08-29 2016-02-02 Massachusetts Institute Of Technology System and method for providing personalized recommendations
US9720975B2 (en) * 2012-01-30 2017-08-01 Massachusetts Institute Of Technology Dynamic influence tracking engine and method
US9129227B1 (en) * 2012-12-31 2015-09-08 Google Inc. Methods, systems, and media for recommending content items based on topics
US20150379016A1 (en) * 2013-03-07 2015-12-31 Brian Charles ERIKSSON Top-k search using randomly obtained pairwise comparisons
US10991001B2 (en) * 2013-03-13 2021-04-27 Eversight, Inc. Systems and methods for intelligent promotion design with promotion scoring
US9984387B2 (en) * 2013-03-13 2018-05-29 Eversight, Inc. Architecture and methods for promotion optimization
US9235808B2 (en) * 2013-03-14 2016-01-12 International Business Machines Corporation Evaluation of predictions in the absence of a known ground truth
US9672364B2 (en) * 2013-03-15 2017-06-06 Microsoft Technology Licensing, Llc Differentially private linear queries on histograms
US9679247B2 (en) * 2013-09-19 2017-06-13 International Business Machines Corporation Graph matching
WO2015047423A1 (en) * 2013-09-30 2015-04-02 Mindjet Llc Scoring members of a set dependent on eliciting preference data amongst subsets selected according to a height-balanced tree
WO2015088504A1 (en) * 2013-12-11 2015-06-18 Hewlett-Packard Development Company, L.P. Result aggregation
US9430533B2 (en) * 2014-03-21 2016-08-30 Microsoft Technology Licensing, Llc Machine-assisted search preference evaluation
US9947060B2 (en) * 2014-06-03 2018-04-17 Excalibur Ip, Llc Information matching and match validation
US20150379411A1 (en) * 2014-06-05 2015-12-31 Regents Of The University Of Minnesota Content recommendation selection and delivery within a computer network based on modeled psychological preference states
US9703839B2 (en) * 2014-06-20 2017-07-11 International Busines Machines Corporation Managing streams of tuples
US10896186B2 (en) * 2014-06-30 2021-01-19 Microsoft Technology Licensing, Llc Identifying preferable results pages from numerous results pages
US10318984B1 (en) * 2014-07-30 2019-06-11 Groupon, Inc. Predictive recommendation system using tiered feature data
US11055304B2 (en) * 2014-10-17 2021-07-06 Brandeis University System and method for differential analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101265896B1 (ko) * 2005-12-05 2013-05-20 마이크로소프트 코포레이션 랭킹 시스템 및 랭킹 제공 방법
KR101450453B1 (ko) * 2013-05-10 2014-10-13 서울대학교산학협력단 컨텐츠 추천 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NEGAHBAN, SAHAND ET AL.: "Iterative Ranking from Pair-wise Comparisons", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2012, pages 25 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596276A (zh) * 2018-05-10 2018-09-28 重庆邮电大学 基于特征加权的朴素贝叶斯微博用户分类方法

Also Published As

Publication number Publication date
US20170323218A1 (en) 2017-11-09
US10936964B2 (en) 2021-03-02
KR101605654B1 (ko) 2016-04-04

Similar Documents

Publication Publication Date Title
WO2016088942A1 (ko) 쌍별 비교 데이터를 이용한 다중랭킹 추정 방법 및 장치
CN110297848B (zh) 基于联邦学习的推荐模型训练方法、终端及存储介质
CN107438845B (zh) 基于屏幕分析的设备安全性
WO2018212494A1 (ko) 객체를 식별하는 방법 및 디바이스
WO2018155920A1 (en) Method and apparatus for authenticating users in internet of things environment
US20230334089A1 (en) Entity recognition from an image
JP5383705B2 (ja) 個人的写真集合からの社会的関係の割出し
WO2021095987A1 (ko) 다중타입 엔티티에 기반한 지식 보완 방법 및 장치
CN102831176B (zh) 推荐好友的方法及服务器
WO2018225931A1 (en) Mediating method and device
Doughty et al. Action modifiers: Learning from adverbs in instructional videos
KR20120078701A (ko) 안면 인식 훈련용 데이터의 공유 방법
CN115114395B (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
WO2019125054A1 (en) Method for content search and electronic device therefor
WO2015133856A1 (ko) 정답 키워드 제공 방법 및 장치
CN105631404B (zh) 对照片进行聚类的方法及装置
CN107426610B (zh) 视频信息同步方法及装置
Ni et al. Discriminative deep transfer metric learning for cross-scenario person re-identification
Hosseini et al. An uncertainty-aware query selection model for evaluation of IR systems
WO2020242089A2 (ko) 인공 지능 기반의 큐레이팅 방법 및 이러한 방법을 수행하는 장치
WO2019194569A1 (ko) 이미지 검색 방법, 장치 및 컴퓨터 프로그램
Wang et al. Very important person localization in unconstrained conditions: A new benchmark
WO2020230999A1 (ko) 업무 추적기에 기반한 담당자 추천 시스템
Xia et al. Self‐training with one‐shot stepwise learning method for person re‐identification
CN112463920A (zh) 一种信息应答方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15866013

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15531920

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15866013

Country of ref document: EP

Kind code of ref document: A1