KR101226712B1 - 컨텐츠 태그의 순위 산정 장치 및 방법 - Google Patents

컨텐츠 태그의 순위 산정 장치 및 방법 Download PDF

Info

Publication number
KR101226712B1
KR101226712B1 KR1020100132144A KR20100132144A KR101226712B1 KR 101226712 B1 KR101226712 B1 KR 101226712B1 KR 1020100132144 A KR1020100132144 A KR 1020100132144A KR 20100132144 A KR20100132144 A KR 20100132144A KR 101226712 B1 KR101226712 B1 KR 101226712B1
Authority
KR
South Korea
Prior art keywords
tag
tags
pair
score
pairs
Prior art date
Application number
KR1020100132144A
Other languages
English (en)
Other versions
KR20120070716A (ko
Inventor
이동호
홍현기
허지욱
정진우
Original Assignee
한양대학교 에리카산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 에리카산학협력단 filed Critical 한양대학교 에리카산학협력단
Priority to KR1020100132144A priority Critical patent/KR101226712B1/ko
Publication of KR20120070716A publication Critical patent/KR20120070716A/ko
Application granted granted Critical
Publication of KR101226712B1 publication Critical patent/KR101226712B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

컨텐츠 태그의 순위 산정 장치 및 방법이 개시된다. 개시된 컨텐츠 태그의 순위 산정 장치는 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함한다.

Description

컨텐츠 태그의 순위 산정 장치 및 방법{APPARATUS AND METHOD FOR RANKING CONTENTS TAG}
본 발명의 실시예들은 컨텐츠 태그(Contents Tag)의 순위를 산정하는 장치 및 방법에 관한 것으로서, 더욱 상세하게는 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있도록 하는 컨텐츠 태그의 순위 산정 장치 및 방법에 관한 것이다.
최근, 효율적이고 신뢰성 있는 태그 기반의 컨텐츠(일례로, 이미지 컨텐츠) 검색을 위하여 태그의 순위 산정 방법에 대한 다양한 연구들이 수행되고 있다.
종래의 연구들 중 하나로서, 특정 이미지 컨텐츠의 태그들을 이미지 컨텐츠에 관련된 정도에 따라 자동적으로 랭킹하는 방법이 있었다. 상기 종래의 방법은 비모수(Nonparametric) 확률 밀도 추정 기법 중 하나인 KDE(Kernel Density Estimation) 기법과 Random Walk-based Refinement 기법을 통해 특정 이미지에 태깅된 태그들과 해당 이미지와의 관련 정도를 계산하고, 그 결과에 따라 태그에 대한 순위 산정(Ranking)을 수행한다.
상기한 종래 방법은 비교적 우수한 태그 랭킹 결과를 보이지만, 각 태그와 이미지 간의 관련 정도를 측정하는 과정에 있어 상당한 계산 복잡성과 공간 복잡성을 가진다는 문제점이 있다. 특히, Random Walk-based Refinement에 사용되는 유사도 행렬(Similarity Matrix)을 획득하는 과정은 이미지 공유 데이터베이스 전체를 대상으로 복잡한 계산을 수행해야 하고, 태그와 이미지 간의 관련 정도는 유사도 행렬을 Random Walk-based Refinement 기법으로 값이 수렴할 때까지 반복 적용하여야 하는바, 오버헤드가 많이 발생한다는 문제점이 있다.
종래의 연구들 중 다른 하나로서, 특정 이미지에 대하여 임의의 사용자가 기술한 태그를 사용하여 시각적으로 유사한 이미지에 대해 다른 사용자가 태깅한 경우, 해당 태그에 대하여 투표한 것으로 간주하여 태그와 이미지 간의 관련 정도를 측정하는 이웃 투표(Neighbor Voting) 방법이 있었다. 상기의 종래 방법은 kNN(k Nearest Neighbor) 알고리즘을 이용하여 시각적으로 유사한 이미지들을 수집한 후 특정 이미지에 대하여 임의의 사용자가 기술한 각 태그를 대상으로 이웃 투표 기법을 통해 각 태그와 이미지 간의 관련 정도를 측정하여 태그 랭킹을 수행한다.
그러나, 상기의 종래 방법은 계산복잡성이 낮은 반면 태그 랭킹결과가 kNN 알고리즘을 통한 유사한 이미지 획득의 정확성에 상당히 의존적이라는 문제점이 있었다.
상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있도록 하는 컨텐츠 태그의 순위 산정 장치 및 방법을 제안하고자 한다.
본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.
상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하는 컨텐츠 태그의 순위 산정 장치가 제공된다.
상기 대상 컨텐츠는 대상 이미지 컨텐츠고, 상기 유사 컨텐츠는 상기 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 유사 이미지 컨텐츠일 수 있다.
상기 유사 컨텐츠 획득부는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스로부터 상기 k개의 유사 이미지 컨텐츠를 독출할 수 있다.
상기 m은 nP2와 대응될 수 있다.
상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출할 수 있다.
상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출할 수 있다.
상기 m개의 태그상 중 j번째 태그쌍에 대한 가중치는 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이(depth)와 관련된 제1 가중치, 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함할 수 있다.
상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식에 따라 결정될 수 있다.
Figure 112010084657386-pat00001
여기서, lcs_depthj는 상기 j번째 태그쌍에 대한 제1 가중치, depth(lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이, max(depth(lcs(t1, t2))은 상기 m개의 태그쌍에 각각 포함된 2개의 태그의 최소 공동 상위어의 깊이 중 최대값을 각각 의미한다.
상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식에 따라 결정될 수 있다.
Figure 112010084657386-pat00002
여기서, Same Branchj는 상기 j번째 태그쌍에 대한 제2 가중치를 의미한다.
상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식에 따라 결정될 수 있다.
Figure 112010084657386-pat00003
여기서, RHH(tj , 1, tj , 2)는 상기 j번째 태그쌍에 대한 제3 가중치, lcs(tj , 1, tj , 2)는 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어, Shortest Length(tj , 1, lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이, Shortest Length(tj , 1, tj , 2)는 상기 j번째 태그쌍에 포함된 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미한다.
상기 태그쌍 점수 연산부는 상기 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도에 상기 j번째 태그쌍에 대한 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산할 수 있다.
상기 n개의 태그 중 어느 하나의 태그의 태그 점수는 상기 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응될 수 있다.
상기 태그 순위 산정부는 아래의 수학식에 기초하여 상기 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 상기 n개의 태그의 순위를 산정할 수 있다.
Figure 112010084657386-pat00004
여기서, ri는 상기 n개의 태그 중 i번째 태그의 순위 점수, Tag Score-i는 상기 i번째 태그의 태그 점수, frequencyi는 상기 i번째 태그의 상기 포함횟수, max(frequencyi)는 상기 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미한다.
상기 단어개념 트리는 워드넷(WorldNet) 데이터베이스로부터 독출된 것일 수 있다.
또한, 본 발명의 다른 실시예에 따르면, 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 단계 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 단계; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 단계; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 단계; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 단계; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 단계; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 단계를 포함하는 컨텐츠 태그의 순위 산정 방법이 제공된다.
본 발명에 따르면, 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치의 상세한 구성을 도시한 블록도이다.
도 2는 단어개념 트리의 일례를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 방법의 전체적인 흐름을 도시한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치 및 방법은 태그를 이용한 컨텐츠 검색 시 정확도를 높이기 위해 컨텐츠에 부여되는 태그의 순위를 산정하는데 제한없이 적용될 수 있다.
특히, 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치 및 방법은 이미지 컨텐츠에 부여되는 태그(이미지 태그)의 순위를 산정하는데 용이하게 사용될 수 있으므로, 아래에서는 이미지 태그의 순위를 산정하는 일례를 중심으로 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치의 상세한 구성을 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치(100)는 유사 컨텐츠 획득부(110), 태그쌍 산출부(120), 개념 유사도 산출부(130), 가중치 연산부(140), 태그쌍 점수 연산부(150), 태그 점수 연산부(160), 및 태그 순위 산정부(170)를 포함할 수 있다. 이하, 각 구성 요소 별로 그 기능을 상술하기로 한다.
유사 컨텐츠 획득부는 대상 이미지 컨텐츠와 유사한 k(2이상의 정수임)의 유사 이미지 컨텐츠를 획득한다.
여기서, 유사 이미지 컨텐츠는 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 이미지 컨텐츠일 수 있다.
이 때, k개의 유사 이미지 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있다. 일례로서, 유사 이미지 컨텐츠가 "토마토"에 대한 이미지를 포함하는 경우, 해당 유사 이미지 컨텐츠에는 {빨간색, 과일, 토마토} 등과 같은 태그를 포함하는 태그 집합이 부여될 수 있다.
본 발명의 일 실시예에 따르면, 유사 컨텐츠 획득부(110)는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스(미도시)로부터 k개의 유사 이미지 컨텐츠를 독출할 수 있다. 즉, 유사 컨텐츠 획득부(110)는 대상 이미지 컨텐츠를 분석하여 해당 이미지로부터 색상, 무늬와 같은 시각적 특징 정보를 추출한 후, 추출된 특징 정보를 이용하여 인덱싱(Indexing)되어 있는 컨텐츠 데이터베이스로부터 k개의 유사 이미지 컨텐츠를 획득할 수 있다.
태그쌍 산출부(120)는 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출한다.
즉 앞서 설명한 바와 같이 유사 이미지 컨텐츠에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있는데, 태그쌍 산출부(120)는 각 태그 집합에서의 출현 빈도가 많은 상위 n개의 태그를 추출하고, 이를 이용하여 2개의 태그를 포함하는 m개의 태그쌍을 산출할 수 있다. 이 때, 태그상서의 태그의 배열 순서가 다른 경우, 이는 별개의 태그쌍으로 인식된다.
제1 예로서, 대상 이미지 컨텐츠가 "토마토" 이미지를 포함하고, k개의 태그 집합에서 출현 빈도가 많은 상위 5개의 태그(red, fruit, tomato, food, vegetable)가 추출되는 경우, 태그쌍 산출부(120)는 아래의 표 1과 같이 25개의 태그쌍을 산출할 수 있다.
red fruit tomato food vegetable
red red/red fruit/red tomato/red food/red vegetable/red
fruit red/fruit fruit/fruit tomato/fruit food/fruit vegetable/fruit
tomato red/tomato fruit/tomato tomato/tomato food/tomato vegetable/tomato
food red/food fruit/food tomato/food food/food vegetable/food
vegetable red/vegetable fruit/vegetable tomato/vegetable food/vegetable vegetable/vegetable
개념 유사도 산출부(130)는 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출한다. 다시 말해 개념 유사도 산출부(130)는 각 태그 쌍 내의 태그들의 개념이 얼마나 유사한지를 수치화한다. 또한, 산출된 개념 유사도는 아래에서 설명하는 해당 태그쌍 점수의 초기값(초기 태그쌍 점수)으로 부여된다.
여기서, 단어개념 트리는 복수의 단어가 단어개념(단어의 유사 정도, 단어의 상위 개념/하위 개념의 여부)에 따라 도 2에 도시된 바와 같은 트리 구조 형태로 분류된 것이다. 본 발명의 일 실시예에 따르면, 단어개념 트리는 영어 단어들의 유사관계를 정리하여 트리 구조로 분류되어 저장된 워드넷(WorldNet) 데이터베이스로부터 독출된 것일 수 있다. 또한, 개념 유사도의 산출 시 사용되는 단어개념 트리는 적어도 하나 이상일 수 있다. 이하에서는 설명의 편의를 위해 단어개념 트리가 워드넷에 저장된 단어개념 트리인 것으로 가정하여 설명하기로 한다. 그러나, 본 발명이 이에 한정되는 것은 아니다.
본 발명의 일 실시예에 따르면, 개념 유사도 산출부(130)는 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 단어개념 트리 상에서의 최단 경로 길이 및 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 개념 유사도를 산출할 수 있다. 일례로서, 단어개념 트리가 도 2에 도시된 것과 같은 경우, 단어 J와 단어 K의 최단 경로 길이는 4 홉이며, 단어개념 트리의 깊이는 7이 된다.
보다 상세하게, 개념 유사도 산출부(130)는 아래의 수학식 1과 같이 표현되는 링크 기반의 유사도 측정 방법을 이용하여 하나의 태그쌍에 포함되는 2개의 태그 간의 개념 유사도를 산출할 수 있다.
Figure 112010084657386-pat00005
여기서, simlch(tj , 1, tj , 2)는 상기 개념 유사도, tj , 1은 상기 j번째 태그쌍에 포함된 첫번째 태그, tj , 2는 상기 j번째 태그쌍에 포함된 두번째 태그, Shortest Length(tj , 1, tj , 2)는 상기 최단 경로 길이, D는 상기 단어개념 트리의 깊이를 각각 의미한다.
또한, 본 발명의 다른 실시예에 따르면, 개념 유사도 산출부(130)는 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 개념 유사도를 산출할 수 있다.
보다 상세하게, 개념 유사도 산출부(130)는 정보량 기반 방법에 기초하여 하나의 태그쌍에 포함되는 2개의 태그 간의 개념 유사도를 산출하는데, 여기서 정보량은 대용량 언어군집(Corpus)에서 개념 발생 빈도 기반의 MLE(Maximum Likelihood Estimate) 방법을 통해 획득될 수 있다. 이 때, 많은 정보량이 할당된 개념은 특정 주제에 매우 세부적인 개념이고, 적은 정보량이 할당된 개념은 더 일반적인 개념으로 판단될 수 있다. 이와 같은 정보량은 아래의 수학식 2에 기초하여 연산될 수 있다.
Figure 112010084657386-pat00006
여기서, IC(concept)는 태그(즉, 개념(concept))의 설명에 할당되는 정보량을 나타내는 함수, N은 단어개념 트리에 포함된 개념(concept)의 총 개수, P(concept)은 단어개념 트리 상에서 해당 개념과 마주칠 확률, freq(concept)은 해당 개념에 포함된 모든 하위 개념들의 개수를 각각 의미한다. 만약 개념 1(concept 1)이 개념 2(concept 2)의 하위개념이라면, P(concept 1) ≤ P(concept 2)가 된다. 따라서 워드넷에서 유일한 최상위 노드(top node 내지 root node)에 대한 P(concept)는 1이 되며, 정보량은 0이 된다.
상기의 내용에 기초하여, 개념 유사도 산출부(130)는 아래의 수학식 3에 기초하여 상기 j번째 태그쌍의 개념 유사도를 산출할 수 있다.
Figure 112010084657386-pat00007
여기서, simlin(tj , 1, tj , 2)는 상기 개념 유사도, lcs(tj , 1, tj , 2)는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어를 의미한다.
한편, 태그쌍 내의 2개의 태그들이 동일한 단어인 경우 해당 태그쌍의 개념 유사도는 0으로 설정될 수 있다. 따라서, 상위 5개(n=5)의 태그가 추출되는 경우, 태그쌍 산출부(120)는 실질적으로 20개(= nP2)의 태그쌍을 산출한다.
아래의 표 2에서는 상기의 제1 예에서, 상기 2가지 개념 유사도 산출 방법 중 어느 하나의 방법을 이용하여 25개의 태그쌍의 초기 태그쌍 점수를 산출한 결과를 나타내고 있다.
red fruit tomato food vegetable
red 0 0.148 0.061 0.086 0.072
fruit 0.148 0 0.067 0.156 0.080
tomato 0.061 0.067 0 0.745 0.842
food 0.086 0.156 0.745 0 0.899
vegetable 0.072 0.080 0.842 0.899 0
가중치 연산부(140)는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 대한 가중치를 연산한다. 이 때, 가중치 연산에 사용되는 단어개념 트리 역시 적어도 하나 이상일 수 있다.
본 발명의 일 실시예에 따르면, m개의 태그상 중 j번째 태그쌍에 대한 가중치는 i) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이와 관련된 제1 가중치, ii) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 iii) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함할 수 있다. 각 가중치들에 대해 보다 상세히 설명하면 아래와 같다.
i) 제1 가중치
워드넷 계측 구조에서 개념간 최단 경로 길이가 같은 두 쌍의 개념들이 서로 다른 위치에 존재할 때, 두 쌍의 개념 간 링크 기반 유사도는 같은 값을 가진다. 이는 상위에 있는 한 쌍의 개념보다 하위에 있는 다른 쌍의 개념이 더 세부적이고 정보량을 많이 가지는 것을 반영하지 못하기 때문이다.
따라서, 이러한 단점을 보완하기 위해 앞서 산출된 개념 유사도에 각 태그쌍의 최소 공통 상위어의 깊이를 고려하여 워드넷 계층 구조에서 하위에 있는 한 쌍의 태그들에 보다 많은 가중치(제1 가중치)를 적용한다. 제1 가중치는 태그쌍 점수들의 간격을 극대화하여 태그의 순위 산정을 수행하는데 사용된다. 또한, 정보량 기반의 개념간 유사도 측정의 경우에도 제1 가중치는 각 태그쌍의 최소 공통 상위어가 가지는 정보량을 다시 고려함으로써 태그쌍 점수들의 간격을 극대화한다.
일례로서, 상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식 4에 따라 결정될 수 있다.
Figure 112010084657386-pat00008
여기서, lcs_depthj는 상기 j번째 태그쌍에 대한 제1 가중치, depth(lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이, max(depth(lcs(t1, t2))은 상기 m개의 태그쌍에 각각 포함된 2개의 태그의 최소 공동 상위어의 깊이 중 최대값을 각각 의미한다.
ii ) 제2 가중치
폭소노미에 기반한 이미지 컨텐츠 공유 시스템에서 다양한 사용자들이 이미지에 대해 기술한 태그들을 살펴보면, 비슷하고 같은 범주에 속하는 태그들의 출현빈도가 높은 경향을 보인다. 이는 동일한 이미지에 대해 많은 사용자들이 비슷한 생각을 가지고 있기 때문이다.
따라서, 이러한 태그들은 사용자들의 공감대를 형성한 것으로 간주될 수 있는바, 이미지와 높은 연관성을 가질 가능성이 높다. 특히, 같은 브랜치(가지)에 속하는 개념(일례로, 도 2에서 단어 D 및 단어 J는 같은 브랜치에 속함)들은 워드넷 계층 구조에서 직접적인 상하위어로서 밀접한 관계를 가지게 되므로 더 많은 가중치를 적용할 수 있다.
일례로서, 상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식 5에 따라 결정될 수 있다.
Figure 112010084657386-pat00009
여기서, Same Branchj는 상기 j번째 태그쌍에 대한 제2 가중치를 의미한다. 또한 n 값은 실험적으로 결정될 수 있다.
iii ) 제3 가중치
제3 가중치는 워드넷 계층구조에서 각 태그의 상대적 상하위어(RHH: Relative Hypernym/Hyponym) 관계를 태그쌍 점수에 반영하기 위한 것이다. 보다 상세하게, 제3 가중치는 태그쌍 점수에 세부적이고 정보량이 많은 하위어에 더 많이 반영되도록 하기 위한 가중치이다.
본 발명의 일 실시예에 따르면, 상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식 6에 따라 결정될 수 있다.
Figure 112010084657386-pat00010
여기서, RHHj는 상기 j번째 태그쌍에 대한 제3 가중치, Shortest Length(tj , 1, lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미한다.
계속하여 본 발명이 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치에 대해 설명하면, 태그쌍 점수 연산부(150)는 개념 유사도(즉, 초기 태그쌍 점수) 및 상기의 가중치(제1 가중치, 제2 가중치, 제3 가중치)를 이용하여 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산한다.
일례로서, 태그쌍 점수 연산부(150)는 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도(초기 태그쌍 점수)에 상기 j번째 태그쌍에 대한 제1 가중치, 제2 가중치 및 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산할 수 있다. 하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
태그 점수 연산부(160)는 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 n개의 태그 각각의 태그 점수를 연산한다.
본 발명의 일 실시예에 따르면, n개의 태그 중 어느 하나의 태그의 태그 점수는 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응될 수 있다.
아래의 표 3은 상기의 제1 예에서 각 태그 별 태그 점수 산출 결과를 나타내고 있다.
red fruit tomato food vegetable Tag Score
red 0 0.148 0.061 0.086 0.072 0.044
fruit 0.148 0 0.067 0.156 0.080 0.094
tomato 0.061 0.067 0 0.745 0.842 1.750
food 0.086 0.156 0.745 0 0.899 0.529
vegetable 0.072 0.080 0.842 0.899 0 1.221
마지막으로, 태그 순위 산정부(170)는 n개의 태그 각각의 태그 점수 및 n개의 태그 각각의 상기 포함 횟수를 이용하여 n개의 태그의 순위를 산정한다.
본 발명의 일 실시예에 따르면, 태그 순위 산정부(170)는 아래의 수학식 7에 기초하여 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 n개의 태그의 순위를 산정할 수 있다.
Figure 112010084657386-pat00011
여기서, ri는 n개의 태그 중 i번째 태그의 순위 점수, frequencyi는 i번째 태그의 상기 포함횟수, max(frequencyi)는 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미한다.
이상에서 살펴본 바와 같이 본 발명에 따르면, 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있게 된다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 방법의 전체적인 흐름을 도시한 순서도이다. 이하, 각 단계 별로 수행되는 과정을 설명하기로 한다. 한편 아래에서 수행되는 단계(S310) 내지 단계(S370)은 소정의 프로세서에서 수행될 수 있다.
먼저, 단계(S310)에서는 대상 컨텐츠와 유사한 k개의 유사 컨텐츠를 획득한다. 이 때, k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있다.
단계(S320)에서는 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n개의 태그를 이용하여 2개의 태그를 포함하는 m개의 태그쌍을 산출한다.
계속하여, 단계(S330)에서는 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출한다.
그리고, 단계(S340)에서는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 대한 가중치를 연산한다.
단계(S350)에서는 산출된 개념 유사도 및 연산된 가중치를 이용하여 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산한다.
단계(S360)에서는 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 n개의 태그 각각의 태그 점수를 연산한다.
마지막으로, 단계(S370)에서는 n개의 태그 각각의 태그 점수 및 n개의 태그 각각의 상기 포함 횟수를 이용하여 n개의 태그의 순위를 산정한다.
지금까지 본 발명에 따른 컨텐츠 태그의 순위 산정 방법의 실시예들에 대하여 설명하였고, 앞서 도 1에서 설명한 컨텐츠 태그의 순위 산정 장치(100)에 관한 구성이 본 실시예에도 그대로 적용 가능하다. 이에, 보다 상세한 설명은 생략하기로 한다.
또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
100: 컨텐츠 태그의 순위 산정 장치 110: 유사 컨텐츠 획득부
120: 태그쌍 산출부 130: 개념 유사도 산출부
140: 가중치 연산부 150: 태그쌍 점수 연산부
160: 태그 점수 연산부 170: 태그 순위 산정부

Claims (17)

  1. 대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부;
    상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부;
    복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부;
    상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부;
    상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부;
    상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및
    상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하되,
    상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  2. 제1항에 있어서,
    상기 대상 컨텐츠는 대상 이미지 컨텐츠고, 상기 유사 컨텐츠는 상기 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 유사 이미지 컨텐츠인 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  3. 제2항에 있어서,
    상기 유사 컨텐츠 획득부는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스로부터 상기 k개의 유사 이미지 컨텐츠를 독출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  4. 제1항에 있어서,
    상기 m은 nP2와 대응되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  5. 삭제
  6. 제1항에 있어서,
    상기 개념 유사도 산출부는 아래의 수학식에 기초하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
    Figure 112012065026994-pat00012


    여기서, simlch(tj, 1, tj, 2)는 상기 개념 유사도, tj, 1은 상기 j번째 태그쌍에 포함된 첫번째 태그, tj, 2는 상기 j번째 태그쌍에 포함된 두번째 태그, Shortest Length(tj, 1, tj, 2)는 상기 최단 경로 길이, D는 상기 단어개념 트리의 깊이를 각각 의미함.
  7. 대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부;
    상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부;
    복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부;
    상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부;
    상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부;
    상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및
    상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하되,
    상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  8. 제7항에 있어서,
    상기 개념 유사도 산출부는 아래의 수학식에 기초하여 상기 j번째 태그쌍의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

    Figure 112010084657386-pat00013


    여기서, simlin(tj , 1, tj , 2)는 상기 개념 유사도, tj , 1은 상기 j번째 태그쌍에 포함된 첫번째 태그, tj , 2는 상기 j번째 태그쌍에 포함된 두번째 태그, lcs(tj , 1, tj , 2)는 상기 최소 공통 상위어, IC()는 상기 할당되는 정보량을 나타내는 함수를 각각 의미함.
  9. 제7항에 있어서,
    상기 m개의 태그상 중 j번째 태그쌍에 대한 가중치는
    상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이(depth)와 관련된 제1 가중치, 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  10. 제9항에 있어서,
    상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

    Figure 112010084657386-pat00014

    여기서, lcs_depthj는 상기 j번째 태그쌍에 대한 제1 가중치, depth(lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이, max(depth(lcs(t1, t2))은 상기 m개의 태그쌍에 각각 포함된 2개의 태그의 최소 공동 상위어의 깊이 중 최대값을 각각 의미함.
  11. 제9항에 있어서,
    상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

    Figure 112010084657386-pat00015


    여기서, Same Branchj는 상기 j번째 태그쌍에 대한 제2 가중치를 의미함.
  12. 제9항에 있어서,
    상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

    Figure 112010084657386-pat00016

    여기서, RHHj는 상기 j번째 태그쌍에 대한 제3 가중치, lcs(tj , 1, tj , 2)는 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어, Shortest Length(tj, 1, lcs(tj , 1, tj , 2))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이, Shortest Length(tj , 1, tj , 2)는 상기 j번째 태그쌍에 포함된 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미함.
  13. 제9항에 있어서,
    상기 태그쌍 점수 연산부는
    상기 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도에 상기 j번째 태그쌍에 대한 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  14. 제7항에 있어서,
    상기 n개의 태그 중 어느 하나의 태그의 태그 점수는 상기 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  15. 제7항에 있어서,
    상기 태그 순위 산정부는 아래의 수학식에 기초하여 상기 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 상기 n개의 태그의 순위를 산정하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
    Figure 112012065026994-pat00017


    여기서, ri는 상기 n개의 태그 중 i번째 태그의 순위 점수, Tag Score-i는 상기 i번째 태그의 태그 점수, frequencyi는 상기 i번째 태그의 상기 포함횟수, max(frequencyi)는 상기 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미함.
  16. 제7항에 있어서,
    상기 단어개념 트리는 워드넷(WorldNet) 데이터베이스로부터 독출된 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
  17. 유사 컨텐츠 획득부가 대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 단계;
    태그쌍 산출부가 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 단계;
    개념 유사도 산출부가 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 단계;
    가중치 연산부가 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 단계;
    태그쌍 점수 연산부가 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 단계;
    태그 점수 연산부가 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 단계; 및
    태그 순위 산정부가 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 단계를 포함하되,
    상기 개념 유사도를 산출하는 단계는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하거나 또는 상기 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 방법.
KR1020100132144A 2010-12-22 2010-12-22 컨텐츠 태그의 순위 산정 장치 및 방법 KR101226712B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100132144A KR101226712B1 (ko) 2010-12-22 2010-12-22 컨텐츠 태그의 순위 산정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100132144A KR101226712B1 (ko) 2010-12-22 2010-12-22 컨텐츠 태그의 순위 산정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120070716A KR20120070716A (ko) 2012-07-02
KR101226712B1 true KR101226712B1 (ko) 2013-01-25

Family

ID=46705916

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100132144A KR101226712B1 (ko) 2010-12-22 2010-12-22 컨텐츠 태그의 순위 산정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101226712B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102479677B1 (ko) * 2019-12-30 2022-12-22 주식회사 에비드넷 위계정보를 이용한 표준화된 용어 추천 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080031928A (ko) * 2005-08-03 2008-04-11 윙크 테크놀로지스 인코포레이티드 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080031928A (ko) * 2005-08-03 2008-04-11 윙크 테크놀로지스 인코포레이티드 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법

Also Published As

Publication number Publication date
KR20120070716A (ko) 2012-07-02

Similar Documents

Publication Publication Date Title
CN104850633B (zh) 一种基于手绘草图部件分割的三维模型检索系统及方法
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
WO2020182019A1 (zh) 图像检索方法、装置、设备及计算机可读存储介质
US20170161259A1 (en) Method and Electronic Device for Generating a Summary
CN109086437A (zh) 一种融合Faster-RCNN和Wasserstein自编码器的图像检索方法
US20130110829A1 (en) Method and Apparatus of Ranking Search Results, and Search Method and Apparatus
EP2045731A1 (en) Automatic generation of ontologies using word affinities
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
US20160217129A1 (en) Method and Apparatus for Determining Semantic Matching Degree
KR20180011221A (ko) 비디오들에 대해 대표 비디오 프레임들 선택
KR20160075739A (ko) 소셜 데이터 네트워크에 있어서의 인플루언서들을 결정하기 위한 시스템 및 방법
CN110674312B (zh) 构建知识图谱方法、装置、介质及电子设备
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
CN107688605A (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN105528411A (zh) 船舶装备交互式电子技术手册全文检索装置及方法
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
KR101116663B1 (ko) 고차원 데이터의 유사도 검색을 위한 데이터 분할방법
CN107437367A (zh) 一种标注选择方法及装置
CN106611030A (zh) 基于视频的对象相似度比较方法和检索方法及其系统
KR101226712B1 (ko) 컨텐츠 태그의 순위 산정 장치 및 방법
CN110851708B (zh) 负样本的抽取方法、装置、计算机设备和存储介质
CN107679121B (zh) 分类体系的映射方法及装置、存储介质、计算设备
CN106844715A (zh) 一种图片检索匹配方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160118

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190114

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200113

Year of fee payment: 8