KR101226712B1

KR101226712B1 - 컨텐츠 태그의 순위 산정 장치 및 방법

Info

Publication number: KR101226712B1
Application number: KR1020100132144A
Authority: KR
Inventors: 이동호; 홍현기; 허지욱; 정진우
Original assignee: 한양대학교 에리카산학협력단
Priority date: 2010-12-22
Filing date: 2010-12-22
Publication date: 2013-01-25
Also published as: KR20120070716A

Abstract

컨텐츠 태그의 순위 산정 장치 및 방법이 개시된다. 개시된 컨텐츠 태그의 순위 산정 장치는 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함한다.

Description

컨텐츠 태그의 순위 산정 장치 및 방법{APPARATUS AND METHOD FOR RANKING CONTENTS TAG}

본 발명의 실시예들은 컨텐츠 태그(Contents Tag)의 순위를 산정하는 장치 및 방법에 관한 것으로서, 더욱 상세하게는 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있도록 하는 컨텐츠 태그의 순위 산정 장치 및 방법에 관한 것이다.

최근, 효율적이고 신뢰성 있는 태그 기반의 컨텐츠(일례로, 이미지 컨텐츠) 검색을 위하여 태그의 순위 산정 방법에 대한 다양한 연구들이 수행되고 있다.

종래의 연구들 중 하나로서, 특정 이미지 컨텐츠의 태그들을 이미지 컨텐츠에 관련된 정도에 따라 자동적으로 랭킹하는 방법이 있었다. 상기 종래의 방법은 비모수(Nonparametric) 확률 밀도 추정 기법 중 하나인 KDE(Kernel Density Estimation) 기법과 Random Walk-based Refinement 기법을 통해 특정 이미지에 태깅된 태그들과 해당 이미지와의 관련 정도를 계산하고, 그 결과에 따라 태그에 대한 순위 산정(Ranking)을 수행한다.

상기한 종래 방법은 비교적 우수한 태그 랭킹 결과를 보이지만, 각 태그와 이미지 간의 관련 정도를 측정하는 과정에 있어 상당한 계산 복잡성과 공간 복잡성을 가진다는 문제점이 있다. 특히, Random Walk-based Refinement에 사용되는 유사도 행렬(Similarity Matrix)을 획득하는 과정은 이미지 공유 데이터베이스 전체를 대상으로 복잡한 계산을 수행해야 하고, 태그와 이미지 간의 관련 정도는 유사도 행렬을 Random Walk-based Refinement 기법으로 값이 수렴할 때까지 반복 적용하여야 하는바, 오버헤드가 많이 발생한다는 문제점이 있다.

종래의 연구들 중 다른 하나로서, 특정 이미지에 대하여 임의의 사용자가 기술한 태그를 사용하여 시각적으로 유사한 이미지에 대해 다른 사용자가 태깅한 경우, 해당 태그에 대하여 투표한 것으로 간주하여 태그와 이미지 간의 관련 정도를 측정하는 이웃 투표(Neighbor Voting) 방법이 있었다. 상기의 종래 방법은 kNN(k Nearest Neighbor) 알고리즘을 이용하여 시각적으로 유사한 이미지들을 수집한 후 특정 이미지에 대하여 임의의 사용자가 기술한 각 태그를 대상으로 이웃 투표 기법을 통해 각 태그와 이미지 간의 관련 정도를 측정하여 태그 랭킹을 수행한다.

그러나, 상기의 종래 방법은 계산복잡성이 낮은 반면 태그 랭킹결과가 kNN 알고리즘을 통한 유사한 이미지 획득의 정확성에 상당히 의존적이라는 문제점이 있었다.

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있도록 하는 컨텐츠 태그의 순위 산정 장치 및 방법을 제안하고자 한다.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하는 컨텐츠 태그의 순위 산정 장치가 제공된다.

상기 대상 컨텐츠는 대상 이미지 컨텐츠고, 상기 유사 컨텐츠는 상기 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 유사 이미지 컨텐츠일 수 있다.

상기 유사 컨텐츠 획득부는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스로부터 상기 k개의 유사 이미지 컨텐츠를 독출할 수 있다.

상기 m은 _nP₂와 대응될 수 있다.

상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출할 수 있다.

상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출할 수 있다.

상기 m개의 태그상 중 j번째 태그쌍에 대한 가중치는 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이(depth)와 관련된 제1 가중치, 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함할 수 있다.

상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식에 따라 결정될 수 있다.

여기서, lcs_depth_j는 상기 j번째 태그쌍에 대한 제1 가중치, depth(lcs(t_j _{, 1}, t_j _{, 2}))는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이, max(depth(lcs(t₁, t₂))은 상기 m개의 태그쌍에 각각 포함된 2개의 태그의 최소 공동 상위어의 깊이 중 최대값을 각각 의미한다.

상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식에 따라 결정될 수 있다.

여기서, Same Branch_j는 상기 j번째 태그쌍에 대한 제2 가중치를 의미한다.

상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식에 따라 결정될 수 있다.

여기서, RHH(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 대한 제3 가중치, lcs(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어, Shortest Length(t_j _{, 1}, lcs(t_j _{, 1}, t_j _{, 2}))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이, Shortest Length(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 포함된 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미한다.

상기 태그쌍 점수 연산부는 상기 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도에 상기 j번째 태그쌍에 대한 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산할 수 있다.

상기 n개의 태그 중 어느 하나의 태그의 태그 점수는 상기 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응될 수 있다.

상기 태그 순위 산정부는 아래의 수학식에 기초하여 상기 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 상기 n개의 태그의 순위를 산정할 수 있다.

여기서, r_i는 상기 n개의 태그 중 i번째 태그의 순위 점수, Tag Score-_i는 상기 i번째 태그의 태그 점수, frequency_i는 상기 i번째 태그의 상기 포함횟수, max(frequency_i)는 상기 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미한다.

상기 단어개념 트리는 워드넷(WorldNet) 데이터베이스로부터 독출된 것일 수 있다.

또한, 본 발명의 다른 실시예에 따르면, 대상 컨텐츠와 유사한 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 단계 - 상기 k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있음 -; 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출하는 단계; 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출하는 단계; 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 단계; 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 단계; 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 단계; 및 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 단계를 포함하는 컨텐츠 태그의 순위 산정 방법이 제공된다.

본 발명에 따르면, 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치의 상세한 구성을 도시한 블록도이다.
도 2는 단어개념 트리의 일례를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 방법의 전체적인 흐름을 도시한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치 및 방법은 태그를 이용한 컨텐츠 검색 시 정확도를 높이기 위해 컨텐츠에 부여되는 태그의 순위를 산정하는데 제한없이 적용될 수 있다.

특히, 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치 및 방법은 이미지 컨텐츠에 부여되는 태그(이미지 태그)의 순위를 산정하는데 용이하게 사용될 수 있으므로, 아래에서는 이미지 태그의 순위를 산정하는 일례를 중심으로 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치의 상세한 구성을 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 컨텐츠 태그 순위 산정 장치(100)는 유사 컨텐츠 획득부(110), 태그쌍 산출부(120), 개념 유사도 산출부(130), 가중치 연산부(140), 태그쌍 점수 연산부(150), 태그 점수 연산부(160), 및 태그 순위 산정부(170)를 포함할 수 있다. 이하, 각 구성 요소 별로 그 기능을 상술하기로 한다.

유사 컨텐츠 획득부는 대상 이미지 컨텐츠와 유사한 k(2이상의 정수임)의 유사 이미지 컨텐츠를 획득한다.

여기서, 유사 이미지 컨텐츠는 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 이미지 컨텐츠일 수 있다.

이 때, k개의 유사 이미지 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있다. 일례로서, 유사 이미지 컨텐츠가 "토마토"에 대한 이미지를 포함하는 경우, 해당 유사 이미지 컨텐츠에는 {빨간색, 과일, 토마토} 등과 같은 태그를 포함하는 태그 집합이 부여될 수 있다.

본 발명의 일 실시예에 따르면, 유사 컨텐츠 획득부(110)는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스(미도시)로부터 k개의 유사 이미지 컨텐츠를 독출할 수 있다. 즉, 유사 컨텐츠 획득부(110)는 대상 이미지 컨텐츠를 분석하여 해당 이미지로부터 색상, 무늬와 같은 시각적 특징 정보를 추출한 후, 추출된 특징 정보를 이용하여 인덱싱(Indexing)되어 있는 컨텐츠 데이터베이스로부터 k개의 유사 이미지 컨텐츠를 획득할 수 있다.

태그쌍 산출부(120)는 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n(2 이상의 정수임)개의 태그를 이용하여 2개의 태그를 포함하는 m(2 이상의 정수임)개의 태그쌍을 산출한다.

즉 앞서 설명한 바와 같이 유사 이미지 컨텐츠에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있는데, 태그쌍 산출부(120)는 각 태그 집합에서의 출현 빈도가 많은 상위 n개의 태그를 추출하고, 이를 이용하여 2개의 태그를 포함하는 m개의 태그쌍을 산출할 수 있다. 이 때, 태그상서의 태그의 배열 순서가 다른 경우, 이는 별개의 태그쌍으로 인식된다.

제1 예로서, 대상 이미지 컨텐츠가 "토마토" 이미지를 포함하고, k개의 태그 집합에서 출현 빈도가 많은 상위 5개의 태그(red, fruit, tomato, food, vegetable)가 추출되는 경우, 태그쌍 산출부(120)는 아래의 표 1과 같이 25개의 태그쌍을 산출할 수 있다.

	red	fruit	tomato	food	vegetable
red	red/red	fruit/red	tomato/red	food/red	vegetable/red
fruit	red/fruit	fruit/fruit	tomato/fruit	food/fruit	vegetable/fruit
tomato	red/tomato	fruit/tomato	tomato/tomato	food/tomato	vegetable/tomato
food	red/food	fruit/food	tomato/food	food/food	vegetable/food
vegetable	red/vegetable	fruit/vegetable	tomato/vegetable	food/vegetable	vegetable/vegetable

개념 유사도 산출부(130)는 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출한다. 다시 말해 개념 유사도 산출부(130)는 각 태그 쌍 내의 태그들의 개념이 얼마나 유사한지를 수치화한다. 또한, 산출된 개념 유사도는 아래에서 설명하는 해당 태그쌍 점수의 초기값(초기 태그쌍 점수)으로 부여된다.

여기서, 단어개념 트리는 복수의 단어가 단어개념(단어의 유사 정도, 단어의 상위 개념/하위 개념의 여부)에 따라 도 2에 도시된 바와 같은 트리 구조 형태로 분류된 것이다. 본 발명의 일 실시예에 따르면, 단어개념 트리는 영어 단어들의 유사관계를 정리하여 트리 구조로 분류되어 저장된 워드넷(WorldNet) 데이터베이스로부터 독출된 것일 수 있다. 또한, 개념 유사도의 산출 시 사용되는 단어개념 트리는 적어도 하나 이상일 수 있다. 이하에서는 설명의 편의를 위해 단어개념 트리가 워드넷에 저장된 단어개념 트리인 것으로 가정하여 설명하기로 한다. 그러나, 본 발명이 이에 한정되는 것은 아니다.

본 발명의 일 실시예에 따르면, 개념 유사도 산출부(130)는 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 단어개념 트리 상에서의 최단 경로 길이 및 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 개념 유사도를 산출할 수 있다. 일례로서, 단어개념 트리가 도 2에 도시된 것과 같은 경우, 단어 J와 단어 K의 최단 경로 길이는 4 홉이며, 단어개념 트리의 깊이는 7이 된다.

보다 상세하게, 개념 유사도 산출부(130)는 아래의 수학식 1과 같이 표현되는 링크 기반의 유사도 측정 방법을 이용하여 하나의 태그쌍에 포함되는 2개의 태그 간의 개념 유사도를 산출할 수 있다.

여기서, sim_lch(t_j _{, 1}, t_j _{, 2})는 상기 개념 유사도, t_j _{, 1}은 상기 j번째 태그쌍에 포함된 첫번째 태그, t_j _{, 2}는 상기 j번째 태그쌍에 포함된 두번째 태그, Shortest Length(t_j _{, 1}, t_j _{, 2})는 상기 최단 경로 길이, D는 상기 단어개념 트리의 깊이를 각각 의미한다.

또한, 본 발명의 다른 실시예에 따르면, 개념 유사도 산출부(130)는 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 개념 유사도를 산출할 수 있다.

보다 상세하게, 개념 유사도 산출부(130)는 정보량 기반 방법에 기초하여 하나의 태그쌍에 포함되는 2개의 태그 간의 개념 유사도를 산출하는데, 여기서 정보량은 대용량 언어군집(Corpus)에서 개념 발생 빈도 기반의 MLE(Maximum Likelihood Estimate) 방법을 통해 획득될 수 있다. 이 때, 많은 정보량이 할당된 개념은 특정 주제에 매우 세부적인 개념이고, 적은 정보량이 할당된 개념은 더 일반적인 개념으로 판단될 수 있다. 이와 같은 정보량은 아래의 수학식 2에 기초하여 연산될 수 있다.

여기서, IC(concept)는 태그(즉, 개념(concept))의 설명에 할당되는 정보량을 나타내는 함수, N은 단어개념 트리에 포함된 개념(concept)의 총 개수, P(concept)은 단어개념 트리 상에서 해당 개념과 마주칠 확률, freq(concept)은 해당 개념에 포함된 모든 하위 개념들의 개수를 각각 의미한다. 만약 개념 1(concept 1)이 개념 2(concept 2)의 하위개념이라면, P(concept 1) ≤ P(concept 2)가 된다. 따라서 워드넷에서 유일한 최상위 노드(top node 내지 root node)에 대한 P(concept)는 1이 되며, 정보량은 0이 된다.

상기의 내용에 기초하여, 개념 유사도 산출부(130)는 아래의 수학식 3에 기초하여 상기 j번째 태그쌍의 개념 유사도를 산출할 수 있다.

여기서, sim_lin(t_j _{, 1}, t_j _{, 2})는 상기 개념 유사도, lcs(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어를 의미한다.

한편, 태그쌍 내의 2개의 태그들이 동일한 단어인 경우 해당 태그쌍의 개념 유사도는 0으로 설정될 수 있다. 따라서, 상위 5개(n=5)의 태그가 추출되는 경우, 태그쌍 산출부(120)는 실질적으로 20개(= _nP₂)의 태그쌍을 산출한다.

아래의 표 2에서는 상기의 제1 예에서, 상기 2가지 개념 유사도 산출 방법 중 어느 하나의 방법을 이용하여 25개의 태그쌍의 초기 태그쌍 점수를 산출한 결과를 나타내고 있다.

	red	fruit	tomato	food	vegetable
red	0	0.148	0.061	0.086	0.072
fruit	0.148	0	0.067	0.156	0.080
tomato	0.061	0.067	0	0.745	0.842
food	0.086	0.156	0.745	0	0.899
vegetable	0.072	0.080	0.842	0.899	0

가중치 연산부(140)는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 대한 가중치를 연산한다. 이 때, 가중치 연산에 사용되는 단어개념 트리 역시 적어도 하나 이상일 수 있다.

본 발명의 일 실시예에 따르면, m개의 태그상 중 j번째 태그쌍에 대한 가중치는 i) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이와 관련된 제1 가중치, ii) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 iii) 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함할 수 있다. 각 가중치들에 대해 보다 상세히 설명하면 아래와 같다.

i) 제1 가중치

워드넷 계측 구조에서 개념간 최단 경로 길이가 같은 두 쌍의 개념들이 서로 다른 위치에 존재할 때, 두 쌍의 개념 간 링크 기반 유사도는 같은 값을 가진다. 이는 상위에 있는 한 쌍의 개념보다 하위에 있는 다른 쌍의 개념이 더 세부적이고 정보량을 많이 가지는 것을 반영하지 못하기 때문이다.

따라서, 이러한 단점을 보완하기 위해 앞서 산출된 개념 유사도에 각 태그쌍의 최소 공통 상위어의 깊이를 고려하여 워드넷 계층 구조에서 하위에 있는 한 쌍의 태그들에 보다 많은 가중치(제1 가중치)를 적용한다. 제1 가중치는 태그쌍 점수들의 간격을 극대화하여 태그의 순위 산정을 수행하는데 사용된다. 또한, 정보량 기반의 개념간 유사도 측정의 경우에도 제1 가중치는 각 태그쌍의 최소 공통 상위어가 가지는 정보량을 다시 고려함으로써 태그쌍 점수들의 간격을 극대화한다.

일례로서, 상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식 4에 따라 결정될 수 있다.

ii ) 제2 가중치

폭소노미에 기반한 이미지 컨텐츠 공유 시스템에서 다양한 사용자들이 이미지에 대해 기술한 태그들을 살펴보면, 비슷하고 같은 범주에 속하는 태그들의 출현빈도가 높은 경향을 보인다. 이는 동일한 이미지에 대해 많은 사용자들이 비슷한 생각을 가지고 있기 때문이다.

따라서, 이러한 태그들은 사용자들의 공감대를 형성한 것으로 간주될 수 있는바, 이미지와 높은 연관성을 가질 가능성이 높다. 특히, 같은 브랜치(가지)에 속하는 개념(일례로, 도 2에서 단어 D 및 단어 J는 같은 브랜치에 속함)들은 워드넷 계층 구조에서 직접적인 상하위어로서 밀접한 관계를 가지게 되므로 더 많은 가중치를 적용할 수 있다.

일례로서, 상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식 5에 따라 결정될 수 있다.

여기서, Same Branch_j는 상기 j번째 태그쌍에 대한 제2 가중치를 의미한다. 또한 n 값은 실험적으로 결정될 수 있다.

iii ) 제3 가중치

제3 가중치는 워드넷 계층구조에서 각 태그의 상대적 상하위어(RHH: Relative Hypernym/Hyponym) 관계를 태그쌍 점수에 반영하기 위한 것이다. 보다 상세하게, 제3 가중치는 태그쌍 점수에 세부적이고 정보량이 많은 하위어에 더 많이 반영되도록 하기 위한 가중치이다.

본 발명의 일 실시예에 따르면, 상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식 6에 따라 결정될 수 있다.

여기서, RHH_j는 상기 j번째 태그쌍에 대한 제3 가중치, Shortest Length(t_j _{, 1}, lcs(t_j _{, 1}, t_j _{, 2}))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미한다.

계속하여 본 발명이 일 실시예에 따른 컨텐츠 태그의 순위 산정 장치에 대해 설명하면, 태그쌍 점수 연산부(150)는 개념 유사도(즉, 초기 태그쌍 점수) 및 상기의 가중치(제1 가중치, 제2 가중치, 제3 가중치)를 이용하여 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산한다.

일례로서, 태그쌍 점수 연산부(150)는 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도(초기 태그쌍 점수)에 상기 j번째 태그쌍에 대한 제1 가중치, 제2 가중치 및 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산할 수 있다. 하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

태그 점수 연산부(160)는 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 n개의 태그 각각의 태그 점수를 연산한다.

본 발명의 일 실시예에 따르면, n개의 태그 중 어느 하나의 태그의 태그 점수는 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응될 수 있다.

아래의 표 3은 상기의 제1 예에서 각 태그 별 태그 점수 산출 결과를 나타내고 있다.

	red	fruit	tomato	food	vegetable	Tag Score
red	0	0.148	0.061	0.086	0.072	0.044
fruit	0.148	0	0.067	0.156	0.080	0.094
tomato	0.061	0.067	0	0.745	0.842	1.750
food	0.086	0.156	0.745	0	0.899	0.529
vegetable	0.072	0.080	0.842	0.899	0	1.221

마지막으로, 태그 순위 산정부(170)는 n개의 태그 각각의 태그 점수 및 n개의 태그 각각의 상기 포함 횟수를 이용하여 n개의 태그의 순위를 산정한다.

본 발명의 일 실시예에 따르면, 태그 순위 산정부(170)는 아래의 수학식 7에 기초하여 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 n개의 태그의 순위를 산정할 수 있다.

여기서, r_i는 n개의 태그 중 i번째 태그의 순위 점수, frequency_i는 i번째 태그의 상기 포함횟수, max(frequency_i)는 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미한다.

이상에서 살펴본 바와 같이 본 발명에 따르면, 컨텐츠의 특징을 효율적으로 반영하는 태그를 컨텐츠에 부여하여, 태그를 통해 사용자가 컨텐츠를 검색하는 경우 검색의 정확성을 높일 수 있게 된다.

도 3은 본 발명의 일 실시예에 따른 컨텐츠 태그의 순위 산정 방법의 전체적인 흐름을 도시한 순서도이다. 이하, 각 단계 별로 수행되는 과정을 설명하기로 한다. 한편 아래에서 수행되는 단계(S310) 내지 단계(S370)은 소정의 프로세서에서 수행될 수 있다.

먼저, 단계(S310)에서는 대상 컨텐츠와 유사한 k개의 유사 컨텐츠를 획득한다. 이 때, k개의 유사 컨텐츠 각각에는 적어도 하나의 태그를 포함하는 태그 집합이 부여되어 있다.

단계(S320)에서는 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)가 많은 상위 n개의 태그를 이용하여 2개의 태그를 포함하는 m개의 태그쌍을 산출한다.

계속하여, 단계(S330)에서는 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 포함되는 2개의 태그 사이의 개념 유사도를 산출한다.

그리고, 단계(S340)에서는 단어개념 트리를 이용하여 m개의 태그쌍 각각에 대한 가중치를 연산한다.

단계(S350)에서는 산출된 개념 유사도 및 연산된 가중치를 이용하여 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산한다.

단계(S360)에서는 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 n개의 태그 각각의 태그 점수를 연산한다.

마지막으로, 단계(S370)에서는 n개의 태그 각각의 태그 점수 및 n개의 태그 각각의 상기 포함 횟수를 이용하여 n개의 태그의 순위를 산정한다.

지금까지 본 발명에 따른 컨텐츠 태그의 순위 산정 방법의 실시예들에 대하여 설명하였고, 앞서 도 1에서 설명한 컨텐츠 태그의 순위 산정 장치(100)에 관한 구성이 본 실시예에도 그대로 적용 가능하다. 이에, 보다 상세한 설명은 생략하기로 한다.

또한, 본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 일 실시예들의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

100: 컨텐츠 태그의 순위 산정 장치 110: 유사 컨텐츠 획득부
120: 태그쌍 산출부 130: 개념 유사도 산출부
140: 가중치 연산부 150: 태그쌍 점수 연산부
160: 태그 점수 연산부 170: 태그 순위 산정부

Claims

대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부;
상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부;
복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부;
상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부;
상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부;
상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및
상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하되,
상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제1항에 있어서,
상기 대상 컨텐츠는 대상 이미지 컨텐츠고, 상기 유사 컨텐츠는 상기 대상 이미지 컨텐츠와 대응되는 시각적 특징 정보를 포함하는 유사 이미지 컨텐츠인 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제2항에 있어서,
상기 유사 컨텐츠 획득부는 복수개의 유사 이미지 컨텐츠를 저장한 컨텐츠 데이터베이스로부터 상기 k개의 유사 이미지 컨텐츠를 독출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제1항에 있어서,
상기 m은 _nP₂와 대응되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
삭제
제1항에 있어서,
상기 개념 유사도 산출부는 아래의 수학식에 기초하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, sim_lch(t_{j, 1}, t_{j, 2})는 상기 개념 유사도, t_{j, 1}은 상기 j번째 태그쌍에 포함된 첫번째 태그, t_{j, 2}는 상기 j번째 태그쌍에 포함된 두번째 태그, Shortest Length(t_{j, 1}, t_{j, 2})는 상기 최단 경로 길이, D는 상기 단어개념 트리의 깊이를 각각 의미함.
대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 유사 컨텐츠 획득부;
상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 태그쌍 산출부;
복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 개념 유사도 산출부;
상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 가중치 연산부;
상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 태그쌍 점수 연산부;
상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 태그 점수 연산부; 및
상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 태그 순위 산정부를 포함하되,
상기 개념 유사도 산출부는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제7항에 있어서,
상기 개념 유사도 산출부는 아래의 수학식에 기초하여 상기 j번째 태그쌍의 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, sim_lin(t_j _{, 1}, t_j _{, 2})는 상기 개념 유사도, t_j _{, 1}은 상기 j번째 태그쌍에 포함된 첫번째 태그, t_j _{, 2}는 상기 j번째 태그쌍에 포함된 두번째 태그, lcs(t_j _{, 1}, t_j _{, 2})는 상기 최소 공통 상위어, IC()는 상기 할당되는 정보량을 나타내는 함수를 각각 의미함.
제7항에 있어서,
상기 m개의 태그상 중 j번째 태그쌍에 대한 가중치는
상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이(depth)와 관련된 제1 가중치, 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그가 동일한 브랜치(branch)에 속하는지 여부와 관련된 제2 가중치, 및 상기 단어개념 트리 상에서 상기 j번째 태그쌍에 포함된 2개의 태그 사이의 상하위 관계와 관련된 제3 가중치 중에서 적어도 하나를 포함하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제9항에 있어서,
상기 j번째 태그쌍에 대한 제1 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, lcs_depth_j는 상기 j번째 태그쌍에 대한 제1 가중치, depth(lcs(t_j _{, 1}, t_j _{, 2}))는 상기 j번째 태그쌍에 포함된 2개의 태그의 최소 공통 상위어의 깊이, max(depth(lcs(t₁, t₂))은 상기 m개의 태그쌍에 각각 포함된 2개의 태그의 최소 공동 상위어의 깊이 중 최대값을 각각 의미함.
제9항에 있어서,
상기 j번째 태그쌍에 대한 제2 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, Same Branch_j는 상기 j번째 태그쌍에 대한 제2 가중치를 의미함.
제9항에 있어서,
상기 j번째 태그쌍에 대한 제3 가중치는 아래의 수학식에 따라 결정되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, RHH_j는 상기 j번째 태그쌍에 대한 제3 가중치, lcs(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어, Shortest Length(t_{j, 1}, lcs(t_j _{, 1}, t_j _{, 2}))는 상기 j번째 태그쌍에 포함된 첫번째 태그 및 상기 최소 공통 상위어의 상기 단어개념 트리 상에서의 최단 경로 길이, Shortest Length(t_j _{, 1}, t_j _{, 2})는 상기 j번째 태그쌍에 포함된 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이를 각각 의미함.
제9항에 있어서,
상기 태그쌍 점수 연산부는
상기 m개의 태그쌍 중 j번째 태그쌍에 대한 개념 유사도에 상기 j번째 태그쌍에 대한 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치를 곱하여 상기 j번째 태그쌍에 대한 태그쌍 점수를 연산하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제7항에 있어서,
상기 n개의 태그 중 어느 하나의 태그의 태그 점수는 상기 m개의 태그쌍 중에서 상기 어느 하나의 태그가 포함된 하나 이상의 태그쌍의 태그쌍 점수를 합산한 것과 대응되는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
제7항에 있어서,
상기 태그 순위 산정부는 아래의 수학식에 기초하여 상기 n개의 태그의 순위 점수를 산정하고, 상기 순위 점수가 높은 순서대로 상기 n개의 태그의 순위를 산정하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.

여기서, r_i는 상기 n개의 태그 중 i번째 태그의 순위 점수, Tag Score-_i는 상기 i번째 태그의 태그 점수, frequency_i는 상기 i번째 태그의 상기 포함횟수, max(frequency_i)는 상기 n개의 태그 각각의 상기 포함 횟수 중 최대값, α는 0 이상 1 이하의 실수를 각각 의미함.
제7항에 있어서,
상기 단어개념 트리는 워드넷(WorldNet) 데이터베이스로부터 독출된 것을 특징으로 하는 컨텐츠 태그의 순위 산정 장치.
유사 컨텐츠 획득부가 대상 컨텐츠와 유사하며, 적어도 하나의 태그가 포함된 태그 집합이 각각 부여되어 있는 k(2 이상의 정수임)개의 유사 컨텐츠를 획득하는 단계;
태그쌍 산출부가 상기 k개의 유사 컨텐츠 각각의 태그 집합에 포함되는 횟수(포함 횟수)를 기준으로 태그를 내림차순으로 정렬한 후 상위 n(2 이상의 정수임)개의 태그를 선택하고, 상기 상위 n개의 태그를 이용하여 2개의 태그가 포함된 m(2 이상의 정수임)개의 태그쌍을 산출하는 단계;
개념 유사도 산출부가 복수의 단어가 단어개념에 따라 트리 구조 형태로 분류되어 있는 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 포함된 2개의 태그 사이의 개념 유사도를 산출하는 단계;
가중치 연산부가 상기 단어개념 트리를 이용하여 상기 m개의 태그쌍 각각에 대한 가중치를 연산하는 단계;
태그쌍 점수 연산부가 상기 개념 유사도 및 상기 가중치를 이용하여 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 연산하는 단계;
태그 점수 연산부가 상기 m개의 태그쌍 각각에 대한 태그쌍 점수를 이용하여 상기 n개의 태그 각각의 태그 점수를 연산하는 단계; 및
태그 순위 산정부가 상기 n개의 태그 각각의 태그 점수 및 상기 n개의 태그 각각의 상기 포함 횟수를 이용하여 상기 n개의 태그의 순위를 산정하는 단계를 포함하되,
상기 개념 유사도를 산출하는 단계는 상기 m개의 태그쌍 중 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최단 경로 길이 및 상기 단어개념 트리의 깊이(depth)를 이용하여 상기 j번째 태그쌍에 포함되는 2개의 태그 사이의 상기 개념 유사도를 산출하거나 또는 상기 j번째 태그쌍에 포함되는 2개의 태그 각각을 설명하는데 할당되는 정보량 및 상기 j번째 태그쌍에 포함되는 2개의 태그의 상기 단어개념 트리 상에서의 최소 공통 상위어를 설명하는데 할당된 정보량을 이용하여 상기 개념 유사도를 산출하는 것을 특징으로 하는 컨텐츠 태그의 순위 산정 방법.