KR101007056B1 - 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법 - Google Patents

연관 태그에 기반한 태그 클러스터링 장치 및 그 방법 Download PDF

Info

Publication number
KR101007056B1
KR101007056B1 KR20080074701A KR20080074701A KR101007056B1 KR 101007056 B1 KR101007056 B1 KR 101007056B1 KR 20080074701 A KR20080074701 A KR 20080074701A KR 20080074701 A KR20080074701 A KR 20080074701A KR 101007056 B1 KR101007056 B1 KR 101007056B1
Authority
KR
South Korea
Prior art keywords
tag
pair
tags
topic
pairs
Prior art date
Application number
KR20080074701A
Other languages
English (en)
Other versions
KR20100013157A (ko
Inventor
이시화
황대훈
기노일
최길준
Original Assignee
주식회사 메디오피아테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메디오피아테크 filed Critical 주식회사 메디오피아테크
Priority to KR20080074701A priority Critical patent/KR101007056B1/ko
Publication of KR20100013157A publication Critical patent/KR20100013157A/ko
Application granted granted Critical
Publication of KR101007056B1 publication Critical patent/KR101007056B1/ko

Links

Images

Abstract

연관 태그에 기반한 태그 클러스터링 장치 및 그 방법이 개시된다. 태그 클러스터링 장치는 소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 연관 태그 매핑 모듈(related tag mapping module), 태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하는 빈도수 추출 모듈(frequency extracting module), 연관 태그 쌍들의 빈도수를 기반으로 가중치 행렬을 생성하는 가중치 행렬 생성 모듈(weight matrix generating module), 및 가중치 행렬로부터 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터(tag cluster)를 생성하는 태그 클러스터링 모듈(tag clustering module)을 포함한다. 특히, 연관 태그 매핑 모듈은, 동일한 외래어에 대한 상이한 발음을 나타내는 태그들, 본말과 줄임말을 나타내는 태그들, 및 동의어를 나타내는 태그들을 각각 동일한 태그로 간주하여 연관 태그 쌍을 추출한다. 본 발명에 의하여 태그 기반 검색 결과가 향상되며, 태그들의 의미 관계를 이용하여 정보 네비게이션 성능이 개선된다.

Description

연관 태그에 기반한 태그 클러스터링 장치 및 그 방법{Tag clustering apparatus based on related tags and tag clustering method thereof}
본 발명은 웹 2.0에 기반한 인터넷 환경에 관한 것으로서, 특히 웹 서비스 환경에서 태그를 이용하여 콘텐츠를 검색할 때 검색 정확성을 높이기 위하여 연관 태그를 이용하는 방법 및 장치에 관한 것이다.
현재 인터넷의 발달로 사용자가 급속히 늘어가면서 웹 서비스 환경이 다양하게 변화하고 있다. 종래의 웹 서비스가 정적으로 수동적인데 반하여, 웹 서비스는 점차 동적이고 능동적으로 변화되고 있으며, 이러한 웹 서비스 변화의 흐름을 반영하기 위하여 웹 2.0이 도입되었다.
웹 2.0이란 정보의 개방을 통해 인터넷 사용자들 간의 정보 공유와 참여를 이끌어내고, 창조된 정보의 가치를 지속적으로 증대시키기 위하여 개발된 일련의 움직임을 의미한다. 즉, 웹 2.0에서는 개방적인 웹 환경을 기반으로 네티즌들이 자유롭게 참여하고, 콘텐츠를 생산 및 재창조, 공유할 수 있다.
웹 2.0에서 정보는 사용자에 의하여 생산되고, 사용자가 붙인 태그에 의해 정보가 체계화된다. 사용자들은 이러한 정보를 용이하게 공유할 수 있으며, 따라 서 다양한 리소스들이 상호 연관된다. 이와 같이 웹 2.0 현상은 모든 인터넷 사이트의 필수 전략이 되었으며, 웹 2.0을 성공적으로 구현하기 위하여 다양한 기법들이 소개되고 있다.
이러한 기법들 중 하나가 태깅(tagging)이다. 태깅은 블로그와 같은 웹 문서로부터 이미지, 동영상과 같은 멀티미디어 콘텐츠에 까지 폭넓게 이용되고 있는데, 사용자가 자신이 생성한 콘텐츠에 태그를 붙임으로써 검색과 분류가 용이하게 이루어지도록 하는 것이다.
그런데 이러한 태깅은 콘텐츠의 생산자가 임의로 붙이는 것이기 때문에 정보 검색의 정확도(precision)가 낮다. 즉, 사용자가 어떤 정보를 넓은 범주의 카테고리에 포함시키는 데에는 태깅 기법이 유용할 수 있지만, 해당 카테고리가 너무 넓기 때문에 다시 유용한 정보를 검색해 내는 과정은 효율적이지 않다. 예를 들어, 사용자는 컴퓨터를 찍은 사진에 자신의 이름을 붙여서 태깅할 수 있다. 이 경우 해당 컴퓨터의 사진을 검색하려는 사람에게는 이러한 사진이 노출되지 않게 된다. 즉, 리소스에 태깅된 태그들 중에는 부정확하게 태깅된 태그들이 많이 존재한다.
또한, 태깅된 태그는 구조화되지 않은 메타데이터이기 때문에 정보 검색 네비게이션이 비효율적이다. 예를 들어, 컴퓨터의 모니터 사진을 검색하려는 사용자가 모니터의 명칭을 이용하여 태그 검색을 수행할 경우, 모니터가 컴퓨터의 일부를 구성한다는 특징을 이용하여 네비게이션을 수행하는 것이 불가능하며, 별개의 태그는 완전히 개별적으로 취급될 뿐이다.
그러므로, 태그를 이용한 콘텐츠 검색 결과의 정확도를 향상시킴은 물론, 태 그들의 상호 관련성을 이용하여 여러 개의 태그들 사이의 정보 네비게이션을 가능하게 하는 시스템이 절실히 요구된다.
본 발명의 목적은 부정확한 태그로 인한 검색 결과의 열화를 극복하기 위하여, 부정확한 태그를 제거하고 연관성이 높은 태그들만을 모아서 태그 클러스터를 형성하기 위한 장치 및 방법을 제공하는 것이다.
본 발명의 다른 목적은 태그들 간의 상호 연관 관계에 의미론적 모델(ontology model)을 적용함으로써 태그들 간의 상호 관계를 규명하고, 이를 이용함으로써 사용자들이 복수 개의 태그들 상호간을 용이하게 네비게이션할 수 있도록 하는 토픽맵을 생성하기 위한 장치 및 방법을 제공하는 것이다.
상기와 같은 목적들을 달성하기 위한 본 발명의 일면은 태그 클러스터링 장치에 관한 것으로서, 본 발명에 의한 태그 클러스터링 장치는 소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 연관 태그 매핑 모듈(related tag mapping module), 태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하는 빈도수 추출 모듈(frequency extracting module), 연관 태그 쌍들의 빈도수를 기반으로 가중치 행렬을 생성하는 가중치 행렬 생성 모듈(weight matrix generating module), 및 상기 가중치 행렬로부터 상기 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터(tag cluster)를 생성하는 태그 클러스터링 모듈(tag clustering module)을 포함한다. 특히, 연관 태그 매핑 모듈은, 동일한 외래어에 대한 상이한 발음을 나타내는 태그들, 본말과 줄임말을 나타내는 태그들, 및 동의어를 나타내는 태그들을 각각 동일한 태그로 간주하여 상기 연관 태그 쌍을 추출하는 것을 특징으로 한다.
본 발명의 일면에 의한 태그 클러스터링 장치는 상기 태그 클러스터 내의 태그들을 토픽으로서 추출하는 토픽 생성 모듈(topic generating module), 상기 토픽들 중 상기 연관 태그 쌍에 관련된 토픽들을 상기 빈도수가 큰 것부터 작은 순서대로 토픽 쌍으로서 추출하는 토픽 쌍 추출 모듈(topic pair extracting module), 추출된 토픽 쌍에 소정의 어휘 지식 모델을 적용하여 상기 토픽 쌍의 의미 관계를 추출하는 의미 관계 생성 모듈(association generating module) 및 상기 토픽 쌍에 적합한 콘텐츠의 주소를 상기 토픽 쌍에 부여하는 어커런스 생성 모듈(occurrence generating module)을 더 포함하는 것을 특징으로 한다.
본 발명의 일면에 의한 태그 클러스터링 장치에 포함되는 태그 클러스터링 모듈은, 상기 연관 태그 쌍들 중 기본(base) 연관 태그 쌍을 선택하고, 선택된 기본 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 다른 연관 태그 쌍을 반복하여 선택하는 방식으로 상기 태그 클러스터를 생성하는 것을 특징으로 한다.
본 발명의 일면에 의한 태그 클러스터링 장치에 포함되는 태그 클러스터링 모듈은, 가장 높은 가중치를 가지는 연관 태그 쌍을 상기 기본 연관 태그 쌍으로서 선택하고, 생성된 태그 클러스터에 포함된 태그들의 개수 및 상기 연관 태그 쌍의 가중치의 평균을 고려하여 상기 임계치를 결정하는 것을 특징으로 한다.
또는, 본 발명의 일면에 의한 태그 클러스터링 장치에 포함되는 태그 클러스 터링 모듈은, 사용자 선택에 따라서 상기 기본 연관 태그 쌍 및 상기 임계치를 결정하는 것을 특징으로 한다.
본 발명의 일면에 의한 태그 클러스터링 장치에 포함되는 어휘 지식 모델은 RDF(Resource Description Framework), KQML(Knowledge Query and Manipulation Language), DAML-OIL(DARPA Agent Markup Language-Ontology Inference Layer), OWL(Ontology Web Language), 및 토픽맵 중 적어도 하나를 포함하는 것을 특징으로 한다.
본 발명의 일면에 의한 태그 클러스터링 장치에 포함되는 어커런스 생성 모듈은, 상기 토픽 쌍에 상응하는 연관 태그 쌍을 모두 포함하는 콘텐츠의 URL(Uniform Resource Locator)를 상기 토픽 쌍에 부여하는 것을 특징으로 한다.
상기와 같은 목적들을 달성하기 위한 본 발명의 다른 면은, 소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 연관 태그 매핑 단계, 태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하는 빈도수 추출 단계, 연관 태그 쌍들의 빈도수를 기반으로 가중치 행렬을 생성하는 가중치 행렬을 생성하는 가중치 행렬 생성 단계 및 상기 가중치 행렬로부터 상기 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터를 생성하는 태그 클러스터링 단계를 포함하는 태그 클러스터 방법에 관한 것이다. 특히, 연관 태그 매핑 단계는, 동일한 외래어에 대한 상이한 발음을 나타내는 태그들, 본말과 줄임말을 나타내는 태그들, 및 동의어를 나타내는 태그들을 각각 동일한 태그로 간주하는 단 계를 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 의한 태그 클러스터링 방법은 상기 태그 클러스터 내의 태그들을 토픽으로서 추출하는 토픽 생성 단계, 상기 토픽들 중 상기 연관 태그 쌍에 관련된 토픽들을 상기 빈도수가 큰 것부터 작은 순서대로 토픽 쌍으로서 추출하는 토픽 쌍 추출 단계, 추출된 토픽 쌍에 소정의 어휘 지식 모델을 적용하여 상기 토픽 쌍의 의미 관계를 추출하는 의미 관계 생성 단계 및 상기 토픽 쌍에 적합한 콘텐츠의 주소를 상기 토픽 쌍에 부여하는 어커런스 생성 단계를 더 포함하는 것을 특징으로 한다.
본 발명의 다른 면에 의한 태그 클러스터링 방법에 포함되는 태그 클러스터링 단계는, 상기 연관 태그 쌍들 중 기본 연관 태그 쌍을 선택하는 단계, 선택된 기본 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 다른 연관 태그 쌍을 선택하는 단계 및 선택된 다른 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 또 다른 연관 태그 쌍을 반복하여 선택하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 의하여, 부정확한 태그를 제거하고 연관성이 높은 태그들만을 이용하여 태그 클러스터를 형성하기 때문에 부정확한 태그로 인한 검색 결과의 열화가 극복되어 검색 결과의 품질이 향상된다.
또한, 본 발명에 의하여 태그들 간의 상호 연관 관계에 의미론적 모델(ontology model)을 적용하여 토픽맵을 생성함으로써 태그들 간의 상호 관계를 알 수 있으며, 사용자들은 이러한 상호 관계를 이용하여 복수 개의 태그들을 용이 하게 네비게이션할 수 있다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 면에 의한 태그 클러스터링 장치를 개념적으로 나타내는 블록도이다.
도 1에 도시된 태그 클러스터링 장치(100)는 태그 관리부(110) 및 디스플레이(190)를 포함한다. 태그 관리부(110)는 태그 리더(120), 태그 클러스터링 부(130) 및 토픽맵 생성부(150)를 포함한다. 태그 클러스터링부(130)는 연관 태그 매핑 모듈(132), 빈도수 추출 모듈(134), 가중치 행렬 생성 모듈(136) 및 태그 클러스터링 모듈(138)을 포함한다. 토픽맵 생성부(150)는 토픽 생성 모듈(152), 토픽 쌍 추출 모듈(154), 의미 관계 생성 모듈(156) 및 어커런스 생성 모듈(158)을 포함한다.
태그란 어떠한 정보, 리소스 또는 콘텐츠에 대하여 사용자가 직접 만드는 메타데이터(metadata)를 의미한다. 즉, 사용자는 웹 상의 기사, 이미지, 동영상, 즐겨찾기와 같은 모든 종류의 웹 자원들에 대해서 태그의 형태로 메타데이터를 기록할 수 있다. 메타데이터란 사용자가 해당 정보에 대하여 연관성이 있고 적절하다고 판단한 키워드 혹은 용어의 집합을 의미한다.
본 명세서에서 클러스터링이란 유사한 특성을 가지는 데이터를 그룹화하고, 이들 데이터가 가지는 공통적인 특징을 추출하기 위한 기법을 의미한다. 즉, 동일한 콘텐츠 또는 정보에 포함된 태그들 중 동시에 나타나는 태그들의 경우 서로의 관련성이 높은 태그인 것으로 간주할 수 있다. 설명의 편의를 위하여 본 명세서에서는 이러한 태그 쌍을 연관 태그 쌍(related tag pair)라고 부른다. 수많은 태그들 중에서 연관 태그 쌍을 찾아냄으로써 무의미한 태그들이 배제되기 때문에 태그에 기반한 검색 결과의 정확성이 향상될 수 있다.
본 발명에서 온톨로지(ontology)란 특정 분야에서 사용되는 어휘들의 집합이며, 응용 분야 내의 지식들을 개념화하고 명세화하는 기법을 의미한다. 온톨로지의 목적은 분산된 정보 자원들 간의 의미적 연관 관계를 정의하고, 이를 통합, 공 유함으로써 향상된 정보 검색 및 의미적 네비게이션(semantic navigation)을 제공하는 것이다.
태그들(180)은 태그 관리부(110)의 태그 리더(120)에 의하여 독출된다. 독출된 태그들은 태그 클러스터링부(130)로 전달된다. 이 과정에서, 연관 태그 매핑 모듈(132)은 독출된 태그들을 단순히 비교하는 것이 아니라, 관념적으로 동일한 대상을 지칭하는 것으로 판단되는 유사한 태그들을 동일한 태그인 것으로 간주함으로써 후술하는 가중치 행렬의 차원이 지나치게 증가하는 것을 막을 뿐만 아니라, 정보 처리량을 감소시키고, 또한 검색 결과를 개선할 수 있다. 예를 들어, 연관 태그 매핑 모듈(132)은 동일한 외래어에 대한 상이한 발음을 나타내는 태그들을 동일한 태그로 간주할 수 있다. 예를 들어, 컴퓨터, 콤퓨터, 컴퓨타, 콤퓨타 등은 동일한 대상인 computer를 나타내는 것으로 간주할 수 있다. 또한, 연관 태그 매핑 모듈(132)은 본말과 줄임말을 나타내는 태그들도 동일한 태그로 간주할 수 있다. 예를 들어, 대한민국과 한국이 동일한 태그인 것으로 간주할 수 있다. 또한, 연관 태그 매핑 모듈(132)은 동의어를 나타내는 태그들을 동일한 태그로 간주할 수 있는데, 예를 들어 여름과 summer를 동일한 태그로 판단할 수 있다. 또한, 연관 태그 매핑 모듈(132)은 한영 자판의 오변환에 기인한 무의미한 문자열을 각각 상응하는 언어로 변환시킬 수도 있다. 예를 들어, 'zmffjtmxjfld' 이라는 태그가 있을 때 가장 널리 쓰이는 2벌식-영문 자판 변환을 이용하여 'zmffjtmxjfld' 이라는 태그가 '클러스터링'이라는 태그와 동일한 것으로 간주할 수도 있다.
연관 태그 매핑 모듈(related tag mapping module, 132)은 소정의 모집단에 포함되는 복수 개의 콘텐츠들 중 동일한 콘텐츠에 함께 관련되는 두 개의 태그들로 이루어지는 연관 태그 쌍(related tag pair)들의 집합을 추출한다. 즉, 연관 태그 매핑 모듈(132)은 동일한 콘텐츠에 모두 관련되는 태그들이 서로 연관 태그 쌍으로서 매핑한다. 이러한 매핑 과정을 이해하기 위하여 도 2a 및 도 2b를 참조한다.
도 2a 및 도 2b는 도 1에 도시된 연관 태그 매핑 모듈(132)의 동작을 개념적으로 설명하는 도면들이다.
하나의 콘텐츠에는 여러 개의 태그가 입력될 수 있다. 도 2a를 참조하면 제1 태그 군(200)에는 woman, teacher 및 school 이라는 태그가 포함된다. 그러면 연관 태그 매핑 모듈(132)은 woman, teacher 및 school 이라는 태그들이 동일한 하나의 콘텐츠에 포함되어 있으므로 이들을 상호 간에 매핑하여 3 개의 연관 태그 쌍을 생성한다. 즉, woman-teacher, teacher-school 및 school-woman 이라는 3 개의 연관 태그 쌍이 생성된다.
도 2b를 참조하면, 제2 태그 군(300)에는 school, people, children 및 boy 라는 태그들이 포함된다. 즉, school, people, children 및 boy 라는 태그들이 동일한 콘텐츠에 관련되므로, 이들을 상호 매핑하여 4 개의 연관 태그 쌍을 생성한다. 또한, 제1 태그 군(200) 및 제2 태그 군(300)은 school 이라는 태그를 공통으로 포함한다. 그러므로, school은 제1 태그 군(200)에 포함된 태그들(teacher, woman) 및 제2 태그 군(300)에 포함된 태그들(people, boy, children)과도 관련되어 연관 태그 쌍을 생성한다는 것을 알 수 있다.
다시 도 1을 참조하면, 빈도수 추출 모듈(frequency extracting module, 134)은 연관 태그 쌍들이 콘텐츠들에서 발생하는 횟수인 빈도수를 추출한다. 즉, 빈도수가 2라는 것은 주어진 모집단에 속하는 콘텐츠들 중에 어느 연관 태그 쌍이 두 번 발생한다는 것을 의미한다. 빈도수가 높을수록 해당 연관 태그 쌍의 연관성이 높다는 것을 나타낸다.
이와 같이 연관 태그 쌍을 형성하고 빈도수를 구하는 과정은 다음 수학식 1 및 수학식 2를 이용하여 수행된다.
TG(i, j) = 0; 태그 i 및 태그 j 간에 연관성이 없을 때
TG(i, j) = k; 태그 i 및 태그 j 가 모두 k 번 발견될 때
수학식 1, 2에서 TG(i, j)는 가중치 행렬을 i행 j열의 원소를 나타낸다.
빈도수 추출 모듈(134)에 의하여 추출된 빈도수는 가중치 행렬 생성 모듈(136)로 전달되고, 가중치 행렬 생성 모듈(136)은 수신된 연관 태그 쌍 별 빈도수를 이용하여 가중치 행렬을 생성한다. 도 3a는 가중치 행렬 생성 모듈(136)에 의하여 생성된 가중치 행렬의 일 예를 도시한다.
도 3a를 참조하면, 가중치 행렬은 행 및 열은 각각 콘텐츠 그룹으로부터 추출된 태그들을 포함한다. 가중치 행렬의 각 원소는 연관 태그 쌍의 빈도수이다. 예를 들어, teacher-classroom 이라는 연관 태그 쌍은 2의 가중치를 가지고, classroom-school 이라는 연관 태그 쌍은 4의 가중치를 가진다. 이해의 편의를 위 하여 4의 가중치를 가지는 연관 태그 쌍은 원형으로 표시되고, 2의 가중치를 가지는 연관 태그 쌍은 삼각형으로 표시된다.
이와 같이 가중치 행렬이 구성되면 태그 클러스터링 모듈(tag clustering module, 138)이 임계치 이상의 빈도수를 가지는 연관 태그 쌍만을 추출하여 태그 클러스터를 생성한다. 이 때, 태그 클러스터를 생성하기 위하여 적용되는 임계치(문턱치)가 크면 클수록 태그 클러스터에는 적은 개수의 연관 태그 쌍이 포함되며, 적용되는 임계치가 작을수록 태그 클러스터에는 많은 개수의 태그들이 포함된다. 태그 클러스터에 포함되는 태그들이 개수가 많을수록 재현율(recall)은 높아지지만 정확도(precision)는 감소된다. 정확도란 소정의 태그를 이용하여 어느 콘텐츠를 검색하려고 할 때, 검색 결과가 얼마나 원하는 검색 목적에 근접하느냐를 나타낸다. 예를 들어 애플 컴퓨터를 검색하고자 했을 때 결과로서 과일인 사과가 나온다면 이는 정확도를 떨어뜨리는 것이다. 재현율은 검색 결과들 중에서 몇 %가 정확한 결과를 포함하느냐를 나타낸다.
태그 클러스터링 모듈(138)이 태그 클러스터를 생성하기 위하여 문턱치를 설정하는 것이 매우 중요한데, 이는 도 5a 및 도 5b를 이용하여 상세히 후술된다.
태그 클러스터링 알고리즘의 pseudo-code는 다음과 같다.
//i : 클러스터 번호
// C(i) : i번째 클러스터
// T(i, j) : 태그 i 및 태그 j 간의 빈도수, 즉, 가중치 행렬 TG의 i행 j열 의 원소
// Max(i, j) : TG의 원소 중 최대 가중치를 가지는 원소
// Ai : 클러스터 C(i)에 포함된 태그들의 가중치 행렬
i = 1
// 문턱치보다 큰 가중치를 가지는 모든 태그들이 클러스터에 포함될 때까지 반복
Ai 초기화
Repeat {
// TG에서 최대 가중치를 가지는 원소 Max(i, j)의 두 태그 i, j를 선택하여 클러스터 C(i)에 추가
select Max(i, j)
Add tag i and tag j to C(i)
Add element Max(i, j) to Ai
While(T(i,j)>= 문턱치) {
// 클러스터 C(i)의 가중치 행렬 Ai에 추가된 태그 i 및 태그 j 모두에 관련된 태그 중 가중치 평균이 문턱치보다 크기나 같은 원소 T(i,j)를 가중치 행렬 TG에서 선택하여 C(i)에 추가
Add tag i and tag j of TG to C(i)
Add element T(i, j) to Ai
}
i=i+1
} until (All (T(i,j))>=문턱치)
이러한 클러스터링 과정을 상세히 도 3b를 참조하여 설명하면 다음과 같다.
우선 가중치 행렬 중 최대 가중치를 가지는 태그 i(school)와 태그 j(classroom)를 클러스터C(i)에 추가한다. 그러면 C(i)에 추가된 태그 i 및 태그 j와 관련된 태그들인 teacher, me, female, woman 중 가중치 평균이 문턱치보다 크거나 같은 원소인 T(i,j)를 가중치 행렬 TG로부터 선택하여 C(i)에 추가한다. 이러한 동작이 모든 가중치가 문턱치보다 작게 될 때까지 반복 수행된다. 도 3b를 참조하면 우선 가장 높은 가중치를 가지는 school-classroom 이 추출되고(원으로 표시됨), 그 이후에 2의 가중치를 가지는 classroom-teacher 및 teacher-school이 추출된다(삼각형으로 표시됨).
도시된 바와 같이, 태그 클러스터링 모듈(138)은 임의의 태그 군 중에서 서로 관련성이 있는 연관 태그 쌍을 추출하고, 추출된 연관 태그 쌍의 빈도수에 기반하여 태그 클러스터를 생성함으로써 태그 클러스터 내에 속한 연관 태그 쌍들은 서로 밀접한 관련성을 가지게 된다.
태그 클러스터링 모듈(138)에서 태그 클러스터링을 수행하기 위하여 적용할 문턱치는 사용자에 의하여 선택될 수 있고, 또는 다음과 같이 최적의 문턱치를 선 택할 수도 있다.
도 5a 및 도 5b는 도 1에 도시된 태그 클러스터링 모듈(138)에서 임계치를 결정하기 위한 과정을 설명하기 위한 그래프들이다. 도 5a는 2 내지 12의 상이한 문턱치를 적용했을 경우에 태그 클러스터에 포함되는 평균 태그들의 개수를 나타낸다. 도시된 바와 같이, 문턱치가 증가할수록 태그 클러스터에 포함되는 태그들의 개수는 감소한다는 것을 알 수 있다. 도 5b는 문턱치를 증가했을 경우에 태그 클러스터에 포함된 태그들의 응집도를 도시한다. 도 5b의 응집도란 소정 태그 클러스터 내에 가중치로 연결된 연관 태그 쌍들의 군집 정도를 나타내며, 태그 클러스터에 포함된 연관 태그 쌍들의 가중치 평균을 나타낸다.
임의의 태그 클러스터 C(i)의 응집도는 다음 수학식 3을 이용하여 연산된다.
Figure 112008055145316-pat00001
수학식 3에서, Ai(j, k)는 클러스터 C(i) 내에 가중치로 연결된 태그 j 및 태그 k를 의미하며, n은 C(i)에 속한 전체 태그 수를 나타낸다.
수학식 3을 이용한 개별 클러스터에 대한 응집도 평가에 기반하여 문턱치를 선택할 수 있는데, 이를 위하여 전체 클러스터의 응집도 평균을 다음 수학식 4와 같이 연산한다.
Figure 112008055145316-pat00002
수학식 4에서 m은 문턱치를 달리 함에 따라서 선택된 태그 클러스터 C(i)의 개수를 나타낸다.
도 5b를 참조하면, 문턱치가 증가함에 따라서 응집도도 증가하지만, 어느 정도 값 이후에는 응집도의 변화가 거의 없다는 것을 나타낸다. 도 5b에 도시된 그래프에서 이러한 값은 9가 될 것이다. 즉, 문턱치가 9 이상이 되면 응집도에는 별 변화가 없다는 것을 알 수 있다. 즉, 사용자는 도 5b와 같은 결과를 참조하여 문턱치를 9로서 선택할 수 있다.
다시 도 1을 참조하면, 태그 클러스터링 모듈(138)에 의하여 생성된 태그 클러스터는 토픽맵 생성부(150)로 전달된다. 토픽 생성 모듈(152)은 태그 클러스터 내의 태그들을 토픽으로서 추출한다. 추출한 토픽들은 토픽 쌍 추출 모듈(154)로 전달된다. 토픽 쌍 추출 모듈(154)은 토픽들 중 상기 연관 태그 쌍에 관련된 토픽들을 상기 빈도수가 큰 것부터 작은 순서대로 토픽 쌍으로서 추출한다. 그러면, 추출된 토픽 쌍이 의미 관계 생성 모듈(156)로 전달된다. 의미 관계 생성 모듈(156)은 추출된 토픽 쌍에 소정의 어휘 지식 모델을 적용하여 토픽 쌍의 의미 관계를 추출해낸다. 그러면, 어커런스 생성 모듈(158)은 추출된 의미 관계를 반영하 여 각 토픽 쌍에 적합한 콘텐츠의 주소를 토픽 쌍에 부여한다. 이하, 토픽맵 생성부(150)의 각 구성요소의 동작을 상세히 후술한다.
토픽 생성 모듈(152)은 토픽맵을 구성하기 위한 UI를 제공할 수 있다. UI는 토픽맵의 명칭, 설명, 생성자, 배포자, 및 생성 날짜 등의 정보를 사용자에게 제공한다. 토픽 생성 모듈(152)은 태그 클러스터링 모듈(138)에 포함된 태그들을 자동적으로 토픽으로서 이용한다. 토픽의 기본 명칭(base name)은 사용자가 여러 토픽들 중 각각의 토픽을 이해할 수 있도록 한다. 각 토픽 맵의 기본 토픽은 사용자에 의하여 선택될 수 있으며, 또는 가장 빈도수가 높은 연관 태그 쌍으로부터 선택될 수도 있다.
토픽 생성 모듈(152)에서 토픽을 추출하면, 토픽 쌍 추출 모듈(154)이 태그 클러스터로부터 토픽 쌍을 추출한다. 결국, 태그 클러스터를 구성하는 것이 태그이며, 이러한 태그들이 토픽맵에서 이용될 경우 토픽이 된다. 이러한 용어는 해당 기술 분야에서 일반적인 의미로 이용되는 용어를 나타내는 것이다. 토픽 쌍 추출 모듈(154)에서 이용하는 pseudo-code를 간략히 소개하면 다음과 같다.
// C(i) : 사용자에 의해 선택된 클러스터
// A(i, j) : C(i)에 포함된 태그들의 가중치 행렬
// Max(A(i, j)) : 가중치 행렬 A(i, j)의 원소 중 최대값을 가지는 원소
// T(k) : Max(A(i,j))의 태그와 연관된 모든 태그들의 집합
// B(l, m) : T(k)에 포함된 태그들의 가중치 행렬
// Max(B(l, m)) : 가중치 행렬의 원소 중 최대값을 가지는 원소
// A(i, j)가 empty가 될 때까지 반복
Repeat {
// 가중치 행렬의 원소 중 최대값 추출
Extract Max(A(i,j))
// Max(A(i,j))의 태그들과 연관된 모든 태그들을 C(i)로부터 탐색하여 T(k) 구성
Find T(k)
// B(l,m)이 empty가 될 때까지 반복
Repeat {
// 가중치 행렬의 원소 중 Max(B(l,m)) 추출
Extract Max(B(l,m))
// B(l,m)에서 Max(B(l,m))을 삭제
Remove Max B(l,m)) from B(l,m)
} until (B(l,m)==empty)
// A(i,j)에서 B(l,m) 삭제
Remove B(l,m) from A(i,j)
} until (A(i,j)==empty)
전기된 의사 코드를 도 4a 내지 도 4e를 이용하여 설명하면 다음과 같다.
도 4a 내지 도 4e는 도 1에 도시된 토픽 쌍 추출 모듈(154)에서 토픽쌍을 추출하는 동작을 개념적으로 설명하기 위한 도면들이다.
우선, 생성된 태그 클러스터들(도 4a 참조) 중에서 사용자가 선택한 클러스터 C(i)의 가중치 행렬 A(i,j)의 원소 중 최대 가중치를 가지는 Max(A(i,j))를 선택하여, 선택된 태그 i 및 태그 j를 연관 태그 쌍으로서 추출한다(도 4b 참조). 그리고, Max(A(i,j))의 태그 i 및 태그 j와 관련된 모든 태그를 C(i)로부터 탐색하여 T(k)를 구성한다(도 4c 참조). 그리고, T(k)에 포함된 가중치 행렬 B(l,m)의 원소 중 최대값을 가지는 원소 Max(B(l,m))을 선택한다(도 4d). 그 후, B(l,m)에서 Max(B(l,m))은 삭제되고, 이러한 과정이 계속 반복된다(도 4e).
토픽 쌍 추출 모듈(154)이 토픽 쌍을 추출하면, 의미 관계 생성 모듈(156)이 추출된 토픽 쌍에 웹 기반 온톨로지를 적용함으로써 의미 관계를 부여한다.
온톨로지의 기본은 해당 영역에 존재하는 개념들이다. 예를 들어 책이라는 토픽은 저자, 출판사, 페이지수, 가격 등의 속성을 가질 수 있고, 입찰이라는 토픽은 대상, 날짜, 방식, 조건 등의 속성을 가질 수 있을 것이다. 또 토픽들은 서로 관계를 가질 수 있는데, 가장 기본적인 관계는 상하 포함 관계이다. 예를 들어 동화책이라는 토픽은 책에 포함되는 하위개념이 된다. 온톨로지가 발전하면 속성의 특성, 좀 더 복잡한 형식의 관계 등을 정의함으로써 풍부한 내용을 담을 수 있게 된다. 온톨로지를 독립적인 하나의 중심 구성요소로 보고 이를 개발과 운영의 중심에 놓는 것이 온톨로지 기반의 시스템(ontology-driven system)이며 이를 위하여 웹 온톨로지 개념이 도입된다. 웹 온톨로지(Web Ontology)란 어휘나 개념의 정의 또는 명세로서 정보 시스템 분야에서 시스템이 다루는 내용에 해당하는 구성 요소를 나타낸다. 즉, 온톨로지란 시맨틱 웹을 구성하기 위하여 사람이 직관적 또는 의미적으로 판단 또는 처리하던 작업을 컴퓨터가 처리할 수 있도록 공통 어휘를 기술한 것을 의미한다. 하지만, 모든 형상에 대한 표현은 매우 어렵기 때문에 웹이라는 특정 분야에 한해 W3C에서 확장성 생성 언어(XML) 및 자원 기술 프레임워크(Resource Description Framework, RDF)를 기반으로 웹 온톨로지 언어를 설계하였다.
웹 온톨로지 언어(Ontology Web Language, OWL)이란 웹 상에서 첨단의 웹 검색, 소프트웨어 에이전트 및 지식 관리 기능을 제공하는 온톨로지를 발간 및 공유하기 위한 시맨틱 웹 생성 언어를 의미한다. 시맨틱 웹(semantic web)의 궁극적 목표는 컴퓨터도 이해할 수 있는 지식의 원천으로서의 웹을 만드는 것인데, HTML 형태의 문서들로 이뤄진 현재의 웹은 사람에게 정보를 주는 역할은 하고 있지만 컴퓨터 프로그램이 각 문서의 내용을 정확히 파악할 수 없다는 문제 의식에서 출발한다. OWL은 자원 기술 프레임워크(RDF)의 확장 언어로 개발된 것으로 DAML+OIL 언어로부터 시작되었다. OWL은 웹 온톨로지와 그에 관련된 지식을 정의하는 언어로 추론 시스템에 축적된 명제들을 정의하며, 클래스 및 그 구성원 간의 관계를 기술하고, 구문적으로 정의되지 않은 사실의 논리적 유추를 가능하게 하는 클래스 및 속성과 이에 적용할 수 있는 제약 사항의 집합으로 되어 있다.
온톨로지를 이용한 시스템은 다양하게 존재하며, 이 중에서 KQML-Knowledge Query and Manipulation Language)와 지식교환형식(예 KIF-Knowledge Interchange Format) 등을 정의했다. 특히 미 국방연구처(DARPA)의 DAML-OIL(DARPA Agent Markup Language - Ontology Inference Layer)이 대표적인 온톨로지 표현 언어 및 형식으로 받아들여지고 있다.
또는, 추출된 연관 토픽 쌍에 영어를 기반으로 한 어휘 지식 모델인 워드넷(WordNet)을 적용할 수도 있다. 워드넷은 단어 상의 의미론적 패턴 또는 사용 패턴에 관련된 정보로서, 단어 간의 연관성을 구축한 데이터베이스라고 할 수 있다. 워드넷은 두 단어 간의 연관 관계, 상위어, 하위어, 동의어 등의 관계를 도출해 낼 수 있는 자바 기반의 워드넷 라이브러리(JWNL, Java WordNet Library)를 통해 공개 배포되고 있다.
본 발명에 의한 태그 클러스터링 장치(100)에 포함되는 의미 관계 생성 모듈(156)은 자동화된 의미 관계를 토픽 쌍에 부여하기 위하여 선택된 두 토픽들 간의 연관 관계를 워드넷으로부터 추출할 수 있다. 예를 들어, 워드넷은 has kind, is a kind of, has members, is a member of, has particulars, is a particulars, has part, is a part of 등의 연관 관계를 제공하고 있다. 예를 들어, 토픽 쌍 school-classroom의 경우, 워드넷을 이용하여 "is part of" 라는 관계가 도출될 수 있으므로, "classroom is part of school" 이라는 의미 관계가 성립될 수 있다.
도 6은 도 1에 도시된 의미 관계 생성 모듈(156)에서 생성한 토픽맵의 일 예를 도시한다.
도 6에 도시된 토픽맵은 computer를 기본 토픽으로 하여 구성된 것이다. 도 6에서 (1)의 관계는 "has part of"의 관계이며, (2)의 관계는 "has company of"의 관계를 나타낸다. 또한 (3)의 관계는 "has kind of"의 관계를 나타낸다. 도시된 바와 같이, 도 6에 도시된 토픽 맵에 포함된 각각의 토픽들은 단순히 나열되는 것 이 아니라, 이들 토픽간의 관계를 알 수 있다. 그러므로, 검색 성능이 향상된다.
도 1의 토픽맵 생성부(150)에 포함되는 어커런스 생성 모듈(occurrence generating module, 158)은 추출된 토픽 쌍에 적합한 콘텐츠의 주소를 해당 토픽 쌍에 부여한다. 즉, 어커런스 생성 모듈(158)은 추출된 각각의 토픽에 상응하는 콘텐츠의 URL 정보를 붙여준다. 이 과정에서 토픽에 상응하는 콘텐츠가 해당 토픽에 관련되기 때문에, 추후 검색 성능이 향상된다. 예를 들어, 'apple'이라는 태그를 포함하는 콘텐츠에는 과일 사과도 있을 수 있고, 애플 컴퓨터도 있을 수 있다. 이 경우, 어커런스 생성 모듈(158)은 과일 apple을 의미하는 토픽맵에 포함된 토픽(즉, 태그)에는 과일 apple에 상응하는 콘텐츠의 URL 주소를 부여한다. 또한, apple 컴퓨터를 의미하는 토픽맵에 포함된 토픽에는 컴퓨터 apple에 상응하는 콘텐츠의 URL 주소를 부여한다. 그 결과 과일 apple과 컴퓨터 apple이 명확히 구분되어 검색되게 된다.
도 7은 본 발명의 다른 면에 의한 태그 클러스터링 방법의 흐름도이다.
우선 소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 작업을 콘텐츠 각각에 대하여 수행한다(S710). 그러면 추출된 연관 태그 쌍이 콘텐츠들에서 발생하는 횟수인 빈도수를 추출한다(S720).
추출된 빈도수는 가중치 행렬을 생성하는데 이용된다(S730). 가중치 행렬을 생성하는 방식은 도 1의 가중치 행렬 생성 모듈(136)에 대하여 전술된 바와 같다.
그러면, 가중치 행렬로부터 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지 는 연관 태그들만을 추출하여 태그 클러스터를 생성한다(S740). 이 과정에서 문턱치를 나타내는 임계치를 결정할 때 태그 클러스터에 포함되는 태그들의 개수 및 이들의 응집도를 참조할 수 있음은 전술된 바와 같다.
태그 클러스터가 생성되면, 생성된 태그 클러스터로부터 토픽 및 연관 토픽 쌍을 추출한다(S750). 토픽 및 연관 토픽 쌍이란 온톨로지에서 이용되는 용어이며, 태그 클러스터에서 이용된 태그 및 연관 태그 쌍과 각각 대응된다는 것은 전술된 바와 같다.
그러면, 추출된 연관 토픽 쌍에 온톨로지를 이용하여 의미 관계를 부여한다(S760). 마지막으로 토픽 쌍에 적합한 콘텐츠의 주소를 할당한다(S770).
본 발명에 의한 태그 클러스터링 방법 및 장치에 따르면 부정확한 태그에 기인한 검색 결과의 열화와 비구조화된 태그로 인한 네비게이션의 비효율성이 극복된다. 예를 들어, 태그 기반 사이트인 Flickr의 검색 결과와 본 발명에 의한 태그 클러스터링 방법을 적용한 검색 결과를 비교한 결과 다음과 같은 결과를 얻는다.
비교 검사는 computer, apple, jaguar 라는 키워드를 이용하여 검색된 각각 120개의 이미지에 부여된 태그들을 이용하여 수행되었다. 그 결과, Flickr 사이트의 정확성 및 재현율은 평균 45.8%임엔 반하여, 본 발명이 적용된 시스템의 정확성은 평균 90.4%이며, 재현율은 평균 42.8%라는 것을 알 수 있었다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 예를 들면, 태그 클러스터링 모 듈(138)에서 관련성이 높은 연관 태그 쌍을 추출하기 위하여 적용한 CAST(Complexity Analysis of Sequence Tracts) 알고리즘 외에, 생체 정보학(bio-informatics)에서 이용되는 SEQ(Application in GCG), Sequence Clustering, BLASTCLUST, PROCLUST, TribeMCL 및 GeneRAGE 등의 기법 등이 적용될 수 있음은 물론이다. 즉, 연관 태그 쌍으로부터 소정의 가중치 이상을 가지는 연관 태그 쌍을 추출하여 태그 클러스터를 형성할 수 있는 모든 기법이 태그 클러스터링 모듈(138)에 적용될 수 있다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명은 태그 기반 검색 시스템에 적용될 수 있다.
도 1은 본 발명의 일 면에 의한 태그 클러스터링 장치를 개념적으로 나타내는 블록도이다.
도 2a 및 도 2b는 도 1에 도시된 연관 태그 매핑 모듈(132)의 동작을 개념적으로 설명하는 도면들이다.
도 3a 및 3b는 가중치 행렬에서 빈도수에 기반하여 높은 빈도수를 가지는 태그들을 추출하는 과정을 설명하는 도면들이다.
도 4a 내지 도 4e는 도 1에 도시된 토픽 쌍 추출 모듈(154)에서 토픽쌍을 추출하는 동작을 개념적으로 설명하기 위한 도면들이다.
도 5a 및 도 5b는 도 1에 도시된 태그 클러스터링 모듈(138)에서 임계치를 결정하기 위한 과정을 설명하기 위한 그래프들이다.
도 6은 도 1에 도시된 의미 관계 생성 모듈(156)에서 생성한 토픽맵의 일 예를 도시한다.
도 7은 본 발명의 다른 면에 의한 태그 클러스터링 방법의 흐름도이다.

Claims (14)

  1. 태그 클러스터 장치에 있어서,
    소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 연관 태그 매핑 모듈(related tag mapping module);
    태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하는 빈도수 추출 모듈(frequency extracting module);
    상기 연관 태그 쌍들의 상기 빈도수를 기반으로 가중치 행렬을 생성하는 가중치 행렬 생성 모듈(weight matrix generating module); 및
    상기 가중치 행렬로부터 상기 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터(tag cluster)를 생성하는 태그 클러스터링 모듈(tag clustering module)을 포함하며, 상기 연관 태그 매핑 모듈은,
    동일한 외래어에 대한 상이한 발음을 나타내는 태그들, 본말과 줄임말을 나타내는 태그들, 및 동의어를 나타내는 태그들을 각각 동일한 태그로 간주하여 상기 연관 태그 쌍을 추출하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  2. 제1항에 있어서,
    상기 태그 클러스터 내의 태그들을 토픽으로서 추출하는 토픽 생성 모 듈(topic generating module);
    상기 토픽들 중 상기 연관 태그 쌍에 관련된 토픽들을 상기 빈도수가 큰 것부터 작은 순서대로 토픽 쌍으로서 추출하는 토픽 쌍 추출 모듈(topic pair extracting module);
    추출된 토픽 쌍에 소정의 어휘 지식 모델을 적용하여 상기 토픽 쌍의 의미 관계를 추출하는 의미 관계 생성 모듈(association generating module); 및
    상기 토픽 쌍에 적합한 콘텐츠의 주소를 상기 토픽 쌍에 부여하는 어커런스 생성 모듈(occurrence generating module)을 더 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  3. 제2항에 있어서, 상기 태그 클러스터링 모듈은,
    상기 연관 태그 쌍들 중 기본(base) 연관 태그 쌍을 선택하고, 선택된 기본 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 다른 연관 태그 쌍을 반복하여 선택하는 방식으로 상기 태그 클러스터를 생성하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  4. 제3항에 있어서, 상기 태그 클러스터링 모듈은,
    가장 높은 가중치를 가지는 연관 태그 쌍을 상기 기본 연관 태그 쌍으로서 선택하고,
    생성된 태그 클러스터에 포함된 태그들의 개수 및 상기 연관 태그 쌍의 가중 치의 평균을 고려하여 상기 임계치를 결정하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  5. 제3항에 있어서, 상기 태그 클러스터링 모듈은,
    사용자 선택에 따라서 상기 기본 연관 태그 쌍 및 상기 임계치를 결정하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  6. 제2항에 있어서,
    상기 어휘 지식 모델은 RDF(Resource Description Framework), KQML(Knowledge Query and Manipulation Language), DAML-OIL(DARPA Agent Markup Language-Ontology Inference Layer), OWL(Ontology Web Language), 및 토픽맵 중 적어도 하나를 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  7. 제2항에 있어서, 상기 어커런스 생성 모듈은,
    상기 토픽 쌍에 상응하는 연관 태그 쌍을 모두 포함하는 콘텐츠의 URL(Uniform Resource Locator)를 상기 토픽 쌍에 부여하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 장치.
  8. 태그 클러스터 방법에 있어서,
    소정의 모집단에 포함되는 콘텐츠들 중 동일한 콘텐츠에 관련되는 태그들로부터 두 개씩 연관 태그 쌍(related tag pair)들을 각각 추출하여 서로 매핑하는 연관 태그 매핑 단계;
    태그 매핑 과정에서 동일 태그의 출현 빈도를 추출하는 빈도수 추출 단계;
    상기 연관 태그 쌍들의 상기 빈도수를 기반으로 가중치 행렬을 생성하는 가중치 행렬 생성 단계; 및
    상기 가중치 행렬로부터 상기 연관 태그 쌍들 중 임계치 이상의 빈도수를 가지는 연관 태그들만을 추출하여 태그 클러스터를 생성하는 태그 클러스터링 단계를 포함하며, 상기 연관 태그 매핑 단계는,
    동일한 외래어에 대한 상이한 발음을 나타내는 태그들, 본말과 줄임말을 나타내는 태그들, 및 동의어를 나타내는 태그들을 각각 동일한 태그로 간주하는 단계를 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  9. 제8항에 있어서,
    상기 태그 클러스터 내의 태그들을 토픽으로서 추출하는 토픽 생성 단계;
    상기 토픽들 중 상기 연관 태그 쌍에 관련된 토픽들을 상기 빈도수가 큰 것부터 작은 순서대로 토픽 쌍으로서 추출하는 토픽 쌍 추출 단계;
    추출된 토픽 쌍에 소정의 어휘 지식 모델을 적용하여 상기 토픽 쌍의 의미 관계를 추출하는 의미 관계 생성 단계; 및
    상기 토픽 쌍에 적합한 콘텐츠의 주소를 상기 토픽 쌍에 부여하는 어커런스 생성 단계를 더 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  10. 제9항에 있어서, 상기 태그 클러스터링 단계는,
    상기 연관 태그 쌍들 중 기본 연관 태그 쌍을 선택하는 단계;
    선택된 기본 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 다른 연관 태그 쌍을 선택하는 단계; 및
    선택된 다른 연관 태그 쌍에 포함된 각각의 태그들을 포함하는 또 다른 연관 태그 쌍을 반복하여 선택하는 단계를 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  11. 제10항에 있어서, 상기 태그 클러스터링 단계는,
    가장 높은 가중치를 가지는 연관 태그 쌍을 상기 기본 연관 태그 쌍으로서 선택하는 단계; 및
    생성된 태그 클러스터에 포함된 태그들의 개수 및 상기 연관 태그 쌍의 가중치의 평균을 고려하여 상기 임계치를 결정하는 단계를 더 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  12. 제10항에 있어서, 상기 태그 클러스터링 단계는,
    사용자 선택에 따라서 상기 기본 연관 태그 쌍 및 상기 임계치를 결정하는 단계를 더 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  13. 제9항에 있어서,
    상기 어휘 지식 모델은 RDF, KQML, DAML-OIL, OWL 및 토픽맵 중 적어도 하나를 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
  14. 제9항에 있어서, 상기 어커런스 생성 단계는,
    상기 토픽 쌍에 상응하는 연관 태그 쌍을 모두 포함하는 콘텐츠를 상기 토픽 쌍에 부여하는 단계를 포함하는 것을 특징으로 하는 연관 태그에 기반한 태그 클러스터링 방법.
KR20080074701A 2008-07-30 2008-07-30 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법 KR101007056B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20080074701A KR101007056B1 (ko) 2008-07-30 2008-07-30 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20080074701A KR101007056B1 (ko) 2008-07-30 2008-07-30 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100013157A KR20100013157A (ko) 2010-02-09
KR101007056B1 true KR101007056B1 (ko) 2011-01-12

Family

ID=42087241

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20080074701A KR101007056B1 (ko) 2008-07-30 2008-07-30 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101007056B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101285115B1 (ko) * 2013-02-22 2013-07-17 김준석 태그를 활용한 컨텐츠 연계 시스템 및 방법
CN107085581B (zh) * 2016-02-16 2020-04-07 腾讯科技(深圳)有限公司 短文本分类方法和装置
KR102240454B1 (ko) * 2019-05-17 2021-04-14 네이버 주식회사 키워드 관계 구조 기반의 질의 분석을 이용한 복합키워드 동의어 추출 방법 및 시스템
KR20220020121A (ko) * 2020-08-11 2022-02-18 삼성전자주식회사 컨텐트와 연관된 텍스트를 제공하기 위한 전자 장치 및 그 동작 방법
KR102390185B1 (ko) 2021-01-29 2022-04-25 인하대학교 산학협력단 유의어 클러스터링에 기반한 서사 콘텐츠 생성시스템 및 그 방법
KR102479381B1 (ko) 2021-01-29 2022-12-19 인하대학교 산학협력단 유의어에 기반한 콘텐츠 클러스터링 시스템 및 그 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080031928A (ko) * 2005-08-03 2008-04-11 윙크 테크놀로지스 인코포레이티드 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080031928A (ko) * 2005-08-03 2008-04-11 윙크 테크놀로지스 인코포레이티드 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문1: 한국정보처리학회*

Also Published As

Publication number Publication date
KR20100013157A (ko) 2010-02-09

Similar Documents

Publication Publication Date Title
Chen Information visualisation and virtual environments
RU2377645C2 (ru) Способ и система для классификации дисплейных страниц с помощью рефератов
US8983828B2 (en) System and method for extracting and reusing metadata to analyze message content
Aletras et al. Evaluating topic representations for exploring document collections
JP2003330948A (ja) ウェブページを評価する装置および方法
Aletras et al. Representing topics labels for exploring digital libraries
KR101007056B1 (ko) 연관 태그에 기반한 태그 클러스터링 장치 및 그 방법
Ojha et al. Metadata driven semantically aware medical query expansion
White Examining scientific vocabulary: mapping controlled vocabularies with free text keywords
KR20120071645A (ko) 웹페이지의 이질적 데이터 정보융합 제공시스템 및 방법
Park et al. Automatic extraction of user’s search intention from web search logs
Abbasi et al. Organizing resources on tagging systems using t-org
Lazarinis Exploring the effectiveness of information searching tools on Greek museum websites
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Liu et al. LD Connect: A linked data portal for ios press scientometrics
ElGindy et al. Enriching user profiles using geo-social place semantics in geo-folksonomies
Yoon et al. Engineering an image‐browsing environment: re‐purposing existing denotative descriptors
Uma et al. OMIR: ontology-based multimedia information retrieval system for web usage mining
Ochoa Learning Object Repositories are useful, but are they usable?
Botana et al. Explain and conquer: Personalised text-based reviews to achieve transparency
Shamoug et al. SEmHuS: a semantically embedded humanitarian space
Nauman et al. Resolving Lexical Ambiguities in Folksonomy Based Search Systems through Common Sense and Personalization.
Christensen et al. News Hunter: a semantic news aggregator
Rajabi et al. Towards a Personalized Query Answering Framework on the Web of Data.
Lobo et al. A novel method for analyzing best pages generated by query term synonym combination

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee