KR100862587B1

KR100862587B1 - 엑스엠엘 문서 유사도 측정 장치 및 그 방법

Info

Publication number: KR100862587B1
Application number: KR1020070030277A
Authority: KR
Inventors: 이주홍; 김태순; 송재원; 김덕환
Original assignee: 인하대학교 산학협력단
Priority date: 2007-03-28
Filing date: 2007-03-28
Publication date: 2008-10-09
Also published as: KR20080087994A

Abstract

본 발명은 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것으로서, 사용자로부터 입력된 질의를 수신하는 수신부; 엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스; 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어들을 분류하는 시소러스부; 엑스엠엘 문서의 태그 구조정보와 의미정보와 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부; 시소러스부와 유사도 측정부를 통해 계산된 유사도를 출력하는 출력부; 및 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부;를 포함한다.

상기와 같은 본 발명은, 유사한 의미를 가지는 태그와 텍스트 컨텐츠 정보에 시소러스를 적용하여 유사 태그와 텍스트 내의 단어로 분류하며, 엑스엠엘 문서에서 상위태그의 의미정보를 하위태그에 반영하는 태그 셋 텀과 엑스엠엘 문서의 태그에 연결된 텍스트 길이에 따른 중요도를 고려한 텍스트 컨텐츠텀을 적용하여 유사도를 계산함으로써 정확한 유사도를 계산할 수 있는 효과가 있다.

엑스엠엘, 유사도, 태그, 텍스트

Description

엑스엠엘 문서 유사도 측정 장치 및 그 방법{Apparatus for measuring XML document similarity and method therefor}

도 1은 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관한 블록도.

도 2는 본 발명의 일실시예에 따른 엑스엠엘 트리를 나타낸 도면.

도 3은 본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체흐름도.

도 4는 본 발명의 일실시예에 따른 태그셋 텀 유사도 계산에 관한 상세흐름도.

도 5는 본 발명의 일실시예에 따른 텍스트 컨텐츠텀 유사도 계산에 관한 상세흐름도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 엑스엠엘 문서 유사도 측정 장치

110 : 수신부 120 : 엑스엠엘 데이터베이스

130 : 시소러스부 131 : 파싱모듈

132 : 추출모듈 133 : 분류모듈

140 : 유사도 측정부 141 : 태그셋 텀 모듈

142 : 텍스트 컨텐츠텀 모듈 143 : 계측 모듈

150 : 출력부 160 : 중앙제어부

본 발명은 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것으로서, 특히, 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 고려하여 유사도의 정확도를 개선한 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것이다.

종래, 유사문서를 검색하는 기술은 대한한국 공개특허 제1999-0048714호(인터넷 정보검색시 유사문서 우선순위 판별방법)가 이미 공개된 상태이다. 상기 인터넷 정보검색시 유사문서 우선순위 판별방법은 인터넷에서 정보 검색시 유사문서를 판별하는 방법에 있어서, 사용자로부터 키워드를 입력받으면 상기 키워드에 따른 관련 문서들을 상기 인터넷에 연결된 각 사이트의 데이터 색인으로부터 검색하는 제1과정과, 상기 검색된 관련 문서들 중에서 상기 키워드의 빈도수를 체크하여 상기 키워드의 빈도수가 높은 문서에 높은 점수를 부여하는 제2과정과, 상기 키워드의 빈도수에 따라 점수가 부여된 상기 검색된 문서들 중에서 상기 키워드의 위치를 체크하여 상기 키워드가 앞쪽에 위치한 문서에 높은 점수를 부여하는 제3과정과, 상기 키워드의 문서내 위치에 따라 점수가 부여된 상기 검색된 문서들 중에서 상위 디렉토리에 존재하는 문서에 높은 점수를 부여하는 제4과정과, 상기 검색된 문서들을 상기 제2과정과 제3과정 및 제4과정에서 부여된 점수가 높은 순으로 상기 웹 브 라우저 화면에 디스플레이시키는 제5과정을 구비함을 특징으로 한다.

하지만, 문서의 상위태그의 의미정보를 하위태그에 반영하지 못해 유사문서 계산에 정확도가 떨어지는 문제점이 있다. 그리고, 태그에 연결된 텍스트 컨텐츠정보도 문장 길이에 따른 중요도가 유사도 계산에 반영되지 않아 유사문서 계산에 정확도가 떨어지는 문제점이 있다.

본 발명의 목적은, 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 고려한 엑스엠엘 문서 유사도 측정 장치 및 그 방법을 제공함에 있다.

본 발명의 다른 목적은, 시소러스를 적용하여 유사한 의미를 가지는 태그와 텍스트 내의 단어를 분류함으로써 유사도를 계산하도록 하는 엑스엠엘 문서 유사도 측정 장치 및 그 방법을 제공함에도 있다.

본 발명에 따른 엑스엠엘 문서 유사도 측정장치는, 사용자로부터 입력된 질의를 수신하는 수신부; 엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스; 상기 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 시소러스부; 상기 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부; 상기 시소러스부와 유사도 측정부를 통해 계산된 유사도를 출력하는 출력부; 및 상기 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부; 를 포함한다.

바람직하게, 상기 시소러스부는 엑스엠엘 문서를 파싱하여 엑스엠엘 트리를 생성하는 파싱모듈; 상기 파싱모듈에서 생성한 엑스엠엘 트리로부터 태그 및 단어의 원형을 추출하는 추출모듈; 및 상기 추출모듈에서 추출한 원형 태그 및 단어를 의미가 같은 태그 및 단어로 분류하는 분류모듈; 를 포함하는 것을 특징으로 한다.

그리고 바람직하게, 상기 유사도 측정부는 엑스엠엘 문서 태그의 구조정보와 의미정보를 이용하여 유사도를 계산하는 태그셋 텀 모듈; 엑스엠엘 문서의 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 텍스트 컨텐츠텀 모듈; 및 상기 태그셋 텀 모듈의 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 모듈의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 계측 모듈; 을 포함하는 것을 특징으로 한다.

더욱 바람직하게, 상기 태그셋 텀 모듈은 엑스엠엘 문서에 대한 태그의 구조정보와 의미정보를 포함하는 태그 셋을 텀으로 하는 것을 특징으로 한다.

또한 더욱 바람직하게, 상기 태그셋 텀 모듈은 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀의 가중치를 계산한 후, 상기 태그셋 텀의 가중치를 이용한 태그셋 텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 한다.

또한 더욱 바람직하게, 상기 텍스트 컨텐츠텀 모듈은 엑스엠엘 문서에 대한 텍스트 컨텐츠를 텀으로 하는 것을 특징으로 한다.

그리고 더욱 바람직하게, 상기 텍스트 컨텐츠텀 모듈은 텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계 산한 후, 상기 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 한다.

한편, 엑스엠엘 문서 유사도를 측정하는 방법에 있어서, (a) 사용자로부터 입력된 질의를 수신하는 단계; (b) 엑스엠엘 데이터베이스(120)로부터 상기 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성하는 단계; (c) 상기 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하는 단계; (d) 상기 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 단계; (e) 상기 엑스엠엘 문서의 태그에 대한 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산하는 단계; (f) 상기 엑스엠엘 문서의 태그에 대한 텍스트 컨텐츠정보를 반영하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; (g) 상기 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 단계; 및 (h) 상기 제 (g) 단계의 전체 유사도를 출력하는 단계; 를 포함하는 것을 특징으로 한다.

바람직하게, 상기 태그셋 텀 유사도를 계산하는 단계는 (e-1) 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정하는 단계; (e-2) 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산하는 단계; 및 (e-3) 상기 태그셋 텀 가중치를 이용하여 태그셋 텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 한다.

그리고 바람직하게, 상기 텍스트 컨텐츠텀 유사도를 계산하는 단계는 (f-1) 엑스엠엘 문서로부터 텍스트 컨텐츠를 포함하는 텍스트 컨텐츠텀을 설정하는 단계; (f-2) 텍스트 컨텐츠텀에 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산하는 단계; 및 (f-3) 상기 텍스트 컨텐츠텀의 가중치를 이용하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 한다.

본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관하여 도 1을 참조하여 설명하면 다음과 같다.

도 1은 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관한 블록도이며, 도 2는 본 발명의 일실시예에 따른 엑스엠엘 트리를 나타낸 도면이다.

본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치(100)는 도 1에 도시된 바와 같이, 수신부(110), 엑스엠엘 데이터베이스(120), 시소러스부(130), 유사도 측정부(140), 출력부(150) 및 중앙제어부(160)를 포함한다.

수신부(110)는 사용자로부터 입력된 질의를 수신하는 기능을 수행한다.

또한, 엑스엠엘 데이터베이스(120)는 엑스엠엘 문서를 저장하는 기능을 수행한다.

또한, 시소러스부(130)는 엑스엠엘 데이터베이스(120)의 엑스엠엘 문서로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 기능을 수행한다. 즉, picture와 image 또는 author와 writer는 서로 다른 태그와 단어로 표현하였지만 같은 의미를 가진 한 개의 태그와 단어로 일치시켜 분류한다.

여기서, 시소러스부(130)는 파싱모듈(131), 추출모듈(132) 및 분류모듈(133)을 포함한다.

파싱모듈(131)은 엑스엠엘 문서를 파싱하여 도 2에 도시된 바와 같은 엑스엠엘 트리를 생성하는 기능을 수행한다.

또한 추출모듈(132)은 파싱모듈(131)에서 생성한 엑스엠엘 트리의 태그 및 단어의미를 파악하기 위해 태그 및 단어의 원형을 추출하는 기능을 수행한다. 즉, 추출모듈(132)은 엑스엠엘 트리의 태그 및 단어의미를 파악하기 위해 공백, 하이픈 등이 걸러지고, "an apple"은 "apple"로, "cars"는 "car"로 원형을 추출한다.

그리고 분류모듈(133)은 oracle의 wordnet2.0을 사용하여 추출모듈(132)에서 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 기능을 수행한다. 이때, 대표 태그 및 단어는 분류된 태그 및 단어를 알파벳 순서로 나열한 중에서 첫 번째 위치한 것으로 한다. 본 실시예에서, 태그 및 단어의 의미를 분류하기 위해 oracle의 wordnet2.0을 사용하는 것으로 설정하였으나, 본 발명이 이에 한정되는 것은 아니다.

그리고, 유사도 측정부(140)는 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보에 벡터모델을 적용함으로써, 유사도를 계산하는 기능을 수행한다.

유사도 측정부(140)는 이러한 기능을 수행하기 위해 태그셋 텀 모듈(141), 텍스트 컨텐츠텀 모듈(142) 및 계측 모듈(143)을 포함한다.

태그셋 텀 모듈(141)은 태그의 구조정보 및 의미정보를 이용하여 유사도를 계산한다.

벡터모델을 적용하기 위해서는 텀(term)을 정의하여야 한다. 태그를 텀으로 간주하면 태그 일부의 의미정보만을 반영하므로, 태그 구조정보와 의미정보를 동시에 반영할 수 없다. 예를 들면, movie/actor/name인 제1 트리와 zoo/animal/name인 제2 트리가 있다고 가정하면, 제1 트리의 하위 태그인 name과 제2 트리의 하위 태그인 name은 태그 이름이 동일하지만, 의미정보가 다르다. 제1 트리의 하위태그 name은 어떤 영화에 출연한 배우의 이름이고, 제2 트리의 하위태그 name은 동물원의 어떤 동물 이름이다. 그러므로, 벡터모델을 적용해 유사도의 정확한 계산을 하기 위해서는 태그의 구조정보와 의미정보를 포함하는 태그 패스(path)를 반영한 태그 셋(tag set)을 텀으로 사용해야 한다.

태그 셋을 적용하는 것은 패스 구조가 다르지만 의미정보가 같은 패스를 반영하기 위해서이다. 예를 들면, toy/shop인 제1 패스와 shop/toy인 제2 패스가 있다고 가정하면, 제1 패스와 제2 패스의 패스구조는 다르지만 의미정보는 같다. 즉, 단독 태그만을 고려한 shop과 toy는 서로 다른 의미정보를 가지고 있어 다른 태그로 분류된다.

하지만, 제1 패스의 하위태그 shop은 상위태그 toy의 의미정보를 포함한 장난감을 취급하는 shop의 의미정보이고, 제2 패스의 하위태그 toy도 상위태그 shop의 의미정보를 포함한 shop중 toy를 취급하는 같은 의미정보가 된다. 즉, 패스구조에서 하위태그는 상위태그의 의미를 포함하는 포괄적 의미정보를 지닌다. 그러므로 태그셋 텀 모듈(141)은 벡터모델을 적용한 유사도의 정확한 계산을 하기 위해 포괄적 의미정보를 지니고 있는 태그 셋을 텀으로 표현한다. 여기서, 태그 셋은 패스의 순서가 없는 태그의 집합이다.

표 1에 도시된 바와 같이, 이때 사용되는 텀을 태그 셋 텀(tag set term)이라 한다. 이러한 태그 셋 텀의 가중치(TSTW:Tag Set Term Weight)는 태그셋 텀 빈도(TSTF:Tag Set Term Frequency)와 태그셋 텀 역문서빈도(TSTIDF:Tag Set Term Inverse Document Frequency)의 곱이며, 다음 수학식 1과 같다.

는

문서에서

태그 셋 텀의 빈도를 나타내고,

는 다음 수학식 2와 같다.

이때, N은 전체 문서의 개수를 나타내고,

는 문서빈도수로서 N 개의 문서들 중에서

태그 셋 텀이 존재하는 문서 수를 나타낸다

태그 셋 텀의 가중치(TSTW)를 사용한 유사도(TSTS:Tag Set Term Similarity)는 벡터모델에서 문서

와 질의

의 유사도 측정은 두 벡터

와

의 상관도로 구할 수 있으며, 이 상관도는 두 벡터 간 사이각의 코사인 값으로 다음 수학식 3과 같이 정량화될 수 있다.

여기서, t는

,

내에 전체 텀의 수를 나타내며, 두 벡터

와

는 다음 수학식 4와 같이 표현된다.

엑스엠엘 문서의 태그 구조만으로 유사도를 계산하면, 태그 구조정보는 유사하지만 의미정보가 다른 문서가 함께 유사문서로 분류되는 경우가 발생한다. 예를 들어, 도 2에 도시된 바와 같이, 문서1(doc1)과 문서2(doc2)는 책의 목록문서를 문서3(doc3)은 음악정보문서를 나타내는 엑스엠엘 트리에서, 문서1과 문서3의 구조정보는 유사하지만 전체적인 의미는 다르다. 즉, 문서1과 문서3의 book, page, location 및 music은 서로 다르지만, shop, writer, lname, fname, story 및 title은 같다.

book/shop와 music/shop의 shop은 같은 태그명을 가지지만, book/shop은 책 을 파는 가게를 가리키는 의미정보를 가지며, music/shop은 음반을 파는 가게를 가리키는 의미정보를 가지고 있다. 반면, 문서1과 문서2는 shop, story, writer, lname, fname, title, page 및 book 태그는 서로 같고, 그 외의 picture, location 및 image 태그들은 서로 다르다. 여기서, picture와 image는 서로 다른 구조지만 같은 의미정보를 담고 있고, book/shop패스와 shop/book패스도 다른 패스를 가지고 있지만 같은 의미정보를 담고 있다.

따라서, 태그의 구조 정보만을 사용하면 표 2에 도시된 바와 같이, 문서1과 문서3 사이의 유사도가 문서1과 문서2 사이보다 유사도가 더 높게 된다. 그러나, 태그 구조정보와 의미정보를 반영하면 표 3에 도시된 바와 같이, 문서1과 문서2 사이의 유사도가 문서1과 문서3 사이보다 유사도가 더 높게 나타낸다.

태그셋 텀 빈도, 태그셋 텀 역문서빈도 및 태그 셋 텀의 가중치를 계산한 결과는 표 4에 도시된 바와 같다.

또한, 텍스트 컨텐츠텀 모듈(142)은 텍스트 컨텐츠정보를 이용하여 유사도를 계산한다.

엑스엠엘 문서의 텍스트 컨텐츠정보는 일반문서의 텍스트 컨텐츠정보와는 다르게 태그 구조에 연결되어 포함되어 있다. 동일한 출현빈도를 갖는 텍스트 컨텐츠라도 태그의 위치에 따라 중요도가 달리 표현되므로 태그 구조에 포함된 텍스트 컨텐츠의 가중치를 다르게 반영해야 한다. 즉, 만약 논문 보고서 형식의 엑스엠엘 문서를 예로 든다면, 제목, 요약과 같은 태그들은 그 안의 텍스트 컨텐츠의 길이가 대체로 짧지만, 텍스트 컨텐츠 단어들의 중요도는 높다고 할 수 있다. 소개글과 같은 태그는 대체로 그 안의 텍스트의 길이가 길며 그 안의 단어들의 중요도는 제목, 요약 안의 단어들에 비해서 그 중요도가 비교적 낮다고 할 수 있다.

여기서, 텍스트 컨텐츠텀은 표 5에 도시된 엑스엠엘 문서들로부터 표 6에 도시된 바와 같은 텍스트 컨텐츠로 작성된 텀을 의미한다.

이러한 텍스트 컨텐츠텀의 가중치(TCTW:Text Content Term Weight)는 텍스트 컨텐츠텀 가중빈도(TCTWF:Text Content Term Weighted Frequency)와 텍스트 컨텐츠텀 역문서빈도(TCTIDF:Text Content Term Inverse Document Frequency)의 곱이며, 다음 수학식 5와 같다.

텍스트 컨텐츠텀 가중빈도(TCTWF)는 다음 수학식 6과 같다.

이때, k는 문서의 모든 태그 인덱스이고,

는

문서의

태그에 포함되어 있는

텍스트 컨텐츠텀의 빈발수이다. (1+log(#text content term in

document/#text content term in

element))는 문장 길이에 따른 태그의 중요도를 계산하는 식이다. 여기서, log함수는 완만한 값이 나오도록 하기 위해서 사용된다.

텍스트 컨텐츠텀 역문서빈도(TCTIDF)는 다음 수학식 7과 같다.

이때, N은 전체 문서의 개수를 나타내고,

는 문서빈도수로서 N개의 문서들 중에서

텍스트 컨텐츠텀이 존재하는 문서 수를 나타낸다.

텍스트 컨텐츠텀 가중치(TCTW)를 사용한 유사도를 텍스트 컨텐츠텀 유사도(TCTS:Text Content Term Similarity)라고 하며, 벡터모델에서 문서

와 질의

의 유사도 측정은 두 벡터

와

의 상관도로 구할 수 있으며, 이 상관도는 두 벡터 간 사이각의 코사인 값으로 다음 수학식 8과 같이 정량화될 수 있다.

여기서, t는

,

내에 전체 텀의 수를 나타내며, 두 벡터

와

는 다음 수학식 9와 같이 표현된다.

엑스엠엘 문서는 일반문서와는 다른 구조를 지니고 있다. 따라서, 엑스엠엘 문서의 텍스트 컨텐츠정보의 유사도를 측정할 경우 태그를 고려한 방법을 사용해야 한다. 이때, 시소러스를 이용하여 텍스트 내의 서로 유사한 단어들을 하나의 단어로 일치시켜 분류한다. 일반 문서 방법으로 유사도 측정을 계산하면 문서1과 문서3 사이의 유사도가 문서1과 문서2 사이의 유사도 보다 높다. 그러나 텍스트 컨텐츠정보를 포함한 태그를 고려한 방법으로 유사도를 측정하면 문서1과 문서2 사이의 유사도가 문서1과 문서3 사이의 유사도보다 더 높다. 그러므로, 엑스엠엘 문서의 컨텐츠정보와 함께 태그 구조도 동시에 고려해야 좀더 신중한 유사도 계산이 되는 것을 알 수 있다.

텍스트 컨텐츠텀 가중빈도(TCTWF), 텍스트 컨텐츠텀 역문서빈도(TCTIDF) 및 텍스트 컨텐츠텀 가중치(TCTW)를 계산한 결과는 표 7에 도시된 바와 같다.

엑스엠엘 문서1, 엑스엠엘 문서2 및 엑스엠엘 문서3의 유사도 측정결과는 표 8에 도시된 바와 같다.

그리고 계측 모듈(143)은 태그셋 텀 모듈(141)의 태그셋 텀 유사도와 텍스트 컨텐츠텀 모듈(142)의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 다음 수학식 10과 같이 전체 유사도를 계산한다.

여기서, tsw는 태그셋 텀 유사도의 가중치이고, tcw는 텍스트 컨텐츠텀 유사 도의 가중치이다.

또한, 출력부(150)는 상술한 시소러스부(130)와 유사도 측정부(140)를 통해 계산된 전체 유사도를 출력하는 기능을 수행한다.

그리고, 중앙제어부(160)는 수신부(110), 엑스엠엘 데이터베이스(120), 시소러스부(130), 유사도 측정부(140) 및 출력부(150)를 중앙제어하는 기능을 수행한다.

상술한 구성을 가지는 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 대한 정확도 실험 결과에 관하여 표 9를 참조하여 설명하면 다음과 같다.

표 9는 일반 문서에 벡터모델을 적용한 유사도, 엑스엠엘 문서의 구조 정보만을 반영한 유사도, 엑스엠엘 문서의 태그 셋 텀과 텍스트 컨텐츠텀을 반영한 유사도, 시소러스를 사용한 엑스엠엘 문서의 태그 셋 텀과 텍스트 컨텐츠텀을 반영한 유사도를 비교한 것이다. 여기서, 실험데이터는 윈스콘데이터 및 오아시스데이터로 실험하였다.

정확도 실험은 퓨리티(purity)를 사용해 정확도를 측정한다. 이러한 퓨리티는 각 클러스터가 기본적으로 하나의 클래스로부터 데이터들을 포함하게 되는 범위를 측정하고, 개별 클러스터 퓨리티의 가중치 합계로서 다음 수학식 11과 같다. 여기서 클러스터는 파일을 저장하는 논리적 단위이다.

여기에서,

는 크기가

인

클러스터이며, K는 클러스터의 수, 그리고 n은 문서의 총수를 나타낸다. 클러스터

의 개별 클러스터 퓨리티인 P(

)는 다음 수학식 12와 같다.

여기에서,

는 j번째 클러스터에 지정된 i번째 입력 클래스의 문서들의 수를 나타낸다. 이때, 퓨리티 값이 높을수록 정확도가 더 높다.

이러한 실험 결과는 표 9에 도시된 바와 같이, 엑스엠엘 문서의 구조정보와 태그 구조정보와 컨텐츠정보에 시소러스를 적용시킨 유사도가 더 높은 정확도를 나타내는 것을 알 수 있다.

한편, 상술한 구성을 가지는 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치를 이용한 방법(이하, 유사도 측정 방법)에 관하여 도 3 내지 도 5를 참조하여 설명하면 다음과 같다.

도 3은 본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체흐름도이고, 도 4는 본 발명의 일실시예에 따른 태그셋 텀 유사도 계산에 관한 상세흐름도이며, 도 5는 본 발명의 일실시예에 따른 텍스트 컨텐츠텀 유사도 계산에 관한 상세흐름도이다.

본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체적인 흐름을 도 3을 참조하여 설명하면 다음과 같다.

도 3에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 수신부(110)는 사용자로부터 입력된 질의를 수신한다(S2).

엑스엠엘 문서 유사도 측정 장치(100)의 시소러스부(130)는 엑스엠엘 데이터베이스(120)로부터 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성한 후(S4), 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하고(S6), 추출한 원형 태그와 단어에서 의미가 같은 태그와 단어를 분류한다(S8).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 태그의 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산한다(S10).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 텍스트 컨텐츠정보를 이용하여 텍스트 컨텐츠텀 유사도를 계산한다(S12).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S10 단계의 태그셋 텀 유사도와 제 S12 단계의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산한다(S14).

엑스엠엘 문서 유사도 측정 장치(100)의 출력부(150)는 계산한 전체 유사도를 출력한다(S16).

다음으로 상술한 제 S10 단계의 태그셋 텀 유사도 계산에 대하여 도 4를 참조하여 상세히 살펴본다.

도 4에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정한다(S22).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산한다(S24).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S24 단계에서 계산한 태그셋 텀 가중치를 이용한 태그셋 텀 유사도를 두 벡터의 상관도로 정량화하여 계산한다(S26).

다음으로 상술한 제 S12 단계의 텍스트 컨텐츠텀 유사도 계산에 대하여 도 5를 참조하여 상세히 살펴본다.

도 5에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 엑스엠엘 문서로부터 텍스트 컨텐츠로 작성된 텍스트 컨텐츠텀을 설정한다(S32).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산한다(S34).

엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S34 단계에서 계산한 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 두 벡터의 상관도로 정량화하여 계산한다(S36).

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

Claims

엑스엠엘 문서 유사도 측정장치에 있어서,

사용자로부터 입력된 질의를 수신하는 수신부(110);

엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스(120);

상기 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 시소러스부(130);

상기 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부(140);

상기 시소러스부(130)와 유사도 측정부(140)를 통해 계산된 유사도를 출력하는 출력부(150); 및

상기 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부(160); 를 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 1 항에 있어서,

상기 시소러스부(130)는,

엑스엠엘 문서를 파싱하여 엑스엠엘 트리를 생성하는 파싱모듈(131);

상기 파싱모듈에서 생성한 엑스엠엘 트리로부터 태그 및 단어의 원형을 추출하는 추출모듈(132); 및

상기 추출모듈에서 추출한 원형 태그 및 단어를 의미가 같은 태그 및 단어로 분류하는 분류모듈(133); 를 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 1 항에 있어서,

상기 유사도 측정부(140)는,

엑스엠엘 문서 태그의 구조정보와 의미정보를 이용하여 유사도를 계산하는 태그셋 텀 모듈(141);

엑스엠엘 문서의 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 텍스트 컨텐츠텀 모듈(142); 및

상기 태그셋 텀 모듈의 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 모듈의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 계측 모듈(143); 을 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 3 항에 있어서,

상기 태그셋 텀 모듈(141)은,

엑스엠엘 문서에 대한 태그의 구조정보와 의미정보를 포함하는 태그 셋을 텀으로 하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 3 항에 있어서,

상기 태그셋 텀 모듈(141)은,

태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀의 가중치를 계산한 후, 상기 태그셋 텀의 가중치를 이용한 태그셋 텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 3 항에 있어서,

상기 텍스트 컨텐츠텀 모듈(142)은,

엑스엠엘 문서에 대한 텍스트 컨텐츠를 텀으로 하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
제 3 항에 있어서,

상기 텍스트 컨텐츠텀 모듈(142)은,

텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산한 후, 상기 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
엑스엠엘 문서 유사도를 측정하는 방법에 있어서,

(a) 사용자로부터 입력된 질의를 수신하는 단계;

(b) 상기 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성하는 단계;

(c) 상기 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하는 단계;

(d) 상기 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 단계;

(e) 상기 엑스엠엘 문서의 태그에 대한 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산하는 단계;

(f) 상기 엑스엠엘 문서의 태그에 대한 텍스트 컨텐츠정보를 반영하여 텍스트 컨텐츠텀 유사도를 계산하는 단계;

(g) 상기 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 단계; 및

(h) 상기 제 (g) 단계의 전체 유사도를 출력하는 단계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.
제 8 항에 있어서,

상기 태그셋 텀 유사도를 계산하는 단계는,

(e-1) 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정하는 단계;

(e-2) 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산하는 단계; 및

(e-3) 상기 태그셋 텀 가중치를 이용하여 태그셋 텀 유사도를 계산하는 단 계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.
제 8 항에 있어서,

상기 텍스트 컨텐츠텀 유사도를 계산하는 단계는,

(f-1) 엑스엠엘 문서로부터 텍스트 컨텐츠를 포함하는 텍스트 컨텐츠텀을 설정하는 단계;

(f-2) 텍스트 컨텐츠텀에 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산하는 단계; 및

(f-3) 상기 텍스트 컨텐츠텀의 가중치를 이용하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.