KR100862587B1 - 엑스엠엘 문서 유사도 측정 장치 및 그 방법 - Google Patents

엑스엠엘 문서 유사도 측정 장치 및 그 방법 Download PDF

Info

Publication number
KR100862587B1
KR100862587B1 KR1020070030277A KR20070030277A KR100862587B1 KR 100862587 B1 KR100862587 B1 KR 100862587B1 KR 1020070030277 A KR1020070030277 A KR 1020070030277A KR 20070030277 A KR20070030277 A KR 20070030277A KR 100862587 B1 KR100862587 B1 KR 100862587B1
Authority
KR
South Korea
Prior art keywords
similarity
term
tag
text content
document
Prior art date
Application number
KR1020070030277A
Other languages
English (en)
Other versions
KR20080087994A (ko
Inventor
이주홍
김태순
송재원
김덕환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020070030277A priority Critical patent/KR100862587B1/ko
Publication of KR20080087994A publication Critical patent/KR20080087994A/ko
Application granted granted Critical
Publication of KR100862587B1 publication Critical patent/KR100862587B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것으로서, 사용자로부터 입력된 질의를 수신하는 수신부; 엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스; 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어들을 분류하는 시소러스부; 엑스엠엘 문서의 태그 구조정보와 의미정보와 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부; 시소러스부와 유사도 측정부를 통해 계산된 유사도를 출력하는 출력부; 및 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부;를 포함한다.
상기와 같은 본 발명은, 유사한 의미를 가지는 태그와 텍스트 컨텐츠 정보에 시소러스를 적용하여 유사 태그와 텍스트 내의 단어로 분류하며, 엑스엠엘 문서에서 상위태그의 의미정보를 하위태그에 반영하는 태그 셋 텀과 엑스엠엘 문서의 태그에 연결된 텍스트 길이에 따른 중요도를 고려한 텍스트 컨텐츠텀을 적용하여 유사도를 계산함으로써 정확한 유사도를 계산할 수 있는 효과가 있다.
엑스엠엘, 유사도, 태그, 텍스트

Description

엑스엠엘 문서 유사도 측정 장치 및 그 방법{Apparatus for measuring XML document similarity and method therefor}
도 1은 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관한 블록도.
도 2는 본 발명의 일실시예에 따른 엑스엠엘 트리를 나타낸 도면.
도 3은 본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체흐름도.
도 4는 본 발명의 일실시예에 따른 태그셋 텀 유사도 계산에 관한 상세흐름도.
도 5는 본 발명의 일실시예에 따른 텍스트 컨텐츠텀 유사도 계산에 관한 상세흐름도.
<도면의 주요 부분에 대한 부호의 설명>
100 : 엑스엠엘 문서 유사도 측정 장치
110 : 수신부 120 : 엑스엠엘 데이터베이스
130 : 시소러스부 131 : 파싱모듈
132 : 추출모듈 133 : 분류모듈
140 : 유사도 측정부 141 : 태그셋 텀 모듈
142 : 텍스트 컨텐츠텀 모듈 143 : 계측 모듈
150 : 출력부 160 : 중앙제어부
본 발명은 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것으로서, 특히, 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 고려하여 유사도의 정확도를 개선한 엑스엠엘 문서 유사도 측정 장치 및 그 방법에 관한 것이다.
종래, 유사문서를 검색하는 기술은 대한한국 공개특허 제1999-0048714호(인터넷 정보검색시 유사문서 우선순위 판별방법)가 이미 공개된 상태이다. 상기 인터넷 정보검색시 유사문서 우선순위 판별방법은 인터넷에서 정보 검색시 유사문서를 판별하는 방법에 있어서, 사용자로부터 키워드를 입력받으면 상기 키워드에 따른 관련 문서들을 상기 인터넷에 연결된 각 사이트의 데이터 색인으로부터 검색하는 제1과정과, 상기 검색된 관련 문서들 중에서 상기 키워드의 빈도수를 체크하여 상기 키워드의 빈도수가 높은 문서에 높은 점수를 부여하는 제2과정과, 상기 키워드의 빈도수에 따라 점수가 부여된 상기 검색된 문서들 중에서 상기 키워드의 위치를 체크하여 상기 키워드가 앞쪽에 위치한 문서에 높은 점수를 부여하는 제3과정과, 상기 키워드의 문서내 위치에 따라 점수가 부여된 상기 검색된 문서들 중에서 상위 디렉토리에 존재하는 문서에 높은 점수를 부여하는 제4과정과, 상기 검색된 문서들을 상기 제2과정과 제3과정 및 제4과정에서 부여된 점수가 높은 순으로 상기 웹 브 라우저 화면에 디스플레이시키는 제5과정을 구비함을 특징으로 한다.
하지만, 문서의 상위태그의 의미정보를 하위태그에 반영하지 못해 유사문서 계산에 정확도가 떨어지는 문제점이 있다. 그리고, 태그에 연결된 텍스트 컨텐츠정보도 문장 길이에 따른 중요도가 유사도 계산에 반영되지 않아 유사문서 계산에 정확도가 떨어지는 문제점이 있다.
본 발명의 목적은, 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 고려한 엑스엠엘 문서 유사도 측정 장치 및 그 방법을 제공함에 있다.
본 발명의 다른 목적은, 시소러스를 적용하여 유사한 의미를 가지는 태그와 텍스트 내의 단어를 분류함으로써 유사도를 계산하도록 하는 엑스엠엘 문서 유사도 측정 장치 및 그 방법을 제공함에도 있다.
본 발명에 따른 엑스엠엘 문서 유사도 측정장치는, 사용자로부터 입력된 질의를 수신하는 수신부; 엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스; 상기 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 시소러스부; 상기 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부; 상기 시소러스부와 유사도 측정부를 통해 계산된 유사도를 출력하는 출력부; 및 상기 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부; 를 포함한다.
바람직하게, 상기 시소러스부는 엑스엠엘 문서를 파싱하여 엑스엠엘 트리를 생성하는 파싱모듈; 상기 파싱모듈에서 생성한 엑스엠엘 트리로부터 태그 및 단어의 원형을 추출하는 추출모듈; 및 상기 추출모듈에서 추출한 원형 태그 및 단어를 의미가 같은 태그 및 단어로 분류하는 분류모듈; 를 포함하는 것을 특징으로 한다.
그리고 바람직하게, 상기 유사도 측정부는 엑스엠엘 문서 태그의 구조정보와 의미정보를 이용하여 유사도를 계산하는 태그셋 텀 모듈; 엑스엠엘 문서의 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 텍스트 컨텐츠텀 모듈; 및 상기 태그셋 텀 모듈의 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 모듈의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 계측 모듈; 을 포함하는 것을 특징으로 한다.
더욱 바람직하게, 상기 태그셋 텀 모듈은 엑스엠엘 문서에 대한 태그의 구조정보와 의미정보를 포함하는 태그 셋을 텀으로 하는 것을 특징으로 한다.
또한 더욱 바람직하게, 상기 태그셋 텀 모듈은 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀의 가중치를 계산한 후, 상기 태그셋 텀의 가중치를 이용한 태그셋 텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 한다.
또한 더욱 바람직하게, 상기 텍스트 컨텐츠텀 모듈은 엑스엠엘 문서에 대한 텍스트 컨텐츠를 텀으로 하는 것을 특징으로 한다.
그리고 더욱 바람직하게, 상기 텍스트 컨텐츠텀 모듈은 텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계 산한 후, 상기 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 한다.
한편, 엑스엠엘 문서 유사도를 측정하는 방법에 있어서, (a) 사용자로부터 입력된 질의를 수신하는 단계; (b) 엑스엠엘 데이터베이스(120)로부터 상기 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성하는 단계; (c) 상기 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하는 단계; (d) 상기 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 단계; (e) 상기 엑스엠엘 문서의 태그에 대한 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산하는 단계; (f) 상기 엑스엠엘 문서의 태그에 대한 텍스트 컨텐츠정보를 반영하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; (g) 상기 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 단계; 및 (h) 상기 제 (g) 단계의 전체 유사도를 출력하는 단계; 를 포함하는 것을 특징으로 한다.
바람직하게, 상기 태그셋 텀 유사도를 계산하는 단계는 (e-1) 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정하는 단계; (e-2) 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산하는 단계; 및 (e-3) 상기 태그셋 텀 가중치를 이용하여 태그셋 텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 한다.
그리고 바람직하게, 상기 텍스트 컨텐츠텀 유사도를 계산하는 단계는 (f-1) 엑스엠엘 문서로부터 텍스트 컨텐츠를 포함하는 텍스트 컨텐츠텀을 설정하는 단계; (f-2) 텍스트 컨텐츠텀에 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산하는 단계; 및 (f-3) 상기 텍스트 컨텐츠텀의 가중치를 이용하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 한다.
본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관하여 도 1을 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 관한 블록도이며, 도 2는 본 발명의 일실시예에 따른 엑스엠엘 트리를 나타낸 도면이다.
본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치(100)는 도 1에 도시된 바와 같이, 수신부(110), 엑스엠엘 데이터베이스(120), 시소러스부(130), 유사도 측정부(140), 출력부(150) 및 중앙제어부(160)를 포함한다.
수신부(110)는 사용자로부터 입력된 질의를 수신하는 기능을 수행한다.
또한, 엑스엠엘 데이터베이스(120)는 엑스엠엘 문서를 저장하는 기능을 수행한다.
또한, 시소러스부(130)는 엑스엠엘 데이터베이스(120)의 엑스엠엘 문서로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 기능을 수행한다. 즉, picture와 image 또는 author와 writer는 서로 다른 태그와 단어로 표현하였지만 같은 의미를 가진 한 개의 태그와 단어로 일치시켜 분류한다.
여기서, 시소러스부(130)는 파싱모듈(131), 추출모듈(132) 및 분류모듈(133)을 포함한다.
파싱모듈(131)은 엑스엠엘 문서를 파싱하여 도 2에 도시된 바와 같은 엑스엠엘 트리를 생성하는 기능을 수행한다.
또한 추출모듈(132)은 파싱모듈(131)에서 생성한 엑스엠엘 트리의 태그 및 단어의미를 파악하기 위해 태그 및 단어의 원형을 추출하는 기능을 수행한다. 즉, 추출모듈(132)은 엑스엠엘 트리의 태그 및 단어의미를 파악하기 위해 공백, 하이픈 등이 걸러지고, "an apple"은 "apple"로, "cars"는 "car"로 원형을 추출한다.
그리고 분류모듈(133)은 oracle의 wordnet2.0을 사용하여 추출모듈(132)에서 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 기능을 수행한다. 이때, 대표 태그 및 단어는 분류된 태그 및 단어를 알파벳 순서로 나열한 중에서 첫 번째 위치한 것으로 한다. 본 실시예에서, 태그 및 단어의 의미를 분류하기 위해 oracle의 wordnet2.0을 사용하는 것으로 설정하였으나, 본 발명이 이에 한정되는 것은 아니다.
그리고, 유사도 측정부(140)는 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보에 벡터모델을 적용함으로써, 유사도를 계산하는 기능을 수행한다.
유사도 측정부(140)는 이러한 기능을 수행하기 위해 태그셋 텀 모듈(141), 텍스트 컨텐츠텀 모듈(142) 및 계측 모듈(143)을 포함한다.
태그셋 텀 모듈(141)은 태그의 구조정보 및 의미정보를 이용하여 유사도를 계산한다.
벡터모델을 적용하기 위해서는 텀(term)을 정의하여야 한다. 태그를 텀으로 간주하면 태그 일부의 의미정보만을 반영하므로, 태그 구조정보와 의미정보를 동시에 반영할 수 없다. 예를 들면, movie/actor/name인 제1 트리와 zoo/animal/name인 제2 트리가 있다고 가정하면, 제1 트리의 하위 태그인 name과 제2 트리의 하위 태그인 name은 태그 이름이 동일하지만, 의미정보가 다르다. 제1 트리의 하위태그 name은 어떤 영화에 출연한 배우의 이름이고, 제2 트리의 하위태그 name은 동물원의 어떤 동물 이름이다. 그러므로, 벡터모델을 적용해 유사도의 정확한 계산을 하기 위해서는 태그의 구조정보와 의미정보를 포함하는 태그 패스(path)를 반영한 태그 셋(tag set)을 텀으로 사용해야 한다.
태그 셋을 적용하는 것은 패스 구조가 다르지만 의미정보가 같은 패스를 반영하기 위해서이다. 예를 들면, toy/shop인 제1 패스와 shop/toy인 제2 패스가 있다고 가정하면, 제1 패스와 제2 패스의 패스구조는 다르지만 의미정보는 같다. 즉, 단독 태그만을 고려한 shop과 toy는 서로 다른 의미정보를 가지고 있어 다른 태그로 분류된다.
하지만, 제1 패스의 하위태그 shop은 상위태그 toy의 의미정보를 포함한 장난감을 취급하는 shop의 의미정보이고, 제2 패스의 하위태그 toy도 상위태그 shop의 의미정보를 포함한 shop중 toy를 취급하는 같은 의미정보가 된다. 즉, 패스구조에서 하위태그는 상위태그의 의미를 포함하는 포괄적 의미정보를 지닌다. 그러므로 태그셋 텀 모듈(141)은 벡터모델을 적용한 유사도의 정확한 계산을 하기 위해 포괄적 의미정보를 지니고 있는 태그 셋을 텀으로 표현한다. 여기서, 태그 셋은 패스의 순서가 없는 태그의 집합이다.
Figure 112007024264436-pat00001
표 1에 도시된 바와 같이, 이때 사용되는 텀을 태그 셋 텀(tag set term)이라 한다. 이러한 태그 셋 텀의 가중치(TSTW:Tag Set Term Weight)는 태그셋 텀 빈도(TSTF:Tag Set Term Frequency)와 태그셋 텀 역문서빈도(TSTIDF:Tag Set Term Inverse Document Frequency)의 곱이며, 다음 수학식 1과 같다.
Figure 112007024264436-pat00002
Figure 112007024264436-pat00003
Figure 112007024264436-pat00004
문서에서
Figure 112007024264436-pat00005
태그 셋 텀의 빈도를 나타내고,
Figure 112007024264436-pat00006
는 다음 수학식 2와 같다.
Figure 112007024264436-pat00007
이때, N은 전체 문서의 개수를 나타내고,
Figure 112007024264436-pat00008
는 문서빈도수로서 N 개의 문서들 중에서
Figure 112007024264436-pat00009
태그 셋 텀이 존재하는 문서 수를 나타낸다
태그 셋 텀의 가중치(TSTW)를 사용한 유사도(TSTS:Tag Set Term Similarity)는 벡터모델에서 문서
Figure 112007024264436-pat00010
와 질의
Figure 112007024264436-pat00011
의 유사도 측정은 두 벡터
Figure 112007024264436-pat00012
Figure 112007024264436-pat00013
의 상관도로 구할 수 있으며, 이 상관도는 두 벡터 간 사이각의 코사인 값으로 다음 수학식 3과 같이 정량화될 수 있다.
Figure 112007024264436-pat00014
여기서, t는
Figure 112007024264436-pat00015
,
Figure 112007024264436-pat00016
내에 전체 텀의 수를 나타내며, 두 벡터
Figure 112007024264436-pat00017
Figure 112007024264436-pat00018
는 다음 수학식 4와 같이 표현된다.
Figure 112007024264436-pat00019
엑스엠엘 문서의 태그 구조만으로 유사도를 계산하면, 태그 구조정보는 유사하지만 의미정보가 다른 문서가 함께 유사문서로 분류되는 경우가 발생한다. 예를 들어, 도 2에 도시된 바와 같이, 문서1(doc1)과 문서2(doc2)는 책의 목록문서를 문서3(doc3)은 음악정보문서를 나타내는 엑스엠엘 트리에서, 문서1과 문서3의 구조정보는 유사하지만 전체적인 의미는 다르다. 즉, 문서1과 문서3의 book, page, location 및 music은 서로 다르지만, shop, writer, lname, fname, story 및 title은 같다.
book/shop와 music/shop의 shop은 같은 태그명을 가지지만, book/shop은 책 을 파는 가게를 가리키는 의미정보를 가지며, music/shop은 음반을 파는 가게를 가리키는 의미정보를 가지고 있다. 반면, 문서1과 문서2는 shop, story, writer, lname, fname, title, page 및 book 태그는 서로 같고, 그 외의 picture, location 및 image 태그들은 서로 다르다. 여기서, picture와 image는 서로 다른 구조지만 같은 의미정보를 담고 있고, book/shop패스와 shop/book패스도 다른 패스를 가지고 있지만 같은 의미정보를 담고 있다.
Figure 112007024264436-pat00020
따라서, 태그의 구조 정보만을 사용하면 표 2에 도시된 바와 같이, 문서1과 문서3 사이의 유사도가 문서1과 문서2 사이보다 유사도가 더 높게 된다. 그러나, 태그 구조정보와 의미정보를 반영하면 표 3에 도시된 바와 같이, 문서1과 문서2 사이의 유사도가 문서1과 문서3 사이보다 유사도가 더 높게 나타낸다.
Figure 112007024264436-pat00021
태그셋 텀 빈도, 태그셋 텀 역문서빈도 및 태그 셋 텀의 가중치를 계산한 결과는 표 4에 도시된 바와 같다.
Figure 112007024264436-pat00022
또한, 텍스트 컨텐츠텀 모듈(142)은 텍스트 컨텐츠정보를 이용하여 유사도를 계산한다.
엑스엠엘 문서의 텍스트 컨텐츠정보는 일반문서의 텍스트 컨텐츠정보와는 다르게 태그 구조에 연결되어 포함되어 있다. 동일한 출현빈도를 갖는 텍스트 컨텐츠라도 태그의 위치에 따라 중요도가 달리 표현되므로 태그 구조에 포함된 텍스트 컨텐츠의 가중치를 다르게 반영해야 한다. 즉, 만약 논문 보고서 형식의 엑스엠엘 문서를 예로 든다면, 제목, 요약과 같은 태그들은 그 안의 텍스트 컨텐츠의 길이가 대체로 짧지만, 텍스트 컨텐츠 단어들의 중요도는 높다고 할 수 있다. 소개글과 같은 태그는 대체로 그 안의 텍스트의 길이가 길며 그 안의 단어들의 중요도는 제목, 요약 안의 단어들에 비해서 그 중요도가 비교적 낮다고 할 수 있다.
여기서, 텍스트 컨텐츠텀은 표 5에 도시된 엑스엠엘 문서들로부터 표 6에 도시된 바와 같은 텍스트 컨텐츠로 작성된 텀을 의미한다.
Figure 112007024264436-pat00023
Figure 112007024264436-pat00024
이러한 텍스트 컨텐츠텀의 가중치(TCTW:Text Content Term Weight)는 텍스트 컨텐츠텀 가중빈도(TCTWF:Text Content Term Weighted Frequency)와 텍스트 컨텐츠텀 역문서빈도(TCTIDF:Text Content Term Inverse Document Frequency)의 곱이며, 다음 수학식 5와 같다.
Figure 112007024264436-pat00025
텍스트 컨텐츠텀 가중빈도(TCTWF)는 다음 수학식 6과 같다.
Figure 112007024264436-pat00026
이때, k는 문서의 모든 태그 인덱스이고,
Figure 112007024264436-pat00027
Figure 112007024264436-pat00028
문서의
Figure 112007024264436-pat00029
태그에 포함되어 있는
Figure 112007024264436-pat00030
텍스트 컨텐츠텀의 빈발수이다. (1+log(#text content term in
Figure 112007024264436-pat00031
document/#text content term in
Figure 112007024264436-pat00032
element))는 문장 길이에 따른 태그의 중요도를 계산하는 식이다. 여기서, log함수는 완만한 값이 나오도록 하기 위해서 사용된다.
텍스트 컨텐츠텀 역문서빈도(TCTIDF)는 다음 수학식 7과 같다.
Figure 112007024264436-pat00033
이때, N은 전체 문서의 개수를 나타내고,
Figure 112007024264436-pat00034
는 문서빈도수로서 N개의 문서들 중에서
Figure 112007024264436-pat00035
텍스트 컨텐츠텀이 존재하는 문서 수를 나타낸다.
텍스트 컨텐츠텀 가중치(TCTW)를 사용한 유사도를 텍스트 컨텐츠텀 유사도(TCTS:Text Content Term Similarity)라고 하며, 벡터모델에서 문서
Figure 112007024264436-pat00036
와 질의
Figure 112007024264436-pat00037
의 유사도 측정은 두 벡터
Figure 112007024264436-pat00038
Figure 112007024264436-pat00039
의 상관도로 구할 수 있으며, 이 상관도는 두 벡터 간 사이각의 코사인 값으로 다음 수학식 8과 같이 정량화될 수 있다.
Figure 112007024264436-pat00040
여기서, t는
Figure 112007024264436-pat00041
,
Figure 112007024264436-pat00042
내에 전체 텀의 수를 나타내며, 두 벡터
Figure 112007024264436-pat00043
Figure 112007024264436-pat00044
는 다음 수학식 9와 같이 표현된다.
Figure 112007024264436-pat00045
Figure 112007024264436-pat00046
엑스엠엘 문서는 일반문서와는 다른 구조를 지니고 있다. 따라서, 엑스엠엘 문서의 텍스트 컨텐츠정보의 유사도를 측정할 경우 태그를 고려한 방법을 사용해야 한다. 이때, 시소러스를 이용하여 텍스트 내의 서로 유사한 단어들을 하나의 단어로 일치시켜 분류한다. 일반 문서 방법으로 유사도 측정을 계산하면 문서1과 문서3 사이의 유사도가 문서1과 문서2 사이의 유사도 보다 높다. 그러나 텍스트 컨텐츠정보를 포함한 태그를 고려한 방법으로 유사도를 측정하면 문서1과 문서2 사이의 유사도가 문서1과 문서3 사이의 유사도보다 더 높다. 그러므로, 엑스엠엘 문서의 컨텐츠정보와 함께 태그 구조도 동시에 고려해야 좀더 신중한 유사도 계산이 되는 것을 알 수 있다.
텍스트 컨텐츠텀 가중빈도(TCTWF), 텍스트 컨텐츠텀 역문서빈도(TCTIDF) 및 텍스트 컨텐츠텀 가중치(TCTW)를 계산한 결과는 표 7에 도시된 바와 같다.
Figure 112007024264436-pat00047
엑스엠엘 문서1, 엑스엠엘 문서2 및 엑스엠엘 문서3의 유사도 측정결과는 표 8에 도시된 바와 같다.
그리고 계측 모듈(143)은 태그셋 텀 모듈(141)의 태그셋 텀 유사도와 텍스트 컨텐츠텀 모듈(142)의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 다음 수학식 10과 같이 전체 유사도를 계산한다.
Figure 112007024264436-pat00048
여기서, tsw는 태그셋 텀 유사도의 가중치이고, tcw는 텍스트 컨텐츠텀 유사 도의 가중치이다.
또한, 출력부(150)는 상술한 시소러스부(130)와 유사도 측정부(140)를 통해 계산된 전체 유사도를 출력하는 기능을 수행한다.
그리고, 중앙제어부(160)는 수신부(110), 엑스엠엘 데이터베이스(120), 시소러스부(130), 유사도 측정부(140) 및 출력부(150)를 중앙제어하는 기능을 수행한다.
상술한 구성을 가지는 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치에 대한 정확도 실험 결과에 관하여 표 9를 참조하여 설명하면 다음과 같다.
Figure 112007024264436-pat00049
표 9는 일반 문서에 벡터모델을 적용한 유사도, 엑스엠엘 문서의 구조 정보만을 반영한 유사도, 엑스엠엘 문서의 태그 셋 텀과 텍스트 컨텐츠텀을 반영한 유사도, 시소러스를 사용한 엑스엠엘 문서의 태그 셋 텀과 텍스트 컨텐츠텀을 반영한 유사도를 비교한 것이다. 여기서, 실험데이터는 윈스콘데이터 및 오아시스데이터로 실험하였다.
정확도 실험은 퓨리티(purity)를 사용해 정확도를 측정한다. 이러한 퓨리티는 각 클러스터가 기본적으로 하나의 클래스로부터 데이터들을 포함하게 되는 범위를 측정하고, 개별 클러스터 퓨리티의 가중치 합계로서 다음 수학식 11과 같다. 여기서 클러스터는 파일을 저장하는 논리적 단위이다.
Figure 112007024264436-pat00050
여기에서,
Figure 112007024264436-pat00051
는 크기가
Figure 112007024264436-pat00052
Figure 112007024264436-pat00053
클러스터이며, K는 클러스터의 수, 그리고 n은 문서의 총수를 나타낸다. 클러스터
Figure 112007024264436-pat00054
의 개별 클러스터 퓨리티인 P(
Figure 112007024264436-pat00055
)는 다음 수학식 12와 같다.
Figure 112007024264436-pat00056
여기에서,
Figure 112007024264436-pat00057
는 j번째 클러스터에 지정된 i번째 입력 클래스의 문서들의 수를 나타낸다. 이때, 퓨리티 값이 높을수록 정확도가 더 높다.
이러한 실험 결과는 표 9에 도시된 바와 같이, 엑스엠엘 문서의 구조정보와 태그 구조정보와 컨텐츠정보에 시소러스를 적용시킨 유사도가 더 높은 정확도를 나타내는 것을 알 수 있다.
한편, 상술한 구성을 가지는 본 발명의 일실시예에 따른 엑스엠엘 문서 유사도 측정 장치를 이용한 방법(이하, 유사도 측정 방법)에 관하여 도 3 내지 도 5를 참조하여 설명하면 다음과 같다.
도 3은 본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체흐름도이고, 도 4는 본 발명의 일실시예에 따른 태그셋 텀 유사도 계산에 관한 상세흐름도이며, 도 5는 본 발명의 일실시예에 따른 텍스트 컨텐츠텀 유사도 계산에 관한 상세흐름도이다.
본 발명의 일실시예에 따른 유사도 측정 방법에 관한 전체적인 흐름을 도 3을 참조하여 설명하면 다음과 같다.
도 3에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 수신부(110)는 사용자로부터 입력된 질의를 수신한다(S2).
엑스엠엘 문서 유사도 측정 장치(100)의 시소러스부(130)는 엑스엠엘 데이터베이스(120)로부터 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성한 후(S4), 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하고(S6), 추출한 원형 태그와 단어에서 의미가 같은 태그와 단어를 분류한다(S8).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 태그의 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산한다(S10).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 텍스트 컨텐츠정보를 이용하여 텍스트 컨텐츠텀 유사도를 계산한다(S12).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S10 단계의 태그셋 텀 유사도와 제 S12 단계의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산한다(S14).
엑스엠엘 문서 유사도 측정 장치(100)의 출력부(150)는 계산한 전체 유사도를 출력한다(S16).
다음으로 상술한 제 S10 단계의 태그셋 텀 유사도 계산에 대하여 도 4를 참조하여 상세히 살펴본다.
도 4에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정한다(S22).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산한다(S24).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S24 단계에서 계산한 태그셋 텀 가중치를 이용한 태그셋 텀 유사도를 두 벡터의 상관도로 정량화하여 계산한다(S26).
다음으로 상술한 제 S12 단계의 텍스트 컨텐츠텀 유사도 계산에 대하여 도 5를 참조하여 상세히 살펴본다.
도 5에 도시된 바와 같이, 엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 엑스엠엘 문서로부터 텍스트 컨텐츠로 작성된 텍스트 컨텐츠텀을 설정한다(S32).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산한다(S34).
엑스엠엘 문서 유사도 측정 장치(100)의 유사도 측정부(140)는 제 S34 단계에서 계산한 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 두 벡터의 상관도로 정량화하여 계산한다(S36).
이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서, 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
상기와 같은 본 발명은, 유사한 의미를 가지는 태그와 텍스트 컨텐츠 정보에 시소러스를 적용하여 유사 태그와 텍스트 내의 단어로 분류하며, 엑스엠엘 문서에서 상위태그의 의미정보를 하위태그에 반영하는 태그 셋 텀과 엑스엠엘 문서의 태그에 연결된 텍스트 길이에 따른 중요도를 고려한 텍스트 컨텐츠텀을 적용하여 유사도를 계산함으로써 정확한 유사도를 계산할 수 있는 효과가 있다.

Claims (10)

  1. 엑스엠엘 문서 유사도 측정장치에 있어서,
    사용자로부터 입력된 질의를 수신하는 수신부(110);
    엑스엠엘 문서를 데이터베이스로 구축하는 엑스엠엘 데이터베이스(120);
    상기 엑스엠엘 데이터베이스로부터 태그 및 단어를 추출해 같은 의미를 가지고 있는 태그 및 단어를 분류하는 시소러스부(130);
    상기 엑스엠엘 문서의 태그 구조정보, 의미정보 및 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 유사도 측정부(140);
    상기 시소러스부(130)와 유사도 측정부(140)를 통해 계산된 유사도를 출력하는 출력부(150); 및
    상기 수신부, 엑스엠엘 데이터베이스, 시소러스부, 유사도 측정부 및 출력부를 중앙제어하는 중앙제어부(160); 를 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  2. 제 1 항에 있어서,
    상기 시소러스부(130)는,
    엑스엠엘 문서를 파싱하여 엑스엠엘 트리를 생성하는 파싱모듈(131);
    상기 파싱모듈에서 생성한 엑스엠엘 트리로부터 태그 및 단어의 원형을 추출하는 추출모듈(132); 및
    상기 추출모듈에서 추출한 원형 태그 및 단어를 의미가 같은 태그 및 단어로 분류하는 분류모듈(133); 를 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  3. 제 1 항에 있어서,
    상기 유사도 측정부(140)는,
    엑스엠엘 문서 태그의 구조정보와 의미정보를 이용하여 유사도를 계산하는 태그셋 텀 모듈(141);
    엑스엠엘 문서의 텍스트 컨텐츠정보를 이용하여 유사도를 계산하는 텍스트 컨텐츠텀 모듈(142); 및
    상기 태그셋 텀 모듈의 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 모듈의 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 계측 모듈(143); 을 포함하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  4. 제 3 항에 있어서,
    상기 태그셋 텀 모듈(141)은,
    엑스엠엘 문서에 대한 태그의 구조정보와 의미정보를 포함하는 태그 셋을 텀으로 하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  5. 제 3 항에 있어서,
    상기 태그셋 텀 모듈(141)은,
    태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀의 가중치를 계산한 후, 상기 태그셋 텀의 가중치를 이용한 태그셋 텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  6. 제 3 항에 있어서,
    상기 텍스트 컨텐츠텀 모듈(142)은,
    엑스엠엘 문서에 대한 텍스트 컨텐츠를 텀으로 하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  7. 제 3 항에 있어서,
    상기 텍스트 컨텐츠텀 모듈(142)은,
    텍스트 컨텐츠텀 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산한 후, 상기 텍스트 컨텐츠텀의 가중치를 이용한 텍스트 컨텐츠텀 유사도를 벡터의 상관도로 정량화하여 계산하는 것을 특징으로 하는 엑스엠엘 문서 유사도 측정 장치.
  8. 엑스엠엘 문서 유사도를 측정하는 방법에 있어서,
    (a) 사용자로부터 입력된 질의를 수신하는 단계;
    (b) 상기 수신한 질의와 관련된 엑스엠엘 문서를 파싱하고 엑스엠엘 트리를 생성하는 단계;
    (c) 상기 엑스엠엘 트리로부터 태그와 단어의 원형을 추출하는 단계;
    (d) 상기 추출한 원형 태그 및 단어에서 의미가 같은 태그 및 단어를 분류하는 단계;
    (e) 상기 엑스엠엘 문서의 태그에 대한 구조정보 및 의미정보를 이용하여 태그셋 텀 유사도를 계산하는 단계;
    (f) 상기 엑스엠엘 문서의 태그에 대한 텍스트 컨텐츠정보를 반영하여 텍스트 컨텐츠텀 유사도를 계산하는 단계;
    (g) 상기 태그셋 텀 유사도와 상기 텍스트 컨텐츠텀 유사도에 대한 가중치를 이용하여 전체 유사도를 계산하는 단계; 및
    (h) 상기 제 (g) 단계의 전체 유사도를 출력하는 단계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.
  9. 제 8 항에 있어서,
    상기 태그셋 텀 유사도를 계산하는 단계는,
    (e-1) 엑스엠엘 문서로부터 상위태그의 의미정보를 하위태그에 반영하기 위한 태그 셋 텀을 설정하는 단계;
    (e-2) 태그셋 텀 빈도와 태그셋 텀 역문서빈도를 이용하여 태그셋 텀 가중치를 계산하는 단계; 및
    (e-3) 상기 태그셋 텀 가중치를 이용하여 태그셋 텀 유사도를 계산하는 단 계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.
  10. 제 8 항에 있어서,
    상기 텍스트 컨텐츠텀 유사도를 계산하는 단계는,
    (f-1) 엑스엠엘 문서로부터 텍스트 컨텐츠를 포함하는 텍스트 컨텐츠텀을 설정하는 단계;
    (f-2) 텍스트 컨텐츠텀에 가중빈도와 텍스트 컨텐츠텀 역문서빈도를 이용하여 텍스트 컨텐츠텀의 가중치를 계산하는 단계; 및
    (f-3) 상기 텍스트 컨텐츠텀의 가중치를 이용하여 텍스트 컨텐츠텀 유사도를 계산하는 단계; 를 포함하는 것을 특징으로 하는 유사도 측정 방법.
KR1020070030277A 2007-03-28 2007-03-28 엑스엠엘 문서 유사도 측정 장치 및 그 방법 KR100862587B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070030277A KR100862587B1 (ko) 2007-03-28 2007-03-28 엑스엠엘 문서 유사도 측정 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070030277A KR100862587B1 (ko) 2007-03-28 2007-03-28 엑스엠엘 문서 유사도 측정 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20080087994A KR20080087994A (ko) 2008-10-02
KR100862587B1 true KR100862587B1 (ko) 2008-10-09

Family

ID=40150355

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070030277A KR100862587B1 (ko) 2007-03-28 2007-03-28 엑스엠엘 문서 유사도 측정 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100862587B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040094B1 (ko) 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101423732B1 (ko) * 2012-09-03 2014-07-31 경희대학교 산학협력단 엑스엠엘 스키마에서 듀플리케이트 엘리먼트들의 시멘틱 유사성 측정 방법
KR101286296B1 (ko) * 2012-11-29 2013-07-15 김건오 워드그래프 관리 방법 및 시스템
CN112925902B (zh) * 2021-02-22 2024-01-30 新智认知数据服务有限公司 案情文本中智能提取文本摘要的方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020058639A (ko) 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법
KR20030039576A (ko) 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020058639A (ko) 2000-12-30 2002-07-12 오길록 엑스엠엘 문서 검색 시스템 및 그 방법
KR20030039576A (ko) 2001-11-13 2003-05-22 주식회사 포스코 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101040094B1 (ko) 2005-10-07 2011-06-09 노키아 코포레이션 Svg 문서 유사성을 측정하기 위한 시스템 및 방법

Also Published As

Publication number Publication date
KR20080087994A (ko) 2008-10-02

Similar Documents

Publication Publication Date Title
US11657223B2 (en) Keyphase extraction beyond language modeling
JP5990178B2 (ja) キーワード抽出に関するシステム及び方法
US8229883B2 (en) Graph based re-composition of document fragments for name entity recognition under exploitation of enterprise databases
US8849787B2 (en) Two stage search
US7996379B1 (en) Document ranking using word relationships
US9251249B2 (en) Entity summarization and comparison
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN103250129A (zh) 使用具有受限结构的文本提供具有延迟类型评估的问答
Trappey et al. An R&D knowledge management method for patent document summarization
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
KR100862587B1 (ko) 엑스엠엘 문서 유사도 측정 장치 및 그 방법
Al-Ayyoub et al. Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study.
Iacobelli et al. Finding new information via robust entity detection
Khan et al. Metadata for Efficient Management of Digital News Articles in Multilingual News Archives
US20210089541A1 (en) Intellectual property support device, intellectual property support method, and intellectual property support program
JP2010282403A (ja) 文書検索方法
Alamir et al. Arabic question-answering system using search engine techniques
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Kato et al. Extracting the author of web pages
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
US20240070175A1 (en) Method for Determining Company Related to News Based on Scoring and Apparatus for Performing the Method
US20240070396A1 (en) Method for Determining Candidate Company Related to News and Apparatus for Performing the Method
Sweidan et al. Aspect-based sentiment analysis in drug reviews based on hybrid feature learning
BE1025360B1 (nl) Beheren en aanwenden van juridisch-fiscale documenten uit de rechtspraak

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120928

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130913

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee