KR20100084403A - 문서의 유사도 결정 방법 및 이를 이용한 단말 장치 - Google Patents

문서의 유사도 결정 방법 및 이를 이용한 단말 장치 Download PDF

Info

Publication number
KR20100084403A
KR20100084403A KR1020090003872A KR20090003872A KR20100084403A KR 20100084403 A KR20100084403 A KR 20100084403A KR 1020090003872 A KR1020090003872 A KR 1020090003872A KR 20090003872 A KR20090003872 A KR 20090003872A KR 20100084403 A KR20100084403 A KR 20100084403A
Authority
KR
South Korea
Prior art keywords
document
similarity
meaning
determining
features
Prior art date
Application number
KR1020090003872A
Other languages
English (en)
Inventor
옥철영
심강섭
Original Assignee
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단 filed Critical 울산대학교 산학협력단
Priority to KR1020090003872A priority Critical patent/KR20100084403A/ko
Publication of KR20100084403A publication Critical patent/KR20100084403A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

문서의 유사도 결정 방법 및 이를 이용한 단말 장치가 개시된다. 본 발명의 일 실시예에 따른 문서의 유사도 결정 방법은, 대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 단계, 추출된 각각의 자질들의 의미를 결정하는 단계, 및 결정된 자질들의 의미 및 대상 문서와 비교 문서의 오버랩(Overlap) 정보를 이용하여, 대상 문서 및 비교 문서간의 유사도를 결정하는 단계를 포함한다. 이에 의해, 문맥 정보 및 관련 어휘를 반영한 유사 문서 검색을 제공할 수 있다.
문서 유사도, U-WIN, 자질, 후보 의미, 동의어, 관련어, 유사도 점수

Description

문서의 유사도 결정 방법 및 이를 이용한 단말 장치{Method for deciding similarity of document and terminal device using the same}
본 발명은 문서의 유사도 결정 방법 및 이를 이용한 단말 장치에 관한 것으로, 보다 상세하게는 문맥 정보의 활용 및 관련 어휘의 처리가 가능한 문서의 유사도 결정 방법 및 이를 이용한 단말 장치에 관한 것이다.
유사 문서 검색은 검색된 문서와 유사한 문서들의 유사도 순위를 매겨 사용자에게 그 결과를 제공하는 것이다. 이때, 검색된 문서와 유사한 문서가 검색어와 관련이 있을 수 있고, 사용자가 검색하고자 하는 것에 대한 추가적인 정보를 제공할 수도 있기 때문에, 최근 정보 검색에는 유사 문서 검색을 이용하는 것이 추세이다.
국외에서는 이미 워드넷(WordNet)과 같은 의미적 언어 자원을 활용한 유사 문서 검색이나 문서 유사도 측정에 관한 많은 연구가 진행되고 있다. 하지만, 국내에서는 한국어로 구축된 의미적 언어 자원이 부족하기 때문에, 이를 바탕으로 한 문서 유사도 측정 방법이나 그 결과를 활용하는 방법에 관한 연구가 미흡한 실정이다.
종래의 국내에서 사용된 문서 유사도 측정법들은 문서 내에 출현하는 어휘들의 의미에 기반하기 보다는, 어휘들의 단순 매칭이나 중요 어휘 선별 또는 어휘의 빈도에 기반하여 가중치를 달리하는 문서 유사도 측정법을 주로 사용하고 있다.
어휘의 가중치를 할당하는 방법으로는 품사 정보나 격 정보 등 어절 단위의 용어 특성과 문장을 단위로 하는 용어의 구문론적 기능, 문서 내에서 문장의 위치 및 역할에 의한 용어의 특성 등을 이용하여 용어의 가중치를 할당하는 것들이 있다.
어휘에 할당된 가중치를 이용한 대표적인 문서 유사도 측정법은 Dice, Jaccard, Overlap, Inclusion, 및 Cosine 유사도 측정법과 같이 매우 다양하다. 하지만, 여러 유사도 측정법들의 성능은 모두 크게 다르지 않다.
이와 같이 다양한 문서 유사도 측정법이 제공됨에도 불구하고, 종래의 문서 유사도 측정법들은 단순한 어휘 매칭을 이용함으로써 문맥정보를 활용하지 못하고, 어휘의 빈도를 구하기 위해서는 대용량의 문서집합(Corpus)이 필요한 문제점이 있다.
또한, 종래의 문서 유사도 측정법들은 대상 문서의 특정 개념(의미)이 여러 다른 어휘(동의어, 및 유의어)로 표현된 경우에, 그 개념과 관련된 부가적인 관련어들이 대상 문서에는 나타나 있지 않고, 비교 문서에만 나타나 있는 경우를 처리하지 못하는 문제점이 있다.
본 발명의 목적은 어휘들의 오버랩 정보를 이용하여 문맥 정보를 반영하고, 어휘망을 이용하여 관련 어휘의 처리가 가능한 문서의 유사도 결정 방법 및 이를 이용한 단말 장치를 제공하고자 하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 문서의 유사도 결정 방법은, 대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 단계, 추출된 각각의 자질들의 의미를 결정하는 단계, 및 결정된 자질들의 의미 및 대상 문서와 비교 문서의 오버랩(Overlap) 정보를 이용하여, 대상 문서 및 비교 문서간의 유사도를 결정하는 단계를 포함한다.
자질들을 추출하는 단계는, 대상 문서 및 비교 문서 내의 텍스트의 형태소를 분석하는 단계, 및 형태소 분석 결과를 이용하여 불용어(stopword)를 제거하는 단계를 포함할 수 있다.
자질들의 의미를 결정하는 단계는, 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하는 단계, 대상 자질의 후보 의미 및 비교 영역 내에서 대상 자질을 제외한 주변 자질의 후보 의미를 추출하는 단계, 대상 자질의 후보 의미 및 주변 자질의 후보 의미의 의미 유사도를 결정하는 단계 및 결정된 의미 유사도를 이용하여 대상 자질의 의미를 결정하는 단계를 포함할 수 있다.
대상 자질의 의미를 결정하는 단계는, 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하는 단계, 산출된 합을 상기 대상 자질의 각 후보 의미에 할당하는 단계, 및 할당된 값이 최대인 후보 의미를 대상 자질의 의미로 결정하는 단계를 포함할 수 있다.
추출된 자질들을 확장하는 단계를 더 포함할 수 있다.
자질들을 확장하는 단계는, 어휘망 데이터베이스로부터 자질들 각각의 동의어를 추출하여 자질들 및 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하는 단계 및 어휘망 데이터이스로부터 자질들 각각의 관련어를 추출하여 추출된 관련어를 포함하는 관련어 그룹을 형성하는 단계를 포함할 수 있다.
관련어 그룹을 형성하는 단계에서, 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출할 수 있다.
유사도를 결정하는 단계는, 대상 문서의 동의어 그룹 및 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하는 단계, 대상 문서의 관련어 그룹 및 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하는 단계, 및 제1 유사도 점수 및 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정하는 단계를 포함할 수 있다.
제1 유사도 점수를 결정하는 단계는, 하기의 수학식을 이용하여 제1 유사도 점수를 산출할 수 있다:
Figure 112009003032977-PAT00001
이때, scoreidx는 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다.
제2 유사도 점수를 결정하는 단계는, 대상 문서의 관련어 그룹 및 비교 문서 의 동의어 그룹에서 상호 일치하는 자질의 개수를 제2 유사도 점수로 결정할 수 있다.
한편, 본 발명의 일 실시예에 따른 문서의 유사도 결정을 위한 단말 장치는, 대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 자질 추출부, 추출된 각각의 자질들의 의미를 결정하는 의미 결정부, 및 결정된 자질들의 의미 및 대상 문서와 비교 문서의 오버랩 정보를 이용하여, 대상 문서 및 비교 문서간의 유사도를 결정하는 유사도 결정부를 포함한다.
자질 추출부는, 대상 문서 및 비교 문서 내의 텍스트의 형태소를 분석하고, 형태소 분석 결과를 이용하여 불용어(stopword)를 제거할 수 있다.
의미 결정부는, 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하고, 대상 자질의 후보 의미 및 비교 영역 내에서 대상 자질을 제외한 주변 자질의 후보 의미를 추출하며, 대상 자질의 후보 의미 및 주변 자질의 후보 의미의 의미 유사도를 결정하며, 결정된 의미 유사도를 이용하여 대상 자질의 의미를 결정할 수 있다.
의미 결정부는, 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하고, 산출된 합을 대상 자질의 각 후보 의미에 할당하며, 할당된 값이 최대인 후보 의미를 대상 자질의 의미로 결정할 수 있다.
추출된 자질들을 확장하는 자질 확장부를 더 포함할 수 있다.
자질 확장부는, 어휘망 데이터베이스로부터 자질들 각각의 동의어를 추출하여 자질들 및 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하고, 어휘망 데이터베이스로부터 자질들 각각의 관련어를 추출하여 추출된 관련어를 포함하는 관련어 그룹을 형성할 수 있다.
자질 확장부는, 관련어 그룹 형성시 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출할 수 있다.
유사도 결정부는, 대상 문서의 동의어 그룹 및 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하고, 대상 문서의 관련어 그룹 및 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하며, 제1 유사도 점수 및 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정할 수 있다.
유사도 결정부는, 하기의 수학식을 이용하여 제1 유사도 점수를 산출할 수 있다:
Figure 112009003032977-PAT00002
이때, scoreidx는 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다.
유사도 결정부는, 대상 문서의 관련어 그룹 및 비교 문서의 동의어 그룹에서 상호 일치하는 자질의 개수를 제2 유사도 점수로 결정할 수 있다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 문서의 유사도 결정을 위한 단말 장치의 블럭도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 문서의 유사도 결정을 위한 단말 장치(100)는 자질 추출부(110), 의미 결정부(120), 자질 확장부(130), 및 유사도 결정부(150)를 포함한다.
자질 추출부(110)는 대상 문서 및 비교 문서 각각에 대하여 해당 문서내의 텍스트의 자질들을 추출한다. 여기서, 자질은 대부분의 명사에 대응하나, 경우에 따라서는 명사가 아닐 수도 있다.
자질 추출부(110)는 해당 문서 내의 텍스트의 형태소를 분석하여 품사를 결정하고, 형태소 분석 결과를 이용하여 불용어(stopword)를 제거한다. 불용어는 검색시 검색 용어로 사용하지 않는 단어로, 관사, 전치사, 조사, 및 접속사와 같이 검색 색인 단어로 의미가 없는 단어를 말한다. 형태소 분석 및 불용어 제거는 일반적으로 공지된 기술에 해당하므로, 구체적인 설명은 생략한다.
의미 결정부(120)는 자질 추출부(110)에 의해 추출된 각각의 자질들의 의미를 결정한다. 의미 결정부(120)는 어휘망 데이터베이스(140)의 계층 구조를 이용한 의미간 유사도 측정 방법 및 WSD(Word Sense Disambiguation) 알고리즘을 사용하여 자질들의 의미를 결정할 수 있다.
보다 구체적으로, 의미 결정부(120)는 기추출된 자질들 중 대상 자질을 포함하도록 비교 영역을 설정하고, 대상 자질의 후보 의미 및 기설정한 비교 영역 내에서 주변 자질의 후보 의미를 추출한다. 여기서, 주변 자질은 비교 영역 내에서 대상 자질의 주변에 존재하는 다른 자질들을 의미한다. 의미 결정부(120)는 비교 영 역을 설정할 때, 기설정된 사이즈로 비교 영역을 설정하며, 대상 자질이 비교 영역의 중앙에 위치하도록 한다.
이후, 의미 결정부(120)는 기추출된 대상 자질의 후보 의미 및 주변 자질의 후보 의미의 의미 유사도를 결정하고, 결정된 의미 유사도를 이용하여 대상 자질의 의미를 결정한다.
이때, 의미 결정부(120)는 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하고, 산출된 합을 대상 자질의 각 후보 의미에 할당하며, 할당된 값이 최대인 후보 의미를 대상 자질의 의미로 결정한다.
의미 결정부(120)에서 사용하는 어휘망 데이터베이스(140)의 계층 구조를 이용한 의미간 유사도 측정 방법을 간략히 살펴본다. 일 예로, 경로 길이(Path Length) 기반 측정 방법을 들 수 있다. 경로 길이 기반 측정 방법은 어휘망 데이터베이스(140)의 계층 구조상에서의 의미 즉, 개념 간 최단 경로를 계산하거나 의미의 깊이, 관계 종류와 같은 것들을 고려할 수 있는 방법이다.
다른 예로, IC(Information Content) 기반 측정 방법을 들 수 있다. IC 기반 측정 방법은 말뭉치 내 개념의 발생 빈도에 기반한 것으로, IC가 높은 개념일수록 세부적이고, 낮은 개념일수록 일반적인 개념에 해당한다.
어휘망 데이터베이스(140)의 계층 구조를 이용한 의미간 유사도 측정 방법 및 IC 기반 측정 방법 각각을 변형한 다양한 연구가 개시되어 있다. 이 중, 어휘망의 계층 구조를 이용한 의미간 유사도 측정 방법 중 하나인 "Verb semantics and lexical selection"를 적용할 수 있다.
"Verb semantics and lexical selection"은 계층 구조에서 개념의 깊이에 기반하여 개념간 유사도(Simwup)를 측정한다. 이를 수식으로 나타내면 수학식 1과 같다.
Figure 112009003032977-PAT00003
여기서, depth는 계층 구조의 가장 상위인 루트로부터 개념 c 까지의 거리이고, lcs는 계층 구조에서 개념 c1, c2를 모두 포함하는 가장 하위의 개념이다.
WSD 알고리즘의 일예로 수학식 2,3에 의한 계산 과정을 들 수 있다. 수학식 2 는 WSD 알고리즘의 표현식이고, 수학식 3은 WSD 알고리즘의 계산 횟수(Ncomputations)를 나타내는 수식이다.
Figure 112009003032977-PAT00004
여기서, n은 비교 영역의 크기이다. 또한, n개의 자질들 {W1, W2, …, Wn}에 대해서, Wi(1≤t≤n)은 대상자질 즉, 의미가 결정될 대상이며, Wi가 mi개의 의미를 가진다고 할때, 각각의 의미들은 {Sil, Si2, …, Simi}이다. 예를 들면, 대상 자질의 각 의미들은 {St1, St2, …, Stmt}로 나타낼 수 있다.
Figure 112009003032977-PAT00005
예를 들면, 주변 자질들 전체의 의미 개수의 합이 20이고, 대상 자질의 후보 의미의 개수가 5개이면, 수학식 3에 의해 20 * 5 = 100회의 계산 과정을 통해 대상 자질의 의미가 결정된다.
의미 결정부(120)의 동작에 관하여는 후술하는 도 3a 및 도 3b에서 보다 상세히 설명한다.
자질 확장부(130)는 복수의 자질들을 확장한다. 그 이유는, 각 자질들에 대하여 동의어, 유의어, 및 관련어와 같은 처리를 부가하기 위함이다. 자질 확장부(130)는 자질 확장을 위해 어휘망 데이터베이스(DB)(140)를 이용한다.
어휘망 데이터베이스(140)의 어휘 관계는 의미 관계(Semantic relation), 개념 관계(Conceptual relation), 구문 관계(Syntactic relation), 및 형태 관계(Morphological relation)로 구분된다.
의미 관계는 동의, 유의, 반의, 상하, 및 부분 전체 관계를 사용하고, 사전에서 추출될 수 있는 각종 어휘 정보를 통해 반자동으로 구축됨과 동시에 기초 자원들을 활용하여 문장의 표면 구조를 중심으로 어휘의 계열(Paradiagmatic) 및 통합(Syntagmatic), 관계를 분석하여 어휘의 의미 관계 설정에 활용된다.
어휘망 데이터베이스(140)에서는 동의, 유의, 반의 관계를 세밀화하여 일반적인 어휘망의 기본 어휘 관계와는 다르게 한국어의 특징 학습 및 활용적 측면을 강화할 수 있는 어휘 관계를 설정하고 있다.
또한, 어휘망 데이터베이스(140)에서는 상하 관계 및 부분 전체 관계를 구분하여 구축하고 있으며, 부분 전체 관계는 어휘의 형태적 측면을 고려한 관계 설정을 우선으로 하고, 특정 물건이나 기관의 세밀한 부분 전체 관계는 개념 관계에서 설정하고 있다.
어휘망 데이터베이스(140)에서의 개념 관계는 의미 관계의 세부적이자 확장적인 의미적 속성을 이용한 관계를 말하고, 형태 관계와 구문 관계는 어휘 집합이 모든 품사와 언어 단위를 대상으로 하여 고려한 어휘 관계를 말한다.
자질 확장부(130)는 어휘망 데이터베이스(140)로부터 자질들 각각의 동의어를 추출하여 자질들과 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성한다. 또한, 자질 확장부(130)는 어휘망 데이터베이스(140)로부터 자질들 각각의 관련어를 추출하여 추출된 관련어를 포함하는 관련어 그룹을 형성한다. 자질 확장부(130)에서 동의어 및 관련어를 추출하는 방법은 후술하는 도 4a 및 도 4b에서 보다 상세히 설명한다.
유사도 결정부(150)는 자질들의 의미 및 대상 문서와 비교 문서의 오버랩 정보를 이용하여, 대상 문서 및 비교 문서간의 유사도를 결정한다. 이때, 유사도 결정부(150)는 대상 문서의 동의어 그룹 및 비교 문서의 동의어 그룹 간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하고, 대상 문서의 관련어 그룹 및 비교 문 서의 동의어 그룹간의 제2 유사도 점수를 결정한다. 이후, 유사도 결정부(150)는 제1 유사도 점수 및 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정한다.
유사도 결정부(150)에서 오버랩 정보를 이용하는 것은 문맥 정보를 반영하기 위한 것으로, 뜻 풀이를 이용한 의미 간 유사도 측정 방법 중 하나인 "Maximizing Semantic Relatedness to Perform Word Sense Disambigutation"를 적용할 수 있다.
오버랩은 두 문서에서 공통적으로 출현하는 순차적이고 연속적인 가장 긴 패턴을 의미한다. 오버랩의 길이가 길수록 문서에서 나타날 확률은 낮아지므로, 오버랩의 길이에 따라 가중치를 주고, 오버랩의 길이를 제곱하여 점수를 산출한다.
예를 들면, 길이가 1인 4개의 오버랩은 4점으로 산출되지만, 길이가 4인 1개의 오버랩은 16점으로 산출된다. 만약, 대상 문서의 텍스트가 "방사 전자파의 스펙트럼 분포 특성을 관측한다"이고, 비교 문서의 텍스트가 "안테나 엘리먼트 배치에 따른 방사 전자파의 스펙트럼 분포는 차이가 있다"이라고 가정하면, 4개의자질 {방사, 전자파, 스펙트럼, 분포}가 연속적으로 나타날 경우, 점수는 16점으로 산출된다.
이를 수식으로 나타내면 수학식 4와 같다.
Figure 112009003032977-PAT00006
여기서, scoreidx는 상기 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다.
본 실시예에서는, 같은 개념을 사람마다 다른 어휘로 표현할 수 있다는 점에 착안하여 동의어, 유의어로 문맥이 대체된 문서에도 동일한 점수를 할당한다. 예를 들면, {전자파, 전자기파}, 및 {스펙트럼, 스펙트르}는 각각 동의어들의 집합이며, 이것들로 문맥이 대체된 문서들도 동일한 방법으로 비교가 가능하다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 문서의 자질 추출 결과를 예시한 도면이다.
도 2a에 텍스트로 이루어진 문서를 예시하였다. 도 2a에 예시한 문서는 대상 문서일 수도 있고 혹은 비교 문서일 수도 있다. 자질 추출부(110)는 주어진 문서에 대하여 자질을 추출한다.
도 2a에 예시한 문서에 대하여 자질 추출부(110)에서 자질을 추출한 결과를 도 2b에 예시하였다. 여기서, "#IDX"는 추출된 자질을 나타낸다. 도 2b를 참조하면, 도 2a의 문서에서 "본 논문은, 및, 의, 와, 으로"와 같은 불용어들이 제거되어 명사에 해당하는 자질들만이 추출된 상태를 확인할 수 있다. 도 2b에 예시한 바와 같이, 각 자질들은 "&" 기호에 의해 구분되어 표시될 수 있다.
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 자질들의 의미 결정 과정 및 결과를 예시한 도면이다.
도 3a를 참조하여 WSD 알고리즘에 의해 대상 자질의 의미를 결정하는 방법을 살펴본다. 도 3a에서, T는 의미를 결정할 대상 자질이고, S는 비교 영역 내에서 대상 자질을 제외한 다른 자질들 즉, 주변 자질이다.
도시한 바와 같이, 각 자질들은 하나 이상의 의미를 가진다. 대상 자질(T)는 5개의 후보 의미(t-sense 1 내지 5)가 존재하고, 첫번째 주변 자질(S1)은 4개, 두번째 주변 자질(S2)는 2개, 세번째 주변 자질(S3)는 3개, 네번째 주변 자질(S4)는 5개, 다섯번째 주변 자질(S5)는 1개, 및 여섯번째 주변 자질(S6)은 4개의 후보 의미가 존재한다.
도 3a에서는 대상 자질(T)의 후보 의미들(t-sense 1 내지 5), 및 주변 자질(S1 내지 S6)의 후보 의미들(sense 1 내지 6)에 의미 유사도가 결정되어 있는 상태를 예시하였다. 각 후보 의미들(t-sense 1 내지 5, 및 sense 1 내지 6)의 의미 유사도는 의미 결정부(120)에서 수학식 1에 의해 산출할 수 있다.
이후, 의미 결정부(120)는 각 후보 의미들(t-sense 1 내지 5, 및 sense 1 내지 6)의 의미 유사도를 이용하여 대상 자질의 의미를 결정할 수 있다. 의미 결정부(120)는 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하고, 산출된 합을 대상 자질의 각 후보 의미에 할당하며, 할당된 값이 최대인 후보 의미를 대상 자질(T)의 의미로 결정한다.
예를 들면, 대상 자질(T)의 첫번째 후보 의미(t-sense 1)의 유사도를 결정한다고 할 때, 의미 결정부(120)는 첫번째 주변 자질(S1)의 후보 의미들(sense 1 내지 4)의 유사도 중 가장 큰 값 0.5, 두번째 주변 자질(S2)의 후보 의미들(sense 1 및 2)의 유사도 중 가장 큰 값 0.8, 세번째 주변 자질(S3)의 후보 의미들(sense 1 내지 3)의 유사도 중 가장 큰 값 0.3, 네번째 주변 자질(S4)의 후보 의미들(sense 1 내지 6)의 유사도 중 가장 큰 값 0.8, 다섯번째 주변 자질(S5)의 후보 의미(sense 1)의 유사도 0.3, 여섯번째 주변 자질(S6)의 후보 의미들 (sense 1 내지 4)의 유사도 중 가장 큰 값 0.5의 합을 산출한다. 즉, 대상 자질(T)의 첫번째 후보 의미(t-sense 1)에 할당되는 값은 0.5 + 0.8 + 0.3 + 0.8 + 0.3 + 0.5 = 3.2가 된다.
상기 절차에 의해, 의미 결정부(120)는 대상 자질(T)의 각 후보 의미들(t-sense 1 내지 5, 및 sense 1 내지 6)에 할당된 값들 중 가장 큰 값을 가지는 후보 의미를 대상 자질(T)의 의미로 결정한다.
도 3b는 의미 결정부(120)에서 각 자질들에 대한 의미를 결정한 결과를 예시한 것이다. 도 2b에 예시한 자질 추출부(110)에 의해 추출된 자질들에 대하여 의미 결정부(120)에서 의미를 결정하면 도 3b에 예시한 결과를 얻을 수 있다.
어휘망 데이터베이스(140)에서 자질들이 가지는 각각의 의미들은 그 식별을 위한 ID가 할당된다. 의미 결정부(120)에서 최종적으로 결정된 의미들이 결정되면, 자질의 측부에 결정된 의미의 ID가 표시될 수 있다.
예를 들면, 도 2b의 자질들 중 "스펙트럼"은 어휘망 데이터베이스(140)에서 5개의 의미(A 내지 E)를 가진다. 도 3b를 살펴보면, "스펙트럼"에 대하여는 5개의 의미(A 내지 E) 중, "ID:23235302"에 해당하는 의미가 해당 의미로 결정된 것이다. 도 3b에 예시한 바와 같이, 자질과 그 자질에 대하여 결정된 의미는 "자질/ID"의 형태로 표시될 수 있다.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 어휘망 데이터베이스에 저장된 동의어 및 관련어의 구조를 예시한 도면이다.
어휘망 데이터베이스(140)는 하나의 어휘에 대하여 동의어, 상의어, 및 관련어의 관계가 구축되어 있다. 도 4a를 참조하면, "초전도"라는 자질은 어휘망 데이터베이스(140) 내에 하나의 동의어, 하나의 상위어, 및 직접적인 연관성을 갖는(관련도 깊이값이 1인 경우) 3개의 관련어에 대한 관계가 구축되어 있다.
이와 같이, 자질 확장부(130)는 하나의 어휘에 대하여 동의어, 상의어, 및 관련어의 관계가 구축되어 있는 어휘망 데이터베이스(140)를 이용하여 자질을 확장하되, 동의어, 및 관련어의 관계를 이용하여 자질을 확장한다.
도 4b는 어휘망 데이터베이스(140)의 관련어의 관계가 구축된 상태를 예시한 것이다. 도 4b를 참조하면, "분산컴퓨터"라는 대상 자질(T)에 대하여, 관련도 깊이값이 3 이내에 속하는 관련어들을 F 영역 이내에 예시하였다. F 영역은 관련도 깊이값이 3 이내인 관련어들을 포함하는 영역으로, 자질 확장부(130)에서 관련어 추출시 F 영역 이내에서 관련어를 추출한다. F 영역 이내의 관련어들 중, 관련도 깊이값이 1인 관련어들이 가장 직접적인 연관성을 갖는 것으로 판단할 수 있다.
도 5는 본 발명의 일 실시예에 따른 자질 확장 결과 생성된 동의어 그룹 및 관련어 그룹을 예시한 도면이다.
도 5는 자질 확장부(130)에서 어휘망 데이터베이스(140)로부터 동의어 및 관련어를 추출하여 동의어 그룹(G) 및 관련어 그룹(H)을 생성한 결과를 예시한 것이다. 동의어 그룹(G)은 "#IDX=" 기호 이후에 "자질:동의어"와 같은 형태로 자질과 그 자질의 동의어들이 나열된 형태이다. 관련어 그룹(H)은 "#RDW="의 기호 이후에 각 자질에 대하여 추출된 적어도 하나의 관련어들이 "&" 기호에 의해 단순히 나열된 형태이다.
도 6은 본 발명의 일 실시예에 따른 문서의 유사도 결정 방법을 설명하기 위한 흐름도이다.
여기에서는 도 1 내지 도 6을 참조하여, 본 발명의 일 실시예에 따른 문서의 유사도 결정 방법을 설명한다.
자질 추출부(110)는 대상 문서 및 비교 문서 내의 텍스트에 대하여 형태소를 분석하고, 그 형태소 분석 결과를 이용하여 불용어를 제거함으로써, 자질을 추출한다(S200). 자질 추출부(110)에 의해 추출된 자질들은 도 2b에 예시한 바와 같다. 자질 추출부(110)는 대상 문서 및 비교 문서 각각에 대하여 자질을 추출한다.
자질 추출부(110)에 의해 대상 문서 및 비교 문서의 자질들이 추출되면, 의미 결정부(120)는 각 자질들의 의미를 결정한다(S210). 의미 결정부(120)에서 자질에 대한 의미를 결정할 때 사용 가능한 방법은 여러 가지가 있으나, 가장 우수한 성능을 나타낸 "Verb semantics and lexical selection" 및 WSD 알고리즘을 이용할 수 있다. 의미 결정부(120)는 대상 문서 및 비교 문서 각각에 대하여 자질의 의미를 결정한다.
자질 확장부(130)는 어휘망 데이터베이스(140)로부터 해당 자질의 동의어 및 관련어를 추출하여 동의어 그룹(G), 및 관련어 그룹(H)을 형성함으로써, 자질들을 확장한다. 자질 확장부(130)는 대상 문서 및 비교 문서 각각에 대하여 자질을 확장 한다.
이후, 유사도 결정부(150)는 대상 문서와 비교 문서의 오버랩 정보를 이용하여 대상 문서 및 비교 문서간의 유사도를 결정한다. 이때, 유사도 결정부(150)는 대상 문서의 동의어 그룹(G), 및 비교 문서의 동의어 그룹(G)간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하고, 대상 문서의 관련어 그룹(H), 및 비교 문서의 동의어 그룹(G)간의 제2 유사도 점수를 결정하며, 제1 유사도 점수 및 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정한다.
상기와 같이, 본 실시예에서의 문서의 유사도 결정 방법에서는 대상 문서와 비교 문서의 오버랩 정보를 이용하여 대상 문서 및 비교 문서간의 유사도 점수를 결정한다. 또한, 어휘망 데이터베이스(140)를 이용하여 자질들의 동의어 및 관련어를 추출하여 자질을 확장한다. 이에 의해, 문서의 문맥 정보를 반영하고, 해당 어휘의 관련 어휘까지 반영한 유사 문서의 검색 방법을 제공한다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시예들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
도 1은 본 발명의 일 실시예에 따른 문서의 유사도 결정을 위한 단말 장치의 블럭도,
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 문서의 자질 추출 결과를 예시한 도면,
도 3a 및 도 3b는 본 발명의 일 실시예에 따른 자질들의 의미 결정 과정 및 결과를 예시한 도면,
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 어휘망 데이터베이스에 저장된 동의어 및 관련어의 구조를 예시한 도면,
도 5는 본 발명의 일 실시예에 따른 자질 확장 결과 생성된 동의어 그룹 및 관련어 그룹을 예시한 도면, 그리고,
도 6은 본 발명의 일 실시예에 따른 문서의 유사도 결정 방법을 설명하기 위한 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
100 : 단말 장치 110 : 자질 추출부
120 : 의미 결정부 130 : 자질 확장부
140 : 어휘망 데이터베이스 150 : 유사도 결정부

Claims (20)

  1. 대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 단계;
    상기 추출된 각각의 자질들의 의미를 결정하는 단계; 및
    상기 결정된 자질들의 의미 및 상기 대상 문서와 상기 비교 문서의 오버랩(Overlap) 정보를 이용하여, 상기 대상 문서 및 상기 비교 문서간의 유사도를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  2. 제 1 항에 있어서,
    상기 자질들을 추출하는 단계는,
    상기 대상 문서 및 상기 비교 문서 내의 텍스트의 형태소를 분석하는 단계; 및
    상기 형태소 분석 결과를 이용하여 불용어(stopword)를 제거하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  3. 제 1 항에 있어서,
    상기 자질들의 의미를 결정하는 단계는,
    상기 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하는 단계;
    상기 대상 자질의 후보 의미 및 상기 비교 영역 내에서 상기 대상 자질을 제 외한 주변 자질의 후보 의미를 추출하는 단계;
    상기 대상 자질의 후보 의미 및 상기 주변 자질의 후보 의미의 의미 유사도를 결정하는 단계; 및
    상기 결정된 의미 유사도를 이용하여 상기 대상 자질의 의미를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  4. 제 3 항에 있어서,
    상기 대상 자질의 의미를 결정하는 단계는,
    상기 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하는 단계;
    상기 산출된 합을 상기 대상 자질의 각 후보 의미에 할당하는 단계; 및
    상기 할당된 값이 최대인 후보 의미를 상기 대상 자질의 의미로 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  5. 제 1 항에 있어서,
    상기 추출된 자질들을 확장하는 단계;를 더 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  6. 제 5 항에 있어서,
    상기 자질들을 확장하는 단계는,
    어휘망 데이터베이스로부터 상기 자질들 각각의 동의어를 추출하여 상기 자 질들 및 상기 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하는 단계; 및
    상기 어휘망 데이터베이스로부터 상기 자질들 각각의 관련어를 추출하여 상기 추출된 관련어를 포함하는 관련어 그룹을 형성하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  7. 제 6 항에 있어서,
    상기 관련어 그룹을 형성하는 단계에서, 상기 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  8. 제 7 항에 있어서,
    상기 유사도를 결정하는 단계는,
    상기 대상 문서의 동의어 그룹 및 상기 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하는 단계;
    상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하는 단계; 및
    상기 제1 유사도 점수 및 상기 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정하는 단계;를 포함하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  9. 제 8 항에 있어서,
    상기 제1 유사도 점수를 결정하는 단계는, 하기의 수학식을 이용하여 상기 제1 유사도 점수를 산출하는 것을 특징으로 하는 문서의 유사도 결정 방법:
    Figure 112009003032977-PAT00007
    이때, scoreidx는 상기 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다.
  10. 제 8 항에 있어서,
    상기 제2 유사도 점수를 결정하는 단계는, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹에서 상호 일치하는 자질의 개수를 상기 제2 유사도 점수로 결정하는 것을 특징으로 하는 문서의 유사도 결정 방법.
  11. 대상 문서 및 비교 문서에 대하여 각각의 자질들을 추출하는 자질 추출부;
    상기 추출된 각각의 자질들의 의미를 결정하는 의미 결정부; 및
    상기 결정된 자질들의 의미 및 상기 대상 문서와 상기 비교 문서의 오버랩 정보를 이용하여, 상기 대상 문서 및 상기 비교 문서간의 유사도를 결정하는 유사도 결정부;를 포함하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  12. 제 11 항에 있어서,
    상기 자질 추출부는, 상기 대상 문서 및 상기 비교 문서 내의 텍스트의 형태소를 분석하고, 상기 형태소 분석 결과를 이용하여 불용어(stopword)를 제거하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  13. 제 11 항에 있어서,
    상기 의미 결정부는,
    상기 추출된 자질들 중 대상 자질이 중앙에 위치하도록 기설정된 사이즈의 비교 영역을 설정하고, 상기 대상 자질의 후보 의미 및 상기 비교 영역 내에서 상기 대상 자질을 제외한 주변 자질의 후보 의미를 추출하며, 상기 대상 자질의 후보 의미 및 상기 주변 자질의 후보 의미의 의미 유사도를 결정하며, 상기 결정된 의미 유사도를 이용하여 상기 대상 자질의 의미를 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  14. 제 13 항에 있어서,
    상기 의미 결정부는,
    상기 주변 자질 각각의 후보 의미들의 최대 유사도의 합을 산출하고, 상기 산출된 합을 상기 대상 자질의 각 후보 의미에 할당하며, 상기 할당된 값이 최대인 후보 의미를 상기 대상 자질의 의미로 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  15. 제 11 항에 있어서,
    상기 추출된 자질들을 확장하는 자질 확장부;를 더 포함하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  16. 제 15 항에 있어서,
    상기 자질 확장부는, 어휘망 데이터베이스로부터 상기 자질들 각각의 동의어를 추출하여 상기 자질들 및 상기 자질들에 대하여 추출된 동의어를 포함하는 동의어 그룹을 형성하고, 상기 어휘망 데이터베이스로부터 상기 자질들 각각의 관련어를 추출하여 상기 추출된 관련어를 포함하는 관련어 그룹을 형성하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  17. 제 16 항에 있어서,
    상기 자질 확장부는, 상기 관련어 그룹 형성시 상기 자질들 각각에 대하여 기설정된 관련도 깊이값 이내에 해당하는 관련어들만을 추출하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  18. 제 17 항에 있어서,
    상기 유사도 결정부는, 상기 대상 문서의 동의어 그룹 및 상기 비교 문서의 동의어 그룹간의 오버랩 정보를 이용하여 제1 유사도 점수를 결정하고, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹간의 제2 유사도 점수를 결정하며, 상기 제1 유사도 점수 및 상기 제2 유사도 점수를 합산하여 최종 유사도 점수를 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
  19. 제 18 항에 있어서,
    상기 유사도 결정부는, 하기의 수학식을 이용하여 상기 제1 유사도 점수를 산출하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치:
    Figure 112009003032977-PAT00008
    이때, scoreidx는 상기 제1 유사도 점수, Noverlaps는 오버랩의 전체 개수, length는 오버랩의 길이이다.
  20. 제 18 항에 있어서,
    상기 유사도 결정부는, 상기 대상 문서의 관련어 그룹 및 상기 비교 문서의 동의어 그룹에서 상호 일치하는 자질의 개수를 상기 제2 유사도 점수로 결정하는 것을 특징으로 하는 문서의 유사도 결정을 위한 단말 장치.
KR1020090003872A 2009-01-16 2009-01-16 문서의 유사도 결정 방법 및 이를 이용한 단말 장치 KR20100084403A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090003872A KR20100084403A (ko) 2009-01-16 2009-01-16 문서의 유사도 결정 방법 및 이를 이용한 단말 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090003872A KR20100084403A (ko) 2009-01-16 2009-01-16 문서의 유사도 결정 방법 및 이를 이용한 단말 장치

Publications (1)

Publication Number Publication Date
KR20100084403A true KR20100084403A (ko) 2010-07-26

Family

ID=42643814

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090003872A KR20100084403A (ko) 2009-01-16 2009-01-16 문서의 유사도 결정 방법 및 이를 이용한 단말 장치

Country Status (1)

Country Link
KR (1) KR20100084403A (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치
KR101442719B1 (ko) * 2013-04-16 2014-09-19 한양대학교 에리카산학협력단 논문 추천 장치 및 논문 추천 방법
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR20180099265A (ko) * 2017-02-28 2018-09-05 주식회사 닷 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램
KR102394095B1 (ko) * 2021-02-16 2022-05-09 비플라이소프트(주) 문서 데이터를 비교하는 장치 및 방법
KR20220094550A (ko) * 2020-12-29 2022-07-06 주식회사 위고 문서 간 유사 영역을 식별하는 전자 장치, 제어 방법, 및 컴퓨터 프로그램

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101442719B1 (ko) * 2013-04-16 2014-09-19 한양대학교 에리카산학협력단 논문 추천 장치 및 논문 추천 방법
KR101414171B1 (ko) * 2013-12-30 2014-07-04 주식회사 메쉬코리아 전자 문서 모델링 방법 및 그 전자 장치
KR20180035477A (ko) * 2016-09-29 2018-04-06 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
KR20180099265A (ko) * 2017-02-28 2018-09-05 주식회사 닷 비트 테이블을 활용하여 입력 단어의 타당성 판단 장치, 방법 및 컴퓨터 프로그램
KR20220094550A (ko) * 2020-12-29 2022-07-06 주식회사 위고 문서 간 유사 영역을 식별하는 전자 장치, 제어 방법, 및 컴퓨터 프로그램
KR102394095B1 (ko) * 2021-02-16 2022-05-09 비플라이소프트(주) 문서 데이터를 비교하는 장치 및 방법

Similar Documents

Publication Publication Date Title
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
KR101195341B1 (ko) 미등록 단어의 카테고리 결정 방법 및 장치
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
CN113268569B (zh) 基于语义的关联词查找方法及装置、电子设备、存储介质
KR20100084403A (ko) 문서의 유사도 결정 방법 및 이를 이용한 단말 장치
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
Verma et al. Accountability of NLP tools in text summarization for Indian languages
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
Chakrabarty et al. Benlem (a bengali lemmatizer) and its role in wsd
Alhasan et al. POS tagging for arabic text using bee colony algorithm
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
KR100498574B1 (ko) 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
US10810266B2 (en) Document search using grammatical units
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
US10318565B2 (en) Method and system for searching phrase concepts in documents
CN115563515B (zh) 文本相似性检测方法、装置、设备及存储介质
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
KR20080024530A (ko) 커뮤니티 특유 표현 검출 장치 및 방법
KR101400548B1 (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
KR101414492B1 (ko) 유사문장 검색장치 및 그 검색방법
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
JP2006139708A (ja) テキストデータ類似度算出方法、テキストデータ類似度算出装置及びテキストデータ類似度算出プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application