KR20020036059A - 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법 - Google Patents

사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법 Download PDF

Info

Publication number
KR20020036059A
KR20020036059A KR1020000065931A KR20000065931A KR20020036059A KR 20020036059 A KR20020036059 A KR 20020036059A KR 1020000065931 A KR1020000065931 A KR 1020000065931A KR 20000065931 A KR20000065931 A KR 20000065931A KR 20020036059 A KR20020036059 A KR 20020036059A
Authority
KR
South Korea
Prior art keywords
word
meaning
semantic
information
dictionary
Prior art date
Application number
KR1020000065931A
Other languages
English (en)
Inventor
옥철영
Original Assignee
옥철영
주식회사 시리울산
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 옥철영, 주식회사 시리울산 filed Critical 옥철영
Priority to KR1020000065931A priority Critical patent/KR20020036059A/ko
Publication of KR20020036059A publication Critical patent/KR20020036059A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자연언어처리(기계번역, 정보검색 등)에서의 중의성 단어에 대한 문맥상 의미를 판단함에 있어서, 사전의 뜻풀이말로부터 중의성 단어의 의미 중의성을 해결하기 위한 의미정보들을 추출하고 이를 기반으로 확률 통계적 방법을 적용하여 의미 중의성을 해결하는 방법에 관한 것이다.
본 발명은 중의성 단어에 대한 사전 뜻풀이말을 의미별로 분류하는 단계; 각 의미별 사전 뜻풀이말로부터 의미정보를 추출하여 의미별로 데이터베이스화하는 단계; 문장내 중의성 단어에 대한 각각의 의미와 문장내에 함께 포함된 체언류 및 용어류들과의 관련성을 해당 의미정보를 통해 산출하는 단계; 및 체언류 관련성 및 용언류 관련성에 적정의 가중치를 부여하여 문장관련성을 산출하고 최대 관련성을 갖는 의미를 중의성 단어의 최적 의미로서 판단하는 단계;로 이뤄진다.

Description

사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미 중의성 해결 방법{Method for disambiguating word-sense based on semantic informations extracted from definitions in dictionary}
본 발명은 의미 중의성 해결 방법에 관한 것으로서, 더욱 상세하게는 사전의 뜻풀이말에서 중의성 단어에 대한 의미정보들을 추출하고 이 의미정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법에 관한 것이다.
의미 중의성 해결이란 문맥 내에 출현하는 단어가 동형이의어 또는 다의어와 같이 둘 이상의 의미를 지닐 때, 의미들 중 문맥상 옳은 하나의 의미를 분별하는 것으로, 자연 언어 처리의 가장 힘든 요인 중의 하나이다. 의미 중의성이 해결되면 기계번역에서 올바른 대역어를 선정할 수 있으며, 정보 검색에서의 정확률을 크게 향상시킬 수 있다.
지금까지의 형태소 분석이나 구문 분석은 어느 정도의 성과를 거두고 있으나, 담화 분석에 대한 연구가 활발해지면서, 의미 중의성 해결의 중요성이 부각되고 있다.
이러한 의미 중의성 해결을 위한 종래의 연구는 학습 데이터의 형태에 따라서 사전을 이용하는 방법과 코퍼스를 이용하는 방법으로 분류할 수 있고, 방법론에 따라서 규칙을 이용한 방법, 확률 통계를 이용하는 방법과 의미 계층 구조를 이용하는 방법으로 분류할 수 있다.
상기 사전을 이용하는 방법은 모든 단어를 의미에 따라 단어의 정보를 따로 기술하고 있기 때문에 의미 정보를 추출하기에 용이하다는 장점이 있지만, 언어의 동적인 특성을 반영하지 못하는 단점이 있다.
또한, 코퍼스를 이용한 방법은 언어의 동적 특성을 잘 반영하는 장점 때문에 많이 사용되고 있지만, 신뢰성이 보장된 이용 가능한 의미 부착 코퍼스를 구하기가 힘들 뿐만 아니라 대량의 의미부착 코퍼스를 구축하기 위해서는 비용이 많이 드는 문제점이 있다.
또한, 확률 통계를 이용한 연구는 어휘의 불규칙적인 특성을 잘 반영하고 있지만, 자료 부족 문제가 발생하는 단점이 있다.
또한, 의미 계층 구조를 이용한 연구들은 주로 Roget thesaurus나 Wordnet을 이용하는데, 의미별로 단어들을 잘 클러스터링하고 있어서 의미 중의성 해결을 위해 가장 활발히 이용되는 자원이다. 그러나, 영어권의 언어이므로 한국어에 적용하는 데에는 한계가 있다.
따라서, 상기된 방법들의 문제점을 보완하기 위하여 사전과 코퍼스를 병행하여 이용하는 방법, 공기 정보를 이용한 확률 통계와 의미 계층 구조를 병행하여 이용하는 방법 등에 대한 연구가 활발히 진행되고 있다.
이러한 일예로서, Yarowsky (1992)는 의미가 부착되지 않은 코퍼스와 시소러스(Roget thesaurus)를 이용한 통계 기반 의미 중의성 해결 방법을 제안하였다. 이는 코퍼스로부터 시소러스의 의미 범주에 대한 단어 출현의 통계적 데이터를 구축하여, 시소러스의 의미 범주와 관련된 단어의 의미 중의성을 해결한다. 그러나, 상기의 방법론은 시소러스의 의미 범주를 일관성 있게 구축하기가 어려운 문제점이 있다.
또한, Alpha K, Luk (1995)는 코퍼스를 이용한 연구의 단점인 자료 부족 현상을 최소화하기 위해 LDOCE(Longman Dictionary of Contemporary English)의 사전에 정의된 1,792개의 통제 어휘(controlled vocabulary)를 기준으로 Brown 코퍼스에서 공기 정보에 대한 통계값을 추출하여 의미 중의성 해결 방법을 제안하였다. 그러나, 상기의 방법론은 통제 어휘 자체가 의미 중의성을 지닌 동형이의어가 많음으로 인해서 한계점이 존재한다.
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 사전의 뜻풀이말을 학습 데이터로 이용하여 다의어나 동형이의어의 의미 중의성을 효과적으로 해결하고 그 판별 정확률을 향상시킬 수 있는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법을 제공하는 것이다.
도 1은 본 발명에 따른 의미 중의성 해결방법에 대한 개략적인 개념도.
도 2는 본 발명에 따른 사전 뜻풀이말에서 추출한 의미정보를 통한 의미 중의성 해결 방법을 개략적으로 도시한 흐름도.
도 3은 본 발명에 따른 사전 뜻풀이말로부터 의미정보를 DB화하는 과정을 보여주는 개념도.
도 4는 본 발명에 따른 중의성 단어에 대한 의미정보 집합 관계를 보여주는 도면.
도 5은 본 발명에 따른 의미정보 DB로부터 의미 중의성을 해결하는 과정을 상세하게 도시한 흐름도.
도 6은 본 발명에 따른 체언류와 용언류의 가중치 적용에 의한 의미 정확률 실험의 결과를 보여주는 그래프도.
< 도면의 주요 부분에 대한 부호의 설명 >
101. 체언류 관련성 산출부102. 용언류 관련성 산출부
103. 가중치 적용부104. 문장 관련성 산출부
105. 최적 의미 판단부110. 의미정보 DB
120. 사전 뜻풀이말 DB
이와 같은 목적을 달성하기 위해서 본 발명에 따른 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법은 자연어 문장내의 중의성 단어에 대한 의미를 해결하는 방법에 있어서, 중의성 단어에 대한 사전 뜻풀이말을 의미별로 분류하는 단계; 각 의미별 사전 뜻풀이말로부터 의미정보를 추출하여 의미별로 데이터베이스화하는 단계; 문장내 중의성 단어에 대한 각각의 의미와 문장내에 함께 포함된 체언류 및 용어류들과의 관련성을 해당 의미정보를 통해 산출하는 단계; 및 체언류 관련성 및 용언류 관련성에 적정의 가중치를 부여하여 문장관련성을 산출하고 최대 관련성을 갖는 의미를 중의성 단어의 최적 의미로서 판단하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 의미정보 DB화 단계는 각 의미별 사전 뜻풀이말들로부터 품사태그 및 출현횟수 정보를 갖는 체언, 용언, 및 하의어로 이뤄지는 1차 의미정보를 추출하고, 각 의미별 사전 뜻풀이말들로부터 의미 분별 대상 단어를 상어어로 갖지 않고 단지 뜻풀이말에 포함된 경우에 대해 2차 의미정보를 추출한 후, 상기 1차 의미정보와 2차 의미정보를 합병하여 의미정보 DB를 구축하는 것이 바람직하다.
또한, 상기 체언류 및 용언류 관련성 산출 단계는 다른 의미와의 교집합 부류 의미정보에 대해 별도로 고려하지 않고 각 의미별 체언 및 용언 관련성을 산출하는 것이 바람직하다.
또한, 상기 체언류 및 용언류 관련성 산출 단계는 상기 의미정보를 통해 판단대상 의미에 대한 각 체언류의 발생 확률을 산출하여 이들을 적산한 후 상기 판단대상 의미와의 공기관계를 갖는 문장내 체언의 개수를 곱하여 체언류 관련성을 산출하고, 상기 의미정보를 통해 상기 판단대상 의미에 대한 각 용언류의 발생 확률을 산출하여 이들을 적산한 후 상기 판단대상 의미와의 공기관계를 갖는 문장내 용언의 개수를 곱하여 용언류 관련성을 산출하는 것이 바람직하다.
또한, 상기 체언류 및 용언류 관련성 산출 단계는 각 체언류 및 용언류의 중의성 단어와의 근접도에 따라 가중치를 차별적으로 부여하는 과정을 더 포함하는것이 바람직하다.
본 발명의 바람직한 실시예를 첨부 도면에 의거 상세히 설명하면 다음과 같다.
첨부된 도면 도 1은 본 발명에 따른 의미 중의성 해결방법에 대한 개략적인 개념도이다.
도 1에 도시된 바와 같이, 본 발명은 중의성 단어들에 대한 뜻풀이말 정보를 갖고 있는 사전 뜻풀이말 DB(120)로부터 품사태깅 상태의 의미정보(명사, 동사, 또는 형용사)를 추출하여 중의성 단어의 각 의미별(중의성 단어에 대한 S1 의미, S2 의미, S3 의미 등)로 데이터베이스화하여 의미정보 DB(110)를 통해 관리하게 된다.
또한, 상기와 같이 상기 의미정보 DB(110)에 각종 중의성 단어(동형이의어)들에 대한 각 의미별 의미정보가 데이터베이스화된 상태에서, 중의성 단어(예;'배')를 포함하는 문장이 입력되게 되면, 본 발명에 따른 의미 중의성 해결 시스템은 해당 중의성 단어에 대한 각 의미별 의미정보 DB를 이용하여 각 의미(예; 과일, 운송수단, 또는 신체부위)의 입력 문장과의 관련성을 산출한 후 최대 문장 관련성을 갖는 의미로서 해당 중의성 단어의 최적 의미로 판단하게 된다.
즉, 도 1에 도시된 바와 같이, 중의성 단어를 포함하는 문장 또는 문단이 입력되면, 체언류 관련성 산출부(101)는 상기 의미정보 DB(110)를 통해 문장내 체언류의 각 의미에 대한 확률정보 및 공기관계정보를 독출하여 각 의미에 대한 문장내 체언류와의 관련성을 산출하고, 용언류 관련성 산출부(102)는, 상기 체언류 관련성 산출부와 유사하게, 상기 의미정보 DB(110)로부터 확률정보 및 공기관계정보를 독출한 후 각 의미에 대한 문장내 용언류와의 관련성을 산출한다.
또한, 가중치 적용부(103)는 상기 산출된 체언류 및 용언류 관련성에 적정의 가중치를 각각 부여한다.
또한, 문장 관련성 산출부(104)는 상기 부여된 가중치를 적용하여 체언류 관련성 및 용언류 관련성으로부터 입력 문장에 대한 각 의미(S1,S2,S3)의 관련성을 산출한다.
그리고, 최적 의미 판단부(105)는 상기 산출된 각 의미별 문장 관련성중 최대의 관련성을 갖는 의미로서 해당 중의성 단어의 문매상 최적의미를 판단하게 된다.
본 발명은 하나의 문장 뿐만 아니라 필요에 따라 구문 또는 다수의 문장을 통해 중의성 단어의 의미를 판단하게 된다.
한편, 도 2는 상기와 같은 의미 중의성 해결 시스템을 통해 중의성 단어의 의미를 해결하는 과정을 개략적으로 도시한 흐름도이다.
도 2에 도시된 바와 같이, 본 발명에 따른 사전 뜻풀이말로부터 추출된 의미정보를 통해 의미 중의성을 해결하는 방법은,
중의성 단어들과 관련된 사전 뜻풀이말을 각 중의성 단어의 의미별로 분류하는 사전 뜻풀이말 분류 단계;(S10)
품사 태깅, 출현횟수, 및 공기관계 정보를 갖는 의미정보를 상기 분류된 사전 뜻풀이말로부터 추출하여 각 중의성 단어의 의미별로 데이터베이스화하는 의미정보 DB화 단계;(S20)
입력 문장에 포함된 의미판별 대상 단어(중의성 단어)에 대한 각각의 의미와 상기 입력 문장에 함께 포함된 체언류 및 용어류들과의 관련성을 해당 의미정보 DB를 통해 산출하는 체언류 및 용언류 관련성 산출 단계;(S30) 및
체언류 관련성 및 용언류 관련성에 적정의 가중치를 부여하여(S40) 문장과의 관련성을 산출하고 최대 관련성을 갖는 의미를 의미판별 대상 단어(중의성 단어)의 최적 의미로서 판단하는 의미판단 단계;(S50)를 포함하여 이뤄질 수 있다.
도 3은 본 발명에 따른 사전 뜻풀이말로부터 의미정보를 DB화하는 과정을 보여주는 개념도이다.
도 3에 도시된 바와 같이, 의미정보 DB화 과정은 먼저, 다수의 단어들에 대한 뜻풀이말 정보를 갖고 있는 사전 뜻풀이말 DB(120)로부터 중의성 단어들과 관련된 뜻풀이말 데이터를 독출한 후 품사 태깅 수단을 통해 각 뜻풀이말 데이터를 품사 태깅 상태로 구성함으로써 시작된다.
또한, 기존의 품사 부착된 뜻풀이말 사전을 이용하여 의미정보 DB화 과정을 시작할 수 있다.
이러한 뜻풀이말들은 그 형태가 다양한데, 표 1은 그 중 가장 많은 빈도를 차지하는 기본적인 형태를 예시적으로 보여준다.
또한, 상기 품사 부착된 뜻풀이말 데이터를 각 중의성 단어에 대한 각각의 의미별(ex, 기관:몸,조직,장치; 배:과일,운송수단,신체부위; 눈:신체부위,식물,기상현상 등)로 분류하여 학습대상 자료를 구축하게 된다.
그리고, 상기 분류된 학습대상 자료로부터 품사태그, 출현횟수, 및 공기관계 단어 정보를 갖는 의미정보를 추출하여 각 의미별로 데이터베이스화하게 된다.
표 2는 '배'라는 중의성 단어의 '교통수단'의미에 대한 학습대상 자료와 이로부터 추출된 1차 의미정보를 예시적으로 보여준다.
표 2에서 'NNG'는 보통 명사를 나타내고, 'VV'와 'VA'는 각각 동사와 형용사를 의미한다. 또한, (1),(2), 등은 '교통수단'의미에 대한 뜻풀이말 데이터에서의 해당 단어의 출현 횟수를 나타내고, 이렇게 추출되는 체언류 및 용언류의 단어들을 '교통수단'의미와 공기관계를 갖는 것으로서 판단한다.
또한, 표 2에서 알 수 있듯이, 학습 대상 자료에서 의미 중의성 해결에 도움이 되지 않는 조사나 부사류 등의 정보는 의미 정보로 사용하지 않고, 보통 명사, 동사와 형용사만을 의미 정보로 사용한다.
그리고, 뜻풀이말의 표제어도 의미를 나타내는 하의어로써 의미정보의 자질을 갖추고 있으므로 의미 정보에 포함시킨다.
한편, 상기와 같은 1차 의미정보만으로는 자료 부족 문제를 야기할 수 있기 때문에, 자료 부족 문제를 해결하기 위해서 해당 뜻풀이말 데이터 중 의미분별 대상 단어(중의성 단어)를 상의어로 갖지 않고 단지 뜻풀이말에 포함된 경우들에 대하여 상기 의미정보 추출 과정을 반복하여 2차 의미 정보를 구축할 수 있다.
따라서, 2차 의미정보에는 뜻풀이말의 표제어에 관한 정보가 포함되지 않는다.
또한, 상기 1차 의미정보와 2차 의미정보를 합병하여 중의성 단어의 의미정보 DB(110)를 구축하게 된다.
한편, 중의성 단어의 의미정보는, 도 4에 도시된 바와 같이, 각 의미별 집합의 형태로 표현할 수 있다.
중의성 단어의 의미정보들 사이에는 의미들 간에 중복되는 교집합 부류의 정보(A ∩B, B ∩C, A ∩C, A ∩B ∩C)들이 있다.
이러한, 교집합 부류의 정보들은 그 자질값을 부여하는 방법에 따라 의미 중의성 해결에 중요한 영향을 미칠 수 있다.
하지만, 각각의 의미들은 개별적인 의미정보들을 가지고 있을 뿐만 아니라 교집합 부류의 의미정보들도 각 의미에 따라 다른 빈도수(출현횟수) 정보를 갖고 있기 때문에, 본 발명은 상기 교집합 부류에 대해 별도로 고려하지 않고 교집합 부류가 포함된 원래 상태의 의미정보로서 의미 중의성 해결을 도모한다.
이하, 상기와 같이 구축되는 의미정보 DB(110)를 이용하여 자연어 문장에 포함된 중의성 단어의 문맥상 최적 의미를 판단하는 과정을 설명한다.
도 5은 상기 의미정보 DB(110)을 이용하여 의미 중의성을 해결하는 과정을 도시한 흐름도이다.
먼저, 인식 대상 자연어 문장(또는 문단)이 입력되면,(S501) 상기 문장에서 의미를 인식할 필요가 있는 체언류 및 용언류의 단어를 확인하게 된다.(S502)
그리고, 이러한 체언류 및 용언류 단어들중 중의성 단어 DB, 의미정보 DB 등을 통해 중의성 단어의 존재 여부를 확인하게 된다.(S503)
이때, 중의성 단어가 발견되면, 해당 중의성 단어의 각 의미에 대한 입력 문장의 관련성을 순차적으로 판단하게 된다.(S504)
선택된 하나의 의미 Si에 대한 체언류 관련성을 판단하는 과정을 살펴보면, 문장C에 포함된 체언류의 단어들과 상기 의미정보 DB(110)의 의미 Si에 대한 공기관계 단어들을 비교함으로써, 문장C에서 의미 Si와 공기 관계를 가지는 체언류의 개수를 확인하게 된다.(S505)
또한, 상기 의미정보 DB(110)로부터, Si의미를 가진 단어가 발생했을 때 문장C내의 각 체언류 단어(Wnj)가 발생할 확률을 산출한다.(S506)
또한, 의미Si의 체언류 관련성은 공기관계인 체언류 개수값과 상기 산출된 각 체언류의 발생 확률에 대한 적산값을 곱하여 산출되는 것으로서,(S507) 수학식 1과 같이 정의된다.
또한, 의미 Si에 대한 용언류 관련성을 판단하는 과정은 상기 체언류 산출 과정과 유사한 것으로서 다음과 같다.
즉, 상기 의미정보 DB(110)로부터의 의미 Si에 대한 공기관계 정보를 통해, 문장C에서 의미 Si와 공기 관계를 가지는 용언류의 개수를 확인하고,(S508) 상기 의미정보 DB(110)로부터, Si의미를 가진 단어가 발생했을 때 문장C내의 각 용언류 단어(Wnv)가 발생할 확률을 산출한다.(S509)
그리고, 의미Si의 용언류 관련성은 공기관계인 용언류 개수값과 상기 산출된 각 용언류의 발생 확률에 대한 적산값을 곱하여 산출되는 것으로서,(S510) 다음의 수학식 2와 같이 정의된다.
이와 같이, 의미 Si의 체언류 및 용언류 관련성이 산출되면, 체언류 가중치(Wn)와 용언류 가중치(Wv)를 적정하게 부여하여(S511) 의미 Si의 문장C와의 관련성을 산출하게 된다.(S512) 이에 대한 산출식은 다음의 수학식 3과 같이 정의된다.
또한, 의미 판별대상 단어(중의성 단어)에 대한 모든 의미 Si(S1, S2, S3등)의 문장C와의 관련성을 상기와 같은 과정을 반복하여 산출한다.(S513)
그리고, 각각의 의미 Si에 대한 문장 관련성을 상호 비교하여 최대 관련성을 갖는 의미를 의미판별 대상 단어의 문맥상 최적 의미로서 판단하게 되는데,(S514) 이에 대한 판별식은 다음의 수학식 4에 정의된 바와 같다.
한편, 상기 체언류 및 용언류 관련성 산출 과정에서 문장내 각 체언류 및 용언류의 중의성 단어와의 근접도에 따라 적정의 공기관계 가중치를 차별적으로 부여함으로써 의미 중의성 해결의 정확도를 향상시킬 수 있다.
표 3은 상기 체언류 가중치(Wn)와 용언류 가중치(Wv)의 설정비율에 따른 몇몇 중의성 단어에 대한 의미 판별 정확률의 실험 결과를 보여준다.
또한, 도 6은 상기 표 3의 정확률 실험의 결과를 그래프로 도시한 것으로서, 체언류 가중치(Wn)와 용언류 가중치(Wv)를 0.9 대 0.1의 비율로 하였을 때 최고의 의미 판별 정확률을 나타냄을 보여주고 있다.
본 발명은 전술한 실시예에 국한되지 않고 본 발명의 기술 사상이 허용하는 범위 내에서 다양하게 변형하여 실시할 수가 있다.
상기한 바와 같이 이루어지는 본 발명에 의하면, 사전 뜻풀이말을 통해 중의성 단어에 대한 문맥상의 의미를 효과적으로 해결하고 그 판별 정확률을 향상시킬 수 있다.

Claims (6)

  1. 자연어 문장내의 중의성 단어에 대한 의미를 해결하는 방법에 있어서,
    중의성 단어에 대한 사전 뜻풀이말을 의미별로 분류하는 단계;
    각 의미별 사전 뜻풀이말로부터 의미정보를 추출하여 의미별로 데이터베이스화하는 단계;
    문장내 중의성 단어에 대한 각각의 의미와 문장내에 함께 포함된 체언류 및 용어류들과의 관련성을 해당 의미정보를 통해 산출하는 단계; 및
    체언류 관련성 및 용언류 관련성에 적정의 가중치를 부여하여 문장관련성을 산출하고 최대 관련성을 갖는 의미를 중의성 단어의 최적 의미로서 판단하는 단계;를 포함하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
  2. 제 1항에 있어서, 상기 의미정보 DB화 단계는 각 의미별 사전 뜻풀이말들로부터 품사태그 및 출현횟수 정보를 갖는 체언, 용언, 및 하의어로 이뤄지는 1차 의미정보를 추출하고, 각 의미별 사전 뜻풀이말들로부터 의미 분별 대상 단어를 상어어로 갖지 않고 단지 뜻풀이말에 포함된 경우에 대해 2차 의미정보를 추출한 후, 상기 1차 의미정보와 2차 의미정보를 합병하여 의미정보 DB를 구축하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
  3. 제 1항 에 있어서, 상기 체언류 및 용언류 관련성 산출 단계는 다른 의미와의 교집합 부류 의미정보에 대해 별도로 고려하지 않고 각 의미별 체언 및 용언 관련성을 산출하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
  4. 제 1항 또는 제 3항에 있어서, 상기 체언류 및 용언류 관련성 산출 단계는 상기 의미정보를 통해 판단대상 의미에 대한 각 체언류의 발생 확률을 산출하여 이들을 적산한 후 상기 판단대상 의미와의 공기관계를 갖는 문장내 체언의 개수를 곱하여 체언류 관련성을 산출하고, 상기 의미정보를 통해 상기 판단대상 의미에 대한 각 용언류의 발생 확률을 산출하여 이들을 적산한 후 상기 판단대상 의미와의 공기관계를 갖는 문장내 용언의 개수를 곱하여 용언류 관련성을 산출하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
  5. 제 1항 또는 제 4항에 있어서, 상기 체언류 및 용언류 관련성 산출 단계는 각 체언류 및 용언류의 중의성 단어와의 근접도에 따라 가중치를 차별적으로 부여하는 과정을 더 포함하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
  6. 제 1항에 있어서, 상기 체언류 관련성과 용언류 관련성에 9 대 1의 비율로 가중치를 부여하여 판단대상 의미의 문장과의 관련성을 산출하는 것을 특징으로 하는 사전 뜻풀이말에서 추출한 의미정보를 기반으로 하는 의미 중의성 해결 방법.
KR1020000065931A 2000-11-07 2000-11-07 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법 KR20020036059A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000065931A KR20020036059A (ko) 2000-11-07 2000-11-07 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000065931A KR20020036059A (ko) 2000-11-07 2000-11-07 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법

Publications (1)

Publication Number Publication Date
KR20020036059A true KR20020036059A (ko) 2002-05-16

Family

ID=19697715

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000065931A KR20020036059A (ko) 2000-11-07 2000-11-07 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법

Country Status (1)

Country Link
KR (1) KR20020036059A (ko)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100784441B1 (ko) * 2005-12-06 2007-12-11 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치
KR100815804B1 (ko) * 2006-12-28 2008-03-20 주식회사 케이티 인터넷을 이용한 수준별 문맥 정보 서비스 제공 시스템 및방법
KR100967935B1 (ko) * 2008-02-19 2010-07-06 주식회사 한도 절수형 밸브
WO2011155736A2 (ko) * 2010-06-07 2011-12-15 Park Dong Min 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
KR101137713B1 (ko) * 2012-01-18 2012-04-25 유니챌(주) 외국어 학습 기능을 제공하는 단말기 및 그 제어방법
KR101288900B1 (ko) * 2011-11-21 2013-07-24 (주)펀노마드 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
KR20210097374A (ko) * 2020-01-30 2021-08-09 (주)나라지식정보 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
US5844798A (en) * 1993-04-28 1998-12-01 International Business Machines Corporation Method and apparatus for machine translation
KR100250442B1 (ko) * 1997-12-22 2000-04-01 정선종 자연언어 정보 검색의 어의 모호성 해소 방법
KR20000056245A (ko) * 1999-02-18 2000-09-15 윤종용 예제기반 기계번역에서 분별성이 반영된 유사도를 이용한 번역예문 선정방법
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5844798A (en) * 1993-04-28 1998-12-01 International Business Machines Corporation Method and apparatus for machine translation
JPH10171806A (ja) * 1996-12-13 1998-06-26 Nec Corp 語義曖昧性解消装置及び方法
KR100250442B1 (ko) * 1997-12-22 2000-04-01 정선종 자연언어 정보 검색의 어의 모호성 해소 방법
KR20000056245A (ko) * 1999-02-18 2000-09-15 윤종용 예제기반 기계번역에서 분별성이 반영된 유사도를 이용한 번역예문 선정방법
KR20010110496A (ko) * 2000-06-05 2001-12-13 문유진 용언을 중심으로 한 의미분석 지식 베이스의 구축방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100568977B1 (ko) * 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
KR100784441B1 (ko) * 2005-12-06 2007-12-11 한국전자통신연구원 의미공기정보 지식베이스 구축 방법 및 장치
KR100815804B1 (ko) * 2006-12-28 2008-03-20 주식회사 케이티 인터넷을 이용한 수준별 문맥 정보 서비스 제공 시스템 및방법
KR100967935B1 (ko) * 2008-02-19 2010-07-06 주식회사 한도 절수형 밸브
WO2011155736A2 (ko) * 2010-06-07 2011-12-15 Park Dong Min 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
WO2011155736A3 (ko) * 2010-06-07 2012-04-19 Park Dong Min 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
KR101288900B1 (ko) * 2011-11-21 2013-07-24 (주)펀노마드 단어의 중의성 해소 방법, 중의성 해소 시스템, 및 이를 이용한 수화 시스템
KR101137713B1 (ko) * 2012-01-18 2012-04-25 유니챌(주) 외국어 학습 기능을 제공하는 단말기 및 그 제어방법
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
US10984318B2 (en) 2016-06-15 2021-04-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
KR20210097374A (ko) * 2020-01-30 2021-08-09 (주)나라지식정보 어휘 관계 및 글로서리 그래프를 이용한 다의어의 의미 추출 장치 및 방법

Similar Documents

Publication Publication Date Title
Frantzi et al. The c-value/nc-value method of automatic recognition for multi-word terms
McKeown et al. Collocations
Bracewell et al. Multilingual single document keyword extraction for information retrieval
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
Utomo et al. Text classification of british english and American english using support vector machine
Venugopal-Wairagade et al. Novel language resources for Hindi: an aesthetics text corpus and a comprehensive stop lemma list
KR20020036059A (ko) 사전 뜻풀이말에서 추출된 의미정보를 기반으로하는 의미중의성 해결 방법
CN113743090A (zh) 一种关键词提取方法及装置
Joshi et al. Word embeddings in low resource Gujarati language
Hrytsiv et al. Corpus Technologies in Translation Studies: Fiction as Document.
Maynard et al. Acquiring contextual information for term disambiguation
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
KR20140049659A (ko) 문서의 자동 학습 장치와 이를 이용한 문서 자동 학습 방법, 문서의 자동 분류 장치와 이를 이용한 문서 자동 분류 방법
Mussa et al. Word sense disambiguation on english translation of holy quran
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
Kocijan et al. The quest for Croatian idioms as multiword units
Palomar et al. Phora: A nlp system for spanish
Ledeneva et al. Recent advances in computational linguistics
Saberi et al. Noun Generation for Nominalization in Academic Writing
Yesuf et al. Amharic Word Sense Disambiguation Using Wordnet
Park et al. Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages
Eluri et al. A knowledge based word sense disambiguation in Telugu language
Eineborg et al. ILP in part-of-speech tagging—an overview
Nou et al. Khmer POS tagger: a transformation-based approach with hybrid unknown word handling

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application