KR20110017129A - Apparatus and method for words sense disambiguation using korean wordnet and its program stored recording medium - Google Patents
Apparatus and method for words sense disambiguation using korean wordnet and its program stored recording medium Download PDFInfo
- Publication number
- KR20110017129A KR20110017129A KR1020090074650A KR20090074650A KR20110017129A KR 20110017129 A KR20110017129 A KR 20110017129A KR 1020090074650 A KR1020090074650 A KR 1020090074650A KR 20090074650 A KR20090074650 A KR 20090074650A KR 20110017129 A KR20110017129 A KR 20110017129A
- Authority
- KR
- South Korea
- Prior art keywords
- vocabulary
- neutral
- meaning
- korean
- word
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 자연 언어의 분석 과정에서 발생하는 여러 중의성 중에서 의미 분석 단계에서 발생하는 어의(語義, word sense) 중의성을 한국어 어휘 의미망을 이용하여 해소할 수 있도록 한 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체에 관한 것이다.The present invention utilizes the Korean lexical semantic network to solve the word sense neutrality generated in the semantic analysis stage using the Korean lexical semantic network. Apparatus and method for resolving neutrality of words and a recording medium having recorded thereon a program therefor.
어의 중의성 해소(Word Sense Disambiguation; WSD)란, 하나 이상의 의미가 있는 어휘(이하 중의성 어휘)가 문맥에서 어떤 의미로 사용되었는지를 판단하여 그 의미를 정확하게 구분하는 작업이다.Word Sense Disambiguation (WSD) is an operation of determining the meaning of one or more meaningful vocabulary words (hereinafter, referred to as the "gravity vocabulary") in context and accurately classifying the meanings.
어의 중의성 해소 방법은 사용하는 언어 자원에 따라 크게 다음과 같은 두 가지로 구분한다. 하나는 기계 가독형 사전(Machine Readable Dictionary; MRD)나 시소러스(thesaurus) 등과 같은 인간을 위해 마련된 실세계 지식베이스에 기반을 둔 지식 기반 어의 중의성 해소(Knowledge-based WSD)이고, 다른 하나는 실제 사용되는 문장들의 집합체인 말뭉치를 이용한 말뭉치 기반 어의 중의성 해소(Corpus-based WSD)이다.There are two ways to resolve the neutrality of language, depending on the language resources used. One is Knowledge-based WSD based on real-world knowledge bases designed for humans, such as Machine Readable Dictionary (MRD) or thesaurus. Corpus-based WSD using corpus, a collection of sentences used.
지식 기반 어의 중의성 해소는 이용하는 언어 자원에 따라 기계 가독형 사전의 사전 뜻풀이를 이용한 방법과 시소러스나 기계 가독형 사전에 의하여 제공되는 의미 범주(semantic categorization)을 이용하는 방법, 그리고 2개 국어로 된 사전(bilingual dictionary)에서 단어 대응을 이용하는 방법으로 구분할 수 있다.The neutrality of knowledge-based words can be resolved by using dictionary semantics of machine-readable dictionaries, using semantic categorization provided by thesaurus or machine-readable dictionaries, and bilingual, depending on the language resources used. It can be distinguished by using word correspondence in a bilingual dictionary.
그리고 말뭉치 기반 어의 중의성 해소는 대량의 말뭉치에서 추출한 통계 정보를 이용하는 방법이다. 이 방법에서 어의 중의성 문제는 기계학습에서의 통계적 분류 문제로 단순화되어 전통적인 여러 기계학습 기법(instance-based learning, decision tree, Bayesian classifier 등)을 적용하여 해결된다.And neutralization of corpus-based fish is a method using statistical information extracted from large corpus. In this method, the language significance problem is simplified to the statistical classification problem in machine learning and solved by applying various traditional machine learning techniques (instance-based learning, decision tree, Bayesian classifier, etc.).
기계학습을 통한 어의 중의성 해소는 학습을 위하여 개별 의미를 부착한 어휘들로 이루어진 말뭉치(이하 의미 부착 말뭉치)를 이용하는지에 따라 감독 중의성 해소(supervised disambiguation)와 비감독 중의성 해소(unsupervised disambiguation)로 나누어진다. Resolving the neutrality of words through machine learning uses supervised disambiguation and unsupervised disambiguation depending on whether they use a corpus of words with individual meanings for learning. disambiguation).
일반적으로 어의 중의성 해소 성능에서 감독 중의성 해소가 비감독 중의성 해소와 지식 기반 어의 중의성 해소보다 성능이 더 높게 나타나지만, 대규모의 의미 부착 말뭉치가 필요하다.In general, supervised neutralization in performance of speech neutrality is higher than unsupervised neutrality and knowledge-based neutralization, but large semantic corpus is required.
또한, 중의성을 가진 각각의 어휘마다 분류자(classifier)를 생성하여야 하기 때문에 대규모의 어의 중의성 해소에 적합하지 못하다.In addition, since a classifier must be generated for each vocabulary having neutrality, it is not suitable for eliminating neutrality of large-scale words.
본 발명은 이와 같은 종래 기술의 어의 중의성 해소 방법의 문제를 해결하기 위한 것으로, 자연 언어의 분석 과정에서 발생하는 여러 중의성 중에서 의미 분석 단계에서 발생하는 어의(語義, word sense) 중의성을 한국어 어휘 의미망을 이용하여 해소할 수 있도록 한 어의 중의성 해소 장치 및 방법을 제공하는데 그 목적이 있다.The present invention is to solve the problem of the prior art method of resolving the neutrality of words, the word sense neutrality generated in the semantic analysis step among the various neutralities generated in the analysis process of natural language. It is an object of the present invention to provide an apparatus and method for resolving neutrality of a word that can be solved using a Korean lexical semantic network.
본 발명은 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘의 관계어를 추출하고 나서 이들 간의 공기 여부를 판단하여 어의 중의성 해소를 위한 한국어 어휘 의미망을 이용한 어의 중의성 해소 장치 및 방법을 제공하는데 그 목적이 있다.The present invention extracts the relational words of the vocabulary appearing around the neutral vocabulary and the neutral vocabulary, and then determines whether or not there is air between them. The purpose is to provide.
본 발명은 기계번역과 같은 여러 응용 분야에서 대규모의 어의 중의성 해소를 실현하고자 한국어 어휘 의미망을 이용하여 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘의 관계어(상위어, 하위어, 형제어, 동의어)를 추출하고 나서 이들 간의 공기 여부를 판단하여 어의 중의성 해소를 위한, 어의 중의성 해소 장치 및 그 방법과 상기 방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.The present invention uses the Korean vocabulary semantic network to realize large-sized neutrality in various application fields such as machine translation. And a computer-readable recording medium having recorded thereon a method for resolving the neutrality of the fish and a method and a program for realizing the method. The purpose is to provide.
본 발명은‘세종전자사전’의 여러 정보(선택제약, 합성어 형성 정보, 전체어, 부분어, 단위 표현)를 이용하여 부적절한 의미를 제거할 수 있도록 한 어의 중의성 해소 장치 및 그 방법과 상기 방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.The present invention provides a device and method for resolving neutrality of a word to remove an inappropriate meaning by using various kinds of information (selection constraint, compound word formation information, full word, partial word, unit expression) of 'Sejong Electronic Dictionary' It is an object of the present invention to provide a computer-readable recording medium having recorded thereon a program for realizing the method.
본 발명은 세종전자사전의 선택제약 정보에 이용되는 세종전자사전의 의미 부류 체계를 KorLx와 매핑하여 부적절한 의미를 제거할 수 있도록 한 어의 중의성 해소 장치 및 그 방법과 상기 방법을 실현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.The present invention relates to a semantic classification system of the Sejong electronic dictionary used for selection restriction information of the Sejong electronic dictionary with KorLx so that the inappropriate meaning can be removed and the method and a program for realizing the method. Its purpose is to provide a computer readable recording medium having recorded thereon.
이와 같은 목적을 달성하기 위한 본 발명의 제 1 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치는 입력된 문장에 대한 형태소 분석과 품사 중의성 해소를 수행하고 중의성 어휘를 선별하는 전처리부;한국어 어휘 의미망을 이용하여 중의성 어휘와 주변 문맥에 함께 나타난 어휘의 관계어를 추출하는 어휘 확장부;상기 중의성 어휘와 추출된 어휘 사이의 연관성을 통계적으로 분석하기 위한 통계 정보를 획득하는 통계 정보 획득부;상기 획득한 통계 정보를 이용하여 상기 중의성 어휘의 의미를 구분하는 어의 선택부;를 포함하는 것을 특징으로 한다.In order to achieve the above object, the apparatus for resolving the neutrality of words using the Korean vocabulary meaning network according to the first embodiment of the present invention performs a morphological analysis on the input sentence, resolving part-of-speech neutrality, and selects a neutral vocabulary. Pre-processing unit; Vocabulary expansion unit for extracting the relationship between the neutral vocabulary and the vocabulary appearing in the surrounding context using the Korean vocabulary semantic network; Statistical information for statistically analyzing the relationship between the neutral vocabulary and the extracted vocabulary And obtaining a statistical information acquiring unit; a selecting unit for distinguishing a meaning of the neutral vocabulary by using the obtained statistical information.
그리고 상기 전처리부는,입력된 문장에 대하여 한국어 품사 태거를 이용하여 품사 태깅(part-of-speech tagging)을 수행하여 형태소나 어절의 품사 중의성을 없애는 것을 특징으로 한다.The preprocessor may perform part-of-speech tagging on an input sentence using a Korean part-of-speech tagger to remove part-of-speech speech.
그리고 상기 전처리부는,중의성 어휘의 선별을 위하여 해당 어휘가 한국어 어휘의미망에서 적어도 2개의 동의어 집합(synonym set)을 가지는지의 여부를 기준으로 수행하는 것을 특징으로 한다.The preprocessing unit may perform the reference based on whether the corresponding vocabulary has at least two synonym sets in the Korean vocabulary.
그리고 상기 어휘 확장부는, 해당 어휘의 상위어,하위어,형제어,동의어를 획득하여 어휘를 확장하는 것을 특징으로 한다.The vocabulary expansion unit may expand the vocabulary by acquiring upper words, lower words, type control, and synonyms of the corresponding vocabulary.
그리고 상기 통계 정보 획득부는,중의성 어휘와 주변 문맥 함께 나타난 어휘의 관계어에 대한 빈도와 이들 각각의 공기 어휘 빈도를 통계 사전으로부터 획득하는 것을 특징으로 한다.The statistical information acquiring unit may obtain a frequency of a related word of a vocabulary expressed together with a neutral vocabulary and a surrounding context, and each of these air vocabulary frequencies from a statistical dictionary.
다른 목적을 달성하기 위한 본 발명의 제 1 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 방법은 문장이 입력되면 품사 태깅을 수행하고 분석된 문장에서 중의성 어휘를 선별하는 단계;한국어 어휘의미망을 이용하여 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어를 추출하는 단계;어휘들 사이의 연관성을 통계적으로 분석하기 위한 통계 정보를 획득하는 단계;어휘간 연관성을 분석하여 해당 어휘의 의미를 구분하여 어의 중의성이 해소된 문장을 출력하는 단계;를 포함하는 것을 특징으로 한다.According to a first aspect of the present invention, there is provided a method of resolving a word's neutrality using a Korean vocabulary meaning network, comprising: performing part-of-speech tagging when a sentence is input and selecting a neutral vocabulary from the analyzed sentence; Extracting the relational words of the neutral vocabulary and the vocabulary appearing in the surrounding context using the vocabulary meaning network; obtaining statistical information for statistically analyzing the association between the vocabularies; And outputting a sentence in which the significance of the word is resolved by dividing the meaning.
그리고 상기 중의성 어휘의 선별은 해당 어휘가 한국어 어휘의미망에서 적어도 2개의 동의어 집합(synonym set)을 가지는지의 여부를 기준으로 수행하는 것을 특징으로 한다.The selection of the neutral vocabulary may be performed based on whether the corresponding vocabulary has at least two synonym sets in the Korean vocabulary network.
그리고 상기 관계어는,해당 어휘의 상위어,하위어,형제어,동의어를 포함하는 것을 특징으로 한다.The relational word may include a higher word, a lower word, a type control, and a synonym of the corresponding vocabulary.
그리고 상기 통계 정보는,중의성 어휘와 주변 문맥 함께 나타난 어휘의 관계어에 대한 빈도와 이들 각각의 공기 어휘 빈도를 포함하는 것을 특징으로 한다.And the statistical information, characterized in that it comprises a frequency for the relative words of the vocabulary appearing together with the neutral vocabulary and the surrounding context and their respective air vocabulary frequency.
그리고 상기 어휘간 연관성을 분석하여 해당 중의성 어휘의 의미를 구분하기 위하여,중의성 어휘의 한국어 관계어와 중의성 주변 문맥에 나타난 어휘의 한국어 관계어를 이용하는 것을 특징으로 한다.Further, in order to classify the meaning of the corresponding neutral vocabulary by analyzing the relationship between the vocabularies, the Korean relation words of the neutral vocabulary and the Korean relation words of the vocabulary appearing in the context around the neutrality are used.
그리고 상기 어휘간 연관성을 분석하여 해당 중의성 어휘의 의미를 구분하기 위하여,중의성 어휘의 영어 관계어와 중의성 주변 문맥에 나타난 어휘의 영어 관계어를 이용하는 것을 특징으로 한다.In addition, in order to distinguish the meaning of the corresponding neutral vocabulary by analyzing the relationship between the vocabularies, the English relation words of the neutral vocabulary and the English relation words of the vocabulary appearing in the context around the neutrality are used.
그리고 상기 어휘간 연관성을 분석하여 해당 중의성 어휘의 의미를 구분하기 위하여,중의성 어휘의 바로 위의 상하위어만 이용하거나 그 이상의 상하위어까지 이용하는 것을 특징으로 한다.And in order to distinguish the meaning of the corresponding neutral vocabulary by analyzing the relationship between the vocabulary, it is characterized by using only the upper and lower words above or above the upper and lower words.
그리고 상기 어휘간 연관성을 분석하여 해당 중의성 어휘의 의미를 구분하기 위하여 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어를 이용함에서 관계어의 관계어까지 이용하는 것을 특징으로 한다.In addition, in order to distinguish the meaning of the corresponding neutral vocabulary by analyzing the relationship between the vocabularies, the relation words of the neutral vocabulary and the vocabulary shown in the surrounding context are used.
또 다른 목적을 달성하기 위한 본 발명의 제 2 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치는 한국어 어휘의미망을 이용하여 중의성 어휘를 선별하는 전처리부;중의성 어휘 종류를 판단하고 형태/의미/통사 정보 및 선택 제약 정보를 추출하고 관계어를 추출하여 어휘를 확장하는 제 1 중의성 어휘 처리부;상기 확장된 어휘간 연관성을 분석하여 중의성 어휘의 의미를 선택하는 연관성 분석부;상기 연관성 분석부의 분석 결과에 따라 공기 어휘를 중심으로 중의성 어휘 종류를 판단하고 형태/의미/통사 정보 및 선택 제약 정보를 추출하고 관계어를 추출하여 어휘를 확장하는 과정을 반복하는 제 2 중의성 어휘 처리부;를 포함하는 것을 특징으로 한다.According to a second aspect of the present invention, there is provided an apparatus for resolving neutrality of a word using a Korean vocabulary meaning network, including: a preprocessor for selecting a neutral vocabulary using a Korean vocabulary meaning network; A first neutrality vocabulary processor for determining and extracting form / meaning / syntax information and selection constraint information and extracting a relational word to expand a vocabulary; an association analysis for selecting a meaning of a neutral vocabulary by analyzing correlations between the extended vocabularies A second step of determining a type of neutral vocabulary based on an air vocabulary, extracting form / meaning / syntax information, selection constraint information, and extracting a relational word based on an analysis result of the correlation analysis unit and extending the vocabulary; And a neutral vocabulary processing unit.
여기서, 상기 전처리부는,한국어 어휘의미망에서 적어도 2개의 동의어 집합(synset)을 가지는지의 여부를 기준 또는 세종전자사전에서 적어도 2개의 표제 어 구획을 가지는지의 여부를 기준으로 중의성 어휘를 선별하는 것을 특징으로 한다.Here, the preprocessor selects a neutral vocabulary based on whether or not it has at least two synonyms in the Korean vocabulary network or based on whether it has at least two headings in the Sejong Electronic Dictionary. Characterized in that.
그리고 상기 제 1 중의성 어휘 처리부는,중의성 어휘가 체언인지 용언인지를 판단하는 제 1 어휘 종류 판단부와,중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출하고, 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출하는 제 1 정보 추출부와,한국어 어휘의미망(KorLex)를 이용하여 제 1 정보 추출부에서 추출한 어휘의 관계어를 추출하고, KorLex와 세종전자사전의 매핑 정보를 이용하여 제 1 정보 추출부에서 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출하여 어휘를 확장하는 제 1 어휘 확장부를 포함하는 것을 특징으로 한다.The first neutral vocabulary processing unit includes a first vocabulary type determination unit for determining whether the neutral vocabulary is a word or a verb, and if the neutral vocabulary is 'word', each type / neutral vocabulary in the Sejong Electronic Dictionary A first information extraction unit for extracting vocabulary appearing in semantic / syntactic information, and extracting the arguments appearing in the selection constraint information for each meaning of the neutral vocabulary in the Sejong electronic dictionary if the neutral vocabulary is 'word', and the Korean vocabulary meaning network (KorLex) is used to extract the relational words of the vocabulary extracted by the first information extraction unit, and KorLex synonyms (synset) corresponding to the arguments extracted by the first information extraction unit using the mapping information of KorLex and Sejong Electronic Dictionary. And extracting the first vocabulary extension unit to expand the vocabulary.
그리고 상기 제 2 중의성 어휘 처리부는,중의성 어휘가 체언인지 용언인지를 판단하는 제 2 어휘 종류 판단부와,중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출하고, 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출하는 제 2 정보 추출부와,한국어 어휘의미망(KorLex)를 이용하여 제 2 정보 추출부에서 추출한 어휘의 관계어를 추출하고, KorLex와 세종전자사전의 매핑 정보를 이용하여 제 2 정보 추출부에서 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출하여 어휘를 확장하는 제 2 어휘 확장부를 포함하는 것을 특징으로 한다.The second neutral vocabulary processing unit may include a second vocabulary type determination unit determining whether the neutral vocabulary is a word or a verb, and if the neutral vocabulary is 'word', each type of neutral vocabulary in the Sejong Electronic Dictionary A second information extraction unit for extracting vocabulary appearing in semantic / syntactic information, and extracting the argument appearing in the optional constraint information for each meaning of the neutral vocabulary in the Sejong electronic dictionary if the neutral vocabulary is 'word', and the Korean vocabulary meaning network (KorLex) is used to extract the relational words of the vocabulary extracted by the second information extraction unit, and KorLex synonyms (synset) corresponding to the arguments extracted by the second information extraction unit using the mapping information of KorLex and Sejong Electronic Dictionary. And extracting the second vocabulary expansion unit to expand the vocabulary.
그리고 상기 관계어는 중의성 어휘의 상위어, 하위어, 동의어, 형제어를 포함하는 것을 특징으로 한다.The relational words may include upper words, lower words, synonyms, and siblings of the neutral vocabulary.
또 다른 목적을 달성하기 위한 본 발명의 제 2 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 방법은 입력된 문장에서 중의성 어휘를 선별하고 중의성 어휘의 종류를 판단하는 단계;중의성 어휘의 종류에 따라 형태/의미/통사 정보에 나타나는 어휘, 선택제약 정보에 나타나는 논항을 추출하는 단계;형태/의미/통사 정보에 나타나는 어휘를 추출한 경우에는 한국어 어휘의미망을 이용하여 추출한 어휘의 관계어를 추출하고, 논항을 추출한 경우에는 논항과 대응되는 한국어 어휘의미망의 동의어 집합(synset)을 추출하여 어휘를 확장하는 단계;추출된 어휘간의 연관성을 분석하여 어의 중의성이 해소된 문장을 출력하는 단계;를 포함하는 것을 특징으로 한다.According to a second aspect of the present invention, there is provided a method for resolving neutrality of a word using a Korean vocabulary meaning network, comprising: selecting a neutral word from an input sentence and determining the type of the neutral word; Extracting the vocabulary appearing in the form / meaning / syntactic information and the argument appearing in the optional constraint information according to the type of sexual vocabulary; if the vocabulary appearing in the form / meaning / syntax information is extracted using the Korean vocabulary meaning network Extracting a relational word and extracting a term, and expanding a vocabulary by extracting a synonym synonym of the Korean vocabulary meaning network corresponding to the argument; analyzing a relationship between the extracted vocabulary and resolving the significance of the word Outputting; characterized in that it comprises a.
여기서, 상기 중의성 어휘 선별은 한국어 어휘의미망에서 적어도 2개의 동의어 집합(synset)을 갖는지의 여부를 기준으로 하거나, 세종전자사전에서 적어도 2개의 표제어 구획을 가지는지의 여부를 기준으로 진행하는 것을 특징으로 한다.Here, the selection of the neutral vocabulary is based on whether or not there are at least two synonyms in the Korean vocabulary network, or based on whether or not the semantic vocabulary has at least two heading divisions. It features.
그리고 중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출하고,중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출하는 것을 특징으로 한다.If the neutral vocabulary is 'word', the Sejong electronic dictionary extracts the vocabulary that appears in the form / meaning / syntactic information for each meaning of the neutral vocabulary.If the neutral vocabulary is 'word', each of the neutral vocabulary in the Sejong electronic dictionary It is characterized by extracting arguments appearing in the selection constraint information for each meaning.
그리고 상기 형태/의미/통사 정보에 나타나는 어휘를 추출한 경우에는 한국어 어휘의미망(KorLex)을 이용하여 추출한 어휘의 상위어, 하위어, 동의어, 형제어 를 추출하여 어휘 확장을 하고, 논항을 추출한 경우에는 한국어 어휘의미망(KorLex)과 세종전자사전의 매핑 정보를 이용하여 추출한 논항과 대응되는 한국어 어휘의미망(KorLex)의 동의어 집합(synset)을 추출하여 어휘를 확장하는 것을 특징으로 한다.In the case of extracting the vocabulary appearing in the form / meaning / syntax information, the vocabulary extension is extracted by extracting the upper words, lower words, synonyms, and sibling words of the extracted vocabulary using the Korean Lexical Meaning Network (KorLex). It is characterized by extending the vocabulary by extracting a synonym of the Korean vocabulary meaning network (KorLex) corresponding to the extracted argument using the Korean vocabulary meaning network (KorLex) and mapping information of the Sejong Electronic Dictionary.
그리고 추출된 어휘간의 연관성을 분석하는 단계에서,상기 추출한 중의성 어휘별 리스트와 공기 어휘 간 일치하는 어휘 수로 점수로 매긴 다음 점수가 높은 중의성 어휘의 의미를 선택하는 것을 특징으로 한다.And in the step of analyzing the relationship between the extracted vocabulary, it is characterized by scoring the number of words matched between the extracted neutral vocabulary list and the air vocabulary, and then select the meaning of the neutral vocabulary with a high score.
그리고 추출된 어휘간의 연관성을 분석하는 단계에서 계산한 중의성 어휘의 의미별 점수가 일치한다면, 공기 어휘를 기준으로 중의성 어휘 종류를 판단하고 형태/의미/통사 정보 및 선택 제약 정보를 추출하고 관계어를 추출하여 어휘를 확장하는 과정을 반복하는 것을 특징으로 한다.And if the scores of the semantic vocabulary calculated in the step of analyzing the association between the extracted vocabulary coincide, the type of the neutral vocabulary is determined based on the air vocabulary, the form / meaning / syntactic information and the selection constraint information are extracted and related. It is characterized by repeating the process of extracting words to expand the vocabulary.
이와 같은 본 발명에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체는 다음과 같은 효과를 갖는다.The apparatus and method for resolving the neutrality of words using the Korean vocabulary meaning network according to the present invention and a recording medium recording a program therefor have the following effects.
첫째, 어의 중의성이 문제가 되는 기계번역과 정보검색과 같은 여러 응용분야에서 어의 중의성 해소 문제를 해결할 수 있어 각 응용분야에서 높은 성능의 시스템을 개발할 수 있다.First, it is possible to solve the problem of disambiguation of language in various applications such as machine translation and information retrieval where language importance is a problem, so that a high-performance system can be developed in each application field.
둘째, 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘의 관계어를 추출하고 나서 이들 간의 공기 여부를 판단하여 어의 중의성 해소를 하는 것에 의해 정확 성을 높일 수 있다.Second, it is possible to improve the accuracy by extracting the related words of the vocabulary appearing around the neutral vocabulary and the neutral vocabulary, and then determining the presence or absence of air between them.
셋째, 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘를 확장할 때 관계어를 이용하는 방법을 적용하는 것에 의해 어의 중의성 수단의 구축 시간, 비용 측면에서 유리하다.Third, it is advantageous in terms of construction time and cost of the neutrality means of words by applying the method of using relational words when extending the vocabulary appearing around the neutral and neutral words.
넷째, 어의 중의성을 한국어 어휘 의미망을 이용하여 해소할 수 있도록 하여 실제 응용 프로그램에 적용하기 용이하다.Fourth, it is easy to apply the actuality of the application program by using the Korean lexical semantic network.
다섯째, ‘세종전자사전’의 여러 정보(선택제약, 합성어 형성 정보, 전체어, 부분어, 단위 표현)를 활용하여 부적절한 의미를 제거하는 것에 의해 중의성 해소의 정확성을 높일 수 있다.Fifth, it is possible to improve the accuracy of neutralization by removing inappropriate meanings by using various information (selective pharmaceutical, compound word formation information, whole words, partial words, unit expressions) of the Sejong Electronic Dictionary.
이하, 본 발명에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체의 바람직한 실시예에 관하여 상세히 설명하면 다음과 같다.Hereinafter, a preferred embodiment of a device and method for resolving speech neutrality using a Korean vocabulary meaning network according to the present invention and a recording medium recording a program therefor will be described in detail.
본 발명에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체의 특징 및 이점들은 이하에서의 각 실시예에 대한 상세한 설명을 통해 명백해질 것이다.The features and advantages of the apparatus and method for resolving speech neutrality using the Korean vocabulary meaning network according to the present invention and the recording medium recording the program therefor will be apparent from the detailed description of each embodiment below.
본 발명은 제 1 실시예에 따른 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘의 관계어를 추출하고 나서 이들 간의 공기 여부를 통계적으로 판단하여 중의성 어휘의 어의 중의성을 해소하는 것에 관한 방법과, 제 2 실시예에 따른‘세종전자사전’의 여러 정보(선택제약, 합성어 형성 정보, 전체어, 부분어, 단위 표현)를 활용하여 부적절한 의미를 제거하는 방법을 포함한다.The present invention relates to resolving the neutrality of the neutral vocabulary by extracting the related words of the neutral vocabulary and the vocabulary appearing around the neutral vocabulary according to the first embodiment and then statistically determining whether there is air between them. The method and a method of removing inappropriate meanings by using various information (selection constraint, compound word formation information, full word, partial word, unit expression) of the 'Sejong Electronic Dictionary' according to the second embodiment.
(제 1 실시예)(First embodiment)
도 1a와 도 1b는 본 발명의 제 1 실시예에 따른 어의 중의성 해소 장치의 구성도 및 어의 중의성 해소를 위한 방법을 나타낸 플로우차트이다.1A and 1B are flowcharts illustrating a configuration diagram of a neutral neutralization device of a fish and a method for neutralization of a fish according to a first embodiment of the present invention.
본 발명의 제 1 실시예에서는 한국어 문장에서 나타나는 어의 중의성을 해소하고자 한국어 어휘의미망을 이용하여 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘를 확장할 때, 관계어를 이용하는 방법을 포함한다.A first embodiment of the present invention includes a method of using a relational word when extending a vocabulary appearing around a neutral vocabulary and a neutral vocabulary using a Korean vocabulary meaning network to resolve the significance of a word that is represented in a Korean sentence. do.
이는 좋은 성능을 보이는 대규모의 의미 부착 말뭉치를 이용한 감독 중의성 해소 방법의 비용 및 구축 시간 소용 문제를 해결하고, 비감독 중의성 해소 방법의 성능 저하 문제를 동시에 해결할 수 있도록 한다.This solves the problem of cost and construction time use of the supervised neutralization method using a large-scale semantic corpus that shows good performance, and simultaneously solves the performance degradation problem of the non-supervised neutralization method.
본 발명의 제 1 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치는 중의성 어휘와 주변 문맥에 함께 나타나는 어휘 간 연관성을 이용하여 중의성 어휘의 의미를 구분할 때, 중의성 어휘의 관련어와 주변 문맥에 나타난 어휘의 관련어를 이용하여 문장에서 사용된 중의성 어휘의 의미를 구분하는 수단을 포함한다.According to the first embodiment of the present invention, the apparatus for resolving the neutrality of a word using the Korean vocabulary meaning network uses a relationship between a neutral word and a vocabulary appearing in a surrounding context to distinguish the meaning of the neutral word. Means for distinguishing the meaning of the neutral vocabulary used in a sentence using the related word of the related word and the vocabulary appearing in the surrounding context.
본 발명의 제 1 실시예에 따른 어의 중의성 해소 장치의 구성은 도 1a에서와 같다.The structure of the neutral neutralizing device for fish according to the first embodiment of the present invention is the same as in FIG. 1A.
먼저, 한국어 어휘의미망을 이용한 어의 중의성 해소 장치는 어의 중의성을 해결하고자 하는 문장을 입력받는 문장 입력부(11)와, 입력된 문장에 대한 형태소 분석과 품사 중의성 해소를 수행하고 중의성 어휘를 선별하는 전처리부(12)와, 한국어 어휘의미망을 이용하여 중의성 어휘와 주변 문맥에 함께 나타난 어휘의 관계어를 추출하는 어휘 확장부(13)와, 확장한 어휘를 이용하여 기구축한 통계 사전으로부터 통계 정보를 획득하는 통계 정보 획득부(14)와, 획득한 통계 정보를 이용하여 중의성 어휘의 의미를 구분하는 어의 선택부(15)와, 어의 중의성이 해소된 문장을 출력하는 문장 출력부(16)를 포함한다. First, the apparatus for resolving verbality of speech using the Korean vocabulary meaning network performs a
이와 같은 구성을 갖는 본 발명의 제 1 실시예에 따른 어의 중의성 해소 장치에서의 어의 중의성 해소 과정은 다음과 같다.The neutralization process of the fish in the neutralization solution for fish according to the first embodiment of the present invention having such a configuration is as follows.
도 1b에서와 같이, 문장이 입력되면(S101), 한국어 품사 태거를 이용하여 품 사 태깅을 수행하고(S102) 분석된 문장에서 중의성 어휘를 선별한다.(S103)As shown in FIG. 1B, when a sentence is input (S101), the part-of-speech tagging is performed using the Korean part-of-speech tagger (S102) and the neutral vocabulary is selected from the analyzed sentence.
그리고 한국어 어휘의미망을 이용하여 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어(상위어, 하위어, 형제어, 동의어)를 추출한다.(S104)In addition, the relational words (upper words, lower words, siblings, synonyms) between the neutral vocabulary and the surrounding context are extracted using the Korean vocabulary meaning network (S104).
이어, 어휘들 사이의 연관성을 통계적으로 분석하기 위한 통계 정보를 획득한다.(S105)Subsequently, statistical information for statistically analyzing the association between the words is obtained.
그리고 어휘간 연관성을 분석하여(S106) 해당 어휘의 의미를 구분하여 어의 중의성이 해소된 문장을 출력한다.(S107)In addition, the correlation between the words is analyzed (S106), and the meanings of the corresponding words are classified to output a sentence in which the significance of the word is eliminated.
여기서, 중의성 어휘와 주변 문맥에 나타난 어휘 간 연관성을 분석할 때, 중의성 어휘의 한국어 관계어(상위어, 하위어, 형제어, 동의어)와 중의성 주변 문맥에 나타난 어휘의 한국어 관계어(상위어, 하위어, 형제어, 동의어)를 이용한다.Here, when analyzing the relationship between the neutral vocabulary and the vocabulary appearing in the surrounding context, the Korean relational words (upper words, lower words, siblings, synonyms) of the neutral vocabulary and the Korean relational words of the vocabulary appearing in the context surrounding the neutrality (parent words) , Subwords, siblings, and synonyms).
그리고 중의성 어휘와 주변 문맥에 나타난 어휘 간 연관성을 분석할 때, 중의성 어휘의 영어 관계어(상위어, 하위어, 형제어, 동의어)와 중의성 주변 문맥에 나타난 어휘의 영어 관계어(상위어, 하위어, 형제어, 동의어)를 이용한다.And when analyzing the relationship between the neutral vocabulary and the vocabulary appearing in the surrounding context, the English relational words (upper, lower words, siblings, synonyms) of the neutral vocabulary and the English relational words (parent), Subwords, siblings, and synonyms).
그리고 중의성 어휘와 주변 문맥에 나타난 어휘 간 연관성을 분석할 때, 중의성 어휘의 상위어와 하위어를 이용함에서 바로 위의 상하위어만 이용하거나 그 이상의 상하위어까지 이용한다.And when analyzing the relationship between the neutral vocabulary and the vocabulary that appears in the surrounding context, the upper and lower words of the neutral vocabulary are used, or the upper and lower words are used.
그리고 중의성 어휘와 주변 문맥에 나타난 어휘 간 연관성을 분석할 때, 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어를 이용함에서 관계어의 관계어까지 이용할 수 있다.And when analyzing the relationship between the neutral vocabulary and the vocabulary expressed in the surrounding context, the relational word of the neutral vocabulary and the vocabulary expressed in the surrounding context can be used.
이와 같은 본 발명에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장 치의 각 구성 블록들의 동작을 더 구체적으로 설명한다.The operation of the respective building blocks of the device for resolving the neutrality of words using the Korean vocabulary meaning network according to the present invention will be described in more detail.
먼저, 전처리부(102)는 문장 입력부(11)를 통해 입력된 문장에 대하여 한국어 품사 태거를 이용하여 품사 태깅(part-of-speech tagging)을 수행한다. 품사 태깅이란 자연언어를 분석하는 방법의 하나로, 형태소나 어절의 품사 중의성을 없애는 작업이다.First, the preprocessor 102 performs part-of-speech tagging on a sentence input through the
품사 태깅이 끝나면 분석된 문장에서 중의성 어휘를 선별한다. 중의성 어휘의 선별 기준은 해당 어휘가 한국어 어휘의미망에서 2개 이상의 신셋(synonym set, 동의어 집합)을 가지는지의 여부이다.After the part-of-speech tagging, the neutral vocabulary is selected from the analyzed sentences. The criterion for selecting a neutral vocabulary is whether the vocabulary has two or more synonyms in the Korean vocabulary network.
그리고 어휘 확장부(103)는 한국어 어휘 의미망을 이용하여 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어(상위어, 하위어, 형제어, 동의어)를 추출한다. 한국어 어휘 의미망은 프린스턴 대학의 WordNet을 참조 모델로 구축한 것으로 특정 어휘의 상위어, 하위어, 형제어, 동의어 관계를 알 수 있다. 또한, WordNet과 같은 신셋 번호를 사용하기 때문에 특정 어휘의 대역어를 알 수 있다. The lexical expansion unit 103 extracts the relational words (upper words, lower words, siblings, synonyms) of the neutral vocabulary and the vocabulary appearing in the surrounding context using the Korean vocabulary semantic network. The Korean vocabulary semantic network is built on Princeton University's WordNet as a reference model, and it shows the relationship between upper, lower, sibling and synonyms of a specific vocabulary. In addition, because it uses a synthesized number such as WordNet, it is possible to know a band word of a specific vocabulary.
한국어 어휘의미망은 의미를 기준으로 표현되기 때문에 중의성 어휘에 대해서도 의미에 따라 다른 개념 관계를 표현한다.Since the Korean vocabulary meaning is expressed based on meaning, it expresses different conceptual relations even for neutral vocabulary.
예를 들어, ‘사과’의 경우 ‘사과2’(22)와 ‘사죄2 사과1’(32)로 의미별로 개념 관계가 표현된다. ‘사과2’는 ‘사과나무의 열매’를 뜻하는 것으로 ‘실과1 과일1(21)’을 상위어로 가지고, ‘돌능금(23)’을 하위어로 가지며, ‘낙과1’과 같은 여러 형제어(24)를 가진다. 형제어는 자신과 같은 상위어를 가지는 어휘이다.For example, in the case of 'apple', conceptual relationships are expressed by meaning as 'apple 2' (22) and 'apology 2 apple 1' (32). 'Apple 2' means 'fruit of the apple tree' and has '
반면에 ‘사죄2 사과1’은 ‘자기의 잘못을 인정하고 용서를 빎’을 뜻하는 것으로 ‘인지(31)’를 상위어로 가지고, 하위어는 가지지 않으며(33), ‘작별1 안녕1’과 같은 여러 형제어(34)를 가진다.On the other hand, 'apology 2 apology 1' means 'acknowledgment of one's fault and forgiveness of forgiveness', which has 'cognition (31)' as a higher word and no lower word (33), Have the same
한국어 어휘의미망의 각 신셋은 WordNet과 같은 신셋 번호를 가지므로 한국어 어휘의미망과 WordNet을 이용하여 특정 어휘의 대역어를 획득할 수 있다. Since each set of the Korean lexical semantic network has the same set number as WordNet, it is possible to obtain a band word of a specific lexicon using the Korean lexical semantic network and WordNet.
‘사과2’(22)는 ‘apple1’(42)과 연결되고, 상위어 ‘실과1 과일1(21)’은 ‘fruit1'(41)과 연결되고, ‘돌능금(23)’은 ‘Crabapple3’과 연결된다. 또한, ‘berry1'과 같은 영어 형제어(44)도 획득 가능하다.'Apple 2' (22) is connected to 'apple1' (42), the upper word '
이처럼 어휘 확장부(13)에서는 특정 어휘의 한국어 상위어, 한국어 하위어, 한국어 형제어, 한국어 동의어, 영어 상위어, 영어 하위어, 영어 형제어, 영어 동의어를 획득하여 어휘를 확장한다.In this way, the
다음으로, 통계 정보 획득부(14)에서는 어휘 확장부(13)에서 확장한 어휘에 대한 통계 정보를 기구축한 통계 사전으로부터 획득한다. 이 통계 정보는 두 어휘 사이의 연관성을 통계적으로 분석하는 데 이용된다.Next, the statistical
중의성 어휘의 어의는 주변 문맥에 나타난 공기 어휘와 강한 연관성을 가진다. 따라서, 문장 내에서 중의성 어휘가 나타나면 주변 문맥에 함께 나타난 어휘가 무엇인지에 따라 중의성 어휘의 의미를 구분할 수 있다.The semantics of the neutral vocabulary are strongly related to the air vocabulary shown in the surrounding context. Therefore, when a neutral vocabulary appears in a sentence, the meaning of the neutral vocabulary can be distinguished according to what the vocabulary appears in the surrounding context.
계량언어학에서 두 어휘의 공기(co-occurrence) 여부를 측정하는 가장 일반적인 방법은 가설 검정(hypothesis testing)을 이용하는 것이다. 가설 검정이란 통계량을 이용해 가설 진위를 밝히는 통계분석방법이다.In quantitative linguistics, the most common way to measure the co-occurrence of two words is to use hypothesis testing. Hypothesis testing is a statistical analysis that uses statistics to reveal the truth of hypotheses.
가설 검정을 이용하여 두 어휘의 공기 여부를 측정하려면 다음과 같이 검정해야 할 가설을 설정하여야 한다.To measure the presence or absence of air in two vocabulary using the hypothesis test, the hypothesis to be tested should be set as follows.
가설 1은 의 출현과 어휘 의 출현이 상호독립적이라는 것을 뜻하고, 가설 2는 의 출현이 어휘 의 출현에 종속적이라는 것을 뜻한다. 이때, 가설 1이 가설 검정의 대상이 되는데 이 가설을 귀무가설(null hypothesis)이라고 한다.
반면 가설 2는 귀무가설이 기각되었을 때 받아들여지는 가설로써 대립가설(alternative hypothesis)이라고 한다. 가설 검정에 의해 가설 1이 기각되면 가설 2가 받아들여지고 의 출현이 어휘 의 출현에 종속적이라는 것이 된다.Hypothesis 2, on the other hand, is an alternative hypothesis that is accepted when the null hypothesis is rejected. If
본 발명에서는 가설 검정을 위한 여러 방법 중에 likelihood ratio를 이용한 가설 검정 방법을 사용한다. Likelhood ratio는 통계치보다 좀 더 해석이 직관적이다.In the present invention, a hypothesis testing method using likelihood ratio is used among several methods for hypothesis testing. Likelhood ratio is More intuitive than statistics.
즉, 하나의 가설이 다른 가설보다 얼마나 더 가능성이 있는지를 보여준다. 또한, likelihood ratio를 이용한 가설 검정은 -test 보다 자료 부족 문제에 더 강하다.That is, it shows how much more likely one hypothesis is than another hypothesis. In addition, the hypothesis test using likelihood ratio Stronger for data shortages than -test
, 를 각각 어휘 ,의 출현 빈도라고 하고 를 두 어휘의 공기 빈도라고 할 때, 확률 는 최대 우도 추정(maximum likelihood estimation)에 의해 다음과 같이 구한다. , Each vocabulary , Is the frequency of appearance of When is the air frequency of two vocabularies, the probability Is obtained by the maximum likelihood estimation as follows.
이때, 은 원시말뭉치의 전체 어절 수이다.At this time, Is the total word count of the primitive corpus.
Likelihood ratio 는 전체 모수 공간상의 maximum likelihood 함수값에 대한 가설에 따라 표현되는 일부 공간(subspace)상의 maximum likelihood 함수값의 비율로써 다음과 같이 표현된다.Likelihood ratio Is the ratio of the maximum likelihood function value in some subspace expressed according to the hypothesis of the maximum likelihood function value in the overall parameter space.
이때, 는 모수 공간 의 한 점(point)이고 는 가설에 따라 표현되는 일부 공간이다. Likelihood ratio의 중요한 특징은 가 점근적으로 분포를 따른다는 것이다. 특히, 이항분포에서 이 점근선은 매우 빠르게 접근하게 된다.At this time, Parameter space Is a point of Is some space represented by the hypothesis. An important feature of the Likelihood ratio Gradually It follows the distribution. In particular, in the binomial distribution, this asymptote is very fast.
수학식 3은 이항분포 에서 수학식 4로 변환될 수 있다.Equation 3 is binomial distribution It can be converted into equation (4) in.
실제로 가설 1과 가설 2에서, In fact, in
상기와 같이 는 자유도가 1인 분포를 따르고 가설 1의 기각 여부를 결정짓는 판단 근거로서 분포를 사용할 수 있다.As above Has 1 degree of freedom As a basis for judgment that follows the distribution and determines whether to dismiss
즉, 분포에서 유의수준이 0.005이고 자유도가 1일 때, 임계값(critical value)은 7.88이므로 가 7.88 이상이 되면 가설은 기각되고, 두 어휘는 연관성을 가진 어휘로 판별된다.In other words, When the significance level in the distribution is 0.005 and the degree of freedom is 1, the critical value is 7.88. If is equal to or greater than 7.88, the hypothesis is rejected and the two vocabularies are identified as related vocabularies.
수학식 6의 계산을 위해 통계 정보 획득부(14)에서는 중의성 어휘와 주변 문맥 함께 나타난 어휘의 관계어에 대한 빈도와 이들 각각의 공기 어휘 빈도를 통계 사전으로부터 획득한다.In order to calculate the equation (6), the statistical
그리고 어의 선택부(15)에서는 통계 정보 획득부(14)에서 획득한 통계 정보를 바탕으로 수학식 6을 계산한다. 수학식 6은 도 5에서와 같이 어휘 간 연관성을 통계적으로 분석하려는 것이다.In addition, the
도 5에서 ‘사과를 먹다’라는 문장(51)은 ‘사과’라는 중의성 어휘를 포함하고 있다. In FIG. 5, the sentence 51 'to eat an apple' includes a neutral vocabulary of 'apple'.
‘사과’는 ‘apple’(52)과 ‘apology’(53)라는 두 가지 의미로 해석될 수 있는데 ‘사과’의 의미별 관계어와 주변 문맥 간의 연관성을 분석하여 ‘사과’의 의미를 구분할 수 있다. 도 5에서 ‘과일을 먹다’, ‘복숭아를 먹다’, ‘귤을 먹다’는 의미상으로 연관성을 가지지만(54), ‘인지를 먹다’, ‘사의를 먹다’, ‘감사를 먹다’, ‘사죄를 먹다’, ‘거절을 먹다’는 의미상으로 연관성이 없다(55). 'Apple' can be interpreted in two meanings: 'apple' (52) and 'apology' (53), and the meaning of 'apple' can be distinguished by analyzing the relationship between the semantic relation of the apple and the surrounding context. . In Figure 5, 'eat fruit', 'eat peach', 'eat tangerine' is meaningfully related (54), 'eat cognition', 'eat sake', 'eat thanks', It is irrelevant in the sense of `` to eat apology '' and `` to refuse '' (55).
중의성 어휘를 포함한 문장에서 중의성 어휘와 함께 나타나는 주변 어휘는 한 개 이상이다.There is more than one peripheral vocabulary that appears with a neutral vocabulary in sentences that contain a neutral vocabulary.
중의성 어휘 과 주변 문맥 내 공기 어휘 의 를 라고 할 때, 의 관계어 에 의해 은 다음과 같다고 가정한다.A neutral vocabulary Air vocabulary in and surrounding context of To When I say Relative By Assume that
도 6은 수학식 7을 바탕으로‘사과를 한 개 먹었다’를 분석한 결과이다. 중의성 어휘‘사과’의 각 의미와 주변에 함께 나타난 어휘 ‘한’, ‘개’, ‘먹다’의 관계어를 한국어 어휘의미망을 통하여 추출하고, 그들의 통계 정보를 통계 사전으로부터 획득하여 수학식 7을 계산한다. 그 결과 도 6의 문장에서 ‘사과(apple)’와 연관성 있는 어휘의 수는 3개이고, '사과(appology)'와 연관성 있는 어휘의 수는 1개이므로, 본 문장에서 중의성 어휘 ‘사과’의 의미를 ‘apple’로 구분할 수 있다.Figure 6 is the result of analyzing the "ate one apple" based on the equation (7). The meaning of the Chinese word 'Apple' and the related words 'Han', 'Dog', and 'Eat' appear together in Korean vocabulary, and their statistical information is obtained from a statistical dictionary. Calculate 7. As a result, in the sentence of FIG. 6, the number of words related to 'apple' is three and the number of words related to 'appology' is one. The meaning can be distinguished by 'apple'.
이와 같은 본 발명의 제 1 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법은 한국어 어휘 의미망을 이용하여 중의성 어휘와 중의성 어휘의 주변에 나타난 어휘의 관계어(상위어, 하위어, 형제어, 동의어)를 추출하고 나서 이들 간의 공기 여부를 판단하여 어의 중의성 해소를 한다.The apparatus and method for resolving the neutrality of words using the Korean vocabulary meaning network according to the first embodiment of the present invention are related words of the vocabulary appearing around the neutral vocabulary and the neutral vocabulary using the Korean vocabulary semantic network. , Subwords, siblings, and synonyms), and then judges whether there is air between them and resolves the neutrality of the words.
(제 2 실시예)(Second embodiment)
이하에서 본 발명의 제 2 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법에 관하여 설명한다.Hereinafter, an apparatus and method for resolving neutrality of words using the Korean vocabulary meaning network according to the second embodiment of the present invention will be described.
도 7a와 도 7b는 본 발명의 제 2 실시예에 따른 어의 중의성 해소 장치의 구 성도 및 어의 중의성 해소를 위한 방법을 나타낸 플로우차트이다.7A and 7B are flowcharts showing the composition of the neutral neutralization device for fish according to the second embodiment of the present invention and a method for neutralization of the fish.
도 8은 세종전자사전의 정보를 이용한 어의 중의성 해소를 위한 비교 테이블이고, 도 9는 세종전자사전의 의미 부류 체계의 구성도이다.FIG. 8 is a comparison table for resolving neutrality of words using information of the Sejong electronic dictionary, and FIG. 9 is a block diagram of a semantic classification system of the Sejong electronic dictionary.
본 발명의 제 2 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 방법은‘세종전자사전’의 여러 정보(선택제약, 합성어 형성 정보, 전체어, 부분어, 단위 표현)를 이용하여 부적절한 의미를 제거할 수 있도록 한 어의 중의성 해소 방법을 포함한다.The method of resolving the neutrality of a word using the Korean vocabulary meaning network according to the second embodiment of the present invention uses various information (selective constraint, compound word formation information, whole word, partial word, unit expression) of 'Sejong Electronic Dictionary'. Includes ways to eliminate neutrality of a word so that inappropriate meanings can be removed.
그리고 선택적으로 상기에서의 제 1 실시예의 어휘의 관계어(상위어, 하위어, 형제어, 동의어)를 추출하고 이들 간의 공기 여부를 판단하여 어의 중의성 해소하는 방법을 더 포함한다.And optionally extracting relational words (upper words, lower words, sibling words, synonyms) of the vocabulary according to the first embodiment, and determining whether there is air between them and further eliminating the neutrality of the words.
본 발명의 제 2 실시예에 따른 어의 중의성 해소 장치는 도 7a에서와 같이, 어의 중의성을 해결하고자 하는 문장을 입력받는 문장 입력부(71)와, 한국어 어휘의미망에서 적어도 2개의 동의어 집합(synset)을 가지는지의 여부를 기준, 세종전자사전에서 적어도 2개의 표제어 구획을 가지는지의 여부를 기준으로 중의성 어휘를 선별하는 전처리부(72)와, 중의성 어휘 종류를 판단하고 형태/의미/통사 정보 및 선택 제약 정보를 추출하고 관계어를 추출하여 어휘를 확장하는 제 1 중의성 어휘 처리부(700)와, 어휘간 연관성을 분석하여 중의성 어휘의 의미를 선택하는 연관성 분석부(76)와, 연관성 분석부(76)에서 선택한 어의 중의성이 해소된 어휘를 출력하는 문장 출력부(77)와, 상기 연관성 분석부(76)의 분석 결과에 따라 공기 어휘를 중심으로 중의성 어휘 종류를 판단하고 형태/의미/통사 정보 및 선택 제약 정보 를 추출하고 관계어를 추출하여 어휘를 확장하는 과정을 반복하고 결과를 연관성 분석부(76)로 출력하는 제 2 중의성 어휘 처리부(710)를 포함한다. According to a second embodiment of the present invention, the apparatus for resolving the neutrality of words, as shown in FIG. 7A, includes a
여기서, 제 1 중의성 어휘 처리부(700)는 중의성 어휘가 체언인지 용언인지를 판단하는 제 1 어휘 종류 판단부(73)와, 중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출하고, 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출하는 제 1 정보 추출부(74)와, 한국어 어휘의미망(KorLex)를 이용하여 제 1 정보 추출부(74)에서 추출한 어휘의 관계어(상위어, 하위어, 동의어, 형제어)를 추출하고, KorLex와 세종전자사전의 매핑 정보를 이용하여 제 1 정보 추출부(74)에서 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출하여 어휘를 확장하는 제 1 어휘 확장부(75)를 포함한다.Here, the first neutral
그리고 제 2 중의성 어휘 처리부(710)는 중의성 어휘가 체언인지 용언인지를 판단하는 제 2 어휘 종류 판단부(78)와, 중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출하고, 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출하는 제 2 정보 추출부(79)와, 한국어 어휘의미망(KorLex)를 이용하여 제 2 정보 추출부(79)에서 추출한 어휘의 관계어(상위어, 하위어, 동의어, 형제어)를 추출하고, KorLex와 세종전자사전의 매핑 정보를 이용하여 제 2 정보 추출부(79)에서 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출하여 어휘를 확장하는 제 2 어휘 확장부(80)를 포함한다.The second neutral
이와 같은 구성을 갖는 본 발명의 제 2 실시예에 따른 어의 중의성 해소 장치에서의 어의 중의성 해소 과정은 다음과 같다.The process for eliminating the neutrality of the fish in the neutral elimination device of the fish according to the second embodiment of the present invention having such a configuration is as follows.
도 7b에서와 같이, 문장이 입력되면(S701), 한국어 품사 태거를 이용하여 품사 태깅을 수행하고(S702) 분석된 문장에서 중의성 어휘를 선별한다.(S703)As shown in FIG. 7B, when a sentence is input (S701), the part-of-speech tagging is performed using the Korean part-of-speech tagger (S702) and the neutral vocabulary is selected from the analyzed sentence.
중의성 어휘 선별은 한국어 어휘의미망에서 적어도 2개의 동의어 집합(synset)을 가지는지의 여부를 기준, 세종전자사전에서 적어도 2개의 표제어 구획을 가지는지의 여부를 기준으로 진행한다.Neutral vocabulary selection proceeds based on whether the Korean vocabulary network has at least two synonyms, and whether the Sejong Electronic Dictionary has at least two heading divisions.
그리고 중의성 어휘가 체언인지 용언인지를 판단한다.(S704)Then, it is determined whether the neutral vocabulary is a verb or a verb (S704).
만약, 중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출한다.(S705)If the neutral vocabulary is 'word', the vocabulary appearing in the form / meaning / syntax information is extracted for each meaning of the neutral vocabulary in the Sejong electronic dictionary.
그리고 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출한다.(S706)If the neutral vocabulary is 'word', then the sejong electronic dictionary extracts the arguments appearing in the selection constraint information for each meaning of the neutral vocabulary (S706).
이와 같이 S705 단계에서의 정보 추출이 이루어지면 KorLex를 이용하여 추출한 어휘의 관계어(상위어, 하위어, 동의어, 형제어)를 추출하고, S706 단계에서의 정보 추출이 이루어지면 KorLex와 세종전자사전의 매핑 정보를 이용하여 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출한다.(S707)In this way, when information extraction is performed in step S705, a relational word (upper word, sub-word, synonym, sibling) of the extracted vocabulary is extracted using KorLex, and when information extraction is performed in step S706, KorLex and Sejong electronic dictionary are extracted. A synonym set of KorLex corresponding to the extracted argument is extracted using the mapping information (S707).
그리고 어휘 간 연관성 분석하는데, 상기 추출한 중의성 어휘별 리스트(논항은 대응되는 신셋의 하위어 집합)와 공기 어휘 간 일치하는 어휘 수로 점수로 매긴 다음 점수가 높은 중의성 어휘의 의미를 선택하여(S708), 어의 중의성이 해소된 문장을 출력한다.(S709)Then, the relationship between the vocabulary is analyzed, scored by the number of words matched between the extracted list of neutral vocabulary (an item is a set of subwords of the corresponding synset) and the air vocabulary, and then the meaning of the neutral vocabulary having a high score is selected (S708). ), And outputs a sentence in which the significance of the word is removed (S709).
만약, 상기 S708 단계에서 계산한 중의성 어휘의 의미별 점수가 일치한다면, 공기 어휘를 기준으로 중의성 어휘가 체언인지 용언인지를 판단한다.(S710)If the scores of the semantic vocabulary calculated in step S708 coincide with each other, it is determined based on the air vocabulary whether the neutral vocabulary is spoken or used.
만약, 중의성 어휘가 '체언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 형태/의미/통사 정보에 나타나는 어휘를 추출한다.(S711)If the neutral vocabulary is 'word', Sejong electronic dictionary extracts the vocabulary appearing in the form / meaning / syntactic information for each meaning of the neutral vocabulary (S711).
그리고 중의성 어휘가 '용언'이라면 세종전자사전에서 중의성 어휘의 각 의미별로 선택제약 정보에 나타나는 논항을 추출한다.(S712)If the neutral vocabulary is 'word', the Sejong Electronic Dictionary extracts the argument appearing in the selection constraint information for each meaning of the neutral vocabulary (S712).
이와 같이 S705 단계에서의 정보 추출이 이루어지면 KorLex를 이용하여 추출한 어휘의 관계어(상위어, 하위어, 동의어, 형제어)를 추출하고, S706 단계에서의 정보 추출이 이루어지면 KorLex와 세종전자사전의 매핑 정보를 이용하여 추출한 논항과 대응되는 KorLex의 동의어 집합(synset)을 추출한다.(S713)In this way, when information extraction is performed in step S705, a relational word (upper word, sub-word, synonym, sibling) of the extracted vocabulary is extracted using KorLex, and when information extraction is performed in step S706, KorLex and Sejong electronic dictionary are extracted. A synonym set of KorLex corresponding to the extracted argument is extracted using the mapping information (S713).
그리고 어휘 간 연관성 분석하는데, 상기 추출한 중의성 어휘별 리스트(논항은 대응되는 신셋의 하위어 집합)와 공기 어휘 간 일치하는 어휘 수로 점수로 매긴 다음 점수가 높은 중의성 어휘의 의미를 선택하여(S708), 어의 중의성이 해소된 문장을 출력한다.(S709)Then, the relationship between the vocabulary is analyzed, scored by the number of words matched between the extracted list of neutral vocabulary (an item is a set of subwords of the corresponding synset) and the air vocabulary, and then the meaning of the neutral vocabulary having a high score is selected (S708). ), And outputs a sentence in which the significance of the word is removed (S709).
이와 같은 본 발명의 제 2 실시예에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법은 사전에서 중의성 어휘의 의미별 형태/통사/의미 정보에 나타난 어휘와 공기 어휘 간(혹은 그 반대) 일치하는 어휘 수를 근거로 어의 중의성을 해소하는 기술과, 한국어 어휘의미망을 이용하여 형태/통사/의미 정보에 나타나는 어휘를 확장하여 일치하는 어휘 수를 근거로 어의 중의성 해소하는 기술을 갖는다.The apparatus and method for resolving the neutrality of words using the Korean vocabulary meaning network according to the second embodiment of the present invention provide a method for resolving between the vocabulary and the air vocabulary indicated in the form / syntax / meaning information for each semantic word in the dictionary. Contrary to the resolution of the word's importance based on the number of matching vocabulary and the expansion of the words appearing in the form / syntax / meaning information using the Korean vocabulary network. To have a skill.
또한, 세종전자사전의 논항 정보를 어의 중의성 해소에 이용함에서 논항을 한국어 어휘의미망의 신셋과 매핑하면 신셋의 하위어들과 공기 어휘 간 일치하는 어휘 수를 근거로 어의 중의성을 해소하는 기술을 포함한다.In addition, by using the dispute information of Sejong electronic dictionary to resolve the significance of the word, mapping the argument with the new set of the Korean vocabulary meaning network eliminates the word's importance based on the number of vocabulary words matching the subwords of the set and the air vocabulary. It includes technology to do.
그리고 세종전자사전은 1998년부터 2007년까지 10년간 진행된 ‘21세기 세종 계획’의 결과물로서 총 60만 항목으로 구성되어 있다. 세종전자사전은 XML 형식으로 기술되어 있으며, 품사마다 그 구조가 다르다.The Sejong Electronic Dictionary consists of 600,000 items as a result of the '21st Century Sejong Plan' conducted for 10 years from 1998 to 2007. The Sejong electronic dictionary is described in XML format, and its parts are different in structure.
체언은 용언과 함께 문장을 구성하는 핵심적인 요소로서 보통명사, 고유명사, 의존명사, 분류사, 대명사, 수사 등으로 구분된다. 그러나 세종전자사전의 체언 사전은 보통명사에 속하는 어휘들을 기술대상으로 하였다.A verb is a key element of a sentence along with a verb, which is divided into common nouns, proper nouns, dependent nouns, classifiers, pronouns, and rhetoric. However, the dictionary of sejong electronic dictionaries used vocabulary belonging to common nouns.
용언은 이론 언어학에서든 구문분석에든, 하나의 절의 구조를 분석함에서 가장 핵심적인 역할을 한다. 절 내에 몇 개의 논항이 필요한가, 각 논항은 어떤 표지(격표지, 보문소 등)를 달고 나타나는가, 각 논항 위치에 올 수 있는 명사는 어떤 의미 부류이어야 하는가 등의 핵심 사항을 대부분 용언이 결정한다.Proverbs play a key role in analyzing the structure of a clause, whether in theoretical linguistics or syntactic analysis. Most verbs determine the key points, such as how many arguments are needed in a section, what signs (such as a cover letter, a bulletin board, etc.) appear, and what kind of meaning the nouns can be placed in each argument position.
예컨대, 대표적 중의성 술어인 동사 ‘타다’로 구성된 다음 문장에서 동사 ‘타다’의 의미를 파악하기 위해서는 목적어 논항의 의미가 결정적인 역할을 한다.For example, the meaning of the object argument plays a decisive role in grasping the meaning of the verb “tada” in the next sentence composed of the verb “tada”, which is a representative neutrality predicate.
ㄱ. 철수가 지하철을 탔다.A. Bob took the subway.
ㄴ. 철수가 가야금을 탔다.N. Withdrawal of gayageum.
ㄷ. 철수가 커피를 탔다.C. Bob rode coffee.
즉, '타다'의 의미는 목적어 논항이 '교통기관'인지, '악기'인지, 혹은 '음 료'인지에 따라 각각 '이용하다/오르다', '연주하다', '준비하다' 등으로 구분된다.In other words, the meaning of ride is divided into 'use / rise', 'play', 'preparation', etc., depending on whether the object argument is 'transportation', 'instrument', or 'drink'. do.
따라서, '타다'의 의미를 정확히 파악하여 문장의미를 올바르게 해석하려면 동사 '타다'의 의미에 따른 논항선택제약- 즉 논항의 의미유형 -을 정밀하고 명시적으로 일고 있어야 할 뿐 아니라, 논항명사들 각각의 의미에 대해서도 정밀하고 명시적으로 알고 있어야 한다.Therefore, to correctly understand the meaning of 'ta' and interpret the meaning of the sentence correctly, not only must there be a precise and explicit description of the argument selection constraint according to the meaning of the verb 'ta', that is, the meaning of the argument. You also need to know precisely and explicitly about each meaning.
이를 위해 세종전자사전의 체언 사전과 용언 사전은 다음과 같은 정보로 구성되어 있다.To this end, the Sejong Electronic Dictionary and the Dictionary of Words and Verbs are composed of the following information.
(체언 사전) (Message dictionary)
동형어, 파생어 형성, 합성어 형성, 형용사 결합 정보, 명사 결합 정보, 동사 결합 정보, 조사 제약 등Isomorphism, derivative formation, compound word formation, adjective combination information, noun combination information, verb combination information, investigation constraints, etc.
(용언 사전)(Word dictionary)
동형어, 파생어 형성, 합성어 형성, 형용사 결합 정보, 명사 결합 정보, 동사 결합 정보, 조사 제약 등Isomorphism, derivative formation, compound word formation, adjective combination information, noun combination information, verb combination information, investigation constraints, etc.
이하에서 본 발명의 제 2 실시예에 따른 세종전자사전의 정보를 이용한 어의 중의성 해소에 관하여 더 구체적으로 설명한다.Hereinafter, the neutrality of the fish using information of the Sejong electronic dictionary according to the second embodiment of the present invention will be described in more detail.
중의성 어휘는 의미에 따라 서로 다른 형태/의미/통사 정보를 가지기 때문에 세종전자사전의 체언 정보와 용언 정보를 이용하여 어의 중의성 해소를 수행할 수 있다.Since the neutral vocabulary has different forms / meanings / syntactics information according to the meaning, it is possible to solve the neutrality of the word by using the message information and the verb information of the Sejong electronic dictionary.
도 8은 대표적인 중의성 어휘인 ‘사과’에 대한 정보를 세종정보사전에서 추출하여 각 정보를 ‘사과’의 의미에 따라 비교한 것이다.FIG. 8 extracts information about a representative Chinese word 'apple' from the Sejong Information Dictionary and compares each information according to the meaning of 'apple'.
예를 들어,‘사과가 달다’나‘사과가 시다’혹은‘사과 한 알’,‘사과 한 개’등의 문장에서‘사과’의 의미를 구분하려면‘사과’와 함께 나타난 공기 어휘 ‘달다',‘시다',‘알’, ‘개’ 등이‘사과’의 특정 의미의 형태/의미/통사 정보에서 나타났는지 확인하면 된다. For example, to distinguish the meaning of 'apple' in sentences such as 'apple is sweet', 'apple is sour' or 'apple one', 'apple one', etc. This can be done by verifying that 'shall', 'egg', 'dog', etc. appear in the form / meaning / syntactic information of a specific meaning of 'apple'.
이와 같이 중의성 어휘 자체의 의미별 형태/의미/통사 정보를 이용하여 중의성 해소를 할 수 있지만, 반대로 중의성 어휘의 공기 어휘의 형태/의미/통사 정보를 이용하여 중의성 해소를 수행할 수 있다.In this way, neutrality can be resolved using the shape / meaning / syntactic information of the neutral vocabulary itself, but on the contrary, neutrality can be resolved using the shape / meaning / syntax information of the air vocabulary of the neutral vocabulary. have.
예를 들어, ‘사과가 붉다’라는 문장에서 ‘사과’의 의미를 구분하고자 할 때, ‘사과’의 정보를 기준으로 하는 것이 아니라 ‘붉다’를 기준으로 하여 ‘붉다’의 형태/의미/통사 정보에 ‘사과’가 나타나는지를 확인하면 된다.For example, when trying to distinguish the meaning of 'apple' in the sentence 'apple is red', the form / meaning / syntactic of 'red' is based on 'red' rather than on 'apple' information. This can be done by checking if the apple appears in the information.
그러나 이와 같은 방법의 단점은 이 방법이 문자열 비교를 기반으로 한다는 것이다. 즉, 중의성 어휘와 함께 나타난 공기 어휘 간의 정확한 일치를 통해 중의성 어휘의 의미를 결정하기 때문에 자료 부족 문제를 일으킬 수 있다.The disadvantage of this method, however, is that it is based on string comparisons. In other words, the exact match between the neutral vocabulary and the air vocabulary that appears with the neutral vocabulary can cause data shortage problems.
예를 들어, ‘사과가 뻘겋다’라는 문장에서 공기 어휘 ‘ 뻘겋다’는 세종전자사전의 ‘사과1’의 형태/의미/통사 정보에서 확인할 수 없어서 ‘사과’의 의미를 구분할 수가 없다.For example, in the sentence “Apple is’ 다 ”, the air vocabulary“ 뻘겋다 ”cannot be identified in the form / meaning / syntax information of“
하지만, 실제로 ‘뻘겋다’는 ‘빨갛다’의 변이형으로써 같은 의미를 지닌다. 따라서, 세종전자사전의 형태/의미/통사 정보에 나오는 어휘를 확장한다면 위와 같은 자료 부족 문제를 해결할 수 있다. 이때, 어휘의 확장을 위해 KorLex를 사 용한다. However, '뻘겋다' is actually a variation of 'red' and has the same meaning. Therefore, if you expand the vocabulary in the form / meaning / syntactic information of the Sejong electronic dictionary, you can solve the problem of lack of data. In this case, KorLex is used to expand the vocabulary.
세종전자사전과 KorLex 간 매핑은 형태/의미/통사 정보에서 나타나는 어휘의 확장을 위해서도 중요하지만, 용언 사전의 선택 제약 정보를 어의 중의성 해소에 이용하기 위해서도 중요하다.The mapping between the Sejong electronic dictionary and KorLex is important for the expansion of the vocabulary in the form / meaning / syntactic information, but it is also important to use the choice constraint information of the dictionary to resolve the significance of the word.
선택 제약이란 문장 안에서 두 어휘가 공기(共起)할 때 나타나는 제약이다. Choice constraints are constraints that occur when two words are in a sentence.
예를 들어, ‘죽다’라는 단어는 그 쓰임이 ‘생물’에 한하고 ‘사망하다’라는 단어는 그 쓰임이 ‘사람’에 한하는 것처럼 두 어휘가 의존 관계를 맺을 때 의미상의 모순이 없도록 하는 제약이다. For example, the word 'death' is used only for 'creature' and the word 'death' is used to ensure that there are no semantic contradictions when two vocabulary depend upon it, such as its use only for 'man'. It is a constraint.
세종전자사전의 용언 사전에는 이러한 선택 제약 정보가 약 3만 개의 의미 단위 용언에 대해 구축되어 있다. 예를 들어, ‘붉다’를 세종전자사전에서 찾아보면 In the dictionary of Sejong electronic dictionaries, such selection constraint information is constructed for about 30,000 semantic unit verbs. For example, if you look for `` red '' in the Sejong electronic dictionary,
<선택_제약 arg="X" tht="THM">구체물|현상</선택_제약> 이라는 선택제약 정보를 가진다는 것을 알 수 있다. 하지만, 이 정보를 그대로 이용하기에는 무리가 있다. 왜냐하면, 선택제약 정보에서 용언의 논항(위의 예에서는 ‘구체물’, ‘논항’)을 세종 전자 사전의 의미 부류(semantic class) 체계를 이용하여 나타내기 때문이다.It can be seen that it has selection constraint information called <selection_constraint arg = "X" tht = "THM"> sphere | phenomena </ selection_constraint>. However, it is impossible to use this information as it is. This is because, in the optional constraint information, arguments of verbs (in the example above, 'concrete' and 'controversy') are represented using the semantic class system of the Sejong Electronic Dictionary.
세종 전자 사전의 구축에 사용되는 세종 의미 부류 체계는 한국어 어휘들이 표상하는 의미 영역을 엄격하고 정밀하게 분할하고, 각 의미 영역에 대해 이를 공유하는 어휘들과 해당 의미 영역의 정의에 근거가 되는 어휘들을 함께 묶어 놓은 위계적 어휘ㆍ의미 분류 체계이다.The Sejong semantic class system used in constructing Sejong electronic dictionaries strictly and precisely divides the semantic domain represented by Korean vocabulary, and uses the vocabulary based on the definition of the semantic domain and the vocabulary shared for each semantic domain. It is a hierarchical system of hierarchical vocabulary and semantics tied together.
즉, 도 9에서와 같이 한국어 어휘들이 표상하는 의미 영역을 크게 <구체물>, <집단>, <장소>, <추상적 대상>, <사태> 등 다섯 가지의 대부류로 나눈 다음, 각각에 대해 점진적인 의미 분할을 시도하여 예를 들어 <구체물> 중 <자연음식물>의 경우, <채소>, <생선>, <육류>, <과일>, <곡식>, <견과류> 등과 같이 더 세밀한 의미 영역을 갖는 부류들로 나누어 놓은 것이 세종 의미 부류 체계이다.That is, as shown in FIG. 9, the semantic domain represented by the Korean vocabulary is divided into five major classes such as <concrete>, <group>, <place>, <abstract object>, and <event>. For example, in the case of <Natural Food> out of <Concrete>, more detailed semantic areas such as <Vegetable>, <Fish>, <Meat>, <Fruit>, <Grain>, <Nuts>, etc. It is divided into three groups with the Sejong semantic classification system.
세종 의미 부류는 또한 최상위 노드를 기점으로 최소 2층위에서 최대 7층위까지의 깊이를 갖는 위계적 구조를 갖는다. 2007년도에 최종 공개된 세종 전자사전에서 체언은 동형이의어 수준에서 25,458개의 표제어가 세종 의미부류에 따라 35,854개의 의미로 구분되어 있다. 하지만, 이것 역시 문자열 일치를 기반으로 하는 어의 중의성 해소에서는 자료 부족 문제를 일으킬 수밖에 없다.The Sejong semantic class also has a hierarchical structure with a depth of at least two stories up to seven stories above the top node. In the Sejong Electronic Dictionary, which was released in 2007, 25,458 headings are divided into 35,854 meanings according to the Sejong semantic category. However, this also causes data shortage problems in resolving the neutrality of words based on string matching.
반면에, 세종 의미부류와 매핑이 되는 KorLex는 명사에 대해 90,134개의 신셋(synonym set)과 102,358개의 어의(word meaning)를 포함하고 있으며, 최대 17층위까지의 깊이를 갖는 위계적 구조를 갖는 방대한 한국어 명사 어휘의미망이다. 따라서, 세종 전자 사전의 의미 부류 체계와 KorLex를 매핑함으로써 세종전자사전의 선택제약 정보 활용을 극대화할 수 있다.On the other hand, KorLex, which maps to the Sejong semantic class, contains 90,134 synonym sets and 102,358 word meanings for nouns, with a massive hierarchy with a depth of up to 17 levels. Korean noun vocabulary. Therefore, by mapping the semantic class system of the Sejong electronic dictionary and KorLex, it is possible to maximize the utilization of the selection constraint information of the Sejong electronic dictionary.
이상에서 설명한 본 발명에 따른 한국어 어휘의미망을 이용한 어의 중의성 해소 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다.The method for resolving the neutrality of a word using the Korean lexical meaning network according to the present invention described above can be embodied as computer readable codes on a computer readable recording medium.
예를 들어, 컴퓨터가 읽을 수 있는 기록매체에는 문장이 입력되면 품사 태깅을 수행하고 분석된 문장에서 중의성 어휘를 선별하는 단계와, 한국어 어휘의미망 을 이용하여 중의성 어휘와 주변 문맥에 나타난 어휘의 관계어를 추출하는 단계와,어휘들 사이의 연관성을 통계적으로 분석하기 위한 통계 정보를 획득하는 단계와,어휘간 연관성을 분석하여 해당 어휘의 의미를 구분하여 어의 중의성이 해소된 문장을 출력하는 단계를 실행시키기 위한 프로그램이 기록된다.For example, in a computer-readable recording medium, when a sentence is input, a part-of-speech tagging is performed and a neutral vocabulary is selected from the analyzed sentence. Extracting a relational word of a word, acquiring statistical information for statistically analyzing the relationship between the vocabularies, and analyzing the relationship between the words to classify the meanings of the vocabulary, The program for executing the outputting step is recorded.
또한, 컴퓨터가 읽을 수 있는 기록매체에는 입력된 문장에서 중의성 어휘를 선별하고 중의성 어휘의 종류를 판단하는 단계와,중의성 어휘의 종류에 따라 형태/의미/통사 정보에 나타나는 어휘, 선택제약 정보에 나타나는 논항을 추출하는 단계와,상기 형태/의미/통사 정보에 나타나는 어휘를 추출한 경우에는 한국어 어휘의미망을 이용하여 추출한 어휘의 관계어를 추출하고, 논항을 추출한 경우에는 논항과 대응되는 한국어 어휘의미망의 동의어 집합(synset)을 추출하는 단계와,추출된 어휘간의 연관성을 분석하여 어의 중의성이 해소된 문장을 출력하는 단계를 실행시키기 위한 프로그램이 기록된다.In addition, the computer-readable recording medium may include selecting the neutral vocabulary from the input sentence and determining the type of the neutral vocabulary, the vocabulary appearing in the form / meaning / syntax information according to the type of the neutral vocabulary, and the selection constraint. Extracting a term appearing in the information, and extracting a related term of the extracted vocabulary using a Korean vocabulary network in case of extracting a vocabulary appearing in the form / meaning / syntactic information; A program for executing a step of extracting a synonym synonym of a vocabulary meaning network, and outputting a sentence in which the word significance is resolved by analyzing the association between the extracted vocabulary is recorded.
컴퓨터가 읽을 수 있는 기록매체에 기록되는 프로그램은 상기한 내용으로 한정되는 것이 아니고, 본 발명의 다중 입출력 통신 시스템에서의 비트 할당 방법의 실시예에 따른 방법의 실행을 위한 다른 내용들이 포함될 수 있음은 당연하다.The program recorded on the computer-readable recording medium is not limited to the above description, but may include other contents for the execution of the method according to the embodiment of the bit allocation method in the multi-input / output communication system of the present invention. Of course.
컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결 된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.Computer-readable recording media include all kinds of recording devices that store data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like, which are also implemented in the form of carrier waves (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
이상 설명한 내용을 통해 당업자라면 본 발명의 기술 사상을 일탈하지 아니하는 범위에서 다양한 변경 및 수정이 가능함을 알 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention.
따라서, 본 발명의 기술적 범위는 실시예에 기재된 내용으로 한정되는 것이 아니라 특허 청구의 범위에 의하여 정해져야 한다.Therefore, the technical scope of the present invention should not be limited to the contents described in the embodiments, but should be defined by the claims.
도 1a와 도 1b는 본 발명의 제 1 실시예에 따른 어의 중의성 해소 장치의 구성도 및 어의 중의성 해소를 위한 방법을 나타낸 플로우차트1A and 1B are flowcharts showing the construction of the neutralization device of a fish and the method for neutralization of a fish according to the first embodiment of the present invention.
도 2는 본 발명에 사용되는 한국어 어휘의미망으로부터 추출한 ‘사과2'의 한국어 어휘 확장 예시도Figure 2 is an example of the expansion of the Korean vocabulary of 'apple 2' extracted from the Korean vocabulary meaning network used in the present invention
도 3은 본 발명에 사용되는 한국어 어휘의미망으로부터 추출한 ‘사과1'의 한국어 어휘 확장 예시도3 is an example of expanding the Korean vocabulary of 'apple 1' extracted from the Korean vocabulary meaning network used in the present invention
도 4는 본 발명에 사용되는 한국어 어휘의미망으로부터 추출한 ‘사과1'의 영어 어휘 확장 예시도4 is an example of expanding the English vocabulary of 'apple 1' extracted from the Korean vocabulary meaning network used in the present invention
도 5는 본 발명이 적용되는 어의 중의성 해소를 위해 중의서 어휘의 각 의미와 주변에 함께 나타난 어휘 사이의 관계를 나타내는 예시도5 is an exemplary view showing the relationship between each meaning of the Chinese-language vocabulary and the vocabulary appearing together in order to solve the neutrality of the language to which the present invention is applied.
도 6은 본 발명에 따른 한국어 어휘의미망으로부터 추출한 관계어를 이용하여 중의성 어휘와 주변 문맥에 함께 나타난 어휘 사이의 공기 여부를 나타내는 도표6 is a diagram showing whether there is air between a neutral vocabulary and a vocabulary that appear together in a surrounding context by using a relational word extracted from the Korean vocabulary meaning network according to the present invention.
도 7a와 도 7b는 본 발명의 제 2 실시예에 따른 어의 중의성 해소 장치의 구성도 및 어의 중의성 해소를 위한 방법을 나타낸 플로우차트7A and 7B are flowcharts showing the construction of the neutralization device of a fish and the method for neutralization of a fish according to the second embodiment of the present invention.
도 8은 세종전자사전의 정보를 이용한 어의 중의성 해소를 위한 비교 테이블8 is a comparison table for solving the neutrality of the fish using the information of the Sejong electronic dictionary
도 9는 세종전자사전의 의미 부류 체계의 구성도9 is a block diagram of a semantic classification system of the Sejong electronic dictionary
도면의 주요 부분에 대한 부호의 설명Explanation of symbols for the main parts of the drawings
11. 문장 입력부 12. 전처리부11. Sentence
13. 어휘 확장부 14. 통계 정보 획득부13.
15. 어의 선택부 16. 문장 출력부15. Selection of
Claims (26)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090074650A KR101070371B1 (en) | 2009-08-13 | 2009-08-13 | Apparatus and Method for Words Sense Disambiguation Using Korean WordNet and its program stored recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090074650A KR101070371B1 (en) | 2009-08-13 | 2009-08-13 | Apparatus and Method for Words Sense Disambiguation Using Korean WordNet and its program stored recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110017129A true KR20110017129A (en) | 2011-02-21 |
KR101070371B1 KR101070371B1 (en) | 2011-10-05 |
Family
ID=43775242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090074650A KR101070371B1 (en) | 2009-08-13 | 2009-08-13 | Apparatus and Method for Words Sense Disambiguation Using Korean WordNet and its program stored recording medium |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101070371B1 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101495240B1 (en) * | 2013-07-12 | 2015-02-25 | 부산대학교 산학협력단 | Method and system for statistical context-sensitive spelling correction using confusion set |
KR101626711B1 (en) * | 2015-02-16 | 2016-06-01 | 울산대학교 산학협력단 | Apparatus and method for korean morphological analysis training context information within user corpus |
KR20170025424A (en) | 2015-08-28 | 2017-03-08 | 한국과학기술원 | Paraphrase sentence generation method for a korean language sentence |
KR102037453B1 (en) * | 2018-11-29 | 2019-10-29 | 부산대학교 산학협력단 | Apparatus and Method for Numeral Classifier Disambiguation using Word Embedding based on Subword Information |
KR20190123093A (en) * | 2018-04-23 | 2019-10-31 | 부산대학교 산학협력단 | System and Method for Automated Emoticon Recommendation based on Emotion Ontology |
KR20220057040A (en) | 2020-10-29 | 2022-05-09 | 충북대학교 산학협력단 | Sense vocabulary clustering method for word sense disambiguation and recording medium thereof |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102152900B1 (en) * | 2020-02-24 | 2020-09-07 | 주식회사 엘솔루 | Method and apparatus for processing data whth ambiguous syllabl |
-
2009
- 2009-08-13 KR KR1020090074650A patent/KR101070371B1/en active IP Right Grant
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101495240B1 (en) * | 2013-07-12 | 2015-02-25 | 부산대학교 산학협력단 | Method and system for statistical context-sensitive spelling correction using confusion set |
KR101626711B1 (en) * | 2015-02-16 | 2016-06-01 | 울산대학교 산학협력단 | Apparatus and method for korean morphological analysis training context information within user corpus |
KR20170025424A (en) | 2015-08-28 | 2017-03-08 | 한국과학기술원 | Paraphrase sentence generation method for a korean language sentence |
KR20190123093A (en) * | 2018-04-23 | 2019-10-31 | 부산대학교 산학협력단 | System and Method for Automated Emoticon Recommendation based on Emotion Ontology |
KR102037453B1 (en) * | 2018-11-29 | 2019-10-29 | 부산대학교 산학협력단 | Apparatus and Method for Numeral Classifier Disambiguation using Word Embedding based on Subword Information |
KR20220057040A (en) | 2020-10-29 | 2022-05-09 | 충북대학교 산학협력단 | Sense vocabulary clustering method for word sense disambiguation and recording medium thereof |
Also Published As
Publication number | Publication date |
---|---|
KR101070371B1 (en) | 2011-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abujar et al. | A heuristic approach of text summarization for Bengali documentation | |
KR101070371B1 (en) | Apparatus and Method for Words Sense Disambiguation Using Korean WordNet and its program stored recording medium | |
CN103399901A (en) | Keyword extraction method | |
KR20160026892A (en) | Non-factoid question-and-answer system and method | |
Jha et al. | Homs: Hindi opinion mining system | |
CN110727796A (en) | Multi-scale difficulty vector classification method for graded reading materials | |
JP2011118689A (en) | Retrieval method and system | |
Alami et al. | Automatic texts summarization: Current state of the art | |
Espinosa-Anke et al. | Applying dependency relations to definition extraction | |
Malik et al. | Text mining life cycle for a spatial reading of Viet Thanh Nguyen's The Refugees (2017) | |
Dung | Natural language understanding | |
Chifu et al. | A system for detecting professional skills from resumes written in natural language | |
Ilyas et al. | Plagiarism detection using natural language processing techniques | |
Ketui et al. | A rule-based method for thai elementary discourse unit segmentation (ted-seg) | |
Fudholi et al. | Ontology-based information extraction for knowledge enrichment and validation | |
Doan et al. | A semantic framework for extracting taxonomic relations from text corpus. | |
Alemu et al. | A corpus-based word sense disambiguation for geez language | |
Zuhori et al. | Ontological knowledge extraction from natural language text | |
Tran et al. | A model of vietnamese person named entity question answering system | |
İlgen et al. | Building up lexical sample dataset for Turkish word sense disambiguation | |
Sunitha et al. | Automatic summarization of Malayalam documents using clause identification method | |
Baradaran et al. | Event Extraction from Classical Arabic Texts. | |
Kaur et al. | Keyword extraction for punjabi language | |
Mussa et al. | Word sense disambiguation on english translation of holy quran | |
Al-Arfaj et al. | Arabic NLP tools for ontology construction from Arabic text: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160923 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20170712 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20180919 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20190709 Year of fee payment: 9 |