KR100328963B1 - Korean stemming method and device thereof - Google Patents

Korean stemming method and device thereof Download PDF

Info

Publication number
KR100328963B1
KR100328963B1 KR1019980036775A KR19980036775A KR100328963B1 KR 100328963 B1 KR100328963 B1 KR 100328963B1 KR 1019980036775 A KR1019980036775 A KR 1019980036775A KR 19980036775 A KR19980036775 A KR 19980036775A KR 100328963 B1 KR100328963 B1 KR 100328963B1
Authority
KR
South Korea
Prior art keywords
analysis
word
candidate
transition
speech
Prior art date
Application number
KR1019980036775A
Other languages
Korean (ko)
Other versions
KR20000018924A (en
Inventor
양승현
김영섬
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1019980036775A priority Critical patent/KR100328963B1/en
Publication of KR20000018924A publication Critical patent/KR20000018924A/en
Application granted granted Critical
Publication of KR100328963B1 publication Critical patent/KR100328963B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법에 관한 것으로서, 어절내 품사 전이 외에 어절간 품사 전이와 품사 전이 가중치를 하나로 통합한 확장 품사 전이망을 분석 후보의 생성 및 여과에 이용함으로써, 띄붙 오류 어절처럼 띄어쓰기가 비정상적으로 된 어절에서도 분석 후보를 생성해 낼 수 있으며, 각 후보의 적합도를 확장 품사 전이망의 전이 가중치를 이용하여 계산함으로써 올바른 분석 결과를 얻을 수 있음은 물론, 정상적인 어절의 분석 정확도나 분석 속도 등에 영향을 주지 않는 효과를 가진다.The present invention relates to a spacing error-tolerant Korean morpheme analysis method using an extended part-of-speech network, wherein an extended part-of-speech network incorporating the parts-of-speech and part-of-speech weights in addition to intra-word parts is used for generation and filtration of analysis candidates. As a result, analysis candidates can be generated even in a word where the spacing is abnormal as in a word error word. By calculating the suitability of each candidate by using the transition weight of the extended part-of-speech network, it is possible to obtain correct analysis results. It does not affect the analysis accuracy or analysis speed of words.

Description

띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치Korean morphological analysis method and device therefor

본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치에 관한 것으로, 특히 띄어써야 할 어절이 잘못 붙여진 오류, 즉 띄붙 오류가 있는 어절도 분석할 수 있는 수단이 구비된 형태소 분석방법에 관한 것이다.The present invention relates to a spacing error-allowed Korean morphological analysis method and apparatus using an extended part-of-speech network, and in particular, a morphological analysis provided with a means for analyzing a word having a spacing error, that is, a word having a spacing error. It is about a method.

한편, 선행특허로 국내특허 "어절구조 특성을 이용한 형태소 분석 시스템 및 분석방법[권리자 한국전기통신공사, 등록번호 123238, 97.09.11]"과 "빈도 정보를 이용한 형태소 해석 방법[출원인 삼성전자(주), 공개번호 98-004120, 98.03.30]"및 "한글 문장의 형태소 분석방법[출원인 금성사, 공개번호 92-5023, 92.03.28]" 등은 형태소 분석을 위해 사전, 어절 구조 정보, 접속 정보표를 이용한 분석을 함으로써 띄어쓰기가 잘된 일반 어절에 대한 분석만을 하기 때문에 분석 범위가 매우 좁은 문제점이 있었다.On the other hand, as a prior patent, the domestic patent "morphological analysis system and analysis method using the characteristics of the word structure [right holder Korea Telecommunications Corporation, Registration No. 123238, 97.09.11]" and "morphological analysis method using the frequency information [Applicant Samsung Electronics (Note) ), Publication No. 98-004120, 98.03.30] "and" Method of morphological analysis of Korean sentences [Applicant Geumseongsa, Publication No. 92-5023, 92.03.28] ", etc. The analysis using the table only analyzes the well-spaced words, which has a very narrow analysis range.

또한, 선행논문으로 인공지능연구회 학술발표논문집에 게재된 "한국어 철자 오류 교정 시스템[저자 이영식, 채영숙, 윤애선, 권혁철, pp. 25-38, 1993]"은 띄붙 오류를 처리하는 철자 검사기의 구현을 위해 사전을 이용해 형태소를 구분해서 형태소 경계에 공백 문자를 삽입하는 방식을 사용함으로써 띄붙 오류 어절을 원래 어절로 복원할 수 있으나, 단순히 어절을 분리함에 따른 공백을 삽입하는 방법을 사용함으로써 처리시간이 매우 길며, 여러 어절의 띄붙 오류의 처리가 불가능한 문제점이 따른다.In addition, as a precedent paper, "Korean Spelling Correction System [Author Lee Young-sik, Chae Young-sook, Yoon Ae-sun, Kwon, Hyuk-chul, pp. 25-38, 1993]" published in the Journal of AI Research, published an article on the implementation of the spell checker. However, by using a dictionary to insert a space character at the boundary of the stem by dividing the morpheme, the error word can be restored to the original word, but the processing time is very simple by using the method of inserting a space by separating the words. It is long, and there is a problem in that it is impossible to deal with multiple word spacing errors.

종래의 기술에서는 띄어쓰기가 올바른 정상적인 어절만을 분석 대상으로 하고 있으므로 띄붙 오류가 발생하면, 즉 띄어써야 될 두 어절이 붙여 써져서 마치 하나의 어절로 입력되면 분석에 실패한다는 문제점이 있었다.In the prior art, since only normal words with a correct spacing are to be analyzed, when a spacing error occurs, that is, when two words to be spaced are added and written as one word, the analysis fails.

이러한 문제점을 보완하기 위해 종래의 기술에서는 분석에 실패한 경우에 추정을 통해 형태소를 분석하는 방법과 어절 경계를 찾는 방법을 사용하고 있다.In order to solve this problem, the conventional technique uses a method of analyzing morphemes through estimation and finding word boundaries when the analysis fails.

먼저, 추정 방법을 살펴보면 분석에 실패한 어절에 대해 사전에 없는 어휘로 간주하여 인명, 지명 등과 같은 고유명사로 추정하는 방법이 있다.First, in the estimation method, there is a method of estimating a word that has failed to be analyzed as a proper noun such as a person's name or a place name by considering it as a vocabulary that is not in the dictionary.

그러나 예를 들어 "힘좋은엔진을쓰는"과 같이 띄붙 오류가 있어서 분석에 실패한 어절을 "힘좋은엔진을쓰는/고유명사"와 같이 추정하게 된다면 항상 틀린 결과를 얻을 수 밖에 없다.However, if there is a misleading error such as "using a powerful engine", and a word that fails to analyze is estimated as "using a powerful engine / proper noun", there will always be wrong results.

좀더 개선된 추정 방법으로는 조사나 어미 등의 기능어를 실마리로 해서 앞쪽에 오는 문자열은 모두 미지 명사나 미지 동사(혹은 형용사)로 추정하는 방법인데, 이 방법 역시 어절 "힘좋은엔진을쓰는"에 대해 "힘좋은엔진을쓰/명사 + 는/조사"와 같이 무조건 명사로 추정해 버리기 때문에 띄붙 오류의 어절에 대해서는 항상 잘못된 분석 결과를 낼 수밖에 없다.A more advanced estimation method is to use a clue of function words such as surveys and endings to estimate all the first strings as unknown nouns or unknown verbs (or adjectives). Since it is assumed to be a noun such as "a powerful engine, a noun, and a search", it is always necessary to give a false analysis result for the word of the error.

어절 경계 구분법은 입력 어절에 대해 하나의 단위 어절 형성이 될 때까지 분석한 후 나머지 문자열이 남아 있으면 띄붙 오류 어절로 간주하여 그 다음 위치부터 다시 분석을 하는 방법이다.The word boundary classification method analyzes the input word until one unit word is formed, and if the remaining strings remain, it is regarded as an error word and is analyzed again from the next position.

이 방법은 한국어의 특성상 어절내 매 음절 위치마다 하나의 단위 어절이 형성될 수 있으므로 여러 번의 분석 과정을 반복해야 하고, 또 정상적인 어절에도 띄붙 오류 어절인지 아닌지를 판단하기 위해 똑같은 과정을 반복해야 하므로 너무 많은 계산 부하가 걸려 처리의 실시간성을 확보하기 어렵고, 세 어절 이상이 붙은 오류를 처리하기 어려우므로 분석 성공률이 떨어져서 실용적으로 사용하기는 어려운문제점이 따른다.In this method, one unit word can be formed at each syllable position in Korean language, so it is necessary to repeat the analysis process several times, and the same process must be repeated to determine whether it is an error word or not. It is difficult to secure the real-time performance of the processing due to a large computational load, and difficult to deal with errors with more than three words, making it difficult to use practically due to the poor analysis success rate.

상기 문제점을 해결하기 위해 본 발명은, 띄어쓰기 오류가 없는 정상적인 어절은 물론 띄어쓰기/붙여쓰기 오류 어절도 동일한 방법으로 분석해 낼 수 있도록 하는데 그 목적이 있다.In order to solve the above problems, an object of the present invention is to be able to analyze not only normal words without spacing errors but also spacing / pasting error words in the same manner.

본 발명의 또 다른 목적은, 띄어쓰기/붙여쓰기 오류가 있는 어절을 분석하면서도 정상적인 어절만을 분석하는 일반적인 경우와 비교하여 분석 처리 속도의 저하 없이 분석을 수행해서 처리의 실시간성을 확보할 수 있도록 하는데 있다.Another object of the present invention is to ensure the real-time processing of the processing by performing the analysis without a decrease in the analysis processing speed as compared to the general case of analyzing a word with a spacing / pasting error only normal words .

또 다른 목적은, 일반 문서에서 자주 출현하는 띄어쓰기/붙여쓰기 오류 어절을 분석해 냄으로써 분석 실패 어절의 수를 최소화하는데 있다.Another goal is to minimize the number of parse failure words by analyzing spacing / paste error phrases that frequently appear in general documents.

본 발명의 또 다른 목적은, 1차 분석 실패 후에 강제적으로 추정되는 추정 명사의 수를 최소화하는데 있다.Another object of the present invention is to minimize the number of estimated nouns that are forcibly estimated after the first analysis failure.

또 다른 목적은, 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 제공하는데 있다.Another object is to provide human-oriented document processing technology by allowing the author to flexibly create a document without forcing the document creator to observe the spacing principle for the automatic processing of the document.

도 1은 본 발명에 따른 하드웨어 구성도,1 is a hardware block diagram according to the present invention,

도 2는 본 발명이 적용되는 형태소 분석 장치 상의 어절 분석방법 순서도,2 is a flowchart of a word analysis method on a morpheme analysis apparatus to which the present invention is applied;

도 3은 본 발명의 형태소 분석방법의 적용에 이용되는 확장 품사 전이망에 대한 행렬 구조도,3 is a matrix structure diagram of an extended part-of-speech transition network used in the application of the morpheme analysis method of the present invention;

도 4는 본 발명에 따른 한국어 어절의 형태소 분석 예시도.Figure 4 is an illustration of the morpheme analysis of the Korean word in accordance with the present invention.

* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings

10 : 형태소 분석 장치 11 : 사전 저장장치10: stemming device 11: dictionary storage device

12 : 확장 품사 전이망 13 : 문자열 저장장치12: expanded part-of-speech network 13: string storage device

14 : 분석 후보 생성 모듈 15 : 분석 후보 저장장치14: analysis candidate generation module 15: analysis candidate storage device

16 : 적합도 평가 모듈 17 : 결과 여과 모듈16: fitness evaluation module 17: result filtration module

18 : 최종 결과 저장장치 20 : 문자열 입력장치18: Final result storage device 20: String input device

30 : 표시장치30: display device

상기 목적을 달성하기 위해 본 발명은, 띄어써야 할 어절을 붙여 쓴 오류를 처리하기 위한 형태소 분석 장치에 있어서, 문자열 입력장치를 통해 입력된 문자열과 사전 저장장치에 저장된 사전 정보를 비교하여 형태소 분석 후보를 생성하되, 형태소 리스트 생성 과정이 실패하는 경우 다시 한 번 다음 단계에서 수정이나 후보 형태소 리스트 생성을 시도하는 방법이 아닌 정상 어절과 띄어쓰기 오류 어절을 구분하지 않고 1-PASS에 분석하는 형태소 분 석 모듈; 상기 분석된 형태소 분석 후보 중 적합한 분석 후보를 골라 최종 결과를 저장하도록 분석 후보를 여과시키는 결과 여과 모듈을 포함하되, 상기 형태소 분석 모듈에서 정상 어절과 비정상 어절(뜨어쓰기 오류 어절)을 구분하지 않고 1-PASS에 분석을 할 때, 오류 유형이나 사례, 패턴 등을 이용하지 않고 정상 어절과 비정상 어절의 문법적 전이 관계와 가중치가 통합되어 표현된 전이망을 이용함으로써 적어도 2어절 이상이 붙여 써진 경우에도 1-PASS방법으로 분석하는 것을 특징으로 한다.In order to achieve the above object, the present invention provides a morphological analysis apparatus for processing an error with a spaced word, and the candidate for morphological analysis by comparing dictionary information stored in a dictionary storage device with a string input through a string input device. If the stemming list creation process fails, but the stemming analysis module analyzes in 1-PASS without distinguishing between normal words and spacing error words, instead of attempting to modify or create a candidate stem list in the next step. ; And a result filtering module for filtering an analysis candidate to select an appropriate analysis candidate among the analyzed morphological analysis candidates and storing a final result, without distinguishing between normal words and abnormal words (suffix error words) in the morphological analysis module. When analyzing at -PASS, even when at least two words are written by using a transition network expressed by integrating the grammatical transition relationship and weight of normal word and abnormal word without using error type, case and pattern. It is characterized by analyzing by PASS method.

이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명에 따른 하드웨어 구성도로서, 크게 형태소 분석 장치(10)와 문자열 입력장치(20)와 표시장치(30)로 구성된다.1 is a hardware configuration diagram according to the present invention, and is largely composed of a morpheme analysis apparatus 10, a character string input apparatus 20, and a display apparatus 30.

형태소 분석 장치(10)는 상기 문자열 입력장치(20)를 통해 입력된 문자열을 저장하는 문자열 저장장치(13)와, 저장된 문자열과 사전 저장장치(11)에 저장되어 있는 사전 정보를 비교하여 형태소 분석 후보를 생성해내는 분석 후보 생성 모듈(14)과, 분석된 후보 결과를 저장하는 분석 후보 저장장치(15)와, 저장된 분석 후보들에 대해 적합도 평가를 수행하는 적합도 평가 모듈(16)과, 평가 결과에 따라 적합한 분석 후보를 골라주는 결과 여과 모듈(17)과, 여과된 결과를 저장하는 최종 결과 저장장치(18)로 구성되어 있다.The morpheme analysis apparatus 10 compares the string storage device 13 storing the string input through the string input device 20 with the stored information and dictionary information stored in the dictionary storage device 11. An analysis candidate generation module 14 for generating candidates, an analysis candidate storage device 15 for storing analyzed candidate results, a fitness evaluation module 16 for performing a fitness evaluation on stored analysis candidates, and an evaluation result And a result filtration module 17 for selecting suitable analysis candidates, and a final result storage device 18 for storing the filtered results.

먼저 상기 확장 품사 전이망(12)을 도 3의 상세도를 통해 자세히 설명하면 다음과 같다.First, the expanded part-of-speech transition network 12 will be described in detail with reference to FIG. 3.

본 발명에서 품사 전이란 한국어 어절 내에서 한 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내는 정보이며, 이에는 "어절내 전이(intra-word transition)"와 "어절간 전이(inter-word transition)"가 있다.In the present invention, the part-of-speech is information indicating which parts of speech may follow after a part of speech in a Korean word, and includes "intra-word transition" and "inter-word transition". have.

어절내 전이는 정상적인 어절 내에서 어떤 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내고, 어절간 전이는 어절 두개가 붙어서 하나의 어절로 입력되었을 때 선행 어절의 가장 끝 품사 뒤에 후행 어절의 어떤 품사가 뒤따를 수 있는지를 나타내므로 정상적인 어절 내에서는 관측되지 않는 품사 전이이다.In-word transition indicates which part of speech can follow after a part of speech within a normal word, and between parts of a word followed by a part of a trailing word after the last part of the preceding word when two words are entered. It is a part-of-speech transition that is not observed within normal words.

도 3의 확장 품사 전이망에서는 전이 정보를 행렬을 이용해 표현하고 있는데, 각 행은 전이 전 품사를 나타내고 각 열은 전이 후 품사를 나타낸다.In the extended part-of-speech transition network of FIG. 3, transition information is expressed using a matrix, where each row represents a pre-transition part-of-speech and each column represents a post-transition part-of-speech.

행렬값은 행에 해당하는 품사에서 열에 해당하는 품사로 품사 전이가 일어날 수 있는가를 나타내며 전이가 일어날 수 없는 경우에는 -∞로 값이 표시되어 있다.The matrix value indicates whether a part-of-speech transition can occur from a part-of-speech corresponding to a row to a part-of-speech corresponding to a column. If the transition cannot occur, the value is indicated by -∞.

전이가 일어날 수 있는 경우에는 행렬 원소에 정수값으로 "전이 가중치"가 설정되어 있는데, 이 값은 해당 전이가 한국어 어절 형성에 얼마나 적합한지를 수치로 표현한 값이다.When a transition can occur, a "transition weight" is set as an integer value in a matrix element, which is a numerical value expressing how appropriate the transition is for forming Korean words.

원칙적으로 이 값은 해당 품사 전이가 어절내 전이이면, 즉 한국어 단위 어절 형성 원칙에 부합되면 0 이상의 값을, 어절간 전이이면 즉 한국어 단위 어절 형성 원칙에 부합되지는 않지만 어절과 어절이 붙었을 때 일어날 수 있는 전이이면 0 보다 작은 음수 값을 갖도록 구성되는데, 이때 어절내 전이인 경우라도 전이 가능성이 작은 경우에는 가중치가 음수가 될 수도 있다.In principle, this value is equal to or greater than zero if the part-of-speech transition is a word transition, that is, if it conforms to the principle of forming Korean word phrases, or if it is attached to a word without a word between words. If it is a transition that can occur, it is configured to have a negative value less than zero. In this case, even in the case of an intra-word transition, the weight may be negative if the transition probability is small.

상기 전이 가중치가 -∞인 경우에는 어떠한 경우에도 해당 전이가 일어날 수없음을 의미한다.If the transition weight is -∞, it means that no transition can occur in any case.

예를 들어, 도 3의 확장 품사 전이망 행렬에서 (NN, JO)의 행렬값은 1로서, 이것은 어절 내에서 NN(명사) 뒤에 JO(조사) 형태소가 뒤따르는 것이 가능하며 이때 전이 가중치 값이 1 임을 나타낸다.For example, in the extended part-of-speech transition network matrix of FIG. 3, the matrix value of (NN, JO) is 1, which may be followed by JO (irradiation) morpheme after NN (noun) within a word, where the transition weight value is Indicates 1

또, (JO, VV)의 행렬값은 -5로서, 이것은 JO(조사) 뒤에 VV(동사)가 뒤따르는 것이 가능하기는 하지만 0 보다 작은 값이므로 어절에서 어절로의 품사 전이인 어절간 전이임을 알 수 있다.Also, the matrix value of (JO, VV) is -5, which means that it is possible to follow VV (verb) after JO (irradiation), but it is less than 0, so it is a transition between words from word to word. Able to know.

한편 (VV, NN)은 가중치가 -∞인데 이것은 띄붙 오류와 관계없이 어떤 경우에도 VV(동사) 뒤에 NN(명사)가 뒤따를 수 없다는 것을 나타낸다.(VV, NN), on the other hand, has a weight of -∞, indicating that NN (noun) can not be followed by VV (verb) in any case, regardless of error.

종래의 기술에서 어절 구조 정보나 형태소 오토마타 등으로 불리기도 하는 품사 전이망은 어절내 전이만 가지므로, 본 발명에서 사용하는 상기 확장 품사 전이망(12)에서 어절간 전이와 전이 가중치 정보를 빼면 종래의 기술에서 사용하는 품사 전이망과 같아진다. 본 발명에서는 어절간 전이와 전이 가중치 정보를 허용하고 있는데, 그 이유는 물론 띄붙 오류를 처리하기 위해서이다.Since the part-of-speech transition network, also called word structure information or morpheme automata, has only intra-word transitions in the prior art, the word-to-word transition and transition weight information are subtracted from the extended part-of-speech transition network 12 used in the present invention. It is like the part-of-speech network used by technology. In the present invention, the inter-word transition and the transition weight information are allowed for the reason, of course, in order to deal with error.

예를 들어, "힘""좋은""엔진을""쓰는"과 같은 네 어절이 있는데 각각은 단위 어절 측면에서는 올바른 어절이지만 네 어절이 붙어서 "힘좋은엔진을쓰는"과 같이 하나의 어절이 되어 버리면, 종래의 방법으로는 품사 전이망에서 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하지 않기 때문에 분석을 할 수 없게 된다.For example, there are four words, such as "power", "good", "engine", "each", each of which is a correct word in terms of unit words, but four words are attached to one word, such as "using a good engine". If discarded, the conventional method does not allow the transition of (NN, AJ), (EM, NN), (JO, VV), etc. in the part-of-speech transition network, so that analysis cannot be performed.

그러나 본 발명의 상기 확장 품사 전이망(12)에서는 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하므로 이러한 어절에 대해서도 분석을 할 수 있게 된다.However, the extended part-of-speech transition network 12 of the present invention allows the transition of (NN, AJ), (EM, NN), (JO, VV) and the like, so that such words can be analyzed.

다만, (JO, VV) 전이에서도 알 수 있듯이 품사 전이 자체는 허용하되 가중치 값은 0 보다 작은 값을 부여함으로써 정상적인 품사 전이인 어절내 품사 전이와 구분할 수 있도록 전이망이 구성되어 있다.However, as can be seen from the (JO, VV) transition, the part-of-speech transition itself is allowed, but the weighting value is less than 0, so that the transition network is configured to be distinguished from the normal part-of-speech part of speech transition.

결과적으로 띄어쓰기가 옳게 된 입력 어절 내에서의 통상적인 품사 전이는 0 이상의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 높게 하고, 띄붙 어절 경계에서 발생하는 품사 전이는 음의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 낮게하는 작용을 한다.As a result, the normal part-of-speech transition within the input word with correct spacing is given a score of 0 or higher, which increases the goodness-of-fit score of the whole word, and the part-of-speech transition occurring at the word boundary is given a negative score. Its function is to lower the goodness of fit.

그러나 비록 점수는 낮지만 -∞ 즉, 분석할 수 없는 어절로 취급하지는 않는데서 종래의 기술과는 차이가 있다.However, although the score is low, -∞, that is, it is not treated as an inparable word, is different from the conventional technology.

도 2 는 본 발명이 적용되는 형태소 분석장치 상의 어절 분석방법 순서도이다.2 is a flowchart of a word analysis method on a morpheme analysis apparatus to which the present invention is applied.

먼저 문자열 입력장치에서 입력된 문자열에서 공백으로 구분된 어절을 분리해내고(S1), 분리된 어절의 부분 문자열을 사전에서 탐색하여 분석 후보 리스트를 생성해낸다.First, a word separated by a space is separated from a string input by a string input device (S1), and a substring of the separated word is searched in a dictionary to generate a candidate analysis list.

각 부분 문자열마다 여러 품사로 분석 가능하므로 전체 어절에 대해서는 이들의 조합 때문에 많은 수의 분석 후보 리스트가 생길 수 있다.Because each part string can be analyzed by several parts of speech, the combination of them can produce a large number of candidate candidates for analysis.

다만 이때 확장 품사 전이망에서 품사 전이가 없는 리스트는 분석 후보에서 제외된다.In this case, however, the list without the part-of-speech transition in the extended part-of-speech network is excluded from the candidate for analysis.

이렇게 만들어진 분석 후보 리스트의 집합을 L = {l1, ..., ln}이라고 하고(S2), L의 원소인 각 분석 후보 리스트 li에 대한 적합도 평가를 위해 i를 1로 초기화한다(S3).The set of analysis candidate lists thus created is called L = {l 1 , ..., l n } (S2), and i is initialized to 1 to evaluate the goodness of fit for each analysis candidate list l i that is an element of L ( S3).

그리고 i가 n 보다 큰가를 판단한 후(S4) 크지 않으면, 임의의 분석 후보 리스트를 li= {m1/t1, ..., mni/tni}(단 li∈L, mj는 형태소 문자열, tj는 품사)이라고 표시한다(S5).After determining whether i is greater than n (S4), if it is not large, a random analysis candidate list is obtained by l i = {m 1 / t 1 , ..., m ni / t ni } (where li∈L and m j are A stemmed string, t j is a part-of-speech) (S5).

리스트 li에서 t1은 어절 시작(WB) 형태소이고, tni는 어절 끝(WE) 형태소이다.In list l i , t 1 is the word beginning (WB) morpheme, and t ni is the word ending (WE) morpheme.

이 리스트의 원소는 ni개이므로 총 ni-1개의 품사 전이 (tj, tj+1)(1≤j<ni)가 생기는데, 상기 j가 ni보다 큰가를 판단하여(S6) 크지 않을 경우 품사 전이(tj, tj+1)의 전이 가중치를 li의 적합도 값인 si에 더한 후(S7) 상기 j값을 증가시키는(S8) 과정을 리스트의 끝까지 반복하면, 후보 리스트 li에 대한 적합도 값 si가 계산된다.Since there are n i elements in this list, a total of n i -1 parts-of-speech transitions (t j , t j + 1 ) (1≤j <n i ) are generated, and it is determined whether j is greater than n i (S6). If it is not large, adding the transition weight of the part-of-speech transition (t j , t j + 1 ) to s i , the goodness-of-fit value of l i (S7), and then increasing the value of j (S8) to the end of the list, the candidate list The goodness-of-fit values s i for l i are calculated.

상기 판단(S6) 후 j가 ni보다 큰 경우에는 i값을 증가시켜(S9) 다음 li의 적합도 계산을 계속한다.If j is greater than n i after the determination (S6), the value of i is increased (S9) to continue calculating the goodness of fit of the next li.

이 과정을 L의 모든 후보 분석 리스트 li에 대해 반복하면(S4), 각 후보 리스트별로 적합도 값 si가 계산되는데, 이 중에서 최종 결과를 선택해야 한다.When this process is repeated for all candidate analysis lists l i of L (S4), a goodness-of-fit value s i is calculated for each candidate list, from which a final result should be selected.

최종 결과의 선택을 위해 먼저 모든 후보 리스트 li를 si의 내림차순으로 정렬하고(S10) 정렬된 si중에 가장 큰 값인 S1이 0 보다 큰가를 판단하여(S11) S1이 0 보다 크면 정상적인 어절에 대한 분석 결과로 볼 수 있으므로 si≥ 0인 li를 최종 결과로 선택하면 되고(S12), si이 0 보다 작으면 띄붙 오류에 대한 분석 결과로 볼 수 있으므로 si가 큰 순서대로 최종 결과로 선택하면 된다(S13).First, sort all candidates list l i as the s i in descending order for the selection of final results (S10) the largest value in the ordered s i S 1 is determined to greater than or equal to 0 (S11) S 1 is greater than zero, the normal since available analysis results for Eojeol s i ≥ 0 a l i a is selected as the final result is (S12), s i is less than zero ttuibut it available on analysis of the error s i is as large sequence What is necessary is to select it as a final result (S13).

다만 후자의 경우 띄붙 오류 어절은 두 어절 이상이 붙어 있으므로 어절 길이가 길고, 따라서 분석 후보의 수 역시 매우 많아지므로 전부 선택하는 것은 곤란하고 본 발명에서는 s1과의 차가 9 보다 작은 것들인 적정선 안에 있는 분석 후보만 최종 결과로서 선택한다(S13).However, in the latter case ttuibut error Eojeol because there is more than Eojeol attached Eojeol length is long, and therefore the number of analyzes candidate also very much because all of Choosing the invention and difficulties of the car the little things than 9 and s 1 useful to have somewhere Only analysis candidates are selected as the final result (S13).

이렇게 선택된 최종 결과는 별도의 저장장치에 저장된 다음(S14), 화면/인쇄 등의 표시 과정을 통해 결과가 출력된다(S15).The selected final result is stored in a separate storage device (S14), and then the result is output through a display process such as screen / printing (S15).

도 4 는 본 발명에 따른 한국어 어절의 형태소 분석 예시도로서, 띄붙 오류 어절 "힘좋은엔진을쓰는"이 입력되었을 때의 분석 예를 도시하고 있다.4 is a diagram illustrating an example of a morpheme analysis of a Korean word according to the present invention, which shows an example of analysis when an error word "using a powerful engine" is input.

먼저 사전을 참조하여 부분 문자열별 형태소를 얻고(S1), 그 조합으로 다수의 분석 후보 리스트를 생성해낸다(S2).First, a morpheme for each substring is obtained by referring to a dictionary (S1), and a plurality of analysis candidate lists are generated by the combination (S2).

그러나 이 과정에서 상당수의 후보 리스트가 접속 정보나 품사 전이망 정보를 통해 미리 배제될 수 있음을 알 수 있다(S2).However, in this process, it can be seen that a large number of candidate lists can be excluded in advance through access information or part-of-speech network information (S2).

종래의 발명은 어절간 전이를 허용하지 않으므로 사실상 이 과정에서 모든 후보가 배제되어 곧바로 추정을 통해 "힘좋은엔진을쓰"를 명사로, "는"을 조사로 해서 틀린 분석 결과를 내게 된다.Since the conventional invention does not allow the transition between words, virtually all candidates are excluded in this process, and the estimation results in an incorrect analysis result using "no" as a noun and "no" as a noun.

그러나 본 발명에서는 어절간 전이를 허용하는 확장 품사 전이망을 이용하므로 비록 띄어쓰기 및 붙여쓰기 오류가 있는 어절이라도 후보 형태소 리스트를 제대로 구할 수 있음을 볼 수 있다(S2).However, since the present invention uses an extended part-of-speech network that allows inter-word transitions, it can be seen that candidate morphological lists can be properly obtained even in a word having a spacing and pasting error (S2).

이렇게 해서 얻은 후보 형태소 리스트에 대해 적합도 값을 계산하여(S4), 이 중에서 적합도 값이 큰 것을 선택하여 최종 결과를 얻는다(S10).The goodness-of-fit value is calculated for the candidate morpheme list thus obtained (S4), and among these, the one with the high goodness-of-fit value is selected to obtain the final result (S10).

상술한 바와 같이 본 발명의 분석 장치에 따르면, 띄붙 오류가 있는 어절에 대해서도 분석 후보를 생성해 내고 그 중에서 가장 적합한 후보를 고를 수 있는 수단을 갖추고 있기 때문에 띄어쓰기 오류가 없는 어절은 물론 띄붙 오류가 있는 어절도 분석해 낼 수 있게 된다.As described above, according to the analysis apparatus of the present invention, since the analysis candidate is generated for a word having a spacing error and the most suitable candidate is selected, the word without the spacing error is of course not included. You can also analyze words.

또한 기존의 기술은 일단 분석이 실패한 후에 처리를 하거나 여러 번 분석을 반복해서 어절 경계룰 찾기 때문에 성능의 저하가 크지만, 본 발명은 오류가 있는 어절에 대해서도 오류가 없는 어절을 처리할 때와 동일한 방법으로 처리를 할 수 있게 해 주므로 띄어쓰기 및 붙여쓰기 오류가 있는 어절을 분석하면서도 성능의 저하가 거의 없다.In addition, the conventional technology performs a large amount of performance deterioration because the processing is performed once the analysis fails, or the analysis is repeated several times to find the word boundary, but the present invention is the same as when processing an error-free word even for an error word. It allows you to do this in a way that allows you to analyze words with spaces and paste errors while showing little performance degradation.

또한 일차 분석 실패 후 강제적으로 추정되는 명사의 수를 대폭 줄일 수 있으므로 대용량 문서의 자동 색인 등에서 색인어 추출 등에 효과적으로 이용할 수있다.In addition, the number of nouns that are forcibly estimated after a primary analysis can be greatly reduced, which can be effectively used for extracting index words from automatic indexing of large documents.

그리고 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 구현하는데 효과적으로 이용할 수 있다.In addition, it allows for flexible document creation without compulsory document compulsory compliance for document processing, which can be effectively used to implement human-oriented document processing technology.

Claims (2)

띄어써야 할 어절을 붙여 쓴 오류를 처리하기 위한 형태소 분석 장치에 있어서,In the stemming device for handling errors with words 문자열 입력장치를 통해 입력된 문자열과 사전 저장장치에 저장된 사전 정보를 비교하여 형태소 분석 후보를 생성하되, 형태소 리스트 생성 과정이 실패하는 경우 다시 한 번 다음 단계에서 수정이나 후보 형태소 리스트 생성을 시도하는 방법이 아닌 정상 어절과 띄어쓰기 오류 어절을 구분하지 않고 1-PASS에 분석하는 형태소 분석 모듈;How to create a stemming candidate by comparing the string input through the string input device with dictionary information stored in the dictionary storage, but if the stemming list creation process fails, try to modify or create the candidate stem list again in the next step. A morphological analysis module for analyzing 1-PASS without distinguishing between normal words and spacing error words; 상기 분석된 형태소 분석 후보 중 적합한 분석 후보를 골라 최종 결과를 저장하도록 분석 후보를 여과시키는 결과 여과 모듈을 포함하되,A result filtration module for selecting an appropriate analysis candidate among the analyzed morphological analysis candidates and filtering the analysis candidates to store a final result, 상기 형태소 분석 모듈에서 정상 어절과 비정상 어절(뜨어쓰기 오류 어절)을 구분하지 않고 1-PASS에 분석을 할 때, 오류 유형이나 사례, 패턴 등을 이용하지 않고 정상 어절과 비정상 어절의 문법적 전이 관계와 가중치가 통합되어 표현된 전이망을 이용함으로써 적어도 2어절 이상이 붙여 써진 경우에도 1-PASS방법으로 분석하는 것을 특징으로 하는 띄어쓰기 오류 허용 한국어 형태소 분석장치.In the morphological analysis module, when analyzing 1-PASS without distinguishing between normal word and abnormal word (knit error word), the grammatical transition relationship between normal word and abnormal word without using error type, case, pattern, etc. A spacing error tolerant Korean morphological analysis device, characterized in that the analysis is performed by using the 1-PASS method even if at least two words are added by using a transition network in which weights are integrated. 입력 텍스트의 어절에서 형태소와 품사를 자동으로 분석해 주는 한국어 형태소 분석방법에 있어서,In the Korean morpheme analysis method that automatically analyzes the morphemes and parts of speech in the words of the input text, 문자열 입력장치에서 입력된 문자열을 공백으로 구분된 어절을 분리하는 제1 단계와;A first step of separating a word separated by a space from a string input by a string input device; 분리된 어절의 부분 문자열을 사전에서 탐색하여 분석 후보 리스트의 집합을 생성하는 제 2 단계와;A second step of searching for a substring of the separated word in a dictionary to generate a set of analysis candidate lists; 상기 분석 후보 리스트 집합의 원소인 각 후보 리스트에 대한 적합도 평가를 위해 임의의 분석 후보 리스트를 품사전이(형태소 문자열/어절 끝 형태소)로 표현하는 제 3 단계와;A third step of expressing an arbitrary analysis candidate list as a part-of-speech transition (morpheme string / word ending morpheme) for each of the candidate lists which are elements of the analysis candidate list set; 상기 후보 리스트의 원소로부터 생기는 품사전이의 전이 가중치를 상기 분석 후보 리스트의 집합의 적합도 값에 더하는 과정을 리스트의 끝까지 반복하여 후보 리스트의 집합에 대한 적합도 값을 구하는 제 4 단계와;A fourth step of obtaining a goodness of fit value for the set of candidate lists by repeating the process of adding the transition weight of the part-of-speech transition resulting from the elements of the candidate list to the goodness of fit value of the set of analysis candidate lists to the end of the list; 상기 계산된 각 후보 리스트별 적합도 값의 최종 결과의 선택을 위해 상기 분석 후보 리스트 집합을 내림차순으로 정렬하고 정렬된 적합도 값이 0 보다 크면 상기 적합도 값을 최종 결과로 선택하는 제 5 단계와;A fifth step of sorting the analysis candidate list set in descending order to select the final result of the calculated fitness values for each candidate list and selecting the fitness value as the final result when the sorted fitness values are greater than zero; 상기 정렬된 적합도 값이 0 보다 작으면 띄어쓰기 및 붙여쓰기 오류에 대한 분석결과로서 적합도 값이 큰 순서대로 최종 결과를 선택하는 제 6 단계와;A sixth step of selecting final results in ascending order of goodness of fit as an analysis result for spacing and pasting errors if the sorted goodness of fit value is smaller than zero; 상기 선택된 최종 결과를 별도의 저장장치에 저장한 후 화면/인쇄 등의 표시 과정을 통해 결과를 출력하는 제 7 단계로 이루어진 것을 특징으로 하는 띄어쓰기 오류 허용 한국어 형태소 분석방법.And a seventh step of outputting the result through a display process such as screen / printing after storing the selected final result in a separate storage device.
KR1019980036775A 1998-09-07 1998-09-07 Korean stemming method and device thereof KR100328963B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019980036775A KR100328963B1 (en) 1998-09-07 1998-09-07 Korean stemming method and device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980036775A KR100328963B1 (en) 1998-09-07 1998-09-07 Korean stemming method and device thereof

Publications (2)

Publication Number Publication Date
KR20000018924A KR20000018924A (en) 2000-04-06
KR100328963B1 true KR100328963B1 (en) 2002-09-04

Family

ID=19549790

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980036775A KR100328963B1 (en) 1998-09-07 1998-09-07 Korean stemming method and device thereof

Country Status (1)

Country Link
KR (1) KR100328963B1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100735308B1 (en) * 2005-08-30 2007-07-03 경북대학교 산학협력단 Recording medium for recording automatic word spacing program
KR100757340B1 (en) * 2006-03-30 2007-09-11 엔에이치엔(주) Method for improving performance of morpheme analyzer using automatic extraction and system for executing the method
KR102109858B1 (en) 2018-10-05 2020-05-12 동아대학교 산학협력단 System and Method for Korean POS Tagging Using the Concatenation of Jamo and Syllable Embedding

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980066877A (en) * 1997-01-29 1998-10-15 김광호 Morphological interpretation based on types of unregistered words

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980066877A (en) * 1997-01-29 1998-10-15 김광호 Morphological interpretation based on types of unregistered words

Also Published As

Publication number Publication date
KR20000018924A (en) 2000-04-06

Similar Documents

Publication Publication Date Title
US7680649B2 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US5907839A (en) Algorithm for context sensitive spelling correction
KR100999488B1 (en) Method and apparatus for detecting document plagiarism
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
US5285386A (en) Machine translation apparatus having means for translating polysemous words using dominated codes
Sedláček et al. A new Czech morphological analyser ajka
Verberne Context-sensitive spell checking based on word trigram probabilities
KR100835706B1 (en) System and method for korean morphological analysis for automatic indexing
Ismailov et al. A comparative study of stemming algorithms for use with the Uzbek language
WO2005064490A1 (en) System for recognising and classifying named entities
Chaabi et al. Amazigh spell checker using Damerau-Levenshtein algorithm and N-gram
Gulati et al. A novel technique for multidocument Hindi text summarization
Dai et al. A new statistical formula for Chinese text segmentation incorporating contextual information
Ekbal et al. Voted NER system using appropriate unlabeled data
Kaur et al. Spell checker for Punjabi language using deep neural network
KR100328963B1 (en) Korean stemming method and device thereof
Merhbene et al. An experimental study for some supervised lexical disambiguation methods of Arabic language
Singh GPStemmer—a gurmukhi punjabi stemmer
Ren et al. A hybrid approach to automatic Chinese text checking and error correction
JP2009176148A (en) Unknown word determining system, method and program
Cheragui et al. Arabic Text Segmentation using Contextual Exploration and Morphological Analysis
Farkas et al. Improving a state-of-the-art named entity recognition system using the world wide web
Manne et al. A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging
SAMIR et al. AMAZIGH NAMED ENTITY RECOGNITION: A NOVEL APPROACH.
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130304

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee