KR100328963B1 - Korean stemming method and device thereof - Google Patents
Korean stemming method and device thereof Download PDFInfo
- Publication number
- KR100328963B1 KR100328963B1 KR1019980036775A KR19980036775A KR100328963B1 KR 100328963 B1 KR100328963 B1 KR 100328963B1 KR 1019980036775 A KR1019980036775 A KR 1019980036775A KR 19980036775 A KR19980036775 A KR 19980036775A KR 100328963 B1 KR100328963 B1 KR 100328963B1
- Authority
- KR
- South Korea
- Prior art keywords
- analysis
- word
- candidate
- transition
- speech
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법에 관한 것으로서, 어절내 품사 전이 외에 어절간 품사 전이와 품사 전이 가중치를 하나로 통합한 확장 품사 전이망을 분석 후보의 생성 및 여과에 이용함으로써, 띄붙 오류 어절처럼 띄어쓰기가 비정상적으로 된 어절에서도 분석 후보를 생성해 낼 수 있으며, 각 후보의 적합도를 확장 품사 전이망의 전이 가중치를 이용하여 계산함으로써 올바른 분석 결과를 얻을 수 있음은 물론, 정상적인 어절의 분석 정확도나 분석 속도 등에 영향을 주지 않는 효과를 가진다.The present invention relates to a spacing error-tolerant Korean morpheme analysis method using an extended part-of-speech network, wherein an extended part-of-speech network incorporating the parts-of-speech and part-of-speech weights in addition to intra-word parts is used for generation and filtration of analysis candidates. As a result, analysis candidates can be generated even in a word where the spacing is abnormal as in a word error word. By calculating the suitability of each candidate by using the transition weight of the extended part-of-speech network, it is possible to obtain correct analysis results. It does not affect the analysis accuracy or analysis speed of words.
Description
본 발명은 확장 품사 전이망을 이용한 띄어쓰기 오류 허용 한국어 형태소 분석방법 및 그 장치에 관한 것으로, 특히 띄어써야 할 어절이 잘못 붙여진 오류, 즉 띄붙 오류가 있는 어절도 분석할 수 있는 수단이 구비된 형태소 분석방법에 관한 것이다.The present invention relates to a spacing error-allowed Korean morphological analysis method and apparatus using an extended part-of-speech network, and in particular, a morphological analysis provided with a means for analyzing a word having a spacing error, that is, a word having a spacing error. It is about a method.
한편, 선행특허로 국내특허 "어절구조 특성을 이용한 형태소 분석 시스템 및 분석방법[권리자 한국전기통신공사, 등록번호 123238, 97.09.11]"과 "빈도 정보를 이용한 형태소 해석 방법[출원인 삼성전자(주), 공개번호 98-004120, 98.03.30]"및 "한글 문장의 형태소 분석방법[출원인 금성사, 공개번호 92-5023, 92.03.28]" 등은 형태소 분석을 위해 사전, 어절 구조 정보, 접속 정보표를 이용한 분석을 함으로써 띄어쓰기가 잘된 일반 어절에 대한 분석만을 하기 때문에 분석 범위가 매우 좁은 문제점이 있었다.On the other hand, as a prior patent, the domestic patent "morphological analysis system and analysis method using the characteristics of the word structure [right holder Korea Telecommunications Corporation, Registration No. 123238, 97.09.11]" and "morphological analysis method using the frequency information [Applicant Samsung Electronics (Note) ), Publication No. 98-004120, 98.03.30] "and" Method of morphological analysis of Korean sentences [Applicant Geumseongsa, Publication No. 92-5023, 92.03.28] ", etc. The analysis using the table only analyzes the well-spaced words, which has a very narrow analysis range.
또한, 선행논문으로 인공지능연구회 학술발표논문집에 게재된 "한국어 철자 오류 교정 시스템[저자 이영식, 채영숙, 윤애선, 권혁철, pp. 25-38, 1993]"은 띄붙 오류를 처리하는 철자 검사기의 구현을 위해 사전을 이용해 형태소를 구분해서 형태소 경계에 공백 문자를 삽입하는 방식을 사용함으로써 띄붙 오류 어절을 원래 어절로 복원할 수 있으나, 단순히 어절을 분리함에 따른 공백을 삽입하는 방법을 사용함으로써 처리시간이 매우 길며, 여러 어절의 띄붙 오류의 처리가 불가능한 문제점이 따른다.In addition, as a precedent paper, "Korean Spelling Correction System [Author Lee Young-sik, Chae Young-sook, Yoon Ae-sun, Kwon, Hyuk-chul, pp. 25-38, 1993]" published in the Journal of AI Research, published an article on the implementation of the spell checker. However, by using a dictionary to insert a space character at the boundary of the stem by dividing the morpheme, the error word can be restored to the original word, but the processing time is very simple by using the method of inserting a space by separating the words. It is long, and there is a problem in that it is impossible to deal with multiple word spacing errors.
종래의 기술에서는 띄어쓰기가 올바른 정상적인 어절만을 분석 대상으로 하고 있으므로 띄붙 오류가 발생하면, 즉 띄어써야 될 두 어절이 붙여 써져서 마치 하나의 어절로 입력되면 분석에 실패한다는 문제점이 있었다.In the prior art, since only normal words with a correct spacing are to be analyzed, when a spacing error occurs, that is, when two words to be spaced are added and written as one word, the analysis fails.
이러한 문제점을 보완하기 위해 종래의 기술에서는 분석에 실패한 경우에 추정을 통해 형태소를 분석하는 방법과 어절 경계를 찾는 방법을 사용하고 있다.In order to solve this problem, the conventional technique uses a method of analyzing morphemes through estimation and finding word boundaries when the analysis fails.
먼저, 추정 방법을 살펴보면 분석에 실패한 어절에 대해 사전에 없는 어휘로 간주하여 인명, 지명 등과 같은 고유명사로 추정하는 방법이 있다.First, in the estimation method, there is a method of estimating a word that has failed to be analyzed as a proper noun such as a person's name or a place name by considering it as a vocabulary that is not in the dictionary.
그러나 예를 들어 "힘좋은엔진을쓰는"과 같이 띄붙 오류가 있어서 분석에 실패한 어절을 "힘좋은엔진을쓰는/고유명사"와 같이 추정하게 된다면 항상 틀린 결과를 얻을 수 밖에 없다.However, if there is a misleading error such as "using a powerful engine", and a word that fails to analyze is estimated as "using a powerful engine / proper noun", there will always be wrong results.
좀더 개선된 추정 방법으로는 조사나 어미 등의 기능어를 실마리로 해서 앞쪽에 오는 문자열은 모두 미지 명사나 미지 동사(혹은 형용사)로 추정하는 방법인데, 이 방법 역시 어절 "힘좋은엔진을쓰는"에 대해 "힘좋은엔진을쓰/명사 + 는/조사"와 같이 무조건 명사로 추정해 버리기 때문에 띄붙 오류의 어절에 대해서는 항상 잘못된 분석 결과를 낼 수밖에 없다.A more advanced estimation method is to use a clue of function words such as surveys and endings to estimate all the first strings as unknown nouns or unknown verbs (or adjectives). Since it is assumed to be a noun such as "a powerful engine, a noun, and a search", it is always necessary to give a false analysis result for the word of the error.
어절 경계 구분법은 입력 어절에 대해 하나의 단위 어절 형성이 될 때까지 분석한 후 나머지 문자열이 남아 있으면 띄붙 오류 어절로 간주하여 그 다음 위치부터 다시 분석을 하는 방법이다.The word boundary classification method analyzes the input word until one unit word is formed, and if the remaining strings remain, it is regarded as an error word and is analyzed again from the next position.
이 방법은 한국어의 특성상 어절내 매 음절 위치마다 하나의 단위 어절이 형성될 수 있으므로 여러 번의 분석 과정을 반복해야 하고, 또 정상적인 어절에도 띄붙 오류 어절인지 아닌지를 판단하기 위해 똑같은 과정을 반복해야 하므로 너무 많은 계산 부하가 걸려 처리의 실시간성을 확보하기 어렵고, 세 어절 이상이 붙은 오류를 처리하기 어려우므로 분석 성공률이 떨어져서 실용적으로 사용하기는 어려운문제점이 따른다.In this method, one unit word can be formed at each syllable position in Korean language, so it is necessary to repeat the analysis process several times, and the same process must be repeated to determine whether it is an error word or not. It is difficult to secure the real-time performance of the processing due to a large computational load, and difficult to deal with errors with more than three words, making it difficult to use practically due to the poor analysis success rate.
상기 문제점을 해결하기 위해 본 발명은, 띄어쓰기 오류가 없는 정상적인 어절은 물론 띄어쓰기/붙여쓰기 오류 어절도 동일한 방법으로 분석해 낼 수 있도록 하는데 그 목적이 있다.In order to solve the above problems, an object of the present invention is to be able to analyze not only normal words without spacing errors but also spacing / pasting error words in the same manner.
본 발명의 또 다른 목적은, 띄어쓰기/붙여쓰기 오류가 있는 어절을 분석하면서도 정상적인 어절만을 분석하는 일반적인 경우와 비교하여 분석 처리 속도의 저하 없이 분석을 수행해서 처리의 실시간성을 확보할 수 있도록 하는데 있다.Another object of the present invention is to ensure the real-time processing of the processing by performing the analysis without a decrease in the analysis processing speed as compared to the general case of analyzing a word with a spacing / pasting error only normal words .
또 다른 목적은, 일반 문서에서 자주 출현하는 띄어쓰기/붙여쓰기 오류 어절을 분석해 냄으로써 분석 실패 어절의 수를 최소화하는데 있다.Another goal is to minimize the number of parse failure words by analyzing spacing / paste error phrases that frequently appear in general documents.
본 발명의 또 다른 목적은, 1차 분석 실패 후에 강제적으로 추정되는 추정 명사의 수를 최소화하는데 있다.Another object of the present invention is to minimize the number of estimated nouns that are forcibly estimated after the first analysis failure.
또 다른 목적은, 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 제공하는데 있다.Another object is to provide human-oriented document processing technology by allowing the author to flexibly create a document without forcing the document creator to observe the spacing principle for the automatic processing of the document.
도 1은 본 발명에 따른 하드웨어 구성도,1 is a hardware block diagram according to the present invention,
도 2는 본 발명이 적용되는 형태소 분석 장치 상의 어절 분석방법 순서도,2 is a flowchart of a word analysis method on a morpheme analysis apparatus to which the present invention is applied;
도 3은 본 발명의 형태소 분석방법의 적용에 이용되는 확장 품사 전이망에 대한 행렬 구조도,3 is a matrix structure diagram of an extended part-of-speech transition network used in the application of the morpheme analysis method of the present invention;
도 4는 본 발명에 따른 한국어 어절의 형태소 분석 예시도.Figure 4 is an illustration of the morpheme analysis of the Korean word in accordance with the present invention.
* 도면의 주요부분에 대한 부호의 설명* Explanation of symbols for main parts of the drawings
10 : 형태소 분석 장치 11 : 사전 저장장치10: stemming device 11: dictionary storage device
12 : 확장 품사 전이망 13 : 문자열 저장장치12: expanded part-of-speech network 13: string storage device
14 : 분석 후보 생성 모듈 15 : 분석 후보 저장장치14: analysis candidate generation module 15: analysis candidate storage device
16 : 적합도 평가 모듈 17 : 결과 여과 모듈16: fitness evaluation module 17: result filtration module
18 : 최종 결과 저장장치 20 : 문자열 입력장치18: Final result storage device 20: String input device
30 : 표시장치30: display device
상기 목적을 달성하기 위해 본 발명은, 띄어써야 할 어절을 붙여 쓴 오류를 처리하기 위한 형태소 분석 장치에 있어서, 문자열 입력장치를 통해 입력된 문자열과 사전 저장장치에 저장된 사전 정보를 비교하여 형태소 분석 후보를 생성하되, 형태소 리스트 생성 과정이 실패하는 경우 다시 한 번 다음 단계에서 수정이나 후보 형태소 리스트 생성을 시도하는 방법이 아닌 정상 어절과 띄어쓰기 오류 어절을 구분하지 않고 1-PASS에 분석하는 형태소 분 석 모듈; 상기 분석된 형태소 분석 후보 중 적합한 분석 후보를 골라 최종 결과를 저장하도록 분석 후보를 여과시키는 결과 여과 모듈을 포함하되, 상기 형태소 분석 모듈에서 정상 어절과 비정상 어절(뜨어쓰기 오류 어절)을 구분하지 않고 1-PASS에 분석을 할 때, 오류 유형이나 사례, 패턴 등을 이용하지 않고 정상 어절과 비정상 어절의 문법적 전이 관계와 가중치가 통합되어 표현된 전이망을 이용함으로써 적어도 2어절 이상이 붙여 써진 경우에도 1-PASS방법으로 분석하는 것을 특징으로 한다.In order to achieve the above object, the present invention provides a morphological analysis apparatus for processing an error with a spaced word, and the candidate for morphological analysis by comparing dictionary information stored in a dictionary storage device with a string input through a string input device. If the stemming list creation process fails, but the stemming analysis module analyzes in 1-PASS without distinguishing between normal words and spacing error words, instead of attempting to modify or create a candidate stem list in the next step. ; And a result filtering module for filtering an analysis candidate to select an appropriate analysis candidate among the analyzed morphological analysis candidates and storing a final result, without distinguishing between normal words and abnormal words (suffix error words) in the morphological analysis module. When analyzing at -PASS, even when at least two words are written by using a transition network expressed by integrating the grammatical transition relationship and weight of normal word and abnormal word without using error type, case and pattern. It is characterized by analyzing by PASS method.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명하면 다음과 같다.Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.
도 1 은 본 발명에 따른 하드웨어 구성도로서, 크게 형태소 분석 장치(10)와 문자열 입력장치(20)와 표시장치(30)로 구성된다.1 is a hardware configuration diagram according to the present invention, and is largely composed of a morpheme analysis apparatus 10, a character string input apparatus 20, and a display apparatus 30.
형태소 분석 장치(10)는 상기 문자열 입력장치(20)를 통해 입력된 문자열을 저장하는 문자열 저장장치(13)와, 저장된 문자열과 사전 저장장치(11)에 저장되어 있는 사전 정보를 비교하여 형태소 분석 후보를 생성해내는 분석 후보 생성 모듈(14)과, 분석된 후보 결과를 저장하는 분석 후보 저장장치(15)와, 저장된 분석 후보들에 대해 적합도 평가를 수행하는 적합도 평가 모듈(16)과, 평가 결과에 따라 적합한 분석 후보를 골라주는 결과 여과 모듈(17)과, 여과된 결과를 저장하는 최종 결과 저장장치(18)로 구성되어 있다.The morpheme analysis apparatus 10 compares the string storage device 13 storing the string input through the string input device 20 with the stored information and dictionary information stored in the dictionary storage device 11. An analysis candidate generation module 14 for generating candidates, an analysis candidate storage device 15 for storing analyzed candidate results, a fitness evaluation module 16 for performing a fitness evaluation on stored analysis candidates, and an evaluation result And a result filtration module 17 for selecting suitable analysis candidates, and a final result storage device 18 for storing the filtered results.
먼저 상기 확장 품사 전이망(12)을 도 3의 상세도를 통해 자세히 설명하면 다음과 같다.First, the expanded part-of-speech transition network 12 will be described in detail with reference to FIG. 3.
본 발명에서 품사 전이란 한국어 어절 내에서 한 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내는 정보이며, 이에는 "어절내 전이(intra-word transition)"와 "어절간 전이(inter-word transition)"가 있다.In the present invention, the part-of-speech is information indicating which parts of speech may follow after a part of speech in a Korean word, and includes "intra-word transition" and "inter-word transition". have.
어절내 전이는 정상적인 어절 내에서 어떤 품사 뒤에 어떤 품사가 뒤따를 수 있는가를 나타내고, 어절간 전이는 어절 두개가 붙어서 하나의 어절로 입력되었을 때 선행 어절의 가장 끝 품사 뒤에 후행 어절의 어떤 품사가 뒤따를 수 있는지를 나타내므로 정상적인 어절 내에서는 관측되지 않는 품사 전이이다.In-word transition indicates which part of speech can follow after a part of speech within a normal word, and between parts of a word followed by a part of a trailing word after the last part of the preceding word when two words are entered. It is a part-of-speech transition that is not observed within normal words.
도 3의 확장 품사 전이망에서는 전이 정보를 행렬을 이용해 표현하고 있는데, 각 행은 전이 전 품사를 나타내고 각 열은 전이 후 품사를 나타낸다.In the extended part-of-speech transition network of FIG. 3, transition information is expressed using a matrix, where each row represents a pre-transition part-of-speech and each column represents a post-transition part-of-speech.
행렬값은 행에 해당하는 품사에서 열에 해당하는 품사로 품사 전이가 일어날 수 있는가를 나타내며 전이가 일어날 수 없는 경우에는 -∞로 값이 표시되어 있다.The matrix value indicates whether a part-of-speech transition can occur from a part-of-speech corresponding to a row to a part-of-speech corresponding to a column. If the transition cannot occur, the value is indicated by -∞.
전이가 일어날 수 있는 경우에는 행렬 원소에 정수값으로 "전이 가중치"가 설정되어 있는데, 이 값은 해당 전이가 한국어 어절 형성에 얼마나 적합한지를 수치로 표현한 값이다.When a transition can occur, a "transition weight" is set as an integer value in a matrix element, which is a numerical value expressing how appropriate the transition is for forming Korean words.
원칙적으로 이 값은 해당 품사 전이가 어절내 전이이면, 즉 한국어 단위 어절 형성 원칙에 부합되면 0 이상의 값을, 어절간 전이이면 즉 한국어 단위 어절 형성 원칙에 부합되지는 않지만 어절과 어절이 붙었을 때 일어날 수 있는 전이이면 0 보다 작은 음수 값을 갖도록 구성되는데, 이때 어절내 전이인 경우라도 전이 가능성이 작은 경우에는 가중치가 음수가 될 수도 있다.In principle, this value is equal to or greater than zero if the part-of-speech transition is a word transition, that is, if it conforms to the principle of forming Korean word phrases, or if it is attached to a word without a word between words. If it is a transition that can occur, it is configured to have a negative value less than zero. In this case, even in the case of an intra-word transition, the weight may be negative if the transition probability is small.
상기 전이 가중치가 -∞인 경우에는 어떠한 경우에도 해당 전이가 일어날 수없음을 의미한다.If the transition weight is -∞, it means that no transition can occur in any case.
예를 들어, 도 3의 확장 품사 전이망 행렬에서 (NN, JO)의 행렬값은 1로서, 이것은 어절 내에서 NN(명사) 뒤에 JO(조사) 형태소가 뒤따르는 것이 가능하며 이때 전이 가중치 값이 1 임을 나타낸다.For example, in the extended part-of-speech transition network matrix of FIG. 3, the matrix value of (NN, JO) is 1, which may be followed by JO (irradiation) morpheme after NN (noun) within a word, where the transition weight value is Indicates 1
또, (JO, VV)의 행렬값은 -5로서, 이것은 JO(조사) 뒤에 VV(동사)가 뒤따르는 것이 가능하기는 하지만 0 보다 작은 값이므로 어절에서 어절로의 품사 전이인 어절간 전이임을 알 수 있다.Also, the matrix value of (JO, VV) is -5, which means that it is possible to follow VV (verb) after JO (irradiation), but it is less than 0, so it is a transition between words from word to word. Able to know.
한편 (VV, NN)은 가중치가 -∞인데 이것은 띄붙 오류와 관계없이 어떤 경우에도 VV(동사) 뒤에 NN(명사)가 뒤따를 수 없다는 것을 나타낸다.(VV, NN), on the other hand, has a weight of -∞, indicating that NN (noun) can not be followed by VV (verb) in any case, regardless of error.
종래의 기술에서 어절 구조 정보나 형태소 오토마타 등으로 불리기도 하는 품사 전이망은 어절내 전이만 가지므로, 본 발명에서 사용하는 상기 확장 품사 전이망(12)에서 어절간 전이와 전이 가중치 정보를 빼면 종래의 기술에서 사용하는 품사 전이망과 같아진다. 본 발명에서는 어절간 전이와 전이 가중치 정보를 허용하고 있는데, 그 이유는 물론 띄붙 오류를 처리하기 위해서이다.Since the part-of-speech transition network, also called word structure information or morpheme automata, has only intra-word transitions in the prior art, the word-to-word transition and transition weight information are subtracted from the extended part-of-speech transition network 12 used in the present invention. It is like the part-of-speech network used by technology. In the present invention, the inter-word transition and the transition weight information are allowed for the reason, of course, in order to deal with error.
예를 들어, "힘""좋은""엔진을""쓰는"과 같은 네 어절이 있는데 각각은 단위 어절 측면에서는 올바른 어절이지만 네 어절이 붙어서 "힘좋은엔진을쓰는"과 같이 하나의 어절이 되어 버리면, 종래의 방법으로는 품사 전이망에서 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하지 않기 때문에 분석을 할 수 없게 된다.For example, there are four words, such as "power", "good", "engine", "each", each of which is a correct word in terms of unit words, but four words are attached to one word, such as "using a good engine". If discarded, the conventional method does not allow the transition of (NN, AJ), (EM, NN), (JO, VV), etc. in the part-of-speech transition network, so that analysis cannot be performed.
그러나 본 발명의 상기 확장 품사 전이망(12)에서는 (NN, AJ), (EM, NN), (JO, VV) 등의 전이를 허용하므로 이러한 어절에 대해서도 분석을 할 수 있게 된다.However, the extended part-of-speech transition network 12 of the present invention allows the transition of (NN, AJ), (EM, NN), (JO, VV) and the like, so that such words can be analyzed.
다만, (JO, VV) 전이에서도 알 수 있듯이 품사 전이 자체는 허용하되 가중치 값은 0 보다 작은 값을 부여함으로써 정상적인 품사 전이인 어절내 품사 전이와 구분할 수 있도록 전이망이 구성되어 있다.However, as can be seen from the (JO, VV) transition, the part-of-speech transition itself is allowed, but the weighting value is less than 0, so that the transition network is configured to be distinguished from the normal part-of-speech part of speech transition.
결과적으로 띄어쓰기가 옳게 된 입력 어절 내에서의 통상적인 품사 전이는 0 이상의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 높게 하고, 띄붙 어절 경계에서 발생하는 품사 전이는 음의 점수를 부여받게 되므로 전체 어절의 적합도 점수를 낮게하는 작용을 한다.As a result, the normal part-of-speech transition within the input word with correct spacing is given a score of 0 or higher, which increases the goodness-of-fit score of the whole word, and the part-of-speech transition occurring at the word boundary is given a negative score. Its function is to lower the goodness of fit.
그러나 비록 점수는 낮지만 -∞ 즉, 분석할 수 없는 어절로 취급하지는 않는데서 종래의 기술과는 차이가 있다.However, although the score is low, -∞, that is, it is not treated as an inparable word, is different from the conventional technology.
도 2 는 본 발명이 적용되는 형태소 분석장치 상의 어절 분석방법 순서도이다.2 is a flowchart of a word analysis method on a morpheme analysis apparatus to which the present invention is applied.
먼저 문자열 입력장치에서 입력된 문자열에서 공백으로 구분된 어절을 분리해내고(S1), 분리된 어절의 부분 문자열을 사전에서 탐색하여 분석 후보 리스트를 생성해낸다.First, a word separated by a space is separated from a string input by a string input device (S1), and a substring of the separated word is searched in a dictionary to generate a candidate analysis list.
각 부분 문자열마다 여러 품사로 분석 가능하므로 전체 어절에 대해서는 이들의 조합 때문에 많은 수의 분석 후보 리스트가 생길 수 있다.Because each part string can be analyzed by several parts of speech, the combination of them can produce a large number of candidate candidates for analysis.
다만 이때 확장 품사 전이망에서 품사 전이가 없는 리스트는 분석 후보에서 제외된다.In this case, however, the list without the part-of-speech transition in the extended part-of-speech network is excluded from the candidate for analysis.
이렇게 만들어진 분석 후보 리스트의 집합을 L = {l1, ..., ln}이라고 하고(S2), L의 원소인 각 분석 후보 리스트 li에 대한 적합도 평가를 위해 i를 1로 초기화한다(S3).The set of analysis candidate lists thus created is called L = {l 1 , ..., l n } (S2), and i is initialized to 1 to evaluate the goodness of fit for each analysis candidate list l i that is an element of L ( S3).
그리고 i가 n 보다 큰가를 판단한 후(S4) 크지 않으면, 임의의 분석 후보 리스트를 li= {m1/t1, ..., mni/tni}(단 li∈L, mj는 형태소 문자열, tj는 품사)이라고 표시한다(S5).After determining whether i is greater than n (S4), if it is not large, a random analysis candidate list is obtained by l i = {m 1 / t 1 , ..., m ni / t ni } (where li∈L and m j are A stemmed string, t j is a part-of-speech) (S5).
리스트 li에서 t1은 어절 시작(WB) 형태소이고, tni는 어절 끝(WE) 형태소이다.In list l i , t 1 is the word beginning (WB) morpheme, and t ni is the word ending (WE) morpheme.
이 리스트의 원소는 ni개이므로 총 ni-1개의 품사 전이 (tj, tj+1)(1≤j<ni)가 생기는데, 상기 j가 ni보다 큰가를 판단하여(S6) 크지 않을 경우 품사 전이(tj, tj+1)의 전이 가중치를 li의 적합도 값인 si에 더한 후(S7) 상기 j값을 증가시키는(S8) 과정을 리스트의 끝까지 반복하면, 후보 리스트 li에 대한 적합도 값 si가 계산된다.Since there are n i elements in this list, a total of n i -1 parts-of-speech transitions (t j , t j + 1 ) (1≤j <n i ) are generated, and it is determined whether j is greater than n i (S6). If it is not large, adding the transition weight of the part-of-speech transition (t j , t j + 1 ) to s i , the goodness-of-fit value of l i (S7), and then increasing the value of j (S8) to the end of the list, the candidate list The goodness-of-fit values s i for l i are calculated.
상기 판단(S6) 후 j가 ni보다 큰 경우에는 i값을 증가시켜(S9) 다음 li의 적합도 계산을 계속한다.If j is greater than n i after the determination (S6), the value of i is increased (S9) to continue calculating the goodness of fit of the next li.
이 과정을 L의 모든 후보 분석 리스트 li에 대해 반복하면(S4), 각 후보 리스트별로 적합도 값 si가 계산되는데, 이 중에서 최종 결과를 선택해야 한다.When this process is repeated for all candidate analysis lists l i of L (S4), a goodness-of-fit value s i is calculated for each candidate list, from which a final result should be selected.
최종 결과의 선택을 위해 먼저 모든 후보 리스트 li를 si의 내림차순으로 정렬하고(S10) 정렬된 si중에 가장 큰 값인 S1이 0 보다 큰가를 판단하여(S11) S1이 0 보다 크면 정상적인 어절에 대한 분석 결과로 볼 수 있으므로 si≥ 0인 li를 최종 결과로 선택하면 되고(S12), si이 0 보다 작으면 띄붙 오류에 대한 분석 결과로 볼 수 있으므로 si가 큰 순서대로 최종 결과로 선택하면 된다(S13).First, sort all candidates list l i as the s i in descending order for the selection of final results (S10) the largest value in the ordered s i S 1 is determined to greater than or equal to 0 (S11) S 1 is greater than zero, the normal since available analysis results for Eojeol s i ≥ 0 a l i a is selected as the final result is (S12), s i is less than zero ttuibut it available on analysis of the error s i is as large sequence What is necessary is to select it as a final result (S13).
다만 후자의 경우 띄붙 오류 어절은 두 어절 이상이 붙어 있으므로 어절 길이가 길고, 따라서 분석 후보의 수 역시 매우 많아지므로 전부 선택하는 것은 곤란하고 본 발명에서는 s1과의 차가 9 보다 작은 것들인 적정선 안에 있는 분석 후보만 최종 결과로서 선택한다(S13).However, in the latter case ttuibut error Eojeol because there is more than Eojeol attached Eojeol length is long, and therefore the number of analyzes candidate also very much because all of Choosing the invention and difficulties of the car the little things than 9 and s 1 useful to have somewhere Only analysis candidates are selected as the final result (S13).
이렇게 선택된 최종 결과는 별도의 저장장치에 저장된 다음(S14), 화면/인쇄 등의 표시 과정을 통해 결과가 출력된다(S15).The selected final result is stored in a separate storage device (S14), and then the result is output through a display process such as screen / printing (S15).
도 4 는 본 발명에 따른 한국어 어절의 형태소 분석 예시도로서, 띄붙 오류 어절 "힘좋은엔진을쓰는"이 입력되었을 때의 분석 예를 도시하고 있다.4 is a diagram illustrating an example of a morpheme analysis of a Korean word according to the present invention, which shows an example of analysis when an error word "using a powerful engine" is input.
먼저 사전을 참조하여 부분 문자열별 형태소를 얻고(S1), 그 조합으로 다수의 분석 후보 리스트를 생성해낸다(S2).First, a morpheme for each substring is obtained by referring to a dictionary (S1), and a plurality of analysis candidate lists are generated by the combination (S2).
그러나 이 과정에서 상당수의 후보 리스트가 접속 정보나 품사 전이망 정보를 통해 미리 배제될 수 있음을 알 수 있다(S2).However, in this process, it can be seen that a large number of candidate lists can be excluded in advance through access information or part-of-speech network information (S2).
종래의 발명은 어절간 전이를 허용하지 않으므로 사실상 이 과정에서 모든 후보가 배제되어 곧바로 추정을 통해 "힘좋은엔진을쓰"를 명사로, "는"을 조사로 해서 틀린 분석 결과를 내게 된다.Since the conventional invention does not allow the transition between words, virtually all candidates are excluded in this process, and the estimation results in an incorrect analysis result using "no" as a noun and "no" as a noun.
그러나 본 발명에서는 어절간 전이를 허용하는 확장 품사 전이망을 이용하므로 비록 띄어쓰기 및 붙여쓰기 오류가 있는 어절이라도 후보 형태소 리스트를 제대로 구할 수 있음을 볼 수 있다(S2).However, since the present invention uses an extended part-of-speech network that allows inter-word transitions, it can be seen that candidate morphological lists can be properly obtained even in a word having a spacing and pasting error (S2).
이렇게 해서 얻은 후보 형태소 리스트에 대해 적합도 값을 계산하여(S4), 이 중에서 적합도 값이 큰 것을 선택하여 최종 결과를 얻는다(S10).The goodness-of-fit value is calculated for the candidate morpheme list thus obtained (S4), and among these, the one with the high goodness-of-fit value is selected to obtain the final result (S10).
상술한 바와 같이 본 발명의 분석 장치에 따르면, 띄붙 오류가 있는 어절에 대해서도 분석 후보를 생성해 내고 그 중에서 가장 적합한 후보를 고를 수 있는 수단을 갖추고 있기 때문에 띄어쓰기 오류가 없는 어절은 물론 띄붙 오류가 있는 어절도 분석해 낼 수 있게 된다.As described above, according to the analysis apparatus of the present invention, since the analysis candidate is generated for a word having a spacing error and the most suitable candidate is selected, the word without the spacing error is of course not included. You can also analyze words.
또한 기존의 기술은 일단 분석이 실패한 후에 처리를 하거나 여러 번 분석을 반복해서 어절 경계룰 찾기 때문에 성능의 저하가 크지만, 본 발명은 오류가 있는 어절에 대해서도 오류가 없는 어절을 처리할 때와 동일한 방법으로 처리를 할 수 있게 해 주므로 띄어쓰기 및 붙여쓰기 오류가 있는 어절을 분석하면서도 성능의 저하가 거의 없다.In addition, the conventional technology performs a large amount of performance deterioration because the processing is performed once the analysis fails, or the analysis is repeated several times to find the word boundary, but the present invention is the same as when processing an error-free word even for an error word. It allows you to do this in a way that allows you to analyze words with spaces and paste errors while showing little performance degradation.
또한 일차 분석 실패 후 강제적으로 추정되는 명사의 수를 대폭 줄일 수 있으므로 대용량 문서의 자동 색인 등에서 색인어 추출 등에 효과적으로 이용할 수있다.In addition, the number of nouns that are forcibly estimated after a primary analysis can be greatly reduced, which can be effectively used for extracting index words from automatic indexing of large documents.
그리고 문서의 자동 처리를 위해 문서 작성자에게 띄어쓰기 원칙을 준수할 것을 강요하지 않고도 융통성 있게 문서를 작성할 수 있게 함으로써, 인간 중심의 문서 처리 기술을 구현하는데 효과적으로 이용할 수 있다.In addition, it allows for flexible document creation without compulsory document compulsory compliance for document processing, which can be effectively used to implement human-oriented document processing technology.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980036775A KR100328963B1 (en) | 1998-09-07 | 1998-09-07 | Korean stemming method and device thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019980036775A KR100328963B1 (en) | 1998-09-07 | 1998-09-07 | Korean stemming method and device thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20000018924A KR20000018924A (en) | 2000-04-06 |
KR100328963B1 true KR100328963B1 (en) | 2002-09-04 |
Family
ID=19549790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980036775A KR100328963B1 (en) | 1998-09-07 | 1998-09-07 | Korean stemming method and device thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100328963B1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100735308B1 (en) * | 2005-08-30 | 2007-07-03 | 경북대학교 산학협력단 | Recording medium for recording automatic word spacing program |
KR100757340B1 (en) * | 2006-03-30 | 2007-09-11 | 엔에이치엔(주) | Method for improving performance of morpheme analyzer using automatic extraction and system for executing the method |
KR102109858B1 (en) | 2018-10-05 | 2020-05-12 | 동아대학교 산학협력단 | System and Method for Korean POS Tagging Using the Concatenation of Jamo and Syllable Embedding |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980066877A (en) * | 1997-01-29 | 1998-10-15 | 김광호 | Morphological interpretation based on types of unregistered words |
-
1998
- 1998-09-07 KR KR1019980036775A patent/KR100328963B1/en not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980066877A (en) * | 1997-01-29 | 1998-10-15 | 김광호 | Morphological interpretation based on types of unregistered words |
Also Published As
Publication number | Publication date |
---|---|
KR20000018924A (en) | 2000-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7680649B2 (en) | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages | |
US5907839A (en) | Algorithm for context sensitive spelling correction | |
KR100999488B1 (en) | Method and apparatus for detecting document plagiarism | |
Ekbal et al. | Named entity recognition in Bengali: A multi-engine approach | |
US5285386A (en) | Machine translation apparatus having means for translating polysemous words using dominated codes | |
Sedláček et al. | A new Czech morphological analyser ajka | |
Verberne | Context-sensitive spell checking based on word trigram probabilities | |
KR100835706B1 (en) | System and method for korean morphological analysis for automatic indexing | |
Ismailov et al. | A comparative study of stemming algorithms for use with the Uzbek language | |
WO2005064490A1 (en) | System for recognising and classifying named entities | |
Chaabi et al. | Amazigh spell checker using Damerau-Levenshtein algorithm and N-gram | |
Gulati et al. | A novel technique for multidocument Hindi text summarization | |
Dai et al. | A new statistical formula for Chinese text segmentation incorporating contextual information | |
Ekbal et al. | Voted NER system using appropriate unlabeled data | |
Kaur et al. | Spell checker for Punjabi language using deep neural network | |
KR100328963B1 (en) | Korean stemming method and device thereof | |
Merhbene et al. | An experimental study for some supervised lexical disambiguation methods of Arabic language | |
Singh | GPStemmer—a gurmukhi punjabi stemmer | |
Ren et al. | A hybrid approach to automatic Chinese text checking and error correction | |
JP2009176148A (en) | Unknown word determining system, method and program | |
Cheragui et al. | Arabic Text Segmentation using Contextual Exploration and Morphological Analysis | |
Farkas et al. | Improving a state-of-the-art named entity recognition system using the world wide web | |
Manne et al. | A Feature Terms based Method for Improving Text Summarization with Supervised POS Tagging | |
SAMIR et al. | AMAZIGH NAMED ENTITY RECOGNITION: A NOVEL APPROACH. | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130304 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20140303 Year of fee payment: 13 |
|
LAPS | Lapse due to unpaid annual fee |