KR20080028655A - Method and apparatus for part-of-speech tagging - Google Patents
Method and apparatus for part-of-speech tagging Download PDFInfo
- Publication number
- KR20080028655A KR20080028655A KR1020060094220A KR20060094220A KR20080028655A KR 20080028655 A KR20080028655 A KR 20080028655A KR 1020060094220 A KR1020060094220 A KR 1020060094220A KR 20060094220 A KR20060094220 A KR 20060094220A KR 20080028655 A KR20080028655 A KR 20080028655A
- Authority
- KR
- South Korea
- Prior art keywords
- word
- speech
- morpheme
- speech tagging
- information
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
Description
도 1은 본 발명의 품사 태깅 장치의 블록도이다.1 is a block diagram of a part-of-speech tagging apparatus of the present invention.
도 2는 종래의 형태소 해석 방법 중 태뷸러(Tabular) 파싱법을 적용하여 '과속을(gwasoG_L)' 에 대해서 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이다. FIG. 2 is a diagram illustrating an example of a letter combination for performing morpheme analysis on 'gwasoG_L' by applying a tabular parsing method among conventional morpheme analysis methods.
도 3은 도 2의 형태소 해석에 의한 '과속을(gwasoG_L)' 에 대한 품사 리스트 결과를 나타낸 도면이다.FIG. 3 is a diagram illustrating a part-of-speech list result for 'speeding (gwasoG_L)' by the morpheme analysis of FIG. 2.
도 4는 도 1의 품사 태깅 장치에서 제 1 저장부 내지 제 6 저장부를 통합한 품사 태깅 장치의 블록도이다. 4 is a block diagram of a part-of-speech tagging device incorporating a first storage unit to a sixth storage unit in the part-of-speech tagging device of FIG. 1.
도 5는 본 발명의 품사 태깅 방법의 흐름도이다.5 is a flowchart of a part-of-speech tagging method of the present invention.
* 도면의 주요부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings
110 : 문장 입력부 120 : 형태소 해석부110: sentence input unit 120: morphological analysis unit
130 : 제 1 저장부 131 : 어절 전처리 사전130: first storage unit 131: word preprocessing dictionary
140 : 제 2 저장부 141 : 형태소 사전140: second storage unit 141: stemming dictionary
150 : 제 3 저장부 151 : 품사 접속 정보150: third storage unit 151: parts of speech connection information
160 : 제 4 저장부 161 : 어절내 형태소 결합 오류 리스트160: fourth storage unit 161: stemming combination error list in the word
170 : 품사 태깅부170: part of speech tagging unit
180 : 제 5 저장부 181 : 품사 트라이그램180: fifth storage unit 181: parts of speech trigram
191 : 제 6 저장부 191 : 어절간 형태소 결합 오류 리스트191: 6th storage unit 191: stemming error list between words
200 : 품사 태깅 결과 출력부200: Part of speech tagging result output unit
본 발명은 품사 태깅 장치 및 태깅 방법에 관한 것으로, 더 자세하게는 빠른 속도 및 높은 정확도의 품사 태깅 결과를 출력할 수 있는 품사 태깅 장치 및 태깅 방법에 관한 것이다.The present invention relates to a part-of-speech tagging device and a tagging method, and more particularly, to a part-of-speech tagging device and a tagging method capable of outputting a part-of-speech tagging result with high speed and high accuracy.
품사 태깅이란 문장 내에서 단어가 사용된 문맥에 따라서 각 단어의 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘적 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정에서 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 또한 기계 번역, 언어 정보 획득 도구, 철자검사, 사전 구축 등 자연어 처리의 제반 분야에서 필수적인 과정으로 인식되고 있다.Part-of-speech tagging refers to the process of assigning the correct part-of-speech information for each word, depending on the context in which the word is used in the sentence. Part-of-speech tagging is used in preprocessing to reduce the excessive burden in the parsing phase due to lexical ambiguity, and can be used for index and search words with high recall and accuracy in information retrieval systems. It is also recognized as an essential process in all areas of natural language processing such as machine translation, language information acquisition tools, spell checking, and dictionary construction.
일반적으로 품사 태깅 방법에는 크게 통계 기반 접근 방법(Statistical Approach)과 규칙 기반 접근 방법(Rule-Based Approach), 그리고 통계 기반 접근 방법과 규칙 기반 접근 방법을 통합한 통합 접근 방법(Hybrid Approach)으로 구분할 수 있다.In general, parts of speech tagging can be classified into statistical approach and rule-based approach, and hybrid approach that combines statistical and rule-based approaches. have.
통계 기반 품사 태깅 방법은 실세계의 자연어 용례들과 부속 정보를 포함하는 원시 또는 태깅된 코퍼스를 분석하고 자연어에 대한 통계 정보를 추출하여 얻는 확률을 이용하여 자연어 처리의 중의성 문제를 확률적으로 해결하는 방법이다. 이 방법은 거의 모든 언어 현상에 적용할 수 있지만, 실세계 언어 현상을 충분히 대표할 수 있는 양과 질의 코퍼스가 존재하지 않아 데이터 부족 문제로 인해 정확도가 저하된다. The statistical-based part-of-speech tagging method probabilistically solves the neutrality problem of natural language processing by analyzing the raw or tagged corpus including real-world natural language usages and sub information and using the probability obtained by extracting statistical information about natural language. Way. This method can be applied to almost all linguistic phenomena, but the lack of quantity and query corpus that can adequately represent real-world linguistic phenomena reduces accuracy due to lack of data.
통계 기반 품사 태깅 방법은 크게 어휘 확률만을 이용하는 방법, HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법, N-gram의 문맥 확률과 어휘 확률을 이용하는 방법으로 분류할 수 있고, 이 밖에도 신경망을 이용하는 방법, 퍼지망(Fuzzy network)을 이용하는 방법 등이 있다.Statistics-based part-of-speech tagging methods can be classified into methods using only lexical probabilities, methods using autonomous learning of HMM (Hidden Markov Model), methods using context probabilities and lexical probabilities of N-gram, and other methods using neural networks. And the use of a fuzzy network.
규칙 기반 품사 태깅 방법은 자연어에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 자연어 처리의 중의성 문제를 해결하는 방법으로, 지식 기반 방법(Knowledge-Based Approach) 또는 제약 기반 접근 방법(Constraint-Based Approach)이라고도 한다. 이 방법은 일관성 있는 결정적 규칙을 얻기가 어렵고 많은 규칙들을 잘 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만, 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 보인다. 최근에는 사용가능해진 대량의 원시 코퍼스 및 태깅된 코퍼스의 구축과 컴퓨터 성능 향상에 힘입어 태깅 규칙을 자동으로 학습하고자 하는 연구가 활발히 진행되고 있다.The rule-based part-of-speech tagging method finds common principles or deterministic rules applied to natural language and solves the neutrality problem of natural language processing by using knowledge-based approach or constraint-based approach. Also called Constraint-Based Approach. This method is generally not robust because it is difficult to obtain consistent deterministic rules and it is not easy to control many rules well, but it is highly accurate for the phenomena to which rules can be applied. Recently, research has been actively conducted to automatically learn the tagging rules based on the construction of a large amount of raw corpus and tagged corpus which have become available, and the improvement of computer performance.
통합 품사 태깅 방법은 대량의 데이터에서 추출한 확률 및 통계 정보와 언어 지식을 모두 이용함으로써 통계 기반 접근 방법과 규칙 기반 접근 방법의 장단점을 상호 보완하고자 하는 방법이다.The integrated part-of-speech tagging method seeks to complement the strengths and weaknesses of the statistical and rule-based approaches by using both probability and statistical information and linguistic knowledge extracted from large amounts of data.
대한민국 특허등록 제284769호(등록일:2000.12.22)에는 형태소 분석방법 중에 통계 기반 분석 방법을 사용한 예가 개시되어 있다. 그러나, 이 통계 기반 분석 방법은 상태 기반 품사 태깅법과 경로 기반 품사 태깅법을 모두 활용하여 품사 태깅함으로써 규칙 기반 품사 태깅 방법에 비해 구현, 확장, 관리가 용이하다는 장점은 있으나, 각 단어에 대해 각각 상태 기반 품사 태깅 및 경로 기반 품사 태깅을 수행하고, 그 태깅 결과를 병합하여 병합된 결과에서 두 가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하는 방식을 취하고 있기 때문에, 많은 계산량을 필요로 하며 이로 인해 품사 태깅 수행 속도가 느려서 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.Korean Patent Registration No. 284769 (Registration Date: December 22, 2000) discloses an example of using a statistical-based analysis method of the morpheme analysis method. However, this statistical-based analysis method has the advantage that it is easier to implement, extend, and manage than the rule-based part-of-speech tagging method by using the part-of-speech tagging method using both the state-based part-of-speech tagging method and the path-based part-of-speech tagging method. Because of the method of performing part-of-speech tagging and path-based part-of-speech tagging, merging the tagging results to remove non-fit parts of a word that have been assigned two parts of speech from the merged result, or assigning suitable parts of speech, Due to this, there is a problem that it is difficult to apply in a part where a quick response such as voice synthesis is required because the part-of-speech tagging is slow.
게다가, 상기 통계 기반 분석 방법은 어절별 완전 서치(Full search)를 적용하거나 비터비 서치(Viterbi search) 또는 비터비 빔 서치(Viterbi beam search)를 적용하고 있기 때문에, 어절내에 형태소 오류가 존재하거나 어절간에 형태소 오류가 존재하는 경우에는 정확한 품사 태깅을 수행할 수 없다는 한계점을 갖고 있다.In addition, since the statistic-based analysis method applies full search by word or applies Viterbi search or Viterbi beam search, there is a morpheme error in a word or a word. If there is a stemming error in the liver, there is a limitation that accurate part-of-speech tagging cannot be performed.
따라서, 본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음성 합성과 같은 빠른 응답이 필요한 곳에도 적용할 수 있으며, 빠른 속도 및 높은 정확도의 품사 태깅 결과를 출력할 수 있는 품사 태깅 장치 및 태깅 방법을 제공하는데 있다.Accordingly, the present invention is to solve such a problem, the object of the present invention can be applied to a place where a fast response, such as speech synthesis, part-of-speech tagging that can output a high-speed and high accuracy part-of-speech tagging results An apparatus and tagging method are provided.
상기 과제를 이루기 위하여 본 발명에 따른 품사 태깅 장치는, 품사 태깅을 수행할 문장을 입력받는 문장 입력부; 어절별로 미리 형태소 분석된 정보가 포함되어 있는 어절 전처리 사전과, 형태소 사전과, 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보와, 어절내의 형태소 결합 오류 제거를 위한 어절내 형태소 결합 오류 리스트와, 품사 트라이그램(trigram) 정보와, 어절간 형태소 결합 오류 제거를 위한 어절간 형태소 결합 오류 리스트가 저장되어 있는 데이터 저장부; 상기 문장 입력부를 통해 입력받은 문장을 어절로 분리하여 분리된 어절이 상기 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행한 후, 상기 형태소 해석 결과에 대하여 상기 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하고, 상기 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 형태소 해석부; 및 상기 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하고, 상기 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 품사 태깅부를 포함하는 것을 특징으로 한다.In order to achieve the above object, the part-of-speech tagging apparatus according to the present invention comprises: a sentence input unit for receiving a sentence to perform part-of-speech tagging; Word preprocessing dictionary including information pre-morphologically analyzed for each word, morpheme dictionary, part-of-speech access information that is information on accessibility between morphemes, morphological combination error list in word to eliminate morphological association error in word, A data storage unit for storing the parts-of-speech trigram information and the word-to-word stemming error list for removing the word-to-word stemming error; After the sentence inputted through the sentence input unit is divided into words, it is checked whether a separated word exists in the pre-word pre-processing dictionary, and the morpheme analysis is performed. Then, the morpheme analysis results are combined using the parts-of-speech connection information. A morpheme analysis unit to check whether this is possible and to remove an error from the morpheme analysis result using the morpheme combining error list in the word; And a part-of-speech tagging unit that selects a part-of-speech analysis result selected from the morpheme analysis results using the part-of-speech trigram information and removes an error from the part-of-speech tagging result by using the morpheme combining error list. It is characterized by including.
한편, 상기 과제를 이루기 위하여 본 발명에 따른 품사 태깅 방법은, (a) 품사 태깅을 수행할 문장을 입력받는 단계; (b) 상기 입력받은 문장을 어절로 분리하여, 상기 분리된 어절이 어절별로 미리 형태소 분석된 정보가 기록되어 있는 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행하는 단계; (c) 상기 형태소 해석 결과에 대하여 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하는 단계; (d) 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 단계; (e) 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하는 단계; 및 (f) 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 단계를 포함하는 것을 특징으로 한다.On the other hand, to achieve the above object, the part-of-speech tagging method according to the present invention, (a) receiving a sentence to perform the part-of-speech tagging; (b) dividing the received sentence into a word, and performing a morpheme analysis by checking whether the separated word exists in a word preprocessing dictionary in which the information pre-analyzed by each word is recorded; (c) checking whether the morpheme analysis is possible by using the part-of-speech connection information on the result of the morpheme analysis; (d) removing an error from the morphological analysis result using an intra-word morpheme combining error list; (e) selecting a part-of-speech tag by selecting the morpheme analysis result that is optimally determined from the morpheme analysis results using the part-of-speech trigram information; And (f) removing an error from the part-of-speech tagging result by using a word-to-word morphological combination error list.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 품사 태깅 장치의 블록도이다.1 is a block diagram of a part-of-speech tagging apparatus of the present invention.
도 1에 도시된 바와 같이, 본 발명의 품사 태깅 장치는, 크게 문장 입력부(110), 형태소 해석부(120), 제 1 저장부(130), 제 2 저장부(140), 제 3 저장부(150), 제 4 저장부(160), 품사 태깅부(170), 제 5 저장부(180), 제 6 저장부(190), 품사 태깅 결과 출력부(200)로 구성되어 있다.As shown in FIG. 1, the part-of-speech tagging apparatus of the present invention includes a
문장 입력부(110)는 품사 태깅을 위한 문장 등을 입력받는다. 상기 문장 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 형식으로 입력될 수도 있고 키보드를 통하여 사용자로부터 실제 문장을 입력받을 수도 있다.The
형태소 해석부(120)는 문장 입력부(110)로부터 문장을 입력받아 제 1 저장부(130)에 저장된 어절 전처리 사전(131)을 이용하여 입력된 문장을 어절로 분리하여 형태소 해석을 수행한다.The
여기에서, 상기 어절 전처리 사전(131)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있으며, 이에 따라 이하에 후술하는 형태소 사전의 검색 없이도 바 로 어절별 형태소 해석이 가능하게 된다.Here, the word preprocessing
다음으로, 상기 형태소 해석부(120)는 상기 분리된 어절이 상기 어절 전처리 사전(131)에 존재하지 않는 것으로 확인되면, 해당 어절을 음절로 분리한 다음 그 음절이 상기 제 2 저장부(140)에 저장된 형태소 사전(141)에 존재하는지, 또는 음절과 다른 음절과의 조합이 상기 형태소 사전(141)에 존재하는지 확인하는데, 상기 형태소 사전(141)에는 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있다.Next, when it is determined that the separated word does not exist in the word preprocessing
즉, 상기 형태소 해석부(120)는 입력 문장에 대하여 제 1 저장부(130) 및 제 2 저장부(140)에 저장되어 있는 정보를 이용하여 형태소 해석을 수행한다. 여기에서, 형태소 해석은 헤드-테일(Head-tail) 구분법과 태뷸러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 적용될 수 있으며, 본 발명의 이해를 돕기 위해 각 형태소 해석 방법에 대하여 간략하게 설명하면 다음과 같다.That is, the
헤드-테일(Head-tail) 구분법이란 단어로부터 형태소를 분리하는 방법으로 단어를 변형되지 않는 부분(head)과 변형되는 부분(tail)으로 구분하고, 헤드(head)와 테일(tail) 간의 결합 관계를 품사 접속 정보표에 의해 검사하여 형태소 분석을 수행하는 방법이다.Head-tail delimiting is a method of separating morphemes from words. The word is classified into unmodified head and deformed tail, and the coupling relationship between head and tail. Morphological analysis is performed by checking the part-of-speech connection information table.
태뷸러(Tabular) 파싱법이란 버텀-업(bottom-up) 방식에 의한 형태소 분석 방법으로, 먼저 단어를 이루고 있는 모든 자모 단위의 부분 문자열에 대해서 사전을 검색하여 모든 가능한 어휘 형태소와 문법 형태소를 추출한 후 CYK(Cocke-Younger-Kasami) 알고리즘을 적용하여 단어를 이루는 형태소들을 찾는 방법이다. 다시 말하 면, 추출된 형태소들은 삼각 테이블에 저장되고 여기에 형태소들의 접속관계를 검사하기 위해서 품사 접속 정보표를 사용하여 연결 가능한 모든 형태소들의 리스트를 찾는 방법이다. 미등록어를 추정할 때에는 버텀-업(bottom-up) 방법으로 해석가능한 부분외의 나머지 부분에 대해서 추정한다.Tabular parsing is a bottom-up morpheme analysis method that first searches a dictionary for substrings of all the Jamo units that make up a word, and extracts all possible lexical and grammatical morphemes. After that, we apply the Cocke-Younger-Kasami (CYK) algorithm to find the morphemes of words. In other words, the extracted morphemes are stored in a triangular table and a method of finding a list of all connectable morphemes using a part-of-speech connection information table to check the connection relations of the morphemes. When estimating unregistered words, the remaining parts other than the parts that can be interpreted by the bottom-up method are estimated.
최장 일치법이란 단어를 이루고 있는 부분 문자열 집합을 구할 때 그 단어를 이루고 있는 형태소들의 집합 중에서 가장 긴 형태소를 우선적으로 선택하여 검사는 것이고, 최단 일치법은 가장 짧은 형태소를 우선적으로 검사하는 방법이다.The longest coincidence method is to select and examine the longest morpheme among the sets of morphemes constituting the word, and the shortest coincidence method is to first check the shortest morpheme.
음절 단위 분석법이란 통계적 음절 특성을 이용하는 것으로, 처리단위를 자소가 아닌 한글의 특성에 맞게 음절 단위로 하는 방법을 말한다.The syllable unit analysis method uses statistical syllable characteristics. The syllable unit analysis method refers to a method of processing syllable units according to the characteristics of Korean characters, not phonemes.
한편, 상기 형태소 해석부(120)는 상기 형태소 해석 결과에 대하여, 제 3 저장부(150)에 저장된 품사 접속 정보(151)를 이용하여 형태소들간의 결합이 가능한가를 확인하는데, 여기에서, 상기 품사 접속 정보(151)는 형태소들간의 결합이 가능한가를 확인하는데 사용되는 정보이다. On the other hand, the
즉, 품사 접속 정보(151)란 품사들간의 연결 가능한 정보를 나열한 정보로, 예를 들어, 명사 뒤에는 명사가 올 수 있고 어미나 조사가 올 수 있고, 동사 뒤에는 어미가 오며, 형용사 뒤에는 어미가 오고, 어미 뒤에는 어미가 올 수 있다 등의 정보를 나열한 리스트를 의미하며, 이와 같은 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력된다.That is, the part-of-
또한, 상기 형태소 해석부(120)는 상기 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력되면, 제 4 저장부(160)에 저장된 어절내 형태소 결 합 오류 리스트(161)를 이용하여 결합 가능한 형태소간의 리스트에서 오류를 추출하여 제거하는데, 이에 따라 형태소 해석의 정확도를 높일 수 있을 뿐만 아니라 형태소 과분석에 따른 계산량이 감소되어 품사 태깅 속도가 빨라지게 된다.In addition, when the list of morphemes that can be combined according to the part-of-
한편, 상기와 같이 형태소 해석부(120)를 통해 입력 문장에 대한 형태소 해석이 완료되면 형태소 해석 결과는 품사 태깅부(170)로 전달되며, 품사 태깅부(170)는 제 5 저장부(180)에 저장된 품사 트라이그램(trigram) 정보(181)를 이용하여 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 하나 선택하여 품사 태깅한다.Meanwhile, when the morpheme analysis of the input sentence is completed through the
여기에서, 품사 트라이그램(trigram) 정보란, 하나의 단어는 이전 두 개의 단어에 영향을 받아서 발생한다는 트라이그램 모델(trigram model)에서 사용되는 값을 의미한다.Here, the part-of-speech trigram information means a value used in a trigram model in which one word is affected by two previous words.
또한, 상기 품사 태깅부(170)는 상기 품사 트라이그램(trigram) 정보(181)를 이용하여 품사 태깅이 이루어지면, 제 6 저장부(190)에 저장된 어절간 형태소 결합 오류 리스트(191)를 이용하여 품사 태깅의 오류를 추출하여 제거하며, 이에 따라 품사 태깅 오류가 줄어들게 된다. Also, when the part-of-speech tagging is performed using the part-of-
한편, 품사 태깅 결과 출력부(200)는 품사 태깅부(170)에서의 품사 태깅 결과를 모니터나 기타 출력 장치로 출력하는 기능을 수행한다.The part-of-speech tagging
즉, 본 발명의 품사 태깅 장치는, 품사 태깅시 어절별로 형태소 해석을 수행하고 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 이에 따라 자모조합 또는 음절별로 형태소 해석 및 품사 태깅을 수행하는 종래의 방법에 비하여 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있는데, 본 발명의 이해를 돕기 위해 종래의 자모조합 또는 음절별 품사 태깅 방법에 대하여 간략하게 설명하면 다음과 같다.That is, the part-of-speech tagging apparatus of the present invention performs morphological analysis for each word when tagging parts of speech, and reduces the morphological coupling error and the morphological coupling error between words in the morpheme analysis result. Compared to the conventional method of tagging, the amount of calculation and the possibility of error can be reduced, and the part-of-speech tagging can be performed accurately at a high speed. To facilitate the understanding of the present invention, a brief description of a conventional part-of-speech tagging method is performed. Is as follows.
도 2는 종래의 형태소 해석 방법 중 태뷸러(Tabular) 파싱법을 적용하여 '과속을(gwasoG_L)' 에 대해서 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이며, 도 3은 도 2의 형태소 해석에 의한 '과속을(gwasoG_L)' 에 대한 품사 리스트 결과를 나타낸 도면이다.FIG. 2 is a diagram illustrating an example of a letter combination for performing morpheme analysis on 'gwasoG_L' by applying a tabular parsing method among conventional morpheme analysis methods, and FIG. 3 is a morpheme of FIG. 2. This is a diagram showing a part-of-speech list result for 'speeding (gwasoG_L)' by analysis.
도 2를 참조하면, 태뷸러(Tabular) 파싱법을 적용하기 위해 우선 모든 자모를 분리하고 그 자모들의 조합들을 추출한다. 그리고, 추출한 자모들의 조합이 형태소 사전에 존재하는가를 판단하고, 형태소 사전에 존재하면(예를 들어 '과'(210)), 형태소 사전에 있는 각각의 품사들을 리스트한다.Referring to FIG. 2, in order to apply a tabular parsing method, first, all the hairs are separated and combinations of the hairs are extracted. Then, it is determined whether the extracted combinations of vowels exist in the morpheme dictionary, and if they exist in the morpheme dictionary (for example, 'and' 210), the parts of speech in the morpheme dictionary are listed.
도 2에서 화살표가 가리키는 행(220, 221, 222, 223)이나 열(230, 231, 232, 233)들은 자모들의 조합을 추출하기는 했지만 실제 사용될 수 없는 것들로 자모들의 조합에서 필요 없는 부분이며, 한글이 존재하지 않는 부분(240)은 사용되지 않는 부분이다. 따라서, 이렇게 많은 조합들을 가지고 형태소 사전에서 검색을 수행하므로 메모리의 낭비가 심하게 된다.In FIG. 2, the
도 3에 도시된 바에 따르면, '과' 는 명사(310), 형용사(311), 동사(312)가 될 수 있고, '과속' 은 명사(313)가 될 수 있다. '속', '으', '을', 'ㄹ' 도 마찬가지로 형태소 사전에서 찾아서 추출한 것을 해당 열에 연결한다. 다음으로 '과/명사' 와 '속/명사' 가 연결되는지, 그리고 '과/명사'와 '속/동사' 가 연결되는지를 확인한다. 연결여부의 확인은 품사 접속 정보를 이용한다.As shown in FIG. 3, 'and' may be a
즉, 상기와 같은 자모조합을 이용한 형태소 해석 및 이에 따른 품사 태깅 방법은 형태소들의 모든 조합 가능한 리스트를 생성하고 이에 대한 형태소 해석 및 품사 태깅을 수행하기 때문에 많은 계산량을 필요로 하며, 이로 인해 품사 태깅 수행 속도가 느려져 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.That is, the morpheme analysis and the part-of-speech tagging method using the above Jamo combinations require a large amount of computation because it generates a combinable list of morphemes and performs morphological analysis and part-of-speech tagging thereof, thereby performing the part-of-speech tagging. There is a problem that it is difficult to apply where a fast response such as speech synthesis is necessary because of the slow speed.
한편, 이와 같은 품사 태깅 속도의 문제점을 보완하기 위해 태뷸러(tabular) 파싱법을 변형하여 음절 단위로 형태소를 구성한 후, 구성된 음절이 형태소 사전에 있는가를 찾고, 품사 접속 정보를 활용하여 연결 가능한 형태소들만을 찾아 해석하는 방법도 개시되어 있는데, 이 방법 역시 많은 계산량을 필요로 할 뿐만 아니라, 어절내에 형태소 오류가 존재하거나 어절간에 형태소 오류가 존재하는 경우에는 정확한 품사 태깅을 수행할 수 없다는 문제점이 있다.On the other hand, in order to compensate for the problem of the part-of-speech tagging speed, the tabular parsing method is modified to form morphemes by syllable units, and then find whether the composed syllables are in the morpheme dictionary, and only the morphemes that can be connected by using the part-of-speech access information. There is also disclosed a method for finding and interpreting a. This method also requires a large amount of computation, and there is a problem in that the accurate part-of-speech tagging cannot be performed when there is a morpheme error in a word or a morpheme error between words.
결론적으로, 소용량의 합성기에 사용되는 품사 태깅 시스템의 경우 형태소 해석을 위한 대용량의 형태소 사전을 구비하는 것이 어려울 뿐만 아니라 형태소 해석시 품사 접속 정보를 사용한다 하더라도 많은 계산량을 필요로 하기 때문에 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.In conclusion, the part-of-speech tagging system used in the small-capacity synthesizer is not only difficult to have a large-capacity morpheme dictionary for morphological analysis, but also requires a large amount of calculation even if the part-of-speech connection information is used for morphological analysis. There is a problem that it is difficult to apply where a quick response is needed.
이에 비하여, 본 발명은 품사 태깅시 어절별로 형태소 해석을 수행하고, 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있으며, 이에 따라 음성 합성이나 음성인식, 다국어 번역기와 같은 빠른 응답이 필요한 자연어 처리 시스템에서 효율적으로 사용될 수 있다.In contrast, the present invention performs morphological analysis for each word when tagging parts of speech, and by reducing the morphological coupling error and the morphological coupling error between words in the morphological analysis results, the calculation amount and the probability of error are reduced, thereby enabling accurate part-of-speech tagging at high speed. The present invention can be efficiently used in natural language processing systems that require fast response such as speech synthesis, speech recognition, and multilingual translator.
도 4는 도 1의 품사 태깅 장치에서 제 1 저장부 내지 제 6 저장부를 통합한 품사 태깅 장치의 블록도이다. 4 is a block diagram of a part-of-speech tagging device incorporating a first storage unit to a sixth storage unit in the part-of-speech tagging device of FIG. 1.
도 4에 도시된 바와 같이 간략화된 품사 태깅 장치는 문장 입력부(410), 형태소 해석부(420), 데이터 저장부(430), 품사 태깅부(440) 및 품사 태깅 결과 출력부(450)를 구비하고 있다. As shown in FIG. 4, the simplified part-of-speech tagging device includes a
데이터 저장부(430)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있는 어절 전처리 사전과, 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있는 형태소 사전과, 형태소들간의 결합이 가능한가를 확인하는데 사용되는 품사 접속 정보와, 어절내의 형태소 결합 오류 제거를 위한 어절내 형태소 결합 오류 리스트와, 품사 트라이그램(trigram) 정보와, 어절간 형태소 결합 오류 제거를 위한 어절간 형태소 결합 오류 리스트가 저장되어 있는 것이 바람직하다.Is it possible to combine the word preprocessing dictionary including the information pre-morphologically analyzed for each word, the morpheme dictionary containing the morpheme, the category of the morpheme, and the frequency information about the connected form, and the morphemes? The parts-of-speech connection information used to verify the information, the morpheme combining error list in the word for removing the morpheme combining error in the word, the parts of the speech trigram information, and the morpheme combining error list for the removal of the morpheme combining error between the words It is preferably stored.
나머지 구성요소는 도 1에 도시되어 있는 품사 태깅 장치의 대응되는 구성요소와 동일하다. 그리고 상기 도 4에서도 문장 입력부(410) 및 품사 태깅 결과 출력부(450)는 필수적인 구성요소가 아니므로 생략하여도 본 발명의 품사 태깅 장치를 구현할 수 있다.The remaining components are the same as the corresponding components of the part-of-speech tagging device shown in FIG. In addition, since the
이하, 본 발명에 따른 품사 태깅 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, a part-of-speech tagging method according to the present invention will be described in detail with reference to the accompanying drawings.
도 5는 본 발명의 품사 태깅 방법의 흐름도이다.5 is a flowchart of a part-of-speech tagging method of the present invention.
우선, 품사 태깅을 수행할 문장을 문장 입력부(110)를 통해서 입력받는 다(S510). 문장의 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 파일 형식으로 입력될 수도 있고, 키보드를 통하여 사용자로부터 직접 입력될 수도 있다. First, the sentence to perform the part-of-speech tagging is input through the sentence input unit 110 (S510). The sentence input method may be implemented in various forms. The text input method may be input in the form of a text file that is already made, or may be input directly from the user through the keyboard.
다음으로, 형태소 해석부(120)는 입력받은 문장에 대해서 어절별로 미리 형태소 분석된 정보가 기록되어 있는 어절 전처리 사전(131), 복수개의 형태소와 그 형태소에 대한 정보가 기록되어 있는 형태소 사전(141), 상기 형태소들간의 접속 가능 여부를 나타내는 품사 접속 정보(151)를 이용하여 형태소 해석을 수행하는데(S520), 이에 대하여 간략하게 설명하면 다음과 같다.Next, the
우선, 형태소 해석부(120)는 입력받은 문장에 대해서 제 1 저장부(130)에 저장된 어절 전처리 사전(131)을 이용하여 입력된 문장을 어절로 분리하여 형태소 해석을 수행하며, 이 때, 상기 어절 전처리 사전(131)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있는 것이 바람직하다.First, the
만약, 상기 분리된 어절이 상기 어절 전처리 사전(131)에 존재하지 않는 것으로 확인된 경우, 상기 형태소 해석부(120)는 해당 어절을 음절로 분리한 다음, 그 음절이 상기 제 2 저장부(140)에 저장된 형태소 사전(141)에 존재하는지, 또는 음절과 다른 음절과의 조합이 상기 형태소 사전(141)에 존재하는지 확인하여 형태소 해석을 수행한다. If it is determined that the separated word does not exist in the
여기에서, 상기 형태소 사전(141)에는 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있는 것이 바람직하며, 형태소 해석 방법으로 음절기반 태뷸러(Tabular) 파싱법 외에 헤드-테일(Head-tail) 구분법과 태뷸 러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 사용될 수 있다.Here, the
다음으로, 형태소 해석부(120)는 상기 형태소 해석 결과에 대하여, 제 3 저장부(150)에 저장된 품사 접속 정보(151)를 이용하여 형태소들간의 결합이 가능한가를 확인하는데, 이와 같은 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력된다. Next, the
다음으로, 형태소 해석부(120)는 결합 가능한 형태소간의 리스트가 출력되면, 제 4 저장부(160)에 저장된 어절내 형태소 결합 오류 리스트(161)를 이용하여 결합 가능한 형태소간의 리스트에서 오류를 추출하여 제거한다(S530).Next, when the list of combinable morphemes is output, the
다음으로, 품사 태깅부(170)가 품사 태깅을 수행한다(S540).Next, the part-of-
이 때, 입력받은 문장의 최초 어절 내부에서는 형태소 해석부(120)에서 얻은 해석 결과를 모두 사용하여 품사를 결정하고, 그 다음 어절은 제 5 저장부(180)에 저장된 품사 트라이그램(trigram) 정보(181)를 이용하여 이전 어절의 품사 통계 정보와 트라이그램값을 기초로 품사를 결정한다. At this time, inside the first sentence of the input sentence to determine the parts of speech using all the analysis results obtained from the
다시 말하면, 품사 태깅은 어절 내부에서는 완전 서치(full search)를 하고, 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사 시퀀스(sequence) 정보를 활용하여 품사 태깅을 수행하며, 이에 따라 형태소 해석부(120)의 결과중에서 최적으로 판단되는 형태소 해석 결과가 선택되어 품사 태깅된다.In other words, the part-of-speech tagging performs a full search inside the word, and the next word performs the part-of-speech tagging using the part-of-speech sequence information having the highest value of the previous word. From the result of 120, the result of the morphological analysis which is determined to be optimal is selected and part-of-speech tagged.
다음으로, 품사 태깅부(170)가 제 6 저장부(190)에 저장된 어절간 형태소 결합 오류 리스트(191)를 이용하여 품사 태깅의 오류를 추출하여 제거하며(S550), 이 에 따라 품사 태깅 오류가 줄어들게 된다. Next, the part-of-
마지막으로, 품사 태깅 결과 출력부(200)가 상기 품사 태깅 결과를 모니터나 기타 출력 장치로 출력한다(S560). 출력장치로 출력하는 단계(S560)는 필수적인 구성요소는 아니므로 생략하여도 본 발명의 방법에 의한 품사태깅방법이 구현될 수 있다.Finally, the part-of-speech tagging
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed in a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.The computer-readable recording medium may be a magnetic storage medium (for example, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (for example, a CD-ROM, DVD, etc.) and a carrier wave (for example, the Internet). Storage medium).
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.
상술한 바와 같이, 본 발명에 따르면, 품사 태깅의 수행 속도 및 정확도를 높이기 위하여 품사 태깅시 어절별로 형태소 해석을 수행하고, 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 이에 따라 종래의 품사 태깅 방법에 비하여 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있으므로, 음성 합성이나 음성인식, 다국어 번역기와 같은 자연어 처리 시스템에서 효율적으로 사용될 수 있는 효과가 있다.As described above, according to the present invention, by increasing the execution speed and accuracy of the part-of-speech tagging, by performing the morpheme analysis for each word during the part-of-speech tagging, by reducing the morphological coupling error and the morphological coupling error between words in the morpheme analysis results, Accordingly, compared to the conventional part-of-speech tagging method, the amount of calculation and the possibility of error can be reduced, so that the part-of-speech tagging can be performed accurately at a high speed. Therefore, the part-of-speech tagging can be efficiently used in natural language processing systems such as speech synthesis, speech recognition, and multilingual translator. .
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060094220A KR20080028655A (en) | 2006-09-27 | 2006-09-27 | Method and apparatus for part-of-speech tagging |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060094220A KR20080028655A (en) | 2006-09-27 | 2006-09-27 | Method and apparatus for part-of-speech tagging |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080028655A true KR20080028655A (en) | 2008-04-01 |
Family
ID=39531552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060094220A KR20080028655A (en) | 2006-09-27 | 2006-09-27 | Method and apparatus for part-of-speech tagging |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20080028655A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013081301A1 (en) * | 2011-11-29 | 2013-06-06 | 에스케이텔레콤 주식회사 | Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method for same |
KR101295642B1 (en) * | 2009-12-07 | 2013-08-13 | 한국전자통신연구원 | Apparatus and method for classifying sentence pattern for sentence of speech recognition result |
KR20170090127A (en) * | 2016-01-28 | 2017-08-07 | 한국전자통신연구원 | Apparatus for comprehending speech |
-
2006
- 2006-09-27 KR KR1020060094220A patent/KR20080028655A/en not_active Application Discontinuation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101295642B1 (en) * | 2009-12-07 | 2013-08-13 | 한국전자통신연구원 | Apparatus and method for classifying sentence pattern for sentence of speech recognition result |
WO2013081301A1 (en) * | 2011-11-29 | 2013-06-06 | 에스케이텔레콤 주식회사 | Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method for same |
US9336199B2 (en) | 2011-11-29 | 2016-05-10 | Sk Telecom Co., Ltd. | Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same |
KR20170090127A (en) * | 2016-01-28 | 2017-08-07 | 한국전자통신연구원 | Apparatus for comprehending speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102540774B1 (en) | Sentence embedding method and apparatus using subword embedding and skip-thought model | |
KR100734741B1 (en) | Recognizing words and their parts of speech in one or more natural languages | |
TW448381B (en) | Automatic segmentation of a text | |
US5930746A (en) | Parsing and translating natural language sentences automatically | |
JP2002215617A (en) | Method for attaching part of speech tag | |
JPH03224055A (en) | Method and device for input of translation text | |
JP5231698B2 (en) | How to predict how to read Japanese ideograms | |
Aliwy | Arabic morphosyntactic raw text part of speech tagging system | |
KR20230009564A (en) | Learning data correction method and apparatus thereof using ensemble score | |
Abate et al. | Development of Amharic morphological analyzer using memory-based learning | |
AlGahtani et al. | Arabic part-of-speech tagging using transformation-based learning | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
JP2006338261A (en) | Translation device, translation method and translation program | |
KR100509917B1 (en) | Apparatus and method for checking word by using word n-gram model | |
KR20080028655A (en) | Method and apparatus for part-of-speech tagging | |
JP3309174B2 (en) | Character recognition method and device | |
KR20040018008A (en) | Apparatus for tagging part of speech and method therefor | |
KR20010075848A (en) | Apparatus and method for detecting sentence boundary using regular expression and probabilistic contextual information | |
Hahn et al. | Optimizing CRFs for SLU tasks in various languages using modified training criteria | |
JP3952964B2 (en) | Reading information determination method, apparatus and program | |
KR100463376B1 (en) | A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof | |
KR100420474B1 (en) | Apparatus and method of long sentence translation using partial sentence frame | |
Babhulgaonkar et al. | Experimenting with factored language model and generalized back-off for Hindi | |
KR19980047177A (en) | Korean document analyzer for voice conversion system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |