KR20080028655A - Method and apparatus for part-of-speech tagging - Google Patents

Method and apparatus for part-of-speech tagging Download PDF

Info

Publication number
KR20080028655A
KR20080028655A KR1020060094220A KR20060094220A KR20080028655A KR 20080028655 A KR20080028655 A KR 20080028655A KR 1020060094220 A KR1020060094220 A KR 1020060094220A KR 20060094220 A KR20060094220 A KR 20060094220A KR 20080028655 A KR20080028655 A KR 20080028655A
Authority
KR
South Korea
Prior art keywords
word
speech
morpheme
speech tagging
information
Prior art date
Application number
KR1020060094220A
Other languages
Korean (ko)
Inventor
김정세
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060094220A priority Critical patent/KR20080028655A/en
Publication of KR20080028655A publication Critical patent/KR20080028655A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

A method and a device for tagging part-of-speech are provided to tag the part-of-speech correctly at high speed by reducing calculation quantity and error probability, as a morpheme of each word is analyzed when the part-of-speech is tagged, and a morpheme connection error in the word and between the words is reduced in a morpheme analysis result. A data storing part(130,140,150,160,180,190) stores a word preprocessing dictionary(131), a morpheme dictionary(141), part-of-speech connection information(151), an intra-word morpheme connection error list(161), part-of-speech trigram information(181), and a between-word morpheme connection error list(191). A morpheme analyzer(120) analyzes a morpheme by dividing the inputted sentence into words and checking whether the word is found in the word preprocessing dictionary, checks whether the morphemes can be connected by using part-of-speech connection information, and removes a morpheme connection error by using the intra-word morpheme connection error list. A part-of-speech tagger(170) selects the optimal morpheme analysis result, tags the part-of-speech of the optimal morpheme analysis result by using the part-of-speech trigram information, and removes an error from a part-of-speech tagging result by using the morpheme connection error list.

Description

품사 태깅 장치 및 태깅 방법{Method and Apparatus for part-of-speech tagging}Part of speech tagging device and tagging method {Method and Apparatus for part-of-speech tagging}

도 1은 본 발명의 품사 태깅 장치의 블록도이다.1 is a block diagram of a part-of-speech tagging apparatus of the present invention.

도 2는 종래의 형태소 해석 방법 중 태뷸러(Tabular) 파싱법을 적용하여 '과속을(gwasoG_L)' 에 대해서 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이다. FIG. 2 is a diagram illustrating an example of a letter combination for performing morpheme analysis on 'gwasoG_L' by applying a tabular parsing method among conventional morpheme analysis methods.

도 3은 도 2의 형태소 해석에 의한 '과속을(gwasoG_L)' 에 대한 품사 리스트 결과를 나타낸 도면이다.FIG. 3 is a diagram illustrating a part-of-speech list result for 'speeding (gwasoG_L)' by the morpheme analysis of FIG. 2.

도 4는 도 1의 품사 태깅 장치에서 제 1 저장부 내지 제 6 저장부를 통합한 품사 태깅 장치의 블록도이다. 4 is a block diagram of a part-of-speech tagging device incorporating a first storage unit to a sixth storage unit in the part-of-speech tagging device of FIG. 1.

도 5는 본 발명의 품사 태깅 방법의 흐름도이다.5 is a flowchart of a part-of-speech tagging method of the present invention.

* 도면의 주요부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

110 : 문장 입력부 120 : 형태소 해석부110: sentence input unit 120: morphological analysis unit

130 : 제 1 저장부 131 : 어절 전처리 사전130: first storage unit 131: word preprocessing dictionary

140 : 제 2 저장부 141 : 형태소 사전140: second storage unit 141: stemming dictionary

150 : 제 3 저장부 151 : 품사 접속 정보150: third storage unit 151: parts of speech connection information

160 : 제 4 저장부 161 : 어절내 형태소 결합 오류 리스트160: fourth storage unit 161: stemming combination error list in the word

170 : 품사 태깅부170: part of speech tagging unit

180 : 제 5 저장부 181 : 품사 트라이그램180: fifth storage unit 181: parts of speech trigram

191 : 제 6 저장부 191 : 어절간 형태소 결합 오류 리스트191: 6th storage unit 191: stemming error list between words

200 : 품사 태깅 결과 출력부200: Part of speech tagging result output unit

본 발명은 품사 태깅 장치 및 태깅 방법에 관한 것으로, 더 자세하게는 빠른 속도 및 높은 정확도의 품사 태깅 결과를 출력할 수 있는 품사 태깅 장치 및 태깅 방법에 관한 것이다.The present invention relates to a part-of-speech tagging device and a tagging method, and more particularly, to a part-of-speech tagging device and a tagging method capable of outputting a part-of-speech tagging result with high speed and high accuracy.

품사 태깅이란 문장 내에서 단어가 사용된 문맥에 따라서 각 단어의 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘적 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정에서 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 또한 기계 번역, 언어 정보 획득 도구, 철자검사, 사전 구축 등 자연어 처리의 제반 분야에서 필수적인 과정으로 인식되고 있다.Part-of-speech tagging refers to the process of assigning the correct part-of-speech information for each word, depending on the context in which the word is used in the sentence. Part-of-speech tagging is used in preprocessing to reduce the excessive burden in the parsing phase due to lexical ambiguity, and can be used for index and search words with high recall and accuracy in information retrieval systems. It is also recognized as an essential process in all areas of natural language processing such as machine translation, language information acquisition tools, spell checking, and dictionary construction.

일반적으로 품사 태깅 방법에는 크게 통계 기반 접근 방법(Statistical Approach)과 규칙 기반 접근 방법(Rule-Based Approach), 그리고 통계 기반 접근 방법과 규칙 기반 접근 방법을 통합한 통합 접근 방법(Hybrid Approach)으로 구분할 수 있다.In general, parts of speech tagging can be classified into statistical approach and rule-based approach, and hybrid approach that combines statistical and rule-based approaches. have.

통계 기반 품사 태깅 방법은 실세계의 자연어 용례들과 부속 정보를 포함하는 원시 또는 태깅된 코퍼스를 분석하고 자연어에 대한 통계 정보를 추출하여 얻는 확률을 이용하여 자연어 처리의 중의성 문제를 확률적으로 해결하는 방법이다. 이 방법은 거의 모든 언어 현상에 적용할 수 있지만, 실세계 언어 현상을 충분히 대표할 수 있는 양과 질의 코퍼스가 존재하지 않아 데이터 부족 문제로 인해 정확도가 저하된다. The statistical-based part-of-speech tagging method probabilistically solves the neutrality problem of natural language processing by analyzing the raw or tagged corpus including real-world natural language usages and sub information and using the probability obtained by extracting statistical information about natural language. Way. This method can be applied to almost all linguistic phenomena, but the lack of quantity and query corpus that can adequately represent real-world linguistic phenomena reduces accuracy due to lack of data.

통계 기반 품사 태깅 방법은 크게 어휘 확률만을 이용하는 방법, HMM(Hidden Markov Model)의 자율 학습을 이용하는 방법, N-gram의 문맥 확률과 어휘 확률을 이용하는 방법으로 분류할 수 있고, 이 밖에도 신경망을 이용하는 방법, 퍼지망(Fuzzy network)을 이용하는 방법 등이 있다.Statistics-based part-of-speech tagging methods can be classified into methods using only lexical probabilities, methods using autonomous learning of HMM (Hidden Markov Model), methods using context probabilities and lexical probabilities of N-gram, and other methods using neural networks. And the use of a fuzzy network.

규칙 기반 품사 태깅 방법은 자연어에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 자연어 처리의 중의성 문제를 해결하는 방법으로, 지식 기반 방법(Knowledge-Based Approach) 또는 제약 기반 접근 방법(Constraint-Based Approach)이라고도 한다. 이 방법은 일관성 있는 결정적 규칙을 얻기가 어렵고 많은 규칙들을 잘 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만, 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 보인다. 최근에는 사용가능해진 대량의 원시 코퍼스 및 태깅된 코퍼스의 구축과 컴퓨터 성능 향상에 힘입어 태깅 규칙을 자동으로 학습하고자 하는 연구가 활발히 진행되고 있다.The rule-based part-of-speech tagging method finds common principles or deterministic rules applied to natural language and solves the neutrality problem of natural language processing by using knowledge-based approach or constraint-based approach. Also called Constraint-Based Approach. This method is generally not robust because it is difficult to obtain consistent deterministic rules and it is not easy to control many rules well, but it is highly accurate for the phenomena to which rules can be applied. Recently, research has been actively conducted to automatically learn the tagging rules based on the construction of a large amount of raw corpus and tagged corpus which have become available, and the improvement of computer performance.

통합 품사 태깅 방법은 대량의 데이터에서 추출한 확률 및 통계 정보와 언어 지식을 모두 이용함으로써 통계 기반 접근 방법과 규칙 기반 접근 방법의 장단점을 상호 보완하고자 하는 방법이다.The integrated part-of-speech tagging method seeks to complement the strengths and weaknesses of the statistical and rule-based approaches by using both probability and statistical information and linguistic knowledge extracted from large amounts of data.

대한민국 특허등록 제284769호(등록일:2000.12.22)에는 형태소 분석방법 중에 통계 기반 분석 방법을 사용한 예가 개시되어 있다. 그러나, 이 통계 기반 분석 방법은 상태 기반 품사 태깅법과 경로 기반 품사 태깅법을 모두 활용하여 품사 태깅함으로써 규칙 기반 품사 태깅 방법에 비해 구현, 확장, 관리가 용이하다는 장점은 있으나, 각 단어에 대해 각각 상태 기반 품사 태깅 및 경로 기반 품사 태깅을 수행하고, 그 태깅 결과를 병합하여 병합된 결과에서 두 가지의 품사를 할당받은 특정 단어의 부적합 품사를 제거하거나 적합 품사를 할당하는 방식을 취하고 있기 때문에, 많은 계산량을 필요로 하며 이로 인해 품사 태깅 수행 속도가 느려서 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.Korean Patent Registration No. 284769 (Registration Date: December 22, 2000) discloses an example of using a statistical-based analysis method of the morpheme analysis method. However, this statistical-based analysis method has the advantage that it is easier to implement, extend, and manage than the rule-based part-of-speech tagging method by using the part-of-speech tagging method using both the state-based part-of-speech tagging method and the path-based part-of-speech tagging method. Because of the method of performing part-of-speech tagging and path-based part-of-speech tagging, merging the tagging results to remove non-fit parts of a word that have been assigned two parts of speech from the merged result, or assigning suitable parts of speech, Due to this, there is a problem that it is difficult to apply in a part where a quick response such as voice synthesis is required because the part-of-speech tagging is slow.

게다가, 상기 통계 기반 분석 방법은 어절별 완전 서치(Full search)를 적용하거나 비터비 서치(Viterbi search) 또는 비터비 빔 서치(Viterbi beam search)를 적용하고 있기 때문에, 어절내에 형태소 오류가 존재하거나 어절간에 형태소 오류가 존재하는 경우에는 정확한 품사 태깅을 수행할 수 없다는 한계점을 갖고 있다.In addition, since the statistic-based analysis method applies full search by word or applies Viterbi search or Viterbi beam search, there is a morpheme error in a word or a word. If there is a stemming error in the liver, there is a limitation that accurate part-of-speech tagging cannot be performed.

따라서, 본 발명은 이와 같은 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음성 합성과 같은 빠른 응답이 필요한 곳에도 적용할 수 있으며, 빠른 속도 및 높은 정확도의 품사 태깅 결과를 출력할 수 있는 품사 태깅 장치 및 태깅 방법을 제공하는데 있다.Accordingly, the present invention is to solve such a problem, the object of the present invention can be applied to a place where a fast response, such as speech synthesis, part-of-speech tagging that can output a high-speed and high accuracy part-of-speech tagging results An apparatus and tagging method are provided.

상기 과제를 이루기 위하여 본 발명에 따른 품사 태깅 장치는, 품사 태깅을 수행할 문장을 입력받는 문장 입력부; 어절별로 미리 형태소 분석된 정보가 포함되어 있는 어절 전처리 사전과, 형태소 사전과, 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보와, 어절내의 형태소 결합 오류 제거를 위한 어절내 형태소 결합 오류 리스트와, 품사 트라이그램(trigram) 정보와, 어절간 형태소 결합 오류 제거를 위한 어절간 형태소 결합 오류 리스트가 저장되어 있는 데이터 저장부; 상기 문장 입력부를 통해 입력받은 문장을 어절로 분리하여 분리된 어절이 상기 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행한 후, 상기 형태소 해석 결과에 대하여 상기 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하고, 상기 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 형태소 해석부; 및 상기 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하고, 상기 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 품사 태깅부를 포함하는 것을 특징으로 한다.In order to achieve the above object, the part-of-speech tagging apparatus according to the present invention comprises: a sentence input unit for receiving a sentence to perform part-of-speech tagging; Word preprocessing dictionary including information pre-morphologically analyzed for each word, morpheme dictionary, part-of-speech access information that is information on accessibility between morphemes, morphological combination error list in word to eliminate morphological association error in word, A data storage unit for storing the parts-of-speech trigram information and the word-to-word stemming error list for removing the word-to-word stemming error; After the sentence inputted through the sentence input unit is divided into words, it is checked whether a separated word exists in the pre-word pre-processing dictionary, and the morpheme analysis is performed. Then, the morpheme analysis results are combined using the parts-of-speech connection information. A morpheme analysis unit to check whether this is possible and to remove an error from the morpheme analysis result using the morpheme combining error list in the word; And a part-of-speech tagging unit that selects a part-of-speech analysis result selected from the morpheme analysis results using the part-of-speech trigram information and removes an error from the part-of-speech tagging result by using the morpheme combining error list. It is characterized by including.

한편, 상기 과제를 이루기 위하여 본 발명에 따른 품사 태깅 방법은, (a) 품사 태깅을 수행할 문장을 입력받는 단계; (b) 상기 입력받은 문장을 어절로 분리하여, 상기 분리된 어절이 어절별로 미리 형태소 분석된 정보가 기록되어 있는 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행하는 단계; (c) 상기 형태소 해석 결과에 대하여 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하는 단계; (d) 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 단계; (e) 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하는 단계; 및 (f) 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 단계를 포함하는 것을 특징으로 한다.On the other hand, to achieve the above object, the part-of-speech tagging method according to the present invention, (a) receiving a sentence to perform the part-of-speech tagging; (b) dividing the received sentence into a word, and performing a morpheme analysis by checking whether the separated word exists in a word preprocessing dictionary in which the information pre-analyzed by each word is recorded; (c) checking whether the morpheme analysis is possible by using the part-of-speech connection information on the result of the morpheme analysis; (d) removing an error from the morphological analysis result using an intra-word morpheme combining error list; (e) selecting a part-of-speech tag by selecting the morpheme analysis result that is optimally determined from the morpheme analysis results using the part-of-speech trigram information; And (f) removing an error from the part-of-speech tagging result by using a word-to-word morphological combination error list.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 품사 태깅 장치의 블록도이다.1 is a block diagram of a part-of-speech tagging apparatus of the present invention.

도 1에 도시된 바와 같이, 본 발명의 품사 태깅 장치는, 크게 문장 입력부(110), 형태소 해석부(120), 제 1 저장부(130), 제 2 저장부(140), 제 3 저장부(150), 제 4 저장부(160), 품사 태깅부(170), 제 5 저장부(180), 제 6 저장부(190), 품사 태깅 결과 출력부(200)로 구성되어 있다.As shown in FIG. 1, the part-of-speech tagging apparatus of the present invention includes a sentence input unit 110, a morpheme analysis unit 120, a first storage unit 130, a second storage unit 140, and a third storage unit. 150, a fourth storage unit 160, a part-of-speech tagging unit 170, a fifth storage unit 180, a sixth storage unit 190, and a part-of-speech tagging result output unit 200.

문장 입력부(110)는 품사 태깅을 위한 문장 등을 입력받는다. 상기 문장 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 형식으로 입력될 수도 있고 키보드를 통하여 사용자로부터 실제 문장을 입력받을 수도 있다.The sentence input unit 110 receives a sentence or the like for part-of-speech tagging. The sentence input method may be implemented in various forms. The sentence input method may be input in an already made text form or may receive an actual sentence from a user through a keyboard.

형태소 해석부(120)는 문장 입력부(110)로부터 문장을 입력받아 제 1 저장부(130)에 저장된 어절 전처리 사전(131)을 이용하여 입력된 문장을 어절로 분리하여 형태소 해석을 수행한다.The morpheme analysis unit 120 receives a sentence from the sentence input unit 110 and performs a morpheme analysis by separating the input sentence into a word using the word preprocessing dictionary 131 stored in the first storage unit 130.

여기에서, 상기 어절 전처리 사전(131)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있으며, 이에 따라 이하에 후술하는 형태소 사전의 검색 없이도 바 로 어절별 형태소 해석이 가능하게 된다.Here, the word preprocessing dictionary 131 includes information morphologically analyzed for each word in advance, so that the word morphological analysis can be performed immediately without searching for the morpheme dictionary described below.

다음으로, 상기 형태소 해석부(120)는 상기 분리된 어절이 상기 어절 전처리 사전(131)에 존재하지 않는 것으로 확인되면, 해당 어절을 음절로 분리한 다음 그 음절이 상기 제 2 저장부(140)에 저장된 형태소 사전(141)에 존재하는지, 또는 음절과 다른 음절과의 조합이 상기 형태소 사전(141)에 존재하는지 확인하는데, 상기 형태소 사전(141)에는 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있다.Next, when it is determined that the separated word does not exist in the word preprocessing dictionary 131, the morpheme analysis unit 120 separates the word into a syllable and then the syllable is the second storage 140. Whether the morpheme dictionary 141 stored in the morpheme dictionary 141 or a combination of syllables and other syllables is present in the morpheme dictionary 141. Information and so on.

즉, 상기 형태소 해석부(120)는 입력 문장에 대하여 제 1 저장부(130) 및 제 2 저장부(140)에 저장되어 있는 정보를 이용하여 형태소 해석을 수행한다. 여기에서, 형태소 해석은 헤드-테일(Head-tail) 구분법과 태뷸러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 적용될 수 있으며, 본 발명의 이해를 돕기 위해 각 형태소 해석 방법에 대하여 간략하게 설명하면 다음과 같다.That is, the morpheme analysis unit 120 performs morpheme analysis on the input sentence using information stored in the first storage unit 130 and the second storage unit 140. Here, the morpheme analysis may be applied to the head-tail classification method, tabular parsing method, longest match method, shortest match method, syllable unit analysis method, and each morpheme analysis method for understanding of the present invention. Briefly described as follows.

헤드-테일(Head-tail) 구분법이란 단어로부터 형태소를 분리하는 방법으로 단어를 변형되지 않는 부분(head)과 변형되는 부분(tail)으로 구분하고, 헤드(head)와 테일(tail) 간의 결합 관계를 품사 접속 정보표에 의해 검사하여 형태소 분석을 수행하는 방법이다.Head-tail delimiting is a method of separating morphemes from words. The word is classified into unmodified head and deformed tail, and the coupling relationship between head and tail. Morphological analysis is performed by checking the part-of-speech connection information table.

태뷸러(Tabular) 파싱법이란 버텀-업(bottom-up) 방식에 의한 형태소 분석 방법으로, 먼저 단어를 이루고 있는 모든 자모 단위의 부분 문자열에 대해서 사전을 검색하여 모든 가능한 어휘 형태소와 문법 형태소를 추출한 후 CYK(Cocke-Younger-Kasami) 알고리즘을 적용하여 단어를 이루는 형태소들을 찾는 방법이다. 다시 말하 면, 추출된 형태소들은 삼각 테이블에 저장되고 여기에 형태소들의 접속관계를 검사하기 위해서 품사 접속 정보표를 사용하여 연결 가능한 모든 형태소들의 리스트를 찾는 방법이다. 미등록어를 추정할 때에는 버텀-업(bottom-up) 방법으로 해석가능한 부분외의 나머지 부분에 대해서 추정한다.Tabular parsing is a bottom-up morpheme analysis method that first searches a dictionary for substrings of all the Jamo units that make up a word, and extracts all possible lexical and grammatical morphemes. After that, we apply the Cocke-Younger-Kasami (CYK) algorithm to find the morphemes of words. In other words, the extracted morphemes are stored in a triangular table and a method of finding a list of all connectable morphemes using a part-of-speech connection information table to check the connection relations of the morphemes. When estimating unregistered words, the remaining parts other than the parts that can be interpreted by the bottom-up method are estimated.

최장 일치법이란 단어를 이루고 있는 부분 문자열 집합을 구할 때 그 단어를 이루고 있는 형태소들의 집합 중에서 가장 긴 형태소를 우선적으로 선택하여 검사는 것이고, 최단 일치법은 가장 짧은 형태소를 우선적으로 검사하는 방법이다.The longest coincidence method is to select and examine the longest morpheme among the sets of morphemes constituting the word, and the shortest coincidence method is to first check the shortest morpheme.

음절 단위 분석법이란 통계적 음절 특성을 이용하는 것으로, 처리단위를 자소가 아닌 한글의 특성에 맞게 음절 단위로 하는 방법을 말한다.The syllable unit analysis method uses statistical syllable characteristics. The syllable unit analysis method refers to a method of processing syllable units according to the characteristics of Korean characters, not phonemes.

한편, 상기 형태소 해석부(120)는 상기 형태소 해석 결과에 대하여, 제 3 저장부(150)에 저장된 품사 접속 정보(151)를 이용하여 형태소들간의 결합이 가능한가를 확인하는데, 여기에서, 상기 품사 접속 정보(151)는 형태소들간의 결합이 가능한가를 확인하는데 사용되는 정보이다. On the other hand, the morpheme analysis unit 120 checks whether the morphemes can be combined using the part-of-speech analysis information 151 stored in the third storage unit 150 with respect to the result of the morpheme analysis. The connection information 151 is information used to confirm whether the morphemes can be combined.

즉, 품사 접속 정보(151)란 품사들간의 연결 가능한 정보를 나열한 정보로, 예를 들어, 명사 뒤에는 명사가 올 수 있고 어미나 조사가 올 수 있고, 동사 뒤에는 어미가 오며, 형용사 뒤에는 어미가 오고, 어미 뒤에는 어미가 올 수 있다 등의 정보를 나열한 리스트를 의미하며, 이와 같은 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력된다.That is, the part-of-speech connection information 151 is information that lists information that can be connected between parts-of-speech. For example, a noun can be followed by a noun, a parent or investigation can be followed, a verb is followed by a verb, and an adjective is followed by an ending. , A term after the ending means a list of information such as endings. The list of morphemes that can be combined is output according to the part-of-speech connection information 151.

또한, 상기 형태소 해석부(120)는 상기 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력되면, 제 4 저장부(160)에 저장된 어절내 형태소 결 합 오류 리스트(161)를 이용하여 결합 가능한 형태소간의 리스트에서 오류를 추출하여 제거하는데, 이에 따라 형태소 해석의 정확도를 높일 수 있을 뿐만 아니라 형태소 과분석에 따른 계산량이 감소되어 품사 태깅 속도가 빨라지게 된다.In addition, when the list of morphemes that can be combined according to the part-of-speech connection information 151 is output, the morpheme analyzing unit 120 uses the morpheme combining error list 161 in the word stored in the fourth storage unit 160. The error is extracted and removed from the list of combinable morphemes, which not only increases the accuracy of morphological analysis but also reduces the amount of calculation due to morphological overanalysis, thereby speeding up the POS tagging speed.

한편, 상기와 같이 형태소 해석부(120)를 통해 입력 문장에 대한 형태소 해석이 완료되면 형태소 해석 결과는 품사 태깅부(170)로 전달되며, 품사 태깅부(170)는 제 5 저장부(180)에 저장된 품사 트라이그램(trigram) 정보(181)를 이용하여 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 하나 선택하여 품사 태깅한다.Meanwhile, when the morpheme analysis of the input sentence is completed through the morpheme analyzer 120 as described above, the result of the morpheme analysis is transmitted to the part-of-speech tagging unit 170, and the part-of-speech tagging unit 170 is the fifth storage unit 180. The part-of-speech tag is selected by selecting one of the morpheme analysis results that are optimally determined from the morpheme analysis results using the part-of-speech trigram information 181 stored therein.

여기에서, 품사 트라이그램(trigram) 정보란, 하나의 단어는 이전 두 개의 단어에 영향을 받아서 발생한다는 트라이그램 모델(trigram model)에서 사용되는 값을 의미한다.Here, the part-of-speech trigram information means a value used in a trigram model in which one word is affected by two previous words.

또한, 상기 품사 태깅부(170)는 상기 품사 트라이그램(trigram) 정보(181)를 이용하여 품사 태깅이 이루어지면, 제 6 저장부(190)에 저장된 어절간 형태소 결합 오류 리스트(191)를 이용하여 품사 태깅의 오류를 추출하여 제거하며, 이에 따라 품사 태깅 오류가 줄어들게 된다. Also, when the part-of-speech tagging is performed using the part-of-speech trigram information 181, the part-of-speech tagging unit 170 uses the interstem morpheme combining error list 191 stored in the sixth storage unit 190. By extracting and removing parts of speech tagging errors, parts of speech tagging errors are reduced.

한편, 품사 태깅 결과 출력부(200)는 품사 태깅부(170)에서의 품사 태깅 결과를 모니터나 기타 출력 장치로 출력하는 기능을 수행한다.The part-of-speech tagging result output unit 200 performs a function of outputting the part-of-speech tagging result from the part-of-speech tagging unit 170 to a monitor or other output device.

즉, 본 발명의 품사 태깅 장치는, 품사 태깅시 어절별로 형태소 해석을 수행하고 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 이에 따라 자모조합 또는 음절별로 형태소 해석 및 품사 태깅을 수행하는 종래의 방법에 비하여 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있는데, 본 발명의 이해를 돕기 위해 종래의 자모조합 또는 음절별 품사 태깅 방법에 대하여 간략하게 설명하면 다음과 같다.That is, the part-of-speech tagging apparatus of the present invention performs morphological analysis for each word when tagging parts of speech, and reduces the morphological coupling error and the morphological coupling error between words in the morpheme analysis result. Compared to the conventional method of tagging, the amount of calculation and the possibility of error can be reduced, and the part-of-speech tagging can be performed accurately at a high speed. To facilitate the understanding of the present invention, a brief description of a conventional part-of-speech tagging method is performed. Is as follows.

도 2는 종래의 형태소 해석 방법 중 태뷸러(Tabular) 파싱법을 적용하여 '과속을(gwasoG_L)' 에 대해서 형태소 해석을 수행하기 위한 자모조합의 예를 나타낸 도면이며, 도 3은 도 2의 형태소 해석에 의한 '과속을(gwasoG_L)' 에 대한 품사 리스트 결과를 나타낸 도면이다.FIG. 2 is a diagram illustrating an example of a letter combination for performing morpheme analysis on 'gwasoG_L' by applying a tabular parsing method among conventional morpheme analysis methods, and FIG. 3 is a morpheme of FIG. 2. This is a diagram showing a part-of-speech list result for 'speeding (gwasoG_L)' by analysis.

도 2를 참조하면, 태뷸러(Tabular) 파싱법을 적용하기 위해 우선 모든 자모를 분리하고 그 자모들의 조합들을 추출한다. 그리고, 추출한 자모들의 조합이 형태소 사전에 존재하는가를 판단하고, 형태소 사전에 존재하면(예를 들어 '과'(210)), 형태소 사전에 있는 각각의 품사들을 리스트한다.Referring to FIG. 2, in order to apply a tabular parsing method, first, all the hairs are separated and combinations of the hairs are extracted. Then, it is determined whether the extracted combinations of vowels exist in the morpheme dictionary, and if they exist in the morpheme dictionary (for example, 'and' 210), the parts of speech in the morpheme dictionary are listed.

도 2에서 화살표가 가리키는 행(220, 221, 222, 223)이나 열(230, 231, 232, 233)들은 자모들의 조합을 추출하기는 했지만 실제 사용될 수 없는 것들로 자모들의 조합에서 필요 없는 부분이며, 한글이 존재하지 않는 부분(240)은 사용되지 않는 부분이다. 따라서, 이렇게 많은 조합들을 가지고 형태소 사전에서 검색을 수행하므로 메모리의 낭비가 심하게 된다.In FIG. 2, the rows 220, 221, 222, and 223 or the columns 230, 231, 232, and 233, which extract the combination of the letters, are not actually used, and are not necessary in the combination of the letters. , Part 240 in which no Hangul exists is an unused part. Thus, with so many combinations, searching in the morpheme dictionary is a waste of memory.

도 3에 도시된 바에 따르면, '과' 는 명사(310), 형용사(311), 동사(312)가 될 수 있고, '과속' 은 명사(313)가 될 수 있다. '속', '으', '을', 'ㄹ' 도 마찬가지로 형태소 사전에서 찾아서 추출한 것을 해당 열에 연결한다. 다음으로 '과/명사' 와 '속/명사' 가 연결되는지, 그리고 '과/명사'와 '속/동사' 가 연결되는지를 확인한다. 연결여부의 확인은 품사 접속 정보를 이용한다.As shown in FIG. 3, 'and' may be a noun 310, an adjective 311, a verb 312, and 'speeding' may be a noun 313. Similarly, 'k', 'e', 'e' and 'ㄹ' are found in the morpheme dictionary and concatenated to the column. Next, check whether '// noun' is connected to 'pronoun / noun' and '// noun' and 'pron / verb' are connected. To confirm the connection, the part-of-speech connection information is used.

즉, 상기와 같은 자모조합을 이용한 형태소 해석 및 이에 따른 품사 태깅 방법은 형태소들의 모든 조합 가능한 리스트를 생성하고 이에 대한 형태소 해석 및 품사 태깅을 수행하기 때문에 많은 계산량을 필요로 하며, 이로 인해 품사 태깅 수행 속도가 느려져 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.That is, the morpheme analysis and the part-of-speech tagging method using the above Jamo combinations require a large amount of computation because it generates a combinable list of morphemes and performs morphological analysis and part-of-speech tagging thereof, thereby performing the part-of-speech tagging. There is a problem that it is difficult to apply where a fast response such as speech synthesis is necessary because of the slow speed.

한편, 이와 같은 품사 태깅 속도의 문제점을 보완하기 위해 태뷸러(tabular) 파싱법을 변형하여 음절 단위로 형태소를 구성한 후, 구성된 음절이 형태소 사전에 있는가를 찾고, 품사 접속 정보를 활용하여 연결 가능한 형태소들만을 찾아 해석하는 방법도 개시되어 있는데, 이 방법 역시 많은 계산량을 필요로 할 뿐만 아니라, 어절내에 형태소 오류가 존재하거나 어절간에 형태소 오류가 존재하는 경우에는 정확한 품사 태깅을 수행할 수 없다는 문제점이 있다.On the other hand, in order to compensate for the problem of the part-of-speech tagging speed, the tabular parsing method is modified to form morphemes by syllable units, and then find whether the composed syllables are in the morpheme dictionary, and only the morphemes that can be connected by using the part-of-speech access information. There is also disclosed a method for finding and interpreting a. This method also requires a large amount of computation, and there is a problem in that the accurate part-of-speech tagging cannot be performed when there is a morpheme error in a word or a morpheme error between words.

결론적으로, 소용량의 합성기에 사용되는 품사 태깅 시스템의 경우 형태소 해석을 위한 대용량의 형태소 사전을 구비하는 것이 어려울 뿐만 아니라 형태소 해석시 품사 접속 정보를 사용한다 하더라도 많은 계산량을 필요로 하기 때문에 음성합성과 같은 빠른 응답이 필요한 곳에는 적용하기 어렵다는 문제점이 있다.In conclusion, the part-of-speech tagging system used in the small-capacity synthesizer is not only difficult to have a large-capacity morpheme dictionary for morphological analysis, but also requires a large amount of calculation even if the part-of-speech connection information is used for morphological analysis. There is a problem that it is difficult to apply where a quick response is needed.

이에 비하여, 본 발명은 품사 태깅시 어절별로 형태소 해석을 수행하고, 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있으며, 이에 따라 음성 합성이나 음성인식, 다국어 번역기와 같은 빠른 응답이 필요한 자연어 처리 시스템에서 효율적으로 사용될 수 있다.In contrast, the present invention performs morphological analysis for each word when tagging parts of speech, and by reducing the morphological coupling error and the morphological coupling error between words in the morphological analysis results, the calculation amount and the probability of error are reduced, thereby enabling accurate part-of-speech tagging at high speed. The present invention can be efficiently used in natural language processing systems that require fast response such as speech synthesis, speech recognition, and multilingual translator.

도 4는 도 1의 품사 태깅 장치에서 제 1 저장부 내지 제 6 저장부를 통합한 품사 태깅 장치의 블록도이다. 4 is a block diagram of a part-of-speech tagging device incorporating a first storage unit to a sixth storage unit in the part-of-speech tagging device of FIG. 1.

도 4에 도시된 바와 같이 간략화된 품사 태깅 장치는 문장 입력부(410), 형태소 해석부(420), 데이터 저장부(430), 품사 태깅부(440) 및 품사 태깅 결과 출력부(450)를 구비하고 있다. As shown in FIG. 4, the simplified part-of-speech tagging device includes a sentence input unit 410, a morpheme analysis unit 420, a data storage unit 430, a part-of-speech tagging unit 440, and a part-of-speech tagging result output unit 450. Doing.

데이터 저장부(430)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있는 어절 전처리 사전과, 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있는 형태소 사전과, 형태소들간의 결합이 가능한가를 확인하는데 사용되는 품사 접속 정보와, 어절내의 형태소 결합 오류 제거를 위한 어절내 형태소 결합 오류 리스트와, 품사 트라이그램(trigram) 정보와, 어절간 형태소 결합 오류 제거를 위한 어절간 형태소 결합 오류 리스트가 저장되어 있는 것이 바람직하다.Is it possible to combine the word preprocessing dictionary including the information pre-morphologically analyzed for each word, the morpheme dictionary containing the morpheme, the category of the morpheme, and the frequency information about the connected form, and the morphemes? The parts-of-speech connection information used to verify the information, the morpheme combining error list in the word for removing the morpheme combining error in the word, the parts of the speech trigram information, and the morpheme combining error list for the removal of the morpheme combining error between the words It is preferably stored.

나머지 구성요소는 도 1에 도시되어 있는 품사 태깅 장치의 대응되는 구성요소와 동일하다. 그리고 상기 도 4에서도 문장 입력부(410) 및 품사 태깅 결과 출력부(450)는 필수적인 구성요소가 아니므로 생략하여도 본 발명의 품사 태깅 장치를 구현할 수 있다.The remaining components are the same as the corresponding components of the part-of-speech tagging device shown in FIG. In addition, since the sentence input unit 410 and the part-of-speech tagging result output unit 450 are not essential components in FIG. 4, the part-of-speech tagging apparatus of the present invention may be implemented.

이하, 본 발명에 따른 품사 태깅 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.Hereinafter, a part-of-speech tagging method according to the present invention will be described in detail with reference to the accompanying drawings.

도 5는 본 발명의 품사 태깅 방법의 흐름도이다.5 is a flowchart of a part-of-speech tagging method of the present invention.

우선, 품사 태깅을 수행할 문장을 문장 입력부(110)를 통해서 입력받는 다(S510). 문장의 입력 방법은 다양한 형태로 구현될 수 있는데, 이미 만들어져 있는 텍스트 파일 형식으로 입력될 수도 있고, 키보드를 통하여 사용자로부터 직접 입력될 수도 있다. First, the sentence to perform the part-of-speech tagging is input through the sentence input unit 110 (S510). The sentence input method may be implemented in various forms. The text input method may be input in the form of a text file that is already made, or may be input directly from the user through the keyboard.

다음으로, 형태소 해석부(120)는 입력받은 문장에 대해서 어절별로 미리 형태소 분석된 정보가 기록되어 있는 어절 전처리 사전(131), 복수개의 형태소와 그 형태소에 대한 정보가 기록되어 있는 형태소 사전(141), 상기 형태소들간의 접속 가능 여부를 나타내는 품사 접속 정보(151)를 이용하여 형태소 해석을 수행하는데(S520), 이에 대하여 간략하게 설명하면 다음과 같다.Next, the morpheme analysis unit 120 is a word preprocessing dictionary 131 in which information morphologically analyzed for each word is recorded in advance, and a morpheme dictionary 141 in which information on a plurality of morphemes and their morphemes is recorded. ), The morpheme analysis is performed by using the part-of-speech connection information 151 indicating whether the morphemes are accessible (S520).

우선, 형태소 해석부(120)는 입력받은 문장에 대해서 제 1 저장부(130)에 저장된 어절 전처리 사전(131)을 이용하여 입력된 문장을 어절로 분리하여 형태소 해석을 수행하며, 이 때, 상기 어절 전처리 사전(131)에는 어절별로 미리 형태소 분석된 정보가 포함되어 있는 것이 바람직하다.First, the morpheme analysis unit 120 performs morpheme analysis by dividing an input sentence into a word using a word preprocessing dictionary 131 stored in the first storage unit 130. It is preferable that the word preprocessing dictionary 131 includes information morphologically analyzed in advance for each word.

만약, 상기 분리된 어절이 상기 어절 전처리 사전(131)에 존재하지 않는 것으로 확인된 경우, 상기 형태소 해석부(120)는 해당 어절을 음절로 분리한 다음, 그 음절이 상기 제 2 저장부(140)에 저장된 형태소 사전(141)에 존재하는지, 또는 음절과 다른 음절과의 조합이 상기 형태소 사전(141)에 존재하는지 확인하여 형태소 해석을 수행한다. If it is determined that the separated word does not exist in the word preprocessing dictionary 131, the morpheme analyzer 120 divides the word into syllables, and the syllable is the second storage 140. The morpheme analysis is performed by checking whether the morpheme dictionary 141 stored in the hexadecimal dictionary 141 or a combination of syllables and other syllables exists in the morpheme dictionary 141.

여기에서, 상기 형태소 사전(141)에는 형태소, 형태소의 범주, 연결 형태에 대한 빈도 정보 등이 포함되어 있는 것이 바람직하며, 형태소 해석 방법으로 음절기반 태뷸러(Tabular) 파싱법 외에 헤드-테일(Head-tail) 구분법과 태뷸 러(Tabular) 파싱법, 최장 일치법, 최단 일치법, 음절 단위 분석법 등이 사용될 수 있다.Here, the morpheme dictionary 141 preferably includes information on morphemes, categories of morphemes, and frequency information on morphemes, and in addition to syllable-based tabular parsing as a morpheme analysis method, a head-tail (Head) -tail classification, tabular parsing, longest matching, shortest matching, and syllable unit analysis can be used.

다음으로, 형태소 해석부(120)는 상기 형태소 해석 결과에 대하여, 제 3 저장부(150)에 저장된 품사 접속 정보(151)를 이용하여 형태소들간의 결합이 가능한가를 확인하는데, 이와 같은 품사 접속 정보(151)에 따라 결합 가능한 형태소간의 리스트가 출력된다. Next, the morpheme analysis unit 120 confirms whether the morpheme analysis is possible by using the parts of speech connection information 151 stored in the third storage unit 150 with respect to the result of the morpheme analysis. According to 151, a list of morphemes that can be combined is output.

다음으로, 형태소 해석부(120)는 결합 가능한 형태소간의 리스트가 출력되면, 제 4 저장부(160)에 저장된 어절내 형태소 결합 오류 리스트(161)를 이용하여 결합 가능한 형태소간의 리스트에서 오류를 추출하여 제거한다(S530).Next, when the list of combinable morphemes is output, the morpheme analyzing unit 120 extracts an error from the list of combinable morphemes using the intra-word morpheme combining error list 161 stored in the fourth storage unit 160. Remove it (S530).

다음으로, 품사 태깅부(170)가 품사 태깅을 수행한다(S540).Next, the part-of-speech tagging unit 170 performs the part-of-speech tagging (S540).

이 때, 입력받은 문장의 최초 어절 내부에서는 형태소 해석부(120)에서 얻은 해석 결과를 모두 사용하여 품사를 결정하고, 그 다음 어절은 제 5 저장부(180)에 저장된 품사 트라이그램(trigram) 정보(181)를 이용하여 이전 어절의 품사 통계 정보와 트라이그램값을 기초로 품사를 결정한다. At this time, inside the first sentence of the input sentence to determine the parts of speech using all the analysis results obtained from the morpheme analysis unit 120, and the next word is the parts of speech trigram (trigram) information stored in the fifth storage unit 180 The part-of-speech is determined based on the part-of-speech statistical information of the previous word and the trigram value using (181).

다시 말하면, 품사 태깅은 어절 내부에서는 완전 서치(full search)를 하고, 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사 시퀀스(sequence) 정보를 활용하여 품사 태깅을 수행하며, 이에 따라 형태소 해석부(120)의 결과중에서 최적으로 판단되는 형태소 해석 결과가 선택되어 품사 태깅된다.In other words, the part-of-speech tagging performs a full search inside the word, and the next word performs the part-of-speech tagging using the part-of-speech sequence information having the highest value of the previous word. From the result of 120, the result of the morphological analysis which is determined to be optimal is selected and part-of-speech tagged.

다음으로, 품사 태깅부(170)가 제 6 저장부(190)에 저장된 어절간 형태소 결합 오류 리스트(191)를 이용하여 품사 태깅의 오류를 추출하여 제거하며(S550), 이 에 따라 품사 태깅 오류가 줄어들게 된다. Next, the part-of-speech tagging unit 170 extracts and removes an error of the part-of-speech tagging using the word-to-word morpheme combining error list 191 stored in the sixth storage unit 190 (S550). Will be reduced.

마지막으로, 품사 태깅 결과 출력부(200)가 상기 품사 태깅 결과를 모니터나 기타 출력 장치로 출력한다(S560). 출력장치로 출력하는 단계(S560)는 필수적인 구성요소는 아니므로 생략하여도 본 발명의 방법에 의한 품사태깅방법이 구현될 수 있다.Finally, the part-of-speech tagging result output unit 200 outputs the part-of-speech tagging result to a monitor or other output device (S560). The step S560 of outputting to the output device is not an essential component, and therefore, an omission method according to the method of the present invention may be implemented.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.Meanwhile, the above-described embodiments of the present invention can be written as a program that can be executed in a computer, and can be implemented in a general-purpose digital computer that operates the program using a computer-readable recording medium.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.The computer-readable recording medium may be a magnetic storage medium (for example, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (for example, a CD-ROM, DVD, etc.) and a carrier wave (for example, the Internet). Storage medium).

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.

상술한 바와 같이, 본 발명에 따르면, 품사 태깅의 수행 속도 및 정확도를 높이기 위하여 품사 태깅시 어절별로 형태소 해석을 수행하고, 형태소 해석 결과에서 어절내 형태소 결합 오류 및 어절간 형태소 결합 오류를 줄여줌으로써, 이에 따라 종래의 품사 태깅 방법에 비하여 계산량 및 오류 가능성이 감소되어 빠른 속도로 정확하게 품사 태깅을 수행할 수 있으므로, 음성 합성이나 음성인식, 다국어 번역기와 같은 자연어 처리 시스템에서 효율적으로 사용될 수 있는 효과가 있다.As described above, according to the present invention, by increasing the execution speed and accuracy of the part-of-speech tagging, by performing the morpheme analysis for each word during the part-of-speech tagging, by reducing the morphological coupling error and the morphological coupling error between words in the morpheme analysis results, Accordingly, compared to the conventional part-of-speech tagging method, the amount of calculation and the possibility of error can be reduced, so that the part-of-speech tagging can be performed accurately at a high speed. Therefore, the part-of-speech tagging can be efficiently used in natural language processing systems such as speech synthesis, speech recognition, and multilingual translator. .

Claims (9)

품사 태깅을 수행할 문장을 입력받는 문장 입력부;A sentence input unit configured to receive a sentence for part-of-speech tagging; 어절별로 미리 형태소 분석된 정보가 포함되어 있는 어절 전처리 사전과, 형태소 사전과, 형태소들간의 접속가능 여부에 대한 정보인 품사 접속 정보와, 어절내의 형태소 결합 오류 제거를 위한 어절내 형태소 결합 오류 리스트와, 품사 트라이그램(trigram) 정보와, 어절간 형태소 결합 오류 제거를 위한 어절간 형태소 결합 오류 리스트가 저장되어 있는 데이터 저장부;Word preprocessing dictionary including information pre-morphologically analyzed for each word, morpheme dictionary, part-of-speech access information that is information on accessibility between morphemes, morphological combination error list in word to eliminate morphological association error in word, A data storage unit for storing the parts-of-speech trigram information and the word-to-word stemming error list for removing the word-to-word stemming error; 상기 문장 입력부를 통해 입력받은 문장을 어절로 분리하여 분리된 어절이 상기 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행한 후, 상기 형태소 해석 결과에 대하여 상기 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하고, 상기 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 형태소 해석부; 및After the sentence inputted through the sentence input unit is divided into words, it is checked whether a separated word exists in the pre-word pre-processing dictionary, and the morpheme analysis is performed. Then, the morpheme analysis results are combined using the parts-of-speech connection information. A morpheme analysis unit to check whether this is possible and to remove an error from the morpheme analysis result using the morpheme combining error list in the word; And 상기 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하고, 상기 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 품사 태깅부를 포함하는 것을 특징으로 하는 품사 태깅 장치.The part-of-speech tagging unit selects a part-of-speech analysis result selected from the morpheme analysis results using the part-of-speech trigram information and removes an error from the part-of-speech tagging result by using the morpheme combining error list. Part-of-speech tagging device, characterized in that. 제 1항에 있어서, The method of claim 1, 상기 품사 태깅부의 품사 태깅 결과를 출력 장치로 출력하는 품사 태깅 결과 출력부를 더 포함하는 것을 특징으로 하는 품사 태깅 장치.Part-of-speech tagging device further comprises a part-of-speech tagging result output unit for outputting the part-of-speech tagging result to the output device. 제 1항에 있어서, 상기 형태소 해석부는,The method according to claim 1, wherein the morpheme analysis unit, 상기 분리된 어절이 상기 어절 전처리 사전에 존재하지 않는 것으로 확인되면, 해당 어절을 음절로 분리한 다음 그 음절이 상기 형태소 사전에 존재하는지, 또는 음절과 다른 음절과의 조합이 상기 형태소 사전에 존재하는지를 확인하여 형태소 해석을 수행하는 것을 특징으로 하는 품사 태깅 장치.If it is confirmed that the separated word does not exist in the word preprocessing dictionary, the word is divided into syllables and then whether the syllable exists in the morpheme dictionary, or whether a combination of syllables and other syllables exists in the morpheme dictionary Part-of-speech tagging device, characterized in that to perform a morphological analysis by checking. 제 1항에 있어서, 상기 품사 태깅부는,The method of claim 1, wherein the part-of-speech tagging unit, 품사 태깅시 상기 입력 문장의 최초 어절 내부에서는 상기 형태소 해석 결과를 모두 사용하여 품사를 결정하고, 그 다음 어절은 상기 품사 트라이그램 정보를 이용하여 이전 어절의 품사 통계 정보와 트라이그램값을 기초로 품사를 결정하는 것을 특징으로 하는 품사 태깅 장치.In the part-of-speech tagging, the first word of the input sentence is used to determine the part-of-speech using all the morphological analysis results, and the next word is based on the part-of-speech statistical information and the trigram value of the previous word using the part-of-speech trigram information. Part of speech tagging device, characterized in that for determining. (a) 품사 태깅을 수행할 문장을 입력받는 단계;(a) receiving a sentence for part-of-speech tagging; (b) 상기 입력받은 문장을 어절로 분리하여, 상기 분리된 어절이 어절별로 미리 형태소 분석된 정보가 기록되어 있는 어절 전처리 사전에 존재하는지를 확인하여 형태소 해석을 수행하는 단계;(b) dividing the received sentence into a word, and performing a morpheme analysis by checking whether the separated word exists in a word preprocessing dictionary in which the information pre-analyzed by each word is recorded; (c) 상기 형태소 해석 결과에 대하여 품사 접속 정보를 이용하여 형태소들간의 결합이 가능한가를 확인하는 단계;(c) checking whether the morpheme analysis is possible by using the part-of-speech connection information on the result of the morpheme analysis; (d) 어절내 형태소 결합 오류 리스트를 이용하여 상기 형태소 해석 결과에서 오류를 제거하는 단계;(d) removing an error from the morphological analysis result using an intra-word morpheme combining error list; (e) 품사 트라이그램 정보를 이용하여 상기 형태소 해석 결과중에서 최적으로 판단되는 형태소 해석 결과를 선택하여 품사 태깅하는 단계; 및(e) selecting a part-of-speech tag by selecting the morpheme analysis result that is optimally determined from the morpheme analysis results using the part-of-speech trigram information; And (f) 어절간 형태소 결합 오류 리스트를 이용하여 상기 품사 태깅 결과에서 오류를 제거하는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법.and (f) removing the error from the part-of-speech tagging result using a word-to-word morphological combination error list. 제 5항에 있어서, The method of claim 5, (g) 상기 품사 태깅 결과를 출력 장치로 출력하는 단계를 더 포함하는 것을 특징으로 하는 품사 태깅 방법.(g) outputting the part-of-speech tagging result to an output device. 제 5항에 있어서, 상기 (a) 단계는,The method of claim 5, wherein step (a) comprises: 텍스트 파일 형식의 문장을 입력받거나 또는 키보드를 통해 사용자로부터 문장을 직접 입력받는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법.Receiving a sentence in a text file format or a part-of-speech tagging method comprising the step of directly inputting a sentence from a user via a keyboard. 제 5항에 있어서, 상기 (b) 단계는,The method of claim 5, wherein step (b) 상기 분리된 어절이 상기 어절 전처리 사전에 존재하지 않는 것으로 확인된 경우, 해당 어절을 음절로 분리한 다음 그 음절이 형태소 사전에 존재하는지, 또는 음절과 다른 음절과의 조합이 형태소 사전에 존재하는지를 확인하여 형태소 해석을 수행하는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법.If it is confirmed that the separated word does not exist in the word preprocessing dictionary, the word is divided into syllables, and then whether the syllable exists in the morpheme dictionary or a combination of the syllable and another syllable exists in the morpheme dictionary Part of speech tagging method comprising the step of performing a morpheme analysis. 제 5항에 있어서, 상기 (e) 단계는,The method of claim 5, wherein step (e) 품사 태깅시 상기 입력 문장의 최초 어절 내부에서는 상기 형태소 해석 결과를 모두 사용하여 품사를 결정하고, 그 다음 어절은 상기 품사 트라이그램 정보를 이용하여 이전 어절의 품사 통계 정보와 트라이그램값을 기초로 품사를 결정하는 단계를 포함하는 것을 특징으로 하는 품사 태깅 방법.In the part-of-speech tagging, the first word of the input sentence is used to determine the part-of-speech using all the morphological analysis results, and the next word is based on the part-of-speech statistical information and the trigram value of the previous word using the part-of-speech trigram information. Part of speech tagging method comprising the step of determining.
KR1020060094220A 2006-09-27 2006-09-27 Method and apparatus for part-of-speech tagging KR20080028655A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060094220A KR20080028655A (en) 2006-09-27 2006-09-27 Method and apparatus for part-of-speech tagging

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060094220A KR20080028655A (en) 2006-09-27 2006-09-27 Method and apparatus for part-of-speech tagging

Publications (1)

Publication Number Publication Date
KR20080028655A true KR20080028655A (en) 2008-04-01

Family

ID=39531552

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060094220A KR20080028655A (en) 2006-09-27 2006-09-27 Method and apparatus for part-of-speech tagging

Country Status (1)

Country Link
KR (1) KR20080028655A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013081301A1 (en) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method for same
KR101295642B1 (en) * 2009-12-07 2013-08-13 한국전자통신연구원 Apparatus and method for classifying sentence pattern for sentence of speech recognition result
KR20170090127A (en) * 2016-01-28 2017-08-07 한국전자통신연구원 Apparatus for comprehending speech

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101295642B1 (en) * 2009-12-07 2013-08-13 한국전자통신연구원 Apparatus and method for classifying sentence pattern for sentence of speech recognition result
WO2013081301A1 (en) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method for same
US9336199B2 (en) 2011-11-29 2016-05-10 Sk Telecom Co., Ltd. Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same
KR20170090127A (en) * 2016-01-28 2017-08-07 한국전자통신연구원 Apparatus for comprehending speech

Similar Documents

Publication Publication Date Title
KR102540774B1 (en) Sentence embedding method and apparatus using subword embedding and skip-thought model
KR100734741B1 (en) Recognizing words and their parts of speech in one or more natural languages
TW448381B (en) Automatic segmentation of a text
US5930746A (en) Parsing and translating natural language sentences automatically
JP2002215617A (en) Method for attaching part of speech tag
JPH03224055A (en) Method and device for input of translation text
JP5231698B2 (en) How to predict how to read Japanese ideograms
Aliwy Arabic morphosyntactic raw text part of speech tagging system
KR20230009564A (en) Learning data correction method and apparatus thereof using ensemble score
Abate et al. Development of Amharic morphological analyzer using memory-based learning
AlGahtani et al. Arabic part-of-speech tagging using transformation-based learning
Tufiş et al. DIAC+: A professional diacritics recovering system
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
JP2006338261A (en) Translation device, translation method and translation program
KR100509917B1 (en) Apparatus and method for checking word by using word n-gram model
KR20080028655A (en) Method and apparatus for part-of-speech tagging
JP3309174B2 (en) Character recognition method and device
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
KR20010075848A (en) Apparatus and method for detecting sentence boundary using regular expression and probabilistic contextual information
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
JP3952964B2 (en) Reading information determination method, apparatus and program
KR100463376B1 (en) A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
Babhulgaonkar et al. Experimenting with factored language model and generalized back-off for Hindi
KR19980047177A (en) Korean document analyzer for voice conversion system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application