KR100484943B1 - Method for recognizing named entity in korean text - Google Patents

Method for recognizing named entity in korean text Download PDF

Info

Publication number
KR100484943B1
KR100484943B1 KR10-2002-0078305A KR20020078305A KR100484943B1 KR 100484943 B1 KR100484943 B1 KR 100484943B1 KR 20020078305 A KR20020078305 A KR 20020078305A KR 100484943 B1 KR100484943 B1 KR 100484943B1
Authority
KR
South Korea
Prior art keywords
entity name
hmm
statistical information
morpheme
model
Prior art date
Application number
KR10-2002-0078305A
Other languages
Korean (ko)
Other versions
KR20040050461A (en
Inventor
정의석
왕지현
윤보현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0078305A priority Critical patent/KR100484943B1/en
Publication of KR20040050461A publication Critical patent/KR20040050461A/en
Application granted granted Critical
Publication of KR100484943B1 publication Critical patent/KR100484943B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 한국어 텍스트 상의 개체명 인식 장치 및 방법에 관한 것으로서, 형태소 분석기가 입력 텍스트의 형태소를 분석하여 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성하면, 개체명 인식기가 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식한 후, 코트레이닝 학습을 진행하여 추출한 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하고, 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영한 다음, 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하도록 되어 있으며,The present invention relates to an apparatus and method for recognizing an entity name on Korean text. When the morpheme analyzer analyzes the morpheme of the input text and generates an HMM data structure of a list of entity name state information for each morpheme, the entity name recognizer After recognizing character traits, entity name qualities, combined nouns / adjunct qualities, and adjacent noun qualities for each morpheme, the probabilities of transfer of morphemes of the input text using the HMM entity name statistical information extracted by conducting the courting learning And lexical probabilities are respectively assigned, and the forward / backward probabilities considering the left and right contexts are recalculated and reflected on the relevant entity name status information for each morpheme vocabulary, and then the Viterbi algorithm Determine the optimal HMM entity name of the morphemes that make up the sentences. Which is to recognize,

이에 따라서, 수작업으로 구축된 학습 데이터를 통한 통계 정보 구축에 더하여 일반 텍스트를 이용한 통계 정보 구축을 확장하여 한국어에 적절한 성능의 개체명 인식 결과를 얻을 수 있는 장점이 있다.Accordingly, in addition to the construction of statistical information through manually constructed learning data, it is possible to extend the construction of statistical information using plain text to obtain a result of recognizing individual names having proper performance for Korean.

Description

한국어 텍스트 상의 개체명 인식 방법 { Method for recognizing named entity in korean text }{Method for recognizing named entity in korean text}

본 발명은 이메일(e-mail), 신문기사, 웹페이지 등과 같이 다양한 형태의 자연어 텍스트 상에서 개체명을 인식하기 위한 장치 및 방법에 관한 것이며, 보다 상세히는 히든 마르코프 모델(HMM; Hidden Markov model)과 코트레이닝(CoTraining)을 이용한 한국어 텍스트 상의 개체명 인식 장치 및 방법에 관한 것이다.The present invention relates to an apparatus and method for recognizing an entity name on various forms of natural language text, such as e-mail, newspaper articles, web pages, etc. More specifically, the Hidden Markov model (HMM) An apparatus and method for recognizing entity names on Korean text using CoTraining are disclosed.

공지된 바와 같이 개체명 인식이란 특정한 텍스트 상에서 인명, 지명, 조직명과 같은 고유명사를 인식하는 것을 의미하며, 정보추출, 정보검색, 텍스트 마이닝 등과 같은 다양한 분야에서 필수적으로 요구되는 작업이다.As is known, entity name recognition refers to recognition of proper nouns such as names, place names, organization names, etc. on a specific text, and is required for various fields such as information extraction, information retrieval, and text mining.

또한, 상기와 같은 개체명 인식 작업의 대표적 접근 방법으로는 규칙 기반 접근 방법, 통계 기반 접근 방법, 그리고 이 둘을 결합한 하이브리드 접근 방법이 있으며, 특히 상기 통계 기반 접근 방법은 HMM을 이용하여 개체명을 인식하는 방법으로서 대규모의 수작업을 요구하고 도메인 종속적인 한계를 갖고 있는 상기 규칙 기반 접근 방법에 비해 단순성, 확장성, 견고성 등의 장점을 갖고 있다.In addition, the representative approach of the entity name recognition task as described above is a rule-based approach, a statistics-based approach, and a hybrid approach combining the two, in particular, the statistics-based approach uses the HMM to name the entity. As a recognizing method, it has advantages such as simplicity, scalability, robustness, etc. compared to the rule-based approach that requires a large amount of manual work and has domain-dependent limitations.

한편, 개체명 인식의 경우 개체명 태깅 말뭉치(labeled text) 구축이 필수적이고, 고유명사로 구성된 개체명의 경우 그 특성상 데이터 희소성을 갖고 있기 때문에, 상기 통계 기반 접근 방법에 의한 개체명 인식 방법의 적절한 성능은 대용량의 개체명 태깅 말뭉치 구축 비용과 비례한다고 할 수 있으므로, 상기 통계적 접근 방법은 대규모의 학습 자료를 필요로 하는 단점이 있다.On the other hand, since entity name tagging text construction is essential for entity name recognition, and an entity name composed of proper nouns has data sparsity due to its characteristics, proper performance of the entity name recognition method by the statistical-based approach is achieved. Since it can be said that it is proportional to the cost of constructing a large-capacity tagging corpus, the statistical approach has the disadvantage of requiring a large-scale learning material.

따라서, 최근에는 상기와 같은 통계 기반 접근 방법의 단점을 극복하기 위한 보완적 접근 방법이 대두되고 있으며, 대표적인 보완적 접근 방법으로는 증강학습 방법이 있다. 상기 증강학습 방법이란 수작업으로 구축된 학습 데이터의 희소성을 극복하기 위해 수작업을 하지 않은 일반 텍스트(unlabeled text)를 이용하는 개체명 인식 방법을 말하며, 대표적인 증강학습 방법으로는 코트레이닝을 이용하는 개체명 인식 방법이 있다.Therefore, in recent years, a complementary approach to overcome the shortcomings of the statistics-based approach has emerged, and a representative complementary approach is augmented learning. The augmented learning method refers to an entity name recognition method using unlabeled text that is not manually performed to overcome the scarcity of manually constructed learning data, and a representative augmentation learning method is an entity name recognition method using coat lining. There is this.

예컨대, 상기 코트레이닝을 이용하는 개체명 인식 방법의 일예로서, 청킹 모델과 Naive Bayes 모델을 기반으로 하여 개체명 구성 단위와 좌우 문맥을 벡터(vector) 표현으로 구성하고 이를 좌우 뷰 타입(left-right view type)으로 분리하여 코트레이닝 학습을 시도하도록 된 한국어 개체명 인식 방법이 개발되어 있다.For example, as an example of the entity name recognition method using the coat lining, an entity name constructing unit and left and right contexts are configured in a vector representation based on a chunking model and a naive bayes model, and the left-right view type is used. Korean language name recognition method has been developed to attempt to learn courting by dividing by type).

그러나, 상기 청킹 모델과 Naive Bayes 모델을 기반으로 하는 한국어 개체명 인식 방법은 한국어 개체명을 인식하기 위하여 한국어에 대해서는 부적합한 Naive Bayes 분류기를 이용하므로 적절한 성능의 개체명 인식 결과를 제시하지 못하는 단점이 있다.However, the Korean object name recognition method based on the chunking model and the Naive Bayes model has a disadvantage in that it cannot present the object name recognition result with proper performance because it uses an inappropriate Naive Bayes classifier for the Korean object name. .

또한, 상기 코트레이닝을 이용하는 개체명 인식 방법의 다른 일예로서, 결정 리스트 형태로 구성되고 뷰 타입이 철자규칙(spelling rule)과 문맥 규칙(context rule)으로 구성되는 7개의 초기 규칙만을 주고 코트레이닝을 이용하여 개체명 인식 모델을 구축하는 비교사 학습의 접근 방법이 개발되어 있다.In addition, as another example of the entity name recognition method using the coatlining, the courtlining is performed in the form of a decision list and only seven initial rules consisting of a spelling rule and a context rule. An approach for non-comparative learning has been developed that builds a model for recognizing individual names.

그러나, 이와 같이 소량의 초기 규칙만을 이용한 비교사 학습을 통한 개체명 인식 방법은 문맥 규칙을 추출할 때 구문 분석을 통한 접근 방법을 취하고 있기 때문에, 어순이 자유롭고 생략현상이 빈번한 언어적 특성을 지닌 한국어에 적용하기에는 부적합하다는 문제점이 있다.However, this method of recognizing individual names through comparative verb learning using only a small amount of initial rules takes a parsing approach when extracting context rules. There is a problem that it is not suitable to apply to.

따라서, 본 발명은 상술한 종래의 문제점을 극복하기 위한 것으로서, 본 발명의 목적은 HMM을 기반으로 하여 코트레이닝을 이용한 증강학습을 통하여 한국어 텍스트 상에서 개체명을 인식하도록 된 한국어 텍스트 상의 개체명 인식 장치 및 방법을 제공하는데 있다.Accordingly, an object of the present invention is to overcome the above-mentioned problems, and an object of the present invention is to recognize an entity name on Korean text through augmented learning using coat lining based on HMM. And providing a method.

상기 본 발명의 목적을 달성하기 위한 한국어 텍스트 상의 개체명 인식 장치는, 입력 텍스트를 문장들의 리스트로 분리하고 각 문장을 상태 표지가 붙은 형태소 단위로 분리한 형태소 리스트로 구성한 후, 각 문장을 구성하는 형태소 리스트의 각각의 형태소에 대한 개체명 상태정보들의 리스트인 HMM 자료 구조를 생성하여 메모리에 저장하는 형태소 분석기와; 개체명 태깅 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하는 통계정보 추출기; 상기 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하여 기존 학습 데이터를 통한 통계정보를 확장하는 코트레이닝 학습기; 상기 통계정보 추출기와 코트레이닝 학습기에서 추출한 HMM 개체명 통계정보를 저장하는 통계정보DB; 및 개체명 사전 DB와 결합명사/접사사전 DB, 인접명사 사전 DB를 이용하여 상기 형태소 분석기에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식하고, 상기 코트레이닝 학습기에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당한 다음, 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드(Forward/Backward) 확률을 다시 계산하여 반영하고, 비터비 알고리즘(viterbi algorithm)을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 개체명 인식기로 구성된다.The object name recognition apparatus on Korean text for achieving the object of the present invention, after composing the input text into a list of sentences, each sentence is composed of a morpheme list separated by a morpheme unit with a status cover, and then constitutes each sentence A morpheme analyzer for generating an HMM data structure which is a list of entity name state information for each morpheme of the morpheme list and storing it in a memory; A statistical information extractor for extracting HMM entity name statistical information from the entity name tagging text set; A coat-lining learner configured to extend the statistical information through the existing training data by extracting the HMM entity-name statistical information from the general learning text set by conducting a courting learning based on the HMM statistical information extracted from the entity-tagging text set; A statistical information DB for storing HMM entity name statistical information extracted by the statistical information extractor and the court training learner; And using the entity name dictionary DB, the combined noun / adjective dictionary DB, and the adjacency noun dictionary DB for the characterization of each morpheme analyzed by the morpheme analyzer, the entity name feature, the combined noun / adjective feature, and the adjacent noun feature. Recognize and assign the transition probability and the lexical probability to the morphemes of the input text using the HMM entity name statistical information extracted by the coat-training learner, and then, for the corresponding entity name state information for each morpheme vocabulary. Optimal HMM entity name state information path of morphemes that recomputes and reflects forward / backward probabilities considering left and right contexts and forms sentences of input text consisting of morpheme list through Viterbi algorithm It is composed of an entity name recognizer that recognizes an entity name by determining

상기 본 발명의 목적을 달성하기 위한 한국어 텍스트 상의 개체명 인식 방법은, 형태소 분석기가 입력 텍스트의 형태소를 분석하여 형태소 리스트를 구성하는 단계와; 형태소 분석기가 분석된 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성하는 단계; 개체명 인식기가 개체명 사전 DB와 결합명사/접사사전 DB, 인접명사 사전 DB를 이용하여 상기 형태소 분석기에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식하는 단계; 통계정보 추출기가 개체명 태깅 텍스트 집합(labeled text)으로부터 HMM 개체명 통계정보를 추출하는 단계; 코트레이닝 학습기가 상기 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합(unlabeled text)으로부터 HMM 개체명 통계정보를 추출하여 기존 학습 데이터를 통한 통계정보를 확장하는 단계; 개체명 인식기가 상기 코트레이닝 학습기에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 단계; 개체명 인식기가 전이확률과 어휘확률이 할당된 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영하는 단계; 및 개체명 인식기가 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 단계로 이루어진다.The object name recognition method on Korean text for achieving the object of the present invention comprises the steps of: analyzing a morpheme of an input text by a morpheme analyzer to construct a morpheme list; Generating an HMM data structure of a list of entity name state information for each morpheme analyzed by the morphological analyzer; The entity name recognizer uses the entity name dictionary DB, the association noun / adjective dictionary DB, and the adjacency noun dictionary DB for character morphemes, entity names, association nouns / adjuncts, and adjacency for each morpheme analyzed by the morpheme analyzer. Recognizing noun qualities; Extracting, by the statistical information extractor, the HMM entity name statistical information from the entity name tagged text set; The coat-learning learner proceeds to coat-lining based on the HMM statistical information extracted from the entity-tagged text set to extract the HMM entity-name statistical information from the unlabeled text and expands the statistical information through the existing training data. Doing; Assigning, by an entity name recognizer, transition probabilities and lexical probabilities to the morphemes of the input text by using the HMM entity name statistical information extracted by the coat training learner; The entity name recognizer recalculating and reflecting forward / backward probabilities in consideration of left and right contexts with respect to corresponding entity name state information of each morpheme vocabulary to which a transition probability and a lexical probability are assigned; And recognizing the entity name by determining an optimal HMM entity name state information path of the morphemes constituting the sentences of the input text composed of the morpheme list through the Viterbi algorithm.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하기로 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1을 참조하면, 형태소 분석기(10)는 입력 텍스트를 문장들의 리스트로 분리하고 각 문장을 상태 표지가 붙은 형태소 단위로 분리한 형태소 리스트로 구성한 후, 각 문장을 구성하는 형태소 리스트의 각각의 형태소에 대한 개체명 상태정보들의 리스트인 HMM 자료 구조를 생성하여 메모리에 저장한다.Referring to FIG. 1, the morpheme analyzer 10 divides an input text into a list of sentences, and forms each sentence into a morpheme list separated by a morpheme unit with a state mark, and then each stem of the morpheme list constituting each sentence. Create an HMM data structure, which is a list of entity name status information for, and store it in memory.

상기 형태소 분석기(10)는 형태소 리스트의 각각의 형태소에 대해 형태소가 개체명에 해당하는지 해당하지 않는지, 해당한다면 개체명에 첫번째 형태소가 될 수 있는지, 개체명 내부에 쓰일 수 있는 형태소인지, 아니면 개체명 마지막 형태소로 쓰이는지에 대한 상태를 나타내는 개체명 상태정보들의 리스트를 HMM 자료 구조로 생성한다.The morphological analyzer 10 checks whether or not the morpheme corresponds to the object name for each morpheme of the morpheme list, if it can be the first morpheme in the entity name, or is a morpheme that can be used inside the entity name, or Creates an HMM data structure with a list of entity name status information indicating the status of the last morpheme.

통계정보 추출기(20)는 개체명 태깅 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하여 통계정보DB(30)에 저장한다.The statistical information extractor 20 extracts the HMM entity name statistical information from the entity name tagging text set and stores it in the statistical information DB 30.

코트레이닝 학습기(40)는 상기 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하여 통계정보DB(30)에 저장함으로써 기존 학습 데이터를 통한 통계정보를 확장(Boosting)한다.The coat-learning learner 40 performs the coat-lining learning based on the HMM statistical information extracted from the object-tagged text set, extracts HMM individual-name statistical information from the general learning text set, and stores the statistical information in the statistical information DB 30. Boost statistical information through learning data.

상기 코트레이닝 학습기(40)는 현재의 학습 뷰와 학습 횟수를 결정하고 일반 학습 텍스트 집합으로부터 일정량의 텍스트 집합을 랜덤 샘플링한 후, 랜덤 샘플링된 텍스트 집합에 대하여 현재 지정된 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별한 결과에 따라서 코트레이닝 학습 진행 방향을 결정하여 HMM 개체명 통계정보를 추출한다.The coat-training learner 40 determines the current learning view and the number of learning, randomly samples a certain amount of text set from the general learning text set, and then determines whether the currently designated learning view is a forward model for the random sampled text set. Based on the result of discriminating whether or not it is a word model, the courting learning progress direction is determined, and HMM individual name statistical information is extracted.

상기 코트레이닝 학습기(40)는 현재의 학습 뷰가 포워드 모델인 경우 상기 통계정보 추출기(20)가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 포워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하고, 현재의 학습 뷰가 백워드 모델인 경우 백워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행한 후, 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가한다.When the current learning view is a forward model, the coat-training learner 40 performs the HMM-based entity name tagging operation on the forward model based on the HMM statistical information extracted by the statistical information extractor 20 from the entity name tagging text set. If the current learning view is a backward model, the HMM-based entity name tagging operation for the backward model is performed, and then n entity name tagging results having the highest probability value are extracted from the entity name tagging result to learn new HMM statistics. Add it with data.

상기 코트레이닝 학습기(40)는 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계학습 데이터로 추가한 후 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별한 결과, 현재의 학습 뷰가 포워드 모델이면 개체명 태깅 결과로부터 백워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB(30)에 저장한 다음 백워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 백워드 모델로 변경한 후 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업에서부터 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 작업까지의 과정을 반복 진행한다.The coat-training learner 40 extracts n entity name tagging results having the highest probability value and adds them as new HMM statistical learning data, and then determines whether the current learning view is a forward model or a backward model. If the view is a forward model, the HMM statistical information about the backward model is extracted from the entity name tagging result and stored in the statistical information DB 30. Then, the backward model training data is updated and the current training view is changed to the backward model. After that, the process from the random sampling operation on the general training text set to the change of the current learning view to the backward model or the forward model is repeated until the current learning count becomes a predetermined learning count.

상기 코트레이닝 학습기(40)는 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계학습 데이터로 추가한 후 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별한 결과, 현재의 학습 뷰가 백워드 모델이면 개체명 태깅 결과로부터 포워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB(30)에 저장한 다음 포워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 포워드 모델로 변경한 후 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업에서부터 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 작업까지의 과정을 반복 진행한다.The coat-training learner 40 extracts n entity name tagging results having the highest probability value and adds them as new HMM statistical learning data, and then determines whether the current learning view is a forward model or a backward model. If the view is a backward model, the HMM statistical information of the forward model is extracted from the object name tagging result, stored in the statistical information DB 30, the forward model training data is updated, and the current training view is changed to the forward model. The process from the random sampling operation on the general training text set to the operation of changing the current learning view to a backward model or a forward model is repeatedly performed until the current learning number becomes a predetermined learning number.

개체명 인식기(50)는 개체명 사전 DB(51)와 결합명사/접사사전 DB(52), 인접명사 사전 DB(53)를 이용하여 상기 형태소 분석기(10)에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식한다.The entity name recognizer 50 uses each entity morpheme analyzed by the morpheme analyzer 10 by using the entity name dictionary DB 51, the combined noun / adjective dictionary DB 52, and the neighbor noun dictionary DB 53. Recognizes character qualities, entity qualities, combined / adjunct qualities, and adjacent noun qualities.

상기 개체명 인식기(50)는 코트레이닝 학습기(40)에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당한 다음, 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영한다.The entity name recognizer 50 assigns a transition probability and a lexical probability to the morphemes of the input text using the HMM entity name statistical information extracted by the coat-training learner 40, and then applies the corresponding morpheme vocabulary to each morpheme vocabulary. The forward / backward probabilities considering the left and right contexts of the entity name state information are recalculated and reflected.

상기 개체명 인식기(50)는 코트레이닝 학습기(40)에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 각각 생성된 HMM 자료 구조에서 연속된 두 개의 형태소들에 대한 개체명 상태정보의 변이 확률값을 나타내는 전이확률과 각 형태소 어휘에 대한 해당 개체명 상태정보들에 대한 확률값을 나타내는 어휘확률을 각각 할당한다.The entity name recognizer 50 uses the HMM entity name statistical information extracted by the coat-training learner 40 to identify two consecutive morphemes in the HMM data structure generated for the morphemes of the input text. Transition probabilities indicating variation probability values of information and lexical probabilities indicating probability values for corresponding entity name state information for each morpheme vocabulary are respectively assigned.

상기 개체명 인식기(50)는 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식한다.The entity name recognizer 50 recognizes an entity name by determining an optimal HMM entity name state information path of morphemes constituting sentences of an input text composed of a morpheme list through a Viterbi algorithm.

상기와 같이 구성되는 본 발명에 따른 한국어 텍스트 상의 개체명 인식 장치는 다음과 같이 작동한다.The apparatus for recognizing an entity name on Korean text according to the present invention configured as described above operates as follows.

도 2 내지 도 5b를 참조하면, 한국어 텍스트 상에서 개체명을 인식하기 위하여 먼저, 상기 형태소 분석기(10)가 입력 텍스트의 각 문장을 상태 표지가 붙은 형태소 단위로 분석하여 형태소 리스트를 구성한 후(S100), 분석된 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성한다(S200).2 to 5B, in order to recognize an entity name on Korean text, first, the morpheme analyzer 10 analyzes each sentence of the input text in a morpheme unit with a status mark to construct a morpheme list (S100). In operation S200, an HMM data structure consisting of a list of entity name state information for each morpheme analyzed is generated.

이때, 상기 형태소 분석기(10)는 형태소 리스트의 각각의 형태소에 대해 형태소가 개체명에 해당하는지 해당하지 않는지, 해당한다면 개체명에 첫번째 형태소가 될 수 있는지, 개체명 내부에 쓰일 수 있는 형태소인지, 아니면 개체명 마지막 형태소로 쓰이는지에 대한 상태를 나타내는 개체명 상태정보들의 리스트를 HMM 자료 구조로 생성한다.In this case, the morpheme analyzer 10 is for each morpheme of the morpheme list whether the morpheme corresponds to the entity name, if it can be the first morpheme in the entity name, whether the morpheme can be used in the entity name, Or create an HMM data structure with a list of entity name state information indicating the state of the entity's last morpheme.

예컨대, '철수가 학교에 간다'라는 문장을 형태소 분석하면 '철수/nc', '가/jc', '학교/nc', '에/jc', '가/pv', 'ㄴ다/etf'로 분석되고, 여기서 개체명은 '철수/nc'가 되며 나머지는 개체명에 해당되지 않는다. 따라서 '철수/nc'는 개체명 상태 PERSON(인명)이 되는 것이다.For example, stemming from the sentence "he goes to school," he reads "he / nc", "ga / jc", "school / nc", "e / jc", "ga / pv", and "b / etf" Where the entity name is 'withdrawal / nc' and the rest do not correspond to the entity name. Thus, 'Retract / nc' becomes the entity name state PERSON.

특히, 상기 형태소 분석 단계(100) 이후에서는 어떠한 개체명 상태인지 판단할 수가 없기 때문에, 본 발명에 따른 실시예에서는 상기 형태소 분석 단계(S100)에서 모든 상태가 가능하다는 가정 하에 형태소에 대한 모든 상태정보를 생성해 놓은 후, 학습된 HMM 통계정보를 통해 어떤 상태가 가장 타당한지 결정한다.In particular, since it is not possible to determine which entity name state after the morphological analysis step 100, in the embodiment according to the present invention, all the state information for the morpheme under the assumption that all states are possible in the morphological analysis step S100. After creating, we determine which state is most appropriate through the learned HMM statistics.

참고로, 본 발명에 따른 본 발명에 따른 개체명 타입과 각 개체명 타입별 HMM 상태 타입은 도 4a에 도시된 바와 같이 나타낸다.For reference, the entity name type according to the present invention and the HMM state type for each entity name type according to the present invention are shown as shown in FIG. 4A.

도 4a를 참조하면, 개체명은 인명(PERSON), 지역명(LOCATION), 조직명(ORGANIZATION), 날짜(DATE), 시간(TIME), 전화번호(PHONE), 퍼센트(PERCENT), 금액(MONEY), 주소(ADDRESS), 수량(QUANTITY), 인공물(ARTIFACT)로 구성되어 있다.Referring to FIG. 4A, the entity name is PERSON, LOCATION, ORGANIZATION, DATE, TIME, PHONE, PERCENT, MONEY , Address (ADDRESS), quantity (QUANTITY), artifact (ARTIFACT).

또한, 상기 HMM 상태 타입이란 입력 문장의 구성 형태소가 취할 수 있는 개체명 구성 상태 타입을 의미한다. 즉, S_LOC는 지역명의 첫 어휘로 올 수 있는 형태소의 상태를 말하고, C_LOC은 지역명의 중간 어휘로 올 수 있는 형태소의 상태를 말하며, E_LOC는 지역명의 마지막 어휘로 올 수 있는 형태소의 상태명을 말하고, U_LOC는 단일 형태소가 지역명인 경우를 말한다.In addition, the HMM state type means the entity name configuration state type that can be taken by the component morpheme of the input sentence. In other words, S_LOC refers to the state of morphemes that can come from the first vocabulary of the local name, C_LOC refers to the state of morphemes to come from the middle vocabulary of the local name, and E_LOC refers to the state names of morphemes that can come from the last vocabulary of the local name. For example, U_LOC refers to the case where a single morpheme is a local name.

예컨대, '대전 국립 중앙 박물관'이라는 문장에 대하여 형태소 분석을 하고 나면, '국립/S_LOC', '중앙/C_LOC', '박물관/E_LOC'의 형태로 각각의 형태소에 상태 표지가 부착되고, 지역명에 해당하는 '대전'의 경우 '대전/U_LOC' 형태로 HMM 상태 타입이 결정된다.For example, after morphological analysis of the sentence `` Daejeon National Museum '', status markers are attached to each morpheme in the form of 'National / S_LOC', 'Central / C_LOC', and 'Museum / E_LOC'. In case of 'match', HMM status type is determined in 'match / U_LOC' form.

상기와 같이 HMM 자료 구조가 생성되고 나면, 상기 개체명 인식기(50)는 개체명 사전 DB(51)와 결합명사/접사사전 DB(52), 인접명사 사전 DB(52)를 이용하여 상기 형태소 분석기(10)에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식한다(S300).After the HMM data structure is generated as described above, the entity name recognizer 50 uses the entity name dictionary DB 51, the combined noun / adjective dictionary DB 52, and the neighbor noun dictionary DB 52. Recognize character qualities, individual name features, combined nouns / affixes, and adjacent noun features for each morpheme analyzed by (10) (S300).

상기 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질은 상기 개체명 인식기(50)가 전이확률과 어휘확률을 결정하기 위하여 사용되며, 이들 자질의 구성은 도 4b에 도시된 바와 같이 나타낸다.The textual feature, the entity name feature, the combined noun / adjective feature, and the adjacent noun feature for each of the morphemes are used by the entity name recognizer 50 to determine the transition probability and the lexical probability. As shown in 4b.

도 4b를 참조하면, 각각의 형태소들에 대한 자질은 문자형 자질(4b-1), 개체명 자질(4b-2), 결합명사/접사자질(4b-3), 인접명사 자질(4b-4)로 구성된다.Referring to FIG. 4B, the qualities for the respective morphemes are character qualities 4b-1, entity qualities 4b-2, associative nouns and affixes 4b-3, and adjacent noun qualities 4b-4. It consists of.

상기 문자형 자질(4b-1)은 숫자(DIGIT), 숫자와 문자의 복합 구성(DIGIT&LETTER), 한자(CHINESE), 영문자(ALPHABET), 철자(LETTER) 자질로 분류된 특정 자질값들로 구성된다. 예컨대, 어휘 '라스21'은 DIGIT&LETTER 자질형의 ContainsDigitAndLetter 자질값을 갖게된다.The character feature 4b-1 is composed of specific feature values classified into numbers (DIGIT), a combination of numbers and letters (DIGIT & LETTER), Chinese characters (CHINESE), English letters (ALPHABET), and spelling (LETTER) features. For example, the vocabulary 'ras 21' has a ContainsDigitAndLetter feature value of the DIGIT & LETTER feature type.

상기 개체명 자질(4b-2)은 개체명 사전 정보에 의존한다. 예컨대, 어휘 '김득구'가 인명사전에 존재한다면 DicPerson의 자질값을 갖게 된다. 여기서 통계정보는 어휘 김득구 대신에 자질값 DicPerson을 이용한 통계치를 제시하는 것이다.The entity name feature 4b-2 depends on the entity name dictionary information. For example, if the vocabulary 'Gim Deuk-gu' exists in the life dictionary, it has the value of DicPerson. In this case, the statistical information is to present statistics using the feature value DicPerson instead of the vocabulary Kim Duk-gu.

상기 결합명사/접사자질(4b-3)은 개체명 내부 구성 어휘들 중 빈번하게 사용되는 어휘나 접사들을 자질화 한 것이다. 예컨대, '천원'에서 '원'과 같은 화폐 단위의 경우 자질값 SuffixMoney로 취급된다.The combined noun / adjunct feature 4b-3 is a qualification of frequently used words or affixes among the internal names of the individual names. For example, monetary units such as 'won' to 'won' are treated as qualities SuffixMoney.

상기 인접명사 자질(4b-4)은 개체명 인접 구성 어휘들 중 빈번하게 사용되는 어휘들을 자질화 한 것이다. 예컨대, '이건회 사장'에서 사장은 인명(PERSON)의 지위를 나타내는 인접명사로 자질값 PositionPERSON으로 취급된다.The adjacent noun qualities 4b-4 are qualities of frequently used words among the constituent names adjacent constituent words. For example, in the president of Lee Kun Hoe, the president is a neighboring noun representing the status of PERSON and is treated as the feature value PositionPERSON.

상기 입력 텍스트의 각각의 형태소들에 대한 자질 인식 후, 상기 개체명 인식기(50)는 코트레이닝 학습기(40)에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당한다(S400).After recognizing the qualities of the respective morphemes of the input text, the entity name recognizer 50 uses the HMM entity name statistical information extracted by the coat-training learner 40 to determine the probability of transition and the vocabulary of the input text. Each probability is assigned (S400).

이때, 상기 개체명 인식기(50)는 코트레이닝 학습기(40)가 통계정보 추출기(20)에 의해 개체명 태깅 텍스트 집합으로부터 추출된 HMM 개체명 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 추출한 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 각각 생성된 HMM 자료 구조에서 연속된 두 개의 형태소들에 대한 개체명 상태정보의 변이 확률값을 나타내는 전이확률과 각 형태소 어휘에 대한 해당 개체명 상태정보들에 대한 확률값을 나타내는 어휘확률을 각각 할당한다.In this case, the entity name recognizer 50 performs the coarse lining learning based on the HMM entity name statistical information extracted from the entity name tagging text set by the statistical information extractor 20 and the general training text. Transition probability that represents the probability of variation of the entity name state information for two consecutive morphemes in the HMM data structure generated for the input text morphemes using HMM entity name statistical information extracted from the set, and the corresponding for each morpheme vocabulary. Allocates lexical probabilities representing probability values for entity name state information.

특히, 상기 코트레이닝 학습기(40)가 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하는 방법은 다음과 같이 수행된다.In particular, the method of extracting the HMM entity name statistical information from the general training text set by performing the coatlining learning process 40 is performed as follows.

먼저, 상기 코트레이닝 학습기(40)는 현재의 학습 뷰와 학습 횟수를 결정하고(S410) 일반 학습 텍스트 집합으로부터 일정량의 텍스트 집합을 랜덤 샘플링한 후(S415), 랜덤 샘플링된 텍스트 집합에 대하여 코트레이닝 학습 진행 방향을 결정하기 위하여 현재 지정된 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별한다(S420).First, the coatlining learner 40 determines the current learning view and the number of learning (S410), randomly samples a predetermined amount of text set from the general learning text set (S415), and then coats the randomly sampled text set. In order to determine the learning progress direction, it is determined whether the currently designated learning view is a forward model or a backward model (S420).

이때, 만약 현재의 학습 뷰가 포워드 모델로 판별되면 상기 코트레이닝 학습기(40)는 통계정보 추출기(20)가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 포워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하고(S425), 이에 따라서 얻어진 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가한다(S435).In this case, if the current learning view is determined as a forward model, the coat-lining learner 40 may tag the HMM-based entity name for the forward model based on the HMM statistical information extracted by the statistical information extractor 20 from the entity name tagging text set. The operation proceeds (S425), and thus n entity name tagging results having the highest probability value are extracted from the obtained entity name tagging result and added as new HMM statistical training data (S435).

반면에, 만약 현재의 학습 뷰가 백워드 모델로 판별되면 상기 코트레이닝 학습기(40)는 통계정보 추출기(20)가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 백워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하고(S430), 이에 따라서 얻어진 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가한다(S435).On the other hand, if the current learning view is determined as a backward model, the coat-lining learner 40 is based on the HMM based on the HMM statistical information extracted by the statistical information extractor 20 from the object name tagging text set. The entity name tagging operation is performed (S430), and n entity name tagging results having the highest probability value are extracted from the obtained entity name tagging result and added as new HMM statistical training data (S435).

이때, 상기 HMM 통계 학습 데이터 타입은 도 5a에 도시된 바와 같은 4가지 형태의 조합으로 구성된다. 즉, 형태소(MORP) 타입(5a-1), 어근(ROOT) 타입(5a-2), 형태소 태그(POS) 타입(5a-3), 자질(FEATURE) 타입(5a-4)의 형태로 추출되어 개체명에 대한 확률값을 계산하는데 이용된다.At this time, the HMM statistical learning data type is composed of a combination of four types as shown in FIG. That is, it extracts in the form of MORP type 5a-1, root type 5a-2, POS type 5a-3, and FEATURE type 5a-4. It is then used to calculate probability values for individual names.

예컨대, 도 5a에 있어서, 상기 자질 타입(5a-4)의 경우 '인디애나'는 지역명 사전에 있기 때문에 DicLOC 라는 자질값을 갖게 되고, '교수'의 경우는 인명의 지위로 쓰이기 때문에 PositionPERSON 값을 갖게 된다.For example, in FIG. 5A, in the case of the feature type 5a-4, 'Indiana' has a feature value of DicLOC because it is in the local name dictionary, and in the case of 'Professor', the PositionPERSON value is used. Will have

또한, 도 5b를 참조하여 상기 HMM 통계 학습 데이터로부터 실제 확률값이 어떻게 HMM에 적용되는지를 살펴보면 다음과 같다.In addition, referring to FIG. 5B, how the actual probability value is applied to the HMM from the HMM statistical learning data is as follows.

상기 형태소 타입(5b-1)을 보면 HMM의 학습 뷰 타입별로 포워드(Forward) 모델과 백워드(Backward) 모델로 구성되며, 각 모델은 상태 전이확률과 어휘확률의 곱을 단위로 하여 구성된다.Referring to the morpheme type 5b-1, each of the learning view types of the HMM includes a forward model and a backward model, and each model is configured based on a product of a state transition probability and a lexical probability.

상기 포워드 모델의 경우 상태 전이확률은 Pr(Si|Si-1, mi-1)이고 어휘확률은 Pr(mi|Si, mi-1)이다. 여기서, 형태소 mi-1의 상태 Si-1 은 NE_U이고, 다음 상태 Si는 -이므로, 상태 전이확률값은 count(-, NE_U, 의)/count(-, 의)로 계산된다. 반면에, 어휘확률값은 count(NE_U,의,스티클리츠)/count(NE_U,의)로 계산된다. 참고로, 영문자 NE는 개체명(Name Entity)을 의미한다.In the forward model, the state transition probability is Pr (S i | S i-1 , m i-1 ) and the lexical probability is Pr (m i | S i , m i-1 ). Here, since state S i-1 of morpheme m i-1 is NE_U and next state S i is-, the state transition probability value is calculated as count (-, NE_U,) / count (-,). On the other hand, the lexical probability value is calculated as count (NE_U, of Stitches) / count (NE_U, of). For reference, the English letter NE means Name Entity.

상기 포워드 모델과 백워드 모델의 차이점은 각 모델의 상태 전이확률로 설명할 수 있다. 포워드 모델의 경우 현재의 상태에 대한 확률값을 구할 때 이전 상태에 기반하여 확률값을 구하는 것인 반면에, 백워드 모델의 경우는 현재의 상태에 대한 다음 상태에 기반하여 확률값을 구한다. 다시 말하면, 포워드 모델은 좌측문맥을 고려한 확률 모델이고 백워드 모델은 우측문맥을 고려한 확률 모델인 것이다.The difference between the forward model and the backward model can be explained by the state transition probability of each model. In the forward model, the probability value is calculated based on the previous state when the probability value for the current state is obtained. In the forward model, the probability value is obtained based on the next state for the current state. In other words, the forward model is a probability model considering the left context and the backward model is a probability model considering the right context.

이처럼, 본 발명에 따른 한국어 텍스트 상의 개체명 인식 장치 및 방법은 상기한 HMM의 포워드/백워드 모델링 기법을 코트레이닝 학습에 적용하여 좌측 문맥의 통계 정보를 일반 텍스트에 적용하여 우측 문맥의 통계 정보를 추출하고, 우측 문맥의 통계 정보를 다시 일반 텍스트에 적용하여 좌측 문맥의 통계 정보를 추출하는 방식을 통해 HMM 증강학습 모델을 제시한다.As described above, the apparatus and method for recognizing an entity name in Korean text according to the present invention applies the forward / backward modeling technique of the HMM to coat-training learning, and applies statistical information of the left context to plain text to apply statistical information of the right context. The HMM augmented learning model is presented by extracting statistical information of the right context by applying the statistical information of the right context to the plain text again.

상기와 같이 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하고 나면(S435), 상기 코트레이닝 학습기(40)는 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지를 다시 판별한다(S440).After extracting n entity name tagging results having the highest probability values from the entity name tagging results and adding them as new HMM statistical training data (S435), the coat training learner 40 determines whether the current learning view is a forward model. In operation S440, the method determines whether the model is a backward model.

이때, 현재의 학습 뷰가 포워드 모델로 판별되면 상기 코트레이닝 학습기(40)는 개체명 태깅 결과로부터 백워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB(30)에 저장한 다음(S445), 백워드 모델 학습 데이터 갱신 작업을 진행하고(S450) 현재 학습 뷰를 백워드 모델로 변경한다(S455).At this time, if the current learning view is determined as a forward model, the coat-training learner 40 extracts HMM statistical information about the backward model from the entity name tagging result and stores it in the statistical information DB 30 (S445). The backward model training data update operation is performed (S450) and the current training view is changed to the backward model (S455).

반대로, 현재의 학습 뷰가 백워드 모델로 판별되면 상기 코트레이닝 학습기(40)는 개체명 태깅 결과로부터 포워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB(30)에 저장한 다음(S460), 포워드 모델 학습 데이터 갱신 작업을 진행하고(S465) 현재 학습 뷰를 포워드 모델로 변경한다(S470).On the contrary, if the current learning view is determined as a backward model, the coat-training learner 40 extracts HMM statistical information about the forward model from the entity name tagging result and stores it in the statistical information DB 30 (S460). The forward model training data update operation is performed (S465), and the current training view is changed to the forward model (S470).

이와 같이, 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경한 후 상기 코트레이닝 학습기(40)는 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업 단계(S415)와 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 단계(S455,S470)까지의 과정을 반복 진행한다(S480).As described above, after changing the current learning view to a backward model or a forward model, the coat-lining learner 40 performs a random sampling operation on the general training text set until the current learning count becomes a predetermined learning count. The process from step S415 and the steps of changing the current learning view to the backward model or the forward model (S455 and S470) are repeatedly performed (S480).

상기와 같이 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률이 각각 할당되고 나면, 상기 개체명 인식기(50)는 전이확률과 어휘확률이 할당된 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영한다(S500).After the transition probabilities and the lexical probabilities are assigned to the morphemes of the input text as described above, the entity name recognizer 50 performs information on the corresponding entity name state information for each morpheme vocabulary to which the transition probabilities and the lexical probabilities are assigned. The forward / backward probability considering the left and right contexts is recalculated and reflected (S500).

상기와 같이 포워드/백워드 확률을 다시 계산하여 전이확률과 어휘확률이 할당된 각각의 형태소에 반영하고 나면, 마지막으로 상기 개체명 인식기(50)는 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식한다(S600).After recalculating the forward / backward probabilities as described above and reflecting the transition probabilities and the lexical probabilities to the assigned morphemes, the entity name recognizer 50 finally uses the Viterbi algorithm to determine the input text. The optimal HMM entity name state information path of the morphemes constituting the sentences is determined to recognize the entity name (S600).

상술한 바와 같이 본 발명에 따른 한국어 텍스트 상의 개체명 인식 장치 및 방법은 HMM을 기반으로 하여 코트레이닝을 이용한 증강학습을 통하여 한국어 텍스트 상에서 개체명을 인식하도록 되어 있기 때문에, 수작업으로 구축된 학습 데이터를 통한 통계 정보 구축에 더하여 일반 텍스트를 이용한 통계 정보 구축을 확장하여 한국어에 적절한 성능의 개체명 인식 결과를 얻을 수 있는 장점이 있다.As described above, the apparatus and method for recognizing an individual name on Korean text according to the present invention is configured to recognize the individual name on Korean text through augmented learning using coat lining based on the HMM. In addition to the construction of statistical information through the expansion of statistical information construction using plain text, there is an advantage in that it is possible to obtain the result of recognizing the entity name with the proper performance in Korean.

이상에서 설명한 것은 본 발명에 따른 한국어 텍스트 상의 개체명 인식 장치 및 방법을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기한 실시예에 한정되지 않고, 이하의 특허청구의 범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.What has been described above is only one embodiment for implementing the apparatus and method for recognizing an object name on Korean text according to the present invention, and the present invention is not limited to the above-described embodiment, which is claimed in the following claims. Without departing from the gist of the present invention, anyone of ordinary skill in the art will have the technical spirit of the present invention to the extent that various modifications can be made.

도 1은 본 발명에 따른 한국어 텍스트 상의 개체명 인식 장치를 도시한 구1 is a diagram showing an apparatus for recognizing an entity name on Korean text according to the present invention.

성도,Saint,

도 2는 본 발명에 따른 한국어 텍스트 상의 개체명 인식 방법을 도시한 흐2 is a flowchart illustrating a method for recognizing an entity name on Korean text according to the present invention.

름도,Climbing,

도 3은 코트레이닝 학습기에 의해 일반 학습 텍스트 집합으로부터 통계 정보3 shows statistical information from the general training text set by the courtlining learner.

를 추출하는 방법을 도시한 흐름도,A flow chart illustrating a method of extracting

도 4a는 본 발명에 따른 개체명 타입과 각 개체명 타입별 HMM 상태 타입4A shows an entity name type and an HMM state type for each entity name type according to the present invention.

을 나타낸 도표,Diagram showing

도 4b는 본 발명에 따른 HMM의 어휘 확률과 상태 전이 확률을 결정하기 위한 Figure 4b is for determining the lexical probability and state transition probability of the HMM according to the present invention

자질 구성을 나타낸 도표,Diagram showing feature composition,

도 5a는 본 발명에 따른 통계 학습 데이터 타입의 구성과 예제를 나타낸 5A illustrates a configuration and an example of a statistical learning data type according to the present invention.

도표,graph,

도 5b는 본 발명에 따른 통계 학습 데이터 타입으로부터 실제 확률값이 어떻Figure 5b is the actual probability value from the statistical learning data type according to the present invention

게 HMM에 적용되는지를 나타낸 도표이다.This chart shows if the HMM applies to the HMM.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

10: 형태소 분석기 20: 통계정보 추출기10: stemmer 20: statistical information extractor

30: 통계정보DB 40: 코트레이닝 학습기30: Statistical Information DB 40: Coat Raining Learning Machine

50: 개체명 인식기 51: 개체명 사전DB50: object name recognizer 51: object name dictionary DB

52: 결합명사/접사 사전DB 53: 인접명사 사전DB52: combined nouns / adjuncts DB 53: adjacent nouns dictionary DB

Claims (9)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 형태소 분석기가 입력 텍스트의 형태소를 분석하여 형태소 리스트를 구성하는 단계와;A morpheme analyzer analyzing the morphemes of the input text to construct a morpheme list; 형태소 분석기가 분석된 각각의 형태소에 대한 개체명 상태정보들의 리스트로 된 HMM 자료 구조를 생성하는 단계;Generating an HMM data structure of a list of entity name state information for each morpheme analyzed by the morphological analyzer; 개체명 인식기가 개체명 사전 DB와 결합명사/접사사전 DB, 인접명사 사전 DB를 이용하여 상기 형태소 분석기에 의해 분석된 각각의 형태소들에 대한 문자형 자질, 개체명 자질, 결합명사/접사 자질, 인접명사 자질을 인식하는 단계;The entity name recognizer uses the entity name dictionary DB, the association noun / adjective dictionary DB, and the adjacency noun dictionary DB for character morphemes, entity names, association nouns / adjuncts, and neighbors for each morpheme analyzed by the morpheme analyzer. Recognizing noun qualities; 개체명 인식기가 코트레이닝 학습기에 의해 추출된 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 단계;Assigning, by the entity name recognizer, transition probabilities and lexical probabilities to the morphemes of the input text by using the HMM entity name statistical information extracted by the court training learner; 개체명 인식기가 전이확률과 어휘확률이 할당된 각각의 형태소 어휘에 대한 해당 개체명 상태정보들에 대하여 좌우 문맥을 고려한 포워드/백워드 확률을 다시 계산하여 반영하는 단계; 및The entity name recognizer recalculating and reflecting forward / backward probabilities in consideration of left and right contexts with respect to corresponding entity name state information of each morpheme vocabulary to which a transition probability and a lexical probability are assigned; And 개체명 인식기가 비터비 알고리즘을 통해 형태소 리스트로 구성된 입력 텍스트의 문장들을 구성하는 형태소들의 최적 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 단계Recognizing the entity name by determining the optimal HMM entity name state information path of the morphemes constituting the sentences of the input text composed of the morpheme list through the Viterbi algorithm. 로 이루어지는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법.Recognition method of the entity name on Korean text, characterized in that consisting of. 제 7 항에 있어서, 상기 개체명 인식기가 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 단계에서는8. The method of claim 7, wherein the entity name recognizer assigns the transition probability and the lexical probability to the morphemes of the input text, respectively. 코트레이닝 학습기가 통계정보 추출기에 의해 개체명 태깅 텍스트 집합으로부터 추출된 HMM 개체명 통계정보를 기반으로 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 추출한 HMM 개체명 통계정보를 이용하여 입력 텍스트의 형태소에 대하여 전이확률과 어휘확률을 각각 할당하는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법.The courtlining learner performs the courtlining learning based on the HMM entity name statistical information extracted from the object name tagging text set by the statistical information extractor and uses the HMM entity name statistical information extracted from the general training text set to form the input text. And a transition probability and a lexical probability are respectively assigned. 제 8 항에 있어서, 상기 코트레이닝 학습기가 코트레이닝 학습을 진행하여 일반 학습 텍스트 집합으로부터 HMM 개체명 통계정보를 추출하는 방법은10. The method of claim 8, wherein the method for extracting the HMM entity name statistical information from the general training text set by performing the coatlining learner. 현재의 학습 뷰와 학습 횟수를 결정하고 일반 학습 텍스트 집합으로부터 일정량의 텍스트 집합을 랜덤 샘플링하는 단계와;Determining a current learning view and the number of learning and randomly sampling a predetermined amount of text set from the general learning text set; 랜덤 샘플링된 텍스트 집합에 대하여 코트레이닝 학습 진행 방향을 결정하기 위하여 현재 지정된 학습 뷰가 포워드 모델인지, 백워드 모델인지 판별하는 단계;Determining whether the currently designated learning view is a forward model or a backward model to determine a direction of the training course for the random sampled text set; 현재의 학습 뷰가 포워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 포워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계;If the current learning view is determined as a forward model, the statistical information extractor performs a HMM-based entity name tagging operation on the forward model based on the HMM statistical information extracted from the entity name tagging text set and has the highest probability value from the entity name tagging result. extracting the n entity name tagging results and adding them as new HMM statistical training data; 현재의 학습 뷰가 백워드 모델로 판별되면 상기 통계정보 추출기가 개체명 태깅 텍스트 집합으로부터 추출한 HMM 통계정보를 기반으로 백워드 모델에 대한 HMM 기반 개체명 태깅 작업을 진행하여 개체명 태깅 결과로부터 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계 학습 데이터로 추가하는 단계;If the current learning view is determined as a backward model, the statistical information extractor performs a HMM based entity name tagging operation on the backward model based on the HMM statistical information extracted from the entity name tagging text set, thereby generating the highest probability value from the entity name tagging result. Extracting the n entity name tagging results with and adding it as new HMM statistical training data; 상기 최상위 확률값을 갖는 n개의 개체명 태깅 결과를 추출하여 새로운 HMM 통계학습 데이터로 추가한 후 현재의 학습 뷰가 포워드 모델인지, 백워드 모델인지를 다시 판별하는 단계;Extracting the n entity name tagging results having the highest probability value and adding them as new HMM statistical learning data and determining again whether the current learning view is a forward model or a backward model; 현재의 학습 뷰가 포워드 모델로 판별되면 개체명 태깅 결과로부터 백워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 백워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 백워드 모델로 변경하는 단계;If the current training view is determined as the forward model, the HMM statistical information about the backward model is extracted from the object name tagging result and stored in the statistical information DB. Then, the backward model training data is updated and the current training view is forward modeled. Changing to; 현재의 학습 뷰가 백워드 모델로 판별되면 개체명 태깅 결과로부터 포워드 모델에 대한 HMM 통계정보를 추출하여 통계정보DB에 저장한 다음 포워드 모델 학습 데이터 갱신 작업을 진행하고 현재 학습 뷰를 포워드 모델로 변경하는 단계; 및If the current training view is determined as the backward model, the HMM statistical information about the forward model is extracted from the object name tagging result, stored in the statistical information DB, and the forward model training data is updated and the current training view is changed to the forward model. Doing; And 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경한 후 현재 진행된 학습 횟수가 기 결정된 학습 횟수가 될 때까지 상기 일반 학습 텍스트 집합에 대한 랜덤 샘플링 작업 단계와 현재의 학습 뷰를 백워드 모델이나 포워드 모델로 변경하는 단계까지의 과정을 반복 진행하는 단계After changing the current training view to the backward model or the forward model, the random sampling operation step for the general training text set and the current training view are forward model or forward until the current training count becomes a predetermined training count. Repeat steps until you change to the model 로 이루어지는 것을 특징으로 하는 한국어 텍스트 상의 개체명 인식 방법.Recognition method of the entity name on Korean text, characterized in that consisting of.
KR10-2002-0078305A 2002-12-10 2002-12-10 Method for recognizing named entity in korean text KR100484943B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0078305A KR100484943B1 (en) 2002-12-10 2002-12-10 Method for recognizing named entity in korean text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0078305A KR100484943B1 (en) 2002-12-10 2002-12-10 Method for recognizing named entity in korean text

Publications (2)

Publication Number Publication Date
KR20040050461A KR20040050461A (en) 2004-06-16
KR100484943B1 true KR100484943B1 (en) 2005-04-25

Family

ID=37344653

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0078305A KR100484943B1 (en) 2002-12-10 2002-12-10 Method for recognizing named entity in korean text

Country Status (1)

Country Link
KR (1) KR100484943B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345695A (en) * 2018-03-20 2018-07-31 桂林电子科技大学 A kind of information attribute value abstracting method based on hidden Markov model

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100597437B1 (en) 2004-12-17 2006-07-06 한국전자통신연구원 Apparatus and method for recognizing hybrid answer type
KR100723404B1 (en) * 2005-03-29 2007-05-30 삼성전자주식회사 Apparatus and method for processing speech
KR100755678B1 (en) * 2005-10-28 2007-09-05 삼성전자주식회사 Apparatus and method for detecting named entity

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010064269A (en) * 1999-12-27 2001-07-09 오길록 3-D clustering representation system and method using hierarchical terms
KR20020072140A (en) * 2001-03-09 2002-09-14 서정연 Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010064269A (en) * 1999-12-27 2001-07-09 오길록 3-D clustering representation system and method using hierarchical terms
KR20020072140A (en) * 2001-03-09 2002-09-14 서정연 Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
은닉마르코프모델을 이용한 정보추출 논문. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345695A (en) * 2018-03-20 2018-07-31 桂林电子科技大学 A kind of information attribute value abstracting method based on hidden Markov model

Also Published As

Publication number Publication date
KR20040050461A (en) 2004-06-16

Similar Documents

Publication Publication Date Title
US7818165B2 (en) Method and system for language identification
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US7680649B2 (en) System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
Snyder et al. A statistical model for lost language decipherment
Elshafei et al. Statistical methods for automatic diacritization of Arabic text
Dien et al. Vietnamese Word Segmentation.
JP2008243227A (en) Method and apparatus for generating template used in handwritten character recognition
JP6799562B2 (en) Language feature extractor, named entity extractor, extractor, and program
Patil et al. Issues and challenges in marathi named entity recognition
KR100481598B1 (en) Apparatus and method for analyzing compounded morpheme
Tufiş et al. Automatic diacritics insertion in Romanian texts
KR100484943B1 (en) Method for recognizing named entity in korean text
KR102476104B1 (en) Construction device for pre-trained language model, expanding vocabulary method of pre-trained language model
Seon et al. Named Entity Recognition using Machine Learning Methods and Pattern-Selection Rules.
Othmane et al. POS-tagging Arabic texts: A novel approach based on ant colony
Alajmi et al. Hidden markov model based Arabic morphological analyzer
Nongmeikapam et al. A transliteration of CRF based Manipuri POS tagging
JP3531222B2 (en) Similar character string search device
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program
Wen Text mining using HMM and PMM
Daciuk Treatment of unknown words
Tran et al. Markov models for written language identification
Tien et al. Vietnamese Spelling Error Detection and Correction Using BERT and N-gram Language Model
Sari et al. MOrpho-LEXical analysis for correcting OCR-generated Arabic words (MOLEX)
Hurskainen et al. Computational description of verbs in disjoining writing systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100401

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee