KR100829401B1

KR100829401B1 - 세부분류 개체명 인식 장치 및 방법

Info

Publication number: KR100829401B1
Application number: KR1020070064985A
Authority: KR
Inventors: 이창기; 김현진; 황이규; 임수종; 왕지현; 최미란; 오효정; 이충희; 장명길; 이영직
Original assignee: 한국전자통신연구원
Priority date: 2006-12-06
Filing date: 2007-06-29
Publication date: 2008-05-15

Abstract

본 발명은 세부분류 개체명 인식 장치 및 방법에 관한 것으로, 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하는 것을 특징으로 한다. 따라서, 본 발명에 따르면 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 지닌 한국어에 적합한 세부분류 개체명 인식 결과를 얻을 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 효과가 있다. 또한, 본 발명에 따르면, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 효과가 있다.

세부분류 개체명 인식, 개체명 인식, N-Best 개체명 경계 인식, 대분류 개체명 분류, 세부분류 개체명 분류, 재순위, 텍스트 마이닝, 정보 추출

Description

세부분류 개체명 인식 장치 및 방법{THE METHOD AND APPARATUS FOR FINE-GRAINED NAMED ENTITY RECOGNITION}

도 1은 본 발명에 따른 세부분류 개체명 인식 장치를 나타낸 구성도이다.

도 2a 내지 도 2f는 본 발명에 따른 세부분류 개체명 인식 장치의 동작을 설명하기 위한 도면으로, 도 2a는 형태소 분석 결과를 나타낸 도면, 도 2b는 본 발명에서 사용되는 개체명 자질 구성을 나타낸 도표, 도 2c는 후보 개체명 인식 결과를 나타낸 도면, 도 2d는 본 발명에서 사용되는 대분류 개체명 및 세부분류 개체명을 기술한 도면, 도 2e는 대분류 개체명 분류 결과를 나타낸 도면, 도 2f는 세부분류 개체명 분류 결과를 나타낸 도면이다.

도 3은 본 발명에 따른 세부분류 개체명 인식 방법의 흐름도이다.

*도면의 주요부분에 대한 부호설명*

100 : 형태소 분석부

200 : 개체명 자질 인식부

300 : 후보 개체명 인식부

400 : 대분류 개체명 분류부

500 : 대분류 개체명 분류 재순위부

600 : 세부분류 개체명 분류부

본 발명은 세부분류 개체명 인식 장치 및 방법에 관한 것으로, 더 자세하게는 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라 세부분류 개체명 클래스의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습 시간이 크게 증가하지 않는 세부분류 개체명 인식 장치 및 방법에 관한 것이다.

일반적으로 개체명(Named entity)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현을 말한다. 개체명의 의미범주는 크게 인명, 지명, 기관명과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다.

정보의 양이 기하급수적으로 급증하면서 문서에서 자동으로 핵심어를 찾아내는 것은 정보추출이나 정보검색과 같은 자연어처리 응용에서 매우 중요한 작업이다. 이러한 핵심어의 대부분은 개체명으로, 개체명은 인명, 지명, 기관명과 같은 고유명사와 날짜, 시간, 화폐 등의 수치 표현으로 구분할 수 있다.

즉, 수치 표현은 비교적 단순한 문법에 의해 효과적으로 인식될 수 있지만 고유명사는 새로운 고유명사가 계속적으로 만들어지고 그 형태가 가변적이기 때문에 사전에 등록되지 않은 개체명을 인식하는 것은 쉬운 일이 아니다. 또한, 동일한 개체명이 문맥에 따라 다른 범주로 사용될 수 있다는 문제점이 있다.

이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 개체명 인 식(Rule-based approach), 통계 기반의 개체명 인식(Statistics-based approach), 그리고 두 가지 방법을 통합하여 접근하는 하이브리드 방식의 개체명 인식(Hybrid approach)으로 나누어 볼 수 있다.

상기 규칙 기반의 방법은 개체명 인식을 위한 규칙을 수동으로 구축하고, 고유명사 사전, 개체명 인식의 단서가 되는 단어사전, 개체명의 문맥으로 나오는 단어 사전 등 다양한 사전을 이용하여 개체명을 인식하는 방법이다. 그러나, 이 방법은 사람의 직관에 크게 의존하며, 새로운 도메인에 적용될 때 규칙과 사전이 변경되어야 하므로 많은 시간과 비용이 요구된다.

또한, 상기 통계 기반의 방법은 학습데이터로부터 개체명 인식에 필요한 지식을 자동적으로 학습하는 방법으로, 주로 철자, 품사, 형태소로부터 얻어낸 정보를 이용하여 개체명 인식을 위한 규칙을 학습한다. 하지만, 이 방법은 학습을 위해 대용량의 개체명 태깅 말뭉치(labeled text)가 필요하고 생략이나 축약 등의 다양한 어휘 특성을 반영하기 어려우며, 학습 데이터가 증가할 때 재학습이 필요하게 되는 문제점이 있다.

그리고, 하이브리드 방법은 규칙 기반의 방법과 통계 기반의 방법을 통합하여 보다 나은 결과를 얻기 위한 것으로 통계 기반의 모델에 규칙이나 어휘, 사전 등의 다양한 지식들을 결합하는 방식이다. 그러나 이 방법은 규칙 기반과 통계 기반의 문제점을 모두 가지고 있다고 볼 수 있다.

한편, 최근에는 상기와 같은 문제점을 보완하기 위한 보완적 접근 방법이 연구되고 있다.

이러한 보완적 접근 방법의 하나로서, 국내공개특허 제2004-0050461호(공개일 : 2004.06.16)에는 HMM(Hidden Markov model) 자료 구조를 생성한 후 코트레이닝(CoTraining) 학습을 통해 학습모델을 생성하고 비터비 알고리즘으로 최적의 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 "한국어 텍스트 상의 개체명 인식 장치 및 방법"이 개시되어 있다.

그러나, 상기 개체명 인식 장치는 HMM과 코트레이닝을 이용하여 한국어에 적합한 개체명 인식 결과를 얻을 수 있는 장점은 있지만, 대분류 개체명 인식만을 다루고 있고 세부분류 개체명 인식을 다루고 있지 않다는 문제점이 있다.

또 다른 보완적 접근 방법으로, 국내공개특허 제2006-0069616호(공개일 : 2006.06.21)에는 한국어의 정답유형을 인식하기 위해 음절 기반 정답유형 인식, 패턴 규칙 기반 정답유형 인식, 통계 기반 정답유형 인식을 수행한 후 그 정답유형의 세부분류를 인식하는 "하이브리드 정답유형 인식 장치 및 방법"이 개시되어 있다.

그러나, 상기 정답유형 인식 장치는 대분류 통계 기반 정답유형 인식 후에 세부분류 범주를 구분하도록 되어 있기 때문에, 세부분류 범주의 수가 증가할 경우 학습 시간 및 인식 시간이 크게 증가할 수 있으며, 대분류 정답유형 인식 결과에 에러가 존재할 경우 그 에러로 인해 세부범주 개체명 인식에 큰 악영향을 미치게 되는 문제점이 있다.

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 본 발명의 목적은 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐 만 아니라 세부분류 개체명 클래스의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습 시간이 크게 증가하지 않는 세부분류 개체명 인식 장치 및 방법을 제공하는 것이다.

또한, 본 발명의 다른 목적은 대분류 개체명 인식에서 오류가 발생하더라도 대분류 개체명 분류 결과의 재순위화 과정을 통해 오류를 제거하여 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 세부분류 개체명 인식 장치 및 방법을 제공하는 것이다.

상기 목적을 달성하기 위하여 본 발명에 따른 세부분류 개체명 인식 장치는, 입력 텍스트에 대하여 형태소 분석을 수행하는 형태소 분석부; 상기 각 형태소에 대한 개체명 자질을 인식하는 개체명 자질 인식부; 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 후보 개체명 인식부; 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 대분류 개체명 분류부; 상기 대분류 개체명 분류 결과를 재순위화하기 위한 대분류 개체명 분류 재순위부; 및 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 세부분류 개체명 분류부를 포함하는 것을 특징으로 한다.

한편, 상기 목적을 달성하기 위하여 본 발명에 따른 세부분류 개체명 인식 방법은, (a) 입력 텍스트에 대하여 형태소 분석을 수행하는 단계; (b) 상기 각 형태소에 대한 개체명 자질을 인식하는 단계; (c) 상기 개체명 자질 인식 결과를 기 반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 단계; (d) 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 단계; (e) 상기 대분류 개체명 분류 결과를 재순위화하는 단계; 및 (f) 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 단계를 포함하는 것을 특징으로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.

도 1은 본 발명에 따른 세부분류 개체명 인식 장치(1)를 나타낸 구성도이며, 도 2a 내지 도 2f는 본 발명에 따른 세부분류 개체명 인식 장치(1)의 동작을 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 본 발명에 따른 세부분류 개체명 인식 장치(1)는, 형태소 분석부(100), 개체명 자질 인식부(200), 후보 개체명 인식부(300), 대분류 개체명 분류부(400), 대분류 개체명 분류 재순위부(500), 세부분류 개체명 분류부(600), 모델 학습부(700), 세부분류 개체명 인식을 위한 사전들(D1, D2, D3, D4) 및 모델들(M1, M2, M3)로 이루어져 있다.

상기 형태소 분석부(100)는 입력 텍스트의 각 문장을 형태소 단위로 분석하기 위한 것으로, 예를 들어, "225명의 승객과 승무원을 태우고 대만을 떠나 홍콩으로 가던 대만의 중화항공 여객기가 25일 오후 대만해협에 추락했다" 라는 입력 텍스트의 형태소 분석 결과는 도 2a에 도시된 바와 같다.

상기 개체명 자질 인식부(200)는 상기 형태소 분석 결과를 기반으로 개체명 사전(D1), 결합명사/접사 사전(D2), 인접명사 사전(D3), 문맥단어 사전(D4)를 이용하여 각각의 형태소들에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질을 인식한다.

상기 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질에 대하여 도 2b를 참조하여 설명하면 다음과 같다.

도 2b는 본 발명에서 사용되는 개체명 자질 구성을 나타낸 도표로서, 각각의 형태소들에 대한 자질은 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질로 구성된다.

상기 개체명 자질은 개체명 사전(D1)에 저장된 정보에 의존한다. 예컨대, 어휘 '김득구'가 인명사전에 존재한다면 PERSON 자질형의 DicPerson의 자질값을 갖게 된다.

상기 결합명사/접사 자질은 개체명 내부 구성 어휘들 중 빈번하게 사용되는 어휘나 접사들을 자질화한 것이다. 예컨대, '천원'에서 '원'과 같은 화폐 단위의 경우 MONEY 자질형의 SuffixMoney 자질값으로 취급된다.

상기 인접명사 자질은 개체명 인접 구성 어휘들 중 빈번하게 사용되는 어휘들을 자질화한 것이다. 예컨대, '이건회 사장'에서 사장은 인명(PERSON)의 지위를 나타내는 인접명사로 PositionPERSON 자질값으로 취급된다.

상기 어휘의미 자질은 문맥단어 사전(D4)에 저장되어 있는 빌딩명, 도구명, 악기명 등의 어휘의미(SENSE)와 앞뒤 n개의 형태소에 따른 어휘의미(FEATURE)를 자 질화한 것이다. 예컨대, '군'의 경우 인명 '김갑수 군'과 지역명의 '연기 군' 둘 다로 해석되는 중의성을 갖고 있기 때문에 앞뒤 n개의 형태소를 이용하여 '군'의 개체명 자질값을 설정한다.

상기 개체명 자질 인식부(200)를 통해 각 형태소들에 대한 개체명 자질 인식이 완료되면, 상기 후보 개체명 인식부(300)에서는 상기 자질 인식 결과를 기반으로 모델 학습부(700)에 의해 학습된 개체명 인식 모델(M1)을 이용하여 후보 개체명들을 인식한다. 이 때, 상기 후보 개체명 인식부(300)는 상기 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가한 후 최종적으로 최상위 확률을 갖는 N개의 후보 개체명들을 인식하는데, 그 후보 개체명 인식 결과는 도 2c와 같이 순위화되어 저장된다.

도 2c에 도시된 바와 같이, 후보 개체명 인식 결과의 1순위에는 "승객"과 "승무원"이 후보 개체명으로 인식되어 있지 않지만, 후보 개체명 인식 결과의 2순위에는 "승객"과 "승무원"이 후보 개체명으로 인식되어 있음을 알 수 있다.

상기와 같은 후보 개체명 인식이 완료되면, 상기 대분류 개체명 분류부(400)는 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명을 분류하며, 상기 대분류 개체명에 대하여 도 2d를 참조하여 더 자세히 설명하면 다음과 같다.

도 2d는 본 발명에서 사용되는 대분류 개체명 및 세부분류 개체명을 기술한 것으로, 대분류 개체명은 인명(PERSON), 인공물(ARTIFACTS), 조직명(ORGANIZATION), 지역명(LOCATION), 문명/문화(CIVILIZATION), 날짜(DATE), 시간(TIME), 수량표현(QUANTITY), 사건(EVENT), 동물(ANIMAL), 식물(PLANT)로 나뉘 며, 각 대분류 개체명별로 세부분류 개체명이 분류되어 있다.

즉, 이와 같은 대분류 개체명에 따라 대분류 개체명 분류부(400)는 모델 학습부(700)에 의해 학습된 대분류 개체명 분류 모델(M2)을 이용하여 후보 개체명에 대한 대분류 개체명 분류를 수행한다. 이 때, 상기 대분류 개체명 분류부(400)는 상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가한 후 대분류 개체명 분류를 수행하며, 그 대분류 개체명 분류 결과 역시 도 2e와 같이 순위화되어 저장된다.

상기와 같은 대분류 개체명 분류가 완료되면, 상기 대분류 개체명 분류 재순위부(500)에서는 상기 개체명 인식 확률과 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하여, 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화한다.

예를 들어, 상기 도 2c에서 1순위의 개체명 인식 확률이 0.7, 2순위의 개체명 인식 확률이 0.6이고, 상기 도 2e에서 1순위의 대분류 개체명 분류 확률이 0.4, 2순위의 대분류 개체명 분류 확률이 0.5라고 가정하면, 1순위의 문장 확률은 0.7 * 0.4 = 0.28이고, 2순위의 문장 확률은 0.6 * 0.5 = 0.30이 된다. 따라서, 1순위 보다 2순위의 문장 확률이 더 높으므로, 이에 따라 상기 대분류 개체명 분류 재순위부(500)는 1순위와 2순위의 순위를 서로 바꿔 대분류 개체명 분류 결과를 재순위화한다.

즉, 이와 같은 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거함으로써 후술하는 세부분류 개 체명 인식이 정확하게 이루어질 수 있게 되는 것이다.

상기와 같은 대분류 개체명 분류 재순위가 완료되면, 상기 세부분류 개체명 분류부(600)는 상기 대분류 개체명 분류 재순위 결과를 기반으로 모델 학습부(700)에 의해 학습된 세부분류 개체명 분류 모델(M3)을 이용하여 도 2f와 같이 세부분류 개체명을 분류한다. 이 때, 상기 세부분류 개체명 분류부(600)는 상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가한 후 세부분류 개체명 분류를 수행하며, 그 세부분류 개체명 분류 구성은 상기 도 2d에 도시된 바와 같다.

한편, 상기 모델 학습부(700)는 다양한 학습데이터를 학습하여 개체명 인식을 위한 개체명 인식 모델(M1), 대분류 개체명 분류를 위한 대분류 개체명 분류 모델(M2), 세부분류 개체명 분류를 위한 세부분류 개체명 분류 모델(M3)을 생성하며, 상기와 같은 형태소 분석, 개체명 자질 인식, 후보 개체명 인식, 대분류 개체명 분류, 대분류 개체명 분류 재순위화, 세부분류 개체명 분류의 동일한 과정을 거쳐 각 모델을 생성한다.

이와 같이, 본 발명의 세부분류 개체명 인식 장치(1)는, 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 특히, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 갖는 한국어 문장의 세부분류 개체명 인식에 적합하며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 장점이 있다.

또한, 본 발명의 세부분류 개체명 인식 장치(1)는, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 장점이 있다.

이하, 본 발명에 따른 세부분류 개체명 인식 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.

우선, 텍스트가 입력되면(S310), 입력 텍스트의 각 문장을 형태소 단위로 분석한 후(S320), 상기 형태소 분석 결과를 기반으로 개체명 사전(D1), 결합명사/접사 사전(D2), 인접명사 사전(D3), 문맥단어 사전(D4)을 이용하여 각각의 형태소들에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질을 인식한다(S330).

상기 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질 인식에 대하여는 상기 도 2b와 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.

이와 같이 각 형태소들에 대한 개체명 자질 인식이 완료되면, 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델(M1)을 이용하여 후보 개체명들을 인식한다(S340). 이 때, 상기 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가한 후(S341), 최종적으로 최상위 확률을 갖는 N개 의 후보 개체명들을 인식하고(S342), 그 후보 개체명 인식 결과를 순위화하여 저장한다(S343).

상기와 같은 후보 개체명 인식이 완료되면, 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델(M2)을 이용하여 대분류 개체명을 분류한다(S350). 이 때, 상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가한 후(S351), 대분류 개체명 분류를 수행하고(S352), 그 대분류 개체명 분류 결과를 순위화하여 저장한다(S353).

상기와 같은 대분류 개체명 분류가 완료되면, 대분류 개체명 분류 결과를 재순위화하는데(S360), 우선 상기 후보 개체명 인식 단계(S340)로부터 얻어지는 개체명 인식 확률과, 상기 대분류 개체명 분류 단계(S350)로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산한 후(S361), 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화한다(S362).

상기와 같은 대분류 개체명 분류 재순위가 완료되면, 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델(M3)을 이용하여 세부분류 개체명을 분류한다(S370). 이 때, 상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가한 후(S371), 세부분류 개체명 분류를 수행한다(S372).

이와 같이, 본 발명의 세부분류 개체명 인식 방법은, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현 상이 빈번한 언어적 특성을 지닌 한국어 문장의 개체명 인식에 적합하다는 잇점이 있다.

또한, 본 발명의 세부분류 개체명 인식 방법은, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로 보다 정확하게 세부분류 개체명 인식을 수행할 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 잇점이 있다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으 로 해석되어야 할 것이다.

상기한 바와 같이 본 발명에 따르면, 종래의 대분류 개체명 클래스보다 보다 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 지닌 한국어에 적합한 성능의 세부분류 개체명 인식 결과를 얻을 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 효과가 있다.

또한, 본 발명에 따르면, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 효과가 있다.

Claims

입력 텍스트에 대하여 형태소 분석을 수행하는 형태소 분석부;

상기 각 형태소에 대한 개체명 자질을 인식하는 개체명 자질 인식부;

상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 후보 개체명 인식부;

상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 대분류 개체명 분류부;

상기 대분류 개체명 분류 결과를 재순위화하기 위한 대분류 개체명 분류 재순위부; 및

상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 세부분류 개체명 분류부를 포함하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서, 상기 개체명 자질 인식부는,

상기 형태소 분석 결과를 기반으로 개체명 사전, 결합명사/접사 사전, 인접명사 사전, 문맥단어 사전 중 적어도 어느 하나를 이용하여 상기 각 형태소에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질 중 적어도 어느 하나를 인식하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서, 상기 후보 개체명 인식부는,

상기 개체명 자질 인식 결과로부터 후보 개체명으로 새로 추가될 수 있는 어휘에 대한 개체명 자질을 추가하여, 상기 새로 추가된 개체명 자질을 포함하여 최상위 확률을 갖는 N개의 후보 개체명을 인식하고 상기 후보 개체명 인식 결과를 순위화하여 저장하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서, 상기 대분류 개체명 분류부는,

상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가하여 상기 대분류 개체명 분류를 수행하고 상기 대분류 개체명 분류 결과를 순위화하여 저장하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서, 상기 대분류 개체명 분류 재순위부는,

상기 후보 개체명 인식부로부터 얻어지는 개체명 인식 확률과 상기 대분류 개체명 분류부로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하여, 상기 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 5항에 있어서, 상기 대분류 개체명 분류 재순위부는,

상기 개체명 인식 확률과 상기 대분류 개체명 분류 확률을 곱하여 상기 문장 확률을 계산하고, 상기 계산된 문장 확률이 높은 순서대로 대분류 개체명 분류 결 과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서, 상기 세부분류 개체명 분류부는,

상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가하여 상기 세부분류 개체명 분류를 수행하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
제 1항에 있어서,

학습데이터를 이용하여 상기 개체명 인식 모델, 상기 대분류 개체명 분류 모델 및 상기 세부분류 개체명 분류 모델을 학습하는 모델 학습부를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
(a) 입력 텍스트에 대하여 형태소 분석을 수행하는 단계;

(b) 상기 각 형태소에 대한 개체명 자질을 인식하는 단계;

(c) 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 단계;

(d) 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 단계;

(e) 상기 대분류 개체명 분류 결과를 재순위화하는 단계; 및

(f) 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 단계를 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (a) 단계 이전에,

학습데이터를 이용하여 상기 개체명 인식 모델, 상기 대분류 개체명 분류 모델 및 상기 세부분류 개체명 분류 모델을 학습하는 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (b) 단계는,

상기 형태소 분석 결과를 기반으로 개체명 사전을 이용하여 상기 각 형태소에 대한 개체명 자질을 인식하는 제 1 단계와,

상기 형태소 분석 결과를 기반으로 결합명사/접사 사전을 이용하여 상기 각 형태소에 대한 결합명사/접사 자질을 인식하는 제 2 단계와,

상기 형태소 분석 결과를 기반으로 인접명사 사전을 이용하여 상기 각 형태소에 대한 인접명사 자질을 인식하는 제 3 단계와,

상기 형태소 분석 결과를 기반으로 문맥단어 사전을 이용하여 상기 각 형태소에 대한 어휘의미 자질을 인식하는 제 4 단계 중 적어도 어느 하나의 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (c) 단계는,

상기 개체명 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가하는 제 1 단계와,

상기 새로 추가된 개체명 자질을 포함하여 최상위 확률을 갖는 N개의 후보 개체명을 인식하는 제 2 단계와,

상기 후보 개체명 인식 결과를 순위화하여 저장하는 제 3 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (d) 단계는,

상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가하는 제 1 단계와,

상기 새로 추가된 대분류 개체명 분류 자질을 포함하여 상기 대분류 개체명 분류를 수행하는 제 2 단계와,

상기 대분류 개체명 분류 결과를 순위화하여 저장하는 제 3 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (e) 단계는,

상기 (c) 단계로부터 얻어지는 개체명 인식 확률과 상기 (d) 단계로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하는 제 1 단계와,

상기 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화하는 제 2 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 14항에 있어서, 제 1 단계는,

상기 개체명 인식 확률과 상기 대분류 개체명 분류 확률을 곱하여 상기 문장 확률을 계산하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 14항에 있어서, 제 2 단계는,

상기 계산된 문장 확률이 높은 순서대로 상기 대분류 개체명 분류 결과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
제 9항에 있어서, 상기 (f) 단계는,

상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가하는 제 1 단계와,

상기 새로 추가된 세부분류 개체명 분류 자질을 포함하여 상기 세부분류 개체명 분류를 수행하는 제 2 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.