KR100829401B1 - 세부분류 개체명 인식 장치 및 방법 - Google Patents
세부분류 개체명 인식 장치 및 방법 Download PDFInfo
- Publication number
- KR100829401B1 KR100829401B1 KR1020070064985A KR20070064985A KR100829401B1 KR 100829401 B1 KR100829401 B1 KR 100829401B1 KR 1020070064985 A KR1020070064985 A KR 1020070064985A KR 20070064985 A KR20070064985 A KR 20070064985A KR 100829401 B1 KR100829401 B1 KR 100829401B1
- Authority
- KR
- South Korea
- Prior art keywords
- classification
- entity name
- name
- entity
- recognition
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 세부분류 개체명 인식 장치 및 방법에 관한 것으로, 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하는 것을 특징으로 한다. 따라서, 본 발명에 따르면 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 지닌 한국어에 적합한 세부분류 개체명 인식 결과를 얻을 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 효과가 있다. 또한, 본 발명에 따르면, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 효과가 있다.
세부분류 개체명 인식, 개체명 인식, N-Best 개체명 경계 인식, 대분류 개체명 분류, 세부분류 개체명 분류, 재순위, 텍스트 마이닝, 정보 추출
Description
도 1은 본 발명에 따른 세부분류 개체명 인식 장치를 나타낸 구성도이다.
도 2a 내지 도 2f는 본 발명에 따른 세부분류 개체명 인식 장치의 동작을 설명하기 위한 도면으로, 도 2a는 형태소 분석 결과를 나타낸 도면, 도 2b는 본 발명에서 사용되는 개체명 자질 구성을 나타낸 도표, 도 2c는 후보 개체명 인식 결과를 나타낸 도면, 도 2d는 본 발명에서 사용되는 대분류 개체명 및 세부분류 개체명을 기술한 도면, 도 2e는 대분류 개체명 분류 결과를 나타낸 도면, 도 2f는 세부분류 개체명 분류 결과를 나타낸 도면이다.
도 3은 본 발명에 따른 세부분류 개체명 인식 방법의 흐름도이다.
*도면의 주요부분에 대한 부호설명*
100 : 형태소 분석부
200 : 개체명 자질 인식부
300 : 후보 개체명 인식부
400 : 대분류 개체명 분류부
500 : 대분류 개체명 분류 재순위부
600 : 세부분류 개체명 분류부
본 발명은 세부분류 개체명 인식 장치 및 방법에 관한 것으로, 더 자세하게는 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라 세부분류 개체명 클래스의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습 시간이 크게 증가하지 않는 세부분류 개체명 인식 장치 및 방법에 관한 것이다.
일반적으로 개체명(Named entity)이란 문서에서 나타나는 고유한 의미를 가지는 명사나 숫자 표현을 말한다. 개체명의 의미범주는 크게 인명, 지명, 기관명과 같은 이름 표현, 날짜나 시간과 같은 시간 표현, 금액이나 퍼센트와 같은 수치 표현으로 구분할 수 있다.
정보의 양이 기하급수적으로 급증하면서 문서에서 자동으로 핵심어를 찾아내는 것은 정보추출이나 정보검색과 같은 자연어처리 응용에서 매우 중요한 작업이다. 이러한 핵심어의 대부분은 개체명으로, 개체명은 인명, 지명, 기관명과 같은 고유명사와 날짜, 시간, 화폐 등의 수치 표현으로 구분할 수 있다.
즉, 수치 표현은 비교적 단순한 문법에 의해 효과적으로 인식될 수 있지만 고유명사는 새로운 고유명사가 계속적으로 만들어지고 그 형태가 가변적이기 때문에 사전에 등록되지 않은 개체명을 인식하는 것은 쉬운 일이 아니다. 또한, 동일한 개체명이 문맥에 따라 다른 범주로 사용될 수 있다는 문제점이 있다.
이러한 문제를 해결하기 위한 기존 연구들은 크게 규칙 기반의 개체명 인 식(Rule-based approach), 통계 기반의 개체명 인식(Statistics-based approach), 그리고 두 가지 방법을 통합하여 접근하는 하이브리드 방식의 개체명 인식(Hybrid approach)으로 나누어 볼 수 있다.
상기 규칙 기반의 방법은 개체명 인식을 위한 규칙을 수동으로 구축하고, 고유명사 사전, 개체명 인식의 단서가 되는 단어사전, 개체명의 문맥으로 나오는 단어 사전 등 다양한 사전을 이용하여 개체명을 인식하는 방법이다. 그러나, 이 방법은 사람의 직관에 크게 의존하며, 새로운 도메인에 적용될 때 규칙과 사전이 변경되어야 하므로 많은 시간과 비용이 요구된다.
또한, 상기 통계 기반의 방법은 학습데이터로부터 개체명 인식에 필요한 지식을 자동적으로 학습하는 방법으로, 주로 철자, 품사, 형태소로부터 얻어낸 정보를 이용하여 개체명 인식을 위한 규칙을 학습한다. 하지만, 이 방법은 학습을 위해 대용량의 개체명 태깅 말뭉치(labeled text)가 필요하고 생략이나 축약 등의 다양한 어휘 특성을 반영하기 어려우며, 학습 데이터가 증가할 때 재학습이 필요하게 되는 문제점이 있다.
그리고, 하이브리드 방법은 규칙 기반의 방법과 통계 기반의 방법을 통합하여 보다 나은 결과를 얻기 위한 것으로 통계 기반의 모델에 규칙이나 어휘, 사전 등의 다양한 지식들을 결합하는 방식이다. 그러나 이 방법은 규칙 기반과 통계 기반의 문제점을 모두 가지고 있다고 볼 수 있다.
한편, 최근에는 상기와 같은 문제점을 보완하기 위한 보완적 접근 방법이 연구되고 있다.
이러한 보완적 접근 방법의 하나로서, 국내공개특허 제2004-0050461호(공개일 : 2004.06.16)에는 HMM(Hidden Markov model) 자료 구조를 생성한 후 코트레이닝(CoTraining) 학습을 통해 학습모델을 생성하고 비터비 알고리즘으로 최적의 HMM 개체명 상태정보 경로를 결정하여 개체명을 인식하는 "한국어 텍스트 상의 개체명 인식 장치 및 방법"이 개시되어 있다.
그러나, 상기 개체명 인식 장치는 HMM과 코트레이닝을 이용하여 한국어에 적합한 개체명 인식 결과를 얻을 수 있는 장점은 있지만, 대분류 개체명 인식만을 다루고 있고 세부분류 개체명 인식을 다루고 있지 않다는 문제점이 있다.
또 다른 보완적 접근 방법으로, 국내공개특허 제2006-0069616호(공개일 : 2006.06.21)에는 한국어의 정답유형을 인식하기 위해 음절 기반 정답유형 인식, 패턴 규칙 기반 정답유형 인식, 통계 기반 정답유형 인식을 수행한 후 그 정답유형의 세부분류를 인식하는 "하이브리드 정답유형 인식 장치 및 방법"이 개시되어 있다.
그러나, 상기 정답유형 인식 장치는 대분류 통계 기반 정답유형 인식 후에 세부분류 범주를 구분하도록 되어 있기 때문에, 세부분류 범주의 수가 증가할 경우 학습 시간 및 인식 시간이 크게 증가할 수 있으며, 대분류 정답유형 인식 결과에 에러가 존재할 경우 그 에러로 인해 세부범주 개체명 인식에 큰 악영향을 미치게 되는 문제점이 있다.
따라서, 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 본 발명의 목적은 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐 만 아니라 세부분류 개체명 클래스의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습 시간이 크게 증가하지 않는 세부분류 개체명 인식 장치 및 방법을 제공하는 것이다.
또한, 본 발명의 다른 목적은 대분류 개체명 인식에서 오류가 발생하더라도 대분류 개체명 분류 결과의 재순위화 과정을 통해 오류를 제거하여 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 세부분류 개체명 인식 장치 및 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 세부분류 개체명 인식 장치는, 입력 텍스트에 대하여 형태소 분석을 수행하는 형태소 분석부; 상기 각 형태소에 대한 개체명 자질을 인식하는 개체명 자질 인식부; 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 후보 개체명 인식부; 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 대분류 개체명 분류부; 상기 대분류 개체명 분류 결과를 재순위화하기 위한 대분류 개체명 분류 재순위부; 및 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 세부분류 개체명 분류부를 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 세부분류 개체명 인식 방법은, (a) 입력 텍스트에 대하여 형태소 분석을 수행하는 단계; (b) 상기 각 형태소에 대한 개체명 자질을 인식하는 단계; (c) 상기 개체명 자질 인식 결과를 기 반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 단계; (d) 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 단계; (e) 상기 대분류 개체명 분류 결과를 재순위화하는 단계; 및 (f) 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 세부분류 개체명 인식 장치(1)를 나타낸 구성도이며, 도 2a 내지 도 2f는 본 발명에 따른 세부분류 개체명 인식 장치(1)의 동작을 설명하기 위한 도면이다.
도 1에 도시된 바와 같이, 본 발명에 따른 세부분류 개체명 인식 장치(1)는, 형태소 분석부(100), 개체명 자질 인식부(200), 후보 개체명 인식부(300), 대분류 개체명 분류부(400), 대분류 개체명 분류 재순위부(500), 세부분류 개체명 분류부(600), 모델 학습부(700), 세부분류 개체명 인식을 위한 사전들(D1, D2, D3, D4) 및 모델들(M1, M2, M3)로 이루어져 있다.
상기 형태소 분석부(100)는 입력 텍스트의 각 문장을 형태소 단위로 분석하기 위한 것으로, 예를 들어, "225명의 승객과 승무원을 태우고 대만을 떠나 홍콩으로 가던 대만의 중화항공 여객기가 25일 오후 대만해협에 추락했다" 라는 입력 텍스트의 형태소 분석 결과는 도 2a에 도시된 바와 같다.
상기 개체명 자질 인식부(200)는 상기 형태소 분석 결과를 기반으로 개체명 사전(D1), 결합명사/접사 사전(D2), 인접명사 사전(D3), 문맥단어 사전(D4)를 이용하여 각각의 형태소들에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질을 인식한다.
상기 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질에 대하여 도 2b를 참조하여 설명하면 다음과 같다.
도 2b는 본 발명에서 사용되는 개체명 자질 구성을 나타낸 도표로서, 각각의 형태소들에 대한 자질은 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질로 구성된다.
상기 개체명 자질은 개체명 사전(D1)에 저장된 정보에 의존한다. 예컨대, 어휘 '김득구'가 인명사전에 존재한다면 PERSON 자질형의 DicPerson의 자질값을 갖게 된다.
상기 결합명사/접사 자질은 개체명 내부 구성 어휘들 중 빈번하게 사용되는 어휘나 접사들을 자질화한 것이다. 예컨대, '천원'에서 '원'과 같은 화폐 단위의 경우 MONEY 자질형의 SuffixMoney 자질값으로 취급된다.
상기 인접명사 자질은 개체명 인접 구성 어휘들 중 빈번하게 사용되는 어휘들을 자질화한 것이다. 예컨대, '이건회 사장'에서 사장은 인명(PERSON)의 지위를 나타내는 인접명사로 PositionPERSON 자질값으로 취급된다.
상기 어휘의미 자질은 문맥단어 사전(D4)에 저장되어 있는 빌딩명, 도구명, 악기명 등의 어휘의미(SENSE)와 앞뒤 n개의 형태소에 따른 어휘의미(FEATURE)를 자 질화한 것이다. 예컨대, '군'의 경우 인명 '김갑수 군'과 지역명의 '연기 군' 둘 다로 해석되는 중의성을 갖고 있기 때문에 앞뒤 n개의 형태소를 이용하여 '군'의 개체명 자질값을 설정한다.
상기 개체명 자질 인식부(200)를 통해 각 형태소들에 대한 개체명 자질 인식이 완료되면, 상기 후보 개체명 인식부(300)에서는 상기 자질 인식 결과를 기반으로 모델 학습부(700)에 의해 학습된 개체명 인식 모델(M1)을 이용하여 후보 개체명들을 인식한다. 이 때, 상기 후보 개체명 인식부(300)는 상기 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가한 후 최종적으로 최상위 확률을 갖는 N개의 후보 개체명들을 인식하는데, 그 후보 개체명 인식 결과는 도 2c와 같이 순위화되어 저장된다.
도 2c에 도시된 바와 같이, 후보 개체명 인식 결과의 1순위에는 "승객"과 "승무원"이 후보 개체명으로 인식되어 있지 않지만, 후보 개체명 인식 결과의 2순위에는 "승객"과 "승무원"이 후보 개체명으로 인식되어 있음을 알 수 있다.
상기와 같은 후보 개체명 인식이 완료되면, 상기 대분류 개체명 분류부(400)는 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명을 분류하며, 상기 대분류 개체명에 대하여 도 2d를 참조하여 더 자세히 설명하면 다음과 같다.
도 2d는 본 발명에서 사용되는 대분류 개체명 및 세부분류 개체명을 기술한 것으로, 대분류 개체명은 인명(PERSON), 인공물(ARTIFACTS), 조직명(ORGANIZATION), 지역명(LOCATION), 문명/문화(CIVILIZATION), 날짜(DATE), 시간(TIME), 수량표현(QUANTITY), 사건(EVENT), 동물(ANIMAL), 식물(PLANT)로 나뉘 며, 각 대분류 개체명별로 세부분류 개체명이 분류되어 있다.
즉, 이와 같은 대분류 개체명에 따라 대분류 개체명 분류부(400)는 모델 학습부(700)에 의해 학습된 대분류 개체명 분류 모델(M2)을 이용하여 후보 개체명에 대한 대분류 개체명 분류를 수행한다. 이 때, 상기 대분류 개체명 분류부(400)는 상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가한 후 대분류 개체명 분류를 수행하며, 그 대분류 개체명 분류 결과 역시 도 2e와 같이 순위화되어 저장된다.
상기와 같은 대분류 개체명 분류가 완료되면, 상기 대분류 개체명 분류 재순위부(500)에서는 상기 개체명 인식 확률과 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하여, 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화한다.
예를 들어, 상기 도 2c에서 1순위의 개체명 인식 확률이 0.7, 2순위의 개체명 인식 확률이 0.6이고, 상기 도 2e에서 1순위의 대분류 개체명 분류 확률이 0.4, 2순위의 대분류 개체명 분류 확률이 0.5라고 가정하면, 1순위의 문장 확률은 0.7 * 0.4 = 0.28이고, 2순위의 문장 확률은 0.6 * 0.5 = 0.30이 된다. 따라서, 1순위 보다 2순위의 문장 확률이 더 높으므로, 이에 따라 상기 대분류 개체명 분류 재순위부(500)는 1순위와 2순위의 순위를 서로 바꿔 대분류 개체명 분류 결과를 재순위화한다.
즉, 이와 같은 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거함으로써 후술하는 세부분류 개 체명 인식이 정확하게 이루어질 수 있게 되는 것이다.
상기와 같은 대분류 개체명 분류 재순위가 완료되면, 상기 세부분류 개체명 분류부(600)는 상기 대분류 개체명 분류 재순위 결과를 기반으로 모델 학습부(700)에 의해 학습된 세부분류 개체명 분류 모델(M3)을 이용하여 도 2f와 같이 세부분류 개체명을 분류한다. 이 때, 상기 세부분류 개체명 분류부(600)는 상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가한 후 세부분류 개체명 분류를 수행하며, 그 세부분류 개체명 분류 구성은 상기 도 2d에 도시된 바와 같다.
한편, 상기 모델 학습부(700)는 다양한 학습데이터를 학습하여 개체명 인식을 위한 개체명 인식 모델(M1), 대분류 개체명 분류를 위한 대분류 개체명 분류 모델(M2), 세부분류 개체명 분류를 위한 세부분류 개체명 분류 모델(M3)을 생성하며, 상기와 같은 형태소 분석, 개체명 자질 인식, 후보 개체명 인식, 대분류 개체명 분류, 대분류 개체명 분류 재순위화, 세부분류 개체명 분류의 동일한 과정을 거쳐 각 모델을 생성한다.
이와 같이, 본 발명의 세부분류 개체명 인식 장치(1)는, 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 특히, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 갖는 한국어 문장의 세부분류 개체명 인식에 적합하며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 장점이 있다.
또한, 본 발명의 세부분류 개체명 인식 장치(1)는, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 장점이 있다.
이하, 본 발명에 따른 세부분류 개체명 인식 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 3은 본 발명에 따른 세부분류 개체명 인식 방법의 흐름도이다.
우선, 텍스트가 입력되면(S310), 입력 텍스트의 각 문장을 형태소 단위로 분석한 후(S320), 상기 형태소 분석 결과를 기반으로 개체명 사전(D1), 결합명사/접사 사전(D2), 인접명사 사전(D3), 문맥단어 사전(D4)을 이용하여 각각의 형태소들에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질을 인식한다(S330).
상기 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질 인식에 대하여는 상기 도 2b와 관련된 설명에서 자세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
이와 같이 각 형태소들에 대한 개체명 자질 인식이 완료되면, 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델(M1)을 이용하여 후보 개체명들을 인식한다(S340). 이 때, 상기 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가한 후(S341), 최종적으로 최상위 확률을 갖는 N개 의 후보 개체명들을 인식하고(S342), 그 후보 개체명 인식 결과를 순위화하여 저장한다(S343).
상기와 같은 후보 개체명 인식이 완료되면, 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델(M2)을 이용하여 대분류 개체명을 분류한다(S350). 이 때, 상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가한 후(S351), 대분류 개체명 분류를 수행하고(S352), 그 대분류 개체명 분류 결과를 순위화하여 저장한다(S353).
상기와 같은 대분류 개체명 분류가 완료되면, 대분류 개체명 분류 결과를 재순위화하는데(S360), 우선 상기 후보 개체명 인식 단계(S340)로부터 얻어지는 개체명 인식 확률과, 상기 대분류 개체명 분류 단계(S350)로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산한 후(S361), 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화한다(S362).
상기와 같은 대분류 개체명 분류 재순위가 완료되면, 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델(M3)을 이용하여 세부분류 개체명을 분류한다(S370). 이 때, 상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가한 후(S371), 세부분류 개체명 분류를 수행한다(S372).
이와 같이, 본 발명의 세부분류 개체명 인식 방법은, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현 상이 빈번한 언어적 특성을 지닌 한국어 문장의 개체명 인식에 적합하다는 잇점이 있다.
또한, 본 발명의 세부분류 개체명 인식 방법은, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로 보다 정확하게 세부분류 개체명 인식을 수행할 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 잇점이 있다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으 로 해석되어야 할 것이다.
상기한 바와 같이 본 발명에 따르면, 종래의 대분류 개체명 클래스보다 보다 세부적으로 정의된 세부분류 개체명 클래스를 인식할 수 있을 뿐만 아니라, 점차적으로 개체명 인식의 범위를 확장해 나가면서 개체명 인식을 수행한 후 그 개체명 인식 및 분류 결과를 재순위화하여 세부분류 개체명 인식을 수행하므로, 어순이 자유롭고 생략 현상이 빈번한 언어적 특성을 지닌 한국어에 적합한 성능의 세부분류 개체명 인식 결과를 얻을 수 있으며, 세부분류 개체명의 클래수의 수가 증가하더라도 세부분류 개체명 인식 시간 및 학습시간이 크게 증가하지 않는 효과가 있다.
또한, 본 발명에 따르면, 대분류 개체명 분류 결과의 재순위화 과정을 통해 대분류 개체명 인식에서 오류가 발생하더라도 그 오류를 제거할 수 있으므로, 보다 정확하게 세부분류 개체명 인식을 수행할 수 있는 효과가 있다.
Claims (17)
- 입력 텍스트에 대하여 형태소 분석을 수행하는 형태소 분석부;상기 각 형태소에 대한 개체명 자질을 인식하는 개체명 자질 인식부;상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 후보 개체명 인식부;상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 대분류 개체명 분류부;상기 대분류 개체명 분류 결과를 재순위화하기 위한 대분류 개체명 분류 재순위부; 및상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 세부분류 개체명 분류부를 포함하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서, 상기 개체명 자질 인식부는,상기 형태소 분석 결과를 기반으로 개체명 사전, 결합명사/접사 사전, 인접명사 사전, 문맥단어 사전 중 적어도 어느 하나를 이용하여 상기 각 형태소에 대한 개체명 자질, 결합명사/접사 자질, 인접명사 자질, 어휘의미 자질 중 적어도 어느 하나를 인식하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서, 상기 후보 개체명 인식부는,상기 개체명 자질 인식 결과로부터 후보 개체명으로 새로 추가될 수 있는 어휘에 대한 개체명 자질을 추가하여, 상기 새로 추가된 개체명 자질을 포함하여 최상위 확률을 갖는 N개의 후보 개체명을 인식하고 상기 후보 개체명 인식 결과를 순위화하여 저장하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서, 상기 대분류 개체명 분류부는,상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가하여 상기 대분류 개체명 분류를 수행하고 상기 대분류 개체명 분류 결과를 순위화하여 저장하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서, 상기 대분류 개체명 분류 재순위부는,상기 후보 개체명 인식부로부터 얻어지는 개체명 인식 확률과 상기 대분류 개체명 분류부로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하여, 상기 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 5항에 있어서, 상기 대분류 개체명 분류 재순위부는,상기 개체명 인식 확률과 상기 대분류 개체명 분류 확률을 곱하여 상기 문장 확률을 계산하고, 상기 계산된 문장 확률이 높은 순서대로 대분류 개체명 분류 결 과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서, 상기 세부분류 개체명 분류부는,상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가하여 상기 세부분류 개체명 분류를 수행하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- 제 1항에 있어서,학습데이터를 이용하여 상기 개체명 인식 모델, 상기 대분류 개체명 분류 모델 및 상기 세부분류 개체명 분류 모델을 학습하는 모델 학습부를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 장치.
- (a) 입력 텍스트에 대하여 형태소 분석을 수행하는 단계;(b) 상기 각 형태소에 대한 개체명 자질을 인식하는 단계;(c) 상기 개체명 자질 인식 결과를 기반으로 개체명 인식 모델을 이용하여 후보 개체명을 인식하는 단계;(d) 상기 후보 개체명 인식 결과를 기반으로 대분류 개체명 분류 모델을 이용하여 대분류 개체명을 분류하는 단계;(e) 상기 대분류 개체명 분류 결과를 재순위화하는 단계; 및(f) 상기 대분류 개체명 분류 재순위 결과를 기반으로 세부분류 개체명 분류 모델을 이용하여 세부분류 개체명을 분류하는 단계를 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (a) 단계 이전에,학습데이터를 이용하여 상기 개체명 인식 모델, 상기 대분류 개체명 분류 모델 및 상기 세부분류 개체명 분류 모델을 학습하는 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (b) 단계는,상기 형태소 분석 결과를 기반으로 개체명 사전을 이용하여 상기 각 형태소에 대한 개체명 자질을 인식하는 제 1 단계와,상기 형태소 분석 결과를 기반으로 결합명사/접사 사전을 이용하여 상기 각 형태소에 대한 결합명사/접사 자질을 인식하는 제 2 단계와,상기 형태소 분석 결과를 기반으로 인접명사 사전을 이용하여 상기 각 형태소에 대한 인접명사 자질을 인식하는 제 3 단계와,상기 형태소 분석 결과를 기반으로 문맥단어 사전을 이용하여 상기 각 형태소에 대한 어휘의미 자질을 인식하는 제 4 단계 중 적어도 어느 하나의 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (c) 단계는,상기 개체명 자질 인식 결과로부터 후보 개체명으로 추가될 수 있는 어휘에 대한 개체명 자질을 추가하는 제 1 단계와,상기 새로 추가된 개체명 자질을 포함하여 최상위 확률을 갖는 N개의 후보 개체명을 인식하는 제 2 단계와,상기 후보 개체명 인식 결과를 순위화하여 저장하는 제 3 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (d) 단계는,상기 후보 개체명 인식 결과로부터 새로 추가될 수 있는 대분류 개체명 분류 자질을 추가하는 제 1 단계와,상기 새로 추가된 대분류 개체명 분류 자질을 포함하여 상기 대분류 개체명 분류를 수행하는 제 2 단계와,상기 대분류 개체명 분류 결과를 순위화하여 저장하는 제 3 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (e) 단계는,상기 (c) 단계로부터 얻어지는 개체명 인식 확률과 상기 (d) 단계로부터 얻어지는 대분류 개체명 분류 확률을 이용하여 문장 확률을 계산하는 제 1 단계와,상기 계산된 문장 확률에 따라 대분류 개체명 분류 결과를 재순위화하는 제 2 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 14항에 있어서, 제 1 단계는,상기 개체명 인식 확률과 상기 대분류 개체명 분류 확률을 곱하여 상기 문장 확률을 계산하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 14항에 있어서, 제 2 단계는,상기 계산된 문장 확률이 높은 순서대로 상기 대분류 개체명 분류 결과를 재순위화하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
- 제 9항에 있어서, 상기 (f) 단계는,상기 대분류 개체명 분류 재순위 결과로부터 새로 추가될 수 있는 세부분류 개체명 분류 자질을 추가하는 제 1 단계와,상기 새로 추가된 세부분류 개체명 분류 자질을 포함하여 상기 세부분류 개체명 분류를 수행하는 제 2 단계를 더 포함하는 것을 특징으로 하는 세부분류 개체명 인식 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060122883 | 2006-12-06 | ||
KR20060122883 | 2006-12-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100829401B1 true KR100829401B1 (ko) | 2008-05-15 |
Family
ID=39650378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070064985A KR100829401B1 (ko) | 2006-12-06 | 2007-06-29 | 세부분류 개체명 인식 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100829401B1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150045177A (ko) | 2013-10-18 | 2015-04-28 | 에스케이텔레콤 주식회사 | 사용자 발화 스타일에 따른 대화형 서비스 장치 및 방법 |
KR101846824B1 (ko) | 2017-12-11 | 2018-04-09 | 가천대학교 산학협력단 | 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 |
KR101837262B1 (ko) | 2016-02-15 | 2018-04-20 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
KR20200068105A (ko) * | 2018-11-28 | 2020-06-15 | 주식회사 솔트룩스 | 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템 |
WO2022001333A1 (zh) * | 2020-06-30 | 2022-01-06 | 首都师范大学 | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 |
WO2023085499A1 (ko) * | 2021-11-12 | 2023-05-19 | 주식회사 솔트룩스 | 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816597A (ja) * | 1994-06-24 | 1996-01-19 | Oki Electric Ind Co Ltd | 単語辞書登録装置及び文書認識装置 |
JP2001067356A (ja) | 1999-08-31 | 2001-03-16 | Mitsubishi Electric Corp | 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
KR20020072140A (ko) * | 2001-03-09 | 2002-09-14 | 서정연 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
-
2007
- 2007-06-29 KR KR1020070064985A patent/KR100829401B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816597A (ja) * | 1994-06-24 | 1996-01-19 | Oki Electric Ind Co Ltd | 単語辞書登録装置及び文書認識装置 |
JP2001067356A (ja) | 1999-08-31 | 2001-03-16 | Mitsubishi Electric Corp | 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
KR20020072140A (ko) * | 2001-03-09 | 2002-09-14 | 서정연 | 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150045177A (ko) | 2013-10-18 | 2015-04-28 | 에스케이텔레콤 주식회사 | 사용자 발화 스타일에 따른 대화형 서비스 장치 및 방법 |
KR101837262B1 (ko) | 2016-02-15 | 2018-04-20 | 한국과학기술원 | 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법 |
KR101846824B1 (ko) | 2017-12-11 | 2018-04-09 | 가천대학교 산학협력단 | 개체명 인식시스템, 방법, 및 컴퓨터 판독가능매체 |
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN108460013B (zh) * | 2018-01-30 | 2021-08-20 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型及方法 |
KR20200068105A (ko) * | 2018-11-28 | 2020-06-15 | 주식회사 솔트룩스 | 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템 |
KR102130779B1 (ko) * | 2018-11-28 | 2020-07-08 | 주식회사 솔트룩스 | 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템 |
WO2022001333A1 (zh) * | 2020-06-30 | 2022-01-06 | 首都师范大学 | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 |
WO2023085499A1 (ko) * | 2021-11-12 | 2023-05-19 | 주식회사 솔트룩스 | 분류기의 오류를 검출하고, 분류기를 수정하는 기계 학습 기반 텍스트 분류 시스템 및 텍스트 분류 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108733653B (zh) | 一种基于融合词性和语义信息的Skip-gram模型的情感分析方法 | |
KR100829401B1 (ko) | 세부분류 개체명 인식 장치 및 방법 | |
Ezen-Can et al. | Unsupervised classification of student dialogue acts with query-likelihood clustering | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
Mohammed | Using machine learning to build POS tagger for under-resourced language: the case of Somali | |
Nerabie et al. | The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach | |
Meylan et al. | Word forms-not just their lengths-are optimized for efficient communication | |
Patoary et al. | Implementation of automated Bengali parts of speech tagger: An approach using deep learning algorithm | |
Varga et al. | Hungarian named entity recognition with a maximum entropy approach | |
Belay et al. | Impacts of homophone normalization on semantic models for amharic | |
Jandot et al. | Interactive semantic featuring for text classification | |
Hirpassa | Information extraction system for Amharic text | |
Maskat et al. | Categorization of malay social media text and normalization of spelling variations and vowel-less words | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
Chaturvedi et al. | Predicting word vectors for microtext | |
ALJOHANI | HYBRID FEATURE-DRIVEN ENSEMBLE LEARNING IN ARABIC NLP: FUSING SEQUENTIAL NEURAL NETWORKS WITH ADVANCED TEXT ANALYSIS TECHNIQUES | |
Elema | Developing Amharic Question Answering Model Over Unstructured Data Source Using Deep Learning Approach | |
Meechan-Maddon | The effect of noise in the training of convolutional neural networks for text summarisation | |
Zmandar et al. | Multilingual Financial Word Embeddings for Arabic, English and French | |
Worke | INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS | |
Trancoso et al. | The Impact of Language Technologies in the Legal Domain | |
Aparna et al. | A review on different approaches of pos tagging in NLP | |
Janicki | Statistical and Computational Models for Whole Word Morphology | |
AbdelRazzaq | Distinguishing nominal and verbal arabic sentences: A machine learning approach | |
Boisgard | State-of-the-Art approaches for German language chat-bot development |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130424 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20130730 Year of fee payment: 20 |