KR100474823B1

KR100474823B1 - 자연어의품사태깅장치및그방법

Info

Publication number: KR100474823B1
Application number: KR1019980005601A
Authority: KR
Inventors: 임희석
Original assignee: 삼성전자주식회사
Priority date: 1998-02-23
Filing date: 1998-02-23
Publication date: 2005-03-16
Also published as: KR19990070636A

Abstract

본 발명은 자연어의 처리 과정에서 사용되는 품사 태깅 장치 및 그 방법에 관한 것으로서, 자연어의 문장을 입력하여 형태소를 분석하는 형태소 분석기 및 상기 형태소 분석기의 분석 결과에서 어휘적 모호성을 해소하는 모호성 해소기를 포함하는 자연어의 품사 태깅 장치에 있어서, 모호성 해소기는 형태소 분석기의 출력을 입력하여 긍정 언어 지식과 부정 언어 지식을 적용함으로써, 각 어절의 긍정 언어 지식에 따른 어절 태그를 선택하고, 부정 언어 지식에 따른 어절 태그를 제거하는 중의성 감소부; 중의성 감소부의 출력을 입력하고, 어절 태그가 선택되지 못한 어절들에 대해 확률값이 가장 큰 어절 태그를 선택하는 중의성 해소부; 및 중의성 해소부의 출력을 입력하고, 수정 언어 지식을 적용하여 오류를 보정하는 오류 수정부를 포함함을 특징으로 한다.

본 발명에 의하면, 통계 기반 품사 태깅의 처리 범위와 견고성을 유지하면서 규칙 기반 품사 태깅 방법과 같은 높은 정확도를 갖는 품사 태깅 시스템을 구현할 수 있다.

Description

자연어의 품사 태깅 장치 및 그 방법{Part of speech tagging apparatus and method of natural language}

본 발명은 자연어 처리장치에 관한 것으로서, 특히 자연어의 처리 과정에서 사용되는 품사 태깅 장치 및 그 방법에 관한 것이다.

자연어는 컴퓨터의 프로그래밍 언어와 같은 인공어(artificial language)에 비해 문법의 제약이 심하지 않고, 사용되는 영역이 제한되어 있지 않다. 따라서, 자연어는 문장을 구성하는 어절, 구문들이 문맥에 따라 한가지 이상의 품사, 구문 구조 또는 의미로 해석되는 모호성(ambiguity)을 갖는다. 자연어의 모호성이란 어절, 문장 또는 구문 구조 등 자연어를 구성하는 요소에 대한 하나 이상의 해석이 가능한 현상을 의미한다. 자연어를 올바르게 분석하고 이해하기 위해서는 자연어에서 발생하는 모호성을 해결하는 과정이 반드시 요구된다.

자연어에서 발생하는 모호성은 어휘적 모호성(lexical ambiguity), 구문적 모호성(syntactic ambiguity) 그리고 의미적 모호성(semantic ambiguity)으로 구분된다.

어휘적 모호성은 문장에 사용된 단어 또는 어절이 하나 이상의 품사 또는 형태소 분석 결과를 낳을 수 있음을 의미한다. 예를 들면, 어절 '나는'은 아래와 같이 5가지의 형태소 분석이 가능한 어휘적 모호성을 갖는다.

① 날_동사 + 는_관형형전성어미

② 나_동사 + 는_관형형전성어미

③ 나_보조용언 + 는_관형형전성어미

④ 나_명사 + 는_보조사

⑤ 나_대명사 + 는_보조사

구문적 모호성은 하나의 문법 구조가 두 가지 이상의 해석이 가능한 현상을 의미하며, 의미 모호성은 단어 또는 어절의 의미가 두 가지 이상으로 해석 가능한 현상을 의미한다.

품사 태깅(part-of-speech tagging)이란 문장내에서 단어가 사용된 문맥에 따라 각 단어에 올바른 품사 정보를 할당하는 과정을 말한다. 품사 태깅은 어휘 모호성으로 인한 구문 분석 단계에서의 과다한 부담을 줄이기 위한 전처리 과정으로 사용되며, 정보 검색 시스템에서 높은 재현율 및 정확도를 갖는 색인어와 검색어 추출을 위해 사용될 수 있다. 또한, 기계 번역, 언어 정보 획득 도구, 철자 검사, 사전 구축 등 자연어 처리의 제반 분야에서 필수적인 과정으로 인식되고 있다.

품사 태깅을 위한 접근법은 자연어 처리를 위한 접근법의 분류와 같이 규칙 기반 품사 태깅 방법과 통계 기반 품사 태깅 방법으로 구분할 수 있다.

통계 기반 접근방법은 실세계 자연어 용례들과 부속 정보를 포함하는 대량의 원시(raw) 또는 태깅된(tagged) 코퍼스(corpus)를 분석하고, 자연어에 대한 통계 정보를 추출하여 얻은 확률(probability) 또는 불확실성(uncertainty)을 이용하여 어휘적 모호성 문제를 확률적으로 해결하는 방법이다. 통계 기반 접근방법은 확률 또는 불확실성을 나타내는 통계 정보를 사용하므로 거의 모든 언어 현상에 적용할 수 있다는 확장성과 견고성을 갖는다. 하지만 실세계 언어 현상을 충분히 대표할 수 있는 양질의 코퍼스가 존재하지 않아 데이터 부족 문제(data sparseness problem)로 인해 태깅의 정확도가 저하되는 단점이 있다.

한편, 규칙 기반 접근 방법은 품사 태깅에 적용되는 공통적인 원리나 결정적인 규칙을 찾아내고, 이를 이용하여 어휘적 모호성을 결정적으로 해결하는 방법이다. 규칙 기반 접근법은 일관성 있는 결정적 규칙을 얻기가 어렵고, 많은 규칙들을 제어하기가 쉽지 않아 일반적으로 견고하지 못하지만 규칙이 적용될 수 있는 현상에 대해서는 높은 정확도를 갖고 모호성을 해결할 수 있다. 규칙 기반 품사 태깅 방법은 언어 지식을 품사 태깅 시스템에 반영하여 높은 정확도를 보인다. 하지만 규칙 기반 품사 태깅 방법은 다음과 같은 어려움으로 처리 범위가 넓지 못하고, 대량의 코퍼스로의 확장성이 좋지 않다는 단점이 있다. 첫째, 매우 자유롭고 다양한 언어 현상을 처리하기 위한 방대한 양의 규칙을 필요로 하고, 이를 획득하고 관리하기 위하여 많은 비용을 필요로 한다. 둘째, 규칙과 같은 결정적인 지식으로 해결할 수 없는 자연어가 포함하는 많은 예외적인 언어 현상을 처리하기 어렵다. 만약 처리 범위를 확장하기 위하여 많은 비용을 들여 규칙을 확장하더라도 규칙의 개수가 증가할수록 상호 충돌하는 규칙이 많아지며, 이를 제어할 수 있는 방법이 필요하게 된다. 셋째, 많은 언어 현상을 반영하기 위하여 규칙을 증가시킬 경우 특정 현상에 효과적인 규칙이 다른 언어 현상에도 제대로 적용될 것임을 보장할 수 없다.

통계 기반 품사 태깅 방법은 대량의 코퍼스로부터 추출한 통계 정보를 사용하여 가장 확률이 높은 결과를 선택함으로써 다양한 언어 현상에 적용할 수 있다. 또한 확률값과 같은 비결정적인 정보를 사용함으로써 비문장(ill-sentence)이나 언어 규칙으로 설명할 수 없는 현상에도 적용할 수 있다는 장점을 갖는다. 하지만 통계 기반 접근 방법은 다음과 같은 어려움으로 규칙 기반 접근 방법에 비하여 정확도가 낮다는 단점이 있다.

첫째, 실세계의 언어 현상을 제대로 반영할 수 있는 양질의 코퍼스를 구축하기 매우 어려우므로, 코퍼스로부터 통계 정보를 추출할 때 데이터 부족 문제가 심각하게 발생한다.

둘째, 통계 기반 접근법에서 사용하는 모델은 데이터 부족 문제의 완화와 통계 정보량의 감소를 위하여 근거리 정보(local information)만을 사용한다. 하지만 자연어에는 근거리 문맥 정보만으로는 해결될 수 없는 현상들이 많이 발생한다. 셋째, 통계 기반 품사 태깅 방법에 의해서는 많은 양의 파라미터(parameter)를 요구하는 어휘간의 관계를 모델링하는 것이 어렵다. 따라서 어휘간의 관계를 고려하여 품사의 모호성을 정확하게 해결할 수 있는 단어에 대해서도 품사 태깅을 부정확하게 수행할 수 있다.

넷째, 통계 기반 품사 태깅 방법은 품사 태깅 가능한 모든 품사열 중 확률값이 최대인 품사열을 선택한다. 따라서 언어 지식을 이용하여 정확하게 품사 태깅을 수행할 수 있는 단어에 대해서도 신뢰도가 낮은 통계 정보를 사용함으로써 품사 태깅의 정확도가 저하된다.

본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 기존의 규칙 기반 품사 태깅의 장점과 통계 기반 품사 태깅의 장점을 통합하여, 통계 기반 품사 태깅 방법과 같은 넓은 처리범위를 가지며, 규칙 기반 품사 태깅 방법과 같은 정확도를 갖는 품사 태깅 장치 및 그 방법을 제공함을 그 목적으로 한다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 자연어의 문장을 입력하여 형태소를 분석하는 형태소 분석기 및 상기 형태소 분석기의 분석 결과에서 어휘적 모호성을 해소하는 모호성 해소기를 포함하는 자연어의 품사 태깅 장치에 있어서, 상기 모호성 해소기는 상기 형태소 분석기의 출력을 입력하여 긍정 언어 지식과 부정 언어 지식을 적용함으로써, 각 어절의 긍정 언어 지식에 따른 어절 태그를 선택하고, 부정 언어 지식에 따른 어절 태그를 제거하는 중의성 감소부; 상기 중의성 감소부의 출력을 입력하고, 어절 태그가 선택되지 못한 어절들에 대해 확률값이 가장 큰 어절 태그를 선택하는 중의성 해소부; 및 상기 중의성 해소부의 출력을 입력하고, 수정 언어 지식을 적용하여 오류를 보정하는 오류 수정부를 포함함을 특징으로 한다.

상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 자연어의 문장에 품사를 태깅하는 방법은 (a) 자연어의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계; (b) 상기 형태소 분석 결과에 긍정 언어 지식과 부정 언어 지식을 적용하여, 각 어절의 긍정 언어 지식에 따른 어절 태그를 선택하고, 부정 언어 지식에 따른 어절 태그를 제거하는 단계; (c) 상기 (b)단계에서 긍정 언어 지식과 부정 언어 지식에 의해서 품사를 할당받지 못한 어절들에 대해 확률값이 가장 높은 어절 태그를 선택하는 단계; 및 (d) 수정 언어 지식을 적용하여 상기 (b)단계 및 상기 (c)단계에 의한 품사 태깅 결과의 오류를 보정하는 단계를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

본 발명에 의한 품사 태깅 장치를 언어 지식과 통계 정보의 보완적 특성을 고려한 규칙 우선 직렬 품사 태깅 장치(rule-prior sequential POS tagging apparatus)라 명한다.

규칙 우선 직렬 품사 태깅 장치에 있어서, 규칙 우선이란 규칙(언어 지식)과 통계 정보가 동일한 언어 현상에 대해 다른 결과를 생성할 때, 규칙의 결과를 선호함을 의미한다. 그리고, 직렬의 의미는 품사 태깅을 할 때 언어 지식에 의한 결과와 통계 정보에 의한 결과를 모두 반영할 수 있도록 언어 지식과 통계 정보를 직렬적인 구조로 통합함을 의미한다.

도 1에 의하면, 규칙 우선 직렬 품사 태깅 장치는 형태소 분석기(100)와 모호성 해소기(110)를 포함하여 구성된다.

형태소 분석기(100)는 자연어의 문장을 입력하고, 사전 데이터베이스(105)를 이용하여 어절별로 형태소를 분석하고, 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성한다. 여기서, 어절 태그란 어절을 구성하는 형태소의 품사 태그의 열로 정의된다. 예를 들어, 어절 '학교는'은 '명사+조사' 형태의 어절 태그를 갖고, 어절 '먹은'은 '명사+조사', '동사+관형사형 전성어미'와 같은 두개의 어절 태그로 구성되는 중의성을 갖는다.

모호성 해소기(110)는 언어 지식을 이용하여 상기 형태소 분석 결과의 중의성을 감소시키고, 통계 정보를 이용하여 언어 지식에 의해서 중의성이 해소되지 않은 어절에 품사를 할당하고, 수정 언어 지식을 이용하여 언어 지식과 통계 정보에 의한 품사 태깅 오류를 수정한다. 상기 언어 지식(규칙) 및 확률 정보는 데이터베이스(115)로 관리된다.

도 2에 의하면, 모호성 해소기(110)는 언어 지식을 이용하여 원시 코퍼스의 중의성을 감소시키는 중의성 감소부(200), 통계 정보를 이용하여 언어 지식에 의해서 중의성이 해소되지 않은 어절에 품사를 할당하는 중의성 해소부(210) 및 수정 언어 지식을 이용하여 언어 지식과 통계 정보에 의한 품사 태깅 오류를 수정하는 오류 수정부(220)를 포함하여 구성된다.

중의성 감소부(200)는 언어 지식 획득기(205)에 의해 사전에 생성된 긍정/부정 언어 지식(202)을 이용하는 모듈로서, 높은 정확도를 가지고 결정적으로 중의성을 해소하거나 감소시킨다. 중의성 감소부(200)에서 사용하는 긍정/부정 언어 지식(202)은 특정한 품사를 선택하는 긍정 언어 지식과 부적절한 품사를 제거하는 부정 언어 지식으로 분류되며, 그 역할은 다음과 같다.

첫째, 긍정/부정 언어 지식(202)으로 정확하게 중의성을 해소할 수 있는 어절의 경우에는 낮은 신뢰도를 갖는 통계 정보를 적용함으로써 발생하는 품사 태깅의 오류가 최소화된다.

둘째, 특정 단어에 대한 부적절한 품사를 제거함으로써 통계 기반 품사 태거가 부적절한 품사를 포함한 품사열을 선택하는 오류를 감소시킨다.

긍정 언어 지식을 표현한 규칙은 어절 단위의 어휘 규칙이라 하며, 어절의 좌우에 나타난 어절의 표층 형태만을 이용하여 어휘적 중의성을 해결하는 규칙이다.

어절 단위의 어휘 규칙의 형태는 다음과 같다.

<P:N> <중심어> <문맥> = <태깅 결과>

<문맥> ::= {앞 어절}₀ ^P * {뒤 어절}₀ ^N

* : 중심어를 나타내는 표시

0≤P≤3, 0≤N≤3

상기 중심어는 모호한 형태소 분석이 가능한 어절을 나타내고, {앞 어절}₀ ^P과 {뒤 어절}₀ ^N은 중의성 해결에 사용되는 중심어 앞에 있는 P개의 어절과 중심어 뒤에 있는 N개의 어절을 의미한다. 상기한 '나는'의 예에서, '나는'을 위한 어절 단위의 어휘 규칙을 표현하면 다음과 같다.

[1:1] [나는] [하늘을 * 새를] = [날_동사+는_관형형어미]

상기의 규칙은 어절 '나는'이 '하늘을'과 '새를' 사이에서 사용된 경우에, '날_동사+는_관형형어미'로 품사 태깅한다는 의미를 나타낸다. 어절 단위의 어휘 규칙은 주변 어절의 어휘 단위의 정보를 중의성 해소 정보로 사용하는 매우 세분화된 규칙이다.

그런데, 어절 단위의 어휘 규칙은 모든 어절과 문맥에 대한 규칙이 존재하여야 하므로 규칙의 개수가 많아진다는 문제점이 발생한다. 규칙 개수의 증가는 규칙의 획득에 많은 수작업을 필요로 하고, 규칙 데이터베이스 구축에 큰 용량의 메모리 요구 및 탐색 속도 저하 문제 등을 초래할 수 있다. 따라서, 본 발명은 코퍼스 내에서 중의성이 존재하는 어절에 대해서 아래의 두 가지 조건 중 하나를 만족하는 중심 어절만을 어절 단위의 어휘 규칙으로 사용함으로써 규칙의 개수를 제한하고, 규칙의 적용 가능성을 최대화한다.

조건 ① : <중심어>의 발생 빈도가 100회 이상이고, 어절 단위의 어휘 규칙에서 사용되는 <문맥>의 빈도가 10회 이상이다.

조건 ② : <중심어>의 발생 빈도가 100회 이상이고 <중심어>가 이형 동품사 중의성을 갖는다.

조건 ①은 어절 단위의 어휘 규칙의 중심어를 코퍼스 내에서 발생 빈도가 높은 고빈도 어절에 한정시킴으로써 규칙의 개수를 제한하고, 어절 단위의 어휘 규칙이 넓은 적용 범위를 가질 수 있도록 하기 위함이다. 조건 ②는 <중심어>의 발생 빈도가 100회 이상이고, 이형 동품사 중의성을 가질 경우, <문맥>의 빈도와 관계없이 어절 단위의 어휘 규칙으로 만든다는 원칙을 의미한다. 이처럼 이형 동품사 중의성을 갖는 단어에 대해서는 모두 어절 단위의 어휘 규칙을 만드는 이유는 이형 동품사의 중의성은 통계 정보를 이용한 품사 태깅으로는 정확하게 해결하기 어려우며, 이들이 품사 태깅의 많은 오류로 발생하기 때문이다.

관용어구 어휘 규칙이란 주석 달린 코퍼스에서 같은 분석 결과로 특정 횟수 이상 나타나는 어절열 또는 형태소와 어절열의 품사 태깅 결과를 규칙화한 것이다. 본 발명에서 관용어구란 같은 품사 태깅 결과로 반복적으로 나타나는 두 개 이상의 어절열 또는 형태소와 어절이 결합된 문자열을 의미한다. 즉, 관용어구 어휘 규칙은 연어(collocation)적 속성을 갖는 단어들을 의미한다.

'(아닐^수^없, 아니_형용사+ㄹ_관형형어미^수_의존명사^없_형용사)'는 코퍼스로부터 학습한 관용어구 어휘 규칙의 예를 나타내고 있다. 이 규칙은 어절 '아닐', '수' 그리고 형태소 '없'이 연속하여 나타날 경우 각각 '아니_형용사+ㄹ_관형형어미^수_의존명사^없_형용사'로 품사 태깅하라는 의미이다.

어절 단위 어휘 규칙의 획득은 원시 코퍼스와 규칙 획득 도구를 이용하여 문법 전문가에 의해서 추출된다. 관용어구 어휘 규칙은 태깅된 코퍼스로부터 자동 학습된다.

중의성 해소부(210)는 중의성 감소부(200)의 결과를 입력으로 하고, 모든 어절에 대해 통계 정보 추출기(215)에 의해 사전에 생성된 통계 정보(212)를 이용하여 통계기반의 태깅을 수행함으로써, 중의성을 해소하고 각 어절에 품사를 할당한다.

오류 수정부(220)는 중의성 감소부(200)와 중의성 해소부(210)에 의한 품사 태깅 결과를 수정 언어 지식 학습기(225)에 의해 사전에 생성된 수정 언어 지식(222)을 이용하여 보정한다.

어절 태그를 수정할 수 있는 규칙을 추출하기 위해서 수정 언어 지식 학습기(225)는 다음에 예시된 것과 같은 규칙 틀을 사용한다.

· 앞(뒤) 어절 태그가 z인 경우

· 앞(뒤) 2번째 어절 태그가 z₁이고 앞(뒤) 1번째 어절 태그가 z₂인 경우

· 앞(뒤)의 두 어절 중 한 어절의 어절 태그가 z인 경우

· 앞(뒤)의 세 어절 중 한 어절의 어절 태그가 z인 경우

· 앞 어절의 어절 태그가 z₁이고 뒤 어절의 어절 태그가 z₂인 경우

· 앞(뒤) 어절의 TAIL(HEAD) 품사가 z인 경우

· 앞(뒤) 두 어절 중 한 어절의 TAIL(HEAD) 품사가 z인 경우

· 앞 어절의 TAIL 품사가 z₁이고 뒤 어절의 HEAD 품사가 z₂인 경우

· 앞(뒤) 어절이 z인 경우

· 앞(뒤) 2번째 어절이 z₁이고 앞(뒤) 1번째 어절이 z₂인 경우

· 앞(뒤)의 두 어절 중 한 어절이 z인 경우

· 앞(뒤)의 세 어절 중 한 어절이 경우 z인 경우

상기 규칙 틀은 크게 어절 태그, HEAD 또는 TAIL, 그리고 어절 자체의 문맥을 고려하는 형태로 나누어져 있다. 여기서, HEAD란 어절의 실질 형태소에 해당하는 형태소의 품사를 의미하고, TAIL은 형식형태소의 품사를 의미한다.

수정 언어 지식 학습기(225)에서 사용하는 알고리즘은 다음과 같다.

초기 태깅; /* 초기 태거에 의해서 원시 코퍼스를 태깅한다 */

do {

혼동 행렬 만들기;

GLOBALBEST = 0;

while ( 혼동행렬의 끝? ) {

if ( GLOBALBEST SCORE > 혼동행렬내의 COUNT ) break;

while ( Template화일의 끝? ) {

LOCALBEST = 최대 score값을 갖는 규칙 추출;

if ( LOCALBEST > GLOBALBEST ) GLOBALBEST 규칙 수정;

}

if ( GLOBALBEST < THRESHOLD ) break;

GLOBALBEST 규칙으로 코퍼스 수정;

} while ( 1 );

상기의 학습 알고리즘에서 LOCALBEST는 현재 추출된 규칙의 score값을 나타내며, GLOBALBEST는 추출된 규칙의 최대 score값을 나타낸다. GLOBALBEST 규칙은 score값이 최대인 규칙을 의미한다. 초기 태거에 의해서 태깅된 결과는 GLOBALBEST 규칙에 의해 수정된다. 학습 알고리즘은 수정된 코퍼스와 주석 달린 코퍼스와 비교하여 새로운 혼동 행렬을 만들고, GLOBALBEST 규칙을 추출하고, 이를 코퍼스에 적용하는 과정을 GLOBALBEST 값이 주어진 임계값, THRESHOLD보다 작을 때까지 반복한다.

모호성 해소기(110)에 포함된 중의성 감소부(200), 중의성 해소부(210) 그리고 오류 수정부(220)를 수학적으로 정의하면 다음과 같다.

먼저, 어절의 형태소 분석 결과를 수학식 1과 같이 정의한다.

중의성 감소부(200)는 n개의 어절로 이루어진 문장의 형태소 분석 결과를 입력으로 받아, 긍정/부정 언어 지식(202)을 적용하여 각 어절의 올바른 형태소 분석 결과를 선택하거나 부적절한 형태소 분석 결과를 제거하는 함수 R로서, 수학식 2와 같이 정의된다.

수학식 2에서 는 언어 지식이 적용되어 w_i의 부적절한 형태소 분석 결과가 제거되었거나 올바른 분석 결과만이 선택된 것을 의미한다.

중의성 감소부(200)에 의해서 중의성이 감소된 결과는 통계 기반 품사 태깅을 수행하는 중의성 해소부(210)의 입력으로 사용되며, 중의성 해소부(210)는 수학식 3과 같이 정의된다.

수학식 3은 통계 기반 품사 태거에 언어 지식이 적용됨을 의미한다. 즉, 중의성이 감소된 결과만을 이용하여 최대의 확률값을 갖는 를 계산함으로써 품사 태깅을 수행한다.

수학식 3에 의해서 품사 태깅된 결과를 수정 언어 지식(222)으로 보정하는 오류 수정부(220)는 수학식 4와 같이 정의한다.

수학식 4에서 는 수정 언어 지식(222)에 의해서 오류가 보정된 를 의미한다.

도 3에 의하면, 규칙 우선 직렬 품사 태깅 과정은 다음과 같다.

먼저, 자연어의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성한다(300 단계).

다음, 규칙이 적용될 수 있는 어절에 대해서 올바른 품사를 제외한 나머지 품사를 제거하거나 또는 부적절한 품사만을 제거함으로써 모호성을 감소시킨다. 따라서, 그 결과는 규칙이 적용된 어절들에 대해서는 부적절한 품사가 제거되지만, 규칙이 적용되지 않은 어절들에 대해서는 올바른 품사를 할당받지 못한 상태가 된다(310 단계).

규칙에 의해서 올바른 품사를 할당받지 못한 어절들은 통계 기반 품사 태깅에 의해서 처리된다. 통계 기반 품사 태거는 규칙에 의해서 부분적으로 모호성이 감소된 결과를 입력으로 사용하여 통계 기반 품사 태깅을 수행한다. 이렇게 규칙에 의한 결과를 통계 기반 품사 태깅의 입력으로 사용함으로써 규칙에 의한 언어 지식을 반영할 수 있고, 통계 기반 태깅의 오류를 최소화할 수 있다. 규칙에 의한 결과를 반영한 통계 기반 품사 태깅 후에는 모든 어절이 하나의 품사를 할당받게 된다(320 단계).

최종적으로, 수정 언어 지식이 적용되고, 수정 언어 지식에 의해서 언어 지식과 통계 정보에 의한 품사 태깅 결과의 오류를 보정한다(330 단계).

도 4에 의하면, 규칙 우선 직렬 품사 태깅 과정을 예를 이용하여 설명한다.

입력 문장은 5개의 어절로 이루어진 문장, "W1 W2 W3 W4 W5"이고, 이때의 올바른 품사 태깅 결과는 "W1_C12, W2_C22, W3_C31, W4_C41, W5_C52"라 가정한다.

먼저, 중의성 감소부(200)의 규칙에 의하여, 어절 W1, W3, W5의 품사로 각각 C12, C31 그리고 C52가 결정된다. 그리고, W2의 모호성은 그대로 남아있으며, 어절 W4에 대해서는 C43이 제거된다.

중의성 해소부(210)는 이러한 중의성 감소부(200)의 결과를 입력으로 받아, 규칙에 의해서 완전히 모호성이 해소된 C12, C31, C52를 포함하는 경로 중 확률값이 최대인 경로로 품사 태깅을 수행한다. 통계 기반 품사 태깅 결과는 "W1_C12, W2_C22, W3_C31, W4_C42, W5_C52"와 같으며, 규칙에 의해서 품사가 결정되지 않은 모든 어절에 품사를 할당한다.

그 결과, 단어 W4에는 잘못된 품사가 할당된다. 따라서, 이와 같은 언어 지식과 통계 정보에 의한 품사 태깅 결과는 수정 언어 지식에 의해서 보정되고, 최종적으로 "W1_C12 W2_C22, W3_C31, W4_C41, W5_C52"와 같은 품사 태깅 결과를 생성한다.

규칙 우선 직렬 품사 태깅 장치는 다음과 같은 네가지 방법에 의하여 통계 정보에 의한 품사 태깅의 정확도와 언어 지식에 의한 처리 범위를 향상시킨다.

첫째, 규칙에 의해서 정확하게 품사 태깅할 수 있는 언어 현상에 대해서는 신뢰도가 낮은 통계 정보를 적용하지 않고, 높은 정확도를 보이는 언어 지식을 이용하여 태깅함으로써 품사 태깅의 정확도를 향상시킨다.

둘째, 언어 지식이 반영된 결과를 통합에 사용되는 통계 기반 품사 태깅의 정확도를 향상시킴으로써 전체 태깅 모델의 정확도를 향상시킨다.

셋째, 언어 지식에 의해서 해결되지 않은 어절들은 언어 지식과 함께 사용되는 통계 정보를 이용하여 품사 태깅함으로써 처리 범위를 향상시킨다.

넷째, 규칙 언어 지식과 통계 정보에 의한 품사 태깅의 오류를 수정할 수 있는 수정 언어 지식을 자동 학습하고, 이를 이용하여 언어 지식을 반영한 통계 기반 품사 태깅의 정확도를 향상시킨다.

상기의 세 가지 방법 중, 첫째, 둘째, 넷째 방법은 품사 태깅의 정확도 향상을 위한 방법이고, 셋째 조건은 품사 태깅의 처리 범위를 향상시키기 위한 방법이다.

정확도 향상을 위하여 사용하는 방법 중 첫째, 둘째 방법을 충분히 활용하기 위해서는 거의 100%에 가까운 매우 높은 정확도를 갖는 언어 지식을 사용하는 것이 효과적이다. 하지만, 100%의 정확도를 보이는 규칙을 구축한다는 것은 매우 어려운 작업이며, 높은 정확도를 갖기 위하여 규칙의 형태가 세분화되어 규칙의 개수가 방대해 질 수도 있다. 따라서, 언어 지식을 표현하기 위한 규칙의 형태는 규칙의 정확도, 규칙 추출의 용이성, 규칙의 적용 범위, 그리고 규칙의 개수 등을 고려하여 설계되어야 한다.

처리 범위 향상을 위한 세 번째 방법을 위해서는, 통계 기반 품사 태거가 현재 안고 있는 문제점, 즉 미등록된 어절 문제 및 자료 부족 현상 등을 극복하여, 모든 어절에 대하여 항상 품사를 할당할 수 있는 것이 바람직하다.

그리고, 언어 지식과 통계 정보에 의한 오류를 수정하기 위한 수정 언어 지식은 한국어에서 발생하는 품사 태깅의 오류 유형 및 한국어의 첨가어적인 특성을 고려할 수 있어야 한다.

표 1에서 ‘중의성/어절’은 실험 데이터로 사용된 어절의 평균 중의성(중의적으로 형태소가 분석될 수 있는 수)을 나타낸다. ‘형태소 분석기의 정확도’는 형태소 분석기의 결과 중 올바른 결과가 하나라도 존재하면 정확하다라고 간주하고 계산한 결과이다.

표 2에서 사용된 정확도와 태깅률은 아래의 식에 의해서 계산된 결과이다.

‘임의 태깅’이란 한 어절의 가능한 형태소 분석 결과를 임의로 선택한 결과를 의미한다.

표 3은 통계 기반 품사 태깅의 정확도와 본 발명인 규칙 우선 직렬 품사 태깅 모델에 의한 품사 태깅의 정확도를 비교한 결과로서, 통계 기반 품사 태깅의 정확도를 평균 2.45% 정도 향상시켰음을 알 수 있다. 보통, 품사 태깅 시스템의 정확도는 높은 수준의 상태에서 2% 향상시키는 것이 낮은 수준에서 2% 만큼 향상시키는 것보다 훨씬 어렵다.

표 4는 규칙 기반 품사 태깅과 본 발명에 의한 품사 태깅의 태깅률을 비교한 결과이다. 표 4에서 볼 수 있듯이, 본 발명에 의한 품사 태깅은 데이터 1과 데이터 2에 대해서 평균 37.2% 향상시킴으로써 100%의 태깅률을 보인다.

다른 측면에서 살펴보면, 규칙 기반 품사 태깅 방법의 정확도를 유지하면서 통계 기반 품사 태깅과 같은 처리 범위와 견고성을 갖는 품사 태깅 시스템을 구현할 수 있다.

또한, 어휘적 중의성 해소 뿐만 아니라 구문적 중의성, 의미 중의성 해소를 위한 기존의 규칙 기반 접근법과 통계 기반 접근법의 통합에 적용할 수 있다.

도 1은 품사 태깅 장치의 구성을 도시한 블록도이다.

도 2는 본 발명에 의한 모호성 해소기의 구성을 도시한 블록도이다.

도 3은 본 발명에 의한 품사 태깅 과정을 도시한 흐름도이다.

도 4은 본 발명에 의한 품사 태깅 과정을 예를 들어 설명하기 위한 도면이다.

Claims

자연어의 문장에 대한 형태소 분석결과를 입력하여 긍정 언어 지식과 부정 언어 지식을 적용함으로써, 각 어절의 긍정 언어 지식에 따른 어절 태그를 선택하고, 부정 언어 지식에 따른 어절 태그를 제거하는 중의성 감소부;

상기 중의성 감소부의 출력을 입력하고, 어절 태그가 선택되지 못한 어절들에 대해 확률값이 가장 큰 어절 태그를 선택하는 중의성 해소부; 및

상기 중의성 해소부의 출력을 입력하고, 수정 언어 지식을 적용하여 오류를 보정하는 오류 수정부를 포함함을 특징으로 하는 자연어의 품사 태깅 장치.
(a) 자연어의 문장을 어절별로 형태소를 분석하여 가능한 모든 어절 태그의 리스트를 포함하는 형태소 분석 결과를 생성하는 단계;

(b) 상기 형태소 분석 결과에 긍정 언어 지식과 부정 언어 지식을 적용하여, 각 어절의 긍정 언어 지식에 따른 어절 태그를 선택하고, 부정 언어 지식에 따른 어절 태그를 제거하는 단계;

(c) 상기 (b)단계에서 긍정 언어 지식과 부정 언어 지식에 의해서 품사를 할당받지 못한 어절들에 대해 확률값이 가장 높은 어절 태그를 선택하는 단계; 및

(d) 수정 언어 지식을 적용하여 상기 (b)단계 및 상기 (c)단계에 의한 품사 태깅 결과의 오류를 보정하는 단계를 포함함을 특징으로 하는 자연어의 품사 태깅 방법.